A4

2024. 9. 12. 10:39공부

주제: 디퓨전 모델의 원리와 응용: Stable Diffusion, DALL-E 등의 작동 방식과 창작 산업에 미치는 영향

Diffusion Model

  • 2022년
  • 확산 모델 :
    • 학습된 데이터의 패턴을 생성해내는 역할을 수행
    • Denoising: 이러한 패턴 생성 과정을 학습하기 위해 → 고의적으로 패턴을 무너뜨리고 (노이즈) 다시 복원하는 조건부확률밀도함수를 학습
  • 종류
    • Stable Diffusion, DALL-E, Imagen, Audio Diffusion Models, Video Diffusion Models, Conditional Diffusion, Denoising Diffusion Probabilistic Models (DDPM) Models, Score-Based Generative Models 등

[중요 모델] 

Stable Diffusion

  • 스테이블 디퓨전 AI : 텍스트를 이미지로 생성하는 인공지능 모델 (생성형 AI)
    • 텍스트를 해석하여 상상 속의 이미지를 현실로 만들어준다.
    • Diffusion 모델의 한 종류
    가능한 기능
    • 텍스트 - 이미지/ 이미지 - 이미지/ 그래픽, 아트워크, 로고 /비디오 제작
    • 이미지 편집 및 수정
  • 작동 원리
    • “안정화”: 딥러닝 기술 활용하여 노이즈가 가득한 이미지에서 노이즈를 제거하여 원하는 이미지 생성
    • “텍스트 엠베딩”: 텍스트를 이해하고 이미지로 변환하기 위해 활용되는 기술
      • 단어나 문장을 수치 벡터로 변환하는 기술
      • 사용자의 의도를 정확하게 파악하고 이미지 생성 가능하게 한다.
    • “확산 모델”
      • 처음: 이미지 → 무작위적인 노이즈 추가 → 완전히 흐릿하게 만드는 과정으로 시작
      • But, 스테이블 디퓨전은 이 노이즈를 역으로 변환해 원하는 이미지 생성 = 흐릿한 사진을 선명하게 복원
        • 안정화 기술로 불필요한 노이즈 제거
      • 노이즈 제거, 이미지 생성 반복적으로 수행 → 사용자의 텍스트와 최대한 일치하는 이미지 생성
  • 중요한 이유
    • 이미지 생성에 추가 정보가 많이 필요하지 않다.
    • 접근이 용이하고 누구나 사용하기 쉽다. = 오픈 소스 모델
    • 이미지의 픽셀 공간을 사용하지 않고, 해상도가 낮은 잠재 공간을 사용한다.
      • 다른 이미지 생성 모델과 다르게 48배 더 작은 압축 이미지 사용
      = 데스크탑에서 해당 기술을 사용할 수 있는 이유

DALL-E

  • Open AI 의 chat GPT 속의 기능

Stable diffusion vs Dall-e 비교

  1. 접근성:
    • Stable Diffusion: 누구나 자유롭게 사용 가능
    • DALL-E: OpenAI의 서비스를 통해서만 사용 가능
  2. 커스터마이징:
    • Stable Diffusion: 완전한 커스터마이징과 fine-tuning 가능
    • DALL-E: 제한된 API 파라미터 조정만 가능
  3. 비용:
    • Stable Diffusion: 자체 호스팅 시 초기 설정 비용 외 추가 비용 없음
    • DALL-E: 사용량에 따른 지속적인 비용 발생
  4. 제어:
    • Stable Diffusion: 사용자가 모든 측면 제어 가능
    • DALL-E: OpenAI가 서비스 및 출력 제어
  5. 업데이트:
    • Stable Diffusion: 커뮤니티 주도의 빠른 업데이트와 개선
    • DALL-E: OpenAI에 의한 중앙 집중식 업데이트

[서비스 기획자 관점에서의 고려사항]

  1. Stable Diffusion 선택 시:
    • 높은 자유도와 커스터마이징 가능
    • 초기 개발 비용과 기술적 역량 필요
    • 지속적인 유지보수 책임
  2. DALL-E 선택 시:
    • 빠른 서비스 구축 가능
    • 안정적인 성능과 지원
    • 사용량에 따른 지속적인 비용
    • API 의존성으로 인한 제한사항 존재
📌오픈소스 vs api 차이

- API (Application Programming Interface)
응용 프로그램에서 특정한 기능을 사용하기 위해 필요한 데이터를 주고받게끔 만든 도구나 방법
1) 역할: 서버와 DB에 대한 출입구 역할: 허용된 사람들에게만 접근성 부여
              application과 기기가 원활하게 통신할 수 있도록 돕는 역할 모든
              접속 표준화
2) 유형 Private API: 내부적 발행, Public API: 개방형, Partner API: 특정인

ex, API = 손님과 요리사의 접점인 점원의 역할
손님(프로그램)이 주문할 수 있게 메뉴(명령 목록)을 정리하고, 주문(명령)을 받으면 요리사(응용프로그램)와 상호작용하여 요청된 메뉴(명령에 대한 값)를 전달하는 역할 수행

- 오픈 소스
누구나 제한 없이 쓸 수 있는 소스 코드 or 소프트웨어
열람, 수정, 복제, 재배포 등이 자유롭다.
중요한 이유 많은 사람들이 혁신을 실현할 수 있는 가능성을 열어 준다.

 

사용 사례

국내

  • 미리캔버스
    • 기능: AI 프레젠테이션 만들기, 디자인에 어울리는 요소 생성, AI 도구(드로잉, 포토, 로고, 일러스트, 캐리커쳐, 명화 따라 그리기, 캐릭터, 배경, 흑백사진 컬러 복원)
      • 좋은 점
        • 한국어 최적화된 AI 이미지 생성
        • 다양한 AI 기능
        • 생성하고자 하는 것에 대한 대본 작성 → 생성 가능
        • 대본 작성 ‘예시’에 대해 버튼 클릭시 → 다른 예시로 변경 가능
        • 각 도구마다 여러 선택지가 있다.
          • ex, 로고 → 영문레터링, 캐릭터, 심플버전, 캘리, 플랫, 빈티지, 일러스트, 캐릭터, 미니멀, 라인
      • 아쉬운 점
        • 프롬프트 작성에 대한 예시 ‘자세히 설명해보라’는 문구와 ‘예시’를 주고 있지만, 작성 법에 대한 TIP을 모달로 알려준다면 훨씬 사용자 입장에서 정보를 얻고 만족한 결과를 얻어갈 수 있을 것 같다.
          • 마음에 들지 않아 여러번 시도해 본 경험이 있음. (특히 무료 버전일 경우, 너무 아쉽다 → 유로 버전으로 갈 수 있는 전략)
          • 다른 예시로 변경 가능하나, 똑같은 말이고 내용만 바뀔 뿐.
  • 클로바 스튜디오(네이버)
    • 기능: 사투리 변환, 상품 리뷰 요약, 감정 분석, 콘텐츠 분류, TTS 등
      • diffusion 모델의 기능은 잘 모르겠다.
    • 좋은 점
      • 한국의 자체적인 모델
      • 코딩을 몰라도 텍스트를 기반으로 원하는 모델 생성 가능
      • 전문화된 AI 언어 모델 형성
      • 데이터 확장 및 배치 도구 사용
      • 네이버 서비스 API 연결해 체계적이고 정확도 높은 서비스 가능
        • 비즈니스 모델이 잘 만들어져 있음.
    • 아쉬운 점
      • 네이버 서비스 API를 활용하기 위해서, 개발자 입장에서는 정말 어렵다?

국외

  • Canva Text to Image(Canva)
  • Adobe Firefly(Adobe)
  • Midjourney(Discord 통합)
  • DALL-E 3 (Open AI)
  • Stable Diffusion Web UI

창작 산업 영향

  1. 생산성과 효율성
    • 하나의 작품을 생성하는 것에 있어 프로세스 가속화에 따른 시간 단축
    • 텍스트 OR 입력 데이터 만을 제공해 시각적 콘텐츠 생성할 수 있기 때문
  2. 창의성 증진
    • AI 모델은 발판이 되어 창작자에게 더 많은 아이디어 및 스타일을 제안
    • 서로의 협업을 통해 혁신적인 콘텐츠 및 시장 차별화 전략
      • 창작자와 AI 모델의 사용에 있어 균형을 잘 유지해야 함
  3. 창작에 대한 접근성 향상
    • 비전문가들도 창작에 대해 참여할 수 있는 기회 확대, 진입장벽 낮춤
    • 개인 맞춤 콘텐츠 생성 가능
  4. 시장 구조 변화
    • AI 모델 생성 → 창작자의 비용 구조 문제 발생
    • 다양한 산업에서 현재 생성형 AI를 통해 홍보 진행한 사례 다수
    • 시장 경쟁 구도가 AI VS 기존의 창작자
      • 서비스 기획자: AI와 인간 창작자의 특징을 나열해 적재적소할 줄 알아야 함.

4-1. 서비스 수익 모델

  • 유료화 전략: 프리미엄 서비스, 구독형 서비스 모델 도입
  • 라이선스 시스템: 상업적으로 사용할 경우 → 저작권 및 사용 권한을 부여해 수익 창출할 때마다 보상이 이루질 수 있도록 하는 구조

윤리적 고려 사항

  1. 저작권과 법적 문제
    • 원작자의 저작권 침해
    • AI 모델이 학습한 이미지의 저작권 문제, 소유권 문제
      • AI 이미지일 경우, 인식할 수 있는 방안이 존재해야 함.
      • STABLE DIFFUSION MODEL 사용해 생성하고 미리캔버스에서 이미지 판매해도 되는 것인가
  2. 데이터 편향성
    • AI 가 학습된 데이터에 따라 결과물이 편향될 수 있다.
      • AI 편향성 모니터링 시스템, 다양성 고려 학습 데이터 방법 등
    • 문화적 잠수성 및 다양성 부족
      • 다문화, 다양한 문화의 가치관을 고려할 수 있도록 학습
  3. 기술 의존성 및 창의성 저하
    • 과도한 AI 의존으로 인간의 사고력, 창의성 저하
      • AI를 창의성 증진 도구로 포지셔닝, 상호작용하며 성장해야 함.

< 저작권 침해 사례> 

Stable Diffusion, Midjourney 관련 소송

  • 여러 예술가들이 위 모델을 운영하는 회사를 상대로 저작권 침해 소송을 제기한 사건.
    • AI 모델 학습할 때, 인터넷에 공개된 예술 작품을 무단으로 수집하여 사용한 것으로 저작권 침해를 주장.

Getty Images 소송

  • 글로벌 이미지 제공사 Getty Images는 Stable Diffusion을 개발한 Stability AI를 상대로 소송 제기.
    • 무단으로 사용해 학습, AI가 생성한 이미지 일부에 Getty Images의 워터마크가 포함되어 있는 것이 발견되며 더 큰 주목을 받게 됨.Stable Diffusion, Midjourney 관련 소송
Insight
- AI를 창의성 증진 도구로, 사용자와 AI 기술이 상호작용하며 성장해야 함.
- 원작자와 Diffusion Model AI의 특징을 잘 고려하여, 서비스를 기획해야 함.