A4
2024. 9. 12. 10:39ㆍ공부
주제: 디퓨전 모델의 원리와 응용: Stable Diffusion, DALL-E 등의 작동 방식과 창작 산업에 미치는 영향
Diffusion Model
- 2022년
- 확산 모델 :
- 학습된 데이터의 패턴을 생성해내는 역할을 수행
- Denoising: 이러한 패턴 생성 과정을 학습하기 위해 → 고의적으로 패턴을 무너뜨리고 (노이즈) 다시 복원하는 조건부확률밀도함수를 학습
- 종류
- Stable Diffusion, DALL-E, Imagen, Audio Diffusion Models, Video Diffusion Models, Conditional Diffusion, Denoising Diffusion Probabilistic Models (DDPM) Models, Score-Based Generative Models 등
[중요 모델]
Stable Diffusion
- 스테이블 디퓨전 AI : 텍스트를 이미지로 생성하는 인공지능 모델 (생성형 AI)
- 텍스트를 해석하여 상상 속의 이미지를 현실로 만들어준다.
- Diffusion 모델의 한 종류
- 텍스트 - 이미지/ 이미지 - 이미지/ 그래픽, 아트워크, 로고 /비디오 제작
- 이미지 편집 및 수정
- 작동 원리
- “안정화”: 딥러닝 기술 활용하여 노이즈가 가득한 이미지에서 노이즈를 제거하여 원하는 이미지 생성
- “텍스트 엠베딩”: 텍스트를 이해하고 이미지로 변환하기 위해 활용되는 기술
- 단어나 문장을 수치 벡터로 변환하는 기술
- 사용자의 의도를 정확하게 파악하고 이미지 생성 가능하게 한다.
- “확산 모델”
- 처음: 이미지 → 무작위적인 노이즈 추가 → 완전히 흐릿하게 만드는 과정으로 시작
- But, 스테이블 디퓨전은 이 노이즈를 역으로 변환해 원하는 이미지 생성 = 흐릿한 사진을 선명하게 복원
- 안정화 기술로 불필요한 노이즈 제거
- 노이즈 제거, 이미지 생성 반복적으로 수행 → 사용자의 텍스트와 최대한 일치하는 이미지 생성
- 중요한 이유
- 이미지 생성에 추가 정보가 많이 필요하지 않다.
- 접근이 용이하고 누구나 사용하기 쉽다. = 오픈 소스 모델
- 이미지의 픽셀 공간을 사용하지 않고, 해상도가 낮은 잠재 공간을 사용한다.
- 다른 이미지 생성 모델과 다르게 48배 더 작은 압축 이미지 사용
DALL-E
- Open AI 의 chat GPT 속의 기능
Stable diffusion vs Dall-e 비교
- 접근성:
- Stable Diffusion: 누구나 자유롭게 사용 가능
- DALL-E: OpenAI의 서비스를 통해서만 사용 가능
- 커스터마이징:
- Stable Diffusion: 완전한 커스터마이징과 fine-tuning 가능
- DALL-E: 제한된 API 파라미터 조정만 가능
- 비용:
- Stable Diffusion: 자체 호스팅 시 초기 설정 비용 외 추가 비용 없음
- DALL-E: 사용량에 따른 지속적인 비용 발생
- 제어:
- Stable Diffusion: 사용자가 모든 측면 제어 가능
- DALL-E: OpenAI가 서비스 및 출력 제어
- 업데이트:
- Stable Diffusion: 커뮤니티 주도의 빠른 업데이트와 개선
- DALL-E: OpenAI에 의한 중앙 집중식 업데이트
[서비스 기획자 관점에서의 고려사항]
- Stable Diffusion 선택 시:
- 높은 자유도와 커스터마이징 가능
- 초기 개발 비용과 기술적 역량 필요
- 지속적인 유지보수 책임
- DALL-E 선택 시:
- 빠른 서비스 구축 가능
- 안정적인 성능과 지원
- 사용량에 따른 지속적인 비용
- API 의존성으로 인한 제한사항 존재
📌오픈소스 vs api 차이
- API (Application Programming Interface)
응용 프로그램에서 특정한 기능을 사용하기 위해 필요한 데이터를 주고받게끔 만든 도구나 방법
1) 역할: 서버와 DB에 대한 출입구 역할: 허용된 사람들에게만 접근성 부여
application과 기기가 원활하게 통신할 수 있도록 돕는 역할 모든
접속 표준화
2) 유형 Private API: 내부적 발행, Public API: 개방형, Partner API: 특정인
ex, API = 손님과 요리사의 접점인 점원의 역할
손님(프로그램)이 주문할 수 있게 메뉴(명령 목록)을 정리하고, 주문(명령)을 받으면 요리사(응용프로그램)와 상호작용하여 요청된 메뉴(명령에 대한 값)를 전달하는 역할 수행
- 오픈 소스
누구나 제한 없이 쓸 수 있는 소스 코드 or 소프트웨어
열람, 수정, 복제, 재배포 등이 자유롭다.
중요한 이유 많은 사람들이 혁신을 실현할 수 있는 가능성을 열어 준다.
사용 사례
국내
- 미리캔버스
- 기능: AI 프레젠테이션 만들기, 디자인에 어울리는 요소 생성, AI 도구(드로잉, 포토, 로고, 일러스트, 캐리커쳐, 명화 따라 그리기, 캐릭터, 배경, 흑백사진 컬러 복원)
- 좋은 점
- 한국어 최적화된 AI 이미지 생성
- 다양한 AI 기능
- 생성하고자 하는 것에 대한 대본 작성 → 생성 가능
- 대본 작성 ‘예시’에 대해 버튼 클릭시 → 다른 예시로 변경 가능
- 각 도구마다 여러 선택지가 있다.
- ex, 로고 → 영문레터링, 캐릭터, 심플버전, 캘리, 플랫, 빈티지, 일러스트, 캐릭터, 미니멀, 라인
- 아쉬운 점
- 프롬프트 작성에 대한 예시 ‘자세히 설명해보라’는 문구와 ‘예시’를 주고 있지만, 작성 법에 대한 TIP을 모달로 알려준다면 훨씬 사용자 입장에서 정보를 얻고 만족한 결과를 얻어갈 수 있을 것 같다.
- 마음에 들지 않아 여러번 시도해 본 경험이 있음. (특히 무료 버전일 경우, 너무 아쉽다 → 유로 버전으로 갈 수 있는 전략)
- 다른 예시로 변경 가능하나, 똑같은 말이고 내용만 바뀔 뿐.
- 프롬프트 작성에 대한 예시 ‘자세히 설명해보라’는 문구와 ‘예시’를 주고 있지만, 작성 법에 대한 TIP을 모달로 알려준다면 훨씬 사용자 입장에서 정보를 얻고 만족한 결과를 얻어갈 수 있을 것 같다.
- 좋은 점
- 기능: AI 프레젠테이션 만들기, 디자인에 어울리는 요소 생성, AI 도구(드로잉, 포토, 로고, 일러스트, 캐리커쳐, 명화 따라 그리기, 캐릭터, 배경, 흑백사진 컬러 복원)
- 클로바 스튜디오(네이버)
- 기능: 사투리 변환, 상품 리뷰 요약, 감정 분석, 콘텐츠 분류, TTS 등
- diffusion 모델의 기능은 잘 모르겠다.
- 좋은 점
- 한국의 자체적인 모델
- 코딩을 몰라도 텍스트를 기반으로 원하는 모델 생성 가능
- 전문화된 AI 언어 모델 형성
- 데이터 확장 및 배치 도구 사용
- 네이버 서비스 API 연결해 체계적이고 정확도 높은 서비스 가능
- 비즈니스 모델이 잘 만들어져 있음.
- 아쉬운 점
- 네이버 서비스 API를 활용하기 위해서, 개발자 입장에서는 정말 어렵다?
- 기능: 사투리 변환, 상품 리뷰 요약, 감정 분석, 콘텐츠 분류, TTS 등
국외
- Canva Text to Image(Canva)
- Adobe Firefly(Adobe)
- Midjourney(Discord 통합)
- DALL-E 3 (Open AI)
- Stable Diffusion Web UI
창작 산업 영향
- 생산성과 효율성
- 하나의 작품을 생성하는 것에 있어 프로세스 가속화에 따른 시간 단축
- 텍스트 OR 입력 데이터 만을 제공해 시각적 콘텐츠 생성할 수 있기 때문
- 창의성 증진
- AI 모델은 발판이 되어 창작자에게 더 많은 아이디어 및 스타일을 제안
- 서로의 협업을 통해 혁신적인 콘텐츠 및 시장 차별화 전략
- 창작자와 AI 모델의 사용에 있어 균형을 잘 유지해야 함
- 창작에 대한 접근성 향상
- 비전문가들도 창작에 대해 참여할 수 있는 기회 확대, 진입장벽 낮춤
- 개인 맞춤 콘텐츠 생성 가능
- 시장 구조 변화
- AI 모델 생성 → 창작자의 비용 구조 문제 발생
- 다양한 산업에서 현재 생성형 AI를 통해 홍보 진행한 사례 다수
- 시장 경쟁 구도가 AI VS 기존의 창작자
- 서비스 기획자: AI와 인간 창작자의 특징을 나열해 적재적소할 줄 알아야 함.
4-1. 서비스 수익 모델
- 유료화 전략: 프리미엄 서비스, 구독형 서비스 모델 도입
- 라이선스 시스템: 상업적으로 사용할 경우 → 저작권 및 사용 권한을 부여해 수익 창출할 때마다 보상이 이루질 수 있도록 하는 구조
윤리적 고려 사항
- 저작권과 법적 문제
- 원작자의 저작권 침해
- AI 모델이 학습한 이미지의 저작권 문제, 소유권 문제
- AI 이미지일 경우, 인식할 수 있는 방안이 존재해야 함.
- STABLE DIFFUSION MODEL 사용해 생성하고 미리캔버스에서 이미지 판매해도 되는 것인가
- 데이터 편향성
- AI 가 학습된 데이터에 따라 결과물이 편향될 수 있다.
- AI 편향성 모니터링 시스템, 다양성 고려 학습 데이터 방법 등
- 문화적 잠수성 및 다양성 부족
- 다문화, 다양한 문화의 가치관을 고려할 수 있도록 학습
- AI 가 학습된 데이터에 따라 결과물이 편향될 수 있다.
- 기술 의존성 및 창의성 저하
- 과도한 AI 의존으로 인간의 사고력, 창의성 저하
- AI를 창의성 증진 도구로 포지셔닝, 상호작용하며 성장해야 함.
- 과도한 AI 의존으로 인간의 사고력, 창의성 저하
< 저작권 침해 사례>
Stable Diffusion, Midjourney 관련 소송
- 여러 예술가들이 위 모델을 운영하는 회사를 상대로 저작권 침해 소송을 제기한 사건.
- AI 모델 학습할 때, 인터넷에 공개된 예술 작품을 무단으로 수집하여 사용한 것으로 저작권 침해를 주장.
Getty Images 소송
- 글로벌 이미지 제공사 Getty Images는 Stable Diffusion을 개발한 Stability AI를 상대로 소송 제기.
- 무단으로 사용해 학습, AI가 생성한 이미지 일부에 Getty Images의 워터마크가 포함되어 있는 것이 발견되며 더 큰 주목을 받게 됨.Stable Diffusion, Midjourney 관련 소송
Insight
- AI를 창의성 증진 도구로, 사용자와 AI 기술이 상호작용하며 성장해야 함.
- 원작자와 Diffusion Model AI의 특징을 잘 고려하여, 서비스를 기획해야 함.
'공부' 카테고리의 다른 글
스토리 보드, 플로우 차트, 랜딩페이지 제작 정리 (2) | 2024.12.13 |
---|---|
[서비스 소개] AI 시대, 독서와 공존하기 (0) | 2024.05.30 |
디자인 씽킹(Design Thinking) (1) | 2024.05.23 |
[BOOK] 서비스 기획자로 일하고 있습니다 _ 강승훈 ep.2 (0) | 2024.05.16 |
[BOOK] 서비스 기획자로 일하고 있습니다 _ 강승훈 ep.1 (0) | 2024.05.09 |