본문으로 이동

DALL-E

위키백과, 우리 모두의 백과사전.

DALL-E
원저자OpenAI
발표일2021년 1월 5일(3년 전)(2021-01-05)
안정화 버전
DALL·E 3 / 2023년 8월 10일(10개월 전)(2023-08-10)
종류변환기 언어 모델
웹사이트labs.openai.com

DALL·EDALL·E 2, DALL·E 3오픈AI가 개발한 자연어 서술로부터 이미지를 생성하는 기계 학습 모델이다. DALL-E는 2021년 1월 블로그 게시물에서 오픈AI에 의해 공개되었으며, 이미지 생성을 위해 개조된 GPT-3 버전을 사용한다.[1] 2022년 4월, 오픈AI는 DALL-E 2를 발표하였고 이는 콘셉트, 속성, 스타일을 합칠 수 있는 더 높은 해상도의 더 사실적인 이미지를 생성하기 위해 설계된 후속작이다.[2]

오픈AI는 DALL-E와 DALL-E 2 모델 어느 쪽에서도 소스 코드를 공개하지는 않았으나 한정적으로 선별된 샘플 프롬프트의 출력물은 오픈AI의 웹사이트에서 이용이 가능하다.[1] 2022년 7월 20일 기준으로 DALL-E 2는 100만 명의 대기 중인 개인들에게 전달되는 초대권과 함께 베타 단계에 진입했다.[3][4] 한때 도덕성과 안전에 관한 염려로 인해 이전에 선별된 사용자들에게는 연구 프리뷰로의 접근이 제한되었다.[5][6] 그럼에도 불구하고 적은 양의 데이터로 트레이닝된 여러 오픈 소스 모방품들이 다른 실체들에 의해 공개되었다.[7][8][9]

이 소프트웨어의 이름은 픽사의 애니메이션 로봇 캐릭터 월-E와 스페인의 현실주의 화가 살바도르 달리의 이름의 혼성어이다.[10][1]

기술[편집]

최초의 GPT 모델은 2018년 OpenAI에서 변환기 아키텍처를 사용하여 처음 개발되었다. 첫 번째 반복인 GPT-1은 2019년에 GPT-2를 생산하기 위해 확장되었다. 2020년에는 1,750억 개의 매개변수를 갖춘 GPT-3을 생산하기 위해 다시 규모가 확장되었다.

DALL-E의 모델은 인터넷의 텍스트-이미지 쌍에 대해 훈련된 "텍스트를 픽셀로 교환"하는 120억 개의 매개변수를 갖춘 GPT-3의 다중 모드 구현이다. 자세히 살펴보면 변환기 모델에 대한 입력은 토큰화된 이미지 캡션과 토큰화된 이미지 패치의 시퀀스이다. 이미지 캡션은 영어로 되어 있으며 바이트 쌍 인코딩(어휘 크기 16384)으로 토큰화되며 최대 256개의 토큰 길이일 수 있다. 각 이미지는 256x256 RGB 이미지로, 각각 4x4의 32x32 패치로 나뉜다. 그런 다음 각 패치는 개별 VAE에 의해 토큰(어휘 크기 8192)으로 변환된다.

DALL-E는 CLIP(Contrastive Language-Image Pre-training)과 연계하여 개발되어 대중에게 공개되었다. CLIP은 인터넷에서 스크랩한 텍스트 캡션이 포함된 4억 쌍의 이미지에 대해 훈련된 제로샷 학습을 기반으로 하는 별도의 모델이다. 그 역할은 데이터 세트에서 무작위로 선택된 32,768개의 캡션 목록(그 중 하나가 정답임)에서 이미지에 가장 적합한 캡션을 예측하여 DALL-E의 출력을 "이해하고 순위를 지정"하는 것이다. 이 모델은 가장 적절한 출력을 선택하기 위해 DALL-E에서 생성된 더 큰 초기 이미지 목록을 필터링하는 데 사용된다.

DALL-E 2는 이전 제품보다 적은 수인 35억 개의 매개변수를 사용한다. DALL-E 2는 추론 중에 이전 모델의 CLIP 텍스트 임베딩에서 생성된 CLIP 이미지 임베딩을 기반으로 한 확산 모델을 사용한다.

같이 보기[편집]

각주[편집]

  1. Johnson, Khari (2021년 1월 5일). “OpenAI debuts DALL-E for generating images from text”. VentureBeat. 2021년 1월 5일에 원본 문서에서 보존된 문서. 2021년 1월 5일에 확인함. 
  2. “DALL·E 2”. 《OpenAI》 (영어). 2022년 7월 6일에 확인함. 
  3. “DALL·E Now Available in Beta”. 《OpenAI》 (영어). 2022년 7월 20일. 2022년 7월 20일에 확인함. 
  4. Allyn, Bobby (2022년 7월 20일). “Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage”. 《NPR》 (영어). 2022년 7월 20일에 확인함. 
  5. “DALL·E Waitlist”. 《labs.openai.com》 (영어). 2022년 7월 6일에 확인함. 
  6. “From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art”. 《the Guardian》 (영어). 2022년 6월 18일. 2022년 7월 6일에 확인함. 
  7. Sahar Mor, Stripe (2022년 4월 16일). “How DALL-E 2 could solve major computer vision challenges”. 《VentureBeat》. 2022년 5월 24일에 원본 문서에서 보존된 문서. 2022년 6월 15일에 확인함. 
  8. Knight, Will. “Inside DALL-E Mini, the Internet's Favorite AI Meme Machine”. 《Wired》 (미국 영어). ISSN 1059-1028. 2022년 7월 6일에 확인함. 
  9. “Midjourney”. 《Midjourney》 (영어). 2022년 7월 20일에 확인함. 
  10. Coldewey, Devin (2021년 1월 5일). “OpenAI's DALL-E creates plausible images of literally anything you ask it to”. 2021년 1월 6일에 원본 문서에서 보존된 문서. 2021년 1월 5일에 확인함. 

외부 링크[편집]