GPT-3

위키백과, 우리 모두의 백과사전.

Generative Pre-trained Transformer 3 (GPT-3)
원저자OpenAI[1]
발표일2020년 6월 11일 (베타)
저장소
대체한 소프트웨어GPT-2
대체된 소프트웨어GPT-4
종류자기회귀 변환기 언어 모델
웹사이트openai.com/blog/openai-api

생성적 사전학습 변환기 3(영어: Generative Pre-trained Transformer 3), GPT-3OpenAI에서 만든 딥러닝을 이용한 대형 언어 모델이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용해 만들어 졌다. 번역과 대화, 작문을 할 수 있으며, GPT-2에 비해 훨씬 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 어렵다.

OpenAI가 2020년에 출시한 자동 회귀 언어 모델로 딥 러닝을 사용하여 사람과 같은 텍스트를 생성한다. 프롬프트가 주어지면 프롬프트를 계속하는 텍스트를 생성한다.

이 아키텍처는 2048개의 토큰 길이 컨텍스트와 1,750억 개의 파라미터라는 전례 없는 크기를 가진 디코더 전용 변환기 네트워크로, 저장하는 데 800GB가 필요하다. 모델은 생성 사전 훈련을 사용하여 훈련되었다. 이전 토큰을 기반으로 다음 토큰이 무엇인지 예측하도록 훈련된다. 이 모델은 많은 작업에서 강력한 제로샷 및 퓨샷 학습을 보여주었다.[2]

GPT-2의 후속인 GPT-3는 샌프란시스코에 기반을 둔 인공 지능 연구소인 OpenAI에서 만든 기초 모델인 GPT 시리즈의 3세대 언어 예측 모델이다.[3] 2020년 5월에 도입되어 2020년 7월 기준으로 베타 테스트 중인[4] GPT-3는 사전 훈련된 언어 표현의 자연어 처리(NLP) 시스템 트렌드의 일부이다.[1]

GPT-3에 의해 생성된 텍스트의 품질은 너무 높아서 사람이 작성했는지 여부를 판단하기 어려울 수 있으며 이점과 위험이 모두 있다.[5] 31명의 OpenAI 연구원과 엔지니어가 2020년 5월 28일 GPT-3를 소개하는 원본 논문을 발표했다. 그들의 논문에서 그들은 GPT-3의 잠재적인 위험에 대해 경고하고 위험을 완화하기 위한 연구를 촉구했다.[1]:34 뉴욕 타임스의 2022년 4월 리뷰에서는 GPT-3의 기능이 인간과 동등한 유창함으로 독창적인 산문을 작성할 수 있다고 설명했다.[6]

마이크로소프트는 2020년 9월 22일에 GPT-3의 "독점적" 사용을 허가했다고 발표했다. 다른 사람들은 여전히 공개 API를 사용하여 출력을 받을 수 있지만 마이크로소프트만이 GPT-3의 기본 모델에 접근할 수 있다.[7]

모델[편집]

모델명 파라미터 API 이름
GPT-3 Small 117 M n/a
GPT-3 Medium 350 M ada
GPT-3 Large 760 M n/a
GPT-3 XL 1.3 B babbage
GPT-3 2.7B 2.7 B n/a
GPT-3 6.7B 6.7 B curie
GPT-3 13B 13B n/a
GPT-3 175B 175B davinci
모델 파라미터 시리즈
ada 350 M Base GPT-3
babbage 1.3 B Base GPT-3
curie 6.7B Base GPT-3
davinci 175 B Base GPT-3
text-ada 350 M InstructGPT-3
text-babbage 175B InstructGPT-3
text-curie 6.7B InstructGPT-3
text-davinci-001 175B InstructGPT-3
text-davinci-002 175B GPT-3.5
text-davinci-003 175B GPT-3.5
gpt-3.5-turbo 175B GPT-3.5

InstructGPT[편집]

InstructGPT는 세밀하게 조정된 GPT-3 버전이다. 인간이 작성한 명령어의 데이터셋에서 훈련되고 있다. 이 훈련을 통해 InstructGPT는 질문을 더 잘 이해할 수 있으며 더 정확하고 적절한 결과를 생성할 수 있다.

같이 보기[편집]

각주[편집]

  1. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (2020년 5월 28일). “Language Models are Few-Shot Learners”. arXiv:2005.14165. 
  2. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2020년 7월 31일에 확인함. 
  3. Shead, Sam (2020년 7월 23일). “Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab”. 《CNBC》. 2020년 7월 30일에 원본 문서에서 보존된 문서. 2020년 7월 31일에 확인함.  Four preprints were released between May 28 and July 22, 2020.
  4. Bussler, Frederik (2020년 7월 21일). “Will GPT-3 Kill Coding?”. 《Towards Data Science》. 2020년 8월 19일에 원본 문서에서 보존된 문서. 2020년 8월 1일에 확인함. 
  5. Sagar, Ram (2020년 6월 3일). “OpenAI Releases GPT-3, The Largest Model So Far”. 《Analytics India Magazine》. 2020년 8월 4일에 원본 문서에서 보존된 문서. 2020년 7월 31일에 확인함. 
  6. Johnson, Steven; Iziev, Nikita (2022년 4월 15일). “A.I. Is Mastering Language. Should We Trust What It Says?”. 《The New York Times》. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 4월 23일에 확인함. 
  7. Hao, Karen (2020년 9월 23일). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model”. 《MIT Technology Review》 (영어). 2021년 2월 5일에 원본 문서에서 보존된 문서. 2020년 9월 25일에 확인함. The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI's other models and receive its output. Only Microsoft, however, will have access to GPT-3's underlying code, allowing it to embed, repurpose, and modify the model as it pleases.