본문으로 이동

대형 언어 모델

위키백과, 우리 모두의 백과사전.

대규모 언어 모델(영어: large language model, LLM)[1] 또는 거대 언어 모델(巨大言語 - )[2]은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 사용하여 레이블링되지 않은 상당한 양의 텍스트로 훈련된다.[3] LLM은 2018년 즈음에 모습을 드러냈으며 다양한 작업을 위해 수행된다. 이전의 특정 작업의 특수한 지도 학습 모델의 훈련 패러다임에서 벗어나 자연어 처리 연구로 초점이 옮겨졌다.

대규모 언어 모델(LLM) 은 AI 챗봇 기술을 가능하게 하는 요소이며 많은 화제를 불러일으키고 있는 주제 중 하나다. 대규모 언어 모델(LLM)의 작동 방식은 크게 3가지로 나뉘고 있다. 토큰화, 트랜스포머 모델, 프롬프트 등. 토큰화자연어 처리의 일부로 일반 인간 언어를 저수준 기계 시스템(LLMS)이 이해할 수 있는 시퀀스로 변환하는 작업을 말하며 여기에는 섹션에 숫자 값을 할당하고 빠른 분석을 위해 인코딩하는 작업이 수반된다. 이는 음성학의 AI 버전과 같으며 토큰화의 목적은 인공지능이 문장의 구조를 예측하기 위한 학습 가이드 또는 공식과 같은 컨텍스트 백터를 생성하는 것이 목적. 언어를 더 많이 연구하고 문장이 어떻게 구성되는지 이해할수록 특정 유형의 문장에서 다음 언어에 대한 예측이 더 정확해진다. 이로 인해 온라인에서 사람들이 사용하는 다양한 커뮤니케이션 스타일을 재현하는 모델을 개발할 수 있다.

트랜스포머 모델은 순차적 데이터를 검사하여 어떤 단어가 서로 뒤따를 가능성이 높은지 관련 패턴을 식별하는 신경망의 일종으로 각각 다른 분석을 수행하여 어떤 단어가 호환되는지 결정하는 계층으로 구성된다. 이러한 모델은 언어를 학습하지 않고 알고리즘에 의존하여 사람이 쓴 단어를 이해하고 예를 들어, 힙스터 커피 블로그를 제공함으로써 커피에 대한 표준 글을 작성하도록 학습시킨다.

프롬프트는 개발자가 정보를 분석하고 토큰화하기 위해 대규모 언어 모델 LLM에 제공하는 정보로 프롬프트는 기본적으로 다양한 사용 사례에서 LLM에 도움이 되는 학습 데이터이다. 더 정확한 프롬프트를 받을수록 LLM은 다음 단어를 더 잘 예측하고 정확한 문장을 구성할 수 있다. 따라서 딥러닝 AI의 적절한 학습을 위해서는 적절한 프롬프트를 선택하는 것이 중요하다.

역사

[편집]
2010년부터 2024년까지 주요 대형 FLOP 모델의 학습 계산 결과와 출판일 비교. 전반적으로 주요 모델(왼쪽 상단), 프런티어 모델(오른쪽 상단), 상위 언어 모델(왼쪽 하단), 그리고 주요 기업 내 상위 모델(오른쪽 하단). 이 모델들의 대부분은 언어 모델이다.
2017년부터 2024년까지 주요 대형 AI 모델의 FLOP 학습량 대비 학습 결과. 대부분의 대형 모델은 언어 모델이거나 언어 처리 능력을 갖춘 멀티모달 모델이다.

2017년 이전에도 당대 기준으로는 상당히 큰 언어 모델들이 존재했다. 1990년대에는 IBM의 정렬 모델(IBM aligned model)이 통계적 언어 모델링의 선구적 역할을 했다. 2001년에는 3억 단어 규모의 말뭉치로 학습한 스무딩된 n-그램 모델(smoothed n-gram model)이 당시 최고 수준의 퍼플렉시티(perplexity)를 기록하기도 했다.[4] 2000년대에 접어들면서 인터넷 사용이 보편화되자 일부 연구자들은 웹 전체를 말뭉치로 활용하는 '웹을 말뭉치로(web as corpus)'[5] 접근을 통해 인터넷 규모의 언어 데이터세트를 구축했고, 이를 기반으로 통계적 언어 모델을 학습시켰다.[6][7] 2009년경에는 대부분의 자연어처리 과제에서 통계 기반 언어 모델이 기호 기반(symbolic) 언어 모델보다 우위를 점하게 되었는데, 이는 대규모 데이터를 효과적으로 활용할 수 있었기 때문이다.[8]

2012년경 이미지 처리 분야에서 신경망이 주류가 된 이후,[9] 언어 모델링에도 신경망이 적용되기 시작했다. 구글은 2016년 자사의 번역 시스템을 기존의 통계적 방식에서 신경망 기계번역(NMT) 방식으로 전환하였다. 이는 트랜스포머가 등장하기 전이었기 때문에, 순차적(seq2seq) 심층 LSTM 네트워크를 사용하였다.

다중 헤드 주의가 진행되기 전이 아닌 이후에 레이어가 정규화된 원래 논문의 변압기 모델의 주요 구성 요소에 대한 그림

2017년 NeurIPS 학회에서 구글 연구진은 트랜스포머 아키텍처를 소개하는 기념비적인 논문 'Attention Is All You Need'를 발표했다. 이 논문은 2014년의 seq2seq 기술을 개선하는 것을 목표로 했으며,[10] 주로 바다나우(Bahdanau) 등이 2014년에 개발한 어텐션 메커니즘을 기반으로 했다. 이듬해인 2018년에는 BERT가 등장했고, 빠르게 자연어 처리 분야에서 사실상의 표준이 되었다.[11] 최초의 트랜스포머는 인코더와 디코더 블록을 모두 포함하고 있지만, BERT는 인코더만 가지고 있는 모델이다. 한편 2023년 이후에는 디코더 기반의 GPT 계열 모델이 프롬프트 기반 문제 해결 능력에서 뛰어난 성과를 보이며 BERT의 연구 활용은 점차 감소세를 보이고 있다.[12]

디코더만 있는 GPT-1은 2018년에 처음 등장했지만, 대중의 주목을 받은 것은 2019년의 GPT-2였다. 이는 개발사인 오픈AI가 GPT-2가 악용될 가능성을 우려해 처음에는 공개를 보류하기도 할만큼 강력했기 때문이다.[13] 2020년에 발표된 GPT-3는 이보다 더 진일보한 성능을 보였으며, 2024년 기준으로 API를 통해서만 접근 가능하고 모델 자체는 다운로드해 로컬에서 실행할 수 없다. 대중적 관심을 끌게 된 계기는 2022년 출시된 ChatGPT였는데, 이 소비자 대상의 브라우저 기반 챗봇은 대중의 상상력을 자극하며 큰 화제를 모았다.[14] 2023년의 GPT-4는 정확도가 향상되었을 뿐만 아니라 멀티모달 기능 덕분에 '성배(Holy Grail)'라는 평가까지 받았다.[15] 오픈AI는 GPT-4의 구체적인 아키텍처와 파라미터 수를 공개하지 않았다. ChatGPT의 등장은 로봇공학, 소프트웨어 공학, 사회적 영향 연구 등의 컴퓨터 과학의 여러 하위 분야에서 LLM의 사용 증가로 이어졌다.[16] 2024년에는 오픈AI가 논리적 추론 기능을 강화한 모델 OpenAI o1을 출시했으며, 이 모델은 최종 답변을 생성하기 전에 장문의 사고 과정(Chains of Thought)을 먼저 생성하는 특징이 있다.

경쟁 언어 모델들은 주로 GPT 시리즈와 동일하거나 유사한 규모의 파라미터 수를 갖추는 것을 목표로 개발되고 있다.[17]

2022년 이후에는 BLOOM, LLaMA 등의 오픈소스 기반 모델이 인기를 끌고 있다. 다만 이들 모델은 사용 용도에 제한이 있다. 반면 Mistral AI의 Mistral 7B 및 Mixtral 8x7B는 보다 자유로운 아파치 라이선스를 채택하였다. 2025년 1월에는 DeepSeek가 6,710억 개의 파라미터를 가진 가중치 공개 모델 DeepSeek R1을 발표했으며, 이는 OpenAI o1에 견줄 수 있는 성능을 훨씬 낮은 비용으로 제공한다.[18]

2023년 이후에는 많은 LLM이 멀티모달(multimodal) 모델, 즉 이미지나 오디오 등의 데이터도 함께 처리할 수 있는 능력을 가진 모델로 훈련되고 있다. 이러한 LLM은 대형 멀티모달 모델 (Large Multimodal Model, LMM)이라 불린다.[19]

2024년에는 가장 크고 강력한 언어 모델들은 여전히 트랜스포머 아키텍처를 기반으로 하고 있다. 다만 최근에는 순환 신경망(RNN) 변형이나 상태공간 모델(State Space Model)인 Mamba와 같은 새로운 아키텍처를 적용한 시도도 일부 진행되고 있다.[20][21][22]

평가

[편집]

퍼플렉시티

[편집]

퍼플렉시티(perplexity)

작업별 데이터 세트 및 벤치마크

[편집]

또한 더 구체적인 다운스트림 작업에서 언어 모델의 역량을 평가하기 위해 많은 수의 테스트 데이터 세트와 벤치마크가 개발되었다. 테스트는 일반 지식, 상식적 추론, 수학적 문제 해결을 포함한 다양한 역량을 평가하도록 설계될 수 있다.

대형 언어 모델 목록

[편집]
대형 언어 모델 목록
이름 출시일[a] 개발 파라미터 수[b] 코퍼스 크기 라이선스[c]
BERT 2018년 구글 340 million[23] 3.3 billion words[23] Apache 2.0[24]
XLNet 2019년 Google ~340 million[25] 33 billion words
GPT-2 2019년 OpenAI 1.5 billion[26] 40GB[27] (~10 billion tokens)[28] MIT[29]
GPT-3 2020년 OpenAI 175 billion[30] 300 billion tokens[28] 공개 웹 API
GPT-Neo 2021년 3월 EleutherAI 2.7 billion[31] 825 GiB[32] MIT[33]
GPT-J 2021년 6월 EleutherAI 6 billion[34] 825 GiB[32] Apache 2.0
Megatron-Turing NLG 2021년 10월[35] 마이크로소프트 and Nvidia 530 billion[36] 338.6 billion tokens[36] 제한된 웹 접근
Ernie 3.0 Titan 2021년 12월 Baidu 260 billion[37] 4 Tb 사유(Proprietary)
Claude[38] 2021년 12월 Anthropic 52 billion[39] 400 billion tokens[39] 클로즈드 베타
GLaM (Generalist Language Model) 2021년 12월 Google 1.2 trillion[40] 1.6 trillion tokens[40] 사유(Proprietary)
Gopher 2021년 12월 DeepMind 280 billion[41] 300 billion tokens[42] 사유(Proprietary)
LaMDA (Language Models for Dialog Applications) 2022년 1월 Google 137 billion[43] 1.56T words,[43] 168 billion tokens[42] 사유(Proprietary)
GPT-NeoX 2022년 2월 EleutherAI 20 billion[44] 825 GiB[32] Apache 2.0
Chinchilla 2022년 3월 DeepMind 70 billion[45] 1.4 trillion tokens[45][42] 사유(Proprietary)
PaLM (Pathways Language Model) 2022년 4월 Google 540 billion[46] 768 billion tokens[45] 사유(Proprietary)
OPT (Open Pretrained Transformer) 2022년 5월 Meta 175 billion[47] 180 billion tokens[48] 비상업적 연구[d]
YaLM 100B 2022년 6월 Yandex 100 billion[49] 1.7TB[49] Apache 2.0
Minerva 2022년 6월 Google 540 billion[50] 38.5B tokens from webpages filtered for mathematical content and from papers submitted to the arXiv preprint server[50] 사유(Proprietary)
BLOOM 2022년 7월 Large collaboration led by Hugging Face 175 billion[51] 350 billion tokens (1.6TB)[52] Responsible AI
Galactica 2022년 11월 Meta 120 billion 106 billion tokens[53] CC-BY-NC-4.0
AlexaTM (Teacher Models) 2022년 11월 Amazon 20 billion[54] 1.3 trillion[55] 공개 웹 API[56]
LLaMA (Large Language Model Meta AI) 2023년 2월 Meta 65 billion[57] 1.4 trillion[57] 비상업적 연구[e]
GPT-4 2023년 3월 OpenAI 정확한 수치 알 수 없음. 대략 1 trillion [f] 알 수 없음 공개 웹 API
Cerebras-GPT 2023년 3월 Cerebras 13 billion[59] Apache 2.0
Falcon 2023년 3월 Technology Innovation Institute 40 billion[60] 1 Trillion tokens (1TB)[60] 사유(Proprietary)
BloombergGPT 2023년 3월 Bloomberg L.P. 50 billion 363 billion token dataset based on Bloomberg's data sources, plus 345 billion tokens from general purpose datasets[61] 사유(Proprietary)
PanGu-Σ 2023년 3월 Huawei 1.085 trillion 329 billion tokens[62] 사유(Proprietary)
OpenAssistant[63] 2023년 3월 LAION 17 billion 1.5 trillion tokens Apache 2.0
PaLM 2 (Pathways Language Model 2) 2023년 5월 Google 340 billion[64] 3.6 trillion tokens[64] 사유(Proprietary)
  1. This is the date that documentation describing the model's architecture was first released.
  2. In many cases, researchers release or report on multiple versions of a model having different sizes. In these cases, the size of the largest model is listed here.
  3. This is the license of the pre-trained model weights. In almost all cases the training code itself is open-source or can be easily replicated.
  4. The smaller models including 66B are publicly available, while the 175B model is available on request.
  5. Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
  6. As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."[58] Approximate number in the comparison chart that compares the relative storage, from the same report.

같이 보기

[편집]

각주

[편집]
  1. 《대규모 언어모델》. ICT 시사용어 2025. 2025. 2025년 4월 15일에 확인함. 
  2. 《거대 언어 모델》. 두산백과. 2025. 2025년 4월 15일에 확인함. 
  3. Goled, Shraddha (2021년 5월 7일). “Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ”. 《Analytics India Magazine》. 
  4. Goodman, Joshua (2001년 8월 9일), 《A Bit of Progress in Language Modeling》, arXiv:cs/0108005, Bibcode:2001cs........8005G 
  5. Kilgarriff, Adam; Grefenstette, Gregory (September 2003). “Introduction to the Special Issue on the Web as Corpus”. 《Computational Linguistics》 29 (3): 333–347. doi:10.1162/089120103322711569. ISSN 0891-2017. 
  6. Banko, Michele; Brill, Eric (2001). “Scaling to very very large corpora for natural language disambiguation”. 《Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01》 (Morristown, NJ, USA: Association for Computational Linguistics): 26–33. doi:10.3115/1073012.1073017. 
  7. Resnik, Philip; Smith, Noah A. (September 2003). “The Web as a Parallel Corpus”. 《Computational Linguistics》 29 (3): 349–380. doi:10.1162/089120103322711578. ISSN 0891-2017. 2024년 6월 7일에 원본 문서에서 보존된 문서. 2024년 6월 7일에 확인함. 
  8. Halevy, Alon; Norvig, Peter; Pereira, Fernando (March 2009). “The Unreasonable Effectiveness of Data”. 《IEEE Intelligent Systems》 24 (2): 8–12. doi:10.1109/MIS.2009.36. ISSN 1541-1672. 
  9. Chen, Leiyu; Li, Shaobo; Bai, Qiang; Yang, Jing; Jiang, Sanlong; Miao, Yanming (2021). “Review of Image Classification Algorithms Based on Convolutional Neural Networks”. 《Remote Sensing》 13 (22): 4712. Bibcode:2021RemS...13.4712C. doi:10.3390/rs13224712. 
  10. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). “Attention is All you Need” (PDF). 《Advances in Neural Information Processing Systems》 (Curran Associates, Inc.) 30. 2024년 2월 21일에 원본 문서 (PDF)에서 보존된 문서. 2024년 1월 21일에 확인함. 
  11. Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). “A Primer in BERTology: What We Know About How BERT Works”. 《Transactions of the Association for Computational Linguistics》 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403. 2022년 4월 3일에 원본 문서에서 보존된 문서. 2024년 1월 21일에 확인함. 
  12. Movva, Rajiv; Balachandar, Sidhika; Peng, Kenny; Agostini, Gabriel; Garg, Nikhil; Pierson, Emma (2024). 〈Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers〉. 《Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)》. 1223–1243쪽. arXiv:2307.10700. doi:10.18653/v1/2024.naacl-long.67. 2024년 12월 8일에 확인함. 
  13. Hern, Alex (2019년 2월 14일). “New AI fake text generator may be too dangerous to release, say creators”. 《The Guardian》. 2019년 2월 14일에 원본 문서에서 보존된 문서. 2024년 1월 20일에 확인함. 
  14. “ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months”. Euronews. 2023년 11월 30일. 2024년 1월 14일에 원본 문서에서 보존된 문서. 2024년 1월 20일에 확인함. 
  15. Heaven, Will (2023년 3월 14일). “GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why”. MIT Technology Review. 2023년 3월 17일에 원본 문서에서 보존된 문서. 2024년 1월 20일에 확인함. 
  16. Movva, Rajiv; Balachandar, Sidhika; Peng, Kenny; Agostini, Gabriel; Garg, Nikhil; Pierson, Emma (2024). 〈Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers〉. 《Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)》. 1223–1243쪽. arXiv:2307.10700. doi:10.18653/v1/2024.naacl-long.67. 2024년 12월 8일에 확인함. 
  17. “Parameters in notable artificial intelligence systems”. 《ourworldindata.org》. 2023년 11월 30일. 2024년 1월 20일에 확인함. 
  18. Sharma, Shubham (2025년 1월 20일). “Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost”. 《VentureBeat》 (미국 영어). 2025년 1월 26일에 확인함. 
  19. Zia, Dr Tehseen (2024년 1월 8일). “Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024”. 《Unite.AI》 (미국 영어). 2024년 12월 28일에 확인함. 
  20. Peng, Bo; 외. (2023). “RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048 [cs.CL]. 
  21. Merritt, Rick (2022년 3월 25일). “What Is a Transformer Model?”. 《NVIDIA Blog》. 2023년 11월 17일에 원본 문서에서 보존된 문서. 2023년 7월 25일에 확인함. 
  22. Gu, Albert; Dao, Tri (2023년 12월 1일), 《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》, arXiv:2312.00752 
  23. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2018년 10월 11일). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. arXiv:1810.04805v2 [cs.CL]. 
  24. “BERT”. 2023년 3월 13일 – GitHub 경유. 
  25. “BERT, RoBERTa, DistilBERT, XLNet: Which one to use?”. [깨진 링크(과거 내용 찾기)]
  26. “GPT-2: 1.5B Release”. 《OpenAI》 (영어). 2019년 11월 5일. 2019년 11월 14일에 원본 문서에서 보존된 문서. 2019년 11월 14일에 확인함. 
  27. “Better language models and their implications”. 《openai.com》. 
  28. “OpenAI's GPT-3 Language Model: A Technical Overview”. 《lambdalabs.com》 (영어). 
  29. “gpt-2”. 《GitHub》. 2023년 3월 13일에 확인함. 
  30. Wiggers, Kyle (2022년 4월 28일). “The emerging types of language models and why they matter”. 《TechCrunch》. 
  31. “GPT Neo”. 2023년 3월 15일 – GitHub 경유. 
  32. Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (2020년 12월 31일). “The Pile: An 800GB Dataset of Diverse Text for Language Modeling”. arXiv:2101.00027 [cs.CL]. 
  33. Iyer, Abhishek (2021년 5월 15일). “GPT-3's free alternative GPT-Neo is something to be excited about”. 《VentureBeat》. 
  34. “GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront”. 《www.forefront.ai》 (영어). 2023년 3월 9일에 원본 문서에서 보존된 문서. 2023년 2월 28일에 확인함. 
  35. Alvi, Ali; Kharya, Paresh (2021년 10월 11일). “Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model”. 《Microsoft Research》. 
  36. Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (2022년 2월 4일). “Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model”. arXiv:2201.11990. 
  37. Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; Zhao, Yanbin; Pang, Chao; Liu, Jiaxiang; Chen, Xuyi; Lu, Yuxiang; Liu, Weixin; Wang, Xi; Bai, Yangfan; Chen, Qiuliang; Zhao, Li; Li, Shiyong; Sun, Peng; Yu, Dianhai; Ma, Yanjun; Tian, Hao; Wu, Hua; Wu, Tian; Zeng, Wei; Li, Ge; Gao, Wen; Wang, Haifeng (2021년 12월 23일). “ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation”. arXiv:2112.12731. 
  38. “Product”. 《Anthropic》 (영어). 2023년 3월 14일에 확인함. 
  39. Askell, Amanda; Bai, Yuntao; Chen, Anna; 외. (2021년 12월 9일). “A General Language Assistant as a Laboratory for Alignment”. arXiv:2112.00861 [cs.CL]. 
  40. Dai, Andrew M; Du, Nan (2021년 12월 9일). “More Efficient In-Context Learning with GLaM”. 《ai.googleblog.com》 (영어). 2023년 3월 9일에 확인함. 
  41. “Language modelling at scale: Gopher, ethical considerations, and retrieval”. 《www.deepmind.com》 (영어). 2023년 3월 20일에 확인함. 
  42. Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; 외. (2022년 3월 29일). “Training Compute-Optimal Large Language Models”. arXiv:2203.15556 [cs.CL]. 
  43. Cheng, Heng-Tze; Thoppilan, Romal (2022년 1월 21일). “LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything”. 《ai.googleblog.com》 (영어). 2023년 3월 9일에 확인함. 
  44. Black, Sidney; Biderman, Stella; Hallahan, Eric; 외. (2022년 5월 1일). 《GPT-NeoX-20B: An Open-Source Autoregressive Language Model》. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. 95–136쪽. 2022년 12월 19일에 확인함. 
  45. Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent (2022년 4월 12일). “An empirical analysis of compute-optimal large language model training”. 《Deepmind Blog》. 
  46. Narang, Sharan; Chowdhery, Aakanksha (2022년 4월 4일). “Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance”. 《ai.googleblog.com》 (영어). 2023년 3월 9일에 확인함. 
  47. “Democratizing access to large-scale language models with OPT-175B”. 《ai.facebook.com》 (영어). 
  48. Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (2022년 6월 21일). “OPT: Open Pre-trained Transformer Language Models”. arXiv:2205.01068 [cs.CL]. 
  49. Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022년 6월 22일), 《YaLM 100B》, 2023년 3월 18일에 확인함 
  50. Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (2022년 6월 30일). “Solving Quantitative Reasoning Problems with Language Models”. arXiv:2206.14858 [cs.CL]. 
  51. Ananthaswamy, Anil (2023년 3월 8일). “In AI, is bigger always better?”. 《Nature》. 
  52. “bigscience/bloom · Hugging Face”. 《huggingface.co》. 
  53. Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (2022년 11월 16일). “Galactica: A Large Language Model for Science”. arXiv:2211.09085 [cs.CL]. 
  54. “20B-parameter Alexa model sets new marks in few-shot learning”. 《Amazon Science》 (영어). 2022년 8월 2일. 
  55. Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; 외. (2022년 8월 3일). “AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model”. arXiv:2208.01448 [cs.CL]. 
  56. “AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog”. 《aws.amazon.com》. 2022년 11월 17일. 2023년 3월 13일에 확인함. 
  57. “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. 《Meta AI》. 2023년 2월 24일. 
  58. “GPT-4 Technical Report” (PDF). 《OpenAI》. 2023. 2023년 3월 14일에 원본 문서 (PDF)에서 보존된 문서. 2023년 3월 14일에 확인함. 
  59. Dey, Nolan (2023년 3월 28일). “Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models”. 《Cerebras》. 
  60. “Abu Dhabi-based TII launches its own version of ChatGPT”. 《tii.ae》. 
  61. Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; Mann, Gideon (2023년 3월 30일). “BloombergGPT: A Large Language Model for Finance”. arXiv:2303.17564. 
  62. Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; Podolskiy, Alexander; Arshinov, Grigory; Bout, Andrey; Piontkovskaya, Irina; Wei, Jiansheng; Jiang, Xin; Su, Teng; Liu, Qun; Yao, Jun (2023년 3월 19일). “PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing”. arXiv:2303.10845. 
  63. Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023년 4월 14일). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. 《arXiv:2304.07327 [cs]》. 
  64. Elias, Jennifer (2023년 5월 16일). “Google's newest A.I. model uses nearly five times more text data for training than its predecessor”. 《CNBC. 2023년 5월 18일에 확인함.