본문으로 이동

BLOOM (언어 모델)

위키백과, 우리 모두의 백과사전.

BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)[1][2]은 1,760억 개의 매개변수를 가진 트랜스포머 기반 자기회귀 대형 언어 모델 (LLM)이다. 이 모델과 이를 훈련하는 데 사용된 코드 베이스 및 데이터는 모두 무료 라이선스 하에 배포된다.[3] BLOOM은 2022년 3월부터 7월까지 약 3,660억 개 (1.6TB)의 토큰으로 훈련되었다.[4][5]

BLOOM은 2021년 5월부터 2022년 5월까지 진행된 1년 간의 연구 워크숍인 BigScience 협력 이니셔티브[6]의 주요 결과물이다. BigScience는 HuggingFace가 주도했으며, 학계와 민간 부문을 대표하는 프랑스와 해외의 수백 명의 연구원 및 엔지니어가 참여했다. BigScience는 프랑스 공공 슈퍼컴퓨터 장 제이(Jean Zay)에 대한 대규모 공공 컴퓨팅 지원을 받았으며, 이는 GENCI와 IDRIS (CNRS)가 관리하며 훈련에 사용되었다.

BLOOM의 훈련 코퍼스인 ROOTS는 당시 최신 버전의 웹 기반 OSCAR 코퍼스에서 추출된 데이터 (ROOTS의 38%)와 수동으로 선택 및 문서화된 언어 데이터 소스 목록에서 새로 수집된 데이터를 결합한다. 이는 46개의 자연어 (영어의 경우 전체 데이터 세트의 30%에서 치툼부카어의 경우 0.00002%에 이르는 양)와 13개의 프로그래밍 언어를 포함한다.[7]

외부 링크

[편집]

각주

[편집]
  1. BigScience Large Open-science Open-access Multilingual Language Model. 2022년 10월 1일에 확인함.
  2. 봇이 이 인용을 자동으로 완성합니다. 대기열로 바로 이동하기 arXiv:2211.05100.
  3. The BigScience RAIL license. 2024년 1월 10일에 확인함.
  4. Heikkilä, Melissa (2022년 7월 12일). BLOOM: Inside the radical new project to democratize AI. MIT 테크놀로지 리뷰. 2023년 12월 26일에 확인함.
  5. Release of largest trained open-science multilingual language model ever. 프랑스 국립과학연구센터. 2022년 7월 12일. 2023년 12월 26일에 확인함.
  6. BigScience. 2024년 1월 10일에 확인함.
  7. 봇이 이 인용을 자동으로 완성합니다. 대기열로 바로 이동하기 arXiv:2303.03915.