LAION
| 형태 | 비영리 |
|---|---|
| 창립자 |
|
| 산업 분야 | 인공지능 |
| 웹사이트 | laion |
LAION(Large-scale Artificial Intelligence Open Network의 약자)은 오픈 소스 인공지능 모델과 데이터셋을 만드는 독일의 비영리 단체이다.[1] 이 단체는 웹에서 스크랩한 대규모 이미지 및 캡션 데이터셋을 공개하여 잘 알려져 있으며, 이 데이터셋은 스테이블 디퓨전과 이마젠을 포함한 여러 유명 텍스트-이미지 모델을 훈련하는 데 사용되었다.[2][3]
2023년 2월, LAION은 게티이미지가 스테이블 디퓨전을 상대로 제기한 소송에 비당사자로 언급되었다.[4] 2023년 4월, LAION은 자신의 이미지를 훈련 세트에서 제거하기를 원하는 독일 사진작가에 의해 직접 고소되었다.[5] 2024년 9월, 함부르크 지방법원은 독일과 EU 전반에서 "AI 훈련 데이터에 대한 TDM(텍스트 및 데이터 마이닝) 예외에 대한 획기적인 판결"로 묘사되는 소송을 기각했다.[6]
2023년 4월 15일, LAION과 기여자들은 OpenAssistant라는 오픈 소스 AI 어시스턴트 챗봇을 공개 출시했다.
이미지 데이터셋
[편집]LAION은 AI 연구자들이 널리 사용하는 대규모 이미지-캡션 쌍 데이터셋을 다수 공개했다. 이 데이터는 스크랩된 웹 페이지 데이터셋인 Common Crawl에서 파생되었다. 개발자들은 크롤링된 HTML에서 <img> 태그를 검색하고 해당 Alt 속성을 캡션으로 처리했다. 그들은 CLIP을 사용하여 내용이 캡션과 일치하지 않는 이미지를 식별하고 폐기했다.[7] LAION은 스크랩된 이미지 자체의 콘텐츠를 호스팅하지 않으며, 데이터셋은 이미지에 대한 URL을 포함하고 있어 연구자들이 직접 다운로드해야 한다.[8]
최초의 데이터셋인 LAION-400M은 2021년 8월에 공개되었으며, 4억 개의 이미지-캡션 쌍으로 구성되어 있었다. 이 쌍들은 2014년에서 2021년 사이에 Common Crawl에 의해 스크랩된 웹페이지의 무작위 하위 집합에서 추출되었다.[9] 이는 오픈AI가 CLIP 모델 훈련에 사용한 4억 개의 이미지-캡션 쌍을 수집한 과정을 재현하려는 시도였다. 이 회사는 모델의 코드와 가중치는 오픈 소스로 공개했지만, 훈련 데이터셋은 공개하지 않았다.[7] 2022년 구글 브레인에서 발표한 텍스트-이미지 모델인 이마젠은 LAION-400M과 개인 내부 데이터셋을 조합하여 훈련되었다.[10]
50억 쌍 이상으로 구성된 후속작인 LAION-5B는 2022년 3월에 공개되었다.[11] 출시 당시, 이 데이터셋은 현존하는 가장 큰 무료 이미지-캡션 쌍 데이터셋이었다.[7] 이 데이터셋의 제작은 Doodlebot, 허깅 페이스, 그리고 스테이블 디퓨전 텍스트-이미지 모델의 자금 지원을 담당한 AI 기업인 Stability AI의 자금 지원을 받았다. 이 모델은 LAION-5B로 훈련되었다.[12]
비판
[편집]여러 연구에 따르면 LAION-5B의 이미지에는 강간, 포르노그래피, 악의적인 고정관념, 인종차별적 비방 및 기타 매우 문제가 되는 내용의 이미지와 텍스트 쌍이 포함되어 있다.[13][14]
바이어리셔 룬트풍크의 조사에 따르면 허깅 페이스에서 호스팅되는 LAION의 데이터셋에는 공개 웹사이트에서 수집된 대량의 사적이고 민감한 데이터가 포함되어 있다.[15]
2023년 12월, 스탠포드 인터넷 옵저버토리는 LAION-5B에 대한 보고서를 발표했는데, 3,226건의 아동 성착취물 링크 의심 사례가 발견되었으며 이 중 1,008건이 외부에서 확인되었다. 이에 LAION은 "불법 콘텐츠에 대한 무관용 정책"과 "과도한 주의"를 이유로 LAION-5B와 LAION-400M을 일시적으로 제거했다.[16] 2024년 8월, LAION은 Re-LAION-5B라는 이름의 정제된 데이터셋을 출시했다.[17]
OpenAssistant
[편집]데이터 수집 웹 포털 스크린샷 | |
| 개발자 | LAION 및 기여자 |
|---|---|
| 발표일 | 2023년 4월 15일 |
| 종류 | |
| 라이선스 | Apache License 2.0 |
| 웹사이트 | open-assistant |
OpenAssistant는 작업을 이해하고, 타사 시스템과 상호 작용하며, 이를 위해 정보를 동적으로 검색할 수 있는 인공지능 (AI) 오픈 소스 챗 기반 어시스턴트이다. 이 프로젝트는 LAION과 협력하여 자원봉사자 그룹에 의해 개발되고 있다. 개발 목표 중 하나는 소비자 하드웨어에서 로컬로 실행할 수 있는 대형 언어 모델에 대한 무료 액세스를 포함한다.[18][19] 이 프로젝트는 60만 건의 사람이 생성한 데이터 포인트를 만든 13,500명 이상의 자원봉사자가 참여한 전 세계적인 크라우드소싱 노력의 지원을 받는다.[19][20]
같이 보기
[편집]각주
[편집]- ↑ “About”. 《LAION.ai》. 2022년 9월 26일에 확인함.
- ↑ Edwards, Benj (2022년 9월 15일). “Have AI image generators assimilated your art? New tool lets you check”. 《Ars Technica》.
- ↑ Newman, Marissa; Cantrill, Aggi (2023년 4월 24일). “The Future of AI Relies on a High School Teacher's Free Database” (영어). 《블룸버그 뉴스》. 2023년 4월 24일에 확인함.
- ↑ “Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135” (미국 영어). 《CourtListener》. 2023년 2월 8일에 확인함.
- ↑ “A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got An Invoice Instead.” (미국 영어). 《Vice》. 2023년 4월 28일. 2023년 5월 4일에 확인함.
- ↑ Goldstein, Paul; Stuetzle, Christiane; Bischoff, Susan (2024년 11월 13일). “Kneschke vs. LAION - Landmark Ruling on TDM exceptions for AI training data – Part 1” (미국 영어). 《Kluwer Copyright Blog》. 2024년 11월 25일에 확인함.
- 1 2 3 Alford, Anthony (2022년 5월 17일). “LAION Releases Five Billion Image-Text Pair Dataset LAION-5B”. 《InfoQ》.
- ↑ Edwards, Benj (2022년 9월 21일). “Artist finds private medical record photos in popular AI training data set”. 《Ars Technica》.
- ↑ Schuhmann, Christoph (2021년 8월 8일). “LAION-400-Million Open Dataset”. 《LAION blog》. 2022년 9월 26일에 확인함.
- ↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (2022년 5월 23일). “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”. arXiv:2205.11487 [cs.CV].
- ↑ Beaumont, Romain (2022년 3월 3일). “LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets”. 《LAION blog》.
- ↑ Wiggers, Kyle (2022년 8월 12일). “This startup is setting a DALL-E 2-like AI free, consequences be damned”. 《TechCrunch》.
- ↑ Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). 《Multimodal datasets: misogyny, pornography, and malignant stereotypes》. arXiv:2110.01963.
- ↑ Birhane, Abeba; Prabhu, Vinay; Han, Sang; Boddeti, Vishnu Naresh; Luccioni, Alexandra Sasha (2023년 11월 6일), 《Into the LAIONs Den: Investigating Hate in Multimodal Datasets》, arXiv:2311.03449
- ↑ Brunner, Katharina; Harlan, Elisa (2023년 6월 7일). “We Are All Raw Material for AI”. 《Bayerischer Rundfunk》.
- ↑ Cole, Samantha (2023년 12월 20일). “Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material” (영어). 《404 Media》. 2023년 12월 22일에 확인함.
- ↑ Belanger, Ashley (2024년 8월 30일). “Nonprofit scrubs illegal content from controversial AI training dataset” (미국 영어). 《Ars Technica》. 2024년 8월 31일에 확인함.
- ↑ 《Open-Assistant》, LAION AI, 2023년 3월 9일, 2023년 3월 9일에 확인함
- 1 2 Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023년 4월 14일). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. arXiv:2304.07327 [cs.CL].
- ↑ “Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development” (미국 영어). 《KDnuggets》. 2023년 5월 5일에 확인함.