트랜스포머 (기계 학습)
기계 학습과 데이터 마이닝 |
---|
트랜스포머(transformer)는 어텐션 메커니즘을 활용하는 딥 러닝 모형이다. 본래 자연어 처리에 활용되었으나, 비전 트랜스포머의 등장 이후 컴퓨터 비전 분야에도 활용되고 있다. 트랜스포머가 개발되어 순환 신경망(RNN)의 단점이 극복됨에 따라 자연어 처리 최고의 RNN 기법이었던 장단기 메모리(Long Short-Term Memory, LSTM)가 트랜스포머에 의해 대체되는 추세이다. OpenAI에서 만든 GPT 모델들도 트랜스포머를 사용한다.
트랜스포머는 딥 러닝 모델이다. 이는 입력(재귀 출력 포함) 데이터의 각 부분의 중요도에 차별적으로 가중치를 부여하는 셀프어텐션(self-attention)의 채택으로 구별된다. 주로 자연어 처리(NLP)[1] 및 컴퓨터 비전(CV) 분야에서 사용된다.[2]
순환 신경망(RNN)과 마찬가지로 트랜스포머는 번역 및 텍스트 요약과 같은 작업에 사용되며, 자연어와 같은 순차적 입력 데이터를 처리하도록 설계되었다. 그러나 RNN과 달리 트랜스포머는 전체 입력을 한 번에 처리한다. 어텐션 메커니즘은 입력 시퀀스의 모든 위치에 대한 컨텍스트를 만들어낸다. 예를 들어 입력 데이터가 자연어 문장인 경우 트랜스포머는 한 번에 한 단어씩 처리할 필요가 없다. 따라서 RNN보다 더 많은 병렬화가 가능해지므로 훈련 시간이 단축된다.[1]
트랜스포머는 구글 브레인 팀에서 2017년에 도입했으며[1] LSTM(Long Short-Term Memory)[3]과 같은 RNN 모델을 대체하면서 점점 더 NLP 문제에 대한 선택 모델이 되고 있다.[4] RNN 모델에 비해 트랜스포머는 병렬화에 더 적합하여 더 큰 데이터 세트에 대한 교육을 허용한다. 이로 인해 위키백과 코퍼스(Wikipedia Corpus) 및 커먼 크롤(Common Crawl)과 같은 대규모 언어 데이터 세트로 훈련된 BERT(Bidirectional Encoder Representations from Transformers) 및 최초형 GPT(Generative Pre-trained Transformer)와 같은 사전 훈련된 시스템이 개발되었다. 특정 작업에 맞게 미세 조정된다.[5][6]
참고 문헌
[편집]- Hubert Ramsauer et al. (2020), "Hopfield Networks is All You Need" 보관됨 2021-09-18 - 웨이백 머신, preprint submitted for ICLR 2021. arXiv:2008.02217; see also authors' blog 보관됨 2021-09-18 - 웨이백 머신
- – Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network
- Alexander Rush, The Annotated transformer 보관됨 2021-09-22 - 웨이백 머신, Harvard NLP group, 3 April 2018
각주
[편집]- ↑ 가 나 다 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].
- ↑ He, Cheng (2021년 12월 31일). “Transformer in CV”. 《Transformer in CV》. Towards Data Science. 2023년 4월 16일에 원본 문서에서 보존된 문서. 2021년 6월 19일에 확인함.
- ↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). 〈Transformers: State-of-the-Art Natural Language Processing〉. 《Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations》. 38–45쪽. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
- ↑ Hochreiter, Sepp; Schmidhuber, Jürgen (1997년 11월 1일). “Long Short-Term Memory”. 《Neural Computation》 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
- ↑ “Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing”. 《Google AI Blog》. 2018년 11월 2일. 2021년 1월 13일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함.
- ↑ “Better Language Models and Their Implications”. 《OpenAI》. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함.
이 글은 컴퓨터 과학에 관한 토막글입니다. 여러분의 지식으로 알차게 문서를 완성해 갑시다. |