비전 변환기
비전 변환기(Vision transformer) 또는 비전 트랜스포머는 이미지 처리를 하는 변환기이다. 2020년 "An image is worth 16x16 words" 논문에 의해 이미지를 단어처럼 처리하면 어떨까 하는 아이디어에서 시작되어, 분야에 따라 종래의 합성곱 신경망과 비슷한 성능을 내고 있다.
잘 알려진 프로젝트로는 Xception, ResNet,[1] DenseNet,[2] Inception[3] 등이 있다.
응용 분야[편집]
같이 보기[편집]
각주[편집]
- ↑ Tan, Mingxing; Le, Quoc V. (2021년 6월 23일). “EfficientNet V2: Smaller Models and Faster Training”. arXiv:2104.00298 [cs.CV].
- ↑ Huang, Gao; Liu, Zhuang; van der Maaten, Laurens; Q. Weinberger, Kilian (2018년 1월 28일). “Densely Connected Convolutional Networks”. arXiv:1608.06993 [cs.CV].
- ↑ Sarkar, Arjun (2021년 5월 20일). “Are Transformers better than CNN's at Image Recognition?”. 《Medium》 (영어). 2021년 7월 11일에 확인함.
외부 링크[편집]
- Igarashi, Yoshiyuki (2021년 2월 4일). “Are You Ready for Vision Transformer (ViT)?”. 《Medium》 (영어). 2021년 7월 11일에 확인함.
- Coccomini, Davide (2021년 5월 3일). “On DINO, Self-Distillation with no labels”. 《Towards Data Science》. 2021년 10월 3일에 확인함.
![]() |
이 글은 컴퓨터 과학에 관한 토막글입니다. 여러분의 지식으로 알차게 문서를 완성해 갑시다. |