AI 가속기

AI 가속기(AI accelerator)는 인공 신경망 및 머신 비전을 포함한 인공지능 및 기계 학습 애플리케이션을 가속화하도록 설계된 특수 하드웨어 가속기 또는 컴퓨터 시스템 클래스이다. 일반적인 응용 분야에는 로봇 공학, 사물 인터넷 및 기타 데이터 집약적이거나 센서 기반 작업을 위한 알고리즘이 포함된다. 이는 많은 코어 설계인 경우가 많으며 일반적으로 정밀도가 낮은 산술, 새로운 데이터 흐름 아키텍처 또는 메모리 내 컴퓨팅 기능에 중점을 둔다. 2018년 기준으로 일반적인 AI 집적 회로 칩에는 수십억 개의 MOSFET 트랜지스터가 포함되어 있다. 이 범주의 장치에 대해 여러 공급업체별 용어가 존재하며 이는 지배적인 설계가 없는 새로운 기술이다.

역사[편집]

컴퓨터 시스템은 특수 작업을 위한 특수 목적 가속기(코프로세서)로 CPU를 보완하는 경우가 많다. 주목할만한 애플리케이션별 하드웨어 장치에는 그래픽용 비디오 카드, 사운드 카드, 그래픽 처리 장치 및 디지털 신호 프로세서가 포함된다. 2010년대에 딥 러닝 및 인공 지능 워크로드가 부각되면서 이러한 작업을 가속화하기 위해 특수 하드웨어 장치가 기존 제품에서 개발되거나 채택되었다. MLPerf와 같은 벤치마크를 사용하여 AI 가속기의 성능을 평가할 수 있다.

초기 시도[편집]

인텔의 ETANN 80170NX와 같은 첫 번째 시도는 신경 기능을 계산하기 위해 아날로그 회로를 통합했다. 나중에 Nestor/Intel Ni1000과 같은 완전 디지털 칩이 뒤따랐다. 1993년 초에 디지털 신호 프로세서는 광학 문자 인식 소프트웨어를 가속화하기 위한 신경망 가속기로 사용되었다. 이미 1988년에 웨이장(Wei Zhang) 등은 알파벳 인식을 위한 컨벌루션 신경망의 빠른 광학 구현에 대해 논의했다. 1990년대에는 신경망 시뮬레이션을 비롯한 다양한 애플리케이션을 목표로 하는 워크스테이션용 병렬 고처리량 시스템을 만들려는 시도도 있었다. FPGA 기반 가속기는 추론과 훈련을 위해 1990년대에 처음으로 연구되었다. 스마트폰에는 2015년 퀄컴 스냅드래곤 820부터 AI 가속기가 탑재되기 시작했다.

이기종 컴퓨팅[편집]

이기종 컴퓨팅은 각각 특정 유형의 작업에 최적화된 단일 시스템 또는 단일 칩에 많은 특수 프로세서를 통합한다. 셀 마이크로프로세서와 같은 아키텍처는 압축된 저정밀도 연산 지원, 데이터 흐름 아키텍처, 대기 시간보다 처리량 우선 순위 지정 등 AI 가속기와 크게 겹치는 기능을 갖추고 있다. 셀 (마이크로프로세서) 마이크로프로세서는 AI를 비롯한 다양한 작업에 적용되었다.

2000년대에는 비디오 및 게임 작업 부하로 인해 CPU의 SIMD 장치가 점점 더 넓어졌다. 압축된 낮은 정밀도 데이터 유형도 지원한다. CPU 성능이 향상됨에 따라 AI 워크로드를 실행하는 데에도 사용된다. CPU는 중소 규모 병렬 처리를 갖춘 DNN, 희소 DNN 및 낮은 배치 크기 시나리오에 적합하다.

GPU 사용[편집]

그래픽 처리 장치 또는 GPU는 이미지 조작 및 로컬 이미지 속성 계산을 위한 특수 하드웨어이다. 신경망과 이미지 조작의 수학적 기반은 유사하고 당황스러울 정도로 행렬과 관련된 병렬 작업이므로 GPU가 기계 학습 작업에 점점 더 많이 사용되고 있다. 2016년 기준으로 GPU는 AI 작업에 널리 사용되고 있으며, 자율주행차와 같은 장치의 훈련과 추론 모두에서 딥러닝을 촉진하는 방향으로 계속 진화하고 있다. 엔비디아 NVLink와 같은 GPU 개발자는 AI가 활용하는 데이터 흐름 워크로드 종류에 대한 추가 연결 기능을 개발하고 있다. GPU가 AI 가속에 점점 더 많이 적용됨에 따라 GPU 제조업체는 이러한 작업을 더욱 가속화하기 위해 신경망 전용 하드웨어를 통합했다. 텐서 코어는 신경망 훈련 속도를 높이기 위해 고안되었다.

FPGA 사용[편집]

딥 러닝 프레임워크는 계속 발전하고 있기 때문에 맞춤형 하드웨어를 설계하기가 어렵다. FPGA(Field-Programmable Gate Array)와 같은 재구성 가능한 장치를 사용하면 하드웨어, 프레임워크, 소프트웨어를 함께 발전시키는 것이 더 쉬워진다.

마이크로소프트는 추론을 가속화하기 위해 FPGA 칩을 사용했다.

전용 AI 가속기 ASIC의 등장[편집]

GPU 및 FPGA는 AI 관련 작업에서 CPU보다 훨씬 뛰어난 성능을 발휘하지만 ASIC(Application-Specific Integrated Circuit)을 통해 보다 구체적인 설계를 통해 최대 10배의 효율성을 얻을 수 있다. 이러한 가속기는 계산을 가속화하고 계산 처리량을 높이기 위해 최적화된 메모리 사용 및 낮은 정밀도의 산술 사용과 같은 전략을 사용한다. AI 가속에 사용되는 일부 저정밀도 부동 소수점 형식은 반정밀도 및 bfloat16 부동 소수점 형식이다. 구글, 퀄컴, 아마존, 애플, 페이스북, AMD 및 삼성과 같은 회사는 모두 자체 AI ASIC을 설계하고 있다. Cerebras Systems는 딥 러닝 워크로드를 지원하기 위해 업계 최대 프로세서인 2세대 Wafer Scale Engine(WSE-2)을 기반으로 전용 AI 가속기를 구축했다.

잠재적 응용 분야[편집]

산업용 로봇
기계 번역
군사용 로봇
자연어 처리
웹 검색 엔진(데이터 센터의 에너지 효율 제고, 더 진보화된 정보 검색 사용 기능 제고)
무인 항공기
음성 사용자 인터페이스

같이 보기[편집]

뉴로모픽 엔지니어링

외부 링크[편집]

Nvidia Puts The Accelerator To The Metal With Pascal.htm, The Next Platform
Eyeriss Project, MIT
https://alphaics.ai/