벡터 프로세서

벡터 프로세서(Vector processor) 또는 어레이 프로세서(Array processor)는 벡터라고 불리는 다수의 데이터를 처리하는 명령어를 가진 CPU를 말한다. 컴퓨터에서 벡터란 1차원 배열의 데이터를 뜻한다. 벡터 프로세서와 반대되는 말로는 스칼라 프로세서가 있는데 한 개의 데이터를 처리하는 명령어를 가진 프로세서를 말한다. 대부분의 CPU는 스칼라 프로세서이다.

벡터 프로세서는 1970년대 처음 나타났으며 1980년에서 1990년대 동안 슈퍼 컴퓨터의 기본적인 형태였다. 스칼라 프로세서, 특히 마이크로프로세서에서 성능을 높이기 위해 벡터 프로세서 기술을 도입한 CPU가 1990년대 초 나타났다. 오늘날 대부분의 CPU는 MMX (명령어 집합), SSE, 알티벡(AltiVec) 같이 다수의 데이터를 처리하는 벡터 프로세싱을 위한 SIMD(Single Instruction Multiple Data) 명령어를 갖추고 있다. 벡터 프로세서 기술은 그래픽 가속기나 게임 콘솔에서도 찾아 볼 수 있다. 2000년 IBM, 도시바, 소니가 개발한 셀(Cell) 프로세서는 1개의 스칼라 프로세서와 8개의 벡터 프로세서로 구성되어 있으며 플레이스테이션 3에 사용되었다.

벡터 프로세싱을 위한 또 다른 CPU 디자인으로 다수의 명령어로 다수의 데이터를 처리하는 MIMD (Multiple Instruction Multiple Data) 가 있지만 전문적인 용도로만 사용될 뿐 일반적인 용도로 쓰이지는 않았다.

역사[편집]

최초로 동작되는 벡터 프로세서는 1960년대 초, 웨스팅하우스(Westinghouse)의 솔로몬 프로젝트였다. 솔로몬의 목표는 많은 수의 단순한 수치 연산 코프로세서(ALU)를 1개의 마스터 CPU로 제어하는 방법을 사용해 수치 연산 성능을 극적으로 끌어 올리는 것 이었다. CPU는 사이클 당 하나의 공통 명령어를 모든 ALU로 보냈지만 데이터는 ALU 마다 각각 다르게 보내주었다. 이 방법은 솔로몬 머신에서 하나의 알고리즘을 배열 형태의 많은 데이터에 이용할 수 있도록 해 준다. 1962년 웨스팅하우스는 솔로몬 프로젝트를 중단하였지만 벡터 프로세서의 개발에 대한 노력은 일리노이즈 대학 (University of Illinois)의 일리악 IV (ILLIAC IV)에서 다시 시작되었다. 일리악은 256개의 ALU를 사용해 1 GFLOPS(기가플롭스)의 머신을 만들고자 하였으나 1972년 완성되었을 때는 64개의 ALU로 100 ~ 150 MFLOPS(메가플롭스)의 성능밖에 내지 못했다. 그렇지만 기본 개념은 충실해서 유체 역학과 같은 데이터 중심의 애플리케이션에서는 세계에서 가장 빠른 머신이었다. 일라악의 각 데이터 요소마다 별도의 ALU를 사용한 방법은 이후 벡터 프로세서 설계에서도 일반적인 것은 아니었으며 대규모 병렬 컴퓨팅 범주로 구분되기도 한다.

초창기 벡터 프로세서 시스템 중 유명한 것은 CDC(Control Data Corporation)의 STAR-100과 텍사스 인스트루먼츠(Texas Instruments)의 ASC(Advanced Scientific Computer)였다. ASC의 ALU는 1개의 파이프를 가진 파이프라인 아키텍처를 사용해 스칼라와 벡터 연산을 모두 처리할 수 있었으며 최대 성능은 길이가 긴 벡터를 처리할 경우 약 20 MFLOPS에 달했다. 확장 ALU 구성에서는 2개나 4개로 파이프를 확장해 2배나 4배의 성능을 얻을 수 있었다. 메모리 대역폭은 확장 모드를 사용하는데 충분했다. STAR는 CDC 7600같은 CDC의 슈퍼 컴퓨터보다는 느릴지는 몰라도 데이터 관련 작업에서는 크기도 작고 가격도 낮았다. 하지만 STAR는 벡터 명령어를 디코딩하고 프로세스의 실행을 준비하는데 시간이 많이 걸렸다. 그래서 실제 성능을 발휘하려면 매우 일정한 데이터 집합이 필요했다.

벡터 기술은 크레이-1[(Cray-1)에서 처음으로 완성되었다. 크레이는 STAR나 ASC 같이 데이터를 메모리에 남겨두지 않고 8개의 벡터 레지스터를 사용했다. 벡터 레지스터는 64비트 워드 64개로 이루어져 있다. 벡터 명령어는 레지스터 사이에서 실행되었는데 메인 메모리에서 가져오는 방법보다 훨씬 빨랐다. 크레이는 벡터 명령어를 실행하는데 다수의 ALU를 사용하는 대신 파이프라인 병렬화를 사용했다. 이 방법은 명령어에 따라 파이프라인을 나누어 놓은 것으로 예를 들어 뎃셈/뺄셈은 곱셈과는 다른 파이프라인에서 실행된다. 이런 기술을 벡터 체인닝이라 부른다. 크레이-1의 일반적인 성능은 80 MFLOPS 정도였으나 3개의 체인으로 실행할 경우 최대 성능은 240 MFLOPS를 기록했다.

다른 예는 CDC가 슈퍼 컴퓨터 시장에 재진입하기 위해 제작한 ETA-10 머신이지만 거의 판매되지 않았기 때문에 CDC가 슈퍼 컴퓨터 시장에서 철수하는 계기가 되었다. 1980년대 중반 후지쯔, 히타치, NEC 같은 일본 기업들이 크레이-1과 비슷한 레지스터 기반의 벡터 머신을 제작, 판매하였는데 좀 더 빠르고 크기도 작았다. 오리건(Oregon)의 FPS(Floating Point Systems)은 미니컴퓨터를 위한 애드인 방식의 어레이 프로세서를 제작하였으며 나중에는 미니슈퍼 컴퓨터를 제작하기도 했다. 하지만 크레이가 여전히 성능상 우위를 점하고 있었으며 크레이-2(Cray-2), 크레이 X-MP(Cray X-MP), 크레이 Y-MP(Cray Y-MP)를 발표해 명성을 이어나갔다. 그 후 슈퍼 컴퓨터 시장은 벡터 브로세서의 개선보다는 대규모 병렬 프로세싱에 초점을 맞추게 된다. 하지만 벡터 프로세서의 장점은 널리 알려져 있었으며 IBM은 여러 개의 스칼라 프로세서를 짝지어 벡터 프로세서처럼 동작하게 하는 가상 벡터 아키텍처(Virtual Vector Architecture)를 개발하기도 했다.

벡터 프로세싱 기술은 최근의 거의 모든 CPU에서 SIMD라는 명칭으로 추가되었다. 벡터 유닛은 프로그램으로부터 처리할 데이터를 받아 메인 스칼라 CPU와 동시에 작동한다.

특징[편집]

일반적인 조건에서 CPU는 한번에 1개나 2개의 데이터를 처리할 수 있다. 예를 들어 CPU에 “A와 B를 더한 후 결과를 C에 저장하라” 라는 명령을 내리면 A, B, C의 데이터는 바로 명령어에서 사용할 수 있도록 변환(encode)되어야 한다. 즉, 데이터가 저장되어 있는 메모리 위치의 주소를 지정하는(point to) 작업이 필요하다. 이처럼 주소를 디코딩하고 메모리에서 데이터를 가져오는데는 일정한 시간이 걸린다. CPU 속도가 증가함에 따라 메모리 지연 시간(latency)이 성능에 큰 영향을 미치게 되었다.

이렇게 낭비되는 시간을 줄이기 위해 최근 CPU에서는 파이프라인 기술을 사용한다. 명령어는 몇 개의 서브 유닛을 차례로 통과하는데 첫 번째 서브 유닛에서는 어드레스를 읽어 해독하고 다음 서브 유닛은 주소 값을 불러오며(fetch) 그 다음 서브 유닛은 그것들을 연산한다. 파이프라인은 마치 조립 라인과 같이 CPU에서 하나의 명령이 끝나기 전에 다른 명령을 해독하기 시작하는 것으로 주소 디코더는 끊임없이 계속 사용된다. 어떤 특정 명령어는 실행 완료되는데 일정한 시간이 걸린다. 이 시간을 레이턴시라고 하는데 CPU는 파이프라인을 이용해 레이턴시 동안 기다리지 않고 한번에 하나씩 실행할 수 있다.

벡터 프로세서는 이런 개념을 한층 발전시켜 명령어를 파이프라인하는 것만 아니라 데이터 그 자체도 파이프라인으로 처리되도록 하였다. A와 B를 더하라는 명령뿐만 아니라 지정한 범위 안의 모든 숫자를 더할 수 있도록 한 것이다. 즉, 여기서 여기까지의 모든 숫자를 저기서 저기까지의 모든 숫자에 모두 더할 수 있다. 끊임없이 명령어를 해독하고 거기에 필요한 데이터를 가져오는 대신 메모리는 한번에 하나의 명령어로만 읽을 수 있는데 마지막 사용한 주소에서 하나 더 큰 주소가 다음에 필요한 주소다. 이 방법은 디코딩 시간을 줄이는데 도움이 된다.

아래는 벡터 프로세서와 스칼라 프로세서의 차이점을 설명하기 위한 예제이다. 10개의 숫자로 된 2그룹을 모두 더하는 간단한 작업이다. 일반적인 프로그래밍 언어에서는 루프(loop)를 사용해 각 숫자를 하나씩 가져와 더한다. 이 작업을 CPU에서는 다음과 같이 한다.

execute this loop 10 times (아래 작업을 10번 반복 실행한다)
  read the next instruction and decode it (다음 명령을 읽어들여 해독한다)
  fetch this number (이쪽의 숫자를 가져온다)
  fetch that number (저쪽의 숫자를 가져온다)
  add them (두 숫자를 더한다)
  put the result here (결과를 여기에 넣는다)
end loop (루프 마지막)

벡터 프로세서에서는 이 작업은 매우 다른 것이 된다.

read instruction and decode it (명령을 읽어들여 해독한다)
fetch these 10 numbers (이쪽의 숫자 10개를 모두 가져온다)
fetch those 10 numbers (저쪽의 숫자 10개를 모두 가져온다)
add them (모두 더한다)
put the results here (결과를 여기에 넣는다)

이 방법은 몇가지 장점이 있는데 한 가지는 프로그램을 실행하는데 2개의 주소 변환만이 필요하다는 점으로 아키텍처에 따라 많은 시간을 단축할 수 있다. 또 다른 장점은 명령어를 불러와(fetch) 해독(decode)하는 작업을 10번 해야하는 것에서 1번만으로 끝낼 수 있기 때문에 작업 시간을 줄일 수 있다. 또한 코드 자체도 작아져서 메모리를 보다 효율적으로 사용할 수 있다.

벡터 프로세서가 가진 여러 기능의 유닛에 병렬로 숫자들을 추가할 수 있다. 벡터 명령은 여러 독립된 작업을 지정하며 그 숫자들 사이의 의존성 검사는 할 필요가 없다. 이 방법은 제어 로직을 간단하게 만들어주며 지연없이 성능을 증가시킬 수 있다.

앞서 말한 크레이는 한 걸음 앞선 방식으로 서로 다른 형태의 작업을 한번에 실행할 수 있다. 두 숫자를 더한후 세 번째 숫자와 곱하는 작업을 예로 들면 크레이에서는 이들 숫자를 한번에 모두 불러와 덧셈과 곱셈을 동시에 처리한다. 크레이에서는 아래와 같은 코드로 실행된다.

read instruction and decode it (명령을 읽어들여 해독한다)
fetch these 10 numbers (이쪽의 숫자 10개를 모두 가져온다)
fetch those 10 numbers (저쪽의 숫자 10개를 모두 가져온다)
fetch another 10 numbers (또 다른 쪽 숫자 10개를 모두 가져온다)
add and multiply them (한 번에 더하고 곱한다)
put the results here (결과를 여기에 넣는다)

연산 작업은 전체적으로 훨씬 빠르게 완료되며 제한 요소는 메모리에서 데이터를 가져오는데 걸리는 시간이다.

모든 문제에 이 같은 해법이 적용되지는 않는다. 이러한 종류의 명령어는 CPU 코어의 복잡함을 유발하며 일반적으로 벡터 작업이 아닌 다른 명령어조차 느리게 만든다. 또한 더 복잡해진 명령어를 실행하는 데에는 좀 더 복잡한 디코더가 필요하다. 이것은 디코딩 속도를 느리게 만들며 일반 덧셈과 같은 명령어의 실행 속도도 늦어지는 것을 뜻한다.

사실 벡터 프로세서는 대규모의 데이터를 처리해야 하는 상황에서 최상으로 작동한다. 이러한 이유로 벡터 프로세서는 주로 슈퍼 컴퓨터에 사용되었으며 기상 예측 센터나 물리학 연구소 같은 엄청난 데이터를 처리해야 하는 곳에서 찾아 볼 수 있다.

같이 보기[편집]

외부 링크[편집]

병렬 컴퓨팅 개발의 역사 (1955년에서 1993년까지)

v t e 병렬 컴퓨팅
일반	클라우드 컴퓨팅 고성능 컴퓨팅 클러스터 컴퓨팅 분산 컴퓨팅 그리드 컴퓨팅
병렬화 수준	비트 명령어 데이터 테스크
스레드	슈퍼스레딩 하이퍼스레딩
이론	암달의 법칙 구스타프슨의 법칙 비용 효과 카프-플랫 척도 감속 스피드업
구성 요소	프로세스 스레드 파이버 PRAM 명령어 윈도우
조정	멀티스레딩 메모리 일관성 캐시 일관성 Barrier 동기화 애플리케이션 체크포인트
프로그래밍	모델(내재적 병렬성 외재적 병렬성 동시성) 플린의 분류학(SISD SIMD MISD MIMD) 스레드
하드웨어	다중 처리(대칭형 비대칭형) 메모리(NUMA COMA 분산 공유 분산 공유) SMT SMP MPP 슈퍼스칼라 벡터 프로세서 슈퍼컴퓨터 베어울프
API	POSIX 스레드 OpenMP PVM MPI UPC 스레딩 빌딩 블록 Boost 전역 배열 Charm++ Cilk/실크 플러스 Co-array Fortran OpenCL CUDA
문제	처치 곤란 병렬 문제 그랜드 챌린지 문제 소프트웨어 락아웃 확장성 경쟁 상태 교착 상태 라이브락 결정론적 알고리즘 병렬 감속

v t e 프로세서 기술
구조	튜링 기계 포스트 튜링 기계 범용 튜링 기계 양자 튜링 기계 벨트 머신 스택 머신 레지스터 머신 카운터 머신 포인터 머신 랜덤 접근 기계 랜덤 액세스 스토어드 프로그램 머신 유한 상태 기계 큐 오토마톤 폰 노이만 하버드 (수정됨) 데이터플로 TTA 셀룰러 인공신경망 기계 학습 딥 러닝 신경 처리 장치 (NPU) 돌림형 신경망 로드/스토어 아키텍처 레지스터 메모리 아키텍처 엔디언 FIFO 제로 카피 NUMA HUMA HSA 모바일 컴퓨팅 서피스 컴퓨팅 착용 컴퓨팅 이기종 컴퓨팅 병렬 컴퓨팅 병행 컴퓨팅 분산 컴퓨팅 클라우드 컴퓨팅 무정형 컴퓨팅 유비쿼터스 컴퓨팅 패브릭 컴퓨팅 재배열 컴퓨팅 인지 컴퓨팅 아날로그 컴퓨팅 기계식 컴퓨팅 하이브리드 컴퓨팅 디지털 컴퓨팅 DNA 컴퓨팅 펩타이드 컴퓨팅 화학 컴퓨팅 유기 컴퓨팅 웻웨어 컴퓨팅 양자 컴퓨터 신경 모방 컴퓨팅 광 컴퓨터 리버서블 컴퓨팅 비전통 컴퓨팅 하이퍼 계산 3진법 컴퓨터 대칭형 다중 처리 (SMP) 비대칭형 다중 처리 (AMP) 캐시 계층 메모리 계층 구조
ISA 유형	ASIP CISC RISC EDGE (TRIPS) VLIW (EPIC) MISC OISC NISC ZISC 비교
ISA	X86 z/아키텍처 ARM MIPS 파워 아키텍처 (파워PC) SPARC 밀 아이테니엄 (IA-64) 알파 프리즘 슈퍼H V850 클리퍼 VAX 유니코어 PA-RISC 마이크로블레이즈 RISC-V
워드 크기	1비트 2비트 4비트 8비트 9비트 10비트 12비트 15비트 16비트 18비트 22비트 24비트 25비트 26비트 27비트 31비트 32비트 33비트 34비트 36비트 39비트 40비트 48비트 50비트 60비트 64비트 128비트 256비트 512비트 가변
실행	명령어 파이프라인 버블 피연산자 포워딩 비순차적 명령어 처리 레지스터 리네이밍 모의 실행 분기 예측 메모리 의존성 예측 하자드
병렬 레벨	비트 비트 직렬 워드 명령어 파이프라이닝 스칼라 슈퍼스칼라 태스크 스레드 프로세스 데이터 벡터 메모리
멀티스레딩	시간적 동시 (SMT) (하이퍼스레딩) SpMT 선점 협력형 클러스터 멀티스레드 (CMT) 하드웨어 스카웃
플린 분류	SISD SIMD (SWAR) SIMT MISD MIMD SPMD 어드레싱 모드
CPU 성능	초당 명령 수 (IPS) 클럭당 명령어 처리 횟수 (IPC) 명령어 당 사이클 (CPI) 플롭스 (FLOPS) 초당 트랜잭션 수 (TPS) SUPS 전성비 계산 차수 캐시 성능 측정 및 메트릭
코어 카운트	싱글 코어 프로세서 멀티 코어 매니코어 프로세서
유형	중앙 처리 장치 (CPU) GPGPU AI 가속기 시각 처리 장치 (VPU) 벡터 프로세서 배럴 프로세서 스트림 프로세서 디지털 신호 처리 장치 (DSP) 입출력 프로세서/DMA 컨트롤러 네트워크 프로세서 베이스밴드 프로세서 물리 처리 장치 (PPU) 코프로세서 안전한 암호 보조 처리기 주문형 반도체 FPGA FPOA 복합 프로그래머블 논리 소자 마이크로컨트롤러 마이크로프로세서 모바일 프로세서 노트북 프로세서 초저전압 프로세서 멀티 코어 매니코어 프로세서 타일 프로세서 멀티칩 모듈 (MCM) 칩 스택 멀티칩 모듈 단일 칩 시스템 (SoC) 멀티프로세서 시스템 온 칩 (MPSoC) 프로그래밍 가능 단일 칩 시스템 (PSoC) 네트워크 온 칩 (NoC)
구성 요소	실행 장치 (EU) 산술 논리 장치 (ALU) 주소 생성 장치 (AGU) 부동소수점 장치 (FPU) 로드 스토어 유닛 (LSU) 분기 예측 유니파이드 레저베이션 스테이션 배럴 시프터 언코어 Sum addressed decoder (SAD) 프론트 사이드 버스 백사이드 버스 노스브리지 사우스브리지 가산기 곱셈기 복호화 주소 디코더 멀티플렉서 멀티플렉서 레지스터 캐시 메모리 관리 장치 (MMU) IOMMU 통합 메모리 컨트롤러 (IMC) 전원 관리 장치 (PMU) 변환 색인 버퍼 (TLB) 스택 엔진 레지스터 파일 프로세서 레지스터 하드웨어 레지스터 메모리 버퍼 레지스터 (MBR) 프로그램 카운터 마이크로코드 ROM 데이터패스 제어 장치 인스트럭션 유닛 재배열 버퍼 버퍼 쓰기 버퍼 코프로세서 전자 개폐기 전자 회로 집적 회로 3차원 집적 회로 불리언 회로 디지털 회로 아날로그 회로 혼합 신호 집적 회로 전원 관리 집적 회로 퀀텀 회로 논리 회로 조합 논리 순차 논리 이미터 결합 논리 (ECL) 트랜지스터-트랜지스터 논리 (TTL) 글루 로직 퀀텀 게이트 게이트 배열 계수기 버스 반도체 소자 클럭 속도 CPU 배수 비전 칩 멤리스터
전원 관리	APM ACPI 동적 주파수 스케일링 동적 전압 스케일링 클럭 게이팅
하드웨어 보안	NX 비트 인텔 MPX 인텔 시큐어 키 하드웨어 제한 (펌웨어) Software Guard Extensions (인텔 SGX) Trusted Execution Technology 신뢰 플랫폼 모듈 (TPM) 안전한 암호 보조 처리기 하드웨어 보안 모듈 헝즈칩
관련 항목	범용 CPU의 역사