불균일 기억 장치 접근

불균일 기억 장치 접근(Non-Uniform Memory Access, NUMA)은 멀티프로세서 시스템에서 사용되고 있는 컴퓨터 메모리 설계 방법중의 하나로, 메모리에 접근하는 시간이 메모리와 프로세서간의 상대적인 위치에 따라 달라진다. NUMA구조에서 프로세서는 자기의 로컬 메모리에 접근할 때가 원격 메모리에 접근할 때보다 더 빠르다. 원격 메모리는 다른 프로세서에 연결되어 있는 메모리를 말하고 로컬 메모리는 자기 프로세서에 연결되어 있는 메모리를 말한다.

NUMA 아키텍처는 이론적으로 SMP아키텍처로부터 확장된 개념이다. Burroughs large systems에 의해서 첫 상용화되었으며 이후 유니시스, Convex Computer(이후 휴렛 패커드), 실리콘 그래픽스, Sequent Computer Systems, Data General 그리고 DEC에서 상품화되었다. 이러한 회사들이 개발해 놓은 기술들은 유닉스 계열 운영 체제에 도입되었으며 일부는 윈도우 NT에도 도입되었다.

기본 개념[편집]

NUMA 시스템의 한예. 프로세서들은 버스나 크로스바로 연결되어 있음을 주목하세요. 각각의 프로세서들은 그 위치에 따라 메모리에 접근하는 우선순위가 다름을 보여준다.

현대의 CPU는 주 메모리보다 훨씬 빠르게 동작한다. 그렇지만 컴퓨터 초기에는 CPU는 일반적으로 메모리보다 천천히 동작을 했다. 1960년대에 첫 슈퍼컴퓨터와 고속 컴퓨터가 개발되면서 역전이 되었다. 그 이후, 계속해서 데이터를 더 많이 사용해야 하는 CPU는 메모리에서 데이터를 다 가지고 올 때까지 기다려야 했다. 1980년대와 1990년대에 개발된 많은 슈퍼컴퓨터는 빠르게 메모리에 접근하는 방법을 제공했고 이것으로 대용량 데이터 집합에 대한 처리를 그 어떤 다른 시스템들보다 빠르게 할 수 있었다.

메모리에 접근하는 경우의 수를 줄이는 것이 현대 컴퓨터에서 성능을 높이는 한 방법이다. 예를 들면, 고속의 캐시 메모리를 지속적으로 증가시키는 것과 캐시 미스를 줄이기 위한 뛰어난 알고리즘을 사용하는 것이다. 그렇지만 운영체제 크기의 비약적인 증가와 그 위에서 돌아가는 애플리케이션 크기의 증가는 캐시를 통한 성능 향상을 압도하게 된다. 특히나 다중 프로세서 시스템에서는 이 문제가 더 심각하다. 하나의 프로세서만이 메모리에 접근할 수 있기 때문에 많은 다른 프로세서들은 기다려야만 하기 때문이다.

NUMA는 각각의 프로세서에 독립적인 별도의 메모리를 제공함으로써 이러한 문제를 해결하려 한다. 이렇게 하면 여러 프로세서들이 동일 메모리 주소에 접근하려 할 때 성능 충돌을 피할 수 있다. 서버와 애플리케이션에서 아주 일반적인 펼쳐진 데이터를 처리하는 문제의 경우에, NUMA는 하나의 공유 메모리의 경우 대비 대략적으로 프로세서의 수나 아니면 메모리 뱅크수 만큼 성능을 향상시킬 수 있다. 그렇지만 하나 이상의 프로세서가 동일 데이터를 필요로 하는 경우에 NUMA시스템은 메모리 뱅크들 사이로 데이터를 이동시켜야 하는 경우가 발생한다. 이러한 동작은 NUMA의 성능을 떨어뜨리는 요인이다. 따라서 전반적인 성능은 주어진 시간에 동작하고 있는 일의 특성에 달려있다. 어떻게 프로세스가 원격 메모리 대신 로컬 메모리를 사용하게 하느냐가 프로그램의 최적화에 대한 문제이다.

캐시 일관성 NUMA (ccNUMA)[편집]

거의 모든 CPU 아키텍처는 CPU캐시라고 알려진 적은 양의 매우 빠른 비공유 메모리를 사용한다. NUMA환경에서 공유 메모리의 캐시 일관성을 유지시키는 것은 상당히 어려운 작업이다. 비록 캐시 일관성을 제공하지 않는 NUMA아키텍처는 설계와 제작이 용이하지만 현재의 폰 노이만 구조 프로그래밍 모델에서는 프로그래밍을 하기가 매우 어렵다. 따라서 현재 시장에 판매되고 있는 모든 NUMA 컴퓨터들은 캐시 일관성을 제공한다. 이것을 ccNUMA(cache-coherent NUMA)라고 분류한다.

인텔은 2007년 후반에 x86과 아이테니엄 서버에서 네할렘 마이크로아키텍처 기반 프로세서와 투킬라 프로세서에서부터 NUMA 아키텍처를 적용했다.^[1] 프로세서들간의 연결은 인텔 퀵패스 인터커넥트(QPI)를 통하여 이루어진다.^[2]

NUMA 대 클러스터 컴퓨팅[편집]

어떤사람들은 NUMA를 매우 가깝게 연결된 컴퓨터 클러스터라고 본다. 클러스터 아키텍처에 가상 메모리 페이징을 도입하면 NUMA가 하드웨어에서가 아닌 순전히 소프트웨어적으로 구현이 가능하다. 그렇지만 노드간의 레이턴시(대기시간,Latency)는 하드웨어 기반의 NUMA보다 수십배 이상 느리다.

같이 보기[편집]

각주[편집]

이 문서에는 GFDL 라이선스로 배포된 자유 온라인 컴퓨팅 사전(FOLDOC)의 내용을 기초로 작성된 내용이 포함되어 있습니다.

↑ Intel Corp. (2008). Intel QuickPath Architecture [White paper]. Retrieved from http://www.intel.com/pressroom/archive/reference/whitepaper_QuickPath.pdf
↑ Intel Corporation. (September 18th, 2007). Gelsinger Speaks To Intel And High-Tech Industry's Rapid Technology Caden[Press release]. Retrieved from http://www.intel.com/pressroom/archive/releases/2007/20070918corp_b.htm

외부 링크[편집]

[1] Intel Corp. (2008). Intel QuickPath Architecture [White paper]. Retrieved from http://www.intel.com/pressroom/archive/reference/whitepaper_QuickPath.pdf

[2] Intel Corporation. (September 18th, 2007). Gelsinger Speaks To Intel And High-Tech Industry's Rapid Technology Caden[Press release]. Retrieved from http://www.intel.com/pressroom/archive/releases/2007/20070918corp_b.htm

[1]

[2]

v t e 병렬 컴퓨팅
일반	클라우드 컴퓨팅 고성능 컴퓨팅 클러스터 컴퓨팅 분산 컴퓨팅 그리드 컴퓨팅
병렬화 수준	비트 명령어 데이터 테스크
스레드	슈퍼스레딩 하이퍼스레딩
이론	암달의 법칙 구스타프슨의 법칙 비용 효과 카프-플랫 척도 감속 스피드업
구성 요소	프로세스 스레드 파이버 PRAM 명령어 윈도우
조정	멀티스레딩 메모리 일관성 캐시 일관성 Barrier 동기화 애플리케이션 체크포인트
프로그래밍	모델(내재적 병렬성 외재적 병렬성 동시성) 플린의 분류학(SISD SIMD MISD MIMD) 스레드
하드웨어	다중 처리(대칭형 비대칭형) 메모리(NUMA COMA 분산 공유 분산 공유) SMT SMP MPP 슈퍼스칼라 벡터 프로세서 슈퍼컴퓨터 베어울프
API	POSIX 스레드 OpenMP PVM MPI UPC 스레딩 빌딩 블록 Boost 전역 배열 Charm++ Cilk/실크 플러스 Co-array Fortran OpenCL CUDA
문제	처치 곤란 병렬 문제 그랜드 챌린지 문제 소프트웨어 락아웃 확장성 경쟁 상태 교착 상태 라이브락 결정론적 알고리즘 병렬 감속