인공 신경망: 두 판 사이의 차이

내용 삭제됨 내용 추가됨

인라인

2015년 4월 27일 (월) 20:58 판

기계학습 그리고 인지과학에서의 인공신경망(artificial neural network 뉴럴 네트워크^[*])은 생물학의 신경망(동물의 중추신경계, 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. 좁은 의미에서는 오차역전파법을 이용한 다층 퍼셉트론을 가리키는 경우도 있지만, 이것은 잘못된 용법으로, 인공신경망은 이에 국한되지 않는다.

인공신경망에는 교사 신호(정답)의 입력에 의해서 문제에 최적화되어 가는 교사 학습과 교사 신호를 필요로 하지 않는 비교사 학습이 있다. 명확한 해답이 있는 경우에는 교사 학습이, 데이터 클러스터링에는 비교사 학습이 이용된다. 인공신경망은 많은 입력들에 의존하면서 일반적으로 베일에 쌓은 함수를 추측하고 근사치를 낼 경우 사용한다. 일반적으로 입력으로부터 값을 계산하는 뉴런 시스템의 상호연결로 표현되고 적응성이 있어 패턴인식과 같은 기계학습을 수행할 수 있다.

예를들면, 필기체 인식을 위한 신경망은 입력 뉴런의 집합으로 정의되며 이들은 입력 이미지의 픽셀에 의해 활성화된다. 함수의 변형과 가중치가(이들은 신경망을 만든 사람이 결정한다.) 적용된 후 해당 뉴런의 활성화는 다른 뉴런으로 전달된다. 이러한 처리는 마지막 출력 뉴런이 활성화될 때까지 반복되며 이것은 어떤 문자를 읽었는 지에 따라 결정된다.

다른 기계학습과 같이-데이터로부터 학습하는- 신경망은 일반적으로 규칙기반 프로그래밍으로 풀기 어려운 컴퓨터 비전 또는 음성 인식과 같은 다양한 범위의 문제를 푸는데 이용된다.

배경 지식

인간의 중추 신경계에 대한 조사는 신경망 개념에 영감을 주었다. 생물학적 신경망을 흉내내는 네트워크를 형상하기 위해 인공신경망에서 인공 뉴런들은 서로 연결 되어있다.

인공신경망이란 무엇인가에 대한 하나의 공식적인 정의는 없다. 그러나 만약 통계학적 모델들의 집합이 다음과 같은 특징들을 가진다면 해당 집합을 신경(neural)이라고 부른다.

조정이 가능한 가중치들의 집합 즉, 학습 알고리즘에 의해 조정이 가능한 숫자로 표현된 매개변수로 구성되어있다.
입력의 비선형 함수를 유추할 수 있다.

조정가능한 가중치들은 뉴런 사이의 연결 강도를 의미하고 이들은 훈련 또는 예측하는 동안에 작동한다.

다양한 유닛들이 할당된 하위작업 보다 유닛들에 의한 병렬 혹은 집합적으로 함수들을 수행한다는 점에서 신경망은 생물학적 신경망과 닮았다. '신경망'이라는 단어는 보통 통계학, 인지 심리학 그리고 인공지능에서 사용되는 모델들을 가리킨다. 중추 신경을 모방하는 신경망 모델들은 이론 신경과학과 계산 신경과학의 한 부분이다.

인공신경망을 구현한 현대의 소프트웨어에서는 생물학적 접근법은 신호처리와 통계학에 근거한 좀 더 현실적인 접근법들로 인해 주로 사용되지 않는다. 이러한 시스템들 중 몇몇에서는 신경망 또는 신경망의 부분들(인공 신경들)은 큰 시스템을 형성하며 이러한 시스템은 조정이 가능하거나 기능하지 않은 구성 요소들로 결합되어 있다. 이러한 시스템의 일반적인 접근법은 많은 현실 문제 해결에 적합한 반면에 전통적인 인공지능 연결 모델에서는 그렇지 않다. 그러나 이들에게도 공통점이 있는데 그것은 비선형의 원리 분산, 병렬과 지역 처리 그리고 적응이다. 역사적으로 신경 모델들의 이용은 18세기 후반 if-then 규칙으로 표현된 지능을 가진 전문가 시스템을 특징으로 하는 고차원(symbolic) 인공지능에서 부터 동적 시스템의 매개변수들을 가진 지능을 특징으로 하는 저차원(sub-symbolic) 기계학습으로 가는 패러다임의 변환이다.

역사

워런 맥컬록(Warren McCulloch)와 월터 피츠(Walter Pitts)는 ^[1] (1943)수학과 임계 논리(threshold logic)라 불리는 알고리즘을 바탕으로 신경망을 위한 계산학 모델을 만들었다. 이 모델은 신경망 연구의 두 가지 다른 접근법에 대한 초석을 닦았다. 하나의 접근법은 뇌의 신경학적 처리에 집중하는 것이고 다른 하나는 인공 신경망의 활용에 집중하는 것이다.

1940년 후반에 심리학자 도널드 헤비안(Donald Hebb)는 헤비안 학습(Hebbian learning)이라 불리는 신경가소성의 원리에 근거한 학습의 기본 가정을 만들었다. 헤비안 학습은 전형적인 자율학습으로 이것의 변형들은 장기강화(long term potentiation)의 초기 모델이 된다. 이러한 아이디어는 1948년 튜링의 B-type 기계에 계산학 모델을 적용하는데서 출발하였다.

팔리(Farley)와 웨슬리 클라크(Wesley A. Clark)는 MIT에서 헤비안 네트워크을 모의 실험하기 위해 처음으로 계산학 모델(후에 계산기라 불리는)을 사용하였다. 다른 신경망 계산학 기계들은 로체스터(Rochester), 홀랜드(Holland), 하빗(Habit), 두다(Duda)에 의해 만들어졌다.(1956)

프랑크 로젠블라트(Frank Rosenblatt)는 퍼셉트론 즉, 간단한 덧셈과 뺄셈을 하는 이층구조의 학습 컴퓨터 망에 근거한 패턴 인식을 위한 알고리즘을 만들었다. 계산학 표기법과 함께 로벤블라트는 또한 기본적인 퍼셉트론에 대한 회로가 아닌예를 들면 배타적 논리합 회로(exclusive-or circuit)와 같은 회로를 표기하였다. 해당 회로의 수학 계산은 폴 웨어보스(Paul Werbos)에 의해 오차역전파 알고리즘이 만들어진 후에 가능하였다.

마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)에 의해 기계학습 논문이 발표된 후에(1969) 신경망 연구는 침체되었다. 그들은 신경망을 처리하는 계산학 기계에 두 가지 문제점을 찾아내었다. 첫 번째로는 단층 신경망은 배타적 논리합 회로를 처리하지 못한다는 것이다. 두 번째 중요한 문제는 거대한 신경망에 의해 처리되는 긴 시간을 컴퓨터가 충분히 효과적으로 처리할 만큼 정교하지 않다는 것이다. 신경망 연구는 컴퓨터가 좋은 연산 처리 능력을 달성하기 그리고 배타적 논리합 문제를 효율적으로 처리하는 오차역전파 알고리즘이 만들어지기까지 더디게 진행되었다.

1980년대 중반 병렬 분산 처리는 결합설(connectionism)이라는 이름으로 각광을 받았다. 데이비드 럼멜하트(David E. Rumelhart)와 제임스 맥클레랜드(James McClelland)가 만든 교과서는 결합설을 이용해 신경 처리를 컴퓨터에서 모의 실험하기 위한 모든 것을 설명하였다.

인공신경망이 어느정도 뇌의 기능을 반영하는지 불분명하기 때문에 뇌 신경 처리의 간단한 모델과 뇌 생물학적 구조간의 상관관계에 대해 논란 중에 있으나 인공지능에서 사용되는 신경망은 전통적으로 뇌 신경 처리의 간단한 모델로 간주된다.

신경망은 SVM과 같은 다른 기계학습 방법들(linear classifier)의 인기를 점차적으로 추월해하고 있다. 2000년대 이후 딥 러닝의 출현이후 신경 집합의 새로운 관심은 다시 조명받고 있다.

2006년 이후 발전 동향

생물물리학 모의실험 그리고 뇌신경학 컴퓨팅을 위한 계산학 디바이스들은 CMOS를 통해 만들어졌다. 최근에는 큰 범위의 기본 요소들의 분석과 합성을 위한 나노 디바이스 제작과 같은 노력들이 있다. 만약 성공한다면 이러한 노력은 디지털 컴퓨팅을 뛰어넘는 신경 컴퓨팅의 새로운 시대를 도래하게 할 것이다. 왜냐하면 이것은 프로그래밍 보다는 학습에 기반하며 비록 첫 예시가 CMOS 디지털 디바이스와의 합작일지라도 이것은 기본적으로 디지털보다 아날로그이기 때문이다.

2009년부터 2012년동안 스위스 AI 연구실 IDSIA에서 위르겐 슈밋흠바(Jürgen Schmidhuber)의 연구 그룹이 개발한 재귀 신경망과 심화 피드포워드 신경망은 여덞 번의 패턴 인식과 기계학습 국제 대회에서 우승하였다. 예를들면, 알렉스 그레이브스(Alex Graves et al)의 쌍방향 그리고 다중 차원의 장단기 기억(LSTM)은 2009년의 국제문서 분석 및 인식 컨퍼런스(ICDAR)의 필기 인식 부분에서 학습하게 될 세 가지 언어에 대한 아무런 사전 정보가 주어지지 않았음에도 불구하고 세 번이나 우승하였다.

IDSIA의 댄 크리슨(Dan Ciresan)과 그 동료들에 의한 빠른 GPU 기반 실행 접근 방법은 IJCNN 2011 교통 표지판 인식 대회, ISBI 2011 신경 구조의 분할의 전자 현미경 대회를 비롯하여 여러 패턴 인식 경연에서 여러 번 우승하였다. 그들의 신경망은 또한 처음으로 교통 표지판(IJCNN 2012) 또는 MINIST 필기 인식 분야에서 인간과 견줄만한 또는 인간을 넘어서는 인공 패턴 인식이다.

심화 비선형 신경 아키텍쳐는 1980년 후쿠시마 구니히코(Kunihiko Fukushima)의 신인식기(neocognitron)와 비슷하다. 그리고 일차 시각 피질에서 데이비드 허블(David H. Hubel)과 토르스텐 비셀(Torsten Wissel)에 의해 밝혀진 간단하고 복잡한 세포들에 영감을 받은 표준 비전 아키텍처는 토론토대학의 조프 힌턴(Geoff Hinton) 연구실의 자율학습 방법에 의해 미리 훈련된다. 해당 연구실의 팀은 2012년 베르크(Berck)의 후원을 받는 신약 개발에 필요한 분자들을 찾는데 도움을 주는 소프트웨어 제작 대회에서 우승하였다.

경영학에서의 인공신경망

인공신경망을 경영학에 응용하고자 하는 연구는 재무, 회계, 마케팅, 생산 등의 분야에서 다양하게 진행되어 왔다. 특히, 재무분야에 대한 응용연구는 매우 활발하게 진행되고 있는데 주가지수예측, 기업신용평가, 환율예측 등의 연구가 진행되고 있다.

인공신경망을 경영학 분야에 응용하기 위해서는 인공신경망의 작동원리에 따라 진행되는데, 기본적인 정보를 입력받아 처리요소에서 처리를 하고 이를 이용하여 가중치를 결정한다. 가중치가 결정되면 이를 이용하여 의사결정을 할 수 있다.^[2]

인공신경망의 사용 방법

인공신경망의 가장 큰 장점은 관찰된 데이타로부터 학습하여 원하는 근사 함수를 만들 수 있다는 것 이다. 그러나 사용하려는 신경망의 기본 이론과 예측하려는 데이타의 근본적인 이해가 매우 중요하다. 인공신경망의 사용함에 있어서 세가지 큰 부분으로 나눌 수 있다.

모델의 선택: 예측 하려는 데이타를 어떤방법으로 표현 하는지에 대한 선택이다. 지나치게 복잡한 모델은 학습 과정에서 Overfitting 문제가 발생 할 수 있다.

학습 알고리즘: 학습 알고리즘 사이에 많은 장단점이 있다. 대부분의 알고리즘은 hyperparameters와 함께 고정된 데이터 집단에서 잘 동작한다. 하지만 알려지지 않은 데이타의 예측의 경우 대부분 많은 시간과 연구가 필요하다.

견고함: 모델과 알고리즘이 적절하게 선택되었다면 인공신경망의 결과는 매우 높은 예측 값을 가진 것이다.

인공신경망의경우 자연스럽게 많은 데이를 가지고 online learning 방식을 사용한다. 이 방식은 병렬화가 쉽게 가능하도록 주로 지역적 의존성만 가지고 있다.

적용

인공신경망의 활용은 데이타 관찰로부터 원하는 함수룰 추론 하는데 사용 할 수 있다. 이것은 매우 복잡한 데이타를 사용하거나 사람의 주관적인 판단이 필요한 부분에 매우 유용하게 사용 될 수 있다.

실생활에서 적용

인공 신경망은 다음과 같은 몇가지 종류로 사용 될 수 있다.

함수 추론, 회귀 분석, 시계열 예측, 근사 모델링
패턴 인식 및 순서 인식 그리고 순차 결정 같은 분류 알고리즘
필터링, 클러스터링, 압축 등 데이타 프로세싱
인공 기관의 움직임 조정 같은 로봇 제어
컴퓨터 수치 제어

또한 인공신경망은 여러가지 암 진단에도 사용 되었다. HLDN 이라는 인공 신경망 기반 폐암 검출 시스템은 암 진단의 정확성과 속도 향상을 이루었고 전립선 암에도 사용 되었다.^[3] 이 시스템은 많은 환자의 데이터로부터 특정한 모델을 만들어서 모델과 환자 한명과 비교를 통해서 진단한다.모델은 다른 변수의 상관관계나 가정에 의존하지 않는다. 인공 신경망 모델은 임상 실험 방법보다 더 정확하게 동작 하였고 한 기관에서 훈련된 모델이 다른 기관에서도 결과를 예측 할 수 있었다.

신경 네트워크와 신경 과학

이론 및 계산 신경과학은 이론적 분석과 생물학적 신경 시스템의 컴퓨터 모델링과 관련된 분야이다. 인공 신경망이 인식 과정이나 행동에 상당히 관련이 되어있는 것과 같이 신경 과학 분야도 밀접하다. 이 분야의 목적은 생물학적 신경 시스템 모델을 사용해서 생물학적 시스템이 어떻게 동작하는지 이해 하는 것이다. 이 분야를 이해하기 위해서 신경과학자들은 관측된 생물학적 프로세스와 생물학적 메카니즘 사이의 링크를 만들기 위해서 신경 학습과 이론을 적용 하고 있다.

다양한 모델의 종류

다양한 모델이 추상화 단계에서 시스템의 특성에 따라 다르게 적용이 된다. 다양한 모델들 각각 신경 세포와 신경 회로의 관계가 최종 시스템이 추상적 신경 모델에서 발생 할 수 있는 상호작용과 단기 행동 모델까지 다양한 모델들이 있다. 이러한 신경 시스템모델들은 각각 신경 세포와 시스템 관의 상호 관계에 따라 달라진다.

인공 신경망 소프트웨어

인공 신경망 소프트웨어는 시뮬레이션, 연구, 개발 분야에 많이 사용 된다. 인공 신경망 소프트에어는 생물학적 신경망 개념을 가져와서 여러가지 시스템에 적용 되고 있다.

시뮬레이션

인공 신경망 시뮬레이터는 대부분 생물학적 신경망이나 인공 신경망을 구현하는 프로그램으로 사용 된다. 보통 한가지 이상의 신경망 종류를 제공 한다. 대부분 시뮬레이터들은 학습 방법을 데이터 시각화 하는 기능을 제공한다.

연구 시뮬레이터: 전통적으로 가장 많이 사용되는 인공 신경망 시뮬레이터이다. 가장 중요한 목적은 신경망의 정확한 행동이나 특징을 시각화나 데이타로 이해하기 편하게 한다.
데이타 분석 시뮬레이터: 실용적인 프로그램에 많이 사용 된다. 데이터 마이닝이나 예측에 사용되고 항상 많은 전처리 과정을 거치게 된다.
인공 신경망 교육 시뮬레이터: 기본적인 프로그래밍 지식 없이 인공 신경망을 사용 해볼 수 있는 프로그램이다. 작고 사용하기 쉬운 시뮬레이터는 간단한 전방 전달(feed forward)과 오차역전파법(back propagation) 알고리즘을 을 제공한다.

개발 환경

인공 신경망 개발 환경은 대부분 강력한 기능을 제공한다. 알고리즘 수정이 쉽고 다른 프로그램과 같이 사용하기 편하다. 어떤 프로그램은 좋은 전처리 알고리즘과 시각화 알고리즘도 제공한다.

구성 요소 기본 개발: 최근 개발 환경은 구성 요소 기본 개발 환경을 선호한다. 어뎁터나 파이프를 사용해서 구성 요소와 연결하여 결과를 처리하는데 매우 높은 유연성을 가지고 있고 어느 프로그램 환경에서나 동작 할 수 있다. 단점으로는 컴포넌트 동작을 위해서 많은 지식이 요구가 된다.

사용자 개발 인공 신경망

인공 신경망의 가장 많은 형태는 사용자가 직접 다양한 환경에서 구현한 경우이다. 높은 유언성을 가지고 있으며 개발하기 힘들다는 단점이 있다. 연구분야 뿐만 아니라 실제 서비스등 많은 분야에서 사용된다.

신경망 알고리즘 종류

인공 신경망 유형은 복잡한 다중 입력과 방향성 피드백 루프와 단방향 또는 양방향 그리고 다양한 계층등 여러가지 종류가 있다. 전반적으로 이들 시스템의 알고리즘은 각각 함수의 제어와 연결을 결정하게된다. 대부분의 시스템은 "가중치"와 다양한 신경들의 연결을 시스템의 매개 변수를 수정하는데 사용된다. 인공 신경망은 자동적으로 외부의 훈련으로부터 자동적으로 학습을 하거나 스스로 데이터를 사용해서 발전 될 수 있다.

이론적 특성

계산 능력

다층 퍼셉트론(MLP)은 시벤코 정리(일반 근사 이론)로 증명된 일반적인 함수 근사자이다. 하지만, 이 증명은 인공신경망에 필요한 신경의 수나 가중치의 설정에 직접적으로 관여하지 않는다. Hava Siegelmann과 Eduardo D. Sontag의 연구는 유한개의 수로 이루어진 신경들과 일반 선형 연결을 사용한 어떤 합리적인 가중치의 값(정확한 실수 값의 가중치가 아니라)을 가진 어떤 반복되는 구조는 일반적인 튜링 기계의 완벽한 성능을 가진다는 것을 증명했다. 게다가, 비합리적인 값의 가중치 설정은 기계로 하여금 튜링 기계이상의 성능을 발휘하게 한다는 것도 이미 증명되었다.

주석

↑ McCulloch, Warren; Walter Pitts (1943). “A Logical Calculus of Ideas Immanent in Nervous Activity”. 《Bulletin of Mathematical Biophysics》 5 (4): 115–133. doi:10.1007/BF02478259.
↑ 《e비즈니스 시대의 경영정보시스템》. 한경사. ISBN 89-89269-34-2. 이름 목록에서 |이름1=이(가) 있지만 |성1=이(가) 없음 (도움말)
↑ Ganesan, N. “Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data” (PDF). International Journal of Computer Applications.

함께 보기

[1] McCulloch, Warren; Walter Pitts (1943). “A Logical Calculus of Ideas Immanent in Nervous Activity”. 《Bulletin of Mathematical Biophysics》 5 (4): 115–133. doi:10.1007/BF02478259.

[2] 《e비즈니스 시대의 경영정보시스템》. 한경사. ISBN 89-89269-34-2. 이름 목록에서 |이름1=이(가) 있지만 |성1=이(가) 없음 (도움말)

[3] Ganesan, N. “Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data” (PDF). International Journal of Computer Applications.

[1]

[2]

[3]

@@ 23번째 줄: / 23번째 줄: @@
 ==역사==
-워런 맥컬록(Warren McCulloch)와 월터 피츠(Walter Pitts)는 수학과 임계 논리(threshold logic)라 불리는 알고리즘을 바탕으로 신경망을 위한 계산학 모델을 만들었다. 이 모델은 신경망 연구의 두 가지 다른 접근법에 대한 초석을 닦았다. 하나의 접근법은 뇌의 신경학적 처리에 집중하는 것이고 다른 하나는 인공 신경망의 활용에 집중하는 것이다.
+워런 맥컬록(Warren McCulloch)와 월터 피츠(Walter Pitts)는 <ref>{{cite journal|last=McCulloch|first=Warren|author2=Walter Pitts|title=A Logical Calculus of Ideas Immanent in Nervous Activity|journal=Bulletin of Mathematical Biophysics|year=1943|volume=5|pages=115–133|doi=10.1007/BF02478259|issue=4}}</ref>  (1943)수학과 임계 논리(threshold logic)라 불리는 알고리즘을 바탕으로 신경망을 위한 계산학 모델을 만들었다. 이 모델은 신경망 연구의 두 가지 다른 접근법에 대한 초석을 닦았다. 하나의 접근법은 뇌의 신경학적 처리에 집중하는 것이고 다른 하나는 인공 신경망의 활용에 집중하는 것이다.
 년 후반에 심리학자 도널드 헤비안(Donald Hebb)는 [[헤비안 학습]](Hebbian learning)이라 불리는 신경가소성의 원리에 근거한 학습의 기본 가정을 만들었다. 헤비안 학습은 전형적인 [[자율학습]]으로 이것의 변형들은 [[장기강화]](long term potentiation)의 초기 모델이 된다. 이러한 아이디어는 1948년 [[튜링의 B-type 기계]]에 계산학 모델을 적용하는데서 출발하였다.