사용자:Frf1226/연습장: 두 판 사이의 차이

위키백과, 우리 모두의 백과사전.
내용 삭제됨 내용 추가됨
Pizzing2 (토론 | 기여)
편집 요약 없음
Pizzing2 (토론 | 기여)
26번째 줄: 26번째 줄:
{| align="center" cellpadding ="20" cellspacing="0" border="1"
{| align="center" cellpadding ="20" cellspacing="0" border="1"
|
|
<math>p_\theta (y|x) \propto exp( \sum_{e \in E,k} \lambda_k f_k(e, y|_e, x)+ \sum_{v \in V,K}\mu _k g_k (v, y|_v, x)) </math>
<math>p_\theta (y|x) \propto exp( \sum_{e \in E,k} \lambda_k f_k(e, y|_e, x)+ \sum_{v \in V,k}\mu _k g_k (v, y|_v, x)) </math>
|}<br>
|}<br>
여기서 <math>x</math>는 입력 시퀀스이고, <math>y</math>는 출력 레이블 시퀀스이다. <math>y|_s</math>는 <math>y</math> 요소의 집합으로서 그래프 <math>G</math>의 서브그래프 <math>S</math>의 버텍스와 관계된다. <math>f_k</math>와 <math>g_k</math>는 주어져 있고 고정되어 있다고 가정한다.
여기서 <math>x</math>는 입력 시퀀스이고, <math>y</math>는 출력 레이블 시퀀스이다. <math>y|_s</math>는 <math>y</math> 요소의 집합으로서 그래프 <math>G</math>의 서브그래프 <math>S</math>의 버텍스와 관계된다. <math>f_k</math>와 <math>g_k</math>는 주어져 있고 고정되어 있다고 가정한다.

2015년 4월 27일 (월) 21:55 판

조건부 무작위장

소개

조건부 무작위장(영어: conditional random field 조건부 랜덤 필드[*])이란 통계적 모델링 방법중에 하나로, 패턴 인식기계 학습과 같은 구조적 예측에 사용된다. 일반적인 분류자(영어: classifier)가 이웃하는 표본을 고려하지 않고 단일 표본의 라벨을 예측하는 반면, 조건부 무작위장은 고려하여 예측한다. 자연 언어 처리 분야에서 자주 사용되는 선형 사슬 조건부 무작위장(영어: linear chain CRF)은 일련의 입력된 표본들에 대해 일련의 라벨들을 예측한다.

조건부 무작위장은 판별적 비방향성 그래프 모형의 한 형태이며, 관찰되는 것들의 알려진 관계를 암호화, 일관된 해석을 구성하는데 사용된다. 또, 자연언어로 된 글 또는 생물학적 서열 정보, 그리고 컴퓨터 비전 분야에서의 일련의 데이터에 대한 라벨 예측, 분석하는 데 사용되기도 한다. 구체적으로, 조건부 무작위장은 부분구문분석, 개체명 인식, 유전자 검색 등의 응용 분야에 사용될 수 있으며, 이러한 분야에서 은닉 마르코프 모델의 대안이 될 수 있다. 컴퓨터 비전 분야에서는 객체 인식, 이미지 분할에 종종 사용된다.

수학적 정의

조건부 무작위장을 간단하게 설명하면 입력 시퀀스에 대한 출력 시퀀스의 조건부 확률이라고 할 수 있다. 수학적인 표현을 사용하여 매우 간단하게 표시하면 다음과 같이 할 수 있다.

여기서, 는 시퀀스이다.
예를 들어,
시퀀스에 대하여서는 제약이 없다.

즉 예를 들면, 조건부 무작위장은 문자 a, b, c 가 연속적으로 나타났을 때, 문자 x, y, z 를 연속적으로 부여할(나타날) 확률을 의미한다고 할 수 있다. 여기서 y는 마르코프 성질을 만족하여야 한다. 그런데 만약 x의 집합과 y의 집합이 한정되어 있다면, 이 구조는 그래프 구조를 형성하게 된다. 일반적으로는 체인(chain) 그래프 구조를 형성한다고 한다. 그런데, 어떤 무작위장과도 양립할 수 없는(영어: not compatible) 완벽한(영어: consistent) 조건부 확률(영어: conditional probability) 체제가 있다고 한다[1]. 따라서 조건부 확률을 사용하여 조건부 무작위장을 표현할 수는 없는 것이다.[2]

조건부 무작위장 는 방향이 없는(영어: undirected) 그래프 혹은 마르코프 무작위장으로 간주할 수 있다. 만약, 입력 시퀀스에서 조건부 독립을 가정할 수 있다면, 이론적으로 그래프의 구조는 여러 가지 형태를 나타낼 수 있다. 하지만 응용에서는 일반적으로 에 해당되는 노드는 간단한 체인(chain)의 형태를 나타내는 경우가 많다[3]. 조건부 무작위장은 은닉 마르코프 모델(HMM, Hidden Markov Model)에 비하여 변수 독립성 조건이 필요 없는 장점이 있다고 한다. 또한 조건부 무작위장은 최대 엔트로피 마코르프 모델(MEMM, Maximum Entropy Markov Model)에 비하여 변수 치우침(bias)이 없는 장점이 있다고 한다[4]. 다음은 조건부 무작위장의 정의이다[5].[6]

는 그래프 구조 이고, 로서, 는 그래프 의 버택스를 나타낸다고 하고 는 에지라고 하자. 만약 랜덤 변수 에 대하여 랜덤 변수 가 그래프에서 마코프 성질을 나타낸다면, 즉, 라면 는 조건부 랜덤 필드가 된다. (여기서 는 서로 이웃이라는 의미)


  • 의 그래프 가 트리를 형성한다면, 의 클리크(clique)는 에지와 버텍스가 된다. 따라서 시퀀스 가 입력되었을 때, 시퀀스 에 대한 조인트 확률 분포는 다음과 같이 표현된다.



여기서 는 입력 시퀀스이고, 는 출력 레이블 시퀀스이다. 요소의 집합으로서 그래프 의 서브그래프 의 버텍스와 관계된다. 는 주어져 있고 고정되어 있다고 가정한다. 위 수식을 다르게 해석할 수 있다. 수식에서 앞에 위치한 항목은 그래프에서 입력 시퀀스에 의하여 현재의 버텍스에서 다음 버텍스로 이동하는 천이 특징 함수(transition feature function)로 간주할 수 있고, 뒤 항목은 현재의 버텍스의 상태 특징 함수(state feature function)로 간주할 수 있다. 즉, 위 식은 입력되는 시퀀스의 요소들에 의하여 현재의 버텍스에 그대로 존재하는 경우를 나타내기도 하고, 또는 다음 버텍스로 이동하는 것을 나타내기도 한다. 전체적으로는 입력되는 시퀀스에 의하여 그래프의 버텍스 상에서 움직이는 상태와 이와 관련된 확률을 나타낸다.

  • 가 체인(chain)을 구성하고 있다고 가정하면, 조건부 무작위장 확률을 다음과 같이 표현할 수도 있다.



여기서, , 그리고

추론 방법

효율적인 추론은 조건부 무작위장의 훈련 시 혹은 새로운 입력에 대한 레이블을 예측할때 매우 중요하다. 추론에 있어 크게 2가지 문제를 생각할 수 있다. 첫 번째로, 모델을 훈련한 후, 새로운 입력 에 대한 레이블 를 예측하려 할 때, 가장 가능도(likelihood)를 크게 하는 를 선택하는 것이다. 즉 다음과 같이 나타낼 수 있다: . 두 번째로, 파라미터를 추정할 때 각각의 간선 와 정규화 함수 에 대한 주변분포(marginal distribution)을 계산하는 것이다. 이 두 추론 문제는 근본적으로 같다고 볼 수 있다.

불행히도 두 추론 문제는 일반 그래프에 대해서는 다루기 힘든(intractable) 문제이다. 추론을 정확하고 빠르게 할 수 있는 경우는 다음과 같은 경우만 가능하다:

  • 그래프가 선형 체인 이거나 트리일 때, 추론 작업은 은닉 마르코프 모델을 위한 다양한 동적 계획법 알고리즘을 이용해 효율적으로 정확하게 수행 가능하다. 그런 알고리즘의 예로는 전향-후향 알고리즘(the forward-backward algorithm)과 비터비 알고리즘(Viterbi algorithm)이 있다. 이 알고리즘들은 트리 구조의 그래프 모델을 위한 일반적 신뢰전파 알고리즘(belief propagation algorithm)의 특수한 경우(special case)라고 할 수 있다.
  • 만약 조건부 무작위장이 오직 쌍별 포텐셜(pairwise potential)만을 포함하며, 에너지가 서브모듈러(submodular)일 경우, 조합적 최소 컷/최대 흐름 알고리즘(combinatorial min cut/max flow algorithm)을 이용해 정확한 결과를 구할 수 있다.

위 두 경우 외에 보다 복잡한 모델, 즉 일반 그래프에서도 일부 상황에서는 정확한 추론이 효율적으로 될 수 있다. 이는 접합 트리 알고리즘(junction tree algorithm)을 이용해 그래프 상에서 변수들을 군집화 하여 트리 형태로 만든 후, 트리 구조에서 작동하는 정확한 추론 알고리즘을 작동시킴으로써 가능하다. 하지만, 일부 복잡한 그래프에서는 접합 트리 알고리즘이 거대한 변수 클러스터를 생성하여 효율적인 추론을 불가능하게 한다. 즉 일반 그래프에서는 최악의 경우 정확한 추론 알고리즘을 이용하면 지수적 시간(exponential time)이 소요된다.

이런 이유 때문에, 효율적 추론을 위해 일반적 그래프에서는 정확한 추론 알고리즘 보다는 근사적 추론 알고리즘이 필요하다. 주로 다음과 같이 두 종류의 근사 추론 알고리즘이 사용된다:

  • 몬테 카를로 알고리즘(Monte Carlo algorithm): 확률적 알고리즘으로, 관심이 있는 분포의 샘플을 근사적으로 생성해낸다. 대표적인 예로는 기브스 표집 알고리즘(Gibbs sampling algorithm)이 있다.
  • 변분 알고리즘(variational algorithm): 다루기 힘든 분포와 가장 근사하며 간단한 분포를 찾아내어 푸는 방법으로, 추론 문제를 최적화 문제로 바꾸어 푼다. 대표적인 예로는 신뢰전파 알고리즘이 있다.

몬테 카를로 방법은 치우침이 없는(unbiased) 대신 계산 시간이 언제 끝날지 알 수 없다는 단점이 있다. 변분 방법은 이에 비해 상당히 빠르지만 치우침이 있어(biased) 에러를 포함하며, 계산 시간을 늘리더라도 에러가 줄지 않는 단점이 있다. 파라미터 추정 과정에서 추론이 많은 회수 반복되기 때문에, 조건부 무작위장의 효율적인 학습을 위해서는 변분 방법이 더욱 선호된다.

파라미터 학습 방법

만약 트리 기반 조건부 무작위장이라면, 파라미터 는 보통 에 대한 최대 가능도 학습(maximum likelihood estimation)을 통해 얻어진다. 이를 통해, 학습 데이터의 확률값을 최대로 하는 를 구해낸다. 만약 모든 정점이 지수족 분포를 가지면서, 트레이닝 과정에서 관측(observed)되었다면 가능도 함수는 볼록(convex) 모양이다. 즉 이 최적화 문제는 경사 하강법(gradient descent algorithm) 혹은 L-BFGS 알고리즘 같은 쿼시-뉴턴 방법(Quasi-Newton method)를 이용하여 풀 수 있다. 이와 반대로 어떤 변수가 관측되지 않았을 경우, 이 변수들에 대한 추론 문제를 먼저 해결해야 한다.

만약 동등하게 독립적으로 분포된(identically independently distributed) 학습 데이터 (여기서 는 입력 시퀀스를, 는 입력에 대한 바람직한 예측 시퀀스를 나타낸다)가 주어졌을 때, 경사 하강법으로 구할 경우 다음과 같은 가능도 함수를 이용할 수 있다:

여기서 는 정규화 상수(normalization constant)이다.

과대적합(overfitting)을 피하기 위해 조절(regularization)을 실시해 줄 수 있으며, 이 때 에 대한 유클리디안 놈(Euclidean norm)값을 패널티로 갖는 조절된 가능도 함수는 다음과 같다:

여기서 는 자유매개변수(free parameter)로 가중치가 클수록 얼마나 패널티를 줄 것인지 결정한다.

유클리디안 놈 대신에 놈을 패널티로 갖도록 조절을 실시해 줄 수 있으며, 그에 대한 가능도 함수는 다음과 같다:

유클리디안 놈을 이용한 가능도 함수에 편미분을 하여 기울기를 구하면 다음과 같다:

앞에서 세운 가능도 함수와 기울기 식을 이용해 가능도 함수를 극대화 시키는 를 찾아내면 된다. 가능도 함수를 최적화 시키는 간단한 방법으로는 기울기에 대한 최대 경사법(steepest ascent)를 사용하는 방법이 있다. 하지만 이 방법은 많은 반복(iteration)을 요구하기 때문에 실용적이지 못하다. 뉴턴의 방법(Newton's method)은 속도가 더 빠르지만 파라미터에 대한 헤세 행렬(Hessian: 모든 이차 미분값에 대한 행렬)을 계산해야하기 때문에 많은 저장 공간을 요구함으로써 실용적이지 못하다. 주로 BFGS와 같은 쿼시-뉴턴 방법 혹은 켤레기울기법(conjugate gradient method)을 이용해 근사치를 계산하는 방법이 주로 사용된다.

만약 조건부 무작위장이 일반적 그래프일 경우, 최대 가능도 학습으로는 를 구하기 쉽지 않다(intractable). 이 문제를 다루기 위해서는 근사적 추론 방법을 이용하거나, 혹은 최대 가능도 방법 외에 다른 학습 기준을 선택해야 한다.

예제

시퀀스 모델링은 보통 연쇄 그래프(chain graph: 방향성이 있거나 없는 간선을 모두 가질 수 있으며 방향성 순환이 없는 그래프)를 이용해 모델링된다. 관측된 변수들의 벡터 의 입력 시퀀스는 일련의 관측을 표현하며, 는 관측된 값이 주어졌을 때 추론되어야 할 숨겨진 변수(hidden state variable or unknown state variable)들을 나타낸다. 사이에 간선이 연결되는 연쇄적인 구조로 조직된다. 이러한 구조는 를 입력 시퀀스의 각 입력에 대한 레이블(label)로써 해석할 수 있는 간편함이 있으며,이 외에도 이러한 구조를 사용함으로써 다음과 같은 작업들을 효율적으로 처리 할 수 있는 장점이 있다:

  • 모델 훈련(model training): 트레이닝 데이터 뭉치(corpus)에서부터 추출한 자질 함수들과 사이에 조건부 확률 분포를 학습
  • 디코딩(decoding): 가 주어졌을 때, 각 의 값에 대한 확률을 결정
  • 추론(inference): 가 주어졌을 때, 가장 가능성이 높은 의 값을 결정

에 대한 각 의 조건부 의존성(conditional dependency)은 의 형태를 갖는 자질 함수들의 고정된 집합을 통해 정의된다. 이 함수는 입력 시퀀스에 대해 각 값에 대한 가능도(likelihood)를 어느 정도 결정할 수 있는 측정치로 간주될 수 있다. 이 모델은 각 자질에 대해 수치적 가중치를 부여하고 이를 조합함으로써 의 값에 대한 확률을 결정한다.

선형 체인 조건부 무작위장(linear-chain CRFs)은 개념적으로 보다 단순한 은닉 마르코프 모델과 응용되는 문제가 비슷하다. 단, 입력, 출력 시퀀스의 분포에 대한 가정을 어느 정도 완화하였다. 은닉 마르코프 모델은 상태 전이(state transition)와 방출(emission)을 모델링하기 위해 고정된 확률(constant probability)을 사용하는 자질 함수만을 갖는 조건부 무작위장으로 생각될 수 있다. 반면, 조건부 무작위장은 은닉 마르코프 모델의 일반화된 모델로 생각될 수 있으며, 고정된 전이 확률(transition probability) 대신에 일련의 숨겨진 상태(hidden state)들의 조직에 따라 달라지는 임의의 함수를 입력 시퀀스에 맞추어 사용한다.

은닉 마르코프 모델과는 대조적으로 주목할 점은, 조건부 무작위장은 임의의 개수의 자질 함수를 포함할 수 있으며, 이 자질 함수는 추론 중 어느 시점에서라도 전체 입력 시퀀스 를 조사할 수 있고, 자질 함수의 범위(range)는 확률적으로 해석될 필요가 없다.

다른 방법에 비한 장점

특정 위치에서 입력에 대한 측정값 확신

은닉 마르코프 모델과는 달리, 조건부 무작위장은 특정 위치에서의 측정값을 확신할 수 있다. 이는 은닉 마르코프 모델은 생성 모델(영어: generative model), 조건부 무작위장은 판별 모델(영어: discriminative model)에서 기인한 것에서 생겨난 차이다. [7]

라벨 편향 문제 해결

최대 엔트로피 마르코프 모델(영어: Maximum Entropy Markov Model, MEMM)이나 다른 마르코프 무작위장 모델, 즉, 방향성 그래프 모델로부터 발견될 수 있는 약점인 라벨 편향 문제를 피할 수 있다. 이는 조건부 무작위장이 비방향성 그래프 모델로 정의되기 때문이다.

일련 데이터 라벨링

생물정보학, 전산언어학, 음성 인식 분야에서 일련된 데이터의 라벨링시, 은닉 마르코프 모델, 최대 엔트로피 마르코프 모델보다 좋은 성능을 기대할 수 있다.

다른 방법에 비한 한계점

활용 연구 사례[8]

국내에서의 연구

  • 영상 처리 분야에서는 영상의 분할, 라벨링 문제에서 조건부 무작위장을 이용하는것이 효율적이라 알려져 있다. 특히 이들을 PET 영상에서 뇌의 각 영역들을 분할하거나, 암 세포 등의 병변을 분할해내는데에 활용한 연구들이 있다.[9][10]
  • 컴퓨터 비전 분야에서는 카메라를 통해 입력되는 영상 시퀀스로부터 자동으로 사람의 행위를 구별하거나[11], 제스쳐 인식 모델로서 조건부 무작위장을 활용한 예[12], 그리고 조건부 무작위장을 이용한 객체 분할로 2D 동영상을 3D 동영상으로 변환한 연구 등을 찾아볼 수 있었다.[13]
  • 자연언어 처리 분야에서 대화에서 화자의 의도를 통계적으로 예측하기 위한 모델로서 활용되기도 하는 한편, 문서의 범주화, 절인식 등의 구문분석에 이용되는 등 다양한 활용의 예를 찾아볼 수 있다.[14][15][16][17][18]

해외에서의 연구

자연언어 처리

  • 정보 추출[19]
  • 단어 분리[20]
  • 단어 정렬[21]
  • 명사구 청킹(덩이짓기)[22]

HCI

컴퓨터 비전

  • 필기 인식[24]
  • 스테레오 비전[25]

생물정보학

  • 단백질 곁사슬 예측[26]

소프트웨어

아래는 일반적인 조건부 무작위장 도구로 알려진 목록이다.

아래는 조건부 무작위장과 관련된 도구로 알려진 목록이다.

같이 보기

참고 문헌

  1. Hamilton, M., and W. J. Anderson. "A consistent system of conditional probabilities which is not compatible with any random field." Canadian Journal of Statistics 6.1 (1978): 95-101.
  2. 이호석. "조건부 랜덤 필드와 응용에 대한 고찰." 한국정보과학회 학술발표논문집 36.2C (2009): 184-187.
  3. Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
  4. Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
  5. Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
  6. 이호석. "조건부 랜덤 필드와 응용에 대한 고찰." 한국정보과학회 학술발표논문집 36.2C (2009): 184-187.
  7. "What Are Conditional Random Fields?", Perpetual Enigma, http://prateekvjoshi.com/2013/02/23/what-are-conditional-random-fields
  8. Murphy, Kevin P. Machine learning: a probabilistic perspective. MIT press, 2012.
  9. 김선월, and 조완현. "의료영상분할을 위한 조건부 랜덤 필드 모델링." 한국멀티미디어학회 학술발표논문집 (2009): 641-642.
  10. Lee, Chi-Hoon, et al. "Segmenting brain tumors with conditional random fields and support vector machines." Computer vision for biomedical image applications. Springer Berlin Heidelberg, 2005. 469-478.
  11. 김혜숙, and 김인철. "시점 불변인 특징과 확률 그래프 모델을 이용한 인간 행위 인식." 정보과학회논문지 41.11 (2014): 927-934.
  12. 허세경, et al. "특징 변환과 은닉 마코프 모델을 이용한 팔 제스처 인식 시스템의 설계." 정보처리학회논문지. 소프트웨어 및 데이터 공학 2.10 (2013): 723-730.
  13. 이상학. "학습기반의 객체분할과 Optical Flow 를 활용한 2D 동영상의 3D 변환." 한국인터넷방송통신학회 논문지 11.3 (2011): 129-135.
  14. 김동현, 김학수, and 서정연. "목적지향 대화에서 화자 의도의 통계적 예측 모델." 정보과학회논문지: 소프트웨어 및 응용 35.9 (2008): 554-561.
  15. 김학수. "능동학습법을 이용한 한국어 대화체 문장의 효율적 의미 구조 분석." 정보과학회논문지: 소프트웨어 및 응용 35.5 (2008): 306-312.
  16. 임석향, et al. "언어 모델을 이용한 유해 문서 분류." 한국정보과학회 학술발표논문집 36.1C (2009): 301-304.
  17. 배원식, and 차정원. "TextRank 알고리즘을 이용한 문서 범주화." 정보과학회논문지: 컴퓨팅의 실제 및 레터 16.1 (2010): 110-114.
  18. 정헌영, et al. "의견의 주체를 찾기 위한 후보어휘의 의견주체점수 부여 방법과 Self-training." 한국정보과학회 학술발표논문집 36.1C (2009): 341-345.
  19. Peng, Fuchun, and Andrew McCallum. "Information extraction from research papers using conditional random fields." Information processing & management 42.4 (2006): 963-979.
  20. Peng, Fuchun, Fangfang Feng, and Andrew McCallum. "Chinese segmentation and new word detection using conditional random fields." Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004.
  21. Blunsom, Phil, and Trevor Cohn. "Discriminative word alignment with conditional random fields." Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006.
  22. Sha, Fei, and Fernando Pereira. "Shallow parsing with conditional random fields." Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics, 2003.
  23. Wang, Sy Bor, et al. "Hidden conditional random fields for gesture recognition." Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
  24. Zhou, Xiang-Dong, Cheng-Lin Liu, and Masaki Nakagawa. "Online handwritten Japanese character string recognition using conditional random fields." Document Analysis and Recognition, 2009. ICDAR'09. 10th International Conference on. IEEE, 2009.
  25. Weinman, Jerod J., Lam Tran, and Christopher J. Pal. "Efficiently learning random fields for stereo vision with sparse message passing." Computer Vision–ECCV 2008. Springer Berlin Heidelberg, 2008. 617-630.
  26. Yanover, Chen, Ora Schueler-Furman, and Yair Weiss. "Minimizing and learning energy functions for side-chain prediction." Journal of Computational Biology 15.7 (2008): 899-911.
  27. T. Lavergne, O. Cappé and F. Yvon (2010). Practical very large scale CRFs. Proc. 48th Annual Meeting of the ACL, pp. 504-513.

외부 링크