사용자:Frf1226/연습장: 두 판 사이의 차이

위키백과, 우리 모두의 백과사전.
내용 삭제됨 내용 추가됨
58번째 줄: 58번째 줄:
<math>{{\partial \ell} \over {\partial \theta_k}} = \sum_{i=1}^N \sum_{t=1}^T f_k(y_t^{(i)}, y_{t-1}^{(t)}, \mathbf{x}_t^{(t)}) - \sum_{i=1}^N \sum_{t=1}^T \sum_{y,y'} f_k(y, y', \mathbf{x}_t^{(i)}) p(y,y' | \mathbf{x}^{(i)}) - {{\theta_k} \over {\sigma^2}} </math>
<math>{{\partial \ell} \over {\partial \theta_k}} = \sum_{i=1}^N \sum_{t=1}^T f_k(y_t^{(i)}, y_{t-1}^{(t)}, \mathbf{x}_t^{(t)}) - \sum_{i=1}^N \sum_{t=1}^T \sum_{y,y'} f_k(y, y', \mathbf{x}_t^{(i)}) p(y,y' | \mathbf{x}^{(i)}) - {{\theta_k} \over {\sigma^2}} </math>


앞에서 세운 가능도 함수와 기울기 식을 이용해 가능도 함수를 극대화 시키는 <math>\theta</math>를 찾아내면 된다. 가능도 함수를 최적화 시키는 간단한 방법으로는 기울기에 대한 최대 경사법(steepest ascent)를 사용하는 방법이 있다. 하지만 이 방법은 많은 반복을 요구함으로써 실용적이지 못하다. [[뉴턴의 방법]](Newton's method)은 속도가 더 빠르지만 파라미터에 대한 [[헤세 행렬]](Hessian: 모든 이차 미분값에 대한 행렬)을 계산해야하기 때문에, 많은 저장 공간을 요구함으로써 실용적이지 못하다. 주로 BFGS와 같은 쿼시-뉴턴 방법 혹은 [[켤레기울기법]](conjugate gradient method)을 이용해 근사치를 계산하는 방법이 주로 사용된다.
앞에서 세운 가능도 함수와 기울기 식을 이용해 가능도 함수를 극대화 시키는 <math>\theta</math>를 찾아내면 된다. 가능도 함수를 최적화 시키는 간단한 방법으로는 기울기에 대한 최대 경사법(steepest ascent)를 사용하는 방법이 있다. 하지만 이 방법은 많은 반복(iteration)을 요구하기 때문에 실용적이지 못하다. [[뉴턴의 방법]](Newton's method)은 속도가 더 빠르지만 파라미터에 대한 [[헤세 행렬]](Hessian: 모든 이차 미분값에 대한 행렬)을 계산해야하기 때문에 많은 저장 공간을 요구함으로써 실용적이지 못하다. 주로 BFGS와 같은 쿼시-뉴턴 방법 혹은 [[켤레기울기법]](conjugate gradient method)을 이용해 근사치를 계산하는 방법이 주로 사용된다.


만약 조건부 무작위장이 일반적 그래프일 경우, 최대 가능도 학습으로는 <math>\theta</math>를 구하기 쉽지 않다(intractable). 이 문제를 다루기 위해서는 근사적 추론 방법을 이용하거나, 혹은 최대 가능도 방법 외에 다른 학습 기준을 선택해야 한다.
만약 조건부 무작위장이 일반적 그래프일 경우, 최대 가능도 학습으로는 <math>\theta</math>를 구하기 쉽지 않다(intractable). 이 문제를 다루기 위해서는 근사적 추론 방법을 이용하거나, 혹은 최대 가능도 방법 외에 다른 학습 기준을 선택해야 한다.

2015년 4월 26일 (일) 20:58 판

조건부 무작위장(영어: conditional random field 조건부 랜덤 필드[*])이란 통계적 모델링 방법중에 하나로, 패턴 인식기계 학습과 같은 구조적 예측에 사용된다. 일반적인 분류자(영어: classifier)가 이웃하는 표본을 고려하지 않고 단일 표본의 라벨을 예측하는 반면, 조건부 무작위장은 고려하여 예측한다. 자연 언어 처리 분야에서 자주 사용되는 선형 사슬 조건부 무작위장(영어: linear chain CRF)은 일련의 입력된 표본들에 대해 일련의 라벨들을 예측한다.

조건부 무작위장은 판별적 비방향성 그래프 모형의 한 형태이며, 관찰되는 것들의 알려진 관계를 암호화, 일관된 해석을 구성하는데 사용된다. 또, 자연언어로 된 글 또는 생물학적 서열 정보, 그리고 컴퓨터 비전 분야에서의 일련의 데이터에 대한 라벨 예측, 분석하는 데 사용되기도 한다. 구체적으로, 조건부 무작위장은 부분구문분석, 개체명 인식, 유전자 검색 등의 응용 분야에 사용될 수 있으며, 이러한 분야에서 은닉 마르코프 모델의 대안이 될 수 있다. 컴퓨터 비전 분야에서는 객체 인식, 이미지 분할에 종종 사용된다.

소개

수학적 정의

조건부 무작위장을 간단하게 설명하면 입력 시퀀스에 대한 출력 시퀀스의 조건부 확률이라고 할 수 있다. 수학적인 표현을 사용하여 매우 간단하게 표시하면 다음과 같이 할 수 있다.

여기서, 는 시퀀스이다.
예를 들어,
시퀀스에 대하여서는 제약이 없다.

즉 예를 들면, 조건부 무작위장은 문자 a, b, c 가 연속적으로 나타났을 때, 문자 x, y, z 를 연속적으로 부여할(나타날) 확률을 의미한다고 할 수 있다. 여기서 y는 마르코프 성질을 만족하여야 한다. 그런데 만약 x의 집합과 y의 집합이 한정되어 있다면, 이 구조는 그래프 구조를 형성하게 된다. 일반적으로는 체인(chain) 그래프 구조를 형성한다고 한다. 그런데, 어떤 무작위장과도 양립할 수 없는(영어: not compatible) 완벽한(영어: consistent) 조건부 확률(영어: conditional probability) 체제가 있다고 한다[1]. 따라서 조건부 확률을 사용하여 조건부 무작위장을 표현할 수는 없는 것이다.[2]

조건부 무작위장 는 방향이 없는(영어: undirected) 그래프 혹은 마르코프 무작위장으로 간주할 수 있다. 만약, 입력 시퀀스에서 조건부 독립을 가정할 수 있다면, 이론적으로 그래프의 구조는 여러 가지 형태를 나타낼 수 있다. 하지만 응용에서는 일반적으로 에 해당되는 노드는 간단한 체인(chain)의 형태를 나타내는 경우가 많다[3]. 조건부 무작위장은 은닉 마르코프 모델(HMM, Hidden Markov Model)에 비하여 변수 독립성 조건이 필요 없는 장점이 있다고 한다. 또한 조건부 무작위장은 최대 엔트로피 마코르프 모델(MEMM, Maximum Entropy Markov Model)에 비하여 변수 치우침(bias)이 없는 장점이 있다고 한다[4]. 다음은 조건부 무작위장의 정의이다[5].[6]

는 그래프 구조 이고, 로서, 는 그래프 의 버택스를 나타낸다고 하고 는 에지라고 하자. 만약 랜덤 변수 에 대하여 랜덤 변수 가 그래프에서 마코프 성질을 나타낸다면, 즉, 라면 는 조건부 랜덤 필드가 된다. (여기서 는 서로 이웃이라는 의미)


추론 방법

효율적인 추론은 조건부 무작위장의 훈련 시 혹은 새로운 입력에 대한 레이블을 예측할때 매우 중요하다. 추론에 있어 크게 2가지 문제를 생각할 수 있다. 첫 번째로, 모델을 훈련한 후, 새로운 입력 에 대한 레이블 를 예측하려 할 때, 가장 가능도(liklihood)를 크게 하는 를 선택하는 것이다. 즉 다음과 같이 나타낼 수 있다: . 두 번째로, 파라미터를 추정할 때 각각의 간선 와 정규화 함수 에 대한 주변분포(marginal distribution)을 계산하는 것이다. 이 두 추론 문제는 근본적으로 같다고 볼 수 있다.

불행히도 두 추론 문제는 일반 그래프에 대해서는 다루기 힘든(intractable) 문제이다. 추론을 정확하고 빠르게 할 수 있는 경우는 다음과 같은 경우만 가능하다:

  • 그래프가 선형 체인 이거나 트리일 때, 추론 작업은 은닉 마르코프 모델을 위한 다양한 동적 계획법 알고리즘을 이용해 효율적으로 정확하게 수행 가능하다. 그런 알고리즘의 예로는 전향-후향 알고리즘(the forward-backward algorithm)과 비터비 알고리즘(Viterbi algorithm)이 있다. 이 알고리즘들은 트리 구조의 그래프 모델을 위한 일반적 신뢰전파 알고리즘(belief propagation algorithm)의 특수한 경우(special case)라고 할 수 있다.
  • 만약 조건부 무작위장이 오직 쌍별 포텐셜(pairwise potential)만을 포함하며, 에너지가 서브모듈러(submodular)일 경우, 조합적 최소 컷/최대 흐름 알고리즘(combinatorial min cut/max flow algorithm)을 이용해 정확한 결과를 구할 수 있다.

위 두 경우 외에 보다 복잡한 모델, 즉 일반 그래프에서도 일부 상황에서는 정확한 추론이 효율적으로 될 수 있다. 이는 접합 트리 알고리즘(junction tree algorithm)을 이용해 그래프 상에서 변수들을 군집화 하여 트리 형태로 만든 후, 트리 구조에서 작동하는 정확한 추론 알고리즘을 작동시킴으로써 가능하다. 하지만, 일부 복잡한 그래프에서는 접합 트리 알고리즘이 거대한 변수 클러스터를 생성하여 효율적인 추론을 불가능하게 한다. 즉 일반 그래프에서는 최악의 경우 정확한 추론 알고리즘을 이용하면 지수적 시간(exponential time)이 소요된다.

이런 이유 때문에, 효율적 추론을 위해 일반적 그래프에서는 정확한 추론 알고리즘 보다는 근사적 추론 알고리즘이 필요하다. 주로 다음과 같이 두 종류의 근사 추론 알고리즘이 존재한다:

  • 몬테 카를로 알고리즘(Monte Carlo algorithm): 확률적 알고리즘으로, 관심이 있는 분포의 샘플을 근사적으로 생성해낸다. 대표적인 예로는 기브스 표집 알고리즘(Gibbs sampling algorithm)이 있다.
  • 변분 알고리즘(variational algorithm): 다루기 힘든 분포와 가장 근사하며 간단한 분포를 찾아내어 푸는 방법으로, 추론 문제를 최적화 문제로 바꾸어 푼다. 대표적인 예로는 신뢰전파 알고리즘이 있다.

몬테 카를로 방법은 치우침이 없는(unbiased) 대신 계산 시간이 언제 끝날지 알 수 없다는 단점이 있다. 변분 방법은 이에 비해 상당히 빠르지만 치우침이 있어(biased) 에러를 포함하며, 계산 시간을 늘리더라도 에러가 줄지 않는 단점이 있다. 파라미터 추정 과정에서 추론이 많은 회수 반복되기 때문에, 조건부 무작위장의 효율적인 학습을 위해서는 변분 방법이 더욱 선호된다.

파라미터 학습 방법

만약 트리 기반 조건부 무작위장이라면, 파라미터 는 보통 에 대한 최대 가능도 학습(maximum likelihood estimation)을 통해 얻어진다. 이를 통해, 학습 데이터의 확률값을 최대로 하는 를 구해낸다. 만약 모든 정점이 지수족 분포를 가지면서, 트레이닝 과정에서 관측(observed)되었다면 가능도 함수는 볼록(convex) 모양이다. 즉 이 최적화 문제는 경사 하강법(gradient descent algorithm) 혹은 L-BFGS 알고리즘 같은 쿼시-뉴턴 방법(Quasi-Newton method)를 이용하여 풀 수 있다. 이와 반대로 어떤 변수가 관측되지 않았을 경우, 이 변수들에 대한 추론 문제를 먼저 해결해야 한다.

만약 동등하게 독립적으로 분포된(identically independently distributed) 학습 데이터 (여기서 는 입력 시퀀스를, 는 입력에 대한 바람직한 예측 시퀀스를 나타낸다)가 주어졌을 때, 경사 하강법으로 구할 경우 다음과 같은 가능도 함수를 이용할 수 있다:

(여기서 는 정규화 상수(normalization constant)이다)

과대적합(overfitting)을 피하기 위해 조절(regularization)을 실시해 줄 수 있으며, 이 때 에 대한 유클리디안 놈(Euclidean norm)값을 패널티로 갖는 조절된 가능도 함수는 다음과 같다:

(여기서 는 자유매개변수(free parameter)로 가중치가 클수록 얼마나 패널티를 줄 것인지 결정한다)

유클리디안 놈 대신에 놈을 패널티로 갖도록 조절을 실시해 줄 수 있으며, 그에 대한 가능도 함수는 다음과 같다:

유클리디안 놈을 이용한 가능도 함수에 편미분을 하여 기울기를 구하면 다음과 같다:

앞에서 세운 가능도 함수와 기울기 식을 이용해 가능도 함수를 극대화 시키는 를 찾아내면 된다. 가능도 함수를 최적화 시키는 간단한 방법으로는 기울기에 대한 최대 경사법(steepest ascent)를 사용하는 방법이 있다. 하지만 이 방법은 많은 반복(iteration)을 요구하기 때문에 실용적이지 못하다. 뉴턴의 방법(Newton's method)은 속도가 더 빠르지만 파라미터에 대한 헤세 행렬(Hessian: 모든 이차 미분값에 대한 행렬)을 계산해야하기 때문에 많은 저장 공간을 요구함으로써 실용적이지 못하다. 주로 BFGS와 같은 쿼시-뉴턴 방법 혹은 켤레기울기법(conjugate gradient method)을 이용해 근사치를 계산하는 방법이 주로 사용된다.

만약 조건부 무작위장이 일반적 그래프일 경우, 최대 가능도 학습으로는 를 구하기 쉽지 않다(intractable). 이 문제를 다루기 위해서는 근사적 추론 방법을 이용하거나, 혹은 최대 가능도 방법 외에 다른 학습 기준을 선택해야 한다.

예제

In sequence modeling, the graph of interest is usually a chain graph. An input sequence of observed variables X represents a sequence of observations and Y represents a hidden (or unknown) state variable that needs to be inferred given the observations. The Y_{i} are structured to form a chain, with an edge between each Y_{i-1} and Y_{i}. As well as having a simple interpretation of the Y_{i} as "labels" for each element in the input sequence, this layout admits efficient algorithms for:

model training, learning the conditional distributions between the Y_{i} and feature functions from some corpus of training data. decoding, determining the probability of a given label sequence Y given X. inference, determining the most likely label sequence Y given X. The conditional dependency of each Y_{i} on X is defined through a fixed set of feature functions of the form f(i, Y_{i-1}, Y_{i}, X), which can informally be thought of as measurements on the input sequence that partially determine the likelihood of each possible value for Y_{i}. The model assigns each feature a numerical weight and combines them to determine the probability of a certain value for Y_{i}.

Linear-chain CRFs have many of the same applications as conceptually simpler hidden Markov models (HMMs), but relax certain assumptions about the input and output sequence distributions. An HMM can loosely be understood as a CRF with very specific feature functions that use constant probabilities to model state transitions and emissions. Conversely, a CRF can loosely be understood as a generalization of an HMM that makes the constant transition probabilities into arbitrary functions that vary across the positions in the sequence of hidden states, depending on the input sequence.

Notably in contrast to HMMs, CRFs can contain any number of feature functions, the feature functions can inspect the entire input sequence X at any point during inference, and the range of the feature functions need not have a probabilistic interpretation.

다른 방법에 비한 장점

다른 방법에 비한 한계점

활용 연구 사례

국내에서의 연구

자연어 처리 [7][8][9][10][11]

영상처리 [12][13]

hci [14] [15]

해외에서의 연구

자연어처리 [16] [17][18]



hci - gesture recognition [19]

소프트웨어

아래는 일반적인 조건부 무작위장 도구로 알려진 목록이다.

아래는 조건부 무작위장과 관련된 도구로 알려진 목록이다.

같이 보기

참고 문헌

  1. Hamilton, M., and W. J. Anderson. "A consistent system of conditional probabilities which is not compatible with any random field." Canadian Journal of Statistics 6.1 (1978): 95-101.
  2. 이호석. "조건부 랜덤 필드와 응용에 대한 고찰." 한국정보과학회 학술발표논문집 36.2C (2009): 184-187.
  3. Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
  4. Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
  5. Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
  6. 이호석. "조건부 랜덤 필드와 응용에 대한 고찰." 한국정보과학회 학술발표논문집 36.2C (2009): 184-187.
  7. 김동현, 김학수, and 서정연. "목적지향 대화에서 화자 의도의 통계적 예측 모델." 정보과학회논문지: 소프트웨어 및 응용 35.9 (2008): 554-561.
  8. 김학수. "능동학습법을 이용한 한국어 대화체 문장의 효율적 의미 구조 분석." 정보과학회논문지: 소프트웨어 및 응용 35.5 (2008): 306-312.
  9. 임석향, et al. "언어 모델을 이용한 유해 문서 분류." 한국정보과학회 학술발표논문집 36.1C (2009): 301-304.
  10. 배원식, and 차정원. "TextRank 알고리즘을 이용한 문서 범주화." 정보과학회논문지: 컴퓨팅의 실제 및 레터 16.1 (2010): 110-114.
  11. 정헌영, et al. "의견의 주체를 찾기 위한 후보어휘의 의견주체점수 부여 방법과 Self-training." 한국정보과학회 학술발표논문집 36.1C (2009): 341-345.
  12. 김선월, and 조완현. "의료영상분할을 위한 조건부 랜덤 필드 모델링." 한국멀티미디어학회 학술발표논문집 (2009): 641-642.
  13. Lee, Chi-Hoon, et al. "Segmenting brain tumors with conditional random fields and support vector machines." Computer vision for biomedical image applications. Springer Berlin Heidelberg, 2005. 469-478.
  14. 김혜숙, and 김인철. "시점 불변인 특징과 확률 그래프 모델을 이용한 인간 행위 인식." 정보과학회논문지 41.11 (2014): 927-934.
  15. 허세경, et al. "특징 변환과 은닉 마코프 모델을 이용한 팔 제스처 인식 시스템의 설계." 정보처리학회논문지. 소프트웨어 및 데이터 공학 2.10 (2013): 723-730.
  16. Peng, Fuchun, and Andrew McCallum. "Information extraction from research papers using conditional random fields." Information processing & management 42.4 (2006): 963-979.
  17. Peng, Fuchun, Fangfang Feng, and Andrew McCallum. "Chinese segmentation and new word detection using conditional random fields." Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004.
  18. Blunsom, Phil, and Trevor Cohn. "Discriminative word alignment with conditional random fields." Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006.
  19. Wang, Sy Bor, et al. "Hidden conditional random fields for gesture recognition." Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
  20. T. Lavergne, O. Cappé and F. Yvon (2010). Practical very large scale CRFs. Proc. 48th Annual Meeting of the ACL, pp. 504-513.

외부 링크