기브스 표집(Gibbs sampling)은 두개 이상의 확률 변수의 결합 확률 분포로부터 일련의 표본을 생성하는 확률적 알고리즘으로, 결합 확률 분포나 그에 관련된 확률 계산을 근사하기 위해 사용된다.[1]
기브스 표집은 메트로폴리스-해스팅스 알고리즘의 특별한 예이고, 따라서 마르코프 연쇄 몬테 카를로 알고리즘의 한 예이다. 이 알고리즘은 물리학자 조사이어 윌러드 기브스의 이름을 따서 명명되었다.
알고리즘[편집]
개의 확률변수
의 결합 확률 분포
로부터
개의 표본
를 얻으려고 할 때, 기브스 표집은 다음과 같이 동작한다.
- 임의의
을 선택한다.
- 각 변수
에 대하여, 현재의 값을 기반으로 한 새로운 값을 조건부 확률분포
에서 표집한다.
를
에 추가한다.
실제 사용 시에는 처음 수집되는 표본을 사용하지 않고 버리게 된다. 이것은 기브스 표집에서 수집되는 표본은 서로 독립적이지 않고 마르코프 연쇄에 속하기 때문인데, 표본의 앞 부분은 초기 상태
에 크게 의존하지만
충분히 많은 시행이 지난 후에는 초기 상태에 관계없이
에 기반한 표본을 수집할 수 있다.
조건부 확률분포와 결합 확률분포의 관계[편집]
위의 조건부 확률분포는 결합 확률분포에 비례한다.
![{\displaystyle p(x_{j}|x_{1},\dots ,x_{j-1},x_{j+1},\dots ,x_{n})={\frac {p(x_{1},\dots ,x_{n})}{p(x_{1},\dots ,x_{j-1},x_{j+1},\dots ,x_{n})}}\propto p(x_{1},\dots ,x_{n})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ac43ebc372b3834ede066c8c5474e69b44b84edc)
수학적 배경[편집]
기브스 표집에서 주어진 표본
에 대하여,
번째 변수를 변경하여 다음 표집
을 수집할 확률은 다음과 같다.
![{\displaystyle \Pr(x|y)={\begin{cases}{\frac {p(y)}{\sum _{z\in \Theta :z\sim _{i}x}p(z)}}&x\sim _{i}y\\0&{\text{otherwise}}\end{cases}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b717a8a7617f1b290229452ae2136c1f8466f745)
여기에서
는 모든 가능한 표본의 집합을 의미하며,
는
와
가 i번째를 제외한 모든 값이 같다는 것을 의미한다.
이때 다음의 성질이 성립한다.
![{\displaystyle p(x)\Pr(y|x)=p(y)\Pr(x|y)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/15f77caf7d3da85b95b34b1f97ffc75fe5854524)
이러한 성질은 변수를 하나만 변경하는 것이 아니라 각 변수를 차례대로 변경하여
에서
를 얻을 때에도 동일하게 보존된다.
이때
와 위의 표집 확률을 기반으로 하는 마르코프 연쇄를 구성하면, 이 마르코프 연쇄는 가역적(reversible)이다.
가역적 성질은 정상(stationary) 성질을 포함하는데, 이것은 표본을 연속적으로 수집할 때 표본의 수집 확률은 초기 표본에 관계없이
에 수렴한다는 것을 의미한다.
기브스 표집은 변수를 하나씩 바꾸어가며 표본을 수집하기 때문에, 중간 상태의 확률이 작을 경우 올바른 근사를 위해 많은 표본이 필요하다는 단점이 있다.
가령 0과 1의 두 값을 갖는 변수 두 개에 대한 확률 분포
에 대하여,
과
의 값은 높지만
과
의 값이 작을 경우,
에서
를 표집하기 위해서는
이나
을 먼저 지나쳐야 하지만 이들의 확률이 작기 때문에 표본이 적을 경우 잘 표집되지 않을 수 있다.[2]
특히
과
이 0일 때에는 표집이 불가능한데, 이것은 기브스 표집이 가정하는 마르코프 연쇄의 정상 성질이 깨지기 때문이다.
둘러보기[편집]
참고 문헌[편집]