프로빗 함수의 형태
프로빗 회귀 모형 (Probit regression model )은 종속변수가 이진 변수 일 경우에 사용되는 회귀 모형 중 하나이다. 프로빗 회귀 모형은 어떤 사건이 발생할 확률 을 설명하기 위한 회귀 모형으로, 정규 분포 의 누적분포함수 를 이용한다.
프로빗이라는 단어의 어원은 probability와 unit을 혼합하여 만든 것이다.[1]
종속 변수 Y는 1 또는 0의 값만을 가질 수 있는 이진 데이터이다. 어떤 사건이 일어나거나, 일어나지 않거나의 문제 또는 어떤 의사결정을 하거나 하지 않거나의 양자택일이 종속변수 값에 들어 있다. 확률은 반드시 폐구간 [0, 1] 안에 있어야 하므로 직선 형태의 선형 회귀 로는 설명변수의 어떤 사건이 발생할 확률에 대한 영향을 설명하는 데 적절하지 않다.
프로빗 함수로는 표준정규분포
Z
∼
N
(
0
,
1
)
{\displaystyle Z\sim N(0,1)}
의 누적분포함수를 이용한다. 프로빗 함수는 종속변수 Y의 값이 1이 될 확률을 의미한다.
Φ
(
z
)
=
P
(
Z
≤
z
)
{\displaystyle \Phi (z)=P(Z\leq z)}
프로빗 회귀 모형은 종속변수가 1이 될 확률을 예측하기 위하여 다음과 같은 형태로 모형을 설정한다.
P
(
Y
=
1
|
X
)
=
Φ
(
X
β
)
=
Φ
(
β
0
+
β
1
x
1
+
β
2
x
2
+
.
.
.
+
β
n
x
n
)
{\displaystyle P(Y=1|\mathbf {X} )=\Phi (\mathbf {X} \beta )=\Phi (\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{n}x_{n})}
한계 효과 [ 편집 ]
어떤 특정한 변수가 변화할 경우 종속변수에 미치는 영향을 분석할 때는 설명변수에 대해 편미분하여 한계 효과를 분석할 수 있다.
p
=
P
(
Y
=
1
|
X
)
{\displaystyle p=P(Y=1|\mathbf {X} )}
라고 할 때 설명변수의 변화가 종속변수가 1이 될 확률에 미치는 변화는 다음과 같다.
∂
p
∂
x
j
=
Φ
′
(
β
0
+
β
1
x
1
+
β
2
x
2
+
.
.
.
+
β
n
x
n
)
β
j
{\displaystyle {\frac {\partial p}{\partial x_{j}}}=\Phi '(\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{n}x_{n})\beta _{j}}
Φ
{\displaystyle \Phi }
가 표준정규분포의 누적분포함수이므로 그 도함수인
Φ
′
{\displaystyle \Phi '}
는 표준정규분포의 확률밀도함수 가 된다. 결국 설명변수의 변화가 종속변수가 1이 될 확률에 미치는 영향은 표준정규분포 확률밀도함수의
β
0
+
β
1
x
1
+
β
2
x
2
+
.
.
.
+
β
n
x
n
{\displaystyle \beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{n}x_{n}}
에서의 함수값과
β
j
{\displaystyle \beta _{j}}
을 곱한 것과 같다. 한계효과의 부호는
β
j
{\displaystyle \beta _{j}}
의 부호에 따라 결정된다.[2]
추정법 [ 편집 ]
프로빗 회귀 모형을 추정할 경우에는 최우 추정법 을 주로 사용한다.[2] 종속변수의 값이 0이 될 확률은 다음과 같다.
P
(
Y
=
0
|
X
)
=
1
−
Φ
(
X
β
)
{\displaystyle P(Y=0|\mathbf {X} )=1-\Phi (\mathbf {X} \beta )}
y
i
=
1
{\displaystyle y_{i}=1}
일 때의 단일 표본 우도는
L
=
Φ
(
X
i
β
)
{\displaystyle {\mathcal {L}}=\Phi (X_{i}\beta )}
이고,
y
i
=
0
{\displaystyle y_{i}=0}
일 때의 단일 표본 우도는
L
=
1
−
Φ
(
X
i
β
)
{\displaystyle {\mathcal {L}}=1-\Phi (X_{i}\beta )}
이다. 표본은 서로 독립적이므로 결합우도는 단일 표본 우도를 곱한 값이다.
L
=
∏
i
=
1
n
[
Φ
(
X
i
β
)
]
y
i
[
1
−
Φ
(
X
i
β
)
]
1
−
y
i
{\displaystyle {\mathcal {L}}=\prod _{i=1}^{n}{\left[\Phi (X_{i}\beta )\right]}^{y_{i}}{\left[1-\Phi (X_{i}\beta )\right]}^{1-y_{i}}}
양변에 로그를 취하여 우도함수를 극대화하면 다음과 같은 함수를 극대화함으로써 회귀모형을 추정하게 된다.
ln
L
=
∑
i
=
1
n
(
y
i
ln
Φ
(
X
i
β
)
+
(
1
−
y
i
)
ln
[
1
−
Φ
(
X
i
β
)
]
)
{\displaystyle \ln {\mathcal {L}}=\sum _{i=1}^{n}\left(y_{i}\ln {\Phi (X_{i}\beta )}+(1-y_{i})\ln {\left[1-\Phi (X_{i}\beta )\right]}\right)}
각주 및 참고 문헌 [ 편집 ]
↑ Bliss, C. I. (1934년 1월 12일). “The Method of Probits”. 《Science》 79 (2037): 38-39. doi :10.1126/science.79.2037.38 .
↑ 가 나 Hill, R. Carter; Griffiths, William E.; Lim, Guay C. (2010). 《Principles of Econometrics》 [계량경제학] 3판. 시그마프레스. 551-557쪽. ISBN 978-89-5832-785-1 .
같이 보기 [ 편집 ]