패널데이터

위키백과, 우리 모두의 백과사전.

패널데이터(영어: panel data)는 종단자료(영어: longitudinal data)라고도 하며, 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터를 말한다(출처: 한치록, 2017). 패널 데이터는 다양한 방식으로 얻을 수 있다. 개인이나 가구의 패널 데이터는 흔히 패널조사를 통하여 얻는다.

한국의 패널 조사[편집]

분석방법[편집]

패널 분석 방법에는 여러 가지가 있다. 우변의 설명변수들이 모두 외생적(강한 의미에서)이라고 가정하는 선형회귀의 경우 다음 방법들이 흔히 사용된다.

  • 통합회귀(pooled regression): 패널데이터임을 무시하고 자료를 모두 한 데 모아서 분석하는 것. 보통은 적절한 방식으로 관측 시점의 차이를 고려함(예: 시간더미)
  • 임의효과(random effects) 회귀: 각 개체별로 주어진(시간에 따라 불변하는) 고유한 속성이 있지만, 이 고유한 속성은 관측되는 설명변수와 무관하게 주어진다("임의효과")고 가정하고 회귀하는 것
  • 고정효과(fixed effects) 회귀: 각 개체별로 주어진 고유한 속성이 관측되는 설명변수와 상관을 갖는다고 가정하고 회귀하는 것
  • Between-Effects (BE) 회귀: 패널데이터를 개체별로 평균을 구하여 횡단면 데이터로 변환시킨 후 회귀하는 것

우변에 과거의 종속변수가 포함되는 선형모형(선형 동태적 모형)의 경우에는 강한 외생성이 성립하지 않으며, 이 경우에는 동태적 패널 모형(dynamic panel data model)의 분석에서 자주 사용되는 일반화 적률법(Generalized Method of Moments) 등을 흔히 사용한다. 이 경우에도 임의효과 분석과 고정효과 분석이 존재한다.

이항반응모형 등 비선형 모형은 특별한 경우를 제외하면 고정효과 분석이 어려우며, 흔히 Chamberlain-Mundlak Device를 이용한 Correlated Random Effects 방법을 이용한다.

출처: 한치록(2017)

패널의 마모[편집]

패널데이터를 활용하면 현실에 대한 다차원적인 분석이 가능하다는 장점이 있음에 반하여, 패널데이터는 필연적으로 마모(attrition)된다는 문제가 있다. 개체들이 응답을 거부하거나 응답할 수 없는 상황(예: 사망이나 폐업)에 처할 수 있기 때문이다. 이 마모 혹은 표본이탈의 문제를 줄이기 위해서는 표본조사 기술을 발전시켜 마모의 속도를 낮추는 수밖에 없다. 마모가 심각한 정도로 진행되면 표본조사를 끝내 버리거나, 아니면 신규표본을 충원하여 패널의 크기를 유지하기도 한다.

계량경제학에서는 마모가 발생하는 원인을 모형화하고 이를 이용하여 표본이탈 편향을 바로잡는 추정방법을 사용하기도 한다. 마모의 문제는 표본선택(selection)의 문제와 유사하나, 마모가 일어나면 나이나 성별처럼 몇몇 자명한 변수들을 제외하고는 모든 변수를 관측할 수 없다는 점에서 표본선택 문제와 완전히 동일하지는 않다. (출처: 한치록, 2017)

참고 문헌[편집]

한치록, 패널데이터강의, 박영사, 2017.