분산 분석

분산 분석(分散分析, analysis of variance, ANOVA, 또는 변량 분석)은 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다. 통계학자이자 유전학자인 로날드 피셔(R.A. Fisher)에 의해 1920년대에서 1930년대에 걸쳐 만들어졌다.

F분포[편집]

F분포는 분산의 비교를 통해 얻어진 분포비율이다. 이 비율을 이용하여 각 집단의 모집단분산이 차이가 있는지에 대한 검정과 모집단평균이 차이가 있는지 검정하는 방법으로 사용한다. 즉 F = (군간변동)/(군내변동)이다. 만약 군내변동이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산분석의 신뢰도는 나빠지게 된다.

가정

정규성 가정
각각의 모집단에서 변인 Y는 정규분포를 따른다. 각각의 모집단에서 Y의 평균은 다를 수 있다.
분산의 동질성 가정
Y의 모집단 분산은 각각의 모집단에서 동일하다. $\sigma _{1}^{2}=\sigma _{2}^{2}$
관찰의 독립성 가정
각각의 모집단에서 크기가 각각 $n_{1}$ , $n_{2}$ 인 표본들이 독립적으로 표집된다.

각각의 표본에서 산출된 모집단 분산의 추정치의 비율 $F={\frac {s_{1}^{2}}{s_{2}^{2}}}$ 을 구한다. 이를 'F' 또는 'F 통계치'라고 한다. F 값들은 특정한 이론적 확률분포를 따르게 되는데 이것이 F 분포이다.

분산분석 모형[편집]

실험계획을 수행할 때 수준을 선택하는 방법에 따라 모수인자와 변량인자가 있으며 각각 다음과 같은 분산분석 모형이 있다,

고정효과 모형[편집]

고정효과 인자는 수준의 선택이 기술적으로 정해져 있고 각 수준이 기술적 의미를 가지고 있는 효과 인자를 말한다. 예로 온도, 압력 같은 것들이다. 모수인자만 사용된 경우 고정효과 모형(Fixed-effects model, 모수인자 모형)이라고 한다. 이 경우 각 수준에서의 모평균 값의 추정에 의미를 두고 있다. 피험자내설계인 반복측정분산분석이 있다.^[1]

무선효과(無選效果) 모형[편집]

무선효과 인자는 수준의 선택이 임의적으로 이루어지며 각 수준이 기술적 의미를 가지고 있지 않은 효과 인자를 말한다. 예를 들어 원료의 종류 같은 것들이다. 무선효과 인자만 사용된 경우 무선효과 모형(Random-effects model, 변량인자 모형)이라고 한다. 이 경우 각 수준은 임의적으로 결정되었기 때문에 각 수준의 모평균값의 추정이 의미가 없으며 단지 인자에 의한 산포의 정도를 추정하는 것에 의미를 두고 있다. 대표적인 예로 Gage R&R이 있다.

혼합효과 모형[편집]

고정효과 인자와 무선효과 인자가 함께 사용된 경우 혼합효과 모형(Mixed-effects model, 혼합인자 모형)이라고 한다.

분산분석의 종류[편집]

일원분산분석(one-way ANOVA)[편집]

종속변인(dependent)은 1개이며, 독립변인(independent)의 집단도 1개인 경우이다. 분산분석(ANOVA)에서는 독립변인을 요인(factor)으로 표현한다.

예1) 가구소득에 따른 식료품소비 정도의 차이이다. 여기서 가구소득은 독립변인으로 가구소득집단의 구분-저소득, 중산층, 고소득층 등으로 2개 이상이다. 독립변인의 집단이 2개 이상이므로 사후분석을 실시한다.

예2) 한/중/일 국가간 10세 남아의 체중비교의 경우이다. 독립변인: 국적, 독립변인의 집단 : 3개 (한/중/일), 종속변인 : 1개(체중)이다.

이원분산분석(two-way ANOVA)[편집]

이원분산분석(two-way ANOVA)은 독립변인의 수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는 데 사용한다.

예1) 독립변인 2개, 종속변인이 동일한 경우로 학력및 성별에 따른 휴대폰요금의 차이를 분석한다면 이때 학력, 성별은 독립변인이고 종속변인은 휴대폰요금이 된다. 이원분산분석은 주효과와 상호작용효과를 분석할 수 있다. 주효과는 학력(a), 성별(b)이라면 상호작용효과는 이를 곱한 a*b이다. 여기서 상호작용효과가 유의하다면 그래프를 만들어 볼 수 있다.

예2) 한/중/일 국가간 성별과 학력에 따른 체중비교의 경우이다. 독립변인 : 2개(성별/학력), 독립변인의 집단 : 3개 (한/중/일), 종속변인 : 1개(체중)이다.

다원변량분산분석(MANOVA)[편집]

단순한 분산분석을 확장하여 두개 이상의 종속변인이 서로 관계된 상황에 적용시킨 것이다. 둘 이상의 집단간 차이를 검증 할 수 있다. 일반적으로 분석의 복잡성으로 인해서 삼원분산분석이 다루어진다.

공분산분석(ANCOVA)[편집]

다원변량분산분석에서 특정한 독립변인에 초점을 맞추고 다른 독립변인은 통제변수로 하여 분석하는 방법이다. 특정한 사항을 제한을 하여 분산분석을 하는 것이다.

추가검사[편집]

샘플집단간의 분석에서 샘플간의 값의 차이가 어떠한 영향을 결과적으로 보여주는지를 추가적으로 검사할 필요가 분산분석에서는 보다 더 요구되는 경우가 있다. 사후검사(post-hoc) 또는 다중비교(multiple comparisons)라고도 하는 추가검사에는 본페로니 교정(Bonferroni), 셰페 방법(Scheffe), 투키 HSD(Tukey HSD)등이 있다.^[2]

같이 보기[편집]

분산(variance)
F-분포
T 테스트
회귀 분석(regression analysis)

참고[편집]

↑ (PSPP, Univariate Analysis) Help-Reference Manual-GLM
↑ PSPP ,One-way ANOVA,Post-Hoc

[1] (PSPP, Univariate Analysis) Help-Reference Manual-GLM

[2] PSPP ,One-way ANOVA,Post-Hoc

[1]

[2]