앤스컴 콰르텟

위키백과, 우리 모두의 백과사전.

간단한 요약 통계로 보면 동일하지만, 시각화하면 매우 다르다.

앤스컴 콰르텟(Anscombe's quartet)는 기술통계량은 유사하지만 분포나 그래프는 매우 다른 4개의 데이터셋이다. 각 데이터셋은 11개의 (x, y) 좌표로 이루어진다. 1973년, 통계학자인 프란시스 앤스컴(Francis Anscombe)이 데이터 분석 전 1) 시각화의 중요성과 2) 특이치 및 주영향관측값(influential observation)의 영향을 보여주기 위해 만들었다. 그는 "숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄하기 위한 목적이었다고 설명했다.[1]

데이터[편집]

4개의 데이터셋 다음과 같은 동일한 기술통계량을 갖는다.

항목 정확도
x 평균 9 정확
x 표본분산 11 정확
y 평균 7.50 소수점 2자리
y 표본분산 4.125 정확
xy의 상관 0.816 소수점 3자리
선형회귀선 y = 3.00 + 0.500x 각 소수점 2자리, 소수점 3자리
선형회귀 결정계수 0.67 소수점 2자리

데이터셋은 다음과 같다.

앤스컴 콰르텟
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

각주[편집]

  1. Anscombe, F. J. (1973). “Graphs in Statistical Analysis”. 《American Statistician》 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.