앤스컴 콰르텟

앤스컴 콰르텟(Anscombe's quartet)는 기술통계량은 유사하지만 분포나 그래프는 매우 다른 4개의 데이터셋이다. 각 데이터셋은 11개의 (x, y) 좌표로 이루어진다. 1973년, 통계학자인 프란시스 앤스컴(Francis Anscombe)이 데이터 분석 전 1) 시각화의 중요성과 2) 특이치 및 주영향관측값(influential observation)의 영향을 보여주기 위해 만들었다. 그는 "숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄하기 위한 목적이었다고 설명했다.^[1]

데이터[편집]

4개의 데이터셋 다음과 같은 동일한 기술통계량을 갖는다.


항목	값	정확도
x 평균	9	정확
x 표본분산	11	정확
y 평균	7.50	소수점 2자리
y 표본분산	4.125	정확
x와 y의 상관	0.816	소수점 3자리
선형회귀선	y = 3.00 + 0.500x	각 소수점 2자리, 소수점 3자리
선형회귀 결정계수	0.67	소수점 2자리

데이터셋은 다음과 같다.

앤스컴 콰르텟
I		II		III		IV
x	y	x	y	x	y	x	y
10.0	8.04	10.0	9.14	10.0	7.46	8.0	6.58
8.0	6.95	8.0	8.14	8.0	6.77	8.0	5.76
13.0	7.58	13.0	8.74	13.0	12.74	8.0	7.71
9.0	8.81	9.0	8.77	9.0	7.11	8.0	8.84
11.0	8.33	11.0	9.26	11.0	7.81	8.0	8.47
14.0	9.96	14.0	8.10	14.0	8.84	8.0	7.04
6.0	7.24	6.0	6.13	6.0	6.08	8.0	5.25
4.0	4.26	4.0	3.10	4.0	5.39	19.0	12.5
12.0	10.84	12.0	9.13	12.0	8.15	8.0	5.56
7.0	4.82	7.0	7.26	7.0	6.42	8.0	7.91
5.0	5.68	5.0	4.74	5.0	5.73	8.0	6.89

각주[편집]

↑ Anscombe, F. J. (1973). “Graphs in Statistical Analysis”. 《American Statistician》 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.

[Anscombe-1] Anscombe, F. J. (1973). “Graphs in Statistical Analysis”. 《American Statistician》 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.

[1]