앤스컴 콰르텟
보이기
앤스컴 콰르텟(Anscombe's quartet)는 기술통계량은 유사하지만 분포나 그래프는 매우 다른 4개의 데이터셋이다. 각 데이터셋은 11개의 (x, y) 좌표로 이루어진다. 1973년, 통계학자인 프란시스 앤스컴(Francis Anscombe)이 데이터 분석 전 1) 시각화의 중요성과 2) 특이치 및 주영향관측값(influential observation)의 영향을 보여주기 위해 만들었다. 그는 "숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄하기 위한 목적이었다고 설명했다.[1]
데이터
[편집]4개의 데이터셋 다음과 같은 동일한 기술통계량을 갖는다.
항목 | 값 | 정확도 |
---|---|---|
x 평균 | 9 | 정확 |
x 표본분산 | 11 | 정확 |
y 평균 | 7.50 | 소수점 2자리 |
y 표본분산 | 4.125 | 정확 |
x와 y의 상관 | 0.816 | 소수점 3자리 |
선형회귀선 | y = 3.00 + 0.500x | 각 소수점 2자리, 소수점 3자리 |
선형회귀 결정계수 | 0.67 | 소수점 2자리 |
데이터셋은 다음과 같다.
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.5 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
같이 보기
[편집]각주
[편집]- ↑ Anscombe, F. J. (1973). “Graphs in Statistical Analysis”. 《American Statistician》 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.