히스토그램

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

히스토그램(histogram)이란 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것이다. 더 간단하게 말하면, 도수분포표그래프로 나타낸 것이다. 보통 히스토그램에서는 가로축이 계급, 세로축이 도수를 뜻하는데, 때때로 반대로 그리기도 한다. 계급은 보통 변수의 구간이고, 서로 겹치지 않는다. 그림에서 계급(막대기)끼리는 서로 붙어 있어야 한다. 히스토그램은 일반 막대그래프와는 다르다. 막대그래프는 계급 즉 가로를 생각하지 않고 세로의 높이로만 나타내지만 히스토그램은 가로와 세로를 함께 생각해야 한다.

공업 분야에서 히스토그램은 품질 관리(QC)를 위한 일곱 가지 도구 중 하나이기도 하다. 여기에는 히스토그램, 파레토도, 체크시트, 관리도, 특성요인도, 순서도, 산포도가 들어간다. 이에 대한 세부 내용은 품질 관리를 참고하라.

수학적 정의[편집]

일반적인 수학 관점에서 보면, 히스토그램이란 단순히 관측값의 개수를 겹치지 않는 다양한 계급(상자라고도 한다)로 보내는(사상, mapping) 것이다. 즉, 일종의 사상이다. 히스토그램의 그래프와 히스토그램 자체를 똑같이 여기는 경우가 많지만, 사실 그래프는 히스토그램을 나타내는 방법 중 하나일 뿐이다.

N을 모든 관측값의 수라 하고, n을 상자 개수라 하면, 히스토그램 h_k는 다음 조건을 만족한다:

N = \sum_{k=1}^n{h_k}

여기서 k는 상자의 번호이다.

누적 히스토그램[편집]

누적 히스토그램은 특정 상자까지 나온 관측값을 모두 누적해서 세는 사상이다. 첫 번째 상자는 그냥 그 상자에 있는 관측값의 수와 같고, 마지막 상자는 모든 관측값의 수와 같게 된다. 즉, 히스토그램 h_k의 누적 히스토그램 H_k는 이렇게 정의한다:

H_k = \sum_{k\prime=1}^k{h_{k\prime}}

엄지손가락 법칙[편집]

보통 히스토그램을 쓸 때는 7에서 10 계급을 쓴다. 그러나 때때로 자료를 정리하는 데에 아래 엄지손가락 법칙을 쓰기도 한다. 여기서 n은 표본에서 관측값의 개수이다.

N_{class} = \sqrt n

N_{class} = A \sqrt n

N_{class} = 10 \log n \

각각 성공률에 차이가 있다. 마지막 방법은 n < 30인 경우에는 별로 안 좋다.

  • 히스토그램에서 상폭이나 상자 개수 \Delta는 식{2k-v \over \Delta^2}을 써서 고를 수 있다. 여기서 kv 는 상자에 있는 자료 개수의 평균하고 분산을 뜻한다. 상자 폭은 이 식을 최소화할 때가 가장 좋다.[1]

같이 보기[편집]

주석[편집]

  1. Web Resource on the Histogram Bin Size Selection