통계적 분류

통계적 분류는 데이터를 통계학 기법에 의해 분류하는 기계 학습의 과정이다.

관측치(또는 관측치)가 속하는 범주(하위 모집단) 집합을 식별하는 문제이다. 예를 들어 "스팸"(spam) 또는 "비스팸"(anti-spam) 클래스에 지정된 이메일을 할당하고 환자의 관찰된 특성(성별, 혈압, 특정 증상의 유무 등)을 기반으로 특정 환자에게 진단을 할당한다.

종종 개별 관찰은 설명 변수 또는 기능으로 다양하게 알려진 일련의 정량화 가능한 속성으로 분석된다. 이러한 속성은 다양하게 범주형(예: 혈액형의 경우 "A", "B", "AB" 또는 "O"), 서수형(예: "대형", "중형" 또는 "소형"), 정수값(예: 이메일에서 특정 단어의 발생 횟수) 또는 실제값(예: 혈압 측정). 다른 분류기는 유사성 또는 거리 함수를 통해 관측치를 이전 관측치와 비교하여 작동한다.

특히 구체적인 구현에서 분류를 구현하는 알고리즘을 분류사(classifier)라고 한다. "분류사"라는 용어는 때때로 입력 데이터를 범주에 매핑하는 분류 알고리즘에 의해 구현되는 수학 함수를 의미하기도 한다.

분야별 용어는 매우 다양하다. 분류가 종종 로지스틱 회귀 또는 유사한 절차로 수행되는 통계에서 관찰의 속성을 설명 변수(또는 독립 변수, 회귀 변수 등)라고 하고 예측할 범주를 결과라고 한다. 종속 변수의 가능한 값이어야 한다. 기계 학습에서 관찰은 종종 인스턴스로 알려져 있으며 설명 변수는 기능(기능 벡터로 그룹화됨)이라고 하며 예측할 수 있는 범주는 클래스이다. 다른 분야에서는 다른 용어를 사용할 수 있다. 커뮤니티 생태학에서 "분류"라는 용어는 일반적으로 클러스터 분석을 의미한다.

이 글은 통계학에 관한 토막글입니다. 여러분의 지식으로 알차게 문서를 완성해 갑시다.