정밀도와 재현율

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

이진 분류 기법(binary classification)을 사용하는 패턴 인식정보 검색 분야에서, 정밀도는 검색된 결과들 중 관련 있는 것으로 분류된 결과물의 비율이고, 재현율은 관련 있는 것으로 분류된 항목들 중 실제 검색된 항목들의 비율이다. 따라서 정밀도와 재현율 모두 관련도(Relevance)의 측정 기준 및 지식을 토대로 하고 있다.

정의[편집]

정보 검색 분야에서, 정밀도와 재현율은 검색된 문서(retrieved documents; 웹 검색 엔진에 의해 생성된 문서들) 및 관련 있는 문서(relevant documents; 웹 문서들 중 찾고자 하는 주제와 실제로 관련 있는 것들)에 의해 정의된다.

정밀도[편집]

정보 검색 분야에서 정밀도(precision)는 검색된 문서들 중 관련 있는 문서들의 비율이다.

 \text{precision}=\frac{|\{\text{relevant documents}\}\cap\{\text{retrieved documents}\}|}{|\{\text{retrieved documents}\}|}

재현율[편집]

정보 검색 분야에서 재현율(recall)은 관련 있는 문서들 중 실제로 검색된 문서들의 비율이다.

 \text{recall}=\frac{|\{\text{relevant documents}\}\cap\{\text{retrieved documents}\}|}{|\{\text{relevant documents}\}|}

정의[편집]

실제 정답
(Gold Standard에 의해 결정)
True False
실험 결과 Positive True Positive False Positive
(en:Type I error)
Negative False Negative
(en:Type II error)
True Negative

통계적 분류 분야에서 정밀도(precision)와 재현율(recall)은 다음과 같이 정의된다:[1]

\text{Precision}=\frac{tp}{tp+fp} \,
\text{Recall}=\frac{tp}{tp+fn} \,

여기서 재현율은 sensitivity로도 불리며, 정밀도는 positive predictive value(PPV)로 불리기도 한다; 통계적 분류 분야에서 사용되는 다른 기준으로 True Negative Rate(Specificity)와 정확도(Accuracy) 등이 있다.[1]

\text{True negative rate}=\frac{tn}{tn+fp} \,
\text{Accuracy}=\frac{tp+tn}{tp+tn+fp+fn} \,

출처[편집]

  1. Olson, David L.; and Delen, Dursun (2008); Advanced Data Mining Techniques, Springer, 1st edition (February 1, 2008), page 138, ISBN 3-540-76916-1
  • Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Modern Information Retrieval. New York, NY: ACM Press, Addison-Wesley, Seiten 75 ff. ISBN 0-201-39829-X
  • Hjørland, Birger (2010); The foundation of the concept of relevance, Journal of the American Society for Information Science and Technology, 61(2), 217-237
  • Makhoul, John; Kubala, Francis; Schwartz, Richard; and Weischedel, Ralph (1999); Performance measures for information extraction, in Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999
  • van Rijsbergen, Cornelis Joost "Keith" (1979); Information Retrieval, London, GB; Boston, MA: Butterworth, 2nd Edition, ISBN 0-408-70929-4