빈도분석

위키백과, 우리 모두의 백과사전.

빈도분석(頻度分析)이란 문장이나 대화 속에서 각각의 문자의 빈출 경향의 정도를 분석하는 것이다. 빈도해석(頻度解析)이라고도 한다. 각각의 언어 특성을 아는 데에도 중요한 분석이다. 초보적인 사이퍼 / 단일 환자식 암호 따위의 해독에도 쓰인다. 암호해독법으로서의 빈도분석은 「빈도분석 (암호)」를 참조.

개요[편집]

영어에서는 평문에서 보통 e, t, a, o, i, n의 순으로 빈출한다고 알려져 있다. 반대로 j, k, q, x, z 등은 빈출하지 않는 경향이 있다.

아래에 구체적인 예시를 열거한다. 영어판 위키백과의 대문이 해석대상이다. 이미지에 포함된 문자를 제외한 모든 문자를 해석대상으로 잡았다. 태그 등은 포함하지 않는다. 대문자 소문자의 구별은 하지 않았다. 유효숫자 두 자릿수 뒤부터 반올림.

영어에서의 빈도분석 결과(7577772문자 中), 영어판 위키백과의 대문 15:00, 7 March 2007 (UTC)에서.

문자 회수 백분율(%) 순위
a 543 9.30 3
b 70 1.19 22
c 212 3.63 11
d 217 3.71 10
e 666 11.41 1
f 118 2.02 16
g 110 1.88 17
h 189 3.23 12
i 550 9.42 2
j 10 0.17 23
k 81 1.38 20
l 233 3.99 9
m 145 2.48 14
문자 회수 백분율(%) 순위
n 437 7.48 5
o 398 6.82 7
p 134 2.29 15
q 10 0.17 23
r 386 6.61 8
s 410 7.02 6
t 474 8.12 4
u 179 3.06 13
v 77 1.31 21
w 85 1.45 19
x 8 0.13 25
y 89 1.52 18
z 4 0.06 26

모음은 빈출하는 경향이 있다. 그다지 쓰이지 않는 자음은 거의 등장하지 않는 것이 도표를 통해 할 수 있다. 낱말 수준으로 보면, a나 the 같은 관사 등이 빈번하게 등장한다. of, to, in 등도 빈출한다. 이러한 문법적 특성은 한국어에서도 동일하다.

암호해독에서의 응용[편집]

단일 환자식 암호를 해독할 때에 사용된다. 빈출하는 문자, 그렇지 않은 문자의 문법적 특성 따위를 고도하게 비추어 해독해간다.

그러나 이것은 어디까지 통계적인 것으로, 의도적으로 알파벳 e가 전혀 쓰이지 않은 소설 작품 『실종』(조르주 페렉 著, 약 200페이지)가 존재한다.

같이 보기[편집]