본문으로 이동

BLEU

위키백과, 우리 모두의 백과사전.

BLEU(bilingual evaluation understudy)는 하나의 자연어에서 다른 자연어로 기계 번역된 텍스트의 품질을 평가하는 알고리즘이다. 품질은 기계의 출력과 인간의 출력 사이의 대응으로 간주된다. "기계 번역이 전문적인 인간 번역에 가까울수록 품질이 더 좋다." 이것이 BLEU의 핵심 아이디어이다. 2001년 IBM에서 발명된 BLEU는 품질에 대한 인간의 판단과 높은 상관관계가 있다고 주장하는 최초의 지표 중 하나였으며 가장 널리 사용되는 자동화되고 저렴한 지표 중 하나로 남아 있다.

점수는 번역된 개별 세그먼트(일반적으로 문장)에 대해 양질의 참조 번역 세트와 비교하여 계산된다. 그런 다음 해당 점수를 전체 말뭉치에 대한 평균으로 계산하여 번역의 전반적인 품질을 추정한다. 명료성이나 문법적 정확성은 고려되지 않는다.

BLEU의 출력은 항상 0과 1 사이의 숫자이다. 이 값은 후보 텍스트가 참조 텍스트와 얼마나 유사한지를 나타내며, 1에 가까울수록 더 유사한 텍스트를 나타낸다. 1점을 획득한 인간 번역은 거의 없다. 이는 후보가 참조 번역 중 하나와 동일하다는 것을 의미하기 때문이다. 이러한 이유로 1점을 획득할 필요는 없다. 일치할 기회가 더 많기 때문에 참조 번역을 추가하면 BLEU 점수가 높아진다.

같이 보기[편집]

외부 링크[편집]