인사이드-아웃사이드-비기닝

위키백과, 우리 모두의 백과사전.

인사이드-아웃사이드-비기닝(inside–outside–beginning), IOB 포맷 또는 BIO 포맷전산언어학(예: 개체명 인식)의 청크 작업에서 토큰에 태그를 지정하기 위한 일반적인 태그 지정 형식이다.[1] 이는 램쇼(Ramshaw)와 마커스(Marcus)가 1995년 "변환 기반 학습을 사용한 텍스트 청킹"(Text Chunking using Transformation-Based Learning)이라는 논문에서 제시했다.[2] 태그 앞의 I- 접두사는 태그가 청크 내부에 있음을 나타낸다. O 태그는 토큰이 어떤 청크에도 속하지 않음을 나타낸다. 태그 앞의 B- 접두사는 태그가 O 태그 없이 다른 청크 바로 뒤에 오는 청크의 시작임을 나타낸다. 이 경우에만 사용된다. 청크가 O 태그 뒤에 오면 청크의 첫 번째 토큰은 I- 접두사를 사용한다.

널리 사용되는 또 다른 유사한 형식은 IOB2 형식이다. 이는 B-태그가 모든 청크의 시작 부분에 사용된다는 점을 제외하면 IOB 형식과 동일하다(즉, 모든 청크는 B-태그로 시작함).

엔터티 태그 지정에 대한 읽기 쉬운 소개는 밥 카펜터(Bob Carpenter)의 블로그 게시물 "Coding Chunkers as Taggers"에 나와 있다.[3]

IOB 형식의 예:

Alex I-PER
is O
going O
to O
Los I-LOC
Angeles I-LOC
in O
California I-LOC

"Alex", "Los" 및 "California"는 해당 청크의 첫 번째 토큰이지만 "I-" 접두사가 있음에 주의한다.

불용어를 필터링한 후의 동일한 예:

Alex I-PER
going O
Los I-LOC
Angeles I-LOC
California B-LOC

"California"는 이제 다른 LOC 청크 바로 뒤에 "B-" 접두사가 붙는다.

IOB2 형식의 동일한 예(불용어 필터링의 영향을 받지 않는 태그 포함):

Alex B-PER
is O
going O
to O
Los B-LOC
Angeles I-LOC
in O
California B-LOC

관련 태그 지정 체계에는 때때로 "START/END: 태그 B, E, I, S 또는 O로 구성된다. 여기서 S는 단일 토큰을 포함하는 청크를 나타내는 데 사용된다. 길이가 2보다 크거나 같은 청크는 항상 B 태그이고 E 태그로 끝난다.

다른 태깅 체계에는 BIOES/BILOU가 포함된다. 여기서 'E'와 'L'은 마지막 또는 끝 문자가 이러한 시퀀스임을 나타내고 'S'는 단일 요소 또는 'U' 단위 요소를 나타낸다.

BIOES 형식의 예:

Alex S-PER
is O
going O
with O
Marty B-PER
A. I-PER
Rick E-PER
to O
Los B-LOC
Angeles E-LOC

각주[편집]

  1. “Entity Recognition”. 2013년 9월 30일에 원본 문서에서 보존된 문서. 2013년 8월 22일에 확인함. 
  2. Ramshaw and Marcus (1995). “Text Chunking using Transformation-Based Learning”. arXiv:cmp-lg/9505040. 
  3. Bob Carpenter (2009). “Coding Chunkers as Taggers: IO, BIO, BMEWO, and BMEWO+”. 2017년 8월 5일에 원본 문서에서 보존된 문서.