사용자:Regpath/연습장/초안/공통참조

위키백과, 우리 모두의 백과사전.

본문[편집]

언어학에서 공통참조는 두 개 이상의 표현이 같은 사람이나 사물을 가리킬 때 발생한다. 그들은 동일한 지시 대상을 가지고 있다. 예를 들어 Bill said Alice would arrive soon, and she did.라는 문장에서 Alice와 'she'는 같은 사람을 나타낸다.[1]

공통참조는 종종 결정하기 쉽지 않다. 예를 들어, Bill said he would come.이라는 문장에서 he라는 단어는 Bill을 의미할 수도 있고 아닐 수도 있다. 어떤 표현이 공통참조인지 결정하는 것은 의미를 분석하거나 이해하는 데 중요한 부분이며, 종종 문맥으로부터 알 수 있는 정보나 실제 세계에서의 지식이 필요하다. 이런 정보나 지식에는 특정 이름이 특정 종(예를 들어 'Rover')과 연관되는 경향, 'Titanic'과 같은 인공물, (한국어에는 존재하지 않지만) 문법상의 성별 등이 포함된다.

언어학자들은 일반적으로 색인을 사용하여 공통참조를 표현한다. 예를 들어 Billi said hei would come에서 색인 iBill'과 he가 같은 대상임을 의미한다. 이러한 표현법을 coindex라고 부르며, 이를 공통참조로 해석해야 함을 뜻한다.

특정한 둘 이상의 표현이 공통참조적일 때는 완전한 혹은 설명적인 형태(개인의 성과 이름을 포함한 전체 이름, 때때로 직위나 직함을 포함)가 먼저 나타난다. 그리고 이후에는 축약된 형태(예를 들어 성만, 혹은 성을 제외한 이름만, 혹은 대명사)로 나타난다. 먼저 나타나는 것을 antecedent라 하고, 뒤에 나타나는 것을 proform, anaphor, reference라고 부른다. 하지만 "When she arrived home, Alice went to sleep."과 같은 문장에서처럼 대명사가 지시하는 대상보다 먼저 나타날 수 있다. 이러한 경우, 이 공통참조는 anaphora가 아닌 cataphora라고 부른다.

공통참조는 syntax 분야에서 binding phenomena에 중요한다. 바인딩 이론은 텍스트 내의 공통참조 표현 사이에 존재하는 문법적 관계를 탐구한다.

유형[편집]

공통참조를 탐색할 때, 예를 들어 anaphora, cataphora, 분할 선행사, 공통참조 명사구 등과 같은 수많은 구별이 이루어질 수 있다. [2] 이러한 보다 구체적인 현상 중 몇 가지가 여기에 설명되어 있다.

대용 (代用, Anaphora)
a. The musici was so loud that iti couldn't be enjoyed. Anaphor인 it이 지시하는 대상인 'the music'보다 뒤에 온다. 여기서는 'The music'이 antecedent이다.
b. Our neighborsi dislike the music. If theyi are angry, the cops will show up soon. Anaphor인 they가 지시하는 대상인 'Our neighbors'보다 뒤에 온다. 여기서는 'Our neighbors'가 antecedent이다.
후방 조응 (Cataphora)
a. If theyi are angry about the music, the neighborsi will call the cops. Cataphor인 they가 지시하는 대상인 'the neighbors'보다 먼저 온다. 여기서는 'The neighbors가 postcedent이다.
b. Despite heri difficulty, Wilmai came to understand the point. Cataphor인 her가 지시하는 대상인 'Wilma'보다 먼저 온다. 여기서는 'Wilma'가 postcedent이다.
분할 선행사 (Split antecedents)
a. Caroli told Bobi to attend the party. Theyi arrived together. Anaphor인 they가 분할된 선행자(a split antecedent)를 가지고 있다. 'they'는 Carol과 Bob 모두를 지칭한다.
b. When Caroli helps Bobi and Bobi helps Caroli, theyi can accomplish any task. Anaphor인 'they'가 분할된 선행자(a split antecedent)를 가지고 있다. 'they'는 Carol과 Bob 모두를 지칭한다.
명사구 공통참조 (Coreferring noun phrases)
a. The project leaderi is refusing to help. The jerki thinks only of himself.
b. Some of our colleagues1 are going to be supportive. These kinds of people1 will earn our gratitude.

명사구에 대한 공통참조. 두번째 명사구가 첫번째 명사구에 대한 서술어(predication)이다.

결속 변항과의 관계[편집]

의미론자들과 논리학자들은 종종 공통참조와 결속 변항(bound variable)을 구분한다. [3] 결속 변항은 대용형(代用形, proform)에 대한 선행사가 정해지지 않은 수량화된 표현일 때 발생한다.[4] 틀:Clarification needed

  1. Every studenti has received hisi grade. 대명사 his는 결속 변항의 예이다.
  2. No studenti was upset with hisi grade. 대명사 his는 결속 변항의 예이다.

every student나 no student 같은 수량화된 표현은 참조가 아니다. 이런 표현은 문법적으로 단수이지만 담론이나 현실 세계에서 특정 대상을 지칭하지 않는다. 따라서 이 두 예시에서 선행사 his는 참조적이지 않다. 그 대신 선행사에의해 결속된 변항으로 간주한다. 이 참조는 담론 세계에서 어느 학생을 생각하는지에 따라 달라진다. 아래의 예시에서는 결속 변항의 존재가 더욱 명백하다.

  1. Only Jacki likes hisi grade. – 대명사 his는 결속 변항일 수 있다.

이 문장은 모호한다. Jack은 자신의 등급을 좋아하지만 다른 사람들은 모두 Jack의 등급을 싫어한다는 의미일 수 있다. 또는 Jack을 제외하고는 아무도 자기 자신의 등급을 좋아하지 않는다는 의미일 수도 있다. 첫번째 의미에서 his 는 공통참조이다. 두번째 의미에서는 참조 대상이 모든 학생 집합에 대해 다르기 때문에 결속 변항이다. Coindex 표기법은 두 경우 모두에 흔히 사용된다. 즉, 두 개 이상의 표현이 coindex 되었있을 때, 이것이 공통참조인지 결속 변항인지(또는 마지막 예에서와 같이 해석에 따라 달라지는지 여부)를 나타내지 않는다.

공통참조해결[편집]

계산언어학에서 공통참조해결은 담론에서 잘 연구된 문제이다. 텍스트를 정확하게 해석하거나 언급된 다양한 주제의 상대적 중요성을 추정하려면, 대명사와 기타 참조표현이 올바른 대상과 연결되어야 한다. 공통참조를 해결하기 위한 알고리즘은 일반적으로 참조표현과 호환되는 가장 가까운 선행 대상을 먼저 찾는다. 예를 들어, she는 woman 또는 Anne 과 같은 선행 표현과 연결할 수 있지만 Bill만큼은 아닐 수 있다. himself 같은 대명사는 더 엄격한 제약 조건을 가지고 있다. 많은 언어 작업과 마찬가지로 정밀도와 재현율 사이에는 trade off가 있다. 공통참조해결 알고리즘을 평가하는 데 일반적으로 사용되는 클러스터 품질 메트릭에는 Rand 인덱스, 조정된 Rand 인덱스 및 다양한 상호 정보 기반 방법이 포함된다.

영어에서 coreference resolution에 대한 특별한 문제는 많은 용도를 가진 대명사 it이다. It은 일반적으로 무생물을 지칭한다는 점을 제외하고는 he나 she와 매우 유사한 방식으로 다른 대상을 지칭할 수 있다 (규칙은 실제로 더 복잡하다: 동물은 it, he, she 모두를 이용하여 지칭할 수 있다. 선박은 관습적으로 'she'로 지칭한다. 허리케인은 일반적으로 성별을 가진 이름을 가짐에도 불구하고 it으로 지칭한다. It은 추상적인 대상을 지칭할 수도 있다. 예를 들어, 'He was paid minimum wage, but didn't seem to mind it.' 같은 문장이 있다. 마지막으로, 특정 대상을 지칭하지 않는 pleonastic 용법도 있다.

  1. It's raining.
  2. It's really a shame.
  3. It takes a lot of work to succeed.
  4. Sometimes it's the loudest who have the most influence.

Pleonastic 사용은 참조로 간주하지 않으므로 공통참조의 일부가 아니다. [5]

공통참조해결에 대한 접근 방식은 크게 멘션 쌍, 멘션 순위 또는 엔티티 기반 알고리즘으로 구분할 수 있다. 멘션 쌍 알고리즘은 두 개의 주어진 멘션 쌍이 동일 엔티티에 속하는 경우 이진 결정 방식을 이용한다. 성별 과 같은 엔티티 전체 제약 조건은 고려되지 않기 때문에 오류 전파 가 발생한다. 예를 들어, 대명사 he or she 는 모두 the teacher와 공통참조의 가능성이 높지만 서로 공통참조가 될 수는 없다. 멘션 순위 알고리즘은 이 아이디어를 확장하지만, 대신 하나의 멘션이 하나의 (이전) 멘션과만 공통참조될 수 있다고 규정한다. 결과적으로 각각의 이전 멘션에 점수가 부여되며 가장 높은 점수를 받은 멘션이 연결거나, 어떠한 멘션도 연결되지 않는다. 마지막으로 엔티티 기반 방법에서는 개별 멘션이 아닌 전체 공통참조 체인의 정보를 기반으로 멘션이 연결된다. 가변 너비 체인의 표현은 멘션 기반 방법보다 복잡하고 계산 비용이 크기 때문에 이러한 알고리즘은 대부분 신경망 아키텍처를 기반으로 한다.

같이 보기[편집]

 

메모[편집]

  1. For definitions of coreference, see for instance Crystal (1997:94) and Radford (2004:332).
  2. These distinctions (anaphora, cataphora, split antecedents, coreferring noun phrases, etc.) are discussed in Jurafsky and Martin (2000:669ff).
  3. For discussions of bound variables, see for instance Portner (2005:102ff.).
  4. See Jurafsky and Martin (2000:701) for an example of a bound variable like the ones given here.
  5. Li et al. (2009) have demonstrated high accuracy in sorting out pleonastic it, and this success promises to improve the accuracy of coreference resolution overall.

참고문헌[편집]

  [[분류:통사론]] [[분류:번역이 검토되지 않은 문서]]