팃포탯

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색
서양의 비즈니스 문화에서 누군가를 만날 때 악수하는 일은 초기 협동의 한 예이다

팃포탯(Tit for tat)은 게임 이론에서 반복되는 죄수의 딜레마의 강력한 전략이기도 하다. 이 전략은 1980년대에 열린 Robert Axelrod의 두 토너먼트 경기에서 Anatol Rapoport에 의해 최초로 제안되었다. 이 전략을 사용하는 경기자는 처음에는 협력하고, 그 이후에는 상대의 바로 전 전략에 반응한다. 만약 상대가 이전에 협력을 했다면, 경기자는 협력하고, 만약 배반했다면, 경기자는 배반할 것이다. 이것은 생물학에서의 superrationality 이나 상호이타성하고도 비슷하다.

개요[편집]

이 전략은 반복되는 죄수의 딜레마:[1]에서의 가장 성공적인 전략이라고 입증된 4개의 원칙에 의존한다.

  1. 배반하기 전까지 경기자는 항상 협력한다.
  2. 만약 배반했다면, 경기자는 복수할 것이다.
  3. 경기자는 빠르게 관용을 베푼다.
  4. 경기자는 반드시 상대와 한번 이상 경쟁할 "좋은 기회"를 가지고 있어야 한다.

마지막 조건에서, "좋은 기회"의 정의는 죄수의 딜레마의 payoff matrix에 의존한다. 중요한 점은 경쟁이 충분히 길어서 처벌과 관용의 반복이 지속되는 협력보다 장기적으로 더 적은 점수를 받아야 한다는 것이다.

게임을 의미있게 만드는 다섯번째 원칙: 만약 한 경기자가 다음 경기가 마지막이 될 것이라는 사실을 안다면, 자연히 더 높은 점수를 위해 배반할 것이다. 비슷하게 지금이 마지막에서 두 번째 남은 경기라는 사실을 알개 된다면 그는 두번 배신할 것이다. 이러한 이유로 경기자들은 경기가 지속되는 횟수를 모르고 있어야만 한다.

게임 이론에서 일반적으로 전략의 유효성은 각각의 경기자가 자기 자신에 대해서만 관심을 가진다는 전제 아래에서 측정된다.(그러므로, 게임이론에서의 유효성은 각 경기자들이 다른 경기자에 대한 기득권이나 동정을 가지는 많은 실제 상황과는 관계가 없다.) 또한, 게임이론에서의 유효성은 보통 경기자가 절대로 다른 경기자의 의도에 대해서 잘못 해석하지 않는 완전한 소통을 한다는 가정 하에서 측정된다.

이러한 게임 이론의 팃포탯의 유효성에 대한 정의 하에서는 팃포탯 전략은 몇번의 토너먼트에서 컴퓨터 과학자, 경제학자나 심리학자들의 팀이 만든 (보통 훨씬 더 복잡한)전략들보다 우수하였다. 어떤 게임 이론가들은 비공식적으로 비록 증거는 제시되지 않았지만 팃포탯 전략이 최선의 전략이라고 믿고 있다.

그러나 팃포텟은 어떤 대회에서는 최선의 전략이 아니었으며, 심지어는 게임이론의 유효성에 대한 정의 보다도 낮았다. 하지만 팃포탯은 각각의 전략들이 비교되었던 경우에는 가장 효과적인 전략이었다.

이러한 혼합 전략의 승리는 죄수의 딜레마의 사회적 현실에서의 중요한 한계중의 하나이다.

전략 사용의 예[편집]

죄수의 딜레마
침묵 배신
침묵 3, 3 0, 5
배신 5, 0 1, 1

여기 4명의 경기자가 있다고 가정하자. 두 경기자는 팃포탯 전략을 사용하고, 다른 두명은 자신들의 이득을 최대화하기 위해 항상 비협조하는 배반자이다. 각각의 경기자가 다른 3명의 경기자들과 각각 6번의 경기를 한다고 해 보자. 만약 한 경기자가 만약 침묵한 상대를 배신한다면, 배신자는 5점을 얻고 침묵을 지킨 사람은 점수를 얻지 못한다. 만약 두명 모두 침묵을 지킨다면, 두명 모두 3점을 얻는다. 만약 두명 모두 서로를 배반한다면, 두명 모두 1점을 얻게 된다.

만약 한 팃포탯 전략을 사용하는 경기자 A가 배반자 B를 상대하게 되면, 첫 경기에서 배반자는 상대를 배신하고 팃포탯 경기자는 침묵을 지켜 배신자가 5점을 얻개 될 것이다. 나머지 5번의 경기에서는 두 경기자 모두 서로를 배반하게 됨으로, 각 경기마다 둘 모두 1점을 얻게 된다. 배신자는 총 합해서 10점을 얻게 되고, 팃포탯 전략을 사용하는 경기자는 다해서 5점을 얻게 될 것이다.

만약 팃포탯 경기자들이 서로 상대하게 된다면, 6경기 모두 둘 다 침묵을 지키개 될 것이다. 두 경기자들은 경기마다 3점씩을 얻게 되고, 다해서 18점을 얻게 된다.

만약 배반자들이 서로를 상대하게 된다면 6경기 모두 서로를 배반할 것이다. 두 배반자 모두 경기마다 1점씩을 얻어 다해서 6점을 얻게 될 것이다.

각각의 팃포탯 경기자들은 18경기동안 다해서 28점(서로를 상대할떄 18점과 두명의 배반자를 상대할떄 각각 얻은 5점)을 얻게 된다. 그리고 각각의 배반자들은 26점(배반자들끼리의 6점과 두명의 팃포탯 경기자를 상대할때 얻은 10점).

팃포탯 경기자들이 경기에서 이긴적이 없고 배반자들이 상대에게 진 적이 없지만, 최종 점수는 얼마나 많은 경기를 이겼는지가 아닌 얻은 총 점수에 관련되기 때문에 팃포탯 전략은 선두를 유지하고 있다. 간단히 말해서, 팃포탯 경기자들은 서로 경기를 할때 배반자들에게 잃은 것보다 더 많은 점수를 얻었다

묘사한 게임에서 더 많은 팃포탯 경기자들이 있을수록 팃포탯 경기자들은 더 많은 이득을 얻고, 만약 팃포탯 전략을 사용하는 경기자의 수가 적다면 팃포탯 전략을 사용하는 경기자들은 약간의 이득만을 얻을 것이다.

주석[편집]

  1. Shaun Hargreaves Heap, Yanis Varoufakis (2004). 《Game theory: a critical text》. Routledge, 191쪽. ISBN 0415250943