팃포탯

위키백과, 우리 모두의 백과사전.
서양의 비즈니스 문화에서 누군가를 만날 때 악수하는 일은 초기 협동의 한 예이다


팃포탯(Tit for tat,TFT) 또는 팃포탯 전략은 반복 게임에서, 경기자가 이전 게임에서 상대가 한 행동을 이번 게임에서 그대로 따라 하는 전략(strategy)으로 예를 들어 상대의 이전 행동이 협조적이었으면 협조하고, 비협조적이었으면 협조하지 않음으로써 보복하는 전략이다

팃포탯 전략은 게임 이론에서 반복되는 죄수의 딜레마의 강력한 전략이기도 하다. 이 전략은 1980년대에 로버트 엑슬로드(Robert Axelrod)가 고안한 게임에서 아나톨 라포포트(Anatol Rapoport)에 의해 최초로 제안되었고 컴퓨터 시뮬레이션의 수많은 반복 매치를 통해 최고의 전략으로 확인된 바 있다. 이 전략을 사용하는 경기자는 처음에는 협력하고, 그 이후에는 상대의 바로 직전에 취한 전략에 똑같이 반응함으로써 진행된다. 만약 상대가 이전에 협력을 했다면, 경기자는 협력하고, 만약 배반했다면, 경기자는 배반할 것이다. 이것은 생물학에서의 협동 또는 초월성(superrationality) 또는 상호이타성(reciprocal altruism)을 설명할 수 있는 주요한 이론으로 받아들여지고있다.

개요[편집]

이 전략은 반복되는 죄수의 딜레마[1]에서의 가장 성공적인 전략이라고 입증된 28개의 원칙에 의존한다.

  1. 상대가 협력한다면 경기자는 항상 협력으로 응한다.
  2. 만약 상대가 배반했다면, 경기자는 복수로 응한다.
  3. 이로써 경기자는 빠르게 상대의 다음 행동에서 관용 또는 복수로 응할 수 있는 기반을 마련할 수 있다.
  4. 경기자는 반드시 상대와 한번 이상 경쟁할 좋은 기회를 가지고 있어야 한다.

마지막 조건에서, "좋은 기회"의 정의는 죄수의 딜레마의 보수 행렬(payoff matrix)에 의존한다. 중요한 점은 경쟁이 충분히 길어서 처벌과 관용의 반복이 지속되는 협력보다 장기적으로 더 적은 점수를 받아야 한다는 것이다.

게임을 의미있게 만드는 다섯 번째 원칙: 만약 한 경기자가 다음 경기가 마지막이 될 것이라는 사실을 안다면, 자연히 더 높은 점수를 위해 배반할 것이다. 비슷하게 지금이 마지막에서 두 번째 남은 경기라는 사실을 알게 된다면 그는 두 번 배신할 것이다. 이러한 이유로 경기자들은 경기가 지속되는 횟수를 모르고 있어야만 한다.

게임 이론에서 일반적으로 전략의 유효성은 각각의 경기자가 자기 자신에 대해서만 관심을 가진다는 전제 아래에서 측정된다.(그러므로, 게임이론에서의 유효성은 각 경기자들이 다른 경기자에 대한 기득권이나 동정을 가지는 많은 실제 상황과는 관계가 없다.) 또한, 게임이론에서의 유효성은 보통 경기자가 절대로 다른 경기자의 의도에 대해서 잘못 해석하지 않는 완전한 소통을 한다는 가정 하에서 측정된다.

이러한 게임 이론의 팃포탯의 유효성에 대한 정의 하에서는 팃포탯 전략은 몇 번의 토너먼트에서 컴퓨터 과학자, 경제학자나 심리학자들의 팀이 만든 (보통 훨씬 더 복잡한)전략들보다 우수하였다. 어떤 게임 이론가들은 비공식적으로 비록 증거는 제시되지 않았지만 팃포탯 전략이 최선의 전략이라고 믿고 있다.

그러나 팃포텟은 어떤 대회에서는 최선의 전략이 아니었으며, 심지어는 게임이론의 유효성에 대한 정의 보다도 낮았다. 하지만 팃포탯은 각각의 전략들이 비교되었던 경우에는 가장 효과적인 전략이었다.

이러한 혼합 전략의 승리는 죄수의 딜레마의 사회적 현실에서의 중요한 한계중의 하나이다.

전략 사용의 예[편집]

죄수의 딜레마
침묵 배신
침묵 3, 3 0, 5
배신 5, 0 1, 1

여기 4명의 경기자가 있다고 가정하자. 두 경기자는 팃포탯 전략을 사용하고, 다른 두 경기자는 자신들의 이득을 최대화하기 위해 항상 비협조하는 배반자이다. 각각의 경기자가 다른 3명의 경기자들과 각각 6번의 경기를 한다고 해 보자. 만약 한 경기자가 만약 침묵한 상대를 배신한다면, 배신자는 5점을 얻고 침묵을 지킨 사람은 점수를 얻지 못한다. 만약 두 명 모두 침묵을 지킨다면, 두 명 모두 3점을 얻는다. 만약 두 명 모두 서로를 배반한다면, 두 명 모두 1점을 얻게 된다.

만약 한 팃포탯 전략을 사용하는 경기자 A가 배반자 B를 상대하게 되면, 첫 경기에서 배반자는 상대를 배신하고 팃포탯 경기자는 침묵을 지켜 배신자가 5점을 얻게 될 것이다. 나머지 5번의 경기에서는 두 경기자 모두 서로를 배반하게 됨으로, 각 경기마다 둘 모두 1점을 얻게 된다. 배신자는 총 합해서 10점을 얻게 되고, 팃포탯 전략을 사용하는 경기자는 다해서 5점을 얻게 될 것이다.

만약 팃포탯 경기자들이 서로 상대하게 된다면, 6경기 모두 둘 다 침묵을 지키게 될 것이다. 두 경기자들은 경기마다 3점씩을 얻게 되고, 다해서 18점을 얻게 된다.

만약 배반자들이 서로를 상대하게 된다면 6경기 모두 서로를 배반할 것이다. 두 배반자 모두 경기마다 1점씩을 얻어 다해서 6점을 얻게 될 것이다.

각각의 팃포탯 경기자들은 18경기 동안 다해서 28점(서로를 상대할 때 18점과 두명의 배반자를 상대할 때 각각 얻은 5점)을 얻게 된다. 그리고 각각의 배반자들은 26점(배반자들끼리의 6점과 두명의 팃포탯 경기자를 상대할때 얻은 10점).

팃포탯 경기자들은 경기에서 이긴 적이 없고 배반자들은 상대에게 진 적이 없지만, 최종 점수는 경기를 이긴 횟수가 아니라 얻은 총 점수에 비례하기 때문에 팃포탯 전략이 선두를 유지하고 있다. 간단히 말해서, 팃포탯 경기자들은 서로 경기를 할 때 배반자들에게 잃은 것보다 더 많은 점수를 얻었다.

묘사한 게임에서 팃포탯 경기자들이 더 많을수록 팃포탯 경기자들은 더 많은 이득을 얻고, 팃포탯 경기자의 수가 적다면 팃포탯 경기자들은 약간의 이득만을 얻을 것이다.

팃포탯 전략의 결과[편집]

-쌍방중 어느 한쪽이 협력(또는 비협조적)으로 최초관계를 시작한다
-이후 상대방이 선택한 행동(협조 또는 보복)을 따라하는 맞대응 행동을 반복한다.

위와 같은 1대1 대응이라는 단순한 2개의 원칙을 전제하는 지속되는 과정을 갖는 팃포탯 전략(게임)은 결과적으로 행동과 선택이 '협력'으로 수렴되는 내쉬균형을 갖는 것으로 알려져 있다.[2][3]

같이 보기[편집]

각주[편집]

  1. Shaun Hargreaves Heap, Yanis Varoufakis (2004). 《Game theory: a critical text》. Routledge. 191쪽. ISBN 0415250943. 
  2. (팃포탯과 탈리오(Tit For Tat and Talio) 안성조(제주대),전북대학교 법학연구소법학연구법학연구 제43집2015.01351 - 381 (31 pages) KCI등재 UCI(KEPA) : I410-ECN-0101-2016-360-001300103)https://www.dbpia.co.kr/Journal/articleDetail?nodeId=NODE06237208
  3. 우리말샘 - 맞대응, 팃포탯 전략 등
  • (The Evolution of Cooperation

Robert Axelrod and William D. Hamilton ,Science, New Series, Vol. 211, No. 4489. (Mar. 27, 1981), pp. 1390-1396. Stable URL: http://links.jstor.org/sici?sici=0036-8075%2819810327%293%3A211%3A4489%3C1390%3ATEOC%3E2.0.CO%3B2-6 )http://www-personal.umich.edu/~axe/research/Axelrod%20and%20Hamilton%20EC%201981.pdf

  • [참고]협력의 진화 - 이기적 개인의 팃포탯 전략 로버트 액설로드 저 / 이경식 역 | 시스테마 | 2009년 4월 2일
  • The Evolution of Cooperation: Revised Edition Revised Edition by Robert Axelrod (Author), Richard Dawkins (Foreword) ISBN-13: 978-0465005642 ISBN-10: 0465005640