일반형 게임

위키백과, 우리 모두의 백과사전.
(보수행렬에서 넘어옴)

일반형 게임 또는 보수 행렬(Normal-form game 또는 pay-off matrix)이란, 게임 이론에 등장하는 게임의 종류 중 하나로, 전략형 게임이라고도 한다. 전개형 게임과 달리 그래프 모양을 취하지 않고, 행렬의 형태를 취한다. 이 형태는 우월 전략내쉬 균형을 찾는데 유용하나, 전개형 게임에 비해 몇 가지 정보를 표시할 수 없다는 단점이 있다. 일반형 게임은 각 경기자의 모든 선택 가능한 전략과 보수를 표현할 수 있고 특히 행렬로 표현할 수 있으며 이때 이러한 행렬을 '보수행렬'(payoff matrix)이라고 한다.

예시[편집]

일반형 게임의 예
경기자 2의 전략 L 경기자 2의 전략 R
경기자 1의 전략 T 4, 3 −1, −1
경기자 1의 전략 B 0, 0 3, 4

오른쪽의 표는 일반형 게임의 예시이다. 각 경기자는 동시에 행동을 하며, 각 경기자의 행동의 결과에 따라 보수가 결정된다. 예를 들어 경기자 1이 T의 전략을 선택하고, 경기자 2가 L 전략을 선택한다면, 경기자 1은 4, 경기자 2는 3의 보수를 받는다. 각 칸의 보수 (a, b)에서 a는 경기자 1, b는 경기자 2의 보수를 뜻한다.

다른 표현 방법[편집]

지불보수(payoff)가 각각의 경기자의 행동에 좌우되지 않는 대칭적 게임의 경우, 보수는 한 가지로만 표현된다. 이것은 '열'에 위치한 경기자(2인 게임의 경우, 대개 경기자 1)의 보수이다. 예를 들어 아래에 나온 두 개의 보수 행렬(payoff matrix)은 같은 게임을 나타낸다.

두 경기자의 보수를 표현한 경우
사슴 토끼
사슴 3, 3 0, 2
토끼 2, 0 2, 2
열에 위치한 경기자의 보수만 표시한 경우
사슴 토끼
사슴 3 0
토끼 2 2

일반형 게임의 용례[편집]

우월전략이 존재할 때[편집]

죄수의 딜레마
협조 비협조
협조 −1, −1 −5, 0
비협조 0, −5 −2, −2

보수행렬의 형태는 '우월전략의 단계적 소거'를 용이하게 해준다. 예를 들어 오른 쪽에 나온 죄수의 딜레마에서 각 죄수들은 '협조' 또는 '비협조'를 할 수 있다. 만약 한 죄수가 '비협조'를 하면, 그는 금세 풀려나올 수 있으며, 나머지 죄수는 계속 감옥에 갇히게 된다. 그러나 만약 둘 다 '비협조'를 선택하면, 둘 다 '협조'했을 때보다 더 오랜 시간 감옥에 있어야 한다.

어떤 죄수가 전략을 결정할 때, 그는 어느 쪽을 골랐을 때의 보수가 더 좋은지를 본 뒤에 결정하게 된다. 죄수 1(열에 위치한 전략을 선택할 죄수)이 '협조'를 염두에 두고 있다고 생각해 보자. 죄수 2의 전략에 따라 죄수 1의 보수가 달라진다. 만약 죄수 2가 '협조'를 선택할 경우, 그의 보수는 -1으로, 죄수 1이 '비협조'를 했을 때 받게 될 0의 보수보다 작다. 죄수 2가 '비협조'를 선택했을 때도 마찬가지다. 즉, 죄수 1은 죄수 2의 전략과 관계없이 '비협조'를 선택하는 것이 더 낫다는 결론에 다다른다. 대칭적 게임이므로, 죄수 2도 같은 과정을 통해 '비협조'가 더 낫다는 결론에 도달하게 된다.

따라서 이 게임의 내쉬 균형은 (비협조, 비협조)가 된다.

수학적 일반화[편집]

일반형 게임의 수학적 일반화는 다음과 같다.

  • 유한한 수의 경기자의 집합 'P'는, P = {1, 2, ..., m}로 표시된다.
  • P에 속하는 경기자 k는 유한한 개수의 순수 전략(순수 ESS)을 가지고 있다. 즉, k의 순수 전략의 집합은 다음과 같다.

'순수 전략 프로필'은 경기자들의 전략의 모음으로, m-튜플이다.

이는 곧,

을 뜻한다.


'보수 함수'는 다음과 같다.

게임의 결과 한 경기자의 의도된 판단에 따른 보상이 주어진다. 게임이 끝날 때 P에 속하는 모든 경기자에 대한 각각의 보수가 결정된다.

  • 정의: '일반형 게임'은 다음과 같은 구조를 가진다.

여기서 P는 경기자의 집합이다.

S는 각각의 경기자에 대한 m-튜플의 순수 전략 집합이다.

F는 m-튜플의 보수 함수이다.

같이 보기[편집]