도구적 조건화

도구적 조건화(道具的條件化, Instrumental conditioning)는 행동주의 심리학의 이론으로, 유기체가 어떤 결과들을 얻거나 회피하기 위해서 반응을 만들어 내는 것을 의미한다. 유기체는 모두 그들에게 긍정적인 상황을 가져오거나 부정적인 상황을 회피하도록 하는 방식으로 행동하는 경향이 있다. 유기체는 주어진 자극(S, Stimulus)에 반응(R, Response)하고 이를 통해 얻어진 결과(C, Consequence)를 가지고 다시 반복하거나 회피하는 반응을 보인다. 이러한 행동의 학습을 행동주의적 관점에서 도구적 조건화라고 한다. 손다이크의 효과의 법칙을 기반으로 스키너가 도구적 조건화라는 패러다임으로 제시하였다. 도구적 조건화는 행동의 결과가 반응의 확률에 영향을 미친다는 점에서 조건 자극에 대한 조건 반응의 학습을 보이는 고전적 조건화와 다르다.

조작적 조건화(操作的條件化, Operant conditioning)라고도 한다.

도구적 조건화의 발전 과정[편집]

효과의 법칙의 발견[편집]

효과의 법칙(Law of effect)은 동물이 어떤 반응을 하였을 때 그 반응이 결과적으로 동물에게 즐거움을 초래할 경우 다음의 유사상황에 놓였을 때 그 반응이 일어나기 쉽다는 것이다.

미국 심리학자 에드워드 손다이크는 인간과 동물의 지적 능력의 차이를 연구하는 비교심리학에 관심을 가졌다. 그리고 이를 연구하기 위해 문제상자를 만들었다. 여기서 문제상자에 갇힌 고양이가 해결해야 하는 과제는 상자로부터 빠져나가는 것이었다. 상자는 페달을 누름으로써 빗장이 벗겨져 문이 열리도록 되어 있었다. 상자 안의 이곳저곳을 건드리던 고양이는 우연히 페달을 누르고 빗장을 벗겨 문을 열고 상자를 탈출하게 된다. 이 일을 반복할수록 고양이는 점점 더 빠른 시간 안에 빗장을 내리고 탈출하게 된다. 즉, 고양이는 탈출 직전에 자기가 한 행동과 탈출이라는 결과를 조금씩 연결함으로써 불필요한 행동을 점차 줄이고 올바른 반응에 접근해 갔다. 손다이크는 이러한 문제상자 학습을 '시행착오에 의한 학습'이라고 하였다.

이 실험결과를 통해 손다이크는 효과의 법칙이라는 개념을 제시했다. 결과가 만족스러우면 자극과 반응의 결합이 강화된다고 믿었던 손다이크는, 초기에는 만족스러운 결과는 결합을 강화시키고 혐오적인 결과는 반응을 약화시켜 자극과 반응의 결합도 약화시킨다고 믿었다. 하지만 1930년대 이후에는 만족스럽고 유쾌한 결과만이 결합의 강도에 효과를 미치며, 불쾌하거나 불만족스러운 자극은 결합의 강도에 영향을 미치지 않는다고 자신의 이론을 수정하였다.

스키너 상자와 자유조작 패러다임[편집]

스키너는 손다이크의 생각을 발전시켜 스키너 상자를 고안하였다. 손다이크의 절차가 실험자가 각 시행의 처음과 끝을 한정한 비연속 시행이었던 반면, 스키너는 동물이 원하면 언제든지 해당 장치를 조작하여 결과를 얻을 수 있도록 고안하였다. 스키너는 이를 자유-조작 패러다임이라고 정의하였다.

스키너 상자는 첫 번째 실험장치의 벽은 널빤지로 되어 있으며, 이 벽에는 단추와 이동문이 달려 있다. 비둘기가 이 벽의 단추를 쪼면 이동문이 열리고 음식이 떨어진다. 여기서 비둘기가 단추를 쪼는 반응은 처음에는 우연히 발생하지만, 반응의 결과로써 음식을 받게 되면 마침내 비둘기는 단추 쪼기와 음식을 연합하도록 조건화된다. 두 번째 실험에서 상자는 전류가 통하여 비둘기가 단추를 쪼면 전류가 멈추도록 고안되어 있다.

고전적 조건화와의 비교[편집]

고전적 조건화와 도구적 조건화는 결과로 구별할 수 있다. 반응과 상관없이 결과가 발생한다면 이는 고전적 조건화이다. 반면에 결과가 반응에 달려있다면 이는 도구적 조건화이다. 눈 깜박임 반응의 고전적 조건화를 예로 들면, 소리자극 다음에는 항상 공기분사가 뒤따르고 토끼가 소리자극에 대한 눈 깜박임 반응을 만들어내는 것처럼 보인다. 하지만 공기분사는 토끼의 반응에 무관하게 소리자극 후에 항상 제시된다.

반면에 손다이크의 퍼즐 상자 실험에서 고양이는 나무 상자에 놓여지고, 탈출해서 먹이를 얻기 위해 일련의 반응을 만드는 것을 학습해야 한다. 만약 반응이 만들어지지 않는다면 결과는 일어나지 않는다. 따라서 이 패러다임은 도구적 조건화이다.

도구적 조건화의 구성요소와 과정[편집]

효과의 법칙[편집]

에드워드 손다이크는 도구적 조건화를 효과의 법칙으로 기술하였다. 효과의 법칙은 결과가 자극에 대한 행동에 영향을 미치는 함수 S-R-C 반응으로 요약할 수 있다. 결과는 유기체에게 만족스러운 결과 또는 불만족스러운 결과를 초래할 수 있다. 유기체는 만족스러운 결과에 대하여 반응을 증가시키며, 불만족스러운 결과에 대해서는 반응을 감소시키는 학습을 한다. 만족스러운 결과에 대한 반응 확률의 증가를 강화라고 한다. 불만족스러운 결과가 초래되었을 때 반응 확률이 감소하는 것을 처벌이라고 한다. 스키너 상자의 비둘기가 단추를 쫌으로써 먹이를 얻는 것은 강화라고 볼 수 있다. 이 경우 비둘기는 단추를 쪼는 반응의 확률을 증가시킨다.

자극[편집]

자극은 유기체가 탐지할 수 있는 감각적인 신호이다. 특정한 반응이 특정한 성과로 이어질 것인가의 여부를 신호하는 자극을 변별 자극이라고 한다. 예컨대 스키너 상자의 비둘기의 예시에서 비둘기는 단추를 보고 쪼게 된다. 이때 단추를 쪼기 반응에 대한 변별 자극으로 볼 수 있다. 도구적 조건화가 강하게 학습될 경우 변별 자극은 반응 또는 결과와 강한 연합을 형성한다. 자극과 반응 사이의 강한 연합은 유기체로 하여금 변별 자극에 대하여 학습된 반응을 자동으로 유도한다. 변별 자극에 대한 학습된 반응이 자동적으로 나타나 유기체가 오류를 범하는 것을 습관성 실수라고 한다.

반응[편집]

변별 자극에 대하여 결과를 얻거나 회피하기 위한 유기체의 행동을 반응이라고 한다. 반응은 변별 자극에 대한 유기체의 단순한 행동이 아니라 유기체의 행동이 결과를 얻거나 회피하기 위해 환경에 미치는 영향으로 정의된다. 유기체에게 복잡한 행동을 습득시키기 위해 간단한 반응을 강화하는 것에서 복잡한 반응을 강화하는 순차적인 학습을 조형이라고 한다. 복잡한 순서로 이루어진 행동을 단순한 반응으로 나누어 단계적으로 강화하는 학습을 연쇄라고 한다.

결과[편집]

도구적 조건화에서 유기체의 행동이 환경을 변화시켰을 때 주어지는 효과를 결과라고 한다. 결과는 유기체의 학습을 이끌어내 반응의 확률을 증가시킬 수도, 감소시킬 수도 있다. 해당 행동이 차후에도 일어날 확률을 증가시키는 결과물을 강화자라고 한다.

강화자는 일차 강화자와 이차 강화자로 나눌 수 있다. 일차 강화자는 유기체의 본질적인 욕구를 충족시켜주는 강화자로써 음식, 물, 수면 및 성 등이 이에 해당한다. 이차 강화자는 유기체의 본질적인 욕구를 충족시키지는 않지만 일차 강화자와 교환될 수 있는 강화자이다. 돈은 대표적인 이차 강화자로 볼 수 있다.

행동이 차후 발생 확률을 감소시키는 결과물을 처벌자라고 한다. 일반적으로 혐오자극은 처벌자에 해당한다.

학습에 영향을 주는 결과의 특징[편집]

결과의 제시 또는 제거[편집]

환경에 결과물이 제시되거나 결과물이 제거되는 것은 도구적 조건화의 학습에 영향을 미친다. 결과물이 환경에 제시되는 것을 정적이라고 하며 결과물이 환경에서 제거되는 것을 부적이라고 한다. 결과가 정적인가, 부적인가는 유기체의 반응 확률이 증가하거나 감소함에 상관없이 결과물의 제시만을 기준으로 한다. 정적, 부적은 강화, 처벌과 짝지어 질 수 있다.

정적 강화는 결과물이 환경에 제시될 때 반응의 확률이 증가한다. 예컨대 부모가 아이에게 방청소를 하는 행동에 대해 용돈을 제공하는 것은 정적 강화에 해당한다. 부적 강화는 결과물이 환경에서 제거될 때 반응의 확률이 증가한다. 스키너 상자에서 비둘기는 혐오자극인 전기충격을 제거하기 위해 단추를 쪼는 반응을 증가시킨다. 이때 전기충격을 부적인 강화로 볼 수 있다. 정적 처벌은 결과물이 환경에서 제시될 때 반응의 확률이 감소한다. 벌금이나 운동경기의 파울에 대한 페널티는 대표적인 정적 처벌의 예시이다. 부적 처벌은 결과물이 환경에서 제거될 때 반응의 확률이 감소한다. 과속 운전자가 면허정지를 당하거나 면허를 박탈당하는 것은 부적 처벌의 예시로 볼 수 있다.

타이밍[편집]

학습자는 결과가 산출될 때 결과를 최근의 행동과 연합시키려는 경향이 있다. 따라서 결과가 반응 이후에 제시되는 타이밍은 학습에 영향을 준다. 결과에 대한 반응이 즉각적일수록 가장 좋은 학습을 산출한다. 결과가 반응에 대해 지연될 경우, 학습은 약하게 일어난다.

유기체에 의한 능동적인 지연을 자기조절이라고 하며, 유기체의 의지와 상관없는 수동적인 지연을 타이밍이라고 한다.

강화계획[편집]

결과가 연속적으로 제시될 때 결과를 언제 제시하는가에 대한 방법은 학습에 영향을 미친다. 결과를 연속적으로 제시하여 강화하는 것을 연속적 강화라고 한다. 연속적 강화에 대하여 결과를 반응의 횟수나 간격에 따라 제시하는 것을 강화계획이라고 한다.

강화 계획은 반응 횟수, 반응 간격과 횟수와 간격의 변동성에 따라 네 가지 계획으로 나눌 수 있다. 고정비율강화계획은 가장 단순한 강화계획으로써 유기체가 고정된 반응수를 충족할 때 결과를 제시하는 방법이다. 유기체는 고정된 반응수를 충족하여 강화를 얻은 후에는 잠시 반응을 하지 않는데, 이를 강화 후 휴지라고 한다. 쥐에게 다섯 번 레버를 누를 때마다 먹이를 제공하는 것은 고정비율강화계획에 해당한다. 쥐는 다섯 번 레버를 눌러 먹이가 충족되면 반응을 잠시 쉬는 강화 후 휴지 경향을 보인다.

고정간격강화계획은 유기체가 일정한 시간 뒤에 한 반응을 강화하는 방법이다. 쥐에게 10 초마다 레버를 누를 때 먹이를 제공하는 경우가 고정간격강화계획에 해당한다. 쥐는 먹이를 얻은 직후에는 반응이 없다가 해당 시간간격이 다시 돌아올 때에 맞추어 반응이 증가하는 경향을 보인다. 이는 유기체가 시간간격을 완벽하게 파악할 수 없기 때문에 나타나는 현상이다.

변동비율강화계획은 유기체의 강화를 위한 반응수가 평균을 중심으로 변동한다. 따라서 유기체는 결과가 정확히 언제 제시될지 알지 못한다. 도박은 대표적인 변동비율강화계획의 예시이다. 유기체는 강화 직후에도 꾸준한 반응을 나타내는데, 이는 얼마나 많은 반응 후에 강화가 이루어질지 알 수 없기 때문이다. 또한 변동비율강화계획은 네 가지 강화계획 중 가장 강하게 학습이 발생한다.

변동간격강화계획은 유기체가 평균적으로 일정한 시간이 지난 후에 한 반응을 강화하는 방법이다. 물고기가 정확히 언제 낚일지 알 수 없다는 점에서 낚시는 대표적인 변동간격강화계획으로 볼 수 있다.

선택행동과 동시적 계획[편집]

동시적 계획, 또는 병립 계획은 한 번에 두 개 이상의 강화계획이 사용되는 강화계획이다. 동시적 계획에서 유기체는 여러 선택에 대해 자신의 시간과 노력과 노력을 어떻게 분할하는지에 따라 여러 개의 가능한 반응 중 하나를 만들어내는데, 이를 선택행동이라고 한다. 예를 들면, 두 원판이 있는 곳에 비둘기를 놓아두고 각 원판을 쪼면 먹이를 얻을 수 있는 환경을 제공한다. 각 원판은 가변간격계획으로 한 원판은 약 1분마다 먹이를 제공하고, 다른 원판은 약 2분마다 먹이를 제공하도록 동시적 계획을 구성한다. 이때 비둘기는 두 원판으로부터 최대의 먹이를 제공받기 위해 두 원판에 대해 시간과 노력을 분할한 선택행동을 보여준다.

선택행동의 일치법칙[편집]

선택행동의 일치법칙은 동시적 계획의 강화율을 예측하는 법칙이다.

선택행동의 일치법칙은 생물의 종, 행동, 강화물, 강화계획과 상관없이 다양하게 적용된다. 서로 다른 강화비율, 강화자의 양, 그리고 서로 다른 타이밍을 가져도 적용이 가능하다.

단일 자극에 대한 일반적인 강화계획과 달리, 동시적 계획에서의 강화는 강화계획의 상대적 빈도를 통해 이루어지기 때문에 강화에 대한 예측이 더 힘들다.

Herrnstein은 각각 강화계획 $r_{1}$ 과 $r_{2}$ 에 대응하는 2개의 반응 $B_{1}$ 과 $B_{2}$ 가 있을 때, 각 반응의 상대적 빈도는 강화의 상대적 빈도와 같다고 제안했다. 따라서 2 개의 강화계획 중 어느 것을 선택하는지는 다음의 식으로 나타낼 수 있다.

${\frac {B_{1}}{B_{2}}}={\frac {r_{1}}{r_{2}}}$

고정간격계획이 시행되는 경우에는 두 강화계획 모두에 반응하는 것이 더 합리적이다. 예를 들면 고정간격계획에서 FI 10"과 FI 20"으로 강화되는 경우에 FI 10"의 강화계획을 선택하는 것이 더 FI 20"을 선택하는 것보다 더 많은 강화자를 획득할 수 있다. 하지만 FI 10"의 불응기 동안 FI 20"의 강화계획도 선택하여 강화자를 얻는 것이 FI 10" 단일선택보다 더 효율적인 강화자 획득이 가능하다. Herrnstein은 2 개의 간격계획 중에서 동물이 얼마만큼의 시간을 할애하는지를 예측할 수 있는 공식을 제안하였다.

$B_{A}$ 와 $B_{B}$ 가 반응 A와 반응 B를 나타내고, $r_{A}$ 와 $r_{B}$ 를 각각 반응A와 B에 대한 강화 비율을 나타낸다고 할 때, 예측공식은 다음과 같이 나타낸다.

${\frac {B_{A}}{(B_{A}+B_{B})}}={\frac {r_{A}}{(r_{A}+r_{B})}}$

예를 들면 실험쥐가 두 종류의 레버를 눌러서 먹이를 얻을 수 있을 때, 레버 A는 VI 10"계획으로 강화되고 레버 B는 VI 20"으로 강화된다고 가정할 경우 각 레버에서 1분당 최고 강화물은 레버A가 6개, 레버B가 3개이다. 따라서 총 강화물의 비율을 확인해볼 때 9개중 6개인 67%가 VI 10"계획으로 강화되고, 9개중 3개인 33%가 VI 20"으로 강화된다.

프리맥의 원리[편집]

프리맥의 원리는 어떤 행동의 강화를 결정하는 것은 행동의 상대적 가치이며, 높은 빈도를 보여주는 행동을 할 기회가 낮은 빈도를 보여주는 행동을 강화한다는 이론이다.

실험쥐에게 레버 누르기를 먹이로 강화하는 경우, 강화물은 먹이로 간주된다. 그러나 프리맥의 원리에서는 먹이를 먹는 행위 자체가 강화자가 될 수 있다. 예를 들면, 쳇바퀴 돌리기를 물 마시기보다 더 선호하는 쥐에게 쳇바퀴 돌리기를 통제하여 물을 마셔야 쳇바퀴 돌리기가 허용된다는 수반성을 학습시켰다. 이 조건에서 쥐들은 쳇바퀴를 돌리기 위해 물을 마셔야 하므로 물을 마시는 행동이 증가하였다. 즉 쥐들이 더 선호하는 쳇바퀴 돌리기가 덜 선호하는 물 마시기 행동을 강화하였다.

프리맥은 이 원리가 사람에게도 적용됨을 확인하였다. 초등학교 1 학년생에게 핀볼 게임을 하거나 사탕을 먹는 행동을 할 기회를 주었다. 그리고 핀볼 게임을 선호하는 학생은 사탕을 먹는 행동을 한 뒤 핀볼 게임을 할 수 있도록, 사탕을 먹는 행동을 선호하는 학생은 핀볼 게임을 한 뒤 사탕을 먹을 수 있는 수반성을 학습시켰을 때, 낮은 빈도를 보인 행동이 강화되었다. 프리맥 원리의 문제점은 피험자가 빈도가 낮은 행동을 수행하는 기회를 박탈당했을 때에도 빈도가 높은 행동이 강화되는 것을 설명할 수 없다는 점이다.

참고 문헌[편집]

Catania, A. C. (1966), Operant behavior: Areas of research and application. New York: Appleton0Century-Crofts.
DeVilliers, P. A.(1977), Choice in concurrent schedules and a quantitative formulation of the law of effect, Handbook of operant behavior.
Herrnstein, R. J. (1961), relative and absolute strengthof response as a function of frequency of reinforcement. Journal of the Experimental *Analysis of Behavior, 4, pp.267-272
Herrnstein, R. J. (1970), On the law of effect, Journal of the Experimental Analysis of Behavior, 13, pp.243-266
Jeanne Ellis Ormrod, 김인규, 여태철, 윤경희 역, 『인간의 학습』, 시그마프레스, 2009.09.01.
Mark A. Gluck, Eduardo Mercado, CATHERINE E. MYERS, 최준식, 김현택, 신맹식 역, 『학습과 기억』, 시그마프레스, 2011.03.02
Paul Chance, 김문수․박소현(옮긴이), 『학습과 행동』, 시그마프레스, 2010
Premack, D. (1959), Toward empirical behavioral laws: I. Positive reinforcement, Psychological Review, 66, pp.219-233
Premack, D. (1962), Reversibility of the reinforcement relation, Science, 136, pp.255-257
Premack, D. (1965), Reinforcement theory, Nebraska Symposium on Motivation, 13