교육 평가

교육 평가(敎育評價)는 인간 행동에 관한 증거를 수집하는 과정을 지칭한다.^[1]

교육 평가의 의미[편집]

교육평가는 교육과 관련된 평가로, 교육의 목적이나 이념을 규준으로 하여, 일정한 교육계획이나 시설 및 지도로 얻은 성과를 나타내는 것이다. 평가의 근거로서 가장 중요한 것은 학생의 신상에 일어나는 변화, 그리고 의식과 행동의 변화이다. 이러한 학생의 행동의 변화를 관찰·포착하여 평가자의 평가규준(評價規準)에 비추어 해석하고, 이를 금후의 행동에 피드백(feedback)하는 것이 교육평가이다.

교육평가에서는 관찰된 교육과 평가자의 가치규준의 2가지 요소가 포함된다. 이들 중, 교육의 상태를 관찰하고 평가의 근거를 만들어내는 일이 교육측정과 관계가 있다. 여기에서 평가규준에 비추어서 의미를 추출하는 일이 곧 협의적인 교육평가이며, 절대평가나 상대평가, 또는, 개인내평가 등은 '협의의 평가'의 한 예이다. 즉, 교육평가는, 관찰이나 측정에 의해서 평가 자료를 모으고 그 자료의 해석하는 것까지 포함시킨 넓은 의미의 평가로부터, 자료의 해석부분만을 말하는 좁은 의미의 평가로 구별된다.^[2]

관점[편집]

교육평가의 관점은 크게 측정관, 총평관, 평가관 등 세 가지가 있다.

측정관[편집]

측정(測定, measurement)은 일정한 측정의 기준을 유지하여 교육과 관련된 현상의 수량적 자료를 구하는 조작을 말한다. 관찰법과 같은 주관적인 방법에 의한 것은 제외하고 비교적 엄격한 객관적 자료를 구한다. 신장·체중·중량 등은 자·저울 및 스톱워치 등을 사용하여 측정하듯, 지식·사상·사고력 같은 것은 테스트, 특히 표준화검사를 써서 수량적 자료를 구하는 것이다.

측정의 단위는 센티미터(cm)나 그램(g)이 되지만, 지식검사나 학력표준 검사의 편차치척도에서는 1/10S·D의 값을 측정단위로 삼고 있다. 길이나 무게의 측정에 있어서는 영점이 기점인데, 편차치척도에 의한 측정에서는 －5S·D의 점을 측정의 기점으로 여긴다. 학력이나 성격 등에 관한 교육측정은 물리학적 측정만큼 정밀하게는 할 수 없으나, 가능한 한도내에서 측정에 의한 자료를 사용함으로써 객관적·적극적인 평가를 하려는 발상이다. 이 교육평가는 19세기 말엽부터 금세기 초엽에 걸친, 이른바 교육측정운동에서 비롯되었다.^[3]

총평관[편집]

총평(總評, assessment) 또는 사정(査定)은 개인의 행동특성을 특별한 환경·특별한 과업·준거상황(準據狀況)에 관련시켜 판정하려는 것이다. 이 용어는 머레이(William H. Murray)가 1938년에 지은 《성격의 탐구》라는 책에서 사용했던 것이 처음이며, 그 뒤 OSS 총평(1948)에서 사용했던 것이 이 용어가 널리 알려지게 된 주된 이유이다.

총평의 핵심은 개인과 환경의 상호작용에 관심을 갖는다는 점이다. 머레이는 인간의 행동특성을 평가하기 위해 인간이 갖고 있는 욕구체제(欲求體制)와 인간을 둘러싸고 있는 환경이 주는 압력체제(壓力體制)로 나누어 그 사이의 역동관계를 분석했는데, 이와 같은 욕구-압력체제의 특징은 곧 인간과 환경과의 상호작용을 분석하려는 것이다. 마찬가지로 역할이론(role theory)도 환경이 요구하는 역할과 개인이 이 환경 속에서 수행해야 할 역할과의 상호관계를 효능적으로 분석·진단하는 데 있다.

따라서 총평의 분석방법은 개인이 달성해야 할 어떤 준거의 분석과 이 개인이 생활하고 학습하고, 작업해야 할 환경이 강요하는 심리적 압력, 요구하는 역할을 결정할 뿐만 아니라 그 사이에 존재하는 계층적 질서, 일관성 및 갈등을 분석·결정하는 것이 중요한 목표가 된다.

총평에서 개인에 관한 정보의 수집은 양적·질적 형태의 다양한 형태가 되며, 어떤 것은 고도로 구조화된 객관식 검사형태가 될 수 있는가 하면 어떤 것은 비구조화된 투사적 방법(projective technique)도 쓰일 수 있다. 흔히 총평에서 사용하는 증거수집의 방법으로 객관화된 검사 이외에 자기보고·관찰·면접·장면검사·역할연출·자유연상법 등이 쓰인다.

총평의 용도는 흔히 예언·실험·분류에 쓰인다. 지금까지 총평에서는 주로 환경의 특성, 준거의 특성에 관한 분석에 치중해 왔다.^[4]

평가관[편집]

평가(evaluation)는 특수한 경험에 의해 학생에게 일어난 변화의 정도를 결정하는 데 관심이 있다. 평가는 예언·실험·교수 프로그램의 효과 판정에 쓰이며 사회가치에 비추어 본 교육목표의 달성도를 진단한다.

평가·측정·총평은 서로 그 관점이 다르기 때문에 구별되기도 하지만 교육실제에서는 서로 보완적인 관계에서 차용되어야 한다. 측정에서는 규준집단에 비추어 본 개인의 양적(量的) 기술에 강조점을 두나 평가는 사회치(교육목적)에 비춰본 양적 및 질적 기술을 강조하고, 총평에서는 효능적(效能的) 기능 혹은 전체 적합도에 비추어 본 질적 기술을 강조한다. 또 측정에서는 객관도와 신뢰도를 중시하나 평가에서는 객관도와 신뢰도는 부차적인 문제이고 내용의 타당도를 중시한다. 총평에서는 신뢰도와 객관도도 고려하나 구인타당도(構因妥當度)를 중시한다. 또 검사의 주안점을 측정은 개인의 정적(靜的) 행동을 횡단적 방법으로 하나 평가에서는 개인의 변화에 주안을 두되 종단적 방법으로 연구한다. 총평에서는 개인과 환경과의 역동성에 주안을 두되 상황에 비춰 종단적으로 연구한다.^[5]

역사[편집]

면접·구두시험 혹은 필기시험에 의해서 교육효과나 사람의 능력·학력을 평가하는 필요성은 예부터 존재하였다. 대표적인 예로, 1천여 년 전, 고대 한국(고조선)에서 시작된 과거제를 들 수 있다.

서양에서는 19세기 후반부터 과거의 평가방법이 주관적이어서 신뢰성이 희박하다는 반성이 일어나, 이후로 이를 객관화하기 위한 연구가 시도되었다. 1864년에는 영국의 피셔(G. Fisher)가 척도부(尺度簿)라는 것을 연구하였고, 1894년에는 미국의 라이스(J. M. Rice)가 영어의 스펠링에 관한 객관 테스트를 만들어 커리큘럼을 근대화시켰다.

20세기에 들어서 교육의 보급과 함께 커리큘럼 제작, 학생의 편성, 교육자료 등의 여러 과제와, 심리학의 진보 등을 배경으로 더욱 객관적인 측정의 필요성이 높아졌으며, 미국의 손다이크(E. L. Thorndike)가 '측정 운동'의 대표자였다. 교육의 측정운동은 이른바 표준화된 테스트를 요구하였고, 이로부터 지도효과를 되도록 객관적으로 측정하려 하였다. 스토어(C. W. Store)가 1908년에 만든 산수에 관한 표준화검사를 계기로 하여 교과에 관한 표준화검사가 속속 제작 공표되었다.

교육효과의 객관적 측정은 표준화검사에 의해서만 가능한 것은 아니며, 교사가 자작한 객관적 테스트로도 가능했다. 이는 적어도 그때까지의 논문체 테스트에 비하면 그 채점의 객관성과 여러 문제를 제시할 수 있는 점에서는 훨씬 뛰어났다. 이렇게 이른바 객관 테스트가 고안되었고, 그 보급·선전이 이루어졌다. 이에 관해서는 메콜(W. A. Mecall)의 공적이 높이 평가된다.

지능측정에 있어서도 1905년 프랑스의 비네(A. Binet)에 의해 처음으로 지능검사가 고안되었다. 그 후, 미국에서 지능검사는 다양한 발전을 이루었다. 성격분야에 있어서도 측정은 시도되었는데 퍼널드(G. G. Fernald)의 시도가 그 한 예이다.

1930년을 전후하여 교육측정운동에도 하나의 반성으로부터 새로운 교육평가의 사상이 대두하였다. 교육측정이 지난 날의 주관적 평가를 배격하고, 객관적인 평가를 위해 수량적인 자료를 구하려 하였던 점에서는 큰 발전이 있었으나, 다른 면에서 볼 때, 교육이 목적이나 가치를 추구하는 데만 그 의의가 있다는 인식이 결여되고, 오직 수량적 자료를 구하는 일에만 중점을 두었다는 느낌이 있었다. 교육의 목표에서 학생의 가치관·태도·감상 등과 같은 사항들을 객관적 측정이 용이한 목표와 동일하게 중요시하여 평가해야 함에도 불구하고, 측정하기가 어렵다는 이유로 무시하는 경향이 있었다. 또한, 1920년경이 되어 그 체제를 정비한 새로운 심리학의 탄생과 함께 발전한 신교육운동이 객관적 측정운동에 새로운 전기(轉機)를 마련하였다. 즉, 새로운 심리학, 새로운 교육의 탄생은 단순히 인간을 지적 존재로 파악하지 않고, 지적·사회적·적극적·신체적 종합체로서 파악하여 그 전체의 교육이 위치를 잡기 시작했다. 이러한 입장에서 보아도 수량적인 측정만으로는 문제를 해결할 수 없게 되어, 측정에서 평가로 기본구상을 전환하게 되었으며, 용어도 '교육측정'보다 '교육평가'라는 말이 더욱 적절하다는 생각을 갖게 되었다.^[6]

유형[편집]

진단평가[편집]

진단평가(診斷評價, diagnostic evaluation)는 형성평가·총합평가와 마찬가지로 학생행동의 어느 측면에 관해 가치화(價値化)·의사결정·기술(記述)·분류를 목적으로 한다. 그러나 첫째, 교수가 시작되는 시초에 학생을 적절히 배치하려는 것, 둘째, 학생이 학습에서 갖는 결함의 진단이라는 두 가지 목적이 진단평가를 다른 유형의 평가와 구별시키는 주된 특징이다.

교수가 시작되기 이전에 실시하는 진단평가의 경우는 학생이 학습을 시작하기 전에 그가 어떤 출발점에 놓여 있는가를 결정한다. 이 목적을 위한 진단은 대개 세 가지 형태로 나누어 볼 수 있다. 첫째로는, 계획된 학습단위의 목표를 성취하는 데 선행조건이 된다고 추측되는 시발행동 및 기능을 학생이 소유하고 있는가 없는가를 결정하는 것이며 둘째는, 주어진 학습단위 혹은 과정의 목표를 학생이 이미 통달했는지, 그럼으로써 보다 높은 수준의 학습 프로그램을 제공해야 하는지 여부를 결정하려는 것이며, 셋째는, 학생이 지니고 있는 어떤 특성, 예컨대 흥미·성격·직업·적성·기능·선행학습 정도 등에 비추어 분류하고, 그에 따라 적절한 교수전략이나 교수방법의 대안을 제공하려는 것의 세 가지로 요약할 수 있다.

진단평가의 둘째 형태는 교수가 진행 중일 때 주는 것으로, 이 평가의 주된 기능을 학생이 학습에서 나타내는 계속적인 결함의 원인 및 그 밑에 놓여 있는 환경을 결정하려는 것이다. 형성평가도 물론 학습 도중의 학습결함을 진단하는 기능을 갖고 있다. 그러나 형성평가는 학습목표에 관련해서 교수방법 및 교재 자체의 개선에 의해 학습을 개선·증진시키려는 것인 데 반해, 진단평가는 이 같은 개선으로 교정되지 않는 신체적·정서적·문화적 환경 결함을 찾으려는 데 있다.

대한민국에서 학생집단을 여러 가지 형태의 동질집단으로 분류하고 그에 따라 적절한 교수방법을 투입하고 있는 현상을 볼 수 있다. 이같은 배치기능에 관련해서 진단평가는 중요한 역할을 한다.^[7]

형성평가[편집]

형성평가(形成評價, formative evaluation)란 학습 및 교수가 진행되고 있는 유동적 상태에 있는 도중에 학생에게 피드백을 주고, 교육과정을 개선하며, 수업방법을 개선하기 위해 실시하는 평가이다. 이 같은 형성평가는 학생의 학습을 증진시키기 위한 목적뿐 아니라, 그에 뒤이어 교수방법을 개선하고 교육과정에 어떤 개선을 초래하기 위해 실시하는 평가이다. 또한 학습이 끝난 다음에 실시하는 총합평가와는 달리 학습이 형성되고 있는 시기에 실시하는 평가이기 때문에 학습증진의 극대화가 이뤄지도록 해야 하는 것이 목적이다. 이것은 곧 형성평가를 통하여 이 같은 목적을 달성할 수 있는 증거를 붙잡아야 하고, 평가 때문에 학생이나 교사에게 부정적인 효과를 미치지 않도록 통제하지 않으면 안 된다. 형성평가의 두드러진 특징은 다음과 같다.

첫째, 형성평가는 교수·학습이 아직 유동적인 시기에 교과·교수·학습의 개선을 위해 실시하는 평가이다. 형성평가의 목적은 점수를 매기거나, 학생의 성적을 판정하려거나, 교사의 능력을 평가하려는 것이 목적이 아니라, 학생의 학습을 증진시키기 위해 무엇을 개선해야 할 것인가를 찾으려는 평가이다.

둘째, 형성평가는 교수·학습과정을 제일차적으로 이끌어 가고 개선해 가야 할 교사가 제작하는 것이 원칙이다. 총합평가나 진단평가는 평가전문가나 측정전문가가 제작할 수도 있고, 또 때로는 평가이론이나 기술에 해박한 지식과 경험을 가진 전문가가 제작한 평가도구가 더 유용한 정보를 제공해 줄 수도 있다. 그러나 형성평가는 지금 진행 중인 프로그램에 관해 어떤 정보를 얻으려는 것이기 때문에 가르치는 교사 자신이 이것을 제작하는 것이 도리어 합당하다.

셋째, 교육목표 혹은 교수목표를 기초로 평가를 한다는 것이 형성평가의 중요한 특징의 하나이다. 즉 목표지향평가(criterion-referred evaluation)를 한다는 것이다. 교육과정이건, 교과목이건, 교과서이건, 그것은 학생이 어떤 목표를 달성하도록 짜여진 경험의 조직체이다. 이같이 설정해 놓은 목표를 학습상황에서 성취하고 있느냐 없느냐를 결정하는 일이 교사의 역할이다. 목표가 결정되기 전에 교육과정이 있을 수 없으며, 목표도 모르는 채 수업을 할 수는 없는 일이다.

형성평가의 중요한 목적은 이같이 설정된 목표를 학생이 수긍할 만한 정도로 성취하고 있느냐를 결정하는 일이며, 성취하지 못했을 때 어디에 개선을 가져와야 할 것인가를 결정하는 정보를 제공하려는 데 있다.^[8]

총합평가[편집]

총합평가(總合評價, summative evaluation)는 한 학습과제·단위·교과가 끝난 다음이나 기말(期末)·연말(年末)에 총합적으로 교육목표의 달성 정도를 평가하는 것이다. 총합평가와 형성평가의 차이점은 다음과 같다. 첫째, 평가의 목적이 다르다. 총합평가는 전체 교과목이나 혹은 그것의 중요한 부분에 걸친 부분적인 성과가 어느 정도 달성되었는지의 정도를 총평하는 것이 목적이다. 즉 형성평가가 학습의 형성에 목적이 있다면, 총합평가는 행정적 의사결정에 그 목적이 있다.

둘째, 총합평가는 대개 한 한기가 끝날 때, 1회 혹은 필요에 따라서 두 번 정도 과하는 것이 보통이다. 때에 따라서는 1년에 한 번 과하는 경우도 있다. 이에 비해 형성평가는 교과가 포괄하고 있는 학습과제에 적어도 한두 번씩 실시한다. 대개의 경우 학습이 시작되기 전에 진단평가를 하고, 이를 기초로 예비학습이 끝나면 본학습에 들어가서 형성평가를 수시로 과한다. 총합평가는 학습이 끝난 다음에 과하는 빈도가 드문, 길이가 긴 검사라고 할 수 있다.^[9]

같이 보기[편집]

위키미디어 공용에 관련된
미디어 분류가 있습니다.

교육 평가

총괄평가

각주[편집]

참고 자료[편집]

이 문서에는 다음커뮤니케이션(현 카카오)에서 GFDL 또는 CC-SA 라이선스로 배포한 글로벌 세계대백과사전의 내용을 기초로 작성된 글이 포함되어 있습니다.

[1] 黃禎奎.《글로벌 세계대백과사전》, 〈교육의 측정과 평가［서설］〉

[2] 李鍾鶴.《글로벌 세계대백과사전》, 〈교육평가의 의의〉

[3] 李鍾鶴.《글로벌 세계대백과사전》, 〈교육측정의 의의〉

[4] 李鍾鶴.《글로벌 세계대백과사전》, 〈총평의 의의〉

[5] 李鍾鶴.《글로벌 세계대백과사전》, 〈측정·평가·총평의 관계〉

[6] 李鍾鶴.《글로벌 세계대백과사전》, 〈교육평가의 역사〉

[7] 朴炯植.《글로벌 세계대백과사전》, 〈진단평가〉

[8] 朴炯植.《글로벌 세계대백과사전》, 〈형성평가〉

[9] 朴炯植.《글로벌 세계대백과사전》, 〈총합평가〉

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]