크론바흐 알파 계수

위키백과, 우리 모두의 백과사전.
둘러보기로 가기 검색하러 가기

타우동등신뢰도(tau-equivalent reliability, )[1]크론바흐 알파(Cronbach's alpha) 등의 이름으로 불리는 단일 실행 신뢰도(즉, 고정된 시간에서 여러 항목에 대한 응답자의 신뢰도[2]) 계수이다. 는 단일 실행 신뢰도 계수들 중에서 가장 유명하고 흔히 사용되지만[1], 최근 연구들은 이 계수를 무조건적으로 사용하지 않는 것을 권장한다[3][4][5][6][7][8]. 의 대안으로 흔히 언급되는 것은 구조방정식 기반 신뢰도 계수(예: 동류신뢰도)이다[1][5][6][7].

공식과 계산[편집]

체계적 공식과 관행적 공식[편집]

개의 항목으로 구성된 검사에서 번째 항목의 (관찰) 점수를 , 그 분산을 라고 하자. 각 항목 점수의 합을 , 그 분산을 라고 하자. 간의 공분산을 라고 하자. 는 항목 분산의 합과 항목간 공분산의 합으로 구성된다. 즉, . 항목간 공분산의 평균을 이라고 하자. 즉, 이다. 의 공식은 여러 가지로 표현할 수 있다.

우선, 이해하기 쉬운 "체계적 공식"[1]은 다음과 같다.

전통적으로 사용되어 온 관행적 공식은 다음과 같다.

계산 예[편집]

올바른 자료에 적용한 경우[편집]

타우동등의 조건을 만족하는 다음의 자료에 를 적용해 보자.

Observed covariance matrix

이므로, 이다.

올바르지 않은 자료에 적용한 경우[편집]

타우동등의 조건을 만족하지 않는 다음의 자료에 를 적용해 보자.

Observed covariance matrix

이고 이므로, 이다.

같은 자료에 동류 신뢰도를 적용한 결과와 비교할 수 있다.

타우동등신뢰도의 전제조건[편집]

를 신뢰도 계수로 사용하기 위해서는 자료가 다음의 조건을 만족해야 한다.

1) 단일차원이다.

2) (본질적으로) 타우동등하다.

단일차원 평행, 타우동등, 동류 조건[편집]

평행 조건[편집]

평행한 (parallel) 자료는 모집단 수준에서 모든 항목간 공분산(공분산 행렬의 비대각 요소)이 같고, 모든 분산(공분산 행렬의 대각 요소)이 같다. 예를 들어, 다음의 자료는 평행 조건을 충족한다. 평행한 자료에서, 공분산 행렬 대신 상관관계 행렬을 사용하더라도 정보의 손실이 없다. 모든 평행한 자료는 타우동등하지만, 그 역은 성립하지 않는다. 즉, 세 조건 중 평행 조건이 가장 충족되기 어렵다.

Observed covariance matrix

타우동등 조건[편집]

타우동등 측정 모형은 동류 측정 모형에서 모든 요인 적재량이 같은 특수한 경우이다. 즉,

타우동등한 (tau-equivalent) 자료는 모집단 수준에서 모든 공분산이 같아야 한다. 분산은 다를 수 있다. 예를 들어, 다음의 자료는 타우동등 조건을 충족한다. 타우동등한 자료에서 모든 항목은 동일한 변별력 혹은 중요성을 갖는다. 예를 들어, 아래의 자료에서 모든 항목은 동일한 변별력을 갖는다. 모든 타우동등한 자료는 동류이지만, 그 역은 성립하지 않는다.

Observed covariance matrix

동류 조건[편집]

동류 측정 모형

동류 (congeneric) 자료는 모집단 수준에서 모든 공분산과 분산이 다를 수 있다. 단, 단일차원이어야 한다. 예를 들어, 다음의 자료는 동류 조건을 충족한다. 동류 자료에서 모든 항목은 서로 다른 변별력 혹은 중요성을 가질 수 있다. 예를 들어, 아래의 자료에서 2번째 항목은 1번째 항목보다 4배 더 큰 변별력을 갖는다.

Observed covariance matrix

다른 신뢰도 계수들과의 관계[편집]

신뢰도 계수의 체계적 분류[편집]

수많은 신뢰도계수들이 존재한다. 그 중에서도 서로 관련이 깊고 자주 사용되는 신뢰도 계수들의 관행적 명칭을 정리하면 다음과 같다[1]. 행의 이름과 열의 이름을 조합하면 해당 신뢰도 계수의 전제조건을 알 수 있다. 예를 들어, 크론바흐 알파와 거트먼의 은 단일차원 및 타우동등의 조건에서 유도되는 신뢰도 계수이다.

신뢰도 계수의 관행적 명칭
반분 단일차원 다차원
평행 스피어만-브라운 공식 표준화된 알파 (관행적 명칭 없음)
타우동등 플래너건 공식
룰론 공식
플래너건-룰론 공식
거트먼의
크론바흐 알파
알파 계수
거트먼의
KR-20
호잇 신뢰도
계층화된 알파
동류 앙고프-펠트 계수
Raju(1970) 계수
복합신뢰도
구성신뢰도
동류신뢰도
오메가
단일차원 오메가
Raju(1977) 계수
고전적 동류 신뢰도 계수
오메가
오메가 토탈
맥도날드 오메가
다차원 오메가

관행적 명칭은 무질서하고 비체계적이다. 마치 사용자들에게 최대한의 혼동과 오해를 유발하기 위한 목적으로 설계된 것처럼 보인다. 관행적 명칭은 각 계수의 성격에 대해 아무런 정보도 주지 않거나, 혹은 부정확한 정보(예: 표준화된 알파)를 준다. 관행적 명칭은 비일관적이다. 어떤 것은 공식이고, 어떤 것은 계수이다. 어떤 것은 최초 개발자의 이름이 붙고, 어떤 것은 최초 개발자도 아닌 사람의 이름이 붙고, 다른 것은 어떤 사람의 이름도 붙지 않는다. 같은 공식이 서로 다른 이름으로 지칭되는가 하면, 서로 다른 공식이 같은 이름(예: 여러 알파 및 오메가)으로 지칭된다. 이들 신뢰도 계수에 대해 제안된 체계적 명칭과 그 표기는 다음과 같다[1].

신뢰도 계수의 체계적 명칭
반분 단일차원 다차원
평행 반분 평행 신뢰도() 평행 신뢰도() 다차원 평행 신뢰도 ()
타우동등 반분 타우동등 신뢰도() 타우동등 신뢰도() 다차원 타우동등 신뢰도()
동류 반분 동류 신뢰도() 동류 신뢰도() Bifactor model
Bifactor reliability()
Second-order factor model
Second-order factor reliability()
Correlated factor model
Correlated factor reliability()

평행신뢰도와의 관계[편집]

타우동등 신뢰도()는 흔히 크론바흐 알파 혹은 알파 계수로, 평행신뢰도()는 흔히 표준화된 알파라는 이름으로 지칭된다. 알파라는 이름을 공유하고 있어 가 같은 신뢰도 계수라고 오해하는 경우가 흔하다. 를 표준화된 알파로 지칭하는 것은 역사적 근거가 없다. 크론바흐[9]는 이 계수를 알파라고 지칭하지 않았고, 이 계수의 사용을 권장하지도 않았다. 는 1970년대 이전에는 거의 사용되지 않았다. SPSS가 를 표준화된 알파라는 이름으로 제공하기 시작하면서 이 계수가 가끔씩 사용되기 시작하였다[10]. 보다 더 엄격한 조건인 평행 조건을 요구하며, 이 계수의 사용은 권장되지 않는다.

반분 타우동등 신뢰도와의 관계[편집]

모든 가능한 반분에 대해 반분 타우동등 신뢰도()를 계산한다고 가정하자. 그 평균값()은 타우동등 신뢰도()와 같다. 크론바흐[9]가 증명한 이 관계는 의 직관적 의미를 설명하기 위해 흔히 사용된다. 그러나 이러한 해석은 의 과소추정 성향, 즉 타우동등하지 않은 자료에 가 적용될 경우 신뢰도보다 작다는 수학적 사실을 간과한 것이다. 의 과소추정을 감안하면 평균값이 아니라 최댓값()이 신뢰도에 더 가깝다[6]. 의 잠재적 유용성은 크론바흐의 증명 이전에 거트먼[11]에 의해 이미 언급된 적이 있다. 한 비교연구[12]에 의하면 는 조사에 포함된 신뢰도 계수중에서 가장 정확하다. 르벨[13]의 최솟값()을 베타 계수로 지칭하며, 베타가 다른 신뢰도 계수는 보여주지 못하는 보완적 정보를 제시한다고 추천한다[5].

동류 신뢰도와의 관계[편집]

단일차원과 타우동등 조건을 모두 만족하는 자료에 적용될 경우, 와 동류신뢰도()의 값은 같다.

단일차원은 만족하지만, 타우동등 조건을 만족하지 않는 자료에 를 적용하면, 보다 작다[6].

를 모두 보고한 연구를 대상으로 조사한 결과, 보다 평균적으로 .02 작다[14].

다음으로 흔히 사용되는 신뢰도 계수이다. 사용자들은 를 대신해서 를 사용하기 보다는, 둘 다 제시하는 경향이 있다[1].

다차원 신뢰도 계수와의 관계[편집]

를 다차원 자료에 적용하면, 그 값은 다차원 신뢰도 계수보다는 작고, 보다는 크다.[1]

역사[10][편집]

쿠더-리처드슨 (1937) 이전[편집]

쿠더-리처드슨[15] 이전에는 반분 평행 신뢰도()[16][17]만이 알려져 있었다. 따라서 모든 항목들을 임의의 반분(예: 짝-홀, 앞-뒤)으로 나눈 후, 를 적용하여 신뢰도 추정치를 얻었다. 이 방법의 문제는 어떤 반분이 선택되느냐에 따라 신뢰도 추정치가 달라진다는 것이었다. 이에 대한 비판이 제기되었지만, 20여 년 동안 근본적인 해결책을 찾지 못하였다[18].

쿠더-리처드슨 (1937)의 연구[편집]

쿠더-리처드슨 (1937)[15]은 기존의 의 문제점을 극복할 수 있는 여러 개의 신뢰도 계수를 제안하였다. 그들은 신뢰도 계수에 별도의 이름을 붙이지 않았다. 그들이 발표한 여러 공식들 중 식 20이 이다. 이 공식은 흔히 쿠더-리처드슨 식 20, 혹은 KR-20으로 지칭된다. 쿠더-리처드슨 (1937)은 관찰 점수가 이분적(예: 정답/오답)인 경우에 대해 다루었으므로, KR-20은 의 관행적 공식과 약간 다르게 표현되었다. 를 항목 의 정답 비율, 를 항목 의 오답 비율이라고 하자 (). KR-20의 공식은 다음과 같다.

이므로 KR-20은 와 동일한 의미이다.

쿠더-리처드슨 (1937)과 크론바흐(1951) 사이의 연구[편집]

KR-20의 일반식을 발표한 여러 연구[편집]

쿠더-리처드슨 (1937)은 을 유도하기 위해 불필요한 제약조건을 제시하였다. 을 쿠더-리처드슨 (1937)과 다른 방식으로도 유도할 수 있다는 것을 보여주는 연구가 다수 발표되었다. 호잇 (1941)[19]은 ANOVA(Analysis of variance)를 이용하여 를 유도하였다. 호잇을 KR-20의 일반식에 대한 최초의 연구로 볼 수도 있지만, 그는 의 공식을 제시하지 않았다. 의 현대적 공식을 최초로 표현한 것은 잭슨과 퍼거슨 (1941)[20]이다. 그들이 제시한 버전은 아래와 같다. 에저턴과 톰슨 (1942)[21]도 같은 버전을 이용하였다.

거트먼 (1945)[11]은 여섯 개의 신뢰도 공식을 유도하였으며, 각각을 으로 표기하였다. 그는 이 공식들이 모두 신뢰도보다 항상 작거나 같다는 것을 증명하였으며, 이러한 특성을 바탕으로 이 공식들을 '신뢰도의 하한선'이라고 지칭하였다. 거트먼의 이며, 이다. 그는 보다 항상 크거나 같다 (즉, 더 정확하다)는 것을 증명하였다. 그 당시에는 모든 계산을 손으로 하던 시기였으며 의 공식이 더 계산하기 간단하였으므로 그는 특정한 조건 하에서 가 유용하다고 언급하였다.

굴릭센 (1950)[22]은 기존 연구들보다 더 적은 가정만으로 을 유도하였다. 그가 사용한 가정은 현대적 용어로 본질적 타우동등 조건과 같다.

KR-20의 원래 식과 일반식의 관계에 대한 당시의 인식[편집]

두 공식은 정확히 같은 것으로 인식되었으며, KR-20의 일반식이라는 표현도 사용되지 않았다. 호잇[19]은 자신의 방법이 KR-20과 “정확히 같은 결과를 낸다"(p.156)고 설명하였고,잭슨과 퍼거슨[20]도 두 공식이 "똑같다(identical)" (p.74)고 언급하였으며, 거트먼[11]가 KR-20와 ”대수적으로 똑같다" (p.275)고 하였고, 굴릭센[22]도 두 공식이“똑같다" (p.224)고 인정하였다. KR-20에 비판적인 연구들조차 KR-20의 원래 식이 이분적 자료에만 적용될 수 있다는 것을 단점으로 지적하지 않았다[23].

KR-20의 과소추정 성향에 대한 당시의 논란[편집]

가 신뢰도를 과소추정한다는 것은 이 공식의 개발자[15]들도 언급하였다. 후속 연구는[24]의 이 특성 만으로도 (신뢰도를 과소추정할지 과다추정할지 알 수 없는) 반분 신뢰도 기법보다 추천할 만하다고 주장하였다. 크론바흐 (1943)[23]의 과소추정 성향에 대해 비판적이었다. 그는 의 과소추정이 얼마나 되는지 정확히 알려지지 않았으며, 음수의 값도 도출될 수 있음을 비판하였다. 이러한 문제 때문에 그는 가 반분 신뢰도 기법을 대체할 수 있는 대안으로 권장될 수 없다고 주장하였다.

크론바흐 (1951)의 연구[편집]

기존 연구들[19][11][20][22]과 마찬가지로, 크론바흐 (1951)[9]를 유도할 수 있는 또 하나의 방법을 제안하였다. 그의 해석은 기존 연구들의 것보다 직관적으로 이해하기 쉬웠다. 즉, 그는 가 모든 가능한 반분에서 얻어진 의 평균과 같다는 것을 증명하였다. 또한 그는 KR-20이라는 이름이 이상하다고 언급하면서 coefficient alpha라는 새로운 이름을 제안하였다. 그의 접근은 엄청난 대중적 성공을 거두었다. 그러나 그는 몇 가지 핵심적 사실을 누락하였을 뿐 아니라, 부정확한 설명을 제시하였다.

첫째, 그는 coefficient alpha가 KR-20의 일반식이라는 해석을 제시하였지만, 기존의 다른 연구들도 정확히 같은 공식을 발표하였다는 설명을 생략하였다. 따라서 배경지식 없이 크론바흐 (1951)만을 읽은 사람들은 그가 KR-20의 일반식을 처음 개발한 것으로 오해할 소지가 있었다.

둘째, 그는 가 언제 신뢰도와 같은지에 대해서 설명하지 않았다. 따라서 비전문가들은 가 전제조건에 관계없이 모든 자료에 사용할 수 있는 신뢰도 계수라는 인상을 받을 수 있었다.

셋째, 그는 자신이 에 대한 태도를 왜 바꿨는지 설명하지 않았다. 특히, 자신[23]이 강력히 비판하던 의 과소추정 문제에 대한 명확한 답변을 제시하지 않았다.

넷째, 그는 높은 값은 자료의 동질성 혹은 단일차원성을 보여주는 근거라고 주장하였다.

크론바흐 (1951) 이후의 연구[편집]

노빅과 루이스 (1967)[25]이 신뢰도와 같기 위한 필요충분 조건을 증명하였으며, 이 조건을 본질적 타우동등이라고 명명하였다.

크론바흐 (1978)[2]는 크론바흐 (1951)가 많은 인용을 받게 된 이유를 "흔한 공식에 브렌드 네임을 붙였기 때문" (p.263)이라고 언급하였다[1]. 그는 다른 유형의 신뢰도 계수(예: 평가자간 신뢰도, 검사-재검사 신뢰도)에 베타, 감마, 델타,...등의 이름을 연속적으로 붙일 계획이었지만, 나중에 생각을 바꾸었다고 설명하였다.

크론바흐와 샤벨슨 (2004)[26]은 독자들에게 보다는 일반화 가능성이론의 사용을 권장하였다. 그는 Cronbach's alpha라는 이름의 사용에 반대하였다. 그는 KR-20의 일반식을 크론바흐 (1951)보다 먼저 발표한 기존 연구들의 존재를 명시적으로 부인하였다.

타우동등신뢰도에 대한 흔한 오해[6][편집]

타우동등신뢰도는 0과 1 사이의 값을 갖는다[편집]

정의에 의해, 신뢰도는 0보다 작을 수 없고, 1보다 클 수 없다. 많은 교과서들은 을 신뢰도와 동일시하며, 그 범위에 대한 부정확한 설명을 한다. 는 타우동등하지 않은 자료에 적용될 경우 신뢰도보다 작다. 2번 항목은 1번 항목의 값을 그대로 복사하고, 3번 항목은 1번 항목의 값에 –1을 곱하여 복사했다고 하자. 항목간 공분산 행렬은 아래와 같으며, 이다.

Observed covariance matrix

음의 는 음의 변별력, 혹은 역항목 처리의 실수 등의 이유로 발생할 수 있다.

와 달리, 구조방정식 기반 신뢰도 계수들은 항상 0보다 같거나 크다.

이 이상현상은 를 비판하기 위해 Cronbach (1943)[23]가 처음 지적했지만, Cronbach (1951)[9]와 관련된 온갖 주제를 다루어서 Cronbach and Shavelson (2004)[26]가 "백과사전적"(p.296)이라 묘사한 그의 논문에서 이에 대해 한 마디도 언급하지 않았다.

측정오차가 없으면 타우동등신뢰도는 1의 값을 갖는다[편집]

가 신뢰도를 과소추정하며, 신뢰도와 동일시될 수 없음을 보여주는 또 하나의 특성이다. 2번 항목은 1번 항목의 값을 그대로 복사하고, 3번 항목은 1번 항목의 값에 2를 곱하여 복사했다고 하자. 항목간 공분산 행렬은 아래와 같으며, 이다.

Observed covariance matrix

위 자료에 대해 은 모두 1의 값을 갖는다.

높은 타우동등신뢰도 값은 자료의 동질성 혹은 단일차원성을 보여준다[편집]

많은 교과서들은 가 항목간 동질성을 보여주는 지표라고 언급한다. 이것은 높은 값이 항목간 동질성을 보여준다는 크론바흐(1951)[9]의 부정확한 설명에서 유래한다. 동질성은 요즘의 문헌에서는 잘 사용되지 않는 용어로서, 관련 연구들은 동질성이 항목 간 단일차원성을 지칭한 것으로 해석한다. 여러 연구들이 높은 값이 단일차원성을 나타내지 않는다는 증명 혹은 반례를 제시했다[27][6][28][29][30][31].아래의 반례를 보자.

Unidimensional data

위의 단일차원 자료에서 이다.

Multidimensional data

위의 다차원 자료에서도 이다.

Multidimensional data with extremely high reliability

위의 자료에서는 로 높지만, 다차원이다.

Unidimensional data with unacceptably low reliability

위의 자료에서는 로 매우 낮지만, 단일차원이다.

단일차원성은 의 전제조건이다. 즉, 단일차원을 확인하기 위해 를 구하는 것이 아니라, 를 구하기 전에 단일차원을 확인해야 한다[1].

높은 타우동등신뢰도 값은 자료의 내적일관성을 보여준다[편집]

내적 일관성이라는 용어는 신뢰도 문헌에서 흔히 사용되지만, 그 의미는 명확하게 정의되어 있지 않다. 이 용어는 때로는 특정한 종류의 신뢰도를 지칭하기 위해 사용되기도 하지만 (예: 내적 일관성 신뢰도), 외에 정확히 어떤 신뢰도 계수가 여기에 포함되는지는 불명확하다. 크론바흐 (1951)[9]는 내적 일관성이라는 용어를 명시적 정의를 내리지 않고 여러 맥락에서 사용하였다. 조와 김 (2015)[6]가 이 중 어떤 것의 지표도 아니라는 것을 보였다.

"alpha if item deleted"를 이용하여 항목을 제거하면 신뢰도는 항상 증가한다[편집]

"alpha if item deleted"를 이용하여 항목을 제거하면 표본 수준의 신뢰도 값이 모집단 수준의 신뢰도 값보다 더 높게 보고되는 '알파 인플레이션'[32]이 발생할 수 있으며, 실제 신뢰도 값은 오히려 낮아질 수도 있다[33]. 신뢰도를 낮추는 항목의 제거는 통계적 근거 뿐만 아니라, 이론적 논리적 근거에 기반을 두어야 한다. 또한 표본을 둘로 나누어 교차검증하는 것이 권장된다[32]

신뢰도는 얼마나 높아야 하고, 어떻게 높일 수 있는가?[편집]

신뢰도 수준에 대한 너낼리의 권고[편집]

신뢰도 계수가 얼마 이상이어야 하는지에 대해 가장 자주 인용되는 원천은 너낼리의 책[34][35][36]이다[37]. 그러나 그의 권고 수준은 그의 의도와는 다르게 인용되고 있다. 그의 의도는 연구의 목적이나 단계에 따라 다른 신뢰도 기준을 적용하자는 것이었다. 그러나 초기 연구, 기초 연구, 응용 연구, 척도개발 연구 등 연구의 성격에 관계없이 .7의 신뢰도 기준이 사용되고 있다[37]. 0.7이라는 수치는 너낼리가 연구의 초기 단계에 대해서 언급한 수치로서, 학술지에 게재된 대부분의 연구는 여기에 해당하지 않는다. .7보다는 너낼리가 응용연구에 대해 언급한 .8이라는 기준이 대부분의 실증연구에 더 적합하다.

또한 권고 수준에 대한 그의 의도는 컷오프 포인트가 아니었다. 어떤 기준이 만약 컷오프 포인트를 의미한다면, 그것을 충족했는지의 여부가 중요할 뿐, 얼마나 넘었는지 혹은 모자라는지는 중요하지 않다. 너낼리는 어떤 기준 (가령, .8)을 말할 때 엄밀하게 .8이 되어야 한다는 뜻이 아니라, .8 근처의 어떤 범위를 의미하는 뉴앙스로 제시하였다[38].

또한 그의 아이디어는 신뢰도를 높이는 데에도 비용이 발생하므로, 모든 상황에서 최대한의 신뢰도를 얻으려고 할 필요는 없다는 것이다.

Nunnally's recommendations on the level of reliability
1st edition[34] 2nd[35] & 3rd[36] edition
Early stage of research .5 or .6 .7
Applied research .8 .8
When making important decisions .95 (minimum .9) .95 (minimum .9)

높은 신뢰도의 비용[편집]

많은 교과서들은 신뢰도 값이 클수록 바람직하다고 설명한다. 높은 신뢰도의 잠재적 부작용에 대해서는 거의 논의하지 않는다. 그러나 하나를 얻기 위해서는 다른 무언가를 희생해야 한다는 원칙은 신뢰도에도 적용된다.

신뢰도와 타당성 간의 상충관계[6][편집]

완벽한 신뢰도를 갖는 측정은 타당성이 결여된다. 예를 들어, 신뢰도가 1인 시험에 응하는 수험자는 만점 혹은 0점만을 얻게 된다. 왜냐하면, 한 항목에 정답 혹은 오답을 낸 수험자는 다른 모든 항목에도 똑같이 정답 혹은 오답을 낼 것이기 때문이다. 이렇게 신뢰도를 증가시키기 위해 타당성이 희생되는 현상을 attenuation paradox[39][40]라고 한다.

높은 신뢰도 값은 내용 타당성과 상충관계를 갖는다. 높은 내용타당성을 위해 각각의 항목은 측정하고자 하는 내용을 포괄적으로 대표할 수 있는 것으로 구성되어야 한다. 그런데 신뢰도를 높이기 위해 본질적으로 같은 질문을 서로 다른 방식으로 반복해서 측정하는 전략이 흔히 사용되고 있다[41][42].

신뢰도와 경제성 간의 상충관계[편집]

다른 조건이 같을 때, 항목의 수가 증가하면 신뢰도도 증가한다. 그러나 항목 수의 증가는 측정의 경제성을 저해한다.

신뢰도를 증가시키는 전략[편집]

위에서 논의한 신뢰도 증가에 수반되는 비용에도 불구하고, 높은 신뢰도가 요구될 수 있다. 신뢰도를 증가시키기 위해 다음의 방법을 고려할 수 있다.

자료 수집 이전[편집]

측정 항목의 모호성을 제거한다.

응답자가 모르는 내용은 측정하지 않는다.

항목 수를 증가시킨다. 단, 측정의 경제성과의 상충관계를 고려한다.

신뢰도가 높다고 이미 알려진 척도를 사용한다[43].

사전조사를 실시한다. 신뢰도에 문제가 있는 척도를 미리 찾아낸다.

다른 항목들과 내용이나 형식이 다른 항목(예: 역항목)을 제외하거나 수정한다.

자료 수집 이후[편집]

"alpha if item deleted"를 이용하여 문제가 되는 항목을 제거한다. 단, 여기에는 논리적 이론적 근거가 수반되어야 한다.

보다 더 정확한 신뢰도 계수를 사용한다. 예를 들어, 보다 평균적으로 .02 크다.[14]

어떤 신뢰도 계수를 사용해야 하는가?[38][편집]

타우동등신뢰도를 계속 사용해야 하는가?[편집]

는 압도적인 비율로 사용되고 있다. 한 조사에 의하면 97% 이상의 연구가 신뢰도 계수로서 를 사용한다[1].

그러나 여러 신뢰도 계수들의 정확성을 비교한 시뮬레이션 연구들[44][12][5][45][46]가 부정확한 신뢰도 계수라는 공통된 결과를 도출하였다.

관련 연구들은 사용에 대해서 비판적이다. 기존 연구들의 결론을 단순화하여 분류하면 다음과 같다.

(1) 조건적 사용: 특정한 조건을 충족하는 경우에만 를 사용한다[1][6][8].

(2) 사용 반대: 는 열등하므로 사용하지 않는 것이 좋다.[47][4][48][5][3][49]

타우동등신뢰도의 대안[편집]

모든 자료에 무조건적으로 을 사용하는 관행에 반대한다는 점에서 기존 연구들은 의견이 일치한다. 그러나, 대신 어떤 신뢰도 계수를 사용해야 하는가에 대해서는 서로 다른 의견을 내고 있다.

여러 신뢰도 계수들의 정확성을 비교한 시뮬레이션 연구들[44][12][5][45][46]마다 서로 다른 신뢰도 계수가 1위를 차지하였다.[6]

다수 의견은 의 대안으로 구조방정식 기반 신뢰도 계수를 사용하는 것이다[1][6][47][4][48][8][5][49].

그러나 여러 구조방정식 기반 신뢰도 계수 (예: 단일차원 혹은 다차원 모형) 중에서 구체적으로 어떤 것을 사용하는 것이 최선인지에 대한 합의는 존재하지 않는다.

[5]를 대안으로 말하는 사람도 있으나, 는 신뢰도와 성격이 다르며, 그 대체재가 아니라 보완재이다.[1]

구조방정식 기반 신뢰도 계수 중에서 가장 흔히 사용되는 것은 단일차원 모형에 기반한 이다[1].

구조방정식 기반 신뢰도 계수를 위한 소프트웨어[편집]

SPSS와 SAS 등의 범용 통계 소프트웨어는 를 계산해주는 기능을 포함하고 있다. 사용자들은 의 공식을 모르더라도 마우스 클릭 몇 번만으로 그 값을 얻을 수 있다.

AMOS, LISREL, MPLUS 등의 구조방정식 전용 소프트웨어는 구조방정식 기반 신뢰도 계수를 계산해주는 기능을 갖고 있지 않다. 사용자들이 직접 계산하는 것은 불편하고, 오류의 가능성도 높다. 아마도 이런 사용자 편의성의 부재로 인해 구조방정식 사용을 보고하는 연구들조차 구조방정식 기반 신뢰도 계수 대신 를 사용한다.[1] 구조방정식 기반 신뢰도 계수를 자동적으로 계산하기 위한 다음의 대안이 있다.

1) R(무료): psych package[50]는 여러 가지 신뢰도 계수를 계산할 수 있다.

2) EQS(유료)[51]: 구조방정식 전용 소프트웨어이며, 신뢰도 계수를 계산해 주는 기능을 갖고 있다.

3) RelCalc(무료)[1]: Microsoft Excel이 있으면 사용가능하다. 구조방정식 전용 소프트웨어가 없어도 를 구할 수 있다. 또한 구조방정식 전용 소프트웨어의 결과를 바탕으로 여러 가지 다차원 구조방정식 신뢰도 계수를 계산할 수 있다.

공식의 유도[1][편집]

<가정 1> 항목의 관찰점수는 항목의 진점수와, (진점수와 독립인) 항목의 오차로 구성된다.

<보조정리>

<가정 2> 오차는 서로 독립이다.

<가정 3> (본질적 타우동등 가정) 항목의 진점수는 항목 공통의 진점수와 항목의 상수로 구성된다.

이고, 를 진점수 분산이라고 한다.

<정의> 신뢰도는 진점수 분산과 관찰점수 분산의 비율이다.

의 분산을 , 의 분산을 라고 할 때, 위의 가정들로부터 다음의 관계가 성립한다.

따라서 항목간 공분산 행렬은 다음과 같다.

Observed covariance matrix

은 항목간 공분산의 평균과 같다는 것을 알수 있다. 즉,

위의 가정을 만족할 때의 신뢰도를 라고 하자. 는 다음과 같다.

참고문헌[편집]

  1. Cho, E. (2016). Making reliability reliable: A systematic approach to reliability coefficients. Organizational Research Methods, 19(4), 651–682. https://doi.org/10.1177/1094428116656239
  2. Cronbach, L. J. (1978). Citation classics. Current Contents, 13, 263.
  3. Sijtsma, K. (2009). On the use, the misuse, and the very limited usefulness of Cronbach’s alpha. Psychometrika, 74(1), 107–120. https://doi.org/10.1007/s11336-008-9101-0
  4. Green, S. B., & Yang, Y. (2009). Commentary on coefficient alpha: A cautionary tale. Psychometrika, 74(1), 121–135. https://doi.org/10.1007/s11336-008-9098-4
  5. Revelle, W., & Zinbarg, R. E. (2009). Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma. Psychometrika, 74(1), 145–154. https://doi.org/10.1007/s11336-008-9102-z
  6. Cho, E., & Kim, S. (2015). Cronbach’s coefficient alpha: Well known but poorly understood. Organizational Research Methods, 18(2), 207–230. https://doi.org/10.1177/1094428114555994
  7. McNeish, D. (2017). Thanks coefficient alpha, we’ll take it from here. Psychological Methods, 23(3), 412–433. https://doi.org/10.1037/met0000144
  8. Raykov, T., & Marcoulides, G. A. (2017). Thanks coefficient alpha, we still need you! Educational and Psychological Measurement, 79(1), 200–210. https://doi.org/10.1177/0013164417725127
  9. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334. https://doi.org/10.1007/BF02310555
  10. Cho, E. and Chun, S. (2018), Fixing a broken clock: A historical review of the originators of reliability coefficients including Cronbach’s alpha. 조사연구, 19(2), 23–54.
  11. Guttman, L. (1945). A basis for analyzing test-retest reliability. Psychometrika, 10(4), 255–282. https://doi.org/10.1007/BF02288892
  12. Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods, 5(3), 343–355. https://doi.org/10.1037/1082-989X.5.3.343
  13. Revelle, W. (1979). Hierarchical cluster analysis and the internal structure of tests. Multivariate Behavioral Research, 14(1), 57–74. https://doi.org/10.1207/s15327906mbr1401_4
  14. Peterson, R. A., & Kim, Y. (2013). On the relationship between coefficient alpha and composite reliability. Journal of Applied Psychology, 98(1), 194–198. https://doi.org/10.1037/a0030767
  15. Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160. https://doi.org/10.1007/BF02288391
  16. Brown, W. (1910). Some experimental results in the correlation of metnal abilities. British Journal of Psychology, 3(3), 296–322. https://doi.org/10.1111/j.2044-8295.1910.tb00207.x
  17. Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 3(3), 271–295. https://doi.org/10.1111/j.2044-8295.1910.tb00206.x
  18. Kelley, T. L. (1924). Note on the reliability of a test: A reply to Dr. Crum’s criticism. Journal of Educational Psychology, 15(4), 193–204. https://doi.org/10.1037/h0072471
  19. Hoyt, C. (1941). Test reliability estimated by analysis of variance. Psychometrika, 6(3), 153–160. https://doi.org/10.1007/BF02289270
  20. Jackson, R. W. B., & Ferguson, G. A. (1941). Studies on the reliability of tests. University of Toronto Department of Educational Research Bulletin, 12, 132.
  21. Edgerton, H. A., & Thomson, K. F. (1942). Test scores examined with the lexis ratio. Psychometrika, 7(4), 281–288. https://doi.org/10.1007/BF02288629
  22. Gulliksen, H. (1950). Theory of mental tests. John Wiley & Sons. https://doi.org/10.1037/13240-000
  23. Cronbach, L. J. (1943). On estimates of test reliability. Journal of Educational Psychology, 34(8), 485–494. https://doi.org/10.1037/h0058608
  24. Hoyt, C. J. (1941). Note on a simplified method of computing test reliability: Educational and Psychological Measurement, 1(1). https://doi.org/10.1177/001316444100100109
  25. Novick, M. R., & Lewis, C. (1967). Coefficient alpha and the reliability of composite measurements. Psychometrika, 32(1), 1–13. https://doi.org/10.1007/BF02289400
  26. Cronbach, L. J., & Shavelson, R. J. (2004). My Current Thoughts on Coefficient Alpha and Successor Procedures. Educational and Psychological Measurement, 64(3), 391–418. https://doi.org/10.1177/0013164404266386
  27. Cortina, J. M. (1993). What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology, 78(1), 98–104. https://doi.org/10.1037/0021-9010.78.1.98
  28. Green, S. B., Lissitz, R. W., & Mulaik, S. A. (1977). Limitations of coefficient alpha as an Index of test unidimensionality. Educational and Psychological Measurement, 37(4), 827–838. https://doi.org/10.1177/001316447703700403
  29. McDonald, R. P. (1981). The dimensionality of tests and items. The British Journal of Mathematical and Statistical Psychology, 34(1), 100–117. https://doi.org/10.1111/j.2044-8317.1981.tb00621.x
  30. Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psychological Assessment, 8(4), 350–353. https://doi.org/10.1037/1040-3590.8.4.350
  31. Ten Berge, J. M. F., & Sočan, G. (2004). The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality. Psychometrika, 69(4), 613–625. https://doi.org/10.1007/BF02289858
  32. Kopalle, P. K., & Lehmann, D. R. (1997). Alpha inflation? The impact of eliminating scale items on Cronbach’s alpha. Organizational Behavior and Human Decision Processes, 70(3), 189–197. https://doi.org/10.1006/obhd.1997.2702
  33. Raykov, T. (2007). Reliability if deleted, not ‘alpha if deleted’: Evaluation of scale reliability following component deletion. The British Journal of Mathematical and Statistical Psychology, 60(2), 201–216. https://doi.org/10.1348/000711006X115954
  34. Nunnally, J. C. (1967). Psychometric theory. New York, NY: McGraw-Hill.
  35. Nunnally, J. C. (1978). Psychometric theory (2nd ed.). New York, NY: McGraw-Hill.
  36. Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). New York, NY: McGraw-Hill.
  37. Lance, C. E., Butts, M. M., & Michels, L. C. (2006). What did they really say? Organizational Research Methods, 9(2), 202–220. https://doi.org/10.1177/1094428105284919
  38. 조은성. (2020). 소위 Cronbach's alpha에 대한 종합적 고찰. 상품학연구, 38(1), 9–20.
  39. Loevinger, J. (1954). The attenuation paradox in test theory. Psychological Bulletin, 51(5), 493–504. https://doi.org/10.1002/j.2333-8504.1954.tb00485.x
  40. Humphreys, L. (1956). The normal curve and the attenuation paradox in test theory. Psychological Bulletin, 53(6), 472–476. https://doi.org/10.1037/h0041091
  41. Boyle, G. J. (1991). Does item homogeneity indicate internal consistency or item redundancy in psychometric scales? Personality and Individual Differences, 12(3), 291–294. https://doi.org/10.1016/0191-8869(91)90115-R
  42. Streiner, D. L. (2003). Starting at the beginning: An introduction to coefficient alpha and internal consistency. Journal of Personality Assessment, 80(1), 99–103. https://doi.org/10.1207/S15327752JPA8001_18
  43. 이훈영. (2017). 연구조사방법론 (2판). 학현사.
  44. Kamata, A., Turhan, A., & Darandari, E. (2003). Estimating reliability for multidimensional composite scale scores. Annual Meeting of American Educational Research Association, Chicago, April 2003, April, 1–27.
  45. Tang, W., & Cui, Y. (2012). A simulation study for comparing three lower bounds to reliability. Paper Presented on April 17, 2012 at the AERA Division D: Measurement and Research Methodology, Section 1: Educational Measurement, Psychometrics, and Assessment., 1–25.
  46. van der Ark, L. A., van der Palm, D. W., & Sijtsma, K. (2011). A latent class approach to estimating test-score reliability. Applied Psychological Measurement, 35(5), 380–392. https://doi.org/10.1177/0146621610392911
  47. Dunn, T. J., Baguley, T., & Brunsden, V. (2014). From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation. British Journal of Psychology, 105(3), 399–412. https://doi.org/10.1111/bjop.12046
  48. Peters, G. Y. (2014). The alpha and the omega of scale reliability and validity comprehensive assessment of scale quality. The European Health Psychologist, 1(2), 56–69.
  49. Yang, Y., & Green, S. B. (2011). Coefficient alpha: A reliability coefficient for the 21st century? Journal of Psychoeducational Assessment, 29(4), 377–392. https://doi.org/10.1177/0734282911406668
  50. http://personality-project.org/r/overview.pdf
  51. http://www.mvsoft.com/eqs60.htm