A/B 테스트

위키백과, 우리 모두의 백과사전.

웹 사이트에서의 A/B 테스트 예제. 한 웹 사이트에서 한 개의 버튼 요소의 디자인만 다른 두 가지 버전을 무작위로 방문자에게 제공해, 두 디자인의 상대적인 효용성을 측정할 수 있다.

마케팅과 웹 분석에서, A/B 테스트(버킷 테스트 또는 분할-실행 테스트)는 두 개의 변형 A와 B를 사용하는 종합 대조 실험(controlled experiment)이다.[1] 통계 영역에서 사용되는 것과 같은 통계적 가설 검정 또는 "2-표본 가설 검정"의 한 형태다. 웹 디자인 (특히 사용자 경험 디자인)과 같은 온라인 영역에서, A/B 테스트의 목표는 관심 분야에 대한 결과를 늘리거나 극대화하는 웹 페이지에 대한 변경 사항이 무엇인지를 규명하는 것이다(예를 들어, 배너 광고의 클릭률(click-through rate)). 공식적으로 현재 웹 페이지에 null 가설과 연관이 있다. A/B 테스트는 변수 A에 비해 대상이 변수 B에 대해 보이는 응답을 테스트하고, 두 변수 중 어떤 것이 더 효과적인지를 판단함으로써 단일 변수에 대한 두 가지 버전을 비교하는 방법이다.[2]

이름에서 알 수 있듯이, 두 버전(A와 B)이 비교되는데 사용자의 행동에 영향을 미칠 수 있는 하나의 변형을 제외하면 동일하다. 버전 A는 현재 사용되는 버전(control)이라고 하는 반면, 버전 B의 일부 사항은 수정된다(treatment). 예를 들어, 전자상거래 웹사이트에서 구매 깔때기는 일반적으로 A/B 테스트하기 좋은 대상으로, 하락률에 있어 수익 한계선에 대한 개선이 판매에 있어 상당한 이익을 나타낼 수 있기 때문이다. 항상 그런 것은 아니지만, 때때로 텍스트, 레이아웃, 이미지 그리고 색상과 같은 요소들을 테스트함으로써 현저한 향상을 볼 수 있다.[3]

다변량 테스트 또는 다항 테스트가 A/B 테스트와 유사하지만, 동시에 두 개 이상의 버전을 테스트하거나 좀 더 많은 컨트롤들을 테스트할 수 있다. 두 개 이상의 버전 또는 동시에 더 많이 사용을 제어한다. 단순한 A/B 테스트는 설문 데이터, 오프라인 데이터 그리고 다른 좀 더 복잡한 현상과 같이, 실측, 유사 실험 또는 기타 비 실험 상황에서는 유효하지 않다.

A/B 테스트는 그 접근 방식이 다양한 연구 관례에서 일반적으로 사용되는, 피험자간 설계와 유사하긴 하지만, 특정 틈새 영역에서 철학과 사업 전략의 변화로 마케팅되었다.[4][5][6] 웹 개발 철학으로서의 A/B 테스트는 해당 영역을 증거 기반의 실천으로의 폭넓은 움직임으로 이끈다. 대부분의 마케팅 자동화 도구가 현재 일반적으로 A/B 테스트를 지속적으로 실행할 수 있는 기능과 함께 제공되고 있기 때문에, A/B 테스트가 거의 모든 영역에서 지속적으로 수행될 수 있는 것으로 간주되는 것이 A/B 테스트의 이점이다. 이로써 현재의 리소스를 사용해 웹 사이트와 다른 도구를 업데이트해 트렌드 변화를 유지할 수 있다.

일반적인 통계 테스트[편집]

"2-표본 가설 검정"은 표본들이 실험 상에서 두 개의 컨트롤 케이스로 나뉘어질 때 두 표본을 비교하는데 적절하다. Z-테스트는 정규성과 관련된 엄격한 조건에서의 평균과 잘 알려진 표준 편차의 적절한 비교에 적합하다. Student's t-테스트는 가정을 더 적게 하는 경우 엄격하지 않은 조건에서의 평균을 비교하는데 적합하다. 웰치의 테스트가 가장 적게 가정하며 그러므로 메트릭의 평균이 최적화되는 2-표본 가설 검정에서 흔하게 사용된다. 최적화되는 변수의 평균이 가장 일반적인 추정량이며, 다른 것들은 균형있게 사용된다.

클릭률처럼 두 개의 이항 분포의 비교를 위해서는 피셔의 정확 검증을 사용한다.

가정된 분포 예제 케이스 표준 테스트 대체 테스트
가우시안 당 평균 수익을 지불한 사용자 Welch's t-test (짝이 없는 t 검정) Student's t-test
이항 분포 클릭률 피셔의 정확 검정 버나드 검정
푸아송 분포 구매 사용자 당 트랜잭션 E-검정[7] C-검정
다항 분포 구매한 각 제품의 개수 카이-제곱 검정
알 수 없음 -- Mann–Whitney U 검정 깁스 샘플링

역사[편집]

대부분의 필드와 같이, 새로운 방식이 출현한 날짜를 정하는 것은 주제가 계속해서 진화하기 때문에 어렵다. 중대한 변화가 일어났다고 할 만한 시점은 모집단에서 추정된 정보를 사용하는 것에서 샘플들만 가지고 수행되는 테스트로 전환한 시점이다. 이러한 일은 1908년에 윌리엄 실리 고셋이 Z-테스트를 고쳐 Student's t-test를 만들 때 이루어졌다.[8][9]

구글 엔지니어들은 검색 엔진 결과 페이지에 표시할 최적의 결과 개수를 결정하기 위해  무엇인지를 결정하기 위해 그들의 첫 A/B 테스트를 2000년에 실행했다. 첫 번째 시험은 로딩 시간이 느린 결함으로 인해 실패했다. 이후의 A/B 테스트 연구는 좀 더 발전했으나, 그 기반과 기본 원리는 일반적으로 동일하게 유지되었고, 구글의 첫번째 테스트로부터 11년이 지난 2011년에 구글은 7,000개 이상의 서로 다른 A/B 테스트를 실행했다.

이메일 캠페인 예제[편집]

2,000명의 고객 데이터베이스를 가진 한 회사가 그들의 웹사이트를 통해 수요를 일으킬 목적으로 할인 코드를 이용한 이메일 캠페인을 하기로 결정했다. 이 회사는 (고객이 어떤 것을 하도록 촉진하는 사본의 내용 중 일부인) 행위 유도와 함께 프로모션 코드를 식별하는 두 가지 버전의 이메일을 만들었다.

  • 1,000명의 사람들에게 회사는 "이번주 토요일에 행사가 끝납니다! 코드 A1을 사용하세요!"라는 행위 유도 문구와 함께 이메일을 보낸다.
  • 또 다른 1,000명의 사람들에게 "행사가 곧 끝납니다! 코드 B1을 사용하세요!"라는 행위 유도 문구와 함께 이메일을 보낸다.

이메일 사본의 다른 모든 요소와 레이아웃은 동일하다. 그런 뒤 회사는 프로모션 코드를 분석해 어떤 캠페인이 더 높은 성공률을 갖는지 모니터링한다. 코드 A1을 사용한 이메일이 5%의 응답률(이메일을 받은 1,000명 중 50명이 상품 구매에 코드를 사용)을 보였으며, 코드 B1을 사용한 이메일은 3%의 응답률(이메일을 받은 1,000명 중 30명이 상품 구매에 코드를 사용)을 보였다. 그러므로 이 회사는 이 경우를 봤을 때, 첫번째 유도가 좀 더 효율적이며 이후의 판매에 사용하기로 결정했다. 좀 더 미묘한 차이가 있는 접근 방식은 A1과 B1 간의 응답률의 차이가 통계적 유의성이 있었는지(즉, 그 차이가 실제적이고, 반복 가능하며 임의의 기회로 인한 것이 아닐 가능성이 높다는 것이다)를 알아보기 위해 통계학적 테스트의 적용하는 것이다.[10]

위 예제의 테스트 목적은 어떤 것이 고객으로 하여금 구매를 하도록 만드는데 좀 더 효율적인 방법인가를 알아보기 위한 것이다. 하지만, 만약 테스트의 목표가 어떤 이메일이 높은 클릭률(즉, 이메일을 받은 이후에 웹사이트에서 실제로 클릭을 하는 사람의 수)을 이끌어내는지 알아보고자 하는 것이라면, 그 결과는 다를 것이다.

예를 들어, 코드 B1을 받은 고객 중 더 많은 사람들이 웹 사이트에 액세스하긴 했지만, 유도문에 포로모션의 종료 날짜를 명시하지 않았기 때문에 많은 사람들이 즉시 구매할 절박함을 느끼지 못할 것이다. 따라서, 만약 테스트의 목적이 단순히 어떤 이메일로 인해 웹사이트의 트래픽이 늘어나는지를 보는 것이라면, 코드 B1을 포함한 이메일이 좀 더 성공적일 것이다. A/B 테스트는 이루어진 판매 수, 클릭률 전환 혹은 가입/등록자 수와 같이 측정 가능한 정의된 결과를 내놓아야 한다.[11]

세분화(segmentation)와 타겟팅[편집]

A/B 테스트는 대부분 일반적으로 모든 사용자에게 동일한 확률로 같은 변형(예를 들어, 사용자 인터페이스 요소)을 적용한다. 하지만, 같은 상황에서, 변형에 대한 응답은 이질적일 수 있다. 즉, 변형 A가 전반적으로는 더 높은 응답률을 가질 수 있지만, 변형 B가 고객 기반의 특정 세그먼트에서는 훨씬 더 높은 응답률을 보일 수도 있다.[12]

예를 들어, 성별 응답률의 분석은 다음과 같을 수 있다:

성별 전체 남성 여성
전체 발송 2,000 1,000 1,000
전체 응답 80 35 45
변형 A 50/1,000 (5%) 10/500 (2%) 40/500 (8%)
변형 B 30/1,000 (3%) 25/500 (5%) 5/500 (1%)

이 경우,변형 A가 전체적으로는 더 높은 응답률을 보이지만, 실제로는 변형 B가 남성에게 더 높은 비율을 보인다는 것을 알 수 있다.

결과적으로, 회사는 A/B 테스트의 결과로 세분화 전략을 취해, 앞으로 남성에게는 변형 B를 보내고 여성에게는 변형 A를 보낼 수 있다. 이 예제에서, 세분화 전략으로  에서  으로 응답률이 30% 증가할 것을 예상할 수 있다.

A/B 테스트에서 세분화된 결과가 예상되는 경우, 해당 테스트는 처음부터 성별과 같이 고객의 주요 속성에 걸쳐 고르게 분포되도록 적절히 설계되어야 한다는 점이 중요하다. 즉, 해당 테스트가 (a) 남성 대 여성의 대표 샘플을 포함하며, (b) 각각의 "변형"(변형 A 대 변형 B)에 남성과 여성을 무작위로 할당해야 한다. 그렇게 하지 못한다면 실험이 편향될 수 있고 실험으로부터 부정확한 결과가 나올 수 있다.[13]

이러한 세분화 및 타겟팅 접근 방법은 고객의 단일 속성보다는 다중 속성(예를 들어, 고객의 연령 그리고 성별)을 포함시켜 좀 더 일반화하여 테스트 결과 내에 존재할 수도 있는 좀 더 미묘한 패턴을 식별할 수 있다.

승인[편집]

많은 기업이 "설계된 실험" 접근 방법을 사용해, 연관된 표본 결과가 긍정적인 전환 결과를 향상시킨다는 예상과 함께, 마케팅 의사결정을 내린다.[14] 이 분야에서의 도구와 전문성이 커짐에 따라 점점 더 일반화되고 있다. 테스트의 적용이 중소기업에서도 점점 더 많은 인기를 얻고 있음을 보여주는 A/B 테스트 사례 연구가 많다.[15]

같이 보기[편집]

참고[편집]

  1. Kohavi, Ron; Longbotham, Roger (2015). 〈Online Controlled Experiments and A/B Tests〉. Sammut, Claude; Webb, Geoff. 《Encyclopedia of Machine Learning and Data Mining》 (PDF). Springer. to appear쪽. 
  2. “The ABCs of A/B Testing - Pardot”. 《Pardot》 (미국 영어). 2016년 2월 21일에 확인함. 
  3. “Split Testing Guide for Online Stores”. webics.com.au. 2012년 8월 27일. 2012년 8월 28일에 확인함. 
  4. Christian, Brian (2000년 2월 27일). “The A/B Test: Inside the Technology That's Changing the Rules of Business | Wired Business”. Wired.com. 2014년 3월 18일에 확인함. 
  5. Christian, Brian. “Test Everything: Notes on the A/B Revolution | Wired Enterprise”. Wired.com. 2014년 3월 18일에 확인함. 
  6. Cory Doctorow (2012년 4월 26일). “A/B testing: the secret engine of creation and refinement for the 21st century”. Boing Boing. 2014년 3월 18일에 확인함. 
  7. Krishnamoorthy, K.; Thomson, Jessica (2004). “A more powerful test for comparing two Poisson means”. 《Journal of Statistical Planning and Inference》 119: 23. doi:10.1016/S0378-3758(02)00408-1. 
  8. “Brief history and background for the one sample t-test”. 
  9. Box, Joan Fisher (1987). “Guinness, Gosset, Fisher, and Small Samples”. 《Statistical Science》 2 (1): 45–52. doi:10.1214/ss/1177013437. 
  10. Amazon.com. “The Math Behind A/B Testing”. Developer.amazon.com. 2015년 9월 21일에 원본 문서에서 보존된 문서. 2015년 4월 12일에 확인함. 
  11. Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (2009). “Controlled experiments on the web: survey and practical guide” (PDF). 《Data Mining and Knowledge Discovery》 (Berlin: Springer) 18 (1): 140–181. doi:10.1007/s10618-008-0114-1. ISSN 1384-5810. 
  12. “Advanced A/B Testing Tactics That You Should Know | Testing & Usability”. Online-behavior.com. 2014년 3월 19일에 원본 문서에서 보존된 문서. 2014년 3월 18일에 확인함. 
  13. “Eight Ways You’ve Misconfigured Your A/B Test”. Dr. Jason Davis. 2013년 9월 12일. 2014년 3월 18일에 원본 문서에서 보존된 문서. 2014년 3월 18일에 확인함. 
  14. “The Complete Guide To Conversion Rate Optimization”. Omniconvert. 2017년 1월 5일에 확인함. 
  15. “A/B Split Testing | Multivariate Testing | Case Studies”. Visual Website Optimizer. 2015년 9월 8일에 확인함. 

추가 자료[편집]