옮긴이의 말


이 책은 빙Bing에서의 광고 페이지 속 한 줄의 변화로 전체 매출의 10%를향상시킨 놀라운 사례로 시작한다. 단순한 A/B 테스트의 기술서가 아닌 마이크로소프트, 구글, 링크드인에서 수년간 온라인 종합 대조 실험을 주도했던저자들의 경험과 교훈을 공유하는 책이다.
숫자를 얻는 것은 쉽다. 하지만 믿을 수 있는 숫자를 얻는 것은 어렵다. - P18

온라인 종합 대조 실험인 A/B 테스트는 2000년 중반부터 시작된 테크기업들의 문화적 혁신, 예를 들면 에릭 리스의 린 스타트업 Lean Startup 및 MVP(최소 기능 제품)의 개념과 그 맥을 같이 한다. - P18

A/B 테스트의 기능 중 가장 중요한 것은 한꺼번에 모든 것을 테스트하는것이 아니라 조금씩 테스트하는 것이다. 통제된 상황에서 이를 실행하는데,
이는 온라인상의 통제이므로 실제 상황을 반영하는 통제이다. - P19

1부는 배경에 상관없이 모든 사람이 읽을 수 있도록 설계됐으며, 4장으로구성돼 있다.

• 1장에서는 온라인 종합 대조 실험 실행의 이점을 간략히 설명하고 실험 용어를 소개한다.
• 2장에서는 예를 들어 엔드-투-엔드로 실험을 실행하는 과정을 살펴본다.
• 3장에서는 일반적인 오류 및 실험 신뢰도 구축 방법을 설명한다.
4장에서는 실험 플랫폼을 구축하고 온라인 실험을 확장하기 위해 필요한 사항을 개략적으로 설명한다.

2부에서 5부까지는 필요에 따라 모든 사람이 이용할 수 있지만, 각 장은 특정 청중에 초점을 두고 작성됐다. - P26

웹사이트 https://experimentguide.com은 이 책의 동반자이다. 여기에는추가 자료와 오타 정보가 포함돼 있으며, 공개 토론의 영역을 제공한다. 저자들은 이 책의 모든 수익금을 자선단체에 기부할 계획이다. - P27

1부

모두를 위한 소개


01

소개와 동기


하나의 정확한 측정이 수천 개의 전문가 의견보다 가치 있다.
그레이스 호퍼 제독Admiral Grace Hopper


2012년 마이크로소프트의 검색 엔진인 빙Bing에서 일하는 한 직원이 광고 헤드라인 표시법을 바꾸자고 제안했다(Kohavi, Thomke 2017). 아이디어는 그림 1.1과 같이 타이틀 라인을 타이틀 바로 밑 첫째 줄의 문장과 합쳐서 광고의 타이틀 줄을 길게 만드는 것이었다.
아무도 이 간단한 변화가 수많은 아이디어 중 빙 역사상 최고의 매출 창출아이디어가 될 줄 몰랐다! - P31

테스트를 시작한 몇 시간 후 매출이 너무 많다는 경고가 발생했으며, 이는 보통 무엇인가 실험에 잘못된 것이 있다는 의미다. - P31

그러나 이 실험에서의 매출 증가는 유효한 것이었다. 빙의 매출은 12%나 증가했으며 당시 미국에서만 연간 1억불에 해당하는 것이었다. 다른 주요 사용자 경험 지표를 저해하지도 않았다. 이 실험은 오랜 기간 동안 여러 번 되풀이됐다. - P32

온라인 종합 대조 실험 용어


종합 대조 실험 controlled experiment은 길고도 매혹적인 역사를 갖고 있으며 이에 대한 우리의 연구는 온라인에서 공유하고 있다(Kohavi, Tang, Xu 2019). - P33

가장 일반적인 온라인 종합 대조 실험에서 사용자는 실험군과 대조군에 무작위로 분할되며, 한 번 지정된 분할은 바뀌지 않는다(따라서 사용자는 여러 번광의 사이트 방문에서 동일한 경험을 하게 된다). - P34

전체 평가 기준 OEC, Overall Evaluation Criterion: 실험 목적의 계량적 지표. 예를 들어 OEC를 사용자별 활동일 수active days per user로 정할 수 있는데, 이는 실험 중사용자가 활동한 일수(사용자가 방문해서 어떤 행동을 취한 일 수)를 가리킨다. 이 OEC를 늘린다는 것은 사용자들이 해당 사이트를 더 자주 방문한다는 것을 의미하며, 이는 좋은 결과물이다. OEC는 단기적으로 (실험 기간 동안) 측정할 수 있어야 하면서도 결과적으로는 장기적 전략목표를 추진하는 원인이라고 믿을 수 있는 것이 돼야 한다(이 장의 뒷부분과 7장의 전략, 전술 및 실험과의 관계 참조). - P35

이는 통계에서 흔히 반응 Response 또는 종속Dependent 변수라고 불리며(Mason,
Gunst, Hess 1989, Box, Hunter, Hunter 2005), 결과outcome, 평가Evaluation, 적합도 함수 _Fitness Function가 동의어로 사용될 수 있다(Quarto-vonTivadar 2006), 단일 지표를 선택하는 것이 매우 바람직하고 권장되지만(Roy 2001, 50, 405-429), 실험은 여러 목표를 가질 수 있으며 밸런스 스코어 카드 접근 방식(Kaplan, Norton 1996)을 사용할 수 있다.
실험을 위한 OEC를 결정하는 방법은 7장에서 자세히 알아본다. - P35

어떠한 요인도 변형군 배정에 영향을 주도록 허용해서는 안 된다. 사용자(실험단위)는 "무작위 추출이 아닌 어떠한 방식"으로도 편향이 없는 분포로 할당될 수 없다(Weiss 1997). 랜덤성은 "마구잡이식이거나 계획되지 않은 것이 아니라 "확률에 기초한 의도적인 선택"을 의미한다는 점에 유의해야 한다(Mosteller, Gilbert, McPeek 1983). - P37

실험의 이유? 상관관계, 인과관계, 신뢰성


매달 사용자의 X%가 이탈(가입 종료)하는 넷플릭스와 같은 구독 사업에서 일하고 있다고 가정하자. 당신은 새로운 기능을 도입하기로 결정했고 그 기능을 사용하는 사용자의 이탈률이 X%/2. 즉, 반이라는 것을 보게 된다. 당신은 이에 대해 인과관계를 주장하고 싶을지도 모른다. 기능은 이탈을 절반으로 줄이고 있다. 이 기능을 더 쉽게 검색하고 더 자주 사용하게 할 수 있으면, 가입자가 급증할 것이라는 결론을 얻을 것이다. 그러나 이는 잘못된 논리다! - P37

1995년에 가이야트 외(Guyatt et al., 1995)은 의학 문헌에서의 추천을 평가하는 방법으로 증거 계층hierarchy of evidence을 도입했으며, 그린할 Greenhalgh은증거 기반 의학의 실행에 대한 논의(1997, 2014)에서 이를 확장했다. 그림1.3은 바일라(Bailar, 1983. 1)에 근거하는 간단한 증거 계층을 보여준다. - P38

옥스포드 증거 기반 의학 센터 Oxford Centre for Evidence-based Medicine의 증거 수준Levels of Evidence과 같은 좀 더 복잡한 모델도 이용할 수 있다(2009). - P38

우리는 온라인 종합 대조 실험이 다음과 같은 것이라고 믿는다.

• 높은 확률로 인과관계를 확립할 수 있는 최선의 과학적인 방법이다.

• 시간에 따른 변화와 같이 다른 기법으로 탐지하기 어려운 작은 변화 감지가 가능하다(민감도).

• 예상치 못한 변화 감지가 가능하다. 종종 과소평가되지만 성능 저하, 충돌/오류 증가, 또는 다른 기능으로부터의 클릭 수 감소 등 많은 실험에서 여러 지표에 대한 놀라운 영향을 발견한다.

이 책의 핵심은 실험에서의 잠재적 오류를 알아보고 결과에 대한 신뢰도를 높이는 방법을 알려주는 것이다. - P39

유용한 종합 대조 실험 실행을 위한 필수 재료

종합 대조 실험의 과학적인 엄격함으로 모든 결정을 내릴 수 있는 것은 아니다. (중략). 이제 유용한 대조 실험을 실행하는 데 필요한 기술적 요소들을검토하고(Kohavi, Crook, Longbotham 2009), 그 다음에 조직에 도움이 되는 핵심 원칙들을 살펴본다. - P39

원칙

온라인 제어 실험을 실행하려는 조직에게 도움될 세 가지 핵심 원칙이 있다(Kohavi et al. 2013).

1. 조직은 데이터 중심 결정을 내리고 OEC를 공식화한다.
2. 조직은 종합 대조 실험을 실행하고 그 결과가 신뢰할 수 있는지 확인하기 위해 인프라와 실험에 기꺼이 투자한다.
3. 조직은 아이디어의 가치를 평가하는 데 서툴다는 것을 인지한다. - P41

원칙 1. 조직은 데이터 중심 결정을 내리고
OEC를 공식화한다.



(전략). 많은 조직에서 성과를 정의하고 측정하는 데드는 자원을 투자하지 않을 것이다. 많은 경우, 새로운 기능이 핵심 지표에 긍정적인 영향을 미치는지 여부를 무시하고, 그저 계획을 짜고 실행해 "실행된 계획의 비율로 성공을 측정하는 것이 쉽다. - P41

예를들어 단기적인 수단(예: 가격 인상)은 단기 이익을 증가 시킬 수 있지만 장기적으로는 오히려 이를 해칠 수 있기 때문에 "이익"은 좋은 OEC가 아니다. 고객생애가치는 전략적으로 강력한 OEC이다(Kohavi, Long-bottom et al. 2009). - P42

 궁극적으로 종합 대조 실험, 조사, 새로운 코드의 유지보수 비용 추정 등을 포함한 다양한 데이터를 기반으로 의사결정이 이뤄져야 한다.  - P42

원칙 2. 조직은 종합 대조 실험을 실행하고그 결과가 신뢰할 수 있는지 확인하기 위해인프라와 테스트에 기꺼이 투자할 용의가 있다.


온라인 소프트웨어 영역(웹사이트, 모바일, 데스크톱 애플리케이션 및 서비스)에서는 소프트 엔지니어링을 통해 종합 대조 실험에 필요한 조건을 충족할수 있다(유용한 종합 대조 실험 실행에 필요한 필수 요소 참조). 즉 사용자를 안정적으로 랜덤화¹할 수 있으며 원격 측정도 가능하고 새로운 기능과 같은 소프트웨어 변경사항을 도입하기가 매우 쉽다(4장 참조).



1 랜덤화(Randomization)는 무작위화라고도 한다. 이 용어는 통계학, 의학, 실험 설계 등 다양한 분야에서 사용된다. 통계학에서 랜덤화는 연구에서 다루는 변수를 무작위로 할당하는 것을 의미한다. 이는 연구의 외생적 요인이나 바이러스를 최소화하고, 결과의 신뢰성과 일반화 가능성을 높이기 위한 중요한 기법이다. 의학에서 랜덤화는 환자를 무작위로 집단에 할당하는 것을 의미한다. 이를 통해 연구자들은 환자 집단 간의 차이를 무작위로 생성하여 편향을 최소화하고, 신약이나 치료법 등의 효과를 정확하게 평가할 수 있다. 실험 설계에서 랜덤화는 실험 처리를 무작위로 할당하는 것을 의미한다. 이는 처리 간의 차이를 최소화하고 실험의결과를 신뢰성 있게 분석하기 위한 중요한 기법이다. 옮긴이 - P42

종합 대조 실험은 『린 스타트업』(Ries 2011)의 에릭 리스Eric Ries가 널리 알린 애자일² 소프트웨어 개발(Martin 2008, K. S. Rubin 2012), 고객 개발 프로세스(Blank 2005), MVP Minimum Viable Products와 결합할 때 특히 유용하다. - P43

 의료기관에서의 종합 대조 실험에서 필요한 일부 실험은비윤리적이거나 불법적일 수 있다. - P43

원칙 3. 조직은 아이디어의 가치를
평가하는 데 서툴다는 것을 인지한다.


팀에서는 각 기능이 유용하다고 생각해 개발하지만 많은 곳에서 대부분의 아이디어는 핵심 지표를 개선하는 데 실패한다. 마이크로소프트에서 시험한아이디어 중 개선을 보인 지표를 실제로 개선할 수 있었던 것은 1/3에 불과했다(Kohavi, Crook 및 Longbotham 2009). - P43

슬랙의 제품 및 라이프사이클 담당 이사인 파리드 모사밧Fareed Mosavat은 그의 트위터에서 슬랙의 경험으로부터 수익화 실험의 약 30%만이 긍정적인 결과를 보여준다고 밝혔다. "실험을 주도하는 팀에 있다면 최소한 70% 이상의작업이 버려지는 것에 익숙해져야 한다. 이에 따라 프로세스를 구축해야 한다."(Mosavat 2019) - P44

모든 도메인이 그런 열악한 통계를 갖고 있는 것은 아니지만, 고객 대면 웹사이트와 애플리케이션에서 종합 대조 실험을 실행한 대부분의 사람들은이런 겸허한 현실을 경험했다. 즉 우리는 아이디어의 가치를 평가하는 데서툴다. - P44

시간에 따른 개선

실제로 주요 지표의 개선은 0.1%~2%의 수많은 작은 변화로 달성된다. - P45

흥미로운 온라인 종합 대조 실험 사례


기대 결과와 실제 결과의 절대적 차이가 큰 실험은 흥미롭다. 만약 무슨일이 일어날 거라고 생각했을 때 그런 일이 일어난다면, 그때는 새로 배울 점이 많지 않다. - P47

사용자 인터페이스 예: 41개 색조의 파란색


구글과 마이크로소프트가 모두 보여주듯이 작은 결정은 상당한 영향을 미칠 수 있다. 구글은 구글 검색 결과 페이지에 대해 41개 색조의 파란색을 테스트했으며(Holson 2009), (중략), 미국에서의 매출이 연간 천만달러 이상으로 향상됐다(Kohaviet al. 2014, Kohavi et al. 2014, Kohavi, Thomke 2017). - P48

올바른 시점에 제안하기


2004년에 아마존은 신용카드 제안을 홈페이지에 올렸다. 그것은 매우 수익성이 좋았지만, 클릭률이 매우 낮았다. (중략). 대조 실험은 이러한 단순한 변화가 아마존의 연간 수입을 수천만 달러 증가시킬 수 있다는 것을 증명했다. - P48

개인화 추천

아마존의 그렉 린덴 Greg Linden은 사용자의 쇼핑 카트에 있는 아이템을 기반으로 개인화된 추천을 보여주는 프로토타입을 만들었다(Linden 2006, Kohavi,
Longbottom et al. 2009). 사용자가 어떤 항목을 추가하면 그에 따른 추천 사항이 나타나고 또 다른 항목을 추가하면 새로운 추천 사항이 나타난다. 그렉은이 시제품이 유망해 보였지만 "마케팅 수석 부사장이 이 시제품이 사람들의체크아웃을 방해할 것이라 주장하면서 이에 대해 완전히 반대했다"고 지적했다. 그렉은 더 이상 이 일을 진행하는 것이 금지됐다. - P49

악성코드 감소

광고는 수익성이 좋은 사업이어서 사용자들이 설치한 ‘프리웨어‘는 종종 광고로 페이지를 오염시키는 악성코드를 포함하고 있다. (중략).
이로 인해 빙 광고가 제거됨으로써 마이크로소프트의 수입이 줄어 들었을뿐만 아니라, 저품질 광고와 관련 없는 광고가 자주 게시돼 왜 그렇게 많은 광고를 보고 있는지 깨닫지 못했을 사용자들에게 나쁜 사용자 경험을 제공했다. 마이크로소프트는 380만 명의 사용자에게 종합 대조 실험을 실행했는데, 여기서 DOM-Document Object Mode 수정 기본 루틴은 신뢰할 수 있는 소스로부터의 제한된 수정만 허용되도록 재정의됐다(Kohavi et al. 2014).  - P50

게다가 사용자들은 검색에 더 자주 성공했고, 유용한 링크를 더 빨리 클릭했으며, 연간 수익은 수백만 달러 증가했다. - P50

전략, 전술과 이들의 실험과의 관계

온라인 종합 대조 실험의 실행에 필요한 요소들이 충족되면 전략에서 전술에 이르기까지 모든 수준의 조직 결정에 정보를 주도록 실험이 수행돼야한다. 전략(Porter 1996, 1998)과 종합 대조 실험은 시너지 효과를 낸다. - P52

적절한 지표를 사용해 잘 실행된 실험은 비즈니스 전략, 제품 설계를 보완하고, 조직의 데이터 중심화를 통해 운영 효율성을 개선한다. 전략을 OEC에 요약하는 것으로 종합 대조 실험은 전략에 대한 훌륭한 피드백 루프를 제공할 수 있다. OEC를 개선하는 실험으로 아이디어를 평가했는가? - P53

시나리오 2: 제품과 전략을 갖고 있으나
결과는 방향 전환Pivot을 검토할 필요가 있다는 것을 제시하는 상황


(전략). 즉, 더 큰 언덕에 있을 수있는 공간의 다른 위치로 점프하거나 전략과 OEC(따라서 지형의 모양)를 변경할 필요가 있다.
보통 항상 아이디어 포트폴리오를 만들 것을 권고한다. 즉 대부분은 현재위치에 가까운 곳에서 최적화하는 시도에 대한 투자이어야 하지만, 그러한 점프가 더 큰 언덕으로 이어지는지를 보기 위해 몇 가지 급진적인 아이디어들이 시도돼야 한다. - P56

에릭 리스Eric Ries는 완전히 결함이 있는 것으로 판명된 계획을 성공적으로, 충실하게 그리고 엄격하게 집행하는 회사들에게 "달성된 실패"라는 용어를사용한다. 대신 그는 다음과 같이 제안한다.


린 스타트업 Lean Startup의 방법론은 스타트업의 노력을 어떤 부분이 훌륭하고어떤 것이 말도 안되는지 그 전략을 테스트하는 실험으로 재인지하는 것이다.
진정한 실험은 과학적 방법을 따른다. 어떤 일이 일어날지 예측하는 명확한 가설에서 시작된다. 그러고 나서 실험은 그 예측들을 경험적으로 테스트한다. - P57

기억해야 할 유용한 개념 중 하나는 더글라스 허버드(Douglas Hubbard,
2014)가 제안한 정보의 기대가치로 EVIExpected Value of Information이다. 이는 추가정보가 의사결정에 어떻게 도움 될 수 있는지를 포착한다. - P58

추가 참고문헌


(전략) 대부분은 훌륭한 동기부여 스토리를 갖고 있지만 통계적으로는 부정확하다. 게오르기 게오르기예프 Georgi Georgiev의 최근 저서에는 종합적인 통계적 설명이 포함돼 있다(Georgieves 2019).
종합 대조 실험과 관련된 문헌은 방대하다(Mason et al, 1989, Box et al. 2005, Keppel, Sauzey and Tokunaga 1992, Rossi, Lipsey, Freeman 2004. Imbens, Rubin 2015, Pearl 2009, Angist, Pischke 2014, Ger, Ger 2012). - P58

멀티암드 밴딧에 기반한 실험은 대개 "일반적인" A/B 실험보다 더 효과적이다. 왜냐하면 그들은 실험 끝까지 기다리는 대신, 점차 승리하는 변형군 쪽으로 트래픽을 이동시키기 때문이다. - P59

02

실험의 실행과 분석-엔드-투-엔드 예제


사실이 적을수록 의견이 강해진다.
아놀드 글래소Arnold Glasow.

1장에서는 종합 대조 실험이 무엇인지, 의사결정을 위해 직관에 의존하는것보다 실제 데이터를 얻는 것의 중요성에 대해 살펴봤다. 이번 장에서는 실험 설계, 실행 및 분석의 기본 원리를 탐구한다. - P61

다음으로 중요한 질문은 사용자당 매출 지표의 분모로 어떤 사용자들을 고려할 것인지 결정하는 것이다.

• 사이트를 방문하는 모든 사용자. 이는 유효하다. 그러나 이는 변화가 일어난 곳에서 체크아웃을 전혀 개시하지 않은 사용자를 포함하기 때문에 불필요한 노이즈가 추가돼 있다. 체크아웃을 전혀 개시하지 않은 사용자들은 우리의 변화에 영향을 받지 않는다. 이들 사용자들을 제외할 때, 더 민감한 A/B 테스트가 될 것이다(20장 참조).

• 구매 프로세스를 완료한 사용자, 이 선택은 변화가 사용자당 구매액에만 영향을 준다고가정하고 있는데, 실제로는 구매를 완료하는 사용자 수에도 영향을 줄 수 있으므로 잘못된 선택이다. 만약 더 많은 사용자가 구매한다면, 총 수입은 증가할지라도 사용자당 수입은 떨어질 것이다.

• 구매 프로세스를 시작한 사용자 변화가 퍼널 내에 있다는 전제하에 이것은 최적의 선택이다. 잠재적으로 영향을 받은 모든 사용자를 포함하지만, 퍼널 영향을 받지 않는 사용자들(체크아웃을 전혀 시작하지 않는 사용자들)은 포함하지 않는다. - P64

가설 검정: 통계적 유의성 확립

실험을 설계, 실행 또는 분석하기 전에 통계적 가설 검사와 관련된 몇 가지 기본 개념을 살펴보자.
기준 평균값과 평균의 표준오차, 즉 지표의 추정치가 어느 정도로 변동성이 큰지 이해함으로써 지표의 기능을 파악한다. (중략). 통계적으로 유의미한 차이를 탐지하는 능력인 민감도는 평균의 표준오차가 낮을수록 개선된다. - P65

실험을 할 때, 하나의 지표로 요약할 수 있는 한 개의 샘플이 아니라 여러 개의 샘플을 사용한다. 특히 종합 대조 실험에서는 대조군을 위한 샘플 하나와 실험군을 위한 샘플 하나를 갖고 있다.. - P66

과학적 표준은 0.05 미만의 p값을 사용하는 것으로, 이는 효과가 실제로없다면 100번 중 95번 효과가 없다는 것을 정확하게 추론할 수 있다는 것을 의미한다. 차이가 통계적으로 유의한지 여부를 조사하는 또 다른 방법은 신뢰구간이 0을 포함하는지를 확인하는 것이다. - P66

"통계적 검정력은 변형군 간에 실제로 차이가 있을 때, 이 차이를 유의미하다고 판별할 확률이다(통계적으로 차이가 있을 때 귀무가설을 기각한다). - P66

이러한 실질적인 경계를 설정하는 것은 그 차이가 변경 비용을 지불할 가치가 있는지 여부를 이해하는 데 중요하다. 만약 당신의 웹사이트가 구글이나 빙과 같이 수십억 달러를 창출한다면, 0.2%의 변화는 실질적으로 중요하다. 이에 비해, 스타트업은 10% 이상의 개선된 변화를 추구하기 때문에 2%의 변화라도 이들은 너무 작게 생각할 수 있다. - P68

실험 설계

이제 우리의 실험을 설계할 준비가 됐다. 가설과 실제적인 유의도 경계를설정했고 지표를 특징지었다. 우리는 설계를 정의하기 위해 다음과 같은 일련의 결정을 사용할 것이다.

1. 무작위 추출 단위는 무엇인가?
2. 무작위 추출 단위의 모집단을 어느 정도 대상으로 하고 싶은가?
3. 어느 정도 규모의 실험이 필요한가?
4. 실험을 얼마나 오래 진행할 것인가? - P68


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo