지난 분기, 결제 화면 개편 A/B 테스트에서 전환율 12% 상승을 확인했다. p값 0.03. 팀 전체가 환호했고, 바로 100% 롤아웃을 결정했다. 그런데 두 달 뒤 실제 매출은 오히려 떨어졌다. 대체 뭐가 잘못된 걸까.
평균이 숨긴 것
문제는 세그먼트였다. 전체 평균 전환율은 올랐지만, 고가 상품 구매자 — 매출의 70%를 차지하는 핵심 고객군 — 에게는 전환율이 오히려 하락했다. 저가 상품 쪽 신규 유저가 대량 유입되면서 전체 평균을 끌어올린 거다. 전형적인 심슨의 역설이고, 놀랍게도 이걸 놓치는 팀이 정말 많다.
Microsoft Research가 정리한 A/B 테스트 해석 함정 12가지 중에서도 "세그먼트 혼동"과 "분모 변동"이 가장 빈번하게 등장한다. 분모가 바뀌면 비율 지표 자체가 의미를 잃는다는 건 통계 교과서에 나오는 얘기지만, 대시보드 앞에 앉으면 다들 잊어버린다.
강남언니 팀이 겪은 일
비슷한 사례가 국내에도 있다. 강남언니 팀은 일본 유저 대상 로그인 화면 A/B 테스트를 돌렸는데, 유입 자체가 적어서 유의미한 결과를 얻는 데 2달이 걸렸다. 그 사이 마케팅 방향이 바뀌어 버렸고, 테스트 결과를 적용할 맥락 자체가 사라졌다.
더 근본적인 문제도 있었다. 한 테스트에 가설 두 개를 동시에 넣은 거다. "일본 유저는 정보가 더 필요하다"와 "버튼이 많아서 전환이 안 된다"를 한꺼번에 검증하려 했으니, 결과가 나와도 뭐 때문인지 알 수 없었다.
세 가지만 확인하자
거창한 프레임워크가 필요한 게 아니다. 결과 리포트를 열기 전에 이것만 점검하면 대부분의 오독을 막을 수 있다.
세그먼트를 쪼개서 봤나? 매출 기여도 상위 20% 고객군은 반드시 따로 확인한다. 전체 평균이 올라도 핵심 고객에게 역효과면 의미 없다.
사전에 정한 기간을 채웠나? 매일 대시보드를 들여다보면서 "오 유의미하다!" 싶은 순간에 테스트를 끊으면 거짓 양성 확률이 치솟는다. 이른바 peeking problem. 기간을 정했으면 그때까지 참아야 한다.
가설이 하나인가? 한 테스트에 두 가지를 바꾸면, 어느 쪽이 효과를 낸 건지 분리할 수 없다. 당연한 말 같지만, 일정에 쫓기면 "이것도 같이 테스트하자"는 유혹이 매번 온다.
숫자가 아니라 맥락이다
p값은 답이 아니라 질문의 시작점이다. "통계적으로 유의미합니다"라는 한 문장에 의사결정을 통째로 맡기는 순간, 숫자가 당신 편인 척하면서 속이기 시작한다. 테스트가 끝나면 축하보다 먼저 해야 할 일이 있다 — 이 결과가 누구에게, 어떤 조건에서 나온 건지 뜯어보는 것.