작년 말, 한 커머스 팀이 분기 OKR을 세팅하면서 북극성 지표를 새로 정했다. "주간 활성 거래 수." 이사회 보고 슬라이드에도 올라갔고, 전사 올핸즈에서도 발표됐다. 두 달 뒤 그 팀은 서로 다른 방향으로 뛰고 있었다.
하나의 숫자가 정렬을 만들어줄 거라는 착각
북극성 지표라는 개념은 매력적이다. 팀 전체가 하나의 숫자를 바라보면 방향이 맞춰진다는 논리. 넷플릭스의 '월평균 시청 시간'이나 에어비앤비의 '예약된 숙박 일수'처럼 잘 작동하는 사례도 있다.
문제는 대부분의 팀이 그 수준의 메트릭을 설정하지 못한다는 거다. "DAU를 핵심 수치로 하자"는 말이 나오는 순간, 그건 이미 방향이 아니라 허상이다. DAU가 올라도 핵심 기능을 쓰는 유저가 줄 수 있고, 푸시 알림 하나로 앱을 열게 만드는 것만으로도 그래프가 오른다. 고객이 진짜 가치를 얻고 있는지와는 별개의 움직임이다.
실제로 뭐가 꼬이나
내가 본 팀에서 일어난 일은 이랬다. "주간 활성 거래 수"를 올리기 위해 마케팅은 쿠폰을 뿌렸고, 프로덕트는 결제 퍼널을 줄였고, CS는 환불을 빠르게 처리했다. 대시보드의 숫자는 올랐다. 그런데 거래당 평균 금액이 30% 빠졌고, 3개월 리텐션은 오히려 하락했다.
쿠폰으로 유입된 유저 대부분이 최소 금액 거래만 하고 이탈했기 때문이다. 북극성은 밝게 빛나고 있었지만 배는 암초를 향하고 있었던 셈이다.
굿하트 법칙의 교과서적 사례다. 측정 기준이 곧 목표가 되는 순간, 좋은 측정 기준이길 멈춘다.
그러면 북극성을 버려야 하나
버리자는 게 아니다. 운영 방식을 바꿔야 한다.
가드레일을 같이 세팅한다. 거래 수를 올리되, 거래당 평균 금액이 일정 수준 아래로 떨어지면 알람이 울리는 구조가 필요하다. 숨고 팀이 이 부분을 잘 운영했다—핵심 수치를 추적하면서 동시에 상충하는 수치를 모니터링하는 시스템을 갖추고 있었다. 성장과 건강 사이의 균형을 잡는 장치가 없으면, 어느 한쪽으로 폭주하는 건 시간문제다. 가드레일 없는 북극성은 브레이크 없는 차와 같다.
유통기한을 인정한다. 시드 단계에서 세운 기준이 시리즈B에서도 유효할 리 없다. 쇼피파이는 초기에 활성 판매자 수를 쫓았지만, 플랫폼이 성숙해지면서 GMV와 구독 수익의 밸런스로 무게중심을 옮겼다. 분기마다 "이 숫자가 아직 우리 비즈니스의 핵심 가치를 반영하는가"를 물어야 한다. 안 물으면 6개월 전의 답으로 오늘의 결정을 내리게 된다.
팀별로 해석이 갈리면 그건 잘못된 메트릭이다. 마케팅이 "거래 수는 우리가 끌어올려야 하는 숫자"로 보고, 프로덕트가 "거래 품질이 더 중요한데"라고 생각하는 순간 정렬은 무너진다. 같은 대시보드를 보면서 다른 해석을 하고 있다면, 그건 숫자의 문제가 아니라 합의의 부재다. 좋은 북극성은 팀 간 논쟁을 줄이지, 늘리지 않는다.
숫자보다 먼저 합의해야 할 것
메트릭은 도구다. 진짜 먼저 필요한 건 "우리 제품이 유저에게 주는 핵심 가치가 뭔가"에 대한 팀 수준의 합의다.
배달 앱 하나만 봐도 그렇다. 핵심 가치가 "빠른 배달"인지 "다양한 선택지"인지 "저렴한 가격"인지에 따라 추적해야 할 숫자가 완전히 달라진다. "30분 내 배달 완료율"을 기준으로 삼은 팀과 "주문 가능 레스토랑 수"를 기준으로 삼은 팀은 전혀 다른 의사결정을 하게 된다. 같은 배달 앱인데도.
이 합의 없이 숫자부터 정하면, 메트릭은 정렬 도구가 아니라 갈등의 씨앗이 된다. 주간 리뷰에서 "올랐다, 내렸다"만 반복하고, 그래서 뭘 해야 하는지에 대해서는 매번 싸운다.
내가 쓰는 세 가지 테스트
새로운 북극성 후보가 나올 때마다 확인하는 게 있다.
이 숫자가 올랐을 때 유저가 실제로 더 행복한가? 이걸 인위적으로 끌어올릴 꼼수가 바로 떠오르는가? 세 개 이상 직군이 여기에 영향을 줄 수 있는가?
첫 번째는 허영 메트릭을 걸러낸다. 두 번째에서 꼼수가 3초 안에 떠오르면 그 숫자는 조만간 게임화된다—쿠폰 폭탄이든 푸시 알림 스팸이든. 세 번째를 통과 못하면 결국 한 팀만의 KPI가 되고 전사 방향으로는 기능하지 못한다.
셋 다 통과하는 후보는 생각보다 드물다. 그게 정상이다. 쉽게 정해지는 북극성은 대체로 얕다.