버즈니 검색PM 안슬기

안슬기 버즈니 검색PM
안슬기 버즈니 검색PM

[컴퓨터월드] 버즈니 검색팀은 최근 모바일 홈쇼핑 포털 앱 ‘홈쇼핑모아’의 ‘베스트탭’을 포함한 검색 결과화면을 개선해 상품 클릭률 약 10%, 구매하기 클릭 수 약 30% 증가를 이끌어냈다. 검색서비스에서 상품 클릭률이 1~2%만 늘어나도 엄청난 변화로 인식되는 상황에서 10% 증가는 매우 이례적인 현상이라 할 수 있다.

이러한 지표 상승은 검색팀이 지향해온 ‘문제-가설-검증-학습’ 과정의 반복에서 나온 결과다. 이 과정은 그러나 책이나 미디어에서 소개하는 것처럼 물 흐르듯 간단하지 않았다. 어려움의 연속이었다. 버즈니 검색팀이 이 과정을 어떻게 수행했는지 실제 프로젝트 진행 과정을 지난호에 이어 소개한다.

2차 테스트 계획

2차 테스트에서는 ‘TV에서 방영한 상품’의 인기순 제공을 사용자가 직관적으로 인지할 수 있도록 UI/UX 테스트를 주요 과제로 진행했다.

‘TV에서 방영한 상품’의 ‘시간순’ 정렬(편성표)만 있는 검색결과 전면에서 ‘인기순’ 정렬도 바로 확인할 수 있도록 화면 변화가 필요했다. 1차보다는 UI/UX에 더 많은 시간과 고민이 요구됐다. 최소 4개 이상의 화면을 디자인해야 했다.


의견충돌

검색팀은 이번에도 한 번에 모든 화면을 바꾸지 않고 순서대로 가설을 검증하며 변화를 추구했다.

1. 4개 화면에서 첫 번째 ‘검색결과 화면’ 에서 직관적으로 ‘인기순’ 정렬을 노출하고 니즈를 확인
2. 1번에서 검증된 내용을 반영해 두 번째 ‘편성표 더보기 화면’ 개선

하지만 사용자 경험을 최우선으로 고민하는 UX팀의 의견은 달랐다. 화면별 기능은 유기적으로 연결돼 있어서 일부분만 개선할 경우 서비스 일관성을 해치고 사용자에게 혼란을 가중시킬 수 있다는 이유였다.

두 번째 테스트는 UI/UX 변화를 통한 가설 검증이 주요 목표이기 때문에 UX팀과의 합의가 중요했다. 그렇다고 아직 검증되지 않은 가설을 바탕으로 모든 화면을 개선할 수는 없었다. 빠른 검증을 위한 최소 기능 구현을 포기하고 모든 화면이 준비되기만을 기다려야 할까?

고민 끝에 검색팀과 UX팀은 다음과 같이 진행하기로 했다. 모든 화면의 리뉴얼보다는 테스트를 진행할 검색결과 화면에서 이어지는 화면들 간에 최소한의 일관성을 가진 변화만 반영하기로 했다.

이를 통해 최대한 사용자 경험을 해치지 않는 선에서 검색팀이 원하는 테스트의 본질을 유지할 수 있었다. 이 과정에서 PM, UX디자이너 외에 FE, BE 개발자의 적극적인 참여로 합의를 이끌어냈다. 메이커라고 해서 구현 가능성 및 공수 파악에 대한 수동적인 의견만 제시하는 것이 아니라 프로젝트의 방향, 이슈 체크 및 솔루션 등을 능동적으로 피력한다.

가설을 검증하기 위한 A/B 테스트에서 주요 변수를 제외하고는 변화를 최대한 차단하는 것이 분석에 용이하다. 하지만 기획이 구현되는 과정에서는 항상 예상치 못한 빈틈, 더 나은 아이디어들이 산발적으로 등장한다. 그리고 발견한 모든 것을 적용하고 싶어진다. 그러다보면 테스트의 목적을 잃는 경우도 발생한다. 최소 기능 구현으로 빠르게 가설을 검증하는 것에 집중하는 것은 생각보다 쉽지 않다.

가설 검증을 위해 수정이 필요했던 화면들
가설 검증을 위해 수정이 필요했던 화면들

두 번째 검증 테스트

‘시간순’, 즉 편성표만 있던 검색결과 화면을 ‘시간순’ 정렬은 ‘방송예정’과 ‘이전 방송’ 탭으로, ‘인기순’ 정렬은 ‘베스트’ 탭으로 구분했다.

기존 화면, ‘시간순’ 탭 우선 노출, ‘인기순’ 탭 우선 노출 등을 각각 A‧B‧C 그룹으로 나누어 A/B 테스트를 진행했다.

가설 :
1. 사용자들은 방송상품을 인기순으로 보고 싶어 할 것이다.
2. 방송상품을 인기순으로 노출하면 이전보다 더 많이 방송상품을 클릭할 것이다.

주요지표 :
1. 방송상품 클릭수 상승률 (방송상품 클릭수는 예정방송, 이전방송, 베스트 상품 모두 포함)
2. 인기순 탭 클릭수 (예정방송, 이전방송, 베스트 탭(인기순 탭)을 노출했을 때 가장 많이 클릭한 탭)

성공기준 :
방송상품 클릭률 10% 상승, 검색상품 클릭률 –3% 이하 (방송상품 클릭률은 예정방송, 이전방송, 베스트 상품 모두 포함)

두 번째 검증 테스트에서는 검색결과 화면을 3개 그룹으로 분리했다.
두 번째 검증 테스트에서는 검색결과 화면을 3개 그룹으로 분리했다.

검증 결과

A그룹과 B, C그룹의 비교를 통해 기존의 ‘시간순’만 노출과 ‘시간순’, ‘인기순’ 동시 노출 시의 퍼포먼스 차이를 알 수 있었다. B, C그룹의 비교를 통해 ‘시간순’, ‘인기순’ 어떤 탭을 우선 노출했을때 더 퍼포먼스가 좋은지 알 수 있었다.

A, B그룹은 둘 다 ‘시간순’ 을 우선 노출하는 결과로 퍼포먼스가 유사했다. A, C그룹의 비교 결과는 다음과 같았다.

1. C그룹이 A그룹 대비 방송상품 클릭률(NoResult 제외) 약 19% 증가
2. C그룹이 A그룹 대비 검색상품 클릭률 약 -3% 감소
3. C그룹이 A그룹 대비 방송상품 클릭수 약 21% 증가
4. C그룹이 A그룹 대비 방송상품 구매 클릭수 약 30% 증가

성공기준을 넘어서는 엄청난 결과였다. 가설이었던 방송상품의 ‘인기순’ 정렬의 니즈가 강하게 검증됐다.

C그룹의 퍼포먼스가 높은 대표적인 2가지 이유는 다음과 같이 분석했다.

■ 베스트 즉 ‘인기순’이라는 흥미 유발로 인한 상품 클릭
■ 리콜 증가 (기존 ‘시간순’ 정렬 시에 노출되던 중복상품, 품절상품등이 제거되고 구매 가능한 다양한 상품 노출)


최소 기능 구현이 놓치는 부분들

A/B 테스트로 가설이 검증됐으니 바로 실제 서비스화를 할 수 있을까? 아쉽게도 그렇지 않다. 심할 때는 서비스화가 불가능할 수도 있다. 3개 핵심 기능의 최소구현과 2차례의 테스트는 모두 빠른 가설의 검증 만이 목표였다. 즉 목표 외의 사항들에 대해선 원칙상 불가해도 임시적으로 허용하는 경우가 있었다. 대표적인 예로 기존 기능, 개발 정책과의 충돌 또한 확장성을 고려하지 않은 개발이 있을 수 있다. 새로운 기능과 화면으로 기존 정책의 그릇에 담을 수 없는 경우도 있다.

그렇다면 왜 이런 부분들을 예상하지 못 하거나, 혹은 안 했을까? 그 이유는 속도와 불확실성에 있다. 모든 경우의 수를 고려하다 보면 준비하는 시간 자체에 기약이 없어질 수 있다. 그렇게 준비했는데 반드시 성공하리라는 보장도 없다. 따라서 오랜 시간 준비하는 것보다는 준비과정을 최소화하고 실패 혹은 성공을 경험을 택한 것이다. 회복 탄력성 역시 후자가 더 높다.


정식 서비스를 위해 해야 할 일들

검증을 목표로 구현된 핵심요소들을 기존의 서비스 정책에 맞추면서 정식 구현해야 한다. 즉 더 이상 임시적으로 동작하는 것이 아닌 장애 대응 및 유지보수가 가능해야 하며, 확장성에 대한 고려도 반영해야 한다. 빠른 검증을 위해 고의적으로 간과했거나 놓친 부분들에 대한 보완, 개선 등을 진행한다. 혹은 이들에 대한 추가 A/B 테스트를 진행할 수도 있다.

이때도 모든 것이 완벽하게 갖춰지는 것을 목표로 하지 않는다. 실서비스가 되면 바로 성과를 기대할 수 있을 정도로 검증된 내용을 굳이 묵혀둘 이유가 없다. 가장 빠르게 서비스에 반영할 수 있는 방법을 찾고 단계적으로 맞춰나간다.

A/B 테스트로 ‘인기순’ 정렬의 니즈가 검증된 ‘베스트탭’ 역시 실서비스화를 위한 정책 협의 및 코드 리팩토링 등의 과정을 거쳤다. 그 후 전체 사용자에게 배포하여 아래와 같은 성과가 있었다.


‘베스트탭’ 실서비스 반영 전 후의 지표 변화

배포 당시의 명절 특수로 인해 활성화 사용자 수가 일부 감소했음에도

■ 방송상품당 클릭률 및 구매 클릭 수 각각 10%, 30% 증가
■ 1인당 방송상품 클릭 수, 구매 클릭 수 각각 18%, 42% 증가

핵심 기능이었던 동일상품 분류 로직은 버즈니 AI랩과 성능을 높이며 버전업을 진행하고 있다.


마무리

글 초반에 작성한 문제-가설-검증-학습 과정은 두 차례의 테스트로 끝난 것일까? 그렇지 않다. 이후에도 지속적인 모니터링과 문제 제기를 하며 새로운 가설과 그것의 검증을 진행하고 있다.

실제로 검색결과 화면에서만 3번의 가설-검증-학습을 추가로 했고 현재 4번째 가설 검증을 준비 중이다. 즉 오랜 기간 동안 준비해 한 번의 큰 개선을 일으키는 게 아니라 작은 개선을 꾸준히 반복하고 있다. 이런 시도가 급격한 퍼포먼스 향상을 가져오지 않을 수도 있다. 하지만 꾸준히 반복하며 쌓은 성공과 실패의 학습들은 더 성공률이 높은 시도로 이어지고 반드시 지표로 나타날 것이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지