본문 바로가기
프로젝트

Yammer 프로젝트: A/B test

by 고공이 2022. 3. 29.

Progress

- 문제 상황

- 분석

- 요약

 

 

문제상황

- Yammer에서 메시지 발송 영역인 publisher의 기능 개선 테스트를 위해 A/B 테스트를 진행했습니다.

- 테스트 기간은 6월 한 달로 정했고, 이 기간 동안 control group에게는 기존 기능을, test group은 신규 기능을 노출시켰습니다.

- control group 대조군에 비해 test group 실험군에서 메시지 포스팅 횟수가 1.5배 높게 측정되었습니다.

(실험 기간 동안 실험군 유저들의 메시지 포스팅 횟수는 4.07회, 대조군 유저들은 2.67회)

- 보통 50% 증가하는 것은 user behavior 극단적인 변화로 흔히 나오지 않습니다. 실험 설계, 지표 해석시 문제가 있지는 않았는지 확인 필요합니다.

 

분석

"publisher 기능 개선에 따라 메시지 포스팅률에 차이가 있다고 할 수 있는가?"

 

 

연구가설

  : 두 그룹에 대해 기존 기능과 새로운 기능에 따라 메시지 포스팅률이 차이가 있을 것이다.

 

귀무가설

  : 기능에 따른 두 그룹 간에 메시지 포스팅률 차이가 없다.

 

대립가설

  : 기능에 따른 두 그룹 간에 메시지 포스팅률 차이가 있다.

 

 

a/b test 결과

 

메시지 포스팅률을 기준으로 A/B 테스트를 진행한 결과, t는 7.625, p-value는 0으로 나와 유의수준 5% 하에서 결과를 해석하기엔 다소 무리가 있어보입니다.

 

 

 

그렇다면 일단 다른 방법으로 접근해보겠습니다.

 

그룹별 평균 보낸 메시지 수

 

test group이 평균 메시지 수가 4.0회로 control group가 보낸 메시지 수 2.7회보다 약 1.3회가 더 증가했다는 것을 알 수 있습니다.

 

하지만 단순히 발송된 평균 메시지 수가 증가했다고 해서 이 테스트의 성공을 판가름할 수 없습니다.

 

다른 지표들을 살펴봐야 하는데 yammer의 분석가는 login frequency가 새로 release된 publisher 기능이 잘 개선되었는지 살펴보는 지표라고 생각하고 있습니다. 즉, login frequency가 core value metric이라고 생각하고 있죠.

 

 

1. 로그인 지표 분석

 

왼) 그룹별 평균 로그인 횟수 / 오) 그룹별 평균 로그인 빈도수

 

왼쪽 그래프는 평균적으로 몇번 로그인을 했는지 나타냅니다.

control group과 test group은 각각 3.3회 / 4.1회로 test group이 로그인을 더 자주 하고 있음을 알 수 있습니다.

 

그런데 어쩌면 사용자가 로그인 이슈로 인해 하루만에 4번을 로그인할 수도 있습니다. 하루에 로그인 로그아웃을 많이 하면 그것은 좋은 시그널이 아닙니다. 그렇다면 yammer에 몇 일을 들어왔는지도 같이 보면 좋을 것 같습니다.

 

이를 나타내는 그래프가 바로 오른쪽 그래프입니다. 실험 기간동안 몇일 로그인했는지 보면 각각 3.0회 / 3.6회로 나타났습니다.

 

그렇다면 하루에 몇 번 로그인했는지 대충 계산해보면 두 그룹 모두 1번 정도 로그인 한 것을 알 수 있습니다.

 

 

2. 샘플링 공정성

 

두 그룹을 나눌 때 샘플링이 과연 적절했을까요? 

 

연초에 가입한 사람하고 Test 끝나기 직전에 가입한 사람를 섞어서 같이 볼 수 있습니다. Test 끝나기 직전에 가입한 사람은 포스팅을 한 시간이 별로 없기 때문에 당연한 차이가 발생합니다. 그래서 Test 안에 들어온 사람과 그 밖에 들어온 사람을 구분해서 샘플링을 다시 해보는 게 좋겠습니다.

 

그리고 yammer에 친숙한 사람들은 새로운 기능을 신기해서 한번 눌러볼 것입니다. 일시적인 현상일 수도 있다는 말입니다. 그럼 새로운 테스트는 novelty effect**라는게 없습니다. 그래서 이전부터 yammer를 사용했던 사람과 그렇지 않은 사람으로 나눠서 생각을 해봐야 합니다.

 

** novelty effect

: 참신 효과라고 하며, 학습이나 성취의 실제 개선 때문이 아니라 새로운 기술에 대한 관심이 증가함에 따라 새로운 기술이 도입 될 때 성과가 처음에 향상되는 경향.

 

 

가입 기간별 control/test 샘플링 시각화

 

 

그래서 가입기간에 따라 나눴습니다. 활동 시작날을 나타내는 컬럼인 month_activated을 기준으로 분류해봤습니다. 6월에 가입한 사람은 모두 다 control에 들어 가있다는 걸 확인했습니다.

 

앞서 메시징 수와 로그인 변수를 이용해 test group이 증가했다는 것을 보고 새로운 기능이 더 좋은거아냐라고 결론을 내렸는데 사실은 이 사람들-6월에 가입한 사람-이 control group에 들어가 있었기 때문에 평균 메시지 포스팅 횟수를 아래로 떨어뜨렸을 수도 있겠다라고 생각해볼 수 있습니다.

 

그리고 yammer에 노출된 시간이 적었기 때문에 로그인 횟수, 메시지 포스팅 횟수가 떨어질 수도 있다라고 생각해 볼 수 있는 거죠.

 

 

new user를 제외한 그룹별 평균 보낸 메시지 수

 

 

new user를 제외하고 그래프를 다시 그려봤습니다. 평균 메시지 전송횟수 2.9회로 제외하기 전 2.7회보다 0.2회 조금 증가했습니다.

 

 

왼) 그룹별 평균 로그인 횟수(new user 제외) / 오) 그룹별 평균 로그인 빈도수(new user 제외)

 

 

로그인 횟수와 빈도수도 살펴보면, 각각 3.6회, 3.2회로 제외하기 전 3.3회, 3.0회로 각각 0.3회, 0.2회씩 증가했습니다. 하루에 두 그룹 모두 약 1번씩 로그인한 건 변함이 없었습니다.

 

결론적으로 new user를 제외해서 증가하긴 했어도 결과에 영향을 줄 정도는 아닌 미비한 정도였습니다. 

 

 


그렇다면 a/b테스트 결과도 그렇게 보일까요?

 

new users를 제외한 a/b 테스트 결과

 

new users를 제외하고 메시지 포스팅률 A/B 테스트를 진행한 결과, t는 3.447, p-value는 0.0005으로 나와 유의수준 5% 하에서 귀무가설을 기각하고 대립가설을 채택합니다. 기능에 따른 두 그룹 간 메시지 포스팅률에 유의미한 차이가 있다는 것으로 나타났습니다. 그렇다면 기능을 개선한 publisher가 더 좋다고 말할 수 있겠네요.

 

 

 

∴ Yammer의 publisher 기능을 개선한 것이 좋다.

 

 

 

결론 및 요약

1. 실험 기간 동안 실험군이 대조군 대비 유저 당 평균 0.8회 더 많이, 더 자주 로그인 했습니다.

2. 실험기간 동안 신규로 가입한 유저들이 모두 대조군으로 들어가는 오류가 있었습니다.

3. 실험기간 동안 신규로 가입한 유저들을 제외하고 기존 유저들의 데이터만 분석했을 때, 실험 기간 동안 실험군의 메시지 평균 전송 횟수는 4.07회 대조군 2.91회로 그 차이는 줄어들었습니다. 하지만 여전히 실험군에서 메시지 전송량이 많았습니다. 

4. 신규로 가입한 유저들을 제외하고 A/B 테스트를 진행한 결과, 기능을 개선한 publisher가 더 좋다는 결론을 내릴 수 있습니다.

댓글