製品運用：AB テストを増やすために行うべき 5 つのこと!

グロースワークにおいて、ABテストは鉄則とされる手法とも言え、プロダクト・オペレーション学生が自由に使えるツールでもあります。仕事で AB テストに触れる機会が増えましたが、より多くの教訓を学び、より多くのことを学びました。

今回は、ABテストを実際に活用する上での5つの重要な課題を共有し、落とし穴を回避する方法について議論したいと思います。

1. サンプルサイズの推定

AB テストでは、コントロールグループと実験グループのサンプルサイズが大きく、実験時間が長いほど、実験結果の精度が高まります。

これは常識のように思えるかもしれませんが、実際には統計的有意性によって決定されます。

統計的有意性とは、対照群と実験群の間の差がランダム誤差によるものではなく、実際のものである可能性を指します。

そのため、サイクルが長く、サンプル数が多い AB テストの方が説得力があります。しかし、実際の業務では、製品やアクティビティの繰り返し速度が速いため、AB テストの実験サイクルが長すぎることはできません。そのため、AB テストの前にサンプル数を見積もることが非常に重要です。

サンプルサイズの計算方法はやや複雑です。長年高度な数学や確率論を放棄してきた人には、データ分析の学生に助けを求めることをお勧めします。

このサンプルサイズ計算機では、元のバージョンのコンバージョン率 (既知) を入力し、次に最適化されたバージョンのコンバージョン率 (予想) を入力して、統計的有意水準を設定します。通常、95% を超える有意差は有意であると見なされます。この方法では、サンプルサイズの結果をすぐに得ることができます。

上図に示すように、オリジナルバージョンのコンバージョン率が 10% の場合、最適化された新バージョンの期待コンバージョン率は 12% です。AB テストを実施する際、各ユーザーグループのサンプルデータが 2,900 を超える場合にのみ、この新バージョンのコンバージョン率が著しく異なり、信頼できると言えます。

推定サンプルサイズを計算した後、もう 1 つの重要なタスクは、実験期間を推定することです。

信頼性の高い AB テストには 1 回の実験につき 2900 個のサンプルが必要ですが、当社の製品の 1 日あたりのアクティブユーザーが 200 人しかおらず、2 つのグループに分割された各グループのユーザー数が 100 人だけの場合、2900/100 = 29 日となり、AB テスト実験が必要なサンプルサイズに達するまでに 29 日かかることになります。

このとき、このサイクルが許容できるものかどうかを評価する必要があります。サイクルが長すぎる場合は、この段階でこの AB テストを実施するのは不適切であることを意味します。

2. テスト結果の分析

ABテスト前にサンプルサイズの推定を行います。最適化版のコンバージョンデータを推定するため、サンプルサイズとテスト期間は推定データとなり、ABテスト前のテストサンプルと期間の暫定的な判断に役立ちます。

実際の AB テスト実験が完了したら、実際の結果データに対して統計的有意性検定を実施し、コントロールグループと実験グループ間のデータの違いが有意かつ信頼できるものであることを確認する必要があります。

このツールでは、グループ A と B の実際のデータを入力すると、2 つのグループ間のコンバージョン率の違いと、テスト結果の統計的有意性を明確に確認できます。

上図を例にとると、グループ B のコンバージョン率はグループ A よりも高いものの、サンプルサイズが小さいため、テスト結果は統計的に有意な差に達しなかったため、グループ B の最適化がグループ A よりも優れていると結論付けることはできません。

この時点では、2 つの選択肢があります。1 つは実験を継続し、より多くの実験データを蓄積した後に分析すること、もう 1 つは実験を中止し、この最適化では明らかな改善がないと結論付けることです。

実験を続けることで必ず大きな差が出るというわけではありません。サンプルサイズは増え続けているのに、コンバージョン率の差が小さくなる場合は、より多くのサンプルが必要であることを意味します。この状況は、2つのバージョンの違いが実際にはそれほど大きくないことを示していることが多いですが、実際の状況に基づいてABテストを停止するかどうかも判断する必要があります。

3. 逆相関指標

AB テストを実施する場合、一般的には実験結果を判断するための中核指標があり、実験をより適切に監視して結果を分析するためのサポート指標や補助指標もいくつかあります。しかし、いくつかの反対指標は無視できません。

逆張り指標とは何ですか?ネガティブな指標は、AB テスト実験にマイナスの影響を与える可能性がある指標です。

簡単な例を見てみましょう。

AB実験では、新規ユーザーの登録率を高めるために、新バージョンに新規ユーザーの特典を過剰に盛り込みました。新規ユーザーの登録率は上昇しましたが、ユーザーの期待管理が不十分だったため、新規ユーザーは登録後に実際の新規ユーザー特典が大幅に減少していることに気づき、製品に対する不満を引き起こし、新規ユーザーの初回注文転換率の低下につながりました。

新規ユーザーの一次コンバージョン率は、この実験で注目に値する逆指標です。

実験の速度と効果を高めるために、AB テストでは少数の主要なプロセスノードとコアインジケーターに重点が置かれることがよくありますが、逆インジケーターを無視すると、得られる利益よりも損失が大きくなるリスクがあります。

4. シンプソンのパラドックス

シンプソンのパラドックスとは、特定の条件下では、2 つのデータセットは別々に検討すると特定の特性を満たしますが、一緒に検討すると反対の結論に至る可能性があることを意味します。この理論はイギリスの統計学者シンプソンによって提唱されました。

簡単な例を見てみましょう。新規ユーザーの初回購入プロセスのABテスト実験では、

初日、グループ A の変換率は 10% (10/100)、グループ B の変換率は 12% (120/1000) でした。

翌日、グループ A の変換率は 15% (150/1000)、グループ B の変換率は 16% (160/1000) でした。

2日間を別々に見ると、グループBのコンバージョン率はグループAよりも高かった。

しかし、全体として、グループ A の変換率は 14.5% (160/1100)、グループ B の変換率は 14% (280/2000) でした。

グループ A のコンバージョン率はグループ B よりも高くなっています。そのため、分析中に実験結果を直接判断することは不可能です。

シンプソンのパラドックスの存在により、ユーザーサンプルの合理的な選択、サンプルサイズの監視と調整、包括的なデータ分析など、AB テストに対するさらなる要件が提示されます。

この例で日次データと合計データが反対の結論を出しているのは、初日のグループ A とグループ B のサンプルサイズがかなり異なるためです。

5. 階層化実験

大規模な製品や確立された成長チームの場合、複数の AB テストが同時に実行されるため、階層化された実験を考慮する必要があります。

階層化実験とは、複数の実験が階層構造に組み込まれ、各層の実験で使用されたトラフィックを次の層の実験で引き続き使用できることを意味します。いくつかは理解しにくいので、例を挙げてみましょう。

電子商取引製品の新規ユーザープロセスを例に挙げると、新規ユーザーがアプリをダウンロードして開くと、ホームページに新規ユーザーギフトパッケージへの入り口があります。クリックすると、新規ユーザーは新規ユーザーの権利と割引商品を閲覧できます。新規ユーザーは新規ユーザーの商品を閲覧した後、注文を完了します。これが新規ユーザー変換の基本的なパスです。

既存の新規顧客コンバージョンプロセスを最適化するために、新規顧客ギフトパッケージのホームページ表示、ランディングページ表示、新規顧客商品詳細ページで複数のAB実験を同時に実施しました。

ホームページの表示では、ボタンの色とガイドのコピーについてAB実験を行いました。変数の一意性を確保するために、ボタンの色の実験では、コピーを含む他のコンテンツは完全に一致し、コピーの実験でも、ボタンの色を含む他のコンテンツは完全に一致しました。これには、トラフィックの 100% を 2 つの部分に分割し、それぞれ 50% と仮定する必要があります。つまり、ユーザーの 50% がボタンの色の実験 (25% が赤いボタン、25% が黄色いボタンを表示し、2 セットのコピーは一貫している) を行い、残りの 50% のユーザーがコピーの実験 (25% が「特典を受け取る」コピーを表示し、25% が「1 元で注文する」コピーを表示し、2 セットのボタンの色は同じ) を行います。

新規ユーザーページに入った後、権利表示方式のAB実験を行いました。第1層（ホームページ）からのトラフィック（100％）を権利表示のAB実験にかけました。第1層からの100％トラフィックは、ボタンの色とコピーライティングの実験のみにかけられました。上位層実験が権利表示実験に影響を与えないように、上位層からのトラフィックを権利表示実験のABグループにランダムに分配しました。これは階層化実験におけるトラフィックの直交性であり、上位層のトラフィックは均等に分配されます。

実際の作業では階層化された実験はまれですが、成熟した製品では、複数の AB 実験をより効率的かつ科学的に同時に実行するために、この状況を考慮する必要があります。チームは、結果が互いの実験の影響を受けることを認識せずに単独で実験を実施し、不適切な結論につながることを避けるために、コミュニケーションを維持する必要があります。

以上がABテストに関する5段階の共有ですが、今後の作業ではABテストが継続され、新たな問題も出てきます。

著者: 呉一九

出典: 呉一九

<<: イベントプロモーションを通じて新規ユーザーを引き付けるにはどうすればいいでしょうか?

>>: タクシークリエイティブ広告スローガン