製品運用:AB テストを増やすために行うべき 5 つのこと!

製品運用:AB テストを増やすために行うべき 5 つのこと!

グロースワークにおいて、ABテストは鉄則とされる手法とも言え、プロダクト・オペレーション学生が自由に使えるツールでもあります。仕事で AB テストに触れる機会が増えましたが、より多くの教訓を学び、より多くのことを学びました。

今回は、ABテストを実際に活用する上での5つの重要な課題を共有し、落とし穴を回避する方法について議論したいと思います。

1. サンプルサイズの推定

AB テストでは、コントロール グループと実験グループのサンプル サイズが大きく、実験時間が長いほど、実験結果の精度が高まります。

これは常識のように思えるかもしれませんが、実際には統計的有意性によって決定されます。

統計的有意性とは、対照群と実験群の間の差がランダム誤差によるものではなく、実際のものである可能性を指します。

そのため、サイクルが長く、サンプル数が多い AB テストの方が説得力があります。しかし、実際の業務では、製品やアクティビティの繰り返し速度が速いため、AB テストの実験サイクルが長すぎることはできません。そのため、AB テストの前にサンプル数を見積もることが非常に重要です。

サンプルサイズの計算方法はやや複雑です。長年高度な数学や確率論を放棄してきた人には、データ分析の学生に助けを求めることをお勧めします。

このサンプル サイズ計算機では、元のバージョンのコンバージョン率 (既知) を入力し、次に最適化されたバージョンのコンバージョン率 (予想) を入力して、統計的有意水準を設定します。通常、95% を超える有意差は有意であると見なされます。この方法では、サンプル サイズの結果をすぐに得ることができます。

上図に示すように、オリジナルバージョンのコンバージョン率が 10% の場合、最適化された新バージョンの期待コンバージョン率は 12% です。AB テストを実施する際、各ユーザー グループのサンプル データが 2,900 を超える場合にのみ、この新バージョンのコンバージョン率が著しく異なり、信頼できると言えます。

推定サンプル サイズを計算した後、もう 1 つの重要なタスクは、実験期間を推定することです。

信頼性の高い AB テストには 1 回の実験につき 2900 個のサンプルが必要ですが、当社の製品の 1 日あたりのアクティブ ユーザーが 200 人しかおらず、2 つのグループに分割された各グループのユーザー数が 100 人だけの場合、2900/100 = 29 日となり、AB テスト実験が必要なサンプル サイズに達するまでに 29 日かかることになります。

このとき、このサイクルが許容できるものかどうかを評価する必要があります。サイクルが長すぎる場合は、この段階でこの AB テストを実施するのは不適切であることを意味します。

2. テスト結果の分析

ABテスト前にサンプルサイズの推定を行います。最適化版のコンバージョンデータを推定するため、サンプルサイズとテスト期間は推定データとなり、ABテスト前のテストサンプルと期間の暫定的な判断に役立ちます。

実際の AB テスト実験が完了したら、実際の結果データに対して統計的有意性検定を実施し、コントロール グループと実験グループ間のデータの違いが有意かつ信頼できるものであることを確認する必要があります。

このツールでは、グループ A と B の実際のデータを入力すると、2 つのグループ間のコンバージョン率の違いと、テスト結果の統計的有意性を明確に確認できます。

上図を例にとると、グループ B のコンバージョン率はグループ A よりも高いものの、サンプル サイズが小さいため、テスト結果は統計的に有意な差に達しなかったため、グループ B の最適化がグループ A よりも優れていると結論付けることはできません。

この時点では、2 つの選択肢があります。1 つは実験を継続し、より多くの実験データを蓄積した後に分析すること、もう 1 つは実験を中止し、この最適化では明らかな改善がないと結論付けることです。

実験を続けることで必ず大きな差が出るというわけではありません。サンプルサイズは増え続けているのに、コンバージョン率の差が小さくなる場合は、より多くのサンプルが必要であることを意味します。この状況は、2つのバージョンの違いが実際にはそれほど大きくないことを示していることが多いですが、実際の状況に基づいてABテストを停止するかどうかも判断する必要があります。

3. 逆相関指標

AB テストを実施する場合、一般的には実験結果を判断するための中核指標があり、実験をより適切に監視して結果を分析するためのサポート指標や補助指標もいくつかあります。しかし、いくつかの反対指標は無視できません。

逆張り指標とは何ですか?ネガティブな指標は、AB テスト実験にマイナスの影響を与える可能性がある指標です。

簡単な例を見てみましょう。

AB実験では、新規ユーザーの登録率を高めるために、新バージョンに新規ユーザーの特典を過剰に盛り込みました。新規ユーザーの登録率は上昇しましたが、ユーザーの期待管理が不十分だったため、新規ユーザーは登録後に実際の新規ユーザー特典が大幅に減少していることに気づき、製品に対する不満を引き起こし、新規ユーザーの初回注文転換率の低下につながりました。

新規ユーザーの一次コンバージョン率は、この実験で注目に値する逆指標です。

実験の速度と効果を高めるために、AB テストでは少数の主要なプロセス ノードとコア インジケーターに重点が置かれることがよくありますが、逆インジケーターを無視すると、得られる利益よりも損失が大きくなるリスクがあります。

4. シンプソンのパラドックス

シンプソンのパラドックスとは、特定の条件下では、2 つのデータ セットは別々に検討すると特定の特性を満たしますが、一緒に検討すると反対の結論に至る可能性があることを意味します。この理論はイギリスの統計学者シンプソンによって提唱されました。

簡単な例を見てみましょう。新規ユーザーの初回購入プロセスのABテスト実験では、

初日、グループ A の変換率は 10% (10/100)、グループ B の変換率は 12% (120/1000) でした。

翌日、グループ A の変換率は 15% (150/1000)、グループ B の変換率は 16% (160/1000) でした。

2日間を別々に見ると、グループBのコンバージョン率はグループAよりも高かった。

しかし、全体として、グループ A の変換率は 14.5% (160/1100)、グループ B の変換率は 14% (280/2000) でした。

グループ A のコンバージョン率はグループ B よりも高くなっています。そのため、分析中に実験結果を直接判断することは不可能です。

シンプソンのパラドックスの存在により、ユーザー サンプルの合理的な選択、サンプル サイズの監視と調整、包括的なデータ分析など、AB テストに対するさらなる要件が提示されます。

この例で日次データと合計データが反対の結論を出しているのは、初日のグループ A とグループ B のサンプル サイズがかなり異なるためです。

5. 階層化実験

大規模な製品や確立された成長チームの場合、複数の AB テストが同時に実行されるため、階層化された実験を考慮する必要があります。

階層化実験とは、複数の実験が階層構造に組み込まれ、各層の実験で使用されたトラフィックを次の層の実験で引き続き使用できることを意味します。いくつかは理解しにくいので、例を挙げてみましょう。

電子商取引製品の新規ユーザープロセスを例に挙げると、新規ユーザーがアプリをダウンロードして開くと、ホームページに新規ユーザーギフトパッケージへの入り口があります。クリックすると、新規ユーザーは新規ユーザーの権利と割引商品を閲覧できます。新規ユーザーは新規ユーザーの商品を閲覧した後、注文を完了します。これが新規ユーザー変換の基本的なパスです。

既存の新規顧客コンバージョンプロセスを最適化するために、新規顧客ギフトパッケージのホームページ表示、ランディングページ表示、新規顧客商品詳細ページで複数のAB実験を同時に実施しました。

ホームページの表示では、ボタンの色とガイドのコピーについてAB実験を行いました。変数の一意性を確保するために、ボタンの色の実験では、コピーを含む他のコンテンツは完全に一致し、コピーの実験でも、ボタンの色を含む他のコンテンツは完全に一致しました。これには、トラフィックの 100% を 2 つの部分に分割し、それぞれ 50% と仮定する必要があります。つまり、ユーザーの 50% がボタンの色の実験 (25% が赤いボタン、25% が黄色いボタンを表示し、2 セットのコピーは一貫している) を行い、残りの 50% のユーザーがコピーの実験 (25% が「特典を受け取る」コピーを表示し、25% が「1 元で注文する」コピーを表示し、2 セットのボタンの色は同じ) を行います。

新規ユーザーページに入った後、権利表示方式のAB実験を行いました。第1層(ホームページ)からのトラフィック(100%)を権利表示のAB実験にかけました。第1層からの100%トラフィックは、ボタンの色とコピーライティングの実験のみにかけられました。上位層実験が権利表示実験に影響を与えないように、上位層からのトラフィックを権利表示実験のABグループにランダムに分配しました。これは階層化実験におけるトラフィックの直交性であり、上位層のトラフィックは均等に分配されます。

実際の作業では階層化された実験はまれですが、成熟した製品では、複数の AB 実験をより効率的かつ科学的に同時に実行するために、この状況を考慮する必要があります。チームは、結果が互いの実験の影響を受けることを認識せずに単独で実験を実施し、不適切な結論につながることを避けるために、コミュニケーションを維持する必要があります。

以上がABテストに関する5段階の共有ですが、今後の作業ではABテストが継続され、新たな問題も出てきます。

著者: 呉一九

出典: 呉一九

<<:  イベントプロモーションを通じて新規ユーザーを引き付けるにはどうすればいいでしょうか?

>>:  タクシークリエイティブ広告スローガン

推薦する

パーフェクトダイアリーを完全に解釈するには12,000語が必要です: 組織構造から成長戦略まで

成長エンジニアでありストレートマンである私は、体系的な企業成長方法論の研究に重点を置いています。美容...

これらの10の失敗した手術事例は、より多くのことを学ぶのに役立つかもしれません

1年前と比べると、今ではネット上にはフォロワーをあっという間に10万人に増やす7つのコツ、90年代生...

ビッグニュースです。ミッチェルがCOVID-19と診断されました!ミッチェルが新型コロナウイルスの検査で陽性反応を示した!

北京時間3月12日、米国メディアの報道によると、ルディ・ゴベールに続いて、ジャズのガード、ドノバン・...

「Get」を例に、知識の収益化とソーシャルネットワーキングをどのように組み合わせることができるかを簡単に分析します。

この記事では、「 Get 」を例に、知識の収益化とコミュニティ開発がどのように組み合わされているかを...

Nehe SEO トレーニング: 分野によって SEO の方法は異なりますか? 電子商取引と企業の違いは何ですか?

電子商取引の SEO は現在、SEO 業界で最も議論されているトピックです。電子商取引 Web サイ...

赤い封筒の補助金方式はもはや効果的ではありません。プロスペクト理論を使用してプロモーションし、トラフィックを誘致してみてください。

インターネットが急速に発展したこの数年間、私たちが受けたイノベーション教育は実を結び、製品マネージャ...

Pinduoduo から数百万ドルが盗まれました。クーポンの裏にあるトリックは何ですか?

電子商取引の「ネットセレブ」Pinduoduoに重大なバグがあることが判明し、ユーザーは100元の無...

価格の原動力となる、Win-Winの価格差別の5つのタイプ

需要のあるすべての消費者が価格のせいで買い逃すことがないようにし、最大限の利益を得るためには、価格を...

武漢市はお茶を飲むことを推奨

武漢の高級茶を飲むのは独特でとてもユニークです。高級な選挙会場で興奮感を体験してください。賞賛は99...

Douyinインフルエンサープロモーションに関する50の質問!

Douyinインフルエンサープロモーションに関する50の質問! 1. Douyin はインフルエン...

高い普及率を望むなら、ショートビデオのトピック選択の6つの詳細に注意する必要があります

今日のコンテンツを書く前に、先ほど述べたトピック選択の基本的な原則を簡単に確認してみましょう。トピッ...

電子商取引の事例:既存顧客を維持するためのデータ主導戦略を詳細に解説!

背景電子商取引プラットフォームAは設立されてから10年近くになります。業界トップではありませんが、ニ...

新たな高収益金儲けプロジェクト、20日余りで159万以上を稼ぎ、後期には不労所得を実現

今日、私は良いプロジェクトを発見しました。それは新しいプロジェクトであり、新しいトレンドです。おそら...

2022 ブランドアウトリーチガイド

インターネットの影響を受けて、ブランドマーケティングは「ユーザー中心」の時代に入りました。一方的な配...

情報フロー広告は必見です! 3つの材料最適化分析方法を適用できます

広告素材が広告パフォーマンスに与える影響は疑いようがありません。成果報酬型広告の場合、広告素材を最適...