BAT が使用する方法。A/B テストの落とし穴について詳しく説明します。

BAT が使用する方法。A/B テストの落とし穴について詳しく説明します。

グロースハッカーモデルで言及されている重要な考え方は「AB実験」です。

ある意味、自然はすでに私たちに十分なインスピレーションを与えてくれています。変化する環境に適応するために、生物集団は日々遺伝子変異を起こしています。最終的には、最も優れた遺伝子を残して適者生存が起こります。この独創的な生物学的アルゴリズムは、おそらく創造主によって計画された最も成功した AB 実験です。

インターネットの世界に目を向けると、AB実験の重要性はかつてないほど高まっています。

01 有名な2つの事例を見てみましょう

事例1:オバマの広報チームは、より高い支持を得るためにAB実験を利用した

2008年、オバマ氏は選挙に勝利し、第44代アメリカ合衆国大統領に就任しました。これは彼の個人的なカリスマ性と切り離せないものですが、選挙広報チームの役割も無視できません。大統領選挙のページで、彼のチームはAB実験を使用して16の解決策の中から最適な解決策を見つけ、選挙ページでの「変更」のコンバージョン率を40.6%増加させました。

(図1)

(図2)

実験は次のように設計されています。図 1 の画像またはビデオと図 2 のさまざまなテキストボタンの任意の組み合わせにより、16 の異なるソリューションの 4 x 4 の組み合わせが形成されます。各ソリューションは、一定の割合のトラフィックを獲得します。一定期間観察した後、最も高いコンバージョン率のソリューションが選択され、すべてのユーザーに宣伝されます

最終的に、次の解決策が採用されました。

その後、彼のチームが行った説明は、ビデオの再生はユーザーに大きな負担をかけ、当時のネットワーク環境では再生効果を保証できなかったため、ビデオは写真ほど良くないというものでした。また、アメリカ人は家族文化を重視しており、温かい家族写真は有権者との距離を縮めることができます。ボタンのコピーについては、アメリカの有権者は独立意識が高く、「参加する」や「サインアップ」などのコピーは非常に単純で粗雑な印象を与え、扇動の疑いがあるため、誰もが平和的な「詳細を見る」をより受け入れやすいためです。

事例2: FacebookはAB実験で損失を20%削減

2012年、ザッカーバーグ氏の強力な支援を受けて、Facebookの製品担当副社長サム・レッシン氏は30人のチームを率いて半年以上を費やして新バージョンの開発に取り組みました。発売前に招待された一部の外部ユーザーと社内従業員の評価によると、新しいバージョンはクールでファッショナブルであり、以前のバージョンよりも見た目がはるかに優れています。図に示すように:

(上の写真は旧バージョンです)

(上の写真は新バージョンです)

Facebook は確かに世界クラスのインターネット企業であり、主要な反復において AB 実験を必ず実施するでしょう。最初はトラフィックの1%を新バージョンに割り当て、その後徐々に2%、5%と増やしていきました。実験の結果は誰もが予想していた以上のものでした。新バージョンは、ユーザーエンゲージメント、オンライン時間、広告インプレッション数、収益など、4つの主要な指標で旧バージョンに大きく遅れをとりました。最初は、ユーザーが慣れていないためかもしれないと誰もが考えていましたが、新バージョンのトラフィックが12%に増加し、観察期間が3か月に延長されたとき、状況は依然として非常に悪く、新バージョンは収益の20%の低下に直接つながりました。結局、Facebook は思い切った措置を講じ、すべてのユーザーに古いバージョンにロールバックして以前のデータを復元するよう求めました。

中国では、大学生向けの有名なソーシャルネットワーキング サイトが、少量のトラフィックで実験されていた Plan B を見て、それを直接コピーし、すぐにフル トラフィックで立ち上げました。その結果は皆さんもご存知のとおりです。今では、このウェブサイトは完全に三流のインターネット製品になってしまいました。

これは、失敗した製品計画が怖いのではなく、怖いのは AB 実験を経ずに直接オンライン化する企業システムと文化であることを示しています。

国内一流企業におけるAB実験事例を見てみましょう!

上記は、異なるガイドカードのスタイルの AB 実験です。最終結果では、スタイル 2 ではスタイル 1 と比較してCTR が24.8% 増加することがわかりました。

02 あなたのチームにはこのような問題がありますか?

1. AB実験を経ずに、トラフィック全体を直接オンラインで起動します。起動後、メンバーは必死にデータを探し、正しいことを証明します。証拠がこじつけであっても、外部に公開された声明が同じであれば、##指標が再び改善されました##と誰もが親指を立てます。 Google 、Facebook、Microsoft が AB 実験を行った結果、新しいデザインの 90% がオンライン バージョンほど良くないことが判明したことを知っておく必要があります。たとえあなたのチームが優秀だったとしても、Google、Facebook、Microsoft に勝つことはできないでしょう?

2. チームにはたくさんのアイデアがありますが、全員が自分の意見に固執し、誰も他の人を説得することができず、チームの意思決定が非常に困難になっています。


チームの変化は最初のAB実験から始まりました。誰の計画が優れているのか、誰の計画が十分に推進できるのか。議論する代わりに、AB実験を手配し、データを使用して競争する方がよいでしょう。

次の記事では、AB 実験の基本的な概念とよくある落とし穴について詳しく説明します。

03 AB実験とは何ですか?

たとえば、製品の改善計画(B と呼ぶ)を提案したが、オンライン バージョン(A と呼ぶ)よ​​りも効果が高いかどうかわからないため、オンライン ユーザー トラフィックの 1% を B に割り当て、トラフィックの 99% を A に割り当て、一定期間観察します。B が A よりも優れている場合は、B をトラフィックの 100% にします。A が B よりも優れている場合は、設計計画を修正して再度実験を行います。 Facebook の場合のように、AB 実験を行わずに新しいソリューションをリリースすると、その新しいソリューションによって製品が台無しになる可能性もあります。ここでのソリューションは、アルゴリズムのセット、コピーライティングのセット、運用アクティビティのセット、または UI スタイルのセットである可能性があります。同時に、実験は必ずしも AB ソリューションではなく、ABCDE... 実験である可能性があります。

04 AB実験で遭遇した問題

AB 実験の実装は、上記の例ほど簡単ではありません。たとえば、次のような問題が発生する可能性があります。

1. トラフィックの 1% の特性分布がトラフィック ユーザー グループの 99% の特性分布と一致するようにするにはどうすればよいでしょうか。

2. 実験中に新しい解決策のアイデア C が生まれた場合、それをオンラインで直接公開して同時実験を行うことはできますか?

3. 合計流量が 100% を超える複数の実験を並行して実行するにはどうすればよいですか?

4. AB 計画を測定するための指標をどのように選択するか? 複数の指標のデータが異なるパフォーマンスを示した場合、どのように決定を下すか?

5. プラン B とプラン A の指標値の違いがランダムエラーによるものなのか、統計的に信頼できるものなのかをどのように判断すればよいでしょうか?

AB実験の基本原理は「制御変数法」です。

指標値 = F ({隠し変数列}、{明示的な変数列 (ソリューション変数を含む)}) と仮定します。指標のデータパフォーマンスは関数 F と複数の変数の値によって共同で決定されるため、指標の測定結果を単純にスキームの違いに帰することはできません。特に、影響を与えることが決してわからない隠れた変数が多数あるためです。

では、結論を出す前に F とすべての変数を知る必要があるのでしょうか?もっと簡単な方法があります。 2 つのソリューション内の他の変数は一貫していることを確認できるため、ソリューション A とソリューション B 間のインジケーター結果の違いは、バージョンの違いにのみ起因します。 AB実験は、制御変数法の考え方を利用して、各製品ソリューションが同質の母集団(同じ特性分布を持つ)で同時にテストされ、ソリューション変数以外のすべての変数が一貫していることを保証します。したがって、指標の違いは異なるソリューションによって引き起こされたものであると判断でき、勝利したバージョンを選択してフルトラフィックで起動し、データの成長を実現できます。

AB 実験は非常に便利ですが、AB 実験の実装は簡単ではなく、多くの落とし穴につながることがよくあります。

05 AB実験の落とし穴は何ですか?

1. 異なる人々

AB 実験では、トラフィックを異なるプランに分割する必要があります。異なるプランに割り当てられたユーザー グループの特性が一致するようにトラフィックを正しく分割できない場合、実験は意味をなさなくなります。理解しやすくするために、例を見てみましょう。

グループ G で AB 実験を行い、どのようなギフトがユーザー登録のコンバージョン率を高めることができるかを調べたい場合はどうすればよいでしょうか? A と B は、それぞれ BB クリームとカミソリという異なる賞品の分配を表しています。G はサブグループ G1 と G2 で構成されています (G1 と G2 はそれぞれ女の子と男の子を表し、それぞれ 50% を占めます)。同質のユーザーの要件に応じて、これら 2 つのプランに割り当てられたユーザー トラフィックの男性と女性の比率は、全体の比率、つまり女性:男性 = 1:1 と一致する必要があります。

このとき、予想外の出来事が起こりました...

実験では、残念ながらプランAに割り当てられたグループはすべてG1(女の子)、プランBに割り当てられたグループはG2(男の子)でした。結局、一方の賞品の登録コンバージョン率は、例えばAの方がBよりも高く、もう一方の賞品よりも高くなりました。では、「賞品Aは賞品Bよりもユーザーに人気があり、賞品Aをすべてのユーザーに提供すべきだ」と結論付けてよいのでしょうか?

絶対に違います。この決定は、女の子が好きなものは男の子が好きなものだと仮定することと同じです。実験の結論によると、登録コンバージョン率の高いギフトAをすべてのユーザーGに提供する必要があります。男の子がBBクリームをもらったらどんな気持ちになるか想像してみてください。

ここで問題となるのは、異なる計画の下で割り当てられた人々が異なる性質を持っていることです。上記の例は、理解しやすいように比較的絶対的なものです。実際には、プラン A とプラン B の両方に男性と女性の混合グループが含まれるものの、その比率が全体の 1:1 の分布とは異なる状況に遭遇することが多く、これも誤った実験結論につながります。

したがって、各プランに転換される人々の特性分布が同じになるように、合理的な転換アルゴリズムを設計することが、AB 実験の結論の信頼性の前提条件となります。 1年以上の探査を経て、ダーウィンAB実験システムは比較的信頼性の高い転用アルゴリズムを形成しました。

2. 異なる時期の実験

上記の例で、プラン A とプラン B の両方が同じ特性分布を持つグループ G に割り当てられている場合、データは必ず比較可能でしょうか?不確か。理解を深めるために極端な例を使ってみましょう。 1 日目、プラン A のユーザー トラフィックが 100 万件、プラン B のユーザー トラフィックが 0 件だったとします。2 日目、プラン A のトラフィックが 0 件、プラン B のユーザー トラフィックが 100 万件だったとします。全体として、この 2 日間のプラン A とプラン B の累積実験トラフィックは 100 万件で、母集団は均質です。実験結果は信頼できるはずです。しかし、現実は予想に反しています。これがソーシャル ネットワーキング サイトであり、実験が異なる製品バージョン A と B で積極的に友達を追加するユーザーの数を観察することである場合、プラン A の方がはるかに有利です。結局のところ、ユーザーには友達を追加する余分な日があります。この場合、B はどの時間セクション データでも不利であり、この不利は異なるプランによって引き起こされたものではありません。同様に、ブログ サイトでも、異なるプランのユーザーのブログ開設率と書き込み率を比較すると、同じ間違いを犯す可能性があります。

もう 1 つの状況は、特別な日にユーザーのアクティビティが一時的に増加することです。プラン A が休日に効果的で、プラン B が休日に効果的でない場合、この比較は明らかにプラン B に対して不公平です。

上記の式: 「指標結果 = F ({隠し変数列}、{明示的変数列(プログラム変数を含む)})」では、隠し変数と明示的変数の大部分が時間に関係しています。これらの変数の値は時間によって異なり、制御変数法の前提が崩れ、正しい実験結論を導き出すことが不可能になります。

最後に、私たちが参加した事例を紹介して、その雰囲気をつかんでもらいましょう。

スタイル1のコピーライティング:「ひまわりマニュアル」はXXXを簡単に使えるようにする
スタイル2のコピーライティング:どの機能が最も人気があるのか​​をお教えします

初期段階では実験管理基準が標準化されていなかったため、2 種類の実験は同時に開始されませんでした。
1. スタイル1、4月7日10:00に実験開始
2. スタイル2、4月7日0:00に実験を開始

最終的な統計は、さまざまな結果を示しました。
4月7日10時以降に実験に参加したユーザーのデータを見ると、スタイル2のCTRはスタイル1よりもわずか0.3%程度高いだけであり、これは実験の前提を満たしているため、結論は信憑性があります。
しかし、4月7日の1日全体のデータを見ると、スタイル2のCTRはスタイル1よりも約1%高くなっています。これは、先ほど述べた実験の条件を満たしておらず、結論は信用できません。

ここでは次のようにも言われています。
1. 比較対象となるすべての実験バージョン(上記のスタイル1とスタイル2)は、同時に開始する必要があります。
2. 実験中は、各バージョンのトラフィックを自由に変更することができないため、間接的に上記の問題が発生する可能性がある。

3. AA実験の認識がない

AA 実験は AB 実験の双子の兄弟であり、一部のインターネット企業はこれをアイドル実験とも呼んでいます。 AA は、実験内のすべてのスキームが一貫していることを意味します。これを実行する目的は何ですか?これは、ポイントの配置、トラフィックの迂回、および実験統計の精度をテストし、AB 実験の実験的結論の信頼性を高めるためです。

命題 1 が「実験の追跡、転換、および統計に問題がない場合、AA 実験の各スキームのデータ パフォーマンスは一貫している必要があります。」であるとします。命題 1 が正しい場合、その逆の命題 2「AA 実験の各スキームのデータ パフォーマンスに大きな違いがある場合、実験の追跡、転換、および統計の少なくとも 1 つに問題がある必要があります。」も正しい必要があります。

厳密に言えば、AA 実験の合格は、上記 3 つの項目 (ポイント埋め込み、転用、統計) にまったく問題がないことを証明することはできませんが、AA 実験の不合格は、上記 3 つの項目のうち少なくとも 1 つに問題があることを明確に証明できます。

したがって、AB 実験リテラシーを備えたチームは、AB 実験の前に必ず AA 実験を実施します。

4. 実験の逆転

実験が初日にオンラインで設定され、プラン A がプラン B よりも優れている場合、2 日目と 3 日目のデータのパフォーマンスは同じになるということですか?

ユーザーは新しいソリューションを導入すると、好奇心から積極的になりがちですが、時間が経つにつれて徐々に落ち着き、データのパフォーマンスは本来あるべき状態に戻ります。実験観察期間を早めに設定しすぎると、誤った結論を導きやすくなります。逆の場合も同様です。改訂版に慣れていないユーザーもいますが、慣れてくると旧バージョンよりも便利だとわかり、データも徐々に回復していきます。

一方、実験のサンプル サイズが小さすぎると、逆転も発生する可能性があります。コインを 100 回投げたときと 100 万回投げたときの表が出る頻度は異なる可能性があります。大数の法則によれば、ランダムな実験の数が増えると、ランダム変数の頻度分布はその確率分布に近づく傾向があります。ここで、実験初日に 100 人のユーザーしかエントリーしなかったとします。サンプル サイズが小さすぎるため、実験結果のランダム性が強くなりすぎます。日数が増えるにつれて、実験サンプルも増え、実験結果が逆転する可能性があります。

一般的に、サンプルサイズが 1,000 ユーザー未満の製品では、実験結果を保証することが難しいため、AB 実験を実施することはお勧めしません。

5. ヒステリシス効果

化学の実験をしていたとき、先生がまず試験管をきれいにするように言ったのを覚えていますか?これは単に衛生上の理由だけではありません。試験対象の化学物質が試験管内の残留化学物質と混合されている場合、実際に実験されているのはこの「混合化学物質」であり、実験結果は確かに信頼できないものになります。上で述べた問題は、持ち越し、つまり遅延効果です。

インターネット製品の実験でも同じ問題が存在します。例えば、00001-10000と10001-20000のユーザーは、以前、異なる実験計画(AとB)に分けて実験を行いました。実験後、チームは新たな実験を開始しました。特別な処置がなければ、00001-10000と10001-20000のユーザーも2つの計画(A1、B1)に分けて実験を行うこともあります。この時点での実験結果は信頼できるものなのでしょうか? 00001 ~ 10000 のユーザーは以前にプラン A を経験しており、現在は全員がプラン A1 に該当します。10001 ~ 20000 のユーザーは以前にプラン B を経験しており、現在は全員がプラン B1 に該当します。おそらく、最初の実験前は 2 つのユーザー グループは同質でしたが、最初の実験後は 2 つのグループは同質ではなくなります。2 番目の実験を実行するには、特定のアルゴリズムを使用して 2 つのユーザー グループを再度分割し、新しい番号付けの配置を取得し、2 番目の実験用に 2 つの同質グループに分割するか、20001 ~ 30000、30001 ~ 40000 などの新しい番号セグメントを実験用に取り出す必要があります。

上記は常識的な落とし穴の一部であり、実際のプロセスではさらに多くの落とし穴があります...

中国のトップインターネット企業であるBATの間では、AB実験が非常に一般的になっています。Baiduでは数千のAB実験が並行して実行されており、 AlibabaとTencentも独自のAB実験システムを持ち、複数の事業における大規模な並行AB実験をサポートしています。

「AB の実験文化を企業の遺伝子に根付かせるにはどうすればよいか?」これは、時代がすべてのインターネット企業に問うている質問です。

この記事の著者@范磊は(Qinggua Media)によって編集および出版されています。転載する場合は著者情報と出典を明記してください。

製品プロモーションサービス:APPプロモーションサービス、広告プラットフォーム、Longyou Games

<<:  ポピュラーサイエンス丨ネイティブ広告を徹底解説!ニューメディア必読!

>>:  マーフィーの法則: 人生で不運を避ける20の方法

推薦する

認知イベントオペレーションの進化ガイド

今日は主にイベント運営やイベント企画についてお話します。主に4つのパートに分けてお話します。第1部:...

27の州が旅客路線を再開しました!それはどの27の州ですか?リストを添付します!

2月25日、北京で国務院共同予防・抑制メカニズムの記者会見が行われ、現在までに27省が旅客路線を再...

情報フロー、スプラッシュスクリーン、インセンティブ動画広告を徹底分析!

モバイル広告にはさまざまな形式があります。広告収益化のニーズがあるモバイルメディアの場合、独自のアプ...

運用データからチャネル詐欺を識別する 3 つの方法!

最近、CPの友人とチャットしていたとき、彼は泣きながら、広告会社でASOに20万元を投資したが、結局...

鞍山でスポーツミニプログラムを制作するにはどれくらいの費用がかかりますか?

さまざまな業界に浸透し、広告主やトラフィック所有者により効率的で多様な収益化ソリューションを提供する...

TikTokで海外に商品を宣伝するには?

ここ数年、広告市場は「悪循環」に陥っているようだ。プログラマティックバイイングや指標評価などの要素が...

収益化が難しい分野で、これらのセルフメディアはどのようにして何千万もの露出を獲得するのでしょうか?

現在、ほとんどのコンテンツクリエイターが作品の露出度が低い、収益が低い、ブランドの商品化が遅いなどの...

コースを始める(完了)ビッグデータ分析フルスタックエンジニア016

コースを開始する(完了)ビッグデータ分析フルスタックエンジニア016リソースの紹介:コースカタログ第...

Tencent Game Managerを例に、ユーザー数の増加についてお話ししましょう。

この記事では、「 Tencent Game Manager」を例に、市場背景、製品分析、ユーザー成長...

2019年のAPP製品運用分析を入手しましょう!

この記事では、市場、ユーザー、機能、運用など、さまざまな側面から Duoduo アプリを詳細に分析し...

Zhihuプロモーションを通じて低コストで顧客を獲得するには?

プロモーションを行う前に、少なくとも次の 5 つの質問を自問する必要があると思います。 1. 利用で...

営業許可証がなくてもシェアバイクを運転できますか?シェアサイクルサービスを開始するための要件は何ですか?

この記事では主に、シェアバイクを営業許可なしで運転できるかどうか、シェアバイクを開業するための要件に...

小紅書で商品を宣伝するためのヒント!

Xiaohongshu で商品を宣伝するためのヒント: 売上を伸ばすコンテンツを作成するには? X...

Douyin ライブストリーミングを再生する 4 つの方法を学びましょう。

この間、Douyin業界交流グループでは、九升目生放送の事例を共有している人をよく見かけました。異常...

オンラインイベントのプロモーションとマーケティング計画のための普遍的な公式!

本稿では、著者がマーケティング計画の根底にある論理について理解していることを伝え、著者が整理したマー...