ユーザー成長分析: ユーザーをセグメント化するには?

はじめに: 製品の成長分析では、特定の条件を満たすユーザーグループに焦点を当てます。これらのユーザーの全体的な行動 (訪問回数、訪問期間など) を知るだけでなく、ユーザー間で大きな違いがあるサブグループも知りたいと考えています。ユーザーセグメンテーション手法は、大きな違いがあるグループに対して詳細な分析を実施し、指標の数値の背後にある理由を探り、ユーザー数の増加を達成する方法を探るのに役立ちます。

1. ユーザーセグメンテーションの応用シナリオ

日々のデータ作業では、特定の条件を満たすユーザーグループに焦点を当てたい、といったリクエストを頻繁に受けます。これらのユーザーの全体的な行動 (訪問回数、訪問期間など) を知りたいだけでなく、具体的に誰がこれらの条件を満たしているかを知りたいのです。次に、これらの人々のデータをチェックし、ユーザーリストをエクスポートして、対象を絞ったヒントメッセージを送信します。特定の機能を使用する際に、特定の人の具体的な操作動作をさらに確認したい場合があります。ユーザーセグメンテーションは、このようなニーズを満たすために使用されるツールと方法です。これにより、大きな違いがあるグループを詳細に分析し、指標の数値の背後にある理由を探り、ユーザー数の増加を実現する方法を検討することができます。

たとえば、ユーザーポートレートのセグメンテーションでは、人口特性の正確な位置付けと潜在的なユーザーグループの探索にコア価値が置かれます。ウェブサイト、広告主、企業、広告会社がユーザーグループの差別化された特性を十分に理解し、グループの差別化された特性に基づいて顧客がマーケティングの機会と運用の方向性を見つけるのを支援し、顧客の中核的な影響力を総合的に向上できるようにします。

2. ユーザーのグループ化

図1: 5種類のユーザーセグメント

タイプ 1: アクティブユーザー全員をターゲットにしたり、グループテキストメッセージを送信したりするなど、グループ化は行われません。欠点は、ターゲットが絞られていないため、ユーザーの嫌悪感を招きやすいことです。

タイプ2: ユーザー登録情報に基づくグループ化など、ユーザーの基本情報に基づくグループ化。ユーザーをセグメント化しない場合に比べて、この方法はある程度のターゲティングが可能ですが、ユーザーを本当に理解していないため、期待どおりの結果は得られません。

タイプ 3: 年齢、性別、地域、ユーザーの好みなどによるユーザーポートレートのグループ化。ポートレート構築の焦点は、ユーザーグループに「ラベル」を付けることです。ラベルは通常、人間によって定義された非常に洗練された機能識別子です。最後に、ユーザーグループのラベルが結合され、ユーザーグループの 3 次元「ポートレート」の概要が作成されます。ポートレートセグメンテーションにより、ユーザーの特定の特性を真に理解することができ、ビジネスのプロモーションに非常に役立ちます。

タイプ4：ユーザー行動に基づくグループ化。この段階では、ポートレートグループ化に基づいてユーザーの行動特性に焦点を当てます。たとえば、ユーザーの登録チャネルとアクティブな習慣に基づいて、さまざまなマーケティングプロモーション戦略を策定します。

タイプ5：クラスタリングと予測モデリング。クラスタリングモデリングは、エンターテインメント、アイドル、ソーシャル、オフィスなどの総合的な特性指標に基づいてユーザーをさまざまなグループに分けることができます。予測モデリングは、ユーザーの次の態度と行動（たとえば、ユーザーが知りたいこと、やりたいこと）を推測しようとするものです。このため、複雑な行動プロセスをマーケティング自動化に変える際に非常に役立ちます。

3. 一般的なユーザーセグメンテーションのディメンション

1. 統計指標：年齢、性別、地域
2. 支払い状況: 無料、トライアル、有料ユーザー
3. 購入履歴: 未払いユーザー、1回払いユーザー、複数回払いユーザー
4. アクセス場所: ユーザーが製品を使用する地域
5. 使用頻度: ユーザーが製品をどのくらいの頻度で使用しているか
6. 使用の深さ: 軽度、中程度、重度ユーザー
7. 広告クリック: ユーザーが広告をクリックしたか、クリックしなかったか

4. よく使われるクラスタリング手法の紹介

上記では、クラスタリングに関するいくつかの方法とアイデアを紹介しました。次に、ユーザークラスタリングに焦点を当てます。クラスタリングは、階層的クラスタリング (マージ法、分解法、ツリーダイアグラム) と非階層的クラスタリング (パーティションクラスタリング、スペクトルクラスタリングなど) に分けられます。より一般的に使用されるインターネットユーザークラスタリング方法は、K 平均法クラスタリング法と 2 段階クラスタリング法 (どちらもパーティションクラスタリング) です。

クラスター分析の特徴:

シンプルで直感的。
主に探索的研究で使用されます。分析の結果、複数の解決策が提示されます。最終的な解決策の選択には、研究者の主観的な判断とそれに続く分析が必要です。
実際のデータに実際に異なるカテゴリが存在するかどうかに関係なく、クラスター分析では複数のカテゴリのソリューションを取得できます。
クラスター分析の解決は、研究者が選択したクラスタリング変数に完全に依存します。いくつかの変数を追加または削除すると、最終的な解決に大きな影響を与える可能性があります。
クラスター分析を使用する場合、研究者は結果に影響を与える可能性のあるさまざまな要因に特別な注意を払う必要があります。
外れ値と特殊変数はクラスタリングに大きな影響を与える
カテゴリ変数の測定尺度が一貫していない場合は、事前に標準化する必要があります。

クラスター分析の弱点:

クラスタリングは教師なしクラス分析方法であり、いくつのクラスに分割する必要があるかを自動的に検出することはできません。
ほぼ同等のクラスまたは市場セグメントを明確に見つけることができると期待するのは非現実的です。
サンプルのクラスタリングでは、変数間の関係を研究者が決定する必要があります。
最適なクラスタリング結果が自動的に得られるわけではありません。

クラスター分析の適用プロセス:

（１）クラスタリング変数を選択する

機能を選択する際には、一定の仮定に基づいて、製品の使用行動に影響を与える変数を選択するように最善を尽くします。これらの変数には通常、製品に密接に関連するユーザーの態度、意見、行動が含まれます。ただし、クラスター分析プロセスでは、クラスター化に使用される変数に対して特定の要件があります。1. 異なる研究対象におけるこれらの変数の値には明らかな違いがあります。2. これらの変数間に高い相関関係があってはなりません。

まず、クラスタリングに使用する変数が多いほど、効果があります。明らかな違いのない変数はクラスタリングにとって実質的な意味がなく、結果に偏りが生じる可能性があります。次に、相関の高い変数はこれらの変数に重み付けすることと同等であり、これはユーザー分類における特定の要因の影響を増幅することと同等です。適切なクラスタリング変数を識別する方法: 1. 変数に対してクラスター分析を実行し、クラスター化されたカテゴリから代表的な変数を選択します。2. 主成分分析または因子分析を実行して、クラスタリング変数として新しい変数を生成します。

（２）クラスター分析

クラスタリング前の準備作業と比較すると、実際の実行プロセスは極めてシンプルです。データが準備できたら、統計ツールにインポートして実行すると、結果が表示されます。ここで遭遇する問題の 1 つは、ユーザーをいくつのカテゴリに分類する必要があるかということです。通常、総合的な判断は、1. 変曲点を見る（階層的クラスタリングではクラスタリング係数グラフが生成され、一般的には変曲点付近のいくつかのカテゴリを選択する）、2. 経験や製品の特性に基づいて判断する（製品によってユーザーの違いも異なる）、3. 論理的にわかりやすく説明できる、などの複数の基準を組み合わせることで行うことができます。

図2: 集約係数グラフ

（３）各タイプのユーザーの重要な特性を把握する

分類スキームを決定した後、各変数における各カテゴリのユーザーのパフォーマンスを再度観察する必要があります。差異テストの結果に基づいて、この指標でさまざまなタイプのユーザーのレベルを色で区別します。他の変数についても同様です。最後に、さまざまなカテゴリのユーザーを他のカテゴリのユーザーと区別する重要な特性について説明します。

（４）クラスターの解釈と命名

ユーザーセグメントを理解して解釈する場合は、人口統計データ、機能の好みデータなど、より多くのデータを組み込むことが最適です。次に、各カテゴリの最も顕著な機能を選択して名前を付ければ完了です。

5. ユーザーセグメンテーションにおけるK平均法クラスタリングの応用例

この場合、まず、最も一般的に使用されている非階層型クラスタリング手法である、最も一般的に使用されている K-Means クラスタリング手法 (高速クラスタリング手法とも呼ばれます) について見ていきます。 K-Means は、計算方法がシンプルで直感的であり、速度が比較的速い (階層的クラスタリング法と比較して) ため、探索的分析を行う際に最初に使用されるアルゴリズムとなることがよくあります。さらに、広く採用されているため、共同コミュニケーション中の説明にかかる時間コストも大幅に節約できます。

1. K平均法アルゴリズムの原理:

k 個のクラスターの中心として k 個の要素をランダムに選択します。
残りの要素と k 個のクラスターの中心との類似度を計算し、これらの要素を最も類似度の高いクラスターに割り当てます。
クラスタリング結果に応じて、クラスター内のすべての要素の次元の算術平均を取ることによって、k 個のクラスターの中心が再計算されます。
新しい中心に従ってすべての要素を再クラスタ化します。
クラスタリング結果が変化しなくなるまで手順 4 を繰り返し、結果を出力します。

抽出した元データの集合が (X1, X2, …, Xn) であり、各 Xi が d 次元ベクトルであるとします。K 平均法クラスタリングの目的は、与えられた分類グループ番号 k (k ≤ n)、S = {S1, S2, …, Sk} の条件下で、元データを k 個のカテゴリに分割することです。数値モデルでは、次の式の最小値を見つけることです (μi は分類 Si の平均値を表します)。

2. ユーザーグループ化の背景と目標:

ある商品は、さまざまな社会集団（年齢層、業種、興味関心など）をカバーしているため、一般ユーザー市場をセグメント化し、ターゲットを絞った運用活動を行う必要があります。

3. クラスタリング変数の選択:

ユーザーポートレート機能、ユーザーステータス機能、ユーザーアクティビティ機能

4. クラスター分析と結果:

相関分析と変数重要度分析により、効果の悪い変数が排除され、残りの11個の変数は複数回トレーニングされ（ターゲットクラスター数、参加変数、グループ内の個人差の許容度）、最終的にクラスタリング結果が得られました。

図3: ユーザーグループ化のK平均クラスタリング効果

5. 結果の解釈と命名:

クラスター1: 低年齢層、低所得層クラスター2: 活発な学生層クラスター3: 職場での高粘度層クラスター4: 職場での低粘度層クラスター5: 年齢が高く活動性が低い層

表2: ユーザーグループ化のK平均クラスタリング結果

6. 2段階クラスタリングとk平均法クラスタリングの効果の比較

前述の K-Means クラスタリング手法には、シンプルで直感的、かつ高速であるという利点があります。ただし、数値変数しか使用できず、カテゴリ変数を含めることができないこと、外れ値に非常に敏感であることなど、欠点があり、クラスタリング結果に容易かつ重大な影響を与える可能性があります。さらに、データセットが大きく（Tencent では一般的）、すべてのデータポイントをメモリにロードできない場合、K-Means を単一のマシンで実行することはできません。 2 段階クラスタリングルールは上記の欠点を克服します。カテゴリ変数と数値変数を含めることができ、ハードウェア条件が不十分な場合やデータセットが非常に大きい場合でもスムーズに実行できます。この 2 段階のクラスタリング方法は、改良された BIRCH クラスタリングアルゴリズムと階層的クラスタリング方法を組み合わせたものと言えます。まず、BIRCH アルゴリズムの「クラスタリング特徴ツリー」を使用して事前クラスタリングを行い、サブクラスを形成し、次にサブクラスを階層的クラスタリングの入力として使用します。

1. 2段階クラスタリングの原則:

ステップ 1: 事前クラスタリングプロセス:

クラスター特徴ツリー (CFT) を構築し、それを多数のサブクラスに分割します。

最初に、特定の観測がツリーのルートノードに配置され、観測の変数情報が記録されます。次に、類似性の基準として指定された距離測定に基づいて、後続の各観測は、既存のノードとの類似性に応じて最も類似したノードに配置されます。類似ノードが見つからない場合は、新しいノードが形成されます。このステップでは、外れ値が識別されて削除され、K-Means ほど簡単には結果に影響を与えません。

ステップ2: 正式なクラスタリング:

最初のステップで完了した事前クラスタリングが入力として取得され、階層的クラスタリング法 (距離測定として対数尤度関数を使用) を使用して再クラスタリングされます。各段階で、Schwarz ベイズ情報量基準 (BIC) を使用して、既存の分類が既存のデータに適しているかどうかを評価します。

最後に、基準を満たす分類スキームが示されます。

2. 2段階クラスタリングの利点:

1. 大量データ処理
2. データを自動的に標準化します。
3. カテゴリ変数と連続変数の混合データを扱うことができる。
4. 外れ値は自動的に破棄されるか、最も近いクラスに分類されます。
5. カテゴリの数は、ビジネスニーズに応じて自動的に決定することも、手動で指定することもできます。

3. 2段階クラスタリングの効果の比較:

ポイント6と同じデータに対して2段階クラスタリングを実行すると、最適なモデル結果は次のようになります。

図4: ユーザーグループ化の2段階クラスタリング効果

4. 2段階クラスタリング結果の解釈:

クラスター 1: 低所得層および若年層クラスター 2: 活動性の高い学生または新入社員クラスター 3: 活動性の低い若者クラスター 4: 仕事に没頭する若者クラスター 5: 職場のオフィスグループクラスター 6: 活動性の低い高齢者

表3: ユーザーグループの2段階クラスタリング結果

7. ビジネスケース - K平均法クラスタリングによる特別な行動パターンを持つ顧客グループのマイニング

1. ビジネス要件

この場合、プロダクトマネージャーは、ログインしていない非アクティブなユーザーの行動パターンを理解し、さまざまな行動の組み合わせに基づいて大規模なユーザーグループをセグメント化できるようにして、さまざまなグループのさまざまなニーズに焦点を当て、さらには垂直分野のニーズを探り、製品側または運用側で対策を講じてサイレントユーザーを活性化し、DAU を増加したいと考えています。

2. 目標を分析する

市場の典型的なユーザーとは異なる使用パターンを持つユーザーグループを発見する
各セグメントのユーザー数を大まかに見積もる
各セグメントの行動特性とユーザープロファイルを理解する
上記の結果に基づいて、製品や運用に関する提案を提出したり、売上を伸ばすためのさらなる検討の方向性を明確にしたりします。

3. 分析プロセス

a) 特徴抽出

分析はユーザーのクリック動作に焦点を当てています。この例では、ユーザー行動の典型性を考慮して、4 週間、合計 28 日間のデータが選択され、その時間枠内に休日はありませんでした。さらに、コンピューティングパフォーマンスと探索的分析に繰り返し反復が必要となるシナリオを考慮すると、市場から代表としてランダムに選択されるユーザーは 1000 分の 1 だけです。

b) 機能スクリーニング

特徴抽出段階では、約200個の機能ポイントのクリックデータが抽出されました。ただし、これらの機能の一部はカバー率が非常に低く、28 日以内に使用したユーザーはわずか 1 % です。これらのカバー率の低い機能は最初に削除されます。

さらに、前述のように、相関の高い変数もクラスタリングプロセスに干渉します。ここでは、すべての特徴に対してピアソン相関係数がペアごとに計算されます。相関の高い特徴 (相関係数が 0.5 を超える) については、ユーザーの違いを最大限に反映するために、最も広い範囲をカバーする特徴のみが保持されます。

c) 特徴変換-探索

上記の 2 つの手順の後、著者は多くのクラスタリング調査を実施しましたが、例外なく、クラスタリング結果はすべて、数十の非常に小さなカテゴリ (数人または数十人のユーザー) を含む非常に大きなカテゴリを示しています。このような結果は明らかに私たちの分析目的に反しています。まず、ここで発見された小グループは小さすぎて、ビジネスの観点からは価値がありません。次に、超大規模カテゴリは基本的に一般市場のユーザーと同等であり、ユーザー間の違いは見つかりません。

なぜこのような結果になるのでしょうか。主な理由は、クリック動作が基本的にべき乗分布に従うためです。多数のユーザーが低頻度の範囲に集中している一方で、ごく少数のユーザーが極めて高い頻度を持っています。このように、一般的なクラスタリングアルゴリズムでは、高頻度のユーザーはごく少数の人で構成される小さなカテゴリにクラスタリングされ、多数の低頻度のユーザーは超大規模なカテゴリにクラスタリングされます。

図5: クリック行動の分布

図6: クリック行動カウントのK平均クラスタリング図

このような状況では、頻度の対数を取り、べき乗分布を近似正規分布に変換してからクラスタリングを実行するのが一般的な解決策です。この研究では、自然対数を取った後、クラスタリングの効果はわずかに改善されましたが、依然として、1つの非常に大きなカテゴリと、非常に少数の人々のいくつかの小さなカテゴリの状況のままでした。その理由は、クリック行動データの特性の一つで、コア機能や人気アイテムはクリック数が多く、比較的人気のない機能は 0 値が多いためです。この場合、対数を取っても改善されません。

図7: 営業時間の分布

図8: 開店時間の分布（自然対数変換）

この分析の目標に戻ると、「市場の典型的なユーザーとは異なる使用行動パターンを持つセグメント化されたグループを発見する」必要があります。これらの人気のない機能を破棄して、人気のあるオプションのみを検討すると、分析目標を達成するための比較的ニッチな行動パターンを見つけることができません。このまばらな数値状況は、テキスト分類を思い出させます。テキスト分類の bag-of-words モデルでは、各「ドキュメント」の単語ベクトルにも多数のゼロ値が含まれます。 bag-of-words モデルの解決策は、TF-IDF 方式を使用して単語ベクトルに重み付けすることです。この方法の簡単な紹介です

d) 特徴変換 - TF-IDF

テキスト分類の Bag-of-Words モデルでは、議論されているトピックに従って「ドキュメント」(ニュース記事、マイクロブログ、コメントなど) をグループ化する必要があり、ドキュメントには多くの用語が含まれています。 TF (Term Frequency) は、文書内の単語の総数に対する、文書内での単語の出現回数の比率を指します。この簡単な計算により、文書自体の長さに影響を受けることなく、文書内でどの単語がより頻繁に使用されるかがわかります。

一方、すべての記事で使用されている「流行語」もあります。これらの単語は、記事のトピックを区別するのにあまり役立ちません（ニュースの「レポート」、「記者」など）。このような「人気のある」単語については、重みを下げる必要があるため、（文書の総数/特定の単語を含む文書の数）などの計算によって目標を達成できます。各記事の単語の重みは0になり、含まれる文書が少ないほど、値は大きくなります。この計算はIDF（逆文書頻度）です。

以上の議論から、読者は、「文書」という概念を「ユーザー」に変更し、「単語の出現回数」を「機能のクリック回数」に置き換えれば、ユーザーの行動の種類を分類できるのではないかと考えたかもしれません。まず、低頻度ユーザーの機能的な好みはTFの計算を通じて反映され、全体的な使用頻度が低いという理由だけで、高頻度ユーザーと比較した場合に低頻度ユーザーのカテゴリーにまとめられることはありません。同時に、IDF は一部のニッチな特徴に大きな重みを与えるため、クラスタリングにおいてニッチな好みを強調しやすくなります。

e) クラスタリング結果

このような特徴変換とK-Meansアルゴリズムを使用したクラスタリングにより、結果は分析目的にさらに一致しました。市場データから、明確な行動特性を持つさまざまなグループを見つけ、各グループの規模、行動特性、背景特性を大まかに推定しました。これを基に、ユーザー調査データを組み合わせて、製品改善の提案を検討します。

8. まとめ

ユーザーセグメンテーションがユーザーデータ研究の分野にもたらす最大の変化は、データサイロを解体し、ユーザーを真に理解することです。特定の指標数値の背後にあるユーザーの特性（人口統計学的属性、行動特性など）を分析し、製品の問題の原因を発見し、効果的な製品改善の機会や方向性を見つけます。

クラスター分析を実行する場合、特徴の選択と準備が非常に重要です。1. 適切な変数は、各サンプルで大幅に異なる必要があります。2. 変数間に強い相関関係があってはなりません。そうでない場合は、まず PCA などの方法を使用して次元を削減する必要があります。3. データ自体の特性とビジネス特性 (標準化、対数など) に応じてデータを変換する必要があります。

クラスタリングアルゴリズムの選択では、データの特性 (変数、外れ値、データ量があるかどうか、クラスタ化されているかどうか)、計算速度 (探索的分析ではより高速な計算速度が必要になることが多い)、精度 (コミュニティを正確に識別できるかどうか) などを考慮して、適切なアルゴリズムを選択する必要があります。 K-Means のカテゴリ数 K などのアルゴリズムのパラメータについては、技術的な指標とビジネスの背景を組み合わせて、論理的に合理的な分類スキームを選択する必要があります。

クラスタリングアルゴリズムは数多くあり、それぞれに特徴と長所があります。この記事では、議論を刺激し、読者のインスピレーションとなることを願って、最も一般的に使用されている 2 つの方法のみを例として取り上げます。

著者: Tencent QQ Big Data 、 Qinggua Media より出版許可を得ています。

出典: テンセントQQビッグデータ

<<: 長期正式副業プロジェクト、絶対確実な運営、日収300+【有料記事】

>>: ニューメディアオペレーションズ：ミ・メンの複数アカウントの削除についての考察！