コンテンツアプリはどのようにユーザーにタグを付け、コンテンツをプッシュするのでしょうか?

2017年から2018年末にかけて、情報コンテンツ興味嗜好タグに関するプロジェクトに参加しました。コンテンツ興味優先タグとは何ですか?

簡単に言えば、ユーザーが好んで読む記事の種類を分析し、ユーザーの興味の好みを把握することです。これに基づいて、パーソナライズされたコンテンツの推奨やプッシュ通知をユーザーに提供し、アプリのアクティビティを効果的に促進して、ユーザーのライフサイクルを延長します。

簡単に言えば、これは 2 段階のプロセスです。

1 つ目は記事を分類することです。これは一般に記事のラベル付けと呼ばれます。
2 つ目は、ユーザーにラベルを付けることです。つまり、ユーザーが読む記事の種類に基づいて、対応する興味の好みのタグを取得します。たとえば、私がテクノロジー関連の記事を読むのが好きなら、テクノロジー情報のユーザーとして分類される可能性が非常に高くなります。全体的なプロセスは次のとおりです。

では、実際には本当にそんなに簡単なのでしょうか?これら 2 つの一見単純なステップはどのようにして実現されるのでしょうか?

まず、記事の分類についてお話しましょう。

このプロジェクトのおかげで、多くの競合アプリの記事分類を調べたところ、基本的には一貫しているものの、細部には若干の違いがあることが分かりました。さらに深刻な問題は、情報記事の分類を網羅することが難しいことです。私たちは、市場にある既存の分類を参考にし、いくつかの資料と組み合わせて、完全なコンテンツ関心優先システムを開発しました。分類を指定する際には、MECE原則に従い、基本的に相互独立性と完全な網羅性を実現しました。

次に、記事を分類したいので、分類アルゴリズムの教師あり学習を使用します。理想的なプロセスは次のようになります。

しかし、実際には 2 つの問題に直面します。教師あり学習を選択するため、ラベル付けされたサンプルのベースを提供する必要があります。一般的に、サンプルを入手するには 3 つの方法があります。

1つは、手動で記事に注釈を付けることです。利点は正確性ですが、欠点は効率が低いことです。アルゴリズムには多数のサンプルが必要で、コストが非常に高くなります。
もう一つの方法は、Sogou語彙集から取得したキーワードなど、オープンソースのウェブサイトが提供するキーワードを通じてモデルをトレーニングすることです。利点はコストが低いことですが、欠点も明らかです。異なる分類システムによる一部の分類の理解に一貫性がないため、分類の精度が十分ではなく、後の段階で修正に多くの人手が必要になります。
3つ目の方法は、いくつかの情報アプリと連携して、その記事やカテゴリをサンプルとして入手することです。例えば、現在好調なToutiaoやUCは良い選択肢です。当時はみんなで試してみました（悔し涙）。

サンプルを取得した後、次のステップはアルゴリズムモデルをトレーニングしてテストすることです。アルゴリズムモデルのトレーニング原理は、サンプル記事をセグメント化し、エンティティを抽出し、特徴エンジニアリングを確立し、各特徴語をベクトルとして使用し、関数を適合させることです。このようにして、新しい記事がある場合、記事はセグメント化され、モデルを通じて結果が計算されます。ただし、サンプルが収集されるとモデルは正確ではなくなるため、モデルをテストして修正する必要があります。一般的なテストプロセスは次のとおりです。

テストに合格したモデルは、一度限りの解決策ではありません。後の段階で不正確な分類の問題がまだ発生する可能性があります。これは、サンプルまたはアルゴリズムモデルによって発生する可能性があります。これには、これらの異常な記事とその分類を見つけて分類を修正し、それらをトレーニングサンプルとして再度モデルに入力してモデルを修正する必要があります。一方では、コンバージョン率が比較的低いカテゴリの記事を手動でチェックし、問題がアルゴリズムにあるかどうかを判断することができます。さらに、ここでは各記事ラベルに値が割り当てられているため、これらの値にしきい値を設定できます。最高値が特定のしきい値よりも低い場合、これらの記事とそのラベルが呼び出され、手動で注釈が付けられ、修正されてから、サンプルライブラリに配置されます。

記事ラベルの計算は、記事が複数のラベルを持つことができることであり、いくつかのバイナリ分類結果ではありません。そのため、類似性アルゴリズムを使用して記事のラベルを計算し、値を割り当てる方法を採用しています。値が高いほど、このタイプのラベルに近くなり、それに応じてラベルが付けられます。

この時点で、記事のタグ付け部分は完了です。

ユーザーにタグを付ける方法

実際にユーザーにラベルを付ける方法は、統計的ラベル付けとアルゴリズム的ラベル付けの 2 つがあります。

統計タイプは比較的単純で大まかであり、ユーザーが一定期間に読む記事の種類をユーザーの興味の好みとして使用します。
アルゴリズムは、記事の閲覧回数、閲覧間隔、記事と現在のホットなイベントとの関係、ユーザー属性要因など、さらに多くの影響要因を追加します。

前者は、アルゴリズムのリソースが不足し、運用上の需要が高い場合に最初に実装することができ、後者は前者に基づいてトラフィックの一部を分割し、アルゴリズムモデルを検証および調整して継続的に最適化することができます。

しかし、最初の方法を使用したところ、一定期間にユーザーが読む記事の種類は一定ではないことがわかりました。ほとんどのユーザーは、1 つまたは複数の主な興味関心の好みを持っており、これらの種類の記事をより多く読んでいます。しかし同時に、ユーザーは多かれ少なかれ他の種類の記事も読んでいます。見つけたものは何でも読むユーザーもいます。

このような状況を踏まえて、ユーザーの興味嗜好をランク付けする必要があります。つまり、一定期間内に各記事タイプでユーザーが読んだ記事の数をランク付けし、ユーザーの上位 10 個のタグを取得することで、ユーザーがどのようなタイプの記事を好むか、これらのタイプの中でユーザーのお気に入りのタイプの優先順位がどの程度であるかを運用チームに明確に伝え、運用チームがプッシュ選択を行うことができます。

したがって、ユーザータグもより柔軟になり、イベント時間やイベント頻度などの重みに基づいて運用スタッフがユーザーグループを柔軟に組み合わせて選択できるようにする必要があります。

現在、プッシュ通知は記事の選定からユーザーの選定、記事とユーザーのマッチングまで、多くの部分を手作業で行っています。正式なプッシュ通知を行う前には、多くのA/Bテストを実施するのが一般的です。しかし、情報記事の種類は多く、第1階層タグは30以上、第2階層タグは100～数百と多岐にわたります。タグの総数は数千にも上る可能性があり、運用担当者だけにプッシュ通知を頼るのは到底不可能です。

したがって、運用リソースが限られていて自動化が実現できない場合、オペレーターは通常、タグをテストし、多数のユーザーをカバーし、コンバージョン率が高いタグを選択します。しかし同時に、この状況により、よりニッチな興味を持つ一部のユーザーがプッシュ通知の対象から除外されることになります。

このような状況では、ユーザーの上位 10 個のセカンダリタグとそれに対応するプライマリタグを、ユーザーのプライマリタグとセカンダリタグとして取得します。これにより、ユーザーカバレッジの問題が解決され、オペレーターは特定のタグやグループにコンテンツをプッシュすることに集中できるようになります。

しかし同時に、別の問題も発生します。一定期間内のユーザーの行動を選択する場合、ユーザーの興味を十分に反映し、同時により多くのユーザーをカバーするには、この期間はどのくらいの長さにすべきでしょうか (毎日離脱するユーザーがいるため、タイムラインが長いほどカバーされるユーザーが多くなり、タイムラインが短いほどカバーされるユーザーが少なくなります)。

ユーザーの長期的な興味の好みはある程度安定する傾向がありますが、短期的な興味の好みは、ユーザーが短期的にホットなトピックをフォローする行動を反映していることがわかりました。したがって、この観点からは、短期的にはユーザーのニーズをよりよく満たすことができるかもしれませんが、短期的にカバーされるユーザーの数は少なくなります。ここでは、カバレッジとコンバージョン率の間に常に矛盾が存在します。

私たちのアプローチは、閲覧時間に基づいてユーザーをセグメント化することです。ユーザーに長期的関心の好みと短期的関心の好みを割り当て、短期的関心の好みを優先します。短期的関心のユーザーを長期的関心の好みから除外し、異なるプッシュ通知を送信します。紛失したユーザーについては、過去 3 か月間 (当時の情報では、紛失したユーザーの期間が 3 か月間と定義されていました) にアクセス記録がない可能性が非常に高いため、そのようなユーザーについては、そのユーザーの最後に記録されたタグをユーザータグとして取得し、紛失回復を実行します。

この時点で、すべてのユーザーには独自のラベルがあり、運用スタッフはユーザーのアクティブ時間や閲覧頻度に基づいて異なる記事を異なるユーザーにプッシュすることもできるため、ユーザーごとにパーソナライズされたサービスが実現します。

この問題に関して私たちは多くの罠に陥ったと言えるでしょう。

2 つ目の方法は、アルゴリズムを通じてユーザーに直接ラベルを付ける方法です。時間と読書頻度に加えて、ユーザーが記事を読んでからの時間、ユーザーが記事を読んでいる時間の長さ、コメント、いいねなど、より多くの特徴次元をアルゴリズムモデルに追加できます。同時に、ホットな記事やホットなイベントについては、記事の重みを減らすことができます。

結論

この経験を振り返ってまとめてみると、あるいは読者の皆さんが私に従ってこの経験を理解しても、実はとても単純なことだと思うかもしれません。しかし、この経験の中で私たちは本当に数え切れないほどの落とし穴に陥りました。特に、データの収集やラベルの作成だけでなく、ビジネスを立ち上げて問題を分析するように導く必要がありました。その経験は、苦しくも幸せだったと言えます。

苦痛なのは、問題が多すぎて、取引先から「なぜ今日もコンバージョン率が低いのか」と毎日尋ねられ続けるからです。喜びは、ついにコンバージョン率が2倍以上になり、業界水準を上回ったことです。これが最高の報酬です。

著者：タンタンは伝統的な漬物キャベツの女王です

出典：タンタンは伝統的な漬物の女王です

<<: モバイルインターネットマーケティングディレクターの運用・プロモーション企画事例

>>: Douyin ライブ放送現場制御操作は何をしますか? Douyinライブ放送管理の責任の紹介