2017年から2018年末にかけて、情報コンテンツ興味嗜好タグに関するプロジェクトに参加しました。コンテンツ興味優先タグとは何ですか? 簡単に言えば、ユーザーが好んで読む記事の種類を分析し、ユーザーの興味の好みを把握することです。これに基づいて、パーソナライズされたコンテンツの推奨やプッシュ通知をユーザーに提供し、アプリのアクティビティを効果的に促進して、ユーザーのライフサイクルを延長します。 簡単に言えば、これは 2 段階のプロセスです。
では、実際には本当にそんなに簡単なのでしょうか?これら 2 つの一見単純なステップはどのようにして実現されるのでしょうか? まず、記事の分類についてお話しましょう。このプロジェクトのおかげで、多くの競合アプリの記事分類を調べたところ、基本的には一貫しているものの、細部には若干の違いがあることが分かりました。さらに深刻な問題は、情報記事の分類を網羅することが難しいことです。私たちは、市場にある既存の分類を参考にし、いくつかの資料と組み合わせて、完全なコンテンツ関心優先システムを開発しました。分類を指定する際には、MECE原則に従い、基本的に相互独立性と完全な網羅性を実現しました。 次に、記事を分類したいので、分類アルゴリズムの教師あり学習を使用します。理想的なプロセスは次のようになります。 しかし、実際には 2 つの問題に直面します。教師あり学習を選択するため、ラベル付けされたサンプルのベースを提供する必要があります。一般的に、サンプルを入手するには 3 つの方法があります。
サンプルを取得した後、次のステップはアルゴリズム モデルをトレーニングしてテストすることです。アルゴリズムモデルのトレーニング原理は、サンプル記事をセグメント化し、エンティティを抽出し、特徴エンジニアリングを確立し、各特徴語をベクトルとして使用し、関数を適合させることです。このようにして、新しい記事がある場合、記事はセグメント化され、モデルを通じて結果が計算されます。ただし、サンプルが収集されるとモデルは正確ではなくなるため、モデルをテストして修正する必要があります。一般的なテストプロセスは次のとおりです。 テストに合格したモデルは、一度限りの解決策ではありません。後の段階で不正確な分類の問題がまだ発生する可能性があります。これは、サンプルまたはアルゴリズム モデルによって発生する可能性があります。これには、これらの異常な記事とその分類を見つけて分類を修正し、それらをトレーニング サンプルとして再度モデルに入力してモデルを修正する必要があります。一方では、コンバージョン率が比較的低いカテゴリの記事を手動でチェックし、問題がアルゴリズムにあるかどうかを判断することができます。さらに、ここでは各記事ラベルに値が割り当てられているため、これらの値にしきい値を設定できます。最高値が特定のしきい値よりも低い場合、これらの記事とそのラベルが呼び出され、手動で注釈が付けられ、修正されてから、サンプルライブラリに配置されます。 記事ラベルの計算は、記事が複数のラベルを持つことができることであり、いくつかのバイナリ分類結果ではありません。そのため、類似性アルゴリズムを使用して記事のラベルを計算し、値を割り当てる方法を採用しています。値が高いほど、このタイプのラベルに近くなり、それに応じてラベルが付けられます。 この時点で、記事のタグ付け部分は完了です。 ユーザーにタグを付ける方法実際にユーザーにラベルを付ける方法は、統計的ラベル付けとアルゴリズム的ラベル付けの 2 つがあります。
前者は、アルゴリズムのリソースが不足し、運用上の需要が高い場合に最初に実装することができ、後者は前者に基づいてトラフィックの一部を分割し、アルゴリズム モデルを検証および調整して継続的に最適化することができます。 しかし、最初の方法を使用したところ、一定期間にユーザーが読む記事の種類は一定ではないことがわかりました。ほとんどのユーザーは、1 つまたは複数の主な興味関心の好みを持っており、これらの種類の記事をより多く読んでいます。しかし同時に、ユーザーは多かれ少なかれ他の種類の記事も読んでいます。見つけたものは何でも読むユーザーもいます。 このような状況を踏まえて、ユーザーの興味嗜好をランク付けする必要があります。つまり、一定期間内に各記事タイプでユーザーが読んだ記事の数をランク付けし、ユーザーの上位 10 個のタグを取得することで、ユーザーがどのようなタイプの記事を好むか、これらのタイプの中でユーザーのお気に入りのタイプの優先順位がどの程度であるかを運用チームに明確に伝え、運用チームがプッシュ選択を行うことができます。 したがって、ユーザー タグもより柔軟になり、イベント時間やイベント頻度などの重みに基づいて運用スタッフがユーザー グループを柔軟に組み合わせて選択できるようにする必要があります。 現在、プッシュ通知は記事の選定からユーザーの選定、記事とユーザーのマッチングまで、多くの部分を手作業で行っています。正式なプッシュ通知を行う前には、多くのA/Bテストを実施するのが一般的です。しかし、情報記事の種類は多く、第1階層タグは30以上、第2階層タグは100~数百と多岐にわたります。タグの総数は数千にも上る可能性があり、運用担当者だけにプッシュ通知を頼るのは到底不可能です。 したがって、運用リソースが限られていて自動化が実現できない場合、オペレーターは通常、タグをテストし、多数のユーザーをカバーし、コンバージョン率が高いタグを選択します。しかし同時に、この状況により、よりニッチな興味を持つ一部のユーザーがプッシュ通知の対象から除外されることになります。 このような状況では、ユーザーの上位 10 個のセカンダリ タグとそれに対応するプライマリ タグを、ユーザーのプライマリ タグとセカンダリ タグとして取得します。これにより、ユーザー カバレッジの問題が解決され、オペレーターは特定のタグやグループにコンテンツをプッシュすることに集中できるようになります。 しかし同時に、別の問題も発生します。一定期間内のユーザーの行動を選択する場合、ユーザーの興味を十分に反映し、同時により多くのユーザーをカバーするには、この期間はどのくらいの長さにすべきでしょうか (毎日離脱するユーザーがいるため、タイムラインが長いほどカバーされるユーザーが多くなり、タイムラインが短いほどカバーされるユーザーが少なくなります)。 ユーザーの長期的な興味の好みはある程度安定する傾向がありますが、短期的な興味の好みは、ユーザーが短期的にホットなトピックをフォローする行動を反映していることがわかりました。したがって、この観点からは、短期的にはユーザーのニーズをよりよく満たすことができるかもしれませんが、短期的にカバーされるユーザーの数は少なくなります。ここでは、カバレッジとコンバージョン率の間に常に矛盾が存在します。 私たちのアプローチは、閲覧時間に基づいてユーザーをセグメント化することです。ユーザーに長期的関心の好みと短期的関心の好みを割り当て、短期的関心の好みを優先します。短期的関心のユーザーを長期的関心の好みから除外し、異なるプッシュ通知を送信します。紛失したユーザーについては、過去 3 か月間 (当時の情報では、紛失したユーザーの期間が 3 か月間と定義されていました) にアクセス記録がない可能性が非常に高いため、そのようなユーザーについては、そのユーザーの最後に記録されたタグをユーザータグとして取得し、紛失回復を実行します。 この時点で、すべてのユーザーには独自のラベルがあり、運用スタッフはユーザーのアクティブ時間や閲覧頻度に基づいて異なる記事を異なるユーザーにプッシュすることもできるため、ユーザーごとにパーソナライズされたサービスが実現します。 この問題に関して私たちは多くの罠に陥ったと言えるでしょう。 2 つ目の方法は、アルゴリズムを通じてユーザーに直接ラベルを付ける方法です。時間と読書頻度に加えて、ユーザーが記事を読んでからの時間、ユーザーが記事を読んでいる時間の長さ、コメント、いいねなど、より多くの特徴次元をアルゴリズム モデルに追加できます。同時に、ホットな記事やホットなイベントについては、記事の重みを減らすことができます。 結論この経験を振り返ってまとめてみると、あるいは読者の皆さんが私に従ってこの経験を理解しても、実はとても単純なことだと思うかもしれません。しかし、この経験の中で私たちは本当に数え切れないほどの落とし穴に陥りました。特に、データの収集やラベルの作成だけでなく、ビジネスを立ち上げて問題を分析するように導く必要がありました。その経験は、苦しくも幸せだったと言えます。 苦痛なのは、問題が多すぎて、取引先から「なぜ今日もコンバージョン率が低いのか」と毎日尋ねられ続けるからです。喜びは、ついにコンバージョン率が2倍以上になり、業界水準を上回ったことです。これが最高の報酬です。 著者:タンタンは伝統的な漬物キャベツの女王です 出典:タンタンは伝統的な漬物の女王です |
<<: モバイルインターネットマーケティングディレクターの運用・プロモーション企画事例
>>: Douyin ライブ放送現場制御操作は何をしますか? Douyinライブ放送管理の責任の紹介
WeChat ミニプログラム開発会社に参加する理由は何ですか?この計算は実はとても簡単です。まず、...
統計によると、人が毎日必要とする水の量は「1500ml~2000ml」程度です。この水のほとんどは飲...
では、早速本題に入りましょう。簡単に言えば、このプロジェクトは、Douyin、Kuaishou、Xi...
WeChat ビデオ アカウントを宣伝するためのヒント。WeChat ビデオ アカウントを宣伝し、...
「実際の市場環境では、売上の70%は中長期的に発生し、ブランド資産によって貢献されていますが、短期的...
ちょっとしたアンケートに答えてください! 85 年代、90 年代、95 年代、または 00 年代以降...
この記事では主に、Bilibili上の自分の作品の関連情報を削除する方法を紹介します。自分の作品を削...
新エネルギーは昨今熱く議論されている話題であり、多くの友人は車を購入する際にまずそれを選択肢として検...
リソースのマッチング以上のものを教えるカラービジネスに関する実践的なコース:色彩を学ぶには美術の基礎...
中国でよく使われるこれらの検索エンジンでは、SEO を最適化する際に次の点に注意する必要があります。...
Zuoyebangは全国の小中学生を対象に、あらゆる教科の学習指導サービスを提供することに注力して...
「理想的な」プライベートドメインとは何でしょうか?プライベートドメインはどの程度の「価値」を提供で...
ミニプログラムの話題がますます熱くなってきていることは間違いありません。多数の企業がミニプログラム市...
流行中、ウェディング写真業界もある程度影響を受けました。しかし、今は春が明るく美しく、国内の伝染病も...
本稿の筆者は、自身の実際の業務経験を踏まえ、テレビ広告の制作・発注の全プロセスを解説し、B面広告の配...