ウェブサイト上の推奨システムには、ユーザー タグとコンテンツ分析という 2 つの基礎があります。コンテンツ分析には機械学習の側面がいくつか含まれます。これら 2 つと比較すると、ユーザー ラベリングはより困難です。 Toutiaoのウェブサイトでよく使用するユーザータグには、ユーザーが興味を持っているトピックや非常に重要なキーワードなどが含まれます。サードパーティのソーシャルアカウントからユーザーの性別情報を取得できます。ユーザーの年齢情報は主にユーザーの読書時間とデバイスモデルに基づいてモデルから予測されます。頻繁にアクセスされる場所は、主にユーザーが Web サイトにアクセスを許可することによって取得されます。 もちろん、Web サイト上の最も単純で基本的なユーザー タグは、ユーザーが閲覧するコンテンツ タグです。主に 3 つの側面に分かれています。1 つ目の側面は、ノイズをフィルタリングする機能です。Web サイトは、ユーザーの滞在時間の長さに応じてクリックベイトのタイトルをフィルタリングします。 2 つ目の側面は、ホットスポットの罰則です。Web サイト上の非常に人気のある記事については、ユーザーがメッセージを残しますが、悪いメッセージもあり、罰せられます。例えば、降格など。 3 つ目の側面は時間の経過です。ユーザーが年を取るにつれて興味が変化するため、Web サイトの戦略は新しいユーザーに向けたものになります。現在、ユーザーのアクションが増加すると、時間の経過とともに一部の重みの影響が減少します。 4 つ目はペナルティ表示です。記事がユーザーに推奨されても誰もクリックしない場合は、その記事に関連付けられた重みにペナルティが課せられます。 注意すべき点は、ユーザータグは主にいくつかの簡単なキーワードを見つけることです。たとえば、Toutiao のユーザータグの最初のバージョンはバッチコンピューティングフレームワークです。このシステムでは、そのプロセスは他のシステムよりも単純です。 これらの課題に立ち向かってください。 2014年末、ToutiaoはユーザータグStormクラスターストリーミングコンピューティングシステムを立ち上げました。ストリーミング モードに切り替えると、ユーザー アクションの更新があるたびにラベルが更新されます。CPU コストは比較的小さいため、CPU 時間を 80% 節約でき、コンピューティング リソースのオーバーヘッドを大幅に削減できます。同時に、毎日数千万人のユーザーの興味モデルの更新をサポートするのに必要なマシンは数十台のみで、機能の更新速度は非常に速く、基本的にほぼリアルタイムを実現します。このシステムはオンラインになって以来使用されています。 しかし、問題は、ユーザーの急速な増加により、関心モデルやその他のバッチ処理タスクの種類が増加し、必要な計算量が大きくなりすぎることです。 2014 年には、何百万ものユーザー ラベル更新をバッチ処理するという Hadoop タスクを同じ日に完了することは困難でした。クラスターコンピューティングリソースの不足は、他の作業に簡単に影響を及ぼします。分散ストレージシステムへの集中書き込みの圧力も高まり始め、ユーザーの関心タグの更新遅延はますます大きくなっています。もちろん、すべてのユーザータグにストリーミングシステムが必要なわけではないこともわかりました。ユーザーの性別、年齢、居住地などの情報は、リアルタイムで再計算する必要はなく、毎日更新することができます。 IV. 評価と分析 上記では、推奨システムの全体的なアーキテクチャを紹介しました。では、推奨効果をどのように評価すればよいのでしょうか? 「何かを測定できないなら、最適化することはできない」という、とても賢明な格言があります。推奨システムでも同様です。 実際、推奨効果には多くの要因が影響します。たとえば、候補セットの変更、リコール モジュールの改善または追加、推奨機能の追加、モデル アーキテクチャの改善、アルゴリズム パラメータの最適化などは、1 つずつリストされるわけではありません。評価の重要性は、多くの最適化が最終的にはマイナスの効果をもたらす可能性があり、最適化を開始した後も必ずしもその効果が改善されるとは限らないという事実にあります。 包括的な評価および推奨システムには、完全な評価システム、強力な実験プラットフォーム、使いやすい実証分析ツールが必要です。いわゆる「完全システム」というのは、一つの指標で測るのではなく、クリック率や滞在時間などだけを見るのではなく、総合的に評価する必要があるということです。過去数年にわたり、私たちはできるだけ多くの指標を組み合わせて総合的な評価指標を形成できないかと模索してきましたが、まだ模索中です。現時点では、各事業の経験豊富な学生で構成された検討委員会による綿密な議論を経て、オンラインでの立ち上げを決定する必要があります。 多くの企業がアルゴリズム開発で成果を上げられないのは、エンジニアの能力が十分でないからではなく、データ指標の信頼性をインテリジェントに分析できる強力な実験プラットフォームと便利な実験分析ツールが必要なためです。 優れた評価システムを確立するには、いくつかの原則に従う必要があります。その最初の原則は、短期的指標と長期的指標の両方を考慮することです。以前の会社で電子商取引を担当していたとき、多くの戦略調整は短期的にはユーザーにとって新鮮に見えても、実際には長期的には何の役にも立たないことに気付きました。 第二に、ユーザー指標と環境指標の両方を考慮する必要があります。コンテンツ制作プラットフォームとして、Toutiaoはコンテンツ制作者に価値を提供し、より尊厳を持って創作できるようにするだけでなく、ユーザーを満足させる義務も負っています。この2つはバランスが取れていなければなりません。広告主の利益も考慮する必要があります。これは、複数の当事者による交渉とバランス調整のプロセスです。 さらに、相乗効果の影響にも注意を払う必要があります。実験では厳密なトラフィック分離を実現することは難しく、外部の影響に注意を払う必要があります。 強力な実験プラットフォームの非常に直接的な利点は、多くの実験が同時にオンラインになっている場合、プラットフォームは手動での通信を必要とせずにトラフィックを自動的に割り当てることができ、実験終了後すぐにトラフィックをリサイクルできるため、管理効率が向上することです。これにより、企業は分析コストを削減し、アルゴリズムの反復効果を加速し、システム全体のアルゴリズム最適化作業を迅速に進めることができます。 |
<<: ライブストリーミング製品の実現可能なビジネスモデル:13の
統計によると、Google の 1 日の検索ボリュームは 35 億回に達する可能性があり、ほとんどの...
マーケティングプロモーションの背後にあるとらえどころのないロジックとは何でしょうか?このため、多くの...
モバイルインターネットの台頭により、多くの実店舗の発展はますます困難になってきています。このような状...
清木WeChatグループの金儲けプロジェクト、1回の注文で数百から数千ドルを稼ぎ、月収は10万以上[...
今日の記事は、ミニプログラムとアプリの今後の発展についての著者の考えです。これは、ミニプログラムを支...
多くの人が、なぜチャネル運営に多額の費用をかけているのに、結局効果がないのかと疑問に思うでしょう。広...
オンラインイベントの企画において最も重要なのは、他人の事例を真似することではなく、創造性です。私たち...
Chenzhou Paper Products ミニ プログラムに参加するにはいくらかかりますか? ...
今月の主なマーケティングノードは次のとおりです。 8月1日: 陸軍記念日8月7日:秋の始まり8月22...
知識の支払いとオンライン教育がオンラインに移行する過程で、無料コースの提供に加えて、2 つの明らかな...
この質問に答える前に、次の式について考えてみましょう。記事の総閲覧量 = フォローしているユーザーの...
「無敵の東洋のリーダー」「天空の飛龍3」のリソース紹介:この部分は主に、直接実践できる完全なシ...
過去2年間、Xu Huaizhe氏とLiu Xiong氏は、外部から見ると非常に謎めいていると思われ...
シガツェ金融ミニプログラムへの投資誘致にはどれくらいの費用がかかりますか?シガツェファイナンスミニプ...
%無視_pre_1 %オペレーション戦略の策定は、すべての新人オペレーターがより高いレベルに進むため...