詳細 | Toutiaoの推奨アルゴリズムの原理の完全な説明

現在、アルゴリズムの配布は、情報プラットフォーム、検索エンジン、ブラウザ、ソーシャルソフトウェアなど、ほぼすべてのソフトウェアの標準機能になりつつありますが、同時にさまざまな疑問、課題、誤解にも直面し始めています。

2018年1月、 Toutiaoの上級アルゴリズムアーキテクトであるCao Huanhuan博士は、業界全体に診断とアルゴリズムのアドバイスを提供するよう奨励する取り組みの一環として、 Toutiaoのアルゴリズム原理を初めて公開しました。アルゴリズムを透明化することで、すべての関係者間でアルゴリズムに関する誤解をなくすことができます。

Toutiaoの情報推奨アルゴリズムは、2012年9月に最初のバージョンが開発され運用されて以来、4回にわたる大きな調整と修正を経てきたと報告されている。現在、世界中で何億人ものユーザーにサービスを提供しています。

以下は曹煥煥氏による「Toutiao アルゴリズムの原理」（公認）の共有です。

この共有では、主にToutiaoの推奨システムの概要と、コンテンツ分析、ユーザータグ、評価分析、コンテンツセキュリティなどの原則を紹介します。

1. システムの概要

推薦システムは、形式的に説明すると、実際にはコンテンツに対するユーザーの満足度を適合させる機能です。この機能には、3 次元の変数の入力が必要です。

最初の次元はコンテンツです。 Toutiaoは現在、写真、テキスト、動画、 UGCショート動画、Q&A、マイクロToutiaoを含む総合的なコンテンツプラットフォームとなっています。各コンテンツタイプには独自の特徴があり、適切な推奨を行うには、異なるコンテンツタイプの特徴をどのように抽出するかを検討する必要があります。 2 番目の次元はユーザー特性です。さまざまな興味タグ、職業、年齢、性別などのほか、モデルによって表現される多くの暗黙的なユーザーの興味が含まれます。 3番目の次元は環境特性です。これはモバイルインターネット時代に推奨される機能です。ユーザーはいつでもどこでも移動し、仕事、通勤、旅行などのさまざまなシナリオで情報の好みも変化します。

これらの 3 つの次元を組み合わせることで、モデルは推定値、つまり、このシナリオでこのユーザーにとって推奨コンテンツが適切かどうかを推測します。

ここでもう一つ疑問があります。直接測定できない目標をどのように導入するかということです。

推奨モデルでは、クリック率、閲覧時間、いいね、コメント、リポスト、いいねはすべて定量化可能な目標です。モデルを直接当てはめて推定を行うことができ、オンライン改善によってパフォーマンスが良好かどうかを判断できます。しかし、多数のユーザーを対象とする大規模なレコメンデーションシステムでは、指標だけで評価できるわけではなく、データ指標以外の要素も導入することが重要です。

たとえば、広告や特別コンテンツの頻度制御などです。質問と回答のカードは特別な形式のコンテンツです。その推奨の目的は、ユーザーが閲覧できるようにするだけでなく、ユーザーが回答してコミュニティにコンテンツを投稿するように促すことです。これらのコンテンツを通常のコンテンツとどのように組み合わせるか、またその頻度をどのように制御するかを検討する必要があります。

さらに、コンテンツの生態と社会的責任を考慮して、プラットフォームはコンテンツにさらに介入する必要があり、下品なコンテンツ、クリックベイト、低品質のコンテンツを抑制し、重要なニュースをピン留め、重み付け、挿入し、低レベルのアカウントのコンテンツを降格するなど、これらはすべてアルゴリズム自体では実現できないことであり、コンテンツへのさらなる介入が必要です。

以下では、上記のアルゴリズムの目標に基づいてそれを達成する方法について簡単に紹介します。

上記の式 y = F(Xi, Xu, Xc) は、古典的な教師あり学習の問題です。従来の協調フィルタリングモデル、教師あり学習アルゴリズムのロジスティック回帰モデル、ディープラーニングベースのモデル、因数分解マシン、GBDT など、実行可能な方法は多数あります。

優れた産業グレードの推奨システムには、モデル構造の調整を含む複数のアルゴリズムの組み合わせをサポートできる、非常に柔軟なアルゴリズム実験プラットフォームが必要です。すべての推奨シナリオに適したユニバーサルモデルアーキテクチャを持つことは困難だからです。現在、LR と DNN を組み合わせることが非常に一般的です。数年前、Facebook も LR と GBDT アルゴリズムを組み合わせました。 Toutiao 傘下のいくつかの製品は、同じ強力なアルゴリズム推奨システムを使用していますが、モデルアーキテクチャはさまざまなビジネスシナリオに応じて調整されます。

モデルの次は、典型的な推奨機能について見てみましょう。推奨において比較的重要な役割を果たす主な機能は 4 つあります。

最初のカテゴリは関連性機能で、コンテンツの属性とそれがユーザーに適合するかどうかを評価します。明示的な一致には、キーワード一致、カテゴリ一致、ソース一致、トピック一致などが含まれます。 FM モデルには暗黙的な一致もいくつかあり、これはユーザーベクトルとコンテンツベクトル間の距離から導き出すことができます。

2 番目のカテゴリは、地理的な場所や時間などの環境特性です。これらは両方ともバイアス機能であり、いくつかの一致する機能を構築するために使用できます。

3番目のカテゴリは熱特性です。世界的な人気度、カテゴリーの人気度、トピックの人気度、キーワードの人気度などが含まれます。コンテンツの人気情報は、特にユーザーが初めてシステムを使用する場合、大規模な推奨システムでは非常に効果的です。

4 番目のカテゴリはコラボレーション機能であり、これは、いわゆるアルゴリズムがますます狭くなっている問題を部分的に解決するのに役立ちます。コラボレーション機能では、ユーザーの既存の履歴は考慮されません。代わりに、クリック類似度、興味分類類似度、トピック類似度、興味ワード類似度、さらにはベクトル類似度など、ユーザー行動を通じてさまざまなユーザー間の類似度を分析することで、モデルの探索機能を拡張します。

モデルのトレーニングに関しては、Toutiao の推奨製品のほとんどはリアルタイムトレーニングを使用しています。リアルタイムのトレーニングはリソースを節約し、迅速なフィードバックを提供します。これは情報フロー製品にとって非常に重要です。ユーザーの行動情報はモデルによって迅速にキャプチャされ、次回の更新の推奨効果にフィードバックされます。現在、クリック、表示、お気に入り、共有、その他のアクションタイプを含むサンプルデータを、Storm クラスターオンラインに基づいてリアルタイムで処理しています。モデルパラメータサーバーは、社内で開発された高性能システムです。Toutiao データの規模が急速に拡大するにつれ、同様のオープンソースシステムでは安定性とパフォーマンスの要件を満たすことができなくなります。当社は自社開発システムの最下層で多くのターゲットを絞った最適化を行い、既存のビジネスシナリオにより適した完全な運用および保守ツールを提供しています。

現在、Toutiao の推奨アルゴリズムモデルは世界でも比較的大規模であり、数百億のオリジナル機能と数十億のベクトル機能が含まれています。全体的なトレーニングプロセスは、オンラインサーバーがリアルタイム機能を記録し、それを Kafka ファイルキューにインポートし、さらにそれらを Storm クラスターにインポートして Kafka データを消費するというものです。クライアントは推奨ラベルを返送してトレーニングサンプルを構築し、最新のサンプルに基づいてオンライントレーニングを実行してモデルパラメータを更新します。最後に、オンラインモデルが更新されます。このプロセスの主な遅延は、ユーザーのアクションフィードバックの遅延です。これは、ユーザーが記事を推奨された直後に読まない可能性があるためです。この時間を除けば、システム全体はほぼリアルタイムです。

しかし、現在のToutiaoのコンテンツ量は非常に大きく、短編動画コンテンツは数千万本に上るため、レコメンデーションシステムがモデルを通じてすべてのコンテンツを推定することは不可能です。したがって、推奨が行われるたびに、膨大な量のコンテンツから何千ものコンテンツライブラリをフィルター処理するためのリコール戦略を設計する必要があります。リコール戦略の最も重要な要件は極めて高いパフォーマンスであり、タイムアウトは通常 50 ミリ秒を超えることはできません。

リコール戦略には多くの種類がありますが、主に逆ソートアプローチを使用します。転置インデックスはオフラインで維持されます。この転置インデックスのキーは、カテゴリ、トピック、エンティティ、ソースなどです。並べ替えでは、人気度、鮮度、アクションなどが考慮されます。オンラインリコールは、ユーザーの関心タグに基づいてリバースリストからコンテンツをすばやく切り取り、大規模なコンテンツライブラリから信頼性の高い少量のコンテンツを効率的にフィルタリングできます。

2. コンテンツ分析

コンテンツ分析には、テキスト分析、画像分析、ビデオ分析が含まれます。 Toutiaoは当初情報に焦点を当てていましたが、今日は主にテキスト分析についてお話します。推奨システムにおけるテキスト分析の非常に重要な役割は、ユーザーの興味のモデリングです。コンテンツとテキストのタグがないと、ユーザーの興味タグを取得することはできません。たとえば、記事のタグが「インターネット」であることがわかっていて、ユーザーが「インターネット」タグ付きの記事を読んだ場合にのみ、そのユーザーが「インターネット」タグを持っていることがわかります。他のキーワードについても同様です。

一方、テキストコンテンツのタグは、機能の推奨に直接役立ちます。たとえば、Meizuをフォローしているユーザーには、ユーザータグが一致するMeizuのコンテンツを推奨できます。推奨されたメインチャンネルが一定期間効果がなく、推奨が狭くなった場合、ユーザーは特定のチャンネルの推奨 (テクノロジー、スポーツ、エンターテイメント、軍事など) を読んでからメインフィードに戻ると、推奨効果が向上することがわかります。モデル全体が接続されているため、サブチャネルの探索スペースが小さくなり、ユーザーのニーズを満たしやすくなります。単一チャネルのフィードバックだけでレコメンデーションの精度を向上させることは難しいため、サブチャネルで良い仕事をすることが重要です。そして、これには適切なコンテンツ分析も必要です。

上の写真はToutiaoの実際のテキストケースです。ご覧のとおり、この記事には分類、キーワード、トピック、エンティティ語などのテキスト機能があります。もちろん、テキスト機能なしでは推奨システムが機能しないということではありません。推奨システムは、Amazon や Walmart の時代に初めて使用されました。Netflix のビデオ推奨でさえ、テキスト機能なしでは直接的な協調フィルタリング推奨は行われません。しかし、情報製品の場合、ほとんどの人は同じ日にコンテンツを消費します。テキスト機能がなければ、新しいコンテンツをコールドスタートすることは非常に困難であり、コラボレーション機能では記事のコールドスタートの問題を解決できません。

Toutiao の推奨システムによって抽出される主なテキスト特徴には、次のカテゴリが含まれます。 1 つ目は、記事にセマンティックタグを明示的にタグ付けするセマンティックタグ機能です。ラベルのこの部分は人間が定義した機能です。各ラベルには明確な意味があり、ラベルシステムは事前に定義されています。さらに、暗黙的な意味的特徴、主にトピック特徴とキーワード特徴があります。トピック特徴は単語の確率分布の説明であり、明確な意味はありません。一方、キーワード特徴はいくつかの統一された特徴の説明に基づいており、明確なセットはありません。

さらに、テキストの類似性機能も非常に重要です。 Toutiao では、ユーザーから報告された最大の問題の 1 つは、なぜ繰り返しコンテンツが常に推奨されるのかということでした。この質問の難しいところは、繰り返しの定義が人によって異なることです。たとえば、レアル・マドリードとバルセロナに関するこの記事は、昨日も同様の内容を見たのに、今日もまたこの 2 つのチームについて語っているため、繰り返しになっていると考える人もいます。しかし、熱狂的なサッカーファン、特にバルセロナファンとしては、すべてのレポートを読むのが待ちきれません。この問題を解決するには、類似記事の主題、テキスト、本文などのコンテンツを判断し、これらの特性に基づいてオンライン戦略を策定する必要があります。

同様に、コンテンツの場所と適時性を分析する時空間特性もあります。たとえば、武漢の交通規制を北京のユーザーに押し付けるのは意味がないかもしれない。最後に、コンテンツが下品なもの、ポルノ的なもの、ソフトな記事やチキンスープであるかどうかを判断するために、品質関連の特徴も考慮する必要があります。

上の図は、Toutiao セマンティックタグの機能と使用シナリオを示しています。レベルや要件はそれぞれ異なります。

分類の目標はすべてを網羅することであり、すべてのコンテンツとすべてのビデオに分類が適用されることを期待しています。一方、エンティティシステムでは精度が求められ、同じ名前またはコンテンツがどの人物または物を指すのかを明確に区別できる必要がありますが、すべてを網羅する必要はありません。概念システムは、より正確で抽象的な概念の意味を解決する役割を担います。これが当初の分類でした。実際には、分類と概念は技術的に互換性があることが判明したため、後に一連の技術アーキテクチャを使用してそれらを統合しました。

現時点では、暗黙的なセマンティック機能はすでに推奨事項の作成に非常に役立っていますが、セマンティックタグは継続的に注釈を付ける必要があります。新しい用語や概念が出現し続けるため、注釈も継続的に反復する必要があります。それをうまく行うための難しさとリソース投資は、暗黙的な意味的特徴よりもはるかに大きいのに、なぜ意味的ラベルが必要なのでしょうか?チャネルには明確に定義されたカテゴリとわかりやすいテキストラベルシステムが必要であるなど、いくつかの製品要件があります。セマンティックラベリングの有効性は、企業の NLP 技術レベルをチェックするための試金石となります。

Toutiao の推奨システムのオンライン分類では、典型的な階層型テキスト分類アルゴリズムを採用しています。最上位層はルートで、その下の第1層の分類はテクノロジー、スポーツ、金融、エンターテインメントなどの大カテゴリです。スポーツはさらにサッカー、バスケットボール、卓球、テニス、陸上競技、水泳などに分かれています。サッカーはさらに国際サッカーと中国サッカーに分かれています。中国サッカーはさらに中国リーグ1、中国スーパーリーグ、国家チームなどに分かれています。単一の分類器と比較して、階層型テキスト分類アルゴリズムを使用すると、データの偏りの問題をより適切に解決できます。リコールを改善したい場合に備えて、フライワイヤーが接続されている例外がいくつかあります。このアーキテクチャは普遍的ですが、問題の難易度に応じて、各メタ分類器は異種になる可能性があります。たとえば、分類 SVM の中には非常にうまく機能するものもあれば、CNN と組み合わせる必要があるもの、さらに処理するために RNN と組み合わせる必要があるものもあります。

上の図は、エンティティ単語認識アルゴリズムの例です。候補は、単語のセグメンテーション結果と品詞のタグ付けに基づいて選択されます。このプロセスでは、知識ベースに基づいていくつかのスプライシングを行う必要がある場合があります。一部のエンティティは複数の単語の組み合わせであり、どの単語を組み合わせるとエンティティの説明をマッピングできるかを判断する必要があります。結果が複数のエンティティをマッピングする場合は、単語ベクトル、トピック分布、さらには単語の頻度自体を通じてそれらの曖昧さを解消し、最終的に相関モデルを計算する必要があります。

3. ユーザータグ

コンテンツ分析とユーザータグは、推奨システムの 2 つの基礎です。コンテンツ分析にはより多くの機械学習が関与し、それに比べてユーザーラベルエンジニアリングはより困難です。

Toutiao の一般的なユーザータグには、ユーザーが興味を持っているカテゴリやトピック、キーワード、ソース、興味に基づくユーザークラスター、さまざまな垂直的な興味機能 (車のモデル、スポーツチーム、株式など) が含まれます。性別、年齢、場所などの情報もあります。性別情報は、ユーザーのサードパーティのソーシャルアカウントを通じてログインすることで取得されます。年齢情報は通常、モデルによって予測され、機械モデルや読書時間の分布などを通じて推定されます。永続的な場所は、ユーザーの許可されたアクセス場所情報から取得され、永続的なポイントは、位置情報に基づく従来のクラスタリング方法を通じて取得されます。恒久的な場所と他の情報を組み合わせることで、ユーザーの勤務場所、出張場所、旅行先を推測することができます。これらのユーザータグは、推奨事項に非常に役立ちます。

もちろん、最も単純なユーザータグは、閲覧されたコンテンツタグです。しかし、ここではいくつかのデータ処理戦略が関係しています。主な内容: 1. ノイズをフィルタリングします。滞在時間が短いクリックを通じて、クリックベイトのタイトルを除外します。 2. ホットスポット罰則。一部の人気記事（少し前の PG One に関するニュースなど）に対するユーザーのアクションは降格されます。理論的には、コンテンツが広く配布されるほど、その信頼性は低くなります。 3. 時間の経過による劣化。ユーザーの興味は変化するため、戦略は新しいユーザー行動に重点を置くようになります。したがって、ユーザーアクションが増加すると、古い機能の重みは時間の経過とともに減少し、新しいアクションによって寄与される機能の重みは大きくなります。 4. 罰の表示。ユーザーに推奨された記事がクリックされない場合、関連する機能（カテゴリ、キーワード、ソース）の重みが減点されます。もちろん、同時に、全体的なコンテキスト、関連するコンテンツのプッシュがさらにあるかどうか、関連するクローズや低評価のシグナルなどについても考慮する必要があります。

ユーザータグのマイニングは一般的には単純ですが、主な課題は先ほど述べたエンジニアリング上の課題です。 Toutiao ユーザータグの最初のバージョンは、比較的シンプルなプロセスを備えたバッチコンピューティングフレームワークでした。過去 2 か月間の昨日の毎日のアクティブユーザーのアクションデータを毎日抽出し、Hadoop クラスターで結果をバッチで計算していました。

しかし、問題は、ユーザーの急速な増加により、関心モデルやその他のバッチ処理タスクの種類が増加し、必要な計算量が大きくなりすぎることです。 2014 年には、何百万ものユーザーラベル更新をバッチ処理するという Hadoop タスクを同じ日に完了することは困難でした。クラスターコンピューティングリソースの不足は他の作業に簡単に影響を及ぼし、分散ストレージシステムへの集中書き込みの圧力が高まり始め、ユーザーの関心タグの更新の遅延がますます大きくなります。

これらの課題に立ち向かってください。 2014年末、ToutiaoはユーザータグStormクラスターストリーミングコンピューティングシステムを立ち上げました。ストリーミングモードに切り替えると、ユーザーアクションの更新があるたびにラベルが更新されます。CPU コストは比較的小さいため、CPU 時間を 80% 節約でき、コンピューティングリソースのオーバーヘッドを大幅に削減できます。同時に、毎日数千万人のユーザーの興味モデルの更新をサポートするのに必要なマシンは数十台のみで、機能の更新速度は非常に速く、基本的にほぼリアルタイムを実現します。このシステムはオンラインになって以来使用されています。

もちろん、すべてのユーザータグにストリーミングシステムが必要なわけではないこともわかりました。ユーザーの性別、年齢、居住地などの情報は、リアルタイムで再計算する必要はなく、毎日更新することができます。

IV. 評価と分析

上記では、推奨システムの全体的なアーキテクチャを紹介しました。では、推奨の有効性をどのように評価するのでしょうか?

「何かを測定できないなら、最適化することはできない」という、とても賢明な格言があります。推奨システムでも同様です。

実際、推奨効果には多くの要因が影響します。たとえば、候補セットの変更、リコールモジュールの改善または追加、推奨機能の追加、モデルアーキテクチャの改善、アルゴリズムパラメータの最適化などは、1 つずつリストされるわけではありません。評価の重要性は、多くの最適化が最終的にはマイナスの効果をもたらす可能性があり、最適化を開始した後も必ずしもその効果が改善されるとは限らないという事実にあります。

包括的な評価および推奨システムには、完全な評価システム、強力な実験プラットフォーム、使いやすい実証分析ツールが必要です。いわゆる「完全システム」というのは、一つの指標で測るのではなく、クリック率や滞在時間などだけを見るのではなく、総合的に評価する必要があるということです。ここ数年、私たちはできるだけ多くの指標を組み合わせて独自の評価指標を作ろうとしていますが、まだ模索中です。現時点では、各事業の経験豊富な学生で構成された検討委員会による綿密な議論を経て、オンラインでの立ち上げを決定する必要があります。

多くの企業がアルゴリズム開発で成果を上げられないのは、エンジニアの能力が十分でないからではなく、データ指標の信頼性をインテリジェントに分析できる強力な実験プラットフォームと便利な実験分析ツールが必要なためです。

優れた評価システムを確立するには、いくつかの原則に従う必要があります。その最初の原則は、短期的指標と長期的指標の両方を考慮することです。以前の会社で電子商取引を担当していたとき、多くの戦略調整は短期的にはユーザーにとって新鮮に見えても、実際には長期的には何の役にも立たないことに気付きました。

第二に、ユーザー指標と環境指標の両方を考慮する必要があります。コンテンツ制作プラットフォームとして、Toutiaoはコンテンツ制作者に価値を提供し、より尊厳を持って創作できるようにするだけでなく、ユーザーを満足させる義務も負っています。この2つはバランスが取れていなければなりません。広告主の利益も考慮する必要があります。これは、複数の当事者による交渉とバランス調整のプロセスです。

さらに、相乗効果の影響にも注意を払う必要があります。実験では厳密なトラフィック分離を実現することは難しく、外部の影響に注意を払う必要があります。

強力な実験プラットフォームの非常に直接的な利点は、多くの実験が同時にオンラインになっている場合、プラットフォームは手動での通信を必要とせずにトラフィックを自動的に割り当てることができ、実験終了後すぐにトラフィックをリサイクルできるため、管理効率が向上することです。これにより、企業は分析コストを削減し、アルゴリズムの反復効果を加速し、システム全体のアルゴリズム最適化作業を迅速に進めることができます。

これがToutiaoのA/Bテスト実験システムの基本原理です。まず、ユーザーをオフラインでバケット化し、次にオンラインで実験トラフィックを割り当て、バケット内のユーザーにラベルを付けて、実験グループに割り当てます。たとえば、トラフィック 10% で実験を開始し、2 つの実験グループをそれぞれ 5% ずつ用意します。1 つの 5% はベースラインで、オンライン市場と同じ戦略を採用し、もう 1 つは新しい戦略を採用します。

実験中、ユーザーのアクションは基本的にほぼリアルタイムで収集され、1 時間ごとに確認できます。ただし、時間ごとのデータは変動するため、通常は日単位で確認します。アクションが収集されると、ログに処理され、統計が分散され、データベースに書き込まれるため、非常に便利です。

このシステムでは、エンジニアはトラフィック要件、実験時間を設定し、特別なフィルタリング条件を定義し、実験グループ ID をカスタマイズするだけで済みます。システムは、実験データの比較、実験データの信頼性、実験結論の要約、実験最適化の提案を自動的に生成できます。

もちろん、実験プラットフォームだけでは十分ではありません。オンライン実験プラットフォームでは、データ指標の変化を通じてのみユーザーエクスペリエンスの変化を推測できますが、データ指標とユーザーエクスペリエンスには違いがあり、多くの指標は完全に定量化できません。多くの改善には依然として手動による分析が必要であり、大規模な改善には手動による評価と二次的な確認が必要です。

5. コンテンツのセキュリティ

最後に、Toutiao のコンテンツセキュリティに関する取り組みをいくつか紹介したいと思います。今日頭条は今や中国最大のコンテンツ制作・配信会社であり、社会的責任と業界リーダーとしての責任にますます注意を払わなければなりません。推奨コンテンツの1%に問題があれば、大きな影響が出てしまいます。

そのため、Toutiao は創業以来、コンテンツセキュリティを会社の最優先事項に据えてきました。設立当初は、コンテンツのセキュリティを担当する特別な審査チームが設置されました。当時、クライアント、バックエンド、アルゴリズムすべてに携わっていたのは40人未満で、Toutiaoはコンテンツのレビューを非常に重視していました。

現在、今日頭条のコンテンツは主に2つの部分から構成されています。1つは成熟したコンテンツ制作能力を持つPGCプラットフォームです。

1 つ目は、質問と回答、ユーザーコメント、マイクロヘッドラインなどの UGC ユーザーコンテンツです。これら 2 つの部分は、統一されたレビューメカニズムを経る必要があります。 PGC含有量が比較的少ない場合は、直接リスクレビューを実施し、問題がなければ大規模に推奨いたします。 UGC コンテンツはリスクモデルを通じてフィルタリングする必要があり、問題のあるコンテンツは二次リスクレビューの対象となります。審査に合格すると、そのコンテンツは本当にお勧めになります。この際、一定数以上のコメントや否定的なフィードバックの報告があった場合は、再度検討段階に戻り、問題があれば直ちに棚から撤去いたします。全体的なメカニズムは比較的健全です。業界のリーダーとして、Toutiao は常にコンテンツセキュリティの面で最高水準を維持してきました。

共有されるコンテンツ認識技術には、主にポルノ検出モデル、侮辱検出モデル、下品検出モデルが含まれます。 Toutiao の下品さモデルは、ディープラーニングアルゴリズムによってトレーニングされています。サンプルライブラリは非常に大きく、画像とテキストの両方が同時に分析されます。モデルのこの部分は再現率に重点を置いており、精度が犠牲になることもあります。言葉による虐待モデルのサンプルライブラリも 100 万を超え、再現率は 95% 以上、精度率は 80% 以上です。ユーザーが頻繁に不快なコメントや不適切なコメントを投稿した場合、ペナルティを課す仕組みがあります。

一般的な低品質識別には、フェイクニュース、ブラック記事、タイトルと本文の不一致、クリックベイト、低品質コンテンツなど、さまざまな状況が関係しています。コンテンツのこの部分は機械にとって理解するのが非常に難しく、他のサンプル情報との比較など、多くのフィードバック情報が必要です。現在、低品質モデルの精度と再現率は特に高くなく、しきい値を上げるには手動レビューが必要です。最終的なリコール率は現在 95% に達していますが、この分野ではまだやるべき作業が数多く残っています。 Toutiaoの人工知能研究所のLi Hang教授は現在、ミシガン大学と協力して噂識別プラットフォームを確立するための研究プロジェクトに取り組んでいる。

上記は、Toutiao の推奨システムの原則の共有です。今後も、作業の改善に役立つ提案をいただければ幸いです。

この記事の著者@ 36krは（Qinggua Media）によって編集および公開されました。転載する場合は著者情報と出典を明記してください。

製品プロモーションサービス：APPプロモーションサービス広告プラットフォームLongyou Century

<<: Apple が App Store ギフトカードをリリース。Tencent から学んで中国の有料市場を開拓できるか?

>>: Longyan ゲーム機器ミニプログラムをカスタマイズするにはいくらかかりますか?龍岩ゲーム機器アプレットカスタマイズ価格問い合わせ