データの蓄積やユーザーポートレートなしで、私はこのようにToutiao製品を開発したのです...

データの蓄積やユーザーポートレートなしで、私はこのようにToutiao製品を開発したのです...
取引所でパーソナライズされた推奨について語る際、これまでは静かに漕ぎ出し、注目を集めなかったToutiaoは、間違いなくBAT全体に包囲されている。コンテンツ分野の企業は無意識のうちにToutiaoを競争相手とみなしており、コンテンツ分野以外のインターネット企業もコンテンツのパイの一部を手に入れたいと考えている。一夜にして、インターネットはフィードストリームでいっぱいになり、人々はコンテンツ推奨アルゴリズムについて語らないとテーブルに上がるのが恥ずかしいと思っている。 筆者はToutiao製品を0から1まで企画する栄誉に恵まれ、実践的な経験を共有したいと思います。興味のある友人の役に立てば嬉しいですし、業界のリーダーからの批判や訂正をいただければ幸いです。結局のところ、一人で手探りで進むのは依然として非常に危険です。 1. 明確なポジショニング 読書製品を頻繁に使用して感じたことは、大規模なプラットフォームでは情報が深みに欠けやすいということです。垂直的なコンテンツ情報は、テクノロジー、インターネットなど、一部の分野でしか役に立ちません。当時の私の考えは、業界内、特に最初からインターネットに深く関わっていない業界内で、詳細な情報を提供できるかどうかでした。ある業界でのパイロットプロジェクトを通じて、業界の見出しを形成し、高品質の業界知識を蓄積し、それを最低コストで他の業界に複製することができました。 長い間考えた後、上司に報告し、1万字の具体的な説得プロセスを省きました。最終的に彼は同意しました。チーム内の会社は伝統的な業界Aと交差しているため、業界Aから始めました。今、私たちはそれを実装し始めました。合計10人以上の技術者を見て、私は深く考え込んでしまいました... 欠点はそれほど明白ではありません: 
  • データの蓄積なし。
  • ユーザープロファイルがありません。
 
  • チームのメンバーには業界 A で働いた経験のある人はいません。
 注目の商品を作り始めます... 2. Toutiao製品の全体デザイン 私は、最下層の型ラベル付け層、中間層のデータキャプチャおよび分析層、最上層のビジネスアプリケーション層という 3 つのレベルから製品の構築を始めました。 下層タイプタグ 最下層は、特定の業界に応じて分類されています。本来、このプロセスは、特定の業界の製品と実践者によって分類されるべきですが、リソースが限られているため、これを実行します。確かに詳細度が十分ではありませんが、最初は実行できます。 最下層のタイプラベル層は、タイプとラベルに分かれています。タイプは階層化されており、データベースはレベル7まで予約されています。実際には、レベル3までソートすればほぼ十分です。たとえば、業界Aでは、A社が第1レベルのタイプ、業界Aの製造会社が第2レベルの分類、具体的な製造会社名が第3レベルのタイプです。各タイプは独立して構築されており、各テーブルではタイプに多数のラベルが関連付けられています。たとえば、業界Aの技術タイプでは、業界Aの技術用語辞書を見つけ、削除した後、ラベルとしてA技術タイプに関連付けられています。最終的に、ソートされたタイプの数は600を超え、ラベルの数は10万を超えました。データベースはステータスビットを予約しており、必要に応じて有効または無効にすることができます。 中間レベルのデータキャプチャおよび分析レイヤー データ クロールおよび分析レイヤーは、クローラーの展開、コンテンツ ソースの処理、およびデータ分類に分かれています。 1. クローラーの展開 技術の素人の観点から、クローラーを2つのカテゴリに分類します。1つは非方向性クローラーで、すべて別々のWebサイトです。この技術は非常に時間がかかり、各A業界企業の公式サイトニュースセンターや業界AプラットフォームWebサイトなど、個別に処理する必要があります。もう1つのタイプの方向性クローラーは、主に今日のヘッドラインなどの検索機能を備えた大規模な情報プラットフォームです。コードは再利用できます。書いた後、検索クローラーのキーワードを格納するテーブルを直接作成しました。1セットのコードでたくさんのキーワードを実装できます。入力するだけで、これらのキーワードを含むニュースがキャプチャされます。現在、このテーブルには700を超えるキーワードがあります。クロールされたコンテンツの量が多すぎるため、mongedbを使用して処理することをお勧めします。 2. コンテンツソースの処理 データが入ってきたら、まずソースを選別し、高品質なソースとジャンクソースに分けて、高品質なソースコンテンツの比重を高めます。高品質なソースは主に各社の公式サイトです。ジャンクソースとは、特定の業界について、同じソースから大量の意味のないコンテンツを指します。この場合、ジャンクソースとして識別されます。たとえば、xxというソースが自動車について語っている場合、建設業界ではジャンクソースとして識別されますが、将来的に自動車分野にコピーされると、ジャンクソースではなくなります。ジャンクソースは長期的な仕事で、現在約700件あります。ジャンクソースのほとんどはToutiaoの見出しです。 3. データ分類 スパムソースを除外した後、私たちはインダストリーのニュースに取り組んでいたため、最初から2つのソリューションを使用することを望んでいました。記事、および各記事のすべてのセグメント化された単語の総頻度がありました。これは、他のメソッドのタグをスパムソースのためにフィルタリングしたすべての記事を比較し、そのタイプに記事を掲載しています。もちろん、手作業の介入により、一連のスパムソースがスクリーニングされ、タイプとタグのメンテナンス作業が続き、コンテンツの精度が向上しました。 最上位のビジネスアプリケーション層 ビジネスプレゼンテーション層は、主にターゲットユーザーが興味を持っているキーワードを選別し、これらのキーワードをタイプタグ層のタイプに関連付けます。これにより、ユーザーはキーワードを購読した後、そのキーワードが属するコンテンツを見ることができます。フロントエンドには現在、購読プラットフォームと業界ヘッドラインの2つのオンライン製品があり、バックエンド管理センターと連携しています。 1. サブスクリプションプラットフォーム サブスクリプションプラットフォームは半クローズドで、業界Aの企業ユーザーと業界Aのセルフメディア実践者を対象としています。彼らが興味を持っているキーワードを公開し、コンテンツの精度を高めています。企業ユーザーはキーワードを購読して関連情報を見ることができます。プラットフォームの機能を確認した後、より多くのキーワードをカスタマイズしたいと思うでしょう。バックグラウンドレビューの後、クローラーは引き続き展開され、すべてのユーザー行動データを記録しながら、ユーザーにデータをプッシュします。 2. 業界のニュース 業界ヘッドラインは、将来の業界従事者や一般の業界愛好家に完全にオープンであり、より多くのキーワードを公開しています。ただし、サブスクリプションプラットフォームと比較すると、コンテンツの質はわずかに低くなりますが、対象ユーザーはより広いため、すべてのユーザー行動データ(コメント、読書量、イベントのバッチ変更、キーワードへの注目など)を記録し、ユーザーからのフィードバックを得て、ユーザーポートレートを確立し、さまざまなユーザーポートレートに基づいてキーワードを推奨する効果を実現し、実際の推奨に備えたいと考えています。 3. バックステージ管理センター ニュース管理、ソース管理(高品質ソース、ジャンクソース)、タイプ/タグ管理、ユーザー行動管理、プッシュ管理、キーワードレビュースケジュール管理、コメント検索管理などが含まれます。ここでは詳細には触れず、機会があれば詳しく紹介します。製品のフレームワークを整理するために簡単に図を描いて、上記の議論と組み合わせるとわかりやすいかもしれません。 

(注意:侵害した場合は訴追されます)

 3. 同僚の皆さんへ 常に別の Toutiao を作ろうとしないでください。あなたの経験とアルゴリズムが Toutiao より 50% 以上優れていない場合、正面から対決する可能性は基本的にありません。独自のエントリー ポイントを見つけて、独自の利点を認識してください。 コンテンツの推薦は常に危険です。ユーザーが必要としていないものを推薦すると、ユーザーが嬉しい驚きを感じない限り、マイナスになります。ユーザーは使用しなければならない製品に我慢する必要があり、不要な製品はユーザーにアンインストールされる可能性が高くなります。公開アカウントを運営している友人はこれを痛感したに違いなく、コンテンツをプッシュするたびにフォロワーを失うことを恐れています。 私は以前から検索に興味があったので、入力メソッド製品向けにどのようなコンテンツを作成したいかについての私の提案を簡単に説明します。 ユーザーにはそれぞれ独自の情報ニーズがあります。 
  • アクティブ獲得: RSS クロール (Google サブスクリプション)、フォロー/購読 (即時)
 
  • 受動的な獲得: プラットフォームの推奨 (従来のポータル、ニュースサイト)、垂直メディア情報 (36K、Huxiu など、最近ではFeng Dahuiの readhub)、パーソナライズされた推奨 (Toutiao、 Yidian Zixun )
この種の需要に対しては非常に激しい競争があり、特定のシナリオにおける情報に対する需要に基づく別の種類の需要もあります。 たとえば、就職活動をしているときは、特定の企業について詳しく知りたいと思うでしょうし、食事をしているときは、近くのレストランについて詳しく知りたいと思うでしょう。 この種の需要は特にロングテールです。現在どのように満たされているのでしょうか? Baidu、Zhihuなどのプラットフォームで積極的に検索していますが、必要な情報を得るまでの道のりは非常に長いです。たとえば、友人と食事をしていて、近くにあるおいしいレストランを知りたい場合、検索コストは非常に高くなります。このようなシナリオが頻繁に発生するのはどこでしょうか?チャットして問い合わせる時間です!まさにここが、入力方法が情報を活用するチャンスであると私は考えています。具体的には、次のようになります。 
  • 転職について他の人とチャットしているとき、特定の会社について話しているときに、入力するとプロンプト(色の変化など)が表示され、会社の最新情報を便利にプッシュできます。
  • チャットしてディナーの予約をしたり、近くのレストランやレビューをプッシュしたりできます。
 
  • 彼氏に、趙麗穎と同じ商品を購入したいと伝えてください。そうすれば、彼氏はこれらの商品に関する情報を簡単に見ることができます。
 入力メソッド企業は、これらの需要と単語の出現頻度の背後にあるデータを十分に蓄積する必要があります。単語の出現頻度に基づいてコンテンツを作成し、ユーザーが何かを入力するときに予期しない驚きを与えることで、情報推奨の目的を達成できます。入力メソッド分野に従事している友人が指導してくれることを願っています。

モバイルアプリケーション製品プロモーションサービス: APPプロモーションサービス青瓜メディア広告

この記事の著者@小呆は(Qinggua Media)によって編集および出版されています。転載する場合は著者情報と出典を明記してください。サイトマップ

<<:  インターネットが洗車業界を席巻しています。どのモデルが適切でしょうか?

>>:  駐馬店でチェックインミニプログラムを開発するにはどれくらいの費用がかかりますか?

推薦する

ユーザーの検索行動価値:垂直検索エンジンデータの価値分析

垂直検索エンジンとは、ウェブサイトやアプリ上に設けられ、ユーザーがキーワードを検索することで目的のコ...

予算ゼロでアクティビティを企画し、多数のユーザーを引き付けて維持する方法!

I. はじめに、活動に対する私の認識1. やるだけやらず、目的を考える2. ブランド認知3. 量よ...

湛江花店はミニプログラムを開発する必要がありますか?なぜ花のミニプログラムを作成する必要があるのでしょうか?

花屋のオーナーにとって、オフラインのチャネルではもはや現在のニーズを満たすことができません。オンライ...

最も人気のある核分裂マーケティングのトップ10をご存知ですか?

この記事では、近年最も人気のある核分裂マーケティングのトップ 10 を、普遍性、論理性、参照可能性と...

WeiboからToutiao、Zhihuまで、3つのコンテンツ大手はどこへ向かうのか?

現在、Weiboの時価総額は100億ドルに達し、 Toutiaoの評価額は92億ドルに達したと噂され...

製品運用の初期段階で尋ねるべき3つの質問

運用の初期段階における主な目標は、ユーザーが本当に製品を必要としているかどうかをテストすることです。...

記念日イベント企画のヒント!

最近、友人が面接に行ったところ、面接官から会社の周年記念オンラインビジネスイベントを企画するという課...

短編動画プラットフォームの戦いにおいて、Haokan Video はコンテンツ品質の欠点を補うことができるでしょうか?

ショートビデオはネットユーザーの時間と関心を奪うブラックホールです。ショートビデオプラットフォーム間...

etcdの原則と実践、K8sの主要コンポーネントの徹底的な理解、分散開発機能の向上

etcd の原則と実践、K8s の主要コンポーネントを徹底的に理解し、分散開発機能を向上させます。リ...

悪意のあるクリックを効果的に識別するにはどうすればよいでしょうか?ウェブサイトはどのようにして悪意のあるクリックを防ぐことができますか?

入札のベテランであれば、アカウントを運用する過程で、同僚による悪質なクリックに頻繁に遭遇することを知...

武威投資クラス「トレーディングセンストレーニングキャンプ」第252号_2022

コースカタログ1何もしないことによる効果的な底釣り法.mp4 2 無為の心の頂点からの正確な脱出.m...

トレンドを追う 2 つの方法と 3 つのコツ: ホットスポットを追って爆発させるにはどうすればよいでしょうか?

いつから始まったのかは分かりませんが、ソーシャルメディア業界で働く人々は、ホットな話題を追いかけない...

実践できる運用促進プラン作成の6つの提案!

ウェブサイト運営の初心者であっても、ある程度の業務経験を持つ友人であっても、完全なシステムをどのよう...

新規ユーザーを引き付ける6つの方法!

今日の記事では、古い教師が新しい生徒を教えるオンライン教育が現在どのような形態で存在しているかを別の...

ついに分かりました!プロジェクトの初期段階で運用と製品は何をすべきでしょうか?

次の写真を見てみましょう一つ明確にしておきたいのは、製品と運用の関係は従属関係ではなく、協力的で相互...