データの蓄積やユーザーポートレートなしで、私はこのようにToutiao製品を開発したのです...

データの蓄積やユーザーポートレートなしで、私はこのようにToutiao製品を開発したのです...
取引所でパーソナライズされた推奨について語る際、これまでは静かに漕ぎ出し、注目を集めなかったToutiaoは、間違いなくBAT全体に包囲されている。コンテンツ分野の企業は無意識のうちにToutiaoを競争相手とみなしており、コンテンツ分野以外のインターネット企業もコンテンツのパイの一部を手に入れたいと考えている。一夜にして、インターネットはフィードストリームでいっぱいになり、人々はコンテンツ推奨アルゴリズムについて語らないとテーブルに上がるのが恥ずかしいと思っている。 筆者はToutiao製品を0から1まで企画する栄誉に恵まれ、実践的な経験を共有したいと思います。興味のある友人の役に立てば嬉しいですし、業界のリーダーからの批判や訂正をいただければ幸いです。結局のところ、一人で手探りで進むのは依然として非常に危険です。 1. 明確なポジショニング 読書製品を頻繁に使用して感じたことは、大規模なプラットフォームでは情報が深みに欠けやすいということです。垂直的なコンテンツ情報は、テクノロジー、インターネットなど、一部の分野でしか役に立ちません。当時の私の考えは、業界内、特に最初からインターネットに深く関わっていない業界内で、詳細な情報を提供できるかどうかでした。ある業界でのパイロットプロジェクトを通じて、業界の見出しを形成し、高品質の業界知識を蓄積し、それを最低コストで他の業界に複製することができました。 長い間考えた後、上司に報告し、1万字の具体的な説得プロセスを省きました。最終的に彼は同意しました。チーム内の会社は伝統的な業界Aと交差しているため、業界Aから始めました。今、私たちはそれを実装し始めました。合計10人以上の技術者を見て、私は深く考え込んでしまいました... 欠点はそれほど明白ではありません: 
  • データの蓄積なし。
  • ユーザープロファイルがありません。
 
  • チームのメンバーには業界 A で働いた経験のある人はいません。
 注目の商品を作り始めます... 2. Toutiao製品の全体デザイン 私は、最下層の型ラベル付け層、中間層のデータキャプチャおよび分析層、最上層のビジネスアプリケーション層という 3 つのレベルから製品の構築を始めました。 下層タイプタグ 最下層は、特定の業界に応じて分類されています。本来、このプロセスは、特定の業界の製品と実践者によって分類されるべきですが、リソースが限られているため、これを実行します。確かに詳細度が十分ではありませんが、最初は実行できます。 最下層のタイプラベル層は、タイプとラベルに分かれています。タイプは階層化されており、データベースはレベル7まで予約されています。実際には、レベル3までソートすればほぼ十分です。たとえば、業界Aでは、A社が第1レベルのタイプ、業界Aの製造会社が第2レベルの分類、具体的な製造会社名が第3レベルのタイプです。各タイプは独立して構築されており、各テーブルではタイプに多数のラベルが関連付けられています。たとえば、業界Aの技術タイプでは、業界Aの技術用語辞書を見つけ、削除した後、ラベルとしてA技術タイプに関連付けられています。最終的に、ソートされたタイプの数は600を超え、ラベルの数は10万を超えました。データベースはステータスビットを予約しており、必要に応じて有効または無効にすることができます。 中間レベルのデータキャプチャおよび分析レイヤー データ クロールおよび分析レイヤーは、クローラーの展開、コンテンツ ソースの処理、およびデータ分類に分かれています。 1. クローラーの展開 技術の素人の観点から、クローラーを2つのカテゴリに分類します。1つは非方向性クローラーで、すべて別々のWebサイトです。この技術は非常に時間がかかり、各A業界企業の公式サイトニュースセンターや業界AプラットフォームWebサイトなど、個別に処理する必要があります。もう1つのタイプの方向性クローラーは、主に今日のヘッドラインなどの検索機能を備えた大規模な情報プラットフォームです。コードは再利用できます。書いた後、検索クローラーのキーワードを格納するテーブルを直接作成しました。1セットのコードでたくさんのキーワードを実装できます。入力するだけで、これらのキーワードを含むニュースがキャプチャされます。現在、このテーブルには700を超えるキーワードがあります。クロールされたコンテンツの量が多すぎるため、mongedbを使用して処理することをお勧めします。 2. コンテンツソースの処理 データが入ってきたら、まずソースを選別し、高品質なソースとジャンクソースに分けて、高品質なソースコンテンツの比重を高めます。高品質なソースは主に各社の公式サイトです。ジャンクソースとは、特定の業界について、同じソースから大量の意味のないコンテンツを指します。この場合、ジャンクソースとして識別されます。たとえば、xxというソースが自動車について語っている場合、建設業界ではジャンクソースとして識別されますが、将来的に自動車分野にコピーされると、ジャンクソースではなくなります。ジャンクソースは長期的な仕事で、現在約700件あります。ジャンクソースのほとんどはToutiaoの見出しです。 3. データ分類 スパムソースを除外した後、私たちはインダストリーのニュースに取り組んでいたため、最初から2つのソリューションを使用することを望んでいました。記事、および各記事のすべてのセグメント化された単語の総頻度がありました。これは、他のメソッドのタグをスパムソースのためにフィルタリングしたすべての記事を比較し、そのタイプに記事を掲載しています。もちろん、手作業の介入により、一連のスパムソースがスクリーニングされ、タイプとタグのメンテナンス作業が続き、コンテンツの精度が向上しました。 最上位のビジネスアプリケーション層 ビジネスプレゼンテーション層は、主にターゲットユーザーが興味を持っているキーワードを選別し、これらのキーワードをタイプタグ層のタイプに関連付けます。これにより、ユーザーはキーワードを購読した後、そのキーワードが属するコンテンツを見ることができます。フロントエンドには現在、購読プラットフォームと業界ヘッドラインの2つのオンライン製品があり、バックエンド管理センターと連携しています。 1. サブスクリプションプラットフォーム サブスクリプションプラットフォームは半クローズドで、業界Aの企業ユーザーと業界Aのセルフメディア実践者を対象としています。彼らが興味を持っているキーワードを公開し、コンテンツの精度を高めています。企業ユーザーはキーワードを購読して関連情報を見ることができます。プラットフォームの機能を確認した後、より多くのキーワードをカスタマイズしたいと思うでしょう。バックグラウンドレビューの後、クローラーは引き続き展開され、すべてのユーザー行動データを記録しながら、ユーザーにデータをプッシュします。 2. 業界のニュース 業界ヘッドラインは、将来の業界従事者や一般の業界愛好家に完全にオープンであり、より多くのキーワードを公開しています。ただし、サブスクリプションプラットフォームと比較すると、コンテンツの質はわずかに低くなりますが、対象ユーザーはより広いため、すべてのユーザー行動データ(コメント、読書量、イベントのバッチ変更、キーワードへの注目など)を記録し、ユーザーからのフィードバックを得て、ユーザーポートレートを確立し、さまざまなユーザーポートレートに基づいてキーワードを推奨する効果を実現し、実際の推奨に備えたいと考えています。 3. バックステージ管理センター ニュース管理、ソース管理(高品質ソース、ジャンクソース)、タイプ/タグ管理、ユーザー行動管理、プッシュ管理、キーワードレビュースケジュール管理、コメント検索管理などが含まれます。ここでは詳細には触れず、機会があれば詳しく紹介します。製品のフレームワークを整理するために簡単に図を描いて、上記の議論と組み合わせるとわかりやすいかもしれません。 

(注意:侵害した場合は訴追されます)

 3. 同僚の皆さんへ 常に別の Toutiao を作ろうとしないでください。あなたの経験とアルゴリズムが Toutiao より 50% 以上優れていない場合、正面から対決する可能性は基本的にありません。独自のエントリー ポイントを見つけて、独自の利点を認識してください。 コンテンツの推薦は常に危険です。ユーザーが必要としていないものを推薦すると、ユーザーが嬉しい驚きを感じない限り、マイナスになります。ユーザーは使用しなければならない製品に我慢する必要があり、不要な製品はユーザーにアンインストールされる可能性が高くなります。公開アカウントを運営している友人はこれを痛感したに違いなく、コンテンツをプッシュするたびにフォロワーを失うことを恐れています。 私は以前から検索に興味があったので、入力メソッド製品向けにどのようなコンテンツを作成したいかについての私の提案を簡単に説明します。 ユーザーにはそれぞれ独自の情報ニーズがあります。 
  • アクティブ獲得: RSS クロール (Google サブスクリプション)、フォロー/購読 (即時)
 
  • 受動的な獲得: プラットフォームの推奨 (従来のポータル、ニュースサイト)、垂直メディア情報 (36K、Huxiu など、最近ではFeng Dahuiの readhub)、パーソナライズされた推奨 (Toutiao、 Yidian Zixun )
この種の需要に対しては非常に激しい競争があり、特定のシナリオにおける情報に対する需要に基づく別の種類の需要もあります。 たとえば、就職活動をしているときは、特定の企業について詳しく知りたいと思うでしょうし、食事をしているときは、近くのレストランについて詳しく知りたいと思うでしょう。 この種の需要は特にロングテールです。現在どのように満たされているのでしょうか? Baidu、Zhihuなどのプラットフォームで積極的に検索していますが、必要な情報を得るまでの道のりは非常に長いです。たとえば、友人と食事をしていて、近くにあるおいしいレストランを知りたい場合、検索コストは非常に高くなります。このようなシナリオが頻繁に発生するのはどこでしょうか?チャットして問い合わせる時間です!まさにここが、入力方法が情報を活用するチャンスであると私は考えています。具体的には、次のようになります。 
  • 転職について他の人とチャットしているとき、特定の会社について話しているときに、入力するとプロンプト(色の変化など)が表示され、会社の最新情報を便利にプッシュできます。
  • チャットしてディナーの予約をしたり、近くのレストランやレビューをプッシュしたりできます。
 
  • 彼氏に、趙麗穎と同じ商品を購入したいと伝えてください。そうすれば、彼氏はこれらの商品に関する情報を簡単に見ることができます。
 入力メソッド企業は、これらの需要と単語の出現頻度の背後にあるデータを十分に蓄積する必要があります。単語の出現頻度に基づいてコンテンツを作成し、ユーザーが何かを入力するときに予期しない驚きを与えることで、情報推奨の目的を達成できます。入力メソッド分野に従事している友人が指導してくれることを願っています。

モバイルアプリケーション製品プロモーションサービス: APPプロモーションサービス青瓜メディア広告

この記事の著者@小呆は(Qinggua Media)によって編集および出版されています。転載する場合は著者情報と出典を明記してください。サイトマップ

<<:  オペレーターはホットスポットをどのように追跡しますか? 4ポイントをシェア!

>>:  2020 年のデイリースペシャルには 1 か月に何回申し込むことができますか?

推薦する

運用体制の構築とチャネル転換でいかにコンバージョンにつなげるか?

1. あなたの心の中でオペレーションとは何ですか?操作は 2 つの部分に分かれています。 1.ブラ...

あなたとオペレーションの巨人との間には、ほんの少しの習慣の違いしかありません

運用作業が非常に複雑であるというのは、基本的に全員の共通認識です。オペレーションスタッフが些細な問題...

618 ショッピング フェスティバルでよく売れるランディング ページには、どのような機能が必要ですか?

天猫の双十一の取引量は1682億に達した!羨ましいですか?そんなにお金があったら、私は今からゾウリム...

広告は素晴らしいのに、コンバージョン率がない、そんなことを考えたことはありますか?何の役に立つんだよ! ! !

顧燁、王左中有、薛志謙などのソフトテキストの達人が様々な神レベルのWeChatソフト広告をリリースし...

コンテンツ作成には 3 つの基本的なルーチンがあります。これらを理解すれば、10 年間の回り道を回避できます。

世の中に罠はなかったが、より多くの人がそれをすると罠ができた。世の中に道はなかったが、より多くの人が...

ウェブサイトテスト分析レポート、ウェブサイトエクスペリエンスレポートの書き方は?

ウェブサイトを構築、修正、または機能改善する必要がある場合、計画やレポートが必要です。ウェブサイトの...

企業にとって適切なインターネット顧客獲得計画とはどのようなものでしょうか?

以下の内容、計7ステップ知識はあなたを助ける:試行錯誤のコストを節約する〜 — 1 —効果的なH5ラ...

Weibo広告の選び方は?きっとあなたはあまり知らないのでしょう...

周知のとおり、広告主がWeiboに広告を出したい場合、有名人やWeiboの電子商取引の専門家が第一の...

一般的に使用される SEM 統計ツールは何ですか? SEM でよく使用される統計分析ツールは何ですか?

公式の Baidu Statistics やサードパーティの統計ツール 51la、cnzz など、W...

シャネルは生産を停止すると発表しました。シャネルはいつまで生産を停止するのでしょうか?

新型コロナウイルスの世界的なパンデミックの中、高級ブランドはウイルスの拡散を抑えるために主要な感染国...

小紅書エージェント運営:小紅書を2年間運営した経験から、これらの経験をまとめました!

小紅書は、ショッピング、ファッション、スキンケア、美容、食品に重点を置いた越境電子商取引プラットフォ...

西城雲学院・JD Expressと最新の検索方法

西城雲学院・JD Expressと最新の検索ゲームリソースの紹介: 4次元のボーナスを獲得し、JDプ...

教育・研修業界向けの広告のヒント618選!

618中間セールの到来とともに、教育業界の大手企業がさまざまな地域に進出し、さまざまな教育機関が販...

質の高いマーケティングを行うには?

2014 年はモバイル ヘルスケアの好景気の年でした。不完全な統計によると、その年の後半には 3 ...