Toutiaoの中毒性のあるデータマイニング

Toutiaoの中毒性のあるデータマイニング

何らかの不可抗力により、他の企業と同様に、 Toutiaoの製品も海外でブロックされています。しかし、これらの力についてちょっと見てみましょう。

この記事では、Toutiao の製品を理解するために、製品 + テクノロジーという 2 つの観点から Toutiao と Douyin を検討します。

もちろん、これは限られた情報と知識に基づいた私の個人的な表面的な分析にすぎません。まず、2 つの製品には 1 つの類似点があることを知っておく必要があります。それは、どちらも楽しく、世界中のすべての人に好まれるということです。

Tik Tok は、誰もが完全に自由に創作し、自分の生活を記録できる製品こそが優れた製品であることを示しています。

始める前に、Douyin と Toutiao のデータについて大まかに理解しておく必要があります。次の 2 つのデータセットは、Douyin と Toutiao の開発履歴を記録しています。

Toutiao: データマイニングに基づいた推奨エンジン製品。

2015年12月現在、Toutiaoのアクティブユーザー数は3億5000万人、1日あたりのアクティブユーザー数は3500万人を超えています。

そのうち、「今日頭条」プラットフォーム上のアカウント数は4万1000を超え、各メディア、政府、機関は合計1万1000を超え、協力協定を締結した伝統メディアは1000を超え、「今日頭条」の自社メディアアカウント総数は3万を超えている。

Tik Tok: 技術的レベルでは同じ検索エンジンです。

2016年9月にToutiaoでローンチされて以来、中国の若者に適した音楽ショートビデオコミュニティとして位置づけられており、縦型音楽UGCショートビデオを応用しており、2017年以降、ユーザー規模の急速な成長を遂げています。

Douyinの国際版であるTikTokのダウンロード数とインストール数は、米国市場で一時1位に躍り出たほか、日本、タイ、インドネシア、ドイツ、フランス、ロシアなどでも何度も現地のApp StoreやGoogle Playのランキングでトップに立った。

Douyinのプロダクトマネージャーである王暁偉氏は2017年9月2日、「Douyinユーザーの85%は24歳以下で、主なインフルエンサーとユーザーは基本的に1995年以降、あるいは2000年以降に生まれています。2018年10月現在、このアプリは世界150か国以上で8億人以上のユーザーにダウンロードされています。」と語った。

センサータワーの2020年5月の最新データによると、全世界のApp StoreとGoogle Playアプリストアにおける「Douyin」と「TikTok」の海外でのダウンロード回数の合計は20億回を超えた。

これら 2 つのデータは、Tik Tok と Toutiao の人気を示しています。優れた製品は優れたデータとユーザーの増加を示しており、私たち製品マネージャーにとって学ぶべき例となります。

次に、DouyinとToutiaoを製品の観点から見て、主に両者の類似点を分析します。

1. 中毒性のある幸福の源

Toutiao が最初にリリースされたとき、あらゆるニュースを可能な限り適切な人に推奨していました。同じテクノロジーを TikTok に適用すると、同じ効果が得られます。

Toutiao のアルゴリズムがうまく実証されれば、Douyin の効果を見ることができます。Toutiao の試作品は、自社の Douyin を世界で最も人気のあるショートビデオソーシャル製品にしました。

DouyinでもToutiaoでも、すべてのユーザーが自分の好きなコンテンツを見つけることができ、嫌いなコンテンツはありません。

職場でWeChatやQQを使ってコミュニケーションを取っていると、誰もがストレスを感じています。Douyinの場合はその逆です。誰もが仕事の悩みやプレッシャーから解放されています。休憩中や仕事が終わった後に、DouyinやToutiaoを開いてリラックスし、ストレスのない状態で娯楽を楽しむのです。

私たちは皆、幸福が良いものだと知っており、幸福感が好きですが、中毒性のある幸福はそれでも良いものなのでしょうか?

TikTokで盲目的に幸福を追い求め、注意力を奪ってしまうと、急いで仕事を終わらせて、TikTokを開いて短い動画を見たいと思うようになります。私たちは逃避を基本とし、ストレスの多い職場環境から逃げたいと切望しており、同じ単純な逃避が私たちの感情を深めることになります。

この気持ちは常に存在し、日々深まっています。この気持ちは毎日繰り返されているとも言えます。唯一の方法は、Douyin または Toutiao を徐々に放棄し、この製品への依存を減らし、Douyin を使用する回数と時間を減らすことです。

2. 宣伝する

昨今、問題があれば以前のように警察に行くのではなく、記者に相談するのが流行っていることは誰もが知っています。なぜ、世論の単純なニュースがこれほど大きな反響を引き起こすのでしょうか。

まず、私たちはこの情報化社会と国に感謝しなければなりません。情報化が進んでいるので、誰の猫が行方不明になったかがわかり、警察が街中を捜索し、話題になるのです。これは舞台裏でファンが支えてくれたおかげです。ファンは本当に力強いです。

メディアプラットフォームとして、Toutiao と Douyin はポリシーにより、提供するコンテンツを審査し、管理することができます。

海外市場のように完全に開放されれば、一連の規制上の問題にも直面することになるだろう。中国では、TikTok はエンターテイメント プラットフォームという側面が強く、そこで個人的な意見を表明することは許可されていないため、私たちが目にするのは生活であり、さまざまな生活が記録されているのです。

スピーチの部分についてはあまり議論しませんが、メディア製品としてのTikTokの背景にある世論について引き続き話していきます。

世論が話題になると、まず考えるべきことは礼儀と道徳だということ、法律がどれだけ厳しくても、多少の礼儀と道徳は関わってくるということに私たちは気づいているだろうか。

もちろん、人それぞれに異なる道徳観念がありますが、大衆の道徳観念はすべての人を従わせます。簡単に言えば、個人の道徳観念ではなく、集団の道徳観念に従うことです。個人が異なる道徳観念を持っている場合、この熱い世論イベントに参加することはできません。

3. データマイニング

成熟した製品はすべて、テクノロジーのサポートから切り離すことはできません。テクノロジーと科学研究の違いは、テクノロジーは価値を生み出す必要があるのに対し、科学研究は価値のない研究であるということです。以下では、ToutiaoとDouyinの背後にある技術的なデータマイニングを紹介します。

1. データマイニング

これはコンピュータサイエンスの学際的な分野です。人工知能、機械学習、統計、データベースの交差点からの手法を使用して、比較的大規模なデータ セット内のパターンを発見する計算プロセス。

データ マイニング プロセスの全体的な目標は、データ セットから情報を抽出し、それを理解可能な構造に変換してさらに使用できるようにすることです。

元の分析手順に加えて、データベースとデータの管理、データの前処理、モデルと推論の考慮、興味深さの測定、複雑性の考慮、構造の発見、視覚化、オンライン更新などの後処理も含まれますが、これらは本質的に機械学習の範囲に属します。

「データ ドレッジング」、「データ フィッシング」、「データ検出」などの用語は、データ マイニング手法を使用して、大規模なデータセット全体から、発見されたパターンの妥当性について統計的な推論を確実に行うには (潜在的に) 小さすぎる部分をサンプリングすることを指します。ただし、これらの手法では、大規模なデータセットをテストするための新しい仮説を立てることができます。

2. 歴史

データマイニングは、大量の有用なデータの急速な増加の結果です。

1960 年代以降、コンピューターを使用して履歴データを分析することで、デジタル データ収集が現実のものとなりました。1980 年代には、動的なオンデマンド データ分析に適応できる構造化クエリ言語とともにリレーショナル データベースが開発され、大量のデータの保存にデータ ウェアハウスが使用されるようになりました。

データベース内の大量のデータを処理するという課題に直面して、データマイニングが誕生しました。これらの問題に対する主な方法は、データ統計分析と人工知能検索技術です。

3. 定義

データには次のようなさまざまな定義があります。

「データから隠された、これまで知られていなかった貴重な潜在的情報を抽出する」

「大量のデータやデータベースから有用な情報を抽出する科学」

データマイニングは通常、人工知能のようなデータ分析に適用されますが、意味が豊かで、さまざまな分野で使用できる用語でもあります。

KDD (データベース内の知識発見) との関係は、KDD はデータから有効で、新規で、潜在的に有用で、最終的には理解可能なパターンを識別するプロセスであるのに対し、データ マイニングは、特定のアルゴリズムを通じて許容可能な計算効率の制限内で特定のパターンを生成する KDD のステップであるという点です。

実際、現在の文献では、この 2 つの用語は互換的に使用されることがよくあります。

4. エッセンス

データマイニングは本質的に機械学習の一部です。

たとえば、『データ マイニング: 実践的な機械学習テクニックと Java 実装』という本は、主に機械学習について書かれています。この本は元々「実践的な機械学習」というタイトルでした。「データ マイニング」という用語は、マーケティングの目的で後から追加されたものです。

多くの場合、より正式な用語である(大規模な)データ分析や分析を使用するか、人工知能や機械学習などの実際の研究方法に言及する方が正確です。

5. プロセス

データマイニングの実際の作業は、大規模なデータを自動的または半自動的に分析して、これまで知られていなかった貴重な潜在的な情報を抽出することです。たとえば、データのグループ化 (クラスター分析による)、データの異常な記録 (異常検出による)、データ間の関係 (関連ルール マイニングによる) などです。

これには、多くの場合、空間インデックスなどのデータベース技術が関係します。この潜在的な情報は、処理された入力データの要約を通じて提示することができ、その後、機械学習や予測分析などのさらなる分析に使用できます。

たとえば、データ マイニング操作を実行する場合、データを複数のグループに分割し、意思決定支援システムを使用してより正確な予測結果を取得する必要がある場合があります。

ただし、データの収集、データの前処理、結果の解釈、レポートの作成は、データ マイニングのステップとは見なされませんが、「データベース内の知識の発見」(KDD) プロセスに属し、単なる追加ステップにすぎません。

データベース内の知識発見 (KDD) プロセスは、通常、次のフェーズとして定義されます。

  1. 選ぶ
  2. 前処理
  3. 変身
  4. データマイニング
  5. 説明・評価

1) 前処理

データ マイニング アルゴリズムを適用する前に、ターゲット データ セットを収集する必要があります。

データ マイニングでは、データ内に実際に存在するパターンしか検出できないため、ターゲット データセットはこれらのパターンを含むのに十分な大きさである必要があり、残りは許容時間内にマイニングできるほど簡潔である必要があります。一般的なデータ ソースは、データ スーパーマーケットまたはデータ ウェアハウスです。

データ マイニングを行う前に、多変量データを分析し、ターゲット セットをクリーンアップするためにデータを前処理する必要があります。データ クリーンアップにより、ノイズや欠損データを含む観測値が除去されます。

2) データマイニング

データ マイニングには、次の 6 つの一般的なタスクが含まれます。

  1. 異常検出(異常/変更/逸脱検出) :さらなる調査が必要な異常なデータレコードとエラーのあるデータを識別します。
  2. 関連ルール学習(依存性モデリング) :変数間の関係を検索します。たとえば、スーパーマーケットでは顧客の購買習慣に関するデータを収集する場合があります。関連ルール学習を使用すると、スーパーマーケットはどの製品が一緒に購入されることが多いかを判断し、この情報をマーケティングに役立てることができます。これは、マーケット バスケット分析と呼ばれることもあります。
  3. クラスタリング: 未知のデータの構造に基づいてデータのカテゴリと構造を発見することです。
  4. 分類: 既知の構造を新しいデータに一般化するタスクです。たとえば、電子メール プログラムは電子メールを「正当」または「スパム」として分類しようとする場合があります。
  5. 回帰: 最小限の誤差でデータをモデル化できる関数を見つけます。
  6. 自動要約: 視覚化やレポートの生成など、データセットのよりコンパクトな表現を提供します。

3) 結果の検証

データマイニングの価値には、一般的に特定の目的があり、この目的が達成されたかどうかは、一般的に結果を通じて検証できます。

検証とは、「客観的な証拠を提供することによって、指定された要求事項が満たされていることを決定すること」を意味し、この「決定」活動の計画、実施、完了は、「指定された要求事項」の内容と密接に関連しています。

データ マイニング プロセスにおけるデータ検証の「指定された要件」の設定は、多くの場合、データ マイニングが達成しようとする基本目標、プロセス目標、および最終目標に関連しています。

検証の結果、「指定された要件」が完全に満たされているか、まったく満たされていないか、またその中間の満足度レベルになる場合があります。検証は、データ マイニングを行う人自身が行うことも、データ マイニングを行う人とはまったく関係のない方法で、他の人の関与によって、または完全に他の誰かのプロジェクトを通じて行うこともできます。

一般的に、データ マイナーが検証プロセスに参加しないことは不可能です。ただし、客観的な証拠の収集と識別プロセスの評価は、検証を提案した人と関係のない人が実行すると、より客観的になることがよくあります。

結果を検証することで、データ マイナーはマイニングしたデータの価値を評価できます。

データマイニング手法には、教師あり学習、教師なし学習、半教師あり学習、強化学習などがあります。教師あり学習には、分類、推定、予測が含まれます。教師なし学習には、クラスタリングと関連ルール分析が含まれます。

6. 例

小売業界でのデータマイニングの応用: 小売会社が顧客の購入を追跡し、ある顧客が大量のシルクシャツを購入したことを発見しました。この時点で、データマイニングシステムは、この顧客とシルクシャツとの関連性を確立します。

営業部門はこの情報を確認し、シルクシャツの現在の市場価格とシルクシャツに関するすべての情報を顧客に直接送信します。このように、小売店はデータマイニングシステムを通じて、これまでわからなかった顧客に関する新たな情報を発見し、ビジネスの範囲を拡大することができます。

7. データフィッシング

データ マイニングは、データ ウェアハウスと分析に関連するテクノロジと見なされることが多いですが、その中間に位置します。

しかし、時には、存在しないが興味深いと思われるパターン (特に因果関係) を発見するなど、非常にばかげた応用もあります。これらの無関係で、誤解を招く、あるいは価値のない関連性は、統計文献では冗談めかして「データ ドレッジング、データ フィッシング、またはデータ スヌーピング」と呼ばれることがよくあります。

データ マイニングとは、データをスキャンして関係性の可能性を探し、一致するパターン (「過剰一致パターン」とも呼ばれる) を除外することを意味します。大規模なデータセットには、「興味深い関係」を持つ偶然のデータや特定のデータが必ず存在します。

したがって、いくつかの結論は非常に疑わしいと思われます。ただし、探索的データ分析では、データを見つけるために統計分析を適用することが依然として必要となるため、適切な統計手法とデータとの境界は明確ではありません。

危険なのは、存在しない相関関係が出現することであり、投資アナリストはこの間違いを最も犯しやすいようです。

『顧客のヨットはどこにあるのか?』という本の中で》本を書いた:

「ルーレットの何千回ものスピンの中で、起こりうる繰り返しパターンを探すのに忙しい哀れな人が常にかなりいる。残念ながら、彼らはたいていパターンを見つけてしまう。」

ほとんどのデータ研究は、大規模なデータセット内の非常に詳細なパターンを発見することに重点を置いています。

著者: 李 航

出典:李航

<<:  蘭州ウェディングWeChatアプレット機能、ウェディングWeChatアプレットの開発にはどれくらいの費用がかかりますか?

>>:  既存顧客から新規ユーザーを呼び込む際に無視できない3つのユーザー成長テクニック!

推薦する

ユーザーをリコールする方法を本当に知っていますか?たった3ステップで10%の再現率を実現!

各製品のユーザーライフサイクルは、接触 - 使用 - 放棄または忘却のプロセスです。ユーザーの使用段...

華曼楼システムコース研修(第三期)百度クラウドダウンロード

華曼楼システムコース研修(第3期)リソース紹介:コースカタログ01 ビデオチュートリアル: 小型ステ...

アフリカ人に誕生日のお祝いをするにはいくらかかりますか?アフリカの誕生日のお祝いにはいくらかかりますか?

「XXX、愛してるよ」「誕生日おめでとう」「ある商品を買うには、XXXに行ってください。アフリカ人...

ユーザーのコンバージョン率を向上させるにはどうすればいいですか?

豊かな暮らしをしている人は、2018 年の終わりにも豊かな暮らしを続けているでしょう。投機目的で業界...

Miluo SEOトレーニング:電子商取引ウェブサイトのプロモーションと最適化戦略

現在のライフスタイルでは、オンラインショッピングが大きな変化の要因となっています。以前のショッピング...

WeChat ミニプログラム サーバーの要件、WeChat ミニプログラム サーバーはどこに配置されますか?

いつの間にか、ミニプログラムはオンラインになってから5年以上経ちました。多くの企業が独自のミニプログ...

情報フローの促進にお金をかけているのに、なぜコンバージョンが得られないのでしょうか?

「なぜ私に希望を与えながら失望させるのですか?」私の広告をクリックしてフォームに記入しましたが、コ...

レビューの要約: 現金ローン商品はなぜ運用に失敗するのか?

この記事は、著者が運営していた現金ローン商品の失敗についてのレビューと要約です。著者は要約から失敗の...

老干馬氏はテンセントが債権回収をしたことがないと言っている。テンセントはなぜ広告料を徴収しなかったのか?

テンセントはなぜ広告料を徴収しなかったのか?なぜ老干馬はテンセントから広告料の徴収要請を受けなかった...

事例分析:ゼブラAIクラスの0元交通迂回コースの成長モデルを解明

Zebra AI Classは、 2〜8歳の子供向けに多分野にわたるオンライン学習を提供するインテリ...

アリペイ、ネットイースなどの「年末総括」H5運用手順

年末が近づき、新年が始まると、あなたの友人の輪には、主要アプリからの H5 在庫更新情報が殺到してい...

高度な CP 操作ルーチンをマスターする方法を紹介します。

2015年、私はAPPのプロモーションと運営に悩まされてきました。最新のアプリケーションのプロモー...

ユーザーを素早く確保し、満足のいくプロモーション結果を達成するにはどうすればよいでしょうか?

どの業界でも、製品を宣伝する際には、業界の特性とターゲット ユーザーという2 つの点を考慮します。本...

宏世私有ドメイン工学アカデミーのトレーダー向け必修システムコース

【レッドティーチャープライベートドメインエンジニアリングアカデミー】トレーダー向け必修システムコース...

住宅改修業界で Baidu 情報フロー広告を掲載する際に、ユーザーの意図を正確に推定するにはどうすればよいでしょうか?

ホームセンター業界は、市場規模が小さい典型的な大規模業界です。ブランド関連の検索語はわずか4.61%...