Toutiaoの中毒性のあるデータマイニング

何らかの不可抗力により、他の企業と同様に、 Toutiaoの製品も海外でブロックされています。しかし、これらの力についてちょっと見てみましょう。

この記事では、Toutiao の製品を理解するために、製品 + テクノロジーという 2 つの観点から Toutiao と Douyin を検討します。

もちろん、これは限られた情報と知識に基づいた私の個人的な表面的な分析にすぎません。まず、2 つの製品には 1 つの類似点があることを知っておく必要があります。それは、どちらも楽しく、世界中のすべての人に好まれるということです。

Tik Tok は、誰もが完全に自由に創作し、自分の生活を記録できる製品こそが優れた製品であることを示しています。

始める前に、Douyin と Toutiao のデータについて大まかに理解しておく必要があります。次の 2 つのデータセットは、Douyin と Toutiao の開発履歴を記録しています。

Toutiao: データマイニングに基づいた推奨エンジン製品。

2015年12月現在、Toutiaoのアクティブユーザー数は3億5000万人、1日あたりのアクティブユーザー数は3500万人を超えています。

そのうち、「今日頭条」プラットフォーム上のアカウント数は4万1000を超え、各メディア、政府、機関は合計1万1000を超え、協力協定を締結した伝統メディアは1000を超え、「今日頭条」の自社メディアアカウント総数は3万を超えている。

Tik Tok: 技術的レベルでは同じ検索エンジンです。

2016年9月にToutiaoでローンチされて以来、中国の若者に適した音楽ショートビデオコミュニティとして位置づけられており、縦型音楽UGCショートビデオを応用しており、2017年以降、ユーザー規模の急速な成長を遂げています。

Douyinの国際版であるTikTokのダウンロード数とインストール数は、米国市場で一時1位に躍り出たほか、日本、タイ、インドネシア、ドイツ、フランス、ロシアなどでも何度も現地のApp StoreやGoogle Playのランキングでトップに立った。

Douyinのプロダクトマネージャーである王暁偉氏は2017年9月2日、「Douyinユーザーの85%は24歳以下で、主なインフルエンサーとユーザーは基本的に1995年以降、あるいは2000年以降に生まれています。2018年10月現在、このアプリは世界150か国以上で8億人以上のユーザーにダウンロードされています。」と語った。

センサータワーの2020年5月の最新データによると、全世界のApp StoreとGoogle Playアプリストアにおける「Douyin」と「TikTok」の海外でのダウンロード回数の合計は20億回を超えた。

これら 2 つのデータは、Tik Tok と Toutiao の人気を示しています。優れた製品は優れたデータとユーザーの増加を示しており、私たち製品マネージャーにとって学ぶべき例となります。

次に、DouyinとToutiaoを製品の観点から見て、主に両者の類似点を分析します。

1. 中毒性のある幸福の源

Toutiao が最初にリリースされたとき、あらゆるニュースを可能な限り適切な人に推奨していました。同じテクノロジーを TikTok に適用すると、同じ効果が得られます。

Toutiao のアルゴリズムがうまく実証されれば、Douyin の効果を見ることができます。Toutiao の試作品は、自社の Douyin を世界で最も人気のあるショートビデオソーシャル製品にしました。

DouyinでもToutiaoでも、すべてのユーザーが自分の好きなコンテンツを見つけることができ、嫌いなコンテンツはありません。

職場でWeChatやQQを使ってコミュニケーションを取っていると、誰もがストレスを感じています。Douyinの場合はその逆です。誰もが仕事の悩みやプレッシャーから解放されています。休憩中や仕事が終わった後に、DouyinやToutiaoを開いてリラックスし、ストレスのない状態で娯楽を楽しむのです。

私たちは皆、幸福が良いものだと知っており、幸福感が好きですが、中毒性のある幸福はそれでも良いものなのでしょうか?

TikTokで盲目的に幸福を追い求め、注意力を奪ってしまうと、急いで仕事を終わらせて、TikTokを開いて短い動画を見たいと思うようになります。私たちは逃避を基本とし、ストレスの多い職場環境から逃げたいと切望しており、同じ単純な逃避が私たちの感情を深めることになります。

この気持ちは常に存在し、日々深まっています。この気持ちは毎日繰り返されているとも言えます。唯一の方法は、Douyin または Toutiao を徐々に放棄し、この製品への依存を減らし、Douyin を使用する回数と時間を減らすことです。

2. 宣伝する

昨今、問題があれば以前のように警察に行くのではなく、記者に相談するのが流行っていることは誰もが知っています。なぜ、世論の単純なニュースがこれほど大きな反響を引き起こすのでしょうか。

まず、私たちはこの情報化社会と国に感謝しなければなりません。情報化が進んでいるので、誰の猫が行方不明になったかがわかり、警察が街中を捜索し、話題になるのです。これは舞台裏でファンが支えてくれたおかげです。ファンは本当に力強いです。

メディアプラットフォームとして、Toutiao と Douyin はポリシーにより、提供するコンテンツを審査し、管理することができます。

海外市場のように完全に開放されれば、一連の規制上の問題にも直面することになるだろう。中国では、TikTok はエンターテイメントプラットフォームという側面が強く、そこで個人的な意見を表明することは許可されていないため、私たちが目にするのは生活であり、さまざまな生活が記録されているのです。

スピーチの部分についてはあまり議論しませんが、メディア製品としてのTikTokの背景にある世論について引き続き話していきます。

世論が話題になると、まず考えるべきことは礼儀と道徳だということ、法律がどれだけ厳しくても、多少の礼儀と道徳は関わってくるということに私たちは気づいているだろうか。

もちろん、人それぞれに異なる道徳観念がありますが、大衆の道徳観念はすべての人を従わせます。簡単に言えば、個人の道徳観念ではなく、集団の道徳観念に従うことです。個人が異なる道徳観念を持っている場合、この熱い世論イベントに参加することはできません。

3. データマイニング

成熟した製品はすべて、テクノロジーのサポートから切り離すことはできません。テクノロジーと科学研究の違いは、テクノロジーは価値を生み出す必要があるのに対し、科学研究は価値のない研究であるということです。以下では、ToutiaoとDouyinの背後にある技術的なデータマイニングを紹介します。

1. データマイニング

これはコンピュータサイエンスの学際的な分野です。人工知能、機械学習、統計、データベースの交差点からの手法を使用して、比較的大規模なデータセット内のパターンを発見する計算プロセス。

データマイニングプロセスの全体的な目標は、データセットから情報を抽出し、それを理解可能な構造に変換してさらに使用できるようにすることです。

元の分析手順に加えて、データベースとデータの管理、データの前処理、モデルと推論の考慮、興味深さの測定、複雑性の考慮、構造の発見、視覚化、オンライン更新などの後処理も含まれますが、これらは本質的に機械学習の範囲に属します。

「データドレッジング」、「データフィッシング」、「データ検出」などの用語は、データマイニング手法を使用して、大規模なデータセット全体から、発見されたパターンの妥当性について統計的な推論を確実に行うには (潜在的に) 小さすぎる部分をサンプリングすることを指します。ただし、これらの手法では、大規模なデータセットをテストするための新しい仮説を立てることができます。

2. 歴史

データマイニングは、大量の有用なデータの急速な増加の結果です。

1960 年代以降、コンピューターを使用して履歴データを分析することで、デジタルデータ収集が現実のものとなりました。1980 年代には、動的なオンデマンドデータ分析に適応できる構造化クエリ言語とともにリレーショナルデータベースが開発され、大量のデータの保存にデータウェアハウスが使用されるようになりました。

データベース内の大量のデータを処理するという課題に直面して、データマイニングが誕生しました。これらの問題に対する主な方法は、データ統計分析と人工知能検索技術です。

3. 定義

データには次のようなさまざまな定義があります。

「データから隠された、これまで知られていなかった貴重な潜在的情報を抽出する」
「大量のデータやデータベースから有用な情報を抽出する科学」

データマイニングは通常、人工知能のようなデータ分析に適用されますが、意味が豊かで、さまざまな分野で使用できる用語でもあります。

KDD (データベース内の知識発見) との関係は、KDD はデータから有効で、新規で、潜在的に有用で、最終的には理解可能なパターンを識別するプロセスであるのに対し、データマイニングは、特定のアルゴリズムを通じて許容可能な計算効率の制限内で特定のパターンを生成する KDD のステップであるという点です。

実際、現在の文献では、この 2 つの用語は互換的に使用されることがよくあります。

4. エッセンス

データマイニングは本質的に機械学習の一部です。

たとえば、『データマイニング: 実践的な機械学習テクニックと Java 実装』という本は、主に機械学習について書かれています。この本は元々「実践的な機械学習」というタイトルでした。「データマイニング」という用語は、マーケティングの目的で後から追加されたものです。

多くの場合、より正式な用語である（大規模な）データ分析や分析を使用するか、人工知能や機械学習などの実際の研究方法に言及する方が正確です。

5. プロセス

データマイニングの実際の作業は、大規模なデータを自動的または半自動的に分析して、これまで知られていなかった貴重な潜在的な情報を抽出することです。たとえば、データのグループ化 (クラスター分析による)、データの異常な記録 (異常検出による)、データ間の関係 (関連ルールマイニングによる) などです。

これには、多くの場合、空間インデックスなどのデータベース技術が関係します。この潜在的な情報は、処理された入力データの要約を通じて提示することができ、その後、機械学習や予測分析などのさらなる分析に使用できます。

たとえば、データマイニング操作を実行する場合、データを複数のグループに分割し、意思決定支援システムを使用してより正確な予測結果を取得する必要がある場合があります。

ただし、データの収集、データの前処理、結果の解釈、レポートの作成は、データマイニングのステップとは見なされませんが、「データベース内の知識の発見」(KDD) プロセスに属し、単なる追加ステップにすぎません。

データベース内の知識発見 (KDD) プロセスは、通常、次のフェーズとして定義されます。

選ぶ
前処理
変身
データマイニング
説明・評価

1) 前処理

データマイニングアルゴリズムを適用する前に、ターゲットデータセットを収集する必要があります。

データマイニングでは、データ内に実際に存在するパターンしか検出できないため、ターゲットデータセットはこれらのパターンを含むのに十分な大きさである必要があり、残りは許容時間内にマイニングできるほど簡潔である必要があります。一般的なデータソースは、データスーパーマーケットまたはデータウェアハウスです。

データマイニングを行う前に、多変量データを分析し、ターゲットセットをクリーンアップするためにデータを前処理する必要があります。データクリーンアップにより、ノイズや欠損データを含む観測値が除去されます。

2) データマイニング

データマイニングには、次の 6 つの一般的なタスクが含まれます。

異常検出（異常/変更/逸脱検出） ：さらなる調査が必要な異常なデータレコードとエラーのあるデータを識別します。
関連ルール学習（依存性モデリング） ：変数間の関係を検索します。たとえば、スーパーマーケットでは顧客の購買習慣に関するデータを収集する場合があります。関連ルール学習を使用すると、スーパーマーケットはどの製品が一緒に購入されることが多いかを判断し、この情報をマーケティングに役立てることができます。これは、マーケットバスケット分析と呼ばれることもあります。
クラスタリング: 未知のデータの構造に基づいてデータのカテゴリと構造を発見することです。
分類: 既知の構造を新しいデータに一般化するタスクです。たとえば、電子メールプログラムは電子メールを「正当」または「スパム」として分類しようとする場合があります。
回帰: 最小限の誤差でデータをモデル化できる関数を見つけます。
自動要約: 視覚化やレポートの生成など、データセットのよりコンパクトな表現を提供します。

3) 結果の検証

データマイニングの価値には、一般的に特定の目的があり、この目的が達成されたかどうかは、一般的に結果を通じて検証できます。

検証とは、「客観的な証拠を提供することによって、指定された要求事項が満たされていることを決定すること」を意味し、この「決定」活動の計画、実施、完了は、「指定された要求事項」の内容と密接に関連しています。

データマイニングプロセスにおけるデータ検証の「指定された要件」の設定は、多くの場合、データマイニングが達成しようとする基本目標、プロセス目標、および最終目標に関連しています。

検証の結果、「指定された要件」が完全に満たされているか、まったく満たされていないか、またその中間の満足度レベルになる場合があります。検証は、データマイニングを行う人自身が行うことも、データマイニングを行う人とはまったく関係のない方法で、他の人の関与によって、または完全に他の誰かのプロジェクトを通じて行うこともできます。

一般的に、データマイナーが検証プロセスに参加しないことは不可能です。ただし、客観的な証拠の収集と識別プロセスの評価は、検証を提案した人と関係のない人が実行すると、より客観的になることがよくあります。

結果を検証することで、データマイナーはマイニングしたデータの価値を評価できます。

データマイニング手法には、教師あり学習、教師なし学習、半教師あり学習、強化学習などがあります。教師あり学習には、分類、推定、予測が含まれます。教師なし学習には、クラスタリングと関連ルール分析が含まれます。

6. 例

小売業界でのデータマイニングの応用: 小売会社が顧客の購入を追跡し、ある顧客が大量のシルクシャツを購入したことを発見しました。この時点で、データマイニングシステムは、この顧客とシルクシャツとの関連性を確立します。

営業部門はこの情報を確認し、シルクシャツの現在の市場価格とシルクシャツに関するすべての情報を顧客に直接送信します。このように、小売店はデータマイニングシステムを通じて、これまでわからなかった顧客に関する新たな情報を発見し、ビジネスの範囲を拡大することができます。

7. データフィッシング

データマイニングは、データウェアハウスと分析に関連するテクノロジと見なされることが多いですが、その中間に位置します。

しかし、時には、存在しないが興味深いと思われるパターン (特に因果関係) を発見するなど、非常にばかげた応用もあります。これらの無関係で、誤解を招く、あるいは価値のない関連性は、統計文献では冗談めかして「データドレッジング、データフィッシング、またはデータスヌーピング」と呼ばれることがよくあります。

データマイニングとは、データをスキャンして関係性の可能性を探し、一致するパターン (「過剰一致パターン」とも呼ばれる) を除外することを意味します。大規模なデータセットには、「興味深い関係」を持つ偶然のデータや特定のデータが必ず存在します。

したがって、いくつかの結論は非常に疑わしいと思われます。ただし、探索的データ分析では、データを見つけるために統計分析を適用することが依然として必要となるため、適切な統計手法とデータとの境界は明確ではありません。

危険なのは、存在しない相関関係が出現することであり、投資アナリストはこの間違いを最も犯しやすいようです。

『顧客のヨットはどこにあるのか？』という本の中で》本を書いた：