完全なデータ操作システムを構築するための11のステップ

完全なデータ操作システムを構築するための11のステップ

データ操作にはどのようなスキルが必要ですか?独自のデータ操作システムを構築するには?この記事の著者は、10 年以上の業務経験を活かして、データ操作システムを段階的に改善できるようお手伝いします。

今後 30 年間で、データは生産手段となり、コンピューティングは生産性となり、インターネットは生産関係となるでしょう。私たちがデジタル化され、インターネットに接続されなければ、それは過去 30 年間電気がなかったことよりも恐ろしいことになるでしょう。今後 30 年間で、インターネットはインターネット企業のインターネットではなく、すべての人のインターネットになるでしょう。過去 20 年間にインターネットが「無」から「有」に成長したとすれば、今後 30 年間でインターネットは「有」から「無」に変化します。この「無」はどこにでもあり、インターネットなしでは誰も存在できません。

——ジャック・マー、第4回世界インターネット会議

インターネット業界での18年間の勤務経験の中で、私の仕事の大部分はデータ運用に費やされました。QQ ShowからYY Voice、そしてThunderまで、プロセスの最適化、プラットフォームの構築、分析の応用など、製品データ運用のプロセスを経験してきました。データ運用が製品の成長に果たす重要な役割を身をもって目撃しました。

多くの人は、データ操作に対する理解がデータの統計、原因分析などに限定されています。実際、これらはデータ操作作業のほんの一部にすぎません。データは最終的に製品に役立ちます。データ操作は操作に焦点を当てており、データはキャリアです。

データ操作は何を行いますか?私の個人的な理解は次のとおりです。

チームを率いて製品目標の明確化、製品データ指標の定義、データ報告チャネルとルールプロセスの作成、データニーズ実現の効率的な推進、製品データの観察、データ警告の発行、データ変更の理由の分析、分析結果に基づく製品の反復と運用、製品決定の基盤の提供、データを使用した製品と組織の成長の促進、組織目標の達成を行います。

簡単に言えば、データ操作では次の 5 つの問題を明確にする必要があります。

  1. 私たちは何をすべきでしょうか? ——対象データの定式化

  2. 現在の状況はどうですか? ——業界分析および製品データレポートの出力。

  3. データ変更の理由は何ですか? ——データの早期警告、データ変更理由の分析。

  4. 将来何が起こるでしょうか? ——データ予測;

  5. 私たちは何をすべきでしょうか? ——意思決定とデータの製品応用。

データ操作で習得する必要があるスキルの概要は次のとおりです。

上記に挙げたスキルコンセプトは数多くありますが、最も基本的なものは、まず統計を学び、次にビジネス実務を掘り下げ、最も一般的に使用される Excel などの分析ツールを熟知し、次にデータマイニングツールを学ぶことです。私は個人的に SPSS を使用しています。

SPSS の機能には、データ管理、統計分析、チャート分析、出力管理などがあります。 SPSS 統計分析プロセスには、記述統計、平均比較、一般線型モデル、相関分析、回帰分析、対数線型モデル、クラスター分析、データ簡素化、生存分析、時系列分析、多重応答などが含まれます。

ツールの習得は難しくありません。重要なのは、統計を学び、さまざまなシナリオでどの分析方法を使用するか、分析結果をどのように解釈して適用するかを知ることです。

その後、私は自身のデータ運用業務経験を企業のデータ運用システムの階層図にまとめました。

完全な製品データ運用システムを構築するにはどうすればよいでしょうか?私自身の業務経験を整理してまとめましたが、全体のプロセスは次の11ステップに分けられますので、ご参考までに。

最初のステップは製品目標を設定することです

これはデータ操作の出発点であり、オンライン化された後に製品を評価するための基準でもあり、閉ループを形成します。

目標を設定する際には、無作為に決めるのではなく、事業展開、業界の展開、競合製品の分析、過去の製品開発の傾向、製品の転換ルールなど、総合的な計算に基づいて最終決定を下す必要があります。 SMART 原則は目標を測定するためによく使用されます。

  1. Sは特定の

つまり、作業指標は具体的かつ測定可能なものでなければならず、一般的なものであってはならないということです。例えば、YYボイスの基本エクスペリエンスという製品目標を設定したとき、それが製品エクスペリエンスの向上であった場合、それは十分に具体的ではなく、全員の理解に一貫性がありませんでした。当時の私たちの基本的な製品目標は、新規ユーザーの翌日のリテンションを高めることであり、非常に具体的でした。

  1. Mは測定可能の略です

つまり、パフォーマンス指標は定量的または行動的であり、これらのパフォーマンス指標を検証するためのデータまたは情報が利用可能であり、新規ユーザーの翌日の維持率を向上させるには、具体的な値を与える必要があるということです。

  1. Aは達成可能を意味します

パフォーマンス指標は努力すれば達成できるものであり、高すぎたり低すぎたりする目標を設定することは避けるべきであるという意味です。新規登録ユーザーの翌日維持率は、気まぐれで到達するものではありません。当時、私たちはYYの新規ユーザーの翌日維持率の履歴データと、ゲームユーザーの新規登録ユーザーの維持率の業界参考値に基づいて、比較的挑戦的な目標を設定しました。私たちは新規登録ユーザーの翌日維持率を25%から35%に引き上げました。

  1. Rは関連性を意味します

他の仕事の目標と関連しており、業績指標は仕事と関連しており、新規ユーザーの翌日の維持率は、ユーザーの音声ツールの認識、ユーザーのYYプラットフォームのコンテンツに対する好みなど、ユーザーの行動と密接に関連しているため、新規ユーザーの翌日の維持率は製品のパフォーマンスとコンテンツの人気と強く相関しています。

  1. Tは時間制限を意味します

目標を達成するための具体的な期限に焦点を当てます。

製品目標は、次のように定式化できます。2013 年 12 月 31 日までに、新規登録した YY Voice ユーザーの翌日の維持率を 25% から 35% に増加します。

新規ユーザーの翌日維持率の向上は、ユーザーのアクティブなコンバージョンの増加を意味し、全体的なアクティブユーザー数の増加につながります。

ここで注意すべきことは、データだけに頼るのではなく、目標の背後にある本質を洞察する必要があるということです。例えば、私が取り組んだ、新規登録したYY Voiceユーザーの維持率を上げるプロジェクトは、維持率のデータの変化だけを見れば、非常に簡単に達成できました。

当時私が使用した方法の 1 つは、ユーザー分類だったことを覚えています。さまざまなチャネルからさまざまな行動をとるユーザーを分類したところ、一部のジャンクな新規ユーザーが全体の保持率データに大きな影響を与えていることが分かりました。これらのユーザーの多くは、機械登録されたユーザーであり、実際のユーザーではありませんでした。これらのユーザーを排除した後、保持データは大幅に増加しました。しかし、これでタスクが完了したわけではありません。なぜなら、この目標の裏には、アクティブユーザー数の増加が求められているからです。新規ユーザー維持率はあくまでもデータの反映に過ぎないので、新規ユーザー維持率だけを一つの指標として見ることはできません。新規ユーザー登録数の増加、効果的なユーザー維持率、ユーザーアクティビティ、有料コンバージョンなど、複数の指標から仕事の価値を測る必要があります。

ステップ2: 製品データ指標を定義する

上記の目標設定に続いて、データ指標を検討する必要があります。ドアツードアサービスの場合、目標として設定するのは新規ユーザー維持率です。新規ユーザー維持率を達成した後、このデータ指標の実現が本当に製品全体のアクティブユーザーの増加を促進したかどうかを判断する必要があります。

製品データ指標は、製品の健全な発展を反映する具体的な数値です。データの報告方法、計算式など、データ指標を明確に定義する必要があります。

例えば、上記の翌日維持率は、翌日維持率が比率であり、分母は新規登録され、同じ日にYYクライアントにログインしたYYアカウントの数であり、分子は分母のYYアカウントが翌日に再びYYクライアントにログインした数であると定義できます。

ここで詳細に注意してください。1 日目と 2 日目には、0:00 から 24:00 など、1 日として計算される明確な時間ポイントが必要です。問題は、新しいユーザーが初日の 23:00 に YY クライアントに登録してログインし、翌日の午前 1:00 にログオフすることです。上記の定義によると、データ レポートの詳細がここで明確に定義されていないため、このユーザーは翌日の保持ユーザーとして記録されない可能性があります。

定義は、2 日目に再度 YY クライアントにログインすることです。上記のケースのユーザーは 2 日目にログインしていませんでしたが、実際には 2 日連続でログインしていたユーザーでした。

したがって、この定義には、追加の詳細が必要です。ユーザーのログイン ステータス、ハートビート パケットが 5 分ごとに報告される場合、新しいユーザーは翌日のログイン ユーザーとして報告できます。ユーザーが 00:05 より前にオフラインになり、翌日の 24:00 までログインしていない場合、そのユーザーは保持ユーザーとして記録されません。

プロダクトの目的に応じてデータ指標を選択します。例えば、Webプロダクトの場合、PV、UV、クラッシュ率、1人あたりの平均PV、滞在時間などのデータを使用してプロダクトを測定することがよくあります。製品指標システムを定義するには、製品や開発などのさまざまなチーム間の合意が必要です。データ指標の定義は明確で、十分に文書化されており、データ解釈の理解に違いが生じることはありません。

データ指標の焦点は、製品ライフサイクルのさまざまな段階で異なります。次の表は、各段階で焦点を当てる必要があるいくつかの指標を大まかに示しています。一般的なユーザー指標と収益指標に加えて、技術的なパフォーマンス指標にも注意を払う必要があります。

優れたデータ指標には 5 つの重要なポイントがあります。

(1)ユーザーニーズの満足度、製品のコア価値、開発動向を反映できる。これらの指標の改善は、会社が良い方向に進んでいることを示しています。

(2)優れたデータ指標は比較可能である。異なる期間、ユーザー グループ、およびグループ間で競合製品のパフォーマンスを比較すると、製品の実際の方向性をより深く理解できるようになります。

(3)理解しやすく、制御しやすい。理解しやすく、覚えやすく、数えやすいです。

(4)優れたデータ指標は多くの場合比率です。

(5)指標はビジネスとともに進化する。ビジネスの変化に応じて、さまざまな段階での主要指標も変化する必要があります。

3番目のステップは、製品データインジケーターシステムを構築することです。

提案されたデータ指標に基づいて、製品ロジックに従って指標を要約および整理し、より体系的にします。

新規ユーザーの翌日維持率は私たちが設定した中核目標ですが、実は翌日維持率だけを見るだけでは十分ではありません。製品の健全な発展をより正確に把握するためには、ユーザー維持率に影響を与えるさまざまな要因を総合的に検討する必要があります。図 1 に示すように、これは新規ユーザー、アクティブ ユーザー、支払い、その他のデータを含む、一般的に使用される指標システムです。

図1 インターネット製品の共通データ指標システム

YY音声クライアント製品を作成する際には、アカウントシステム、関係チェーンデータ、ステータス認識データ、コミュニケーション能力などの4つの側面を含む次の指標システムを使用します。具体的な指標としては、図 2 に示すように、友人の数、チャンネル プログラムの視聴時間、IM チャットの継続時間、個人ステータスの切り替えと継続時間などがあります。

図2 IM製品データインジケータシステム

ステップ4: 製品データ要件を提案する

製品指標システムの構築は一夜にして達成されるものではありません。製品マネージャーは、製品開発のさまざまな段階に基づいて、さまざまな焦点を持つデータ要件を提示します。一般的に、企業は製品要件ドキュメントのテンプレートを用意して、製品とデータレポート開発、データプラットフォーム、およびその他の部門の同僚間のコミュニケーションを促進し、データ構築を実行します。

起業志向の中小企業の場合、製品データ要件の提案から報告までのプロセスは 1 ~ 2 人だけで済む場合もありますが、データ指標の定義、データ計算ロジックなどのデータドキュメントを作成することも推奨されます。

図 3 は、YY 音声クライアント チームで私が確立した基本的な製品データ要件実装プロセスです。実際、ほとんどの場合、このようなデータ要件プロセスは必要ありません。当時はデータ要件の標準化を始めたばかりだっただけです。データ要件のレビュー プロセスは、より多くの同僚にデータへの理解を深めてもらうためのトレーニング プロセスでもありました。その後、データ要件は製品要件プロセスに統合されました。

図3 YY部門基本製品データ要件実装フローチャート(実装)

一般的なデータ報告要件は 2 つあります。

  1. ボタンクリックレポートなどの標準プロトコルレポート。

  2. カスタマイズされたプロトコルレポート。

(1)標準プロトコルを用いたデータ報告要件の例

表1 標準プロトコルのデータ要件を報告するためのサンプルテンプレート

(2)カスタムプロトコル報告データ要件の例

表2 カスタムプロトコルレポートデータ要件のサンプルテンプレート

登録名: YY事業部 ベーシックプロダクトグループ ゲームライブ運営日報

ステップ5: データを報告する

このステップでは、製品マネージャーのデータ要件に従って開発し、データ レポート仕様に従い、レポート開発を完了し、データをデータ サーバーにレポートします。

データレポートの鍵は、データレポートチャネルの構築です。テンセントで働いていたとき、データプラットフォーム部門がすでに完全なデータチャネルを構築していたため、このリンクの難しさを感じたことはありませんでした。開発には、特定のルールと、データレポート用の統合データSDKの使用のみが必要でした。

その後、開発志向の会社であるYYで働いていたとき、レポートチャンネルの構築が始まり、より多くの実践と自己改善の機会が得られました。重要なリンクの 1 つはデータ レポート テストですが、このリンクのテスト リソースが不足していたために、かつては不要なトラブルが発生していました。

多くのスタートアップ企業は独自のデータ プラットフォームを持っていないため、サードパーティのデータ プラットフォームを使用できます。Web 製品の場合は Baidu Statistics (tongji.baidu.com) を使用でき、モバイル製品の場合は Umeng (www.umeng.com) や TalkingData (www.talkingdata.com) などのプラットフォームを使用できます。

たとえば、次の表は、Thunder Hubble データ プラットフォーム仕様から派生したページ トラフィック データをレポートするための送信関数 send_web_pv を示しています。

表3 ページトラフィックデータを報告するための送信関数send_web_pv

次の表は、ライブ ブロードキャスト APP データ レポート ポイントの例です。 (データの埋め込みとは、機能ロジックに統計ロジックを追加することを意味します)。

表4 ライブ放送アプリのデータ報告例

現在、ポイントを埋め込まずにデータをレポートする方法もあります。こちらの記事「ポイントを埋め込まずにGrowingIOの謎を解き明かす」を参考にしてください。

ステップ6~8: データの収集とアクセス、保存、スケジュール設定、計算

各ステップは科学です。たとえば、データ収集にはインターフェイスの作成が含まれ、データ フィールドの拡張性、データ収集中の ETL データ クリーニング プロセス、クライアント データ レポートの正確性の検証を考慮する必要があります。ビッグ データの時代では、データの保存、スケジュール設定、コンピューティングはさらに難しい技術的タスクです。

  1. データの収集とアクセス

ETL は、抽出、変換、ロードの略語であり、ソースから宛先にデータを抽出、変換、ロードするプロセスを表すために使用されます。

ETL という用語はデータ ウェアハウスでよく使用されますが、その適用範囲はデータ ウェアハウスに限定されません。 ETL は、データ ウェアハウスの構築において重要な部分です。ユーザーは、データ ソースから必要なデータを抽出し、データをクリーンアップし、最後に、事前定義されたデータ ウェアハウス モデルに従ってデータをデータ ウェアハウスにロードします。

下の図は、製品データシステムの一般的なフローチャートです。データの収集、保存、計算は通常、図のデータセンターで完了します。

図4 データシステムフロー

データレポートを確認した後、次のいくつかのことはより技術的なものになります。まず、報告されたデータをどのように収集し、データセンターに保存するかを検討する必要があります。

データ収集は 2 つのステップに分かれています。最初のステップは、ビジネス システムからサーバーにレポートすることです。この部分は主に cgi またはバックグラウンド サーバーを介して行われます。統合された logAPI 呼び出しの後、元のフロー データは logServer に集約され、保存されます。データ量が多くなると、分散ファイルストレージの利用を検討する必要があります。一般的によく使われる外部分散ファイルストレージは主に HDFS です。ここでは詳細には触れません。

図 5: 生データのレポートとファイルへの保存のアーキテクチャ図

データがファイルに保存された後、2 番目のステップは ETL ステージに入ることです。ETL とは、テキストからログを抽出、変換、ロードし、分析要件とデータ ディメンションに基づいてクリーンアップしてから、データ ウェアハウスに保存するプロセスを指します。

Tencent を例に挙げましょう。

テンセントのビッグデータ プラットフォームは現在、主にオフラインとリアルタイムの 2 つの方向からの大量データ アクセスと処理をサポートしています。コア システムには、TDW、TRC、TDbank が含まれます。

図6 テンセントデータプラットフォームシステム

Tencent Data Platform のデータの収集、配信、前処理、管理はすべて TDBank プラットフォームを通じて実現されます。プラットフォーム全体は主に、大量のデータにおける大規模、リアルタイム、多様なデータの収集と処理の問題を解決するために使用されます。アクセスとストレージの問題は、データ アクセス層、処理層、ストレージ層を含む 3 層アーキテクチャを通じて均一に解決されます。

(1)アクセス層

アクセス層は、さまざまな DB、ファイル形式、メッセージ データなど、さまざまな形式のビジネス データとデータ ソースをサポートできます。データ アクセス層は、収集されたさまざまなデータを内部データ プロトコルに統合し、後続のデータ処理システムの使用を容易にします。

(2)処理層

次に、処理層はプラグインを使用して、さまざまな形式のデータ前処理をサポートします。オフライン システムにとって重要な機能は、リアルタイムで収集されたデータを分類して保存することです。データは、特定のディメンション (キー値 + 時間など) に従って分類して保存する必要があります。同時に、オフライン システムが指定された粒度でオフライン計算を実行できるように、保存ファイルの粒度 (サイズ/時間) もカスタマイズする必要があります。オンライン システムの場合、一般的な前処理プロセスには、データ フィルタリング、データ サンプリング、データ変換が含まれます。

(3)データ保存層

処理されたデータは、オフライン ファイルのストレージ メディアとして HDFS を使用します。データストレージ全体の信頼性を確保し、最終的にこの処理済みデータを Tencent の内部分散データ ウェアハウス TDW に保存します。

図7 TDWアーキテクチャ図

TDBank は、ビジネス データ ソースからデータをリアルタイムで収集し、前処理と分散メッセージ キャッシュを実行し、メッセージのサブスクリプションに従ってバックエンドのオフラインおよびオンライン処理システムにデータを配信します。

図8 TDBankデータ収集およびアクセスシステム

TDBank は、データ ソースとデータ処理システムの間にブリッジを構築し、データ処理システムをデータ ソースから切り離し、オフライン コンピューティング TDW とオンライン コンピューティング TRC プラットフォームにデータ サポートを提供します。現在、継続的な改善により、以前の Linux + HDFS モデルはクラスター + 分散メッセージ キュー モデルに変換され、1 日に処理できるメッセージの量が 2 秒に削減されました。

実用的なアプリケーションの観点から、データの収集とアクセスを検討する場合、製品は主にいくつかの側面に重点を置く必要があります。

  • 複数のデータソースの統合。通常、実際のアプリケーションプロセスでは、さまざまな形式のデータソースが存在します。このとき、収集とアクセスの部分では、これらのデータソースの統一された変換が必要です。
  • 収集はリアルタイムで効率的です。ほとんどのシステムはオンライン システムであるため、データ収集の適時性要件は比較的高くなります。
  • ダーティ データ処理: 分析と統計全体に影響するダーティ データについては、後続の統計分析とアプリケーション中にこのデータによって発生する多くの予測できない問題を回避するために、アクセス レイヤーで論理シールドが必要です。
  1. データストレージとコンピューティング

データの報告、収集、アクセスが完了すると、データは保存段階に入ります。Tencent を例に挙げて説明を続けましょう。

テンセントには、データ保存用の分散型データ ウェアハウスがあり、社内コード名では TDW と呼ばれています。これは、数百 PB レベルのデータのオフライン保存とコンピューティングをサポートし、大規模で効率的かつ安定したビッグ データ プラットフォームと、ビジネスにおける意思決定サポートを提供します。オープンソースソフトウェアのHadoopとHiveをベースに構築されており、大量のデータや複雑な計算など、企業特有の状況に基づいて多くの最適化と変革が行われています。

公開された情報によると、TDWはオープンソースソフトウェアのHadoopとHiveをベースに多くの最適化と変革を経て、テンセント最大のオフラインデータ処理プラットフォームとなっている。クラスター内のマシン総数は5,000台、総ストレージ容量は20PBを超え、1日の平均コンピューティング量は500TBを超えている。テンセントのビジネス製品の90%以上をカバーしており、広東通の推奨事項、ユーザーポートレート、データマイニング、さまざまなビジネスレポートなど、これらすべての基本的な機能がこのプラットフォームを通じて提供されています。

図8 Tencent TDW分散データウェアハウス

図9 TDWビジネスダイアグラム

実用的なアプリケーションの観点から、データ ストレージ部分では主にいくつかの問題を考慮します。

  • データ セキュリティ: 多くのデータは回復不可能であるため、データ ストレージのセキュリティと信頼性は常に最も重要です。必ず最大限のエネルギーと注意を注いでください。
  • データ計算と抽出の効率。ストレージソースとして、将来的には多くのデータクエリと抽出分析タスクに直面することになるため、この部分の効率を確保する必要があります。
  • データの一貫性: 保存されたデータは、プライマリ サーバーとバックアップ サーバー間で一貫している必要があります。

企業が独自のプライベート データ プラットフォームを構築するこのステップの鍵は、データ プラットフォーム開発の経験を持つ設計者やエンジニアを見つけることです。これにより、半分の労力で 2 倍の結果を達成できます。もちろん、中小企業の場合は、クラウド製品を直接使用する方が効率的です。

ステップ9: データを取得する

これは、製品マネージャーとデータ アナリストがデータ システムからデータを取得するプロセスです。一般的な方法は、データ レポートとデータ抽出です。

レポートの形式は、特に経験を積んだ企業の場合、データ要求の段階で明確にされるのが一般的です。通常はレポートのテンプレートが用意されており、それに従って指標を入力するだけです。より強力なデータ プラットフォームでは、分析のニーズに応じてフィールド (テーブル ヘッダー) を自分で選択して、セルフサービス レポートを構成および計算できます。

データ レポートを設計するための原則は次のとおりです。

1. 連続サイクルクエリ機能を提供する

(1)レポートにはクエリの開始時刻が記載され、指定された時間範囲内のデータを閲覧できる必要があります。ある時点のデータしかなく、データの傾向が分からないのはタブーです。

(2)一定期間内のデータを細分化したり、要約したりすることができ、異なる段階を比較することができる。

2. クエリ条件がディメンションに一致する

(1)ディメンションの数だけ対応するクエリ条件を提供する。あらゆる次元の分析を満たすようにしてください。

(2)クエリ条件は、特定の値の開始、終了、フィルタリングの機能を提供する必要がある。全体像、細部、単一物を見ることができます。

(3)クエリ条件の順序は、可能な限りディメンションの順序と一致させるべきであり、降順が望ましい。

3. グラフはデータと一致している必要がある

(1)データ上の紛争を避けるために、グラフに示される傾向は対応するデータと一致していなければならない。

(2)グラフがあればデータも存在するが、グラフがなくてもデータは存在する。

(3)チャート内の指標が多すぎたり、指標間の間隔が大きすぎたりしないようにする。

4. レポートは単一のものであるべきである

(1)1つのレポートでは1つの分析機能のみを実行し、複数の機能は可能な限り異なるレポートに分離する。

(2)レポートの飛躍を可能な限り避ける。

(3)レポートはクエリ機能のみを提供します。

Baidu の WEB 商品のトラフィック レポートなど、PV、UV、新規訪問者率、直帰率、平均訪問時間などに焦点を当てた、よく使用されるレポートをいくつか見てみましょう。

直帰率について具体的にお話ししましょう。このデータは、ユーザーがウェブサイトにアクセスしたときのランディング ページ (必ずしもホームページとは限りません) の価値と、そのページがユーザーを 1 回クリックさせるほど魅力的かどうかを反映しています。ユーザーがランディング ページに到達してもクリックされない場合は、直帰率が高くなります。

図10 Baidu統計ウェブデータレポート

Umeng データ プラットフォームが提供する製品保持率データ レポートを見ると、通常注目される保持率は、1 日後の保持、7 日後の保持、30 日後の保持です。

図11 Umengの​​保持データレポート

データ抽出は、売上が好調な製品とその関連フィールドのバッチを抽出したり、指定された条件でユーザーのバッチを抽出したりするなど、製品操作では非常に一般的な要件です。同様に、より完全な機能を備えたデータ プラットフォームには、セルフサービス データ抽出システムが備わっています。セルフサービスのニーズを満たせない場合は、データ開発者がデータを抽出するためのスクリプトを作成する必要があります。

ステップ10: データの観察と分析

ここでの主なタスクは、データの変化の監視と統計分析です。通常、データの日次レポートを自動的に出力し、異常なデータをマークします。データの視覚的な出力は非常に重要です。

データ分析は、製品の状態を把握したり、開発の傾向を把握したり、問題を発見したり、ユーザーを特定したり、マーケティングを促進したりするためによく使用されます。

よく使われるソフトはEXCELとSPSSで、データ分析の基本スキルともいえます。この2つのソフトを実際の業務でどのように活用しているか、私なりのやり方やテクニックを後ほどシェアしたいと思います。データ分析を実行する前に、まずデータの正確性を検証して、データが目的のものであるかどうかを判断する必要があることに注意してください。たとえば、データ定義とレポートロジックが要件ドキュメントに厳密に準拠しているかどうか、データレポートチャネルでデータ損失の可能性がないかどうかなどです。データの正確性を判断するには、元のデータを抽出してサンプリングすることをお勧めします。

このリンクでは、データの解釈が非常に重要です。製品の知識や分析経験の違いにより、同じデータでも解釈結果が大きく異なります。そのため、製品アナリストは製品とユーザーについて十分に理解している必要があります。

絶対値は解釈するのが難しい場合が多く、データの意味は通常、比較によってより適切に表現できます。

たとえば、ある製品がオンラインになってから最初の 1 週間は、1 日あたりの平均新規登録数が 10 万件で、これは良いデータのように思えます。しかし、この製品が YY Voice が発売した新製品であり、YY ポップアップ メッセージを通じてユーザーにリーチし、毎日数千万のユーザー露出があるのに新規ユーザーが 10 万件しかない場合、これは良い製品データとは言えません。

図13: 比較によるデータの意味の明確化

縦方向の比較では、例えば、新規登録したYY Voiceユーザーのデータの変化を分析する場合、先週の同時期、先月の同時期、昨年の同時期と比較して、同様のデータ変化パターンがあるかどうかを確認できます。

水平比較では、ファネル モデルから新しい YY Voice ユーザーの登録データの変化を分析し、ユーザーがアクセスするさまざまなチャネルを調べて、各チャネルのコンバージョン率が変化したかどうかを確認できます。たとえば、最上位のファネルでは、ユーザー アクセス チャネルに大幅に変化したデータがあるかどうか、チャネル内のどのリンクでコンバージョン率データが変化したかを確認できます。また、YY Voice の新規登録データ、Duowan.com のトラフィック データ、YY Game の新規登録ユーザー データを比較するなど、さまざまなビジネスを横方向に比較して、データの変更理由を調べることもできます。

垂直比較と水平比較の組み合わせは、YYの新規登録ユーザーの6か月間のデータの変化、Duowan.comのトラフィックデータ、YYゲームの新規登録ユーザーなど、同じ期間の複数のデータの変化の曲線を比較することです。 3つの曲線を同時に比較して、特定のデータ異常のキーノードを見つけ、操作ログを調べて、操作アクティビティの組織化、外部イベントの影響、特別な日の影響要因があるかどうかを確認します。

データ分析結果の出力は、通常、直感的な視覚的表示方法を採用します。分析結果をより直感的にするには、適切なチャートを選択してください。

実用的な視覚化ツールを 2 つ推奨します。

百度図碩: https://tushuo.baidu.com

ワードクラウド: https://wordart.com

写真をカスタマイズして、パーソナライズされたワードクラウド チャートを生成します。

ワードクラウドマップ戦略記事について:

ワードクラウドマップ戦略(パート2):グラフィックをカスタマイズしてパーソナライズされたワードクラウドマップを作成する

ステップ11: 製品評価とデータの適用

これはデータ運用クローズドループの終点であり、新たな出発点でもあります。データレポートは、決して表示するためだけのものではなく、リーダーからの質問に答えるためのものでもありません。むしろ、製品の最適化と運用に役立ちます。製品担当者のパフォーマンスと同様に、製品プロジェクトが時間どおりに完了してリリースされるかどうかだけでなく、製品データを継続的に観察および分析し、製品の健全性を評価することも重要です。同時に、蓄積されたデータは、Amazonのパーソナライズされた推奨製品、QQ MusicのGuess What You Like、TaobaoのTime Machine、ToutiaoのRecommended Readingなどの製品の設計と運用に適用される必要があります。データ製品のアプリケーションは、おおまかに次のカテゴリに分類できます。

(1)パフォーマンス広告に代表される精密マーケティング

推奨サイクルは短く、リアルタイム要件は高く、ユーザーの短期的な関心と即時の行動が大きな影響を与えます。配信シナリオのコンテキストと訪問者集団の特性が重要です。

製品の例: Google、Facebook、WeChat Moments。

次の図は、地域、性別、年齢、携帯電話、結婚、教育など、複数の側面からユーザーを正確に特定できる WeChat のユーザー データ ターゲティング機能を示しています。

多くの人がWeChat Moments広告を買う余裕はないと言っていますが、多くの場合、購入するかどうかはあなた次第です。データが蓄積されるにつれて、広告はますます正確になります。

(2)音声や動画によるコンテンツの推奨

長期的な関心の累積的な影響は大きく、期間やホットなイベント、多次元コンテンツの関連性は非常に重要です。

製品例: Youtube、NetEase Cloud Music、Tik Tok、QQ Music

下の写真は、若い女性のジャック・マーと、TikTok が私に勧めてくれた風景です。これらは、私のような 40 歳の男性、インターネット実践者、旅行愛好家の好みに概ね合っています。

(3)電子商取引の推奨に代表されるショッピング推奨

長期的 + 短期的関心 + 即時の行動の組み合わせ。現実に最も近い、季節やユーザーの生活情報が重要。注文や取引の追求、支払い関連。

製品の例: Amazon、Taobao、JD.com。

下の写真は、Taobao が私に提示した推奨商品です。これは、家庭に子供がいてアウトドアスポーツが好きな男性ユーザー向けの商品推奨にほぼ一致しています。

要約する

最後に、データ操作の 11 ステップを図でまとめます。

図14 データ操作の11ステップ

製品目標の設定から最終的な製品評価、目標に基づいた運用の最適化まで、データ操作のクローズドループが形成されます。このプロセスと仕様では、すべての部門が統一された意識を持ち、各製品端末が標準化されたプロセスに従って統一された方法でデータを報告し、会社レベルの統一されたデータセンターを確立し、データウェアハウスを構築する必要があります。そうして初めて、データの価値を最大化し、データを生産力にすることができます。

製品データ運用システムの構築を組織実装の観点からまとめると、次の 5 つの要素が考えられます。

(1)人員:フルタイムのデータオペレーション担当者

専任の専門製品担当者は、製品データシステムのプロセスと標準化を確立し、経験を積み、システムの継続的な最適化と開発を推進する責任を負います。専任の専門開発担当者は、データ報告、レポート開発、データベース開発と保守などを担当し、製品データシステムの開発と実現を確実にします。

(2)データバックエンド:包括的かつ体系的なデータウェアハウス

自社製品の個別特殊データを記録するための専用の統合データウェアハウスがあり、データプラットフォームのパブリックインターフェースを最大限に活用して共通データを取得し、データソースを共有し、コストを完全に削減します。

(3)データフロントエンド:データシステム表示プラットフォームの強化

単にレポートの要求を受け入れてレポートを増殖させるのではなく、レポート システムを体系的に考え、柔軟かつ反復的に実行できる専門的なレポート開発担当者が必要です。

(4)労働規範:要求実現プロセス

以上が、商品データシステムを構築するための11ステップのプロセスと方法です。データ要件には注意すべき点が2つあります。1つは需要開発プロセスを固めることです。もう1つは一時的な需要をツール化することです。

(5)成果物:データ活用

日常的なデータ作業には、さまざまなデータ分析と、日次、週次、月次レポートの出力が含まれ、データ分析に基づく意思決定の基礎を提供します。正確な推奨、ユーザーライフサイクル管理、その他製品企画などのデータ製品開発を実行します。

上記の内容は、私の長年にわたる仕事の実践の要約です。また、私と一緒に働いてくれたデータ作業の同僚の Gong Wei、Chang Bo、Chun Ge、Xia Cong、Yu Wen、Zhihua、Jing Mi、Xiao Wei、Jian Yu などにも感謝したいと思います。

著者:Blues、 Qinggua Media より出版許可。

出典: BLUEMIDOU

<<:  マスター「Du Yasong」に従って、子供と青少年の評価と診断をマスターします

>>:  「スリム&マッスル」フィットネス必需品

推薦する

「Tik TokとKuaishouの作戦戦争の歴史」を振り返る!

Douyinの運営についてどのように評価しますか?これは、Neihan Duanzi とTouti...

APPのプロモーションとマーケティングの8つの方法!

この記事で紹介した 8 つの黄金律は、3 か月以上運用され、インストールされたユーザーが 100,0...

核分裂成長モードでのトラフィック分析

分裂成長は、マーケティングプロモーションにおいて常に重要な役割を果たしてきました。ご存知のとおり、ト...

アリババのグローバルセールスチャンピオンが年収100万ドルでセールスの秘訣を自ら教える

コースの説明:問題を解決し、パフォーマンスを5倍向上させますコースカタログ:第1章 精密な顧客レッス...

衡水ミニプログラムカスタマイズ会社、ホームミニプログラムをカスタマイズするにはいくらかかりますか?

ミニプログラムは、大多数の企業に宣伝やプロモーションの利便性を提供します。では、 Hengshui ...

母親と赤ちゃんに関連するDouyinアカウントはどのように商品を販売していますか?どうすればお金を稼げますか?

家族の中で、一番お金を稼いでいるのは誰ですか?クリプトンゴールドを食べる獣のクリプトンゴールドの強さ...

50,000人以上の顧客を獲得するためのBサイドオペレーションの実践的方法論

本稿では、中国のエンタープライズレベルSaaSの概要とB側運用で明確にすべき6つのポイントをまとめ、...

イベント運営戦略の立て方!

すべての運用システムや組織は運用の基盤に過ぎません。運用そのものはビジネスモデルの具体的な実践プロセ...

シードユーザーを継続的に獲得するには?

現在、インターネット上にはシードユーザーを獲得するテクニックが数多く存在しますが、継続的にシードユー...

アプリアイコンを目立たせる8つの方法

アプリアイコンは、アプリのクリックスルー率(CTR) において非常に重要な役割を果たします。 ブライ...

2019年Tik Tokプロモーションと運営戦略!

動画の 20% が視聴回数の 80% を占めていますが、収益を上げているアカウントは 20% だけで...

スポーツ栄養コレクション(全10話)

スポーツ栄養コレクション(10エピソード)リソース紹介:スポーツ栄養学、栄養とサプリメント、トレーニ...

ユーザーの問題点を特定するにはどうすればよいでしょうか?これら 10 個のテンプレートを使用してください。

すべてのオペレーターにとって、製品とユーザーの相関関係を発見することは、製品とユーザーを結びつける架...

13か所の感染者数がゼロになりました!それはどの13か所ですか?詳細リストを添付します!

3月16日、寧夏自治区は感染者数がゼロになったと発表した。 13カ所で感染者数がゼロになったとみら...

最新の!情報流通プラットフォームのアクセスランキング!あなたが宣伝しているプラ​​ットフォームのランキングはどうですか?

9月の広告費はいくらだったか覚えていますか?どのプラットフォームに投資しましたか?私たちがターゲッ...