本稿では、著者のテンセントとYYでの実戦事例から「製品データ運用システムを構築するための11のステップ」を以下のように詳しく説明します。
Blues はインターネット業界で 10 年以上のキャリアを積んできましたが、その仕事の大部分はデータ操作に費やされました。QQ Show から YY Voice、そして Thunder に至るまで、製品のデータ操作の最適化、プラットフォームの構築、分析の応用などのプロセスを経験し、製品におけるデータの重要な位置を目の当たりにしました。 多くの人は、データ操作について、デジタル統計や原因分析などしか理解していません。実際、これらはデータ操作作業のほんの一部にすぎません。データは最終的に製品に役立ちます。データ操作の焦点は操作にあり、データは単なるツールです。 データ操作は何を行いますか?私の個人的な理解は次のとおりです。 製品目標を設定し、データ レポート チャネルとルール プロセスを作成し、製品データを観察し、データ警告を出し、データ変更の理由を分析し、分析結果に基づいて製品と操作を最適化し、将来のデータ傾向を予測して、製品の決定の基盤を提供し、データ アプリケーションを製品の計画と操作に統合します。 簡単に言えば、データ操作では次の 5 つの問題を明確にする必要があります。
完全な製品データ運用システムを構築するにはどうすればよいでしょうか? Blues は、YY で働いた経験を整理してまとめました。全体のプロセスは次の 11 のステップに分けられますので、ご参考ください。 ステップ1: 製品目標を設定するこれはデータ操作の出発点であり、オンライン化された後に製品を評価するための基準でもあり、閉ループを形成します。目標を設定する際には、無作為に決めるのではなく、事業展開、業界の展開、競合製品の分析、過去の製品開発の傾向、製品の転換ルールなどの総合的な計算に基づいて最終決定を下す必要があります。 SMART 原則は目標を測定するためによく使用されます。 1. Sは特定のつまり、作業指標は具体的かつ測定可能なものでなければならず、一般的なものであってはならないということです。例えば、YYボイスの基本エクスペリエンスという製品目標を設定したとき、それが製品エクスペリエンスの向上であった場合、それは十分に具体的ではなく、全員の理解に一貫性がありませんでした。当時の私たちの基本的な製品目標は、新規ユーザーの翌日のリテンションを高めることであり、非常に具体的でした。 2. Mは測定可能の略つまり、パフォーマンス指標は定量的または行動的であり、これらのパフォーマンス指標を検証するためのデータまたは情報が利用可能であり、新規ユーザーの翌日の維持率を向上させるには、具体的な値を与える必要があるということです。 3. Aは達成可能の略パフォーマンス指標は努力すれば達成できるものであり、高すぎたり低すぎたりする目標を設定することは避けるべきであるという意味です。新規登録ユーザーの翌日維持率は、気まぐれで到達するものではありません。当時、私たちはYYの新規ユーザーの翌日維持率の履歴データと、ゲームユーザーの新規登録ユーザーの維持率の業界参考値に基づいて、比較的挑戦的な目標を設定しました。私たちは新規登録ユーザーの翌日維持率を25%から35%に引き上げました。 4. RはRelevant(関連性)の略他の仕事の目標と関連しており、業績指標は仕事と関連しており、新規ユーザーの翌日の維持率は、ユーザーの音声ツールの認識、ユーザーのYYプラットフォームのコンテンツに対する好みなど、ユーザーの行動と密接に関連しているため、新規ユーザーの翌日の維持率は製品のパフォーマンスとコンテンツの人気と強く相関しています。 5. Tは時間制限を意味します目標を達成するための具体的な期限に焦点を当てます。 製品目標は、次のように定式化できます。2013 年 12 月 31 日までに、新規登録した YY Voice ユーザーの翌日の維持率を 25% から 35% に増加します。 新規ユーザーの翌日維持率の向上は、ユーザーのアクティブなコンバージョンの増加を意味し、全体的なアクティブユーザー数の増加につながります。 ステップ2: 製品データ指標を定義する製品データ指標は、製品の健全な発展を反映する具体的な数値です。データの報告方法、計算式など、データ指標を明確に定義する必要があります。 例えば、上記の翌日維持率は、翌日維持率が比率であり、分母は新規登録され、同じ日にYYクライアントにログインしたYYアカウントの数であり、分子は分母のYYアカウントが翌日に再びYYクライアントにログインした数であると定義できます。 ここで詳細に注意してください。1日目と 2 日目には、0:00 から 24:00 など、1 日として計算される明確な時点が必要です。問題は、新しいユーザーが 1 日目の 23:00 に YY クライアントに登録してログインし、翌日の午前 1:00 にログオフすることです。上記の定義によると、データ レポートの詳細がここで明確に定義されていないため、このユーザーは翌日の保持ユーザーとして記録されない可能性があります。 定義は、2 日目に再度 YY クライアントにログインすることです。上記のケースのユーザーは 2 日目にログインしていませんでしたが、実際には 2 日連続でログインしていたユーザーでした。 したがって、この定義には、追加の詳細が必要です。ユーザーのログイン ステータス、ハートビート パケットが 5 分ごとに報告される場合、新しいユーザーは翌日のログイン ユーザーとして報告できます。ユーザーが 00:05 より前にオフラインになり、翌日の 24:00 までログインしていない場合、そのユーザーは保持ユーザーとして記録されません。 プロダクトの目標に応じてデータ指標を選択します。例えばWebプロダクトの場合、PV、UV、クラッシュ率、1人あたりの平均PV、滞在時間などのデータを使用してプロダクトを測定することが多いです。製品指標システムを定義するには、製品や開発などのさまざまなチーム間の合意が必要です。データ指標の定義は明確で、十分に文書化されており、データ解釈の理解に違いが生じることはありません。 ステップ3: 製品データインジケーターシステムを構築する提案されたデータ指標に基づいて、製品ロジックに従って指標を要約および整理し、より体系的にします。 新規ユーザーの翌日維持率は私たちが設定した中核目標ですが、実は翌日維持率だけを見るだけでは十分ではありません。製品の健全な発展をより正確に把握するためには、ユーザー維持率に影響を与えるさまざまな要因を総合的に検討する必要もあります。図 1 に示すように、これは新規ユーザー、アクティブ ユーザー、支払い、その他のデータを含む、一般的に使用される指標システムです。 図1 インターネット製品の共通データ指標システム YY音声クライアント製品を作成する際には、アカウントシステム、関係チェーンデータ、ステータス認識データ、コミュニケーション能力などの4つの側面を含む次の指標システムを使用します。具体的な指標としては、図 2 に示すように、友人の数、チャンネル プログラムの視聴時間、IM チャットの継続時間、個人ステータスの切り替えと継続時間などがあります。 図2 IM製品データインジケータシステム ステップ4: 製品データ要件を提案する製品指標システムの構築は一夜にして達成されるものではありません。製品マネージャーは、製品開発のさまざまな段階に基づいて、さまざまな焦点を当てたデータ要件を提示します。一般的に、企業には製品要件ドキュメントのテンプレートが用意されており、製品とデータレポート開発、データプラットフォーム、その他の部門の同僚とのコミュニケーションを促進し、データ構築を実行します。起業志向の中小企業の場合、製品データ要件の提案から報告までのプロセスは 1 ~ 2 人だけで済む場合もありますが、データ指標の定義、データ計算ロジックなどのデータドキュメントを作成することも推奨されます。 図3 YY部門基本製品データ要件実装フローチャート(実装) 一般的なデータ報告要件は 2 つあります。
1. 標準プロトコルを使用したデータ報告要件の例表1 標準プロトコルのデータ要件を報告するためのサンプルテンプレート 2. カスタムプロトコルレポートデータ要件の例表2 カスタムプロトコルレポートデータ要件のサンプルテンプレート アプリケーション名: YY事業部 - 基本製品グループ - ゲームライブ運用日報 ステップ5: データを報告するこのステップでは、製品マネージャーのデータ要件に従って開発し、データ レポート仕様に従い、レポート開発を完了し、データをデータ サーバーにレポートします。データレポートの鍵となるのは、データレポートチャネルの構築です。私がテンセントで働いていたとき、データプラットフォーム部門がすでに完全なデータチャネルを構築していたため、このリンクの難しさを感じたことはありませんでした。開発には、特定のルールと、データレポート用の統合データSDKの使用のみが必要でした。その後、開発志向の会社であるYYで働いていたとき、レポートチャンネルの構築が始まり、より多くの実践と自己改善の機会が得られました。重要なリンクの 1 つはデータ レポート テストですが、このリンクのテスト リソースが不足していたために、かつては不要なトラブルが発生していました。 多くのスタートアップ企業は独自のデータ プラットフォームを持っていないため、サードパーティのデータ プラットフォームを使用できます。Web 製品の場合は Baidu Statistics (tongji.baidu.com) を使用でき、モバイル製品の場合は Umeng (www.umeng.com) や TalkingData (www.talkingdata.com) などのプラットフォームを使用できます。 たとえば、次の表は、Thunder Hubble データ プラットフォーム仕様から派生したページ トラフィック データをレポートするための送信関数 send_web_pv を示しています。 表3 ページトラフィックデータを報告するための送信関数send_web_pv 次の表は、ライブ ブロードキャスト APP データ レポート ポイントの例です。 (データ埋め込みとは、機能ロジックに統計ロジックを追加することです) 表4 ライブ放送アプリのデータ報告例 ステップ6~8: データの収集とアクセス、保存、スケジュール設定、計算1. データの収集とアクセスETL は、抽出、変換、ロードの略語であり、ソースから宛先にデータを抽出、変換、ロードするプロセスを表すために使用されます。 ETL という用語はデータ ウェアハウスでよく使用されますが、その適用範囲はデータ ウェアハウスに限定されません。 ETL は、データ ウェアハウスの構築において重要な部分です。ユーザーは、データ ソースから必要なデータを抽出し、データをクリーンアップし、最後に、事前定義されたデータ ウェアハウス モデルに従ってデータをデータ ウェアハウスにロードします。 下の図は、製品データシステムの一般的なフローチャートです。データの収集、保存、計算は通常、図のデータセンターで完了します。 図4 データシステムフロー データレポートを確認した後、次のいくつかのことはより技術的なものになります。まず、報告されたデータをどのように収集し、データセンターに保存するかを検討する必要があります。 (1)データ収集は2つのステップに分かれている 最初のステップは、ビジネス システムからサーバーにレポートすることです。これは主に CGI またはバックグラウンド サーバーを介して行われます。統合された logAPI 呼び出しの後、元のフロー データが集約され、logServer に保存されます。データ量が多くなると、分散ファイルストレージの利用を検討する必要があります。一般的によく使われる外部分散ファイルストレージは主に HDFS です。ここでは詳細には触れません。 図 5: 生データのレポートとファイルへの保存のアーキテクチャ図 データがファイルに保存された後、 2 番目のステップは ETL ステージに入ることです。ETL とは、テキストからログを抽出、変換、ロードし、分析要件とデータ ディメンションに基づいてクリーンアップしてから、データ ウェアハウスに保存するプロセスを指します。 (2)テンセントを例に テンセントのビッグデータ プラットフォームは現在、主にオフラインとリアルタイムの 2 つの方向からの大量データ アクセスと処理をサポートしています。コア システムには、TDW、TRC、TDbank が含まれます。 図6 テンセントデータプラットフォームシステム テンセントでは、データの収集、配信、前処理、管理はすべて TDBank プラットフォームを通じて実行されます。プラットフォーム全体は主に、大量のデータにおける大規模、リアルタイム、多様なデータの収集と処理の問題を解決するために使用されます。アクセスとストレージの問題は、データ アクセス層、処理層、ストレージ層を含む 3 層アーキテクチャを通じて均一に解決されます。 (1)アクセス層 アクセス層は、さまざまな DB、ファイル形式、メッセージ データなど、さまざまな形式のビジネス データとデータ ソースをサポートできます。データ アクセス層は、収集されたさまざまなデータを内部データ プロトコルに統合し、後続のデータ処理システムの使用を容易にします。 (2)処理層 次に、処理層はプラグインを使用して、さまざまな形式のデータ前処理をサポートします。オフライン システムにとって重要な機能は、リアルタイムで収集されたデータを分類して保存することです。データは、特定のディメンション (キー値 + 時間など) に従って分類して保存する必要があります。同時に、オフライン システムが指定された粒度でオフライン計算を実行できるように、保存ファイルの粒度 (サイズ/時間) もカスタマイズする必要があります。オンライン システムの場合、一般的な前処理プロセスには、データ フィルタリング、データ サンプリング、データ変換が含まれます。 (3)データ保存層 処理されたデータは、オフライン ファイルのストレージ メディアとして HDFS を使用します。データストレージ全体の信頼性を確保し、最終的にこの処理済みデータを Tencent の内部分散データ ウェアハウス TDW に保存します。 図7 TDWアーキテクチャ図 TDBank は、ビジネス データ ソースからデータをリアルタイムで収集し、前処理と分散メッセージ キャッシュを実行し、メッセージのサブスクリプションに従ってバックエンドのオフラインおよびオンライン処理システムにデータを配信します。 図8 TDBankデータ収集およびアクセスシステム TDBank は、データ ソースとデータ処理システムの間にブリッジを構築し、データ処理システムをデータ ソースから切り離し、オフライン コンピューティング TDW とオンライン コンピューティング TRC プラットフォームにデータ サポートを提供します。現在、継続的な改善により、以前の Linux + HDFS モデルはクラスター + 分散メッセージ キュー モデルに変換され、1 日に処理できるメッセージの量が2 秒に削減されました。 実用的なアプリケーションの観点から、データの収集とアクセスを検討する場合、製品は主にいくつかの側面に重点を置く必要があります。
2. データの保存と計算データの報告、収集、アクセスが完了すると、データは保存段階に入ります。Tencent を例に挙げて説明を続けましょう。 テンセントは、社内コード名 TDW と呼ばれる、データを保存するための分散型データ ウェアハウスを保有しています。これは、数百 PB レベルのデータのオフライン保存とコンピューティングをサポートし、大規模で効率的かつ安定したビッグ データ プラットフォームと、ビジネスにおける意思決定サポートを提供します。オープンソースソフトウェアのHadoopとHiveをベースに構築されており、大量のデータや複雑な計算など、企業特有の状況に基づいて多くの最適化と変革が行われています。 公開情報によると、 TDWはオープンソースソフトウェアのHadoopとHiveをベースに多くの最適化と変革を経て、テンセント最大のオフラインデータ処理プラットフォームとなっている。クラスター内のマシン総数は5,000台、総ストレージ容量は20PB以上、1日平均のコンピューティング量は500TB以上。テンセントのビジネス製品の90%以上をカバーしており、広東通のおすすめ、ユーザーポートレート、データマイニング、各種ビジネスレポートなど、これらはすべてこのプラットフォームを通じて基本的な機能を提供している。 図8、Tencent TDW分散データウェアハウス 図9 TDWビジネスダイアグラム 実用的なアプリケーションの観点から、データ ストレージ部分では主にいくつかの問題を考慮します。
ステップ9: データを取得するこれは、製品マネージャーとデータ アナリストがデータ システムからデータを取得するプロセスです。一般的な方法は、データ レポートとデータ抽出です。 レポートの形式は、特に経験を積んだ企業の場合、データ要求の段階で明確にされるのが一般的です。通常、レポートのテンプレートが用意されており、それに従って指標を入力するだけです。より強力なデータ プラットフォームでは、分析のニーズに応じてフィールド (テーブル ヘッダー) を自分で選択して、セルフサービス レポートを構成および計算できます。 データ レポートを設計するための原則は次のとおりです。 1. 連続サイクルクエリ機能を提供する(1)レポートにはクエリの開始時刻が記載され、指定された時間範囲内のデータを閲覧できる必要があります。ある時点のデータしかなく、データの傾向が分からないのはタブーです。 (2)一定期間内のデータを細分化したり、要約したりすることができ、異なる段階を比較することができる。 2. クエリ条件がディメンションに一致する(1)ディメンションの数だけ対応するクエリ条件を提供する。あらゆる次元の分析を満たすようにしてください。 (2)クエリ条件は、特定の値の開始、終了、フィルタリングの機能を提供する必要がある。全体像、細部、単一物を見ることができます。 (3)クエリ条件の順序は、可能な限りディメンションの順序と一致させるべきであり、降順が望ましい。 3. グラフはデータと一致している必要がある(1)データ上の紛争を避けるために、グラフに示される傾向は対応するデータと一致していなければならない。 (2)グラフがあればデータも存在するが、グラフがなくてもデータは存在する。 (3)チャート内の指標が多すぎたり、指標間の間隔が大きすぎたりしないようにする。 4. レポートは単一のものであるべきである(1)1つのレポートでは1つの分析機能のみを実行し、複数の機能は可能な限り異なるレポートに分離する。 (2)レポートの飛躍を可能な限り避ける。 (3)レポートはクエリ機能のみを提供します。 Baidu の WEB 商品のトラフィック レポートなど、PV、UV、新規訪問者率、直帰率、平均訪問時間などに焦点を当てた、よく使用されるレポートをいくつか見てみましょう。 では、具体的に直帰率についてお話ししましょう。このデータは、ユーザーがウェブサイトにアクセスしたときのランディングページ(必ずしもホームページとは限りません)の価値と、そのページがユーザーを一度クリックさせるほど魅力的かどうかを反映しています。ユーザーがランディングページに到達してもクリックされない場合は、直帰率が高くなります。 図10 Baidu統計ウェブデータレポート Umeng データ プラットフォームが提供する製品保持率データ レポートを見ると、通常注目される保持率は、1 日後の保持、7 日後の保持、30 日後の保持です。 図11 Umengの保持データレポート データ抽出は、売上が好調な製品とその関連フィールドのバッチを抽出したり、指定された条件でユーザーのバッチを抽出したりするなど、製品操作では非常に一般的な要件です。同様に、より完全な機能を備えたデータ プラットフォームには、セルフサービス データ抽出システムが備わっています。セルフサービスのニーズを満たせない場合は、データ開発者がデータを抽出するためのスクリプトを作成する必要があります。 図 12 に示すように、Tencent の社内データ ポータルは、多くの製品のデータ レポート、データ抽出、およびデータ レポート機能を担当しています。 図12 テンセントデータポータルホームページ ステップ10: データの観察と分析ここでの主なタスクは、データの変化の監視と統計分析です。通常、データの日次レポートを自動的に出力し、異常なデータをマークします。データの視覚的な出力は非常に重要です。 よく使われるソフトはEXCELとSPSSで、データ分析の基本スキルともいえます。この2つのソフトを実際の業務でどのように活用しているか、私なりのやり方やテクニックを後ほどシェアしたいと思います。データ分析を実行する前に、まずデータの正確性を検証して、データが目的のものであるかどうかを判断する必要があることに注意してください。たとえば、データ定義とレポートロジックが要件ドキュメントに厳密に準拠しているかどうか、データレポートチャネルでデータ損失の可能性がないかどうかなどです。データの正確性を判断するには、元のデータを抽出してサンプリングすることをお勧めします。 このリンクでは、データの解釈が非常に重要です。製品の知識や分析経験の違いにより、同じデータでも解釈結果が大きく異なります。したがって、製品アナリストは製品とユーザーについて十分に理解している必要があります。 絶対値は解釈するのが難しい場合が多く、データの意味は通常、比較によってより適切に表現できます。 例えば、ある商品がオンラインになって最初の1週間は、1日平均の新規登録数が10万件で、これは良いデータのように思えます。しかし、この商品がYY Voiceが発売した新商品で、YYポップアップメッセージを通じてユーザーにリーチし、毎日数千万のユーザー露出があるのに新規ユーザーが10万件しかない場合、これは良い商品データとは言えません。 図13: 比較によるデータの意味の明確化
ステップ11: 製品評価とデータの適用これはデータ運用のクローズドループの終点であり、また新たな出発点でもあります。データレポートは、決して単に表示するだけのものではなく、リーダーからの質問に答えるためのものでもないのです。むしろ、製品の最適化と運用の実行に役立ちます。製品担当者のパフォーマンスと同様に、製品プロジェクトが期限内に完了してリリースされるかどうかだけでなく、製品データを継続的に観察・分析し、製品の健全性を評価し、蓄積されたデータを製品の設計と運用に適用することも重要です。 データ製品のアプリケーションは、おおまかに次のカテゴリに分類できます。 1. パフォーマンス広告に代表される精密マーケティング推奨サイクルは短く、リアルタイム要件は高く、ユーザーの短期的な関心と即時の行動が大きな影響を与えます。配信シナリオのコンテキストと訪問者集団の特性が重要です。 製品の例: Google、Facebook、WeChat Moments。 2. 動画推奨によるコンテンツ推奨長期的な関心の累積的な影響は大きく、期間やホットなイベント、多次元コンテンツの関連性は非常に重要です。 製品例: Youtube 3. 電子商取引の推奨に代表されるショッピング推奨長期的 + 短期的関心 + 即時の行動の組み合わせ。現実に最も近い、季節やユーザーの生活情報が重要。注文や取引の追求、支払い関連。 製品の例: Amazon、Taobao、JD.com。 要約する最後に、データ操作の 11 ステップを図でまとめます。 この記事の著者@Operation Helicopter Lan Junは、(Qinggua Media)によって編集および公開されました。転載する場合は、著者情報と出典を明記してください。 製品プロモーションサービス: APPプロモーションサービス広告 |
<<: 杜甫の詩3編の原文と鑑賞、そして杜甫の詩3編の学習体験!
>>: WeChatポイントウォールの作り方は?従来のポイントウォールメーカーの最後の賭け?
01小紅書法人口座の運用における混乱小紅書の専門アカウント(企業アカウント)に対するユーザーの信頼...
情報フロー促進の閉ループにおいて、クリエイティブライティングは非常に重要なリンクです。高品質のクリエ...
今年、マーケティング業界ではKOLに関する議論が2回も盛んに行われました。1回目はKOLが死に、KO...
UGC プラットフォームはエコシステムです。持続的に発展するには、すべてのリンクとリンクが健全である...
商業的な収益化は、短編動画クリエイターの原動力であり、永遠のテーマです。従来の長編動画(一般的には3...
製品の同質化による競争の激化に直面し、広告は間違いなく競争力を高めるための重要な手段です。しかし、メ...
検索は、プラットフォームのユーザーが希望する製品を見つけるための最も効果的で直接的な方法の 1 つで...
Apple が 8 月中旬に開発者向けに「App Store にアップロードされたアプリは同じサイ...
製品の場合、維持率は製品の価値を判断する最も重要な基準です。特に起業家チームにとって、維持率は製品の...
女の子と戯れるのは、実は感情です。成功する恋愛はしばしば策略に頼りますが、失敗する理由はいつも同じで...
ウイルスといえば、インフルエンザを思い浮かべます。私があなたに感染させ、あなたが彼に感染させると、あ...
最近、特にここ1、2年で、小紅書は脚光を浴びていると言えるでしょう。最近、何人かのビジネスオーナーと...
従来のショートビデオの運用アイデアによれば、アカウントを維持し、ホットなトピックをフォローし、編集し...
企業の新しいメディアがうまく機能しない理由は 2 つあります。 1. 外部要因:企業は注意を払って...
Duode APPは2016年の発売以来、急速に発展し、わずか数年で大規模かつ安定したユーザーベース...