私は毎日考えています。考えることはとても重要です。それは消化と継続的な深化のプロセスです。次の文はこう述べています:
では、私たちはビッグデータそのものについて考えたことはありますか?ビッグデータは具体的に何をするのでしょうか? 長年ビッグデータに取り組んできたのに、なぜまだ完了できないのでしょうか?ビッグデータの本質は次のとおりです。
機械学習の本質は次のとおりです。
ビッグデータが最も多くのワークロードを消費する場所はどこですか?現在、作業負荷の 80% はデータの収集、クリーニング、検証に費やされています。 仕事自体は難しくはないのですが、本当に面倒で骨の折れる仕事です。 私たちは毎日ため息をついています。
私たちがイライラするのは、新しい需要が来たときに、既存のデータ形式ではその需要を満たすことができないようで、既存のデータ パイルで再度、データ収集、クリーニング、検証のプロセスを経なければならないことです。 それはまるで呪いのようでした。険しい山に巨石を押し上げる刑に処せられた哀れなシシュポスのように。シシュポスは全力を尽くして巨石を頂上に上げようとしたのですが、そのたびに手から滑り落ちてしまい、また押し戻さなければならず、果てしない労働を強いられるのです。 現在、ビッグデータで直面している最大の技術的困難は何ですか?これは、大量のデータに対するアドホッククエリです。 Hadoop が初めて登場したとき、私たちは Hadoop を使って、ますます安くなる PC サーバーの価格を操作することができました。そして、ある種の暴力がエコシステム全体に浸透しました。
しかし、クエリの効率要件がますます高くなるにつれて、変更を余儀なくされることになります。以前のログはすべて単純な Raw テキストだったことを覚えていますか? 現在、さまざまなストレージ形式が徐々に普及しつつあります。
つまり、クエリの問題を解決する魔法の技術はまだ見つかっていないようで、妥協するしかありません。 クエリを高速化するために、データストレージは初期の生のテキストから、ベクトル化され、インデックス化され、特定のエンコードと圧縮をサポートする列ストレージ構造に徐々に変化してきました。 もちろん、ストレージ構造を調整するこの方法では、データの入力時に必然的に時間とリソースが消費されます。 つまり、ストレージとクエリの間で妥協点を見つけました。 重労働を軽減する方法先ほども述べたように、私たちの仕事のおそらく 80% はデータの収集、クリーニング、検証に費やされています。しかし、この部分の作業をどのように圧縮すればよいのでしょうか? 答えは次のとおりです。
すべての計算をスムーズに行うことで、次のことが容易になります。
また、ストリーミング コンピューティングの実装では、ストリーミングとバッチ セマンティクスが組み合わされることを期待しています。なぜ? Storm 上の Huawei の StreamCQL を見ると、リアルタイム ストリーミングは多くの場合非常に制限されていることがわかります。これは、将来的にはストリーミングでさらに多くのことができるようになるためです。
これにはある程度の柔軟性が必要です。なぜなら、データ セット上でのみ、アドホック クエリ、効率的なストレージ、および一部の機械学習アルゴリズムへの適応が可能になるからです。多くの場合、単一のデータにはあまり意味がありません。 私はずっと Spark Streaming の支持者でした。 では、なぜストリーミング コンピューティングの上部構造が必要なのでしょうか? 問題を確認しましょう。データ ETL プロセスは、プログラマーの作業時間を大量に消費する大変な作業です。この時間を短縮するには、次の 2 つの方法があります。
ストリーム コンピューティングは全体の基盤を構築し、その上のフレームワークによって上記の 2 つのポイントが可能になります。
|
<<: WeChatミニプログラムを使用して顧客を引き付けるにはどうすればいいですか?ミニプログラムのオンライン・オフライン運用戦略の分析
>>: ミニプログラムはどうやって収益を得るのでしょうか? ミニプログラムの収益モデルは何ですか?
前回、編集部では情報フロー広告のクリエイティブ・マテリアル企画における4つの誤解についてまとめました...
活動計画を書き始める前に、目的が何であるかを明確にする必要があります。たとえば、このイベントを通じて...
国慶節の休日も残り1日となりました。誰もが祖国の誕生日を祝いたいという気持ちを抑えきれないと思います...
Black Video Blessingはどこで購入できますか?黒人が祝福ビデオを送るにはいくらか...
スターバックスは6月29日、ソーシャルプラットフォームのヘイトスピーチに対する自由放任主義的な姿勢に...
先日の春節休暇中、ビデオアカウントが話題になりました。ちょうど冬季オリンピックの時期でもあり、喜びも...
開発者は、より高度なユーザーのニーズを満たし、後で製品に反映される現在のトレンドに対応したい場合、モ...
ユーザーオペレーション担当者にとって、製品のユーザーベースが十分に大きい場合、ほとんどのことは戦略レ...
私たちはあらゆる分野で積極的にキャリアを次のレベルへと進めています。その中で、ミニプログラムモールと...
深セン市は3月13日、今回の地方での流行に対応して最新の感染予防・抑制政策を発表し、3月14日から2...
コミュニケーションの内容は従来のモバイルメディアとは異なります。発信される製品情報は単なる文字どおり...
ご存知のとおり、オンライン活動、特にオンライン プロモーション活動は、スタートアップにとって最も費用...
これは私が以前の会社で取り組んでいたプロジェクトです。最近時間があるので、以前のプロジェクトを整理し...
導入数日前、「経済について語る時が来た」というタイトルの記事が話題となり、感染拡大に伴う中国経済に対...
ブラックハットDouyinストア番号マトリックスプロジェクト[有料記事]リソース紹介:最近最も人気の...