ビッグデータから価値を生み出すには、その処理プロセスが間違いなく非常に重要であり、その中でもビッグデータ分析とビッグデータマイニングが最も重要な2つの部分です。これまでの科学普及誌では、編集者がビッグデータ分析の関連状況を紹介してきました。今号では、編集者がビッグデータマイニング技術について説明し、誰もがビッグデータマイニング技術が何であるかを簡単に理解できるようにします。 ビッグデータマイニングとは何ですか? データ マイニングとは、大量、不完全、ノイズ、あいまい、ランダムなデータから、暗黙的で未知だが潜在的に有用な情報や知識を抽出するプロセスです。 データマイニングオブジェクト 情報保存形式に応じて、マイニングに使用されるオブジェクトには、リレーショナル データベース、オブジェクト指向データベース、データ ウェアハウス、テキスト データ ソース、マルチメディア データベース、空間データベース、時間データベース、異種データベース、インターネットなどがあります。 データマイニングプロセス 問題を定義する: ビジネス上の問題を明確に定義し、データ マイニングの目的を決定します。 データ準備: データ準備には、データ選択 (大規模なデータベースおよびデータ ウェアハウス ターゲットからデータ マイニングのターゲット データ セットを抽出する)、データ前処理 (データの整合性と一貫性の確認、ノイズの除去、欠落しているフィールドの埋め込み、無効なデータの削除など、データを再処理する) が含まれます。 データマイニング: データ関数の種類とデータの特性に基づいて対応するアルゴリズムを選択し、精製および変換されたデータセットに対してデータマイニングを実行します。 結果分析: データマイニングの結果を解釈および評価し、最終的にユーザーが理解できる知識に変換します。
データマイニング分類 直接データ マイニング: 利用可能なデータを使用して、残りのデータと特定の変数 (データベース内のテーブルの属性、つまり列として理解できる) を記述するモデルを構築することが目標です。 間接的なデータマイニング: ターゲット内で特定の変数が選択されず、モデルによって記述されるのではなく、すべての変数間に特定の関係が確立されます。 データマイニング手法 ニューラルネットワーク法 ニューラル ネットワークは、優れた堅牢性、自己組織化適応性、並列処理、分散ストレージ、高いフォールト トレランスなどの特徴を備えており、データ マイニングの問題の解決に非常に適しているため、近年ますます注目を集めています。 遺伝的アルゴリズム 遺伝的アルゴリズムは、生物学的な自然選択と遺伝的メカニズムに基づいたランダム探索アルゴリズムであり、バイオニックなグローバル最適化手法です。暗黙的な並列性と遺伝的アルゴリズムの他のモデルとの容易な組み合わせにより、遺伝的アルゴリズムはデータ マイニングで広く使用されています。 決定木法 決定木は、予測モデルでよく使用されるアルゴリズムです。大量のデータを意図的に分類し、そこから価値のある潜在的な情報を見つけます。主な利点は、説明が簡単で、分類速度が速く、特に大規模なデータ処理に適していることです。 ラフセット法 粗集合論は、不正確で不確実な知識を研究するための数学的なツールです。ラフセット法には、追加情報は不要、入力情報の表現空間は簡素化され、アルゴリズムはシンプルで操作が簡単など、いくつかの利点があります。ラフセット処理の対象は、2 次元リレーショナル テーブルに類似した情報テーブルです。 肯定的な例をカバーし、否定的な例を除外する すべての肯定的な例をカバーし、すべての否定的な例を除外することでルールを検索します。まず、正の例セットからシードを選択し、負の例セットで 1 つずつ比較します。セレクターがフィールド値と互換性がある場合は破棄され、互換性がない場合は保持されます。このようにすべての正例シードをループすることで、正例のルール(セレクターの結合)を取得できます。 統計分析手法 データベースフィールド項目間の関係には、機能関係と相関関係の 2 種類があります。これらを分析するには、統計的手法を使用できます。つまり、統計原理を使用してデータベース内の情報を分析します。一般的な統計、回帰分析、相関分析、差異分析などを実行できます。 ファジィ集合法 つまり、ファジー集合論を使用して、実際の問題に対してファジー判断、ファジー意思決定、ファジーパターン認識、ファジークラスター分析を実行します。システムの複雑さが増すほど、あいまいさは強くなります。一般的に、ファジー集合論では、メンバーシップ度を使用して、あいまいなものの「両方」の性質を特徴付けます。
データマイニングタスク 関連性分析 2 つ以上の変数の値の間に一定の規則性が存在することを相関と呼びます。データの関連付けは、データベース内で発見可能な知識の重要な種類です。関連は、単純な関連、時間的な関連、因果的な関連に分けられます。 関連分析の目的は、データベース内の隠れた関連ネットワークを見つけることです。一般的に、サポートと信頼性の 2 つのしきい値を使用して、関連ルールの関連性を測定します。関心や関連性などのパラメーターは、マイニングされたルールをニーズにさらに適合させるために継続的に導入されます。 クラスター分析 クラスタリングとは、類似性に応じてデータを複数のカテゴリにグループ化することです。同じカテゴリのデータは互いに類似しており、異なるカテゴリのデータは異なります。クラスター分析により、マクロ概念を確立し、データ分布パターンやデータ属性間の関係を発見することができます。 分類 分類とは、このタイプのデータの全体的な情報を表すカテゴリの概念的説明、つまりカテゴリの含意の説明を見つけ、この説明を使用して、一般的にルールまたは決定木パターンによって表されるモデルを構築することです。分類とは、特定のアルゴリズムを通じてトレーニング データ セットを使用して分類ルールを取得するプロセスです。分類はルールの説明と予測に使用できます。 予測する 予測とは、過去のデータを使用して変化のパターンを見つけ出し、モデルを構築し、このモデルを使用して将来のデータの種類と特性を予測することです。予測は精度と不確実性に関係しており、通常は予測の分散によって測定されます。 タイミングモード 時間的パターンとは、時系列検索によって発見される、再発する確率の高いパターンです。回帰と同様に、既知のデータを使用して将来の値を予測しますが、これらのデータの違いは変数が配置されている時間です。 偏差分析 偏差には多くの有用な知識が含まれています。データベース内のデータには多くの異常があります。データベース内のデータの異常を発見することは非常に重要です。偏差テストの基本的な方法は、観測された結果と基準との差を見つけることです。 モバイルアプリケーション製品プロモーションサービス: ASO最適化サービスQinggua Media情報フロー この記事は(APP Top Promotion)が編集・公開したものです。転載の際は著者情報と出典を明記してください。 |
<<: Guangyuan SEO トレーニング: SEO キーワードを拡張するには?検索エンジンはそれを受け入れるでしょうか?
>>: 「ダブル11」前に整理しておきたい売上データ分析のアイデア
2022年全国人民代表大会と中国人民政治協商会議が本格的に始まり、今回の提案では太陽光発電が依然と...
2019年5月以来、小紅書の伝統的な商人にとっては非常に困難な一年となり、全体的に見ると、実体商人...
お金の自由の最初のレッスン:「ウォレット」管理、お金の管理システムと方法のリソースの紹介:お金を稼ぐ...
コースを開始する(完了)ビッグデータ分析フルスタックエンジニア016リソースの紹介:コースカタログ第...
チェン・ニアンの低リスク財務管理コースビデオお金を失わずにお金を稼ぐための独占ガイド金融知能の思考_...
WeChatミニプログラムの継続的なアップグレードにより。使用してすぐに使えるというコンセプトが完...
現在、オンラインビデオ広告のトレンドは非常に良好ですが、ビデオ広告を効果的にするには、まだ詳細な分析...
退役軍人特典カードは、銀行カードほどの大きさの赤い名刺です。これは、所有者が名誉を示す手段であり、優...
モバイルオンラインビデオの分野では、iQiyi、Tencent Video、Youku が絶対的な優...
最近では、多くのオフラインビジネスがミニプログラムを試しています。ホテル、旅行代理店、レストラン、ソ...
ユーザー維持はほとんどの製品にとって生命線であり、生死に関わる問題です。 「生き残れないことは死に等...
1. 分布分析法1. 一般的なグループ区分は何ですか? (1)イベントの頻度別例えば、専門スキル向...
2022年第2回禅理論基礎コースのリソース紹介のヒント:このコースを通じて、以下のことが学べます: ...
狼叔父の小紅書売れ筋プロモーションと排水トレーニングコース第11回コースカタログ1. 基礎知識:小紅...
製品を作る際には、その遺伝子にコンテンツを追加して、製品コンテンツの特性を与える必要があります。この...