ITパスポート試験 用語辞典
(Wikipedia データマイニングより)データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)な知識獲得が可能であるという期待を含意していることが多い。とくにテキストを対象とするものをテキストマイニング、そのなかでもウェブページを対象にしたものをウェブマイニングと呼ぶ。英語ではknowledge-discovery in databases(データベースからの知識発見)の頭文字をとってKDDとも呼ばれる。
定義
データマイニングの定義としては、「明示されておらず今まで知られていなかったが、役立つ可能性があり、かつ、自明でない情報をデータから抽出すること」、「データの巨大集合やデータベースから有用な情報を抽出する技術体系」などがある。
データマイニングは、通常はデータの解析に関する用語として用いられるが、人工知能という用語などと同様、包括的な用語であり、様々な文脈において多様な意味で用いられる。歴史
データマイニングの発展には、大量のデータ蓄積が可能となったことが直接的に関係している。デジタル形式でのデータの収集は、コンピュータを用いてデータ解析をすることを念頭に置いて1960年代には既に行われつつあった。関係データベースとその操作用の言語SQLが1980年代に出現し、オンデマンドで動的なデータ解析が可能となった。1990年代に至り、データ量は爆発的に増大した。データウェアハウスがデータの蓄積に用いられ始めた。
これに伴い、データベースにおける大量データを処理するための手法としてデータマイニングの概念が現れ、統計解析の手法や人工知能分野での検索技術等が応用されるようになった。解析手法
頻出パターン抽出
データ集合の中から,高頻度で発生する特徴的なパターンを見つける。
- 相関ルール抽出
- データベースに蓄積された大量のデータから、頻繁に同時に生起する事象同士を相関の強い事象の関係、すなわち相関ルールとして抽出する技術。POSやEコマースの取引ログに含まれる購買履歴を利用したバスケット解析が著名である。
- 例1:スーパーでビデオを買った人のうちガムテープを買う人が多い → 両者を同じ場所に置く。
- 例2:本Aを買う人は、後に本Bを買うことが多い → 本Aの購入者に本Bを薦めるダイレクトメールを送る。
- その他の頻出パターン
- 時系列やグラフを対象としたものもある
クラス分類
クラス分類は与えられたデータに対応するカテゴリを予測する問題。
- 代表的な手法:単純ベイズ分類器, 決定木, ートベクターマシン
- 例:薬品の化合物のデータから,その化合物に薬効がある・ないといったカテゴリを予測
回帰分析
与えられたデータに対応する実数値を予測する問題
- 代表的な手法:線形回帰、ロジスティック回帰、サポートベクトル回帰
- 例:曜日、降水確率、今日の売上げなどのデータを元に、明日の売上げという実数値データを予測
クラスタリング
データの集合をクラスタと呼ぶグループに分ける。クラスタとは、同じクラスタのデータならば互いに似ていて、違うクラスタならば似ていないようなデータの集まり。
- データ・クラスタリングを参照
- 例:Webの閲覧パターンのデータから、類似したものをまとめることで、閲覧の傾向が同じ利用者のグループを発見する。
ソフトウェア
商業ソフトウェア
- 'SAS Enterprise Miner
- SPSS Clementine
- 数理システム Visual Mining Studio
- KXEN,Inc. KXEN
- ': CIA開発ともいわれる米国政府機関御用達のマイニングツール。
- ': 巨大な2進木でも短時間で作成可能な決定木解析ソフト。
- ': CARTとブートストラップ法で決定木の群体を複合生成するRandom forestを商用化したマイニングシステム。
- Data Mining (): Oracle Database Enterprise EditionのオプションAPI。自動的にマイニングして予測・発見を報告する機能を開発しOracleアプリケーションに組み込むことを支援する。
無償ソフトウェア
- GNU R (): S言語仕様をGNU GPL実装した汎用統計可視化環境。一般的に"R言語"や"R"とも呼ばれる。無償の貢献プログラムパッケージは4000を越え、Wekaを利用するRwekaやRandom forestなどもある。UIは、R GUIかターミナル経由のコマンドライン入力のみ。下記RED Rなどの援用でダイアグラム入力も出来る。R自体はインタプリタだが、速度が必要ならC言語やFortranのコードを直接記述してコンパイル実行でき、パッケージRcpp併用でC++も混在可能。信頼性に定評があり、米国FDA公認。マルチプラットフォーム。GNU GPLオープンソース。
- Weka (): ワイカト大学で開発された、javaベースのデータマイニングソフトウェア。ダイアグラムなど多様なグラフィカルインタフェースで高度なマイニング手法を視覚的に構築し駆使できる。連関規則やニューラルネットワーク、SVM、決定木などさまざまな分析手法があらかじめ数多くモジュールとして組み込まれており、コードを書く事なくモジュールをリンクで結んでいけば入力・分析・出力までの流れを構築できる。ゼロからコードを書いてモジュール登録もできる他、プラグインによる機能拡張も可能。ただデータマイニング研究用のツールとして産まれただけに、的確に使うには分析手法の専門的な評価知識が必要。GNU GPLオープンソース。
- RapidMinerコミュニティ版 (): 上記商用エンタープライズ版からサポートサービスなどを除いたフリー版。オープンソース。内部にWekaを統合し、Weka同様にダイアグラム式の分析フローを構築できる。GNU Rへのインタフェースもある。
- Orange (): グラフィカルデータマイニングソフトウェア。コードを書かなくともモジュールをダイアグラムで結んでいけば分析フローを構築できる。Pythonで書かれている。Windows,OSX,各種Linux対応のマルチプラットフォーム。GNU GPLオープンソース。
- Red-R (): GNU Rにダイアグラムインタフェースを統合できるソフトウェア。フロントエンドにOrangeを利用しているためOrangeと同一の感覚でRを使えるばかりか、GNU Rの既存のコードとダイアグラムを相互に変換できる。GNU GPLオープンソース。
- R-Analitic Flow (): GNU Rにダイアグラムインタフェースを統合できるソフトウェア。GNU Rの既存のコードとダイアグラムを相互に変換できる。RED Rに比べ、新規の分析フロー開発を重視した機能が充実している。日本の企業ef-primeが無料で配布しているので日本語マニュアルがあり、有償の法人サポートもある。RjpWikiにはユーザーコミュニーティがある。
- D3.js (): ブラウザを使って統計データを様々な表現で可視化するための JavaScriptライブラリ。
- OpenCV: イメージや形状データの認識・抽出・予測処理を目的としたコンピュータビジョンライブラリであるが、パターン認識、機械学習など汎用性ある関数が数多く収録され、データマイニングでの可用性も高い。インテルが開発。オープンソース。
- Shogun toolbox (): マルチカーネル学習(MKL)などートベクターマシンを中心として最先端のアルゴリズムを網羅した機械学習ツールボックス。C++で実装され、MATLAB、GNU R、GNU Octave、Python、Java、Lua、Ruby、C# から利用可能なインタフェースがある。GNU GPL3。
出題例
「業務分析・データ利活用」の用語
「企業活動」の他の分野
「ストラテジ系」の他のカテゴリ
このページのWikipediaよりの記事は、ウィキペディアの「データマイニング」(改訂履歴)の記事を複製、再配布したものにあたり、このページ内の該当部分はクリエイティブ・コモンズ 表示 - 継承 3.0 非移植 ライセンスの下 に提供されています。
Pagetop