ITパスポート試験 用語辞典
【Data Warehouse】
(Wikipedia データウェアハウスより)
データウェアハウスとは、直訳すれば「データの倉庫」である。利用者により定義範囲は異なるが、一般に時系列に整理された大量の統合業務データ、もしくはその管理システムを指す。
概要
定義
データウェアの提唱はビル・インモン(William H. Inmon)氏で、1990年の著作によれば、「データウェアハウスは、意志決定(Decision)のため、目的別(Purpose-oriented)に編成され、統合(Integrate)された時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。
複数の基幹系システム(製造管理システム、販売管理システム、会計システムなど)から、トランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。
必要性
データウェアハウスの登場は、1990年代にハードディスクが安くなったことと、PCやサーバで使用可能な安価なCPUを並列で使用する技術ができてきたことによる。この時代にはまだ基幹系システムのCPUやハードディスクは高止まりしており、データウェアには専用のハードウェアやソフトウェアが使用されていた。
特徴
基幹系システムではデータの参照時点での状況が把握できればよいので、過去のデータは基本的に保持されず、短ければ半期、長くても1年ごとに個別データをサマリに更新する。このため基幹系システムのディスク使用量は業務量が増大しない限り大きく変動しない。
これに対してデータウェアハウスの目的は過去のデータの蓄積と現在との比較であるため、データの削除や更新はされず、保持データ量は時間と比例して増大する。例えばある顧客が今までにどのような買い物をしたのか、さらに今後どの程度の購買が期待できるのか、といった判断のためにデータウェアハウスが使用される。
関連するシステム
データウェアハウスでは、データを分析して意志決定に役立てるため、複数の基幹系システムからデータを収集し、蓄積する。
意思決定にデータを活用するという観点から、データウェアハウスはBIの一つに位置付けられることがある。データウェアハウスでは極めて小さい単位のデータ(「アトミックである」とも表現される)を扱うが、多くの場合適宜に集計されたデータを使用する方が速いので、ユーザが使うデータを予測しておいて、データウェアハウスからデータを集計しデータマートが構築されることがある。ユーザはツールを使ってデータマートから必要なデータやレポートを作成する。その名前のとおり、データウェアハウスはデータの倉庫であり、データマートはデータの小売店を意味している。
データウェアハウスから有用なデータを発見するための手法・ツールとして、MS Accessなど市販のデータベースソフトを利用する人もいるが、OLAPやデータマイニングの専用ツールが使われることも多い。
データウェアハウス製品
- Sybase - IQ
- Oracle - Oracle Database / Oracle Exadata
- TeraData - TeraData
- IBM - Red Brick
- -
- NEC -
- マイクロソフト - Microsoft SQL Server
- -
出題例
- データウェアハウス
- データ中心アプローチ
- データマイニング
- データモデリング
正解
- フィールドワーク
- パレート図
- ABC分析
- 特性要因図
- 管理図
- 系統図
- 最小二乗法
- 回帰分析
- 擬似相関
- 散布図
- マトリックス図
- 箱ひげ図
- ヒートマップ
- レーダチャート
- ヒストグラム
- モザイク図
- クロス集計表
- 分割表
- ロジックツリー
- コンセプトマップ
- CSV
- シェープファイル
- 共起キーワード
- チャートジャンク
- GISデータ
- クロスセクションデータ
- 母集団
- 標本抽出
- 仮説検定
- 有意水準
- 第1種の誤り
- 第2種の誤り
- 統計的バイアス
- 認知バイアス
- A/Bテスト
- BI
- データウェアハウス
- データマイニング
- ビッグデータ
- テキストマイニング
- データサイエンスのサイクル
- データサイエンティスト
- デシジョンツリー
- シミュレーション
- ブレーンストーミング
- ブレーンライティング
- 親和図法
このページのWikipediaよりの記事は、ウィキペディアの「データウェアハウス」(改訂履歴)の記事を複製、再配布したものにあたり、このページ内の該当部分はクリエイティブ・コモンズ 表示 - 継承 3.0 非移植 ライセンスの下 に提供されています。