ITパスポート試験 用語辞典
- 別名:
- 度数分布図/柱状図
- 分野:
- ストラテジ系 » 企業活動 » 業務分析・データ利活用
- 出題歴:
- 28年春期問32
- 重要度:
(Wikipedia ヒストグラムより)
ヒストグラム(histogram)とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱図表、度数分布図、柱状グラフともいう。
また、工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。
語源
(ヒストグラム)は、ギリシャ語で「すべてのものを直立にする」(帆船のマスト、織機のバー、ないしはヒストグラムの縦棒など)という意味を持つ (ヒストス)と、同じくギリシャ語で「描いたり、記録したり、書いたりすること」という意味を持つ (グラマ)を合わせたものである。この用語は、イギリスの統計学者カール・ピアソンによって1895年に創案された。
数学的定義
0、標準偏差1の正規分布から無作為に選んだ10,000点のサンプルを示している。]]
より一般化した数学的な意味では、ヒストグラムは、各々が互いに素であるカテゴリに分類される、観察結果の数を計算する関数miである一方、ヒストグラムのグラフは単にヒストグラムを表現する1つの方法に過ぎない。ゆえに、すべての観察結果の数nとすべてのビンの数k、ヒストグラムmi が与えられたとき、これらには以下の式の関係が成り立つ。
- \(n = \sum_{i=1}^k{m_i}.\)
累積ヒストグラム
累積ヒストグラム(cumulative histogram)は、特定のビンまでのすべてのビンに含まれる観察結果の累積数を計算する関数である。すなわち、累積ヒストグラムMi はヒストグラムmj を用いて以下の式のように定義される。
- \(M_i = \sum_{j=1}^i{m_j}.\)
ビンの数と幅
最良のビンの数というものは存在せず、またビンの大きさが違えば違ったデータの特徴を示す可能性がある。幾人かの理論家は最適なビンの数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先は、さまざまなビンの幅(bin width)というのは適切である可能性があり、ゆえに実験のたびに通常、適切な幅を決定する必要がある。しかしながら、さまざまな有用な指針や経験的に得られた方法が存在する。
ビンの幅hは、直接的に与えられるか、示唆されるビンの数kから以下の式で与えられる。
- \(h = \left \lceil \frac{\max x - \min x}{k} \right \rceil.\)
上式の大括弧は天井関数を示す。
- スタージェスの公式(Sturges' formula)
- \(k = \lceil \log_2 n + 1 \rceil, \, \)
- この式はデータ範囲上のビンの大きさに暗黙のうちに基礎を置き、n < 30のときに不十分ながら作用する可能性がある。
- スコットの選択(Scott's choice)
- \(h = \frac{3.5 \sigma}{n^{1/3}},\)
- ここで \(\sigma\) はサンプルの標準偏差である。
- 平方根選択(Square-root choice):
- \(k = \sqrt{n}, \, \)
- サンプル中のデータポイントに平方根をとるものである。
- フリードマン=ダイアコニスの選択(Freedman?Diaconis' choice)フリードマン=ダイアコニスの法則の出典は
- \(h = 2 \frac{\operatorname{IQR}(x)}{n^{1/3}},\)
- IQRで示されるに基づく。
- L2危険関数推定の最小化に基づく選択
- \( \underset{h}{\operatorname{arg\,min}} \frac{ 2 \bar{m} - v } {h^2} \)
- ここで \(\textstyle \bar{m}\) と \(\textstyle v\) は、平均および偏りであり、ビンの幅に関するヒストグラムの平方偏差を \(\textstyle h\) とし、\(\textstyle \bar{m}=\frac{1}{k} \sum_{i=1}^{k} m_i\) かつ \(\textstyle v= \frac{1}{k} \sum_{i=1}^{k} (m_i - \bar{m})^2 \) を意味する。
種類
次の4種類に分けられる。
- U字型分布
- 均一分布
- 山型分布
- 歪曲分布 次の2種類に分類できる。
- 左歪曲分布
- 右歪曲分布
以下の項目を例を用いて説明する。
U字型分布
最初の区間から徐々にに下がっていき、中間(ほとんどの場合)で最小となり、再びあがっていく。このようなヒストグラムをU字型分布(U-shaped distribution)という。
ビンの数を10、幅を10とする。
均一分布
すべての区間の数が等しいとき、または、近いとき(だいたい差が2以下)、このヒストグラムを均一分布(uniform distribution)という。一様分布ともいう。次の2種類に分類できる。
- 連続一様分布 (Continuous uniform distribution)
- 離散一様分布 (Discrete uniform distibution)
山型分布
中央区間が最大になっているヒストグラムを山型分布(mound-shaped distribution)という。
歪曲分布
スケートボード場のような形の分布を歪曲分布(skewed distribution)という。左から下がっていくのを右歪曲分布(right-skewed distribution)、右へあがっていくのを左歪曲分布(left-skewed sidtribution)という。
具体例
ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである。
[表の見方]11の欄が478となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が478回であったことを意味する。
これを集計すると、次のようになる。上述の通り、ビンの数と幅の設定には諸説あるが、ここではビンの数を8、幅を100とした。
[表の見方]400 - 499の欄が4となっているのは、1日の記事「ヒストグラム」の閲覧回数が400回から499回であった日が2013年1月に4日あったことを意味する。
したがって、これをヒストグラムにすると、図1のようになる。
出題例
- 管理図
- 特性要因図
- パレート図
- ヒストグラム
正解
- フィールドワーク
- パレート図
- ABC分析
- 特性要因図
- 管理図
- 系統図
- 最小二乗法
- 回帰分析
- 擬似相関
- 散布図
- マトリックス図
- 箱ひげ図
- ヒートマップ
- レーダチャート
- ヒストグラム
- モザイク図
- クロス集計表
- 分割表
- ロジックツリー
- コンセプトマップ
- CSV
- シェープファイル
- 共起キーワード
- チャートジャンク
- GISデータ
- クロスセクションデータ
- 母集団
- 標本抽出
- 仮説検定
- 有意水準
- 第1種の誤り
- 第2種の誤り
- 統計的バイアス
- 認知バイアス
- A/Bテスト
- BI
- データウェアハウス
- データマイニング
- ビッグデータ
- テキストマイニング
- データサイエンスのサイクル
- データサイエンティスト
- デシジョンツリー
- シミュレーション
- ブレーンストーミング
- ブレーンライティング
- 親和図法
このページのWikipediaよりの記事は、ウィキペディアの「ヒストグラム」(改訂履歴)の記事を複製、再配布したものにあたり、このページ内の該当部分はクリエイティブ・コモンズ 表示 - 継承 3.0 非移植 ライセンスの下 に提供されています。