ヒストグラム

特徴

 ヒストグラムは、量的データの分布の様子を見るのに用いられます。データをいくつかの階級に分け、度数分布表を作成してからグラフを作成します。横軸にデータの階級を、縦軸にその階級に含まれるデータの数(人数、個数など)をとります。ヒストグラムは一見棒グラフに似ていますが、その面積が度数を表しているので、階級の幅が異なる場合には高さに注意しましょう。

たとえば・・・

 クラスの中にも、背の高い人、低い人いろいろいます。どれくらいの身長の人が何人いるか、グラフで示してみましょう。

※仮想のデータを使用しています。

 160cm以上165cm未満の人が一番多いことがわかりますね。

気をつけることは?

 データの階級幅が異なるときには、棒グラフとは異なった扱いが必要です。
 例えば、上記の例で、「165cm以上170cm未満と170cm以上175cm未満のところは人数も少ないから、まとめてしまおう」とした場合、「165cm以上175cm未満 7人」となりますが、それをそのままグラフに描くと、階級をまとめて人数が増えただけなのに、グラフの高さが高くなってしまって、誤解してしまうおそれがあります。そのため、そのような場合には、階級幅が2倍なので横幅を2倍にし、その代わりに高さを半分にして表示します(つまり、面積がデータの個数に比例するように描きます)。
 ヒストグラムを描く際には、「階級数をいくつに分ければよいか」というのが問題になります。通常は、5~10くらいの階級数でヒストグラムを描いてみて、あまりデータの散らばりが見られなければ階級数を変えてみる、という方法をとります。

ヒストグラムの作り方

 「世界の統計2020」を使用して、アジア各国の平均寿命を示すヒストグラムを作成してみましょう。

①ヒストグラムを作成するためには、まず度数分布表を作成する必要があるため、データの個数、範囲から階級幅を決定します。
 データが連続して並ぶように表を組換えます。「データ」タブから「データ分析」をクリックします。「基本統計量」を選択し、「OK」を押します。
「データ分析」の設定方法についてはこちらを御参照ください。

図 「基本統計量」の選択

「基本統計量」の選択

②「入力範囲」にデータの表頭と数値が入ったセルを選択します。適当な出力先を指定し、「統計情報」のチェックボックスと「先頭行をラベルとして使用」にチェックを入れて「OK」を押します。

図 「基本統計量」の入力

「基本統計量」の入力

③算出された統計情報から階級の数と階級の境界値を決めます

図 算出された統計情報

算出された統計情報

 階級の数を決める方法としては、最大値と最小値、データの範囲、データ数などが参考になるでしょう。また、スタージェスの公式を利用して階級の数を決定し、その数から各階級区間を決定していく方法もあります。

 log10n(n=データ数)については、Excelの関数機能を利用して、セルに「=LOG10(n)」と入力すると計算することができます。今回は階級幅を5とします。

④各階級の最大値を入力した表を作成し、「データ」タブから「データ分析」をクリックします。「ヒストグラム」を選択し、「OK」を押します。

⑤「入力範囲」にデータの表頭と数値が入ったセルを選択し、「データ区間」には階級値の最大値を入力した表の表頭と数値を選択します。「ラベル」のチェックボックスにチェックを入れて。出力先を選択したら「OK」をクリックします。

図 ヒストグラムに使用するデータの選択

ヒストグラムに使用するデータの選択

⑥表示された表を修正して度数分布表を作成します。

図 度数分布表の作成

度数分布表の作成

 この度数分布表をもとに、ヒストグラムを作成します。データを選択し、「挿入」タブの中から「縦棒グラフ」を使用して、グラフを作成しましょう。階級の取り方によって分布の形が大きく変わって見えてしまうので、あまり階級の幅が細か過ぎたり、粗過ぎたりしないように注意しましょう。
 また、境界値が2つの階級に重複したり脱落したりしないように、"以上"、"未満"等の言葉を用い、明確に定義しましょう。

図 アジア各国の平均寿命

アジア各国の平均寿命

 ヒストグラムに表すことによって分布の様子(型)が分かりやすくなります。このヒストグラムを見ると、75歳以上80才未満の国が最も多く、次いで65歳以上~70才未満、70歳以上75歳未満の区間に多くの国が集まっているのが分かります。また、日本の平均寿命は84歳となっており、80歳以上85歳未満の4か国の1つであることが分かります。

階級幅の変更

 ヒストグラムは面積が分布の割合を表し、高さはその階級の密度を表しているため、階級幅が異なってもグラフ化することができます。
 例えば、上記のアジア各国の平均寿命のグラフにおいて、75歳以上95歳未満という階級幅を作成する場合、階級幅は他の階級幅の4倍、該当する国は16カ国あるため、密度は16/4=4となります。したがって、75歳以上95歳未満の階級を作成する場合は、高さが4となる図を追加することになります。
 これは、幅が広い分布において、階級を細かく分析したい時や、幅が広すぎてグラフ化することが困難である場合に使用する手法です。

図 貯蓄現在高階級別世帯分布-2019 年-(二人以上の世帯)

貯蓄現在高階級別世帯分布-2019 年-(二人以上の世帯)

ヒストグラムの形状

 ヒストグラムはデータの分布をみるのに有効なグラフです。データの分布をヒストグラムで表すことによって、そのデータの集合の特徴を把握することができます。

図 様々な分布

様々な分布