数学における度数分布表とヒストグラムとは?中央値・最頻値も
度数分布表は、データを扱う際にとても重要です。
インターネットで多くのことを調べられるようになり、手に入る情報量が多くなりました。それに伴って、データを正しく読む能力や、データを整理する能力が求められています。
この分野は、試験においては、「どの単語が何を表しているか」をしっかり理解することが重要です。
問題で「中央値」を求めよ、と言われても、中央値がなんのことだかわからなければ、正解することはできません。
この記事では、そんな度数分布表についてまとめます。
1.度数分布表とは?
度数分布表は、単なるデータから情報を読み取る際に役立ちます。
データについて調べるとき、データをただ並べただけでは、そのデータがどのような性質をもつデータ群なのかわかりません。
例えば、以下のデータを見て下さい。
平成30年10月の大阪の最高気温(単位 ℃)
26.8 21.4 26.8 23.5 24.3 19.9 23.5 28.4 29.0 28.5
28.8 22.7 19.5 21.2 18.9 16.2 16.6 20.2 16.4 18.7
18.2 17.6 18.9 18.2 20.4 22.7 24.0 18.0 18.9 15.7 18.2
このように、ただのデータの羅列では、非常に見にくいものになってしまいます。
これを以下のように整理すると、見やすくなりますね。
気温の階級 | 度数 |
15℃以上17℃未満 | 4 |
17℃以上19℃未満 | 10 |
19℃以上21℃未満 | 4 |
21℃以上23℃未満 | 3 |
23℃以上25℃未満 | 4 |
25℃以上27℃未満 | 2 |
27℃以上29℃未満 | 3 |
29℃以上31度未満 | 1 |
計 | 31 |
この表では、15℃から31℃までを3℃ごとの区間に分けて整理しました。
このような区間のことを階級と言います。
また、各階級に含まれるデータの値の個数を、度数と言います。
さらに、各階級の端点の平均をその階級の階級値といい、端点の差を階級の幅と言います。
各階級と度数を対応させたものを、度数分布と言い、度数分布を表にしたものを度数分布表といいます。
気温の階級 | 階級値 | 階級の幅℃ | 度数 |
15℃以上17℃未満 | 16 | 2 | 4 |
17℃以上19℃未満 | 18 | 2 | 10 |
19℃以上21℃未満 | 20 | 2 | 4 |
21℃以上23℃未満 | 22 | 2 | 3 |
23℃以上25℃未満 | 24 | 2 | 4 |
25℃以上27℃未満 | 26 | 2 | 2 |
27℃以上29℃未満 | 28 | 2 | 3 |
29℃以上31度未満 | 30 | 2 | 1 |
計 | ――― | ――― | 31 |
例えば、15℃以上17℃未満という「階級」の場合、「階級値」は15と17の平均をとって16、「階級の幅」は15と17の差をとって2です。
そして、元のデータにその階級に入っているデータは4つありますので、「度数」が4になります。
階級と度数を対応させたものを「度数分布」といいますが、それをどのように表現するかはいろいろな方法があります。
度数分布を表で表すと「度数分布表」、棒グラフで表すと「ヒストグラム」といいます。
今回のデータのヒストグラムは以下のようになります。
それぞれの対応がわかったでしょうか。
用語をしっかり確認しておきましょう。
さらにもう一つ、「相対度数」について考えます。
相対度数とは、それぞれの度数を、度数の合計で割った値です。
相対度数は、データ量全体に対してその階級に何割程度のデータが集まっているかを表します。
例えば、先の15度以上17℃未満の階級の相対度数は、4÷31で計算できます。
31個のデータに対して、その階級がどれくらいの割合を占めるかを計算するわけです。
相対度数は度数分布表に合わせて書き込むこともあり、以下のようになります。
気温の階級 | 階級値 | 階級の幅℃ | 度数 | 相対度数 |
15℃以上17℃未満 | 16 | 2 | 4 | 0.129 |
17℃以上19℃未満 | 18 | 2 | 10 | 0.323 |
19℃以上21℃未満 | 20 | 2 | 4 | 0.129 |
21℃以上23℃未満 | 22 | 2 | 3 | 0.096 |
23℃以上25℃未満 | 24 | 2 | 4 | 0.129 |
25℃以上27℃未満 | 26 | 2 | 2 | 0.065 |
27℃以上29℃未満 | 28 | 2 | 3 | 0.097 |
29℃以上31度未満 | 30 | 2 | 1 | 0.032 |
計 | ――― | ――― | 31 | 1.000 |
2.度数分布表の利用:データの代表値
度数分布表をつくることで、そのデータがどのような傾向があることが把握できることがあります。
しかし、あくまでデータを整理しただけで、2つ以上のデータ群を比べるのに不向きであることもあります。
たとえば、以下の2つの度数分布表で、どちらが暑かったかがすぐにわかるでしょうか(もちろん、暑さの指標はいろいろありますし、人によっても変わります)。
A市の気温の階級 | 度数 |
15℃以上17℃未満 | 4 |
17℃以上19℃未満 | 10 |
19℃以上21℃未満 | 4 |
21℃以上23℃未満 | 3 |
23℃以上25℃未満 | 4 |
25℃以上27℃未満 | 2 |
27℃以上29℃未満 | 3 |
29℃以上31度未満 | 1 |
計 | 31 |
B市の気温の階級 | 度数 |
15℃以上17℃未満 | 6 |
17℃以上19℃未満 | 5 |
19℃以上21℃未満 | 7 |
21℃以上23℃未満 | 3 |
23℃以上25℃未満 | 3 |
25℃以上27℃未満 | 2 |
27℃以上29℃未満 | 4 |
29℃以上31度未満 | 1 |
計 | 31 |
よく見れば、わかるかもしれません。
しかし、すぐにどちらが暑いと判断することは難しいはずです。
そこで、データの特徴を一目で表す「代表値」という数値を決めておけば便利です。
代表値にはいくつかの種類があり、シチュエーションによって最適なものを選びます。
有名なのは、平均値でしょう。
次のようなn個のデータがあったとき、そのn個のデータの総和をそのデータの個数で割った値を、平均値と言います。
x1, x2, x3,……xn
データxの平均値は、で表します。
先のデータであれば、
26.8 21.4 26.8 23.5 24.3 19.9 23.5 28.4 29.0 28.5
28.8 22.7 19.5 21.2 18.9 16.2 16.6 20.2 16.4 18.7
18.2 17.6 18.9 18.2 20.4 22.7 24.0 18.0 18.9 15.7 18.2
となります。
しかし、度数分布表では、元のデータがありません。
度数分布表を与えられた場合に平均値を求めるには、階級値と度数の積をすべて足してから、データの数で割ります。
A市の気温の階級 | 階級値 | 度数 | 階級値×度数 |
15℃以上17℃未満 | 16 | 4 | 64 |
17℃以上19℃未満 | 18 | 10 | 180 |
19℃以上21℃未満 | 20 | 4 | 80 |
21℃以上23℃未満 | 22 | 3 | 66 |
23℃以上25℃未満 | 24 | 4 | 96 |
25℃以上27℃未満 | 26 | 2 | 52 |
27℃以上29℃未満 | 28 | 3 | 84 |
29℃以上31度未満 | 30 | 1 | 30 |
計 | ――― | 31 | 652 |
度数分布表による平均値 = 652 ÷ 31 ≒ 21.03 となります。
もちろん元々のデータを使ったわけではありませんから、厳密な値ではありません。
先の平均値と比べても多少のずれがあることがわかります。
また、平均値以外のデータの代表値として「中央値(メジアン)」と「最頻値(モード)」を紹介します。
中央値とは、データを小さい順番に並び替えたときに、ちょうど真ん中にある値のことです。
先ほどのデータを並び替えると、
15.7 16.2 16.4 16.6 17.6 18.0 18.2 18.2 18.2 18.7
18.9 18.9 18.9 19.5 19.9 20.2 20.4 21.2 21.4 22.7
22.7 23.5 23.5 24.0 24.3 26.8 26.8 28.4 28.5 28.8 29.0
となります。
31個のデータがありますので、ちょうど真ん中のデータは
個目のデータである「20.2」が中央値です。
ここで、もしもデータの個数が
15.7 16.2 16.4 16.6 17.6 18.0 18.2 18.2 18.2 18.7
18.9 18.9 18.9 19.5 19.9 20.2 20.4 21.2 21.4 22.7
22.7 23.5 23.5 24.0 24.3 26.8 26.8 28.4 28.5 28.8
のように偶数個であれば、真ん中にあたるデータが2つあります。
14個目のデータ「19.5」と15個目のデータ「19.9」です。
このような場合の中央値は、その2つの平均値
となります。
中央値は、メジアンともいいます。
続いて、最頻値とはその名の通り、最もよく表れる数値です。モードともいいます。
上のデータであれば、「18.2」と「18.9」が3回と最もよく表れているので、この2つが最頻値となります。
度数分布表のまとめ
最後までご覧くださってありがとうございました。
この記事では、度数分布表とその代表値についてまとめました。
それぞれの言葉の定義をしっかりと確認しておきましょう。
それさえできれば、あとは計算するだけです。
データ分析についてのまとめ記事が読みたいという方は「データの分析に役立つ記事まとめ~グラフ・公式・相関係数・共分散~」の記事も併せてお読みください!
頑張れ、受験生!