センター試験頻出のデータの分析の公式

数学 2019.12.18

高校数学ではさまざまな分野を学習します。
数学Ⅰで学習する「データの分析」は、高校数学の中でも最も日常生活に密着した分野の一つでしょう。
現在の情報社会において、データを正しく読み、分析できる能力は、たとえ文系に進学するとしても、大切な力です。もちろん理系に進学するなら、大学で学習する「統計学」の基本となる分野ですし、就職してからもさまざまな場面でデータを分析する機会があるでしょう。
大学入試センター試験でも頻出の分野です。
この記事では、高校数学のデータの分析についてまとめます。

1.データの分析で用いられる代表値(平均値・中央値・最頻値)とは?

データ群をそのままの形で分析するのは非常に困難です。
数個から数十個のデータで表されるようなデータであれば、ざっと眺めれば、その概ねの傾向を読み取ることができるかもしれません。
しかし、実際上で分析することになるデータは、数万や数億個(あるいはそれより多い)の数を扱うことになります。そんなデータを分析するためには、それぞれのデータが持つ性質を、何らかの形で表さなければ、データの本質を見ることは出来ません。
データがもつ性質を表すには、さまざまな方法があります。

データの性質を表す方法の一つが、ヒストグラムや度数分布表などのグラフや表です。

度数分布表は、データを「度数」と呼ばれる区間(階級)に分割し、その区間ごとにどれだけのデータがあるかをまとめた表です。
どの区間にどれだけのデータが散らばっているかを一目で確認できます。
度数分布表については、以下の記事にまとめられていますので、ご確認ください。
→度数分布表について確認したい方はこちら!

 

上記の記事にも記述があるように、度数分布表はデータを整理して表しただけであり、データの比較には不向きな面があります。

そこで、データ群の代表値を考えます。代表値にはさまざまな指標があります。
「平均値」は最も有名な代表値でしょう。

例えば、A国の降水量とB国の降水量のデータが1年分あったとき、それを度数分布表にしても、「どちらの国の方がよく雨が降るか」を一目で見ることは難しそうです。
しかし、それらのデータの平均値を算出して比較すると、「各月については不明だが、総合的にはどちらの方が雨が降りそうだ」ということがわかるはずです。

このように、必要に応じて「代表値」を考えることで、データ群の比較に役立ちます。
「代表値」としては、「平均値(アベレージ)」の他にも「中央値(メジアン)」や「最頻値(モード)」などがあります。

n個のデータ x1,x2,x3,…,xn があるとき、その中間的な値として「平均値(相加平均)」が使用されることが多いです。
平均値は
平均値
で表されます。

「中央値」とは、データを小さい順に並べたとき、ちょうど真ん中にあるような数値のことです。
データが奇数2n + 1個のときには、
中央値
のデータが中央値です。

データが偶数2n個のときには、n番目とn+1番目のデータの平均値が中央値となります。

平均値・中央値については、以下の記事にまとめられていますので、ご確認ください。
→平均値、中央値について詳しく復習したい方はこちら!

最頻値とは、そのデータ群で最もよく現れる数値のことです。

2.データの分析で頻出の分散・標準偏差とは?

分散とは、データの散らばり具合のことです。
データの代表値として「平均値」は非常によく使われますが、平均値だけではデータをうまく表せないことが多いです。

例えば、
分散1
というデータと
分散2
というデータがあったとき、平均値は共に15ですが、データの散らばり具合が違います。

そんな場合によく使われるのが「分散」という指標です。
分散とは、個々のデータの値と平均値との差の2乗を平均したものです。
2乗するのは、平均値と比べて大きい場合と小さい場合を、同様に評価するためです。

x1,x2,x3,…,xnのデータがあり、その平均値が ¯x とすると、

偏差

が、それぞれの値と平均値との差です。この値を「偏差」ということもあります。

それぞれを2乗して、

偏差の2乗

とすれば、すべて0以上の値になり、平均値からどれだけ離れているかを正の値で評価できます。

この値を平均して、
分散
とすれば、データが平均値とどれだけ離れているかを表せます。

この値を分散といい、S2 で表します。

分散は、計算過程で2乗するため、単位を揃えるために分散の平方根を考えることもあります。分散の平方根を「標準偏差」といい、Sで表します。

標準偏差

分散については、以下の記事にまとめられています。
→分散について詳しく復習したい人はこちら!

3.データの分析でデータの散らばり具合を表す方法を解説!箱ひげ図の書き方付き

データの散らばり具合を表す指標として、分散は最もよく使われるものですが、他にも「四分位数」という値で、データの散らばり具合を表すことができます。

例えば

四分位数

という10個のデータがあったとき中央値は、

中央値

です。この中央値により、データを2つに分け、

四分位数2

とします。

さらに分けた前半と後半のデータも、それぞれの中央値により分けます。

四分位数3

こうして分けた、小さい方の中央値を「第一四分位数(=6)」、全体の中央値を「第二四分位数(=10)」、大きい方の中央値を「第三四分位数(=18)」といいます。

第一四分位数、第二四分位数、第三四分位数を合わせて、「四分位数」といいます。

 

また、四分位数を用いてデータの分布を表す図として、「箱ひげ図」があります。

箱ひげ図

箱ひげ図の書き方は以下の通りです。

①データを小さい順に並び替えて、各四分位数や平均値を計算する
②数直線を書く
③数直線と並べて、第一四分位数から第三四分位数までの長方形を書く
④長方形の内部、第二四分位数の部分に線を引く
⑤箱の端から、最大値・最小値まで線分(ひげ)を伸ばす。
⑥必要なら平均値の部分に「+」を書き込む

箱ひげ図②

データの最小値から最大値までの区間を「範囲(レンジ)」といいます。
また、第一四分位数から第三四分位数までの区間を「四分位範囲」といいます。
範囲を2で割った値を四分位偏差と言います。
箱ひげ図においては、ひげの端から端までが「範囲」、箱の端から端までが「四分位範囲」です。

4.データの分析において2つのデータの関係の表し方とは?相関ってなに?

2つのデータの関係を調べたいときに、「散布図」を利用することもあります。
散布図では、データAを縦軸、データBを横軸にとり、1つのデータを点として表します。

例えば、「今週の東京都の最低気温x℃」と「今週の大阪府の最低気温y℃」が、

表

 

となるとき、以下のような散布図が描けます。

散布図

散布図において、一方が増加したら、他方も増加する傾向があるとき、「正の相関がある」といいます。逆に一方が増加したら、他方が減少する傾向があるとき、「負の相関がある」といいます。
正の相関も負の相関も見られない場合は、「相関がない」といいます。

 

相関関係を数値で表すこともできます。
【x1,x2,x3,…xn】 【y1,y2,y3,…yn】 について、それぞれの平均値が、平均値だったとします。

それぞれ平均値との差をとって、
平均値との差
としたとき
相関求める式
は、x1,y1がそれぞれ平均よりも大きい場合や、平均よりも小さい場合に正の値になります。
逆にどちらかが平均よりも小さい場合には、負の値をとります。

つまり、そのデータに関しての相関を表していることになります。

この値の平均をとって、
相関
とすれば、データ全体に対して相関があるかどうかを確認できます。

相関があるときには正の値、相関がないときには負の値をとります。
相関がないときには、0に近い値をとります

Sxyを「共分散」といいます。

共分散を、x, y の標準偏差 Sx,Sy で割ると、
共分散/標準偏差
ですから、

相関係数

となります。こうして求めたrを相関係数といいます。
相関係数はデータ間の因果関係を表しています。

相関係数rは-1≦r≦1が成立し、正の相関が強いほど1に近く、負の相関が強いほど-1に近い値をとります。

5.データの分析の例題

例題1

[2,3,4,5,5,7,7,8,8,9]
上記のデータの四分位数をそれぞれ答えよ。

 

 

 

 

 

 

スクロールしたら解説

 

 

 

 

 

 

 

解答・解説

第一四分位数は、2,3,4,5,5の中央値ですから、4です。
第二四分位数は全体の中央値ですから、解答式です。
第三四分位数は、7,7,8,8,9 の中央値ですから、8です。

 

 

例題2

上のデータ、東京と大阪の今週の最低気温の相関係数を求めよ。
ただし、手計算では計算できないので、計算機を使うこと。

 

 

 

 

 

 

 

スクロールしたら解説

 

 

 

 

 

 

 

解答・解説

以下のような表を書くと、計算しやすいでしょう。

表2

よって相関係数は
相関係数解答
相関係数の計算は通常は、手計算ではできません。
定期試験のときには計算機の持ち込みが許可されるか、必要な数値を与えられます。
相関係数が0.86で、1に近い値になっていますから、この問題では正の相関があることがわかります。

6.データの分析まとめ

最後までご覧くださってありがとうございました。
この記事では、データの分析についてまとめました。
ご参考になれば幸いです。

アンケートにご協力ください!【スマホの使用時間に関するアンケート】

※アンケート実施期間:2020年1月21日~

受験のミカタでは、読者の皆様により有益な情報を届けるため、中高生の学習事情についてのアンケート調査を行っています。今回はアンケートに答えてくれた方から10名様に500円分の図書カードをプレゼントいたします。


アンケートに答える


最新情報を受け取ろう!

プッシュ通知を許可する

受験のミカタから最新の受験情報を配信中!

この記事の執筆者

ニックネーム:受験のミカタ編集部

「受験のミカタ」は、難関大学在学中の大学生ライターが中心となり運営している、高校生のための「受験応援メディア」です。