センター試験頻出のデータの分析の公式
高校数学ではさまざまな分野を学習します。
数学Ⅰで学習する「データの分析」は、高校数学の中でも最も日常生活に密着した分野の一つでしょう。
現在の情報社会において、データを正しく読み、分析できる能力は、たとえ文系に進学するとしても、大切な力です。もちろん理系に進学するなら、大学で学習する「統計学」の基本となる分野ですし、就職してからもさまざまな場面でデータを分析する機会があるでしょう。
大学入試センター試験でも頻出の分野です。
この記事では、高校数学のデータの分析についてまとめます。
【 目次 】
1.データの分析で用いられる代表値(平均値・中央値・最頻値)とは?
3.データの分析でデータの散らばり具合を表す方法を解説!箱ひげ図の書き方付き
1.データの分析で用いられる代表値(平均値・中央値・最頻値)とは?
データ群をそのままの形で分析するのは非常に困難です。
数個から数十個のデータで表されるようなデータであれば、ざっと眺めれば、その概ねの傾向を読み取ることができるかもしれません。
しかし、実際上で分析することになるデータは、数万や数億個(あるいはそれより多い)の数を扱うことになります。そんなデータを分析するためには、それぞれのデータが持つ性質を、何らかの形で表さなければ、データの本質を見ることは出来ません。
データがもつ性質を表すには、さまざまな方法があります。
データの性質を表す方法の一つが、ヒストグラムや度数分布表などのグラフや表です。
度数分布表は、データを「度数」と呼ばれる区間(階級)に分割し、その区間ごとにどれだけのデータがあるかをまとめた表です。
どの区間にどれだけのデータが散らばっているかを一目で確認できます。
度数分布表については、以下の記事にまとめられていますので、ご確認ください。
→度数分布表について確認したい方はこちら!
上記の記事にも記述があるように、度数分布表はデータを整理して表しただけであり、データの比較には不向きな面があります。
そこで、データ群の代表値を考えます。代表値にはさまざまな指標があります。
「平均値」は最も有名な代表値でしょう。
例えば、A国の降水量とB国の降水量のデータが1年分あったとき、それを度数分布表にしても、「どちらの国の方がよく雨が降るか」を一目で見ることは難しそうです。
しかし、それらのデータの平均値を算出して比較すると、「各月については不明だが、総合的にはどちらの方が雨が降りそうだ」ということがわかるはずです。
このように、必要に応じて「代表値」を考えることで、データ群の比較に役立ちます。
「代表値」としては、「平均値(アベレージ)」の他にも「中央値(メジアン)」や「最頻値(モード)」などがあります。
n個のデータ x1,x2,x3,…,xn があるとき、その中間的な値として「平均値(相加平均)」が使用されることが多いです。
平均値は
で表されます。
「中央値」とは、データを小さい順に並べたとき、ちょうど真ん中にあるような数値のことです。
データが奇数2n + 1個のときには、
のデータが中央値です。
データが偶数2n個のときには、n番目とn+1番目のデータの平均値が中央値となります。
平均値・中央値については、以下の記事にまとめられていますので、ご確認ください。
→平均値、中央値について詳しく復習したい方はこちら!
最頻値とは、そのデータ群で最もよく現れる数値のことです。
2.データの分析で頻出の分散・標準偏差とは?
分散とは、データの散らばり具合のことです。
データの代表値として「平均値」は非常によく使われますが、平均値だけではデータをうまく表せないことが多いです。
例えば、
というデータと
というデータがあったとき、平均値は共に15ですが、データの散らばり具合が違います。
そんな場合によく使われるのが「分散」という指標です。
分散とは、個々のデータの値と平均値との差の2乗を平均したものです。
2乗するのは、平均値と比べて大きい場合と小さい場合を、同様に評価するためです。
x1,x2,x3,…,xnのデータがあり、その平均値が ¯x とすると、
が、それぞれの値と平均値との差です。この値を「偏差」ということもあります。
それぞれを2乗して、
とすれば、すべて0以上の値になり、平均値からどれだけ離れているかを正の値で評価できます。
この値を平均して、
とすれば、データが平均値とどれだけ離れているかを表せます。
この値を分散といい、S2 で表します。
分散は、計算過程で2乗するため、単位を揃えるために分散の平方根を考えることもあります。分散の平方根を「標準偏差」といい、Sで表します。
分散については、以下の記事にまとめられています。
→分散について詳しく復習したい人はこちら!
3.データの分析でデータの散らばり具合を表す方法を解説!箱ひげ図の書き方付き
データの散らばり具合を表す指標として、分散は最もよく使われるものですが、他にも「四分位数」という値で、データの散らばり具合を表すことができます。
例えば
という10個のデータがあったとき中央値は、
です。この中央値により、データを2つに分け、
とします。
さらに分けた前半と後半のデータも、それぞれの中央値により分けます。
こうして分けた、小さい方の中央値を「第一四分位数(=6)」、全体の中央値を「第二四分位数(=10)」、大きい方の中央値を「第三四分位数(=18)」といいます。
第一四分位数、第二四分位数、第三四分位数を合わせて、「四分位数」といいます。
また、四分位数を用いてデータの分布を表す図として、「箱ひげ図」があります。
箱ひげ図の書き方は以下の通りです。
②数直線を書く
③数直線と並べて、第一四分位数から第三四分位数までの長方形を書く
④長方形の内部、第二四分位数の部分に線を引く
⑤箱の端から、最大値・最小値まで線分(ひげ)を伸ばす。
⑥必要なら平均値の部分に「+」を書き込む
データの最小値から最大値までの区間を「範囲(レンジ)」といいます。
また、第一四分位数から第三四分位数までの区間を「四分位範囲」といいます。
範囲を2で割った値を四分位偏差と言います。
箱ひげ図においては、ひげの端から端までが「範囲」、箱の端から端までが「四分位範囲」です。
4.データの分析において2つのデータの関係の表し方とは?相関ってなに?
2つのデータの関係を調べたいときに、「散布図」を利用することもあります。
散布図では、データAを縦軸、データBを横軸にとり、1つのデータを点として表します。
例えば、「今週の東京都の最低気温x℃」と「今週の大阪府の最低気温y℃」が、
となるとき、以下のような散布図が描けます。
散布図において、一方が増加したら、他方も増加する傾向があるとき、「正の相関がある」といいます。逆に一方が増加したら、他方が減少する傾向があるとき、「負の相関がある」といいます。
正の相関も負の相関も見られない場合は、「相関がない」といいます。
相関関係を数値で表すこともできます。
【x1,x2,x3,…xn】 【y1,y2,y3,…yn】 について、それぞれの平均値が、
それぞれ平均値との差をとって、
としたとき
は、x1,y1がそれぞれ平均よりも大きい場合や、平均よりも小さい場合に正の値になります。
逆にどちらかが平均よりも小さい場合には、負の値をとります。
つまり、そのデータに関しての相関を表していることになります。
この値の平均をとって、
とすれば、データ全体に対して相関があるかどうかを確認できます。
相関があるときには正の値、相関がないときには負の値をとります。
相関がないときには、0に近い値をとります
Sxyを「共分散」といいます。
共分散を、x, y の標準偏差 Sx,Sy で割ると、
ですから、
となります。こうして求めたrを相関係数といいます。
相関係数はデータ間の因果関係を表しています。
相関係数rは-1≦r≦1が成立し、正の相関が強いほど1に近く、負の相関が強いほど-1に近い値をとります。
5.データの分析の例題
例題1
[2,3,4,5,5,7,7,8,8,9]
上記のデータの四分位数をそれぞれ答えよ。
スクロールしたら解説
解答・解説
第一四分位数は、2,3,4,5,5の中央値ですから、4です。
第二四分位数は全体の中央値ですから、
第三四分位数は、7,7,8,8,9 の中央値ですから、8です。
例題2
上のデータ、東京と大阪の今週の最低気温の相関係数を求めよ。
ただし、手計算では計算できないので、計算機を使うこと。
スクロールしたら解説
解答・解説
以下のような表を書くと、計算しやすいでしょう。
よって相関係数は
相関係数の計算は通常は、手計算ではできません。
定期試験のときには計算機の持ち込みが許可されるか、必要な数値を与えられます。
相関係数が0.86で、1に近い値になっていますから、この問題では正の相関があることがわかります。
6.データの分析まとめ
最後までご覧くださってありがとうございました。
この記事では、データの分析についてまとめました。
ご参考になれば幸いです。
データ分析についてのまとめ記事が読みたいという方は「データの分析に役立つ記事まとめ~グラフ・公式・相関係数・共分散~」も併せてお読みください!
記事の内容でわからないところ、質問などあればこちらからお気軽にご質問ください。
中の人がお答えします。