センター試験頻出のデータの分析の公式

数学 2019.12.18
センター試験頻出のデータの分析の公式

高校数学ではさまざまな分野を学習します。
数学Ⅰで学習する「データの分析」は、高校数学の中でも最も日常生活に密着した分野の一つでしょう。
現在の情報社会において、データを正しく読み、分析できる能力は、たとえ文系に進学するとしても、大切な力です。もちろん理系に進学するなら、大学で学習する「統計学」の基本となる分野ですし、就職してからもさまざまな場面でデータを分析する機会があるでしょう。
大学入試センター試験でも頻出の分野です。
この記事では、高校数学のデータの分析についてまとめます。

    1.データの分析で用いられる代表値(平均値・中央値・最頻値)とは?

    データ群をそのままの形で分析するのは非常に困難です。
    数個から数十個のデータで表されるようなデータであれば、ざっと眺めれば、その概ねの傾向を読み取ることができるかもしれません。
    しかし、実際上で分析することになるデータは、数万や数億個(あるいはそれより多い)の数を扱うことになります。そんなデータを分析するためには、それぞれのデータが持つ性質を、何らかの形で表さなければ、データの本質を見ることは出来ません。
    データがもつ性質を表すには、さまざまな方法があります。

    データの性質を表す方法の一つが、ヒストグラムや度数分布表などのグラフや表です。

    度数分布表は、データを「度数」と呼ばれる区間(階級)に分割し、その区間ごとにどれだけのデータがあるかをまとめた表です。
    どの区間にどれだけのデータが散らばっているかを一目で確認できます。
    度数分布表については、以下の記事にまとめられていますので、ご確認ください。
    →度数分布表について確認したい方はこちら!

     

    上記の記事にも記述があるように、度数分布表はデータを整理して表しただけであり、データの比較には不向きな面があります。

    そこで、データ群の代表値を考えます。代表値にはさまざまな指標があります。
    「平均値」は最も有名な代表値でしょう。

    例えば、A国の降水量とB国の降水量のデータが1年分あったとき、それを度数分布表にしても、「どちらの国の方がよく雨が降るか」を一目で見ることは難しそうです。
    しかし、それらのデータの平均値を算出して比較すると、「各月については不明だが、総合的にはどちらの方が雨が降りそうだ」ということがわかるはずです。

    このように、必要に応じて「代表値」を考えることで、データ群の比較に役立ちます。
    「代表値」としては、「平均値(アベレージ)」の他にも「中央値(メジアン)」や「最頻値(モード)」などがあります。

    n個のデータ x1,x2,x3,…,xn があるとき、その中間的な値として「平均値(相加平均)」が使用されることが多いです。
    平均値は
    平均値
    で表されます。

    「中央値」とは、データを小さい順に並べたとき、ちょうど真ん中にあるような数値のことです。
    データが奇数2n + 1個のときには、
    中央値
    のデータが中央値です。

    データが偶数2n個のときには、n番目とn+1番目のデータの平均値が中央値となります。

    平均値・中央値については、以下の記事にまとめられていますので、ご確認ください。
    →平均値、中央値について詳しく復習したい方はこちら!

    最頻値とは、そのデータ群で最もよく現れる数値のことです。

      2.データの分析で頻出の分散・標準偏差とは?

      分散とは、データの散らばり具合のことです。
      データの代表値として「平均値」は非常によく使われますが、平均値だけではデータをうまく表せないことが多いです。

      例えば、
      分散1
      というデータと
      分散2
      というデータがあったとき、平均値は共に15ですが、データの散らばり具合が違います。

      そんな場合によく使われるのが「分散」という指標です。
      分散とは、個々のデータの値と平均値との差の2乗を平均したものです。
      2乗するのは、平均値と比べて大きい場合と小さい場合を、同様に評価するためです。

      x1,x2,x3,…,xnのデータがあり、その平均値が ¯x とすると、

      偏差

      が、それぞれの値と平均値との差です。この値を「偏差」ということもあります。

      それぞれを2乗して、

      偏差の2乗

      とすれば、すべて0以上の値になり、平均値からどれだけ離れているかを正の値で評価できます。

      この値を平均して、
      分散
      とすれば、データが平均値とどれだけ離れているかを表せます。

      この値を分散といい、S2 で表します。

      分散は、計算過程で2乗するため、単位を揃えるために分散の平方根を考えることもあります。分散の平方根を「標準偏差」といい、Sで表します。

      標準偏差

      分散については、以下の記事にまとめられています。
      →分散について詳しく復習したい人はこちら!

      3.データの分析でデータの散らばり具合を表す方法を解説!箱ひげ図の書き方付き

      データの散らばり具合を表す指標として、分散は最もよく使われるものですが、他にも「四分位数」という値で、データの散らばり具合を表すことができます。

      例えば

      四分位数

      という10個のデータがあったとき中央値は、

      中央値

      です。この中央値により、データを2つに分け、

      四分位数2

      とします。

      さらに分けた前半と後半のデータも、それぞれの中央値により分けます。

      四分位数3

      こうして分けた、小さい方の中央値を「第一四分位数(=6)」、全体の中央値を「第二四分位数(=10)」、大きい方の中央値を「第三四分位数(=18)」といいます。

      第一四分位数、第二四分位数、第三四分位数を合わせて、「四分位数」といいます。

       

      また、四分位数を用いてデータの分布を表す図として、「箱ひげ図」があります。

      箱ひげ図

      箱ひげ図の書き方は以下の通りです。

      ①データを小さい順に並び替えて、各四分位数や平均値を計算する
      ②数直線を書く
      ③数直線と並べて、第一四分位数から第三四分位数までの長方形を書く
      ④長方形の内部、第二四分位数の部分に線を引く
      ⑤箱の端から、最大値・最小値まで線分(ひげ)を伸ばす。
      ⑥必要なら平均値の部分に「+」を書き込む

      箱ひげ図②

      データの最小値から最大値までの区間を「範囲(レンジ)」といいます。
      また、第一四分位数から第三四分位数までの区間を「四分位範囲」といいます。
      範囲を2で割った値を四分位偏差と言います。
      箱ひげ図においては、ひげの端から端までが「範囲」、箱の端から端までが「四分位範囲」です。

        4.データの分析において2つのデータの関係の表し方とは?相関ってなに?

        2つのデータの関係を調べたいときに、「散布図」を利用することもあります。
        散布図では、データAを縦軸、データBを横軸にとり、1つのデータを点として表します。

        例えば、「今週の東京都の最低気温x℃」と「今週の大阪府の最低気温y℃」が、

        表

         

        となるとき、以下のような散布図が描けます。

        散布図

        散布図において、一方が増加したら、他方も増加する傾向があるとき、「正の相関がある」といいます。逆に一方が増加したら、他方が減少する傾向があるとき、「負の相関がある」といいます。
        正の相関も負の相関も見られない場合は、「相関がない」といいます。

         

        相関関係を数値で表すこともできます。
        【x1,x2,x3,…xn】 【y1,y2,y3,…yn】 について、それぞれの平均値が、平均値だったとします。

        それぞれ平均値との差をとって、
        平均値との差
        としたとき
        相関求める式
        は、x1,y1がそれぞれ平均よりも大きい場合や、平均よりも小さい場合に正の値になります。
        逆にどちらかが平均よりも小さい場合には、負の値をとります。

        つまり、そのデータに関しての相関を表していることになります。

        この値の平均をとって、
        相関
        とすれば、データ全体に対して相関があるかどうかを確認できます。

        相関があるときには正の値、相関がないときには負の値をとります。
        相関がないときには、0に近い値をとります

        Sxyを「共分散」といいます。

        共分散を、x, y の標準偏差 Sx,Sy で割ると、
        共分散/標準偏差
        ですから、

        相関係数

        となります。こうして求めたrを相関係数といいます。
        相関係数はデータ間の因果関係を表しています。

        相関係数rは-1≦r≦1が成立し、正の相関が強いほど1に近く、負の相関が強いほど-1に近い値をとります。

          5.データの分析の例題

          例題1

          [2,3,4,5,5,7,7,8,8,9]
          上記のデータの四分位数をそれぞれ答えよ。

           

           

           

           

           

           

          スクロールしたら解説

           

           

           

           

           

           

           

          解答・解説

          第一四分位数は、2,3,4,5,5の中央値ですから、4です。
          第二四分位数は全体の中央値ですから、解答式です。
          第三四分位数は、7,7,8,8,9 の中央値ですから、8です。

           

           

          例題2

          上のデータ、東京と大阪の今週の最低気温の相関係数を求めよ。
          ただし、手計算では計算できないので、計算機を使うこと。

           

           

           

           

           

           

           

          スクロールしたら解説

           

           

           

           

           

           

           

          解答・解説

          以下のような表を書くと、計算しやすいでしょう。

          表2

          よって相関係数は
          相関係数解答
          相関係数の計算は通常は、手計算ではできません。
          定期試験のときには計算機の持ち込みが許可されるか、必要な数値を与えられます。
          相関係数が0.86で、1に近い値になっていますから、この問題では正の相関があることがわかります。

            6.データの分析まとめ

            最後までご覧くださってありがとうございました。
            この記事では、データの分析についてまとめました。
            ご参考になれば幸いです。
            データ分析についてのまとめ記事が読みたいという方は「データの分析に役立つ記事まとめ~グラフ・公式・相関係数・共分散~」も併せてお読みください!

            アンケートにご協力ください!【利用状況に関するアンケート】

            ※アンケート実施期間:2023年4月5日~

            受験のミカタでは、読者の皆様により有益な情報を届けるため、受験のミカタの利用状況についてのアンケート調査を行っています。今回はアンケートに答えてくれた方から10名様に500円分の図書カードをプレゼントいたします。


            アンケートに答える


            受験生の勉強に役立つLINEスタンプ発売中!

            受験生が使いやすい「受験のミカタ」勉強LINEスタンプ販売中!


            最新情報を受け取ろう!

            プッシュ通知を許可する

            受験のミカタから最新の受験情報を配信中!

            この記事の執筆者

            ニックネーム:受験のミカタ編集部

            「受験のミカタ」は、難関大学在学中の大学生ライターが中心となり運営している「受験応援メディア」です。