【センター試験頻出】分散とは?求め方や意味を徹底解説!
みなさん、分散って聞いたことありますか?
数学1Aのデータの分析の範囲で登場する言葉なのですが、データの分析というと試験にもあまりでないですし、馴染みが薄いですよね。
今回は、そんなデータの分析の中でも特に頻出の「分散」について東大生がわかりやすく説明していきます!
覚えることが少ない上にセンター試験でとてもよく出るので、受験生の皆さんにも是非読んでもらいたい記事です!
なお、同じくデータの分析の範囲である平均値や中央値について解説したこちらの記事を先に読むとスムーズに理解できますよ!
【PR】勉強を効率的に継続して、志望校に合格したい方必見!
↓無料ダウンロードはこちら↓
1.分散とは?平均や標準偏差も交えて解説!
まずは、分散の定義を確認しましょう。
分散とは「データの散らばりを数値化した指標」の事です。
散らばりを数値化とはどういう意味でしょうか。
わかりやすくするためにA「7,9,10,10,14」とB「1,7,10,14,18」という二つのデータを例にとって考えましょう。
この二つのデータはどちらも平均、中央値の両方とも10となっていますよね。(平均値や中央値の求め方を忘れてしまった方はこちらの記事をみてください)
でも、データAよりデータBの方が数字のばらつき具合が大きい気がしませんか?
この二つは平均値や中央値が同じでもデータとしてはまったく違いますよね。
平均や中央値は確かにそのデータがどんな特徴を持っているかを表すことができますが、データのばらつき具合を表すことはできません。
その「データのばらつき具合」を表すものこそが分散なのです。
分散の求め方などは次の項で紹介しますが、ここでは平均値や中央値がデータの中で代表的な値なものを示す代表値であることに対して、分散がデータの散らばり具合を示す値であるということを押さえておけばOKです!
2.分散の求め方って?簡単に解くための二つの公式
まず最初に分散を求める公式を紹介すると、以下のようになります。
分散をs2、i番目のデータをxi、データの数をnとすると、
となる。
各データから平均値を引いたもの(これを偏差と言います)を二乗して合計し、それをデータの個数で割れば分散が簡単に求められます!
この式から、分散が大きいほど全体的にデータの平均値からの散らばりが大きい事がわかりますね。
それでは上の公式に当てはめて各データの分散を計算してみましょう!
データAでは
s2=[(7-10)2+(9-10)2+(10-10)2+(10-10)2+(14-10)2]÷5
=(9+1+0+0+16)÷5
=26÷5
=5.2となりますね。
データBでは
s2=[(1-10)2+(7-10)2+(10-10)2+(14-10)2+(18-10)2]÷5
=(81+9+0+16+64)÷5
=170÷5
=34となります。
この二つの分散を比べるとデータBの分散の方が圧倒的に大きいですよね。
したがって、予想通りデータBの方がデータのばらつきが大きいということになります。
では、なぜわざわざ計算が面倒な2乗をして計算するのでしょうか。
二乗しないで求めると、
データAでは[(7-10)+(9-10)+(10-10)+(10-10)+(14-10)]÷5=(-3-1+0+0+4)÷5=0
データBでは[(1-10)+(7-10)+(10-10)+(14-10)+(18-10)]÷5=(-9-3+0+4+8)÷5=0
となり、どちらも0になってしまいました。
証明は省略しますが、偏差を足し合わせるとその結果は必ず0になってしまいます。
これではデータのばらつき具合がわからないので、分散は偏差を二乗することでそれを回避するというわけです。
この公式は、確かに分散の定義からすると納得のいく計算方法ですが、計算がとても面倒ですよね。
ですので、場合によってはより簡単に分散の値を求められる公式を紹介します!
【公式】
日本語で表すと、分散=(データを二乗したものの平均)-(データの平均値の二乗)となります。
なんだか紛らわしいですが、こちらの公式を使った方が早く分散を求められるケースもあるので、ミスなく使えるように練習をしておきましょう!
最後に、標準偏差についても説明しますね。
標準偏差とは、分散の正の平方根の事です。
式で表すと
となります。
先ほどの重要公式二つを覚えていれば、その結果の正の平方根をとるだけですね!
※以下の内容は標準偏差を用いる理由を解説したものです。問題を解くだけではここまで理解する必要はないので、わからなかったら飛ばしてもらっても結構です!
分散でもデータのばらつき度合いはわかるのになぜわざわざ標準偏差というものを考えるかというと、分散はデータを二乗したものを扱っているので単位がデータのものと違うからです。
例えばあるテストの平均点が60点で、分散が400だったとしましょう。
すると、平均点の単位はもちろん「点」ですが、分散の単位は「点2」となってしまい意味がわかりませんね。
しかし標準偏差を用いれば単位が「点」に戻るので、どの程度ばらつきがあるかを考える時には標準偏差を使って何点くらいばらつきがあるか考えられますね。
この場合では分散が400なので標準偏差は20となります。
すなわち、60点±20点に多くの人がいることになります。(厳密には約68%の人がいます。)
こうすることで、データのばらつき具合についてわかりやすく見て取る事ができますね。
以上の理由から、分散だけでなく標準偏差が定義されているのです。
ちなみに、偏差値の計算にも標準偏差が用いられています。
3.センター試験に挑戦!分散に関する練習問題
分散に関する公式は上の二つを覚えれば十分です。
それでは、実際にそれらの公式を使って分散に関する問題を解いてみましょう。
今回は実際のセンター試験の問題にチャレンジしてみましょう!
問題:平成27年度センター試験追試験 数学2・B(旧課程)第5問(1)
(独立行政法人大学入試センターのHPより引用しました。)
解答:
ア、イ:相関図から読み取ると得点Aは5、得点Bは7である。
ウ、エ:Yの得点の平均値Cは(7+7+15+8+2+10+11+3+10+7)/10=80/10=8.0となる。
オ、カ:データ(2,3,7,7,7,8,10,10,11,15)の中央値なので、データ数が偶数であることに注意すると、(7+8)/2=7.5
キク、ケコ:分散Eは、公式に当てはめて、{(2-8)2+(3-8)2+(7-8)2+(7-8)2+(7-8)2+(8-8)2+(10-8)2+(10-8)2+(11-8)2+(15-8)2}/10=130/10=13.00である。
(別解)
もう一つの公式に当てはめると、(72+72+152+82+22+102+112+32+102+72)/10-82=77-64=13.00である。
以上のようになります。この問題はセンター試験の一部ではありますが、このように公式を覚えておけば解ける問題もあるのでまずは確実に公式を覚えることを意識しましょう!
また、分散を求める公式の二つ目についてですが、今回の場合は計算量自体は同じくらいでしたね。
この公式が威力を発揮するのはデータの平均値が小数になった場合です。
例えば平均値が7.7だったら、10回も小数点を含む二乗をするのは大変ですよね?
そんな時に二つ目の公式を使えば少数を含む計算が最小限で済みます。
問題演習を繰り返して、分散や標準偏差を求める状況に応じて使い分けられるようにしましょう!
まとめ
以上、主に分散について説明してきました。
分散をはじめとしたデータの分析の分野、自体ほぼセンター試験にしか出ないので先ほど取り上げたセンター試験レベルの問題ができれば実際の入試では問題ありません!
文系の方も理系の方も計算ミスがないようしっかり問題演習に取り組みましょう!
同じくデータの分析の範囲である相関係数などを求める際に標準偏差を使うので、今回の内容はしっかり理解してください。
ここで扱ったデータの分析ですが、大学に入ってからはより重要な分野になってきます。
理系ではもちろん、文系の方でも経済学部や心理系(教育学部、文学部など)ではこうしたデータの分析(統計学)を扱います。
その中ではもちろん分散や標準偏差なども登場しますよ。
ですので、文理関わらずしっかりと理解できるようにしましょう!