データの分析で頻出の相関係数って?求め方を例題付きで徹底解説!
相関係数は数学Ⅰの「データの分析」で学習します。
データの分析では平均値や分散など、統計学の基本となるような代表値について学習しますが、これらの値についてしっかり計算できなければ、相関係数を求めることはできません。
平均値や分散は1つのデータ群についての代表値ですが、相関係数は2つのデータを比較して、「相関がある」かどうかを調べるときに利用する値です。この記事では、相関係数についてまとめます。
1.【相関係数を学ぶ前に】データの分析の復習
データの分析ではその名の通り、データをどのように分析できるか、データ同士を比較するにはどうすればよいかを学習します。
しばらく前から、「ビッグデータ」という単語をよく耳にするようになりました。
情報技術が発展し、たくさんのデータを蓄えられるようになり、さらにそれを処理することができるようになりました。
そのため、一つの業界だけでなく、あらゆる業界でそのデータを分析することで利益に繋げようという動きが出てきています。学生の皆さんも、将来、(文系でも)データの分析に関わる可能性は低くありません。数学Ⅰのデータの分析は、それらの基礎となる分野です。
一言で「データ」といっても、その中身は千差万別で、含まれる値の数や性質が異なります。
「日本国民のマイナンバーデータ」といえば約1億個のデータになるでしょうし、「東京都の今月の1日の平均気温」といえば30個ほどのデータになるでしょう。
様々なデータの性質について表すために「代表値」を考えます。
最も有名な代表値は「平均値」でしょう。他にも、「中央値」「最頻値」などがあります。
データ群 x1,x2,x3,…,xn について平均値は
で表されます。
分散は や で表すことが多く、
で計算できます。
分散については、以下の記事にまとめてありますので、合わせてご覧ください。
▲【センター試験頻出】分散とは?求め方や意味を徹底解説!
分散の単位は、それぞれのデータ(と平均値との差)を2乗しているため、もとのデータの次元と異なります。
これを合わせるために
のように正の平方根をとります。
これを標準偏差といい、などで表します。
データの分析の公式については、以下の記事にまとめました。
▲センター試験頻出のデータの分析の公式
2.共分散・相関係数とは?
平均や分散・標準偏差は、一つのデータについて考えるときに使う指標です。
「3年生の睡眠時間の平均・分散・標準偏差」「3年生の学年末試験の平均・分散・標準偏差」などです。
それぞれのデータについて分析出来てくると、「このデータは、このデータと関係あるのだろうか」のように、2つのデータの関係性を見てみたくなります。
このようなときに使用する指標が、「共分散」や「相関係数」です。
先の例で言えば、「睡眠時間が短いときには、成績は良い傾向があるだろうか、それとも悪い傾向があるだろうか」といったものです。他にも、「降水量と農作物の生産量の関係」「気温と死亡率の関係」などを見るとき、他にも様々な場面で共分散や相関係数が利用されます。共分散や相関係数でわかるのは「関係があるか」「関係ないか」です。
これらをデータの分析(統計学)では、「相関がある」「相関がない」といいます。
「相関がある」という場合には、2種類考えられます。「片方の値が高ければ、もう片方の値も高い」か「片方の値が高いとき、もう片方の値が低い」か、です。前者を「正の相関がある」といい、後者を「負の相関がある」といいます。
共分散に「分散」という単語が入っているのは、分散と求め方(公式の形)が似ているからです。
しかし、両者が表しているものは違います。
分散が「データの散らばり具合がどれくらいか」を表しているのに対して、共分散は「2つのデータがどのような性質をもって散らばっているか」を表します。
そして、通常、共分散は相関係数を求める過程として必要なだけで、共分散の値だけをもって、なにかの統計上の証拠とすることはほとんどありません。共分散と相関係数の違いについては、あとでまとめます。
ではいよいよ、共分散・相関係数を求めていきましょう。
先に公式から紹介します。
2変数 について、平均を 分散を とします。
xとyのの共分散 σxy は以下で求められます。
また、xとyの相関係数 r は
で求められます。
以下の値について、共分散や相関係数を求めます。A、B、C、D、Eの5人の数学と物理のある試験の成績が以下の通りだったとします。
実際の実験などで共分散や相関係数を求めるときには、コンピュータを使うのが普通ですが、試験などで共分散や相関係数を求めなければならないときは、以下のような表を書くとよいでしょう。
の列を埋めるために、それぞれの平均を求めます。
これで、4列目、6列目を埋められます。
それぞれの値から、先に求めた平均値を引いて、
となります。
ここで4列目、6列目の合計は、必ず0になります。
0にならない場合には、どこかで計算間違いをしていることになりますので、もう一度計算しましょう。
5列目、7列目は、4列目、6列目をそれぞれ2乗することで求めます。これは、共分散を求めるだけなら必要ありませんが、相関係数を合わせて求めるときに役立ちます。
最後に、4列目と6列目をかけ合わせて、最後の列を求めます。
先に紹介した、共分散の公式は
でした。
表の最後に求めた、「2320」の部分が、
の部分に当たることを確認してください。
ですからこれを、データ数(今回は5人)で割れば、共分散を求められます。
この問題の共分散は
となります。
相関係数は、
ですから、xの標準偏差とyの標準偏差を求めなければなりません。
標準偏差の公式は、
ですが、
の部分は、表の「3666」の部分で既に求められていますので、
です。同様に
ですから、
が相関係数です。
3.相関係数に関する練習問題
次の表は、ある試験のA、B、C、D、E、5人の成績である。
このデータの相関係数を求めよ。
ただし、電卓を用いて、小数点第3位まで求めよ。
【解答・解説】
上記の手順で表を完成させると、以下のようになります。
平均値は、
です。標準偏差は
共分散は
ですから、相関係数は
4.共分散と相関係数の散布図
共分散の単位は、比較する2つのデータによって、さまざまです。
先のように試験の点数同士を比較するならまだわかりやすいのですが、「1日の最高気温とその日の出産人数」などのように、異なる単位同士での比較も可能です
。しかしその場合、「共分散がいくつだから大きい・小さい=正の相関がある・負の相関がある」として良いかわかりません。
つまり、共分散は比較するものによって、数の大きさが変動しやすく、わかりづらい値なのです。
それに対して、相関係数は
-1≦r≦1
となるようにしたものです。
それによって、「1に近いから正の相関が強い」という基準がわかりやすくなります。
先の例では、相関係数が0.987ですから、強い正の相関があることがすぐにわかります。
これは「共分散が464だ」という情報よりもわかりやすいのです。
相関係数と相関については次のように概ね表現されます。
正の相関がある場合は、以下のような散布図になります。
逆に負の相関がある場合は、以下のような散布図になります。
5.相関係数まとめ
最後までご覧くださってありがとうございました。この記事では、相関係数についてまとめました。
相関係数や共分散は、計算自体は比較的簡単ですが計算ミスが許されない範囲となります。
この記事を活用してしっかり理解し、計算ミスをしないように落ち着いて解けるようにしてください。ご参考になれば幸いです。
データの分析についてのまとめ記事が読みたいという方は「データの分析に役立つ記事まとめ~グラフ・公式・相関係数・共分散~」も併せてお読みください。