共分散とは?求め方と公式について解説!相関係数についての説明も!
数学Ⅰで学習するデータの分析では、平均値や分散などについて学習します。
平均値や分散は、ある1つのデータ群について、その特徴を表すような値(代表値)です。
1つのデータ群についての分析が進んでくると、2つ以上のデータ群について調べたい、という欲求が出てきます。
例えば、数学の試験というデータ群Aと英語の試験というデータ群Bについて、数学の試験結果が良いときに、英語の試験結果が良い傾向があるか、悪い傾向があるか、あるいは関係ないか、などです。
このようなことを調べたいときに指標になるのが、共分散や相関係数といった値です。
この記事では、共分散についてまとめます。
【PR】勉強を効率的に継続して、志望校に合格したい方必見!
↓無料ダウンロードはこちら↓
1.【共分散を学ぶ前に】分散や標準偏差の復習
数学Ⅰで学習する「データの分析」では、データの代表値や箱ひげ図、散布図などを使って、データ群が持っている性質を分析していきます。
まずは、分散や標準偏差について簡単に復習してゆきましょう。
分散については以下の記事にも詳しく解説されています。
⇒【センター試験頻出】分散とは?求め方や意味を徹底解説!
分散は、データの代表値の一つであり、データの散らばり具合を表す値です。
統計学では、データの代表値として平均値と分散を選ぶことが多くありますから、必ずマスターしておきましょう。
「データの散らばり具合」というと、どのように数値化すればよいか悩むかもしれませんが、「各データが平均値とどれだけ離れているかを計算する」と言い換えればイメージしやすいでしょう。
データ群x1,x2,x3,…xnの平均値を
分散を計算するためには、あらかじめ平均値を計算しておく必要があります。
それぞれのデータが、平均値からどれだけ離れているかは、
で計算できます。これを平均して
が分散だ、と言いたいところですが、これでは1,3,5,7,9というデータと、
3,4,5,6,7というデータの分散を同様に評価してしまいます。
これは、平均より大きいデータと平均より小さいデータを区別してしまっているからです。
「平均からどれだけ離れているか」を評価するには、その大小にかかわらず評価する必要があります。
ですから、それぞれのデータの差を2乗して、
としてこのn個のデータの平均をとります。
これが、データの分散でS2で表します。
ギリシャ文字σ(シグマ)を使って、
分散の値が大きいほど、データが散らばってるということになります。
分散はそれぞれのデータを2乗していますから、単位を考えると、元のデータと次元が異なります。
そのため、分散の正の平方根をとった
という指標が存在します。
これを標準偏差といいます。これもシグマを使ってσXと表すことがあります。
2.共分散とは?グラフ付きでわかりやすく解説
分散が1つのデータ群についての値であるのに対して、共分散は2つのデータ群についての値です。
例えば、今月の大阪府の最高気温と今月の東京都の平均気温のデータがあったときに、この2つのデータの関係を調べるのが、共分散(や相関係数)という値です。
大阪府の最高気温が高いときに、東京都の最高気温が高い傾向にあるのか、最高気温が低い傾向にあるのか、あるいは全く関係ないのか、そのようなことを表す値です。
「共分散」という名前が付いているのは、先に復習した分散と求め方が似ているからです。
しかし、後でまとめますが、分散は「データがどの程度の量散らばっているか」を表すのに対して、共分散は「2つのデータが、どのような性質をもって散らばっているか」を表します。
2変数
先の例で言えば、x₁は大阪府の1日の最高気温、 y₂は同じ日の東京都の最高気温です。
それぞれの変数の平均値を
となります。これらの差の積をとると、
が共分散の定義です。
共分散は
この定義からわかるように、共分散は「データのどの程度散らばっているか」を表すものではありません。
変数xと変数yの平均値との差を掛けていますから、もしも値が大きくなったとしても、その数がx方向に散らばりが大きいのか、y方向に散らばりが大きいのかを判断できないからです。
また、分散を求めたときのように、2乗をしていないので、平均より大きい、小さいで相殺してしまいますから、どれくらい散らばっているかを評価できません。
では、共分散は何を表している指標なのでしょうか。
対応する2変量のデータについて、1つのデータを平面上の点として表現したようなグラフを散布図といいます。
データを散布図で表すと、いくつかのタイプに分けることができます。例えば、
上記のように一か所に固まっているタイプ(①)や
変数xが大きくなれば、変数yも大きくなるタイプ(②)、
逆に、変数xが大きくなれば、変数yが小さくなるタイプ(③)、
いくつかのグループに分かれるようなタイプ(④)、
曲線に沿って点が分布するようなタイプ(⑤)などです。
これら以外にも散布図の特徴はありますし、複数が当てはまるような散布図もあります。
例えば、例に挙げた④のタイプは、見方によれば③にも分類できるでしょう。
共分散は、2変数の「データの平均値との差」の積を平均したものです。
例えば②のデータを
のように4つの領域に分けます。Ⅰの領域にデータがあるとき
Ⅲの領域にデータがあるとき
ですから、ⅠまたはⅢの領域にデータがあれば、
となります。Ⅱの領域にデータがあるとき
Ⅳの領域にデータがあるとき
ですから、ⅡまたはⅣの領域にデータがあれば、
となります。
共分散はこの平均ですから、平均的にⅠまたはⅢの領域にデータが集まっているなら正の値をとり、平均的にⅡまたはⅣの領域にデータが集まっているとき、負の値をとります。
つまり、データが散布図②のように表されるなら正の値になり、データが散布図③のように表されるなら負の値になります。
また、数の絶対値が大きいほど、その傾向が顕著になり、絶対値が小さいときには、散布図②や③のような傾向がないことになります。
3.共分散と相関係数の関係
共分散の値は、データの桁数に左右されてしまいます。
同じ種類のデータを比較する場合は問題ありませんが、違う変量のデータを比較するときに、数値を見ただけではどれくらいの傾向があるのかがわかりにくくなります。
平均気温同士の関係を表すときと、大都市の人口のような大きい値を表すものでは、同じ数で表すことができません。
そこで、同じ桁数で表すことができるように標準化したい、という欲求がでてきます。
そうして考えられたのが、相関係数です。
共分散を、どんなデータでも-1から1の間の値をとるように調整したものが相関係数です。
相関係数については以下の記事でも詳しく解説しています。ぜひ参考にして下さい!
⇒データの分析で頻出の相関係数って?求め方を例題付きで徹底解説!
相関係数が-1に近いほど散布図③の傾向が強く(「負の相関がある」といいます)、1に近いほど散布図②の傾向が強い(「正の相関がある」といいます)といえます。
対応のある2変数
で表されます。
4.【共分散の理解を深める】相関係数の練習問題
ここでは、共分散をマスターするための練習問題を解いていきます。
練習問題
次のデータについて、共分散と相関係数を求めよ。ただし、電卓を使用すること。
(あるクラスの物理の試験と日本史の試験結果)
物理 | 日本史 | |
A | 89 | 47 |
B | 40 | 70 |
C | 99 | 40 |
D | 32 | 76 |
E | 66 | 48 |
F | 54 | 61 |
G | 34 | 97 |
H | 43 | 79 |
I | 84 | 34 |
J | 29 | 68 |
(以下に解答と解説)
↓
↓
↓
解答・解説
共分散を求めるときには、非常に多くの計算をする必要があります。
ですから、以下のような表を書くと整理しやすいでしょう。
多くの場合は手計算では計算しきれないので、電卓の使用が許可されるか、必要な数字が与えられます。
2列目3列目から、物理の平均点は57点、日本史の平均点は62点です。
この表を書くことで、計算ミスの発見もできます。
例えば、4列目と6列目の合計は必ず0になりますから、そうならない場合には、どこかで計算ミスをしていることになります。
5列目から、xの分散、標準偏差は
7列目から、yの分散、標準偏差は、
8列目から、共分散は
です。
共分散の値が負であり、絶対値がそれなりに大きい値ですから、負の相関があると考えられます。
つまり、このクラスにおいて物理の点数が良い人は、日本史の点数が悪い傾向がある、ということです。
しかし、先にも言ったように、何をもって「大きい」とするかが不明瞭なため、共分散は相関を表す基準としては使いにくいのです。
そのため、関係を調べるときには、相関係数を使うことが多いです。
相関係数 r は
となり、-1に近い値をとっていますから、強い負の相関があることがわかります。
5.共分散のまとめ
最後までご覧くださってありがとうございました。
この記事では、共分散についてまとめました。
共分散は、共分散自体を問題として聞かれる可能性は低いですが、データの分析範囲ではマスターすることは必須となります。
この記事を活用して、データの分析を得点源としてください。
データの分析についてのまとめ記事が読みたいという方は「データの分析に役立つ記事まとめ~グラフ・公式・相関係数・共分散~」も併せてお読みください。
記事の内容でわからないところ、質問などあればこちらからお気軽にご質問ください。
中の人がお答えします。