VAR.P/VAR.S(バリアンス・ピー/エス)関数の使い方
VAR.P(バリアンス・ピー)関数のPは、ポピュレーション(母集団)を意味し、母集団に対しての分散を求めます。
VAR.S(バリアンス・エス)関数のSは、サンプル(標本)を意味し、標本に対して、母集団の分散を推定する分散を求めます。
【構文】
=VAR.P(数値1, 数値2……)
=VAR.S(数値1, 数値2……)
【使用例】
- =VAR.P(B2:B100)
セルB2~B100までの数値データの分散を計算します。 - =VAR.S(B2:B100)
セルB2~B100までの数値データで、母集団を推定する分散を計算します。
[char no=”1″ char=”さえちゃん1”]データのばらつき度合いを示す「分散」って、正しく説明するの難しいですよね。使用例では「分散」とだけ記載しました。この関数の説明のあと、分散に関して詳しく説明するので、ワンポイントアドバイスで母分散・標本分散・不偏分散についてしっかり学習してください。先に関数説明を行います。[/char]
関数説明
極端ではありますが、6人のテストの結果の分散を求めてみましょう。
まず、このテストがたった6人しか受けていない母集団の場合、VAR.P関数を使います。
VAR.P関数またVAR.S関数はどちらも、[数式]タブ→関数ライブラリの[その他の関数]→[統計]の中にあります。
まずは、VAR.P関数で分散を求めます。
答えは「63.6」となりました。これが母集団としたときの分散の値です。
続いて、このデータを標本として扱った場合、または、各都道府県のトップクラスの人間を1名ずつ選出したテストの場合です。
VAR.S関数の場合の値です。引数ダイアログは同じですね。
結果は、VAR.S関数のほうが分散の値は大きくなりました。
このように、VAR.S関数は母分散を標本から求めた推定値なので、必ず「VAR.P<VAR.S」の関係が成り立ちます。
推定値は大きく度合いを出力し、母集団に近づいていくといった動きが想像できますよね。
また、分散の値は以下の手順で求めることができます。
① 得点の平均を求める
② 各得点との距離を求める(偏差)
③ 偏差は合計すると「0」になってしまう性質あり。
④ そのため、偏差を2乗し、負の数を取り除きます。
⑤ この偏差の2乗、平方偏差の平均がVAR.P関数と同じ値になります。
⑥ VAR.S関数は分母の個数を-1する値なので…
AVERAGE関数を使わず、データ件数から-1した数で割り算をします。これでイコールになりました。
データのばらつき度合いを示す「分散」ですが、結果的にこの数値だけでは偏差を2乗した平均の値なので、実際には数が大きすぎて使うことができません。
そのため、この値を√(ルート)して戻した値が標準偏差として使われます。分散のデータをレポートなどで見ることはないでしょう。
この標準偏差に関しては、STDEV関数で触れていきます。
さえちゃんのVAR.P VAR.S関数ワンポイントアドバイス
[char no=”4″ char=”さえちゃん3”]母分散・標本分散・不偏分散をきちんとまとめてくれているサイトってなくて、ちょっと自分の言葉でサクっとまとめてみたいと思います。黙読だとわからなくなっちゃうので、以下、音読してみてくださいな。[/char]
母集団の分散は「母分散」と呼びます。
母集団のサンプルから出力する分散を「標本分散」といいます。
この「標本分散」の場合、標本数を増やしていけば、母分散に値は近づいていくことは想像できますよね? そのため「標本分散」で、サンプル数が多いデータの場合は、数式を取り扱うデータがたとえ標本だとしても、VAR.P関数を使って求めたほうが母分散に近づいた値を出力できます。
標本数に応じて、VAR.P関数を使ってください。
また、
- 標本数が母集団と比べて十分ではない場合
- 母集団から標本のグループをいくつか取り出した場合
の2ケース。
1の場合、VAR.P関数を使えば「標本分散」は求められますが、この分散は母集団には近づかないということが証明されています。
2の場合も同様で、例えば大量生産をする工場で時間別にサンプル数を10点ずつ、6組取り出したというようなケースです。こういった標本から分散を求める場合も、VAR.P関数で求めると母分散には近づかない、という証明がされています。
それぞれの証明に関しては難しい数式を使うので、ここではそういうものなんだ、という理解で十分です。そこで、VAR.P関数内の数式を補正した、VAR.S関数で分散を求めていきます。
このVAR.S関数で出力される分散のことを「不偏分散」といいます。
標本数が少ないときや、この工場の例のように標本数を何セットか抽出した、というケースにおいてはVAR.S関数を使ってくださいね。
データ分析業務をするときは、VAR.S関数を使えばだいたい問題はないかなという印象です。標本数が母集団に近づいているほど多い、または母集団を扱うなんて機会は、あまりありませんからね。
関数ステータス
関数ライブラリの種類
統計
数式の構文
=VAR.P(数値1, 数値2……)
=VAR.S(数値1, 数値2……)