分散の真実                               戻る

 統計の分野で、よく使われる統計量としては、平均、分散、標準偏差が有名どころで、こ
れらの数値から資料のおおよその雰囲気が伝わる。

 標準偏差は分散の平方根なので、分散が求まれば標準偏差は直ちに求められる。

 平均は、すべての資料の数値を加えて資料数で割れば直ぐに求められる。一般の方に
最も馴染みがある統計量だろう。

 それに対して、分散は、

     偏差(資料の数値と平均の差)の2乗の平均

ということもあり、何となく計算することが億劫になりそうな...雰囲気。

 最近、この分散に関して、次のような計算法があることを知った。

 この方法を用いて、暗算で分散でも求めてみようかという気にさせられるから不思議だ。

例 データ数が2個の場合  データ : x1 、x2

    平均 m=(x1+x2)/2

    分散 V={(x1−m)2+(x2−m)2}/2=(x1−x22/4

例 データ数が3個の場合  データ : x1 、x2 、x3

    平均 m=(x1+x2+x3)/3

    分散 V={(x1−m)2+(x2−m)2+(x3−m)2}/3 が定義であるが、

      分散=(2乗の平均)−(平均の2乗)

     という公式を用いる方が計算がスッキリするだろう。

     すなわち、 V=(x12+x22+x32)/3−{(x1+x2+x3)/3}2

             =(2x12+2x22+2x32−2x12−2x23−2x31)/9

             ={(x1−x22+(x2−x32+(x3−x12}/32

 この公式を知っていれば、たとえば、データ : 2 、4 、5 の分散は暗算で求められるか
も...。
       すなわち、 V=(4+1+9)/9=14/9

(コメント) 平均の計算を経由せず、データから直に求められる点が素晴らしいですね!

 もっと、データの個数を増やそう。

例 データ数が4個の場合  データ : x1 、x2 、x3 、x4

 V=(x12+x22+x32+x42)/4−{(x1+x2+x3+x4)/4}2

  =(3x12+3x22+3x32+3x42−2x12−2x13−2x14−2x23−2x24−2x34)/16

  ={(x1−x22+(x1−x32+(x1−x42+(x2−x32+(x2−x42+(x3−x42}/42


 上記の計算から、一般化することは容易だろう。

 すなわち、
         
となる。

(コメント) 分散の計算式から「平均」の言葉が消えて、こんなにも分かりやすい式になると
      は!始めから「この式で分散を求めます」と言ってくれた方が統計嫌いが減らせる
      かも...。

 ただ、この公式は、データの個数が増えると計算量は2乗に比例して増大するので、あま
りデータ数が多い場合は実用的ではない。せいぜい5個ぐらいまでか...な?

例  データ : 4 、6 、 3 、6 、4 の分散を求めよ。

  V=(4+1+4+0+9+0+4+9+1+4)/25=36/25

  なお、参考までに、標準偏差は分散の平方根なので、 6/5 となる。


(追記) 平成26年1月18日付け

 分散は、偏差(資料の数値と平均の差)の2乗の平均 で計算されるが、なぜ平均との偏
差を考えるのだろう。今までは、平均からの散らばり方を数量化するためと思っていたが、
最近、別な意味があることを知った。

 例えば、3個のデータ a、b、c を考え、その平均をmとする。

  関数 F(x)={(a−x)2+(b−x)2+(c−x)2}/3 とおく。このとき、

 F(x)={3x2−2(a+b+c)x+a2+b2+c2}/3

    ={x−(a+b+c)/3}2−(a+b+c)2/9+(a2+b2+c2)/3

    ={x−(a+b+c)/3}2+(2a2+2b2+2c2−2ab−2bc−2ca)/9

    =(x−m)2+{(a−b)2+(b−c)2+(c−a)2}/9

 よって、関数 F(x)は、x=mのとき最小で、最小値は、

  F(m)={(a−m)2+(b−m)2+(c−m)2}/3={(a−b)2+(b−c)2+(c−a)2}/9

 このように計算を進めると、なぜ分散の定義で平均が登場するのかとか、上記の平均を
使わない計算公式の意味が明確になってくる。


(追記) 標準偏差についての話題を、当HPがいつもお世話になっているHN「YI」さんより頂
    いた。(平成26年5月28日付け)

 3個の自然数 a、b、c があるとき、a、b、c の標準偏差は多くの場合無理数になります。
a、b、c の標準偏差が、0以外の整数になることはあるでしょうか。

 a、b、c が 100以下のときに、解はありませんでした。

 平均を求めて、偏差を出して、・・・と計算が長く、証明は大変そうな気がします。


 DD++さんからのコメントです。(平成26年5月28日付け)

 ないと思います。以下で証明できていると思いますのでご確認ください。

 a、b、c の標準偏差をσとすると、σ2=(a2+b2+c2)/3-(a+b+c)2/9 で、これを整理、変形
して、
    9σ2=(a-b)2+(b-c)2+(c-a)2  …… (1)

 (1)を満たす自然数 a、b、c およびσが存在しないことを背理法で証明する。

 いま、σが最小の自然数になる場合を考える。

(a-b)+(b-c)+(c-a)=0 より、(a-b)、(b-c)、(c-a)は、1つが偶数で2つが奇数、または全て偶数。

仮に、(a-b)、(b-c)、(c-a) の1つは偶数で2つは奇数だとすると、

 (a-b)2+(b-c)2+(c-a)2≡2 (mod 4) となり、9σ2≡0 または 1 (mod 4) と矛盾。

仮に、(a-b)、(b-c)、(c-a) が全て偶数 かつ a が偶数とすると、b も c も偶数、σも偶数で、

 a=2a'、b=2b'、c=2c'、σ=2σ' とおくと、9σ'2=(a'-b')2+(b'-c')2+(c'-a')2 かつ σ'<σ

これはσの最小性に矛盾。

仮に、(a-b)、(b-c)、(c-a) が全て偶数 かつ a が奇数とすると、b と c は奇数で、σは偶数

 a=2a'-1、b=2b'-1、c=2c'-1、σ=2σ' とおくと、9σ'2=(a'-b')2+(b'-c')2+(c'-a')2 かつ σ'<σ

これはσの最小性に矛盾。

 よって、(1)を満たす自然数 a、b、c およびσは存在しない。すなわち、3つの自然数の標
準偏差が自然数になることはない。


 らすかるさんからのコメントです。(平成26年5月28日付け)

 DD++さんとちょっと違う証明です。途中までは、DD++さんと同じ計算になりますので省略し
ます。

 (標準偏差)=√{(a-b)2+(b-c)2+(c-a)2}/9 において、a-b=u、b-c=v とおくと、

c-a=-(u+v) だから、(標準偏差)=√{u2+v2+(u+v)2}/9=√{2(u2+v2+uv)}/9

 u、v のいずれかが奇数だと、u2+v2+uv が奇数となり不適。

よって、u と v は、両方とも偶数なので、両方とも2で割り、√の外に2を出すことができる。

この操作で、u、v のいずれかが奇数になると、u2+v2+uv が奇数となり不適なので、u、vは

何回割っても偶数、すなわち、u=v=0。

 従って、標準偏差が0以外の整数になることはない。


(コメント) なるほど...。


 YI さんからの続報です。(平成26年5月31日付け)

 数を増やして、4つの数の標準偏差について考えてみると、何らかの n で、

  n-s 、n-s 、n+s 、n+s

の標準偏差は明らかに、s になるので、自明解として除外。すると、以下のようになります。

 3:1 3 3 9  、5:1 7 9 15  、6:1 5 5 17  、7:1 3 9 19  、9:1 1 7 23  、10:1 13 17 29
11:1 1 3 27  、12:1 9 9 33  、13:1 3 19 33  、14:1 5 17 37  、15:1 11 11 41
17:1 3 9 43  、18:1 1 13 45  、19:1 1 23 47

と続き、作れないのは、1、2、4、8、16、32、64、・・・ と、2の累乗になるようです。

(ちなみに、これらは見つかった中で合計が一番小さいものを選んでいます。)


 YI さんからのコメントです。(平成26年6月1日付け)

 64も作れないことを確認しました。