神戸のデータ活用塾!KDL Data Blog

KDLが誇るデータ活用のプロフェッショナル達が書き連ねるブログです。

不偏分散の謎に迫る(2)〜不偏分散を理解する〜

株式会社神戸デジタル・ラボ DataIntelligenceチームの高木です。

前回の記事では、前提知識となる分散について解説しました。今回の記事では、このシリーズのメインである不偏分散について解説していきたいと思います。

この記事は全3記事にわたるシリーズの2記事目になります。

  1. 不偏分散の謎に迫る(1)〜分散を理解し、不偏分散の存在を知る〜
     データのばらつきを知ることができる分散の基本を確認し、本シリーズのメインの不偏分散を理解するための前提知識を身につけます。
  2. 不偏分散の謎に迫る(2)〜不偏分散を理解する〜
     不偏分散そのものについて理解し、分散と不偏分散の違いを踏まえた適切な使い分けができることを目指します。
  3. 不偏分散の謎に迫る(3)〜n-1で割る理由に迫る〜
     分散と不偏分散において、一般式の違いが生まれる理由を数式を利用して解き明かします。

不偏分散を理解するためには、統計学の基本である標本と母集団の知識が必要不可欠です。早速、具体例を通して理解していきましょう!

標本と母集団

統計学には、標本母集団という概念があります。

例として、日本国民の平均身長を求めることを考えましょう。

値を求めるには日本国民全員の身長のデータを取得する必要があります。しかし、日本国民全員の身長データを集めるなんて現実的ではありませんよね!「全国一斉身長検査」なんて聞いたことありません(笑)しかし、平均身長は求めたい…

そこで役立つのが統計学です!

統計学では、興味のある集団全体の母集団から一部を標本として抽出し、母集団の情報を推測します!

これによって、日本国民の平均身長という実際に調査するのは非現実的なような値でも算出することができます。

他の例としては、テレビの視聴率の調査や、選挙速報などがあります。特に、「選挙速報の当選確実は、全ての票を調べていないのにどうやってわかるのか?」と疑問を持つ方が多い調査ですが、実はこのような母集団と標本の関係が使われているんですね!

推定量

推定量とは、標本を利用して母集団の性質を表す値を推定した統計量(データの特徴を表す値や関数)のことです。この推定量には、「一致性」と「不偏性」という持つべき2つの性質があります。詳しくみていきましょう!

一致性

一致性は、標本におけるサンプル数が大きくなればなるほど、推定量はだんだんと真の母集団のパラメータに近づくという性質です。

具体例で考えてみましょう。
(注)一般に、標本の平均(以降、標本平均)は  \bar{x} 母集団の平均は  \mu で表記されます。

ある母集団から、3つの標本(標本A・標本B・標本C)を抽出したとします。この時、それぞれの標本のサンプル数は \text{標本C} > \text{標本B} > \text{標本A}でした。

この時、サンプル数が一番多い標本Cの平均が最も母集団の平均に近い可能性が高く、サンプル数が一番少ない標本Aの平均が最も母集団の平均に遠い可能性が低くなることが知られています。直感的な理解としては、サンプル数が多い場合と比較してサンプル数が少ない場合は偏って抽出する可能性があり、母集団の平均とかけ離れるイメージです。

一般化すると、標本のサンプル数が大きくなればなるほど、推定量(標本平均)が母集団のパラメータ(母集団の平均)に対して近づいているということですね。このような時に、推定量には一致性があるといえます。

ちなみに、この法則には大数の法則という名前がついています。

大数の法則
標本のサンプル数が多くなればなるほど、標本平均  \bar{x} は母集団の平均  \mu に収束する

不偏性

不偏性は、標本数が多いほど、推定量はだんだんと真の母集団のパラメータに近づくという性質です(各標本のサンプル数は異なっていても構いません!)。

こちらも具体例を通してみていきましょう!

ある母集団から、標本をたくさん抽出したとします。ここで、標本数が1つ・3つ・6つに対しての集団の標本平均に対する平均を考えましょう。

この時、標本数が一番多い6つの集団の平均が最も母集団の平均に近い可能性が高く、標本数が一番少ない1つの平均が最も母集団の平均に遠い可能性が低くなることが知られています。

一般化すると、標本数が大きくなればなるほど、推定量(複数の標本平均を平均した値)が母集団のパラメータ(母集団の平均)に対して近づいているということですね。このような時に、推定量には不偏性があるといえます。

標本の平均と母集団の平均

先程の二つの具体例の中で、標本平均を母集団の平均に対しての推定量とした時に、一致性と普遍性があることを確認しました。これは、標本平均が推定量として持つべき性質を持っていることを示しています。

よって、母集団の平均に対しての推定量は、標本平均であるといえます。

この知識があると、本記事冒頭の例の「日本国民の平均身長を求める」に対しての解決策が分かりますね!日本の全国民という母集団全体のサンプルがなくても、一部を抽出した標本平均が、母集団の平均と言えます。

標本の分散と母集団の分散

母集団の分散に対しての推定量は何が対応するのでしょうか。

平均の場合は標本平均だったので、同様に考えると分散の場合は標本の分散(以降、標本分散)であることが予想できます。しかし、これは誤りです!!

 \text{標本分散} =  \dfrac { \text{標準偏差二乗の合計} }  { データ数 } =  {\dfrac{1}{n} \displaystyle \sum_{i=1}^{n}\left( x_i - \bar{x} \right)^{2}}

実は標本分散を母集団の分散の推定量としたときには、一致性を持つのですが不偏性を持ちません。(どうして?と思われる方は是非、次回の記事をご覧ください。この部分の証明をしていきます。)

では、何を母集団の分散の推定量とすれば良いのでしょうか?答えは、本シリーズのメイン、不偏分散です!!

 \text{不偏分散} =  \dfrac { \text{標準偏差二乗の合計} }  { データ数 - 1 } =  {\dfrac{1}{n - 1} \displaystyle \sum_{i=1}^{n}\left( x_i - \bar{x} \right)^{2}}

不偏分散を母集団の分散の推定量とすると、一致性と不偏性どちらの性質も持つことになります。「不偏分散」という名前は不偏性があることに由来しています!

標本分散は常に不偏分散より小さい

標本分散と、不偏分散にはそれぞれの定義式から以下の計算式のような関係が成り立ちます。

\begin{align} \text{標本分散} &= \dfrac {n - 1 } { n } \times  {\dfrac{1}{n - 1} \displaystyle \sum_{i=1}^{n}\left( x_i - \bar{x} \right)^{2}} \\ &=  \dfrac {n - 1 } { n } \times \text{不偏分散} \\ \end{align}

ここで  \dfrac {n - 1 }  { n } について考えましょう!ここでの  n標本におけるサンプル数を指すので、常に自然数  (n = 1, 2, 3, \cdots) になります。

この条件のもとでは、 \dfrac {n - 1 }  { n } は常に1より小さくなりますよね。直感でわからない人は、具体的に数字を入れてみましょう! n=1 としたときは  0 n=2 としたときは  \dfrac {1}  { 2 } n=3 としたときは  \dfrac {2 }  { 3 }となるので、常に1より小さくなることがわかります。

すなわち、標本分散は不偏分散に常に1より小さい数が掛けられるので、標本分散の方が常に値が小さいことがわかります。果たして、これはなぜでしょうか。

不偏分散の感覚を直感で捉える

標本分散の方が常に値が小さいことを、数式ではなく直感で捉えてみましょう!

具体例として、母集団が正規分布に従っている場合を考えます。正規分布を初めて聞かれる方もいらっしゃるかもしれませんが、世の中の多くの事象がこの分布に従うとされている最も一般的な分布であり、平均を表す中央部分が最も高く、両側に向かっていくにつれて低くなっていくような形をしています。今回は、そんな分布があるんだなという認識で大丈夫です!

母集団から、標本を抽出する時をイメージしてみます。真ん中の部分からはたくさん抽出するであろうと予測できる一方で、端の部分からの抽出は真ん中の部分からのものと比較すると少なそうですよね!(分布の縦軸は、データの頻度を表しています)

次に、左側の母集団と右側の標本の分布の散らばり(赤色の両矢印)を比較してみてください。どちらが大きいでしょうか?明らかに、母集団ですね。あまり抽出されない両側の部分が、標本では抽出されにくいのでばらつきも小さくなっています。

ここで、前回の記事の内容を思い出してください。分散とは、データの散らばりに対応する値でした。よって、散らばりが少ないということは分散も少ないということです!これで、標本分散が不偏分散より小さいことが直感的に理解できましたね!

まとめ:不偏分散とは?

最後に不偏分散についてまとめておきましょう。

 \text{不偏分散} =  \dfrac { \text{標準偏差二乗の合計} }  { データ数 - 1 } =  {\dfrac{1}{n - 1} \displaystyle \sum_{i=1}^{n}\left( x_i - \bar{x} \right)^{2}}

不偏分散は、上記の式で計算できる値であり、母集団に対する一致性と不偏性を満たした推定量になります。この値と標本分散を比較すると、常に標本分散の方が小さくなります

本記事では標本と母集団の説明から始まり、一通りの不偏分散に関しての説明を行いました。これで、通常の分散(標本分散)と不偏分散を区別して使い分けることができますね!全てのデータが揃っているときは通常の分散を利用し、データが一部しかない場合は不偏分散を利用します。

  • 通常の分散を使う例:A君の1年間のテストの点数の分散

  • 不偏分散を使う例:日本国民の年齢の分散

しかし、途中で出てきた「標本分散は不編性がない」ことに対する説明や、前回の記事で触れた「不偏分散が n - 1で割られる」ことに対する説明はまだできていません。次回の記事では、数式を扱いながらこの疑問を解決していきます。

高木裕仁

データインテリジェンスチーム所属
データサイエンティスト。自然言語処理を中心としながら、その他の非構造化データや構造化データに関しても偏りなく扱います。こちらのブログでは、自然言語処理に関するトピックやAzureを中心としたクラウドを利用したデータ活用に関してのトピックを中心に様々な記事を発信していきます。