平均から2シグマ以内に75パーセント以上のデータがある|チェビシェフの定理

今回は統計で登場する、チェビシェフの定理(あるいはチェビシェフの不等式)について扱います。この定理によれば、どんな分布であっても、平均\displaystyle \mu からの距離が標準偏差\displaystyle \sigma 2つ分より小さい開区間(\mu-2\sigma, \mu+2\sigma) に、データが 75 %以上あることが示されます。では、ちょっと具体例を持ってきます。

 :20180711103146j:plain

上の分布は、変量 \displaystyle x_i=i (0\leqq i\leqq 10)に対してそれぞれの度数\displaystyle f_i \displaystyle  0,1,1,2,4,5,3,2,0,2,0で、平均\mu=5 標準偏差はぴったり\displaystyle \sigma=2 となっています。

さて、上の分布で開区間(\mu-2\sigma, \mu+2\sigma) にあるデータの度数の和は、ちょうど変量x_1=1 x_9=9 がこの区間に入らないことに注意すると、f_2+f_3+\cdots +f_8 =17であり、全体の17/20=85%ということになります。

 

 データ数20,平均5で変量が0〜10の範囲で、もう少し開区間(\mu-2\sigma, \mu+2\sigma) 内のデータを減らせないかと作ってみたのが次の分布です。

 :20180711114633p:plain

平均\mu=5 標準偏差 \sigma=\sqrt5(5-2\sqrt5 , 5+2\sqrt5 )=(0.53,9.47) 内のデータの割合は16/20=80 %

 

チェビシェフの定理が示す下限75%をもつ手頃な分布の構成は今後の宿題にさせてください(この記事内に載せます)。

 

では定理の証明に移ります。分散の定義の和を区間の内側・外側に分けて外側のみを残して評価するというものです。

 

チェビシェフの定理(離散版)

平均値が\mu 標準偏差 \sigmaの分布とする。任意の正数 kに対し、”平均 \muから距離がk\sigma “より小さいデータ、すなわち

 \displaystyle \mu-ks\lt x_i \lt \mu+ks

を満たすデータx_i の度数の和は、全度数の\displaystyle 1-\frac{1}{k^2} 以上ある。

 (証明)

分散の定義

 \displaystyle \sigma^2=\frac{1}{N}\sum_{i=1}^{n}(x_i-\mu)^2f_i

区間\displaystyle (\mu-k\sigma, \mu+k\sigma) にある内側のデータと区間\displaystyle (\mu-k\sigma, \mu+k\sigma) にない外側のデータの和に分ける。外側のデータについては\displaystyle (x_i-\mu)^2\geqq (k\sigma)^2 であるから、

 \displaystyle \sigma^2=\frac{1}{N}\sum_{i=1}^{n}(x_i-\mu)^2f_i =\frac{1}{N}\sum_{\mbox{内側}}(x_i-\mu)^2f_i+\frac{1}{N}\sum_{\mbox{外側}}(x_i-\mu)^2f_i

  \displaystyle \geqq \frac{1}{N}\sum_{\mbox{外側}}(x_i-\mu)^2f_i\geqq \frac{1}{N}\sum_{\mbox{外側}}(k\sigma)^2f_i=k^2\sigma^2\frac{1}{N}\sum_{\mbox{外側}}f_i

 すなわち

 \displaystyle \frac{1}{N}\sum_{\mbox{外側}}f_i \leqq \frac{1}{k^2}

となる。外側のデータの割合が\displaystyle \frac{1}{k^2}以下ということなので、内側のデータの割合は\displaystyle 1-\frac{1}{k^2}以上、すなわち

 \displaystyle \frac{1}{N}\sum_{\mbox{内側}}f_i \geqq 1-\frac{1}{k^2}

が成立する。(証明終)

 

余裕があるときに連続版の証明もやっておきます(\displaystyle \sum \displaystyle \int に変えて同様の計算をすればOK)。

 

なお、データ作成時に以前公開したエクセルファイルを使っています。簡単に度数分布表を作ることができますので興味のある方はチェックを。

度数分布表と箱ひげ図が一瞬で作れるエクセルファイル作ったよ – 数学と高校教師

 

 

では今回はこの辺で。