小学生でも分かる正規分布の話(4/4)
10分でヒストグラムと正規分布カーブを描く方法

2018/1: 発行


目次


  1. はじめに
  2. 概要
  3. 作成手順
  4. 応用
  5. 標準偏差とサンプル標準偏差の違い
  6. まとめ


1. はじめに


お待たせしました。

小学生でも分かる正規分布の話の最終回です。

正規分布と標準偏差がある程度分かってくると、身近にあるデータを使って正規分布を使ってみたいとウズウズされているのではないでしょうか。

あるいは、明日のプレゼンテーションに間に合わせるために、一刻も早く正規分布のカーブを作りたい方もいらっしゃるかもしれません。

という訳でここでは、エクセルを使って、下にある(前章でお見せした)ヒストグラムとそれに対応した正規分布カーブの描き方をお伝えしたいと思います。


ヒストグラムとそれに対応した正規分布カーブ

エクセルの使い方さえご存じであれば、それこそものの10分で作成できますので、是非試してみて下さい。


2. 概要


それでは早速作成に取り掛かりましょう。

先ず使用するデータは、第1章で説明しました以下(左20人の人時計)のデータです。

表1
No. 時間(秒)
1 23
2 23
3 22
4 24
5 22
6 19
7 21
8 22
9 22
10 23
11 21
12 23
13 22
14 20
15 22
16 24
17 24
18 21
19 20
20 22

また正規分布で使用するエクセル関数は、NORM.DIST(データ,平均値,標準偏差,FALSE )です。

この関数の中に、これまた前章で説明しました以下の複雑な式が入っているという訳です。


くどい様ですが、こんな難しい式は忘れて頂いて結構です。


3. 作成手順


それでは具体的な作成方法を、順を追って説明していきましょう。


①先ずエクセルを開いて、下の表1を作ります。



20個のデータは前述の表をコピーするか、手入力しても2桁の数字ですので1分も掛からないでしょう。

なおこの時、入力するセルの位置が、上の表とずれたりしない様に注意してください。

またいきなり自分のデータを使うと、途中の間違いに気が付かない可能性がありますので、先ずは上と同じデータを使ってみて、本書と同じ結果になるか確認してみて下さい。


②次に20個のデータの平均値と標準偏差を求めます。


具体的には、D24とD25のセルに、上の表にある式”=AVERAGE(D4:D23)”と”=STDEV.S(D4:D23)”を打ち込むだけです。

そうすると、D24のセルに平均値の22.0が、D25のセルに標準偏差の1.376が表示されます。


③次に同じ様に表2を作って、度数(発生頻度)と正規分布の値を求めます。


具体的には、F4のセルに18.0と入力して、0.2飛びで(上の表2では23.2秒までしかありませんが)26秒まで入力します。

次にG4のセルに”=COUNTIF(D$4:D$23,F4) ”と入力して、オートフィルで26秒まで埋めます。

次にH4のセルに” =NORMDIST(F4,$D$24,$D$25,FALSE)”と入力して、オートフィルで26秒まで埋めます。

最後にI4のセルに”=H4*25”と入力して、同じ様にオートフィルで26秒まで埋めると表の完成です。

なお正規分布の値(G列の値)をそのままグラフにすると、(正規分布の値は、全部足すと1にしかならない小さな値なので)値が小さくて下の横軸(X軸)に張り付いてしまいますので、ここでは度数のグラフとうまく重なる様に正規分布の値を25倍しています。


④表2が完成したら、これをグラフにします。


時間を横軸にして、度数を棒グラフ、正規分布×25を折れ線グラフにして一つのチャートにすれば、前述のヒストグラムの出来上がりです。


簡単でしょう。

あとはデータをご自分のものに変更するだけです。



4. 応用


正規分布のグラフが完成すれば、以前紙とハサミでやった事を、計算で何でも求める事ができます。

例えば19秒未満の発生率を求め様とした場合、18秒~18.8秒の正規分布である0.004251~0.019435を足すと0.0533となり、それを正規分布の総和(この場合5)で割れば1%(0.0106)となります。

ところで、先程正規分布の総和は1になると言ったのに、今回の総和は5になりました。

それは正規分布のカーブを滑らかにするため横軸を5倍に広げたため、山の面積(正規分布の総和)が5倍になったためです。

ですので、発生率を求める場合、今回の様に毎回正規分布の総和を求めるのが無難です。


5. 標準偏差とサンプル標準偏差の違い


以上で終わりとしたい所ですが、最後にどうしてもお伝えしておかなければいけない事があります。

前項で標準偏差を求めるのに、エクセル関数のSTDEV.Sを使いましたが、これはサンプル標準偏差(もしくは標本標準偏差)と呼ばれ、今までにご説明した標準偏差(エクセルの場合、STDEV.P)とは僅かに異なります。

では何が違うのかと言えば、下にある2つの式を見て頂ければ一目瞭然でしょう。

 
標準偏差(左) と  サンプル標準偏差(右)の式

左が今までお話した標準偏差の式なのですが、これは偏差を二乗した合計をデータ数で割っていたのに対して、右のサンプル標準偏差の式はデータ数から1を引いた数で割っています。

データ数を1個減らしたとなると、その背景には何かとんでもなく奥深い理由が潜んでいると思われる事でしょう。

ところがそれほど深い理由ではありません。

むしろ笑ってしまうほど簡単です。

実はサンプルで抜き取ったものから、全体像を推測する場合、通常の標準偏差を使うと実際より小さい値になります。

例えば全部で100個ある人時計の標準偏差が5だとすると、その中の10個を抜き出した場合の標準偏差は5よりも小さい値になってしまうのです。

自然界の摂理ですので、人間が考えた式と多少乖離するのは止むを得ない事かもしれません。

この補正をするために、手っ取り早くサンプル数から1を引いているのです。

早い話が現物合わせの補正をしているのです。

このため、場合によっては1ではなく、0.9や1.1の方が良いときもあるのですが、国際標準とも言えるエクセルの関数にあるぐらいですので、一般的には1を引くと思って頂ければ十分です。

では1を引かない標準偏差は何に使うかといえば、全体のデータが全てある(分かっている)場合です。

通常はサンプルから全体を推測するため、現実的にはこのサンプル標準偏差しか使わないと思って頂いて構いません。

なおこの場合の記号は、σではなく、サンプル(sample)の頭文字である s を使います。


まとめ


これで正規分布に関する疑問点は、全て解消されましたでしょうか?

それでは最後に全体のまとめです。(①~⑤は前章からの引き継ぎです)

①正規分布とは、ある条件下で得られたバラツキのある事象の発生頻度が、左右対称の釣鐘状になる自然現象を指す。

②正規分布は自然界における多くの事象に見られる現象である。

③正規分布を知る事で、偶発的に発生する不良率や偏り、バラツキの量を知る事ができる。

④標準偏差とは、沢山あるデータ達が中心からどれくらい離れているかのバラツキ具合を示す指標である。

⑤正規分布の式は、標準偏差と平均値を使って何とか自然界の摂理とも言える正規分布のカーブを表そうと、何百年も前から多数の数学者達が研究に研究を重ねて行き着いた結果である。


⑥正規分布のカーブは、エクセル関数のNORM.DISTを使って簡単に求める事ができる。

⑤なおサンプルから全体を求める場合、標準偏差(σ)ではなくサンプル標準偏差(s)を使う。


ヒストグラムに正規分布のカーブを乗せてやれば、それだけで見栄えが良くなるだけでなく、不良率や偏りやバラツキの程度が分かりますので、是非試して頂ければと思います。

本書がお役に立てば幸いです。




10分以内にヒストグラムと正規分布カーブを描く方法(4/4)

戻る

1分で分かる正規分布の式の意味
(3/4)

次へ

小学生でも分かるパワーとエネルギーの違い

関連記事

デシベル(dB)の話


不確かさの話


エントロピーの話


正規分布の話



ご意見、ご感想等ありましたら是非こちらに。
Your response would be highly appreciated.

新着情報




ホーム頁へ戻る

サイト紹介


ちっとも面白くない技術的な話を、少しでも分かり易く解説する様努力しています。

役立つ情報が満載ですので、もし宜しければ珈琲でも飲みながらお楽しみ下さい 。


▼ 1. Torque and Horse Power

2. Automobile

3. Wheel Alignment

4. Security Area

5. PC & HDD Area

▼ 6. Mobile Area

7. Science Area

▼ 8. Insurance Area

▼ 9. Consumer Area