前回のヒストグラムの回にて、データに意味付けをするために整理整頓するということを学びました。また、よく使う「平均値」についても、それがデータへの意味付けの手段のうちの1つで有ることを理解しました。

本日は「偏差」という概念です。これはイメージするために、「地道にコツコツ頑張るA君」と「要領のいいB君」の2人の例をみてみます。

  • どちらが合格する?A君とB君の合格の可能性

上記を見た際に、A君を『優秀』だと周りが評価するかもしれません。しかし、例えば90点取得しないと合格しないような学校の試験をこれから2人が受験する、と考えた場合どちらに合格の可能性がありそうでしょうか。

正しく2人の成績を分析するとするとA君は「安定した点数を取る人」、B君は「取得点数にムラがある人」です。本番が90点合格ラインの場合、A君は受からず、B君には受かる可能性があります。

つまり、今回のようなケースだと、平均値がわかるより、ばらつきがわかることの方が重要である、というケースです。この時考えるのが「偏差(Deviation)」という概念です。

▼平均点70点の場合 点数の「偏差」

71 59 78 69 73
+1 −11 +8 −1 +3

この偏差を縮約して、1つの数字で表示させたい、、というところですが単純に平均してしまうと

{(+1)+(−11)+(+8)+(−1)+(+3)}÷5=0

となってしまうことに気づきます。これだと掴みたい特徴を捉えません。

  • 様々な平均値の求め方

ここで、学校でもよくならった (x+y)÷2 以外の平均値の求め方を複数考えます。(この辺から文系には早くも「うっ、、、」となりそうな展開ですがちょっと辛抱 笑)

1.相乗平均: 相乗平均.png

 

2.2乗平均:図1.png

3.調和平均:   調和平均

例えば、企業が1年目成長率50%、2年目▲4%なら、

図1.png となり、2年連続20%となった場合と同じ結果として同じといえますね。

では、最初に考えていた偏差に戻ります。√ルートを除いて2乗平均の考え方にて平均70点の偏差を考えると

図1.png

この、まだ2乗平均にする前のデータばらつきを表現した統計量を「分散(Variance)」といいます。そして、ルートを鑑みると図1.pngとなり

テストの平均点は70点、取得点数のバラ付きは約6.26点前後」といえることがわかります。

この6.26点を「標準偏差(Standard Deviation)」といい、S.D.と表現します。

この数値がわかると、広がり、散らばりの程度が取り出されます。日常生活の分かりやすい例だと、株のリスクを計測する際に使われる考え方ですね。

 

はい、本日はぐぐっとグレードアップして、データのバラ付きについて考えました。

どろーん

 

 

統計ことはじめ ②偏差” への2件のフィードバック

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中