前回のヒストグラムの回にて、データに意味付けをするために整理整頓するということを学びました。また、よく使う「平均値」についても、それがデータへの意味付けの手段のうちの1つで有ることを理解しました。
本日は「偏差」という概念です。これはイメージするために、「地道にコツコツ頑張るA君」と「要領のいいB君」の2人の例をみてみます。
- どちらが合格する?A君とB君の合格の可能性
上記を見た際に、A君を『優秀』だと周りが評価するかもしれません。しかし、例えば90点取得しないと合格しないような学校の試験をこれから2人が受験する、と考えた場合どちらに合格の可能性がありそうでしょうか。
正しく2人の成績を分析するとするとA君は「安定した点数を取る人」、B君は「取得点数にムラがある人」です。本番が90点合格ラインの場合、A君は受からず、B君には受かる可能性があります。
つまり、今回のようなケースだと、平均値がわかるより、ばらつきがわかることの方が重要である、というケースです。この時考えるのが「偏差(Deviation)」という概念です。
▼平均点70点の場合 点数の「偏差」
71 | 59 | 78 | 69 | 73 |
+1 | −11 | +8 | −1 | +3 |
この偏差を縮約して、1つの数字で表示させたい、、というところですが単純に平均してしまうと
{(+1)+(−11)+(+8)+(−1)+(+3)}÷5=0
となってしまうことに気づきます。これだと掴みたい特徴を捉えません。
- 様々な平均値の求め方
ここで、学校でもよくならった (x+y)÷2 以外の平均値の求め方を複数考えます。(この辺から文系には早くも「うっ、、、」となりそうな展開ですがちょっと辛抱 笑)
1.相乗平均:
2.2乗平均:
3.調和平均:
例えば、企業が1年目成長率50%、2年目▲4%なら、
となり、2年連続20%となった場合と同じ結果として同じといえますね。
では、最初に考えていた偏差に戻ります。√ルートを除いて2乗平均の考え方にて平均70点の偏差を考えると
この、まだ2乗平均にする前のデータばらつきを表現した統計量を「分散(Variance)」といいます。そして、ルートを鑑みるととなり
「テストの平均点は70点、取得点数のバラ付きは約6.26点前後」といえることがわかります。
この6.26点を「標準偏差(Standard Deviation)」といい、S.D.と表現します。
この数値がわかると、広がり、散らばりの程度が取り出されます。日常生活の分かりやすい例だと、株のリスクを計測する際に使われる考え方ですね。
はい、本日はぐぐっとグレードアップして、データのバラ付きについて考えました。
どろーん
私、理系なのに、統計になぜかアレルギー反応が。。。汗。もう一回、私も勉強しようかな。
いいねいいね: 1人