『統計学は最強の学問だ』を最初に読んだのは確か今から約2年前。その時は内容の重要性を感じながらも「今の業務とは少し関係はないかな〜」くらいに思ってしまっていました。

しかし、今業務の企画に少し絡みそうなのでこれを気に改めて勉強しようかなと思います。ちなみに筆者のレベルは文系出身、ゆとり世代のカリキュラムで習った公立中学校レベルの数学も内容はほぼほぼ忘れました。笑 初歩レベルから綴っていこうと思います。記事自体は数学と物理が大好きなThe理系男子の旦那に見てもらっているので、大きな問題は無いと思いますが、もしも専門の方からツッコミ貰えれば幸いです。

1.はじめに 〜ばらばらのデータを整理整頓、特徴を見出す「縮約」〜

2.ヒストグラム

1.はじめに

例えば、クラスの数学のテストの点数を並べたデータがあるとします。

89、77、99、67、66、65、45、98、91、59…

これだけみると数字の羅列ですね。生のデータはまさに現実だと思いますが、これを眺めていても仕方ないので、データを整理整頓して特徴を見出すことを「縮約する」といいます。データを縮約する方法は大きく2つあり①グラフを作ること ②1つの数字で特徴を代表させること です。②は少し解釈が難しいかもしれないのですが、その代表させる数字のことを統計量と言います。例えば、我々に馴染みがあるものでいうと「平均値」という値も統計量の中の一種です。

2.ヒストグラム

いきなり聞き馴染みのないカタカナで戸惑うかもしれませんが「ヒストグラム」は棒グラフのことです。ヒストグラムで先程例に出した数学の点数を整理すると

ステップ1.数字の中の最大値と最小値をみつける

ステップ2.区切りのいい範囲を5〜8程、最小値と最大値の間で設定する。その区間を階級という

ステップ3.階級の中で代表の値を決める(普通平均値を使うことが多い)。これを階級値という

ステップ4.各階級にあるデータの個数を度数という

ステップ5.各階級の度数の、全体に占める割合を計算する。それを相対度数という

ステップ6.その階級までの度数を合計し計算する。それを累積度数という

上記のステップによってデータを整理した表を「度数分布」といいます。

▼数学の獲得点 度数分布

階級 階級値 度数 相対度数分布 累積度数分布
56〜61 59 9 0.102272727 9
62〜71 68 14 0.159090909 23
72〜86 79 29 0.329545455 52
87〜91 89 25 0.284090909 77
92〜99 96 11 0.125 88

イメージは上記のような感じです。最初の点数の羅列をみるよりは「大体70〜80点代が多いな」「最低でも56点はとっているな」といった特徴を捉えやすくなってきました。「特徴づけ」というのは数学っぽくなく、定性的な解釈の自由度があるようにも感じるところが面白いところですね。

上記をさらにヒストグラムとして表示をします。

図1

こういったグラフにすることにより、よりわかりやすく度数分布を捉え直すことができるようになりました。

これはエクセルでピポットなんかをつかったことがある方は直感的にわかりやすいかもしれません。

では、次回は「統計量」について、学んだことまとめていきます。

どろん

 

 

 

 

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中