この章では統計学の基本的な概念と簡単な歴史を説明し、統計学の2本柱である検定と推定の原理を解説します。 そして科学的研究の種類と、科学的研究における統計学の役割についても説明します。
これすなわち、読んで字のごとく統一的に計る学問であ〜る!
「ウン、このデータに含まれている情報はこれこれである!」
そこで、情報を読み取りやすくするために、例えば「平均値(mean)」という値を求めます。 平均値はこれら100個のデータのほぼ真ん中を表す値であり、100個のデータを1つに要約した値です。 統計学では、このような要約値のことを「統計量」といいます。 (注1)
さて、今、100個のデータの平均値が60kgになったとします。 そうするとこの値から、
「100個のデータは概ね60kgぐらいの値である」
「100人の日本人の体重はだいたい60kgぐらいである」
これだけでも重要な情報ですが、中には口うるさい人がいて、
「”概ね”などとあやふやな情報では納得できん! それぞれのデータは、60kgとどれくらい違っているんだ?」
そんな時は、個々のデータが平均値からどの程度離れているのか、つまりデータがどのくらいばらついているのかを要約する値として、「標準偏差」いわゆる「SD(Standard Deviation)」を求めます。 今、標準偏差が10kgになったとします。 そうすると、
「100個のデータはだいたい60±10kgの値である」
「100人の日本人の体重はだいたい50〜70kgである」
このように、100個のデータを平均値と標準偏差という2つの値に要約することによって、データに含まれている情報が把握しやすくなりました。 100個が2個に集約されたのですから、情報の濃縮率(?)としてはなかなか大したものであるといえるでしょう。
このように統計学は、データを要約して、中に含まれている情報を把握しやすくするための手段です。 したがって、統計学を利用すると本当は結果が理解しやすくなるはずでして、
「統計学なんか使ったばっかりに、わけがわからなくなった!」
しかしながら、普通の人はたいてい数字や数式が苦手です。 そしてそこへもってきて、数式が大好きという多少変態ぎみな性癖の持主である数学者達が、自分達を偉くみせようとして、本当は至極簡単なことをやっているのにもかかわらず、業界用語を多用してわざと難しく表現して見せるものですから、すっかりその手管に乗せられてしまって、統計学とは難しいものだと思わされてしまっているのです。
かく申す私も、数学にはさんざん泣かされた一人でして、折あらば何とか数学者に復讐し、大いに溜飲を下げたいと思っています。 さあ、一緒に統計学の本質を理解し、数学者達の裏をかいて、彼等をオマンマの食い上げにしてやろうではありませんか!
統計学の教科書などでは、よく確率変数を大文字で「X」などと表記し、実際に得られた観測値を小文字で「x」などと表記して区別します。 しかし、ここではどちらも区別せずに、小文字で表記することにします。