統計学入門−第1章

そもそも科学的研究というものは、一見したところ多種多様な現象から、その奥底に潜む普遍的な原理を帰納的に推理・洞察し、その原理に基いて色々な現象を統一的に説明できそうな理論を組み立て、その理論から演繹的に導かれる現象を予測して仮説を設定し、実験や観測によってその仮説を検証または修正しながら理論を確立していく作業です。これを仮説演繹法(hypothetico-deductive method)といいます。この仮説演繹法の作業手順を文化人類学者の川喜田二郎博士が考案したW型解決法にあてはめると、下図のように模式化することができます。

模式図の中の書斎科学というのは問題提起、仮説や理論の構築、実験結果の科学的評価など、主として頭の中で行う作業だけで成立する科学のことです。これには数学や理論物理学などが属します。 野外科学というのは、実験を行うことができないので現場の調査や観測が中心になる科学のことです。これには社会科学の多くが属します。 実験科学というのは実験や試験を中心にした科学のことです。これには化学や実験物理学などが属し、単に「科学」といえばこの実験科学を思い浮かべる人が多いと思います。

模式図に示したように仮説演繹法はこの3種類の科学をW字型に組み合わせた手順で行い、理論を確立していきます。

問題提起
問題を提起して研究テーマを明確にする。
科学的研究の最も重要な段階であり、研究テーマをミッションステートメント風に短い文章で表していつも意識しておく。
臨床研究の場合、問題提起はCQ(Clinical Question、臨床的疑問)から始まることが多い。

調査・観測
調査・観測等の探索型研究を企画・立案・実施し、結果を科学的に解釈し評価する。
探索型研究は研究テーマに関する仮説を設定するための材料を集めることが主目的であり、スクリーニングや予備実験がこれに相当する。ただし探索型研究の計画を立案する段階で、ある程度の理論と定性的な仮説を想定しておく。そして検証型研究で用いる評価項目や評価指標(要約値または代表値)を選択するために、なるべく多くの候補項目を観測するようにする。
データを要約するには記述統計学的手法を用いる。
この段階で得られる客観的事実は主として定性的であり、それを科学的に解釈し評価する。
臨床研究の場合、CQを元にしてRQ(Research Question、解明したい疑問)を明確にし、PICO(ピコ)・PECO(ペコ)に基づいて研究計画を立案する。調査・観測は主としてPECOになる。

P	Patients・Population・Problem	対象	誰に対して？
I/E	Intervation/Exposure	介入／原因(暴露)	何をすると？／何によって？
C	Comparison	比較	何と比較して？
O	Outcome	結果(帰結)	どうなるか？

理論構築・仮説設定
探索型研究で得られた結果に基づいて科学的な理論やモデルを組み立て、それから導かれる定量的な仮説を設定する。
仮説は理論やモデルの正当性や妥当性を評価することができるようなものにする。

実験・試験
実験・試験等の検証型研究を企画・立案・実施し、結果を科学的に解釈し評価する。
検証型研究は仮説を検証し、理論の正当性や妥当性を評価することが主目的であり、確認試験や本実験がこれに相当する。検証型研究の計画を立案する段階で仮説を検証するための評価項目や評価指標、統計手法、有意水準、信頼係数等を決定し、必要例数を求めておく。
データを要約するには推測統計学的手法を用いる。
この段階で得られる客観的的事実は主として定量的であり、それを科学的に解釈し評価する。
臨床試験は主としてPICOに基づいて研究計画を立案するが、臨床研究の場合はPECOに基づいて研究計画を立案することもある。そしてFINER(ファイナー)チェックによって研究計画を最終確認する。

F	Feasible	実現可能か？
I	Interesting	科学的関心(学術的価値)は高いか？
N	Nobel	新規性はあるか？
E	Ethical	倫理性に配慮されているか？
R	Relevant	社会的必要性があるか？

理論・仮説の確認・修正
検証型研究で得られた結果に基づいて仮説を確認または修正し、科学的な理論を確認または修正する。
これにより新たな問題提起や理論の修正などをして、適当な研究段階にフィードバックする。

W型解決法は科学研究だけでなく色々な方面に応用することができます。例えばこれを仕事に応用するとPDCA(Plan・Do・Check・Action)などのマネジメント・サイクルを詳細化したものになり、それにマクレガーのY理論を組み合わせたものが近代的な業務管理手法の代表的なものである──なんてぇことには興味が全く持てなくなりました。組織論なんてクソくらえっ！凸(-"-) ＞会社時代の僕

……つい私情に走ってしまい、失礼しました。模式図に示したように、科学的研究における統計学の役目はデータの数学的な要約をすることです。その際、W型の左側にある調査や観察で得られたデータには主に記述統計学を適用し、右側にある実験や試験で得られたデータには主に推測統計学を適用します。

統計学盲信と検定偏重主義の風潮から、研究現場では往々にして何でもかんでも検定をし、検定をしていないと文句をつけられるというおかしな傾向があります。これは実際の研究では、往々にしてひとつの試験で探索型研究と検証型研究の両方を同時に行ってしまうことに起因しているようです。特に医学分野や薬学分野の研究では試験を実施するのに多くの手間と膨大な費用がかかるので、ひとつの試験に検証的なテーマと探索的なテーマの両方を盛り込むことが多くなりがちです。つまり行きがけの駄賃に調べられるものは何でもかんでも調べてやろう、そしてせっかく調べたのだから検定ぐらいはやっておかないと格好がつかない……というわけです。

検定は標本集団のデータから母集団の様子を推測して、仮説を検証するための手法です。 仮説を設定しない検定には何の意味もなく、厳密に計画された試験でなければ検定を正しく適用することはできません。 厳密に計画されていない試験に検定を適用すると、間違った結論を導いてしまう危険性さえあります。

統計学の基本を表す言葉としてGIGO(Garbage In Garbage Out、ガイゴウ)つまり「ゴミを入れればゴミが出る！」というものがあります。いい加減に計画された試験からは、いい加減な結果しか得られません。そこらへんに落ちていた木切れと石コロ——いい加減なデータ——を適当に拾い集めて、「これで3階建ての立派なマンション——信頼できる結果——を建ててくれ！」と統計学者に頼んでも、それはどだい無理な注文です。

そのため明確な仮説を設定せず、厳密な計画を立てない探索型の調査や観測には、本来は検定を適用する必要はありません。そして探索型研究と検証型研究を兼ねた試験では、きちんと仮説を設定した検証的なテーマには検定を適用してもかまいませんが、行きがけの駄賃で調べた探索的なテーマにまで検定を適用する必要はありませんし、無闇に適用すべきではありません。

もちろん探索型の調査や観測も、それなりにきちんとした計画を立てて実施します。しかしこれらの研究の主目的は仮説や理論を組み立てるためのデータを集めることなので、あまり厳密な計画を立てず、臨機応変に計画を変更して、できるだけ幅広くデータを集めるようにします。

それに対して検証型の試験や実験は仮説を検証するのに必要な条件を満足するように実験計画法に基づいて厳密に計画し、それに従ってできるだけ厳格に実施します。例えば探索型の調査や観測は、原則としてどのような例数を目標にして実施してもかまいません。しかし検証型の試験や実験は仮説を検証するのに必要な例数を数学的に算出し、それだけの例数を確保できるような計画を立ててから実施する必要があります。 _(注1)

(2) W型解決法と予測式の作成・検証

医学分野や薬学分野では、多変量解析などを利用して、ある値を推測するための予測式や、ある疾患の診断を行う診断ツールを作成することがあります。その場合、W型解決法にしたがって、まず探索型試験で集めたデータに基づいて予測式を組み立てます。次に予測式の妥当性を検証できるようなデータ内容を検討し、そのデータを必要な例数だけ集めるための計画を立てます。そして計画に基づいて検証型試験を実施し、集めたデータに予測式を適用して妥当性を評価・検証します。

ところがこれらの手順を一回の試験で済ませてしまうことがよくあります。その場合、探索型研究で集めたデータを無作為に2つの群に分け、一方の群を予測式作成用データ(training data, derivation data, discovery data)にし、もう一方の群を予測式検証用データ(validation data)にします。そして作成用データに基づいて予測式を作成し、それを検証用データに適用して妥当性を評価・検証してしまうのです。

この方法は見かけ上はW型解決法に従っているので、もっともらしい方法のように思えます。しかしこの方法には致命的な欠点があります。それは検証用のデータが必ずしも予測式の妥当性を評価・検証するような内容ではなく、しかも検証に必要な例数が確保できる保証もないということです。

例えば予測式を作成した段階で年齢が重要な要因らしいということがわかれば、検証用のデータは年齢層が偏らないようにできるだけ満遍なく、しかもできるだけ幅広く集めるようにします。すなわち図1.8.2において黒い実線で描いた楕円が予測式作成用データの範囲だとすれば、検証用データは赤い破線で描いた楕円の範囲をカバーする必要があるのです。そして検証に必要な例数を確保する必要があります。

ところがこの方法の検証用データの年齢層は予測式作成用データとほぼ同じであり、黒い楕円の範囲より外には出ないはずですし、検証に必要な例数を確保できる保証はありません。これでは作成した予測式が幅広い年齢層に適用可能かどうか検証することはできません。つまりこの方法では作成した予測式が外挿可能かどうか、普遍性があるかどうかを評価・検証することはできないのです。

この方法の検証用データに予測式を適用して結果が予想通りだった時は、予測式の妥当性を検証したわけではなく、単にデータをうまく均等な2つの群に分けたことを確認したにすぎません。 2つの群のデータ内容がほぼ同じなら、一方で作成した予測式がもう一方にもほぼ適用可能なはずです。そしてその予測式は、結局のところ2群を合わせて全データを使用して作成した予測式とほぼ一致するはずです。これでは予測式の検証になるはずがありません。

実は、この方法をもう少し洗練した手法が交差検証法(cross validation method)として定式化されています。しかしこの手法は予測式がどの程度的中するかという確率を求めるためのものであり、予測式の外挿可能性や普遍性を検証するためのものではありません。 _(注2)

これらの手法は、ちょうどコップの中で嵐を起こしているようなものです。つまりどんなにものすごい嵐でも、それがコップの外の世界にまで影響することはないのです。探索型研究で集めたデータを用いる限り、どのような方法で予測式の妥当性を評価しても、その予測式がデータの範囲外まで外挿可能であり、普遍性があることを検証することはできません。検証用のデータは、あくまでも予測式の妥当性を評価・検証できるように計画的に集めたものでなければなりません。

(3) 科学的研究の種類

科学的研究法の種類については各種の定義があり、色々な分類をされています。一般的な科学研究の種類を統計学との関連で分類すると次のようになります。

1) 調査(survey)

研究者が直接的な介入を行わず、全ての要因を管理せずにそのまま観測したもの。実験または試験を行うための予備的な研究に用いられることが多く、スクリーニング調査、アンケート調査などが代表的です。探索的であり、主に記述統計学を適用します。

2) 試験(trial)

研究者が直接的に介入し、研究目的に影響を及ぼすと考えられる主要な要因を管理して観測したもの。予備的な研究にも本格的な研究にも用いられ、臨床試験などが代表的です。半探索的・半検証的であり、研究目的の要因の解析には推測統計学を適用し、その他の要因の解析には記述統計学を適用します。

3) 実験(experiment)

研究者が直接的に介入し、全ての要因を管理して観測したもの。本格的な研究に用いられることが多く、化学実験、動物実験などが代表的です。検証的であり、主に推測統計学を適用します。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

投与前＼投与後	正常	異常	計
正常	(1-π₁)(1-π₂)	(1-π₁)π₂	(1-π₁)
異常	π₁(1-π₂)	π₁π₂	π₁
計	(1-π₂)	π₂	1

投与前＼投与後	正常	異常	計
正常	36(36％)	24(24％)	60(60％)
異常	24(24％)	16(16％)	40(40％)
計	60(60％)	40(40％)	100(100％)

投与前＼投与後	正常	異常	計
正常	60(60％)	0(0％)	60(60％)
異常	0(0％)	40(40％)	40(40％)
計	60(60％)	40(40％)	100(100％)

時期＼判定	正常	異常	計
投与前	(1 - π₁)	π₁	1
投与後	(1 - π₂)	π₂	1
計	(1 - π₁) + (1 - π₂)	π₁ + π₂	2

1.8 科学的研究の種類

(1) 仮説演繹法

(2) W型解決法と予測式の作成・検証

(3) 科学的研究の種類

1) 調査(survey)

2) 試験(trial)

3) 実験(experiment)

1.計量尺度・1標本の場合

(1) 1標本の平均値の検定

2.計量尺度・2標本の場合

(1) 2標本の平均値の差の検定

3.名義尺度・1標本の場合

(1) 1標本の出現率の検定

4.名義尺度・2標本の場合

(1) 2標本の出現率の差の検定

(2) リスク比の検定

(3) オッズ比の検定

5.名義尺度・対応のある2標本の場合

(1) 変化パータンの出現率の検定

6.順序尺度・1標本の場合

(1) 符号付き順位平均値の検定

7.順序尺度・2標本の場合

(1) 順位平均値の差の検定

8.相関係数の場合

(1) 相関係数の検定

9.傾向検定の場合

(1) 出現率に関する回帰係数の検定

10.探索型研究の場合

(1) 結果の信頼性

(2) 出現率または平均値の区間推定

(3) 回帰直線の区間推定

(4) 副作用の出現確率の計算

1.leave-one-out交差検証(LOOCV：leave-one-out cross-validation、1個抜き交差検証)

2.K-分割交差検証(K-fold cross-validation)

3.ホールドアウト検証(fold out validation)

説明変数	例数	非出現例数	出現例数	出現率
x₁	n₁	s₁	r₁	p₁
:	:	:	:	:
x_i	n_i	s_i	r_i	p_i
:	:	:	:	:
x_k	n_k	s_k	r_k	p_k
全体	N	S	R	p