玄関
>
会議室
館内案内図
第1展示室
第2展示室
第3展示室
第4展示室
特別展示室
会議室
管理室
他館への連絡通路
会議室
この会議室はパソコン通信と同様のオンライン掲示板です。 どんな話題でもかまわないので気軽にじゃんじゃん書き込んでください。
閲覧
投稿
過去ログ倉庫
[書き込み削除]
1877 番の書き込みのパスワードを入力してちょ!
1877.
Re[1876]:ロジスティック回帰分析について
投稿者:
杉本典夫
[
URL
] 投稿日:2022/11/01 (Tue) 10:25:12
>北の大学院生さん
こんちにわ、御質問にお答えします。
>> (1)説明変数なのですが、採血のコンプリートデータがあまり多くないため解析は性別を層別したもので年齢を説明変数としたモデルで評価して、
>> おそらく性差がない疾患のため、結果は層別でほとんど一致するため、そのあとで性別を合わせて年齢だけの単変量解析を行う予定です。
>> これら3つすべての結果を公表予定です。
>> これは、一般的に行ってもよいことでしょうか?
医学分野ではしばしば行われますが、統計学的にはもっと合理的な方法があります。
多変量解析は連続量による計量的な層別解析に相当します。そのため普通は性別も「0:男 1:女」というダミー変数にして説明変数に入れます。
そして目的変数に関して性と年齢の間に交互作用――目的変数と年齢の関係(回帰係数の値)が男と女で異なる現象――があれば、性と年齢をかけ合わせた項目を交互作用項目として説明変数に入れます。この交互作用項目の偏回帰係数が0に近ければ交互作用はなく、正で絶対値が大きな値なら正の交互作用(男よりも女の方が年齢の影響が強い)があり、負で絶対値が大きな値なら負の交互作用(男よりも女の方が年齢の影響が弱い)があると考えられます。
これをもっと効率的に行う解析手法が共分散分析です。共分散分析については、当館の次のページを参考にしてください。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→第8章 共分散分析
http://www.snap-tck.com/room04/c01/stat/stat08/stat0801.html
>> (2)Hosmer and Lemeshow goodness of fit (GOF) testを行う予定ですが、これはやはり、p値が小さければモデル適合が悪いと解釈して、
>> そのp値自体もばらつきはありますが、例数が同じ場合は、p値の大きさでモデルの適合を判定してよいのでしょうか。
>> または、ネイマン・ピアソン統計学のように、決めた値(5%や20%など)との大小関係だけを見るものなのでしょうか?
モデルの適合度を検討するには、Hosmer-Lemeshow検定よりもデビアンス(deviance)Dを使った方が良いと思います。
またp値は検定統計量が帰無仮説の棄却域に入っているかどうかを判定するための便宜的な値であり、値そのものには具体的なあまり意義はありません。モデルとの適合度を検討するには、検定結果よりも評価指標であるデビアンスDの値そのものを検討した方が合理的ですし、平均値の差の検定などでは平均値の差の値と、その区間推定値(95%信頼区間等)を検討した方が合理的です。
Hosmer-Lemeshow検定とデビアンスについては、次のページを参考にしてください。
→10.3 ロジスティック回帰分析の計算方法 (注2)
http://www.snap-tck.com/room04/c01/stat/stat10/stat1003.html#note02
またp値の意義と検定と推定と科学的解釈については、次のページを参考にしてください。
→1.5 有意性検定の考え方 (6)有意確率の意味
http://www.snap-tck.com/room04/c01/stat/stat01/stat0105.html
→1.7 ハンディキャップ方式の検定 (1)推定と検定の関係
http://www.snap-tck.com/room04/c01/stat/stat01/stat0107.html
※「図1.7.1 検定結果と信頼区間」とその下の表が参考になると思います。
>> (3)採血も含めるとコンプリートデータは7割くらいに減るため、10pのルールなどで理論上7個程度ならば説明変数を投入可能ですが、
>> 単純なモデルのほうが良いため、患者背景で標準化差が大きいものから投入を予定しています。
>> また、既存のリスク因子も選ぶ予定です。
>> 統計学的にはいくつくらいまで入れるとよいでしょうか?
>> 説明変数の選択が非常に難しいです。
統計学的には、多変量解析の結果の信頼性を確保するためには説明変数の数はやはり例数の1/5〜1/10程度です。
そして説明変数の選択は、統計学的な判断よりも医学的な判断に基づく方が妥当です。
参考になるかどうかわかりませんが、変数選択法のシミュレーションをした結果が次のページにありますよ。
→7.3 変数の選択 (注2)
http://www.snap-tck.com/room04/c01/stat/stat07/stat0703.html#note02
>> (4)論文でたまに見かけるのですが、例えば年齢を平均値や中央値を境に高齢と若年で分けて説明変数とすること(2値データへの変換)はp-ハッキングにあたるのでしょうか?
これは医学分野でよく行われることですが、原則としてやってはいけません。p-ハッキングの問題よりも、連続量を2分類データにして情報を落としてしまうのは実にもったいないです。また境界値の設定が恣意的になる上に、データによって変化します。それでは客観的かつ普遍的な結果は得られません。
>> (5)機械学習の決定樹は探索的で一番単純になるものを示そうと思っています。おそらく因子は2個程度になりそうです。
>> これは、探索的な研究のため結果を見て一番単純なもの(解釈しやすいもの)を選んでよいのでしょうか?
>> もちろん別のデータセットなどで検証が必要なことは十分に承知しています。
機械学習は理論的にはノンパラメトリックな多変量解析に相当します。そのため普遍性がないので、僕はおまりお勧めしません。それよりも普遍性があるパラメトリックな多変量解析をお勧めします。機械学習の決定樹よりも判別分析かクラスター分析の方が普遍性があります。
多変量解析の種類と概論については、次のページを参考にしてください。
→6.3 多変量解析の分類
http://www.snap-tck.com/room04/c01/stat/stat06/stat0603.html
以上、参考になれば幸いです。(^_-)