玄関
>
会議室
館内案内図
第1展示室
第2展示室
第3展示室
第4展示室
特別展示室
会議室
管理室
他館への連絡通路
会議室
この会議室はパソコン通信と同様のオンライン掲示板です。 どんな話題でもかまわないので気軽にじゃんじゃん書き込んでください。
閲覧
投稿
過去ログ倉庫
[書き込み削除]
1876 番の書き込みのパスワードを入力してちょ!
1876.
ロジスティック回帰分析について
投稿者:
北の大学院生
投稿日:2022/10/31 (Mon) 16:19:12
杉本様、いつも大変お世話になっています。
最近、カルテからデータを抽出して、探索的なロジスティック回帰分析を行おうとしています。最終的には機械学習の決定樹によって分類も行う予定です。
全例数で400程度、大体7.5:2.5くらいに分かれる(300:100)ものに関してです。
そこで、お聞きしたいことがあります。
(1)説明変数なのですが、採血のコンプリートデータがあまり多くないため解析は性別を層別したもので年齢を説明変数としたモデルで評価して、おそらく性差がない疾患のため、結果は層別でほとんど一致するため、そのあとで性別を合わせて年齢だけの単変量解析を行う予定です。これら3つすべての結果を公表予定です。
これは、一般的に行ってもよいことでしょうか?
(2)Hosmer and Lemeshow goodness of fit (GOF) testを行う予定ですが、これはやはり、p値が小さければモデル適合が悪いと解釈して、そのp値自体もばらつきはありますが、例数が同じ場合は、p値の大きさでモデルの適合を判定してよいのでしょうか。または、ネイマン・ピアソン統計学のように、決めた値(5%や20%など)との大小関係だけを見るものなのでしょうか?
(3)採血も含めるとコンプリートデータは7割くらいに減るため、10pのルールなどで理論上7個程度ならば説明変数を投入可能ですが、単純なモデルのほうが良いため、患者背景で標準化差が大きいものから投入を予定しています。また、既存のリスク因子も選ぶ予定です。
統計学的にはいくつくらいまで入れるとよいでしょうか?
説明変数の選択が非常に難しいです。
(4)論文でたまに見かけるのですが、例えば年齢を平均値や中央値を境に高齢と若年で分けて説明変数とすること(2値データへの変換)はp-ハッキングにあたるのでしょうか?
(5)
機械学習の決定樹は探索的で一番単純になるものを示そうと思っています。おそらく因子は2個程度になりそうです。これは、探索的な研究のため結果を見て一番単純なもの(解釈しやすいもの)を選んでよいのでしょうか?
もちろん別のデータセットなどで検証が必要なことは十分に承知しています。
統計量と中心極限定理についてなどの一連の流れを割ってしまい大変申し訳ございませんが、ご教授お願いいたします。