玄関会議室

会議室

この会議室はパソコン通信と同様のオンライン掲示板です。 どんな話題でもかまわないので気軽にじゃんじゃん書き込んでください。

[書き込み削除]

1963 番の書き込みのパスワードを入力してちょ!


1963. Re[1962]:解析について 投稿者:杉本典夫 [URL] 投稿日:2023/09/15 (Fri) 09:49:02
>北の大学院生さん
こんにちわ!

> SNPの解析に関してなのですが、やはり主成分分析または因子分析を行って、主成分スコア、主成分負荷量で散布図を描いて、回帰分析を行ったほうが良いということであっているでしょうか。
主成分はお互いに独立ですし、因子軸を回転しない因子もお互いに独立です。そのため主成分スコアや因子スコアを目的変数にした回帰分析は意義があると思います。でも主成分スコアや因子スコアを説明変数にした重回帰分析は意義があまりありません。
主成分分析と因子分析は次元圧縮のための手法です。つまり検討すべき項目が多く、しかもお互いに相関がある時に、それらを相関が高い項目でグルーピングして、お互いに独立な少数の主成分や因子にまとめて扱いやすくするための手法です。そのため主成分スコアや因子スコアには、原則として単変量解析を適用します。

> 2群でそれぞれ3標本ずつサンプリングしたとき、様々な遺伝子を3人ずつの問診票の回答ととらえて、それぞれの群ごとに主成分分析を行い、主成分スコアで2群を0と1で識別してロジスティック回帰分析を行うという方法で良いでしょうか。
2群それぞれが3標本では、多変量解析を適用するには例数が少なすぎます。多変量解析を適用するには、少なくとも「例数>項目数×10」という条件を満足している必要があります。
ただし遺伝子は項目数が非常に多いので、主成分分析や因子分析によって次元圧縮して解析項目数を減らします。しかし次元圧縮する場合、項目数よりも例数の方が少ない場合は例数によって次元圧縮の最大値が決められます。
例えば例数が3例で項目数が非常に多い時は、主成分や因子の数は最大で3個になります。そして主成分と因子の数を最大値である3個まで抽出した時は、それらの主成分や因子は項目をグルーピングしたものではなく、3例の遺伝子内容を反映したものになります。
したがって主成分分析や因子分析を適用する時は、少なくとも「例数>主成分数または因子数×10」という条件を満足している必要があります。そして主成分数や因子数はたいてい3〜5個程度ですから、例数は少なくとも30〜50例以上必要になります。

> P値によって書かれるvolcano poltはあまり意味ないという解釈で良いでしょうか。(一応plotしてみましたが。。。)
そのとおり、p値は検定以外には意味がないので、volcano plotはほとんど意味がありません。(^_^;)
volcano plotよりもMA plotの方が意味があると思います。

> また、オッズ比、リスク比、ハザード比に関してフィッシャー情報量などから、推定の誤差を予測しようと思い色々と調べていると、95%信頼区間に関して
> “lower limit 割る upper limit”
> が0.5以上で区間推定の精度良好など判断材料を知ることができました。
これは下限が0で上限が1という出現率のような評価指標の時だけ適用できる、特殊な判断材料だと思います。リスクとハザードは出現率ですから、この判断材料を用いることができると思います。しかしオッズは下限は0ですが上限は無限大なので、この判断材料はあまり有用ではないと思います。
ただし出現率が小さい時(10%未満)はオッズとリスクが近似します。そして出現率が小さい時は出現率が指数関数的に変化します。そのため出現率を対数変換した対数リスクの差または対数ハザードの差を評価指標にします。その対数リスク差または対数ハザード差を指数変換して元に戻したものがリスク比とハザード比であり、オッズ比はリスク比の近似値になります。
これらのことを考慮すると、出現率が10%未満の時は「lower limit 割る upper limit」を区間推定の精度の判断材料にしても良いと思います。

> 学習中に下記URL部でEXP(0.158)=1.171がEXP(0.158)=1.093になってしまっていると思われました。
ありがとうございます、またしてもタイプミスでした! 早速、訂正しておきます。

> EZRで時間依存解析を方法のところをexactやefronに変更できましたが、やはり他にも近似を用いているようでパラメトリックな方法が分かりやすくて良いと改めて実感しました。
> 非専門分野で計算したので、計算結果にどれだけの医学的価値があるかもできれば専門家に確認しようと思います。
それが良いと思います。
ロジスティック回帰分析等の多変量解析はたいていパラメトリック手法です。でも生存時間解析だけは、パラメトリック手法が存在するにもかかわらず、中途半端なセミパラメトリック手法が流行しているので困ったもんです。(~_~)
ノンパラメトリック手法やセミパラメトリック手法は数学モデルを用いないので、現実の世界と数学モデルの違いを検討して色々と考察することができません。ガリレオ以来、現実の世界を数学で理論的にモデル化し、実験によって両者の違いを検討することが近代科学の基本です。そのためノンパラメトリック手法とセミパラメトリック手法は前近代科学的な統計手法だと思います。(^_^;)

それでは、今度ともよろしくお願いします。