玄関会議室

会議室

この会議室はパソコン通信と同様のオンライン掲示板です。 どんな話題でもかまわないので気軽にじゃんじゃん書き込んでください。

名前
表題
e-mail
URL
パスワード(削除用、英数字で20文字以内)
内容


No.1908 - 1972 / 62 件表示


1972. Re[1971]:[1970]:判別分析 投稿者:キッシー 投稿日:2024/02/25 (Sun) 14:11:51 [返信] [削除]
いつもながら返信ありがとうございます。
本などには分散共分散行列が等しいことの仮定があったのですが
計算するとあまり変わらないような気がしていましたが
まったく自信がなかったもので
大変貴重な情報をありがとうございました。
今後とも宜しくお願いします  

1971. Re[1970]:判別分析 投稿者:杉本典夫 [URL] 投稿日:2024/02/25 (Sun) 08:41:03 [返信] [削除]
>キッシーさん
お久しぶりですね!(^o^)/

> 第9章 判別分析および第18章 重判別分析
> 判別分析が紹介されていますが
> その分析を行うための仮定は、正規分布だけでしょうか?
> 分散は処理過程で考慮されていると思いますので
> 元データの等分散性は仮定には必要ないと思うのですが?
通常の判別分析では、群ごとの多変量データが多変量正規分布をしていると仮定します。そして原則として各群の分散共分散行列は等しくなくてもかまわない、つまり等分散性は必要ありません。(実は多変量データが特定の多変量確率分布をしていれば判別分析可能ですが、通常は多変量正規分布を用います。(^_-))
ただし各群の分散共分散行列が等しい時と等しくない時では、判別関数の内容が変わります。そこで一般的な判別分析の解説書などでは、各群の分散共分散行列が等しいと仮定した時の判別関数を記載していると思いますし、一般的な統計ソフトでも各群の分散共分散行列が等しいと仮定した時の判別関数を出力すると思います。そのため実際に判別分析を用いる時は、各群の分散共分散行列が等しいと仮定するのが普通です。

でも各群の分散共分散行列が等しくない時でも、その影響は非常に小さくて、現実的にはほとんど問題になりません。自作の統計ソフトDANSでは、2群で1変量の判別分析について等分散の時と不等分散の時の判別関数を計算できるようにしてあります。そしてそのソフトを用いて色々とシミュレーションし、不等分散性の影響が非常に小さいことを確認しました。

2群の判別分析について、分散共分散行列が等しくない時の判別関数については当館の次のページに記載してあります。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→9.4 多変量の場合 (注3)
http://www.snap-tck.com/room04/c01/stat/stat09/stat0904.html#note03

それから判別分析と同様に等分散性がよく問題になる2群の平均値の差の検定、つまり2標本t検定(対応のないt検定)について、不等分散性が検定結果にどの程度影響するかについてシミュレーションした結果を次のページに記載してあります。この結果を見ると、不等分散は現実的にはほとんど問題にならないことがわかると思います。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→3.3 2標本の計量値 (注2)
http://www.snap-tck.com/room04/c01/stat/stat03/stat0303.html#note02

1970. 判別分析 投稿者:キッシー 投稿日:2024/02/22 (Thu) 13:26:36 [返信] [削除]
第9章 判別分析および第18章 重判別分析
判別分析が紹介されていますが
その分析を行うための仮定は、正規分布だけでしょうか?
分散は処理過程で考慮されていると思いますので
元データの等分散性は仮定には必要ないと思うのですが?
ご教授お願いします

1969. Re[1968]:[1967]:サブグループ分け時の有効数字について 投稿者:悩める開発担当者 投稿日:2023/12/10 (Sun) 10:33:24 [返信] [削除]
杉本様

早々に、明快で、丁寧なご回答を頂きまして有難うございました。
スッキリ致しました。
今後も宜しくお願い致します。

1968. Re[1967]:サブグループ分け時の有効数字について 投稿者:杉本典夫 [URL] 投稿日:2023/12/10 (Sun) 09:32:00 [返信] [削除]
>悩める開発担当者さん
こんにちわ!(^o^)/

サブグループ分けに限らず、有効数字については次の考え方が一般的ですね。
> 「任意に設定した数値は測定値ではなく誤差を含まないので,有効数字に関係しない。」ので、
> 1.0m/s以上は、任意に設定した数値であり、
> 1.0m/s以上のグループは「0.95m/s」以上の測定値ではなくて、
> 「1.0m/s」以上の測定値だと思うのですが、間違っているでしょうか?

厳密に言うと「1.0」は小数点以下第1位まで有効という意味であり、定数1を指定した時は「1」と表記します。
そのため「1m/s未満」は「0〜0.9999……m/s」になり、「1m/s以上」は「1.0000…m/s〜∞m/s」になります。そして連続量のデータを特定の境界値で分割する場合、境界値は有効数字ではなく定数で指定するのが一般的です。
境界値を有効数字で指定すると、その結果はそのデータにしか適用できない普遍性のない結果になります。しかし境界値を定数で指定すれば、その結果はある程度の普遍性があります。

ちなみにサブグループ解析は厳密な統計解析では禁じ手であり、代表的な「やってはいけない解析方法(^^;)」です。これについては当館の次のページを参考にしてください。(^_-)

・玄関>雑学の部屋>雑学コーナー>統計学入門
→(2) 層別解析の非合理性
http://www.snap-tck.com/room04/c01/stat/stat08/stat0803.html

1967. サブグループ分け時の有効数字について 投稿者:悩める開発担当者 投稿日:2023/12/09 (Sat) 12:05:19 [返信] [削除]
杉本様

2度目の投稿になります。宜しくお願い致します。
あまりに初歩的な質問で恐縮ですが、解析時のサブグループ分けする際、有効数字の取扱いについて悩んでおります。

具体的には、歩行速度1.0m/s 以上・未満でグループ分けする際の有効数字についてですが、CROの考え方は、以下の通りです。
①「1.0」は小数点以下第1位まで有効
②1.0m/sは、「0.95m/s~1.04m/s」のことなので、
③1.0m/s以上は「0.95m/s以上」のこと。
④従って、1.0m/s以上のグループは「0.95m/s以上のグループ」である。

しかし、
「任意に設定した数値は測定値ではなく誤差を含まないので,有効数字に関係しない。」ので、
1.0m/s以上は、任意に設定した数値であり、
1.0m/s以上のグループは「0.95m/s」以上の測定値ではなくて、
「1.0m/s」以上の測定値だと思うのですが、間違っているでしょうか?

宜しくお願い致します。

1966. Re[1965]:相関分析と回帰分析の区間推定について 投稿者:杉本典夫 [URL] 投稿日:2023/11/14 (Tue) 17:59:37 [返信] [削除]
>キッシーさん
こんにちわ!(^o^)/

> しかし、(A)と(B)は背反するのですが
> どのように理解すれば良いのでしょうか?
(A)は相関分析における信頼楕円・許容楕円・予測楕円であり、(B)は回帰分析における信頼限界・許容限界・予測限界です。

相関分析は2つの項目の間に「項目1←→項目2」というような、お互いに影響を与え合っている相互関連性つまり相関性がある時に、その相互関連性の様子を相関係数を指標にして近似的に分析するための手法です。
そのため2つの項目はどちらも確率変数(確率的な誤差がある変数)であり、通常は近似的に2次元正規分布をするという前提で分析します。そしてその2次元正規分布を利用して、2次元空間において、2つの項目の母重心が95%の確率で含まれる範囲を信頼楕円として表し、データプロットの95%が含まれる範囲を予測楕円として表します。

それに対して回帰分析は2つの項目の間に「項目1(原因)→項目2(結果)」というような、項目1が原因で項目2がその結果という因果関係がある時に、その因果関係の様子を数学的な関数――通常は1次関数つまり回帰直線――で近似して分析するための手法です。
そのため原因項目は研究者が任意の値を指定する誤差のない変数、結果項目は誤差がある確率変数であり、通常はその誤差が回帰直線の上下に近似的に正規分布するという前提で分析します。そしてその誤差つまり回帰誤差の正規分布を利用して、母回帰直線が95%の確率で含まれる範囲を回帰直線の上下に信頼限界として表し、データプロットの95%が含まれる範囲を回帰直線の上下に予測限界として表します。
回帰誤差は結果項目つまり目的変数だけにあり、原因項目つまり説明変数の平均値付近が最も小さく、平均値から離れるほど大きくなります。そのため信頼限界と予測限界は説明変数の平均値の付近が最も狭く、平均値から離れるほど広くなります。

これらのことから、(A)と(B)は前提条件が異なるので背反するのは当然であることがわかると思います。
この相関分析と回帰分析の違いを十分に理解している人は、研究者はもちろん、「統計学専門家」を自称している人の中でもあまり多くありません。そのため論文や統計学の解説書などで、データの散布図に回帰直線と相関係数を同時に記載してしまうという自己矛盾を平気でやっている人がけっこういます。(^_^;)
詳しい説明は、当館の次のページをじっくりと読んでみてください。(^_-)

○玄関>雑学の部屋>雑学コーナー>統計学入門
→5.5 各種手法の相互関係
http://www.snap-tck.com/room04/c01/stat/stat05/stat0505.html

1965. 回帰分析の区間推定 投稿者:キッシー 投稿日:2023/11/14 (Tue) 16:22:08 [返信] [削除]
教えて頂いことがあります

5.5各種手法の相互関係
(注3)相関分析と同様に回帰分析の場合も信頼区間を求めることができます。

5・5・3 信頼性楕円・許容楕円・予測楕円
分布を見るとなるほど、楕円のようになるイメージできます(A)

5・5・4 信頼限界・許容限界・予測限界
グラフを見るとxが大きくなると限界幅が広くなるのもイメージできます(B)

しかし、(A)と(B)は背反するのですが
どのように理解すれば良いのでしょうか?

初歩的な質問ですみませんが、宜しくお願いします



1964. Re[1963]:[1962]:解析について 投稿者:北の大学院生 投稿日:2023/09/15 (Fri) 22:18:17 [返信] [削除]
杉本様
いつも大変お世話になっています。

丁寧なご回答をありがとうございます.

私の考えが浅かったです。
少数例では母集団の推測は行えないという当たり前のことを忘れて、主成分分析や因子分析、他の回帰分析もある程度サンプルサイズが必要でした。
主成分分析や因子分析は特に勉強不足でした。もう一度じっくり学習しなおします。

SNPはお金がかかるので3対3が限界だったそうです。
ある程度お金をかけて解析できる必要最小限のサンプリングを行ったほうが多くのことが分かり、よい研究になると実感してしまいます。
MA plotを90度回転させて、volcano plotと見た目を同じにして、volcano plotであるかのような感じで行けば、見た目重視派には同じに見えてそのままいけそうな気がします。
私もMA plotを提案していました。

ノンパラメトリック手法とセミパラメトリック手法は前近代科学的な統計手法ですが、医学や歯学は伝統を重んじる傾向があるので、おそらくまだ前近代科学の伝統を重んじて時間依存解析を行っていると推察されます。
統計ソフトのデフォルトもセミパラメトリックやノンパラメトリックな方法しか搭載されていないのも理由の一つだと思われました。
さらにとりあえずデフォルトでよくわからないけどやってみて意味ありそうで論文にすることもありうるためだと思います。

いつもありがとうございます。
今後ともよろしくお願いいたします。

1963. Re[1962]:解析について 投稿者:杉本典夫 [URL] 投稿日:2023/09/15 (Fri) 09:49:02 [返信] [削除]
>北の大学院生さん
こんにちわ!

> SNPの解析に関してなのですが、やはり主成分分析または因子分析を行って、主成分スコア、主成分負荷量で散布図を描いて、回帰分析を行ったほうが良いということであっているでしょうか。
主成分はお互いに独立ですし、因子軸を回転しない因子もお互いに独立です。そのため主成分スコアや因子スコアを目的変数にした回帰分析は意義があると思います。でも主成分スコアや因子スコアを説明変数にした重回帰分析は意義があまりありません。
主成分分析と因子分析は次元圧縮のための手法です。つまり検討すべき項目が多く、しかもお互いに相関がある時に、それらを相関が高い項目でグルーピングして、お互いに独立な少数の主成分や因子にまとめて扱いやすくするための手法です。そのため主成分スコアや因子スコアには、原則として単変量解析を適用します。

> 2群でそれぞれ3標本ずつサンプリングしたとき、様々な遺伝子を3人ずつの問診票の回答ととらえて、それぞれの群ごとに主成分分析を行い、主成分スコアで2群を0と1で識別してロジスティック回帰分析を行うという方法で良いでしょうか。
2群それぞれが3標本では、多変量解析を適用するには例数が少なすぎます。多変量解析を適用するには、少なくとも「例数>項目数×10」という条件を満足している必要があります。
ただし遺伝子は項目数が非常に多いので、主成分分析や因子分析によって次元圧縮して解析項目数を減らします。しかし次元圧縮する場合、項目数よりも例数の方が少ない場合は例数によって次元圧縮の最大値が決められます。
例えば例数が3例で項目数が非常に多い時は、主成分や因子の数は最大で3個になります。そして主成分と因子の数を最大値である3個まで抽出した時は、それらの主成分や因子は項目をグルーピングしたものではなく、3例の遺伝子内容を反映したものになります。
したがって主成分分析や因子分析を適用する時は、少なくとも「例数>主成分数または因子数×10」という条件を満足している必要があります。そして主成分数や因子数はたいてい3〜5個程度ですから、例数は少なくとも30〜50例以上必要になります。

> P値によって書かれるvolcano poltはあまり意味ないという解釈で良いでしょうか。(一応plotしてみましたが。。。)
そのとおり、p値は検定以外には意味がないので、volcano plotはほとんど意味がありません。(^_^;)
volcano plotよりもMA plotの方が意味があると思います。

> また、オッズ比、リスク比、ハザード比に関してフィッシャー情報量などから、推定の誤差を予測しようと思い色々と調べていると、95%信頼区間に関して
> “lower limit 割る upper limit”
> が0.5以上で区間推定の精度良好など判断材料を知ることができました。
これは下限が0で上限が1という出現率のような評価指標の時だけ適用できる、特殊な判断材料だと思います。リスクとハザードは出現率ですから、この判断材料を用いることができると思います。しかしオッズは下限は0ですが上限は無限大なので、この判断材料はあまり有用ではないと思います。
ただし出現率が小さい時(10%未満)はオッズとリスクが近似します。そして出現率が小さい時は出現率が指数関数的に変化します。そのため出現率を対数変換した対数リスクの差または対数ハザードの差を評価指標にします。その対数リスク差または対数ハザード差を指数変換して元に戻したものがリスク比とハザード比であり、オッズ比はリスク比の近似値になります。
これらのことを考慮すると、出現率が10%未満の時は「lower limit 割る upper limit」を区間推定の精度の判断材料にしても良いと思います。

> 学習中に下記URL部でEXP(0.158)=1.171がEXP(0.158)=1.093になってしまっていると思われました。
ありがとうございます、またしてもタイプミスでした! 早速、訂正しておきます。

> EZRで時間依存解析を方法のところをexactやefronに変更できましたが、やはり他にも近似を用いているようでパラメトリックな方法が分かりやすくて良いと改めて実感しました。
> 非専門分野で計算したので、計算結果にどれだけの医学的価値があるかもできれば専門家に確認しようと思います。
それが良いと思います。
ロジスティック回帰分析等の多変量解析はたいていパラメトリック手法です。でも生存時間解析だけは、パラメトリック手法が存在するにもかかわらず、中途半端なセミパラメトリック手法が流行しているので困ったもんです。(~_~)
ノンパラメトリック手法やセミパラメトリック手法は数学モデルを用いないので、現実の世界と数学モデルの違いを検討して色々と考察することができません。ガリレオ以来、現実の世界を数学で理論的にモデル化し、実験によって両者の違いを検討することが近代科学の基本です。そのためノンパラメトリック手法とセミパラメトリック手法は前近代科学的な統計手法だと思います。(^_^;)

それでは、今度ともよろしくお願いします。

1962. 解析について 投稿者:北の大学院生 投稿日:2023/09/14 (Thu) 15:03:22 [返信] [削除]
杉本様
いつも大変お世話になっています。

SNPの解析に関してなのですが、やはり主成分分析または因子分析を行って、主成分スコア、主成分負荷量で散布図を描いて、回帰分析を行ったほうが良いということであっているでしょうか。

2群でそれぞれ3標本ずつサンプリングしたとき、様々な遺伝子を3人ずつの問診票の回答ととらえて、それぞれの群ごとに主成分分析を行い、主成分スコアで2群を0と1で識別してロジスティック回帰分析を行うという方法で良いでしょうか。


P値によって書かれるvolcano poltはあまり意味ないという解釈で良いでしょうか。(一応plotしてみましたが。。。)

ご教授をよろしくお願いいたします。

また、オッズ比、リスク比、ハザード比に関してフィッシャー情報量などから、推定の誤差を予測しようと思い色々と調べていると、95%信頼区間に関して

“lower limit 割る upper limit”

が0.5以上で区間推定の精度良好など判断材料を知ることができました。
学習中に下記URL部でEXP(0.158)=1.171がEXP(0.158)=1.093になってしまっていると思われました。
http://www.snap-tck.com/room04/c01/stat/stat10/stat1003.html#:~:text=OR1U%3Dexp(0.158)%3D1.093

EZRで時間依存解析を方法のところをexactやefronに変更できましたが、やはり他にも近似を用いているようでパラメトリックな方法が分かりやすくて良いと改めて実感しました。非専門分野で計算したので、計算結果にどれだけの医学的価値があるかもできれば専門家に確認しようと思います。

今後ともよろしくお願いいたします。

1961. Re[1960]:[1959]:対応分析、別名コレスポンディング分析の同時布置の解釈 投稿者:おそるおそる 投稿日:2023/09/06 (Wed) 00:02:29 [返信] [削除]
杉本先生 こんばんわ。ご返信ほんとうにありがとうございます。
+++
この場合、テキスト中に現れる特定の語句を「ある疾患における特定の症状」に相当すると考えてください。そして多くの患者について、複数の症状の有無を調べて「0:無 1:有」で表します。
このデータを主成分分析すると、どの患者でも同時に発現する複数の症状は相関が高いので、それらをまとめて1つの主成分になります。しかし特定の患者だけに発現する特殊な症状は他の症状と独立しているので、その症状だけで1つの主成分になります。
このような場合、主成分を座標軸にして、各症状と主成分の相関係数である主成分負荷量をプロットすると、お互いに相関が高い症状のプロットはまとまり、他の症状と独立した症状のプロットはポツンと離れてプロットされます。
そして独立した症状に対応する主成分軸上では、他の症状と独立した症状のプロットは原点から離れてポツンとプロットされ、他の症状のブロットは原点付近にまとまります。これが上記の「結果の中で原点からの距離が離れている語ほど「特徴的な語」である」という記述に対応します。
つまりその症状が発現した患者は他の患者と比較して特殊な患者であり、その疾患の特殊な病態を表す患者と言えます。
これと同様に、テキストマイニングの場合、原点から離れてプロットされた語句は、一般的な被験者の文章とは異なる特定の被験者の文章を表す語句と考えられます。
+++
この部分のコメントで、頭の中に2次元のクロス表がふわっと浮かび、図を描き起こしてみると、なるほどと目からうろこが落ちた、ストンと腑に落ちるという体験(もしかしてアハ体験?)でした。すぐにお礼の返信をするべきでしたが、分析に没頭してしまい御礼が遅れ大変失礼しました。今後とも、どうかよろしくお願いしたく存じます。
取り急ぎ御礼のみ失礼仕ります。

1960. Re[1959]:対応分析、別名コレスポンディング分析の同時布置の解釈 投稿者:杉本典夫 [URL] 投稿日:2023/09/05 (Tue) 10:14:36 [返信] [削除]
>おそるおそるさん
お久しぶりですね!(^o^)/

> このアプリの中で、対応分析、別名コレスポンディング分析と呼称されている方法があり、原理は数量化理論Ⅲ類とのこと。
ご指摘のように、対応分析は林先生の数量化理論III類と同じ手法であり、分類データを用いた主成分分析に相当します。
林先生の数量化理論は欧米ではあまり有名ではないので、林先生より後に同じ手法が欧米で開発され、それが日本に逆輸入されて、そちらの手法の方が有名になるという皮肉な現象が起きています。(^_^;)

> この手法を用いた、似たような目的の論文や、このアプリを開発した方の文献などに、結果の中で原点からの距離が離れている語ほど「特徴的な語」であるという記述がよく見られます。
> アプリ内のパラメータ設定で「原点からの距離が離れた語のみ○個まで」表示という設定も可能です。
> 原点周辺に現れる語よりも、遠い距離に現れた語が特徴的という表現から、
> 例えば当方が、「原点からの距離が離れた語のみ6個を抽出したところ、A、B、C、D、E、Fであった。このことから、、、、のように考えられる。」とゆうような、文面で表現するとして、
> 外部変数の方向に原点から遠い語が意味がある(特徴的で)、近い語とどう違う意味(特徴的ではない)を持つのかがどうも理解できないのです。
この場合、テキスト中に現れる特定の語句を「ある疾患における特定の症状」に相当すると考えてください。そして多くの患者について、複数の症状の有無を調べて「0:無 1:有」で表します。
このデータを主成分分析すると、どの患者でも同時に発現する複数の症状は相関が高いので、それらをまとめて1つの主成分になります。しかし特定の患者だけに発現する特殊な症状は他の症状と独立しているので、その症状だけで1つの主成分になります。
このような場合、主成分を座標軸にして、各症状と主成分の相関係数である主成分負荷量をプロットすると、お互いに相関が高い症状のプロットはまとまり、他の症状と独立した症状のプロットはポツンと離れてプロットされます。
そして独立した症状に対応する主成分軸上では、他の症状と独立した症状のプロットは原点から離れてポツンとプロットされ、他の症状のブロットは原点付近にまとまります。これが上記の「結果の中で原点からの距離が離れている語ほど「特徴的な語」である」という記述に対応します。
つまりその症状が発現した患者は他の患者と比較して特殊な患者であり、その疾患の特殊な病態を表す患者と言えます。
これと同様に、テキストマイニングの場合、原点から離れてプロットされた語句は、一般的な被験者の文章とは異なる特定の被験者の文章を表す語句と考えられます。

自由記述のテキストに対して対応分析を行ってこのような結果になった場合、次の段階ではそれらの語句をキーワードにした質問項目を含むアンケートを作成します。その場合、アンケートの回答をリッカート尺度にして、アンケートデータに因子分析を適用できるようにします。
そして少数の被験者に対して試験的にアンケートを実施し、そのデータに因子分析を適用して因子を抽出し、下位尺度候補を探索します。そのようなアンケートを色々と試して質問項目をブラッシュアップし、最終的に心理尺度を開発します。
そのような心理尺度が開発できれば、被験者の背景因子項目と下位尺度の関係を相関分析や回帰分析で解析し、色々なことが検討できると思います。これがQOL等の心理尺度開発の一般的な手順ですね。

以上、参考になれば幸いです。

1959. 対応分析、別名コレスポンディング分析の同時布置の解釈 投稿者:おそるおそる 投稿日:2023/09/04 (Mon) 20:58:18 [返信] [削除]
杉本先生
こんばんわ
暑い日が続きます。当方在住の東北地方南部は今日は雨で少し過ごしやすい1日でした。
以前、ロジスティック回帰分析の結果の解釈等いろいろご教示いただきました。その節は大変お世話なり深謝しております。約10年ぶりなのですが、またご相談させていただきたく、書き込みさせていただきます。
 当方その後も、某医療専門職の業務の大変さについて調べております。量的、質的な先行研究により、某医療専門職の業務の大変さの要因(要素)の概念化がなされています。今回、先行研究で概念化がなされていない業務の大変さの要因(要素)がないかを探索的に調べる目的で、専門職の属性と主観的な「業務の大変さ」と「その要因」について自由記述で回答いただいた49例のデータが集まりました。
 フリーウェアですが、非常に利用率の高いテキストマイニングのアプリで、自由記述の部分を分析中です。
 このアプリの中で、対応分析、別名コレスポンディング分析と呼称されている方法があり、原理は数量化理論Ⅲ類とのこと。結果について、経験年数や所属機関の在院日数、職位等を2〜3カテゴリの外部変数でカテゴリ別けを行い、同時布置の結果の解釈について理解が困難というか腑に落ちないことがあり、ご教示をお願いしたいのです。
 この手法を用いた、似たような目的の論文や、このアプリを開発した方の文献などに、結果の中で原点からの距離が離れている語ほど「特徴的な語」であるという記述がよく見られます。アプリ内のパラメータ設定で「原点からの距離が離れた語のみ○個まで」表示という設定も可能です。原点周辺に現れる語よりも、遠い距離に現れた語が特徴的という表現から、例えば当方が、「原点からの距離が離れた語のみ6個を抽出したところ、A、B、C、D、E、Fであった。このことから、、、、のように考えられる。」とゆうような、文面で表現するとして、外部変数の方向に原点から遠い語が意味がある(特徴的で)、近い語とどう違う意味(特徴的ではない)を持つのかがどうも理解できないのです。
 長文でしかも、拙い日本語で理解も大変かと存じます。愚かな質問かもしれず恐縮です。ご教示いただければ幸いです。

1957. Re[1956]:[1955]:許容限界の設定 投稿者:北の大学院生 投稿日:2023/08/28 (Mon) 19:33:20 [返信] [削除]
杉本様
いつも大変お世話になっています。

信頼限界や許容限界についての疑問が解決しました。ありがとうございます。
私も分散と標準偏差をタイプミスしました。(標本平均値) ± 1.96 or 2×(不偏標準偏差)でした!
(非心t分布はエクセルで%点を出せるようにしようと試みましたが、難しくEZRに計算させています。)

時間依存解析は、私がRをうまく使いこなせていないせいか、まだ、生存曲線の描記とLogrank trend検定しかできません。(異質性の検定はデフォルトではやってくれないみたいです。)じっくりと学ばさせていただいています。

今後ともよろしくお願いいたします。

1956. Re[1955]:許容限界の設定 投稿者:杉本典夫 [URL] 投稿日:2023/08/28 (Mon) 18:25:32 [返信] [削除]
>北の大学院生さん
こんにちわ!

> 以前ご相談させていただいた、共分散分析の論文を今年の9月に投稿予定になりました。
> ロジスティック回帰分析の変数の選択も納得できるような選びかたができました。
> 論文の謝辞に共分散分析のアイディアをいただいたことを記載させていただきたいと存じます。
それは良かったですね! 謝辞については大変光栄ですね、ありがとうございます。

> 許容限界の設定なのですが、(標本平均値) ± 1.96 or 2×(不偏分散)というようにラフに行っていたのですが、
> 一般的には平均と標準偏差のずれを考慮して、非心t分布を利用して,
> (標本平均値) ± (非心t分布の逆関数の値)/ ( sqrt(サンプルサイズ) )× (不偏分散)
> というように行ったほうが望ましいでしょうか。
いえ、普通の標準正規分布または普通のt分布を利用してかまいません。
非心t分布は母平均が(μ+δ)の時に、標本平均mをt=(m-μ)/SEと標準化した時にtが従う分布です。母平均が(μ+δ)の時というのは、対立仮説H1(母平均はμよりもδだけ大きい)が正しい時です。そのため非心t分布は、普通は対立仮説が正しい時に検定結果が有意になる確率つまり検出力を求める時に用います。
信頼限界や許容限界は母平均μ=標本平均mという仮定に基づいて計算します。そのためzは非心t分布には従わず、普通の標準正規分布または普通のt分布に従います。

> この辺の解析はやはり、EZRのデフォルトではほしい統計量が出なかったり、共通のオッズ比の信頼区間しか出ず、共通の検定や異質性の検定も出ず、
> 作成が面倒でしたがエクセルで自分で作ったほうが分かりやすくて良かったと思いました。
> このシートを作成できたのは貴ホームページのおかげです。ありがとうございました。
それはすごいですね! 当館の情報がお役に立てたようでしたら嬉しいです。

> http://www.snap-tck.com/room04/c01/stat/stat11/stat1102.html#:~:text=%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%B3%E3%82%AF%E6%A4%9C%E5%AE%9A(%E5%85%B1%E9%80%9A%E6%80%A7)%EF%BC%9A%CF%87o2%20%3D%204.147(p%20%3D%200.0417)%20%EF%BC%9C%20%CF%872(1%2C0.05)%20%3D%203.841%20%E2%80%A6%20%E6%9C%89%E6%84%8F%E6%B0%B4%E6%BA%965%EF%BC%85%E3%81%A7%E6%9C%89%E6%84%8F%E3%81%A7%E3%81%AF%E3%81%AA%E3%81%84
> の部分ですが、χo2 = 4.147(p = 0.0417) “>” χ2(1,0.05) = 3.841 … 有意水準5%で“有意”だと思われます。(注3も同様)
これはありがとうございます、またしてもタイプミスでした! 早速、訂正しておきました。
こういった見つけにくいタイプミスを見つけていただくと、大変ありがたいです。

今後とも、よろしくお願いします。m(_ _)m

1955. 許容限界の設定 投稿者:北の大学院生 投稿日:2023/08/28 (Mon) 15:26:21 [返信] [削除]
杉本様
いつも大変お世話になっています。

以前ご相談させていただいた、共分散分析の論文を今年の9月に投稿予定になりました。ロジスティック回帰分析の変数の選択も納得できるような選びかたができました。論文の謝辞に共分散分析のアイディアをいただいたことを記載させていただきたいと存じます。本当にありがとうございました。

さて、
許容限界の設定なのですが、(標本平均値) ± 1.96 or 2×(不偏分散)というようにラフに行っていたのですが、一般的には平均と標準偏差のずれを考慮して、非心t分布を利用して,
(標本平均値) ± (非心t分布の逆関数の値)/ ( sqrt(サンプルサイズ) )× (不偏分散)
というように行ったほうが望ましいでしょうか。
ご教授お願い致します。


また、最近2*2の場合の横断研究、コホート研究、症例対照研究や2~4層のMH検定、共通のオッズ比の検定や区間推定に関してのエクセルシートも自作しました。非心χ二乗分布や非心F分布の%点も出せるエクセルシートも作れました。
この辺の解析はやはり、EZRのデフォルトではほしい統計量が出なかったり、共通のオッズ比の信頼区間しか出ず、共通の検定や異質性の検定も出ず、作成が面倒でしたがエクセルで自分で作ったほうが分かりやすくて良かったと思いました。このシートを作成できたのは貴ホームページのおかげです。ありがとうございました。

さらに、時間依存解析についても、学ばせていただいています。
レート比やレート差、ハザード比などの勉強中です。

http://www.snap-tck.com/room04/c01/stat/stat11/stat1102.html#:~:text=%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%B3%E3%82%AF%E6%A4%9C%E5%AE%9A(%E5%85%B1%E9%80%9A%E6%80%A7)%EF%BC%9A%CF%87o2%20%3D%204.147(p%20%3D%200.0417)%20%EF%BC%9C%20%CF%872(1%2C0.05)%20%3D%203.841%20%E2%80%A6%20%E6%9C%89%E6%84%8F%E6%B0%B4%E6%BA%965%EF%BC%85%E3%81%A7%E6%9C%89%E6%84%8F%E3%81%A7%E3%81%AF%E3%81%AA%E3%81%84

の部分ですが、χo2 = 4.147(p = 0.0417) “>” χ2(1,0.05) = 3.841 … 有意水準5%で“有意”だと思われます。(注3も同様)

今後ともよろしくお願いいたします。

1954. Re[1953]:[1952]:[1951]:層別割付されたデータの解析方法について 投稿者:悩める開発担当者 投稿日:2023/08/08 (Tue) 08:27:52 [返信] [削除]
杉本様

早々に、丁寧にご説明頂きまして、ありがとうございました。
本当に、助かりました。心よりお礼申し上げます。
頭の中の霧が晴れました。まだ、スッキリとまでは行きませんが…
統計解析の奥深さを、改めて感じました。
それと、委託先のCROの統計解析には不信感が募っています…

今回の試験は、検証的試験ではなくて、探索的試験の位置づけです。
というのは、機能性表示食品としては、前例のない新規な機能性成分ですので、どのパラメータに影響するのかを見極めるために、試験を実施しました。
評価項目は8項目で、それぞれ全例解析とサブグループ解析を実施しています。

ありがとございました。
また、宜しくお願い致します。

1953. Re[1952]:[1951]:層別割付されたデータの解析方法について 投稿者:杉本典夫 [URL] 投稿日:2023/08/07 (Mon) 20:46:53 [返信] [削除]
○追伸です。
1952番の書き込み中で「第I層」「第II層」「第III層」と書いてしまいましたが、これは「第I相」「第II相」「第III相」のタイプミスです。
大変失礼しました。(^^ゞ

1952. Re[1951]:層別割付されたデータの解析方法について 投稿者:杉本典夫 [URL] 投稿日:2023/08/07 (Mon) 20:41:41 [返信] [削除]
>悩める開発担当者様
こんにちわ、杉本です。ご質問にお答えします。

> (質問1)
> 層別割付を行った試験でも、層別解析を行なわずに、t検定などの解析だけでいいのでしょうか?
そもそも層別割付は、多元(通常は二元)配置分散分析を適用するために考えられた試験デザインです。そのため層別割付を行ったということは、試験の主目的を検討するためには多元配置分散分析を適用する必要があったということです。残念ながら、このことをしっかり理解している人は――自称「統計学専門家」や「データサイエンティスト」も含めて――少ないようです。

詳しいことは本館の「統計学入門」の次のページをじっくりと読んでみてください。
・玄関>雑学の部屋>雑学コーナー>統計学入門
→1.9 科学的研究のデザイン (4) フィッシャーの3原則 3) xの効果以外に系統的な偏りがあるモデル
http://www.snap-tck.com/room04/c01/stat/stat01/stat0109.html

> (質問2)
> 回帰の有意性がない場合には、共分散分析を行う意味はないので、
> この場合は、例えばt検定やMann-Whitney U Testを実施することでOKでしょうか。
層別割付は、試験薬(または試験食品)以外に試験結果に影響を与える要因(背景因子等)が存在する時、試験薬剤の有無の影響と、その要因の有無の影響をそれぞれ独立に検討し、さらに試験薬剤の有無とその要因の有無の間の交互作用も一緒に検討することができる、二元配置分散分析によってデータを解析するために考えられた試験デザインです。そのため層別因子の影響が無い(連続量の場合は回帰係数が0)時は、そもそも層別割付をする意味がありません。
そして層別因子としてどのような因子を入れるべきかは、検証型試験を実施する前に探索型試験によってしっかりと検討しておく必要があります。探索型試験をしっかりと行わずにいきなり検証型試験を行うのは、安全ネット無しで綱渡りをするようなものです。
医薬品の臨床試験は第I層→第II層→第III層という手順で試験を行い、第III層の検証型試験の前に探索型試験をしっかりと行います。しかし食品の場合はこの手順を踏まず、いきなり検証型試験を行うことが多いようです。そうすると層別因子の回帰直線が有意ではない、つまり層別因子が結果に影響していないという、層別割付の前提に反した現象が起きてしまいます。そのような場合は、厳密に言えば層別因子を代えた再試験が必要です。

> (質問3)
> 回帰の平行性がない場合には、つまり、交互作用がある場合は、共分散分析で共変量の影響を除くことができないので、
> この場合は、例えば、年齢の高低ごとに分けて比較する層別解析を行う必要があるという理解でOKでしょうか。
それは本来の層別割付の目的に反した解析方法なので、検証型試験の場合は「再試験のための探索的な解析」という位置付けになります。
検証型試験は事前に探索型試験をしっかりと行い、得られるであろう結果を理論的に予想して具体的な作業仮説を立てておく必要があります。共分散分析のような多変量解析は本質的に探索的な解析手法なので、探索型試験のデータには適用できても、厳密に言えば検証型試験のデータには適用できません。
それからU検定のようなノンパラメトリック手法は具体的な作業仮説を立てるのが困難なので、やはり探索的な統計手法です。そのため検証型試験のデータを解析するには向いていません。残念ながら、このことをしっかりと理解している人も少ないようです。(~_~)

以上、参考になれば幸いです。

1951. Re[1950]:[1949]:共分散分析の適用条件について 投稿者:悩める開発担当者 投稿日:2023/08/07 (Mon) 13:32:56 [返信] [削除]
杉本様

早速、分かり易く、ご教授頂きましてありがとうございます。
理解致しました。
追加の質問3点を記載致しましたので、ご教授頂きたくお願い致します。
大変お手数をお掛け致しますが宜しくお願い致します。

(質問1)
層別割付を行った試験でも、層別解析を行なわずに、t検定などの解析だけでいいのでしょうか?

そもそも、共分散分析を実施するに至った経緯は、下記の通りです。
(CROへの質問1)
本試験は、層別割付(年齢と初期値を層別因子としてランダム化)を行った試験なので、データ解析は、層別解析を行うのが一般的ではないですか?
実際の解析は、t検定およびMann-Whitney U Testで実施しています。

(CROの回答1)
事前に層別割付をしていますが、今回の対象者数(2群各n=35)が十分でないことから、十分にrandomizeされていないと考えられます。(投稿者注:被験者背景で全ての項目において、群間の有意差はありません)
そのため、事後解析として層別解析を行う必要があるかと思いますが、共分散分析で交絡因子を調整して比較すれば良いかと思います。

(質問2)
回帰の有意性がない場合には、共分散分析を行う意味はないので、
この場合は、例えばt検定やMann-Whitney U Testを実施することでOKでしょうか。

(質問3)
回帰の平行性がない場合には、つまり、交互作用がある場合は、共分散分析で共変量の影響を除くことができないので、この場合は、例えば、年齢の高低ごとに分けて比較する層別解析を行う必要があるという理解でOKでしょうか。

1950. Re[1949]:共分散分析の適用条件について 投稿者:杉本典夫 [URL] 投稿日:2023/08/07 (Mon) 10:43:01 [返信] [削除]
>悩める開発担当者様
はじめまして、当館の館長を務めている”とものり”こと杉本と申します。当館の「統計学入門」を読んでいただき、ありがとうございます。m(_ _)m
ご質問にお答えします。

> 弊社の理解:
> 共分散分析の解析手順は、2つの前提条件①回帰の有意性、②回帰の平行性が
> 満たされた場合にのみ、③2群の差の有意検定を実施する。
> CRO見解:
> ①回帰の有意性を満たしていない場合でも、②回帰の平行性
> を満たしている場合には、③2群の差の有意検定を実施する。
これは貴社の見解が一般的ですね。
回帰直線の非平行性の検定は、群ごとの回帰直線の回帰係数が異なっているかどうかの検定です。そして回帰の検定は回帰係数が「0」かどうかの検定です。そのため回帰の検定結果が有意ではなく回帰係数がほぼ「0」の時は、回帰直線の非平行性の検定結果は必然的に有意ではなくなります。
しかしこの場合の非平行性の検定結果は「回帰直線が平行である」と解釈するのではなく、「非平行性の検定は無意味である」と解釈しなければなりません。
ただし回帰の検定には群ごとの回帰係数の検定と、全ての群の回帰直線が平行と仮定した時の回帰係数の検定の2種類があるという点に注意する必要があります。僕の「統計学入門」の共分散分析では両方の検定を行っています。しかし統計ソフトによっては、全ての群の回帰直線が平行と仮定した時の回帰係数の検定だけを行うものがあります。その場合、例えば1つの群の回帰係数が正で、もう1つの群の回帰係数が負の時、回帰の検定結果は有意ではなく、非平行性の検定結果だけが有意になることがあります。
そのため共分散分析の第1条件は「非平行性の検定結果が有意ではない」つまり「全ての群の回帰係数がほぼ同じと考えられる」です。そして第2条件が「回帰の検定結果が有意」つまり「全ての群において共変数が目的変数に同じような影響を与えていると考えられる」です。これら2つの条件が満足された時、はじめて共変数による補正平均値の差の検定が意味を持ちます。
非平行性の検定結果が有意ではなくても、共変数が目的変数に影響を与えていなければ、補正平均値の差の検定結果は単純な平均値の差の検定結果とよく似たものになります。

ただし重要な点は「共分散分析は後知恵であり、2群の背景因子が偏ってしまった時の苦肉の策である」という点です。
無作為割付が偏ってしまった時は割付失敗であり、厳密には再試験が必要です。試験結果に影響を与える背景因子は無数にあり、実際の試験で観測する背景因子はそのうちの代表的と考えられる項目にすぎせません。そしてある背景因子が偏っていたら、観測していない潜在的な背景因子も偏っている可能性が高くなります。
その場合、観測されている背景因子については共分散分析で偏りを補正することがある程度は可能です。しかし観測されていない潜在的な背景因子が偏っている時は、当然のことながら共分散分析で偏りを補正することは不可能です。
したがって医薬品の臨床試験では、背景因子が偏ってしまった時は参考までに共分散分析を用いた補正を行いますが、厚労省から再試験を要求されることがありますよ。
でも僕のこれまでの経験では(僕は食品関係CROの特別顧問をしています。σ(^_-))、トクホ食品の臨床試験では、背景因子が偏っていた時は共分散分析を用いた補正を行っておけば、厚労省から再試験を要求されたことはありませんでした。

以上、参考になれば幸いです。

1949. 共分散分析ANCOVAの解析 投稿者:悩める開発担当者 投稿日:2023/08/06 (Sun) 09:12:14 [返信] [削除]
杉本様

まじめて投稿させていただきます。
私は、食品メーカーの開発担当者です。統計解析は専門外ですが、仕事での必要性があって、基礎の基礎は理解しています。
いつも杉本様のサイトを拝見して、悩みながら、勉強させて頂いています。

今回、機能性表示食品の許可取得のために、CROに委託して臨床試験を実施しました。
ところが、共分散分析の解析手法について、CROの見解が妥当なのかどうか判断できず、悩んでおります。是非ご教授頂きたく存じます。

(質問内容)
弊社の理解:
共分散分析の解析手順は、2つの前提条件①回帰の有意性、②回帰の平行性が
満たされた場合にのみ、③2群の差の有意検定を実施する。

CRO見解:
①回帰の有意性を満たしていない場合でも、②回帰の平行性
を満たしている場合には、③2群の差の有意検定を実施する。

「回帰の有意性」は説明変数の係数が意味をなすかどうかの有意性を示す指標であり、有意でないときには、「調整されないため、共変量として入れる意味がない=入れても入れなくても共分散分析の結果にはさほど影響しない(必ずしもANCOVAできないわけではない)」ととらえることができます。また、正規分布でない場合やn数が小さい場合は、独立変数と共変量の直線関係の有無は外れ値に影響を受ける可能性もあり、一概にp値のみで判断できない部分もあります。


(試験デザイン)
・割付:層別割付
・試験群と対照群の2群で、ランダム化プラセボ対照二重盲検並行群間比較試験

1948. Re[1947]:[1946]:[1945]:[1944]:[1943]:細菌叢解析 投稿者:北の大学院生 投稿日:2023/08/04 (Fri) 11:11:52 [返信] [削除]
杉本様
いつも大変お世話になっています。

いつも貴重な情報をありがとうございます。

大学よりもアカデミックなことを学べていると感じるほど、すごいです。

簡単に細菌を数える方法は
細菌の数は寒天培地上にコロニー形成個数であるコロニー形成単位CFUで数えていますが、フローサイトメーターで単位MLあたり何個まで数えられると思います。
予備実験でいくつかの細菌で数えたら1コロニーを作るのに必要な菌数や時間が異なり、かなり大雑把な印象を受けています。結核菌は増殖速度が極端に遅いので、悪性度が高い菌ほど増殖は遅いと考えています。

細菌と培地だけならばフローサイトメーターで総数を数えて割合に応じて数を変換することも考えられます。
この方法ならば細菌の総数を数えられると考えますが、試料中の細菌は数を変えずに細菌と溶媒だけで取り出すのが難しそうです。フローサイトメーターは蛍光の散乱のノイズに弱いところもありますので、ノイズによる幻のプロットも出ることがあります。


歯医者はノンパラメトリック検定が好きな人が多く(論文の検定から)、ラフな値CFUでラフに語るのがあっているのかもしれません。
詳しい知識よりも精巧な技術(きれいなまともに機能する詰め物被せものを作ること)が評価されるというのが歯科だと思うので、ラフで受け入れています。

「Human microbiome myths and misconceptions」を参考に英語をさらに練り早めにイノベーションの論文を通そうと思います。
ありがとうございます。

今後ともよろしくお願いいたします。

1947. Re[1946]:[1945]:[1944]:[1943]:細菌叢解析 投稿者:杉本典夫 [URL] 投稿日:2023/08/04 (Fri) 09:22:19 [返信] [削除]
>北の大学院生さん
こんにちわ! 色々と興味深い情報を知らせていただき、ありがとうございます。m(_ _)m

> OTU解析はやはり、個体内の経時的変化で細菌ごとの増減は推定できますが、分母が分からないので、
> 個体間の差は割合のデータでは正しく評価できず、情報量を落としたラフな結果しか分からないような感じだと悟りました。
僕はOTUをあまり評価していないので、全く同感ですね。

> 個人内変化でも状態によって細菌の総数が変化するのでやはり比較は難しいですが、工夫次第で推定できそうです。
細菌学の専門家に尋ねたら、細菌の総数を計る簡単な方法がないのであやふやな情報が飛び交っているので、細菌の総数を測定する方法が色々と開発されつつあるそうです。
そしてその専門家から、最近のNature Microbiologyに載った「ヒト・マイクロバイオームに関する神話と誤解」という総説論文を紹介されました。この論文には現在の通説のどこが間違っているのかについて、わかりやすく書かれています。
・「Human microbiome myths and misconceptions」
https://doi.org/10.1038/s41564-023-01426-7

> 解析の難しさと面白さを学べてよかったです。
こちらこそ、細菌叢データの解析について大いに参考になりました。
今後ともよろしくお願いします。m(_ _)m

1946. Re[1945]:[1944]:[1943]:細菌叢解析 投稿者:北の大学院生 投稿日:2023/08/03 (Thu) 11:45:23 [返信] [削除]
杉本様
いつも大変お世話になっています。

OTU解析はやはり、個体内の経時的変化で細菌ごとの増減は推定できますが、分母が分からないので、個体間の差は割合のデータでは正しく評価できず、情報量を落としたラフな結果しか分からないような感じだと悟りました。

個人内変化でも状態によって細菌の総数が変化するのでやはり比較は難しいですが、工夫次第で推定できそうです。

解析の難しさと面白さを学べてよかったです。

今後ともよろしくお願いいたします。

1945. Re[1944]:[1943]:細菌叢解析 投稿者:北の大学院生 投稿日:2023/08/03 (Thu) 10:35:26 [返信] [削除]
杉本様
いつも大変お世話になっています。

色々試して、意味あるデータにおいての解析で先日の方法で行うと、ある意味で当たり前の結果が出て納得できる方法でしたが、そこまで多くのことが分からず、細菌叢解析のOTUデータは、持っている情報量が多くはないと実感しました。

主成分分析でたまたまかもしれませんが、ある細菌の有無とPC1の符号が一致していて、すごさを感じました。

定数和制約というよりも相対的変動情報という呪いだと思いました。

正しい絶対的変動情報が欲しくなりました。

今後ともよろしくお願いいたします。

1944. Re[1943]:細菌叢解析 投稿者:杉本典夫 [URL] 投稿日:2023/07/20 (Thu) 08:57:34 [返信] [削除]
>北の大学院生さん
こんにちわ! 大変興味深い続報を知らせていただき、ありがとうございます。m(_ _)m

> 色々と試行錯誤したところ、やはりBacteroidetesで割るとすべて%の呪縛から解放されて、因子分析や主成分分析が可能となりました(p ˶ˆ꒳ˆ˵)。
これは大いに有望そうですね!

> この検定についてもう少し勉強して、Bacteroidetesで割る解析の論文を書いて浸透させようと思います。
> 中央値や幾何平均が算術平均よりもよい値になるので普通にパラメトリックの方法は難しいですが、色々な可能性が見えてきました。
中央値は中心極限手定理が部分的にしか成り立たないので、中央値そのものを検定する「中央値の検定」という手法はありません。
また幾何平均は対数変換した時の算術平均に相当します。そのため幾何平均が良い値になるようなら、データを対数変換してから算術平均を求め、それに対して一般的な平均値の検定と区間推定を適用するのが良いと思います。
それからよく誤解されていることですが、元のデータがどんな分布をしていても、中心極限定理によって平均値や順位平均値や出現率等の十分統計量は近似的に正規分布します(ただし中央値は十分統計量ではないので除く)。
そして平均値の検定(t検定)や順位平均値の検定(順位和検定)や出現率の検定(χ2乗検定)は、元のデータではなく統計量が近似的に正規分布する性質を利用した手法です。そのため元のデータがどんな分布をしていても、平均値の検定(t検定)や順位平均値の検定(順位和検定)や出現率の検定(χ2乗検定)は適用できます。
したがってパラメトリック手法とノンバラメトリック手法は、元のデータが正規分布かどうかで使い分けるのではなく、評価指標として平均値のようなパラメトリックな統計量が適しているのか、それとも順位平均値のようなノンパラメトリックな統計量が適しているかで使い分けるべきです。
ちなみに、元のデータが近似的に正規分布しているかどうかを検定する「正規性の検定」という手法がありますよね。これらの手法は、元のデータが正規分布していることを前提にしたパラメトリックな検定手法です。したがって、もし元のデータが正規分布していないので平均値の検定(t検定)が使えないのなら、正規性の検定も元のデータが正規分布していない時は使えないことになります。そのため正規性の検定結果が有意になった時は、「元のデータが正規分布していない」と解釈するのではなく、「検定結果が信用できない」と解釈しなければならないことになります。
正規性の検定には、このような「クレタ人のパラドックス(^_-)」と似た矛盾があります。この矛盾に最初に気付いたのはネイマンとピアソンでした。そしてこの矛盾を解消すべく色々と検討し、中心極限定理に基づいた現在のネイマン・ピアソン統計学を確立したのです。このことは、数理統計学分野以外では意外と知られていないようです。
正規性の検定の矛盾については、当館の次のページの(注3)を御覧ください。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→2.3 パラメトリック手法とノンパラメトリック手法 (注3)
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html#note03

> ほとんどの人でBacteroidetesの絶対数が同じことを証明したくなりました。
> この検定の元論文やBacteroidetesのどの属なのかも今後調べようと思います。
これは僕も非常に興味がありますね。今後の進展に大いに期待しています!

1943. Re[1942]:[1941]:[1940]:細菌叢解析 投稿者:北の大学院生 投稿日:2023/07/19 (Wed) 21:26:37 [返信] [削除]
杉本様
いつも大変お世話になっています。

何度も分けてすみません。

色々と試行錯誤したところ、やはりBacteroidetesで割るとすべて%の呪縛から解放されて、因子分析や主成分分析が可能となりました(p ˶ˆ꒳ˆ˵)。
先人の知恵なのでしょうか?
Bacteroidetesで割るだけだと0も生かした解析ができてLN(・)が不要でした。細菌叢解析で情報量はもともと一つは100%にするだけのおまけなので情報を持っていそうで実はほとんど情報を持っていなかったのかなと思いました。

ほとんどのひとでBacteroidetesとFirmicutesは観測されているので、規格化成分の候補になりますが、なぜか検定ではFirmicutesではダメでした。
ActinobacteriaとProteobacteriaは相関があるのでresult12で多く合格したのかもしれないです。

この検定についてもう少し勉強して、Bacteroidetesで割る解析の論文を書いて浸透させようと思います。
中央値や幾何平均が算術平均よりもよい値になるので普通にパラメトリックの方法は難しいですが、色々な可能性が見えてきました。

大学一年時の線形代数Ⅱで多次元を見た時(テスト中に理解したつもりの時)のような感動がありました。
ほとんどの人でBacteroidetesの絶対数が同じことを証明したくなりました。

この検定の元論文やBacteroidetesのどの属なのかも今後調べようと思います。

試行錯誤の結果、BDHQのカロリー情報はほとんど性別や地域、年齢と関係が強くあまり良い情報ではなかったです。
高齢女性が多く日本茶を飲んでいました。


今後ともよろしくお願いいたします。

1942. Re[1941]:[1940]:細菌叢解析 投稿者:北の大学院生 投稿日:2023/07/19 (Wed) 16:51:39 [返信] [削除]
杉本様
いつも大変お世話になっています。

組成データ解析入門―パーセント・データの問題点と解析方法―
朝倉書店

で紹介されていた、不変成分を特定して基準とする方法に関してあっているかどうかよくわかりませんが、テストを行ってみたところ下記のようになり(結果は数字だ大きめのほう、出現回数が多いほうが不変成分の可能性がある)、Bacteroidetesは誰もが同じ数を持っていて、これの数をそろえることで、他の数を出して比較する方法でもよい可能性がありました。(絶対量変動法;変動係数法より)

F/B ratioはよい指標なのかもしれません。



> result12
Firmicutes Bacteroidetes Actinobacteria Proteobacteria
[1,] 0 1 3 2

> #test2

> result21
[,1] [,2] [,3] [,4]
[1,] "Firmicutes/Bacteroidetes" "Firmicutes/Actinobacteria" "Firmicutes/Proteobacteria" "Bacteroidetes/Firmicutes"
[,5] [,6]
[1,] "Bacteroidetes/Actinobacteria" "Bacteroidetes/Proteobacteria"

今後ともよろしくお願いいたします。

1941. Re[1940]:細菌叢解析 投稿者:杉本典夫 [URL] 投稿日:2023/07/19 (Wed) 14:38:54 [返信] [削除]
>北の大学院生さん
こんにちわ! 細菌叢解析の続報を知らせていただき、ありがとうございます。m(_ _)m

> green teaのカロリー摂取量を目的変数にし、主成分スコアを説明変数にした重回帰分析なのですが、回帰係数が小さく、解釈が難しいです。
> また、よく良くデータを見るとgreen teaのカロリー摂取は13段階になっていて、他と違い13段階すべての人数が多めだったという特徴がありました。
> 0,少ない人、中等度、多い人という感じに分かれています。
> 順序ロジスティック回帰を行うとオッズ比1(1~1)となり、影響が小さく細菌叢は複雑な影響を受けて構成されると改めて思いました。
う〜む、なかなか一筋縄ではいかないデータのようですね。

> CoDaPackのフリーソフトで特殊な解析を検討してみます。
CoDaPackはまだ使ったことがありません。僕はソフト自作派なので、既存の統計ソフトはバリデーション用に使うだけです。何しろ統計ソフトのマニュアルを読むよりも、自分でプログラムを組む方が手っ取り早いですからね。(^_-)

> さらに、全く関係ないことですが、最近、Juliaをダウンロードしてプログラミング言語を学び始めました。
> Juliaは計算が早かったです!!Rもまだまだ使いこなせていませんがたくさん勉強しようと思います。
僕もJuliaを使ったことがありますよ。Juliaは表向きはスクリプト言語と言いながら、実は裏でコンパイルしているので、2回目以後の実行が非常に速くなりますね。僕の母国語はC++なので、スクリプト言語は小規模なプログラムを組む時だけ使っています。例えば、この会議室はPHPで自作してますよ。(^_-)

> F/B ratioが一般化されているのでActinobacteria/BやProteobacteria/BなどBacteroidetesを規格化成分として利用する方法も検討しています。
> Bacteroidetesは0の人がおそらくほとんどいないので悪くないですが、これが不変成分ならばもっと詳しくわかるのですが、、、
アルツハイマー患者の脳髄液中の色々なペプチドの解析をした時、最も安定性があるといわれているペプチドを規格化成分として利用してペプチド比を求め、それらを診断指標にして解析したことがありますよ。この方法は非常にうまくいき、論文がNatureに掲載されました。そしてその論文以後、脳髄液中のペプチドの解析はペプチド比を用いるのが一般的になりつつあります。
ペプチド比のアイデアは医学研究者が思いついたものであり、僕はデータ解析のお手伝いをしただけです。こういう優れたアイデアは、やっぱり臨床現場でいつも患者を診ていて、検査値の意味を皮膚感覚で知っている研究者でなければ思いつかないものだと、あらためて痛感しましたよ。

> この世の中で何か大きな関係を見つけるのはとても難しいと思わされています。
そのような関係を見つけるには、やはり臨床現場での経験が重要だと思います。よく言われるように、医学には「科学の知(科学理論&客観的なデータ)」と「臨床の知(臨床現場での経験)」の両方が必要だと思います。

それでは、今後ともよろしくお願いします。m(_ _)m

1940. Re[1936]:[1935]:細菌叢解析 投稿者:北の大学院生 投稿日:2023/07/19 (Wed) 09:56:58 [返信] [削除]
杉本様
いつも大変お世話になっています。

green teaのカロリー摂取量を目的変数にし、主成分スコアを説明変数にした重回帰分析なのですが、回帰係数が小さく、解釈が難しいです。また、よく良くデータを見るとgreen teaのカロリー摂取は13段階になっていて、他と違い13段階すべての人数が多めだったという特徴がありました。
0,少ない人、中等度、多い人という感じに分かれています。
順序ロジスティック回帰を行うとオッズ比1(1~1)となり、影響が小さく細菌叢は複雑な影響を受けて構成されると改めて思いました。

CoDaPackのフリーソフトで特殊な解析を検討してみます。

F/B ratioが一般化されているのでActinobacteria/BやProteobacteria/BなどBacteroidetesを規格化成分として利用する方法も検討しています。Bacteroidetesは0の人がおそらくほとんどいないので悪くないですが、これが不変成分ならばもっと詳しくわかるのですが、、、

鉱物の研究者の組成データの解析の発展に期待してしまいます。

この世の中で何か大きな関係を見つけるのはとても難しいと思わされています。

今後ともよろしくお願いいたします。

1938. Re[1936]:[1935]:細菌叢解析 投稿者:北の大学院生 投稿日:2023/07/18 (Tue) 22:31:08 [返信] [削除]
杉本様
いつも大変お世話になっています。丁寧な回答をありがとうございます。

相関比が0.19(0.15~0.25)だったので、ほんの少し=「地域差は小さい」と解釈するとやはり日本人の細菌叢は似ていそうで海外との比較がおもしろい気がしました。

平均値の棒グラフで見た目を楽しむだけにならないようにgreen teaのカロリー摂取量を目的変数にし、主成分スコアを説明変数にした重回帰分析やってみます(p ˶ˆ꒳ˆ˵)。また、主成分スコアの散布図と主成分負荷量のプロットを別々に描いてグラフを並べて見比べてみようと思います。


Actinobacteriaなどは細胞壁が厚く、つぶしてから16S rRNA情報を抽出するとOTUが増えるらしいです。

科学的な意味はないですが、はやりのLEfSe(レフセ)(順位平均値や順位相関の並べ替え検定しまくりでp < 0.05などを作る解析?)で見た目の楽しい図を作る遊びも休憩時間にマスターしてみようかと思っています。
さらに、全く関係ないことですが、最近、Juliaをダウンロードしてプログラミング言語を学び始めました。Juliaは計算が早かったです!!Rもまだまだ使いこなせていませんがたくさん勉強しようと思います。

いつもありがとうございます。
今後ともよろしくお願いいたします。

1936. Re[1935]:細菌叢解析 投稿者:杉本典夫 [URL] 投稿日:2023/07/18 (Tue) 20:40:37 [返信] [削除]
>北の大学院生さん
こんにちわ! 細菌叢解析について色々と興味深い結果を教えていただき、ありがとうございます。m(_ _)m

> 世界的にメジャーな2門で ratio of Firmicutes/Bacteroidetesのなにかとの順位相関の解析が流行っているみたいでした。
> ほとんどの人でこの2門は観測されているからだと推察されます。特にBMIが多かったです。
> そこで、F/Bと何かの属性で(順位)相関比やLN(F/B)で相関比を求めることを考えたのですが、これらは一応意味があることでしょうか。
ある程度は意味があると思います。BMIとの関連性を検討するのは当然でしょうね。
細菌叢のデータはバラツキが非常に大きく、外れ値も多いので、F/Bはさらにバラツキが大きくなるはずです。そのため普通の相関係数を求めると相関係数の絶対値が小さくなってしまうので、苦肉の策で順位相関係数を求めているのだと思います。
細菌は細胞分裂で倍々に増えるので、対数変換してから普通の相関係数を求めるのもひとつの方法だと思います。ただし順位相関係数は対数変換してから求めても値は変わらないので、対数変換するのなら順位相関係数は無意味です。
因子スコアや主成分スコアは元のデータのバラツキを小さくする効果があるので、因子スコアや主成分スコアは普通の相関係数が求めやすいです。僕が行った解析では、臨床症状と因子スコアの相関係数が最大で0.5程度ありました。でもその因子スコアが医学的にうまく解釈できなかったので、今のところペンディング状態です。

> 6地域と順位相関比は0.21(0.17~0.27)、Kruskal-Wallis chi-squared = 70.859, df = 5, p-value = 6.788e-14(p ˶ˆ꒳ˆ˵)、N = 1515(48,175,190,329,386,387)で、
> 相関比は0.19、サンプルサイズが小さいところもありますが、この分析が正しければ、それなりに地域差があるような感じでした。
例数が多いので検定結果は有意になりますが、相関比が0.19ですと、むしろ「地域差は小さい」と解釈した方が良いと思います。相関比が0.3〜0.4以上あれば「地域差がある」と考えても良いと思います。

> また、便中からサンプリングした場合、便の重量と便1gあたりの細菌数で便の特定の細菌のから分母は推定できるみたいですが、まだ、生体内の菌の分母は分からないみたいです。
> 便と腸の細菌数の桁数が違うので、これでは、生体ではなく便の解析で臨床家には意味がないので更なる技術革新を待っているところです。
> 10,000リードあたりのOTUに関してもサンプル中の(準)母集団からランダムサンプリングを繰り返して得られたもので組成を正しく反映しているみたいでした。
> やはり、細菌叢解析は組成や比で何菌が多いとどうだみたいなことしか生体内の菌叢を反映していないような気がします。
これは全く同感ですね。僕も今後の技術革新を期待しています。

> https://microbiome.nibiohn.go.jp/jmd-publicのサイトからOTUやBDHQなどの情報を抽出して主成分分析を行っていますが、
> 特定の食品のカロリー摂取と細菌の関連などは様々な食品摂取によってそもそも出すのが困難でいい関係性を見出すのが今のところできませんでした。
> 主成分分析によりgreen teaのカロリー摂取量で3グループにきれいに分けられました。
> (biplotでコーヒーとビールが似たベクトルでこれでも分類できそうでした)
green teaのカロリー摂取量で主成分スコアのプロットが3グループに分けられるのなら、green teaのカロリー摂取量を目的変数にし、主成分スコアを説明変数にした重回帰分析で良い結果が得られると思います。主成分スコアはお互いに無相関ですから、重回帰分析結果の解釈は簡単だと思います。
またコーヒーとビールは相関が高いことが多いので、主成分負荷量が似た値になりがちです。そのためbiplotを描くと主成分負荷量ベクトルが似たものになりがちです。
ちなみにbiplotは見にくいので、僕はあまり使いません。(^_^;) そのため当館の「統計学入門」では、主成分スコアの散布図と主成分負荷量のプロットを別々に描いています。そして主成分分析の結果を検討する時は、それらのグラフを並べて見比べるようにしています。

> おもしろいことに独自に開発されたβ多様性解析でUniFrac距離の解析ですべて原点に集約されて何もできなくなりました!
全ての菌を独立という前提で求めるβ多様性の性質から考えて、大いに有り得ることだと思いますよ。

> 合理的な解釈ができる結果を得るのは難しいですが、考え続けようと思います。
教えていただいた解析結果は、大いに参考になりました。さらなる進展に期待しています。
今後ともよろしくお願いします。m(_ _)m

1935. 細菌叢解析 投稿者:北の大学院生 投稿日:2023/07/18 (Tue) 11:14:55 [返信] [削除]
杉本様
いつも大変お世話になっています。

細菌叢解析に関して色々と調べました。
世界的にメジャーな2門で ratio of Firmicutes/Bacteroidetesのなにかとの順位相関の解析が流行っているみたいでした。ほとんどの人でこの2門は観測されているからだと推察されます。特にBMIが多かったです。
そこで、F/Bと何かの属性で(順位)相関比やLN(F/B)で相関比を求めることを考えたのですが、これらは一応意味があることでしょうか。

ご教授お願いいたします。

6地域と順位相関比は0.21(0.17~0.27)、Kruskal-Wallis chi-squared = 70.859, df = 5, p-value = 6.788e-14(p ˶ˆ꒳ˆ˵)、N = 1515(48,175,190,329,386,387)で、相関比は0.19、サンプルサイズが小さいところもありますが、この分析が正しければ、それなりに地域差があるような感じでした。今後、地域差の原因を探ろうと考えています。個人的にはずっといる北の大地の平均的な細菌の組成が気になっています。(Deep Lでp/0.01を翻訳したら(p ˶ˆ꒳ˆ˵)になり“*”よりも素晴らしいと思ってこれから(p ˶ˆ꒳ˆ˵)を使うことにしました。)

また、便中からサンプリングした場合、便の重量と便1gあたりの細菌数で便の特定の細菌のから分母は推定できるみたいですが、まだ、生体内の菌の分母は分からないみたいです。便と腸の細菌数の桁数が違うので、これでは、生体ではなく便の解析で臨床家には意味がないので更なる技術革新を待っているところです。

10,000リードあたりのOTUに関してもサンプル中の(準)母集団からランダムサンプリングを繰り返して得られたもので組成を正しく反映しているみたいでした。やはり、細菌叢解析は組成や比で何菌が多いとどうだみたいなことしか生体内の菌叢を反映していないような気がします。


https://microbiome.nibiohn.go.jp/jmd-publicのサイトからOTUやBDHQなどの情報を抽出して主成分分析を行っていますが、特定の食品のカロリー摂取と細菌の関連などは様々な食品摂取によってそもそも出すのが困難でいい関係性を見出すのが今のところできませんでした。主成分分析によりgreen teaのカロリー摂取量で3グループにきれいに分けられました。(biplotでコーヒーとビールが似たベクトルでこれでも分類できそうでした)
おもしろいことに独自に開発されたβ多様性解析でUniFrac距離の解析ですべて原点に集約されて何もできなくなりました!

合理的な解釈ができる結果を得るのは難しいですが、考え続けようと思います。
今後ともよろしくお願いいたします。

1934. Re[1933]:[1932]:Bray-Curtis 距離とβ多様性 投稿者:北の大学院生 投稿日:2023/06/22 (Thu) 13:05:22 [返信] [削除]
杉本様
いつも大変お世話になっています。丁寧な回答をありがとうございます。

最近はやりの細菌叢解析の疑問点がかなり解決しました。

私は、観測数のα多様性だけは、人の腸内細菌などではある程度同じ程度になると思い、極端に小さいものと大きいものは、16S RNAの抽出に失敗したことやコンタミによる汚染でサンプルの信頼性が低いという程度の情報だと思っています。その他のα多様性の指標は希少種を重要視していますが、希少種の考え方が生態系では保護すべきですが、体内では駆逐すべきだったり、保護すべきだったりと解釈は難しかったです。
β多様性の指標はどう使えばよいかあまり分からずに生態系観測のようなデータを自作してRのveganで試していました。

”細菌叢データはQOL等に用いられる尺度開発用アンケートデータと似たようなもの”と考えるとかなりわかりやすいです!!

研究は奥深く、このように気楽に質問できる環境を作っていただき誠にありがとうございます。大学と違いわからないことを専門家に聞けて本当に助かります。

別件ですが連動率に関してデータを解析しましたが、上司に受け入れてもらえなさそうでした( ;∀;)
16人で連動率38.6%(8~75.9%)とパイロット試験で悪くない結果でしたが……
期待していた望ましい結果ではなかったのだと推察しています。

さらに、群内変化の検定は群間比較よりも偽陽性が高くなるのであまり良くないと説明していますが、私の説明力不足のためか、偽陽性でも結果が欲しいのかで受け入れてもらえません。


今の大学は研究機関とは、言え……と思ってしまいます。

今後ともよろしくお願いいたします。

1933. Re[1932]:Bray-Curtis 距離とβ多様性 投稿者:杉本典夫 [URL] 投稿日:2023/06/22 (Thu) 10:08:33 [返信] [削除]
>北の大学院生さん
> 門レベルで主成分分析を行ってみました。
> cor=Fで行うとCompが2までで寄与率85%でComp1は主要2門、comp2は次に多い3門と主要2門のLoadingsとなり、結果としては分かりやすい内容でした。
僕は、まず5門別に菌の測定値を用いて因子分析と主成分分析を行い、それによって抽出された因子と主成分を用いてさらに因子分析と主成分分析を行うという2段階の解析を行いました。
そして統合した因子スコアと主成分スコアについて、臨床症状およびバイオマーカーとの単・重回帰分析と単・重相関分析を行いました。
結果は、ほとんど全ての因子と主成分は臨床症状およびバイオマーカーとの関連性が認められずネガティブでした。

> Bray-Curtis 距離を使用するには、分母?条件をそろえる必要があるということであっていますでしょうか。
僕はα多様性とβ多様性をあまり評価していないので、これらの指標を用いた解析は行いませんでした。(^_^;)
理由は簡単で、これらの指標は菌種間の相関を考慮していないので、統計学的にはあまり合理的な指標ではないからです。
α多様性の指標は、各菌種はお互いに独立である(つまり無相関)という暗黙の前提をおいた因子スコアまたは主成分スコアに対応します。
そしてβ多様性の指標は、各菌種はお互いに独立であるという暗黙の前提をおいた多次元尺度構成法(測定項目間の相関の代わりに個体間の距離または類似性を用いた主成分分析)やクラスター分析で用いる距離または類似度に対応します。
これらの指標を考案した人は、因子分析や多次元尺度構成法という、このようなデータを解析するために開発された従来の統計手法の原理をあまり理解していないのではないかと思います。
当館では多次尺度構成法(MDS:Multi Dimensional Scaling)について詳しくは説明していませんが、クラスター分析の最後で少し説明しているので参考にしてください。
○20.3 各種のクラスター分析結果
http://www.snap-tck.com/room04/c01/stat/stat20/stat2003.html
※このページの最後でMDSについて少し説明しています。(^_-)

僕は、細菌叢データはQOL等に用いられる尺度開発用アンケートデータと似たようなものと考えています。
そのため多数の細菌叢データを少数の因子によって科学的に解釈すると同時に、各個体の因子スコアをQOLで用いられる下位尺度に相当する指標として用いて、色々な臨床症状やバイオマーカーとの関連性を検討したいと思っています。
以前、腎疾患患者のm-RNAデータを解析した時、因子分析を用いて尺度開発のような解析を行い、腎疾患のバイオマーカーに相当する指標を考案したことがあります。またDNAのSNPsデータに因子分析を適用して、色々な疾患のリスクを表す指標を開発したこともあります。
そのため細菌叢データについても、これらと同様のアプローチをしたわけです。
しかし細菌叢データは、御指摘のように検査原理から考えて相対的な割合しか測定できません。
そのため、これは白血球分画データと似たような性質のデータと考えられます。白血分画データの場合は、白血球数を全体のレベルを表すデータとして利用すれば、レベルとパターンを表す因子または主成分を抽出することができます。
しかし細菌叢データの場合、白血球数のように全体のレベルを表すデータが測定しにくいらしく、菌叢解析を行った研究施設に相談しましたが、残念ながらそのようなデータは得られませんでした。
これらの事情を考慮すると、細菌叢データについてQOL等のような尺度開発を行って臨床症状やバイオマーカーとの関連性を検討するのは、現段階ではまだまだ難しいような気がします。

1932. Bray-Curtis 距離とβ多様性 投稿者:北の大学院生 投稿日:2023/06/21 (Wed) 13:05:49 [返信] [削除]
杉本様
いつも大変お世話になっています。

門レベルで主成分分析を行ってみました。cor=Fで行うとCompが2までで寄与率85%でComp1は主要2門、comp2は次に多い3門と主要2門のLoadingsとなり、結果としては分かりやすい内容でした。

計算の練習で架空のデータを作ってシミュレーションとしてβ多様性解析で、条件をある程度揃えたり、ランダムサンプリングなどの工夫を行わないで、細菌叢解析においてBray-Curtis 距離で解析するといわゆる個体観測である生態系観測のデータの解析のように正しい値が出なくなってしまいました。

Bray-Curtis 距離を使用するには、分母?条件をそろえる必要があるということであっていますでしょうか。

(Jaccard距離は0,1なのでどのような時でも正しい値なので、仕方なくJaccard距離で解析しています。)

ご教授お願い致します。
今後ともよろしくお願いいたします。

1931. Re[1930]:[1928]:組成データの相関係数 投稿者:北の大学院生 投稿日:2023/06/21 (Wed) 10:10:13 [返信] [削除]
杉本様
いつも大変お世話になっています。丁寧な回答をありがとうございます。

構成割合ではやはり、平均値を出して平均的な割合が分かるだけだとういうことが分かりました!
因子分析や主成分分析を行ってみようと思います。

先日のサイトではリード深さなどがある程度同じかどうかなどよくわかりませんが、すべて分母が10,0000リードと決め打ちされていて、分子がランダムサンプリングで得て平均値にしたものなのかなど本当に解析に使えるかが気になりますが、……

リードをすべて10,000にしていたら希薄化曲線がプラトーに達していて解析に使えるデータかも怪しいです。

構成割合を出して、10,000をかけただけならば、解析の意味が⁉っと思ってしまいます。

今後ともよろしくお願いいたします。

1930. Re[1928]:組成データの相関係数 投稿者:杉本典夫 [URL] 投稿日:2023/06/21 (Wed) 08:29:15 [返信] [削除]
>北の大学院生さん
うっかりして書き忘れてしまいましたが、細菌叢のデータに因子分析や主成分分析に適用する時は実測値のままか、それを対数変換した値を用います。
構成割合にするとレベルの情報を潰してしまうので、うまく解析でないんですよ。(^_-)

1929. Re[1928]:組成データの相関係数 投稿者:杉本典夫 [URL] 投稿日:2023/06/21 (Wed) 08:25:26 [返信] [削除]
>北の大学院生さん
お久しぶりです!(^o^)/

> 最近、細菌叢解析で組成データの解析を行ってみたのですが、細菌の種類ごとに構成割合を%で出して、全体で100%になるデータです。
細菌叢解析は細菌、いや最近の流行りですね。(^_^;)
先日、僕も細菌叢解析を行いましたよ。データに恣意性があり、誤差も多いので、信頼性が相当に低い結果でした。
僕は遺伝子解析と同様に、因子分析と主成分分析を細菌叢データに適用して解析しました。遺伝子や細菌叢のように、お互いに相関がある非常に多項目のデータは、因子分析で少数の因子を抽出するか、主成分分析で少数の主成分を抽出して解析するのが常套手段です。
因子分析は、抽出された因子を科学的かつ合理的に解釈できるかどうかがキモです。それに対して主成分分析は、抽出された主成分を科学的かつ合理的に解釈できるかどうかがキモです。
僕が行った細菌叢解析の結果では、抽出された因子を科学的かつ合理的に解釈するのは困難でした。主成分の場合は、たいてい全体の値が大きいか小さいかを表す「レベルの主成分」と、多項目の相対的な割合を表す「パターンの主成分」が抽出されます。そのため主成分の方が解釈が比較的容易でした。
因子分析と主成分分析については、当館の統計学入門の第16章と第17章を参考にしてください。(^_-)

1928. 組成データの相関係数 投稿者:北の大学院生 投稿日:2023/06/20 (Tue) 13:22:40 [返信] [削除]
杉本様
いつも大変お世話になっています。

最近、細菌叢解析で組成データの解析を行ってみたのですが、細菌の種類ごとに構成割合を%で出して、全体で100%になるデータです。
幾何平均でそれぞれを割り自然対数をとり、定数和制約をなくして解析をしてみたのですが、構成しているもののうち、1つは幾何平均値のための情報なので、無視して、偏相関係数を出してみたところ、やはり負の相関しかありませんでした。これはすべて足すと100%になるので、一方の割合が上昇すると他方は減少するという組成データの宿命を反映しているということであっているでしょうか。

また、組成データの良い解析方があったら教えていただければ幸いです。

ご教授お願いいたします。

下記URLから得た公開データで解析してみたところ、日本人の4つの地域や性別で主要な門レベル4つの細菌叢の構成割合はほとんど同じでした。
日本人は皆さん同じような食生活などであることが推察されます。
https://microbiome.nibiohn.go.jp/

今後ともよろしくお願いいたします。

1927. Re[1926]:[1925]:因子分析 投稿者:北の大学院生 投稿日:2023/04/13 (Thu) 09:31:00 [返信] [削除]
杉本様
いつも大変お世話になっています。丁寧な回答をありがとうございます。

元データの相関行列Rなどの情報がないとうまく因子分析が行えているかわからないという結論にいたるんですね!

一般的な評価だったので、特定の疾患でうまく評価できているか自分で確かめるのが現実的だと思い、問診表なので多数のデータ収集を検討することにいたしました。

今後ともよろしくお願いいたします。

1926. Re[1925]:因子分析 投稿者:杉本典夫 [URL] 投稿日:2023/04/13 (Thu) 09:11:30 [返信] [削除]
>北の大学院生さん
> 累積寄与率が46%で3つの下位尺度に分類されていますが、あまりうまく因子分析が行われていないと感じ、
> カイザー・メイヤー・オルキンのサンプリング適切性基準や尤度比検定を利用して因子モデルによって
> 観測されたデータがうまく復元できるかどうかの検定などで確認したいのですが、
> 質問項目数、因子負荷量、因子間の相関係数、α係数からのみでうまく因子分析が行えているか確かめることはできますか。
> (共通性25%、独自性75%で乱数でデータを作り出して計算はできなさそうだと思いました。)
尤度比検定の計算には元データの相関行列Rが必要です。そのため上記の情報だけで計算するのは難しいと思います。
尤度比検定の計算式は次のページの「17.1 因子と因子分析 (注2)」に記載してあります。
http://www.snap-tck.com/room04/c01/stat/stat17/stat1701.html#note02

> 新規医療機器の測定は回帰分析でNRSと連動してうまく評価できるような結果(連動の回帰分析を勉強させていただきました)で
> 痛みの評価をNRSとは別の1次元で評価できると思いよかったです。(NRS:新規指標=1:15-20くらいでした。)
それは良かったです! 連動回帰分析は少々ややこしい手法なので、利用してくれる人が少ないんですよね。

> (*http://www.snap-tck.com/room04/c01/stat/stat17/stat1701.html#:~:text=%E8%A1%A817.1.1%E3%81%AE%E5%AF%84%E4%B8%8E%E7%8E%87%E3%81%AF%E5%90%84%E5%9B%A0%E5%AD%90%E3%81%AE%E5%9B%A0%E5%AD%90%E8%B2%A0%E8%8D%B7%E9%87%8F%E3%82%92%E5%B9%B3%E6%96%B9%E3%81%97%E3%81%A6%E5%90%88%E8%A8%88%E3%81%97%E3%81%9F%E5%80%A4%E3%81%A7%E3%81%99%E3%80%82の部分ですが合計ではなく、平均値だと思われます。)
これは、御指摘のとおり「平均」のタイプミスです! 早速、御指摘の部分を訂正しておきました。
当館にはこういうタイプミスがちょくちょくあるので(^^;)、指摘していただくと大いに助かります。
御指摘ありがとうございました。これらからも、よろしくお願いします。m(_ _)m

1925. 因子分析 投稿者:北の大学院生 投稿日:2023/04/12 (Wed) 21:27:31 [返信] [削除]
杉本様、いつも大変お世話になっています。

因子分析に関して質問です。
因子分析で因子負荷量と因子間の相関係数、α係数のみが公表された因子分析の論文があります。
そこから、ss loadingsと寄与率、独自性や共通性も計算できました。

累積寄与率が46%で3つの下位尺度に分類されていますが、あまりうまく因子分析が行われていないと感じ、カイザー・メイヤー・オルキンのサンプリング適切性基準や尤度比検定を利用して因子モデルによって観測されたデータがうまく復元できるかどうかの検定などで確認したいのですが、質問項目数、因子負荷量、因子間の相関係数、α係数からのみでうまく因子分析が行えているか確かめることはできますか。(共通性25%、独自性75%で乱数でデータを作り出して計算はできなさそうだと思いました。)

また、最近までマクギル疼痛質問表で因子分析も行えるようになりましたが、一部のデータが極端な値で、ほとんどが平均以下の値になり、さらに既存の下位尺度の分類通りにならず、質問項目を検討しないと新しくある疾患の痛みをうまく測れないことが分かりました。

新規医療機器の測定は回帰分析でNRSと連動してうまく評価できるような結果(連動の回帰分析を勉強させていただきました)で痛みの評価をNRSとは別の1次元で評価できると思いよかったです。(NRS:新規指標=1:15-20くらいでした。)

(*http://www.snap-tck.com/room04/c01/stat/stat17/stat1701.html#:~:text=%E8%A1%A817.1.1%E3%81%AE%E5%AF%84%E4%B8%8E%E7%8E%87%E3%81%AF%E5%90%84%E5%9B%A0%E5%AD%90%E3%81%AE%E5%9B%A0%E5%AD%90%E8%B2%A0%E8%8D%B7%E9%87%8F%E3%82%92%E5%B9%B3%E6%96%B9%E3%81%97%E3%81%A6%E5%90%88%E8%A8%88%E3%81%97%E3%81%9F%E5%80%A4%E3%81%A7%E3%81%99%E3%80%82の部分ですが合計ではなく、平均値だと思われます。)

今後ともよろしくお願いいたします。

1924. Re[1923]:[1922]:多重性に関して 投稿者:北の大学院生 投稿日:2023/04/12 (Wed) 21:20:26 [返信] [削除]
杉本様
いつも大変お世話になっています。丁寧な回答をありがとうございます。

“いいとこどりをして都合の良い解釈”をしないように気を付けます。

臨床研究のように多変量解析をとも思いましたが、
コントロールが1で見たいものはコントロールの何倍かしか分からないなど相対評価のものもあり、さらにそもそも生物学的に意味がある差なのかもわからないものもあり、色々と調べて基礎研究も行おうと思います。

1923. Re[1922]:多重性に関して 投稿者:杉本典夫 [URL] 投稿日:2023/04/11 (Tue) 09:28:54 [返信] [削除]
>北の大学院生さん
お久しぶりです!(^o^)/

> この時、たとえば、20個の検定ですべてが5%の有意水準で有意になった場合は1つは期待値的に偽陽性であると考えられますが、
> このような場合は実験を繰り返し、同様の結果を確認するまたは、有意水準をより厳しくするなどのことを行ったほうがよいですか。
> そもそも、複数の項目を調べた場合、Bonferroni法などで有意水準を調整する必要はありますか。
多重性のキーワードは”いいとこ取り”です。
複数の検定結果について、1つでも有意になっていれば、それを”いいとこ取り”してファミリーとしての結論――例えば「新薬はプラセボよりも有効である」という結論――を採用する時は、1つ1つの検定について多重性の調整が必要です。
つまり複数の検定が独立なら、新薬とプラセボの有効性が同じでも、検定を20回行えば1回くらいは有意になる、つまり偽陽性になる(αエラーが5%)ので、1回1回の検定の有意水準を5%/20にする必要があるわけです。
しかし複数の検定結果について、1回1回の検定結果を”いいとこ取り”せず、それぞれを独立に評価するのなら多重性の調整は必要ありません。
例えば二元配置分散分析では、要因Aと要因Bについてそれぞれ検定します。その場合、要因A(例えば薬剤の有無)と要因B(例えば性別)の検定結果は独立に評価し、それらを”いいとこ取り”してファミリーとしての結論を採用するわけではありません。そのため要因Aと要因Bの検定に多重性の調整は行いません。

御質問の色々なサイトカインの例では、複数の検定結果を”いいとこ取り”してファミリーとしての結論を採用するのなら多重性の調整が必要です。しかし複数の検定結果をそれぞれ独立に評価し、”いいとこ取り”してファミリーとしての結論を採用するわけではないのなら多重製の調整は必要ありません。
これについては、当館の次のページで紹介している「ワインとソムリエの話」と「名医と藪医者のたとえ話」がわかりやすいと思います。(^_-)
・4.1 多標本の計量値 (1)データに対応がない場合 2) 多重比較
http://www.snap-tck.com/room04/c01/stat/stat04/stat0401.html

それから多重性の調整は、原則として複数の検定が独立という前提で行います。もし複数の検定が独立ではない時は検定間の相関を考慮して多重性の調整を行う必要があり、それには非常に面倒な計算が必要です。
色々なサイトカインの場合は、それぞれが独立というわけではなく相関があると思います。そのような場合、むしろ多変量解析によって複数のサイトカインの関係を分析し、その結果を検討して総合的に評価した方が良いと思います。
例えば新薬の臨床試験では主要評価項目と副次評価項目があり、それらの間にはたいてい相関があります。そのようなデータを解析する場合、僕が薬業界で生息していた時(^^;)は、それぞれの項目について検定と区間推定を行い、その結果を総合して新薬の有効性を評価していました。
しかし薬業界から足を洗った現在は、原則として検定と区間推定は主要評価項目についてだけ行います。そして主要評価項目を目的変数にし、副次評価項目を説明変数にした重回帰分析を行い、主要評価項目に対する副次評価項目の影響を分析します。それによって主要評価項目と副次評価項目の関係と、それらに対する新薬の効果を総合的に検討することができます。
この方法は多重性の調整が必要ではなく、しかも複数の評価項目の関係を分析して総合的に評価できるので実際的だと思います。

以上、参考になれば幸いです。(^_-)

1922. 多重性に関して 投稿者:北の大学院生 投稿日:2023/04/10 (Mon) 09:04:54 [返信] [削除]
杉本様
いつも大変お世話になっています。

基礎研究でさまざまなサイトカインを測り、同時にいくつもの検定を行うことがあります。

この時、たとえば、20個の検定ですべてが5%の有意水準で有意になった場合は1つは期待値的に偽陽性であると考えられますが、このような場合は実験を繰り返し、同様の結果を確認するまたは、有意水準をより厳しくするなどのことを行ったほうがよいですか。

そもそも、複数の項目を調べた場合、Bonferroni法などで有意水準を調整する必要はありますか。(私はある程度、スクリーニングでなければ調整すべきとかんじています)

今後ともよろしくお願いいたします。

1921. Re[1920]:[1918]:測定限界の値の扱いについて 投稿者:北の大学院生 投稿日:2022/12/19 (Mon) 12:04:37 [返信] [削除]
杉本様
いつも大変お世話になっています。丁寧な回答をありがとうございます。

測定限界値と理論的な上限値の平均値を用いるのか、理論的な上限値が存在しない時は、妥協案として測定限界値よりも科学的に意義がある値だけ高い値を用いるという方法で対応しようと思います。

外れ値の処理方法を勉強をさせていただきます。
切断効果が現れてしまうかもしれませんが外れ値の集団だけでサブ解析なども考えてみます。

もっと正しいデータの扱い方をしっかりと勉強しなおします。
今後ともよろしくお願いいたします。

1920. Re[1918]:測定限界の値の扱いについて 投稿者:杉本典夫 [URL] 投稿日:2022/12/18 (Sun) 17:21:26 [返信] [削除]
>北の大学院生さん
>> 測定限界の上限を超えた場合の値はどのように処理するのが一般的なのでしょうか。
1919番の返事を書いた後で、上記の御質問の意味が「測定限界上限より上の、非常に高い値の時」という意味だと思い当たりました!

普通の検査では、実際の臨床現場で有り得る上限値または理論的な上限値よりも高い値まで測定可能な測定系を使用すると思います。疾患などでは臨床検査値が非常に高い値になることがあるので、そのような値を測定できない測定系は臨床現場では不都合だからです。そのため測定限界上限を超える値があるということは、用いた測定系が不適切と考えられます。
もしそのような測定系を使わざるを得ないとしたら、測定限界の上限を超えた場合は、測定限界値と理論的な上限値の平均値を用いるのが合理的ということになると思います。理論的な上限値が存在しない時は、妥協案として測定限界値よりも科学的に意義がある値だけ高い値を用いるという方法が考えられます。
そしてそのような値は「外れ値」になると思いますので、一般的な外れ値の処理方法に従って処理するのが妥当だと思います。外れ値の処理方法については、当館の次のページを参考にしてください。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→2.6 尺度合わせと外れ値 (2)外れ値
http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html

1919. Re[1918]:測定限界の値の扱いについて 投稿者:杉本典夫 [URL] 投稿日:2022/12/18 (Sun) 09:39:15 [返信] [削除]
>北の大学院生さん
しばらく家を留守にしていて、返事が遅くなってしまってすいません。m(__;)m

>> 測定限界についてなのですが、測定限界値以下のデータは、0と測定限界値の平均値として解析に入れるのは、
>> 歯科の精密触覚機能検査講習時に理由は知らされずにそうする(下限は0.008gなので分かれば0.004gと記録となっていました)と教わっていて、
>> 実際に歯科でもそのように扱っていました。
そうですか、それは基礎実験における一般的な測定限界値以下のデータの取り扱い通りですね。理由は簡単なので、理由までしっかり教えれば完璧ですね。

>> 測定限界の上限を超えた場合の値はどのように処理するのが一般的なのでしょうか。
測定限界の上限を超えれば実際の測定値が確定するはずですから、御質問の意味がわかりかねます。
もう少し詳しい説明をお願いします。

>> 以前からご指導いただいた、多変量解析のものは論文にして公表しようと思います。さらに、新規の医療機器の導入や評価指標の確立も順調に進んでいます。
そうですか、それは良かったですね!当館が何かのお役に立てたのなら、嬉しいですよ。(^_-)

1918. 測定限界の値の扱いについて 投稿者:北の大学院生 投稿日:2022/12/14 (Wed) 12:20:24 [返信] [削除]
杉本様
いつも大変お世話になっています。
先日も丁寧な返信、誠にありがとうございました。

測定限界についてなのですが、測定限界値以下のデータは、0と測定限界値の平均値として解析に入れるのは、歯科の精密触覚機能検査講習時に理由は知らされずにそうする(下限は0.008gなので分かれば0.004gと記録となっていました)と教わっていて、実際に歯科でもそのように扱っていました。

測定限界の上限を超えた場合の値はどのように処理するのが一般的なのでしょうか。やはり、限界値より上とするしかないのでしょうか。
ご教授お願いいたします。

以前からご指導いただいた、多変量解析のものは論文にして公表しようと思います。さらに、新規の医療機器の導入や評価指標の確立も順調に進んでいます。誠にありがとうございます。
今後ともよろしくお願いいたします。

1917. Re[1916]:[1915]:標準化α係数について 投稿者:北の大学院生 投稿日:2022/11/27 (Sun) 16:17:03 [返信] [削除]
杉本様、いつも丁寧な解説をありがとうございます。

時間をかけて貴Webページから学び、社会に還元できることを還元していきたいと思います。新規医療機器の導入などは何とか研究としてできそうな気がしてきました。
判別分析やクラスター分析の学習もじっくり行います。

いつもありがとうございます。
今後ともよろしくお願いいたします。

1916. Re[1915]:標準化α係数について 投稿者:杉本典夫 [URL] 投稿日:2022/11/25 (Fri) 09:14:41 [返信] [削除]
>北の大学院生さん
>> 質問なのですが、EZRでCronbachのα信頼性係数を出したときに標準化α信頼性係数が出るのですが、
>> これは他の効果量などと同様にaに関係なくでるα信頼性係数と解釈してよいのでしょうか?
標準化α係数は、計算に用いた項目を標準化(項目のデータから平均値を引いて偏差にし、それを標準偏差で割って平均値を0に、標準偏差を1にすること)した時のα係数のことです。
ICCは項目の分散を用いて求めるので、分散の大きな項目の影響が大きくなります。そのため項目の分散の影響を同じにするために、各項目のデータを標準化して分散を1にしてからICCを求めたものが標準化ICCです。
α係数は因子分析で用いられる指標であり、因子分析では計算に入れる項目が種々様々なので標準化α係数も参考にすることがあるのです。医学分野でICCを用いる時は、同じ項目を条件を変えて複数回測定した時の一致度の指標にすることが多いと思います。このような時は項目の分散はほぼ同じなので標準化ICCはめったに用いません。

ちなみに項目が2つの時のα係数=エーベルの級内相関係数は、相関係数と分散一致係数を掛けた値になります。そのため2つの項目を標準化すると分散一致係数が1になり、エーベルの級内相関係数は相関係数と一致します。これは僕が見つけた関係であり、分散一致係数も僕が考案した指標です。これについて当館の次のページに説明してあるので、興味があったら読んでみてください。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→6.2 データの要約と多変量解析 (注1)
http://www.snap-tck.com/room04/c01/stat/stat06/stat0602.html#note01
※「図6.2.4 相関係数の幾何学的解釈」の下にエーベルの級内相関係数と分散一致係数と相関係数の関係について説明してあります。

1915. Re[1896]:[1893]:ICCの必要例数について 投稿者:北の大学院生 投稿日:2022/11/24 (Thu) 12:38:14 [返信] [削除]
杉本様、いつも大変お世話になっています。

ICCに関して、貴WEBページから学ばさせていただき、エクセルシートをICC(1,b)とICC(3,b)、信頼区間に基づいた必要例数の計算などができるようになりました。

EZRで初期パッケージで可能なCronbachのα信頼性係数しか計算できませんでしたが、エクセルシートでかなりのことができました。
ご指導をありがとうございました。

ICC(1,b)などは分散で決まってしまうので、見積もりの分散でそもそも0.6や0.7を超えないと新たな指標としては信頼性に欠けるということがよくわかりました。

質問なのですが、EZRでCronbachのα信頼性係数を出したときに標準化α信頼性係数が出るのですが、これは他の効果量などと同様にaに関係なくでるα信頼性係数と解釈してよいのでしょうか?
ご教授お願いいたします。

今後ともよろしくお願いいたします。

1914. Re[1913]:[1912]:生存時間解析の基本について 投稿者:生存時間解析の初心者 投稿日:2022/11/17 (Thu) 17:18:41 [返信] [削除]
杉本さん
度々の回答ありがとうございます
生存例数は 生存率に寄与するのであり、時間は死亡例だけが影響を与える
ということですね、

一度基礎固めから行いたいと思います。

1913. Re[1912]:生存時間解析の基本について 投稿者:杉本典夫 [URL] 投稿日:2022/11/17 (Thu) 10:21:22 [返信] [削除]
>生存時間解析の初心者さん
>> ということは死亡例が500件だとすると 生存例、死亡例合計 125000 件以上の例数が欲しい という認識で良いのでしょうか?
いいえ、死亡例が500例あるのなら、その500例の死亡例だけを解析対象にしても、生存例を合わせて125000例を解析対象にしても、解析結果の信頼性はほとんど変わらないという意味です。
kaplan-Meier法による累積生存率曲線では、累積生存率曲線の形が変化するのは死亡例が発生した時だけであり、生存例や途中脱落例は累積生存率曲線の形を変化させないことから、生存時間に影響を与えるのは死亡例だけであることがわかると思います。
そしてそもそも「生存時間解析」は、色々な変数が生存率に与える影響を分析するのではなく、生存時間に与える影響を分析するための手法です。このことは生存率関数S(t)において、ハザードλは生存時間tの係数であって「S(t)=exp(-λ・t)」と表されていて、λは共変数xの1次関数として表されていることからわかると思います。生存時間解析に関する色々な誤解は、この根本的なことをしっかりと理解していないことに起因していると思います。

これまでの質問の回答は、ほとんど当館の「第11章 生命表解析」に書いてあります。そのため、まずはこの11章を――できれば(注)まで――しっかりと読んでから、質問してください。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→第11章 生命表解析
http://www.snap-tck.com/room04/c01/stat/stat11/stat1101.html

1912. Re[1911]:[1910]:サンプルサイズについて 投稿者:生存時間解析の初心者 投稿日:2022/11/16 (Wed) 12:18:37 [返信] [削除]
杉本さん 毎度詳しい回答ありがとうございます.

科学的研究の種類 を読んで学ばさせていただきます!

COX比例ハザード 行った際に 質問2番のようなケースが回帰係数が高く算出され
評価に困っていましたが、 実際信頼区間も広く算出されているため
信頼性について 検討していきたいと思います。

>> 例数≧{(死亡例数の2乗)/2 または 死亡例数×5}の大きい方の数値

ということは死亡例が500件だとすると 生存例、死亡例合計 125000 件以上の例数が欲しい という認識で良いのでしょうか?

手持ちのデータが 生存4500 死亡500 説明変数 たくさんあるが20ぐらいに選択予定 の場合 信頼性はやはり低くなるのか?

その場合区間で区切って データ数を減らし条件を満足させる必要があるのでしょうか? 大きな期間を用いているのでもともと期間を整理しようとは思っていました。

1911. Re[1910]:サンプルサイズについて 投稿者:杉本典夫 [URL] 投稿日:2022/11/16 (Wed) 10:18:41 [返信] [削除]
>生存時間解析の初心者さん
御質問にお答えします。

>> Cox 比例ハザードモデルを扱う上での質問です.
>> 1
>> 生存データが 何によって死亡するかを調べたい時, 用いる説明変数 一つずつ
>> ログランク検定を 行い生存例,死亡例のサンプルサイズが足りているか調べて行けばよいのでしょうか?
>> 年齢といった量的データは 必要サンプル数はどう判断するべきか?
多変量解析は記述統計的手法であり、探索的な統計手法です。そのため推測統計における「必要例数」という概念そのものがありません。
検証的な研究は、試験計画時に検証すべき具体的な作業仮説を設定します。そして主として推測統計学を用い、作業仮説に基づいて、統計的仮説検定については科学的に意義のある帰無仮説と対立仮説を設定し、区間推定については科学的に意義のある絶対精度(信頼区間の半分の範囲)を設定し、それらを元にして作業仮説を検証するのに必要な例数を求めます。
それに対して探索的な研究は、検証型研究の作業仮説を設定するための情報を収集することが主目的です。そのため試験計画時には具体的な作業仮説を設定していません。したがって統計的仮説検定の帰無仮説と対立仮説を設定できず、区間推定の絶対精度も設定できず、試験の必要例数は求められません。
多変量解析は、試験計画時に具体的な作業仮説つまり解析結果を設定するのは困難です。そのため主として探索的研究に用いられます。ただし多変量解析の場合は、解析結果が信頼できるための数学的な条件――例数、線型性、等分散性等々――はあります。例数については、経験的に次のような条件を満足している必要があると言われています。
・例数≧(変数の数の2乗 または 変数の数×10)の大きい方の数値
また生存時間解析の場合は、経験的に次のような条件を満足している必要があると言われています。
・例数≧{(死亡例数の2乗)/2 または 死亡例数×5}の大きい方の数値

詳しいことは、当館の次のページをじっくりと読んでください。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→1.8 科学的研究の種類 (注1)
http://www.snap-tck.com/room04/c01/stat/stat01/stat0108.html#note01
○玄関>雑学の部屋>雑学コーナー>統計学入門
→11.6 パラメトリック生命表解析 (注4)
http://www.snap-tck.com/room04/c01/stat/stat11/stat1106.html#note04

>> 2
>> また説明変数(例として男,女)をKMプロットした際に明らかに差があるがその説明変数が 女のデータが男に比べて極端に少ない時(サンプルサイズが足りていない時) 用いるべきではないのでしょうか?
女の例数が極端に少ない時は、全体の解析と、男だけの解析の両方を実施し、両者の解析結果を比較しながら総合的に検討する「感度分析」を行うのが常套手段ですね。
1番の回答に書いたように、多変量解析は探索的な手法です。そのため探索的な解析結果と割り切り、解析結果の信頼性の低さを考慮した上で解析結果について色々と検討すれば、ある程度の情報は得られると思います。

>> 3
>> 生存時間解析 の際 死亡例と生存例 5:5が理想だと思うが 1:9でも用いて良いのでしょうか?
これは多くの人が誤解していることですね。(~_~;)
1907番の書き込みで説明したように、生存時間解析は「全例が死亡する」という前提で理論を組み立てています。そのため解析結果に影響するのは死亡例のデーだけであり、生存例や脱落例はほとんど影響しません。したがって1番の回答に書いたように、解析結果が信頼できるための必要例数は死亡例数だけに依存します。

>> 4
>> 生存時間解析の際 年齢と言った量的変数はそのまま用いてもよいのか?
>> 10代20代といったように丸めたほうが良いのでしょうか?
計量データを丸めるのはもったいないので、お勧めしません。
データは、計量データ→順序データ→分類データの順にレベルが低くなり、情報量が少なくなります。そして計量データを丸めて順序データや分類データにした場合、境界値によって結果が変わります。そのため境界値を恣意的に操作することによって結果を恣意的に操作することができるので、結果の客観性と信頼性が低くなります。
レベルの高い尺度のデータをレベルの低い尺度のデータに変換することを「尺度合わせ」といいます。原則として、統計学では尺度合わせは禁じ手であり、お勧めできません。これについては、当館の次のページをじっくりと読んでください。(^_-)
○玄関>雑学の部屋>雑学コーナー>統計学入門
→2.6 尺度合わせと外れ値 (1) 尺度合わせ
http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html

1910. サンプルサイズについて 投稿者::生存時間解析の初心者 投稿日:2022/11/15 (Tue) 20:19:22 [返信] [削除]
主にサンプル数についての質問になります.

Cox 比例ハザードモデルを扱う上での質問です.
1
生存データが 何によって死亡するかを調べたい時, 用いる説明変数 一つずつ
ログランク検定を 行い生存例,死亡例のサンプルサイズが足りているか調べて行けばよいのでしょうか?
年齢といった量的データは 必要サンプル数はどう判断するべきか?
2
また説明変数(例として男,女)をKMプロットした際に明らかに差があるがその説明変数が 女のデータが男に比べて極端に少ない時(サンプルサイズが足りていない時) 用いるべきではないのでしょうか?
3
生存時間解析 の際 死亡例と生存例 5:5が理想だと思うが 1:9でも用いて良いのでしょうか?
4
生存時間解析の際 年齢と言った量的変数はそのまま用いてもよいのか?
10代20代といったように丸めたほうが良いのでしょうか?

質問がとても多くてすみません.
ご教授いただけると幸いです




1909. Re[1907]:[1906]:[1904]:[1903]:セミパラメトリックモデルとパラメトリックモデルについて 投稿者:北の大学院生 投稿日:2022/11/14 (Mon) 11:19:58 [返信] [削除]
杉本様、詳しい解説ありがとうございます。

生存時間解析は「全例が死亡する」という前提で理論を構築しています。そのため全例が死亡していない時は、解析結果は不正確になります。
このことは、全く考えたことがなかったです。

「全例が死亡する」のを観察できるのは動物実験で重篤な感染実験くらいしか思いつきません。
やはり、現実はよい近似モデルで推定しかできないと実感しました。

生存解析は時間や費用が掛かるので、しっかりと内容を整理して活用できるようになってから将来行いたいと思います。

研究者達が、「どうしても検定がしたい!」という気持ちや、望ましい結果(p<0.05)などを期待する気持ちで科学的な意味を考えていなかったり、論理の飛躍があったりと難しいですね!

1908. Re[1907]:[1906]:[1904]:[1903]:セミパラメトリックモデルとパラメトリックモデルについて 投稿者:生存時間解析の初心者 投稿日:2022/11/11 (Fri) 14:14:41 [返信] [削除]
杉本典夫さん 詳しい解説ありがとうございます。

生存解析の取り扱い方、認識が修正できて、質問してよかったです。

厳密にはハザード性が成り立たないのに
ハザード性が成り立つ前提のモデル COX回帰モデル...

モデルとしての前提条件が満たしていないモデルを使うのは 怖くはありますね


検定を行い比例ハザードが成り立たたなかったら 説明変数に使わないでいくのが無難に感じますね
(データ数多いから比例ハザードが成り立ってないけど 使っても良いと理屈で説明するのが現在の自分だと難しそう)