玄関＞会議室

会議室

この会議室はパソコン通信と同様のオンライン掲示板です。どんな話題でもかまわないので気軽にじゃんじゃん書き込んでください。

閲覧

投稿

過去ログ倉庫

No.1976 - 1992 / 17 件表示

1992. Re[1991]:[1990]:ブートストラップ法 投稿者:キッシー 投稿日:2025/12/15 (Mon) 13:21:20 [返信] [削除]: 「ブートストラップ法による推定・検定の正確性は、標本集団が母集団にどの程度近いかに依存します。」
その通りですね。
いつも的確な説明ありがとうございます。
感謝しております。

1991. Re[1990]:ブートストラップ法 投稿者:杉本典夫 [URL] 投稿日:2025/12/11 (Thu) 14:42:43 [返信] [削除]: ＞キッシーさん
お久しぶりですね！(^o^)／

> 統計処理の方法として「ブートストラップ法」を見たのですが、
> 今まで全く違う方法でデータをランダムに重複を許してリサンプルリングしたものの統計量を繰り返し計算して推定するらしいのですが、
> なぜうまく計算できるのか不思議です。この手法に対して先生の見解が知りたいです。

ブートストラップ法は、標本集団を擬似的に母集団と考え、そこから無作為抽出した擬似的な標本集団の標本統計量(標本平均値等)を求めるという作業を何度も繰り返し、それによって求めた標本統計量の平均値と分散を用いて本来の母集団の母数を近似的に推定したり検定したりする方法です。

これは「母集団がどんな分布をしていても、標本平均値等の標本統計量の分布は漸近的に正規分布に近似する」という中心極限定理に基づいています。

そしてたいていの統計手法は、標本統計量が正規分布するという前提で組み立てられています。

そのため標本集団が本来の母集団に近い時は、ブートストラップ法によって母数をわりと正確に推定・検定できますが、標本集団が本来の母集団と異なっている時は母数を正確に推測・検定できません。

ブートストラップ法は標本集団の標本統計量から母数を理論的に推定・検定できる時は利用されず、それが難しい時だけ利用されます。

その場合、ブートストラップ法による推定・検定の正確性は、標本集団が母集団にどの程度近いかに依存します。

そして標本集団の標本統計量から母数を理論的に推定・検定するのが難しい時は、たいてい標本集団が母集団にどの程度近いかは不明な時が多くなります。

そのため僕は、普通のデータ解析ではブートストラップ法はほとんど使わず、例えば机上の空論的な些細な点にツッコミを入れてくる論文の査読者を煙に巻く時(^^;)などに利用しています。

ブートストラップ法を用いて、中心極限定理がどの程度有効なのかシミュレーションした結果を「統計学入門」の付録2に記載しているので、参考にしてください。(^_-)

・付録2　中心極限定理のシミュレーション−平均値と中央値
http://www.snap-tck.com/room04/c01/stat/stat99/stat9902.html

1990. ブートストラップ法 投稿者:キッシー 投稿日:2025/12/09 (Tue) 23:02:14 [返信] [削除]: 統計処理の方法として「ブートストラップ法」を見たのですが、今まで全く違う方法でデータをランダムに重複を許してリサンプルリングしたものの統計量を繰り返し計算して推定するらしいのですが、なぜうまく計算できるのか不思議です。この手法に対して先生の見解が知りたいです。
先生の記載の内容ではなくてすみません。

1989. Re[1988]:[1987]:2群の経時データの解析について 投稿者:悩める開発担当者 投稿日:2024/11/11 (Mon) 16:18:22 [返信] [削除]: 杉本様

早々に、明快なご回答を有難うございます。
モヤモヤがスッキリしました。
ご紹介頂いたページで、じっくりと勉強してみます。
また、宜しくお願い致します。

1988. Re[1987]:2群の経時データの解析について 投稿者:杉本典夫 [URL] 投稿日:2024/11/11 (Mon) 08:45:48 [返信] [削除]: ＞悩める開発担当者様
お久しぶりですね！(^o^)／

> CROのレポートでは、0w,6w,12wの各ポイントで、それぞれ群間比較（t検定またはMann-Whitney U検定）を実施しています。これは、多重性の問題があると思いますが、如何でしょうか？
そのとおりです。全ての時点を評価時点にするのなら、当然、多重比較が必要です。

> 私の理解では、パラメトリックであれば、反復測定分散分析＋post-hoc検定だと思うのですが…
反復測定分散分析は適切ですが、post-hoc検定は不適切です。post-hoc検定は結果を見てから検定方法を選択する「後知恵」ですから、事前に必要例数を求められません。
多重比較を行うのなら試験計画段階で設定しておき、有意水準と検出力と検出差に基づいて多重比較に必要な例数を求めておかなければなりません。そして一般に、多重比較の必要例数は分散分析の必要例数よりも多くなります。

> また、ノンパラメトリックの場合は、Bonferroni補正すると理解しています。
ノンバラメトリック手法でもパラメトリック手法と同様に各種の多重比較があります。Bonferroni型の多重比較は効率が悪くて試験の必要例数が増えるので、できるだけ使わない方が良いですよ。(^_-)

反復測定データの評価方法については、当館の次のページを参考にしてください。
○玄関＞雑学の部屋＞雑学コーナー＞統計学入門
→4.3 繰り返しのある多標本・多時期の計量値　(5)繰り返し測定データの評価方法
http://www.snap-tck.com/room04/c01/stat/stat04/stat0403.html

またノンパラメトリック手法の多重比較については、次のページを参考にしてください。
○玄関＞雑学の部屋＞雑学コーナー＞統計学入門
→4.2 多標本の計数値　(注2)
http://www.snap-tck.com/room04/c01/stat/stat04/stat0402_1.html#note02

1987. 2群の経時データの解析について 投稿者:悩める開発担当者 投稿日:2024/11/10 (Sun) 12:55:11 [返信] [削除]: 杉本様

1年ぶりの投稿です。日々、臨床データの統計解析に悩まされています。
臨床試験の解析方法についての初歩的な質問で恐縮ですが、
2群（被験食品A群、対照C群）において、経時データ（0w,6w,12w）の3ポイントで群間比較する場合についてです。

CROのレポートでは、0w,6w,12wの各ポイントで、それぞれ群間比較（t検定またはMann-Whitney U検定）を実施しています。これは、多重性の問題があると思いますが、如何でしょうか？

私の理解では、パラメトリックであれば、反復測定分散分析＋post-hoc検定だと思うのですが…

また、ノンパラメトリックの場合は、Bonferroni補正すると理解しています。

1986. Re[1985]:[1984]:過去の内容 投稿者:キッシー 投稿日:2024/10/07 (Mon) 15:55:41 [返信] [削除]: いつもありがとうございます

1985. Re[1984]:過去の内容 投稿者:杉本典夫 [URL] 投稿日:2024/09/25 (Wed) 16:54:48 [返信] [削除]: ＞キッシーさん
荒らされた掲示板を復元したので、今は元通りになっています。
過去の書き込みは管理室の倉庫に保管してあるので、いつでも見ることができますよ。(^_-)

○玄関＞管理室＞倉庫
http://www.snap-tck.com/room08/c02/c02.html

1984. 過去の内容 投稿者:キッシー 投稿日:2024/09/25 (Wed) 16:01:16 [返信] [削除]: 昨日(8月27日)、掲示板を荒らされてしまいました。
とのことですが
過去（直近数年程度）の内容を見ることは出来ないのでしょうか
残念です

1983. Re[1982]:[1981]:推測統計について 投稿者:F.Y.Edgeworth 投稿日:2024/09/02 (Mon) 18:55:42 [返信] [削除]: 丁寧なご回答，ありがとうございます．

申し遅れましたが，私は教育系の出版社の外部協力者として原稿の吟味や編集者からの質問に応じる仕事をしております．今般の文科省の新カリキュラム（現在の高校３年生はそれを履修）での統計分野の拡充に伴い，推定，検定に関する原稿の扱い，そして，必然的（笑）にその中での誤りがコンスタントに発生しております．その多くは「推測統計の結論が数学的に厳密なものであり，現実世界の事象に対する正しい判断を与えている」といった捉え方によるもので，そうした誤解の原因は，今回ご案内いただいた現場での認識についての情報の乏しさに加え，推測統計が現実世界を対象とする以上，その構成には利用者の主観が不可欠である点の理解不足，および，編集者や原稿執筆者が参照している教科書や入門的解説における数学的主張と手法の利用上の同意事項との区別の曖昧さにあると思われます．

「教材は詰まるところ生徒さんが問題を解けるようになるためのものなので，問題文（日常的な設定になっている）で与えられた要素から信頼区間や棄却域を求められればよい」といってしまえばそれまでですが，製作者は本当のことを理解しておくことが望ましく，そのためには高等学校で扱う推測統計の手法を（大学程度の）数学の立場から眺め，手法における数学の担当部分を把握することが有効ではないかと考え，先のような説明文を作成した次第です．

以上，お時間をいただき，ありがとうございました．

1982. Re[1981]:推測統計について 投稿者:杉本典夫 [URL] 投稿日:2024/09/02 (Mon) 10:27:55 [返信] [削除]: ＞F.Y.Edgeworthさん

> 先日はありがとうございました．連続投稿となり恐縮ですが，以下の(1)から(8)は（数理統計学ではなく）伝統的な推測統計で利用される一部の手法の説明として適当でしょうか？（対象は学部程度の確率論の知識のある人）

数理統計学的立場なら適当ですが、伝統的な推測統計学的立場つまり研究現場で推測統計学を利用するための説明としては、ここまで数学的に厳密な説明は必要ないと思います。その理由は、研究現場では推測統計学はデータを要約するための道具のひとつにすぎないので、数学的な厳密さはあまり重要ではないからです。
そして現実問題として、現在の大部分の自然科学分野では、建前上は推測統計学を用いることになっていますが、実際にはたいていは記述統計学を用いることが多く、中心極限定理や確率論は必要ありません。その証拠に、これまで色々な論文に関与してきて、査読者から「データの正規性をチェックしたか？」などと指摘されたことは何度もありますが、「標本集団を母集団から無作為抽出したか？」という推測統計学の基本的な前提条件について指摘されたことは一度もありません。
無作為抽出していない標本集団には推測統計学は用いられず、記述統計学しか用いられません。そして研究現場の研究者はそのことを何となくわかっているので、一応、検定結果や推定結果を論文に記載しますが、実際に結果を考察する時にはそれらにあまり重きをおかず、平均値等の統計量を参考にします。
そのため検定や推定よりも、平均値や出現率や順位平均値等の統計量の特徴と、その科学的な意義の方が重要になります。数学的な厳密さにこだわると、ついついデータの正規性などにこだわり、科学的に不適切な統計量を採用してしまがちになります。それでは統計学を用いる意味がありません。
以上、参考になれば幸いです。

1981. 推測統計について 投稿者:F.Y.Edgeworth 投稿日:2024/09/01 (Sun) 09:00:59 [返信] [削除]: 先日はありがとうございました．連続投稿となり恐縮ですが，以下の(1)から(8)は（数理統計学ではなく）伝統的な推測統計で利用される一部の手法の説明として適当でしょうか？（対象は学部程度の確率論の知識のある人）

(1)以下では，Ｒを実数全体の集合，Ｂをそのボレル集合体とし，すべての確率変数は確率空間(Ω，Σ，Ｐ)から可測空間(Ｒ，Ｂ)への可測写像，また，Ｎ(0,1)は標準正規分布とする．

(2)手法の利用者は，観測から得た長さがNの実数列x_{1},...,x_{N}（データと呼ばれる）が観測対象に依存した「平均μ(∈Ｒ)と正の分散をもつ独立同分布の確率変数列X_{1},X_{2},...」の最初のN項の観測に依存したω(∈Ω)に対する値の列であると仮定する．以下では，任意の正の整数nに対して列X_{1},...,X_{n}（標本と呼ばれる）の平均を\bar{X}_{n}，標準偏差をS_{n}で表し，S_{n}>0と仮定する．

(3)古典的な中心極限定理，Slutskyの定理，大数の弱法則，連続写像定理，収束する確率変数列の和，積の性質により，(2)の確率変数列X_{1},X_{2},...と任意のc(∈Ｒ)について
\lim_{n\to\infty}Ｐ(|\bar{X}_{n}-μ|/(S_{n}/\sqrt{n})＜c)＝Ｎ(0,1)((-\infty,c])
が一様収束の意味で成り立つ．

(4)手法の利用者は，1に近いと考えたα(0＜α＜1)を設定し，Ｎ(0,1)((-\infty,c])=αの一意的に存在する解c(∈Ｒ)の値の小数表示を利用者が設定した位まで数表や計算機から求め，その表示の値を改めてcとおく．

(5)手法の利用者は，誤差の上界を設定せずに，(3)と(4)から，αをＰ(|\bar{X}_{N}-μ|/(S_{N}/\sqrt{N})＜c)の近似値と考える．

(6)頻度論的解釈と(5)から，手法の利用者は，観測を無限に繰り返すとき，長さがNの実数列を得るごとに，その各項を|\bar{X}_{N}-μ|/(S_{N}/\sqrt{N})＜cにおけるX_{1},...,X_{n}の各項に代入して得られる不等式のうち真であるものの相対度数はαに近づくと考える．

(7)手法の利用者は，(2)で得た実数列の各項を(6)のように代入して得られる不等式を利用者にとっては未知であるμについての条件と考え，それが定める集合を信頼係数αの母平均の信頼区間と呼び，この不等式に反するμについての条件を有意水準1-αで棄却される母平均の帰無仮説と呼ぶ．また，実務では，この不等式が真であるかのように扱うことがある．

(8)以上のうち，数学のみで構成できる対象，主張は(1)と(3)である．

1980. Re[1979]:[1978]:記述統計学と推測統計学について 投稿者:F.Y.Edgeworth 投稿日:2024/08/28 (Wed) 17:37:40 [返信] [削除]: 豊富な知見に基づくお考えをご案内いただき，誠にありがとうございました．今後の考察の参考とさせていただきます．

1979. Re[1978]:記述統計学と推測統計学について 投稿者:杉本典夫 [URL] 投稿日:2024/08/28 (Wed) 11:37:07 [返信] [削除]: ＞F.Y.Edgeworthさん

この掲示板は、掲示板荒らし対策をある程度はしていますが、昨日(8月27日)、掲示板を荒らされてしまいました。(~_~) そのため掲示板の書き込みを復元するのに、少々手間取ってしまいました。

> ＞「統計学は応用数学ではなく数学応用学だ」
> これは推測統計が数学の主張を統計手法の利用者の主観によるモデル化と解釈(interpretation)で挟んだものなので，数学の立場からは評価できないという意味でしょうか？
いえ、統計学は科学的研究を行うための数学的な道具のひとつにすぎず、統計学を用いてデータを要約した結果をそのまま盲信するのではなく、その結果を研究現場から得た経験に基づいて科学的に解釈することが大切である、という意味です。
例えば医学分野の研究では、非常に珍しい症例を見つけたら、その症例について詳細に報告する症例報告だけで意義のある論文になります。この場合、症例は1例だけですから統計学は必要ありません。そしてそれと同じような症例が複数例見つかれば、古典的な記述統計学を用いて複数のデータを要約した症例報告論文にします。
さらに同じような症例が多数例見つかり、それらの症例の母集団をある程度想定できれば、その母集団から少数例の標本を無作為抽出して標本集団を形成し、推測統計学を用いて標本集団のデータを要約して母集団の母数を推測し、それらの症例に関してある程度普遍性のある結果を得て論文を書きます。
例えば物理学分野の研究で物体の運動を解釈する場合、運動速度が遅い時は古典的なニュートンの運動法則の数式を用いれば実用上は十分です。しかし運動速度が非常に速い時は、相対性理論に基づいた運動法則の数式を用いて補正する必要があります。この場合、古典的なニュートンの運動法則が古典統計学つまり記述統計学に相当し、相対性理論に基づいた運動法則が近代統計学つまり推測統計学相当する、と考えればわかりやすいのではないかと思います。
ところが医学分野をはじめとする自然科学分野の研究で推測統計学を用いるには、大きな問題があります。それはほとんどの研究で、推測統計学の大原則である母集団から無作為抽出された標本集団を作成できない、ということです。
僕は主として医学・薬学分野のデータ解析屋を40年間以上やっていて、数百件の臨床試験や臨床研究に関わってきました。でも、きちんと規定された母集団から無作為抽出された標本集団を作成したことは一度もありません。僕が経験した臨床試験や臨床研究は、全て無作為標本(random sample)ではなく、手近な標本(handy sample)でした。
手近な標本は母集団から無作為抽出された標本集団ではないので、推測統計学を当てはめられず、検定も推定も無意味であり、母数を確率的に推測することは不可能です。したがって研究論文は多数例の症例報告という位置付けになり、その結果に普遍性はありません。これは中心極限定理による正規近似以前の大問題ですが、このことをしっかりと理解している医学・薬学分野の研究者は非常に少ないと思います。
数理統計学分野では、この大問題から目を逸して、推測統計学の数学的な問題を議論しがちだと思います。もちろん推測統計学の数学的な理論付けを厳密にすることは大切です。しかし研究現場のデータ解析屋である僕は、この大問題から目を逸らすわけにはいきません。そしてその対処法のひとつとして、推測統計学を用いて導き出した結果はあくまでも参考資料のひとつにすぎないので、そのまま盲信せず、研究現場から得た経験に基づいてそれらを科学的に解釈し、それを臨床現場に還元することが大切である、と考えています。
以上、参考になれば幸いです。

1978. 中心極限定理と正規近似 投稿者:F.Y.Edgeworth 投稿日:2024/08/27 (Tue) 19:57:58 [返信] [削除]: 早速のレス，ありがとうございます．

＞「統計学は応用数学ではなく数学応用学だ」
これは推測統計が数学の主張を統計手法の利用者の主観によるモデル化と解釈(interpretation)で挟んだものなので，数学の立場からは評価できないという意味でしょうか？

＞数学応用学的な観点からは、このシミュレーションの誤差程度なら、中心極限定理による正規近似を現実のデータに十分応用できると考えています。
であれば，そのことを「正規近似の根拠は中心極限定理ではなくシミュレーションと利用者の主観である」のように述べるのが適当な気がします．
極限についての数学の定理があり，現実世界で有限回だけ試した結果がその定理に反しないと判断した場合でも，現実世界での結果の根拠がその定理であると一般の人々に告げることは，何というか数学の権威に阿ているように見えます．
私は推測統計が答えを出さなければならない状況から編み出された手法であり，その答えに信憑性を与えなければならないことも理解しているつもりですが，主張の根拠を数学の定理に，答えが誤りとなる場合の原因（＝モデル化と解釈という行為自体）を数学の確率に求める姿勢は，数学に知見のある人々の疑念の温床となると考えています．

1977. Re[1976]:中心極限定理と正規近似 投稿者:杉本典夫 [URL] 投稿日:2024/08/27 (Tue) 10:08:39 [返信] [削除]: ＞F.Y.Edgeworthさん

はじめまして、当館の館長を務めている”とものり”こと杉本典夫と申します。m(_ _)m

中心極限定理と正規近似の質問をいただき、ありがとうございます。中心極限定理による正規近似の問題については、純粋数学分野と数理統計学分野と応用統計学分野の間でたまに議論になります。これは統計学をどのような学問として捉えるかで、統計学の解釈が異なるからだと僕は思っています。
僕は研究現場のデータ解析屋ですから、応用統計学分野の解釈に近くて「統計学は応用数学ではなく数学応用学だ」と思っています。
つまり正規分布のような確率分布に厳密に従うデータは厳密には存在しないが、実用的な有効数字範囲内(有効数字にして2〜4桁程度)なら近似的に確率分布に従うとみなすことができるので、現実のデータを確率分布でモデル化し、その確率モデルを用いてデータの標本統計量を数学的に求めて母数を推測し、現実のデータと確率モデルの誤差を考慮して母数を解釈することによって、現実のデータがどのような情報を持っているかを推測する、という統計モデルの考え方を支持しています。
これは端的に言えば「現実のデータを解釈するには、現実のデータの有効数字範囲内で近似した統計モデルでかまわない」という考え方であり、理論物理学が数学を応用して自然現象を解釈する時の考え方と同様です。この考え方に従えば、中心極限定理による正規近似について数学的に厳密な証明は必要ではなく、有効数字にして2〜4桁程度の近似でかまわず、値の範囲は現実のデータの範囲(例えば体重のデータなら、実数全体の集合Rではなく10〜200程度の実数範囲の集合)の近似でかまわない、ということになります。

参考までに、数理統計学分野における中心極限定理の証明を次のページに記載してあるので参考にしてください。
○玄関＞雑学の部屋＞雑学コーナー＞統計学入門
→1.3 データの要約方法　(注7)
http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html#note07'>http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html#note07

また中心極限定理をシミュレーションした結果を次のページに記載してあります。数学応用学的な観点からは、このシミュレーションの誤差程度なら、中心極限定理による正規近似を現実のデータに十分応用できると考えています。
○玄関＞雑学の部屋＞雑学コーナー＞統計学入門
→付録2　中心極限定理のシミュレーション−平均値と中央値
http://www.snap-tck.com/room04/c01/stat/stat99/stat9902.html'>http://www.snap-tck.com/room04/c01/stat/stat99/stat9902.html

以上、参考になれば幸いです。

1976. 中心極限定理と正規近似 投稿者:F.Y.Edgeworth 投稿日:2024/08/27 (Tue) 08:20:18 [返信] [削除]: 中心極限定理と正規近似についての質問です．

推測統計では「有限の平均μ，正の標準偏差σを持つ分布Pに従う独立な確率変数列の最初のn項の相加平均X_{n}（標本平均）を標準化したものは，nが十分大きいとき近似的に標準正規分布N(0,1)に従う」のように中心極限定理（の一つ）を述べ，それを根拠として，nが有限の場合の確率の近似値として正規分布から得た確率を利用（正規近似）するようです．
一方，実数全体の集合をR，整数全体の集合をZとすると，上記の定理は累積分布関数列の一様収束性
∀ε(ε＞0→∃m(m∈Z∧∀n(n∈Z∧m＜n→∀x(x∈R→|P((X_{n}-μ)/(σ/√{n})≦x)-N(0,1)((-∞,x])|＜ε))))
であり，mは誤差の上界ε，分布P，標本平均の列(X_{*})に依存します．
これに対して推測統計では，εを指定せず，P，(X_{*})も（当然）未知のまま「標本の大きさnは～以上ならよい」等と述べることが少なくなく，一般の人々が
(1)「nが十分大きいとき」というn→∞での挙動を表す表現を具体的なnの値に対するものと誤解すること
(2)「近似」という真値と近似値の差を誤差の上界で押さえることを指す表現を「およそ」，「正確ではないかもしれないが」といった意味に捉えること
を助長，容認しているように見えます．
「極限値の値が分かっても，有限の番号の項の値については何も分からない」という極限の基本的な性質に照らして，中心極限定理が正規近似の根拠となりえず，また「近似」を構成するための誤差の上界の指定もない（つまり，正規近似で得た確率と真値との差を評価できない）状況の下で，推測統計では，中心極限定理と正規近似とをどのように結び付けているのでしょうか？