玄関会議室

会議室

この会議室はパソコン通信と同様のオンライン掲示板です。 どんな話題でもかまわないので気軽にじゃんじゃん書き込んでください。

名前
表題
e-mail
URL
パスワード(削除用、英数字で20文字以内)
内容


No.1976 - 1983 / 8 件表示


1983. Re[1982]:[1981]:推測統計について 投稿者:F.Y.Edgeworth 投稿日:2024/09/02 (Mon) 18:55:42 [返信] [削除]
丁寧なご回答,ありがとうございます.

申し遅れましたが,私は教育系の出版社の外部協力者として原稿の吟味や編集者からの質問に応じる仕事をしております.今般の文科省の新カリキュラム(現在の高校3年生はそれを履修)での統計分野の拡充に伴い,推定,検定に関する原稿の扱い,そして,必然的(笑)にその中での誤りがコンスタントに発生しております.その多くは「推測統計の結論が数学的に厳密なものであり,現実世界の事象に対する正しい判断を与えている」といった捉え方によるもので,そうした誤解の原因は,今回ご案内いただいた現場での認識についての情報の乏しさに加え,推測統計が現実世界を対象とする以上,その構成には利用者の主観が不可欠である点の理解不足,および,編集者や原稿執筆者が参照している教科書や入門的解説における数学的主張と手法の利用上の同意事項との区別の曖昧さにあると思われます.

「教材は詰まるところ生徒さんが問題を解けるようになるためのものなので,問題文(日常的な設定になっている)で与えられた要素から信頼区間や棄却域を求められればよい」といってしまえばそれまでですが,製作者は本当のことを理解しておくことが望ましく,そのためには高等学校で扱う推測統計の手法を(大学程度の)数学の立場から眺め,手法における数学の担当部分を把握することが有効ではないかと考え,先のような説明文を作成した次第です.

以上,お時間をいただき,ありがとうございました.

1982. Re[1981]:推測統計について 投稿者:杉本典夫 [URL] 投稿日:2024/09/02 (Mon) 10:27:55 [返信] [削除]
>F.Y.Edgeworthさん

> 先日はありがとうございました.連続投稿となり恐縮ですが,以下の(1)から(8)は(数理統計学ではなく)伝統的な推測統計で利用される一部の手法の説明として適当でしょうか?(対象は学部程度の確率論の知識のある人)

数理統計学的立場なら適当ですが、伝統的な推測統計学的立場つまり研究現場で推測統計学を利用するための説明としては、ここまで数学的に厳密な説明は必要ないと思います。その理由は、研究現場では推測統計学はデータを要約するための道具のひとつにすぎないので、数学的な厳密さはあまり重要ではないからです。
そして現実問題として、現在の大部分の自然科学分野では、建前上は推測統計学を用いることになっていますが、実際にはたいていは記述統計学を用いることが多く、中心極限定理や確率論は必要ありません。その証拠に、これまで色々な論文に関与してきて、査読者から「データの正規性をチェックしたか?」などと指摘されたことは何度もありますが、「標本集団を母集団から無作為抽出したか?」という推測統計学の基本的な前提条件について指摘されたことは一度もありません。
無作為抽出していない標本集団には推測統計学は用いられず、記述統計学しか用いられません。そして研究現場の研究者はそのことを何となくわかっているので、一応、検定結果や推定結果を論文に記載しますが、実際に結果を考察する時にはそれらにあまり重きをおかず、平均値等の統計量を参考にします。
そのため検定や推定よりも、平均値や出現率や順位平均値等の統計量の特徴と、その科学的な意義の方が重要になります。数学的な厳密さにこだわると、ついついデータの正規性などにこだわり、科学的に不適切な統計量を採用してしまがちになります。それでは統計学を用いる意味がありません。
以上、参考になれば幸いです。

1981. 推測統計について 投稿者:F.Y.Edgeworth 投稿日:2024/09/01 (Sun) 09:00:59 [返信] [削除]
先日はありがとうございました.連続投稿となり恐縮ですが,以下の(1)から(8)は(数理統計学ではなく)伝統的な推測統計で利用される一部の手法の説明として適当でしょうか?(対象は学部程度の確率論の知識のある人)

(1)以下では,Rを実数全体の集合,Bをそのボレル集合体とし,すべての確率変数は確率空間(Ω,Σ,P)から可測空間(R,B)への可測写像,また,N(0,1)は標準正規分布とする.

(2)手法の利用者は,観測から得た長さがNの実数列x_{1},...,x_{N}(データと呼ばれる)が観測対象に依存した「平均μ(∈R)と正の分散をもつ独立同分布の確率変数列X_{1},X_{2},...」の最初のN項の観測に依存したω(∈Ω)に対する値の列であると仮定する.以下では,任意の正の整数nに対して列X_{1},...,X_{n}(標本と呼ばれる)の平均を\bar{X}_{n},標準偏差をS_{n}で表し,S_{n}>0と仮定する.

(3)古典的な中心極限定理,Slutskyの定理,大数の弱法則,連続写像定理,収束する確率変数列の和,積の性質により,(2)の確率変数列X_{1},X_{2},...と任意のc(∈R)について
\lim_{n\to\infty}P(|\bar{X}_{n}-μ|/(S_{n}/\sqrt{n})<c)=N(0,1)((-\infty,c])
が一様収束の意味で成り立つ.

(4)手法の利用者は,1に近いと考えたα(0<α<1)を設定し,N(0,1)((-\infty,c])=αの一意的に存在する解c(∈R)の値の小数表示を利用者が設定した位まで数表や計算機から求め,その表示の値を改めてcとおく.

(5)手法の利用者は,誤差の上界を設定せずに,(3)と(4)から,αをP(|\bar{X}_{N}-μ|/(S_{N}/\sqrt{N})<c)の近似値と考える.

(6)頻度論的解釈と(5)から,手法の利用者は,観測を無限に繰り返すとき,長さがNの実数列を得るごとに,その各項を|\bar{X}_{N}-μ|/(S_{N}/\sqrt{N})<cにおけるX_{1},...,X_{n}の各項に代入して得られる不等式のうち真であるものの相対度数はαに近づくと考える.

(7)手法の利用者は,(2)で得た実数列の各項を(6)のように代入して得られる不等式を利用者にとっては未知であるμについての条件と考え,それが定める集合を信頼係数αの母平均の信頼区間と呼び,この不等式に反するμについての条件を有意水準1-αで棄却される母平均の帰無仮説と呼ぶ.また,実務では,この不等式が真であるかのように扱うことがある.

(8)以上のうち,数学のみで構成できる対象,主張は(1)と(3)である.

1980. Re[1979]:[1978]:記述統計学と推測統計学について 投稿者:F.Y.Edgeworth 投稿日:2024/08/28 (Wed) 17:37:40 [返信] [削除]
豊富な知見に基づくお考えをご案内いただき,誠にありがとうございました.今後の考察の参考とさせていただきます.

1979. Re[1978]:記述統計学と推測統計学について 投稿者:杉本典夫 [URL] 投稿日:2024/08/28 (Wed) 11:37:07 [返信] [削除]
>F.Y.Edgeworthさん

この掲示板は、掲示板荒らし対策をある程度はしていますが、昨日(8月27日)、掲示板を荒らされてしまいました。(~_~) そのため掲示板の書き込みを復元するのに、少々手間取ってしまいました。

> >「統計学は応用数学ではなく数学応用学だ」
> これは推測統計が数学の主張を統計手法の利用者の主観によるモデル化と解釈(interpretation)で挟んだものなので,数学の立場からは評価できないという意味でしょうか?
いえ、統計学は科学的研究を行うための数学的な道具のひとつにすぎず、統計学を用いてデータを要約した結果をそのまま盲信するのではなく、その結果を研究現場から得た経験に基づいて科学的に解釈することが大切である、という意味です。
例えば医学分野の研究では、非常に珍しい症例を見つけたら、その症例について詳細に報告する症例報告だけで意義のある論文になります。この場合、症例は1例だけですから統計学は必要ありません。そしてそれと同じような症例が複数例見つかれば、古典的な記述統計学を用いて複数のデータを要約した症例報告論文にします。
さらに同じような症例が多数例見つかり、それらの症例の母集団をある程度想定できれば、その母集団から少数例の標本を無作為抽出して標本集団を形成し、推測統計学を用いて標本集団のデータを要約して母集団の母数を推測し、それらの症例に関してある程度普遍性のある結果を得て論文を書きます。
例えば物理学分野の研究で物体の運動を解釈する場合、運動速度が遅い時は古典的なニュートンの運動法則の数式を用いれば実用上は十分です。しかし運動速度が非常に速い時は、相対性理論に基づいた運動法則の数式を用いて補正する必要があります。この場合、古典的なニュートンの運動法則が古典統計学つまり記述統計学に相当し、相対性理論に基づいた運動法則が近代統計学つまり推測統計学相当する、と考えればわかりやすいのではないかと思います。
ところが医学分野をはじめとする自然科学分野の研究で推測統計学を用いるには、大きな問題があります。それはほとんどの研究で、推測統計学の大原則である母集団から無作為抽出された標本集団を作成できない、ということです。
僕は主として医学・薬学分野のデータ解析屋を40年間以上やっていて、数百件の臨床試験や臨床研究に関わってきました。でも、きちんと規定された母集団から無作為抽出された標本集団を作成したことは一度もありません。僕が経験した臨床試験や臨床研究は、全て無作為標本(random sample)ではなく、手近な標本(handy sample)でした。
手近な標本は母集団から無作為抽出された標本集団ではないので、推測統計学を当てはめられず、検定も推定も無意味であり、母数を確率的に推測することは不可能です。したがって研究論文は多数例の症例報告という位置付けになり、その結果に普遍性はありません。これは中心極限定理による正規近似以前の大問題ですが、このことをしっかりと理解している医学・薬学分野の研究者は非常に少ないと思います。
数理統計学分野では、この大問題から目を逸して、推測統計学の数学的な問題を議論しがちだと思います。もちろん推測統計学の数学的な理論付けを厳密にすることは大切です。しかし研究現場のデータ解析屋である僕は、この大問題から目を逸らすわけにはいきません。そしてその対処法のひとつとして、推測統計学を用いて導き出した結果はあくまでも参考資料のひとつにすぎないので、そのまま盲信せず、研究現場から得た経験に基づいてそれらを科学的に解釈し、それを臨床現場に還元することが大切である、と考えています。
以上、参考になれば幸いです。

1978. 中心極限定理と正規近似 投稿者:F.Y.Edgeworth 投稿日:2024/08/27 (Tue) 19:57:58 [返信] [削除]
早速のレス,ありがとうございます.

>「統計学は応用数学ではなく数学応用学だ」
これは推測統計が数学の主張を統計手法の利用者の主観によるモデル化と解釈(interpretation)で挟んだものなので,数学の立場からは評価できないという意味でしょうか?

>数学応用学的な観点からは、このシミュレーションの誤差程度なら、中心極限定理による正規近似を現実のデータに十分応用できると考えています。
であれば,そのことを「正規近似の根拠は中心極限定理ではなくシミュレーションと利用者の主観である」のように述べるのが適当な気がします.
極限についての数学の定理があり,現実世界で有限回だけ試した結果がその定理に反しないと判断した場合でも,現実世界での結果の根拠がその定理であると一般の人々に告げることは,何というか数学の権威に阿ているように見えます.
私は推測統計が答えを出さなければならない状況から編み出された手法であり,その答えに信憑性を与えなければならないことも理解しているつもりですが,主張の根拠を数学の定理に,答えが誤りとなる場合の原因(=モデル化と解釈という行為自体)を数学の確率に求める姿勢は,数学に知見のある人々の疑念の温床となると考えています.

1977. Re[1976]:中心極限定理と正規近似 投稿者:杉本典夫 [URL] 投稿日:2024/08/27 (Tue) 10:08:39 [返信] [削除]
>F.Y.Edgeworthさん

はじめまして、当館の館長を務めている”とものり”こと杉本典夫と申します。m(_ _)m

中心極限定理と正規近似の質問をいただき、ありがとうございます。中心極限定理による正規近似の問題については、純粋数学分野と数理統計学分野と応用統計学分野の間でたまに議論になります。これは統計学をどのような学問として捉えるかで、統計学の解釈が異なるからだと僕は思っています。
僕は研究現場のデータ解析屋ですから、応用統計学分野の解釈に近くて「統計学は応用数学ではなく数学応用学だ」と思っています。
つまり正規分布のような確率分布に厳密に従うデータは厳密には存在しないが、実用的な有効数字範囲内(有効数字にして2〜4桁程度)なら近似的に確率分布に従うとみなすことができるので、現実のデータを確率分布でモデル化し、その確率モデルを用いてデータの標本統計量を数学的に求めて母数を推測し、現実のデータと確率モデルの誤差を考慮して母数を解釈することによって、現実のデータがどのような情報を持っているかを推測する、という統計モデルの考え方を支持しています。
これは端的に言えば「現実のデータを解釈するには、現実のデータの有効数字範囲内で近似した統計モデルでかまわない」という考え方であり、理論物理学が数学を応用して自然現象を解釈する時の考え方と同様です。この考え方に従えば、中心極限定理による正規近似について数学的に厳密な証明は必要ではなく、有効数字にして2〜4桁程度の近似でかまわず、値の範囲は現実のデータの範囲(例えば体重のデータなら、実数全体の集合Rではなく10〜200程度の実数範囲の集合)の近似でかまわない、ということになります。

参考までに、数理統計学分野における中心極限定理の証明を次のページに記載してあるので参考にしてください。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→1.3 データの要約方法 (注7)
http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html#note07'>http://www.snap-tck.com/room04/c01/stat/stat01/stat0103.html#note07

また中心極限定理をシミュレーションした結果を次のページに記載してあります。数学応用学的な観点からは、このシミュレーションの誤差程度なら、中心極限定理による正規近似を現実のデータに十分応用できると考えています。
○玄関>雑学の部屋>雑学コーナー>統計学入門
→付録2 中心極限定理のシミュレーション−平均値と中央値
http://www.snap-tck.com/room04/c01/stat/stat99/stat9902.html'>http://www.snap-tck.com/room04/c01/stat/stat99/stat9902.html

以上、参考になれば幸いです。

1976. 中心極限定理と正規近似 投稿者:F.Y.Edgeworth 投稿日:2024/08/27 (Tue) 08:20:18 [返信] [削除]
中心極限定理と正規近似についての質問です.

推測統計では「有限の平均μ,正の標準偏差σを持つ分布Pに従う独立な確率変数列の最初のn項の相加平均X_{n}(標本平均)を標準化したものは,nが十分大きいとき近似的に標準正規分布N(0,1)に従う」のように中心極限定理(の一つ)を述べ,それを根拠として,nが有限の場合の確率の近似値として正規分布から得た確率を利用(正規近似)するようです.
一方,実数全体の集合をR,整数全体の集合をZとすると,上記の定理は累積分布関数列の一様収束性
∀ε(ε>0→∃m(m∈Z∧∀n(n∈Z∧m<n→∀x(x∈R→|P((X_{n}-μ)/(σ/√{n})≦x)-N(0,1)((-∞,x])|<ε))))
であり,mは誤差の上界ε,分布P,標本平均の列(X_{*})に依存します.
これに対して推測統計では,εを指定せず,P,(X_{*})も(当然)未知のまま「標本の大きさnは~以上ならよい」等と述べることが少なくなく,一般の人々が
(1)「nが十分大きいとき」というn→∞での挙動を表す表現を具体的なnの値に対するものと誤解すること
(2)「近似」という真値と近似値の差を誤差の上界で押さえることを指す表現を「およそ」,「正確ではないかもしれないが」といった意味に捉えること
を助長,容認しているように見えます.
「極限値の値が分かっても,有限の番号の項の値については何も分からない」という極限の基本的な性質に照らして,中心極限定理が正規近似の根拠となりえず,また「近似」を構成するための誤差の上界の指定もない(つまり,正規近似で得た確率と真値との差を評価できない)状況の下で,推測統計では,中心極限定理と正規近似とをどのように結び付けているのでしょうか?