玄関雑学の部屋雑学コーナー感染症数理モデル

補足1.致死率の誤差

現在のところ、COVID-19の感染者数と死亡者数はどの国も全数調査をしています。 そのため死因に関する医学的な誤差はあっても、数学的な誤差つまり母集団――例えば日本人全体――から無作為抽出した標本集団のデータに基づいて、母集団の様子を推測することに起因する統計学的な誤差はありません。 しかしインフルエンザなどは全数調査はせず、厚労省が指定した特定の地域で標本調査を行い、そのデータに基づいて日本全体の感染者数と死亡者数を推測しています。 COVID-19に関しても、いずれはインフルエンザのように標本調査から日本全体の感染者々と死亡者数を推測するようになると思います。

無作為抽出された標本集団から得られた感染率や死亡率について、その統計学的な誤差はすでに計算方法が確立しています。 そして致死率に関する統計学的な誤差についても、感染率や死亡率と同じ計算方法を適用することが多いと思います。 しかし致死率は感染率や死亡率とは性質が少し異なる指標です。 そこで致死率の統計学的な誤差について考えてみましょう。

今、対象集団の例数(人口)がn例で、非感染者がnn例、感染者の中の生存者がna例、死亡者がnd例で、感染者全体は(nd+na)例だとします。 この時、感染率と死亡率と致死率は次のように定義され、分子が分母に含まれる分数つまり割合(proportion)になります。 そして感染率と死亡率については、分子は誤差のある確率変数で分母は誤差のない変数です。 ところが致死率については、分子も分母も誤差のある確率変数であり、感染率や死亡率とは性質が少し異なります

感染率:   死亡率:   致死率:

ここで人口が無限大で、理論的死亡率がπ(パイ)の仮想的集団を考えます。 そしてn例の対象集団は、この仮想的集団つまり母集団から無作為抽出した、お互いに独立なn例からなる標本集団と考えます。 この時、無作為抽出したn例の内訳が死亡例nd、生存例nn+na=n-ndになる確率pは下図の式f(nd)のようになります。 そしてこのf(nd)で表される関数のことを確率密度関数、nd=0〜nの時の確率分布のことを理論確率πの二項分布といい、B(nd|n,π)と表します。 例えばn=10、π=0.5の二項分布B(nd|10,0.5)は下図のようなグラフになります。 (二項分布については当館の「統計学入門・第3章第2節 1標本の計数値 (2)名義尺度(分類データ)」参照)

死亡率の統計学的誤差は二項分布の平均値と分散(標準偏差を平方した値)から求めます。 そこで二項分布の平均値と分散を求めてみましょう。 厳密な求め方は当館の「付録1 各種の確率分布 (5)二項分布」を参照していただくとして、未知変量の平均値と分散を求める時によく使われる簡便な近似法で求めてみます。 まずn例のデータを「0:生存 1:死亡」とコード化したダミーデータdで表します。 このdを一般的な計量値扱いして、平均値と分散を求めると次のようになります。 そしてdの平均値と分散からndの平均値と分散を求めることができます。

dの平均値:   母平均値:E(di)=π
dの平方和:
dの分散:   母分散:V(di)=π(1-π)
ndの母平均値:E(nd)=E(Σdi)=n・E(di)=nπ
ndの母分散:V(nd)=V(Σdi)=n・V(di)=nπ(1-π)
pdの母平均値:
pdの母分散:
pdの標準誤差:

以上のように、ダミーデータdの平均値mdはndの割合つまり死亡率pdに相当することがわかると思います。 そして平均値は全データを要約した統計量なので、分散の平方根である標準偏差(SD)が標準誤差(SE)になります。 したがって死亡率の統計学的誤差は、近似的にこの標準誤差で表すことができます。

さらにpd十分統計量(sufficient statistic)であり、かつリンドベルグ=レヴィ(Lindeberg-Levy)条件を満足するU-統計量なので、dがどんな分布をしていても中心極限定理によって近似的に正規分布します。 そのためpdの分布は平均値π、分散π(1-π)/nの正規分布N(π、π(1-π)/n)で近似できます。 そしてこの近似正規分布を利用して死亡率の推定と検定を行うことができます。 また感染率piについても同様の計算によって近似正規分布を求め、推定と検定を行うことができます。 (中心極限定理については当館の「統計学入門・第1章第3節 (注7)」参照)

次に致死率の平均値と分散を求めてみましょう。 まず例数が無限大でも通用するように、致死率を「致死率(pf)=死亡率(pd)/感染率(pi)」と定義します。 この定義式の分子の死亡率にも分母の感染率にも統計学的誤差があるので、致死率の分散を正攻法で求めるのは困難です。

そこでデルタ法と呼ばれる近似法を用いて致死率の分散を求めます。 デルタ法は確率変数xの期待値と分散がわかっている時、xの関数f(x)をテーラー展開して簡単な線形関数――1次関数や2次関数――で表し、その平均値と分散を近似的に求める手法です。 下図のグラフで言えば、関数y=f(x)をとりあえず直線f(μ)+(x-μ)f'(μ)で近似します。 そしてxの平均値と分散を用いてこの直線の平均値と分散を求め、それらをyの平均値と分散の近似値にするわけです。 (デルタ法については当館の「統計学入門・第2章第4節 (注2)」参照、テーラー展開については当館の「統計学入門・第14章第1節 (注2)」参照)

致死率pfの平均値と分散をデルタ法で求めると次のようになります。 pfはpdとpiの関数なので、テーラー展開は2次元の全微分を用います。 そのため実際のy=f(pf)は3次元のグラフになり、テーラー展開によってそれを平面で近似します。

致死率:   
yの全微分:

pfの平均値:
pfの分散:
C(pd,pi):pdとpiの共分散

pdとpiは独立ではないので相関があり、共分散C(pd,pi)≠0になります。 この共分散を求めるには、pdの分散を求めた時と同様に、n例のデータを「0:生存 1:死亡」とコード化したダミーデータdと、「0:非感染 1:感染」とコード化したダミーデータiで表すとわかりやすいと思います。 このdとiを一般的な計量値扱いして平均値と共分散を求め、その共分散からpdとpiの共分散を求めると次のようになります。

iの平均値:
dとiの積和:
dとiの共分散:
dとiの母共分散:
pdとpiの母共分散:
E(pd)=πd:母集団の死亡率   E(pi)=πi:母集団の感染率
E(pa)=πai - πd:母集団の生存率

このC(pd,pi)を用いて致死率pfの分散を求めることができます。

pfの分散:
pfの標準偏差(標準誤差):
:母集団の致死率

以上のように、pfの分散は、pfが二項分布B(nd|(nd+na),πf)をし、それを平均値πf、分散πf(1-πf)/(nd+na)の正規分布N(πf、πf(1-πf)/(nd+na))で近似した時の分散に相当します。 式の形からわかるように、これはpfを求める時の分母(nd+na)には誤差がなく、分子のndだけに誤差があると形式的に仮定した時のpfの正規近似分散に相当します。 つまりこれだけ苦労して求めておきながら、

致死率の統計学的誤差は死亡率や感染率と同じ計算方法で近似的に求めることができる!

という、呆れるほどあっけない結果になったわけです。 なお「正式的に仮定した」の意味は、分子のndに誤差があれば分母の(nd+na)にも必然的に誤差があるはずなので、厳密に言うと仮定が成り立たないからです。

このあっけない結果は次のように考えるとわかりやすいと思います。 致死率は分子の死亡率にも分母の感染率にも統計学的誤差があるので、分子だけに統計学的誤差がある死亡率や感染率よりも統計学的誤差が大きくなります。 一方、統計学的誤差つまり標準誤差は標本集団の例数の平方根に反比例し、例数が減ると大きくなります。 そして致死率の標準誤差の増加分は、標本集団の実質的な例数が(nd+na)例に減ったことによる誤差の増加分と近似的に等しくなり、結果的に死亡率や感染率と同じ計算方法で近似的に求めることができるというわけです。

死亡率、感染率、致死率の統計学的誤差の大きさを比較するために、次のようなテストデータについて、それぞれの評価指標の標準誤差と95%信頼区間を求めてみました。

○テストデータ:死亡者=10例 生存者=90例 非感染者=900例 合計=1000例
・死亡率=0.01 標準誤差=0.003 95%信頼区間:下限=0.005 上限=0.018
・感染率=0.1 標準誤差=0.009 95%信頼区間:下限=0.08 上限=0.12
・致死率=0.1 標準誤差=0.03 95%信頼区間:下限=0.04 上限=0.16

上記の結果から、感染率と致死率はどちらも0.1(10%)なのに、致死率の標準誤差は感染率の標準誤差の約3倍あることがわかります。 (信頼区間については当館の「統計学入門・第1章第4節 推定」参照)

以上のような致死率の統計学的誤差の計算方法は、致死率だけでなく重症化率にも生存率にも適用できます。 そしてもっと一般化すると、あるグループがさらにサブグループに細分類できる時、グループ内でのサブグループの割合を、全体に対するサブグループの割合と、全体に対するグループの割合から求める時に適用できます。 これはけっこう応用範囲の広い計算方法だと思います。