統計学入門−第12章

時間の経過に従って連続的に測定された多時期のデータを時系列データ(time series data)といい、時系列データを解析するための手法を時系列解析(time series analysis)といいます。例えば2名の被験者について、ホルター型血圧計で収縮期血圧を24時間連続測定したところ表12.1.1のようになったとします。これは測定間隔(sampling interval)が1時間で、時期数が24個の時系列データになります。

表12.1.1 24時間連続測定した収縮期血圧
被験者番号	0時	1時	2時	3時	4時	5時	6時	7時	8時	9時	10時	11時
1	107	95	93	112	82	114	105	123	135	135	140	137
2	100	90	91	122	92	110	106	124	155	165	165	160
平均値	103.5	92.5	92	117	87	112	105.5	123.5	145	150	152.5	148.5

被験者番号	12時	13時	14時	15時	16時	17時	18時	19時	20時	21時	22時	23時
1	147	138	115	161	160	123	142	155	135	131	129	123
2	157	148	145	151	160	133	122	145	155	135	120	101
平均値	152	143	130	156	160	128	132	150	145	133	124.5	112

表12.1.1の平均値を見ると全体として夜間は低く、昼間は高いという傾向があります。しかし細かい変動があるので、それ以外の規則的な変動があるかどうかははっきりしません。そこで平均値の変動を平滑化して全体的な傾向をより把握しやすくしてみましょう。そのための最も単純な方法として移動平均法(moving average method)という手法があります。

(2) 移動平均

時系列データについて、ある時点tを中心にして、その前後k個のデータの平均値を計算したものを時点tの移動平均(moving average)といいます。例えば表12.1.1の平均値について、1時を中心にして前後1個のデータ——つまり合計で3個のデータ——の平均値つまり移動平均を計算すると次のようになります。移動平均は個々の被験者のデータについて計算することもできますが、ここでは2名の被験者の平均値について計算することにします。

これと同様にして2〜22時までの移動平均を計算し、それをプロットすることによって元のデータに存在した1〜3時間単位の細かい変動をならして平滑化することができます。ただしその場合、最初の0時と最後の23時については移動平均を計算することができません。そのため0時と23時については移動平均をプロットしないという方法と、1時と22時の移動平均から予測した値をプロットするという方法の2通りがあります。

予測値をプロットする場合、例えば0時については1時の移動平均から2時と0時のデータの差の半分の値を引くことによって予測します。この予測値は0時のデータと2時のデータを直線で結び、その直線の重心を1時の移動平均の位置までずらした時の0時の値に相当します。

このような方法で全時点の移動平均を計算し、それをプロットしたものが図12.1.1の赤色の折れ線です。 黒色の折れ線は元データつまり2名の被験者の平均値を表しています。この図の移動平均を見ると、夜間は低く、昼間は高いという傾向がより明確になり、さらに13時前後と18時前後に血圧が少し低下する傾向があることがわかります。これは昼食時と夕食時に休憩を取り、それによって血圧が低下することを反映していると考えられます。

移動平均法には、単純な平均値の代わりに時点tの前後k個のデータにp次多項式を当てはめ、その多項式からtの値を予測するという方法もあります。平均値を用いた移動平均は、実は多項式として直線つまり1次式を用いた時のtの予測値であり、0時と23時の予測値もその1次式を用いた予測値に相当します。 _(注1)

一般に移動平均法はデータ数kを大きくするほど、また多項式の次数pを大きくするほど平滑化されます。しかしkまたはpを大きくするほど移動平均をまともに計算できない最初と最後の部分が大きくなり、その部分の移動平均の信頼性が低くなってしまいます。そこでkとpを色々と変えて移動平均を計算し、目的に最も適した値を探索する必要があります。

移動平均法は時系列データを平滑化し、データの変動に一定の傾向があるかどうかを視覚的に把握しやすくするための手法です。そのため周期解析等の本格的な時系列解析を適用する時の前処理や、最適な時系列解析手法を検討するための予備解析として利用すると便利です。

(注1)　n個の時系列データ{y₁,…,y_j,…,y_n}において、時点t_jを中心にして前後k個のデータを切り取った部分データを{y_j-k,…,y_j,…,y_j+k}とします。この部分データにtに関するp次多項式を当てはめると次のようになります。

ｙ_j = Ｘ_jβ_j + ε_j

　(2k+1) ＞ p

y_jの予測値はＸ_jの中央の行ベクトルｘ_j'と偏回帰係数ベクトルｂ_jを用いて計算します。

ｘ_j' = [1 t_j … t_j^p] 　　

　(j = k+1,…,n-k)

時系列データの先端部{y₁,…,y_k}と末端部{y_n-k+1,…,y_n}の予測値については、ｘ₁'…ｘ_k'とｂ_k+1、そしてｘ_n-k+1'…ｘ_n'とｂ_n-kを用いて計算します。

　(l = 1,…,k) 　　

　(m = n-k+1,…,n)

測定間隔が等間隔の時は時間の原点をt_jに移動してt_j = 0とし、t_j-k = -k、…、t_j+k = kと置いて計算することができます。測定間隔が等間隔で、k = p = 1の時は次のようになります。

　(j = 2,…,n-1)

表12.1.1のデータについて、k = p = 1として実際に計算してみましょう。

　　：

ちなみに重回帰分析と同様にして予測値の信頼区間を求めることができます。 (→7.2 重回帰分析結果の解釈 (注3))

　(j = k+1,…,n-k)

　(l = 1,…,k)

　(m = n-k+1,…,n)
V_Rj：時点t_jにおける残差分散

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

第12章　時系列解析

12.1 移動平均法

(1) 時系列データ

(2) 移動平均

第12章 時系列解析

12.1 移動平均法

(1) 時系列データ

(2) 移動平均

第12章　時系列解析