データ圧縮法概説　第6章−３

例として、LZ77符号の例と同じ「aabbccccddddeeeeeeeeffff」という元データを前節の手順に従ってLZW符号化してみましょう。

元データを８ビットの記号とし、最初に256種類の全記号を登録した辞書を用意する。その場合、記号を８ビットの整数として扱った場合の整数値をそのまま参照番号とする。そして最長一致系列とその参照番号を記憶するための場所を用意し、参照番号を符号化する時のビット数ｐを９と初期化する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

最長一致系列＝(空)：参照番号＝(空)　　ｐ＝９

最初の記号ａを読み込んで最長一系列とし、それを整数化した値を参照番号として記憶する。

最長一致系列＝ａ：参照番号＝97　　ｐ＝９

次の記号ａを読み込み、それを最長一致系列に追加した「ａａ」という記号列を辞書から探す。

この場合「ａａ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ａａ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号
ａａ	256

読み込んだ記号＝ａ
最長一致系列＝ａ：参照番号＝97　　ｐ＝９
出力データ：97＝001100001(９ビットの整数化表現)
登録語句＝ａａ：参照番号＝256

今読み込んだａをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ａ：参照番号＝97　　ｐ＝９

次の記号ｂを読み込み、それを最長一致系列に追加した「ａｂ」という記号列を辞書から探す。

この場合「ａｂ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ａｂ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号
ａａ	256	ａｂ	257

読み込んだ記号＝ｂ
最長一致系列＝ａ：参照番号＝97　　ｐ＝９
出力データ：97
登録語句＝ａｂ：参照番号＝257

今読み込んだｂをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｂ：参照番号＝98　　ｐ＝９

次の記号ｂを読み込み、それを最長一致系列に追加した「ｂｂ」という記号列を辞書から探す。

この場合「ｂｂ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｂｂ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258

読み込んだ記号＝ｂ
最長一致系列＝ｂ：参照番号＝98　　ｐ＝９
出力データ：98
登録語句＝ｂｂ：参照番号＝258

今読み込んだｂをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｂ：参照番号＝98　　ｐ＝９

次の記号ｃを読み込み、それを最長一致系列に追加した「ｂｃ」という記号列を辞書から探す。

この場合「ｂｃ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｂｃ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259

読み込んだ記号＝ｃ
最長一致系列＝ｂ：参照番号＝98　　ｐ＝９
出力データ：98
登録語句＝ｂｃ：参照番号＝259

今読み込んだｃをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｃ：参照番号＝99　　ｐ＝９

次の記号ｃを読み込み、それを最長一致系列に追加した「ｃｃ」という記号列を辞書から探す。

この場合「ｃｃ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｃｃ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260

読み込んだ記号＝ｃ
最長一致系列＝ｃ：参照番号＝99　　ｐ＝９
出力データ：99
登録語句＝ｃｃ：参照番号＝260

今読み込んだｃをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｃ：参照番号＝99　　ｐ＝９

次の記号ｃを読み込み、それを最長一致系列に追加した「ｃｃ」という記号列を辞書から探す。

この場合「ｃｃ」は260番にあるので、それを新しい最長一致系列とし、その参照番号260を記憶する。

最長一致系列＝ｃｃ：参照番号＝260　　ｐ＝９

次の記号ｃを読み込み、それを最長一致系列に追加した「ｃｃｃ」という記号列を辞書から探す。

この場合「ｃｃｃ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｃｃｃ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261

読み込んだ記号＝ｃ
最長一致系列＝ｃｃ：参照番号＝260　　ｐ＝９
出力データ：260
登録語句＝ｃｃｃ：参照番号＝261

今読み込んだｃをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｃ：参照番号＝99　　ｐ＝９

次の記号ｄを読み込み、それを最長一致系列に追加した「ｃｄ」という記号列を辞書から探す。

この場合「ｃｄ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｃｄ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262

読み込んだ記号＝ｄ
最長一致系列＝ｃ：参照番号＝99　　ｐ＝９
出力データ：99
登録語句＝ｃｄ：参照番号＝262

今読み込んだｄをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｄ：参照番号＝100　　ｐ＝９

次の記号ｄを読み込み、それを最長一致系列に追加した「ｄｄ」という記号列を辞書から探す。

この場合「ｄｄ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｄｄ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

読み込んだ記号＝ｄ
最長一致系列＝ｄ：参照番号＝100　　ｐ＝９
出力データ：100
登録語句＝ｄｄ：参照番号＝263

今読み込んだｄをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｄ：参照番号＝100　　ｐ＝９

次の記号ｄを読み込み、それを最長一致系列に追加した「ｄｄ」という記号列を辞書から探す。

この場合「ｄｄ」は263番にあるので、それを新しい最長一致系列とし、その参照番号263を記憶する。

最長一致系列＝ｄｄ：参照番号＝263　　ｐ＝９

次の記号ｄを読み込み、それを最長一致系列に追加した「ｄｄｄ」という記号列を辞書から探す。

この場合「ｄｄｄ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｄｄｄ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号
ｄｄｄ	264

読み込んだ記号＝ｄ
最長一致系列＝ｄｄ：参照番号＝263　　ｐ＝９
出力データ：263
登録語句＝ｄｄｄ：参照番号＝264

今読み込んだｄをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｄ：参照番号＝100　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｄｅ」という記号列を辞書から探す。

この場合「ｄｅ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｄｅ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号	語句	番号
ｄｄｄ	264	ｄｅ	265

読み込んだ記号＝ｅ
最長一致系列＝ｄ：参照番号＝100　　ｐ＝９
出力データ：100
登録語句＝ｄｅ：参照番号＝265

今読み込んだｅをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｅ：参照番号＝101　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｅｅ」という記号列を辞書から探す。

この場合「ｅｅ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｅｅ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号	語句	番号	語句	番号
ｄｄｄ	264	ｄｅ	265	ｅｅ	266

読み込んだ記号＝ｅ
最長一致系列＝ｅ：参照番号＝101　　ｐ＝９
出力データ：101
登録語句＝ｅｅ：参照番号＝266

今読み込んだｅをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｅ：参照番号＝101　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｅｅ」という記号列を辞書から探す。

この場合「ｅｅ」は266番にあるので、それを新しい最長一致系列とし、その参照番号266を記憶する。

最長一致系列＝ｅｅ：参照番号＝266　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｅｅｅ」という記号列を辞書から探す。

この場合「ｅｅｅ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｅｅｅ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号	語句	番号	語句	番号	語句	番号
ｄｄｄ	264	ｄｅ	265	ｅｅ	266	ｅｅｅ	267

読み込んだ記号＝ｅ
最長一致系列＝ｅｅ：参照番号＝266　　ｐ＝９
出力データ：266
登録語句＝ｅｅｅ：参照番号＝267

今読み込んだｅをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｅ：参照番号＝101　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｅｅ」という記号列を辞書から探す。

この場合「ｅｅ」は266番にあるので、それを新しい最長一致系列とし、その参照番号266を記憶する。

最長一致系列＝ｅｅ：参照番号＝266　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｅｅｅ」という記号列を辞書から探す。

この場合「ｅｅｅ」は267番にあるので、それを新しい最長一致系列とし、その参照番号267を記憶する。

最長一致系列＝ｅｅｅ：参照番号＝267　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｅｅｅｅ」という記号列を辞書から探す。

この場合「ｅｅｅｅ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｅｅｅｅ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ｄｄｄ	264	ｄｅ	265	ｅｅ	266	ｅｅｅ	267	ｅｅｅｅ	268

読み込んだ記号＝ｅ
最長一致系列＝ｅｅｅ：参照番号＝267　　ｐ＝９
出力データ：267
登録語句＝ｅｅｅｅ：参照番号＝268

今読み込んだｅをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｅ：参照番号＝101　　ｐ＝９

次の記号ｅを読み込み、それを最長一致系列に追加した「ｅｅ」という記号列を辞書から探す。

この場合「ｅｅ」は266番にあるので、それを新しい最長一致系列とし、その参照番号266を記憶する。

最長一致系列＝ｅｅ：参照番号＝266　　ｐ＝９

次の記号ｆを読み込み、それを最長一致系列に追加した「ｅｅｆ」という記号列を辞書から探す。

この場合「ｅｅｆ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｅｅｆ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ｄｄｄ	264	ｄｅ	265	ｅｅ	266	ｅｅｅ	267	ｅｅｅｅ	268	ｅｅｆ	269

読み込んだ記号＝ｆ
最長一致系列＝ｅｅ：参照番号＝266　　ｐ＝９
出力データ：266
登録語句＝ｅｅｆ：参照番号＝269

今読み込んだｆをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｆ：参照番号＝102　　ｐ＝９

次の記号ｆを読み込み、それを最長一致系列に追加した「ｆｆ」という記号列を辞書から探す。

この場合「ｆｆ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｆｆ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ｄｄｄ	264	ｄｅ	265	ｅｅ	266	ｅｅｅ	267	ｅｅｅｅ	268	ｅｅｆ	269	ｆｆ	270

読み込んだ記号＝ｆ
最長一致系列＝ｆ：参照番号＝102　　ｐ＝９
出力データ：102
登録語句＝ｆｆ：参照番号＝270

今読み込んだｆをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｆ：参照番号＝102　　ｐ＝９

次の記号ｆを読み込み、それを最長一致系列に追加した「ｆｆ」という記号列を辞書から探す。

この場合「ｆｆ」は270番にあるので、それを新しい最長一致系列とし、その参照番号270を記憶する。

最長一致系列＝ｆｆ：参照番号＝270　　ｐ＝９

次の記号ｆを読み込み、それを最長一致系列に追加した「ｆｆｆ」という記号列を辞書から探す。

この場合「ｆｆｆ」は辞書にないので、現在の最長一致系列の参照番号を９ビットで符号化して出力し、「ｆｆｆ」を新しい語句として辞書に登録する。

語句	番号	語句	番号	…	語句	番号
(0)	0	(1)	1	…	(255)	255

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ａａ	256	ａｂ	257	ｂｂ	258	ｂｃ	259	ｃｃ	260	ｃｃｃ	261	ｃｄ	262	ｄｄ	263

語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号	語句	番号
ｄｄｄ	264	ｄｅ	265	ｅｅ	266	ｅｅｅ	267	ｅｅｅｅ	268	ｅｅｆ	269	ｆｆ	270	ｆｆｆ	271

読み込んだ記号＝ｆ
最長一致系列＝ｆｆ：参照番号＝270　　ｐ＝９
出力データ：270
登録語句＝ｆｆｆ：参照番号＝271

今読み込んだｆをあらためて最長一致系列とし、その参照番号を記憶する。

最長一致系列＝ｆ：参照番号＝102　　ｐ＝９

これで元データが終了したので、最長一致系系列として残っているｆの参照番号を９ビットで符号化して出力する。

最長一致系列＝ｆ：参照番号＝102　　ｐ＝９
出力データ：102

以上の結果、最終的な符号化データは次のようになります。

これらの符号は全て９ビットで符号化されていますから、全体のビット数は、

ちなみに同じデータをオリジナルのLZ78符号で符号化しますと、最終的に作成される辞書と符号化データ、そしてその時の圧縮率と平均符号長は以下のようになります。

以上のように、このデータ場合、LZW符号とオリジナルのLZ78符号とは全く同じ圧縮率になります。この圧縮率はLZ77符号よりも悪い値ですが、LZ78符号は元データが多いと圧縮効率が落ちる可能性のあるLZ77の問題点を解決するために考案された手法ですから、このデータのように元データが少ない場合は、LZ77符号よりも圧縮効率が悪くなる傾向があります。

6.4 LZW符号化の実例