統計学入門−第20章

クラスター分析では距離とアルゴリズムを色々と変えて何度も解析を行い、それらの結果を解釈しながら、実質科学的に最も妥当と思われる結果を探索するのが普通です。そこで表20.1.1のデータについて、まずアルゴリズムを色々と変えてクラスター分析を行ない、その結果を比較してみましよう。

これらの樹形図を見ると、最長距離法以外は1番と6番の個体を単独で1つのクラスターにし、2〜5番の個体はまとめて1つのクラスターにするというグループ分けが良さそうです。そして最短距離法とメジアン法は1番の個体を最後に融合し、重心法、群平均法、ウォード法は6番の個体を最後に融合しています。図20.1.1の散布図を見ると、これはどちらがより妥当だとはいえない感じです。そのため1番と6番は無理に他のクラスターに融合せず、単独で1つのクラスターにするのが良いと考えられます。

(2) 距離を変えた時

次に距離を標準エウクレイデス(ユークリッド)平方距離にして(1)と同様にアルゴリズムを色々と変えてクラスター分析を行い、その結果を比較してみましょう。

標準エウクレイデス平方距離は2つの項目のバラツキ具合を同じにした時の距離です。図20.1.1の散布図を見ると、スポーツ好きの程度はかなりばらついているのに対して、読書好きの程度はある範囲にまとまっています。そのため2つの項目のバラツキ具合を同じにすると、図20.3.12のように6番の個体は他の個体に近づき、1番の個体は他の個体から離れることになります。そして5番の個体が3番の個体に近づき、個体間の距離はこの2つの個体が最も短くなります。

その結果、エウクレイデス平方距離では、どのアルゴリズムでも3番と4番の個体が最初に融合するのに対して、標準エウクレイデス平方距離では、どのアルゴリズムでも3番と5番の個体が最初に融合します。そして標準エウクレイデス平方距離では、どのアルゴリズムでも1番の個体が最後に融合します。したがって距離を標準エウクレイデス平方距離にすると、どのアルゴリズムでも1番の個体だけを単独で1つのクラスターにし、2〜6番の個体はまとめて1つのクラスタにするというグループ分けが良さそうです。なお図20.3.6から図20.3.11では、素直な樹形図になるように個体ID軸(横軸)の4番と5番を入れ替えているので注意してください。

具体的な計算過程は省略しますが、図20.3.6の標準エウクレイデス平方距離と最短距離法を用いた時のシルエット係数平均値は次のようになり、やはりクラスターが2個の時が最適候補になります。

ステップ1：クラスター数 = 5　m_s5 = 0.164
ステップ2：クラスター数 = 4　m_s4 = 0.152
ステップ3：クラスター数 = 3　m_s3 = 0.204
ステップ4：クラスター数 = 2　m_s2 = 0.445

データを標準化すると値は絶対的な大きさではなく相対的な大きさを表すことになります。そのためこの場合のグループ分けは個体間の相対的な距離に基いて行なっていることになります。そこでクラスター1(1番の個体)はスポーツも読書も人並み外れて好きではない「どちらも興味無グループ」、クラスター2(2〜6番の個体)はスポーツも読書も人並みに好きな「どちらも興味有グループ」と解釈することになります。

ちなみに個体間の距離をデータにして個体に関する主成分分析を行い、少数の主成分空間上に個体をプロットする多次元尺度構成法(MDS：Multi Dimensional Scaling)または主座標分析(PCoA：Principal Coordinate Analysis)という多変量解析手法が開発されています。この手法は個体をクラスターに分類するためのものではなく、個体同士の位置関係を低次元空間上で視覚的に把握するためのものです。しかしこの手法を用いると個体を感覚的にクラスターに分類することができるので、クラスター分析と同じような目的で用いられることがあります。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

20.3 各種のクラスター分析結果

(1) アルゴリズムを変えた時

(2) 距離を変えた時