ランド指数

ランド指数^[1]（ランドしすう、英: Rand index）またはランド測度（ランドそくど、英: Rand measure）は、統計、特にデータ・クラスタリングにおいて、2つのクラスタリングの類似性を図る尺度である。William M. Randにちなんで名付けられた。要素の偶然のグループ化を調整した形で定義したものが調整ランド指数である。数学的には、ランド指数は accuracy に関連しているが、クラスラベルを使用しない場合にも適用できる。

ランド指数

定義

$n$ 個の要素からなる所与の集合 $S=\{o_{1},\ldots ,o_{n}\}$ および $S$ の分割 $X=\{X_{1},\ldots ,X_{r}\}$ および $Y=\{Y_{1},\ldots ,Y_{s}\}$ を考え、以下のように定義する。

$a$ は、 $S$ の要素の組み合わせのうち、 $X$ で同じサブセット、 $Y$ で同じサブセットにあるものの数。
$b$ は、 $S$ の要素の組み合わせのうち、 $X$ で異なるサブセット、 $Y$ で異なるサブセットにあるものの数。
$c$ は、 $S$ の要素の組み合わせのうち、 $X$ で同じサブセット、 $Y$ で異なるサブセットにあるものの数。
$d$ は、 $S$ の要素の組み合わせのうち、 $X$ で異なるサブセット、 $Y$ で同じサブセットにあるものの数。

ランド指数 $RI$ は ^[1]^[2]

RI={\frac {a+b}{a+b+c+d}}={\frac {a+b}{n \choose 2}}

直感的には、 $a+b$ は $X$ と $Y$ の間の合意の数、 $c+d$ は $X$ と $Y$ の間の意見の相違の数と考えることができる。

分母はペアの総数なので、ランド指数はペアの総数に対する合意の発生頻度、つまり無作為に選ばれたペアにおいて $X$ と $Y$ が合意する確率を表している。

${n \choose 2}$ は、 $n(n-1)/2$ として計算される。

同様に、次式のように、ランド指数 RI をアルゴリズムによる正しい判断の割合を示す指標として捉えることもできる。

RI={\frac {TP+TN}{TP+FP+FN+TN}}

ここで、

TP

は真陽性の数、

TN

は真陰性の数、

FP

は偽陽性の数、

FN

は偽陰性の数を表す。

性質

ランド指数は0〜1の値を持ち、0は2つのデータ・クラスタリングがどのペアでも一致しないことを、1はデータクラスタリングが全く同じであることを示す。

数学的には、a、b、c、dは次のように定義される。

$a=|S^{*}|$ , $S^{*}=\{(o_{i},o_{j})\mid o_{i},o_{j}\in X_{k},o_{i},o_{j}\in Y_{l}\}$
$b=|S^{*}|$ , $S^{*}=\{(o_{i},o_{j})\mid o_{i}\in X_{k_{1}},o_{j}\in X_{k_{2}},o_{i}\in Y_{l_{1}},o_{j}\in Y_{l_{2}}\}$
$c=|S^{*}|$ , $S^{*}=\{(o_{i},o_{j})\mid o_{i},o_{j}\in X_{k},o_{i}\in Y_{l_{1}},o_{j}\in Y_{l_{2}}\}$
$d=|S^{*}|$ , $S^{*}=\{(o_{i},o_{j})\mid o_{i}\in X_{k_{1}},o_{j}\in X_{k_{2}},o_{i},o_{j}\in Y_{l}\}$

（任意の $1\leq i,j\leq n,i\neq j,1\leq k,k_{1},k_{2}\leq r,k_{1}\neq k_{2},1\leq l,l_{1},l_{2}\leq s,l_{1}\neq l_{2}$ に対して）

分類精度との関係

ランドインデックスは、 $S$ の要素のペアを対象とした二項分類精度を通して見ることもできる。 2つのクラスラベルは「 $o_{i}$ と $o_{j}$ が $X$ と $Y$ の同じサブセットにある」と「 $o_{i}$ と $o_{j}$ が $X$ と $Y$ の異なるサブセットにある」である。

その設定では、 $a$ は同じサブセットに属すると正しくラベル付けされたペアの数（真陽性）、 $b$ は異なるサブセットに属すると正しくラベル付けされたペアの数（真陰性）である。

調整ランド指数

調整ランド指数は、ランド指数を偶然性に基づいて補正したものである^[1]^[2]^[3]。このような偶然性の補正は、ランダムに指定されたクラスタリング間のすべてのペアワイズ比較の類似度の期待値を使用して、ベースラインを確立します。従来、ランド指数は、クラスタリングのための順列モデル（クラスタリング内のクラスターの数とサイズは固定されており、すべてのランダムクラスタリングは、固定されたクラスター間で要素をシャッフルすることによって生成される）を用いて補正されていた。

しかし、順列モデルの前提は頻繁に破られる。多くのクラスタリングのシナリオでは、クラスターの数またはクラスターのサイズ分布が大幅に異なる。例えば、K平均法では、クラスターの数は実務者によって固定されているが、それらのクラスターのサイズはデータから推測されるものとする。調整ランド指数のバリエーションは、ランダムなクラスタリングのさまざまなモデルを説明する^[4]。

ランド指数は0から1の間の値しか得られないが、調整ランド指数は、当てはまりが期待値よりも悪い場合、負の値を取り得る^[5]。

分割表

$n$ 個の要素からなる集合 $S$ に対し、2つのグループ化または分割（クラスタリングなど） $X=\{X_{1},X_{2},\ldots ,X_{r}\}$ と $Y=\{Y_{1},Y_{2},\ldots ,Y_{s}\}$ を考える。

$X$ と $Y$ の重なりは、次のような分割表 $\left[n_{ij}\right]$ にまとめることができる。ここで、 $n_{ij}$ のそれぞれは、 $X_{i}$ と $Y_{j}$ が共有するオブジェクトの数を表す。すなわち、 $n_{ij}=|X_{i}\cap Y_{j}|$ 。

{\begin{array}{c|cccc|c}{{} \atop X}\!\diagdown \!^{Y}&Y_{1}&Y_{2}&\cdots &Y_{s}&{\text{sums}}\\\hline X_{1}&n_{11}&n_{12}&\cdots &n_{1s}&a_{1}\\X_{2}&n_{21}&n_{22}&\cdots &n_{2s}&a_{2}\\\vdots &\vdots &\vdots &\ddots &\vdots &\vdots \\X_{r}&n_{r1}&n_{r2}&\cdots &n_{rs}&a_{r}\\\hline {\text{sums}}&b_{1}&b_{2}&\cdots &b_{s}&\end{array}}

定義

順列モデルを使用したオリジナルの調整ランド指数は

ARI={\frac {\left.\sum _{ij}{\binom {n_{ij}}{2}}-\left[\sum _{i}{\binom {a_{i}}{2}}\sum _{j}{\binom {b_{j}}{2}}\right]\right/{\binom {n}{2}}}{\left.{\frac {1}{2}}\left[\sum _{i}{\binom {a_{i}}{2}}+\sum _{j}{\binom {b_{j}}{2}}\right]-\left[\sum _{i}{\binom {a_{i}}{2}}\sum _{j}{\binom {b_{j}}{2}}\right]\right/{\binom {n}{2}}}}

ここで、 $n_{ij},a_{i},b_{j}$ は分割表の値を表す。

脚注

^ ^a ^b ^c W. M. Rand (1971). “Objective criteria for the evaluation of clustering methods”. Journal of the American Statistical Association (American Statistical Association) 66 (336): 846–850. doi:10.2307/2284239. JSTOR 2284239.
^ ^a ^b Lawrence Hubert and Phipps Arabie (1985). “Comparing partitions”. Journal of Classification 2 (1): 193–218. doi:10.1007/BF01908075.
^ Nguyen Xuan Vinh, Julien Epps and James Bailey (2009). "Information Theoretic Measures for Clustering Comparison: Is a Correction for Chance Necessary?" (PDF). ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning. ACM. pp. 1073–1080.PDF.
^ Alexander J Gates and Yong-Yeol Ahn (2017). “The Impact of Random Models on Clustering Similarity”. Journal of Machine Learning Research 18: 1-28. PDF.
^ Silke Wagner (2007年1月12日). “Comparing Clusterings - An Overview” (pdf). 2021年10月5日閲覧。

外部リンク

MATLAB mexファイルを使用した C++ の実装

[rand71-1] W. M. Rand (1971). “Objective criteria for the evaluation of clustering methods”. Journal of the American Statistical Association (American Statistical Association) 66 (336): 846–850. doi:10.2307/2284239. JSTOR 2284239.

[hb85-2] Lawrence Hubert and Phipps Arabie (1985). “Comparing partitions”. Journal of Classification 2 (1): 193–218. doi:10.1007/BF01908075.

[3] Nguyen Xuan Vinh, Julien Epps and James Bailey (2009). "Information Theoretic Measures for Clustering Comparison: Is a Correction for Chance Necessary?" (PDF). ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning. ACM. pp. 1073–1080.PDF.

[ga17-4] Alexander J Gates and Yong-Yeol Ahn (2017). “The Impact of Random Models on Clustering Similarity”. Journal of Machine Learning Research 18: 1-28. PDF.

[5] Silke Wagner (2007年1月12日). “Comparing Clusterings - An Overview” (pdf). 2021年10月5日閲覧。

[1]

[2]

[3]

[4]

[5]