|
@@ -1,13 +1,13 @@
|
|
|
## 9.5
|
|
## 9.5
|
|
|
|
|
|
|
|
$$
|
|
$$
|
|
|
-JC=\frac{a}{a+b+c}
|
|
|
|
|
|
|
+\mathrm{JC}=\frac{a}{a+b+c}
|
|
|
$$
|
|
$$
|
|
|
|
|
|
|
|
[解析]:给定两个集合$A$和$B$,则Jaccard系数定义为如下公式
|
|
[解析]:给定两个集合$A$和$B$,则Jaccard系数定义为如下公式
|
|
|
|
|
|
|
|
$$
|
|
$$
|
|
|
-JC=\frac{|A\bigcap B|}{|A\bigcup B|}=\frac{|A\bigcap B|}{|A|+|B|-|A\bigcap B|}
|
|
|
|
|
|
|
+\mathrm{JC}=\frac{|A\bigcap B|}{|A\bigcup B|}=\frac{|A\bigcap B|}{|A|+|B|-|A\bigcap B|}
|
|
|
$$
|
|
$$
|
|
|
Jaccard系数可以用来描述两个集合的相似程度。
|
|
Jaccard系数可以用来描述两个集合的相似程度。
|
|
|
|
|
|
|
@@ -23,7 +23,7 @@ Jaccard系数可以用来描述两个集合的相似程度。
|
|
|
|
|
|
|
|
根据Jaccard系数的定义,此时的Jaccard系数为如下公式
|
|
根据Jaccard系数的定义,此时的Jaccard系数为如下公式
|
|
|
$$
|
|
$$
|
|
|
-JC=\frac{M_{11}}{M_{11}+M_{10}+M_{01}}
|
|
|
|
|
|
|
+\mathrm{JC}=\frac{M_{11}}{M_{11}+M_{10}+M_{01}}
|
|
|
$$
|
|
$$
|
|
|
由于聚类属于无监督学习,事先并不知道聚类后样本所属类别的类别标记所代表的意义,即便参考模型的类别标记意义是已知的,我们也无法知道聚类后的类别标记与参考模型的类别标记是如何对应的,况且聚类后的类别总数与参考模型的类别总数还可能不一样,因此只用单个样本无法衡量聚类性能的好坏。
|
|
由于聚类属于无监督学习,事先并不知道聚类后样本所属类别的类别标记所代表的意义,即便参考模型的类别标记意义是已知的,我们也无法知道聚类后的类别标记与参考模型的类别标记是如何对应的,况且聚类后的类别总数与参考模型的类别总数还可能不一样,因此只用单个样本无法衡量聚类性能的好坏。
|
|
|
|
|
|
|
@@ -37,27 +37,27 @@ $$
|
|
|
|
|
|
|
|
综上所述,即所有样本对存在着书中公式(9.1)-(9.4)的四种情况,现在假设集合$A$中存放着两个样本都同属于聚类结果的同一个类的样本对,即$A=SS\bigcup SD$,集合$B$中存放着两个样本都同属于参考模型的同一个类的样本对,即$B=SS\bigcup DS$,那么根据Jaccard系数的定义有:
|
|
综上所述,即所有样本对存在着书中公式(9.1)-(9.4)的四种情况,现在假设集合$A$中存放着两个样本都同属于聚类结果的同一个类的样本对,即$A=SS\bigcup SD$,集合$B$中存放着两个样本都同属于参考模型的同一个类的样本对,即$B=SS\bigcup DS$,那么根据Jaccard系数的定义有:
|
|
|
$$
|
|
$$
|
|
|
-JC=\frac{|A\bigcap B|}{|A\bigcup B|}=\frac{|SS|}{|SS\bigcup SD\bigcup DS|}=\frac{a}{a+b+c}
|
|
|
|
|
|
|
+\mathrm{JC}=\frac{|A\bigcap B|}{|A\bigcup B|}=\frac{|SS|}{|SS\bigcup SD\bigcup DS|}=\frac{a}{a+b+c}
|
|
|
$$
|
|
$$
|
|
|
也可直接将书中公式(9.1)-(9.4)的四种情况类比推论,即$M_{11}=a$,$M_{10}=b$,$M_{01}=c$,所以
|
|
也可直接将书中公式(9.1)-(9.4)的四种情况类比推论,即$M_{11}=a$,$M_{10}=b$,$M_{01}=c$,所以
|
|
|
$$
|
|
$$
|
|
|
-JC=\frac{M_{11}}{M_{11}+M_{10}+M_{01}}=\frac{a}{a+b+c}
|
|
|
|
|
|
|
+\mathrm{JC}=\frac{M_{11}}{M_{11}+M_{10}+M_{01}}=\frac{a}{a+b+c}
|
|
|
$$
|
|
$$
|
|
|
|
|
|
|
|
## 9.6
|
|
## 9.6
|
|
|
$$
|
|
$$
|
|
|
-FMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}
|
|
|
|
|
|
|
+\mathrm{FMI}=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}
|
|
|
$$
|
|
$$
|
|
|
|
|
|
|
|
[解析]:其中$\frac{a}{a+b}$和$\frac{a}{a+c}$为Wallace提出的两个非对称指标,$a$代表两个样本在聚类结果和参考模型中均属于同一类的样本对的个数,$a+b$代表两个样本在聚类结果中属于同一类的样本对的个数,$a+c$代表两个样本在参考模型中属于同一类的样本对的个数,这两个非对称指标均可理解为样本对中的两个样本在聚类结果和参考模型中均属于同一类的概率。由于指标的非对称性,这两个概率值往往不一样,因此Fowlkes和Mallows提出利用几何平均数将这两个非对称指标转化为一个对称指标,即Fowlkes and Mallows Index, FMI。
|
|
[解析]:其中$\frac{a}{a+b}$和$\frac{a}{a+c}$为Wallace提出的两个非对称指标,$a$代表两个样本在聚类结果和参考模型中均属于同一类的样本对的个数,$a+b$代表两个样本在聚类结果中属于同一类的样本对的个数,$a+c$代表两个样本在参考模型中属于同一类的样本对的个数,这两个非对称指标均可理解为样本对中的两个样本在聚类结果和参考模型中均属于同一类的概率。由于指标的非对称性,这两个概率值往往不一样,因此Fowlkes和Mallows提出利用几何平均数将这两个非对称指标转化为一个对称指标,即Fowlkes and Mallows Index, FMI。
|
|
|
|
|
|
|
|
## 9.7
|
|
## 9.7
|
|
|
$$
|
|
$$
|
|
|
-RI=\frac{2(a+d)}{m(m-1)}
|
|
|
|
|
|
|
+\mathrm{RI}=\frac{2(a+d)}{m(m-1)}
|
|
|
$$
|
|
$$
|
|
|
[解析]:Rand Index定义如下:
|
|
[解析]:Rand Index定义如下:
|
|
|
$$
|
|
$$
|
|
|
-RI=\frac{a+d}{a+b+c+d}=\frac{a+d}{m(m-1)/2}=\frac{2(a+d)}{m(m-1)}
|
|
|
|
|
|
|
+\mathrm{RI}=\frac{a+d}{a+b+c+d}=\frac{a+d}{m(m-1)/2}=\frac{2(a+d)}{m(m-1)}
|
|
|
$$
|
|
$$
|
|
|
其可以理解为两个样本都属于聚类结果和参考模型中的同一类的样本对的个数与两个样本都分别不属于聚类结果和参考模型中的同一类的样本对的个数的总和在所有样本对中出现的频率,可以简单理解为聚类结果与参考模型的一致性。
|
|
其可以理解为两个样本都属于聚类结果和参考模型中的同一类的样本对的个数与两个样本都分别不属于聚类结果和参考模型中的同一类的样本对的个数的总和在所有样本对中出现的频率,可以简单理解为聚类结果与参考模型的一致性。
|
|
|
|
|
|