非监督学习最强攻略

发布时间：2019-10-14 21:28:04 所属栏目：经验来源：SAMshare

导读：MLK，即Machine Learning Knowledge，本专栏在于对机器学习的重点知识做一次梳理，便于日后温习，内容主要来自于《百面机器学习》一书，结合自己的经验与思考做的一些总结与归纳。本次主要讲解的内容是机器学习里的非监督学习经典原理与算法，非监督，也就

优点：

随机(统一)标签分配对于任何值的ARI分数接近0.0n_clusters，n_samples(对于原始的兰德指数或V度量，情况不是这样)。
有界范围[-1,1]：负值是坏的(独立标注)，相似的聚类具有正的ARI，1.0是完美的匹配得分。
对集群结构没有作出任何假设：可以用于比较聚类算法，例如k-means，其假设各向同性斑点形状与可以找到具有“折叠”形状的聚类的频谱聚类算法的结果。

缺点：

与惯性相反，ARI需要对地面真相类的知识，而在实践中几乎不可用，或者需要人工注释者的人工分配(如在受监督的学习环境中)。
然而，ARI也可以在纯无人监控的设置中用作可用于聚类模型选择(TODO)的共识索引的构建块。

4)Mutual Information based scores(基于相互信息的分数)

鉴于labels_true相同样本的基本真实类分配和我们的聚类算法分配的知识labels_pred，互信息是衡量两个分配的一致性的函数，忽略排列。这种措施的两个不同的标准化版本是可用的，归一化互信息(NMI)和调整的相互信息(AMI)。文献中经常使用NMI，而最近提出了AMI，并针对机会进行归一化：

优点：

随机的(均匀的)标签指定具有AMI得分接近0.0 为任何值n_clusters和n_samples(其不是生互信息或V-措施例如的情况下)。
有界范围[0，1]：接近零的值表示两个主要独立的标签分配，而接近1的值表示重要的一致性。此外，恰好为0的值表示纯独立的标签分配，并且恰好为1的AMI表示两个标签分配是相等的(有或没有排列)。
对集群结构没有作出任何假设：可以用于比较聚类算法，例如k-means，其假设各向同性斑点形状与可以找到具有“折叠”形状的聚类的频谱聚类算法的结果。

缺点：