加入收藏 | 设为首页 | 会员中心 | 我要投稿 济宁站长网 (https://www.0537zz.cn/)- 行业智能、边缘计算、专有云、AI硬件、5G!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

非监督学习最强攻略

发布时间:2019-10-14 21:28:04 所属栏目:经验 来源:SAMshare
导读:MLK,即Machine Learning Knowledge,本专栏在于对机器学习的重点知识做一次梳理,便于日后温习,内容主要来自于《百面机器学习》一书,结合自己的经验与思考做的一些总结与归纳。本次主要讲解的内容是机器学习里的非监督学习经典原理与算法,非监督,也就

优点:

  • 随机(统一)标签分配 对于任何值的ARI分数接近0.0n_clusters,n_samples(对于原始的兰德指数或V度量,情况不是这样)。
  • 有界范围[-1,1]:负值是坏的(独立标注),相似的聚类具有正的ARI,1.0是完美的匹配得分。
  • 对集群结构没有作出任何假设:可以用于比较聚类算法,例如k-means,其假设各向同性斑点形状与可以找到具有“折叠”形状的聚类的频谱聚类算法的结果。

缺点:

  • 与惯性相反,ARI需要对地面真相类的知识,而在实践中几乎不可用,或者需要人工注释者的人工分配(如在受监督的学习环境中)。
  • 然而,ARI也可以在纯无人监控的设置中用作可用于聚类模型选择(TODO)的共识索引的构建块。

4)Mutual Information based scores(基于相互信息的分数)

鉴于labels_true相同样本的基本真实类分配和我们的聚类算法分配的知识labels_pred, 互信息是衡量两个分配的一致性的函数,忽略排列。这种措施的两个不同的标准化版本是可用的,归一化互信息(NMI)和调整的相互信息(AMI)。文献中经常使用NMI,而最近提出了AMI,并针对机会进行归一化:

优点:

  • 随机的(均匀的)标签指定具有AMI得分接近0.0 为任何值n_clusters和n_samples(其不是生互信息或V-措施例如的情况下)。
  • 有界范围[0,1]:接近零的值表示两个主要独立的标签分配,而接近1的值表示重要的一致性。此外,恰好为0的值表示纯独立的标签分配,并且恰好为1的AMI表示两个标签分配是相等的(有或没有排列)。
  • 对集群结构没有作出任何假设:可以用于比较聚类算法,例如k-means,其假设各向同性斑点形状与可以找到具有“折叠”形状的聚类的频谱聚类算法的结果。

缺点:

  • 与惯性相反,基于MI的措施需要了解地面真相类,而在实践中几乎不可用,或需要人为注释者的人工分配(如在受监督的学习环境中)。 然而,基于MI的措施也可用于纯粹无监督的设置,作为可用于聚类模型选择的共识索引的构建块。

常见聚类算法对比

下面一张图介绍几种Scikit learn的常用聚类算法的比较:

非监督学习最强攻略

常见聚类算法的Python实现

上面说了这么多聚类算法,还是在最后面,把算法的Python实现代码给大家贴一下:

1)K-Means聚类

非监督学习最强攻略

2)分层聚类(Hierarchical clustering)

非监督学习最强攻略

3)t-SNE聚类

非监督学习最强攻略

4)DBSCAN聚类

非监督学习最强攻略

5)MiniBatchKMeans

非监督学习最强攻略

6)Affinity Propagation(近邻传播)

非监督学习最强攻略

Reference

《百面机器学习》——chapter5

(编辑:济宁站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读