聚类分析的一些评价手段
什么是聚类
聚类简单的说就是要把一个文档集合根据文档的相似性把文档分成若干类,但是究竟分成多少类,这个要取决于文档集合里文档自身的性质。下面这个图就是一个简单的例子,我们可以把不同的文档聚合为3类。另外聚类是典型的无指导学习,所谓无指导学习是指不需要有人干预,无须人为文档进行标注。
聚类的评价
既然聚类是把一个包含若干文档的文档集合分成若干类,像上图如果聚类算法应该把文档集合分成3类,而不是2类或者5类,这就设计到一个如何评价聚类结果的问题。下面介绍几种聚类算法的评价指标,看下图
如图认为x代表一类文档,o代表一类文档,方框代表一类文档,完美的聚类显然是应该把各种不同的图形放入一类,事实上我们很难找到完美的聚类方法,各种方法在实际中难免有偏差,所以我们才需要对聚类算法进行评价看我们采用的方法是不是好的算法。
评价方法一:purity
purity方法是极为简单的一种聚类评价方法,只需计算正确聚类的文档数占总文档数的比例:
其中Ω = {ω1,ω2, . . . ,ωK}是聚类的集合ωK表示第k个聚类的'集合。C = {c1, c2, . . . , cJ}是文档集合,cJ表示第J个文档。N表示文档总数。
如上图的purity = ( 3+ 4 + 5) / 17 = 0.71
其中第一类正确的有5个,第二个4个,第三个3个,总文档数17。
purity方法的优势是方便计算,值在0~1之间,完全错误的聚类方法值为0,完全正确的方法值为1。同时,purity方法的缺点也很明显它无法对退化的聚类方法给出正确的评价,设想如果聚类算法把每篇文档单独聚成一类,那么算法认为所有文档都被正确分类,那么purity值为1!而这显然不是想要的结果。
评价方法二:RI
实际上这是一种用排列组合原理来对聚类进行评价的手段,公式如下:
其中TP是指被聚在一类的两个文档被正确分类了,TN是只不应该被聚在一类的两个文档被正确分开了,FP只不应该放在一类的文档被错误的放在了一类,FN只不应该分开的文档被错误的分开了。对上图
TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40 其中C(n,m)是指在m中任选n个的组合数。
TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20
FP = 40 - 20 = 20
相似的方法可以计算出TN = 72 FN = 24
所以RI = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68
评价方法三:F值
这是基于上述RI方法衍生出的一个方法
RI方法有个特点就是把准确率和召回率看得同等重要,事实上有时候我们可能需要某一特性更多一点,这时候就适合F值方法
-
(优选)《变色龙》评课稿3篇
作为一名默默奉献的教育工作者,常常要根据教学需要编写评课稿,评课有利于帮助和指导教师不断总结教学经验,形成教学风格,提高教育教学水平。快来参考评课稿是怎么写的吧!以下是小编为大家收集的《变色龙》评课稿,供大家参考借鉴,希望可以帮助到有需要的朋友。《变色龙...
-
西游记作文8篇【优选】
无论是在学校还是在社会中,大家都经常接触到作文吧,借助作文人们可以反映客观事物、表达思想感情、传递知识信息。那么你有了解过作文吗?下面是小编整理的西游记作文8篇,欢迎阅读与收藏。西游记作文篇1《西游记》是中国四大名著,里面的主人公是斩妖除魔的齐天大圣孙...
-
(热)西游记续写作文600字8篇
在平时的学习、工作或生活中,大家都不可避免地会接触到作文吧,作文要求篇章结构完整,一定要避免无结尾作文的出现。那要怎么写好作文呢?下面是小编精心整理的西游记续写作文600字8篇,欢迎阅读与收藏。西游记续写作文600字篇1悟空时时被唐僧捏住痛处也想摆脱,素有好狠...
-
经典语文评课稿
作为一名教职工,就难以避免地要准备评课稿,评课有利于信息的及时反馈、评价与调控,调动教师教育教学的积极性和主动性。评课稿要怎么写呢?下面是小编为大家收集的经典语文评课稿,仅供参考,希望能够帮助到大家。经典语文评课稿1因为流感,六(3)班的学生放假了,邀请南飞的雁...