聚類分析的一些評價手段
什麼是聚類
聚類簡單的說就是要把一個文件集合根據文件的相似性把文件分成若干類,但是究竟分成多少類,這個要取決於文件集合裡文件自身的性質。下面這個圖就是一個簡單的例子,我們可以把不同的文件聚合為3類。另外聚類是典型的無指導學習,所謂無指導學習是指不需要有人干預,無須人為文件進行標註。
聚類的評價
既然聚類是把一個包含若干文件的文件集合分成若干類,像上圖如果聚類演算法應該把文件集合分成3類,而不是2類或者5類,這就設計到一個如何評價聚類結果的問題。下面介紹幾種聚類演算法的評價指標,看下圖
如圖認為x代表一類文件,o代表一類文件,方框代表一類文件,完美的聚類顯然是應該把各種不同的圖形放入一類,事實上我們很難找到完美的聚類方法,各種方法在實際中難免有偏差,所以我們才需要對聚類演算法進行評價看我們採用的方法是不是好的演算法。
評價方法一:purity
purity方法是極為簡單的一種聚類評價方法,只需計算正確聚類的文件數佔總文件數的比例:
其中Ω = {ω1,ω2, . . . ,ωK}是聚類的集合ωK表示第k個聚類的'集合。C = {c1, c2, . . . , cJ}是文件集合,cJ表示第J個文件。N表示文件總數。
如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71
其中第一類正確的有5個,第二個4個,第三個3個,總文件數17。
purity方法的優勢是方便計算,值在0~1之間,完全錯誤的聚類方法值為0,完全正確的方法值為1。同時,purity方法的缺點也很明顯它無法對退化的聚類方法給出正確的評價,設想如果聚類演算法把每篇文件單獨聚成一類,那麼演算法認為所有文件都被正確分類,那麼purity值為1!而這顯然不是想要的結果。
評價方法二:RI
實際上這是一種用排列組合原理來對聚類進行評價的手段,公式如下:
其中TP是指被聚在一類的兩個文件被正確分類了,TN是隻不應該被聚在一類的兩個文件被正確分開了,FP只不應該放在一類的文件被錯誤的放在了一類,FN只不應該分開的文件被錯誤的分開了。對上圖
TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40 其中C(n,m)是指在m中任選n個的組合數。
TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20
FP = 40 - 20 = 20
相似的方法可以計算出TN = 72 FN = 24
所以RI = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68
評價方法三:F值
這是基於上述RI方法衍生出的一個方法
RI方法有個特點就是把準確率和召回率看得同等重要,事實上有時候我們可能需要某一特性更多一點,這時候就適合F值方法
-
數學評課稿【精】
作為一名教學工作者,很有必要精心設計一份評課稿,評課的型別很多,有同事之間互相學習、共同研討評課;有學校領導診斷、檢查的評課;有上級專家鑑定或評判的評課等。我們該怎麼去寫評課稿呢?以下是小編整理的數學評課稿,僅供參考,大家一起來看看吧。數學評課稿1宋老師的...
-
西遊記續寫作文必備7篇
在平平淡淡的日常中,大家對作文都再熟悉不過了吧,藉助作文可以提高我們的語言組織能力。那麼你知道一篇好的作文該怎麼寫嗎?下面是小編收集整理的西遊記續寫作文7篇,歡迎閱讀,希望大家能夠喜歡。西遊記續寫作文篇1話說豬八戒取得真經後,封了一個淨壇使者的稱號,八戒想...
-
西遊記續寫作文5篇[優選]
在日常的學習、工作、生活中,大家都不可避免地要接觸到作文吧,作文是一種言語活動,具有高度的綜合性和創造性。作文的注意事項有許多,你確定會寫嗎?下面是小編精心整理的西遊記續寫作文5篇,歡迎閱讀,希望大家能夠喜歡。西遊記續寫作文篇1自從唐僧師徒取經過後,都修成了...
-
西遊記學生作文300字6篇(精選)
在日復一日的學習、工作或生活中,大家或多或少都會接觸過作文吧,藉助作文人們可以實現文化交流的目的。那麼一般作文是怎麼寫的呢?以下是小編精心整理的西遊記學生作文300字6篇,歡迎閱讀與收藏。西遊記學生作文300字篇1寒假期間,我幾乎天天都看《西遊記》,總是看不煩...