聚類分析的一些評價手段
什麼是聚類
聚類簡單的說就是要把一個文檔集合根據文檔的相似性把文檔分成若干類,但是究竟分成多少類,這個要取決於文檔集合裏文檔自身的性質。下面這個圖就是一個簡單的例子,我們可以把不同的文檔聚合爲3類。另外聚類是典型的無指導學習,所謂無指導學習是指不需要有人干預,無須人爲文檔進行標註。
聚類的評價
既然聚類是把一個包含若干文檔的文檔集合分成若干類,像上圖如果聚類算法應該把文檔集合分成3類,而不是2類或者5類,這就設計到一個如何評價聚類結果的問題。下面介紹幾種聚類算法的評價指標,看下圖
如圖認爲x代表一類文檔,o代表一類文檔,方框代表一類文檔,完美的聚類顯然是應該把各種不同的圖形放入一類,事實上我們很難找到完美的聚類方法,各種方法在實際中難免有偏差,所以我們才需要對聚類算法進行評價看我們採用的方法是不是好的算法。
評價方法一:purity
purity方法是極爲簡單的一種聚類評價方法,只需計算正確聚類的文檔數佔總文檔數的比例:
其中Ω = {ω1,ω2, . . . ,ωK}是聚類的集合ωK表示第k個聚類的'集合。C = {c1, c2, . . . , cJ}是文檔集合,cJ表示第J個文檔。N表示文檔總數。
如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71
其中第一類正確的有5個,第二個4個,第三個3個,總文檔數17。
purity方法的優勢是方便計算,值在0~1之間,完全錯誤的聚類方法值爲0,完全正確的方法值爲1。同時,purity方法的缺點也很明顯它無法對退化的聚類方法給出正確的評價,設想如果聚類算法把每篇文檔單獨聚成一類,那麼算法認爲所有文檔都被正確分類,那麼purity值爲1!而這顯然不是想要的結果。
評價方法二:RI
實際上這是一種用排列組合原理來對聚類進行評價的手段,公式如下:
其中TP是指被聚在一類的兩個文檔被正確分類了,TN是隻不應該被聚在一類的兩個文檔被正確分開了,FP只不應該放在一類的文檔被錯誤的放在了一類,FN只不應該分開的文檔被錯誤的分開了。對上圖
TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40 其中C(n,m)是指在m中任選n個的組合數。
TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20
FP = 40 - 20 = 20
相似的方法可以計算出TN = 72 FN = 24
所以RI = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68
評價方法三:F值
這是基於上述RI方法衍生出的一個方法
RI方法有個特點就是把準確率和召回率看得同等重要,事實上有時候我們可能需要某一特性更多一點,這時候就適合F值方法
-
西遊記續寫作文優秀[6篇]
在平平淡淡的學習、工作、生活中,說到作文,大家肯定都不陌生吧,作文是從內部言語向外部言語的過渡,即從經過壓縮的簡要的、自己能明白的語言,向開展的、具有規範語法結構的、能爲他人所理解的外部語言形式的轉化。如何寫一篇有思想、有文采的作文呢?下面是小編爲大家...
-
【合集】西遊記作文7篇
在日常學習、工作抑或是生活中,大家都跟作文打過交道吧,通過作文可以把我們那些零零散散的思想,聚集在一塊。那麼你知道一篇好的作文該怎麼寫嗎?以下是小編爲大家收集的西遊記作文7篇,歡迎大家分享。西遊記作文篇1這部電影是西遊記的片段,又是兒童電影。這個片段講了...
-
讀西遊記作文400字共10篇
在平時的學習、工作或生活中,許多人都有過寫作文的經歷,對作文都不陌生吧,作文一定要做到主題集中,圍繞同一主題作深入闡述,切忌東拉西扯,主題渙散甚至無主題。如何寫一篇有思想、有文采的作文呢?以下是小編爲大家整理的讀西遊記作文400字10篇,僅供參考,歡迎大家閱讀。...
-
西遊記作文8篇(熱門)
在日常學習、工作抑或是生活中,大家都不可避免地要接觸到作文吧,作文是由文字組成,經過人的思想考慮,通過語言組織來表達一個主題意義的文體。相信許多人會覺得作文很難寫吧,下面是小編爲大家整理的西遊記作文8篇,僅供參考,大家一起來看看吧。西遊記作文篇1高爾基說:“...