所以,對于挖掘結果的契合度測試,應該從直接人工分析挖掘結果的泥沼中抽身出來,直接著眼于設計測試數據,將整個數據庫作為測試用例,設計出一個結果比較客觀的數據庫供挖掘系統分析,再將挖掘系統自動生成的結果與設計數據時得到的預先結果進行對比.這樣得到的評測結果是針對整個系統的挖掘結果契合度,這勝過對某一次挖掘結果的契合度的評測。
4 評測實例分析與總結
具體將這種思想運用到實踐中來,不妨以測試案例作為分析對象。在年中的某一次測試中,客戶開發的某系統運用數據挖掘算法,對幾千條新聞數據進行采集和分析,并將新聞數據按關鍵詞分為不同的主題,再將新聞按主題分別列出。但是特殊之處在于系統的數據源不可以自行控制,只能進行人工的局部修改。而客戶要求我們對整個系統的結果契合度都進行評價。
因此,在分析整個數據關系后,我們將契合度評價的指標列出兩個:
主題信息完全度:評價同一主題中是否包含所有符合該主題中關鍵詞條件的新聞。
關鍵詞契合度:評價同一主題中的新聞是否都與該主題的關鍵詞密切相關。在實際測試過程中,我們也審時度勢,針對無法控制數據源的客觀情況,對測試方法做了調整。
對于主題信息完全度,我們采用修改數據的方法,而不是人工查看所有中是否含有某個主題,那是不現實的。首先我們找到幾個在測試當前的數據庫中沒有的冷僻詞條作為關鍵詞,在若干條新聞中穿插地插入這些詞條。然后交給系統分析,計算系統得出的該關鍵詞的主題中含有已修改的新聞的數量,再除以總的修改新聞數,這個比率就是主題信息完全度。
對于關鍵詞契合度,最科學的方法應該是完全采用自定制的數據庫,將系統測試結果與預設數據的結果進行比對。但是受限于數據源無法控制,我們采用了最直接的人工分析挖掘結果的方法。雖然比較辛苦,而且要力求客觀,但好在這個數據庫的規模在人工可以承受的范圍內。將系統生成結果與人工分析的結果相比,得出的就是關鍵詞契合度。
總結這次測試任務,我們得出了本文的主題結論:在對數據挖掘結果的契合度進行評測時,最好能夠自己設計測試數據,將整個數據庫作為測試用例進行設計,再將系統自動生成的結果與預設數據的結果進行比較。當受制于數據無法控制時,再考慮與人工分析數據進行比較的方法,但一定要注意力求客觀,亦不失為一個務實有效的測試方法。
延伸閱讀
文章來源于領測軟件測試網 http://www.kjueaiud.com/