1 數據挖掘過程概述
隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。激增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。完整的數據挖掘過程中各步驟的大體內容如下:
1) 確定業務對象
清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的。
2) 數據準備
數據的選擇。搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。
數據的預處理。研究數據的質量,為進一步的分析作準備.并確定將要進行的挖掘操作的類型。
數據的轉換。將數據轉換成一個分析模型,這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。
3) 數據挖掘
對所得到的經過轉換的數據進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。
4) 結果分析
解釋并評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會用到可視化技術。
5) 知識的同化
將分析所得到的知識集成到業務信息系統的組織結構中去。如下圖所示:
圖:數據挖掘過程的步驟
2 評測的要點與難點
從數據挖掘的幾個階段來看,每個階段對算法的依賴程度不一。對于確定業務對象和數據準備中的數據選擇階段,基本是以人工方式作出規范,為下面數據準備另兩個階段和數據挖掘應用階段提供分析對象。而在最后的結果分析和知識同化階段,則通常是在系統將挖掘的結果以可視化形式呈現給用戶后,由用戶再次以主觀方式進行再分析與再分類,為下一次的數據挖掘提供修正,以使整個挖掘系統更強壯。由此可見,評測人員最關注的階段,集中在對數據準備后兩個階段和數據挖掘結果的評測上。由于數據準備的結果會直接運行在數據挖掘階段,我們又可以進一步把評測的核心集中在對數據挖掘結果契合度的評測上。
契合度評測,就是數據挖掘算法的結果與實際情況,或者說是與用戶希望的結果的吻合程度。與傳統的數據分析(如查詢、報表、聯機應用分析)相比,數據挖掘與其本質的區別在于數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。換言之,數據挖掘作為一種人工智能的手段,其結果帶有系統本身的“主觀色彩”,又沒有一個完全正確的預先的分析結果可以作為依據與數據挖掘的結果進行比較,以計算挖掘結果的契合度,同時也沒有任何儀器可以倚仗,這可能就是契合度評測的難點所在。
3 評測方法初探
如上文所述,事先并沒有一個客觀公正的數據處理結果是我們可以用來與數據挖掘結果做比較的,所以作為評判依據的,必然得是由人工的主觀評測得到的正確結果。這是因為,否則假設我們有一套預知的正確的結果來自另外一套自動化的挖掘算法,我們就必須對這另一套挖掘算法的結果契合度進行評估。而要對它進行評估,我們就需要第三套挖掘算法……這時,我們就陷入了雞生蛋,蛋生雞的邏輯怪圈。
而么用人工的主觀評測結果來做比較對象是否就可以呢?答案通常還是否定的。對于一個實際應用的數據挖掘系統來說,通常其處理的數據是海量的,如果完全對所有數據進行人工的分析統計,其工作量是巨大的,通常是測試部門難以承受的。而且人工分析統計帶有主觀色彩,不同的測試人員的分析結果很可能因人而異,這就會對評測結果的客觀性和公正性產生影響。所以,除非是面對足夠小的數據量和擁有足夠多的測試人力資源,人工分析結果的比對測試是很困難的。
但是,如果據此就認為數據挖掘結果的契合度無法評測的,這種觀點也是不正確的。如果把注意力從契合度評測的階段抽出,將會發現之前的確定業務對象和數據選擇階段才是 真正應該關注的地方。測試人員應該評測的是整個系統的挖掘結果準確度,而不是某一次挖掘結果效果如何。與其用巨大的人力資源去評測某一次的挖掘結果,不如從
延伸閱讀
文章來源于領測軟件測試網 http://www.kjueaiud.com/