• <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>
    • 軟件測試技術
    • 軟件測試博客
    • 軟件測試視頻
    • 開源軟件測試技術
    • 軟件測試論壇
    • 軟件測試沙龍
    • 軟件測試資料下載
    • 軟件測試雜志
    • 軟件測試人才招聘
      暫時沒有公告

    字號: | 推薦給好友 上一篇 | 下一篇

    軟件測試中如何在SQL Server 2008中驗證數據挖掘模型

    發布: 2010-6-29 08:36 | 作者: 網絡轉載 | 來源: 領測軟件測試網采編 | 查看: 77次 | 進入軟件測試論壇討論

    領測軟件測試網

    軟件測試中如何在SQL Server 2008中驗證數據挖掘模型

    微軟sql server 2008將整個數據挖掘流程定義為挖掘結構、挖掘模型、挖掘模型查看器、挖掘準確性圖表和挖掘模型預測五個步驟,本文將討論如何在sql server 2008中驗證已經建好的數據挖掘模型。

    1. 為什么要對數據挖掘模型進行驗證

    當我們建立好一個數據挖掘模型時,并不能保證所建模型能夠直接的解決商業問題,我們要使用多種方法來評估和檢驗數據挖掘模型的質量和特征。我們可以將將數據分為定型集和測試集來評估數據挖掘模型。通過將數據集分區為定型集和測試集時,定型集是取大多數數據,小部分數據用于測試。通過對全部數據的整體數據抽樣,我們要保證定型集和測試集的相似。通過使用相似的數據來進行定型和測試,可以更好得驗證數據挖掘模型。

    驗證數據挖掘模型主要是從準確性、可靠性和有用性這三個方面入手。準確性是數據挖掘模型與所提供數據中的屬性的結果相關聯程度的度量值?煽啃允窃u估數據挖掘模型處理不同數據集的方法。有用性包括了模型是否提供了有用信息的各種指標,比如說有些數據挖掘模型在數據上是成功的,但是實際上沒有意義。

    在sql server 2008中的挖掘模型驗證方法可以用繪制模型準確性圖表,挖掘模型的交叉驗證等方法來進行模型驗證。

    2. 挖掘模型的準確性圖表

    sql server 2008中的挖掘模型的準確性圖表主要有提升圖、利潤圖、散點圖、分類矩陣和交叉驗證報表。

    提升圖比較每個模型的預測的準確性,可配置為顯示通用預測的準確性或特定值預測的準確性。提升圖是用來顯示挖掘模型所引起的提升變化的圖形表現形式。數據挖掘模型的結果都是介于隨機推測模型和精確無誤的預測模型之間的,與隨機模型相比,任何提高都可以視為提升。提升圖可以有效地估計例如客戶回復郵件這類模型的準確性效果。如圖1所示。

    圖1

    利潤圖是與提升圖包含相同信息的相關圖表類型,但利潤圖還顯示與使用每個模型相關聯的利潤預計增長。利潤圖中包含一條灰線豎線,用于標記目標總體的百分比。挖掘圖例會隨著灰色豎線的移動更新并顯示百分比值。利潤圖可以指示若要獲得最大利潤,應確定預測為多少幾率的屬性,諸如此類的問題。如圖2所示。

    圖2

    如果模型包含可預測連續性的屬性,系統會自動顯示散點圖。所謂散點圖,就是通過圖形對照顯示模型中的實際值和預測值。X軸表示實際值,Y軸表示預測值,圖中間的一條直線表示在完美預測的情況下,預測值和實際值完全匹配。散點圖通過將連續性的輸入屬性視為獨立變量,預測屬性視為依賴變量,圖形顯示了結果與輸出的緊密程度。如圖3所示。

    圖3

    在分類矩陣中,每個矩陣的行表示模型的預測值,而列則表示實際值。分類矩陣是通過將所有事例分揀到各類別中創建的。這些類別可以是“假正”、“真正”、“假負”和“真負”。通過對每個類別中的所有事例進行計數,并在矩陣中顯示總計。通過對分類矩陣的查看,可以快速查看模型作出正確預測的頻率。分類矩陣主要用于評估模型所進行的預測是否有效,可以通過已知其預測值的數據集進行測試,我們一般使用在創建模型結構時設定的測試集做測試,通過對測試集得比對,可以快速確定模型預測預期值的次數。
     

    3.交叉驗證

    在創建了數據挖掘模型后,交叉驗證用來確定模型的有效性。通過交叉驗證,我們可以驗證挖掘模型的可靠性,評估該模型以及統計并標識最好的模型。

    我們通過交叉驗證可以了解挖掘模型對于整個數據集的可靠程度,交叉驗證可以將挖掘結構分區為交叉部分,并針對數據的每個交叉部分循環定型和測試模型。我們可以把數據劃分到其中的每個分區,每個分區將依次用作測試數據,而其余的數據用于為新模型定型。然后系統會為每個模型生成一組標準準確性指標。通過比較為每個交叉部分生成的模型的指標,可以清楚地了解挖掘模型對于整個數據集的可靠程度。如圖5所示。

    圖5

    延伸閱讀

    文章來源于領測軟件測試網 http://www.kjueaiud.com/

    TAG: server Server SERVER sql SQL Sql 模型 軟件測試 數據


    關于領測軟件測試網 | 領測軟件測試網合作伙伴 | 廣告服務 | 投稿指南 | 聯系我們 | 網站地圖 | 友情鏈接
    版權所有(C) 2003-2010 TestAge(領測軟件測試網)|領測國際科技(北京)有限公司|軟件測試工程師培訓網 All Rights Reserved
    北京市海淀區中關村南大街9號北京理工科技大廈1402室 京ICP備2023014753號-2
    技術支持和業務聯系:info@testage.com.cn 電話:010-51297073

    軟件測試 | 領測國際ISTQBISTQB官網TMMiTMMi認證國際軟件測試工程師認證領測軟件測試網

    老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

  • <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>