數據倉庫和數據挖掘是兩個比較大的概念,在國外已經非常成熟,在國內隨著前幾年企業數據的累計、ERP的成熟,數據倉庫和數據挖掘開始起步。
如何建立數據倉庫和數據挖掘是個不斷值得探討和優化的問題,不僅僅在技術上,在商業應用上也是如此。隨著新的技術和觀念的不斷引入,傳統的數據倉庫技術方法有了很大的改變,
基于數據倉庫的應用也有了新的發展。每個企業的數據倉庫根據企業特點不同,可以采用非常靈活的選型方法進行選型設計、實施。本文根據一些比較新的技術特點,談談數據倉庫和數據挖掘的架構。
從成熟的數據倉庫架構入手來看,建立EDW(Enterprise Data Warehouse)是個比較好的選擇。EDW是企業數據倉庫,對整個企業數據有一個完整的不冗余的保留關鍵歷史變化信息的唯一視圖;贓DW可以建立不同主題的數據集市Data Mart,數據集市不同的企業有不同的要求,基本上可以分用戶主題,業務流主題,產品主題等等,在EDW的基礎上可以有非常多的主題應用,如何建立EDW 是個比較重要的問題。
建立EDW的關鍵是要把握數據倉庫的本質,提供關鍵歷史變化信息,可以真實還原企業數據的關鍵歷史視圖。也就是現在提到比較多的DSS層,在DSS層之下有ODS層做當前數據視圖,有緩沖層做增量數據視圖,利用增量數據視圖和DSS層數據視圖結合起來,利用緩慢變化維或者代理鍵技術,從理論上就可以實現 DSS層的任何數據歷史變化。但是在實際實施DSS層時候,一個能提供高性能計算的數據庫和選擇一個切合業務發展的增量時間頻率是兩個關鍵點。
緩慢變化維從具體實施過程的可以維護性出發,比較統一通用的方法可以采用增加快照開始時間和快照結束時間,結合業務系統的主鍵,就可以完成DSS層真實企業數據關鍵歷史快照視圖。在實施過程中關鍵要把握增量數據緩沖層中三種集合數據,純粹新增的數據A,關鍵歷史信息發生變化的數據B,關鍵歷史信息沒有發生變化的數據C。對集合A,B都需要增加快照記錄,對集合C則采用更新快照記錄。這個過程的重點是高性能計算和商業需求。
在DSS層之上,根據EDW方案種數據庫不同,可以采用建立數據集市。數據集市基本上可以采用星型模型建立,便于多維分析。
成熟EDW是用來支持商業應用的,EDW之上的一個比較重要的應用是數據挖掘,從EDW海量數據中尋找有用的信息,支持企業的發展。這里不具體到數據挖掘廠商,從一般性的概念上理解更加重要,數據挖掘需要EDW能夠基于DSS層的企業數據關鍵歷史視圖,重新組合成商業上決策因素集合。結合數據挖掘的一些成熟的算法,把EDW里面的海量數據處理成為信息決策源。在實施數據挖掘過程中,需要注意的是一定要根據企業本身的業務來制定模型,任何脫離企業業務的理論模型在具體實施過程中失敗的可能性很大。
談完了數據倉庫和數據挖掘的本質,那么目前可以值得選擇的一些廠商和技術是什么呢?
隨著商業智能,數據倉庫的成熟,進入這個領域的廠商越來越多,評測也是各有千秋。在EDW方面,根據數據倉庫的容量,計算復雜度,實時性要求,在低端可以考慮微軟的SQL Sserver ,目前SQL Sserver 2005在商業智能上有顯著增強。在中端可以考慮Oracle 的DW 解決方案,Sybase IQ在數據量不是非常大的時候性能還是不錯的。如果要做超大型的DW,那么需要考慮一些高端專業的DW解決方案,目前TERADATA和IBM的 Share Nothing架構的高端數據倉庫在海量數據處理,復雜商業計算,實時數據處理方面擴展性比較好,但是投入非常大。
數據倉庫和數據挖掘,從幾年前比較抽象的層次逐漸清晰起來,在企業決策和業務流程優化中發揮的作用越來越大,一個好的數據倉庫和數據挖掘方案是一個開始,更重要的是推動商業思想上從傳統的拍腦袋到精細化營銷和依靠數據做決策方面來。商業和技術是兩個互相推進的因素,商業是驅動,但是好的技術也可以推動商業的發展,適合的技術用在需要的商業驅動上才能發揮好作用。
文章來源于領測軟件測試網 http://www.kjueaiud.com/
版權所有(C) 2003-2010 TestAge(領測軟件測試網)|領測國際科技(北京)有限公司|軟件測試工程師培訓網 All Rights Reserved
北京市海淀區中關村南大街9號北京理工科技大廈1402室 京ICP備2023014753號-2
技術支持和業務聯系:info@testage.com.cn 電話:010-51297073
老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月