sql索引從入門到精通(十億行數據測試報告)(4)_SQL Server

sql索引從入門到精通(十億行數據測試報告)(4)

發表于：2012-02-14來源：未知作者：娃娃點擊數：標簽：sql

避免使用32位機(極端情況) 目前的計算機很多都是32位，那么編寫的程序對內存的需要便受限制，而很多的海量數據處理是必須大量消耗內存的，這便要求

　　避免使用32位機(極端情況)

　　目前的計算機很多都是32位，那么編寫的程序對內存的需要便受限制，而很多的海量數據處理是必須大量消耗內存的，這便要求更好性能的機器，其中對位數的限制也十分重要。

　　使用數據倉庫和多維數據庫存儲

　　數據量加大是一定要考慮OLAP的，傳統的報表可能5、6個小時出來結果，而基于Cube的查詢可能只需要幾分鐘，因此處理海量數據的利器是OLAP多維分析，即建立數據倉庫，建立多維數據集，基于多維數據集進行報表展現和數據挖掘等。

　　使用采樣數據，進行數據挖掘

　　基于海量數據的數據挖掘正在逐步興起，面對著超海量的數據，一般色挖掘軟件或算法往往采用數據插樣的方式進行處理，這樣誤差不會很高，大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性，防止過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣，抽取出400萬行，經測試軟件測試處理的誤差為千萬之五，客戶可以接受。

　　還有一些方法，需要在不同的情況和場合下運用，例如使用代理鍵等操作，這樣的好處是加快了聚合時間，因為對數值型的聚合比對字符型的聚合快的多。類似的情況需要針對不同的需求進行處理。

　　海量數據室發展趨勢，對數據分析和挖掘也越來越重要，從海量數據中提取有用信息重要而緊迫，這便要求處理要準確，精度要高，而且處理時間要短，得到有價值信息要快，所以，對海量數據的研究很有前途，也很值得進行廣泛深入的研

原文轉自：http://www.kjueaiud.com

軟件測試 > 測試開發技術 > 軟件測試開發語言 > 數據庫 > SQL Server >