避免使用32位機(極端情況)
目前的計算機很多都是32位,那么編寫的程序對內存的需要便受限制,而很多 的海量數據處理是必須大量消耗內存的,這便要求更好性能的機器,其中對位數的限制也十分重要。
使用數據倉庫和多維數據庫存儲
數據量加大是一定要考慮OLAP的,傳統的報表可能5、6個小時出來結果,而基于Cube的查詢可能只需要幾分鐘,因此處理海量數據的利器是OLAP多維分析,即建立數據倉庫,建立多維數據集, 基于多維數據集進行報表展現和數據挖掘等。
使用采樣數據,進行數據挖掘
基于海量數據的數據挖掘正在逐步興起,面對著超海量的 數據,一般色挖掘軟件或算法往往采用數據插樣的方式進行處理,這樣誤差不會很高,大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性,防止 過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣,抽取出400萬行,經測試軟件測試處理的誤差為千萬之五,客 戶可以接受。
還有一些方法,需要在 不同的情況和場合下運用,例如使用代理鍵等操作,這樣的好處是加快了聚合時間,因為對數值型的聚合比對字符型的聚合快的多。類似的情況需要針對不同的需求 進行處理。
海量數據室發展趨勢,對數據分析和挖掘也越來越重要,從 海量數據中提取有用信息重要而緊迫,這便要求處理要準確,精度要高,而且處理時間要短,得到有價值信息要快,所以,對海量數據的研究很有前途,也很值得進 行廣泛深入的研