數據清理(Data cleaning)
當你分析和可視化數據前,常需要“清理”工作。比如一些輸入性列表“New York City”,同時其他人會說“New York, NY”。因此你需要標準化這些工作,使看到統一的樣式。下面的兩個工具被用來幫助使數據處于最佳的狀態。
1.DataWrangler
斯坦福大學可視化組(SUVG)設計的基于web的服務,以你剛來清理和重列數據。點擊一個行或列,DataWrangler會彈出建議變化。比如如果你點擊了一個空行,一些建議彈出,刪除或刪除空行的提示。它的文本編輯很cooool。

2.Google Refine
Google Refine。用戶在電腦上運行這個應用程序后就可以通過瀏覽器訪問之。這個東西的主要功能是幫用戶整理數據,接下來的演示視頻效果非常好:用戶下載了一個CSV文件,但是同一個欄中的同一個屬性有多種寫法:全稱,縮寫,后面加了空格的,單數復數格式不一的。。。但是這些其實都代表了同一個屬性,Google Refine 的作用就是幫你把這些不規范的寫法迅速統一起來。

統計分析(Statistical analysis)
有時,你需要你的數據的圖形化的表達。
3.R項目
R語言是主要用于統計分析、繪圖的語言和操作環境。雖然R主要用于統計分析或者開發統計相關的軟體,但也有人用作矩陣計算。其分析速度可比美GNU Octave甚至商業軟件MATLAB。

可視化應用與服務(Visualization applications and services)
這些工具提供了不同的可視化選項,針對不同的應用場景。
4.Google Fusion Tables
Google Fusion Tables被認為是云計算數據庫的雛形。還能夠方便合作者在同一個服務器上分享備份,email和上傳數據,快速同步不同版本數據,Fusion Tables可以上傳100MB的表格文件,同時支持CSV和XLS格式,當然也可以把Google Docs里的表格導入進來使用。對于大規模的數據,可以用Google Fusion Tables創造過濾器來顯示你關心的數據,處理完畢后可以導出為csv文件。
Google Fusion Tables的處理大數據量的強大能力,以及能夠自由添加不同的空間視圖的功能,也許會讓Oracle,IBM, Microsoft傳統數據庫廠商感到擔心,Google未來會強力介入數據庫市場。

5.Impure

Impure,允許點擊、拖曳來連接模塊,由西班牙分析公司Bestiario創建。
文章來源于領測軟件測試網 http://www.kjueaiud.com/