sql索引從入門到精通(十億行數據測試報告)(2)_SQL Server

sql索引從入門到精通(十億行數據測試報告)(2)

發表于：2012-02-14來源：未知作者：娃娃點擊數：標簽：sql

1、主鍵就是聚集索引這種想法我認為是極端錯誤的，是對聚集索引的一種浪費。雖然SQL SERVER默認是在主鍵上建立聚集索引的。通常，我們會在每個表中

　　1、主鍵就是聚集索引

　　這種想法我認為是極端錯誤的，是對聚集索引的一種浪費。雖然SQL SERVER默認是在主鍵上建立聚集索引的。

　　通常，我們會在每個表中都建立一個ID列，以區分每條數據，并且這個ID列是自動增大的，步長一般為1。我們的這個辦公自動化的實例中的列Gid就是如此。此時，如果我們將這個列設為主鍵，SQL SERVER會將此列默認為聚集索引。這樣做有好處，就是可以讓您的數據在數據庫中按照ID進行物理排序，但筆者認為這樣做意義不大。

　　顯而易見，聚集索引的優勢是很明顯的，而每個表中只能有一個聚集索引的規則，這使得聚集索引變得更加珍貴。

　　從我們前面談到的聚集索引的定義我們可以看出，使用聚集索引的最大好處就是能夠根據查詢要求，迅速縮小查詢范圍，避免全表掃描。在實際應用中，因為ID號是自動生成的，我們并不知道每條記錄的ID號，所以我們很難在實踐中用ID號來進行查詢。這就使讓ID號這個主鍵作為聚集索引成為一種資源浪費。其次，讓每個ID號都不同的字段作為聚集索引也不符合“大數目的不同值情況下不應建立聚合索引”規則;當然，這種情況只是針對用戶經常修改記錄內容，特別是索引項的時候會負作用，但對于查詢速度并沒有影響。

　　在這里之所以提到“理論上”三字，是因為如果您的聚集索引還是盲目地建在ID這個主鍵上時，您的查詢速度是沒有這么高的，即使您在“日期”這個字段上建立的索引(非聚合索引)。下面我們就來看一下在1000萬條數據量的情況下各種查詢的速度表現(3個月內的數據為25萬條)：

　　(1)僅在主鍵上建立聚集索引，并且不劃分時間段：

　　Select gid,fariqi,neibuyonghu,title from tgongwen

　　用時：128470毫秒(即：128秒)

　　(2)在主鍵上建立聚集索引，在fariq上建立非聚集索引：

　　select gid,fariqi,neibuyonghu,title from Tgongwen

　　where fariqi> dateadd(day,-90,getdate())

　　用時：53763毫秒(54秒)

　　(3)將聚合索引建立在日期列(fariqi)上：

　　select gid,fariqi,neibuyonghu,title from Tgongwen

　　where fariqi> dateadd(day,-90,getdate())

　　用時：2423毫秒(2秒)

　　雖然每條語句提取出來的都是25萬條數據，各種情況的差異卻是巨大的，特別是將聚集索引建立在日期列時的差異。事實上，如果您的數據庫真的有1000萬容量的話，把主鍵建立在ID列上，就像以上的第1、2種情況，在網頁上的表現就是超時，根本就無法顯示。這也是我摒棄ID列作為聚集索引的一個最重要的因素。

　　得出以上速度的方法是：在各個select語句前加：declare @d datetime

　　set @d=getdate()

　　并在select語句后加：

　　select [語句執行花費時間(毫秒)]=datediff(ms,@d,getdate())

　　2、只要建立索引就能顯著提高查詢速度

　　事實上，我們可以發現上面的例子中，第2、3條語句完全相同，且建立索引的字段也相同;不同的僅是前者在fariqi字段上建立的是非聚合索引，后者在此字段上建立的是聚合索引，但查詢速度卻有著天壤之別。所以，并非是在任何字段上簡單地建立索引就能提高查詢速度。

　　從建表的語句中，我們可以看到這個有著1000萬數據的表中fariqi字段有5003個不同記錄。在此字段上建立聚合索引是再合適不過了。在現實中，我們每天都會發幾個文件，這幾個文件的發文日期就相同，這完全符合建立聚集索引要求的：“既不能絕大多數都相同，又不能只有極少數相同”的規則。由此看來，我們建立“適當”的聚合索引對于我們提高查詢速度是非常重要的。

　　3、把所有需要提高查詢速度的字段都加進聚集索引，以提高查詢速度

　　上面已經談到：在進行數據查詢時都離不開字段的是“日期”還有用戶本身的“用戶名”。既然這兩個字段都是如此的重要，我們可以把他們合并起來，建立一個復合索引(compound index)。

　　很多人認為只要把任何字段加進聚集索引，就能提高查詢速度，也有人感到迷惑：如果把復合的聚集索引字段分開查詢，那么查詢速度會減慢嗎?帶著這個問題，我們來看一下以下的查詢速度(結果集都是25萬條數據)：(日期列fariqi首先排在復合聚集索引的起始列，用戶名neibuyonghu排在后列)

　　(1)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5'

　　查詢速度：2513毫秒

　　(2)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5' and neibuyonghu='辦公室'

　　查詢速度：2516毫秒

　　(3)select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu='辦公室'

　　查詢速度：60280毫秒

　　從以上試驗中，我們可以看到如果僅用聚集索引的起始列作為查詢條件和同時用到復合聚集索引的全部列的查詢速度是幾乎一樣的，甚至比用上全部的復合索引列還要略快(在查詢結果集數目一樣的情況下);而如果僅用復合聚集索引的非起始列作為查詢條件的話，這個索引是不起任何作用的。當然，語句1、2的查詢速度一樣是因為查詢的條目數一樣，如果復合索引的所有列都用上，而且查詢結果少的話，這樣就會形成“索引覆蓋”，因而性能可以達到最優。同時，請記?。簾o論您是否經常使用聚合索引的其他列，但其前導列一定要是使用最頻繁的列。

　　(五)其他注意事項

　　“水可載舟，亦可覆舟”，索引也一樣。索引有助于提高檢索性能，但過多或不當的索引也會導致系統低效。因為用戶在表中每加進一個索引，數據庫就要做更多的工作。過多的索引甚至會導致索引碎片。

　　所以說，我們要建立一個“適當”的索引體系，特別是對聚合索引的創建，更應精益求精，以使您的數據庫能得到高性能的發揮。

　　當然，在實踐中，作為一個盡職的數據庫管理員，您還要多測試一些方案，找出哪種方案效率最高、最為有效。

原文轉自：http://www.kjueaiud.com

軟件測試 > 測試開發技術 > 軟件測試開發語言 > 數據庫 > SQL Server >