北大天網從2006年4月12日開始免費提供大規模中文Web測試集CWT200g (Chinese Web Test collection with 200 GB web pages)。搜索引擎是上網用戶必不可少的檢索工具。為探求其采用何種有效的技術支持用戶查詢,需要在大規模測試集的驗證。北大天網從2004年6月 16日開始提供CWT100g。在中文信息檢索領域,CWT100g得到了廣泛的應用,截至2006年3月申請該測試集的研究機構已經超過30家,連續兩年(2004年和2005年)被SEWM中文Web信息檢索評測和863信息檢索評測指定為測試集。此次,再接再厲,適應Web的發展,北大天網推出 CWT200g測試集。
CWT200g是北京大學網絡實驗室天網課題組的最新成果。北京大學網絡實驗室自1997年開始從事搜索引擎方面的研究與系統開發,技術積累深厚,綜合實力和學術影響在國內一直處于領先地位。研發的“天網”搜索引擎系統是全國最有影響的出自校園的搜索引擎,從1997年10月開始一直運行至今?!疤炀W”在增量搜索技術、快速檢索技術,海量信息存儲技術等方面都具有較強的優勢,她的不斷發展培育了一批批在海量網絡文本信息處理方面有實戰經驗的學生,受到中外IT企業的普遍歡迎。在繼續深入研究搜索引擎技術的同時,該研究組目前正在努力發展由“海量網絡信息,計算機技術,社會科學方法”三方面交融的學術前沿。
CWT200g的采樣過程是:首先根據天網搜索引擎在2005年11月份搜集網頁所發現的中國范圍內提供Web服務的627,036個主機,通過消除重復網站、去除垃圾網站后得到88,303站點,對這些站點進行網頁搜集,每個網站的搜集深度為3,單個網站搜集的數據量不限,得到初始數據集。然后進行網頁的消重處理,得到不重復的網頁集合。針對該網頁集合進行采樣,得到容量為197GB的CWT200g的測試集。它包括29,100個站點, 37,482,913個網頁。
(責任編輯:城塵)