1 背景與目標
在中文信息檢索領域中,缺乏大規模測試數據集是制約我們研究和技術
發展的重要因素。參考TREC多年的成功經驗,本屆SEWM2004會議開始包
含一個中文Web檢索競賽項目。我們希望為這個領域的研究人員,用戶,企
業提供一個交流的機會,希望在國內外各個研究小組的共同參與下建立并完
善以中文為主的Web測試集CWT100g(Chinese Web Test collection with 100
GB web pages),一起推動中文Web信息檢索技術的發展。
依據TREC在Web Search評測方面多年的成功經驗,主題提取(topic
distillation)和導航搜索(homepage/named page search)能夠較好反映Web
Search中用戶搜索需求,是現在評估Web Search系統的主要內容[1]。
本屆SEWM-2004中文Web檢索競賽基本參照TREC-2003 Web Track的
模式[2][3]。包含兩個具體目標:
1) 研究有效的主題提取方法:針對用戶給定的廣泛查詢,找到一組最佳
的主頁。
2) 研究有效的導航搜索方法(包括主頁和指定頁面查詢):找到用戶需要的
特定頁面。
2 文檔集
文檔集,根據天網搜索引擎截止2004年2月1日發現的中國范圍內提供
Web服務的1,000,614個主機,從中采樣17,683個站點,在2004年6月搜集
獲得5,712,710個網頁,包括網頁內容和Web服務器返回的信息,容量為
90GB。其中每個網頁對應的服務器返回信息中的MIME類型都是"text/html"或
者"text/plain"。
文檔集數據格式參見[4]。
3 主題提取任務
主題提取目的是對于一個特定主題發現一組關鍵資源。在今年的任務中我
們將只注重以站點作為資源的查詢。要求是在前十個結果中尋找盡可能多的不
同站點(用它們的網站首頁面表示)。
對于主題'linux',CWT100G中的下面站點可能被認為是關鍵資源:
http://www.oldlinux.org/ linux org
http://www.mhdn.net/os/29/ 明輝開發者網絡 linux區
http://www.redflag-linux.com/ 紅旗Linux
被判斷為是一個關鍵資源,返回頁面應該是一個站點的好的首頁面。判斷
是否一個好的首頁面,考查三個方面:
1)是否大部分切合主題;
2)提供主題的可靠的信息;
3)不是一個更大的切合主題站點的一部分。
對于'linux'這一主題,頁面'www.mhdn.net' 不符合第一個條件,而頁面
'http://www.redflag-linux.com/chanpin/Desktop/index.html'不符合第三個條件。
提供主題格式和TREC一致,實例為:
<top>
<num> Number:
<title> linux
<desc> Description:
找到和linux主題相關的站點.
</top>
只有<title>可以用作系統的查詢條件。
將根據在前十個結果(通常在的Web搜索系統返回的第一個頁面)中有幾
個正確的答案來判斷系統的性能。使用前10個結果的精確率和前10個結果的
平均精確率(P@10)來評判。
4 主頁/指定頁面查詢
用戶有時候會用名稱來查詢特定的網頁。在這種情況下,一個有效的搜索
系統將在第一個或前幾個返回結果中給出那個網頁。
今年的任務包括兩個任務的組合:主頁查詢和指定頁面查詢。這兩種情況
下,查詢結果只有一個并且用戶的查詢需求常常是頁面的名稱。不同的是主頁
查詢的目標是一個特定的主頁,而指定頁面查詢所找到的可以不是一個主頁,
而是滿足用戶需求的特定頁面。例如,主頁查詢時,查詢詞“內蒙古民族大學
”對應的查詢結果是“www.mzdx.com”;而指定頁面查詢時,查詢詞“2001
年中國十大并購人物”對應的查詢結果是“www.mergerschina.
com/top10/index-7.asp”。
一些查詢/排序策略對兩種類型的查詢都有效,而有的只對其中一種有效。
我們提供混和的查詢集合。評判為:判斷參與者返回文檔的URL是否為
最初選定文檔的URL。當然,如果頁面有兩個不同的URL,那么這兩個都將
被認為是正確的答案。
通過第一個正確答案的位置對系統進行比較。以第一個正確答案出現位置
的倒數平均值(MRR)為評估準則。
在這項工作中,不允許人工的或者交互的修改查詢。
5 索引限制
沒有索引限制。你可以隨意索引每篇文檔的全部內容,或者部分內容。
6 提交和判斷
1) 所有的結果在2004.11.1之前,提交給北大網絡實驗室(郵箱地址:
yhf@net.pku.edu.cn)。
2) 提交信息:
主題提。禾峤5組運行結果。對于每個查詢,列出結果不超過1000個。
主頁/指定網頁查詢:提交5組運行結果。對于每個查詢,列出結果不超過
50個。
結果的格式如下(一個結果一行):
topic-id rank sim url
topic-id :topic主題的編號
rank :在返回結果中文檔的位次
sim :主題與文檔的相似度計算值
url :結果的url。(為文檔數據中的URL字段內容)
3) 我們針對每個任務,接受每個參賽隊的5組正式提交結果,但是否能夠全
部被評測依賴于提交數目、重疊度和可獲得的判斷資源。希望對于每個任務(主
題提取和兩個主頁/指定網頁查詢), 每個參賽隊提交的運行結果中有2組被
評估。
4) 所有的評測工作將由我們的評估人員完成。
5) 評估的標準是二元的:是關鍵資源或者非關鍵資源,是主頁/指定網頁或者
非主頁/指定網頁。
6) 評估是基于文檔內容完成的,此外,文檔的URL也是評估的依據。特別的,
對于主題提取,文檔中包含的鏈接(特別是在同一個網站上)所指向的文檔也
是評估的依據。
7 參考文獻
[1] Very Large Scale Retrieval and Web Search
http://es.csiro.au/pubs/trecbook_for_website.pdf
[2] TREC-2003 Web Track Guidelines.
http://es.csiro.au/TRECWeb/guidelines_2003.html
[3] TREC-2003 Web Track指南
http://net.pku.edu.cn/~webg/cwt/041020TREC-
2003WebTrackGuidelines_CN.pdf
[4] 網頁信息存儲的天網格式http://net.pku.edu.cn/~webg/cwt/TWFormat.pdf
延伸閱讀
文章來源于領測軟件測試網 http://www.kjueaiud.com/