<ruby id="5koa6"></ruby>

<ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

首頁: 測試技術　軟件測試工具　開源軟件測試技術　軟件測試開發技術　軟件質量保證　軟件測試時代服務　軟件測試專題與軟件測試期刊　軟件測試工程師職業發展　軟件測試業界新聞　軟件測試時代活動發布　

暫時沒有公告

首頁:軟件測試網 >> 軟件測試技術 >> 測試技術 >> Web測試 >> 查看資訊

字號: 小中大 | 推薦給好友上一篇 | 下一篇

SEWM-2004中文Web檢索測試指南

發布: 2007-5-05 18:35 | 作者: 網絡轉載 | 來源: 轉載 | 查看: 55次 | 進入軟件測試論壇討論

1 背景與目標
在中文信息檢索領域中，缺乏大規模測試數據集是制約我們研究和技術
發展的重要因素。參考TREC多年的成功經驗，本屆SEWM2004會議開始包
含一個中文Web檢索競賽項目。我們希望為這個領域的研究人員，用戶，企
業提供一個交流的機會，希望在國內外各個研究小組的共同參與下建立并完
善以中文為主的Web測試集CWT100g(Chinese Web Test collection with 100
GB web pages)，一起推動中文Web信息檢索技術的發展。
依據TREC在Web Search評測方面多年的成功經驗，主題提取(topic
distillation)和導航搜索(homepage/named page search)能夠較好反映Web
Search中用戶搜索需求，是現在評估Web Search系統的主要內容[1]。
本屆SEWM-2004中文Web檢索競賽基本參照TREC-2003 Web Track的
模式[2][3]。包含兩個具體目標：
1) 研究有效的主題提取方法：針對用戶給定的廣泛查詢，找到一組最佳
的主頁。
2) 研究有效的導航搜索方法(包括主頁和指定頁面查詢)：找到用戶需要的
特定頁面。
2 文檔集
文檔集，根據天網搜索引擎截止2004年2月1日發現的中國范圍內提供
Web服務的1,000,614個主機，從中采樣17,683個站點，在2004年6月搜集
獲得5,712,710個網頁，包括網頁內容和Web服務器返回的信息，容量為
90GB。其中每個網頁對應的服務器返回信息中的MIME類型都是"text/html"或
者"text/plain"。
文檔集數據格式參見[4]。
3 主題提取任務
主題提取目的是對于一個特定主題發現一組關鍵資源。在今年的任務中我
們將只注重以站點作為資源的查詢。要求是在前十個結果中尋找盡可能多的不
同站點（用它們的網站首頁面表示）。
對于主題'linux'，CWT100G中的下面站點可能被認為是關鍵資源：
http://www.oldlinux.org/ linux org
http://www.mhdn.net/os/29/ 明輝開發者網絡 linux區
http://www.redflag-linux.com/ 紅旗Linux
被判斷為是一個關鍵資源，返回頁面應該是一個站點的好的首頁面。判斷
是否一個好的首頁面,考查三個方面:
1)是否大部分切合主題；
2)提供主題的可靠的信息；
3)不是一個更大的切合主題站點的一部分。
對于'linux'這一主題，頁面'www.mhdn.net' 不符合第一個條件，而頁面
'http://www.redflag-linux.com/chanpin/Desktop/index.html'不符合第三個條件。
提供主題格式和TREC一致，實例為：
<top>
<num> Number:
<title> linux
<desc> Description：
找到和linux主題相關的站點.
</top>
只有<title>可以用作系統的查詢條件。
將根據在前十個結果(通常在的Web搜索系統返回的第一個頁面)中有幾
個正確的答案來判斷系統的性能。使用前10個結果的精確率和前10個結果的
平均精確率(P@10)來評判。
4 主頁/指定頁面查詢
用戶有時候會用名稱來查詢特定的網頁。在這種情況下，一個有效的搜索
系統將在第一個或前幾個返回結果中給出那個網頁。
今年的任務包括兩個任務的組合：主頁查詢和指定頁面查詢。這兩種情況
下，查詢結果只有一個并且用戶的查詢需求常常是頁面的名稱。不同的是主頁
查詢的目標是一個特定的主頁，而指定頁面查詢所找到的可以不是一個主頁，
而是滿足用戶需求的特定頁面。例如，主頁查詢時，查詢詞“內蒙古民族大學
”對應的查詢結果是“www.mzdx.com”；而指定頁面查詢時，查詢詞“2001
年中國十大并購人物”對應的查詢結果是“www.mergerschina.
com/top10/index-7.asp”。
一些查詢/排序策略對兩種類型的查詢都有效，而有的只對其中一種有效。
我們提供混和的查詢集合。評判為：判斷參與者返回文檔的URL是否為
最初選定文檔的URL。當然，如果頁面有兩個不同的URL，那么這兩個都將
被認為是正確的答案。
通過第一個正確答案的位置對系統進行比較。以第一個正確答案出現位置
的倒數平均值(MRR)為評估準則。
在這項工作中，不允許人工的或者交互的修改查詢。
5 索引限制
沒有索引限制。你可以隨意索引每篇文檔的全部內容，或者部分內容。
6 提交和判斷
1) 所有的結果在2004.11.1之前，提交給北大網絡實驗室(郵箱地址：
yhf@net.pku.edu.cn)。
2) 提交信息：
主題提�。禾峤�5組運行結果。對于每個查詢，列出結果不超過1000個。
主頁/指定網頁查詢：提交5組運行結果。對于每個查詢，列出結果不超過
50個。
結果的格式如下（一個結果一行）：
topic-id rank sim url
topic-id ：topic主題的編號
rank ：在返回結果中文檔的位次
sim ：主題與文檔的相似度計算值
url ：結果的url。(為文檔數據中的URL字段內容)
3) 我們針對每個任務，接受每個參賽隊的5組正式提交結果，但是否能夠全
部被評測依賴于提交數目、重疊度和可獲得的判斷資源。希望對于每個任務(主
題提取和兩個主頁/指定網頁查詢)，每個參賽隊提交的運行結果中有2組被
評估。
4) 所有的評測工作將由我們的評估人員完成。
5) 評估的標準是二元的：是關鍵資源或者非關鍵資源，是主頁/指定網頁或者
非主頁/指定網頁。
6) 評估是基于文檔內容完成的，此外，文檔的URL也是評估的依據。特別的，
對于主題提取，文檔中包含的鏈接(特別是在同一個網站上)所指向的文檔也
是評估的依據。
7 參考文獻
[1] Very Large Scale Retrieval and Web Search
http://es.csiro.au/pubs/trecbook_for_website.pdf
[2] TREC-2003 Web Track Guidelines.
http://es.csiro.au/TRECWeb/guidelines_2003.html
[3] TREC-2003 Web Track指南
http://net.pku.edu.cn/~webg/cwt/041020TREC-
2003WebTrackGuidelines_CN.pdf
[4] 網頁信息存儲的天網格式http://net.pku.edu.cn/~webg/cwt/TWFormat.pdf

延伸閱讀

文章來源于領測軟件測試網 http://www.kjueaiud.com/

TAG: web測試

軟件測試論壇

領測軟件測試網最新更新

軟件測試技術相關文章

軟件測試培訓信息

最新軟件測試技術專題

最新領測軟件測試網新聞

軟件測試技術文章排行榜

編輯推薦
周排行
月排行

軟件測試技術分類最新內容

關于領測軟件測試網 | 領測軟件測試網合作伙伴 | 廣告服務 | 投稿指南 | 聯系我們 | 網站地圖 | 友情鏈接
版權所有(C) 2003－2010 TestAge（領測軟件測試網）|領測國際科技（北京）有限公司|軟件測試工程師培訓網 All Rights Reserved
北京市海淀區中關村南大街9號北京理工科技大廈1402室京ICP備10010545號-5
技術支持和業務聯系：info@testage.com.cn 電話：010-51297073

軟件測試 | 領測國際 | ISTQB | ISTQB官網 | TMMi | TMMi認證 | 國際軟件測試工程師認證 | 領測軟件測試網

老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

<ruby id="5koa6"></ruby>

<ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>