在你的主頁中為Web robot設計路標_網絡服務器

在你的主頁中為Web robot設計路標

發表于：2007-05-25來源：作者：點擊數：標簽：

Internet越來越酷，WWW的知名度如日中天。在Internet上發布公司信息、進行電子商務已經從時髦演化成時尚。作為一個WebMaster，你可能對HTML、 Java script、Java、ActiveX了如指掌，但你是否知道什么是Webrobot？你是否知道Webrobot和你所設計的主頁有什么關

　　Internet越來越酷，WWW的知名度如日中天。在Internet上發布公司信息、進行電子商務已經從時髦演化成時尚。作為一個Web Master，你可能對HTML、Javascript、Java、 ActiveX了如指掌，但你是否知道什么是Web robot？你是否知道Web robot和你所設計的主頁有什么關系？

　　Internet上的流浪漢--- Web robot

　　有時你會莫名其妙地發現你的主頁的內容在一個搜索引擎中被索引，即使你從未與他們有過任何聯系。其實這正是Web robot的功勞。Web robot其實是一些程序，它可以穿越大量Internet網址的超文本結構，遞歸地檢索網絡站點所有的內容。這些程序有時被叫 “蜘蛛（Spider）” ， “網上流浪漢（Web Wanderer）”，“網絡蠕蟲（web worms）”或Web crawler。一些Internet網上知名的搜索引擎站點（Search Engines）都有專門的Web robot程序來完成信息的采集，例如Lycos，Webcrawler，Altavista等，以及中文搜索引擎站點例如北極星，網易，GOYOYO等。

　　Web robot就象一個不速之客，不管你是否在意，它都會忠于自己主人的職責，任勞任怨、不知疲倦地奔波于萬維網的空間，當然也會光臨你的主頁，檢索主頁內容并生成它所需要的記錄格式?；蛟S有的主頁內容你樂于世人皆知，但有的內容你卻不愿被洞察、索引。難道你就只能任其“橫行”于自己主頁空間，能否指揮和控制Web robot的行蹤呢？答案當然是肯定的。只要你閱讀了本篇的下文，就可以象一個交通警察一樣，布置下一個個路標，告訴Web robot應該怎么去檢索你的主頁，哪些可以檢索，哪些不可以訪問。

　　其實Web robot能聽懂你的話

　　不要以為Web robot是毫無組織，毫無管束地亂跑。很多Web robot軟件給網絡站點的管理員或網頁內容制作者提供了兩種方法來限制Web robot的行蹤：

　　1、Robots Exclusion Protocol 協議

　　網絡站點的管理員可以在站點上建立一個專門格式的文件，來指出站點上的哪一部分可以被robot訪問, 這個文件放在站點的根目錄下，即http://.../robots.txt.

　　2、Robots META tag

　　一個網頁作者可以使用專門的HTML META tag ，來指出某一個網頁是否可以被索引、分析或鏈接。

　　這些方法適合于大多數的Web robot，至于是否在軟件中實施了這些方法，還依賴于 robot的開發者，并非可以保證對任何robot都靈驗。如果你迫切需要保護自己內容，則應考慮采用諸如增加密碼等其他保護方法。

　　使用Robots Exclusion Protocol協議

　　當robot訪問一個 Web 站點時，比如http://www.sti.net.cn/，它先去檢查文件http://www.sti.net.cn/robots.txt。如果這個文件存在，它便會按照這樣的記錄格式去分析：

　　User-agent: *
　　Disallow: /cgi-bin/
　　Disallow: /tmp/
　　Disallow: /~joe/

　　以確定它是否應該檢索站點的文件。這些記錄是專門給Web robot看的，一般的瀏覽者大概永遠不會看到這個文件，所以千萬不要異想天開地在里面加入形似<img src=*> 類的HTML語句或是“How do you do? where are you from?”之類假情假意的問候語。

　　在一個站點上只能有一個 "/robots.txt" 文件，而且文件名的每個字母要求全部是小寫。在robot的記錄格式中每一個單獨的"Disallow"行表示你不希望robot訪問的URL，每個URL必須單獨占一行，不能出現 "Disallow: /cgi-bin/ /tmp/"這樣的病句。同時在一個記錄中不能出現空行，這是因為空行是多個記錄分割的標志。

　　User-agent行指出的是robot或其他代理的名稱。在User-agent行，'*' 表示一個特殊的含義---所有的robot。

　　下面是幾個robot.txt的例子：

　　在整個服務器上拒絕所有的robots：
　　User-agent: *
　　Disallow: /

　　允許所有的robots訪問整個站點：
　　User-agent: *
　　Disallow:
　　或者產生一個空的 "/robots.txt" 文件。

　　服務器的部分內容允許所有的robot訪問
　　User-agent: *
　　Disallow: /cgi-bin/
　　Disallow: /tmp/
　　Disallow: /private/

　　拒絕某一個專門的robot：
　　User-agent: BadBot
　　Disallow: /

　　只允許某一個robot光顧：
　　User-agent: WebCrawler
　　Disallow:
　　User-agent: *
　　Disallow: /
　　

　　最后我們給出 http://www.w3.org/站點上的robots.txt：
　　# For use by search.w3.org
　　User-agent: W3Crobot/1
　　Disallow:
　　User-agent: *
　　Disallow: /Member/ # This is restricted to W3C Members only
　　Disallow: /member/ # This is restricted to W3C Members only
　　Disallow: /team/ # This is restricted to W3C Team only
　　Disallow: /TandS/Member # This is restricted to W3C Members only
　　Disallow: /TandS/Team # This is restricted to W3C Team only
　　Disallow: /Project
　　Disallow: /Systems
　　Disallow: /Web
　　Disallow: /Team
　　

　　使用Robots META tag方式

　　Robots META tag 允許HTML網頁作者指出某一頁是否可以被索引，或是否可以用來查找更多的鏈接文件。目前只有部分robot實施了這一功能。

　　Robots META tag的格式為：
　　<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
　　象其他的META tag一樣，它應該放在HTML文件的HEAD區：
　　<html>
　　<head>
　　<meta name="robots" content="noindex,nofollow">
　　<meta name="description" content="This page ....">
　　<title>...</title>
　　</head>
　　<body>
　　...

　　Robots META tag指令使用逗號隔開，可以使用的指令包括 [NO]INDEX 和[NO]FOLLOW。INDEX 指令指出一個索引性robot是否可以對本頁進行索引；FOLLOW 指令指出robot是否可以跟蹤本頁的鏈接。缺省的情況是INDEX和FOLLOW。例如：
　　<meta name="robots" content="index,follow">
　　<meta name="robots" content="noindex,follow">
　　<meta name="robots" content="index,nofollow">
　　<meta name="robots" content="noindex,nofollow">

　　一個好的Web 站點管理員應該將robot的管理考慮在內，使robot為自己的主頁服務，同時又不損害自己網頁的安全

郝君回復于：2003-08-19 02:27:01

血

Konye 回復于：2003-12-07 15:17:40

您能教我怎么用DARWIN701上網嗎?我剛安裝了這個系統.好像不能上網呀.

原文轉自：http://www.kjueaiud.com

相關文章

解密阿里云之飛天平臺內核

解析Google集群資源管理系統Omega

kvm 虛擬機的詳細說明

好的系統管理員應該是個瞎子

查看IIS中應用程序池相對應的網站

Apache設置web 緩存

周排行

月排行

下載

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

MBT基于模型的測試介紹資料

iso29119相關介紹性資料

HP QTP 10 中文版官方中文補丁

HP QTP 10 英文版下載地址

HP ALM 11 官方中文版下載地址

Quality Center 9.0中文版下載地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安裝

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

軟件測試沙龍 More>>

新浪微博 More>>

熱門標簽

功能測試

性能測試

安全測試

本地化測試

游戲測試

web測試

單元測試

敏捷測試

測試用例

測試模版

測試管理

測試工具

《測試團隊的招聘與管理

《我們應該如何構建我們

軟件測試 > 測試開發技術 > 軟件測試環境搭建 > 網絡服務器 >

在你的主頁中為Web robot設計路標