禁止搜索引擎收錄的方法[轉載]_網絡服務器

禁止搜索引擎收錄的方法[轉載]

發表于：2007-05-25來源：作者：點擊數：標簽：

禁止搜索引擎收錄的方法一．什么是robots.txt文件? 搜索引擎通過一種程序robot（又稱spider），自動訪問互聯網上的網頁并獲取網頁信息。您可以在您的網站中創建一個純文本文件robots.txt，在這個文件中聲明該網站中不想被robot訪問的部分，這樣，該網站的

禁止搜索引擎收錄的方法

一．什么是robots.txt文件?

　　搜索引擎通過一種程序robot（又稱spider），自動訪問互聯網上的網頁并獲取網頁信息。

　　您可以在您的網站中創建一個純文本文件robots.txt，在這個文件中聲明該網站中不想被robot訪問的部分，這樣，該網站的部分或全部內容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內容。

二. robots.txt文件放在哪里?

　　robots.txt文件應該放在網站根目錄下。舉例來說，當robots訪問一個網站（比如http://www.abc.com）時，首先會檢查該網站中是否存在http://www.abc.com/robots.txt這個文件，如果機器人找到這個文件，它就會根據這個文件的內容，來確定它訪問權限的范圍。

網站 URL 相應的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

三. robots.txt文件的格式

"robots.txt"文件包含一條或更多的記錄，這些記錄通過空行分開（以CR,CR/NL, or NL作為結束符），每一條記錄的格式如下所示：

　　　　"<field>:<optionalspace><value><optionalspace>"。

　　在該文件中可以使用#進行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow行,詳細情況如下：

User-agent:
　　該項的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多條User-agent記錄說明有多個robot會受到該協議的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設為*，則該協議對任何機器人均有效，在"robots.txt"文件中，"User-agent：*"這樣的記錄只能有一條。

Disallow :
　　該項的值用于描述不希望被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，任何以Disallow 開頭的URL均不會被robot訪問到。例如"Disallow: /help"對/help.html 和/help/index.html都不允許搜索引擎訪問，而"Disallow: /help/"則允許robot訪問/help.html，而不能訪問/help/index.html。
任何一條Disallow記錄為空，說明該網站的所有部分都允許被訪問，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果"/robots.txt"是一個空文件，則對于所有的搜索引擎robot，該網站都是開放的。

四. robots.txt文件用法舉例

例1. 禁止所有搜索引擎訪問網站的任何部分

　　　下載該robots.txt文件 User-agent: *
Disallow: /

例2. 允許所有的robot訪問

(或者也可以建一個空文件 "/robots.txt" file)

User-agent: *
Disallow:

例3. 禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /

例4. 允許某個搜索引擎的訪問 User-agent: baiduspider
Disallow:

User-agent: *
Disallow: /

例5. 一個簡單例子

　　在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即搜索引擎不會訪問這三個目錄。
　　需要注意的是對每一個目錄必須分開聲明，而不要寫成 "Disallow: /cgi-bin/ /tmp/"。
　　User-agent:后的* 具有特殊的含義，代表"any robot"，所以在該文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"這樣的記錄出現.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

hmkart 回復于：2003-09-29 09:34:41

老兄,你上次就帖了，怎么又帖呀？？
精帖也沒必要重復發吧！

haohaoo 回復于：2003-09-30 09:01:16

自己發，自己加精啊

原文轉自：http://www.kjueaiud.com

相關文章

解密阿里云之飛天平臺內核

解析Google集群資源管理系統Omega

kvm 虛擬機的詳細說明

好的系統管理員應該是個瞎子

查看IIS中應用程序池相對應的網站

Apache設置web 緩存

周排行

月排行

下載

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

MBT基于模型的測試介紹資料

iso29119相關介紹性資料

HP QTP 10 中文版官方中文補丁

HP QTP 10 英文版下載地址

HP ALM 11 官方中文版下載地址

Quality Center 9.0中文版下載地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安裝

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

軟件測試沙龍 More>>

新浪微博 More>>

熱門標簽

功能測試

性能測試

安全測試

本地化測試

游戲測試

web測試

單元測試

敏捷測試

測試用例

測試模版

測試管理

測試工具

《測試團隊的招聘與管理

《我們應該如何構建我們

軟件測試 > 測試開發技術 > 軟件測試環境搭建 > 網絡服務器 >

禁止搜索引擎收錄的方法[轉載]