利用robots.txt 禁止不想被收錄的url

robots.txt 文件位於您網站的根目錄下,用於表明您不希望搜索引擎抓取工具訪問您網站上的哪些內容。此文件使用的是 Robots 排除標準,該標準是一項協議,其中含有一小組命令,用於表明哪些類型的網頁抓取工具(比如移動版抓取工具與桌面版抓取工具)可以訪問您網站的哪些部分。

什麼樣的URL需要robots.txt 禁止搜索引擎蜘蛛抓取呢?

1.同時存在動態和靜態URL

通常情況下很多網站都會對URL進行靜態化,但是很多時候在網站的運營過程中,往往導致動態URL也被抓取了,比如營銷部門不小心用動態URL來推廣,比如產品部門不小心也用了動態URL,這個時候就會導致兩個不一樣的URL對應相同的內容,這對搜索引擎來講是不友好的,也會導致權重的分散,或者導致搜索引擎抓取的頁面不是站長需要的,這時候就需要用robots.txt來屏蔽動態的URL了。

Advertisements

2.有些內容我們不需要搜索引擎進行抓取

大家都知道淘寶不希望被百度抓取,淘寶認為他的商品頁面最具價值,不希望百度收錄之後導致用戶搜索商品到來百度搜索,這樣對淘寶來講是不利益的,所以淘寶就屏蔽了百度的抓取,自然淘寶也少了很多流量。

我們有些會員信息,網站程序URL等都不希望被搜索引擎抓取,那麼也可以用robots.txt進行屏蔽。

利用robots.txt 禁止不想被收錄的url的好處:

1.重複的URL被屏蔽之後,有利於權重的積累

2.屏蔽一些無效的URL能提高搜索引擎的抓取效率,因為搜索引擎到網站的時間是固定的,那麼如果有很多無效的URL,對於大型網站來講,比如幾千萬級別的,搜索引擎花了大量的時間處理無效的URL,自然對有效的URL處理的時間就會減少,自然就會導致收錄有問題。

Advertisements

robots.txt的撰寫規則:

robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統自帶的Notepad,就可以創建和編輯它[2]。robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在伺服器上什麼文件是可以被查看的。

當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

如果將網站視為酒店裡的一個房間,robots.txt就是主人在房間門口懸挂的「請勿打擾」或「歡迎打掃」的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令,也不是防火牆,如同守門人無法阻止竊賊等惡意闖入者。

User-agent: * 這裡的代表的所有的搜索引擎種類,是一個通配符

Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄 

Disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄 

Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄 

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。 

Disallow: /? 禁止訪問網站中所有的動態頁面 

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片 

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。 

Allow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄 

Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄 

Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。 

Allow: .gif$ 允許抓取網頁和gif格式圖片

來源:http://www.habaijian.com/rumenjiaocheng/308.html

Advertisements

你可能會喜歡