利用robots.txt 禁止不想被收錄的url

2018-01-05
加入好友隨時分享有用經驗！

robots.txt 文件位於您網站的根目錄下，用於表明您不希望搜索引擎抓取工具訪問您網站上的哪些內容。此文件使用的是 Robots 排除標準，該標準是一項協議，其中含有一小組命令，用於表明哪些類型的網頁抓取工具（比如移動版抓取工具與桌面版抓取工具）可以訪問您網站的哪些部分。

什麼樣的URL需要robots.txt 禁止搜索引擎蜘蛛抓取呢？

1.同時存在動態和靜態URL

通常情況下很多網站都會對URL進行靜態化，但是很多時候在網站的運營過程中，往往導致動態URL也被抓取了，比如營銷部門不小心用動態URL來推廣，比如產品部門不小心也用了動態URL，這個時候就會導致兩個不一樣的URL對應相同的內容，這對搜索引擎來講是不友好的，也會導致權重的分散，或者導致搜索引擎抓取的頁面不是站長需要的，這時候就需要用robots.txt來屏蔽動態的URL了。

2.有些內容我們不需要搜索引擎進行抓取

大家都知道淘寶不希望被百度抓取，淘寶認為他的商品頁面最具價值，不希望百度收錄之後導致用戶搜索商品到來百度搜索，這樣對淘寶來講是不利益的，所以淘寶就屏蔽了百度的抓取，自然淘寶也少了很多流量。

我們有些會員信息，網站程序URL等都不希望被搜索引擎抓取，那麼也可以用robots.txt進行屏蔽。

利用robots.txt 禁止不想被收錄的url的好處：

1.重複的URL被屏蔽之後，有利於權重的積累

2.屏蔽一些無效的URL能提高搜索引擎的抓取效率，因為搜索引擎到網站的時間是固定的，那麼如果有很多無效的URL，對於大型網站來講，比如幾千萬級別的，搜索引擎花了大量的時間處理無效的URL，自然對有效的URL處理的時間就會減少，自然就會導致收錄有問題。

robots.txt的撰寫規則：

robots.txt文件是一個文本文件，使用任何一個常見的文本編輯器，比如Windows系統自帶的Notepad，就可以創建和編輯它[2]。robots.txt是一個協議，而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在伺服器上什麼文件是可以被查看的。

當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的範圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議，僅當您的網站包含不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容，請勿建立robots.txt文件。

如果將網站視為酒店裡的一個房間，robots.txt就是主人在房間門口懸挂的「請勿打擾」或「歡迎打掃」的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀，哪些房間因為存放貴重物品，或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令，也不是防火牆，如同守門人無法阻止竊賊等惡意闖入者。

User-agent: * 這裡的代表的所有的搜索引擎種類，是一個通配符

Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄　

Disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄　

Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄　

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。　

Disallow: /? 禁止訪問網站中所有的動態頁面　

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片　

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。　

Allow: /cgi-bin/　這裡定義是允許爬尋cgi-bin目錄下面的目錄　

Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄　

Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。　

Allow: .gif$ 允許抓取網頁和gif格式圖片

來源：http://www.habaijian.com/rumenjiaocheng/308.html

利用robots.txt 禁止不想被收錄的url

Advertisements

Advertisements

Advertisements

你可能會喜歡

Advertisements