青島網站優化中robots.txt文檔要(yào / yāo)如何設置?
相信有過青島網站優化經曆的(de)seo從業者對于(yú)robots.txt文檔并不(bù)陌生,那麽您真的(de)了(le/liǎo)解robots嗎?您會設置robots嗎?下面讓青島網站建設公司-迅優傳媒來(lái)爲(wéi / wèi)您分析一(yī / yì /yí)下:
1、什麽是(shì)robots.txt文件
搜索引擎有自己的(de)搜索習慣,當它對一(yī / yì /yí)個(gè)網站進行搜索時(shí),哪些目錄和(hé / huò)文件要(yào / yāo)看,哪些不(bù)用看,它有自己的(de)算法。我們也(yě)可以(yǐ)自己建立一(yī / yì /yí)個(gè)robots.txt文 件,告訴搜索引擎的(de)機器人(rén)哪些可以(yǐ)被收錄,哪些不(bù)需要(yào / yāo)收錄。這(zhè)樣可以(yǐ)節約自己網站的(de)資源,提高被搜索引擎收錄的(de)效率。
2、robots.txt放置位置
robots.txt必須放置在(zài)一(yī / yì /yí)個(gè)站點的(de)根目錄下,而(ér)且文件名必須全部小寫。
3、robots相關語法
1)User-agent: 适用下列規則的(de)漫遊器(搜索引擎)
該項的(de)值用于(yú)描述搜索引擎robot的(de)名字。在(zài)robots.txt文件中,如果有多條User-agent記錄,就(jiù)說(shuō)明有多個(gè)robot會受到(dào) robots.txt的(de)限制,對該文件來(lái)說(shuō),至少要(yào / yāo)有一(yī / yì /yí)條User-agent記錄。如果該項的(de)值設爲(wéi / wèi)*,則對任何robot均有效。
● Google爬蟲名稱: Googlebot
● 百度(Baidu)爬蟲名稱:Baiduspider
● 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp
● 有道(dào)(Yodao)蜘蛛名稱:YodaoBot
● 搜狗(sogou)蜘蛛名稱:sogou spider
● MSN的(de)蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也(yě)是(shì)這(zhè)個(gè)):Msnbot
2)Disallow: 拒絕訪問的(de)目錄或文件
該項的(de)值用于(yú)描述不(bù)希望被訪問的(de)一(yī / yì /yí)組URL,這(zhè)個(gè)值可以(yǐ)是(shì)一(yī / yì /yí)條完整的(de)路徑,也(yě)可以(yǐ)是(shì)路徑的(de)非空前綴,以(yǐ)Disallow項的(de)值開頭的(de)URL不(bù)會被robot訪問。
例如:
Disallow:/seo.html 表示禁止robot訪問文件 /seo.html
3)Allow:允許訪問的(de)目錄或文件
該項的(de)值用于(yú)描述希望被訪問的(de)一(yī / yì /yí)組URL,與Disallow項相似,這(zhè)個(gè)值可以(yǐ)是(shì)一(yī / yì /yí)條完整的(de)路徑,也(yě)可以(yǐ)是(shì)路徑的(de)前綴,以(yǐ)Allow項的(de)值開頭的(de)URL是(shì)允許robot訪問的(de)。
例如:
Allow:/hibaidu/ 表示允許robot訪問目錄 /hibaidu/
4)使用通配符"*"和(hé / huò)"$":
$ 匹配行結束符。
* 匹配0或多個(gè)任意字符。
? 匹配1個(gè)任意字符
5)robots.txt文件裏還可以(yǐ)直接包括在(zài)sitemap文件的(de)鏈接。
Sitemap:http://www.lemigift.com/sitemaps.xml
4、robots.txt文件用法舉例
1)、攔截所有的(de)機器人(rén)訪問網站
User-agent: *
Disallow: /
2)、允許所有的(de)機器人(rén)訪問網站
User-agent: *
Allow: /
3)、禁止所有機器人(rén)訪問特定目錄:
User-agent: *
Disallow: /public/
Disallow: /images/
Disallow: /temp/
Disallow: /include/
4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這(zhè)裏我們以(yǐ)百度蜘蛛爲(wéi / wèi)例說(shuō)明)
User-agent: Baiduspider
Disallow: /test/
上(shàng)面的(de)robots.txt語法示例的(de)意思是(shì)禁止百度蜘蛛爬行根目錄下的(de)test目錄
5)、僅禁止Baiduspider抓取.jpg格式圖片
User-agent: Baiduspider
Disallow: .jpg$
6)、僅允許訪問以(yǐ)".htm"爲(wéi / wèi)後綴的(de)URL。
User-agent: *
Allow: .htm$
Disallow: /
7)、禁止訪問網站中所有的(de)動态頁面
User-agent: *
Disallow: /*?*
5、常見robots.txt錯誤
1)、把多個(gè)禁止命令放在(zài)一(yī / yì /yí)行中:
錯誤地(dì / de)寫法
Disallow: /css/ /cgi-bin/ /images/
正确的(de)寫法
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
2)、表示目錄時(shí),忘記了(le/liǎo)斜杠/
錯誤的(de)寫法
User-agent: Baiduspider
Disallow: css
正确的(de)寫法
User-agent: Baiduspider
Disallow: /css/
6、robots meta網頁标簽寫法
Robots META标簽則主要(yào / yāo)是(shì)針對一(yī / yì /yí)個(gè)個(gè)具體的(de)頁面。和(hé / huò)其他(tā)的(de)META标簽(如使用的(de)語言、頁面的(de)描述、關鍵詞等)一(yī / yì /yí)樣,Robots META标簽也(yě)是(shì)放在(zài)頁面的(de)<head></head>中,專門用來(lái)告訴搜索引擎ROBOTS如何抓取該頁的(de)内容。
Robots META标簽的(de)寫法:
Robots META标簽中沒有大(dà)小寫之(zhī)分,name=”Robots”表示所有的(de)搜索引擎,可以(yǐ)針對某個(gè)具體搜索引擎寫爲(wéi / wèi)name=”BaiduSpider”。 content部分有四個(gè)指令選項:index、noindex、follow、nofollow,指令間以(yǐ)“,”分隔。
INDEX 指令告訴搜索機器人(rén)抓取該頁面;
FOLLOW 指令表示搜索機器人(rén)可以(yǐ)沿着該頁面上(shàng)的(de)鏈接繼續抓取下去;
Robots Meta标簽的(de)缺省值是(shì)INDEX和(hé / huò)FOLLOW,隻有inktomi除外,對于(yú)它,缺省值是(shì)INDEX,NOFOLLOW。
這(zhè)樣,一(yī / yì /yí)共有四種組合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以(yǐ)寫成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以(yǐ)寫成<META NAME="ROBOTS" CONTENT="NONE">
目前看來(lái),絕大(dà)多數的(de)搜索引擎機器人(rén)都遵守robots.txt的(de)規則,而(ér)對于(yú)Robots META标簽,目前支持的(de)并不(bù)多,但是(shì)正在(zài)逐漸增加,如著名搜索引擎GOOGLE就(jiù)完全支持,而(ér)且GOOGLE還增加了(le/liǎo)一(yī / yì /yí)個(gè)指令“archive”,可以(yǐ) 限制GOOGLE是(shì)否保留網頁快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
表示抓取該站點中頁面并沿着頁面中鏈接抓取,但是(shì)不(bù)在(zài)GOOLGE上(shàng)保留該頁面的(de)網頁快照。
- 上(shàng)一(yī / yì /yí)篇:搜索引擎優化之(zhī)關鍵詞的(de)選擇
- 下一(yī / yì /yí)篇:【網站優化】精心呵護的(de)網站降權了(le/liǎo)怎麽辦?