青島網站優化中robots.txt文檔要(yào / yāo)如何設置？

時(shí)間：2015-08-10 18:21 來(lái)源：www.seo1158.com 作者：admin 點擊：4127次

相信有過青島網站優化經曆的(de)seo從業者對于(yú)robots.txt文檔并不(bù)陌生，那麽您真的(de)了(le／liǎo)解robots嗎？您會設置robots嗎？下面讓青島網站建設公司-迅優傳媒來(lái)爲(wéi / wèi)您分析一(yī / yì ／yí)下：

青島網站優化中robots.txt文檔要(yào / yāo)如何設置？青島網站優化中robots

1、什麽是(shì)robots.txt文件
     搜索引擎有自己的(de)搜索習慣，當它對一(yī / yì ／yí)個(gè)網站進行搜索時(shí)，哪些目錄和(hé / huò)文件要(yào / yāo)看，哪些不(bù)用看，它有自己的(de)算法。我們也(yě)可以(yǐ)自己建立一(yī / yì ／yí)個(gè)robots.txt文件，告訴搜索引擎的(de)機器人(rén)哪些可以(yǐ)被收錄，哪些不(bù)需要(yào / yāo)收錄。這(zhè)樣可以(yǐ)節約自己網站的(de)資源，提高被搜索引擎收錄的(de)效率。

２、robots.txt放置位置
    robots.txt必須放置在(zài)一(yī / yì ／yí)個(gè)站點的(de)根目錄下，而(ér)且文件名必須全部小寫。

３、robots相關語法
    1)User-agent: 适用下列規則的(de)漫遊器(搜索引擎)
　　該項的(de)值用于(yú)描述搜索引擎robot的(de)名字。在(zài)robots.txt文件中，如果有多條User-agent記錄，就(jiù)說(shuō)明有多個(gè)robot會受到(dào) robots.txt的(de)限制，對該文件來(lái)說(shuō)，至少要(yào / yāo)有一(yī / yì ／yí)條User-agent記錄。如果該項的(de)值設爲(wéi / wèi)*，則對任何robot均有效。
      ●　Google爬蟲名稱: Googlebot
      ●　百度（Baidu）爬蟲名稱：Baiduspider
      ●　雅虎（Yahoo）爬蟲名稱：Yahoo Slurp
      ●　有道(dào)（Yodao）蜘蛛名稱：YodaoBot
      ●　搜狗（sogou）蜘蛛名稱：sogou spider
      ●　MSN的(de)蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也(yě)是(shì)這(zhè)個(gè))：Msnbot

    ２）Disallow: 拒絕訪問的(de)目錄或文件
　　該項的(de)值用于(yú)描述不(bù)希望被訪問的(de)一(yī / yì ／yí)組URL，這(zhè)個(gè)值可以(yǐ)是(shì)一(yī / yì ／yí)條完整的(de)路徑，也(yě)可以(yǐ)是(shì)路徑的(de)非空前綴，以(yǐ)Disallow項的(de)值開頭的(de)URL不(bù)會被robot訪問。
     例如：
         Disallow:/seo.html       表示禁止robot訪問文件 /seo.html

    ３）Allow:允許訪問的(de)目錄或文件
     該項的(de)值用于(yú)描述希望被訪問的(de)一(yī / yì ／yí)組URL，與Disallow項相似，這(zhè)個(gè)值可以(yǐ)是(shì)一(yī / yì ／yí)條完整的(de)路徑，也(yě)可以(yǐ)是(shì)路徑的(de)前綴，以(yǐ)Allow項的(de)值開頭的(de)URL是(shì)允許robot訪問的(de)。
      例如：
           Allow:/hibaidu/         表示允許robot訪問目錄 /hibaidu/

     4)使用通配符"*"和(hé / huò)"$"：
     　　 $   匹配行結束符。
　　      *   匹配0或多個(gè)任意字符。
          ?   匹配1個(gè)任意字符

     5)robots.txt文件裏還可以(yǐ)直接包括在(zài)sitemap文件的(de)鏈接。
        Sitemap:http://www.lemigift.com/sitemaps.xml

4、robots.txt文件用法舉例
     1)、攔截所有的(de)機器人(rén)訪問網站
       User-agent: *
       Disallow: /

     2)、允許所有的(de)機器人(rén)訪問網站
       User-agent: *
       Allow: /
     3)、禁止所有機器人(rén)訪問特定目錄：
       User-agent: *
       Disallow: /public/
       Disallow: /images/
       Disallow: /temp/
       Disallow: /include/

     4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這(zhè)裏我們以(yǐ)百度蜘蛛爲(wéi / wèi)例說(shuō)明)
       User-agent: Baiduspider
       Disallow: /test/
         上(shàng)面的(de)robots.txt語法示例的(de)意思是(shì)禁止百度蜘蛛爬行根目錄下的(de)test目錄

     5)、僅禁止Baiduspider抓取.jpg格式圖片
       User-agent: Baiduspider
       Disallow: .jpg$

　　 6)、僅允許訪問以(yǐ)".htm"爲(wéi / wèi)後綴的(de)URL。
       User-agent: *
       Allow: .htm$
       Disallow: /

　　 7)、禁止訪問網站中所有的(de)動态頁面
       User-agent: *
       Disallow: /*?*

5、常見robots.txt錯誤
　　 1)、把多個(gè)禁止命令放在(zài)一(yī / yì ／yí)行中：
　　   錯誤地(dì / de)寫法
　　   Disallow: /css/ /cgi-bin/ /images/
　　   正确的(de)寫法
　　   Disallow: /css/
　　   Disallow: /cgi-bin/
　　   Disallow: /images/
2)、表示目錄時(shí)，忘記了(le／liǎo)斜杠/
　　   錯誤的(de)寫法
　　   User-agent: Baiduspider
　　   Disallow: css
　　   正确的(de)寫法
　　   User-agent: Baiduspider
　　   Disallow: /css/

6、robots meta網頁标簽寫法
Robots META标簽則主要(yào / yāo)是(shì)針對一(yī / yì ／yí)個(gè)個(gè)具體的(de)頁面。和(hé / huò)其他(tā)的(de)META标簽（如使用的(de)語言、頁面的(de)描述、關鍵詞等）一(yī / yì ／yí)樣，Robots META标簽也(yě)是(shì)放在(zài)頁面的(de)＜head＞＜/head＞中，專門用來(lái)告訴搜索引擎ROBOTS如何抓取該頁的(de)内容。
Robots META标簽的(de)寫法：
Robots META标簽中沒有大(dà)小寫之(zhī)分，name=”Robots”表示所有的(de)搜索引擎，可以(yǐ)針對某個(gè)具體搜索引擎寫爲(wéi / wèi)name=”BaiduSpider”。 content部分有四個(gè)指令選項：index、noindex、follow、nofollow，指令間以(yǐ)“,”分隔。
INDEX 指令告訴搜索機器人(rén)抓取該頁面；
FOLLOW 指令表示搜索機器人(rén)可以(yǐ)沿着該頁面上(shàng)的(de)鏈接繼續抓取下去；
Robots Meta标簽的(de)缺省值是(shì)INDEX和(hé / huò)FOLLOW，隻有inktomi除外，對于(yú)它，缺省值是(shì)INDEX,NOFOLLOW。
這(zhè)樣，一(yī / yì ／yí)共有四種組合：
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞
其中
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以(yǐ)寫成＜META NAME="ROBOTS" CONTENT="ALL"＞；
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以(yǐ)寫成＜META NAME="ROBOTS" CONTENT="NONE"＞
目前看來(lái)，絕大(dà)多數的(de)搜索引擎機器人(rén)都遵守robots.txt的(de)規則，而(ér)對于(yú)Robots META标簽，目前支持的(de)并不(bù)多，但是(shì)正在(zài)逐漸增加，如著名搜索引擎GOOGLE就(jiù)完全支持，而(ér)且GOOGLE還增加了(le／liǎo)一(yī / yì ／yí)個(gè)指令“archive”，可以(yǐ) 限制GOOGLE是(shì)否保留網頁快照。例如：
＜META NAME="googlebot" CONTENT="index,follow,noarchive"＞
表示抓取該站點中頁面并沿着頁面中鏈接抓取，但是(shì)不(bù)在(zài)GOOLGE上(shàng)保留該頁面的(de)網頁快照。

　　迅優傳媒是(shì)一(yī / yì ／yí)家專注于(yú)網站優化、網站建設、網站設計、網站制作、微信開發的(de)互聯網科技公司。我們的(de)SEO和(hé / huò)SEM工程師針對客戶的(de)網站及行業現狀等進行深度分析，幫助很多客戶提升了(le／liǎo)網站排名并完成了(le／liǎo)互聯網全平台的(de)推廣，爲(wéi / wèi)客戶節省了(le／liǎo)大(dà)筆費用，同時(shí)提升了(le／liǎo)品牌形象、提高了(le／liǎo)轉化率。

(責任編輯：admin)

标簽： 青島網站優化 robots 搜索引擎