青島網站優化之(zhī)利用爬蟲技術檢測網頁
在(zài)SEO工作過程中,由于(yú)項目過多,難免會有些遺漏或錯誤,可能這(zhè)個(gè)頁面忘了(le/liǎo)填寫标題,那個(gè)頁面沒設置關鍵字或描述。但是(shì)逐個(gè)翻看每個(gè)頁面來(lái)檢查費工又費時(shí),有什麽辦法能夠提高效率和(hé / huò)正确率呢?
像愛站、站長工具等都隻能針對單個(gè)頁面來(lái)提取網頁的(de)信息,不(bù)能整站進行抓取驗證。
其實我們可以(yǐ)使用非常成熟的(de)爬蟲技術來(lái)輔助我們的(de)工作。
下面介紹一(yī / yì /yí)款叫做神箭手的(de)網絡爬蟲工具,隻需要(yào / yāo)編寫簡單的(de)腳本就(jiù)能抓取所需要(yào / yāo)監控的(de)信息。所使用到(dào)的(de)腳本如下所示:
var configs = {
domains: ["www.abc.com"],
scanUrls: ["http://www.abc.com/index.html"],
contentUrlRegexes: [],
helperUrlRegexes: [], //可留空
enableProxy: true,
interval: 1000,
fields: [
{
// 其他(tā)抽取項
name: "title",
selector: "//head/title/text()"
},{
// 其他(tā)抽取項
name: "keywords",
selector: "//head/meta[contains(@name,'keywords')]/@content"
},{
// 其他(tā)抽取項
name: "description",
selector: "//head/meta[contains(@name,'description')]/@content"
}
]
};
var crawler = new Crawler(configs);
crawler.start();
上(shàng)述腳本能抓取從"http://www.abc.com/index.html"頁面作爲(wéi / wèi)入口能掃描到(dào)的(de)所有鏈接頁面的(de)标題、關鍵字和(hé / huò)描述信息。
除此之(zhī)外,您還可以(yǐ)增加更多自動化的(de)檢測。因爲(wéi / wèi)神箭手網絡爬蟲支持網頁信息抓取之(zhī)後的(de)回調處理,所以(yǐ)可以(yǐ)增加數據處理的(de)函數,針對抓取回來(lái)的(de)數據做進一(yī / yì /yí)步的(de)處理。
- 上(shàng)一(yī / yì /yí)篇:基于(yú)大(dà)數據的(de)SEO優化策略分析
- 下一(yī / yì /yí)篇:青島網站優化之(zhī)原創文章每天幾篇最合适?