一個(gè)網(wǎng)站上線之初,就要立即提交robots.txt、sitemap.xml文件。這樣做的目的,就是要通知搜索引擎:我的網(wǎng)站,您可以安排蜘蛛過來,按照我的網(wǎng)站地圖,進(jìn)行抓取了。
那么,如何制作網(wǎng)站robots.txt、sitemap.xml文件呢?
1. robots.txt
robots.txt的作用:
(1)發(fā)出公告,定向通知搜索引擎,前來抓取你的網(wǎng)站。
(2)目錄篩選:告訴引擎的蜘蛛,我網(wǎng)站上面的文件目錄,哪些是可以抓取的,哪些是不允許抓取的。
(3)指明路徑:向蜘蛛說明,在允許抓取的文件目錄中,按照什么樣的方式(sitemap)進(jìn)行抓取,防止蜘蛛走丟,遺漏重要的網(wǎng)站內(nèi)容。
robots.txt的格式:
# robots.txt generated at http://tool.chinaz.com/robots/ // 頭部聲明:主要說明,這個(gè)robots.txt文件來自于哪里,可以不寫 //
User-agent: // 代理聲明:告訴引擎,網(wǎng)站允許哪些引擎的蜘蛛前來爬取 //
Disallow: // 限制聲明:通知前來抓取的蜘蛛,網(wǎng)站哪些目錄文件,不允許抓取 //
Sitemap: example.com/sitemap.xml // sitemap聲明:通知前來抓取的蜘蛛,如果爬取,請(qǐng)按照這個(gè)路線進(jìn)行數(shù)據(jù)抓取 //
robots.txt的生成:
(1)自己編寫,在本地建立txt文件,將上述幾點(diǎn)進(jìn)行編寫即可。
(2)工具生成robots.txt:站長(zhǎng)工具。
robots.txt的上傳:
將生成完畢的robots.txt文件,上傳到網(wǎng)站根目錄下,即可。
2. sitemap.xml
sitemap.xml的作用:
(1)通知前來抓取網(wǎng)站的搜索引擎蜘蛛,按照什么樣的路徑進(jìn)行抓取。
(2)通知前來抓取網(wǎng)站的搜索引擎蜘蛛,按照什么樣的頻率進(jìn)行抓取。
sitemap.xml的格式:
<?xml version="1.0" encoding="UTF-8"?> // version="1.0" 聲明用的xml版本是1.0 //
// encoding="UTF-8" 聲明用xml傳輸數(shù)據(jù)的時(shí)候的字符編碼,假如文檔里面有中文,編 碼方式不是UTF-8,傳輸過去再解碼的話中文就會(huì)是亂碼 //
<?xml-stylesheet type="text/xsl" href="sitemap.xsl"?> // 采集網(wǎng)站數(shù)據(jù)的采集方式,可以是txt文本格式,也可以以xsl數(shù)據(jù)格式進(jìn)行采集 //
<urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9"> // sitemap的協(xié)議,類似于wc3協(xié)議,必填項(xiàng),否則無法開始抓取 //
<url>
<loc>頁(yè)面網(wǎng)址</loc> // 輸入需要爬取的頁(yè)面的網(wǎng)址 //
<lastmod>頁(yè)面最近更新時(shí)間</lastmod> // 注明頁(yè)面最近更新的時(shí)間 //
<changefreq>頁(yè)面更新頻率</changefreq> // 確定頁(yè)面更新頻率(daily、weekly、monthly、yearly...) //
<priority>頁(yè)面抓取優(yōu)先級(jí)</priority> // 設(shè)定頁(yè)面優(yōu)先級(jí),可選值:0.0~1.0。越趨近與1.0,說明這個(gè)頁(yè)面越重要 //
</url>
</urlset> // 結(jié)束抓取 // |
sitemap.xml的生成:
(1)sitemap.xml文件最好自己編寫,防止遺漏網(wǎng)站的重要頁(yè)面。
(2)開始,在txt文本格式下進(jìn)行編輯。按照上面的格式,寫完之后,直接將.txt變成.xml即可。
sitemap.xml的上傳:
將生成完畢的sitemap.xml文件,上傳到網(wǎng)站根目錄下,即可。