IT培訓(xùn)網(wǎng)
IT在線學(xué)習(xí)
平時在瀏覽百度的時候很少發(fā)現(xiàn)有今日頭條的內(nèi)容信息,淘寶的產(chǎn)品信息,阿里大魚自媒體信息。為什么呢?原因就是因為這些網(wǎng)站都對百度搜索引擎設(shè)置了Robots協(xié)議,禁止讓百度搜索引擎抓取,通過接下來的閱讀,讓你快速完成以下三個目標(biāo)。第一個:對Robots協(xié)議有一定的了解;第二個:可以很好的讀懂淘寶Robots紅色標(biāo)注協(xié)議的意思;第三個:能夠看懂淘寶對待googlebot(谷歌機(jī)器人)和baiduspider(百度蜘蛛)有什么不同
本節(jié)內(nèi)容通過以下六個點來講解:
1. Robots定義
2. 為什么要研究Robots
3. Robots常用語法
4. 個別Robots指令示例
5. Robots在工作中常見應(yīng)用場景
6. Robots怎么做
以下為明細(xì)明細(xì):
1. 關(guān)于定義:Robots指令是搜索引擎來到網(wǎng)站第一個訪問的文件,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍,網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
2. 為什么要研究Robots:更好的告訴搜索引擎哪些頁面可以抓取,哪些頁面不可以抓取,對一些沒有必要抓取的頁面進(jìn)行第一時間屏蔽
3. 常用語法:Robots常用的語法為以下幾種:
(1)User-agent:代表搜索引擎名稱
(2)Disallow釋義:不允許訪問
(3)Allow釋義:允許訪問
(4)* :匹配任意字符內(nèi)容
(5)$ :行結(jié)束符,通常為頁面使用,欄目通常使用“/”(示例:Disallow:/.htm$ )
4. 個別指令示例:有個別指令需要特殊說明,可以有助于大家更好地認(rèn)識Robots,內(nèi)容如下:
(1)Disallow: 不允許
(2)Disallow:/ 根目錄下面所有文件都不允許抓取
(3)Disallow:/a a開頭的目錄文件不允許抓取
(4)Disallow:/a/ 不允許抓取a文件夾
(5)Disallow:/chanpin/
(6)Disallow:/*?* 不允許抓取動態(tài)url
5. Robots在工作中常見應(yīng)用場景:有些同學(xué)可能會問Robots在工作中到底怎么用呢?我們經(jīng)常碰到的三種使用場景如下:
(1)新網(wǎng)站沒有正式上線,屏蔽搜索引擎
(2)有些欄目不想讓搜索引擎爬行抓取(不重要的欄目)
(3)動態(tài)URL屏蔽
6. Robots怎么做:
(1)新建Robots.txt文檔
(2)撰寫Robots協(xié)議規(guī)則要求
(3)上傳到網(wǎng)站空間根目錄(可以去百度搜索資源平臺,進(jìn)行檢測訪問權(quán)限是否生效)
>>本文地址:http://liujunjsxg.cn/zhuanye/2020/48580.html
聲明:本站稿件版權(quán)均屬中公教育優(yōu)就業(yè)所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
1 您的年齡
2 您的學(xué)歷
3 您更想做哪個方向的工作?