做网站进行网络推广,站长们就会想办法怎么去引蜘蛛,而没有几年的经验的人,并不能很好的控制猪蜘蛛的行径。今天汇仁智杰就教您如何利用Robots协议玩转百度蜘蛛。
什么是Robots协议:
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息。
协议目的:
1、搜索技术应服务于人类,同时尊重信息提供者意愿并维护其隐私权
2、网站有义务保护其使用者的个人信息和隐私不被侵犯
Robots.txt文件应该放在那里?
robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(http://www.baidu.com)时,首先会检查该网站中是否存在http://www.baidu.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件内容,来确定它访问权限范围。
Robots文件写法
格式:
User-agent: 蜘蛛名称
Disallow: 内容名称
Allow:内容名称
参数说明:
User-agent 指定搜索引擎蜘蛛名称;
Disallow要禁止抓取的内容;
Allow允许抓取的内容
Robots名称
SEO中常说的探测器(Robot)是搜索引擎用来抓取网页的工具,它是一个软件或者说一系列自动程序。不同的搜索引擎给他们自己的探测器(Robot)起不同的名字。
谷歌:googlebot
百度:baiduspider
MSN:MSNbot
雅虎:Slurp
有道:YoudaoBot
搜搜:Sosospider
搜狗:sogou spider
360:360Spider
alexa:ia_archiver
通配符说明
*表示所有搜索引擎,用于指定蜘蛛使用。
~表示以某字符串开头
$表示以某字符串结尾
/表示当前目录下的所有内容
Robots文件写法
制定蜘蛛:User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
禁止写法:Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /admin 这里定义是禁止爬寻admin目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录)
Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
允许写法:Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
只有熟练的掌握Robots文件的使用,才能掌控蜘蛛的动向。更多资讯请关注汇仁智杰网站推广。