免费学习课堂

蜘蛛必杀只Robots协议

来源：北京汇仁智杰科技有限公司　　　时间：2015-03-27　　　点击：次

　　做网站进行网络推广，站长们就会想办法怎么去引蜘蛛，而没有几年的经验的人，并不能很好的控制猪蜘蛛的行径。今天汇仁智杰就教您如何利用Robots协议玩转百度蜘蛛。

　　什么是Robots协议：

　　Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取Robots协议的本质是网站和搜索引擎爬虫的沟通方式，用来指导搜索引擎更好地抓取网站内容，更好的保护用户的隐私和版权信息。

　　协议目的：

　　1、搜索技术应服务于人类，同时尊重信息提供者意愿并维护其隐私权
　　2、网站有义务保护其使用者的个人信息和隐私不被侵犯

　　Robots.txt文件应该放在那里？

　　robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站（http://www.baidu.com）时，首先会检查该网站中是否存在http://www.baidu.com/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件内容，来确定它访问权限范围。

　　Robots文件写法

　　格式：
　　User-agent: 蜘蛛名称
　　Disallow: 内容名称
　　Allow:内容名称
　　参数说明：
　　User-agent 指定搜索引擎蜘蛛名称；
　　Disallow要禁止抓取的内容；
　　Allow允许抓取的内容

　　Robots名称

　　SEO中常说的探测器（Robot）是搜索引擎用来抓取网页的工具，它是一个软件或者说一系列自动程序。不同的搜索引擎给他们自己的探测器（Robot）起不同的名字。
　　谷歌：googlebot
　　百度：baiduspider
　　MSN：MSNbot
　　雅虎：Slurp
　　有道：YoudaoBot
　　搜搜：Sosospider
　　搜狗：sogou spider
　　360：360Spider
　　alexa：ia_archiver

　　通配符说明

　　*表示所有搜索引擎，用于指定蜘蛛使用。
　　~表示以某字符串开头
　　$表示以某字符串结尾
　　/表示当前目录下的所有内容

　　Robots文件写法

　　制定蜘蛛：User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
　　禁止写法：Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
　　　　　　　Disallow: /admin 这里定义是禁止爬寻admin目录
　　　　　　　Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL（包含子目录）
　　　　　　　Disallow: /*？* 禁止访问网站中所有包含问号（？）的网址
　　　　　　　Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
　　　　　　　Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
　　允许写法：Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
　　　　　　　Allow: /tmp 这里定义是允许爬寻tmp的整个目录
　　　　　　　Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
　　　　　　　Allow: .gif$ 允许抓取网页和gif格式图片

　　只有熟练的掌握Robots文件的使用，才能掌控蜘蛛的动向。更多资讯请关注汇仁智杰网站推广。

上一个：如何正确选择长尾关键词进行优化？
下一个：SEO中蜘蛛有哪些分类？

免费推广知识

免费学习课堂

推荐文章

蜘蛛必杀只Robots协议

推荐文章

网络营销推广　．　北京汇仁智杰科技有限公司！

汇仁智杰与众不同

公司动态

免费推广知识

免费学习课堂

推荐文章

蜘蛛必杀只Robots协议

推荐文章

网络营销推广 ． 北京汇仁智杰科技有限公司！

汇仁智杰与众不同

公司动态

网络营销推广　．　北京汇仁智杰科技有限公司！