免费推广知识

首页 > 免费 > 免费推广知识 >

蜘蛛必杀只Robots协议

来源:北京汇仁智杰科技有限公司   时间:2015-03-27   点击:

  做网站进行网络推广,站长们就会想办法怎么去引蜘蛛,而没有几年的经验的人,并不能很好的控制猪蜘蛛的行径。今天汇仁智杰就教您如何利用Robots协议玩转百度蜘蛛。

  什么是Robots协议:

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息。

  协议目的:

  1、搜索技术应服务于人类,同时尊重信息提供者意愿并维护其隐私权
  2、网站有义务保护其使用者的个人信息和隐私不被侵犯

  Robots.txt文件应该放在那里?

  robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(http://www.baidu.com)时,首先会检查该网站中是否存在http://www.baidu.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件内容,来确定它访问权限范围。

  Robots文件写法

  格式:
  User-agent: 蜘蛛名称
  Disallow: 内容名称
  Allow:内容名称
  参数说明:
  User-agent 指定搜索引擎蜘蛛名称;
  Disallow要禁止抓取的内容;
  Allow允许抓取的内容

  Robots名称

  SEO中常说的探测器(Robot)是搜索引擎用来抓取网页的工具,它是一个软件或者说一系列自动程序。不同的搜索引擎给他们自己的探测器(Robot)起不同的名字。
  谷歌:googlebot 
  百度:baiduspider 
  MSN:MSNbot
  雅虎:Slurp
  有道:YoudaoBot
  搜搜:Sosospider
  搜狗:sogou spider
  360:360Spider
  alexa:ia_archiver

  通配符说明

  *表示所有搜索引擎,用于指定蜘蛛使用。
  ~表示以某字符串开头
  $表示以某字符串结尾
  /表示当前目录下的所有内容

  Robots文件写法

  制定蜘蛛:User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
  禁止写法:Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
       Disallow: /admin 这里定义是禁止爬寻admin目录
       Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录)
       Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址
       Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
       Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
  允许写法:Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
       Allow: /tmp 这里定义是允许爬寻tmp的整个目录
       Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
       Allow: .gif$ 允许抓取网页和gif格式图片

  只有熟练的掌握Robots文件的使用,才能掌控蜘蛛的动向。更多资讯请关注汇仁智杰网站推广。

网络营销推广 . 北京汇仁智杰科技有限公司!

地址:北京市昌平区回龙观龙冠大厦5层
咨询:13370157521
业务QQ:373002979
E - mail:sales @ huirenzhijie.com
企业网站备案:京ICP备15021091号-1

汇仁智杰与众不同

  • 有网络推广经验
  • 有网站建站队伍
  • 有大型网站建设经验
  • 致力于营销型网站建设
  • 始终坚持技术和服务同样重要
查看PC版网站
备案号:京ICP备15021091号-1 版权所有:汇仁智杰