马富天PHP博客

简单介绍一下robots.txt文件

学习笔记 马富天 2016-04-22 11:08:23 56 0

【摘要】robots.txt主要用来告知搜索引擎爬虫我们的网站哪些目录是可以抓取,哪些页面是不能抓取的,也可设置允许哪些搜索引擎的爬虫访问,比如百度爬虫,谷歌爬虫,360爬虫等等,还有一个功能就是设置sitemap.xml的位置。

robots.txt遵循的是Robots协议,放在站点的根目录之下,它的设置很简单,但是功能确实很强大的,这是搜索引擎爬虫访问您的网站时第一个需要访问的文件,用来告知爬虫在我们的服务器上哪些文件时允许被访问的。如果网站上不存在robots.txt文件,那么爬虫就会搜索所有文件。

格式如下:

  1. //   允许所有的蜘蛛范文
  2. User-agent:*

User-agent:设置值是*表示允许所有搜索爬虫访问。通常情况下,我们都会允许爬虫访问的。

  1. Disallow:/home/admin/

Disallow指的是不允许网络爬虫访问的目录,/home/admin/也可以是一条完整路径。

  1. Sitemap:http;//www.mafutian.net/sitemap.xml

sitemap用来告诉浏览器我们的网站的sitemap.xml网站地图的位置

综合起来就这么写:

  1. User-agent: *
  2. Disallow: 
  3. Disallow: /home/admin/
  4. Sitemap: http://www.mafutian.net/sitemap.xml

robots.txt文件很简单吧,也很好理解吧,赶紧给自己的网站添加robots.txt文件吧。

当然还有一点需要注意的就是,allow:/

  1. allow:/

allow:/是指允许爬虫访问所以页面

robots.txt就是4个关键词,User-agent、Disallow、Sitemap、allow你会了吗

版权归 马富天PHP博客 所有

本文标题:《简单介绍一下robots.txt文件》

本文链接地址:http://www.mafutian.net/55.html

转载请务必注明出处,小生将不胜感激,谢谢! 喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^

0

0

上一篇《 SEO优化建议-不要使用静态页面参数 》 下一篇《 讲一讲为什么要讲网站备案号放到网页页尾中 》
分享到:

暂无评论

评论审核未开启
表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情
验证码