博主辛苦了，我要打赏银两给博主，犒劳犒劳站长。

支付宝支付

微信支付

QQ钱包

简单介绍一下robots.txt文件

学习笔记马富天 2016-04-22 11:08:23 56 0

【摘要】robots.txt主要用来告知搜索引擎爬虫我们的网站哪些目录是可以抓取，哪些页面是不能抓取的，也可设置允许哪些搜索引擎的爬虫访问，比如百度爬虫，谷歌爬虫，360爬虫等等，还有一个功能就是设置sitemap.xml的位置。

robots.txt遵循的是Robots协议，放在站点的根目录之下，它的设置很简单，但是功能确实很强大的，这是搜索引擎爬虫访问您的网站时第一个需要访问的文件，用来告知爬虫在我们的服务器上哪些文件时允许被访问的。如果网站上不存在robots.txt文件，那么爬虫就会搜索所有文件。

格式如下：

User-agent:设置值是*表示允许所有搜索爬虫访问。通常情况下，我们都会允许爬虫访问的。

Disallow指的是不允许网络爬虫访问的目录，/home/admin/也可以是一条完整路径。

Sitemap:http;//www.mafutian.net/sitemap.xml

sitemap用来告诉浏览器我们的网站的sitemap.xml网站地图的位置

综合起来就这么写：

Sitemap: http://www.mafutian.net/sitemap.xml

robots.txt文件很简单吧，也很好理解吧，赶紧给自己的网站添加robots.txt文件吧。

当然还有一点需要注意的就是，allow:/

allow:/是指允许爬虫访问所以页面

robots.txt就是4个关键词，User-agent、Disallow、Sitemap、allow你会了吗

转载请务必注明出处，小生将不胜感激，谢谢! 喜欢本文或觉得本文对您有帮助，请分享给您的朋友 ^_^

顶0

踩0

分享到：

暂无评论

评论审核未开启

回复后邮件通知我