博主辛苦了,我要打赏银两给博主,犒劳犒劳站长。
【摘要】robots.txt主要用来告知搜索引擎爬虫我们的网站哪些目录是可以抓取,哪些页面是不能抓取的,也可设置允许哪些搜索引擎的爬虫访问,比如百度爬虫,谷歌爬虫,360爬虫等等,还有一个功能就是设置sitemap.xml的位置。
robots.txt遵循的是Robots协议,放在站点的根目录之下,它的设置很简单,但是功能确实很强大的,这是搜索引擎爬虫访问您的网站时第一个需要访问的文件,用来告知爬虫在我们的服务器上哪些文件时允许被访问的。如果网站上不存在robots.txt文件,那么爬虫就会搜索所有文件。
格式如下:
// 允许所有的蜘蛛范文
User-agent:*
User-agent:设置值是*表示允许所有搜索爬虫访问。通常情况下,我们都会允许爬虫访问的。
Disallow:/home/admin/
Disallow指的是不允许网络爬虫访问的目录,/home/admin/也可以是一条完整路径。
Sitemap:http;//www.mafutian.net/sitemap.xml
sitemap用来告诉浏览器我们的网站的sitemap.xml网站地图的位置
综合起来就这么写:
User-agent: *
Disallow:
Disallow: /home/admin/
Sitemap: http://www.mafutian.net/sitemap.xml
robots.txt文件很简单吧,也很好理解吧,赶紧给自己的网站添加robots.txt文件吧。
当然还有一点需要注意的就是,allow:/
allow:/
allow:/是指允许爬虫访问所以页面
robots.txt就是4个关键词,User-agent、Disallow、Sitemap、allow你会了吗
版权归 马富天PHP博客 所有
本文标题:《简单介绍一下robots.txt文件》
本文链接地址:http://www.mafutian.net/55.html
转载请务必注明出处,小生将不胜感激,谢谢! 喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^
顶0
踩0
评论审核未开启 |