现在几乎所有的搜索引擎蜘蛛都遵循robots.txt设置的爬行规则,但很多新手站长都对robots.txt不是很了解,下面给大家讲下robots.txt设置和技巧
什么是robots.txt?
百度官方释义robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
robtots.txt必须放置在根目录之下,文件名必须全部小写.robtots.txt的标准格式你可以在搜索引擎搜索,也可以借助谷歌网站管理员工具去生成。
robtots.txt简单设置语法如下:
User-Agent:
定义搜索引擎的类型,一般填写“*”
Disallow: 要拦截的网页,一般写在Allow的前面
Allow:
不拦截的网页,一般填“/”
Sitemap:网站地图URL
Disallow:
/禁止抓取的路径/
这个语法是禁止所有搜索引擎蜘蛛,如果你想【自吸泵
http://zixibeng.scpv.net】屏蔽百度蜘蛛,
那么将User-agent:
baiduspider即可。注释:google蜘蛛:googlebot
百度蜘蛛:baiduspider
robtots.txt的使用技巧
对于没有配置robots.txt的网站,蜘蛛搜索引擎将会被重定向至404错误页面。如果网站采用了自定义的404错误页面,那么蜘蛛搜索引擎将会把404页面视为robots.txt
用robots.txt可以制止不必要的搜索引擎占用服务器的宝贵带宽,减少网站压力,你可以看看你的流量统计,看有流量主要来自哪些搜索引擎,不来流量的蜘蛛可以完全屏蔽掉,这类搜索引擎对大多数网站是没有意义的.
在robtots.txt文件中,我们已经可以禁止蜘蛛抓取图、会员**页面、管理后台页面、以及一些对seo无用的页面和js文件、css文件等等。这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。
如果网站存在一些重复的内容,我们使用robots.txt来进行限制蜘蛛索引,可以避免网站受到搜索引擎对于重复内容的惩罚,并保证网站排名不受影响等。 |