小心robots.txt影响蜘蛛的爬行

hope2000004 · 发表于 2018-12-7 01:56:41

　　相信拥有入门SEO常识的站长都知道，在网站根目录下面写一个robots.txt文件来阻止蜘蛛爬行那些我们并不想被搜索引擎抓取的网页，搜索引擎建议站长使用robots文件的初衷是为了让站长可以主动的控制那些设计到网站用户信息的页面不被抓取，进而导致用户信息泄露，但实际上站长们能在robots文件上做的事情不仅如此。
　　早前笔者负责过一个网站，网页非常多，但是收录非常慢，分析日志的时候，发现蜘蛛爬行的频率也不低，就是不收录，相信很多站长也遇到过这样的情况，一般我们会认为是蜘蛛爬行了，也抓取了，只不过还没“放”出来，但是笔者等了一个月，收录依然不见增长，疑惑之余对网站各个环节展开了相信的分析，最终发现，罪魁祸首是网站的robots文件。
　　建站初期，考虑到很多不规则的URL如动态页面，JS地址，SKIN地址等容易导致蜘蛛优先爬行这类地址，导致爬行其它重要页面的几率减少(蜘蛛在一个网站的停留时间是有限的)，所以网站刚上线就在robots文件中写了很多Disallow命令，将网站的动态页面，JS页面，模板相关的URL都禁止掉了，早期没觉得有何不妥，网站收录正常，site结果中也没有很多“不三不四”的页面。
　　遇到问题就要着手分析，笔者分析了好几个环节发现都不是导致收录停止增长的原因，最终在一次无意修改robots文件的时候才意识到，极有可能是robots文件的诸多限制导致了收录增长停止。
　　首先我们知道蜘蛛必须先爬行网页才有可能收录网页，那么蜘蛛在你网站爬行是否顺畅就是一个很重要的问题，假设蜘蛛爬行你网站的时候，遇到很多障碍，爬行受阻，那么很容易想像，这样的网站对于蜘蛛来说并不友好，蜘蛛爬行不畅了，收录自然提高不起来，因为蜘蛛压根爬行不到很多页面。
　　归长治男科医院http://cznk.com/所有，若要转载请标上文章源自，感谢您的合作!

		自动登录	找回密码
密码			立即注册

小心robots.txt影响蜘蛛的爬行

浏览过的版块