请谨慎使用robots.txt禁止搜索引擎抓取

ecg6998 · 发表于 2018-12-27 11:34:45

大家都知道，在网站上线前，就是你的网址暴露在互联网中，能引来谷歌，百度，雅虎，搜狗等等搜索引擎蜘蛛来爬前，网站的主题，关键字，描述，和网站的结构布局一定要明确。一旦蜘蛛来爬过去，你的网站主题关键字描述及结构布局，还在乱改动，这会很影响网站的收录情况和权重。这也往往是新手，常常犯的错误。网站上线后，还在乱改，结果即使收录了，也会k首页，降权重等等惩罚。
　　所以有人说，在网站上线前在网站的robots.txt里设置搜索引擎来爬行，等网站标题关键字布局等确定后，再解禁来爬。本人以前没有试过，新上线的一个网站天涯美容屋减肥网，这前因为做股票网，做了几天，又想主题做减肥。转来转去。以前看了有人说可以在robots.txt写禁止蜘蛛来爬，我查了网站log纪录，只有googlebot来抓过，因为上线才一天，其它搜索引擎还没来，我也没提交过。所以只在就禁止 Googlebot 将来抓取我的网站，请将以下 robots.txt 文件放入您服务器的根目录：
　　User-agent: Googlebot
　　Disallow: /
　　结果以为没事。然后自己改版着不多了，天涯美容屋减肥网上线了，提交搜索引擎，发外链，引蜘蛛，robots.txt里也解禁了googlebot的来爬，结果一周后过去了，像百度，yahoo,搜狗等等的搜索引擎蜘蛛全来过了，唯独googlebot再也没有来，我很奇怪的。一向googlebot来的很快的，我做了几个站，一般都是googlebot很快来访,baidu蜘蛛反而要一天后才来。这回一周多了还不来，我越想越不对劲。在a5论坛和推一把论坛和google的论坛里都发了提问，没人能给我正确的回答，都不知道原因。我自己也作了一点测试，用谷歌的模拟蜘蛛程序来抓我的天涯美容屋减肥网，结果显示：首先我把天涯美容屋减肥网的网址，指向了自己的本机上，然后用模拟googlebot蜘蛛来抓，结果显示如下：
　　以下是 Googlebot 抓取该网页的过程。

　　日期： Wed Feb 03 03:11:47 PST 2010
　　HTTP/1.1 200 OK
　　Connection: close
　　Date: Wed, 03 Feb 2010 11:11:40 GMT
　　Content-Type: text/html; charset=gbk
　　Server: Microsoft-IIS/6.0
　　X-Powered-By: ASP.NET,PHP/5.2.9-2
　　Access Denied
　　竟然是拒绝访问，我这下头大了，拒绝访问?我再一次检查了网站的robots.txt里面没有禁止谷歌来抓啊，网页的meta标签里也没有写禁止，我甚至把robots.txt都删掉了。再用模拟蜘蛛程序来抓仍然是拒绝访问.我再次**坛求助，仍然没人知道原因和解决办法.然后我就写了一封信给google,信内容如下:
　　"我的网站，天涯屋美容减肥网本来我用这个域名开始做股票网的，做了几天，觉得股票网不行，然后就改版做这个减肥网,改版的两天时间内我在robots.txt里设置了拒绝所有蜘蛛来爬，现在我解禁了，别的蜘蛛像bd热狗yahoo都有来爬，就唯有googlebot再也没来，已经有一个星期了，刚才我用网站管理员工具里实验室里的"像googlebot一样爬取"的功能测试爬取。
　　天涯屋美容减肥网首页，显示结果是:
　　以下是 Googlebot 抓取该网页的过程。
　　URL： http://www.**x.com/
　　日期： Wed Feb 03 03:11:47 PST 2010
　　HTTP/1.1 200 OK
　　Connection: close
　　Date: Wed, 03 Feb 2010 11:11:40 GMT
　　Content-Type: text/html; charset=gbk
　　Server: Microsoft-IIS/6.0
　　X-Powered-By: ASP.NET,PHP/5.2.9-2
　　Access Denied
　　我检查了robots.txt，甚至删掉了这个文件，仍然是access denied，请问google管理人员，这是怎么回事，如何解决，是不是因为我以前拒绝过googlebot，现在googlebot里有数据把我这个站加入了拒绝访问的名单了，还是怎么回事，急等回复，谢谢"
　　信发过后，我同时也在作测试，我把天涯屋美容减肥网的网址指向自己本地主机,然后用模拟蜘蛛程序来爬，竟然能正常访问，这证明这个域名是没问题的，应该没有进我所猜想的黑名单.这下我更想不通了?难道是程序问题，程序里除了robots.txt和meta标签　里能禁止搜索引擎蜘蛛来爬，还有其它地方也能禁止?难道是虚拟主机问题?主机禁止了googlebot来爬?难道是因为我一周前禁止过googlebot来爬，就留下了某种我不知道的缓存文件，仍然禁止着?然后我又把google adsense加入了这个站，adsense能显示广告，说明adsense能来访问.但是googlebot却不能访问。
　　更为奇怪的是，一个小时后，也就是笔者在写这个文章前，我用谷歌网站管理员工具里的"像googlebot一样爬取"的功能测试时，竟然能爬行了，我看了一下log纪录，googlebot爬行了11次.这又是什么原因?是我写了信的原因?google工作人员看到了，解决了，效率这么高?还是我把网址指向了我本机，又指回来，这样来回折腾后，又好的原因?实在想不明白,唯一得到的结论是：
　　一定要谨慎使用robots.txt禁止搜索引擎抓取.新站没做好前，不要让自己的网址出现在互联网任何地方，也不要设置禁止蜘蛛来爬，等网站标题结构等确定好后，再去提交，引蜘蛛.本人亲身经历，希望新手引以为戒。

		自动登录	找回密码
密码			立即注册

请谨慎使用robots.txt禁止搜索引擎抓取

浏览过的版块