苏苏网赚论坛

 找回密码
 立即注册
查看: 8822|回复: 0

如果你真的想屏蔽百度蜘蛛 尝试以下方法

[复制链接]
跳转到指定楼层
楼主
发表于 2018-10-7 16:49:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
好像现在屏蔽baiduspider已经成为一种时尚,难道这玩意也跟着纳斯达克变?
  首先我自己不会屏蔽baiduspider,也不大相信baiduspider会故意忽略robots.txt,但如果你真的想屏蔽 baiduspider,可尝试以下方法:
  1. 上传一个robots.txt到根目录,内容为:
  User-agent: baiduspider
  Disallow: /
  一个搜索引擎爬虫工作前首先应该访问/robots.txt制定排除列表,baiduspider还无法高级到故意忽略某些网站的robots.txt,不知道baiduspider怎么折腾才能让robots.txt失效。
  2. 如果仅仅因为服务器吃不消,不防按照的指示写信给百度。估计很多人试过得不到回复(Google基本都是2个工作日内回复)。
  3. 如果还没有办法,可尝试.htaccess屏蔽,上传一个.htaccess文件到根目录,内容为:
  SetEnvIfNoCase User-Agent "^baiduspider" ban_bot
  deny from env=ban_bot
  还可以扩大这个列表,屏蔽那些Email提取爬虫、网站**爬虫等(小偷一般不守法,但总比自己什么都不做强):
  SetEnvIfNoCase User-Agent "^baiduspider" ban_bot
  SetEnvIfNoCase User-Agent "^HTTrack" ban_bot
  SetEnvIfNoCase User-Agent "^EmailCollector" ban_bot
  SetEnvIfNoCase User-Agent "^EmailWolf" ban_bot
  SetEnvIfNoCase User-Agent "^ExtractorPro" ban_bot
  SetEnvIfNoCase User-Agent "^Offline" ban_bot
  SetEnvIfNoCase User-Agent "^WebCopier" ban_bot
  SetEnvIfNoCase User-Agent "^Webdupe" ban_bot
  SetEnvIfNoCase User-Agent "^WebZIP" ban_bot
  SetEnvIfNoCase User-Agent "^Web **" ban_bot
  SetEnvIfNoCase User-Agent "^WebAuto" ban_bot
  SetEnvIfNoCase User-Agent "^WebCapture" ban_bot
  SetEnvIfNoCase User-Agent "^WebMirror" ban_bot
  SetEnvIfNoCase User-Agent "^WebStripper" ban_bot
  deny from env=ban_bot
  .htaccess要用文本方式上传,有些Apache配置比较怪异,防止引起冲突建议上传后立刻看看是否影响普通用户的访问。如果浏览正常,再用FlashGet模拟baiduspider测试这个.htaccess是否工作,方法是:
  FlashGet->工具->选项->协议,把HTTP用户代理改成用户自定义:baiduspider;然后用FlashGet下载该网站任意页面,在FlashGet的下载日志里得到HTTP/1.1 403 Forbidden则成功.
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-26 03:56 , Processed in 0.514801 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表