高效实用http爬虫代理ip之盘点汽车之家的反爬虫机制

jnPvp958 · 发表于 2019-6-24 14:29:42

我们使用python制作网络爬虫得原因是因为Python 语法简介以及强大的第三方库。网络爬虫得主要途径还是用来进行数据采集，也就是将互联网中得数据采集过来。

网络爬虫得难点在于网站方为了避免数据被爬虫，增加的各种反爬虫措施。想继续的从网站爬取数据就必须绕过这些措施。因此，网络爬虫的难点在于反爬的攻克和处理。那么本文主要介绍汽车之家的反爬虫措施。

汽车之家

汽车之家论坛的反爬虫机制是比较高级的。汽车之家利用
前端页面自定义字体的方式来实现反爬的技术手段。具体使用到是 CSS3 中的自定义字体(@font-face)模块，自定义字体主要是实现将自定义的 Web 字体嵌入到指定网页中去。这就导致我们去爬取论坛帖子的口碑时，获取到的返回文本中每隔几个字就出现一个乱码符号。

每次访问论坛页面，其中字体是不变的，但字符编码是变化的。因此，我们需要根据每次访问动态解析字体文件。

具体可以先访问需要爬取的页面，获取字体文件的动态访问地址并下载字体，读取 js 渲染后的文本内容，替换其中的自定义字体编码为实际文本编码，就可复原网页为页面所见内容了。

在不损害他人利益的前提下对网站信息进行爬取是基本的职业道德。尽可能不在高峰时期进行数据爬取。

为了避免促发目标网站的反爬虫机制，可以使用代理IP，扣扣三三七二九而404

		自动登录	找回密码
密码			立即注册

高效实用http爬虫代理ip之盘点汽车之家的反爬虫机制

浏览过的版块