苏苏网赚论坛

 找回密码
 立即注册
查看: 652|回复: 0

高效实用http爬虫代理ip之盘点汽车之家的反爬虫机制

[复制链接]
跳转到指定楼层
楼主
发表于 2019-6-24 14:29:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
我们使用python制作网络爬虫得原因是因为Python 语法简介以及强大的第三方库。网络爬虫得主要途径还是用来进行数据采集,也就是将互联网中得数据采集过来。

网络爬虫得难点在于网站方为了避免数据被爬虫,增加的各种反爬虫措施。想继续的从网站爬取数据就必须绕过这些措施。因此,网络爬虫的难点在于反爬的攻克和处理。那么本文主要介绍汽车之家的反爬虫措施。

汽车之家

汽车之家论坛的反爬虫机制是比较高级的。汽车之家利用
前端页面自定义字体的方式来实现反爬的技术手段。具体使用到是 CSS3 中的自定义字体(@font-face
)模块,自定义字体主要是实现将自定义的 Web 字体嵌入到指定网页中去。这就导致我们去爬取论坛帖子的口碑时,获取到的返回文本中每隔几个字就出现一个乱码符号。

每次访问论坛页面,其中字体是不变的,但字符编码是变化的。因此,我们需要根据每次访问动态解析字体文件。

具体可以先访问需要爬取的页面,获取字体文件的动态访问地址并下载字体,读取 js 渲染后的文本内容,替换其中的自定义字体编码为实际文本编码,就可复原网页为页面所见内容了。

在不损害他人利益的前提下对网站信息进行爬取是基本的职业道德。尽可能不在高峰时期进行数据爬取。

为了避免促发目标网站的反爬虫机制,可以使用代理IP,扣扣三三七二九而404
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-26 01:53 , Processed in 0.171600 second(s), 21 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表