苏苏网赚论坛

 找回密码
 立即注册
查看: 9687|回复: 0

索引页链接补全机制的一种方法

[复制链接]
跳转到指定楼层
楼主
发表于 2018-11-15 14:02:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
2.1 资源链接是否按照时间排序

判断资源是否按发布时间排布是这类页面的一个必要条件,那么如何判断资源是否按发布时间排布呢?如上面图1所示,有些页面中每个资源链接后面跟随着对应的发布时间,通过资源链接对应的时间集合,判断时间集合是否按大到小或小到大排序,如果是的话,则说明网页中的资源是按发布时间有序排布,反之亦然。图1中资源从上到下对应的时间是越来越小的,即是资源按发布时间有序的。

还有一类网页,如下面图3所示,网页内容中有多种排序方式,如按销量排序,按价格排序,如评论数排序,按上架时间排序。通过识别和提取当前的排序方式,然后判断当前的排序方式是否为按时间排序,如果是,则说明网页中的资源是按发布时间有序排布,反之亦然。图3中的排序方式是按上架时间排序,属于时间排序方式,所以该网页发布的资源是按发布时间有序的。

另外也会根据资源链接抓回后提取的发布时间综合判断。

图表3 多种排序方式的索引页

2.2 补全机制

对于按发布时间有序排布在索引页系列的资源链接,如何保证新发布的资源都被收录呢?如上述所说,在18个小时后,图1中的资源链接已经往后有序推移到翻页第4页了,如此看,这段时间内新增了翻页第2,3,4页索引的资源链接,那么,spider就需要完全的收录这些新增的资源;

首先,当spider抓取18小时后的第1页时,将新发现的资源链接集合,与上一次18小时前第1页索引页调度记录的资源链接集合作比较,会发现两次调度发现的资源链接没有交集,所以就可能存在漏链。进而需要继续发起第2页的调度,第2页发现的资源链接集合与之仍然没有交集,所以还可能存在漏链,继续发起第3页,第4页的调度,最终如图2所示,红框中的链接与上一次索引页调度记录的资源链接有交集,因此可以断定已经补全了这段时间内新增的资源,从而结束翻页系列的调度,并保证了该翻页系列的所有链接的补全,从而提升搜索产品的收录效果。

2.3 翻页条的识别和翻页条对应的链接序列区块的识别

为了达到上面的效果,除了需要识别翻页系列的排序方式是不是按照时间排序,还需要识别索引页中的翻页条和其对应的链接区块。

因为没有翻页条的识别,spider系统就不可能把这个翻页序列的所有链接绑定起来,整体考虑它们的状态,那么调度抓取的结果就是随机的,从而不能保证补全效果,当前通过网页中的翻页的一系列特征,通过机器学习的方法来识别网页中的翻页区块和翻页深度,以及上一页,下一页的链接,从而为上述补全机制提供基本数据。

另外一方面,即使有了翻页条的识别,没有对应链接区块的识别,上述补全机制还是不能工作,因为上述机制需要对比发现的链接的集合来判定终止条件,所以,也需要识别翻页条对应的链接区块,从而提供翻页终止条件。

特殊情况下,一个网页可能包含多个翻页条,这种情况更需要进行翻页条和链接区块的对应。
上一篇:4+6565
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-5-7 11:22 , Processed in 0.140400 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表