苏苏网赚论坛

 找回密码
 立即注册
查看: 9036|回复: 0

搜索引擎蜘蛛爬行构架解分析

[复制链接]
跳转到指定楼层
楼主
发表于 2018-12-20 11:26:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
 一个通用搜索引擎的构架示意图。搜索引擎是由多个功能模块构成,各个模块负责相应的功能并相互衔接且独立,这样的构架有利于对单个模块进行升级与修改并不影响其他模块的使用,对于搜素引擎这样巨型的应用非常便利。 弄清楚搜素引擎的基本构架使为后续搜素引擎优化中所做的每一步找到相应的支持依据使我们能够可续合理的做好各项优化工作而不是凭借感性的认知而不知所措。
  


  首先从互联网端爬虫对网页进行抓取,但互联网信息繁杂重复,此时网页去重模块会处理网页然后放入数据库为倒排序准备资源。 其次从用户端获取用户输入的信息进行分词处理后到Cashe系统查询,此时如果能够找到用户所需要的信息即可返回,如果不能找到相关信息则调用倒排序功能模块找到合适的内容后返回。 其中在当爬虫所抓取网页后要进行反作弊过滤,这也是为用户提供更准确的内容而必须做出的处理。www.ppqcyp.com
  接下来我们从网络爬虫功能模块入手逐一的详细剖析每一个功能模块,相信会对各位搜素引擎优化爱好者以及从业者在以后的优化道路中添砖添瓦。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-27 22:51 , Processed in 0.234000 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表