苏苏网赚论坛

 找回密码
 立即注册
查看: 1992|回复: 0

蜘蛛爬行的两种方法

[复制链接]
跳转到指定楼层
楼主
发表于 2019-3-23 13:48:38 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
广度爬行:如果把整个网站看做一棵树,首页就是根,每个页面就是叶子。广度爬行是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直接抓完同层次的所有页面后才进入下一层。因此,在对网站进行优化时,我们应该把网站相对重要的信息展示在层次比较浅的页面上(例如:在首页推荐一些热门的内容)。反过来,通过广度爬行的抓取方式,搜索引擎就可以首先抓取到网站中相对重要的页面。   
首先,“蜘蛛”从网站的首页出发,抓取首页上所有连接指向的页面,形成页面集合A,并分析出A中所有页面中的链接:在跟踪这些链接抓取下一层的页面,形成页面集合B:就这样递归地从浅层页面中解析出链接,再从深层页面,直至满足某个设定的条件才停止抓取的进程。     
深度爬行:与广度爬行的抓取方式相反,深度爬行首先跟踪浅层页面中的某一连接后逐步抓取深层页面,直至抓完最深层的页面才返回浅层页面再跟踪其另一链接,继续 向深层页面抓取,这是一种纵向的页面抓取方式。使用深度优先的抓取方式,搜索引擎可以抓取到网站中较为隐蔽、冷门的页面,这样就能满足更多用户的需求。   
首先,搜索引擎会抓取网站的首页,并提取首页中的链接:再沿着其中的一个连接抓取到页面 A-1,同时获取A-1中的链接并抓取页面B-1,获取B-1中的来链接并抓取页面C-1 ,如此不断的重复,满足到某个条件后,再从A-2抓取页面及链接! ​
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-5-5 22:26 , Processed in 0.202800 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表