苏苏网赚论坛

 找回密码
 立即注册
查看: 9401|回复: 0

搜索引擎是如何抓取页面的

[复制链接]
跳转到指定楼层
楼主
发表于 2018-11-8 17:35:49 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
无论搜索引擎数据库怎样扩张,都是无法跟上网页的增长速度,搜索引擎会优先抓取最重要的网页,一方面节省数据库,一方面对普通的用户也是有协助的,由于,对用户来说,他们并不需求海量的结果,只需求最重要的结果。所以说一个好的搜集方法是优先搜集重要的网页,以便可以在最短的时间内把最重要的网页抓取过去。那么搜索引擎如何首先抓取最重要的网页?
经过对海量的网页特征剖析,搜索引擎以为重要的网页有如下的根本特征,虽然不一定完全精确,但是大少数时分的确是这样的:
1)网页被其他的网页链接的特点,假如被链接的次数多或许被重要的网页所链接,则是很重要的网页;
2)某网页的父网页被链接的次数多或许被重要的网页所链接,比方一个网页是一个网站的内页,但是其首页被链接的次数多,而首页也链接了这个网页,则阐明这个网页也比拟重要;
3)网页的内容被转载次数多。
4)网页的目录深度小,易于用户阅读到。这里定义“URL目录深度”为:网页URL中除去域名局部的目录层次,则目录深度为0;假如是,则目录深度为1,一次类推。需要阐明的是,URL目录深度小的网页并非总是重要的,目录深度大的网页也并非全不重要,有些学术**的网页URL就有很长的目录深度。少数重要度高的网页会同时具有上述4个特征。
5)优先搜集网站首页,并赋予首页高的权重值。网站数目远小于网页数,并且重要的网页也必定是从这些网站首页链接过来的,因而搜集任务该当优先取得尽能够多的网站首页。
文章由www.3adyw.cn整理发布。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-27 17:49 , Processed in 0.140400 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表