搜索引擎是如何抓取页面的

woshiwuhao · 发表于 2018-11-8 17:35:49

无论搜索引擎数据库怎样扩张，都是无法跟上网页的增长速度，搜索引擎会优先抓取最重要的网页，一方面节省数据库，一方面对普通的用户也是有协助的，由于，对用户来说，他们并不需求海量的结果，只需求最重要的结果。所以说一个好的搜集方法是优先搜集重要的网页，以便可以在最短的时间内把最重要的网页抓取过去。那么搜索引擎如何首先抓取最重要的网页?
经过对海量的网页特征剖析，搜索引擎以为重要的网页有如下的根本特征，虽然不一定完全精确，但是大少数时分的确是这样的：
1)网页被其他的网页链接的特点，假如被链接的次数多或许被重要的网页所链接，则是很重要的网页;
2)某网页的父网页被链接的次数多或许被重要的网页所链接，比方一个网页是一个网站的内页，但是其首页被链接的次数多，而首页也链接了这个网页，则阐明这个网页也比拟重要;
3)网页的内容被转载次数多。
4)网页的目录深度小，易于用户阅读到。这里定义“URL目录深度”为：网页URL中除去域名局部的目录层次，则目录深度为0;假如是，则目录深度为1，一次类推。需要阐明的是，URL目录深度小的网页并非总是重要的，目录深度大的网页也并非全不重要，有些学术**的网页URL就有很长的目录深度。少数重要度高的网页会同时具有上述4个特征。
5)优先搜集网站首页，并赋予首页高的权重值。网站数目远小于网页数，并且重要的网页也必定是从这些网站首页链接过来的，因而搜集任务该当优先取得尽能够多的网站首页。
文章由www.3adyw.cn整理发布。

		自动登录	找回密码
密码			立即注册