搜索引擎的工作原理

nishiwodebao · 发表于 2019-4-16 00:01:14

索引值就像书的目录，当你要找某一个固定内容时，会先根据相关的字来查索引，查到索引之后就可以进入具体的内容了。但与书本不同的是，网络上的数据量不但十分巨大，而且每天都在变化，同一个页面呈现的数据每天都会变。因此索引的动作必须保证数据更新后还能被找到，因此搜索引擎的商家也是必须每天进行刷新的操作。我们由此得知，搜索引擎基本上要做的就是收集数据和进行更新，当然有关搜索结果的排序，则是要靠算法来决定的。

1.数据的收集
任何搜索引擎都必须将全世界所有网页的数据收入数据库中。对，没错，就和你想的一
样。它们都必须用一个软件，将全世界的IP从0.0.0.0开始一直收集到255.255.255.255结束，每一个IP下的每一个网页都要找到。当然上面所说的IP，很多是不可以用的，因此在收集时，搜索引擎也会智能地判断每一个IP下的网页是否要收集、这个网页是否有变动，甚至这个网页是否要整个压入数据库而并非只是索引而已，这个动作通常称之为Crawling。

一般来说，搜索引擎厂家使用网络蜘蛛（Spiderl），来执行这个任务，因此Spider的能力，决定了网络数据收集的完整性及精确度。这也是为什么全世界的搜索引擎只有那么几个商家的原因，Spider的任务是整个索引数据库创建的根本。

2.数据的整理
虽然Spider会将数据整理过再压入数据库，但还是要将数据加上一些整理，数据才会变成有用信息。一般来说，网页原始数据(Raw Data)在进入数据库之前，系统会做很完整的分类、过滤、加批注、查看、联系、关键词采取等动作，因此这些数据进入数据库之后，即成为索引的前身。

3.算法的加入
在没有搜索之前，这些数据不是静静地躺在数据库中的。Google最有名的算法PageRank在搜索之前就开始进入这些数据了。Google会将PR值放入每个页面，并且开始进行评估。当用户输入关键词时，就会真正以PR值及各种各样复杂的算法来将联系到的页面呈现给寻找者，当然呈现的顺序就是SEO的热点了。

		自动登录	找回密码
密码			立即注册