做seo优化我们不得不懂的搜索引擎原理

88328832 · 发表于 2018-11-8 17:32:30

第一、搜索引擎爬行抓取

　　1）网与网认为爬行抓取是搜索引擎工作最重要的一部分，爬取网页回来分析，我们也应该知道我们在百度进行搜索时，基本是以秒来获得结果的，在如此讯速的时间里得到自己想要的结果，可见搜索引擎是事先做好这部分工作的，如果不然，那么想想每次搜索将要花多少时间与精力，其实按照网与网的理解来说，可以分为三小部分：

　　1、批量抓取所有网页，这种技术的缺点是浪费带宽，时效性不高。

　　2、增量收集，在前者的基础上进行技术改进，爬取更新的网页，并删除掉重复的内容以及无效的链接。

　　3、主动提交地址到搜索引擎，当然这种主动提交的方式被认为是审核期加长，这在部分seo资深人员看来是这样。

　　2）在链接爬取的过程中通常有两种方式我们需要理解，现在我们来了解一下深度优先以及广度优先

　　1、深度优先

　　蜘蛛从**A开始抓取，比如先从A FG，再从AEHI，依次类推。

保存到相册

2、广度优先

　　主要指蜘蛛在一个页发现多个链接，先爬取所有第一层，然后接着是第二层，第三层……依次类推。

保存到相册

　　但总的来说，无论是哪种爬行，目的都是让搜索引擎蜘蛛减少工作量，尽快完成抓取工作。

　　3）针对重复网页，我们需要访问列，同时也需要收集重要网页的机制

　　1、对于搜索引擎而言，如果重复爬取一些网页，不公浪费带宽，而且也不能增强时效性。所以搜索引擎需要一种技术来实现避免重复网页的出现。目前，搜索引擎可以用已访问列表以及未访问表来记录这个过程，这样极大的减少了搜索引擎的工作量。

　　2、重要的网页需要重点收录，因为互联网就像大海，不可能搜索引擎什么都抓取，所以需要采用不同的策略来收集一些重要的网页，主要可以通过几方面来实现，比如：目录越小有利于用户体验，节省蜘蛛爬行时间；高质量外链增加网页权重；信息更新及时，提高搜索引擎的光顾率；网站内容高质量，高原创。

　　第二、预处理是搜索引擎原理的第二步

　　1、把网页爬取回来，就需要多个处理阶段，其中之一就是关键词提取，把代码爬取下来，去掉比如CSS，DIV等标签，把这些对排名无意义的统统去除掉，剩下的是用于关键词排名的文字。

　　2、去除停用词，有些专家也称之为停止词，比如我们常见的：的、地、得、啊、呀、哎等无意义词。

　　3、中文分词技术，基于字符串匹配的分词方法以及统计分词方法。

　　4、消除噪声，把网站上的广告图片、登录框之类的信息去队掉。

　　5、分析网页，建立倒排文件方法本文由：纸杯http://www.hycups.com 负责整理，转载请注明，谢谢

		自动登录	找回密码
密码			立即注册

做seo优化我们不得不懂的搜索引擎原理

浏览过的版块