苏苏网赚论坛

 找回密码
 立即注册
查看: 6562|回复: 0

搜索引擎的HITS算法原理分析

[复制链接]
跳转到指定楼层
楼主
发表于 2019-1-6 16:09:15 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
剖析链接是常见的SEO搜索引擎说明上网页结构的一种体例,一般是搜索引擎按摄影关的链接分析算法,然后对与网页相关的外链和内链进行具体的数据清算和分析,而且凭证这些链接的特点,再对网页进行一个评分和排序,当就用户搜索某个关头词的时辰,搜索引擎就会对与该环节词相关主题的网页中的这些链接进行一个合理分析,然后排序,最后就获得了排名的机关,在本文中,网站优化要跟巨匠谈判的主题是HITS,而HITS算法是链接分析算法中斗劲有代表性的一种。HITS算法在采用中,一般都是操作HUB页(网页中良多链接,并且都是指向权威的页面,一般都是导航或者目录网页)和就是被年夜量链接指向的网页,也就是权威型的网页)页面之间指向链接的互相增强关系来对网页给以分值计较,也就是说该算法的实施过程中是将搜索引擎从互联网上抓去到全数网页分为HUB页面和面,在搜索引擎看来,好的Hub网页应该是指向许多的权威型的网页,而权威值高的网页应该是拥有很多指向Hub网页的链接,所以我们由此而得出了HITS算法的焦点思惟: 首先,我们知道HITS算法是基于主题查询的搜索引擎算法,所以当用户向搜索引擎提交主题查询时,搜索引擎根据用户的检索词进行枢纽词匹配查询,同时返回若干项与主题高度相关的网页集结S,在这些相关性的网页纠合中,网页之间会有大量和网页相关的链接,所以此时搜索引擎算法HITS算法就根据网页上链接的特点将网页荟萃S进行拓展,即将鸠合网页上的链接,网页引用的链接,和被其他页面的引用的链接都插手到该集合中,形成一个新的集合T,同时我们对集合T的要求是:
1、T中都是和集合中网页相关的页面
2、T中的集合页面都要于主题高度相关
3、T中要包含大量的HUB页面和面
在体味了HITS算法的核心思想之后,我们需要熟悉的就是若何根据该算法所给出的思想进行较量争论网页集合中的网页的权重来对搜索功效进行排序,那么下面笔者经由过程个网站的操作体式格局对HITS算法进行进一步的剖解:我们可以将拓展出来的网页集合T看做一个集合矩阵,同时将中的所有HUB网页看做为极点集
,将集合中包含的所有权威型的网页看做是顶点集B,其中
中的网页到B中的网页的超链接为边集E,形成一个二分有向图SG=(
,B,E)。对HUB集合
中的任一个顶点a,用h(a)暗示网页a的Hub值,对B中的顶点b,用a(b)默示网页的。起头时h(a)=a(b)=1,对b执行I操作改削它的a(b),对a执行O操作修改它的h(a),然后规范化a(b),h(a),如斯不竭的一再计算下面的操作I,O,直到a(b),h(a)收敛。(证实此算法收敛可见)
分析:从以上算法思想中我们可以切磋出很多问题,
1、好比若是用户向搜索引擎提交查询主题之后,搜索引擎要想为用户供给精准的搜索成就时就必需对搜索成效进行拓展,而从简单的搜索后果进行丰硕拓展时需要大量的时刻去分析,延迟了用户请求的响应时间,所以对搜索引擎来说不能在最短的时间内为用户供给搜索下场就证明该算法是失踪败的、不科学的。
2、一个网页中包含了很多链接,比如导航链接、广告链接、以及轨范自动生成的链接,而这些链接的存在势必会对搜索效果发生影响,在HITS算法中将搜索结果中呈现的网页链接都进行了分析,所以在搜索结果中可能会泛起这些无效链接引用的网页。
3、HITS算法对网页集合的拓展也会导致新的问题出现,因为是对搜索结果进行再次生成,所以在对集合进行扩展的时候不成避免的要增添很多页面,有时这些页面是和搜索结果中网页有着些许的关系,只不外是被集合中的网页引用了,所以一旦搜索结果中存在大量的这样网页的话,那么通过HITS算法的来的结果就会使得我们基于主题的查询变宽泛了,也就是说我们可能得不到切确的搜索结果了。
4、HITS算法是基于主题查询的,也就是说返回的结果是根据要害词完全匹配的,注重的是与主题高度相关的主社区,而对于那些有着不太相关的链接是很少能够顾及到的,所以很轻易在搜索结果中导致主题漂移问题,然而这个问题该算法且则也无法解决,这点事最大的不足。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-5-6 13:47 , Processed in 0.124800 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表