苏苏网赚论坛

 找回密码
 立即注册
查看: 6245|回复: 0

浅析各大搜索引擎中文分词算法心得

[复制链接]
跳转到指定楼层
楼主
发表于 2019-3-29 22:32:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
对于小戴之前分词算法以前偶尔也懂些,但是懂的不透彻,最近看了很多相关的书,然后去互联网上又学

习了一部分,算是有了个大概的了解。其实了解分词算法无论对于个人站长一些中小型企业,都十分有帮

助。通过这些词的拆分,能让我们对关键词的把握更加的精准。好了,下边开始今天的正文,如果有不对

的的地方,还希望大家多指正。

  通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一

个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算

法的存在。百度会根据用户搜索的关键词去进行拆分,而Google更多地是把结果直接返回。

  不论对于英文还是中文,搜索引擎索引页面都是以词为基础的,由于中文的博大精深,和英文单词之

间往往相差很多。有时同一句话,标点符号的位置不同,音调不同,语义就完全的不同,而英文则不存在

这样的问题,英文更多的是把单词进行拆分。下边给大家介绍我对中文分词算法的一些理解。

  一般中文分词分为基于词典和统计两种匹配,通常两种方法并不是单一存在着,而是在混合使用。

  首先是基于词典的匹配方法,根据用户搜索的词语,搜索引擎会把这些词语与自己词典中的词条进行

匹配,如果匹配成功,就切分出一个单词。同时根据方向的不同,分为正向和逆向两种匹配。在正向匹配

中,按照词语长度的不同又细分为最大匹配和最小匹配。这种基于词典的匹配很大程度上取决于词典的完

整性以及更新情况。

  基于此,作为站长,我们无论选择首页的目标关键词还是内容页的长尾关键词,都应该根据这个原理

,不要人为的造词,如果你的词语不是大众经常搜索的,也不是人们默认的词,那么在搜索时就不会被返

回,所以在选择关键词的时候,不能想当然,要有准确的判断。

  其次是基于统计的分词方法,搜索引擎会进行大量的计算,包括字与字相邻的概率,某个短语出现在

什么地方最多,用户搜索某个短语或者词的时候回寻找什么样的内容,这些都是搜索引擎基于判断的依据

。这种方法有明显的优点,就是对新出现的词有更快的反应,比如当一个新闻出现的时候,如果大家都搜

索这个新词语,而百度判断不出来,不能给予正确的搜索结果,那么用户就不会买搜索引擎的账。

  基于此,我们应该联想到SEO中很重要的一点,那就是相关性。比如A5这样一个词,我们都知道是代表

Admin5站长网,但是刚开始可能搜索引擎并不知道,如果大家搜索的多了,在不同的地方被提及的多了,

那么搜索引擎就会判断出A5这个词应该和站长有着某种联系。因此,我们做优化网站的时候也要注意相关

性,和相关性的网站做友情链接,或者是发布相关性的内容,都能提升网站在该领域的权威性,当用户搜

索的时候,就能够更靠前、有更多的机会被搜索引擎展现。

  好了,本文就到这里吧,中文分词算法是搜索引擎的一个特色地方,他针对的是自己的词库和更新率

。除了上边提到的页面相关性以及关键词选择要遵循大众搜索习惯之外,还应该注意对词的特殊对待,比

如加粗,加黑或者使用H标签。希望站长通过此篇文章对中文分词算法有个更加深入的了解,如果有不对的

地方,也欢迎指正
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-5-4 08:35 , Processed in 0.592801 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表