苏苏网赚论坛

 找回密码
 立即注册
查看: 3926|回复: 0

百度分词技术原理怎么样?

[复制链接]
跳转到指定楼层
楼主
发表于 2019-1-5 12:29:03 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
我们都知道百度分词技术非常的强大,那么其中是怎样的原理呢?下面就和大家分享下。
1、百度分词是根据内容中,第一次出现关键词相关词为标准来分的。现举个最为流行的热门关键词例如“我卖网购物“这个词 如果你的正文中第一个出现的是“我卖网”这个词,那么你的页面上的关键词就会被拆分成”我卖网”和“购物“两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。
2、在关键词没有完全匹配的情况下,如果有分词,比如说:“我卖网购物“这个关键词,有一个网页里第一次出现的关键词是我卖网,并且有较高的关键词密度,但是这个网页中却没有”购物“这个关键词而另一个网页里第一次出现的关键词是购物,那么这个网页的关键词就会被拆分成 我卖网 购物 两个词,虽然第二个网页里包含有“淘宝网” “购物” 但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。
3、关键词第一部分出现的频率是排名的关键,比如说 ”我卖网购物“,如果两个网页都没有完全匹配,都是含有两个分词,那么“我卖网”这个分词密度高的网页将会排在前面。
4、如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低。所以关键词尽早在内容中出现是非常重要的。
5、百度根据第一次出现的相关关键词切词,如果第一次出现的相关关键词是关键词的尾部,那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:”今日新开**sf“ 这个关键词,如果你的网页中第一次出现的关键词是”**sf“,那么你这个页面的关键词会被拆分成”**sf”和“今日新开”两个词
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-26 12:46 , Processed in 0.124800 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表