苏苏网赚论坛

 找回密码
 立即注册
查看: 6928|回复: 0

百度中文分词秘籍

[复制链接]
跳转到指定楼层
楼主
发表于 2018-11-29 13:17:12 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
搜索引擎在单位时间内处理1000万亿级页面数据量,所以搜索引擎有一个中国词库。如百度现在大约90000中国的话,那么,一个搜索引擎能逃到页面级别的分析,根据中国词库进行分类。



百度分词基本有三个点的方法



1,基于理解:傻瓜式匹配,小于或等于三个汉字百度不是削减这个词,比如搜索“DaXueTang”。



2,基于统计:百度将话的原因:通常是一个关键字,你搜索“学习”这个词,百度认为它“学习”也是一个关键字,所以出现“学习”这个词,这是百度形态学:基于统计分词。



3,基于字符串匹配(百度部分形态:积极的最大剪切词汇)



最大和最小(最大匹配:已经匹配MeiCi可以匹配;最小匹配:匹配这个词匹配,再从另一个停止词开始匹配)百度的一个分词算法,我们把它当成一个黑盒,我们通过一些输入关键词,根据输出结果百度百度决定分词算法。



搜索引擎在单位时间内处理1000万亿级页面数据量,所以搜索引擎有一个中国词库。如百度现在大约90000中国的话,那么,一个搜索引擎能逃到页面级别的分析,根据中国词库进行分类。
最大和最小(最大匹配:已经匹配MeiCi可以匹配;最小匹配:匹配这个词匹配,再从另一个停止词开始匹配)百度的一个分词算法,我们把它当成一个黑盒,我们通过一些输入关键词,根据输出结果百度百度决定分词算法。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-29 19:55 , Processed in 0.421201 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表