搜索引擎在单位时间内处理1000万亿级页面数据量,所以搜索引擎有一个中国词库。如百度现在大约90000中国的话,那么,一个搜索引擎能逃到页面级别的分析,根据中国词库进行分类。
百度分词基本有三个点的方法
1,基于理解:傻瓜式匹配,小于或等于三个汉字百度不是削减这个词,比如搜索“DaXueTang”。
2,基于统计:百度将话的原因:通常是一个关键字,你搜索“学习”这个词,百度认为它“学习”也是一个关键字,所以出现“学习”这个词,这是百度形态学:基于统计分词。
3,基于字符串匹配(百度部分形态:积极的最大剪切词汇)
最大和最小(最大匹配:已经匹配MeiCi可以匹配;最小匹配:匹配这个词匹配,再从另一个停止词开始匹配)百度的一个分词算法,我们把它当成一个黑盒,我们通过一些输入关键词,根据输出结果百度百度决定分词算法。
搜索引擎在单位时间内处理1000万亿级页面数据量,所以搜索引擎有一个中国词库。如百度现在大约90000中国的话,那么,一个搜索引擎能逃到页面级别的分析,根据中国词库进行分类。
最大和最小(最大匹配:已经匹配MeiCi可以匹配;最小匹配:匹配这个词匹配,再从另一个停止词开始匹配)百度的一个分词算法,我们把它当成一个黑盒,我们通过一些输入关键词,根据输出结果百度百度决定分词算法。 |