百度搜索引擎分词的秘密 晴

jed , 2006-10-12 08:33 , 搜索优化 , 评论(0) , 阅读(6109) , Via 本站原创 | |
分词技术是搜索引擎里比较重要的一项技术,分词的准确与否,将会成为一个搜索引擎搜索结果是否准确的一个重要因素。

如:以"始终贯穿着一条线"为例

在百度中分为:始终 贯穿 着一 条线 一条线

这里比较难理解百度的意图,但百度可能是对冷门词偏向于最大切分法,即是把可能的词全取出来,然后再进行搜索

在google中:始终 贯穿 一条线

显然google是标准的句法分析

从这方面看,可以认为百度有点洒流氓的味道,但在句子中含有较多热门词的时候,百度偏重于对热门词的检索,这往往会造成如果搜索一个热门词配一个冷门词的时候,百度里结果通常没有google的结果好,这可能是一个重要原因。
Tags:
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]