标题:百度搜索引擎分词的秘密 出处:沧海一粟 时间:Thu, 12 Oct 2006 08:33:29 +0000 作者:jed 地址:http://www.dzhope.com/post/116/ 内容: 分词技术是搜索引擎里比较重要的一项技术,分词的准确与否,将会成为一个搜索引擎搜索结果是否准确的一个重要因素。 如:以"始终贯穿着一条线"为例 在百度中分为:始终 贯穿 着一 条线 一条线 这里比较难理解百度的意图,但百度可能是对冷门词偏向于最大切分法,即是把可能的词全取出来,然后再进行搜索 在google中:始终 贯穿 一条线 显然google是标准的句法分析 从这方面看,可以认为百度有点洒流氓的味道,但在句子中含有较多热门词的时候,百度偏重于对热门词的检索,这往往会造成如果搜索一个热门词配一个冷门词的时候,百度里结果通常没有google的结果好,这可能是一个重要原因。 Generated by Bo-blog 2.1.1 Release