标题:使用php扩展trie_filter,利用词库,过滤敏感词 出处:沧海一粟 时间:Sat, 22 Oct 2016 20:10:57 +0000 作者:jed 地址:http://www.dzhope.com/post/1023/ 内容: 关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。 安装步骤 下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。 安装libdatrie依赖库 $ tar zxvf libdatrie-0.2.4.tar.gz $ cd libdatrie-0.2.4 $ make clean $ ./configure --prefix=$LIB_PATH $ make $ make install 安装trie_filter扩展 (https://github.com/wulijun/php-ext-trie-filter) $ $INSTALL_PHP_PATH/bin/phpize $ ./configure --with-php-config=$INSTALL_PHP_PATH/bin/php-config --with-trie_filter=$LIB_PATH $ make $ make install 然后修改php.ini,增加一行:extension=trie_filter.so,然后重启PHP。 PHP测试实例 $v) { trie_filter_store($resTrie, $v); } trie_filter_save($resTrie, __DIR__ . '/blackword.tree'); $resTrie = trie_filter_load(__DIR__ . '/blackword.tree'); $str = '王玉鹏的媳妇叫刘敏,王玉鹏的邮箱地址是wangyupeng@jiayuan.com,想不想知道他的QQ号呢?'; $arrRet = trie_filter_search_all($resTrie, $str); print_all($str, $arrRet); function print_all($str, $res) {//print_r($res); echo "$str\n"; foreach ($res as $k => $v) { echo $k."=>{$v[0]}-{$v[1]}-".substr($str, $v[0], $v[1])."\n"; } } 测试效果,输出格式(顺序值=>该敏感词出现的位置-该敏感词的长度-敏感词) 执行效率,高高高,超级高,速度非常快。 点击在新窗口中浏览此图片 http://www.dzhope.com/attachment.php?fid=77 注意事项 dict.txt 为敏感词库,一个词一行 点击在新窗口中浏览此图片 http://www.dzhope.com/attachment.php?fid=78 优化建议 把文本词库生成tree的过程需要时间,该步骤可以异步实现,过滤过程只需要加载tree即刻。 PHP需要5.2以上版本 相关下载: http://linux.thai.net/pub/thailinux/software/libthai/ https://github.com/wulijun/php-ext-trie-filter 【本文转自松鼠先生---http://blog.41ms.com/post/39.html】 Generated by Bo-blog 2.1.1 Release