在这里让我们一起学习,一起提高!

PHP实现敏感词过滤系统 不指定

jed , 2016-11-6 22:44 , 服务器技术 , 评论(0) , 阅读(5143) , Via 本站原创
安装说明

安装PHP扩展 trie_filter,安装教程 http://blog.41ms.com/post/39.html
安装PHP扩展 swoole,安装教程 http://www.swoole.com/
安装 libdatrie , 需要 libdatrie-0.2.4 或更新的版本

它依赖 libiconv .
安装:
================================

wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.14.tar.gz
tar -zxf libiconv-1.14.tar.gz
cd libiconv-1.14
./configure
make && make install

libdatrie 下载地址:
http://linux.thai.net/~thep/datrie/datrie.html#Download

安装:
================================

wget ftp://linux.thai.net/pub/ThaiLinux/software/libthai/libdatrie-0.2.4.tar.gz
tar -zxf libdatrie-0.2.4.tar.gz
cd libdatrie-0.2.4

./configure --prefix=/usr/local/libdatrie/
make ICONV_LIBS='/usr/local/lib/libiconv.so'
make install

安装 PHP 扩展
================================

wget https://github.com/wulijun/php-ext-trie-filter/archive/master.zip
unzip master.zip
cd php-ext-trie-filter-master/
/usr/local/php/bin/phpize
./configure --with-php-config=/usr/local/php/bin/php-config --with-trie_filter=/usr/local/libdatrie/
make && make install

将生成的 trie_filter.so 文件复制到 php 扩展目录,并在 php.ini 中添加该文件


https://github.com/wulijun/php-ext-trie-filter
  先写个结论,sphinx本身是可以支持中文搜索的,只是不支持中文分词,需要安装中文分词插件,coreseek就是一个打包了mmseg中文分词插件和sphinx源码的安装包。
  
  概念讲解
  
  Sphinx全文搜索引擎
  
  一般用作大数据量的搜索支持
  
  Sphinx特性
  
  1:Sphinx支持高速建立索引(可达10MB/秒,而Lucene建立索引的速度是1.8MB/秒)
1.安装libiconv,这个是libdatrie的依赖项

wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.14.tar.gz  
tar zxvf libiconv-1.14.tar.gz  
cd libiconv-1.14  
./configure  
make  
make install  
转自:http://flyer0126.iteye.com/blog/1931212

早就想研究下敏感词过滤问题,今天有些时间,正好实践一下。
      1. 安装:libdatrie (http://linux.thai.net/~thep/datrie/datrie.html#Download)
关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。

安装步骤

下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。
Tags: , ,

squid 身份认证 不指定

jed , 2016-8-23 14:54 , 服务器技术 , 评论(0) , 阅读(12158) , Via 本站原创
以下是实现用户身份认证的语句
auth_param basic program /usr/lib/squid/ncsa_auth /etc/squid/passwd
选项定义了认证方式为basic,认证程序的路径和认证程度需要读取的帐户文件

auth_param basic children 5
此选项定义了认证程序的进程为5
GFW 封锁了 HTTP/Socks5 代理,HTTP 代理是关键词过滤,Socks5 代理则是封锁协议。不过某些特殊的低端口并没有这么处理,已知的有 21,25。

20端口已经被封杀,21端口目前会被限速400Kbps,换算后约合50KB/S,建议使用25端口,不限速。
本Discuz uc.key泄露导致代码注入漏洞适用所有用UC整合和程序,修复此漏洞所在的目录请在阿里云报告的位置进行查找,因为每个程序放置uc.php的目录不一定都是一样的。



漏洞名称:Discuz uc.key泄露导致代码注入漏洞

补丁文件:/api/uc.php

补丁来源:云盾自研

漏洞描述:在Discuz中,uc_key是UC客户端与服务端通信的通信密钥,discuz中的/api/uc.php存在代码写入漏洞,导致黑客可写入恶意代码获取uckey,最终进入网站后台,造成数据泄漏。您也可以登录官方网站更新到最新版本解决
Tags:
要提取google搜索的部分数据,发现google对于软件抓取它的数据屏蔽的厉害,以前伪造下 USER-AGENT 就可以抓数据,但是现在却不行了。利用抓包数据发现,Google 判断了 cookies,当你没有cookies的时候,直接返回 302 跳转,而且是连续几十个302跳转,根本抓不了数据。
因此,在发送搜索命令时,需要先提取 cookies 并保存,然后利用保存下来的这个cookies再次发送搜索命令即可正常抓数据了。这其实和论坛的模拟登录一个道理,先POST登录,获取cookies并保存,然后利用这个cookies访问就可以了。
Tags: ,
分页: 1/82 第一页 1 2 3 4 5 6 7 8 9 10 下页 最后页 [ 显示模式: 摘要 | 列表 ]