先写个结论,sphinx本身是可以支持中文搜索的,只是不支持中文分词,需要安装中文分词插件,coreseek就是一个打包了mmseg中文分词插件和sphinx源码的安装包。
  
  概念讲解
  
  Sphinx全文搜索引擎
  
  一般用作大数据量的搜索支持
  
  Sphinx特性
  
  1:Sphinx支持高速建立索引(可达10MB/秒,而Lucene建立索引的速度是1.8MB/秒)
1.安装libiconv,这个是libdatrie的依赖项

wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.14.tar.gz  
tar zxvf libiconv-1.14.tar.gz  
cd libiconv-1.14  
./configure  
make  
make install  
转自:http://flyer0126.iteye.com/blog/1931212

早就想研究下敏感词过滤问题,今天有些时间,正好实践一下。
      1. 安装:libdatrie (http://linux.thai.net/~thep/datrie/datrie.html#Download)
关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。

安装步骤

下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。
Tags: , ,

squid 身份认证 不指定

jed , 2016-8-23 14:54 , 服务器技术 , 评论(0) , 阅读(29830) , Via 本站原创
以下是实现用户身份认证的语句
auth_param basic program /usr/lib/squid/ncsa_auth /etc/squid/passwd
选项定义了认证方式为basic,认证程序的路径和认证程度需要读取的帐户文件

auth_param basic children 5
此选项定义了认证程序的进程为5
GFW 封锁了 HTTP/Socks5 代理,HTTP 代理是关键词过滤,Socks5 代理则是封锁协议。不过某些特殊的低端口并没有这么处理,已知的有 21,25。

20端口已经被封杀,21端口目前会被限速400Kbps,换算后约合50KB/S,建议使用25端口,不限速。
本Discuz uc.key泄露导致代码注入漏洞适用所有用UC整合和程序,修复此漏洞所在的目录请在阿里云报告的位置进行查找,因为每个程序放置uc.php的目录不一定都是一样的。



漏洞名称:Discuz uc.key泄露导致代码注入漏洞

补丁文件:/api/uc.php

补丁来源:云盾自研

漏洞描述:在Discuz中,uc_key是UC客户端与服务端通信的通信密钥,discuz中的/api/uc.php存在代码写入漏洞,导致黑客可写入恶意代码获取uckey,最终进入网站后台,造成数据泄漏。您也可以登录官方网站更新到最新版本解决
Tags:
要提取google搜索的部分数据,发现google对于软件抓取它的数据屏蔽的厉害,以前伪造下 USER-AGENT 就可以抓数据,但是现在却不行了。利用抓包数据发现,Google 判断了 cookies,当你没有cookies的时候,直接返回 302 跳转,而且是连续几十个302跳转,根本抓不了数据。
因此,在发送搜索命令时,需要先提取 cookies 并保存,然后利用保存下来的这个cookies再次发送搜索命令即可正常抓数据了。这其实和论坛的模拟登录一个道理,先POST登录,获取cookies并保存,然后利用这个cookies访问就可以了。
Tags: ,
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~
当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析。

Python Requests快速入门 不指定

jed , 2016-5-18 16:11 , 服务器技术 , 评论(0) , 阅读(23930) , Via 本站原创
快速上手
迫不及待了吗?本页内容为如何入门Requests提供了很好的指引。其假设你已经安装了Requests。如果还没有, 去 安装 一节看看吧。
首先,确认一下:
Requests 已安装
Requests是 最新的
让我们从一些简单的示例开始吧。
发送请求
使用Requests发送网络请求非常简单。
一开始要导入Requests模块:
Tags: ,
分页: 3/70 第一页 上页 1 2 3 4 5 6 7 8 9 10 下页 最后页 [ 显示模式: 摘要 | 列表 ]