<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
<title><![CDATA[沧海一粟]]></title> 
<link>http://www.dzhope.com/index.php</link> 
<description><![CDATA[Web系统架构与服务器运维,php开发]]></description> 
<language>zh-cn</language> 
<copyright><![CDATA[沧海一粟]]></copyright>
<item>
<link>http://www.dzhope.com/post//</link>
<title><![CDATA[Linux下使用grep命令分析web网站日志]]></title> 
<author>jed &lt;jed521@163.com&gt;</author>
<category><![CDATA[服务器技术]]></category>
<pubDate>Sat, 04 Jun 2011 03:48:43 +0000</pubDate> 
<guid>http://www.dzhope.com/post//</guid> 
<description>
<![CDATA[ 
	grep是一个很强大的命令。这里我们主要来讲使用grep命令来分析网站日志的方法和技巧。<br/><br/>1、合并网站日志<br/><br/>首先使用ls查看下待合并的日志,可以利用cat命令合并网站日志<br/><div class="code"><br/>cat *.log &gt;example.log<br/></div><br/>&nbsp;&nbsp;#合并后缀名为log的日志文件，你也可以合并指定的日志<br/>2.拆分我们想要的日志文件<br/>比如拆分百度蜘蛛的日志文件<br/><div class="code"><br/>grep “Baiduspider+” example.log &gt;baiduspider.txt<br/></div><br/>比如拆分404错误日志<br/><div class="code"><br/>grep “404″ example.log &gt;404.txt<br/></div><br/>还可以同时拆分百度和谷歌的蜘蛛。<br/>这里我们使用的是egrep来实现这一功能。<br/><div class="code"><br/>egrep “Baiduspider+&#124;Googlebot” example.log &gt;spider.txt<br/></div><br/>3、我们还可以结合awk命令来格式话我们的日志文件<br/>awk倾向于分析一行中的字段，我们需要来看一下网站的日志格式<br/><a href="http://www.dzhope.com/attachment.php?fid=65" target="_blank"><img src="http://www.dzhope.com/attachment.php?fid=65" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>我们截取百度蜘蛛访问的来源IP、时间、抓取的URL、返回码和抓取的大小。<br/><div class="code"><br/>grep “Baiduspider+” example.log &#124;awk ‘&#123;print $1 “&#92;t” $4 “&#92;t” $7 “&#92;t” $8 “&#92;t” $9 “&#92;t” $10&#125;’ &gt;Baiduspider.txt<br/></div><br/>还可以获取独立IP，并对ip访问次数进行统计。<br/><div class="code"><br/>awk ‘&#123;print $1&#125;’ access.log&#124;sort&#124;uniq -c &gt;ip.txt<br/></div><br/><br/>Tags - <a href="http://www.dzhope.com/tags/linux%25E5%2591%25BD%25E4%25BB%25A4/" rel="tag">linux命令</a> , <a href="http://www.dzhope.com/tags/grep/" rel="tag">grep</a>
]]>
</description>
</item><item>
<link>http://www.dzhope.com/post//#blogcomment</link>
<title><![CDATA[[评论] Linux下使用grep命令分析web网站日志]]></title> 
<author> &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Thu, 01 Jan 1970 00:00:00 +0000</pubDate> 
<guid>http://www.dzhope.com/post//#blogcomment</guid> 
<description>
<![CDATA[ 
	
]]>
</description>
</item>
</channel>
</rss>