关键字:Web日志IIS日志分析打开
您不必耐心阅读所有内容:简短的安装说明如下
安装
====
下载安装软件包后:
gnu/linux:tar zxf -.tgz
脚本和静态文件默认情况下在目录中:cgi-bin目录中的所有文件
MV- // CGI-BIN/PATH/TO // CGI-BIN/
#copy图标和其他文件目录到Web HTML文件发布目录:/home ///
可以将更多批处理更新脚本等放置在工具目录中,并且可以放在CGI-BIN //目录中。
升级主要国内搜索引擎的定义:
配置
====
将默认的.model.conf命名为.conf
修改
=“”
在统计数据输出下创建的:数据目录
请按照以下示例设置配置文件:
“ .conf”
=“/home // logs/.% yyyy-24%mm-24%DD-24”
=“”
=“”
=“ index.html”
=“/home/cgi-bin // data/”
内容摘要:使用简介和一些配置改进说明。我很高兴看到从版本6.3开始:中国用户基本上只需要在配置文件中启用=“”,基本上,中国搜索引擎没有统计问题。目前,#次要“ baidu/.com','/。sina/.com','/。sohu/.com',已经添加了这三个搜索引擎。包括针对主要国内搜索引擎和门户定义的补丁(解开包装后,只需覆盖LIB/ 下的原始程序目录)
日志统计系统在分析网站用户行为中起着重要作用,特别是对于搜索引擎的关键字访问统计信息:它是用户行为分析数据的非常有效的来源。随着互联网的开发多年,Web日志统计工具已经越来越成熟,并且在功能中变得越来越丰富。其中许多是开源的,这是其中之一。
:web
它是基于PERL的Web日志分析工具,该工具已迅速发展。与另一个非常出色的开源日志分析工具相比,优点是:
接口友好:您可以根据浏览器直接调用相应的语言接口(有一个简化的中文版本)
参考输出样本:基于Perl:它可以很好地解决跨平台问题。系统本身可以在GNU/Linux上运行(安装后);分析的日志直接支持格式()和IIS格式(需要修改)。尽管还有一个平台版本,但目前缺乏维护。
完全可以使用系统在不同的Web服务器上完成统一统计信息:您自己的网站上的GNU/Linux/和/IIS服务器。高效率:输出统计项目比率更丰富,并且速度仍然可以达到约1/3。对于每天访问数百万美元的网站,此速度就足够了。
方便的配置/自定义:系统提供了足够灵活但合理的配置规则。需要修改默认配置不超过3或4个项目以开始运行,并且仍然有许多用于修改和扩展的插件。设计人员的设计是为了准确的“人类”,因此将许多搜索引擎机器人访问被过滤,因此可能低于其他日志统计工具计数的数字。从公司内部的访问也可以通过IP过滤设置过滤掉。提供了许多扩展参数统计功能:使用串联配置生成应用程序特定参数分析对于产品分析非常有用。
有关与其他工具的更多比较:,请参考:
安装备忘录
操作模式如下:
分析日志:运行后,将这些日志统计信息存档到数据库中(纯文本);然后输出:分为两种形式
这是一个单个站点的两个日志统计示例:
一个通过GNU/Linux上的CGI输出。
一个是2000年基于静态页面的导出
下载/安装安装软件包后:
gnu/linux:tar zxf -.tgz
脚本和静态文件默认情况下在目录中:cgi-bin目录中的所有文件
MV- // CGI-BIN/PATH/TO // CGI-BIN/
#copy图标和其他文件目录到Web HTML文件发布目录:/home ///
可以将更多批处理更新脚本等放置在工具目录中,并且可以放在CGI-bin //目录中。
2000:以背景脚本模式运行,直接打开包装,然后移动到d:/目录
将图标目录复制到IIS 目录: /ICON
数据源日志格式和截断规则
for:日志格式很好:只需将其设置为格式,截断日志有点麻烦:您需要安装工具,将日志设置为按一天截断:
” |/usr/local/sbin/path/to//logs/.%Y%M%D”
例如:日志/。
日志是压缩格式的,您可以使用gzip -d </home//logs/.%Yyyy-24%MMM-24%DDD-24.GZ |动态减压统计。对于IIS:默认情况下,有一天有一个更好的日志截断规则,但是IIS的日志格式不适合统计。
因此,最好直接删除所有日志字段,然后严格按照以下列表进行设置
与IIS默认设置相比:
减少是:
附加的是:
配置文件的命名规则:.. conf
主.pl将根据站点名称自动调用相应站点的配置文件:.. conf
例如:运行./.pl- =在同一目录中调用.. Conf配置文件;
如果未指定 - 当前目录中的.conf或/etc/.conf也将作为默认配置文件找到。
因此,最好将默认的.model.conf重命名为.. conf;例如:.. conf,
对于多个站点上的统计信息,包括功能的配置文件仍然非常有用。我们可以将常规配置放入一个文档中,然后使用(在第5.4版之后支持)将常规配置包括在每个特定配置文件的标题中,然后使用其他配置来覆盖一般配置中的相应属性,例如::
=“。conf”
=“/path/to/bbs/”
=“”
最小配置文件修改:
对于GNU/Linux上的统计日志,只需修改:这两个选项
gnu/linux =“/path/to // logs/.% yyyy-24%mm-24%dd-24”
2000 =“ d://w3sv3/ex%Yy-24%MMM-24%Dd-24.log”
此配置是指使用年度,月和日期24小时前拼写的日志文件名; =“”
默认情况下,该站点的名称为空。如果是空的,它将拒绝运行;对于统计IIS日志,需要修改一个:
= 2
默认值为1:log,2是IIS日志
其他要注意的事情:
默认情况下,SWF文件未过滤,并且.swf将被计算为,因此,如果网站上的SWF文件主要是广告,则最好将其过滤出来:
日志分析
./.pl--- = -lang = Cn
例如:./.pl--- =
配置文件... conf将自动调用
统计输出
GNU/Linux
2000
日志统计信息自动运行
在GNU/Linux上:-e:每天8:10跑步
#
10 8 * * *(cd/path/to // cgi -bin //; ./.pl - =)
2000年:每天8:10跑步
d:/perl/bin/perl.exe d://tools/ages.pl-- = -lang = -lang = cn -dir = c:///- = d:////cgi-bin/.pl
多站点日志统计
它带有批处理处理工具:工具/.PL,可以通过目录和运行统计信息中的所有配置文件进行划分。因此,其余的工作主要是对数同步的问题。
对于多个站点,重复许多配置选项。如果修改和维护每个配置文件,则将很麻烦。由于版本5.4,提供了配置文件中包含的功能,因此我们可以配置一般配置,例如:.conf
然后将其他站点的配置设置为:与默认值不一致的配置可以被以下选项覆盖。
.bbs..conf
“ mon.conf”
“/路径/到/”
“”
。
“ mon.conf”
“/路径/到/”
“”
=“”
统计指标指示GMT时间的IIS贴片:.pl
IIS的日志时间在格林威治之间,中国当地时间和GMT之间存在+8小时的差距。如果您直接使用该插件从 Time转换,则性能会下降40%。这是一个根据当地时间修改时间坐标的补丁:
7696d7695
< my $TIME_ZONE = 8;
7698,7702c7697
< my $ix_local = $ix + $TIME_ZONE;
< if ($ix_local >= 24) {
< $ix_local = $ix_local - 24;
< }
< print "$ix_local/n"; # width=19 instead of 18 to avoid a MacOS browser bug.
---
> print "$ix/n"; # width=19 instead of 18 to avoid a MacOS browser bug.
7708,7712c7703
< my $ix_local = $ix + $TIME_ZONE;
< if ($ix_local >= 24) {
< $ix_local = $ix_local - 24;
< }
< my $hr= $ix_local + 1 ; if ($hr>12) { $hr=$hr-12; }
---
> my $hr=($ix+1); if ($hr>12) { $hr=$hr-12; }5.5之后,已经添加了主要中国搜索引擎的定义:这是补充完整列表(包括主要门户网站和搜索门户)
62C60
<“ baidu/.com”,“/。nina/.com”,“/。sohu/.com”,
---
>“ baidu/.com”,“ nina/.com”,“ 3721/.com”,“ 163/.com”,“ tom/.com”,“ sohu/.com”,
<“ baidu/.com”,“ word =”,“ /.sina/.com”,“ word =”,“ /.sohu/.com" Q.“word =”,
---
>“ baidu/.com”,“ word =”,“ sina/.com”,“ word =”,“ 3721/.com”,“ name =”,“ 163/.com”,“ q =”,“ tom/.com”,“ tom/.com”,“ word =”,“ sohu/.com”
<“ baidu/.com”,“ baidu”,“ /.sina/.com"“sina”,“ /.sohu/.com",sohu”,
---
>“ baidu/.com”,“ baidu”,“ sina/.com”,“ sina”,“ 3721/.com”,“ 3721”,“ 163/.com”,“”,“”,“ tom/.com”,“ tom/.com”,“ tom”,“ sohu/.com”
正确查询仍然需要一些查询补丁:
由于默认情况下,IE浏览器在2000年以上的浏览器发送的查询是以UTF-8格式使用的,而大多数其他搜索引擎都使用系统本地编码:因此,在解码查询URI之后,有必要根据UTF-8使用它是否使用它,否则同一单词将留下UTF-8和两个记录。
我添加了以下功能,用于解码UTF-8字符和类似于“/XC4/XBE/XD7/XD3/XC3/XC0”的解码”
sub {
我的$ = shift;
我的$ = shift;
#/XC4/XBE/XD7/XD3/XC3/XC0进入%C4%BE%D7%D3%C3%C0
$ = 〜s /// x(/w {2})/%/1/gi;
#URI
$ =($);
if($ = 〜m/^([/x00-/x7f] | [/xc2-/xdf] [/x80-/xbf] |/xe0 [/xa0-/xbf] [/x80-/xbf] | [/xe1-/xef]
x80-/xbf] |/xf0 [/x90-/xbf] [/x80-/xbf] [/x80-/xbf] | [/xf1-/xf7] [/x80-/xbf] [/x80-/xbf] [/x80-/xbf]
$ =(“ UTF-8”,$);
$ =($,$);
#修剪空间
$ = 〜s/^/s+//;
$ = 〜s // s+$ //;
#“+”,“”;”到太空
$ = 〜s/;+// g;
$ = 〜s // s+//+/g;
#print $。“/n”;
$;
这是更多用于UTF-8查询的补丁程序。
基于地理信息的插件安装:
Geoip和Geo::( 5.5+)
Geoip和Geo ::都是免费的,对于国家/IP阴险表来说,这比通过通过DNS通过DNS逆阶段来获得的统计数据是准确的,并且更快。 Geoip的API都是免费的,默认库是免费的,费用是其数据更新服务。 Geo ::不仅代码是公开的,而且库数据也是公开的,因此您可以自己自定义。我曾经想象过要进行中国城市地图。
地理安装:
首先下载C库:拆卸后Geoip C
%。/;制作
#制作
然后下载perl库:Geoip Perl打开包装
%perl .pl;制作
#制作
geo ::安装:
下载geo ::解开包装后
%perl
%制作
#制作
配置:启用插件geoip或geo ::
参考:
日志分析工具
业务日志统计/分析工具
多站点日志合并统计信息:
日志统计信息对于分析搜索引擎对站点的影响至关重要
它还包含许多插件,包括汇总和输出来自多个站点的统计信息,IIS日志时间转换,URL标题映射等。
扫一扫在手机端查看
-
Tags : awstats日志分析工具
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。


客服1