我们已经准备好了,你呢?

2026我们与您携手共赢,为您的企业形象保驾护航!

关键字:Web日志IIS日志分析打开

您不必耐心阅读所有内容:简短的安装说明如下

安装

====

下载安装软件包后:

gnu/linux:tar zxf -.tgz

脚本和静态文件默认情况下在目录中:cgi-bin目录中的所有文件

MV- // CGI-BIN/PATH/TO // CGI-BIN/

#copy图标和其他文件目录到Web HTML文件发布目录:/home ///

可以将更多批处理更新脚本等放置在工具目录中,并且可以放在CGI-BIN //目录中。

升级主要国内搜索引擎的定义:

配置

====

将默认的.model.conf命名为.conf

修改

=“”

在统计数据输出下创建的:数据目录

请按照以下示例设置配置文件:

“ .conf”

=“/home // logs/.% yyyy-24%mm-24%DD-24”

=“”

=“”

=“ index.html”

=“/home/cgi-bin // data/”

内容摘要:使用简介和一些配置改进说明。我很高兴看到从版本6.3开始:中国用户基本上只需要在配置文件中启用=“”,基本上,中国搜索引擎没有统计问题。目前,#次要“ baidu/.com','/。sina/.com','/。sohu/.com',已经添加了这三个搜索引擎。包括针对主要国内搜索引擎和门户定义的补丁(解开包装后,只需覆盖LIB/ 下的原始程序目录)

日志统计系统在分析网站用户行为中起着重要作用,特别是对于搜索引擎的关键字访问统计信息:它是用户行为分析数据的非常有效的来源。随着互联网的开发多年,Web日志统计工具已经越来越成熟,并且在功能中变得越来越丰富。其中许多是开源的,这是其中之一。

:web

它是基于PERL的Web日志分析工具,该工具已迅速发展。与另一个非常出色的开源日志分析工具相比,优点是:

接口友好:您可以根据浏览器直接调用相应的语言接口(有一个简化的中文版本)

参考输出样本:基于Perl:它可以很好地解决跨平台问题。系统本身可以在GNU/Linux上运行(安装后);分析的日志直接支持格式()和IIS格式(需要修改)。尽管还有一个平台版本,但目前缺乏维护。

完全可以使用系统在不同的Web服务器上完成统一统计信息:您自己的网站上的GNU/Linux/和/IIS服务器。高效率:输出统计项目比率更丰富,并且速度仍然可以达到约1/3。对于每天访问数百万美元的网站,此速度就足够了。

方便的配置/自定义:系统提供了足够灵活但合理的配置规则。需要修改默认配置不超过3或4个项目以开始运行,并且仍然有许多用于修改和扩展的插件。设计人员的设计是为了准确的“人类”,因此将许多搜索引擎机器人访问被过滤,因此可能低于其他日志统计工具计数的数字。从公司内部的访问也可以通过IP过滤设置过滤掉。提供了许多扩展参数统计功能:使用串联配置生成应用程序特定参数分析对于产品分析非常有用。

有关与其他工具的更多比较:,请参考:

安装备忘录

操作模式如下:

分析日志:运行后,将这些日志统计信息存档到数据库中(纯文本);然后输出:分为两种形式

这是一个单个站点的两个日志统计示例:

一个通过GNU/Linux上的CGI输出。

一个是2000年基于静态页面的导出

下载/安装安装软件包后:

gnu/linux:tar zxf -.tgz

脚本和静态文件默认情况下在目录中:cgi-bin目录中的所有文件

MV- // CGI-BIN/PATH/TO // CGI-BIN/

#copy图标和其他文件目录到Web HTML文件发布目录:/home ///

可以将更多批处理更新脚本等放置在工具目录中,并且可以放在CGI-bin //目录中。

2000:以背景脚本模式运行,直接打开包装,然后移动到d:/目录

将图标目录复制到IIS 目录: /ICON

数据源日志格式和截断规则

for:日志格式很好:只需将其设置为格式,截断日志有点麻烦:您需要安装工具,将日志设置为按一天截断:

” |/usr/local/sbin/path/to//logs/.%Y%M%D”

例如:日志/。

日志是压缩格式的,您可以使用gzip -d </home//logs/.%Yyyy-24%MMM-24%DDD-24.GZ |动态减压统计。对于IIS:默认情况下,有一天有一个更好的日志截断规则,但是IIS的日志格式不适合统计。

因此,最好直接删除所有日志字段,然后严格按照以下列表进行设置

与IIS默认设置相比:

减少是:

附加的是:

配置文件的命名规则:.. conf

主.pl将根据站点名称自动调用相应站点的配置文件:.. conf

例如:运行./.pl- =在同一目录中调用.. Conf配置文件;

如果未指定 - 当前目录中的.conf或/etc/.conf也将作为默认配置文件找到。

因此,最好将默认的.model.conf重命名为.. conf;例如:.. conf,

对于多个站点上的统计信息,包括功能的配置文件仍然非常有用。我们可以将常规配置放入一个文档中,然后使用(在第5.4版之后支持)将常规配置包括在每个特定配置文件的标题中,然后使用其他配置来覆盖一般配置中的相应属性,例如::

=“。conf”

=“/path/to/bbs/”

=“”

最小配置文件修改:

对于GNU/Linux上的统计日志,只需修改:这两个选项

gnu/linux =“/path/to // logs/.% yyyy-24%mm-24%dd-24”

2000 =“ d://w3sv3/ex%Yy-24%MMM-24%Dd-24.log”

此配置是指使用年度,月和日期24小时前拼写的日志文件名; =“”

默认情况下,该站点的名称为空。如果是空的,它将拒绝运行;对于统计IIS日志,需要修改一个:

= 2

默认值为1:log,2是IIS日志

其他要注意的事情:

默认情况下,SWF文件未过滤,并且.swf将被计算为,因此,如果网站上的SWF文件主要是广告,则最好将其过滤出来:

日志分析

./.pl--- = -lang = Cn

例如:./.pl--- =

配置文件... conf将自动调用

统计输出

GNU/Linux

2000

日志统计信息自动运行

在GNU/Linux上:-e:每天8:10跑步

10 8 * * *(cd/path/to // cgi -bin //; ./.pl - =)

2000年:每天8:10跑步

d:/perl/bin/perl.exe d://tools/ages.pl-- = -lang = -lang = cn -dir = c:///- = d:////cgi-bin/.pl

多站点日志统计

它带有批处理处理工具:工具/.PL,可以通过目录和运行统计信息中的所有配置文件进行划分。因此,其余的工作主要是对数同步的问题。

对于多个站点,重复许多配置选项。如果修改和维护每个配置文件,则将很麻烦。由于版本5.4,提供了配置文件中包含的功能,因此我们可以配置一般配置,例如:.conf

然后将其他站点的配置设置为:与默认值不一致的配置可以被以下选项覆盖。

.bbs..conf

“ mon.conf”

“/路径/到/”

“”

“ mon.conf”

“/路径/到/”

“”

=“”

统计指标指示GMT时间的IIS贴片:.pl

IIS的日志时间在格林威治之间,中国当地时间和GMT之间存在+8小时的差距。如果您直接使用该插件从 Time转换,则性能会下降40%。这是一个根据当地时间修改时间坐标的补丁:

7696d7695
< my $TIME_ZONE = 8;
7698,7702c7697
< my $ix_local = $ix + $TIME_ZONE;
< if ($ix_local >= 24) {
< $ix_local = $ix_local - 24;
< }
< print "$ix_local/n"; # width=19 instead of 18 to avoid a MacOS browser bug.
---
> print "$ix/n"; # width=19 instead of 18 to avoid a MacOS browser bug.
7708,7712c7703
< my $ix_local = $ix + $TIME_ZONE;
< if ($ix_local >= 24) {
< $ix_local = $ix_local - 24;
< }
< my $hr= $ix_local + 1 ; if ($hr>12) { $hr=$hr-12; }
---
> my $hr=($ix+1); if ($hr>12) { $hr=$hr-12; }


5.5之后,已经添加了主要中国搜索引擎的定义:这是补充完整列表(包括主要门户网站和搜索门户)

62C60

<“ baidu/.com”,“/。nina/.com”,“/。sohu/.com”,

---

>“ baidu/.com”,“ nina/.com”,“ 3721/.com”,“ 163/.com”,“ tom/.com”,“ sohu/.com”,

<“ baidu/.com”,“ word =”,“ /.sina/.com”,“ word =”,“ /.sohu/.com" Q.“word =”,

---

>“ baidu/.com”,“ word =”,“ sina/.com”,“ word =”,“ 3721/.com”,“ name =”,“ 163/.com”,“ q =”,“ tom/.com”,“ tom/.com”,“ word =”,“ sohu/.com”

<“ baidu/.com”,“ baidu”,“ /.sina/.com"“sina”,“ /.sohu/.com",sohu”,

---

>“ baidu/.com”,“ baidu”,“ sina/.com”,“ sina”,“ 3721/.com”,“ 3721”,“ 163/.com”,“”,“”,“ tom/.com”,“ tom/.com”,“ tom”,“ sohu/.com”

正确查询仍然需要一些查询补丁:

由于默认情况下,IE浏览器在2000年以上的浏览器发送的查询是以UTF-8格式使用的,而大多数其他搜索引擎都使用系统本地编码:因此,在解码查询URI之后,有必要根据UTF-8使用它是否使用它,否则同一单词将留下UTF-8和两个记录。

我添加了以下功能,用于解码UTF-8字符和类似于“/XC4/XBE/XD7/XD3/XC3/XC0”的解码”

sub {

我的$ = shift;

我的$ = shift;

#/XC4/XBE/XD7/XD3/XC3/XC0进入%C4%BE%D7%D3%C3%C0

$ = 〜s /// x(/w {2})/%/1/gi;

#URI

$ =($);

if($ = 〜m/^([/x00-/x7f] | [/xc2-/xdf] [/x80-/xbf] |/xe0 [/xa0-/xbf] [/x80-/xbf] | [/xe1-/xef]

x80-/xbf] |/xf0 [/x90-/xbf] [/x80-/xbf] [/x80-/xbf] | [/xf1-/xf7] [/x80-/xbf] [/x80-/xbf] [/x80-/xbf]

$ =(“ UTF-8”,$);

$ =($,$);

#修剪空间

$ = 〜s/^/s+//;

$ = 〜s // s+$ //;

#“+”,“”;”到太空

$ = 〜s/;+// g;

$ = 〜s // s+//+/g;

#print $。“/n”;

$;

这是更多用于UTF-8查询的补丁程序。

基于地理信息的插件安装:

Geoip和Geo::( 5.5+)

Geoip和Geo ::都是免费的,对于国家/IP阴险表来说,这比通过通过DNS通过DNS逆阶段来获得的统计数据是准确的,并且更快。 Geoip的API都是免费的,默认库是免费的,费用是其数据更新服务。 Geo ::不仅代码是公开的,而且库数据也是公开的,因此您可以自己自定义。我曾经想象过要进行中国城市地图。

地理安装:

首先下载C库:拆卸后Geoip C

%。/;制作

#制作

然后下载perl库:Geoip Perl打开包装

%perl .pl;制作

#制作

geo ::安装:

下载geo ::解开包装后

%perl

%制作

#制作

配置:启用插件geoip或geo ::

参考:

日志分析工具

业务日志统计/分析工具

多站点日志合并统计信息:

日志统计信息对于分析搜索引擎对站点的影响至关重要

它还包含许多插件,包括汇总和输出来自多个站点的统计信息,IIS日志时间转换,URL标题映射等。

二维码
扫一扫在手机端查看

本文链接:https://www.by928.com/8659.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线