扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNetChina服务器站 x86服务器技巧
如何在超大访问量网站系统中,解决对服务器群的访问流量统计而不影响服务器性能的问题?这篇文章提出了采用NSCAS(网络会话流采集分析系统)的处理技术。
应用背景
新华网在世界网站的排名中名列我们国家新闻网站首位,网站的点击率非常高,访问流量很大。为了获取网站的信息流量和使用情况,以及用户访问网站的相关信息,实现对各类业务信息流数据的统计分析,传统的解决方法是由分析系统提取网站中所有服务器上的LOG日志文件,对LOG日志文件中所记录的服务器访问记录进行统计分析,最终得出整个网站的访问量的统计分析结果。
目前,新华网的服务器数量已达数十台之多,如果使用这种方法来实现对整个网站的访问情况的统计分析,则分析系统必须分别访问并提取各个服务器的LOG文件,这样就会给服务器以及整个网络造成正常运行之外的额外系统开销。假设每个服务器的LOG日志文件为10-100M字节量级,那么,数十台服务器的LOG日志文件就是几千兆字节,甚至几十千兆字节,分析系统在提取这些日志文件时,一方面要加重服务器的访问开销,另一方面还要加重网络交换机的负担,损耗整个网络的性能。另外,使用服务器LOG日志文件进行统计分析还不利于实时统计分析,因此,通常的解决方案不适合这种大型网络的访问流量的分析统计需求。
基于上述应用背景和分析,我们提出了一种全新的技术思路来实现新华网访问流量统计分析的需求,即从网络上实时采集数据流,从数据流中提取网络会话并处理对网站中各类服务器群的访问请求与应答信息,生成LOG项写入LOG日志文件。在实际应用中我们选用了CAPTECH公司的网络会话流采集分析系统NSCAS,其特点是针对高速网络的数据采集、提取会话处理以及生成LOG日志文件。
NSCAS技术解析
NSCAS的网络会话实时采集处理技术是在网络线路上采用线路分向旁路监听方式,高速地采集网络上所有数据流,从所采集到的数据包中提取网络会话,对会话按相应的应用协议进行处理,生成LOG记录项,按标准LOG日志文件格式进行记录,形成标准的LOG日志文件,这样就可以不用访问服务器而获得与服务器LOG日志文件格式相同的日志文件。
这项技术的优势在于,它不依赖于各种应用服务器的应用系统而独立工作,不对系统和网络的性能和负载产生任何影响。并且,由于日志文件的形成是可以由用户自己定义,因此用户可以将访问某一类服务器的记录放在同一个LOG日志文件中,这样有利于后端统计分析软件的运行效率,提高统计分析系统的处理能力。
新华网的应用效果
新华网采用NSCAS系统后,经过一段时间的实际运行,完全满足了新华网针对超大访问流量统计分析的需求,同时,网络自身的性能没有受到任何影响。该方案中几个关键技术点,如:高速数据采集的性能经过在新华网中的实际测试,根据对网络中实际传输的各种尺寸数据包类型的分布统计,得出其采集能力在700Mbps以上;在满足对本地服务器LOG日志文件的合并处理的需求的基础上,还实现了将新华网的各地区分社频道以及国外分社频道的LOG日志文件同本地服务器一同合并处理的附加功能,同时还解决了访问流量的实时统计问题。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者