P2P流量的监控与管理方案
P2P以其独特的技术优势在这几年内迅速发展,其应用不断增长。据统计,P2P应用已占ISP业务总量的60%~80%,跃然成为网络带宽较大的消费者。再加上Internet重要性的日益提高和网络结构的日益复杂,网络的安全性、可管理性及传统应用的可用性受到了挑战。人们意识到越来越有必要对P2P流量和网络行为进行深入的了解、分析,为监控与管理P2P提供技术支持。
P2P流量现状
P2P流量特点
相对于传统Internet业务流量而言,P2P业务流量表现出以下特点:高速传输;数据量大;在线时间长;上下行流量对称;业务点分布广泛;有固定的流量特征,大多数的P2P流量都有比较固定的特征,如固定的端口号或者是固定的关键字。
P2P流量的影响
随着P2P技术应用的不断扩展,特别是基于P2P系统的文件共享业务不断壮大,P2P系统本身潜在的安全问题和对资源,特别是网络带宽资源的滥用,已经受到各个网络运营商和学校网络管理者的高度重视。在教育网内部Maze应用非常广泛。仅从清华大学校园网出口的流量监控来看,Maze的流量早已超过了Web等传统的业务流量,约占整个流量的15%。如图1所示是经过网络测量说明的P2P流量的现状。P2P流量的增加也会给社会带来一定的负面影响,如版权和安全等方面。
在其他方面P2P流量的增加也会给社会带来一定的负面影响,如版权和安全等方面。
管理难点
P2P流量管理作为一个新兴的网络管理内容,其难点主要体现在以下三点。
数据采集分析
要对P2P流量进行管理必须解决在线流量检测问题。如何能够设计高效的适于硬件实现的实时算法使得线速检测和过滤成为一个非常困难的问题。同时,网络设备存储和处理能力有限,也使得我们需要关注如何让算法适应网络流量的动态变化,使能够检测到的信息较大化,过滤的效果较大化。这方面涉及到两个关键的要素:高速数据采集处理和海量数据分析处理(用于离线检测)。
P2P流量识别
对于P2P流量合理有效地识别应该包含如下内容。较早,对P2P流量的特征必须具有良好的分布和可区分性质;第二,识别P2P流量和整个P2P覆盖网络,这样才可能依此提出新的针对于P2P网络的积极防御模式和机制。
如今很多P2P协议采用动态端口,增加了P2P流量识别的难度。如何采用新的流量分析模型而不是仅仅停留在一些固定的识别方法来对P2P 流量进行更好的识别和监控,是P2P流量管理的重点也是难点。
P2P应用的快速演化
P2P应用在近两年内经历着快速变化的过程,由简单到复杂,由低级到高级。其网络结构也经历了由中心控制到全分布的变化。从流量管理和监控的角度来说,早期的P2P应用都是固定的端口号,容易检测便于管理。后来逐渐发展到动态随机端口号,一些传统的检测方法失去了作用。近期涌现的新型P2P应用越来越具有反侦察的意识,采用一些加密的手法,伪装Http协议,传输分块等来逃避识别和检测。如何针对快速演化的P2P应用,根据其不变传输特性建立相应的分析模型,提出新的理论框架是现今一个比较有挑战性的问题。
流量管理基础理论
信息论
在P2P流量管理中我们经常用到信息论来分析流量。比如利用一些分布变化情况来衡量流量的某个特征的信息量。这种方法常用来描述流量的特征。比如利用熵理论来分析流量特征的变化。
数据挖掘
在数据采集阶段我们需要对采集到的数据进行海量数据分析处理,便于离线的分析。这时候就需要用到数据挖掘方面的理论。
对于流量识别来说我们的输入是输出流量的特征向量的熵、平均流量、延迟、端口、payload等,而输出需要判断出是哪种类型的流量(如Web、FTP、P2P等)。
机器学习
机器学习是关于理解与研究学习的内在机制,建立能够通过学习自动提高自身水平的计算机程序的理论方法的学科。
作者:Admin - 发布时间:2006-03-26 - 点击量:7608