首页 创业指南 致富视频 网上开店 养殖视频 范文大全 创业项目开店经验创业杂谈如何创业技术资料创业防骗项目分析微信营销农村创业投资理财
  • 致富经
  • 农广天地
  • 致富早班车
  • 乡约
  • 科技苑
  • 农业电商
  • 农业要闻
  • 地方动态
  • 食品安全
  • 深度
  • 独家
  • 基于深度学习的VPN加密流量协议识别

    时间:2023-04-09 14:55:04 来源:东东创业网 本文已影响 东东创业网手机站

    相关热词搜索:

    范耘程

    (南京信息工程大学电子与信息工程学院,江苏南京,210044)

    近年来,移动互联网行业迅速发展。根据中国互联网络信息中心(CNNIC)的第50次中国互联网络发展状况统计报告显示,截至2022年6月,我国网民规模为10.51亿,互联网普及率达74.4%。互联网基础建设全面覆盖,用户规模稳步增加[1]。而随着我国网络安全法的完善以及网民隐私安全意识的加强,越来越多人的使用网络流量加密技术来保证用户的数据安全和隐私。

    网络流量是网络协议的具体体现。VPN加密技术作为一种加密用户通信并且隐藏用户身份的方式,依靠隧道式的远程通信加密技术,正在广泛地应用于互联网生活中。来自美国一家网络智能公司的报告[2]显示,随着新冠疫情的暴发,人们在家工作,将会越来越多地使用VPN技术。但是,VPN作为一种流量加密技术为人们提供隐私安全和便利的同时,也因其隐秘性好,安全性高等特点不易被网络管理所监控,这给犯罪分子进行网络攻击、数据窃取等提供了便利。为此,本文提出了研究一种基于深度学习的VPN加密流量协议识别算法。首先,分别在不同代理协议下进行Wiresharek数据采集,并且在采集流量的过程中需要滤除掉非TCP的流量,再根据数据包的大小和数据包的到达时间生成图像,进行卷积神经网络的训练和测试。

    随着网络加密技术的逐步提高,国内外对于网络流量加密技术的识别研究也在不断推进。研究人员根据机器学习和深度学习进行深度流量分类。根据不同类型的输入,这些研究方法又可以进一步分为以下两类,一种研究是直接基于统计特征的方法,另一种是完全基于原始信息流量模型的方法。2016年,Draper-Gil G[3]依照与时间关联的特性,选择了C4.5决策树和K近邻算法,对VPN的流量识别取得了一定的成效,并且文献公开了加密流量的数据集,为之后的VPN加密流量研究提供了便利。Wang等人提出了一种基于一维卷积神经网络的端到端方法,该方法将特征提取和分类器整合为一个框架,达到了不错的效果[4]。以前的方法是对加密的流量进行了识别分类,但缺少对于VPN加密协议的统计分类,且方法也有局限性,有待进一步研究。

    2.1 VPN代理协议

    VPN是通过指通过隧道式加密传输或者匿名代理提供远程数据代理服务的技术。常见且成熟的第三方VPN代理协议有Shadowsocks、SOCKS5、VMess等。

    (1)SOCKS5代理协议:SOCKS5的代理目的是它在采用标准TCP/IP协议的通讯网络系统的内部各个网络服务器层之间扮演起了其中一个数据中转站的重要的角色,SOCKS5的协议层既也不再受依制于操作平台上的其他任何的限制,也不管是运行在一个何种网络协议层,它最终是处在其内部外网层中的网络服务器前端,能够直接地访问外部网络层中的服务器,以确保通信更加保密。

    (2)Shadowsocks代理协议:Shadowsocks协议是一种基于SOCKS5从而衍生出来的一种协议类型。它在基于SOCKS5的基础上拆分为SS服务器(SS_Server)和SS客户端(SS_Local)两个部分以逃避网络监管。同时,重构的报文数据加强了数据通信之间的隐秘性和安全性。

    (3)VMess代理协议:VMess代理协议是由Google的开源V2Ray工具设计出的一种代理协议。它是一种基于TCP的无状态协议,也是V2Ray的默认代理协议[5]。VMess的使用结合了inbound和outbound的概念,其清晰和直观的界面表明显示出了数据包的流动方向和方向,也是在使VMess使用的功能看起来更加的复杂和更强大的同时显得清晰直观而又并不混乱。

    2.2 深度学习模型

    本文选用深度学习的卷积神经网络(CNN)来进行模型的训练,并且用PyTorch作为模型架构。随着人工智能技术的发展,深度学习更多地被应用于加密流量的检测环节中。与机器学习需要繁杂的特征提取和特征选择不同,深度学习有着自动完成特征提取和学习训练的优势。同时它能基于表征信息的神经网络学习方法,将大量的特征拟合为更高维度的综合特征。所根据需要选择的卷积神经网络结构包括:卷积层,下采样层,全连接层。每层网络有多个特征图,通过卷积运算滤波器可以提取每个特征图输入的一种显著的特征,每个特征图有多个神经元。本文选择了LeNet-5风格的架构,为加密流量协议的识别达到好的效果。

    图1的神经网络通过接受处理后的图像信息,进行多层卷积分别提取对象的特征信息,再分别用最大池化层提取主要特征,减少神经网络运算量,从而防止出现结果过拟合的情况。最后,为了保证可以实现分类器中的有效的特征识别表示工作,全连接层还将通过模型训练中的分布式特征识别表示映射技术引入到样本标记空间。

    图1 LeNet-5架构

    整个系统的流程包括了数据采集、数据预处理、流量信息提取以及加密协议分类这几个部分。首先通过Wireshark自采集的数据包,再经由卷积神经网络训练学习,提取综合特征,可以达到识别加密流量协议的效果。系统结构框图如图2所示。

    图2 系统结构概述

    3.1 流量采集

    在整个系统进行模型核心训练之前,需要采集到足够多的网络流量数据以支持卷积神经网络的模型训练和测试。在采集流量时,用手机连接笔记本电脑的移动电脑热点,然后通过这部手机通过VPN代理服务进行上网浏览,产生流量信息,再用笔记本的Wireshark流量捕获软件采集此时的流量,即可得到纯粹的VPN流量。之后,在不同VPN协议的代理下,进行重复采集,直至所有协议流量信息都采集完毕,并标记流量来源。

    3.2 数据预处理

    对于Wireshark采集到的pcap包需要先进行信息处理。由于SOCKS5、Shadowsocks和VMess本质上都是基于TCP传输层的加密流量代理协议,所以pcap包需要滤除掉非TCP协议的噪音流量和TCP的重传包。再将数据包按照五元组的流形式重新编码组成IP会话包形式,依次是源IP、源端口、目的IP、目的端口和传输协议。之所以本文把流量分成会话的形式,是因为Wang等人发现会话比流量有更多地交互信息,更适合加密信息的分类[4]。

    3.3 流量信息提取

    我们知道,卷积神经网络的优点在于输入是图像时有着不错的表现。以图像直接作为网络的输入,这样就可以避免传统识别算法中复杂的特征提取和数据重构的过程,如网络能够自行抽取图像的特征包括颜色、纹理、形状及图像的拓扑结构,在处理二维图像的问题上,特别是识别位移、缩放及其他形式扭曲不变性的应用上具有良好的鲁棒性和运算效率等[6]。

    在所有的流量数据包进行了预处理工作之后,数据包中的每个字节对应于一个灰度像素值。例如,0x00表示黑色,0xff表示白色。经由这样,就可以将每一个流量数据包转换为一个可视化的VPN流量数据灰度图。神经网络可以自动从流量有效荷载中提取特征,每个方向的包每个长度的包的统计信息,从而提高模型泛化能力。特征包括了最大值、最小值、方差、标准差、平均值、偏度、峰度等。为了避免分类器在训练过程中倾向于量级较大的特征,需要对特征进行归一化处理。

    3.4 协议分类

    本文选用的是LeNet-5模型架构来进行加密流量协议的识别。首先将通过Wireshark采集到的数据包按照8:2的比例划分为训练集和测试集,再将训练集的特征数据集样本对卷积神经网络算法进行训练,生成用于加密流量协议的识别模型。然后用测试集去测试已完成训练的深度学习模型,最后由分类器对综合特征转化输出,从而完成VPN加密流量协议的检测识别,输出并判断识别分类结果。

    我们使用PyTorch来构建所需要的神经网络。为了验证本文模型的有效性,将通过Wireshark采集到的不同的VPN协议Shadowsocks、SOCKS5、VMess以及不经过VPN代理协议的情况分别处理成了图3所示的图像。

    图3 经由不同代理协议的数据包转化的灰度图

    之后再将图像一次放入卷积神经网络进行训练,当达到一个较高的训练水准时,再拿出测试集进行测试,可以得到表1的数据结果。

    表1 加密流量协议分类识别结果

    在实验中,有三个评价指标用来衡量我们模型的性能,分别是精确度、召回率和F1分数。精确度指正确预测为正的,占全部预测为正的比例。召回率指正确预测为正的,占全部实际为正的比例。F1分数指精确率和召回率的谐波平均值。F1分数我们定义为(1)。

    可见,在无代理协议、Shadowsocks、SOCKS5以及VMess的加密协议下,卷积神经网络对于协议识别的准确度的F1分数可以达到一个不错效果。

    近年来,随着VPN技术的快速发展和人们隐私安全意识的增长,加密流量识别的技术受到了学术界的广泛讨论。本文针对加密流量协议的识别比较少的情况,进行了实验设计。整个系统的流程包括了数据采集、数据预处理、流量信息提取以及加密协议分类这几个部分。首先分析了VPN代理协议的原理,再选用深度学习的模型从不同代理协议下的加密流量中提取对应的表征信息,并用这些对加密流量的协议进行分类识别。从实验结果表明,本文提出的方法根据综合流量特征可以较好地识别不同加密流量的代理协议。但这项工作仍有改进之处,数据集的不平衡不充分会导致,深度学习模型缺乏泛化能力,以及要进一步优化提升算法,来提高识别的速度和准确率。

    猜你喜欢数据包代理加密二维隐蔽时间信道构建的研究*计算机与数字工程(2022年3期)2022-04-07一种新型离散忆阻混沌系统及其图像加密应用湖南理工学院学报(自然科学版)(2022年1期)2022-03-16民用飞机飞行模拟机数据包试飞任务优化结合方法研究民用飞机设计与研究(2020年4期)2021-01-21一种基于熵的混沌加密小波变换水印算法太原科技大学学报(2019年3期)2019-08-05代理圣诞老人趣味(数学)(2018年12期)2018-12-29SmartSniff网络安全和信息化(2018年4期)2018-11-09代理手金宝 生意特别好现代营销(创富信息版)(2018年8期)2018-09-08加密与解密课堂内外(小学版)(2017年5期)2017-06-07认证加密的研究进展信息安全研究(2016年10期)2016-02-28胜似妈妈的代理家长中国火炬(2014年1期)2014-07-24
    • 创业指南
    • 网上开店
    • 养殖视频
    • 理财
    • 政策
    • 技术
    • 致富视频

    推荐访问