基于密度聚类和随机森林的移动应用识别技术

摘要:随着移动终端设备的蓬勃发展,移动应用种类的日益增加,移动应用类型识别成为网络管理、市场营销以及网络攻击防范等领域中一种具有重要意义的技术手段。在实际应用中,几乎所有的移动应用程序都采用SSL/TLS(Secure Sockets Layer/Transport Layer Security)协议进行数据加密,因此使移动应用类型识别工作更具挑战。提出了一种新颖的加密环境下Android移动应用类型识别技术。该技术利用信息熵对DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法生成的聚类簇进行纯度分析,通过实验合理设置熵阈值对数据集中的干扰样本进行过滤,最后利用随机森林算法对过滤后的数据集进行建模,实现了移动应用程序类型的识别。由于仅通过捕捉加密数据流传输模式实现应用识别,对于加密和非加密流量均有效。实验表明所述方法缓解了干扰样本的误判问题,有效地提高了数据集利用率,具有更高的识别准确率和召回率。

关键词:
  • 加密流量分析  
  • dbscan  
  • 随机森林  
作者:
朱迪; 陈丹伟
单位:
南京邮电大学计算机学院、软件学院、网络空间安全学院; 南京210023
刊名:
计算机工程与应用

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机工程与应用

计算机工程与应用杂志紧跟学术前沿,紧贴读者,国内刊号为:11-2127/TP。坚持指导性与实用性相结合的原则,创办于1964年,杂志在全国同类期刊中发行数量名列前茅。