当前位置：首页 > news >正文

牡丹区建设局网站黄骅贴吧最近发生的事

news 2025/12/20 19:30:17

牡丹区建设局网站,黄骅贴吧最近发生的事,wordpress 亚马逊s3,建筑人才网兼职小时工文章目录论文简介摘要存在的问题论文贡献1. 整体架构2. nPrint3. nPrintML4. 任务总结论文内容工具数据集可读的引用文献笔记参考文献论文简介原文题目#xff1a;New Directions in Automated Traffic Analysis 中文题目#xff1a;自动流量分析的新方向发表会议#… 文章目录论文简介摘要存在的问题论文贡献1. 整体架构2. nPrint3. nPrintML4. 任务总结论文内容工具数据集可读的引用文献笔记参考文献论文简介原文题目New Directions in Automated Traffic Analysis 中文题目自动流量分析的新方向发表会议CCS 21: 2021 ACM SIGSAC Conference on Computer and Communications Security 发表年份2021-11-12 作者Jordan Holland latex引用 inproceedings{holland2021new,title{New directions in automated traffic analysis},author{Holland, Jordan and Schmitt, Paul and Feamster, Nick and Mittal, Prateek},booktitle{Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security},pages{3366--3383},year{2021} }摘要机器学习被用于安全领域的许多网络流量分析任务从应用识别到入侵检测。然而最终决定模型性能的机器学习管道的各个方面——特征选择和表示、模型选择和参数调优——仍然是手工和艰苦的。本文提出了一种自动化流量分析许多方面的方法使机器学习技术更容易应用于更广泛的流量分析任务。我们介绍了nPrint一个生成统一的数据包表示的工具适用于表示学习和模型训练。我们将nPrint与自动机器学习(AutoML)集成在一起形成了nPrintML这是一个公共系统在很大程度上消除了各种流量分析任务的特征提取和模型调优。我们已经在8个独立的流量分析任务上对nPrintML进行了评估并发布了nPrint和nPrintML以使未来的工作能够扩展这些方法。存在的问题特征工程和模型选择是一个艰苦的过程通常需要大量的专业领域知识来设计特征即使有专家领域的知识特征探索和工程在很大程度上仍然是一个脆弱和不完美的过程因为特征的选择和如何表示它们会极大地影响模型的准确性。这样的人工提取可能会忽略那些不是很明显或涉及复杂关系的特征(例如特征之间的非线性关系)流量模式和条件总是在变化模型和手工制作的特征会过时每一个新的网络检测或分类任务都需要重新设计系统设计新的特征选择合适的模型手动调整新的参数论文贡献设计了一个标准的数据包表示nPrint它以固有的规范化二进制表示对每个数据包进行编码同时保留每个数据包的底层语义。nPrint使机器学习模型能够自动发现不同分类任务提供的数据包的重要特征集合无需手动提取。nPrint与AutoML(一个我们称为nPrintML的系统)的集成可以实现自动模型选择和超参数调优从而可以使用nPrint创建完整的流量分析管道——通常不需要编写代码论文解决上述问题的方法提出了nPrint来自动化提取特征解决了问题1问题2问题3 提出了nPrintML实现自动模型选择和超参数调优解决了问题4 论文的任务自动化流量分类 1. 整体架构 2. nPrint 设计要求完整性设计一个representation包括包头的每一个bit 这样设计的原因避免这样一个领域知识某个包报头字段或字段组合比其他字段更重要的问题。作者的直觉是模型通常可以在没有人类指导的情况下在给定完整的表示的情况下自己确定哪些特征对给定问题是重要的。固定尺度每种representation都必须是固定大小的——即使单个数据包或数据包头的大小不同这样设计的原因这种知识避免了在存储的数据包跟踪上进行多次传递的需要并且在数据流上下文中是必不可少的。规范化当特征被归一化时机器学习模型通常表现得比没做归一化时更好这样设计的原因归一化减少了训练时间并提高了模型稳定性对齐representation中的每个位置应该对应于所有包的包头的相同部分这样设计的原因对齐允许模型基于特定特征(即数据包头)总是位于数据包中相同的偏移量这一事实来学习特征表示。虽然人类驱动的特征工程通过将每个数据包中的信息提取到格式良好的结构中来获得一致的特征但在考虑二进制形式的数据包时需要此需求因为协议和数据包的长度不同。任何不对齐的特征都会在学习过程中注入噪声从而降低训练模型的准确性。构建标准数据表示 nPrint支持三种表示网络流量的方法语义semantic未对齐二进制unaligned binary混合hybrid 语义表示semantic representation 每个报头都有语义字段如IP TTL、TCP端口号和UDP长度字段。网络流量的标准语义表示将所有这些语义字段收集到一个表示中。这种语义表示是完整且大小恒定的满足设计要求中的完整性固定尺度以及对齐。缺点语义表示不保留选项字段的顺序而选项字段长期以来一直用于区分指纹识别中的设备类别需要领域专业知识来解析每个协议的语义结构即使有了这些知识确定每个特征的正确表示通常也是一项重要的工作。例如领域知识可能表明TCP源端口是一个重要的字段但可能需要进一步(通常是手动)评估以确定是否应该将其表示为连续值还是使用one-hot编码以及是否需要在训练前对特征进行规范化。必须对以语义方式提取的每个字段做出这些决定从IP地址到每个唯一的TCP选项再到ICMP地址掩码。即难以脱离人工操作来满足规范化的要求。未对齐二进制表示unaligned binary representation 使用原始的位图表示来保持顺序并减少对手动特征工程的依赖。这种选择导致了固定尺度、预规范化的表示类似于每个数据包的“图像”。满足设计要求中的完整性固定尺度规范化。缺点将每个数据包转换为其位图表示忽略了许多复杂的细节包括不同的大小和协议。以上图为例包含IP选项字段的TCP数据包和不含IP选项字段的TCP数据包红框位置的bit含义不同不含IP选项字段的TCP数据包与不含IP选项字段的UDP数据包红框位置的bit含义也不同但机器只知道输入的是01位信息无从得知各个bit的含义。混合表示hybrid nPrint representation nPrint是语义和二进制数据包表示的混合将数据包表示为原始二进制数据但以一种识别数据包本身具有特定语义结构的方式对二进制数据进行对齐。 nPrint 完整性任何包都可以表示而不丢失信息nPrint 固定尺度每个包都用相同数量的特征来表示。对于给定的问题我们将有效负载设置为可选的字节数。随着越来越多的网络流量被加密有效负载无法用于许多流量分类问题。nPrint 规范化通过直接使用数据包的位并用-1填充不存在的头每个特征取三个值中的一个:-1,0或1消除了解析和表示每个数据包中每个字段值的需要nPrint 对齐使用内部填充并包括每个报头类型的空间而不管该报头是否实际存在于给定的数据包中确保每个数据包以相同数量的特征表示并且每个特征具有相同的含义nPrint模块化可以将其他协议(例如ICMP)添加到表示中nPrint可扩展性nPrint是一个单包表示可以用作需要一组包的分类问题的构建块可以扩展到流分类问题上 nPrint的优势对齐使nPrint比许多网络表示具有明显的优势因为它在位级别上是可解释的。这允许研究人员和从业者将nPrint映射回语义领域以更好地理解驱动给定模型性能的特征。并不是所有的模型都是可解释的但是通过一个可解释的表示我们可以更好地理解那些可解释的模型。 nPrint实现https://github.com/nprint/nprint 3. nPrintML nPrintMLhttps://github.com/nprint/nprintml AutoML 作者使用AutoGluon-Tabular对评估的所有八个问题进行特征选择、模型搜索和超参数优化。 4. 任务主动设备指纹识别5.1被动操作系统指纹识别5.2DTLS应用识别5.3其他任务5.4 总结论文内容学到的方法写论文的方法创新点不一定非要设计一个新模型提高准确率之类的可以设计一个通用的模型来简化之前研究然后收集各个任务的数据集在每个数据集上跑一下模型论文优缺点优点 nPrintML这种自动化为更快地迭代和部署网络机器学习算法铺平了道路降低了实际部署的障碍。存在的问题捕获多个流量之间的时间关系以及在更长的流量序列上运行nPrintML仍然没有得到解决当前 nPrintML 只支持两种数据集模式这个工具只适合有原始 pcap 的场景。有些竞赛的数据集之类的已经帮你把语义信息提取出来了那么 nPrint 没有 pcap 文件也束手无策。不过这也不能叫完全的缺点因为 nPrint 在实时分析上的作用还是比较大的好像没说清是nPrint是怎么为实时流量打标签的需要复现一下看看工具 nPrinthttps://github.com/nprint/nprintnPrintMLhttps://github.com/nprint/nprintml 数据集见下表可读的引用文献 AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data 笔记参考文献 https://zhuanlan.zhihu.com/p/448215353

查看全文

http://www.pierceye.com/news/174545/