网站建设改版目的,漯河做网站zrgu,企业网络推广平台公司,怎么查在建工地的信息下一代分布式追踪—将Trace扩展到网络设备 一、技术背景二、研究动机三、方法数据采集#xff1a;数据整合#xff1a;路径重建#xff1a;可视化与分析#xff1a; Foxhound#xff0c;Foxhound四、典型案例五、结论 一、技术背景 
随着云计算和微服务的普及#xff0c;… 下一代分布式追踪—将Trace扩展到网络设备 一、技术背景二、研究动机三、方法数据采集数据整合路径重建可视化与分析 FoxhoundFoxhound四、典型案例五、结论 一、技术背景 
随着云计算和微服务的普及现代应用架构日趋复杂。为了有效监控、诊断和优化这些分布式系统分布式追踪技术应运而生。传统的分布式追踪如Zipkin、Jaeger和OpenTelemetry已经能够很好地追踪应用程序中的请求路径但它们主要关注应用层而很少涉及网络层。 
网络设备如交换机、路由器和负载均衡器在请求传输中起到至关重要的作用。然而当问题发生时传统的应用层追踪很难准确地指出问题是由网络设备还是应用程序引起的。 
随着摩尔定律的终结硬件性能的增长逐步放慢将系统功能下放到网络进行在网计算已经成为优化系统性能重要方式。但是当前的 Trace 和 INT 采集的数据都不足以帮助工程师精确地诊断在网计算函数。本文将网络 INT 数据与x86 Trace 数据合并将 Trace 扩展到网络层实现对 INC 的跨层监控帮助工程师诊断 INC 故障。 
二、研究动机 
为了更好地理解分布式系统中的性能瓶颈、延迟和错误来源我们不仅需要知道应用程序中的请求路径还需要了解网络设备如何处理这些请求。将Trace扩展到网络设备可以提供从客户端到服务端整个请求路径的端到端可见性从而帮助我们更准确地定位问题。 
但是当前的监控系统是为传统的网络或者应用的性能监控设计的对 INC 的监控存在以下几种缺陷 
Trace 缺乏跨层的监控能力无法关联服务器和交换机之间的监控数据。例如对一个请求当前的 Trace 的 Span 信息无法精确判断请求是由服务器执行的还是由交换机执行导致不能很好地处理 INC 的故障 
在网遥测系统INT专注于以网络为中心的指标忽略 RPC 的数据。网络遥测产生的记录不包括诊断 INC 必要的请求级别的数据例如 RPC 延迟 
三、方法 
数据采集 
首先需要在网络设备上进行数据采集。这可以通过网络镜像、sFlow、NetFlow等技术实现。这些技术可以提供设备端口级别的流量数据包括数据包大小、时间戳、源/目的IP和端口等信息。 
数据整合 
将采集到的网络设备数据与现有的应用层追踪数据进行整合。这需要将两种数据源进行时间戳对齐并根据源/目的IP和端口等信息将它们关联起来。 
路径重建 
利用整合后的数据可以重建整个请求路径包括在网络设备中的传输路径。这可以帮助我们更全面地了解请求在分布式系统中的完整路径。 
可视化与分析 
最后通过可视化工具展示整个请求路径并提供各种分析功能如延迟分析、错误率分析等从而帮助用户更快地定位和解决问题。 
FoxhoundFoxhound 
提出了一个为 INC 设计的的可观测性框架 FoxhoundFoxhound 的架构图如下图所示。Foxhound 的核心设计理念是开发工程师在 INC 中注释数据运维工程师在运行时查询可观测性数据。  假设当前想要诊断一个 INC 函数 NetCache 的故障Foxhound 的工作流程如下 PDP 开发人员在 INC 中插入 Annotation以指示感兴趣的变量  运维工程师将把所需的查询写入 Foxhound  Foxhound 生成插桩代码并加载到交换机中  Foxhound Shim 层使用唯一的 RPC 标识符RPCID标记出站查询请求数据包  
45. 标记的数据包通过交换机 交换机将带 Annotation 的变量与标记数据包的RPCID一起存储在交换机ASIC上  交换机通过 PCI-link 将数据以 PDP Span 的形式导出到Foxhound框架。  x86 服务器 Trace 也被导出到Foxhound框架  合并 x86 Trace 和 PDP Span  
进而 Foxhound 实现了服务器的 Trace 和交换机的监控数据融合的过程将 Trace 扩展到网络设备。 
四、典型案例 
假设一个分布式系统由多个微服务组成这些微服务部署在不同的物理机上并通过交换机和路由器进行通信。当某个用户反映系统响应慢时我们可以利用扩展后的分布式追踪进行问题分析。 
首先我们可以通过应用层追踪找到请求的完整路径包括它经过了哪些微服务和具体的处理时间。然后结合网络设备数据我们可以看到请求在网络设备中的传输路径和延迟。如果发现某个交换机或路由器的延迟异常高那么就可以初步判断问题可能出在网络设备上。 
接下来我们可以进一步分析该网络设备的流量数据查看是否有异常流量或配置错误。如果有那么就可以采取相应的措施进行问题修复。 
五、结论 
将Trace扩展到网络设备可以提供更全面的分布式系统可见性帮助我们更准确地定位和解决性能问题。随着技术的不断发展相信未来会有更多的工具和方法支持这种扩展使分布式系统的监控和诊断变得更加容易和高效。