免费网站怎么建,app充值网站开发,网站改版对网站优化影响最大的问题是什么,阿里云服务器添加网站当 IT 系统出现故障#xff0c;问题定位往往是运维人员最头疼的环节。尤其是超融合系统#xff0c;由于整体涉及的技术栈比较复杂#xff0c;且有越来越多的用户基于信创环境进行部署#xff0c;非常考验厂商和技术人员的专业能力#xff1a;厂商研发和售后工程师不仅应能…当 IT 系统出现故障问题定位往往是运维人员最头疼的环节。尤其是超融合系统由于整体涉及的技术栈比较复杂且有越来越多的用户基于信创环境进行部署非常考验厂商和技术人员的专业能力厂商研发和售后工程师不仅应能快速定位自家产品的问题还可帮助用户定位和解决相关硬件、存储、虚拟化、宿主机操作系统等不同层面的故障。
得益于核心组件的自主研发能力、深度的信创生态支持和专业的技术团队实力SmartX 可为用户提供“全栈”的超融合系统故障定位与解决支持帮助用户解决基础设施软硬件含信创技术栈多个层面的技术问题。下面我们将通过 3 个案例分享 SmartX 技术人员在硬件、虚拟化平台和虚拟机层面的故障定位与处理经验。 服务器硬件层问题定位与解决案例
某制造企业存储出现过长延迟SmartX 工程师分析日志发现“可疑”SSD
某制造业用户在使用 SmartX 超融合时多次触发“存储平均延迟超过 2s”的告警未产生使用影响。得到联系后SmartX 工程师为客户提供了远程排查发现所有节点均存在零星的 Slow I/O但并没有检测到异常磁盘。工程师进一步检查了各个节点的日志发现在发生 Slow I/O 时存在异常日志 一线工程师与开发团队共同分析后判断该日志为 SSD I/O 太慢导致的。经过进一步排查工程师排除了 HBA 卡的问题在检查 SSD 时发现服务器厂商提供的硬件与客户要求的不一致可能由于 SSD 兼容性问题导致 I/O 延迟。随后 SmartX 帮助用户多次与服务器供应商及硬件厂商沟通、测试证实该 SSD 确实不符合客户预期且由于硬盘自身的资源回收机制存在问题会导致性能下降因此触发了告警。SmartX 随即协助客户完成了 SSD 更换有效解决了这一问题。 信创技术栈虚拟化平台层问题定位与解决案例
某金融机构虚拟机突然暂停SmartX 工程师发现 KVM 内存申请问题并提供 Kernel Patch
某金融机构在 ARM 架构信创环境部署 SmartX 超融合集群基于原生虚拟化 ELF在正常运行时发生虚拟机暂停现象从运维管理界面观察到虚拟机处于暂停状态无法 ping 通无法对外提供服务。
为了方便故障排查同时保证当前业务的正常进行SmartX 工程师利用 SmartX 超融合快速克隆功能新建一台虚拟机供用户临时使用随后协助用户进行远程诊断。在检查日志时SmartX 工程师发现“kernel: kvm[74555]: Unexpected L2 read permission error”记录且发生时间与虚拟机暂停的时间点基本吻合。基于这一线索工程师高度怀疑虚拟机暂停与 KVM 有关并协调服务器厂商一起进行问题排查。 为了避免再发生虚拟机暂停的情况SmartX 先为用户提供了一个临时方案该方案能够在 2 分钟内发现暂停的虚拟机并以邮件方式通知管理员由管理员操作恢复虚拟机。同时SmartX 开发团队在进一步分析后发现了问题原因当虚拟机里产生缺页中断会进入 KVM 申请内存这时 KVM 对内存页交换条件进行了错误判断导致虚拟机申请内存失败进而导致暂停。
定位问题后SmartX 开发团队在一周内就提供了 Kernel Patch通过仅修改判断条件而不改动 Kernel 和 Swap 的方式解决了该问题。用户在测试集群更新 Patch 包后虚拟机正常运行并于 3 周后对生产集群进行了升级再未出现虚拟机暂停的情况。 信创技术栈虚拟机层问题定位与解决案例
某金融机构信创集群切换虚拟网络后网卡丢失SmartX 工程师多次测试定位网卡热插拔速率
某金融用户信创超融合集群基于 ARM 架构的信创操作系统在编辑虚拟网卡关联网络后发生虚拟机网卡丢失的现象。SmartX 工程师在初步检查后发现用户原 POC 环境中并未出现该问题再次测试验证后初步判断该问题是由于跨 VDS 修改网卡网络导致的在正式集群中虚拟机网卡关联网络跨越了不同的 VDS可能存在虚拟机内部无法识别网卡的情况而 POC 环境不存在跨 VDS 的情况。
为了进一步准确根因SmartX 研发团队检查了 Guest OS 内部日志并开展了多次复现测试针对虚拟机开关机状态、虚拟 PCI 插槽、热插拔时间间隔等因素进行逐一排查。最后发现仅当 Guest OS 为某国产操作系统特定版本时基于同一虚拟 PCI 插槽执行热拔设备后立即执行热插设备操作操作系统的 Kernel pciehp 驱动中断处理异常会导致热插设备被自动卸载。后经研发团队反复测试将安全热插拔间隔时间确定在 3 秒及以上。
针对这一问题SmartX 为用户提供了 Patch确保用户在该操作系统上能够正常进行网络切换随后与操作系统厂商进行了沟通由操作系统厂商进一步定位并修复了该问题。 SmartX 超融合自研核心技术助力全栈故障根因
SmartX 技术团队卓越的故障定位与解决能力不仅源自于过硬的专业技能更得益于 SmartX 核心组件自主研发和信创技术栈的深度适配
超融合核心组件 100% 自主可控SmartX 一线工程师和开发团队具备过硬的基础设施软硬件技术实力和丰富的故障根因经验帮助用户解决多个层面的技术问题。深度适配国产主流 CPU 架构、操作系统、数据库与中间件可为用户提供针对信创技术栈的技术支持。SmartX 超融合的高可用与简易运维特性可在降低故障定位难度的同时保障业务连续性。
欲详细了解 SmartX 超融合信创适配与运维支持特性请阅读
SmartX 超融合和分布式存储支持哪些信创硬件如何选型配置志凌海纳 SmartX 在信创已成为金融机构“轻量信创云底座”首选一文了解 SmartX 超融合硬盘健康检测机制与运维实践一文了解 SmartX 超融合勒索攻击应对方案
您还可点击阅读电子书《超融合技术原理与特性解析合集管理与运维》了解 SmartX 超融合如何通过磁盘健康检测、存储性能管理、弹性扩容等特性降低用户运维压力。 阅读原文:超融合系统疑难故障定位与解决实践 3 例含信创技术栈