company logo
#2568
数据中心网络运维工程师(超算 / RDMA / 数通)
杭州
工程-网络运维
核心职责 1. 数通网络深度运维 精通 OSPF、BGP、VXLAN、VPN等核心数通技术,能够独立设计、优化和排障; 负责大规模路由域的分区、汇总、策略控制与稳定性治理,降低故障爆炸半径; 主导 BGP 路由策略优化(AS Path、Community、Route-map 等),提升跨 DC、跨地域网络的健壮性。 2. 跨地域容灾与数据中心互联(DCI) 负责 跨地域、多数据中心互联架构的设计与运维,保障低时延、高带宽、高可靠的 DCI 能力; 设计并落地跨地域容灾方案,包括主备切换、双活、就近接入、流量牵引与故障隔离; 针对长距离传输进行优化(RTT、丢包、乱序、重传),结合应用特性制定差异化 QoS 策略。 3. 网络高可用与 SLA 持续优化 构建 99.99%+ 甚至更高 SLA的数据中心网络,推动从“可用”向“极致稳定”演进; 设计并落地多层级高可用方案:设备冗余、链路冗余、协议快速收敛、无缝切换与灰度发布; 主导重大故障 RCA 与改进闭环,沉淀运维规范与最佳实践。 4. 网络监控、可观测性与自动化 建设覆盖物理层、链路层、路由层、RDMA 层的全栈监控与可观测性体系; 引入 Telemetry、流式数据分析等技术,提升异常检测与预测能力; 推动网络自动化运维(配置管理、变更校验、故障自愈),降低人工操作风险。 5. RDMA 网络深度运维与优化 了解 InfiniBand、RoCE v1/v2等 RDMA 技术,参与生产环境部署与长期运维; 超算网络的全生命周期管理,包括部署、验收与持续优化。 任职要求 1.本科及以上学历,计算机、通信、网络工程等相关专业; 2.精通 OSPF、BGP、VXLAN、VPN,能够独立完成复杂网络设计、配置与故障定位; 3.熟悉主流数据中心交换机(H3C、锐捷、华为、NVIDIA等)及网络操作系统; 4.具备极强的网络故障排查能力和系统性思维,能够从业务视角反推网络问题; 5.具备优秀的沟通协调与跨团队推动能力,能在高压环境下稳定决策与执行; 6.具备跨地域容灾与 DCI 项目经验,熟悉长距互联、双活、灾备切换等关键设计要点者优先; 7.深入理解 InfiniBand、RoCE等RDMA技术,有实际生产环境调优经验者优先; 8.有网络自动化或运维平台开发经验者优先。
Contact Our Consultant
avatar
Zoy Wang
Consultant
wechat