数据中心网络运维工程师(超算 / RDMA / 数通)
核心职责
1. 数通网络深度运维
精通 OSPF、BGP、VXLAN、VPN等核心数通技术,能够独立设计、优化和排障;
负责大规模路由域的分区、汇总、策略控制与稳定性治理,降低故障爆炸半径;
主导 BGP 路由策略优化(AS Path、Community、Route-map 等),提升跨 DC、跨地域网络的健壮性。
2. 跨地域容灾与数据中心互联(DCI)
负责 跨地域、多数据中心互联架构的设计与运维,保障低时延、高带宽、高可靠的 DCI 能力;
设计并落地跨地域容灾方案,包括主备切换、双活、就近接入、流量牵引与故障隔离;
针对长距离传输进行优化(RTT、丢包、乱序、重传),结合应用特性制定差异化 QoS 策略。
3. 网络高可用与 SLA 持续优化
构建 99.99%+ 甚至更高 SLA的数据中心网络,推动从“可用”向“极致稳定”演进;
设计并落地多层级高可用方案:设备冗余、链路冗余、协议快速收敛、无缝切换与灰度发布;
主导重大故障 RCA 与改进闭环,沉淀运维规范与最佳实践。
4. 网络监控、可观测性与自动化
建设覆盖物理层、链路层、路由层、RDMA 层的全栈监控与可观测性体系;
引入 Telemetry、流式数据分析等技术,提升异常检测与预测能力;
推动网络自动化运维(配置管理、变更校验、故障自愈),降低人工操作风险。
5. RDMA 网络深度运维与优化
了解 InfiniBand、RoCE v1/v2等 RDMA 技术,参与生产环境部署与长期运维;
超算网络的全生命周期管理,包括部署、验收与持续优化。
任职要求
1.本科及以上学历,计算机、通信、网络工程等相关专业;
2.精通 OSPF、BGP、VXLAN、VPN,能够独立完成复杂网络设计、配置与故障定位;
3.熟悉主流数据中心交换机(H3C、锐捷、华为、NVIDIA等)及网络操作系统;
4.具备极强的网络故障排查能力和系统性思维,能够从业务视角反推网络问题;
5.具备优秀的沟通协调与跨团队推动能力,能在高压环境下稳定决策与执行;
6.具备跨地域容灾与 DCI 项目经验,熟悉长距互联、双活、灾备切换等关键设计要点者优先;
7.深入理解 InfiniBand、RoCE等RDMA技术,有实际生产环境调优经验者优先;
8.有网络自动化或运维平台开发经验者优先。