company logo
#2291
RDMA开发工程师
上海
工程-网络运维
职位描述 1. 负责公司在 AI 训练和高性能存储等核心场景下的高性能网络系统研发; 2. 参与 RDMA(IB/RoCE)高性能网络的落地与优化,构建极致低延迟、高带宽的通信能力; 3. 设计并实现用户态网络协议栈、零拷贝通信、网络 I/O 加速组件,提升多节点分布式系统通信效率; 4. 跟踪主流硬件(Mellanox/NVIDIA 网卡、PCIe 互联、NVLink)的能力,对接底层驱动进行优化调优; 5. 推进高性能网络与平台系统(如训练框架、Kubernetes、RPC 框架)之间的深度融合; 6. 支持网络协议分析、性能调优、故障排查等系统级问题解决,提升系统整体稳定性和可观测性; 7. 编写技术设计文档和标准化规范,参与团队技术沉淀和知识分享。 职位要求 1. 本科及以上学历,计算机 或相关专业,5 年及以上系统或网络研发或运维经验; 2. 熟悉 Linux 网络子系统,能够进行网络协议栈相关调优、profiling 和调试分析。 3. 扎实的网络协议基础,精通 TCP/IP、UDP、Socket 编程,了解 RDMA、RoCE、eBPF 等中至少一种。 4. 熟练掌握 C++/Go/python 中的一种或多种,具备良好的系统设计与性能优化能力。 5. 具备良好的文档能力、沟通协作能力和工程交付意识。 加分项: 1. 有在大规模集群(千台以上)中推进高性能网络(InfiniBand)压测,治理,性能提升,疑难杂症定位经验。 2. 有高性能存储性能优化相关经验,熟悉主流的分布式文件存储。 3. 有 RDMA + NCCL + 分布式训练优化实战经验。 4. 对主流的训练框架/推理框架有一定的理解和接触。
Contact Our Consultant
avatar
Yuri Liu
wechat