职位描述
1. 负责公司在 AI 训练和高性能存储等核心场景下的高性能网络系统研发;
2. 参与 RDMA(IB/RoCE)高性能网络的落地与优化,构建极致低延迟、高带宽的通信能力;
3. 设计并实现用户态网络协议栈、零拷贝通信、网络 I/O 加速组件,提升多节点分布式系统通信效率;
4. 跟踪主流硬件(Mellanox/NVIDIA 网卡、PCIe 互联、NVLink)的能力,对接底层驱动进行优化调优;
5. 推进高性能网络与平台系统(如训练框架、Kubernetes、RPC 框架)之间的深度融合;
6. 支持网络协议分析、性能调优、故障排查等系统级问题解决,提升系统整体稳定性和可观测性;
7. 编写技术设计文档和标准化规范,参与团队技术沉淀和知识分享。
职位要求
1. 本科及以上学历,计算机 或相关专业,5 年及以上系统或网络研发或运维经验;
2. 熟悉 Linux 网络子系统,能够进行网络协议栈相关调优、profiling 和调试分析。
3. 扎实的网络协议基础,精通 TCP/IP、UDP、Socket 编程,了解 RDMA、RoCE、eBPF 等中至少一种。
4. 熟练掌握 C++/Go/python 中的一种或多种,具备良好的系统设计与性能优化能力。
5. 具备良好的文档能力、沟通协作能力和工程交付意识。
加分项:
1. 有在大规模集群(千台以上)中推进高性能网络(InfiniBand)压测,治理,性能提升,疑难杂症定位经验。
2. 有高性能存储性能优化相关经验,熟悉主流的分布式文件存储。
3. 有 RDMA + NCCL + 分布式训练优化实战经验。
4. 对主流的训练框架/推理框架有一定的理解和接触。