职位描述
1. 负责计算和数据中心的网络架构规划设计和维护优化;
2. 负责高性能网络的设计与开发,保障各组件之间网络通信与数据传输的高性能、高可用与安全可靠;
3. 负责网络技术的选型,相关新技术的探索与规划,推动新技术落地。
职位要求
1. 本科及以上学历,5年以上网络研发或SRE相关工作经验,主导或深度参与网络基础架构设计与研发运维;
2. 深入理解智算中心主流拓扑:传统 CLOS/FatTree、Dragonfly的原理与工程约束及在gpu训练群集的最新演化;熟练掌握BGP协议在大规模数据中心的应用;
3. 深入理解 ECMP原理及缺陷,理解当前各类主流自适应路由实现原理;理解各类 DualTOR 方案的优缺点,对数据中心网络可靠性有系统理解;
4. 熟悉各类高带宽线缆,网卡及交换机;熟悉Linux TCP/IP协议栈,深入理解RDMA底层机制,InfiniBand,RoCEv2 无损网络原理及网络拥塞控制机制;
5. 了解服务器虚拟化、容器技术;理解业界主流大模型并行训练机制,检查点及错误恢复机制;
6. 精通C/C++/Python/go等至少一门编程语言,具备扎实编程功底,编写过核心模块代码。