company logo
#2533
存储架构与性能优化工程师(大模型 / AI 基础设施方向)
上海
工程-开发
职位描述 为什么加入我们 1. 离模型最近的存储工程 — 你优化的每一次 IO 路径,直接影响万卡集群的训练效率和模型迭代速度 2. 真实的极限规模场景 — 不是实验室 benchmark,而是 PB 级数据、千亿参数模型训练中的真实存储挑战 3. 软硬件全栈实践 — 从 NVMe SSD、RDMA 网卡到分布式文件系统、Checkpoint策略,打通存储全链路技术栈 4. 扁平协作,快速落地 — 与训练框架、GPU平台、硬件团队直接协作,你的优化方案可以在真实负载中快速验证 5. AI Native环境——在这里,AI不是工具,是你的同事。在这里,AI深度参与模型迭代并融入组织,你的精力只需要花在真正值得思考的事情上。 我们在做什么 我们是 MiniMax 大模型基础设施团队,为 AGI 产品背后的大规模训练与推理集群提供高性能、高可靠的存储底座。 这不是普通的存储开发,而是在万卡 GPU 集群上,针对 Checkpoint 写入、数据集加载、推理缓存等 AI 原生 IO 模式,设计和优化下一代存储架构 —你将深度参与从硬件选型、协议调优到自动化测试体系的全链路建设。 1. 面向大模型训练、推理与数据清洗场景,负责存储软件与硬件方案的选型、测试、交付与运维,制定存储产品技术路线,支撑大规模 GPU/AI 集群稳定运行。 2. 设计并实施 AI 场景下的存储性能测试体系,覆盖: 大模型训练(Checkpoint / Dataset / ...IO 伴生负载) 推理服务(低延迟、高并发、小 IO) 数据清洗与特征工程(高吞吐、顺序/混合 IO) 3. 输出性能评估与优化报告,指导架构决策。 4. 深入分析训练与推理链路中的 IO 瓶颈(CPU / GPU / 网络 / 存储协同),提出针对性的性能调优方案,包括但不限于: 存储协议与参数优化 数据布局与访问模式优化 Cache / Buffer / 并发模型优化 5. 评估 新型存储硬件与技术 在 AI 场景下的性价比与适配性(如 NVMe SSD、RDMA、分布式存储、新文件系统),推动新技术在大模型平台落地。 6. 持续监控存储系统在 真实大模型业务负载 下的稳定性、性能与质量,快速定位问题并推动闭环改进,与训练框架、平台及硬件团队协作解决复杂问题。 7. 建设和完善 存储性能测试方法、工具与自动化体系,提升大模型基础设施的整体效率与可扩展性。 职位要求 1. 本科及以上学历,计算机、电子工程等相关专业, 2. 5 年以上存储领域经验(开发 / 测试 / 性能优化), 3. 3 年以上存储系统架构设计或规划经验 4. 熟悉 Linux / Unix 系统,精通系统与 IO 相关原理,具备独立分析和解决复杂性能问题的能力。 5. 熟悉至少一种存储形态: 对象存储 / 块存储 ;分布式文件系统(如并行文件系统、云存储架构) 6. 理解其在 大模型训练与推理场景 下的适用性与限制。 7. 熟悉服务器硬件体系结构(CPU、内存、NVMe SSD、NIC、PCIe 拓扑等),理解 GPU 训练对存储与网络的依赖关系。 8. 熟练使用性能测试与分析工具,如 Fio、Iperf、IOzone 等; 9. 有 AI 场景定制化性能测试或工具开发经验 者优先。 10. 具备良好的跨团队沟通与项目推动能力,能够在 模型训练、平台、硬件、运维 等多团队协作中推动问题落地解决。
Contact Our Consultant
avatar
Shawn SHEN
wechat