职位描述

#2533

存储架构与性能优化工程师（大模型 / AI 基础设施方向）

上海

工程-开发

职位描述为什么加入我们 1. 离模型最近的存储工程 — 你优化的每一次 IO 路径，直接影响万卡集群的训练效率和模型迭代速度 2. 真实的极限规模场景 — 不是实验室 benchmark，而是 PB 级数据、千亿参数模型训练中的真实存储挑战 3. 软硬件全栈实践 — 从 NVMe SSD、RDMA 网卡到分布式文件系统、Checkpoint策略，打通存储全链路技术栈 4. 扁平协作，快速落地 — 与训练框架、GPU平台、硬件团队直接协作，你的优化方案可以在真实负载中快速验证 5. AI Native环境——在这里，AI不是工具，是你的同事。在这里，AI深度参与模型迭代并融入组织，你的精力只需要花在真正值得思考的事情上。我们在做什么我们是 MiniMax 大模型基础设施团队，为 AGI 产品背后的大规模训练与推理集群提供高性能、高可靠的存储底座。这不是普通的存储开发，而是在万卡 GPU 集群上，针对 Checkpoint 写入、数据集加载、推理缓存等 AI 原生 IO 模式，设计和优化下一代存储架构 —你将深度参与从硬件选型、协议调优到自动化测试体系的全链路建设。 1. 面向大模型训练、推理与数据清洗场景，负责存储软件与硬件方案的选型、测试、交付与运维，制定存储产品技术路线，支撑大规模 GPU/AI 集群稳定运行。 2. 设计并实施 AI 场景下的存储性能测试体系，覆盖：大模型训练（Checkpoint / Dataset / ...IO 伴生负载）推理服务（低延迟、高并发、小 IO）数据清洗与特征工程（高吞吐、顺序/混合 IO） 3. 输出性能评估与优化报告，指导架构决策。 4. 深入分析训练与推理链路中的 IO 瓶颈（CPU / GPU / 网络 / 存储协同），提出针对性的性能调优方案，包括但不限于：存储协议与参数优化数据布局与访问模式优化 Cache / Buffer / 并发模型优化 5. 评估新型存储硬件与技术在 AI 场景下的性价比与适配性（如 NVMe SSD、RDMA、分布式存储、新文件系统），推动新技术在大模型平台落地。 6. 持续监控存储系统在真实大模型业务负载下的稳定性、性能与质量，快速定位问题并推动闭环改进，与训练框架、平台及硬件团队协作解决复杂问题。 7. 建设和完善存储性能测试方法、工具与自动化体系，提升大模型基础设施的整体效率与可扩展性。职位要求 1. 本科及以上学历，计算机、电子工程等相关专业， 2. 5 年以上存储领域经验（开发 / 测试 / 性能优化）， 3. 3 年以上存储系统架构设计或规划经验 4. 熟悉 Linux / Unix 系统，精通系统与 IO 相关原理，具备独立分析和解决复杂性能问题的能力。 5. 熟悉至少一种存储形态：对象存储 / 块存储；分布式文件系统（如并行文件系统、云存储架构） 6. 理解其在大模型训练与推理场景下的适用性与限制。 7. 熟悉服务器硬件体系结构（CPU、内存、NVMe SSD、NIC、PCIe 拓扑等），理解 GPU 训练对存储与网络的依赖关系。 8. 熟练使用性能测试与分析工具，如 Fio、Iperf、IOzone 等； 9. 有 AI 场景定制化性能测试或工具开发经验者优先。 10. 具备良好的跨团队沟通与项目推动能力，能够在模型训练、平台、硬件、运维等多团队协作中推动问题落地解决。

Contact Our Consultant

Shawn SHEN

Surrienta Consulting Ltd. @2024