职位描述

#2534

系统研发工程师-主机/存储方向

北京

上海

工程-基础架构

职位描述为什么加入我们 1、离大模型最近的系统工程 — 你写的每一行代码，都直接影响万卡 GPU集群上大模型训练与推理的效率和稳定性。 2、AI 原生的真实大规模场景 — 不是传统云厂商的通用资源池，而是为 AGI工作负载量身打造的计算与存储基础设施。 3、全栈深度实践 — 从内核数据面到管控面调度，从单机性能调优到集群级架构设计，你将拥有端到端的技术影响力。 4、AI First 文化 — 团队深度使用 Agent等 AI工具重新定义工程实践，拒绝重复劳动。我们在做什么 MiniMax 基础架构团队负责支撑公司全部大模型训练与推理业务的底层算力平台。我们构建和优化计算资源管理、存储访问链路、集群调度等核心系统，让万级 GPU集群高效、稳定地运转。这不是普通的运维或平台搭建工作，而是深入 Linux 内核、IO栈、设备驱动层，在真实的大规模 AI 场景中解决最硬核的系统性能问题 — 每一次 Checkpoint写入的加速、每一轮显存分配策略的优化，都直接转化为模型训练效率的提升。职位要求你将做什么 1、构建 AI 集群的计算与存储管控面系统，涵盖 GPU资源管理、调度编排、配置下发、监控告警与运维自动化。 2、深度参与数据面关键模块的开发与优化，聚焦 IO路径、存储访问链路，提升大模型训练 / 推理场景下的吞吐与稳定性。 3、设计并实现管控面与数据面的解耦协同机制，支撑大规模 GPU集群的统一管理与弹性扩展。 4、主导 AI 场景下的系统级性能分析与调优，定位计算、存储链路瓶颈（如 Checkpoint I/O、显存碎片、设备中断风暴等），推动根因修复与方案落地协同硬件选型、交付与运维团队，将底层硬件能力系统化抽象，向上层业务提供稳定、高效的基础设施服务。我们期待你 1、本科及以上学历，计算机、软件工程或相关专业。 2、扎实的系统开发基础，熟悉 Linux内核机制（进程调度、内存管理、文件系统、设备驱动等）。 3、主流公有云IaaS服务研发经验。 4、在以下方向中至少有一项实际经验：计算资源管理 / 调度系统（如 Kubernetes、GPU 虚拟化、cgroup / namespace 等） - 分布式存储 / 存储服务 / IO 栈优化（如 Ceph、NVMe-oF、io_uring 等） - 主机系统研发（内核模块、驱动开发、perf / ftrace 性能调优等） 5、具备良好的问题分析能力，能在复杂系统中独立定位和推进技术问题解决。

Contact Our Consultant

Shawn SHEN

Surrienta Consulting Ltd. @2024