职位描述

#2410

AI Engineering, Cluster Infrastructure

上海

工程-开发

我们是谁我们是一家热爱游戏、深耕 AI 的创业公司，致力于用 AI 创造乐趣。我们相信，AI 与游戏将重塑彼此的未来：游戏将因 AI 获得真正的生命力，角色会学习、会成长、会回应玩家；而 AI 也将在游戏这个最复杂、最多变、最强调实时交互的场景中获得新的突破。我们正在构建有生命力的角色、会生长的世界，以及 AI 原生的创作平台。你将直接参与搭建支撑研究、训练、推理与线上迭代的大规模集群基础设施。你将负责 • 负责 AI 集群方向的基础设施建设与持续演进，覆盖资源调度、任务编排、容量管理、监控告警、故障处理与稳定性治理 • 设计并优化面向 GPU/ 高性能计算场景的集群资源管理与调度机制，提升多任务并行场景下的资源利用率与系统稳定性 • 建设完善的集群可观测性体系，包括监控、日志、链路追踪、故障定位与根因归因能力 • 建设面向训练与推理场景的运维与交付机制，包括环境管理、发布变更、作业治理、容量规划与弹性扩缩 • 推动集群侧高可用能力建设，包括故障隔离、容灾恢复、SLA/SLO 建设与应急相应我们希望你具备 • 扎实的计算机系统、分布式系统与基础设施工程基础，能够从系统层理解 AI 集群在训练、推理与混合负载场景下的关键瓶颈 • 熟悉大规模集群系统的核心问题：资源调度、任务编排、监控告警、容量规划、稳定性治理与故障恢复 • 在以下一个或多个方向具备扎实经验：GPU 集群管理、分布式系统基础设施、云原生平台、高性能计算平台、机器学习平台基础设施 • 有大规模集群或关键基础设施的实际建设经验，能够独立完成从问题定位到线上治理的完整闭环 • 熟悉 Linux 环境下的系统工程与运维实践；能够使用 Python、Go、Shell 等完成平台建设与自动化治理 • 有较强的问题抽象与跨团队协作能力，能够将快速变化的需求转化为稳定、可扩展的平台能力加分项 • 有Kubernetes、Slurm、Ray、Volcano 或其他集群调度系统的实际使用或深度改造经验 • 有GPU/RDMA/ 高速网络 / 分布式存储 / 容器运行时等基础设施方向的实践经验 • 有服务大模型训练、后训练或高并发推理系统的经验 • 有成本治理、容量规划、资源利用率优化或大规模故障处理经验 • 有游戏 AI、实时互动系统或高可用业务平台经验

Contact Our Consultant

Renee Yang

Surrienta Consulting Ltd. @2024