AI Engineering, Cluster Infrastructure
我们是谁
我们是一家热爱游戏、深耕 AI 的创业公司,致力于用 AI 创造乐趣。我们相信,AI 与游戏将重塑彼此的未来:游戏将因 AI 获得真正的生命力,角色会学习、会成长、会回应玩家;而 AI 也将在游戏这个最复杂、最多变、最强调实时交互的场景中获得新的突破。我们正在构建有生命力的角色、会生长的世界,以及 AI 原生的创作平台。你将直接参与搭建支撑研究、训练、推理与线上迭代的大规模集群基础设施。
你将负责
• 负责 AI 集群方向的基础设施建设与持续演进,覆盖资源调度、任务编排、容量管理、监控告警、故障处理与稳定性治理
• 设计并优化面向 GPU/ 高性能计算场景的集群资源管理与调度机制,提升多任务并行场景下的资源利用率与系统稳定性
• 建设完善的集群可观测性体系,包括监控、日志、链路追踪、故障定位与根因归因能力
• 建设面向训练与推理场景的运维与交付机制,包括环境管理、发布变更、作业治理、容量规划与弹性扩缩
• 推动集群侧高可用能力建设,包括故障隔离、容灾恢复、SLA/SLO 建设与应急相应
我们希望你具备
• 扎实的计算机系统、分布式系统与基础设施工程基础,能够从系统层理解 AI 集群在训练、推理与混合负载场景下的关键瓶颈
• 熟悉大规模集群系统的核心问题:资源调度、任务编排、监控告警、容量规划、稳定性治理与故障恢复
• 在以下一个或多个方向具备扎实经验:GPU 集群管理、分布式系统基础设施、云原生平台、高性能计算平台、机器学习平台基础设施
• 有大规模集群或关键基础设施的实际建设经验,能够独立完成从问题定位到线上治理的完整闭环
• 熟悉 Linux 环境下的系统工程与运维实践;能够使用 Python、Go、Shell 等完成平台建设与自动化治理
• 有较强的问题抽象与跨团队协作能力,能够将快速变化的需求转化为稳定、可扩展的平台能力
加分项
• 有Kubernetes、Slurm、Ray、Volcano 或其他集群调度系统的实际使用或深度改造经验
• 有GPU/RDMA/ 高速网络 / 分布式存储 / 容器运行时等基础设施方向的实践经验
• 有服务大模型训练、后训练或高并发推理系统的经验
• 有成本治理、容量规划、资源利用率优化或大规模故障处理经验
• 有游戏 AI、实时互动系统或高可用业务平台经验