company logo
#2410
AI Engineering, Cluster Infrastructure
上海
工程-开发
我们是谁 我们是一家热爱游戏、深耕 AI 的创业公司,致力于用 AI 创造乐趣。我们相信,AI 与游戏将重塑彼此的未来:游戏将因 AI 获得真正的生命力,角色会学习、会成长、会回应玩家;而 AI 也将在游戏这个最复杂、最多变、最强调实时交互的场景中获得新的突破。我们正在构建有生命力的角色、会生长的世界,以及 AI 原生的创作平台。你将直接参与搭建支撑研究、训练、推理与线上迭代的大规模集群基础设施。 你将负责 • 负责 AI 集群方向的基础设施建设与持续演进,覆盖资源调度、任务编排、容量管理、监控告警、故障处理与稳定性治理 • 设计并优化面向 GPU/ 高性能计算场景的集群资源管理与调度机制,提升多任务并行场景下的资源利用率与系统稳定性 • 建设完善的集群可观测性体系,包括监控、日志、链路追踪、故障定位与根因归因能力 • 建设面向训练与推理场景的运维与交付机制,包括环境管理、发布变更、作业治理、容量规划与弹性扩缩 • 推动集群侧高可用能力建设,包括故障隔离、容灾恢复、SLA/SLO 建设与应急相应 我们希望你具备 • 扎实的计算机系统、分布式系统与基础设施工程基础,能够从系统层理解 AI 集群在训练、推理与混合负载场景下的关键瓶颈 • 熟悉大规模集群系统的核心问题:资源调度、任务编排、监控告警、容量规划、稳定性治理与故障恢复 • 在以下一个或多个方向具备扎实经验:GPU 集群管理、分布式系统基础设施、云原生平台、高性能计算平台、机器学习平台基础设施 • 有大规模集群或关键基础设施的实际建设经验,能够独立完成从问题定位到线上治理的完整闭环 • 熟悉 Linux 环境下的系统工程与运维实践;能够使用 Python、Go、Shell 等完成平台建设与自动化治理 • 有较强的问题抽象与跨团队协作能力,能够将快速变化的需求转化为稳定、可扩展的平台能力 加分项 • 有Kubernetes、Slurm、Ray、Volcano 或其他集群调度系统的实际使用或深度改造经验 • 有GPU/RDMA/ 高速网络 / 分布式存储 / 容器运行时等基础设施方向的实践经验 • 有服务大模型训练、后训练或高并发推理系统的经验 • 有成本治理、容量规划、资源利用率优化或大规模故障处理经验 • 有游戏 AI、实时互动系统或高可用业务平台经验
Contact Our Consultant
avatar
Renee Yang
wechat