company logo
#2169
AI Infra 专家
北京
工程-基础架构
工作职责 1、全栈 AI 基础设施架构与建设:基于 Kubernetes 构建面向量化场景的全栈 AI 基础设施体系,统筹 GPU 等异构计算资源的池化管理,集成 RDMA 高性能通信层,协同推进 AI 训练/推理平台与 GPU 运维管理平台的一体化建设,打通从资源调度到模型部署的全链路闭环,提升系统整体效率与稳定性; 2、智能算力调度体系设计:依托 Volcano 调度器能力,设计支持多任务类型、多优先级策略的全域算力调度机制,主导 Volcano 及核心 Operator 的定制开发与维护,结合量化任务的动态资源需求,实现弹性伸缩与资源利用率最大化; 3、软硬协同优化与系统可靠性建设:构建连接底层硬件(GPU/网络/存储)与上层 AI 框架(PyTorch/TensorFlow)的中间支撑层,打造 GPU 弹性资源池、故障自愈机制与统一可观测性平台(可观测大盘),通过性能调优与自动化运维保障大规模模型训练的高效迭代与高可用运行; 4、技术前瞻与架构演进:主导 AI Infra 技术路线的长期规划,预判量化业务在算力规模、训练效率与成本控制方面的演进需求,探索并验证前沿架构方向(如异构计算融合、存算分离、Serverless AI 等),持续推动基础设施能力升级与技术壁垒构建。 任职要求 1、计算机相关专业全日制本科及以上学历,5–10 年工作经验,具备强烈的自驱力与工程落地能力,能够主动识别技术瓶颈并推动创新方案落地; 2、深入理解 AI 基础设施技术栈,精通 Kubernetes 原理和使用、GPU 资源管理机制及 RDMA 等高性能网络技术,具备大规模分布式 AI 系统的设计、部署与调优经验; 3、精通 Golang 或 Python,具备扎实的系统编程与自动化工具开发能力;有 Volcano、Kueue 等批处理调度器或 K8s Operator 开发经验者优先,具备主流开源项目贡献经历更佳; 4、熟悉资源调度核心原理,掌握 GPU 资源全生命周期管理(分配、隔离、弹性、容错等),能结合量化任务特征设计高可用、低延迟的调度策略; 5、熟悉主流 AI 框架运行机制,具备训练/推理性能调优经验,能够协同算法团队完成框架层与基础设施层的联合优化; 6、具备金融科技或量化领域 AI 基建实践经验者优先,理解业务对算力的敏感性与稳定性要求,具备跨团队协作与技术价值转化能力。
Contact Our Consultant
Chloe Chang
wechat