职位描述

#2347

AI Infra研发工程师-平台方向

北京

上海

工程-开发

团队介绍：AI System，跟踪AI新技术，为公司提供通用性和创新性训练、推理框架及性能优化等。本次招聘聚焦在任务调度、训练、告警等公司核心支撑平台的开发及优化。职位描述核心平台开发：深度参与任务调度平台以及自研机器学习平台的架构设计、核心模块开发与性能优化。性能优化：对平台进行深度性能调优，包括但不限于数据库性能、调度引擎性能、大规模工作流DAG解析效率等。高可用与稳定性保障：设计和实施高可用、可扩展的集群部署方案，确保调度平台7x24小时稳定运行，具备良好的容灾能力。运维工具与监控：构建完善的平台监控、告警和运维体系，提升平台的自动化运维水平和问题排查效率。技术难题攻关：解决平台在复杂依赖调度、资源隔离、海量任务并发等场景下的技术挑战任职要求工作经验：3年及以上后端开发经验，拥有任务调度系统或训练系统的设计、开发或相关开源系统深度使用经验。技术栈：精通Java语言及生态，熟练掌握SpringBoot、SpringCloud、Netty、ZK、MyBatis等主流框架。数据库能力：精通MySQL/PostgreSQL，具备优秀的SQL优化和数据库设计能力，熟悉数据仓库、数据治理、大型分布式数据库。系统设计能力：具备扎实的计算机基础，深刻理解分布式系统原理，熟悉高并发、高可用系统设计模式。问题解决能力：具备很强的分析和解决复杂技术问题的能力，能够独立承担关键模块的研发工作。团队协作：良好的沟通能力和团队协作精神，有责任心，对技术有热情。加分项：拥有DolphinScheduler、ApacheAirflow等流程执行引擎相关经验。熟悉容器化技术（Docker、Kubernetes），并有在K8s上部署和管理经验。熟悉消息队列（如Kafka、RabbitMQ）、缓存（如Redis）等中间件。会使用python等脚本语言。我们为您提供 • 有竞争力的薪酬待遇：具有行业竞争力的薪资、年终奖金。 • 核心技术挑战：参与公司最核心的基础设施建设，直面海量数据和高并发场景的技术挑战，个人成长空间巨大。 • 技术氛围：与顶尖的技术团队共事，鼓励技术创新，提供参加国内外技术大会和交流的机会。 • 完善的福利体系：五险一金、补充医疗保险、带薪年假、金融行业假期、节日福利、团建活动等。 • 灵活的工作方式：不打卡。

Contact Our Consultant

Chloe Chang

Surrienta Consulting Ltd. @2024