团队介绍:AI System,跟踪AI新技术,为公司提供通用性和创新性训练、推理框架及性能优化等。本次招聘聚焦在任务调度、训练、告警等公司核心支撑平台的开发及优化。
职位描述
核心平台开发:深度参与任务调度平台以及自研机器学习平台的架构设计、核心模块开发与性能优化。
性能优化:对平台进行深度性能调优,包括但不限于数据库性能、调度引擎性能、大规模工作流DAG解析效率等。
高可用与稳定性保障:设计和实施高可用、可扩展的集群部署方案,确保调度平台7x24小时稳定运行,具备良好的容灾能力。
运维工具与监控:构建完善的平台监控、告警和运维体系,提升平台的自动化运维水平和问题排查效率。
技术难题攻关:解决平台在复杂依赖调度、资源隔离、海量任务并发等场景下的技术挑战
任职要求
工作经验:3年及以上后端开发经验,拥有任务调度系统或训练系统的设计、开发或相关开源系统深度使用经验。
技术栈:精通Java语言及生态,熟练掌握SpringBoot、SpringCloud、Netty、ZK、MyBatis等主流框架。
数据库能力:精通MySQL/PostgreSQL,具备优秀的SQL优化和数据库设计能力,熟悉数据仓库、数据治理、大型分布式数据库。
系统设计能力:具备扎实的计算机基础,深刻理解分布式系统原理,熟悉高并发、高可用系统设计模式。
问题解决能力:具备很强的分析和解决复杂技术问题的能力,能够独立承担关键模块的研发工作。
团队协作:良好的沟通能力和团队协作精神,有责任心,对技术有热情。
加分项:
拥有DolphinScheduler、ApacheAirflow等流程执行引擎相关经验。
熟悉容器化技术(Docker、Kubernetes),并有在K8s上部署和管理经验。
熟悉消息队列(如Kafka、RabbitMQ)、缓存(如Redis)等中间件。
会使用python等脚本语言。
我们为您提供
• 有竞争力的薪酬待遇: 具有行业竞争力的薪资、年终奖金。
• 核心技术挑战: 参与公司最核心的基础设施建设,直面海量数据和高并发场景的技术挑战,个人成长空间巨大。
• 技术氛围: 与顶尖的技术团队共事,鼓励技术创新,提供参加国内外技术大会和交流的机会。
• 完善的福利体系: 五险一金、补充医疗保险、带薪年假、金融行业假期、节日福利、团建活动等。
• 灵活的工作方式:不打卡。