负责实盘应用的集成、部署和运维保障,构建自动化部署流水线,确保系统的高可用性和快速故障恢复能力。
核心职责
应用集成与持续部署:
- 横向对接各应用团队,梳理应用依赖和数据依赖关系
- 开发自动化集成测试工具,实现应用版本的自动打包和验证
- 设计并实施灰度部署和版本升级方案
- 负责管理核心应用的实盘部署
- 制定故障处理SOP,实现快速响应和最小授权原则
- 保障K8s、MySQL、Prometheus等基础设施的高可用性,建立7×24小时运维保障体系,目标可用性99.99%
职位要求
- 系统集成,部署、交付或SRE相关经验
- 具有较强的问题梳理排查和定位
- 熟悉 golang 以及 Python/C++ 等编程语言的一门或多门;
- 熟悉云原生,K8s、监控告警、数据库等生态和架构
- 具备自动化运维工具开发能力,熟悉Ansible/Python等
- 具备良好的跨团队协作能力和应急处理能力
加分项:
- 有大规模集群运维和调优经验的优先
- 有金融交易系统或实盘应用部署经验者优先
- 熟悉异构并行计算,对GPU/OpenCL/CUDA的实践应用有深刻理解者优先
- 有SOP流程建设经验的优先