高性能交易系统运维主管 (Lead, High-Performance Trading Systems Operations)
职位描述
您将负责领导和管理整个交易系统的运维工作,确保我们的高性能交易系统在交易时间段内保持最高级别的稳定性、效率和可用性。您是连接开发、量化研究和基础设施团队的关键枢纽,将主导运维流程的自动化和性能优化。
1. 团队管理与流程建立:
- 领导和指导 Ops 团队成员,建立并优化标准化的运维流程、发布流程(CI/CD)和紧急响应 SOP。
- 具备 SRE(Site Reliability Engineering)理念和文化,致力于通过自动化、消除重复性工作(Toil Elimination)来提高团队效率和系统稳定性。
- 对自动化运维工具链、可观测性(Observability)技术的发展趋势有深刻理解,并能主导将新技术引入生产环境,以持续提升系统整体质量。
2. 性能与系统保障:
- 负责建立和维护系统的性能基线,持续监控系统性能的高百分位(P99/P99.9)的关键指标。
- 主导 Linux 操作系统调优、网络栈优化,确保核心交易应用获得最优的计算资源。
- 负责时钟同步(如 PTP/NTP)的维护和监控,确保所有服务器时钟同步的高精确性。
3. 故障响应与排查:
- 作为一级和二级故障响应的升级点,主导重大事故的排查、恢复和事后分析(Post-mortem)。
- 利用日志、指标和追踪系统,快速定位分布式、高并发架构中的性能瓶颈和系统抖动。
4. 自动化与基础设施:
- 推动基础设施即代码(IaC)的实施,使用 Terraform/Ansible 等工具管理服务器配置和部署。
- 深度应用和定制 Python/Bash Shell 等脚本语言,用于开发复杂的自动化运维工具和性能测试框架。
职位要求
1. 学历背景:计算机科学、软件工程或相关理工科专业本科及以上学历。
2. 经验要求:具有金融或高科技领域实际运维经验,拥有团队管理经验,有交易系统运维经验者优先。
3. 技术专长:
- 精通 Linux 操作系统原理,有系统级调优经验(如 CPU 亲和性、内存优化)。
- 网络深度专精:具备高性能网络知识,熟悉组播/多播(Multicast)、网络拓扑,以及网络性能监控。
- 精通 FIX 协议:能够诊断和解决 FIX 协议级别的连接、会话和业务错误。
- 熟练掌握 Python,Bash Shell 脚本语言,具备独立开发中型运维工具的能力。
4. 软技能:出色的故障诊断、问题解决和沟通协调能力,能够在高压环境下工作。