company logo
#2245
高性能交易系统运维主管 (Lead, High-Performance Trading Systems Operations)
上海
工程-系统可靠性工程师SRE
职位描述 您将负责领导和管理整个交易系统的运维工作,确保我们的高性能交易系统在交易时间段内保持最高级别的稳定性、效率和可用性。您是连接开发、量化研究和基础设施团队的关键枢纽,将主导运维流程的自动化和性能优化。 1. 团队管理与流程建立: - 领导和指导 Ops 团队成员,建立并优化标准化的运维流程、发布流程(CI/CD)和紧急响应 SOP。 - 具备 SRE(Site Reliability Engineering)理念和文化,致力于通过自动化、消除重复性工作(Toil Elimination)来提高团队效率和系统稳定性。 - 对自动化运维工具链、可观测性(Observability)技术的发展趋势有深刻理解,并能主导将新技术引入生产环境,以持续提升系统整体质量。 2. 性能与系统保障: - 负责建立和维护系统的性能基线,持续监控系统性能的高百分位(P99/P99.9)的关键指标。 - 主导 Linux 操作系统调优、网络栈优化,确保核心交易应用获得最优的计算资源。 - 负责时钟同步(如 PTP/NTP)的维护和监控,确保所有服务器时钟同步的高精确性。 3. 故障响应与排查: - 作为一级和二级故障响应的升级点,主导重大事故的排查、恢复和事后分析(Post-mortem)。 - 利用日志、指标和追踪系统,快速定位分布式、高并发架构中的性能瓶颈和系统抖动。 4. 自动化与基础设施: - 推动基础设施即代码(IaC)的实施,使用 Terraform/Ansible 等工具管理服务器配置和部署。 - 深度应用和定制 Python/Bash Shell 等脚本语言,用于开发复杂的自动化运维工具和性能测试框架。 职位要求 1. 学历背景:计算机科学、软件工程或相关理工科专业本科及以上学历。 2. 经验要求:具有金融或高科技领域实际运维经验,拥有团队管理经验,有交易系统运维经验者优先。 3. 技术专长: - 精通 Linux 操作系统原理,有系统级调优经验(如 CPU 亲和性、内存优化)。 - 网络深度专精:具备高性能网络知识,熟悉组播/多播(Multicast)、网络拓扑,以及网络性能监控。 - 精通 FIX 协议:能够诊断和解决 FIX 协议级别的连接、会话和业务错误。 - 熟练掌握 Python,Bash Shell 脚本语言,具备独立开发中型运维工具的能力。 4. 软技能:出色的故障诊断、问题解决和沟通协调能力,能够在高压环境下工作。
Contact Our Consultant
avatar
Elon Liu
wechat