岗位职责
1、实盘运维与监控:
负责实盘服务器的日常部署、安装、配置、维护和监控。
7x24小时响应和处理系统告警与故障,保障线上服务的高可用性和稳定性;
执行日常系统巡检,及时发现并处理潜在风险;
2、故障处理与优化:
快速定位并解决实盘层面的各类故障;
针对事故和风险制定并完成改进措施,持续优化和迭代;
3、运维自动化:
编写脚本(Shell/Python/Ansible等)自动化日常重复性工作,如自动化部署、日志分析、监控大盘等;
了解AI技术,能使用AI提升工作效率;
4、安全与合规:
制定和维护运维规范、操作手册、应急预案等文档;
工作流程满足行业合规性要求;
识别系统安全风险和漏洞并进行修复;
5、功能和系统测试:
深刻理解业务需求,多角度全方位对功能迭代进行上线前测试;
参与测试流程和方法的改进;
引入新的测试工具和技术,提升整体测试水平和效率;
6、跨团队合作:
与投研和开发团队紧密合作,达成业务目标;
基于业务需要,明确提出开发需求和交付标准,并协同落地;
对跨团队项目进行交付验收。
任职要求
1、操作系统:精通Linux/Unix操作系统(如CentOS, Ubuntu)的常用命令、系统管理、性能监控和故障排查;
2、脚本能力:掌握Shell和Python语言,能开发脚本用于自动化任务;
3、自动化与配置管理:精通至少一种自动化配置管理工具,如 ansible, airflow;
4、监控工具:有使用主流监控系统的经验,如 Prometheus, Grafana等,能配置监控项和告警规则;
5、服务与中间件:熟悉数据库(MySQL, Redis)、消息队列(Kafka, RabbitMQ)等的部署、配置和用法;
6、版本控制:熟练使用Git进行代码管理。
7、有较强的逻辑思维与分析能力,能够快速理解复杂系统逻辑,善于分析和定位问题;并具备良好的文档编写习惯,能清晰地记录运维流程、方案和故障报告;
8、对线上环境有敬畏之心,对细节敏感,有极强的责任心,对结果负责;
9、能适应快节奏、高强度的工作环境,能冷静、高效地7x24处理紧急线上故障;
10、能自驱快速学习新技术、新工具,主动改进工作方式。
加分项
1、有金融行业领域经验,了解股票、期货交易和风控,熟悉下单流程者优先;
2、有AI领域经验,熟练使用AI提效者优先。