岗位职责
-算力平台规划与开发
1.主导量化算力平台的技术规划,设计分布式计算框架(如分布式任务调度、配额管理及弹性负载管理);
2.推动高性能计算生态工具链的集成(如Dask、Ray等),提升算法开发与回测效率;
3.优化容器化部署方案(Containerd/Kubernetes),支持低延迟、高并发的量化策略运行。
-Kubernetes集群运维与优化
1.负责公司Kubernetes集群的全生命周期管理,包括高可用架构设计、资源调度优化、故障排查与性能调优;
2.制定集群治理规范,推动自动化运维(如集群扩缩容、节点健康检查、资源配额管理等);
3.结合量化业务场景(如高频交易、算法回测、模型训练)优化集群资源利用率,降低算力成本;
4.优化/维护集群监控体系(Prometheus/Grafana),实现异常告警与自动恢复机制。
-DevOps工具链建设
1.规划并落地全链路DevOps工具链,覆盖代码管理(Gitlab)、持续集成(Gitlab Pipelines)、自动化测试、容器镜像管理(Harbor)、制品库管理等;
2.集成监控与日志系统(Grafana/Prometheus/VictoriaMetrics 等),实现端到端可观测性;
3.推动基础设施即代码(IaC),提升环境一致性与部署效率。
-技术方向与效能提升
1.制定基础架构技术路线图,评估新技术(如 RDMA、GPU 池化、 IB 网络优化、云原生工具)的适用性;
2.驱动团队采用敏捷开发模式,优化开发流程与协作效率(如GitOps、自动化测试覆盖率提升);
3.推动代码与架构规范落地,保障系统可维护性与可扩展性。
-团队协作
1.与量化策略、数据、风控等团队协作,确保技术方案贴合业务需求;
2.定期输出技术文档与架构演进报告,推动技术知识共享。
任职要求
-技术能力:
计算机、金融工程或相关专业本科及以上学历,8年以上系统架构经验,3年以上团队管理经验;
深入理解Kubernetes原理与生态工具(如 Calico、Cillium, Kubeflow、Volcano、KubeVirt),有大规模集群(500+节点)运维经验者优先;
深入理解分布式存储服务GPFS/OceanStore/NFS/S3,有 PB/EB 级别存储的业务封装/管理/运维/优化经验优先
精通Python开发,熟悉分布式计算框架(Dask/Spark/Slurm)、GPU资源管理及并行计算优化;
熟练掌握Docker、CI/CD工具(GitLab CI)、配置管理(Ansible/Terraform)及监控告警体系;
具备Linux系统优化、网络协议(TCP/UDP)、存储等领域实践经验。
-业务理解:
对量化私募行业有深刻认知,了解高频交易、算法策略开发、回测系统等业务场景的技术挑战;
熟悉金融数据处理(如行情数据、订单流)的低延迟架构设计优先。
-软技能:
优秀的逻辑思维与问题解决能力,能快速定位复杂系统故障;
良好的跨团队协作与沟通能力,能够推动技术方案与业务目标对齐;
对技术创新有热情,持续关注云原生、AIOps等前沿技术趋势。
加分项
有量化私募或高频交易系统基础设施建设经验;
熟悉量化平台开源项目(如QuantConnect、Backtrader)或私有化部署;
参与过大规模分布式系统性能优化或故障恢复案例。