company logo
#2435
运维开发工程师(大模型方向)-至知
北京
上海
工程-运维开发Devops
工作职责: 1、系统可靠性保障:主导Hadoop/YARN、Spark、Flink、Kafka、DolphinScheduler等大数据组件的高可用架构设计、部署、调优和监控与故障应急响应; 2、可观测性体系:设计并落地统一监控告警平台(Prometheus/Grafana+自定义指标),覆盖从主机到作业粒度的全栈监控; 建设日志分析系统(ELK/Splunk),实现快速故障定位与根因分析,开发智能告警降噪与自愈脚本;3、自动化与DevOps:开发自动化运维工具(Python/Go/Java),覆盖部署、扩缩容、配置管理、日志收集等场景,构建CI/CD流水线,实现大数据组件无人值守发布与灰度升级,维护Infrastructure asCode (Terraform/Ansible)及配置中心化管理。 任职要求: 1、3年以上集群运维/SRE经验; 2、精通以下至少3项: 分布式系统原理:HDFS/YARN/Spark/Flink/Kafka/DolphinScheduler工作原理及调优;运维技术栈:Linux内核调优、网络(TCP/IP)、容器化(Docker/K8s);自动化开发:Python/Go/Shell脚本开发能力; 可观测工具: Prometheus/Grafana/ELK/OpenTelemetry; 3、熟悉云原生大数据服务者优先; 4、主导过100+节点集群的稳定性治理经历优先。
Contact Our Consultant
avatar
Renee Yang
wechat