岗位职责(以下工作内容中的一项或多项):
·Metrics:设计,开发与维护指标监控服务,结合实际业务场景和应用框架,提供高性能、稳定、可扩展的指标采集、聚合和查询能力,技术栈包括但不限于:Grafana/Prometheus/Thanos/VictoriaMetrics/Cortex;Logging:设计,开发与维护日志服务,提供高性能、稳定、扩展性良好的日志采集、查询、监控能力,技术栈包括包括但不限
F:OpenSearch/LogStash/Fluentbit/Loki;
Tracing:设计,开发与维护 Tracing 服务,针对具体业务场景进行 Tracing 能力的定制化,技术栈包括但不限于:Jaeger /OpenTelemetry;
设计和梳理 Best Practice,指导业务合理高效的使用 Observability stack,有效提升研发团队的 Dev Eficiency & Service
Stability;Provision:维护和改进技术基础设施,包括但不限于 terraform,vault,ansible,helm等负责基础服务架构、稳定性、产品化设计和建设,包括但不限于服务治理、网关、消息队列、配置中心等·持续改善已有服务,优化系统薄弱点,提升系统性能和稳定性;优化和改进研发流程与工具,提高工作效率任职要求:
·对以上的至少一类子问题有专家级的实践经验和理解,设计和搭建过较大规模的监控/日志/Tracing 系统,对系统架构和性能优化有较深入的相关经验:2年以上软件开发工作经验,熟练掌握 GoLang/Rust/Python/c++ 中的至少一门语言;有k8s实际开发经验者优先·具备良好的系统问题分析经验和能力,能够解决最复杂的系统问题,追求工程卓越:加分项:
·对软件开发流程有深入理解,热衷于工程效率优化,关注最前沿的软件工程技术与实践
·热爱开源,对云计算、容器技术有浓厚兴趣,熟悉 CNCF 及其生态;
熟悉主流云计算厂商(阿里云/AWS/GCP)的技术演进趋势和架构实现;