岗位职责 (以下工作内容中的一项或多项):
Metrics:设计,开发与维护指标监控服务,结合实际业务场景和应用框架,提供高性能、稳定、可扩展的指标采集、聚合和查询能力,技术栈包括但不限于:Grafana / Prometheus / Thanos / VictoriaMetrics / Cortex;
Logging:设计,开发与维护日志服务,提供高性能、稳定、扩展性良好的日志采集、查询、监控能力,技术栈包括包括但不限于:OpenSearch / LogStash / Fluentbit / Loki;
Tracing:设计,开发与维护 Tracing 服务,针对具体业务场景进行 Tracing 能力的定制化,技术栈包括但不限于:Jaeger / OpenTelemetry;
设计和梳理 Best Practice,指导业务合理高效的使用 Observability Stack,有效提升研发团队的 Dev Efficiency & Service Stability;
Provision:维护和改进技术基础设施,包括但不限于 terraform,vault,ansible,helm等
负责基础服务架构、稳定性、产品化设计和建设,包括但不限于服务治理、网关、消息队列、配置中心等
持续改善已有服务,优化系统薄弱点,提升系统性能和稳定性;优化和改进研发流程与工具,提高工作效率
任职要求:
对以上的至少一类子问题有专家级的实践经验和理解,设计和搭建过较大规模的监控 / 日志 / Tracing 系统,对系统架构和性能优化有较深入的相关经验;
2年以上软件开发工作经验,熟练掌握 GoLang / Rust / Python / C++ 中的至少一门语言; 有k8s实际开发经验者优先
具备良好的系统问题分析经验和能力,能够解决最复杂的系统问题,追求工程卓越;
加分项:
对软件开发流程有深入理解,热衷于工程效率优化,关注最前沿的软件工程技术与实践;
热爱开源,对云计算、容器技术有浓厚兴趣,熟悉 CNCF 及其生态;
熟悉主流云计算厂商 (阿里云 / AWS / GCP) 的技术演进趋势和架构实现;