1.负责服务器集群的硬件监控、维护和故障诊断(CPU/GPU/内存/InfiniBand);
2.管理Linux系统(CentOS/Ubuntu)的安装配置、调优及安全加固;
3.维护Kubernetes集群及容器化平台,优化GPU和高速网络性能;
4.运维GPFS并行文件系统,负责存储池管理和性能优化;
5.为研究团队提供技术支持,编写运维文档和故障处理手册。
职位要求
1.计算机/电子相关专业本科及以上学历;
2.2年以上大规模Linux服务器集群运维经验;
3.熟悉x86服务器架构和硬件故障处理;
4.掌握Kubernetes、GPFS等核心组件运维;
5.具备Python/Bash脚本编程能力;
6.能接受数据中心现场工作安排;
7.有量化行业经验者优先。