职位描述
1. 负责Slurm集群的二次开发,优化作业调度策略,提升资源利用率和任务吞吐量;
2. 设计并实现智能调度算法,平衡计算任务优先级、资源需求与等待时间,减少队列积压;
3. 开发分布式文件系统权限管理模块,实现细粒度访问控制(如基于用户/组/作业的权限隔离);
4. 集成Slurm与内部系统(如监控平台、CI/CD流水线),通过API或插件提升自动化运维效率;
5. 分析集群性能瓶颈,提出并实施优化方案(如作业优先级动态调整、资源预留策略)。
职位要求
1. 计算机科学、软件工程或相关领域本科及以上学历。
2. 3年以上Python开发经验,2年以上Slurm集群或HPC调度系统开发经验,具备分布式文件系统权限管理经验;
3. 熟练使用Python调试工具(如PyCharm、VS Code)、性能分析工具(如cProfile);
4. 熟悉Slurm配置文件(slurm.conf)、作业脚本(SBATCH)及日志分析;
5. 具备数据库操作能力(如MySQL、PostgreSQL,用于SlurmDB);
6. 强逻辑思维与问题解决能力,能独立设计复杂调度逻辑与权限模型;
7. 良好的沟通能力,能与运维团队、算法团队高效协作。