company logo
#2385
高级Python开发工程师
上海
工程-开发
Python
职位描述 1. 负责Slurm集群的二次开发,优化作业调度策略,提升资源利用率和任务吞吐量; 2. 设计并实现智能调度算法,平衡计算任务优先级、资源需求与等待时间,减少队列积压; 3. 开发分布式文件系统权限管理模块,实现细粒度访问控制(如基于用户/组/作业的权限隔离); 4. 集成Slurm与内部系统(如监控平台、CI/CD流水线),通过API或插件提升自动化运维效率; 5. 分析集群性能瓶颈,提出并实施优化方案(如作业优先级动态调整、资源预留策略)。 职位要求 1. 计算机科学、软件工程或相关领域本科及以上学历。‌ 2. 3年以上Python开发经验,2年以上Slurm集群或HPC调度系统开发经验,具备分布式文件系统权限管理经验; 3. 熟练使用Python调试工具(如PyCharm、VS Code)、性能分析工具(如cProfile); 4. 熟悉Slurm配置文件(slurm.conf)、作业脚本(SBATCH)及日志分析; 5. 具备数据库操作能力(如MySQL、PostgreSQL,用于SlurmDB); 6. 强逻辑思维与问题解决能力,能独立设计复杂调度逻辑与权限模型; 7. 良好的沟通能力,能与运维团队、算法团队高效协作。
Contact Our Consultant
avatar
Elon Liu
wechat