岗位职责
1. AI 平台开发:设计、实施和维护高性能 AI 基础设施平台,支撑大规模模型训练与推理;
2. 资源调度优化:开发 GPU/加速器资源调度策略,最大化硬件利用率并降低运营成本;3. 研究员需求响应:深度对接量化研究员需求,定制加速实验与部署的基础设施解决方案;
4. 平台效能提升:通过自动化、监控及性能调优,持续增强平台易用性、扩展性与可靠性;
5. 工具链建设:开发资源管理、诊断及排障的自助工具,赋能研究团队并降低运维负担;
岗位要求
1. 计算机相关专业本科及以上学历,1 年以上云平台/分布式系统开发经验或优秀应届生均可;
2. 熟练掌握 C++开发,掌握常见的算法和数据结构;
3. 具备良好的系统设计能力,具备性能、可靠性、可用性、可扩展性等方面的系统思考;
4. 具备 GPU 资源管理(CUDA 栈)、开源机器学习平台、云原生调度系统、分布式存储系统以及训练框架的底层相关开发经验;
5. 拥有复杂技术问题攻坚能力和跨团队协作经验。