职位描述

#2556

AI 研究（audio 方向）

上海

其他

本岗位聚焦于游戏下一代内容生成（Generative AI）的前沿技术探索。你将加入核心 AI 团队，专注于语音与音频生成（Audio/Speech/Sound Generation）方向。你的工作不仅涵盖语音合成（TTS）、声音克隆、情感与风格控制、非语言声音（如呼吸、笑声）生成等核心算法的研发与落地，还将深度参与构建音频大模型与多模态模型流，打破文本、视觉与音频的边界，支撑专业内容生产（PGC）与 AI 原生的用户创作体验（UGC）你将负责 - 音频生成技术研究与迭代：负责游戏场景下语音与音频生成方向的核心算法研究，包含但不限于高质量语音合成（TTS）、声音克隆（Voice Cloning）、长文本音频生成（Long-form Audio Generation）以及环境音效、游戏音乐的生成与演进。 - 全栈实验与框架设计：设计并推动音频生成大模型的数据构建（含合成数据建模与清洗）、训练方案（Pre-training / Post-training）、强化学习对齐（Preference Learning / Reward Modeling）及实验框架，持续提升生成音频的质量、一致性、可控性与生产效率。 - 攻克游戏场景核心痛点：深入研究游戏音频生成的关键科学问题，包括： - Style & Emotion Control（风格与情感控制）：角色多情感、跨语种、戏剧化演播的精细化控制。 - Character-conditioned Generation（角色条件化生成）：基于角色设定（世界观、视觉资产或少量音频样本）进行高辨识度的声音资产生成。 - Multimodal Consistency（多模态一致性）：解决音频与游戏剧情文本、角色动作/口型（Lip-sync）及视觉场景的深度对齐与跨模态生成。 - Interactive & User-steerable Creation（交互式与用户控制生成）：实现实时低延迟的语音交互及端到端可控的生成式 UGC 工具链。 - 管线集成与落地：推动音频 Foundation Model 与游戏产品工作流（如剧情管线、NPC 实时交互、开放世界音效系统）的高效结合，使音频生成能力既能支撑专业工业化生产（PGC），也能服务 AI 原生的 UGC 体验。 - 跨团队协同：与产品、设计（Sound Design）、工程团队紧密协作，将最前沿的研究成果转化为可在线快速迭代的生成能力、工具链或工业级线上系统。职位要求我们希望你具备 - 扎实的理论基础：拥有计算机、电子信息、自动化或相关专业的硕士/博士学位（或具备同等水平的顶尖研发经验），具备扎实的机器学习、深度学习与统计学基础，对生成式模型的训练、后训练与评估有系统且深刻的理解。 - 深厚的算法背景：熟练掌握以下一个或多个方向的核心技术： - 基于 Diffusion 或 Autoregressive 的语音/音频生成模型（如 AudioLDM, Bark, CosyVoice, AudioBox 等）。 - 语音信号处理、高保真神经网络声码器（Vocoder）、传统与深度学习结合的音频编辑（Editing）。 - 优秀的研究品味 (Research Taste)：能够围绕未定义的开放性音频生成问题定义明晰的研究目标，设计严谨的对照实验，并能敏锐地从实验结果中抽丝剥茧、持续迭代。 - 强悍的工程闭环能力：熟练使用 Python 与 PyTorch，具备良好的代码质量意识与严谨的实验工程习惯。能够独立完成从数据拆解、方案实现、训练调优到端到端分析的完整闭环。 - 熟练掌握评测体系：熟悉音频/语音生成模型的评测方法，能够针对游戏场景设计覆盖音频主观听感（MOS）、声学特征一致性、风格/情感遵循度、可控性与生产效率的多维评估指标。 - 强烈的领域热忱：对游戏、内容创作、互动叙事、虚拟人（Digital Human）或 AI 驱动的创作工具系统有强烈的内在驱动力与技术热忱。加分项 - 在语音（Speech/Audio）、计算机视觉（CV）、自然语言处理（NLP）或图形学相关国际顶级会议（如 ICASSP, Interspeech, ICASSP, NeurIPS, ICLR, CVPR, SIGGRAPH 等）发表过高质量学术论文者优先。 - 有大规模 Audio / Speech / Multimodal Foundation Model 研发、数据闭环构建、或大模型分布式并行训练（Megatron, DeepSpeed 等）实际项目经验者优先。 - 熟悉可控生成（Controllable Generation）、偏好学习（Preference Learning / RLHF）、奖励模型建模（Reward Modeling）或合成数据（Synthetic Data）工程者优先。 - 有将音频生成研究成果从实验室走向线上工业级系统落地经验者优先，包括全链路数据/评测闭环、高并发低延迟工程优化、灰度迭代等。 - 有游戏研发、互动剧情管线、音效/音乐内容工具链或业界知名 AI 产品研发经历者优先。

Contact Our Consultant

Renee Yang

Surrienta Consulting Ltd. @2024