【上海多语言语音大模型算法专家（TT生成/语音数据模型皆可）招聘】-猎头顾问上海招聘信息-猎聘

李先生 5小时前在线已认证

业务运营/业务咨询 · 上海翰德人力资源有限公司

简历处理快回复速度快

聊一聊

职位介绍: 【岗位职责】多语言语音大模型数据基建：负责构建和优化高质量、大规模的多语言语音数据集。主导音频数据处理链路，包括但不限于音频过滤、说话人分离（Speaker Diarization）、质量筛选、副语言事件（Paralinguistic Events，如笑声、叹气、呼吸声等）检测以及情感分类等。多语言语音大模型算法研发：负责前沿多语言语音生成模型（TTS）的算法设计、训练、优化及工程上线，持续提升语音生成的自然度、表现力、音色相似度及多语言能力，确保核心技术指标达到业内前沿水平。【任职要求】 (注：候选人无需同时满足“数据”与“模型”的所有要求，在其中一个方向有深入积累，且有意愿向另一方向拓展即可) 方向一：侧重数据基建与分析（对应职责1）在语音/音频数据处理方面有丰富经验，熟悉大规模音频数据的清洗与挖掘。【核心要求】：对副语言事件检测（Paralinguistic Event Detection）和语音情感分类（Speech Emotion Recognition）有深入的认识和实战经验。熟悉说话人分离、音频降噪、VAD（端点检测）、音频质量打分等相关算法。方向二：侧重模型研发与优化（对应职责2）在TTS或语音大模型领域有深厚积累，对以下一项或多项技术有深入研究和落地经验：生成范式：对 Diffusion Model、Flow Matching 等前沿生成式TTS架构有深入认识。表征与对齐：对音频量化（Audio Quantization/Codec）有深入研究；对音素与音频的强制对齐（Forced Alignment）有深入研究。模型架构：对音素和文本结合预测的方案有深入研究；对文本-音频双流架构（Dual-stream）有深入认识。训练策略：对语音大模型的微调（Fine-tuning）、后训练（Post-training，如RLHF/DPO在语音中的应用）有深入认识。多语言能力：对多语言语音模型（Cross-lingual / Multilingual TTS）的架构设计与训练有深入认识。【加分项】全栈能力：同时具备“数据基建（尤其是副语言/情感分类）”与“大模型研发”双重经验者优先。在顶级会议（如ICASSP, Interspeech, ACL, ICLR, NeurIPS等）发表过相关高质量论文。有主导或参与过业界知名开源语音项目（如VALL-E, Voicebox, ChatTTS, CosyVoice等复现或优化）经验者优先。

其他信息: 语言要求：不限; 行业要求：互联网

猎聘温馨提示：

1. 如您发现平台内招聘方存在以下违规行为的，请立即举报

· 扣押您的身份证件或者其他证件；
· 要求您提供担保人、担保金或者以其他名义向您收取财物（如培训费、体检费、资料费、置装费、押金等）；
· 强迫您入股或者向您集资；
· 以招聘名义牟取不正当利益；
· 发布虚假招聘广告信息；
· 工作时长违反劳动法规定；
· 存在其他损害您的合法权益的行为。

2. 如您应聘的岗位属于涉外劳务合作/海外岗位的，请务必核实招聘方对外劳务合作资质取得情况，同时注意自身资金安全，防范招聘欺诈。

了解更多安全防范知识>

3. 本平台招聘方不向求职者提供任何收费服务。

查看全部