多语言语音大模型算法专家(TT生成/语音数据模型皆可) 55-85k·15薪
上海-闵行区 2-10年 本科 招1人 5月17日更新
收藏
avator
李先生 5小时前在线 已认证
业务运营/业务咨询 · 上海翰德人力资源有限公司
简历处理快 回复速度快
聊一聊
职位介绍
【岗位职责】 多语言语音大模型数据基建:负责构建和优化高质量、大规模的多语言语音数据集。主导音频数据处理链路,包括但不限于音频过滤、说话人分离(Speaker Diarization)、质量筛选、副语言事件(Paralinguistic Events,如笑声、叹气、呼吸声等)检测以及情感分类等。 多语言语音大模型算法研发:负责前沿多语言语音生成模型(TTS)的算法设计、训练、优化及工程上线,持续提升语音生成的自然度、表现力、音色相似度及多语言能力,确保核心技术指标达到业内前沿水平。 【任职要求】 (注:候选人无需同时满足“数据”与“模型”的所有要求,在其中一个方向有深入积累,且有意愿向另一方向拓展即可) 方向一:侧重数据基建与分析(对应职责1) 在语音/音频数据处理方面有丰富经验,熟悉大规模音频数据的清洗与挖掘。 【核心要求】:对副语言事件检测(Paralinguistic Event Detection)和语音情感分类(Speech Emotion Recognition)有深入的认识和实战经验。 熟悉说话人分离、音频降噪、VAD(端点检测)、音频质量打分等相关算法。 方向二:侧重模型研发与优化(对应职责2) 在TTS或语音大模型领域有深厚积累,对以下一项或多项技术有深入研究和落地经验: 生成范式:对 Diffusion Model、Flow Matching 等前沿生成式TTS架构有深入认识。 表征与对齐:对音频量化(Audio Quantization/Codec)有深入研究;对音素与音频的强制对齐(Forced Alignment)有深入研究。 模型架构:对音素和文本结合预测的方案有深入研究;对文本-音频双流架构(Dual-stream)有深入认识。 训练策略:对语音大模型的微调(Fine-tuning)、后训练(Post-training,如RLHF/DPO在语音中的应用)有深入认识。 多语言能力:对多语言语音模型(Cross-lingual / Multilingual TTS)的架构设计与训练有深入认识。 【加分项】 全栈能力:同时具备“数据基建(尤其是副语言/情感分类)”与“大模型研发”双重经验者优先。 在顶级会议(如ICASSP, Interspeech, ACL, ICLR, NeurIPS等)发表过相关高质量论文。 有主导或参与过业界知名开源语音项目(如VALL-E, Voicebox, ChatTTS, CosyVoice等复现或优化)经验者优先。
其他信息
语言要求:不限
行业要求:互联网

猎聘温馨提示:

1. 如您发现平台内招聘方存在以下违规行为的,请立即举报
  • · 扣押您的身份证件或者其他证件;
  • · 要求您提供担保人、担保金或者以其他名义向您收取财物( 如培训费、体检费、资料费、置装费、押金等);
  • · 强迫您入股或者向您集资;
  • · 以招聘名义牟取不正当利益;
  • · 发布虚假招聘广告信息;
  • · 工作时长违反劳动法规定;
  • · 存在其他损害您的合法权益的行为。
2. 如您应聘的岗位属于涉外劳务合作/海外岗位的,请务必核实招聘方对外劳务合作资质取得情况,同时注意自身资金安全,防范招聘欺诈。
3. 本平台招聘方不向求职者提供任何收费服务。
查看全部
更新时间:2026-05-17