小米MiMo-V2.5语音模型正式发布:一句话生成声音、克隆真人音色
|
快科技4月24日消息,今日,小米正式发布MiMo-V2.5语音模型,带来MiMo-V2.5-TTS系列与MiMo-V2.5-ASR。 这是一套面向Agent时代的全链路语音模型系列,覆盖识别与合成两大核心能力,让语音的输入与输出都可以被语言自由调度。 在语音合成方面,MiMo-V2.5-TTS系列提供三大模型,分别对应不同创作场景: 首先是MiMo-V2.5-TTS,内置多款高质量精品音色,经过专业调优,发音自然、情感贴合,并支持语速、情绪、语气等精细化控制,开箱即用,满足多场景表达。 其次是MiMo-V2.5-TTS-VoiceDesign,支持通过一句自然语言描述生成全新音色,无需任何参考音频。 用户可从年龄、性别、口音、音质乃至性格气质等多个维度自由定义,例如低沉略带嘶哑的老年学者”或元气满满的少女”,模型即可自动生成对应声音形象。 依托大规模预训练能力,模型对复杂、模糊、甚至相互矛盾的描述也能合理解读,而不局限于男/女/青年/老年这类粗粒度标签。 第三是MiMo-V2.5-TTS-VoiceClone,主打音色克隆能力,用户仅需提供数秒参考音频,无需训练或微调,即可复刻真人播客、配音演员、品牌代言人,或者用户本人声音。 复刻后的声音不仅保留了原始说话人的音色身份,也保留了气息、节奏、习惯性停顿等个人特征。 同时,克隆音色可继续叠加自然语言指令、音频标签、导演剧本级脚本,实现更高自由度的语音创作。 作为全链路语音模型系列的听觉基座,MiMo-V2.5-ASR在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。 目前,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone已在Xiaomi MiMo API开放平台限时免费。 |
在线投稿
-
相关阅读
-
三明女司机踹保安事件后续 冲突升级引热议
-
金价显著下跌 深圳水贝冷清不少 市场回归理性
-
重庆医院通报幼童坠楼情况 患儿生命体征平稳
-
司机回应多次打断男乘客搭讪同乘女子 本能反应守护安全
-
女子踹保安前被两次推门夹腿 监控还原真相
-
女子买12万黄金首饰金店报警 反诈意识救场
-
老人插队被撞离世后续 家属索赔70万遭驳回
-
被骗电诈园女大学生父亲再发声 对方失联未放人
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
三明女司机踹保安事件后续 冲突升级引热议
-
金价显著下跌 深圳水贝冷清不少 市场回归理性
-
重庆医院通报幼童坠楼情况 患儿生命体征平稳
-
司机回应多次打断男乘客搭讪同乘女子 本能反应守护安全
-
女子踹保安前被两次推门夹腿 监控还原真相
-
女子买12万黄金首饰金店报警 反诈意识救场
-
老人插队被撞离世后续 家属索赔70万遭驳回
-
被骗电诈园女大学生父亲再发声 对方失联未放人

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论