性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0
|
快科技2月11日消息 今日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。 在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。 Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。 用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。 模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。 蚂蚁集团在全模态方向已持续投入多年,Ming-Omni 系列迭代三个版本,此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。 据了解,Ming-Flash-Omni 2.0基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕看得更准、听得更细、生成更稳”三大目标全面优化。 视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力; 音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力; 图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。 目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。 |
在线投稿
-
相关阅读
-
性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0
-
奶奶曾用来压锅的石头勾起全网回忆:祖孙情深感动无数网友
-
奶奶曾用来压锅的石头勾起全网回忆 当事人:会好好珍藏
-
妈妈外出3岁宝宝看店卖出一包烟 网友:毫不怯场 真机灵
-
公司刮奖以为中3万结果是30万:原本只想着中几百、几千
-
中国人到底有多爱豆制品:年货千千万 豆制品占一半
-
春节第一社交“硬通货”又涨价了:坚果炒货价格飙升
-
男孩1个赞跳绳1下 网友狂点180万 父亲直呼“扛不住”
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0
-
奶奶曾用来压锅的石头勾起全网回忆:祖孙情深感动无数网友
-
奶奶曾用来压锅的石头勾起全网回忆 当事人:会好好珍藏
-
妈妈外出3岁宝宝看店卖出一包烟 网友:毫不怯场 真机灵
-
公司刮奖以为中3万结果是30万:原本只想着中几百、几千
-
中国人到底有多爱豆制品:年货千千万 豆制品占一半
-
春节第一社交“硬通货”又涨价了:坚果炒货价格飙升
-
男孩1个赞跳绳1下 网友狂点180万 父亲直呼“扛不住”

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论