2B多模态新SOTA,华科、华南理工发布Mini-Monkey,专治“切分增大分辨率”后遗症
|
2B多模态新SOTA,华科、华南理工发布Mini-Monkey,专治“切分增大分辨率”后遗症 近期,多模态大模型处理高分辨率图像的性能优化成为了研究热点。以往的多数方法集中于图像切分与融合策略,以增强模型对图像细节的理解,但这种做法可能导致目标和连续区域的割裂,尤其是在文档理解任务中,文字断裂的问题尤为突出。 针对这一难题,华中科技大学与华南理工大学合作推出了一款名为Mini-Monkey的轻量级多模态大模型。该模型创新性地采用了多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效解决了传统图像切分策略的弊端,显著提升了模型在高分辨率图像和文档理解任务上的性能。Mini-Monkey在多个基准测试中均取得了领先地位,充分展示了其在多模态理解与文档智能领域的潜力。 MSAC策略让Mini-Monkey能够自动生成多尺度的图像表示,确保模型能从不同尺度中识别完整的对象,避免了因切分造成的识别障碍。而SCM则是一种无参数的机制,用于在保持高效计算的同时,筛选出关键的视觉特征,进一步优化了模型的效率和性能。 实验结果显示,Mini-Monkey不仅在文档智能任务上取得了优异成绩,还在广泛的多模态理解任务中实现了性能提升,与更大参数量的模型相比,如GLM-4v-9B,Mini-Monkey在OCRBench测试中得分高达802,展现出其作为2B参数量模型的顶尖状态。 |
论坛热帖
在线投稿
-
相关阅读
-
辅导员为212名毕业生准备蛋糕和戒指 深情厚谊暖人心
-
欧盟会不会马上说中国空调产能过剩 欧洲清凉靠中国产能
-
在欧洲 中国空调从900欧炒至2679欧 高温引发抢购潮
-
网红博主李雨禅被行拘 不当言行扰乱樱桃集会
-
清华大学校长李路明寄语毕业生 争做智能时代引领者
-
Token到底是什么 如何用AI更省钱 7招降低AI编程成本
-
破伤风针龙头江西生物上市首日破发 股价下跌12.68%
-
为什么说韩国赌上国运发展AI 十年豪赌迎两种结局
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
辅导员为212名毕业生准备蛋糕和戒指 深情厚谊暖人心
-
欧盟会不会马上说中国空调产能过剩 欧洲清凉靠中国产能
-
在欧洲 中国空调从900欧炒至2679欧 高温引发抢购潮
-
网红博主李雨禅被行拘 不当言行扰乱樱桃集会
-
清华大学校长李路明寄语毕业生 争做智能时代引领者
-
Token到底是什么 如何用AI更省钱 7招降低AI编程成本
-
破伤风针龙头江西生物上市首日破发 股价下跌12.68%
-
为什么说韩国赌上国运发展AI 十年豪赌迎两种结局

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论