比GPT-4o更强?三位Adobe老将出走,做出了超强文生图模型丨AI新榜评测
GPT-4o,被击败了? 最近大伙都被GPT-4o生成的各种“整活”图像刷屏了吧,各种动漫油画风格改图、经典影视复现、漫画设计改图……新的玩法每天都在涌现,大有“AI一日,人间一年”之势。 甚至OpenAI CEO Sam Altman都累了:“收手吧,我们需要休息!” 但就在GPT-4o火遍全球之际,一个来自初创团队的新模型Reve Image(Halfmoon),却凭借其在特定图像生成领域的出色表现,悄然赢得了用户和专业榜单的认可,排名连续多日超过GPT-4o,在人物、奇幻与神话、插画等细分领域更是妥妥的王者。 自3月发布以来,它在多个海外第三方“盲测竞技榜”上表现抢眼,即使在GPT-4o持续刷屏的日子里,依然能在榜单上占据高位。 截图日期:4月1日 (注:“盲测竞技场”模式下,用户在不知晓背后模型的情况下,对两张生成图片进行投票,得分高者胜出。排名很大程度上反映了模型生成结果的视觉吸引力和与大众审美偏好的契合度。) 这不禁让人好奇,Reve这匹“黑马”究竟有何过人之处?它如何在巨头林立的文生图“牌桌”上占据一席之地?我们通过一系列实测来一探究竟。 实测:从AI生图到AI“摄影” 模型发布后,Reve官方在X平台上将自己的核心优势概括为三点:提示词遵循(Prompt Following)、美学(Aesthetics)和排版(Typography)。 我们就从这几个方面入手,把它与如今大热的GPT-4o、Imagen3、Recraft直接对比,来看看Reve表现究竟如何。 1. 提示词遵循:不漏掉任何一个元素,还要逻辑合理 首先,我们来测试模型处理复杂指令的能力,将几种风马牛不相及的元素组合在一起,观察模型的还原度和逻辑性。
不难看出,Reve、Recraft和GPT-4o在细节处理上较为接近。Reve和GPT-4o生成的图片表现出了更符合提示词要求的油画质感,而Recraft则忽视了“直视观众”的信息。相比之下,Imagen3生成的图像略显粗糙。 我们再来一组:
这组对比除了能直观地检查各模型是否遵循提示词以外,还可以很直观地看到它们的风格偏好。虽然这是一个虚构场景,但Reve和GPT-4o生成的图像中,企鹅和巧克力河流的元素仍呈现出偏写实的风格。相比之下,Recraft生成的图像风格虽然更讨喜,但却忽略了很多细节。 2. 美学表现与风格塑造:氛围感与人文气息是亮点 在很多评测中,美学风格符合大众偏好是大模型在盲测中脱颖而出的关键。我们换一组较为正常和细致的提示词,其中包含了大量主观描述,看看这些模型会怎么处理。 自然风光与氛围
人物肖像与故事感
动态场景与情绪
艺术风格与虚构场景
意境理解和视觉化 我们再上些难度,把经典名著中的景物描写交给模型,这些描述相对模糊,看看它们会给出怎样的答卷。
在以上几组对比中,各模型生成的图像在核心元素还原上似乎并未拉开决定性差距,但仔细对比后不难发现,Reve在处理细节上与其他模型存在一些不同之处。 例如最后一个案例中,将川端康成《雪国》开篇文字视觉化,是对模型捕捉意境及理解能力的考验。所有模型都生成了火车、雪景、夜晚这些关键元素,但只有Reve在这一测试中采用了框式构图,拍摄角度和质感都更接近人类摄影师拍摄的照片。 而这种对摄影构图和真实感的偏好,并非个例。 Reve在这一案例中生成的照片大量出现远景,利用天空、雪地、火车在画面比例上的对比,表现“大地一片白茫茫” AI新榜观察到,当许多文生图模型倾向于生成视角相对“标准”、构图“板正”的图像时,Reve常常会采用一些在AI生成领域不那么常见、但在人类摄影作品中却很经典的构图方式。例如更具纵深感的角度、利用前景遮挡、模拟特定镜头焦段的效果等。 再加上Reve本身在光影效果、内容质感方面的不错表现,使其生成的图像甚至难辨真假。 Reve生图,来自X平台用户“rita kozlov” 图自X平台用户“Christian Cantrell” 这种对构图、光影和质感的细腻把握,使得Reve在生成具有人文气息、故事感和电影质感的写实风格图像方面尤为出色,这或许就是它能够在考察大众审美偏好的盲测中取得好成绩的秘密。 图来自X平台用户“Fofr” 3. 文字排版能力:图文融合有亮点,但语种支持待提升 Reve的另一个亮点在于,它能将文字融入图像并进行一定的排版设计,形成很有设计感的图片。例如这组动物与文字穿插融合的设计图片,虽然生成内容质量都很不错,但除Reve以外其他模型均未能完成提示词中关于动物与字体穿插的描述。
对于当前的AI文生图模型而言,要实现这种效果,不仅仅是将文字图层叠加在图片上,而是需要模型理解提示词描述的“穿插”、“遮挡”(如熊头从“e”字母中穿出)这类精确的空间布局指令,处理好两者的交互,这对很多模型而言都是难点。 图片来自X平台用户“Travis Davids” 图片来自X平台用户“Travis Davids” 不过遗憾的是,目前,Reve在处理除英文以外的其他语言时仍然存在一些问题。比如,当我们把提示词从“熊”换成“虎”,并要求模型生成中文时,虽然图像从文字中间穿过的效果仍然可以实现,但汉字却无法正常生成。 综合来看,Reve是一个长处和短处都非常明显的产品。 长处:
短板:
复杂元素过多时Reve表现不如GPT-4o,左Reve右GPT-4o 需要注意的是,Reve官方提供了两个访问入口。其中https://reveai.org/zh界面简洁、支持中文、免注册,但功能相对基础,生图效果稍弱且一次只能生成一张图片。 如果想要体验完整版可以访问以下网址: https://preview.reve.art/app 这一入口操作界面与其他AI图像工具接近,上方“Create”显示的是用户已经生成的图像,“Explore”区展示的是其他创作者生成的图像或官方图片,下方悬浮操作区用来输入提示词和调整参数,但在输入中文提示词时需要打开“Enhance on”。 不知道是不是为了防止因访问量太多而崩溃,Reve AI并非完全免费,但每天登录会赠送20次试用,新账号赠送100积分(1积分生成1张图片),也可以购买积分,价格是5美元500积分。 02Reve登顶背后,是三位Adobe老将的“梦想” 很多人好奇,“Reve”这个源自法语“rêve”(梦想)的名字背后,是一个怎样的团队?官网介绍十分低调:
但这个“小”团队背后,是三位图形处理界的“大佬”:
有网友推测,三人离开公司重组Reve团队,可能是为了完成一些在原公司推行受阻的项目。 Reve面世后,创始人们在社交平台上的发言似乎印证了这一点,还为我们揭示了Reve AI更深层的目标。创始人Taesung Park在X平台发文表示:
Michaël Gharbi也发表了类似的观点,并将现有模型比作只会模仿的“随机鹦鹉”: 显然,Reve AI的目标远不止于生成“好看”的图片,而是要构建具备逻辑推理、意图理解和深层世界模型的新一代视觉生成系统。 基于创始人在计算摄影、GauGAN等方面的过往成就,我们谨慎推测:Reve在技术路径上可能借鉴了计算摄影,模型注重学习场景的3D布局、对象间的空间关系以及光照与材质的物理交互。 从这个角度而言,或许Reve和这个“小团队”的故事,或许才刚刚翻开序章,我们可以期待它在逻辑性、可控性和多语言支持等方面持续进化。 说起来,Reve这次确实有点“生不逢时”。 团队埋头苦干一年,好不容易把第一代模型Reve Image发出来,它也争气地冲上了盲测榜首,甚至一度被兴奋的用户捧为“(当时)世界最佳图像模型”。 仅仅过了一天之后,功能更全面、声势更浩大的GPT-4o便横空出世,把热度完全抢走,这让刚刚崭露头角的Reve Image瞬间显得黯淡无光。 这也让我们回到了最初的问题:在GPT-4o这样强大且全面的多模态模型阴影下,其他文生图模型是否还有机会? 而Reve或许已经用它带有明显倾向性的生图策略,给了我们答案。 当下的AI模型在“生成万物”上已取得长足进步,“整活”玩法层出不穷,但往往缺乏独特的“视觉品味”或难以稳定输出特定的高级美学风格。 Reve则敏锐地切入了“人文写实”及“电影氛围感”这一细分审美领域,通过深度优化,提供了超越许多通用模型的效果,同时保持了极低的门槛(免费、易用),将“审美”本身作为核心竞争力。 这种“审美力”并非空中楼阁,而是具有实实在在的商业价值。 对于很多需要进行专业内容创作的企业和个人(例如文章配图、品牌营销、概念设计、出版插画等领域)而言,仅仅生成“看起来还行”的图片是远远不够的。他们在很多时候需要的是风格符合调性、能够传递特定情绪、甚至达到以假乱真效果的高质量视觉素材。 而Reve擅长的写实风格、电影感和氛围感营造的能力,恰好满足了这一专业需求,能够帮助创作者更高效地产出具有“质感”和“故事感”的内容。而且与Recraft等平台不同,Reve明确声明其生成的图片版权归属个人,完全可以商用,扫清了专业应用的又一障碍。 还有网友指出,Reve这种极具人文风格的图像很适合用来制作电影,有不少网友已经开始行动,使用Reve生成的图片+即梦/可灵来创作短片。 这种由Reve独特审美驱动、与其他AI工具联动组合的玩法,也是其“专精”价值得以延伸和放大的体现。 我也用它生成的图片试了下。前文使用《雪国》开头生成的图片,通过框式构图给人“穿过长长的轨道”的期待,如果让它动起来,再加上AI生成的音效,是否能满足你对“雪国”想象呢。 显然,如果你追求的不是天马行空的奇幻效果,而是希望获得更贴近真实世界、蕴含情绪和叙事性的现实风格图像,那么Reve会是个不错的选择。 虽然GPT-4o的光芒已经足够耀眼,但一个健康繁荣的AI生态,既需要GPT-4o这样的强大“平台”和“通才”,也离不开像Reve这样在垂直领域深耕细作、独具特色的“专才”。 资料: https://mgharbi.com/ https://x.com/Taesung/status/1904220824435032528 https://x.com/m_gharbi/status/1904213903384695280 https://taesung.me/ |
在线投稿
-
相关阅读
-
如何提高12306购票成功率?干货来了 春运购票全攻略
-
蘑菇车联滕德毅谈自动驾驶巴士 创新旅游应用场景
-
女子远嫁被婆家宠成孩子 跨国情缘幸福美满
-
“95后”歼16飞行员亮相“代表通道” 分享强军经历与感悟
-
走火入魔!“独派”推动台北中山南路改名为“杜勒斯大道”
-
董明珠寄语民营企业家:随着智能化的发展 只要努力就一定有机会
-
这是一场教科书式的紧急抢救:警民联合抢救突发心脏骤停旅客
-
约三千年前的城市排水系统什么样 约三千年前古人用套接陶管排水
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
如何提高12306购票成功率?干货来了 春运购票全攻略
-
蘑菇车联滕德毅谈自动驾驶巴士 创新旅游应用场景
-
女子远嫁被婆家宠成孩子 跨国情缘幸福美满
-
“95后”歼16飞行员亮相“代表通道” 分享强军经历与感悟
-
走火入魔!“独派”推动台北中山南路改名为“杜勒斯大道”
-
董明珠寄语民营企业家:随着智能化的发展 只要努力就一定有机会
-
这是一场教科书式的紧急抢救:警民联合抢救突发心脏骤停旅客
-
约三千年前的城市排水系统什么样 约三千年前古人用套接陶管排水

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论