腾讯混元发布全新视频生成模型：14G消费级显卡流畅运行生成5-10秒高清视频

来源：网络 作者：声远热闻

阅读：1694

发布时间：2025-11-21 17:34:58

评论：0

[摘要] 快科技11月21日消息，今日，腾讯混元大模型团队宣布开源最新视频生成模型HunyuanVideo 1.5，这是一款基于Diffusion Transformer（DiT）架构、参数为8.3B的轻量级视频生成模型，支持生成5-10秒的高清视频。该模型已经抢先在元宝”上线，普通用户可以直接体验，可通过两种方式：一是输入文字描述（Prompt），直接实现文生视频”；二是上传图片配合Prompt，轻松将静

快科技11月21日消息，今日，腾讯混元大模型团队宣布开源最新视频生成模型HunyuanVideo 1.5，这是一款基于Diffusion Transformer（DiT）架构、参数为8.3B的轻量级视频生成模型，支持生成5-10秒的高清视频。

该模型已经抢先在元宝”上线，普通用户可以直接体验，可通过两种方式：一是输入文字描述（Prompt），直接实现文生视频”；二是上传图片配合Prompt，轻松将静态图片转化为动态视频。

据介绍，HunyuanVideo 1.5模型能力全面，支持中英文输入的文生视频与图生视频。

其中，图生视频能力展现出图像与视频的高度一致性，生成的视频在色调、光影、场景、主体和细节等方面都能与原图较好匹配。

模型还具备强指令理解与遵循能力，能够精准地实现多样化场景，包括运镜、流畅运动、真实的物理规律遵循、写实人物和人物情绪表情等多种指令。

在元宝中可以通过文字和图片生成视频

同时，HunyuanVideo 1.5支持写实、动画、积木等多种风格，并可在视频中生成中英文文字，满足多样化内容创作需求。

在画质方面，模型可原生生成480p和720p高清视频，并可通过超分模型提升至1080p电影级画质。

此前，视频生成领域的开源SOTA旗舰模型至少有20B，需要超过50GB显卡方可部署。

HunyuanVideo 1.5定位为开源小钢炮”，显著降低了使用门槛可在14G显存的消费级显卡上流畅运行，真正让每一位开发者和创作者都能玩起来”。

HunyuanVideo1.5通过多层次的技术创新，实现了生成效果、性能与尺寸上的平衡。

HunyuanVideo 1.5创新的SSTA稀疏注意力机制（全称Selective and Sliding Tile Attention,选择性滑动分块注意力）在保证高质量生成的同时显著提升推理效率，配合多阶段渐进式训练策略，在运动连贯性、语义遵循等关键维度均达到商用水平。