提升7倍 DeepSeek官宣测试全新大模型:或为V4 Lite
|
快科技2月13日消息,前几天国产AI来了一波爆发,智谱GLM-5、Minimax 2.5及DeepSeek在11日同一天都发布了新的大模型,其中DeepSeek的自然最受关注。 此前我们已经报道过了,这次更新主要是提升了上下文能力,达到了1M,而之前的DeepSee V3系列也就是128K,这方面相对前代V3系列大模型提升了7倍。 今晚DeepSeek也在官方群中正式确认了这一点,表示网页及APP版正在测试新的长文本模型结构,支持1M上下文。 同时DeepSeek还强调API服务还没变,还是V3.2系列大模型,只支持128K上下文。 从DeepSeek的介绍来看,这次的新模型还是文本模型,主要提升就是上下文能力,这个在很多领域也非常重要,长对话时很容易因为上下文不够导致大模型记不住之前的内容了。 虽然网上已经有很多实测显示这次的DeepSeek大模型在编程、输出速度等方面提升也非常大,但相比于此前的期待,这次的更新难免有些失望。 这次的大模型显然不是V4,更可能是V4 Lite,因为参数量据悉只有2000亿,比V3系列的6700亿还少很多,因此部分能力比V3还差也是正常。 猜测这个模型是V4 lite,DeepSeek未来发布的V4大模型也不太可能只有一款,而是有不同版本,每个系列有不同的方向和设计,现在的这个V4 Lite只是探路,因此提升的内容不多,而且DeepSeek官方也没有详细说明其技术架构,一切还有待更多信息释放。 传闻中的DeepSeek V4满血版是1.5万亿参数,比V3系列翻倍还多,还会使用之前DeepSeek研究的Engram、mHC等新技术,性能全面提升的同时成本还低,这个期待值还是很高的。 |
在线投稿
-
相关阅读
-
代斯对战温峥嵘,观众质疑黑幕,现场一片哗然!
-
新乡南太行一私家车坠崖悲剧发生,2人遇难引关注
-
数千年炼铁技艺革新,中国高炉成功出铁
-
女子走失25年,腹中竟藏90斤巨瘤,揭开尘封的惊人真相!
-
代斯热舞瞬间,尽显女团风采,网友,这股女团味太上头了!
-
伊朗启动真实承诺4第92波打击,军事行动背后的战略意图解析
-
苹果第8号员工坚守岗位至今,揭秘他与乔布斯共度的传奇岁月
-
乘风2026初舞台排名揭晓,阚清子勇夺第一,实力惊艳众人
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
代斯对战温峥嵘,观众质疑黑幕,现场一片哗然!
-
新乡南太行一私家车坠崖悲剧发生,2人遇难引关注
-
数千年炼铁技艺革新,中国高炉成功出铁
-
女子走失25年,腹中竟藏90斤巨瘤,揭开尘封的惊人真相!
-
代斯热舞瞬间,尽显女团风采,网友,这股女团味太上头了!
-
伊朗启动真实承诺4第92波打击,军事行动背后的战略意图解析
-
苹果第8号员工坚守岗位至今,揭秘他与乔布斯共度的传奇岁月
-
乘风2026初舞台排名揭晓,阚清子勇夺第一,实力惊艳众人

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论