DeepSeek在《自然》杂志公布论文 R1模型成本创新低
|
AI初创公司DeepSeek的论文最近登上了《自然》杂志。该公司表示,其强大的AI模型R1的成功并不依赖于模仿其他大型语言模型生成的示例进行训练。这一声明随着R1模型同行评审版本的发布而公布。 论文详细介绍了DeepSeek如何增强标准的大型语言模型以应对推理任务,并首次揭示了训练R1的成本为29.4万美元。这不包括公司在开发基础LLM上花费的大约600万美元,但总成本仍然远低于竞争对手模型所花费的数千万美元。R1主要使用英伟达的H800芯片进行训练。 R1被认为是第一个经过同行评审过程的主要大型语言模型。Hugging Face的机器学习工程师刘易斯·图恩斯特尔审阅了该论文后表示,这是一个非常受欢迎的先例,因为公开分享这一过程有助于评估这些系统是否构成风险。 自1月份发布以来,DeepSeek因其与世界领先的AI应用相比具有明显竞争优势且成本低廉而备受赞誉和关注。据Sensor Tower数据,DeepSeek推出的应用在最初的18天内获得了1600万次下载,几乎是OpenAI的ChatGPT首次发布时900万次下载量的两倍。 公开资料显示,DeepSeek成立于2023年7月,由知名量化资管巨头幻方量化创立,专注于开发先进的大语言模型和技术。幻方量化的掌门人梁文锋是DeepSeek的创始人。 |
在线投稿
-
相关阅读
-
理想汽车官方辟谣,关于走私车辆的传闻不实
-
高中生200米跑破纪录,曾想弃考打工追逐梦想
-
寻人照美颜过度,墨女子失踪4天才找到,警方详解救援过程
-
驻日大使馆批日方严重违背人类良知,事件真相引发国际关注
-
员工因不涨工资干不了2天后被离职,职场生存困境引热议
-
男子持16年假学位证求职,校方回应,从未授予
-
妈妈吃鸡爪不幸卡喉,三个孩子紧急施救,温馨一幕感动网友
-
17岁少年狂吃一碗螺蛳粉致胃破洞,警惕饮食安全!
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
理想汽车官方辟谣,关于走私车辆的传闻不实
-
高中生200米跑破纪录,曾想弃考打工追逐梦想
-
寻人照美颜过度,墨女子失踪4天才找到,警方详解救援过程
-
驻日大使馆批日方严重违背人类良知,事件真相引发国际关注
-
员工因不涨工资干不了2天后被离职,职场生存困境引热议
-
男子持16年假学位证求职,校方回应,从未授予
-
妈妈吃鸡爪不幸卡喉,三个孩子紧急施救,温馨一幕感动网友
-
17岁少年狂吃一碗螺蛳粉致胃破洞,警惕饮食安全!

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论