【电报解读】李飞飞团队“50美元”复刻DeepSeek,基于阿里云Qwen模型监督微调而成,这家公司与阿里云共建智算云,旗下平台接入通义千问
电报解读
2025.02.07 08:22 星期五
//电报内容
【独家|李飞飞团队“50美元”复刻DeepSeek的R1真相:基于阿里云Qwen模型监督微调而成】《科创板日报》6日讯,今日有报道称李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。《科创板日报》记者调查后发现,s1模型的训练并非从零开始,其基座模型为阿里通义千问(Qwen)模型。s1用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对千问模型进行微调而成。(记者毛明江 黄心怡)
//解读摘要
李飞飞团队“50美元”复刻DeepSeek,基于阿里云Qwen模型监督微调而成,这家公司与阿里云共建智算云,旗下平台接入通义千问,另一家首个定制数据中心服务于阿里云。
单篇付费12可解锁全文
火线解读!即时推送重要资讯独家深度解析
898 起
立即购买
展开
最新文章
加载更多
关于我们|网站声明|联系方式|用户反馈|网站地图|友情链接|举报电话:021-54679377转617举报邮箱:editor@cls.cn财联社举报
财联社 ©2018-2026上海界面财联社科技股份有限公司 版权所有沪ICP备14040942号-9沪公网安备31010402006047号互联网新闻信息服务许可证:31120170007沪金信备 [2021] 2号