关于我们
网站声明
联系方式
用户反馈
网站地图
帮助
首页
电报
话题
盯盘
VIP
FM
投研
下载
全部
加红
公司
看盘
港美股
基金
提醒
2025年02月18日 16:34:57
DeepSeek推出NSA 用于超快速的长上下文训练和推理
财联社2月18日电,DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。
关联文章
梁文锋参与著作!DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效
收藏
阅247.27W
我要评论
反馈意见
图片
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
关联话题
人工智能
6.01W 人关注