设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

2025/2/18 16:50:36 来源:IT之家 作者:汪淼 责编:汪淼
感谢IT之家网友 软媒新友1933769 的线索投递!

IT之家 2 月 18 日消息,DeepSeek 今日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。

NSA 的核心组件包括:

  • 动态分层稀疏策略

  • 粗粒度 token 压缩

  • 细粒度 token 选择

DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。

IT之家附论文链接:

https://arxiv.org/abs/2502.11089

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:DeepSeek

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知