DeepSeek 发布全新 NSA 机制,加速长上下文训练与推理
DeepSeek 推出 NSA 机制
2 月 18 日消息,DeepSeek 今日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。NSA 的推出引起了业界的广泛关注。
NSA 的核心组件
NSA 的核心组件包括:
-
动态分层稀疏策略
-
粗粒度 token 压缩
-
细粒度 token 选择
这些组件共同作用,旨在优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。
性能表现
DeepSeek 官方表示,该机制在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。这意味着 NSA 不仅能够提供高效的训练和推理能力,还能在性能上与现有的全注意力模型媲美甚至超越。
论文链接
对于想要深入了解 NSA 机制的技术细节和研究成果的读者,可以参考以下论文链接:
https://arxiv.org/abs/2502.11089
未来展望
随着 NSA 的推出,DeepSeek 在长上下文训练与推理领域迈出了重要一步。该机制的硬件优化设计和高效性能,将为 AI 研究和应用带来更多可能性,推动相关技术的发展和进步。
结论
DeepSeek 发布的 NSA 机制,通过动态分层稀疏策略、粗粒度 token 压缩和细粒度 token 选择,实现了超快速长上下文训练与推理。其在性能上与全注意力模型相当或更加优秀,为现代硬件设计提供了优化方案,并降低了预训练成本。NSA 的推出,将为 AI 领域带来新的技术突破和应用前景。