DeepSeek 登顶苹果应用商店下载榜,技术与成本优势成关键
DeepSeek 成功登顶
1 月 27 日,DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜,超越了 ChatGPT。同时,DeepSeek 也在苹果中国区应用商店免费榜中名列第一。这一成就引发了广泛关注。
技术与成本的双重优势
中国工程院院士、清华大学计算机系教授郑纬民及多位 AI 圈人士在与新浪科技沟通中,指出了 DeepSeek 其成功出圈的关键所在。目前,业界对 DeepSeek 的喜爱与赞美,主要集中在三个方面。
技术层面的突破
首先,在技术层面,DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 两款模型,分别实现了比肩 OpenAI 4o 和 o1 模型的能力。这两款模型在性能上表现出色,得到了业内的高度认可。
成本优势
其次,DeepSeek 研发的这两款模型成本更低,仅为 OpenAI 4o 和 o1 模型的十分之一左右。这一成本优势使得 DeepSeek 在市场竞争中占据了有利位置。
开源策略
第三,DeepSeek 将这两大模型的技术开源,这让更多的 AI 团队能够基于最先进同时成本最低的模型,开发更多的 AI 原生应用。开源策略不仅促进了技术的传播和应用,也提升了 DeepSeek 的品牌影响力。
模型成本降低的秘密
郑纬民指出,DeepSeek 自研的 MLA 架构和 DeepSeek MOE 架构,为其自身的模型训练成本下降起到了关键作用。MLA 主要通过改造注意力算子压缩了 KV Cache 大小,实现了在同样容量下可以存储更多的 KV Cache,该架构和 DeepSeek-V3 模型中 FFN 层的改造相配合,实现了一个非常大的稀疏 MoE 层,这成为 DeepSeek 训练成本低最关键的原因。
KV Cache 优化技术
KV Cache 是一种优化技术,常被用于存储人工智能模型运行时产生的 token 的键值对,以提高计算效率。通过 “以存换算” 避免了多数大模型运算每次都是从第一个 token 开始运算的重复计算,提升了算力使用效率。
解决 MoE 模型性能难题
此外,DeepSeek 还解决了 “非常大同时非常稀疏的 MoE 模型” 使用的性能难题。通过 MoE 混合专家模型提升 AI 大模型的专业认知能力正成为业界公认的有效手段,但专家模型变多可能导致最终生成的结果不太准确。DeepSeek 比较厉害的是训练 MoE 的能力,成为公开 MoE 模型训练中第一个能训练成功这么大 MoE 的企业。
高效的专家模型激活技术
为保证大规模 MoE 专家模型的均衡运行,DeepSeek 使用了先进的、不需要辅助损失函数的、专家加载均衡技术,保证每个 token 下,少量专家网络参数被真正激活的情况下,不同的专家网络能够以更均衡的频率被激活,防止专家网络激活扎堆。此外,DeepSeek 还充分利用专家网络被稀疏激活的设计,限制了每个 token 被发送往 GPU 集群节点的数量,这使得 GPU 之间通信开销稳定在较低的水位。
总结
DeepSeek 应用凭借其技术与成本优势,成功登顶苹果应用商店下载榜。其背后的 DeepSeek-V3 和 DeepSeek-R1 模型在性能和成本上的突破,以及开源策略的实施,使得 DeepSeek 在 AI 领域取得了显著的成就。未来,DeepSeek 有望继续引领 AI 应用的发展,为用户带来更多创新和便利。