华为野心再升级:Atlas 950 / 960 超节点与超集群,誓要抢算力话语权

在上海举行的 华为全联接大会 2025 上,华为副董事长、轮值董事长徐直军释放出一个极具野心的信号:公司将推出迄今为止“全球最强”的算力超节点与超集群。这个体系,不只是比拼芯片数量,更在于试图用系统架构与互联技术来重塑 AI 基础设施的新标准。


核心跳跃:Atlas 950 / 960 SuperPoD 与 SuperCluster

华为此番发布了两款超节点:

  • Atlas 950 SuperPoD:支持 8,192 张昇腾卡
  • Atlas 960 SuperPoD:更进一步,可支持 15,488 张昇腾卡

不仅如此,这两个节点背后将聚合成两个超级集群(SuperCluster):

  • Atlas 950 SuperCluster:算力规模预计超过 50 万张卡
  • Atlas 960 SuperCluster:规模将达到约 100 万张卡

架构与技术:不是简单堆卡,而是“超节点 + 互联协议 +通用计算”三管齐下

华为在演讲中强调,这些超节点在物理上由大量机器组成,但逻辑上应当表现得像“一台机器”——也就是说,要在机器间通信、资源调度、带宽、内存一致性及延迟控制上下大功夫。

为了实现这个目标,华为还推出了新的互联协议 “灵衢”(UnifiedBus)2.0,将此协定开放,以期与产业界共同打造一个超节点生态。

此外,华为也意图把超节点技术推广到通用计算领域。Taishan 950 SuperPoD 将结合分布式数据库(GaussDB)等系统,宣称可以替代现有大型机、小型机和某些数据库一体机系统(如 Oracle 的 Exadata 等)。


时间表 + 芯片路线:逐年提升,追赶乃至并驾齐驱

除了硬件形态,华为也公布了昇腾系列AI芯片以及鲲鹏 CPU 的未来规划:

  • 昇腾芯片:950 系列(含 950PR 和 950DT),预计在 2026 年推出;960 系列将于 2027 年;970 系列定在 2028 年。
  • Kunpeng 系列 / Taishan 通用计算超节点:Taishan 950 SuperPoD(通用计算超节点)是华为把超节点技术引入通用计算的旗舰产品。

还有一点容易被忽略:华为此次公开了自研 高带宽内存(HBM)技术 的情况。有媒体指出,这曾是中国芯片体系相对薄弱却被严重依赖外部供应商(比如韩国、美国)的环节。


背后的战略与挑战

战略意图

  1. 自给自足 & 技术主权
    在中美科技竞争和出口管制压力下,华为此举显然是一种响应——在更依靠自家芯片、更完善互连设计与系统集成上发力。
  2. 算力为王
    AI 模型越大、训练越复杂,对算力的需求剧增。数量上堆叠固然重要,但系统效率、带宽、延迟、功耗都成为评判标准。华为这次强调“超节点+集群”的架构,目的就是要在这些方面取得领先。
  3. 行业生态化
    开放“灵衢”协议、部署通用计算超节点、推广数据库一起用,意味着华为不只是造硬件,还试图把整个 AI+云+算力基础设施生态链搭起来。这样的生态一旦形成,对客户、产业伙伴有极强的粘性。

面临的挑战

  • 芯片制造限制:尽管华为有芯片路线图,但在制造先进工艺(如极紫外光刻、最先进型号芯片)上受到的国外限制仍存在。自研高带宽内存是进步,但整体产业链、材料、设备是否足够成熟还要看。多家媒体中也提到英伟达在某些指标上仍有优势。
  • 互联和能耗问题:当卡数、服务器节点数达到数万乃至百万级别,光模块 /线缆/散热 /电力 /物理空间 /冷却 等工程挑战巨大。如何保持低延迟、高带宽、一致性,是系统集成难题。
  • 成本与投入:如此规模的算力系统,意味着巨大的资本投入与运维成本。是否能快速变现、服务 AI 模型训练/推理需求仍是关键。
  • 软件与生态配套:硬件强固然重要,但是模型调度、分布式系统架构、数据存储、数据库/存储 I/O 等是否能匹配这样的硬件规模,是成功的另一个关键点。

🔍 国际对比:华为 vs. 英伟达 / 超级玩家

  1. 英伟达 (NVIDIA)
    • 目前依然是全球 AI 训练芯片和超算集群的霸主。
    • 英伟达 DGX GH200 系统曾号称支持 数万张 GPU 的互联,并推出基于 NVLink 与 InfiniBand 的集群方案。
    • 华为的 Atlas 950/960 在卡片数量上已经与其规模接近,尤其百万卡级集群,数字上甚至“超越”了英伟达的公开方案。
    • 不过,业界分析认为 硬件数量 ≠ 实际性能,华为需要在互联延迟、能效比、软件生态上与 CUDA 对标,这才是真正的挑战。
  2. 美国超算联盟 (Frontier / Aurora / El Capitan)
    • 这些超算由 AMD、英特尔、英伟达等芯片驱动,已达到百亿亿次(Exascale)级别算力。
    • 华为的超节点和超集群若完全落地,将成为全球最大的 AI 专用算力体系之一,有可能在“规模”上追平甚至超越某些美国超算。
    • 但美国的优势在于科学计算与 AI 模型训练两用,软件栈更成熟。
  3. OpenAI / Meta / Google
    • 他们本身不造芯片,但在 AI 训练和部署层面直接消耗英伟达 H100/H200 乃至 B系列 GPU。
    • 谷歌有 TPUv5,主要用于内部模型训练和 Google Cloud。
    • 华为此次动作,则是要把“自研芯片+系统架构”变成产业生态,与西方公司自建闭环生态相似。

📈 未来影响:对中国 / 全球 AI 格局的意义

  1. 中国国内产业
    • 政策导向+华为突破,可能带动一波“AI 基础设施国产替代潮”。
    • 数据中心、云厂商(阿里、腾讯、百度)有望成为第一批部署客户。
    • AI 大模型公司(智谱、百川、MiniMax、月之暗面等)将得到更强的本土算力支撑,减少对 NVIDIA 的依赖。
  2. 全球 AI 供应链格局
    • 华为把 高带宽内存、算力互联、超节点 都做成可对外开放标准,意味着它不只想做硬件卖家,而是想复制“CUDA + GPU”的生态路径。
    • 如果国内产业链能跟进,未来可能形成与 NVIDIA 生态平行的 “华为昇腾系”阵营
  3. 挑战与风险
    • 技术成熟度:目前只是发布和规划,是否真的能交付百万卡规模,还要看 2026–2028 年芯片和系统能否按时落地。
    • 产业采纳度:客户是否愿意“迁移”到华为的软硬件体系,需要时间和应用案例证明。
    • 国际竞争压力:英伟达不会坐视不管,未来可能会加快推出更强算力架构,比如 NVLink Switch 或更先进的 HBM 技术,保持代差。

 


总结一句话

华为这次发布的 Atlas 950 / 960 超节点与超集群,是一次“技术宣誓”。它不只是要对标国际像英伟达这样的领先者,更是在政策与市场压力下,展现中国在 AI 基础设施、自研芯片与系统集成上的跃跃欲试。这显然是 AI 全球赛道上的一枚重磅子弹。

如果说过去十年,英伟达凭借 GPU 和 CUDA 改写了 AI 的底层格局,那么今天的华为,正在试图用 “超节点 + 自研芯片 + 互联标准” 写出属于中国的答案。

这不仅是一场硬件竞赛,更是一场围绕 算力主权 的战略博弈。未来几年,全球 AI 大模型的进化速度,很可能取决于 谁能掌握足够的算力引擎。而华为,显然已经把自己的筹码摆上了桌面。