华为昇腾384超节点

If You Like Our Meta-Quantum.Today, Please Send us your email.

介绍

华为在世界人工智能大会(WAIC)上发布了“昇騰384超节点”,在全球AI领域投下震撼弹。该系统以其强大的算力与创新的架构,被普遍认为是能彻底改写中国算力版图、并在中美人工智能竞争中扮演关键角色的技术突破。英伟达CEO黄仁勋也曾罕见公开承认华为AI芯片与集群系统技术实力接近英伟达H20,且发展速度极快,并指出华为CloudMatrix(昇騰384前身)集群规模已超越英伟达最新Grace Blackwell系统。

视频关于昇騰384

核心技术规格与算力表现:

  • 硬件组成: 由384颗昇騰910C芯片互联而成,构建在12个计算柜与4个总线柜之中。
  • 单节点算力: 峰值可达30ExaFlop/s(FP16)。
  • 集群规模与总算力: 可扩展至16万张卡,总算力逼近10万ExaFlop/s。
  • 性能线性度: 在万卡规模下依然能保持95%以上的性能线性度,性能损失可忽略不计,超越英伟达NVL72。

三大“杀手锏”级创新:

  1. 通信架构革新——“速度换算力”:
    1. 采用全对等高速互联架构,用统一总线替代传统以太网,将带宽提升15倍。
    2. 通信延迟从2微秒降低至20纳秒,整整降低一个数量级。
    3. 通过先进的40G光模块,为384颗昇騰NPU与192颗昆蓬CPU之间铺设了无阻塞、全对等的高速通道,使得芯片间数据传输速度几乎与芯片内部一致。
    4. 在集群规模扩大时,其推理吞吐能力在某些场景中超越了英伟达DH10。
  2. 为超大模型定制的“一卡一专家”模式:
    1. 针对大语言模型中的混合专家架构(MoE)进行优化,每一颗NPU可承载一个独立的专家模型。
    2. 通过高速总线实现Token分发与结果汇聚,大幅降低延迟。
    3. 在华为公开的实测数据中,无论DeepSeek模型的预填充阶段还是解码阶段,其计算效率都全面压过H10与H800。
  3. 极限扩展能力:
    1. 设计目标是构建全球最大的AI集群,最多可将432个超节点相互连接,形成16万卡的庞大网络。
    2. 在这种规模下,它能同时支持130个千亿参数级模型的训练,并保持95%以上的性能线性度。

战略意义与国产替代:

  1. 昇騰384的出现为国产AI装上了“算力核引擎”,解决了国内大模型研发长期受制于高端GPU供应和出口限制的问题。
  2. 它不仅在科研领域意义重大,也为互联网公司、云计算服务商、自动驾驶企业、生命科学研究机构等提供了可直接部署的国产替代方案。
  3. 华为还公开了昇騰384的核心技术论文,旨在加速整个生态的应用与合作。
  4. 这不仅是一次硬件发布,更是中国在AI核心算力领域的一次战略突围,使国产大模型从“能做”走向“能快、能稳、能大规模做”,具备在全球市场与巨头正面交锋的底气。

非摩尔路径与高效利用理念:

  1. 昇騰384是“非摩尔路径”理念的集中体现,即通过数学与算法弥补硬件制程瓶颈,用系统架构革新换取整体性能跃升。
  2. 它在设计之初就把高效利用、成本可控与稳定可靠作为同等优先级。
  3. 全对等通信架构统一协议栈,使得384颗NPU可以像一颗NPU那样协同工作,不再受传统通信瓶颈拖累。
  4. 成为目前唯一能在单节点域内完整支持DeepSeekv3与R1的算力平台,在混合专家模型训练与推理环节效率接近最优。

广泛的行业落地应用:

昇騰384已经不仅是实验室技术样品,而是支撑关键行业稳定交付的算力平台,已在多个领域落地:

  1. 互联网: 360搜索、WPS已将其纳入日常生产。
  2. 政务: 利川市利用其打造智能派单系统,公文处理效率提升9成。
  3. 金融: 浦发银行依托其搭建千卡级大模型平台,帮助6万多名员工减少加班。
  4. 教育: 沈阳工学院与浙江数人学院用它支撑智能教学与科研体系。
  5. 行业大模型合作(WAIC展示):
    1. 与中国铁路科学研究院打造铁路大模型及高铁智能巡检机器人。
    2. 助力中国旅业集团推出有色金属领域首个行业大模型“昆安”。
    3. 携手九天气象将AI与气象预测融合,提升新能源发电效率。
    4. 与能科科技合作构建AI驱动的工业链条,为制造业赋能。
    5. 华为云Stack支撑钢铁热炸毫米级精度控制。
    6. ESTEE架构推动智能城市系统化升级。
  6. 展区体验: 展示了基于全栈AI能力的智能中一把脉仪、戴蒙机器人、内置大模型能力的鸿蒙电脑等。

生态建设与未来展望:

  1. 目前围绕昇騰384超节点,业界已开发出80多个大模型,孵化出60余项解决方案,覆盖金融、制造、政务、科研、交通、能源等多个行业。
  2. 尽管算力生态建设仍面临与国际主流生态的差距,需要“破釜沉舟式的架构革新”,但国产技术正以前所未有的速度向底层扎根,相关应用场景也在快速生长。
  3. 这种上下呼应的趋势预示着人工智能的黄金时代刚刚揭开帷幕,中国在AI领域未来必将带来更多震撼世界的创新与惊喜。

结论与关键要点

在2025年世界人工智能大会(WAIC)上,华为发布了“昇腾384超节点”AI计算集群。该系统以384颗昇腾910C芯片实现单节点30 ExaFlop/s的峰值算力,并可通过高速互联扩展至16万卡的庞大规模,在万卡规模下仍能保持95%以上的性能线性度。其三大创新——全对等高速互联架构、“一卡一专家”的MoE模型优化和极限扩展能力,使其性能全面对标并部分超越了英伟达同级产品。该集群已在互联网、金融、政务、科研等关键行业落地应用,为解决中国AI算力自主可控问题提供了核心支撑,标志着中国在AI算力领域实现了重大战略突破。

五个关键要点

  1. 极致性能与扩展能力:单节点算力达30 ExaFlop/s(FP16),并可扩展至16万卡的超大规模,在万卡规模下性能线性度仍超95%,突破了传统集群的扩展瓶颈。
  2. 通信架构革命性突破:采用全对等互联设计,以统一总线替代以太网,将通信延迟从微秒级降至纳秒级(20纳秒),带宽提升15倍,实现了芯片间近乎无延迟的数据传输。
  3. 专为超大模型优化:创新性提出“一卡一专家”模式,为混合专家(MoE)模型量身定制,通过高速总线实现高效Token分发,在LLM训练和推理效率上超越国际主流产品。
  4. 广泛的国产化替代与行业落地:已不再是实验室产品,而是深入金融(浦发银行)、政务(利川智能派单)、互联网(360、WPS)等多行业的生产系统,支撑了80多个大模型的开发,提供了真正的国产替代方案。
  5. 战略意义:实现算力自主可控:其成功发布打破了高端AI算力长期受制于外的局面,通过“非摩尔路径”以系统架构创新弥补硬件制程可能存在的差距,是中国在AI基础算力领域的一次关键性战略突围。

参考文献

Leave a Reply

Your email address will not be published. Required fields are marked *