0 卖盘信息
BOM询价
您现在的位置: 首页 > 电子资讯 >技术信息 > Nvidia在最新的MLPerf基准测试中展示Hopper

Nvidia在最新的MLPerf基准测试中展示Hopper

来源: eetasia
2022-09-21
类别:技术信息
eye 26
文章创建人 拍明芯城

原标题:Nvidia在最新的MLPerf基准测试中展示Hopper

  

在最新一轮的 MLPerf AI 推理基准测试得分中,Nvidia 的新旗舰 GPU 的性能高达 A100 的 4.5 倍。


  Nvidia 使用最新一轮的 MLPerf 推理分数为其最新的旗舰 GPU H100 首次公开基准测试。 H100 是 第一款 基于该公司 Hopper 架构 以及 专门设计的变压器引擎的芯片。 H100 比 Nvidia 当前的旗舰产品 A100高出 1.5-2倍,除了 BERT 分数 ,优势 更加明显,高达 4.5倍 。

  


  Nvidia 的图表显示了新 H100 相对于公司上一代部件(A100)以及与竞争硬件相比的性能。(点击图片放大)(来源:英伟达)

  A100 的原始性能是 A100 的三倍,为什么 H100 的一些基准分数还不到两倍?

  “虽然 FLOPS 和 TOPS 数字是一组有用的初始指南,但它们不一定能预测应用程序性能,”Nvidia 的人工智能推理、基准测试和云主管 Dave Salvator 在接受 EE Times 采访时表示。“还有其他因素,[包括]您正在运行的网络架构的性质。一些网络更受 I/O 限制,一些网络更受计算限制……它因网络而异。”

  Salvator 补充说,随着其软件堆栈的成熟,H100 的分数还有提升的空间。

  “这是 Hopper 的第一次展示……油箱里还有气体,”他说。

  Salvator 指出,自该加速器于 2020 年 7 月首次展示 MLPerf 以来,A100 的结果已提高了 6 倍。利用。”

  H100 在 BERT-Large 上表现出色,比 A100 好 4.5 倍。H100 的新功能包括硬件和软件转换器引擎,可在训练期间管理计算精度,以实现最高吞吐量,同时保持准确性。Salvator 说,虽然这个功能与训练更相关,但它确实适用于推理。

  “在这里发挥作用的主要是 FP8 精度,但它也是 H100 的其他一些架构方面。事实上,我们拥有更多的计算能力,更多的流处理器、更多的张量核心和更多的计算,”他说。与 A100 相比,H100 的内存带宽也增加了大约一倍。

  BERT 99.9 基准测试的某些部分在 FP16 中运行,而另一些在 FP8 中运行—— 这里的秘诀是知道何时跳到更高的精度以保持精度,这是变压器引擎所做的一部分。

  Nvidia 还展示了其边缘 SoC Orin的能源效率提高了大约 50% ,Salvator 将其归结为最近的工作,以寻找频率和电压 (MaxQ) 的操作最佳点。

  


  与上一轮得分相比,Orin 的能效提升(条形越高越好)。(点击图片放大)(来源:英伟达)

  Salvator 说,一旦产品在明年上半年上市,Grace CPU 系统、Grace Hopper 和 H100 的功率测量的基准分数就应该可用。

  高通

  英伟达的主要挑战者高通公司专注于其 Cloud AI 100 加速器的能源效率。高通在数据中心和边缘用例的不同功率范围内运行相同的芯片。

  高通及其合作伙伴(包括戴尔、HPE、联想、英业达和迅达通信)提交了超过 200 个 Cloud AI 100 分数。三个基于 Snapdragon CPU 和 Cloud AI 100 的新边缘平台也进行了基准测试,包括富士康 Gloria 系统。

  高通进入了封闭数据中心部门可用类别中最大的系统(18 个加速器),并获得了最佳 ResNet-50 离线和服务器性能的桂冠。然而,8x Cloud AI 100 分数很容易被 Nvidia 的 8x A100 PCIe 系统击败。(Nvidia H100 属于“预览”类别,因为它尚未商业化)。

  高通还声称在封闭式边缘系统和封闭式数据中心系统部门中获得了最佳能效。

  


  Qualcomm 的 Cloud AI 100,以 75 W TDP 或以下功率限制运行,在边缘设备的功率效率方面表现出色(点击图片放大)(来源:Qualcomm)

  


  高通还声称在封闭式数据中心类别的能效方面取得了胜利,Cloud AI 100 在此处再次限制为 75 W TDP(点击图片放大)(来源:高通)

  比仁

  中国 GPU 初创公司 Biren 提供了自上个月隐身以来的第一组 MLPerf 分数。

  这家中国初创公司在其 BirenSupa 软件开发平台旁边展示了其 PCIe 外形尺寸的 BR104 单芯片加速器的分数。对于 ResNet-50 和 BERT 99.9,Biren 8 加速器系统在服务器模式下提供了与 Nvidia 的 DGX-A100 相似的性能,其中存在延迟限制,但在离线模式下的性能明显优于 Nvidia DGX-A100,这是衡量原始吞吐量。

  Biren 的BR100——它有一对在 BR104 中单独使用的相同小芯片——没有进行基准测试。

  中国服务器制造商浪潮也提交了带有 4x BR104 PCIe 卡的商用系统的结果。

  沙皮翁

  另一个新进入者是 Sapeon,它是韩国电信巨头 SK Telecom 的衍生公司。在分拆之前,Sapeon 自 2017 年以来一直致力于其加速器;X220 是第二代芯片,自 2020 年以来一直投放市场。该公司表示,其芯片用于智能扬声器和安全摄像头系统。它声称战胜了 Nvidia 的 A2,这是一款安培级部件,用于 5G 和工业应用中的入门级服务器。

  Sapeon 展示了 X220-compact(单芯片 PCIe 卡消耗 65 W)和 X220-enterprise(具有两个 X220 芯片并消耗 135 W)的得分。该公司指出,X220-compact 比 Nvidia A2 高出 2.3 倍在性能方面,但基于最大功耗,能效也提高了 2.2 倍。尽管 X220 采用低成本的 28 纳米工艺技术(Nvidia A2 采用 7 纳米),但仍然如此。

  Sapeon 计划在 2023 年下半年推出第三代芯片 X330,该公司表示该芯片将提供更高的精度,并将处理推理和训练工作负载。

  英特尔

  英特尔为其延迟的 Sapphire Rapids CPU提交了预览分数。这款四芯片 Xeon 数据中心 CPU 是第一个获得英特尔高级矩阵扩展 (AMX) 的 CPU,英特尔表示,与前几代相比,该 CPU 可实现 8 倍的每时钟操作。

  Sapphire Rapids 还提供比前几代产品更多的计算、更多的内存和更多的内存带宽。英特尔表示,Sapphire Rapids 在离线模式下的得分为上一代 CPU 的 3.9-4.7 倍,在服务器模式下为 3.7-7.8 倍。

  其他显着结果

  中国公司 Moffett 在其平台的开放部门提交了分数,其中包括其 Antoum 芯片、软件堆栈和公司自己的稀疏算法。该公司的 S4 (75 W) 芯片可用于 S10 和 S30 (250 W) 仍处于预览类别。Antoum 架构使用 Moffett 自己的稀疏处理单元进行原生稀疏卷积以及矢量处理单元,这增加了工作负载的灵活性。

  初创公司 Neural Magic 开发了一种用于 CPU 的稀疏感知推理引擎。结合负责修剪和量化的 Neural Magic 压缩框架,推理引擎通过更改执行顺序使神经网络能够在 CPU 上高效运行,从而将信息保存在 CPU 的缓存中(无需进入外部存储器) )。该公司的分数是在 Intel Xeon 8380 CPU 上提交的。

  以色列软件 初创公司 Deci 在开放部门提交了其 BERT 版本的结果,该版本在 AMD Epyc CPU 上运行。Deci 的软件使用神经架构搜索来为相关 CPU 定制神经网络的架构,并在此过程中经常减小其大小。与基线相比,加速比在 6.33-6.46 倍之间。

  


  Deci 的 BERT 版本在相同硬件上的运行速度比基线快得多(点击图片放大)(来源:Deci)

  本文最初发表于 EE Times。

  Sally Ward-Foxton 为 EETimes.com 报道 AI 技术和相关问题,并为 EETimes Europe 杂志报道欧洲产业的方方面面。Sally 在英国伦敦花费了超过 15 年的时间撰写有关电子行业的文章。她为电子设计、ECN、Electronic Specifier: Design、Components in Electronics 等撰写文章。她拥有剑桥大学电气和电子工程硕士学位。


责任编辑:David

【免责声明】

1、本文内容、数据、图表等来源于网络引用或其他公开资料,版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系拍明芯城(marketing@iczoom.com),本方将及时处理。

2、本文的引用仅供读者交流学习使用,不涉及商业目的。

3、本文内容仅代表作者观点,拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。

4、如需转载本方拥有版权的文章,请联系拍明芯城(marketing@iczoom.com)注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

标签: Nvidia MLPerf Hopper

相关资讯