0 卖盘信息
BOM询价
您现在的位置: 首页 > 电子资讯 >业界动态 > Untether 推出 2-PFLOPS AI芯片,边缘路线图

Untether 推出 2-PFLOPS AI芯片,边缘路线图

来源: eetasia
2022-08-29
类别:业界动态
eye 37
文章创建人 拍明芯城

原标题:Untether 推出 2-PFLOPS AI 芯片,边缘路线图

  


  Startup Untether 的新芯片 SpeedAI 使用 1,400 多个优化的 RISC-V 内核。

  在本周的 Hot Chips 上,Untether 推出了其用于 AI 推理的第二代架构,这是第一个使用这种架构的芯片,并计划扩展到边缘和端点加速器。

  Untether 的新架构(内部代号为 Boqueria)解决了超大型神经网络的趋势,包括自然语言处理及其他领域的变压器网络、需要功率效率的端点应用程序,以及需要性能和功率效率与预测准确性相结合的应用程序。

  第一款使用 Boqueria 架构的芯片 SpeedAI 是一款数据中心推理加速器,能够在峰值功耗 (66 W) 下运行 2 PFLOPS 的 FP8 性能,或基于更常见的 30-35 W 功率包络的 30 TFLOPS/W . (Untether 的第一代芯片 RunAI 可以处理 500 TOPS 的 INT8。)

  这种性能水平转化为以每瓦每秒 750 次查询运行基于 BERT 的推理,该公司称其性能是最先进 GPU 的 15 倍。

  这款 35 x 35 毫米的芯片基于台积电的 7 纳米技术构建,并使用了 1,400 多个优化的 RISC-V 内核——这是 EE Times 在商用芯片中看到的最多(击败了 之前的记录保持者世界语)。

  


  鲍勃比奇勒

  “[性能] 是不同因素的融合,”Untether 产品副总裁 Bob Beachler 告诉 EE Times。“它结合了很多东西,包括电路设计、数据类型、理解神经网络的运作方式——与卷积网络相比,变压器的运作方式如何?——所有这些我们都能够在第二次中体现——代芯片。”

  Untether 在开发 Boqueria 时仔细考虑了灵活性、性能和可扩展性之间的平衡。

  “要制作通用 AI 计算架构,您必须具有正确的粒度和灵活性,才能有效地运行大量神经网络,并能够从小到大进行扩展,”Beachler 说。他补充说,准确性对于推理工作负载也很重要,特别是对于任何百分比的准确性损失都可能意味着重大财务损失的建议,以及自动驾驶等面向安全的应用程序。

  内存计算

  Untether 的第二代架构 Boqueria 基于与第一代相同的内存计算概念 。该芯片共有 238 MB 的 SRAM,排列成 729 个内存库,总内存带宽约为 1 PB/s。存储器组包含处理元件、控制器内核和网络元件。

  每个内存库都有两个 RISC-V 处理器,取代了第一代的本土 RISC 设计。它们具有多线程能力,同时驱动多行处理元素,这增加了粒度和效率。Untether 为任务添加了 20 多个自定义指令,包括矩阵向量乘法和行归约函数,例如变压器网络中的 SoftMax 或 LayerNorm。

  


  Boqueria 存储库之一的特写,显示 SRAM 阵列与处理元件 (PE) 混合。有支持多线程的 RISC-V 内核和新的行控制器(来源:Untether)

  Beachler 解释说,在第一代中,每个存储库中的处理元件由一个控制器控制,该控制器将执行相同的指令(或不执行它)。在 Boqueria 中,这现在是按行控制的,因此 64 个处理元件的 8 行中的每一行都可以独立运行。这种粒度的降低提高了效率,因为不同的指令可以在同一个存储体中处理。

  处理元件保留其零检测电路,从而在稀疏网络中节省电力。也有对 2:1 结构化稀疏的硬件支持。

  存储体中的 SRAM 是标准的 6 晶体管单元,由于从 TSMC 的 16 nm 迁移到 7 nm,数据路径的电压降低到 0.4 V 以节省能源。

  保留了“肩袖”互连,它在处理元件之间旋转激活以节省能量。有一个新的基于数据包的片上网络,它在内存库内和内存库之间传输东西向和南北向的数据包。

  浮点支持

  Untether 的处理元素支持 INT4、INT8 和 BF16,以及 Untether 自己的 FP8 格式。该公司已决定采用两种 FP8 格式,旨在平衡能源效率、吞吐量和预测准确性。这两种格式有一个 4 位尾数(Untether 称之为 FP8p,表示精度)或一个 3 位尾数(Untether 的 FP8r,表示范围)。(请注意,这些比训练中使用的 Nvidia 的 FP8p 和 FP8r 格式精确 1 位尾数)。

  根据 Untether 的说法,FP8 的这种实施代表了一个最佳点,与 BF16 相比,它导致的准确度损失不到 0.1 个百分点,但能效提高了四倍。这纯粹是通过量化来实现的(不需要重新训练)。

  可扩展性特征

  新的可扩展性功能包括两个 LPDDR 端口,可用于高达 32 GB 的外部存储器。这将允许在计算的网络大于芯片可以容纳的单芯片系统中进行系数和层交换。

  


  Untether 为 SpeedAI 添加了 LPDDR5 接口、PCIe 接口和片上 I/O 网络 (NOC)(来源:Untether)

  还有三个 PCIe Gen5 芯片到芯片接口,用于主机到加速器和加速器到加速器的通信。

  SpeedAI 芯片将在 M.2 模块或 12-PFLOP 6 芯片 PCIe 卡上提供。Untether 的软件开发工具包 (SDK) 针对新硬件进行了更新,可以处理对 Untether 的 FP8 格式的量化、优化、物理分配以及跨集群中多个芯片或卡的大型网络的分区。

  芯片友好

  Untether 还暗示计划基于相同的 Boqueria 架构制造更小的芯片,针对各种不同类别的边缘和端点系统。该公司正在规划一款用于基础设施的 25 瓦芯片,一款用于自动驾驶汽车感知的 5 瓦芯片,以及一款用于电池供电设备的 1 瓦以下芯片(给出的具体示例是执法部门或军用人体摄像机)。

  这部分是通过在需要时使用外部存储器的能力实现的,因此当网络部分从 DRAM 引入时,可以按顺序处理它们。存在延迟问题,但这意味着更小的芯片可以运行更大的网络。

  Beachler 还指出,基于 Boqueria 的芯片“对小芯片友好”。

  “因为我们有 I/O NOC 和外围设备,我们可以轻松地更换 PCI Express 并放入 UCI Express 以进行芯片间通信,”他说。“我们完全预计,在未来五年的某个时间点,我们将有客户想要进行 die-to-die 互连并希望使用某种 die-to-die IP。”

  


  Untether 基于其第二代 Boqueria 架构的 SpeedAI 芯片将于 2023 年开始出货(来源:Untether)

  Untether 于 2018 年在多伦多成立,由 CPPIB、通用汽车、英特尔资本、Radical Ventures 和 Tracker Capital 资助。这家初创公司筹集了超过 1.7 亿美元,拥有近 200 名员工和承包商。

  该公司最近才透露通用汽车是其投资者之一。两家公司一直在合作开展一个由安大略省政府部分资助的关于自动驾驶汽车感知系统的项目。Beachler 说,这项工作将成为未来汽车级零件系列的基础。

  M.2 模块和 PCIe 卡上的 SpeedAI 芯片将于 2023 年上半年向早期访问客户提供样品。

  本文最初发表于 EE Times。

  Sally Ward-Foxton 为 EETimes.com 报道 AI 技术和相关问题,并为 EE Times Europe 杂志报道欧洲行业的方方面面。Sally 在英国伦敦花费了超过 15 年的时间撰写有关电子行业的文章。她为电子设计、ECN、Electronic Specifier: Design、Components in Electronics 等撰写文章。她拥有剑桥大学电气和电子工程硕士学位。


责任编辑:David

【免责声明】

1、本文内容、数据、图表等来源于网络引用或其他公开资料,版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系拍明芯城(marketing@iczoom.com),本方将及时处理。

2、本文的引用仅供读者交流学习使用,不涉及商业目的。

3、本文内容仅代表作者观点,拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。

4、如需转载本方拥有版权的文章,请联系拍明芯城(marketing@iczoom.com)注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

相关资讯