您现在的位置：首页 > 电子资讯 >展会信息 > 感知使用第二代芯片在边缘运行变压器

感知使用第二代芯片在边缘运行变压器

来源：

2023-02-09

类别：展会信息

拍明芯城

　　Perception的Ergo 2芯片现在为变压器提供硬件支持。

　　从Xperi分离出来的AI芯片初创公司Perception发布了第二款芯片，该芯片为变压器提供了硬件支持，包括边缘的大型语言模型(LLM)。该公司在 CES 2023 上通过 RoBERTa(一个具有 1.1 亿个参数的变压器网络)在其 Ergo 2 芯片上展示了句子完成。

　　尔格 2 采用与原版尔格，但提供大约 4× 的性能。这种性能提升转化为具有超过 1 亿个参数的变压器的边缘推理、更高帧速率的视频处理或一次推理多个大型神经网络。例如，YoloV5-S 推理在尔格 2 上最多可以每秒运行 115 个推理;YoloV5-S 以每秒 30 张图像的速度进行推理仅需 75 mW。典型应用的功耗低于 100 mW，或最高可达 200 mW。

　　尔格2的性能与尔格相比。尔格将继续可用，因为芯片适合略有不同的功率配置文件(来源：感知)

　　Perception的神经网络加速方法利用了专有的模型压缩技术，结合神经网络的不同数学表示，以及两者的硬件加速。

　　“我们技术的核心是认真压缩的原则方法，”Perception首席执行官Steve Teig告诉EE Times。“这意味着有一个数学上严格的策略来辨别计算的意义，并在以新的方式表示神经网络的同时保留这种意义。

　　史蒂夫·泰格(来源：感知)

　　Teig说，使用Perception今天使用的压缩方案，通常可以对模型进行50-100×压缩。

　　“我们认为学习和压缩实际上是一回事，”他说。“这两项任务都在数据中找到结构并加以利用。您可以压缩可压缩数据的唯一原因是因为它是结构化的——随机数据是不可压缩的......如果你可以利用这种结构，你就可以使用更少的内存位。

　　Perception正在使用信息论来找到这种结构 - 特别是对于激活 - 因为它是激活而不是权重主导当今大多数神经网络的内存足迹。感知压缩激活，以最大程度地减少存储激活所需的内存。如果直接计算压缩激活不方便，则可以在需要时解压缩它们，根据神经网络的不同，这可能会更进一步。同时，释放了大部分内存。

　　Teig说，激活可以被压缩以将其大小减小10倍，而量化可能是“微不足道”的2-4倍×但没有相应的精度损失。但是，压缩和量化是互补的。

　　Perception使用的其他压缩技术包括在空间和时间上重新排序推理计算的部分。对于推理，计算中的所有依赖项在编译时都是已知的，这意味着推理可以分为子问题。然后根据需要重新排列这些子问题。

　　“这使我们能够运行比你想象的更大的模型，因为我们有足够的马力，基本上我们可以用空间换取时间......拥有和我们一样快的芯片意味着我们可以通过按顺序进行一些计算来节省空间，并让它们看起来并行，“Teig在此前接受EE Times采访.

　　转换压缩

　　对于尔格2，Perception找到了一种压缩变压器模型的方法，并为这些压缩模型增加了硬件支持。

　　Perception的优势有多少取决于对工作负载的操纵，有多少取决于硬件加速?

　　“两者兼而有之，但大多数肯定是软件或数学，”泰格说。“这是我们的数学方法，在哪里找到压缩是第一位的。第二是软件视角，第三是芯片和硬件上神经网络的表示，以加速[该表示]。

　　感知的压缩工具流程由三部分组成——宏、微观和编译。宏发现大规模压缩机会并利用它们，微观使用不同的压缩技术寻找进一步的小规模机会，编译阶段管理内存并优化功耗。尔格2的性能依赖于这三者。

　　在SDK级别，Perception的软件堆栈重新训练Pytorch模型，使其与Ergo或Ergo 2兼容。还有一个用于芯片CPU上后处理任务的C库，以及一个由大约20个模型组成的模型库，客户可以构建。

　　尔格2还具有架构变化 - 这包括新的统一内存空间(原始尔格为神经网络和片上CPU提供单独的内存空间)以及对变压器的硬件支持。Teig拒绝透露新的内存空间有多大，但指出统一的内存空间意味着子系统可以更有效地共享内存。例如，在图像推理过程中，整个内存可能首先用作帧缓冲区。当神经网络消化图像时，它可以根据需要逐渐接管内存，然后 CPU 使用相同的内存进行后处理。

　　与原始的尔格相比，Perception的Ergo 2将适合略有不同的边缘应用。(来源：感知)

　　尔格 2 还可以接受更高分辨率的视频 — MIPI 接口因客户需求而加快，将 Ergo 2 上可接受的最高分辨率从 4K 增加到 1200 万或 1600 万像素数据。这也扩大了芯片的吸引力，包括需要更高分辨率视频的笔记本电脑、平板电脑、无人机和企业应用程序。

　　Percieve的原始Ergo仍将可用于需要最严格功率预算的应用，而Ergo 2将支持那些需要更多性能但具有更多功率的应用。

　　“电池供电的相机具有两年的电池寿命可能想要使用尔格，但超分辨率到4K可能需要尔格2，”Teig说。

　　相比之下，Perception的数据具有尔格的功率效率，每瓦每秒2727张ResNet-50图像，而尔格2可以达到2465张。这比竞争边缘芯片高出一个数量级。

　　未来变压器

　　在Teig看来，越大越好，这与目前变压器越来越大的趋势相反。

　　“从数学的角度来看，你试图捕获的概念的信息理论复杂性应该决定你的网络有多大，”他说。“我们可以从数学上证明，像GPT这样捕捉英语语法丰富的语言模型，仍然应该以数百万，而不是数十亿，当然也不是数万亿个参数来衡量。

　　有了这些知识，Perception将继续致力于变压器的压缩，使边缘网络越来越大。

　　“压缩是要采取的。唯一的问题是，作为一个社区，而不仅仅是Perception，我们是否足够聪明，能够弄清楚如何提取模型的潜在含义，这就是我们在向技术展示更大的[变压器]模型时所观察到的，“他说。“它正在寻找压缩它们的方法，远远超过以前的模型，因为基础概念的复杂性并没有增加太多，只有用于表示它们的模型增长了很多。

　　但是，是什么让变压器比任何其他类型的神经网络更具可压缩性呢?

　　“如果你唯一愿意使用的词是矩阵乘法和ReLU，想想说任何有趣的东西需要多少个词，”他说。“如果你的语言中唯一的单词是那些，你将不得不谈论很长时间来描述一个复杂的概念，一旦你从那些是唯一允许使用的单词的信念中退后一步，你就可以做得更好。

　　Teig补充说，虽然50-100×的压缩率今天对尔格2来说没有问题，但他预计未来1000的压缩系数将触手可及，“甚至可能是10，000×，”他说。

　　本文最初发表于电子电气时报.

　　莎莉·沃德-福克斯顿为EETimes Europe杂志涵盖 EETimes.com 和欧洲工业各个方面的AI技术和相关问题。Sally 花了超过 15 年的时间在英国伦敦撰写有关电子行业的文章。她为电子设计，ECN，电子规范符：设计，电子组件等撰写文章。她拥有剑桥大学电气和电子工程硕士学位。

责任编辑：David

【免责声明】

2、本文的引用仅供读者交流学习使用，不涉及商业目的。

3、本文内容仅代表作者观点，拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为，是基于自主意愿和独立判断做出的，请读者明确相关结果。

4、如需转载本方拥有版权的文章，请联系拍明芯城（marketing@iczoom.com）注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

上一篇：宏块在ISE 2023上通过全面的LED显示IC升级创造现实