0 卖盘信息
BOM询价
您现在的位置: 首页 > 电子资讯 >行业趋势 > 为转型变压器网络做好准备

为转型变压器网络做好准备

来源: eetasia
2022-10-11
类别:行业趋势
eye 6
文章创建人 莎莉·沃德-福克斯顿

原标题:为转型变压器网络做好准备

  专家说,变压器网络的注意力机制“将真正打破研究的大门”。

  有一些颗粒状的镜头需要增强,或者你需要发现一种神奇的药物?无论任务如何,答案都越来越可能是变压器网络形式的人工智能。

  变形金刚,就像那些熟悉网络的人喜欢简写的那样,是 Google Brain 于 2017 年发明的,并被广泛用于自然语言处理 (NLP)。但现在,它们正在扩展到几乎所有其他人工智能应用,从计算机视觉到生物科学。

  Transformer 非常擅长在非结构化、未标记的数据中寻找关系。他们还擅长生成新数据。但是为了有效地生成数据,transformer 算法通常必须增长到极端的比例。训练语言模型 GPT3 具有 1750 亿个参数,估计成本在 1100 万美元到 2800 万美元之间。那就是训练一个网络,一次。并且变压器尺寸没有显示出任何平稳的迹象。

  变压器网络拓宽视野

  


  伊恩·巴克(来源:英伟达)

  是什么让变压器在如此广泛的任务中如此有效?

  Nvidia 加速计算总经理 兼副总裁 Ian Buck 向 EE Times 解释 说,虽然早期的卷积网络可能会查看图像中的相邻像素以找到相关性,但 Transformer 网络使用一种称为“注意”的机制来查看更远的像素从彼此。

  “注意力集中在远程连接上:它的目的不是查看邻居在做什么,而是识别远程连接并优先考虑这些连接,”他说。“[变形金刚]如此擅长语言的原因是因为语言充满了上下文,这些上下文不是关于前一个单词,而是[依赖于]句子中前面说过的东西——或者把那个句子放在整个上下文中段落。”

  对于图像,这意味着转换器可用于 上下文化像素或像素组。换句话说,转换器可用于在图像的其他位置寻找具有相似大小、形状或颜色的特征,以尝试更好地理解整个图像。

  “卷积很棒,但你经常不得不构建非常深的神经网络来构建这些远程关系,”巴克说。“变形金刚缩短了这一点,因此他们可以用更少的层更智能地做到这一点。”

  变压器考虑的连接越远,它就越大,而且这种趋势似乎还没有结束。Buck 提到了考虑句子中的单词,然后是段落中的句子,然后是文档中的段落,然后是整个互联网语料库中的文档的语言模型。

  


  一旦他们理解了语言,transformer 网络就可以学习任何有足够文本的主题,通过阅读来有效地吸收知识。不同类型的转换器也可用于计算机视觉和图像生成。作者使用 Craiyon.com(以前称为 Dall-E Mini)创建了这些图像,这是一个生成的预训练变压器网络,使用提示“变压器机器人正在阅读大量真实照片”。(来源:Craiyon.com/EE Times)

  到目前为止,变压器尺寸似乎没有理论上的限制。巴克说,对 5000 亿个参数模型的研究表明,它们还没有接近过拟合的程度。(当模型有效地记忆训练数据时,就会发生过拟合。)

  “这是人工智能研究中的一个活跃问题,”巴克说。“还没有人想出来。这只是勇气的问题,”他开玩笑说,并指出让模型变大并不像添加更多层那么简单。需要大量的设计工作和超参数调整。

  但是,可能存在实际限制。

  “模型越大,你需要训练的数据就越多,”巴克说,并指出所需的大量数据也必须是高质量的,以确保语言模型不会在不相关或不适当的内容上进行训练,以及过滤出重复。对数据的要求可能是未来变压器规模的限制因素。

  Nvidia 的 Hopper GPU 架构认识到超大型网络的趋势, 包括一个转换器引擎 - 一种硬件和软件功能的组合,可在保持准确性的同时实现更高的吞吐量。Buck 认为,像 Hopper 这样的平台通过允许较小的基础设施训练更大的网络来解决训练变压器的经济限制。

  应用比比皆是

  变形金刚可能是从语言开始的,但它们正被应用于计算机视觉和药物发现等不同领域。一个引人注目的用例是医学成像,其中转换器可用于生成用于训练其他 AI 的合成数据。

  例如,英伟达与伦敦国王学院 (KCL) 的研究人员合作创建了一个开源合成大脑图像库。

  


  金佰利鲍威尔(来源:英伟达)

  Nvidia 的医疗保健副总裁 Kimberly Powell 告诉 EE Times ,这解决了两个问题:大型AI 模型(尤其是罕见疾病) 所需数量的训练数据短缺 ,以及将数据识别为合成数据不是任何人的私人 医疗数据。Transformers 的注意力机制可以学习大脑如何寻找不同年龄或不同疾病的患者,并生成具有这些变量不同组合的图像。

  “我们可以了解神经退行性疾病中的女性大脑与男性大脑的萎缩方式有何不同,因此现在您可以开始进行更多的模型开发,”她说。“事实上,我们没有那么多异常的大脑图像,如果你愿意的话。即使我们积累了世界上所有的数据,我们也只是没有足够的数据。这将真正打破研究的大门。”

  KCL 研究人员使用这些合成的大脑图像来开发有助于检测中风或研究痴呆症影响的模型。

  研究人员还教变压器化学语言。

  变形金刚可以构想出新的分子,然后对其进行微调以使其具有特定的特性,鲍威尔称之为“革命性”的应用程序。这些生物模型有可能比语言模型大得多,因为化学空间是如此之大。

  “对于口语,你可以安排的方式只有这么多,”她说。“我的基因组有 30 亿个碱基对,我们有 70 亿个。在某些时候,这种类型的生物模型将需要大得多。”

  大型语言模型也被用作向 AI 教授关于已经存在大量非结构化语言数据的科学领域的捷径,特别是在医学科学领域。

  “因为 [transformer] 编码了你投入的任何领域的知识,你可以要求它执行下游任务,”鲍威尔说,并指出一旦模型知道某些词代表某些疾病或药物,它就会可用于寻找药物与疾病之间或药物与患者人口统计数据之间的关系。

  英伟达开创了 BioMegatron,这是一种基于 PubMed 数据训练的大型语言模型,PubMed 是生物医学期刊文章的档案,可适用于各种医学应用,包括在医生的笔记中搜索症状和药物之间的关联。

  强生的制药部门 Janssen 正在使用这项技术扫描医学文献以寻找可能的药物副作用,并且最近使用 BioMegatron 将准确度提高了 12%。

  Transformers 还可以从非结构化临床文本中了解医院行为,例如再入院率。

  佛罗里达大学已经对其 89 亿参数模型 GatorTron-S 进行了关于出院总结的培训,因此它可用于改善医疗保健服务和患者治疗效果。

  扩大规模的挑战

  


  Andrew Feldman(来源:Cerebras)

  训练巨大的变压器网络对硬件提出了具体的挑战。

  “OpenAI 表明,对于这类特殊的网络,它们越大,它们似乎做得越好,”Cerebras 首席执行官 Andrew Feldman 告诉 EE Times 。“这是对硬件的挑战。我们如何做大?这是多系统扩展方面的一项特殊挑战。真正的挑战是:你能提供真正的线性扩展吗?”

  硬件历来难以为 AI 计算进行线性扩展:数据的移动需要芯片之间的大量通信,这既耗电又耗时。这种通信开销一直是大端系统实用性的限制因素。

  “摆在桌面上的一个基本挑战是:我们能否构建像变压器一样大的系统,但构建线性扩展的硬件?那是圣杯,”费尔德曼说。

  Cerebras 的晶圆级引擎 通过有效构建整个晶圆大小的芯片来解决这个问题,从而大大减少了通信瓶颈。

  Feldman 将当今 Big AI 的用户大致分为两组。

  第一组是具有科学研究目标的组织。这些组织花费数十亿美元来创建或收集他们需要的培训数据,包括从事药物发现或寻找石油的制药和能源公司。这些公司努力从他们已经拥有的数据中提取洞察力,因为创建更多数据非常昂贵。

  第二组是像 Google 和 Meta 这样的超大规模厂商。“对他们来说,数据已经耗尽,”他说。“它是从他们的主要业务中免费收集的。他们的处理方式截然不同,因为他们没有为此付出任何代价。”

  一位玩家解决所有人的负担能力

  费尔德曼说,变压器的尺寸限制也是一种经济限制。

  “挑战的一部分是,我们如何构建具有数千亿或数十万亿[参数大小]但构建硬件的模型,以便世界上超过六八家公司能够负担得起?” 他说,并指出如果培训花费数千万美元,大学和许多其他组织都无法承受。

  Cerebras 的目标之一是让大学和大型企业能够以他们能够承受的成本进行大型模型培训。(Cerebras 已 在云中提供其 WSE 以尝试解决此问题)。

  “否则,大 AI 将成为极少数公司的领域,我认为从历史上看,这对行业不利,”他说。

  变压器网络越来越接近问题

  变形金刚也在向边缘蔓延。

  虽然最大的网络仍然遥不可及,但对边缘设备上较小变压器的推断正在取得进展。

  


  Wajahat Qadeer(来源:Kinara)

  Kinara 的首席架构师 Wajahat Qadeer 告诉 EE Times ,这家边缘 AI 芯片公司看到了边缘应用对自然语言处理和视觉转换器的需求。这包括 ViT(视觉转换器,用于视觉)和 DETR(检测转换器,用于物体检测)。

  “无论哪种情况,在边缘工作得最好的变压器网络通常都小于 BERT-Large 的 3.4 亿个参数,”他说。“更大的变压器有数十亿甚至数万亿个参数,因此需要大量的外部存储器、大 DRAM 和高带宽接口,这在边缘是不可行的。” (BERT,来自转换器的双向编码器表示,是谷歌在其搜索引擎中使用的一种自然语言处理模型)。

  Qadeer 说,有一些方法可以减小变压器的尺寸,以便可以在边缘设备中运行推理。

  “对于在边缘部署,大型模型可以通过诸如师生培训之类的技术来减小尺寸,以创建针对边缘设备优化的轻量级转换器,”他以 MobileBert 为例说。“通过隔离与部署用例相关的功能并仅针对该用例培训学生,可以进一步减小尺寸。”

  Student-teacher 是一种训练神经网络的方法,其中训练一个较小的学生网络以重现教师网络的输出。

  像这样的技术可以将变压器驱动的 NLP 带到智能家居助理等应用程序中,在这些应用程序中,消费者隐私决定数据不会进入云端。Qadeer 说,智能手机是这里的另一个关键应用。

  “在我们的第二代芯片中,我们特别提高了纯矩阵乘法的效率,显着增加了内部和外部的内存带宽,还增加了对浮点运算的广泛矢量支持,以加速激活和运算这可能需要更高的精度,”他补充道。

  变压器融合正在发生

  


  Marshall Choy(来源:SambaNova)

  SambaNova 产品高级副总裁 Marshall Choy 告诉 EE Times,虽然五年前出现了大量模型类型,但 AI 的历史时期 很可能已经结束。

  “我们开始看到一些趋同,”Choy 说。五年前,他补充说,“对于语言模型来说,这仍然是一个开放的研究问题……现在答案很明确:它是变形金刚。”

  Choy 说,SambaNova 银行客户群的典型场景可能是数百甚至数千个不同的 BERT 实例,这种情况几乎不鼓励可重复性。SambaNova 的硬件和软件基础架构产品包括 订阅的预训练基础 模型 。该公司通常与客户合作,从 BERT 过渡到 SambaNova 的 GPT 预训练版本(生成预训练变压器,一种用于生成类人文本的模型)。

  “我们并不想成为数千个 BERT 模型的直接替代品,”他说。“我们正试图为客户提供一个入口,从他们现在的位置重新构想具有一个 GPT 实例的数千个 BERT 模型……让他们达到他们应该达到的企业规模。”

  Choy 说,到目前为止,Transformer 融合的一个副作用是企业从神经网络工程转向专注于数据集创建,因为他们越来越多地将数据集而不是模型视为他们的 IP。

  “你可能会很戏剧化,说融合会导致商品化。我不认为我们还在那里。但如果你看看我们的发展轨迹,我认为模型将在某个时候商品化,”他说。“这可能是迟早的事,因为软件开发进展如此之快。”

  本文最初发表于 EE Times。

  Sally Ward-Foxton为 EETimes.com 报道 AI 技术和相关问题,并为 EETimes Europe 杂志报道欧洲产业的方方面面。Sally 在英国伦敦花费了超过 15 年的时间撰写有关电子行业的文章。她为电子设计、ECN、Electronic Specifier: Design、Components in Electronics 等撰写文章。她拥有剑桥大学电气和电子工程硕士学位。


责任编辑:David

【免责声明】

1、本文内容、数据、图表等来源于网络引用或其他公开资料,版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系拍明芯城(marketing@iczoom.com),本方将及时处理。

2、本文的引用仅供读者交流学习使用,不涉及商业目的。

3、本文内容仅代表作者观点,拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。

4、如需转载本方拥有版权的文章,请联系拍明芯城(marketing@iczoom.com)注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

标签: 变压器网络

相关资讯