0 卖盘信息
BOM询价
您现在的位置: 首页 > 电子资讯 >设计应用 > 超强NLP思维导图,知识点全面覆盖:从基础概念到最佳模型,萌新成长必备资源

超强NLP思维导图,知识点全面覆盖:从基础概念到最佳模型,萌新成长必备资源

来源: 电子产品世界
2020-09-16
类别:设计应用
eye 30
文章创建人 拍明

原标题:超强NLP思维导图,知识点全面覆盖:从基础概念到最佳模型,萌新成长必备资源

以下是超强NLP思维导图涵盖的知识点,从基础概念到最佳模型,为萌新提供成长必备资源:

一、基础概念

  • NLP定义:让计算机理解、解释和生成人类语言的技术,是人工智能领域活跃且重要的研究方向,结合计算机科学、人工智能、语言学和心理学等多学科知识,旨在打破人类语言和计算机语言间的障碍,实现无缝交流互动。

  • 核心任务

    • 自然语言理解(NLU):使计算机理解自然语言文本的意义,经历了基于规则、基于统计和基于深度学习(如Transformer是目前“最先进”的方法,BERT和GPT - 2都是基于Transformer的)的三次迭代。

    • 自然语言生成(NLG):以自然语言文本来表达给定的意图、思想等,有内容确定、文本结构、句子聚合、语法化、参考表达式生成、语言实现六个步骤。

二、处理层面

  • 词法分析:包括汉语的分词和词性标注。分词是将输入的文本切分为单独的词语;词性标注是为每一个词赋予一个类别,如名词、动词、形容词等。

  • 句法分析:以句子为单位进行分析以得到句子的句法结构,主流方法有短语结构句法体系、依存结构句法体系、深层文法句法分析。

  • 语义分析:最终目的是理解句子表达的真实语义,语义角色标注是目前比较成熟的浅层语义分析技术,通常在句法分析的基础上完成。

三、主要流程

  • 传统机器学习的NLP流程:预处理(收集语料库、文本清洗、分割成单个的单词文本、删除不相关的单词、将所有字符转换为小写、考虑词性还原等)、特征提取(词袋设计、Embedding、特征分类器)。

  • 深度学习的NLP流程:预处理、设计模型、模型训练。

四、关键技术

  • 文本预处理

    • 中文分词:将连续的中文文本切分成有意义的词汇序列,方法有经典的基于词典及人工规则(适应性不强,速度快,成本低)、现代的基于统计和机器学习(适应性强,速度较慢,成本较高)。

    • 子词切分:将词汇进一步分解为更小的单位,即子词,常见方法有Byte Pair Encoding (BPE)、WordPiece、Unigram、SentencePiece等。

    • 词性标注:为文本中的每个单词分配一个词性标签,如名词、动词、形容词等。

    • 去除停用词:去掉常见的、无实际意义的词(如“是”“的”)。

    • 词形还原/词干提取:将词语还原为基本形式(如“running”还原为“run”)。

  • 特征工程:将文本数据转换为适合机器学习模型使用的数值表示的过程。

    • 词袋模型:一种简化的表示方法,将文本表示为词的出现频率,忽略词序。

    • N - gram:通过考虑连续的N个词(如二元组、三元组等)来捕捉词序信息。

    • TF - IDF:一种统计方法,用于评估一个词对文档的重要性。

    • 词嵌入:使用模型(如Word2Vec、GloVe)将词转换为向量表示,捕捉词之间的语义关系。

五、核心任务

  • 中文分词:是中文文本处理的首要步骤,由于中文语言特点,词与词之间没有明显分隔,需将连续的中文文本切分成有意义的词汇序列。

  • 文本分类:将给定的文本自动分配到一个或多个预定义的类别中,广泛应用于情感分析、垃圾邮件检测、新闻分类、主题识别等场景。

  • 实体识别:自动识别文本中具有特定意义的实体,并将它们分类为预定义的类别,如人名、地点、组织、日期、时间等,对信息提取、知识图谱构建、问答系统、内容推荐等应用很重要。

  • 关系抽取:从文本中识别实体之间的语义关系,如因果关系、拥有关系、亲属关系、地理位置关系等,对理解文本内容、构建知识图谱、提升机器理解语言的能力等方面具有重要意义。

  • 文本摘要:生成一段简洁准确的摘要,来概括原文的主要内容,分为抽取式摘要和生成式摘要。

  • 机器翻译:使用计算机程序将一种自然语言(源语言)自动翻译成另一种自然语言(目标语言)的过程,不仅涉及词汇的直接转换,更重要的是要准确传达源语言文本的语义、风格和文化背景等。

  • 自动问答:使计算机能够理解自然语言提出的问题,并根据给定的数据源自动提供准确的答案,模拟了人类理解和回答问题的能力,涵盖了从简单的事实查询到复杂的推理和解释,大致可分为检索式问答、知识库问答和社区问答。

QQ_1750324666764.png


六、经典模型

  • BERT模型:由谷歌在2018年研究发布,采用独特的神经网络架构Transformer进行语言理解,适用于语音识别、文本到语音以及序列到序列的任何任务,能有效应对11个NLP任务。

  • GPT - 2模型:OpenAI于2019年2月发布的开源模型,同年11月发布完整版本,在文本翻译、QA问答、文章总结、文本生成等NLP任务上可以达到人类的水平,但生成长文章时,会变得重复或无意义。

  • GPT - 3模型:由OpenAI于2020年发布,是一个自回归语言模型,使用深度学习来生成类似人类的文本,在零样本和小样本学习任务上表现出了强大的学习能力。

  • RoBERTa模型:由Meta AI在2019年7月份发布,基于BERT模型优化得到,通过学习和预测故意掩膜的文本部分,在BERT的语言掩蔽策略上建立它的语言模型,并使用更大的小批量和学习率进行训练。

  • ALBERT模型:由谷歌在2020年初发布,是BERT模型的精简版本,主要用于解决模型规模增加导致训练时间变慢的问题,采用了因子嵌入和跨层参数共享两种参数简化方法。

  • XLNet模型:CMU和Google Brain团队在2019年6月份发布的模型,是一种通用的自回归预训练方法,在20个任务上超过了BERT的表现,并在18个任务上取得了当前最佳效果。

  • T5模型:Google在2020年7月份发布的一款强大的统一模型,将所有NLP任务都转化成文本到文本任务,方便评估不同模型结构、预训练目标函数、无标签数据集等的影响。

  • ELECTRA模型:借鉴了对抗网络的思想,共训练两个神经网络模型(生成器和判别器),采用联合训练的方法,以1/4的算力就达到了RoBERTa的效果。

  • DeBERTa模型:微软在2021年初发布,使用了两种新技术(注意力解耦机制、增强的掩码解码器)改进了BERT和RoBERTa模型,同时还引入了一种新的微调方法(虚拟对抗训练方法)以提高模型的泛化能力。

  • StructBERT模型:由阿里巴巴达摩院2019年提出的NLP预训练模型,基于BERT模型的改进,增加了两个预训练任务和目标,可以最大限度地利用单词和句子的顺序,分别在单词和句子级别利用语言结构。


责任编辑:

【免责声明】

1、本文内容、数据、图表等来源于网络引用或其他公开资料,版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系拍明芯城(marketing@iczoom.com),本方将及时处理。

2、本文的引用仅供读者交流学习使用,不涉及商业目的。

3、本文内容仅代表作者观点,拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。

4、如需转载本方拥有版权的文章,请联系拍明芯城(marketing@iczoom.com)注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

标签: NLP思维导图

相关资讯

资讯推荐
云母电容公司_云母电容生产厂商

云母电容公司_云母电容生产厂商

开关三极管13007的规格参数、引脚图、开关电源电路图?三极管13007可以用什么型号替代?

开关三极管13007的规格参数、引脚图、开关电源电路图?三极管13007可以用什么型号替代?

74ls74中文资料汇总(74ls74引脚图及功能_内部结构及应用电路)

74ls74中文资料汇总(74ls74引脚图及功能_内部结构及应用电路)

芯片lm2596s开关电压调节器的中文资料_引脚图及功能_内部结构及原理图_电路图及封装

芯片lm2596s开关电压调节器的中文资料_引脚图及功能_内部结构及原理图_电路图及封装

芯片UA741运算放大器的资料及参数_引脚图及功能_电路原理图?ua741运算放大器的替代型号有哪些?

芯片UA741运算放大器的资料及参数_引脚图及功能_电路原理图?ua741运算放大器的替代型号有哪些?

28nm光刻机卡住“02专项”——对于督工部分观点的批判(睡前消息353期)

28nm光刻机卡住“02专项”——对于督工部分观点的批判(睡前消息353期)

拍明芯城微信图标

各大手机应用商城搜索“拍明芯城”

下载客户端,随时随地买卖元器件!

拍明芯城公众号
拍明芯城抖音
拍明芯城b站
拍明芯城头条
拍明芯城微博
拍明芯城视频号
拍明
广告
恒捷广告
广告
深亚广告
广告
原厂直供
广告