CN114757169A - 基于albert模型自适应小样本学习智能纠错方法 - Google Patents
基于albert模型自适应小样本学习智能纠错方法 Download PDFInfo
- Publication number
- CN114757169A CN114757169A CN202210284093.XA CN202210284093A CN114757169A CN 114757169 A CN114757169 A CN 114757169A CN 202210284093 A CN202210284093 A CN 202210284093A CN 114757169 A CN114757169 A CN 114757169A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- epoch
- data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012937 correction Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 175
- 238000000605 extraction Methods 0.000 claims abstract description 51
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 230000003044 adaptive effect Effects 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 238000002372 labelling Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开的一种基于ALBERT模型自适应小样本学习智能纠错方法,可执行性强、可以节约计算资源,改善小样本集训练效果比较明显,本发明通过下述技术方案实现:基于ALBERT模型,对基于小样本学习的实体抽取和零样本条件下的实体抽取,收集历史全量数据集,预处理历史全量语料数据,以ALBERT_TINY作为基线模型,进行无监督预训练学习,生成预训练语言模型;将人工标注数据集作为训练集,生成待上线的实体抽取模型;以筛选的小样本测试集作为预测语料,经自适应预测纠错后生成结果集;将产生的结果集作为下一轮预训练语言模型训练的训练集进行迭代训练,当结果数据集达到设定的阈值标准,停止迭代,完成本批次测试集的自适应学习。
Description
技术领域
本发明涉及一种是在序列标注、实体抽取领域结合智能纠错、自主学习技术,形成的一种基于ALBERT模型自适应小样本学习智能纠错方法。
背景技术
自然语言处理(NLP)是融合计算机科学、人工智能、语言学等学科的交叉领域,是一种更高层次的信号表达形式,也是人工智能最难攻克的领域之一。随着互联网的快速发展,网络文本,尤其是用户生成的文本呈***性增长,为自然语言处理带来了巨大的应用需求。在过去的五到十年间,RNN,LSTM,Transformer为NLP的发展源源不断地注入动力,近两年比较热的预训练语言模型,比如自然语言处理模型BERT系列,GPT系列都是基于Transformer(一种注意机制)这一基础的。BERT基本上是Transformer架构的编码器堆栈。Transformer体系结构是一种编码器-解码器网络,它在编码器使用self-attention,在解码器使用注意力。Transformer架构仅对编码器架构进行了预训练。这种预训练对某些任务(如机器翻译等)很有用,但对于诸如句子分类之类的任务,下一个单词预测则无法使用。BERT 利用Transformer来学习文本中单词或子单词之间的上下文关系。原始形式的Transformer包含两种独立的机制-读取文本输入的编码器和为任务生成预测的解码器。BERT自2018年被提出以来,获得了很大的成功和关注。BERT在不同的NLP任务上表现良好的主要原因之一是使用半监督学习。这意味着该模型针对特定任务进行了训练,使其能够理解语言的模式。基于此,学术界陆续提出了各类相关模型,以期对BERT进行改进。由于BERT损失函数仅考虑Mask值的预测,仅在数据预处理阶段做一次随机mask,而忽略非Mask的预测。结果,该模型的收敛速度比定向模型慢,这一特征被上下文感知能力的提高所抵消。BERT预训练语言模型架构使用双向Transformer。双向Transformer在文献中通常称为「Transformer编码器」,而只关注左侧语境的版本则因能用于文本生成而被称为「Transformer解码器」。BERT 表示在所有层中共同依赖于左右上下文。而OpenAIGPT使用从左到右的Transformer, GPTTransformer使用受限制的self-attention,其中每个token只能关注到其左侧的上下文。标记大量的数据需要耗费大量的人力和财力。像BERT这类基于Pre-training和fine-tuning 的模型在NLU(NaturalLanguageUnderstanding)任务中取得了很大的成功。在Pre-training 阶段,源序列和目标序列都有可能被mask,统一的预训练流程让单个Transformer能为不同类型的语言模型使用共享的参数和架构,从而减轻对分开训练和管理多个语言模型的需求。参数共享使得学习到的文本表征更通用,因为它们针对不同的语言建模目标(其中利用上下文的方式各不相同)进行了联合优化,这能缓解在任意单个语言模型任务上的过拟合。
在实体抽取领域中,实体模型和关系模型是独立训练的,关系模型只依赖实体模型提供输入特征。在关系模型的输入层融合实体信息(包括边界和类型)是至关重要的;想要训练一个关系抽取器,给它一个句子俩实体,首先它需要知道给这俩实体间的关系打个什么标签,获取大量有标签数据,是非常耗时且昂贵的;同时,模型不可能自己给关系取名字,所以肯定需要人用标注好的语料。从未标记的文本中获取更多单词级别的信息是很有挑战性的。第一,目前还不清楚哪种优化目标可以学习对迁移有用的文本表示。第二,对于将这些学习到的表示形式转移到目标任务的最有效的方法没有共识。这些不确定性使得为语言处理开发有效的半监督学习方法变得困难。现有自然语言处理任务,需要在任务特定的数据集上执行监督学习。现有机器学习***对于数据分布以及任务的变化是很敏感且脆弱的。单一领域数据集上单一任务的训练,是当前***缺乏泛化性的主要原因。然而,NLP中的多任务训练仍处于起步阶段。现有多任务训练,通过以数据对的形式构建数据集进行模型训练。这种数据集的构建要求非常高且是非常昂贵的。从实践的角度来看,每一个新任务都需要大量标记示例数据集,这限制了语言模型的适用性。对于很多任务,很难收集一个大型的有监督的训练数据集,特别是当这个过程必须为每个新任务重复进行时。传统模型是预训练加微调的模式,在微调的过程当中,仍然需要通过特定任务的大量数据集,进行模型参数的迭代更新。微调阶段的监督学习,对大量有标签数据集的依赖;微调阶段,因为特定任务的数据集有限,大规模的语言模型,在有限的数据集上进行微调,容易造成过拟合,从而进一步降低模型的泛化性能。无监督学习是有监督的微调模型的预训练目标,因此被称为“生成式预训练”。由于当下流行的自然语言处理模型BERT、GPT等家族模型存在严重依赖大量高质量人工标注数据作为训练集的问题,导致中小微企业很难在垂直业务领域做出令人满意的效果;实体抽取模型面对大数据背景下人工打标数据集匮乏导致的模型效果不佳,另一方面,上述模型均存在一次训练永久使用,无法进行自主学习、自主发现和自主校对的能力。Google学者介绍了ALiteBERT(ALBERT)架构,该架构结合了两种参数减少技术:分解式参数化嵌入和跨层参数共享。跨层参数共享-ALBERT跨层共享所有参数,可以提高参数效率。BERT 与ALBERT有不同。BERT模型是以Transformer编码器来表示,BERT存在一个问题,即预训练语言模型的大小持续增长,这会导致内存限制,更长的准备时间以及出乎意料的性能下降。语言表征模型BERT用Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。ALBERT分解因子嵌入参数化在BERT中,嵌入尺寸与隐藏层的大小相关。增加隐藏层的大小变得更加困难,因为它会增加嵌入大小,从而增加参数。ALBERT的优化点主要在于降低参数量,这可以加速训练,但是模型层数并没有变化,所以推理时间不受影响。与之相对应地,NLG(NaturalLanguageGeneration)任务,如NMT(neuralmachinetranslation)、textsummarization 和conversationalresponsegeneration等,经常面临着训练数据(paireddata)匮乏的问题。因此,在大量unpaireddata上做pre-training然后在少量paireddata上做fine-tuning,对NLU任务而言是同样有益的。然而,直接采用类似BERT的预训练结构(仅用encoder或decoder) 是不可取的,因为NLG任务通常是基于encoder-decoder的框架。另外,改善句子顺序的预测。当前大数据监督训练的问题:知识无法积累,需要大量的数据集,解决当前问题的方法主要有:直接基于监督学习的方法(无额外的数据集)和基于迁移学习的方法,基于监督学习方法利用流信息来学习one-shot模型,通过半监督或直推式学习大规模的无标签数据的流信息,从现有的训练模型中自适应学习one-shot类,实现数据增强;从相近的类别借用数据来增强训练数据集,合成新的有标签训练数据,通过呈现虚拟示例,合成表征,或变形现有的训练样本等方式。目前的成果主要还是基于把已知类别的一些信息迁移到新的类别上。
小样本学***移、裁剪、翻转、加噪声等操作,但是这些操作可能在特定数据集表现很好,不具有普适性。小样本学习所使用的数据增强方法主要有三个思路:1)只有小样本数据集:可以训练一个transformer学习样本之间的变化,然后使用该transformer对小样本数据集进行扩充;2)有小样本数据集+弱标注数据集:可以训练transformer从弱标注数据集中“挑选”样本来扩充小样本数据集;3)有小样本数据集+相似的数据集:可以训练一个GAN网络,通过学习给小样本数据集加上扰动来生成新样本。基于数据的方法比较容易理解,但是存在的问题是:很多工作都不具备普适性,难以迁移到别的数据集。生成模型学习小样本数据集的数据分布,并可将其用于各种任务。基于记忆的神经网络方法早在 2001年被证明可以用于meta-learning。他们通过权重更新来调节bias,并且通过学习将表达快速缓存到记忆中来调节输出。然而,利用循环神经网络的内部记忆单元无法扩展到需要对大量新信息进行编码的新任务上。因此,需要让存储在记忆中的表达既要稳定又要是元素粒度访问的,前者是说当需要时就能可靠地访问,后者是说可选择性地访问相关的信息;另外,参数数量不能被内存的大小束缚。像神经图灵机(NTMs)和记忆网络就符合这种必要条件。基于神经网络图灵机(NTMs)的思想,因为NTMs能通过外部存储(externalmemory)进行短时记忆,并能通过缓慢权值更新来进行长时记忆,NTMs可以学习将表达存入记忆的策略,并如何用这些表达来进行预测。通过上述方案拟解决小样本集训练效果一般,无法自主纠错、自主学习等问题。
在少量数据下,基于梯度的优化算法失败的原因,即无法直接用于metalearning。首先,这些梯度优化算法包括momentum,adagrad,adadelta,ADAM等,无法在几步内完成优化,特别是在非凸的问题上,多种超参的选取无法保证收敛的速度。其次,不同任务分别随机初始化会影响任务收敛到好的解上。虽然finetune这种迁移学习能缓解这个问题,但是需要更多的样本和更多计算,尤其是为了更准确估计类别条件分布,需要增加样本的数目,而且类别条件的许多信息是分类做不到,因而如果我们做分类任务,那么浪费了计算资源。当新数据相对原始数据偏差比较大时,迁移学习的性能会大大下降。传统小样本学习的方法,通常只使用基类数据进行学习.由于基类和新类之间存在严重的样本不均衡问题,导致容易过拟合到基类数据。metalearning的目标是在各种不同的学习任务上学出一个模型,使得可以仅用少量的样本就能解决一些新的学习任务。这种任务的挑战是模型需要结合之前的经验和当前新任务的少量样本信息,并避免在新数据上过拟合。使用经验误差存在一个典型的问题:如果学习算法选择的函数空间太大,泛化误差会变大,从而导致过拟合。如果没有任何复杂的学习策略或者特定的网络设计那么得到的算法模型就会产生严重的过拟合问题。
发明内容
本发明的任务是针对实体抽取模型面对大数据背景下人工打标数据集匮乏导致的模型效果不佳的问题,提出的一种可执行性强、可以节约计算资源,改善小样本集训练效果比较明显的自适应小样本学习智能纠错方法。
一种基于ALBERT模型自适应小样本学习智能纠错方法。
本发明的上述目的可以通过以下措施来达到,一种基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,包括如下步骤:
(1)基于ALBERT模型,对基于小样本学习的实体抽取和零样本条件下的实体抽取,收集历史全量数据集,进行去重,降噪等机器学习算法预处理操作,处理成为ALBERT模型训练要求的训练集格式,利用的监督信息以及不相关的辅助数据集中的知识,将输入映射到目标任务;
(2)基于步骤1预处理的历史全量语料数据,以ALBERT_TINY作为基线模型,进行无监督预训练学习,并生成预训练语言模型FineTuning;然后对样本空间数据进行空间维度划分,确定空间维度标签,并筛选少量能涵盖更多维度且具有代表性的文本,进行人工数据打标,形成人工标注样本集,将人工标注数据集作为训练集,预训练语言模型作为基线模型进行第二阶段的FineTuning训练,生成待上线的实体抽取模型;
(3)实体抽取模型基于深度学习的中文ALBERT_TINY自然语言模型的策略,结合自主学习、自主发现、自主纠错技术,进行模型训练的自适应学习,并基于ALBERT小样本实体抽取,以筛选的小样本测试集作为预测语料,利用产生的实体抽取模型进行预测,并生成结果集;基于产生的结果集,通过规则纠错模型进行离线智能纠正,产生纠错结果集,将产生的纠错结果集作为下一轮预训练语言模型FineTuning训练的训练集进行模型的迭代训练,当结果数据集达到设定的阈值标准,停止迭代,完成本批次测试集的自适应学习。
本发明相比于现有技术具有如下有益效果。
本发明的核心创新点在于一方面基于中文ALBERT_TINY自然语言模型,结合自主学习、自主发现、自主纠错技术,进行模型训练的自适应学习,通过一个或者几个示例就能对轻松建立新事物的认知,让模型具有真正意义上的智能学习能力,能够自主学习、发现和纠错的自适应能力;另一方面,从小样本学习的角度出发,基于ALBERT模型对基于小样本学习的实体抽取和零样本条件下的实体抽取,收集历史全量数据集,进行去重,降噪等机器学习算法预处理操作,处理成为ALBERT模型训练要求的训练集格式,采用少量可用的有监督信息的数据集和与任务T不相关的辅助数据集,目标是为任务T构建函数,该任务的完成过程中利用了很少的监督信息以及不相关的辅助数据集中的知识,最终将输入映射到目标任务,在一定程度上解决了在高质量人工标注数据匮乏的大背景下,小样本学习模型效果欠佳的问题,使得模型能够在高质量小样本人工标注数据下完成模型训练,并保持对增量数据的自适应学习能力。
本发明以ALBERT_TINY作为基线模型,进行无监督预训练学习,并生成预训练语言模型FineTuning;然后对样本空间数据进行空间维度划分,确定空间维度标签,并筛选少量能涵盖更多维度且具有代表性的文本,进行人工数据打标,形成人工标注样本集,将人工标注数据集作为训练集,预训练语言模型作为基线模型进行第二阶段的FineTuning训练,生成待上线的实体抽取模型;其小本样学习FSL不需要依赖大规模的训练样本,只需要有限的样本。即可以节约计算资源,需要的样本数少于生成模型,避免了特定应用中数据准备的高昂成本,可以缩小人工智能与人类智能之间的差距,可以为一项新出现的、可采集样本很少的任务实现低成本、快速的模型部署,从而使得错误成本达到最小。通过引入用于句子顺序预测的自我监督损失,可以解决在训练NLP和MLM在一起的NSP任务很容易的情况,从而进一步提高了ALBERT的性能。但是ALBERT使用的任务是模型必须预测句子是否连贯。
可执行性强。本发明采用基于深度学习的中文ALBERT_TINY自然语言模型的策略,结合自主学习、自主发现、自主纠错技术,进行模型训练的自适应学习,并基于ALBERT 小样本实体抽取,以筛选的小样本测试集作为预测语料,利用产生的实体抽取模型进行预测,并生成结果集;基于产生的结果集,通过规则纠错模型进行离线智能纠正,产生纠错结果集,将产生的纠错结果集作为下一轮预训练语言模型FineTuning训练的训练集进行模型的迭代训练,当文本语料集具有增量数据较多的情况下,能够清晰地分辨出多类或者某一类与其余类之间的差异特征,其准确率高于生成模型。同时不需要求解类别条件概率,所以可以对输入进行抽象(e.g降维,构造等),因此可以简化学习问题。生成模型的收敛速度比较快,即当样本数量较多时,生成模型能够更快地收敛于真实模型成模型,能够应付存在隐变量的情况,比如混合高斯模型就是含有隐变量的生成。使学习***能够从少量样本中学习,能够估计样本或者特征之间的相似度即可相似样本对,可以获得较高的相似度得分,非相似对则可以获得较低的相似度得分。这种基于ALBERT实体抽取的小样本自适应学习方法的改善效果比较明显,因此具有良好的工程应用前景。
附图说明
图1为本发明一种基于ALBERT模型自适应小样本学习智能纠错方法的流程图;
图2是图1的实验结果示意图。
具体实施方式
参阅图1。根据本发明,采用如下步骤:
(1)基于ALBERT模型,对基于小样本学习的实体抽取和零样本条件下的实体抽取,收集历史全量数据集,进行去重,降噪等机器学习算法预处理操作,处理成为ALBERT模型训练要求的训练集格式,利用的监督信息以及不相关的辅助数据集中的知识,将输入映射到目标任务;
(2)基于步骤1预处理的历史全量语料数据,以ALBERT_TINY作为基线模型,进行无监督预训练学习,并生成预训练语言模型FineTuning;然后对样本空间数据进行空间维度划分,确定空间维度标签,并筛选少量能涵盖更多维度且具有代表性的文本,进行人工数据打标,形成人工标注样本集,将人工标注数据集作为训练集,预训练语言模型作为基线模型进行第二阶段的FineTuning训练,生成待上线的实体抽取模型;
(3)实体抽取模型基于深度学习的中文ALBERT_TINY自然语言模型的策略,结合自主学习、自主发现、自主纠错技术,进行模型训练的自适应学习,并基于ALBERT小样本实体抽取,以筛选的小样本测试集作为预测语料,利用产生的实体抽取模型进行预测,并生成结果集;基于产生的结果集,通过规则纠错模型进行离线智能纠正,产生纠错结果集,将产生的纠错结果集作为下一轮预训练语言模型Fine_Tuning训练的训练集进行模型的迭代训练,当结果数据集达到设定的阈值标准,停止迭代,完成本批次测试集的自适应学习。
在基于ALBERT_TINY作为基线模型的基础上,结合传统BERT家族的两段式训练技术、智能发现和纠错技术,对选中的小样本进行特征工程选择,构建数据空间下多维度标签体系;预训练语言模型采取两段式训练方式对人工打标的小样本数据集进行预训练和FineTuning训练,形成垂直领域实体抽取模型并对测试集进行实体抽取,然后经过智能纠错模型对抽取结果进行纠错形成新的机器自主学习到的打标数据集,以此作为下一轮FineTuning训练的训练集;经多轮自适应学习后,当阈值达到规定标准后停止迭代,完成本次自适应学习。
在数据采集中,收集历史全量数据集作为实体抽取模型的训练、验证、纠错和测试语料集;对采集到的文本内容进行去重、降噪等预处理操作,预处理的历史全量语料数据,用处理后的文本内容作为语言模型的训练集语料。
以ALBERT_TINY作为基线模型进行无监督预训练学习,生成本批次训练的预训练语言模型:Modelpre=preTrain(SAll),然后将输入词转换为词嵌入向量
X:X=Embedding(W)+Position(W),嵌入函数Embedding生成字向量,将高维稀疏特征映射为低维稠密向量,再进行模型端到端训练,通过遍历链表元素得到一个有效的POSITION型值, Position函数生成位置向量Z,Z=注意力机制其中, preTrain为预训练函数,SAll为历史全量数据集,W表示待训练字,Q表示Query向量,K表示Key向量,V表示Value向量,长度均为128,表示对得分score的归一化处理,QKT表示为每个向量计算一个score得分,T表示K的转置。
位置向量Z在注意机制Transformer的encoder过程中,经过特征加权之后得到的特征向量;在软注意力self-attention中,每个单词有表示Query向量Q,每个不同的输入元素(单词)都对应一个Query向量,一个Key向量,一个Value向量,Key向量K和表示Value向量V,3个不同向量,其中Q、K、V向量均由嵌入向量X乘以三个不同的权值矩阵WQ、WK、WV得到,三个权值矩阵尺寸均为512*128;归一化指数函数softmax将一个含任意实数的K维向量Z“压缩”到另一个K维实向量中,进行归一化处理后,对归一化指数函数softmax进行激活,再点乘V向量得到每个输入向量的评分;位置向量Z在 Transformer的encoder过程中,经过特征加权之后得到的特征向量;在软注意力self- attention中,每个单词有表示Query向量Q,Key向量K和表示Value向量V;在词嵌入样本向量X=X+Z与X=LayerNorm(X)中进行X的残差连接和LayerNorm计算前馈层中的隐层Xhidden; Xhidden=Linear(Relu(Linear(X))),式中,X是X=LayerNorm(X)计算的结果,Linear函数表示线性变换,Relu激活函数。
在公式Xhidden=X+Xhidden与Xhidden=LayerNorm(Xhidden)中,进行Xhidden的残差连接和LayerNorm计算;O(V*H)→O(V*E+E*H)通过每层之间的参数共享和矩阵降维分解,达到给模型瘦身减负,降低模型参数量的目的;其中,batch_size=64,seq_len=128,embed_dim=12, Xhidden∈Rbatch_SIZE*seq_len.*embe_dimd_、V表示词表大小,H表示隐层维度,E表示词向量维度。
在公式Modeli=Ttrain(Modelpre,SEpoch_in)为自适应训练函数,Modelpre为Modelpre=preTrain(SAll)公式计算出的预训练语言模型,SEpoch_in为第i轮训练的输入训练集, Modeli为第i轮训练的产出模型,其中i∈N+;
在公式SEpoch_outi=Test(Modeli,SEpoch_tesi)中,Test为自适应测试函数,Modeli公式计算出的实体抽取练模型,SEpoch_tesi为第i轮训练的测试集,SEpoch_out为第i论训练的实体抽取结果集,其中i∈N+;
在公式SEpoch_chcki+1=SEpoch_chcki中,SEpoch_outi为SEpoch_outi=Test(Modeli,SEpoch_tesi)公式计算出的实体抽取结果集,SEpoch_chcki为第i轮训练的纠错结果集;在公式SEpoch_chcki+1=SEpoch_chcki中,Epoch_chcki为公式SEpoch_chcki=chck(SEpoch_outi))计算出的自适应纠错结果集,SEpoch_chcki+1为第i+1 轮训练数据集,其中i∈N+,N+表示正整数集。Epoch_chcki为公式SEpoch_chcki=chck(SEpoch_outi))计算出的自适应纠错结果集,SEpoch_chcki+1为第i+1轮训练的训练数据集,其中i∈N+;
在公式β=(Ai-Bi∩Ai)/100中,β表示每一轮迭代训练过程中计算出的门限阈值,Ai表示第i次迭代训练公式SEpoch_chcki+1=SEpoch_chcki的输出中,自适应校验模型下抽取出的实体标签集合;Bi为i次迭代训练公式SEpoch_outi=Test(Modeli,SEpoch_tesi))的输出中,ModelI出的实体标签集合,其中i,∈N+;SEpoch_n=SEpoch_chcki+1;在公式 中,表示第i+1次迭代的训练集,表示模型停止迭代的最后一次测试集的实体抽取结果,其中i,end∈N+。
自适应模型抽取算法部署。基于步骤三中的结果,形成一套完整的基于ALBERT模型自适应小样本学习智能纠错方法,完成垂直领域的实体抽取任务。预训练语言模型FineTuning,预处理全量历史数据集,判断是否完成全量数据准备预处理准备工作,是则基于ALBERT_TINY进行无监督预训练,判断预训练语料集是否完备,是则产生出预训练语言模型,然后判定是否产生出预训练语言模型,是则,进行实体抽取数据空间维度划分,否则判定数据空间维度划分是否完成,是则筛选尽可能多维度的代表性文本,否则判断深度学习中的时间片段epoch=1是否成立,epoch代表自适应学习模型迭代学习次数,是则基于ALBERT_TINY预训练语言模型进行Fine_Tuning训练,否则判断是否生成纠错结果集,否则,基于纠错模型对结果集离线纠正,产生纠错结果集,是则将产生的纠错结果集作为下一轮预训练语言模型Fine_Tuning训练,判断是否生成实体抽取模型,是则基于实体抽取模型进行测试集预测,测试预测结果集,否则判断是否生成预测结果集,是则取tmin到tmax这一段时间作为一个epoch来进行数据处理,判断深度学习中的时间片段epoch=max_epoch,迭代输出尽可能拟合训练数据结果,将所有数据分为若干个时间片段batch,每个时间片段batch内包含一小部分训练样本,即数据分成几个部分时间片段batch,进行分批次训练训练,运行所有的数据进行训练,从而使得每个批次的数据量是可以负载的,将包含所有训练样本的时间片段batch数据逐一送入计算训练,更新神经网络的权值,使得网络收敛,结束程序。随着时间片段epoch数量的增加,神经网络中权重更新迭代的次数增多,曲线从最开始的不拟合状态,慢慢进入优化拟合状态,最终进入过拟合,优化网络模型的性能及速度。
以上所述的仅是本发明的优选实施例。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干变形和改进,这些变更和改变应视为属于本发明的保护范围。
Claims (10)
1.一种基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,包括如下步骤:
(1)基于ALBERT模型,对基于小样本学习的实体抽取和零样本条件下的实体抽取,收集历史全量数据集,进行去重,降噪机器学习算法预处理操作,处理成为ALBERT模型训练要求的训练集格式,利用的监督信息以及不相关的辅助数据集中的知识,将输入映射到目标任务;
(2)基于步骤1预处理的历史全量语料数据,以ALBERT_TINY作为基线模型,进行无监督预训练学习,并生成预训练语言模型FineTuning;然后对样本空间数据进行空间维度划分,确定空间维度标签,并筛选少量能涵盖更多维度且具有代表性的文本,进行人工数据打标,形成人工标注样本集,将人工标注数据集作为训练集,预训练语言模型作为基线模型进行第二阶段的FineTuning训练,生成待上线的实体抽取模型;
(3)实体抽取模型基于深度学习的中文ALBERT_TINY自然语言模型的策略,结合自主学习、自主发现、自主纠错技术,进行模型训练的自适应学习,并基于ALBERT小样本实体抽取,以筛选的小样本测试集作为预测语料,利用产生的实体抽取模型进行预测,并生成结果集;基于产生的结果集,通过规则纠错模型进行离线智能纠正,产生纠错结果集,将产生的纠错结果集作为下一轮预训练语言模型FineTuning训练的训练集进行模型的迭代训练,当结果数据集达到设定的阈值标准,停止迭代,完成本批次测试集的自适应学习。
2.如权利要求1所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,在基于ALBERT_TINY作为基线模型的基础上,结合传统BERT家族的两段式训练技术、智能发现和纠错技术,对选中的小样本进行特征工程选择,构建数据空间下多维度标签体系;预训练语言模型采取两段式训练方式对人工打标的小样本数据集进行预训练和FineTuning训练,形成垂直领域实体抽取模型并对测试集进行实体抽取,然后经过智能纠错模型对抽取结果进行纠错形成新的机器自主学习到的打标数据集,以此作为下一轮FineTuning训练的训练集;经多轮自适应学习后,当阈值达到规定标准后停止迭代,完成本次自适应学习。
3.如权利要求1所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,在数据采集中,收集历史全量数据集作为实体抽取模型的训练、验证、纠错和测试语料集;对采集到的文本内容进行去重、降噪等预处理操作,预处理的历史全量语料数据,用处理后的文本内容作为语言模型的训练集语料。
4.如权利要求1所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,以ALBERT_TINY作为基线模型进行无监督预训练学习,生成本批次训练的预训练语言模型:Modelpre=preTrain(SAll),然后将输入词转换为词嵌入向量X:X=Embedding(W)+Position(W),嵌入函数Embedding生成字向量,将高维稀疏特征映射为低维稠密向量,再进行模型端到端训练,通过遍历链表元素得到一个有效的POSITION型值,Position函数生成位置向量Z,Z=注意力机制其中,preTrain为预训练函数,SAll为历史全量数据集,W表示待训练字,Q表示Query向量,K表示Key向量,V表示Value向量,长度均为128,表示对得分score的归一化处理,QKT表示为每个向量计算一个score得分,T表示K的转置。
5.如权利要求4所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,位置向量Z在注意机制Transformer的encoder过程中,经过特征加权之后得到的特征向量;在软注意力self-attention中,每个单词有表示Query向量Q,每个不同的输入元素(单词)都对应一个Query向量,一个Key向量,一个Value向量,Key向量K和表示Value向量V,3个不同向量,其中Q、K、V向量均由嵌入向量X乘以三个不同的权值矩阵WQ、WK、WV得到,三个权值矩阵尺寸均为512*128;归一化指数函数softmax将一个含任意实数的K维向量Z“压缩”到另一个K维实向量中,进行归一化处理后,对归一化指数函数softmax进行激活,再点乘V向量得到每个输入向量的评分;位置向量Z在Transformer的encoder过程中,经过特征加权之后得到的特征向量;在软注意力self-attention中,每个单词有表示Query向量Q,Key向量K和表示Value向量V;在词嵌入样本向量X=X+Z与X=LayerNorm(X)中进行X的残差连接和LayerNorm计算前馈层中的隐层Xhidden;Xhidden=Linear(Relu(Linear(X))),式中,X是X=LayerNorm(X)计算的结果,Linear函数表示线性变换,Relu激活函数。
6.如权利要求5所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,在公式Xhidden=X+Xhidden与Xhidden=LayerNorm(Xhidden)中,进行Xhidden的残差连接和LayerNorm计算;O(V*H)→O(V*E+E*H)通过每层之间的参数共享和矩阵降维分解,达到给模型瘦身减负,降低模型参数量的目的;其中,batch_size=64,seq_len=128,embed_dim=12,Xhidden∈Rbatch_SIZE*seq_len.*embe_dimd_、V表示词表大小,H表示隐层维度,E表示词向量维度。
7.如权利要求6所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,在公式Modeli=Ttrain(Modelpre,SEpoch_in)为自适应训练函数,Modelpre为Modelpre=preTrain(SAll)公式计算出的预训练语言模型,SEpoch_in为第i轮训练的输入训练集,Modeli为第i轮训练的产出模型+;在公式SEpoch_outi=Test(Modeli,SEpoch_tesi)中,Test为自适应测试函数,Modeli公式计算出的实体抽取练模型,SEpoch_tesi为第i轮训练的测试集,SEpoch_out为第i论训练的实体抽取结果集;在SEpoch_chcki=chck(SEpoch_outi)公式中,chck为自适应纠错函数,SEpoch_outi为SEpoch_outi=Test(Modeli,SEpoch_tesi)公式计算出的实体抽取结果集,SEpoch_chcki为第i轮训练的纠错结果集;在公式SEpoch_chcki+1=SEpoch_chcki中,Epoch_chcki为公式SEpoch_chcki=chck(SEpoch_outi))计算出的自适应纠错结果集,SEpoch_chcki+1为第i+1轮训练数据集,其中i∈N+,N+表示正整数集。
8.如权利要求3所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,在公式β=(Ai-Bi∩Ai)/100中,β表示每一轮迭代训练过程中计算出的门限阈值,Ai表示第i次迭代训练公式SEpoch_chcki+1=SEpoch_chcki的输出中,自适应校验模型下抽取出的实体标签集合;Bi为i次迭代训练公式SEpoch_outi=Test(Modeli,SEpoch_tesi))的输出中,ModelI出的实体标签集合,其中i,∈N+,SEpoch_n=SEpoch_chcki+1;在公式中,表示第i+1次迭代的训练集,表示模型停止迭代的最后一次测试集的实体抽取结果,其中i,end∈N+。
9.如权利要求1所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,预训练语言模型FineTuning,预处理全量历史数据集,判断是否完成全量数据准备预处理准备工作,是则基于ALBERT_TINY进行无监督预训练,判断预训练语料集是否完备,是则产生出预训练语言模型,然后判定是否产生出预训练语言模型,是则,进行实体抽取数据空间维度划分,否则判定数据空间维度划分是否完成,是则筛选尽可能多维度的代表性文本,否则判断深度学习中的时间片段epoch=1是否成立,epoch代表自适应学习模型迭代学习次数,是则基于ALBERT_TINY预训练语言模型进行Fine_Tuning训练,否则判断是否生成纠错结果集,否则,基于纠错模型对结果集离线纠正,产生纠错结果集,是则将产生的纠错结果集作为下一轮预训练语言模型Fine_Tuning训练,判断是否生成实体抽取模型,是则基于实体抽取模型进行测试集预测,测试预测结果集,否则判断是否生成预测结果集,是则取tmin到tmax这一段时间作为一个epoch来进行数据处理,判断深度学习中的时间片段epoch=max_epoch,迭代输出尽可能拟合训练数据结果。
10.如权利要求9所述的基于ALBERT模型自适应小样本学习智能纠错方法,其特征在于,将所有数据分为若干个时间片段batch,每个时间片段batch内包含一小部分训练样本,即数据分成几个部分时间片段batch,进行分批次训练训练,运行所有的数据进行训练,从而使得每个批次的数据量是可以负载的,将包含所有训练样本的时间片段batch数据逐一送入计算训练,更新神经网络的权值,使得网络收敛,结束程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210284093.XA CN114757169A (zh) | 2022-03-22 | 2022-03-22 | 基于albert模型自适应小样本学习智能纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210284093.XA CN114757169A (zh) | 2022-03-22 | 2022-03-22 | 基于albert模型自适应小样本学习智能纠错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114757169A true CN114757169A (zh) | 2022-07-15 |
Family
ID=82327499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210284093.XA Pending CN114757169A (zh) | 2022-03-22 | 2022-03-22 | 基于albert模型自适应小样本学习智能纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757169A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983242A (zh) * | 2023-02-16 | 2023-04-18 | 北京有竹居网络技术有限公司 | 文本纠错方法、***、电子设备以及介质 |
CN117453867A (zh) * | 2023-09-25 | 2024-01-26 | 云启智慧科技有限公司 | 一种基于自然语言处理的智能育儿***和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128232A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 一种基于albert与多重词信息嵌入的命名实体识别方法 |
EP3886004A1 (en) * | 2020-03-27 | 2021-09-29 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method for training classification model, classification method and device, and storage medium |
CN113505243A (zh) * | 2021-07-29 | 2021-10-15 | 深圳万海思数字医疗有限公司 | 基于医疗知识图谱的智能问答方法和装置 |
CN113836874A (zh) * | 2021-09-16 | 2021-12-24 | 北京小米移动软件有限公司 | 文本纠错方法及装置 |
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN114154487A (zh) * | 2021-12-08 | 2022-03-08 | 和美(深圳)信息技术股份有限公司 | 文本自动纠错方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-22 CN CN202210284093.XA patent/CN114757169A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3886004A1 (en) * | 2020-03-27 | 2021-09-29 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method for training classification model, classification method and device, and storage medium |
CN113128232A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 一种基于albert与多重词信息嵌入的命名实体识别方法 |
CN113505243A (zh) * | 2021-07-29 | 2021-10-15 | 深圳万海思数字医疗有限公司 | 基于医疗知识图谱的智能问答方法和装置 |
CN113836874A (zh) * | 2021-09-16 | 2021-12-24 | 北京小米移动软件有限公司 | 文本纠错方法及装置 |
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN114154487A (zh) * | 2021-12-08 | 2022-03-08 | 和美(深圳)信息技术股份有限公司 | 文本自动纠错方法、装置、电子设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
HANWEN LUO 等: "Knowledge distillation and data augmentation for NLP light pre-trained models" * |
余同瑞 等: "自然语言处理预训练模型的研究综述" * |
李舟军;范宇;吴贤杰;: "面向自然语言处理的预训练技术研究综述" * |
路高勇: "一种新型航管与识别一体化数据处理架构技术" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983242A (zh) * | 2023-02-16 | 2023-04-18 | 北京有竹居网络技术有限公司 | 文本纠错方法、***、电子设备以及介质 |
CN117453867A (zh) * | 2023-09-25 | 2024-01-26 | 云启智慧科技有限公司 | 一种基于自然语言处理的智能育儿***和装置 |
CN117453867B (zh) * | 2023-09-25 | 2024-04-23 | 云启智慧科技有限公司 | 一种基于自然语言处理的智能育儿***和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046252B (zh) | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN114757169A (zh) | 基于albert模型自适应小样本学习智能纠错方法 | |
Ganai et al. | Predicting next word using RNN and LSTM cells: Stastical language modeling | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
Arora et al. | Deep learning with h2o | |
CN112364638A (zh) | 一种基于社交文本的人格识别方法 | |
CN110580287A (zh) | 基于迁移学习和on-lstm的情感分类方法 | |
Zhang et al. | MapReduce based distributed learning algorithm for restricted Boltzmann machine | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及*** | |
CN111062465A (zh) | 一种神经网络结构自调整的图像识别模型及方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
CN113157919A (zh) | 语句文本方面级情感分类方法及*** | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
Lin et al. | A deep clustering algorithm based on gaussian mixture model | |
Basterrech et al. | Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction | |
CN116992942B (zh) | 自然语言模型优化方法、装置、自然语言模型、设备和介质 | |
CN112132096B (zh) | 动态更新输出权值的随机配置网络的行为模态识别方法 | |
Yuan et al. | Deep learning from a statistical perspective | |
CN116720519B (zh) | 一种苗医药命名实体识别方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
Li et al. | Extreme learning machine for supervised classification with self-paced learning | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN114036947B (zh) | 一种半监督学习的小样本文本分类方法和*** | |
Wang et al. | A convolutional neural network image classification based on extreme learning machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220715 |
|
WD01 | Invention patent application deemed withdrawn after publication |