CN112686021A - 文本特征提取方法、文本特征提取装置及存储介质 - Google Patents
文本特征提取方法、文本特征提取装置及存储介质 Download PDFInfo
- Publication number
- CN112686021A CN112686021A CN202110001286.5A CN202110001286A CN112686021A CN 112686021 A CN112686021 A CN 112686021A CN 202110001286 A CN202110001286 A CN 202110001286A CN 112686021 A CN112686021 A CN 112686021A
- Authority
- CN
- China
- Prior art keywords
- text
- feature extraction
- predicted
- target task
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims description 28
- 238000003062 neural network model Methods 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 13
- 239000013598 vector Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 description 5
- 101000701393 Homo sapiens Serine/threonine-protein kinase 26 Proteins 0.000 description 5
- 102100030617 Serine/threonine-protein kinase 26 Human genes 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种文本特征提取方法、文本特征提取装置及存储介质。文本特征提取方法包括:获取待预测目标任务。根据待预测目标任务对应的领域,确定匹配待预测目标任务的文本集,其中,文本集包括多个文本。通过预训练的语言模型,提取文本集中文本的文本特征。通过本公开提供的文本特征提取方法,能够基于自然语言处理的待预测目标任务匹配合适的文本集,进而对文本特征进行针对性的提取,从而减少部署预训练的语言模型的成本,降低训练难度,加快自然语言处理任务的进程。
Description
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种文本特征提取方法、文本特征提取装置及存储介质。
背景技术
训练神经网络模型得到训练好的语言模型时,需预先确定初始化参数。若使用随机初始参数,则需要数量充足的训练集,且神经网络模型中的参数收敛慢,导致训练过程耗时长。基于此,预训练的概念应运而生。预训练是用于神经网络模型在进行训练前,训练神经网络中的参数,进而得到合适的初始化参数,从而为语言模型的训练设置合适的初始化参数,加速训练语言模型的优化与收敛。
相关技术中,采用预训练的语言模型进行文本特征提取时,通常是基于数据库中存储的文本进行提取。由于数据库中的数据多且种类复杂,导致部署预训练的语言模型的成本过多,训练语言模型的训练难度高。
发明内容
为克服相关技术中存在的问题,本公开提供一种文本特征提取方法、文本特征提取装置及存储介质。
根据本公开实施例的第一方面,提供一种文本特征提取方法,包括:获取待预测目标任务。根据所述待预测目标任务对应的领域,确定匹配所述待预测目标任务的文本集,其中,所述文本集包括多个文本。通过预训练的语言模型,提取所述文本集中文本的文本特征。
在一实施例中,所述语言模型采用下述方式进行预先训练:获取指定领域的多个训练文本。将多个所述训练文本分批次输入至神经网络模型中。针对每一批次,采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,并根据提取的文本特征,调整所述神经网络模型,得到所述语言模型。
在另一实施例中,所述采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,包括:针对各批次中每一批次的训练文本,采用随机掩码的方式,对当前批次对应的各所述训练文本进行独热编码提取,得到当前批次对应的各所述训练文本的文本特征。
在又一实施例中,所述根据所述待预测目标任务对应的领域,确定匹配所述待预测目标任务的文本集之后,所述文本特征提取方法还包括:若确定所述待预测目标任务对应的一个或多个领域中存在新增文本,则将所述新增文本增加至匹配所述待预测目标任务的文本集中。
在又一实施例中,所述领域包括:通用文本领域或电商领域。
根据本公开实施例的第二方面,提供一种文本特征提取装置,包括:获取单元,用于获取待预测目标任务。确定单元,用于根据所述待预测目标任务对应的领域,确定匹配所述待预测目标任务的文本集,其中,所述文本集包括多个文本。提取单元,用于通过预训练的语言模型,提取所述文本集中文本的文本特征。
在一实施例中,所述语言模型采用下述方式进行预先训练:获取指定领域的多个训练文本。将多个所述训练文本分批次输入至神经网络模型中。针对每一批次,采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,并根据提取的文本特征,调整所述神经网络模型,得到所述语言模型。
在另一实施例中,所述语言模型采用下述方式采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,包括:针对各批次中每一批次的训练文本,采用随机掩码的方式,对当前批次对应的各所述训练文本进行独热编码提取,得到当前批次对应的各所述训练文本的文本特征。
在又一实施例中,所述文本特征提取装置还包括:更新单元,用于若确定所述待预测目标任务对应的一个或多个领域中存在新增文本,则将所述新增文本增加至匹配所述待预测目标任务的文本集中。
在又一实施例中,所述领域包括:通用文本领域或电商领域。
根据本公开实施例的第三方面,提供一种文本特征提取装置,包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行上述任意一种所述的文本特征提取方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其中存储有指令,所述指令被处理器执行时,执行上述任意一种所述的文本特征提取方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过本公开提供的文本特征提取方法,能够基于自然语言处理的待预测目标任务匹配合适的文本集,进而对文本特征进行针对性的提取,从而减少部署预训练的语言模型的成本,降低训练难度,加快自然语言处理任务的进程。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种文本特征提取方法的流程图。
图2是根据一示例性实施例示出的一种语言模型的预训练方法的流程图。
图3是根据一示例性实施例示出的另一种文本特征提取方法的流程图。
图4是根据一示例性实施例示出的一种训练过程示意图。
图5是根据一示例性实施例示出的一种文本特征提取装置框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,在使用预训练的语言模型进行文本特征提取时,对进行文本特征提取的领域进行无差别的选取,进而得到各个领域对应的文本特征,导致语言模型的训练部署成本大,训练难度高。且在自然语言处理任务中,若进行文本体征提取的领域与待预测目标任务相匹配,则可以顺利进行待预测目标任务。若进行文本体征提取的领域与待预测目标任务不相匹配,则需等待进行文本体征提取的领域与待预测目标任务相匹配时,再进行待预测目标任务,耗时长。
有鉴于此,本公开提供一种文本特征提取方法,能够根据自然语言处理任务中的待预测目标任务确定当前需要进行文本提取的领域,进而进行针对性的特征提取,从而降低训练难度,促进自然语言处理进程,降低提取成本。
图1是根据一示例性实施例示出的一种文本特征提取方法的流程图,如图1所示,文本特征提取方法,包括以下步骤S11至步骤S12。
在步骤S11中,获取待预测目标任务。
在本公开实施例中,用于进行特征提取的文本集,是基于当前自然语言处理任务的待预测目标任务对应的领域所确定的。待预测目标任务可以包括:通用领域情感分析、电商领域情感分析、电商领域多标签文本分类或者电商领域商品名称抽取(NER)。因此,为防止提取过多无效的文本特征而导致数据冗余,在进行文本特征提取前,先获取待预测目标任务,进而在进行文本特征提取时能够进行有针对性的提取。
在步骤S12中,根据待预测目标任务对应的领域,确定匹配待预测目标任务的文本集。
在本公开实施例中,为便于提取的文本特征能够更贴近对应的领域,在匹配待预测目标任务对应的一个或多个领域对应的一个或多个文本集时,获取各领域中的多个文本,进而使各领域对应的文本集具有足够的用于进行特征提取的文本。文本集中各个文本可以来源于本地数据库、云端或者互联网,在本公开中不进行限定。
在一示例中,领域包括:通用文本领域或者电商领域。其中,通用文本领域可以包括:新闻、社交媒体、***、百度百科、亚马逊评论、电影点评等。
在步骤S13中,通过预训练的语言模型,提取文本集中文本的文本特征。
在本公开实施例中,使用预训练的语言模型进行文本特征提取,能够在训练代价很小的同时得到性能效果优质的语言模型,使语言模型的模型参数快速收敛。进而通过预训练的语言模型,提取多个文本集中各文本集中文本的文本特征,能够有助于降低语言模型的参数量,降低语言模型的训练成本。
在一实施场景中,在自然语言处理任务中,多种待预测目标任务共同使用同一个预训练语言模型。进而在进行文本特征提取时,能够具有针对性的提取或者训练,以便节省预训练的语言模型在进行文本特征提取时的计算成本,加快文本特征提取的进程。
通过上述实施例,基于自然语言处理任务中的待预测目标任务确定当前需要进行文本提取的领域,并进行针对性的特征提取,有助于降低提取成本,简化训练难度,进而有助于促进语言模型的模型参数快速收敛,加快自然语言处理的进程。
本公开实施例以下将对语言模型的预训练过程进行说明。
图2是根据一示例性实施例示出的一种语言模型的预训练方法的流程图,如图2所示,语言模型的预训练方法,包括以下步骤S21至步骤S23。
在步骤S21中,获取指定领域的多个训练文本。
在步骤S22中,将多个训练文本分批次输入至神经网络模型中。
在本公开实施例中,在进行文本特征提取时,将多个训练文本分批进行输入至神经网络中,进而有助于加快训练速度,且有助于在训练的过程中及时发现参数收敛异常现象,从而避免训练结果不准确或者参数拟合效果不理想。且为便于提取的文本特征更贴近人们在指定领域中的表达,在针对各批次对应的各训练文本进行文本特征提取时,采用随机掩码的方式掩盖训练文本中的文字增加噪声,以提高神经网络模型的鲁棒性。进而在进行训练时,不受训练文本数量的影响,能够在训练文本较少的情况,实现语言模型的预训练。
在步骤S23中,针对每一批次,采用随机掩码的方式提取批次对应的训练文本的文本特征,并根据提取的文本特征,调整神经网络模型,得到语言模型。
在本公开实施例中,在预训练的过程中,将各批次提取的多个文本特征与该指定领域的训练文本进行对比,根据对比结果调试神经网络中的模型参数,使模型参数加快收敛,进而提高模型参数的可靠性,从而使得到的预训练的语言模型能够在语言模型正式训练时提供更好的初始状态,以达到理想的训练效果。
在一实施例中,针对各批次中每一批次的训练文本,采用随机掩码的形式进行文本特征提取时,均采用独热编码(One-Hot)进行掩码,进而利用随机遮掩的文本得到当前批次对应的各训练文本的文本特征。在对当前批次对应的各训练文本利用独热编码进行提取时,针对每次随机提取的文字,遮掩该文字对应的令牌向量、对应的段向量和对应的位置向量,进而在进行调试预训练的语言模型时,能够基于随机遮掩的令牌向量、段向量以及位置向量,增强语言网络的鲁棒性,从而有助于优化语言模型的性能。
为便于提取的文本特征具有实时性,能够满足当前人们的表达方式。本公开还提供另一种文本特征提取方法。
图3是根据一示例性实施例示出的另一种文本特征提取方法的流程图,如图3所示,文本特征提取方法,包括以下步骤S31至步骤S34。
在步骤S31中,获取待预测目标任务。
在步骤S32中,根据待预测目标任务对应的领域,确定匹配待预测目标任务的文本集。
在步骤S33中,若确定待预测目标任务对应的一个或多个领域中存在新增文本,则将新增文本增加至匹配待预测目标任务的文本集中。
在本公开实施例中,随着社会的发展,在各个领域中,人们在进行交流的过程中不断产生新的词汇或者采用同词不同意的描述指定领域中的某一事物。因此,为便于提取的文本特征更贴合现在的领域发展,在获取文本集时,根据确定的待预测目标任务对应的一个或多个领域中存在新增文本,将新增文本增加至匹配待预测目标任务的多个文本集中,进而实时更新文本集中的文本。例如:在电商领域中,过去与电商领域相关的文本较少,进而获得的与电商领域相关的文本数量较少。随着近年来不断发展,人们对该领域的表达方式逐渐增多。进而在进行预训练时,可将对应电商评论的文本增加至匹配的电商领域的文本集中。从而扩大训练语料的同时,能够是提取的文本特征更贴合领域在当前社会环境下的发展。
在步骤S34中,通过预训练的语言模型,提取文本集中文本的文本特征。
在一实施场景中,在预训练语言模型时,使用的神经网络框架可以是以ALBERT框架为基础框架,并在此之上结合RoBERTa框架的部分创新点,得到新的神经网络框架,进而采用该新的神经网络框架进行训练。新的神经网络框架在进行训练时的流程可以如图4所示的神经网络模型框架流程示意图。ALBERT框架的结构具有嵌入向量参数化的因式分解(Factorized embedding parameterization)、跨层参数共享(Cross-layer parametersharing)、句间连贯性损失(Inter-sentence coherence loss)以及去除dropout(Removing Dropout)等特点。RoBERTa框架的结构具有随机掩码(MASK)以及训练数据更多,训练时长更长等特点。将二者的创新特点进行结合,能够在进行预训练的过程中,提升自然语言处理任务的准确率、减少训练所需的时间、减少神经网络模型的参数量、以及降低模型部署的成本。进而得到效果理想,性能更优的初始化语言模型。
在另一实施场景中,语言模型是以ALBERT框架为基础的神经网络模型构建而成的。在训练语言模型时,将用于训练的训练文本分批次输入至以ALBERT框架为基础的ALBERT神经网络模型中。利用独热编码(One-Hot)提取各批次训练文本的文本特征时,采用的随机掩码(MASK)的方式对输入的训练文本进行随机掩码处理,并针对随机遮掩的文字,提取该文字对应的令牌向量、对应的段向量和对应的位置向量。利用独热编码将该文字的令牌向量、段向量以及位置向量进行遮掩。进而通过ALBERT神经网络模型中的嵌入向量参数化的因式分解、跨层参数共享、句间连贯性损失以及去除dropout等处理方式针对各批次随机遮掩的训练文本进行文本特征提取,从而最终提取到各批次训练文本的文本特征。且由于提取特征是采用随机掩码的方式进行提取的。因此,在训练该语言模型时,训练数据越多,训练时长越长,最终得到的语言模型的鲁棒性越强。使采用该种方式训练得到的语言模型能够在训练的前期部署时,能够减少模型的参数量,降低部署成本。且当训练数据量较少时,采用该种方式训练得到的语言模型也能够具有性能好、鲁棒性强的特点。
在又一实施场景中,提取文本特征的训练过程可以如图4所示。图4是一种训练过程示意图。训练文本可以包括通用领域的过去的文本、电商领域的文本,以及近年来新增文本。将多个训练文本分批次输入至以ALBERT框架为基础的ALBERT神经网络模型中。针对每一批次输入的多个训练文本,均采用动态随机掩码的形式提取随机遮掩的文字以及该文字对应的令牌向量、段向量以及位置向量。并利用独热编码(One-Hot)将随机遮掩的文字对应的令牌向量、段向量以及位置向量进行遮掩。通过ALBERT神经网络模型中的嵌入向量参数化的因式分解、跨层参数共享、句间连贯性损失以及去除dropout等处理方式,将经过遮掩后的令牌向量、遮掩后的段向量以及遮掩后的位置向量的文本进行文本特征提取。进而得到ALBERT神经网络模型输出的各批次文本的文本特征,完成各批次文本的文本特征提取。从而根据各批次文本提取的文本特征,调整该ALBERT神经网络模型,完成该ALBERT神经网络模型的训练,得到预训练的语言模型。
基于相同的构思,本公开实施例还提供一种文本特征提取装置。
可以理解的是,本公开实施例提供的文本特征提取装置为了实现上述功能,其包含了执行各个功能相应的硬件结构或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图5是根据一示例性实施例示出的一种文本特征提取装置框图。参照图5,该文本特征提取装置100包括获取单元101,确定单元102,提取单元103。
获取单元101,用于获取待预测目标任务。
确定单元102,根据所述待预测目标任务对应的领域,确定匹配所述待预测目标任务的文本集,其中,所述文本集包括多个文本。
提取单元103,用于通过预训练的语言模型,提取文本集中文本的文本特征。
在一实施例中,语言模型采用下述方式进行预先训练:获取指定领域的多个训练文本。将多个训练文本分批次输入至神经网络模型中。针对每一批次,采用随机掩码的方式提取批次对应的训练文本的文本特征,并根据提取的文本特征,调整神经网络模型,得到语言模型。
在另一实施例中,语言模型采用下述方式采用随机掩码的方式提取批次对应的训练文本的文本特征,包括:针对各批次中每一批次的训练文本,采用随机掩码的方式,对当前批次对应的各训练文本进行独热掩码提取,得到当前批次对应的各训练文本的文本特征。
在又一实施例中,文本特征提取装置100还包括:更新单元104,用于若确定待预测目标任务对应的一个或多个领域中存在新增文本,则将新增文本增加至匹配待预测目标任务的文本集中。
在又一实施例中,领域包括:通用文本领域或电商领域。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
进一步的,在示例性实施例中,文本特征提取装置可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。例如,文本特征提取装置包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行上述任意一种实施例提供的文本特征提取方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由文本特征提取装置的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
进一步可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种文本特征提取方法,其特征在于,所述文本特征提取方法包括:
获取待预测目标任务;
根据所述待预测目标任务对应的领域,确定匹配所述待预测目标任务的文本集,其中,所述文本集包括多个文本;
通过预训练的语言模型,提取所述文本集中文本的文本特征。
2.根据权利要求1所述的文本特征提取方法,其特征在于,所述语言模型采用下述方式进行预先训练:
获取指定领域的多个训练文本;
将多个所述训练文本分批次输入至神经网络模型中;
针对每一批次,采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,并根据提取的文本特征,调整所述神经网络模型,得到所述语言模型。
3.根据权利要求2所述的文本特征提取方法,其特征在于,所述采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,包括:
针对各批次中每一批次的训练文本,采用随机掩码的方式,对当前批次对应的各所述训练文本进行独热编码提取,得到当前批次对应的各所述训练文本的文本特征。
4.根据权利要求1所述的文本特征提取方法,其特征在于,所述根据所述待预测目标任务对应的领域,确定匹配所述待预测目标任务的文本集之后,所述文本特征提取方法还包括:
若确定所述待预测目标任务对应的一个或多个领域中存在新增文本,则将所述新增文本增加至匹配所述待预测目标任务的文本集中。
5.根据权利要求1所述的文本特征提取方法,其特征在于,所述领域包括:通用文本领域或电商领域。
6.一种文本特征提取装置,其特征在于,所述文本特征提取装置包括:
获取单元,用于获取待预测目标任务;
确定单元,用于根据所述待预测目标任务对应的领域,确定匹配所述待预测目标任务的文本集,其中,所述文本集包括多个文本;
提取单元,用于通过预训练的语言模型,提取所述各文本集中文本的文本特征。
7.根据权利要求6所述的文本特征提取装置,其特征在于,所述语言模型采用下述方式进行预先训练:
获取指定领域的多个训练文本;
将多个所述训练文本分批次输入至神经网络模型中;
针对每一批次,采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,并根据提取的文本特征,调整所述神经网络模型,得到所述语言模型。
8.根据权利要求7所述的文本特征提取装置,其特征在于,所述语言模型采用下述方式采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征,包括:
针对各批次中每一批次的训练文本,采用随机掩码的方式,对当前批次对应的各所述训练文本进行独热编码提取,得到当前批次对应的各所述训练文本的文本特征。
9.根据权利要求6所述的文本特征提取装置,其特征在于,所述文本特征提取装置还包括:
更新单元,用于若确定所述待预测目标任务对应的一个或多个领域中存在新增文本,则将所述新增文本增加至匹配所述待预测目标任务的文本集中。
10.根据权利要求6所述的文本特征提取装置,其特征在于,所述领域包括:通用文本领域或电商领域。
11.一种文本特征提取装置,其特征在于,所述文本特征提取装置包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行如权利要求1-5中任意一项所述的文本特征提取方法。
12.一种计算机可读存储介质,其中存储有指令,所述指令被处理器执行时,执行如权利要求1-5中任意一项所述的文本特征提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001286.5A CN112686021A (zh) | 2021-01-04 | 2021-01-04 | 文本特征提取方法、文本特征提取装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001286.5A CN112686021A (zh) | 2021-01-04 | 2021-01-04 | 文本特征提取方法、文本特征提取装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112686021A true CN112686021A (zh) | 2021-04-20 |
Family
ID=75456871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110001286.5A Pending CN112686021A (zh) | 2021-01-04 | 2021-01-04 | 文本特征提取方法、文本特征提取装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686021A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113556404A (zh) * | 2021-08-03 | 2021-10-26 | 广东九博科技股份有限公司 | 一种设备内部单盘间的通信方法及*** |
CN114677565A (zh) * | 2022-04-08 | 2022-06-28 | 北京百度网讯科技有限公司 | 特征提取网络的训练方法和图像处理方法、装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347838A (zh) * | 2019-07-17 | 2019-10-18 | 成都医云科技有限公司 | 线上科室分诊模型训练方法及装置 |
CN111611769A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种多种语言模型的文本转换方法及装置 |
CN111680145A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
US20200334334A1 (en) * | 2019-04-18 | 2020-10-22 | Salesforce.Com, Inc. | Systems and methods for unifying question answering and text classification via span extraction |
CN111831805A (zh) * | 2020-07-01 | 2020-10-27 | 中国建设银行股份有限公司 | 一种模型创建方法、装置、电子设备和可读存储装置 |
CN111833849A (zh) * | 2020-03-10 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 语音识别和语音模型训练的方法及存储介质和电子设备 |
CN111950265A (zh) * | 2020-08-25 | 2020-11-17 | 中国电子科技集团公司信息科学研究院 | 一种领域词库构建方法和装置 |
-
2021
- 2021-01-04 CN CN202110001286.5A patent/CN112686021A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611769A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种多种语言模型的文本转换方法及装置 |
US20200334334A1 (en) * | 2019-04-18 | 2020-10-22 | Salesforce.Com, Inc. | Systems and methods for unifying question answering and text classification via span extraction |
CN110347838A (zh) * | 2019-07-17 | 2019-10-18 | 成都医云科技有限公司 | 线上科室分诊模型训练方法及装置 |
CN111833849A (zh) * | 2020-03-10 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 语音识别和语音模型训练的方法及存储介质和电子设备 |
CN111680145A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
CN111831805A (zh) * | 2020-07-01 | 2020-10-27 | 中国建设银行股份有限公司 | 一种模型创建方法、装置、电子设备和可读存储装置 |
CN111950265A (zh) * | 2020-08-25 | 2020-11-17 | 中国电子科技集团公司信息科学研究院 | 一种领域词库构建方法和装置 |
Non-Patent Citations (1)
Title |
---|
周烨恒;石嘉晗;徐睿峰;: "结合预训练模型和语言知识库的文本匹配方法", 中文信息学报, no. 02, 15 February 2020 (2020-02-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113556404A (zh) * | 2021-08-03 | 2021-10-26 | 广东九博科技股份有限公司 | 一种设备内部单盘间的通信方法及*** |
CN114677565A (zh) * | 2022-04-08 | 2022-06-28 | 北京百度网讯科技有限公司 | 特征提取网络的训练方法和图像处理方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102400017B1 (ko) | 객체를 식별하는 방법 및 디바이스 | |
US11640518B2 (en) | Method and apparatus for training a neural network using modality signals of different domains | |
CN109829039B (zh) | 智能聊天方法、装置、计算机设备及存储介质 | |
CN110717106B (zh) | 信息推送的方法及装置 | |
CN112464809B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN113656582B (zh) | 神经网络模型的训练方法、图像检索方法、设备和介质 | |
CN112396106B (zh) | 内容识别方法、内容识别模型训练方法及存储介质 | |
US20200101383A1 (en) | Method and apparatus for recognizing game command | |
US20230017112A1 (en) | Image generation method and apparatus | |
CN112686021A (zh) | 文本特征提取方法、文本特征提取装置及存储介质 | |
CN110728319B (zh) | 一种图像生成方法、装置以及计算机存储介质 | |
KR20200084260A (ko) | 전자 장치 및 이의 제어 방법 | |
CN111443964A (zh) | 更新用户界面的方法、设备和计算机程序产品 | |
CN114610851A (zh) | 意图识别模型的训练方法、意图识别方法、设备及介质 | |
CN112613435A (zh) | 人脸图像生成方法、装置、设备及介质 | |
CN110807472A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114880472A (zh) | 数据处理方法、装置及设备 | |
CN112434524A (zh) | 一种文本信息处理方法、装置、电子设备及存储介质 | |
CN117122927A (zh) | Npc交互方法、装置及存储介质 | |
CN112100509B (zh) | 信息推荐方法、装置、服务器和存储介质 | |
CN110347807B (zh) | 问题信息处理方法及装置 | |
US20230153630A1 (en) | Method and apparatus for training language model for multi-modal dialog | |
CN114969195B (zh) | 对话内容挖掘方法和对话内容评估模型的生成方法 | |
CN110879832A (zh) | 目标文本检测方法、模型训练方法、装置及设备 | |
CN114913860A (zh) | 声纹识别方法、装置、计算机设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |