CN112686021A

CN112686021A - 文本特征提取方法、文本特征提取装置及存储介质

Info

Publication number: CN112686021A
Application number: CN202110001286.5A
Authority: CN
Inventors: 陈明
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-20

Abstract

本公开是关于一种文本特征提取方法、文本特征提取装置及存储介质。文本特征提取方法包括：获取待预测目标任务。根据待预测目标任务对应的领域，确定匹配待预测目标任务的文本集，其中，文本集包括多个文本。通过预训练的语言模型，提取文本集中文本的文本特征。通过本公开提供的文本特征提取方法，能够基于自然语言处理的待预测目标任务匹配合适的文本集，进而对文本特征进行针对性的提取，从而减少部署预训练的语言模型的成本，降低训练难度，加快自然语言处理任务的进程。

Description

文本特征提取方法、文本特征提取装置及存储介质

技术领域

本公开涉及自然语言处理技术领域，尤其涉及一种文本特征提取方法、文本特征提取装置及存储介质。

背景技术

训练神经网络模型得到训练好的语言模型时，需预先确定初始化参数。若使用随机初始参数，则需要数量充足的训练集，且神经网络模型中的参数收敛慢，导致训练过程耗时长。基于此，预训练的概念应运而生。预训练是用于神经网络模型在进行训练前，训练神经网络中的参数，进而得到合适的初始化参数，从而为语言模型的训练设置合适的初始化参数，加速训练语言模型的优化与收敛。

相关技术中，采用预训练的语言模型进行文本特征提取时，通常是基于数据库中存储的文本进行提取。由于数据库中的数据多且种类复杂，导致部署预训练的语言模型的成本过多，训练语言模型的训练难度高。

发明内容

为克服相关技术中存在的问题，本公开提供一种文本特征提取方法、文本特征提取装置及存储介质。

根据本公开实施例的第一方面，提供一种文本特征提取方法，包括：获取待预测目标任务。根据所述待预测目标任务对应的领域，确定匹配所述待预测目标任务的文本集，其中，所述文本集包括多个文本。通过预训练的语言模型，提取所述文本集中文本的文本特征。

在一实施例中，所述语言模型采用下述方式进行预先训练：获取指定领域的多个训练文本。将多个所述训练文本分批次输入至神经网络模型中。针对每一批次，采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征，并根据提取的文本特征，调整所述神经网络模型，得到所述语言模型。

在另一实施例中，所述采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征，包括：针对各批次中每一批次的训练文本，采用随机掩码的方式，对当前批次对应的各所述训练文本进行独热编码提取，得到当前批次对应的各所述训练文本的文本特征。

在又一实施例中，所述根据所述待预测目标任务对应的领域，确定匹配所述待预测目标任务的文本集之后，所述文本特征提取方法还包括：若确定所述待预测目标任务对应的一个或多个领域中存在新增文本，则将所述新增文本增加至匹配所述待预测目标任务的文本集中。

在又一实施例中，所述领域包括：通用文本领域或电商领域。

根据本公开实施例的第二方面，提供一种文本特征提取装置，包括：获取单元，用于获取待预测目标任务。确定单元，用于根据所述待预测目标任务对应的领域，确定匹配所述待预测目标任务的文本集，其中，所述文本集包括多个文本。提取单元，用于通过预训练的语言模型，提取所述文本集中文本的文本特征。

在另一实施例中，所述语言模型采用下述方式采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征，包括：针对各批次中每一批次的训练文本，采用随机掩码的方式，对当前批次对应的各所述训练文本进行独热编码提取，得到当前批次对应的各所述训练文本的文本特征。

在又一实施例中，所述文本特征提取装置还包括：更新单元，用于若确定所述待预测目标任务对应的一个或多个领域中存在新增文本，则将所述新增文本增加至匹配所述待预测目标任务的文本集中。

根据本公开实施例的第三方面，提供一种文本特征提取装置，包括：存储器，用于存储指令；以及处理器，用于调用所述存储器存储的指令执行上述任意一种所述的文本特征提取方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中存储有指令，所述指令被处理器执行时，执行上述任意一种所述的文本特征提取方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过本公开提供的文本特征提取方法，能够基于自然语言处理的待预测目标任务匹配合适的文本集，进而对文本特征进行针对性的提取，从而减少部署预训练的语言模型的成本，降低训练难度，加快自然语言处理任务的进程。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种文本特征提取方法的流程图。

图2是根据一示例性实施例示出的一种语言模型的预训练方法的流程图。

图3是根据一示例性实施例示出的另一种文本特征提取方法的流程图。

图4是根据一示例性实施例示出的一种训练过程示意图。

图5是根据一示例性实施例示出的一种文本特征提取装置框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，在使用预训练的语言模型进行文本特征提取时，对进行文本特征提取的领域进行无差别的选取，进而得到各个领域对应的文本特征，导致语言模型的训练部署成本大，训练难度高。且在自然语言处理任务中，若进行文本体征提取的领域与待预测目标任务相匹配，则可以顺利进行待预测目标任务。若进行文本体征提取的领域与待预测目标任务不相匹配，则需等待进行文本体征提取的领域与待预测目标任务相匹配时，再进行待预测目标任务，耗时长。

有鉴于此，本公开提供一种文本特征提取方法，能够根据自然语言处理任务中的待预测目标任务确定当前需要进行文本提取的领域，进而进行针对性的特征提取，从而降低训练难度，促进自然语言处理进程，降低提取成本。

图1是根据一示例性实施例示出的一种文本特征提取方法的流程图，如图1所示，文本特征提取方法，包括以下步骤S11至步骤S12。

在步骤S11中，获取待预测目标任务。

在本公开实施例中，用于进行特征提取的文本集，是基于当前自然语言处理任务的待预测目标任务对应的领域所确定的。待预测目标任务可以包括：通用领域情感分析、电商领域情感分析、电商领域多标签文本分类或者电商领域商品名称抽取(NER)。因此，为防止提取过多无效的文本特征而导致数据冗余，在进行文本特征提取前，先获取待预测目标任务，进而在进行文本特征提取时能够进行有针对性的提取。

在步骤S12中，根据待预测目标任务对应的领域，确定匹配待预测目标任务的文本集。

在本公开实施例中，为便于提取的文本特征能够更贴近对应的领域，在匹配待预测目标任务对应的一个或多个领域对应的一个或多个文本集时，获取各领域中的多个文本，进而使各领域对应的文本集具有足够的用于进行特征提取的文本。文本集中各个文本可以来源于本地数据库、云端或者互联网，在本公开中不进行限定。

在一示例中，领域包括：通用文本领域或者电商领域。其中，通用文本领域可以包括：新闻、社交媒体、***、百度百科、亚马逊评论、电影点评等。

在步骤S13中，通过预训练的语言模型，提取文本集中文本的文本特征。

在本公开实施例中，使用预训练的语言模型进行文本特征提取，能够在训练代价很小的同时得到性能效果优质的语言模型，使语言模型的模型参数快速收敛。进而通过预训练的语言模型，提取多个文本集中各文本集中文本的文本特征，能够有助于降低语言模型的参数量，降低语言模型的训练成本。

在一实施场景中，在自然语言处理任务中，多种待预测目标任务共同使用同一个预训练语言模型。进而在进行文本特征提取时，能够具有针对性的提取或者训练，以便节省预训练的语言模型在进行文本特征提取时的计算成本，加快文本特征提取的进程。

通过上述实施例，基于自然语言处理任务中的待预测目标任务确定当前需要进行文本提取的领域，并进行针对性的特征提取，有助于降低提取成本，简化训练难度，进而有助于促进语言模型的模型参数快速收敛，加快自然语言处理的进程。

本公开实施例以下将对语言模型的预训练过程进行说明。

图2是根据一示例性实施例示出的一种语言模型的预训练方法的流程图，如图2所示，语言模型的预训练方法，包括以下步骤S21至步骤S23。

在步骤S21中，获取指定领域的多个训练文本。

在步骤S22中，将多个训练文本分批次输入至神经网络模型中。

在本公开实施例中，在进行文本特征提取时，将多个训练文本分批进行输入至神经网络中，进而有助于加快训练速度，且有助于在训练的过程中及时发现参数收敛异常现象，从而避免训练结果不准确或者参数拟合效果不理想。且为便于提取的文本特征更贴近人们在指定领域中的表达，在针对各批次对应的各训练文本进行文本特征提取时，采用随机掩码的方式掩盖训练文本中的文字增加噪声，以提高神经网络模型的鲁棒性。进而在进行训练时，不受训练文本数量的影响，能够在训练文本较少的情况，实现语言模型的预训练。

在步骤S23中，针对每一批次，采用随机掩码的方式提取批次对应的训练文本的文本特征，并根据提取的文本特征，调整神经网络模型，得到语言模型。

在本公开实施例中，在预训练的过程中，将各批次提取的多个文本特征与该指定领域的训练文本进行对比，根据对比结果调试神经网络中的模型参数，使模型参数加快收敛，进而提高模型参数的可靠性，从而使得到的预训练的语言模型能够在语言模型正式训练时提供更好的初始状态，以达到理想的训练效果。

在一实施例中，针对各批次中每一批次的训练文本，采用随机掩码的形式进行文本特征提取时，均采用独热编码(One-Hot)进行掩码，进而利用随机遮掩的文本得到当前批次对应的各训练文本的文本特征。在对当前批次对应的各训练文本利用独热编码进行提取时，针对每次随机提取的文字，遮掩该文字对应的令牌向量、对应的段向量和对应的位置向量，进而在进行调试预训练的语言模型时，能够基于随机遮掩的令牌向量、段向量以及位置向量，增强语言网络的鲁棒性，从而有助于优化语言模型的性能。

为便于提取的文本特征具有实时性，能够满足当前人们的表达方式。本公开还提供另一种文本特征提取方法。

图3是根据一示例性实施例示出的另一种文本特征提取方法的流程图，如图3所示，文本特征提取方法，包括以下步骤S31至步骤S34。

在步骤S31中，获取待预测目标任务。

在步骤S32中，根据待预测目标任务对应的领域，确定匹配待预测目标任务的文本集。

在步骤S33中，若确定待预测目标任务对应的一个或多个领域中存在新增文本，则将新增文本增加至匹配待预测目标任务的文本集中。

在本公开实施例中，随着社会的发展，在各个领域中，人们在进行交流的过程中不断产生新的词汇或者采用同词不同意的描述指定领域中的某一事物。因此，为便于提取的文本特征更贴合现在的领域发展，在获取文本集时，根据确定的待预测目标任务对应的一个或多个领域中存在新增文本，将新增文本增加至匹配待预测目标任务的多个文本集中，进而实时更新文本集中的文本。例如：在电商领域中，过去与电商领域相关的文本较少，进而获得的与电商领域相关的文本数量较少。随着近年来不断发展，人们对该领域的表达方式逐渐增多。进而在进行预训练时，可将对应电商评论的文本增加至匹配的电商领域的文本集中。从而扩大训练语料的同时，能够是提取的文本特征更贴合领域在当前社会环境下的发展。

在步骤S34中，通过预训练的语言模型，提取文本集中文本的文本特征。

在一实施场景中，在预训练语言模型时，使用的神经网络框架可以是以ALBERT框架为基础框架，并在此之上结合RoBERTa框架的部分创新点，得到新的神经网络框架，进而采用该新的神经网络框架进行训练。新的神经网络框架在进行训练时的流程可以如图4所示的神经网络模型框架流程示意图。ALBERT框架的结构具有嵌入向量参数化的因式分解(Factorized embedding parameterization)、跨层参数共享(Cross-layer parametersharing)、句间连贯性损失(Inter-sentence coherence loss)以及去除dropout(Removing Dropout)等特点。RoBERTa框架的结构具有随机掩码(MASK)以及训练数据更多，训练时长更长等特点。将二者的创新特点进行结合，能够在进行预训练的过程中，提升自然语言处理任务的准确率、减少训练所需的时间、减少神经网络模型的参数量、以及降低模型部署的成本。进而得到效果理想，性能更优的初始化语言模型。

在另一实施场景中，语言模型是以ALBERT框架为基础的神经网络模型构建而成的。在训练语言模型时，将用于训练的训练文本分批次输入至以ALBERT框架为基础的ALBERT神经网络模型中。利用独热编码(One-Hot)提取各批次训练文本的文本特征时，采用的随机掩码(MASK)的方式对输入的训练文本进行随机掩码处理，并针对随机遮掩的文字，提取该文字对应的令牌向量、对应的段向量和对应的位置向量。利用独热编码将该文字的令牌向量、段向量以及位置向量进行遮掩。进而通过ALBERT神经网络模型中的嵌入向量参数化的因式分解、跨层参数共享、句间连贯性损失以及去除dropout等处理方式针对各批次随机遮掩的训练文本进行文本特征提取，从而最终提取到各批次训练文本的文本特征。且由于提取特征是采用随机掩码的方式进行提取的。因此，在训练该语言模型时，训练数据越多，训练时长越长，最终得到的语言模型的鲁棒性越强。使采用该种方式训练得到的语言模型能够在训练的前期部署时，能够减少模型的参数量，降低部署成本。且当训练数据量较少时，采用该种方式训练得到的语言模型也能够具有性能好、鲁棒性强的特点。

在又一实施场景中，提取文本特征的训练过程可以如图4所示。图4是一种训练过程示意图。训练文本可以包括通用领域的过去的文本、电商领域的文本，以及近年来新增文本。将多个训练文本分批次输入至以ALBERT框架为基础的ALBERT神经网络模型中。针对每一批次输入的多个训练文本，均采用动态随机掩码的形式提取随机遮掩的文字以及该文字对应的令牌向量、段向量以及位置向量。并利用独热编码(One-Hot)将随机遮掩的文字对应的令牌向量、段向量以及位置向量进行遮掩。通过ALBERT神经网络模型中的嵌入向量参数化的因式分解、跨层参数共享、句间连贯性损失以及去除dropout等处理方式，将经过遮掩后的令牌向量、遮掩后的段向量以及遮掩后的位置向量的文本进行文本特征提取。进而得到ALBERT神经网络模型输出的各批次文本的文本特征，完成各批次文本的文本特征提取。从而根据各批次文本提取的文本特征，调整该ALBERT神经网络模型，完成该ALBERT神经网络模型的训练，得到预训练的语言模型。

基于相同的构思，本公开实施例还提供一种文本特征提取装置。

可以理解的是，本公开实施例提供的文本特征提取装置为了实现上述功能，其包含了执行各个功能相应的硬件结构或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图5是根据一示例性实施例示出的一种文本特征提取装置框图。参照图5，该文本特征提取装置100包括获取单元101，确定单元102，提取单元103。

获取单元101，用于获取待预测目标任务。

确定单元102，根据所述待预测目标任务对应的领域，确定匹配所述待预测目标任务的文本集，其中，所述文本集包括多个文本。

提取单元103，用于通过预训练的语言模型，提取文本集中文本的文本特征。

在一实施例中，语言模型采用下述方式进行预先训练：获取指定领域的多个训练文本。将多个训练文本分批次输入至神经网络模型中。针对每一批次，采用随机掩码的方式提取批次对应的训练文本的文本特征，并根据提取的文本特征，调整神经网络模型，得到语言模型。

在另一实施例中，语言模型采用下述方式采用随机掩码的方式提取批次对应的训练文本的文本特征，包括：针对各批次中每一批次的训练文本，采用随机掩码的方式，对当前批次对应的各训练文本进行独热掩码提取，得到当前批次对应的各训练文本的文本特征。

在又一实施例中，文本特征提取装置100还包括：更新单元104，用于若确定待预测目标任务对应的一个或多个领域中存在新增文本，则将新增文本增加至匹配待预测目标任务的文本集中。

在又一实施例中，领域包括：通用文本领域或电商领域。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

进一步的，在示例性实施例中，文本特征提取装置可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。例如，文本特征提取装置包括：存储器，用于存储指令；以及处理器，用于调用所述存储器存储的指令执行上述任意一种实施例提供的文本特征提取方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由文本特征提取装置的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

进一步可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本特征提取方法，其特征在于，所述文本特征提取方法包括：

获取待预测目标任务；

根据所述待预测目标任务对应的领域，确定匹配所述待预测目标任务的文本集，其中，所述文本集包括多个文本；

通过预训练的语言模型，提取所述文本集中文本的文本特征。

2.根据权利要求1所述的文本特征提取方法，其特征在于，所述语言模型采用下述方式进行预先训练：

获取指定领域的多个训练文本；

将多个所述训练文本分批次输入至神经网络模型中；

针对每一批次，采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征，并根据提取的文本特征，调整所述神经网络模型，得到所述语言模型。

3.根据权利要求2所述的文本特征提取方法，其特征在于，所述采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征，包括：

针对各批次中每一批次的训练文本，采用随机掩码的方式，对当前批次对应的各所述训练文本进行独热编码提取，得到当前批次对应的各所述训练文本的文本特征。

4.根据权利要求1所述的文本特征提取方法，其特征在于，所述根据所述待预测目标任务对应的领域，确定匹配所述待预测目标任务的文本集之后，所述文本特征提取方法还包括：

若确定所述待预测目标任务对应的一个或多个领域中存在新增文本，则将所述新增文本增加至匹配所述待预测目标任务的文本集中。

5.根据权利要求1所述的文本特征提取方法，其特征在于，所述领域包括：通用文本领域或电商领域。

6.一种文本特征提取装置，其特征在于，所述文本特征提取装置包括：

获取单元，用于获取待预测目标任务；

确定单元，用于根据所述待预测目标任务对应的领域，确定匹配所述待预测目标任务的文本集，其中，所述文本集包括多个文本；

提取单元，用于通过预训练的语言模型，提取所述各文本集中文本的文本特征。

7.根据权利要求6所述的文本特征提取装置，其特征在于，所述语言模型采用下述方式进行预先训练：

获取指定领域的多个训练文本；

将多个所述训练文本分批次输入至神经网络模型中；

8.根据权利要求7所述的文本特征提取装置，其特征在于，所述语言模型采用下述方式采用随机掩码的方式提取所述批次对应的所述训练文本的文本特征，包括：

9.根据权利要求6所述的文本特征提取装置，其特征在于，所述文本特征提取装置还包括：

更新单元，用于若确定所述待预测目标任务对应的一个或多个领域中存在新增文本，则将所述新增文本增加至匹配所述待预测目标任务的文本集中。

10.根据权利要求6所述的文本特征提取装置，其特征在于，所述领域包括：通用文本领域或电商领域。

11.一种文本特征提取装置，其特征在于，所述文本特征提取装置包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行如权利要求1-5中任意一项所述的文本特征提取方法。

12.一种计算机可读存储介质，其中存储有指令，所述指令被处理器执行时，执行如权利要求1-5中任意一项所述的文本特征提取方法。