CN113378561A

CN113378561A - 词语预测模板生成方法及装置

Info

Publication number: CN113378561A
Application number: CN202110933954.8A
Authority: CN
Inventors: 崔燕红; 余金林; 宁超; 陈益梦; 王昊天
Original assignee: Beijing Teddy Bear Mobile Technology Co ltd
Current assignee: Beijing Teddy Bear Mobile Technology Co ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-09-10

Abstract

公开了一种词语预测模板生成方法及装置。该方法应包括：获取训练语料；对所述训练语料进行分词，得到多个词语；确定每个词语的特征信息；针对所述多个词语中的目标词语，利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板，其中，1≤N≤M，M为所述目标词语在所述训练语料中左边和右边可扩充的最大词语数量中的较小值，N的初始值为1；利用候选预测模板在所述训练语料中进行词语提取；如果提取的词语均与所述目标词语相同，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

Description

词语预测模板生成方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种词语预测模板生成方法及装置。

背景技术

在自然语言处理技术领域，通常是通过利用词向量模板来进行关键词预测及提取。目前，常用的词向量模板生成方式有两种，一种是人工生成，即技术人员根据经验和实验，总结规律，生成词向量模板。该方式的缺点是，无法自动和批量生成词向量模板，效率低。另一种是利用神经网络模型进行训练得到词向量模板，例如Bert技术，Albert技术，这种方式虽然可以自动和批量生成词向量模板，且相较于人工方式，效率有大幅的提高，但是基于该方式的技术原理，在将词向量模板应用于有规律性的短文本的场景时，仍然需要使用海量的训练语料进行训练，因此在训练中造成的消耗较大，且利用训练得到的词向量模板进行词语预测及提取的准确率较低。

发明内容

为解决上述问题，本发明提供一种词语预测模板生成方法及装置，对于短文本的词语预测及提取，不需要使用海量的训练语料进行训练，消耗较小，并且准确率较高。

为了实现上述目的，在第一方面，本发明实施例提供了一种词语预测模板生成方法，该方法包括：

获取训练语料；

对所述训练语料进行分词，得到多个词语；

确定每个词语的特征信息；

针对所述多个词语中的目标词语，利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板，其中，1≤N≤M，M为所述目标词语在所述训练语料中左边和右边可扩充的最大词语数量中的较小值，N的初始值为1；

利用候选预测模板在所述训练语料中进行词语提取；

如果提取的词语均与所述目标词语相同，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

优选的，在所述利用所述候选预测模板在所述训练语料中进行词语提取之后，所述方法还包括：如果提取的词语中包括与所述目标词语不同的词语且N小于M，则N+1，执行利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板。

优选的，在所述利用所述候选预测模板在所述训练语料中进行词语提取之后，所述方法还包括：如果提取的词语中包括与所述目标词语不同的词语且N等于M，则判断提取的词语中与所述目标词语不同的词语的占比，如果所述占比不大于预设占比阈值，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

优选的，在针对所述多个词语中的目标词语，利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板之前，所述方法还包括：将所述多个词语中的可泛化的词语，按类别使用标识值进行替换，并记录标识值对应的词语的正则表达式。

优选的，所述方法还包括：将多个词语预测模板进行融合，生成组合词语预测模板。

在第二方面，本发明实施例提供了一种词语预测模板生成装置，该装置包括：

获取单元，用于获取训练语料；

分词单元，用于对所述训练语料进行分词，得到多个词语；

第一确定单元，用于确定每个词语的特征信息；

生成单元，用于针对所述多个词语中的目标词语，利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板，其中，1≤N≤M，M为所述目标词语在所述训练语料中左边和右边可扩充的最大词语数量中的较小值，N的初始值为1；

提取单元，用于利用候选预测模板在所述训练语料中进行词语提取；

第二确定单元，用于如果提取的词语均与所述目标词语相同，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

优选的，所述生成单元，还用于如果提取的词语中包括与所述目标词语不同的词语且N小于M，则N+1，执行利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板。

优选的，所述装置还包括：判断单元，用于如果提取的词语中包括与所述目标词语不同的词语且N等于M，则判断提取的词语中与所述目标词语不同的词语的占比；所述第二确定单元，还用于如果所述占比不大于预设占比阈值，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

优选的，所述装置还包括：泛化单元，用于将所述多个词语中的可泛化的词语，按类别使用标识值进行替换，并记录标识值对应的词语的正则表达式。

优选的，所述装置还包括：融合单元，用于将多个词语预测模板进行融合，生成组合词语预测模板。

在第三方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的词语预测模板生成方法。

在第四方面，本发明实施例提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的词语预测模板生成方法。

利用本发明提供的词语预测模板生成方法及装置，通过对训练语料进行分词，得到多个词语；确定每个词语的特征信息；针对多个词语的目标词语，利用目标词语的左边第N个词语、右边第N个词语和目标词语的特征信息生成候选预测模板，之后利用候选预测模板在训练语料中进行词语提取，如果提取的词语均与目标词语相同，则确定候选预测模板为目标词语对应的词语预测模板。基于此，对于短文本的词语预测及提取，不需要使用海量的训练语料进行训练，消耗较小，且由于在词语预测模板中添加了词语的特征信息，利用该词语预测模板可有效提高词语预测及提取的准确率。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本申请示例性实施例提供的一种词语预测模板生成方法的流程示意图；

图2为本申请示例性实施例提供的一种词语预测模板生成装置的结构图；

图3为本申请示例性实施例提供的另一种词语预测模板生成装置的结构图；

图4为本申请示例性实施例提供的又一种词语预测模板生成装置的结构图；

图5为本申请示例性实施例提供的再一种词语预测模板生成装置的结构图；

图6为本申请示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

图1为本申请实施例示出的一种词语预测模板生成方法的流程示意图。该词语预测模板生成方法可应用于电子设备。如图1所示，本实施例提供的词语预测模板生成方法，包括：

步骤101，获取训练语料。

在一个例子中，该训练语料可根据词语预测模板需要应用的场景进行确定，选择与场景强相关的训练语料，以降低训练语料的用量，提高词语预测模板的准确度。

步骤102，对训练语料进行分词，得到多个词语。

在一个例子中，对训练语料进行分词还采用现有的分词技术，如字符串匹配的分词方法、词义分词法、统计分词法，本发明对此不作任何限制。

步骤103，确定每个词语的特征信息。

在一个例子中，词语的特征信息可以是词性，如名词、动词，主语，介词等等，也可以是主题，如体育、娱乐、文学等等，还可以是专有名词，如时间、地点、人名等等。

需要说明的是，对于同一模板集合，词语的特征信息为同一类别。具体的，每类特征信息分别对应有识别规则，那么在开始训练之前，可根据需求预设将相应的识别规则，根据预设的识别规则确定每个词语的特征信息。

步骤104，针对多个词语中的目标词语，利用目标词语的左边第N个词语、右边第N个词语和目标词语的特征信息生成候选预测模板。

其中，1≤N≤M，M为目标词语在训练语料中左边和右边可扩充的最大词语数量中的较小值，N的初始值为1。

在步骤104之前，该方法还可以包括：

将多个词语中的可泛化的词语，按类别使用标识值进行替换，并记录标识值对应的词语的正则表达式。其中，可泛化的词语可以包括：专有名词。

在一个例子中，目标词语可以是对训练语料进行分词后得到的多个词语后的任一词语，也可以是任一词语泛化后的标识值。

步骤105，利用候选预测模板在训练语料中进行词语提取。

如果提取的词语均与目标词语相同，则执行步骤106。如果提取的词语中包括与目标词语不同的词语且N小于M，则N+1，再次执行步骤104。如果提取的词语中包括与目标词语不同的词语且N等于M，则执行步骤107。

步骤106，确定候选预测模板为目标词语对应的词语预测模板。

在一个例子中，该方法还可以包括：将多个词语预测模板进行融合，生成组合词语预测模板。

步骤107，判断提取的词语中与目标词语不同的词语的占比。

如果提取的词语中与目标词语不同的词语的占比不大于预设占比阈值，则执行步骤106。如果提取的词语中与目标词语不同的词语的占比不大于预设占比阈值，则结束该流程，不生成目标词语对应的词语预测模板。

在一个例子中，占比阈值可以设置为5%，需要的精度越高，则设置的占比阈值越大。

在一个具体的例子中，假设目标词语为A，M取值为4，N的初始值为1。A的左边第1个、第2个...第N个词语分别记为L1、L2...LN，A的右边第1个、第2个...第N个词语分别记为R1、R2...RN, A的特征信息记为S，N分别为1、2...N时，目标词语对应的候选预测模板分别记为F1、F2...FN。基于此，在N为1时，该目标词语对应的候选预测模板F1可以记为[L1，S，R1]。

利用候选预测模板F1在训练语料中进行词语提取，假设提取出20个词语，如果该20个词语均与A相同，则确定候选预测模板F1为词语A对应的词语预测模板。如果该20个词语中包括有与A不同的词语，则将N+1，生成N为2时的候选预测模板F2，即[L2，L1，S，R1，R2]。

同样的，利用候选预测模板F2在训练语料中进行词语提取，假设提取出15个词语，如果该15个词语均与A相同，则确定候选预测模板F2为词语A对应的词语预测模板。如果该15个词语中包括有与A不同的词语，则将N+1，生成N为3时的候选预测模板F3，即[L3，L2，L1，S，R1，R2，R3]。

同样的，利用候选预测模板F3在训练语料中进行词语提取，假设提取出13个词语，如果该13个词语均与A相同，则确定候选预测模板F3为词语A对应的词语预测模板。如果该13个词语中包括有与A不同的词语，则将N+1，生成N为4时的候选预测模板F4，即[L4，L3，L2，L1，S，R1，R2，R3，R4]。

类似的，利用候选预测模板F4在训练语料中进行词语提取，假设提取出10个词语，如果该10个词语均与A相同，则确定候选预测模板F4为词语A对应的词语预测模板。如果该10个词语中包括有与A不同的词语，由于M为4，即N=M，因此需要判断该10个词语中包括的与A不同的词语的占比是否不大于预设的占比阈值。假设预设的占比阈值为10%，则如果提取的10个词语中与A不同的词语只有1个，那么该10个词语中包括的与A不同的词语的占比为10%，不大于预设的占比阈值10%，则确定候选预测模板F4为词语A对应的词语预测模板。则如果提取的10个词语中与A不同的词语大于1个，那么该10个词语中包括的与A不同的词语的占比一定大于预设的占比阈值10%，则不生成词语A对应的词语预测模板。

进一步的，在另一例子中，为使得词语预测模板更加精准，本实施例提供的词语预测模板方法还可以包括：获取新训练语料，将以生成的词语预测模板作为候选预测模板，执行步骤105，以对已生成的词语预测模板进行验证和校准。由此可以看出，本例中对词语预测模板进行更新不需要完全重新进行训练，可在使用过程中，不断查漏补缺，使词语预测模板越来越精准也越来越丰富。

通过利用本发明实施例提供的词语预测模板生成方法，通过对训练语料进行分词，得到多个词语；确定每个词语的特征信息；针对多个词语的目标词语，利用目标词语的左边第N个词语、右边第N个词语和目标词语的特征信息生成候选预测模板，之后利用候选预测模板在训练语料中进行词语提取，如果提取的词语均与目标词语相同，则确定候选预测模板为目标词语对应的词语预测模板。基于此，对于短文本的词语预测及提取，不需要使用海量的训练语料进行训练，消耗较小，且由于在词语预测模板中添加了词语的特征信息，利用该词语预测模板可有效提高词语预测及提取的准确率。

本发明实施例提供一种词语预测模板生成装置，图2为该词语预测模板生成装置的结构图。该装置可以包括：

获取单元201，用于获取训练语料；

分词单元202，用于对所述训练语料进行分词，得到多个词语；

第一确定单元203，用于确定每个词语的特征信息；

生成单元204，用于针对所述多个词语中的目标词语，利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板，其中，1≤N≤M，M为所述目标词语在所述训练语料中左边和右边可扩充的最大词语数量中的较小值，N的初始值为1；

提取单元205，用于利用候选预测模板在所述训练语料中进行词语提取；

第二确定单元206，用于如果提取的词语均与所述目标词语相同，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

优选的，所述生成单元204，还用于如果提取的词语中包括与所述目标词语不同的词语且N小于M，则N+1，执行利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板。

优选的，如图3所示，所述装置还包括：判断单元207，用于如果提取的词语中包括与所述目标词语不同的词语且N等于M，则判断提取的词语中与所述目标词语不同的词语的占比；所述第二确定单元206，还用于如果所述占比不大于预设占比阈值，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

优选的，如图4所示，所述装置还包括：泛化单元208，用于将所述多个词语中的可泛化的词语，按类别使用标识值进行替换，并记录标识值对应的词语的正则表达式。

优选的，如图5所示，所述装置还包括：融合单元209，用于将多个词语预测模板进行融合，生成组合词语预测模板。

利用本发明提供的词语预测模板生成装置，通过对训练语料进行分词，得到多个词语；确定每个词语的特征信息；针对多个词语的目标词语，利用目标词语的左边第N个词语、右边第N个词语和目标词语的特征信息生成候选预测模板，之后利用候选预测模板在训练语料中进行词语提取，如果提取的词语均与目标词语相同，则确定候选预测模板为目标词语对应的词语预测模板。基于此，对于短文本的词语预测及提取，不需要使用海量的训练语料进行训练，消耗较小，且由于在词语预测模板中添加了词语的特征信息，利用该词语预测模板可有效提高词语预测及提取的准确率。

下面，参考图6来描述根据本申请实施例的电子设备11。

如图6所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的词语预测模板生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线***和/或其他形式的连接机构（未示出）互连。

该输入设备113可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的词语预测模板生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的词语预测模板生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种词语预测模板生成方法，其特征在于，所述方法包括：

获取训练语料；

对所述训练语料进行分词，得到多个词语；

确定每个词语的特征信息；

利用候选预测模板在所述训练语料中进行词语提取；

2.根据权利要求1所述的方法，其特征在于，在所述利用所述候选预测模板在所述训练语料中进行词语提取之后，所述方法还包括：

如果提取的词语中包括与所述目标词语不同的词语且N小于M，则N+1，执行利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板。

3.根据权利要求1所述的方法，其特征在于，在所述利用所述候选预测模板在所述训练语料中进行词语提取之后，所述方法还包括：

如果提取的词语中包括与所述目标词语不同的词语且N等于M，则判断提取的词语中与所述目标词语不同的词语的占比，如果所述占比不大于预设占比阈值，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

4.根据权利要求1所述的方法，其特征在于，在针对所述多个词语中的目标词语，利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板之前，所述方法还包括：

将所述多个词语中的可泛化的词语，按类别使用标识值进行替换，并记录标识值对应的词语的正则表达式。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将多个词语预测模板进行融合，生成组合词语预测模板。

6.一种词语预测模板生成装置，其特征在于，所述装置包括：

获取单元，用于获取训练语料；

分词单元，用于对所述训练语料进行分词，得到多个词语；

第一确定单元，用于确定每个词语的特征信息；

7.根据权利要求6所述的装置，其特征在于，所述生成单元，还用于如果提取的词语中包括与所述目标词语不同的词语且N小于M，则N+1，执行利用所述目标词语的左边第N个词语、右边第N个词语和所述目标词语的特征信息生成候选预测模板。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

判断单元，用于如果提取的词语中包括与所述目标词语不同的词语且N等于M，则判断提取的词语中与所述目标词语不同的词语的占比；

所述第二确定单元，还用于如果所述占比不大于预设占比阈值，则确定所述候选预测模板为所述目标词语对应的词语预测模板。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

泛化单元，用于将所述多个词语中的可泛化的词语，按类别使用标识值进行替换，并记录标识值对应的词语的正则表达式。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

融合单元，用于将多个词语预测模板进行融合，生成组合词语预测模板。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一项所述的词语预测模板生成方法。

12.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-5任一项所述的词语预测模板生成方法。