CN112765330A

CN112765330A - 文本数据处理方法、装置、电子设备和存储介质

Info

Publication number: CN112765330A
Application number: CN202011631883.8A
Authority: CN
Inventors: 谢韬; 秦昌博; 高倩; 邵长东
Original assignee: Ecovacs Robotics Suzhou Co Ltd
Current assignee: Ecovacs Robotics Suzhou Co Ltd; Ecovacs Commercial Robotics Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07

Abstract

本发明实施例提供一种文本数据处理方法、装置、电子设备和存储介质，该方法包括：获取待处理语句以及该语句中包含的第一命名实体，再根据预设的语句模板生成包含第一命名实体的模板语句，并由待处理语句和模板语句构成一个语句对。再根据此语句对生成包含第一命名实体的三元组关系。上述方法是一种基于开放域的三元组关系生成方法，其能够同时得到待处理语句中第一命名实体对应的显性三元组关系和隐含三元组关系。同时，构造的语句对中都包含第一命名实体，这样能够对三元组关系的生成起到限定作用，即生成单一命名实体的三元组关系，并且生成的三元组关系的数量有限，保证生成三元组关系的准确性。

Description

文本数据处理方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本数据处理方法、装置、电子设备和存储介质。

背景技术

自然语言处理(Natural Language Processing,简称,NLP)是人工智能领域中的一个研究热点，也是实现人机交互的核心。

在人机交互过程中，智能设备需要先对用户输入的语句进行理解，再基于对语句的理解产生应答，从而实现人机交互，并且智能设备对于语句的理解可以借助知识图谱实现。因此，知识图谱的建立的准确性会直接影响到人机交互的效果。其中，知识图谱可以通过对文本数据进行知识抽取后建立，并且知识抽取可以在限定域或者开放域内进行。

发明内容

本发明实施例提供一种文本数据处理方法、装置、电子设备和存储介质，用以保证三元组关系生成的准确性。

本发明实施例提供一种文本数据处理方法，包括：

获取待处理语句中包含的第一命名实体；

由所述待处理语句和包含所述第一命名实体的模板语句，构成所述第一命名实体对应的语句对；

根据所述语句对，生成包含所述第一命名实体的三元组关系。

本发明实施例提供一种文本数据处理装置，包括：

获取模块，用于获取待处理语句中包含的第一命名实体；

构建模块，用用由所述待处理语句和包含所述第一命名实体的模板语句，构成所述第一命名实体对应的语句对；

生成模块，用于根据所述语句对，生成包含所述第一命名实体的三元组关系。

本发明实施例提供一种电子设备，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

获取待处理语句中包含的第一命名实体；

本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

获取待处理语句中包含的第一命名实体；

本发明实施例提供另一种文本数据处理方法，包括：

获取样本语句中包含的样本命名实体；

由所述样本语句和包含所述样本命名实体的模板语句，构成所述命名实体对应的样本语句对；

将所述样本语句对输入生成模型，以由所述生成模型输出所述样本命名实体对应属性关系序列以及所述属性关系序列对应的预测概率矩阵；

根据所述预测概率矩阵和预设的期望概率矩阵调整所述生成模型的模型参数。

本发明实施例提供另一种文本数据处理装置，包括：

获取模块，用于获取样本语句中包含的样本命名实体；

构建模块，用于由所述样本语句和包含所述样本命名实体的模板语句，构成所述命名实体对应的样本语句对；

输入模块，用于将所述样本语句对输入生成模型，以由所述生成模型输出所述样本命名实体对应属性关系序列以及所述属性关系序列对应的预测概率矩阵；

调整模块，用于根据所述预测概率矩阵和预设的期望概率矩阵调整所述生成模型的模型参数。

本发明实施例提供另一种电子设备，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

获取样本语句中包含的样本命名实体；

本发明实施例提供了另一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

获取样本语句中包含的样本命名实体；

发明本提供的文本数据处理方法，获取待处理语句以及该语句中包含的第一命名实体，同时再根据预设的语句模板生成包含第一命名实体的模板语句，则可以由待处理语句和模板语句构成一个语句对。再根据此语句对生成包含第一命名实体的三元组关系。上述方法是一种基于开放域的三元组关系生成方法，其能够同时得到待处理语句中第一命名实体对应的显性三元组关系和隐含三元组关系。同时，构造的语句对中包含同一个命名实体，这样能够对三元组关系的生成起到限定作用，即生成单一命名实体(第一命名实体)的三元组关系，每次生成的三元组关系的数量有限，也保证生成三元组关系的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本数据处理方法的流程图；

图2为本发明实施例提供的另一种文本数据处理方法的流程图；

图3为本发明实施例提供的又一种文本数据处理方法的流程图；

图4为图3所示实施例中步骤304的一种可选实现方式的流程图；

图5为本发明实施例提供的又一种文本数据处理方法的流程图；

图6为本发明实施例提供的又一种文本数据处理方法的流程图；

图7为本发明实施例提供的一种文本数据处理装置的结构示意图；

图8为与图7所示实施例提供的文本数据处理装置对应的电子设备的结构示意图；

图9为本发明实施例提供的另一种文本数据处理装置的结构示意图；

图10为与图9所示实施例提供的文本数据处理装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式。除非上下文清楚地表示其他含义，“多个”一般包含至少两个。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

根据背景技术中的内容可知，人机对话功能的实现是要基于知识图谱实现的，而知识图谱中的知识又是从众多语句中抽取出来的。在实际中，相比于基于限定域进行知识抽取，基于开放域的知识抽取往往能够得到更加丰富的知识。

并且知识图谱中的每条知识可以认为是语句中不同命名实体各自对应的主谓宾(Subject，Predict，Object，简称SPO)三元组关系。其中，SPO三元组关系中的Subject可以称为第一命名实体，Predict可以称为谓词，Object可以称为第二命名实体。并且需要说明的有，下述各实施例中均将SPO三元组关系简称为三元组关系，并且任一条三元组关系都包含第一命名实体、谓词、第二命名实体。

容易理解的，对于一条语句来说，语句中的命名实体之间可能会同时存在显性三元组关系以及隐含三元组关系。比如，语句“某A和某B生有一女C”，其显性三元组关系可以为(A，生有一女，C)和(B，生有一女，C)，其隐含三元组关系可以为(A，女儿，C)和(B，女儿，C)。

为了得到语句中命名实体显性三元组关系以及隐含三元组关系，则可以采用本发明各实施例中提供的文本数据处理方法。

可选地，本发明各实施例提供的文本数据处理方法可以应用在诸如服务机器人、自移动售货机器人等等的智能机器人上。文本处理方法还可以应用在由诸如在线购物***、公共服务***中集成的人机对话插件(或者称为人机对话接口、人机对话功能模块)中；文本处理方法还可以应用在如智能家电、智能穿戴设备等智能终端上。泛泛而言，文本处理方法可以应用在任何支持人机对话的设备、***中。

基于上述描述，下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图1为本发明实施例提供的一种文本数据处理方法的流程图，本发明实施例提供的该文本数据处理方法可以由处理设备来执行。可以理解的是，该处理设备可以实现为软件、或者软件和硬件的组合。该处理设备可以是上述提及的任何支持人机对话的设备。如图1所示，该方法包括如下步骤：

101、获取待处理语句中包含的第一命名实体。

对于待处理语句，可选地，可以通过互联网收集。同时，正如上述描述可知，从待处理语句中抽取的三元组关系能够使智能机器人具备人机对话功能，因此，可选地，也可以将智能机器人在一定时间内产生的历史对话作为待处理语句。

之后，用户可以触发待处理语句的输入操作，以使处理设备获取上述收集到的待处理语句，并进一步识别此语句中包含的命名实体。其中，待处理语句可以是一个单句，也可以是由多个句子组成的段落。

但为了保证三元组关系生成的准确性，处理设备获取到的待处理语句不宜过长。因此，一种可选地方式，当处理设备获取到用户输入的待处理语句后，确定长度，将长度超出第一预设长度的待处理语句确定为段落，再对段落进行分句处理，再分别生成每个句子中命名实体的三元组关系。

在接收到待处理语句后，处理设备还可以进一步识别其中包含的命名实体。可选地，待处理语句中可以包括至少一个命名实体。一种可选地方式，可以预先建立一个包含命名实体的词典，在获取并对待处理语句进行分词处理后，将分词结果与预设词典中的词语进行比对，从而确定待处理语句中包含的命名实体。实际应用中，命名实体通常可以是人名、组织名、机构名、地理位置等具有特定名称的实体，当然也可以进一步扩展为日期、货币等等。

需要说明的有，正如上述描述中提到的，一条三元组关系可以包含第一命名实体，谓词和第二命名实体，而步骤101中获取到的命名实体可以认为是一条三元组关系中的第一命名实体。

举例来说，待处理语句可以为“《西游记》的作者为吴承恩”，其的分词结果为：西游记、的、作者、为、吴承恩。将分词结果与预设词典中的词语进行比对后，以得到第一命名实体包括：西游记和吴承恩。

102、由待处理语句和包含第一命名实体的模板语句，构成第一命名实体对应的语句对。

然后，将获取到的第一命名实体代入存在缺省的模板语句中，得到完整的模板语句，再由待处理语句和包含第一命名实体的模板语句，即完整的模板语句构成待处理语句对应的一个语句对。也即是一个语句对中的两个语句都要包含第一命名实体。可选地，命名实体待入后得到的完整语句模板通常包含一个命名实体。

承接上述举例，存在缺省的模板语句可以为“关于XXX的关系有哪些”，则将待处理语句中“西游记”这一第一命名实体代入后，即可得到完整的模板语句“关于西游记的关系有哪些”。再由待处理语句“《西游记》的作者为吴承恩”和此完整的模板语句“关于西游记的关系有哪些”构成一个语句对。类似的，还可以由“《西游记》的作者为吴承恩”和“关于吴承恩的关系有哪些”构成另一语句对。

103、根据语句对，生成包含第一命名实体的三元组关系。

最终，基于上述得到的语句对采用生成的方式，以生成包含针对此第一命名实体的三元组关系。此三元组关系也即是待处理语句中包含的知识，也即是实现了基于开放域进行知识抽取。

继续承接上述举例，针对第一命名实体“西游记”的三元组关系可以为(西游记，作者，吴承恩)，其中，“作者”为谓词，“吴承恩”为第二命名实体。类似的，针对第一命名实体“吴承恩”的三元组关系可以为(吴承恩，著作，西游记)，其中，“著作”为谓词，“西游记”为第二命名实体。

需要说明的有，语句对中包含相同的命名实体，比如都包含“西游记”，则使用本实施例提供的方案可以将三元组关系的生成控制在单个命名实体上，即生成三元组关系都是针对同一命名实体(即西游记)的，即对三元组关系的生成产生了限制，使得三元组关系生成更加可控。相比于同时生成的多个命名实体对应的三元组关系，使用本实施例提供的方法生成的三元组关系的数量较少，也能够进一步保证生成的三元组关系的准确性。

本实施例中，获取待处理语句以及该语句中包含的第一命名实体，同时再根据预设的语句模板生成包含第一命名实体的模板语句，则可以由待处理语句和模板语句构成一个语句对。再根据此语句对生成包含第一命名实体的三元组关系。上述方法是一种基于开放域的知识生成方法，其能够同时抽取到待处理语句中第一命名实体对应的显性三元组关系和隐含三元组关系。同时，构造的语句对中都包含同一命名实体，这样能够对三元组关系的生成起到限定作用，使得只生成针对此第一命名实体的三元组关系，使得每次生成的三元组关系的数量有限，保证生成三元组关系的准确性。

上述实施例的描述中公开的是利用预设词典进行比对以获取第一命名实体。除了此种方式，可选地，还可以使用标注序列模型实现命名实体的识别。则图2为本发明实施例提供的另一种文本数据处理方法的流程图，如图2所示，该方法可以包括如下步骤：

201、将待处理语句输入序列标注模型，以由序列标注模型输出待处理语句对应的标注序列。

202、从输出的标注序列中确定第一命名实体。

可以将待处理语句输入已经训练至收敛的序列标注模型，以根据序列标注模型输出的标注序列确定第一命名实体。可选地，序列标注模型采用BIO标注方式(Begin,Inside,Outside，简称BIO)。

举例来说，对于待处理语句“《西游记》的作者为吴承恩”，序列标注模型输出的BIO序列为：“OBI IOOOOOBI IO”。其中，将序列中B开始I结尾所对应的字符在待处理语句对应的词语确定为第一命名实体。因此，根据BIO序列能够获取到的第一命名实体为：西游记和吴承恩。

可选地，序列标注模型的训练过程可以为：将训练语句输入序列标注模型，根据序列标注模型输出的预测标注序列和人工标注的实际标注序列计算损失值，以根据此损失值反向调节标注序列的模型参数，从而实现模型收敛。

203、由待处理语句和包含第一命名实体的模板语句，构成第一命名实体对应的语句对。

204、根据语句对，生成包含第一命名实体的三元组关系。

上述步骤203～204的具体实现过程可以参见图1所示实施例中的相关描述，在此不再赘述。

本实施例中，相比于通过直接生成的方式生成待处理语句中包含的第一命名实体，借助标注序列模型进一步能够提高命名实体的识别准确性，避免命名实体生成的不可控，也就进一步保证后续三元组关系生成的准确性。

根据图1或图2所示的实施例可知，可以根据用户输入待处理语句的长度判断此待处理语句是否是段落。对于待处理语句是段落的情况，一种可选地方式，可以将段落作为一个整体直接输入序列标识模型，并执行上述的步骤202～204。

而在一个实际的段落中，语句很有可能存在代词，代词具体可以包括零代词和/或人称代词。举例来说，假设存在以下对话段落：

用户：我想办一张***。

智能机器人：您可以通过手机银行申请***。

用户：它有什么优惠？

智能机器人：我行***分期付款手续费9折优惠。您想知道怎么下载手机银行吗？

用户：我想知道。

在上述对话段落中，语句“它有什么优惠”中存在人称代词“它”，用来指代“***”，语句中存在指代关系。语句“我想知道”存在用户下意识省略的内容“怎么下载手机银行”，其中存在省略关系，省略部分被称为零代词。

在这种情况下，另一种可选地方式，处理设备可以对段落进行分句，其中，分句结果包含的每个语句都可以认为是待处理语句。之后，为了避免待处理语句中的零代词和/或人称代词会对命名实体的三元组关系的生成产生影响，处理设备还可以先判断待处理语句其中是否包含代词。若包含代词，则再借助基于阅读理解原理训练得到的模型，从待处理语句的上文语句中确定代词对应的指代内容，并用指代内容对待处理语句进行补全。利用补全后的待处理语句输入序列标注模型，也即是使用补全后的待处理语句执行上述的步骤201，从而得到待处理语句的标注序列，再进一步执行步骤202～204，以生成每个待处理语句中命名实体的三元组关系。

其中，对于待处理语句中代词的识别，同样可以借助序列标注模型实现，即根据序列标注模式输出的BIO序列确定待处理语句中代词的位置。但需要说明的有，用于识别代词的序列标注模型可以与图2所示实施例步骤201使用的序列标注模型是不同的模型。

在上述描述的基础上，在实际应用中，当用户输入的待处理语句是段落时，为了保证三元组关系生成的准确性，一种常见的做法可以是：若用户输入的段落长度超过第二预设长度，则可以先对段落进行分句，并进行上述的指代消解，以得到段落中包含的命名实体。之后再利用生成模型生成段落中每个语句包含的命名实体的三元组关系。这种方式下，输入生成模型中的是一个语句对，相比于整个段落，语句对的长度显然更短，使得在生成三元组关系的过程中，语句中包含的信息不会丢失，从而保证三元组关系的生成可控，准确。若用户输入的段落长度未超过第二预设长度，则直接输入序列标注模型进行后续处理，无需考虑段落中的代词。其中，第一预设长度小于第二预设长度。

上述描述已经介绍本发明提供的各实施例都是采用生成的方式来生成待处理语句中三元组关系的。对于三元组关系的生成可以通过生成模型实现，则图3为本发明实施例提供的又一种文本数据处理方法的流程图，如图3所示，该方法可以包括如下步骤：

301、获取待处理语句中包含的第一命名实体。

302、由待处理语句和包含第一命名实体的模板语句，构成第一命名实体对应的语句对。

上述步骤301～302的具体实现过程可以参见图1所示实施例中的相关描述，在此不再赘述。

303、将语句对输入生成模型，以由生成模型输出第一命名实体对应的属性关系序列。

304、根据第一命名实体和属性关系序列，生成包含第一命名实体的三元组关系，属性关系序列包含三元组关系中的谓词和第二命名实体。

在按照上述步骤301、302之后，已经能够得到语句对。接着，将此语句对输入生成模型，以由生成模型输出第一命名实体对应的属性关系序列。最终，根据第一命名实体和属性关系序列构成针对第一命名实体的三元组关系。

其中，属性关系序列可以包含至少一条属性关系，第一命名实体可以和每条属性关系都构成一条针对此第一命名实体的三元关系组，也即是三元组关系的数量与属性关系序列中属性关系的数量相同，均是至少一个。并且属性关系序列是由多个词语构成的，一条属性关系可以包含两个以上的词语，即一条三元组关系中的一个谓词和至少一个第二命名实体。

举例来说，待处理语句为“吴承恩，字汝忠，号射阳山人”，第一命名实体为“吴承恩”，则将语句对“关于吴承恩的关系有哪些[SEP]吴承恩，字汝忠，号射阳山人”输入生成模型，其中，“[SEP]”作为两个语句之间的间隔符。则生成模型输出的属性关系序列为“字，汝忠”以及“号，射阳山人”。

上述的属性关系序列中包含两条属性关系“字，汝忠”以及“号，射阳山人”。此时，可以针对“吴承恩”可以生成两条三元组关系(吴承恩，字，汝忠)以及(吴承恩，号，射阳山人)。其中，“字”“号”分别为两条三元组关系中的谓词，“汝忠”和“射阳山人”分别为两条三元组关系中的第二命名实体。

可选地，当生成模型具体可以为序列到序列模型时，其的具体工作过程可以为：模型中的编码器对接收的语句对进行编码，以得到固定长度的语句向量。此语句向量会被进一步输入模型中的解码器，解码器会根据语句向量生成关系属性序列中的第一个字，再根据第一个字生成第二个字，以此类推，直至生成结束标识。其中，序列到序列模型实际上是一种循环神经网络(Recurrent Neural Network,简称RNN)模型。

本实施例是利用生成模型生成三元组关系的，这种方式能够生成待处理语句中第一命名实体在字面意义上的显性三元组关系，也能够第一命名实体的隐含三元组关系。另外，根据包含同一命名实体的一个语句对生成三元组关系，也能够限定三元组关系的生成范围，即生成单一命名实体的三元组关系，属性关系序列的长度较短，三元组关系的数量较少，从而保证三元组关系生成的准确性。

在实际应用中，生成模型输出的关系属性序列中包含的词语之间可以由间隔符间隔。并且词语之间的间隔符要满足预设条件，即属性关系序列要符合预设的格式规范，才能生成命名实体的三元组关系。可选地，属性关系序列对应的格式规范可以为：每条属性关系之间可以用“；”间隔，一条属性关系中的谓词和第二命名实体可以用“、”间隔，每条属性关系中多个第二命名实体之间可以用“、”间隔。

基于上述格式规范，假设生成模型输出的属性关系序列表示为：P₁,O_1-1、O_1-2、O_1-n；P₂,O_2-1、O_2-2、O_2-n；…；P_m,O_m-1、O_m-2、O_m-n。则可以根据“；”将此序列划分为n条属性关系，P₁,O_1-1、O_1-2、O_1-n为一条属性关系，P₂,O_2-1、O_2-2、O_2-n为另一条属性关系。根据“，”还可确定此序列中包含m个谓词，即P_1……P_m。根据“、”确定每条属性关系中包括n个第二命名实体，即O_1-1、O_1-2、O_1-n。

基于上述描述，在执行图3所示实施例得到待处理语句的属性关系序列后，可选地，还可以对属性关系序列中的每条属性关系的有效性进行验证，并根据有效属性关系生成三元组关系。

则如图4所示，步骤304一种可选地具体实现方式，即根据第一命名实体和属性关系序列生成三元组关系的过程可以包括以下步骤：

3041、根据属性关系序列中词语之间的间隔符，将属性关系序列划分为至少一条属性关系。

3042、确定至少一条属性关系各自的有效性。

在实际应用中，生成模型生成的属性关系序列容易出现以下问题：第一，属性关系序列格式不规范；第二，由于本发明各实施例是通过生成方式生成属性关系序列的，因此，导致属性关系中生成词语不受限制。上述问题都会导致属性关系序列整体或部分无效。

针对第一个问题，承接上述格式的属性关系序列，属性关系序列格式的不规范通常体现为：两条属性关系之间没有用“；”间隔，同一条属性关系中的谓词和第二命名实体没有用“，”间隔，同一条属性关系中的多个第二命名之间没有用“、”间隔等。

针对第二个问题，通常体现为属性关系序列中的第二命名实体没有在待处理语句中出现过。

对于存在上述任意问题的属性关系，通常都会作为无效属性关系被滤除。

基于上述描述，可以根据属性关系序列中词语之间的间隔符，承接上述的格式规范，比如可以将两个“；”之间包含的词语划分为至少一条属性关系。然后，再确定每条属性关系是否有效，也即是确定每条属性关系是否存在上述两种问题。

由于属性关系有效性的确定过程都是相同，则以至少一条属性关系中的任一条属性关系，即目标属性关系为例进行说明。

基于上述的格式规范，一种可选地有效性判定方式，若目标属性关系中的第一个间隔符不是“，”即前两个词语之间没有用“、”间隔，或者目标属性关系中第二个间隔符不是“、”即第一个词语之后的各词语之间没有用“、”间隔，又或者上述两种情况都存在，则确定此目标属性关系无效，进行滤除。

同样基于上述的格式规范，另一种可选地有效性判定方式，在根据目标属性关系中词语之间的间隔符，识别目标属性关系中的谓词和第二命名实体后，还会进一步识别目标属性关系中的第二命名实体是否包含与待处理语句中。若第二命名实体不包含于待处理语句中，表明生成模型对第二命名实体的生成超出范围，则确定目标属性关系无效，进行滤除。

在实际中，待处理语句中的第一命名实体还可以具有隐含的三元组关系，这种关系的隐含通常是通过三元组关系中的谓词体现的，即三元组关系中的谓词可以是没出现在待处理语句中的，而三元组关系中的第一命名实体、第二命名实体通常是要出现在待处理语句中的。而按照上述的有效性判定方式进行判断后，即可以避免出现三元组关系中命名实体未出现在待处理语句中的情况。

需要说明的有，在实际应用中，可以同时采用上述两种方式对属性关系的有效性进行判定。

3043、根据有效属性关系和第一命名实体，构成包含第一命名实体的三元组关系，三元组关系与有效属性关系数量相同。

最终，根据有效属性关系分别和第一命名实体构成第一命名实体对应的三元组关系。其中，三元组关系的数量与有效属性关系的数量相同。

本实施例中，通过不同的判定规则对属性关系序列中的每条属性关系进行有效性验证。最终，根据有效属性关系和第一命名实体生成三元组关系，保证三元关系的准确性。

另外，上述图3所示实施例中已经提及了利用生成模型生成属性关系序列的过程，并且属性关系序列的准确性又会直接影响后续三元组关系生成的准确性。图5为本发明实施例提供的又一种文本数据处理方法的流程图，如图5所示，该方法可以包括如下步骤：

401、获取样本语句中包含的样本命名实体。

402、由样本语句和包含样本命名实体的模板语句，构成命名实体对应的样本语句对。

可以获取样本语句以及样本语句中包含的样本命名实体。然后，将样本语句中的样本命名实体代入存在缺省的模板语句中，以得到完整的模板语句，由样本语句和完整的模板语句构成样本命名实体对应的样本语句对。

其中，样本语句、样本命名实体、样本语句对的获取方式，与上述的待处理语句、待处理语句中的第一命名实体以及第一命名实体对应的语句对的获取方式相同，具体内容可以参见图1所示实施例中步骤101～步骤102中的描述。

403、将样本语句对输入生成模型，以由生成模型输出样本命名实体对应属性关系序列以及属性关系序列对应的预测概率矩阵。

404、根据预测概率矩阵和预设的期望概率矩阵调整生成模型的模型参数。

然后，将样本语句对输入生成模型，以由生成模型输出样本命名实体对应的属性关系序列以及属性关系序列对应的预测概率矩阵。再计算预测概率矩阵和期望概率矩阵之间的交叉熵，并将其作为调整模型参数的损失值，从而进行模型参数的调整，直至模型收敛。其中，模型输出的预测概率矩阵和预设的期望概率矩阵，其都用于反映属性关系序列中每个字所在位置出现每个字的概率。

假设预先设置后存在包含1万个字的字库，则预测概率矩阵可以包括属性关系序列中的第一个字分别是是这1万个字中每个字的概率，可以包括属性关系序列中第二个字分别是是这1万个字中每个字的概率，其他字也是类似的。

由于在训练过程中，人为已经能够构建出样本语句对应的属性关系序列，因此，属性关系序列中包含的每个字是确定的，比如人为得到的属性关系序列为：“AB,CD；”则在期望概率矩阵中，属性关系序列中第一字为A的概率为1，,为字库中其他字的概率为0，属性关系序列中第一字为B的概率为1，为字库中其他字的概率为0，其他字也是类似的。

本实施例中，利用包含样本命名实体的语句对进行生成模型的训练，最终可以使生成模型具有生成单一命名实体(即样本命名实体)的三元组关系的能力，也即是对三元组关系的生成进行限制，并且生成的单一命名实体的三元组关系的长度有限，也能够保证生成三元组关系的准确性。

图5所示实施例是基于三元组关系生成的场景下，对三元组关系生成过程中使用到的生成模型的训练过程进行说明。在实际应用中，对于其他使用到生成模型生成属性关系序列的场景，也可以按照下述方式单独进行生成模型的训练。图6为本发明实施例提供的又一种文本数据处理方法的流程图，如图6所示，该方法可以包括如下步骤：

501、获取样本语句中包含的样本命名实体。

502、由样本语句和包含样本命名实体的模板语句，构成命名实体对应的样本语句对。

503、将样本语句对输入生成模型，以由生成模型输出样本命名实体对应属性关系序列以及属性关系序列对应的预测概率矩阵。

504、根据预测概率矩阵和预设的期望概率矩阵调整生成模型的模型参数。

图6所示实施例中未详细描述的内容以及可以实现的技术效果均可以参见图5所示实施例中的相关说明，在此不再赘述。

为便于理解，结合如下的应用场景对以上提供的文本数据处理方法的具体实现进行示例性说明。

用户可以通过互联网得到待处理语句“《西游记》的作者为吴承恩。吴承恩，字汝忠，号射阳山人或射阳居士。”为了后续描述简洁可以将语句“《西游记》的作者为吴承恩。”称为语句A；将语句“吴承恩，字汝忠，号射阳山人。”称为语句B

将此待处理语句输入序列标注模型，训练标注模型输出的BIO标注序列为：OBIIOOOOOBIIO BIIOOOOOOOOOOOOOOOO。可以根据此标注序列获取到待处理语句包含的第一命名实体为“西游记，吴承恩”。

接着，针对第一命名实体“西游记”，由语句A和模板语句A1“关于西游记的关系有哪些？”构成一个语句对。针对第一命名实体“吴承恩”，由语句B和模板语句B1“关于吴承恩的关系有哪些？”构成另一个语句对。

进而，将一个语句对按照格式“关于西游记的关系有哪些？[SEP]《西游记》的作者为吴承恩。”输入生成模型。生成模型输出的属性关系序列包括：“作者，吴承恩；”。此时，属性关系序列中至包含一个“；”，其就是一条属性关系，并且是一条有效属性关系，因此，可以生成针对“西游记”的三元组关系：(西游记，作者，吴承恩)。

类似地，将另一个语句对“关于吴承恩的关系有哪些？[SEP]吴承恩，字汝忠，号射阳山人或射阳居士。”输入生成模型。生成模型输出的属性关系序列包括：“字，汝忠；号，射阳山人、射阳居士；”。

此时，属性关系序列中至包含两个“；”，其可以划分为两条属性关系，并且两条都是有效属性关系，因此，可以生成针对“吴承恩”的三元组关系：(吴承恩，字，汝忠)、(吴承恩，号，射阳山人)以及(吴承恩，号，射阳居士)。

上述得到的三元组关系可以转换成下述的表格样式：

通过上述过程中，根据一个语句对使得生成模型每次生成单一命名实体的三元组关系，三元组关系生成的长度有限，也就进一步保证生成的三元组关系的准确性。

以下将详细描述本发明的一个或多个实施例的文本数据处理装置。本领域技术人员可以理解，这些文本数据处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图7为本发明实施例提供的一种文本数据处理装置的结构示意图，如图7所示，该装置包括：

获取模块11，用于获取待处理语句中包含的第一命名实体。

构建模块12，用用由所述待处理语句和包含所述第一命名实体的模板语句，构成所述第一命名实体对应的语句对。

生成模块13，用于根据所述语句对，生成包含所述第一命名实体的三元组关系。

可选地，所述获取模块11包括：

输入单元111，用于将所述待处理语句输入序列标注模型，以由所述序列标注模型输出所述待处理语句对应的标注序列。

确定单元112，用于从输出的所述标注序列中确定所述第一命名实体。

可选地，所述输入单元111具体用于：若所述待处理语句包含代词，则根据所述待处理语句的上文语句确定所述代词对应的指代内容；根据所述指代内容，对所述待处理语句进行补全；以及将补全的所述待处理语句输入所述序列标注模型。

可选地，所述生成模块13包括：

输入单元131，用于将所述语句对输入生成模型，以由所述生成模型输出所述第一命名实体对应的属性关系序列。

生成单元132，用于根据所述第一命名实体和所述属性关系序列，生成包含所述第一命名实体的三元组关系，所述属性关系序列包含所述三元组关系中的谓词和第二命名实体。

可选地，所述生成单元132具体用于：根据所述属性关系序列中词语之间的间隔符，将所述属性关系序列划分为至少一条属性关系；

确定所述至少一条属性关系各自的有效性；

根据有效属性关系和所述第一命名实体，构成包含所述第一命名实体的三元组关系，所述三元组关系与所述有效属性关系数量相同。

可选地，所述生成单元132具体用于：若目标属性关系中词语之间的间隔符不满足预设要求，则确定所述目标属性关系无效，所述目标属性关系为所述至少一条属性关系中的任一条属性关系。

可选地，所述生成单元132具体用于：根据所述目标属性关系中词语之间的间隔符，识别三元组关系中的谓词和第二命名实体，所述目标属性关系为所述至少一条属性关系中的任一条属性关系；

若所述目标属性关系中的第二命名实体不包含于所述待处理语句中，则确定所述目标属性关系无效。

可选地，所述装置还包括：

所述获取模块11，用于获取样本语句中包含的样本命名实体。

所述构建模块12，用于由所述样本语句和包含所述样本命名实体的模板语句，构成所述命名实体对应的样本语句对。

输入模块21，用于将所述样本语句对输入所述生成模型，以由所述生成模型输出所述样本命名实体对应属性关系序列以及所述属性关系序列对应的预测概率矩阵。

调整模块22，用于根据所述预测概率矩阵和预设的期望概率矩阵调整所述生成模型的模型参数。

图7所示的装置可以执行前述图1至图5所示实施例提供的文本数据处理方法，本实施例未详细描述的部分，可参考对图1至图5所示实施例的相关说明，在此不再赘述。

以上描述了文本数据处理装置的内部功能和结构，在一个可能的设计中，文本数据处理装置的结构可实现为一电子设备，如图8所示，该电子设备可以包括：处理器31和存储器32。其中，所述存储器32用于存储支持该电子设备执行前述图1至图5所示实施例中提供的文本数据处理方法的程序，所述处理器31被配置为用于执行所述存储器32中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器31执行时能够实现如下步骤：

可选地，所述处理器31还用于执行前述图1至图5所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口33，用于与其他设备或通信网络通信。

获取待处理语句中包含的第一命名实体；

另外，本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

获取待处理语句中包含的第一命名实体；

图9为本发明实施例提供的另一种文本数据处理装置的结构示意图，如图6所示，该装置包括：

获取模块41，用于获取样本语句中包含的样本命名实体。

构建模块42，用于由所述样本语句和包含所述样本命名实体的模板语句，构成所述命名实体对应的样本语句对。

输入模块43，用于将所述样本语句对输入生成模型，以由所述生成模型输出所述样本命名实体对应属性关系序列以及所述属性关系序列对应的预测概率矩阵。

调整模块44，用于根据所述预测概率矩阵和预设的期望概率矩阵调整所述生成模型的模型参数。

图9所示的装置可以执行前述图6所示实施例提供的文本数据处理方法，本实施例未详细描述的部分，可参考对图6所示实施例的相关说明，在此不再赘述。

以上描述了文本数据处理装置的内部功能和结构，在一个可能的设计中，文本数据处理装置的结构可实现为一电子设备，如图10所示，该电子设备可以包括：处理器51和存储器52。其中，所述存储器52用于存储支持该电子设备执行前述图6所示实施例中提供的文本数据处理方法的程序，所述处理器51被配置为用于执行所述存储器52中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器51执行时能够实现如下步骤：

可选地，所述处理器51还用于执行前述图6所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口53，用于与其他设备或通信网络通信。

获取样本语句中包含的样本命名实体；

根据所述预测概率矩阵和预设的期望概率矩阵计算调整所述生成模型的模型参数。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本数据处理方法，其特征在于，包括：

获取待处理语句中包含的第一命名实体；

2.根据权利要求1所述的方法，其特征在于，获取待处理语句中包含的第一命名实体，包括：

将所述待处理语句输入序列标注模型，以由所述序列标注模型输出所述待处理语句对应的标注序列；

从输出的所述标注序列中确定所述第一命名实体。

3.根据权利要求2所述的方法，其特征在于，所述将所述待处理语句输入序列标注模型，包括：

若所述待处理语句包含代词，则根据所述待处理语句的上文语句确定所述代词对应的指代内容；

根据所述指代内容，对所述待处理语句进行补全；

将补全的所述待处理语句输入所述序列标注模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述语句对，生成包含所述第一命名实体的三元组关系，包括：

将所述语句对输入生成模型，以由所述生成模型输出所述第一命名实体对应的属性关系序列；

根据所述第一命名实体和所述属性关系序列，生成包含所述第一命名实体的三元组关系，所述属性关系序列包含所述三元组关系中的谓词和第二命名实体。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一命名实体和所述属性关系序列，生成包含所述第一命名实体的三元组关系，包括：

根据所述属性关系序列中词语之间的间隔符，将所述属性关系序列划分为至少一条属性关系；

确定所述至少一条属性关系各自的有效性；

6.根据权利要求5所述的方法，其特征在于，所述确定所述至少一条属性关系各自的有效性，包括：

若目标属性关系中词语之间的间隔符不满足预设要求，则确定所述目标属性关系无效，所述目标属性关系为所述至少一条属性关系中的任一条属性关系。

7.根据权利要求5或6所述的方法，其特征在于，所述确定所述至少一条属性关系各自的有效性，包括：

根据所述目标属性关系中词语之间的间隔符，识别三元组关系中的谓词和第二命名实体，所述目标属性关系为所述至少一条属性关系中的任一条属性关系；

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取样本语句中包含的样本命名实体；

将所述样本语句对输入所述生成模型，以由所述生成模型输出所述样本命名实体对应属性关系序列以及所述属性关系序列对应的预测概率矩阵；

9.一种文本数据处理方法，其特征在于，包括：

获取样本语句中包含的样本命名实体；

10.一种文本数据处理装置，其特征在于，包括：

获取模块，用于获取待处理语句中包含的第一命名实体；

11.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

获取待处理语句中包含的第一命名实体；

12.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

获取待处理语句中包含的第一命名实体；

13.一种文本数据处理装置，其特征在于，包括：

获取模块，用于获取样本语句中包含的样本命名实体；

14.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

获取样本语句中包含的样本命名实体；

15.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

获取样本语句中包含的样本命名实体；