CN114090793A

CN114090793A - 信息抽取方法、装置、电子设备及计算机可读介质及产品

Info

Publication number: CN114090793A
Application number: CN202111418839.3A
Authority: CN
Inventors: 樊乘源; 刘海锋
Original assignee: Guang Dong Ming Chuang Software Technology Corp ltd
Current assignee: Guang Dong Ming Chuang Software Technology Corp ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-25

Abstract

本申请公开了一种信息抽取方法、装置、电子设备及计算机可读介质及产品,涉及知识图谱技术领域，应用于文本信息抽取，所述方法包括：从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语；查找与每个关键词对应的备选三元组合集；基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率；查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集；若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

Description

信息抽取方法、装置、电子设备及计算机可读介质及产品

技术领域

本申请涉及知识图谱技术领域，更具体地，涉及一种信息抽取方法、装置、电子设备及计算机可读介质及产品。

背景技术

目前，知识图谱在许多领域都有重要应用，构建知识图谱的重要步骤为三元组的抽取，现有一般使用信息抽取模型直接抽取三元组。然而，该方法获得的三元组召回率不高。

发明内容

本申请提出了一种信息抽取方法、装置、电子设备及计算机可读介质及产品。

第一方面，本申请实施例提供了一种信息抽取方法，应用于文本信息抽取，所述方法包括：从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语；查找与每个关键词对应的备选三元组合集；基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率；查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集；若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

第二方面，本申请实施例还提供了一种姿态监测装置，应用于文本信息抽取，所述装置包括：提取单元、第一处理单元、第二处理单元、第三处理单元以及第四处理单元。其中，提取单元，用于从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语；第一处理单元，用于查找与每个关键词对应的备选三元组合集；第二处理单元，用于基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率；第三处理单元，用于查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集；第四处理单元，用于若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储器；图像采集装置；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例还提供了一种计算机可读介质，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行上述方法。

第五方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法。

本申请提供的信息抽取方法、装置、电子设备及计算机可读介质及产品，应用于文本信息抽取，该方法首先从所述文本信息中提取每个句子对应的三元组合集，然后查找与每个关键词对应的备选三元组合集，通过确定每个所述关键词对应的第一准确率，将满足指定条件的所述第一准确率对应的备选三元组合集作为目标三元组合集。若将所有抽取到的三元组合集直接进行存储，将会导致召回率较低，通过存储与所述目标三元组合集对应的句子的语义一致的目标三元组合集，提高三元组合集的召回率，即提高从文本信息中抽取出正确信息的概率。

本申请实施例的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的信息抽取方法应用的场景图；

图2示出了本申请实施例提供的信息抽取方法的方法流程图；

图3示出了图2中步骤S210的一种实施方式；

图4示出了本申请实施例提供的信息抽取方法的示意图；

图5示出了图2中步骤S240的一种实施方式；

图6示出了本申请又一实施例提供的信息抽取方法的方法流程图；

图7示出了图6中步骤S650的一种实施方式；

图8示出了本申请又一实施例提供的信息抽取方法的示意图；

图9示出了图6中步骤S660的一种实施方式；

图10示出了本申请再一实施例提供的信息抽取方法的方法流程图；

图11示出了图10中步骤S1030的一种实施方式；

图12示出了本申请实施例提供的信息抽取装置的单元框图；

图13示出了本申请实施例提供的电子设备的示意图；

图14示出了本申请实施例提供的计算机可读存储介质的结构框图；

图15示出了本申请实施例提供的计算机程序产品的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

信息抽取在人工智能应用中扮演着非常重要的角色，越来越多的上层应用，依赖于信息抽取的结果。例如知识图谱依赖着实体关系抽取、事件抽取、因果关系抽取的技术；法律、医疗等领域的查询、决策支持***的构建也依赖信息抽取的返回的结果。这其中信息的抽取一般可以表现为对三元组的抽取。

具体的，数据可以以对象以及对象与对象之间的关系来表示。例如在两个大型公司A和B之间，可以通过知识图谱来构建出两个公司之间存在的关系情况。例如在一条消息中这样描述：“A公司负债率50％，B公司持有A公司20％的股份。”则可以通过该条描述抽取出如下实体以及实体之间的关系：第一条：实体主体：A公司，关系：负债率，负债比率：50％。第二条：实体主体：B公司，实体客体：A公司，实体主体与实体客体之间的关系：股份占有，股份比例：20％。通过将这些获取到的三元组数据存入相应的数据库中，构建知识图谱，可以通过该知识图谱来构建出公司之间的特定领域的关系，对公司的战略发展及规划有启示和指导作用。

然而，发明人在研究中发现，三元组中对象的遗漏，或者抽取错误，都不同程度的影响着信息抽取的结果。即现有的信息抽取方法，信息抽取的准确率和召回率较低。

因此，为了克服上述缺陷，本申请实施例提供了一种信息抽取方法、装置、电子设备及计算机可读介质及产品，应用于文本信息抽取，该方法首先从所述文本信息中提取每个句子对应的三元组合集，然后查找与每个关键词对应的备选三元组合集，通过确定每个所述关键词对应的第一准确率，将满足指定条件的所述第一准确率对应的备选三元组合集作为目标三元组合集，存储与所述目标三元组合集对应的句子的语义一致的目标三元组合集。

请参阅图1，图1示出了本申请实施例提供的一种信息抽取方法，该方法可以应用于文本信息抽取场景100，该文本信息抽取场景100包括文本信息110以及电子设备120，其中电子设备120包括本文信息抽取***121，其中，文本信息110与电子设备120相连接。

其中，文本信息110为需要处理的文字信息，即待抽取的信息，该文本信息110可以输入文本信息抽取***120进行信息抽取。对于一些实施方式，该文本信息110可以为一句话或者一段话。具体的，该本文信息110可以为一篇文档，该文档中可以包括一句话或一段话，例如，通过打字员手动输入一段文字，将该文字生成一篇文档，再将该文档作为文本信息110；还可以通过文字识别技术，对图像文件中的文字信息进行识别，生成一篇文档，再将该文档作为文本信息110；还可以通过语音识别技术，将特定的语音转换为文字信息，生成一篇文档，再将该文档作为文本信息110。

电子设备120用于给文本信息110提供输入输出接口，并使用文本信息抽取***121对输入的文本信息110进行处理。其中，电子设备120可以为智能手机、平板电脑等具有处理能力的设备。

信息抽取***121用于对输入的文本信息110进行抽取，可以从文本信息110中抽取出特定的事实信息。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。对于本申请提供的一种实施方式，该结构化的形式可以为三元组合集。该信息抽取***121可以为运行再电子设备120上的一套***，或者是运行于电子设备120的操作***上的应用程序。

请参阅图2，图2示出了本申请实施例提供的一种信息抽取方法，该方法可以应用于前述实施例中的文本信息抽取场景100，该方法的执行主体可以为电子设备。具体的，该方法包括步骤S210至步骤S250。

步骤S210：从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语。

对于一些实施方式，文本信息中的每一个句子对应的三元组合集，应该包括主语、谓语以及宾语。例如，若文本信息为“小明喜欢小王”，则可以提取出一个三元组合集为[“小明”，“喜欢”，“小王”]。其中，“小明”为主语，“喜欢”为谓语，“小王”为宾语。对于文本信息中得每一个句子，抽取出其对应得三元组合集，应该能够正确表达或者尽量正确表达该三元组合集对应得句子所表达的含义。例如对上述文本信息“小明喜欢小王”，若提取出的三元组合集为[“小明”，“喜欢”，“小王”]，其中，“小明”为主语，“喜欢”为谓语，“小王”为宾语，则该三元组合集能够正确表达该句子所表达含义；若提取出的三元组合集为[“小王”，“喜欢”，“小明”]，其中，“小王”为主语，“喜欢”为谓语，“小明”为宾语，则该三元组合集不能够正确表达该句子所表达的含义。

进一步的，对于一些实施方式，该文本信息可以为一句话，也可以为一段话。例如，文本信息可以由句子A构成，也可以由句子A+句子B构成，还可以为句子A+句子B+句子C…构成，其中“…”标识后续句子数量可以为不确定的数。对于文本信息中的每一句话，都可以抽取出其对应的三元组合集。例如，对于句子A可以抽取出三元组合集A，对于句子B可以抽取出三元组合集B，对于句子C可以抽取出三元组合集C。具体的，若输入文本为“小王喜欢吃苹果。小明喜欢吃西瓜。小明和小王都不喜欢吃香蕉。”则对应的句子A为：“小王喜欢吃苹果”，句子B为：“小明喜欢吃西瓜”，句子C为：“小明和小王都不喜欢吃香蕉”，可以抽取出句子A对应的三元组合集A为：[“小王”，“喜欢”，“苹果”]，句子B对应的三元组合集B为：[“小明”，“喜欢”，“西瓜”]，句子C对应的三元组合集C为：[“小明和小王”，“不喜欢”，“香蕉”]。

进一步的，请参阅图3，为了详细说明步骤S210，该步骤S210还可以包括步骤S211至步骤S215。

步骤S211：将所述文本信息输入预训练模型，获取每个句子对应的第二特征向量以及每个句子对应的主语起始向量。

步骤S212：融合所述主语起始向量与所述第二特征向量，获取主语向量。

步骤S213：将所述主语向量对应的文字作为所述主语。

对于一些实施方式，该预训练模型可以为BERT语言模型。该BERT语言模型能够使用大规模的预训练语料进行预训练，从而一定程度上可以弥补样本数量较少带来的问题。该预训练模型可以通过对初始模型输入预训练预料包进行训练，例如使用金融资讯、新闻杂志文本等作为预训练料包对该初始模型进行训练从而获取预训练模型，也可以直接从网络服务器中获取已完成训练的预训练模型。进一步的，在训练过程中，还可以通过将训练语料包以及其对应的特征向量输入初始模型，经初始模型预测的训练句子与语料包中的关键句子进行比较，如果两者相同则说明已完成初始模型的训练，如果两者不同则说明需要更改初始模型的模型参数继续训练初始模型。当训练结束后，获取初始模型及其模型参数共同构成预训练模型。

对于一些实施方式，可以通过将所述文本信息输入预训练模型，来获取本文信息中句子对应的主语。进一步的，该预训练模型可以将输入的文本信息按照文字为基本单位进行拆分，得到以文字为基本单位的组合。例如，若该文本信息为“小王喜欢吃苹果”，则将该文本信息输入该预训练模型后，可以得到组合：[“小”，“王”，“喜”，“欢”，“吃”，“苹”，“果”]。

进一步的，因为同样的文字由于顺序不同可以表达完全不同的含义，例如，对于“小王喜欢小明”以及“小明喜欢小王”两个句子，该两个句子所包括的文字完全相同，但是由于文字的顺序不同，其表示的含义不同。因此，对于该组合中的每一个文字，还可以分别获取到用于表示其位置的位置表示向量以及用于表示其内容的内容表示向量。其中，位置表示向量用于表示该文字处于输入文本信息的具***置，内容表示向量用于表示该文字所表示的具体内容。对于本申请提供的一种实施方式，该预训练模型为BERT模型，该BERT模型使用的是绝对位置编码，即对于每一个文字所处的位置，都有一个单独的向量与其对应。具体的，可以使用向量x1表示输入文本信息中第一个位置，使用向量x2表示输入文本信息中的第二个位置，依此类推。例如，若输入文本信息为“小明喜欢吃苹果”，则可以使用向量x1表示文字“小”的位置，使用向量x2表示“明”的位置，依次类推，使用向量x7表示“果”的位置。

请参阅图4，对于一些实施方式，将文本信息输入该预训练模型后，还可以获取用于表征该输入文本信息的第二特征向量h_s以及可以预测主语的起始位置表示向量，该主语的起始位置表示向量即为主语起始向量。通过将第二特征向量与主语起始向量相融合，即可获取主语向量，该主语向量对应的文字即为主语。例如，使用向量x1表示主语起始向量，则将h_s与x1进行融合，可以获取x1、x2以及x3对应的向量为主语向量。

步骤S214：融合所述主语向量与所述第二特征向量，获取谓语向量与宾语向量。

步骤S215：将所述谓语向量对应的文字作为所述谓语，将所述宾语向量对应的文字作为宾语。

请继续参阅图4，对于一些实施方式，可以将前述步骤中获取到的主语向量中的每一个向量相加，获取中间向量，再将该中间向量与第二特征向量相融合，即可预测出谓语向量以及宾语向量。例如，主语向量中包含向量x1、向量x2以及向量x3，可以将x1、向量x2以及向量x3相融合，获取中间向量V_sub，再用中间向量与第二特征向量h_s相融合，预测出谓语向量以及宾语向量，其中谓语向量对应的文字即为谓语，宾语向量对应的文字即为宾语。例如，图4中向量x5以及向量x6组成谓语向量，向量x7以及向量x8组成宾语向量。

步骤S220：查找与每个关键词对应的备选三元组合集。

对于一些实施方式，可以通过对上述步骤中抽取得到的三元组合集进行分级，直接存储满足一定条件的三元组合集，对剩下的三元组合集再进行筛选，选取其中指标较好的三元组合集进行存储，对剩余的指标不好的三元组合集，可以进行标记过后再进行存储，也可以直接丢弃。通过对三元组合集进行分级处理后再选择性的进行存储，可以提高存储的三元组合集的召回率，提高了信息抽取的质量。

进一步的，可以指定一些关键词，将满足该关键词的三元组合集作为备选三元组合集。例如，若指定关键词为谓语：“喜欢”，则对于抽取的三元组合集中，谓语为：“喜欢”的三元组合集都作为备选三元组合集。若抽取的三元组合集为三元组合集A为：[“小王”，“喜欢”，“苹果”]，三元组合集B为：[“小明”，“喜欢”，“西瓜”]，三元组合集C为：[“小明和小王”，“不喜欢”，“香蕉”]，则在关键词为“喜欢”的情况下，可以确定备选三元组合集为三元组合集A以及三元组合集C。

步骤S230：基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率。

对于一些实施方式，可以依据每个关键词对应的备选三元组合集，来确定出该关键词对应的备选三元组合集的第一准确率，从而可以根据该第一准确率对三元组合集进行分级处理。

进一步的，可以通过每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量来获取第一准确率。具体的，对于一些实施方式，可以将第一准确率表示为每个关键词对应的所述备选三元组合集的第一数量占所述三元组合集的总数量的比例。例如，若基于关键词“喜欢”，抽取到的三元组合集总数量为900个，即该第一数量为900个，若三元组合集的总数量为1000个，此时900/1000为90％，即该第一准确率为90％。

步骤S240：查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集。

对于一些实施方式，可以通过指定条件来筛选出特定的三元组合集，将这些特定的三元组合集作为目标三元组合集，进行第二次筛选，将通过第二次筛选的目标三元组合集进行存储，以此提高信息抽取中的召回率。

对于另一些实施方式，还可以将一些满足特定条件的三元组合集直接存储。

进一步的，请参阅图5，图5示出了步骤S241提出的一种实施方式的进一步说明。

步骤S241：查找所述第一准确率小于目标值的所述第一准确率对应的备选三元组合集，作为目标三元组合集。

对于一些实施方式，可以指定一个目标值，将该目标值与第一准确率进行判断，使得小于该目标值的第一准确率对应的备选三元组合集，作为目标三元组合集。具体的，例如，若设定该目标值为98％，则当获取到第一准确率为96％，因为96％小于98％，则可以将该第一准确率对应的三元组合集作为目标三元组合集。若设定该目标值为98％，则当获取到第一准确率为99％时，因为99％大于98％，则可以将该第一准确率对应的三元组合集直接进行存储。其中，存储可以为将该目标三元组合集作为增量数据直接存入数据库。

步骤S250：若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

由前述步骤可以得知，目标三元组合集对应的第一准确率低于该指定准确率，因此通过使用准确率进行判断后，可以得知目标三元组合集的语义有可能与所述目标三元组合集对应的句子的语义不一致。因此，对于一些实施方式，可以通过对目标三元组合集的语义与所述目标三元组合集对应的句子的语义是否一致进行判断，若语义一致，则将所述目标三元组合集存储。通过对有可能不符合所述目标三元组合集对应的句子的语义的目标三元组合集进行判断，存储可能语义一致的三元组合集，能够提抽取的高三元组合集的召回率。其中，所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致的判断方法，可以参考后续实施方式。

请参阅图6，图6示出了本申请实施例提供的一种信息抽取方法，该方法可以应用于前述实施例中的文本信息抽取场景100，该方法的执行主体可以为电子设备。具体的，该方法包括步骤S610至步骤S670。

步骤S610：从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语。

步骤S620：查找与每个关键词对应的备选三元组合集。

步骤S630：基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率。

步骤S640：查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集。

其中，步骤S610至步骤S640，通过从所述文本信息中提取每个句子对应的三元组合集，然后通过指定条件确定目标三元组合集，具体方法在前述实施例中已经详细描述，此处就不再赘述。

步骤S650：基于所述目标三元组合集对应的句子构建指定句子，每个目标三元组合集对应一个指定句子。

对于一些实施方式，因为目标三元组合集可能与该目标三元组合集对应的句子表达的含义不一致。因此为了确认目标三元组与该目标三元组合集对应的句子表达的含义是否一致，可以基于所述目标三元组合集对应的句子构建指定句子。具体构建该指定句子的方法，可以参阅图7中步骤S651。

步骤S651：将所述目标三元组合集以及所述目标三元组合集对应的句子拼接，构建所述指定句子。

对于一些实施方式，请参阅图8，可以将所述目标三元组合集以及所述目标三元组合集对应的句子进行拼接，从而获得该指定句子。其中，该目标三元组合集构成的句子在前，而该目标三元组合集对应的文本信息中的句子在后。例如，若该目标三元组合集为[“张三”，“妻子”，“李四”]，则由该目标三元组合集构成的句子可以为“张三妻子李四”，若该目标三元组合集对应的文本信息中的句子为“张三的老婆是李四”，则可以获取指定句子为[张三妻子李四。张三的老婆是李四。]进一步的，对于另一些实施方式，还可以在该指定句子的两个分句之间添加标识符，以对两个句子进行分割。例如，可以使用标识符[SEP]作为分割，则获取到的指定句子为[张三妻子李四。[SEP]张三的老婆是李四。]进一步的，还可以在指定句子的句首添加一个标识符，用以标明该指定句子。例如，可以使用[CLS]作为标识符，则该指定句子可以为[[CLS]张三妻子李四。[SEP]张三的老婆是李四。]

步骤S660：获取所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度。

对于一些实施方式，为了确认该目标三元组合集与该目标三元组合集对应的指定句子的含义是否一致，可以将该指定句子输入预训练模型，通过该预训练模型获取评分，再通过该评分对是否一致进行判断。具体的，请参阅图9，图9示出了步骤S660的详细说明，包括步骤S661至步骤S663。

步骤S661：获取所述目标三元组合集对应的第一特征向量以及与该目标三元组合集对应的指定句子的第二特征向量。

步骤S662：将所述第一特征向量和所述第二特征向量融合为第三特征向量。

对于一些实施方式，指定句子中包括的三元组合集对应的向量可以为第一特征向量，该指定句子对应的向量可以为第二特征向量，可以将该第一特征向量以及第二特征向量相融合，进而获取到第三特征向量。例如，若指定句子为[[CLS]张三妻子李四。[SEP]张三的老婆是李四。]则可以将句首的标志向量[CLS]作为CLS特征向量作为第三特征向量。

步骤S663：将所述第三特征向量输入预训练模型进行相似度计算，以得到目标三元组合集与该目标三元组合集对应的指定句子之间的相似度。

对于一些实施方式，该预训练模型还包括全连接层(Fully Connected Layer,FCL)和激活函数层(sigmoid)，用于识别输入的向量并对向量进行拟合。预训练模型获取到输入的第三特征向量后，可以将该第三特征向量输入全连接层以及激活函数层，通过预训练模型计算获取到相似度。进一步的，该相似度可以为0至1的分数，分数越接近1，即表示所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度越高，分数越接近0，即表示所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度越低。

步骤S670：若相似度大于指定阈值，将所述目标三元组合集存储。

对于一些实施方式，可以通过设定指定阈值，来判定输出的相似度是否满足要求，从而判定所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度是否满足要求。具体的，可以将相似度大于指定阈值的目标三元组合集进行存储。例如，可以设定指定阈值为0.8，则当所述目标三元组合集与该目标三元组合集对应的指定句子之间相似度为0.9时，因为0.9大于0.8，因此可以将该目标三元组合集存储。

对于另一些实施方式，若该目标三元组合集与该目标三元组合集对应的指定句子之间的相似度小于指定阈值，可以将该目标三元组合集标记后再进行存储，也可以直接丢弃该目标三元组。

本申请提供的信息抽取方法、装置、电子设备及计算机可读介质及产品，应用于文本信息抽取，该方法首先从所述文本信息中提取每个句子对应的三元组合集，然后查找与每个关键词对应的备选三元组合集，通过确定每个所述关键词对应的第一准确率，将满足指定条件的所述第一准确率对应的备选三元组合集作为目标三元组合集，然后构建指定句子，通过判断所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度，将相似度大于指定阈值的三元组合集进行存储。避免将获取到的所有三元组合集直接存储，通过设定指定阈值选择性的对三元组合集存储，提高三元组合集的召回率，即提高从文本信息中抽取出正确信息的概率。

请参阅图10，图10示出了本申请实施例提供的一种信息抽取方法，该方法可以应用于前述实施例中的文本信息抽取场景100，该方法的执行主体可以为电子设备。具体的，该方法包括步骤S1010至步骤S1080。

步骤S1010：从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语。

其中，步骤S1010如何从该文本信息中提取每个句子对应的三元组合集，在前述实施例中已经详细描述，此处就不再赘述。

步骤S1020：从所有所述三元组合集查找缺少宾语的三元组合集。

对于一些实施方式，通过预训练模型对该文本信息进行抽取得到的三元组合集中，会出现缺少宾语的情况，可以在三元组合集中查找出缺少宾语的三元组合集。其中，缺少宾语的情况可以为抽取的三元组合集中没有抽取到宾语。例如，若文本信息为“小明喜欢吃苹果和西瓜。”若抽取到的三元组合集为[“小明”，“喜欢”，“”]，则该三元组合集中没有抽取到宾语。缺少宾语的情况还可以为抽取的三元组合集中的宾语仅为该三元组合集对应的句子语义中宾语的一部分，例如，若文本信息为“小明喜欢吃苹果和西瓜。”若抽取到的三元组合集为[“小明”，“喜欢”，“吃苹果”]，则该三元组合集中没有抽取到完整的宾语。

步骤S1030：基于召回补充模型确定所述缺少宾语的三元组合集对应的待补充宾语，所述召回补充模型为基于机器阅读理解建立的模型。

对于一些实施方式，可以将缺少宾语的三元组合集处理后，输入至一种处理模型，通过该处理模型，实现对缺少宾语的补充。具体的，该处理模型可以为一种召回补充模型，该补充召回模型可以为一种基于机器阅读理解(Machine Reading Comprehension，MRC)建立的模型。其中，机器阅读理解MRC是一种利用算法使计算机理解文章语义并回答相关问题的技术。进一步的，请参阅图11，图11示出了步骤S1030的一种实施方式，步骤S1030还可以包括步骤S1031以及步骤S1032。

步骤S1031：基于所述缺少宾语的三元组合集对应的关键词以及所述主语，确定所述缺少宾语的三元组合集对应的句子的关联语句。

对于一些实施方式，可以基于该三元组合集对应的关键词，以及该三元组合集的主语，构造关联语句。例如，若该三元组合集为[“张三”，“妻子”，“”]，则可以得知该三元组合集对应的主语为“张三”。进一步的，若该三元组合集对应的关键词为“妻子”，则可以通过主语“张三”以及关键词“妻子”，构造一个关联语句：“张三的妻子是谁”。

步骤S1032：将所述关联语句以及所述文本信息输入所述召回补充模型，获取所述缺少宾语的三元组合集对应的待补充宾语。

对于一些实施方式，可以将该关联语句与该三元组合集对应的文本信息中的句子相拼接，将拼接之后的句子再输入该召回补充模型进行预测。例如，若该关联语句为“张三的妻子是谁。”该三元组合集对应的文本信息中的句子为：“张三的老婆是李四。”则可以拼接为：“德华的妻子是谁。张三的老婆是李四。”进一步的，在该拼接成的句子中还可以加入间隔符号[SEP]用于区分该拼接句子中的两个分句，在该拼接成的句子句首处还可以加入标识符[CLS]用以标明句子的开始，即该拼接成的句子可以为“[CLS]德华的妻子是谁[SEP]张三的老婆是李四”。将该拼接的句子输入该召回补充模型，即可得到缺少宾语的三元组合集对应的待补充的宾语，例如，将上述句子输入该召回补充模型，则可以得到输出为[“李四”]，该输出即为该三元组合集缺少的宾语。

步骤S1040：将所述待补充宾语补充到所述缺少宾语的三元组合集内。

对于一些实施方式，该三元组合集缺少的宾语已经通过上述步骤获取到，把该宾语与缺少宾语的三元组合集进行拼接即能得到包括完整主语、谓语以及宾语的三元组合集。例如，若缺少宾语的三元组合集为[“张三”，“妻子”，“”]，通过前述步骤获取到的缺少的宾语为[“李四”]，则可以拼接为完整的三元组合集[“张三”，“妻子”，“李四”]。

步骤S1050：查找与每个关键词对应的备选三元组合集。

步骤S1060：基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率。

步骤S1070：查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集。

步骤S1080：若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

其中，步骤S1050至步骤S1080在前述实施例中已经详细描述，此处就不再赘述。

本申请提供的信息抽取方法、装置、电子设备及计算机可读介质及产品，应用于文本信息抽取，该方法首先从所述文本信息中提取每个句子对应的三元组合集，然后查找与每个关键词对应的备选三元组合集，对缺少宾语的三元组合集进行补全，通过确定每个所述关键词对应的第一准确率，将满足指定条件的所述第一准确率对应的备选三元组合集作为目标三元组合集。若将所有抽取到的三元组合集直接进行存储，将会导致召回率较低，通过对抽取到的三元组合集进行检查，对缺少宾语的三元组合集进行补全，再进行后续判定是否进行存储，可以提高三元组合集的召回率，即提高从文本信息中抽取出正确信息的概率。

请参阅图12，其示出了本申请实施例提供的一种信息抽取装置1200的结构框图，该装置应用于文本信息抽取，该装置可以包括：提取单元1210、第一处理单元1220、第二处理单元1230、第三处理单元1240以及第四处理单元1250。

提取单元1210，用于从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语。

进一步的，提取单元1210还用于将所述文本信息输入预训练模型，获取每个句子对应的第二特征向量以及每个句子对应的主语起始向量；融合所述主语起始向量与所述第二特征向量，获取主语向量；将所述主语向量对应的文字作为所述主语；融合所述主语向量与所述第二特征向量，获取谓语向量与宾语向量；将所述谓语向量对应的文字作为所述谓语，将所述宾语向量对应的文字作为宾语；基于所述主语、所述谓语以及所述宾语，确定所述三元组合集。

进一步的，提取单元1210还用于从所有所述三元组合集查找缺少宾语的三元组合集；基于召回补充模型确定所述缺少宾语的三元组合集对应的待补充宾语，所述召回补充模型为基于机器阅读理解建立的模型；将所述待补充宾语补充到所述缺少宾语的三元组合集内。

进一步的，提取单元1210还用于基于所述缺少宾语的三元组合集对应的关键词以及所述主语，确定所述缺少宾语的三元组合集对应的句子的关联语句；将所述关联语句以及所述文本信息输入所述召回补充模型，获取所述缺少宾语的三元组合集对应的待补充宾语。

第一处理单元1220，用于查找与每个关键词对应的备选三元组合集。

第二处理单元1230，用于基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率。

第三处理单元1240，用于查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集。

进一步的，第三处理单元1240还用于查找所述第一准确率小于目标值的所述第一准确率对应的备选三元组合集，作为目标三元组合集。

第四处理单元1250，用于若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

进一步的，第四处理单元1250还用于基于所述目标三元组合集对应的句子构建指定句子，每个目标三元组合集对应一个指定句子；获取所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度；若相似度大于指定阈值，将所述目标三元组合集存储。

进一步的，第四获取单元1250还用于获取所述目标三元组合集对应的第一特征向量以及与该目标三元组合集对应的指定句子的第二特征向量；将所述第一特征向量和所述第二特征向量融合为第三特征向量；将所述第三特征向量输入预训练模型进行相似度计算，以得到目标三元组合集与该目标三元组合集对应的指定句子之间的相似度。

进一步的，第四获取单元1250还用于将所述目标三元组合集以及所述目标三元组合集对应的句子拼接，构建所述指定句子。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，单元相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参考图13，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备1300可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备1300可以包括一个或多个如下部件：处理器1310、存储器1320以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1320中并被配置为由一个或多个处理器1310执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1310可以包括一个或者多个处理核。处理器1310利用各种接口和线路连接整个电子设备1300内的各个部分，通过运行或执行存储在存储器1320内的指令、程序、代码集或指令集，以及调用存储在存储器1320内的数据，执行电子设备1300的各种功能和处理数据。可选地，处理器1310可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1310可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1310中，单独通过一块通信芯片进行实现。

存储器1320可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1320可用于存储指令、程序、代码、代码集或指令集。存储器1320可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1300在使用中所创建的数据等。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1400中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1400具有执行上述方法中的任何方法步骤的程序代码1410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1410可以例如以适当形式进行压缩。

请参考图15，其示出了本申请实施例提供的一种计算机程序产品的结构框图1500。该计算机程序产品1500中包括计算机程序/指令1510，该计算机程序/指令1510被处理器执行时实现上述方法的步骤。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息抽取方法，其特征在于，应用于文本信息抽取，所述方法包括：

从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语；

查找与每个关键词对应的备选三元组合集；

基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率；

查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集；

若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

2.根据权利要求1所述的方法，其特征在于，所述若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储，包括：

基于所述目标三元组合集对应的句子构建指定句子，每个目标三元组合集对应一个指定句子；

获取所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度；

若相似度大于指定阈值，将所述目标三元组合集存储。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标三元组合集与该目标三元组合集对应的指定句子之间的相似度，包括：

获取所述目标三元组合集对应的第一特征向量以及与该目标三元组合集对应的指定句子的第二特征向量；

将所述第一特征向量和所述第二特征向量融合为第三特征向量；

将所述第三特征向量输入预训练模型进行相似度计算，以得到目标三元组合集与该目标三元组合集对应的指定句子之间的相似度。

4.根据权利要求2所述的方法，其特征在于，所述基于所述目标三元组合集对应的句子构建指定句子，包括：

将所述目标三元组合集以及所述目标三元组合集对应的句子拼接，构建所述指定句子。

5.根据权利要求1所述的方法，其特征在于，所述文本信息包括至少一个句子，每个所述句子包括至少一个主语、至少一个谓语以及至少一个宾语，所述从所述文本信息中提取每个句子对应的三元组合集，包括：

将所述文本信息输入预训练模型，获取每个句子对应的第二特征向量以及每个句子对应的主语起始向量；

融合所述主语起始向量与所述第二特征向量，获取主语向量；

将所述主语向量对应的文字作为所述主语；

融合所述主语向量与所述第二特征向量，获取谓语向量与宾语向量；

将所述谓语向量对应的文字作为所述谓语，将所述宾语向量对应的文字作为宾语；

基于所述主语、所述谓语以及所述宾语，确定所述三元组合集。

6.根据权利要求1所述的方法，其特征在于，所述查找与每个关键词对应的备选三元组合集之前，还包括：

从所有所述三元组合集查找缺少宾语的三元组合集；

基于召回补充模型确定所述缺少宾语的三元组合集对应的待补充宾语，所述召回补充模型为基于机器阅读理解建立的模型；

将所述待补充宾语补充到所述缺少宾语的三元组合集内。

7.根据权利要求6所述的方法，其特征在于，所述文本信息包括至少一个句子，每个所述句子包括至少一个主语，所述基于召回补充模型确定所述缺少宾语的三元组合集对应的待补充宾语，包括：

基于所述缺少宾语的三元组合集对应的关键词以及所述主语，确定所述缺少宾语的三元组合集对应的句子的关联语句；

将所述关联语句以及所述文本信息输入所述召回补充模型，获取所述缺少宾语的三元组合集对应的待补充宾语。

8.根据权利要求1所述的方法，其特征在于，所述指定条件为所述第一准确率小于目标值，所述查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集，包括：

查找所述第一准确率小于目标值的所述第一准确率对应的备选三元组合集，作为目标三元组合集。

9.一种信息抽取装置，其特征在于，应用于文本信息抽取，所述装置包括：

提取单元，用于从所述文本信息中提取每个句子对应的三元组合集，所述三元组合集包括主语、谓语以及宾语；

第一处理单元，用于查找与每个关键词对应的备选三元组合集；

第二处理单元，用于基于每个关键词对应的所述备选三元组合集的第一数量和所述三元组合集的总数量，确定每个所述关键词对应的第一准确率；

第三处理单元，用于查找满足指定条件的所述第一准确率对应的备选三元组合集，作为目标三元组合集；

第四处理单元，用于若所述目标三元组合集的语义与所述目标三元组合集对应的句子的语义一致，则将所述目标三元组合集存储。

10.一种电子设备，其特征在于，包括：一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。

12.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-8任一项所述的方法。