CN110807311B - 用于生成信息的方法和装置 - Google Patents

用于生成信息的方法和装置 Download PDF

Info

Publication number
CN110807311B
CN110807311B CN201810791223.2A CN201810791223A CN110807311B CN 110807311 B CN110807311 B CN 110807311B CN 201810791223 A CN201810791223 A CN 201810791223A CN 110807311 B CN110807311 B CN 110807311B
Authority
CN
China
Prior art keywords
sentence
triplet
information
processed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810791223.2A
Other languages
English (en)
Other versions
CN110807311A (zh
Inventor
沈之锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810791223.2A priority Critical patent/CN110807311B/zh
Publication of CN110807311A publication Critical patent/CN110807311A/zh
Application granted granted Critical
Publication of CN110807311B publication Critical patent/CN110807311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取待处理文本信息,其中,待处理文本信息包括至少一个句子;从至少一个句子中提取出满足第一预设条件的句子,组成句子集合;对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组;从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。该实施方式实现了对知识点之间的父子关系的挖掘。

Description

用于生成信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
无论是用户学习过程中,还是知识图谱构建过程中等,获得某个知识点的父节点或者其子节点,都是非常频繁的需求。它可以帮助用户了解这个知识点相关联的较大领域的知识,也可以让用户了解这个知识点还可以进一步分解为更小的知识点。因此,挖掘知识点之间的父子关系,具有重要的意义和作用。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:获取待处理文本信息,其中,待处理文本信息包括至少一个句子;从至少一个句子中提取出满足第一预设条件的句子,组成句子集合;对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组;从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。
在一些实施例中,第一预设条件包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符,其中,关键词集合中的关键词是用于在句子中陈述主语的动词或用于修饰动词的副词;字符集合中的字符是用于在句子中连接存在并列关系的词的连词或标点符号。
在一些实施例中,从至少一个句子中提取出满足第一预设条件的句子,包括:对于至少一个句子中的句子,确定该句子是否包括关键词集合中的关键词;若是,则进一步确定该句子是否包括字符集合中的字符;若该句子包括字符集合中的字符,则提取出该句子。
在一些实施例中,第一预设条件还包括:句子的长度不大于预设字数;以及从至少一个句子中提取出满足第一预设条件的句子,包括:对于至少一个句子中的句子,确定该句子是否包括关键词集合中的关键词;若是,则进一步确定该句子是否包括字符集合中的字符;若该句子包括字符集合中的字符,则再进一步确定该句子的长度是否大于预设字数;若该句子的长度不大于预设字数,则提取出该句子。
在一些实施例中,对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,包括:对于句子集合中的句子,将该句子作为待处理句子,对待处理句子进行句法分析和语义角色分析,得到分析结果,基于分析结果,从待处理句子中提取出主语、谓语和宾语。
在一些实施例中,分析结果包括用于指示待处理句子中的核心动词的第一标注信息和用于指示核心动词的施事部分的第二标注信息;以及基于分析结果,从待处理句子中提取出主语、谓语和宾语,包括:确定分析结果是否还包括用于指示核心动词的受事部分的第三标注信息;若包括第三标注信息,则将第二标注信息所指示的施事部分、第一标注信息所指示的核心动词、第三标注信息所指示的受事部分依次确定为待处理句子中的主语、谓语和宾语,从待处理句子中提取出所确定的主语、谓语和宾语。
在一些实施例中,分析结果还包括至少一个第四标注信息,第四标注信息用于指示待处理句子中的核心动词和除核心动词以外的词之间的动宾关系;以及基于分析结果,从待处理句子中提取出主语、谓语和宾语,还包括:响应于确定分析结果不包括第三标注信息,在至少一个第四标注信息中确定满足第二预设条件的目标第四标注信息,基于目标第四标注信息,从待处理句子中提取出短语作为宾语,将第二标注信息所指示的施事部分、第一标注信息所指示的核心动词依次作为待处理句子中的主语和谓语,从待处理句子中提取出所确定的主语、谓语和宾语。
在一些实施例中,从三元组集合中选取三元组作为目标三元组,包括:获取目标分类模型,其中,目标分类模型是经训练后的、用于预测三元组中的主语、谓语和宾语之间的关系是否正确的分类模型;基于目标分类模型,从三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合;从第一三元组集合中选取三元组作为目标三元组。
在一些实施例中,获取目标分类模型,包括:获取三元组集合中的至少一个三元组的标注信息,其中,标注信息用于指示所对应的三元组中的主语、谓语和宾语之间的关系是否正确;对于至少一个三元组中的三元组,对该三元组进行特征提取,得到特征信息,将该三元组的特征信息输入初始模型,得到与该三元组对应的预测结果,其中,预测结果用于指示该三元组中的主语、谓语和宾语之间的关系是否正确;将预测结果与该三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标;响应于确定初始模型达到优化目标,将初始模型作为目标分类模型。
在一些实施例中,从第一三元组集合中选取三元组作为目标三元组,包括:对第一三元组集合中的三元组执行预设的歧义消除操作;将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组。
第二方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:获取单元,被配置成获取待处理文本信息,其中,待处理文本信息包括至少一个句子;第一生成单元,被配置成从至少一个句子中提取出满足第一预设条件的句子,组成句子集合;第二生成单元,被配置成对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;选取单元,被配置成将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组;第三生成单元,被配置成从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。
在一些实施例中,第一预设条件包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符,其中,关键词集合中的关键词是用于在句子中陈述主语的动词或用于修饰动词的副词;字符集合中的字符是用于在句子中连接存在并列关系的词的连词或标点符号。
在一些实施例中,第一生成单元进一步被配置成:对于至少一个句子中的句子,确定该句子是否包括关键词集合中的关键词;若是,则进一步确定该句子是否包括字符集合中的字符;若该句子包括字符集合中的字符,则提取出该句子。
在一些实施例中,第一预设条件还包括:句子的长度不大于预设字数;以及第一生成单元还进一步被配置成:对于至少一个句子中的句子,确定该句子是否包括关键词集合中的关键词;若是,则进一步确定该句子是否包括字符集合中的字符;若该句子包括字符集合中的字符,则再进一步确定该句子的长度是否大于预设字数;若该句子的长度不大于预设字数,则提取出该句子。
在一些实施例中,第二生成单元包括:提取子单元,被配置成对于句子集合中的句子,将该句子作为待处理句子,对待处理句子进行句法分析和语义角色分析,得到分析结果,基于分析结果,从待处理句子中提取出主语、谓语和宾语。
在一些实施例中,分析结果包括用于指示待处理句子中的核心动词的第一标注信息和用于指示核心动词的施事部分的第二标注信息;以及提取子单元进一步被配置成:确定分析结果是否还包括用于指示核心动词的受事部分的第三标注信息;若包括第三标注信息,则将第二标注信息所指示的施事部分、第一标注信息所指示的核心动词、第三标注信息所指示的受事部分依次确定为待处理句子中的主语、谓语和宾语,从待处理句子中提取出所确定的主语、谓语和宾语。
在一些实施例中,分析结果还包括至少一个第四标注信息,第四标注信息用于指示待处理句子中的核心动词和除核心动词以外的词之间的动宾关系;以及提取子单元还进一步被配置成:响应于确定分析结果不包括第三标注信息,在至少一个第四标注信息中确定满足第二预设条件的目标第四标注信息,基于目标第四标注信息,从待处理句子中提取出短语作为宾语,将第二标注信息所指示的施事部分、第一标注信息所指示的核心动词依次作为待处理句子中的主语和谓语,从待处理句子中提取出所确定的主语、谓语和宾语。
在一些实施例中,选取单元包括:获取子单元,被配置成获取目标分类模型,其中,目标分类模型是经训练后的、用于预测三元组中的主语、谓语和宾语之间的关系是否正确的分类模型;生成子单元,被配置成基于目标分类模型,从三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合;选取子单元,被配置成从第一三元组集合中选取三元组作为目标三元组。
在一些实施例中,获取子单元进一步被配置成:获取三元组集合中的至少一个三元组的标注信息,其中,标注信息用于指示所对应的三元组中的主语、谓语和宾语之间的关系是否正确;对于至少一个三元组中的三元组,对该三元组进行特征提取,得到特征信息,将该三元组的特征信息输入初始模型,得到与该三元组对应的预测结果,其中,预测结果用于指示该三元组中的主语、谓语和宾语之间的关系是否正确;将预测结果与该三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标;响应于确定初始模型达到优化目标,将初始模型作为目标分类模型。
在一些实施例中,选取子单元进一步被配置成:对第一三元组集合中的三元组执行预设的歧义消除操作;将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当该一个或多个程序被该一个或多个处理器执行,使得该一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的用于生成信息的方法和装置,通过获取包括至少一个句子的待处理文本信息,而后从该至少一个句子中提取出满足第一预设条件的句子,组成句子集合,以便将该句子集合中的句子作为用于知识点之间的父子关系挖掘的语料内容。之后对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,然后将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组,以便从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示该父知识点与该子知识点之间的父子关系的父子关系信息。从而有效利用了对包括主语、谓语和宾语的三元组的生成,以及对目标三元组中的宾语所包括的并列词的提取,实现了对知识点之间的父子关系的挖掘。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性***架构图;
图2是根据本申请的用于生成信息的方法的一个实施例的流程图;
图3是根据本申请的用于生成信息的方法的一个应用场景的示意图;
图4是根据本申请的用于生成信息的方法的又一个实施例的流程图;
图5是根据本申请的用于生成信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括信息生成端101、102、103,网络104和信息存储端105。网络104用以在信息生成端101、102、103和信息存储端105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
信息生成端101、102、103可以通过网络104与信息存储端105交互,以接收或发送消息等。例如,信息生成端101、102、103可以从信息存储端105获取待处理文本信息,然后对该待处理文本信息进行分析等处理,得到处理结果(例如生成的用于指示父知识点与子知识点之间的父子关系的父子关系信息)。
信息生成端101、102、103可以是终端设备,也可以是服务器。当信息生成端101、102、103是终端设备时,该终端设备上可以安装有各种通讯客户端应用,例如网页浏览器应用、用于挖掘知识点之间的父子关系的应用等等。
信息存储端105可以是提供各种服务的服务器,例如用于存储供信息生成端101、102、103进行处理的文本信息的服务器。
需要说明的是,本申请实施例所提供的用于生成信息的方法一般由信息生成端101、102、103执行,相应地,用于生成信息的装置一般设置于信息生成端101、102、103中。
需要指出的是,终端设备可以是硬件,也可以是软件。当终端设备为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
另外,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
实践中,若信息生成端101、102、103预先存储所需的待处理文本信息,则***架构100可以不包括信息存储端105。
应该理解,图1中的信息生成端、网络和信息存储端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的信息生成端、网络和信息存储端。
继续参考图2,示出了根据本申请的用于生成信息的方法的一个实施例的流程200。该用于生成信息的方法的流程200,包括以下步骤:
步骤201,获取待处理文本信息。
在本实施例中,用于生成信息的方法的执行主体(例如图1所示的信息生成端101、102、103)可以实时地从所连接的服务器(例如图1所示的信息存储端105)获取待处理文本信息,也可以从本地获取待处理文本信息。其中,待处理文本信息可以包括至少一个句子。
作为示例,上述执行主体可以响应于接收到针对待处理文本信息的信息生成请求,获取该信息生成请求所指示的待处理文本信息。该信息生成请求的发送方可以是用户端,也可以是服务端,本实施例不对此方面内容做任何限定。
步骤202,从至少一个句子中提取出满足第一预设条件的句子,组成句子集合。
在本实施例中,上述执行主体可以从上述至少一个句子中提取出满足第一预设条件的句子,组成句子集合。其中,第一预设条件例如可以包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符。这里,关键词集合中的关键词可以是用于在句子中陈述主语的动词。字符集合中的字符可以是用于在句子中连接存在并列关系的词的连词或标点符号。
作为示例,对于上述至少一个句子中的句子,上述执行主体可以先确定该句子是否包括上述关键词集合中的关键词。而后,上述执行主体可以响应于确定该句子包括上述关键词集合中的关键词,进一步确定该句子是否包括上述字符集合中的字符。最后,上述执行主体可以响应于确定该句子包括上述字符集合中的字符,确定该句子是满足第一预设条件的句子,上述执行主体可以提取出该句子。
需要说明的是,通过对第一预设条件的利用,可以确保提取出的句子是包括主语、谓语和宾语三种句子成分和并列词的句子。将提取出的句子作为后续用于知识点之间的父子关系挖掘的语料内容,可以有助于提高挖掘效率。应该理解,并列词可以包括至少两个存在并列关系的词。以句子“螺纹通常按照用途可以分为紧固螺纹、传动螺纹和管螺纹三大类”为例,在该句子中,“紧固螺纹”、“传动螺纹”和“管螺纹”之间存在并列关系,属于并列词。
在本实施例的一些可选的实现方式中,上述关键词集合中的关键词可以是用于在句子中陈述主语的动词或用于修饰该动词的副词等。需要说明的是,上述关键词集合可以是通过对人工设置的初始关键词进行词语扩展而得到。初始关键词例如可以包括:分为、包括、主要、包含、是、有。用于生成上述关键词集合的执行端(例如上述执行主体或上述执行主体所连接的服务器)可以将上述初始关键词中的每个关键词输入预设的用来产生词向量的相关模型(例如Word2vec),得到多个与该关键词相关的词。上述执行端可以从所得的词中抽取出预设数量(例如30)的词作为该关键词的扩展关键词。上述执行端可以将上述初始关键词和上述初始关键词分别对应的扩展关键词合并为关键词集合。
在本实施例的一些可选的实现方式中,由于上述关键词集合中的关键词的数量较大,为了提高匹配效率,上述执行主体可以采用多模匹配算法(例如AC自动机,英文全称为Aho-Corasick automaton),将上述关键词集合中的关键词与上述至少一个句子中的句子所包括的词进行匹配,以确定该句子是否包括上述关键词集合中的关键词。
步骤203,对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组。
在本实施例中,对于上述句子集合中的句子,上述执行主体可以从该句子中提取出主语、谓语和宾语,组成三元组。
作为示例,上述执行主体可以对该句子进行句法分析(例如依存句法分析),得到分析结果。其中,依存句法分析可以用于识别句子中的主、谓、宾、定、状、补等这些语法成分,并分析各成分之间的关系。该分析结果可以用于指示该句子中的不同的词之间的关系所属的关系类型。其中,关系类型可以包括主谓关系、动宾关系等等。而后上述执行主体可以基于该分析结果,在该句子中查找出属于主谓关系的两个词,将这两个词中的处于左侧的词作为主语,处于右侧的词作为谓语。然后上述执行主体还可以基于该分析结果,在该句子中查找出与该谓语之间存在动宾关系的目标词。若目标词的数目为1,则上述执行主体可以从该句子中提取出以与该谓语临近且处于该谓语右侧的词作为起始词、以该目标词作为结束词的短语,将该短语作为宾语;若目标词的数目大于1,则上述执行主体可以从目标词中选取出与该谓语之间间隔的字符的数目最多的目标词,从该句子中提取出以与该谓语临近且处于该谓语右侧的词作为起始词、以选取出的目标词作为结束词的短语,将该短语作为宾语。最后上述执行主体可以从该句子中提取出所确定的主语、谓语和宾语,组成三元组。
以句子“功能量规的工作部分有检验部分、定位部分和导向部分”为例,若从该句子中提取出主语“功能量规的工作部分”,谓语“有”和宾语“检验部分、定位部分和导向部分”,则上述执行主体可以组成以下三元组<功能量规的工作部分,有,检验部分、定位部分和导向部分>。
步骤204,将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组。
在本实施例中,上述执行主体可以将在步骤203中组成的三元组合并为三元组集合。上述执行主体可以从三元组集合中选取三元组作为目标三元组。作为示例,上述执行主体可以选取上述三元组集合中的每个三元组作为目标三元组。
在本实施例的一些可选的实现方式中,有些三元组中的主语、谓语和宾语之间的关系可能是错误的。例如,主语或宾语的长度过长等,实际上并不适合作为一个句子的主语或宾语。因此,上述执行主体可以对上述三元组集合中的三元组进行分析,以确定该三元组中的主语、谓语和宾语之间的关系是否正确。上述执行主体可以从上述三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合。上述执行主体可以从第一三元组集合中选取三元组作为目标三元组。例如选取第一三元组集合中的每个三元组作为目标三元组。
这里,上述执行主体可以获取目标分类模型,利用目标分类模型来预测上述三元组集合中的三元组所包括的主语、谓语和宾语之间的关系是否正确。其中,目标分类模型可以是经训练后的、用于预测三元组中的主语、谓语和宾语之间的关系是否正确的分类模型。目标分类模型可以是通过对初始模型进行训练得到的。初始模型例如可以是未经训练或未训练完成的朴素贝叶斯模型(Naive Bayesian Model,NBM)或支持向量机(Support VectorMachine,SVM)等。需要说明的是,若上述执行主体不是首次执行上述流程200,则上述执行主体本地或上述执行主体所连接的服务器一般会存储有目标分类模型,故而上述执行主体可以获取预先存储的目标分类模型。
步骤205,从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。
在本实施例中,对于每个目标三元组,上述执行主体可以从该目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示该父知识点与该子知识点之间的父子关系的父子关系信息。
以目标三元组<功能量规的工作部分,有,检验部分、定位部分和导向部分>为例,上述执行主体可以根据该三元组中的宾语所包括的、存在于上述字符集合中的字符,对该宾语进行分割。这里,该宾语包括存在于上述字符集合中的字符“、”、“和”。上述执行主体例如可以将该宾语分割为“检验部分|、|定位部分|和|导向部分”,其中,“|”可以表示分隔符。上述执行主体可以将分割出的除字符“、”、“和”以外的词作为并列词,即将“检验部分”、“定位部分”和“导向部分”作为并列词。上述执行主体可以从该宾语中提取出并列词“检验部分”、“定位部分”和“导向部分”。上述执行主体可以将主语“功能量规的工作部分”作为父知识点,将“检验部分”、“定位部分”和“导向部分”分别作为子知识点。上述执行主体例如可以生成以下三条父子关系信息:
主语:功能量规的工作部分,谓语:分为,宾语:检验部分;
主语:功能量规的工作部分,谓语:分为,宾语:定位部分;
主语:功能量规的工作部分,谓语:分为,宾语:导向部分。
在本实施例的一些可选的实现方式中,上述执行主体可以将生成的父子关系信息存储至预先指定的数据库,以便形成相应的知识图谱。这样,该知识图谱可以用于知识推荐等场景。以知识推荐场景为例,当用户在学习某个知识点时,通过该知识图谱可以获取到该知识点的父知识点和/或子知识点。通过将获取到的知识点推送给用户,可以方便用户学习,以及有助于扩大用户的知识面。
继续参见图3,图3是根据本实施例的用于生成信息的方法的应用场景的一个示意图。在图3的应用场景中,服务器301可以实时地从服务器302获取待处理文本信息。其中,获取到的待处理文本信息可以包括句子A、B、C。句子A的内容可以为“互换性包括多个分类”。句子B的内容可以为“互换性可分为完全互换性和不完全互换性两类”。句子C的内容可以为“功能量规的工作部分有检验部分、定位部分和导向部分”。
而后,服务器301可以分别判断句子A、B、C是否满足第一预设条件。其中,第一预设条件可以包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符。服务器301可以响应于判断出句子B、C均满足第一预设条件,而提取出句子B、C,并将句子B、C组成句子集合303。
接着,服务器301可以从句子B中提取出主语“互换性”、谓语“分为”和宾语“完全互换性和不完全互换性两类”,组成三元组<互换性,分为,完全互换性和不完全互换性两类>,如标号304所示。服务器301还可以从句子C中提取出主语“功能量规的工作部分”、谓语“有”和宾语“检验部分、定位部分和导向部分”,组成三元组<功能量规的工作部分,有,检验部分、定位部分和导向部分>,如标号305所示。
然后,服务器301可以将标号304和标号305分别指示的三元组合并为三元组集合306。服务器301可以选取三元组集合306中的每个三元组作为目标三元组。
最后,对于标号304所示的目标三元组,服务器301可以从该目标三元组的宾语中提取出并列词“完全互换性”和“不完全互换性”。服务器301可以将该目标三元组中的主语作为父知识点,将并列词“完全互换性”和“不完全互换性”分别作为子知识点。服务器301可以生成以下父子关系信息(如标号307所示):
主语:互换性,谓语:分为,宾语:完全互换性;
主语:互换性,谓语:分为,宾语:不完全互换性。
对于标号305所示的目标三元组,服务器301可以从该目标三元组的宾语中提取出并列词“检验部分”、“定位部分”和“导向部分”。上述执行主体可以将该目标三元组中的主语作为父知识点,将并列词“检验部分”、“定位部分”和“导向部分”分别作为子知识点。服务器301可以生成以下父子关系信息(如标号308所示):
主语:功能量规的工作部分,谓语:有,宾语:检验部分;
主语:功能量规的工作部分,谓语:有,宾语:定位部分;
主语:功能量规的工作部分,谓语:有,宾语:导向部分。
本申请的上述实施例提供的方法,有效利用了对包括主语、谓语和宾语的三元组的生成,以及对目标三元组中的宾语所包括的并列词的提取,实现了对知识点之间的父子关系的挖掘。
进一步参考图4,其示出了用于生成信息的方法的又一个实施例的流程400。该用于生成信息的方法的流程400,包括以下步骤:
步骤401,获取待处理文本信息。
在本实施例中,用于生成信息的方法的执行主体(例如图1所示的信息生成端101、102、103)可以从所连接的服务器(例如图1所示的信息存储端105)获取待处理文本信息,也可以从本地获取待处理文本信息。其中,待处理文本信息可以包括至少一个句子。
步骤402,从至少一个句子中提取出满足以下第一预设条件的句子:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符、句子的长度不大于预设字数,将提取出的句子组成句子集合。
在本实施例中,上述执行主体可以从上述至少一个句子中提取出满足以下第一预设条件的句子:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符、句子的长度不大于预设字数。而后,上述执行主体可以将提取出的句子组成句子集合。
其中,关键词集合中的关键词可以是用于在句子中陈述主语的动词或用于修饰该动词的副词。字符集合中的字符可以是用于在句子中连接存在并列关系的词的连词或标点符号。
作为示例,对于上述至少一个句子中的句子,上述执行主体例如可以先确定该句子是否包括上述关键词集合中的关键词。若是,则上述执行主体可以进一步确定该句子是否包括上述字符集合中的字符。若该句子包括上述字符集合中的字符,则上述执行主体可以再进一步确定该句子的长度是否大于上述预设字数。若该句子的长度不大于上述预设字数,则上述执行主体可以提取出该句子。
需要说明的是,由于上述关键词集合中的关键词的数量较大,为了提高匹配效率,上述执行主体可以采用多模匹配算法(例如AC自动机),将上述关键词集合中的关键词与上述至少一个句子中的句子所包括的词进行匹配,以确定该句子是否包括上述关键词集合中的关键词。
步骤403,对于句子集合中的句子,将该句子作为待处理句子,对待处理句子进行句法分析和语义角色分析,得到分析结果,基于分析结果,从待处理句子中提取出主语、谓语和宾语,组成三元组。
在本实施例中,对于上述句子集合中的句子,将该句子作为待处理句子,上述执行主体可以对该待处理句子进行句法分析和语义角色分析,得到分析结果。上述执行主体可以基于该分析结果,从该待处理句子中提取出主语、谓语和宾语,组成三元组。
需要说明的是,句法分析例如可以包括依存句法分析。依存句法分析可以用于识别句子中的主、谓、宾、定、状、补等这些语法成分,并分析各成分之间的关系。通常,根据谓语和变元之间不同的语义关系,可以把变元分为若干个类型。这种变元的类型一般称之为语义角色。其中,变元可称为题元、项等,是与谓词有直接关系并受谓词支配的语义成分。语义角色可以包括施事、受事等等。其中,施事一般指动作的主体,也就是发出动作或发生变化的人或事物。受事一般指动作的对象,也就是受动作支配的人或事物。语义角色分析可以用于分析出句子中的变元的类型,并对变元进行语义角色标注。
在本实施例中,上述分析结果可以包括用于指示上述待处理句子中的核心动词的第一标注信息、用于指示该核心动词的施事部分的第二标注信息。作为示例,该第一标注信息例如可以用“HED”等表示,HED可以用于表示核心关系,可以指向整个句子的核心(可以作为句子中的谓语的核心动词)。第二标注信息例如可以用“A0”等表示。上述执行主体可以在上述分析结果中查找用于指示该核心动词的受事部分的第三标注信息。其中,第三标注信息例如可以用“A1”等表示。若查找到,则上述执行主体可以将第二标注信息所指示的施事部分、第一标注信息所指示的核心动词、第三标注信息所指示的受事部分依次作为上述待处理句子中的主语、谓语和宾语。上述执行主体可以从上述待处理句子中提取出所确定的主语、谓语和宾语,组成三元组。
在本实施例的一些可选的实现方式中,上述分析结果在包括上述第一标注信息和上述第二标注信息的同时,还可以包括至少一个第四标注信息。第四标注信息可以用于指示上述待处理句子中的核心动词和除核心动词以外的词之间的动宾关系。第四标注信息例如可以用“VOB”等表示。若上述分析结果不包括上述第三标注信息,则上述执行主体可以执行以下提取操作:
首先,上述执行主体可以在上述至少一个第四标注信息中确定满足第二预设条件的目标第四标注信息。作为示例,第二预设条件例如可以包括:处于所指示的两个词之间的字符的数目最大。对于上述至少一个第四标注信息中的每个第四标注信息,上述执行主体可以统计出处于该第四标注信息所指示的两个词之间的字符的数目。而后上述执行主体可以将统计出的数目进行比较,将比较出的最大数目所对应的第四标注信息确定为目标第四标注信息。
而后,上述执行主体可以基于目标第四标注信息,从上述待处理句子中提取出短语作为宾语。例如,上述待处理句子为“互换性可分为完全互换性和不完全互换性两类”,目标第四标注信息所指示的两个词包括“分为”和“类”,其中,“分为”为核心动词,“分为”和“类”之间存在动宾关系。上述执行主体可以从上述待处理句子中提取出处于这两个词之间的字符和“类”所形成的短语,即“完全互换性和不完全互换性两类”,将该短语作为宾语。
最后,上述执行主体可以将上述第二标注信息所指示的施事部分、上述第一标注信息所指示的核心动词依次作为上述待处理句子中的主语、谓语。上述执行主体可以从上述待处理句子中提取出所确定的主语、谓语和宾语,组成三元组。
步骤404,将组成的三元组合并为三元组集合,获取三元组集合中的至少一个三元组的标注信息。
在本实施例中,上述执行主体可以将在步骤403中组成的三元组合并为三元组集合。上述执行主体可以获取该三元组集合中的至少一个三元组的标注信息。其中,标注信息可以用于指示所对应的三元组中的主语、谓语和宾语之间的关系是否正确。
需要说明的是,标注信息可以是人为设置的。上述执行主体可以输出上述三元组集合,以及输出相应的提示信息,以提示相关人员为上述三元组集合中的至少一个三元组设置标注信息。上述执行主体可以接收该相关人员通过电子设备发送的至少一个三元组的标注信息。标注信息例如可以用0或1表示。0可以代表三元组中的主语、谓语和宾语之间的关系是错误的。1可以代表三元组中的主语、谓语和宾语之间的关系是正确的。
步骤405,对于至少一个三元组中的三元组,对该三元组进行特征提取,得到特征信息,将该三元组的特征信息输入初始模型,得到与该三元组对应的预测结果;将预测结果与该三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标;响应于确定初始模型达到优化目标,将初始模型作为目标分类模型。
在本实施例中,上述执行主体在获取到至少一个三元组的标注信息后,对于该至少一个三元组中的三元组,将该三元组作为待处理三元组,上述执行主体可以执行以下模型训练操作:
首先,上述执行主体可以对上述待处理三元组进行特征提取,得到特征信息。这里,上述执行主体可以判断上述待处理三元组中的主语是否以定中结构开头,得到判断结果。上述执行主体还可以统计出上述待处理三元组中的主语的长度、主语中的名词的数量、宾语的长度、宾语中的顿号的个数。上述执行主体可以将这些统计出的信息、所得的判断结果、上述待处理三元组中的谓语等作为上述待处理三元组的特征信息。需要说明的是,上述分析结果还可以包括用于指示词与词之间的定中关系的第五标注信息。第五标注信息例如可以用“ATT”等表示。上述执行主体可以基于与上述待处理三元组相关联的分析结果所包括的第五标注信息,来确定上述待处理三元组中的主语是否以定中结构开头。
而后,上述执行主体可以将提取出的特征信息输入初始模型,得到预测结果。其中,预测结果可以用于指示上述待处理三元组中的主语、谓语和宾语之间的关系是否正确。初始模型例如可以是未经训练或未训练完成的朴素贝叶斯模型或支持向量机等。
然后,上述执行主体可以将所得的预测结果与上述待处理三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标。其中,优化目标可以指初始模型输出的预测结果的准确率大于预设的准确率阈值。
最后,上述执行主体可以响应于确定初始模型达到上述优化目标,将初始模型作为目标分类模型。
在本实施例的一些可选的实现方式中,上述执行主体还可以响应于确定初始模型未达到上述优化目标,调整初始模型的网络参数,使用调整后的初始模型作为初始模型,以及从上述至少一个三元组中重新选取三元组作为待处理三元组,继续执行上述模型训练操作。
步骤406,基于目标分类模型,从三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合。
在本实施例中,上述执行主体可以基于上述目标分类模型,从上述三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合。
作为示例,对于上述三元组集合中的每个三元组,若该三元组具有对应的标注信息,则上述执行主体可以确定该标注信息是否为用于指示该三元组中的主语、谓语和宾语之间的关系是正确的标注信息,若是,则上述执行主体可以选取出该三元组归入第一三元组集合。若该三元组没有对应的标注信息,则上述执行主体可以对该三元组进行特征提取,将提取出的特征信息输入上述目标分类模型,得到预测结果。上述执行主体可以确定该预测结果是否为用于指示该三元组中的主语、谓语和宾语之间的关系是正确的预测结果,若是,则上述执行主体可以选取出该三元组归入第一三元组集合。
步骤407,对第一三元组集合中的三元组执行预设的歧义消除操作。
在本实施例中,上述执行主体可以对上述第一三元组集合中的三元组执行预设的歧义消除操作。
作为示例,上述执行主体可以对上述第一三元组集合中的三元组执行以下歧义消除操作:
对于上述第一三元组集合中的三元组,将该三元组作为待识别三元组,上述执行主体可以在上述第一三元组集合中查找所包括的一项或者两项与待识别三元组中的对应项一致,其余项与待识别三元组中的对应项不一致的三元组。若查找到,则上述执行主体可以在待识别三元组和查找到的三元组中选取一个三元组进行保留,清除其余的三元组。例如,上述执行主体可以获取待识别三元组和查找到的三元组分别对应的频次,对获取到的频次进行大小比较,选取最大频次所对应的三元组进行保留。
需要说明的是,若最大频次的数目大于1,则上述执行主体可以随机选取一个最大频次,选取该最大频次所对应的三元组进行保留。
可选地,若最大频次的数目大于1,则上述执行主体也可以向相关人员发送提示信息,以提示该相关人员进行人工选择。上述执行主体可以响应于接收到该相关人员通过电子设备发送的选择结果,选取该选择结果所指示的三元组进行保留。
步骤408,将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组,从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。
在本实施例中,上述执行主体可以将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组。上述执行主体可以从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。对于父子关系信息的生成方法可参看图2所示实施例中的步骤205的相关说明,在此不再赘述。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于生成信息的方法的流程400突出了对满足以下第一预设条件的句子进行提取的步骤:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符、句子的长度不大于预设字数;对句子集合中的句子进行句法分析和语义角色分析,基于分析结果,从该句子中提取出主语、谓语和宾语的步骤;对初始模型进行训练得到目标分类模型的步骤;对第一三元组集合中的三元组执行预设的歧义消除操作的步骤。由此,本实施例描述的方案可以有效地节约时间成本,以及提高所生成的父子关系信息的有效性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于生成信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于生成信息的装置500包括:获取单元501被配置成获取待处理文本信息,其中,待处理文本信息可以包括至少一个句子;第一生成单元502被配置成从至少一个句子中提取出满足第一预设条件的句子,组成句子集合;第二生成单元503被配置成对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;选取单元504被配置成将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组;第三生成单元505被配置成从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。
在本实施例中,用于生成信息的装置500中:获取单元501、第一生成单元502、第二生成单元503、选取单元504和第三生成单元505的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述第一预设条件可以包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符,其中,关键词集合中的关键词可以是用于在句子中陈述主语的动词或用于修饰动词的副词;字符集合中的字符可以是用于在句子中连接存在并列关系的词的连词或标点符号。
在本实施例的一些可选的实现方式中,第一生成单元502可以进一步被配置成:对于至少一个句子中的句子,确定该句子是否包括关键词集合中的关键词;若是,则进一步确定该句子是否包括字符集合中的字符;若该句子包括字符集合中的字符,则提取出该句子。
在本实施例的一些可选的实现方式中,上述第一预设条件还可以包括:句子的长度不大于预设字数;以及第一生成单元502还可以进一步被配置成:对于至少一个句子中的句子,确定该句子是否包括关键词集合中的关键词;若是,则进一步确定该句子是否包括字符集合中的字符;若该句子包括字符集合中的字符,则再进一步确定该句子的长度是否大于预设字数;若该句子的长度不大于预设字数,则提取出该句子。
在本实施例的一些可选的实现方式中,第二生成单元503可以包括:提取子单元(图中未示出),被配置成对于句子集合中的句子,将该句子作为待处理句子,对待处理句子进行句法分析和语义角色分析,得到分析结果,基于分析结果,从待处理句子中提取出主语、谓语和宾语。
在本实施例的一些可选的实现方式中,上述分析结果可以包括用于指示待处理句子中的核心动词的第一标注信息和用于指示核心动词的施事部分的第二标注信息;以及上述提取子单元可以进一步被配置成:确定分析结果是否还包括用于指示核心动词的受事部分的第三标注信息;若包括第三标注信息,则将第二标注信息所指示的施事部分、第一标注信息所指示的核心动词、第三标注信息所指示的受事部分依次确定为待处理句子中的主语、谓语和宾语,从待处理句子中提取出所确定的主语、谓语和宾语。
在本实施例的一些可选的实现方式中,上述分析结果还可以包括至少一个第四标注信息,第四标注信息可以用于指示待处理句子中的核心动词和除核心动词以外的词之间的动宾关系;以及上述提取子单元还可以进一步被配置成:响应于确定分析结果不包括第三标注信息,在至少一个第四标注信息中确定满足第二预设条件的目标第四标注信息,基于目标第四标注信息,从待处理句子中提取出短语作为宾语,将第二标注信息所指示的施事部分、第一标注信息所指示的核心动词依次作为待处理句子中的主语和谓语,从待处理句子中提取出所确定的主语、谓语和宾语。
在本实施例的一些可选的实现方式中,选取单元504可以包括:获取子单元(图中未示出),被配置成获取目标分类模型,其中,目标分类模型可以是经训练后的、用于预测三元组中的主语、谓语和宾语之间的关系是否正确的分类模型;生成子单元(图中未示出),被配置成基于目标分类模型,从三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合;选取子单元(图中未示出),被配置成从第一三元组集合中选取三元组作为目标三元组。
在本实施例的一些可选的实现方式中,上述获取子单元可以进一步被配置成:获取三元组集合中的至少一个三元组的标注信息,其中,标注信息可以用于指示所对应的三元组中的主语、谓语和宾语之间的关系是否正确;对于至少一个三元组中的三元组,对该三元组进行特征提取,得到特征信息,将该三元组的特征信息输入初始模型,得到与该三元组对应的预测结果,其中,预测结果可以用于指示该三元组中的主语、谓语和宾语之间的关系是否正确;将预测结果与该三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标;响应于确定初始模型达到优化目标,将初始模型作为目标分类模型。
在本实施例的一些可选的实现方式中,选取子单元可以进一步被配置成:对第一三元组集合中的三元组执行预设的歧义消除操作;将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组。
本申请的上述实施例提供的装置,有效利用了对包括主语、谓语和宾语的三元组的生成,以及对目标三元组中的宾语所包括的并列词的提取,实现了对知识点之间的父子关系的挖掘。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的信息生成端101、102、103)的计算机***600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的***中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或信息存储端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、第一生成单元、第二生成单元、选取单元和第三生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待处理文本信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备:获取待处理文本信息,其中,待处理文本信息可以包括至少一个句子;从至少一个句子中提取出满足第一预设条件的句子,组成句子集合;对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组;从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知识点之间的父子关系的父子关系信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种用于生成信息的方法,包括:
获取待处理文本信息,其中,所述待处理文本信息包括至少一个句子;
从所述至少一个句子中提取出满足第一预设条件的句子,组成句子集合;所述第一预设条件包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符,其中,所述关键词集合中的关键词是用于在句子中陈述主语的动词或用于修饰所述动词的副词;所述字符集合中的字符是用于在句子中连接存在并列关系的词的连词或标点符号;
对于所述句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;
将组成的三元组合并为三元组集合,从所述三元组集合中选取三元组作为目标三元组;
从所述目标三元组中的宾语中提取出并列词,将所述目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示所述父知识点与所述子知识点之间的父子关系的父子关系信息。
2.根据权利要求1所述的方法,其中,所述从所述至少一个句子中提取出满足第一预设条件的句子,包括:
对于所述至少一个句子中的句子,确定该句子是否包括所述关键词集合中的关键词;若是,则进一步确定该句子是否包括所述字符集合中的字符;若该句子包括所述字符集合中的字符,则提取出该句子。
3.根据权利要求1所述的方法,其中,所述第一预设条件还包括:句子的长度不大于预设字数;以及
所述从所述至少一个句子中提取出满足第一预设条件的句子,包括:
对于所述至少一个句子中的句子,确定该句子是否包括所述关键词集合中的关键词;若是,则进一步确定该句子是否包括所述字符集合中的字符;若该句子包括所述字符集合中的字符,则再进一步确定该句子的长度是否大于所述预设字数;若该句子的长度不大于所述预设字数,则提取出该句子。
4.根据权利要求1所述的方法,其中,所述对于所述句子集合中的句子,从该句子中提取出主语、谓语和宾语,包括:
对于所述句子集合中的句子,将该句子作为待处理句子,对所述待处理句子进行句法分析和语义角色分析,得到分析结果,基于所述分析结果,从所述待处理句子中提取出主语、谓语和宾语。
5.根据权利要求4所述的方法,其中,所述分析结果包括用于指示所述待处理句子中的核心动词的第一标注信息和用于指示所述核心动词的施事部分的第二标注信息;以及
所述基于所述分析结果,从所述待处理句子中提取出主语、谓语和宾语,包括:
确定所述分析结果是否还包括用于指示所述核心动词的受事部分的第三标注信息;
若包括所述第三标注信息,则将所述第二标注信息所指示的施事部分、所述第一标注信息所指示的核心动词、所述第三标注信息所指示的受事部分依次确定为所述待处理句子中的主语、谓语和宾语,从所述待处理句子中提取出所确定的主语、谓语和宾语。
6.根据权利要求5所述的方法,其中,所述分析结果还包括至少一个第四标注信息,第四标注信息用于指示所述待处理句子中的核心动词和除核心动词以外的词之间的动宾关系;以及
所述基于所述分析结果,从所述待处理句子中提取出主语、谓语和宾语,还包括:
响应于确定所述分析结果不包括所述第三标注信息,在所述至少一个第四标注信息中确定满足第二预设条件的目标第四标注信息,基于所述目标第四标注信息,从所述待处理句子中提取出短语作为宾语,将所述第二标注信息所指示的施事部分、所述第一标注信息所指示的核心动词依次作为所述待处理句子中的主语和谓语,从所述待处理句子中提取出所确定的主语、谓语和宾语。
7.根据权利要求1所述的方法,其中,所述从所述三元组集合中选取三元组作为目标三元组,包括:
获取目标分类模型,其中,所述目标分类模型是经训练后的、用于预测三元组中的主语、谓语和宾语之间的关系是否正确的分类模型;
基于所述目标分类模型,从所述三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合;
从所述第一三元组集合中选取三元组作为目标三元组。
8.根据权利要求7所述的方法,其中,所述获取目标分类模型,包括:
获取所述三元组集合中的至少一个三元组的标注信息,其中,标注信息用于指示所对应的三元组中的主语、谓语和宾语之间的关系是否正确;
对于所述至少一个三元组中的三元组,对该三元组进行特征提取,得到特征信息,将该三元组的特征信息输入初始模型,得到与该三元组对应的预测结果,其中,所述预测结果用于指示该三元组中的主语、谓语和宾语之间的关系是否正确;将所述预测结果与该三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标;响应于确定初始模型达到所述优化目标,将初始模型作为目标分类模型。
9.根据权利要求7所述的方法,其中,所述从所述第一三元组集合中选取三元组作为目标三元组,包括:
对所述第一三元组集合中的三元组执行预设的歧义消除操作;
将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组。
10.一种用于生成信息的装置,包括:
获取单元,被配置成获取待处理文本信息,其中,所述待处理文本信息包括至少一个句子;
第一生成单元,被配置成从所述至少一个句子中提取出满足第一预设条件的句子,组成句子集合;所述第一预设条件包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符,其中,所述关键词集合中的关键词是用于在句子中陈述主语的动词或用于修饰所述动词的副词;所述字符集合中的字符是用于在句子中连接存在并列关系的词的连词或标点符号;
第二生成单元,被配置成对于所述句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;
选取单元,被配置成将组成的三元组合并为三元组集合,从所述三元组集合中选取三元组作为目标三元组;
第三生成单元,被配置成从所述目标三元组中的宾语中提取出并列词,将所述目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示所述父知识点与所述子知识点之间的父子关系的父子关系信息。
11.根据权利要求10所述的装置,其中,所述第一生成单元进一步被配置成:
对于所述至少一个句子中的句子,确定该句子是否包括所述关键词集合中的关键词;若是,则进一步确定该句子是否包括所述字符集合中的字符;若该句子包括所述字符集合中的字符,则提取出该句子。
12.根据权利要求10所述的装置,其中,所述第一预设条件还包括:句子的长度不大于预设字数;以及
所述第一生成单元还进一步被配置成:
对于所述至少一个句子中的句子,确定该句子是否包括所述关键词集合中的关键词;若是,则进一步确定该句子是否包括所述字符集合中的字符;若该句子包括所述字符集合中的字符,则再进一步确定该句子的长度是否大于所述预设字数;若该句子的长度不大于所述预设字数,则提取出该句子。
13.根据权利要求10所述的装置,其中,所述第二生成单元包括:
提取子单元,被配置成对于所述句子集合中的句子,将该句子作为待处理句子,对所述待处理句子进行句法分析和语义角色分析,得到分析结果,基于所述分析结果,从所述待处理句子中提取出主语、谓语和宾语。
14.根据权利要求13所述的装置,其中,所述分析结果包括用于指示所述待处理句子中的核心动词的第一标注信息和用于指示所述核心动词的施事部分的第二标注信息;以及
所述提取子单元进一步被配置成:
确定所述分析结果是否还包括用于指示所述核心动词的受事部分的第三标注信息;
若包括所述第三标注信息,则将所述第二标注信息所指示的施事部分、所述第一标注信息所指示的核心动词、所述第三标注信息所指示的受事部分依次确定为所述待处理句子中的主语、谓语和宾语,从所述待处理句子中提取出所确定的主语、谓语和宾语。
15.根据权利要求14所述的装置,其中,所述分析结果还包括至少一个第四标注信息,第四标注信息用于指示所述待处理句子中的核心动词和除核心动词以外的词之间的动宾关系;以及
所述提取子单元还进一步被配置成:
响应于确定所述分析结果不包括所述第三标注信息,在所述至少一个第四标注信息中确定满足第二预设条件的目标第四标注信息,基于所述目标第四标注信息,从所述待处理句子中提取出短语作为宾语,将所述第二标注信息所指示的施事部分、所述第一标注信息所指示的核心动词依次作为所述待处理句子中的主语和谓语,从所述待处理句子中提取出所确定的主语、谓语和宾语。
16.根据权利要求10所述的装置,其中,所述选取单元包括:
获取子单元,被配置成获取目标分类模型,其中,所述目标分类模型是经训练后的、用于预测三元组中的主语、谓语和宾语之间的关系是否正确的分类模型;
生成子单元,被配置成基于所述目标分类模型,从所述三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合;
选取子单元,被配置成从所述第一三元组集合中选取三元组作为目标三元组。
17.根据权利要求16所述的装置,其中,所述获取子单元进一步被配置成:
获取所述三元组集合中的至少一个三元组的标注信息,其中,标注信息用于指示所对应的三元组中的主语、谓语和宾语之间的关系是否正确;
对于所述至少一个三元组中的三元组,对该三元组进行特征提取,得到特征信息,将该三元组的特征信息输入初始模型,得到与该三元组对应的预测结果,其中,所述预测结果用于指示该三元组中的主语、谓语和宾语之间的关系是否正确;将所述预测结果与该三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标;响应于确定初始模型达到所述优化目标,将初始模型作为目标分类模型。
18.根据权利要求16所述的装置,其中,所述选取子单元进一步被配置成:
对所述第一三元组集合中的三元组执行预设的歧义消除操作;
将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组。
19.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN201810791223.2A 2018-07-18 2018-07-18 用于生成信息的方法和装置 Active CN110807311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810791223.2A CN110807311B (zh) 2018-07-18 2018-07-18 用于生成信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810791223.2A CN110807311B (zh) 2018-07-18 2018-07-18 用于生成信息的方法和装置

Publications (2)

Publication Number Publication Date
CN110807311A CN110807311A (zh) 2020-02-18
CN110807311B true CN110807311B (zh) 2023-06-23

Family

ID=69486556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810791223.2A Active CN110807311B (zh) 2018-07-18 2018-07-18 用于生成信息的方法和装置

Country Status (1)

Country Link
CN (1) CN110807311B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444349B (zh) * 2020-03-06 2023-09-12 深圳追一科技有限公司 信息抽取方法、装置、计算机设备和存储介质
CN111709248B (zh) * 2020-05-28 2023-07-11 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备
CN111859858B (zh) * 2020-07-22 2024-03-01 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN111858894B (zh) * 2020-07-29 2024-06-04 网易(杭州)网络有限公司 语义缺失的识别方法及装置、电子设备、存储介质
CN112528641A (zh) * 2020-12-10 2021-03-19 北京百度网讯科技有限公司 建立信息抽取模型的方法、装置、电子设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573980A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息片段生成方法和装置
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107632979A (zh) * 2017-10-13 2018-01-26 华中科技大学 一种用于交互式问答的问题解析方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403890B2 (en) * 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
WO2007121614A1 (fr) * 2006-04-26 2007-11-01 Wenhe Xu Procédé de traduction automatisée pour la traduction d'une langue en plusieurs langues
WO2008080190A1 (en) * 2007-01-04 2008-07-10 Thinking Solutions Pty Ltd Linguistic analysis
US9400778B2 (en) * 2011-02-01 2016-07-26 Accenture Global Services Limited System for identifying textual relationships
CN103440252B (zh) * 2013-07-25 2016-11-16 北京师范大学 一种中文句子中并列信息提取方法及装置
CN106844368B (zh) * 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络***和用户设备
CN107451164B (zh) * 2016-06-01 2020-05-19 华为技术有限公司 一种语义查询的方法及装置
CN106776535A (zh) * 2016-11-16 2017-05-31 金陵科技学院 基于二阶段句法剖析的科技文献细粒度关系挖掘方法
CN107798136B (zh) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573980A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息片段生成方法和装置
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107632979A (zh) * 2017-10-13 2018-01-26 华中科技大学 一种用于交互式问答的问题解析方法及***

Also Published As

Publication number Publication date
CN110807311A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN107491547B (zh) 基于人工智能的搜索方法和装置
US11023505B2 (en) Method and apparatus for pushing information
CN107066449B (zh) 信息推送方法和装置
CN110807311B (zh) 用于生成信息的方法和装置
CN107491534B (zh) 信息处理方法和装置
CN107679039B (zh) 用于确定语句意图的方法和装置
CN107256267B (zh) 查询方法和装置
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
CN107241260B (zh) 基于人工智能的新闻推送的方法和装置
US9715531B2 (en) Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
US9542496B2 (en) Effective ingesting data used for answering questions in a question and answer (QA) system
CN109635094B (zh) 用于生成答案的方法和装置
CN110569494B (zh) 用于生成信息的方法、装置、电子设备及可读介质
US11651015B2 (en) Method and apparatus for presenting information
CN110555205B (zh) 否定语义识别方法及装置、电子设备、存储介质
CN110738056B (zh) 用于生成信息的方法和装置
CN109190123B (zh) 用于输出信息的方法和装置
CN111104796B (zh) 用于翻译的方法和装置
CN109376220B (zh) 用于获取信息的方法和装置
US11443106B2 (en) Intelligent normalization and de-normalization of tables for multiple processing scenarios
CN111368036B (zh) 用于搜索信息的方法和装置
CN112148751B (zh) 用于查询数据的方法和装置
CN114691850A (zh) 生成问答对的方法、神经网络模型的训练方法和装置
CN109857838B (zh) 用于生成信息的方法和装置
CN113761183A (zh) 意图识别方法和意图识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant