CN110609902A - 一种基于融合知识图谱的文本处理方法及装置 - Google Patents

一种基于融合知识图谱的文本处理方法及装置 Download PDF

Info

Publication number
CN110609902A
CN110609902A CN201810525849.9A CN201810525849A CN110609902A CN 110609902 A CN110609902 A CN 110609902A CN 201810525849 A CN201810525849 A CN 201810525849A CN 110609902 A CN110609902 A CN 110609902A
Authority
CN
China
Prior art keywords
entity
knowledge
vector
entities
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810525849.9A
Other languages
English (en)
Other versions
CN110609902B (zh
Inventor
徐传飞
晏小辉
蒋洪睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810525849.9A priority Critical patent/CN110609902B/zh
Publication of CN110609902A publication Critical patent/CN110609902A/zh
Application granted granted Critical
Publication of CN110609902B publication Critical patent/CN110609902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于融合知识图谱的文本处理方法及装置,涉及智能交互领域,解决了文本匹配度较低的问题。具体方案为:首先,对输入文本进行分词处理,得到分词文本,以及根据分词文本获取序列化实体向量;然后,利用路径匹配算法根据序列化实体向量以及融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。本申请实施例用于文本匹配的过程。

Description

一种基于融合知识图谱的文本处理方法及装置
技术领域
本申请实施例涉及智能交互领域,尤其涉及一种基于融合知识图谱的文本处理方法及装置。
背景技术
在智能交互领域,通常需要先对语料数据进行处理,以形成相应的知识库,进而可以在接收到用户的输入文本后,使用文本匹配技术从知识库中找出与输入文本最相关的文本信息并反馈至用户。例如,在搜索场景中,匹配引擎找出与查询的内容最相关的一些文档作为结果返回给用户。在智能问答场景中,根据用户输入的问题通过匹配引擎找出与问题匹配度最高的答案,并将答案返回给用户。其中,文本匹配技术可以是基于关键词的文本匹配技术或基于语义的文本匹配技术。
然而,基于关键词的文本匹配技术需要管理员维护知识库,文本中的关键词必须与知识库中的关键词完全相同,对于大多数近义说法都无法准确匹配,因此,基于关键词的文本匹配技术匹配严格且覆盖率低。基于语义的文本匹配技术通过深度神经网络将文本中的关键词用向量表示映射到语义空间中,然后计算文本信息对应的向量在语义空间上的距离,若文本信息对应的向量在语义空间上的距离小于阈值,则得到文本的匹配结果。虽然,基于语义的文本匹配技术提高了匹配的覆盖率,但是,将文本转化为向量的过程中也仅仅考虑文本中关键词信息,而没有考虑文本包括的关键词之间的关联关系。例如,“怎样让手机流量最节约”与“怎么买手机流量最节省”中的词向量很接近,但两个问题的意思完全不同,不应匹配到相同的结果。“账号被盗”与“支付宝账号丢失”中的词向量反而不怎么接近,但在特定领域下应该匹配到相同的结果。因此,基于语义的文本匹配技术在很多情况下会导致匹配度较低。
在现有技术中,可以根据不同类型建立不同的知识图谱,知识图谱中的实体向量之间具有关联关系,利用知识图谱根据文本匹配技术找出与输入文本最相关的文本信息。但是,通常文本的知识表示会同时涉及多个知识图谱。例如,“荣耀v8怎么买手机流量最省”同时涉及产品实体图谱、事件操作图谱和事物图谱。如果仅仅利用一个知识图谱根据文本匹配技术查找与输入文本最相关的文本信息,在很多情况下仍然会导致匹配度较低。因此,如何提高文本的匹配度是一个亟待解决的问题。
发明内容
本申请实施例提供一种基于融合知识图谱的文本处理方法及装置,解决了文本匹配度较低的问题。
为达到上述目的,本申请实施例采用如下技术方案:
本申请实施例的第一方面,提供一种基于融合知识图谱的文本处理方法,包括:在获取到用户输入的输入文本之后,先根据分词技术对输入文本进行分词处理,得到第一分词文本,并根据第一分词文本获取第一序列化实体向量,其中,第一分词文本包括至少一个分词,第一序列化实体向量为第一分词文本的序列化实体向量,第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;然后,获取X个知识状态子图,X个知识状态子图中每个知识状态子图包括至少一个节点,节点表示知识自动机的状态,每个节点连接至少一条边,一条边对应一个实体向量,X为大于或等于1的整数;再利用路径匹配算法根据第一序列化实体向量中第i个实体向量、第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,其中,i为整数,i取1至Z,j为整数,j取1至X,k为整数,k取1至F,F为大于等于1的整数,F表示第j个知识状态子图包括的节点的个数,Y为大于等于0且小于等于X的整数;最后,将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。
本申请实施例提供的基于融合知识图谱的文本处理方法,在文本匹配过程中,利用了文本知识序列信息和实体之间的逻辑关系,基于利用融合知识图谱生成的知识状态子图对输入文本确定匹配结果,从而,极大地提升了文本匹配度。
结合第一方面,在一种可能的实现方式中,利用路径匹配算法根据第一序列化实体向量中第i个实体向量、第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,具体包括:根据第i个实体向量和第k个节点的边对应的实体向量从融合知识图谱中获取至少一个第一关系表示向量,第一关系表示向量为第i个实体向量与第k个节点的边对应的实体向量之间的关系表示向量,至少一个第一关系表示向量包括同构关系表示向量和/或异构关系表示向量;根据至少一个第一关系表示向量、第i个实体向量和第k个节点的边对应的实体向量获取第i实体向量路径值,第i实体向量路径值为第i个实体向量与第k个节点的边对应的实体向量的路径值;判断第i实体向量路径值是否小于路径阈值;若第i实体向量路径值小于路径阈值,确定第k个节点为第j知识状态子图的终止节点,将第j知识状态子图确定为目标知识状态子图。
结合上述可能的实现方式,在另一种可能的实现方式中,在根据第i个实体向量和第k个节点的边对应的实体向量从融合知识图谱中获取至少一个第一关系表示向量之前,方法还包括:确定第i个实体向量对应的实体与第k个节点的边对应的实体向量对应的实体是否是同类型的实体;若是,根据第i个实体向量和第k个节点的边对应的实体向量从融合知识图谱中获取至少一个第一关系表示向量。
结合上述可能的实现方式,在另一种可能的实现方式中,在判断第i实体向量路径值是否小于路径阈值之后,方法还包括:若第i实体向量路径值小于路径阈值,确定第k个节点不是第j知识状态子图的终止节点,从第k个节点跳转到第j知识状态子图的第k+1个节点,k+1小于或等于F;获取第i+1实体向量路径值,第i+1实体向量路径值为第一序列化实体向量中第i+1个实体向量与第k+1个节点的边对应的实体向量的路径值;判断第i+1实体向量路径值是否小于路径阈值;若第i+1实体向量路径值小于路径阈值,且第k+1个节点为第j知识状态子图的终止节点,将第j知识状态子图确定为目标知识状态子图;或者,若第i+1实体向量路径值小于路径阈值,从第k+1个节点跳转到第j知识状态子图的第k+2个节点,k+2小于或等于F。
结合上述可能的实现方式,在另一种可能的实现方式中,在判断第i实体向量路径值是否小于路径阈值之后,方法还包括:若第i实体向量路径值大于或等于路径阈值,确定第j知识状态子图停止跳转。
结合上述可能的实现方式,在另一种可能的实现方式中,若第j知识状态子图的第k个节点对应至少两条边,每条边对应一个实体向量,在判断第i实体向量路径值是否小于路径阈值之后,方法还包括:若第i实体向量路径值大于或等于路径阈值,确定从第k个节点跳转到第k个节点。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,若Y=0,方法还包括:基于融合知识图谱扩展第一序列化实体向量;根据扩展后的第一序列化实体向量和路径匹配算法获取目标知识状态子图。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,根据第一分词文本获取第一序列化实体向量,具体包括:根据第一分词文本从融合知识图谱获取第一序列化实体向量,融合知识图谱包括N个实体、N个实体的实体概念描述、N个实体中的同构关系表示向量和N个实体中的异构关系表示向量,N个实体来源于M个知识库,同构关系表示向量为来源于同一个知识库的实体之间的关系表示向量,异构关系表示向量为来源于不同知识库的实体之间的关系表示向量,不同的知识库包括不同类型的实体,N为大于等于2的整数,M为大于等于2的整数。从而,根据融合知识图谱将第一分词文本转化成包含别名向量及领域知识向量的序列化实体向量,极大程度的丰富了输入文本数据的信息。
结合上述可能的实现方式,在另一种可能的实现方式中,在根据第一分词文本从融合知识图谱获取第一序列化实体向量之前,方法还包括:利用知识抽取从知识源中获取N个实体、N个实体的实体概念描述和N个实体中的同构关系表示向量;根据N个实体的实体概念描述获取N个实体中的异构关系表示向量;根据N个实体、N个实体的实体概念描述、N个实体中的同构关系表示向量和N个实体中的异构关系表示向量构建融合知识图谱。从而,通过挖掘的关系对来源不同的知识进行链接构建融合知识图谱,避免了人工构建多知识图谱的过程,大大降低了构造成本,有利于大规模融合知识图谱的构建。
结合上述可能的实现方式,在另一种可能的实现方式中,根据N个实体的实体概念描述获取N个实体中的异构关系表示向量,具体包括:根据第n个实体的实体概念描述获取第n个实体的实体概念描述对应的具有次序关系的Pn个关键词向量,Pn表示第n个实体的实体概念描述对应的具有次序关系的关键词向量的个数,Pn为大于等于1的整数,n为整数,n取1至N;将N个实体的实体概念描述对应的具有次序关系的关键词向量输入到深度神经网络模型,得到N个实体向量;获取N个实体向量的Q个关系表示向量,关系表示向量表示N个实体向量中任意两个实体向量之间的关系,Q为大于等于1的整数;根据Q个关系表示向量和关系表示向量阈值确定N个实体中的异构关系表示向量。
结合上述可能的实现方式,在另一种可能的实现方式中,根据N个实体、N个实体的实体概念描述、N个实体中的同构关系和N个实体中的异构关系构建融合知识图谱,包括:根据N个实体、N个实体的实体概念描述、N个实体中的同构关系表示向量、N个实体中的异构关系表示向量、N个实体的实体向量、别名向量和领域知识向量构建融合知识图谱,别名向量表示同一个实体的另一种名称的向量,领域知识向量表示实体所属的领域的向量。
结合上述可能的实现方式,在另一种可能的实现方式中,在构建融合知识图谱之后,方法还包括:获取第N+1个实体的实体概念描述;根据第N+1个实体的实体概念描述获取具有次序关系的Pn+1个关键词向量;将具有次序关系的Pn+1个关键词向量输入到深度神经网络模型,得到第N+1个实体对应的实体向量;获取第N+1个实体对应的实体向量和融合知识图谱中的实体向量间的关系表示向量;根据第N+1个实体对应的实体向量和融合知识图谱中的实体向量间的关系表示向量将第N+1个实体和第N+1个实体对应的实体向量融入融合知识图谱,得到更新后的融合知识图谱。
本申请实施例的第二方面,提供一种生成知识状态子图的方法,包括:根据分词技术对预设文本进行分词处理,得到第二分词文本;根据第二分词文本获取第二序列化实体向量,第二序列化实体向量为第二分词文本的序列化实体向量,第二序列化实体向量包括S个按照逻辑顺序排序的实体向量,S为大于或等于1的整数;根据第二序列化实体向量生成第一知识状态子图,第一知识状态子图包括W个节点,一个节点表示第一知识自动机的一个状态,W个节点中每个节点连接至少一条边,一条边对应一个实体向量。
本申请实施例的第三方面,提供一种文本处理装置,包括:分词处理单元、获取单元和处理单元。其中,所述分词处理单元,用于根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,第一分词文本包括至少一个分词;所述获取单元,用于根据第一分词文本获取第一序列化实体向量,第一序列化实体向量为第一分词文本的序列化实体向量,第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;所述获取单元,还用于获取X个知识状态子图,X个知识状态子图中每个知识状态子图包括至少一个节点,节点表示知识自动机的状态,每个节点连接至少一条边,一条边对应一个实体向量,X为大于或等于1的整数;所述处理单元,用于利用路径匹配算法根据第一序列化实体向量中第i个实体向量、第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,i为整数,i取1至Z,j为整数,j取1至X,k为整数,k取1至F,F为大于等于1的整数,F表示第j个知识状态子图包括的节点的个数,Y为大于等于0且小于等于X的整数;所述处理单元,还用于将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。
结合第三方面,在一种可能的实现方式中,处理单元,具体用于:根据第i个实体向量和第k个节点的边对应的实体向量从融合知识图谱中获取至少一个第一关系表示向量,第一关系表示向量为第i个实体向量与第k个节点的边对应的实体向量之间的关系表示向量,至少一个第一关系表示向量包括同构关系表示向量和/或异构关系表示向量;根据至少一个第一关系表示向量、第i个实体向量和第k个节点的边对应的实体向量获取第i实体向量路径值,第i实体向量路径值为第i个实体向量与第k个节点的边对应的实体向量的路径值;判断第i实体向量路径值是否小于路径阈值;若第i实体向量路径值小于路径阈值,确定第k个节点为第j知识状态子图的终止节点,将第j知识状态子图确定为目标知识状态子图。
结合上述可能的实现方式,在另一种可能的实现方式中,处理单元,还用于:确定第i个实体向量对应的实体与第k个节点的边对应的实体向量对应的实体是否是同类型的实体;若是,根据第i个实体向量和第k个节点的边对应的实体向量从融合知识图谱中获取至少一个第一关系表示向量。
结合上述可能的实现方式,在另一种可能的实现方式中,处理单元,具体用于:若第i实体向量路径值小于路径阈值,确定第k个节点不是第j知识状态子图的终止节点,从第k个节点跳转到第j知识状态子图的第k+1个节点,k+1小于或等于F。
结合上述可能的实现方式,在另一种可能的实现方式中,处理单元,具体用于:若第i实体向量路径值大于或等于路径阈值,确定第j知识状态子图停止跳转。
结合上述可能的实现方式,在另一种可能的实现方式中,若第j知识状态子图的第k个节点对应至少两条边,每条边对应一个实体向量,处理单元,具体用于:若第i实体向量路径值大于或等于路径阈值,确定从第k个节点跳转到第k个节点。
结合上述可能的实现方式,在另一种可能的实现方式中,若Y=0,处理单元,还用于:基于融合知识图谱扩展第一序列化实体向量;根据扩展后的第一序列化实体向量和路径匹配算法获取目标知识状态子图。
结合上述可能的实现方式,在另一种可能的实现方式中,获取单元,具体用于:根据第一分词文本从融合知识图谱获取第一序列化实体向量,融合知识图谱包括N个实体、N个实体的实体概念描述、N个实体中的同构关系表示向量和N个实体中的异构关系表示向量,N个实体来源于M个知识库,同构关系表示向量为来源于同一个知识库的实体之间的关系表示向量,异构关系表示向量为来源于不同知识库的实体之间的关系表示向量,不同的知识库包括不同类型的实体,N为大于等于2的整数,M为大于等于2的整数。
结合上述可能的实现方式,在另一种可能的实现方式中,获取单元和处理单元。其中,所述获取单元,还用于利用知识抽取从知识源中获取N个实体、N个实体的实体概念描述和N个实体中的同构关系表示向量;所述获取单元,还用于根据N个实体的实体概念描述获取N个实体中的异构关系表示向量;所述处理单元,还用于根据N个实体、N个实体的实体概念描述、N个实体中的同构关系表示向量和N个实体中的异构关系表示向量构建融合知识图谱。
结合上述可能的实现方式,在另一种可能的实现方式中,获取单元,具体用于:根据第n个实体的实体概念描述获取第n个实体的实体概念描述对应的具有次序关系的Pn个关键词向量,Pn表示第n个实体的实体概念描述对应的具有次序关系的关键词向量的个数,Pn为大于等于1的整数,n为整数,n取1至N;将N个实体的实体概念描述对应的具有次序关系的关键词向量输入到深度神经网络模型,得到N个实体向量;获取N个实体向量的Q个关系表示向量,关系表示向量表示N个实体向量中任意两个实体向量之间的关系,Q为大于等于1的整数;根据Q个关系表示向量和关系表示向量阈值确定N个实体中的异构关系表示向量。
结合上述可能的实现方式,在另一种可能的实现方式中,处理单元,具体用于:根据N个实体、N个实体的实体概念描述、N个实体中的同构关系表示向量、N个实体中的异构关系表示向量、N个实体的实体向量、别名向量和领域知识向量构建融合知识图谱,别名向量表示同一个实体的另一种名称的向量,领域知识向量表示实体所属的领域的向量。
结合上述可能的实现方式,在另一种可能的实现方式中,获取单元,还用于获取第N+1个实体的实体概念描述;获取单元,还用于根据第N+1个实体的实体概念描述获取具有次序关系的Pn+1个关键词向量;获取单元,还用于将具有次序关系的Pn+1个关键词向量输入到深度神经网络模型,得到第N+1个实体对应的实体向量;获取单元,还用于获取第N+1个实体对应的实体向量和融合知识图谱中的实体向量间的关系表示向量;处理单元,还用于根据第N+1个实体对应的实体向量和融合知识图谱中的实体向量间的关系表示向量将第N+1个实体和第N+1个实体对应的实体向量融入融合知识图谱,得到更新后的融合知识图谱。
本申请实施例的第四方面,提供一种生成知识状态子图的装置,包括:分词处理单元、获取单元和处理单元。其中,所述分词处理单元,用于根据分词技术对预设文本进行分词处理,得到第二分词文本;所述获取单元,用于根据第二分词文本获取第二序列化实体向量,第二序列化实体向量为第二分词文本的序列化实体向量,第二序列化实体向量包括S个按照逻辑顺序排序的实体向量,S为大于或等于1的整数;所述处理单元,用于根据第二序列化实体向量生成第一知识状态子图,第一知识状态子图包括W个节点,一个节点表示第一知识自动机的一个状态,W个节点中每个节点连接至少一条边,一条边对应一个实体向量。
需要说明的是,上述第三方面和第四方面的功能模块可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。例如,收发器,用于完成接收单元和发送单元的功能,处理器,用于完成处理单元、获取单元和分词处理单元的功能,存储器,用于处理器处理本申请实施例所述的方法的程序指令。处理器、收发器和存储器通过总线连接并完成相互间的通信。具体的,可以参考第一方面提供的基于融合知识图谱的文本处理方法中设备的行为的功能和第二方面提供的生成知识状态子图的方法中设备的行为的功能。
本申请实施例的第五方面,提供一种设备,终端包括:一个或多个处理器、存储器和通信接口;存储器、通信接口与一个或多个处理器连接;设备通过通信接口与其他设备通信,存储器用于存储计算机程序代码,计算机程序代码包括指令,当一个或多个处理器执行指令时,设备执行上述任意方面所述的方法。
本申请实施例的第六方面,提供一种计算机可读存储介质,包括:计算机软件指令;当计算机软件指令在设备或内置在设备的芯片中运行时,使得设备执行上述任意方面所述的方法。
本申请实施例的第七方面,提供一种包含指令的计算机程序产品,当计算机程序产品在设备或内置在设备的芯片中运行时,使得设备执行上述任意方面所述的方法。
另外,上述任意方面的设计方式所带来的技术效果可参见第一方面和第二方面中不同设计方式所带来的技术效果,此处不再赘述。
本申请实施例中,文本处理装置和生成知识状态子图的装置的名字对设备本身不构成限定,在实际实现中,这些设备可以以其他名称出现。只要各个设备的功能和本申请实施例类似,属于本申请权利要求及其等同技术的范围之内。
附图说明
图1为现有技术提供的一种知识图谱示意图;
图2(a)为本申请实施例提供的一种***架构的简化示意图
图2(b)为本申请实施例提供的一种逻辑***架构的简化示意图;
图3为本申请实施例提供的一种服务器的组成示意图;
图4为本申请实施例提供的一种构建融合知识图谱方法的流程图;
图5为本申请实施例提供的一种融合知识图谱的示意图;
图6为本申请实施例提供的一种生成知识状态子图的方法的流程图;
图7为本申请实施例提供的一种第一知识状态子图的示意图;
图8为本申请实施例提供的另一种第一知识状态子图的示意图;
图9为本申请实施例提供的又一种第一知识状态子图的示意图;
图10为本申请实施例提供的一种基于融合知识图谱的文本处理方法的流程图;
图11为本申请实施例提供的另一种融合知识图谱的示意图;
图12为本申请实施例提供的一种智能客服***的组件结构示意图;
图13为本申请实施例提供的一种处理装置的结构示意图;
图14为本申请实施例提供的另一种处理装置的结构示意图。
具体实施方式
为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍:
知识图谱(knowledge graph)旨在描述客观世界的概念、实体、事件及其之间的关系,其构成一张巨大的语义网络图。图1为现有技术提供的一种知识图谱示意图,其中,描述了客观世界中的国家的一些信息及关系。
知识图谱于2012年5月17日由谷歌(Google)正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图谱逐渐成为关键技术之一,现已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。知识图谱中包含节点和边。节点表示实体或概念。边由属性或关系构成。
实体是指具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物、某一种商品等等。世界万物由具体事物组成,此指实体。如“中国”、“美国”、“日本”都可以是实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
语义类(概念)指具有同种特性的实体构成的集合。如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类。例如人物、地理。
内容通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。
属性(值)从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。
关系可理解为一个函数,表示实体间的关系。
知识通常是由非结构化的自然语言组建而成的。例如,“姚明出生于上海”、“姚明是篮球运动员”和“姚明是现任中国篮协***”就是一条条知识。把大量的知识汇聚起来就成为了知识库(knowledge base)。但是,由非结构化的自然语言组建而成的知识很适合人们阅读,并不适合计算机处理。
为了方便计算机的处理和理解,需要通过更加形式化、简洁化的方式来表示知识。例如,基于三元组(triple)是知识图谱的一种通用表示方式。三元组的基本形式主要包括(实体(entity)1-关系(relation)-实体2)和(实体-属性(property)-属性值)。例如,中国-首都-北京是一个(实体-关系-实体)的三元组样例,其中,中国是一个实体,北京是一个实体,首都就是中国和北京的关系。北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例,其中,人口是一种属性,2069.3万是属性值。
当前主流的知识表示方案是根据不同需求建立不同的知识图谱来表示,一个知识图谱只涉及一类知识。例如,百度根据应用建立了多个不同类型的知识图谱,如实体图谱、专注图谱、目的图谱等。然而,不同知识图谱中实体之间可能存在大量多对一和一对多的关系(一款手机具有多种操作等),因此,基于现有的三元组的表示学习(TransE等技术)表示上述复杂的融合关系会产生较大的误差。而且,在匹配场景中,通常文本的知识表示会同时涉及多个知识图谱。例如,“荣耀v8怎么买手机流量最省”同时涉及产品实体图谱、事件操作图谱和事物图谱。如果仅仅利用一个知识图谱根据文本匹配技术查找与输入文本最相关的文本信息,在很多情况下仍然会导致匹配度较低。因此,如何提高文本的匹配度是一个亟待解决的问题。
本申请实施例提供一种基于融合知识图谱的文本处理方法,其基本原理是:在确定用户输入的输入文本的匹配结果之前,先根据多个知识源生成融合知识图谱,然后,利用融合知识图谱将预设文本转化知识状态子图。在获取到用户输入的输入文本之后,首先,根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,并根据第一分词文本获取第一序列化实体向量,其中,第一分词文本包括至少一个分词,第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;然后,获取X个知识状态子图,X个知识状态子图中每个知识状态子图包括至少一个节点,节点表示知识自动机的状态,每个节点连接至少一条边,一条边对应一个实体向量,X为大于或等于1的整数;再利用路径匹配算法根据第一序列化实体向量中第i个实体向量、第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。其中,i为整数,i取1至Z,j为整数,j取1至X,k为整数,k取1至F,F为大于等于1的整数,F表示第j个知识状态子图包括的节点的个数,Y为大于等于0且小于等于X的整数。
本申请实施例提供的基于融合知识图谱的文本处理方法,通过基于融合知识图谱表示输入文本,大大提升了文本知识表示能力,并且基于根据融合知识图谱生成的知识状态子图对输入文本确定匹配结果,极大地提升了匹配度和召回率。另外,通过挖掘来源不同的知识间的关系从而构建融合知识图谱,避免了人工构建多知识融合图谱的过程,大大降低了构造成本,有利于大规模融合图谱的构建。
下面将结合附图对本申请实施例的实施方式进行详细描述。
图2(a)示出的是可以应用本申请实施例的***架构的简化示意图。如图2(a)所示,该***架构可以包括:终端设备201、网络202和服务器203。终端设备201通过网络与服务器203进行通信。
在具体的实现中,该终端设备201可以手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等等。终端设备201可以安装有客户端,例如,智能搜索、智能问答等。作为一种实施例,如图2(a)中所示,本申请的***架构包括的终端设备201为笔记本电脑。
网络中包括基站、路由器和交换机等设备。用于终端设备201与服务器203之间进行通信。服务器存储有融合知识图谱和多个知识状态子图。
图2(b)示出的是可以应用本申请实施例的逻辑***架构的简化示意图。逻辑***架构包括n个知识源、融合知识图谱构建模块、基于融合知识图谱的计算模块和应用。其中,n个知识源中每个知识源包括的知识不同。融合知识图谱构建模块包括实体构建子模块、概念构建子模块、同构关系构建子模块和异构关系构建子模块。基于融合知识图谱的计算模块包括文本知识表示子模块和知识状态子图匹配子模块。应用包括智能搜索、智能问答和文本匹配。
图3为本申请实施例提供的一种服务器的组成示意图,如图3所示,服务器可以包括至少一个处理器301、存储器302、通信接口303和通信总线304。
下面结合图3对服务器的各个构成部件进行具体的介绍:
处理器301是服务器的控制中心,可以是一个处理器,也可以是多个处理元件的统称。在具体的实现中,作为一种实施例,处理器301可以包括一个中央处理器(centralprocessing unit,CPU)或多个CPU,例如图3中所示的CPU0和CPU1。处理器301也可以是特定集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signalprocessor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)。
其中,以处理器301是一个或多个CPU为例,处理器301可以通过运行或执行存储在服务器中的存储器302内的软件程序,以及调用存储在存储器302内的数据,执行服务器的各种功能。
在具体实现中,作为一种实施例,服务器可以包括多个处理器,例如图3中所示的处理器301和处理器305。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在本申请实施例中处理器主要用于根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,根据第一分词文本获取第一序列化实体向量,获取X个知识状态子图,利用路径匹配算法根据第一序列化实体向量中第i个实体向量、第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图,将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。
存储器302可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器302可以是独立存在,通过通信总线304与处理器301相连接。存储器302也可以和处理器301集成在一起。
其中,所述存储器302用于存储执行本申请方案的软件程序,并由处理器301来控制执行。存储器302还用于存储本申请实施例所述的知识状态子图和融合知识图谱。
通信接口303,用于与其他设备或通信网络通信,通信接口303可以包括接收单元实现接收功能,以及发送单元实现发送功能。
通信总线304,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component,PCI)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图3中示出的设备结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合附图分别介绍如何构建融合知识图谱、如何生成知识状态子图以及基于融合知识图谱处理文本的过程。
图4为本申请实施例提供的一种构建融合知识图谱方法的流程图,如图4所示,该方法可以包括:
S401、利用知识抽取从知识源中获取N个实体、N个实体的实体概念描述和N个实体中的同构关系表示向量。
其中,N为大于等于2的整数。在实际应用中,可以从多个不同的知识源来获取N个实体、N个实体的实体概念描述和N个实体中的同构关系表示向量。
对于第一类来源,可以通过从百科类站点和各种垂直站点获取结构化数据。结构化数据覆盖了大部分常识性知识,普遍质量较高,更新速度慢。百科类网站的页面结构是按照自有的百科数据(schema)生成的,因此针对每一个百科网站,都可以用一个页面模版来提取其中的数据,提取就是生成的逆过程。
对于第二类来源,可以通过从各种半结构化数据(例如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。所谓半结构化数据,是指在结构中包含了语义关系的数据。这一点和结构化数据是相同的,但与结构化数据的不同点在于,结构化数据的结构明确而数量有限,因为明确,所以容易提取,因为有限,所以可以人工处理。半结构化数据的结构广泛存在于Web上的众多网页之中,无法穷尽所有这些结构的模版,因此需要一种具有一定智能的抽取算法将其提取出来。
对于第三类来源,可以通过搜索日志(query log)发现新的实体或新的实体属性,从而不断扩展知识的覆盖率。搜索日志指的是用户对融合知识图谱本身的各种查询的记录,通过分析用户的检索词和点击浏览行为,可以推测出用户认可的或者偏好的相关知识对象,并且借助用户的行为找出这些对象之间可能存在的隐含关联,这个来源要求积累一定数量的用户访问日志。
此外,也可以通过相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。信息抽取是面完全非结构化的数据进行抽取。需要高度智能的语言分析和抽取算法来完成。数据挖掘是从已有的结构化数据中产生新的结构化数据的过程。有两种实现方法,一种基于专家给出的知识生成挖掘规则,另一种使用机器学习的方法从人工筛选的样本数据中学习挖掘规则,两种方法都需要人工介入,只不过第一种需要专家,第二种普通人也能胜任。
知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性三个知识要素。
实体抽取也称为命名实体学习或命名实体识别,指的是从原始数据语料中自动识别出命名实体。由于实体是融合知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到融合知识图谱构建的质量。实体抽取的方法包括基于百科站点或垂直站点抽取、基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。
语义类抽取是指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象。语义类抽取方法包含并列度相似计算、上下位关系提取以及语义类生成。
属性抽取的任务是为每个本体语义类构造属性列表。属性值抽取则为一个语义类的实体附加属性值。
同种类型实体的同构关系,可以通过领域专家人工定义。如产品实体的上下位关系或相近关系等。
对于不同类型的实体知识通常具有独立的概念描述及层次类型信息。如华为碎屏险具有自己的概念描述和所属的类别信息。若能把这些信息加入关系表示向量中则可得到更精确的表示,从而,可以在构建融合知识图谱时执行S402,挖掘更准确的实体间的异构关系。
S402、根据N个实体的实体概念描述获取N个实体中的异构关系表示向量。
可以根据多知识融合表示学习(multi-knowledge based embeddingrepresentation learning,MKERL)方法获取N个实体中的异构关系表示向量。具体的,获取N个实体中的异构关系表示向量可以包括以下步骤:
1)、对于N个实体的实体概念描述中每个实体的实体概念描述获取具有次序关系的关键词向量。例如,对于第n个实体的实体概念描述,获取第n个实体的实体概念描述对应的具有次序关系的Pn个关键词向量,Pn表示第n个实体的实体概念描述对应的具有次序关系的关键词向量的个数,Pn为大于等于1的整数,n为整数,n取1至N。上述获取实体的实体概念描述对应的具有次序关系的关键词向量可以通过外部获取,例如,通过谷歌网站获取。或者,上述获取实体的实体概念描述对应的具有次序关系的关键词向量可以通过自定义实体概念描述的具有次序关系的关键词向量。
2)、将N个实体的实体概念描述对应的N个具有次序关系的Pn个关键词向量输入到深度神经网络模型,得到N个实体向量。深度神经网络模型可以是长短时记忆(long-shortterm memory,LSTM)网络。
3)、获取N个实体向量的Q个关系表示向量。关系表示向量表示N个实体向量中任意两个实体向量之间的关系,Q为大于等于1的整数。关系表示向量可以是两个实体向量之间的差值。示例的,N个实体向量中任意两个实体向量之间的关系表示向量为N个实体向量中任意两个实体向量的差值。
4)、根据Q个关系表示向量和关系表示向量阈值确定N个实体中的异构关系表示向量。例如,若任意两个实体向量间的关系表示向量小于关系表示向量阈值,确定该任意两个实体向量间存在异构关系,任意两个实体向量的差值为异构关系表示向量。
S403、根据N个实体、N个实体的实体概念描述、N个实体中的同构关系表示向量和N个实体中的异构关系表示向量构建融合知识图谱。
融合知识图谱结构可以定义为<E,C,Rc,Rh>。其中,E表示实体。融合知识图谱包含多种类型实体,不同类型实体具有不同的属性结构和分类体系。N个实体来源于M个知识库。这里的知识库可以理解为知识图谱,M个知识库可以是不同类型的知识图谱。不同的知识库包括不同类型的实体。C表示实体概念描述。融合知识图谱的知识来自多个知识源或知识图谱,对于实体都有来自它原本知识源的描述。Rc表示同种类型实体的同构关系。此关系可通过领域专家人工定义,如产品实体的上下位关系或相近关系等。同构关系表示向量为来源于同一个知识库的实体之间的关系表示向量。Rh表示不同类型实体的异构关系。不同类型实体具有完全不同的类型及概念描述,造成关系表达十分繁杂无法依靠人工预先定义。异构关系表示向量为来源于不同知识库的实体之间的关系表示向量。
假设ei={ei.description,ei.type,ei.context}和ej={ej.description,ej.type,ej.context}为两个不同类型的实体。其中,描述(description)、类型(type)及内容(context)具有关联性,则它们具有异构关系。
示例的,如图5所示,本申请实施例提供的一种融合知识图谱的示意图。r1至r6表示不同类型实体间的异构关系。
本申请实施例提供的构建融合知识图谱方法,通过挖掘来源不同的知识间的关系从而构建融合知识图谱,避免了人工构建多知识融合图谱的过程,大大降低了构造成本,有利于大规模融合图谱的构建。
表示学习为将实体通过向量表示,根据向量计算实体相似度来判断实体之间的关系。在构建融合知识图谱时,还可以根据实体获取实体向量、实体的别名向量和领域知识向量,将N个实体的实体向量、别名向量和领域知识向量补入融合知识图谱。如图5所示,假设实体为荣耀,荣耀的别名可以是honor。荣耀的领域知识可以是荣耀手机。本申请实施例实现了将原始文本转化成包含别名及领域知识的实体序列化表示,极大程度地丰富了原始数据的知识表示能力。
进一步的,在构建融合知识图谱之后,还可以对融合知识图谱进行更新。例如,如果需要将第n+1个实体补入到融合知识图谱中时,首先,获取第n+1个实体的实体概念描述;将第n+1个实体的实体概念描述获取具有次序关系的Pn+1个关键词向量,Pn+1表示第n+1个实体的实体概念描述对应的具有次序关系的关键词向量的个数,Pn+1为大于等于1的整数。然后,将具有次序关系的Pn+1个关键词向量输入到深度神经网络模型,得到第n+1个实体对应的实体向量;获取第n+1个实体对应的实体向量和融合知识图谱中的所有实体向量间的关系表示向量,根据关系表示向量和关系表示向量阈值确定第n+1个实体对应的实体向量与融合知识图谱中的所有实体向量中的同构关系表示向量和异构关系表示向量,具体的,可以比较关系表示向量和关系表示向量阈值的大小来确定第n+1个实体对应的实体向量与融合知识图谱中的所有实体向量中的同构关系表示向量和异构关系表示向量。最后,根据第n+1个实体对应的实体向量与融合知识图谱中的所有实体向量中的同构关系表示向量和异构关系表示向量,将第n+1个实体对应的实体向量实体向量融入融合知识图谱,得到更新后的融合知识图谱。
在融合知识图谱构建成功后,可以根据融合知识图谱生成知识状态子图。图6为本申请实施例提供的一种生成知识状态子图的方法的流程图,如图6所示,该方法可以包括:
S601、根据分词技术对预设文本进行分词处理,得到第二分词文本。
预设文本可以是预先存储到***中用户可能需要获得的信息。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词技术包括字符串匹配分词法、词义分词法和统计分词法。具体的分词过程本申请实施例在此不再赘述,可以参考现有技术的描述。第二分词文本包括至少一个分词。
S602、根据第二分词文本获取第二序列化实体向量。
可以根据第二分词文本从融合知识图谱获取第二序列化实体向量。具体的,首先,根据第二分词文本包括的至少一个分词从融合知识图谱中获取第二分词文本对应的至少一个实体。可理解的,在融合知识图谱中查找到的与至少一个分词对应的至少一个实体是与分词是相同的,即分词就是实体;然后,根据至少一个实体从融合知识图谱中获取至少一个实体对应的实体向量,得到第二序列化实体向量。融合知识图谱包括实体以及实体对应的实体向量。另外,由于融合知识图谱包括实体间的同构关系和异构关系,因此可以根据第二分词文本的实体向量的同构关系和/或异构关系将第二分词文本的实体向量按照逻辑顺序排序,得到第二序列化实体向量。第二序列化实体向量包括S个按照逻辑顺序排序的实体向量,S为大于或等于1的整数。
S603、根据第二序列化实体向量生成第一知识状态子图。
第一知识状态子图包括W个节点,一个节点表示第一知识自动机的一个状态,W个节点中每个节点连接至少一条边,一条边对应一个实体向量。
在一种可能的实现方式中,第一知识状态子图中每个节点对应一条边,一条边对应一个实体向量。示例的,如图7所示,本申请实施例提供的一种第一知识状态子图的示意图。假设节点0的边对应荣耀v8向量,节点1的边对应购买向量,节点2的边对应流量向量。节点0为开始状态,节点3为终止状态。满足预设的条件就可以从一个状态跳转到下一个状态。
在另一种可能的实现方式中,还可以在第一知识状态子图中加入别名向量和领域知识向量。在这种情况下,一个节点对应至少一条边。例如,荣耀v8的别名为honorv8。荣耀v8的领域知识为荣耀手机。示例的,如图8所示,本申请实施例提供的另一种第一知识状态子图的示意图。节点0的边还对应honorv8向量。
另外,第二序列化实体向量还可能包括“怎么”和“怎样”这里较口语化的词语对应的向量,也可以将“怎么”和“怎样”这里较口语化的词语对应的向量加入第一知识状态子图中。示例的,如图9所示,本申请实施例提供的又一种第一知识状态子图的示意图。节点1的边还对应“怎么”向量。从而,用户输入“怎么”或“怎样”能够与“怎么”对应的向量相匹配,避免直接终止知识状态子图的跳转,而漏匹配可以作为匹配结果的知识状态子图。
在构建完成融合知识图谱和知识状态子图之后,可以根据融合知识图谱和知识状态子图对用户输入的输入文本进行匹配,来获取输入文本的匹配结果。图10为本申请实施例提供的一种基于融合知识图谱的文本处理方法的流程图,如图10所示,该方法可以包括:
S1001、根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本。
第一分词文本包括至少一个分词。根据分词技术对用户输入的输入文本进行分词处理的具体方法与根据分词技术对预设文本进行分词处理的方法类似,具体的可以参考S601的阐述,本申请实施例在此不再赘述。
S1002、根据第一分词文本获取第一序列化实体向量。
可以根据第一分词文本从融合知识图谱获取第一序列化实体向量。根据第一分词文本从融合知识图谱获取第一序列化实体向量的方法与根据第二分词文本从融合知识图谱获取第二序列化实体向量的方法类似,具体的可以参考S602的阐述,本申请实施例在此不再赘述。
S1003、获取X个知识状态子图。
X个知识状态子图可以是根据上述生成知识状态子图的方法得到的知识状态子图。在生成X个知识状态子图之后可以将X个知识状态子图存储在存储器中。在需要使用X个知识状态子图时可以直接从存储器中获取。X为大于或等于1的整数。
S1004、利用路径匹配算法根据第一序列化实体向量中第i个实体向量、第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从X个知识状态子图中确定Y个目标知识状态子图。
其中,i为整数,i取1至Z,Z为大于或等于1的整数,Z表示第一序列化实体向量包括的实体向量的个数。第i个实体向量表示第一序列化实体向量中的任意一个实体向量。j为整数,j取1至X,第j知识状态子图表示X个知识状态子图中的任意一个知识状态子图。k为整数,k取1至F,F为大于等于1的整数,F表示第j个知识状态子图包括的节点的个数。第j知识状态子图的第k个节点表示第j知识状态子图中的任意一个节点。Y为大于等于0且小于等于X的整数。
下面以第j知识状态子图为例说明确定第j知识状态子图是否为目标知识状态子图的方案。
在第一种可能的实现方案中,第j知识状态子图中除终止状态之外每个节点对应一条边(如图7所示),从第一序列化实体向量中第一个实体向量和第j知识状态子图的第一个节点的一条边对应的实体向量依次进行比较,确定第j知识状态子图是否为目标知识状态子图。
下面以第一序列化实体向量的第i个实体向量和第j个知识状态子图的第k个节点的边对应的实体向量为例进行说明。具体的,可以包括以下步骤:
1)、根据第一序列化实体向量中第i个实体向量在融合知识图谱中查找对应的第i实体,根据第j知识状态子图的第k个节点的一条边对应的实体向量在融合知识图谱中查找对应的第k实体,根据第i实体和第k实体从融合知识图谱中获取两个实体向量之间路径中的至少一个第一关系表示向量。在融合知识图谱中,若第i实体和第k实体之间没有其他实体,则第i实体和第k实体之间包括一个第一关系表示向量;若第i实体和第k实体之间存在其他实体,则第i实体和第k实体之间包括两个以上第一关系表示向量。例如,若第i实体和第k实体之间存在第三实体,则第i实体和第三实体之间存在第一关系表示向量,第k实体和第三实体之间存在第一关系表示向量,第i实体和第k实体之间包括两个第一关系表示向量。至少一个第一关系表示向量包括同构关系表示向量和/或异构关系表示向量。
2)、根据至少一个第一关系表示向量、第i个实体向量和第k个节点的边对应的实体向量获取第i实体向量路径值,第i实体向量路径值为第i个实体向量与第k个节点的边对应的实体向量的路径值。示例的,可以根据以下公式获取实体向量间的路径值。公式为:其中,a1i表示第一序列化实体向量的第i个实体向量对应的实体。bjk表示第j个知识状态子图的第k个节点的边对应的实体向量对应的实体。h(head)表示第一序列化实体向量的第i个实体向量。t(tail)表示第j个知识状态子图的第k个节点的边对应的实体向量。vp表示在a1i和bjk之间P个路径上的所有关系表示向量的和。P表示a1i和bjk之间路径的个数,每个路径可能包括至少一个第一关系表示向量。
3)、判断第i实体向量路径值是否小于路径阈值。
若第i实体向量路径值小于路径阈值,此时,需要确定第k个节点是否为第j个知识状态子图中的最后一个节点,即k是否等于F。若k等于F,将第j知识状态子图确定为目标知识状态子图。若第i实体向量路径值小于路径阈值,且k小于F,从第k个节点跳转到第j知识状态子图的第k+1个节点,k+1小于或等于F。当然,此时第i实体向量不是第一序列化实体向量中的最后一个实体向量。
若第i实体向量路径值大于或等于路径阈值,第j知识状态子图停止跳转,则针对第j知识状态子图无需再做其他操作,认为第j知识状态子图为非目标知识状态子图。
对于从第k个节点跳转到第j知识状态子图的第k+1个节点之后,可以根据上述对于第k个节点的步骤进行操作。例如,先根据上述1)和2)的方法步骤获取第i+1实体向量路径值,第i+1实体向量路径值为第一序列化实体向量中第i+1个实体向量与第k+1个节点的边对应的实体向量的路径值。然后,判断第i+1实体向量路径值是否小于路径阈值。若第i+1实体向量路径值小于路径阈值,且k+1等于F,将第j知识状态子图确定为目标知识状态子图。若第i+1实体向量路径值小于路径阈值,且k+1小于F,则从第k+1个节点跳转到第j知识状态子图的第k+2个节点,k+2小于或等于F。当然,此时第i+1实体向量不是第一序列化实体向量中的最后一个实体向量。
在第二种可能的实现方案中,第j知识状态子图中除终止状态之外存在至少一个节点对应两条以上的边(如图8或图9所示),每条边对应一个实体向量。第二种可能的实现方案与第一种可能的实现方案的不同点在于,在第i实体向量路径值大于或等于路径阈值时,从第k个节点跳转到第k个节点,此时,需要根据第一序列化实体向量中第i+1个实体向量和第j知识状态子图的第k个节点的另一条边对应的实体向量进行比较,进一步确定第j知识状态子图是否为目标知识状态子图。其中,确定的详细步骤可以参考第一种可能的实现方案中的描述,本申请实施例在此不再赘述。
示例的,第j知识状态子图的第一个节点对应两条边,一个边对应荣耀手机向量,一个边对应荣耀v8向量。第一序列化实体向量的第一个实体向量是荣耀手机向量,第二个实体向量是荣耀v8。如果先用第一序列化实体向量的第一个实体向量是荣耀手机向量与第j知识状态子图的第一个节点对应的荣耀v8向量进行比较,第j知识状态子图从第一个节点跳转到第一个节点,即没有跳转到下一个节点,此时,再用第一序列化实体向量的第二个实体向量是荣耀v8与第j知识状态子图的第一个节点对应的荣耀v8向量进行比较,确定第一序列化实体向量的第二个实体向量是荣耀v8与第j知识状态子图的第一个节点对应的荣耀v8向量相似,第j知识状态子图从第一个状态跳转到第二个状态。
在第三种可能的实现方案中,第j知识状态子图中除终止状态之外每个节点对应一条边(如图7所示)。在获取到X个知识状态子图之后,先从融合知识图谱中获取第一序列化实体向量包括的Z个按照逻辑顺序排序的实体向量与第j知识状态子图包括的实体向量间的所有第一关系表示向量,再利用路径匹配算法根据第i个实体向量、第k个状态的边对应的实体向量和至少一个第一关系表示向量确定第j知识状态子图是否为目标知识状态子图。
对于从融合知识图谱中获取实体向量间的关系表示向量以及根据确定第j知识状态子图是否为目标知识状态子图的过程可以参考第一种可能的实现方案中的描述,本申请实施例在此不再赘述。
另外,在根据第一序列化实体向量中第i个实体向量和第j知识状态子图的第k个节点的边对应的实体向量从融合知识图谱中获取至少一个第一关系表示向量之前,可以先确定第i个实体向量对应的实体与第k个节点的边对应的实体向量对应的实体是否是同类型的实体;若是,利用路径匹配算法根据第i个实体向量、第k个节点的边对应的实体向量和至少一个第一关系表示向量从X个知识状态子图中确定Y个目标知识状态子图。若否,认为第i个实体向量对应的实体与第k个节点的边对应的实体向量对应的实体是不同类型的实体,则针对第j知识状态子图无需再做其他操作,认为第j知识状态子图为非目标知识状态子图。
S1005、将Y个目标知识状态子图对应的文本确定为输入文本的匹配结果。
另外,输入文本有时无法完全映射到融合知识图谱中的实体或概念形成完整的序列。例如,输入文本为“支付宝账号丢失”。[实体:支付宝账号]和[操作:丢失]。但是,融合知识图谱中关于支付宝账号相邻的操作实体无“丢失”操作。此时,输入文本“支付宝账号丢失”可能无法匹配到目标知识状态子图,即Y=0。因此,本申请实施例还提供一种文本匹配方法,基于融合知识图谱利用知识扩展和举例评估进行相关匹配,以便于为输入文本匹配的准确的匹配结果。
具体的,基于融合知识图谱扩展第一序列化实体向量,并根据扩展后的第一序列化实体向量和路径匹配算法获取目标知识状态子图。
知识扩展为通过融合知识图谱的上下位关系或同位节点补充第一序列化实体向量。如图11所示,如“支付宝账号丢失”中“支付宝账号”在融合知识图谱中的上位扩展为“账号管理”和“淘宝账号”。支付宝账号丢失”中“丢失”在融合知识图谱中的同位节点可以为“盗号”。根据“账号管理”、“淘宝账号”和“盗号”利用路径匹配算法获取“支付宝账号丢失”的匹配结果。
从而,根据相关匹配通过融合知识图谱表示及匹配方法找出最相关的知识,保证了相关结果的精确性。
示例的,在华为Vmall商城的智能客服***中引入融合知识图谱和匹配引擎装置。在实现过程中,融合知识图谱和匹配引擎装置通过Rest服务或者API方式提供服务。图12为本申请实施例提供的一种智能客服***的组件结构示意图。智能客服***包括Web/App前端、应用Rest服务、融合知识图谱构建表示器和文本匹配器。
Web/App前端用于处理用户输入的输入文本与显示匹配结果。在接收到输入文本后,如果通过知识匹配有合适的答案,则返回答案;否则,调用相关问题推荐接口,根据匹配计算找出与输入文本的匹配度较高的相关问题,作为显示结果。推荐的问题一般是标准问题库中的问题,所以如果用户点击推荐的问题,则直接返回相应的答案。
Rest服务接口调用。相关问题推荐、答案展示、反馈模型等以Rest方式部署在服务器上。其中,反馈模型用于收集用户反馈或评论信息(如,问题是否得到解决),这些信息用于对文本匹配计算得到的候选答案进行再过滤(如去掉用户反馈不好的候选答案)。服务启动后,加载相应的模型。Web/App前端通过javascript调用,并将结果返回格式化展示给用户。此模块主要作用是把结果对用户进行可视化展示。
部署融合知识图谱构建表示器时,首先通过领域专家人工定义找出同类型实体之间的相关关系,如华为手机与mate9存在上下位关系等。对于来源不同的实体知识,如荣耀v8手机和手机碎屏保险,这些实体通常具有完全不同的类型及概念描述,有可能是一对多或多对一复杂的关系,很难依靠人工预先定义。对此,可以通过本申请实施例所述的获取异构关系表示向量的挖掘方案,利用不同的实体概念描述等信息挖掘来源不同的实体知识之间的异构关系。在利用来源不同的数据离线构建好融合知识图谱后,将构建好的图谱部署到服务器上。服务器接收到请求后,对答案和用户输入问题进行知识化表示。把知识表示后的问题和答案传给下游进行计算。
部署文本匹配器时,将问答库中文本数据调用融合知识图谱转换成知识实体序列,然后将实体序列中的实体嵌入知识状态子图的状态转移条件之中。例如,荣耀v8与honorv8嵌入状态0和状态1的转移条件中。当用户输入荣耀8节省流量时,若荣耀8与荣耀v8或honorv8的融合知识图谱路径匹配度大于给定阈值时,则知识状态子图的状态完成一次转移。当状态转移到终止状态时(如状态3),用户输入文本与此问答库中文本数据匹配成功。
对于问答库中问题和答案调用图谱将问题文本转换成知识实体序列并构建知识状态子图模型。将知识状态子图部署后,与用户输入问题进行匹配计算,最后根据用户反馈信息对候选结果进行过滤排序。
从而,通过融合知识图谱,将非结构化的问题与答案文本知识序列化表示,此种表示不仅通过图谱的结构考虑了实体知识之间的关系(如,包含关系,接近关系等),而且通过图谱中维护的属性考虑了实体知识的别名或同义词,因此,极大的丰富了文本数据的信息,从而提升了文本的表示能力。另外,在问答匹配时,本申请所述的匹配方案通过知识状态子图可简化实现更加灵活和准确的匹配,从而提升智能客服***的准确度。
上述主要从各个网元之间交互的角度对本申请实施例提供的方案进行了介绍。可以理解的是,各个网元,例如文本处理装置或生成知识状态子图装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对文本处理装置或生成知识状态子图装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图13示出了上述和实施例中涉及的处理装置的一种可能的组成示意图,该处理装置能执行本申请各方法实施例中任一方法实施例中文本处理装置或生成知识状态子图装置所执行的步骤。如图13所示,该处理装置可以包括:分词处理单元1301、获取单元1302和处理单元1303。
其中,分词处理单元1301,用于支持处理装置执行图10所示的文本处理方法中的S1001,图6所示的生成知识状态子图方法中的S601。
获取单元1302,用于支持处理装置执行图4所示的文本处理方法中的S401和S402,图6所示的生成知识状态子图方法中的S602,图10所示的文本处理方法中的S1002和S1003。
处理单元1303,用于支持处理装置执行图4所示的文本处理方法中的S403,图6所示的生成知识状态子图方法中的S603,图10所示的文本处理方法中的S1004和S1005。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本申请实施例提供的处理装置,用于执行上述文本处理方法和生成知识状态子图方法,因此可以达到与上述文本处理方法和生成知识状态子图方法相同的效果。
在采用集成的单元的情况下,图14示出了上述实施例中所涉及的处理装置的另一种可能的组成示意图,该处理装置能执行本申请各方法实施例中任一方法实施例中文本处理装置或生成知识状态子图装置所执行的步骤。如图14所示,该处理装置包括:处理模块1401和通信模块1402。
处理模块1401用于对处理装置的动作进行控制管理,例如,处理模块1401用于支持处理装置执行上述分词处理单元1201、获取单元1202和处理单元1203所执行的步骤、和/或用于本文所描述的技术的其它过程。通信模块1402用于支持处理装置与其他网络实体的通信。处理装置还可以包括存储模块1403,用于存储处理装置的程序代码和数据。
其中,处理模块1401可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块1402可以是收发器、收发电路或通信接口等。存储模块1403可以是存储器。
当处理模块1401为处理器,通信模块1402为通信接口,存储模块1403为存储器时,本申请实施例所涉及的处理装置可以为图3所示的服务器。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (29)

1.一种基于融合知识图谱的文本处理方法,其特征在于,包括:
根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,所述第一分词文本包括至少一个分词;
根据所述第一分词文本获取第一序列化实体向量,所述第一序列化实体向量为所述第一分词文本的序列化实体向量,所述第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;
获取X个知识状态子图,所述X个知识状态子图中每个知识状态子图包括至少一个节点,所述节点表示知识自动机的状态,每个所述节点连接至少一条边,所述一条边对应一个实体向量,X为大于或等于1的整数;
利用路径匹配算法根据所述第一序列化实体向量中第i个实体向量、所述第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从所述X个知识状态子图中确定Y个目标知识状态子图,i为整数,i取1至Z,j为整数,j取1至X,k为整数,k取1至F,F为大于等于1的整数,F表示所述第j个知识状态子图包括的节点的个数,Y为大于等于0且小于等于X的整数;
将所述Y个目标知识状态子图对应的文本确定为所述输入文本的匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述利用路径匹配算法根据所述第一序列化实体向量中第i个实体向量、所述第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从所述X个知识状态子图中确定Y个目标知识状态子图,具体包括:
根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量,所述第一关系表示向量为所述第i个实体向量与所述第k个节点的边对应的实体向量之间的关系表示向量,所述至少一个第一关系表示向量包括同构关系表示向量和/或异构关系表示向量;
根据所述至少一个第一关系表示向量、所述第i个实体向量和所述第k个节点的边对应的实体向量获取第i实体向量路径值,所述第i实体向量路径值为所述第i个实体向量与所述第k个节点的边对应的实体向量的路径值;
判断所述第i实体向量路径值是否小于路径阈值;
若所述第i实体向量路径值小于所述路径阈值,确定所述第k个节点为所述第j知识状态子图的终止节点,将所述第j知识状态子图确定为目标知识状态子图。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量之前,所述方法还包括:
确定所述第i个实体向量对应的实体与所述第k个节点的边对应的实体向量对应的实体是否是同类型的实体;
若是,根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量。
4.根据权利要求3所述的方法,其特征在于,在所述判断所述第i实体向量路径值是否小于路径阈值之后,所述方法还包括:
若所述第i实体向量路径值小于所述路径阈值,确定所述第k个节点不是所述第j知识状态子图的终止节点,从所述第k个节点跳转到所述第j知识状态子图的第k+1个节点,k+1小于或等于F。
5.根据权利要求3所述的方法,其特征在于,在所述判断所述第i实体向量路径值是否小于路径阈值之后,所述方法还包括:
若所述第i实体向量路径值大于或等于所述路径阈值,确定所述第j知识状态子图停止跳转。
6.根据权利要求3所述的方法,其特征在于,若所述第j知识状态子图的第k个节点对应至少两条边,每条边对应一个实体向量,在所述判断所述第i实体向量路径值是否小于路径阈值之后,所述方法还包括:
若所述第i实体向量路径值大于或等于所述路径阈值,确定从所述第k个节点跳转到所述第k个节点。
7.根据权利要求1-6中任一项所述的方法,其特征在于,若Y=0,所述方法还包括:
基于所述融合知识图谱扩展所述第一序列化实体向量;
根据扩展后的所述第一序列化实体向量和所述路径匹配算法获取所述目标知识状态子图。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述根据所述第一分词文本获取第一序列化实体向量,具体包括:
根据所述第一分词文本从融合知识图谱获取所述第一序列化实体向量,所述融合知识图谱包括N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量和所述N个实体中的异构关系表示向量,所述N个实体来源于M个知识库,所述同构关系表示向量为来源于同一个知识库的实体之间的关系表示向量,所述异构关系表示向量为来源于不同知识库的实体之间的关系表示向量,不同的知识库包括不同类型的实体,N为大于等于2的整数,M为大于等于2的整数。
9.根据权利要求8所述的方法,其特征在于,在所述根据第一分词文本从融合知识图谱获取所述第一序列化实体向量之前,所述方法还包括:
利用知识抽取从知识源中获取N个实体、N个实体的实体概念描述和N个实体中的同构关系表示向量;
根据所述N个实体的实体概念描述获取所述N个实体中的异构关系表示向量;
根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量和所述N个实体中的异构关系表示向量构建融合知识图谱。
10.根据权利要求9所述的方法,其特征在于,所述根据所述N个实体的实体概念描述获取所述N个实体中的异构关系表示向量,具体包括:
根据第n个实体的实体概念描述获取所述第n个实体的实体概念描述对应的具有次序关系的Pn个关键词向量,Pn表示所述第n个实体的实体概念描述对应的具有次序关系的关键词向量的个数,Pn为大于等于1的整数,n为整数,n取1至N;
将N个实体的实体概念描述对应的具有次序关系的关键词向量输入到深度神经网络模型,得到N个实体向量;
获取所述N个实体向量的Q个关系表示向量,所述关系表示向量表示所述N个实体向量中任意两个实体向量之间的关系,Q为大于等于1的整数;
根据所述Q个关系表示向量和关系表示向量阈值确定所述N个实体中的异构关系表示向量。
11.根据权利要求9或10所述的方法,其特征在于,所述根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系和所述N个实体中的异构关系构建融合知识图谱,包括:
根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量、所述N个实体中的异构关系表示向量、所述N个实体的实体向量、别名向量和领域知识向量构建所述融合知识图谱,所述别名向量表示同一个实体的另一种名称的向量,所述领域知识向量表示实体所属的领域的向量。
12.根据权利要求9-11中任一项所述的方法,其特征在于,在构建融合知识图谱之后,所述方法还包括:
获取第n+1个实体的实体概念描述;
根据所述第n+1个实体的实体概念描述获取具有次序关系的Pn+1个关键词向量;
将具有次序关系的Pn+1个关键词向量输入到所述深度神经网络模型,得到所述第n+1个实体对应的实体向量;
获取所述第n+1个实体对应的实体向量和所述融合知识图谱中的实体向量间的关系表示向量;
根据所述第n+1个实体对应的实体向量和所述融合知识图谱中的实体向量间的关系表示向量将所述第n+1个实体和所述第n+1个实体对应的实体向量融入所述融合知识图谱,得到更新后的融合知识图谱。
13.一种生成知识状态子图的方法,其特征在于,包括:
根据分词技术对预设文本进行分词处理,得到第二分词文本;
根据所述第二分词文本获取第二序列化实体向量,所述第二序列化实体向量为所述第二分词文本的序列化实体向量,所述第二序列化实体向量包括S个按照逻辑顺序排序的实体向量,S为大于或等于1的整数;
根据所述第二序列化实体向量生成第一知识状态子图,所述第一知识状态子图包括W个节点,一个所述节点表示第一知识自动机的一个状态,所述W个节点中每个节点连接至少一条边,一条边对应一个实体向量。
14.一种文本处理装置,其特征在于,包括:
分词处理单元,用于根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,所述第一分词文本包括至少一个分词;
获取单元,用于根据所述第一分词文本获取第一序列化实体向量,所述第一序列化实体向量为所述第一分词文本的序列化实体向量,所述第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;
所述获取单元,还用于获取X个知识状态子图,所述X个知识状态子图中每个知识状态子图包括至少一个节点,所述节点表示知识自动机的状态,每个所述节点连接至少一条边,所述一条边对应一个实体向量,X为大于或等于1的整数;
处理单元,用于利用路径匹配算法根据所述第一序列化实体向量中第i个实体向量、所述第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从所述X个知识状态子图中确定Y个目标知识状态子图,i为整数,i取1至Z,j为整数,j取1至X,k为整数,k取1至F,F为大于等于1的整数,F表示所述第j个知识状态子图包括的节点的个数,Y为大于等于0且小于等于X的整数;
所述处理单元,还用于将所述Y个目标知识状态子图对应的文本确定为所述输入文本的匹配结果。
15.根据权利要求14所述的装置,其特征在于,所述处理单元,具体用于:
根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量,所述第一关系表示向量为所述第i个实体向量与所述第k个节点的边对应的实体向量之间的关系表示向量,所述至少一个第一关系表示向量包括同构关系表示向量和/或异构关系表示向量;
根据所述至少一个第一关系表示向量、所述第i个实体向量和所述第k个节点的边对应的实体向量获取第i实体向量路径值,所述第i实体向量路径值为所述第i个实体向量与所述第k个节点的边对应的实体向量的路径值;
判断所述第i实体向量路径值是否小于路径阈值;
若所述第i实体向量路径值小于所述路径阈值,确定所述第k个节点为所述第j知识状态子图的终止节点,将所述第j知识状态子图确定为目标知识状态子图。
16.根据权利要求15所述的装置,其特征在于,所述处理单元,还用于:
确定所述第i个实体向量对应的实体与所述第k个节点的边对应的实体向量对应的实体是否是同类型的实体;
若是,根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量。
17.根据权利要求16所述的装置,其特征在于,所述处理单元,具体用于:
若所述第i实体向量路径值小于所述路径阈值,确定所述第k个节点不是所述第j知识状态子图的终止节点,从所述第k个节点跳转到所述第j知识状态子图的第k+1个节点,k+1小于或等于F。
18.根据权利要求16所述的装置,其特征在于,所述处理单元,具体用于:
若所述第i实体向量路径值大于或等于所述路径阈值,确定所述第j知识状态子图停止跳转。
19.根据权利要求16所述的装置,其特征在于,若所述第j知识状态子图的第k个节点对应至少两条边,每条边对应一个实体向量,所述处理单元,具体用于:
若所述第i实体向量路径值大于或等于所述路径阈值,确定从所述第k个节点跳转到所述第k个节点。
20.根据权利要求14-19中任一项所述的装置,其特征在于,若Y=0,所述处理单元,还用于:
基于所述融合知识图谱扩展所述第一序列化实体向量;
根据扩展后的所述第一序列化实体向量和所述路径匹配算法获取所述目标知识状态子图。
21.根据权利要求14-20中任一项所述的装置,其特征在于,所述获取单元,具体用于:
根据所述第一分词文本从融合知识图谱获取所述第一序列化实体向量,所述融合知识图谱包括N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量和所述N个实体中的异构关系表示向量,所述N个实体来源于M个知识库,所述同构关系表示向量为来源于同一个知识库的实体之间的关系表示向量,所述异构关系表示向量为来源于不同知识库的实体之间的关系表示向量,不同的知识库包括不同类型的实体,N为大于等于2的整数,M为大于等于2的整数。
22.根据权利要求21所述的装置,其特征在于,
所述获取单元,还用于利用知识抽取从知识源中获取N个实体、N个实体的实体概念描述和N个实体中的同构关系表示向量;
所述获取单元,还用于根据所述N个实体的实体概念描述获取所述N个实体中的异构关系表示向量;
所述处理单元,还用于根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量和所述N个实体中的异构关系表示向量构建融合知识图谱。
23.根据权利要求22所述的装置,其特征在于,所述获取单元,具体用于:
根据第n个实体的实体概念描述获取所述第n个实体的实体概念描述对应的具有次序关系的Pn个关键词向量,Pn表示所述第n个实体的实体概念描述对应的具有次序关系的关键词向量的个数,Pn为大于等于1的整数,n为整数,n取1至N;
将N个实体的实体概念描述对应的具有次序关系的关键词向量输入到深度神经网络模型,得到N个实体向量;
获取所述N个实体向量的Q个关系表示向量,所述关系表示向量表示所述N个实体向量中任意两个实体向量之间的关系,Q为大于等于1的整数;
根据所述Q个关系表示向量和关系表示向量阈值确定所述N个实体中的异构关系表示向量。
24.根据权利要求22或23所述的装置,其特征在于,所述处理单元,具体用于:
根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量、所述N个实体中的异构关系表示向量、所述N个实体的实体向量、别名向量和领域知识向量构建所述融合知识图谱,所述别名向量表示同一个实体的另一种名称的向量,所述领域知识向量表示实体所属的领域的向量。
25.根据权利要求22-24中任一项所述的装置,其特征在于,
所述获取单元,还用于获取第N+1个实体的实体概念描述;
所述获取单元,还用于根据所述第N+1个实体的实体概念描述获取具有次序关系的Pn+1个关键词向量;
所述获取单元,还用于将具有次序关系的Pn+1个关键词向量输入到所述深度神经网络模型,得到所述第N+1个实体对应的实体向量;
所述获取单元,还用于获取所述第N+1个实体对应的实体向量和所述融合知识图谱中的实体向量间的关系表示向量;
所述处理单元,还用于根据所述第N+1个实体对应的实体向量和所述融合知识图谱中的实体向量间的关系表示向量将所述第N+1个实体和所述第N+1个实体对应的实体向量融入所述融合知识图谱,得到更新后的融合知识图谱。
26.一种生成知识状态子图装置,其特征在于,包括:
分词处理单元,用于根据分词技术对预设文本进行分词处理,得到第二分词文本;
获取单元,用于根据所述第二分词文本获取第二序列化实体向量,所述第二序列化实体向量为所述第二分词文本的序列化实体向量,所述第二序列化实体向量包括S个按照逻辑顺序排序的实体向量,S为大于或等于1的整数;
处理单元,用于根据所述第二序列化实体向量生成第一知识状态子图,所述第一知识状态子图包括W个节点,一个所述节点表示第一知识自动机的一个状态,所述W个节点中每个节点连接至少一条边,一条边对应一个实体向量。
27.一种设备,其特征在于,所述设备包括:一个或多个处理器、存储器和通信接口;
所述存储器、所述通信接口与所述一个或多个处理器连接;所述设备通过所述通信接口与其他设备通信,所述存储器用于存储计算机程序代码,所述计算机程序代码包括指令,当所述一个或多个处理器执行所述指令时,所述设备执行如权利要求1-12中任意一项所述的方法或权利要求13所述的方法。
28.一种计算机可读存储介质,其特征在于,包括:计算机软件指令;
当所述计算机软件指令在设备或内置在设备的芯片中运行时,使得所述设备执行如权利要求1-12中任意一项所述的方法或权利要求13所述的方法。
29.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在设备或内置在设备的芯片中运行时,使得所述设备执行如权利要求1-12中任意一项所述的方法或权利要求13所述的方法。
CN201810525849.9A 2018-05-28 2018-05-28 一种基于融合知识图谱的文本处理方法及装置 Active CN110609902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810525849.9A CN110609902B (zh) 2018-05-28 2018-05-28 一种基于融合知识图谱的文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810525849.9A CN110609902B (zh) 2018-05-28 2018-05-28 一种基于融合知识图谱的文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN110609902A true CN110609902A (zh) 2019-12-24
CN110609902B CN110609902B (zh) 2021-10-22

Family

ID=68887462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810525849.9A Active CN110609902B (zh) 2018-05-28 2018-05-28 一种基于融合知识图谱的文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN110609902B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209409A (zh) * 2019-12-27 2020-05-29 南京医康科技有限公司 数据匹配方法及装置、存储介质及电子终端
CN111428514A (zh) * 2020-06-12 2020-07-17 北京百度网讯科技有限公司 语义匹配方法、装置、设备以及存储介质
CN111460171A (zh) * 2020-03-30 2020-07-28 支付宝(杭州)信息技术有限公司 服务方的目标用户识别方法及装置
CN111625655A (zh) * 2020-05-12 2020-09-04 埃睿迪信息技术(北京)有限公司 基于知识图谱的归并以及分类方法、装置以及存储介质
CN111651613A (zh) * 2020-07-08 2020-09-11 海南大学 一种基于知识图谱嵌入的动态推荐方法及***
CN112084781A (zh) * 2020-09-10 2020-12-15 腾讯科技(深圳)有限公司 一种标准术语确定方法、装置及存储介质
CN112100343A (zh) * 2020-08-17 2020-12-18 深圳数联天下智能科技有限公司 一种扩充知识图谱的方法、电子设备及存储介质
CN112100406A (zh) * 2020-11-11 2020-12-18 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置
CN112258339A (zh) * 2020-09-29 2021-01-22 广东电力通信科技有限公司 一种基于电网***技术的数据处理储备方法及***
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN112528174A (zh) * 2020-11-27 2021-03-19 暨南大学 基于知识图谱和多重匹配的地址修整补全方法及应用
CN112668384A (zh) * 2020-08-07 2021-04-16 深圳市唯特视科技有限公司 一种知识图谱构建方法、***、电子设备及存储介质
CN112818092A (zh) * 2020-04-20 2021-05-18 腾讯科技(深圳)有限公司 知识图谱查询语句生成方法、装置、设备及存储介质
CN113139037A (zh) * 2021-03-18 2021-07-20 北京三快在线科技有限公司 文本处理方法、装置、设备以及存储介质
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN114328956A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 文本信息的确定方法、装置、电子设备及存储介质
CN116090458A (zh) * 2022-12-20 2023-05-09 北京邮电大学 医学信息抽取方法、装置、电子设备及存储介质
CN116842109A (zh) * 2023-06-27 2023-10-03 北京大学 信息检索知识图谱嵌入方法、装置和计算机设备
CN117743376A (zh) * 2024-02-19 2024-03-22 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
US20160378851A1 (en) * 2015-06-25 2016-12-29 International Business Machines Corporation Knowledge Canvassing Using a Knowledge Graph and a Question and Answer System
US20170103337A1 (en) * 2015-10-08 2017-04-13 International Business Machines Corporation System and method to discover meaningful paths from linked open data
CN107679124A (zh) * 2017-09-21 2018-02-09 北京航空航天大学 一种基于动态规划算法的知识图谱中文问答检索方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN107766377A (zh) * 2016-08-19 2018-03-06 华为技术有限公司 一种监控数据查询方法及装置
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160378851A1 (en) * 2015-06-25 2016-12-29 International Business Machines Corporation Knowledge Canvassing Using a Knowledge Graph and a Question and Answer System
US20170103337A1 (en) * 2015-10-08 2017-04-13 International Business Machines Corporation System and method to discover meaningful paths from linked open data
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN107766377A (zh) * 2016-08-19 2018-03-06 华为技术有限公司 一种监控数据查询方法及装置
CN107679124A (zh) * 2017-09-21 2018-02-09 北京航空航天大学 一种基于动态规划算法的知识图谱中文问答检索方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐增林等: "知识图谱技术综述 ", 《电子科技大学学报》 *
陈志云等: "基于知识图谱的智能答疑***研究 ", 《计算机应用与软件》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209409A (zh) * 2019-12-27 2020-05-29 南京医康科技有限公司 数据匹配方法及装置、存储介质及电子终端
CN111209409B (zh) * 2019-12-27 2023-09-29 医渡云(北京)技术有限公司 数据匹配方法及装置、存储介质及电子终端
CN111460171A (zh) * 2020-03-30 2020-07-28 支付宝(杭州)信息技术有限公司 服务方的目标用户识别方法及装置
CN111460171B (zh) * 2020-03-30 2023-04-07 支付宝(杭州)信息技术有限公司 服务方的目标用户识别方法及装置
CN112818092A (zh) * 2020-04-20 2021-05-18 腾讯科技(深圳)有限公司 知识图谱查询语句生成方法、装置、设备及存储介质
CN112818092B (zh) * 2020-04-20 2023-08-11 腾讯科技(深圳)有限公司 知识图谱查询语句生成方法、装置、设备及存储介质
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN111625655A (zh) * 2020-05-12 2020-09-04 埃睿迪信息技术(北京)有限公司 基于知识图谱的归并以及分类方法、装置以及存储介质
CN111428514A (zh) * 2020-06-12 2020-07-17 北京百度网讯科技有限公司 语义匹配方法、装置、设备以及存储介质
JP7108675B2 (ja) 2020-06-12 2022-07-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2021197133A (ja) * 2020-06-12 2021-12-27 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111651613A (zh) * 2020-07-08 2020-09-11 海南大学 一种基于知识图谱嵌入的动态推荐方法及***
CN112668384B (zh) * 2020-08-07 2024-05-31 深圳市唯特视科技有限公司 一种知识图谱构建方法、***、电子设备及存储介质
CN112668384A (zh) * 2020-08-07 2021-04-16 深圳市唯特视科技有限公司 一种知识图谱构建方法、***、电子设备及存储介质
CN112100343A (zh) * 2020-08-17 2020-12-18 深圳数联天下智能科技有限公司 一种扩充知识图谱的方法、电子设备及存储介质
CN112084781B (zh) * 2020-09-10 2024-04-12 腾讯科技(深圳)有限公司 一种标准术语确定方法、装置及存储介质
CN112084781A (zh) * 2020-09-10 2020-12-15 腾讯科技(深圳)有限公司 一种标准术语确定方法、装置及存储介质
CN112258339A (zh) * 2020-09-29 2021-01-22 广东电力通信科技有限公司 一种基于电网***技术的数据处理储备方法及***
CN112131882B (zh) * 2020-09-30 2024-02-13 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置
CN112100406A (zh) * 2020-11-11 2020-12-18 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN112528174A (zh) * 2020-11-27 2021-03-19 暨南大学 基于知识图谱和多重匹配的地址修整补全方法及应用
CN112528046B (zh) * 2020-12-25 2023-09-15 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN113139037A (zh) * 2021-03-18 2021-07-20 北京三快在线科技有限公司 文本处理方法、装置、设备以及存储介质
CN114328956A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 文本信息的确定方法、装置、电子设备及存储介质
CN116090458A (zh) * 2022-12-20 2023-05-09 北京邮电大学 医学信息抽取方法、装置、电子设备及存储介质
CN116842109A (zh) * 2023-06-27 2023-10-03 北京大学 信息检索知识图谱嵌入方法、装置和计算机设备
CN117743376A (zh) * 2024-02-19 2024-03-22 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质
CN117743376B (zh) * 2024-02-19 2024-05-03 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质

Also Published As

Publication number Publication date
CN110609902B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN110609902B (zh) 一种基于融合知识图谱的文本处理方法及装置
JP6975377B2 (ja) テキスト相関度を確定するためのコンピュータ実施方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110263180B (zh) 意图知识图谱生成方法、意图识别方法及装置
AU2011269676B2 (en) Systems of computerized agents and user-directed semantic networking
CN110019732B (zh) 一种智能问答方法以及相关装置
CN109522465A (zh) 基于知识图谱的语义搜索方法及装置
US20170262433A1 (en) Language translation based on search results and user interaction data
CN112765322B (zh) 基于水利领域知识图谱的遥感影像搜索推荐方法
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN111539197A (zh) 文本匹配方法和装置以及计算机***和可读存储介质
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN113887941A (zh) 业务流程生成方法、装置、电子设备及介质
Partyka et al. Enhanced geographically typed semantic schema matching
Wei et al. Online education recommendation model based on user behavior data analysis
Mata-Rivera et al. A collaborative learning approach for geographic information retrieval based on social networks
CN116578729B (zh) 内容搜索方法、装置、电子设备、存储介质和程序产品
Raad et al. Constructing and cleaning identity graphs in the LOD cloud
CN114780700A (zh) 基于机器阅读理解的智能问答方法、装置、设备及介质
CN110781283B (zh) 连锁品牌词库生成方法、装置以及电子设备
CN113590792A (zh) 用户问题的处理方法、装置和服务器
CN115526177A (zh) 对象关联模型的训练
Martins Geographically aware web text mining
GENTILE Using Flickr geotags to find similar tourism destinations
Li et al. A hypergraph-based method for pharmaceutical data similarity retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant