CN115827848B - 一种知识图谱事件抽取方法、装置、设备和存储介质 - Google Patents

一种知识图谱事件抽取方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115827848B
CN115827848B CN202310098317.2A CN202310098317A CN115827848B CN 115827848 B CN115827848 B CN 115827848B CN 202310098317 A CN202310098317 A CN 202310098317A CN 115827848 B CN115827848 B CN 115827848B
Authority
CN
China
Prior art keywords
text information
prediction
training corpus
graph
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310098317.2A
Other languages
English (en)
Other versions
CN115827848A (zh
Inventor
范顺国
曹梦佳
满昊扬
姚凯
侯圣文
陈金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202310098317.2A priority Critical patent/CN115827848B/zh
Publication of CN115827848A publication Critical patent/CN115827848A/zh
Application granted granted Critical
Publication of CN115827848B publication Critical patent/CN115827848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种知识图谱事件抽取方法、装置、设备和存储介质,所述方法包括:获取与用户输入的第一语音信息对应的文本信息,基于知识图谱,确定与文本信息对应的节点、属性和关系;知识图谱构建方式为:对训练语料进行关系抽取,得到与训练语料对应的预测关系;根据预测关系对训练语料进行节点抽取,得到与训练语料对应的预测节点;将预测关系与预测节点存储到预设图数据库构建知识图谱;根据节点、属性、关系以及预设图数据库,确定与文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,将第二语音信息进行输出。使对用户输入的语音信息的语义理解更加的准确。

Description

一种知识图谱事件抽取方法、装置、设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种知识图谱事件抽取方法、一种知识图谱事件抽取装置、一种电子设备和一种计算机可读存储介质。
背景技术
数字人的应用,可以代替人工与用户进行多轮对话,帮助用户解决相应的需求,因此数字人需要具备语义理解、语言生成、对话功能、知识库等多种功能,而其中难点在于语义理解的准确性和可拓展性的问题。现有技术中为了解决该问题采用模型进行二次训练的方式,但这种方式对语义的理解准确性较差,也无法适应特定的场景。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种知识图谱事件抽取方法、一种知识图谱事件抽取装置、一种电子设备和一种计算机可读存储介质。
第一方面,本发明实施例公开了一种知识图谱事件抽取方法,所述方法应用于语音***,所述语音***具有知识图谱,所述方法包括:
获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息;
基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系;所述知识图谱构建方式为:对训练语料进行关系抽取,得到与所述训练语料对应的预测关系;根据所述预测关系对所述训练语料进行节点抽取,得到与所述训练语料对应的预测节点;将所述预测关系与所述预测节点存储到预设图数据库构建所述知识图谱;
根据所述节点、所述属性、所述关系以及预设图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,将所述第二语音信息进行输出。
可选地,所述基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系,包括:
从所述知识图谱中确定与所述文本信息对应的所述节点;
根据预设的疑问词与所述文本信息,确定与所述文本信息对应的问句类型;
将所述节点对应的词条确定为与所述文本信息对应的实体;
根据所述问句类型、所述实体以及预设规则,确定与所述文本信息对应的所述属性和所述关系。
可选地,所述根据所述节点、所述属性、所述关系以及预设的图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,包括:
将所述节点、所述属性以及所述关系输入至预设查询语句,得到结果查询语句;
根据所述结果查询语句从预设图数据库中查询与所述文本信息匹配的所述事件抽取结果;
根据所述事件抽取结果与预设语序,生成所述第二语音信息。
可选地,所述对所述训练语料进行关系抽取,得到与所述训练语料对应的预测关系,包括:
收集训练语料对应的触发词;所述触发词为预先标注的数据;
确定与所述触发词对应的文本信息;
获取与所述文本信息相映射的第一特征;
获取与所述训练语料相映射的第二特征;
将所述第一特征与所述第二特征进行加权求和,得到第三特征;
将第三特征连接全连接层,并进行二分类得到所述预测关系。
可选地,所述根据所述预测关系对所述训练语料进行节点抽取,得到与所述训练语料对应的预测节点,包括:
确定所述训练语料中所有词到所述预测关系的相对距离;
获取与所述相对距离相映射的第四特征;
将所述第二特征与所述第四特征进行加权求和,得到第五特征;
将所述第五特征连接所述全连接层,并进行所述二分类得到所述预测节点。
可选地,所述获取与所述文本信息相映射的第一特征,包括:
将所述文本信息与所述触发词输入至基于变换器的双向编码器表示BERT模型,得到所述文本信息与所述触发词之间的第一向量,并将所述第一向量作为与所述文本信息相映射的所述第一特征。
可选地,所述获取与所述训练语料相映射的第二特征,包括:
将所述训练语料输入与所述触发词至基于变换器的双向编码器表示BERT模型,得到所述训练语料与所述触发词之间的第二向量,并将所述第二向量作为与所述训练语料相映射的所述第二特征。
可选地,所述获取与所述相对距离相映射的第四特征,包括:
将所述相对距离与所述预测节点输入至基于变换器的双向编码器表示BERT模型,得到所述相对距离与所述预测节点之间的第四向量,并将所述第四向量作为与所述相对距离相映射的所述第四特征。
可选地,所述获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息之前,还包括:
获取用户输入的启动语音;
检测所述启动语音中是否包含预设词条;
当所述启动语音中包含所述预设词条时,激活所述语音***,并输出提示语音;所述提示语音用于提示用户输入第一语音信息。
第二方面,本申请发明实施例公开了一种知识图谱事件抽取装置,所述装置用于与语音***,所述语音***具有知识图谱,所述装置包括:
第一获取模块,用于获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息;
确定模块,用于基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系;所述知识图谱构建方式为:对训练语料进行关系抽取,得到与所述训练语料对应的预测关系;根据所述预测关系对所述训练语料进行节点抽取,得到与所述训练语料对应的预测节点;将所述预测关系与所述预测节点存储到预设图数据库构建所述知识图谱;
输出模块,用于根据所述节点、所述属性、所述关系以及预设图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,将所述第二语音信息进行输出。
可选地,所述确定模块包括:
第一确定子模块,用于从所述知识图谱中确定与所述文本信息对应的所述节点;
第二确定子模块,用于根据预设的疑问词与所述文本信息,确定与所述文本信息对应的问句类型;
第三确定子模块,用于将所述节点对应的词条确定为与所述文本信息对应的实体;
第四确定子模块,用于根据所述问句类型、所述实体以及预设规则,确定与所述文本信息对应的所述属性和所述关系。
可选地,所述输出模块包括:
输入子模块,用于将所述节点、所述属性以及所述关系输入至预设查询语句,得到结果查询语句;
查询子模块,用于根据所述结果查询语句从预设图数据库中查询与所述文本信息匹配的所述事件抽取结果;
生成子模块,用于根据所述事件抽取结果与预设语序,生成所述第二语音信息。
可选地,所述确定模块包括:
收集子模块,用于收集训练语料对应的触发词;所述触发词为预先标注的数据;
第五确定子模块,用于确定与所述触发词对应的文本信息;
第一获取子模块,用户获取与所述文本信息相映射的第一特征;
第二获取子模块,用户获取与所述训练语料相映射的第二特征;
第一得到子模块,用于将所述第一特征与所述第二特征进行加权求和,得到第三特征;
第二得到子模块,用于将第三特征连接全连接层,并进行二分类得到所述预测关系。
可选地,确定模块包括:
第六确定子模块,用于确定所述训练语料中所有词到所述预测关系的相对距离;
第三获取子模块,用于获取与所述相对距离相映射的第四特征;
第三得到子模块,用于将所述第二特征与所述第四特征进行加权求和,得到第五特征;
第四得到子模块,用于将所述第五特征连接所述全连接层,并进行所述二分类得到所述预测节点。
可选地,所述第一获取子模块包括:
第一得到单元,用于将所述文本信息与所述触发词输入至基于变换器的双向编码器表示BERT模型,得到所述文本信息与所述触发词之间的第一向量,并将所述第一向量作为与所述文本信息相映射的所述第一特征。
可选地,所述第二获取子模块包括:
第二得到单元,用于将所述训练语料输入与所述触发词至基于变换器的双向编码器表示BERT模型,得到所述训练语料与所述触发词之间的第二向量,并将所述第二向量作为与所述训练语料相映射的所述第二特征。
可选地,所述第三获取子模块包括:
第三得到单元,用于将所述相对距离与所述预测节点输入至基于变换器的双向编码器表示BERT模型,得到所述相对距离与所述预测节点之间的第四向量,并将所述第四向量作为与所述相对距离相映射的所述第四特征。
可选地,所述装置还包括:
第二获取模块,用于获取用户输入的启动语音;
检测模块,用于检测所述启动语音中是否包含预设词条;
激活模块,用于当所述启动语音中包含所述预设词条时,激活所述语音***,并输出提示语音;所述提示语音用于提示用户输入第一语音信息。
第三方面,本申请示出了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的知识图谱事件抽取方法的步骤。
第四方面,本申请输出了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的知识图谱事件抽取方法的步骤。
本发明实施例包括以下优点:
本发明实施例中,获取用户输入的第一语音信息,并将第一语音信息转化为对应的文本信息,基于知识图谱,确定与文本信息对应的节点、属性和关系,其中,知识图谱构建方式为:对训练语料进行关系抽取,得到与训练语料对应的预测关系;根据预测关系对训练语料进行节点抽取,得到与训练语料对应的预测节点;将预测关系与预测节点存储到预设图数据库构建知识图谱,根据节点、属性、关系以及预设图数据库,确定与所述文本信息匹配的事件抽取结果,并根据事件抽取结果生成第二语音信息,将第二语音信息进行输出。相对比于现有技术而言,本发明的预测节点是由预测关系对训练语料进行节点抽取得到,充分利用了节点和关系的信息,使得得到的预测节点更加的精确,从而使对用户输入的语音信息的语义理解更加的准确。
附图说明
图1是本发明实施例提供的一种知识图谱事件抽取方法的步骤流程图;
图2是本发明实施例语音***的运作流程图;
图3本发明实施例提供的一种知识图谱事件抽取装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
现有技术中对语义的理解准确性较差,也无法适应特定的场景。本发明为了解决上述技术问题,通过获取用户输入的第一语音信息,基于知识图谱确定与第一语音信息对应的节点、属性和关系,根据节点、属性、关系以及预设图数据库,确定与第一语音信息匹配的事件抽取结果,并根据事件抽取结果生成第二语音信息,将第二语音信息进行输出。从而对语音信息的语义理解更加的准确。
参照图1,示出了本发明实施例提供的一种知识图谱事件抽取方法的步骤流程图,所述方法应用于语音***,所述语音***具有知识图谱,所述方法具体可以包括如下几个步骤:
步骤101,获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息。
在本发明实施例中,语音***可以具有知识图谱,知识图谱为预先构建,语音***可以具有数字人。数字人是运用数字技术创造出来的、与人类形象接近的数字化人物形象,在实际应用中,当激活语音***时,同时可以唤醒数字人,从而数字人可以代替人工与用户进行多轮语音互动。激活语音***后,可以获取用户输入的第一语音信息,并将语音信息转化为对应的文本信息。
在一实施例中,用户与语音***进行互动时,语音***可以获取用于输入的启动语音;检测启动语音中是否包含预设词条;当启动语音中包含预设词条时,激活语音***,并输出提示语音;其中,提示语音用于提示用户输入第一语音信息,预设词条可以为预先设置的具体词条,也可以是热度较高的词汇。例如:用户说“小A”时,检测到预测词条也为小A,此时可以激活语音***,同时也可以唤醒数字人,数字人唤醒后可以与用户进行语音对话,数字人可以输出提示语音,如“有什么可以帮助您的吗?”,从而提示并引导用户输入第一语音信息。
步骤102,基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系。
在本发明实施例中,将第一语音信息转化为对应的文本信息后,可以根据知识图谱确定出与文本信息对应的节点、属性和关系,其中,知识图谱构建方式可以为:对训练语料进行关系抽取,得到与训练语料对应的预测关系;根据预测关系对训练语料进行节点抽取,得到与训练语料对应的预测节点;将预测关系与预测节点存储到预设图数据库构建知识图谱。
在一实施例中,确定文本信息对应的节点、属性和关系可以通过如下方式进行:从知识图谱中确定与文本信息对应的节点;根据预设的疑问词与文本信息,确定与文本信息对应的问句类型;将所述节点对应的词条确定为与文本信息对应的实体;根据问句类型、实体以及预设规则,确定与文本信息对应的属性和所述关系。其中,预设规则可以为Nebula图数据库的规则。
在一实施例中,对训练语料进行关系抽取,得到与训练语料对应的预测关系,可以通过如下方式得到:收集训练语料对应的触发词;触发词为预先标注的数据;确定与触发词对应的文本信息;获取与文本信息相映射的第一特征;获取与训练语料相映射的第二特征;将第一特征与第二特征进行加权求和,得到第三特征;将第三特征连接全连接层,并进行二分类得到预测关系。例如:训练语料为“面对世界杯,中国男足开启全面备战”,其中“面对”与“备战”为预先标注的数据,即触发词,可以根据触发词“面对”与“备战”作为先验知识,从而获取到与文本信息相映射的第一特征,以及训练语料相映射的第二特征,根据第一特征与第二特征进行加权求和,得到第三特征,再将第三特征连接全连接层,并进行二分类(binary-classification)得到预测关系“开启”。
其中,可以将文本信息与触发词输入至基于变换器的双向编码器表示BERT(BidirectionalEncoder Representation from Transformers)模型,得到所述文本信息与所述触发词之间的第一向量,并将所述第一向量作为与所述文本信息相映射的所述第一特征。将训练语料输入与触发词至基于变换器的双向编码器表示BERT模型,得到训练语料与触发词之间的第二向量,并将第二向量作为与训练语料相映射的第二特征。
在一实施例中,根据预测关系对训练语料进行节点抽取,得到与训练语料对应的预测节点,可以通过如下方式得到:确定训练语料中所有词到预测关系的相对距离;获取与相对距离相映射的第四特征;将第二特征与第四特征进行加权求和,得到第五特征;将第五特征连接所述全连接层,并进行所述二分类得到所述预测节点。例如:训练语料为“面对世界杯,中国男足开启全面备战”,预测关系为“开启”,确定训练语料中所有词到预测关系的相对距离可以通过公式d=ax2+bx+c,其中,d为训练语料中所有词到预测关系的相对距离,x为训练语料中的词到预测关系“开启”的相对距离,a、b、c为超参,一般可以默认a=0,b=1,c=0。
其中,可以将相对距离与预测节点输入至基于变换器的双向编码器表示BERT模型,得到所述相对距离与所述预测节点之间的第四向量,并将所述第四向量作为与所述相对距离相映射的所述第四特征。例如:将相对距离与预测节点输入至BERT模型,得到第四特征后,将第二特征与第四特征进行加权求和,得到第五特征,将第五特征连接所述全连接层,并进行所述二分类得到所述预测节点为“中国男足”和“全面备战”。
步骤103,根据所述节点、所述属性、所述关系以及预设图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,将所述第二语音信息进行输出。
在本发明实施例中,确定与文本信息对应的节点、属性和关系后,可以根据节点、属性、关系以及数据库,确定出与文本信息匹配的事件抽取结果,并根据事件抽取结果生成第二语音信息,将第二语音信息输出至用户。
在一实施例中,第二语音信息可以通过如下方式生成:将节点、属性以及关系输入至预设查询语句,得到结果查询语句;根据结果查询语句从预设图数据库中查询与文本信息匹配的事件抽取结果;根据事件抽取结果与预设语序,生成所述第二语音信息。其中,预设查询语句可以为与Nebula图数据库对应的查询语句。例如:第一语音信息为“从A到B的买票方法有哪些”,预设语序为“买票的方法有”,那么生成的第二语音信息为先说买票的方法有,后面再继续说对应的事件抽取结果。
如图2所示,示出了本发明实施例语音***的运作流程图,先对训练语料进行关系抽取得到预测关系,再进行节点抽取,得到预测节点,然后根据预测关系和预测节点构建知识图谱,并导入至预设图数据库。在获取到用户输入的第一语音信息后,确定语音信息对应的节点、属性和关系,将节点、属性和关系输入至预设查询语句,从预设图数据库得到事件抽取结果,并根据事件抽取结果生成第二语音输出给用户。
在本发明实施例中,通过获取用户输入的第一语音信息,并将第一语音信息转化为对应的文本信息;基于知识图谱,确定与文本信息对应的节点、属性和关系;知识图谱构建方式为:对训练语料进行关系抽取,得到与训练语料对应的预测关系;根据预测关系对训练语料进行节点抽取,得到与训练语料对应的预测节点;将预测关系与预测节点存储到预设图数据库构建知识图谱;根据节点、属性、关系以及预设图数据库,确定与文本信息匹配的事件抽取结果,并根据事件抽取结果生成第二语音信息,将第二语音信息进行输出。从而使用户输入的语音信息的语义理解更加的准确。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明实施例提供的一种知识图谱事件抽取装置的结构框图,所述装置应用于于语音***,所述语音***具有知识图谱,所述装置包括:
第一获取模块301,用于获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息;
确定模块302,用于基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系;所述知识图谱构建方式为:对训练语料进行关系抽取,得到与所述训练语料对应的预测关系;根据所述预测关系对所述训练语料进行节点抽取,得到与所述训练语料对应的预测节点;将所述预测关系与所述预测节点存储到预设图数据库构建所述知识图谱;
输出模块303,用于根据所述节点、所述属性、所述关系以及预设图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,将所述第二语音信息进行输出。
可选地,所述确定模块302包括:
第一确定子模块,用于从所述知识图谱中确定与所述文本信息对应的所述节点;
第二确定子模块,用于根据预设的疑问词与所述文本信息,确定与所述文本信息对应的问句类型;
第三确定子模块,用于将所述节点对应的词条确定为与所述文本信息对应的实体;
第四确定子模块,用于根据所述问句类型、所述实体以及预设规则,确定与所述文本信息对应的所述属性和所述关系。
可选地,所述输出模块503包括:
输入子模块,用于将所述节点、所述属性以及所述关系输入至预设查询语句,得到结果查询语句;
查询子模块,用于根据所述结果查询语句从预设图数据库中查询与所述文本信息匹配的所述事件抽取结果;
生成子模块,用于根据所述事件抽取结果与预设语序,生成所述第二语音信息。
可选地,所述确定模块302包括:
收集子模块,用于收集训练语料对应的触发词;所述触发词为预先标注的数据;
第五确定子模块,用于确定与所述触发词对应的文本信息;
第一获取子模块,用户获取与所述文本信息相映射的第一特征;
第二获取子模块,用户获取与所述训练语料相映射的第二特征;
第一得到子模块,用于将所述第一特征与所述第二特征进行加权求和,得到第三特征;
第二得到子模块,用于将第三特征连接全连接层,并进行二分类得到所述预测关系。
可选地,确定模块302包括:
第六确定子模块,用于确定所述训练语料中所有词到所述预测关系的相对距离;
第三获取子模块,用于获取与所述相对距离相映射的第四特征;
第三得到子模块,用于将所述第二特征与所述第四特征进行加权求和,得到第五特征;
第四得到子模块,用于将所述第五特征连接所述全连接层,并进行所述二分类得到所述预测节点。
可选地,所述第一获取子模块包括:
第一得到单元,用于将所述文本信息与所述触发词输入至基于变换器的双向编码器表示BERT模型,得到所述文本信息与所述触发词之间的第一向量,并将所述第一向量作为与所述文本信息相映射的所述第一特征。
可选地,所述第二获取子模块包括:
第二得到单元,用于将所述训练语料输入与所述触发词至基于变换器的双向编码器表示BERT模型,得到所述训练语料与所述触发词之间的第二向量,并将所述第二向量作为与所述训练语料相映射的所述第二特征。
可选地,所述第三获取子模块包括:
第三得到单元,用于将所述相对距离与所述预测节点输入至基于变换器的双向编码器表示BERT模型,得到所述相对距离与所述预测节点之间的第四向量,并将所述第四向量作为与所述相对距离相映射的所述第四特征。
可选地,所述装置还包括:
第二获取模块,用于获取用户输入的启动语音;
检测模块,用于检测所述启动语音中是否包含预设词条;
激活模块,用于当所述启动语音中包含所述预设词条时,激活所述语音***,并输出提示语音;所述提示语音用于提示用户输入第一语音信息。
在本发明实施例中,通过第一获取模块,用于获取用户输入的第一语音信息,并将第一语音信息转化为对应的文本信息;确定模块,用于基于知识图谱,确定与文本信息对应的节点、属性和关系;知识图谱构建方式为:对训练语料进行关系抽取,得到与训练语料对应的预测关系;根据预测关系对训练语料进行节点抽取,得到与训练语料对应的预测节点;将预测关系与预测节点存储到预设图数据库构建知识图谱;输出模块,用于根据节点、属性、关系以及预设图数据库,确定与文本信息匹配的事件抽取结果,并根据事件抽取结果生成第二语音信息,将第二语音信息进行输出。从而使用户输入的语音信息的语义理解更加的准确。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述知识图谱事件抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述知识图谱事件抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种知识图谱事件抽取方法、一种知识图谱事件抽取装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种知识图谱事件抽取方法,其特征在于,所述方法应用于语音***,所述语音***具有知识图谱,所述方法包括:
获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息;
基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系;所述知识图谱构建方式为:对训练语料进行关系抽取,得到与所述训练语料对应的预测关系;根据所述预测关系对所述训练语料进行节点抽取,得到与所述训练语料对应的预测节点;将所述预测关系与所述预测节点存储到预设图数据库构建所述知识图谱;
根据所述节点、所述属性、所述关系以及预设图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,将所述第二语音信息进行输出;
所述对所述训练语料进行关系抽取,得到与所述训练语料对应的预测关系,包括:
收集训练语料对应的触发词;所述触发词为预先标注的数据;
确定与所述触发词对应的文本信息;
获取与所述文本信息相映射的第一特征;
获取与所述训练语料相映射的第二特征;
将所述第一特征与所述第二特征进行加权求和,得到第三特征;
将第三特征连接全连接层,并进行二分类得到所述预测关系;
所述根据所述预测关系对所述训练语料进行节点抽取,得到与所述训练语料对应的预测节点,包括:
确定所述训练语料中所有词到所述预测关系的相对距离;
获取与所述相对距离相映射的第四特征;
将所述第二特征与所述第四特征进行加权求和,得到第五特征;
将所述第五特征连接所述全连接层,并进行所述二分类得到所述预测节点。
2.根据权利要求1所述的知识图谱事件抽取方法,其特征在于,所述基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系,包括:
从所述知识图谱中确定与所述文本信息对应的所述节点;
根据预设的疑问词与所述文本信息,确定与所述文本信息对应的问句类型;
将所述节点对应的词条确定为与所述文本信息对应的实体;
根据所述问句类型、所述实体以及预设规则,确定与所述文本信息对应的所述属性和所述关系。
3.根据权利要求1所述的知识图谱事件抽取方法,其特征在于,所述根据所述节点、所述属性、所述关系以及预设的图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,包括:
将所述节点、所述属性以及所述关系输入至预设查询语句,得到结果查询语句;
根据所述结果查询语句从预设图数据库中查询与所述文本信息匹配的所述事件抽取结果;
根据所述事件抽取结果与预设语序,生成所述第二语音信息。
4.根据权利要求1所述的知识图谱事件抽取方法,其特征在于,所述获取与所述文本信息相映射的第一特征,包括:
将所述文本信息与所述触发词输入至基于变换器的双向编码器表示BERT模型,得到所述文本信息与所述触发词之间的第一向量,并将所述第一向量作为与所述文本信息相映射的所述第一特征。
5.根据权利要求1所述的知识图谱事件抽取方法,其特征在于,所述获取与所述训练语料相映射的第二特征,包括:
将所述训练语料输入与所述触发词至基于变换器的双向编码器表示BERT模型,得到所述训练语料与所述触发词之间的第二向量,并将所述第二向量作为与所述训练语料相映射的所述第二特征。
6.根据权利要求1所述的知识图谱事件抽取方法,其特征在于,所述获取与所述相对距离相映射的第四特征,包括:
将所述相对距离与所述预测节点输入至基于变换器的双向编码器表示BERT模型,得到所述相对距离与所述预测节点之间的第四向量,并将所述第四向量作为与所述相对距离相映射的所述第四特征。
7.根据权利要求1所述的知识图谱事件抽取方法,其特征在于,所述获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息之前,还包括:
获取用户输入的启动语音;
检测所述启动语音中是否包含预设词条;
当所述启动语音中包含所述预设词条时,激活所述语音***,并输出提示语音;所述提示语音用于提示用户输入第一语音信息。
8.一种知识图谱事件抽取装置,其特征在于,所述装置应用于语音***,所述语音***具有知识图谱,所述装置包括:
第一获取模块,用于获取用户输入的第一语音信息,并将所述第一语音信息转化为对应的文本信息;
确定模块,用于基于所述知识图谱,确定与所述文本信息对应的节点、属性和关系;所述知识图谱构建方式为:对训练语料进行关系抽取,得到与所述训练语料对应的预测关系;根据所述预测关系对所述训练语料进行节点抽取,得到与所述训练语料对应的预测节点;将所述预测关系与所述预测节点存储到预设图数据库构建所述知识图谱;
输出模块,用于根据所述节点、所述属性、所述关系以及预设图数据库,确定与所述文本信息匹配的事件抽取结果,并根据所述事件抽取结果生成第二语音信息,将所述第二语音信息进行输出;
所述确定模块包括:收集子模块,用于收集训练语料对应的触发词;所述触发词为预先标注的数据;第五确定子模块,用于确定与所述触发词对应的文本信息;第一获取子模块,用户获取与所述文本信息相映射的第一特征;第二获取子模块,用户获取与所述训练语料相映射的第二特征;第一得到子模块,用于将所述第一特征与所述第二特征进行加权求和,得到第三特征;第二得到子模块,用于将第三特征连接全连接层,并进行二分类得到所述预测关系;第六确定子模块,用于确定所述训练语料中所有词到所述预测关系的相对距离;第三获取子模块,用于获取与所述相对距离相映射的第四特征;
第三得到子模块,用于将所述第二特征与所述第四特征进行加权求和,得到第五特征;第四得到子模块,用于将所述第五特征连接所述全连接层,并进行所述二分类得到所述预测节点。
9.根据权利要求8所述的知识图谱事件抽取装置,其特征在于,所述确定模块包括:
第一确定子模块,用于从所述知识图谱中确定与所述文本信息对应的所述节点;
第二确定子模块,用于根据预设的疑问词与所述文本信息,确定与所述文本信息对应的问句类型;
第三确定子模块,用于将所述节点对应的词条确定为与所述文本信息对应的实体;
第四确定子模块,用于根据所述问句类型、所述实体以及预设规则,确定与所述文本信息对应的所述属性和所述关系。
10.根据权利要求8所述的知识图谱事件抽取装置,其特征在于,所述输出模块包括:
输入子模块,用于将所述节点、所述属性以及所述关系输入至预设查询语句,得到结果查询语句;
查询子模块,用于根据所述结果查询语句从预设图数据库中查询与所述文本信息匹配的所述事件抽取结果;
生成子模块,用于根据所述事件抽取结果与预设语序,生成所述第二语音信息。
11.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的知识图谱事件抽取方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的知识图谱事件抽取方法的步骤。
CN202310098317.2A 2023-02-10 2023-02-10 一种知识图谱事件抽取方法、装置、设备和存储介质 Active CN115827848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310098317.2A CN115827848B (zh) 2023-02-10 2023-02-10 一种知识图谱事件抽取方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310098317.2A CN115827848B (zh) 2023-02-10 2023-02-10 一种知识图谱事件抽取方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN115827848A CN115827848A (zh) 2023-03-21
CN115827848B true CN115827848B (zh) 2023-06-23

Family

ID=85521003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310098317.2A Active CN115827848B (zh) 2023-02-10 2023-02-10 一种知识图谱事件抽取方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115827848B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733792B (zh) * 2018-05-14 2020-12-01 北京大学深圳研究生院 一种实体关系抽取方法
CN110795532A (zh) * 2019-10-18 2020-02-14 珠海格力电器股份有限公司 一种语音信息的处理方法、装置、智能终端以及存储介质
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置
CN111597308A (zh) * 2020-05-19 2020-08-28 中国电子科技集团公司第二十八研究所 一种基于知识图谱的语音问答***及其应用方法
CN112507700A (zh) * 2020-11-26 2021-03-16 北京百度网讯科技有限公司 事件抽取方法、装置、电子设备及存储介质
CN114676270A (zh) * 2022-04-02 2022-06-28 中译语通科技股份有限公司 融合知识图谱的模型预训练方法、***、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任梦星.面向舰船知识领域的知识图谱构建关键技术研究.万方中国学位论文数据库.2020,全文. *

Also Published As

Publication number Publication date
CN115827848A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN109616108B (zh) 多轮对话交互处理方法、装置、电子设备及存储介质
CN109346059B (zh) 一种方言语音的识别方法及电子设备
CN108255934B (zh) 一种语音控制方法及装置
CN110111780B (zh) 数据处理方法和服务器
KR100772660B1 (ko) 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
WO2019046463A1 (en) SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
CN111858877A (zh) 多类型问题智能问答方法、***、设备及可读存储介质
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
CN111858876B (zh) 一种知识库的生成方法、文本查找方法和装置
CN111833849B (zh) 语音识别和语音模型训练的方法及存储介质和电子设备
CN108536807B (zh) 一种信息处理方法及装置
CN108710653B (zh) 一种绘本朗读点播方法、装置及***
CN112364622B (zh) 对话文本分析方法、装置、电子装置及存储介质
CN116910220A (zh) 多轮对话交互处理方法、装置、设备和存储介质
Wataraka Gamage et al. Speech-based continuous emotion prediction by learning perception responses related to salient events: A study based on vocal affect bursts and cross-cultural affect in AVEC 2018
CN116881470A (zh) 一种生成问答对的方法及装置
CN113515616B (zh) 一种基于自然语言的任务驱动***
US11615787B2 (en) Dialogue system and method of controlling the same
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN113343692A (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN111046674B (zh) 语义理解方法、装置、电子设备和存储介质
CN115827848B (zh) 一种知识图谱事件抽取方法、装置、设备和存储介质
CN111611793A (zh) 数据处理方法、装置、设备及存储介质
CN113033160B (zh) 对话的意图分类方法及设备和生成意图分类模型的方法
JP4504469B2 (ja) 音声信号により構成されるデータの信頼度決定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing

Patentee after: Tianyiyun Technology Co.,Ltd.

Address before: 100093 Floor 4, Block E, Xishan Yingfu Business Center, Haidian District, Beijing

Patentee before: Tianyiyun Technology Co.,Ltd.

CP02 Change in the address of a patent holder