CN109840255B - 答复文本生成方法、装置、设备及存储介质 - Google Patents

答复文本生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109840255B
CN109840255B CN201910020809.3A CN201910020809A CN109840255B CN 109840255 B CN109840255 B CN 109840255B CN 201910020809 A CN201910020809 A CN 201910020809A CN 109840255 B CN109840255 B CN 109840255B
Authority
CN
China
Prior art keywords
question
reply
keyword
target
grammar structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910020809.3A
Other languages
English (en)
Other versions
CN109840255A (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910020809.3A priority Critical patent/CN109840255B/zh
Publication of CN109840255A publication Critical patent/CN109840255A/zh
Application granted granted Critical
Publication of CN109840255B publication Critical patent/CN109840255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,公开了一种答复文本生成方法、装置、设备及存储介质,所述方法包括以下步骤:通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本。本发明能够提高对文本解析的准确度,并能够提高提问文本和答复文本之间的契合度。

Description

答复文本生成方法、装置、设备及存储介质
技术领域
本发明涉及语义解析技术领域,尤其涉及一种答复文本生成方法、装置、设备及存储介质。
背景技术
问答***是指,能够根据用户输入的提问文本自动生成答复文本的***,在智能客服、机器聊天等技术领域有广泛的应用。在问答***中,用户输入的提问文本通常为按照自然语言写成,由于自然语言不能直接为计算机所理解,故需要根据自然语言生成规范语义表示(formal meaning representation),计算机才能根据规范语义表示,对用户所提出的问题进行理解,这样计算机才能够对用户提出的问题进行作答。现有技术中的生成规范语义表示通常为按照结构化查询语言(Structured Query Language,SQL)写成的结构化查询语句,然而,结构化查询语句本身的语法序列限制,会与自然语言的多样性在一定程度上无法契合,使得对提问文本的解析结果容易出现偏差,且导致生成的答复文本与提问文本之间的契合度也不高,不能满足用户需要。
发明内容
本发明的主要目的在于提供了一种答复文本生成方法、装置、设备及存储介质,旨在解决如何提高生成的答复文本与提问文本之间的契合度的技术问题。
为实现上述目的,本发明提供了一种答复文本生成方法,所述答复文本生成方法包括以下步骤:
提取提问文本中的提问关键词;
通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;
在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;
根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本。
优选地,所述双向循环神经网络包括第一单向循环神经网络和第二单向循环神经网络;
通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据的步骤,具体包括:
通过所述第一单向循环神经网络提取各提问关键词的上文数据;
通过所述第二单向循环神经网络提取各提问关键词的下文数据;
根据与每一提问关键词对应的上文数据和下文数据,生成与各提问关键词对应的上下文数据。
优选地,根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则的步骤,具体包括:
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标提问语法结构;
根据所述目标提问语法结构,查找多个对应的答复语法结构;
随机选取所述多个答复语法结构的其中之一,作为目标答复语法结构;
根据所述目标答复语法结构,获取与所述目标答复语法结构相关联的词语提取规则。
优选地,根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标提问语法结构的步骤,具体包括:
根据各提问关键词,获得多个待选语法结构树;
根据各提问关键词以及与各提问关键词对应的上下文数据,选取所述多个待选语法结构树的其中之一,将选取的待选语法结构树作为目标提问语法结构。
优选地,根据各提问关键词以及与各提问关键词对应的上下文数据,选取所述多个待选语法结构树的其中之一,将选取的待选语法结构树作为目标提问语法结构的步骤,具体包括:
根据与各提问关键词对应的上下文数据,获取各提问关键词对应的词性;
根据各提问关键词以及与各提问关键词对应的词性,计算所述多个待选语法树的各自的置信概率;
选取所述多个待选语法树中置信概率最大的一个,将选取的待选语法树作为目标提问语法结构。
优选地,提取提问文本中的提问关键词的步骤中,所述提问关键词包括疑问词以及非疑问词;
在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表的步骤,具体包括:
根据各疑问词,在图形数据库中查找与各非疑问词对应的关联内容;
根据各非疑问词和查找到的关联内容生成关系数据表。
优选地,根据各疑问词,在图形数据库中查找与各非疑问词对应的关联内容的步骤,具体包括:
在图形数据库中查找与第一限定词对应的节点,将查找到的节点作为初始节点;
根据所述疑问词,确定查找用关系类型;
根据所述初始节点和所述查找用关系类型,在图形数据库中查找目标节点;
将查找到的目标节点对应的内容作为与所述第一限定词对应的关联内容。
此外,为实现上述目的,本发明还提出一种答复文本生成装置,包括:
提取模块,用于提取提问文本中的提问关键词;
获取模块,用于通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;
所述获取模块还用于根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;
生成模块,在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;
所述生成模块还用于根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本。
此外,为实现上述目的,本发明还提出一种答复文本生成设备,所述答复文本生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的答复文本生成程序,所述答复文本生成程序配置为实现如上文所述的答复文本生成方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有答复文本生成程序,所述答复文本生成程序被处理器执行时实现如上文所述的答复文本生成方法的步骤。
本发明的技术方案中,经提取提问文本中的提问关键词;通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本,利于提高对文本解析的准确度,并能够提高提问文本和答复文本之间的契合度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的答复文本生成设备的结构示意图;
图2为本发明答复文本生成方法第一实施例的流程示意图;
图3为本发明答复文本生成方法第二实施例的流程示意图;
图4为本发明答复文本生成方法第三实施例的流程示意图;
图5为本发明答复文本生成方法第四实施例的流程示意图;
图6为本发明答复文本生成装置的第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的答复文本生成设备结构示意图。
如图1所示,该答复文本生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对答复文本生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及答复文本生成程序。
在图1所示的答复文本生成设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明答复文本生成设备中的处理器1001、存储器1005可以设置在答复文本生成设备中,所述答复文本生成设备通过处理器1001调用存储器1005中存储的答复文本生成程序,并执行本发明实施例提供的答复文本生成方法。
本发明实施例提供了一种答复文本生成方法,参照图2,图2为本发明答复文本生成方法第一实施例的流程示意图。
本实施例中,所述答复文本生成方法包括以下步骤:
步骤S100:提取提问文本中的提问关键词;
需要说明的是,所述提问文本为记载有用户提出问题的文本,具体地,所述提问文本可以由用户文字输入,也可以由用户语音输入。所述提问关键词为能够反映所述提问文本内容的词,比如在提问文本“What is the name of the president in America?”中,提取的提问关键词可以包括“what”、“name”、“president”和“America”,可理解的是,提取的提问关键词中可以包含疑问词和非疑问词,其中,根据英语语法上的分类,“what”为疑问词,“name”和“president”和“America”为非疑问词,所述提问关键词也可以仅包括非疑问词。
在具体实现中,可以通过分词方法(比如基于词典的分词方法)对提问文本进行分词处理,以得到提问关键词,既可以将分词处理得到的所有词均作为提问关键词,也可以根据词性等因素,对分词处理得到词进行一定程度的筛选,将经筛选得到的词作为提问关键词。
步骤S200:通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;
需要说明的是,所述上下文数据是指,能够反映各提问关键词的上下文的数据。可理解的是,自然语言中常会出现一词多义的情况,比如:英语中的“can”既可以作为情态动词表示“能够”,也可以作为名词表示“罐头”,本步骤中通过获取上下文数据,利于对词的含义进行正确解析,进而利于正确解析提问文本的语法结构。循环神经网络(RecurrentNeural Network,RNN)是一种节点定向连接成环的人工神经网络,循环神经网络常用于处理包含序列结构的信息,可用于提取文本中具有一定特征的数据。然而,标准的循环神经网络在时序上处理序列时,通常不能对未来的上下文信息进行访问。双向循环神经网络(Bidirectional Recurrent Neural Network,BRNN)为一种改进后的循环神经网络,双向循环神经网络通常由两个标准的循环神经网络叠加而组成,这样双向循环神经网络中的每一个训练序列向相反的方向可以分别形成两个循环神经网络。双向循环神经网络与标准的循环神经网络相比,对文本中的上下文数据进行提取更加准确。
本发明对于通过双循环神经网络对所述提问文本进行处理的具体步骤不作限制,在具体实现中,所述双向循环神经网络可以包括第一单向循环神经网络和第二单向循环神经网络,所述步骤S200具体可以包括:通过所述第一单向循环神经网络提取各提问关键词的上文数据;通过所述第二单向循环神经网络提取各提问关键词的下文数据;根据与每一提问关键词对应的上文数据和下文数据,生成与各提问关键词对应的上下文数据。具体地,可以通过将各提问关键词的上文数据和下文数据进行简单的合并,以获得各提问关键词的上下文数据。
步骤S300:根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;
需要说明的是,所述目标答复语法结构是指,生成的答复文本所采用的语法结构,所述目标语法结构具体可以为“主语(subject,S)+谓语(predicate,P)+宾语(O,object)”。所述词语提取规则是指,对于答复文本的词汇进行提取的规则,具体地,本实施例中是指,从关系数据表(参见下述步骤S400)中提取词汇的规则。
在具体实现中,应预先设置多个答复语法结构,并对应不同的答复语法结构设置对应的词语提取规则,并可以将答复语法结构和对应的词语提取规则关联存储,以供在提取目标答复语法结构时,能够通过关联关系获取相关联的词语提取规则。而在自然语言的问答中,提问文本和答复文本通常具有语法结构上的对应关系,故进一步利用提问文本和答复文本在语法结构上的对应关系,可以得到答复文本采用的语法结构。根据部分提问文本,也可以直接将根据各提问关键词以及与各提问关键词对应的上下文数据得到的提问文本的语法结构,作为所述目标答复语法结构,举例而言,对于提问文本“What is the nameof the president in America?”,可以采用与该提问文本相同的语法结构作答,比如,答复文本可以为“Trump is the name of the president in America”。
值得注意的是,在步骤S100中提取的提问关键词可以不包含提问文本中的疑问词,这不会影响对提问文本语法结构的解析,比如:根据词的序列“What is the name ofthe president in America”或者词的序列“is the name of the president inAmerica”进行语法解析,能够得到基本相同的语法结构。
可理解的是,由于本实施例中,对语法结构的解析,利用了通过双循环神经网络获取的上下文数据,使得获取的目标答复语法结构能够与上下文语境相符合,利于提高对文本解析的准确度。
步骤S400:在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;
需要说明的是,所述图形数据库为利用应用图形理论存储实体之间的关系信息的数据库,所述图形数据库具体为由表示实体的节点以及表示实体之间的关系的边,形成的对象图(graph),以实现建模,其中,节点和边都可以有自己的属性。不同实体根据不同类型的关系关联起来,以形成复杂的对象图。与采用通过表与表之间的关系实现建模的关系型数据库相比,图形数据库中对象之间的连接更加直接,因而,图形数据库能够具有更快的反应速度。本实施例中,采用的所述图像数据库具体可以为Neo4J等。所述关联内容是指,在图形数据库中与提问关键词具有特定关系的内容,可理解的是,与提问关键词具有特定关系的内容,通常能够被用于对提问文本的答复。所述关系数据表是指,能够反映各提问关键词以及对应的关联内容之间的关系的表,在具体实现中,可以将提问关键词作为所述关系数据表的列名,而将对应的关联内容作为列值,具体地,所述关系数据表可以如下所示:
表1关系数据表的一示例
请参见上表,在如上关系数据表中,第一行记载的为列名,后续的各行记载的为列值。值得注意的是,在步骤S100中提取的提问关键词可以不包含提问文本中的疑问词,即上表中可以不包含列名为“What”的一列,可理解的是,这种情况下,通过在关系数据表中提取词语,同样可以生成答复文本。
步骤S500:根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本。
需要说明的是,关系数据表中的数据可以不按照表1所示的方式排列,对于按照不同方式排列的关系数据表,所述词语提取规则应当针对性地根据关系数据表的既定排列方式设置,这样才能准确地取用所述关系数据表中的词,以生成答复文本。
在具体实现中,可以根据所述词语提取规则自所述关系数据表中提取生成答复文本所需要用到的词,将生成答复文本所需要用到的词按照所述目标答复语法结构进行排列,即可以得到所述答复文本。具体地,假如提问文本为“What is the name of thepresident in America?”,所述关系数据表如表1所示,所述目标答复语法结构为“主语+谓语+宾语+定语”,提取规则为:主语为“name”所在列中与其他列名关联性最大的列值,宾语、定语为根据列名确定,那么可以得到答复文本“Trump is the name of the president inAmerica”。其中,根据提取规则,“name”所在列中与其他列名关联性的大小,可以通过查询预设的词汇关系表获得,所述预设的词汇关系表可以通过统计图形数据库中节点之间的连接状况获得。
可理解的是,由于本实施例中,答复文本为根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成,能够提高答复文本与自然语言在语法形式上的契合度,并能够使答复文本在答复规则上更加符合自然人的思考方式,进而利于提高提问文本和答复文本之间的契合度。
本实施例中,经提取提问文本中的提问关键词;通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本,利于提高对文本解析的准确度,并能够提高提问文本和答复文本之间的契合度。
参考图3,图3为本发明答复文本生成方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S300具体可以包括以下步骤:
步骤S310:根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标提问语法结构;
需要说明的是,所述目标提问语法结构是指,作为目标获取的提问文本的语法结构。可理解的是,自然语言中常会出现一词多义的情况,比如:英语中的“can”既可以作为情态动词表示“能够”,也可以作为名词表示“罐头”,本步骤中通过获取上下文数据,利于对词的含义进行正确解析,进而利于正确解析提问文本的语法结构。在具体实现中,所述上下文数据可以包括能够体现各提问关键词的词性以及能够体现各提问关键词之间修辞关系的数据。
步骤S320:根据所述目标提问语法结构,查找多个对应的答复语法结构;
需要说明的是,可以预先建立语法结构对应映射关系表,所述语法结构对应映射关系表能够体现提问语法结构和答复语法结构之间的对应关系。这样,通过查询语法结构对应映射关系表,能够根据所述目标提问语法结构查找到答复语法结构。
可理解的是,对于同一问句,在自然语言中通常可以采用多种不同的句式进行作答,举例而言,对于提问文本“What is the name of the president in America?”,可以答复“Trump is.”,也可以答复“Trump is the name of the president.”。由此可见,根据一种提问语法结构,可以设置多种可能的答复语法结构,以供选取。
步骤S330:随机选取所述多个答复语法结构的其中之一,作为目标答复语法结构;
可理解的是,本步骤中,通过随机抽取的方式获取目标答复语法结构,能够提高答复文本在形式上的多样性,从而使生成的答复文本更加接近于人工答复的结果,以提高用户体验。
步骤S340:根据所述目标答复语法结构,获取与所述目标答复语法结构相关联的词语提取规则。
可理解的是,本实施例中,先通过抽取获得目标答复语法结构,再根据所述目标答复语法结构,获取词语提取规则,使得在进行随机抽取之前,只需要获取多个答复语法结构,而不需要获取多个词语提取规则,这样利于减小本实施例实现的计算量。
本实施例中,通过先随机抽取的方式获取目标答复语法结构,再获取词语提取规则,能够提高答复文本在形式上的多样性,从而使生成的答复文本更加接近于人工答复的结果,以提高用户体验,并且能够减小计算量。
参考图4,图4为本发明答复文本生成方法第三实施例的流程示意图。
基于上述第二实施例,在本实施例中,所述步骤S310具体可以包括以下步骤:
步骤S311:根据各提问关键词,获得多个待选语法结构树;
需要说明的是,所述待选语法结构树是指呈树状的语法结构。在具体实现中,所述待选语法结构树可以通过各提问关键词在所述提问文本中的排序、提问关键词之间在形式上的修辞关系等因素获取,所述待选语法结构树具体可以通过上下文无关法等方法获取。可理解的是,通过程序生成的语法结构通常不能彻底地排除文本的歧义,故可获得的待选语法结构树通常为多个。进一步地,所述多个待选语法结构树可以采用不同的算法获取。
步骤S312:根据各提问关键词以及与各提问关键词对应的上下文数据,选取所述多个待选语法结构树的其中之一,将选取的待选语法结构树作为目标提问语法结构。
可理解的是,根据所述上下文数据能够更准确地确定各提问关键词在提问文本中的含义,从而能够据此选择所述多个待选语法结构树的其中之一作为目标提问语法结构。
本发明对于选择目标提问语法结构的具体方式不作限制,具体地,所述步骤S312可以包括如下步骤:根据与各提问关键词对应的上下文数据,获取各提问关键词对应的词性;根据各提问关键词以及与各提问关键词对应的词性,计算所述多个待选语法树的各自的置信概率;选取所述多个待选语法树中置信概率最大的一个,将选取的待选语法树作为目标提问语法结构。由于自然语言中,同一个词可能具有多个词性,故通过上下文数据确定各提问关键词的词性,利于排除各提问关键词的作为语法成分可能的分歧,从而利于正确地解析问题文本的语法结构。在具体实现中,可以基于马可夫链实现对各提问关键词的词性分析,从而获得各提问关键词的词性。
本实施例中,通过获得多个待选语法结构树,并根据各提问关键词以及与各提问关键词对应的上下文数据从中选取目标提问语法结构,利于避免对提问文本语法结构的解析错误,从而利于提高提问文本和答复文本之间的契合度。
参考图5,图5为本发明答复文本生成方法第四实施例的流程示意图。
基于上述第一实施例,在本实施例中,在所述步骤S100中,所述提问关键词包括疑问词以及非疑问词,所述步骤S400具体可以包括以下步骤:
S410:根据各疑问词,在图形数据库中查找与各非疑问词对应的关联内容;
可理解的是,对自然语言的作答通常需要针对疑问词进行,举例而言,对英语中的“when”作答,需要答复时间,对“where”作答,需要答复地点,而对“what”作答,通常需要答复名称。本实施例中,根据各疑问词在图形数据库中查找关联内容,能够使查找的关联内容与提问文本之间更加契合,从而利于提高提问文本和答复文本之间的契合度。
本发明对于根据疑问词查找相关内容的具体方式不作限制,具体地,可以利用图形数据库自带的检索功能,实现对关联内容的查找。为更加有针对性地在图形数据库中查找与各非疑问词对应的关联内容,本步骤具体可以包括:在图形数据库中查找与第一限定词对应的节点,将查找到的节点作为初始节点;根据所述疑问词,确定查找用关系类型;根据所述初始节点和所述查找用关系类型,在图形数据库中查找目标节点;将查找到的目标节点对应的内容作为与所述第一限定词对应的关联内容。可理解的是,图形数据库中,连接于不同节点之间的边通常具有属性,不同节点之间的边的属性,能够反映节点之间的关系类型。通过疑问词来确定查找用关系类型,并根据查找用关系类型来查找节点,能够更加有针对性地实现对关联内容的查找。
S420:根据各非疑问词和查找到的关联内容生成关系数据表。
需要说明的是,本实施例中,在不能根据疑问词在图形数据库中查找到相关内容的情况下,生成的关系数据表中,疑问词可以没有对应的关联内容。如上述表1所示,疑问词的相关内容可以为其他疑问词,答复文本中可以包含针对所述其他疑问词的答复内容,这样利于使用户的疑问得到更加全面地解答。
本实施例中,通过根据疑问词,查找非疑问词的相关内容,能够使查找的关联内容与提问文本之间更加契合,从而利于提高提问文本和答复文本之间的契合度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有答复文本生成程序,所述答复文本生成程序被处理器执行时实现如上文所述的答复文本生成方法的步骤。
参照图6,图6为本发明答复文本生成装置第一实施例的结构框图。
如图6所示,本发明实施例提出的答复文本生成装置包括:
提取模块100,用于提取提问文本中的提问关键词;
获取模块200,用于通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;
所述获取模块200还用于根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;
生成模块300,在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;
所述生成模块300还用于根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本。
本发明答复文本生成装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种答复文本生成方法,其特征在于,所述答复文本生成方法包括以下步骤:
提取提问文本中的提问关键词;
通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;
在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;
根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本;
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则的步骤,具体包括:
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标提问语法结构;
根据所述目标提问语法结构,查找多个对应的答复语法结构;
随机选取所述多个对应的答复语法结构的其中之一,作为目标答复语法结构;
根据所述目标答复语法结构,获取与所述目标答复语法结构相关联的词语提取规则;
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标提问语法结构的步骤,具体包括:
根据各提问关键词,获得多个待选语法结构树;
根据各提问关键词以及与各提问关键词对应的上下文数据,选取所述多个待选语法结构树的其中之一,将选取的待选语法结构树作为目标提问语法结构;
提取提问文本中的提问关键词的步骤中,所述提问关键词包括疑问词以及非疑问词;
在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表的步骤,具体包括:
根据各疑问词,在图形数据库中查找与各非疑问词对应的关联内容;
根据各非疑问词和查找到的关联内容生成关系数据表;
其中,所述词语提取规则是指从关系数据表中提取词汇的规则。
2.如权利要求1所述的答复文本生成方法,其特征在于,所述双向循环神经网络包括第一单向循环神经网络和第二单向循环神经网络;
通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据的步骤,具体包括:
通过所述第一单向循环神经网络提取各提问关键词的上文数据;
通过所述第二单向循环神经网络提取各提问关键词的下文数据;
根据与每一提问关键词对应的上文数据和下文数据,生成与各提问关键词对应的上下文数据。
3.如权利要求1所述的答复文本生成方法,其特征在于,根据各提问关键词以及与各提问关键词对应的上下文数据,选取所述多个待选语法结构树的其中之一,将选取的待选语法结构树作为目标提问语法结构的步骤,具体包括:
根据与各提问关键词对应的上下文数据,获取各提问关键词对应的词性;
根据各提问关键词以及与各提问关键词对应的词性,计算所述多个待选语法树的各自的置信概率;
选取所述多个待选语法树中置信概率最大的一个,将选取的待选语法树作为目标提问语法结构。
4.如权利要求3所述的答复文本生成方法,其特征在于,根据各疑问词,在图形数据库中查找与各非疑问词对应的关联内容的步骤,具体包括:
在图形数据库中查找与第一限定词对应的节点,将查找到的节点作为初始节点;
根据所述疑问词,确定查找用关系类型;
根据所述初始节点和所述查找用关系类型,在图形数据库中查找目标节点;
将查找到的目标节点对应的内容作为与所述第一限定词对应的关联内容。
5.一种答复文本生成装置,其特征在于,包括:
提取模块,用于提取提问文本中的提问关键词;
获取模块,用于通过双向循环神经网络对所述提问文本进行处理,获取与各提问关键词对应的上下文数据;
所述获取模块还用于根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则;
生成模块,在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表;
所述生成模块还用于根据所述目标答复语法结构、所述词语提取规则和所述关系数据表生成答复文本;
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标答复语法结构以及与所述目标答复语法结构相关联的词语提取规则,具体包括:
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标提问语法结构;
根据所述目标提问语法结构,查找多个对应的答复语法结构;
随机选取所述多个对应的答复语法结构的其中之一,作为目标答复语法结构;
根据所述目标答复语法结构,获取与所述目标答复语法结构相关联的词语提取规则;
根据各提问关键词以及与各提问关键词对应的上下文数据,获取目标提问语法结构,具体包括:
根据各提问关键词,获得多个待选语法结构树;
根据各提问关键词以及与各提问关键词对应的上下文数据,选取所述多个待选语法结构树的其中之一,将选取的待选语法结构树作为目标提问语法结构;
提取提问文本中的提问关键词的步骤中,所述提问关键词包括疑问词以及非疑问词;
在图形数据库中查找与各提问关键词对应的关联内容,根据各提问关键词以及查找到的关联内容生成关系数据表,具体包括:
根据各疑问词,在图形数据库中查找与各非疑问词对应的关联内容;
根据各非疑问词和查找到的关联内容生成关系数据表;
其中,所述词语提取规则是指从关系数据表中提取词汇的规则。
6.一种答复文本生成设备,其特征在于,所述答复文本生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的答复文本生成程序,所述答复文本生成程序配置为实现如权利要求1至4中任一项所述的答复文本生成方法的步骤。
7.一种存储介质,其特征在于,所述存储介质上存储有答复文本生成程序,所述答复文本生成程序被处理器执行时实现如权利要求1至4任一项所述的答复文本生成方法的步骤。
CN201910020809.3A 2019-01-09 2019-01-09 答复文本生成方法、装置、设备及存储介质 Active CN109840255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910020809.3A CN109840255B (zh) 2019-01-09 2019-01-09 答复文本生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910020809.3A CN109840255B (zh) 2019-01-09 2019-01-09 答复文本生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109840255A CN109840255A (zh) 2019-06-04
CN109840255B true CN109840255B (zh) 2023-09-19

Family

ID=66883726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910020809.3A Active CN109840255B (zh) 2019-01-09 2019-01-09 答复文本生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109840255B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309282B (zh) * 2019-06-14 2021-08-27 北京奇艺世纪科技有限公司 一种答案确定方法及装置
CN110309378B (zh) * 2019-06-28 2023-06-09 深圳前海微众银行股份有限公司 一种问题答复的处理方法、装置及***
CN110931012A (zh) * 2019-10-12 2020-03-27 深圳壹账通智能科技有限公司 答复消息生成方法、装置、计算机设备和存储介质
CN112199482B (zh) * 2020-09-30 2023-07-21 平安科技(深圳)有限公司 一种对话生成方法、装置、设备及可读存储介质
CN117033664B (zh) * 2023-09-28 2024-01-09 腾讯科技(深圳)有限公司 业务的序列图生成方法、装置、计算机设备和存储介质
CN117610506B (zh) * 2023-11-24 2024-04-30 中国人民解放军军事科学院***工程研究院 一种文本信息提取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN106469212A (zh) * 2016-09-05 2017-03-01 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答***设计方法
CN108595494A (zh) * 2018-03-15 2018-09-28 腾讯科技(深圳)有限公司 答复信息的获取方法及装置
WO2018226404A1 (en) * 2017-06-09 2018-12-13 Microsoft Technology Licensing, Llc Machine reasoning based on knowledge graph

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN106469212A (zh) * 2016-09-05 2017-03-01 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
WO2018040501A1 (zh) * 2016-09-05 2018-03-08 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答***设计方法
WO2018226404A1 (en) * 2017-06-09 2018-12-13 Microsoft Technology Licensing, Llc Machine reasoning based on knowledge graph
CN108595494A (zh) * 2018-03-15 2018-09-28 腾讯科技(深圳)有限公司 答复信息的获取方法及装置

Also Published As

Publication number Publication date
CN109840255A (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN109840255B (zh) 答复文本生成方法、装置、设备及存储介质
US11640515B2 (en) Method and neural network system for human-computer interaction, and user equipment
CN110222045B (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
US10496928B2 (en) Non-factoid question-answering system and method
US10503828B2 (en) System and method for answering natural language question
US20170177715A1 (en) Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
CN110717034A (zh) 一种本体构建方法及装置
US7676519B2 (en) Method and system for responding to requests relating to complex data maintained in a structured form
US20160275196A1 (en) Semantic search apparatus and method using mobile terminal
WO2001096980A2 (en) Method and system for text analysis
KR102292040B1 (ko) 기계 독해 기반 지식 추출을 위한 시스템 및 방법
US20130124194A1 (en) Systems and methods for manipulating data using natural language commands
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
US20200089756A1 (en) Preserving and processing ambiguity in natural language
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
US20220058349A1 (en) Data processing method, device, and storage medium
CN116991977B (zh) 一种基于大语言模型的领域向量知识精准检索方法及装置
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
KR20170122755A (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
WO2022022049A1 (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
Duan et al. A Neural Network-Powered Cognitive Method of Identifying Semantic Entities in Earth Science Papers
İnce Spell checking and error correcting application for Turkish
Dashti et al. Correcting real-word spelling errors: A new hybrid approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant