CN109522419B - 会话信息补全方法及装置 - Google Patents

会话信息补全方法及装置 Download PDF

Info

Publication number
CN109522419B
CN109522419B CN201811361369.XA CN201811361369A CN109522419B CN 109522419 B CN109522419 B CN 109522419B CN 201811361369 A CN201811361369 A CN 201811361369A CN 109522419 B CN109522419 B CN 109522419B
Authority
CN
China
Prior art keywords
entity
word
relation
sentence
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811361369.XA
Other languages
English (en)
Other versions
CN109522419A (zh
Inventor
李军炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201811361369.XA priority Critical patent/CN109522419B/zh
Publication of CN109522419A publication Critical patent/CN109522419A/zh
Application granted granted Critical
Publication of CN109522419B publication Critical patent/CN109522419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种会话信息补全方法及装置,所述方法包括:获取当前语句及其上文语句;分别提取当前语句及其上文语句中的关键词,得到当前语句的关键词集合、上文语句的关键词集合、以及各关键词的类别;所述关键词集合包括:实体词集合和关系词集合;如果两个实体词集合中有满足第一条件的实体词对,则进行实体词对替换,得到候选语句;否则,检查两个关系词集合中是否有满足第二条件的关系词对;如果有,则进行关系词对替换,得到候选语句。利用本发明,可以提高对自然语言交互理解的智能性和准确性。

Description

会话信息补全方法及装置
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种会话信息补全方法及装置。
背景技术
人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。基于自然语言理解的人机交互是最方便的一种人机交互方式,在这种交互方式中,人们可以使用自然语言与机器对话,但对于多轮交互的场景,由于具有上下文堆栈特性,交互语句经常会出现不完整的现象,比如省略或指代上文提到的某个对象等,这种情况就会导致语义缺失,对于机器而言,对该语句的理解会出现偏差,进而会导致后续的应答或者操作错误。
因此,如何使机器能够在交互语句不完整的情况下正确理解交互对象的意图,是业界面临的一个重要问题。
发明内容
本发明实施例提供一种会话信息补全方法及装置,以提高对自然语言交互理解的智能性和准确性。
为此,本发明提供如下技术方案:
一种会话信息补全方法,所述方法包括:
获取当前语句及其上文语句;
分别提取当前语句及其上文语句中的关键词,得到当前语句的关键词集合、上文语句的关键词集合、以及各关键词的类别;所述关键词集合包括:实体词集合和关系词集合;
如果两个实体词集合中有满足第一条件的实体词对,则进行实体词对替换,得到候选语句;所述第一条件包括:两个实体词分别属于当前语句和上文语句,并且类别相同且相似度大于设定值;
否则,检查两个关系词集合中是否有满足第二条件的关系词对;所述第二条件包括:两个关系词分别属于当前语句和上文语句,并且两个关系词均存在于上文实体词的关系词集合中;
如果有,则进行关系词对替换,得到候选语句。
可选地,所述方法还包括:
预先构建知识图谱,所述知识图谱中包含多个词条,每个词条包括:实体词、所述实体词的关系词集合、所述实体词的权重;
根据上文语句的实体词W1对应的关系词集合、当前语句的实体词W2对应的关系词集合、以及所述实体词W1和实体词W2的权重,确定实体词W1与实体词W2的相似度。
可选地,按以下公式计算实体词W1与实体词W2的相似度:
score=len(last_entity_set&query_entity_set)/len(last_entity_set|query_en tity_set)+min((last_weight*query_weight)/max_weight_value,weight_thresh old);
其中,len(last_entity_set&query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的交集包含关系词的个数;
len(last_entity_set|query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的并集包含关系词的个数;
last_weight为实体词W1的权重;
query_weight为实体词W2的权重;
max_weight_value为预设的权重最大值;
weight_threshold为预设的权重阈值。
可选地,所述方法还包括:
分别检查所述上文语句的关系词集合及当前语句的关系词集合,如果有关系词存在于所述知识图谱的实体词集合中,则将其从关系词集合中去除。
可选地,所述方法还包括:
利用热搜检查所述候选语句,得到补全后语句;和/或
利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句。
可选地,所述利用热搜检查所述候选语句,得到补全后语句包括:
检查热搜库中是否有与所述候选语句相匹配的热搜词条;
如果有,则根据所述候选语句的长度及与所述候选语句相匹配的热搜词条的长度,计算得到所述候选语句的覆盖率,并将覆盖率大于设定的覆盖率阈值的候选语句作为补全后语句。
可选地,所述利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句包括:
利用预先构建的语言模型确定所述候选语句的流畅度得分;
将流畅度得分大于设定的流畅度阈值的候选语句作为补全后语句。
可选地,所述方法还包括:
如果得到了补全后语句,则输出所述补全后语句;
如果没有得到补全后语句,则输出当前语句。
一种会话信息补全装置,所述装置包括:
语句获取模块,用于获取当前语句及其上文语句;
关键词提取模块,用于分别提取当前语句及其上文语句中的关键词,得到当前语句的关键词集合、上文语句的关键词集合、以及各关键词的类别;所述关键词集合包括:实体词集合和关系词集合;
实体词处理模块,用于在两个实体词集合中有满足第一条件的实体词对时,进行实体词对替换,得到候选语句;所述第一条件包括:两个实体词分别属于当前语句和上文语句,并且类别相同且相似度大于设定值;
关系词处理模块,用于在没有满足第一条件的实体词时,检查两个关系词集合中是否有满足第二条件的关系词对,所述第二条件包括:两个关系词分别属于当前语句和上文语句,并且两个关系词均存在于上文实体词的关系词集合中;如果有,则进行关系词对替换,得到候选语句。
可选地,所述装置还包括:
知识图谱构建模块,用于预先构建知识图谱,所述知识图谱中包含多个词条,每个词条包括:实体词、所述实体词的关系词集合、所述实体词的权重;
所述实体词处理模块,还用于根据上文语句的实体词W1对应的关系词集合、当前语句的实体词W2对应的关系词集合、以及所述实体词W1和实体词W2的权重,确定实体词W1与实体词W2的相似度。
可选地,所述实体词处理模块按以下公式计算实体词W1与实体词W2的相似度:
score=len(last_entity_set&query_entity_set)/len(last_entity_set|query_en tity_set)+min((last_weight*query_weight)/max_weight_value,weight_thresh old);
其中,len(last_entity_set&query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的交集包含关系词的个数;
len(last_entity_set|query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的并集包含关系词的个数;
last_weight为实体词W1的权重;
query_weight为实体词W2的权重;
max_weight_value为预设的权重最大值;
weight_threshold为预设的权重阈值。
可选地,所述装置还包括:
清理模块,用于分别检查所述上文语句的关系词集合及当前语句的关系词集合,如果有关系词存在于所述知识图谱的实体词集合中,则将其从关系词集合中去除。
可选地,所述装置还包括:热搜检查模块、和/或流畅度检查模块;
所述热搜检查模块,用于利用热搜检查所述候选语句,得到补全后语句;
所述流畅度检查模块,用于利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句。
可选地,所述热搜检查模块包括:
匹配单元,用于检查热搜库中是否有与所述候选语句相匹配的热搜词条;
覆盖率计算单元,用于根据所述候选语句的长度及与所述候选语句相匹配的热搜词条的长度,计算得到所述候选语句的覆盖率,并将覆盖率大于设定的覆盖率阈值的候选语句作为补全后语句。
可选地,所述流畅度检查模块,具体用于利用预先构建的语言模型确定所述候选语句的流畅度得分;将流畅度得分大于设定的流畅度阈值的候选语句作为补全后语句。
可选地,所述装置还包括:
输出模块,用于输出所述补全后语句,或者在没有得到补全后语句时输出当前语句。
一种电子设备,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面所述的方法。
一种可读存储介质,其上存储有指令,所述指令被执行以实现前面所述的方法。
本发明实施例提供的会话信息补全方法及装置,分别提取当前语句及其上文语句中的关键词,得到当前语句的实体词集合和关系词集合、以及上文语句的实体词集合和关系词集合。针对两个实体词集合中的实体词,如果有满足第一条件的实体词对,则通过实体词对替换得到候选语句;否则,检查两个关系词集合中是否有满足第二条件的关系词对;如果有,则通过关系词对替换得到候选语句。本发明方案基于上下文中的关键词,简单、有效地实现对当前语句信息补全,可以大大提高处理速度,提高机器对自然语言交互理解的智能性和准确性,提升用户的使用体验。
进一步地,可以利用热搜和/或语言模型对得到的候选语句进行检查过滤,使输出的补全后语句更符合人类的自然语言表达。
本发明实施例提供的会话信息补全方法及装置,可以应用于多种领域,比如,信息抽取、机器翻译、文本摘要、人机交互***等。尤其是在人机交互***中,可以使机器通过不断学习,更好地适应人类口语的表达习惯,拟合人类的行为,提高用户使用体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例会话信息补全方法的应用环境示意图;
图2是本发明实施例会话信息补全方法的一种流程图;
图3是本发明实施例会话信息补全装置的一种框图;
图4是本发明实施例会话信息补全装置的另一种框图;
图5是本发明实施例会话信息补全装置的另一种框图;
图6是根据一示例性实施例示出的一种用于会话信息补全方法的装置的框图;
图7是本发明实施例中服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例提供一种会话信息补全方法及装置,分别提取当前语句及其上文语句中的关键词,得到当前语句的实体词集合和关系词集合、以及上文语句的实体词集合和关系词集合。针对两个实体词集合中的实体词,如果有满足第一条件的实体词对,则通过实体词对替换得到候选语句;否则,检查两个关系词集合中是否有满足第二条件的关系词对;如果有,则通过关系词对替换得到候选语句。
如图1所示,是本发明实施例会话信息补全方法的应用环境示意图。
在该应用环境下,交互设备101具有与人交互的功能,服务支持设备102为所述交互设备101提供会话信息补全的支持,可以提供实时的信息补全服务,也可以提供非实时的信息补全服务,对此不做限定。
其中,所述服务支持设备102可以是独立的终端、本地服务器、云服务器等。
交互设备101可以是但不限于:智能手机、平板电脑、笔记本电脑、计算机等。
以实时的人机会话应用为例,交互设备101接收到当前语句后,将该当前语句传送给服务支持设备102,服务支持设备102基于上文语句及当前语句对当前语句进行信息补全,如果得到补全后语句,则向交互设备101返回补全后语句,如果没有得到补全后语句,则向交互设备101返回当前语句。
需要说明的是,上述的应用环境只是一个示例,在实际应用中,也可以将服务支持设备102中的部分功能模块比如信息补全功能模块设置在交互设备101中,交互设备101接收到当前语句后,利用相应的信息补全功能模块对当前语句进行缺失信息补全,得到补全后语句。
如图2所示,是本发明实施例会话信息补全方法的一种流程图,包括以下步骤:
步骤201,获取当前语句及其上文语句。
所述上文语句可以是当前语句之前的一条或多条语句。在具体应用中,可以限定上文语句的长度。
步骤202,分别提取当前语句及其上文语句中的关键词,得到当前语句的关键词集合、上文语句的关键词集合、以及各关键词的类别;所述关键词集合包括:实体词集合和关系词集合。
关键词提取的一种方式可以是通过查找预先建立的关键词表来得到,所述关键词表中不仅包括关键词,而且还标识了各关键词的类型及所属类别。在本发明实施例中,关键词的类型包括:实体词、关系词等。所述实体词是指字面含义表达为一个实体,例如,人名、地名、机构名等均为实体词;所述关系词是指对实体词属性起限定作用的关键词,例如,身高、体重、导演、同学等为关系词。所述关键词表可以预先通过资源抓取及脚本抽取的方式得到,关键词所属类别可以根据应用需要进行划分,比如:人、保险、餐饮、书籍等。另外,对于实体词,在所述关键词表中还可以标识其权重。
关键词提取的另一种方式可以是基于知识图谱的字典来得到。比如,预先建立知识图谱,所述知识图谱中包含多个词条,每个词条包括:实体词、所述实体词的关系词集合、所述实体词的权重。
提取得到关键词后,再根据预先设定的类别集合确定各关键词所属类别。
例如,可以设置以下类别集合:
company_set=set(['公司','所属公司','公司性质','公司产品','公司理念','所属行业','经营范围','总部地址','股份公司','制造业上市公司','品牌定位','集团业务','公司口号','公司类型','发起公司','公司名称','上市代码','员工人数','企业文化','登记机关']);
food_set=set(['口味','适宜人群','主要食材','主要原料','制作材料','食谱相克','主料','辅料','调料','储藏方法','制作时间'])。
需要说明的是,由于一个实体词在不同的语境下可能会具有不同的含义,因此,同一个实体词可以分属于多个类别,不同类别下其关系词集合不同,权重不同,实体词ID不同。
另外需要说明的是,所述实体词的权重可以采用类似PageRank等计算网页权重的方法来确定。
步骤203,检查两个实体词集合中是否有满足第一条件的实体词对;如果有,则执行步骤204;否则,执行步骤205。
所述第一条件可以是两个实体词分别属于当前语句和上文语句,并且类别相同。进一步地,为了保证候选语句的准确性,还可以要求满足这两个类别相同的实体词相似度大于设定值这一条件。
两个实体词相似度的计算可以基于实体词的权重及其关键词集合来确定。比如,对于两个类别相同的实体词W1和W2,其中,实体词W1是上文语句的实体词集合中的一个实体词,实体词W2是当前语句的实体词集合中的一个实体词,可以按照以下公式计算实体词W1和W2的相似度:
score=len(last_entity_set&query_entity_set)/len(last_entity_set|query_en tity_set)+min((last_weight*query_weight)/max_weight_value,weight_thresh old);
其中,len(last_entity_set&query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的交集包含关系词的个数;
len(last_entity_set|query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的并集包含关系词的个数;
last_weight为实体词W1的权重;
query_weight为实体词W2的权重;
max_weight_value为预设的权重最大值;
weight_threshold为预设的权重阈值。
需要说明的是,由于会话通常语句比较简单,会话语句中大都只包含一个实体词,即使有多个实体词,通过上述相似度的计算,也会排除掉类别不同的实体词,也就是说,不满足上述相似度条件的情况下,也不会进行后续通过实体词对进行信息补全的操作。
另外,还有一种情况,上文语句中包含实体词,而当前语句中省略了实体词,在这种情况下,也不会满足上述第一条件。
步骤204,进行实体词对替换,得到候选语句。
比如,上文语句为:“张三的身高”;当前语句为“李四呢”。
提取关键词,得到上文语句的实体词集合为{张三},当前语句的实体词集合为{李四}。
其中实体词“张三”和“李四”类别相同,并且相似度大于设定值,因此,将上文语句中的实体词“张三”替换为当前语句中的实体词“李四”,得到候选语句为:“李四的身高”。
步骤205,检查两个关系词集合中是否有满足第二条件的关系词对;如果有,则执行步骤206;否则,执行步骤207。
所述第二条件包括:两个关系词分别属于当前语句和上文语句,并且两个关系词均存在于上文实体词的关系词集合中。
步骤206,进行关系词对替换,得到候选语句。
比如,上文语句为:“张学友的身高”,当前语句为:“体重呢”。
提取关键词,得到上文语句的实体词集合为{张学友},上文语句的关系词集合为{身高},当前语句的关系词集合为{体重}。
其中,关系词“身高”和“体重”这对关系词对同时出现在上文语句的实体词“张学友”的关系集合中。因此,将上文语句的关系词“身高”替换为当前语句中的关系词“体重”,得到候选语句为:“张学友的体重”。
步骤207,结束。
本发明实施例提供的会话信息补全方法,分别提取当前语句及其上文语句中的关键词,得到当前语句的实体词集合和关系词集合、以及上文语句的实体词集合和关系词集合。针对两个实体关键词集合中的实体词,如果有满足第一条件的实体词对,则通过实体词对替换得到候选语句;否则,检查两个关系词集合中是否有满足第二条件的关系词对;如果有,则通过关系词对替换得到候选语句。本发明方案基于上下文中的关键词,简单、有效地实现对当前语句信息补全,可以大大提高处理速度,提高机器对自然语言交互理解的智能性和准确性,提升用户的使用体验。
本发明实施例提供的会话信息补全方法,可以适用于多种应用环境,比如,信息抽取、机器翻译、文本摘要、人机交互***等。尤其是在人机交互***中,可以使机器通过不断学习,更好地适应人类口语的表达习惯,拟合人类的行为,提高用户使用体验。
针对不同的应用环境,本发明实施例的方法还可以将得到的候选语句作为补全后语句输出或返回给其它应用,以使所述其它应用根据所述候选语句进行后续的处理操作。当然,在没有得到候选语句的情况下,可以直接输出或返回所述上文语句。
另外,在实际应用中,在接收到当前语句后,还可包括进行是否需要进行信息补全的判断的步骤,如果需要,再进行上述信息补全过程。比如,在图1所示的应用环境,可以由交互设备101或由服务支持设备102完成上述判断,具体的判断方式也可以根据应用环境需要设定,比如,设定len(last)>len(query)*n(其中,n大于1,例如n可以为1.4)时,需要进行信息补全;其中,len(last)表示上文语句的长度,len(query)表示当前语句的长度,语句的长度可以以汉字字符为计算单位。
由于一个实体词、关系词可能会命中多个类别,在确定可以替换的实体词或关系词时,为了避免重复,在得到上文语句及当前语句的关键词集合后,还可以首先对所述关键词集合进行交叉清理,以去除所述关键词集合中的重复词。
具体地,分别检查所述上文语句的关系词集合及当前语句的关系词集合,如果有关系词存在于所述知识图谱的实体词集合中,则将其从关系词集合中去除。
比如,上文语句为:“成龙演唱的美丽的神话”,当前语句为“那国家呢”。当前语句中的“国家”既是类别“music”中的实体词,又是实体词“欢迎进行曲”的关系词集合中的关系词。因此,为了避免重复,将“国家”从关系词集合中去除。也就是说,从当前语句中只提取实体词集合{国家}。
通过上述交叉清理,可以使得到的候选语句更准确。
进一步地,在本发明方法另一实施例中,还可以利用热搜检查所述候选语句,得到补全后语句;和/或利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句。
其中,利用热搜检查所述候选语句,得到补全后语句具体可以是:将各候选语句与热搜库中的热搜词条进行匹配,如果有相匹配的热搜词条,则根据所述候选语句的长度及相匹配的热搜词条的长度,计算得到所述候选语句的覆盖率;输出覆盖率大于设定的覆盖率阈值(比如50%)的候选语句作为补全后语句。如果有多个候选语句覆盖率大于设定的覆盖率阈值,也可以选择其中覆盖率最大的一个候选语句输出。
利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句具体可以是:利用预先构建的语言模型确定所述候选语句的流畅度得分;输出流畅度得分大于设定的流畅度阈值(比如0.6)的候选语句作为补全后语句输出。如果有多个候选语句流畅度得分大于设定的流畅度阈值,也可以选择其中流畅度得分最大的一个候选语句输出。如果所有候选语句的流畅度得分均小于所述流畅度阈值,则可以返回原始语句,即接收到的当前语句。
所述语言模型可以采用现有技术中一些常规的语言模型,对此不做限定。
需要说明的是,在实际应用中,还可以对得到的候选语句依次进行热搜检查及流畅度过滤,其先后顺序不做限定。比如,可以先对所述候选语句进行热搜检查,对覆盖率大于覆盖率阈值的候选语句,再利用语言模型对其进行流畅度检查,输出流畅度大于流畅度阈值的候选语句;或者也可以先对所述候选语句进行流畅度检查,对流畅度大于流畅度阈值的候选语句,再利用热搜词库对其进行覆盖率检查,输出覆盖率大于覆盖率阈值的候选语句。
本发明实施例提供的会话信息补全方法,利用热搜和/或语言模型对得到的候选语句进行检查过滤,可以使输出的补全后语句更符合人类的自然语言表达。
相应地,本发明实施例还提供一种会话信息补全装置,如图3所示,是本发明实施例会话信息补全装置的一种框图。
在该实施例中,所述装置包括以下各模块:
语句获取模块301,用于获取当前语句及其上文语句;
关键词提取模块302,用于分别提取当前语句及其上文语句中的关键词,得到当前语句的关键词集合、上文语句的关键词集合、以及各关键词的类别;所述关键词集合包括:实体词集合和关系词集合;
实体词处理模块303,用于在两个实体词集合中有满足第一条件的实体词对时,进行实体词对替换,得到候选语句;
关系词处理模块304,用于在没有满足第一条件的实体词时,检查两个关系词集合中是否有满足第二条件的关系词对;如果有,则进行关系词对替换,得到候选语句。
所述上文语句可以是当前语句之前的一条或多条语句。在具体应用中,可以限定上文语句的长度。
所述关键词提取模块302具体可以通过预先构建的关键词表或知识图谱来提取关键词、并确定关键词的类型及所属领域类别。具体过程可参见前面本发明方法实施例中的描述,在此不再赘述。
所述知识图谱可以由相应的知识图谱构建模块来构建,所述知识图谱构建模块可以作为本发明装置的一个模块,也可以作为一个独立的物理实体,对此本发明方案不做限定。
所述知识图谱中包含多个词条,每个词条包括:实体词、所述实体词的关系词集合、所述实体词的权重。
所述第一条件可以是两个实体词分别属于当前语句和上文语句,并且类别相同。进一步地,为了保证候选语句的准确性,还可以要求满足这两个类别相同的实体词相似度大于设定值这一条件。
两个实体词相似度的计算可以基于实体词的权重及其关键词集合来确定。比如,对于两个类别相同的实体词W1和W2,其中,实体词W1是上文语句的实体词集合中的一个实体词,实体词W2是当前语句的实体词集合中的一个实体词,计算实体词W1和W2的相似度的具体公式在前面已有详细说明,在此不再赘述。
所述第二条件包括:两个关系词分别属于当前语句和上文语句,并且两个关系词均存在于上文实体词的关系词集合中。
本发明实施例提供的会话信息补全装置,分别提取当前语句及其上文语句中的关键词,得到当前语句的实体词集合和关系词集合、以及上文语句的实体词集合和关系词集合。针对两个实体关键词集合中的实体词,如果有满足第一条件的实体词对,则通过实体词对替换得到候选语句;否则,检查两个关系词集合中是否有满足第二条件的关系词对;如果有,则通过关系词对替换得到候选语句。本发明方案基于上下文中的关键词,简单、有效地实现对当前语句信息补全,可以大大提高处理速度,提高机器对自然语言交互理解的智能性和准确性,提升用户的使用体验。
本发明实施例提供的会话信息补全装置,可以适用于多种应用环境,比如,信息抽取、机器翻译、文本摘要、人机交互***等。尤其是在人机交互***中,可以使机器通过不断学习,更好地适应人类口语的表达习惯,拟合人类的行为,提高用户使用体验。
在本发明会话信息补全装置另一实施例中,还可进一步包括:热搜检查模块、和/或流畅度检查模块。其中:所述热搜检查模块用于利用热搜检查所述候选语句,得到补全后语句;所述流畅度检查模块用于利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句。
所述热搜检查模块的一种具体结构可以包括以下各单元:
匹配单元,用于检查热搜库中是否有与所述候选语句相匹配的热搜词条;
覆盖率计算单元,用于根据所述候选语句的长度及与所述候选语句相匹配的热搜词条的长度,计算得到所述候选语句的覆盖率,并将覆盖率大于设定的覆盖率阈值的候选语句作为补全后语句。
所述流畅度检查模块具体可以利用预先构建的语言模型确定所述候选语句的流畅度得分;将流畅度得分大于设定的流畅度阈值的候选语句作为补全后语句。
本发明实施例提供的会话信息补全装置,利用热搜和/或语言模型对得到的候选语句进行检查过滤,可以使输出的补全后语句更符合人类的自然语言表达。
针对不同的应用环境,如图4所示,本发明实施例的装置还可以包括:输出模块305,用于输出补全后语句,或者在没有得到补全后语句时输出当前语句。
另外,在本发明装置另一实施例图5所示,还可进一步包括:判断模块501,用于进行是否需要进行信息补全的判断,如果需要,再由进行上述信息补全过程,比如,在图1所示的应用环境,可以由交互设备101或由服务支持设备102完成上述判断,具体的判断方式也可以根据应用环境需要设定,比如,设定len(last)>len(query)*1.4时,需要进行信息补全;其中,len(last)表示上文语句的长度,len(query)表示当前语句的长度。
由于一个实体词、关系词可能会命中多个类别,在确定可以替换的实体词或关系词时,为了避免重复,在得到上文语句及当前语句的关键词集合后,还可以首先对所述关键词集合进行交叉清理,以去除所述关键词集合中的重复词。
为此,在本发明装置另一实施例中,还可包括清理模块(未图示),用于分别检查所述上文语句的关系词集合及当前语句的关系词集合,如果有关系词存在于所述知识图谱的实体词集合中,则将其从关系词集合中去除。
通过上述交叉清理,可以使得到的候选语句更准确。
图6是根据一示例性实施例示出的一种用于会话信息补全方法的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类别的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类别的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。
图7是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种会话信息补全方法,其特征在于,所述方法包括:
获取当前语句及其上文语句;
分别提取当前语句及其上文语句中的关键词,得到当前语句的关键词集合、上文语句的关键词集合、以及各关键词的类别;所述关键词集合包括:实体词集合和关系词集合;
如果两个实体词集合中有满足第一条件的实体词对,则进行实体词对替换,得到候选语句;所述第一条件包括:两个实体词分别属于当前语句和上文语句,并且类别相同且相似度大于设定值;
否则,检查两个关系词集合中是否有满足第二条件的关系词对;所述第二条件包括:两个关系词分别属于当前语句和上文语句,并且两个关系词均存在于上文实体词的关系词集合中;
如果有,则进行关系词对替换,得到候选语句。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先构建知识图谱,所述知识图谱中包含多个词条,每个词条包括:实体词、所述实体词的关系词集合、所述实体词的权重;
根据上文语句的实体词W1对应的关系词集合、当前语句的实体词W2对应的关系词集合、以及所述实体词W1和实体词W2的权重,确定实体词W1与实体词W2的相似度。
3.根据权利要求2所述的方法,其特征在于,按以下公式计算实体词W1与实体词W2的相似度:
score=len(last_entity_set&query_entity_set)/len(last_entity_set|query_entity_set)+min((last_weight*query_weight)/max_weight_value,weight_thresh old);
其中,len(last_entity_set&query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的交集包含关系词的个数;
len(last_entity_set|query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的并集包含关系词的个数;
last_weight为实体词W1的权重;
query_weight为实体词W2的权重;
max_weight_value为预设的权重最大值;
weight_threshold为预设的权重阈值。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
分别检查所述上文语句的关系词集合及当前语句的关系词集合,如果有关系词存在于所述知识图谱的实体词集合中,则将其从关系词集合中去除。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用热搜检查所述候选语句,得到补全后语句;和/或
利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句。
6.根据权利要求5所述的方法,其特征在于,所述利用热搜检查所述候选语句,得到补全后语句包括:
检查热搜库中是否有与所述候选语句相匹配的热搜词条;
如果有,则根据所述候选语句的长度及与所述候选语句相匹配的热搜词条的长度,计算得到所述候选语句的覆盖率,并将覆盖率大于设定的覆盖率阈值的候选语句作为补全后语句。
7.根据权利要求5所述的方法,其特征在于,所述利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句包括:
利用预先构建的语言模型确定所述候选语句的流畅度得分;
将流畅度得分大于设定的流畅度阈值的候选语句作为补全后语句。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
如果得到了补全后语句,则输出所述补全后语句;
如果没有得到补全后语句,则输出当前语句。
9.一种会话信息补全装置,其特征在于,所述装置包括:
语句获取模块,用于获取当前语句及其上文语句;
关键词提取模块,用于分别提取当前语句及其上文语句中的关键词,得到当前语句的关键词集合、上文语句的关键词集合、以及各关键词的类别;所述关键词集合包括:实体词集合和关系词集合;
实体词处理模块,用于在两个实体词集合中有满足第一条件的实体词对时,进行实体词对替换,得到候选语句;所述第一条件包括:两个实体词分别属于当前语句和上文语句,并且类别相同且相似度大于设定值;
关系词处理模块,用于在没有满足第一条件的实体词时,检查两个关系词集合中是否有满足第二条件的关系词对,所述第二条件包括:两个关系词分别属于当前语句和上文语句,并且两个关系词均存在于上文实体词的关系词集合中;如果有,则进行关系词对替换,得到候选语句。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
知识图谱构建模块,用于预先构建知识图谱,所述知识图谱中包含多个词条,每个词条包括:实体词、所述实体词的关系词集合、所述实体词的权重;
所述实体词处理模块,还用于根据上文语句的实体词W1对应的关系词集合、当前语句的实体词W2对应的关系词集合、以及所述实体词W1和实体词W2的权重,确定实体词W1与实体词W2的相似度。
11.根据权利要求10所述的装置,其特征在于,所述实体词处理模块按以下公式计算实体词W1与实体词W2的相似度:
score=len(last_entity_set&query_entity_set)/len(last_entity_set|query_entity_set)+min((last_weight*query_weight)/max_weight_value,weight_thresh old);
其中,len(last_entity_set&query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的交集包含关系词的个数;
len(last_entity_set|query_entity_set)为实体词W1的关系词集合与实体词W2的关系词集合的并集包含关系词的个数;
last_weight为实体词W1的权重;
query_weight为实体词W2的权重;
max_weight_value为预设的权重最大值;
weight_threshold为预设的权重阈值。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
清理模块,用于分别检查所述上文语句的关系词集合及当前语句的关系词集合,如果有关系词存在于所述知识图谱的实体词集合中,则将其从关系词集合中去除。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:热搜检查模块、和/或流畅度检查模块;
所述热搜检查模块,用于利用热搜检查所述候选语句,得到补全后语句;
所述流畅度检查模块,用于利用预先构建的语言模型对所述候选语句进行过滤,得到补全后语句。
14.根据权利要求13所述的装置,其特征在于,所述热搜检查模块包括:
匹配单元,用于检查热搜库中是否有与所述候选语句相匹配的热搜词条;
覆盖率计算单元,用于根据所述候选语句的长度及与所述候选语句相匹配的热搜词条的长度,计算得到所述候选语句的覆盖率,并将覆盖率大于设定的覆盖率阈值的候选语句作为补全后语句。
15.根据权利要求13所述的装置,其特征在于,
所述流畅度检查模块,具体用于利用预先构建的语言模型确定所述候选语句的流畅度得分;将流畅度得分大于设定的流畅度阈值的候选语句作为补全后语句。
16.根据权利要求13至15任一项所述的装置,其特征在于,所述装置还包括:
输出模块,用于输出所述补全后语句,或者在没有得到补全后语句时输出当前语句。
17.一种电子设备,其特征在于,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现如权利要求1至8任一项所述的方法。
18.一种可读存储介质,其上存储有指令,所述指令被执行以实现如权利要求1至8任一项所述的方法。
CN201811361369.XA 2018-11-15 2018-11-15 会话信息补全方法及装置 Active CN109522419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811361369.XA CN109522419B (zh) 2018-11-15 2018-11-15 会话信息补全方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811361369.XA CN109522419B (zh) 2018-11-15 2018-11-15 会话信息补全方法及装置

Publications (2)

Publication Number Publication Date
CN109522419A CN109522419A (zh) 2019-03-26
CN109522419B true CN109522419B (zh) 2020-08-04

Family

ID=65777925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811361369.XA Active CN109522419B (zh) 2018-11-15 2018-11-15 会话信息补全方法及装置

Country Status (1)

Country Link
CN (1) CN109522419B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984766B (zh) * 2019-05-21 2023-02-24 华为技术有限公司 缺失语义补全方法及装置
CN110399456B (zh) * 2019-06-06 2023-01-06 深思考人工智能机器人科技(北京)有限公司 一种问题对话补全的方法及装置
CN112148844B (zh) * 2019-06-26 2023-12-15 北京猎户星空科技有限公司 机器人的信息回复方法及装置
CN110427625B (zh) * 2019-07-31 2022-12-27 腾讯科技(深圳)有限公司 语句补全方法、装置、介质及对话处理***
CN110765763B (zh) * 2019-09-24 2023-12-12 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN111178063B (zh) * 2019-12-04 2024-02-20 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
CN111339781B (zh) * 2020-02-10 2023-05-30 科大讯飞华南人工智能研究院(广州)有限公司 意图识别方法、装置、电子设备和存储介质
CN111507088B (zh) * 2020-04-15 2022-12-16 深圳前海微众银行股份有限公司 语句补全方法、设备及可读存储介质
CN112949280B (zh) * 2021-03-02 2023-07-07 中国联合网络通信集团有限公司 一种数据处理方法和装置
CN113113017B (zh) * 2021-04-08 2024-04-09 百度在线网络技术(北京)有限公司 音频的处理方法和装置
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589844A (zh) * 2015-12-18 2016-05-18 北京中科汇联科技股份有限公司 一种用于多轮问答***中缺失语义补充的方法
CN106777018A (zh) * 2016-12-08 2017-05-31 竹间智能科技(上海)有限公司 一种智能聊天机器人中对输入语句的优化方法及装置
US9881010B1 (en) * 2014-05-12 2018-01-30 Google Inc. Suggestions based on document topics
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108334487A (zh) * 2017-07-14 2018-07-27 腾讯科技(深圳)有限公司 缺失语意信息补全方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577915B2 (en) * 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
CN106407178B (zh) * 2016-08-25 2019-08-13 中国科学院计算技术研究所 一种会话摘要生成方法、装置、服务器设备以及终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881010B1 (en) * 2014-05-12 2018-01-30 Google Inc. Suggestions based on document topics
CN105589844A (zh) * 2015-12-18 2016-05-18 北京中科汇联科技股份有限公司 一种用于多轮问答***中缺失语义补充的方法
CN106777018A (zh) * 2016-12-08 2017-05-31 竹间智能科技(上海)有限公司 一种智能聊天机器人中对输入语句的优化方法及装置
CN108334487A (zh) * 2017-07-14 2018-07-27 腾讯科技(深圳)有限公司 缺失语意信息补全方法、装置、计算机设备和存储介质
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置

Also Published As

Publication number Publication date
CN109522419A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522419B (zh) 会话信息补全方法及装置
CN105701254B (zh) 一种信息处理方法和装置、一种用于信息处理的装置
CN107357779B (zh) 一种获取机构名称的方法及装置
CN109471919B (zh) 零代词消解方法及装置
CN111128183B (zh) 语音识别方法、装置和介质
CN109815396B (zh) 搜索词权重确定方法及装置
CN108768824B (zh) 信息处理方法及装置
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108803890A (zh) 一种输入方法、输入装置和用于输入的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN113378583A (zh) 对话回复方法及装置、对话模型训练方法及装置、存储介质
CN112133295B (zh) 语音识别方法、装置及存储介质
CN110020429A (zh) 语义识别方法及设备
CN111368161A (zh) 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN107229698B (zh) 一种信息处理的方法及装置
CN106663112A (zh) 呈现与实体相关联的事件的信息卡
CN110968246A (zh) 中文智能手写输入识别方法及装置
CN107291259B (zh) 一种信息显示方法、装置和用于信息显示的装置
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN110580313A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112836026B (zh) 基于对话的问诊方法及装置
CN110929122B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110020153B (zh) 一种搜索方法及装置
CN108831473B (zh) 一种音频处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant