CN105912527A - 根据自然语言输出答案的方法、装置及*** - Google Patents

根据自然语言输出答案的方法、装置及*** Download PDF

Info

Publication number
CN105912527A
CN105912527A CN201610240540.6A CN201610240540A CN105912527A CN 105912527 A CN105912527 A CN 105912527A CN 201610240540 A CN201610240540 A CN 201610240540A CN 105912527 A CN105912527 A CN 105912527A
Authority
CN
China
Prior art keywords
answer
natural language
language
man
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610240540.6A
Other languages
English (en)
Inventor
曾琰
陈俊良
屈银川
黄志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gaodig Information Technology Co Ltd
Original Assignee
Beijing Gaodig Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gaodig Information Technology Co Ltd filed Critical Beijing Gaodig Information Technology Co Ltd
Priority to CN201610240540.6A priority Critical patent/CN105912527A/zh
Publication of CN105912527A publication Critical patent/CN105912527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种根据自然语言输出答案的方法、装置和***,属于智能机器人技术领域。该方法、装置和***通过对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;根据语言元素,进行元搜索、本地库查询和知识图谱查询,得到基于语言元素的备选答案;对备选答案进行评估,得到答案中最优的答案;对最优的答案进行综合和完善;根据综合和完善的结果,向人机交互客户端输出自然语言对应的答案。其利用元搜索使得语料库得到扩展,在接收到客户端的自然语言后,能够从海量互联网信息中挖掘得到高质量的答案,能够提高答***度。

Description

根据自然语言输出答案的方法、装置及***
技术领域
本发明涉及智能机器人技术领域,特别是涉及一种根据自然语言输出答案的方法、装置和***。
背景技术
人机交互过程中的智能问答是指计算机***(机器)能够处理人类输入的自然语言,并输出符合人类意图的回答。智能问答具有非常广阔的应用前景。首先是实现机器客服,比如替代政府网站中的常见问题(Frequent Asked Questions,FAQ),提供更个性化的服务;其次是优化搜索引擎,现有的搜索引擎根据用户输入的关键字进行网页文本的匹配从而返回相应的匹配条目,这种方式使得用户需要在众多信息中辨别才能得到自己想要的答案,而智能问答则能够做到直接把答案输出给用户,减少用户人工识别的工作量,优化用户体验;第三是用于情感引导,比如老年***机器人,解决老年人寂寞的问题。
智能问答第一个要解决的技术难题是“理解”用户输入的自然语言。人类交流过程中,由于有相似的背景和常识,理解一般不成问题。而机器实际上并不能真正“理解”自然语言,机器擅长的是信息搜索和匹配。目前人机交互中应用较普遍的是简单的自然语言命令响应,比如车载语音命令,可以识别诸如“打开空调”、“播放音乐”等命令。命令响应由于其只需支持少数自然语句,因此用规则匹配的方法就能完成。而对于日常对话这种更加复杂的语句,需要更复杂的规 则。最早处理自然语言(比如机器自动翻译)的方法正是基于语言本身的语法、结构来制定规则。但由于自然语言用法的灵活性和复杂性,这种纯靠规则的方法被证明并不是非常有效。后来研究者又发明了基于统计学的方法,利用大量真实语料来发现自然语言的规律,这种方法在分词、句法纠错有较好的效果。近年来,随着大数据技术的兴起,利用大量真实语料来训练语言模型,挖掘其内在规律的方法得到了更大的发展。
智能问答第二个要解决的问题是如何获取答案。由于实际工作生活中语言的多样性,使用简单规则生成答案的方法显然不可行。而现如今大多数智能问答平台都是基于本地的语料库和知识库,利用问题相似度计算来找到匹配的答案。因此,答案的质量严重依赖于语料库的规模、准确性和组织结构。如何拓展语料库和如何赋予语料库准确性是目前智能问答平台面临的问题。
发明内容
有鉴于此,本发明提供一种根据自然语言输出答案的方法、装置和***,其利用元搜索使得语料库得到扩展,在接收到客户端的自然语言后,能够从海量互联网信息中挖掘得到高质量的答案,能够提高答***度,从而更加适于实用。
为了达到上述第一个目的,本发明提供的根据自然语言输出答案的方法的技术方案如下:
本发明提供的根据自然语言输出答案的方法包括以下步骤:
对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;
根据所述语言元素,进行元搜索、本地库查询和知识图谱查询,得到基于所述语言元素的备选答案;
对所述备选答案进行评估,得到所述答案中最优的答案;
对所述最优的答案进行综合和完善;
根据所述综合和完善的结果,向所述人机交互客户端输出所述自然语言对应的答案。
本发明提供的根据自然语言输出答案的方法还可采用以下技术措施进一步实现。
作为优选,所述对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素包括:
对所述来自人机交互客户端的自然语言进行可能的问句转述,得到经过转述的问句;
对所述来自人机交互客户端的自然语言、经过转述的问句进行词汇拆分,得到经过拆分后的词汇;
通过本地库,对所述拆分后的词汇进行同义和上下位扩展,得到扩展后的词汇族;
对所述词汇族进行语义消歧处理,得到经过消歧处理的词汇族;
根据所述经过消歧处理的词汇族,在所述知识图谱中查询所述词汇族涉及的节点及边,即为所述来自人机交互客户端的自然语言的相应的语言元素。
作为优选,根据所述语言元素,进行元搜索,得到基于所述语言元素的备选***括:
根据所述语言元素,确定所述来自人机交互客户端的自然语言的问题分类,得到分类结果;
根据所述分类结果,选取目标网站;
在所述目标网站、本地库和知识图谱上,以所述语言元素为依据,进行搜索, 得到搜索结果的列表页面;
将所述搜索结果的列表页面上的条目与所述来自人机交互客户端的自然语言进行相似度比较,获取相似度高于阈值的条目的URL;
从所述URL中抽取得到基于所述语言元素的备选答案。
作为优选,对所述备选答案进行评估,得到所述答案中最优的***括:
对所述备选答案的内容与所述来自人机交互客户端的自然语言进行相关性评估和质量评估,确定相关度最高,并且,质量最佳的备选答案为最优的答案。
作为优选,
所述备选答案的内容与所述来自人机交互客户端的自然语言的相关性以所述备选答案中涉及的所述语言元素的数量为依据,以所述备选答案中涉及的所述语言元素最多者确定为相关度最高;
所述备选答案的质量以所述答案被推荐或者赞同的数量为依据,被推荐或者赞同的数量最多者确定为质量最佳。
为了达到上述第二个目的,本发明提供的根据自然语言输出答案的装置的技术方案如下:
本发明提供的根据自然语言输出答案的装置包括语言元素获取单元、元搜索单元、本地库查询单元、知识图谱查询单元、答案评估单元、答案综合和完善单元、答案输出单元,
所述语言元素获取单元用于对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;
所述元搜索单元用于根据所述语言元素,进行元搜索,得到基于所述语言元素的第一组备选答案;
所述本地库查询单元用于根据所述语言元素,进行本地查询,得到基于所述 语言元素的第二组备选答案;
所述知识图谱查询单元用于根据所述语言元素,进行知识图谱查询,得到基于所述语言元素的第三组备选答案;
所述答案评估单元用于对所述第一组备选答案、第二组备选答案和第三组备选答案进行评估,得到所述答案中最优的答案;
所述答案综合和完善单元用于对所述最优的答案进行综合和完善;
所述答案输出单元用于根据所述综合和完善的结果,向所述人机交互客户端输出所述自然语言对应的答案。
本发明提供的根据自然语言输出答案的装置还可采用以下技术措施进一步实现。
作为优选,所述语言元素获取单元包括问句转述模块、词汇拆分模块、词汇扩展模块、词汇消歧模块、语言元素获取模块,
所述问句转述模块用于对所述来自人机交互客户端的自然语言进行可能的问句转述,得到经过转述的问句;
所述词汇拆分模块用于对所述来自人机交互客户端的自然语言、经过转述的问句进行词汇拆分,得到经过拆分后的词汇;
所述词汇扩展模块用于通过本地库,对所述拆分后的词汇进行同义和上下位扩展,得到扩展后的词汇族;
所述词汇消歧模块用于对所述词汇族进行语义消歧处理,得到经过消歧处理的词汇族;
语言元素获取模块用于根据所述经过消歧处理的词汇族,在所述知识图谱中查询所述词汇族涉及的节点及边,即为所述来自人机交互客户端的自然语言的相应的语言元素。
作为优选,所述元搜索单元包括语言元素分类模块、目标网站选取模块、搜索模块、URL获取模块、备选答案抽取模块,
所述语言元素分类模块用于根据所述语言元素,确定所述来自人机交互客户端的自然语言的分类,得到分类结果;
所述目标网站选取模块用于根据所述分类结果,选取目标网站;
所述搜索模块用于在所述目标网站上,以所述语言元素为依据,进行搜索,得到搜索结果的列表页面;
所述URL获取模块用于将所述搜索结果的列表页面上的条目与所述来自人机交互客户端的自然语言进行相似度比较,获取相似度高于80%的条目的URL;
所述备选答案抽取模块用于从所述URL中抽取得到基于所述语言元素的备选答案。
作为优选,答案评估单元包括相关度评估模块、质量评估模块,
所述相关度评估模块用于选取所述备选答案的内容与所述来自人机交互客户端的自然语言相关度最高的备选答案;
所述质量评估模块用于选取备选答案中质量最佳的备选答案。
作为优选,所述备选答案的内容与所述来自人机交互客户端的自然语言的相关性以所述备选答案中涉及的所述语言元素的数量为依据,以所述备选答案中涉及的所述语言元素最多者确定为相关度最高;
所述备选答案的质量以所述答案被推荐或者赞同的数量为依据,被推荐或者赞同的数量最多者确定为质量最佳。
为了达到上述第三个目的,本发明提供的根据自然语言输出答案的***的技术方案如下:
本发明提供的根据自然语言输出答案的***包括人机交互客户端、服务器,
所述人机交互客户端用于向所述服务器出出自然语言,并且,所述人机交互客户端用于接收所述服务器输出的答案;
所述服务器上设置有本体库、本地库、知识图谱、元搜索引擎,
所述本体库用于存储概念与概念之间的关系数据,
所述本地库用于存储语料和简单知识,
所述知识图谱用于表达各种事实;
所述元搜索引擎用于利用通用搜索引擎或者特定网站提供的搜索接口来获取信息。
本发明提供的根据自然语言输出答案的***还可采用以下技术措施进一步实现。
作为优选,
所述概念与概念之间的关系包括同义关系和/或上下位关系;
所述各种事实包括实体-属性-值、实体-关系-实体。
本发明提供的根据自然语言输出答案的方法、装置和***通过对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;根据语言元素,进行元搜索、本地库查询和知识图谱查询,得到基于语言元素的备选答案;对备选答案进行评估,得到答案中最优的答案;对最优的答案进行综合和完善;根据综合和完善的结果,向人机交互客户端输出自然语言对应的答案。其利用元搜索使得语料库得到扩展,在接收到客户端的自然语言后,能够从海量互联网信息中挖掘得到高质量的答案,能够提高答***度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领 域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的根据自然语言输出答案的方法的概括步骤流程图;
图2为本发明实施例提供的根据自然语言输出答案的方法的具体步骤流程图;
图3为本发明实施例提供的根据自然语言输出答案的装置的信号流向关系概括示意图;
图4为本发明实施例提供的根据自然语言输出答案的***的信号流向关系概括示意图;
图5为本发明实施例提供的人机交互客户端输入“张博士的生日”之后,得到正确答案的过程中知识图谱的逻辑关系示意图。
具体实施方式
本发明为解决现有技术存在的问题,提供一种根据自然语言输出答案的方法、装置和***,其利用元搜索使得语料库得到扩展,在接收到客户端的自然语言后,能够从海量互联网信息中挖掘得到高质量的答案,能够提高答***度,从而更加适于实用。
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的根据自然语言输出答案的方法、装置和***,其具体实施方式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实 施例中的特定特征、结构、或特点可由任何合适形式组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,具体的理解为:可以同时包含有A与B,可以单独存在A,也可以单独存在B,能够具备上述三种任一种情况。
参见附图1和附图2,本发明提供的根据自然语言输出答案的方法包括以下步骤:
步骤S1:对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;
步骤S2:根据语言元素,进行元搜索、本地库查询、知识图谱查询,得到基于语言元素的备选答案;
步骤S3:对备选答案进行评估,得到答案中最优的答案;
步骤S4:对最优的答案进行综合和完善;
步骤S5:根据综合和完善的结果,向人机交互客户端输出自然语言对应的答案。
本发明提供的根据自然语言输出答案的方法通过对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;根据语言元素,进行元搜索、本地库查询和知识图谱查询,得到基于语言元素的备选答案;对备选答案进行评估,得到答案中最优的答案;对最优的答案进行综合和完善;根据综合和完善的结果,向人机交互客户端输出自然语言对应的答案。其利用元搜索使得语料库得到扩展,在接收到客户端的自然语言后,能够从海量互联网信息中挖掘得到高质量的答案,能够提高答***度。
其中,对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素包括:
步骤S11:对来自人机交互客户端的自然语言进行可能的问句转述,得到经过转述的问句;
步骤S12:对来自人机交互客户端的自然语言、经过转述的问句进行词汇拆分,得到经过拆分后的词汇;
步骤S13:通过本地库,对拆分后的词汇进行同义和上下位扩展,得到扩展后的词汇族;
步骤S14:对词汇族进行语义消歧处理,得到经过消歧处理的词汇族;
步骤S15:根据经过消歧处理的词汇族,在知识图谱中查询词汇族涉及的节点及边,即为来自人机交互客户端的自然语言的相应的语言元素。
其中,根据语言元素,进行元搜索,得到基于语言元素的备选***括:
步骤S21:根据语言元素,确定来自人机交互客户端的自然语言的分类,得到分类结果;
步骤S22:根据分类结果,选取目标网站;
步骤S23:在目标网站上,以语言元素为依据,进行搜索,得到搜索结果的列表页面;本实施例中,通过爬虫抓取搜索到的列表页面;
步骤S24:将搜索结果的列表页面上的条目与来自人机交互客户端的自然语言进行相似度比较,获取相似度高于阈值的条目的URL,本实施例中,阈值为80%;
步骤S25:从URL中抽取得到基于语言元素的备选答案;本实施例中,通过爬虫抓取,从URL中抽取得到基于语言元素的备选答案。
其中,对备选答案进行评估,得到答案中最优的***括:
对备选答案的内容与来自人机交互客户端的自然语言进行相关性评估和质量评估,确定相关度最高,并且,质量最佳的备选答案为最优的答案。
其中,备选答案的内容与来自人机交互客户端的自然语言的相关性以备选答案中涉及的语言元素的数量为依据,以备选答案中涉及的语言元素最多者确定为相关度最高;
备选答案的质量以答案被推荐或者赞同的数量为依据,被推荐或者赞同的数量最多者确定为质量最佳。
参见附图3,本发明提供的根据自然语言输出答案的装置包括语言元素获取单元、元搜索单元、本地库查询单元、知识图谱查询单元、答案评估单元、答案综合和完善单元、答案输出单元。语言元素获取单元用于对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;元搜索单元用于根据语言元素进行元搜索,本地库查询单元用于根据语言元素进行本地查询,知识图谱查询单元用于根据语言元素进行知识图谱查询,综合元搜索、本地查询和知识图谱查询的结果,能够得到基于语言元素的备选答案;答案评估单元用于对备选答案进行评估,得到答案中最优的答案;答案综合和完善单元用于对最优的答案进行综合和完善;答案输出单元用于根据综合和完善的结果,向人机交互客户端输出自然语言对应的答案。
本发明提供的根据自然语言输出答案的装置通过语言元素获取单元,对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;通过元搜索单元、本地库查询单元、知识图谱查询单元,根据语言元素,进行元搜索、本地库查询和知识图谱查询,得到基于语言元素的备选答案;通过答案评估单元,对备选答案进行评估,得到答案中最优的答案;通过答案综合和完善单元,对最优的答案进行综合和完善;通过答案输出单元,根据综合和完善的结果,向人机交互客户端输出自然语言对应的答案。其利用元搜索使得语料库得到扩展,在接收到客户端的自然语言后,能够从海量互联网信 息中挖掘得到高质量的答案,能够提高答***度。
其中,语言元素获取单元包括问句转述模块、词汇拆分模块、词汇扩展模块、词汇消歧模块、语言元素获取模块。问句转述模块用于对来自人机交互客户端的自然语言进行可能的问句转述,得到经过转述的问句;词汇拆分模块用于对来自人机交互客户端的自然语言、经过转述的问句进行词汇拆分,得到经过拆分后的词汇;词汇扩展模块用于通过本地库,对拆分后的词汇进行同义和上下位扩展,得到扩展后的词汇族;词汇消歧模块用于对词汇族进行语义消歧处理,得到经过消歧处理的词汇族;语言元素获取模块用于根据经过消歧处理的词汇族,在知识图谱中查询词汇族涉及的节点及边,即为来自人机交互客户端的自然语言的相应的语言元素。
其中,元搜索单元包括语言元素分类模块、目标网站选取模块、搜索模块、URL获取模块、备选答案抽取模块。语言元素分类模块用于根据语言元素,确定来自人机交互客户端的自然语言的分类,得到分类结果;目标网站选取模块用于根据分类结果,选取目标网站;搜索模块用于在目标网站上,以语言元素为依据,进行搜索,得到搜索结果的列表页面;URL获取模块用于将搜索结果的列表页面上的条目与来自人机交互客户端的自然语言进行相似度比较,获取相似度高于80%的条目的URL;备选答案抽取模块用于从URL中抽取得到基于语言元素的备选答案。
其中,答案评估单元包括相关度评估模块、质量评估模块。相关度评估模块用于选取备选答案的内容与来自人机交互客户端的自然语言相关度最高的备选答案;质量评估模块用于选取备选答案中质量最佳的备选答案。
其中,备选答案的内容与来自人机交互客户端的自然语言的相关性以备选答案中涉及的语言元素的数量为依据,以备选答案中涉及的语言元素最多者确 定为相关度最高;备选答案的质量以答案被推荐或者赞同的数量为依据,被推荐或者赞同的数量最多者确定为质量最佳。
参见附图4,本发明提供的根据自然语言输出答案的***包括人机交互客户端、服务器。人机交互客户端用于向服务器出出自然语言,并且,人机交互客户端用于接收服务器输出的答案;服务器上设置有本体库、本地库、知识图谱、元搜索引擎,本体库用于存储概念与概念之间的关系数据,本地库用于存储各种语料和简单知识,知识图谱用于表达各种事实;元搜索引擎用于利用通用搜索引擎或者特定网站提供的搜索接口来获取信息。
其中,概念与概念之间的关系包括同义关系和/或上下位关系;各种事实包括实体-属性-值、实体-关系-实体。
实施例
以“张三”为例,其中,由于张三的学历是博士,所以在有些时候,也被叫做“张博士”。
参见附图5,本实施例中,用户输入“张博士的生日”的问题,希望得到一个正确的答案。
第一步,意图理解。首先预处理,对该问句进行分词和词性标注,并去掉停用词“的”,得到一下数据结构{<张博士,名词>,<生日,名词>}。其次对词语进行查询扩展和语义消岐。通过查询本体库,得到“张博士”的同义词为“张三”,而“生日”的同义词为“出生日期”,并根据“张三”和“出生日期”得到它们在知识图谱中的节点和属性边。
第二步,根据意图理解的语言元素并行进行元搜索、本地库查询和知识图谱查询。
步骤2.1元搜索。
步骤2.1.1问题的分类判定为“社会民生”,找到最相关的两个网站百度知道(zhidao.***.com)和搜搜问问(wenwen.sogou.com)。
步骤2.1.2对这两个网站进行以下四组关键字的组合查询:<张博士,生日>、<张三,生日>、<张博士,出生日期>、<张三,出生日期>。
步骤2.1.3对2.1.2中得到的列表页面进行相似度比较,找到百度知道中一个条目的问题是“张博士生日”为最匹配条目,其URL为“http://zhidao.***.com/question/********.html?loc_ans=********”
步骤2.1.4抓取步骤2.1.3中的网址,得到5个答案。
步骤2.1.5对五个答案进行答案评估。相似度评估中发现第1和第2条答案中都有“张三”、“生于”字样,与问题相似度较高;质量评估中发现,第一条答案被提问者采纳并被好评700多次,因此质量较高。因此元搜索返回答案为“阳历12月26号,农历十一月十九...”。
步骤2.2查询本地库。
步骤2.3查询知识图谱,根据第一步中的到的节点和属性边,构造图谱查询,并获得答案是“1898年12月26日”(参考附图5)。
第三步,答案综合和完善。本例中,知识图谱查询返回了结果,因此综合选用知识图谱的结果,并把该结果完善为“张博士的生日是1898年12月26日”。
此外,本发明提供的根据自然语言输出答案的方法、装置和***还可以通过离线抓取互联网上的各种问答库、知识库和其他自然语言文本,抽取出有用的知识,并以一定的组织形式存储到本地,搜索答案时进行本地查询替代元搜索。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种根据自然语言输出答案的方法,其特征在于,包括以下步骤:
对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;
根据所述语言元素,进行元搜索、本地库查询和知识图谱查询,得到基于所述语言元素的备选答案;
对所述备选答案进行评估,得到所述答案中最优的答案;
对所述最优的答案进行综合和完善;
根据所述综合和完善的结果,向所述人机交互客户端输出所述自然语言对应的答案。
2.根据权利要求1所述的根据自然语言输出答案的方法,其特征在于,所述对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素包括:
对所述来自人机交互客户端的自然语言进行可能的问句转述,得到经过转述的问句;
对所述来自人机交互客户端的自然语言、经过转述的问句进行词汇拆分,得到经过拆分后的词汇;
通过本体库,对所述拆分后的词汇进行同义和上下位扩展,得到扩展后的词汇族;
对所述词汇族进行语义消歧处理,得到经过消歧处理的词汇族;
根据所述经过消歧处理的词汇族,在所述知识图谱中查询所述词汇族涉及的节点及边,即为所述来自人机交互客户端的自然语言的相应的语言元素。
3.根据权利要求1所述的根据自然语言输出答案的方法,其特征在于,根据所述语言元素,进行元搜索、本地库查询和知识图谱查询,得到基于所述语言元素的备选***括:
根据所述语言元素,确定所述来自人机交互客户端的自然语言的问题分类,得到分类结果;
根据所述分类结果,选取目标网站;
在所述目标网站、本地库和知识图谱上,以所述语言元素为依据,进行搜索,得到搜索结果的列表页面;
将所述搜索结果的列表页面上的条目与所述来自人机交互客户端的自然语言进行相似度比较,获取相似度高于阈值的条目的URL;
从所述URL中抽取得到基于所述语言元素的备选答案。
4.根据权利要求1所述的根据自然语言输出答案的方法,其特征在于,对所述备选答案进行评估,得到所述答案中最优的***括:
对所述备选答案的内容与所述来自人机交互客户端的自然语言进行相关性评估和质量评估,确定相关度最高,并且,质量最佳的备选答案为最优的答案;
作为优选,
所述备选答案的内容与所述来自人机交互客户端的自然语言的相关性以所述备选答案中涉及的所述语言元素的数量为依据,以所述备选答案中涉及的所述语言元素最多者确定为相关度最高;
所述备选答案的质量以所述答案被推荐或者赞同的数量为依据,被推荐或者赞同的数量最多者确定为质量最佳。
5.一种根据自然语言输出答案的装置,其特征在于,包括语言元素获取单元、元搜索单元、本地库查询单元、知识图谱查询单元、答案评估单元、答案综合和完善单元、答案输出单元,
所述语言元素获取单元用于对来自人机交互客户端的自然语言进行意图理解,根据本体库查询和知识图谱查询,得到相应的语言元素;
所述元搜索单元用于根据所述语言元素,进行元搜索,得到基于所述语言元素的第一组备选答案;
所述本地库查询单元用于根据所述语言元素,进行本地查询,得到基于所述语言元素的第二组备选答案;
所述知识图谱查询单元用于根据所述语言元素,进行知识图谱查询,得到基于所述语言元素的第三组备选答案;
所述答案评估单元用于对所述第一组备选答案、第二组备选答案和第三组备选答案进行评估,得到所述答案中最优的答案;
所述答案综合和完善单元用于对所述最优的答案进行综合和完善;
所述答案输出单元用于根据所述综合和完善的结果,向所述人机交互客户端输出所述自然语言对应的答案。
6.根据权利要求5所述的根据自然语言输出答案的装置,其特征在于,所述语言元素获取单元包括问句转述模块、词汇拆分模块、词汇扩展模块、词汇消歧模块、语言元素获取模块,
所述问句转述模块用于对所述来自人机交互客户端的自然语言进行可能的问句转述,得到经过转述的问句;
所述词汇拆分模块用于对所述来自人机交互客户端的自然语言、经过转述的问句进行词汇拆分,得到经过拆分后的词汇;
所述词汇扩展模块用于通过本地库,对所述拆分后的词汇进行同义和上下位扩展,得到扩展后的词汇族;
所述词汇消歧模块用于对所述词汇族进行语义消歧处理,得到经过消歧处理的词汇族;
语言元素获取模块用于根据所述经过消歧处理的词汇族,在所述知识图谱中查询所述词汇族涉及的节点及边,即为所述来自人机交互客户端的自然语言的相应的语言元素。
7.根据权利要求5所述的根据自然语言输出答案的装置,其特征在于,所述元搜索单元包括语言元素分类模块、目标网站选取模块、搜索模块、URL获取模块、备选答案抽取模块,
所述语言元素分类模块用于根据所述语言元素,确定所述来自人机交互客户端的自然语言的分类,得到分类结果;
所述目标网站选取模块用于根据所述分类结果,选取目标网站;
所述搜索模块用于在所述目标网站上,以所述语言元素为依据,进行搜索,得到搜索结果的列表页面;
所述URL获取模块用于将所述搜索结果的列表页面上的条目与所述来自人机交互客户端的自然语言进行相似度比较,获取相似度高于80%的条目的URL;
所述备选答案抽取模块用于从所述URL中抽取得到基于所述语言元素的备选答案。
8.根据权利要求7所述的根据自然语言输出答案的装置,其特征在于,答案评估单元包括相关度评估模块、质量评估模块,
所述相关度评估模块用于选取所述备选答案的内容与所述来自人机交互客户端的自然语言相关度最高的备选答案;
所述质量评估模块用于选取备选答案中质量最佳的备选答案;
作为优选,所述备选答案的内容与所述来自人机交互客户端的自然语言的相关性以所述备选答案中涉及的所述语言元素的数量为依据,以所述备选答案中涉及的所述语言元素最多者确定为相关度最高;
所述备选答案的质量以所述答案被推荐或者赞同的数量为依据,被推荐或者赞同的数量最多者确定为质量最佳。
9.一种根据自然语言输出答案的***,其特征在于,包括人机交互客户端、服务器,
所述人机交互客户端用于向所述服务器出出自然语言,并且,所述人机交互客户端用于接收所述服务器输出的答案;
所述服务器上设置有本体库、本地库、知识图谱、元搜索引擎,
所述本体库用于存储概念与概念之间的关系数据,
所述本地库用于存储各种语料和简单知识,
所述知识图谱用于表达各种事实;
所述元搜索引擎用于利用通用搜索引擎或者特定网站提供的搜索接口来获取信息。
10.根据权利要求9所述的根据自然语言输出答案的***,其特征在于,
所述概念与概念之间的关系包括同义关系和/或上下位关系;
所述各种事实包括实体-属性-值、实体-关系-实体。
CN201610240540.6A 2016-04-19 2016-04-19 根据自然语言输出答案的方法、装置及*** Pending CN105912527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610240540.6A CN105912527A (zh) 2016-04-19 2016-04-19 根据自然语言输出答案的方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610240540.6A CN105912527A (zh) 2016-04-19 2016-04-19 根据自然语言输出答案的方法、装置及***

Publications (1)

Publication Number Publication Date
CN105912527A true CN105912527A (zh) 2016-08-31

Family

ID=56747271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610240540.6A Pending CN105912527A (zh) 2016-04-19 2016-04-19 根据自然语言输出答案的方法、装置及***

Country Status (1)

Country Link
CN (1) CN105912527A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844506A (zh) * 2016-12-27 2017-06-13 竹间智能科技(上海)有限公司 一种人工智能对话的知识检索方法及知识库自动完善方法
CN107622052A (zh) * 2017-09-20 2018-01-23 广东欧珀移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN107656997A (zh) * 2017-09-20 2018-02-02 广东欧珀移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108170704A (zh) * 2017-11-21 2018-06-15 北京明略软件***有限公司 一种图谱分析的方法及装置
CN108920530A (zh) * 2018-06-08 2018-11-30 泰康保险集团股份有限公司 一种信息处理方法、装置、存储介质及电子设备
CN109033223A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 用于跨类型对话的方法、装置、设备以及计算机可读存储介质
CN109213847A (zh) * 2018-09-14 2019-01-15 广州神马移动信息科技有限公司 答案的分层方法及其装置、电子设备、计算机可读介质
CN109844743A (zh) * 2017-06-26 2019-06-04 微软技术许可有限责任公司 在自动聊天中生成响应
CN109933707A (zh) * 2018-10-31 2019-06-25 中国科学院信息工程研究所 一种基于搜索引擎的主题语料构建方法及***
CN109933653A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 问答***的问答查询方法、***及计算机设备
CN109947916A (zh) * 2019-03-01 2019-06-28 河北尚云信息科技有限公司 基于气象领域知识图谱的问答***装置及问答方法
CN110543951A (zh) * 2018-05-28 2019-12-06 中国铁道科学研究院铁道建筑研究所 一种铁路桥梁检养修虚拟助理***
WO2022012234A1 (zh) * 2020-07-17 2022-01-20 海信视像科技股份有限公司 一种关联推荐方法、智能设备及服务设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279528A (zh) * 2013-05-31 2013-09-04 俞志晨 一种基于人机结合的问答***及方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答***
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
CN104915340A (zh) * 2014-03-10 2015-09-16 北京大学 自然语言问答方法及装置
US20160055234A1 (en) * 2014-08-19 2016-02-25 International Business Machines Corporation Retrieving Text from a Corpus of Documents in an Information Handling System

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
CN103279528A (zh) * 2013-05-31 2013-09-04 俞志晨 一种基于人机结合的问答***及方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104915340A (zh) * 2014-03-10 2015-09-16 北京大学 自然语言问答方法及装置
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答***
US20160055234A1 (en) * 2014-08-19 2016-02-25 International Business Machines Corporation Retrieving Text from a Corpus of Documents in an Information Handling System
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘峤, 李杨, 段宏, 刘瑶, 秦志光: "知识图谱构建技术综述", 《计算机研究与发展》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844506A (zh) * 2016-12-27 2017-06-13 竹间智能科技(上海)有限公司 一种人工智能对话的知识检索方法及知识库自动完善方法
CN109844743B (zh) * 2017-06-26 2023-10-17 微软技术许可有限责任公司 在自动聊天中生成响应
CN109844743A (zh) * 2017-06-26 2019-06-04 微软技术许可有限责任公司 在自动聊天中生成响应
CN107622052A (zh) * 2017-09-20 2018-01-23 广东欧珀移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN107656997A (zh) * 2017-09-20 2018-02-02 广东欧珀移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN107622052B (zh) * 2017-09-20 2021-01-22 Oppo广东移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN107656997B (zh) * 2017-09-20 2021-01-15 Oppo广东移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107679039B (zh) * 2017-10-17 2020-12-29 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108170704A (zh) * 2017-11-21 2018-06-15 北京明略软件***有限公司 一种图谱分析的方法及装置
CN110543951A (zh) * 2018-05-28 2019-12-06 中国铁道科学研究院铁道建筑研究所 一种铁路桥梁检养修虚拟助理***
CN110543951B (zh) * 2018-05-28 2022-05-17 中国铁道科学研究院铁道建筑研究所 一种铁路桥梁检养修虚拟助理***
CN108920530A (zh) * 2018-06-08 2018-11-30 泰康保险集团股份有限公司 一种信息处理方法、装置、存储介质及电子设备
CN109033223A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 用于跨类型对话的方法、装置、设备以及计算机可读存储介质
CN109213847A (zh) * 2018-09-14 2019-01-15 广州神马移动信息科技有限公司 答案的分层方法及其装置、电子设备、计算机可读介质
CN109933707A (zh) * 2018-10-31 2019-06-25 中国科学院信息工程研究所 一种基于搜索引擎的主题语料构建方法及***
CN109933707B (zh) * 2018-10-31 2022-10-14 中国科学院信息工程研究所 一种基于搜索引擎的主题语料构建方法及***
CN109933653A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 问答***的问答查询方法、***及计算机设备
CN109947916A (zh) * 2019-03-01 2019-06-28 河北尚云信息科技有限公司 基于气象领域知识图谱的问答***装置及问答方法
CN109947916B (zh) * 2019-03-01 2023-08-08 河北尚云信息科技有限公司 基于气象领域知识图谱的问答***装置及问答方法
WO2022012234A1 (zh) * 2020-07-17 2022-01-20 海信视像科技股份有限公司 一种关联推荐方法、智能设备及服务设备

Similar Documents

Publication Publication Date Title
CN105912527A (zh) 根据自然语言输出答案的方法、装置及***
CN106919646B (zh) 中文文本摘要生成***及方法
Szomszor et al. Semantic modelling of user interests based on cross-folksonomy analysis
CN103440243B (zh) 一种教学资源推荐方法及其装置
Delen et al. A holistic framework for knowledge discovery and management
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN104360994A (zh) 自然语言理解方法及***
CN107918644B (zh) 声誉管理框架内的新闻议题分析方法和实施***
WO2007008798A3 (en) System and method for searching for network-based content in a multi-modal system using spoken keywords
CN105243149B (zh) 一种基于语义的查询推荐方法和***
CN102262634A (zh) 一种自动问答方法及***
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN103106287A (zh) 一种用户检索语句的处理方法及***
CN105930490A (zh) 一种教学资源智能甄选***
CN105653673A (zh) 信息搜索方法及装置
CN105740310A (zh) 一种用于问答***中的自动答案摘要方法及***
CN107480197B (zh) 实体词识别方法及装置
Hong et al. Automatically extracting word relationships as templates for pun generation
CN112000929A (zh) 一种跨平台数据分析方法、***、设备及可读存储介质
Perea-Ortega et al. Application of text summarization techniques to the geographical information retrieval task
CN107977395B (zh) 一种帮助用户阅读并理解电子文章的方法及智能语音助手
Johnson et al. More effective web search using bigrams and trigrams
CN111933141A (zh) 一种基于大数据的人工智能语音交互***
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置
CN103020311A (zh) 一种用户检索词的处理方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160831

WD01 Invention patent application deemed withdrawn after publication