CN105787134A - 智能问答方法、装置及*** - Google Patents
智能问答方法、装置及*** Download PDFInfo
- Publication number
- CN105787134A CN105787134A CN201610213370.2A CN201610213370A CN105787134A CN 105787134 A CN105787134 A CN 105787134A CN 201610213370 A CN201610213370 A CN 201610213370A CN 105787134 A CN105787134 A CN 105787134A
- Authority
- CN
- China
- Prior art keywords
- information
- abstract semantics
- answer
- external data
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种智能问答方法、装置及***,所述方法包括:接收用户输入信息;根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。上述方案可简化知识库的维护,并提高答案回复的准确性。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种智能问答方法、装置及***。
背景技术
知识库,又称为智能数据库或人工智能数据库,在知识库中,信息被有效组织以便进行检索和利用。知识库广泛应用于人工智能领域,其中一个典型的应用就是智能问答***,又称为自动问题***。
应用于智能问答***的知识库中存储多个知识点,每个知识点包括一个或多个预设的问题以及对应的答案信息。当用户通过输入请求信息提出问题时,计算请求信息与预设问题的语义相似度,如果存在语义相似度大于预设阈值的预设问题,则将该问题对应的答案信息返回给用户。
在用户提出的问题中,有一些问题是有关主体和属性的,主体是描述事务的对象,属性是主体的特征,例如用户输入问句为“刘德华的妻子是谁”,主体为刘德华,属性为妻子。在现有技术中,为了返回相应的答案信息,智能问答***需要在知识库中建立一个“刘德华的妻子是谁”或类似问句的问题,以及相应的答案信息,在接收用户输入问句后,通过进行语义相似度计算,在自动问答***中找到语义相似度大于预设阈值的问句,即存在相应的知识点,那么可将该知识点的对应答案信息作为答案。
然而,这种有关主体和属性的问句中,主体的具体内容是***的,按照现有的方法,当主体变化时,问句也相应变化,为了提供相应的答案,必须在智能问答***中建立相应的知识点,这无疑增加了智能问答***知识库的存储量,并且对不同的问题进行预设耗时耗力,知识库的维护也会十分繁杂。
在现有技术中,也存在直接使用用户输入问句从外部数据源中爬取最接近答案的方法,但是这种方法获得的答案不够准确。
发明内容
本发明解决的技术问题是提供一种智能问答方法、装置及***,简化知识库的维护,并提高答案回复的准确性。
为解决上述技术问题,本发明实施例提供一种智能问答方法,所述方法包括:
接收用户输入信息;根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。
可选地,在进行抽象语义推荐处理之前,还包括:
提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及多个问题;当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,进行所述抽象语义推荐处理;否则,向用户提供所述最高语义相似度值对应的知识点中的答案。
可选地,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息;与所述第一主体信息和所述第一属性信息匹配的外部数据源指的是所述第一主体信息与所述外部数据源中一词条的第二主体信息属于同一词类且所述第一属性信息与所述词条中的第二属性信息属于同一词类。
可选地,所述外部数据源为多个且各具有预设类别,所述方法还包括:预先设置所述多个外部数据源的优先级顺序;在进行抽象语义推荐处理后,当所述预设类别与所述抽象语义的类别符合的外部数据源有多个时,按照优先级从高到低的顺序选择外部数据源,当优先级较高的外部数据源无法提供答案时才选择剩余的外部数据源,直至得到答案为止。
可选地,所述外部数据源为M个且各具有预设类别,所述方法还包括:当得到的所述类别符合N个预设类别,且N个外部数据源均与所述第一主体信息和所述第一属性信息匹配时,分别从N个所述外部数据源中提取相应的属性内容,并将提取的N个属性内容进行信息整合处理后的整合信息作为答案,所述N小于或等于M。
可选地,所述智能问答方法,还包括:
当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案。
可选地,所述抽象语义推荐处理包括:
对所述用户输入信息进行分词处理,得到若干单独词;分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
本发明实施例还提供一种智能问答装置,所述装置包括:
接收单元,适于接收用户输入信息;
抽象语义数据库,适于提供多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;
抽象语义推荐单元,适于根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别;
提取单元,适于当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;
第一答案查找单元,适于当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。
可选地,所述智能问答装置,还包括:
知识库,适于提供多个知识点,每个知识点包括答案以及多个问题;
预处理单元,适于在进行抽象语义推荐处理之前,获取所述用户输入信息与所述知识库中问题的最高语义相似度值,并判断所述最高语义相似度值与预设相似度阈值的大小;
所述抽象语义推荐单元还适于当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,进行所述抽象语义推荐处理;
所述第一答案查找单元还适于当所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,向用户提供所述最高语义相似度值对应的知识点中的答案。
可选地,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息;与所述第一主体信息和所述第一属性信息匹配的外部数据源指的是所述第一主体信息与所述外部数据源中一词条的第二主体信息属于同一词类且所述第一属性信息与所述词条中的第二属性信息属于同一词类。
可选地,所述外部数据源为多个且各具有预设类别,所述装置还包括优先级设置单元,适于预先设置所述多个外部数据源的优先级顺序;所述第一答案查找单元还适于在进行抽象语义推荐处理后,当所述预设类别与所述抽象语义的类别符合的外部数据源有多个时,按照优先级从高到低的顺序选择外部数据源,当优先级较高的外部数据源无法提供答案时才选择剩余的外部数据源,直至得到答案为止。
可选地,所述第一答案查找单元为多个,所述外部数据源为多个且各具有预设类别,所述装置还包括信息整合单元;当得到的所述类别符合N个预设类别,且N个外部数据源均与所述第一主体信息和所述第一属性信息匹配时,每个所述第一答案查找单元还适于分别从N个所述外部数据源中提取相应的属性内容,所述信息整合单元,适于将每个所述第一答案查找单元提取的N个属性内容进行信息整合处理,并将得到的整合信息作为答案,所述N小于或等于M。
可选地,所述第一答案查找单元还适于当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案。
可选地,所述抽象语义推荐单元包括:
分词子单元,适于对所述用户输入信息进行分词处理,得到若干单独词;
词性标注子单元,适于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断子单元,适于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;
搜索子单元,适于对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配子单元,适于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
本发明实施例还提供一种智能问答***,所述***包括上述的智能问答装置和一个或多个外部数据源,所述外部数据源具有预设类别,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息,所述外部数据源适于当所述智能问答装置中的抽象语义推荐单元得到的类别符合所述预设类别时,根据所述第一主体信息和所述第一属性信息提取相应的属性内容作为答案。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明通过接收用户输入信息,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息,当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。由于不需要在自有问答***的知识库中建立相应的知识点,换句话说,不需要在知识库中预设某一类问题的不同问句以及对应答案,而从现有的外部数据源中获取答案,从而可以节省建立知识库所耗费的资源,简化知识库的维护。同时,本发明实施例通过抽象语义推荐处理来将用户输入信息对应到某个抽象语义的类别,而所述外部数据源具有预设类别,当所述类别符合所述预设类别时,才利用该外部数据源来查找匹配的答案,从而实现将某一类的用户问题对应的特定的外部数据源寻找答案,相比现有技术中直接使用用户输入信息从任意外部数据源查找答案的方法,本发明避免当接收的用户输入信息无法通过外部数据源查找到对应答案时,仍然通过外部查找的方式查找到答案的情况,进而提高答案回复效率,节省时间。
进一步地,本发明采用多个外部数据源来查找答案时,按一定优先级顺序使用外部数据源查找答案,当找到匹配的答案时,停止查找,不再继续搜索剩余的外部数据源,节省了搜索时间,从而提高了回复答案的效率。
进一步地,本发明采用多个外部数据源来查找答案,并将每个外部数据源提供的答案进行整合,再将整合后的答案信息作为返回用户的答案,从而避免了使用单个外部数据源查找不到答案,或者使用单个外部数据源查找的答案信息不全的情况,进而提高返回用户答***率。
进一步地,本发明通过抽象语义推荐处理得到对应的第一主体信息、第三主体信息和第三属性信息后,判断当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案,从而可以实现在用户输入信息存在属性嵌套时,仍能通过外部数据源找到对应的答案。
附图说明
图1是本发明实施例中的一种智能问答方法的流程图;
图2是本发明实施例中的一种抽象语义推荐处理的流程图;
图3是本发明实施例中的另一种智能问答方法的流程图;
图4是本发明实施例中的又一种智能问答方法的流程图;
图5是本发明实施例中的一种智能问答装置的结构示意图;
图6是本发明实施例中的另一种智能问答装置的结构示意图;
图7是本发明实施例中的又一种智能问答装置的结构示意图;
图8是本发明实施例中的又一种智能问答装置的结构示意图;
图9是本发明实施例中的一种智能问答***的结构示意图。
具体实施方式
如前所述,在用户提出的问题中,有一些问题是有关主体和属性的,主体是描述事务的对象,属性是主体的特征,例如用户输入问句为“刘德华的妻子是谁”,主体为刘德华,属性为妻子。在现有技术中,为了返回相应的答案信息,智能问答***需要在知识库中建立一个“刘德华的妻子是谁”或类似问句的问题,以及相应的答案信息,在接收用户输入问句后,通过进行语义相似度计算,在自动问答***中找到语义相似度大于预设阈值的问句,即存在相应的知识点,那么可将该知识点的对应答案信息作为答案。
然而,这种有关主体和属性的问句中,主体的具体内容是***的,按照现有的方法,当主体变化时,问句也相应变化,为了提供相应的答案,必须在智能问答***中建立相应的知识点,这无疑增加了智能问答***知识库的存储量,并且对不同的问题进行预设耗时耗力,知识库的维护也会十分繁杂。在现有技术中,也存在直接使用用户输入问句从外部数据源中爬取最接近答案的的方法,但是这种方法获得的答案不够准确。
本发明通过接收用户输入信息,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息,当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案,由于不需要在自有问答***的知识库中建立相应的知识点,换句话说,不需要在知识库中预设某一类问题的不同问句以及对应答案,而是充分利用现有的外部数据源获取答案,从而可以节省建立知识库所耗费的资源,简化知识库的维护。同时,本发明实施例通过抽象语义推荐处理来将用户输入信息对应到某个抽象语义的类别,而所述外部数据源具有预设类别,当所述类别符合所述预设类别时,才利用该外部数据源来查找匹配的答案,从而实现将某一类的用户问题对应的特定的外部数据源寻找答案,相比现有技术中直接使用用户输入信息从任意外部数据源查找答案的方法,本发明避免当接收的用户输入信息无法通过外部数据源查找到对应答案时,仍然通过外部查找的方式查找到答案的情况,进而提高答案回复效率,节省时间。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中的一种智能问答方法的流程图。下面参照图1所示对所述智能问答方法的步骤进行说明。
步骤S101:接收用户输入信息。
在具体实施中,所述用户输入信息可以通过键盘或触摸屏等人机交互装置输入的文本信息,也可以是通过语音输入后经过转换得到的文本信息。
步骤S102:根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分。
在具体实施中,在进行抽象语义推荐之前,可以首先判断从知识库中是否可以直接获取所述用户输入信息对应的答案。具体方式为:
提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及多个问题,将所述用户输入信息与所述知识库中所有问题进行相似度计算,当所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,直接向用户提供所述最高语义相似度值对应的知识点中的答案,只有当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,才进行所述抽象语义推荐处理。
首先判断从知识库中是否可以直接获取所述用户输入信息对应的答案,在所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,直接向用户提供所述最高语义相似度值对应的知识点中的答案,从而在知识库中已存在准确率较高的答案时,直接返回该答案,而不必增加运算量从外部数据源进行查找,进而提高回复答案的效率。
本发明对用户输入信息进行抽象语义推荐处理得到的抽象语义的类别表征了某一类用户问题所应对应答案的语义,例如,当抽象语义的类别为概念说明(如:[concept]是什么),表征了对应答案内容应该表达对某个概念的说明、定义或介绍。其他抽象语义的类别示例有:行为方式(如:[concept]如何[action])、行为原因(如:[concept]为什么会[action])、主体关系介绍(如:[concept]的[attribute]是谁)。其中,[concept]、[action]和[attribute]为抽象语义的缺失语义成分。[concept]表示主体或客体成份的词或短语,[action]表示动作成分的词或短语,[attribute]表示属性成份的词或短语。
需要说明的是,抽象语义的类别可以预先进行区分和定义,即预先建立好抽象语义表达式与抽象语义的类别之间的对应关系,但具体的对应关系不限于上述示例。
所述抽象语义数据库中存储有多个抽象语义表达式,每个类别的抽象语义包括一个或多个抽象语义表达式。每个抽象语义表达式包括一个或多个缺失语义成分,后续根据抽象语义表达式中的缺失语义成分可以从所述用户输入信息中提取对应的填充内容。
下面以用户输入信息为“通过网上银行如何开通***”为例说明本文所指的抽象语义表达式以及抽象语义推荐处理操作。
在一具体实施例中,所述抽象语义数据库中存储的若干抽象语义表达式包括:通过[concept1][action][concept2]($如何)办理;通过[concept]办理($如何)办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理;通过[concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过[concept][action]($如何)办理;[concept2]通过[concept1]($如何)办理;通过[concept1]($如何)开通[concept2];通过[concept1]($如何)[action][concept2];[action1][concept1]($如何)[action2][concept2];[action1][concept1]($如何)[action2][concept2];哪里可以[action][concept];[action][concept]的步骤;[concept1][action][concept2]。
上述语义表达式中,“[]”表示缺失语义成分,“[]”的内容表示该缺失语义成分的属性,语义表达式中其他内容表示语义规则词,具体的上述表达式中,“[concept]”,“[concept1]”,“[concept2]”,“[action]”,“[action1]”,“[action2]”表示缺失语义成分,方框“[]”的内容“concept”,“concept1”,“concept2”,“action”,“action1”,“action2”表示对应的缺失语义成分的属性,其中“concept”表示缺失语义成分“[concept]”为概念属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的一个具有名词词性的单独词,或者包括用户输入信息中一个具有名词词性的单独词以及若干具有其他词性的单独词的组合;“concept1”表示缺失语义成分“[concept1]”为第一个概念属性的缺失语义成分,其中“concept”和“1”结合表示该缺失语义成分的属性,“concept”表示概念属性,“1”表示位置属性,为第一个,后续填充该缺失语义成分的内容为至少包括用户输入信息中第一个具有名词词性的单独词,或者包括用户输入信息中第一个具有名词词性的单独词以及若干具有其他词性的单独词的组合;“concept2”表示缺失语义成分“[concept2]”为第二个概念属性的缺失语义成分,后续填充该缺失语义成分的内容为至少包括用户输入信息中第二个具有名词词性的单独词,或者包括用户输入信息中第二个具有名词词性的单独词以及若干其他词性的单独词的组合;“action”表示缺失语义成分“[action]”为动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的一个具有动词词性的单独词,或者包括用户输入信息中一个具有动词词性的单独词以及若干具有其他词性的单独词的组合;“action1”表示缺失语义成分“[action1]”为第一个具有动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的第一个具有动词词性的单独词,或者包括用户输入信息中第一个具有动词词性的单独词以及若干具有其他词性的单独词的组合;“action2”表示缺失语义成分“[action2]”为第二个具有动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的第二个具有动词词性的单独词,或者包括用户输入信息中第二个具有动词词性的单独词以及若干具有其他词性的单独词的组合。
上述各语义表达式中缺失语义成分之外的内容如“通过”,“($如何)”,“办理”,“开通”,“的步骤”等表示语义规则词,其中语义规则词“($如何)”表示“如何”这个语义规则词属于词类“$如何”,在一实施例中,所述“$如何”词类包括“如何”,“怎么”,“怎么样”,“怎样”等一组词义相近的词语,词类可以在建立抽象语义表达式时同时建立。相应的通过表示这个语义规则词属于词类“$通过”,在一实施例,所述词类“$开通”中包括关键词“开通”、“办理”、“订购”“申请”。后续在进行缺失语义成分的填充形成具体语义时,具有词类的语义规则词可以用该词类中的其他关键词代替。
需要说明的是,上述抽象语义表达式中缺失语义成分的表示方式以及词类信息的表示方式是为描述和表示的方便,仅作为一个示例,其不用限制本发明的保护范围,本发明的其他实施例中,对抽象语义表达式中缺失语义和词类信息可以采用其他的表示方式。
通过上述说明,可以了解到用户输入信息对应的抽象语义表达式及抽象语义的类别的概念。下面参照图2所示说明步骤S102中所述的抽象语义推荐处理操作。通过抽象语义推荐处理操作,可以得到抽象语义表达式及抽象语义的类别。所述抽象语义推荐处理可以包括步骤S102a、步骤S102b、步骤S102c、步骤S102d和步骤S102h。
进行步骤S102a,对所述用户输入信息进行分词处理,得到若干单独词。
所述分词处理依据一定分词规则进行,在***中预先设定分词的规则,进行分词处理时,调用设定的分词规则,对用户输入信息与对应的领域知识数据库中的预置知识分别进行分词处理。
所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法,或其他合适的分词方法。
下面仍以接收的用户输入信息为“通过网上银行如何开通***”作为示例进行说明。
对用户输入信息“通过网上银行如何开通***”进行分词处理,得到若干单独词“通过”,“网上银行”,“如何”,“开通”,“***”。
进行步骤S102b,分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息。
对单独词进行词性标注处理,得到每个单独词的词性信息的目的是为后续将用户输入信息与抽象语义表达式的匹配提供匹配的依据。
具体以上例进行说明,标注上述的单独词“通过”的词性为第一个动词、介词,标注单独词“网上银行”的词性为第一个名词,标注单独词“如何”的词性为代词,标注单独词“开通”的词性为第二个动词,标注单独词“***”的词性为第二个名词。需要说明的是词性标注为第一个名词时表示单独词“网上银行”为第一个具有名词词性的单独词,第二个名词、第一个动词或第二个动词的解释类似。
进行步骤S102c,分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息。
分别对每个所述单独词进行词类判断处理的目的是为了判断每个单独词是否具有相应的词类,在一实施例中,其具体过程为:将每个单独词与词类库中的若干词类进行匹配,若某一词类中存在该单独词,则该单独词具有相应的词类,当单独词具有相应的词类,则对该单独词进行属于某一词类(或词类信息)的标记,后续在进行匹配处理时,通过判断用户输入信息中部分内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类,从而判断用户输入信息与该抽象语义表达式的匹配程度,提高了匹配的精度和效率。
进行步骤S102d,对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式。
对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集的目的是为了减少后续进行匹配处理时的负担以及减少处理时间,以提高***的性能。
所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述用户输入信息中至少部分单独词相同或属于同一词类。在一实施例中,进行搜索处理时,若某个抽象语义表达式的至少部分语义规则词与所述用户输入信息中至少部分单独词相同或属于同一词类,则将该抽象语义表达式作为抽象语义候选集中的一个抽象语义表达式。在其他实施例中,可以根据其他的搜索方式对抽象语义数据库进行搜索,得到与所述用户输入信息相关的抽象语义候选集。
在具体的实施例中,对抽象语义数据库进行搜索处理,得到与所述用户输入信息“通过网上银行如何开通***”相关的抽象语义候选集包括抽象语义表达式:通过[concept1][action][concept2]($如何)办理;通过[concept]办理($如何)办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理;通过[concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过[concept1]($如何)开通[concept2];通过[concept][action]($如何)办理;通过[concept1]($如何)开通[concept2];[concept2]通过[concept1]($如何)办理;通过[concept1]($如何)[action][concept2]。上述抽象语义候选集中的抽象语义表达式部分语义规则词(通过,通过,办理或($如何))与所述用户输入信息中至少部分单独词(通过,办理或如何)相同或属于同一词类。
步骤S102h,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
具体的,通过匹配处理,得到与所述用户输入信息“通过网上银行如何开通***”匹配的抽象语义表达式包括:通过[concept1]($如何)[action1][concept2],该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应;缺失语义成分[concept2]与单独词“***”对应,缺失语义成分[action1]与单独词“开通”对应。
此外,得到抽象语义表达式后,可以判断该抽象语义表达式属于哪一种类别,例如上述用户输入信息的抽象语义表达式为“通过[concept1]($如何)[action1][concept2]”,该抽象语义表达式属于行为方式介绍这个类别。需要说明的是,本领域技术人员应该可以理解如何将得到的抽象语义表达式划分到预定义的某个类别。
通过上述步骤S102a至步骤S102h可以得到用户输入信息对应的抽象语义表达式及抽象语义的类别,以及该抽象语义表达式的各缺失语义成分。
步骤S103:当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息。
在具体实施中,所述预设类别是指设定可以通过外部数据源查找答案的抽象语义的类别,符合预设指定抽象语义的类别才可能从外部数据源找到答案。
所述预设类别可以根据外部数据源是否能找到对应答案来进行设定。所述外部数据源是指外部第三方可能提供答案的通用数据资源,例如百度百科,是一个可以提供主体介绍的数据资源,主体的属性有多种,主体关系介绍这一类语义的问题是可以通过百度百科查找到答案的,那么想要通过使用百度百科这个数据源来查找答案,可以将“主体关系介绍”这一类抽象语义作为所述预设类别中的一个类别,从而当用户输入信息,如“刘德华的妻子是谁”,经过抽象语义推荐得到抽象语义的类别为“主体关系介绍”,即可指向百度百科来查找答案。
而有的抽象语义的类别则不适合使用百度百科来查找答案,如用户输入信息为“通过网上银行如何开通***”对应的抽象语义的类别为“行为方式介绍”,可以理解百度百科无法提供相应的答案,所以如果使用百度百科这一外部数据源,则所述预设类别中不应包括“行为方式介绍”这一抽象语义的类别。
当然,使用百度百科为例的外部数据源时,也可以是其他抽象语义的类别,不以“主体关系介绍”为限,例如还可以是“属性构成”这一抽象语义的类别,如用户输入信息“金庸有哪些作品”推荐为“属性构成”的抽象语义的类别,这一类别的抽象语义对应的问句的答案也可以从百度百科中查找,所以“属性构成”这一抽象语义的类别也可以包括在百度百科外部数据源的预类别中。
提取出的所述第一主体信息和所述第一属性信息用于后续外部数据源提供答案前的匹配操作。
步骤S104:当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。
在具体实施中,所述外部数据源可以包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息。与所述第一主体信息和所述第一属性信息匹配的外部数据源指的是所述第一主体信息与所述外部数据源中一词条的第二主体信息属于同一词类且所述第一属性信息与所述词条中的第二属性信息属于同一词类。
在一个词条中,所述第二属性信息具有对应属性内容。例如在第二主体信息为“刘德华”的词条中,具有与第二属性信息“身高”对应的属性内容“174cm”。
下面以用户输入信息为“刘德华的妻子是谁”为例说明本发明如何通过步骤S101至步骤S104得到相应的答案。
执行步骤S101,接收用户输入信息“刘德华的妻子是谁”。
执行步骤S102,根据抽象语义数据库对“刘德华的妻子是谁”进行抽象语义推荐处理,得到抽象语义表达式“为[concept]的[attribute]是谁”,该抽象语义表达式的抽象语义的类别为“主体关系介绍”。其中,缺失语义成分为[concept]和[attribute]。
执行步骤S103,判断得到“刘德华的妻子是谁”的抽象语义表达式的抽象语义的类别“主体关系介绍”符合某外部数据源的预设类别,从而可以确定该外部数据源可以用来查找答案,假设为百度百科。根据缺失语义成分[concept]和[attribute]从所述用户输入信息“刘德华的妻子是谁”中提取第一主体信息和第一属性信息,[concept]对应内容为“刘德华”,[attribute]对应内容为“妻子”,因此得到第一主体信息为“刘德华”,第一属性信息为“妻子”。
百度百科中包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息。
执行步骤S104,百度百科与所述第一主体信息“刘德华”和第一属性信息“妻子”匹配,即百度百科的词条中,有一词条的第二主体信息与“刘德华”属于同一词类,且该词条的第二属性信息与“妻子”属于同一词类。
需要说明的是,同一词类指的是可以判定为同一语义的词。具体而言,在另一实施例中,当用户输入信息为“刘德华的配偶是谁”,那么经过执行步骤S101至步骤S103,得到第一主体信息为“刘德华”,第一属性信息为“配偶”,而百度百科中有一词条的第二主体信息为“刘德华”,第二属性信息为“妻子”,通过判断得出第一主体信息和第二主体信息属于同一词类,相同的词当然也属于同一词类,同时,第一属性信息“配偶”和第二属性信息“妻子”也属于同一词类,那么可以得出百度百科与所述第一主体信息和第一属性信息匹配,可以从百度百科中提取相应的属性内容作为答案,从百度百科中提取该匹配词条中的“妻子”对应的内容“朱丽倩”作为答案。
对比现有技术,现有技术为了回复相应的答案,对于属于主体关系介绍这一类别的不同问句需要建立不同的知识点,例如,需预设“刘德华的妻子是谁”这一问句及对应答案,也需要预设“刘德华的配偶是谁”及对应答案。同样地,当第一主体信息为“华仔”或其他与“刘德华”属于同一词类的词,问句形式变化,同样也需要预设相应的知识点,才能返回正确的答案。因此,为对应各种语义相同但问句形式不同的信息,都需在知识库中建立相应的知识点,从而使得知识库的体量变得相当巨大,会占用巨大的知识库存储空间,由于知识库变得庞大,问句表达形式的多样化也使得知识库的维护起来十分耗时耗力。
本发明通过接收用户输入信息,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息,当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案,由于不需要在自有问答***的知识库中建立相应的知识点,换句话说,不需要在知识库中预设某一类问题的不同问句以及对应答案,而从现有的外部数据源中获取答案,从而可以节省建立知识库所耗费的资源,简化知识库的维护。同时,本发明实施例通过抽象语义推荐处理来将用户输入信息对应到某个抽象语义的类别,而所述外部数据源具有预设类别,当所述类别符合所述预设类别时,才利用该外部数据源来查找匹配的答案,从而实现将某一类的用户问题对应的特定的外部数据源寻找答案,相比现有技术中直接使用用户输入信息从任意外部数据源查找答案的方法,本发明避免当接收的用户输入信息无法通过外部数据源查找到对应答案时,仍然通过外部查找的方式查找到答案的情况,进而提高答案回复效率,节省时间。
需要说明的是,当所述用户输入信息与所述知识库中问题的最高语义相似度值等于预设相似度阈值时,可以提供所述最高语义相似度值对应的知识点中的答案,也可以提供从外部数据源中查找的答案,在此不做限制。
图3发明实施例中的另一种智能问答方法的流程图。下面参照图3对所述智能问答方法的步骤进行说明。所述智能问答方法可以包括:
步骤S301:接收用户输入信息;
步骤S302:根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;
步骤S303:当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;
步骤S304:所述外部数据源为多个且各具有预设类别,预先设置所述多个外部数据源的优先级顺序;当所述预设类别与所述抽象语义的类别符合的外部数据源有多个时,按照优先级从高到低的顺序选择外部数据源,当优先级较高的外部数据源无法提供答案时才选择剩余的外部数据源,直至得到答案为止。
其中,步骤S301、步骤S302和步骤S303的说明请对应参照图1中步骤S101、步骤S102和步骤S103,在此不在赘述。
在步骤S304的具体实施中,所述外部数据源为多个,每个外部数据源具有各自预设类别,即外部数据源具有各自可以提供答案的抽象语义的类别。每个外部数据源都有被预先设定的优先级。下面仍然以用户输入信息为“刘德华的妻子是谁”为例说明步骤S304的实施。
经过执行步骤S301至步骤S303,得到“刘德华的妻子是谁”的抽象语义表达式及抽象语义的类别,第一主体内容为“刘德华”,第一属性内容为“妻子”,该抽象语义的类别“主体关系介绍”符合多个外部数据源的预设类别,在此假设该抽象语义表达式的抽象语义的类别符合两个外部数据源的预设类别,这两个外部数据源分别为***和百度百科,并且使用***的优先级高于使用百度百科的优先级,那么优先选择使用***根据第一主体内容和第一属性内容查找答案,假设使用***无法提供答案,那么再使用优先级较低的百度百科提供答案,假设使用***可以提供答案,那么不再使用优先级较低的百度百科提供答案。
本发明实施例在采用多个外部数据源来查找答案时,预先为所述外部数据源设置了不同的优先级,将更有可能提供答案的外部数据源标记为更高的优先级,再按一定优先级顺序使用外部数据源查找答案,当找到匹配的答案时,停止查找,不再继续搜索剩余的外部数据源,从而避免继续搜索多个外部数据源耗费搜索时间,进而提高了回复答案的效率。
在本发明的另一实施例中,在实施步骤S303后,按照如下方式实施:所述外部数据源为M个且各具有预设类别,当得到的所述类别符合N个预设类别,且N个外部数据源均与所述第一主体信息和所述第一属性信息匹配时,分别从N个所述外部数据源中提取相应的属性内容,并将提取的N个属性内容进行信息整合处理后的整合信息作为答案,所述N小于或等于M。
例如,当得到“金庸的作品有哪些”的抽象语义的类别“属性构成”符合N个外部数据源的预设类别,且N个外部数据源均与所述第一主体信息和所述第一属性信息匹配,即N个外部数据源均存在词条的第二主体信息与第一主体信息“金庸”属于同一词类,且该词条的第二属性信息与第一属性信息“作品”属于同一词类,那么分别使用N个外部数据源提取相应的属性内容,假设有两个外部数据源得到的属性内容分别为“A、B和C”,“A、B、D和E”,那么将分别查找到的信息进行整合得到“A、B、C、D和E”,进而将整合后的信息作为答案。
从上例可以看出,通过将两个外部数据源的提供的答案进行整合得到“A、B、C、D和E”,从而使得回复用户的更加准确,避免使用单一数据源时信息不全的情况。
需要指出的是,所述信息整合处理不局限于提取信息的并集,还可以包括其他的处理方式,其不限制本发明的保护范围。
本实施在采用多个外部数据源来查找答案,并将每个外部数据源提供的答案进行整合,再将整合后的答案信息作为返回用户的答案,从而避免了使用单个外部数据源查找不到答案,或者使用单个外部数据源查找的答案信息不全的情况,进而提高返回用户答***率。
在本发明的其他实施例中,还可以将不同外部数据源提供的答案和/或来源都发送给用户,由用户自己进行筛选和整合。
图4是本发明实施例中的又一种智能问答方法的流程图。下面参照图4对所述智能问答方法的步骤进行说明。
步骤S401:接收用户输入信息;
步骤S402:根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;
步骤S403:当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;
步骤S404:当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案。
在具体实施中,步骤S401、步骤S402和步骤S403的说明请对应参照图3中所示的步骤S301、步骤S302和步骤S303的说明,不再赘述。
下面以“刘德华的妻子的祖籍是什么”作为用户输入信息为例说明步骤S404的实施。
经过步骤S401至步骤S403得到第一主体信息为“刘德华的妻子”以及第一属性信息为“祖籍”,所述第一主体信息包括第三主体信息“刘德华”和第三属性信息“妻子”。其中,存在与所述第一属性信息“祖籍”匹配的数据源,在属性信息包括“祖籍”的所有词条中,不存在“刘德华的妻子”主体信息,但存在与第三主体信息“刘德华”和第三属性信息“妻子”匹配的属性内容朱丽倩对应的词条,那么将与第三主体信息“刘德华”和第三属性信息“妻子”匹配的属性内容朱丽倩作为第四主体信息,继续从外部数据源中提取与所述第四主体信息朱丽倩和所述第一属性信息“祖籍”匹配的属性内容作为答案。
从上述说明可知,本实施例的技术方案可以在用户输入信息存在属性嵌套时,仍能通过外部数据源找到对应的答案。
图5是本发明实施例中的一种智能问答装置的结构示意图。下面参照图5对所述智能问答装置50进行说明,所述智能问答装置50可以包括:接收单元501、抽象语义推荐单元502、提取单元503、第一答案查找单元504和抽象语义数据库505。其中:
所述接收单元501,适于接收用户输入信息;
所述抽象语义数据库505,适于提供多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;
所述抽象语义推荐单元502,适于根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别;
所述提取单元503,适于当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;
所述第一答案查找单元504,适于当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。
在具体实施中,所述抽象语义推荐单元502可以包括:
分词子单元,适于对所述用户输入信息进行分词处理,得到若干单独词;词性标注子单元,适于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;词类判断子单元,适于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;搜索子单元,适于对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;匹配子单元,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
在具体实施中,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息;与所述第一主体信息和所述第一属性信息匹配的外部数据源指的是所述第一主体信息与所述外部数据源中一词条的第二主体信息属于同一词类且所述第一属性信息与所述词条中的第二属性信息属于同一词类。
上述各单元的说明,可对应参照智能问答的方法中相应步骤的说明,不再赘述。
本发明通过接收用户输入信息,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息,当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。由于不需要在自有问答***的知识库中建立相应的知识点,换句话说,不需要在知识库中预设某一类问题的不同问句以及对应答案,而从现有的外部数据源中获取答案,从而可以节省建立知识库所耗费的资源,简化知识库的维护。同时,本发明实施例通过抽象语义推荐处理来将用户输入信息对应到某个抽象语义的类别,而所述外部数据源具有预设类别,当所述类别符合所述预设类别时,才利用该外部数据源来查找匹配的答案,从而实现将某一类的用户问题对应的特定的外部数据源寻找答案,相比现有技术中直接使用用户输入信息从任意外部数据源查找答案的方法,本发明避免当接收的用户输入信息无法通过外部数据源查找到对应答案时,仍然通过外部查找的方式查找到答案的情况,进而提高答案回复效率,节省时间。
在本发明另一实施例中,所述智能问答装置50还可以包括知识库和预处理单元(图未示)。其中:
所述知识库适于提供多个知识点,每个知识点包括答案以及多个问题;
所述预处理单元适于在进行抽象语义推荐处理之前,获取所述用户输入信息与所述知识库中问题的最高语义相似度值,并判断所述最高语义相似度值与预设相似度阈值的大小。
在本实施例中,所述抽象语义推荐单元还适于当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,进行所述抽象语义推荐处理。即在本实施例中,首先判断所述最高语义相似度值与预设相似度阈值的大小,才确定是否进行所述抽象语义推荐处理。
本发明实施例通过首先进行用户输入信息与所述知识库中所有问题进行相似度计算,在所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,直接向用户提供所述最高语义相似度值对应的知识点中的答案,从而在知识库中已存在准确率较高的答案时,直接返回该答案,而不必增加运算量从外部数据源进行查找,进而提高回复答案的效率。
图6是本发明实施例中的另一种智能问答装置的结构示意图。
所述智能问答装置60可以包括:接收单元601、抽象语义推荐单元602、提取单元603、第一答案查找单元604、抽象语义数据库605和优先级设置单元606。其中:
所述接收单元601、所述抽象语义推荐单元602、所述提取单元603和所述抽象语义数据库605的说明可以对应参照所述接收单元501、抽象语义推荐单元502、提取单元503和抽象语义数据库505的说明,不再赘述。
所述优先级设置单元606,适于预先设置所述多个外部数据源的优先级顺序。本实施例中,所述第一答案查找单元604还适于在进行抽象语义推荐处理后,当所述预设类别与所述抽象语义的类别符合的外部数据源有多个时,按照优先级从高到低的顺序选择外部数据源,当优先级较高的外部数据源无法提供答案时才选择剩余的外部数据源,直至得到答案为止。
例如,请参照图6,外部数据源有外部数据源1、外部数据源2至外部数据源K共K个,所述优先级设置单元606预先设置K个外部数据源的优先级。其中,进行抽象语义推荐处理得到的抽象语义的类别与多个(L个)外部数据源的所述预设类别符合。所述第一答案查找单元604按照优先级从高到低的顺序选择外部数据源,当优先级较高的外部数据源无法提供答案时才选择剩余的外部数据源,直至得到答案为止。
本发明实施例在采用多个外部数据源来查找答案时,为所述外部数据源设置了不同的优先级,将更有可能提供答案的外部数据源标记为更高的优先级,再按一定优先级顺序使用外部数据源查找答案,当找到匹配的答案时,停止查找,不再继续搜索剩余的外部数据源,从而避免继续搜索多个外部数据源耗费搜索时间,进而提高了回复答案的效率。
图7是本发明实施例中的又一种智能问答装置的结构示意图。
所述智能问答装置70可以包括:接收单元701、抽象语义推荐单元702、提取单元703、第一答案查找单元704、抽象语义数据库705和信息整合单元706。其中:
所述接收单元701、所述抽象语义推荐单元702、所述提取单元703和所述抽象语义数据库705的说明,可以对应参照所述接收单元501、抽象语义推荐单元502、提取单元503和抽象语义数据库505的说明,不再赘述。
在本实施例中,所述第一答案查找单元704有多个,所述外部数据源为多个且各具有预设类别,在进行所述抽象语义推荐处理后,当得到的抽象语义的类别符合N个预设类别,且N个外部数据源均与所述第一主体信息和所述第一属性信息匹配时,每个所述第一答案查找单元704还适于分别从N个所述外部数据源中提取相应的属性内容。本实施例的所述装置70还包括信息整合单元706,适于将每个所述第一答案查找单元704提取的N个属性内容进行信息整合处理,并将得到的整合信息作为答案,所述N小于或等于M。
本发明采用多个外部数据源来查找答案,通过设置多个第一答案查找单元分别查找预设类别与抽象语义的类别符合的多个外部数据源,得到多个答案信息,并设置信息整合单元将每个外部数据源提供的答案信息进行整合,得到整合后的答案信息作为返回用户的答案,从而避免使用单个外部数据源查找不到答案,或者使用单个外部数据源查找的答案信息不全的情况,进而提高返回用户答***率。
图8是本发明实施例中的又一种智能问答装置的结构示意图。
所述智能问答装置80可以包括:接收单元801、抽象语义推荐单元802、提取单元803、第一答案查找单元804和抽象语义数据库805。其中:
所述接收单元801、所述抽象语义推荐单元802和所述提取单元803和所述抽象语义数据库805的说明,可以对应参照所述接收单元501、抽象语义推荐单元502和提取单元503和抽象语义数据库505的说明,不再赘述。
本实施例中,当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,所述第一答案查找单元804将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案。
通过设置本实施例的所述第一答案查找单元,在用户输入信息具有嵌套属性信息时,仍能通过外部数据源查找到答案,进而提高问答***的智能性。
图9是本发明实施例中的一种智能问答***的结构示意图。如图所示的智能问答***90可以包括智能问答装置901和外部数据源902。
所述外部数据源902为一个或多个,所述外部数据源902具有预设类别,适于当所述智能问答装置901进行抽象语义推荐得到的类别符合所述预设类别时,根据所述第一主体信息和所述第一属性信息提取相应的属性内容作为答案。
在具体实施中,所述外部数据源902包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息,当所述第一主体信息与所述外部数据源中一词条的第二主体信息属于同一词类且所述第一属性信息与所述词条中的第二属性信息属于同一词类时,所述外部数据源902可以提供对应的属性内容作为答案。
所述外部数据源902具有预设类别,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息,所述外部数据源适于当所述智能问答装置中的抽象语义推荐单元得到的类别符合所述预设类别时,根据所述第一主体信息和所述第一属性信息提取相应的属性内容作为答案。
当所述外部数据源902具有多个时,所述外部数据源可以被设置不同的优先级,优先级较高的外部数据源优先被查找,当该外部数据源不能提供答案时,才使用下一优先级的外部数据源提供答案,依次类推。
当所述外部数据源902具有多个时,可以使用多个外部数据源来查找答案,再分别使用多个外部数据源查找得到的信息进行整合,将整合处理后的信息作为答案。
所述智能问答装置901可以采用图5至图8中的任意一种结构。
在一实施例中,如图9所示,所述智能问答装置901采用图5所示的智能问答装置50的结构,所述智能问答装置901可以包括:接收单元501、抽象语义推荐单元502、提取单元503、第一答案查找单元504和抽象语义数据库505。其中各单元的说明请参照对图5的说明,不再赘述。
需要说明的是,图9所示的智能问答***90仅以其中一种智能问答装置901作为示例,不应以图9所示的智能问答装置901的结构作为本发明的限制。
本发明通过接收用户输入信息,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息,当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案,由于不需要在自有问答***的知识库中建立相应的知识点,换句话说,不需要在知识库中预设某一类问题的不同问句以及对应答案,而从现有的外部数据源中获取答案,从而可以节省建立知识库所耗费的资源,简化知识库的维护。同时,本发明实施例通过抽象语义推荐处理来将用户输入信息对应到某个抽象语义的类别,而所述外部数据源具有预设类别,当所述类别符合所述预设类别时,才利用该外部数据源来查找匹配的答案,从而实现将某一类的用户问题对应的特定的外部数据源寻找答案,相比现有技术中直接使用用户输入信息从任意外部数据源查找答案的方法,本发明避免当接收的用户输入信息无法通过外部数据源查找到对应答案时,仍然通过外部查找的方式查找到答案的情况,进而提高答案回复效率,节省时间。
进一步地,本发明采用多个外部数据源来查找答案时,为所述外部数据源设置了不同的优先级,按一定优先级顺序使用外部数据源查找答案,当找到匹配的答案时,停止查找,不再继续搜索剩余的外部数据源,从而提高了回复答案的效率。
进一步地,本发明采用多个外部数据源来查找答案,并将每个外部数据源提供的答案进行整合,再将整合后的答案信息作为返回用户的答案,从而避免了使用单个外部数据源查找不到答案,或者使用单个外部数据源查找的答案信息不全的情况,进而提高返回用户答***率。
进一步地,本发明通过抽象语义推荐处理得到对应的第一主体信息、第三主体信息和第三属性信息后,判断当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案,从而可以实现在用户输入信息存在属性嵌套时,仍能通过外部数据源找到对应的答案。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (15)
1.一种智能问答方法,其特征在于,包括:
接收用户输入信息;
根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;
当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;
当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。
2.如权利要求1所述的智能问答方法,其特征在于,在进行抽象语义推荐处理之前,还包括:
提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及多个问题;当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,进行所述抽象语义推荐处理;否则,向用户提供所述最高语义相似度值对应的知识点中的答案。
3.如权利要求1所述的智能问答方法,其特征在于,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息;与所述第一主体信息和所述第一属性信息匹配的外部数据源指的是所述第一主体信息与所述外部数据源中一词条的第二主体信息属于同一词类且所述第一属性信息与所述词条中的第二属性信息属于同一词类。
4.如权利要求1所述的智能问答方法,其特征在于,所述外部数据源为多个且各具有预设类别,所述方法还包括:预先设置所述多个外部数据源的优先级顺序;在进行抽象语义推荐处理之后,当所述预设类别与所述抽象语义的类别符合的外部数据源有多个时,按照优先级从高到低的顺序选择外部数据源,当优先级较高的外部数据源无法提供答案时才选择剩余的外部数据源,直至得到答案为止。
5.如权利要求1所述的智能问答方法,其特征在于,所述外部数据源为M个且各具有预设类别,所述方法还包括:当得到的所述类别符合N个预设类别,且N个外部数据源均与所述第一主体信息和所述第一属性信息匹配时,分别从N个所述外部数据源中提取相应的属性内容,并将提取的N个属性内容进行信息整合处理后的整合信息作为答案,所述N小于或等于M。
6.如权利要求1所述的智能问答方法,其特征在于,还包括:
当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案。
7.如权利要求1所述的智能问答方法,其特征在于,所述抽象语义推荐处理包括:
对所述用户输入信息进行分词处理,得到若干单独词;
分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
8.一种智能问答装置,其特征在于,包括:
接收单元,适于接收用户输入信息;
抽象语义数据库,适于提供多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分;
抽象语义推荐单元,适于根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义表达式及抽象语义的类别;
提取单元,适于当得到的所述类别符合预设类别时,根据抽象语义表达式中的缺失语义成分从所述用户输入信息中提取第一主体信息和第一属性信息;
第一答案查找单元,适于当存在与所述第一主体信息和所述第一属性信息匹配的外部数据源时,从所述外部数据源中提取相应的属性内容作为答案。
9.如权利要求8所述的智能问答装置,其特征在于,还包括:
知识库,适于提供多个知识点,每个知识点包括答案以及多个问题;
预处理单元,适于在进行抽象语义推荐处理之前,获取所述用户输入信息与所述知识库中问题的最高语义相似度值,并判断所述最高语义相似度值与预设相似度阈值的大小;
所述抽象语义推荐单元还适于当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,进行所述抽象语义推荐处理;
所述第一答案查找单元还适于当所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,向用户提供所述最高语义相似度值对应的知识点中的答案。
10.如权利要求8所述的智能问答装置,其特征在于,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息;与所述第一主体信息和所述第一属性信息匹配的外部数据源指的是所述第一主体信息与所述外部数据源中一词条的第二主体信息属于同一词类且所述第一属性信息与所述词条中的第二属性信息属于同一词类。
11.如权利要求8所述的智能问答装置,其特征在于,所述外部数据源为多个且各具有预设类别,所述装置还包括优先级设置单元,适于预先设置所述多个外部数据源的优先级顺序;所述第一答案查找单元还适于在进行抽象语义推荐处理后,当所述预设类别与所述抽象语义的类别符合的外部数据源有多个时,按照优先级从高到低的顺序选择外部数据源,当优先级较高的外部数据源无法提供答案时才选择剩余的外部数据源,直至得到答案为止。
12.如权利要求8所述的智能问答装置,其特征在于,所述第一答案查找单元为多个,所述外部数据源为多个且各具有预设类别,所述装置还包括信息整合单元;当得到的所述类别符合N个预设类别,且N个外部数据源均与所述第一主体信息和所述第一属性信息匹配时,每个所述第一答案查找单元还适于分别从N个所述外部数据源中提取相应的属性内容,所述信息整合单元,适于将每个所述第一答案查找单元提取的N个属性内容进行信息整合处理,并将得到的整合信息作为答案,所述N小于或等于M。
13.如权利要求8所述的智能问答装置,其特征在于,所述第一答案查找单元还适于当存在仅与所述第一属性信息匹配的外部数据源,所述第一主体信息包括第三主体信息和第三属性信息,且所述外部数据源中存在与所述第三主体信息和第三属性信息匹配的属性内容时,将所述属性内容作为第四主体信息,从所述外部数据源中提取与所述第四主体信息和所述第一属性信息匹配的属性内容作为答案。
14.如权利要求8所述的智能问答装置,其特征在于,所述抽象语义推荐单元包括:
分词子单元,适于对所述用户输入信息进行分词处理,得到若干单独词;
词性标注子单元,适于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断子单元,适于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;
搜索子单元,适于对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配子单元,适于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
15.一种智能问答***,其特征在于,包括:
如权利要求8-14任一项所述的智能问答装置;
一个或多个外部数据源,所述外部数据源具有预设类别,所述外部数据源包括多个词条,每个所述词条包括第二主体信息和多个第二属性信息,所述外部数据源适于当所述智能问答装置中的抽象语义推荐单元得到的类别符合所述预设类别时,根据所述第一主体信息和所述第一属性信息提取相应的属性内容作为答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610213370.2A CN105787134B (zh) | 2016-04-07 | 2016-04-07 | 智能问答方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610213370.2A CN105787134B (zh) | 2016-04-07 | 2016-04-07 | 智能问答方法、装置及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105787134A true CN105787134A (zh) | 2016-07-20 |
CN105787134B CN105787134B (zh) | 2019-09-20 |
Family
ID=56396021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610213370.2A Active CN105787134B (zh) | 2016-04-07 | 2016-04-07 | 智能问答方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105787134B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682221A (zh) * | 2017-01-04 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 问答交互的响应方法、装置及问答*** |
CN106776756A (zh) * | 2016-11-22 | 2017-05-31 | 杭州联络互动信息科技股份有限公司 | 服务器端、客户端处理天气资源数据的方法和装置 |
CN107977236A (zh) * | 2017-12-21 | 2018-05-01 | 上海智臻智能网络科技股份有限公司 | 问答***的生成方法、终端设备、存储介质及问答*** |
CN108446295A (zh) * | 2018-01-23 | 2018-08-24 | 深圳市阿西莫夫科技有限公司 | 信息检索方法、装置、计算机设备和存储介质 |
CN109493186A (zh) * | 2018-11-20 | 2019-03-19 | 北京京东尚科信息技术有限公司 | 确定推送信息的方法和装置 |
CN110046303A (zh) * | 2019-04-09 | 2019-07-23 | 有光创新(北京)信息技术有限公司 | 一种基于需求匹配平台实现的信息推荐方法及装置 |
CN110275949A (zh) * | 2019-06-06 | 2019-09-24 | 深圳中兴飞贷金融科技有限公司 | 用于贷款应用的自动应答方法及*** |
CN112579642A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 数据处理方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398835A (zh) * | 2007-09-30 | 2009-04-01 | 日电(中国)有限公司 | 基于自然语言的服务选择***与方法以及服务查询***与方法 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和*** |
US20140040233A1 (en) * | 2012-07-31 | 2014-02-06 | Mehmet Kivanc Ozonat | Organizing content |
CN104991965A (zh) * | 2015-07-23 | 2015-10-21 | 上海智臻网络科技有限公司 | 用于基于标准问创建扩展问的方法和装置 |
-
2016
- 2016-04-07 CN CN201610213370.2A patent/CN105787134B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398835A (zh) * | 2007-09-30 | 2009-04-01 | 日电(中国)有限公司 | 基于自然语言的服务选择***与方法以及服务查询***与方法 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和*** |
US20140040233A1 (en) * | 2012-07-31 | 2014-02-06 | Mehmet Kivanc Ozonat | Organizing content |
CN104991965A (zh) * | 2015-07-23 | 2015-10-21 | 上海智臻网络科技有限公司 | 用于基于标准问创建扩展问的方法和装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776756A (zh) * | 2016-11-22 | 2017-05-31 | 杭州联络互动信息科技股份有限公司 | 服务器端、客户端处理天气资源数据的方法和装置 |
CN106682221A (zh) * | 2017-01-04 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 问答交互的响应方法、装置及问答*** |
CN107977236A (zh) * | 2017-12-21 | 2018-05-01 | 上海智臻智能网络科技股份有限公司 | 问答***的生成方法、终端设备、存储介质及问答*** |
CN107977236B (zh) * | 2017-12-21 | 2020-11-13 | 上海智臻智能网络科技股份有限公司 | 问答***的生成方法、终端设备、存储介质及问答*** |
CN108446295A (zh) * | 2018-01-23 | 2018-08-24 | 深圳市阿西莫夫科技有限公司 | 信息检索方法、装置、计算机设备和存储介质 |
CN108446295B (zh) * | 2018-01-23 | 2021-02-12 | 深圳市阿西莫夫科技有限公司 | 信息检索方法、装置、计算机设备和存储介质 |
CN109493186A (zh) * | 2018-11-20 | 2019-03-19 | 北京京东尚科信息技术有限公司 | 确定推送信息的方法和装置 |
CN110046303A (zh) * | 2019-04-09 | 2019-07-23 | 有光创新(北京)信息技术有限公司 | 一种基于需求匹配平台实现的信息推荐方法及装置 |
CN110046303B (zh) * | 2019-04-09 | 2022-05-17 | 有光创新(北京)信息技术有限公司 | 一种基于需求匹配平台实现的信息推荐方法及装置 |
CN110275949A (zh) * | 2019-06-06 | 2019-09-24 | 深圳中兴飞贷金融科技有限公司 | 用于贷款应用的自动应答方法及*** |
CN112579642A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 数据处理方法、装置、存储介质及电子设备 |
WO2021063087A1 (zh) * | 2019-09-30 | 2021-04-08 | 北京国双科技有限公司 | 数据处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105787134B (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787134A (zh) | 智能问答方法、装置及*** | |
US8775433B2 (en) | Self-indexing data structure | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN105912629B (zh) | 一种智能问答方法及装置 | |
US20210064821A1 (en) | System and method to extract customized information in natural language text | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及*** | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
CN105912645B (zh) | 一种智能问答方法及装置 | |
US20090281792A1 (en) | Self-learning data lenses | |
CN105677795B (zh) | 抽象语义的推荐方法、推荐装置及推荐*** | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN103678287B (zh) | 一种关键词翻译统一的方法 | |
KR20190059084A (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN111090755B (zh) | 一种文本关联关系判别方法及存储介质 | |
CN107480197B (zh) | 实体词识别方法及装置 | |
CN116401350A (zh) | 基于勘探开发知识图谱的智能检索方法、***及存储介质 | |
CN110580337A (zh) | 一种基于实体相似度计算的专业实体消歧实现方法 | |
CN105631032A (zh) | 基于抽象语义推荐的问答知识库建立方法、装置及*** | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN110162615B (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、***和设备 | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |