CN106649258A

CN106649258A - 一种智能的问答***

Info

Publication number: CN106649258A
Application number: CN201610844734.7A
Authority: CN
Inventors: 袁家政; 刘宏哲; 龚灵杰
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2017-05-10

Abstract

本发明公开了一种智能的问答***，该***中的内容获取模块，用于确认和汇集与答案相关的内容，对问题空间的问题进行分析并且分类，自动拓展资料库；问题分析模块，用于分析输入的问题信息，确定问题类型、发觉问题间的关系和分解问题；假设生成模块，用于从数据源中尽可能多的搜索与答案相关的内容作为参***；软过滤模块，对大量的参***进行筛选，分出很可能是正确答案的一类和有可能是正确答案的一类；证据打分模块，根据打分对象对参***进行详细的打分，确定其接近参***的程度；答案合并和排名模块，将分拆的答案合并，计算可信度，并且排名，排名最靠前的即为***认为的最佳答案。

Description

一种智能的问答***

技术领域

本申请涉及人机智能交互技术领域，尤其涉及一种智能的问答***。

背景技术

自动问答***是指以自然语言理解技术为核心，使得计算机能够理解用户的谈话内容，实现人与计算机之间的有效交流沟通，并且提供强大的搜索能力，准确回答用户的问题。其中，目前在计算机客服***中普遍采用的智能问答***就是一种自动问答***，它是一种通过自然语言技术，能够理解用户的问题，并且提供准确的答案的人工智能***。

本发明能够应对Jeopardy中的挑战，节目的比赛以一种独特的问答形式进行，问题设置的涵盖面非常广泛，涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等等各个领域。根据以答案形式提供的各种线索，参赛者必须以问题的形式做出简短正确的回。与一般问答节目相反，Jeopardy中以答案形式提问、提问形式作答。参赛者需具备历史、文学、政治、科学和通俗文化等知识，还得会解析隐晦含义、反讽与谜语等，而电脑并不擅长进行这类复杂思考。本智能问答***能够很好的符合该逻辑思路，并且具备从海量的数据源中找到正确答案的能力，还对参***的可信度进行打分排名。

发明内容

为实现上述目的，本发明采用的技术方案为一种智能的问答***，该***包括内容获取模块、问题分析模块、假设生成模块、软过滤模块、证据打分模块、答案合并和排名模块。

步骤一、内容获取模块，用于确认和汇集与答案相关的内容，对问题空间的问题进行分析并且分类，自动拓展资料库；

步骤二、问题分析模块，用于分析输入的问题信息，确定问题类型、发觉问题间的关系和分解问题；

步骤三、假设生成模块，用于从数据源中尽可能多的搜索与答案相关的内容作为参***；

步骤四、软过滤模块，对大量的参***进行筛选，分出很可能是正确答案的一类和有可能是正确答案的一类；

步骤五、证据打分模块，根据打分对象对参***进行详细的打分，确定其接近参***的程度；

步骤六、答案合并和排名模块，将分拆的答案合并，计算可信度，并且排名，排名最靠前的即为***认为的最佳答案。

附图说明

图1智能问答***构架原理图。

图2智能问答***流程图1。

图3智能问答***流程图2。

图4答案合并和排名模型。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

整体的***构架有四部分组成：问题分析、搜索、答案提取和数据库，如图1所示。对于***进一步分解，如图2所示。对于输入到***的问题，具体流程图如图3所示，具体如下：

S301、本***有一个图形界面，设计用户输入框来接收用户输入的问题。

S302、对问题进行分析，判断问题的类型，后期会根据问题的类型采取不同的检索和打分方案，并且将问题自动添加到对应的数据库中，自动拓展数据库。

S303、对于一些可分的长问题可以分成若干个小问题，根据语法和分词结果提取出多个问题。

S304、对于分出的每一个小问题都从数据库中搜索相关答案，作为参***，相关性的计算如公式1、公式2所示。

S305、对参***进行打分，越是相关性高的打分越高，打分的方法如公式3、公式4所示。

S306、对分数进行判断，如果大于阈值，就直接跳转到排位阶段，如果小于阈值，还需要进行S307步骤。原因是S305的打分方法与上下文的关系不大，所以可能对答案的可靠性不高。

S306、根据参***所在的数据源的位置进行上下文检测，匹配比较，综合其它的因素，如数据的流行度、可靠性度。再一次打分。

S306、对各个分数按照一定的权值计算赋予权值，求和，得出参***的总分。

S307、到这里所有的参***都会有一个对应的分数，根据分数的高低排名

S308、根据算法计算出可信度，结合S307，具体过程如图4所示，会用到机器学习的方法训练出模型，自动进行可信度计算。

内容获取模块具体包括：针对面向的领域对问题的类型进行归类分类，总结出面向的领域的特色，从各种文本中搜索与答案相关的内容。将问题分词，记为t_i，分词t_i在一处数据源的分数记为p_i，当文本中包含分词t_i，w_ij＝idf(t_j)；否则w_ij＝0。

其中，

c(t)表示包含分词t的文件数目，N表示在数据源中所有文件的数目。

所述问题分析模块具体包括：确认问题类型，对问题进行分类，针对不同类型的问题有不同的处理方法，并且发觉问题间的关系，然后分解问题。

所述发觉问题间的关系模块具体包括：将输入的问题与数据库中的问题进行比较，挖掘问题间语法上的主谓宾关系以及语义上联系，有的问题答案从这一步直接产生。

所述分解问题模块具体包括：通过分解问题更快更准确的找到答案，将一个复杂句式的问题分成多个简单的问题，并行处理每一个问题，并分别为答案的可行度打分。

所述假设生成模块具体包括：从数据源中尽可能多的搜索与答案相关的内容，针对不同类型的问题使用不同的搜索算法，所有相关的内容都做为参***。

所述软过滤模块具体包括：运用轻量级的打分算法对参***进行筛选，通过过滤器的参***需要进入打分模块，未通过过滤器的参***进入合并排名模块。

所述打分模块具体包括：从进入打分模块的参***的上下文中找到支持参***的额外证据，根据语义、语法的联系及多种打分算法对参***进行打分，越可能是参***打分越高。打分的对象为位置、文字支持度、流行度、信息可靠性。具体方法为：

首先创建两个一维数组P，Q，一个二维数组score；P和Q中存放分词的符号，score中存放分数并初始化score[i][j]＝0；

然后计算每一个score[i][j]，运用以下公式

其中

if t₁＝t₂

特别sim(FOCUS,CANDIDATE)＝log(N).

所述合并排名模块具体包括：将拆分的问题分数按照一定的权值合并，计算出总分；通过机器学习算法训练出自信度估计模型，基于问题的总分自动生成自信度估计，并排名。

对输入的问题进行处理，在各种不同的数据源中进行搜索参***，并且对参***进行拆分、打分、合并处理，最后得到参***的排名和可信度，输出答案。

Claims

1.一种智能的问答***，其特征在于：该***包括内容获取模块、问题分析模块、假设生成模块、软过滤模块、证据打分模块、答案合并和排名模块；

2.根据权利要求1所述的一种智能的问答***，其特征在于：对于输入到***的问题，具体如下：

S301、本***有一个图形界面，设计用户输入框来接收用户输入的问题；

S302、对问题进行分析，判断问题的类型，后期会根据问题的类型采取不同的检索和打分方案，并且将问题自动添加到对应的数据库中，自动拓展数据库；

S303、对于一些可分的长问题可以分成若干个小问题，根据语法和分词结果提取出多个问题；

S304、对于分出的每一个小问题都从数据库中搜索相关答案，作为参***；

S305、对参***进行打分，越是相关性高的打分越高；

S306、对分数进行判断，如果大于阈值，就直接跳转到排位阶段，如果小于阈值，还需要进行S307步骤；原因是S305的打分方法与上下文的关系不大，所以可能对答案的可靠性不高；

S306、根据参***所在的数据源的位置进行上下文检测，匹配比较，综合其它的因素，如数据的流行度、可靠性度；再一次打分；

S306、对各个分数按照一定的权值计算赋予权值，求和，得出参***的总分；

S308、根据算法计算出可信度，结合S307，会用到机器学习的方法训练出模型，自动进行可信度计算。

3.根据权利要求2所述的一种智能的问答***，其特征在于：内容获取模块具体包括：针对面向的领域对问题的类型进行归类分类，总结出面向的领域的特色，从各种文本中搜索与答案相关的内容；将问题分词，记为t_i，分词t_i在一处数据源的分数记为p_i，当文本中包含分词t_i，w_ij＝idf(t_j)；否则w_ij＝0；

其中，

4.根据权利要求2所述的一种智能的问答***，其特征在于：所述问题分析模块具体包括：确认问题类型，对问题进行分类，针对不同类型的问题有不同的处理方法，并且发觉问题间的关系，然后分解问题。

5.根据权利要求2所述的一种智能的问答***，其特征在于：所述发觉问题间的关系模块具体包括：将输入的问题与数据库中的问题进行比较，挖掘问题间语法上的主谓宾关系以及语义上联系，有的问题答案从这一步直接产生。

6.根据权利要求2所述的一种智能的问答***，其特征在于：所述分解问题模块具体包括：通过分解问题更快更准确的找到答案，将一个复杂句式的问题分成多个简单的问题，并行处理每一个问题，并分别为答案的可行度打分。

7.根据权利要求2所述的一种智能的问答***，其特征在于：所述假设生成模块具体包括：从数据源中尽可能多的搜索与答案相关的内容，针对不同类型的问题使用不同的搜索算法，所有相关的内容都做为参***。

8.根据权利要求2所述的一种智能的问答***，其特征在于：所述软过滤模块具体包括：运用轻量级的打分算法对参***进行筛选，通过过滤器的参***需要进入打分模块，未通过过滤器的参***进入合并排名模块。

9.根据权利要求2所述的一种智能的问答***，其特征在于：所述打分模块具体包括：从进入打分模块的参***的上下文中找到支持参***的额外证据，根据语义、语法的联系及多种打分算法对参***进行打分，越可能是参***打分越高；打分的对象为位置、文字支持度、流行度、信息可靠性；具体方法为：

首先创建两个一维数组P，Q，一个二维数组score；P和Q中存放分词的符号，score中存放分数并初始化score[i][j]＝0；然后计算每一个score[i][j]，运用以下公式

其中

if t₁＝t₂

特别sim(FOCUS,CANDIDATE)＝log(N)。

10.根据权利要求2所述的一种智能的问答***，其特征在于：所述合并排名模块具体包括：将拆分的问题分数按照一定的权值合并，计算出总分；通过机器学习算法训练出自信度估计模型，基于问题的总分自动生成自信度估计，并排名；