CN108804529A

CN108804529A - 一种基于Web的问答***实现方法

Info

Publication number: CN108804529A
Application number: CN201810408470.XA
Authority: CN
Inventors: 李舟军; 陈小明; 李水华
Original assignee: Shenzhen Smart Technology Co Ltd
Current assignee: Shenzhen Smart Technology Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-11-13

Abstract

本发明涉及一种基于Web的问答***实现方法：S1.问题分析：负责分析用户提出的问题，具体是对问题进行分类、提取关键词的操作；同时还会将问题向量化，并检索与该问题相似的已有问答对；S2.信息检索：根据问题和不同的搜索引擎生成不同的查询链接，然后通过请求这些链接来获得相应的网页；S3.答案抽取：根据用户的查询意图从信息检索步骤返回的网页片段中找出最佳答案；在抽取答案时，会抽取多个可能的候选答案，然后通过为候选答案打分并排序的方式获得最佳答案。本发明从候选答案抽取、候选答案排序两个方面提高了答案抽取的准确率，并使用模型和规则优化了中文答案的抽取过程。

Description

一种基于Web的问答***实现方法

技术领域

本发明涉及一种基于Web的问答***实现方法，属于自然语言处理技术领域。

背景技术

搜索引擎技术作为一种成熟的信息检索技术可以满足用户绝大部分的信息需求。但是，随着互联网数据的疯狂增长，搜索引擎的缺点逐渐显现。为了改善信息检索的用户体验，直接以自然语言作为输入与输出的问答***成为了研究热点。在众多问答***中，有一类问答***直接建立在现有的搜索引擎之上，这类问答***叫做基于Web的问答***(Web-based QA，本文简称WQA)。

用户向WQA***提交自然语言表述的问题之后，WQA***会利用各种自然语言处理技术去理解用户的提问意图，然后将自然语言表述的问题分析成搜索引擎所需要的查询语句。接下来，WQA***将查询语句输入搜索引擎，并获取其输出的相关网页片段。最后，WQA***从网页片段中抽取出若干候选答案，并利用一些排序算法从这些候选答案中准确地挑选出最佳答案。WQA***同时具有搜索引擎和问答***的优点：

1)能通过现有成熟的搜索引擎来获取互联网上丰富的各种相关信息，并且可以利用信息抽取技术从这些相关信息中得到用户所需的答案；

2)能够利用自然语言进行人性化的交互。

比起英文WQA，中文WQA的研究相对较少。本发明专注于中文WQA技术。答案抽取是WQA***中最重要也最难的部分。本发明分别优化了答案抽取的两项关键技术：候选答案抽取和候选答案排序。

发明内容

本发明技术解决问题：针对用户可能提交的问题，提出了一种新的基于Web的问答***实现方法，能够综合利用以往的问答对中所蕴含的答案抽取规则，从与新问题相关的网页片段中抽取出最佳答案。

本发明技术解决方案：一种基于Web的问答***实现方法，包括如下步骤：问题分析、信息检索和答案抽取。具体步骤如下：

S1.问题分析：负责分析用户提出的问题，从而领会用户的提问意图。该步骤在分析用户的问题时，会对问题进行分类、提取关键词等操作。同时还会将问题向量化，并检索与该问题相似的已有问答对。这些分析结果会对后续的信息检索模块和答案抽取模块产生帮助。

S2.信息检索：根据问题和不同的搜索引擎生成不同的查询链接，然后通过请求这些链接来获得相应的网页。这些网页会被解析工具分析成结构化的数据，从而方便后续的使用。访问网络是一种特别耗时的操作，所以信息检索模块通常也是WQA***的性能瓶颈。本文实现信息检索模块时，利用了多线程技术同时检索多个搜索引擎，从而提升了信息检索模块的性能。

S3.答案抽取：要负责根据用户的查询意图从信息检索步骤返回的网页片段中找出最佳答案。在抽取答案时，会抽取多个可能的候选答案，然后通过为候选答案打分并排序的方式获得最佳答案。

进一步的，步骤S1中所述对问题进行分类，采用种混合式的分类方法：先用一个规则分类器对问题进行分类，当规则分类器失效时，再采用一个支持向量机分类器进行分类。

进一步的，步骤S2信息检索，具体是通过以下几个步骤实现：

S21.生成查询链接：根据问题、搜索引擎的网址、搜索引擎的链接参数规定生成每个搜索引擎对应的查询链接；

S22.定向爬取网页：通过查询链接检索搜索引擎，并获得搜索引擎返回的网页；

S23.网页文本结构化：解析搜索引擎返回的网页，将真正的搜索结果——网页片段列表解析出来并结构化。

进一步的，步骤S3答案抽取，具体通过以下两个步骤实现：

S31.候选答案抽取：答案抽取模块需要分析每一个网页片段中的每一句话，并且从中抽取疑似正确答案的候选答案；

S32.候选答案排序：候选答案将被打分、排序，从而得到最佳答案；最后，答案抽取模块向用户提供最佳答案或者最佳答案列表。

进一步的，所述步骤S31候选答案抽取，具体是利用文本模式生成词性模式，然后利用词性模式构建词性树，并利用词性树抽取候选答案。

进一步的，所述步骤S32候选答案排序，依次采用基于词性树、遗传算法和循环神经网络的方法。具体如下：

设置词性树叶节点的权重，并利用叶节点的权重来获取词性树所抽取的候选答案的得分，然后排序候选答案；

利用遗传算法训练词性树的叶节点权重，然后以训练过的词性树抽取并排序候选答案；

利用循环神经网络获取候选答案上下文与问题的关联度，并以此排序候选答案。

本发明一种基于Web的问答***实现方法，其优点及功效在于：从候选答案抽取、候选答案排序两个方面提高了答案抽取的准确率，并使用模型和规则优化了中文答案的抽取过程。

附图说明

图1为本发明***的总体框架。

图2为本发明***中的问题分析模块框架。

图3为本发明***中的信息检索模块框架。

图4为本发明***中的答案抽取模块框架。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

如图1所示，本发明一种基于Web的问答***实现方法，包括：问题分析模块、信息检索模块和答案抽取模块。

下面分别对各模块进行详细说明。

1.问题分析模块

1.1模块功能

问题分析模块的主要目标是理解用户的查询意图。本文通过多种方式分析用户的问题，从而理解用户提出问题的目的：

1)问题向量化：问题的文本表示可以方便人们的阅读，问题的向量表示则可以方便计算机的使用。将问题转化为向量之后，所得到的问题向量能够为问题分析的其他步骤提供帮助。

2)问题关键词提取：问题的关键词能够很好地反应用户的查询意图，这些关键词也是答案抽取模块所需要的关键信息。

3)问题分类：问题的类别是问题的一个重要属性，它能够为答案抽取模块提供与答案类别相关的信息。

4)相似问答对检索：通过检索与新问题相似的问答对，并对这些问答对进行分析，本文可以得到新问题的答案出现的规律。

问题分析模块的框架图如图2所示。

1.2问题向量化

计算机无法理解文本，但是可以理解数字。将问题向量化，就通过将文本转换为一系列数字的方式，使得计算机能够理解文本的含义，并能根据文本的含义进行一些语义方面的深度操作。本文利用了word2vec工具对问题进行了向量化操作。由问题转换而来的问题向量是可以为本文的问题分类提供帮助，同时问题向量也是本文检索相似问答对的基础。

1.3问题关键词提取

关键词作为问题中的重要组成成分，可以非常好地刻画用户的提问意图。本文利用开源自然语言处理工具HanLP对问题进行分词，并提取问题的关键词。

1.4问题分类

问题分析模块采取了多种方式分析用户的提问意图。其中，一种最为重要的方式就是对问题进行分类。本文所实现的中文WQA***主要是针对简单的事实性问题。这类问题可以大致分为以下几类：人物类(who)、时间类(when)、地点类(where)、数值类(how many)和实体类(what)。由于每一类问题都有一些非常明显的特征，所以本文采用了一种混合式的分类方法：先用一个规则分类器对问题进行分类，当规则分类器失效时，再采用一个支持向量机分类器进行分类。规则分类器主要依赖一些人工编辑的规则进行分类，如“包含‘谁’的句子是人物类问题”等规则。想要利用支持向量机分类问题，首先要将问题向量化，然后才能将问题向量输入支持向量机分类器进行分类。另外，支持向量机是需要经过训练才可以使用的。本文提取了已有问答对中的所有问题，并对这些问题的类别进行标注。然后，将这些问题也向量化，并得到了问题向量和问题类别对应的训练数据。这些训练数据将用于训练支持向量机，并生成相应的模型文件。当中文WQA***启动时，支持向量机分类器就会加载训练好的模型文件，对即将到来的新问题进行分类。问题的类别决定了答案的类别，所以问题分类将为答案抽取模块提供帮助。另外，在相似问答对检索的过程中，问题分类也可以帮助筛选出与新问题相同类别的已有问答对。

1.4相似问答对检索

除了对问题进行分类操作以外，本文还利用了新问题的向量检索了与新问题相似的已有问答对。在检索这些问答对的过程中，本文首先利用新问题的类别，挑选出已有问答对中与新问题类别一致的问答对。然后，将这些问答对的问题向量化，并利用问题相似度计算方法来找出与新问题最相似的若干个问答对。问题相似度的计算主要依赖了余弦公式。与新问题相似的问答对将在答案抽取模块起到重要作用。两个问题越相似，其问题与答案之间的关系也越相似。所以，这些相似问答对将用以学习问题与答案之间的关系。学到的知识则被用来抽取新问题的答案。

2.信息检索模块

2.1模块功能

信息检索模块是WQA***和搜索引擎之间的桥梁。信息检索模块主要负责检索与问题相关的网页片段。信息检索模块在检索的过程中需要借助搜索引擎。搜索引擎返回的网页将被解析成网页片段的列表，这个网页片段列表对答案抽取模块至关重要。本文所实现的信息检索模块通过以下几个步骤实现模块功能：

1)生成查询链接：根据问题、搜索引擎的网址、搜索引擎的链接参数规定等等生成每个搜索引擎对应的查询链接。

2)定向爬取网页：通过查询链接检索搜索引擎，并获得搜索引擎返回的网页。本文实现这个过程的时候，借助了ChromeDriver工具驱动Chrome浏览器。

3)网页文本结构化：解析搜索引擎返回的网页，将真正的搜索结果——网页片段列表解析出来并结构化。

信息检索模块的框架图如图3所示。

2.2生成查询链接

本文所实现的信息检索模块调用了两个搜索引擎：百度和必应。首先，信息检索模块需要将问题转换为相应的查询链接。由于搜索引擎的网址及其链接参数的相关规定不尽相同，所以同一个问题转化成不同的搜索引擎的查询链接时，其结果是不一样的。举一个例子：如果存在问题“北航校长是谁”，则其对应的百度的查询链接为“https://www.***.com/s？wd＝北航校长是谁”，其对应的必应的查询链接为“http://cn.bing.com/search？q＝北航校长是谁”。构建查询链接时，可能还需要配置链接中的一些参数。

2.3定向爬取网页

从原理上讲，信息检索模块只需要根据查询链接发出相应的超文本传输协议(HyperText Transfer Protocol，HTTP)请求即可。但是，由于最近搜索引擎普遍(包括百度和必应)加强了机器人检测算法，所以大概只需要连续发送这种HTTP请求一百次左右，搜索引擎就能识别出信息检索模块的请求是机器产生的。一旦被检测为机器人，搜索引擎就会频繁地要求HTTP请求发起方输入验证码。为了避免被搜索引擎快速锁定为机器人，也为了避免一旦出现验证码导致本文的中文WQA***束手无策，本文在实现信息检索模块的时候，借助了Java版的WebDriver工具。WebDriver工具可以通过代码控制浏览器的行为，并获取浏览器当前的状态和数据。WebDriver工具本身是开源的，其提供的协议也是开源的。本文所利用的WebDriver工具是Chrome浏览器的相应实现——ChromeDriver工具。通过ChromeDriver工具，本文可以调用Chrome浏览器，并利用Chrome浏览器进入搜索引擎，然后访问相应的查询链接，最后从Chrome浏览器中读取搜索引擎的返回结果。由于HTTP请求是Chrome浏览器发起的，所以搜索引擎相对不那么容易检测出本文的信息检索模块为机器人。另外，假如一旦被检测为机器人(访问搜索引擎太过频繁也会被识别出来)，Chrome浏览器上也能够显示验证码，并且这个验证码也可以被填写和提交。信息检索模块需要访问网络。访问网络是一种非常耗时的操作。而且，信息检索模块需要检索多个搜索引擎，这将进一步增加运行时间。为了提高信息检索模块的效率，本文在信息检索模块中引入了多线程技术，将多个搜索引擎检索任务并行。当所有检索任务全部结束之后，信息检索模块再将所有的检索结果提交到答案抽取模块。

2.3网页文本结构化

搜索引擎以网页的形式返回搜索结果。网页存在一定的结构，但是网页的结构是为了网页的图形化展示而设计的。信息检索模块需要解析搜索结果网页，从而得到一个网页片段的列表。网页片段包含与问题相关的网页的标题和摘要。这些与问题相关的信息将成为答案抽取模块最重要的输入。为了从搜索结果网页中抽取出相关网页的标题和摘要，信息检索模块用到了CSS选择器。CSS又称为层叠样式表(Cascading Style Sheets)，通常用来描述网页的样式。CSS选择器是CSS中锁定网页元素的选择器。但是由于CSS选择器的简单易用、功能强大，CSS选择器被广泛应用于网页解析相关的工作中。本文使用CSS选择器从搜索结果网页中锁定相关网页的标题和摘要，比如：利用“.t”选择器选择百度搜索结果网页中的相关网页的标题，利用“.b_caption p”选择器选择必应搜索结果中的相关网页的摘要。对于每一个被调用的搜索引擎，信息检索模块最终会收集它所返回的一百个网页片段。这一百个网页片段组成一个网页片段的列表。多个搜索引擎所对应的多个网页片段的列表则是信息检索模块最终的输出。信息检索模块的检索结果是答案抽取模块抽取的答案的来源。

3.答案抽取模块

3.1模块功能

问题分析模块的分析结果和信息检索模块的检索结果都是答案抽取模块抽取答案时的重要依赖。问题分析模块的分析结果包含问题类别、问题关键词等重要信息，这些信息能够很好地描述用户的提问意图。网页片段的列表作为信息检索模块的检索结果，是答案抽取模块抽取最佳答案的主要来源。答案抽取模块通过对上述信息的综合利用，从而得到用户所需要的最佳答案。答案抽取模块分为以下两个步骤完成上述功能：

1)候选答案抽取：答案抽取模块需要分析每一个网页片段中的每一句话，并且从中抽取疑似正确答案的候选答案。

2)候选答案排序：候选答案将被打分、排序，从而得到最佳答案。最后，答案抽取模块向用户提供最佳答案或者最佳答案列表。

答案抽取模块的框架图如图4所示。

3.2候选答案抽取

本文在文本模式的基础上提出词性模式，然后利用词性模式构建词性树并利用词性树进行候选答案抽取。词性树必须利用现有的问答对进行构建，所以说词性树本质上是一种从现有问答对中习得的特殊知识。

文本模式诸如“<姓名>担任<职位>”能够被用于精确地抽取候选答案。但是对新数据的适应性较差。本文提出的词性模式是通过抽取文本模式中的单词的词性得到的，比如“<姓名>v<职位>”，这里的v代表动词。

词性树是由词性模式集合生成的。除了一个特殊的根节点，词性树的其他节点都是由扩展词性组成。词性树中每一条从根节点到叶节点的路径都与一个词性模式对应。将词性模式集合转换为词性树之后，可以消除重复的词性模式，而且在匹配词性模式的时候可以提高效率。

当一个词性模式集合被转换成一棵词性树之后，这棵词性树就可以被用来抽取新问题的候选答案。抽取一个刚提交的新问题的候选答案之前，候选答案抽取模块能够获得新问题的关键词集合以及一个相关网页片段的集合。每一个网页片段都会被分词，得到的分词结果也会被转换为扩展词性序列。将扩展词性序列代入词性树之后，就有可能得到若干候选答案。

3.3候选答案排序

词性树可以用来抽取候选答案。但是由于词性树的每一个节点除了词性之外并没有其他的区别，所以这些基于词性树抽取的候选答案理论上是同样重要的。这导致了词性树对于候选答案排序并没有太大的帮助。为了准确量化词性树所抽取的候选答案，本文为词性树的叶节点设置了权重。叶节点的权重决定了词性树中从根节点到这个叶节点的路径的权重，从而可以根据这个权重为这条路径所抽取出的候选答案设置一个得分。

本文引入了遗传算法来训练词性树叶节点的权重。在实现遗传算法时，本文将遗传算法的染色体设置为词性树中所有叶节点的权重，所以染色体也可以看做是一个浮点型的权重数组。生成词性树时所用的问答对(与新问题相似的问答对)则被作为训练数据使用。这些问答对的相关网页片段已经在数据库中缓存了，所以加权之后的词性树可以通过这些问答对的问题和网页片段抽取候选答案，并排序这些候选答案，然后通过排序后的候选答案和正确答案计算平均排序倒数，所得的值可以作为遗传算法中的染色体的适应度。利用遗传算法训练词性树之后，通过词性树产生的候选答案就具有了可靠的得分，这个得分就是候选答案排序的依据。

循环神经网络是一类功能强大的人工神经网络，特别适用于处理声音、时间序列数据(比如传感器数据)和书面自然语言等序列化数据。长短期记忆人工神经网络(LSTM)是一种特殊的循环神经网络。本文利用了LSTM在自然语言处理中的优势，实现了一种基于循环神经网络的候选答案排序方法。利用LSTM处理自然语言时，首选需要把自然语言转换为向量。本文利用了word2vec工具，将相关句子中的单词向量化，然后累加句子中所有词语对应的向量并求出平均值，从而得到了相关句子的向量表示。本文所实现的基于循环神经网络的候选答案抽取方法的核心思想是：利用LSTM判断问题与候选答案上下文的关联程度，从而得到候选答案的可信度。所以，本文在利用LSTM时，所设计的输入就是问题的向量表示以及候选答案上下文(通常就是候选答案所在的那一个句子)的向量表示。LSTM输出的候选答案与上下文的关联度可以看做候选答案的另一种得分，这种得分也是候选答案排序的依据。

本文最终利用词性树、遗传算法、循环神经网络这三种技术实现了候选答案的排序。

Claims

1.一种基于Web的问答***实现方法，其特征在于：该方法包括如下步骤：问题分析、信息检索和答案抽取，具体步骤如下：

S1.问题分析：负责分析用户提出的问题，从而领会用户的提问意图；该步骤在分析用户的问题时，会对问题进行分类、提取关键词的操作；同时还会将问题向量化，并检索与该问题相似的已有问答对；

S2.信息检索：根据问题和不同的搜索引擎生成不同的查询链接，然后通过请求这些链接来获得相应的网页；这些网页会被解析工具分析成结构化的数据，方便后续的使用；

S3.答案抽取：根据用户的查询意图从信息检索步骤返回的网页片段中找出最佳答案；在抽取答案时，会抽取多个可能的候选答案，然后通过为候选答案打分并排序的方式获得最佳答案。

2.根据权利要求1所述的一种基于Web的问答***实现方法，其特征在于：所述步骤S1中所述对问题进行分类，采用种混合式的分类方法：具体是先用一个规则分类器对问题进行分类，当规则分类器失效时，再采用一个支持向量机分类器进行分类。

3.根据权利要求1所述的一种基于Web的问答***实现方法，其特征在于：所述步骤S2信息检索，具体是通过以下几个步骤实现：

4.根据权利要求1所述的一种基于Web的问答***实现方法，其特征在于：所述步骤S3答案抽取，具体通过以下两个步骤实现：

5.根据权利要求4所述的一种基于Web的问答***实现方法，其特征在于：所述步骤S31候选答案抽取，具体是利用文本模式生成词性模式，然后利用词性模式构建词性树，并利用词性树抽取候选答案。

6.根据权利要求4所述的一种基于Web的问答***实现方法，其特征在于：所述步骤S32候选答案排序，依次采用基于词性树、遗传算法和循环神经网络的方法；具体如下：

利用遗传算法训练词性树的叶节点权重，然后以训练过的词性树抽取并排序候选答案；利用循环神经网络获取候选答案上下文与问题的关联度，并以此排序候选答案。