CN111666376B

CN111666376B - 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置

Info

Publication number: CN111666376B
Application number: CN202010434060.XA
Authority: CN
Inventors: 彭敏; 刘芳; 胡刚; 毛文月
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2023-07-18
Anticipated expiration: 2040-05-21
Also published as: CN111666376A

Abstract

一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置，其中的装置包含两个基础模块：答案检索模块和个性化描述模板选择模块。在答案检索模块采用基于问答边界预测的开放域答案抽取模型，基于TF‑IDF匹配的搜索组件，抽取与查询相关的文档集合，并结合RNN问答边界预测阅读理解模型，从文档集合中寻找答案实体。在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型，其主要核心采用词移距离的算法，计算查询与所有人工标注个性化描述模版的中心距离，判断查询文本属于个性化模版的类别，在结合抽取的答案实体和对应的个性化模版给出答案的最终个性化自然语言描述。本发明可以提高其答案生成准确率和多样性。

Description

一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置

技术领域

本发明涉及自然语言处理的智能问答技术领域，具体涉及一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置。

背景技术

人工智能高速发达的时代，越来越多的功能需要被其掌握。在用户(人)与AI交互式的***中，能够根据用户提出的问题给出相应的回答，已成为AI必须掌握的能力。

通过AI问答***,用户能以自然语言的方式表达自己的信息需求,AI***将直接返回精确、简洁的答案。由于问题的多样性和语料库的限制等原因，目前的AI在答案生成方面还有较多的弊端，大多数时候是将有限的答案存储在自身的数据库中，导致能够回答的问题不多且不够精确。同时部分AI回答答案时语气过于书面或者过于严肃，虽然答案无误，无法让用户感受到人性的关怀，用户的本身感受不畅。对于用户的问题，如果根据用户的提问方式采取相应的答案回复形式和回复风格，因为更接近人类自然语言的回复方式对于用户体验的提升很有帮助。

问答***常用的模型主要分为基于检索的模型和基于答案生成的模型，基于检索的模型有匹配模型简单、答案在语料库中、可解释性强等优点，但由于语料库大小的限制,导致能回答的问题具有局限性,对问题的语义信息挖掘不足。基于答案生成的模型可以通过挖掘问题的深层语义生成答案,答案可以不受语料库的规模限制,但模型的可解释性不强,且倾向于生成通用的、单调的答案,无法保证答案的合理性和一致性。对于问答***而言,由于语料库数据形式的不同,需要采用的技术也不相同。而在大多数情况下,语料库数据形式又以自由文本和问题答案对数据的获取最为常见。

由此可知，现有技术中的一些方法都存在各自的缺点，检索式模型存在语义缺失，答案生成的准确性不足，生成式模型存在领域限制，答案生成的个性化不足。

发明内容

本发明提出一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置，用于解决或者至少部分现有技术中的方法对于垂直领域进行查询问答时生成答案的自然语言描述缺乏个性化表现的问题。

为了解决上述技术问题，本发明第一方面提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法，包括：

S1：收集原始数据，对原始数据进行解析并存储为背景文档数据库，其中，背景文档数据库中的每一个背景文档包括背景文档的具体描述，根据查询文本的类别人工标注不同类别的个性化描述模板，构建个性化描述模板数据库；

S2：根据给出的用户查询文本，搜索背景文档数据库并抽取与查询文本相关的背景文档集合，对抽取出的背景文档集合进行相关性排序；

S3：对排序后的背景文档进行段落边界预测以推断答案区间的位置，获得与查询文本对应的答案实体；

S4：利用词移距离模型计算查询文本与所有个性化模板的中心距离，确定模板归属的问题类别并随机选择个性化描述模板；

S5：将查询得到的答案实体填充到选择出的个性化描述模板中，生成与查询文本对应的个性化描述答案。

在一种实施方式中，S1中背景文档数据库中的每一个背景文档还包括文档id、标题和网址。

在一种实施方式中，S2具体包括：

S2.1：分别对用户的查询文本和背景文档数据库中的背景文档进行TF-IDF处理得到查询文本和背景文档中所有词的向量表示，以查询文本中所有词的向量平均来得到查询文本的向量表示、背景文档中所有词的向量平均来得到背景文档的向量表示；

S2.2：根据查询文本的向量表示和背景文档的向量表示计算查询文本与背景文档的向量余弦相似距离，根据余弦相似距离与阈值的关系抽取与查询文本相关的背景文档；

S2.3：根据余弦相似距离的度量值，对抽取出的相关的背景文档进行排序。

在一种实施方式中，给定一个查询文本为q,由n个词组成，分别为q₁,q₂,…q_n，将TF-IDF算法返回的前Top-K个背景文档切分成段落，每个段落p由m个词组成，分别为p₁,p₂,…p_m，并采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置。

在一种实施方式中，采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置，包括：

S3.1：将相关的背景文档切分的段落中的每个词用四种特征向量表示，四种特征向量分别为Glove词向量，精确匹配特征向量，符号特征向量和基于注意力特征向量；

S3.2：根据得到的每个词的四种特征向量表示，对背景文档的段落进行整体编码的向量表示；

S3.3：对用户查询文本进行整体向量编码表示；

S3.4：根据背景文档的段落进行整体编码的向量表示和用户查询文本进行整体向量编码表示，进行答案边界预测来抽取答案实体。

在一种实施方式中，S3.2具体包括：

背景文档段落中的每一个词都进行向量化表示后，表示为的集合，其中/>表示每个词的向量化特征由Glove词向量f_emb(p_i)，精确匹配特征f_excat-match(p_i)，符号特征f_token(p_i)和基于注意力特征f_align(p_i)构成；

将的集合输入一个多层的双向LSTM,，将所有隐层进行连接，获得背景文档的段落进行整体编码的向量表示，计算公式如下：

其中，P_i表示p_i周围有效上下文信息。

在一种实施方式中，S3.4具体包括：

对于段落的每一个位置i，都采用两个softmax激活函数分别预测它作为答案起始位置的概率p_start(i)和终止位置的概率p_end(i)，其中，P_i是编码段落中词p_i周围有效上下文信息的向量表示，q是查询文本的向量表示，w_e是中间学习的参数，计算公式如下：

p_start(i)＝softmax(P_iw_eq)

p_end(i)＝softmax(P_iw_eq)

其中，P_i是编码段落中词p_i周围有效上下文信息的向量表示，q是查询文本的向量表示，w_e是中间学习的参数。

在一种实施方式中，S5具体包括：

S5.1：采用词移距离算法计算查询文本与所有个性化描述模板的距离；

S5.2：通过计算查询文本与所有个性化描述模板之间的中心平均距离，获得与查询文本匹配的个性化描述模板，计算方式为：

其中，表示利用S5.1计算出的查询文本q和/>个性化描述模板两个文本的词移距离，argmin表示返回最小值的操作，返回的结果为中心距离最小的模板类别；

S5.3：从返回的模块类别中随机选取一个个性化描述模板，作为查询文本最终的个性化描述模板。

基于同样的发明构思，本发明第二方面提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成装置，包括：

背景文档和描述模板构建模块，用于收集原始数据，对原始数据进行解析并存储为背景文档数据库，其中，背景文档数据库中的每一个背景文档包括背景文档的具体描述，根据查询文本的类别人工标注不同类别的个性化描述模板，构建个性化描述模板数据库；

相关文档抽取模块，用于根据给出的用户查询文本，搜索背景文档数据库并抽取与查询文本相关的背景文档集合，对抽取出的背景文档集合进行相关性排序；

答案检索模块，用于对排序后的背景文档进行段落边界预测以推断答案区间的位置，获得与查询文本对应的答案实体；

个性化描述模板选择模块，用于利用词移距离模型计算查询文本与所有个性化模板的中心距离，确定模板归属的问题类别并随机选择个性化描述模板；

答案生成模块，用于将查询得到的答案实体填充到选择出的个性化描述模板中，生成与查询文本对应的个性化描述答案。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法，分别通过获得与查询文本对应的答案实体、利用词移距离模型计算查询文本与所有个性化模板的中心距离，确定模板归属的问题类别并随机选择个性化描述模板以共同完成给出用户查询后生成个性化自然语言描述答案的任务。首先根据给出的用户查询文本从背景文档数据库中检索，根据背景文档来扫描段落以确定答案的实体。然后采用了基于词移距离聚类匹配的个性化描述生成模型，先采用计算查询与所有模版的中心距离，根据再判断问题(即查询文本)属于个性化模版的类别，在结合抽取的答案实体和对应的个性化模版给出答案的最终自然语言个性化描述，提高其答案生成效率及回答的多样性，解决了现有技术中的方法存在的个性化不足的问题。此外，本发明是抽取背景文档数据库作为答案的来源，因而只要提供特定领域的知识库来源，就可以移植到特定的垂直领域用于智能问答。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：本发明提供的一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法的实现流程图；

图2：本发明实施例的模型结构流程图；

图3：本发明实施例的答案检索模块中抽取答案实体的程序测试图；

图4：本发明实施例的最终生成个性化描述答案的Demo演示示例图；

图5：本发明实施例中基于段落边界扫描预测与词移距离聚类匹配的答案生成装置的结构框图；

图6：本发明实施例中一种计算机可读存储介质的结构框图；

图7：本发明实施例中一种计算机设备的结构图。

具体实施方式

本申请发明人通过大量的研究与实践发现：

问答***常用的模型主要分为基于检索的模型和基于答案生成的模型，基于检索的模型有匹配模型简单、答案在语料库中、可解释性强等优点，但由于语料库大小的限制,导致能回答的问题具有局限性，对问题的语义信息挖掘不足。基于答案生成的模型可以通过挖掘问题的深层语义生成答案,答案可以不受语料库的规模限制,但模型的可解释性不强,且倾向于生成通用的、单调的答案,无法保证答案的合理性和一致性。对于问答***而言,由于语料库数据形式的不同,需要采用的技术也不相同。而在大多数情况下,语料库数据形式又以自由文本和问题答案对数据的获取最为常见。

由此可知，现有技术中的一些方法都存在各自的缺点，检索式模型存在语义缺失，答案生成的准确性不足，生成式模型存在领域限制，答案生成的个性化不足。同时生成式模型采用神经网络还存在生成的答案流畅性缺失的问题。

基于以上考虑，本发明提出了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法，它先后采用答案检索模块和个性化描述模板选择模块，以共同完成给出用户查询后生成个性化自然语言描述答案的任务。首先在答案检索模块中根据问题(查询文本)从背景文档数据库中检索，根据这些文章来扫描段落以确定答案的实体。然后在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型，先采用计算查询与所有模版的中心距离，根据再判断问题(查询文本)属于个性化模版的类别，在结合抽取的答案实体和对应的个性化模版给出答案的最终自然语言个性化描述，提高其答案生成效率及回答的多样性。因为本发明是抽取背景文档数据库作为答案的来源，因而只要提供特定领域的知识库来源，就可以移植到特定的垂直领域用于智能问答。

结果表明，本发明提出的基于检索和答案生成的混合技术模型,以结合两者的优势，可以提升答案生成的准确性和个性化的要求，同时答案生成采用了人工标注的个性化模板，可以满足个性化答案生成的流畅性要求。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法，实现流程图请参见附图1所示，涉及模型的结构流程图如附图2所示，该方法包括：

在具体实施过程中，如附表1所示，是本发明收集小米有关的原始数据，并整理成文档数据库的示例，分别是描述小米手机5s和小米手机5X的背景文档。

表1与小米有关的背景文档数据库示例

在一种实施方式中，S2具体包括：

具体来说，TF-IDF算法的计算流程包括：

1、计算当前文档中的词频(TF)＝某个词在文档中出现的次数，考虑到背景文档有长短之分，为了便于不同文章的比较，进行“词频”标准化：

2、计算整个语料库中的逆文档频率(IDF)：

3、计算文档中所有词的TF-IDF(文档-逆文档频率)：

TF-IDF＝词频(TF)×逆文档频率(IDF)

TF-IDF词向量表示与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。并且，TF-IDF表示一个词的向量表示，TF-IDF值越大说明这个词越重要，也可以说这个词是关键词。其中，排序时采用二元哈希化排序，可提高检索效率和存储效率，减少存储空间。

步骤S3.1：将相关的背景文档切分的段落中的每个词用四种特征向量表示，四种特征向量分别为Glove词向量，精确匹配特征向量，符号特征向量和基于注意力特征向量；

步骤S3.2：根据得到的每个词的四种特征向量表示，对背景文档的段落进行整体编码的向量表示；

步骤S3.3：对用户查询文本进行整体向量编码表示；

步骤S3.4：根据背景文档的段落进行整体编码的向量表示和用户查询文本进行整体向量编码表示，进行答案边界预测来抽取答案实体。

在具体的实施过程，步骤S3.1的实现过程如下：

步骤S3.1.1：加载词向量特征(Glove Embeddings)，使用百度百科训练的300维的Glove词向量进行词向量映射，其中p_i表示背景文档中词的One-Hot向量表示，E表示300维预训练的Glove词向量矩阵，f_emb(p_i)是输出Glove词向量表示，计算公式如下；

f_emb(p_i)＝E(p_i)

步骤S3.1.2：采用精确匹配特征(Exact Match)，使用三个二元特征来判定背景文档中词p_i是否可以精确的匹配到查询文本中的疑问词q中,三个二元特征分别表示该token的不同形式的表达是否在问句存在：原型，小写，引用形式，f_excat-match(p_i)是输出得到的精确匹配特征的向量表示，计算公示如下；

f_excat-match(p_i)＝I(p_i∈q)

步骤S3.1.3：引入符号的特征(Token Features)，加入一些反映背景文档中词p_i在上下文中的特征的因素到特征向量中，包括其词性(POS)以及命名实体识别(NER)标记和归一化后的词频(TF)，f_token(p_i)是输出得到的符号特征的向量表示；

f_token(p_i)＝(POS(p_i),NER(p_i),TF(p_i))

步骤S3.1.4：引入对查询文本的注意力机制(Aligened Question Embedding),该特征计算背景文档中每个单词p_i与整个查询文本的相似度，该特征考虑与整个查询文本p_i的相似度，而非某一个具体的单词，是一种soft-alignment，能够识别类似而不相同的词。参照步骤S3.1.1，对查询文本中的每个词q_j进行词向量映射得到的q_j的Glove词向量表示，通过和步骤S3.1.1得到的p_i的Glove词向量表示进行点乘得到p_i与q_j的相似度a_i,j，最后对查询文本每个单词的embedding进行加权求和作为该特征。其中α(*)是一个带有ReLU的非线性全连接层，a_i,j表示词p_i与词q_j的注意力的向量表示。f_align(p_i)是输出基于注意力特征的向量表示，计算公式如下：

f_align(p_i)＝Σa_i,jE(q_j)

需要说明的是，步骤3.3.1～3.3.4之间为并列关系。

在一种实施方式中，S3.2具体包括：

其中，P_i表示p_i周围有效上下文信息。

在一种实施方式中，步骤S3.3具体包括：

使用另一个循环神经网络(RNN：Recurrent Neural Network)对查询文本描述中的每一个词q_j的Glove词向量表示进行编码，再将每个隐层进行加权求和，得到一个查询文本的向量表达q，b_j为注意力的向量表示，ω为权重的向量表示，其学习了查询文本中的每一个单词的重要程度。公式如下：

在一种实施方式中，S3.4具体包括：

p_start(i)＝softmax(P_iw_eq)

p_end(i)＝softmax(P_iw_eq)

具体来说，当设定在每个段落中寻找一个最有可能是答案的区间[i,i'],即满足p_start(i)×p_end(i')最大，且i≤i'≤i+15，其中15是设定终止位置相比于起始位置的最大距离数值。使用指数形式替换归一化softmax()，来对每个段落中最可能是答案的区间进行比较，给出概率最大的答案区间，并输出答案的实体。

在具体实施过程中，如附图3所示，是答案检索模块中抽取答案实体的程序测试图，基于之前抽取与讯飞有关的背景文档数据库，能够给出用户的查询“科大讯飞的董事长是谁？”以及“科大讯飞发布过几款产品？”，输出均是答案的实体，“刘庆峰”和“10款”。并且在输出答案实体的同时，给出了预测本答案区间的最大概率值。

在一种实施方式中，在S1中构建个性化描述模板时：

采用人工标注的方式，保证个性化描述模板有100个类别(N＝100)，每个类别总计50条描述(K＝50)，作为答案生成的个性化描述示范语料总计有5000条。

在本步骤中后续可利用此人工标注示例，继续进行补充，进一步丰富模版描述的种类和样式，以保证答案语句的自然性和丰富性。

在具体实施过程中，如附表2所示，是人工标注的“价格”、“时间”和“地点”等类别的个性化描述模板的示例，其中“#”表示待填充的答案实体。

表2人工标注的个性化描述模板的示例

在一种实施方式中，S5具体包括：

具体来说，S5.1中使用两个D₂和D₁文档中的任意两个词i∈D₁和j∈D₁所对应的词向量求欧氏距离然后再加权求和。一般计算公式如下，式子如下：

其中c(i,j)为i，j两个词所对应的词向量的欧氏距离，加权矩阵T有些类似于HMM中的状态转移矩阵，但是其中的概率转换为了权重。权重T可以简单用词频或者TFIDF进行计算。上式计算得到文档1转换到文档2的总代价，将这种总代价求得下界最小化之后，得到文本间距离代表文本相似度：

其中c(i,j)是词向量表示i，j的欧几里得距离，n是词的个数，和/>分别是两个文档中各个词权重(概率)组成的向量，即这里使用的文档特征。在具体计算中，使用计算速度较快的WCD(Word Centroid Distance)来计算词移距离，其中c(i,j)是词向量表示i，j的欧几里得距离，n是词的个数，/>和/>分别是两个文档中各个词权重(概率)组成的向量，即这里使用的文档特征。公式如下：

公式中x是词向量，X是词向量组成的矩阵。

步骤S5.2:在给定查询文本q，第n(n∈[1,N],N＝100)个类别中的第k个人工标注性化模板记为其中k(k＝[1,K])，K＝50是不同类别个性化描述模板的数量。查询与所有个性化模板聚类匹配所采用的是计算查询与所有模板之间的中心平均距离，返回的是中心距离最小的类别。返回的模板类别表示该类别的个性化描述模板和用户查询描述更加切合，更适合作为答案描述。

在具体实施过程中，如附图4所示，是最终生成个性化描述答案的Demo演示示例图。给出用户的查询，如“小米9的价格是多少？”那么能够在答案检索模块中抽取最相关的背景文档以预测答案实体，并在个性化描述模板选择模块中随机选择与价格相关的个性化模块模板，结合预测的答案实体和抽取的个性化模板，给出“市场售价是2999元，官网售价更优惠”。

本发明提供的一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法，它先后采用答案检索模块和个性化描述模板选择模块，以共同完成给出用户查询后生成个性化自然语言描述答案的任务。首先在答案检索模块中根据问题从背景文档数据库中检索，根据这些文章来扫描段落以确定答案的实体。然后在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型，先采用计算查询与所有模版的中心距离，根据再判断问题属于个性化模版的类别，在结合抽取的答案实体和对应的个性化模版给出答案的最终自然语言个性化描述，提高其答案生成效率及回答的多样性。因为本发明是抽取背景文档数据库作为答案的来源，因而只要提供特定领域的知识库来源，就可以移植到特定的垂直领域用于智能问答。

实施例二

基于同样的发明构思，本实施例提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成装置，请参见附图5所示，该装置包括：

由于本发明实施例二所介绍的装置，为实施本发明实施例一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

请参见附图6所示，基于同一发明构思，本申请还提供了一种计算机可读存储介质300，其上存储有计算机程序311，该程序被执行时实现如实施例一种所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，请参见附图7所示，包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403，处理器402执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一种基于段落边界扫描预测与词移距离聚类匹配的答案生成所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一种方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法，其特征在于，包括：

S5：将查询得到的答案实体填充到选择出的个性化描述模板中，生成与查询文本对应的个性化描述答案；

其中，S2具体包括：

S2.3：根据余弦相似距离的度量值，对抽取出的相关的背景文档进行排序；

给定一个查询文本为q,由n个词组成，分别为q₁,q₂,…q_n，将TF-IDF算法返回的前Top-K个背景文档切分成段落，每个段落p由m个词组成，分别为p₁,p₂,…p_m，并采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置；

其中，采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置，包括：

S3.3：对用户查询文本进行整体向量编码表示；

2.如权利要求1所述的方法，其特征在于，S1中背景文档数据库中的每一个背景文档还包括文档id、标题和网址。

3.如权利要求1所述的方法，其特征在于，S3.2具体包括：

背景文档段落中的每一个词都进行向量化表示后，表示为的集合，其中f_excat-match(p_i)，f_token(p_i)，f_align(p_i)}，表示每个词的向量化特征由Glove词向量f_emb(p_i)，精确匹配特征f_excat-match(p_i)，符号特征f_token(p_i)和基于注意力特征f_align(p_i)构成；

其中，P_i表示p_i周围有效上下文信息。

4.如权利要求1所述的方法，其特征在于，S3.4具体包括：

p_start(i)＝softmax(P_iw_eq)

p_end(i)＝softmax(P_iw_eq)

5.如权利要求1所述的方法，其特征在于，S5具体包括：

6.一种基于段落边界扫描预测与词移距离聚类匹配的答案生成装置，其特征在于，包括：

答案生成模块，用于将查询得到的答案实体填充到选择出的个性化描述模板中，生成与查询文本对应的个性化描述答案；

相关文档抽取模块，具体用于执行下述步骤：

其中，采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置，包括如下步骤：

S3.3：对用户查询文本进行整体向量编码表示；

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被执行时实现权利要求1～5任一项权利要求所述的方法。