CN111984768A

CN111984768A - 语料处理及问答交互方法、装置、计算机设备及存储介质

Info

Publication number: CN111984768A
Application number: CN201910442283.8A
Authority: CN
Inventors: 王逸凡
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Huijun Technology Co.,Ltd.
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2020-11-24

Abstract

本发明实施例提供一种语料处理及问答交互方法、装置、计算机设备及存储介质，包括：获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列；基于设置的窗口值确定对应的筛选策略，通过对应的所述筛选策略对所述问答对数据序列进行筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对。

Description

语料处理及问答交互方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机处理技术领域，尤其涉及一种语料处理及问答交互方法、装置、计算机设备及存储介质。

背景技术

众所周知，在消费、服务等行业中客服人员能够回答用户提出的各种相关咨询。往往拥有越多用户的企业所需要的客服人员便越多，为了解放人力、降低运营成本，智能问答***应运而生，针对不同业务场景，对话***构建方式有所不同。基于信息检索(Information retrieval，IR)方式的对话***可以根据用户问题在大量高质量问答对(question-answer-pair，QA-pairs)中搜索到最相似的已知问题(question，Q)，并将对应的答案(answer，A)作为结果输出给用户，因此，从语料中获取高质量的QA-pairs是实现高质量对话***的基础条件。

目前，挖掘QA-pair时，一方面，将相邻Q和A默认构成QA-pair，即认为相邻的Q和A就构成一个正确的问答对；另一方面，以关键词共现的相似性度量方式筛选问答对，认为合理的QA-pair会在问题和答案中存在一定量的相同关键字或关键词，但是上述挖掘得到的QA-pair泛化能力不强，对很多问题存在回复不够精准的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种语料处理及问答交互方法、装置、计算机设备及存储介质，能够精准的从问答交互数据中挖掘出高质量的问答对。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例第一方面，提供了一种语料处理方法，包括：

获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列；

基于设置的窗口值确定对应的筛选策略，通过对应的所述筛选策略对所述问答对数据序列进行筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；

确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对。

本发明实施例的第二方面，提供了一种语料处理装置，所述装置包括：

第一获取模块，用于获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列；

处理模块，用于基于设置的窗口值确定对应的筛选策略，通过对应的所述筛选策略对所述问答对数据序列进行筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；

第一确定模块，用于确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对。

本发明实施例的第三方面，提供了一种问答交互方法，包括：

获取问题数据，根据所述问题数据确定对应的关联问答对；其中，所述关联问答对为根据本发明任一实施例所提供的语料处理方法所确定的关联问答对；

基于所述关联问答对确定匹配的答案数据返回。

本发明实施例的第四方面，提供了一种问答交互装置，包括：

第二获取模块，用于根据所述问题数据确定对应的关联问答对；其中，所述关联问答对为根据本发明任一实施例所提供的语料处理方法所确定的关联问答对；

第二确定模块，用于基于所述关联问答对确定匹配的答案数据返回。

本发明实施例的第五方面，提供了一种计算机设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，实现本发明任一实施例所提供的语料处理方法、或本发明任一实施例所提供的问答交互方法。

本发明实施例的第六方面，提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本发明任一实施例所提供的语料处理方法、或本发明任一实施例所提供的问答交互方法。

本发明实施例提供的语料处理及问答交互方法、装置、计算机设备及存储介质，获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列；基于设置的窗口值确定对应的筛选策略，通过对应的所述筛选策略对所述问答对数据序列进行筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；如此，通过设置可变窗口，获取与窗口值匹配的问答对序列，可以从多轮会话中匹配关联性更高的的问答对序列，解决会话中存在中断或不连续的问题；确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，如此，通过关联度参数从问答对集中每一问答对序列中精准的挖掘出高质量的问答对，同时能够获得多轮会话中产生的关联问答对，避免出现“答非所问”的问题。

附图说明

图1为本发明一实施例提供的语料处理方法的流程示意图；

图2为本发明一实施例提供的问答交互方法的流程示意图；

图3为本发明一实施例提供的语料处理装置的结构示意图；

图4为本发明一实施例提供的问答交互装置的结构示意图；

图5为本发明一实施例提供的计算机设备的结构示意图；

图6为本发明另一实施例提供的语料处理方法的流程示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

如图1所示，本发明一实施例提供了一种语料处理方法，该方法包括如下步骤：

步骤101：获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列；

问答交互数据是指客服与用户之间的会话内容，具体可以是服务业或电商等用户服务***中的客服与用户之间的聊天记录。

对所述问答交互数据进行预处理得到问答对数据序列是指区分用户和客服的发言，得到对应的问题Q和答案A，这里以用户的发言为Q，客服的发言为A，一般以时间为顺序，对应的将所述用户和客服之间的会话形成问答对数据序列，例如，形成QAQA…或QQAA…或QAA…等问答对数据序列，一般地，都以Q作为问答序列的开始。

步骤102：基于设置的窗口值确定对应的筛选策略，通过对应的所述筛选策略对所述问答对数据序列进行筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；

窗口值是指问答对包括的Q和A的总共数量，例如窗口值设定为2，则对应的筛选策略为对问答对数据序列中按照一个问题和一个答案的问答对进行筛选，得到QA样式的问答对；窗口值设定为3，可以筛选出样式如QAA或QQA的问答对。窗口若为4，可以筛选出如QAAA或QAQA或QQQA或QQAA样式的问答对，以此类推，窗口越大可以筛选出更长的多轮问答对，对于设定的窗口值，通过设定不同的窗口值得到与所述窗口值匹配的问答对序列形成的问答对集。

步骤103：确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对。

关联度参数是指针对问答对序列中的问题和答案中间的关联度而设置的相关参数，用于计算所述问答对序列中的问题和答案的匹配程度，根据所述关联度参数从所述问答对序列中选取关联问答对是指基于所述关联度参数得到问答对序列中的问题和答案的匹配程度，例如，对关联度参数求得的值设置对应的阈值，即当求得的匹配程度的值满足设置的阈值，选取该问答对序列为关联问答对。

在本申请上述实施方式中，通过获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列；基于设置的窗口值确定对应的筛选策略，通过对应的所述筛选策略对所述问答对数据序列进行筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；如此，通过设置可变窗口，获取与窗口值匹配的问答对序列，得到多轮会话产生的问答对序列，解决会话中存在中断或不连续的问题；确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，如此，通过关联度参数从问答对集中每一问答对序列中精准的挖掘出高质量的问答对，同时能够获得多轮会话中产生的关联问答对，避免出现“答非所问”的问题。

在一实施方式中，所述对所述问答交互数据进行预处理得到问答对数据序列，包括：

基于预先设置的归一化处理方式对所述问答交互数据进行处理；所述归一化处理方式包括以下至少之一：分词处理、去停用词处理、词袋模型处理；

对归一化处理后的所述问答对交互数据进行编码，得到问答对数据序列。

基于预先设置的归一化处理方式对所述问答交互数据进行处理是指通过归一化处理方式对所述问答交互数据进行预处理，目的是去除不必要的噪音，优化问答交互数据的筛选结果，提高问答对筛选质量。

具体地，如采用分词处理，现有的分词方法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法，例如问题“你好亲，家住3楼，安装需要安装费吗”经过分词处理，得到的文本为“你好/亲/家住/3/楼/安装/需要/安装费/吗”。

将采用分词处理后的文本进行去停用词处理，去停用词处理是指去掉某些特殊字符的噪音，比如：“亲”、“你好”、“吗”等，上述分词处理后的文本经去停用词处理后得到“家住/3/楼/安装/需要/安装费”。

词袋模式处理是指忽略词语之间出现顺序，只关注词语是否出现，而不关注词语出现的先后顺序。例如有用户A所问问题“3楼，安装需要安装费吗”，经词袋模式处理之后的文本为“3/楼/安装/需要/安装费”；用户B所提问题“安装在3楼，需要安装费不？”，经词袋模式处理之后的文本为“3/楼/安装/需要/安装费”。

对归一化处理后的所述问答对交互数据进行编码，得到问答对数据序列是指将规划一处理后的所述问答对交互数据采用序号进行编码，具体地，可以是用较短的序号进行表示。例如，“3/楼/安装/需要/安装费”记为Q₁，其中“Q”表示为该用户的所问的问题，“1”表示归一化处理后文本的编号，如此，归一化处理后的文本“3/楼/安装/需要/安装费”的所有用户问题，都可以使用Q₁对其进行简化表示。

在上述实施方式中，通过基于预先设置的归一化处理方式对所述问答交互数据进行处理；所述归一化处理方式包括以下至少之一：分词处理、去停用词处理、词袋模型处理；如此，可以使相似的两个问题或答案拥有相同的表示，从而增加挖掘问答对数量；对归一化处理后的所述问答对交互数据进行编码，得到问答对数据序列，如此，能够对归一化处理后的问题或答案进行简化表示，从而避免了噪声的影响，提高了问答对数据序列的筛选质量。

在一实施方式中，所述根据所述关联度参数从所述问答对序列中选取关联问答对之后，包括：

确定与所述归一化方式对应的反归一化处理方式，基于所述反归一化处理方式对所述关联问答对进行处理，得到目标关联问答对集。

确定与所述归一化方式对应的反归一化处理方式是指对应于问答交互数据得到的问答对序列将所述关联问答对进行还原操作，得到与所述关联问答对对应的完整的问题和答案，例如，Q₁为“3/楼/安装/需要/安装费”，A₁为“我们/都是/包/安装”经反归一化处理方式反推得到Q为“你好亲，家住3楼，安装需要安装费吗”；A为“亲，我们都是包安装的”，即获得高质量的目标关联问答对。

在上述实施方式中，确定与所述归一化方式对应的反归一化处理方式，基于所述反归一化处理方式对所述关联问答对进行处理，得到目标关联问答对集，如此，将问答交互数据进行归一化处理、筛选并最终反归一化处理得到高质量的目标关联问答对集。

在一实施方式中，所述得到样式长度与所述窗口值匹配的问答对序列形成的问答对集，包括：

基于所述窗口值依序选取长度与所述窗口值相等的问答交互数据段，根据所述问答交互数据段分别形成样式长度与所述窗口值匹配的问答对序列；每一所述问答对序列中包括至少一个待分析问题词语和至少一个待分析答案词语；

根据所述问答对序列形成问答对集。

基于所述窗口值依序选取长度与所述窗口值相等的问答交互数据段是指基于窗口值确定对应的选取长度，进一步从所述问答对数据序列中按照选取长度得到问答交互数据段，从而形成对应的问答对序列；例如，窗口值设定为2，则对应的筛选策略为对问答对数据序列中按照一个问题和一个答案的问答对进行筛选，得到QA样式的问答交互数据段，从而形成对应的问答对序列；窗口值设定为3，可以筛选出样式长度为3的，如QAA或QQA样式的问答交互数据段，从而形成对应的问答对序列。窗口值若为4，可以筛选出样式长度为4的，如QAAA或QAQA或QQQA或QQAA样式的问答交互数据段，从而形成对应的问答对序列，以此类推，窗口值越大可以筛选出更长的多轮问答对，对于设定的窗口值，通过设定不同的窗口值得到与所述窗口值匹配的问答对序列形成的问答对集。

每一所述问答对序列中包括至少一个待分析问题词语和至少一个待分析答案词语是指由问题开始，通过设置的窗口值得到对应的包含至少一个Q和至少一个A组成的问答对序列。

在上述实施方式中，通过基于所述窗口值依序选取长度与所述窗口值相等的问答交互数据段，根据所述问答交互数据段分别形成样式长度与所述窗口值匹配的问答对序列；根据所述问答对序列形成问答对集；如此，通过设置可变窗口，获取与窗口值匹配的问答对序列，得到多轮会话产生的问答对序列，解决会话中存在中断或不连续的问题。

在一实施方式中，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

确定所述问答对集中每一所述问答对序列的关联度参数及所述关联度参数对应的阈值；所述关联度参数包括以下至少之一：自由度参数、紧密度参数、重复参数；

选取所述关联度参数满足所述阈值的问答对序列作为关联问答对。

所述关联度参数包括以下至少之一：自由度参数、紧密度参数、重复参数；例如，所述关联度参数为重复参数，阈值为5，则对应一问答对序列，如“QA”，则当问答对集中出现“QA”次数超过5次，则确定该问答对序列作为关联问答对。

在上述实施方式中，确定所述问答对集中每一所述问答对序列的关联度参数及所述关联度参数对应的阈值；选取所述关联度参数满足所述阈值的问答对序列作为关联问答对；如此，通过关联度参数及对应的阈值从问答对集中每一问答对序列中精准的挖掘出高质量的关联问答对，避免出现“答非所问”的问题。

在一实施方式中，当所述关联度参数为自由度参数时，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

获取每一所述问答对序列相邻的左右邻接问答对，得到左问答对和右问答对；

基于所述左问答对和所述问答对序列、及所述问答对序列和所述右问答对分别确定所述问答对序列的左熵值和右熵值，基于设置的条件根据所述左熵值和所述右熵值确定所述自由度参数；

当所述自由度参数超过设置的第一阈值时，确定所述问答对序列为关联问答对。

这里，关联度参数为自由度参数，具体地，自由度参数可以是问答对序列的熵值，熵值主要用来表示问答对序列的左邻句集合和右邻句集合有多随机，左右熵值越大，表示这个问答对序列的左边或右边出现不同的问答对序列可能越多，那么它就很有可能是一个合理的问答对序列。

以窗口值为2的问答对序列样式“Q₁A₁”举例，筛选出问答对数据序列中所有的Q₁A₁问答对序列,并记录其左右邻接问答对序列，比如问答对数据序列中，Q₁A₁左侧出现过{Q_-1，Q_-2}两种问答对序列，在其右侧出现过{Q₂，A₂}两种问答对序列，分别根据公式计算左右两侧的熵值，参见公式(1)、公式(2)：

-E_L(Q₁A₁)_左＝P(Q_-1Q₁A₁|)log₂P(Q_-1Q₁A₁)+P(Q_-2Q₁A₁|)log₂P(Q_-2Q₁A₁) (1)

-E_L(Q₁A₁)_右＝P(Q₁A₁Q₃|)log₂P(Q₁A₁Q₃)+P(Q₁A₁A₃|)log₂P(Q₁A₁A₃) (2)

其中，E_L(Q₁A₁)_左为Q₁A₁的左熵值，E_L(Q₁A₁)_右为Q₁A₁的右熵值，取较小值作为Q₁A₁的熵值，参见公式(3):

E_L(Q₁A₁)＝min(E_L(Q₁A₁)_左，E_L(Q₁A₁)_右) (3)

具体参见以下如下表1，Q₁A₁左右出现了多种序列，通过公式计算得到熵值就会较大。

表1

参见以下如下表2，Q₁A₁左侧可以出现多种问答对序列，但是其右侧仅出现过一种问答对序列即A₂，根据公式(1)至公式(3)求得的熵值较小，左右自由度参数低。若熵值低于预设熵值门限即第一阈值，则可以认为Q₁A₁不是合理问答对。

表2

在上述实施方式中，通过获取自由度参数，当所述自由度参数超过设置的第一阈值时，确定所述问答对序列为关联问答对，如此，能够度量问答对序列的自由度，若某一问答序列能够出现在多种上下文问答中，可认为其自由度较高，越高的自由度使其越有可能为一对合理问答序列对即关联问答对，从而更加精确选出关联问答对。

在一实施方式中，当所述关联度参数为紧密度参数时，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

将每一所述问答对序列分成第一部分和第二部分，其中，所述第一部分至少包含一个待分析问题词语；

分别获取所述第一部分、所述第二部分以及所述问答对序列在所述问答对集中的出现概率，分别得到第一部分出现概率、第二部分出现概率以及问答对序列的出现概率；

基于所述第一部分出现概率、所述第二部分出现概率以及所述问答对序列的出现概率确定所述紧密度参数；

当所述紧密度参数超过设置的第二阈值时，确定所述问答对序列为关联问答对。

这里，关联度参数为紧密度参数，具体地，紧密度参数可以是点互信息(PointwiseMutual Information，pmi)，在机器学习相关文献中，可以看到使用pmi衡量两个变量之间的相关性，比如两个词，两个句子。具体地，参见公式(4)：

其中，x、y分别表示序列中的两部分，如样式“QA”的序列中，x为Q，y为A；如样式“QAA”中x为Q，y为AA或x为QA，y为A。p(x,y)表示某个序列在总序列集合E中出现的频率，例如，参见表格3。

表3

这里，Q“知道了谢谢啊”A“不客气的”归一化后表示为序列Q₁A₁；Q“知道了谢谢啊”A“喜欢就请尽快下单”归一化后表示为序列Q₁A₂，表3分别给出其各个相关统计值和计算值，pmi计算值结果pmi(Q₁,A₁)大于pmi(Q₁,A₂)。可以看出，虽然A₂单独出现的频率比A₁高，但是Q₁A₁共同出现的概率却比Q₁A₂大的多，即前者紧密度更高，因而更有可能是一对合理的关联问答对。当某个问答对序列的pmi值低于第二阈值时，可认为其不可能构成关联问答对。另外，当x或y有多种可能的情况，如样式“QAA”中，x为Q，y为AA或x为QA，y为A；pmi＝max(pmi(Q,AA),pmi(QA,A))，即取pmi的最大值。

在上述实施方式中，通过获取紧密度参数，当所述紧密度参数超过设置的第二阈值时，确定所述问答对序列为关联问答对，如此，能够度量问答对序列的紧密度，越高的紧密度使其越有可能为一对合理问答序列对即关联问答对，从而更加精确选出关联问答对。

需要说明的是，仅用pmi考量问答对的好坏有时候并不严谨，因为有些情况下即使pmi值很大，却未必是一个好的QA对，参见表4。

Q<sub>1</sub>	1匹/1.5匹/差别/是/什么
		A<sub>1</sub>	1匹/适用/面积/10/15/平米
A<sub>2</sub>	1.5匹/适用/面积/15/25/平米

表4

这里，Q₁A₁在问答对数据序列E中会出现多次，其pmi值较大，但其并不是合理的问答对，因为回复并不完整，需要加入A₂才能使问答对完整，因此，需要再结合自由度参数完善过滤机制，从而更加精确选出关联问答对。

在一实施方式中，当所述关联度参数为重复参数时，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

获取所述问答对序列在所述问答对集中的出现次数，当所述出现次数超过设置的第三阈值时，确定所述问答对序列为关联问答对。

这里，当问答对序列为Q₁A₁，第三阈值为10次，当Q₁A₁在问答对集中出现次数超过10次，则确定Q₁A₁为关联问答对。

在上述实施方式中，通过计算问答对序列在问答对集中的出现次数，当所述次数超过第三阈值，确定所述问答对序列为关联问答对，如此，通过设置出现次数对应的第三阈值来过滤问答对序列，可使得到的关联问答对置信度更高，避免低频噪声干扰。

在另一实施方式中，如图2所示，还提供了一种问答交互方法，该方法包括如下步骤：

步骤201：获取问题数据，根据所述问题数据确定对应的关联问答对；其中，所述关联问答对为根据本发明任一实施例所述的语料处理方法所确定的关联问答对；

步骤202：基于所述关联问答对确定匹配的答案数据返回。

在上述实施方式中，获取问题数据，再根据语料处理方法所确定的关联问答对确定匹配的答案数据返回，如此，提高了答***率，避免出现“答非所问”的问题。

在另一实施方式中，如图3所示，还提供了一种语料处理装置，所述装置包括：

第一获取模块11，用于获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列；

处理模块12，用于基于设置的窗口值确定对应的筛选策略，通过对应的所述筛选策略对所述问答对数据序列进行筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；

第一确定模块13，用于确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对。

可选地，所述第一获取模块11还用于基于预先设置的归一化处理方式对所述问答交互数据进行处理；所述归一化处理方式包括以下至少之一：分词处理、去停用词处理、词袋模型处理；

可选地，所述第一确定模块13还用于确定与所述归一化方式对应的反归一化处理方式，基于所述反归一化处理方式对所述关联问答对进行处理，得到目标关联问答对集。

可选地，所述处理模块12还用于基于所述窗口值依序选取长度与所述窗口值相等的问答交互数据段，根据所述问答交互数据段分别形成样式长度与所述窗口值匹配的问答对序列；每一所述问答对序列中包括至少一个待分析问题词语和至少一个待分析答案词语；

根据所述问答对序列形成问答对集。

可选地，所述第一确定模块13还用于确定所述问答对集中每一所述问答对序列的关联度参数及所述关联度参数对应的阈值；所述关联度参数包括以下至少之一：自由度参数、紧密度参数、重复参数；

可选地，所述第一确定模块13还用于获取每一所述问答对序列相邻的左右邻接问答对，得到左问答对和右问答对；

基于所述左问答对和所述问答对序列、及所述问答对序列和所述右问答对分别确定所述问答对序列的左熵值和右熵值，根据所述左熵值和所述右熵值确定所述自由度参数；

可选地，所述第一确定模块13还用于将每一所述问答对序列分成第一部分和第二部分，其中，所述第一部分至少包含一个待分析问题词语；

可选地，所述第一确定模块13还用于获取所述问答对序列在所述问答对集中的出现次数，当所述出现次数超过设置的第三阈值时，确定所述问答对序列为关联问答对。

在在另一实施方式中，如图4所示，还提供了一种问答交互装置，包括：

第二获取模块21，用于根据所述问题数据确定对应的关联问答对；其中，所述关联问答对为根据本发明任一实施例所提供的语料处理方法所确定的关联问答对；

第二确定模块22，用于基于所述关联问答对确定匹配的答案数据返回。

在上述实施方式中，通过获取问题数据，再根据语料处理方法所确定的关联问答对确定匹配的答案数据返回，如此，提高了答***率，避免出现“答非所问”的问题。

在另一实施方式中，如图5所示，还提供了一种计算机设备，包括：至少一个处理器210和用于存储能够在处理器210上运行的计算机程序的存储器211；其中，图5中示意的处理器210并非用于指代处理器的个数为一个，而是仅用于指代处理器相对其他器件的位置关系，在实际应用中，处理器的个数可以为一个或多个；同样，图5中示意的存储器211也是同样的含义，即仅用于指代存储器相对其他器件的位置关系，在实际应用中，存储器的个数可以为一个或多个。

其中，所述处理器210用于运行所述计算机程序时，执行如下步骤：

在一个可选的实施例中，所述处理器210还用于运行所述计算机程序时，执行如下步骤：

根据所述问答对序列形成问答对集。

获取问题数据，根据所述问题数据确定对应的关联问答对；其中，所述关联问答对为根据本发明任一实施例所述的语料处理方法所确定的关联问答对；

基于所述关联问答对确定匹配的答案数据返回。

该计算机设备还包括：至少一个网络接口212。发送端中的各个组件通过总线***213耦合在一起。可理解，总线***213用于实现这些组件之间的连接通信。总线***213除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线***213。

其中，存储器211可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器211旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器211用于存储各种类型的数据以支持发送端的操作。这些数据的示例包括：用于在发送端上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。

本实施例还提供了一种计算机存储介质，例如包括存储有计算机程序的存储器211，上述计算机程序可由发送端中的处理器210执行，以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如智能手机、平板电脑、笔记本电脑等。一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程被处理器运行时，执行如下步骤：

在一个可选的实施例中，所述计算机程序被处理器运行时，还执行如下步骤：

根据所述问答对序列形成问答对集。

基于所述关联问答对确定匹配的答案数据返回。

请参阅图6，以一个更详尽的例子，结合附图，对本申请的语料处理方法的工作过程作进一步详细的说明。该语料处理方法包括如下步骤：

步骤S11：输入问答对数据序列、窗口值、第一阈值、第二阈值、第三阈值；

这里，输入问答对数据序列前，先获取问答交互数据，对所述问答交互数据进行预处理得到问答对数据序列。窗口值是指问答对包括的Q和A的总共数量，例如窗口值设定为2，则得到QA样式的问答对；窗口值设定为3，可以得到如QAA或QQA的问答对。

这里，第一阈值对应于自由度参数设置的阈值，第二阈值对应于紧密度参数设置的阈值，第三阈值对应于重复参数设置的阈值。

步骤S12：归一化处理；

这里，所述归一化处理方式包括对问答交互数据分别进行分词处理、去停用词处理、词袋模型处理。

对归一化处理后的所述问答对交互数据进行编码，得到问答对数据序列是指将规划一处理后的所述问答对交互数据采用序号进行编码，具体地，可以是用较短的序号进行表示。例如，“3/楼/安装/需要/安装费”记为Q1，其中“Q”表示为该用户的所问的问题，“1”表示归一化处理后文本的编号，如此，归一化处理后的文本“3/楼/安装/需要/安装费”的所有用户问题，都可以使用Q1对其进行简化表示。

步骤S13：基于设置的窗口值筛选，得到样式长度与所述窗口值匹配的问答对序列形成的问答对集；

步骤S14：确定所述问答对集中每一所述问答对序列的关联度参数；

这里，关联度参数是指针对问答对序列中的问题和答案中间的关联度而设置的相关参数，用于计算所述问答对序列中的问题和答案的匹配程度，根据所述关联度参数从所述问答对序列中选取关联问答对是指基于所述关联度参数得到问答对序列中的问题和答案的匹配程度，具体地，分别计算每一问答对序列自由度参数、紧密度参数、重复参数。

步骤S15：自由度参数超过设置的第一阈值；

这里，当所述自由度参数超过设置的第一阈值时，执行步骤S16；否则，确定该问答对序列不是关联问答对。

步骤S16：紧密度参数超过设置的第二阈值；

这里，当所述紧密度参数超过设置的第二阈值时，执行步骤S17；否则，确定该问答对序列不是关联问答对。

步骤S17：重复参数超过设置的第三阈值；

这里，当所述重复参数超过设置的第三阈值时，执行步骤S18；否则，确定该问答对序列不是关联问答对。

步骤S18：得到关联问答对；

这里，当所述自由度参数超过设置的第一阈值、紧密度参数超过设置的第二阈值、重复参数超过设置的第三阈值，确定该问答对序列是关联问答对。

步骤S19：反归一化处理得到目标问答对。

这里，基于和归一化处理对应的反归一化处理，将关联问答对恢复成目标关联问答对，最终得到关联问答对集。

上述实施例至少解决了以下问题：

(1)通过设置可变的窗口值，获取与窗口值匹配的问答对序列，得到多轮会话产生的问答对序列，解决会话中存在中断或不连续的问题；

(2)利用自由度参数、紧密度参数以及重复参数结合，对问答对序列进行筛选，得到关联问答对，不仅可以大大丰富筛选出来的问答对内容和数目，而且能解决现有方法中问题和答案间关键信息不共现的问题。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种语料处理方法，其特征在于，包括：

2.如权利要求1所述的语料处理方法，其特征在于，所述对所述问答交互数据进行预处理得到问答对数据序列，包括：

3.如权利要求2所述的语料处理方法，其特征在于，所述根据所述关联度参数从所述问答对序列中选取关联问答对之后，包括：

4.如权利要求1所述的语料处理方法，其特征在于，所述得到样式长度与所述窗口值匹配的问答对序列形成的问答对集，包括：

根据所述问答对序列形成问答对集。

5.如权利要求1所述的语料处理方法，其特征在于，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

6.如权利要求1所述的语料处理方法，其特征在于，当所述关联度参数为自由度参数时，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

7.如权利要求1所述的语料处理方法，其特征在于，当所述关联度参数为紧密度参数时，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

8.如权利要求1所述的语料处理方法，其特征在于，当所述关联度参数为重复参数时，所述确定所述问答对集中每一问答对序列的关联度参数，根据所述关联度参数从所述问答对序列中选取关联问答对，包括：

9.一种语料处理装置，其特征在于，所述装置包括：

10.一种问答交互方法，其特征在于，包括：

获取问题数据，根据所述问题数据确定对应的关联问答对；其中，所述关联问答对为根据权利要求1至8中任一项所述的语料处理方法所确定的关联问答对；

基于所述关联问答对确定匹配的答案数据返回。

11.一种问答交互装置，其特征在于，包括：

第二获取模块，用于根据所述问题数据确定对应的关联问答对；其中，所述关联问答对为根据权利要求1至8中任一项所述的语料处理方法所确定的关联问答对；

12.一种计算机设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，实现权利要求1至8任一项所述的语料处理方法、或实现权利要求10所述的问答交互方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述语料处理方法、或实现权利要求10所述的问答交互方法。