CN115391506A

CN115391506A - 针对多段式回复的问答内容标准性检测方法及装置

Info

Publication number: CN115391506A
Application number: CN202210993205.9A
Authority: CN
Inventors: 钱鹰; 温道洲; 姜美兰; 刘歆; 王毅峰; 伍曾伟; 陈雪; 熊炜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-25

Abstract

本发明涉及一种针对多段式回复的问答内容标准性检测方法及装置，属于计算机领域。该方法为：1)构建标准问答对语料库，建立标准提问和标准回答的映射关系；2)对语音进行预处理，利用音色识别和语音识别技术，获得问者和答者的待检测提问文本和待检测回答文本；3)计算待检测提问文本和标准问答对语料库中每个标准提问文本的语义相似度，返回待检测提问文本对应的标准回答文本；4)对待检测回答文本和标准回答文本进行局部语义特征提取，利用多头自注意力机制对文本进行全局语义特征提取，再对融合后的语义特征计算语义相似度。本发明提供了一种服务过程中用户提问所得到的回答内容的标准性检测判断方法，以便提升用户服务的体验感和满意度。

Description

针对多段式回复的问答内容标准性检测方法及装置

技术领域

本发明属于计算机领域，涉及针对多段式回复的问答内容标准性检测方法及装置。

背景技术

现有技术中的自动问答***一般是基于问答对语料库的文本对话***，即用户输入文本，***通过关键词检索和规则匹配，找到最优的匹配文本作为回答信息返回给用户。针对某些特定的问答交流过程，需要对问答交流整个流程进行跟踪，形成一个具有多段式回复的问答流程。对于多段式回复的问答内容标准性的检测，首先需要提取每个段落的各个语句间的语义特征。现有的技术方法在进行句子相似度识别时将句子的所有词汇作为相似度计算的基本单元，这种方式有两个缺点：其一，在句子中有许多无意义的助词，如“的”，“吧”等，这类词语会严重的干扰相似度的计算；其二，孤立的、单个词的词汇无法充分的表示句子的含义，这样会造成相似度计算的准确率下降。同时在多段式回复文本内容标准性检测中还需要提取各个段落之间的语义特征，每个段落由于在文本中的位置和顺序不同，导致对整个文本相似度的影响不同。并且，在各段落中，相同或相似的语句、用词及词频在不同的段落其语义权重(即表达文本语义的相对重要性)是不一样的。

发明内容

有鉴于此，本发明的目的在于提供一种针对多段式回复的问答内容标准性检测方法及装置，检测待识别语音信息中的多段式回复内容是否符合标准，以便更好的为用户服务，提高用户的服务体验。

为达到上述目的，本发明提供如下技术方案：

针对多段式回复的问答内容标准性检测方法，该方法包括以下步骤：

S1：针对应用场景中问答可能出现的各种提问，构建标准问答对语料库，建立标准提问和标准回答的映射关系；

S2：从设备获取音频信息，并利用音色识别技术对获取的音频进行检测，识别问者和答者，并划分问和答的语音段；然后进行语音识别，得到待检测提问文本和待检测回答文本；

S3：构建待检测提问识别模型，根据S1建立的提问和答案的映射关系，找到该提问的标准回答文本；

S4：针对S2返回的待检测回答文本和S3返回的标准回答文本，利用特征提取模型对两个文本分别进行局部特征提取和全局特征提取；

S5：将S4提取的语义特征输入到相似度计算模型中进行语义相似度计算，判断应用场景下问答内容是否符合标准性规范。

可选的，所述S1包括以下步骤：

S11：列举应用场景下问答过程中可能出现的各种提问，形成一个标准提问文本集合Q＝{q₁,q₂,...,q_i,...,q_n}，其中，n为提问数量，q_i表示某个提问的文本向量，其中i＝1,2,...,n；

S12：针对标准提问文本集合Q中的每一个提问q_i,i＝1,2,...,n，由专业人员给出标准回答；将这些标准回答的文本组成一个标准回答文本集合A＝{a₁,a₂,...,a_i,...,a_n}，其中，n为回答文本的数量，a_i表示对应的提问文本向量q_i所对应的回答文本矩阵；

S13：通过构造提问和回答的映射关系，建立标准问答对语料库；针对某一特定的服务问题需求，问答对语料库中回答对是包含针对该服务的整个流程，形成一个具有多段式回复的问答流程，回答文本矩阵a_i表示的是整个服务流程中的回答文本组成的多段式文本；标准问答对语料库中每个问答对表示为<q_i，a_i>，q_i∈Q，a_i∈A，其含义是第i个服务流程的提问文本q_i对应的标准回答a_i。

可选的，所述S2包括以下步骤：

S21：对拾音设备采集的音频进行端点检测，从带有噪声的语音中准确的定位出语音的开始点和结束点，去掉静音的部分和噪声的部分，找出一段语音中真正有效的内容；

S22：利用不同说话人声纹特征的不同，对语音信号进行说话人转折点检测，将语音信号分割成多个语音片段；

S23：利用语音识别技术将语音片段转化成文本，根据每个片段中对应说话人的不同，对每一段转化后的文字片段标注对应的说话角色标签；

S24：根据文本内容确定某项服务开始到结束的整个流程；在每一项服务开始之前，客服需要通过规定的用语来表示该项服务正式启动；同时，在用户服务结束之后，需要通过规定的用语表示该项服务办理完毕；

S25：当客服说完规定的用语，服务正式启动；一般来说，该句之后的说话角色标签变更为用户所对应的文本即为该项服务的具体内容，通过包含提问语义的关键词提取待检测提问文本q′；

S26：根据文本内容确定待检测回答文本a′；当前待检测提问文本q′所对应的下一段说话角色标签变更为工作人员的文本即为工作人员针对该提问文本q′的待检测回答文本a′；在服务结束之前，需要将整个服务流程中针对q′的回答整合成一个具有多段式回复的待检测回答文本a′。

可选的，所述S3中，采用BERT模型进行待检测提问识别，找出该提问的标准回答文本，具体包括以下步骤：

S31：将S25获得的待检测提问文本q′与标准提问文本集合Q中每个提问文本q_i进行比较；首先将两文本切分成字数组，再将两个切分后的句子拼接得到一个新的样本，拼接后句子中首部的[CLS]是一个表示每个样本的开头标识符，[SEP]是样本中每个句子的结束标记符；假设需要比较的两提问分别为“您需要办理什么服务”和“您方便讲普通话吗”，拼接后的句子为：[CLS]您需要办理什么业务[SEP]您方便讲普通话吗[SEP]；

S32：继续对S31得到的样本进行处理，将文本数据转化为固定长度的数字化的索引数据；[CLS]的索引是101，[SEP]的索引是102，不够固定样本长度的部分用0填补，将其称作Token Embeddings；再对两个需要进行比较的提问进行分割，分割操作是通过一个数组来标记，属于第一个提问标记为0，属于第二个提问标记为1，不足部分也用0进行填补，将其称作Segment Embeddings；同时，为编码输入序列的顺序性，需要将每个句子的每个词进行编号处理，第一个词编号为1，第二个词编号为2，以此类推，这个操作叫做PositionEmbeddings；然后将上述三个Embeddings直接进行按元素相加，得到一个编码后的向量序列；

S33：将编码后的向量序列输入到BERT模型中，得到向量序列在每个位置对应的语义向量；

S34：将头部特殊标记[CLS]对应的语义向量输入到神经网络的全连接层，得到维度为2的语义向量；然后输入到神经网络的Softmax层进行归一化操作，得到两个句子的相似的概率Similarity(q′，q_i)；

S35：遍历提问文本集合Q中的每一个提问q_i，根据公式

相似度最高的提问q_i即为待检测提问文本q′在标准提问文本集合Q中对应的提问，利用标准问答对语料库的映射关系返回该提问q_i对应的标准回答文本a_i，该标准回答文本a_i为待检测提问文本q′在标准问答对语料库所对应的标准回答。

可选的，所述S4具体包括以下步骤：

S41：对S2返回的待检测回答文本a′和S3返回的标准回答文本a_i进行预处理，将多段式长文本切分成不同的段落，对应Tokenization部分；对长文本a_i和a′中的每个段落进行分词处理，得到对应的文本表示矩阵

和T′_a′：

其中，矩阵

表示文本a_i对应的文本处理，矩阵

的每一个元素T_lr表示的是长文本a_i中每个字或者词对应的文本表示；其中l＝1，2，...，G；r＝1，2，...，n；该文本共有G个段落，每个段落均被处理为n个分词，其中不足的部分用0补充，表示训练的时候不被关注；矩阵T′_a′表示的是文本a_i对应的文本表示，矩阵T′_a′的每一个元素T′_bd表示的是长文本a′中每个字或者词对应的文本表示；其中b＝1，2，...，H；d＝1，2，...，m；该文本共有H个段落，每个段落均被处理为了m个分词，同理，其中不足的部分用0补充；

S42：一个句子中的不同词汇对文本相似度计算的贡献是不同的；为区分词汇的重要程度，需为不同的词汇赋予不同的权重；一个长文本中的主题是根据关键词进行概括与总结的，通过比较不同词汇与长文本关键词的相似度，区分不同词汇对于整个句子以及整个文本的重要程度；利用关键词提取模型分别计算两文本a_i和a′的关键词序列

和K′_a′；

S43：基于文本表示矩阵

和T′_a′，矩阵的每一行代表所对应的文本的每一个段落的文本表示向量，与S32的方法相同，段落中句子与句子间由特殊字符[SEP]分隔开，每两个[SEP]之间为单个句子所表示的句向量；与此同时，为区分词汇的重要程度，根据S42计算的关键词序列

和K′_a′为分别计算文本a_i和a′不同的句向量与关键词序列的相似度，得到表示该句子对于整个文本的关键度，对不同句子赋予不同的权重，将其记作Key Embeddinds；然后将Token Embeddings、Segment Embeddings、Position Embeddings和Key Embeddings四个Embeddings进行按元素相加，得到一个融合了位置信息和关键度信息后的句向量序列；

S44：利用Transformer-XL对S43得到的句向量序列进行局部特征提取，对应Sentence Embedding部分；Transformer-XL在编码当前句子的时候再重复使用上个时间步的隐层状态，以对上文信息进行融合；文本表示矩阵

和T′_a′通过S43以及上述的Transformer-XL编码后，得到两个文本a_i和a′的局部特征表示矩阵

及S′_a′：

其中，矩阵

表示的是文本a_i经Transformer-XL处理后得到的局部特征表示矩阵；矩阵

的每一个元素S_lr表示的是长文本a_i中每个字或者词对应的局部特征表示；其中l＝1，2，...，G；r＝1，2，...，n；矩阵S′_a′表示的是文本a′经Transformer-XL处理后得到的局部特征表示矩阵，矩阵S′_a′的每一个元素S′_bd表示的是长文本a′中每个字或者词对应的局部特征表示；其中b＝1，2，...，H；d＝1，2，...，m；

S45：为解决多段式长文本由于文本太长导致Transformer-XL在特征提取过程中存在远距离语义建模的缺陷的问题，引入自注意力机制编码的全局语义更好的对段落级的文本进行语义特征提取；将S44得到的文本的局部语义特征表示矩阵

及S′_a′分别映射到不同的特征子空间，然后利用基于点积的自注意力机制来编码文本的全局语义表示

及P′_a′：

式中，

其中，T表示的是矩阵的转置操作，p_l∈Rⁿ，l＝1，2，...，G表示的是每一个段落语义向量表示，该向量经过局部语义特征提取和全局语义特征提取后，能够表示多段式长文本的句子上下文联系和段落间联系；矩阵

的每一个元素p_lr表示的是长文本a_i中每个字或者词对应的全局特征表示；其中l＝1，2，...，G；r＝1，2，...，n；P′_a′＝[p′₁，p′₂，...，p′_b，...，p′_H]^T，其中，T表示的是矩阵的转置操作，p′_b∈Rⁿ，b＝1，2，...，G表示的是每一个段落语义向量表示，该向量经过局部语义特征提取和全局语义特征提取后，已经能够更好的表示多段式长文本的句子上下文联系和段落间联系；矩阵P′_a′的每一个元素p′_bd表示的是长文本a_i中每个字或者词对应的全局特征表示；其中b＝1，2，...，G；d＝1，2，...，n。

可选的，所述S5具体包括以下步骤：

S51：分别将待检测回答文本a′和标准回答a_i经过步骤S4得到的语义矩阵

及P′_a′中的每一个段落语义向量p_i和p′_i两两输入到BERT模型中，输出两文本中两两句向量之间的相似度矩阵Y：

其中y_σδ表示的是文本a_i中第σ个段落语义向量和文本a′中第δ个段落语义向量的相似度；其中σ＝1，2，...，G；δ＝1，2，...，H；其中文本a_i有G个段落，文本a′有H个段落，则输出的相似度矩阵Y大小为G*H；

S52：对于相似度矩阵Y而言，每一行代表的是待检测回答文本a′中的某一个段落语义向量在标准回答文本a_i中的相似度，取每一行最大相似度作为该段落在标准回答文本中对应段落的最佳相似度，得到一个G*1的文本相似度向量μ＝(u₁，u₂，...，u_σ，...，u_G)^T，其中，

表示该段落σ在标准回答文本a_i的最大相似度；

S53：设文本a′由10个段落语义向量构成，文本a_i由10000个段落语义向量构成，若文本a′的10个语义向量在文本a_i中有着对应相似度高的段落语义向量，则在场景下的问答应该判定为相似度高；其中剩下的9990个语义向量归结为与本次相似度计算无关的语义向量，不参与平均相似度的计算；将向量μ中的元素按照相似度从大到小的顺序进行排序，得到一个新的向量η＝(v₁，v₂，...，v_σ，...，v_G)^T，其中，v_σ表示的是按照相似度大小排序后的相似度；取其中前K个元素的相似度的均值作为两段长文本a′和a_i的最终相似度，计算公式如下：

其中，K为文本a′和a_i中段落数较小的值，G表示文本a_i有G个段落，H表示文本a′有H个段落；计算得到的相似度Similarity(a′，a_i)∈[0，1]，值为0表示完全不相似，值为1表示完全相同；

S54：根据计算出来的相似度和设定的阈值，判断应用场景下问答内容是否符合标准。

基于所述方法的针对多段式回复的问答内容标准性检测装置，该装置包括预处理模块、问答对语料库模块、问答匹配模块、多段式文本相似度计算模块和标准性检查模块；

所述预处理模块、问答匹配模块、多段式文本相似度计算模块和标准性检查模块依次连接；

所述问答对语料库模块与问答匹配模块连接；

通过预处理模块对音频信息进行音色识别和语音识别，得到待检测提问文本和待检测回答文本；

将待检测提问文本输入到问答匹配模块，将其与问答对语料库模块中的最佳匹配提问对应的标准回答文本输出，并利用多段式文本相似度计算模块对待检测回答文本与标准回答文本进行相似度计算；

将最终得到的相似度输出到标准性检查模块，根据计算出来的相似度和设定的阈值，判断应用场景下问答内容是否符合标准规范。

本发明的有益效果在于：

(1)本发明提供了一种用于多段式回复的问答内容规范性智能检测方法，既能充分考虑段落与段落之间的联系，又能结合每个段落中句子与句子之间的联系。提取后的特征向量能够对整个多段式回复文本有个更好的语义表示，从而使待识别语音信息中的多段式回复内容的文本相似度更加精确，可解释性更强，达到优势互补的效果。以便更好地检测待识别语音信息中的多段式回复内容是否符合标准，能够更好的为用户服务，提高用户的服务体验。

(2)本发明表示句子语义信息时不仅仅只针对文本层面的信息进行相似度计算，更多的考虑到中文词语中的一词多义或者多个词表示相似的含义，通过模型提取语义层面的信息进行相似度计算。同时，采用Transformer-XL使得片段之间产生交互，考虑了句子的近距离语义以及句子与句子之间的语序关系，同时利用多头自注意力机制考虑段落与段落之间的联系，弥补了Transformer-XL在远距离语义建模的缺陷。同时，本发明表示句子语义信息时利用了不同的词对于句子语义信息的关键度，强调了不同的句子的贡献是有差异的。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例公开的一种基于语义识别的智能问答内容规范性检测和识别方法的流程示意图；

图2为本发明实施例公开的智能问答规范性检测方法的总体流程图；

图3为本发明实施例公开的计算多段式文本相似度的整体结构示意图；

图4为本发明实施例公开的一种改进后的Transformer模型编码的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

两个长文本间的相似度可以借助该两个长文本间的相似句数量进行衡量，而且，两个长文本间的相似度与该两个长文本间的相似句数量正相关，也即两个长文本间的相似句数量越多则表示该两个长文本间的相似度越高。其中，两个长文本间的相似句是指位于该两个长文本中的具有较高相似度的句子。例如，假设第一个长文本包括第一句子，第二个长文本包括第二句子，且第一句子与第二句子之间的相似度较高，则可以将第一句子或第二句子确定为第一个长文本与第二个长文本间的相似句。

S1针对应用场景中智能问答可能出现的各种提问，构建标准问答对语料库，建立提问和答案的映射关系。

S2从设备获取音频信息，并利用音色识别技术对获取的音频进行检测，识别问者和答者，并划分问和答的语音段。然后进行语音识别，得到待检测提问文本和待检测回答文本。

S3构建待检测提问识别模型，以便根据S1建立的提问和答案的映射关系，找到该提问的标准回答文本。

S4针对S2返回的待检测回答文本和S3返回的标准回答文本，利用特征提取模型对两个文本分别进行局部特征提取和全局特征提取。

S5将步骤S4提取的语义特征输入到相似度计算模型中进行语义相似度计算，判断应用场景下问答内容是否符合标准性规范。

所述S1中，包含以下步骤：

S12：针对标准提问文本集合Q中的每一个提问q_i,i＝1,2,...,n，由专业人员给出标准回答。将这些问答文本组成一个标准回答文本集合A＝{a₁,a₂,...,a_i,...,a_n}，其中，n为回答文本的数量，a_i表示对应的提问文本向量q_i所对应的回答文本矩阵；

S13：通过构造提问和回答的映射关系，建立标准问答对语料库。针对某一特定的服务问题需求，问答对语料库中回答对是包含针对该服务的整个流程，形成一个具有多段式回复的问答流程，因此回答文本矩阵a_i表示的是整个服务流程中的回答文本组成的多段式文本。标准问答对语料库中每个问答对表示为<q_i，a_i>，q_i∈Q，a_i∈A，其含义是第i个服务流程的提问文本q_i对应的标准回答a_i；

所述S2中，包含以下步骤：

S21对拾音设备采集的音频进行端点检测，端点是静音和有效语音信号变化临界点，端点检测的目的是从带有噪声的语音中准确的定位出语音的开始点和结束点，去掉静音的部分和噪声的部分，找出一段语音中真正有效的内容。这里采用的是频带方差的端点检测，频带方差检测法是先对音频信号进行预处理，然后对时域波形进行傅里叶变换得到频谱，进而计算幅值的均值，得到频带方差值。频带方差越大，能量越大，波动幅度越大，则表示是语音部分，频带反差越小，能量较小，起伏较平缓，则是噪声部分。

S22针对不同说话人声纹特征的不同，利用工具对语音信号进行不同说话人转折点检测(可选的工具有OpenSpeaker)，将语音信号分割成多个语音片段；

S23建立中文语音识别模型(可选的工具有ASRT)，其识别过程如下：通过采用卷积神经网络CNN和连接性时序分类CTC方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本，将步骤S22中多个语音片段转化成文本，识别其说话内容。并根据每个片段中对应说话人的不同，对每个转化后的文字片段标注对应的说话角色标签；

所述S3中，本发明采用BERT模型进行待检测提问识别，以便找出该提问的标准回答文本，包含以下步骤：

S31将S25获得的待检测提问文本q′与标准提问文本集合Q中每个提问文本q_i进行比较。首先将两文本切分成字数组，再将两个切分后的句子拼接得到一个新的样本，拼接后句子中首部的[CLS]是一个表示每个样本的开头标识符，[SEP]是样本中每个句子的结束标记符。假设需要比较的两提问分别为“您需要办理什么服务”和“您方便讲普通话吗”，拼接后的句子为：[CLS]您需要办理什么服务[SEP]您方便讲普通话吗[SEP]；

S32继续对S31得到的样本进行处理，将文本数据转化为固定长度的数字化的索引数据。[CLS]的索引是101，[SEP]的索引是102，不够固定样本长度的部分用0填补，将其称作Token Embeddings。再对两个需要进行比较的提问进行分割，分割操作是通过一个数组来标记，属于第一个提问标记为0，属于第二个提问标记为1，不足部分也用0进行填补，将其称作Segment Embeddings。同时，为了编码输入序列的顺序性，需要将每个句子的每个词进行编号处理，第一个词编号为1，第二个词编号为2，以此类推，将该操作叫做PositionEmbeddings。然后将上述三个Embedding直接进行按元素相加，得到一个编码后的向量序列。

S33将编码后的向量序列输入到BERT模型中，得到向量序列在每个位置对应的语义向量；

S34将头部特殊标记[CLS]对应的语义向量输入到神经网络的全连接层，得到维度为2的语义向量。然后输入到神经网络的Softmax层进行归一化操作，得到两个句子的相似的概率Similarity(q′，q_i)；

S35遍历提问文本集合Q中的每一个提问q_i，根据公式

相似度最高的提问q_i即为待检测提问文本q′在标准提问文本集合Q中对应的提问，利用标准问答对语料库的映射关系返回该提问q_i对应的标准回答文本a_i，该文本a_i即为待检测提问文本q′在标准问答对语料库所对应的标准回答。

所述S4中，包含以下步骤：

S41首先，需要对S2返回的待检测回答文本a′和S3返回的标准回答文本a_i进行预处理，将多段式长文本切分成不同的段落，该步骤对应附图三的Tokenization部分。对长文本a_i和a′中的每个段落进行分词处理，得到对应的文本表示矩阵

和T′_a′：

其中，矩阵

表示文本a_i对应的文本处理，矩阵

的每一个元素T_lr表示的是长文本a_i中每个字或者词对应的文本表示；其中l＝1，2，...，G；r＝1，2，...，n；该文本共有G个段落，每个段落均被处理为了n个分词，其中不足的部分用0补充，表示训练的时候不被关注；矩阵T′_a′表示的是文本a_i对应的文本表示，矩阵T′_a′的每一个元素T′_bd表示的是长文本a′中每个字或者词对应的文本表示；其中b＝1，2，...，H；d＝1，2，...，m；该文本共有H个段落，每个段落均被处理为了m个分词，同理，其中不足的部分用0补充；

S42一个句子中的不同词汇对文本相似度计算的贡献是不同的。为了区分词汇的重要程度，需为不同的词汇赋予不同的权重。在一个长文本中的主题一般可以根据关键词进行有效的概括与总结，因此通过比较不同词汇与长文本关键词的相似度，从而区分不同词汇对于整个句子乃至整个文本的重要程度。本发明首先利用关键词提取模型(可选的关键词提取模型有TextRank)分别计算两文本a_i和a′的关键词序列

和K′_a′。

S43基于文本表示矩阵

和T′_a′，矩阵的每一行代表所对应的文本的每一个段落的文本表示向量，与S32描述的方法类似，段落中句子与句子间由特殊字符[SEP]分隔开，每两个[SEP]之间为单个句子所表示的句向量。与此同时，为了区分词汇的重要程度，需根据S42计算的关键词序列

和K′_a′为分别计算文本a_i和a′不同的句向量与关键词序列的相似度，得到表示该句子对于整个文本的关键度，对不同句子赋予不同的权重，将其记作KeyEmbeddinds。然后将四个Embedding(Token Embeddings、Segment Embeddings、PositionEmbeddings、Key Embeddings)进行按元素相加，得到一个融合了位置信息和关键度信息后的句向量序列。

S44利用Transformer-XL对步骤S43得到的句向量序列进行局部特征提取，该步骤对应附图三的Sentence Embedding部分。由于步骤S43处理后得到的句向量仅考虑了句子中的词汇的位置信息以及句子对整个文本不同的重要程度，未考虑到每个段落的句子与句子之间的联系与影响。Transformer-XL在编码当前句子的时候再重复使用上个时间步的隐层状态，以更好的对上文信息进行融合。文本表示矩阵

和T′_a′通过步骤S43以及上述的Transformer-XL编码后，得到两个文本a_i和a′的局部特征表示矩阵

及S′_a′：

其中，矩阵

S45步骤S44采用Transformer-XL编码的局部上下文语义仅仅考虑了句子的近距离语义以及句子与句子之间的语序关系，该步骤对应附图三的Paragraph Embedding部分。为了解决多段式长文本由于文本太长导致Transformer-XL在特征提取过程中存在远距离语义建模的缺陷的问题，引入自注意力机制编码的全局语义更好的对段落级的文本进行语义特征提取。首先将步骤S44得到的文本的局部语义特征表示矩阵

及S′_a′分别映射到不同的特征子空间。

其中，矩阵

的特征子空间的映射方式如下：

式子中，W_i ^Q∈R^n*n、W_i ^K∈R^n*n、W_i ^V∈R^n*n为模型参数，Q表示的是注意力机制中的查询，K表示的是关键词，V表示的是关键词对应的值。矩阵S′_a′的特征子空间的映射方式类似。

然后利用基于点积的自注意力机制来编码文本的全局语义表示：

head_i＝Attention(Q_i，K_i，V_i)

根据上述公式计算得到文本的全局语义表示

及P′_a′：

式中，

其中，T表示的是矩阵的转置操作，p_l∈Rⁿ，l＝1，2，...，G表示的是每一个段落语义向量表示，该向量经过局部语义特征提取和全局语义特征提取后，已经能够更好的表示多段式长文本的句子上下文联系和段落间联系。矩阵

的每一个元素p_lr表示的是长文本a_i中每个字或者词对应的全局特征表示；其中l＝1，2，...，G；r＝1，2，...，n；P′_a′＝[p′₁，p′₂，...，p′_b，...，p′_H]^T，其中，T表示的是矩阵的转置操作，p′_b∈Rⁿ，B＝1，2，...，G表示的是每一个段落语义向量表示，该向量经过局部语义特征提取和全局语义特征提取后，已经能够更好的表示多段式长文本的句子上下文联系和段落间联系。矩阵P′_a′的每一个元素p′_bd表示的是长文本a_i中每个字或者词对应的全局特征表示；其中b＝1，2，...，G；d＝1，2，...，n；

所述S5中，包含以下步骤：

S51分别将待检测回答文本a′和标准回答a_i经过步骤S4得到的语义矩阵

其中y_σδ(其中σ＝1，2，...，G；δ＝1，2，...，H)表示的是文本a_i中第σ个段落语义向量和文本a′中第δ个段落语义向量的相似度；其中文本a_i有G个段落，文本a′有H个段落，则输出的相似度矩阵Y大小为G*H；

S52对于相似度矩阵Y而言，每一行代表的是待检测回答文本a′中的某一个段落语义向量在标准回答文本a_i中的相似度，取每一行最大相似度作为该段落在标准回答文本中对应段落的最佳相似度，得到一个G*1的文本相似度向量μ＝(u₁，u₂，...，u_σ，...，u_G)^T，其中，

表示该段落σ(σ＝1，2，...，G)在标准回答文本a_i的最大相似度；

S53由于对比的两个多段式文本存在这语义向量差异较大的情况，因此在取平均相似度时存在分母取值难以确定的情况。假设考虑一种极端情况，即文本a′由10个段落语义向量构成，文本a_i由10000个段落语义向量构成，如果文本a′的10个语义向量在文本a_i中有着对应相似度高的段落语义向量，则在场景下的智能问答应该判定为相似度高(其中剩下的9990个语义向量应该归结为与本次相似度计算无关的语义向量，不参与平均相似度的计算)。基于上述这种特殊情况，将向量μ中的元素按照相似度从大到小的顺序进行排序，得到一个新的向量η＝(v₁，v₂，...，v_σ，...，v_G)^T，其中，v_σ(σ＝1，2，...，G)表示的是按照相似度大小排序后的相似度；取其中前K个元素的相似度的均值作为两段长文本a′和a_i的最终相似度，计算公式如下：

其中，v_σ(σ＝1，2，...，G)表示的是按照相似度大小排序后的相似度，K为文本a′和a_i中段落数较小的值，G表示文本a_i有G个段落，H表示文本a′有H个段落；计算得到的相似度Similarity(a′，a_i)∈[0，1]，值为0表示完全不相似，值为1表示完全相同。

S54根据计算出来的相似度和设定的阈值，判断应用场景下智能问答内容是否符合标准。本发明设定的阈值根据常识设定，但不仅限于此，在不同的应用场景下会阈值可以不同。

当0≤Similarity(a，a_i)＜0.6时，智能问答内容标准性不合格；

当0.6≤Similarity(a，a_i)＜0.7时，智能问答内容标准性一般；

当0.7≤Similarity(a，a_i)＜0.85时，智能问答内容标准性良好；

当0.85≤Similarity(a，a_i)＜0.95时，智能问答内容标准性优秀；

当0.95≤Similarity(a，a_i)≤1时，智能问答内容标准性完美；

本发明还提供一种基于语义识别的智能问答内容规范性检测和识别方法装置，包括预处理模块、问答对语料库模块、问答匹配模块、多段式文本相似度计算模块、内容标准性检查模块，通过预处理模块对音频信息进行音色识别和语音识别，得到待检测提问文本和待检测回答文本。将待检测提问文本输入到问答匹配模块，将其与问答对语料库模块中的最佳匹配提问对应的标准回答文本输出，并利用多段式文本相似度计算模块对待检测回答文本与标准回答文本进行相似度计算，将最终得到的相似度输出到内容标准性检查模块，根据计算出来的相似度和设定的阈值，判断应用场景下智能问答内容是否符合标准。

(一)本发明与申请号202011221206.9的专利的不同点：

模型角度：

1)标准答案获取方面：202011221206.9专利在进行问题匹配时利用的是SQL查询语句进行匹配，从而得到与问题相匹配的标准答案文本。而本发明采取的方式是利用Bert模型进行匹配识别，与SQL语句的利用文本内容进行匹配相比，Bert模型能够获取到文本内容所能表达的语义信息层面的信息，针对中文文本的一词多义以及多词同义来说能够更加准确的匹配到相似度高的问题，从而获取标准回答文本。

2)相似度计算方面，202011221206.9专利利用的是知识图谱加向量化FAQ问答对分别计算相似度，再将相似度进行加权求和得到最终相似度，在向量化过程中采用的是BERT模型，但是BERT模型在处理字数上存在限制，且针对句子与句子之间的联系不能进行更好的信息提取。本发明采用的是Transformer-XL来解决这一问题，同时针对本文需要处理的多段式回复文本而言，Transformer-XL编码的局部上下文语义仅仅考虑了句子的近距离语义以及句子与句子之间的语序关系，而多头自注意力机制编码的全局语义在建模语义是可以不受距离限制，能够更好的对段落级的文本进行语义特征提取，弥补了Transformer-XL中存在的远距离语义建模的缺陷，本发明综合考虑两类语义，构建了将两种语义特征的融合方法，将Transformer-XL学习到的局部语义特征与多头自注意力机制学习到的全局语义特征进行融合，达到优势互补的效果，并将融合结果作为输入语义特征，基于本发明的多段式回复的智能问答内容标准性检测和识别提升，能够发挥出更佳的效果。

应用角度：

202011221206.9专利公开了一种语义检索方法与装置，目的是解决现有的检索方法无法理解用户查询意图、查询效果无法满足用户的问题。但是本发明目的在于提供一种针对多段式回复的问答内容标准性检测方法及装置，检测待识别语音信息中的多段式回复内容是否符合标准，以便更好的为用户服务，提高用户的服务办理体验。

(二)本发明与申请号为202011025814.2的专利的不同点：

模型角度：

在原始回答文本处理过程中，202011025814.2专利根据中文标点符号将长文本分成若干个答案短句组成若干问答对，然后计算每个问答对中答案文本的字向量和词向量，再分别将其输入到多尺度卷积神经网络中提取特征向量，在计算文本相似度。本发明不同的是，在考虑答案文本中每个词的不同语义时，本发明除了采用Transformer-XL和多头自注意力机制对句子与句子之间的语义信息进行提取，比起切割开长文本的语义表示而言，该方法提取到的信息更能够完整的表示文本的句子语义信息和段落语义信息，同时，再编码过程中，本发明再Bert编码过程中加上了关键词矩阵，能够更好的表示词语或者字在整个文章片段中的重要程度。

应用角度：

202011025814.2专利公开了一种生成答案摘要的方法与装置。通过多个问答对语句提取分布式语义向量，从而利用预设的神经网络模型计算查询问题与问答对文本的相似度，获取查询问题对应的答案摘要。本发明目的在于提供一种针对多段式回复的问答内容标准性检测方法及装置，检测待识别语音信息中的多段式回复内容是否符合标准，以便更好的为用户服务，提高用户的服务办理体验。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.针对多段式回复的问答内容标准性检测方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的针对多段式回复的问答内容标准性检测方法，其特征在于：所述S1包括以下步骤：

S11：列举应用场景下问答过程中可能出现的各种提问，形成一个标准提问文本集合Q＝{q₁，q₂，...，q_i，...，q_n}，其中，n为提问数量，q_i表示某个提问的文本向量，其中i＝1，2，...，n；

S12：针对标准提问文本集合Q中的每一个提问q_i，i＝1，2，...，n，由专业人员给出标准回答；将这些标准回答的文本组成一个标准回答文本集合A＝{a₁，a₂，...，a_i，...，a_n}，其中，n为回答文本的数量，a_i表示对应的提问文本向量q_i所对应的回答文本矩阵；

3.根据权利要求2所述的针对多段式回复的问答内容标准性检测方法，其特征在于：所述S2包括以下步骤：

4.根据权利要求3所述的针对多段式回复的问答内容标准性检测方法，其特征在于：所述S3中，采用BERT模型进行待检测提问识别，找出该提问的标准回答文本，具体包括以下步骤：

S35：遍历提问文本集合Q中的每一个提问q_i，根据公式arg_imax(Similarity(q′，q_i))，

5.根据权利要求4所述的针对多段式回复的问答内容标准性检测方法，其特征在于：所述S4具体包括以下步骤：

和T′_a′：

其中，矩阵

表示文本a_i对应的文本处理，矩阵

的每一个元素T_lr表示的是长文本a_i中每个字或者词对应的文本表示；其中l＝1，2，...，G；r＝1，2，...，n；该文本共有G个段落，每个段落均被处理为n个分词，其中不足的部分用0补充，表示训练的时候不被关注；矩阵T′_a′表示的是文本a_i对应的文本表示，矩阵T′_a′的每一个元素T′_bd表示的是长文本a′中每个字或者词对应的文本表示；其中b＝1，2，...，H；d＝l，2，...，m；该文本共有H个段落，每个段落均被处理为了m个分词，同理，其中不足的部分用0补充；

S42：一个句子中的不同词汇对文本相似度计算的贡献是不同的；为区分词汇的重要程度，需为不同的词汇赋予不同的权重；一个长文本中的主题是根据关键词进行概括与总结的，通过比较不同词汇与长文本关键词的相似度，区分不同词汇对于整个句子以及整个文本的重要程度；利用关键词提取模型分别计算两文本a_i和a′的关键词序列K_ai和K′_a′；

S43：基于文本表示矩阵

S44：利用Transformer-XL对S43得到的句向量序列进行局部特征提取，对应SentenceEmbedding部分；Transformer-XL在编码当前句子的时候再重复使用上个时间步的隐层状态，以对上文信息进行融合；文本表示矩阵

及S′_a′：

其中，矩阵

及P′_a′：

式中，

其中，T表示的是矩阵的转置操作，pl∈Rⁿ，l＝1，2，...，G表示的是每一个段落语义向量表示，该向量经过局部语义特征提取和全局语义特征提取后，能够表示多段式长文本的句子上下文联系和段落间联系；矩阵

的每一个元素p_lr表示的是长文本ai中每个字或者词对应的全局特征表示；其中l＝1，2，...，G；r＝1，2，...，n；P′_a′＝[p′₁，p′₂，...，p′_b，...，p1_H]^T，其中，T表示的是矩阵的转置操作，p′_b∈Rⁿ，b＝1，2，...，G表示的是每一个段落语义向量表示，该向量经过局部语义特征提取和全局语义特征提取后，已经能够更好的表示多段式长文本的句子上下文联系和段落间联系；矩阵P′_a′的每一个元素p_bd表示的是长文本ai中每个字或者词对应的全局特征表示；其中b＝1，2，...，G；d＝1，2，...，n。

6.根据权利要求5所述的针对多段式回复的问答内容标准性检测方法，其特征在于：所述S5具体包括以下步骤：

表示该段落σ在标准回答文本a_i的最大相似度；

S53：设文本a′由10个段落语义向量构成，文本a_i由10000个段落语义向量构成，若文本a′的10个语义向量在文本a_i中有着对应相似度高的段落语义向量，则在场景下的问答应该判定为相似度高；其中剩下的9990个语义向量归结为与本次相似度计算无关的语义向量，不参与平均相似度的计算；将向量μ中的元素按照相似度从大到小的顺序进行排序，得到一个新的向量η＝(υ₁，υ₂，...，υ_σ，...，υ_G)^T，其中，υ_σ表示的是按照相似度大小排序后的相似度；取其中前K个元素的相似度的均值作为两段长文本a′和a_i的最终相似度，计算公式如下：

7.基于权利要求1～6中所述方法的针对多段式回复的问答内容标准性检测装置，其特征在于：该装置包括预处理模块、问答对语料库模块、问答匹配模块、多段式文本相似度计算模块和标准性检查模块；

所述问答对语料库模块与问答匹配模块连接；