CN110609886A

CN110609886A - 一种文本分析方法及装置

Info

Publication number: CN110609886A
Application number: CN201910881838.9A
Authority: CN
Inventors: 戴淑敏; 唐剑波; 李长亮
Original assignee: Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-24

Abstract

本申请提供一种文本分析方法及装置。其中，所述文本分析方法，包括：获取待分析文本、待回答问题和候选答案；将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量；将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量；基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量；将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案。本申请提供的文本分析方法及装置，可以有效提高文本分析过程中对于文本及问题信息提取的深度、灵活性及多样性，提高待回答问题答***性。

Description

一种文本分析方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种文本分析方法及装置、文本分析模型的训练方法及装置、计算设备及计算机可读存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用场景，从大的方面讲，是对于语言文字的智能处理，包括阅读理解、问答对话、写作、翻译等等。这些应用场景，又可以细分成若干任务，包括从一连串字中识别词，从一连串词中识别词组、从语句中识别主谓宾、定语、状语、从语句中识别语气情绪、从整篇文章中提炼摘要、根据提问从整篇文章中寻找答案即阅读理解与问答，等等。

其中，对于阅读理解与问答任务，通常选用双向注意力神经网络模型模型(Bidirectional Encoder Representation from Transformers，BERT)进行处理。

但是，BERT模型对于中文文本以字为单位进行处理，缺少词级别的细粒度特征，限制了模型提取文本信息的能力，从而影响模型的处理效果。

发明内容

有鉴于此，本申请实施例提供了一种文本分析方法及装置、文本分析模型的训练方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种文本分析方法，包括：

获取待分析文本、待回答问题和候选答案；

将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量；

将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量；

基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量；

将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案。

进一步地，在所述获取待分析文本、待回答问题和候选答案之后，还包括：

将所述待分析文本和所述候选答案进行拼接，生成文本答案集；

所述将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量，包括：

将所述文本答案集和待回答问题中的字单元进行嵌入处理，生成所述字单元对应的第一字向量；

所述将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量，包括：

将所述文本答案集和待回答问题中的字单元进行语义标注处理，生成所述字单元对应的第二字向量。

将所述待回答问题和所述候选答案进行拼接，生成问题答案集；

将所述问题答案集和待分析文本中的字单元进行嵌入处理，生成所述字单元对应的第一字向量；

将所述问题答案集和待分析文本中的字单元进行语义标注处理，生成所述字单元对应的第二字向量。

进一步地，所述将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量，包括：

将所述待分析文本、待回答问题和候选答案进行语义标注，生成所述字单元对应的语义标签；

基于所述语义标签，生成所述字单元对应的第二字向量。

进一步地，所述基于所述语义标签，生成所述字单元对应的第二字向量，包括：

将所述语义标签进行嵌入处理，生成标签向量，并将所述标签向量作为所述字单元的第二字向量。

进一步地，所述基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量，包括：

将所述待分析文本、待回答问题和候选答案中字单元的第一字向量和第二字向量进行拼接，生成所述字单元对应的第三字向量。

进一步地，所述将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案，包括：

将所述第三字向量输入至文本分析模型中进行特征提取，生成特征向量；

将所述特征向量依次进行线性映射与非线性变换处理，获得所述候选答案作为所述待回答问题的答案的概率；

基于所述候选答案作为所述待回答问题的答案的概率，确定答案。

本申请还提供一种文本分析模型的训练方法，包括：

获取训练样本和样本标签，所述训练样本包括样本文本、样本问题和样本候选答案，所述样本标签包括与所述样本文本和样本问题相对应的正确答案；

将所述样本文本、样本问题和样本候选答案中的字单元进行嵌入处理，生成所述字单元对应的第一样本字向量；

将所述样本文本、样本问题和样本候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二样本字向量；

基于所述字单元对应的第一样本字向量和第二样本字向量，生成所述字单元对应的第三样本字向量；

将所述第三样本字向量输入至文本分析模型中进行处理，确定所述样本问题的预测答案；

将所述预测答案和所述正确答案进行对比，并基于所述预测答案和所述正确答案的对比结果，对所述文本分析模型进行更新。

本申请还提供一种文本分析装置，包括：

获取模块，被配置为获取待分析文本、待回答问题和候选答案；

嵌入模块，被配置为将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量；

标注模块，被配置为将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量；

生成模块，被配置为基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量；

确定模块，被配置为将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案。

本申请还提供一种文本分析模型的训练装置，包括：

样本获取模块，被配置为获取训练样本和样本标签，所述训练样本包括样本文本、样本问题和样本候选答案，所述样本标签包括与所述样本文本和样本问题相对应的正确答案；

样本嵌入模块，被配置为将所述样本文本、样本问题和样本候选答案中的字单元进行嵌入处理，生成所述字单元对应的第一样本字向量；

样本标注模块，被配置为将所述样本文本、样本问题和样本候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二样本字向量；

样本生成模块，被配置为基于所述字单元对应的第一样本字向量和第二样本字向量，生成所述字单元对应的第三样本字向量；

样本确定模块，被配置为将所述第三样本字向量输入至文本分析模型中进行处理，确定所述样本问题的预测答案；

模型更新模块，被配置为将所述预测答案和所述正确答案进行对比，并基于所述预测答案和所述正确答案的对比结果，对所述文本分析模型进行更新。

本申请还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现上述文本分析方法或者文本分析模型的训练方法的步骤。

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述文本分析方法或者文本分析模型的训练方法的步骤。

本申请提供的文本分析方法及装置，通过分别将待分析文本、待回答问题和候选答案进行嵌入处理和语义标注处理，在字向量中融入细粒度级别的语义角色标注信息，加深文本分析模型对文本和问题的理解程度，有效提高文本分析过程中对于文本及问题信息提取的深度、灵活性及多样性，提高待回答问题答***性。

本申请提供的文本分析模型的训练方法及装置，通过分别将样本文本、样本问题、样本候选答案进行嵌入处理和语义标注处理，在字向量中融入细粒度级别的语义角色标注信息，增强文本分析模型在阅读理解中的信息提取能力，有效提高模型的训练效果，本实施例提供的文本分析模型的训练方法及装置，通过将样本候选答案随样本文本、样本问题一起输入至文本分析模型中进行处理，可以有效提高文本分析模型阅读理解问答的准确率。

附图说明

图1是本申请实施例的计算设备的结构示意图；

图2是本申请实施例的文本分析方法的步骤流程示意图；

图3是本申请实施例的文本分析方法的步骤流程示意图；

图4是本申请实施例的文本分析方法的步骤流程示意图；

图5是本申请实施例的文本分析模型的训练方法的步骤流程示意图；

图6是本申请实施例的文本分析装置的结构示意图；

图7是本申请实施例的文本分析模型的训练装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

字单元(token)：对输入文本做任何实际处理前，都需要将其分割成诸如字、标点符号、数字或字母等语言单元，这些单元被称为字单元。对于英文文本，字单元可以是一个单词、一个标点符号、一个数字等，对于中文文本，最小的字单元可以是一个字、一个标点符号、一个数字等。

词嵌入：是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

语义角色标注(Semantic Role Labeling，SRL):是一种浅层语义分析方式，其目的是分析句子中谓词的相应语义角色成分，包括施事者、受事者、时间、地点等。

独热编码(One-hot):一种embedding方式，即用一个二值向量来表示一个语言符号，向量长度和词典中的符号个数一样。在向量中，只有与符号对应位置的值是1，其他位置都是0。

BERT模型：一种双向注意力神经网络模型。BERT模型可以通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。

线性映射(linear mapping)：是从一个向量空间V到另一个向量空间W的映射且保持加法运算和数量乘法运算，而线性变换(linear transformation)是线性空间V到其自身的线性映射。

非线性变换：是把原始的特征做非线性变换，得到一个新的特征，使用这个新的特征来做线性的分类，则对应到原始的特征空间中，相当于做了非线性的分类。

归一化指数函数(softmax函数)：它能将一个含任意实数的k维向量“压缩”到另一个K维实数向量中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1，其常被用于解决多分类问题。

在本申请中，提供了一种文本分析方法及装置、文本分析模型的训练方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了本申请实施例的文本分析方法的示意性流程图，包括步骤S210至步骤S250。

步骤S210、获取待分析文本、待回答问题和候选答案。

具体地，待分析文本为中文文本，可以是一句话、一段文字、多段文字、一篇文章等，待回答问题为与待分析文本的内容相关的疑问句，候选***括“肯定回答”、“否定回答”和“无法确定”三个选项，可以为各种能够表达“肯定回答”、“否定回答”和“无法确定”含义的句子，本申请对此不做限制。

例如，假设待分析文本内容包括“桌子上有一颗苹果”，在待回答问题为“桌子上有苹果吗？”的情况下，候选答案可以为“有”、“没有”、“无法确定”，在待回答问题为“桌子上有什么？”的情况下，候选答案可以为“桌子上有苹果”、“桌子上没有东西”和“无法确定”。

实际应用中，在获取到待分析文本、待回答问题和候选答案后，将待分析文本、待回答问题和候选答案进行拼接，具体可以将候选答案拼接至待分析文本后或者将候选答案拼接至待回答问题后，再继续执行下述步骤的处理。

步骤S220、将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量。

具体地，将待分析文本、待回答问题和候选答案进行以字为单位的分词处理，得到待分析文本、待回答问题和候选答案中的若干字单元，每一个字单元对应一个字或一个标点符号，并将上述字单元进行嵌入处理，生成每个字单元的第一字向量。

对待分析文本、待回答问题和候选答案进行嵌入处理，可以提高对待分析文本、待回答问题和候选答案的信息提取深度和丰富度，增强分析准确性。

步骤S230、将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量。

进一步地，可以将所述待分析文本、待回答问题和候选答案进行语义标注，生成所述字单元对应的语义标签；基于所述语义标签，生成所述字单元对应的第二字向量。

具体地，语义标注为语义角色标注(SRL)，可以利用中文自然语言处理工具包(pyltp)分别对待分析文本、待回答问题和候选答案进行语义角色标注，生成待分析文本、待回答问题和候选答案中每个句子的语义角色标签，再将待分析文本或待回答问题中每个句子的语义角色标签连接起来即得到待分析文本或待回答问题的语义角色标签。

根据待分析文本或待回答问题中每个句子的语义角色标签通过B-I-E等标记方式来标记每个字单元即每个字和每个标点符号的语义标签，没有语义角色的字单元以“0”作为其语义标签。

例如，假设待分析文本的内容包括：“浙江将全面实施考试改革试点方案”，各词语在该句中的位置标记如表1所示。

表1

则生成的语义角色集为“3A0：(0，0)ADV(1,1)ADV(2,2)A1(4,7)”。上述的语义角色集即为该句的语义角色标签，其中，A0表示施事者，ADV表示默认标注类型，A1表示受事者。

基于上述语义角色集，可以得出词语“浙江”的语义角色标签为A0，词语“将”、“全面”的语义角色标签为ADV，词语“考试”、“改革”、“试点”、“方案”的语义角色标签为A1。

利用B-I-E的标记方式对每个字单元进行标记，得到如表2所示的字单元-语义标签对应表。

表2

在一个句子中存在多个谓词导致出现多个语义角色集的情况下，选择没有语义角色标注的单词最少的语义角色集作为该句的语义角色标签。

例如，假设待分析文本的内容包括“明年开始，浙江将全面实施考试改革试点方案，外语和选考科目一年两考，考生自主确定考试选考科目。”上述待分析文本的句子中共包含3个谓语动词，分别为“开始”、“实施”和“确定”。将上述待分析文本进行语义标注，共生成三个语义角色集，分别为基于谓语动词“开始”生成的语义角色集A“1TMP(0,0)”，基于谓语动词“实施”生成的语义角色集B“6TMP(0,2)A0(3,3)ADV(4,4)ADV(5,5)A1(7,10)”，基于谓语动词“确定”生成的语义角色集C“23A0(21,21)ADV(22,22)A1(24,26)”。其中，数字表示词语在句子中的位置(自0开始)，TMP表示时间，A0表示施事者，ADV表示默认标注类型，A1表示受事者。

可以看出，上述三个语义角色集中，语义角色集B标注的词语最多，即句子中没有语义角色标签的词语最少，则将语义角色集B作为最优语义角色集，将语义角色集B作为该句的语义角色标签，其中没有语义角色的词语以“0”作为其语义角色标签。

更进一步地，可以将所述语义标签进行嵌入处理，生成标签向量，并将所述标签向量作为所述字单元的第二字向量。

具体地，所述嵌入处理采用one-hot嵌入的方式进行处理。以待分析文本为“浙江将全面实施考试改革试点方案”为例，字单元“浙”的语义标签为“B-A0”，将其语义标签“B-A0”进行one-hot嵌入处理，生成标签向量，并将该标签向量作为字单元“浙”的第二字向量。其他情况可以此类推，在此不再赘述。

对待分析文本、待回答问题和候选答案进行语义标注处理，可以获得每个字单元在句子中的语义角色信息，有助于模型加深对句子的理解程度，提高阅读理解问答的准确性。

步骤S240、基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量。

进一步地，可以将所述待分析文本、待回答问题和候选答案中字单元的第一字向量和第二字向量进行拼接，生成所述字单元对应的第三字向量。

以待分析文本为例，假设待分析文本中的字单元“浙”的第一字向量为a1，第二字向量为a2，第三字向量为a3，a3＝a1+a2。

对待分析文本、待回答问题和候选答案中每个字单元的语义角色信息与每个字单元的字向量相融合，可以进一步提高文本及问题信息提取的深度、丰富度，且结合语义角色信息还可以提高语义理解的深度，可以提高阅读理解问答的准确性。

步骤S250、将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案。

进一步地，可以将所述第三字向量输入至文本分析模型中进行特征提取，生成特征向量；将所述特征向量依次进行线性映射与非线性变换处理，获得所述候选答案作为所述待回答问题的答案的概率；并基于所述候选答案作为所述待回答问题的答案的概率，确定答案。

具体地，所述文本分析模型为BERT模型。在将待分析文本、待回答问题和候选答案中每一个字单元的第三字向量输入至文本分析模型中时，可以分为两个字向量序列进行输入，可以基于上述步骤S210中对待分析文本、待回答问题和候选答案的拼接，将待分析文本的第三字向量作为一个字向量序列，将候选答案的第三字向量与待回答问题的第三字向量作为一个字向量序列输入至文本分析模型中进行处理，也可以将待回答问题的第三字向量作为一个字向量序列，将候选答案的第三字向量与待分析文本的第三字向量作为一个字向量序列输入至文本分析模型中进行处理，本申请对此不做限制。

将候选答案中的“肯定回答”以“0”来代替，将“否定回答”以“1”来代替，将“无法确定”以“2”来代替。经过BERT模型处理后输出的特征向量可以表示为1×n列的矩阵，BERT模型中的权重矩阵(参数)可以表示为n×3列的矩阵，其中，“3”表示3个候选答案选项，然后通过softmax函数进行线性处理，其表达式如下所示：

其中，z_j是转换前向量中的某个元素，e是指数函数，分母为转换前向量中所有元素的指数和，σ(z)_j为非线性转换的结果，通过计算softmax函数的值，输出结果中最大的概率值所对应位置代表的答案即为正确答案。

例如：输入向量[1,2,3,4,1,2,3]对应的Softmax函数的值为[0.024,0.064,0.175,0.475,0.024,0.064,0.175]。输出向量中拥有最大权重的项对应着输入向量中的最大值“4”。则“4”所对应位置的答案为正确答案。

本实施例提供的文本分析方法，通过对待分析文本、待回答问题和候选答案进行语义标注处理，在待分析文本、待回答问题和候选答案的字向量中融入细粒度的语义标注信息，可以有效提高在阅读理解的过程中文本分析模型的信息提取能力及深度，提高答***性。

本实施例提供的文本分析方法，将候选答案与待分析文本、待回答问题一起输入至文本分析模型中进行处理，可以有效提高文本分析模型的准确率。

如图3所示，一种文本分析方法，包括步骤S310至步骤S360。

步骤S310、获取待分析文本、待回答问题和候选答案。

步骤S320、将所述待分析文本和所述候选答案进行拼接，生成文本答案集。

在实际应用中，将候选答案拼接至待分析文本后，生成文本答案集。

例如，假设待分析文本包括：“桌子上有一颗苹果”，待回答问题为“桌子上有葡萄吗”，候选***括“有”、“没有”、“无法确定”，将候选答案拼接至待分析文本后，生成文本答案集“桌子上有一颗苹果。有。没有。无法确定。”

步骤S330、将所述文本答案集和待回答问题中的字单元进行嵌入处理，生成所述字单元对应的第一字向量。

步骤S340、将所述文本答案集和待回答问题中的字单元进行语义标注处理，生成所述字单元对应的第二字向量。

步骤S350、基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量。

步骤S360、将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案。

以上各步骤的具体实现过程可参见上述实施例，在此不再赘述。

本实施例所述的文本分析方法，通过将候选答案与待分析文本拼接在一起，再进行后续的嵌入处理、语义标注处理以及文本分析模型的处理，可以提高阅读理解的过程中对于待分析文本和待回答问题的信息提取深度和提取丰富度，提高阅读理解问答的准确性。

如图4所示，一种文本分析方法，包括步骤S410至步骤S460。

步骤S410、获取待分析文本、待回答问题和候选答案。

步骤S420、将所述待回答问题和所述候选答案进行拼接，生成问题答案集。

在实际应用中，将候选答案拼接至待回答问题后，生成问题答案集。

例如，假设待分析文本包括：“桌子上有一颗苹果”，待回答问题为“桌子上有葡萄吗”，候选***括“有”、“没有”、“无法确定”，将候选答案拼接至待回答问题后，生成问题答案集“桌子上有葡萄吗？有。没有。无法确定。”

步骤S430、将所述问题答案集和待分析文本中的字单元进行嵌入处理，生成所述字单元对应的第一字向量。

步骤S440、将所述问题答案集和待分析文本中的字单元进行语义标注处理，生成所述字单元对应的第二字向量。

步骤S450、基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量。

步骤S460、将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案。

本实施例所述的文本分析方法，通过将候选答案与待回答拼接在一起，再进行后续的嵌入处理、语义标注处理以及文本分析模型的处理，可以提高阅读理解的过程中对于待分析文本和待回答问题的信息提取深度和提取丰富度，提高阅读理解问答的准确性。

如图5所示，一种文本分析模型的训练方法，包括步骤S510至步骤S560。

步骤S510、获取训练样本和样本标签，所述训练样本包括样本文本、样本问题和样本候选答案，所述样本标签包括与所述样本文本和样本问题相对应的正确答案。

具体地，样本文本为中文文本，可以是一句话、一段文字、多段文字、一篇文章等，样本问题为与样本文本的内容相关的疑问句，样本候选***括“肯定回答”、“否定回答”和“无法确定”三个选项，可以为各种能够表达“肯定回答”、“否定回答”和“无法确定”含义的句子，本申请对此不做限制。

步骤S520、将所述样本文本、样本问题和样本候选答案中的字单元进行嵌入处理，生成所述字单元对应的第一样本字向量。

对样本文本、样本问题和样本候选答案进行嵌入处理，可以提高对样本文本、样本问题和样本候选答案的信息提取深度和丰富度，增强分析准确性。

步骤S530、将所述样本文本、样本问题和样本候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二样本字向量。

进一步地，可以将所述样本文本、样本问题和样本候选答案进行语义标注，生成所述字单元对应的语义标签；基于所述语义标签，生成所述字单元对应的第二字向量。

具体地，语义标注为语义角色标注(SRL)，可以利用中文自然语言处理工具包(pyltp)分别对样本文本、样本问题和样本候选答案进行语义角色标注，生成样本文本、样本问题和样本候选答案中每个句子的语义角色标签，再将待分析文本或待回答问题中每个句子的语义角色标签连接起来即得到待分析文本或待回答问题的语义角色标签。

对样本文本、样本问题和样本候选答案进行语义标注处理，可以获得每个字单元在句子中的语义角色信息，有助于模型加深对句子的理解程度，提高阅读理解问答的准确性。

步骤S540、基于所述字单元对应的第一样本字向量和第二样本字向量，生成所述字单元对应的第三样本字向量。

进一步地，可以将所述样本文本、样本问题和样本候选答案中字单元的第一样本字向量和第二样本字向量进行拼接，生成所述字单元对应的第三样本字向量。

对样本文本、样本问题和样本候选答案中每个字单元的语义角色信息与每个字单元的字向量相融合，可以进一步提高文本及问题信息提取的深度、丰富度，且结合语义角色信息还可以提高语义理解的深度，可以提高阅读理解问答的准确性。

步骤S550、将所述第三样本字向量输入至文本分析模型中进行处理，确定所述样本问题的预测答案。

进一步地，可以将所述第三样本字向量输入至文本分析模型中进行特征提取，生成特征向量；将所述特征向量依次进行线性映射与非线性变换处理，获得所述样本候选答案作为所述样本问题的答案的概率；并基于所述样本候选答案作为所述样本问题的答案的概率，确定预测答案。

具体地，文本分析模型为BERT模型，采用BERT模型对样本文本、样本问题和样本候选答案进行处理，可以充分提取文本与问题之间的相互依赖关系，阅读理解问答的准确率高。

步骤S560、将所述预测答案和所述正确答案进行对比，并基于所述预测答案和所述正确答案的对比结果，对所述文本分析模型进行更新。

进一步地，将预测答案与正确答案进行对比，若预测答案与正确答案不一致，则调整文本分析模型的参数，更新文本分析模型，并继续迭代训练；若预测答案与正确答案一致，结束训练。

下面结合具体的例子对本实施例进一步说明。

获取样本文本、样本问题、样本候选答案和正确答案。假设样本文本包括：“校长在开会时提出，支持学生积极参加课外活动”，样本问题为“学校支持学生参加课外活动吗？”，样本候选***括“支持”、“不支持”和“无法确定”，正确答案为“支持”。将样本候选答案拼接至样本问题后，进行后续处理。

将样本文本、拼接后的样本问题和样本候选答案进行分词处理，得到若干字单元。以样本候选答案“无法确定”为例，将样本候选答案“无法确定”进行分词处理，得到“无”、“法”、“确”、“定”四个字单元，其他情况可以此类推，在此不再赘述。

对上述样本文本、拼接后的样本问题和样本候选答案中的每一个字单元进行嵌入处理，生成每一个所述字单元对应的第一样本字向量，以样本文本为例，样本文本中字单元的第一样本字向量为m1～m21。

将上述样本文本、拼接后的样本问题和样本候选答案进行语义标注，以样本文本为例，样本文本经过语义标注生成三个语义角色集，分别为基于谓语动词“提出”生成的语义角色集D“4A0(0,0)TMP(1,3)”，基于谓语动词“支持”生成的语义角色集E“6A1(7,7)”，基于谓语动词“参加”生成的语义角色集F“9A0(7,7)ADV(8,8)A1(10,11)”。上述三个语义角色集中，语义角色集D和语义角色集F标注的词语最多，即句子中没有语义角色标签的词语最少，语义角色集E标注的词语最少，即句子中没有语义角色标签的词语最多。故在语义角色集D和语义角色集F中选择一个语义角色集作为最优语义角色集，即语义角色标签。在此以语义角色集D为最优语义角色集即该句的语义角色标签为例，其中，数字表示词语在句子中的位置(自0开始)，A0表示施事者，TMP表示时间，ADV表示默认标注类型，A1表示受事者。

基于每个句子的语义角色标签通过B-I-E的标记方式对每个字单元进行语义角色标记，生成每个字单元对应的语义标签，其中没有语义角色的字单元以“0”作为其语义标签。以待分析文本为例，采用B-I-E的标记方式对每个字单元进行语义角色标记，得到如表3所示的语义标签对应表，其他情况可以此类推，在此不再赘述。

表3

将上述每个字单元的语义标签进行one-hot嵌入处理，生成每个字单元语义标签的标签向量，并将该标签向量作为第二样本字向量，以样本文本为例，样本文本中字单元的第二样本字向量为n1～n21。

将上述每个字单元的第一样本字向量和第二样本字向量进行拼接，生成每个字单元对应的第三样本字向量，以样本文本为例，假设样本文本字单元的第三样本字向量为p1～p21，则p1＝m1+n1，p2＝m2+n2……其他情况可以此类推，在此不再赘述。

将上述样本文本字单元的第三字向量作为一个字向量序列输入至文本分析模型中进行处理，基于上述步骤中对样本问题和样本候选答案的拼接，将上述拼接后的样本问题与样本候选答案字单元的第三字向量作为一个字向量序列输入至文本分析模型中进行处理，生成样本候选答案作为样本问题答案的概率，假设样本候选答案“支持”的概率为0.55，样本候选答案“不支持”的概率为0.25，样本候选答案“无法确定”的概率为0.20，则确定样本候选答案“支持”为样本问题的预测答案。

将样本问题的预测答案与正确答案进行对比，并基于对比结果，对文本分析模型进行迭代训练，在文本分析模型的准确率达到目标阈值后，结束训练。其中，准确率的目标阈值可视具体情况而定，本申请对此不做限制。

经过多次实验，在不进行语义标注处理，且仅将待分析文本和待回答问题输入至文本分析模型中进行处理的情况下，文本分析模型的准确率为77％左右，在进行语义标注处理，但仅将待分析文本和待回答问题输入至文本分析模型中进行处理的情况下，文本分析模型的准确率为78％左右，在进行语义标注处理，且将候选答案与待分析文本、待回答问题一起输入至文本分析模型中进行处理的情况下，文本分析模型的准确率为79％左右。

由此可见，本实施例提供的文本分析模型的训练方法，通过分别将样本文本、样本问题、样本候选答案和正确答案进行嵌入处理和语义标注处理，可以在字向量中融入细粒度级别的语义角色标注信息，增强文本分析模型在阅读理解中的信息提取能力，有效提高模型的训练效果，有效提高文本分析模型的准确率。

本实施例提供的文本分析模型的训练方法，通过将样本候选答案、正确答案随样本文本、样本问题一起输入至文本分析模型中进行处理，可以有效提高文本分析模型的训练效果以及文本分析模型阅读理解问答的准确率。

如图6所示，一种文本分析装置，包括：

获取模块601，被配置为获取待分析文本、待回答问题和候选答案。

嵌入模块602，被配置为将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量。

标注模块603，被配置为将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量。

生成模块604，被配置为基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量。

确定模块605，被配置为将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案。

可选地，所述文本分析装置，还包括：

第一拼接模块，被配置为将所述待分析文本和所述候选答案进行拼接，生成文本答案集。

所述嵌入模块602，进一步地被配置为：

将所述文本答案集和待回答问题中的字单元进行嵌入处理，生成所述字单元对应的第一字向量。

所述标注模块603，进一步地被配置为：

可选地，所述文本分析装置，还包括：

第二拼接模块，被配置为将所述待回答问题和所述候选答案进行拼接，生成问题答案集。

所述嵌入模块602，进一步地被配置为：

将所述问题答案集和待分析文本中的字单元进行嵌入处理，生成所述字单元对应的第一字向量。

所述标注模块603，进一步地被配置为：

可选地，所述标注模块603进一步被配置为：

将所述待分析文本、待回答问题和候选答案进行语义标注，生成所述字单元对应的语义标签。

基于所述语义标签，生成所述字单元对应的第二字向量。

可选地，所述标注模块603更进一步被配置为：

可选地，所述生成模块604进一步被配置为：

可选地，所述确定模块605进一步被配置为：

将所述第三字向量输入至文本分析模型中进行特征提取，生成特征向量。

将所述特征向量依次进行线性映射与非线性变换处理，获得所述候选答案作为所述待回答问题的答案的概率。

本申请提供的文本分析装置，通过分别将待分析文本、待回答问题和候选答案进行嵌入处理和语义标注处理，可以在字向量中融入细粒度级别的语义角色标注信息，加深文本分析模型对文本和问题的理解程度，有效提高文本分析过程中对于文本及问题信息提取的深度、灵活性及多样性，提高待回答问题答***性。

如图7所示，一种文本分析模型的训练装置，包括：

样本获取模块701，被配置为获取训练样本和样本标签，所述训练样本包括样本文本、样本问题和样本候选答案，所述样本标签包括与所述样本文本和样本问题相对应的正确答案。

样本嵌入模块702，被配置为将所述样本文本、样本问题和样本候选答案中的字单元进行嵌入处理，生成所述字单元对应的第一样本字向量。

样本标注模块703，被配置为将所述样本文本、样本问题和样本候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二样本字向量。

样本生成模块704，被配置为基于所述字单元对应的第一样本字向量和第二样本字向量，生成所述字单元对应的第三样本字向量。

样本确定模块705，被配置为将所述第三样本字向量输入至文本分析模型中进行处理，确定所述样本问题的预测答案。

模型更新模块706，被配置为将所述预测答案和所述正确答案进行对比，并基于所述预测答案和所述正确答案的对比结果，对所述文本分析模型进行更新。

可选地，所述文本分析模型的训练装置，还包括：

第三拼接模块，被配置为将所述待分析文本和所述候选答案进行拼接，生成文本答案集。

所述样本嵌入模块703，进一步地被配置为：

所述样本标注模块704，进一步地被配置为：

可选地，所述文本分析模型的训练装置，还包括：

第四拼接模块，被配置为将所述待回答问题和所述候选答案进行拼接，生成问题答案集。

所述样本嵌入模块703，进一步地被配置为：

所述样本标注模块704，进一步地被配置为：

可选地，所述样本标注模块702进一步被配置为：

基于所述语义标签，生成所述字单元对应的第二字向量。

可选地，所述样本标注模块702更进一步被配置为：

可选地，所述样本生成模块704进一步被配置为：

可选地，所述样本确定模块705进一步被配置为：

本申请提供的文本分析模型的训练装置，通过分别将样本文本、样本问题、样本候选答案和正确答案进行嵌入处理和语义标注处理，可以在字向量中融入细粒度级别的语义角色标注信息，增强文本分析模型在阅读理解中的信息提取能力，有效提高模型的训练效果。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

获取待分析文本、待回答问题和候选答案。

将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量。

将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量。

基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述文本分析方法或文本分析模型的训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本分析方法或文本分析模型的训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本分析方法或文本分析模型的训练方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本分析方法，其特征在于，包括：

获取待分析文本、待回答问题和候选答案；

2.根据权利要求1所述的文本分析方法，其特征在于，在所述获取待分析文本、待回答问题和候选答案之后，还包括：

3.根据权利要求1所述的文本分析方法，其特征在于，在所述获取待分析文本、待回答问题和候选答案之后，还包括：

4.根据权利要求1所述的文本分析方法，其特征在于，所述将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理，生成所述字单元对应的第二字向量，包括：

基于所述语义标签，生成所述字单元对应的第二字向量。

5.根据权利要求4所述的文本分析方法，其特征在于，所述基于所述语义标签，生成所述字单元对应的第二字向量，包括：

6.根据权利要求1所述的文本分析方法，其特征在于，所述基于所述字单元对应的第一字向量和第二字向量，生成所述字单元对应的第三字向量，包括：

7.根据权利要求1所述的文本分析方法，其特征在于，所述将所述第三字向量输入至文本分析模型中进行处理，在所述候选答案中确定所述待回答问题的答案，包括：

8.一种文本分析模型的训练方法，其特征在于，包括：

9.一种文本分析装置，其特征在于，包括：

10.一种文本分析模型的训练装置，其特征在于，包括：

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7或者权利要求8所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7或者权利要求8所述方法的步骤。