CN115730051A

CN115730051A - 一种文本处理方法和装置、电子设备及存储介质

Info

Publication number: CN115730051A
Application number: CN202211101836.1A
Authority: CN
Inventors: 张镛; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-03-03

Abstract

本申请实施例提供了一种文本处理方法和装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取对话文本；通过第一字段分离符进行文本拼接得到第一候选文本；根据上下文关系对第一候选文本进行文本编码得到第一素材文本；根据上下文关系对参考文本进行文本编码得到第二素材文本；通过第二字段分离符将第一素材文本与第二素材文本进行文本拼接得到第三素材文本，根据第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置；根据开始位置以及结束位置，提取并输出目标文本为目标问题的答案。本申请实施例能够从一个更加的平滑的目标函数开始拟合，避免陷入局部最低点，更好的寻找全局最优点，预测结果更为准确。

Description

一种文本处理方法和装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本处理方法和装置、电子设备及存储介质。

背景技术

对话型阅读理解又叫多轮问答阅读理解，模型需要根据当前的问题从参考文本中找到对应的答案输出，但跟一般的单轮阅读理解模型不同，大多数问题都是基于对话语境提出，即想要准确地理解当前问题的语义需要结合对话的上下文。

现有的方案往往是指代消解模型和阅读理解模型的组合，即首先会把当前的问题与历史的问答内容拼接，让模型显性地补全当前问题的语义，然后再把得到的补全的问题与参考文本拼接输入阅读理解模型进行答案生成。但是现有方案需要显性的指代消解的数据标注才可以进行训练，同时容易引起误差传播，导致预测结果不够准确。

发明内容

本申请实施例的主要目的在于提出一种不需要指代消解数据标注的指代消解，且准确率更高的文本处理方法和装置、电子设备及存储介质，旨在多轮问答阅读理解的场景中提高阅读理解模型输出的准确性。

为实现上述目的，本申请实施例的第一方面提出了一种文本处理方法，所述方法包括：

获取对话文本，所述对话文本包括当前问题、历史问答以及关键词；

将所述当前问题、所述历史问答以及所述关键词，通过第一字段分离符进行文本拼接得到第一候选文本；

根据上下文关系对所述第一候选文本进行文本编码得到第一素材文本；

获取参考文本，根据上下文关系对所述参考文本进行文本编码得到第二素材文本，所述参考文本包括目标问题；

通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置；所述目标文本为所述目标问题的答案内容；

根据所述开始位置以及所述结束位置，提取并输出所述目标文本。

在一些可行的实施例中，所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置，包括：

将所述第三素材文本输入至训练完成后的目标问答模型，输出得到所述目标文本的开始位置以及所述目标文本的结束位置；

所述目标问答模型的训练过程，包括以下步骤：

将训练文本素材进行切分得到若干训练数据集；

将若干个所述训练数据集输入至若干个待训练的候选问答模型，根据模型输出结果以及预设评价指标确定难度得分；

根据所述难度得分对所述训练数据集进行难易程度排序，得到训练集序列，通过所述训练集序列训练得到所述目标问答模型。

在一些可行的实施例中，所述获取对话文本，包括：

获取文本字典，根据所述文本字典对所述对话文本进行正则匹配，得到若干文本语句；

根据若干所述文本语句构建有向无环图，遍历所述有向无环图中每个节点的路径，根据所述路径确定得到所述关键词，并确定所述关键词的词性。

在一些可行的实施例中，所述目标问答模型的训练过程，还包括以下步骤：

获取训练文本素材中原始答案的第一起始词语以及第一结束词语；

获取目标问答模型预测得到所述目标文本的第二起始词语以及第二结束词语；

根据所述第一起始词语与第二起始词语通过交叉熵损失函数计算得到第一损失值，和/或，根据所述第一结束词语与第二结束词语通过交叉熵损失函数计算得到第二损失值；

根据所述第一损失值和/或第二损失值对所述目标问答模型进行参数调优。

在一些可行的实施例中，所述目标问答模型包括编码器和分类器；所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置，包括：

对所述第三素材文本进行分词，得到候选词，通过所述编码器将所述候选词转换为固定维度的词向量；

通过所述编码器，对所述第三素材文本中所包含的拼接语句进行向量化表示得到语句向量；

通过所述编码器，获取所述第三素材文本中所述候选词之间的位置关系；

根据所述词向量、所述语句向量以及所述位置关系，通过所述分类器输出所述候选词属于开始位置的概率或者属于结束位置的概率。

在一些可行的实施例中，所述获取对话文本，还包括：

确定所述对话文本存在所述文本字典的未登录词；

将所述未登录词输入至隐马尔科夫模型，通过所述隐马尔科夫模型输出得到起始概率、发射概率和转移概率；

根据所述起始概率、所述发射概率以及所述转移概率确定所述未登录词的词性。

在一些可行的实施例中，所述对所述第三素材文本进行分词，得到候选词，通过所述编码器将所述候选词转换为固定维度的词向量，包括：

将所述词向量进行组合得到词向量序列，在所述词向量序列的起始位置***第一标识符；所述第一标识符用于聚集所述词向量序列中词向量的表征信息。

为实现上述目的，本申请实施例的第二方面提出了一种文本处理装置，所述装置包括：

素材获取单元，用于获取对话文本，所述对话文本包括当前问题、历史问答以及关键词；

文本处理单元，用于将所述当前问题、所述历史问答以及所述关键词，通过第一字段分离符进行文本拼接得到第一候选文本；

第一编码单元，用于根据上下文关系对所述第一候选文本进行文本编码得到第一素材文本；

第二编码单元，用于获取参考文本，根据上下文关系对所述参考文本进行文本编码得到第二素材文本，所述参考文本包括目标问题；

第三编码单元，用于通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置；所述目标文本为所述目标问题的答案内容；

答案输出单元，用于根据所述开始位置以及所述结束位置，提取并输出所述目标文本。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的文本处理方法和装置、电子设备及存储介质，其中，方法首先通过与问答历史交互过的当前问题进行编码，然后通过与编码后的参考文本进行拼接，让阅读理解模型自动学***滑的目标函数开始拟合，避免陷入局部最低点，更好的寻找全局最优点，所得到预测结果更为准确。

附图说明

图1是本申请实施例提供的文本处理方法的步骤流程图；

图2是本申请实施例中模型结构示意图；

图3是本申请实施例中目标问答模型训练过程的步骤流程图；

图4是本申请实施例中目标问答模型训练过程中通过损失函数进行模型优化的步骤流程图；

图5是本申请实施例中通过训练后的目标问答模型进行预测的步骤流程图；

图6是本申请实施例中关键词的识别与词性标注的步骤流程图；

图7是本申请实施例中针对未登录词的处理步骤流程图；

图8是本申请实施例提供的文本处理装置的结构示意图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

信息抽取(Information Extraction)：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。

基于前述的背景技术或者相关原理，本申请实施例提供了一种文本处理方法和装置、电子设备及存储介质，旨在提高阅读理解模型输出结果的准确性。

本申请实施例提供的推荐方法和装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的文本处理方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的文本处理方法，涉及人工智能技术领域。本申请实施例提供的文本处理方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现文本处理方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

如前述背景技术内容所描述的，阅读理解模型，需要根据当前的问题从参考文本中找到对应的答案输出，但跟一般的单轮阅读理解模型不同，大多数问题都是基于对话语境提出，即想要准确的理解当前问题的语义需要结合对话的上下文。例如，多轮对话B：“汤姆家的猫喜欢干嘛？”；A：“汤姆家的猫很喜欢睡觉。”，B：“为什么会这样？”，B提出第二个问题中的省略了主语即上文的“猫”，“这样”指代“很喜欢睡觉”。现有的技术方案往往是指代消解模型和阅读理解的模型的组合，即首先会把当前的问题与历史的问答内容拼接，让模型显性的补全当前问题的语义，即输入B：“汤姆家的猫喜欢干嘛？”；A：“汤姆家的猫很喜欢睡觉”，B：“为什么会这样”的拼接，期望阅读理解模型输出“汤姆家的猫为什么很喜欢睡觉”。然后再把得到的补全的问题与参考本拼接输入阅读理解模型进行答案生成。这种方案需要显性的指代消解的数据标注才可以进行训练，同时容易引起误差传播。在本申请技术方案中的问题设定中只考虑抽取式问答，即模型输出的答案为参考文本中的片段。如图1所示，是本申请实施例提供的文本处理方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S106：

步骤S101，获取对话文本；其中，对话文本包括当前问题、历史问答以及关键词；

具体在实施例中，对话文本是可以包括任何交互式对话的文本内容，这一文本内容可以是在采集整理后台数据中长期存储的，或者是短期缓存的文本数据；示例性地，实施例中所采集得到一组多轮对话内容为，B：“贝蒂家的猫性格如何？”，A：“贝蒂家的猫很粘人”，B：“为什么会这样？”，这是一个三轮对话。而在这一对话文本中，当前问题可以是指“为什么会这样？”；”历史问答可以是指“贝蒂家的猫性格如何？”；“贝蒂家的猫很粘人”。在对话文本中之后，实施例可以针对文本内容进行简单的预处理，例如，对文本中的关键词进行识别与标注，其中，关键词包括但不限于对话文本中存在的动词或名词。具体在实施例中，可以通过使用三方词性标注在当前对话中的历史对话片段中标注出词性为动词和名词的词集合。

步骤S102，将当前问题、历史问答以及关键词，通过第一字段分离符进行文本拼接得到第一候选文本；

其中，第一候选文本即指通过将当前问题、历史问答以及关键词等内容进行拼接之后得到的文本。具体在实施例中，针对步骤S101中获取得到的当前问题、历史问答以及关键词(集合)内容，进行文本拼接，实施例中可以采用BERT模型中较为常用的SEP符号进行文本内容的拼接，SEP是函数的形式参数，多数情况下，SEP参数用来指定字符的分隔符号，例如，根据sep＝‘\s+’这一正则表达式，可以确定实施例中的文本内容可以通过至少一个空格符进行拼接。示例性地，实施例中文本拼接方式为当前问题通过一个SEP符号连接关键词再通过一个SEP符号连接关键词，最后通过一个SEP符号连接历史问答内容。

步骤S103，根据上下文关系对第一候选文本进行文本编码得到第一素材文本；

其中，第一素材文本具体是指通过向量化处理以及编码处理之后得到文本内容。具体在实施例中，本申请技术方案中目标构建的模型为基于双塔的统一的指代消解和阅读理解模型；其中，如图2所示，双塔结构是指模型中至少包括有两个编码器(encoder)。基于双塔结构，实施例中阅读理解模型，预测输出过程可以分为两个阶段。在第一阶段中，针对步骤S102进行文本拼接得到的候选文本进行分词编码，然后输入至一个encoder学习上下文。具体在实施例中encoder可以使用是预训练过的BERT家族编码器，BERT家族模型如Roberta，albert都适用，但实施例中仅仅只是对编码器的实现方式进行举例，并不对其实现方式进行限定。以BERT为例，模型的输入和输出都是512×768的编码，将阶段输出的embedding对应当前问题部分抽取出来，既可以得到实施例中的第一素材文本。

步骤S104，获取参考文本，根据上下文关系对参考文本进行文本编码得到第二素材文本；

其中，参考文本的内容，可以包括对话文本中的当前问题，即目标问题；此外，参考文本还可以包括其他与对话文本存在相同或者语义上存在相似的文本素材；第二素材文本是指实施例中双塔结构中的另一个encoder针对参考文本进行编码之后所得到的素材文本。具体在实施例中，第二个encoder与第一个encoder可以采用相同的结构，例如预训练过的BERT家族编码器，相类似地，模型的输入和输出都是512×768的编码，将阶段输出的embedding对应当前问题部分抽取出来，既可以得到实施例中的第二素材文本。

步骤S105，通过第二字段分离符将第一素材文本与第二素材文本进行文本拼接得到第三素材文本，根据第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置；其中，目标文本为目标问题的答案内容；

具体在实施例中，在进行答案预测第二阶段，首先需要对步骤S103所编码得到的第一素材文本以及步骤S104所编码得到的第二素材文本进行文本拼接；然后将拼接之后的素材文本通过预先训练完成的分类预测模型，例如，通过额外的一个BERT模型，在该BERT模型中拼接两个softmax线性分类器分别去计算参考文本中每个单独的词语(向量表示)属于答案开始和结束位置的概率，并且可以通过交叉熵函数进行计算损失值以对模型进行参数调优。需要说明的是，实施例中在步骤S105进行拼接的过程中，同样可以采用与S102中通过SEP符号进行拼接的方式，即通过SEP符号把第一阶段的含有当前问题编码内容和参考文本编码内容进行拼接再传入BERT模型中进行分类预测。

步骤S106，根据开始位置以及结束位置，提取并输出目标文本；

具体在实施例中，通过步骤S105中的BERT模型，将根据文本的上下文语义，通过对输入的素材文本中每个词语进行分类预测，判断其是否属于目标文本的开始位置的词语或者结束位置的词语。在确定了目标文本开始位置词语以及结束位置词语之后，输出这一目标文本内容，作为目标问题的答案。

需要补充说明的是，实施例中除BERT模型之外，所采用的语言模型可以为transformer模型、LSTM模型或者GPT-2模型等等。

以transformer模型为例，transformer模型包括编码器和解码器。该语言模型的训练过程包括：获取包含了当前问题的文本片段以及参考文本片段，并将两部分的文本片段输入至transformer模型中。通过transformer模型的编码器对文本片段进行编码处理，得到文本片段的隐藏特征向量，通过transformer模型的解码器对样文本片段隐藏特征向量进行解码处理，使得样文本片段隐藏特征向量与参考词向量进行矩阵相乘，得到文本描述词段。通过transformer模型的损失函数计算文本描述词段与参考视频描述词段的相似度，根据相似度对transformer模型的损失函数进行优化，对损失函数的模型损失进行反向传播，不断地调整模型参数，直至相似度大于或者等于相似度阈值，停止对transformer模型的优化，得到符合要求的语言模型。

在实施例中，如图3所示，方法中通过第二字段分离符将第一素材文本与第二素材文本进行文本拼接得到第三素材文本，根据第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置这一步骤S104，其包括步骤S1041：

将第三素材文本输入至训练完成后的目标问答模型，确定目标文本的开始位置以及目标文本的结束位置；

具体在实施例中，将拼接之后的素材文本通过预先训练完成的分类预测模型然后预测输出目标答案的开始位置以及结束位置。而在实施例中，为了有效提高了模型的训练的效率和模型的鲁棒性，避免数据噪声和困难样本造成模型的欠拟合，实施例中对该目标问答模型的训练过程，可以包括步骤S10411-S10413：

S10411、将训练文本素材进行切分得到若干训练数据集；

具体在实施例中，最终构建并训练完成得到的目标问答模型为抽取式问答模型；例如，即直接把历史文本数据中的当前问题和参考文本进行拼接，输入基于BERT模型所构建的问答抽取模型进行训练。其中历史文本数据作为训练数据，其预处理以及拼接方式与前述步骤S102-S103中的处理方式相同，在此不进行赘述。实施例中针对整合得到的所有训练数据，实施例将其划分为若干个训练数据集，例如，实施例中，对数据进行切分成十份，每一份训练数据集单独训练一个模型。

S10412、将若干个训练数据集输入至若干个待训练的候选问答模型，根据模型输出结果以及预设评价指标确定难度得分；

具体在实施例中，通过步骤S10411将训练数据划分为若干个训练数据集，以10个训练数据集为例，实施例中，以训练数据集为sample，对于每个sample，通过非对应的其他N-1个模型分别推理，即得到N-1个结果，把所有结果看作是一个数据集按字符级别的F1值进行标准化得到这个数据sample的难度得分；其中，F1值是统计学中用来衡量二分类模型精确度的一种指标，同时兼顾了分类模型的精确率和召回率；并且，F1分数可以看作是模型精确率和召回率的一种调和平均。

S10413、根据难度得分对训练数据集进行难易程度排序，得到训练集序列，通过训练集序列训练候选问答模型得到目标问答模型；

具体在实施例中，通过步骤S10412对于每个sample，通过其他N-1个模型分别推理，即得到N-1个结果，把所有结果看作是一个数据集按字符级别的F1值进行打分得到这个数据sample的难度得分，把最终的难度按升序排列进行从易到难的训练以及训练集序列。实施例中可以将训练集序列中的训练数据集有序地从简单到困难喂给目标问答模型，能够有效提高模型的训练的效率和模型的鲁棒性，避免数据噪声和困难样本造成模型的欠拟合。

如图4所示，在一些可行的实施方式中，目标问答模型的训练过程，其还可以包括步骤S10414-S10416：

S10414、获取训练文本素材中原始答案的第一起始词语以及第一结束词语；

具体实施例对目标问答模型进行训练过程中，为了能够使得最终得到的目标问答模型的预测结果更为准确，可以通过计算训练过程中模型的预测值以及与输入模型的训练文本素材中的原始答案之间的损失值，通过使得损失值不断收敛的过程，对训练阶段的目标问答模型进行参数的优化。在损失值计算的过程中，首先需要获取训练文本素材中原始答案的起始位置的词语以及结束位置的词语。

S10415、获取目标问答模型预测得到目标文本的第二起始词语以及第二结束词语；

其次，实施例将收集训练阶段中，模型预测输出得到的答案起始位置的词语以及结束位置的词语。

S10416、根据第一起始词语与第二起始词语通过交叉熵损失函数计算得到第一损失值，和/或，根据第一结束词语与第二结束词语通过交叉熵损失函数计算得到第二损失值；

S10417、根据第一损失值和/或第二损失值对目标问答模型进行参数调优；

具体在实施例中，实施例采用交叉熵损失函数计算起始词语之间以及结束词语之间的损失值；实施例中，训练文本素材中的起始位置的词语以及结束位置的词语已经通过标签标注的方式确定，那么，原始(真实)答案的词语位置的概率分布P(x)也已经确定，所以信息熵为常量；在交叉熵的计算过程中，通过相对熵来表示真实概率分布P(x)与预测概率分布Q(x)之间的差异，值越小表示预测的结果越好，所以需要最小化相对熵，而交叉熵等于相对熵加上一个常量(信息熵)，所以通过交叉熵计算模型训练过程的损失值，并根据所计算的得到损失值对模型进行参数调整，直至损失值收敛，得到最终的目标问答模型(参数)，能够达到提高预测过程中的运算效率以及准确性的效果。

根据步骤S10411-S10416训练得到目标问答模型，其主要可以包括两个核心功能结构：编码器和分类器。以BRET模型为基础所构建的目标问答模型，在其编码层通过输入送入模型的token embedding层，即编码层从而将每一个词转换成向量形式，得到每个词语编码后的向量化表示Token；在这BERT的输出端会拼接两个softmax线性分类器分别去计算参考文本中每个token属于答案开始和结束位置的概率。进而，实施例中目标问答模型包括编码器和分类器；如图5所示，述通过第二字段分离符将第一素材文本与第二素材文本进行文本拼接得到第三素材文本，根据第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置可以包括步骤S1042-S1045：

S1042、对第三素材文本进行分词，得到候选词，通过编码器将候选词转换为固定维度的词向量；

具体在实施例中，BERT将输入文本，即第三素材文本进行分词处理得到若干候选词，第三素材文本中的每一个候选词(token)送入token embedding层从而将每一个词转换成向量形式。更为具体地，目标问答模型中的token embedding层是要将各个词转换成固定维度的向量。在实施例的目标问答模型中，每个词会被转换成768维的向量表示。输入文本在送入token embeddings层之前要先进行tokenization处理。此外，另一个特殊的token会被***到tokenization的结果的开头([CLS])，其可以视为后面的分类任务和划分句子对服务的。

S1043、通过编码器，对第三素材文本中所包含的拼接语句进行向量化表示得到语句向量；

具体在实施例中，目标问答模型中的编码器除token embeddings层之外，还包括两个嵌入层，segment embeddings层和position embeddings层。其中，目标问答模型能够处理对输入的凭借文本素材进行目标答案(词语位置)的分类预测，其任务就像判断拼接中的第一文本素材与第二文本素材是否是语义相似。Segment Embeddings层只有两种向量表示。前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token。

S1044、通过编码器，获取第三素材文本中候选词之间的位置关系；

具体在实施例中，加入position embeddings会让目标问答模型理解如下语句“我思故我在”第一个“我”和第二个“我”应该有着不同的向量表示。BERT能够处理最长512个token的输入序列。实施例通过让目标问答模型在各个位置上学习一个向量表示来获取序列顺序的信息编码的输入。

S1045、据词向量、语句向量以及位置关系，通过分类器输出候选词属于开始位置的概率或者属于结束位置的概率。

具体在实施例中，通过Token Embeddings输出得到(1,n,768)的词向量表示；Segment Embeddings层输出辅助模型区别句子对中的两个句子的(1,n,768)向量表示；Position Embeddings层输出(1,n,768)位置向量，让模型学习到输入的顺序属性。三者的输出按元素相加，得到一个大小为(1,n,768)的合成表示。然后执行BERT模型中原有的Masked Language Model任务以及Next Sentence Prediction任务，将任务输出结果中得到开始位置候选词(向量表示)以及结束位置候选词(向量表示)。并通过softmax层输出得到对应的概率。

在一些可行的实施例中，方法中对第三素材文本进行分词，得到候选词，通过编码器将候选词转换为固定维度的词向量这一步骤S1041，其还可以包括标识符***的处理过程：即将词向量进行组合得到词向量序列，在词向量序列的起始位置***第一标识符；第一标识符用于聚集词向量序列中词向量的表征信息；

具体在实施例中，为了完成具体的分类任务，除了单词的token之外，作者还在输入的每一个序列开头都***特定的分类token([CLS])，该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用。

如图6所示，在一些可行的实施例中，由于步骤S101中所获取的对话文本中可以包含当前问题、历史问答以及关键词等内容，因此，在获取对话文本之后，针对文本中所包含的关键词需要进行必要的识别提取以及词性标注等处理，其处理的过程可以包括步骤S1011-S1012：

S1011、获取文本字典，根据文本字典对对话文本进行正则匹配，得到若干文本语句；

具体在实施例中，可以基于字符串匹配的字典查找算法和基于统计的算法完整关键词的识别以及词性标注。以通过jieba分词实现词性标注的过程为例，实施例中首先初始化字典，将语句转为UTF-8或者GBK，根据正则匹配，将输入文本分隔成一个个语句。

S1012、根据若干文本语句构建有向无环图，遍历有向无环图中每个节点的路径，根据路径确定得到关键词，并确定关键词的词性；

具体在实施例中，基于步骤S1011所分隔形成的语句，首先构建语句的有向无环图DAG，然后动态规划构建Route，计算从语句末尾到语句起始，DAG中每个节点到语句结束位置的最大路径概率，以及概率最大时节点对应词语的结束位置，遍历每个节点的Route，组装词语组合，对每个语句进行单独分词和词性标注。

在一些可能的实施场景中，在步骤S101中所获取的对话文本中可能存在字典缺乏记录的未登录词，如图7所示，针对此类未登录词，实施例中可以使用HMM隐马尔科夫模型处理，处理过程包括S1013-S1015：

S1013、确定对话文本存在文本字典的未登录词；

具体在实施例中，在S1012进行遍历的过程中确定如果词语不在字典中，即未登录词，使用HMM隐马尔科夫模型进行分割。

S1014、将未登录词输入至隐马尔科夫模型，通过隐马尔科夫模型输出得到起始概率、发射概率和转移概率；

具体在实施例中，可以通过viterbi算法，通过大规模语料统计，得到起始概率start_p、发射概率emit_p和转移概率trans_p。具体在实施例的算法实现中，分别对应prob_start.py prob_emit.py和prob_trans.py三个文件，他们给出了词语在BEMS四种情况下，每种词性对应的概率。

S1015、根据起始概率、发射概率以及转移概率确定未登录词的词性；

具体在实施例中，然后使用viterbi算法，利用得到的三个概率，将观测序列(分词后的语句)转化得到隐藏序列(词性标注序列)。如此，实施例完成了未登录词的词性标注。

结合说明书附图2，对本申请技术方案的具体实施过程进行详细地描述：

针对某基于对话的人机交互场景中，实施例首先使用三方词性标注在当前对话中的历史对话片段中标注出词性为动词和名词的词集合，使用SEP符号对当前问题，关键词和历史问答段进行拼接先分词编码，然后输入ENCODER学习上下文，ENCODER可以使用是预训练过的BERT家族编码器，可以但不限于是BERT，利用在大规模预料中预训练过的模型可以充分让文本进行交互。以BERT为例，模型的输入和输出都是512*768的编码，实施例将阶段输出的embedding对应当前问题部分抽取出来。对于参考文本，实施例也用BERT进行编码生成对应长度的文本编码。

在第二阶段实施例利用SEP符号把第一阶段学会的当前问题编码和参考文本编码进行拼接传入额外的一个BERT中进行交互，在这BERT的输出端会拼接两个softmax线性分类器分别去计算参考文本中每个token属于答案开始和结束位置的概率，以交叉熵函数进行计算。

而在第二阶段中所运用的BERT模型，其训练过程如下：将训练数据中，当前问题和参考文本进行拼接，输入至BERT的问答抽取模型进行训练。其中，对训练数据进行切分成十份，每一份单独训练一个模型，对于每个sample，用非对应的其他N-1个模型分别推理，即得到N-1个结果，把所有结果看作是一个数据集按字符级别的F1值进行打分得到这个数据sample的难度得分，把最终的难度按升序排列进行从易到难的训练。

请参阅图8，本申请实施例还提供一种文本处理装置，可以实现上述文本处理方法，该装置包括：

素材获取单元，用于获取对话文本，对话文本包括当前问题、历史问答以及关键词；

文本处理单元，用于将当前问题、历史问答以及关键词，通过第一字段分离符进行文本拼接得到第一候选文本；

第一编码单元，用于根据上下文关系对第一候选文本进行文本编码得到第一素材文本；

第二编码单元，用于获取参考文本，根据上下文关系对参考文本进行文本编码得到第二素材文本，所述参考文本包括目标问题；

第三编码单元，用于通过第二字段分离符将第一素材文本与第二素材文本进行文本拼接得到第三素材文本，根据第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置；所述目标文本为所述目标问题的答案内容；

答案输出单元，用于根据开始位置以及结束位置，提取并输出目标文本。

该文本处理装置的具体实施方式与上述文本处理方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述文本处理方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器902，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器902可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本申请实施例的文本处理方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述文本处理方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的文本处理方法、文本处理装置、电子设备及存储介质，其通过与问答历史交互过的当前问题进行编码，然后通过与编码后的参考文本进行拼接，让阅读理解模型自动学***滑的目标函数开始拟合，避免陷入局部最低点，更好的寻找全局最优点。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文本处理方法，其特征在于，所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置，包括：

将所述第三素材文本输入至训练完成后的目标问答模型，确定所述目标文本的开始位置以及所述目标文本的结束位置；

所述目标问答模型的训练过程，包括以下步骤：

将训练文本素材进行切分得到若干训练数据集；

3.根据权利要求1所述的文本处理方法，其特征在于，所述获取对话文本，包括：

4.根据权利要求2所述的文本处理方法，其特征在于，所述目标问答模型的训练过程，还包括以下步骤：

获取所述训练文本素材中原始答案的第一起始词语以及第一结束词语；

5.根据权利要求2所述的文本处理方法，其特征在于，所述目标问答模型包括编码器和分类器；所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置，包括：

通过所述编码器，对所述第三素材文本进行向量化表示得到语句向量；

6.根据权利要求3所述的文本处理方法，其特征在于，所述获取对话文本，还包括：

确定所述对话文本存在所述文本字典的未登录词；

7.根据权利要求5所述的文本处理方法，其特征在于，所述对所述第三素材文本进行分词，得到候选词，通过所述编码器将所述候选词转换为固定维度的词向量，包括：

8.一种文本处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文本处理方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本处理方法。