CN114547301A

CN114547301A - 文档处理、识别模型训练方法、装置、设备及存储介质

Info

Publication number: CN114547301A
Application number: CN202210159137.6A
Authority: CN
Inventors: 李硕; 陈禹燊; 韩光耀
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-27

Abstract

本公开提供一种文档处理、识别模型训练方法、装置、设备及存储介质，涉及数据处理技术领域，尤其涉及深度学习、自然语言处理、深度搜索技术领域。其中，文档处理方法包括：对获取到的待处理文档进行处理，得到待处理文档中的识别对象集合，根据该识别对象集合中对象类别包括的识别对象的识别得分，确定待处理文档的识别结果。识别模型训练方法包括：将获取到的文本样本集的文本样本输入到预设网络，得到该文本样本的对象识别结果，进而结合该文本样本携带的对象标注信息，调整预设网络的参数，得到对象识别模型。该技术方案可以准确的识别出文档中的对象类别以及对象类别对应的识别对象，提高了文档的信息抽取效果。

Description

文档处理、识别模型训练方法、装置、设备及存储介质

技术领域

本公开涉及数据处理中的深度学习、自然语言处理、深度搜索技术领域，尤其涉及一种文档处理、识别模型训练方法、装置、设备及存储介质。

背景技术

文档智能是指计算机自动阅读理解及分析文档的过程，深度学习技术的普及极大地推动了以文档信息抽取为代表的文档智能领域的发展。文档信息抽取是指从文档中识别或抽取关键信息。

相关技术中，文档信息的抽取方法主要使用命名实体识别(named entityrecognition，NER)方案和机器阅读理解(machine reading comprehension，MRC)方式从文档中抽取关键信息。但是，上述方法对处理的文档长度有要求，而且在文档中存在实体嵌套时可能存在训练和预测结果不一致的现象，导致信息抽取效果差。

发明内容

本公开提供了一种文档处理、识别模型训练方法、装置、设备及存储介质。

根据本公开的第一方面，提供了一种文档处理方法，包括：

获取待处理文档；

对所述待处理文档进行处理，得到所述待处理文档中的识别对象集合，所述识别对象集合包括：对象类别、所述对象类别包括的识别对象以及所述识别对象的识别得分；

根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分，确定所述待处理文档的识别结果。

根据本公开的第二方面，提供了一种识别模型训练方法，包括：

获取文本样本集，所述文本样本集中的文本样本携带有对象标注信息；

将所述文本样本集中的文本样本输入到预设网络，得到所述文本样本的对象识别结果，所述对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的；

根据所述文本样本携带的对象标注信息和所述文本样本的对象识别结果，调整所述预设网络的参数，得到对象识别模型。

根据本公开的第三方面，提供了一种文档处理装置，包括：

获取单元，用于获取待处理文档；

处理单元，用于对所述待处理文档进行处理，得到所述待处理文档中的识别对象集合，所述识别对象集合包括：对象类别、所述对象类别包括的识别对象以及所述识别对象的识别得分；

确定单元，用于根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分，确定所述待处理文档的识别结果。

根据本公开的第四方面，提供了一种识别模型训练装置，包括：

获取单元，用于获取文本样本集，所述文本样本集中的文本样本携带有对象标注信息；

处理单元，用于将所述文本样本集中的文本样本输入到预设网络，得到所述文本样本的对象识别结果，所述对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的；

调整单元，根据所述文本样本携带的对象标注信息和所述文本样本的对象识别结果，调整所述预设网络的参数，得到对象识别模型。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法，或者，执行第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法，或者，执行第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法，或者执行第二方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种应用场景的示意图；

图2是本公开第一实施例提供的文档处理方法的流程示意图；

图3是本公开第二实施例提供的文档处理方法的流程示意图；

图4是本公开第三实施例提供的文档处理方法的流程示意图；

图5是本公开第一实施例提供的识别模型训练方法的流程示意图；

图6是本公开第二实施例提供的识别模型训练方法的流程示意图；

图7是本公开第三实施例提供的识别模型训练方法的流程示意图；

图8是本公开实施例提供的一种架构示意图；

图9是纯文本文档进行拆分处理、处理的流程示意图；

图10是本公开实施例提供的一种文档处理装置的结构示意图；

图11是本公开实施例提供的一种识别模型训练装置的结构示意图；

图12示出了用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现阶段，对于文档信息的抽取，例如，word文档、PDF文档、文本文档的信息抽取，业界通常采用NER方案以及MRC方式从文档中抽取关键信息。但是通常主流的信息抽取都是致力于处理篇幅较短的文档，例如：基于转换器的双向编码表征(bidirectional encoderrepresentations from transformers，BERT)一般处理的最大令牌(Token)数为512，对Token数量成千上万或者篇幅几十上百页的文档数据(例如，Word文档)束手无策。而且，真实的文档数据，不仅具有篇幅长的特点，而且还有版式多、文章结构复杂等特点，这些文档特点都给信息抽取带来了挑战。其中，BERT是一个预训练的语言表征模型。

相关技术的深度学习中，通常采用扩展位置编码的方法抽取长文本的关键信息，比如：使用相对位置编码代替绝对位置编码或者旋转式位置编码(rotary positionembedding，RoPE)把BERT等模型能处理的token数从512的限制拓展到很长的序列。该种方法的好处是：在模型输入的时候，可以传入超长的文本(word文档的全部文本信息)，进行编码处理；缺点是：输入文本长度的增加，意味着训练和推理的时候处理(显卡)资源的消耗也会急剧增加，而且，对于超长的文本，模型无法捕捉到极大跨度的上下文语义，导致抽取效果差。

示例性的，相关技术中使用的NER任务做实体抽取会存在训练和预测不一致的问题。例如，NER任务做实体抽取会使用BIO标记方法。BIO标注方法是指将每个元素标注为“B-X”、“I-X”或者“O”，其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。也即，在使用NER任务做实体抽取时，对于一种实体，标记每个字符为B、I、O三种中的一种，然后在模型训练阶段优化每个实体的字符被分为B和I的概率，使其最大；但是模型在预测和评估的时候，需要对实体的维度进行评估，即：计算该实体是否被识别出来、是否识别准确，然后计算多个评价指标，例如，准确率(Accuracy)，精确率(precision)，召回率(recall)和F1值等。于是存在一个问题，那就是，模型在字符级别的训练优化，但在实体级别的评估，会存在训练和预测不一致的问题。

其中，评价指标中的准确率(Accuracy)定位为:对于给定的测试数据集，分类器正确分类的样本数与总样本数之比；精确率(precision)是所有"正确被检索项(TP)"占所有"实际被检索到的项(正确检索项(TP)+错误检索项(FP))"的比例；召回率(recall)是所有"正确被检索项(TP)"占所有"应该检索到的项(TP+FN)"的比例；F1值＝正确率*召回率*2/(正确率+召回率)。

示例性的，BIO标记方法无法解决实体嵌套的问题。比如：嵌套有“地名”和“机构名”两个实体的“xx大学”，其中，“xx”属于地名，“xx大学”属于机构名，在抽取过程中需要同时识别“xx”和“xx大学”，但是模型训练之前进行标注时，只能将其标注为一种形式，即，要么标注成：

[B-Location,I-Location,O,O]，要么标注成：[B-Organization,I-Organization,I-Organization,I-Organization]。因而，一个标注序列无法抽取出“地名”和“机构名”，故存在无法解决实体嵌套的问题。

此外，在相关技术中，通常使用MRC方式做实体抽取或者问答时，如：对于文本(text)，会有一个问题(或者叫query、question)，然后，会对这个question作出一个回答(answer)，这个answer就是目标实体，是存在于text中的一个或多个子序列，其本质是使用了指针网络(Pointer Network)，即：一般需要用两个模块分别识别实体首尾的索引(index)，同理，在预测时，也是实体级别的预测，同样会存在训练和预测不一致的问题。

针对上述技术问题，本公开技术方案的技术构思过程如下：发明人发现：使用NER任务或者MRC任务做实体抽取，都会在一定程度上面临训练和预测的不一致性，这主要是由于一个标注序列无法同时标注多个实体而造成的无法解决实体嵌套的问题，因而，本公开实施例在文档处理的过程中，可以确定出待处理文档中的对象类别、对象类别包括的识别对象以及识别对象的识别得分，从而基于识别对象的识别得分确定出对象类别包括的识别对象，该方法针对每个对象类别都能得到较高的精确率，此外，由于训练、推理任务的一致性，召回率指标也得到了极大提高，提高了信息抽取效果。

基于上述构思过程，本公开的实施例提供了一种文档处理方法，通过对获取的待处理文档进行处理，得到待处理文档中的识别对象集合，识别对象集合包括：对象类别、对象类别包括的识别对象以及识别对象的识别得分，根据识别对象集合中对象类别包括的识别对象以及识别对象的识别得分，确定待处理文档的识别结果，提高了信息处理结果。

进一步的，本公开实施例还提供了一种识别模型训练方法，通过获取文本样本集，该文本样本集中的文本样本携带有对象标注信息，将文本样本集中的文本样本输入到预设网络，得到文本样本的对象识别结果，且该对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的，根据文本样本携带的对象标注信息和所述文本样本的对象识别结果，调整预设网络的参数，得到对象识别模型，解决了训练和预测不一致的问题。

可理解，在本公开的实施例中，“对象识别模型”也称“模型”，可以接收待处理文档，并根据接收的待处理文档和当前的模型参数确定待处理文档中的识别对象集合。可选的，该对象识别模型可以是回归模型、神经网络(artificial neural network，ANN)、深度神经网络(deep neural network，DNN)、支持向量机(support vector machine，SVM)或其他的机器学习模型等。本公开实施例并不对其进行限定。

示例性的，图1是本公开实施例提供的一种应用场景的示意图。如图1所示，该应用场景可以包括：两个阶段；其中：

第一阶段为识别模型的训练阶段。

在识别模型的训练阶段中，对象识别模型是用于识别待处理文档所包括的对象类别、对象类别包括的识别对象以及识别对象的识别得分的模型。在本公开应用的场景中，通过将文本样本集中的文本样本输入到预设网络，基于该文本样本的对象识别结果和文本样本携带的对象标注信息，对预设网络进行训练，得到对象识别模型。

可选的，本公开实施例中的文本样本是经过分割处理后的文本，文本样本的标注采用保证对象上下文语境的标注方法，能够保证训练和后续应用时的一致性。

示例性的，在本公开的实施例中，参见图1，训练设备可以从N个文档库获取文档集合，然后从文档集合中提取出至少一篇文档，并经过分割得到文本集，随后获取针对文本集中的文本进行对象标注后形成的文本样本集，再利用预设网络对文本样本集中的文本样本进行对象识别，得到文本样本的对象识别结果，最后根据文本样本携带的对象标注信息和该文本样本的对象识别结果，调整预设网络的参数，得到对象识别模型。

第二阶段为利用对象识别模型进行对象识别的阶段。

在利用对象识别模型进行对象识别的阶段中，继续参见图1，上述第一阶段训练得到的对象识别模型可以加载到处理设备中。处理设备利用对象识别模型对待处理文档进行处理。可选的，处理设备也可以称为智能设备。

示例性的，将待处理文档输入至处理设备进行处理，得到待处理文档中的识别对象集合，该识别对象集合包括：对象类别、对象类别包括识别对象以及识别对象的识别得分，并根据该识别对象集合中对象类别包括的识别对象以及识别对象的识别得分，确定待处理文档的识别结果。

可理解，本公开的实施例不限定识别对象集合包括的对象类别数量以及每个对象类别包括的识别对象个数，其可以根据实际场景确定，例如，对象类别数量以及每个对象类别包括的识别对象个数均可以是至少一个。

需要说明的是，图1仅是本公开实施例提供的一种应用场景示意图，本公开实施例并不限定应用场景中包括的具体设备，例如，该应用场景中还可以包括：文档解析设备、存储设备等。

示例性的，在图1所示的应用场景中，文档解析设备可以基于接收到的解析指令对获取到的非文本文档进行解析，并将解析得到的文本文档传输至处理设备进行处理，得到文本文档的识别结果。

可选的，本实施例中的存储设备可以是用于存储识别结果，其可以是一个独立的设备，也可以集成在处理平台中。

可理解，图1中所示设备之间的位置关系不构成任何限制，例如，应用场景还包括存储设备时，存储设备相对训练设备或处理设备可以是外部存储器，在其它情况下，也可以将存储设备置于处理设备中。

还需要说明的是，本公开实施例中训练设备和处理设备可以是同一设备，或者不同设备。训练设备和/或处理设备可以是终端设备，该终端设备包括但不限于：智能手机、笔记本电脑、台式电脑、平台电脑、车载设备、智能穿戴设备等，也可以是服务器或者虚拟机等，还可以是一个或多个服务器和/或计算机等组成的分布式计算机***等，本公开实施例不作限定。其中，服务器可以为普通服务器或者云服务器，云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

值得说明的是，本公开的产品实现形态是包含在机器学***台软件中，并部署在服务器(也可以是计算云或移动终端等具有计算能力的硬件)上的程序代码。在图1所示的***结构图中，本公开的程序代码可以存储在处理设备和训练设备内部。运行时，程序代码运行于服务器的主机内存和/或GPU内存。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

需要说明的是，本实施例中的对象识别模型并不是针对某一特定对象的识别模型，并不能反映出某一特定对象的信息；而且，本实施例中的待处理文档或文本样本集来自于公开数据集。

本公开实施例提供了一种文档处理、识别模型训练方法、装置、设备及存储介质，应用于数据处理中的深度学习、自然语言处理、深度搜索技术领域，以提高文档信息抽取的效果。

本公开实施例中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面，通过具体实施例对本公开的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

示例性的，下面首先结合几个具体的实施例对文档处理过程进行详细描述。

图2是本公开第一实施例提供的文档处理方法的流程示意图。本实施例的方法可以由图1中的处理设备执行，也可以由处理设备中的处理器执行。本实施例中以处理设备执行该方法进行说明。如图2所示，本实施例提供的文档处理方法可以包括：

S201、获取待处理文档。

示例性的，处理设备可以接收来自于其他设备传输的待处理文档，也可以从自身存储的文档库中读取待处理文档(此时，处理设备中部署有文档库)，还可以基于自身具有的文档组件生成待处理文档。本公开实施例并不限定待处理文档的获取过程，其可以根据实际场景确定。

S202、对待处理文档进行处理，得到待处理文档中的识别对象集合，该识别对象集合包括：对象类别、对象类别包括的识别对象以及该识别对象的识别得分。

在本实施例中，处理设备具有文档处理的功能，例如，文档解析、文本序列化、文本类别识别、文本对象识别等等多种功能。本实施例并不对处理设备具有的功能进行限定。

示例性的，在待处理文档为长度小于处理设备能够处理的长度，且待处理设备为文本文档时，处理设备可以利用自身加载的对象识别模型对待处理文档进行处理，得到待处理文档中的识别对象集合。

可选的，在待处理文档的文本中存在对象类别，且该对象类别包括识别对象时，处理设备可以识别出待处理文档中的至少一个对象类别、至少一个对象类别包括的至少一个识别对象以及至少一个识别对象的识别得分。

S203、根据识别对象集合中对象类别包括的识别对象以及该识别对象的识别得分，确定待处理文档的识别结果。

在公开的实施例中，针对识别对象集合中的对象类别，可以基于该对象类别包括的识别对象的识别得分，确定出该对象类别的最终识别对象。

示例性的，在识别对象集合包括的对象类别为多个时，处理设备针对多个对象类别中的至少一个对象类别，可以对比该对象类别中所有识别对象的得分，基于所有识别对象的得分情况，确定该对象类别的最终识别对象。

本公开的实施例中，通过对获取到的待处理文档进行处理，得到待处理文档中的识别对象集合，该识别对象集合包括：对象类别、对象类别包括的识别对象以及该识别对象的识别得分，根据识别对象集合中对象类别包括的识别对象以及识别对象的识别得分，确定待处理文档的识别结果，该技术方案可以准确的识别出对象类别中的识别对象，提高了文档的信息抽取效果。

在图2所示实施例的基础上，下述对本公开实施例提供的文档处理方法进行更详细的介绍。

示例性的，图3是本公开第二实施例提供的文档处理方法的流程示意图。如图3所示，在本公开的实施例中，上述S202可以通过如下步骤实现：

S301、对待处理文档对应的文本序列进行拆分，得到至少一条待处理文本。

示例性的，通过对待处理文档进行序列化处理后，可以得到待处理文档对应的文本序列。为了解决常规信息抽取方案存在的能够处理的最大序列数会受到限制的问题，在本实施例中，若文本序列的长度大于处理设备能够处理的最长序列，则处理设备可以对该文本序列进行拆分，得到至少一条待处理文本。

在本实施例的一种可能设计中，可以基于预置的滑窗长度和滑动步长，对待处理文档对应的文本序列进行拆分，得到至少一条待处理文本。

其中，滑窗长度大于或等于滑动步长。

示例性的，本实施例采用滑窗的思想，可以将长度超过处理设备能够处理的最大序列数的文本拆分成较短长度的待处理文本，然后进行对象识别，就是能对超长的文本(数百页数万字符的word文档)进行处理，极大的提高可识别性能。

示例性的，本公开的实施例对该待处理文档对应的文本序列(长序列)进行滑窗，拆分成多个待处理文本。例如，以长度为10000的word纯文本为例，可以设置滑窗长度为512，滑动步长为384，则对从位置为0开始直到位置为9999的序列进行滑窗处理，将长度为10000的word纯文本序列拆分成一个个滑窗长度为512的多个待处理文本，约能得到10000/384≈26个待处理文本。

S302、将至少一条待处理文本输入到预先训练的对象识别模型，确定该待处理文档中的识别对象集合。

其中，该对象识别模型的训练原理包括：基于转换器的双向编码表征(BERT)和全局指针(GlobalPointer)。

在本公开的实施例中，处理设备上部署或加载有预先训练的对象识别模型。在本实施例的一种可能设计中，在处理设备获取到待处理文档后，若待处理文档为文本文档且该文本文档的文本序列长度满足要求，则可以将待处理文档输入到该对象识别模型中，从而可以直接输出待处理文档对应的识别对象集合。

在本实施例的一种示例中，在待处理文档对应的文本序列不满足要求，则通过上述S301的拆分处理得到至少一条待处理文本后，便可以将所述至少一条待处理文本分别输入到该对象识别模型中，输出所述至少一条待处理文本对应的识别对象集合。

可理解，在本实施例中，为了解决对象嵌套(实体嵌套)、训练和应用不一致的问题，本实施例中对象识别模型在训练时，采用了BERT和GlobalPointer的组合形式进行对象识别，其将每个对象类别的首尾视为一个整体进行判别，因而更具有全局观(更Global)。

具体来说，假设某个待处理文本的文本序列长度为n，简单起见，可以假定该待处理文本中只有一种对象要识别，并且假定每个待识别对象是该文本序列的一个连续片段，长度不限，并且可以相互嵌套(两个不同识别对象之间有交集)，那么可以得出该序列“候选识别对象”的个数是：n(n+1)/2个，即长度为n的文本序列有n(n+1)/2个不同的连续子序列，这些子序列包含了所有可能的对象，此时，处理设备要做的就是从这n(n+1)/2个“候选识别对象”里边挑出真正的对象，其实就是一个“n(n+1)/2选k”的多标签分类问题。如果该待处理文本中有m种对象类别需要识别，那么就做成m个“n(n+1)/2选k”的多标签分类问题。这就是GlobalPointer模块的基本思想，以对象为基本单位进行判别。

在本公开的实施例中，通过对待处理文档对应的文本序列进行拆分，得到至少一条待处理文本，将至少一条待处理文本输入到预先训练的对象识别模型，确定该待处理文档中的识别对象集合，由于该对象识别模型的训练原理包括：BERT和GlobalPointer，因而，可以解决识别对象嵌套、训练和应用不一致的问题，提高对象识别模型的识别精度。

可选的，在本实施例中，可以将至少一条待处理文本输入对应的对象识别模型，由于该模型可以独立预测待处理样本，所以，可以并行化处理，极大提升模型推理效率。

可选的，在本公开的实施例中，如图3所示，在步骤S202之前，也即在步骤S301之前，该文档处理方法还可以包括如下步骤：

S300a、确定待处理文档是否为纯文本文档；若是，则先执行S300c，再执行S301；若否，先执行S300b和S300c，再执行S301。

在本公开的实施例中，由于预先训练的对象识别模型是基于文本序列进行训练得到的，因而，处理设备获取到待处理文档后，首先判断待处理文本是否为纯文本文档，再基于判断结果执行后续操作。

S300b、对待处理文档进行解析，得到待处理文档对应的纯文本文档。

在一种示例中，响应于待处理文档为非纯文本文档，对待处理文档进行解析，得到待处理文档对应的纯文本文档。

例如，待处理文档为Word文档，则可以使用开源模块python-docx读取word文档，得到Document对象，然后获取其中Paragraph对象中的text属性，将其所有的text拼接为一个长文本字符串，得到该Word文档对应的纯文本文档。

可理解，document对象，可以解释为文件对象，其是一种计算机术语，指的是HTML文件中的一种对象。段落对象(Paragraph对象)代表所选内容、范围或文档中的一个段落。Paragraph对象是Paragraphs集合的一个成员，Paragraphs集合包含所选内容、范围或文档中的所有段落。

S300c、对纯文本文档进行处理，得到待处理文档对应的文本序列。

示例性的，在待处理文档为纯文本文档或者经过对非纯文本文档的待处理文档进行解析，得到待处理文档对应的纯文本文档后，处理设备可以对纯文本文档进行空格符号清洗等操作。

例如，处理设备可以针对word文档类进行空格符号清洗：将所有的\n、\t、\r、空格以及字符编码(Unicode)类别为Zs的字符(分隔符、空白)，统一替换为一个空格，再将连续的多个空格，替换为一个空格，即实现了对文本文档的清洗操作，得到了待处理文档对应的文本序列。

本公开实施例中，通过对待处理文档进行处理，从而得到纯文本文档对应的文本序列，然后再对其进行拆分，得到至少一条待处理文本，最后将至少一条待处理文本输入到预先训练的对象识别模型，确定待处理文档中的识别对象集合。该技术方案中通过对待处理文档进行处理，能够在一定程度上保证输入到对象识别模型的待处理文本的有效性，从而提高了信息处理效果。

示例性的，图4是本公开第三实施例提供的文档处理方法的流程示意图。如图4所示，在本公开的实施例中，上述S203可以通过如下步骤实现：

S401、确定对象类别包括的识别对象个数。

示例性的，将待处理文档包括的至少一条待处理文本输入到对象识别模型进行识别，可以得到一个识别对象集合，即，识别对象集合包括的对象类别以及该对象类别包括的至少一个识别对象以及GlobalPointer针对每个识别对象的预测分数(本实施例中称为识别得分)。此时，可以首先确定该对象类别包括的识别对象个数。

示例性的，假设针对某个学校的某篇公告文档进行处理，可以得到两个对象类别，分别是“公告机构”和“公告地点”。而且，“公告机构”和“公告地点”包括的识别对象和识别得分分别如下：

[{“公告机构”:

{“一年级二年级三年级四年级五年级”:0.98，

“学务处”：0.18}，

“医疗室”：0.09}，

{“公告地点”：

{“黑板报”：0.78}}]。

S402、响应于该对象类别包括至少两个识别对象，根据至少两个识别对象的识别得分，确定出至少两个识别对象中目标识别对象。

S403、确定待处理文档的识别结果包括该对象类别中的目标识别对象。可选的，对于每个对象类别，可以获取该对象类别中的至少一个识别对象的得分，并将该对象类别中识别得分最高的识别对象确定为该识别类别的目标识别对象。相应的，该待处理文档的识别结果中包括该对象类别中的目标识别对象。

例如，对于“公告机构”，选取GlobalPointer分数最大的识别对象，即0.98对应识别对象作为识别结果。即：“一年级二年级三年级四年级五年级”。

可理解，在本实施例中，若某个对象类别仅包括一个识别对象，则该识别对象即为该对象类别的识别结果。

可选的，如图4所示，在本公开的实施例中，该文档处理方法还可以包括如下步骤：

S404、确定识别结果包括的至少一个识别对象中是否存在整体对象，该整体对象包括具有相同上下文语境的至少两个子对象。

示例性的，本公开的实施例中，在确定出待处理文档的识别结果后，可以判断该识别结果中包括的至少一个识别对象是否为整体对象。

可理解，对象识别模型在训练时是利用基于对象上下文语境的标注方法进行标注得到的文本样本集，其将具有相同上下文语境的多个对象按照一个整体对象进行处理，因而，利用对象识别模型对待处理文档对应的文本序列进行处理时，得到的识别结果中可能包括由具有相同上下文语境的至少两个子对象形成的整体对象。

S405、响应于该识别对象中存在整体对象，对该整体对象进行对象切分，得到待处理文档的最终识别结果。

在一种可能的设计中，在确定识别结果包括的识别对象中存在整体对象，此时，按照空格对整体对象进行切分，得到各个子对象，也即待处理文档的最终识别结果。

示例性的，对于“公告机构”的识别结果：“一年级二年级三年级四年级五年级”，按照空格切分后，可以得到“公告机构”的最终输出：[“一年级”,“二年级”,“三年级”,“四年级”,“五年级”]。

本公开实施例中，通过确定对象类别包括的识别对象个数，响应于对象类别包括至少两个识别对象，根据至少两个识别对象的识别得分，确定出至少两个识别对象中目标识别对象，从而确定待处理文档的识别结果包括对象类别中的目标识别对象，以及响应于识别结果中存在整体对象，该整体对象包括具有相同上下文语境的至少两个子对象，对整体对象进行对象切分，得到待处理文档的最终识别结果。该技术方案，不仅可以提高对象识别准确度，而且可以达到业务需求，提高信息处理效率。

上述实施例描述的是文档处理的过程。下面结合几个具体的实施例对文档处理过程中利用的对象识别模型进行训练的过程进行介绍。

图5是本公开第一实施例提供的识别模型训练方法的流程示意图。本实施例的方法可以由图1中的训练设备执行，也可以由训练设备中的处理器执行。本实施例中以训练设备执行该方法进行说明。如图5所示，本实施例提供的识别模型训练方法可以包括：

S501、获取文本样本集，该文本样本集中的文本样本携带有对象标注信息。

示例性的，训练设备可以从多个文本库获取大量的文本样本。

在本实施例的一种可能设计中，训练设备获取到的文本样本是已被标注的，可选的，标注后的文本样本携带有对象标注信息。

可选的，对象标注信息可以是基于保证实体上下文语境的方法标注得到的。

S502、将文本样本集中的文本样本输入到预设网络，得到文本样本的对象识别结果。

其中，该对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的。

在本公开的实施例中，在对象识别模型的训练过程中，训练设备可以将文本样本集中的文本样本分别输入到预设网络(，在文本样本有多条时，可以通过并行或串行输入)中，可以输出文本样本的对象识别结果，即该文本样本中的对象识别类别以及该对象识别类别对应的目标识别对象。

可选的，在本实施例中，输入预设网络的两条文本样本的格式如下：

{[“文本样本1”,[对象首字11,对象尾字11,标注对象1],[对象首字12,对象尾字12,标注对象2],...]；

[“文本样本2”,[对象首字21,对象尾字21,标注对象1],[对象首字22,对象尾字22,标注对象2],[...],...}。

S503、根据文本样本携带的对象标注信息和该文本样本的对象识别结果，调整预设网络的参数，得到对象识别模型。

在本实施例中，训练设备可以将文本样本的对象识别结果与该文本样本携带的对象标注信息进行对比，确定预设网络针对该文本样本的对象识别结果与对象标注信息的一致性程度，在一致性程度低于预设要求时，调整该预设网络的参数，得到对象识别模型。

在本公开的实施例中，通过获取文本样本集，该文本样本集中的文本样本携带有对象标注信息，将文本样本集中的文本样本输入到预设网络，得到文本样本的对象识别结果，进而根据该文本样本携带的对象标注信息和该文本样本的对象识别结果，调整预设网络的参数，得到对象识别模型，该技术方案中，由于对象识别结果中每个对象识别类别对应的目标识别对象是基于识别得分确定的，因而，可以解决对象嵌套的问题，以及训练和识别中的不一致问题，从而提高了文本样本中对象识别的准确率。

在图5所示实施例的基础上，下述对本公开实施例提供的识别模型训练方法进行更详细的介绍。

图6是本公开第二实施例提供的识别模型训练方法的流程示意图。在本公开的实施例中，预设网络包括：BERT部分和GlobalPointer部分。本公开实施例主要说明GlobalPointer部分的训练。

在实际应用中，由于相关技术中使用NER任务或者MRC任务做实体(对象)抽取，都会在一定程度上面临训练和预测的不一致性的问题，因而，在本实施例中，将传统使用的BERT+CRF做NER换成了BERT+GlobalPointer做NER，而且，采取了BERT+GlobalPointer来做实体抽取任务时，将首尾视为一个整体去进行判别，所以它更有“全局观”(更Global)。

相应的，如图6所示，上述S502可以通过如下步骤实现：

S601、利用BERT部分对文本样本集中的文本样本进行对象识别，确定出文本样本包括的所有识别对象。

示例性的，BERT部分采用掩码语言模型(masked language model，MLM)生成深度的双向语言表征，具体的，从每个单词的两边(左边和右边)来考虑上下文，这种双向性有助于模型更好地理解使用单词的上下文，因而，利用BERT部分对文本样本集中的文本样本进行对象识别时，能够确定出文本样本包括的所有识别对象。

S602、基于全局指针部分对文本样本包括的所有识别对象进行分类，确定出文本样本包括的对象识别类别以及该对象识别类别包括的至少一个识别对象。

示例性的，全局指针部分的基本思想是多标签分类的问题，因而，在确定出文本样本包括的所有识别对象后，可以利用全局指针部分对文本样本包括的所有识别对象进行类别划分，得到该文本样本包括的对象识别类别，然后再针对该对象识别类别确定出其包括的至少一个识别对象。

S603、根据该对象识别类别中至少一个识别对象的识别得分，确定对象识别类别对应的目标识别对象。

示例性的，在本公开的实施例中，由于全局指针部分能够给出对象识别类别中各识别对象的识别得分，因而，可以对各识别对象的识别得分进行由高至低排序，并将得分最高的识别对象作为当前对象识别类别对应的目标识别对象。

可选的，在本公开的实施例中，上述对象标注信息包括：对象标注类别和该对象标注类别对应的标注对象，上述对象识别结果包括：对象识别类别和该对象识别类别对应的识别对象；相应的，如图6所示，上述S503可以通过如下步骤实现：

S604、根据文本样本携带的对象标注类别和该文本样本的对象识别类别，确定文本样本的类别识别结果。

示例性的，在本实施例中，将文本样本的对象识别类别与该文本样本携带的对象标注类别进行对比，确定该文本样本的类别识别是否正确，即，类别识别结果。

S605、根据文本样本集中至少两条文本样本的类别识别结果，确定预设网络的类别识别准确度。

可选的，在确定出至少两条文本样本的类别识别结果后，可以统计文本样本集中类别识别正确的文本样本数，计算类别识别正确的文本样本数占文本样本集中的所有文本样本数的百分比，得到该预设网络的类别识别准确度。

S606、判断该预设网络的类别识别准确度是否大于或等于类别准确度阈值；若是，执行S607；若否，先执行S610，再转到执行S601。

作为一种示例，训练设备中可以预置有类别准确度阈值，因而，在确定出预设网络的类别识别准确度后，可以将其与类别准确度阈值进行对比，进而基于对比结果确定后续操作。

S607、根据对象标注类别对应的标注对象和对象识别类别对应的目标识别对象，确定文本样本的对象识别结果。

作为一种示例，在预设网络的类别识别准确度大于或等于类别准确度阈值时，表明预设网络的一个类别指标已经达到要求，此时，则计算文本样本的对象识别结果。

可选的，在本实施例中，可以将文本样本中对象识别类别对应的识别对象与该文本样本中对象标注类别对应的标注对象进行对比，确定该文本样本的识别对象和标注对象是否一致，得到对象识别结果。

S608、根据文本样本集中至少两条文本样本的对象识别结果，确定所述预设网络的对象识别准确度。

可选的，在确定出至少两条文本样本的对象识别结果后，可以统计文本样本集中对象识别正确的文本样本数，计算识别正确的对象文本样本数占文本样本集中的所有文本样本数的百分比，得到该预设网络的对象识别准确度。

S609、判断预设网络的对象识别准确度是否大于或等于对象准确度阈值，若是，转到S610；若否，执行S610，再转到执行S601。

作为一种示例，训练设备中可以预置有对象准确度阈值，因而，在确定出预设网络的对象识别准确度后，可以将其与对象准确度阈值进行对比，进而基于对比结果确定后续操作。

S610、调整预设网络的参数。

S611、得到对象识别模型。

示例性的，在预设网络的类别识别准确度小于类别准确度阈值和/或预设网络的对象识别准确度小于对象准确度阈值，表明预设网络的目前参数数值还不能满足预设精度指标，因而，可以调整预设网络的参数，循环执行上述各步骤，直到预设网络的类别识别准确度大于或等于类别准确度阈值且预设网络的对象识别准确度大于或等于对象准确度阈值，得到对象识别模型。

进一步的，在本公开实施例的模型训练阶段，为了保证通用NER抽取的泛化性，加入了快速梯度方法(fast gradient method，FGM)对抗训练：即，a、让预设网络的参数保持不变，对于每个文本样本，在预设网络的嵌入(embedding)层，给其增加了微小的扰动△x，使得制作得到每个文本样本对应的对抗样本，即得到的对抗样本可以使得预设网络的损失最大化；b、对于这些对抗样本，输入预设网络，进行梯度下降，使得损失最小化，进而优化预设网络的参数θ，反复执行a和b，如此往复，形成对抗训练，从而可以保证对象识别的泛化性。

本实施例中，利用全局归一化的思路来进行命名实体识别(NER)，可以无差别地识别嵌套实体和非嵌套实体，在非嵌套NER(Flat NER)的情形下能取得较好的效果，而在嵌套NER(Nested NER)情形也有不错的效果。而且，在理论上，GlobalPointer的设计思想也比较合理，而且实践中执行完全并行，复杂度较低。

在本实施例中，使用BERT+GlobalPointer模型进行NER任务的训练，推理完成后进行聚合，并使用最大分数得到最终结果，对于每个对象类别，都能获得极高的精确率，而且由于训练、推理任务的一致性，召回率指标也得到了极大提高，最后使用了FGM对抗训练，使得模型的泛化能力得到极大提升。

图7是本公开第三实施例提供的识别模型训练方法的流程示意图。在本公开的实施例中，如图6所示，上述S501可以通过如下步骤实现：

S701、获取文档样本集。

可选的，在本实施例中，训练设备可以从其他设备或自身的存储位置获取文本样本集，该文档样本集中的文档样本可以是各种格式的文档，例如，PDF文档、Word文档、纯文本文档。本实施例并不对文档样本的格式进行限定。

S702、确定文档样本集中的文档样本是否为纯文本文档；若否，先执行S703，再执行S704；若是，执行S704。

可选的，在实际应用中，由于预设网络是BERT和全局指针的结构，其通常的处理对象是文本序列，因而，在获取到文档样本集后，首先检测文档样本集中的文档样本是否为纯文本文档，若是，则对文档进行序列化处理，若否，则首先将非纯文本文档转换为纯文本文档，再进行序列化处理。

S703、将文档样本集中的非纯文本文档转换为纯文本文档，得到文本文档样本集。

作为一种示例，响应于文档样本集中存在非纯文本文档，将文档样本集中的非纯文本文档转换为纯文本文档，得到文本文档样本集。

示例性的，PDF文档已经是分页好的文档，word文档没有固定的分页，而且，Word文档可能会因为打开软件的差异，会有不同的分页，因而，为了提高处理精度和模型的适用广泛性，可以采用word文档解析器对Word文档进行解析处理，得到纯文本文档；同理，对于PDF，采用PDF文档解析器对PDF文档进行解析处理，或者，首先将PDF文档转换为Word文档，再利用PDF文档解析器对PDF文档进行解析处理，得到纯文本文档。

S704、对文本文档样本集中的纯文本文档进行序列化，得到纯文本文档对应的文本序列。

可选的，确定文本文档样本集中的文档样本均是纯文本文档时，便可以提取出其中的文本，把所有的文字内容处理成一个长的纯文本字符串，得到纯文本文档对应的文本序列，例如：字符数从几百到数万不等。

此外，针对常规关键信息抽取技术能处理的最大序列数会受限制的问题，在本实施例中，通过对纯文本文档对应的文本序列进行滑窗，拆分成多个文本样本。

S705、获取纯文本文档对应文本序列的对象标注信息，得到文本样本集。

其中，该对象标注信息是基于对象上下文语境标注的。

可选的，在本实施例的训练阶段，训练人员可以先对这些文本样本进行对象标注，将具有对象标注信息的文本样本输入预设网络进行模型训练，这样，该预设网络对于上述文本样本，就能学到该文本样本中的对象信息特征，由于文本样本集中的文本样本可以进行独立训练，多条文本样本在这一步可以进行并行化训练，极大提升模型训练效率。

可理解，在某些文本样本中没有对象时，可以看作是负文本样本，用于数据的增强。

可选的，本公开的实施例采用优先保证实体上下文语境的标注方法。例如，当要识别“公告机构”，是“一年级”,“二年级”,“三年级”,“四年级”,“五年级”这些对象，如果以最细粒度的方式进行标注，则会对上述5个公告机构进行分别标注，会导致模型训练过程中，没有学到对象附近的上下文语义，进而在模型推理的时候，会带来极多的误召回。比如，在文本样本中存在“学务处”和“医疗室”时，可能会误召回“学务处”和“医疗室”，而这两个都不是“公告机构”。

因而，本公开实施例提供了优先保证对象上下文语境的标注方法，公告文件中，虽然“公告机构”的名称不同，但是却具有相似的上下文语境，所以，可以把这种具有相同上下文语境的多个子对象按照一个识别对象进行标注。模型在训练和推理的时候，能学习到满足这种上下文语境的整体对象。在推理得到该整体对象后的后处理过程中，可以再对该整体对象以空格进行划分，得到各个更细粒度的对象，最终达到业务需求。

本公开实施例在标注时，采用优先保证实体上下文的标注方法，在训练、推理阶段，可以准确学习和预测固定语境下的实体，解决细粒度实体误召回的问题。

示例性的，下述以一个具体示例对本公开实施例的整体方案进行解释说明。图8是本公开实施例提供的一种架构示意图。本实施例以待处理文档为Word文档，且Word文档的对应的文本序列超过预设处理长度为了进行解释说明。如图8所示，该架构图可以包括四部分：Word解析模块801、预处理模块802、模型训练模块803和对象识别模块804。

其中，Word解析模块801主要将word文档转换为纯文本文档，处理成能够用于标注的文本。

预处理模块802执行数据预处理Sliding，主要将Word解析模块801得到的纯文本进行滑窗处理，拆分成多个文本(训练阶段在拆分后进行实体标注)，生成模型训练、推理需要的输入格式。

示例性的，图9是纯文本文档进行拆分处理、处理的流程示意图。如图9所示，通过纯文本文档进行切分处理，得到纯文本文档包括的n个部分，即纯文本文档对应的子样本。

如图8和图9所示，模型训练模块803是一个简易版的自动化建模，包括模型调参、全局指针模型训练、模型发布等功能，实现通过预处理模块802提供的数据(带标注)进行训练，得到模型文件，即，对象识别模型(BERT+全局指针模型)。

对象识别模块804应用在推理阶段，将纯文本文档对应的子样本输入到对象识别模型，得到对象识别集合。

关于各模块的具体实现可以参见上述各实施例中的记载，此处不作赘述。

图10是本公开实施例提供的一种文档处理装置的结构示意图。本实施例提供的文档处理装置可以为图1中的处理设备或者为处理设备中的装置。如图10所示，本公开实施例提供的文档处理装置1000可以包括：

获取单元1001，用于获取待处理文档；

处理单元1002，用于对所述待处理文档进行处理，得到所述待处理文档中的识别对象集合，所述识别对象集合包括：对象类别、所述对象类别包括的识别对象以及所述识别对象的识别得分；

确定单元1003，用于根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分，确定所述待处理文档的识别结果。

在本实施例的一种可能实现中，所述处理单元1002，包括：

拆分模块，用于对所述待处理文档对应的文本序列进行拆分，得到至少一条待处理文本；

识别模块，用于将所述至少一条待处理文本输入到预先训练的对象识别模型，确定所述待处理文档中的识别对象集合，所述对象识别模型的训练原理包括：基于转换器的双向编码表征BERT和全局指针。

可选的，其中，所述拆分模块，具体用于基于预置的滑窗长度和滑动步长，对所述待处理文档对应的文本序列进行拆分，得到至少一条待处理文本，所述滑窗长度大于或等于所述滑动步长。

在本实施例的一种可能实现中，所述确定单元1003，包括：

第一确定模块，用于确定所述对象类别包括的识别对象个数；

第二确定模块，用于响应于所述对象类别包括至少两个识别对象，根据所述至少两个识别对象的识别得分，确定出所述至少两个识别对象中目标识别对象；

第三确定模块，用于确定所述待处理文档的识别结果包括所述对象类别中的所述目标识别对象。

在本实施例的一种可能实现中，该文档处理装置还包括：

检测单元(未示出)，用于确定所述识别结果包括的识别对象中是否存在整体对象，所述整体对象包括具有相同上下文语境的至少两个子对象；

切分单元(未示出)，用于响应于所述识别对象中存在整体对象，对所述整体对象进行对象切分，得到所述待处理文档的最终识别结果。

在本实施例的一种可能实现中，该文档处理装置还包括：

检测单元(未示出)，用于确定所述待处理文档是否为纯文本文档；

解析单元(未示出)，用于：

响应于所述待处理文档为非纯文本文档，对所述待处理文档进行解析，得到所述待处理文档对应的纯文本文档；

对所述纯文本文档进行处理，得到所述待处理文档对应的文本序列。

本实施例提供的文档处理装置，可用于执行上述任意方法实施例中由处理设备执行的文档处理方法，其实现原理和技术效果类似，此处不做作赘述。

图11是本公开实施例提供的一种识别模型训练装置的结构示意图。本实施例提供的识别模型训练装置可以为图1中的训练设备或者为训练设备中的装置。如图11所示，本公开实施例提供的识别模型训练装置1100可以包括：

获取单元1101，用于获取文本样本集，所述文本样本集中的文本样本携带有对象标注信息；

处理单元1102，用于将所述文本样本集中的文本样本输入到预设网络，得到所述文本样本的对象识别结果，所述对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的；

调整单元1103，根据所述文本样本携带的对象标注信息和所述文本样本的对象识别结果，调整所述预设网络的参数，得到对象识别模型。

在本实施例的一种可能实现中，所述预设网络包括：基于转换器的双向编码表征BERT部分和全局指针部分；

相应的，所述处理单元1102，包括：

第一处理模块，用于利用所述基于转换器的双向编码表征BERT部分对所述文本样本集中的文本样本进行对象识别，确定出所述文本样本包括的所有识别对象；

第二处理模块，用于基于所述全局指针部分对所述文本样本包括的所有识别对象进行分类，确定出所述文本样本包括的对象识别类别以及所述对象识别类别包括的至少一个识别对象；

第三处理模块，用于根据所述对象识别类别中所述至少一个识别对象的识别得分，确定所述对象识别类别对应的目标识别对象。

可选的，所述对象标注信息包括：对象标注类别和所述对象标注类别对应的标注对象，所述对象识别结果包括：对象识别类别和所述对象识别类别对应的目标识别对象；

相应的，所述调整单元1103，包括：

第一确定模块，用于根据所述文本样本携带的对象标注类别和所述文本样本的对象识别类别，确定所述文本样本的类别识别结果；

第二确定模块，用于根据所述文本样本集中至少两条文本样本的类别识别结果，确定所述预设网络的类别识别准确度；

第三确定模块，用于响应于所述预设网络的类别识别准确度大于或等于类别准确度阈值，根据所述对象标注类别对应的标注对象和所述对象识别类别对应的目标识别对象，确定所述文本样本的对象识别结果；

第四确定模块，用于根据所述文本样本集中至少两条文本样本的对象识别结果，确定所述预设网络的对象识别准确度；

第五确定模块，用于响应于所述预设网络的类别识别准确度小于类别准确度阈值和/或所述预设网络的对象识别准确度小于对象准确度阈值，调整所述预设网络的参数，直到所述预设网络的类别识别准确度大于或等于类别准确度阈值且所述预设网络的对象识别准确度大于或等于对象准确度阈值，得到对象识别模型。

在本公开实施例的一种可能实现中，所述获取单元1101，包括：

获取模块，用于获取文档样本集；

检测模块，用于确定所述文档样本集中的文档样本是否为纯文本文档；

转换模块，用于响应于所述文档样本集中存在非纯文本文档，将所述文档样本集中的非纯文本文档转换为纯文本文档，得到文本文档样本集；

序列化模块，用于对所述文本文档样本集中的纯文本文档进行序列化，得到所述纯文本文档对应的文本序列；

所述获取模块，还用于获取所述纯文本文档对应文本序列的对象标注信息，得到所述文本样本集，所述对象标注信息是基于对象上下文语境标注的。

本实施例提供的识别模型训练装置，可用于执行上述任意方法实施例中由训练设备执行的识别模型训练方法，其实现原理和技术效果类似，此处不做作赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图12示出了用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如文档处理方法、识别模型训练方法。例如，在一些实施例中，文档处理方法、识别模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的文档处理方法、识别模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档处理方法、识别模型训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档处理方法，包括：

获取待处理文档；

2.根据权利要求1所述的方法，其中，所述对所述待处理文档进行处理，得到所述待处理文档中的识别对象集合，包括：

对所述待处理文档对应的文本序列进行拆分，得到至少一条待处理文本；

将所述至少一条待处理文本输入到预先训练的对象识别模型，确定所述待处理文档中的识别对象集合，所述对象识别模型的训练原理包括：基于转换器的双向编码表征BERT和全局指针。

3.根据权利要求2所述的方法，其中，所述对所述待处理文档对应的文本序列进行拆分，得到至少一条待处理文本，包括：

基于预置的滑窗长度和滑动步长，对所述待处理文档对应的文本序列进行拆分，得到至少一条待处理文本，所述滑窗长度大于或等于所述滑动步长。

4.根据权利要求1至3任一项所述的方法，其中，所述根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分，确定所述待处理文档的识别结果，包括：

确定所述对象类别包括的识别对象个数；

响应于所述对象类别包括至少两个识别对象，根据所述至少两个识别对象的识别得分，确定出所述至少两个识别对象中目标识别对象；

确定所述待处理文档的识别结果包括所述对象类别中的所述目标识别对象。

5.根据权利要求1至4任一项所述的方法，还包括：

确定所述识别结果包括的识别对象中是否存在整体对象，所述整体对象包括具有相同上下文语境的至少两个子对象；

响应于所述识别对象中存在整体对象，对所述整体对象进行对象切分，得到所述待处理文档的最终识别结果。

6.根据权利要求1至5任一项所述的方法，在对所述待处理文档进行处理，得到所述待处理文档中的识别对象集合之前，还包括：

确定所述待处理文档是否为纯文本文档；

7.一种识别模型训练方法，包括：

8.根据权利要求7所述的方法，所述预设网络包括：基于转换器的双向编码表征BERT部分和全局指针部分；

所述将所述文本样本集中的文本样本输入到预设网络，得到所述文本样本的对象识别结果，包括：

利用所述基于转换器的双向编码表征BERT部分对所述文本样本集中的文本样本进行对象识别，确定出所述文本样本包括的所有识别对象；

基于所述全局指针部分对所述文本样本包括的所有识别对象进行分类，确定出所述文本样本包括的对象识别类别以及所述对象识别类别包括的至少一个识别对象；

根据所述对象识别类别中所述至少一个识别对象的识别得分，确定所述对象识别类别对应的目标识别对象。

9.根据权利要求7或8所述的方法，其中，所述对象标注信息包括：对象标注类别和所述对象标注类别对应的标注对象，所述对象识别结果包括：对象识别类别和所述对象识别类别对应的目标识别对象；

所述根据所述文本样本携带的对象标注信息和所述文本样本的对象识别结果，调整所述预设网络的参数，得到对象识别模型，包括：

根据所述文本样本携带的所述对象标注类别和所述文本样本的对象识别类别，确定所述文本样本的类别识别结果；

根据所述文本样本集中至少两条文本样本的类别识别结果，确定所述预设网络的类别识别准确度；

响应于所述预设网络的类别识别准确度大于或等于类别准确度阈值，根据所述对象标注类别对应的标注对象和所述对象识别类别对应的目标识别对象，确定所述文本样本的对象识别结果；

根据所述文本样本集中至少两条文本样本的对象识别结果，确定所述预设网络的对象识别准确度；

响应于所述预设网络的类别识别准确度小于类别准确度阈值和/或所述预设网络的对象识别准确度小于对象准确度阈值，调整所述预设网络的参数，直到所述预设网络的类别识别准确度大于或等于类别准确度阈值且所述预设网络的对象识别准确度大于或等于对象准确度阈值，得到对象识别模型。

10.根据权利要求7至9任一项所述的方法，其中，所述获取文本样本集，包括：

获取文档样本集；

确定所述文档样本集中的文档样本是否为纯文本文档；

响应于所述文档样本集中存在非纯文本文档，将所述文档样本集中的非纯文本文档转换为纯文本文档，得到文本文档样本集；

对所述文本文档样本集中的纯文本文档进行序列化，得到所述纯文本文档对应的文本序列；

获取所述纯文本文档对应文本序列的对象标注信息，得到所述文本样本集，所述对象标注信息是基于对象上下文语境标注的。

11.一种文档处理装置，包括：

获取单元，用于获取待处理文档；

12.根据权利要求11所述的装置，其中，所述处理单元，包括：

13.根据权利要求12所述的装置，其中，所述拆分模块，具体用于基于预置的滑窗长度和滑动步长，对所述待处理文档对应的文本序列进行拆分，得到至少一条待处理文本，所述滑窗长度大于或等于所述滑动步长。

14.根据权利要求11至13任一项所述的装置，其中，所述确定单元，包括：

15.根据权利要求11至14任一项所述的装置，还包括：

检测单元，用于确定所述识别结果包括的识别对象中是否存在整体对象，所述整体对象包括具有相同上下文语境的至少两个子对象；

切分单元，用于响应于所述识别对象中存在整体对象，对所述整体对象进行对象切分，得到所述待处理文档的最终识别结果。

16.根据权利要求11至15任一项所述的装置，还包括：

检测单元，用于确定所述待处理文档是否为纯文本文档；

解析单元，用于：

17.一种识别模型训练装置，包括：

18.根据权利要求17所述的装置，所述预设网络包括：基于转换器的双向编码表征BERT部分和全局指针部分；

所述处理单元，包括：

19.根据权利要求17或18所述的装置，其中，所述对象标注信息包括：对象标注类别和所述对象标注类别对应的标注对象，所述对象识别结果包括：对象识别类别和所述对象识别类别对应的目标识别对象；

所述调整单元，包括：

第一确定模块，用于根据所述文本样本携带的所述对象标注类别和所述文本样本的对象识别类别，确定所述文本样本的类别识别结果；

20.根据权利要求17至19任一项所述的装置，其中，所述获取单元，包括：

获取模块，用于获取文档样本集；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法，或者，执行权利要求7至10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至6中任一项所述的方法，或者，执行权利要求7至10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤，或者，执行权利要求7至10中任一项所述方法的步骤。