CN116052195A

CN116052195A - 文档解析方法、装置、终端设备和计算机可读存储介质

Info

Publication number: CN116052195A
Application number: CN202310086814.0A
Authority: CN
Inventors: 卞晓瑜; 肖鸣林; 何程
Original assignee: Yida Technology Shanghai Co ltd
Current assignee: Yida Technology Shanghai Co ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-05-02

Abstract

本申请提供了一种文档解析方法、装置、终端设备和计算机可读存储介质，方法包括首先获取待解析文档；然后将待解析文档输入至预先建立的边框生成模型，在待解析文档相应位置生成边界框；边界框的数量为一个或多个；最后对边界框中的文字块进行解析，以得到解析结果；其中，边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。该文档解析方法，采用边框生成模型可以对待解析文档中的文字块生成边界框，然后在对边界框中的文字进行解析，操作简单，并且可以提高文字解析的准确率。

Description

文档解析方法、装置、终端设备和计算机可读存储介质

技术领域

本申请涉及文档解析技术领域，具体涉及一种文档解析方法、装置、终端设备和计算机可读存储介质。

背景技术

随着网络科技不断发展，我们每天都会接触各种各样不同信息，这些信息通常都是以文档形式存在，但不同文档中信息的样式多种多样，并且文档类型也不尽相同(包括电子文档和纸质文档)；为了获取这些信息，往往需要对文档进行解析，例如海运托书单上有很多信息，在整个海运过程中物流公司需要对海运托书单上的信息进行解析才能获取海运托书单上寄收双方信息以及地址等关键信息。

目前通常是采用一些字符识别技术来实现对文档中相关信息的自动识别。然而对于文档而言，有一部分带有线框信息，也有相当一部分没有线框信息，而经过实验发现对于带有线框信息的文档会将相同含义的字段写在同一线框，便于解析，但需要先识别线框，操作非常麻烦；而对于没有线框信息的文档其字段排列比较随意，那么信息解析难度会增加，并且解析准确率低。

发明内容

有鉴于此，本申请实施例中提供了一种文档解析方法、装置、终端设备和计算机可读存储介质，以克服现有技术文档解析操作麻烦、难度大，识别准确率低的问题。

第一方面，本申请实施例提供了一种文档解析方法，该方法包括：

获取待解析文档；

将所述待解析文档输入至预先建立的边框生成模型，在所述待解析文档相应位置生成边界框；所述边界框的数量为一个或多个；

对所述边界框中的文字块进行解析，以得到解析结果；

其中，所述边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。

第二方面，本申请实施例提供了一种文档解析装置，该装置包括：

待解析文档获取模块，用于获取待解析文档；

边界框生成模块，用于将所述待解析文档输入至预先建立的边框生成模型，在所述待解析文档相应位置生成边界框；所述边界框的数量为一个或多个；

解析模块，用于对所述边界框中的文字块进行解析，以得到解析结果；

第三方面，本申请实施例提供了一种终端设备，包括：存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述第一方面提供的文档解析方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述第一方面提供的文档解析方法。

本申请实施例提供的文档解析方法、装置、终端设备和计算机可读存储介质，方法包括首先获取待解析文档；然后将待解析文档输入至预先建立的边框生成模型，在待解析文档相应位置生成边界框；边界框的数量为一个或多个；最后对边界框中的文字块进行解析，以得到解析结果；其中，边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。

本申请实施例中的文档解析方法，采用边框生成模型可以对待解析文档中的文字块生成边界框，然后在对边界框中的文字进行解析，操作简单，并且可以提高文字解析的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文档解析方法的应用场景示意图；

图2为本申请一个实施例提供的文档解析方法的流程示意图；

图3为本申请一个实施例提供的有线框的文档示意图；

图4为本申请一个实施例提供无线框的文档示意图；

图5为本申请一个实施例提供的无线框的待解析文档示意图；

图6为本申请一个实施例提供的采用边框生成模型对待解析文档进行处理生成边界框的示意图；

图7为本申请一个实施例提供的表单文档示意图；

图8为本申请一个实施例中提供的文档解析装置的结构示意图；

图9为本申请一个实施例中提供的终端设备的结构示意图；

图10为本申请一个实施例中提供的计算机可读存储介质的结构示意图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更详细说明本申请，下面结合附图对本申请提供的一种文档解析方法、装置、终端设备和计算机可读存储介质，进行具体地描述。

请参考图1，图1示出了本申请实施例提供的文档解析方法的应用场景的示意图，该应用场景包括本申请实施例提供的终端设备100，终端设备100可以是具有显示屏的各种电子设备(如102、104、106和108的结构图)，包括但不限于智能手机和计算机设备，其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。此外，该终端设备100还以维护有至少一种数据库，用于存储预先建立的边框生成模型等。终端设备100可以泛指多个终端设备中的一个，本实施例仅以终端设备100来举例说明。本领域技术人员可以知晓，上述终端设备的数量可以更多或更少。比如上述终端设备可以仅为几个，或者上述终端设备为几十个或几百个，或者更多数量，本申请实施例对终端设备的数量和类型不加以限定。终端设备100可以用来执行本申请实施例中提供的一种文档解析方法。

在一种可选的实施方式中，该应用场景包括本申请实施例提供的终端设备100之外，还可以包括服务器，其中服务器与终端设备之间设置有网络。网络用于在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。其中，终端设备通过网络与服务器交互，以接收或发送消息等。服务器可以是提供各种服务的服务器。其中服务器可以用来执行本申请实施例中提供的一种文档解析方法的步骤。此外，终端设备在执行本申请实施例中提供的一种文档解析方法时，可以将一部分步骤在终端设备执行，一部分步骤在服务器执行，在这里不进行限定。

基于此，本申请实施例中提供了一种文档解析方法。请参阅图2，图2示出了本申请实施例提供的一种文档解析方法的流程示意图，以该方法应用于图1中的终端设备为例进行说明，包括以下步骤：

步骤S110，获取待解析文档。

其中，待解析文档可以是任意的需要进行文字解析识别的文档。文档的种类是多种多样的，可以是电子版文档也可以是纸质版经过拍照等形成的文档。此外，文档的类型也可以是多样的，可以是PDF文档、word文档以及图片格式的文档。

另外，待解析文档可以是不同领域的文档，例如物流托运单(如海运托书单)、行李单以及各类型的单据等。

进一步地，待拆分文档可以是带有框线信息的文档(如图3所示)，也可以是不带线框信息的文档(如图4所示)。

步骤S120，将待解析文档输入至预先建立的边框生成模型，在待解析文档相应位置生成边界框；边界框的数量为一个或多个。其中，边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。

具体地，模型训练就是给定输入向量和目标输出值，然后将输入向量来输入一个或多个网络结构或函数来求得实际输出值，并根据目标输出值和实际输出值来计算偏量，并判断偏量是否在容许范围内；若在容许范围内，则训练结束并固定相关参数；若不在容许范围内，不断去调整网络结构或函数中的一些参数，直至在偏量在容许范围内或达到了某一结束条件时，训练结束并固定相关参数，最后根据固定的相关参数即可得到训练完成的模型。

而本实施例中的边框生成模型的训练实际上为：将带有线框的文档样本输入到深度目标检测模型生成实际边界框，并在文档样本中标记生成目标边界框，求出目标边界框和实际边界框的偏差，当偏差在不容许范围内，计算深度目标检测模型的误差，求误差梯度，并更新权值，重新求出目标边界框和实际边界框的偏差，直至偏差在容许范围内，训练结束，固定权重和阈值，从而得到预先训练的边框生成模型。

另外，对于一个待解析文档而言，可以生成多个边界框；通常情况一个待解析文档中包括有多个需要识别的信息，即有多个需要解析的业务字段；不同业务字段会形成一个文字块，一个文字块可以生成一个边界框。

其中，业务字段指的是某个类型的单据中所描述的业务信息，比如海运托书中需要给出收货人发货人信息、需要给出货物总重量信息等；收货人、发货人、总重量就是海运托书场景下的业务字段。

为了便于理解给出一个详细的实施例，如图5所示，该待解析文档是一个无线框的运单，该运单中的发货人(SHIPPER)、收货人(CONSIGNEE)、通知人(NOTIFY PARTY)等信息全部顺序的写在一起，没有分割线，对其直接进行解析识别难度比较大。为了解决这一问题，将该运单输入本申请实施例中一个的边框生成模块，然后就会在该运单上生成多个边界框，请参照图6所示，从图6可以看出边界框的数量可以是多个，其大小也可不相同；一个文字块形成一个边界框。

可选地，经过边框生成模型可以输出json格式的结果，其中包含了模型输出的线框信息，可以得到更加结构化和业务化的结果。

步骤S130，对边界框中的文字块进行解析，以得到解析结果。

在生成边界框后，对边界框中的文字块进行识别解析，就可以得到需要的信息。

本申请实施例提供的文档解析方法，包括首先获取待解析文档；然后将待解析文档输入至预先建立的边框生成模型，在待解析文档相应位置生成边界框；边界框的数量为一个或多个；最后对边界框中的文字块进行解析，以得到解析结果；其中，边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。

进一步地，给出了一种建立边框生成模块的实施方式，详细描述如下：

在一个实施例中，建立边框生成模型，包括：

S1：获取带有线框的文档样本。

在一个实施例中，在执行步骤S1，获取带有线框的文档样本，包括：采用计算机视觉工具从多个文档样本中筛选出带有线框的文档样本。

其中，文档样本的数量可以是很多个，通常情况下，文档样本越多，其训练的模型更加精确；但文档样本太多会降低模型训练的速度。因此，在实际应用中，选择合适数量的文档样本即可。具体地可以采用CV(计算机视觉)工具，从海量的业务文档样本中，选出有线框的样本。利用传统的CV技术识别有线框的文档，并识别出处于同一个线框内的文字，利用这种方式获取了大量的标注样本。

S2：确定文档样本中线框的区域信息。

具体地，计算出文档内封闭线框的区域，得到线框的区域信息(即bounding-box信息)。

S3：对文档样本进行字符识别，识别出文档样本中的文字块以及文字块的位置信息；

在一个实施例中，在执行步骤S3，对文档样本进行字符识别，包括：采用光学字符识别技术对文档样本进行字符识别。

其中，可以利用OCR(光学字符识别)技术，识别出文档样本中的文字块以及其位置信息。

在一个实施例中，对文档样本进行字符识别，识别出文档样本中的文字块，包括：对文档样本中的每一个字符进行编码，采用RGB来表示每一个字符；对编码后的字符进行字符识别，识别出文档样本中的文字块。

具体地，可以利用图像来表达文字信息的方法来对表单中的文字进行了编码。即利用RGB三通道的0-255的范围来表达26个字母、10个数字和数百个高频中文词汇。在本实施例中，借鉴AI领域的目标检测任务，将NLP文字信息看成像素，同一个线框内的业务字段的区域作为bounding-box，最终实现对表单类文档的精细化的解析。

S4：根据文字块的位置信息和线框的区域信息，确定每个文字块所属的线框。

S5：对于所属线框的文字块，根据文字块的坐标计算出每一个文字块的目标边界框；

在一个实施例中，在执行步骤S5，根据文字块的坐标计算出每一个文字块的目标边界框，包括：分别提取文字块的最左边、最右边、最上边以及最下边的坐标；根据最左边、最右边、最上边以及最下边的坐标计算出每一个文字块的目标边界框。

具体来说，可以利用文字块的位置信息和线框的区域信息，计算每个文字块属于哪个线框。对属于一个线框的文字块，取这些文字块的最左、最上、最右、最下的四个坐标，重新绘制出文字块的bounding-box，记为目标边界框，该目标边界框即可作为深度模型训练的目标。

S6：将文档样本中的文字块以及文字块的位置信息输入至深度目标检测模型，生成文字块的实际边界框。

其中，利用文字块信息和文字块的位置信息，结合深度目标检测模型，可以拟合出文字块的bounding-box，记为实际边界框。

S7：对深度目标检测模型的权重进行调整，直至实际边界框与目标边界框的偏差在容许范围内时，训练完成，得到边框生成模型。

在一个实施例中，深度目标检测模型包括YOLO7模型。

应当理解，在建立边框生成模型采用的算法不限于本实施例中提到的YOLO7模型，根据本发明的技术启示，本领域技术人员还可以采用其他深度学习算法来建立边框生成模型。

在本实施例中，充分利用了业务文档自身的信息，一部分带有线框的文档天生就蕴含了丰富的业务信息和布局特征。利用这部分文档来训练模型，而后应用于无线框的文档上，可以极大的优化无线框文档的解析和抽取效果。另外传统的解析更看重的是位置、对齐等信息，而忽视了文字信息。比如图7，在箭头处其实是另外一个业务字段，但是他们都是对齐并且等距的文字块，利用传统的特征很难解决。而本实施例中利用了语义信息和布局信息，可以很精准的对图中文字进行段落的划分，从而使得后续识别更加准确。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本申请公开的实施例中详细描述了一种文档解析方法，对于本申请公开的上述方法可采用多种形式的设备实现，因此本申请还公开了对应上述方法的文档解析装置，下面给出具体的实施例进行详细说明。

请参阅图8，为本申请实施例公开的一种文档解析装置，主要包括：

待解析文档获取模块810，用于获取待解析文档；

边界框生成模块820，用于将待解析文档输入至预先建立的边框生成模型，在待解析文档相应位置生成边界框；边界框的数量为一个或多个；

解析模块830，用于对边界框中的文字块进行解析，以得到解析结果；

其中，边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。

在一个实施例中，装置包括：模型建立模块，用于获取带有线框的文档样本；确定文档样本中线框的区域信息；对文档样本进行字符识别，识别出文档样本中的文字块以及文字块的位置信息；根据文字块的位置信息和线框的区域信息，确定每个文字块所属的线框；对于所属线框的文字块，根据文字块的坐标计算出每一个文字块的目标边界框；将文档样本中的文字块以及文字块的位置信息输入至深度目标检测模型，生成文字块的实际边界框；对深度目标检测模型的权重进行调整，直至实际边界框与目标边界框的偏差在容许范围内时，训练完成，得到边框生成模型。

在一个实施例中，模型建立模块，用于采用计算机视觉工具从多个文档样本中筛选出带有线框的文档样本。

在一个实施例中，模型建立模块，用于分别提取文字块的最左边、最右边、最上边以及最下边的坐标；根据最左边、最右边、最上边以及最下边的坐标计算出每一个文字块的目标边界框。

在一个实施例中，模型建立模块，用于采用光学字符识别技术对文档样本进行字符识别。

在一个实施例中，模型建立模块，用于对文档样本中的每一个字符进行编码，采用RGB来表示每一个字符；对编码后的字符进行字符识别，识别出文档样本中的文字块。

在一个实施例中，深度目标检测模型包括YOLO7模型。

关于文档解析装置的具体限定可以参见上文中对于方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参考图9，图9其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备90可以是计算机设备。本申请中的终端设备90可以包括一个或多个如下部件：处理器92、存储器94以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器94中并被配置为由一个或多个处理器92执行，一个或多个应用程序配置用于执行上述应用于文档解析方法实施例中所描述的方法。

处理器92可以包括一个或者多个处理核。处理器92利用各种接口和线路连接整个终端设备90内的各个部分，通过运行或执行存储在存储器94内的指令、程序、代码集或指令集，以及调用存储在存储器94内的数据，执行终端设备90的各种功能和处理数据。可选地，处理器92可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器92可集成中央处理器(Central ProcessingUnit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器92中，单独通过一块通信芯片进行实现。

存储器94可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器94可用于存储指令、程序、代码、代码集或指令集。存储器94可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备90在使用中所创建的数据等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

综上，本申请实施例提供的终端设备用于实现前述方法实施例中相应的文档解析方法，并具有相应的方法实施例的有益效果，在此不再赘述。

请参阅图10，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质1000中存储有程序代码，程序代码可被处理器调用执行上述文档解析方法实施例中所描述的方法。

计算机可读取存储介质100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质1000包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质1000具有执行上述方法中的任何方法步骤的程序代码1002的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1002可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档解析方法，其特征在于，所述方法包括：

获取待解析文档；

对所述边界框中的文字块进行解析，以得到解析结果；

2.根据权利要求1所述的方法，其特征在于，建立所述边框生成模型，包括：

获取带有线框的文档样本；

确定所述文档样本中线框的区域信息；

对所述文档样本进行字符识别，识别出所述文档样本中的文字块以及文字块的位置信息；

根据所述文字块的位置信息和所述线框的区域信息，确定每个所述文字块所属的线框；

对于所属线框的文字块，根据文字块的坐标计算出每一个文字块的目标边界框；

将所述文档样本中的文字块以及文字块的位置信息输入至所述深度目标检测模型，生成文字块的实际边界框；

对所述深度目标检测模型的权重进行调整，直至实际边界框与目标边界框的偏差在容许范围内时，训练完成，得到所述边框生成模型。

3.根据权利要求1所述的方法，其特征在于，所述获取带有线框的文档样本，包括：

采用计算机视觉工具从多个文档样本中筛选出带有线框的文档样本。

4.根据权利要求2所述的方法，其特征在于，所述根据文字块的坐标计算出每一个文字块的目标边界框，包括：

分别提取所述文字块的最左边、最右边、最上边以及最下边的坐标；

根据所述最左边、最右边、最上边以及最下边的坐标计算出每一个文字块的目标边界框。

5.根据权利要求2所述的方法，其特征在于，所述对所述文档样本进行字符识别，包括：

采用光学字符识别技术对所述文档样本进行字符识别。

6.根据权利要求2所述的方法，其特征在于，所述对所述文档样本进行字符识别，识别出所述文档样本中的文字块，包括：

对所述文档样本中的每一个字符进行编码，采用RGB来表示每一个字符；

对编码后的字符进行字符识别，识别出所述文档样本中的文字块。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述深度目标检测模型包括YOLO7模型。

8.一种文档解析装置，其特征在于，所述装置包括：

待解析文档获取模块，用于获取待解析文档；

9.一种终端设备，其特征在于，包括：

存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。