CN116932492B

CN116932492B - 用于版式文件识别数据存储优化方法

Info

Publication number: CN116932492B
Application number: CN202311187778.3A
Authority: CN
Inventors: 陆猛; 朱静宇; 范红达; 张伟
Original assignee: Beijing Dianju Information Technology Co ltd
Current assignee: Beijing Dianju Information Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-11-17
Anticipated expiration: 2043-09-15
Also published as: CN116932492A

Abstract

本发明涉及内容存储操作技术领域，具体涉及用于版式文件识别数据存储优化方法。该方法对版式文件对应的栅格数据聚类得到块区域；获取每个块区域边界上的变点和对应的特征描述子；根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值；不断对栅格数据下采样；根据每次下采样后同一变点的基准突变值的变化情况，确定变点的突出程度；基于变点的位置和对应的特征描述子，对变点分类得到分类类别；根据分类类别内变点的特征描述子和突出程度，确定变点的转折性；基于转折性保留部分变点作为采样点，基于采样点将栅格数据转化为矢量数据存储。本发明实现了对版式文件识别数据的存储优化，增强了存储压缩效果的鲁棒性。

Description

用于版式文件识别数据存储优化方法

技术领域

本发明涉及内容存储操作技术领域，具体涉及用于版式文件识别数据存储优化方法。

背景技术

版式文件识别是指将扫描或图像中的版式文件转换的过程，在进行版式文件识别时，需要处理大量的图像数据，为了提高版式文件识别的效率和准确性，可以选择合适的存储格式以实现有效地优化数据存储，对于版式文件识别结果，可以选择结构化的数据格式进行存储，以减少存储空间的占用。同时，可以考虑使用压缩算法对数据进行压缩，以减少存储空间的使用。栅格数据（Raster Data）则是一种数据表示方式，其中图像或地理空间信息被划分为一系列单元格，每个单元格包含一个特定位置上的数值。在版式文件中，如果将其转换为栅格数据，意味着将文本、图像等内容分割成单元格，并为每个单元格分配相应的数值或属性，可通过对版式文件对应的栅格数据转化为矢量数据进行存储，以减小数据量。

目前，对版式文件对应的栅格数据转化为矢量数据进行存储的方法，通常根据预定义的采样间隔，在栅格数据上均匀采样，将采样点转换为点要素，进而对栅格数据中的每个单元格进行矢量转换。但均匀采样的方法，往往会使得某些单元格，例如转折位置处的单元格不能很好保留，导致均匀采样的结果的准确性较低，当采样间距过大，会导致失真严重，当采样间距过小，会导致数据量的减小程度过小。

发明内容

为了解决均匀采样会使得转折位置处的单元格不能很好保留，会导致均匀采样的结果的准确性较低的技术问题，本发明的目的在于提供用于版式文件识别数据存储优化方法，所采用的技术方案具体如下：

获取版式文件对应的栅格数据；

对栅格数据进行聚类得到块区域；检测出每个块区域边界上的变点，并确定变点对应的特征描述子；

连接变点得到边缘线，根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值；

不断对栅格数据进行下采样，直至下一次下采样后变点的数量发生变化时，停止下采样；根据每次下采样后同一变点的基准突变值的变化情况，确定变点的突出程度；

基于变点的位置和对应的特征描述子，对变点进行分类，得到分类类别；根据分类类别内变点的特征描述子和突出程度，确定变点的转折性；基于转折性保留部分变点作为采样点，基于采样点，将版式文件对应的栅格数据转化为矢量数据存储。

优选的，所述根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值，包括：

从水平向右方向开始沿着顺时针方向，获取与每个变点连接的第一条和最后一条边缘线所构成的角度；对每个变点对应的所述角度进行归一化，得到每个变点的基准突变值。

优选的，所述根据每次下采样后同一变点的基准突变值的变化情况，确定变点的突出程度，包括：

基于高斯金字塔采样，由不同下采样后得到的每个变点的基准突变值，构建基准突变值序列；

利用多阈值分割算法，分割基准突变值序列，得到分割段，将基准突变值序列的第一个分割段内的基准突变值的均值，作为突出基准值；

将变点的基准突变值序列中每个基准突变值的次序值作为横坐标，每个基准突变值作为纵坐标，将所有坐标作为PCA算法的输入，得到协方差矩阵，计算协方差矩阵的特征值和相应的特征向量，将最大特征值对应的特征向量的反正切值作为角度差值；

对角度差值进行反比例归一化，得到调节值；将所述调节值和所述突出基准值的乘积作为变点的突出程度。

优选的，所述基于变点的位置和对应的特征描述子，对变点进行分类，得到分类类别，包括：

获取两两变点对应的特征描述子的相似度，将相似度大于预设相似阈值的变点划分至同一个初始类别；其中，预设相似阈值的取值为正数；

对同一初始类别内的变点进行密度聚类，得到分类类别。

优选的，所述根据分类类别内变点的特征描述子和突出程度，确定变点的转折性，包括：

对于任意变点，计算该变点与所属分类类别内其他变点的特征描述子的相似度之和，作为第一相似值，计算该变点所属分类类别内的中心点与分类类别内其他变点的特征描述子的相似度之和，作为第二相似值；对所述第一相似值和所述第二相似值的比值进行负相关映射，得到转折调节值；

根据所述转折调节值和所述突出程度确定变点的转折性，其中，转折调节值和突出程度均与转折性呈正比关系。

优选的，所述根据所述转折调节值和所述突出程度确定变点的转折性，包括：

将所述转折调节值和所述突出程度的乘积作为变点的转折性。

优选的，所述对栅格数据进行聚类得到块区域，包括：

栅格数据中的每个网格为一个单元格，根据单元格对应的数据值对栅格数据中的单元格聚类得到块区域。

优选的，所述检测出每个块区域边界上的变点，包括：

对每个块区域的边界通过贝叶斯信息准则方法进行检测，获得每个块区域边界上的变点。

优选的，所述基于转折性保留部分变点作为采样点，包括：

保留对应的转折性大于预设转折阈值的变点作为采样点，其中，预设转折阈值的取值为正数。

优选的，所述变点对应的特征描述子为：ORB特征描述子。

本发明实施例至少具有如下有益效果：

本发明涉及内容存储操作技术领域。该方法首先对版式文件对应的栅格数据进行聚类得到块区域；在对栅格数据转化为矢量数据存储时，通常对栅格数据中块区域的边界进行记录，使得整体的矢量形状与栅格形状相比，能最大程度的保留有效数据，故进一步的获取每个块区域边界上的变点和对应的特征描述子；突变程度越大的变点通常越需要被保存，故进一步根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值；不断对栅格数据进行下采样，根据每次下采样后同一变点的基准突变值的变化情况确定变点的突出程度，由于下采样后会对栅格数据中的变点进行平滑，故可多次下采样后变点的突变程度的变化，进一步确定变点的突出程度；当变点所处的位置附近有较多特征描述子相似的变点时，该变点的重要程度则会越低，故根据变点的特征描述子和突出程度，确定变点的转折性；基于转折性保留部分变点作为采样点，基于采样点将版式文件对应的栅格数据转化为矢量数据存储，根据转折性保留采样点，在最大程度保留栅格数据的形状信息的同时，最大程度的减少数据数量。本发明通过分析计算，避免将不必要的变点作为采样点，基于保留的采样点，将栅格数据转化为矢量数据存储，在减少了数据量的同时，最大程度的保证了转换过程中的数据形状信息的损失，与现有的均匀采样的方法相比，对版式文件识别数据进行了较好的存储优化，增强了压缩效果的鲁棒性。实现了对版式文件识别数据的存储优化，增强了存储压缩效果的鲁棒性，提高了将栅格数据转化为矢量数据存储的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的用于版式文件识别数据存储优化方法的方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的用于版式文件识别数据存储优化方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明实施例提供了用于版式文件识别数据存储优化方法的具体实施方法，该方法适用于版式文件的数据存储场景。该场景下版式文件有对应的栅格数据。为了解决均匀采样会使得转折位置处的单元格不能很好保留，会导致均匀采样的结果的准确性较低的技术问题。本发明通过对转折性强的栅格数据中的单元格进行保留，使得整体的矢量形状与栅格形状相比，能最大程度的保留形状信息，同时最大程度地减少单元格数量，达到减小数据量的目的。

下面结合附图具体的说明本发明所提供的用于版式文件识别数据存储优化方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的用于版式文件识别数据存储优化方法的步骤流程图，该方法包括以下步骤：

步骤S100，获取版式文件对应的栅格数据。

首先采集得到版式文件对应的栅格数据。具体的：

首先对版式文件进行扫描，对于印刷品或手写的版式文件，首先需要将其进行图像扫描或数字化，可以生成一个包含页面内容的图像。

将图像中的文本和图像元素通过图像处理技术从图像中分离出来，其中，文本区域和图像区域可以被划分为多个小区域。

将图像分割后的每个小区域划分为网格，每个网格为一个单元格，单元格有对应的数据值，可以是颜色信息、灰度值或者其他属性。

对每个单元格赋予属性，其赋予的属性由原始的版式文件的内容所决定，例如文本单元格可以包含字符或单词的信息，图像单元格可以包含颜色信息。

将每个单元格的位置和属性信息存储为栅格数据集，该栅格数据集是一个二维数组或者类似的数据结构，得到栅格数据集即实现了获取版式文件所对应的栅格数据的过程。

步骤S200，对栅格数据进行聚类得到块区域；检测出每个块区域边界上的变点，并确定变点对应的特征描述子。

版式文件对应的栅格转矢量过程中，是对版式文件对应的栅格数据中的不同块区域的边界进行记录，同一块区域内的属性值相近，使得整体的矢量形状与栅格形状相比，能最大程度的保留即可。***单元格作为块区域边界上的变化点，只需对单元格进行较好的保留，即可达到该目的。因此首先对变点进行检测，且获得每个变点的特征描述子。

版式文件对应的栅格数据中的每个网格为一个单元格，根据单元格属性对栅格数据聚类得到多个块区域，也可以说根据单元格对应的数据值对栅格数据中的单元格进行聚类，得到多个块区域。需要说明的是，单元格对应的数据值由版式文件的内容所决定，在此不再对其进行具体限定。每个块区域由多个单元格构成，也即每个块区域由栅格数据中的多个网格构成。检测出每个块区域边界上的变点，具体的：对每个块区域的边界通过贝叶斯信息准则方法（BIC）进行检测，获得每个块区域边界上的变点。

并进一步的确定变点对应的特征描述子，具体的：对每个块区域边界进行计算，得到每个变点的ORB(Oriented FAST and Rotated BRIEF)特征描述子，称之为特征描述子。

步骤S300，连接变点得到边缘线，根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值。

数据采样过程中，如果变点的突出范围一直较大，则该变点需要越大程度的保留，使得在最终的矢量数据中体现出该变点信息；突出范围，即较大的突出性，由于均值采样是一个数据模糊过程，因此模糊程度变大过程中，抗模糊能力越强，即该变点在越大模糊程度中能保留突出性，即该变点的突出范围越大，该变点越重要，越需要保留。

变点表示的是方向的转变，沿着顺时针方向，例如变点前面的线称之为前线，变点后面的线称之为后线，沿着前线方向前进过程中，后线的转变角度越大，该变点的突出程度越大，在越大模糊程度中突出程度保持不变的能力越大，突出程度越大；本身的突出程度越大的情况下，不同模糊程度下保持不变的能力越大，突出程度越大。

故连接变点得到边缘线，进一步根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值，具体的：从水平向右方向开始沿着顺时针方向，获取与每个变点连接的第一条和最后一条边缘线所构成的角度；对每个变点对应的所述角度进行归一化，得到每个变点的基准突变值。更具体的：首先赋予栅格数据中每个块区域的边缘一个方向值，将每个变点的第一条边缘先和最后一条边缘线的方向值的矢量角度值与180的比值作为每个变点的基准突变值，即在本发明实施例中通过将矢量角度值比上180以实现对矢量角度值的归一化。

步骤S400，不断对栅格数据进行下采样，直至下一次下采样后变点的数量发生变化时，停止下采样；根据每次下采样后同一变点的基准突变值的变化情况，确定变点的突出程度。

在高斯金字塔采样模糊过程中，变点周围的点会受周围点的影响，变点的数据逐渐被平滑，与变点相连接的不同边缘点的位置往往会发生变化，进而可能会导致每个变点的基准突变值发生变化。下采样过程中，栅格数据会模糊，同时栅格数据也会变小，变点会逐渐被平滑。采样参数设置为：采用2*2的窗口，对栅格数据进行均值采样，采样步长为1，也可以说窗口的滑动步长为1。不断对栅格数据进行下采样，直至下一次下采样后变点的数量发生变化时，停止下采样；也即为不断对栅格数据进行下采样，直至下采样后变点的数量发生变化时，停止下采样，保留变点的数量发生变化的前一次下采样，不保留变点发生变化时对应的下采样数据。

对每次下采样后的栅格数据进行变点检测，得到每次下采样后的栅格数据中的变点，根据变点在不同次下采样后的栅格数据中的相对位置。可以得到上一次下采样后栅格数据与下一次下采样后栅格数据中对应的变点，也可以理解为根据变点在不同次下采样后的栅格数据中的相对位置，得到未进行下采样的栅格数据中的变点在不同次下采样后的栅格数据中所对应的变点。所对应的变点即为实际为同一个变点，只不过是位于不同次的下采样后的栅格数据中。

根据每次下采样后同一变点的基准突变值的变化情况，确定变点的突出程度，具体的：基于高斯金字塔采样，由不同下采样后得到的每个变点的基准突变值，构建基准突变值序列。利用多阈值分割算法，分割基准突变值序列，得到分割段，将基准突变值序列的第一个分割段内的基准突变值的均值，作为突出基准值。将变点的基准突变值序列中每个基准突变值的次序值作为横坐标，每个基准突变值作为纵坐标，将所有坐标作为主成分分析算法（PCA）的输入，得到协方差矩阵，计算协方差矩阵的特征值和相应的特征向量，将最大特征值对应的特征向量的反正切值作为角度差值。对角度差值进行反比例归一化，得到调节值；将所述调节值和所述突出基准值的乘积作为变点的突出程度。

其中，利用多阈值分割算法（OTSU）对基准突变值序列进行分割，得到多个分割段，位于同一分割段内的基准突变值较为相近，不同分割段内的基准突变值通常相差较大。需要说明的是，将基准突变值序列看作为一维图像，使用多阈值分割算法将其分成多个部分，每个部分对应为一个分割段，可以由实施者手动设置多个阈值，还可以使用自适应算法获取自适应阈值。

变点的突出程度的计算公式为：

其中，为第i个变点的突出程度；/>为第i个变点的突出基准值；/>为自然常数；/>为第i个变点的角度差值；/>为调节值。

在本发明实施例中通过以自然常数e为底数，以负的角度差值为指数的指数函数，实现对角度差值/>的反比例归一化。

其中，该突出基准值是基于变点在不同采样时对应的基准突变值得到的，基准突变值反映了变点的突变情况，故该突出基准值也进一步的可以反映变点的突变情况，该突出基准值和变点的突出程度呈正相关关系。角度差值可以说反映的是最大特征值对应的特征向量的对应方向与水平向右方向的角度差异，该角度差值越小，则突出的减小趋势越小，对应的变点的突出程度越大，故角度差值和变点的突出程度应为反比关系。本发明对角度差值进行反比例归一化，实现将角度差值和突出程度的比例关系设定为反比关系。

步骤S500，基于变点的位置和对应的特征描述子，对变点进行分类，得到分类类别；根据分类类别内变点的特征描述子和突出程度，确定变点的转折性；基于转折性保留部分变点作为采样点，基于采样点，将版式文件对应的栅格数据转化为矢量数据存储。

位于较多相近的特征描述子对应的多个变点中间的变点，被舍弃时通常不会导致丢失重要数据，例如栅格数据中锯齿状边缘上的变点。同时，变点的突出程度越小，则越位于较多相近的特征描述子对应的多个变点中间，则该变点的保留程度越低，越可以舍弃该变点。

根据步骤S200得到了每个变点对应的特征描述子，基于变点的位置和对应的特征描述子，对变点进行分类，得到分类类别，具体的：

首先，获取两两变点对应的特征描述子的相似度，将相似度大于预设相似阈值的变点划分至同一个初始类别；其中，预设相似阈值的取值为正数。在本发明实施例中预设相似阈值的取值为0.7，在其他实施例中可由实施者根据实际情况调整该取值。

一个初始类别就是一些变点的集合体，同时，保证同一初始类别中任意两个变点之间的特征描述子的相似度都大于预设相似阈值，从而得到了多个初始类别。

然后，对同一初始类别内的变点进行密度聚类，得到分类类别。需要说明的是，基于密度进行聚类的方法有很多，在此不再进行限定。同一分类类别内的变点，不仅特征描述子相似度较大，且变点之间的欧式距离较小，而位于不同分类类别内的变点的欧式距离相对较大。

根据分类类别内变点的特征描述子和突出程度，确定变点的转折性，具体的：对于任意变点，计算该变点与所属分类类别内其他变点的特征描述子的相似度之和，作为第一相似值，计算该变点所属分类类别内的中心点与分类类别内其他变点的特征描述子的相似度之和，作为第二相似值；对所述第一相似值和所述第二相似值的比值进行负相关映射，得到转折调节值。根据所述转折调节值和所述突出程度确定变点的转折性，其中，转折调节值和突出程度均与转折性呈正比关系。在本发明实施例中直接将所述转折调节值和所述突出程度的乘积作为变点的转折性，在其他实施例中还可以转折调节值和突出程度的和值作为转折性。

该转折性的计算公式为：

其中，为第i个变点的转折性；/>为第i个变点的突出程度；/>为自然常数；/>为第i个变点对应的第一相似值；/>为第i个变点对应的第二相似值；/>为第i个变点的转折调节值。

在变点的转折性的计算公式中，反映了该变点在分类类别内的类别中心性，/>中反映的是该变点与所属分类类别内其他变点的特征描述子的余弦相似度之和；/>反映的是该变点所属分类类别内的中心点与分类类别内其他变点的特征描述子的余弦相似度之和。类别中心性越大，则反映该变点越位于较多相近的特征描述子对应的多个变点的中间，则对应的该变点的转折性较弱，该变点越可以被舍弃，该变点的突出程度越大，转折性越强，则该变点越需要保留。其中/>为变点的突出程度，该突出程度越大，则该变点的转折性越强。转折调节值和突出程度均与变点的转折性呈正相关关系。在转折性的计算公式中，同样通过以自然常数为底数，以/>为指数的指数函数，实现对/>的反比例归一化。

以此得到了每个变点的转折性，转折性越大的变点可以保留越多的单元格形状信息，因此越需要保留。

进一步的，基于转折性保留部分变点作为采样点，具体的：保留对应的转折性大于预设转折阈值的变点作为采样点。其中，预设转折阈值的取值为正数，在本发明实施例中，预设转折阈值的取值为0.7，在其他实施例中可由实施者根据实际情况调节该取值。

将矢量数据构建时，将基于转折性保留的部分变点作为采样点；基于采样点，将版式文件对应的栅格数据转化为矢量数据存储。通过分析计算，避免将不必要的变点作为采样点参与矢量数据的构建，基于采样点，将栅格数据转化为矢量数据存储，在减少了数据量的同时，最大程度的保证了转换过程中的数据形状信息的损失，与现有的均匀采样的方法相比，对版式文件识别数据进行了较好的存储优化，增强了压缩效果的鲁棒性。

本发明涉及内容存储操作技术领域。该方法首先获取版式文件对应的栅格数据；对栅格数据进行聚类得到块区域；检测出每个块区域边界上的变点，并确定变点对应的特征描述子；连接变点得到边缘线，根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值；不断对栅格数据进行下采样，直至下一次下采样后变点的数量发生变化时，停止下采样；根据每次下采样后同一变点的基准突变值的变化情况，确定变点的突出程度；基于变点对应的特征描述子，对变点进行分类，得到分类类别；根据分类类别内变点的特征描述子和突出程度，确定变点的转折性；基于转折性保留部分变点作为采样点，基于采样点将版式文件对应的栅格数据转化为矢量数据存储。本发明实现了对版式文件识别数据的存储优化，增强了存储压缩效果的鲁棒性。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种用于版式文件识别数据存储优化方法，其特征在于，该方法包括以下步骤：

获取版式文件对应的栅格数据；

2.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述根据与变点所连接的不同边缘线的方向差异，确定变点的基准突变值，包括：

3.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述根据每次下采样后同一变点的基准突变值的变化情况，确定变点的突出程度，包括：

4.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述基于变点的位置和对应的特征描述子，对变点进行分类，得到分类类别，包括：

对同一初始类别内的变点进行密度聚类，得到分类类别。

5.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述根据分类类别内变点的特征描述子和突出程度，确定变点的转折性，包括：

6.根据权利要求5所述的用于版式文件识别数据存储优化方法，其特征在于，所述根据所述转折调节值和所述突出程度确定变点的转折性，包括：

7.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述对栅格数据进行聚类得到块区域，包括：

8.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述检测出每个块区域边界上的变点，包括：

9.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述基于转折性保留部分变点作为采样点，包括：

10.根据权利要求1所述的用于版式文件识别数据存储优化方法，其特征在于，所述变点对应的特征描述子为：ORB特征描述子。