CN112215159B

CN112215159B - 一种基于ocr和人工智能技术的国际贸易单证拆分***

Info

Publication number: CN112215159B
Application number: CN202011092404.XA
Authority: CN
Inventors: 胡晓燕; 金东�
Original assignee: Suzhou Industrial Park Customs Declaration Co ltd
Current assignee: Suzhou Industrial Park Customs Declaration Co ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-05-07
Anticipated expiration: 2040-10-13
Also published as: CN112215159A

Abstract

本发明提供了一种基于OCR和人工智能技术的国际贸易单证拆分***，其包括拆分模块、识别模块、判断模块、合并模块和存放模块；所述拆分模块用于将国际贸易单证拆分为多个单页，并获取每个单页的图像；所述识别模块用于获取单页的图像中包含的特征信息；所述判断模块用于将所述特征信息与预存的单证模板进行匹配，判断所述单页所属的单据类型；所述合并模块用于将属于同一单据类型的单页进行合并，得到多个不同单据类型的单据；所述存放模块用于使用提单号对所述单据进行命名，并将命名后的单据存放到专用文件夹中。本发明能够解决现有技术中，对国际贸易单证进行拆分存在的工作效率低，容易分类出错的问题。

Description

一种基于OCR和人工智能技术的国际贸易单证拆分***

技术领域

本发明涉及拆分领域，具体涉及一种基于OCR和人工智能技术的国际贸易单证拆分***。

背景技术

物流报关公司在每天处理大量国际贸易单证时，准备报关申报用的单据，所有单据按照***要求，需要把PDF文档分成提单、***、箱单、委托书、核对单等几个单独的PDF上传到单一窗口申报***中，由于境外来的单证PDF格式各异，大部分是所有的单证包括提单、***、箱单等做成一个PDF文件，需要人工先全部打印出来，再分好类重新扫描成几个单独的PDF文件，重命名各自文件，分类逐个到上传单一窗口，因为每天处理的单证很多，不但效率低，而且很容易出差错。

发明内容

针对上述问题，本发明提供了一种基于OCR和人工智能技术的国际贸易单证拆分***，以解决上述问题。

本申请提供了一种基于OCR和人工智能技术的国际贸易单证拆分***，其包括拆分模块、识别模块、判断模块、合并模块和存放模块；

所述拆分模块用于将国际贸易单证拆分为多个单页，并获取每个单页的图像；

所述识别模块用于获取单页的图像中包含的特征信息；

所述判断模块用于将所述特征信息与预存的单证模板进行匹配，判断所述单页所属的单据类型；

所述合并模块用于将属于同一单据类型的单页进行合并，得到多个不同单据类型的单据；

所述存放模块用于使用提单号对所述单据进行命名，并将命名后的单据存放到专用文件夹中。

本发明的有益效果为：

本发明先识别出国际贸易单证每页的特征信息，再利对识别出的内容进行匹配后分类，自动分拆成不同类型的单据，并以提单号为前缀作为文件名自动命名，存放在一个文件夹中，利用与总署的报文接口和规范，自动抓取需要的单据做到申报的报文中，发送给单一窗口，解决了人工打印、分类、重新扫描、命名文件、查找对应的文件上传等操作带来的工作量大，工作效率低，容易分类出错的问题，由于采用了人工智能技术进行分解，显然能够极大地提高正确率。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1，为本发明一种基于OCR和人工智能技术的国际贸易单证拆分***的一种示例性实施例图。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1，本发明提供了一种基于OCR和人工智能技术的国际贸易单证拆分***，其包括拆分模块1、识别模块2、判断模块3、合并模块4和存放模块5；

所述拆分模块1用于将国际贸易单证拆分为多个单页，并获取每个单页的图像；

所述识别模块2用于获取单页的图像中包含的特征信息；

所述判断模块3用于将所述特征信息与预存的单证模板进行匹配，判断所述单页所属的单据类型；

所述合并模块4用于将属于同一单据类型的单页进行合并，得到多个不同单据类型的单据；

所述存放模块5用于使用提单号对所述单据进行命名，并将命名后的单据存放到专用文件夹中。

单据类型包括成提单、***、装箱单、到货通知单等。

在一种实施例中，将国际贸易单证拆分为多个单页，并获取每个单页的图像，包括：

将进出口单证转换为PDF格式的文档，并将所述文档拆分成多个PDF格式的单页，并获取所述PDF格式的单页的图像。

在一种实施例中，获取单页的图像中包含的特征信息，包括：

将所述单页的图像转换为灰度图像；

对所述灰度图像进行二值化处理，获得二值化图像；

对所述二值化图像进行OCR文字识别，将识别出的文字以及所述文字所处的位置作为特征信息。

在一种实施例中，所述单页的图像转换为灰度图像，包括：

使用加权平均值法将所述单页的图像转换为灰度图像。

在一种实施例中，使用加权平均值法将所述单页的图像转换为灰度图像，包括：

使用下述公式将所述单页的图像转换为灰度图像：

g(x,y)＝0.12B(x,y)+0.59G(x,y)+0.3R(x,y)

式中，R(x,y)、G(x,y)和B(x,y)分别表示位置为(x,y)的像素点的在RGB颜色空间中的红色分量值、绿色分量值和蓝色分量值；g(x,y)表示为(x,y)的像素点的灰度值。

在一种实施例中，对所述灰度图像进行二值化处理，获得二值化图像，包括：

对所述灰度图像进行分块处理，获得多个图像块；

计算每个图像块内的灰度均值，并将所述灰度均值与第一均值阈值进行对比，若所述灰度均值小于所述第一均值阈值，则将所述图像块标记为非背景图像块；

对于非背景图像块，判断其灰度均值是否小于设定的第二均值阈值，若是，则将其标记为前景图像块，若否，则将其标记为边缘图像块，第二均值阈值小于第一均值阈值；

对边缘图像块进行降噪处理，获得降噪图像块；

对降噪图像块，使用边缘检测算法对其进行计算，获得边缘像素点；

将边缘像素点作为种子点，进行区域生长，将区域生长得到的连通区域中的像素点作为前景像素点；

在灰度图像中，将所有前景像素点的灰度值设置为0，将所有非前景像素点的灰度值设置为255，从而得到二值化图像。

在一种实施例中，将区域生长得到的连通区域中的像素点作为前景像素点，包括：判断所述连通区域的面积，若所述面积小于设定的面积阈值，则将所述连通区域中的像素点作为非前景像素点，否则，将所述连通区域中的像素点作为前景像素点。

若一个边缘像素点已经被划分到某个连通区域，则该边缘像素点不再作为种子点。

这种设置能够避免无效的运算，加快对灰度图像进行二值化处理的速度。

本发明所采用的二值化方式跟现有技术中的并不相同，通过设置第一均值阈值，先把背景图像块去掉，然后再根据第二均值阈值，把剩余的图像块中的前景图像块去掉，剩下的就是边缘图像块了，这样子，相较于传统的全局边缘检测而言，只需要对边缘图像块进行边缘检测计算即可，能够极大地减少运算量，从而能够提高国际贸易单证拆分的速度。现有技术中，边缘检测之后，需要对边缘像素点进行连接，得到封闭区域，然后再将封闭区域中的像素点作为前景像素点，但是，由于一些非边缘像素点会被误检测为边缘像素点，这样子，会导致获得的前景像素点不够准确，而本申请通过将边缘像素点作为种子点，采用区域生长的方式来获得连通区域，并将面积过小的连通区域中的像素点作为非前景像素点，这样就能很好地克服现有技术中存在的技术问题，提高了计算得到的前景像素点的准确性，进而提高二值化的准确性。现有技术中，采用区域生长时，种子点一般需要人工指定，而本申请通过将边缘像素点作为种子点，能够避免需要人工指定种子点的问题，提高二值化处理的计算效率。在边缘检测前先进行滤波处理，能够避免噪点被错误检测成边缘像素点，因为噪点与其邻域像素点之间的差异往往也会比较大，很容易被错认为是边缘像素点。

在一种实施例中，对边缘图像块进行降噪处理，获得降噪图像块，包括：

对边缘图像块进行总层数为B的小波分解，获得高频系数图像和低频系数图像；

对第B层的低频系数图像，使用下述方式进行处理：

根据降噪窗口的大小分别计算降噪窗口中心的像素点与低频系数图像中其它像素点的相关度的集合；

使用滑动的降噪窗口对低频系数图像中的像素点进行降噪处理，对降噪窗口中心的像素点，处理如下：

式中，al(c)表示降噪窗口中心的像素点c降噪后的像素值，nei_c表示所述降噪窗口中，像素点c的邻域像素点的集合，qz(c,d)表示像素点c和nei_c中的像素点d之间的相关度，l_d表示nei_c中的像素点d的像素值；

对每层的小波高频系数图像，若|h(x,y)|≥t，则进行如下处理：

若|h(x,y)|＜t，则进行如下处理：

ah(x,y)＝0×h(x,y)

式中，ah(x,y)和h(x,y)分别表示小波高频系数图像中位置为(x,y)的像素点处理后的像素值和处理前的像素值，t表示预设的阈值参数，fh表示符号函数，b表示小波分解的层数，b∈[1,B]；

将处理后的高频系数图像和低频系数图像进行重构，得到降噪图像块。

上述降噪方式，能够在保持图像边缘细节信息的同时，对噪声进行有效的去除。具体地，对低频系数图像进行降噪时，通过计算降噪窗口中心的像素点与窗口内其它像素点之间的相关度，使用降噪窗口中的邻域像素点的加权像素值作为降噪窗口中心的像素点的像素值，能够有效地对图像进行降噪，同时保留细节信息。在对高频系数图像进行降噪时，通过对小波分解层数b的合理利用，随着b的数值的增大，处理结果的下降速度不断变小，最终逐渐再小区间中波动，能够有效地降低现有技术中，随着b的数值的增大，处理结果下降速度过快导致的处理结果不准确的问题。

在一种实施例中，根据降噪窗口的大小分别计算降噪窗口中心的像素点与低频系数图像中其它像素点的相关度的集合，包括：

(1)对每个像素点进行编号，对于编号为e的像素点，其相关度集合qzU(e)表示为qzU(e)＝{qz(e,1),…,qz(e,n),…,qz(e,N)}，式中，qz(e,n)表示e和以e为中心的降噪窗口内的第n个邻域像素点之间的相关度，N表示降噪窗口内邻域像素点的总数，

(2)判断降噪窗口内的第n个邻域像素点的相关度集合中是否已经存有其与e之间的相关度，若是，则直接将所述相关度复制到e的相关度集合中的相应区域，若否，则计算降噪窗口内的第n个邻域像素点和e之间的相关度，并存入qzU(e)中相应的区域；

(3)所述相关度通过如下方式进行计算：

式中，β表示预设的调节系数，Q表示边缘图像块中所有像素点的坐标的集合，F(i,j)表示Q中坐标为(i,j)的像素点的像素值，ub表示设定的卷积模板，tdma表示边缘图像块中的梯度最大值，M₁和M₂分别表示边缘图像块中像素点的列数和行数，nosW表示比较窗口中的像素点的总数，ave_e分别表示以e为中心的，k×k大小的比较窗口中的像素点的像素值的均值，ave_n表示以降噪窗口内的第n个邻域像素点为中心的，k×k大小的比较窗口中的像素点的像素值的均值，fc_e表示以e为中心的，k×k大小的比较窗口中的像素点的像素值的方差，fc_n表示以降噪窗口内的第n个邻域像素点为中心的，k×k大小的比较窗口中的像素点的像素值的方差，F_e表示e的像素值，F_n表示降噪窗口内的第n个邻域像素点的像素值，α1、α2和α3表示设定的比例系数。

在计算相关度时，并不是简单地重复进行计算，这样子速度太慢，而是通过判断当前正在计算的像素点的邻域像素点的相关度的集合中是否已经计算过两者之间的相关度，从而确定是否需要进行计算，这样子，显然能够极大地提高得到所有像素点的与其它像素点的相关度的集合的速度。这样子做的好处在于，需要进行像对低频系数图像进行降噪处理这样的计算时，直接调取降噪窗口中的邻域像素点的所述集合中的相关数据即可，能够极大地加快降噪处理的速度。而传统的使用滑动窗口进行降噪的方式，邻域像素点与降噪窗口中心的像素点之间的相关度都是等窗口滑动后再进行计算，而且很多像素点之间的相关度被重复计算，极大地浪费了计算资源，同时也拖慢了计算速度，而本申请可以很好地缓解这个问题。传统的滑动窗口降噪方式，例如，对于一个3×3大小的降噪窗口w1，当以w1中的左上角的邻域像素点s1为降噪窗口w2的中心时，s1与s2之间的相关度已经在对s1进行降噪时被计算过一次，传统的降噪方式会在对s2进行降噪时，会再次计算s1与s2之间的相关度，这样子，显然是浪费计算资源的。

在计算相关度时，通过考虑了e和e的邻域像素点在比较窗口中的像素点的像素值均值，像素值方差等方面的差异，同时也考虑了比较窗口中的像素点的数量、边缘图像块中的像素点的数量等因素，在相关度过小时，可以适当增大相关度，在相似度过大时，可以适当减小相关度，实现对低频系数图像的稳定降噪，更好地保护低频系数图像的细节信息。

在一种实施例中，将所述特征信息与预存的单证模板进行匹配，判断所述单页所属的单据类型，包括：

将所述特征信息输入到预先训练好的神经网络分类器中，使用所述神经网络分类器将所述特征信息与预存的单证模板进行匹配，从而确定单页所属的单据类型。

由于境外的单证格式各异，提单、***等名称都不一样，仅仅OCR识别不解决问题，需要通过学习不同格式的单证，方可理解后自动分拆成不同的内容，包括提单、***、箱单等。

在一种实施例中，若匹配失败，则提示重新提取特征信息，若重复匹配Np次后，仍然匹配失败，则表明这是个全新格式的国际贸易单证。获取所述国际贸易单证的单证模板，并对所述单证模板进行存储，便于后续对这种格式的国际贸易单证进行分类识别。Np为设定的匹配次数阈值。

在一种实施例中，识别模块2提取的特征信息与预存的单证模板通过如下方式进行匹配：

识别模块2提取的特征信息表示为特征向量v_i，预存的单证模板的特征信息的特征向量为vm_j，v_i＝{d(v_i,1),d(v_i,2),…,d(v_i,nt-1)},v_i表示二值化图像中的文字的组成的集合V中的第i个元素，nt表示集合V中的元素的总数，d(v_i,nt-1)表示v_i与集合V中除了v_i之外的第nt-1个元素之间的归一化距离，vm_j＝{d(vm_j,1),d(vm_j,2),…,d(vm_j,mt-1)}，vm_j表示单证模板中的文字的组成的集合Vm中的第j个元素，mt表示Vm中的元素的总数，d(vm_j,mt-1)表示vm_j与集合Vm中除了vm_j之外的第mt-1个元素之间的归一化距离，

判断集合V中的元素总数与集合Vm中的元素总数是否相同，若是，则判断集合V中的每个元素与集合Vm中的每个元素之间的相似度，若否，则采用下一个单证模板与识别模块2提取的特征信息进行匹配。

在一种实施例中，所述相似度通过如下公式进行计算：

判断所述相似度是否大于设定的相似度阈值，若是，则匹配成功，若否，则匹配失败，采用下一个单证模板与识别模块2提取的特征信息进行匹配。

在一种实施例中，归一化距离通过如下方式进行计算，集合V中除了v_i之外的元素组成集合Vb，v_i与Vb之间的元素vb_k之间的归一化距离为：

式中，od(v_i,vb_k)表示v_i与Vb中第k个元素vb_k之间的欧氏距离，od(v_i,vb_h)表示v_i与Vb中元素vb_h之间的欧氏距离。

在本申请中，特征信息的匹配主要依靠文字以及文字之间的相对位置，对于同一种类型的贸易单证，其上面的一些会重复出现的文字之间的相对位置是固定不变的，例如，很多贸易单证会有日期，出发地，目的地等，对于同一种类型的贸易单证，这些文字之间的相对位置是固定不变的，利用这个特征，本申请能够快速地对国际贸易单证进行分类，从而避免了现有技术中，通过计算图像的特征点进行图像匹配存在的计算量过大，匹配速度较慢的问题。本申请中的文字并不仅限于单个文字，也可以是词语，例如前面提到的日期这种词语。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于OCR和人工智能技术的国际贸易单证拆分***，其特征在于，其包括拆分模块、识别模块、判断模块、合并模块和存放模块；

所述识别模块用于获取单页的图像中包含的特征信息；

所述判断模块用于将所述特征信息与预存的单证模板进行匹配，判断所述单页所属的单证类型；

所述合并模块用于将属于同一单证类型的单页进行合并，得到多个不同单证类型的单证；

所述存放模块用于使用提单号对所述单证进行命名，并将命名后的单证存放到专用文件夹中。

2.根据权利要求1所述的一种基于OCR和人工智能技术的国际贸易单证拆分***，其特征在于，将国际贸易单证拆分为多个单页，并获取每个单页的图像，包括：

将国际贸易单证转换为PDF格式的文档，并将所述文档拆分成多个PDF格式的单页，并获取所述PDF格式的单页的图像。

3.根据权利要求2所述的一种基于OCR和人工智能技术的国际贸易单证拆分***，其特征在于，获取单页的图像中包含的特征信息，包括：

将所述单页的图像转换为灰度图像；

对所述灰度图像进行二值化处理，获得二值化图像；

4.根据权利要求3所述的一种基于OCR和人工智能技术的国际贸易单证拆分***，其特征在于，所述单页的图像转换为灰度图像，包括：

使用加权平均值法将所述单页的图像转换为灰度图像。

5.根据权利要求3所述的一种基于OCR和人工智能技术的国际贸易单证拆分***，其特征在于，对所述灰度图像进行二值化处理，获得二值化图像，包括：

对所述灰度图像进行分块处理，获得多个图像块；

对边缘图像块进行降噪处理，获得降噪图像块；

6.根据权利要求1所述的一种基于OCR和人工智能技术的国际贸易单证拆分***，其特征在于，将所述特征信息与预存的单证模板进行匹配，判断所述单页所属的单证类型，包括：

将所述特征信息输入到预先训练好的神经网络分类器中，使用所述神经网络分类器将所述特征信息与预存的单证模板进行匹配，从而确定单页所属的单证类型。