CN113392848A

CN113392848A - 一种基于深度学习的圆柱体上ocr的读取方法及其设备

Info

Publication number: CN113392848A
Application number: CN202110948821.8A
Authority: CN
Inventors: 施晨涛; 任世强; 吴潘
Original assignee: Hitery Tianjin Technology Co ltd
Current assignee: Hitery Tianjin Technology Co ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-09-14

Abstract

本发明公开了一种基于深度学习的圆柱体上OCR的读取方法及其设备，解决了圆柱体弧面无法稳定成像读取OCR的问题，并能兼容不同颜色以及字体的OCR字符；该发明切实可行，并取得了稳定效果，且所需时间短，无需人工参与，可以产品数字化管理以及追溯奠定良好基础；该方法可灵活用于现有产线的改造，所需的硬件改动极少，不需设计复杂的工业视觉***，对相关问题的方案设计有一定的借鉴意义。

Description

一种基于深度学习的圆柱体上OCR的读取方法及其设备

技术领域

本发明涉及及图像识别技术领域，尤其涉及一种基于深度学习的圆柱体上OCR的读取方法及其设备。

背景技术

OCR识别检测是计算机图像处理在机器视觉上的重要应用技术，其完成的主功能通过对图像进行处理提出特征，进一步分析提取字符信息以及其对应的位置信息。再通过位置信息按照字符位置排列顺序进行整合形成符合逻辑的文字信息，为后面物体数字化数据库入档以及产品追溯管理提供基础。OCR读取在工业中有广泛的应用，是数字化工厂必不可少的一个环节，平面OCR字符具有比较成熟的应用以及解决方案，但是对于一些特殊行业，比如自行车行业，OCR字符印刷在弧面，广泛存在于工业生产设计过程中，因为打光以及相机难以成像的原因，目前OCR信息的读取以及校准主要由人工完成，存在的主要问题有：（1）人力成本过高；（2）效率低下；（3）准确率无法得到保障；（4）无法解决生产制造过程中字符的问题，阻碍数字化工厂形成闭环。

现有的曲面OCR识别方法主要分为4类：（1）基于X光成像读取方法，由X光照射形成对于的图像信息进行读取（2）基于线激光3D成像的读取方法，通过一个点激光与平面相机校准拍摄形成三维图像信息进行读取（3）线扫相机成像的读取方法，通过使相机或者识别物体运动成像读取（4）基于多面光成像的读取方法，通过控制相机拍多次在不同角度的光源下的图片，合成一张2.5D的图像进行读取。

基于X光成像的方法对于被测物体表面具有一定的损坏，无法应用于易损产品的读取。基于线激光3D成像的读取方法，一方面物体或者相机需要移动不能适用于固定的检测位置，并且对于低反光的材质成像效果不理想影响读取结果，另一方面由于制造成本高不易实现。线性扫描相机成像的读取，很难兼容不同景深的检测物体，并且检测物与相机需要产生相对运动，无法应用于固定场景。基于多面光成像的读取方法，一方面是产品成像依赖合成算法以及产品拍摄位置，不解决光源角度与合成算法的参数问题OCR位置不固定无法稳定成像，另一方面形成图像需要耗时，相对于普通检测耗时较长，不适用于高速检测场景。

曲面OCR读取的主要存在的难点：（1）难以稳定成像，曲面成像受到光源反射角度的比较大，成像视野越大越成像效果越差；（2） OCR字符无法稳定成像到同一张图片中进行处理；（3）对于不同材质以及颜色的产品OCR变化差异较大；（4） OCR字符大小与位置会发生一定的变化，字符形状也会发生一定变化。

现有方法无法实现对其稳定成像以及读取，利用面积分原理，对于OCR所在圆柱体的曲面截取其中一部分作为曲面，只要这部分曲面满足截面所在平面到弧面的最高点小于所选相机景深。就可以近似看作平面的特性，使用多相机，利用其特性结合具有较高鲁棒性的算法就兼容不同位置以及颜色角度的OCR进行稳定读取。

发明内容

针对背景技术的不足，本发明提供了一种基于深度学习的圆柱体上OCR的读取方法及其设备，在可见光图像中对圆柱体OCR字符进行识别，解决在圆柱体曲面下难以成像以及OCR识别困难的问题。基于深度学习的算法处理，使本方法可使用于各种颜色的圆柱体曲面OCR识别。本方法识别准确，耗时短，无需人工参与，可以为后续的工厂数字化管理奠定良好基础。

为了实现上述目的，本发明一方面提供如下实施例：一种基于深度学习的圆柱体上OCR的读取方法，包括如下步骤：

步骤一，至少选取两台相机进行拍照采集，根据OCR的大小选择合适的相机安装角度，使相邻两相机的重合视野区域面积不小于每个相机视野区域面积的1/3；

步骤二，设置相机参数并拍照采集；

步骤三，用YOLOv3搭建目标检测基础模型，用ResNet34模型搭建后端分类模型，得到深度学习模型；

步骤四，对相机采集到的图片数据样本进行标注，生成对应的样本标注文件；

步骤五，使用样本标注文件对深度学习模型进行训练，得到OCR模型；

步骤六，通过相机进行拍照采集图片数据；

步骤七，步骤六中的相机采集到的图片数据输入到步骤五中的OCR模型进行图片数据识别和字符标注处理，得到字符数据；

步骤八，步骤七得到的字符数据进行处理以及整合，实现OCR读取。

进一步的，步骤五中，所述深度学习模型包括cbr卷积模块、crc卷积模块及Deep卷积模块，所述cbr卷积模块由卷积层conv、批量标准化层bn及Relu激活函数相互串接形成，所述crc卷积模块由卷积层conv、Relu激活函数及卷积层conv串接形成，所述Deep卷积模块由两个cbr卷积模块串接形成，所述cbr卷积模块、所述crc卷积模块及所述Deep卷积模块用于对所述OCR图片进行特征抽取，形成所述OCR检测模型。

进一步的，步骤八中，还包括有去掉重复字符数据、对字符数据进行纵向排列和根据实际情况对字符集合进行分割以及整合三部分。

进一步的，步骤八中，去掉重复字符数据：从单张图片中出现检测出OCR的特征位置以及最大位置范围，深度学习模型将每个位置上的字符映射到多个类，每个类对应一个字符与类的相似度分数值，分数值的取值范围都是0到1，通过取同一位置的最高分数值去掉重复的字符数据。

进一步的，步骤八中，对字符数据进行纵向排列：通过对输出点的y方向的坐标y_i值进行升序排列，对于总个数是M，行数为N的字符处理方式是

其所在行数

其中n_k是字符所在的行数，M是字符总个数，N是字符行数，i是字符的索引，取值范围是0到M-1，y₁是所有字符中y坐标的最小值，y₂是所有字符中y坐标的最大值，y_j是所有字符中y坐标最小值与最大值的平均值。

进一步的，步骤六中，根据实际情况对字符集合进行分割以及整合：对于任意相机 Cam_L与Cam_R的单行字符的处理方式是在整个视野中取

个有效总字符满足总字符数

，其中L_L是左侧相机中的字符数，L_R是右侧相机中的字符数，且左侧相机从图像左侧开始取字符，右侧相机从图像右侧开始取字符，对每一行字符进行如上操作，得到拍摄弧面的全部字符。

本发明另一方面提供如下实施例：一种圆柱体上OCR的读取设备，包括：

至少两台相机；

光源；

处理器，所述处理器与所述相机、所述光源相连，其中，所述处理器包括图片融合及识别软件；以及

控制器，用于实现上述的一种基于深度学习的圆柱体上OCR的读取方法；

所述控制器分别与所述相机、所述光源和所述处理器相连，当所述光源照射到圆柱面上的OCR时，控制器控制所述相机在预设时间采集图像，获取多个OCR的部分平面图像，以及控制所述处理器运行所述图像融合及识别软件，融合所述多个OCR的部分平面图像，生成所述OCR的完整平面图像，并对所述完整平面图像进行处理和识别。

进一步的，所述相机为CCD图像传感相机或CMOS图像传感相机。

进一步的，还包括可旋转的圆柱体工件支撑机构。

与现有技术相比，本发明具有以下有益效果：

本发明充分借鉴了圆柱体曲面面积分的原理，解决了圆柱体弧面无法稳定成像读取OCR的问题，并能兼容不同颜色以及字体的OCR字符；该发明切实可行，并取得了稳定效果，且所需时间短，无需人工参与，可以产品数字化管理以及追溯奠定良好基础；该方法可灵活用于现有产线的改造，所需的硬件改动极少，不需设计复杂的工业视觉***，对相关问题的方案设计有一定的借鉴意义。

附图说明

图1为本发明的基于深度学习的圆柱体上OCR的读取方法的流程示意图。

图2为本发明的实施例1中相机检测原始图。

图3为本发明的实施例1中单个相机的读取结果。

图4为本发明的实施例1中整合后的最终读取效果图。

图5为本发明的一种圆柱体上OCR的读取设备的结构示意图。

图6为本发明的一种圆柱体上OCR的读取设备的俯视图。

图中：1、相机；2、光源；3、处理器；4、控制器。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

实施例1

请参阅图1，本发明提供一种基于深度学习的圆柱体上OCR的读取方法，包括如下步骤：

以下以两台相机为例：

步骤一，选取至少两台相机进行拍照取图检测，根据最大OCR的大小选择各个相机的安装角度，使得每两台相机分别照射到圆柱形OCR长度方向2/3处位置，相邻两相机的重合视野区域面积不小于每个相机视野区域面积的1/3；

具体的，根据图5可知，使用两个相机进行拍照取图检测，根据最大OCR的大小选择两个相机安装角度，使得相机Cam_L与Cam_R分别照射到圆柱形OCR长度方向2/3处位置，相邻两相机的重合视野区域面积不小于每个相机视野区域面积的1/3，使不同位置、不同大小的OCR都能清晰成像。

如图2所示，步骤二，设置合适的相机参数并拍照采集；

具体的，设置合适的相机参数并拍照采集，分别采集不同颜色以及不同状态的大量OCR图片，形成数据集；

步骤三，为了保证读取速度以及稳定性，用YOLOv3搭建目标检测基础模型，用ResNet34模型搭建后端分类模型，得到深度学习模型。

具体的，深度学习基础开发选DFAPI进行开发，框架选用开源框架PaddleX进行二次开发，主要考虑到PaddleX的性能以及国内深度学习的生态环境，此开源框架遵循ApacheLicense协议对商业友好，为了保证读取速度以及稳定性，目标检测基础模型选用YOLOv3，后端分类模型选用ResNet34模型进行识别。

步骤四，对相机采集到的图片进行标注，生成对应的样本标注文件；

具体的，通过自主研发软件软件DolphinFocus（以下简称：DF）对两个相机的图片进行全图数据标注，在每一张图片中选取特征字符进行标注，生成对应的样本标注数据文件，通过以及完成的OCR模型对现有的图片数据进行软件自动标注，完成后人为校验，或者设定字符大小使用软件标注，再通过人为标注无法软件标注的低分数字符。

进一步具体的，深度学习模型会将每个位置的字符映射到多个类，每个类对应一个字符与类的相似度分数值，分数值的取值范围都是0到1，软件标注分数值低于0.5的字符需要人为重新标注。

具体的，通过标注好的数据，对深度学习模型进行训练测试，得到OCR模型，用于对包含字符的待测图像进行OCR检测，形成检测结果。

进一步具体的，深度学习模型包括cbr卷积模块、crc卷积模块及Deep卷积模块，所述cbr卷积模块由卷积层conv、批量标准化层bn及Relu激活函数相互串接形成，所述crc卷积模块由卷积层conv、Relu激活函数及卷积层conv串接形成，所述Deep卷积模块由两个cbr卷积模块串接形成，所述cbr卷积模块、所述crc卷积模块及所述Deep卷积模块用于对所述OCR图片进行特征抽取，以得到所述OCR检测模型。

同时，为实现控制光源以及相机可以兼容不同产品背景，以便实现不同背景颜色以及材质的OCR识别物体，此方案还可以通过调节相机曝光来调节相机背景，相机曝光参数与产品番号绑定，在使用不同检测方案时采用不同曝光进行拍照取图检测。

如图3-4所示，步骤六，通过相机进行拍照采集图片数据；

进一步的，步骤八中，还包括有去掉重复字符、对字符数据进行成像排列和根据实际情况对字符集合进行分割以及整合三部分。

具体的，步骤八中，去掉重复字符数据：从单张图片中出现检测出OCR的特征位置以及最大位置范围，深度学习模型会将每个位置的字符映射到多个类，每个类对应一个字符与类的相似度分数值，分数值的取值范围都是0到1；

具体的，步骤八中，对字符数据进行纵向排列：通过对输出点的y方向的坐标y_i值进行升序排列，对于总个数是M，行数为N的字符处理方式是

其所在行数

具体的，步骤六中，根据实际情况对字符集合进行分割以及整合：对于任意相机 Cam_L与Cam_R的单行字符的处理方式是在整个视野中取

个有效总字符满足总字符数

，其中L_L是左侧相机中的字符数，L_R是右侧相机中的字符数，左侧相机从图像左侧开始取字符，右侧相机从图像右侧开始取字符，对每一行字符进行如上操作，得到拍摄弧面的全部字符。

举例说明

有2行字符，第一行内容为“12345678”，第二行为“abcdefgh”；2个相机，第1个相机视野内，能看到2行字符，第1行内容为“12345”，第2行内容为“abcde”；第2个相机视野内，能看到2行字符，第一行内容为“45678”，第2行内容为“defgh”。

第一步，去掉重复字符，同一个字符可能会识别出多个结果，例如字符“6”可能会被识别成“8”，但是识别成“6”的分数值为0.8，而识别成“8”的分数值为0.1，通过最大分数值来确定每个字符最终的识别结果。

第二步，纵向排列，字符内容被识别出来之后在竖直方向是乱序的，需要纵向排列，根据公式，计算出每个字符所在的行数，是在第1行还是第2行，通过计算得到，第1个相机的第1行字符内容为“12345”，第2行字符内容为“abcde”，第2个相机的第1行字符内容为“45678”，第2行内容为“defgh”。

第三步，分割整合，已知第1行有8个字符，第2行有8个字符，因此在第1个相机中，第1行取左边4个字符“1234”，第2行取左边4个字符“abcd”；第2个相机中，第1行取右边4个字符“5678”，第2行取右边4个字符“efgh”。最终整合得到第1行的字符内容“12345678”，第2行的字符内容“abcdefgh”。

实施例2

具体结构详见图5，一种圆柱体上OCR的读取设备，包括：

至少两台相机1；

光源2：具体的，光源可以进行调节，为满足不同背景颜色以及材质的OCR识别物体，此方案通过调节同时调节相机曝光来调节相机背景，相机曝光参数与产品番号绑定，在使用不同检测方案时采用不同曝光进行拍照取图检测。

处理器，所述处理器与所述相机1、所述光源2相连，其中，所述处理器包括图片融合及识别软件；以及

所述控制器分别与所述相机、所述光源和所述处理器相连，当所述光源照射到圆柱面上的OCR时，控制器控制所述相机在预设时间采集图像，以获取多个OCR的部分平面图像，以及控制所述处理器运行所述图像融合及识别软件，以融合所述多个OCR的部分平面图像，从而生成所述OCR的完整平面图像，并对所述完整平面图像进行处理和识别。

进一步的，所述相机1为CCD图像传感相机或CMOS图像传感相机。

具体的，相机1可以是CCD或CMOS图像传感器，分辨率最好不小于30万像素，相机1能输出数字图像信号，从而微处理器运行图像融合及识别软件进行图像融合及识别。CCD图像传感相机作为一种新型光电转换器广泛应用于摄像、图像采集、扫描仪以及工业测量等领域，具有体积小、重量轻、分辨率高、灵敏度高、动态范围宽、功耗小、抗震性和抗冲击性好、可靠度高等优点。CMOS图像传感相机具有随机窗口读取能力、抗辐射能力、可靠性高等一系列优点。

进一步的，还包括可旋转的圆柱体工件支撑机构3。

具体的，如图6所示，圆柱体待测件支撑机构3，可由具有旋转驱动件的支撑安装架构成。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的圆柱体上OCR的读取方法，其特征在于，包括如下步骤：

步骤二，设置相机参数并拍照采集；

步骤六，通过相机进行拍照采集图片数据；

2.根据权利要求1所述的基于深度学习的圆柱体上OCR的读取方法，其特征在于：步骤五中，所述深度学习模型包括cbr卷积模块、crc卷积模块及Deep卷积模块，所述cbr卷积模块由卷积层conv、批量标准化层bn及Relu激活函数相互串接形成，所述crc卷积模块由卷积层conv、Relu激活函数及卷积层conv串接形成，所述Deep卷积模块由两个cbr卷积模块串接形成，所述cbr卷积模块、所述crc卷积模块及所述Deep卷积模块用于对所述OCR图片进行特征抽取，形成所述OCR检测模型。

3.根据权利要求1所述的基于深度学习的圆柱体上OCR的读取方法，其特征在于：步骤八中，还包括有去掉重复字符数据、对字符数据进行纵向排列和对字符集合进行分割以及整合三部分。

4.根据权利要求3所述的基于深度学习的圆柱体上OCR的读取方法，其特征在于：

步骤八中，去掉重复字符数据：从单张图片中检测出OCR的特征位置以及最大位置范围，深度学习模型会将每个位置的字符数据映射到多个类，每个类对应一个字符与类的相似度分数值，分数值的取值范围都是0到1，通过取同一位置的最高分数值去掉重复的字符数据。

5.根据权利要求3所述的基于深度学习的圆柱体上OCR的读取方法，其特征在于：

步骤八中，对字符数据进行纵向排列：通过对输出点的y方向的坐标y_i值进行升序排列，对于总个数是M，行数为N的字符处理方式是

其所在行数

6.根据权利要求3所述的基于深度学习的圆柱体上OCR的读取方法，其特征在于：

步骤八中，对字符集合进行分割以及整合：对于任意相机Cam_L与Cam_R的单行字符的处理方式是在整个视野中取

个有效总字符满足总字符数

7.一种圆柱体上OCR的读取设备，其特征在于：包括：

至少两台相机；

光源；

控制器，用于实现权利要求1-5任意一项所述的一种基于深度学习的圆柱体上OCR的读取方法；

8.根据权利要求7所述的圆柱体上OCR的读取设备，其特征在于，所述相机为CCD图像传感相机或CMOS图像传感相机。

9.根据权利要求7所述的圆柱体上OCR的读取设备，其特征在于，还包括可旋转的圆柱体工件支撑机构。