CN109815957A - 一种基于彩色图像在复杂背景下的文字识别方法 - Google Patents
一种基于彩色图像在复杂背景下的文字识别方法 Download PDFInfo
- Publication number
- CN109815957A CN109815957A CN201910090850.8A CN201910090850A CN109815957A CN 109815957 A CN109815957 A CN 109815957A CN 201910090850 A CN201910090850 A CN 201910090850A CN 109815957 A CN109815957 A CN 109815957A
- Authority
- CN
- China
- Prior art keywords
- image
- detection
- gray level
- color image
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
一种基于彩色图像在复杂背景下的文字识别方法,所述文字识别方法的步骤包括:输入彩色图像并将彩色图像分成RGB三个通道,对RGB三个通道内的通道图像做有无文字区域的标注,标注后将通道图像输入YOLO检测模型进行离线训练,得到文本区域检测库;分别对彩色图像的RGB三个通道使用YOLO检测模型和文本区域检测库,进行文字区域的检测并输出置信度;根据置信度得到各通道检测的置信度总和,再根据置信度权重计算RGB合成灰度图像的权重,合成灰度图像;对灰度图像采用Faster rcnn检测模型进行离线训练,得到文本识别库;对灰度图像与文本识别库采用Faster rcnn检测模型进行结果检测,此方法去除干扰信息,进行融合识别,远远优于当前单一黑白图像或彩色图像直接识别的效果。
Description
技术领域
本发明涉及文字识别技术领域,具体是指一种基于彩色图像在复杂背景下的文字识别方法。
背景技术
文字识别是智能识别技术中的一个重要技术。文字具有便于信息保存和传递的优点,使信息在时间和空间上得以迅速扩散。在人们的日常生活中,在机关事务处理、工业以及商业交往中,需要识别文字的数量如同天文数字,但利用计算机识别的文字量却很少。最近几年,随着计算机技术、数字和图像技术的发展。文字识别(OpticalCharacterRecognition,光学字符识别)的应用领域逐步扩大,目前较为活跃的应用包括数字识别、文字识别等。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR算法性能好坏的主要指标有:拒识率、误识率、识别速度、易用性及可行性等。
YOLO检测模型,属于人工智能分类器算法,其全称是You Only Look Once:Unified,Real-Time Object Detection。是一个十分容易构造目标检测算法,出自于CVPR2016关于目标检测的方向的一篇优秀论文,Yolo算法采用一个单独的卷积神经网络模型实现端对端的目标检测。
Faster rcnn检测模型:Towards Real-Time Object Detection with RegionProposal Networks Faster R-CNN,最初是在NIPS 2015上发表的,后来又经过多次修改。2014年,在第一篇R-CNN的论文Rich feature hierarchies for accurate objectdetection and semantic segmentation中,研究人员利用一种名为选择性搜索(selective search)的算法提出一种可能的感兴趣区域(RoI)和一个标准的卷积神经网络来区分和调整它们。2015年初,R-CNN进化成为Fast R-CNN,其中一种名为兴趣区域池化(RoI Pooling)的技术能够共享耗能巨大的计算力,并且让模型变得更快。最后他们提出了Faster R-CNN,是第一个完全可微分的模型。是目前人工智能领域经常使用的目标检测模型。
OCR用基于人工智能检测算法,主要过程包括文本检测和文字识别两个过程,在复杂背景下,对图片中存在的文字检测与识别,达到高识别率,目前是业内非常具有挑战性的一项工作,由于印刷、光照、不同材质的反射以及背景干扰等原因,采用单一的机器学习或人工智能算法,都很难获取满意的识别率和误检率。而且要达到实际使用工程化,需要使用的对方法有工程实时性和稳定性要求。
发明内容
本发明的目的在于提供一种基于彩色图像在复杂背景下的文字识别方法方法,此方法采用了人工智能的识别算法,同时创新性地在彩色RGB通道用YOLO算法进行文字区域定位与检测,同时根据每个通道文字检测权重,去合成灰度图像,然后才用faster RCNN进行文字识别OCR,此方法去除干扰信息,进行融合识别,能远远优于当前单一黑白图像或彩色图像直接识别的效果。
本发明通过下述技术方案实现:
一种基于彩色图像在复杂背景下的文字识别方法的方法,所述文字识别方法的步骤包括:
步骤一、输入彩色图像;
步骤二、将步骤一中的彩色图像分成RGB三个通道,对RGB三个通道内的通道图像做有文字区域和无文字区域标注,标注完成后将通道图像输入文本区域目标检测模型进行离线训练,得到文本区域检测库;
步骤三、分别对步骤二中彩色图像的RGB三个通道使用文本区域目标检测模型和文本区域检测库,进行文字区域的检测并输出检测置信度;
步骤四、根据步骤三的结果得到各通道检测的置信度总和分别为Wr、Wg、Wb,然后根据步骤三的置信度权重计算RGB合成灰度图像的权重,合成灰度图像;
步骤五、对步骤四处理后的灰度图像采用文字识别目标检测模型进行离线训练,得到文本识别库。
步骤六、对步骤四处理后的灰度图像采用文字识别目标检测模型和文本识别库进行检测,得到检测结果。
进一步的,所述文本区域目标检测模型为YOLO检测模型。
进一步的,所述R通道检测到的文字区域的置信度分别为Wr1、Wr2、…Wrn,其中n为在R通道检测到文字区域的数量;G通道检测到的文字区域的置信度分别为Wg1、Wg2、…Wgn,其中n为在G通道检测到文字区域的数量;设B通道检测到的文字区域的置信度分别为Wb1、Wb2、…Wbn,其中n为在B通道检测到文字区域的数量;
Wr=∑Wri其中Wri是R通道每个检测框的置信度值;
Wg=∑Wgi其中Wgi是G通道每个检测框的置信度值;
Wb=∑Wbi其中Wbi是B通道每个检测框的置信度值。
进一步的,所述合成灰度图像每个像素坐标(i,j)用Y(i,j)表示,对于RGB三个通道像素值分别为R(i,j)、G(i,j)、B(i,j),RGB合成灰度图像的权重公式为:Y(i,j)=(Wr*R(i,j)+Wg*G(i,j)+Wb*B(i,j))/(Wr+Wg+Wb)。
进一步的,所述步骤五的文字识别目标检测模型对灰度图像的训练步骤:
(1)输入合成后的灰度图像;
(2)对输入灰度图像文字分别进行标注,得到标注图像;具体标注内容和最终识别文字内容有关系,比如数字,标注0-9个数字,字母,标注A-Z等;
(3)对标注图像采用文字识别目标检测模型进行离线训练,得到文字识别库。
进一步的,所述步骤六的文字识别目标检测模型对文字检测的检测步骤:
(1)输入合成后的灰度图像;
(2)对合成后的灰度图像采用文字识别目标检测模型提取抽象特征;
(3)将获取到图像的抽象特征输入到文字识别库得到文字内容和检测区域。
进一步的,所述文字识别目标检测模型为Fasterrcnn检测模型。
本发明与现有技术相比,具有的有益效果为:
(1)本发明的方法采用分RGB通道检测文本区域,同时根据各通道文本检测置信度进行灰度图像合成,再做文字识别检测,大大提高了由于印刷、光照、不同材质的反射以及背景等因素的抗干扰能力,具有更高的检测精度;
(2)本发明通过先做彩色图像RGB通道分解,然后用文字区域目标检测的,然后根据检测置信度进行合成灰度图像,再做文字识别,可然检测运算复杂性降低,检测时间大大缩减,更具有工程实现性。
(3)本发明由于运算复杂度低,检测时间简单,可以再一般嵌入式移动设备使用,具有更广泛的使用范围。
附图说明
图1为本发明的流程图。
图2为本发明的彩色例图灰度效果例图。
图3为本发明的检测文字结果例图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
如图1所示,本发明为了克服现有技术的在不同材质,光照情况下,成像不清晰等缺陷,采用了人工智能的识别算法,创新性地在彩色RGB通道用YOLO算法进行文字区域定位与检测,用faster RCNN进行文字识别OCR。
一种基于彩色图像在复杂背景下的文字识别方法,所述文字识别方法的具体步骤包括:
步骤一、输入彩色图像;
步骤二、将步骤一中的彩色图像分成RGB三个通道,对RGB三个通道内的通道图像做有文字区域和无文字区域标注,标注完成后将通道图像输入文本区域目标检测模型进行离线训练,得到文本区域检测库;
步骤三、分别对步骤二中彩色图像的RGB三个通道使用文本区域目标检测模型和文本区域检测库,进行文字区域的检测并输出检测置信度;
步骤四、根据步骤三的结果得到各通道检测的置信度总和分别为Wr、Wg、Wb,然后根据步骤三的置信度权重计算RGB合成灰度图像的权重,合成灰度图像;
步骤五、对步骤四处理后的灰度图像采用文字识别目标检测模型进行离线训练,得到文本识别库。
步骤六、对步骤四处理后的灰度图像与步骤五得到的文本识别库采用文字识别目标检测模型进行检测,得到检测结果。
优选的,将彩色图像分成RGB三个通道,即一张彩色图像对应三个通道的图片,每个通道的图片有可以用于YOLO文字区域的检测,超过200张的彩色图片,每张彩色图像分成RGB通道,即可得到超过600张通道图像。
优选的,所述文本区域检测库采集图片超过200张即可。
优选的,所述文本识别库采集图片超过500张即可。
优选的,所述文本区域目标检测模型为YOLO检测模型。YOLO检测模型对每个通道的文字区域进行检测并输出检测置信度总和分别为Wr,Wg,Wb,然后根据置信度的权重计算RGB合成灰度图像的权重,合成灰度图像,达到解决各种情况下图像清晰的目的。
优选的,所述文字识别目标检测模型为Faster rcnn检测模型,Faster rcnn检测模型对灰度图像进行训练检测,达到高精度识别目的。
实施例2:
为了让本领域人员进一步了解本发明所提出的一种基于彩色图像在复杂背景下的文字识别方法方法,下面结合具体实施例进行说明。
如图2~3所示,在本实施例中以数字为识别对象,识别主要步骤为:获取原始彩色图像并将把彩色图像分成RGB三个通道,对通道图像做有文字区域和无文字区域的两类标注,标注完成后将已标注的图像使用YOLO检测模型进行训练,训练完成得到文本区域检测库;接着再分别对彩色图像的RGB三个通道使用YOLO检测模型进行文字区域的检测,并输出检测的置信度,对R通道,由于图2文字在一个整体区域,Wr=Wr1=0.95,对G通道,图2文字在一个整体区域,所以Wg=Wg1=0.50,对B通道,图2文字在一个整体区域,所以Wb=Wb1=0.75;合成灰度图像每个像素坐标(i,j)用Y(i,j)表示,对于RGB三个通道像素值分别为R(i,j)=250,G(i,j)=166,B(i,j)=144;RGB合成灰度图像的权重公式为:Y(i,j)=(Wr*R(i,j)+Wg*G(i,j)+Wb*B(i,j))/(Wr+Wg+Wb);Y(i,j)=(0.95*250+0.50*144+0.75*144)/(0.95+0.50+0.75),即Y(i,j)=197,然后合成灰度图像,灰度图像的合成达到解决各种情况下图像清晰的目的。
如图2得到灰度图像后,对灰度图像上的数字进行标注,标注内容为0~9,标注完毕将标注图像输入Fasterrcnn检测模型进行离线训练,得到文本识别库;得到文本识别库后再次对合成后的灰度图片采用Fasterrcnn检测模型提取抽象特征;并将获取到的图像抽象特征输入文字识别库,得到文字内容和检测区域,如图3所示,文字检测结果:第一排数字识别为:8、0、5、1、5、1、7、6、3、7、0、6、4、3、1、0,其中识别置信度分别为:0.97、0.93、0.99、0.97、0.95、0.98、0.91、0.95、0.98、0.95、0.97、0.95、0.98、0.96、0.92、0.93。其中第二排数字识别为:1、1、0、0、5、1、0、1、0、7、1、0、2、5、5、8,其中识别置信度分别为:0.92、0.95、0.91、0.95、0.98、0.99、0.93、0.96、0.92、0.97、0.99、0.92、0.94、0.96、0.98、0.99。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (7)
1.一种基于彩色图像在复杂背景下的文字识别方法,其特征在于:所述文字识别方法的步骤包括:
步骤一、输入彩色图像;
步骤二、将步骤一中的彩色图像分成RGB三个通道,对RGB三个通道内的通道图像做有文字区域和无文字区域标注,标注完成后将通道图像输入文本区域目标检测模型进行离线训练,得到文本区域检测库;
步骤三、分别对步骤二中彩色图像的RGB三个通道使用文本区域目标检测模型和文本区域检测库,进行文字区域的检测并输出检测的置信度;
步骤四、根据步骤三的结果得到各通道检测的置信度总和分别为Wr、Wg、Wb,然后根据步骤三的置信度权重计算RGB合成灰度图像的权重,合成灰度图像;
步骤五、对步骤四得到的灰度图像采用文字识别目标检测模型进行离线训练,得到文本识别库;
步骤六、对步骤四得到的灰度图像采用文字识别目标检测模型和文本识别库进行检测,得到检测结果。
2.根据权利要求1所述的一种基于彩色图像在复杂背景下的文字识别方法,其特征在于:所述文本区域目标检测模型为YOLO检测模型。
3.根据权利要求1所述的一种基于彩色图像在复杂背景下的文字识别方法,其特征在于:所述R通道检测到的文字区域的置信度分别为Wr1、Wr2、…Wrn,其中n为在R通道检测到文字区域的数量;G通道检测到的文字区域的置信度分别为Wg1、Wg2、…Wgn,其中n为在G通道检测到文字区域的数量;B通道检测到的文字区域的置信度分别为Wb1、Wb2、…Wbn,其中n为在B通道检测到文字区域的数量;
Wr=∑Wri其中Wri是R通道每个检测框的置信度值;
Wg=∑Wgi其中Wgi是G通道每个检测框的置信度值;
Wb=∑Wbi其中Wbi是B通道每个检测框的置信度值。
4.根据权利要求1所述的一种基于彩色图像在复杂背景下的文字识别方法,其特征在于:所述合成灰度图像每个像素坐标(i,j)用Y(i,j)表示,对于RGB三个通道像素值分别为R(i,j)、G(i,j)、B(i,j),RGB合成灰度图像的权重公式为:Y(i,j)=(Wr*R(i,j)+Wg*G(i,j)+Wb*B(i,j))/(Wr+Wg+Wb)。
5.根据权利要求1所述的一种基于彩色图像在复杂背景下的文字识别方法,其特征在于:所述步骤五的文字识别目标检测模型对灰度图像的训练步骤:
(1)输入合成后的灰度图像;
(2)对输入的灰度图像文字分别进行标注,得到标注图像;
(3)对标注图像采用文字识别目标检测模型进行离线训练,得到文字识别库。
6.根据权利要求1所述的一种基于彩色图像在复杂背景下的文字识别方法,其特征在于:所述步骤六的文字识别目标检测模型对文字检测的检测步骤:
(1)输入合成后的灰度图像;
(2)对合成后的灰度图像采用文字识别目标检测模型提取抽象特征;
(3)将获取到的图像抽象特征输入到文字识别库得到文字内容和检测区域。
7.根据权利要求5或6所述的一种基于彩色图像在复杂背景下的文字识别方法,其特征在于:所述文字识别目标检测模型为Fasterrcnn检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910090850.8A CN109815957A (zh) | 2019-01-30 | 2019-01-30 | 一种基于彩色图像在复杂背景下的文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910090850.8A CN109815957A (zh) | 2019-01-30 | 2019-01-30 | 一种基于彩色图像在复杂背景下的文字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815957A true CN109815957A (zh) | 2019-05-28 |
Family
ID=66605843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910090850.8A Pending CN109815957A (zh) | 2019-01-30 | 2019-01-30 | 一种基于彩色图像在复杂背景下的文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815957A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN112328348A (zh) * | 2020-11-05 | 2021-02-05 | 深圳壹账通智能科技有限公司 | 应用程序多语言支持方法、装置、计算机设备及存储介质 |
CN112349150A (zh) * | 2020-11-19 | 2021-02-09 | 飞友科技有限公司 | 一种机场航班保障时间节点的视频采集方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740774A (zh) * | 2016-01-25 | 2016-07-06 | 浪潮软件股份有限公司 | 一种图像的文本区域定位方法及装置 |
CN107093172A (zh) * | 2016-02-18 | 2017-08-25 | 清华大学 | 文字检测方法及*** |
US20180336405A1 (en) * | 2017-05-17 | 2018-11-22 | Tab2Ex, Llc | Method of digitizing and extracting meaning from graphic objects |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及*** |
-
2019
- 2019-01-30 CN CN201910090850.8A patent/CN109815957A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740774A (zh) * | 2016-01-25 | 2016-07-06 | 浪潮软件股份有限公司 | 一种图像的文本区域定位方法及装置 |
CN107093172A (zh) * | 2016-02-18 | 2017-08-25 | 清华大学 | 文字检测方法及*** |
US20180336405A1 (en) * | 2017-05-17 | 2018-11-22 | Tab2Ex, Llc | Method of digitizing and extracting meaning from graphic objects |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN110363196B (zh) * | 2019-06-20 | 2022-02-08 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN112328348A (zh) * | 2020-11-05 | 2021-02-05 | 深圳壹账通智能科技有限公司 | 应用程序多语言支持方法、装置、计算机设备及存储介质 |
WO2022095735A1 (zh) * | 2020-11-05 | 2022-05-12 | 深圳壹账通智能科技有限公司 | 应用程序多语言支持方法、装置、计算机设备及存储介质 |
CN112349150A (zh) * | 2020-11-19 | 2021-02-09 | 飞友科技有限公司 | 一种机场航班保障时间节点的视频采集方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
Lian et al. | Deep-learning-based small surface defect detection via an exaggerated local variation-based generative adversarial network | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN111223088B (zh) | 一种基于深层卷积神经网络的铸件表面缺陷识别方法 | |
Liang et al. | Detection and evaluation method of transmission line defects based on deep learning | |
CN108562589B (zh) | 一种对磁路材料表面缺陷进行检测的方法 | |
CN106295653B (zh) | 一种水质图像分类方法 | |
CN104050471B (zh) | 一种自然场景文字检测方法及*** | |
CN111832546B (zh) | 一种轻量级自然场景文本识别方法 | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN111832443B (zh) | 一种施工违规行为检测模型的构建方法及其应用 | |
CN114663346A (zh) | 一种基于改进YOLOv5网络的带钢表面缺陷检测方法 | |
CN109815957A (zh) | 一种基于彩色图像在复杂背景下的文字识别方法 | |
CN112906550B (zh) | 一种基于分水岭变换的静态手势识别方法 | |
CN115035371B (zh) | 基于多尺度特征融合神经网络的井壁裂缝识别方法 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN110516527B (zh) | 一种基于实例分割的视觉slam回环检测改进方法 | |
CN111667465A (zh) | 一种基于远红外图像的金属洗手盆缺陷检测方法 | |
CN113537173B (zh) | 一种基于面部补丁映射的人脸图像真伪识别方法 | |
CN112967271B (zh) | 一种基于改进DeepLabv3+网络模型的铸件表面缺陷识别方法 | |
CN116704526B (zh) | 工尺谱扫描机器人及其方法 | |
CN113538342A (zh) | 一种基于卷积神经网络的铝质气雾罐涂层质量检测方法 | |
CN110136098B (zh) | 一种基于深度学习的线缆顺序检测方法 | |
CN114078106A (zh) | 基于改进Faster R-CNN的疵点检测方法 | |
Zhang et al. | Design of tire damage image recognition system based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190701 Address after: No. 37, Wuhou District National School Lane, Chengdu, Sichuan Province Applicant after: West China Hospital of Sichuan University Address before: 610000 No. 2, No. 2, No. 2, Yulin Second Lane, Wuhou District, Chengdu City, Sichuan Province Applicant before: Deng Wu |
|
TA01 | Transfer of patent application right | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190528 |
|
WD01 | Invention patent application deemed withdrawn after publication |