CN101667251A

CN101667251A - 具备辅助定位功能的ocr识别方法和装置

Info

Publication number: CN101667251A
Application number: CN200810215861A
Authority: CN
Inventors: 陈又新; 李斌; 王�华; 王炎
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2008-09-05
Filing date: 2008-09-05
Publication date: 2010-03-10
Anticipated expiration: 2028-09-05
Also published as: CN101667251B

Abstract

一种具备辅助定位功能的OCR识别方法，包括步骤：对目标进行拍摄并捕获到包含文字的图像；对所述图像区域进行搜索，检测出一个或多个文本区域；选择特定文本区域；对被选择的特定文本区域中的文字进行识别。通过使用本发明的方法和装置，用户可以自动地获得图像中的文本区域，通过交互的方式得到用户感兴趣的文本区域，以此来进行文字识别和翻译等应用。本发明可以运用到普通的文字场景，比如路牌，公告，报纸等的自动识别和翻译，特别适合于带照相功能的移动终端。本发明能够方便用户的使用，不需要复杂的辅助操作和交互，缩小图像的搜索范围，自动地得到用户感兴趣的文本区域，减少***的计算运行时间，以及可以提高定位的准确率。

Description

具备辅助定位功能的OCR识别方法和装置

技术领域

本发明涉及图像处理和模式识别领域，特别是视频和自然场景中的文本检测和定位，字符识别。

背景技术

现在OCR技术越来越多地应用到带有图像扫描(或摄像)功能的移动智能终端和PDA等设备上，但是由于往往背景较为复杂如视频图像时，在OCR之前的文本定位问题上还存在着一定的技术难点，造成文本定位的结果出现偏差，不能方便准确地检测到所需要识别的字符，或把一个文本区域错误地划分为多个相关的文本子区域，影响OCR识别结果的连续性和计算开销，再加上文字识别率偏低，造成最终的结果(如翻译)不很理想，因而这时候就需要进行一些辅助定位的方式来提高文字定位准确率和识别准确率。

目前图像(或视频)文本识别的基本过程，首先通过对所采集到的文本图像(或视频中的某帧图像)，进行图像的预处理(增强滤波等)，以及版面的分析和理解，以此检测和定位出文本区域，再对各个文本区域进行字符识别，进一步可对识别结果做后处理校正等操作，其中的“文本区域定位”直接影响最终的识别结果，以及整个***的计算效率。

现有的OCR功能手机通过摄像头扫描文本文字，进行中英互译，用户使用时首先需将手机上的摄像头对准文字中心，手机与文字垂直距离为10厘米以上；用户通过手机上导航键进行对焦；需要确保待识别文字的高度高于显示对焦符号“+”的高度；若是竖排的中文文字，需要在菜单中选择“竖排文本”。在操作的界面中，会出现“高亮”的条带来定位待识别的文本区域，对此条带区域中的文字进行识别和翻译。该方法采用“高亮”的条带来辅助定位待识别的文本区域，需要用户将手机上的摄像头对准文字中心，以及需要手机与文字垂直保持一定的距离，如若要识别竖排的文本区域时需要用户做特别设定，给用户的操作有很多的限制，***不能自动进行文本区域的定位，并且运行的时间长。

[CN 1804858 A]是一种用于带摄像头的移动终端，实施OCR功能的针对待识别文字的辅助定位技术，该方法使屏幕上会出现一个十字光标，用户移动光标，可以使光标的原点位于待识别文本区域内，以此来辅助定位，同时可以调整待识别字符区域的底边与十字光标的横轴平行，待识别字符区域的底边与十字光标的纵轴相垂直，用来防止拍摄倾斜，提高识别率。该方法采用十字光标，来辅助定位待识别文本区域，调整十字光标的横轴和纵轴与待识别字符区域的底边相互平行和垂直，用来防止文字的倾斜，需要用户仔细调整光标的位置，并且每次只能定位一个文本区域，整个定位和识别的运行时间较长。

[CN 1685358 A]提出一种在图像中自动定位文本区域的方法，包括的步骤有把数字图像转化为二值图像；定位可能的文本区域；选择实际文本区域；其在文本区域定位步骤中的特征是，应用形态学掩模，以对二值图像应用形态学操作，再根据一些规则，以在图像中生成封闭块，从而定位文本区域。该方法采用在全部的图像区域中，来搜索定位文本区域，计算量大并且会出现一些错误和遗漏的定位。

[US 7171046]提出一种在采集的图像中识别文字的方法，包括的步骤有使用便携式设备采集有文本信息的图像；实时地检测图像中的文本区域；调整文本检测区域的结果，应用OCR技术进行文字识别；补充相关的外在信息，包括旅游信息、交通信息等；使用词典技术来改进OCR识别的结果，输出识别的文本和补充的信息，或进一步地进行翻译，并且把采用该方法的图像文字检测和识别***在一个便携式的设备中实现。该方法在识别之前手工调整文本区域定位的结果，需要用户的直接干预，不方便用户的直接使用。

发明内容

本发明的目的是提供一种具备辅助定位功能的OCR识别方法和装置。

按照本发明的一方面，一种具备辅助定位功能的OCR识别方法，包括步骤：

对目标进行拍摄并捕获到包含文字的图像；

对所述图像区域进行搜索，检测出一个或多个文本区域；

选择特定文本区域；

对被选择的特定文本区域中的文字进行识别。

按照本发明的另一方面，一种具备辅助定位功能的OCR识别方法，包括步骤：

点击屏幕上包括文本区域的一个或多个点；

对包含有点击处的图像区域进行拍摄；

对拍摄图像进行文本区域的检测和定位，得到候选文本区域；

对候选文本区域中的文字进行OCR识别。

按照本发明的另一方面，一种具备辅助定位功能的OCR识别装置，包括：

图像采集单元，用于获取包含文字的文本图像或视频；

文本检测定位单元，用于检测和定位出图像中的文本区域；

文字识别单元，用于识别出被选择区域中的文字；

显示单元，用于显示采集的文本图像、用户的输入、文本检测定位和文字识别的结果；

存储单元，用于存储各个单元运行所需的相关数据。

通过使用本发明的方法和装置，用户可以自动地获得图像中的文本区域，通过交互的方式得到用户感兴趣的文本区域，以此来进行文字识别和翻译等应用。本发明可以运用到普通的文字场景，比如路牌，公告，报纸等的自动识别和翻译，特别适合于带照相功能的移动终端。本发明能够方便用户的使用，不需要复杂的辅助操作和交互，缩小图像的搜索范围，自动地得到用户感兴趣的文本区域，减少***的计算运行时间，以及可以提高定位的准确率。

附图说明

图1是具备辅助定位功能的OCR识别装置；

图2是用户选择文本区域的OCR识别方法的流程图；

图3是用户点击含有文字区域的OCR识别方法的流程图。

具体实施方式

本发明的装置包括交互单元、运算处理单元和存储单元组成，其中的交互单元是采集所需要识别的文本图像或视频，接收并显示用户点击选择等操作的相关信息，将接收到的用户输入信息发送到运算处理单元，以及从运算处理单元接收并显示信息，包括图像采集单元、显示单元和用户输入检测单元；运算处理单元是对从交互单元输入的文本图像和用户输入信息，进行文本区域的检测和定位，以及对文本区域里的文字进行识别，包括文本检测定位单元和文字识别单元，其中文本区域指的是包含一个或多个文字块的外接矩形区域。

图像采集单元是采集所需要识别的文本图像或视频，比如照相机，带摄像功能的手机，笔记本等；

显示单元是用于显示待识别的文本图像或视频，用户点击选择的相关信息，文本区域的检测和定位结果，以及文字识别的结果；

用户输入检测单元是用于接收用户点击选择等操作的相关信息；

检测定位单元是根据从交互单元接收到的信息，进行文本区域的检测和定位，输出对应文本区域的位置坐标信息至文字识别单元；

文字识别单元是根据从交互单元和检测定位单元接收到的文本图像和位置坐标信息，对文本区域里的文字进行识别，并输出至显示单元；

存储单元用于存储各个单元运行所需的相关信息，其包括：待识别的文本图像、用户点击选择等操作的相关信息、文本区域的定位结果、文字识别的结果等装置和方法所需信息。

在实施过程中，基于用户选择文本区域的OCR识别方法包括：启动摄像模式，进行拍摄并捕获到包含文字的图像，该图像可以为低分辨率图像；对图像区域进行搜索，进行文本区域的检测和定位，自动地将得到的候选的文本区域提示出来；针对给出的候选文本区域，用户通过点击或移动焦点的方式选择文本区域；对被选择的候选文本区域中的文字进行OCR识别。

在实施过程中，基于用户点击含有文字区域的OCR识别方法包括：启动摄像模式，使用者通过点击屏幕，进行拍摄并捕获到文字图像，该图像可以为低分辨率图像；对包含有点击处的图像区域，进行文本区域的检测和定位；给使用者提示已标记出的文本区域，使用者通过点击或移动焦点的方式，来选择待识别的文本区域；对被选择的候选文本区域中的文字，或对候选文本区域中的文字进行OCR识别。

以下，将参照附图详细描述本发明的实施例。在下面的描述中，为了清晰和简明起见，省略了对公知功能或结构的详细描述。

本说明书所举的实施例仅为应用本发明的具体实施例之一，并不意味着本发明的实施仅局限于这一种形式。

在本说明书中，包括权利要求，使用的术语“单元”是由组件构成的，“组件”指的是与本发明***相关的实体，或者是硬件，硬件和软件的结合、软件，或者是执行中的软件。例如，组件可以是，但不局限于，运行在处理器上的进程、处理器、对象、可以执行的东西、执行的线程、程序和计算机。作为示例，运行在移动终端上的应用程序可以是组件。另外组件可以包括一个或多个组件。

术语“包括”、“包含”或类似术语意思是非排斥性包括，从而包括一列组件的方法或设备不仅包括这些组件，还包括其他未列出的组件。

图一是本发明的第一有利实施例，具备辅助定位功能的OCR识别装置，该装置的输入设备为视频采集设备，输出设备为可以显示图形界面的显示设备，在本实施例中显示识别是触摸屏。

图像采集单元111主要功能是采集文本图像或视频，比如照相机，带摄像功能的手机，笔记本等，当用户启动OCR识别装置时会启用图像采集单元111，图像采集单元111获取图像或视频后在显示单元112上输出，用户通过用户输入检测单元113控制图像采集单元111的照片拍摄和选择进入OCR识别或重新拍摄。

图像采集单元111获取的图像，由文本检测定位单元121，检测图像上的文本区域，或者通过用户输入检测单元113来点击含有文字的区域，由文本检测定位单元121，检测包含有点击处图像中的文本区域，并将检测的结果在显示单元112上输出，通常文本区域的检测结果用包围文本区域的矩形来表示，用户通过图形界面对矩形位置，大小，形状的编辑来修改文本区域检测结果。

通过用户输入检测单元113选择候选的文本区域，用户可以有点击或移动焦点的方式，来选择文本区域，并且可以选择多个文本区域；检测到的文本区域经文字识别单元122识别，即转化为相应语言的机器码，比如Unicode，并在显示单元112的图形界面上显示相应的识别结果，用户可以通过图形界面对识别结果进行相应的删除、添加、修改等操作，进一步可以进行相关语言的翻译。

图二是用户选择文本区域的OCR识别方法的流程图，包括的步骤如下：

1)在摄像模式下(S201)，使用者按下快门启动自动对焦，摄像头进行自动对焦的操作，进行拍摄并捕获到含有文字的图像(S202)，该文字图像可以为低分辨率图像；

2)对以上得到的文字图像进行全局图像区域的搜索，检测文本区域(S203)，并自动地将检测到的候选文本区域提示给使用者(S204)，其中采用低分辨率图像进行检测定位，通过在6350幅图像上的实验测试，对比400*300和1024*768的不同分辨率图像，前者的运算时间约只有后者的20％，提高了装置的运行速度；

3)给使用者提示已检测到的候选文本区域，使用者通过点击或移动焦点的方式，来选择文本区域(S205)，并且支持可以选择多个文本区域；

4)根据使用者选择的文本区域，对其中的文字进行OCR识别(S206)，并可进一步进行翻译。

其中步骤S201和S202可以在图像采集单元111中执行，步骤S203可以在检测定位单元121中执行，步骤S204可以在显示单元112中执行，步骤S205可以在用户输入检测单元113中执行，步骤S206可以在文字识别单元122中执行。

图三是用户点击含有文字区域的OCR识别方法的流程图，包括的步骤如下：

1)在摄像模式下(S301)，使用者通过点击屏幕上包括文本区域的一个点或多个点(S302)，按下快门启动自动对焦，摄像头进行自动对焦的操作，进行拍摄并捕获到含有文字的图像(S303)，该文字图像可以为低分辨率图像，并且快门可以由使用者点击屏幕来启动，同时使用者可以点击屏幕的多个区域；

2)根据使用者点击屏幕的位置坐标，对以上得到的图像进行处理：可以从整个图像区域开始搜索，检测含有点击坐标的文本区域；也可以在对包含有若干个点击处为中心的图像区域，进行文本区域的检测(S304)，并自动地将检测到的候选文本区域提示给使用者(S305)；

3)给使用者提示已检测到的候选文本区域，使用者通过点击或移动焦点的方式，来选择文本区域(S306)，并且支持可以选择多个文本区域；

4)根据使用者选择的文本区域(S306)，或检测定位到的文本区域(S305)，装置对其中的文字进行OCR识别(S307)，并可进一步进行翻译。

其中步骤S301和S303可以在图像采集单元111中执行，步骤S304可以在检测定位单元121中执行，步骤S305可以在显示单元112中执行，步骤S302和S306可以在用户输入检测单元113中执行，步骤S307可以在文字识别单元122中执行。

Claims

1.一种具备辅助定位功能的OCR识别方法，包括步骤：

对目标进行拍摄并捕获到包含文字的图像；

对所述图像区域进行搜索，检测出一个或多个文本区域；

选择特定文本区域；

对被选择的特定文本区域中的文字进行识别。

2.根据权利要求1所述方法，其特征在于捕获到的文字图像为低分辨率图像。

3.根据权利要求1所述方法，其特征在于通过自动对焦的方式获得含有文字的图像。

4.根据权利要求1所述方法，其特征在于还包括自动地将检测到的候选文本区域提示给使用者，并支持选择多个候选文本区域。

5.根据权利要求1所述方法，其特征在于还包括对识别后的文字进行翻译。

6.一种具备辅助定位功能的OCR识别方法，包括步骤：

点击屏幕上包括文本区域的一个或多个点；

对包含有点击处的图像区域进行拍摄；

对候选文本区域中的文字进行OCR识别。

7.根据权利要求6所述方法，其特征在于还包括对候选文本区域进行选择，对所选择的文本区域中的文字进行OCR识别。

8.根据权利要求6所述方法，其特征在于还包括自动地将检测到的候选文本区域提示给使用者，并支持选择多个候选文本区域。

9.根据权利要求6所述方法，其特征在于还包括捕获到的文字图像是低分辨率图像。

10.根据权利要求6所述方法，其特征在于还包括对识别后的文字进行翻译。

11.一种具备辅助定位功能的OCR识别装置，包括：

图像采集单元，用于获取包含文字的文本图像或视频；

文本检测定位单元，用于检测和定位出图像中的文本区域；

文字识别单元，用于识别出被选择区域中的文字；

存储单元，用于存储各个单元运行所需的相关数据。

12.根据权利要求11所述的识别装置，其特征在于还包括：

用户输入检测单元，用于用户点击选择文本区域。

13.根据权利要求11所述的识别装置，其特征在于还包括图形界面，用于在显示设备上显示文字检测，文字识别和翻译结果。

14.根据权利要求11所述的识别装置，其特征在于所述识别装置是手机、PDA、智能终端、照相机或翻译器。

15.根据权利要求14所述的识别装置，其特征在于通过点击屏幕启动照相机的快门。

16.根据权利要求14所述的装置，其特征在于通过点击屏幕的多个区域启动照相机的快门。

17.根据权利要求11所述的识别装置，其特征在于所述显示单元是LCD显示屏或触摸屏。