CN108694400A

CN108694400A - 信息处理装置、其控制方法及存储介质

Info

Publication number: CN108694400A
Application number: CN201810269570.9A
Authority: CN
Inventors: 和田雄弘
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-03-31
Filing date: 2018-03-29
Publication date: 2018-10-23
Anticipated expiration: 2038-03-29
Also published as: JP2018173818A; JP7102103B2; US20180285677A1; KR20180111639A; US10878268B2; KR102236616B1; CN108694400B

Abstract

本发明提供一种信息处理装置、其控制方法及存储介质。在通过使用具有照相机功能的移动终端来读取被摄体上的字符的情况下，在短时间内获取适合于OCR的图像。一种包括照相机的信息处理装置通过由照相机拍摄被摄体上的字符串来获取运动图像，所述信息处理装置针对构成所获取的运动图像的各个帧设置用于字符识别的搜索区域，所述用于字符识别的搜索区域针对构成字符串的各个字符，从搜索区域检测候选字符，确定指示检测到的候选字符的似然性的评估值是否稳定，并响应于评估值被确定为稳定，输出所获取的运动图像的帧。

Description

信息处理装置、其控制方法及存储介质

技术领域

本发明涉及信息处理装置中的字符识别技术。

背景技术

近年来，诸如智能电话和平板电脑之类的安装有照相机的移动设备(在下文中称为“移动终端”)变得常见。例如，在将纸质文档转换为电子数据的情况下，通常使用扫描仪等，但是通过使用移动终端的照相机可以容易地将纸质文档转换为电子数据。例如，日本特开2011-008802号公报公开了一种对利用低分辨率照相机摄取的静止图像进行字符识别处理(OCR)的技术。

此外，最近的移动终端的照相机包括运动图像拍摄功能。与通过使用扫描仪取得图像的情况相比，通过由手持移动终端拍摄运动图像来摄取图像的情况容易受到摄像环境的改变的影响。具体地，因为由于照相机抖动而导致图像的细节部分失焦，照明应用方式对于各个帧微妙地改变等，所以存在所获得的图像不适合于字符识别的情况。在这方面，日本特开2013-161277号公报公开了一种通过在运动图像拍摄期间反复进行进行OCR并通过采用出现率超过预定基准值的识别结果来确定字符来提高OCR的精度的技术。

然而，取决于摄像环境和被摄体，在构成所获得的运动图像的帧(静止图像)中高频度地包括不适合于OCR的图像。在这样的情况下，利用上述日本特开2013-161277号公报的基于出现率确定字符的技术，要达到基准值的出现率需要时间。例如，在从字典数据中找出相似度高的多个候选字符的情况下，由于帧间的细微差异，字符识别结果倾向于改变。在这种情况下，确定被摄体上的所有字符的字符识别结果需要很长时间，同时，用户不得不继续拍摄而不移动移动终端。在这种情况下，用户的负担很重，并且无法高精度地预期字符识别结果。此外，在上述的日本特开2013-161277号公报中，输出作为字符识别结果而获得的文本数据，并且不考虑输出或保存作为字符识别对象的图像。也就是说，上述日本特开2013-161277号公报仅公开了输出对包括多个帧的图像进行字符识别处理的结果，但未公开从包括多个帧的图像中选择并保存最佳图像。

发明内容

根据本发明的信息处理装置是包括照相机的信息处理装置，所述信息处理装置包括：获取单元，其被构造为通过由照相机拍摄被摄体上的字符串来获取运动图像；设置单元，其被构造为针对构成所获取的运动图像的各个帧设置用于字符识别的搜索区域，所述用于字符识别的搜索区域针对构成字符串的各个字符；检测单元，其被构造为从搜索区域检测候选字符；第一确定单元，其被构造为确定指示检测到的候选字符的似然性的评估值是否稳定；以及输出单元，其被构造为响应于评估值被确定为稳定，输出所获取的运动图像的帧。

根据下面参照附图对示例性实施例的描述，本发明的其他特征将变得清楚。

附图说明

图1A至图1C是示出移动终端的外观的示例的图；

图2是示出移动终端的硬件构造的示例的图；

图3是示出移动终端的软件构造的示例的图；

图4是示出移动应用的UI画面的示例的图；

图5是示出字符图像的示例的图；

图6是示出字符图像列表的数据结构的示例的图；

图7A至图7D是说明针对各个字符确定字符单位区域的方式的图；

图8是示出字符读取处理的流程的流程图；

图9是示出候选字符检测结果的数据结构的示例的图；

图10是示出候选字符检测处理的详细内容的流程图；

图11是示出匹配确定处理的详细内容的流程图；

图12A和图12B是示出评估值的示例的图；

图13A和图13B是示出字符识别范围的具体示例的图；

图14是示出稳定状态确定处理的详细内容的流程图；以及

图15是示出候选字符表的示例的图。

具体实施方式

在下文中，参照附图，根据优选实施例详细说明本发明。以下实施例中所示的构造仅仅是示例性的，并且本发明不限于示意性示出的构造。

(第一实施例)

作为根据本实施例的具有照相机功能的信息处理装置，假定由所谓的平板电脑和智能电话代表的具有照相机的移动终端。具有照相机的移动终端包括无线通信功能，并且能够在任意地点进行拍摄、数据通信等。

图1A至图1C是示出移动终端的外观的示例的图。图1A示出了其上存在有作为显示单元的触摸面板101的移动终端100的表面侧(正面)。触摸面板101包括例如电容式LCD等，并且包括两个功能，即输出(显示)信息的功能和输入信息的功能。图1B示出了移动终端100的里侧(背面)。在移动终端100的背面，包括用于摄取图像的摄像镜头(在下文中称为“镜头”)102。在本实施例中，说明如下情况作为示例：通过使用移动终端100的移动应用来进行拍摄并读取被摄体上的字符。图1C示出作为被摄体的示例的轮胎。在轮胎105上雕刻有序列ID(也称为序列号)，这是唯一识别轮胎的符号。从雕刻部分的放大图106可知，“S7Y004790”的字符串被雕刻为序列ID 107。在本实施例中，通过使用移动终端100的照相机功能来拍摄序列ID 107的部分，关于构成序列ID 107的各个字符的信息被转换成电子数据。稍后描述的移动应用可以获取适合于在运动图像模式中拍摄被摄体时的字符读取的帧(静止图像)，并且将所获取的静止图像输出到任何输出目的地。

＜硬件构造＞

接着上文，说明移动终端100的硬件构造。图2是示出移动终端100的硬件构造的示例的图。移动终端100包括CPU 201、RAM 202、ROM203、输入/输出I/F 204、NIC 205、照相机单元206和加速度/陀螺仪传感器207，并且这些单元中的各个单元通过总线208彼此连接。

CPU 201是通过执行各种程序来实现各种功能的中央处理单元。RAM 202是存储各种信息的可读/可写存储器。RAM 202也被用作CPU201的工作区域。ROM 203是存储OS和诸如上述拍摄应用等的各种程序的存储器。例如，CPU 201将存储在ROM 203中的程序加载到RAM202上并执行该程序。此外，CPU 201还可以读取存储在诸如闪速存储器、HDD和SSD等的外部存储设备(未示意性地示出)中的程序并执行该程序。通过使用专用硬件，也可以实现移动终端100的全部或部分功能和稍后将描述的根据序列的处理。

输入/输出I/F 204是将显示数据输出到触摸面板101并从触摸面板101接收输入信息的接口。NIC(网络接口卡)205是用于将移动终端100连接到网络(未示意性地示出)的接口。照相机单元206将经由镜头102拍摄的被摄体的运动图像摄取到移动终端100。总线208是连接上述各个单元的数据通信路径。加速度/陀螺仪传感器207是检测移动终端100的姿势信息的传感器。

＜软件构造＞

接下来，说明移动终端100的软件构造。图3是示出移动终端100的软件构造的示例的图。移动终端100的软件包括数据管理模块300和移动应用310。然后，移动应用310包括多个模块311至315以及字符图像DB 316，所述多个模块311至315对应于主控制、显示控制、操作信息获取、图像处理和字符识别的各个功能。与这些模块中的各个模块相对应的程序等存储在ROM 203等中。数据管理模块300管理移动应用310中的处理数据(应用数据)、图像数据等。移动应用310通过利用未示意性地示出的由OS提供的控制API(应用编程接口)来获取和保存由数据管理模块300管理的图像数据和应用数据。

用户可以通过利用移动终端100的OS的安装功能来下载和安装移动应用310。移动应用310对经由照相机单元206摄取的图像数据进行各种处理。

主控制模块311是集中控制移动应用310且向模块312至315和字符图像DB 316中的各个发出指令并进行管理的模块。

显示控制模块312根据来自主控制模块311的指令提供移动应用310的用户界面画面(UI画面)。图4是示出移动应用310的UI画面的示例的图。在移动终端100的触摸面板101上显示UI画面400。在UI画面400上的显示/操作区域401中，经由照相机单元206被摄取的图像被显示，并且用户可以对该图像进行各种操作。

操作信息获取模块313经由上述UI画面400获取与用户操作有关的输入信息，并将获取的输入信息传送到主控制模块311。例如，在用户用他/她的手触摸显示/操作区域401的情况下，操作信息获取模块313检测UI画面400上的触摸位置，并将关于检测到的位置的信息发送到主控制模块311。快门按钮402是用于将从照相机单元206输入的图像保存在RAM205或数据管理模块300中的按钮。变焦按钮403是用于对显示的图像进行放大和缩小的按钮。围绕序列ID 107显示的四个键形符号404至407是充当要被拍摄为字符读取处理的对象区域的位置的码尺(yardstick)的引导部(guide)。引导部的位置可以改变，并且用户可以根据读取对象字符串任意地改变该位置。用户调整拍摄位置，使得读取对象序列ID 107被包括在由四个引导部404至407形成的矩形区域内并且拍摄作为被摄体的轮胎105。在图4的示例中，在序列ID 107的正下方的区域408中显示字符读取结果。此时，在字符读取结果是错误的情况下，用户可以通过触摸区域408中的修改对象字符部分来修改字符读取结果。不用说，移动应用310的UI的构造(位置、大小、范围、布置、显示内容等)不限于示意性示出的那些构造。

图像处理模块314对经由照相机单元206摄取的拍摄图像进行诸如灰度转换、边缘提取和特征量提取等的进行字符读取处理所需的图像处理。通过该图像处理，生成如下部分的图像(在下文中，“读取对象图像”)：该部分是被摄体的字符读取处理的对象。

字符识别模块315对由图像处理模块314生成的读取对象图像进行字符读取处理。具体地，将估计存在字符的区域(搜索区域)设置在读取对象图像内，通过改变大小和位置从中切出如下区域：该区域可以是字符的外接矩形，并且针对切出的区域(字符单位区域)进行使用字符图像列表的匹配确定。字符图像列表是在匹配确定中用作比较对象的一组字符图像，并且对应于所谓的字典数据。图5示出了作为示例的数字的字符图像。针对对象被摄体(这里是刻在轮胎上的序列ID 107)中使用的所有字符类型中的各个字符类型准备字符图像。即，在本实施例的情况下，除了图5所示的“0至9”的十个字符图像501至510的数据之外，还预先准备了大写字母“A到Z”的二十六个字符图像(未示意性示出)的数据。图6是示出字符图像列表的数据结构的示例的图。在字符图像列表中，多个字符图像的数据具有树结构。各个字符图像的数据由识别各个字符的字符代码和从各个字符的字符图像提取的特征信息组成。作为特征信息，例如，提及到HOG特征量。HOG(定向梯度直方图)是转变成直方图的局部区域的亮度的梯度方向。各个字符图像的数据不限于上述示例，并且，例如，特征信息可以是指示基于在轮胎上雕刻的字符的字体而创建的各个字符的特征的信息。此外，各个字符的图像本身可以取作字典数据。可以根据在匹配确定对象的字符单位区域的图像与字典数据之间的核对时使用的算法来确定使用哪个字典数据。通过匹配确定，将与字符图像列表中的被评估为最相似的字符图像相关的字符与用于匹配确定的字符单位区域相关联，并且将其确定为各个字符的最可能候选字符。在针对读取对象图像内的所有字符确定最可能候选字符并且检查到在多个帧中稳定地获得相同结果的情况下，获取并保存适合于OCR的静止图像(帧)。

字符图像DB 316是管理在匹配确定时由字符识别模块315使用的上述字符图像列表的数据库。

＜移动应用的操作＞

接下来，详细说明本实施例的移动应用310对被摄体上的字符串的读取操作。图7A至图7D是说明在字符串的读取处理中为各个字符确定上述字符单位区域的方式的图。在图7A中，矩形701指示从经由照相机单元206摄取的拍摄图像中拉出的读取对象图像的轮廓。如前所述，用户调整拍摄位置，使得序列ID 107仅被包括在移动应用310的UI画面400上呈现的引导部404至407内，然后，用户拍摄作为被摄体的轮胎105。移动应用310通过从拍摄图像中拉出由引导部404至407围绕的部分来生成读取对象图像。通常，对于各个制造商确定轮胎的序列ID的格式，并且在本实施例中，在如下假设下给出说明：序列ID的位数是9，并且序列ID由两种字符即数字和大写字母构成。

在如本实施例那样通过拍摄在轮胎上雕刻的序列ID等而获得的图像的情况下，由于字符与背景之间的对比度低或者其表面有污迹，难以准确地检测字符的轮廓。因此，在应用了基于字符的轮廓而切出字符的传统技术的情况下，字符的错误切出位置被选择的可能性很强，因此字符识别精度降低。因此，在本实施例中，首先，将认为存在字符的区域设置为用于各个字符的搜索区域，并且在被设置的搜索区域内，在改变切出位置和大小的同时对前面描述的字符单位区域进行设置。然后，对于从搜索区域内切出的各个字符单位区域的图像，进行使用字符图像列表内的各个字符图像的数据的匹配确定，并由此求得各个字符单位区域的图像与各个字符图像之间的相似度。在获得所有字符单位区域的相似度之后，如下的字符和用于对该字符进行匹配确定的字符单位区域被相互关联并且被取作搜索区域中的识别结果：所述字符是与相似度为所有相似度中最高的字符图像相关的字符。然后，基于识别结果中的字符单位区域在完成匹配确定的搜索区域中的位置，设置用于下一个字符的搜索区域，之后反复进行相同的处理。在本实施例中，包括在从轮胎的拍摄图像中拉出的读取对象图像701中的九位序列ID 107按照从第一位(左端的字符)开始的顺序被处理。以下，参照图7A至图7D以时间序列给出说明。

首先，根据引导部404至407，将第一位数字符的搜索区域702设置在与读取对象图像701的左端相隔预定距离的位置处。假设通过如下预先设置第一搜索区域702的位置：使用指定搜索区域的四个角的位置坐标，作为在进行拍摄的情况下左端的字符存在的可能性较强的区域，使得序列ID 107被包括在由四个引导部形成的矩形内。然后，将字符单位区域703设置在搜索区域702内的预定切出位置处并提取其图像，并且，将该图像与关于具有出现在第一位中的可能性的字符相关的各个字符图像进行比较，求得与关于各个字符图像的字符的相似度。此时，字符单位区域703被设置在搜索区域702内的水平方向(x轴方向)和竖直方向(y轴方向)上稍微彼此偏移的多个位置处。然后，针对各个切出位置处的字符单位区域的图像，进行使用字符图像列表的匹配确定，并且导出与各个字符图像的相似度。也就是说，将具有预定大小的多个字符单位区域设置在不同的位置处以覆盖整个搜索区域702，并且针对各个位置进行与字典数据的比较。此后，字符单位区域703的宽度和高度被进一步改变，并且将字符单位区域703再次设置在不同的切出位置处以覆盖整个搜索区域702，然后进行与字符图像的匹配确定。例如，在字符单位区域703的宽度以三种模式改变并且字符单位区域703的高度以两种模式改变的情况下，字符单位区域703的大小总共具有六种模式(3×2＝6)。此外，在字符单位区域703的切出位置通过沿水平方向滑动四次且在竖直方向上滑动四次而被设置的情况下，对于搜索区域702，字符单位区域703被设置在(4+1)×(4+1)＝25个位置处。在字符单位区域的大小具有六个模式并且将切出位置设置在25个位置处的情况下，从搜索区域702切出字符单位区域的图像总共150次。然后，每当切出字符单位区域的图像时，通过使用具有出现在第一位中的可能性(possibility)的字符的字符图像列表来进行匹配确定，并且求得与各个字符图像的相似度。

在对搜索区域内的所有字符单位区域进行匹配确定之后，将与相似度最高的字符图像相关的字符确定为第一位的识别结果(最可能候选字符)。然后，将相似度最高的字符单位区域的切出位置取作第一位字符的位置。图7C示出了作为相似度最高的字符图像的字符的字母“S”被确定为第一位的识别结果，并且此时字符单位区域的切出位置由矩形704示出。

在确定第一位的识别结果的情况下，为其右侧的相邻字符(左起第二个字符)设置搜索区域705。将这种情况下的搜索区域705基于第一位字符(即一个字符之前的字符)的位置704设置在预定的相对位置处。与第一位字符的情况一样，对于第二位字符，也是通过改变搜索区域705内的切出位置来设置字符单位区域706，并且针对各个字符单位区域706进行匹配确定(相似度的导出)，然后将与相似度最高的字符图像相关的字符确定为第二位字符的识别结果。对于第三位和后续位，也是类似地顺序进行搜索区域的设置、字符单位区域的设置以及使用字符图像列表的匹配确定，并且依次针对各个字符确定识别结果。

希望通过考虑到在拍摄时向左和向右方向的偏移来将用于首先检测到的字符的搜索区域702设置得稍微较宽。另一方面，字符之间的空间通常根据读取对象字符串而被预先确定。因此，也可以将用于第二和后续的字符的搜索区域705设置得比用于第一字符的搜索区域702稍窄。此外，本实施例中所示的切出字符单位区域的方法是一个示例，并且可以使用任何方法，只要可以通过从多个不同的切出位置中切出字符单位区域来顺序地确定各个字符的识别结果即可。

＜字符读取处理＞

接着上述，说明通过由手持移动终端100拍摄来读取被摄体上的字符的处理的详细内容。图8是示出根据本实施例的字符读取处理的流程的流程图。该流程例如由用户激活移动应用310作为触发(trigger)来开始。

在步骤801，设置将在稍后描述的步骤807的确定处理中使用的确定系数。步骤807的确定处理是如下的处理：用于确定字符单位区域是否被包括在适合于读取对象图像内的字符识别的预定范围(在下文中，字符识别范围)内。稍后将描述确定处理和确定系数的详细内容。

在步骤802，获取与根据先前描述的引导部在运动图像模式中拍摄的一帧相对应的读取对象图像。在运动图像模式中拍摄时的帧速率例如是大约30fps。在随后的步骤803，根据稍后将描述的稳定状态确定处理(步骤S809)的确定结果来对处理进行分支。稍后将描述稳定状态确定处理的详细内容。在确定结果指示状态是稳定状态的情况下，处理前进到步骤810。另一方面，在确定结果不指示状态是稳定状态的情况下，处理前进到步骤804。在紧接着处理开始之后的状态中，稳定状态确定处理本身尚未进行，因此，处理毫无例外地前进到步骤804。

在步骤804中，针对在步骤802获取的读取对象图像中包括的字符串(读取对象字符串)内的关注的字符，设置先前描述的搜索区域。这里，读取对象字符串的第一位字符被取作关注的第一字符，因此，在紧接着处理开始之后的阶段，设置用于第一位字符的搜索区域。

在步骤805，利用设置的搜索区域作为对象，进行如下处理(候选字符检测处理)：通过顺序地进行字符单位区域的设置和使用字典数据的匹配确定来检测作为关注字符的识别结果的候选字符。通过该候选字符检测处理，获得具有如图9所示的数据结构的候选字符检测结果。在本实施例的情况下，针对用于各个搜索区域的150个字符单位区域进行匹配确定，并且获得根据被检测为候选字符的字符的数量的、关于直到第N候选(N＞1)的候选字符信息。在将9位序列ID取作读取对象字符串的本实施例的情况下，与各位相对应地获得关于“搜索区域_1”直到“搜索区域_9”的信息。各个候选字符信息包括矩形信息、代码信息和评估值信息。矩形信息包括指定与检测到的候选字符相对应的字符单位区域的切出位置的坐标信息和关于字符单位区域的大小信息。代码信息是关于检测到的候选字符的字符代码的信息。评估值信息是指示检测到的候选字符的似然性(likelihood)的信息，并且在本实施例中，将检测到的候选字符与字典数据内的字符图像相似的程度(相似度)取作评估值。

＜＜候选字符检测处理＞＞

图10是示出上述候选字符检测处理的详细内容的流程图。以下，沿着图10的流程给出说明。

在步骤1001，将字符单位区域的宽度设置为初始值(这里是最小值)。在随后的步骤1002，确定字符单位区域的宽度是否达到限制值(这里，宽度是否超过最大值)。在字符单位区域的宽度被确定为超过最大值的情况下，该处理终止。另一方面，在确定字符单位区域的宽度未超过最大值的情况下，处理前进到步骤1003。

在步骤1003，将字符单位区域的高度设置为初始值(这里是最小值)。在随后的步骤1004，确定字符单位区域的高度是否达到限制值(这里，高度是否超过最大值)。在确定字符单位区域的高度超过最大值的情况下，在步骤1013更新字符单位区域的宽度(这里，宽度增大了预定量)，并且处理返回到步骤1002并继续进行。另一方面，在确定字符单位区域的高度未超过最大值的情况下，处理前进到步骤1005。

在步骤1005，将作为字符单位区域的基准的x坐标(这里是左端的x坐标)设置为初始值(这里，搜索区域的左端的x坐标)。在随后的步骤1006，确定字符单位区域的宽度是否超过搜索区域的宽度。具体地，确定字符单位区域的右端的x坐标是否超过搜索区域的右端的x坐标。在确定字符单位区域的宽度超过搜索区域的宽度的情况下，在步骤1012更新字符单位区域的高度(这里，高度增大了预定量)，并且处理返回到步骤1004并继续进行。另一方面，在确定字符单位区域的宽度未超过搜索区域的宽度的情况下，处理前进到步骤1007。

在步骤1007，将作为字符单位区域的基准的y坐标(这里是顶端侧的y坐标)设置为初始值(这里，搜索区域的顶端侧的y坐标)。在随后的步骤1008，确定字符单位区域的高度是否超过搜索区域的高度。具体地，确定字符单位区域的底端侧的y坐标是否超过搜索区域的底端侧的y坐标。在确定字符单位区域的高度超过搜索区域的高度的情况下，在步骤1011更新作为字符单位区域的基准的x坐标(这里，通过增大x坐标，使x坐标在x轴方向上滑动)，并且处理返回到步骤1006并继续进行。另一方面，在确定字符单位区域的高度未超过搜索区域的高度的情况下，处理前进到步骤1009。

在步骤1009，对于当前设置的字符单位区域的图像，进行与各个字符图像的匹配确定。将参照流程分别说明匹配确定的详细内容。在匹配确定完成的情况下，在步骤1010更新作为字符单位区域的基准的y坐标(这里，通过增大y坐标，使y坐标在y轴方向上滑动)，并且处理返回到步骤1008并继续进行。

如上所述，通过在改变字符单位区域的大小的同时通过在搜索区域内的多个切出位置处设置字符单位区域来进行匹配确定，指定了关注字符的候选字符。在上述说明中，对于诸如最小值和最大值、左端侧和右端侧以及顶端侧和底端侧等的成对的那些，也可以颠倒所述对的顺序。例如，也可以在步骤1001将最大值设置为初始值，并且在这种情况下，将步骤1002中的限制值设置为最小值。由此，也可以获得相同的结果。

＜＜匹配确定＞＞

接着上述，说明步骤1009中的上述匹配确定。图11是示出匹配确定处理的详细内容的流程图。

在步骤1101，从搜索区域中切出预定字符单位区域的图像。在随后的步骤1102，从字符单位区域的切出图像中提取特征信息(这里是HOG特征量)。然后，在步骤1103，从前述的字符图像列表中获取第一字符图像的数据(在图7A至图7D的示例中为“字符图像_1”)。

在步骤1104，比较在步骤1103获取的字符图像的数据中包括的特征信息和在步骤1102从字符单位区域的图像提取的特征信息，并且求得指示两者相似的程度的相关系数作为评估值。图12A和图12B是示出针对图1A至图1C所示的轮胎105上的字符串107获得的不同帧中的评估值的示例的图。由于诸如照明等的拍摄条件的稍微改变，以及切出位置或字符单位区域的大小的不同，所获得的评估值在帧之间不同。

然后，针对在步骤1101切出的字符单位区域创建进行了比较的字符图像的字符代码和包括关于在步骤1104求得的评估值(相似度)的信息的候选字符信息。

在步骤1106，对于正在处理的关注字符，确定是否已经存在具有与关于所创建的候选字符信息的字符代码相同的字符代码的候选字符信息。也就是说，检查如下内容：字符代码一致的候选字符信息是否已经被检测为先前描述的图9中的第一候选字符信息或第二候选字符信息。在已经存在字符代码一致的候选字符信息的情况下，处理前进到步骤1107。另一方面，在不存在字符代码一致的候选字符信息的情况下，处理前进到步骤1109。

在步骤1107，比较在步骤1105创建的候选字符信息的评估值和已经存在的候选字符信息的评估值，并且确定哪一个更高。在确定结果指示已经存在的候选字符信息的评估值较低(在步骤1105创建的候选字符信息的评估值较高)的情况下，处理前进到步骤1108。另一方面，在已经存在的候选字符信息的评估值较高的情况下，处理前进到步骤1110。

在步骤1008，更新已经存在的候选字符信息的内容。具体地，已经存在的第N候选字符信息的矩形信息和评估值信息的内容被步骤1105创建的候选字符信息的内容改写。此外，在步骤1109，在步骤1105创建的候选字符信息被保持(存储在RAM 202中)作为新的第N候选字符信息。

然后，在步骤1110，确定与字符图像列表中的所有字符图像的比较是否完成(是否到达字符图像列表的末尾)。在存在未处理的字符图像的情况下，处理前进到步骤1111。然后，获取字符图像列表内的下一个字符图像数据，并且处理返回到步骤1104并继续进行。另一方面，在与字符图像列表中的所有字符图像的比较完成的情况下，该处理终止。以上是匹配确定处理的内容。

说明返回到字符读取处理(图8中的流程)。

在步骤806，基于候选字符检测处理的结果，确定在步骤804设置的搜索区域的最可能候选字符。具体地，从第一候选字符到第N候选字符，将评估值(相似度)最高的候选字符确定为最可能候选字符。然后，在步骤807，基于关于在步骤806确定的最可能候选字符的候选字符信息中包括的矩形信息，确定最可能候选字符的字符单位区域是否被包括在字符识别范围内。进行这种确定的原因如下。在通过手持移动终端的运动图像模式拍摄而获得的各个帧的图像中，由于受到由于照相机抖动引起的模糊、照明变化等的影响，可能包括许多不适合于字符识别的图像。在通过原样地使用这样的图像进行匹配确定的情况下，发生错误识别的可能性很强。因此，为了获取尽可能适合于字符识别的图像，设置保证匹配确定对象字符串位于读取对象图像内的期望位置处的范围(＝字符识别范围)。图13A和图13B示出了字符识别范围的具体示例。在图13A和图13B中，符号1301指示从图1B所示的轮胎105的拍摄图像中拉出的读取对象图像。然后，符号1302指示字符识别范围的顶端侧的上限线，并且符号1303指示字符识别范围的顶端侧的下限线。此外，符号1304指示字符识别范围的底端侧的上限线，并且符号1305指示字符识别范围的底端侧的下限线。然后，围绕第一位字符到第九位字符中的各个字符的矩形1306指示与先前描述的图12A中的评估值相对应的字符单位区域，并且矩形1306'指示与先前描述的图12B中的评估值相对应的字符单位区域。这里，在将读取对象图像1301的顶端取作y坐标的原点的情况下，作为字符识别范围的顶端侧的上限线1302的y坐标，设置第一位到第九位字符单位区域1306的y坐标的最小值。类似地，作为字符识别范围的底端侧的下限线1305的y坐标，设置第一位到第九位字符单位区域1306的y坐标的最大值。此外，基于顶端侧的上限线1302、底端侧的下限线1305和内侧/外侧确定系数，确定字符识别范围的顶端侧的下限线1303和底端侧的上限线1304。

内侧/外侧确定系数是指示在顶端侧的上限线1302的y坐标与底端侧的下限线1305的y坐标之间的差取为1的情况下不进行字符识别的区域的比率的系数。具体地，首先，从顶端侧的上限线1302的y坐标和底端侧的下限线1305的y坐标，确定顶端侧的上限线1302和底端侧的下限线1305的y坐标之间的距离。此外，确定中心y坐标，即{(顶端侧的下限线1303的y坐标+底端侧的上限线1304的y坐标)÷2}。此时，通过下式分别求得顶端侧的下限线1303的y坐标和底端侧的上限线1304的y坐标。

顶端侧的下限线的y坐标＝中心y坐标-[y坐标之间的距离×内侧/外侧确定系数÷2]

底端侧的上限线的y坐标＝中心y坐标+[y坐标之间的距离×内侧/外侧确定系数÷2]

用户也可以经由触摸面板101手动设置内侧/外侧确定系数，或者通过使用各个帧中的矩形信息的平均值等的算术运算来自动设置。然后，在满足下面的条件1和条件2的情况下，确定字符单位区域被包括在字符识别范围内。

条件1：由矩形信息指定的各个字符单位区域的顶端(y坐标的最小值)被包括在字符识别范围的顶端侧的上限线1302与顶端侧的下限线1303之间。

条件2：由矩形信息指定的各个字符单位区域的底端(y坐标的最大值)被包括在字符识别范围的底端侧的下限线1305与底端侧的上限线1304之间。

在图13A的情况下，第一位到第九位字符单位区域1306中的各个字符单位区域的顶端被包括在顶端侧的上限线1302与顶端侧的下限线1303之间的范围内，并且其底端被包括在底端侧的下限线1305与底端侧的上限线1304之间的范围内。在这种情况下，字符单位区域被确定为包括在字符识别范围内。另一方面，在图13B的情况下，在第一位到第九位字符单位区域1306'的第八位“9”的字符单位区域中，其底端未被包括在底端侧的下限线1305与底端侧的上限线1304之间的范围内且在该范围之外。在这种情况下，字符单位区域被确定为不包括在字符识别范围内。当在上述的此步骤确定最可能候选字符的字符单位区域被包括字符识别范围内的情况下，处理前进到步骤808。另一方面，在字符单位区域被确定为未包括在字符识别范围内时，处理返回到步骤802，并再次获取与根据引导部的一帧相对应的拍摄图像(读取对象图像)。

在步骤808，确定是否完成了针对与根据引导部的一帧对应的拍摄图像(读取对象图像)内的字符串的所有字符的处理。在所有字符的处理完成的情况下，处理前进到步骤809。另一方面，在存在未处理的字符的情况下，处理返回到步骤804，并且将下一个字符确定为关注字符，并继续处理。

在步骤809，进行上述稳定状态确定处理，以确定对于构成读取对象字符串的各个字符的最可能候选字符的评估值是否在预定数目的连续帧中稳定。

＜＜稳态确定处理＞＞

图14是示出稳定状态确定处理的详细内容的流程图。以下，沿着图14的流程给出说明。

在步骤1401，作为确定最可能候选字符的评估值是否处于稳定状态的基准，分别设置与基准帧数和基准变异度相对应的阈值。基准帧数是用于确定表示读取对象字符串的各个字符的最可能候选字符的字符代码在多少个连续帧中一致的基准，并且，例如，设置诸如五个帧的阈值。基准变异度是用于确定在达到连续一致帧数时各个帧中最可能候选字符的评估值的总和(评估值的总值)的变异度是否被包括在预定范围内的基准，并且，例如，设置诸如10％的阈值。用户也可以经由触摸面板101手动设置这些阈值，或者通过从字符读取处理的执行历史等中求得平均值来自动设置。

在步骤1402，获取当前帧中先前描述的候选字符检测结果以及紧邻的前一帧(当前帧之前的一帧)中的候选字符检测结果。然后，在步骤1403，基于关于当前帧中的所获取的候选字符检测结果中包括的字符代码和紧邻的前一帧中的字符代码的信息，确定两个帧中最可能候选字符是否彼此一致。在当前帧和紧邻的前一帧中的最可能候选字符彼此一致的情况下，处理前进到步骤1404。另一方面，在最可能候选字符彼此不一致的情况下，退出该处理。

在步骤1404，确定最可能候选字符一致的连续帧的数量是否达到在步骤1401设置的基准帧数(是否大于或等于预定阈值)。在确定结果指示连续一致帧数未达到基准帧数的情况下，处理前进到步骤1405，并且将当前时间点处的连续一致帧数存储在RAM 202中。另一方面，在达到基准帧数的情况下，处理前进到步骤1406。

在步骤1406，在与基准帧数相对应的连续一致帧中的各个帧中，计算最可能候选字符的评估值的总和(评估值的总值)。在本实施例的情况下，在预定数量的连续一致帧中的各个帧中，求得第一位字符到第九位字符的所有字符的评估值的总和作为评估值的总值。例如，在先前描述的图12A的情况下，评估值的总值为0.23+0.25+0.28+0.25+0.19+0.26+0.29+0.25+0.12＝2.12。在图12B的情况下，评估值的总值为0.65+0.54+0.68+0.64+0.39+0.73+0.55+0.87+0.60＝5.65。

在步骤1407，从在步骤1406计算出的评估值的总值求得波动宽度和基于波动宽度的变异度，并且确定求得的变异度是否被包括在步骤1401设置的基准变异度内。具体地，求得针对所有连续一致帧求得的评估值的总值的最大值与最小值之间的差(波动宽度)，并确定指示变异度的比率是否在步骤1401设置的预定的阈值内。例如，假设五个连续一致帧中的评估值的总值是4.8、4.9、5.0、5.1和5.2。在这种情况下，波动宽度是0.4。于是，这种情况下的变异度为0.4÷5.0＝0.08(8％)，因此，在作为基准变异度的阈值为10％的情况下，确定该变异度被包括在基准变异度内。在评估值的总值的变异度被包括在上述的基准变异度内的情况下，处理前进到步骤1408。另一方面，在变异度未被包括在基准变异度内的情况下，则退出该处理。

在步骤1408，确定评估值在与基准帧数相对应的连续一致帧中的各个帧中处于稳定状态，并且将指示该确定结果的信息(例如，标志)存储在RAM 202中。

以上是在步骤809中的稳定状态确定处理的内容。在稳定状态确定处理完成的情况下，处理返回到步骤802，并且获取根据引导部的下一帧的读取对象图像。说明返回到图8中的流程。

在步骤810中，在确定结果指示最可能候选字符的评估值在先前描述的步骤803(在该步骤，根据确定结果对处理进行分支)的处理中处于稳定状态的情况下，作为字符读取处理的结果，将在紧邻的前一步骤802处获取的、与一帧相对应的拍摄图像(读取对象图像)输出，例如保存在RAM 202或外部存储设备(未示意性示出)中。也可以对获取的拍摄图像再次进行候选字符检测处理(步骤805)，并将结果显示在触摸面板101上作为简单的OCR结果。可选地，也可以经由NIC 205将获取的拍摄图像的数据传送到外部PC等，并且通过不同的方法或以不同的精度分别进行OCR。

以上是根据本实施例的字符读取处理的内容。由此，可以提供例如自动拍摄功能，以通过以运动图像模式对移动终端进行拍摄来指定用于字符识别的最佳静止图像。

(变型例)

在读取对象字符串中包括例如形状相似的字符(如“0”和“9”以及数字“0”和字母“O”)的情况并不少。在诸如此类的情况下，由于应用照明方式等的微妙变化而导致最可能候选字符在帧之间频繁变化，并且评估值在长时间内不会变得稳定，因此，考虑字符读取处理花费预想不到的时间的情况。

因此，也可以设计如下构造：在候选字符检测处理中求得评估值彼此接近的多个候选字符作为匹配确定的结果的情况下，从稳定状态确定处理的对象中排除搜索范围内的字符。通过在如上所述求得评估值彼此接近的多个候选字符的搜索区域中排除该字符来确定评估值是否处于稳定状态，可以在保持识别精度的同时防止字符读取处理所花费的时间变得比所需的时间长(或者防止字符读取处理变为不能被终止的处理)。

图15是在本变型例中使用的候选字符表的示例。该候选字符表对应于图1C所示的轮胎105的读取对象字符串，并且是包括有对应于九位的候选字符信息的表。如示意性地示出的，在候选字符表中，字符代码和关于该字符代码评估值的信息按照从最高评估值(相似度)开始的顺序(例如，第一候选字符，第二候选字符，等等)相互关联地存储。然后，参照该候选字符表，并且，例如，在评估值最高的第一候选字符的评估值与评估值第二高的第二候选字符的评估值之间的差在预定值内时，从稳定状态确定处理的对象中排除搜索区域中的字符。这种情况下的预定值可以通过考虑被摄体、对象字符串的构造、摄像环境等来设置，并且，例如，设置约0.01至约0.1的值。在图15所示的示例中，作为第八位的第一候选字符的字符信息“0”(零)的评估值0.87与第二候选字符“O”(字母表)的评估值0.86之间的差小至0.01。在这种情况下，在阈值设置为0.05的条件下，第八位被排除。

在摄像环境在帧之间容易改变的情况下，特别是在第一候选字符与第二候选字符之间的评估值的差小的条件下，很可能第一候选字符和第二候选字符在帧之间相互改变位置。在这种情况下，发生错误识别的可能性很强，因此，关注第一候选字符与第二候选字符之间的评估值的差，并且，不将该差小的搜索区域中的字符用于稳定状态确定处理。具体地，在图15的示例的情况下，通过仅使用除第八位以外的第一位到第七位以及第九位数字的这八个字符，进行确定当前帧和紧邻的前一帧中的最可能候选字符是否彼此一致的确定处理(步骤1403)。然而，本变型例不限于此，例如，除了第一候选字符和第二候选字符之外，还可以考虑第三候选字符。

此外，还可以设置要排除的字符数的上限(排除字符比)。例如，排除字符比被定义为要排除的字符数除以构成对象字符串的字符的总数，并且在要排除的字符数超过上限的情况下，不将与该帧相关的拍摄图像取作读取对象图像。例如，在对象字符串的字符数为10并且要排除的字符数的上限设置为2(排除字符比＝0.2)的情况下，在要排除的字符数是2以上时，该帧的拍摄图像被丢弃，并且通过获取下一帧的拍摄图像来继续处理。然后，在连续出现要排除的字符数超过上限的拍摄图像的情况下，还可以在触摸面板101上显示消息以推荐摄像环境的变化。

通过上述的变型例，由于评估值彼此接近的字符被包括在读取对象字符串中，所以即使在评估值在多个连续帧中不可能变得稳定的情况下，也可以适当地应用本发明。

根据本实施例，在通过使用具有照相机功能的移动终端拍摄包括字符的读取对象而获得字符识别结果的情况下，可以通过短时间拍摄获得适合于OCR的图像。

(其它实施例)

还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能，和/或包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的***或装置的计算机，来实现本发明的实施例，并且，可以利用通过由***或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能，并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)、微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算***的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)^TM)、闪存装置以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给***或装置，该***或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

根据本发明，在通过使用具有照相机功能的移动终端来读取被摄体上的字符的情况下，可以在短时间获得适合于OCR的图像。

虽然针对示例性实施例描述了本发明，但是，应该理解，本发明不限于公开的示例性实施例。下述权利要求的范围应当被赋予最宽的解释，以便涵盖所有这类变型例以及等同的结构和功能。

Claims

1.一种包括照相机的信息处理装置，所述信息处理装置包括：

获取单元，其被构造为通过由照相机拍摄被摄体上的字符串来获取运动图像；

设置单元，其被构造为针对构成所获取的运动图像的各个帧设置用于字符识别的搜索区域，所述用于字符识别的搜索区域针对构成字符串的各个字符；

检测单元，其被构造为从搜索区域检测候选字符；

第一确定单元，其被构造为确定指示检测到的候选字符的似然性的评估值是否稳定；以及

输出单元，其被构造为响应于评估值被确定为稳定，输出所获取的运动图像的帧。

2.根据权利要求1所述的信息处理装置，其中，

检测单元在所设置的搜索区域中通过改变单位区域的位置而设置更小的单位区域并提取与各个单位区域相对应的图像，并且检测单元通过将各个提取的图像与字典数据进行比较来检测候选字符。

3.根据权利要求2所述的信息处理装置，其中，

单位区域是如下区域：该区域能够是构成字符串的字符的外接矩形。

4.根据权利要求2所述的信息处理装置，其中，

检测单元在所设置的搜索区域中通过改变大小进一步设置单位区域来提取与各个单位区域相对应的图像，并且通过将各个提取的图像与字典数据进行比较来检测候选字符。

5.根据权利要求1所述的信息处理装置，其中，

设置单元将用于如下字符的搜索区域设置为比用于第二字符和后续字符的搜索区域宽：所述字符是构成字符串的字符中的、首先检测到候选字符的字符。

6.根据权利要求5所述的信息处理装置，其中，

设置单元将用于第二字符和后续字符的搜索区域设置在针对前一字符所设置的搜索区域的位置的预定相对位置处。

7.根据权利要求2所述的信息处理装置，所述信息处理装置还包括：

第二确定单元，其被构造为从检测单元针对构成字符串的各个字符检测到的候选字符中确定评估值最高的最可能候选字符，并确定与最可能候选字符相对应的单位区域是否被包括在预定的字符识别范围内，其中，

在第二确定单元确定与最可能候选字符相对应的单位区域被包括在预定的字符识别范围内的情况下，第一确定单元确定最可能候选字符的评估值对于构成字符串的各个字符是否稳定。

8.根据权利要求7所述的信息处理装置，其中，

在构成字符串的各个字符的最可能候选字符在多个连续帧中一致的情况下，第一确定单元进行所述确定。

9.根据权利要求8所述的信息处理装置，其中，

第一确定单元导出所述多个连续帧中的各个帧中的一致的最可能候选字符的评估值的总值，并且基于所导出的总值的变异度来确定一致的最可能候选字符的评估值是否稳定。

10.根据权利要求2所述的信息处理装置，其中，

评估值是指示与各个单位区域相对应的图像与字典数据内的字符图像相似多少的程度。

11.根据权利要求7所述的信息处理装置，其中，

在评估值最高的候选字符的评估值与评估值第二高的候选字符的评估值之间的差在针对构成字符串的字符中的特定字符所检测到的候选字符的预定阈值内的情况下，第一确定单元从所述确定中的最可能候选字符中排除针对所述特定字符的评估值最高的候选字符。

12.根据权利要求11所述的信息处理装置，其中，

第一确定单元不进行对构成获取单元所获取的运动图像的帧中的、要排除的特定字符的数量与构成字符串的字符的总数的比率超过上限的帧的确定。

13.一种信息处理装置的控制方法，所述信息处理装置包括照相机，所述控制方法包括以下步骤：

通过使用照相机拍摄被摄体上的字符串来获取运动图像；

针对构成所获取的运动图像的各个帧设置用于字符识别的搜索区域，所述用于字符识别的搜索区域针对构成字符串的各个字符；

从搜索区域中检测候选字符；

确定指示检测到的候选字符的似然性的评估值是否稳定；以及

响应于在确定步骤中评估值被确定为稳定，输出所获取的运动图像的帧。

14.一种非暂时性计算机可读存储介质，其存储用于使计算机进行信息处理装置的控制方法的程序，所述信息处理装置包括照相机，所述控制方法包括以下步骤：

通过使用照相机拍摄被摄体上的字符串来获取运动图像；

从搜索区域中检测候选字符；