CN108509955B

CN108509955B - 用于字符识别的方法、***和非瞬时计算机可读介质

Info

Publication number: CN108509955B
Application number: CN201810161029.6A
Authority: CN
Inventors: 斯图尔特.瓜尔涅里; 詹森.詹姆斯.格拉姆斯
Original assignee: Konica Minolta Laboratory USA Inc
Current assignee: Konica Minolta Laboratory USA Inc
Priority date: 2017-02-28
Filing date: 2018-02-27
Publication date: 2022-04-15
Anticipated expiration: 2038-02-27
Also published as: JP2018152059A; CN108509955A; JP7071840B2

Abstract

一种用于字符识别的方法。该方法包括：获得从图像提取的多个字符片段；确定具有所述多个字符片段的第一集合的第一字符边界框以及具有所述多个字符片段的第二集合的第二字符边界框；确定用于该第一集合的多个方向和用于该第一集合的多个定时属性，其中所述多个定时属性包括用于该第一集合的排序和用于该第一集合的绘制持续时间；和通过向智能字符识别(ICR)引擎发送该第一集合、用于该第一集合的多个方向、和用于该第一集合的多个定时属性，而运行用于该第一字符边界框的字符识别。

Description

用于字符识别的方法、***和非瞬时计算机可读介质

技术领域

本发明涉及字符识别，并更具体地，涉及用于字符识别的方法、***和非瞬时计算机可读介质。

背景技术

可通过扫描硬拷贝文档而生成图像。也可通过将电子文档(例如，字处理文档、幻灯片放映的幻灯片、电子表格、网页等)变换为图像格式(例如，位图)的软件应用，而生成图像。因此，图像通常包括多个手绘文本字符，而不管如何生成该图像。在具有文本字符的图像被恢复用于观看、打印、分析等之前，可存储(即，存档(archived))该图像达到相当长时间。

智能字符识别(ICR)是这样的技术，其标识(即，识别)图像中的文本字符，并输出这些文本字符的电子可编辑版本(例如，串)。可在手绘文本字符的同时执行ICR，并由此ICR能利用定时信息来正确识别这些字符。然而，如果在绘制文本字符之后执行ICR(例如，对存档的图像执行ICR)，则定时信息不可用，并且ICR的性能受损。无论如何，用户仍然希望对具有手绘字符的存档的图像执行ICR。

发明内容

一般来说，在一个方面，本发明的实施例涉及一种用于字符识别的方法。该方法包括：获得从图像提取的多个字符片段；确定包括所述多个字符片段的第一集合的第一字符边界框(bounding boxes)以及包括所述多个字符片段的第二集合的第二字符边界框；确定用于该第一集合的多个方向和用于该第一集合的多个定时属性，其中所述多个定时属性包括用于第一集合的排序和用于该第一集合的绘制持续时间；和通过向智能字符识别(ICR)引擎发送该第一集合、用于该第一集合的多个方向、和用于该第一集合的多个定时属性，而运行用于该第一字符边界框的字符识别。

一般来说，在一个方面，本发明的实施例涉及一种用于字符识别的***。该***包括：存储器；计算机处理器，与该存储器连接，并且用于：获得从图像提取的多个字符片段；确定包括所述多个字符片段的第一集合的第一字符边界框以及包括所述多个字符片段的第二集合的第二字符边界框；确定用于该第一集合的多个方向和用于该第一集合的多个定时属性，其中所述多个定时属性包括用于该第一集合的排序和用于该第一集合的绘制持续时间；和通过向智能字符识别(ICR)引擎发送该第一集合、用于该第一集合的多个方向、和用于该第一集合的多个定时属性，而运行用于该第一字符边界框的字符识别。

一般来说，在一个方面，本发明的实施例涉及一种存储有计算机程序代码的非瞬时计算机可读介质(CRM)。所述计算机程序代码当由计算机处理器运行时，用于：获得从图像提取的多个字符片段；确定包括所述多个字符片段的第一集合的第一字符边界框以及包括所述多个字符片段的第二集合的第二字符边界框；确定用于该第一集合的多个方向和用于该第一集合的多个定时属性，其中所述多个定时属性包括用于该第一集合的排序和用于该第一集合的绘制持续时间；和通过向智能字符识别(ICR)引擎发送该第一集合、用于该第一集合的多个方向、和用于该第一集合的多个定时属性，而运行用于该第一字符边界框的字符识别。

一般来说，在一个方面，本发明的实施例涉及一种用于字符识别的方法。该方法包括：获得从图像提取的多个字符片段；确定包括所述多个字符片段的第一集合的第一字符边界框以及包括所述多个字符片段的第二集合的第二字符边界框；基于用于该第一集合的多个纹理属性，来确定用于该第一集合的排序；基于用于该第一集合的多个刷子宽度和多个密度，来确定该第一集合的多个方向；和通过向智能字符识别(ICR)引擎发送该第一集合、该第一集合的多个方向、和用于该第一集合的排序，而运行用于该第一字符边界框的字符识别。

一般来说，在一个方面，本发明的实施例涉及一种用于字符识别的***。该***包括：存储器；计算机处理器，与该存储器连接，并且用于：获得从图像提取的多个字符片段；确定包括所述多个字符片段的第一集合的第一字符边界框以及包括所述多个字符片段的第二集合的第二字符边界框；基于用于该第一集合的多个纹理属性，来确定用于该第一集合的排序；基于用于该第一集合的多个刷子宽度和多个密度，来确定该第一集合的多个方向；和通过向智能字符识别(ICR)引擎发送该第一集合、该第一集合的多个方向、和用于该第一集合的排序，而运行用于该第一字符边界框的字符识别。

一般来说，在一个方面，本发明的实施例涉及一种存储有计算机程序代码的非瞬时计算机可读介质(CRM)。所述计算机程序代码当由计算机处理器运行时，用于：获得从图像提取的多个字符片段；确定包括所述多个字符片段的第一集合的第一字符边界框以及包括所述多个字符片段的第二集合的第二字符边界框；基于用于该第一集合的多个纹理属性，来确定用于该第一集合的排序；基于用于该第一集合的多个刷子宽度和多个密度，来确定该第一集合的多个方向；和通过向智能字符识别(ICR)引擎发送该第一集合、该第一集合的多个方向、和用于该第一集合的排序，而运行用于该第一字符边界框的字符识别。

本发明的其他方面根据以下描述和所附权利要求将清楚。

附图说明

图1示出了根据本发明一个或多个实施例的***。

图2、图3、图4A和图4B示出了根据本发明一个或多个实施例的流程图。

图5A和图5B示出了根据本发明一个或多个实施例的一个或多个示例。

图6示出了根据本发明一个或多个实施例的计算机***。

具体实施方式

现在将参考附图来详细描述本发明的特定实施例。为了一致，通过相同附图标记来表示各个图中的相同元素。

在本发明实施例的以下详细描述中，阐明很多特定细节以便提供本发明的更全面的理解。然而，本领域技术人员将清楚的是，可在没有这些特定细节的情况下实践本发明。在其他实例中，还没有详细描述公知特征，以避免使得描述不必要地复杂。

一般来说，本发明的实施例提供用于字符识别的方法、***和非瞬时计算机可读介质(CRM)。特别是，获得从图像提取的字符片段，并然后对于这些字符片段确定字符边界框。这些字符片段对应于图像中的手绘文本字符。对于每一字符边界框，确定用于字符边界框中的字符片段的集合的方向和定时属性(例如，排序、绘制持续时间等)。可基于字符片段的交叉点和纹理属性，来确定字符片段的排序。字符片段的一个或多个方向可基于刷子宽度和/或密度。

字符片段的集合、用于字符片段的集合的方向、和用于字符片段的集合的定时属性然后被提交到ICR引擎，以执行字符识别。换言之，ICR引擎利用方向和定时属性来标识图像中的手绘文本字符。通过利用确定的方向和确定的定时属性，改进ICR引擎的性能(即，标识的文本字符更可能正确匹配图像中的手绘字符)。

图1示出了根据本发明一个或多个实施例的***(100)。如图1中所示，***(100)具有多个组件，包括骨架提取器(104)、笔划分析器(106)和ICR引擎(108)。每一组件(104,106,108)可对应于通过具有有线和/或无线片段的网络连接到一起的个人计算机(PC)、膝上型计算机、移动计算装置(例如，平板PC、智能电话等)、服务器、大型机(mainframe)、信息服务亭(kiosk)等。另外或作为选择，两个或更多组件(104,106,108)可位于具有至少计算机处理器和存储器的同一硬件装置上。

如图1中所示，将图像(102)输入到***(100)。图像(102)可从扫描仪获得、从网站下载、从仓库(repository)恢复等。图像(102)可以是位图。另外或作为选择，图像(102)可以是任何形式。图像(102)可包括一个或多个手绘文本字符。识别的字符(110)是***(100)的输出。识别的字符(110)是图像(102)中的手绘文本字符的电子可编辑版本(例如，串)。

在本发明的一个或多个实施例中，***(100)包括骨架提取器(104)。骨架提取器(104)可按照硬件(即，电路)、软件、或其任何组合实现。骨架提取器(104)被配置以提取和输出图像(102)中发现的字符片段。这可包括对图像(102)执行连通分量分析。骨架提取器可一次一根文本线来提取和输出字符片段。在本发明的一个或多个实施例中，骨架提取器(104)输出用于每一字符片段的一个或多个刷子宽度(即，刷子宽度可随着字符片段的长度改变)、用于每一字符片段的一个或多个密度值(即，密度可随着字符片段的长度改变)、用于每一字符片段的一个或多个颜色片段(即，文本属性可随着字符片段的长度改变)等。

在本发明的一个或多个实施例中，***(100)包括笔划分析器(106)。笔划分析器(106)可按照硬件(即，电路)、软件、或其任何组合实现。笔划分析器(106)被配置以确定用于从骨架提取器(104)接收的字符片段的字符边界框。笔划分析器(106)还被配置以确定用于每一字符边界框中的字符片段的集合的方向，并确定用于字符边界框中的字符片段的集合的定时属性(例如，绘制持续时间和/或排序)。笔划分析器(106)可利用至少刷子宽度和/或密度来确定方向。笔划分析器(106)可利用至少纹理属性来确定定时属性(例如，排序)。已被分配方向、顺序、和/或附加定时属性的字符片段可被称为笔划。笔划可包括一个或多个字符片段。文本字符可包括一个或多个笔划。

在本发明的一个或多个实施例中，***(100)包括ICR引擎(108)。ICR引擎(108)可按照硬件、软件、或其任何组合实现。ICR引擎(108)输入字符片段的集合、用于字符片段的集合的方向、和用于字符片段的集合的定时属性(例如，绘制持续时间、排序等)。ICR引擎(108)利用字符片段的集合、用于字符片段的集合的方向、和用于字符片段的集合的定时属性，来标识和输出识别的字符(110)。确定的方向和确定的定时属性的使用增加识别的字符(110)与图像(102)中的手绘文本字符正确匹配的可能性。例如，字符“O”和字符“D”可具有类似的字符片段。然而，其中绘制“O”的方式(即，方向和定时属性)和其中绘制“D”的方式相当不同。因此，ICR引擎(108)对于方向和定时属性的使用可解决模糊度。确定的方向和确定的定时属性的使用也可降低输出识别的字符(110)所需的时间。

具有该详细描述的益处的本领域技术人员将理解，可使用识别的字符(110)以生成包括图像(102)的内容并且还可编辑的电子文档。具有该详细描述的益处的本领域技术人员还将理解，骨架提取器(104)、笔划分析器(106)和ICR引擎(108)可被定制(specialized)用于特定语言或字母/字符集合。另外或作为选择，骨架提取器(104)、笔划分析器(106)和ICR引擎(108)可能能够处置多种语言或字母/字符集合。

图2示出了根据本发明一个或多个实施例的流程图。该流程图描绘了用于字符识别的处理。图2中的一个或多个步骤可由***(100)的组件(例如，笔划分析器(106))执行，如上面参考图1讨论的那样。在本发明的一个或多个实施例中，图2中示出的一个或多个步骤可省略、重复、和/或按照与图2中示出的顺序不同的顺序执行。因此，不应认为本发明的范围限于图2中示出的步骤的特定安排。

初始地，获得字符片段(步骤205)。这些字符片段可能已经由执行连通分量分析的骨架提取器从图像中提取。这些字符片段可对应于图像中的手绘字符。此外，该图像可能已经通过扫描硬文档而先前生成和/或该图像可能已经从网站、仓库等下载/恢复。在一个或多个实施例中，该图像是位图。

在步骤210，确定多个字符边界框。每一字符边界框包括字符片段的集合。每一字符边界框可对应于单一文本字符和/或多个文本字符(例如，当两个或更多文本字符在图像中接触时)。确定字符边界框可有效地需要执行簇分析以确定多个集合，其中每一集合已连接字符片段。集合中的多个字符片段可合并为新的字符片段。该新的字符片段也是集合的一部分。

在步骤215，选择字符边界框。可随机选择字符边界框。作为选择，如果多个字符片段对应于文本的线(即，行、列等)，则可从左到右、从右到左、从上到下等来选择字符边界框。

在步骤220，确定所选择的边界框中的字符片段的集合的方向和定时属性。特别是，可确定每一片段的方向。此外，可确定字符片段的集合的排序(即，第一绘制的字符片段、第二绘制的字符片段、最后绘制的字符片段等)。此外，可对于字符片段的集合确定绘制持续时间。该绘制持续时间可对应于手绘所选择的边界框中的所有字符片段所需要的总时间。在一个或多个实施例中，该绘制持续时间也包括每一字符片段之间的间隙时间(即，绘制一个字符片段的结尾和绘制下一字符片段的开头之间的时间)。另外或作为选择，对于集合中的每一字符片段计算和维持绘制持续时间。图3、图4A和图4B中提供了关于步骤220的附加细节。

在步骤225，基于字符片段的集合、确定的方向、和确定的定时属性，来运行字符识别。特别是，可将字符片段的集合、确定的方向、和确定的定时属性(例如，排序、绘制持续时间)发送到输出所识别的字符的ICR引擎。这些方向和定时属性增加识别的字符与图像中的实际手绘字符正确匹配的可能性。这些方向和定时属性还可以降低输出所识别的字符所需的时间。

在步骤230，确定是否存在还没有处理的现有字符边界框。当确定需要处理附加字符边界框时，处理返回到步骤215。

具有该详细描述的益处的本领域技术人员将理解的是，在图2的处理中，可基于逐个边界框向ICR引擎提供(即，发送)字符片段的集合、用于字符片段的集合的定时属性、和字符片段的方向。还具有该详细描述的益处的本领域技术人员将理解的是，可对于图像中的每一文本线(例如，行、列等)重复图2中描绘的处理。

图3示出了根据本发明一个或多个实施例的流程图。该流程图描绘了用于字符识别的处理。特别是，该流程图描绘了用于确定字符片段的集合的方向和定时属性的处理。图3中的一个或多个步骤可由***(100)的组件(例如，笔划分析器(106))执行，如上面参考图1讨论的那样。图3中描绘的处理可对应于图2中的步骤220。在本发明的一个或多个实施例中，图3中示出的一个或多个步骤可省略、重复、和/或按照与图3中示出的顺序不同的顺序执行。因此，不应认为本发明的范围限于图3中示出的步骤的特定安排。

初始地，确定字符片段的排序(步骤305)。确定排序可包括确定首先绘制了哪个字符片段、其次绘制了哪个字符片段、最后绘制了哪个字符片段等。基于可以取决于语言的假设，来确定该排序。例如，可假设在较短字符片段之前绘制较长字符片段。另外或作为选择，可假设在靠近边界框的右侧的字符片段之前绘制靠近边界框的左侧的字符片段。另外或作为选择，可假设在靠近边界框的底部的字符片段之前绘制靠近边界框的顶部的字符片段。另外或作为选择，可假设在水平字符片段等之前绘制垂直字符片段。另外或作为选择，可假设在其他字符片段之前绘制通过方向锐变(例如，角落)连接的字符片段。一个或多个假设可产生于观察绘制文本字符时多个个人操作者之间的重复行为。

在本发明的一个或多个实施例中，基于文本属性(例如，填充颜色、填充图案等)，特别是在交叉点处和附近的文本属性(下面讨论)，来确定两个交叉字符片段的排序。图4A和图4B示出了用于确定两个字符片段是否具有正确排序的示例测试。

在步骤310，对于字符片段的集合重置时钟值。使用该时钟值来测量绘制集合中的一个或多个字符片段所需要的时间。可使用计数器来实现该时钟值。

在步骤315，选择字符片段。可基于确定的排序来选择字符片段(步骤305)。另外或作为选择，可随机选择字符片段。

在步骤320，选择字符片段的方向。字符片段具有两个端点，并且确定字符片段的方向包括确定哪个端点是开始端点以及哪个端点是结束端点。

具有该详细描述的益处的本领域技术人员将理解，大多数用户习惯使用右手并且将绘制工具(例如，钢笔、铅笔、记号笔(marker)等)拖向他们自己。因此，确定字符片段的方向可包括在用户绘制文本字符的同时选择代表用户的地点的用户点，并然后确定用户点和两个端点之间的距离。较近的端点可以被指定为结束端点，而较远的端点可以被指定为开始端点。

另外或作为选择，字符片段趋于从左向右以及从上向下绘制。这取决于字符片段的长轴。水平字符片段通常从左向右绘制。垂直字符片段通常从上向下绘制。

另外或作为选择，在一个或多个实施例中，使用刷子宽度和/或密度来确定字符片段的开始端点和结束端点。具体地，开始端点处的刷子宽度经常大于结束端点处的刷子宽度。类似地，开始端点的密度经常比结束端点的密度深。因此，具有较大刷子宽度和/或较深密度的端点可被指定为开始端点，而剩余端点被指定为结束端点。

在步骤325，计算字符片段的长度。字符片段的长度可能已经被计算以运行先前步骤(例如，步骤305)，并由此这里可省略。

在步骤330，计算绘制字符片段的时间，并且根据该计算的时间来增加时钟值。绘制字符片段的时间是字符片段的长度和书写工具(例如，钢笔、铅笔等)的速度的函数。可对于集合中的所有字符片段假设相同的恒定速度(V_C)。另外或作为选择，可对于不同长度的不同字符片段假设恒定速度的不同分数(或倍数)(例如，0.25V_C、0.5V_C、1.2V_C、1.8V_C)。此外，可基于字符片段的排序来选择速度。例如，可对于该排序中的第一字符片段假设V的速度，而可以对于该排序中的最后字符片段假设1.25V或0.7V(即，较大或较小速度)的速度。作为另一示例，对于不是排序中的第一字符片段或最后字符片段的所有字符片段(即，中间字符片段)，可假设速度是对于第一字符片段假设的速度与对于最后字符片段假设的速度的平均值。另外或作为选择，可对于每一中间字符片段假设不同速度。例如，对于中间字符片段假设的速度可间隔在对于第一字符片段假设的速度和对于最后字符片段假设的速度之间(即，排序越高，假设的速度越高)。其他的方案也是可能的。

在步骤335，确定是否存在还没有处理的附加片段。当确定存在需要处理的附加片段时，处理前进到步骤340。当确定不存在需要处理的附加片段时，处理前进到步骤345。

在步骤340，时钟值被增加以占据(account for)结束绘制所选择的字符片段和开始绘制下一字符片段之间的时间间隙。在一个或多个实施例中，对于所有连续字符片段假设相同的时间间隙。在一个或多个实施例中，使用不同的时间间隙用于不同字符片段之间的推移(procession)。

在步骤345，基于时钟值确定绘制持续时间。在一个或多个实施例中，该绘制持续时间是当前时钟值。在一个或多个实施例中，该绘制持续时间是具有一个或多个调整以占据时间间隙的当前时钟值。

具有该详细描述的益处的本领域技术人员将理解，可对于每一字符边界框中的字符片段的集合，执行图3中示出的处理。

在图3中，确定基于纹理属性的字符片段的排序(步骤305)以及基于刷子宽度和/或密度的字符片段的方向(步骤320)。然而，在本发明的一个或多个实施例中，仅确定基于纹理属性的字符片段的排序(即，执行步骤305，但是省略步骤320)。在本发明的一个或多个实施例中，仅确定基于刷子宽度和/或密度的字符片段的方向(即，执行步骤320，但是省略步骤305)。在这样的实施例中，仅将字符片段的排序或者仅将字符片段的方向提供到ICR引擎，以执行字符识别。

图4A和图4B示出了根据本发明一个或多个实施例的流程图。该流程图描绘了用于确定单一字符边界框中的两个字符片段(即，字符片段A、字符片段B)是否具有正确排序的测试。在一个或多个实施例中，该测试涉及拉丁字母表。图4A和图4B中的步骤的一个或多个可通过上面参考图1讨论的***(100)的组件(例如，笔划分析器(106))来执行。图4A和图4B中描绘的处理可对应于图3中的步骤305。在本发明的一个或多个实施例中，图4A和图4B中示出的步骤的一个或多个可被省略、重复和/或按照与图4A和图4B中示出的顺序不同的顺序执行。因此，本发明的范围不应被看作限于图4A和图4B中示出的步骤的特定安排。

初始地，假设在字符片段B之前绘制字符片段A(步骤405)。

在步骤489，确定片段A和片段B是否交叉。换言之，在步骤489，定位片段A和片段B的交叉点，如果其存在的话。当片段A和片段B交叉时，处理前进到步骤491。当片段A和片段B不交叉时，处理前进到步骤410(图4B中所示)。

在步骤491，对于片段A和片段B计算纹理属性。纹理属性可对应于例如片段的填充颜色、片段的填充图案等。在一个或多个实施例中，纹理属性对于字符片段的整个长度可同源(homogenous)。另外或作为选择，纹理属性可沿着字符片段的长度变化。在本发明的一个或多个实施例中，片段的纹理属性可从骨架提取器(104)的输出可得，或者至少可从骨架提取器(104)的输出导出。

在步骤493，确定片段A和片段B的纹理属性(特别是交叉点附近)是否显著不同。例如，如果纹理属性是颜色，则确定用于片段A的RGB颜色值和用于片段B的RGB颜色值之间的差值是否超出预定阈值。当确定纹理属性显著不同时，处理前进到步骤495。当确定纹理属性并不是显著不同时，处理前进到步骤410(图4B中所示)。

在步骤495，将交叉点纹理属性(即，片段A和片段B的交叉点处的纹理属性)与该交叉点附近的片段A的纹理属性和该交叉点附近的片段B的纹理属性两者进行比较。

在步骤497，确定交叉点纹理属性与片段B的纹理属性是否匹配或较好匹配。例如，如果纹理属性是颜色，则确定交叉点的RGB颜色值是否与字符片段A的RGB颜色值或字符片段B的RGB颜色值较好匹配。如果步骤497是真，则这暗示片段B在字符片段A的上面，并由此片段A在字符片段B之前绘制。因此，关于字符片段A在字符片段B之前绘制的假设是正确的(步骤440)。然而，如果步骤497是假，则这暗示字符片段A在字符片段B的上面，并由此字符片段B在字符片段A之前绘制。因此，关于字符A在片段B之前绘制的假设是不正确的(步骤445)(即，实际上字符片段B在字符片段A之前绘制)。

现在，参考图4B，在步骤410，执行各种计算。具体地，计算垂线和字符片段A之间的角度(θ_A)；并且计算垂线和字符片段B之间的角度(θ_B)。此外，计算字符片段A的垂直位置(即，顶端位置)(从字符边界框的顶部测量)(VP_A)；并且还计算字符片段B的垂直位置(VP_B)。此外，计算字符片段A的最左边位置(LP_A)；并且计算字符片段B的最左边位置(LP_B)。

在步骤415，确定θ_A和θ_B之间的差值的绝对值是否相当大(即，超出预定阈值)。在步骤420，确定字符片段A是否比字符片段B更垂直。如果步骤420为真，则关于字符片段A在字符片段B之前绘制的假设是正确的(步骤440)。然而，如果步骤420为假，则关于字符片段A在字符片段B之前绘制的假设是不正确的(步骤445)(即，实际上字符片段B在字符片段A之前绘制)。

在步骤425，确定LP_A和LP_B之间的差值的绝对值是否相当大(即，超出预定阈值)。在步骤430，确定字符片段A是否比字符片段B更靠近字符边界框的左侧。如果步骤430为真，则关于字符片段A在字符片段B之前绘制的假设是正确的(步骤440)。然而，如果步骤430为假，则关于字符片段A在字符片段B之前绘制的假设是不正确的(步骤445)(即，实际上字符片段B在字符片段A之前绘制)。

在步骤435，确定字符片段A是否比字符片段B更靠近字符边界框的顶部。如果步骤435为真，则关于字符片段A在字符片段B之前绘制的假设是正确的(步骤440)。然而，如果步骤435为假，则关于字符片段A在字符片段B之前绘制的假设是不正确的(步骤445)(即，实际上字符片段B在字符片段A之前绘制)。

可对于字符边界框中的每一和每对字符片段重复图4中描绘的处理。具有该详细描述的益处的本领域技术人员将理解，当对于字符边界框中的每一和每对字符片段到达步骤440时，对于这些字符片段确定的排序是正确的。

尽管图4示出了所有计算在步骤410发生，但是在本发明的一个或多个实施例中，仅在发现步骤425为假之后执行计算(ii)。类似的，在本发明的一个或多个实施例中，仅在发现步骤415为假之后执行计算(iii)。

图5A示出了根据本发明一个或多个实施例的示例。图5A示出了具有手绘文本字符的图像(502)。该图像(502)可具有其他文本字符(未示出)。此外，该图像(502)可具有多条线的文本(未示出)。骨架提取器可从图像(502)提取字符片段(504)。如图5A中所示，已从图像(502)提取字符片段Ω、Δ和∑。

然后，使用上述一个或多个处理来确定用于字符片段的排序(506)。特别是，确定首先绘制字符片段Ω，其次绘制字符片段∑，并且最后绘制字符片段Δ。

然后，使用上述一个或多个处理来确定用于字符片段的方向(508)。特别是，确定从上向下(即，朝向用户)绘制字符片段Ω和∑。此外，从左向右绘制字符片段Δ。

将字符片段(504)、排序(506)和方向(508)发送到ICR引擎以执行字符识别。ICR引擎利用字符片段(504)、排序(506)和方向(508)来识别字符。此外，通过在字符识别处理中利用排序(506)和方向(508)，识别的字符将更可能正确匹配来自图像(502)的手绘的字符。

图5B示出了根据本发明一个或多个实施例的示例。如图5B中所示，存在与字符(未示出)对应的字符片段(599)。通过骨架提取器从位图图像提取字符片段(599)。字符片段(599)包括两个端点：端点A(597)和端点B(595)。端点A(597)具有比端点B(595)更大的刷子宽度。端点A(597)具有比端点B(595)更深的密度。因此，将端点A(597)看作开始端点，而将端点B(595)看作结束端点。因此，通过利用刷子宽度和/或密度，确定字符片段(599)的方向是从左到右。刷子宽度和/或密度可由骨架提取器提供。

仍然参考图5B，还存在字符片段A(589)和字符片段B(587)。这两个字符片段(587,589)由骨架提取器从位图图像提取。如图5B中所示，字符片段A(589)和字符片段B(587)交叉。交叉点纹理属性(585)与字符片段B的纹理属性(583)比与字符片段A的纹理性(581)更好匹配。这暗指字符片段B(587)在字符片段A(589)之上，并由此字符片段A(589)在字符片段B(587)之前绘制。换言之，可基于纹理属性确定字符片段(587,589)的排序。这些纹理属性可由提取字符片段(587,589)的骨架提取器提供。

本发明的各个实施例可具有一个或多个以下优点：基于刷子宽度和/或密度确定字符片段的集合的方向的能力；基于纹理属性确定字符片段的集合的排序的能力；确定字符片段的集合的绘制持续时间的能力；增加ICR引擎将输出与图像中的字符正确匹配的识别字符的可能性的能力；降低输出识别的字符所需的时间的能力；测试两个字符片段的排序是否正确的能力；向不同字符片段分配恒定速度或不同速度的能力；等等。

本发明的实施例可实质上在各类计算***上实现，而不管使用的平台。例如，该计算***可以是一个或多个移动装置(例如，膝上型计算机、智能电话、个人数字助理、平板计算机、或其他移动装置)、桌面型计算机、服务器、服务器机架(chassis)中的刀片(blades)、或包括至少最小处理功率、存储器、和(多个)输入和输出装置以执行本发明的一个或多个实施例的任何其他类型的一个或多个计算装置。例如，如图6中所示，计算***(600)可包括一个或多个计算机处理器(602)、关联存储器(604)(例如，随机存取存储器(RAM)、高速缓存、闪存等)、一个或多个储存装置(606)(例如，硬盘、诸如致密盘(CD)驱动器或数字多功能盘(DVD)驱动器的光盘、闪存记忆棒等)、以及各种其他元素和功能性。(多个)计算机处理器(602)可以是用于处理指令的集成电路。例如，(多个)计算机处理器可以是处理器的一个或多个内核或微内核。计算***(600)还可以包括一个或多个输入装置(610)，诸如触摸屏、键盘、鼠标、麦克风、触摸垫、电子笔、或任何其他类型输入装置。此外，计算***(600)可以包括一个或多个输出装置(608)，诸如屏幕(例如，液晶显示器(LCD)、等离子显示器、触摸屏、阴极射线管(CRT)监视器、投影仪、或其他显示装置)、打印机、外部储存器、或任何其他输出装置。(多个)输出装置的一个或多个可以与(多个)输入装置相同或不同。计算***(600)可经由网络接口连接(未示出)连接到网络(612)(例如，局域网(LAN)、广域网(WAN)、诸如因特网、移动网络、或任何其他类型网络)。(多个)输入和输出装置可本地或远程(例如，经由网络(612))连接到(多个)计算机处理器(602)、存储器(604)、和(多个)储存装置(606)。存在许多不同类型的计算***，并且前述(多个)输入和输出装置可采取其他形式。

可在诸如CD、DVD、储存装置、盘、带、闪存、物理存储器、或任何其他计算机可读储存介质的非瞬时计算机可读介质上、全部或部分地、暂时或永久地、存储计算机可读程序代码形式的软件指令以执行本发明的实施例。具体地，这些软件指令可对应于计算机可读程序代码，所述计算机可读程序代码当由(多个)处理器运行时，被配置为执行本发明的实施例。

此外，前述计算***(600)的一个或多个元素可位于远程地点并通过网络(612)连接到其他元素。此外，本发明的一个或多个实施例可在具有多个节点的分布***上实现，其中本发明的每一部分可位于该分布***内的不同节点上。在本发明的一个实施例中，该节点对应于区别计算装置。作为选择，该节点可对应于具有关联物理存储器的计算机处理器。该节点可作为选择对应于计算机处理器或具有共享存储器和/或资源的计算机处理器的微内核。

尽管已针对有限数目实施例描述了本发明，但是具有该公开的益处的本领域技术人员将理解，能设计不脱离这里公开的本发明的范围的其他实施例。因此，本发明的范围应仅由所附权利要求限定。

Claims

1.一种用于字符识别的方法，包括：

获得从图像提取的多个字符片段；

确定包括所述多个字符片段的第一集合的第一字符边界框以及包括所述多个字符片段的第二集合的第二字符边界框；

确定用于该第一集合的多个方向和用于该第一集合的多个定时属性，其中所述多个定时属性包括用于第一集合的排序和用于该第一集合的绘制持续时间；

计算垂线和该第一集合中的第一字符片段之间的第一角度；

计算垂线和该第一集合中的第二字符片段之间的第二角度；

响应于该第一角度小于该第二角度，确定在该第二字符片段之前绘制该第一字符片段；和

通过向智能字符识别ICR引擎发送该第一集合、用于该第一集合的多个方向、和用于该第一集合的多个定时属性，而运行用于该第一字符边界框的字符识别。

2.根据权利要求1的方法，进一步包括：

确定用于该第二集合的多个方向和用于该第二集合的多个定时属性；和

通过向该ICR引擎发送该第二集合、用于该第二集合的多个方向、和用于该第二集合的多个定时属性，而运行用于该第二字符边界框的字符识别，

其中通过骨架提取器从该图像提取所述多个字符片段，和

其中所述多个字符片段形成该图像中的单一文本线。

3.根据权利要求1或2的方法，进一步包括：

计算该第一集合中的第一字符片段的第一垂直位置；

计算该第一集合中的第二字符片段的第二垂直位置；和

响应于该第一垂直位置小于该第二垂直位置，确定在该第二字符片段之前绘制该第一字符片段。

4.根据权利要求1或2的方法，进一步包括：

对于该第一字符边界框重置时钟值；

计算该第一集合中的第一字符片段的第一长度；

基于该第一长度增加用于该第一字符片段的时钟值；

计算该第一集合中的第二字符片段的第二长度；和

基于该第二长度增加用于该第二字符片段的时钟值，

其中用于该第一集合的绘制持续时间是该时钟值。

5.根据权利要求4的方法，进一步包括：

基于该第一长度选择用于该第一字符片段的第一速度，其中增加用于该第一字符片段的时钟值进一步基于该第一速度；和

基于该第二长度选择用于该第二字符片段的第二速度，其中增加用于该第二字符片段的时钟值进一步基于该第二速度。

6.根据权利要求1或2的方法，进一步包括：

确定该第一集合中的字符片段的第一端点和第二端点；

计算从该第一端点到用户点的第一距离；

计算从该第二端点到该用户点的第二距离；和

响应于该第二距离小于该第一距离，确定该第一端点是开始端点。

7.根据权利要求1或2的方法，进一步包括：生成包括该ICR引擎所输出的识别字符的可编辑电子文档。

8.一种用于字符识别的***，包括：

存储器；

计算机处理器，与该存储器连接，并且用于：

获得从图像提取的多个字符片段；

确定用于该第一集合的多个方向和用于该第一集合的多个定时属性，其中所述多个定时属性包括用于该第一集合的排序和用于该第一集合的绘制持续时间；

计算垂线和该第一集合中的第一字符片段之间的第一角度；

计算垂线和该第一集合中的第二字符片段之间的第二角度；

9.根据权利要求8的***，其中该计算机处理器还：

计算该第一集合中的第一字符片段的第一垂直位置；

计算该第一集合中的第二字符片段的第二垂直位置；和

10.根据权利要求8或9的***，其中该计算机处理器还：

对于该第一字符边界框重置时钟值；

计算该第一集合中的第一字符片段的第一长度；

基于该第一长度增加用于该第一字符片段的时钟值；

计算该第一集合中的第二字符片段的第二长度；和

基于该第二长度增加用于该第二字符片段的时钟值，

其中用于该第一集合的绘制持续时间是该时钟值。

11.根据权利要求10的***，其中该计算机处理器还：

12.根据权利要求8或9的***，其中该计算机处理器还：

确定该第一集合中的字符片段的第一端点和第二端点；

计算从该第一端点到用户点的第一距离；

计算从该第二端点到该用户点的第二距离；和

13.根据权利要求8或9的***，其中该计算机处理器还生成包括该ICR引擎所输出的识别字符的可编辑电子文档。

14.一种非瞬时计算机可读介质CRM，存储计算机处理器运行的计算机程序代码，用于：

获得从图像提取的多个字符片段；

计算垂线和该第一集合中的第一字符片段之间的第一角度；

计算垂线和该第一集合中的第二字符片段之间的第二角度；

15.根据权利要求14的非瞬时CRM，进一步存储该计算机处理器运行的计算机程序代码，用于：

对于该第一字符边界框重置时钟值；

计算该第一集合中的第一字符片段的第一长度；

基于该第一长度增加用于该第一字符片段的时钟值；

计算该第一集合中的第二字符片段的第二长度；和

基于该第二长度增加用于该第二字符片段的时钟值，

其中用于该第一集合的绘制持续时间是该时钟值。

16.根据权利要求14或15的非瞬时CRM，进一步存储该计算机处理器运行的计算机程序代码，用于：

确定该第一集合中的字符片段的第一端点和第二端点；

计算从该第一端点到用户点的第一距离；

计算从该第二端点到该用户点的第二距离；和

17.根据权利要求14或15的非瞬时CRM，进一步存储该计算机处理器运行的计算机程序代码，用于生成包括该ICR引擎所输出的识别字符的可编辑电子文档。

18.一种用于字符识别的方法，包括：

获得从图像提取的多个字符片段；

基于用于该第一集合的多个纹理属性，来确定用于该第一集合的排序；

基于用于该第一集合的多个刷子宽度和多个密度，来确定该第一集合的多个方向；和

通过向智能字符识别ICR引擎发送该第一集合、用于该第一集合的多个方向、和用于该第一集合的排序，而运行用于该第一字符边界框的字符识别。

19.根据权利要求18的方法，进一步包括：

确定该第二集合的多个方向和用于该第二集合的定时属性；和

通过向该ICR引擎发送该第二集合、该第二集合的多个方向、和用于该第二集合的定时属性，而运行用于该第二字符边界框的字符识别，

其中通过骨架提取器从该图像提取所述多个字符片段，和

其中所述多个字符片段形成该图像中的单一文本线。

20.根据权利要求18或19的方法，其中确定排序包括：

定位该第一集合中第一字符片段和第二字符片段的交叉点；

确定交叉点纹理属性；

比较该交叉点纹理属性、和该第一字符片段的纹理属性以及该第二字符片段的纹理属性；和

响应于该交叉点纹理属性匹配该第二字符片段的纹理属性，而确定在该第二字符片段之前绘制该第一字符片段。

21.根据权利要求20的方法，其中该纹理属性是颜色。

22.根据权利要求20的方法，其中该纹理属性是填充图案。

23.根据权利要求18或19的方法，其中确定多个方向包括：

确定该第一集合中的字符片段的第一端点和第二端点；

比较该第一端点的刷子宽度和该第二端点的刷子宽度；和

响应于该第一端点的刷子宽度超出该第二端点的刷子宽度，确定该第一端点是开始端点。

24.根据权利要求18或19的方法，其中确定多个方向包括：

确定该第一集合中的字符片段的第一端点和第二端点；

比较该第一端点的密度和该第二端点的密度；和

响应于该第一端点的密度超出该第二端点的密度，确定该第一端点是开始端点。

25.根据权利要求18或19的方法，其中确定排序包括：

计算垂线和该第一集合中的第一字符片段之间的第一角度；

计算垂线和该第一集合中的第二字符片段之间的第二角度；和

响应于该第一角度小于该第二角度，确定在该第二字符片段之前绘制该第一字符片段。

26.根据权利要求18或19的方法，进一步包括通过以下步骤确定用于该第一集合的绘制持续时间：

对于该第一字符边界框重置时钟值；

计算该第一集合中的第一字符片段的第一长度；

基于该第一长度增加用于该第一字符片段的时钟值；

计算该第一集合中的第二字符片段的第二长度；和

基于该第二长度增加用于该第二字符片段的时钟值，

其中用于该第一集合的绘制持续时间是该时钟值，并且

其中用于该第一集合的绘制持续时间被发送到该ICR引擎。

27.根据权利要求26的方法，进一步包括：

28.根据权利要求18或19的方法，进一步包括：

生成包括该ICR引擎所输出的识别字符的可编辑电子文档。

29.一种用于字符识别的***，包括：

存储器；

计算机处理器，与该存储器连接，并且用于：

获得从图像提取的多个字符片段；

30.根据权利要求29的***，其中确定排序包括：

定位该第一集合中第一字符片段和第二字符片段的交叉点；

确定交叉点纹理属性；

31.根据权利要求29或30的***，其中确定多个方向包括：

确定该第一集合中的字符片段的第一端点和第二端点；

比较该第一端点的刷子宽度和该第二端点的刷子宽度；和

32.根据权利要求29或30的***，其中确定多个方向包括：

确定该第一集合中的字符片段的第一端点和第二端点；

比较该第一端点的密度和该第二端点的密度；和

33.根据权利要求29或30的***，其中该计算机处理器还生成包括该ICR引擎所输出的识别字符的可编辑电子文档。

34.一种非瞬时计算机可读介质CRM，存储计算机处理器运行的计算机程序代码，用于：

获得从图像提取的多个字符片段；

通过向智能字符识别ICR引擎发送该第一集合、该第一集合的多个方向、和用于该第一集合的排序，而运行用于该第一字符边界框的字符识别。

35.根据权利要求34的非瞬时CRM，其中确定排序包括：

定位该第一集合中第一字符片段和第二字符片段的交叉点；

确定交叉点纹理属性；

比较该交叉点纹理属性和该第一字符片段的纹理属性以及该第二字符片段的纹理属性；和

36.根据权利要求34或35的非瞬时CRM，其中确定多个方向包括：

确定该第一集合中的字符片段的第一端点和第二端点；

比较该第一端点的刷子宽度和该第二端点的刷子宽度；和

37.根据权利要求34或35的非瞬时CRM，其中确定多个方向包括：

确定该第一集合中的字符片段的第一端点和第二端点；

比较该第一端点的密度和该第二端点的密度；和