CN102236800B - 经历ocr过程的文本的单词识别 - Google Patents

经历ocr过程的文本的单词识别 Download PDF

Info

Publication number
CN102236800B
CN102236800B CN201110117322.0A CN201110117322A CN102236800B CN 102236800 B CN102236800 B CN 102236800B CN 201110117322 A CN201110117322 A CN 201110117322A CN 102236800 B CN102236800 B CN 102236800B
Authority
CN
China
Prior art keywords
word
confidence level
segmentation lines
data element
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110117322.0A
Other languages
English (en)
Other versions
CN102236800A (zh
Inventor
A·安东尼杰维克
I·米蒂克
M·钦波
D·尼耶姆切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102236800A publication Critical patent/CN102236800A/zh
Application granted granted Critical
Publication of CN102236800B publication Critical patent/CN102236800B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了经历OCR过程的文本的单词识别。一种用于在经历光学字符识别的文本图像中标识单词的方法包括,接收(410)包括已由多个切分线分割的文本行的图像(15)的位图(多个切分线各自与反映相应的切分线正确地将文本行分割成个体字符的程度的置信水平相关联)。至少部分基于文本行以及具有大于第一阈值的切分线置信水平的第一子集的切分线,来在文本行的一个中标识(420)一个或多个单词。如果(430)第一单词不与足够高的单词置信水平相关联,则至少部分基于具有大于小于第一阈值的第二阈值的置信水平的第二子集的切分线,来标识(440)至少一第二单词。

Description

经历OCR过程的文本的单词识别
技术领域
本发明涉及计算机技术,尤其涉及计算机的字符识别技术。
背景技术
光学字符识别(OCR)是一般以标准编码方案对文本的图像到作为机器可编辑文本的数字形式的基于计算机的转换。这一过程消除了将文档手动键入计算机***的需求。由于扫描过程所导致的较差图像质量、非理想性等可引起多个不同问题。例如,常规OCR引擎可被耦合到扫描文本页面的平板式扫描仪。由于页面被放置于与扫描仪的扫描面齐平,因此扫描仪所生成的图像通常展示出均匀的对比度和照明度、减少的歪斜和失真、以及高的分辨率。由此,OCR引擎可方便地将图像中的文本转换成机器可编辑的文本。然而,当图像关于对比度、照明度、歪斜等质量较低时,由于处理该图像中的所有像素,OCR引擎的性能可能会降级并且处理时间可能会增加。例如,当图像是从书中获取时或者当由基于成像器的扫描仪生成时,这可能是该情况,因为在这些情况下,文本/图像是从一距离、从变化的方向、以及在变化的照明中扫描的。即使扫描过程的性能是良好的,当相对低质量的文本页面正被扫描时OCR引擎的性能也可能会降级。
OCR过程中的一个步骤是单词识别。所识别的单词旨在在拼写和排列上与打印在原始文档中的单词完全对应。然而,难以实现这样的完全对应。结果,电子文档可包括原始文档中从未出现的误识别的单词。出于这一讨论的目的,术语“单词”覆盖了任何字符集,无论该字符集是否与某种语言的实际单词相对应。此外,术语“单词”覆盖了不仅包括字母表中的字母而且还包括数字、标点符号、以及诸如“$”、“&”、“#”等印刷符号的字符集。由此,误识别的单词可包括不包括实际单词的字符集,或者误识别的单词可包括不具有与所扫描的文档中的对应单词拼写相同的实际单词。例如,单词“got”可被误识别成不存在的单词“qot”,或者单词“eat”可被识别成“cat”。无论这些误识别的单词包括真实单词还是仅仅是字符的聚集,它们可以与它们旨在匹配的原始文档的单词的拼写非常接近。这些误识别错误的原因包括以上讨论的OCR性能问题。另外,误识别错误由某些字符之间的物理相似度引起。例如,如以上讨论的,这些错误可在字母“g”与物理相似的字母“q”混淆时发生。另一常见错误是OCR算法使字母“d”与两个字母的组合“ol”混淆。
发明内容
光学字符识别(OCR)引擎所采用的单词识别过程的速度和准确性可能由于可经历处理的大量输入数据而受损。这些输入数据可包括例如,在文本图像的文本行中已识别的相对大量的候选字符。一般具有与其相关联的不同置信水平的每一候选字符可以表示或可以不表示实际字符。这些候选字符的各种排列在单词识别过程的单词搜索部分期间被检查,以便标识那些字符最可能表示的一个或多个单词。
在一个实现中,单词识别装置和方法按多遍的模式操作。在这一方法中,单词搜索组件首先在第一遍中使用具有最高置信水平的输入数据元素(例如候选字符)并且尝试标识单词。如果单词识别失败,则单词搜索组件使用具有较低置信水平的输入数据元素来执行第二遍。可重复这一过程额外的遍数,直到正确地识别出该单词。这一方法可显著地改进识别性能和准确性,因为较少数据和噪声(具有较低置信水平的数据)需要被处理。
在一个实现中,在每一遍期间除了使用具有不同阈值置信水平的不同输入数据元素以外,还可使用不同的字符识别和单词搜索算法。例如,在较早的各遍(例如第一遍和第二遍)期间可使用较快或较不准确的算法,而在后续的各遍期间可使用较慢且较准确的算法。
提供本发明内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
图1示出了用于执行文本图像的光学字符识别(OCR)的***的一个说明性示例。
图2示出了已由切分线进行过分割的文本行的一部分。
图3示出了由ICR组件产生的图2中所示的符号的几个候选字符。
图4示出了可在经历OCR过程的文本图像中标识单词的图像处理装置的一个示例。
图5是单词识别方案的一个示例的示意图。
图6是单词识别过程的一个示例的流程图。
具体实施方式
图1示出了用于执行文本图像的光学字符识别(OCR)的***5的一个说明性示例。***5包括生文档15的图像的数据捕捉装置(例如,扫描仪10)。扫描仪10可以是基于成像器的扫描仪,它利用电荷耦合器件作为图像传感器以生成图像。扫描仪10处理图像以生成输入数据,并且将输入数据发送给处理装置(例如OCR引擎20)以供图像内的字符识别。在该具体示例中,将OCR引擎20合并到扫描仪10中。然而,在其他示例中,OCR引擎20可以是分开的单元,诸如独立单元或被合并到诸如PC、服务器之类的另一设备中的单元。
OCR引擎20接收文本图像作为图像行的位图。OCR引擎20的一个组件用位于相邻字符之间的一系列切分线分割每一文本行。理想地,单个字符或字形位于一对相邻切分线之间。然而,在许多情况下,由于较差图像质量、字体灰度、斜体文本、字符形状等难以将单词分割成个体符号。可通过过分割而不是不足分割来避免这一问题。即,产生比可能表示图像中的实际字符更多的符号或字形。图2示出了对文本行的一部分进行过分割的结果。在此示例中,字符“m”被分成三个符号,字符“a”和“d”各自被分成两个符号,以及字符“e”被分成单个符号。
当字符切分组件创建各个符号之后,个体字符识别器(ICR)组件尝试标识每一符号或符号的组合所表示的字符。ICR组件产生一系列候选字符以及每一候选字符的置信水平。图3示出了由ICR组件产生的图2中所示的符号的几个候选字符。
一旦候选字符被产生,则单词搜索组件通过按不同方式对候选字符进行分组来尝试标识它们所表示的最可能的单词。由于可能有许多方式可对个体符号进行组合,并且可对每一个这样的符号产生许多候选字符,所有都被单词搜索组件用作输入数据元素,因此单词搜索组件的速度和准确性可受损。理想地,到OCR引擎的单词搜索组件的输入数据的数量会被降低。
如以下详述的,单词识别***按多遍的模式操作。在这一方法中,***中的单词搜索组件首先在第一遍中使用具有最高置信水平的输入数据元素并且尝试标识单词。如果单词识别失败,则单词搜索组件使用具有较低置信水平的输入数据元素来执行第二遍。可重复这一过程额外的遍数,直到正确地识别出该单词。这一方法可显著地改进识别性能和准确性,因为较少数据和噪声(具有较低置信水平的数据)需要被处理。在每一遍期间除了使用具有不同阈值置信水平的不同输入数据元素以外,还可使用不同的字符识别和单词搜索算法。即,在每一遍之后改变阈值置信水平。
图4示出了可在经历OCR过程的文本图像中标识单词的图像处理装置200的一个示例。可被合并到OCR引擎中的装置200包括输入组件202,用于接收具有文本行的输入图像,文本行在OCR引擎的先前组件中已由切分线分割。装置还包括用于标识文本行中的字符的个体字符识别(ICR)组件204,以及用于基于已由ICR组件标识的字符来标识单词的单词搜索组件206。数据结构210存储已由各种组件标识的候选切分线、候选字符以及候选单词。装置200还包括输出组件210,该输出组件生成关于已按允许其被OCR引擎的后续组件采用的形式而被标识的单词的信息。
单词识别方案将结合图5中所示的示意图来示出。OCR引擎的单词识别***首先创建包括由引擎的先前组件提供的所有输入数据元素的数据结构,包括切分线及其相关联的置信水平、结果符号以及经历OCR的文本图像的位图。这一数据结构由框305来表示。单词识别***接收这一数据结构,并且为该数据结构中的每一项建立第一阈值集。例如,为切分线以及使用那些切分线产生的结果候选字符的置信水平建立阈值。例如,对于切分线,建立MinSplitLineConfidence(pass_id)(最小拆分线置信度(遍_id)),其中pass_id是正被处理的遍的id号。
在第一遍中(由图5中的框310表示),从数据结构中选出满足最高阈值集(例如最高置信水平)的输入数据元素。在切分线的情况下,例如,仅使用那些具有大于MinSplitLineConfidence(pass_1)(最小拆分线置信度(遍_1))的置信水平的切分线。在第一遍中不使用不满足该第一阈值集的输入数据元素。
单词识别***随后调用ICR组件,该ICR组件使用满足第一阈值集的输入数据元素以产生一系列候选字符以及每一候选字符的置信水平。随后单词搜索组件将候选字符用作输入数据元素以标识具有最大置信水平的单词。如果单词的置信水平超过为该第一遍(由图5中的MIN_WORD_CONFIDENCE(PASS_1)(最小_单词_置信度(遍_1))表示)所建立的指定阈值,则单词识别***将这一所识别的单词返回给OCR引擎中的下一适当的组件。另一方面,如果单词的置信水平小于MIN_WORD_CONFIDENCE(PASS_1),则单词识别***执行第二遍。
在执行第二遍之前,将候选字符和所识别的单词以及它们各自的置信水平添加到数据结构。以此方式,它们不必在第二遍或后续的遍期间由ICR组件或单词搜索组件重新计算。因此,数据结构包含被用于执行单词识别的所有可用信息。
在第二遍中(由图5中的框15表示),从数据结构中选出满足第二阈值集(例如第二最高置信水平)的输入数据元素。在切分线的情况下,例如,仅使用那些具有大于MinSplitLineConfidence(pass_2)(最小拆分线置信度(遍_2))的置信水平的切分线。在第二遍中不使用不满足该第二阈值集的输入数据元素。
在第二遍期间,可使用与第一遍中所使用的那些相同或不同的字符识别和单词搜索算法。例如,所采用的ICR算法可由ICREngine(pass_id)(ICR引擎(遍_id))来表示,并且由此可在一遍与另一遍之间不同。在一个示例中,在较早的各遍(例如第一遍和第二遍)期间可使用较快或较不准确的算法,而在后续的各遍期间可使用较慢且较准确的算法。例如,在单词搜索组件的情况下,可采用的算法包括使用或者不使用字典约束的定向搜索(beamsearch)算法或维特比(Viterbi)算法。
如果单词的置信水平超过为该第二遍(由图5中的MIN_WORD_CONFIDENCE(PASS_2)表示)所建立的指定阈值,则单词识别***将这一所识别的单词返回给OCR引擎中的下一适当的组件。另一方面,如果单词的置信水平小于MIN_WORD_CONFIDENCE(PASS_2),则单词识别***执行第三遍。为附加的各遍继续这一过程,直到超过某一遍的MIN_WORD_CONFIDENCE(PASS_ID)(最小_单词_置信度(遍_ID))或者直到已经执行了预先建立的最大遍数(由框220表示),这在图5中由框320表示成pass_n(遍_n)。
ICR组件所采用的算法可通过对所有可能的切分线对检查大范围的条件来确定该候选字符集或系列。例如,可在给定的遍中仅使用在先前各遍的一个中未使用的切分线对。另外,在某些情况下,可以仅使用置信水平大于MinSplitLineConfidence[pass_id](最小拆分线置信度[遍_id])的切分线。可应用的另一条件是位于当前正被检查的切分线对之间的每一切分线的置信水平的总和。仅使用这一总和小于某一阈值的切分线对,该阈值被称为MaxSplitLineSumConfidence[pass_id](最大拆分线总和置信度[遍_id]),如该名称所指示的,它可在遍与遍之间变化。可使用的又一条件是位于当前正被检查的切分线对之间的暗像素的百分比。仅使用这一百分比大于某一阈值的切分线对,该阈值被称为MinDarkArea[pass_id](最小暗区域[遍_id]),如该名称所指示的,它可在遍与遍之间变化。
图6是示出用于在经历光学字符识别的文本图像中标识单词的方法的一个示例的流程图。在步骤410中,接收包括已由多个切分线分割的文本行的输入图像的位图,该多个切分线各自与一置信水平相关联,该置信水平反映相应的切分线正确地将文本行分割成个体字符的程度。在步骤420中,至少部分基于文本行以及所述多个切分线中具有大于第一阈值的切分线置信水平的第一子集,来在文本行的一个中标识一个或多个单词。在判定步骤430,如果第一单词不与足够高的单词置信水平相关联,则该方法前进至步骤440。在步骤440,至少部分基于所述多个切分线中具有置信水平大于小于第一阈值的第二阈值的第二子集,来在文本行中标识至少第二单词。另一方面,在判定步骤430,如果第一单词与足够高的单词置信水平相关联,则该方法在步骤450终止,在步骤450期间所标识的单词作为输出数据可能被提供给OCR引擎的另一组件、或者可能作为诸如PDF或Microsoft文档等数字文档。
如在本申请中所使用的,术语“组件”、“模块”、“引擎”、“***”、“装置”、“接口”等一般旨在表示计算机相关的实体,该实体可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是,但不限于是,在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和/或计算机。作为说明,运行在控制器上的应用程序和控制器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程中,并且组件可以位于一个计算机内和/或分布在两个或更多的计算机之间。
此外,所要求保护的主题可以使用产生控制计算机以实现所公开的主题的软件、固件、硬件或其任意组合的标准编程和/或工程技术而被实现为方法、装置或制品。如这里所使用的术语“制品”可以包含可以从任何计算机可读的设备、载体或介质进行访问的计算机程序。例如,计算机可读介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁带...)、光盘(例如,紧致盘(CD)、数字多功能盘(DVD)底)、智能卡,以及闪存设备(例如,卡、棒、键驱动器...)。当然,本领域的技术人员将会认识到,在不背离所要求保护的主题的范围或精神的前提下可以对这一配置进行许多修改。
尽管用专门描述结构特征和/或方法动作的语言描述了主题,但是应当理解,在所附权利要求书中限定的主题并不一定局限于上述特定的特征或动作。更确切而言,上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (16)

1.一种用于在经历OCR过程的文本图像中标识单词的方法,包括:
(a)接收(410)包括已由切分线分割以定义其间的符号的文本行的输入图像的位图,其中所述切分线的每一个与切分线置信水平相关联,所述切分线置信水平反映相应的切分线正确地将所述文本行分割成个体字符的程度;
(b)维护存储数据元素的数据结构,所述数据元素包括所述位图、具有相应的切分线置信水平的切分线和所述符号;
(c)从所述数据结构中的数据元素的第一子集中产生具有相关联的字符置信水平的候选字符的第一集,所述数据元素的第一子集具有相应的候选置信水平,所述相应的候选置信水平各自超过数据元素阈值的第一集中的相应一个;
(d)通过进一步包括具有相应的字符置信水平的候选字符的所述第一集来更新所述数据结构;
(e)从所述候选字符的第一集中标识至少第一单词(420),其中所述第一单词具有相关联的第一单词置信水平;
(f)如果(440)所述第一单词置信水平低于第一单词阈值,则更新所述数据结构以进一步包括所述第一单词及其第一单词置信水平;以及
(g)对所更新的数据结构中的数据元素的第二子集重复步骤(c)–(e),所述数据元素的第二子集具有相应的数据元素置信水平,所述相应的数据元素置信水平各自超过低于所述数据元素阈值的第一集的数据元素阈值的第二集的相应一个,从而产生(440)至少第二单词及其相关联的第二单词置信水平。
2.如权利要求1所述的方法,其特征在于,还包括对所述数据结构中的数据元素的后续子集重复步骤(c)–(f),直到产生具有后续单词置信水平的后续单词,使得所述后续单词置信水平超过部分取决于步骤(c)–(f)已经重复的次数的单词阈值。
3.如权利要求2所述的方法,其特征在于,数据元素的每一后续子集具有相关联的数据元素阈值,该数据元素阈值低于与数据元素的任何先前子集相关联的数据元素阈值。
4.如权利要求1所述的方法,其特征在于,还包括对所述数据结构中的数据元素的后续子集重复步骤(c)–(f),直到步骤(c)–(f)已被重复的次数达到预先确定的最大次数。
5.如权利要求1所述的方法,其特征在于,从所述数据元素的第一子集中产生具有相关联的候选置信水平的候选字符的第一集是使用第一字符识别算法来执行的,并且所述方法还包括使用与所述第一字符识别算法不同的第二字符识别算法从所述数据元素的第二子集中产生具有相关联的候选置信水平的候选字符的第二集。
6.如权利要求5所述的方法,其特征在于,所述第一字符识别算法是比所述第二字符识别算法更快且较不准确的算法。
7.如权利要求1所述的方法,其特征在于,还包括使用第一单词搜索算法来标识(420)所述第一单词,以及使用与所述第一单词搜索算法不同的第二单词搜索算法来标识所述第二单词。
8.如权利要求7所述的方法,其特征在于,所述第一单词搜索算法是比所述第二单词搜索识别算法更快且较不准确的算法。
9.如权利要求1所述的方法,其特征在于,还包括选择数据元素子集,其中选择所述数据元素子集包括选择切分线对,所述切分线对之间具有附加切分线,与所述附加切分线相关联的相应的切分线置信水平的总和小于预先确定的阈值。
10.如权利要求9所述的方法,其特征在于,当重复步骤(c)-(e)时所述预先确定的阈值改变。
11.一种用于在经历OCR过程的文本图像中标识单词的***,包括:
输入组件(202),用于接收包括已由切分线分割以定义其间的符号的文本行的输入图像的位图,其中反映切分线准确性的置信水平与每一切分线相关联;
数据结构,用于存储数据元素,所述数据元素包括所述位图、具有相应的切分线置信水平的切分线和所述符号;
字符识别(204)组件,用于从所述数据结构中的数据元素的第一子集中产生具有相关联的置信水平的候选字符的第一集,所述数据元素的第一子集具有相应的置信水平,所述相应的置信水平各自超过数据元素阈值的第一集的相应一个,其中所述字符识别组件被配置成通过在所述数据结构中进一步包括具有相应的字符置信水平的候选字符的第一集使得数据结构被更新;以及
单词搜索组件(206),用于从所述候选字符的第一集中标识至少第一单词,其中所述第一单词具有相关联的第一单词置信水平,其中,所述单词识别组件被配置成使得所述数据结构被更新,以便如果所述第一单词置信水平低于第一单词阈值水平则进一步包括所述第一单词及其第一单词置信水平,其中所述字符识别组件和所述单词搜索组件进一步被配置成从所更新的数据结构中的数据元素中分别产生候选字符的第二集和至少第二单词,所更新的数据结构中的数据元素具有各自超过小于所述数据元素阈值的第一集的数据元素阈值的第二集的相应一个的相应的置信水平。
12.如权利要求11所述的***,其特征在于,所述字符识别组件(204)被配置成使用第一字符识别算法来产生所述候选字符的第一集,以及使用与所述第一字符识别算法不同的第二字符识别算法来产生所述候选字符的第二集。
13.如权利要求12所述的***,其特征在于,所述第一字符识别算法是比所述第二字符识别算法更快且较不准确的算法。
14.如权利要求11所述的***,其特征在于,所述单词搜索组件(206)被配置成使用第一单词搜索算法来标识所述第一单词,以及使用与所述第一单词搜索算法不同的第二单词搜索算法来标识所述第二单词。
15.一种用于在经历光学字符识别的文本图像中标识单词的方法,所述方法包括:
接收(410)包括已由多个切分线分割的文本行的输入图像的位图,所述多个切分线各自与一置信水平相关联,所述置信水平反映相应的切分线正确地将文本行分割成个体字符的程度;
至少部分基于所述文本行以及所述多个切分线中具有大于第一阈值的切分线置信水平的第一子集,来在所述文本行的一个中标识(420)第一单词;以及
如果所述第一单词不与超过单词置信阈值的单词置信水平相关联,则至少部分基于所述多个切分线中具有大于小于第一阈值的第二阈值的置信水平的第二子集,来在所述一个文本行中标识(440)至少第二单词。
16.一种用于在经历光学字符识别的文本图像中标识单词的***,所述***包括:
用于接收包括已由多个切分线分割的文本行的输入图像的位图的装置,所述多个切分线各自与一置信水平相关联,所述置信水平反映相应的切分线正确地将文本行分割成个体字符的程度;
用于至少部分基于所述文本行以及所述多个切分线中具有大于第一阈值的切分线置信水平的第一子集,来在所述文本行的一个中标识第一单词的装置;以及
用于如果所述第一单词不与超过单词置信阈值的单词置信水平相关联,则至少部分基于所述多个切分线中具有大于小于第一阈值的第二阈值的置信水平的第二子集,来在所述一个文本行中标识至少第二单词的装置。
CN201110117322.0A 2010-05-03 2011-04-29 经历ocr过程的文本的单词识别 Expired - Fee Related CN102236800B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/772,376 2010-05-03
US12/772,376 US8401293B2 (en) 2010-05-03 2010-05-03 Word recognition of text undergoing an OCR process

Publications (2)

Publication Number Publication Date
CN102236800A CN102236800A (zh) 2011-11-09
CN102236800B true CN102236800B (zh) 2015-12-02

Family

ID=44858306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110117322.0A Expired - Fee Related CN102236800B (zh) 2010-05-03 2011-04-29 经历ocr过程的文本的单词识别

Country Status (2)

Country Link
US (1) US8401293B2 (zh)
CN (1) CN102236800B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610653B2 (en) * 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US8792748B2 (en) * 2010-10-12 2014-07-29 International Business Machines Corporation Deconvolution of digital images
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US9105073B2 (en) * 2012-04-24 2015-08-11 Amadeus S.A.S. Method and system of producing an interactive version of a plan or the like
CN103455814B (zh) * 2012-05-31 2017-04-12 佳能株式会社 用于文档图像的文本行分割方法和***
US9049295B1 (en) * 2012-08-28 2015-06-02 West Corporation Intelligent interactive voice response system for processing customer communications
US9098777B2 (en) * 2012-09-06 2015-08-04 Xerox Corporation Method and system for evaluating handwritten documents
CN104077593A (zh) * 2013-03-27 2014-10-01 富士通株式会社 图像处理方法和装置
US9275554B2 (en) 2013-09-24 2016-03-01 Jimmy M Sauz Device, system, and method for enhanced memorization of a document
CN107092903A (zh) * 2016-02-18 2017-08-25 阿里巴巴集团控股有限公司 信息识别方法及装置
US10646813B2 (en) * 2016-09-23 2020-05-12 Lehigh University Gas separation apparatus and methods using same
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images
US10607606B2 (en) 2017-06-19 2020-03-31 Lenovo (Singapore) Pte. Ltd. Systems and methods for execution of digital assistant
US10482344B2 (en) 2018-01-04 2019-11-19 Wipro Limited System and method for performing optical character recognition
GB2571530B (en) * 2018-02-28 2020-09-23 Canon Europa Nv An image processing method and an image processing system
JP7338158B2 (ja) * 2019-01-24 2023-09-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11270153B2 (en) 2020-02-19 2022-03-08 Northrop Grumman Systems Corporation System and method for whole word conversion of text in image
KR20210106814A (ko) * 2020-02-21 2021-08-31 삼성전자주식회사 뉴럴 네트워크 학습 방법 및 장치
CN111723811A (zh) * 2020-05-20 2020-09-29 上海积跬教育科技有限公司 文字识别及处理的方法、装置、介质以及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979529A (zh) * 2005-12-09 2007-06-13 佳能株式会社 光学字符识别

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577135A (en) 1994-03-01 1996-11-19 Apple Computer, Inc. Handwriting signal processing front-end for handwriting recognizers
US6154579A (en) 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6108444A (en) 1997-09-29 2000-08-22 Xerox Corporation Method of grouping handwritten word segments in handwritten document images
US6993205B1 (en) 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US6944340B1 (en) 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
US7171061B2 (en) 2002-07-12 2007-01-30 Xerox Corporation Systems and methods for triage of passages of text output from an OCR system
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
US8611661B2 (en) 2007-12-26 2013-12-17 Intel Corporation OCR multi-resolution method and apparatus
US8571270B2 (en) * 2010-05-10 2013-10-29 Microsoft Corporation Segmentation of a word bitmap into individual characters or glyphs during an OCR process

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979529A (zh) * 2005-12-09 2007-06-13 佳能株式会社 光学字符识别

Also Published As

Publication number Publication date
US8401293B2 (en) 2013-03-19
US20110268360A1 (en) 2011-11-03
CN102236800A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN102236800B (zh) 经历ocr过程的文本的单词识别
CN102289667B (zh) 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正
CN105229669B (zh) 图像处理装置及图像处理方法
CN102782702B (zh) 在光学字符识别(ocr)过程中的段落识别
US9189694B2 (en) Image processing device and image processing method
US8340425B2 (en) Optical character recognition with two-pass zoning
US9152883B2 (en) System and method for increasing the accuracy of optical character recognition (OCR)
US9098759B2 (en) Image processing apparatus, method, and medium for character recognition
US20090317003A1 (en) Correcting segmentation errors in ocr
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
US11521365B2 (en) Image processing system, image processing apparatus, image processing method, and storage medium
CN111340037A (zh) 文本版面分析方法、装置、计算机设备和存储介质
US11949828B2 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium for performing preprocessing and character recognition to acquire item and value of image
US7406201B2 (en) Correcting segmentation errors in OCR
CN102467664B (zh) 辅助光学字符识别的方法和装置
Fateh et al. Enhancing optical character recognition: Efficient techniques for document layout analysis and text line detection
US20190073571A1 (en) Method for improving quality of recognition of a single frame
Kumar et al. Line based robust script identification for indianlanguages
US20210019554A1 (en) Information processing device and information processing method
CN109409370B (zh) 一种远程桌面字符识别方法和装置
Boiangiu et al. Efficient solutions for ocr text remote correction in content conversion systems
Sarkar et al. A font invariant character segmentation technique for printed bangla word images
Bagoriya et al. Font type identification of hindi printed document
CN115100672A (zh) 文字检测识别方法、装置、设备与计算机可读存储介质
EP3611664A1 (en) System for optical character recognition (ocr)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150717

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150717

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151202

Termination date: 20210429