CN114386413A

CN114386413A - 处理数字化的手写

Info

Publication number: CN114386413A
Application number: CN202111210065.5A
Authority: CN
Inventors: T·L·奥加拉; S·C·古拉姆; J·T·特纳; P·塔克; J·R·普雷斯塔斯
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2020-10-19
Filing date: 2021-10-18
Publication date: 2022-04-22
Also published as: JP7364639B2; US20220122367A1; JP2022067086A; US11495039B2; EP3985527A1

Abstract

一种手写文本处理***处理包括手写文本输入的数字化文档以生成允许用户对数字化文档的文本内容执行文本处理功能的数字化文档的输出版本。数字化数据的每个单词通过将数字化文档转换为图像、对图像二进制化以及将图像分割为二进制图像小块而被提取。每个二进制图像小块还被处理以标识该单词是机器生成的还是手写的。输出版本通过将数字化文档的页面的底层图像与来自以透明字体叠加在与底层图像中的单词的位置一直的位置的页面的单词组合而被生成。

Description

处理数字化的手写

背景技术

数字技术在各个领域的使用增加导致了文本数据和非文本数据的存储和处理。被提供给计算机***用于处理的文本数据主要由机器打字或打印或以其他方式生成。然而，用于自动化业务处理的领域(诸如机器人处理自动化(RPA))的发展有时需要计算机处理包括手写输入的文档，诸如笔记、人工手写所填充的表格、签名等。手写输入可以从经由扫描文档或经由通过诸如触摸屏等的设备提供的人工输入获取的图像中而被提取。因为不同个体具体不同的书写风格，所以手写输入处理可能很复杂。诸如神经网络的机器学习(ML)技术目前被采用以用于分析手写输入。

附图说明

本公开的特征通过以下附图所示的示例来说明。在下图中，相同的数字指示相同的元件，其中

图1示出了根据本文中所公开的示例的手写文本处理***的框图。

图2示出了根据本文中所公开的示例的文档处理器的框图。

图3示出了根据本文中所公开的示例的手写分析器的框图。

图4示出了根据本文中所公开的示例的输出生成器的框图。

图5示出了根据本文中所公开的示例的详述了确定数字化文档中的输入的性质的方法的流程图。

图6示出了根据本文中所公开的示例的详述了对图像二进制化的方法的流程图。

图7示出了根据本文中所公开的示例的详述了分割二进制图像的方法的流程图。

图8示出了根据本文中所公开的示例的详述了从二进制图像小块中提取特征的方法的流程图。

图9A示出了根据本文中所公开的示例的分割的单词形状。

图9B示出了根据本文中所公开的示例的针对单词样本获取的凸包和最小矩形。

图10示出了根据本文中所公开的示例的从输入数字化文档的对应部分生成的输出用户接口(UI)的一部分。

图11图示了根据本文中所公开的示例的可以被用于实现手写文本处理***的计算机***。

具体实施方式

为了简单和说明的目的，通过参考本公开的示例来描述本公开。在以下描述中，阐述了许多具体细节以提供对本公开的透彻理解。然而，显而易见的是，可以在不限于这些具体细节的情况下实践本公开。在其他实例中，尚未详细描述一些方法和结构以免不必要地混淆本公开。贯穿本公开，术语“一(a)”和“一个(an)”旨在表示特定元件中的至少一个元件。如本文中所使用的，术语“包括(includes)”意指包括但不限于，术语“包括(including)”意指包括但不限于。术语“基于”意味着至少部分基于。

公开了一种手写文本处理***，该手写文本处理***处理具有包括手写文本输入的数据输入的数字化文档并且使得用户能够对手写文本输入执行文本处理功能。可以由手写文本处理***处理的数字化文档包括纸质文档的软副本(例如，数字化副本)，该软副本还可以包括机器不可搜索的机器可处理文本和图像中的一个或多个机器可处理文本和图像。附加地，数字化文档的内容可以包括由机器产生的打字或印刷文本输入和由人类用户产生的手写文本输入中的一项或多项。手写文本处理***访问数字化文档以产生数字化文档的输出版本，该输出版本启用文本处理功能，诸如从数字化文档中选择文本、分类单词等。数字化文档的输出版本包括来自数字化文档的页面中的每个页面，其中与页面中的每个页面相对应的单词以透明文本叠加在与该页面相对应的底层图像上的与该页面中的单词的定位一致的定位处。透明文本包括透明或半透明的单词或字符，从而允许其下方的图像显示出来。除非外形或以其他方式突出显示以使文本可见，否则文档中以透明字体提供的透明文本不可见。

手写文本处理***最初生成数字化文档中的页面中的每个页面的图像。图像还被转换为二进制图像，其中每个像素值被设置为指示像素是否位于单词的内部形状内。二进制图像在深色背景上捕捉数字化文档中的单词的形状。二进制化图像还被分割成二进制图像小块，以向数字化文档中的每个单词分配特定坐标。每个单词都被分配有二进制图像小块中的一个二进制图像小块，使得二进制图像小块中的白色像素指示相应页面上的单词的边界和内部中的一个，而二进制图像小块中的黑色像素或暗像素指示相应页面上的单词的外部。二进制图像小块被进一步处理以用于特征提取。可以从数字化文档中提取单词/二进制图像小块的诸如但不限于凸包和最小矩形的特征。从所提取的特征中进一步计算每个单词/二进制图像小块的数值，诸如Hu矩。基于Hu矩来将每个单词确定为打字/打印文本输入或手写文本输入中的一个文本输入。基于打印或手写的单词，可以对单词进行不同的处理，用于标识和确定数字化文档内的定位。因此，来自数字化文档的文本的每个段都被分割成单词的集合。从每个单词中字母被单独地标识，并且使用自定义卷积神经网络(CNN)标识单词。

手写文本处理***通过提供选择的页面的底层图像并且将来自选择的页面的透明字体的文本叠加在底层图像上，在用户设备的显示器上生成输出版本或输出UI。当用户执行特定搜索项的搜索时，透明字体中的单词会被选择并且突出显示。然而，由于透明字体中的文本对用户不可见，所以无论该单词是打字文本输入还是手写文本输入，突出显示的部分对用户来说都好像该单词是从底层图像中选择的一样。

本文所公开的手写文本处理***提供了对技术问题的技术解决方案，该技术问题在没有准许机器处理其文本内容的数字文档或图像中的手写输入上启用文本处理功能。迄今为止开发的各种手写分析解决方案主要集中于理解有意义的文本内容并且从手写输入中提取有意义的文本内容，但没有充分解决对包括手写输入的文档的启用文本处理功能。本文中所描述的手写文本处理***的输出UI可以通过即使在启用文本处理功能时也维持数字化文档的外观来提供这种解决方案。结果，手写文本处理***不仅可以处理被设计为由计算机处理的特定表格，而且还能够分析和处理来自手写表格、信件或包括打字文本内容和手写文本内容的其他文档的文本输入。

图1示出了根据本文中所公开的示例的手写文本处理***100的框图。手写文本处理***100处理诸如包括打字文本输入152和手写文本输入154的数字化文档150的文档以生成允许用户经由用户设备190与打字文本输入152和手写文本输入154进行交互的诸如数字化文档150的输出版本160的输出UI。在与医疗保健领域有关的示例中，数字化文档150可以包括患者的电子健康记录(EHR)或电子病历(EMR)，该HER或EMR可以包括打字文本/印刷文本和手写文本两者。同样，在与金融或银行领域有关的示例中，数字化文档150可以包括各种文档的副本的贷款申请，这些副本具有打字文本输入和手写文本输入。输出版本160可以启用各种类型的用户交互。例如，输出版本160准许用户搜索和标识数字化文档150中的特定搜索项。可以在整个数字化文档150中突出显示特定搜索项的出现并且在输出版本160内显示，而不管搜索项是作为打字文本输入152还是手写文本输入154出现。更进一步地，还促进诸如用于分类或构建的数据结构(诸如还可以启用诸如RPA的自动化的知识图)的实体/关系提取的其他文档处理功能。

手写文本处理***100包括文档处理器102、字符识别器104、手写分析器106、数据提取器108、以及输出接口生成器110。数字化文档150最初由文档处理器102分析以确定数字化文档150是否包括打字文本输入152、手写文本输入154或打字文本输入152和手写文本输入154的组合中的一个。如果文档处理器102确定数字化文档150仅包括打字文本输入152，则数字化文档150传输到字符标识器104，该字符标识器采用诸如光学字符识别(OCR)的ML技术来标识单独的单词，同时还确定单个单词在数字化文档150内的位置。

如果文档处理器102确定数字化文档150包括打字文本输入152和手写文本输入154的组合，则数字化文档150可以由处理和输出单词172及其位置(即，打字文本输入152内的单词位置174)的字符识别器104处理，并且手写分析器106可以处理和输出手写文本输入154中的单词和单词的位置。在一个示例中，单词172和单词位置174可以存储在耦合到手写文本处理***100的数据存储装置170中。然而，如果文档处理器102确定数字化文档150仅包括手写文本输入154，则数字化文档150由手写分析器106处理以标识手写文本输入154内的单独的单词(即，单词172)和数字化文档150中的单词中的每个单词的位置(即，单词位置174)。

因此，从数字化文档中提取的单词172由数据提取器108进一步处理，用于数据处理任务，诸如标识实体、实体之间的关系、实体分类等。在一个示例中，数据提取器108可以访问具有域特定信息提取(IE)模型的库来标识和提取域特定实体。通过说明而非限制的方式，可以使用来自IE模型库120的经过训练的IE模型从数字化文档150中提取医疗保健相关实体，诸如医疗术语、诊断代码、条件等，该IE模型库120可以包括医疗保健特定模型库，诸如元地图。附加地，命名实体识别(NER)模型也可以包括在IE模型库120中，用于将实体分类为特定类别。例如，可以采用NER模型(诸如经过训练的分类器)来标识诸如名称、日期、地点等的数据。包括实体和实体关系等的所提取的数据可以被用于经由诸如RPA等的技术来构建知识图并且启用下游过程，诸如自动处理文档，例如，EMR或贷款申请。

输出接口生成器110能够访问包括单词172、单词位置174、实体、实体关系，和诸如可以从其被构建的知识图的任何其他数据结构的从数字化文档150获取的数据，以生成预期的要被提供给用户设备190的数字化文档150的输出版本。在一个示例中，可以生成输出版本160以包括与数字化文档150的页面相对应的底层图像。底层图像在外观和内容方面可以与对应的页面基本相似甚至相同。附加地，输出接口生成器110提供以透明字体叠加在底层图像上的文本的显示，其中叠加在每个底层图像上的透明文本包括来自与放置在与其在该页面上的相应定位一致的定位处的与该底层图像的页面相对应的单词。由于叠加的文本是透明字体，所以叠加的文本对用户不可见。然而，如本文中所进一步描述的各种文档处理功能可以使用输出版本160来执行。例如，当接收到数字化文档150内用于标识的搜索项时，透明文本被搜索，并且搜索项被包括在透明文本中的位置被突出显示。由于叠加的文本是透明的，所以输出版本160在用户设备190上提供看起来突出显示了单词的显示，例如，来自底层图像的手写文本。在不同实例中，用户设备190可以与执行手写文本处理***100的计算机***不同并且可以经由网络连接到执行手写文本处理***100的计算机***，或输出版本160可以显示在执行手写文本处理***100的相同的计算机***上。

图2示出了根据本文中所公开的示例的文档处理器102的框图。文档处理器102包括图像生成器202、二进制化处理器204、分割处理器206、特征处理器208、以及阈值分析器210。当最初接收到数字化文档150时，图像生成器202生成数字化文档150的图像252，其中每个图像与数字化文档150的页面相对应。因此，如果数字化文档150包括‘n’个页面(其中n为自然数并且n＝1、2、...)，则‘n’个图像相应与数字化文档150的页面相对应，并且具有与由图像生成器202生成的页面相同的大小。

这样生成的图像252由二进制化处理器204访问，该二进制化处理器204使用一种技术将扫描的文档(或图像252)转换为二进制化的图像，其中如果像素不在单词的内部形状内，则每个像素的位置表示为0；如果像素在单词的内部形状内，则每个像素的位置表示为1。因此，二进制化处理器204生成与从图像生成器202获取的‘n’个图像相对应的‘n’个二进制图像。二进制化处理器204使得能够在黑色背景上从二进制图像中的每个二进制图像中捕捉单词中的每个单词的外形的形状。分割处理器206被配置为将特定坐标分配给指示该单词在包括该单词的二进制图像内的定位的单词。分割处理器206可以采用来自诸如文档_文本_注释的方法/函数的返回值来存储x、y坐标以及每个单词在二进制化的图像内的宽度和高度。分割处理器206还基于坐标和高度、要作为“二进制图像小块”存储的宽度属性来裁剪每个单词。二进制化的图像中的单词被转换为对应二进制图像小块256。在一个示例中，二进制图像中的每个二进制图像小块的面积可以覆盖较少的像素。

特征处理器208访问二进制图像小块256用于提取特征，使得每个二进制图像小块可以由对应数字的向量表示。获取这样的数字表示(即，向量)启用使用ML技术对单词进行分类。图像的2D人类可读格式由特征处理器208转换为可以由计算机***解释的特性列表(例如，矩形面积、包周长、三阶Hu矩等)。阈值分析器210访问来自特征处理器208的特性以基于特性(例如，Hu矩)与预先确定的阈值的比较来确定二进制图像小块256中的每个二进制图像小块256是否包括打字文本或手写文本。如上文所提及的，如果确定二进制小块包括打字文本，则该打字文本提供给字符识别器104以用于处理，并且如果确定二进制小块包括手写文本，则该手写文本提供给手写分析器106以用于处理。

图3示出了根据本文中所公开的示例的手写分析器106的框图。手写分析器106包括单词识别器302、字母分割器304、字母标识器306、以及输出验证器308。如上文所讨论的，与数字化文档150的页面相对应的图像252中的每个图像252中的文本被分割成二进制图像小块256，二进制图像小块256中的每二进制图像小块256都可以被单词识别器302标识为包括文本的单词，从而从数字化文档150生成单词的集合。字母分割器304使用跟随字母主体的垂直移动的基于模式的轮廓来从单独的单词中分割单独的字母。字母标识器306包括经过训练的卷积神经网络(CNN)，该CNN为可以被用于标识字母的每个字母提供最高置信度值。可以训练CNN以标识跨诸如数字、字母表等的不同维度的最佳可能候选者。输出验证器308可以采用自定义模型，根据期望的响应来验证来自手写二进制图像小块的草书输出，以提高准确性。例如，可以训练客户分类器来标识城市，因此可以用于从二进制图像小块中提取关于城市的信息。同样，可以采用自定义模型来标识和验证州、国家、邮政编码等。

图4示出了根据本文中所公开的示例的输出接口生成器110的框图。输出接口生成器110包括底层显示生成器402、透明文本生成器404、以及输出接口产生器406。数字化文档150的输出版本160包括与数字化文档150基本相似或甚至相同的内容。更具体地，输出版本160包括与由底层显示生成器402设置为底层图像的数字化文档150的页面相对应的图像252和采用透明字体的来自由透明文本生成器404生成的数字化文档150的页面中的每个页面的文本。输出接口产生器406将每个页面的采用透明字体的文本叠加在与该页面相对应的底层图像上。叠加文本包括来自数字化文档150的页面中的每个页面的单词，单词在与页面上的其相应定位相对应的位置或定位处叠加在相对应的底层图像上。输出版本160实现不同的用户交互，这对于由手写文本处理***100作为输入接收的数字化文档150而言不太可能。例如，用户可以搜索并且标识特定搜索项在输出版本160内的出现。输出版本160提供数字化文档150的显示，其中突出显示搜索项的位置。在一个示例中，用户可以滚动输出版本160以查看搜索项在数字化文档150内的各种出现。备选地，输出版本160可以允许用户跳转到搜索项被包括在数字化文档150中的位置。通过将透明文本叠加在数字化文档150的图像之上，使得这种用户交互成为可能。

为了向用户提供搜索项突出显示的选择的页面的显示，底层显示生成器402产生从与选择的页面相对应的图像252中选择的底层图像452。透明文本生成器404基于由字符标识器104和手写分析器106中的一个或多个标识的单词来生成文本458。文本458在内容、大小和定位方面与从底层图像452被生成的页面的选择的文本中被包括的文本456相同。输出接口生成器406被配置为组合底层图像452和文本454，使得来自文本454的每个单词被叠加在底层图像452上的与选择的页面中的单词的位置一致的位置。在一个示例中，输出接口产生器406可以使用超文本标记语言(HTML)在相应位置组合底层图像452和文本454，使得来自文本454的单词显示在来自底层图像452的单词的之上。此外，输出接口产生器406被配置为用于设置文本454的红色、绿色、蓝色、alpha透明度(RGBa)字体特性。在一个示例中，RGBa值可以被设置为R＝0、B＝0、G＝0和a＝0.01，以使文本454变得透明并且对用户保持不可见。

图5示出了根据本文中所公开的示例的详述了确定数字化文档150中的输入的性质的方法的流程图500。该方法开始于502，其中接收数字化文档150。数字化文档150可以经由电子邮件、经由上传来接收，或可以由手写文本处理***100从网络位置自动访问。在504处，生成数字化文档150的一个或多个图像，其中每个图像与数字化文档150的页面相对应并且每个图像维持与数字化文档150的页面相同的大小。在506处，图像中的每个图像被二进制化以生成数字化文档150的页面的二进制图像254或黑白图像。在508处，对二进制图像254进行分割以生成二进制图像小块256，使得每个二进制图像小块包括来自数字化文档150的文本的单词。在510处，从二进制图像小块256中的每个二进制图像小块256中提取不同的特征，诸如凸包、最小矩形等。凸包可以描述为围合给定二进制图像小块中的单词的最小凸多边形。不同的技术(诸如但不限于Graham扫描或Jarvis’march)可以被用于获取凸包。可以使用诸如旋转卡尺法等的技术获取可以围合二进制图像小块中的单词的最小矩形。在512处，可以根据对应特征计算二进制图像小块256中的每个二进制图像小块256的诸如凸包的Hu矩等的数值。在512处获取的数值与514处的一个或多个预先确定的数值进行比较。基于514处的比较，可以在516处确定二进制图像小块包括打字文本输入152或手写文本输入154。如果数值(即，凸包和最小矩形的Hu矩)更接近于打字文本输入的预先确定的数值，则确定二进制图像小块包括打字文本，并且在518处，将二进制图像小块转发到字符识别器104以供进一步处理。如果凸包和最小矩形的Hu矩更接近或类似于手写示例的预先确定的数值，则确定二进制图像小块包括手写文本，并且在520处，将二进制图像小块转发到手写分析器106以供进一步处理。按照上文所描述的示例，在522处，生成输出版本160。

图6示出了根据本文中所公开的示例的详述了对图像二进制化的方法的流程图600。该方法开始于602，其中以预先确定的因子对图像252中的每个图像进行立方上采样。在一个示例中，对二进制图像254中的每个二进制图像进行处理以因子为二的立方上采样，以增加二进制图像254中的每个二进制图像的宽度和高度，使得可以以比从数字化文档150获取的图像252的保真度更高的人工保真度处理图像信号。在604处，图像252使用原始RGB图像的以下公式被转换为灰度等级(“z”)：

灰度图像转换使得canny算子和形态闭合算子能够处理单个通道信号(即，灰度)以确定图像252中的线和角，因为这些通常是三种颜色的组合。

在606处，高斯模糊使用3x3内核应用于灰度等级图像。高斯模糊的目的是充当图像252上的低通滤波器，以对可能在通过其创建数字化文档150的打印或扫描过程期间引入的伪影(artifact)进行去噪。在608处，Canny边缘检测技术用于找到产生的模糊的二进制对象的边缘。可以标识每个边缘(即，黑色墨水与白纸之间的边界)，并且可以从边缘获得单词的外形。这被用于将单词分类为手写单词或打字单词。在610处，“形态闭合”算子的多个迭代使得能够从来自Canny算子的边缘产生连接的实心单词连通区域(blob)。在612处，来自这样生成的没有孔的blob的大blob可以被标识为“单词”。然后，在614处，使用诸如具有系数值(1、0)的双线性插值的技术对图像进行下采样。在602处，下采样反转图像的上采样，使得可以在原始大小的图像上执行剩余处理，诸如分割、特征化等。

图7示出了根据本文中所公开的示例的详述了将二进制图像254分割成二进制图像小块256的方法的流程图700。该方法开始于702，其中标识二进制图像内的单词的位置坐标(或定位坐标(x、y))。在704处，还标识了单词的高度(h)和宽度(w)。在一个示例中，来自诸如文档_文本_注释的函数的返回值可以被用于确定从数字化文档150获取的二进制图像254中的单词中的每个单词的定位坐标和高度/宽度。在706处，向每个单词分配“二进制图像小块”，其中高度和宽度可以以较少的像素进行测量。从数字化文档150裁剪以生成对应二进制图像小块的单独的单词像素可以包括二进制图像小块中的白色像素，该白色像素指示页面(或二进制图像)上的单词的边界或内部，而黑色像素指示二进制图像上单词的外部。

图8示出了根据本文中所公开的示例的详述了从二进制图像小块中提取特征的方法的流程图800。二进制图像小块中的每个二进制图像小块都转换为向量，使得ML方法可以用于处理单词。在802处，选择二进制图像小块256中的一个二进制图像小块256。在804处，标识二进制图像小块中存在的所有blob的轮廓。在806处，选择最大的轮廓，同时从其他处理中丢弃剩余轮廓。在二进制化过程期间应用的高斯模糊通常将来自同一单词的字母组合到相同的blob中，而不将来自不同单词的字母组合在一起，使得blob保持不同和分开。呈现的最大blob可以表示底层单词。在808处，计算最大单词轮廓的凸包和最小矩形。在810处，确定是否还有更多的二进制图像小块要处理。如果在810处确定还有更多二进制图像要处理，则该方法返回到802以选择下一二进制图像小块，否则该方法在结束框处终止。应当理解，用于特征提取的二进制图像小块的处理被描述为仅用于说明目的的串行过程，并且可以同时或并行处理多个二进制图像小块以用于特征提取。

图9A示出了根据本文中所公开的示例的分割的单词形状900。左侧(LHS)902示出了从包括手写输入的二进制图像小块或分割的单词形状检测到的边缘。右侧(RHS)包括具有打字输入的二进制图像小块。在对来自数字化文档的图像252进行上采样时，可以看出LHS 902上的单词边界不均匀并且呈锯齿状，具有不规则的线段长度和大的周长面积比例，同时RHS 904上的单词边界更为平滑。更为平滑的单词边界通常是机器生成输入、打印输入或打字输入的特点。所提取的特征基于这样的特点，这些特点使得文档处理器102能够将打字文本输入152与手写文本输入154区分开。

图9B示出了根据本文中所公开的示例从单词样本950获取的凸包和最小矩形。计算最小矩形952和凸包954以将单词样本950中单词‘sputum’的2D人类可读草书形状转换为可以由计算机解释的特性列表。示例特性可以包括但不限于矩形面积、包周长、三阶Hu矩等。单词样本950的示例特性的值当与打字样本和手写样本的示例特性的对应值进行比较时。如果凸包和最小矩形的Hu矩与手写值更相似，则添加正值。如果凸包和最小矩形的Hu矩更能指示打字单词样本，则可以从整体计算值中减去一个值。如果这两个值的组合为正，则该单词可以分类为手写。如果这两个值的组合为负，则该单词可以分类为打字文本输入。

图10示出了诸如从输入数字化文档1002的对应部分生成的输出UI 1004的输出版本160的示例的一部分。输出UI 1004显示如与包括打字文本输入1052和手写文本输入1054的数据输入一起接收的输入数字化文档1002的底层图像1008。然而，手写文本处理***100启用附加文本处理功能，使得可以提取、选择、分类或以其他方式处理从输入数字化文档1002获取的文本。手写文本处理***100还可以对可以包括在输入数字化文档1002中的任何图像启用文本处理功能，该输入数字化文档1002可以包括诸如标志名称、品牌名称、标语等的文本，该文本可以被包括在文档标题、页脚、图章等中。更具体地，输出UI 1004示出了由手写文本处理***100启用的文本选择功能。选择1006可以基于例如由用户发布的搜索项等来包括输出UI 1004的一部分中的手写文本1054中的单词‘cold’。输出UI 1004包括输入数字化文档1002的部分的底层图像，该部分包括单词‘cold’，同时选择1006包括叠加在对用户是不可见的底层图像上的透明字体，因此向用户提供看起来好像实际底层手写文本1054被选择的显示。在一个示例中，可以基于如由分割处理器206确定的对应单词/二进制化图像小块的大小(高度和宽度)来设置要重叠在手写输入上的字体大小，使得选择1006的区域可以是对应的大小。因此，突出显示的部分(例如，选择1006)的大小可以是以覆盖来自底层图像1008的选择的单词，其中选择的单词与搜索项‘cold’相对应，而不管搜索项出现在打字文本输入中还是手写文本输入中。因此，手写文本处理***100被配置为提供显示输入文档的输出UI 1004，同时在这样的输出UI显示上启用文本处理功能。

图11图示了可以用于实现手写文本处理***100的计算机***1100。更具体地，可以用于生成或访问来自手写文本处理***100的数据的计算机器(诸如台式电脑、膝上型电脑、智能电话、平板电脑和可穿戴式设备)可以具有计算机***1100的结构。计算机***1100可以包括未示出的附加部件，并且可以移除和/或修改所描述的过程部件中的一些过程部件。在另一示例中，计算机***1100可以位于外部云平台上，诸如亚马逊网络服务、

云或内部企业云计算集群、或组织计算资源等。

计算机***1100包括(多个)处理器1102，诸如中央处理单元、ASIC或另一类型的处理电路、输入/输出设备1112(诸如显示器、鼠标、键盘等)、网络接口1104(诸如局域网(LAN)、无线802.11×LAN、3G、4G或5G移动WAN或WiMax WAN)、以及处理器可读介质1106。这些部件中的每个部件可以可操作地耦合到总线1108。计算机可读介质1106可以是参与向一个或多个处理器1102提供指令以供执行的任何合适介质。例如，处理器可读介质1106可以为非瞬态介质或非易失性介质，诸如磁盘或固态非易失性存储器或诸如RAM的易失性介质。存储在处理器可读介质1106上的指令或模块可以包括由(多个)处理器1102执行的机器可读指令1164，该机器可读指令1164使得(多个)处理器1102执行手写文本处理***100的方法和功能。

手写文本处理***100可以被实现为存储在非瞬态处理器可读介质上并且由一个或多个处理器1102执行的软件。例如，处理器可读介质1106可以存储操作***1162(诸如MAC OS、MS WINDOWS、UNIX或LINUX)以及用于手写文本处理***100的代码1164。操作***1162可以是多用户、多处理、多任务、多线程、实时等。例如，在运行时期间，操作***1162正在运行并且用于手写文本处理***100的代码由(多个)处理器1102执行。

计算机***1100可以包括数据存储装置1110，该数据存储装置1110可以包括非易失性数据存储装置。数据存储装置1110存储手写文本处理***100所使用的任何数据。数据存储装置1110可以用于存储数字化文档、从数字化文档生成的图像、二进制化的图像小块、从二进制化的图像小块中提取的特征等，以及在操作期间由手写文本处理***100使用或生成的其他数据。

网络接口1104例如经由LAN将计算机***1100连接到内部***。此外，网络接口1104可以将计算机***1100连接到互联网。例如，计算机***1100可以经由网络接口1104连接到网络浏览器和其他外部应用和***。

本文中已经描述和图示的是一个示例及其一些变型。本文中所使用的术语、描述和图仅通过说明阐述，并不意味着限制。在旨在由以下权利要求及其等效物定义的主题的精神和范围内，许多变化是可能的。

Claims

1.一种用于处理手写文本的计算机实现的处理***，包括：

至少一个数据存储设备，以及

一个或多个处理器，执行存储在所述至少一个存储设备中的机器可读指令，以：

访问数字化文档，

所述数字化文档包括数据输入，以及

所述数据输入包括手写文本输入；

从所述数字化文档生成图像，

所述图像中的每个图像与所述数字化文档的相应页面相对应，以及

所述图像中的每个图像维持与所述数字化文档的所述相应页面相同的大小；

计算针对所述数字化文档的所述数据输入的数值；

基于所述数值，确定所述数据输入中的至少一个数据输入包括所述手写文本输入；

标识所述数字化文档的所述数据输入中的单词和每个单词的相应位置；

生成所述数字化文档的输出版本，

所述数字化文档的所述输出版本用于在用户设备的输出屏幕上显示，

其中所述输出版本实现对包括所述手写文本输入的所述数据输入的选择，以及

其中所述输出版本包括：

与所述数字化文档的所述页面相对应的所述图像，所述图像被设置为底层图像；以及

来自所述数字化文档的所述页面中的每个页面的文本，所述文本以透明字体叠加在与所述页面相对应的所述底层图像中的一个底层图像上，

其中所述文本包括以所述透明字体显示的来自所述页面的单词，所述单词在与所述单词在所述底层图像中的相应位置一致的位置处；以及

通过将所述数字化文档的所述输出版本提供给所述用户设备以用于显示，实现对所述数字化文档的文本处理功能。

2.根据权利要求1所述的手写文本处理***，其中所述处理器还：

接收针对在所述数字化文档内的标识的搜索项；以及

标识所述搜索项被包括在所述数字化文档中的位置。

3.根据权利要求2所述的手写文本处理***，其中为了实现所述文本处理功能，所述处理器：

生成所述数字化文档的所述输出版本，所述输出版本包括所述透明字体的突出显示部分，所述透明字体的突出显示部分包括与所述搜索项相对应的选择的单词，

其中所述突出显示部分的大小覆盖所述底层图像上的所述选择的单词。

4.根据权利要求1所述的手写文本处理***，其中为了实现所述文本处理功能，所述处理器：

使用信息提取(IE)模型，从所述数字化文档中的所述单词中提取一个或多个实体；以及

使用训练的分类器，将所述实体分类为特定类别。

5.根据权利要求4所述的手写文本处理***，其中为了生成所述数字化文档的所述输出版本，所述处理器：

通过在所述数字化文档中包括所述实体的位置处，突出显示所述透明字体内的所述实体，生成所述数字化文档的所述输出版本。

6.根据权利要求1所述的手写文本处理***，其中为了处理所述数字化文档，所述处理器：

通过对从所述数字化文档生成的所述图像二进制化，捕捉所述数字化文档中的每个单词的外形的形状。

7.根据权利要求6所述的手写文本处理***，其中为了对所述数字化文档二进制化，所述处理器：

将所述图像中的每个图像的宽度和高度增加预先确定的因子；

将所述图像中的每个图像转换为灰度等级；以及

通过对所述图像中的每个图像应用高斯模糊，生成模糊的二进制对象。

8.根据权利要求7所述的手写文本处理***，其中为了对所述数字化文档进行二进制化，所述处理器：

使用Canny边缘检测技术确定所述图像中的每个图像中的所述模糊的二进制对象的边缘；以及

通过应用形态学闭合算子的多个迭代，生成所述边缘的连接的、实心单词连通区域。

9.根据权利要求1所述的手写文本处理***，为了处理所述数字化文档，所述处理器：

从通过对所述图像二进制化而获取的二进制图像中分割单独的单词像素。

10.根据权利要求9所述的手写文本处理***，其中为了分割所述单独的单词像素，所述处理器：

获取所述二进制图像中的所述单词的位置和大小；以及

向所述单词中的每个单词分配相对应的二进制图像小块，

其中所述二进制图像小块中的白色像素指示所述相应页面上的所述单词的边界和内部中的一个，以及

所述二进制图像小块中的黑色像素指示所述相应页面上的所述单词的外部。

11.根据权利要求10所述的手写文本处理***，为了处理所述数字化文档，所述处理器：

通过以下方式提取针对所述二进制图像小块中的每个二进制图像小块的特征：

标识被包括在所述二进制图像小块中的实心单词连通区域的轮廓；

选择针对所述二进制图像小块的最大轮廓；以及

计算针对所述二进制图像小块中单词轮廓的凸包和最小矩形。

12.根据权利要求11所述的手写文本处理***，其中为了确定所述数据输入至少包括所述手写文本输入，所述处理器：

计算针对所述凸包和所述二进制图像小块的所述最小矩形的Hu矩作为针对所述数据输入的所述数值；以及

基于所述凸包和所述最小矩形的所述Hu矩与针对手写示例的值相似的确定，确定所述数据输入至少包括所述手写文本输入。

13.根据权利要求1所述的手写文本处理***，其中为了标识所述数字化文档中的每个单词和每个单词的位置，所述处理器：

基于单词连通区域的轮廓和文本中的中断，将来自所述图像中的每个图像中的文本分割成单词的集合；

还使用所述轮廓，将每个单词分解成字母；

使用训练的卷积神经网络(CNN)标识单独的字母；

通过应用自定义模型，从标识所述单独的字母中获取输出；以及

根据期望的响应，验证从标识所述单独的字母中获取的所述输出。

14.一种处理手写文本输入的方法，包括：

生成与数字化文档的每个页面相对应的图像，其中

所述图像具有与所述数字化文档的所述页面相同的大小；

将所述图像转换为二进制图像，所述二进制图像在深色背景上捕捉所述数字化文档中的单词的形状；

将所述二进制图像分割成二进制图像小块，

其中所述二进制图像小块中的每个二进制图像小块包括来自所述数字化文档的相对应单词；

提取针对所述二进制图像小块中的每个二进制图像小块的特征；从所述特征计算所述数字化文档的所述数据输入的数值；

基于所述数值，确定所述数据输入至少包括所述手写文本输入；标识所述数字化文档中的单词和所述单词的位置；以及

生成所述数字化文档的输出版本，所述输出版本实现对包括所述手写文本输入中的单词的所述单词的用户选择，其中所述输出版本至少包括：

包括所述数字化文档的所述页面的所述图像的一个或多个底层图像；以及

以透明字体叠加在与所述底层图像中的相对应的一个底层图像的来自所述页面的文本，

其中来自所述数字化文档的所述页面的所述单词在与所述单词在所述底层图像中的位置一致的位置处以所述透明字体被叠加；以及

将所述数字化文档的所述输出版本提供给用户设备以用于显示。

15.根据权利要求14所述的方法，其中将所述图像转换为所述二进制图像还包括：

将所述图像中的每个图像转换为灰度等级；

通过对所述图像中的每个图像应用高斯模糊，生成模糊的二进制对象；

通过应用形态学闭合算子的多个迭代，生成所述边缘的连接的、单词连通区域。

16.根据权利要求14所述的方法，其中将所述二进制图像分割成所述二进制图像小块还包括：

获取所述二进制图像中的每个单独的单词的位置和大小；

向每个单个单词分配对应二进制图像小块，其中所述二进制图像小块中的白色像素指示所述相应页面上的所述单词的边界和内部中的一个，并且所述二进制图像小块中的黑色像素指示所述相应页面上的所述单词的外部；以及

从所述二进制图像中裁剪单独的单词像素。

17.根据权利要求14所述的方法，其中计算针对所述数据输入的所述数值还包括：

计算针对所述二进制图像小块中的每个二进制图像小块的凸包的Hu矩作为所述数据输入的所述数值；以及

基于与打字示例相比，所述最小矩形和所述凸包的所述Hu矩与手写示例更相似的确定，确定所述数据输入至少包括所述手写文本输入。

18.根据权利要求14所述的方法，其中生成所述数字化文档的所述输出版本还包括：

使用超文本标记语言(HTML)，组合所述底层图像和所述文本；以及

在所述HTML中设置所述透明字体的值，所述透明字体的值引起所述字体对在所述用户设备上正在查看所述输出版本的用户不可见。

19.一种非瞬态处理器可读存储介质，包括机器可读指令，所述机器可读指令使处理器以：

访问具有包括手写文本输入的数据输入的数字化文档；

从所述数字化文档生成图像，

其中所述图像中的每个图像与所述数字化文档的相应页面相对应，以及

所述图像中的每个图像维持与所述数字化文档的所述相应页面成比例的大小；

计算针对所述数字化文档的所述数据输入的数值；

标识所述数字化文档中的单词和所述单词的位置；

接收针对来自所述数字化文档的标识的搜索项；

生成所述数字化文档的输出版本，

其中所述输出版本实现对包括所述手写文本输入的所述数据输入的选择；以及

其中所述输出版本包括：

从所述图像中选择的底层图像，其中所述底层图像与包括所述搜索项的所述数字化文档的至少一个选择的页面相对应；

以透明字体叠加在所述底层图像上的、来自所述底层图像的文本，

其中所述文本至少包括在与所述单词在所述底层图像中的位置一致的位置处的、以所述透明字体显示的来自所述选择的页面的所述单词的子集；以及

将所述数字化文档的所述输出版本提供给用户设备的输出屏幕以用于显示。

20.根据权利要求19所述的非瞬态处理器可读存储介质，还包括指令，所述指令使所述处理器以：

标识所述搜索项出现在所述数字化文档中的位置；以及

提供所述数字化文档的所述输出版本，所述数字化文档的所述输出版本包括所述数字化文档中的所述透明字体的突出显示部分，其中所述突出显示表现为好像所述子集单词在所述底层图像上被选择。