CN102915437A

CN102915437A - 文本信息识别方法及***

Info

Publication number: CN102915437A
Application number: CN2011102199124A
Authority: CN
Inventors: 张富春
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2011-08-02
Filing date: 2011-08-02
Publication date: 2013-02-06

Abstract

本发明涉及一种文本信息识别方法及***，该方法包括如下步骤：客户端获取包含文本信息的图像，并将图像发送至云服务器；云服务器接收图像，对图像进行处理，提取出图像中文本信息的字符；对字符进行处理，获取字符的特征；根据字符的特征，查询设置在云服务器上特征库，与特征库中的字符进行特征匹配，对字符进行识别，进而识别文本信息；云服务器将识别的文本信息发送至客户端。本发明客户端将图像上传至云服务器，识别过程和云服务器均在云服务器上进行，云服务器具有强大的计算能力和扩展能力，性能能够满足特征库的要求，使得特征库和识别能力不受用户计算机的限制，从而能够准确的对文本信息进行识别，简单、高效、识别率大大提高。

Description

文本信息识别方法及***

【技术领域】

本发明涉及一种信息处理技术，尤其涉及一种文本信息识别方法及***。

【背景技术】

目前，纸质文档或者图片上的文本信息，不能直接使用，在使用时需要手动输入才可。为替代手动输入，通常采用OCR(Optical Character Recognition光学字符识别)技术对文本信息进行识别。

但是，传统的OCR技术，用户在使用时，需要安装一个庞大的客户端软件，并要求进行识别的计算机硬件具备足够的处理性能。OCR技术主要面对的是纸质材料，识别场景需要考虑很多问题，因此识别率会受到复杂因素的制约。识别率的核心技术指标是特征库。由于用户计算机硬件及处理器性能通常不具备足够要求，识别能力和特征库都受到用户计算机性能的限制，大大降低了OCR技术对文本信息的识别率，不能准确的识别文本信息。

同时，在对文本信息识别后还需要进行纠错。由于纠错的能力取决于特征库的信息量，特征库受到本机性能的限制，从而大大限制了纠错的能力，使得识别率进一步降低。

【发明内容】

有鉴于此，有必要提供一种识别率高的文本信息识别方法。

此外，提供一种识别率高的文本信息识别***。

一种文本信息识别方法，包括如下步骤：

客户端获取包含文本信息的图像，并将所述图像发送至云服务器；

所述云服务器接收所述图像，对所述图像进行处理，提取出所述图像中文本信息的字符；

所述云服务器对所述字符进行处理，获取字符的特征；

所述云服务器根据所述字符的特征，查询设置在所述云服务器上特征库，与特征库中的字符进行特征匹配，对字符进行识别，进而识别文本信息；

所述云服务器将识别的文本信息发送至客户端。

一种文本信息识别***，包括客户端与云服务器，

所述客户端用于获取包含文本信息的图像，并将所述图像发送至所述云服务器；

所述云服务器包括：

收发服务器，用于接收所述图像；

图像处理服务器，用于对所述图像进行处理，提取出所述图像中文本信息的字符；

字符处理服务器，用于对所述字符进行处理，获取字符特征；

特征库服务器，根据所述字符的特征，查询设置在特征库服务器上特征库，与特征库中的字符进行特征匹配，对字符进行识别，进而识别文本信息；特征库服务器将识别的文本信息交由收发服务器，收发服务器将识别的文本信息发送至所述客户端。

上述文本信息识别方法及***，客户端将图像上传至云服务器，识别过程和云服务器均在云服务器上进行，云服务器具有强大的计算能力和扩展能力，性能能够满足特征库的要求，使得特征库和识别能力不受用户计算机的限制，从而能够准确的对文本信息进行识别，简单、高效、识别率大大提高。用户只需通过客户端上传图像即可，云服务器便可同时为海量用户提供服务，极大方便了用户使用。

【附图说明】

图1是一个实施例中文本信息识别方法的流程图；

图2是一个实施例中云服务器对图像进行处理，提取出图像中文本信息的字符的方法流程图；

图3是一个实施例中文本信息识别***的结构示意图；

图4是一个实施例中图像处理服务器的结构示意图。

【具体实施方式】

下面结合附图，对本发明的具体实施方式进行详细描述。

图1是一个实施例中文本信息识别方法的流程图。该方法包括：

S10：客户端获取包含文本信息的图像，并将图像发送至云服务器。

该方法所识别的对象为具有文本信息的图像，对图像中的文本信息进行识别。客户端获取的具有文本信息的图像为通过对具有文本信息的纸质或者其他介质文档进行扫描获得，或者为直接的图像，也可以为截取屏幕内容的截屏图像等等。在优选的实施方式中，客户端获取的具有文本信息的图像为即时通讯软件截取屏幕内容所获得的截屏图像，将截图图像中的文本信息识别出，使文本信息可直接使用，无需将截图图像中的文本信息手动输入。客户端通过浏览器上传的方式将图像上传到云服务器。

S20：云服务器接收图像，对图像进行处理，提取出图像中文本信息的字符。

文本信息由多个字符组成，识别文本信息需要将文本信息的每个字符提取出来。云服务器可以为云计算平台，也可以为包含多个计算节点的计算网络或者多个服务器。云服务器具有强大的扩展能力、庞大的计算能力以及海量存储能力，能够同时接收大量客户端传送的图像，同时为海量用户提供服务。

图2是一个实施例中云服务器对图像进行处理，提取出图像中文本信息的字符的方法流程图。该实施例中，云服务器接收图像，对图像进行处理，提取出图像中文本信息的每个字符的步骤具体包括：

S21：对图像以设定亮度值为标准进行二值化处理，将图像变为黑白图像。

通常，图像为彩色，具有多种颜色，文本信息的字符颜色多为亮度值比较暗的颜色，为利于将图像中的文本信息的每个字符提取出来，需要将图像进行二值化处理，将图像变为黑白图像，将字符颜色变为黑色。具体过程为：云服务器将图像中的颜色亮度值大于设定亮度值的转换为白色，反之转换为黑色。设定亮度值可根据需要可进行调整。

但是，由于一些情形下，图像存在背景为黑色，文本信息为白色的情况，即黑底白字的情况。为避免这种情况影响文本信息的识别，进一步，该步骤还包括云服务器对图像背景色进行判断，将背景为黑色、文本信息为白色的图像转换为背景为白色、文本信息为黑色的图像的步骤，即将黑底白字的图像转换为白底黑字的图像。

S22：对黑白图像连续像素区域进行扫描，获取字符区域。

在整个黑白图像中，并非所有区域都为字符，可能存在非字符的区域，这就需要将非字符的区域去除，只获取字符区域。

该实施例中，对黑白图像连续像素区域进行扫描，获取字符区域的步骤具体为：扫描黑白图像黑像素点的连续性，根据黑像素点的连续性去除非字符区域，获取字符区域。

由于字符的像素点具有一定连续性，并且较大的连续块和较小的连续块都不是字符，从而根据黑像素点的连续性能够去除非字符区域，获取字符区域。同时，根据字符本身特征，如像素点的分布密度、规程程度、大小等，还可进一步去除非字符区域。

S23：对字符区域进行断行列操作，将字符提取出来。

考虑到字符区域大都是规则的按照行列排列的，因此根据规则的行列特征，对字符区域进行断行列操作，将单个字符***出来，从而将每个字符提取出来。

该实施例中，对字符区域进行断行列操作，将字符提取出来的步骤具体为：首先对字符区域进行行行分割，再对每行进行列列分割，分割开单个字符，将每个字符提取出来。

此外，为保证图像格式为云服务器进行识别所要求格式，云服务器接收图像，对图像进行处理，提取出图像中文本信息的每个字符的步骤还包括：检测图像的格式，若图像的格式不为要求格式，则将图像的格式转换为要求格式的步骤。在优选的实施方式中，要求格式为BMP格式。

S30：云服务器对字符进行处理，获取字符的特征。

该实施例中，字符的特征为字符的大小以及字符像素点的数量。由于多个字符存在字号的区别，相同字号的字符又存在粗体和细体的区别。为便于识别字符，减少工作量，云服务器需要对每个字符进行处理，具体的处理方法为：对字符进行细化，抽取每个字符的骨架，获取字符的像素点，提取字符的骨架即是用最少的像素点来表示该字符；将每个字符均缩放到设定大小，获取字符的大小。

S40：云服务器根据字符的特征，查询设置在云服务器上的特征库，与特征库中的字符进行特征匹配，对字符进行识别，进而识别文本信息。

特征库预先建立好，并设置在云服务器上的。特征库中包含了字符集中所有的字符，还包含了每个字符的多种变化。例如字体的变化：宋体，楷体等；还有矢量的变化：例如斜体等。还有字体大小的变换等等。由于特征库设置在云服务器上，云服务器具有强大的扩展能力、庞大的计算能力以及海量存储能力，性能能够满足特征库的要求，特征库可以存储有进行匹配识别所需的数据，从而保证每个字符都能准确的进行识别。

该实施例中，云服务器根据字符的特征，查询设置在云服务器上特征库，与特征库中的字符进行特征匹配，对字符进行识别，进而识别文本信息的步骤具体为：云服务器根据每个字符的大小及像素点，查找特征库中字符的大小和像素点，进行匹配，确定像素点对应的编码信息，识别每个字符，从而识别出文本信息。在优选的实施方式中，云服务器在多个服务器上对字符进行特征匹配，识别文本信息，提高识别效率及识别率。

S50：云服务器将识别的文本信息发送至客户端。

文本信息在识别后，云服务器将文本信息发送至客户端，供用户直接使用，无需手动输入。

由于对文本信息进行识别时，图像上的某些字符由于模糊等原因，在识别时会造成识别出错，为进一步准确识别文本信息，保证识别率，该方法还包括云服务器对识别的文本信息进行纠错的步骤。具体为：云服务器将文本信息中的词组，与特征库中存储的词组进行匹配，进行纠错，纠错后发送至客户端。

特征库设置在云服务器上，能够存储海量的词组。在纠错时，利用词组的惯用方式，与特征库中存储的海量词组进行匹配，能够判断文本信息中词组是否正确，纠正文本信息中的错误，提高识别的准确率。例如，文本信息中包含“太阳”这个词，“太”字中的这一点由于模糊不清，在识别时被识别为“大”字。纠错时，发现“太阳”才是正确的词组，而非“大阳”，将“大”字纠正为“太”字，从而将“大阳”纠正过来为“太阳”。

此外，还提供一种文本信息识别***。

图3所示是一个实施例中文本信息识别***的结构示意图。该文本信息识别***包括：客户端100以及云服务器200。

客户端100获取包含文本信息的图像，并将图像发送至云服务器200。

该***所识别的对象为具有文本信息的图像，对图像中的文本信息进行识别。客户端100获取的具有文本信息的图像为通过对具有文本信息的纸质或者其他介质文档进行扫描获得，或者为直接的图像，也可以为截取屏幕内容的截屏图像等等。在优选的实施方式中，客户端100获取的具有文本信息的图像为即时通讯软件截取屏幕内容所获得的截屏图像，将截图图像中的文本信息识别出，使文本信息可直接使用，无需将截图图像中的文本信息手动输入。客户端100通过浏览器上传的方式将图像上传到云服务器200。

云服务器200可以为云计算平台，也可以为包含多个计算节点的计算网络或者多个服务器。云服务器200具有强大的扩展能力、庞大的计算能力以及海量存储能力，能够同时接收大量客户端传送的图像，同时为海量用户提供服务。

该实施例中，云服务器200包括：收发服务器210、图像处理服务器220、字符处理服务器230、特征库服务器240以及纠错服务器250。

收发服务器210用于接收具有文本信息的图像，并交于图像处理服务器220。该实施例中，收发服务器210为HTTP(超文本传输协议)服务器。同时，收发服务器210还检测图像的格式，若图像的格式不为要求格式，则将图像的格式转换为要求格式。在优选的实施方式中，要求格式为BMP格式。收发服务器210能同时接收多个客户端100发送的图像。

图像处理服务器220对图像进行处理，提取出图像中文本信息的字符。

文本信息有多个字符组成，识别文本信息需要将文本信息的每个字符提取出来进行识别。

图4是一个实施例中图像处理服务器的结构示意图。该实施例中，图像处理服务器220包括二值化模块221、字符区域获取模块222以及字符提取模块223。

二值化模块221用于对图像以设定亮度值为标准进行二值化处理，将图像变为黑白图像。

通常，图像为彩色，具有多种颜色，文本信息的字符颜色多为亮度值比较暗的颜色，为利于将图像中的文本信息的每个字符提取出来，需要将图像进行二值化处理，将图像变为黑白图像，将字符颜色变为黑色。二值化模块221对图像进行二值化处理，将图像中的颜色亮度值大于设定亮度值的转换为白色，反之转换为黑色。设定亮度值可根据需要可进行调整。

但是，由于一些情形下，图像存在背景为黑色，字符颜色为白色的情况，即黑底白字的情况。为避免这种情况影响文本信息的识别，进一步，二值化模块221还对图像背景色进行判断，将背景为黑色、文本信息为白色的图像转换为背景为白色、文本信息为黑色的图像，即将黑底白字的图像转换为白底黑字的图像。

字符区域获取模块222用于对黑白图像连续像素区域进行扫描，获取字符区域。

该实施例中，字符区域获取模块222扫描黑白图像黑像素点的连续性，根据黑像素点的连续性去除非字符区域，获取字符区域。

由于字符的像素点具有一定连续性，并且较大的连续块和较小的连续块都不是字符，从而使得字符区域获取模块222根据黑像素点的连续性能够去除非字符区域，获取字符区域。同时，字符区域获取模块222根据字符本身特征，如像素点的分布密度、规程程度、大小等，还可进一步去除非字符区域。

字符提取模块223用于对字符区域进行断行列操作，将字符提取出来。

考虑到字符区域大都是规则的按照行列排列的，因此根据规则的行列特征，对字符区域进行断行列操作，能够将单个字符***出来，从而将每个字符提取出来。

该实施例中，字符提取模块223首先对字符区域进行行行分割，再对每行进行列列分割，分割开单个字符，将每个字符提取出来。

字符处理服务器230用于对字符进行处理，获取字符的特征。

该实施例中，字符的特征为字符的大小以及字符像素点的数量。由于多个字符存在字号的区别，相同字号的字符又存在粗体和细体的区别。为便于识别字符，减少工作量，需要对每个字符进行处理。

字符处理服务器230对字符进行细化，抽取字符的骨架，获取字符的像素点。提取字符的骨架即是用最少的像素点来表示该字符。字符处理服务器230将字符均缩放到设定大小，获取字符的大小。

特征库服务器240根据字符的特征，查询特征库服务器240上设置的特征库241，与特征库241中的字符进行特征匹配，对字符进行识别，进而识别文本信息。

特征库241预先建立好，并设置在特征库服务器240上，即设置在云服务器200上。特征库241中包含了字符集中所有的字符，还包含了每个字符的多种变化。例如字体的变化：宋体，楷体等；还有矢量的变化：例如斜体等。还有字体大小的变换等等。由于特征库241设置在云服务器200上，云服务器200具有强大的扩展能力、庞大的计算能力以及海量存储能力，性能能够满足特征库241的要求，特征库241可以海量存储进行匹配识别所需的数据，从而保证每个字符都能准确的进行识别。

该实施例中，特征库服务器240根据每个字符的大小及像素点，查找特征库241中字符的大小和像素点，进行匹配，确定像素点对应的编码信息，识别每个字符，从而识别出文本信息。在优选的实施方式中，特征库服务器240为具有多个服务器的服务器集群，特征库服务器240在多个服务器上对字符进行特征匹配，识别文本信息，提高识别效率及识别率。

纠错服务器250对识别的文本信息进行纠错。

由于对文本信息进行识别时，图像上的某些字符由于模糊等原因，在识别时会造成识别出错，故还需要进行纠错。纠错服务器250将文本信息中的词组，与特征库241中存储的词组进行匹配，进行纠错。

特征库241设置在云服务器200上，能够存储海量的词组。在纠错时，纠错服务器250利用词组的惯用方式，与特征库241中存储的海量词组进行匹配，能够判断文本信息中词组是否正确，纠正文本信息中的错误，提高识别的准确率。例如，文本信息中包含“太阳”这个词，“太”字中的这一点由于模糊不清，在识别时被识别为“大”字。纠错时，发现“太阳”才是正确的词组，而非“大阳”，将“大”字纠正为“太”字，从而将“大阳”纠正过来为“太阳”。

收发服务器210将识别的文本信息发送至客户端100。

文本信息在识别后，收发服务器210将文本信息发送至客户端100，供用户直接使用，无需手动输入。收发服务器210可同时发送多个客户端100。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本信息识别方法，包括如下步骤：

所述云服务器对所述字符进行处理，获取字符的特征；

所述云服务器将识别的文本信息发送至客户端。

2.根据权利要求1所述的文本信息识别方法，其特征在于，所述云服务器接收所述图像，对所述图像进行处理，提取出所述图像中的字符的步骤具体为：

对图像以设定亮度值为标准进行二值化处理，将图像变为黑白图像；

对黑白图像连续像素区域进行扫描，获取字符区域；

对字符区域进行断行列操作，将每个字符提取出来。

3.根据权利要求2所述的文本信息识别方法，其特征在于，所述云服务器接收所述图像，对所述图像进行处理，提取出所述图像中的字符的步骤还包括：对图像背景色进行判断，将背景为黑色、文本信息为白色的图像转换为背景为白色，文本信息为黑色的图像的步骤。

4.根据权利要求1所述的文本信息识别方法，其特征在于，所述字符的特征为字符的大小及像素点；所述云服务器对所述字符进行处理，获取字符特征的步骤具体为：

对字符进行细化，抽取字符的骨架，获取字符的像素点；

将字符缩放到设定大小，获取字符的大小。

5.根据权利要求1所述的文本信息识别方法，其特征在于，所述方法还包括所述云服务器对识别的文本信息进行纠错的步骤，具体为：所述云服务器将识别的文本信息中的词组，与特征库中存储的词组进行匹配，进行纠错，纠错后发送至客户端。

6.一种文本信息识别***，其特征在于，包括客户端与云服务器，

所述云服务器包括：

收发服务器，用于接收所述图像；

7.根据权利要求6所述的文本信息识别***，其特征在于，所述图像处理服务器包括：

二值化模块，用于对图像以设定亮度值为标准进行二值化处理，将图像变为黑白图像；

字符区域获取模块，用于对黑白图像连续像素区域进行扫描，获取字符区域；

字符提取模块，用于对字符区域进行断行列操作，将每个字符提取出来。

8.根据权利要求7所述的文本信息识别***，其特征在于，所述二值化模块还用于对图像背景色进行判断，将背景为黑色、文本信息为白色的图像转换为背景为白色、文本信息为黑色的图像。

9.根据权利要求6所述的文本信息识别***，其特征在于，所述字符的特征为字符的大小及像素点；所述字符处理服务器用于对字符进行细化，抽取字符的骨架，获取字符的像素点，所述字符处理服务器将字符缩放到设定大小，获取字符的大小。

10.根据权利要求6所述的文本信息识别***，其特征在于，所述云服务器还包括对识别的文本信息进行纠错的纠错服务器；所述纠错服务器用于将识别的文本信息中的词组与特征库中存储的词组进行匹配，进行纠错，纠错后交由收发服务器发送至所述客户端。