CN102915437A - 文本信息识别方法及*** - Google Patents

文本信息识别方法及*** Download PDF

Info

Publication number
CN102915437A
CN102915437A CN2011102199124A CN201110219912A CN102915437A CN 102915437 A CN102915437 A CN 102915437A CN 2011102199124 A CN2011102199124 A CN 2011102199124A CN 201110219912 A CN201110219912 A CN 201110219912A CN 102915437 A CN102915437 A CN 102915437A
Authority
CN
China
Prior art keywords
character
image
text message
cloud server
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102199124A
Other languages
English (en)
Inventor
张富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011102199124A priority Critical patent/CN102915437A/zh
Publication of CN102915437A publication Critical patent/CN102915437A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种文本信息识别方法及***,该方法包括如下步骤:客户端获取包含文本信息的图像,并将图像发送至云服务器;云服务器接收图像,对图像进行处理,提取出图像中文本信息的字符;对字符进行处理,获取字符的特征;根据字符的特征,查询设置在云服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;云服务器将识别的文本信息发送至客户端。本发明客户端将图像上传至云服务器,识别过程和云服务器均在云服务器上进行,云服务器具有强大的计算能力和扩展能力,性能能够满足特征库的要求,使得特征库和识别能力不受用户计算机的限制,从而能够准确的对文本信息进行识别,简单、高效、识别率大大提高。

Description

文本信息识别方法及***
【技术领域】
本发明涉及一种信息处理技术,尤其涉及一种文本信息识别方法及***。
【背景技术】
目前,纸质文档或者图片上的文本信息,不能直接使用,在使用时需要手动输入才可。为替代手动输入,通常采用OCR(Optical Character Recognition光学字符识别)技术对文本信息进行识别。
但是,传统的OCR技术,用户在使用时,需要安装一个庞大的客户端软件,并要求进行识别的计算机硬件具备足够的处理性能。OCR技术主要面对的是纸质材料,识别场景需要考虑很多问题,因此识别率会受到复杂因素的制约。识别率的核心技术指标是特征库。由于用户计算机硬件及处理器性能通常不具备足够要求,识别能力和特征库都受到用户计算机性能的限制,大大降低了OCR技术对文本信息的识别率,不能准确的识别文本信息。
同时,在对文本信息识别后还需要进行纠错。由于纠错的能力取决于特征库的信息量,特征库受到本机性能的限制,从而大大限制了纠错的能力,使得识别率进一步降低。
【发明内容】
有鉴于此,有必要提供一种识别率高的文本信息识别方法。
此外,提供一种识别率高的文本信息识别***。
一种文本信息识别方法,包括如下步骤:
客户端获取包含文本信息的图像,并将所述图像发送至云服务器;
所述云服务器接收所述图像,对所述图像进行处理,提取出所述图像中文本信息的字符;
所述云服务器对所述字符进行处理,获取字符的特征;
所述云服务器根据所述字符的特征,查询设置在所述云服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;
所述云服务器将识别的文本信息发送至客户端。
一种文本信息识别***,包括客户端与云服务器,
所述客户端用于获取包含文本信息的图像,并将所述图像发送至所述云服务器;
所述云服务器包括:
收发服务器,用于接收所述图像;
图像处理服务器,用于对所述图像进行处理,提取出所述图像中文本信息的字符;
字符处理服务器,用于对所述字符进行处理,获取字符特征;
特征库服务器,根据所述字符的特征,查询设置在特征库服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;特征库服务器将识别的文本信息交由收发服务器,收发服务器将识别的文本信息发送至所述客户端。
上述文本信息识别方法及***,客户端将图像上传至云服务器,识别过程和云服务器均在云服务器上进行,云服务器具有强大的计算能力和扩展能力,性能能够满足特征库的要求,使得特征库和识别能力不受用户计算机的限制,从而能够准确的对文本信息进行识别,简单、高效、识别率大大提高。用户只需通过客户端上传图像即可,云服务器便可同时为海量用户提供服务,极大方便了用户使用。
【附图说明】
图1是一个实施例中文本信息识别方法的流程图;
图2是一个实施例中云服务器对图像进行处理,提取出图像中文本信息的字符的方法流程图;
图3是一个实施例中文本信息识别***的结构示意图;
图4是一个实施例中图像处理服务器的结构示意图。
【具体实施方式】
下面结合附图,对本发明的具体实施方式进行详细描述。
图1是一个实施例中文本信息识别方法的流程图。该方法包括:
S10:客户端获取包含文本信息的图像,并将图像发送至云服务器。
该方法所识别的对象为具有文本信息的图像,对图像中的文本信息进行识别。客户端获取的具有文本信息的图像为通过对具有文本信息的纸质或者其他介质文档进行扫描获得,或者为直接的图像,也可以为截取屏幕内容的截屏图像等等。在优选的实施方式中,客户端获取的具有文本信息的图像为即时通讯软件截取屏幕内容所获得的截屏图像,将截图图像中的文本信息识别出,使文本信息可直接使用,无需将截图图像中的文本信息手动输入。客户端通过浏览器上传的方式将图像上传到云服务器。
S20:云服务器接收图像,对图像进行处理,提取出图像中文本信息的字符。
文本信息由多个字符组成,识别文本信息需要将文本信息的每个字符提取出来。云服务器可以为云计算平台,也可以为包含多个计算节点的计算网络或者多个服务器。云服务器具有强大的扩展能力、庞大的计算能力以及海量存储能力,能够同时接收大量客户端传送的图像,同时为海量用户提供服务。
图2是一个实施例中云服务器对图像进行处理,提取出图像中文本信息的字符的方法流程图。该实施例中,云服务器接收图像,对图像进行处理,提取出图像中文本信息的每个字符的步骤具体包括:
S21:对图像以设定亮度值为标准进行二值化处理,将图像变为黑白图像。
通常,图像为彩色,具有多种颜色,文本信息的字符颜色多为亮度值比较暗的颜色,为利于将图像中的文本信息的每个字符提取出来,需要将图像进行二值化处理,将图像变为黑白图像,将字符颜色变为黑色。具体过程为:云服务器将图像中的颜色亮度值大于设定亮度值的转换为白色,反之转换为黑色。设定亮度值可根据需要可进行调整。
但是,由于一些情形下,图像存在背景为黑色,文本信息为白色的情况,即黑底白字的情况。为避免这种情况影响文本信息的识别,进一步,该步骤还包括云服务器对图像背景色进行判断,将背景为黑色、文本信息为白色的图像转换为背景为白色、文本信息为黑色的图像的步骤,即将黑底白字的图像转换为白底黑字的图像。
S22:对黑白图像连续像素区域进行扫描,获取字符区域。
在整个黑白图像中,并非所有区域都为字符,可能存在非字符的区域,这就需要将非字符的区域去除,只获取字符区域。
该实施例中,对黑白图像连续像素区域进行扫描,获取字符区域的步骤具体为:扫描黑白图像黑像素点的连续性,根据黑像素点的连续性去除非字符区域,获取字符区域。
由于字符的像素点具有一定连续性,并且较大的连续块和较小的连续块都不是字符,从而根据黑像素点的连续性能够去除非字符区域,获取字符区域。同时,根据字符本身特征,如像素点的分布密度、规程程度、大小等,还可进一步去除非字符区域。
S23:对字符区域进行断行列操作,将字符提取出来。
考虑到字符区域大都是规则的按照行列排列的,因此根据规则的行列特征,对字符区域进行断行列操作,将单个字符***出来,从而将每个字符提取出来。
该实施例中,对字符区域进行断行列操作,将字符提取出来的步骤具体为:首先对字符区域进行行行分割,再对每行进行列列分割,分割开单个字符,将每个字符提取出来。
此外,为保证图像格式为云服务器进行识别所要求格式,云服务器接收图像,对图像进行处理,提取出图像中文本信息的每个字符的步骤还包括:检测图像的格式,若图像的格式不为要求格式,则将图像的格式转换为要求格式的步骤。在优选的实施方式中,要求格式为BMP格式。
S30:云服务器对字符进行处理,获取字符的特征。
该实施例中,字符的特征为字符的大小以及字符像素点的数量。由于多个字符存在字号的区别,相同字号的字符又存在粗体和细体的区别。为便于识别字符,减少工作量,云服务器需要对每个字符进行处理,具体的处理方法为:对字符进行细化,抽取每个字符的骨架,获取字符的像素点,提取字符的骨架即是用最少的像素点来表示该字符;将每个字符均缩放到设定大小,获取字符的大小。
S40:云服务器根据字符的特征,查询设置在云服务器上的特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息。
特征库预先建立好,并设置在云服务器上的。特征库中包含了字符集中所有的字符,还包含了每个字符的多种变化。例如字体的变化:宋体,楷体等;还有矢量的变化:例如斜体等。还有字体大小的变换等等。由于特征库设置在云服务器上,云服务器具有强大的扩展能力、庞大的计算能力以及海量存储能力,性能能够满足特征库的要求,特征库可以存储有进行匹配识别所需的数据,从而保证每个字符都能准确的进行识别。
该实施例中,云服务器根据字符的特征,查询设置在云服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息的步骤具体为:云服务器根据每个字符的大小及像素点,查找特征库中字符的大小和像素点,进行匹配,确定像素点对应的编码信息,识别每个字符,从而识别出文本信息。在优选的实施方式中,云服务器在多个服务器上对字符进行特征匹配,识别文本信息,提高识别效率及识别率。
S50:云服务器将识别的文本信息发送至客户端。
文本信息在识别后,云服务器将文本信息发送至客户端,供用户直接使用,无需手动输入。
由于对文本信息进行识别时,图像上的某些字符由于模糊等原因,在识别时会造成识别出错,为进一步准确识别文本信息,保证识别率,该方法还包括云服务器对识别的文本信息进行纠错的步骤。具体为:云服务器将文本信息中的词组,与特征库中存储的词组进行匹配,进行纠错,纠错后发送至客户端。
特征库设置在云服务器上,能够存储海量的词组。在纠错时,利用词组的惯用方式,与特征库中存储的海量词组进行匹配,能够判断文本信息中词组是否正确,纠正文本信息中的错误,提高识别的准确率。例如,文本信息中包含“太阳”这个词,“太”字中的这一点由于模糊不清,在识别时被识别为“大”字。纠错时,发现“太阳”才是正确的词组,而非“大阳”,将“大”字纠正为“太”字,从而将“大阳”纠正过来为“太阳”。
此外,还提供一种文本信息识别***。
图3所示是一个实施例中文本信息识别***的结构示意图。该文本信息识别***包括:客户端100以及云服务器200。
客户端100获取包含文本信息的图像,并将图像发送至云服务器200。
该***所识别的对象为具有文本信息的图像,对图像中的文本信息进行识别。客户端100获取的具有文本信息的图像为通过对具有文本信息的纸质或者其他介质文档进行扫描获得,或者为直接的图像,也可以为截取屏幕内容的截屏图像等等。在优选的实施方式中,客户端100获取的具有文本信息的图像为即时通讯软件截取屏幕内容所获得的截屏图像,将截图图像中的文本信息识别出,使文本信息可直接使用,无需将截图图像中的文本信息手动输入。客户端100通过浏览器上传的方式将图像上传到云服务器200。
云服务器200可以为云计算平台,也可以为包含多个计算节点的计算网络或者多个服务器。云服务器200具有强大的扩展能力、庞大的计算能力以及海量存储能力,能够同时接收大量客户端传送的图像,同时为海量用户提供服务。
该实施例中,云服务器200包括:收发服务器210、图像处理服务器220、字符处理服务器230、特征库服务器240以及纠错服务器250。
收发服务器210用于接收具有文本信息的图像,并交于图像处理服务器220。该实施例中,收发服务器210为HTTP(超文本传输协议)服务器。同时,收发服务器210还检测图像的格式,若图像的格式不为要求格式,则将图像的格式转换为要求格式。在优选的实施方式中,要求格式为BMP格式。收发服务器210能同时接收多个客户端100发送的图像。
图像处理服务器220对图像进行处理,提取出图像中文本信息的字符。
文本信息有多个字符组成,识别文本信息需要将文本信息的每个字符提取出来进行识别。
图4是一个实施例中图像处理服务器的结构示意图。该实施例中,图像处理服务器220包括二值化模块221、字符区域获取模块222以及字符提取模块223。
二值化模块221用于对图像以设定亮度值为标准进行二值化处理,将图像变为黑白图像。
通常,图像为彩色,具有多种颜色,文本信息的字符颜色多为亮度值比较暗的颜色,为利于将图像中的文本信息的每个字符提取出来,需要将图像进行二值化处理,将图像变为黑白图像,将字符颜色变为黑色。二值化模块221对图像进行二值化处理,将图像中的颜色亮度值大于设定亮度值的转换为白色,反之转换为黑色。设定亮度值可根据需要可进行调整。
但是,由于一些情形下,图像存在背景为黑色,字符颜色为白色的情况,即黑底白字的情况。为避免这种情况影响文本信息的识别,进一步,二值化模块221还对图像背景色进行判断,将背景为黑色、文本信息为白色的图像转换为背景为白色、文本信息为黑色的图像,即将黑底白字的图像转换为白底黑字的图像。
字符区域获取模块222用于对黑白图像连续像素区域进行扫描,获取字符区域。
在整个黑白图像中,并非所有区域都为字符,可能存在非字符的区域,这就需要将非字符的区域去除,只获取字符区域。
该实施例中,字符区域获取模块222扫描黑白图像黑像素点的连续性,根据黑像素点的连续性去除非字符区域,获取字符区域。
由于字符的像素点具有一定连续性,并且较大的连续块和较小的连续块都不是字符,从而使得字符区域获取模块222根据黑像素点的连续性能够去除非字符区域,获取字符区域。同时,字符区域获取模块222根据字符本身特征,如像素点的分布密度、规程程度、大小等,还可进一步去除非字符区域。
字符提取模块223用于对字符区域进行断行列操作,将字符提取出来。
考虑到字符区域大都是规则的按照行列排列的,因此根据规则的行列特征,对字符区域进行断行列操作,能够将单个字符***出来,从而将每个字符提取出来。
该实施例中,字符提取模块223首先对字符区域进行行行分割,再对每行进行列列分割,分割开单个字符,将每个字符提取出来。
字符处理服务器230用于对字符进行处理,获取字符的特征。
该实施例中,字符的特征为字符的大小以及字符像素点的数量。由于多个字符存在字号的区别,相同字号的字符又存在粗体和细体的区别。为便于识别字符,减少工作量,需要对每个字符进行处理。
字符处理服务器230对字符进行细化,抽取字符的骨架,获取字符的像素点。提取字符的骨架即是用最少的像素点来表示该字符。字符处理服务器230将字符均缩放到设定大小,获取字符的大小。
特征库服务器240根据字符的特征,查询特征库服务器240上设置的特征库241,与特征库241中的字符进行特征匹配,对字符进行识别,进而识别文本信息。
特征库241预先建立好,并设置在特征库服务器240上,即设置在云服务器200上。特征库241中包含了字符集中所有的字符,还包含了每个字符的多种变化。例如字体的变化:宋体,楷体等;还有矢量的变化:例如斜体等。还有字体大小的变换等等。由于特征库241设置在云服务器200上,云服务器200具有强大的扩展能力、庞大的计算能力以及海量存储能力,性能能够满足特征库241的要求,特征库241可以海量存储进行匹配识别所需的数据,从而保证每个字符都能准确的进行识别。
该实施例中,特征库服务器240根据每个字符的大小及像素点,查找特征库241中字符的大小和像素点,进行匹配,确定像素点对应的编码信息,识别每个字符,从而识别出文本信息。在优选的实施方式中,特征库服务器240为具有多个服务器的服务器集群,特征库服务器240在多个服务器上对字符进行特征匹配,识别文本信息,提高识别效率及识别率。
纠错服务器250对识别的文本信息进行纠错。
由于对文本信息进行识别时,图像上的某些字符由于模糊等原因,在识别时会造成识别出错,故还需要进行纠错。纠错服务器250将文本信息中的词组,与特征库241中存储的词组进行匹配,进行纠错。
特征库241设置在云服务器200上,能够存储海量的词组。在纠错时,纠错服务器250利用词组的惯用方式,与特征库241中存储的海量词组进行匹配,能够判断文本信息中词组是否正确,纠正文本信息中的错误,提高识别的准确率。例如,文本信息中包含“太阳”这个词,“太”字中的这一点由于模糊不清,在识别时被识别为“大”字。纠错时,发现“太阳”才是正确的词组,而非“大阳”,将“大”字纠正为“太”字,从而将“大阳”纠正过来为“太阳”。
收发服务器210将识别的文本信息发送至客户端100。
文本信息在识别后,收发服务器210将文本信息发送至客户端100,供用户直接使用,无需手动输入。收发服务器210可同时发送多个客户端100。
上述文本信息识别方法及***,客户端将图像上传至云服务器,识别过程和云服务器均在云服务器上进行,云服务器具有强大的计算能力和扩展能力,性能能够满足特征库的要求,使得特征库和识别能力不受用户计算机的限制,从而能够准确的对文本信息进行识别,简单、高效、识别率大大提高。用户只需通过客户端上传图像即可,云服务器便可同时为海量用户提供服务,极大方便了用户使用。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本信息识别方法,包括如下步骤:
客户端获取包含文本信息的图像,并将所述图像发送至云服务器;
所述云服务器接收所述图像,对所述图像进行处理,提取出所述图像中文本信息的字符;
所述云服务器对所述字符进行处理,获取字符的特征;
所述云服务器根据所述字符的特征,查询设置在所述云服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;
所述云服务器将识别的文本信息发送至客户端。
2.根据权利要求1所述的文本信息识别方法,其特征在于,所述云服务器接收所述图像,对所述图像进行处理,提取出所述图像中的字符的步骤具体为:
对图像以设定亮度值为标准进行二值化处理,将图像变为黑白图像;
对黑白图像连续像素区域进行扫描,获取字符区域;
对字符区域进行断行列操作,将每个字符提取出来。
3.根据权利要求2所述的文本信息识别方法,其特征在于,所述云服务器接收所述图像,对所述图像进行处理,提取出所述图像中的字符的步骤还包括:对图像背景色进行判断,将背景为黑色、文本信息为白色的图像转换为背景为白色,文本信息为黑色的图像的步骤。
4.根据权利要求1所述的文本信息识别方法,其特征在于,所述字符的特征为字符的大小及像素点;所述云服务器对所述字符进行处理,获取字符特征的步骤具体为:
对字符进行细化,抽取字符的骨架,获取字符的像素点;
将字符缩放到设定大小,获取字符的大小。
5.根据权利要求1所述的文本信息识别方法,其特征在于,所述方法还包括所述云服务器对识别的文本信息进行纠错的步骤,具体为:所述云服务器将识别的文本信息中的词组,与特征库中存储的词组进行匹配,进行纠错,纠错后发送至客户端。
6.一种文本信息识别***,其特征在于,包括客户端与云服务器,
所述客户端用于获取包含文本信息的图像,并将所述图像发送至所述云服务器;
所述云服务器包括:
收发服务器,用于接收所述图像;
图像处理服务器,用于对所述图像进行处理,提取出所述图像中文本信息的字符;
字符处理服务器,用于对所述字符进行处理,获取字符特征;
特征库服务器,根据所述字符的特征,查询设置在特征库服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;特征库服务器将识别的文本信息交由收发服务器,收发服务器将识别的文本信息发送至所述客户端。
7.根据权利要求6所述的文本信息识别***,其特征在于,所述图像处理服务器包括:
二值化模块,用于对图像以设定亮度值为标准进行二值化处理,将图像变为黑白图像;
字符区域获取模块,用于对黑白图像连续像素区域进行扫描,获取字符区域;
字符提取模块,用于对字符区域进行断行列操作,将每个字符提取出来。
8.根据权利要求7所述的文本信息识别***,其特征在于,所述二值化模块还用于对图像背景色进行判断,将背景为黑色、文本信息为白色的图像转换为背景为白色、文本信息为黑色的图像。
9.根据权利要求6所述的文本信息识别***,其特征在于,所述字符的特征为字符的大小及像素点;所述字符处理服务器用于对字符进行细化,抽取字符的骨架,获取字符的像素点,所述字符处理服务器将字符缩放到设定大小,获取字符的大小。
10.根据权利要求6所述的文本信息识别***,其特征在于,所述云服务器还包括对识别的文本信息进行纠错的纠错服务器;所述纠错服务器用于将识别的文本信息中的词组与特征库中存储的词组进行匹配,进行纠错,纠错后交由收发服务器发送至所述客户端。
CN2011102199124A 2011-08-02 2011-08-02 文本信息识别方法及*** Pending CN102915437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102199124A CN102915437A (zh) 2011-08-02 2011-08-02 文本信息识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102199124A CN102915437A (zh) 2011-08-02 2011-08-02 文本信息识别方法及***

Publications (1)

Publication Number Publication Date
CN102915437A true CN102915437A (zh) 2013-02-06

Family

ID=47613798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102199124A Pending CN102915437A (zh) 2011-08-02 2011-08-02 文本信息识别方法及***

Country Status (1)

Country Link
CN (1) CN102915437A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248705A (zh) * 2013-05-20 2013-08-14 北京智谷睿拓技术服务有限公司 服务器、客户端及视频处理方法
CN103279754A (zh) * 2013-06-25 2013-09-04 觅林网络科技(上海)有限公司 名片云识别方法及***
CN104090878A (zh) * 2013-07-04 2014-10-08 腾讯科技(深圳)有限公司 一种多媒体查找方法、终端、服务器及***
CN104200204A (zh) * 2014-09-02 2014-12-10 福建富士通信息软件有限公司 一种图片处理装置及方法
CN104240068A (zh) * 2014-08-25 2014-12-24 小米科技有限责任公司 提醒事件创建方法和装置
CN104598902A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种用于识别截图的方法、装置和浏览器
CN104933429A (zh) * 2015-06-01 2015-09-23 深圳市诺比邻科技有限公司 图像中信息提取的方法及装置
CN105335163A (zh) * 2015-11-30 2016-02-17 上海斐讯数据通信技术有限公司 软件代码解读方法与***
CN105718855A (zh) * 2015-12-03 2016-06-29 王晓龙 一种在线作文测评方法及其***
CN106412008A (zh) * 2016-08-26 2017-02-15 乐视控股(北京)有限公司 标识纠错方法及装置
CN107277602A (zh) * 2017-07-26 2017-10-20 联想(北京)有限公司 信息获取方法及电子设备
CN107451582A (zh) * 2017-07-13 2017-12-08 安徽声讯信息技术有限公司 一种图文识别***及其识别方法
CN110032503A (zh) * 2018-11-05 2019-07-19 阿里巴巴集团控股有限公司 基于ui自动化和ocr的数据处理***、方法、设备和装置
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110647878A (zh) * 2019-08-05 2020-01-03 紫光西部数据(南京)有限公司 基于截屏图片的数据处理方法
CN112818987A (zh) * 2021-01-29 2021-05-18 浙江嘉科电子有限公司 一种公交电子站牌屏显内容识别纠正方法及***
CN113065537A (zh) * 2021-06-03 2021-07-02 江苏联著实业股份有限公司 一种基于模型优化的ocr文件格式转化方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632820A (zh) * 2004-12-30 2005-06-29 北京中星微电子有限公司 一种移动终端的光符识别中分区域判定背景色的方法
CN101782899A (zh) * 2009-01-19 2010-07-21 李茂武 中译平台
CN101807241A (zh) * 2010-03-17 2010-08-18 四川创立信息科技有限责任公司 基于云计算的移动终端条码识别方法
CN101976148A (zh) * 2010-10-28 2011-02-16 广东开心信息技术有限公司 一种手写输入***和方法
CN102122360A (zh) * 2011-03-01 2011-07-13 华南理工大学 一种基于云计算的移动终端手写识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632820A (zh) * 2004-12-30 2005-06-29 北京中星微电子有限公司 一种移动终端的光符识别中分区域判定背景色的方法
CN101782899A (zh) * 2009-01-19 2010-07-21 李茂武 中译平台
CN101807241A (zh) * 2010-03-17 2010-08-18 四川创立信息科技有限责任公司 基于云计算的移动终端条码识别方法
CN101976148A (zh) * 2010-10-28 2011-02-16 广东开心信息技术有限公司 一种手写输入***和方法
CN102122360A (zh) * 2011-03-01 2011-07-13 华南理工大学 一种基于云计算的移动终端手写识别方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248705A (zh) * 2013-05-20 2013-08-14 北京智谷睿拓技术服务有限公司 服务器、客户端及视频处理方法
CN103279754A (zh) * 2013-06-25 2013-09-04 觅林网络科技(上海)有限公司 名片云识别方法及***
CN104090878A (zh) * 2013-07-04 2014-10-08 腾讯科技(深圳)有限公司 一种多媒体查找方法、终端、服务器及***
WO2015000433A1 (zh) * 2013-07-04 2015-01-08 腾讯科技(深圳)有限公司 一种多媒体查找方法、终端、服务器及***
CN104090878B (zh) * 2013-07-04 2017-09-05 腾讯科技(深圳)有限公司 一种多媒体查找方法、终端、服务器及***
CN104240068A (zh) * 2014-08-25 2014-12-24 小米科技有限责任公司 提醒事件创建方法和装置
CN104200204B (zh) * 2014-09-02 2017-10-03 福建富士通信息软件有限公司 一种图片处理装置及方法
CN104200204A (zh) * 2014-09-02 2014-12-10 福建富士通信息软件有限公司 一种图片处理装置及方法
CN104598902A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种用于识别截图的方法、装置和浏览器
CN104933429A (zh) * 2015-06-01 2015-09-23 深圳市诺比邻科技有限公司 图像中信息提取的方法及装置
CN105335163A (zh) * 2015-11-30 2016-02-17 上海斐讯数据通信技术有限公司 软件代码解读方法与***
CN105718855A (zh) * 2015-12-03 2016-06-29 王晓龙 一种在线作文测评方法及其***
CN106412008A (zh) * 2016-08-26 2017-02-15 乐视控股(北京)有限公司 标识纠错方法及装置
CN107451582A (zh) * 2017-07-13 2017-12-08 安徽声讯信息技术有限公司 一种图文识别***及其识别方法
CN107277602A (zh) * 2017-07-26 2017-10-20 联想(北京)有限公司 信息获取方法及电子设备
CN107277602B (zh) * 2017-07-26 2020-05-26 联想(北京)有限公司 信息获取方法及电子设备
CN110032503A (zh) * 2018-11-05 2019-07-19 阿里巴巴集团控股有限公司 基于ui自动化和ocr的数据处理***、方法、设备和装置
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110647878A (zh) * 2019-08-05 2020-01-03 紫光西部数据(南京)有限公司 基于截屏图片的数据处理方法
CN112818987A (zh) * 2021-01-29 2021-05-18 浙江嘉科电子有限公司 一种公交电子站牌屏显内容识别纠正方法及***
CN112818987B (zh) * 2021-01-29 2024-05-14 浙江嘉科电子有限公司 一种公交电子站牌屏显内容识别纠正方法及***
CN113065537A (zh) * 2021-06-03 2021-07-02 江苏联著实业股份有限公司 一种基于模型优化的ocr文件格式转化方法及***

Similar Documents

Publication Publication Date Title
CN102915437A (zh) 文本信息识别方法及***
US8355578B2 (en) Image processing apparatus, image processing method, and storage medium
US8112706B2 (en) Information processing apparatus and method
EP1588293B1 (en) Image processing method, system, program, program storage medium and information processing apparatus
CN100589098C (zh) 一种变异关键词的提取方法
CN100517372C (zh) 自动创建索引的图像形成装置及其方法
US20120011429A1 (en) Image processing apparatus and image processing method
CN103065146A (zh) 用于电力通信机房哑设备标识牌的文字识别方法
CN107302645B (zh) 一种图像处理装置及其图像处理方法
US20050286805A1 (en) Image processing apparatus, control method therefor, and program
US8514462B2 (en) Processing document image including caption region
CN103577818A (zh) 一种图像文字识别的方法和装置
CN110765740B (zh) 一种基于dom树的全类型文本替换方法、***、装置及存储介质
CN113901933B (zh) 基于人工智能的电子***信息抽取方法、装置及设备
JP2005352696A (ja) 画像処理装置及びその制御方法、プログラム
Isheawy et al. Optical character recognition (OCR) system
US8195626B1 (en) Compressing token-based files for transfer and reconstruction
CN201222256Y (zh) 一种数字化集成加工的档案***
CN101751512A (zh) 应用于通讯装置的食谱管理***及方法
CN103455786A (zh) 一种图像识别方法和***
CN111539417A (zh) 一种基于深度神经网络的文本识别训练优化方法
CN102682457A (zh) 一种对平面媒体图像进行适应屏幕阅读的重排方法
CN110717397A (zh) 一种基于手机相机的在线翻译***
CN114677700A (zh) 身份标识的识别方法和装置、存储介质及电子设备
CN110781185B (zh) 一种文本文件内容像素化转换及还原方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130206

RJ01 Rejection of invention patent application after publication