CN109726712A

CN109726712A - 文字识别方法、装置及存储介质、服务器

Info

Publication number: CN109726712A
Application number: CN201811347763.8A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-05-07

Abstract

本发明涉及图像检测、图像处理技术领域，本申请实施例提供的一种文字识别方法，包括：响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。在本申请中通过基于用户的截图区域生成截图图像，对用户截图图像中的文字进行识别，方便用户对该文字进行其他操作，如粘贴、复制，提高了文字识别的应用场景，特别是职场办公中，减少手动记录频率，提高文字转换速率以及正确性，进一步提高用户的工作效率。

Description

文字识别方法、装置及存储介质、服务器

技术领域

本发明涉及图像检测、图像处理技术领域，具体涉及一种文字识别方法、装置及存储介质、服务器。

背景技术

用户在使用电子产品浏览网络页面、文档页面、产品界面、视频过程中，经常会遇到有些在其中的文字无法复制，或者文字处于图像或视频中而无法将文字提取出来。例如，在查看网络中的公开课视频的情景下，对公开课视频中的文字内容进行记录或做笔记，需要手动录视频页面显示的文字数据内容，数据获取的效率非常低，导致文字识别效率低且识别不准确的问题。然而，如果能够将网络页面、文档页面、产品界面、视频识别出视频中出现的文字后，有助于用户进行快速的检索或者对文字进行编辑等。因此，如何识别图像中的文字受到社会各界的广泛关注。

发明内容

为克服以上技术问题，特别是文字识别效率低且识别不准确的问题，特提出以下技术方案：

本发明实施例提供的一种文字识别方法，包括：

响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；

对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；

基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。

可选地，所述对所述截图图像进行过滤，得到待识别图像，包括：

对所述截图图像进行灰度处理，获得灰度图，所述灰度图为所述待识别图像。

可选地，所述基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，包括：

依据所述深度卷积神经网络算法分别提取所述待识别图像和所述第一子图像中的文字；

将从所述待识别图像和所述第一子图像中提取出的文字通过注意力机制获得所述文字。

可选地，所述将所述待识别图像划分为若干个区域，获得第一子图像之后，包括：

判断所述第一子图像中是否存在位于预设灰度值阈值内的灰度值；

当所述第一子图像中不存在位于预设灰度值阈值内的所述灰度值时，将所述第一子图像删除。

将相邻区域的两所述第一子图像拼凑为一张图像，获得第二子图像；

依据所述深度卷积神经网络算法分别提取所述待识别图像、所述第一子图像、所述第二子图像中的文字；

将从所述待识别图像、所述第一子图像、所述第二子图像中提取出的文字通过注意力机制获得所述文字。

可选地，所述将所述文字以可编辑的形式发送给用户，包括：

将所述文字与字模库中文字进行对比，找到与所述文字最为接近的字模文字；

将所述字模文字以可编辑的形式发送给用户。

可选地，所述基于深度卷积神经网络算法和注意力机制提取所述待识别图像中的文字，包括：

若基于深度卷积神经网络算法和注意力机制识别出所述待识别图像中包含表情符号，根据预置的表情符号与文字的关联关系，获得表情符号关联的文字。

本发明实施例还提供了一种文字识别装置，包括：

截图模块，用于响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；

过滤模块，用于对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；

发送模块，用于基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现任一技术方案所述的文字识别方法。

本发明实施例还提供了一种服务器，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行根据任一技术方案所述的文字识别方法的步骤。

本发明与现有技术相比，具有以下有益效果：

1、本申请实施例提供的一种文字识别方法，包括：响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。方便职场办公，在用户对邮件、聊天工具截图的文字转换成可编辑的文字，便于用户对文字进行编辑或者其他操作，方便用户清晰地描述问题。对于不同的应用需要，截图区域可包括多种不同格式的图像，例如，截图区域可包括网页区域、视频区域、演示文稿PPT、聊天页面，以及只能通过下载才能获取的文档等，截图区域也可以根据应用需要选取不同的形式。根据截图区域生成截图图像，然后对该图像进行过滤处理，去除图像的属性信息，例如对图像去躁、将图像进行灰度处理，对图像中的部分或者全部像素值进行调整等，得到待识别的图像，使得图像对应的数据更为简单，避免噪声或者像素差别影响文字的识别，并将该前述的待识别图像上传至服务器。通过对图像处理之后，识别图像中的文字得到可编辑文字，服务器将该可编辑文字发送给用户(即将识别出的文字以可编辑的形式发送给用户)，方便用户对该部分文字进行其他操作。

2、本申请实施例提供的一种文字识别方法，通过深度卷积神经算法识别文字，能够实现各种不同形式截图的文字识别，可方便用户获取多种截图中的文字内容，其不仅提高了文字识别的速度，还提高了文字识别的准确率。

3、本发明实施例提供的一种文字识别方法，所述基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，包括：依据所述深度卷积神经网络算法分别提取所述待识别图像和所述第一子图像中的文字；将从所述待识别图像和所述第一子图像中提取出的文字通过注意力机制获得所述文字。将子图像输入深度卷积神经算法中，得到文字的局部特征，将待识别图像输入深度卷积神经算法中，得到文字的全局特征，局部特征和全局特征为文字的笔画，其中深度卷积神经网络能够提取子图像中不同尺度的不同特征，进而能够更为充分的表征文字，使得提取出的特征也更为准确。然后，将局部特征和全局特征通过注意力机制进行融合，再次得到全局特征(待识别图像中的文字)，为了提高文字识别的准确率，可以基于卷积神经算法提取整个待识别图像中文字的局部特征和全局特征，将文字的局部特征和全局特征通过注意力机制进行融合，可以得到更为准确的文字，提高文字识别的正确率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明文字识别方法的典型实施例中一种实施方式的流程示意图；

图2为本发明文字识别方法的典型实施例中又一种实施方式的流程示意图；

图3为本发明文字识别装置的典型实施例的结构示意图；

图4为本发明服务器的一实施例结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本领域技术人员应当理解，本发明所称的“应用”、“应用程序”、“应用软件”以及类似表述的概念，是业内技术人员所公知的相同概念，是指由一系列计算机指令及相关数据资源有机构造的适于电子运行的计算机软件。除非特别指定，这种命名本身不受编程语言种类、级别，也不受其赖以运行的操作***或平台所限制。理所当然地，此类概念也不受任何形式的终端所限制。

本申请实施例提供的一种文字识别方法，如图1所示，包括：S100、S200、S300。

S100：响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；

S200：对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；

S300：基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。

为了方便职场办公，在用户对邮件、聊天工具截图的文字转换成可编辑的文字，便于用户对文字进行编辑或者其他操作，方便用户清晰地描述问题。因此，本申请的实施例中，截图请求可以通过点击图标的形式进行发送，在点击图标后，可以选择需要识别的截图区域，截图请求还可以通过用户通过操作快捷键的方式进行发送，例如移动终端固定的一个或者多个键同时操作进行截图；还可以是计算机上截图按键等。对于不同的应用需要，截图区域可包括多种不同格式的图像，例如，截图区域可包括网页区域、视频区域、演示文稿PPT、聊天页面，以及只能通过下载才能获取的文档等。截图区域也可以根据应用需要选取不同的形式，例如，截图区域可包括屏幕区域、可视页面区域或完整页面区域。还可以在发送出截图请求后，在页面上形成一框选区域，用户可以手动调整框选区域的大小，以使得截图区域能够满足用户需求。另外，为了截取到较多的内容，在用户将截图区域的边框设置到终端界面的靠近终端边框的指定区域且持续进行往终端界面边框移动时，将当前页面进行缩放，以便于截图区域具有更多的内容，为了便于识别页面中的文字，页面缩放的大小可以为研发人员指定的，也可以通过界面的分辨率进行确定，还可以在移动操作取消时，确定取消时页面缩放的大小。

在前述的基础上，根据截图区域生成截图图像，如canvas图像、bmp图像、jpg图像、png图像等。例如，可根据截图区域利用chrome extension api中的chrome.tabs.captureVisibleTab方法生成canvas图像。然后通过canvas.toDataURL方法将生成的canvas图像转换为base64格式的图像，然后对该图像进行过滤处理，去除图像的属性信息，例如对图像去躁、将图像进行灰度处理，对图像中的部分或者全部像素值进行调整等，得到待识别的图像，使得图像对应的数据更为简单，避免噪声或者像素差别影响文字的识别，并将该前述的待识别图像上传至服务器。服务器接收待识别图像，并在服务器上利用深度卷积神经网络算法提取待识别图像中的文字，文字识别算法可以是光学字符识(Optical Character Recognition，OCR)、也可以是深度卷积神经算法等，在本申请的实施例中，文字识别算法优选为深度卷积神经算法。通过前述识别之后得到的文字为可编辑文字，服务器将该可编辑文字发送给用户(即将识别出的文字以可编辑的形式发送给用户)，方便用户对该部分文字进行其他操作。通过卷积神经算法识别文字，能够实现各种不同形式截图的文字识别，可方便用户获取多种截图中的文字内容，其不仅提高了文字识别的速度，还提高了文字识别的准确率。

在本申请的实施例中，为了避免图像中其他的数据影响文字的识别，提高文字识别正确率，对截图图像进行灰度处理，获得灰度图，该灰度图即为前述的待识别图像。图像灰度处理可以将使得图像中的像素更为简单。可选地，在本申请的实施例中，由于图像背景和文字之间的像素具有一定的差别。常规的，图像背景的像素值低于文字部分的像素值，也可能是图像背景的像素值高于文字部分的像素值，进而可以通过区别像素值从图像中提取文字，避免背景影响图像中文字的提取。灰度图还可以避免图像中其他颜色分量对文字提取的影响，特别是图像中文字具有色彩等，在没有色彩分量的情况下，在计算过程中则可以仅基于亮度信息进行计算，避免对多色彩分量计算匹配等，大幅度降低了文字提取过程中的计算量，提高文字计算的速度。

可选地，在其中一种实施方式中，如图2所示，所述基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，包括：S310、S320。

S310：依据所述深度卷积神经网络算法分别提取所述待识别图像和所述第一子图像中的文字；

S320：将从所述待识别图像和所述第一子图像中提取出的文字通过注意力机制获得所述文字。

为了提高文字识别的准确率，可以基于深度卷积神经算法提取整个待识别图像中文字的局部特征和全局特征，将文字的局部特征和全局特征通过注意力机制进行融合，可以得到更为准确的文字，提高文字识别的正确率。为了实现前述效果，在本申请中，将待识别图像划分为若干个区域获得第一子图像，每一个区域对应一幅子图像。将子图像输入卷积神经算法中，得到文字的局部特征，将待识别图像输入卷积神经算法中，得到文字的全局特征，局部特征和全局特征为文字的笔画。然后，将局部特征和全局特征通过注意力机制进行融合，再次得到全局特征(待识别图像中的文字)。需要说明的是，第一子图像的大小可以基于原始图片大小，任意划分而确定。

当所述第一子图像中不存在位于所述预设灰度值阈值内的所述灰度值时，将所述第一子图像删除。

为了降低文字识别的计算量，可以将不包括文字特征的第一子图像删除，以避免对该图像的计算，提高计算的速率、缩短计算的时间。可以将第一子图像的灰度值与预设灰度阈值内的灰度值进行对比判断，当所述第一子图像中不存在位于预设灰度值阈值内的所述灰度值时，说明该第一子图像中不存在文字特征，为了降低计算量，则可以将所述第一子图像删除。可选地，预设灰度阈值可以依据当前图像的情况确定。例如，在图像处理为灰度图之后，文字的灰度值均较为接近且连续，其中文字灰度值间隔值不超过5，则可以将连续且灰度值间隔小于5的灰度值确定为文字的灰度值，其连续范围内的灰度值则可以确定为预设灰度阈值。在某一灰度值与前述连续的灰度值间隔大于5时，则该灰度值可以判断为背景的灰度。

如前所述为了提高文字提取的争取率，便于用户对文字进行操作，还可以将相邻的两第一子图像拼凑为一张子图像，获得第二子图像，进而在通过卷积神经算法提取文字特征时，可以保证文字特征的连贯性。因此，将第一子图像、第二子图像输入深度卷积神经算法中，得到文字的局部特征，将待识别图像输入深度卷积神经算法中，得到文字的全局特征，局部特征和全局特征为文字的笔画。然后，将局部特征和全局特征通过注意力机制进行融合，再次得到全局特征(待识别图像中的文字)。

将所述字模文字以可编辑的形式发送给用户。

在前述的基础上确定了文字之后，为了确保文字的准确性，还可以将通过提取出的文字与字模库中的文字进行对比，找出与其最为接近的文字，如有100％一致的文字，则可将该文字发送给用户。若找到文字低于100％时，则将最为接近的文字发给用户。还可以将全局特征输入softmax分类器，所得的概率值最大的对应的文字即确定为从待识别图像中识别的文字。其中，softmax分类器预设有文字库，可以包括：包括4500个常用汉字、0-9这上0个数字、a-z。这26个小写字母和A-G这26个大写字母。当然，常用汉字的数量可以更多。为了避免文字比对的数量，即降低文字对比的计算量，可以先去除将从待识别图像中提取出的文字，例如，提取出的文字为“倾斜的华文行楷”时，为了提高文字对比准确性，使得文字尽可以和单一的字模库中的文字进行对比，将“倾斜的华文行楷”去除，可以将文字属性替换问“不倾斜的宋体”，在对比文字时，则可以仅对宋体字模库中的文字进行对比，降低了文字对比的计算量。

可选地，结合前文所述，为了使得提高文字的转换范围，在图片中包括表情符号时，为了能够进行转换，可以预设值表情符号与文字的关联关系进而可以基于表情符号查找到对应的文字。因此，在基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，包括：若识别出所述待识别图像中包含表情符号，根据预置的表情符号与文字的关联关系，获得表情符号关联的文字。进一步的，为了方便用户对表情符号进行操作，该发送的文字可以替换为可编辑的表情符号，完成从截图表情符号到可编辑的表情符号的转变。表情符号与文字不是一一对应关系，一个文字可能对应多种表情符号，比如笑脸可能有多少表情，从而使得使用者可以换着另一表情给对方。因此，将所述文字以可编辑的形式发送给用户，包括：若所述文字由表情符号识别得到，根据预置的表情符号与文字的关联关系，获取所述文字的可编辑形式的表情符号，向用户发送可编辑形式的表情符号。表情符号与文字的关联关系为，若干个表情符号与一个文字关联，基于用户在终端上的操作确定文字对应的表情符号；获取所述文字的可编辑形式的表情符号，包括：显示若干个与所述文字关联的表情符号，根据用户输入获取其中一个符号。

本发明实施例还提供了一种文字识别装置，在其中一种实施方式中，如图3所示，包括：截图模块100、过滤模块200、发送模块300。

截图模块100，用于响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；

过滤模块200，用于对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；

发送模块300，用于基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。

进一步地，如图3所示，本发明实施例中提供的一种文字识别装置还包括：灰度图获得单元210，对所述截图图像进行灰度处理，获得灰度图，所述灰度图为所述待识别图像。第一文字提取单元310，用于依据所述深度卷积神经网络算法分别提取所述待识别图像和所述第一子图像中的文字；第一注意力机制计算单元320，用于将从所述待识别图像和所述第一子图像中提取出的文字通过注意力机制获得所述文字。判断单元220，用于判断所述第一子图像中是否存在位于预设灰度值阈值内的灰度值；删除单元230，用于当所述第一子图像中不存在位于预设灰度值阈值内的所述灰度值时，将所述第一子图像删除。第二子图像获得单元340，用于将相邻区域的两所述第一子图像拼凑为一张图像，获得第二子图像；第二文字提取单元350，用于依据所述深度卷积神经网络算法分别提取所述待识别图像、所述第一子图像、所述第二子图像中的文字；第二注意力机制计算单元360，用于将从所述待识别图像、所述第一子图像、所述第二子图像中提取出的文字通过注意力机制获得所述文字。对比单元370，用于将所述文字与字模库中文字进行对比，找到与所述文字最为接近的字模文字；文字发送单元380，用于将所述字模文字以可编辑的形式发送给用户；表情符号识别单元400，用于若基于注意力模型的深度卷积神经网络识别出所述待识别图像中包含表情符号，根据预置的表情符号与文字的关联关系，获得表情符号关联的文字。

本发明实施例提供的一种文字识别装置可以实现上述文字识别方法的实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明实施例提供的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现任一项技术方案所述的文字识别方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSS Memory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备(例如，计算机、手机)以能够读的形式存储或传输信息的任何介质，可以是只读存储器，磁盘或光盘等。

本发明实施例提供的一种计算机可读存储介质，可实现上述文字识别方法的实施例，在本申请中通过对用户截图中的文字进行识别，方便用户对该文字进行其他操作，如粘贴、复制，提高了文字识别的应用场景，特别是职场办公中，减少手动记录的频率，提高文字转换的速率以及正确性，进一步提高用户的工作效率；本申请实施例提供的一种文字识别方法，包括：响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。为了方便职场办公，在用户对邮件、聊天工具截图的文字转换成可编辑的文字，便于用户对文字进行编辑或者其他操作，方便用户清晰地描述问题。因此，本申请的实施例中，截图请求可以通过点击图标的形式进行发送，在点击图标后，可以选择需要识别的截图区域，截图请求还可以通过用户通过操作快捷键的方式进行发送，例如移动终端固定的一个或者多个键同时操作进行截图；还可以是计算机上截图按键等。对于不同的应用需要，截图区域可包括多种不同格式的图像，例如，截图区域可包括网页区域、视频区域、演示文稿PPT、聊天页面，以及只能通过下载才能获取的文档等。截图区域也可以根据应用需要选取不同的形式，例如，截图区域可包括屏幕区域、可视页面区域或完整页面区域。还可以在发送出截图请求后，在页面上形成一框选区域，用户可以手动调整框选区域的大小，以使得截图区域能够满足用户需求。另外，为了截取到较多的内容，在用户将截图区域的边框设置到终端界面的靠近终端边框的指定区域且持续进行往终端界面边框移动时，将当前页面进行缩放，以便于截图区域具有更多的内容，为了便于识别页面中的文字，页面缩放的大小可以为研发人员指定的，也可以通过界面的分辨率进行确定，还可以在移动操作取消时，确定取消时页面缩放的大小。在前述的基础上，根据截图区域生成截图图像，然后对该图像进行过滤处理，去除图像的属性信息，例如对图像去噪、将图像进行灰度处理，对图像中的部分或者全部像素值进行调整等，得到待识别的图像，使得图像对应的数据更为简单，避免噪声或者像素差别影响文字的识别，并将该前述的待识别图像上传至服务器。服务器接收待识别图像，并在服务器上利用深度卷积神经网络算法提取待识别图像中的文字，如光学字符识(Optical Character Recognition，OCR)、深度卷积神经算法等。通过前述识别之后得到的文字为可编辑文字，服务器将该可编辑文字发送给用户(即将识别出的文字以可编辑的形式发送给用户)，方便用户对该部分文字进行其他操作。通过深度卷积神经算法识别文字，能够实现各种不同形式截图的文字识别，可方便用户获取多种截图中的文字内容，其不仅提高了文字识别的速度，还提高了文字识别的准确率。此外，在又一种实施例中，本发明还提供一种服务器，如图4所示，所述服务器处理器503、存储器505、输入单元507以及显示单元509等器件。本领域技术人员可以理解，图4示出的结构器件并不构成对所有服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器505可用于存储应用程序501以及各功能模块，处理器503运行存储在存储器505的应用程序501，从而执行设备的各种功能应用以及数据处理。存储器505可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器505只作为例子而非作为限定。

输入单元507用于接收信号的输入，以及用户输入的文字。输入单元507可包括触控面板以及其它输入设备。触控面板可收集客户在其上或附近的触摸操作(比如客户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元509可用于显示客户输入的信息或提供给客户的信息以及计算机设备的各种菜单。显示单元509可采用液晶显示器、有机发光二极管等形式。处理器503是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器503内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。图4中所示的一个或多个处理器503能够执行、实现图3中所示的截图模块100的功能、过滤模块200的功能、发送模块300的功能、灰度图获得单元210的功能、第一文字提取单元310的功能、第一注意力机制计算单元320的功能、判断单元220的功能、删除单元240的功能、第二子图像获得单元340的功能、第二文字提取单元350的功能、第二注意力机制计算单元360的功能、对比单元370的功能、文字发送单元380的功能、表情符号识别单元400的功能。

在一种实施方式中，所述服务器包括一个或多个处理器503，以及一个或多个存储器505，一个或多个应用程序501，其中所述一个或多个应用程序501被存储在存储器505中并被配置为由所述一个或多个处理器503执行，所述一个或多个应用程序301配置用于执行以上实施例所述的文字识别方法。

本发明实施例提供的一种服务器，可实现上述文字识别方法的实施例，在本申请中通过对用户截图中的文字进行识别，方便用户对该文字进行其他操作，如粘贴、复制，提高了文字识别的应用场景，特别是职场办公中，减少手动记录的频率，提高文字转换的速率以及正确性，进一步提高用户的工作效率；本申请实施例提供的一种文字识别方法，包括：响应于截图请求，获取所述截图请求对应的截图区域，根据所述截图区域生成截图图像；对所述截图图像进行过滤，得到待识别图像，将所述待识别图像划分为若干个区域，获得第一子图像；基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，将所述文字以可编辑的形式发送给用户。为了方便职场办公，在用户对邮件、聊天工具截图的文字转换成可编辑的文字，便于用户对文字进行编辑或者其他操作，方便用户清晰地描述问题。因此，本申请的实施例中，截图请求可以通过点击图标的形式进行发送，在点击图标后，可以选择需要识别的截图区域，截图请求还可以通过用户通过操作快捷键的方式进行发送，例如移动终端固定的一个或者多个键同时操作进行截图；还可以是计算机上截图按键等。对于不同的应用需要，截图区域可包括多种不同格式的图像，例如，截图区域可包括网页区域、视频区域、演示文稿PPT、聊天页面，以及只能通过下载才能获取的文档等。截图区域也可以根据应用需要选取不同的形式，例如，截图区域可包括屏幕区域、可视页面区域或完整页面区域。还可以在发送出截图请求后，在页面上形成一框选区域，用户可以手动调整框选区域的大小，以使得截图区域能够满足用户需求。另外，为了截取到较多的内容，在用户将截图区域的边框设置到终端界面的靠近终端边框的指定区域且持续进行往终端界面边框移动时，将当前页面进行缩放，以便于截图区域具有更多的内容，为了便于识别页面中的文字，页面缩放的大小可以为研发人员指定的，也可以通过界面的分辨率进行确定，还可以在移动操作取消时，确定取消时页面缩放的大小。在前述的基础上，根据截图区域生成截图图像，然后对该图像进行过滤处理，去除图像的属性信息，例如对图像去躁、将图像进行灰度处理，对图像中的部分或者全部像素值进行调整等，得到待识别的图像，使得图像对应的数据更为简单，避免噪声或者像素差别影响文字的识别，并将该前述的待识别图像上传至服务器。服务器接收待识别图像，并在服务器上利用深度卷积神经网络算法提取待识别图像中的文字，如光学字符识(Optical Character Recognition，OCR)、深度卷积神经算法等。通过前述识别之后得到的文字为可编辑文字，服务器将该可编辑文字发送给用户(即将识别出的文字以可编辑的形式发送给用户)，方便用户对该部分文字进行其他操作。通过深度卷积神经算法识别文字，能够实现各种不同形式截图的文字识别，可方便用户获取多种截图中的文字内容，其不仅提高了文字识别的速度，还提高了文字识别的准确率。

本发明实施例提供的服务器可以实现上述提供的文字识别方法的实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文字识别方法，其特征在于，包括：

2.根据权利要求1所述的文字识别方法，其特征在于，所述对所述截图图像进行过滤，得到待识别图像，包括：

3.根据权利要求1所述的文字识别方法，其特征在于，所述基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，包括：

4.根据权利要求3所述的文字识别方法，其特征在于，所述将所述待识别图像划分为若干个区域，获得第一子图像之后，包括：

5.根据权利要求4所述的文字识别方法，其特征在于，所述基于注意力模型的深度卷积神经网络算法提取各所述第一子图像中的文字，包括：

6.根据权利要求1至5任一项所述的文字识别方法，其特征在于，所述将所述文字以可编辑的形式发送给用户，包括：

将所述字模文字以可编辑的形式发送给用户。

7.根据权利要求1至5任一项所述的文字识别方法，其特征在于，所述基于深度卷积神经网络算法和注意力机制提取所述待识别图像中的文字，包括：

8.一种文字识别装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1至7任一项所述的文字识别方法。

10.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行根据权利要求1至7任一项所述的文字识别方法的步骤。