CN108537283A

CN108537283A - 一种图像分类方法及卷积神经网络生成方法

Info

Publication number: CN108537283A
Application number: CN201810331479.5A
Authority: CN
Inventors: 林煜; 余清洲; 许清泉; 苏晋展; 张伟
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-14

Abstract

本发明公开了一种图像分类方法、用于对图像进行分类处理的卷积神经网络生成方法、用于对图像中的文字进行识别的卷积神经网络生成方法、移动终端及计算设备，所述图像分类方法适于在移动终端中执行，所述移动终端包括图像库，所述图像库中存储有多张图像，所述图像分类方法包括步骤：对图像库中的每一张图像，对该图像进行分类处理以获取其对应的类别；若所述类别为文本类，则对该图像进行文字识别，以提取出该图像所包含的文本信息；将所述文本信息与该图像的图像存储路径及图像名称进行关联存储。

Description

一种图像分类方法及卷积神经网络生成方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像分类方法、用于对图像进行分类处理的卷积神经网络生成方法、用于对图像中的文字进行识别的卷积神经网络生成方法、移动终端及计算设备。

背景技术

随着硬件技术的不断发展，越来越多的人开始使用如智能手机、平板电脑等移动终端进行照片拍摄并存储，以记录下珍贵的瞬间。当移动终端中所保存的照片数量越来越多时，由于照片繁多，又都分属不同的类别，常常会出现无法及时寻找出某一张照片的情况，给用户带来较差的体验。

现有的图像分类算法，通常是将移动终端的相册里的图像分为各个类别，按照类别进行图像管理，但不会再进行进一步操作。这样的处理方式虽然方便用于根据类别来查找图像，但如果要快速定位到某一张具有特定信息的图像则无法实现，比如说用户对一张图像上面的部分文字有印象，但其他内容却不记得，此时就难以通过用户自身对该图像的类别认知，来迅速且准确地获取到所需图像及图像中所包含的信息。因此，需要提供一种新的图像分类方法来改进上述处理过程。

发明内容

为此，本发明提供一种图像分类方案，并提供了用于对图像进行分类处理的卷积神经网络生成方案和用于对图像中的文字进行识别的卷积神经网络生成方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种图像分类方法，适于在移动终端中执行，移动终端包括图像库，图像库中存储有多张图像，该方法包括如下步骤：首先，对图像库中的每一张图像，对该图像进行分类处理以获取其对应的类别；若类别为文本类，则对该图像进行文字识别，以提取出该图像所包含的文本信息；将文本信息与该图像的图像存储路径及图像名称进行关联存储。

可选地，在根据本发明的图像分类方法中，当接收到用户键入的检索词时，该方法还包括：根据检索词查找是否存在与其相同或相似的文本信息；若存在，则获取该文本信息关联的图像存储路径；根据该图像存储路径查找到其对应的图像，将该图像和该文本信息向用户展示。

可选地，在根据本发明的图像分类方法中，对该图像进行文字识别，以提取出该图像所包含的文本信息的步骤包括：获取该图像所包含的各单个文字对应的文字图像区域；分别对各文字图像区域进行文字识别，以确定各文字图像区域所包含的文字；基于各文字生成该图像对应的文本信息。

可选地，在根据本发明的图像分类方法中，基于各文字生成该图像对应的文本信息的步骤包括：获取该图像中各文字图像区域之间的位置关系；根据位置关系，对各文字图像区域对应的文字进行组合，以生成该图像对应的文本信息。

可选地，在根据本发明的图像分类方法中，移动终端中存储有用于对图像进行分类处理的、训练好的第一卷积神经网络，对该图像进行分类处理以获取其对应的图像类型的步骤包括：将该图像输入到训练好的第一卷积神经网络中进行图像分类；根据该第一卷积神经网络的输出确定该图像的类别。

可选地，在根据本发明的图像分类方法中，移动终端中存储有用于对图像中的文字进行识别的、训练好的第二卷积神经网络，对该图像进行文字识别，以提取出该图像所包含的文本信息的步骤包括：获取该图像所包含的各单个文字对应的文字图像区域；分别将各文字图像区域输入到训练好的第二卷积神经网络中进行文字识别，根据该第二卷积神经网络的输出确定各文字图像区域所包含的文字；基于各文字生成该图像对应的文本信息。

可选地，在根据本发明的图像分类方法中，训练好的第一卷积神经网络通过以下方式获取得到：构建处理块，处理块包括卷积层；分别构建池化层、全连接层和分类器；根据多个处理块和池化层，结合全连接层和分类器构建第一卷积神经网络，第一卷积神经网络以处理块为输入，以分类器为输出；根据预先获取的图像类别数据集合对第一卷积神经网络进行训练，以便分类器的输出指示输入图像所对应的类别，图像类别数据集合包括多个图像类别信息，每个图像类别信息包括满足预设尺寸的第一图像和该第一图像对应的类别信息。

可选地，在根据本发明的图像分类方法中，训练好的第二卷积神经网络通过以下方式获取得到：构建第一处理块，第一处理块包括第一卷积层；构建第二处理块，第二处理块包括第一全连接层；分别构建第一池化层、第二全连接层和第一分类器；根据一个或多个第一处理块、第一池化层和第二处理块，结合第二全连接层和第一分类器构建第二卷积神经网络，第二卷积神经网络以第一处理块为输入，以第一分类器为输出；根据预先获取的文字图像数据集合对第二卷积神经网络进行训练，以便第一分类器的输出指示输入图像中包含的文字，文字图像数据集合包括多个文字图像信息，每个文字图像信息包括满足第一预设尺寸的文字图像和该文字图像中所包含的文字信息。

根据本发明的又一个方面，提供一种移动终端，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的图像分类方法的指令。

根据本发明的又一个方面，提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由移动终端执行时，使得移动终端执行根据本发明的图像分类方法。

根据本发明的又一个方面，提供一种用于对图像进行分类处理的卷积神经网络生成方法，适于在计算设备中执行，该方法包括如下步骤：首先，构建处理块，处理块包括卷积层；分别构建池化层、全连接层和分类器；根据多个处理块和池化层，结合全连接层和分类器构建卷积神经网络，卷积神经网络以处理块为输入，以分类器为输出；根据预先获取的图像类别数据集合对卷积神经网络进行训练，以便分类器的输出指示输入图像所对应的类别，图像类别数据集合包括多个图像类别信息，每个图像类别信息包括满足预设尺寸的第一图像和该第一图像对应的类别信息。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，构建处理块的步骤还包括：构建激活层；在卷积层之后添加激活层，以形成处理块。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，池化层为最大池化层和平均池化层中任一种。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，根据多个处理块和池化层，结合全连接层和分类器构建卷积神经网络的步骤包括：按照预设的连接规则，将各处理块和最大池化层进行相连后，连接平均池化层；在平均池化层之后添加依次相连的全连接层和分类器，以构建以处理块为输入，以分类器为输出的卷积神经网络。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，根据预先获取的图像类别数据集合对卷积神经网络进行训练，以便分类器的输出指示输入图像所对应的类别的步骤包括：对每一个提取出的图像类别信息，以该图像类别信息所包括的第一图像为卷积神经网络中第一个处理块的输入，以该图像类别信息所包括的类别信息为分类器的输出，对卷积神经网络进行训练。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，处理块的数量为3。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，最大池化层的数量为2，平均池化层的数量为1。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，类别信息为动物类、建筑类、实物类、风景类、人物类和文本类中的任一种。

可选地，在根据本发明的用于对图像进行分类处理的卷积神经网络生成方法中，还包括预先生成图像类别数据集合，预先生成图像类别数据集合的步骤包括：对每一张待处理图片进行图像处理，以获取各待处理图片对应的、满足预设尺寸的第一图像；对每一张满足预设尺寸的第一图像，获取其对应的待处理图片关联的类别信息，根据类别信息与该第一图像生成相应的图像类别信息；汇集各图像类别信息，以形成图像类别数据集合。

根据本发明的又一个方面，提供一种用于对图像中的文字进行识别的卷积神经网络生成方法，适于在计算设备中执行，该方法包括如下步骤：首先，构建第一处理块，第一处理块包括第一卷积层；构建第二处理块，第二处理块包括第一全连接层；分别构建第一池化层、第二全连接层和第一分类器；根据一个或多个第一处理块、第一池化层和第二处理块，结合第二全连接层和第一分类器构建卷积神经网络，卷积神经网络以第一处理块为输入，以第一分类器为输出；根据预先获取的文字图像数据集合对卷积神经网络进行训练，以便第一分类器的输出指示输入图像中包含的文字，文字图像数据集合包括多个文字图像信息，每个文字图像信息包括满足第一预设尺寸的文字图像和该文字图像中所包含的文字信息。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，构建第一处理块的步骤还包括：构建第一激活层；在第一卷积层之后添加第一激活层，以形成第一处理块。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，构建第二处理块的步骤还包括：构建第二激活层；在第一全连接层之后添加第二激活层，以形成第二处理块。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，第一池化层为最大池化层。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，根据一个或多个第一处理块、第一池化层和第二处理块，结合第二全连接层和第一分类器构建卷积神经网络的步骤包括：按照预设的第一连接规则，将各第一处理块、第一池化层和第二处理块进行相连后，连接第二全连接层；在第二全连接层之后添加第一分类器，以构建以第一处理块为输入，以第一分类器为输出的卷积神经网络。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，根据预先获取的文字图像数据集合对卷积神经网络进行训练，以便第一分类器的输出指示输入图像中包含的文字的步骤包括：对每一个提取出的文字图像信息，以该文字图像信息所包括的文字图像为卷积神经网络中第一个第一处理块的输入，以该文字图像信息所包括的文字信息为第一分类器的输出，对卷积神经网络进行训练。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，第一处理块的数量为5，第二处理块的数量为1，第一池化层的数量为3。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，文字信息为单个文字，单个文字为数字类文字、字母类文字和中文汉字类文字中任一种。

可选地，在根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法中，还包括预先生成文字图像数据集合，预先生成文字图像数据集合的步骤包括：对每一张待处理文字图片进行图像处理，以获取各待处理文字图片对应的、满足第一预设尺寸的文字图像；对每一张文字图像，获取其对应的待处理文字图片关联的文字信息，根据文字信息与该文字图像生成相应的文字图像信息；汇集各文字图像信息，以形成文字图像数据集合。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的用于对图像进行分类处理的卷积神经网络生成方法和/或用于对图像中的文字进行识别的卷积神经网络生成方法的指令。

根据本发明的又一个方面，提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的用于对图像进行分类处理的卷积神经网络生成方法和/或用于对图像中的文字进行识别的卷积神经网络生成方法。

根据本发明的图像分类方法，对图像库中的每一张图像，先对该图像分类以获取其对应的类别，若类别为文本类，则对该图像进行文字识别，以提取出所包含的文本信息，将文本信息与该图像的图像存储路径及图像名称关联存储。在上述方案中，若接收到用户键入的检索词时，将根据该检索词查找是否存在与其相同或相似的文本信息，若存在，则获取该文本信息关联的图像存储路径，根据该图像存储路径查找到其对应的图像，将该图像和该文本信息向用户展示，从而实现了对用户所需图像的快速准确定位，极大方便了用户对于模糊图像信息内容的搜索，提高使用体验。此外，利用训练好的第一卷积神经网络来对图像进行分类，并通过训练好的第二卷积神经网络对图像中的文字进行识别，其中第一卷积神经网络和第二卷积神经网络均具有较小的网络结构，那么依托精悍的小型神经网络实现图像分类及文字识别，可以实现在手机移动端或小型嵌入式设备中的处理，在使用时不需要与服务器端进行通信，无需上传云端，避免了对通信网络，如4G网络的依赖性，提升了在无网络或弱信号网络下的可用度，且由于无需大量的计算服务，还降低了相应的运营维护成本。

根据本发明的用于对图像进行分类处理的卷积神经网络生成方法，该卷积神经网络为小型神经网络，其构建是按照预设的连接规则将各处理块和最大池化层进行不断堆叠，并相应连接入平均池化层、全连接层和分类器来实现的，保证提取的特征明显优于人工设计特征，以实现识别精度的明显提升，从而大幅降低误判率。其中，处理块中除了卷积层之外，还可以相应添加激活层，以便缓解过拟合。在对该卷积神经网络完成训练后，该训练好的卷积神经网络即可作为图像分类模型移植到移动终端来应用。

根据本发明的用于对图像中的文字进行识别的卷积神经网络生成方法，该卷积神经网络的构建是按照预设的第一连接规则将各第一处理块、第一池化层和第二处理块相连，并相应连接入第二全连接层和第一分类器来实现的，同样也保证了所提取的特征携带有丰富的图像信息，有助于识别精度的提升。其中，第一处理块可添加第一激活层，第二处理块可添加第二激活层，以便缓解过拟合。在对该卷积神经网络完成训练后，该训练好的卷积神经网络即可作为文字识别模型移植到移动终端来应用。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的移动终端100的示意图；

图2示出了根据本发明的一个实施例的图像分类方法200的流程图；

图3示出了根据本发明的一个实施例的处理块的结构示意图；

图4示出了根据本发明的一个实施例的第一卷积神经网络的结构示意图；

图5A示出了根据本发明的一个实施例的第一处理块的结构示意图；

图5B示出了根据本发明的一个实施例的第二处理块的结构示意图；

图6示出了根据本发明的一个实施例的第二卷积神经网络的结构示意图；

图7示出了根据本发明的一个实施例的计算设备700的示意图；

图8示出了根据本发明的一个实施例的用于对图像进行分类处理的卷积神经网络生成方法800的流程图；以及

图9示出了根据本发明的一个实施例的用于对图像中的文字进行识别的卷积神经网络生成方法900的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是移动终端100的结构框图。移动终端100可以包括存储器接口102、一个或多个数据处理器、图像处理器和/或中央处理单元104，以及***接口106。

存储器接口102、一个或多个处理器104和/或***接口106既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端100中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子***可以耦合到***接口106，以便帮助实现多种功能。

例如，运动传感器110、光线传感器112和距离传感器114可以耦合到***接口106，以方便定向、照明和测距等功能。其他传感器116同样可以与***接口106相连，例如定位***(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子***120和光学传感器122可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子***和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。可以通过一个或多个无线通信子***124来帮助实现通信功能，其中无线通信子***可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子***124的特定设计和实施方式可以取决于移动终端100所支持的一个或多个通信网络。例如，移动终端100可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及Bluebooth^TM网络的通信子***124。

音频子***126可以与扬声器128以及麦克风130相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。I/O子***140可以包括触摸屏控制器142和/或一个或多个其他输入控制器144。触摸屏控制器142可以耦合到触摸屏146。举例来说，该触摸屏146和触摸屏控制器142可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。一个或多个其他输入控制器144可以耦合到其他输入/控制设备148，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器128和/或麦克风130音量的向上/向下按钮。

存储器接口102可以与存储器150相耦合。该存储器150可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。存储器150可以存储操作***172，例如Android、iOS或是Windows Phone之类的操作***。该操作***172可以包括用于处理基本***服务以及执行依赖于硬件的任务的指令。存储器150还可以存储程序174。在移动设备运行时，会从存储器150中加载操作***172，并且由处理器104执行。程序174在运行时，也会从存储器150中加载，并由处理器104执行。程序174运行在操作***之上，利用操作***以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。程序174可以是独立于操作***提供的，也可以是操作***自带的。另外，程序174被安装到移动终端100中时，也可以向操作***添加驱动模块。在一些实施例中，移动终端100被配置为执行根据本发明的图像分类方法。其中，移动终端100的一个或多个程序174包括用于执行根据本发明的图像分类方法200的指令。

图2示出了根据本发明一个实施例的图像分类方法200的流程图。图像分类方法200适于在移动终端(例如图1所示的移动终端100)中执行，移动终端100包括图像库，该图像库中存储有多张图像。根据本发明的一个实施例，移动终端100的图像库可理解为是相册，相册中所存储的图像既可以是用户通过移动终端100的摄像头拍摄得到的照片，也可以是利用其他途径，例如截图或保存，对移动终端100的屏幕所显示的当前页面进行图像保存所形成的图片，对此本发明并不进行限制。根据本发明的一个实施例，移动终端100的图像库中存储有10张图像，分别记为M1、M2、……、M10，为便于描述，以下将以图像M1为例进行方法200的相关说明。

方法200始于步骤S210，在步骤S 210中，对图像库中的每一张图像，对该图像进行分类处理以获取其对应的类别。根据本发明的一个实施例，移动终端100中存储有用于对图像进行分类处理的、训练好的第一卷积神经网络，可通过如下方式对该图像进行分类处理以获取其对应的图像类型。首先，将该图像输入到训练好的第一卷积神经网络中进行图像分类，再根据该第一卷积神经网络的输出确定该图像的类别。为便于理解，下面将先对获取训练好的第一卷积神经网络的过程进行说明。

具体的，先构建处理块，处理块包括卷积层。考虑到控制过拟合现象，根据本发明的一个实施例，在构建处理块时，还可以构建激活层，在卷积层之后添加激活层，以形成处理块。图3示出了根据本发明的一个实施例的处理块的结构示意图。如图3所示，在处理块中，包括依次相连的卷积层和激活层。在该实施方式中，采用ReLU(Rectified LinearUnit)函数作为激活层的激活函数，以调整经过卷积层的输出，避免下一层的输出为上一层的线性组合而无法逼近任意函数。

完成处理块的构建后，再分别构建池化层、全连接层和分类器。根据本发明的一个实施例，池化层为最大池化层和平均池化层中任一种，池化利用图像局部相关性的原理，对图像进行子抽样，从而减少数据处理下并保留有用信息。

接下来，根据多个处理块和池化层，结合全连接层和分类器构建第一卷积神经网络，第一卷积神经网络以处理块为输入，以该分类器为输出。根据本发明的一个实施例，可通过如下方式来构建第一卷积神经网络。首先，按照预设的连接规则，将各处理块和最大池化层进行相连后，连接平均池化层，然后在平均池化层之后添加依次相连的全连接层和分类器，以构建以处理块为输入，以该分类器为输出的第一卷积神经网络。其中，处理块的数量为3，最大池化层的数量为2，平均池化层的数量为1。

在该实施方式中，按照预设的连接规则将3个处理块和2个最大池化层进行相连，之后连接1个平均池化层，并在平均池化层之后添加依次相连的全连接层和分类器，从而构建出以1个处理块为输入，以该分类器为输出的第一卷积神经网络。图4示出了根据本发明的一个实施例的第一卷积神经网络的结构示意图。如图4所示，在第一卷积神经网络中，是以处理块A1为输入端，后面依次相连最大池化层B1、处理块A2、处理块A3、最大池化层B2、平均池化层C1、全连接层D1和分类器E1，其中分类器E1为输出端。图4所示出的各处理单元的连接顺序，即为按照预设的连接规则来设置的。关于连接规则的预先设置，可根据实际应用场景、网络训练情况、***配置和性能要求等进行适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

构建好第一卷积神经网络后，开始对其进行训练。根据预先获取的图像类别数据集合对第一卷积神经网络进行训练，以便分类器的输出指示输入图像所对应的类别，图像类别数据集合包括多个图像类别信息，每个图像类别信息包括满足预设尺寸的第一图像和该第一图像对应的类别信息。根据本发明的一个实施例，可通过如下方式对第一卷积神经网络进行训练。在该实施方式中，对每一个提取出的图像类别信息，以该图像类别信息所包括的第一图像为第一卷积神经网络中第一个处理块的输入，以该图像类别信息所包括的类别信息为该分类器的输出，对第一卷积神经网络进行训练。其中，预设尺寸优选为220px×220px，第一图像为RGB三通道图像，其对应的类别信息为动物类、建筑类、实物类、风景类、人物类和文本类中的任一种。

下面将以图像类别数据集合中的一个图像类别信息X为例，对第一卷积神经网络的训练过程进行说明。图像类别信息X包括第一图像X1和该第一图像对应的类别信息X2，第一图像X1的尺寸为220px×220px，类别信息X2为文本类。在训练时，是以第一图像X1为处理块A1的输入、类别信息X2为分类器E1的输出进行第一卷积神经网络的训练。

表1示出了根据本发明的一个实施例的处理块A1～A3的参数设置示例，表2示出了根据本发明的一个实施例的最大池化层B1～B2和平均池化层C1的参数设置示例。其中，对表1里边界补零这一参数的值来说，“0”表示不进行边界补零操作，“1”表示将卷积层所输入图像的边缘向外1个像素单位的各行与各列以0填充。若无特别指出，以下涉及边界补零的内容均以上述说明为准。表1和表2的内容具体分别如下所示：

处理单元	卷积核尺寸	边界补零	步长	卷积核数量
					处理块A1	5×5	0	4	45
处理块A2	1×1	0	1	45
					处理块A3	3×3	1	1	100

表1

处理单元	池化分块尺寸	步长
			最大池化层B1	3×3	2
最大池化层B2	3×3	2
			平均池化层C1	4×4	2

表2

参照表1对处理块A1～A3进行参数设置，参照表2对最大池化层B1～B2及平均池化层C1进行参数设置，并基于以上参数对第一图像X1进行处理。具体的，先将第一图像X1输入到处理块A1，第一图像X1为RGB三通道图像，尺寸为220px×220px。处理块A1中的卷积层有45个卷积核，每个卷积核的参数个数为5×5×3，相当于45个5×5大小的卷积核分别在3个通道进行卷积，步长为4，则经过该卷积层的卷积后，根据可知，此时得到的图像的尺寸为54px×54px，即获得45张54px×54px大小的特征图，其中表示向下取整。由于在该卷积层中已经将三通道合在一起进行卷积处理，因此处理块A1中的激活层的输入为45张54px×54px的单通道图像，经过该激活层的处理后，得到处理块A1的输出为45张54px×54px的特征图。

随后，进入最大池化层B1。最大池化层B1采用最大重叠池化，即对54px×54px的特征图进行分块，每个块的大小为3×3，步长为2，并统计每个块的最大值，作为池化后图像的像素值。根据可知，池化后的特征图尺寸为26px×26px，则经过最大池化层B1之后，获得45张26px×26px的特征图。

接下来，将最大池化层B1输出的45张26px×26px的特征图输入到处理块A2中，处理块A2中的卷积层有45个卷积核，每个卷积核的参数个数为1×1，相当于45个1×1大小的卷积核进行卷积，步长为1。根据可知，此时得到的图像的尺寸为26px×26px，即获得45张26px×26px大小的特征图。再经过处理块A2中激活层的处理，得到处理块A2的输出为45张26px×26px的特征图。再将这45张26px×26px的特征图输入到处理块A3，处理块A3中的卷积层有100个卷积核，每个卷积核的参数个数为3×3，相当于100个3×3大小的卷积核进行卷积，步长为1。将该卷积层所输入特征图的边缘向外1个像素单位的各行与各列以0填充，则经过该卷积层的卷积后，根据可知，此时得到的图像的尺寸为26px×26px，即获得100张26px×26px大小的特征图。再经过处理块A3中激活层的处理，得到处理块A3的输出为100张26px×26px的特征图。

此时，处理块A3所输出的100张26px×26px的特征图在经过最大池化层B2的处理后，根据可知，最大池化层B2的输出为100张12px×12px的特征图。将这100张12px×12px的特征图作为平均池化层C1的输入，平均池化层C1采用平均重叠池化，即对12px×12px的特征图进行分块，每个块的大小为4×4，步长为2，并统计每个块的平均值，作为池化后图像的像素值。由可知，池化后的特征图尺寸为5px×5px，则经过平均池化层C1之后，获得100张5px×5px的特征图。此后，进入全连接层D1，由于是对图像的类别进行识别，是一个多分类问题，而在该实施方式中图像类别为动物类、建筑类、实物类、风景类、人物类和文本类这6种类别的任一种，因此全连接层D1的输出也为6个，分别对应6种类别出现的概率。分类器E1选用softmax分类器，其输出为最大概率对应的类别，该类别为第一图像X1所对应的类别信息X2。关于softmax分类器的内容，为成熟的技术手段，此处不予以赘述。为了训练该第一卷积神经网络，根据输入的第一图像X1对应的类别信息X2为文本类这一预知结果，对分类器E1的输出进行调整，按极小化误差的方法反向传播以调整第一卷积神经网络中的各参数。经过图像类型数据集合中大量的图像类型信息进行训练后，获得训练好的第一卷积神经网络。

此外，用于训练第一卷积神经网络的图像类别数据集合是需要预先生成的，根据本发明的又一个实施例，可通过如下方式预先生成图像类别数据集合。首先，对每一张待处理图片进行图像处理，以获取各待处理图片对应的、满足预设尺寸的第一图像。其中，预设尺寸为220px×220px，在对待处理图片进行处理时，通常是以该待处理图片的最短边为基准，将该最短边调整到224px，例如一张112px×200px的待处理图片，将其调整到224px×400px的大小，再从调整后的图片的正中间进行裁剪，以获取该待处理图片对应的、220px×220px大小的第一图像。在得到各待处理图片对应的、满足预设尺寸的第一图像后，对每一张第一图像，获取其对应的待处理图片关联的类别信息，根据该类别信息与该第一图像生成相应的图像类别信息，汇集各图像类别信息，以形成图像类别数据集合。

基于此，根据本发明的一个实施例，将图像M1输入到训练好的第一卷积神经网络中进行图像分类，训练好的第一卷积神经网络中分类器E1的输出为6个概率值，其中最大的概率值为0.77，为分类器E1的第6个输出，对应的类别为文本类，由此可确定图像M1对应的类别为文本类。

进而，执行步骤S220，若该类别为文本类，则对该图像进行文字识别，以提取出该图像所包含的文本信息。根据本发明的一个实施例，可通过如下方式对该图像进行文字识别，以提取出该图像所包含的文本信息。首先，获取该图像所包含的各单个文字对应的文字图像区域，再分别对各文字图像区域进行文字识别，以确定各文字图像区域所包含的文字，最后基于各文字生成该图像对应的文本信息。

那么，根据步骤S210可知，图像M1的类别为文本类，则先获取图像M1所包含的各单个文字对应的文字图像区域，再分别对各文字图像区域进行文字识别，以确定各文字图像区域所包含的文字。在该实施方式中，移动终端100中存储有用于对图像中的文字进行识别的、训练好的第二卷积神经网络，可通过如下方式对图像M1进行文字识别，以提取出该图像所包含的文本信息。首先，获取图像M1所包含的各单个文字对应的文字图像区域，分别将各文字图像区域输入到训练好的第二卷积神经网络中进行文字识别，然后，根据该第二卷积神经网络的输出确定各文字图像区域所包含的文字，再基于各文字生成该图像对应的文本信息。

由于图像M1包含了3个单个文字，将这3个单个文字对应的文字图像区域记为Q1、Q2、Q3，则需要分别对文字图像区域Q1、Q2和Q3进行文字识别，以确定其所包含的文字。下面以文字图像区域Q1为例进行文字识别过程的说明。当然，为便于理解，接下来先对获取训练好的第二卷积神经网络的过程进行说明。

具体的，先构建第一处理块，第一处理块包括第一卷积层。考虑到控制过拟合现象，根据本发明的一个实施例，在构建第一处理块时，还可以构建第一激活层，在第一卷积层之后添加第一激活层，以形成第一处理块。图5A示出了根据本发明的一个实施例的第一处理块的结构示意图。如图5A所示，在第一处理块中，包括依次相连的第一卷积层和第一激活层。在该实施方式中，采用ReLU(Rectified Linear Unit)函数作为第一激活层的激活函数，以调整经过第一卷积层的输出，避免下一层的输出为上一层的线性组合而无法逼近任意函数。

再构建第二处理块，第二处理块包括第一全连接层。考虑到控制过拟合现象，根据本发明的一个实施例，在构建第二处理块时，还可以构建第二激活层，在第一全连接层之后添加第二激活层，以形成第二处理块。图5B示出了根据本发明的一个实施例的第二处理块的结构示意图。如图5B所示，在第二处理块中，包括依次相连的第一全连接层和第二激活层。在该实施方式中，采用ReLU(Rectified Linear Unit)函数作为第二激活层的激活函数，以调整经过第一全连接层的输出，避免下一层的输出为上一层的线性组合而无法逼近任意函数。

完成第一处理块和第二处理块的构建后，分别构建第一池化层、第二全连接层和第一分类器。根据本发明的一个实施例，第一池化层为最大池化层。

随后，根据一个或多个第一处理块、第一池化层和第二处理块，结合第二全连接层和第一分类器构建第二卷积神经网络，第二卷积神经网络以第一处理块为输入，以该第一分类器为输出。根据本发明的一个实施例，可通过如下方式来构建第二卷积神经网络。首先，按照预设的第一连接规则，将各第一处理块、第一池化层和第二处理块进行相连后，连接第二全连接层，然后在第二全连接层之后添加第一分类器，以构建以第一处理块为输入，以该第一分类器为输出的第二卷积神经网络。其中，第一处处理块的数量为5，第二处理块的数量为1，第一池化层的数量为3。

在该实施方式中，按照预设的第一连接规则将5个第一处理块、3个第一池化层和1个第二处理块进行相连，之后连接第二全连接层，并在第二全连接层之后添加第一分类器，从而构建出以1个第一处理块为输入，以该第一分类器为输出的第二卷积神经网络。图6示出了根据本发明的一个实施例的第二卷积神经网络的结构示意图。如图6所示，在第二卷积神经网络中，是以第一处理块F1为输入端，后面依次相连第一池化层G1、第一处理块F2、第一池化层G2、第一处理块F3、第一处理块F4、第一处理块F5、第一池化层G3、第二处理块H1、第二全连接层J1和第一分类器K1，其中第一分类器K1为输出端。图6所示出的各处理单元的连接顺序，即为按照预设的第一连接规则来设置的。关于第一连接规则的预先设置，可根据实际应用场景、网络训练情况、***配置和性能要求等进行适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

构建好第二卷积神经网络后，开始对其进行训练。根据预先获取的文字图像数据集合对第二卷积神经网络进行训练，以便该第一分类器的输出指示输入图像中包含的文字，文字图像数据集合包括多个文字图像信息，每个文字图像信息包括满足第一预设尺寸的文字图像和该文字图像中所包含的文字信息。根据本发明的一个实施例，可通过如下方式对第二卷积神经网络进行训练。在该实施方式中，对每一个提取出的文字图像信息，以该文字图像信息所包括的文字图像为第二卷积神经网络中第一个第一处理块的输入，以该文字图像信息所包括的文字信息为该第一分类器的输出，对第二卷积神经网络进行训练。其中，第一预设尺寸优选为114px×114px，文字图像为单通道图像，其对应的文字信息为单个文字，单个文字为数字类文字、字母类文字和中文汉字类文字中任一种。数字类文字包括0～9这10个数字，字母类文字包括a～z这26个小写英文字母和A～Z这26个大写英文字母，中文汉字类文字包括GB 2312(信息交换用汉字编码字符集)标准的3755个一级汉字，可知文字信息为10+26×2+3755＝3817个单个文字中的任一个。

下面将以文字图像数据集合中的一个文字图像信息Y为例，对第二卷积神经网络的训练过程进行说明。文字图像信息Y包括文字图像Y1和该文字图像对应的文字信息Y2，文字图像Y1的尺寸为114px×114px，文字信息Y2为中文汉字类文字“勺”。在训练时，是以文字图像Y1为第一处理块F1的输入、文字信息Y2为第一分类器K1的输出进行第二卷积神经网络的训练。

表3示出了根据本发明的一个实施例的第一处理块F1～F5的参数设置示例，表4示出了根据本发明的一个实施例的第一池化层G1～G3的参数设置示例。表3和表4的内容具体分别如下所示：

处理单元	卷积核尺寸	边界补零	步长	卷积核数量
					第一处理块F1	11×11	0	4	96
第一处理块F2	5×5	1	1	256
					第一处理块F3	3×3	1	1	384
第一处理块F4	3×3	1	1	384
					第一处理块F5	3×3	1	1	256

表3

处理单元	池化分块尺寸	步长
			第一池化层G1	3×3	2
第一池化层G2	3×3	2
			第一池化层G3	3×3	2

表4

参照表3对第一处理块F1～F5进行参数设置，参照表4对第一池化层G1～G3进行参数设置，并基于以上参数对文字图像Y1进行处理。将文字图像Y1输入到第一处理块F1后，经过后续处理单元的相关处理，得到第一池化层G3的输出为256张3px×3px的特征图。需要说明的是，第一处理块F1～F5对图像的相关处理可参照如上处理块A2和A3的处理过程，第一池化层G1～G3对图像的相关处理可参照如上最大池化层B1和B2的处理过程，只是在参数的设置上，如卷积核的数量及尺寸、池化分块尺寸、步长、是否边界补零等存在不同，此处不再赘述。

接下来，将第一池化层G3的输出输入到第二处理块H1中，第二处理块H1包括依次相连的第一全连接层和第二激活层。上述256张3px×3px的特征图进入第二处理块H1的第一全连接层后，得到4096张1px×1px的特征图。此时，1px×1px的特征图实际上只具备1个像素值，因此该第一全连接层的输出可视为一个1×4096的特征向量。将这4096张1px×1px的特征图输入到第二处理块H1中的激活层，经过该激活层的处理，得到第二处理块H1的输出为4096张1px×1px的特征图。

最后，进入第二全连接层J1，第二处理块H1的输出经过第二全连接层J1处理后，获得了4096张1px×1px的特征图。由于是对文字进行识别，是一个多分类问题，而在该实施方式中文字信息为3817个单个文字中的任一个，因此第一分类器K1的输出也为3817个，分别对应3817个单个文字出现的概率，且选用softmax分类器，其输出为最大概率对应的单个文字，该单个文字为文字图像Y1所对应的文字信息Y2。为了训练该第二卷积神经网络，根据输入的文字图像Y1对应的文字信息Y2为“勺”这一预知结果，对第一分类器K1的输出进行调整，按极小化误差的方法反向传播以调整第二卷积神经网络中的各参数。经过文字图像数据集合中大量的文字图像信息进行训练后，获得训练好的第二卷积神经网络。

此外，用于训练第二卷积神经网络的文字图像数据集合是需要预先生成的，根据本发明的又一个实施例，可通过如下方式预先生成文字图像据集合。首先，对每一张待处理文字图片进行图像处理，以获取各待处理文字图片对应的、满足第一预设尺寸的文字图像。其中，第一预设尺寸为114px×114px，在对待处理文字图片进行处理时，通常是将以该待处理文字图片缩放至第一预设尺寸，以形成对应的文字图像。之后，对每一张文字图像，获取其对应的待处理文字图片关联的文字信息，根据该文字信息与该文字图像生成相应的文字图像信息，汇集各文字图像信息，以形成文字图像数据集合。

基于此，根据本发明的一个实施例，将文字图像区域Q1输入到训练好的第二卷积神经网络中进行文字识别。考虑到第二卷积神经网络的输入为单通道图像，通常会对文字图像区域Q1先进行灰度处理，将原本的RGB三通道图像转换为灰度图像以生成相应的单通道图像，再将该单通道图像输入到训练好的第二卷积神经网络。进而，对文字图像区域Q1执行灰度处理后，得到其对应的单通道图像为文字图像区域R1，而文字图像区域R1经过训练好的第二卷积神经网络的处理后，得到第一分类器K1的输出为3817个概率值，其中最大的概率值为0.63，为第一分类器K1的第965个输出，对应的文字为“小”，由此可确定文字图像区域Q1所包含的文字是“小”。那么，基于如上处理过程，可确定文字图像区域Q2和Q3所包含的文字分别是“芝”和“麻”。

在得到图像M1的各文字图像区域所包含的文字后，需要基于各文字生成图像M对应的文本信息。根据本发明的一个实施例，可通过如下方式基于各文字生成该图像对应的文本信息。首先，获取该图像中各文字图像区域之间的位置关系，然后根据该位置关系，对各文字图像区域对应的文字进行组合，以生成该图像对应的文本信息。在该实施方式中，先获取文字图像区域Q1、Q1和Q3之间的位置关系，这里的位置关系并不限于坐标位置、前后位置关系、上下位置关系等，得到文字图像区域Q1、Q2和Q3为并排顺次的位置关系，再利用语义关联技术将“小”、“芝”和“麻”进行组合后得到图像M对应的文本信息为“小芝麻”。需要说明的是，对图像进行文字图像区域的划分和获取，以及根据位置信息和语义关联技术进行文本信息生成的处理，可参考现有成熟技术，此处不予以赘述。

最后，在步骤S230中，将该文本信息与该图像的图像存储路径及图像名称进行关联存储。根据本发明的一个实施例，可知图像M1的图像存储路径为/storage/emulated/0/DCIM/Camera/IMG_20171213_185253.jpg，图像名称IMG_20171213_185253.jpg，将文本信息“小芝麻”与图像M1的图像存储路径及图像名称进行关联存储，比如可以存储在移动终端100的存储器150中。值得注意的是，若所生成的文本信息包括多个不同的内容，可采用如下划线之类的符号进行分隔处理，比如“小芝麻_7.59元/斤”。

在实际应用中，通常是将基于上述训练好的第一卷积神经网络的图像分类模型，以及基于训练好的第二卷积神经网络的文字识别模型封装在涉及图片存储、查询功能之类的移动应用中，如拍照类应用、手机相册等等。在下载安装这类移动应用或移动终端出厂前的***配置过程中，直接将图像分类模型、文字识别模型、类别数据和文字数据等部署在移动终端100，所占存储空间较小，内存资源占用率低，且具备较高的识别精度和准确率，响应速度较快，能够给用户提供更好的体验。

在将文本信息与其对应的图像的图像存储路径及图像名称关联存储后，可通过这一关联关系快速且准确地向用户展示其键入的检索词所相关的文本信息及图像。根据本发明的又一个实施例，当接收到用户键入的检索词时，先根据该检索词查找是否存在与其相同或相似的文本信息，若存在，则获取该文本信息关联的图像存储路径，再根据该图像存储路径查找到其对应的图像，将该图像和该文本信息向用户展示。在该实施方式中，用户键入的检索词为“银行”，则根据该检索词查找到存在与其相似的文本信息，该文本信息为“招商银行_一卡通_622588120816xxxx_银联”，其中包含了“银行”这个词语。接下来，获取该文本信息关联的图像存储路径，得到该图像存储路径为/storage/emulated/0/DCIM/Camera/IMG_20171210_185214.jpg，根据该图像存储路径查找到其对应的图像，该图像为图像M2，将图像M2和该文本信息向用户展示。

图7是示例计算设备700的框图。在基本的配置702中，计算设备700典型地包括***存储器706和一个或者多个处理器704。存储器总线708可以用于在处理器704和***存储器706之间的通信。

取决于期望的配置，处理器704可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器704可以包括诸如一级高速缓存710和二级高速缓存712之类的一个或者多个级别的高速缓存、处理器核心714和寄存器716。示例的处理器核心714可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器718可以与处理器704一起使用，或者在一些实现中，存储器控制器718可以是处理器704的一个内部部分。

取决于期望的配置，***存储器706可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器706可以包括操作***720、一个或者多个程序722以及程序数据724。在一些实施方式中，程序722可以布置为在操作***上由一个或多个处理器704利用程序数据724执行指令。

计算设备700还可以包括有助于从各种接口设备(例如，输出设备742、外设接口744和通信设备746)到基本配置702经由总线/接口控制器730的通信的接口总线740。示例的输出设备742包括图形处理单元748和音频处理单元750。它们可以被配置为有助于经由一个或者多个A/V端口752与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口744可以包括串行接口控制器754和并行接口控制器756，它们可以被配置为有助于经由一个或者多个I/O端口758和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备746可以包括网络控制器760，其可以被布置为便于经由一个或者多个通信端口764与一个或者多个其他计算设备762通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备700可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备700还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备700被配置为执行根据本发明的用于对图像进行分类处理的卷积神经网络生成方法和/或用于对图像中的文字进行识别的卷积神经网络生成方法。其中，计算设备700的一个或多个程序722包括用于执行根据本发明的用于对图像进行分类处理的卷积神经网络生成方法800和/或用于对图像中的文字进行识别的卷积神经网络生成方法900的指令。

图8示出了根据本发明一个实施例的用于对图像进行分类处理的卷积神经网络生成方法800的流程图。用于对图像进行分类处理的卷积神经网络生成方法800适于在计算设备(例如图7所示的计算设备700)中执行。

如图8所示，方法800始于步骤S810。在步骤S810中，构建处理块，处理块包括卷积层。根据本发明的一个实施例，可通过如下方式构建处理块。首先，构建激活层，然后在该卷积层之后添加该激活层，以形成处理块。

随后，进入步骤S820，分别构建池化层、全连接层和分类器。其中，池化层为最大池化层和平均池化层中任一种。

接下来，在步骤S830中，根据多个处理块和池化层，结合全连接层和分类器构建卷积神经网络，该卷积神经网络以处理块为输入，以该分类器为输出。根据本发明的一个实施例，可通过如下方式根据多个处理块和池化层，结合全连接层和分类器构建卷积神经网络。在该实施方式中，先按照预设的连接规则，将各处理块和最大池化层进行相连后，连接平均池化层，再在平均池化层之后添加依次相连的全连接层和分类器，以构建以处理块为输入，以该分类器为输出的卷积神经网络。其中，处理块的数量为3，最大池化层的数量为2，平均池化层的数量为1。

最后，执行步骤S840，根据预先获取的图像类别数据集合对该卷积神经网络进行训练，以便该分类器的输出指示输入图像所对应的类别，图像类别数据集合包括多个图像类别信息，每个图像类别信息包括满足预设尺寸的第一图像和该第一图像对应的类别信息。根据本发明的一个实施例，可通过如下方式对该卷积神经网络进行训练。具体的，对每一个提取出的图像类别信息，以该图像类别信息所包括的第一图像为该卷积神经网络中第一个处理块的输入，以该图像类别信息所包括的类别信息为该分类器的输出，对该卷积神经网络进行训练。其中，类别信息为动物类、建筑类、实物类、风景类、人物类和文本类中的任一种。

用于训练该卷积神经网络的图像类型数据集合是需要预先生成的，根据本发明的又一个实施例，可通过如下方式预先生成图像类型数据集合。对每一张待处理图片进行图像处理，以获取各待处理图片对应的、满足预设尺寸的第一图像，对每一张满足预设尺寸的第一图像，获取其对应的待处理图片关联的类别信息，根据该类别信息与该第一图像生成相应的图像类别信息，汇集各图像类别信息，以形成图像类别数据集合。

需要说明的是，上述步骤S810～S840中生成用于对图像进行分类处理的卷积神经网络的过程，以及预先生成训练该卷积神经网络的图像类型数据集合的过程，其处理细节及实施例可参见方法200中步骤S210里涉及第一卷积神经网络的相关内容，此处不再赘述。

图9示出了根据本发明一个实施例的用于对图像中的文字进行识别的卷积神经网络生成方法900的流程图。用于对图像中的文字进行识别的卷积神经网络生成方法900适于在计算设备(例如图7所示的计算设备700)中执行。

如图9所示，方法900始于步骤S910。在步骤S910中，构建第一处理块，第一处理块包括第一卷积层。根据本发明的一个实施例，可通过如下方式构建第一处理块。首先，构建第一激活层，然后在该第一卷积层之后添加该第一激活层，以形成第一处理块。

在步骤S920中，构建第二处理块，第二处理块包括第一全连接层。根据本发明的一个实施例，可通过如下方式构建第二处理块。首先，构建第二激活层，然后在该第一全连接层之后添加该第二激活层，以形成第二处理块。

随后，进入步骤S930，分别构建第一池化层、第二全连接层和第一分类器。其中，第一池化层为最大池化层。

接下来，在步骤S940中，根据一个或多个第一处理块、第一池化层和第二处理块，结合第二全连接层和第一分类器构建卷积神经网络，该卷积神经网络以第一处理块为输入，以该第一分类器为输出。根据本发明的一个实施例，可通过如下方式根据一个或多个第一处理块、第一池化层和第二处理块，结合第二全连接层和第一分类器构建卷积神经网络。在该实施方式中，按照预设的第一连接规则，将各第一处理块、第一池化层和第二处理块进行相连后，连接第二全连接层，在第二全连接层之后添加第一分类器，以构建以第一处理块为输入，以该第一分类器为输出的卷积神经网络。其中，第一处理块的数量为5，第二处理块的数量为1，第一池化层的数量为3。

最后，执行步骤S950，根据预先获取的文字图像数据集合对该卷积神经网络进行训练，以便第一分类器的输出指示输入图像中包含的文字，文字图像数据集合包括多个文字图像信息，每个文字图像信息包括满足第一预设尺寸的文字图像和该文字图像中所包含的文字信息。根据本发明的一个实施例，可通过如下方式对该卷积神经网络进行训练。具体的，对每一个提取出的文字图像信息，以该文字图像信息所包括的文字图像为该卷积神经网络中第一个第一处理块的输入，以该文字图像信息所包括的文字信息为该第一分类器的输出，对该卷积神经网络进行训练。其中，文字信息为单个文字，单个文字为数字类文字、字母类文字和中文汉字类文字中任一种。

用于训练该卷积神经网络的文字图像数据集合是需要预先生成的，根据本发明的又一个实施例，可通过如下方式预先生成文字图像数据集合。对每一张待处理文字图片进行图像处理，以获取各待处理文字图片对应的、满足第一预设尺寸的文字图像，对每一张文字图像，获取其对应的待处理文字图片关联的文字信息，根据该文字信息与该文字图像生成相应的文字图像信息，汇集各文字图像信息，以形成文字图像数据集合。

需要说明的是，上述步骤S910～S950中生成用于对图像中的文字进行识别的卷积神经网络的过程，以及预先生成训练该卷积神经网络的文字图像数据集合的过程，其处理细节及实施例可参见方法200中步骤S220里涉及第二卷积神经网络的相关内容，此处不再赘述。

现有的图像分类算法，通常是将移动终端的相册里的图像分为各个类别，按照类别进行图像管理，但不会再进行进一步操作，如果要快速定位到某一张具有特定信息的图像则无法实现。根据本发明实施例的图像分类方法，对图像库中的每一张图像，先对该图像分类以获取其对应的类别，若类别为文本类，则对该图像进行文字识别，以提取出所包含的文本信息，将文本信息与该图像的图像存储路径及图像名称关联存储。在上述方案中，若接收到用户键入的检索词时，将根据该检索词查找是否存在与其相同或相似的文本信息，若存在，则获取该文本信息关联的图像存储路径，根据该图像存储路径查找到其对应的图像，将该图像和该文本信息向用户展示，从而实现了对用户所需图像的快速准确定位，极大方便了用户对于模糊图像信息内容的搜索，提高使用体验。此外，利用训练好的第一卷积神经网络来对图像进行分类，并通过训练好的第二卷积神经网络对图像中的文字进行识别，其中第一卷积神经网络和第二卷积神经网络均具有较小的网络结构，那么依托精悍的小型神经网络实现图像分类及文字识别，可以实现在手机移动端或小型嵌入式设备中的处理，在使用时不需要与服务器端进行通信，无需上传云端，避免了对通信网络，如4G网络的依赖性，提升了在无网络或弱信号网络下的可用度，且由于无需大量的计算服务，还降低了相应的运营维护成本。

A5.如A1-4中任一项所述的方法，所述移动终端中存储有用于对图像进行分类处理的、训练好的第一卷积神经网络，所述对该图像进行分类处理以获取其对应的图像类型的步骤包括：将该图像输入到训练好的第一卷积神经网络中进行图像分类；根据该第一卷积神经网络的输出确定该图像的类别。A6.如A1-5中任一项所述的方法，所述移动终端中存储有用于对图像中的文字进行识别的、训练好的第二卷积神经网络，所述对该图像进行文字识别，以提取出该图像所包含的文本信息的步骤包括：获取该图像所包含的各单个文字对应的文字图像区域；分别将各文字图像区域输入到训练好的第二卷积神经网络中进行文字识别，根据该第二卷积神经网络的输出确定各文字图像区域所包含的文字；基于各文字生成该图像对应的文本信息。A7.如A5或6所述的方法，所述训练好的第一卷积神经网络通过以下方式获取得到：构建处理块，所述处理块包括卷积层；分别构建池化层、全连接层和分类器；根据多个处理块和池化层，结合所述全连接层和分类器构建第一卷积神经网络，所述第一卷积神经网络以处理块为输入，以所述分类器为输出；根据预先获取的图像类别数据集合对所述第一卷积神经网络进行训练，以便所述分类器的输出指示输入图像所对应的类别，所述图像类别数据集合包括多个图像类别信息，每个图像类别信息包括满足预设尺寸的第一图像和该第一图像对应的类别信息。A8.如A5-7中任一项所述的方法，所述训练好的第二卷积神经网络通过以下方式获取得到：构建第一处理块，所述第一处理块包括第一卷积层；构建第二处理块，所述第二处理块包括第一全连接层；分别构建第一池化层、第二全连接层和第一分类器；根据一个或多个第一处理块、第一池化层和第二处理块，结合所述第二全连接层和第一分类器构建第二卷积神经网络，所述第二卷积神经网络以第一处理块为输入，以所述第一分类器为输出；根据预先获取的文字图像数据集合对所述第二卷积神经网络进行训练，以便所述第一分类器的输出指示输入图像中包含的文字，所述文字图像数据集合包括多个文字图像信息，每个文字图像信息包括满足第一预设尺寸的文字图像和该文字图像中所包含的文字信息。

B12.如B11所述的方法，所述构建处理块的步骤还包括：构建激活层；在所述卷积层之后添加所述激活层，以形成处理块。B13.如B11或12所述的方法，所述池化层为最大池化层和平均池化层中任一种。B14.如B13所述的方法，所述根据多个处理块和池化层，结合所述全连接层和分类器构建卷积神经网络的步骤包括：按照预设的连接规则，将各处理块和最大池化层进行相连后，连接平均池化层；在所述平均池化层之后添加依次相连的全连接层和分类器，以构建以处理块为输入，以所述分类器为输出的卷积神经网络。B15.如B11-14中任一项所述的方法，所述根据预先获取的图像类别数据集合对所述卷积神经网络进行训练，以便所述分类器的输出指示输入图像所对应的类别的步骤包括：对每一个提取出的图像类别信息，以该图像类别信息所包括的第一图像为所述卷积神经网络中第一个处理块的输入，以该图像类别信息所包括的类别信息为所述分类器的输出，对所述卷积神经网络进行训练。B16.如B11-15中任一项所述的方法，所述处理块的数量为3。B17.如B14-16中任一项所述的方法，所述最大池化层的数量为2，所述平均池化层的数量为1。B18.如B11-17中任一项所述的方法，所述类别信息为动物类、建筑类、实物类、风景类、人物类和文本类中的任一种。B19.如B11-18中任一项所述的方法，还包括预先生成图像类别数据集合，所述预先生成图像类别数据集合的步骤包括：对每一张待处理图片进行图像处理，以获取各待处理图片对应的、满足预设尺寸的第一图像；对每一张满足预设尺寸的第一图像，获取其对应的待处理图片关联的类别信息，根据所述类别信息与该第一图像生成相应的图像类别信息；汇集各图像类别信息，以形成图像类别数据集合。

C21.如C20所述的方法，所述构建第一处理块的步骤还包括：构建第一激活层；在所述第一卷积层之后添加所述第一激活层，以形成第一处理块。C22.如C20或21所述的方法，所述构建第二处理块的步骤还包括：构建第二激活层；在所述第一全连接层之后添加所述第二激活层，以形成第二处理块。C23.如C20-22中任一项所述的方法，所述第一池化层为最大池化层。C24.如C20-23中任一项所述的方法，所述根据一个或多个第一处理块、第一池化层和第二处理块，结合所述第二全连接层和第一分类器构建卷积神经网络的步骤包括：按照预设的第一连接规则，将各第一处理块、第一池化层和第二处理块进行相连后，连接第二全连接层；在所述第二全连接层之后添加所述第一分类器，以构建以第一处理块为输入，以所述第一分类器为输出的卷积神经网络。C25.如C20-24中任一项所述的方法，所述根据预先获取的文字图像数据集合对所述卷积神经网络进行训练，以便所述第一分类器的输出指示输入图像中包含的文字的步骤包括：对每一个提取出的文字图像信息，以该文字图像信息所包括的文字图像为所述卷积神经网络中第一个第一处理块的输入，以该文字图像信息所包括的文字信息为所述第一分类器的输出，对所述卷积神经网络进行训练。C26.如C20-25中任一项所述的方法，所述第一处理块的数量为5，所述第二处理块的数量为1，所述第一池化层的数量为3。C27.如C20-26中任一项所述的方法，所述文字信息为单个文字，所述单个文字为数字类文字、字母类文字和中文汉字类文字中任一种。C28.如C20-27中任一项所述的方法，还包括预先生成文字图像数据集合，所述预先生成文字图像数据集合的步骤包括：对每一张待处理文字图片进行图像处理，以获取各待处理文字图片对应的、满足第一预设尺寸的文字图像；对每一张文字图像，获取其对应的待处理文字图片关联的文字信息，根据所述文字信息与该文字图像生成相应的文字图像信息；汇集各文字图像信息，以形成文字图像数据集合。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的图像分类方法、用于对图像进行分类处理的卷积神经网络生成方法和/或用于对图像中的文字进行识别的卷积神经网络生成方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种图像分类方法，适于在移动终端中执行，所述移动终端包括图像库，所述图像库中存储有多张图像，所述方法包括步骤：

对图像库中的每一张图像，对该图像进行分类处理以获取其对应的类别；

若所述类别为文本类，则对该图像进行文字识别，以提取出该图像所包含的文本信息；

将所述文本信息与该图像的图像存储路径及图像名称进行关联存储。

2.如权利要求1所述的方法，当接收到用户键入的检索词时，所述方法还包括：

根据所述检索词查找是否存在与其相同或相似的文本信息；

若存在，则获取该文本信息关联的图像存储路径；

根据该图像存储路径查找到其对应的图像，将该图像和该文本信息向用户展示。

3.如权利要求1或2所述的方法，所述对该图像进行文字识别，以提取出该图像所包含的文本信息的步骤包括：

获取该图像所包含的各单个文字对应的文字图像区域；

分别对各文字图像区域进行文字识别，以确定各文字图像区域所包含的文字；

基于各文字生成该图像对应的文本信息。

4.如权利要求3所述的方法，所述基于各文字生成该图像对应的文本信息的步骤包括：

获取该图像中各文字图像区域之间的位置关系；

根据所述位置关系，对各文字图像区域对应的文字进行组合，以生成该图像对应的文本信息。

5.一种移动终端，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-4中任一项所述的方法的指令。

6.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由移动终端执行时，使得所述移动终端执行根据权利要求1-4中任一项的方法。

7.一种用于对图像进行分类处理的卷积神经网络生成方法，适于在计算设备中执行，所述方法包括步骤：

构建处理块，所述处理块包括卷积层；

分别构建池化层、全连接层和分类器；

根据多个处理块和池化层，结合所述全连接层和分类器构建卷积神经网络，所述卷积神经网络以处理块为输入，以所述分类器为输出；

根据预先获取的图像类别数据集合对所述卷积神经网络进行训练，以便所述分类器的输出指示输入图像所对应的类别，所述图像类别数据集合包括多个图像类别信息，每个图像类别信息包括满足预设尺寸的第一图像和该第一图像对应的类别信息。

8.一种用于对图像中的文字进行识别的卷积神经网络生成方法，适于在计算设备中执行，所述方法包括步骤：

构建第一处理块，所述第一处理块包括第一卷积层；

构建第二处理块，所述第二处理块包括第一全连接层；

分别构建第一池化层、第二全连接层和第一分类器；

根据一个或多个第一处理块、第一池化层和第二处理块，结合所述第二全连接层和第一分类器构建卷积神经网络，所述卷积神经网络以第一处理块为输入，以所述第一分类器为输出；

根据预先获取的文字图像数据集合对所述卷积神经网络进行训练，以便所述第一分类器的输出指示输入图像中包含的文字，所述文字图像数据集合包括多个文字图像信息，每个文字图像信息包括满足第一预设尺寸的文字图像和该文字图像中所包含的文字信息。

9.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求7所述的方法和/或权利要求8所述的方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求7所述的方法和/或权利要求8所述的方法。