WO2023178798A1

WO2023178798A1 - 图像分类方法、装置、设备及介质

Info

Publication number: WO2023178798A1
Application number: PCT/CN2022/090437
Authority: WO
Inventors: 唐小初; 张祎頔; 舒畅; 陈又新
Original assignee: 平安科技（深圳）有限公司
Priority date: 2022-03-25
Filing date: 2022-04-29
Publication date: 2023-09-28
Also published as: CN114677526A

Abstract

一种图像分类方法及一种图像分类装置，包括：提取待分类图像的图像特征及文本特征（S1，S2），对图像特征及文本特征进行融合，得到融合特征（S3），利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值（S4），利用预先训练的集成分类模型，根据融合特征及所述概率值对所述待分类图像进行图像分类分析，得到待分类图像的分类结果（S5），从而可以提升图像分类的精确性和分类效率。

Description

图像分类方法、装置、设备及介质

本申请要求于2022年03月25日提交中国专利局、申请号为202210299096.0，发明名称为“图像分类方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的智能决策技术领域，尤其涉及一种图像分类方法、装置、电子设备及计算机可读存储介质。

背景技术

随着基于神经网络的机器学习技术的进步，图像分类等图像检测在日常的生产或生活中有着越来越广泛的应用，例如，基于图像识别搜索类似商品，在交通行业中，通过抓取及分析驾驶图像，自动识别违规驾驶等。

发明人意识到，当前的图像分类较多是基于某一图像分类算法，构建相应的机器学习模型，利用所述机器学习模型提取所述图像的图像特征，进而对所述图像特征进行分类分析。但是单一机器学习模型，图像特征表示能力有限，不能从多方面对图像进行分析和学习，同时，单一机器学习模型不能很好的结合不同特性的多个机器学习模型的优势，导致单一机器学习模型的图像分类的精确性有待提升。

发明内容

本申请提供的一种图像分类方法，包括：

获取待分类图像，提取所述待分类图像的图像特征；

识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值；

利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。

本申请还提供一种图像分类装置，所述装置包括：

特征提取模块，用于获取待分类图像，提取所述待分类图像的图像特征，识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

特征融合模块，用于对所述图像特征及所述文本特征进行融合，得到融合特征；

分类分析模块，用于利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值，利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。

本申请还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个计算机程序；及

处理器，执行所述存储器中存储的程序以实现如下所述的图像分类方法：

获取待分类图像，提取所述待分类图像的图像特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现如下所述的图像分类方法：

获取待分类图像，提取所述待分类图像的图像特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

本发明实施例利用融合图像特征和文本特征后的融合特征以及所述融合特征对应的分类概率值作为所述预先训练的集成分类模型的输入，一方面，多模态的融合特征相较于单一模态的特征，特征更全面，信息价值更高，可以提升图像分类的精准度，同时，将所述融合特征对应的分类概率值作为输入之一，可以提升所述预先训练的集成分类模型的学习效率。另一方面，利用所述预先训练的集成分类模型可以有效结合不同特征的机器学习模型的优势，提升图像分类的准确性。

附图说明

图1为本申请一实施例提供的图像分类方法的流程示意图；

图2为本申请一实施例提供的图像分类方法中其中一个步骤的详细实施流程示意图；

图3为本申请一实施例提供的图像分类方法中其中一个步骤的详细实施流程示意图；

图4为本申请一实施例提供的图像分类装置的功能模块图；

图5为本申请一实施例提供的实现所述图像分类方法的电子设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种图像分类方法。所述图像分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述图像分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本申请一实施例提供的图像分类方法的流程示意图。在本实施例中，所述图像分类方法包括：

S1、获取待分类图像，提取所述待分类图像的图像特征；

本申请实施例中，以基于产品图像对产品按照颜色进行分类为例，说明所述图像分类方法。其中，所述待分类图像可以是预设数量的产品图像。所述待分类图像的图像特征包括但不限于图像中的产品轮廓特征数据、产品颜色特征数据。

本申请实施例中，可以利用预先构建的神经网络提取所述待分类图像的图像特征。

详细地，参阅图2所示，所述S1，包括：

S11、对所述待分类图像进行色彩空间归一化处理，得到标准图像；

S12、将每张所述标准图像按照预设比例划分为多个图像块，计算每个所述图像块中每个像素的像素梯度，根据所述像素梯度统计得到每个所述图像块的梯度直方图；

S13、将所述梯度直方图转换为向量，并将所有梯度直方图的向量进行拼接，得到所述待分类图像的图像特征。

本申请实施例中，可以利用预设的归一化公式对每张所述待分类图像中每个像素点的像素值进行归一化运算，以将所述待分类图像中每个像素点的像素值映射至预设值域内，实现对所述待分类图像进行色彩空间归一化，得到标准图像。

示例性地，所述归一化公式可以为：

其中，Z _i为所述待分类图像中第i个像素的归一化数值，x _i为所述待分类图像中第i个像素的像素值，max(X)为所述待分类图像中最大的像素值，min(X)为所述待分类图像中最小的像素值。

本申请实施例中，通过对所述待分类图像进行色彩空间归一化处理，可调节图像的对比度，降低图像局部的阴影和光照变化对图像特征所造成的影响，有利于提高提取图像特征的精确度。

进一步地，可将所述标准图像按照预设比例划分为多个图像块，并逐一计算每一个像素块中每个像素的像素梯度，通过计算像素梯度，可捕获所述标准图像中物体的轮廓信息，同时进一步弱化光照的干扰，提高图像特征的精确度。

其中，可利用预设的梯度算法计算每一个图像块中每个像素的像素梯度，所述梯度算法包括但不限于二维离散求导算法、soble算子等。

本申请实施例可根据所述像素梯度，统计出每个图像块中的梯度直方图，进而利用所述梯度直方图中各梯度的值，生成用于标识该梯度直方图的向量，并将所有梯度直方图的向量拼接为所述待分类图像的图像特征。

S2、识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

可以理解的是，在实际应用中，产品展示通常采用图片加文字的方式，例如，在商品浏览网页，除展示商品图片信息外，还会提供商品相关的名称、规格、颜色等文字描述信息。这种情况下，一种产品会包含由产品图像体现的图像特征以及由产品描述信息提供的文本特征。

本申请实施例中，由于步骤S1获取的是待分类图像的图像特征，仅是对所述待分类图像进行图像分析，并未对所述待分类图像的文本信息进行分析，因此，为了提高对图像分类的精确度，本申请实施例识别所述待分类图像中的文本内容，并对所述文本内容进行分析。

本申请实施例中，可以利用OCR技术识别所述待分类图像中的文本内容。

详细地，参阅图3所示，所述提取所述文本内容的文本特征

S21、对所述文本内容进行分词，得到多个文本分词；

S22、生成每个所述文本分词对应的词向量，利用所有所述词向量生成所述文本内容对应的文本向量矩阵；

S23、从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；

S24、按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；

S25、将所述特征分词的词向量进行拼接，得到所述文本内容的文本特征。

详细地，所述利用所有所述词向量生成所述文本内容对应的文本向量矩阵，包括：从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，并统计所述目标分词和所述目标分词的相邻文本分词在所述目标分词的预设邻域范围内共同出现的共现次数；利用每一个文本分词对应的共现次数构建共现矩阵；将所有所述词向量拼接为向量矩阵；利用所述共现矩阵和所述向量矩阵进行乘积运算，得到所述文本内容对应的文本向量矩阵。

本申请实施例中，由于所述文本内容由自然语言组成，若直接对所述文本内容进行分析，会占用大量的计算资源，导致分析的效率低下，因此，可将所述文本内容转换为文本向量矩阵，进而将由自然语言表达的文本内容转换为数值形式。

详细地，可采用预设的标准词典对所述文本内容进行分词处理，得到多个文本分词，所述标准词典中包含多个标准分词。

例如，将所述文本内容按照不同的长度在所述标准词典中进行检索，若能检索到与所述文本内容相同的标准分词，则可确定检索到的该标准分词为所述文本内容的文本分词。

示例性地，可利用每一个文本分词对应的所述共现次数构建如下所示的共现矩阵：

其中，X _i,j为所述文本内容中关键词i与该关键词i的相邻文本分词j的共现次数。

本申请实施例中，可采用word2vec模型、NLP(NaturalLanguageProcessing，自然语言处理)模型等具有词向量转换功能的模型分别将所述多个文本分词转换为词向量，进而将词向量拼接为所述文本内容的向量矩阵，并将所述向量矩阵与所述共现矩阵进行乘积运算，得到文本向量矩阵。

详细地，由于所述文本内容中包含大量的文本分词，但并非每一个文本分词均是该文本内容的特征，因此，需要对所述多个文本分词进行筛选，本申请实施例从所述多个文本分词中逐个选取其中一个文本分词为目标分词，根据所述目标分词的词向量与所述文本向量矩阵计算所述目标分词的关键值，以根据所述关键值筛选出对该文本内容具有代表性的特征分词，以实现获取该文本内容的文本特征。

具体地，所述根据所述目标分词的词向量与所述文本向量矩阵计算所述目标分词的关键值，包括：

利用如下关键值算法计算所述目标分词的关键值：

其中，K为所述关键值，|W|为所述文本向量矩阵，T为矩阵转置符号，||为求模符号，

为所述目标分词的词向量。

本申请实施例中，按照每一个文本分词的关键值从大到小的顺序从所述将所述多个文本分词中选取预设数量的文本分词为特征分词。

例如，所述多个文本分词包括：文本分词A、文本分词B和文本分词C，其中，文本分词A的关键值为80，文本分词B的关键值为70，文本分词C的关键值为30，若预设数量为2，则按照所述关键值从大到小的顺序，选取文本分词A和文本分词B为特征分词，并将所述文本分词A和所述文本分词B的词向量进行拼接，得到所述文本内容的文本特征。

本申请另一实施例中，可以采用预先构建的Bert模型提取所述文本内容的文本特征。

S3、对所述图像特征及所述文本特征进行融合，得到融合特征；

可以理解的是，在深度学习算法中，针对多模态特征，通常需要将多模态特征进行特征融合，所述特征融合可以在模型训练前、训练中以及训练后进行，本申请实施例中，针对所述图像特征及所述文本特征这两种特征，进行特征融合，利用融合特征进行后续的相关模型的训练。

详细地，所述对所述图像特征及所述文本特征进行融合，得到融合特征，包括：对所述图像特征进行矩阵转换处理，得到与所述文本特征相同维度的图像特征；利用预设的全连接层网络将所述文本特征及转换后的图像特征进行关联，得到融合特征。

本申请实施例中，所述图像特征及所述文本特征对应的维度可能不同，为了便于将两种特征进行融合计算，需要先将所述图像特征及所述文本特征对应的维度进行对齐。

本申请实施例中，可以通过reshape函数对所述图像特征进行矩阵转换处理。

本申请实施例中，所述预设的全连接层网络是基于深度学习的卷积神经网络。

示例性地，可以利用如下预设的融合函数，生成融合特征：

F＝dense(softmax(dot(Q,transpose(K)))*K

F为所述融合特征，Q为所述转换后的图像特征，K为所述文本特征，transpose为转置函数，dot为矩阵乘法，softmax为激活函数，dense为所述预设的全连接层网络的卷积计算算法。

本申请实施例中，通过对所述图像特征及所述文本特征进行融合，利用融合特征进行后续的分析，一方面可以减少后续的计算工作量，另一方面，可以提升融合后特征的有效信息量。

S4、利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值；

本申请实施例中，可分别利用预先训练的激活函数对所述融合特征进行计算，以计算所述融合特征中每一个特征与预设多个分类标签之间的概率值，其中，所述概率值是指每一个特征是某一种分类的概率值，当某一特征与某一分类标签之间的相对概率越高，则该特征是用于表达该分类标签的概率越高。

详细地，所述激活函数包括但不限于softmax激活函数、sigmoid激活函数、relu激活函数，所述预设的多个发呢类标签包括但不限于蓝色、白色、黄色、灰色等。

本申请其中一个实施例中，可利用如下激活函数计算所述概率值：

其中，p(a|x)为所述融合特征x和分类标签a之间的相对概率，w _a为分类标签a的权重向量，T为求转置运算符号，exp为求期望运算符号，A为预设的多个分类标签的数量。

S5、利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。；

本申请实施例中，所述预先训练的集成分类模型可以是基于XGBoost(X－GradientBoostingDecisionTree，超梯度提升树)集成学习原理构建的预设数量的分类器模型，也可以是基于K－fold投票机制构建的预设数量的分类器模型。

本申请其中一个实施例中，可依据K－fold投票机制，根据所述预先训练的集成分类每个所述分类器针对每张所述待分类图像输出的分类概率值，进行相关的投票操作，确定每张所述待分类图像的最终分类结果。

本申请另一实施例中，所述预先训练的集成分类模型根据每张所述待分类图像的融合特征及所述融合特征对应的概率值，利用XGBoost学习原理自动学习所述预先训练的集成分类模型中每个所述分类器的加权概率，从而保障对所述待分类图像分类结果的准确性。

本申请实施例中，利用所述预先训练的分类模型中预设数量的分类器对所述待分类图像进行分类分析，其中，每个所述分类器针对每张所述待分类图像输出分类概率值，可依据XGBoost集成学习原理，根据不同分类器的权值以及每张所述分类图像的分类概率值，决策每张所述待分类图像的最终分类结果。

本申请实施例利用融合图像特征和文本特征后的融合特征以及所述融合特征对应的分类概率值作为所述预先训练的集成分类模型的输入，一方面，多模态的融合特征相较于单一模态的特征，特征更全面，信息价值更高，可以提升图像分类的精准度，同时，将所述融合特征对应的分类概率值作为输入之一，可以提升所述预先训练的集成分类模型的学习效率。另一方面，利用所述预先训练的集成分类模型可以有效结合不同特征的机器学习模型的优势，提升图像分类的准确性。

如图4所示，是本申请一实施例提供的图像分类装置的功能模块图。

本申请所述图像分类装置100可以安装于电子设备中。根据实现的功能，所述图像分类装置100可以包括特征提取模块101、特征融合模块102、分类分析模块103。本申请所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述特征提取模块101，用于获取待分类图像，提取所述待分类图像的图像特征，识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

所述特征融合模块102，用于对所述图像特征及所述文本特征进行融合，得到融合特征；

所述分类分析模块103，用于利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值，利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。

详细地，本申请实施例中所述图像分类装置100中的各个模块在使用时采用与上述的图1至图3中所述的图像分类方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图5所示，是本申请一实施例提供的实现图像分类方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如图像分类程序。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(SmartMediaCard，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(FlashCard)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如图像分类程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(CentralProcessingunit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如图像分类程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheralcomponentinterconnect，简称PCI)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi－Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI－FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight－EmittingDiode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的图像分类程序是多个指令的组合，在所述处理器10中运行时，可以实现：

获取待分类图像，提取所述待分类图像的图像特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read－OnlyMemory)。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质可以是易失性的，也可以是非易失性的。所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

获取待分类图像，提取所述待分类图像的图像特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

在本申请所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种图像分类方法，其中，所述方法包括：

获取待分类图像，提取所述待分类图像的图像特征；

识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值；

利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。
如权利要求1所述的图像分类方法，其中，所述提取所述待分类图像的图像特征，包括：

对所述待分类图像进行色彩空间归一化处理，得到标准图像；

将每张所述标准图像按照预设比例划分为多个图像块，计算每个所述图像块中每个像素的像素梯度，根据所述像素梯度统计得到每个所述图像块的梯度直方图；

将所述梯度直方图转换为向量，并将所有梯度直方图的向量进行拼接，得到所述待分类图像的图像特征。
如权利要求1所述的图像分类方法，其中，所述提取所述文本内容的文本特征，包括：

对所述文本内容进行分词，得到多个文本分词；

生成每个所述文本分词对应的词向量，利用所有所述词向量生成所述文本内容对应的文本向量矩阵；

从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；

按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；

将所述特征分词的词向量进行拼接，得到所述文本内容的文本特征。
如权利要求3所述的图像分类方法，其中，所述利用所有所述词向量生成所述文本内容对应的文本向量矩阵，包括：

从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，并统计所述目标分词和所述目标分词的相邻文本分词在所述目标分词的预设邻域范围内共同出现的共现次数；

利用每一个文本分词对应的共现次数构建共现矩阵；

将所有所述词向量拼接为向量矩阵；

利用所述共现矩阵和所述向量矩阵进行乘积运算，得到所述文本内容对应的文本向量矩阵。
如权利要求1所述的图像分类方法，其中，所述对所述图像特征及所述文本特征进行融合，得到融合特征，包括：

对所述图像特征进行矩阵转换处理，得到与所述文本特征相同维度的图像特征；

利用预设的全连接层网络将所述文本特征及转换后的图像特征进行关联，得到融合特征。
如权利要求5所述的图像分类方法，其中，所述利用预设的全连接层网络将所述文本特征及转换后的图像特征进行关联，得到融合特征，包括：

利用如下预设的融合函数，生成融合特征：

F＝dense(softmax(dot(Q,transpose(K)))*K

F为所述融合特征，Q为所述转换后的图像特征，K为所述文本特征，transpose为转置函数，dot为矩阵乘法，softmax为激活函数，dense为所述预设的全连接层网络的卷积计算算法。
如权利要求3所述的图像分类方法，其中，所述根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值，包括：

利用如下关键值算法计算所述目标分词的关键值：

其中，K为所述关键值，|W|为所述文本向量矩阵，T为矩阵转置符号，||为求模符号，
为所述目标分词的词向量。
一种图像分类装置，其中，所述装置包括：

特征提取模块，用于获取待分类图像，提取所述待分类图像的图像特征，识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

特征融合模块，用于对所述图像特征及所述文本特征进行融合，得到融合特征；

分类分析模块，用于利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值，利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。
一种电子设备，其中，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如下所述的图像分类方法：

获取待分类图像，提取所述待分类图像的图像特征；

识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值；

利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。
如权利要求9所述的电子设备，其中，所述提取所述待分类图像的图像特征，包括：

对所述待分类图像进行色彩空间归一化处理，得到标准图像；

将每张所述标准图像按照预设比例划分为多个图像块，计算每个所述图像块中每个像素的像素梯度，根据所述像素梯度统计得到每个所述图像块的梯度直方图；

将所述梯度直方图转换为向量，并将所有梯度直方图的向量进行拼接，得到所述待分类图像的图像特征。
如权利要求9所述的电子设备，其中，所述提取所述文本内容的文本特征，包括：

对所述文本内容进行分词，得到多个文本分词；

生成每个所述文本分词对应的词向量，利用所有所述词向量生成所述文本内容对应的文本向量矩阵；

从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；

按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；

将所述特征分词的词向量进行拼接，得到所述文本内容的文本特征。
如权利要求11所述的电子设备，其中，所述利用所有所述词向量生成所述文本内容对应的文本向量矩阵，包括：

从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，并统计所述目标分词和所述目标分词的相邻文本分词在所述目标分词的预设邻域范围内共同出现的共现次数；

利用每一个文本分词对应的共现次数构建共现矩阵；

将所有所述词向量拼接为向量矩阵；

利用所述共现矩阵和所述向量矩阵进行乘积运算，得到所述文本内容对应的文本向量矩阵。
如权利要求9所述的电子设备，其中，所述对所述图像特征及所述文本特征进行融合，得到融合特征，包括：

对所述图像特征进行矩阵转换处理，得到与所述文本特征相同维度的图像特征；

利用预设的全连接层网络将所述文本特征及转换后的图像特征进行关联，得到融合特征。
如权利要求13所述的电子设备，其中，所述利用预设的全连接层网络将所述文本特征及转换后的图像特征进行关联，得到融合特征，包括：

利用如下预设的融合函数，生成融合特征：

F＝dense(softmax(dot(Q,transpose(K)))*K

F为所述融合特征，Q为所述转换后的图像特征，K为所述文本特征，transpose为转置函数，dot为矩阵乘法，softmax为激活函数，dense为所述预设的全连接层网络的卷积计算算法。
一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现如下所述的图像分类方法：

获取待分类图像，提取所述待分类图像的图像特征；

识别所述待分类图像中的文本内容，提取所述文本内容的文本特征；

对所述图像特征及所述文本特征进行融合，得到融合特征；

利用预先训练的激活函数计算所述融合特征与预设的多个分类标签之间的概率值；

利用预先训练的集成分类模型，根据所述融合特征及所述概率值对所述待分类图像进行图像分类分析，得到所述待分类图像的分类结果。
如权利要求15所述的计算机可读存储介质，其中，所述提取所述待分类图像的图像特征，包括：

对所述待分类图像进行色彩空间归一化处理，得到标准图像；

将每张所述标准图像按照预设比例划分为多个图像块，计算每个所述图像块中每个像素的像素梯度，根据所述像素梯度统计得到每个所述图像块的梯度直方图；

将所述梯度直方图转换为向量，并将所有梯度直方图的向量进行拼接，得到所述待分类图像的图像特征。
如权利要求15所述的计算机可读存储介质，其中，所述提取所述文本内容的文本特征，包括：

对所述文本内容进行分词，得到多个文本分词；

生成每个所述文本分词对应的词向量，利用所有所述词向量生成所述文本内容对应的文本向量矩阵；

从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；

按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；

将所述特征分词的词向量进行拼接，得到所述文本内容的文本特征。
如权利要求17所述的计算机可读存储介质，其中，所述利用所有所述词向量生成所述文本内容对应的文本向量矩阵，包括：

从所述多个文本分词中逐个选取其中一个文本分词作为目标分词，并统计所述目标分词和所述目标分词的相邻文本分词在所述目标分词的预设邻域范围内共同出现的共现次数；

利用每一个文本分词对应的共现次数构建共现矩阵；

将所有所述词向量拼接为向量矩阵；

利用所述共现矩阵和所述向量矩阵进行乘积运算，得到所述文本内容对应的文本向量矩阵。
如权利要求15所述的计算机可读存储介质，其中，所述对所述图像特征及所述文本特征进行融合，得到融合特征，包括：

对所述图像特征进行矩阵转换处理，得到与所述文本特征相同维度的图像特征；

利用预设的全连接层网络将所述文本特征及转换后的图像特征进行关联，得到融合特征。
如权利要求19所述的计算机可读存储介质，其中，所述利用预设的全连接层网络将所述文本特征及转换后的图像特征进行关联，得到融合特征，包括：

利用如下预设的融合函数，生成融合特征：

F＝dense(softmax(dot(Q,transpose(K)))*K

F为所述融合特征，Q为所述转换后的图像特征，K为所述文本特征，transpose为转置函数，dot为矩阵乘法，softmax为激活函数，dense为所述预设的全连接层网络的卷积计算算法。