CN114661988A

CN114661988A - 基于图像识别的推荐方法、装置、设备及存储介质

Info

Publication number: CN114661988A
Application number: CN202210262517.2A
Authority: CN
Inventors: 易颖
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-24

Abstract

本发明涉及图像识别技术领域，公开了一种基于图像识别的推荐方法、装置、设备及存储介质。本方法包括：获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，得到多张待识别图像；将待识别图像输入图像识别模型，通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；根据类别识别结果，确定目标用户对应的偏好特征向量；将用户数据和偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。本发明通过自动化采集衣橱数据，以实现为用户推荐最合适地搭配方案，解决现有技术中的问题。

Description

基于图像识别的推荐方法、装置、设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于图像识别的推荐方法、装置、设备及存储介质。

背景技术

衣着穿扮在个人形象上起了很大的视觉影响作用，服装在无声地帮你交流、沟通，传递你的信息，告诉人们你的社会地位、个性、职业、收入、教养、品位、发展前途等等。甚至外在形象与事业成功密切相关。对于每天的服装搭配，每个人总会觉得衣橱里总是少了一件衣服，而且想要提升形象，必须找相关的形象顾问。

市面也有相关App可以用来模拟搭配服装，然而大部分数据来源于各服装电商采集，是被动式接收信息，无法做到根据个人喜好来推荐每日搭配，也无法采集相关气候、材质等信息做到应季推荐。同时无法充分利用现有衣橱中的服装对个人每日出席场景需要来推荐搭配，感觉过时了就得扔，制造了很多的生活垃圾。因此，如何通过自动化采集衣橱数据，以实现为用户推荐最合适地搭配方案成了本领域技术人员需要解决的技术问题。

发明内容

本发明的主要目的在于通过自动化采集衣橱数据，以实现为用户推荐最合适地搭配方案，解决技术问题。

本发明第一方面提供了基于图像识别的推荐方法，包括：获取目标用户的用户数据，根据所述目标用户的衣柜中不同季节和衣物搭配策略的组合，对所述衣柜内的衣服进行成像，得到多张待识别图像；将所述待识别图像输入预设图像识别模型的卷积网络，生成所述待识别图像的多通道特征图，并基于各通道特征图的相关性确定所述待识别图像的显著性区域；通过所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果；对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量；将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据所述预测值将待推荐对象推荐至目标用户。

可选地，在本发明第一方面的第一种实现方式中，所述基于各通道特征图的相关性确定所述待识别图像的显著性区域包括：分别对所述通道特征图进行全局池化处理，得到所述通道特征图的全局特征；基于所述全局特征确定所述通道特征图之间的相关性，根据所述相关性确定所述通道特征图的激活权重；根据所述激活权重对所述通道特征图的权重进行重标定，得到所述通道特征图对应的注意力图；基于所述注意力图，调用非极大抑制算法确定所述待识别图像中的显著性区域。

可选地，在本发明第一方面的第二种实现方式中，所述基于所述注意力图，调用非极大抑制算法确定所述待识别图像中的显著性区域包括：将所述注意力图映射至所述待识别图像中，得到所述注意力图的映射区域；基于所述注意力图的权重确定所述映射区域的概率值；根据所述映射区域的概率值和所述映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的目标映射区域；根据所述目标映射区域确定所述待识别图像中的显著性区域。

可选地，在本发明第一方面的第三种实现方式中，所述对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量包括：确定所述待识别图像的类别识别结果对应的各文本数据；根据所述待识别图像，确定所述各文本数据对应的文本特征；根据所述待识别图像的类别识别结果对应的各文本数据以及所述各文本数据对应的文本特征，确定所述目标用户对应的偏好特征向量。

可选地，在本发明第一方面的第四种实现方式中，所述根据所述预测值将待推荐对象推荐至目标用户包括：根据所述多个预测值从待推荐对象中，确定目标待推荐对象；获取分别针对所述多个预测值的权重参数；根据所述权重参数，对所述目标待推荐对象进行排序；按照排序结果，将所述目标待推荐对象推荐至目标用户。

可选地，在本发明第一方面的第五种实现方式中，所述根据所述多个预测值从待推荐对象中，确定目标待推荐对象包括：将所述多个预测值中针对相同待推荐对象的期望概率值相加，得到目标概率值；根据所述目标概率值，从所述待推荐对象中确定目标待推荐对象。

可选地，在本发明第一方面的第六种实现方式中，在所述将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据所述预测值将待推荐对象推荐至目标用户之前，还包括：获取用户的历史行为数据，并对所述历史行为数据进行特征提取，得到所述用户的行为特征数据；搭建待训练的初始内容推荐模型，将所述行为特征数据输入所述初始内容推荐模型进行训练，并计算训练后的初始内容推荐模型的损失函数；根据所述损失函数更新所述初始内容推荐模型的模型参数，直至满足训练结束条件，得到目标内容推荐模型。

本发明第二方面提供了一种基于图像识别的推荐装置，包括：获取模块，用于获取目标用户的用户数据，根据所述目标用户的衣柜中不同季节和衣物搭配策略的组合，对所述衣柜内的衣服进行成像，得到多张待识别图像；确定模块，用于将所述待识别图像输入预设图像识别模型的卷积网络，生成所述待识别图像的多通道特征图，并基于各通道特征图的相关性确定所述待识别图像的显著性区域；分类模块，用于通过所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果；分析模块，用于对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量；推荐模块，用于将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据所述预测值将待推荐对象推荐至目标用户。

可选地，在本发明第二方面的第一种实现方式中，所述确定模块包括：全局池化单元，用于分别对所述通道特征图进行全局池化处理，得到所述通道特征图的全局特征；第一确定单元，用于基于所述全局特征确定所述通道特征图之间的相关性，根据所述相关性确定所述通道特征图的激活权重；标定单元，用于根据所述激活权重对所述通道特征图的权重进行重标定，得到所述通道特征图对应的注意力图；第二确定单元，用于基于所述注意力图，调用非极大抑制算法确定所述待识别图像中的显著性区域。

可选地，在本发明第二方面的第二种实现方式中，所述第二确定单元具体用于：将所述注意力图映射至所述待识别图像中，得到所述注意力图的映射区域；基于所述注意力图的权重确定所述映射区域的概率值；根据所述映射区域的概率值和所述映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的目标映射区域；根据所述目标映射区域确定所述待识别图像中的显著性区域。

可选地，在本发明第二方面的第三种实现方式中，所述分析模块具体用于：确定所述待识别图像的类别识别结果对应的各文本数据；根据所述待识别图像，确定所述各文本数据对应的文本特征；根据所述待识别图像的类别识别结果对应的各文本数据以及所述各文本数据对应的文本特征，确定所述目标用户对应的偏好特征向量。

可选地，在本发明第二方面的第四种实现方式中，所述推荐模块包括：第三确定单元，用于根据所述多个预测值从待推荐对象中，确定目标待推荐对象；获取单元，用于获取分别针对所述多个预测值的权重参数；排序单元，用于根据所述权重参数，对所述目标待推荐对象进行排序；推荐单元，用于按照排序结果，将所述目标待推荐对象推荐至目标用户。

可选地，在本发明第二方面的第五种实现方式中，所述第三确定单元具体用于：将所述多个预测值中针对相同待推荐对象的期望概率值相加，得到目标概率值；根据所述目标概率值，从所述待推荐对象中确定目标待推荐对象。

可选地，在本发明第二方面的第六种实现方式中，所述基于图像识别的推荐装置还包括：特征提取模块，用于获取用户的历史行为数据，并对所述历史行为数据进行特征提取，得到所述用户的行为特征数据；训练模块，用于搭建待训练的初始内容推荐模型，将所述行为特征数据输入所述初始内容推荐模型进行训练，并计算训练后的初始内容推荐模型的损失函数；更新模块，用于根据所述损失函数更新所述初始内容推荐模型的模型参数，直至满足训练结束条件，得到目标内容推荐模型。

本发明第三方面提供了基于图像识别的推荐设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于图像识别的推荐设备执行上述的基于图像识别的推荐方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于图像识别的推荐方法的步骤。

本发明提供的技术方案中，通过获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，得到多张待识别图像；将待识别图像输入图像识别模型，通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；根据类别识别结果，确定目标用户对应的偏好特征向量；将用户数据和偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。本发明通过自动化采集衣橱数据，以实现为用户推荐最合适地搭配方案，解决现有技术中的问题。

附图说明

图1为本发明提供的基于图像识别的推荐方法的第一个实施例示意图；

图2为本发明提供的基于图像识别的推荐方法的第二个实施例示意图；

图3为本发明提供的基于图像识别的推荐方法的第三个实施例示意图；

图4为本发明提供的基于图像识别的推荐方法的第四个实施例示意图；

图5为本发明提供的基于图像识别的推荐方法的第五个实施例示意图；

图6为本发明提供的基于图像识别的推荐装置的第一个实施例示意图；

图7为本发明提供的基于图像识别的推荐装置的第二个实施例示意图；

图8为本发明提供的基于图像识别的推荐设备的一个实施例示意图。

具体实施方式

本发明实施例提供的基于图像识别的推荐方法、装置、设备及存储介质，先通过获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，得到多张待识别图像；将待识别图像输入图像识别模型，通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；根据类别识别结果，确定目标用户对应的偏好特征向量；将用户数据和偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。本发明通过自动化采集衣橱数据，以实现为用户推荐最合适地搭配方案，解决现有技术中的问题。

本发明的说明书和权利要求书及上述附中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于图像识别的推荐方法的第一个实施例包括：

101、获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，对衣柜内的衣服进行成像，得到多张待识别图像；

本实施例中，衣橱接入采集数据的摄像头，在衣橱相关合适角度安装***头，通过摄像头提供的接口，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，对衣柜内的衣服进行成像，采集整个衣橱所有的视频数据，得到多张待识别图像。

102、将待识别图像输入预设图像识别模型的卷积网络，生成待识别图像的多通道特征图，并基于各通道特征图的相关性确定待识别图像的显著性区域；

本实施例中，首先获取待识别图像，将该待识别图像输入图像识别模型的卷积网络中进行卷积等变换操作，进而得到待识别图像对应的多通道特征图，这里的卷积网络可以采用InceptionV4网络(业界暂无中文译名)，InceptionV4是一种深度卷积神经网络，是本申请实施例中用于图像特征提取所采用的一个基本网络结构。当然本领域技术人员也可以根据实际需要采用其他类型的卷积神经网络如基于区域的卷积神经网络(Region-basedConvolutionalNeural Networks，简称R-CNN)等，在此不一一列举。

进一步地，注意力机制(attention)来作为图像细粒度识别的基础，注意力机制模仿了生物观察行为的内部过程，是一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务和图像处理任务领域。

根据各通道特征图之间的相关性来确定注意力图具体可以采用挤压-激活网络(Squeeze-and-Excitation Networks，简称SENet)来实现，其核心思想是注意力主要分布在特征通道(channels)中，表现在图像上就是对不同的图像通道的关注程度不同，进而能够学习到更合理更精准的图像细粒度特征。

注意力图反映的是图像中可能值得关注的区域，为了得到更为精准的图像显著性区域，在根据各通道之间的相关性确定了多个注意力图后，还可以对多个注意力图进行进一步筛选以确定图像中的显著性区域(attention crop)。

如前所述，现有技术中根据attention map确定attention crop的方式由于没有充分利用各通道的attention map之间的位置关系，选取最为合理的attention crop，导致最终得到的模型的识别效果仍有待提升，因此本申请实施例中对于attention crop采用非极大值抑制(Non Maximum Suppression，简称NMS)算法来确定，其原理就是抑制不是极大值的元素，可以理解为局部最大搜索，在图像识别领域主要用于删除高度冗余的矩形框。

103、通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；

本实施例中，通过图像识别模型的分类网络对显著性区域进行分类，基于多个所述注意力图，利用非极大抑制算法确定待识别图像中的显著性区域包括：将各注意力图映射至所述待识别图像中，得到各注意力图的映射区域；基于各注意力图的权重确定各映射区域的概率值；根据各映射区域的概率值和映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的映射区域；根据保留的映射区域确定所述显著性区域。

具体实施时，可以先将注意力图attention map映射回待识别图像上，对应的可以得到有多个矩形框标记的图像，之后进行NMS过程。具体地，根据每个注意力图的权重确定图像中各个矩形框的概率值，然后以最大概率值对应的矩形框为基准，分别计算其他矩形框与最大概率值对应的矩形框的交并比(Intersection-over-Union，简称IoU)并进行局部搜索，保留多个与局部概率极大值对应的矩形框，最后根据保留的矩形框对应的概率值大小确定显著性区域对应的图像。交并比(Intersection-over-Union，IoU)是目标检测中使用的一个概念，是计算产生的候选框与原标记框的交叠率，即它们的交集与并集的比值。

举例说明，假设上述选取的attention map有N＝6个通道，对应的平均响应大小顺序为：A<B<C<D<E<F，则1)先确定最大概率矩形框F(即指响应最大的矩形框)并作为保留下来的矩形框；2)从最大概率矩形框F开始，分别判断A～E与F的重叠度即两框的交并比IoU是否大于某个设定的阈值，假设B、D与F的重叠度超过阈值，那么B、D就不予保留；3)从剩下的矩形框A、C、E中，选择概率值最大的E，标记为要保留下来的矩形框，然后判断E与A、C的交并比，去掉交并比超过设定阈值的矩形框。以此类推，直到剩下的矩形框没有了，标记完所有要保留下来的矩形框，选取保留下来的矩形框中排序最靠前即响应最大的一个矩形框(当然也可以保留多个，可以根据实际参数控制输出矩形框的数量)作为attention crop。

在另一个实施例中，所述利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果包括：根据所述显著性区域对所述待识别图像进行裁剪，得到显著性图像；将所述显著性图像输入所述分类网络，得到所述显著性图像的类别识别结果。

104、对类别识别结果对应的文本数据进行分析，确定目标用户对应的偏好特征向量；

本实施例中，服务器将各文字形式的属性信息转化成相应的特征向量的同时，可以统计出各属性信息对应的属性频次，例如长袖上衣4件、裙子10件、裤子3条等，而后，服务器可以将基于文字转化所得到的各特征向量以及各属性频次进行合并，得到该用户的偏好特征向量。如，可以将各属性信息对应的属性频次作为权重，然后对各衣服的属性信息对应的特征向量进行加权求和，得到用户对应的偏好特征向量。

105、将用户数据和目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。

本实施例中，将用户数据和目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值的排序结果，在一应用程序的用户界面上，展示目标推荐对象，从而将目标待推荐对象推荐至用户。其中，应用程序可以为用于进行新闻资讯查看的应用程序，也可以为浏览器。

在具体实现中，在向用户展示目标待推荐对象时，可以在针对一展示目标待推荐对象的预设大小区域内，显示针对该目标待推荐对象的概览内容，用户可以通过点击该预设大小区域，触发展开该目标待推荐对象的全部内容。

本发明实施例中，通过获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，得到多张待识别图像；将待识别图像输入图像识别模型，通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；根据类别识别结果，确定目标用户对应的偏好特征向量；将用户数据和偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。本发明通过自动化采集衣橱数据，以实现为用户推荐最合适地搭配方案，解决现有技术中的问题。

请参阅图2，本发明实施例中基于图像识别的推荐方法的第二个实施例包括：

201、获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，对衣柜内的衣服进行成像，得到多张待识别图像；

202、将待识别图像输入预设图像识别模型的卷积网络，生成待识别图像的多通道特征图，分别对通道特征图进行全局池化处理，得到通道特征图的全局特征；

本实施例中，将该待识别图像输入图像识别模型的卷积网络中进行卷积等变换操作，进而得到待识别图像对应的多通道特征图，这里的卷积网络可以采用InceptionV4网络(业界暂无中文译名)，InceptionV4是一种深度卷积神经网络，是本申请实施例中用于图像特征提取所采用的一个基本网络结构。当然本领域技术人员也可以根据实际需要采用其他类型的卷积神经网络如基于区域的卷积神经网络(Region-based ConvolutionalNeuralNetworks，简称R-CNN)等，在此不一一列举。

203、基于全局特征确定通道特征图之间的相关性，根据相关性确定通道特征图的激活权重；

本实施例中，所述基于各通道特征图的相关性确定多个注意力图包括：对各通道特征图分别进行全局池化处理，得到各通道特征图的全局特征；基于各全局特征确定各通道特征图之间的相关性，根据所述相关性确定各通道特征图的激活权重；根据所述激活权重对各通道特征图的权重进行重标定，根据重标定结果确定多个所述注意力图。

204、根据激活权重对通道特征图的权重进行重标定，得到通道特征图对应的注意力图；

本实施例中，首先是挤压Squeeze操作，顺着空间维度来进行特征压缩，将特征图U中每个二维的特征通道通过全局池化操作变成一个实数，这个实数某种程度上具全局的感受野，并且输出的维度(1x1xC)和输入的特征通道数(WxHxC)相匹配，它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野。

其次是激活Excitation操作，它是一个类似于循环神经网络中门的机制，通过参数来为每个特征通道生成权重，其中参数被学习用来表征特征通道间的相关性。具体地可以将上面产生的全局特征图1x1xC进行一系列非线性映射，比如采用全连接(fullyconnected layers，简称FC)+线性修正单元激活函数(Rectified Linear Units，简称RELU)+全连接的方式，最后利用一个sigmoid激活函数(一种神经网络的阈值函数)得到每个通道特征图的激活权重。

最后是特征衡量Fscale或者重标定Reweight操作，将上述得到的激活权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征图U上，在通道维度上完成对原始的各通道权重的重标定。

205、将注意力图映射至待识别图像中，得到注意力图的映射区域；

本实施例中，所述基于多个所述注意力图，利用非极大抑制算法确定待识别图像中的显著性区域包括：将各注意力图映射至所述待识别图像中，得到各注意力图的映射区域；基于各注意力图的权重确定各映射区域的概率值；根据各映射区域的概率值和映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的映射区域；根据保留的映射区域确定所述显著性区域。

206、基于注意力图的权重确定映射区域的概率值；

本实施例中，假设上述选取的attention map有N＝6个通道，对应的平均响应大小顺序为：A<B<C<D<E<F，则1)先确定最大概率矩形框F(即指响应最大的矩形框)并作为保留下来的矩形框；2)从最大概率矩形框F开始，分别判断A～E与F的重叠度即两框的交并比IoU是否大于某个设定的阈值，假设B、D与F的重叠度超过阈值，那么B、D就不予保留；3)从剩下的矩形框A、C、E中，选择概率值最大的E，标记为要保留下来的矩形框，然后判断E与A、C的交并比，去掉交并比超过设定阈值的矩形框。以此类推，直到剩下的矩形框没有了，标记完所有要保留下来的矩形框，选取保留下来的矩形框中排序最靠前即响应最大的一个矩形框(当然也可以保留多个，可以根据实际参数控制输出矩形框的数量)作为attention crop。。

207、根据映射区域的概率值和映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的目标映射区域；

本实施例中，利用NMS算法得到的显著性区域实质上是一种特征图，通过将该显著性区域映射回待识别图像中，可以得到该显著性区域在待识别图像中的位置。为了对图像中的显著性区域实现增强学习的目的，将待识别图像中对应的显著性区域裁剪下来，通过尺寸变换的方式变换至和原图像相同大小的图像，进而得到显著性图像，之后将该显著性图像送入分类网络，得到该显著性图像的类别识别结果。

208、根据目标映射区域确定待识别图像中的显著性区域；

本实施例中，根据各通道特征图的相关性，利用图像识别模型中的SENet(Squeeze-and-Excitation Networks)对各通道特征图进行挤压-激活操作，得到多个注意力图，利用非极大值抑制算法将多个注意力图进行处理，得到待识别图像的显著性区域。

209、通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；

210、对类别识别结果对应的文本数据进行分析，确定目标用户对应的偏好特征向量；

211、将用户数据和目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。

本实施例中步骤201、209-211与第一实施例中的步骤101、103-105类似，此处不再赘述。

请参阅图3，本发明实施例中基于图像识别的推荐方法的第三个实施例包括：

301、获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，对衣柜内的衣服进行成像，得到多张待识别图像；

302、将待识别图像输入预设图像识别模型的卷积网络，生成待识别图像的多通道特征图，并基于各通道特征图的相关性确定待识别图像的显著性区域；

303、通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；

304、确定待识别图像的类别识别结果对应的各文本数据；

本实施例中，每个衣服都有其对应的文本数据，所以，服务器可以根据衣服的文本数据。所述文本数据涉及有各衣服对应的各属性信息，例如颜色(红色、黄色)、款式(长袖、短袖等)等，这些信息可以在一定程度上反映出用户的个人偏好。

305、根据待识别图像，确定各文本数据对应的文本特征；

本实施例中，每个衣服都有其对应的文本数据，所以，服务器可以根据衣服的文本数据，确定该衣服对应的文本特征。由于衣服的文本特征包含有多种类型，所以，可以先分别确定出每种文本特征对应的特征向量，然后再通过每种文本特征对应的特征向量，确定出该衣服对应的文本特征。

在实际应用中，服务器确定每种文本特征的方式可以有多种，例如，在确定衣服的标准衣服名称所对应的特征向量时，可以按照预设的方式，确定出该衣服对应的标准衣服名称中每个字的特征向量，并将每个字的特征向量进行合并计算，进而得到该衣服的标准衣服名称对应的特征向量；再例如，服务器也可以采用多头注意力机制(Multi-HeadAttention)，将该衣服对应的标准衣服名称中首字的特征向量，作为该衣服的标准衣服名称对应的特征向量。其中，由于采用的是Multi-Head Attention，所以，虽然确定出的是该标准衣服名称中首字的特征向量，但是，该首字的特征向量中实际上还涉及该标准衣服名称中除首字外的其他字的部分特征向量，因此，可以将该标准衣服名称中首字的特征向量，作为该衣服的标准衣服名称对应的特征向量。而对于衣服的实际衣服名称对应的特征向量来说，与标准衣服名称对应的特征向量的确定方式相似，在此就不详细赘述了。

对于衣服的属性信息来说，服务器也可以采用多种方式确定衣服的属性信息所对应的特征向量。例如，若衣服的属性信息中涉及有多个属性，则服务器可以根据预设的属性排列顺序对多个属性进行排序，而后，服务器可以先确定每个属性的特征向量，并将每个属性的特征向量按照该排序进行合并，从而得到衣服的属性信息所对应的特征向量。再例如，服务器也可以采用Multi-Head Attention，确定出该衣服对应的属性信息中首个属性的特征向量，并将该首个属性的特征向量，作为该衣服的属性信息对应的特征向量。与上述原理相同，采用Multi-Head Attention所确定出的首个属性的特征向量，实际上还涉及该衣服的属性信息中除首个属性外的其他属性的部分特征向量。

306、根据待识别图像的类别识别结果对应的各文本数据以及各文本数据对应的文本特征，确定目标用户对应的偏好特征向量；

本实施例中，服务器获取历史订单信息中涉及有各衣服对应的各属性信息，例如颜色(红色、黄色)、款式(长袖、短袖等)等，这些信息可以在一定程度上反映出用户的个人偏好。基于此，服务器可以基于历史订单信息中涉及的各衣服对应的属性信息，确定出该用户对应的偏好特征向量。其中服务器确定该偏好特征向量的方式可以有多种，例如，服务器可以将这些文字形式的属性信息转化成相应的特征向量，并将这些特征向量进行拼接，得到该用户的偏好特征向量。

需要说明的是，历史订单信息涉及的各衣服可能还隐含有其他搭配衣服，在这种情况下，服务器从该历史订单信息中确定出的各衣服对应的各属性信息还需要包括这些其他搭配衣服的属性信息。例如，长袖连衣裙是一个标准衣服名，但实际包含有长袖、连衣裙两种衣服，但是在历史信息中很可能只包含有连衣裙，而不包括长袖，所以，服务器除了需要基于历史信息确定出连衣裙的属性信息以外，还需要确定出长袖连衣裙中长袖的属性信息

307、将用户数据和目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。

本实施例中步骤301-303、307与第一实施例中的步骤101-103、105类似，此处不再赘述。

请参阅图4，本发明实施例中基于图像识别的推荐方法的第四个实施例包括：

401、获取目标用户的用户数据，根据所述目标用户的衣柜中不同季节和衣物搭配策略的组合，对所述衣柜内的衣服进行成像，得到多张待识别图像；

402、将所述待识别图像输入预设图像识别模型的卷积网络，生成所述待识别图像的多通道特征图，并基于各通道特征图的相关性确定所述待识别图像的显著性区域；

403、通过所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果；

404、对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量；

405、将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，将所述多个预测值中针对相同待推荐对象的期望概率值相加，得到目标概率值；

本实施例中，所述内容推荐模型还可以具有预设数目的隐藏层，以及与最后一层隐藏层连接的全连接层，所述全连接层分别与所述多个输出节点连接；所述全连接层用于将所述最后一层隐藏层的输出结果拆分，并将拆分的输出结果分别输入到所述多个输出节点。对所述待推荐对象信息和所述用户信息进行向量化处理，生成待推荐特征向量信息；将所述待推荐特征向量信息输入所述预设的内容推荐模型。

在具体实现中，在获取待推荐对象信息和用户信息之后，可以将推荐对象信息和用户信息按照唯一ID拼接到一起，生成待推荐特征信息，并对该推荐特征信息进行向量化处理，以生成待推荐特征向量信息，从而将待推荐特征向量信息输入预设的内容推荐模型。

本实施例中，在将待推荐特征向量信息输入预设的内容推荐模型之后，隐藏层的神经元中的激活函数逐层对特征向量信息进行映射，由最后一层隐藏层将结果数据传输至连接层，连接层对接收的结果数据进行拆分获得多个输出结果，并将拆分的多个输出结果分别输入到多个输出节点，由多个输出节点的神经元对输出结果进行处理，输出多个预测值。

本实施例中，在具体实现中，可以设置预设条件，当输出的多个预测值满足预设条件时，将该待推荐对象确定为目标推荐对象，推荐至用户。例如，预设条件可以是一指定阈值，当多个预测值达到指定阈值时，则将待推荐对象推荐至用户，当多个预测值未达到指定阈值时，则不将待推荐对象推荐至用户。

预设条件也可以是一指定数量，可以对多个预测值按照一预设的规则进行排序，从排序的开始向后提取指定数量的预测值，将该指定数量的预测值对应的待推荐对象推荐至用户。例如，指定数量为10，将排列在前面的10个预测值所对应的待推荐对象推荐至用户。

406、根据所述目标概率值，从所述待推荐对象中确定目标待推荐对象；

本实施例中，根据针对各个所述待推荐对象的目标概率值，从所述待推荐对象中确定目标待推荐对象。

本实施例中，由于针对的预测目标有多个，输出的预测值也有多个，因此，在确定目标推荐对象时，可以将针对同一个待推荐对象的期望概率值(即，预测值)相加，再根据获得的针对各个待推荐对象的目标概率值，从待推荐对象中筛选符合预设条件的待推荐对象，从而确定目标待推荐对象。

407、获取分别针对所述多个预测值的权重参数；

本实施例中，可以动态接收用户设置的针对各个预测目标的权重参数，即针对多个预测值的权重参数，从而进一步根据该权重参数对目标待推荐对象进行排序。

作为一种示例，针对目标待推荐对象A的预测值为30％，50％，针对目标待推荐对象B的预测值为50％，30％，针对目标待推荐对象C的预测值为35％，45％。设置的权重参数为20％，80％。则针对目标待推荐对象A的总期望值为30％*20％+50％*80％＝46％，则针对目标待推荐对象B的总期望值为50％*20％+30％*80％＝34％，则针对目标待推荐对象C的总期望值为35％*20％+45％*80％＝43％。因此，按总期望值从大到小排序是：目标待推荐对象A，目标待推荐对象C，目标待推荐对象B。

408、根据所述权重参数，对所述目标待推荐对象进行排序；

本实施例中，由于，设置针对多个预测值的权重参数，并进一步对目标待推荐对象进行排序的过程是在通过内容推荐模型对待推荐对象进行预测之后进行的，因此，本实施例中，如果需要调整各个预测目标的权重参数，例如，调整浏览时长的权重参数，和/或，点击率的权重参数，对内容推荐模型的输出结果没有影响，并不需要重新训练内容推荐模型，可以避免每次使用内容推荐模型进行预测时，由于对各个预测目标的权重参数进行调整，需要重新训练内容推荐模型再进行预测。

409、按照排序结果，将所述目标待推荐对象推荐至目标用户。

本实施例中，可以按照排序结果，在一应用程序的用户界面上，展示目标推荐对象，从而将目标待推荐对象推荐至用户。其中，应用程序可以为用于进行新闻资讯查看的应用程序，也可以为浏览器。

本实施例中步骤401-404与第一实施例中的步骤101-104类似，此处不再赘述。

本实施例中，通过获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，得到多张待识别图像；将待识别图像输入图像识别模型，通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；根据类别识别结果，确定目标用户对应的偏好特征向量；将用户数据和偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。本发明通过自动化采集衣橱数据，以实现为用户推荐最合适地搭配方案，解决现有技术中的问题。

请参阅图5，本发明实施例中基于图像识别的推荐方法的第五个实施例包括：

501、获取目标用户的用户数据，根据目标用户的衣柜中不同季节和衣物搭配策略的组合，对衣柜内的衣服进行成像，得到多张待识别图像；

502、将待识别图像输入预设图像识别模型的卷积网络，生成待识别图像的多通道特征图，并基于各通道特征图的相关性确定待识别图像的显著性区域；

503、通过图像识别模型的分类网络对显著性区域进行分类，得到待识别图像的类别识别结果；

504、对类别识别结果对应的文本数据进行分析，确定目标用户对应的偏好特征向量；

505、获取用户的历史行为数据，并对历史行为数据进行特征提取，得到用户的行为特征数据；

本实施例中，通过ALBERT神经网络模型中的嵌入向量参数化的因式分解、跨层参数共享、句间连贯性损失以及去除dropout等处理方式，将经过遮掩后的令牌向量、遮掩后的段向量以及遮掩后的位置向量的历史行为数据进行文本特征提取。进而得到ALBERT神经网络模型输出的各批次历史行为数据的文本特征，完成各批次历史行为数据的特征提取。

506、搭建待训练的初始内容推荐模型，将行为特征数据输入初始内容推荐模型进行训练，并计算训练后的初始内容推荐模型的损失函数；

本实施例中，搭建待训练的初始内容推荐模型，将行为特征数据输入初始内容推荐模型进行训练，并计算训练后的初始内容推荐模型的损失函数。其中，所述多个损失函数包括基于点击率特征信息的损失函数以及基于浏览时长特征信息的损失函数。由于针对的内容推荐场景中，模型需要预测多个目标，因此，初始内容推荐模型的损失函数也有多个。

在本实施例中，在针对新闻资讯推荐场景中，初始内容推荐模型的损失函数可以包括：基于点击率特征信息的损失函数以及基于浏览时长特征信息的损失函数。在进行模型训练时，可以将基于点击率特征信息的损失函数以及基于浏览时长特征信息的损失函数，作为多目标模型训练的监督和指导。

在本实施例的一种优选实施例中，所述内容推荐模型具有预设数目的隐藏层、与最后一层隐藏层连接的全连接层，以及分别与所述全连接层连接的多个输出节点；所述全连接层用于将所述最后一层隐藏层的输出结果拆分，并将拆分的输出结果分别输入到所述多个输出节点；每一隐藏层的神经元具有一相应的激活函数。其中，内容推荐模型中可以包括3层隐藏层。

507、根据损失函数更新初始内容推荐模型的模型参数，直至满足训练结束条件，得到目标内容推荐模型；

本实施例中，根据损失函数更新初始内容推荐模型的模型参数，直至满足训练结束条件，其中，可以设置训练的停止条件是：内容推荐模型的多个损失函数都最小化。当训练之后的内容推荐模型的多个损失函数都最小化时，停止训练所述内容推荐模型。

本实施例中，通过获取样本数据以及初始内容推荐模型，采用样本数据生成特征向量信息，采用特征向量以及初始内容推荐模型进行训练，并计算训练之后的内容推荐模型的多个损失函数，当训练之后的内容推荐模型的多个损失函数都最小化时，停止训练内容推荐模型。在进行内容推荐模型训练时，分别针对多目标建立各自的损失函数，分别学习各个损失函数的参数，避免当模型需要满足多个目标时，使用同一套参数难以表达多种混合样本的分布的问题。

508、将用户数据和目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据预测值将待推荐对象推荐至目标用户。

本实施例中步骤501-504、508第一实施例中的步骤101-104、105类似，此处不再赘述。

上面对本发明实施例中基于图像识别的推荐方法进行了描述，下面对本发明实施例中基于图像识别的推荐装置进行描述，请参阅图6，本发明实施例中基于图像识别的推荐装置的第一个实施例包括：

获取模块601，用于获取目标用户的用户数据，根据所述目标用户的衣柜中不同季节和衣物搭配策略的组合，对所述衣柜内的衣服进行成像，得到多张待识别图像；

确定模块602，用于将所述待识别图像输入预设图像识别模型的卷积网络，生成所述待识别图像的多通道特征图，并基于各通道特征图的相关性确定所述待识别图像的显著性区域；

分类模块603，用于通过所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果；

分析模块604，用于对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量；

推荐模块605，用于将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据所述预测值将待推荐对象推荐至目标用户。

请参阅图7，本发明实施例中基于图像识别的推荐装置的第二个实施例，该基于图像识别的推荐装置具体包括：

在本实施例中，所述确定模块602包括：

全局池化单元6021，用于分别对所述通道特征图进行全局池化处理，得到所述通道特征图的全局特征；

第一确定单元6022，用于基于所述全局特征确定所述通道特征图之间的相关性，根据所述相关性确定所述通道特征图的激活权重；

标定单元6023，用于根据所述激活权重对所述通道特征图的权重进行重标定，得到所述通道特征图对应的注意力图；

第二确定单元6024，用于基于所述注意力图，调用非极大抑制算法确定所述待识别图像中的显著性区域。

在本实施例中，所述第二确定单元6024具体用于：

将所述注意力图映射至所述待识别图像中，得到所述注意力图的映射区域；

基于所述注意力图的权重确定所述映射区域的概率值；

根据所述映射区域的概率值和所述映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的目标映射区域；

根据所述目标映射区域确定所述待识别图像中的显著性区域。

在本实施例中，所述分析模块604具体用于：

确定所述待识别图像的类别识别结果对应的各文本数据；

根据所述待识别图像，确定所述各文本数据对应的文本特征；

根据所述待识别图像的类别识别结果对应的各文本数据以及所述各文本数据对应的文本特征，确定所述目标用户对应的偏好特征向量。

在本实施例中，所述推荐模块605包括：

第三确定单元6051，用于根据所述多个预测值从待推荐对象中，确定目标待推荐对象；

获取单元6052，用于获取分别针对所述多个预测值的权重参数；

排序单元6053，用于根据所述权重参数，对所述目标待推荐对象进行排序；

推荐单元6054，用于按照排序结果，将所述目标待推荐对象推荐至目标用户。

在本实施例中，所述第三确定单元6051具体用于：

将所述多个预测值中针对相同待推荐对象的期望概率值相加，得到目标概率值；

根据所述目标概率值，从所述待推荐对象中确定目标待推荐对象。

在本实施例中，所述基于图像识别的推荐装置还包括：

特征提取模块606，用于获取用户的历史行为数据，并对所述历史行为数据进行特征提取，得到所述用户的行为特征数据；

训练模块607，用于搭建待训练的初始内容推荐模型，将所述行为特征数据输入所述初始内容推荐模型进行训练，并计算训练后的初始内容推荐模型的损失函数；

更新模块608，用于根据所述损失函数更新所述初始内容推荐模型的模型参数，直至满足训练结束条件，得到目标内容推荐模型。

上面图6和图7从模块化功能实体的角度对本发明实施例中的基于图像识别的推荐装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于图像识别的推荐设备进行详细描述。

图8是本发明实施例提供的基于图像识别的推荐设备的结构示意图，该基于图像识别的推荐设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于图像识别的推荐设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在基于图像识别的推荐设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的基于图像识别的推荐方法的步骤。

基于图像识别的推荐设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作***831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的基于图像识别的推荐设备结构并不构成对本申请提供的基于图像识别的推荐设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述基于图像识别的推荐方法的步骤。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图像识别的推荐方法，其特征在于，所述基于图像识别的推荐方法包括：

获取目标用户的用户数据，根据所述目标用户的衣柜中不同季节和衣物搭配策略的组合，对所述衣柜内的衣服进行成像，得到多张待识别图像；

将所述待识别图像输入预设图像识别模型的卷积网络，生成所述待识别图像的多通道特征图，并基于各通道特征图的相关性确定所述待识别图像的显著性区域；

通过所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果；

对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量；

将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据所述预测值将待推荐对象推荐至目标用户。

2.根据权利要求1所述的基于图像识别的推荐方法，其特征在于，所述基于各通道特征图的相关性确定所述待识别图像的显著性区域包括：

分别对所述通道特征图进行全局池化处理，得到所述通道特征图的全局特征；

基于所述全局特征确定所述通道特征图之间的相关性，根据所述相关性确定所述通道特征图的激活权重；

根据所述激活权重对所述通道特征图的权重进行重标定，得到所述通道特征图对应的注意力图；

基于所述注意力图，调用非极大抑制算法确定所述待识别图像中的显著性区域。

3.根据权利要求2所述的基于图像识别的推荐方法，其特征在于，所述基于所述注意力图，调用非极大抑制算法确定所述待识别图像中的显著性区域包括：

基于所述注意力图的权重确定所述映射区域的概率值；

4.根据权利要求1所述的基于图像识别的推荐方法，其特征在于，所述对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量包括：

确定所述待识别图像的类别识别结果对应的各文本数据；

5.根据权利要求1所述的基于图像识别的推荐方法，其特征在于，所述根据所述预测值将待推荐对象推荐至目标用户包括：

根据所述多个预测值从待推荐对象中，确定目标待推荐对象；

获取分别针对所述多个预测值的权重参数；

根据所述权重参数，对所述目标待推荐对象进行排序；

按照排序结果，将所述目标待推荐对象推荐至目标用户。

6.根据权利要求5所述的基于图像识别的推荐方法，其特征在于，所述根据所述多个预测值从待推荐对象中，确定目标待推荐对象包括：

7.根据权利要求1所述的基于图像识别的推荐方法，其特征在于，在所述将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据所述预测值将待推荐对象推荐至目标用户之前，还包括：

获取用户的历史行为数据，并对所述历史行为数据进行特征提取，得到所述用户的行为特征数据；

搭建待训练的初始内容推荐模型，将所述行为特征数据输入所述初始内容推荐模型进行训练，并计算训练后的初始内容推荐模型的损失函数；

根据所述损失函数更新所述初始内容推荐模型的模型参数，直至满足训练结束条件，得到目标内容推荐模型。

8.一种基于图像识别的推荐装置，其特征在于，所述基于图像识别的推荐装置包括：

获取模块，用于获取目标用户的用户数据，根据所述目标用户的衣柜中不同季节和衣物搭配策略的组合，对所述衣柜内的衣服进行成像，得到多张待识别图像；

确定模块，用于将所述待识别图像输入预设图像识别模型的卷积网络，生成所述待识别图像的多通道特征图，并基于各通道特征图的相关性确定所述待识别图像的显著性区域；

分类模块，用于通过所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果；

分析模块，用于对所述类别识别结果对应的文本数据进行分析，确定所述目标用户对应的偏好特征向量；

推荐模块，用于将所述用户数据和所述目标用户对应的偏好特征向量输入至预设内容推荐模型得到多个预测值，并根据所述预测值将待推荐对象推荐至目标用户。

9.一种基于图像识别的推荐设备，其特征在于，所述基于图像识别的推荐设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于图像识别的推荐设备执行如权利要求1-7中任一项所述的基于图像识别的推荐方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于图像识别的推荐方法的步骤。