CN116863116A

CN116863116A - 基于人工智能的图像识别方法、装置、设备及介质

Info

Publication number: CN116863116A
Application number: CN202310798703.2A
Authority: CN
Inventors: 张倩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-10-10

Abstract

本发明实施例涉及人工智能及智慧医疗技术领域，公开了一种基于人工智能的图像识别方法、装置、设备及介质，方法包括：获取待识别图像的图像信息和来源信息，基于来源信息确定待识别图像的目标图像种类，并根据目标图像种类和预设识别信息确定待识别图像的目标标签集；将图像信息和目标标签集输入第一预设模型，确定图像信息与目标标签集中每个标签的相似度值，得到相似度集合；将图像信息输入第二预设模型，得到待识别图像对应的种类数；根据种类数选择目标相似度值，完成对待识别图像的识别。确定待识别图像中待识别目标的种类数，并根据种类数确定目标标签的个数，对每一张待识别图像都具有针对性，使得识别过程更智能，效果也更好。

Description

基于人工智能的图像识别方法、装置、设备及介质

技术领域

本发明涉及基于人工智能及智慧医疗技术领域，尤其涉及一种基于人工智能的图像识别方法、装置、设备及介质。

背景技术

随着人工智能的发展，利用图片识别模型对图片进行识别的应用越来越广泛，不仅能够应用在生活中，越来越多需要对图像进行识别的工作也可以通过人工智能完成。例如，需要从一张含有一种或多种食物(比如，玉米，米饭)的图片中识别出图片所包含的食材时，可以通过人工智能完成；再例如，在智慧医疗领域，对医疗器械进行管理的工作，需要从一张含有一种或多种医疗器械(比如，手术刀，止血带)的图片中别出图片所包含的医疗器械时，可以通过人工智能完成；还例如，在设备维护领域，对运行设备维护进行监管/后勤保障的工作，需要从一张含有一种或多种维护器械(比如，电笔，螺丝刀)的图片中别出图片所包含的维护器械时，可以通过人工智能完成；目前的思路是将对图像进行识别的过程看作为目标检测的过程。

而目前通用的目标检测框架，首先需要生成候选框(bounding boxes)，产生目前可能存在的感兴趣区域(ROI)，之后对一系列包含目标的候选框进行删选重组，使得每个目标由单一的箱框(box)框定，最后对感兴趣的区域提取特征，再通过各种神经网络进行后续的分类或回归。但是现有技术中，由于需要显式的计算区域中的特征，所以目标检测对图片的分辨率往往有较高的要求。同时，生成候选区域的过程往往非常耗时，在训练和检测的时候速度也都较慢，需要较高的计算资源。同时，生成候选框及对一系列候选框删除重组等过程往往带来一系列的误差，并且ROI特征来表征图像特征数据可看作是区域(region)粒度的特征，可能带来一些噪音损失。

发明内容

有鉴于此，本发明提供了一种基于人工智能的图像识别方法、装置、设备及介质，用于解决现有技术中识别过程繁琐，计算量大，识别不精确的问题。

为达上述之一或部分或全部目的或是其他目的，本发明提出一种基于人工智能的图像识别方法，包括：获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；

将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；

将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；

从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

另一方面，本申请提供了一种基于人工智能的图像识别装置，所述装置包括：

数据采集模块，用于获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；

第一计算模块，用于将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；

第二计算模块，用于将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；

识别模块，用于从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

另一方面，本申请提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行：获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

另一方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行：获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

实施本发明实施例，将具有如下有益效果：

通过获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。通过编码得到待识别图像与预设标签的相似度值，避免图像与预设标签进行复杂的交互，同时确定待识别图像中待识别目标的种类数，并根据种类数确定目标标签的个数，相比于直接按照阈值或者是统一截取若干个目标标签的方法能针对每一张待识别图像进行针对性的识别，避免按照阈值或者是统一截取若干个目标标签的方法时带来的误差，例如，阈值大于实际种类数，会多选取待识别图像中不存在的目标标签，进而根据种类数确定目标标签的个数的方法更智能，识别效果也更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本申请实施例提供的一种基于人工智能的图像识别方法的应用场景图；

图2是本申请实施例提供的一种基于人工智能的图像识别方法的流程图；

图3是本申请实施例提供的一种基于人工智能的图像识别装置的结构示意图；

图4是本发明一实施例中计算机设备的一结构示意图；

图5是本发明一实施例中计算机设备的另一结构示意图。

图6是本申请实施例提供的一种电子设备的结构示意图；

图7是本申请实施例提供的一种存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于人工智能的图像识别方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信。服务端可以获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。在本发明中，通过编码得到待识别图像与预设标签的相似度值，避免图像与预设标签进行复杂的交互，同时确定待识别图像中待识别目标的种类数，并根据种类数确定目标标签的个数，相比于直接按照阈值或者是统一截取若干个目标标签的方法能针对每一张待识别图像进行针对性的识别，避免按照阈值或者是统一截取若干个目标标签的方法时带来的误差，例如，阈值大于实际种类数，会多选取待识别图像中不存在的目标标签，进而根据种类数确定目标标签的个数的方法更智能，识别效果也更好。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。

为减轻服务端的计算压力，本发明实施例提供的基于人工智能的图像识别方法，也可在应用在图1中的客户端，即，获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

如图2所示，本申请实施例提供了一种基于人工智能的图像识别方法，包括：

S101、获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；

本申请实施例提供的图像识别方法，可应用于各种场景下的图像识别装置或图像识别引擎中，图像识别的过程通常通过服务端来实现，进行图像识别的服务端可以实时与用户的客户端进行数据传输。比如，当服务端接收到客户端的图像识别请求信息后，根据图像识别请求信息获取待识别图像的图像信息并记录所述待识别图像的来源信息，在对待识别图像进行识别时需要结合与待识别图像对应的标签，而不同图像种类的待识别图像所对应的标签并不相同，因此根据所述待识别图像的来源信息确定所述待识别图像的图像种类，例如，当所述待识别图像的来源信息为医疗领域，即，通过设置于医疗领域所属区域的摄像头或者从医疗领域的数据库中获取所述待识别图像时，选择医疗领域对应的目标标签集。

示例性的，根据不同业务及业务对应的场景构建预设识别信息，例如，对于食物食材识别的业务，根据食材种类构建第一标签集；对于医疗器械识别的业务，根据医疗器械的种类构建第二标签集；对于维护工具识别的业务，根据维护工具的种类构建第三标签集；根据第一标签集、第二标签集和第三标签集构建初始识别信息；将所述初始识别信息与业务对应的场景进行关联，得到预设识别信息。

其中，所述来源信息包括采集所述待识别图像的图像采集装置的标识信息、存储所述待识别图像的数据库的标识信息等，当所述来源信息为存储所述待识别图像的数据库的标识信息时，可以根据数据库的存储规则确定采集所述待识别图像的图像采集装置。

所述待识别图像的目标图像种类包括但不限于食材类、器材类，所述预设信息包括食材类的标签集，即，第一标签集，器材类的标签集，即，第二标签集。

S102、将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；

示例性的，将所述待识别图像的图像信息和对应所述待识别图像的目标标签集输入第一预设模型，所述第一预设模型将所述图像信息表征为第一维度数据(embedding)，所述第一预设模型将所述目标标签集中各标签表征为第二维度数据(embedding)，计算所述第一维度数据和所述第二维度数据的相似度，所述相似度代表所述第一维度数据和所述第二维度数据的关联程度，即，所述相似度代表所述待识别图像的图像信息与所述目标标签集中各标签的对应程度。

所述待识别图像的图像信息为所述待识别图像的实际图片，例如，包含一种或多种食物的图片，包含一种或多种医疗器械的图片等。所述预设编码算法包括文本编码算法和图像编码算法。所述预设编码算法和所述图像编码算法分别通过预设编码器和图像编码器实现。

所述相似度集合包括所述图像信息与所述目标标签集中每个标签的相似度值。

S103、将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；

示例性的，通过所述第二预设模型中的第一基础模型获取所述待识别图像深层次语义信息，并通过所述第二预设模型中的第二基础模型根据所述待识别图像深层次语义信息对所述待识别图像中待识别目标进行分类，得到所述待识别图像中待识别目标的种类数。

以包含食物的图片为例，所述种类数代表所述待识别图中包含食材的种类的数量。

所述深层次语义信息为所述待识别图像中图像内容的纹理，颜色，本申请中所述待识别图像深层次语义信息为图像内容的类别信息。

S104、从所述相似度集合中选择相似度值为最大且数量为所述种类数的目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

示例性的，根据所述第二预设模型确定的所述待识别图像中待识别目标的种类数在所述相似度集合中选择对应数量的目标标签。

示例性的，在所述相似度集合中选择对应数量的目标标签时，可以将相似度集合中各相似度值按由大到小的顺序进行排列，选择排名靠前的种类数个相似度值，例如，种类数为4，选择相似度集合中前4个相似度值。也可以按最大值在所述相似度集合中选择对应数量的目标标签，例如，选择相似度集合中相似度值最大的目标相似度，选择完成后将已选择的目标相似度从相似度集合中剔除，在剔除目标相似度的相似度集合中再次选择最大的目标相似度值，选择完成后再将已选择的目标相似度从相似度集合中剔除，重复上述选择过程种类数次，得到所述种类数个目标相似度值。

通过编码得到待识别图像与预设标签的相似度值，避免图像与预设标签进行复杂的交互，同时确定待识别图像中待识别目标的种类数，并根据种类数确定目标标签的个数，相比于直接按照阈值或者是统一截取若干个目标标签的方法能针对每一张待识别图像进行针对性的识别，避免按照阈值或者是统一截取若干个目标标签的方法时带来的误差，例如，阈值大于实际种类数，会多选取待识别图像中不存在的目标标签，进而根据种类数确定目标标签的个数的方法更智能，识别效果也更好。

在一种可能的实施方式中，所述基于所述来源信息确定所述待识别图像的图像种类的步骤，包括：

基于所述来源信息确定采集所述待识别图像的目标数据采集装置的标识信息；

基于所述标识信息和预设数据采集装置分布数据确定所述目标数据采集装置对应的数据采集区域，并根据所述数据采集区域所属的职能部门确定所述数据采集区域的区域种类；

将所述区域种类作为所述待识别图像的图像种类。

示例性的，所述待识别图像可以为直接被数据采集装置发送到服务端的图像，也可以为从数据库中提取出的图像，而所述待识别图像为直接被数据采集装置发送到服务端的图像时，数据采集装置为目标数据采集装置，获取目标数据采集装置的标识信息，所述待识别图像为从数据库中提取出的图像时，获取所述待识别图像的属性信息，根据所述属性信息确定采集所述待识别图像的目标数据采集装置的标识信息。

示例性的，基于所述标识信息和预设数据采集装置分布数据确定目标数据采集装置的位置，进而根据目标数据采集装置的位置判断所述目标数据采集装置对应的数据采集区域，其中，所述预设数据采集装置分布数据为数据采集装置的分布图、数据采集装置的安装规划图等。

示例性的，根据所述数据采集区域所属的职能部门确定所述数据采集区域的区域种类，例如，所述数据采集区域所属的职能部门为负责医疗器械管理的部门，则所述数据采集区域的区域种类为医疗器械类，进而确定所述待识别图像的图像种类为医疗器械类；所述数据采集区域所属的职能部门为负责食材管理的部门，则所述数据采集区域的区域种类为食材类，进而确定所述待识别图像的图像种类为食材类。

在一种可能的实施方式中，所述根据所述数据采集区域所属的职能部门确定所述数据采集区域的区域种类的步骤，包括：

当所述数据采集区域所属的职能部门至少存在两个时，则获取目标请求信息，所述目标请求信息用于发起所述获取待识别图像的图像信息和来源信息的步骤；

根据所述目标请求信息和图像识别过程的日志数据确定所述目标请求信息对应的账户信息；

基于所述账户信息确定所述目标请求信息所属的目标职能部门；

根据所述目标职能部门确定所述数据采集区域的区域种类。

示例性的，当所述数据采集区域所属的职能部门至少存在两个时，例如，当所述数据采集区域，例如仓库同时放置了医疗器械和维护工具，所属的职能部门为医疗部门和维护部门，则获取发起当前图像识别过程的目标请求信息，当目标请求信息为医疗部门的账户信息发起的，则将基于所述数据采集区域生成的待识别图像的图像种类确定为医疗器械类。避免不同部门对同一待识别图像进行识别时的相互影响，造成识别不准确的问题。

所述日志数据为记录***产生的过程性事件记录数据，本例中的日志数据为记录图像识别进程所在***产生的图像识别事件的识别发起至识别结束的记录。

在一种可能的实施方式中，在所述将所述图像信息和所述目标标签集输入第一预设模型，得到所述图像信息与所述目标标签集中各标签的相似度值的步骤之前，还包括：

获取所述目标标签集的数据形式；

针对所述目标标签集的数据形式确定所述第一预设模型中的预设编码算法。

示例性的，现实工作中构建的标签集的数据形式可以为文本形式、图像形式等，因此针对标签集的数据形式确定所述第一预设模型中的预设编码算法，例如，当现实工作中构建的标签集的数据形式为文本形式时，选择文本编码算法作为所述第一预设模型中的预设编码算法。

通过选择第一预设模型中的预设编码算法以适配不同数据形式的标签集，加强本申请所述图像识别方法的适用性。

在一种可能的实施方式中，所述将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法的步骤，包括：

将所述目标标签集输入所述第一预设模型中的预设编码算法，以使所述预设编码算法对所述目标标签集中的各标签进行编码表征，得到第一低维向量；

将所述图像信息输入所述第一预设模型中的图像编码算法，以使所述图像编码算法对所述图像信息进行编码表征，得到第二低维向量；

将所述第一低维向量和所述第二低维向量输入所述第一预设模型中的相似度计算算法，以通过所述相似度计算算法计算所述第一低维向量和所述第二低维向量的余弦相似度；

将所述余弦相似度作为所述图像信息与所述目标标签集中的标签的相似度值。

示例性的，所述第一预设模型采用基于对比学习的大规模图文预训练模型(CLIP)，将所述目标标签集(labels)的文本通过文本编码器进行编码表征为第一低维向量；

将所述图像信息，即，实际图片通过图像编码器进行编码表征为第二低维向量。

计算第二低维向量和第一低维向量的余弦相似度(cosine similarity)。

示例性的，第一低维向量A是一个维度为512维的低维向量，第二低维向量B也是一个512维的低维向量，将第一低维向量与第二低维向量做内积计算，得到一个维度为1的数值，即，余弦相似度，具体的：

A＝【0.3,0.4,0.5】，B＝【0.2,0.1,0.6】

则A和B的余弦相似度为＝0.3*0.2+0.4*0.1+0.5*0.6＝0.4。

示例性的，基于对比学习的大规模图文预训练模型采用的是开源的基于中文的太乙多模态模型，预设编码算法的实现采用型号为Taiyi-326M的文本编码器，图像编码算法的实现采用的图像编码器的型号为clip-vit-large-patch14。

在一种可能的实施方式中，在所述将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型的步骤之前，还包括：

基于全连接层和预设分类器构建用于分类的第二基础模型；

将所述第二基础模型的全连接层与用于获取所述待识别图像深层次语义信息的第一基础模型进行连接，得到初始模型；

根据预设数据集对所述初始模型进行训练，得到所述第二预设模型。

示例性的，采用两层全连接层(MLP)，在全连接层之后通过连接分类器(softmax)实现分类功能，其中两层全连接层公式采用激活函数(relu)，得到第二基础模型，具体的：

其中，W代表权重，T代表当前轮次，x代表输入数据，b代表偏置，1和2代表第一层全连接层和第二层全连接层。

所述第一基础模型采用具有编码器的能够并行化训练且掌握全局信息的模型(ViT，Vision Transformer)。

在一种可能的实施方式中，所述根据预设数据集对所述初始模型进行训练，得到所述第二预设模型的步骤，包括：

获取所述第一基础模型的第一初始参数和所述第二基础模型的第二初始参数；

按预设比例获取通过不同种标注方式得到的数据对，根据所述数据对构建训练集，并基于所述训练集对所述初始模型中的所述第二基础模型进行训练，得到所述第二基础模型的第二目标参数；

根据所述第二目标参数更新所述第二基础模型，且保持所述第一基础模型的第一初始参数不变；

基于更新后的第二基础模型和所述第一基础模型得到所述第二预设模型。

示例性的，在对所述初始模型进行训练中，以食物食材识别为例，从网络上收集了接近20000张含有食物的图片，通过命名实体识别(NER)标注出20000张中的标签，得到图像-标签的数据对，统计得到每张图片的标签个数；另外人工标注额外5000张图片，得到标签个数，即一共25000张图片及个图像的标签个数作为训练集对所述初始模型进行训练。

示例性的，在训练过程中冻结vision transformer部分，即，保持所述第一基础模型的第一初始参数不变，只对所述第二基础模型进行训练并更新参数。

示例性的，经过两层神经语言程序学(NLP)之后，经过归一化指数(softmax)函数得到各标签最后得分。

在一种可能的实施方式中，如图3所示，本申请提供了一种基于人工智能的图像识别装置，所述装置包括：

数据采集模块201，用于获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；

第一计算模块202，用于将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；

第二计算模块203，用于将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；

识别模块204，用于从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别.

在一种可能的实施方式中，所述数据采集模块201，用于：

将所述区域种类作为所述待识别图像的图像种类。

在一种可能的实施方式中，所述数据采集模块201，用于：

根据所述目标职能部门确定所述数据采集区域的区域种类。

在一种可能的实施方式中，所述第一计算模块202，用于：

获取所述目标标签集的数据形式；

在一种可能的实施方式中，所述第一计算模块202，用于：

在一种可能的实施方式中，所述第二计算模块203，用于：

基于全连接层和预设分类器构建用于分类的第二基础模型；

在一种可能的实施方式中，所述第二计算模块203，用于：

基于更新后的第二基础模型和所述第一基础模型。

本发明提供了一种图像识别装置，通过编码得到待识别图像与预设标签的相似度值，避免图像与预设标签进行复杂的交互，同时确定待识别图像中待识别目标的种类数，并根据种类数确定目标标签的个数，相比于直接按照阈值或者是统一截取若干个目标标签的方法能针对每一张待识别图像进行针对性的识别，避免按照阈值或者是统一截取若干个目标标签的方法时带来的误差，例如，阈值大于实际种类数，会多选取待识别图像中不存在的目标标签，进而根据种类数确定目标标签的个数的方法更智能，识别效果也更好。

关于图像识别装置的具体限定可以参见上文中对于图像识别方法的限定，在此不再赘述。上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的图像识别方法服务端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的图像识别方法客户端侧的功能或步骤。

在一种可能的实施方式中，如图6所示，本申请实施例提供了一种电子设备300，包括：包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311，处理器320执行计算机程序311时，实现：获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

在一种可能的实施方式中，如图7所示，本申请实施例提供了一种计算机可读存储介质400，其上存储有计算机程序411，该计算机程序411被处理器执行时实现：获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法；将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型；从所述相似度集合中选择相似度值为最大且数量为所述种类数的相似度值，将选择出的相似度值作为目标相似度值，将所述目标相似度值对应的标签作为目标标签，并基于所述目标标签完成对所述待识别图像的识别。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里上述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于人工智能的图像识别方法，其特征在于，包括：

获取待识别图像的图像信息和来源信息，基于所述来源信息确定所述待识别图像的目标图像种类，并根据所述目标图像种类和预设识别信息确定所述待识别图像的目标标签集，所述预设识别信息包括不同图像种类及各图像种类对应的预设标签集；

2.如权利要求1所述的基于人工智能的图像识别方法，其特征在于，所述基于所述来源信息确定所述待识别图像的图像种类的步骤，包括：

将所述区域种类作为所述待识别图像的图像种类。

3.如权利要求2所述的基于人工智能的图像识别方法，其特征在于，所述根据所述数据采集区域所属的职能部门确定所述数据采集区域的区域种类的步骤，包括：

根据所述目标职能部门确定所述数据采集区域的区域种类。

4.如权利要求1所述的基于人工智能的图像识别方法，其特征在于，在所述将所述图像信息和所述目标标签集输入第一预设模型，得到所述图像信息与所述目标标签集中各标签的相似度值的步骤之前，还包括：

获取所述目标标签集的数据形式；

5.如权利要求1所述的基于人工智能的图像识别方法，其特征在于，所述将所述图像信息和所述目标标签集输入第一预设模型确定所述图像信息与所述目标标签集中每个标签的相似度值，得到相似度集合，所述第一预设模型包括预设编码算法、图像编码算法和相似度计算算法的步骤，包括：

6.如权利要求1所述的基于人工智能的图像识别方法，其特征在于，在所述将所述图像信息输入第二预设模型，得到所述待识别图像中待识别目标的种类数，所述第二预设模型包括用于获取所述待识别图像深层次语义信息的第一基础模型和用于分类的第二基础模型的步骤之前，还包括：

基于全连接层和预设分类器构建用于分类的第二基础模型；

7.如权利要求6所述的基于人工智能的图像识别方法，其特征在于，所述根据预设数据集对所述初始模型进行训练，得到所述第二预设模型的步骤，包括：

8.一种基于人工智能的图像识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的基于人工智能的图像识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的基于人工智能的图像识别方法的步骤。