CN117975169A

CN117975169A - 对象分类方法、计算机程序产品、设备及存储介质

Info

Publication number: CN117975169A
Application number: CN202410362658.0A
Authority: CN
Inventors: 李晨; 江腾飞; 王嘉磊; 邵茂真; 皮成祥; 张健
Original assignee: Shining 3D Technology Co Ltd
Current assignee: Shining 3D Technology Co Ltd
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-05-03

Abstract

本公开实施例提供一种对象分类方法、计算机程序产品、设备及存储介质。所述方法包括：获取待分类对象的三维模型，所述三维模型携带纹理信息；将所述三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像；从所述多帧RGB图像中选取目标RGB图像，其中，所述目标RGB图像中的有效信息的信息量符合预设条件，所述有效信息为可用于辨识所述待分类对象材质的信息；对所述目标RGB图像进行特征提取，基于提取的特征确定所述待分类对象所属的材质类别。通过这种方式，既可以区分待分类对象的材质类别，同时，在区分材质类别时，可以实现在计算量较小的前提下得到比较准确的分类结果。

Description

对象分类方法、计算机程序产品、设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种对象分类方法、计算机程序产品、设备及存储介质。

背景技术

在一些场景，可以基于待分类对象的三维模型自动对待分类对象进行分类，以确定待分类对象的类别，用于后续的应用，比如，确定待分类对象是牙齿还是人脸等。目前在对待分类对象进行分类时，所用到的三维模型通常为三维网格模型，即三维模型只有形状信息和拓扑信息，没有纹理信息。进而从投影得到的二维图像中提取的特征也只是待分类对象的形状特征或拓扑结构特征，只能用于区分不同形状类别的对象，比如，牙齿和人脸，无法区分同一类别但材质不同的对象，比如，同样是牙齿模型，无法区分该牙齿模型是真实牙齿的模型还是石蜡制作的牙齿的模型。然而存在一些应用场景，需要对同一类别但材质不同的对象进行分类，以确定对象的材质类别，目前的方法还无法满足这一需求。

发明内容

本公开提供一种对象分类方法、计算机程序产品、设备及存储介质。

根据本公开实施例的第一方面，提供一种对象分类方法，所述方法包括：

获取待分类对象的三维模型，所述三维模型携带纹理信息；

将所述三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像；

从所述多帧RGB图像中选取目标RGB图像，其中，所述目标RGB图像中的有效信息的信息量符合预设条件，所述有效信息为可用于辨识所述待分类对象材质的信息；

对所述目标RGB图像进行特征提取，基于提取的特征确定所述待分类对象所属的材质类别。

根据本公开实施例的第二方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述第一方面提及的方法。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括处理器、存储器、存储在所述存储器可供所述处理器执行的计算机指令，所述处理器执行所述计算机指令时，可实现上述第一方面提及的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述存储介质上存储有计算机指令，所述计算机指令被执行时实现上述第一方面提及的方法。

本公开实施例中，为了实现对待分类对象的材质进行分类，本公开实施例想到了在确定待分类对象所属的类别时，可以结合待分类对象的纹理信息，即可以使用携带纹理信息的三维模型进行投影，得到RGB图像，基于RGB图像对待分类对象进行分类，从而可以区分待分类对象的材质类别，并扩大应用场景。并且，为了既可以减小计算量，提高识别速度，同时又能保证分类结果的准确性，在按照预设的多个投影视角对携带纹理信息的三维模型进行投影得到多帧RGB图像后，可以先从中筛选出一些包含有效信息较多的RGB图像，用于后续的特征提取和材质类别的判定，其中，有效信息是指可以用于辨别待分类对象材质的信息。通过这种方式，既可以区分待分类对象的材质类别，满足一些特定场景的使用需求，同时，在区分材质类别时，可以实现在计算量较小的前提下得到比较准确的分类结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是相关技术的一种基于三维模型确定待分类对象的类别的示意图。

图2是本公开实施例的一种对象分类方法的示意图。

图3是本公开实施例的一种对象分类方法的流程图。

图4a和图4b是本公开两个实施例设置投影视角的示意图。

图5是本公开实施例的一种基于纹理坐标确定三维网格模型的网格顶点的RGB值的示意图。

图6是本公开实施例的一种三维模型的投影球的示意图。

图7a是本公开实施例的一种投影球上半球的球面设置目标点的示意图。

图7b是本公开实施例的一种投影球下半球的球面设置目标点的示意图。

图8是本公开实施例的一种设置投影视角的示意图。

图9是本公开实施例的一种分类模型的结构的示意图。

图10是本公开实施例的一种设备的逻辑结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

在一些场景，可以基于待分类对象的三维模型自动对待分类对象进行分类，以确定待分类对象的类别，用于后续的应用，比如，确定待分类对象是牙齿还是人脸等。目前，如图1所示，在根据待分类对象的三维模型对待分类对象进行分类时，存在一种方式是将三维模型按照预先设置好的多个投影视角（如图中的投影视角1-投影视角n）进行投影，得到多帧二维图像，再逐一从这些二维图像中提取特征，基于提取的特征确定待分类对象的类别。目前在利用该种方式对待分类对象进行分类时，所用到的三维模型通常为三维网格模型，即三维模型只有形状信息和拓扑信息，没有纹理信息。进而从投影得到的二维图像中提取的特征也只是待分类对象的形状特征或拓扑结构特征，只能用于区分不同形状类别的对象，比如，牙齿和人脸，无法区分同一类别但材质不同的对象，比如，同样是牙齿模型，无法区分该牙齿模型是真实牙齿的模型还是石蜡制作的牙齿的模型。然而存在一些应用场景，需要对同一类别但材质不同的对象进行分类，以确定对象的材质类别，目前的方法还无法满足这一需求。

举个例子，以牙齿三维模型为例，通常牙齿三维模型包括真实牙齿的三维模型、石膏或金属件制作的牙齿的三维模型，这些牙齿三维模型的形状很相似，但是材质不同。针对不同材质的三维模型，后续的用途可能也不同，比如，真实牙齿模型可用于诊断是否需要矫正或者正畸，而石膏或金属件制作的牙齿三维模型可用于3D打印，因而需要提供一种可以自动区分这些牙齿三维模型的材质类别的方案，以便于后续的使用。

为了可以实现对待分类对象的材质进行分类，申请人想到的一种方式是可同时结合待分类对象的纹理信息，即可以将待分类对象的纹理信息叠加到三维模型中，使用携带纹理信息的三维模型进行投影，得到彩色的二维图像，基于彩色的二维图像对待分类对象进行分类，从而可以区分对象的材质类别。

然而，在结合纹理信息后，由于对携带纹理信息的三维模型进行投影，得到的图像为彩色图像，即RGB图像，相比于以往投影得到的灰度图像，RGB图像包含的特征信息更多，如果按照以往的方案，对按照预设的多个投影视角投影得到的多帧图像均进行提取，基于提取的特征确定待分类对象的类别，容易出现一个问题，即如果投影视角的数量设置得过多，由于需对较多帧RGB图像进行特征提取，容易出现计算量大的问题，如果投影视角的数量设置得过少，又容易出现获取的特征信息量较少，无法准确分类的问题。

基于此，本公开实施例提供了一种对象分类方法，如图2所示，首先，为了实现对待分类对象的材质进行分类，本公开实施例想到了在确定待分类对象所属的类别时，可以结合待分类对象的纹理信息，即可以使用携带纹理信息的三维模型进行投影，得到RGB图像，基于RGB图像对待分类对象进行分类，从而可以区分待分类对象的材质类别。并且，为了既可以减小计算量，同时又能保证分类结果的准确性，在按照预设的多个投影视角（如图中的投影视角1-n）对携带纹理信息的三维模型进行投影得到多帧RGB图像后，可以先从中筛选出一些包含有效信息较多的RGB图像(比如，RGB图像1、RGB图像3)，用于后续的特征提取和材质类别的判定，其中，有效信息是指可以用于辨别待分类对象材质的信息。通过这种方式，既可以区分待分类对象的材质类别，满足一些特定场景的使用需求，同时，在区分材质类别时，可以实现在计算量较小的前提下得到比较准确的分类结果。

本公开实施例提供的对象分类方法可以由各种设置有上述分类功能的软件或服务的电子设备执行，比如，该电子设备可以是手机、平板、电脑等个人终端，也可以是云端服务器或服务器集群。比如，在一些场景，该方法可以由云端服务器执行，用户可以通过客户端上传待分类对象的三维模型，然后由客户端发送给云端，以便云端确定该待分类对象所属的材质类别，并基于类别对三维模型进行后续的处理。

本公开实施例中的待分类对象可以是各种需要进行材质分类的对象，待分类对象的三维模型也可以是各种携带有纹理信息的三维模型，三维模型的形式不限，比如，可以是三维网格模型、点云模型等等。其中，三维模型可以是用户通过三维扫描设备对待分类对象进行扫描重建得到的三维模型，也可以是通过其他方式生成的三维模型，本公开实施例不做限制。

比如，在一些场景，用户可以手持三维扫描设备对待分类对象进行扫描，与三维扫描设备通信连接的扫描软件可以获取扫描得到的数据，基于获取的数据实时重建待分类对象的三维模型，然后将该重建的三维模型上传至云端服务器，由云端服务器对三维模型进行材质判定，并进行后续处理。

如图3所示，本公开实施例的对象分类方法可以包括以下步骤：

S302、获取待分类对象的三维模型，所述三维模型携带纹理信息；

在步骤S302中，可以获取待分类对象的三维模型，该三维模型携带有纹理信息。其中，该三维模型可以是各种表现形式的三维模型，比如，可以是三维网格模型、三维点云模型等等。纹理信息也可以通过各种形式表征，比如，三维模型为三维网格模型，则纹理信息可以是与该三维网格模型对应的纹理贴图。三维模型为三维点云模型，纹理信息则可以是各个三维点的RGB信息。对于三维模型和纹理信息的表现形式，本公开实施例不做限制。

S304、将所述三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像；

在步骤S304中，在获取到待分类对象的三维模型后，可以将该三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像，其中，每帧RGB图像对应一个投影视角。在一些场景，该预设的多个投影视角可以是用户提前设置好的多个固定的投影视角，即针对任意的三维模型，该多个投影视角均是固定的。比如，为了让这多个投影视角尽可能覆盖不同的角度，该多个投影视角可以是以三维模型的中心为原点，按照一定的角度间隔向空间的各个方向投射的射线所对应的视角。比如，如图4a所示，若该三维模型为一个正方体，投影视角可以是从空间的各个角度指向正方体中心的视角。在一些场景，为了让设置的多个投影视角更加符合三维模型的实际情况，该预设的多个投影视角也可以基于每个三维模型自身的形状和纹理信息的分布情况确定。比如，预设的投影视角可以是指向三维模型分布有纹理信息的表面的视角，或者是指向三维模型形状信息比较丰富的表面的视角。如图4b所示，若该三维模型为一个正方体，且正方体的上下表面才有纹理信息，则投影视角可以是从上下表面方向指向正方体中心的视角。

其中，预设的多个视角的确定可以基于实际情况设置，既可以是固定的，也可以基于三维模型的特点临时设置，本公开实施例不做限制。

S306、从所述多帧RGB图像中选取目标RGB图像，其中，所述目标RGB图像中的有效信息的信息量符合预设条件，所述有效信息为可用于辨识所述待分类对象材质的信息；

为了尽可能覆盖三维模型不同角度的特征信息，在设置上述多个投影视角时，通常可以采用均匀采样的方式，选取一定数量的多个视角，然而，在从投影后的RGB图像提取特征的过程中，如果将对所有投影视角下的RGB图像均进行特征提取，然后基于提取的特征预测待分类对象的类别，容易出现计算量过大，效率较低的问题。因此，在步骤S306中，在基于预设的多个投影视角对三维模型进行投影，得到多帧RGB图像后，可以基于各帧RGB图像中包含的有效信息的信息量的多少从中选取一帧或多帧目标RGB图像，其中，目标RGB图像中的有效信息的信息量符合预设条件，比如，目标RGB图像中的有效信息的信息量大于一定阈值，或者目标RGB图像中的有效信息的信息量的信息最大，或者目标RGB图像为该多帧RGB图像中有效信息的信息量最大的前N帧图像等等。其中，有效信息为可用于辅助识别待分类对象的材质的信息，比如，可以是可用于辅助识别待分类对象材质的纹理信息，或者也可以是可用于辅助识别待分类对象材质的形状信息、拓扑结构信息等，本公开实施例不做限制。

S308、对所述目标RGB图像进行特征提取，基于提取的特征确定所述待分类对象所属的材质类别。

在步骤S308中，在筛选得到目标RGB图像后，可以对目标RGB图像进行特征提取，然后基于提取的特征确定待分类对象所属的材质类别。在一些场景，对目标RGB图像进行特征提取可以利用一些特征提取网络实现，比如，可以用AlexNet、ResNet、VGG等特征提取网络对目标RGB图像进行特征提取，得到目标RGB图像的特征。基于提取的特征确定待分类对象的材质类别也可以通过预先训练的神经网络实现，比如，可以将提取的特征输入至该神经网络中，由神经网络预测该待分类对象属于预设材质类别的概率。在一些场景，也可以直接将目标RGB图像输入至预先训练的神经网络中，由神经网络对目标RGB图像进行特征提取，并基于提取的特征确定待分类对象的材质类别。

在一些实施例中，目标RGB图像的有效信息量符合预设条件，可以是目标RGB图像中的有效信息的信息量大于预设信息量阈值。或者，也可以先将干该多帧RGB中的有效信息的信息量按照从大到小的顺序排序，然后取其中的前N帧RGB图像作为目标RGB图像，其中，N为正整数。比如，假设预设的投影视角的数量为20，该有目标RGB图像可以有效信息的信息量最大的前5帧RGB图像。

在一些实施例中，该三维模型可以是待分类对象的三维网格模型，纹理信息可以是三维网格模型对应的纹理贴图，在将三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像时，针对三维网格模型中的各个网格顶点，可以基于该纹理贴图确定三维网格模型的各个网格顶点的RGB值。比如，以三维网格模型为例，三维网格模型通常是由多个网格顶点的位置坐标以及这些网格顶点之间的连接关系表示。可以为三维网络模型预先设计纹理坐标，如图5所示，纹理坐标表征了三维网格模型中各网格顶点与纹理贴图中的像素点的映射关系。即三维网格模型中的每个网格顶点对应一个纹理坐标，每个纹理坐标在纹理贴图中对应一个像素点，通过纹理坐标将三维模型的网格顶点和纹理贴图的像素点关联起来。因此，可以先确定网格顶点对应的纹理坐标，进而基于纹理坐标从纹理贴图中找到该网格顶点对应的像素点，将该像素点的纹理信息（即RGB值）赋给该网格顶点。

在确定每个网格顶点的纹理信息后，可以将三维网格模型分别按照预设的投影视角投影，并基于各个网格顶点的RGB值确定投影得到的二维图像中各像素点的RGB值，以得到多帧RGB图像。

在一些实施例中，该预设设置的多个投影视角可以是能够观察到三维模型中携带有效纹理信息的表面的视角，其中，有效纹理信息为可用于辨别待分类对象的材质类别的纹理信息，基于这些视角对三维模型进行投影，得到的RGB图像中的有效信息更多。

在一些实施例中，为了设置的投影视角尽可能全面的覆盖三维模型中有用的特征信息，可以先确定三维模型的投影球，如图6所示，三维模型的投影球是指中心与三维模型的中心重合，且可以包围该三维模型的球体。然后可以在该球体的球面中采样，得到多个目标点，将目标点指向三维模型中心的视角作为该投影视角。比如，如果希望多个投影视角覆盖三维模型的各个角度，则可以在整个球面均匀采样，得到多个目标点，将这些目标点指向三维模型中心的视角作为投影视角，从而可以覆盖观察三维模型的各个视角。

考虑到按照投影视角投影后的RGB图像应包含待分类对象的有效纹理信息，才能用于待分类对象的材质的识别，而三维模型并非每个表面均携带有有效纹理信息，因此，在设置多个投影视角时，应选择可以观察到三维模型中带有有效纹理信息的表面的视角。所以，在一些实施例中，在设置上述多个投影视角时，可以先从投影球中确定目标区域，其中，目标区域为三维模型中带有有效纹理信息的表面正对的球面区域。然后可以在该目标区域内间隔采样，得到多个目标点，将每个目标点指向三维模型的中心的视角作为一个投影视角。

通过采用这种方式设置投影视角，可以确定出更多有效的，可以准确获取有效信息的投影视角，既可以减少投影视角数量，又可以提高分类结果的准确性。

其中，考虑到物体投影后得到的投影区域的大小与投影距离有关，比如，同一个物体，投影距离越大，在同一个投影视角下得到的投影区域面积越小，反之亦然。由于不同投影视角投影得到的RGB图像的有效信息的信息量通常与三维模型投影后得到的投影区域的面积大小有关，为了方便对不同投影视角下投影得到的RGB图像中的有效信息的信息量进行比对，可以利用投影球确定投影视角，并对三维模型进行投影，由于投影球球面上的每个点到球心的距离都是相等的，把三维物体放到球心，则可以保证投影距离是固定的，那么投影出的大小都是相对的，具有可比性。在一些实施例中，如果三维模型所有外表面均携带有有效纹理信息，则该多个目标点均匀分布于投影球的整个球面。如果三维模型所有外表面均携带有有效纹理信息，说明从各个角度看向三维模型，均能看到有效纹理信息，因而，为了设置得投影视角可以全面覆盖三维模型各角度的特征信息，可以在整个投影球的球面均匀采样，得到多个目标点，将这些目标点指向三维模型中心的视角作为该预设的多个投影视角。

在一些实施例中，如图7a所示，如果仅是三维模型的上半部分的外表面携带有有效纹理信息，说明只能从投影球的上半球的位置看向三维模型，才能看到有效纹理信息。因此，在设置投影视角时，投影视角可以是从上半球位置指向三维模型中心的视角，即该多个目标点均匀分布于投影球的上半球的球面。

在一些实施例中，如图7b所示，如果仅是三维模型的下半部分的外表面携带有有效纹理信息，说明只能从投影球的下半球的位置看向三维模型，才能看到有效纹理信息。因此，在设置投影视角时，投影视角可以是从下半球位置指向三维模型中心的视角，即该多个目标点均匀分布于投影球的下半球的球面。

举个例子，以利用三维扫描设备扫描患者牙齿为例，通常三维扫描设备只能扫描到牙齿的上表面和侧面的信息，而牙齿底面的信息无法扫描到，因此，对于基于三维扫描设备扫描的数据重建得到的牙齿模型，在设置投影视角时，可以在牙齿模型的投影球的上半球的球面间隔采样，得到多个目标点，然后将这些目标点指向牙齿模型中心的视角作为投影视角。

同理，如果仅是三维模型的左半部分或右半部分携带有有效纹理信息，则该多个目标点点均匀分布于投影球的左半半球的球面或右半球的球面。

在一些实施例中，在设置投影视角时，目标点可以等间隔地分布于该三维模型投影球的水平方向上的大圆上和/或竖直方向上的大圆上。其中，投影球的大圆为圆心经过球心，且直接等于投影球直径的圆。可以在投影球水平方向上的大圆上间隔采样，得到多个目标点，将目标点指向球心的视角作为投影视角。当然，也可以在投影球竖直方向上的大圆上间隔采样，得到多个目标点，将目标点指向球心的视角作为投影视角。比如，如图8所示，可以在水平方向上的大圆上间隔采样点，得到目标点，将目标点指向球心的视角作为投影视角，其中，相邻两个投影视角之间间隔60°。同理，可以在竖直方向上的大圆上间隔采样点，得到目标点，将目标点指向球心的视角作为投影视角，其中，相邻两个投影视角之间间隔30°。当然，具体的间隔可以基于实际需求设置，本公开实施例不做限制。

在一些实施例中，每帧目标RGB图像中的有效信息的信息量可以通过该目标RGB图像对应的投影视角的视角熵表征，其中，每个投影视角的视角熵可以用于表征利用该投影视角投影得到的RGB图像中的有效信息的多少，比如，视角熵越大，有效信息越多。在三维模型表面的有效纹理信息均匀分布的情况下，每个投影视角的视角熵与该投影视角下三维模型中被投影至该目标RGB图像中的区域的面积正相关。比如，以三维模型为三维网格模型为例，假设每个三角面片包含的有效纹理信息的信息量一致，则三维模型中被投影至RGB图像中的三角面片的数量越大，或者网格顶点的数量越多，则视角熵越大。

当然，在一些场景，如果三维模型中的每个三角面片包含的有效纹理信息不一致，那么在统计投影视角的视角熵时，也可以基于每个三角面片包括有效纹理信息的信息量为该三角面片设置一个权重，其中，三角面片包含的有效纹理信息越多，该权重越大。在统计该投影视角的视角熵时，可以基于该投影视角下，被投影至RGB图像中的三角面片的数量和权重，综合确定视角熵。比如，假设权重为1的三角面片的数量为100，权重为0.8的三角面片的数量为200、权重为0.1的三角面片的数量为100，则视角熵可以通过以下方式计算：100*1+0.8*200+0.1*100。

在一些实施例中，每帧目标RGB图像中的有效信息的信息量可以通过该目标RGB图像对应的投影视角的视角熵表征，其中，每个投影视角的视角熵通过该投影视角对应的目标RGB图像中有效像素面积与该目标RGB图像的总面积的比值表示，其中，目标RGB图像的总面积为预设的固定大小的投影矩形的面积，该投影矩形可以基于三维模型的投影球在目标RGB图像对应的投影视角下投影得到的投影圆确定，比如，投影矩形的中心可以以投影圆的中心重合，从投影圆中截取长宽为H*W的矩形作为该投影矩形（即长乘宽的H*W矩阵）。有效像素面积为三维模型对应的投影区域的面积。相关技术中，在表征视角熵时，通常用三维模型中被投影的区域的面积（比如，被投影的三角面片的面积）与三维模型中所有三角面片的总面积的比值表示，这种表征方式需要去统计被投影的三角面片的面积和三维模型中所有三角面片的总面积，计算量较大，比较繁琐。因此，可以将被投影的三角面片的面积近似为RGB图像中有RGB值的像素点的构建的区域的像素面积（即有效像素面积），将三维模型中所有三角面片的总面积近似为预设的投影矩形的面积，由于投影矩形的面积固定，从而在计算每个投影视角的视角熵时，可以减小计算量。

其中，如果每个投影视角的视角熵通过该投影视角对应的目标RGB图像中有效像素面积与该目标RGB图像的总面积的比值表示，这种计算方式是认为RGB图像中各像素在计算视角熵时，其贡献程度是一致的，即各个像素的权重一致。然而，考虑到在对三维模型进行投影时，由于三维模型位于投影球中心，因而，当前投影视角下观察到的三维模型的中心区域会被投影至RGB图像的中心区域，由于不同的投影视角观察到的三维模型的中心区域不同，因而，不同投影视角下得到的RGB图像的中心对应着三维模型的不同区域。很明显，RGB图像的中心区域反映了投影视角的信息，其最能反应当前的投影视角下观察到的三维模型的特征，即可以体现当前投影视角和其他投影视角的差异。因此，在一些实施例中，在计算视角熵时，为了让视角熵更好的体现当前投影视角的特性，可以为RGB图像中三维模型对应的投影区域内的各个像素设置不同的权重。考虑到位于RGB图像中心区域的像素更能体现当前投影视角的特性，因而，该区域的像素的权重可以设置得大一些，而远离RGB图像中心区域的像素，其通常为当前投影视角与其他投影视角的公共特征，因而，其权重可以设置得小一些。如此设置，通过对不同投影视角计算视角熵，才能更好的选择特征，有助于后续模型训练与调优，且结合全局特征贡献权重的融合策略可以在全局视角下对不同的视角图像提取的特征进行贡献度计算生成贡献度权重，过滤和降低来自多个视角图像下的无效特征或者冗余特征，提高模型的识别准确率。

在一些实施例中，可以基于上述实施例中，从投影圆中截取长宽为H*W的矩形作为该投影矩形（即长乘宽|H*W矩阵），再对H*W矩阵乘以高斯分布的权重系数，有效面积像素乘以对应高斯权值矩阵，可以得到上述比值的分子，由于每个视角的总投影面积总是一致的，所以分母一致，故可以将上述比值的分子可以看做当前投影视角的视角熵。

其中，每个投影视角的视角熵通过该投影视角对应的目标RGB图像中的加权有效像素面积与该目标RGB图像的总面积的比值表示，其中，加权有效像素面积可以通过利用三维模型对应的投影区域内的各像素的权重对各像素的像素面积进行加权处理，然后对加权处理后的各像素的像素面积进行求和得到。目标RGB图像的总面积为预设的固定大小的投影矩形的面积，该投影矩形可以基于三维模型的投影球在目标RGB图像对应的投影视角下投影得到的投影圆确定。

在一些实施例中，为了尽可能得到三维模型不同角度的特征信息，目标RGB图像可以包括多帧。相关技术中，在对该多帧目标RGB图像进行特征提取，并基于提取的特征确定待分类对象所属的材质类别时，通常是针对每帧目标RGB图像，可以对该帧目标RGB图像进行特征提取，得到每帧目标RGB图像的特征，其中，由于每帧目标RGB图像的特征通常包括多个维度的子特征，相关技术中，一般是以单帧目标RGB图像为维度，确定该帧目标RGB图像的特征中每个子特征的权重，然后基于每个子特征的权重对该帧目标RGB图像的特征中对应的子特征进行加权处理，然后再将多帧目标RGB图像加权后的特征拼接，得到拼接特征，基于该拼接特征确定待分类对象的类别。其中，对目标RGB图像进行特征提取可以通过一些特征提取网络实现，比如，可以通过GoogLeNet，ResNet、MobileNet等特征提取网络对目标RGB图像进行特征提取，得到各目标RGB图像的特征。

举个例子，假设针对目标RGB图像A、B、C，分别对其进行特征提取，得到特征向量如下：（a1，a2，a3）、（b1，b2，b3）、（c1，c2，c3），相关技术中是先基于特征向量（a1，a2，a3）确定a1、a2、a3三个维度的子特征各自的权重，r11、r12、r13。同理，基于特征向量（b1，b2，b3）确定b1、b2、b3三个维度的子特征各自的权重，r21、r22、r23，基于特征向量（b1，b2，b3）确定c1、c2、c3三个维度的子特征各自的权重，r31、r32、r33，即对于每帧目标RGB图像，其各个维度的子特征权重的确定是相互独立的，没有从全局的角度确定各个维度的子特征的权重。然后可以多帧目标RGB图像加权后的特征拼接，得到拼接特征的特征向量，即：（r11a1，r12a2，r13a3，r21b1，r22b2，r23b3，r31c1，r32c2，r33c3）。

每一个视角下的特征反应的都是同一个物体的特征，如果单独地对每个视角下的特征向量分别进行各个维度的子特征的贡献度权重计算，则这种贡献度权重的计算是相对的，这种方式在确定每个维度的子特征的权重时，仅仅是基于单帧目标RGB图像确定，缺乏全局性，极有可能出现某一个投影视角下的目标RGB图像的某个维度的子特征在整体投影视角的全局特征中权重较低，但是其在单个投影视角下局部特征中计算的权重却很高，进而对后续的分类造成影响。

基于此，在一些实施例中，在分别对多帧目标RGB图像进行特征提取，得到每帧RGB图像的特征后，可以先将该多帧目标RGB图像各自的特征进行拼接，得到拼接特征，然后可以基于该拼接特征确定每帧目标RGB图像的特征中的每个维度的子特征对应的权重，即从全局的视角确定每帧目标RGB图像中的每个维度的子特征在所有目标RGB图像中的权重，然后可以基于每个维度的子特征对应的权重对该拼接特征中的该子特征进行加权处理，得到加权处理后的拼接特征，并基于加权后的拼接特征确定所述待分类对象所属的材质类别。

举个例子，假设针对目标RGB图像A、B、C，分别对其进行特征提取，得到特征向量如下：（a1，a2，a3）、（b1，b2，b3）、（c1，c2，c3），可以先对这三个特征进行拼接，得到拼接特征的特征向量：（a1，a2，a3，b1，b2，b3，c1，c2，c3），然后可以基于特征向量（a1，a2，a3，b1，b2，b3，c1，c2，c3）确定a1、a2、a3、b1、b2、b3、c1、c2、c3各个维度的子特征各自的权重，r1、r2、r3、r4、r5、r6、r7、r8、r9。即每帧图像每个维度的子特征的权重是基于所有目标RGB图像确定，即从全局的视角确定。然后可以基于确定的权重对拼接特征进行加权处理，得到加权处理后的拼接特征的特征向量：（r1a1，r2a2，r3a3，r4b1，r5b2，r6b3，r7c1，r8c2，r9c3）。通过这种方式，可以确定每帧RGB图像中的每个维度的特征在整体的投影视角的权重，即从全局视角确定每个子特征的权重，使得确定的权重更准确。

在一些实施例中，可以直接基于加权后的拼接特征确定待分类对象所属的材质类别。比如，将该拼接特征输入至预先训练的神经网络中，由神经网络预测该待分类对象属于预设的各种材质的类别。在一些实施例中，为了防止梯度消失问题，以便梯度更好的回传，在基于加权后的拼接特征确定待分类对象所属的材质类别时，可以先将加权后的拼接特征与原始的拼接特征进行融合处理，得到融合特征，在基于融合特征确定待分类对象所属的材质类别。即在加权处理的拼接特征中融合原始特征，可以保留一些原始拼接特征的信息，避免权重确定过程的引入的误差对最终确定的特征造成过大的影响，使得基于融合特征得到的分类结果更加准确。

在一些实施例中，该方法由预先训练的分类模型实现，该分类模型的模型结构如图9所示，包括多视角投影子网络、视角熵筛选子网络、特征提取子网络、融合子网络。其中，该多视角投影子网络用于将三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像，该视角熵筛选子网络用于确定每个投影视角对应的视角熵，并基于该视角熵从多帧RGB图像筛选出目标RGB图像，其中，每个投影视角的视角熵用于表征利用该投影视角对三维模型进行投影后得到的RGB图像中的有效信息量的大小。该特征提取网络用于对目标RGB图像进行特征提取，得到每帧目标RGB图像各自的特征。该融合子网络用于基于多帧目标RGB图像各自的特征确定待分类对象所属的材质类别。比如，该融合子网络可以将各帧目标RGB图像的特征拼接，得到拼接特征，然后基于拼接特征确定目标RGB图像的特征中的各个维度的子特征的权重，并利用该权重对拼接特征中相应的子特征进行加权处理，得到加权处理后的拼接特征，然后可以将拼接特征和加权处理后的拼接特征进行融合，得到融合特征，并基于融合特征预测待分类对象为预设材质类别的概率，以确定待分类对象的材质类别。

在一些实施例中，该方法由预先训练的分类模型实现，在训练该分类模型时，可以获取携带标签的样本三维模型，其中，该标签用于指示样本三维模型的材质类别，该样本三维模型携带有纹理信息。然后可以将该样本三维模型输入至预设的初始模型中，由初始模型将样本三维模型分别按照预设的多个投影视角投影，得到多帧样本RGB图像，从多帧样本RGB图像中选取目标样本RGB图像，对目标样本RGB图像进行特征提取，基于提取的特征预测样本三维模型所属的材质类别，然后可以基于预测的材质类别和该标签指示的材质类别的差异不断调整初始模型的模型参数，以训练得到分类模型。

其中，在一些实施例中，在从多帧样本RGB图像中选取目标样本RGB图像，可以将多帧样本RGB图像中的有效信息的信息量按照从大到小的顺序排序，然后从中选取有效信息最大的前N帧图像作为目标样本RGB图像。但是，考虑到如果选取的目标样本RGB图像都为有效信息较多的图像，即选取的都是投影视角较佳的图像，那么容易造成模型学习过程过于简单，模型过度学习有效信息较多的图像的特征，极易出现过拟合的现象。进而训练的分类模型在推理过程中，如果遇到有效信息较少的图像，则无法做出准确的判断。为了减少避免训练过程中，模型出现过拟合现象，在一些实施例中，在从多帧样本RGB图像中选取目标样本RGB图像时，该目标样本RGB图像为按照有效信息的信息量从大到小的顺序排序得到的多帧RGB图像中的前M1帧图像的一部分，以及后M2帧图像中的一部分，其中，M1、M2为正整数，该多帧样本RGB图像的总数量为M1+M2。

举个例子，假设该多组投影视角为固定的19组投影视角，在将样本三维模型按照该19组投影视角投影后，即可以得到19帧样本RGB图像，然后可以将19帧样本RGB图像按照有效信息的信息量从大到小的顺序排序，从中选取前6帧样本RGB图像作为该目标样本RGB图像，但是为了防止过拟合问题，可以从剩余的13帧样本RGB图像中随机选取2帧图像，替换该6帧图像中的任意两帧。即在目标RGB图像中引入有效信息较少的图像，通过引入有效信息较少的图像，可以引入更多的无效信息和噪声信息，可以增加模型训练的优化难度，防止模型过拟合，提升模型的鲁棒性。如此设置，还可以提高本方法对存在缺牙情况的三维模型，存在扫描不完整情况的三维模型等包含较多低视角熵三维模型的识别泛化性。

在一些实施例中，该待分类的三维模型可以是用户上传的牙齿三维模型，该材质类别为真实牙齿和非真实牙齿，在确定该三维模型的材质类别为非真实牙齿的情况下，可以对用户进行提示；在确定该三维模型的材质类别为真实牙齿的情况下，可以对牙齿模型进行疾病诊断。比如，在一些场景，该方法可以用于一些智能诊断软件，用于对牙齿模型进行疾病诊断，由于智能诊断软件要求用户上传的牙齿模型为真实牙齿的模型，不能是石膏、金属等制作的牙齿模型，因此，智能诊断软件可以先基于上述实施例中介绍的方法对用户上传的牙齿三维模型进行材质分类，判定其属于真实牙齿还是非真实牙齿（即石膏、金属等制作的牙齿），如果是真实牙齿，仅会对齐进行疾病诊断，如果是非真实牙齿，即提示用户该牙齿为非真实牙齿，无法进行诊断等。

不难理解，上述各实施例中的描述的方案在不存在冲突的情况，可以自由组合，得到新的方案，鉴于篇幅原因，本公开实施例中不一一例举。

相应的，本公开实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述任一实施例提及的方法。

进一步的，本公开实施例还提供一种设备，如图10所示，所述设备包括处理器101、存储器102、存储于所述存储器102可供所述处理器101执行的计算机指令，所述处理器101执行所述计算机指令时实现上述实施例中任一项所述的方法。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本公开实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本公开实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本公开实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本公开实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开实施例的保护范围。

Claims

1.一种对象分类方法，其特征在于，所述方法包括：

获取待分类对象的三维模型，所述三维模型携带纹理信息；

2.根据权利要求1所述的方法，其特征在于，所述目标RGB图像中的有效信息的信息量符合预设条件，包括：

所述目标RGB图像中的有效信息的信息量大于预设信息量阈值；或

所述多帧RGB图像被按照有效信息的信息量从大到小的顺序排序，所述目标RGB图像为排序后的多帧RGB图像中的前N帧图像，其中，N为正整数。

3.根据权利要求1所述的方法，其特征在于，所述三维模型为所述待分类对象的三维网格模型，所述纹理信息为所述三维网格模型对应的纹理贴图，所述将所述三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像，包括：

基于所述纹理贴图确定三维网格模型的各个网格顶点的RGB值；

将所述三维网格模型分别按照预设的投影视角投影，并基于各个网格顶点的RGB值确定投影得到的二维图像中各像素点的RGB值，以得到所述多帧RGB图像。

4.根据权利要求1所述的方法，其特征在于，所述预设的多个投影视角为可观察到所述三维模型携带有有效纹理信息的表面的视角，所述有效纹理信息可用于辨别所述待分类对象的材质；和/或

每帧所述目标RGB图像中的有效信息的信息量通过该目标RGB图像对应的投影视角的视角熵表征，若所述三维模型表面的有效纹理信息均匀分布，则每个投影视角的视角熵正相关于所述三维模型中投影到该目标RGB图像中的区域的面积。

5.根据权利要求4所述的方法，其特征在于，所述预设的多个投影视角通过以下方式确定：

从所述三维模型的投影球中确定目标区域，其中，所述投影球的中心与所述三维模型的中心重合，且所述投影球包围所述三维模型，所述目标区域为所述三维模型中带有有效纹理信息的表面正对的球面区域；

在所述目标区域内间隔采样得到多个目标点，将每个目标点指向所述三维模型中心的视角作为一个投影视角。

6.根据权利要求5所述的方法，其特征在于，若所述三维模型所有外表面均携带有有效纹理信息，则所述多个目标点均匀分布于所述投影球的整个球面；若仅是所述三维模型的上半部分的外表面携带有有效纹理信息，则所述多个目标点均匀分布于所述投影球的上半球的球面；若仅是所述三维模型下半部分的外表面携带有有效纹理信息，则所述多个目标点均匀分布于所述投影球的下半球的球面；

和/或

所述目标点等间隔地分布于所述投影球的水平方向上的大圆上和/或竖直方向上的大圆上。

7.根据权利要求1所述的方法，其特征在于，每帧所述目标RGB图像中的有效信息的信息量通过该目标RGB图像对应的投影视角的视角熵表征，每个投影视角的视角熵通过所述目标RGB图像中有效像素面积与所述目标RGB图像的总面积的比值表示；或

每个投影视角的视角熵通过所述目标RGB图像中的加权有效像素面积与所述目标RGB图像的总面积的比值表示；

其中，所述有效像素面积为所述三维模型对应的投影区域的面积，所述加权有效像素面积通过利用所述三维模型对应的投影区域的各像素的权重对各像素的像素面积进行加权处理，并将加权处理后各像素的像素面积进行求和得到，所述投影区域中越靠近所述RGB图像中心的像素的权重越大；所述目标RGB图像的总面积为预设的固定大小的投影矩形的面积，所述投影矩形基于所述三维模型的投影球在所述目标RGB图像对应的投影视角下的投影得到投影圆确定。

8.根据权利要求1所述的方法，其特征在于，所述目标RGB图像包括多帧，所述对所述目标RGB图像进行特征提取，基于提取的特征确定所述待分类对象所属的材质类别，包括：

分别对所述多帧目标RGB图像进行特征提取，得到每帧RGB图像的特征，其中，每帧目标RGB图像的特征中包括多个维度的子特征；

将所述多帧目标RGB图像各自的特征进行拼接，得到拼接特征；

基于所述拼接特征确定每帧目标RGB图像的特征中的每个维度的子特征对应的权重；

基于所述每个维度的子特征对应的权重对所述拼接特征中的该子特征进行加权处理，得到加权处理后的拼接特征；

基于加权后的拼接特征确定所述待分类对象所属的材质类别。

9.根据权利要求8所述的方法，其特征在于，所述加权后的拼接特征确定所述待分类对象所属的材质类别，包括：

将加权后的拼接特征与所述拼接特征进行融合处理，得到融合特征；

基于所述融合特征确定所述待分类对象所属的材质类别。

10.根据权利要求1所述的方法，其特征在于，所述方法由预先训练的分类模型实现，所述分类模型包括多视角投影子网络、视角熵筛选子网络、特征提取子网络、融合子网络；

所述多视角投影子网络用于将所述三维模型分别按照预设的多个投影视角投影，得到多帧RGB图像；

所述视角熵筛选子网络用于确定每个投影视角对应的视角熵，并基于所述视角熵从所述多帧RGB图像筛选出目标RGB图像，其中，所述每个投影视角的视角熵用于表征利用该投影视角对三维模型进行投影后得到的RGB图像中的有效信息量的大小；

所述特征提取子网络用于对所述目标RGB图像进行特征提取，得到每帧目标RGB图像各自的特征；

所述融合子网络用于基于所述多帧目标RGB图像各自的特征确定所述待分类对象所属的材质类别。

11.根据权利要求1所述的方法，其特征在于，所述方法由预先训练的分类模型实现，所述分类模型基于以下方式训练得到：

获取携带标签的样本三维模型，所述标签用于指示所述样本三维模型的材质类别，所述样本三维模型携带纹理信息；

将所述样本三维模型输入至预设的初始模型中，由所述初始模型将所述样本三维模型分别按照预设的多个投影视角投影，得到多帧样本RGB图像，从所述多帧样本RGB图像中选取目标样本RGB图像，对所述目标样本RGB图像进行特征提取，基于提取的特征预测所述样本三维模型所属的材质类别；其中，所述多帧RGB图像被按照有效信息的信息量从大到小的顺序排序，所述目标样本RGB图像为排序后的多帧RGB图像中的前M1帧图像的一部分，以及后M2帧图像中的一部分，其中，M1、M2为正整数，所述多帧样本RGB图像的总数量为M1+M2；

基于预测的材质类别和所述标签指示的材质类别的差异调整所述初始模型的模型参数，以训练得到所述分类模型。

12.根据权利要求1所述的方法，其特征在于，所述待分类的三维模型为用户上传的牙齿三维模型，所述材质类别为真实牙齿和非真实牙齿，所述方法还包括：

在确定所述三维模型的材质类别为非真实牙齿的情况下，对用户进行提示；

在确定所述三维模型的材质类别为真实牙齿的情况下，对所述牙齿模型进行疾病诊断。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的方法。

14.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、存储于所述存储器可供所述处理器执行的计算机指令，所述处理器执行所述计算机指令时实现如权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的方法。