CN117789103A

CN117789103A - 场景识别方法、模型训练方法、装置以及电子设备

Info

Publication number: CN117789103A
Application number: CN202311835354.3A
Authority: CN
Inventors: 张帆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-29

Abstract

本申请实施例公开了一种场景识别方法、模型训练方法、装置以及电子设备，方法包括：通过第一网络模型获取待识别数据的第一特征向量，待识别数据为图像模态或者语音模态的数据；获取多个候选场景各自的第二特征向量；将多个候选场景各自的第二特征向量中，与第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量；将目标特征向量所对应的候选场景，作为待识别数据对应的场景。从而通过上述方式使得在需要增加新的候选场景时，可以仅需要增加该新的候选场景对应的场景描述数据，并通过第二网络模型进行转换以得到对应的第二特征向量即可使得该新的候选场景能够进行识别，从而实现了更加简便的扩展可进行识别的场景。

Description

场景识别方法、模型训练方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种场景识别方法、模型训练方法、装置以及电子设备。

背景技术

随着科技的进步，人们除了要求电子设备(例如，手机、平板电脑等)具有其基础能力外，还希望它们更加智能化。例如，在一些情况，可以通过电子设备对用户所处的场景进行感知，从而实现更好的智能化。但是，相关的场景识别方法还存在可进行识别的场景不易扩展的问题。

发明内容

鉴于上述问题，本申请提出了一种场景识别方法、模型训练方法、装置以及电子设备，以改善上述问题。

第一方面，本申请提供了一种场景识别方法，所述方法包括：通过第一网络模型获取待识别数据的第一特征向量，所述待识别数据为图像模态或者语音模态的数据；获取多个候选场景各自的第二特征向量，所述第二特征向量为通过第二网络模型对所述候选场景的场景描述数据进行转换得到，所述场景描述数据为文本模态的数据；将所述多个候选场景各自的第二特征向量中，与所述第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量；将所述目标特征向量所对应的候选场景，作为所述待识别数据对应的场景。

第二方面，本申请提供了一种模型训练方法，所述方法包括：获取第一训练数据集，所述第一训练数据集包括多个第一训练样本以及所述多个第一训练样本各自的场景描述数据，所述第一训练样本为图像模态或者语音模态的样本；通过所述第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型，其中，所述第二网络模型用于将多个候选场景的场景描述数据进行转换得到多个第二特征向量，所述第一网络模型，用于获取待识别数据的第一特征向量，以便通过获取与所述第一特征向量的相似度满足目标相似条件的第二特征向量，来获取所述待识别数据对应的场景。

第三方面，本申请提供了一种场景识别装置，所述装置包括：待识别数据处理单元，用于通过第一网络模型获取待识别数据的第一特征向量，所述待识别数据为图像模态或者语音模态的数据；候选场景获取单元，用于获取多个候选场景各自的第二特征向量，所述第二特征向量为通过第二网络模型对所述候选场景的场景描述数据进行转换得到，所述场景描述数据为文本模态的数据；向量比对单元，用于将所述多个候选场景各自的第二特征向量中，与所述第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量；场景获取单元，用于将所述目标特征向量所对应的候选场景，作为所述待识别数据对应的场景。

第四方面，本申请提供了一种模型训练装置，所述装置包括：训练数据获取单元，用于获取第一训练数据集，所述第一训练数据集包括多个第一训练样本以及所述多个第一训练样本各自的场景描述数据，所述第一训练样本为图像模态或者语音模态的样本；训练单元，用于通过所述第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型，其中，所述第二网络模型用于将多个候选场景的场景描述数据进行转换得到多个第二特征向量，所述第一网络模型，用于获取待识别数据的第一特征向量，以便通过获取与所述第一特征向量的相似度满足目标相似条件的第二特征向量，以获取所述待识别数据对应的场景。

第五方面，本申请提供了一种电子设备，所述电子设备至少包括处理器、以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述方法。

第六方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行上述方法。

本申请提供的一种场景识别方法、模型训练方法、装置以及电子设备，在获取到图像模态或者语音模态的待识别数据后，可以通过第一网络模型获取该待识别数据的第一特征向量，然后获取多个候选场景各自的第二特征向量，以将与第一特征向量最相似的第二特征向量作为目标特征向量，并将目标特征向量所对应的候选场景，作为待识别数据对应的场景。从而通过上述方式使得针对多个候选场景，会分别对应有通过第二网络模型获取的第二特征向量的情况下，在获取到待识别数据后，可以通过第一网络模型将待识别数据转换为对应的第一特征向量，以便通过获取第一特征向量与多个第二特征向量之间的相似度来确定待识别数据所属场景，进而使得在需要增加新的候选场景(可进行识别的场景)时，可以仅需要增加该新的候选场景对应的场景描述数据，并通过第二网络模型进行转换以得到对应的第二特征向量即可使得该新的候选场景能够进行识别，从而实现了更加简便的扩展可进行识别的场景。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的场景识别方法的一种应用场景的示意图；

图2示出了本申请实施例提出的场景识别方法的另一种应用场景的示意图；

图3示出了本申请实施例提出的一种场景识别方法的流程图；

图4示出了本申请实施例提出的场景识别方法得到待识别数据所属场景的示意图；

图5示出了本申请另一实施例提出的一种场景识别方法的流程图；

图6示出了本申请实施例提出的场景识别方法中更新场景向量数据的示意图；

图7示出了本申请再一实施例提出的一种场景识别方法的流程图；

图8示出了本申请实施例中对第一待训练模型以及第二待训练模型进行训练的示意图；

图9示出了本申请实施例中多个模态的编码器的示意图；

图10示出了本申请又一实施例提出的一种场景识别方法的流程图；

图11示出了本申请实施例中对可学习部分进行更新的示意图；

图12示出了本申请实施例中进行场景识别优化及增量训练的示意图；

图13示出了本申请一实施例提出的一种模型训练方法的流程图；

图14示出了本申请实施例提出的一种场景识别装置的结构框图；

图15示出了本申请另一实施例提出的一种场景识别装置的结构框图；

图16示出了本申请另一实施例提出的一种模型训练装置的结构框图；

图17示出了本申请的用于执行根据本申请实施例的场景识别方法的另一种电子设备的结构框图；

图18是本申请实施例的用于保存或者携带实现根据本申请实施例的场景识别方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着信息技术和互联网的蓬勃发展，手机、平板电脑等电子设备逐渐普及。随着科技的进步，人们除了要求电子设备具有基础能力外，还希望它们更加智能化。例如，在一些情况，可以通过电子设备对用户所处的场景进行感知，从而实现更好的智能化。

但是，发明人在研究中发现，相关的场景识别方法还存在不易扩展的问题。例如，发明人发现，在通过场景识别模型来进行场景识别的情况下，训练好的场景识别模型的网络参数(例如，网络权重)已经固定，因此，训练好的场景识别模型仅对采集过样本并进行训练的几种场景能够有效识别。如果需要扩展对其他新的可进行识别的新场景，则需要重新采集该新场景对应的数据样本，然后重新对模型进行训练。因此，每次增加支持的新场景，都需要重新开始训练模型，不但人力物力花费较大，而且过程繁琐，造成不易进行可以识别场景的扩展。

因此，发明人在研究中发现上述问题后，提出了本申请中可以改善上述问题的场景识别方法、模型训练方法、装置以及电子设备。在本方法中，在获取到图像模态或者语音模态的待识别数据后，可以通过第一网络模型获取该待识别数据的第一特征向量，然后获取多个候选场景各自的第二特征向量，以将与第一特征向量最相似的第二特征向量作为目标特征向量，并将目标特征向量所对应的候选场景，作为待识别数据对应的场景。

从而通过上述方式使得针对多个候选场景，会分别对应有通过第二网络模型获取的第二特征向量的情况下，在获取到待识别数据后，可以通过第一网络模型将待识别数据转换为对应的第一特征向量，以便通过获取第一特征向量与多个第二特征向量之间的相似度来确定待识别数据所属场景，进而使得在需要增加新的候选场景(可进行识别的场景)时，可以仅需要增加该新的候选场景对应的场景描述数据，并通过第二网络模型进行转换以得到对应的第二特征向量即可使得该新的候选场景能够进行识别，从而实现了更加简便的扩展可进行识别的场景。

在对本申请实施例进行进一步详细说明之前，先对本申请实施例中涉及一种应用环境进行介绍。

下面先对本申请实施例所涉及的应用场景进行介绍。

在本申请实施例中，所提供的场景识别方法或者模型训练方法可以由电子设备(端侧设备)执行。在由电子设备执行的这种方式中，本申请实施例提供的场景识别方法或者模型训练方法中所有步骤可以均由电子设备执行。例如，如图1所示，本申请实施例提供的场景识别方法或者模型训练方法中所有步骤可以均由电子设备执行的情况下，所有步骤均可以通过电子设备100处理器执行。

再者，本申请实施例提供的场景识别方法或者模型训练方法也可以由服务器进行执行。对应的，在由服务器执行的这种方式中，服务器可以响应于触发指令而开始执行本申请实施例提供的场景识别方法或者模型训练方法中的步骤。其中，该触发指令可以由用户使用的电子设备所发送，也可以由服务器响应于一些自动化事件而在本地触发。

另外，本申请实施例提供的场景识别方法或者模型训练方法还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本申请实施例提供的场景识别方法或者模型训练方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。示例性的，以本申请中的场景识别方法为例，如图2所示，电子设备100可以执行场景识别方法包括的：通过第一网络模型获取待识别数据的第一特征向量，然后将第一特征向量传输给服务器200，然后由服务器200来执行获取多个候选场景各自的第二特征向量，将多个候选场景各自的第二特征向量中，与第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量，将目标特征向量所对应的候选场景，作为待识别数据对应的场景，并将待识别数据对应的场景再返回给电子设备100。

需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。

需要说明的是，其中的电子设备100除了为图1和图2中所示的智能手机外，还可以为平板电脑、智能手表、智能语音助手等设备。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***。其中，在本申请实施例提供的场景识别方法由多个物理服务器构成的服务器集群或者分布式***执行的情况下，场景识别方法中的不同步骤可以分别由不同的物理服务器执行，或者可以由基于分布式***构建的服务器基于分布式的方式执行。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，本申请实施例提供的一种场景识别方法，所述方法包括：

S110：通过第一网络模型获取待识别数据的第一特征向量，待识别数据为图像模态或者语音模态的数据。

在本申请实施例中，待识别数据可以理解为用于进行场景识别的数据。其中，待识别数据可以为图像模态或者语音模态的数据。在本申请实施例中，模态可以理解为数据存在的形式或者状态。其中，图像模态的数据可以理解为以图像的形式存在的数据。例如，图像模态的数据可以包括图片或者视频。语音模态的数据可以理解为以语音的形式存在的数据。例如，语音模态的数据可以包括一段音频，例如，一段音乐或者录音。示例性的，电子设备可以通过摄像头采集一张图片作为待识别数据，或者，电子设备可以通过摄像头录制一段视频作为待识别数据。示例性的，电子设备可以通过麦克风采集一段音频作为待识别数据。另外，电子设备也可以将由其他设备发送来的数据(图像模态或者语音模态的数据)作为待识别数据。

在本申请实施例中，第一网络模型可以理解为将待识别数据转换为对应特征向量的模型。其中，第一网络模型所转换得到的向量可以为第一特征向量。其中，第一网络模型可以有对应的模态。第一网络模型对应的模态可以理解为能够输入到第一网络模型中被第一网络模型进行处理的模态。可选的，第一网络模型对应的模态可以为图像模态或者语音模态。

其中，在第一网络模型对应的模态为图像模态的情况下，可以将第一网络模型理解为一种图像编码器。在这种情况下，第一网络模型的类别可以为CNN(convolutionalneural networks)模型。在第一网络模型对应的模态为语音模态的情况下，可以将第一网络模型理解为一种语音编码器，在这种情况下，第一网络模型的类别可以为Mel频谱CNN模型。

作为一种方式，在待识别数据为语音模态的数据的情况下，也可以将语音模态的待识别数据转换为图像模态的待识别数据，然后再进行后续的处理。

其中，在获取到待识别数据后，则可以将待识别数据输入到第一网络模型中，以获取第一网络模型所输出的第一特征向量。

S120：获取多个候选场景各自的第二特征向量，第二特征向量为通过第二网络模型对候选场景的场景描述数据进行转换得到，场景描述数据为文本模态的数据。

在本申请实施例中，候选场景可以理解为能够进行识别的场景。

对于每个场景而言，可以对应有场景内容以及场景描述数据。并且，对于一个场景而言，场景内容与场景描述数据是相对应的。其中，场景内容可以用于介绍场景中会有一些什么物体、声音、光线等客观存在的事物。场景描述数据可以为文本模态的数据，场景描述数据可以理解为用于对所对应的场景进行定义的数据。该对场景进行定义的数据，则可以使得用户能够知道这具体是一个何种场景。例如，在一个场景中包括有驾驶员、方向盘、车窗以及乘客等场景内容，那么该场景内容所对应的场景描述数据可以为“公交车内部的场景”。再例如，在一个场景中包括有电脑、办公桌、办公椅等场景内容，那么该场景内容所对应的场景描述数据可以为“办公室内部的场景”。再例如，在一个场景的场景内容中包括有内容为“这个菜好吃”的音频，那么该场景内容所对应的场景描述数据可以为“吃饭的场景”。

在本申请实施例中，待识别数据可以理解为介绍场景中的场景内容的数据。在同一个场景的场景内容与场景描述数据为相对应的情况下，则可以通过将待识别数据与场景描述数据进行比对来确定待识别数据所属的场景。其中，为了便于进行比对，以从多个候选场景中确定待识别数据所属的场景，则可以针对多个候选场景各自的场景描述数据，得到对应的第二特征向量。

作为一种方式，获取多个候选场景各自的第二特征向量可以理解为获取预先通过第二网络模型进行转换得到的多个第二特征向量。在这种方式中，在得到候选场景的场景描述数据后，则可以通过第二网络模型来得到每个场景描述数据各自对应的第二特征向量，然后可以将得到的多个候选场景各自的第二特征向量进行存储。进而，在获取到第一特征向量后，则可以直接读取预先存储的多个候选场景各自的第二特征向量。可选的，多个候选场景各自的第二特征向量可以直接存储在本地，也可以存储在其他设备中。

作为另外一种方式，获取多个候选场景各自的第二特征向量可以理解为实时通过多个候选场景的场景描述数据，来得到多个候选场景各自的第二特征向量。在这种方式中，运行场景识别方法的设备可以通过第二网络模型，实时的对候选场景各自的场景描述数据进行转换，以得到多个候选场景各自的第二特征向量。

在本申请实施例中，第二网络模型所对应的输入的模态为文本模态，在这种情况下，第二网络模型也可以理解为一种文本编码器。可选的，第二网络模型的类别可以为Transformer网络。

S130：将多个候选场景各自的第二特征向量中，与第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量。

在获取到多个候选场景各自的第二特征向量后，则可以将多个候选场景各自的第二特征向量与第一特征向量进行相似度的计算，以得到每个候选场景的第二特征向量与第一特征向量之间的相似度。

在本申请实施例中，可以有多种计算两个向量(例如，第一特征向量和第二特征向量)之间的相似度的方式。例如，可以采用余弦距离或者欧氏距离来计算两个向量之间的距离，进而将该距离作为相似度。

其中，目标相似条件为用于从多个候选场景中选出待识别数据所属场景的条件。作为一种方式，目标相似条件可以为与第一特征向量的相似度大于指定相似阈值的第二特征向量。在这种方式下，在得到每个候选场景的第二特征向量与第一特征向量之间的相似度的情况下，可以将每个候选场景的第二特征向量与第一特征向量之间的相似度，均与指定相似阈值进行比对，以将与第一特征向量的相似度大于指定相似阈值的第二特征向量作为目标特征向量。示例性的，多个候选场景包括候选场景C1、候选场景C2、候选场景C3以及候选场景C4。其中，候选场景C1的第二特征向量与第一特征向量的相似度为S1，候选场景C2的第二特征向量与第一特征向量的相似度为S2，候选场景C3的第二特征向量与第一特征向量的相似度为S3，候选场景C4的第二特征向量与第一特征向量的相似度为S4。其中，若有S4大于指定相似阈值，那么则可以将候选场景C4的第二特征向量作为目标特征向量。

作为另外一种方式，目标相似条件可以为与第一特征向量的相似度最大的第二特征向量。在这种方式下，在得到每个候选场景的第二特征向量与第一特征向量之间的相似度的情况下，则会将每个候选场景的第二特征向量与第一特征向量之间的相似度相互进行比对，以确定出与第一特征向量之间的相似度最大的第二特征向量。

示例性的，多个候选场景包括候选场景C5、候选场景C6、候选场景C7以及候选场景C8。其中，候选场景C5的第二特征向量与第一特征向量的相似度为S5，候选场景C6的第二特征向量与第一特征向量的相似度为S6，候选场景C7的第二特征向量与第一特征向量的相似度为S7，候选场景C8的第二特征向量与第一特征向量的相似度为S8。其中，S5大于S6，S6大于S7，S7大于S8。在这种情况下，则会将候选场景C5的第二特征向量作为目标特征向量。

需要说明的是，对于前述的目标相似条件的条件内容，有可能会出现满足目标相似条件的第二特征向量有多个的情况。例如，在目标条件为与第一特征向量的相似度大于指定相似阈值的第二特征向量的情况下，对应的相似度大于指定相似阈值的第二向量可能会有多个，在这种情况下，则可以进一步的从相似度大于指定相似阈值的第二向量中选择对应相似度最大的第二特征向量作为目标特征向量。

S140：将目标特征向量所对应的候选场景，作为待识别数据对应的场景。

示例性的，如图4所示，候选场景可以有关于公交车的场景、关于地铁的场景、关于小汽车的场景......关于家里的场景等。在输入的待识别数据为一张关于公交车内部情况的图像的情况下，最后所识别的场景则可以为“关于公交车的场景”。

本实施例提供的一种场景识别方法，从而通过上述方式使得针对多个候选场景，会分别对应有通过第二网络模型获取的第二特征向量的情况下，在获取到待识别数据后，可以通过第一网络模型将待识别数据转换为对应的第一特征向量，以便通过获取第一特征向量与多个第二特征向量之间的相似度来确定待识别数据所属场景，进而使得在需要增加新的候选场景(可进行识别的场景)时，可以仅需要增加该新的候选场景对应的场景描述数据，并通过第二网络模型进行转换以得到对应的第二特征向量即可使得该新的候选场景能够进行识别，从而实现了更加简便的扩展可进行识别的场景。

请参阅图5，本申请实施例提供的一种场景识别方法，方法包括：

S210：通过第一网络模型获取待识别数据的第一特征向量，待识别数据为图像模态或者语音模态的数据。

S220：从本地的场景向量数据库中，获取多个候选场景各自的第二特征向量，场景向量数据库中的第二特征向量为预先由第二网络模型进行转换得到，场景描述数据为文本模态的数据。

在本申请实施例中，本地可以理解为执行本申请实施例提供的场景识别方法的设备。例如，若场景设备方法由电子设备执行，那么本地的场景向量数据库可以理解为存储在该电子设备中。其中，通过将记录有多个候选场景各自的第二特征向量的场景向量数据库存储在本地，可以使得更加快速的获取到多个候选场景各自的第二特征向量。

可选的，其中的第一网络模型也可以是部署在本地。在这种情况下，可以是将第一网络模型以及场景向量数据库一同部署到执行场景识别方法的电子设备中。

需要说明的是，在将场景向量数据库进行部署后，可能会存在需要增加候选场景的情况。在这种情况下，则可以响应于场景增加指令，获取待增加的候选场景的场景描述数据，然后通过第二网络模型，得到待增加的候选场景的场景描述数据的第二特征向量，作为待增加的第二特征向量，将待增加的第二特征向量增加到场景向量数据库。

可选的，以场景识别方法应用于电子设备为例。如图6所示，在图6所示的场景中包括有电子设备100以及服务器200。其中，本申请实施例提供的场景识别方法可以由电子设备100执行。在这种情况下，第一网络模型和场景向量数据库可以一同部署到电子设备100中。若有待增加的候选场景，可以由服务器200获取到该待增加的候选场景，并通过服务器200中的第二网络模型得到待增加的候选场景对应的第二特征向量，作为待增加的第二特征向量。然后，服务器200可以将待增加的第二特征向量传输给电子设备100，以便电子设备100将待增加的第二特征向量增加到本地的场景向量数据库中。

示例性的，现有的候选场景可以包括有候选场景C1、候选场景C2以及候选场景C3，在这种情况下，在本地的场景向量数据库中，存储有候选场景C1、候选场景C2以及候选场景C3各自的第二特征向量。并且，执行场景识别方法的设备也仅能对候选场景C1、候选场景C2以及候选场景C3进行识别。在这种情况下，若需要增加候选场景C4，则可以将候选场景C4的第二特征向量增加到场景向量数据库中，从而使得执行场景识别方法的设备也能对候选场景C4进行识别。

需要说明的是，对于场景的场景描述数据而言可能会存在不准确的情况下，或者会存在使得模型(例如，第二网络模型)所转换得到的第二特征向量无法准确的表征场景的情况。为了改善该情况，可以获取待增加的候选场景的场景内容以及对应的初始场景描述数据。其中，场景内容为图像模态或者语音模态的内容，初始场景描述数据包括第一数据部分以及第二数据部分，其中，第一数据部分通过学习的方式可进行更新。

然后，可以基于第一网络模型、第二网络模型以及场景内容，对初始场景描述数据中的第一数据部分进行更新，得到更新后的场景描述数据，其中，在对第一数据部分进行更新的过程中，第一网络模型以及第二网络模型的网络参数保持不变，将更新后的场景描述数据，作为待增加的候选场景的场景描述数据。

从而通过上述基于初始场景描述数据进行更新来得到待增加的候选场景的场景描述数据的方式，可以使得所得到的待增加的候选场景的场景描述数据，能够更加准确的对待增加的候选场景进行表达。

S230：将多个候选场景各自的第二特征向量中，与第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量。

S240：将目标特征向量所对应的候选场景，作为待识别数据对应的场景。

本实施例提供的一种场景识别方法，从而通过上述方式使得在需要增加新的候选场景(可进行识别的场景)时，可以仅需要增加该新的候选场景对应的场景描述数据，并通过第二网络模型进行转换以得到对应的第二特征向量后，将该第二特征向量存储到场景向量数据库中即可，从而实现了更加简便的扩展可进行识别的场景。并且，当本申请实施例提供的场景识别方法在电子设备中运行的情况下，使得功能升级(例如，使得可以对更多的场景进行识别)不需要更新整个模型(例如，第一网络模型和第二网络模型)，而仅仅需要更新场景向量数据库，从而使得升级过程中的数据更新较小，且快速高效。

请参阅图7，本申请实施例提供的一种场景识别方法，方法包括：

S310：获取第一训练数据集，第一训练数据集包括多个第一训练样本以及多个第一训练样本各自的场景描述数据，第一训练样本为图像模态或者语音模态的样本。

在本申请实施例中，第一训练数据集可以理解为用于对模型进行训练的数据集。

作为一种方式，第一训练数据集可以从互联网中获取。需要说明的是，在互联网中有大量多模态关联的数据，比如图片及其关联的文字描述(如购物网站上售卖的衣服图片及其属性的文字描述)，比如语音(如音视频资源)及其对应的文字描述。从而使得可以以很低的成本收集大量诸如此类语义对应的数据作为多模态数据集，以作为第一训练数据集。这些数据有天然的自标注性，可以不用后期二次标注，进而降低了成本。

作为另外一种方式，第一训练数据集可以通过人工标注完成。在这种方式中，可以先得到多个第一训练样本(图片或者音频)，然后通过人工的方式对每个第一训练样本配置对应的场景描述数据，进而得到第一训练数据集。

需要说明的是，第一训练数据集中的第一训练样本可以为图像模态的训练样本，也可以为语音模态的训练样本。其中，第一训练数据集中的第一训练样本的模态，可以根据所要训练得到的第一网络模型的输入模态来确定。其中，若第一网络模型的输入模态为图像模态，那么第一网络模型可以理解为一种图像编码器，进而第一训练数据集中的第一训练样本的模态可以为图像模态。若第一网络模型的输入模态为语音模态，那么第一网络模型可以理解为一种语音编码器，进而第一训练数据集中的第一训练样本的模态可以为语音模态。

S320：通过第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型。

在本申请实施例中，可以通过对比学习的训练方法对第一待训练网络模型以及第二待训练网络模型进行训练。在这种情况下，模型训练的过程可以理解为通过对比学习的训练方法进行模态间语义对齐的训练过程。

作为一种方式，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型的过程，可以包括：通过第一待训练网络模型，获取多个第一训练样本各自的第三特征向量，以得到多个第三特征向量。通过第二待训练网络模型，获取多个第一训练样本各自的场景描述数据的第四特征向量，以得到多个第四特征向量。通过多个第三特征向量以及多个第四特征向量，对第一待训练网络模型进行训练以得到第一网络模型，以及对第二待训练网络模型进行训练以得到第二网络模型。

其中，训练得到的第一网络模型以及第二网络模型，使得每个第一训练样本对应的第三特征向量，与各自的场景描述数据的第四特征向量之间的相似度，大于与其他场景描述数据的第四特征向量之间的相似度。

示例性的，第一训练数据集中包括有N个图像及对应文本描述，该N个图像及对应文本描述可以为pair形式的数据对。其中，该N个图像可以理解为前述的第一训练样本，而图像对应的文本描述则可以理解为第一训练样本对应的场景描述数据。基于该示例进行对比训练的训练过程可以如图8所示，在训练过程中，对于包含N个图像及对应文本描述，分别通过第一待训练网络模型计算N个图像的特征向量I₁...I_N，针对N个图像各自对应的文本描述，会分别通过第二待训练网络模型计算对应的特征向量T₁...T_N。其中，第一待训练网络模型可以理解为一种待进行训练的图像编码器，第二待训练网络模型可以理解为一种文本编码器。其中，特征向量I₁...I_N则可以理解为多个第三特征向量，对应的，特征向量T₁...T_N可以理解为多个第四特征向量。

然后，可以将N个文本特征向量(即，特征向量T₁...T_N)和N个图像特征向量(即，特征向量I₁...I_N)两两组合，计算N²个可能的文本图像对的相似度，该相似度可以直接通过计算文本特征向量和图像特征向量的余弦相似性获取。在图8所示的示例中，共有N个正样本，即真正属于匹配一对的文本和图像(图8中矩阵中的对角线元素)，而剩余的N²-N个不匹配的文本-图像对为负样本，那么对比学习的训练目标就是最大化N个正样本的相似度，同时最小化N²-N个负样本的相似度。通过以上对比学习的方法，可以将图像的语义和文本描述语义进行对齐。

需要说明的是，图8是示例性的介绍了将图像模态与文本模态进行语义对齐的训练过程，在本申请实施例中将语音模态与文本模型进行语义对齐的过程中也可以参考图8中所示的训练过程进行。并且，在本申请实施例中，可以针对图像模态以及语音模态分别训练对应的模型。示例性的，如图9所示，对于图像模态可以通过对CNN网络进行训练，以得到图像编码器，并且可以同步对Transformer网络进行训练以得到文本编码器，从而使得可以将将图像模态与文本模态进行语义对齐，并且，所训练得到的图像编码器以及文本编码器所转换得到的特征向量(例如，第一特征向量以及第二特征向量)的维度可以均为N维特征向量。类似的，对于语音模态可以通过对Mel频谱CNN网络进行训练，以得到语音编码器，并且可以同步对Transformer网络进行训练以得到文本编码器，从而使得可以将将语音模态与文本模态进行语义对齐，并且，所训练得到的语音编码器以及文本编码器所转换得到的特征向量(例如，第一特征向量以及第二特征向量)的维度可以均为N维特征向量。

S330：通过第一网络模型获取待识别数据的第一特征向量，待识别数据为图像模态或者语音模态的数据。

S340：获取多个候选场景各自的第二特征向量，第二特征向量为通过第二网络模型对候选场景的场景描述数据进行转换得到，场景描述数据为文本模态的数据。

S350：将多个候选场景各自的第二特征向量中，与第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量。

S360：将目标特征向量所对应的候选场景，作为待识别数据对应的场景。

本实施例提供的一种场景识别方法，实现了更加简便的扩展可进行识别的场景。并且，在本实施例中，通过多个第三特征向量以及多个第四特征向量，对第一待训练网络模型进行训练以得到第一网络模型，以及对第二待训练网络模型进行训练以得到第二网络模型，可以使得第一网络模型和第二网络模型能够将各自对应模态的输入转换到相同的向量空间，从而使得在通过第一网络模型得到待识别数据对应的第一特征向量后，可以基于第一特征向量与多个候选场景各自的第二特征向量进行相似度来确定待识别数据所属的场景。

请参阅图10，本申请实施例提供的一种场景识别方法，方法包括：

S410：获取第二训练数据集，第二训练数据集包括多个第二训练样本，以及多个第二训练样本各自对应的初始场景描述数据，初始场景描述数据包括第一数据部分以及第二数据部分，其中，第一数据部分位于第二数据部分之前，且第一数据部分可通过学习的方式进行更新。

作为一种方式，第二训练数据集为从第一训练数据集中选取，第一训练数据集用于对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型。

S420：基于第一网络模型、第二网络模型以及对比学习方式，对初始场景描述数据中的第一数据部分进行更新，得到更新后的场景描述数据。

其中，对初始场景描述数据中的第一数据部分进行更新的过程，可以理解为一种场景识别优化及增量训练的过程。在本实施例中，第一网络模型以及第二网络模型可以理解为，通过前述的第一训练数据集对第一待训练网络模型以及第二待训练网络模型进行训练，所得到的模型。其中，在对第一数据部分进行更新的过程中，第一网络模型以及第二网络模型的网络参数保持不变。如图11所示，在模型优化及增量训练过程中，在初始场景文本描述的前面添加M个可学习的文本词(learning context)以得到初始场景描述数据，此时场景(第二训练样本所表征的场景)对应的初始场景描述数据，可分为可学习部分和固定部分两个部分组成。其中，可以学习部分即为前述的第一数据部分，固定部分则为前述的第二数据部分。其中，固定部分采用统一的模版(如这是一张飞机的图片，这是一张蝴蝶的图片等等)，可学习部分随机初始化为XXX，随着模型的训练对该部分可学习的文本词向量进行迭代更新，以学习该场景最准确的文本表达。

模型优化及增量训练过程中，可以继续采用对比学习方法，在训练过程中，可训练的场景文本描述部分，会自动学到该场景最准确的语言描述。最终使用学习到的场景描述文本(learnable context)加上固定部分的场景描述文本，作为最终的场景描述数据。

其中，作为一种方式，因为模型优化及增量训练过程使用的是第二训练数据集，且第二数据集为从全量数据集(例如，第一训练数据集)中选择的部分样本所组成的数据集，进而由于没有在全量数据集上进行训练，所以训练过程非常快速，耗费的算力及时间非常少，训练成本相对更低。

示例性的，如图12所示，在由服务器执行场景识别优化及增量训练的情况下，在完成增量训练后，服务器可以将得到的更新后的场景描述数据传输到电子设备中。

S430：将第二训练样本包括的场景作为候选场景，以及将第二训练样本对应的更新后的场景描述数据，作为候选场景的场景描述数据。

S440：通过第一网络模型获取待识别数据的第一特征向量，待识别数据为图像模态或者语音模态的数据。

S450：获取多个候选场景各自的第二特征向量，第二特征向量为通过第二网络模型对候选场景的场景描述数据进行转换得到，场景描述数据为文本模态的数据。

S460：将多个候选场景各自的第二特征向量中，与第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量；

S470：将目标特征向量所对应的候选场景，作为待识别数据对应的场景。

本实施例提供的一种场景识别方法，实现了更加简便的扩展可进行识别的场景。并且，在本实施例中，对于每个候选场景可以对应有一个初始场景描述数据，并且该初始场景描述数据中可以包括有可进行训练的第一数据部分，进而可以通过训练的方式对该第一数据部分进行更新，从而使得最终训练得到的场景描述数据能够更加准确的对候选场景进行描述。

请参阅图13，本申请实施例提供的一种模型训练方法，方法包括：

S510：获取第一训练数据集，第一训练数据集包括多个第一训练样本以及多个第一训练样本各自的场景描述数据，第一训练样本为图像模态或者语音模态的样本。

S520：通过第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型，其中，第二网络模型用于将多个候选场景的场景描述数据进行转换得到多个第二特征向量，第一网络模型，用于获取待识别数据的第一特征向量，以便通过获取与第一特征向量的相似度满足目标相似条件的第二特征向量，来获取待识别数据对应的场景。

请参阅图14，本申请实施例提供的一种场景识别装置600，装置600包括：

待识别数据处理单元610，用于通过第一网络模型获取待识别数据的第一特征向量，待识别数据为图像模态或者语音模态的数据。

候选场景获取单元620，用于获取多个候选场景各自的第二特征向量，第二特征向量为通过第二网络模型对候选场景的场景描述数据进行转换得到，场景描述数据为文本模态的数据。

向量比对单元630，用于将多个候选场景各自的第二特征向量中，与第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量。

场景获取单元640，用于将目标特征向量所对应的候选场景，作为待识别数据对应的场景。

作为一种方式，候选场景获取单元620，具体用于从本地的场景向量数据库中，获取多个候选场景各自的第二特征向量，其中，场景向量数据库中的第二特征向量为预先由第二网络模型进行转换得到。

可选的，候选场景获取单元620，还用于响应于场景增加指令，获取待增加的候选场景的场景描述数据；通过第二网络模型，得到待增加的候选场景的场景描述数据的第二特征向量，作为待增加的第二特征向量；将待增加的第二特征向量增加到场景向量数据库。

可选的，候选场景获取单元620，具体用于获取待增加的候选场景的场景内容以及对应的初始场景描述数据，场景内容为图像模态或者语音模态的内容，初始场景描述数据包括第一数据部分以及第二数据部分，其中，第一数据部分通过学习的方式可进行更新；基于第一网络模型、第二网络模型以及场景内容，对初始场景描述数据中的第一数据部分进行更新，得到更新后的场景描述数据，其中，在对第一数据部分进行更新的过程中，第一网络模型以及第二网络模型的网络参数保持不变；将更新后的场景描述数据，作为待增加的候选场景的场景描述数据。

可选的，如图15所示，装置600，还包括：

训练单元650，用于获取第一训练数据集，第一训练数据集包括多个第一训练样本以及多个第一训练样本各自的场景描述数据，第一训练样本为图像模态或者语音模态的样本；通过第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型。

可选的，训练单元650，具体用于通过第一待训练网络模型，获取多个第一训练样本各自的第三特征向量，以得到多个第三特征向量；通过第二待训练网络模型，获取多个第一训练样本各自的场景描述数据的第四特征向量，以得到多个第四特征向量；通过多个第三特征向量以及多个第四特征向量，对第一待训练网络模型进行训练以得到第一网络模型，以及对第二待训练网络模型进行训练以得到第二网络模型，其中，训练得到的第一网络模型以及第二网络模型，使得每个第一训练样本对应的第三特征向量，与各自的场景描述数据的第四特征向量之间的相似度，大于与其他场景描述数据的第四特征向量之间的相似度。

可选的，训练单元650，还用于获取第二训练数据集，第二训练数据集包括多个第二训练样本，以及多个第二训练样本各自对应的初始场景描述数据，初始场景描述数据包括第一数据部分以及第二数据部分，其中，第一数据部分位于第二数据部分之前，且第一数据部分可通过学习的方式进行更新；基于第一网络模型、第二网络模型以及对比学习方式，对初始场景描述数据中的第一数据部分进行更新，得到更新后的场景描述数据，其中，在对第一数据部分进行更新的过程中，第一网络模型以及第二网络模型的网络参数保持不变；将第二训练样本包括的场景作为候选场景，以及将第二训练样本对应的更新后的场景描述数据，作为候选场景的场景描述数据。

请参阅图16，本申请实施例提供的一种模型训练装置700，装置700包括：

训练数据获取单元710，用于获取第一训练数据集，第一训练数据集包括多个第一训练样本以及多个第一训练样本各自的场景描述数据，第一训练样本为图像模态或者语音模态的样本。

训练单元720，用于通过第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型，其中，第二网络模型用于将多个候选场景的场景描述数据进行转换得到多个第二特征向量，第一网络模型，用于获取待识别数据的第一特征向量，以便通过获取与第一特征向量的相似度满足目标相似条件的第二特征向量，以获取待识别数据对应的场景。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图17对本申请提供的一种电子设备进行说明。

请参阅图17，基于上述场景识别方法、模型训练方法、装置，本申请实施例还提供的另一种可以执行前述场景识别方法或者模型训练方法的电子设备100。电子设备100包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104以及网络模块106。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块106用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块106可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块106可以与基站进行信息交互。

请参考图18，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的一种场景识别方法、模型训练方法、装置以及电子设备，在获取到图像模态或者语音模态的待识别数据后，可以通过第一网络模型获取该待识别数据的第一特征向量，然后获取多个候选场景各自的第二特征向量，以将与第一特征向量最相似的第二特征向量作为目标特征向量，并将目标特征向量所对应的候选场景，作为待识别数据对应的场景。从而通过上述方式使得针对多个候选场景，会分别对应有通过第二网络模型获取的第二特征向量的情况下，在获取到待识别数据后，可以通过第一网络模型将待识别数据转换为对应的第一特征向量，以便通过获取第一特征向量与多个第二特征向量之间的相似度来确定待识别数据所属场景，进而使得在需要增加新的候选场景(可进行识别的场景)时，可以仅需要增加该新的候选场景对应的场景描述数据，并通过第二网络模型进行转换以得到对应的第二特征向量即可使得该新的候选场景能够进行识别，从而实现了更加简便的扩展可进行识别的场景。

其中，本申请中涉及的模态间(图像、语音、文本)语义对齐的方法，将不同模态的输入最终映射到统一嵌入空间，得到特征向量(例如，第一特征向量以及第二特征向量)并进行语义对齐。通过计算输入模态(图像或语音)的特征向量与待识别场景文本描述(场景描述数据)的特征向量(第二特征向量)的相似度(例如，余弦距离)，来进行场景分类，从而实现了支持多种模态的输入(如图像、语音)，且扩展性好，当需要增加更多的识别场景时，仅需要更加该场景对应的文本描述即可。

另外，本申请还提出一种基于小样本学习的场景识别优化及增量训练方案。用户仅需要采集少量待识别场景的数据(如图像及语音)，即可完成增量训练。在增量训练阶段，可学习出该待识别场景最准确的文本描述。由于整个增量训练阶段需要的数据、算力及时间非常的少，所以对于场景识别种类的扩展非常的简单高效。

还有，端侧部署的模型(例如，第一网络模型和第二网络模型)一经部署后，后续不需要做任何改变。当需要增加场景识别的种类时，仅仅需要在服务器上训练好该场景对应的场景描述数据对应的第二特征向量，然后通过云端推送到端侧的场景向量数据库，即可完成增量的功能更新。整个功能扩展更新过程非常的高效，数据传输量非常的小。因此，整个功能升级不需要更新整个模型，仅仅需要更新场景向量数据库，进而实现了数据更新较小，快速高效。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种场景识别方法，其特征在于，所述方法包括：

通过第一网络模型获取待识别数据的第一特征向量，所述待识别数据为图像模态或者语音模态的数据；

获取多个候选场景各自的第二特征向量，所述第二特征向量为通过第二网络模型对所述候选场景的场景描述数据进行转换得到，所述场景描述数据为文本模态的数据；

将所述多个候选场景各自的第二特征向量中，与所述第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量；

将所述目标特征向量所对应的候选场景，作为所述待识别数据对应的场景。

2.根据权利要求1所述的方法，其特征在于，所述获取多个候选场景各自的第二特征向量，包括：

从本地的场景向量数据库中，获取多个候选场景各自的第二特征向量，其中，所述场景向量数据库中的第二特征向量为预先由所述第二网络模型进行转换得到。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

响应于场景增加指令，获取待增加的候选场景的场景描述数据；

通过所述第二网络模型，得到所述待增加的候选场景的场景描述数据的第二特征向量，作为待增加的第二特征向量；

将所述待增加的第二特征向量增加到所述场景向量数据库。

4.根据权利要求3所述的方法，其特征在于，所述获取待增加的候选场景的场景描述数据，包括：

获取待增加的候选场景的场景内容以及对应的初始场景描述数据，所述场景内容为图像模态或者语音模态的内容，所述初始场景描述数据包括第一数据部分以及第二数据部分，其中，所述第一数据部分通过学习的方式可进行更新；

基于所述第一网络模型、所述第二网络模型以及所述场景内容，对所述初始场景描述数据中的第一数据部分进行更新，得到更新后的场景描述数据，其中，在对所述第一数据部分进行更新的过程中，所述第一网络模型以及所述第二网络模型的网络参数保持不变；

将所述更新后的场景描述数据，作为所述待增加的候选场景的场景描述数据。

5.根据权利要求1所述的方法，其特征在于，所述获取待识别数据之前还包括：

获取第一训练数据集，所述第一训练数据集包括多个第一训练样本以及所述多个第一训练样本各自的场景描述数据，所述第一训练样本为图像模态或者语音模态的样本；

通过所述第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型。

6.根据权利要求5所述的方法，其特征在于，所述通过所述第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型，包括：

通过第一待训练网络模型，获取所述多个第一训练样本各自的第三特征向量，以得到多个第三特征向量；

通过第二待训练网络模型，获取所述多个第一训练样本各自的场景描述数据的第四特征向量，以得到多个第四特征向量；

通过所述多个第三特征向量以及所述多个第四特征向量，对所述第一待训练网络模型进行训练以得到第一网络模型，以及对所述第二待训练网络模型进行训练以得到第二网络模型，其中，训练得到的第一网络模型以及第二网络模型，使得每个第一训练样本对应的第三特征向量，与各自的场景描述数据的第四特征向量之间的相似度，大于与其他场景描述数据的第四特征向量之间的相似度。

7.根据权利要求1所述的方法，其特征在于，所述获取待识别数据之前还包括：

获取第二训练数据集，所述第二训练数据集包括多个第二训练样本，以及多个第二训练样本各自对应的初始场景描述数据，所述初始场景描述数据包括第一数据部分以及第二数据部分，其中，所述第一数据部分位于所述第二数据部分之前，且所述第一数据部分可通过学习的方式进行更新；

基于所述第一网络模型、所述第二网络模型以及对比学习方式，对所述初始场景描述数据中的第一数据部分进行更新，得到更新后的场景描述数据，其中，在对所述第一数据部分进行更新的过程中，所述第一网络模型以及所述第二网络模型的网络参数保持不变；

将所述第二训练样本包括的场景作为所述候选场景，以及将所述第二训练样本对应的更新后的场景描述数据，作为所述候选场景的场景描述数据。

8.根据权利要求7所述的方法，其特征在于，所述第二训练数据集为从所述第一训练数据集中选取，所述第一训练数据集用于对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型。

9.根据权利要求1-8任一所述的方法，其特征在于，所述目标相似条件包括：

与所述第一特征向量的相似度大于指定相似阈值的第二特征向量；

或者，与所述第一特征向量的相似度最大的第二特征向量。

10.一种模型训练方法，其特征在于，所述方法包括：

通过所述第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型，其中，所述第二网络模型用于将多个候选场景的场景描述数据进行转换得到多个第二特征向量，所述第一网络模型，用于获取待识别数据的第一特征向量，以便通过获取与所述第一特征向量的相似度满足目标相似条件的第二特征向量，来获取所述待识别数据对应的场景。

11.一种场景识别装置，其特征在于，所述装置包括：

待识别数据处理单元，用于通过第一网络模型获取待识别数据的第一特征向量，所述待识别数据为图像模态或者语音模态的数据；

候选场景获取单元，用于获取多个候选场景各自的第二特征向量，所述第二特征向量为通过第二网络模型对所述候选场景的场景描述数据进行转换得到，所述场景描述数据为文本模态的数据；

向量比对单元，用于将所述多个候选场景各自的第二特征向量中，与所述第一特征向量的相似度满足目标相似条件的第二特征向量作为目标特征向量；

场景获取单元，用于将所述目标特征向量所对应的候选场景，作为所述待识别数据对应的场景。

12.一种模型训练装置，其特征在于，所述装置包括：

训练数据获取单元，用于获取第一训练数据集，所述第一训练数据集包括多个第一训练样本以及所述多个第一训练样本各自的场景描述数据，所述第一训练样本为图像模态或者语音模态的样本；

训练单元，用于通过所述第一训练数据集，对第一待训练网络模型以及第二待训练网络模型进行训练，以得到第一网络模型以及第二网络模型，其中，所述第二网络模型用于将多个候选场景的场景描述数据进行转换得到多个第二特征向量，所述第一网络模型，用于获取待识别数据的第一特征向量，以便通过获取与所述第一特征向量的相似度满足目标相似条件的第二特征向量，以获取所述待识别数据对应的场景。

13.一种电子设备，其特征在于，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-9任一所述的方法，或者权利要求10所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-9任一所述的方法，或者权利要求10所述的方法。