CN113704513B

CN113704513B - 一种模型训练的方法、信息展示的方法以及装置

Info

Publication number: CN113704513B
Application number: CN202110849818.0A
Authority: CN
Inventors: 周鑫; 曹佐; 左凯; 马潮
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-03-24
Anticipated expiration: 2041-07-27
Also published as: CN113704513A

Abstract

本说明书公开了一种模型训练的方法、信息展示的方法及装置，并具体公开了，从预先构建的样本集中获取训练样本，并确定目标多媒体信息对应的关联多媒体信息，而后，确定文本信息对应的文本特征，以及通过关联多媒体信息对目标多媒体信息进行语义增强，以确定目标多媒体信息对应的语义特征，再基于这些特征，通过待训练的匹配模型，确定文本信息与目标多媒体信息之间的关联度，并根据该关联度和训练样本对应的标签信息，对匹配模型进行训练。这样，就可以利用训练后的匹配模型后，选取出与文本信息关联程度最高的多媒体信息，作为该文本信息描述的对象对应的多媒体信息，进而保证选取出的多媒体信息与文本信息之间具有较高的匹配度。

Description

一种模型训练的方法、信息展示的方法以及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种模型训练的方法、信息展示的方法及装置。

背景技术

而伴随着信息技术的飞速发展，近年来涌现了大量需要平台自主根据要求，选取信息并组合展示的应用场景，如为新闻挑选最合适配图、为视频截取最佳封面、为商户筛选最相关展示图片(如头像)等，这些场景中多是以文本-图像相结合的形式向用户展示信息的，以使得用户能够更轻松地从展示的信息中获取到需要的信息，得到较好的浏览体验。

目前，平台为文本选取配图时，将对备选图片进行美观度评分并选取评分最高的图片，作为该文本的配图，并将该文本和选取出的配图组合后向用户展示。此时，可能会出现选取出的图片不能准确反映文本内容的问题，例如，一家足浴店被上传了一张优美风光图，该风光图的美观度较高时可能选取出来展示，导致用户浏览时将无法从图片信息中得知该店铺的服务内容，这会给用户的信息获取带来困扰。

因此，在现有的配图选取方案中，存在为文本选取出的图片不能真实反映出文本信息所表达的内容的问题，即为文本选取出的配图与文本之间的匹配度低的问题。

发明内容

本说明书提供一种模型训练的方法、信息展示的方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种模型训练的方法，包括：

从预先构建的样本集中获取训练样本，所述训练样本包括目标多媒体信息，以及与所述目标多媒体信息对应的文本信息，所述文本信息用于描述所述目标多媒体信息所归属的对象的特征；

确定所述目标多媒体信息对应的关联多媒体信息；

确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对所述目标多媒体信息进行语义增强，以确定所述目标多媒体信息对应的语义特征；

基于所述文本特征以及所述语义特征，通过待训练的匹配模型，确定所述文本信息与所述目标多媒体信息之间的关联度；

根据所述关联度和所述训练样本对应的标签信息，对所述匹配模型进行训练。

可选地，所述匹配模型包括：特征提取层和特征匹配层，所述特征提取层包括文本特征提取层和图像特征提取层；

确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对所述目标多媒体信息进行语义增强，以确定所述目标多媒体信息对应的语义特征，具体包括：

将所述文本信息输入所述文本特征提取层，得到所述文本信息对应的文本特征，以及，将所述目标多媒体信息以及所述关联多媒体信息输入所述图像语义特征提取层，得到通过所述关联多媒体信息进行语义增强后的所述目标多媒体信息对应的语义特征；

基于所述文本特征以及所述语义特征，通过待训练的匹配模型，确定所述文本信息与所述目标多媒体信息之间的关联度，具体包括：

将所述文本特征、所述语义特征输入所述特征匹配层，确定所述文本信息与所述目标多媒体信息之间的关联度。

可选地，构建样本集，具体包括：

针对预设的每个类别，获取该类别下的各初始多媒体信息；

针对该类别下的每个初始多媒体信息，确定该类别下除该初始多媒体信息以外的每个其他初始多媒体信息，与该初始多媒体信息之间的相似度；

根据所述相似度，从该类别下的各初始多媒体信息中，选取出用于构建该类别的样本集的多媒体信息。

可选地，根据所述相似度，从该类别下的各初始多媒体信息中，选取出用于构建该类别的样本集的多媒体信息，具体包括：

确定与该初始多媒体信息之间的相似度大于设定相似度的其他初始多媒体信息的数量，作为该初始多媒体信息对应的多媒体匹配数量；

根据该类别下每个初始多媒体信息对应的多媒体匹配数量，选取出用于构建该类别的样本集的多媒体信息。

可选地，根据该类别下每个初始多媒体信息对应的多媒体匹配数量，选取出用于构建该类别的样本集的多媒体信息，具体包括：

按照该类别下每个初始多媒体信息对应的多媒体匹配数量从大到小的顺序，对该类别下的各初始多媒体信息进行排序，得到排序结果；

将所述排序结果中位于第一设定排位之前的初始多媒体信息作为正样本，以及将所述排序结果中位于第二设定排位之后的初始多媒体信息作为负样本，所述第一设定排位位于所述第二设定排位之前；

根据所述正样本以及所述负样本，构建该类别的样本集。

可选地，确定所述目标多媒体信息对应的关联多媒体信息，具体包括：

确定所述目标多媒体信息所归属的对象对应的类别，作为目标类别；

从所述目标类别对应的多媒体信息集中，确定所述目标多媒体信息对应的关联多媒体信息。

可选地，从所述目标类别对应的多媒体信息集中，确定所述目标多媒体信息对应的关联多媒体信息，具体包括：

根据所述目标类别对应的多媒体信息集中，各多媒体信息的排序结果，按照从前往后的顺序选取出设定数目的多媒体信息，得到所述目标多媒体信息对应的关联多媒体信息。

本说明书提供了一种信息展示的方法，包括：

获取文本信息，以及所述文本信息描述的对象对应的候选多媒体信息；

针对每个候选多媒体信息，确定该候选多媒体信息对应的关联多媒体信息；

确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对该候选多媒体信息进行语义增强，以确定该候选多媒体信息对应的语义特征；

基于所述文本特征以及所述语义特征，通过预先训练的匹配模型，确定所述文本信息与该候选多媒体信息之间的关联度，所述匹配模型是通过上述的模型训练的方法训练得到的；

根据所述文本信息与每个候选多媒体信息之间的关联度，从各候选多媒体信息中，选取出用于表示所述对象的多媒体信息，并按照选取出的多媒体信息，向用户展示所述对象。

本说明书提供了一种模型训练的装置，包括：

获取模块，用于从预先构建的样本集中获取训练样本，所述训练样本包括目标多媒体信息，以及与所述目标多媒体信息对应的文本信息，所述文本信息用于描述所述目标多媒体信息所归属的对象的特征；

关联多媒体信息确定模块，用于确定所述目标多媒体信息对应的关联多媒体信息；

特征确定模块，用于确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对所述目标多媒体信息进行语义增强，以确定所述目标多媒体信息对应的语义特征；

关联度确定模块，用于基于所述文本特征以及所述语义特征，通过待训练的匹配模型，确定所述文本信息与所述目标多媒体信息之间的关联度；

训练模块，用于根据所述关联度和所述训练样本对应的标签信息，对所述匹配模型进行训练。

本说明书提供了一种信息展示的装置，包括：

获取模块，用于获取文本信息，以及所述文本信息描述的对象对应的候选多媒体信息；

关联多媒体信息确定模块，用于针对每个候选多媒体信息，确定该候选多媒体信息对应的关联多媒体信息；

特征确定模块，用于确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对该候选多媒体信息进行语义增强，以确定该候选多媒体信息对应的语义特征；

关联度确定模块，用于基于所述文本特征以及所述语义特征，通过预先训练的匹配模型，确定所述文本信息与该候选多媒体信息之间的关联度，所述匹配模型是通过上述的模型训练的方法训练得到的；

展示模块，用于根据所述文本信息与每个候选多媒体信息之间的关联度，从各候选多媒体信息中，选取出用于表示所述对象的多媒体信息，并按照选取出的多媒体信息，向用户展示所述对象。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练的方法和信息展示的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练的方法和信息展示的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的模型训练的方法和信息展示的方法中，从预先构建的样本集中获取训练样本，该训练样本包括目标多媒体信息，以及与该目标多媒体信息对应的文本信息，文本信息用于描述目标多媒体信息所归属的对象的特征，而后，确定目标多媒体信息对应的关联多媒体信息。接着，确定文本信息对应的文本特征，以及通过关联多媒体信息对目标多媒体信息进行语义增强，以确定目标多媒体信息对应的语义特征，并基于文本特征以及语义特征，通过待训练的匹配模型，确定文本信息与目标多媒体信息之间的关联度。最后，根据该关联度和训练样本对应的标签信息，对匹配模型进行训练。这样，在信息展示之前，可以根据文本信息，利用训练后的匹配模型后，从候选多媒体信息中，选取出与该文本信息所描述的对象最匹配的多媒体信息，进而按照选取出的多媒体信息，向用户展示该对象。

从上述方法中可以看出，本方法选取多媒体信息时，可以预先训练出用于确定文本信息和多媒体信息之间的关联度的匹配模型，以在选取多媒体信息时，通过上述匹配模型，确定文本信息与候选多媒体信息之间的关联度，进而可以根据该匹配度，选取出与文本信息关联程度较高的多媒体信息，作为该文本信息描述的对象对应的多媒体信息，以保证选取出的多媒体信息与文本信息之间具有较高的匹配度。同时，在模型训练时，还将确定与多媒体信息对应的关联多媒体信息，通过该关联多媒体信息对该候选多媒体信息进行语义增强，以加快匹配模型训练的速度，以及进一步地保证了训练后的匹配模型能够确定出与文本信息匹配度较高的多媒体信息。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例提供的模型训练的方法的流程示意图；

图2为本说明书实施例提供的信息展示的方法的流程示意图；

图3为本说明书实施例提供的模型训练的装置的结构示意图；

图4为本说明书实施例提供的信息展示的装置的结构示意图；

图5为本说明书实施例提供的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

为了解决选取配图时，为文本选取出的配图与文本之间的匹配度低的问题，本说明书中提供了一种模型训练的方法、信息展示的方法及装置。该方案中，将先根据训练样本，训练得到用于确定文本信息和多媒体信息之间的关联度的匹配模型，使得该匹配模型学习到文本信息和多媒体信息之间的关联关系。而后，在选取多媒体信息时，利用训练得到的匹配模型，从候选多媒体信息中，选取出与文本信息关联程度较高的多媒体信息，作为与该文本信息描述的对象对应的多媒体信息，进而在展示该对象时，根据按照选取出的多媒体信息，向用户展示对象。这样，可以使得选取出的多媒体信息与文本信息所描述的对象更匹配，保证了选取出的多媒体信息与文本信息之间具有较高的匹配度。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例提供的模型训练的方法的流程示意图，具体包括以下步骤：

步骤S100，从预先构建的样本集中获取训练样本，所述训练样本包括目标多媒体信息，以及与所述目标多媒体信息对应的文本信息，所述文本信息用于描述所述目标多媒体信息所归属的对象的特征。

本说明书中提供的模型训练以及信息展示的方案的执行主体可以是为信息展示提供业务支持的平台或是服务器，也可以是诸如台式电脑等终端设备。下面为了方便描述，将仅以平台为执行主体为例进行说明。

上述训练样本中的目标多媒体信息与文本信息是一对一对应的，该文本信息用于描述目标多媒体信息所归属的对象的特征，当训练样本为正样本时，训练样本中的文本信息能够准确的描述目标多媒体信息所归属的对象的特征，当训练样本为负样本时，则训练样本中的文本信息对目标多媒体信息所归属的对象的特征的描述是不准确的，即该文本信息中表达的内容所描述的对象，与目标多媒体信息所归属的对象不相符。

其中，本说明书中的技术方案可以适用于多种应用场景，针对不同的应用场景，本说明书中所涉及的多媒体信息是不同的，对应的文本信息也不尽相同。例如，在为新闻挑选最合适配图时，该多媒体信息可以是图片，对应的文本信息可以包括新闻主题，新闻内小标题等。例如，在为商户筛选最相关展示图片时，该多媒体信息指的是图片，对应的文本信息可以包括商户名称、商户经营的商品类目、平台给商户标注的特色标签、顾客对商户经营的商品的评论等。在为视频选取最佳的预览短视频的应用场景中，该多媒体信息指的是短视频，多媒体信息包括视频名称、视频分区、视频对应的音频文本信息等。因此，本说明书中不对多媒体信息的具体形式进行限定，技术人员可以根据具体的业务需求自行确定多媒体信息的形式。

具体实施中，平台在进行模型训练之间，需要先构建出用于训练匹配模型的样本集，下面将详细阐述样本集的构建过程。

实际业务场景中，平台所实现的业务通常都会进行基础分类的，而且，分类后得到的每个类别下的各个对象之间往往是具备比较大的共性的，这样，描述归属于该类别下对象的多媒体信息之间往往也会比较相似。这样，在每个类别下，多媒体信息中展示的对象的数目越多，说明该多媒体信息所归属的对象也有可能是归属于该类别下的，该多媒体信息在一定程度上是能够反映出该类别下的业务所具备的特征的。

例如，发布出来的新闻往往会具有一个具体的分类，如，民生新闻、娱乐新闻、军事新闻、科技新闻等类别，不同类别的新闻报道的内容之间会存在较大差异，相同类别的新闻报道的内容之间会存在相近似的主题。再例如，为商户筛选最相关展示图片时，在餐饮领域下，这些商家可能划分为正餐、快餐、清真、甜点、饮品等类别，这样，归属同一类别的商家所提供的商品之间存在比较大的重叠，归属不同类别的商家所提供的商品之间则存在较大的差异。

因此，本说明书中构建训练样本集时，可以基于平台实现的业务已有的分类，分别构建每个类别对应的样本集，并最终得到用于训练匹配模型的样本集。

具体实施中，平台首先针对预设的每个类别，获取该类别下的各初始多媒体信息，而后，针对该类别下的每个初始多媒体信息，确定该类别下除该初始多媒体信息以外的每个其他初始多媒体信息，与该初始多媒体信息之间的相似度，最后，根据该相似度，从该类别下的各初始多媒体信息中，选取出用于构建该类别的样本集的多媒体信息。

其中，平台在选取用于构建该类别的样本集的多媒体信息时，将确定与该初始多媒体信息之间的相似度大于设定相似度的其他初始多媒体信息的数量，作为该初始多媒体信息对应的多媒体匹配数量，而后，根据该类别下每个初始多媒体信息对应的多媒体匹配数量，选取出用于构建该类别的样本集的多媒体信息。

本说明书中，平台可以通过多种方法，从各初始多媒体信息，选取出用于构建该类别的样本集的多媒体信息。

例如，平台根据该类别下每个初始多媒体信息对应的多媒体匹配数量，按照该类别下每个初始多媒体信息对应的多媒体匹配数量从大到小的顺序，对该类别下的各初始多媒体信息进行排序，得到排序结果，而后，将排序结果中位于第一设定排位之前的初始多媒体信息作为正样本(如选取前5000个初始多媒体信息作为正样本)，以及将排序结果中位于第二设定排位之后的初始多媒体信息作为负样本(如选取后5000个初始多媒体信息作为负样本)，并根据确定出的正样本以及确定出的负样本，构建该类别的样本集。其中，第一设定排位位于第二设定排位之前。

再例如，平台可以确定对应的多媒体匹配数量大于第一设定数量的初始多媒体信息，并将这些初始多媒体信息选取出来作为正样本。同时，平台确定对应的多媒体匹配数量小于第二设定数量的初始多媒体信息，并将这些初始多媒体信息选取出来作为负样本。而后，根据确定出的正样本以及确定出的负样本，构建出该类别的样本集。其中，第一设定数量大于第二设定数量。

本说明书中，当初始多媒体信息数目多，并且按照设定排位选取出的正负样本的质量比较好时，可以从上述两种方式中任意选取出一种来选取正负样本，构建出该类别的样本集。当初始多媒体信息数目比较少，或者按照设定排位选取出的正负样本的质量比较差时，平台可以根据初始多媒体信息对应的多媒体匹配数量，选取正负样本，以保证选取出的正负样本具备较高的质量。

实际应用中，技术人员可以根据实际业务需求选择样本选取的方式，本说明书中不对此作具体限定。

确定出正负样本后，平台将为正负样本补充对应的文本信息。其中，该文本信息可以是平台根据对应的初始多媒体信息自动生成的。当然，实际应用中，平台所实现的业务具有大量的业务数据(包括文本信息，和多媒体信息)，因而可以直接从平台所负责的业务的业务数据中获取。

例如，为商户筛选最相关展示图片的应用场景下，平台可以针对各类别下的每个商户，获取该商户的业务数据中所包含的图片(包括商户自己上传的图片和用户评论时上传的图片)和文本信息(可以包括，商户名称、商户提供的商品的类目信息、平台给商户标注的标签、商户提供的商品的用户评论等，这些文本信息能够反映出商户的经营范围以及经营特色等信息)，并针对每张图片，将该图片所归属的商家的文本信息，作为与该图片对应的文本信息。

例如，为新闻挑选最合适配图的应用场景下，可以针对每个类别下的已发布的每条新闻中，获取该新闻的配图，以及该新闻对应的文本信息(可以包括新闻标题、小标题等)，而后，针对每张图片，将该图片所归属的新闻的文本信息，作为与该图片对应的文本信息。

需要说明的是，本说明书中，正样本对应的训练样本的标签信息为1，表征训练样本内的多媒体信息，与训练样本内的文本信息之间高度关联。负样本对应的训练样本的标签信息为0，表征训练样本内的多媒体信息，与训练样本内的文本信息之间关联度低。

这样，通过上述方式构建出样本集后，平台即可根据样本集内的训练样本对匹配模型进行训练。

步骤S102，确定所述目标多媒体信息对应的关联多媒体信息。

具体实施中，平台首先确定目标多媒体信息所归属的对象对应的类别，作为目标类别，而后，从目标类别对应的多媒体信息集中，确定目标多媒体信息对应的关联多媒体信息。其中，上述多媒体信息集是预先构建好的。具体实施中，平台在构建样本集时，可以针对每个类别，从该类别下的正样本中选取出一定数量的多媒体信息，构成该类别对应的多媒体信息集。

这样，每个类别对应的多媒体信息集中的多媒体信息，在一定程度上能够比较好的表征出该类别下业务，也就是说，该多媒体信息集中的多媒体信息会与归属于该类别的对象相关联，这样，该多媒体信息集中的多媒体信息也就会与描述归属于该类别的对象的文本信息相关联。

因此，可以对选取出每个类别对应的多媒体信息集中的多媒体信息，进行人工核验，检验该多媒体信息集中的多媒体信息是否都是该类别下具有代表性的，会与归属于该类别的对象相关联的多媒体信息，并根据检验结果，多媒体信息集中的多媒体信息进行筛选，以及向多媒体信息集中的多媒体信息补充缺少的具有代表性的多媒体信息。

当然，本说明书中，还可以通过其他的方式构建多媒体信息集。例如，采用人工的方式从初始多媒体信息中设定数目的多媒体信息，构成多媒体信息集。再例如，构建每个类别对应的样本集过程中，平台可以在确定出每个初始多媒体信息对应的多媒体匹配数量后，按照每个初始多媒体信息对应的多媒体匹配数量从大到小的顺序，对该类别下的各初始多媒体信息进行排序，得到排序结果，而后，从第一排位的初始多媒体信息开始，顺次选取出设定数目的初始多媒体信息，构成多媒体信息集。其他方式此处不再一一举例。

进一步地，在选取多媒体信息集中的多媒体信息时，针对上述第一种正样本选取方式，平台可以优先选择排位在前的正样本，作为多媒体信息集中的关联多媒体信息。针对上述第二种正样本选取方式，平台则可以优先选择对应的多媒体匹配数量多的正样本，作为多媒体信息集中的关联多媒体信息。如此，以使得选取出的多媒体信息集中的多媒体信息，都是该类别下具有代表性的，会与归属于该类别的对象相关联的多媒体信息。

实际应用中，平台可以通过多种方式，从目标类别对应的多媒体信息集中，确定目标多媒体信息对应的关联多媒体信息。

例如，平台可以确定目标类别对应的多媒体信息集中每个多媒体信息对应的多媒体匹配数量，并按照每个多媒体信息对应的多媒体匹配数量从大到小的顺序，对目标类别下的各多媒体信息进行排序，而后，根据各多媒体信息的排序结果，按照从前往后的顺序选取出设定数目的多媒体信息，得到目标多媒体信息对应的关联多媒体信息。

再例如，平台可以针对多媒体信息集中每个多媒体信息，确定该多媒体信息和目标多媒体信息之间的相似度，作为该多媒体信息对应的相似度，而后，按照每个多媒体信息对应的相似度从大到小的顺序，对目标类别下的各多媒体信息进行排序，而后，根据各多媒体信息的排序结果，按照从前往后的顺序选取出设定数目的多媒体信息，得到目标多媒体信息对应的关联多媒体信息。

当然，还存在其他的关联多媒体信息选取方式，如随机选取，本说明书中在此就不一一举例了。

步骤104，确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对所述目标多媒体信息进行语义增强，以确定所述目标多媒体信息对应的语义特征。

步骤106，基于所述文本特征以及所述语义特征，通过待训练的匹配模型，确定所述文本信息与所述目标多媒体信息之间的关联度。

步骤108，根据所述关联度和所述训练样本对应的标签信息，对所述匹配模型进行训练。

上述匹配模型包括：特征提取层和特征匹配层，其中，特征提取层包括文本特征提取层和图像特征提取层。

具体实施中，平台将文本信息输入匹配模型的文本特征提取层，得到该文本信息对应的文本特征。同时，平台将目标多媒体信息以及关联多媒体信息，输入匹配模型的图像语义特征提取层，得到通过关联多媒体信息进行语义增强后的目标多媒体信息对应的语义特征，再将得到的文本特征，和语义特征输入匹配模型的特征匹配层，确定文本信息与目标多媒体信息之间的关联度。而后，根据确定出的关联度和该训练样本对应的标签信息，对匹配模型进行训练。

其中，平台将文本信息输入匹配模型的文本特征提取层后，该文本特征提取层将针对文本信息中的每个词进行词嵌入(word embedding)、位置嵌入(position embedding)以及句段嵌入(segment embedding)，得到该词对应的文本特征。同样的，平台将目标多媒体信息以及关联多媒体信息，输入匹配模型的图像语义特征提取层后，图像语义特征提取层将对每个多媒体信息进行图片嵌入(image embedding)、位置嵌入以及句段嵌入，得到该多媒体信息对应的语义特征。该多媒体信息对应的图片嵌入，可以是通过预训练的卷积神经网络(Convolutional Neural Networks，CNN)或者变分自编码器(Variational Auto-Encoder，VAE)得到的该多媒体信息对应的抽象语义特征)。

而后，平台可以直接将文本信息对应的每个词的文本特征，以及目标多媒体信息，以及关联多媒体信息对应的每个多媒体信息对应的语义特征，输入到特征匹配层中，由特征匹配层确定目标多媒体信息对应的语义特征，与每个关联多媒体信息对应的语义特征之间的关联程度，以及，确定目标多媒体信息对应的语义特征与每个词对应的文本特征之间的关联程度，并在融合归一化后，得到目标多媒体信息与文本信息之间的关联度。

当然，本说明书中，平台也可以在将确定出的特征输入到特征匹配层前，先根据目标多媒体信息对应的语义特征，和每个关联多媒体信息对应的语义特征之间的关联程度，确定出目标多媒体信息与这些关联多媒体信息之间的相似度，当存在关联多媒体信息与目标多媒体信息高度相似时，则可以初步确定该目标多媒体信息大概率是正样本，这样可以通过该关联多媒体信息对目标多媒体信息进行正向语义增强，表征出该目标多媒体信息更倾向于正样本，进而确定目标多媒体信息对应的语义特征。

当各关联多媒体信息与目标多媒体信息之间的相似度都比较低，或者存在多个关联多媒体信息与目标多媒体信息之间的相似度比较低时，则可以初步确定该目标多媒体信息大概率是负样本，这样可以通过该关联多媒体信息对目标多媒体信息进行反向语义增强，表征出该目标多媒体信息更倾向于负样本，进而确定目标多媒体信息对应的语义特征。

而后，平台将语义增强后的目标多媒体信息对应的语义特征和文本信息输入到特征匹配层中，由特征匹配层确定目标多媒体信息对应的语义特征与每个词对应的文本特征之间的关联程度，并在融合归一化后，得到目标多媒体信息与文本信息之间的关联度。

另外，在对匹配模型进行训练，针对每个类别，由于正样本都是与文本信息关联程度比较高的多媒体信息，而文本信息描述的对象和该多媒体信息所归属的对象属于同一个类别，这样，正样本之间的共性比较多。而作为负样本的多媒体信息与对应的文本信息关联程度比较低，文本信息描述的对象可能和该多媒体信息所归属的对象是完全不同的，因此，负样本之间的共性可能比较差。所以，在使用负样本对匹配模型进行训练时，模型的训练速度可能比较慢。

基于此，本说明书中，在使用正样本训练模型时，将得到的损失函数乘以第一权重系数。而，在使用负样本训练模型时，将得到的损失函数乘以第二权重系数。该第一权重系数小于第二权重系数。这样，在使用负样本训练模型时，匹配模型确定出的更新步长参数更大，可以加快负样本训练时匹配模型的收敛速度。

进一步地，由于负样本之间差异更为明显，可能存在部分负样本收敛速度快，部分负样本收敛速度慢的情况，因此，本说明书中还可以仅在使用负样本训练模型并确定模型判断错误时，将得到的损失函数乘以第二权重系数，以加快匹配模型对于无法正确识别出的负样本的学习速度。

本说明书在文图匹配模型训练完成后，可以通过文图匹配模型为文本信息选取图片信息并展示，具体过程如图2所示。

图2为本说明书提供的信息展示的方法的流程示意图。

步骤S200，获取文本信息，以及所述文本信息描述的对象对应的候选多媒体信息。

步骤S202，用于针对每个候选多媒体信息，确定该候选多媒体信息对应的关联多媒体信息。

步骤S204，确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对该候选多媒体信息进行语义增强，以确定该候选多媒体信息对应的语义特征。

步骤S206，基于所述文本特征以及所述语义特征，通过预先训练的匹配模型，确定所述文本信息与该候选多媒体信息之间的关联度，所述匹配模型是通过上述的模型训练的方法训练得到的。

步骤S208，根据所述文本信息与每个候选多媒体信息之间的关联度，从各候选多媒体信息中，选取出用于表示所述对象的多媒体信息，并按照选取出的多媒体信息，向用户展示所述对象。

下面将以为商户筛选最相关展示图片的应用场景为例，信息展示的方法的执行流程进行简要说明。

平台为商户筛选最相关展示图片时，首先从业务数据中，获取该商家对应的文本信息(商户名称(如XXX小笼包)、商户经营的商品类目(如小笼包、馄饨、汤、饮料、小食等)、平台给商户标注的特色标签(如、早餐热选)、顾客对商户经营的商品的评论(如，馄饨好吃))，以及该商家对应的候选多媒体信息(如，该商户上传的图片A、顾客评价时上传的图片B)。

而后，平台针对图片A，确定该商家对应于早餐这个类别(即，多媒体信息归属的对像对应的目标类别)，并从早餐这个类别对应的多媒体信息集中选取出该候选多媒体信息对应的关联多媒体信息(包括图片C、图片D、图片E)。

接着，平台将XXX小笼包、小笼包、混沌、汤、饮料、小食、早餐热选馄饨好吃等作为文本信息输入到匹配模型的文本特征提取层中，得到对应的文本特征，同时，平台将图片A、图片C、图片D、图片E输入到匹配模型的图片特征提取层中，得到语义增强后的图片A对应的语义特征。

随后，平台将文本特征和图片A对应的语义特征，输入到匹配模型的特征匹配层，输出图片A与文本信息对应的匹配度0.7。

最后，平台继续确定出图片B与文本信息对应的匹配度0.2，则将图片A选取出来，作为用于表示该商户的图片，并按照选取出的图片A，向用户展示该商户。

通过上述步骤，平台选取多媒体信息时，可以预先训练出用于确定文本信息和多媒体信息之间的关联度的匹配模型，以在选取多媒体信息时，通过上述匹配模型，确定文本信息与候选多媒体信息之间的关联度，进而可以根据该匹配度，选取出与文本信息关联程度较高的多媒体信息，作为该文本信息描述的对象对应的多媒体信息，以保证选取出的多媒体信息与文本信息之间具有较高的匹配度。同时，在模型训练时，还将确定与多媒体信息对应的关联多媒体信息，通过该关联多媒体信息对该候选多媒体信息进行语义增强，以加快匹配模型训练的速度，以及进一步地保证了训练后的匹配模型能够确定出与文本信息匹配度较高的多媒体信息。

以上为本说明书的一个或多个实施例提供的模型训练的方法和信息展示的方法，基于同样的思路，本说明书还提供了相应的模型训练的装置和信息展示的装置，如图3和4所示。

图3为本说明书实施例提供的模型训练的装置的结构示意图，具体包括：

获取模块300，用于从预先构建的样本集中获取训练样本，所述训练样本包括目标多媒体信息，以及与所述目标多媒体信息对应的文本信息，所述文本信息用于描述所述目标多媒体信息所归属的对象的特征；

关联多媒体信息确定模块301，用于确定所述目标多媒体信息对应的关联多媒体信息；

特征确定模块302，用于确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对所述目标多媒体信息进行语义增强，以确定所述目标多媒体信息对应的语义特征；

关联度确定模块303，用于基于所述文本特征以及所述语义特征，通过待训练的匹配模型，确定所述文本信息与所述目标多媒体信息之间的关联度；

训练模块304，用于根据所述关联度和所述训练样本对应的标签信息，对所述匹配模型进行训练。

所述特征确定模块302，具体用于将所述文本信息输入所述文本特征提取层，得到所述文本信息对应的文本特征，以及，将所述目标多媒体信息以及所述关联多媒体信息输入所述图像语义特征提取层，得到通过所述关联多媒体信息进行语义增强后的所述目标多媒体信息对应的语义特征；

所述关联度确定模块303，具体用于将所述文本特征、所述语义特征输入所述特征匹配层，确定所述文本信息与所述目标多媒体信息之间的关联度。

可选地，所述装置还包括：

样本集构建模块305，用于针对预设的每个类别，获取该类别下的各初始多媒体信息；针对该类别下的每个初始多媒体信息，确定该类别下除该初始多媒体信息以外的每个其他初始多媒体信息，与该初始多媒体信息之间的相似度；根据所述相似度，从该类别下的各初始多媒体信息中，选取出用于构建该类别的样本集的多媒体信息。

可选地，所述样本集构建模块305，具体用于确定与该初始多媒体信息之间的相似度大于设定相似度的其他初始多媒体信息的数量，作为该初始多媒体信息对应的多媒体匹配数量；根据该类别下每个初始多媒体信息对应的多媒体匹配数量，选取出用于构建该类别的样本集的多媒体信息。

可选地，所述样本集构建模块305，具体用于按照该类别下每个初始多媒体信息对应的多媒体匹配数量从大到小的顺序，对该类别下的各初始多媒体信息进行排序，得到排序结果；将所述排序结果中位于第一设定排位之前的初始多媒体信息作为正样本，以及将所述排序结果中位于第二设定排位之后的初始多媒体信息作为负样本，所述第一设定排位位于所述第二设定排位之前；根据所述正样本以及所述负样本，构建该类别的样本集。

可选地，所述关联多媒体信息确定模块301，具体用于确定所述目标多媒体信息所归属的对象对应的类别，作为目标类别；从所述目标类别对应的多媒体信息集中，确定所述目标多媒体信息对应的关联多媒体信息。

可选地，所述关联多媒体信息确定模块301，具体用于根据所述目标类别对应的多媒体信息集中，各多媒体信息的排序结果，按照从前往后的顺序选取出设定数目的多媒体信息，得到所述目标多媒体信息对应的关联多媒体信息。

图4为本说明书实施例提供的信息展示的装置的结构示意图，具体包括：

获取模块400，用于获取文本信息，以及所述文本信息描述的对象对应的候选多媒体信息；

关联多媒体信息确定模块401，用于针对每个候选多媒体信息，确定该候选多媒体信息对应的关联多媒体信息；

特征确定模块402，用于确定所述文本信息对应的文本特征，以及通过所述关联多媒体信息对该候选多媒体信息进行语义增强，以确定该候选多媒体信息对应的语义特征；

关联度确定模块403，用于基于所述文本特征以及所述语义特征，通过预先训练的匹配模型，确定所述文本信息与该候选多媒体信息之间的关联度，所述匹配模型是通过上述的模型训练的方法训练得到的；

展示模块404，用于根据所述文本信息与每个候选多媒体信息之间的关联度，从各候选多媒体信息中，选取出用于表示所述对象的多媒体信息，并按照选取出的多媒体信息，向用户展示所述对象。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的模型训练的方法和上述图2提供的信息展示的方法。

本说明书还提供了图5所示的电子设备的结构示意图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的模型训练的方法和上述图2提供的信息展示的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练的方法，其特征在于，包括：

确定所述目标多媒体信息对应的关联多媒体信息；

待训练的匹配模型包括：特征提取层和特征匹配层，所述特征提取层包括文本特征提取层和图像特征提取层；

将所述文本信息输入所述文本特征提取层，得到所述文本信息对应的文本特征，以及，将所述目标多媒体信息以及所述关联多媒体信息输入所述图像特征提取层，得到通过所述关联多媒体信息进行语义增强后的所述目标多媒体信息对应的语义特征；

2.如权利要求1所述的方法，其特征在于，构建样本集，具体包括：

针对预设的每个类别，获取该类别下的各初始多媒体信息；

3.如权利要求2所述的方法，其特征在于，根据所述相似度，从该类别下的各初始多媒体信息中，选取出用于构建该类别的样本集的多媒体信息，具体包括：

4.如权利要求3所述的方法，其特征在于，根据该类别下每个初始多媒体信息对应的多媒体匹配数量，选取出用于构建该类别的样本集的多媒体信息，具体包括：

根据所述正样本以及所述负样本，构建该类别的样本集。

5.如权利要求1所述的方法，其特征在于，确定所述目标多媒体信息对应的关联多媒体信息，具体包括：

6.如权利要求5所述的方法，其特征在于，从所述目标类别对应的多媒体信息集中，确定所述目标多媒体信息对应的关联多媒体信息，具体包括：

7.一种信息展示的方法，其特征在于，包括：

基于所述文本特征以及所述语义特征，通过预先训练的匹配模型，确定所述文本信息与该候选多媒体信息之间的关联度，所述匹配模型是通过上述权利要求1～6任一项所述的方法训练得到的；

8.一种模型训练的装置，其特征在于，包括：

关联多媒体信息确定模块，用于确定所述目标多媒体信息对应的关联多媒体信息

9.一种信息展示的装置，其特征在于，包括：

关联度确定模块，用于基于所述文本特征以及所述语义特征，通过预先训练的匹配模型，确定所述文本信息与该候选多媒体信息之间的关联度，所述匹配模型是通过上述权利要求1～6任一项所述的方法训练得到的；

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～6或7任一项所述的方法。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～6或7任一项所述的方法。