CN111581510B

CN111581510B - 分享内容处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111581510B
Application number: CN202010377381.0A
Authority: CN
Inventors: 黄剑辉; 梁龙军; 刘海波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2024-02-09
Anticipated expiration: 2040-05-07
Also published as: WO2021223567A1; CN111581510A; US20220222920A1

Abstract

本申请涉及具体涉及基于人工智能的一种分享内容处理方法、装置、计算机设备和存储介质。所述方法包括：获取分享内容的描述文本和所述分享内容所包括的图像；对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量；对于所述图像，基于图像语义进行特征提取，获得图像特征向量；将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；根据所述图文多模态向量确定所述分享内容的点击率预测值；所述点击率预测值用于对所述分享内容的推荐。采用本方法能够有效地基于文本语义理解和图像语义理解对分享内容进行处理，从而能够有效提高分享内容的推送质量和推送效率。

Description

分享内容处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种分享内容处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的迅速发展，各种互联网平台为用户提供的信息资源越来越丰富，如视频内容、图文信息、用户生成内容等各种分享内容，用户可以从各种社交网络、视频分享网络、社区论坛和博客等平台获取用户所需的内容。随着人工智能(ArtificialIntelligence,AI)技术的迅速发展，能够基于云计算、分布式存储、大数据处理等技术，向用户智能推荐各种分享内容。

目前的信息推荐方式中，常见的做法是按照内容的热度或评分信息推送给相应的用户。这种方式往往使得近期被多次曝光点击的内容在推送排序中更容易被优先再次曝光。然而，对于一些处于冷启动阶段的未曝光或曝光度较低的优质内容则缺乏曝光机会，导致优质内容的推送质量和推送效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高分享内容的推送质量和推送效率的分享内容处理方法、装置、计算机设备和存储介质。

一种分享内容处理方法，所述方法包括：

获取分享内容的描述文本和所述分享内容所包括的图像；

对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量；

对于所述图像，基于图像语义进行特征提取，获得图像特征向量；

将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；

根据所述图文多模态向量确定所述分享内容的点击率预测值；所述点击率预测值用于对所述分享内容的推荐。

一种分享内容处理装置，所述装置包括：

数据获取模块，用于获取分享内容的描述文本和所述分享内容所包括的图像；

文本特征提取模块，用于对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量；

图像特征提取模块，用于对于所述图像，基于图像语义进行特征提取，获得图像特征向量；

特征融合模块，用于将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；

点击率预测模块，用于根据所述图文多模态向量确定所述分享内容的点击率预测值；所述点击率预测值用于对所述分享内容的推荐。

在其中一个实施例中，所述文本特征向量，是通过点击率预测模型所包括的文本语义提取网络提取的；所述图像特征向量，是通过所述点击率预测模型所包括的图像语义提取网络提取的。

在其中一个实施例中，所述文本特征提取模块还用于通过所述文本语义提取网络，从所述描述文本提取文本语义特征；基于所述文本语义特征进行编码，获得预设维度的文本特征向量。

在其中一个实施例中，所述图像特征提取模块还用于通过所述图像语义提取网络，从所述图像提取图像语义特征；对所述图像语义特征进行编码，获得预设维度的图像特征向量。

在其中一个实施例中，所述特征融合模块还用于通过点击率预测模型所包括的特征连接层，将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；所述根据所述图文多模态向量确定所述分享内容的点击率预测值包括：将所述图文多模态向量输入所述点击率预测模型所包括的预测层，通过所述预测层，根据所述图文多模态向量确定所述分享内容的点击率预测值。

在其中一个实施例中，所述分享内容处理方法是通过点击率预测模型执行的；所述点击率预测模型通过训练步骤训练获得，所述分享内容处理装置还包括模型训练模块，用于获取分享内容样本以及所述分享内容样本的训练标签；所述分享内容样本包括历史分享内容的描述文本和所述历史分享内容所包括的图像；所述训练标签是所述历史分享内容的历史点击率；基于所述分享内容样本和所述训练标签训练点击率预测模型。

在其中一个实施例中，所述模型训练模块还用于通过所述点击率预测模型所包括的预训练的文本语义提取网络，提取所述分享内容样本的样本文本特征向量；通过所述点击率预测模型所包括的预训练的图像语义提取网络，提取所述分享内容样本的样本图像特征向量；通过所述点击率预测模型所包括的特征连接层，将所述样本文本特征向量和所述样本图像特征向量融合，获得样本图文多模态向量；通过所述点击率预测模型所包括的预测层，基于所述样本图文多模态向量确定所述分享内容样本的样本点击率；基于所述样本点击率与所述训练标签的差异，调整所述点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

在其中一个实施例中，当所述分享内容为视频分享内容时，所述描述文本为所述视频分享内容的标题，所述图像为所述视频分享内容中的关键帧图像。

在其中一个实施例中，所述数据获取模块还用于从所述视频分享内容中提取至少两个视频关键帧；确定所述至少两个视频关键帧分别与所述描述文本的相关度；按照所述相关度从所述至少两个视频关键帧中确定关键帧图像。

在其中一个实施例中，所述数据获取模块还用于获取搜索关键字；根据所述搜索关键字确定待推荐的分享内容；所述分享内容处理装置还包括内容推荐模块，用于在确定所述待推荐的分享内容的所述点击率预测值之后，将所述待推荐的分享内容按照相应的所述点击率预测值进行排序；按照所述排序的结果进行所述分享内容的推荐。

在其中一个实施例中，所述内容推荐模块还用于当所述分享内容包括历史曝光信息时，根据所述历史曝光信息获取所述分享内容的历史点击率；根据所述点击率预测值和所述历史点击率对所述分享内容进行排序。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取分享内容的描述文本和所述分享内容所包括的图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取分享内容的描述文本和所述分享内容所包括的图像；

上述分享内容处理方法、装置、计算机设备和存储介质，获取分享内容的描述文本和分享内容所包括的图像后，基于文本语义对描述文本进行特征提取，从而能够有效获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，从而能够有效获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，由此能够有效地获得包括文本语义和图像语义的图文多模态向量。进一步根据获得的图文多模态向量确定分享内容的点击率预测值，由此能够基于分享内容的文本语义和图像语义精准有效地预测点击率，以获得较为准确合理的点击率预测值。由此根据点击率预测值对分享内容进行推荐时，能够有效缓解分享内容文不对题的现象，从而能够有效提高优质分享内容的推荐质量和推荐效率。

附图说明

图1为一个实施例中分享内容处理方法的应用环境图；

图2为一个实施例中分享内容处理方法的流程示意图；

图3为一个实施例中点击率预测模型的模型结构示意图；

图4为一个实施例中通过点击率预测模型对分享内容处理的步骤的流程示意图；

图5为一个具体的实例中的视频分享内容的示意图；

图6为一个具体的实例中通过点击率预测模型预测视频分享内容的点击率的流程示意图；

图7为一个实施例中点击率预测模型的训练步骤的流程示意图；

图8为另一个实施例中分享内容处理方法的流程示意图；

图9为一个实施例中分享内容的搜索流程示意图和推荐结果的界面示意图；

图10为一个具体的实例中分享内容处理方法的流程示意图；

图11为一个实施例中分享内容处理装置的结构框图；

图12为另一个实施例中分享内容处理装置的结构框图；

图13为又一个实施例中分享内容处理装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的方案涉及人工智能、机器学习(Machine Learning,ML)和计算机视觉(Computer Vision,CV)和图像处理等技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、技术及应用***，使机器具有感知、推理与决策的功能。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。计算机视觉和图像处理技术是通过计算机设备代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，试图建立能够从图像或者多维数据中获取信息的人工智能***。通过对分享内容中的描述文本和图像进行基于机器学习和图像处理技术等处理，从而能够有效实现对分享内容进行智能推荐。

本申请提供的分享内容处理方法，可应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是，本申请提供的分享内容处理方法可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。

在其中一个实施例中，计算机设备可以为服务器。本申请提供的分享内容处理方法，可以应用于如图1所示的应用环境图中，该应用环境包括终端和服务器的***，并通过终端和服务器的交互实现。其中，终端102通过网络与服务器104进行通信。用户可以通过终端102发布分享内容，服务器104获取终端102发布的分享内容并存储。服务器104进一步获取分享内容的描述文本和分享内容所包括的图像，基于文本语义对描述文本进行特征提取，获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，获得包括文本语义和图像语义的图文多模态向量。服务器104进而根据获得的图文多模态向量确定分享内容的点击率预测值。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***。

在一个实施例中，如图2所示，提供了一种分享内容处理方法，以该应用于计算机设备来举例说明，该计算机设备具体可以是终端或者服务器。本实施例中，该方法包括以下步骤：

S202，获取分享内容的描述文本和分享内容所包括的图像。

其中，分享可以表示在各种互联网客户端或者浏览器中的一种常用网络功能，用户可以通过各种互联网平台发布或获取各种文章、图片、视频或网页等信息内容。这些信息内容可以通过各种平台渠道如社交网络、视频分享网络、社区论坛和博客等发布或分享，以分享给其他用户。

分享内容可以包括但不限于文章、图片、视频或网页，分享内容具体可以包括UGC、广告、网页等各种形式的信息内容。其中，UGC(User Generated Content，用户内容)即用户生成内容，即用户将创作的内容通过互联网平台进行展示或者提供给其他用户。例如社交网络、视频分享网络、社区论坛和博客等都是UGC的主要应用形式。

描述文本是指用文本的形式描述分享内容的特征，例如标题信息、主题信息以及分享内容中的文本内容等。分享内容所包括的图像是指分享内容中的图像，例如可以是分享内容中包括的图片，也可以是分享内容中的局部图像，如分享内容为视频分享内容时，分享内容所包括的图像可以是视频分享内容的其中一帧图像。

具体地，计算机设备获取分享内容后，获取分享内容的描述文本和分享内容所包括的图像。其中，计算机获取的分享内容可以是用户发布的分享内容，也可以是待推送的分享内容，还可以是基于搜索关键字对应的待推荐的分享内容等，在此不做限定。

例如，计算机设备可以直接获取分享内容的标题信息或者配文信息等，以获取分享内容的描述文本。计算机设备可以直接获取分享内容所包括的图片；若分享内容为视频分享内容或其他动态形式的内容时，计算机还可以获取视频内容的封面图像，或者从视频内容中获取关键帧图像作为分享内容所包括的图像。

在一个实施例中，当分享内容为视频分享内容时，描述文本为视频分享内容的标题，图像为视频分享内容中的关键帧图像。

其中，视频分享内容是指包括视频的分享内容，视频包括一系列连续的画面图像。例如视频分享内容可以包括用户自定义生成的视频或广告视频等。关键帧是指角色或者物体运动或变化中的关键动作所处的那一帧，视频分享内容中的关键帧图像表示能够反映视频分享内容的代表性特点的其中一帧图像。具体地，关键帧图像还可以为视频分享内容的封面帧图像，也可以为从视频分享内容中提取的关键帧图像。

视频分享内容通常包括标题信息和视频内容。在对视频形式的分享内容进行处理时，描述文本则为视频分享内容的标题，图像则为视频分享内容的关键帧图像。通常视频分享内容的标题和关键帧图像可以反映出该分享内容所表示的内容含义。

在一个实施例中，从视频内容中提取关键帧图像包括：从视频分享内容中提取至少两个视频关键帧；确定至少两个视频关键帧分别与描述文本的相关度；按照相关度从至少两个视频关键帧中确定关键帧图像。

计算机设备获取视频分享内容后，通过对视频分享内容进行关键帧提取，获得视频分享内容的关键帧图像。具体地，视频分享内容包括至少两个视频片段，计算机设备从视频分享内容中提取至少两个视频关键帧，具体可以从每个视频片段中提取出对应的视频关键帧。计算机设备进一步确定至少两个视频关键帧分别与描述文本的相关度，进而按照相关度从至少两个视频关键帧中确定关键帧图像，由此能够有效地提取视频分享内容中的关键帧图像。例如，具体可以采用基于帧平均的算法或基于运动目标检测算法等方式提取视频片段中的关键帧图像。通过从视频内容中提取关键帧图像，能够有效地获得视频分享内容中最具有代表性的图像。

S204，对于描述文本，基于文本语义进行特征提取，获得文本特征向量。

其中，语义可以表示数据所对应的显示世界中的食物所代表的概念和含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示。文本语义即描述文本对应的含义和逻辑表示。

特征向量是数学学科中的一个专业名词，即线性变换的特征向量(本征向量)是一个非退化的向量，其方向在该变换下不变，该向量在此变换下缩放的比例称为其特征值(本征值)。一个线性变换通常可以由其特征值和特征向量完全描述，相同特征值的特征向量集合称之为特征空间。文本特征向量即描述文本经过线性变换和特征提取所获得的，基于文本语义的特征向量表示。

计算机设备获取分享内容的描述文本后，基于文本语义对描述文本进行特征提取，获得描述文本对应的文本特征向量。计算机设备可以采用预设算法、预训练的算法模型等对描述文本进行特征提取，具体可以是经过训练后具有自然语言处理(NLP，NaturalLanguage Processing)能力的语言模型。例如BERT模型(Bidirectional EncoderRepresentations from Transformers，双向编码变换模型)、CLSM模型(convolutionallatent semantic model，语义模型)、LSTM模型(Long Short-Term Memory，长短期记忆网络)或Word2Vec模型(word to vector，用于产生词向量的模型)等。

通过对描述文本进行特征提取，从而能够有效地提取出描述文本所蕴含的文本语义，由此能够基于文本语义进一步对分享内容进行分析。

S206，对于图像，基于图像语义进行特征提取，获得图像特征向量。

其中，图像的语义分为视觉层、对象层和概念层，视觉层即通常所理解的底层，即颜色、纹理和形状等，这些特征可以被称为底层特征语义；对象层即中间层，通常包含了属性特征等，就是某一对象在某一时刻的状态；概念层是高层，是图像表达出的最接近人类理解的东西。例如一张图像上有沙子、蓝天、海水等，通常而言，视觉层是一块块的区分，对象层是沙子、蓝天和海水这些，概念层就是海滩，可以表征图像的类别，即整个图像所表现出的语义。

图像特征用于描述图像区域所对应的景物的性质，包括颜色特征、纹理特征、形状特征和空间关系特征，这些特征的结合可以用于表征图像的语义类别。本实施例中的图像语义即指表征图像语义类别的图像特征。图像特征向量即图像语义对应的特征向量表示。

计算机设备获取分享内容所包括的图像后，基于图像语义对图像进行特征提取，获得图像对应的图像特征向量。具体地，计算机设备可以经过训练的图像语义提取模型对图像进行特征提取，例如可以采用ResNet(残差网络)、CNN(Convolutional NeuralNetwork，卷积神经网络)、DNN模型(Deep Neural Network，深度神经网络)等图像语义提取模型对图像进行特征提取。图像语义提取模型也可以是多种神经网络模型的组合。

通过对分享内容所包括的图像进行特征提取，从而能够有效地提取出图像所蕴含的图像语义，由此能够基于图像语义进一步对分享内容进行分析。

S208，将文本特征向量和图像特征向量融合，获得图文多模态向量。

其中，每一种信息的来源或者形式可以为一种模态，例如文字、图像、语音等形式分别对应一种模态。多模态向量可以表示通过多模态之间的互补性，剔除模态间的冗余性，学习得到的特征表示。即将多个模态的信息映射到一个统一的多模态向量空间。

特征融合是将提取的不同特征通过某种方式生成新的特征，以获得更加有效的特征。图文多模态向量则可以为文本特征向量和图像特征向量的联合表示。

计算机设备分别获得描述文本对应的文本特征向量和图像对应的图像特征向量后，进一步对文本特征向量和图像特征向量进行特征融合，从而获得分享内容的图文多模态向量。

具体地，计算机设备可以采用向量连接、点乘或机器学习模型等方式将文本特征向量和图像特征向量融合，获得图文多模态向量。通过分别获取分享内容的文本特征向量和图像特征向量后，对文本特征向量和图像特征向量进行特征融合，由此能够有效地提取出分享内容中的文本语义和图像语义，从而能够精准有效地获得图文多模态向量。

S210，根据图文多模态向量确定分享内容的点击率预测值；点击率预测值用于对分享内容的推荐。

其中，点击率(CTR，Click-Through-Rate，即点击通过率)，指互联网中的网络信息(如图片信息、视频信息、广告信息等)的点击到达率，即信息内容的实际点击次数与展现量(即曝光量)的比值。点击率通常可以反映分享内容的质量效果，其可以作为衡量分享内容的质量效果的一项指标。以广告分享内容为例，CTR是衡量互联网广告效果的一项重要指标。

点击率预测是对分享内容的点击情况进行预测，用于判断分享内容被用户点击的概率。点击率预测值用于对分享内容的推荐。

计算机设备通过对提取的文本特征向量和图像特征向量进行融合，获得图文多模态向量后，进而根据图文多模态向量确定分享内容的点击率预测值。具体地，计算机设备可以采用回归预测的方式对分享内容的点击率预测值进行预测，例如，计算机设备还可以通过预训练的点击率预测模型对分享内容的点击率预测值进行预测。由此能够准确有效地根据分享内容的多模态向量预测出分享内容的点击率预测值。

上述分享内容处理方法中，计算机设备获取分享内容的描述文本和分享内容所包括的图像后，基于文本语义对描述文本进行特征提取，从而能够有效获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，从而能够有效获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，由此能够有效地获得包括文本语义和图像语义的图文多模态向量。进一步根据获得的图文多模态向量确定分享内容的点击率预测值，由此能够基于分享内容的文本语义和图像语义精准有效地预测点击率，以获得较为准确合理的点击率预测值。由此根据点击率预测值对分享内容进行推荐时，能够有效缓解分享内容文不对题的现象，从而能够有效提高优质分享内容的推荐质量和推荐效率。

在一个实施例中，文本特征向量，是通过点击率预测模型所包括的文本语义提取网络提取的；图像特征向量，是通过点击率预测模型所包括的图像语义提取网络提取的。

其中，点击率预测模型是经过训练后具有点击率预测能力的模型，具体可以为基于机器学习的神经网络模型。点击率预测模型包括文本语义提取网络和图像语义提取网络。文本语义提取网络可以为基于文本语义模型的网络结构，例如可以为文本语义模型中的元模型，即文本语义模型中所包括的用于提取文本特征向量的部分网络结构。其中，元模型是描述模型中的元素、元素间关系以及表示，模型中包括了元模型。以神经网络模型为例，元模型可以视为模型的其中一部分神经网络结构，用于提取特定的特征表示。

类似地，图像语义提取网络可以为基于图像语义模型的网络结构，例如可以为图像语义模型中的元模型，即图像语义模型中所包括的用于提取图像特征向量的部分网络结构。

点击率预测模型中所包括的文本语义提取网络用于提取描述文本的文本特征向量，点击率预测模型中所包括的图像语义提取网络用于提取图像特征向量。通过点击率预测模型中的文本语义提取网络和图像语义提取网络对应的通道，分别提取分享内容的文本特征向量和图像特征向量，能够精准有效地分别提取分享内容的多模态特征，从而有效地获得分享内容的文本语义和图像语义对应的向量表示。

在一个实施例中，对于描述文本，基于文本语义进行特征提取，获得文本特征向量，包括：通过文本语义提取网络，从描述文本提取文本语义特征；基于文本语义特征进行编码，获得预设维度的文本特征向量。

其中，文本语义提取网络可以为预训练的深度神经网络模型。文本语义提取网络中包括至少两层网络结构，用于提取描述文本的字向量、文本向量、位置向量等各种特征表示。

计算机设备获取分享内容的描述文本后，将描述文本输入至点击率预测模型中所包括的文本语义提取网络。通过文本语义提取模型对描述文本进行语义特征提取，获得描述文本的文本语义特征。文本语义提取网络进一步对文本语义特征进行编码，得到预设维度的文本特征向量。

例如，文本语义提取网络可以采用基于BERT模型的元模型进行文本语义特征提取。除此之外，还可以采用基于LSTM模型或基于CNN模型的元模型进行文本语义特征提取，在此不做限定。

以基于BERT模型的文本语义提取网络为例，计算机设备将描述文本输入至点击率预测模型后，将描述文本输入至文本语义提取网络。文本语义提取网络可以将描述文本中的每个字转换为一维向量，作为模型输入。文本语义提取网络进一步学习和提取文本向量，用于获取描述文本的全局语义信息，并与各个字或词的语义信息融合。由于各个字或词在文本的不同位置，所携带的语义信息存在差异，因此文本语义提取网络还进一步提取不同位置的字或词对应的位置向量。文本语义提取网络中的自注意力机制网络则基于字向量、词向量和位置向量增强语义向量表示，进而通过文本语义提取网络的编码层输出预设维度的文本特征向量。例如编码层可以为全连接层，可以根据全连接层的网络结构输出预设维度(如1024维、2048维等)的文本特征向量表示。

本实施例中，通过点击率预测模型中的文本语义提取网络对描述文本进行语义特征提取，由此能够准确有效地获得分享内容中描述文本的语义信息表示。

在一个实施例中，对于图像，基于图像语义进行特征提取，获得图像特征向量，包括：通过图像语义提取网络，从图像提取图像语义特征；对图像语义特征进行编码，获得预设维度的图像特征向量。

其中，图像语义提取网络可以为预训练的深度神经网络模型，具体可以为基于图像分类任务的神经网络模型。

计算机设备获取分享内容所包括的图像后，将图像输入至点击率预测模型中所包括的图像语义提取网络。通过图像语义提取模型对图像进行图像语义特征提取，获得图像的图像语义特征。图像语义提取网络进一步对图像语义特征进行编码，得到预设维度的图像特征向量。

例如，图像语义提取网络可以采用基于ResNet模型的元模型进行文本语义特征提取。除此之外，还可以采用基于LSTM模型或基于CNN模型的元模型对图像进行图像语义特征提取，在此不做限定。

以基于ResNet模型的图像语义提取网络为例，可以采用基于大规模分类图像数据ImageNet数据集预训练获得ResNet模型，将ResNet模型作为图像语义提取网络。计算机设备将图像输入至点击率预测模型中的图像语义提取网络。图像语义提取网络中包括至少两层卷积层，用于提取图像特征表示。通过图像语义提取网络中的各层神经网络对图像进行图像特征提取，具体可以通过图像语义提取网络中的推叠层拟合残差映射，以获得图像的类别语义特征表示。进一步通过图像语义提取网络中的全连接网络对图像语义特征进行编码，输出预设维度的图像语义特征向量。其中预设维度由编码层的全连接网络决定，如预设维度可以为1024维、2048维等。基于ResNet模型的图像语义提取网络可以深度学习图像的各种特征表示，由此能够准确地提取图像的图像语义特征表示。

在一个实施例中，将文本特征向量和图像特征向量融合，获得图文多模态向量包括：通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量；根据图文多模态向量确定分享内容的点击率预测值包括：将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量确定分享内容的点击率预测值。

计算机设备获取分享内容的描述文本和分享内容所包括的图像后，对描述文本进行文本语义特征提取，得到对应的文本特征向量；并对图像进行图像语义特征提取，得到对应的图像特征向量。计算机设备进而通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，得到分享内容的图文多模态向量。计算机设备进一步将图文多模态向量输入点击率预测模型所包括的预测层，进而通过预测层根据图文多模态向量预测分享内容的点击率预测值。

具体地，点击率预测模型中包括文本语义提取网络和图像语义提取网络，还包括特征连接层，用于对文本语义提取网络和图像语义提取网络分别提取的文本语义特征向量和图像语义特征向量进行特征融合。点击率预测模型还包括预测层，用于根据图文多模态向量预测分享内容的点击率预测值。例如，参照图3所示，图3为一个实施例中点击率预测模型的模型结构示意图。

点击率预测模型中的文本语义提取网络和图像语义提取网络为分别独立的模型结构，文本语义提取网络和图像语义提取网络可以分别作为模型的输入通道，并分别对输入的数据进行相应的处理。

计算机设备获取分享内容的描述文本和分享内容所包括的图像后，则可以直接将描述文本输入至点击率预测模型中的文本语义提取网络，同时将分享内容所包括的图像输入至图像语义提取网络。文本语义提取网络和图像语义提取网络分别对描述文本和图像进行处理，分别获得文本特征向量和图像特征向量。进而将文本特征向量和图像特征向量输入至特征连接层进行特征融合，从而得到分享内容的图文多模态向量。特征连接层则将输出的图文多模态向量输入至预测层，预测层根据图文多模态向量对分享内容的点击率进行回归预测，从而获得分享内容的点击率预测值。通过引入文本语义模型和图像语义模型构建点击率预测模型，能够有效捕捉描述文本的语义和图像语义与点击率之间的关系，从而能够准确地预测分享内容的点击率预测值。由此根据点击率预测值对分享内容进行推荐时，能够有效缓解分享内容文不对题的现象，进而能够有效提高优质分享内容的推荐质量和推荐效率。

在一个实施例中，如图4所示，通过点击率预测模型对分享内容进行处理的步骤包括：

S402，通过点击率预测模型所包括的文本语义提取网络，从描述文本提取文本语义特征。

S404，基于文本语义特征进行编码，获得预设维度的文本特征向量。

S406，通过点击率预测模型所包括的图像语义提取网络，从描述文本提取文本语义特征。

S408，对图像语义特征进行编码，获得预设维度的图像特征向量。

S410，通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量。

S412，将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量确定分享内容的点击率预测值。

在一个具体的实施例中，点击率预测模型包括文本语义模型、图像语义模型、特征连接层和预测层。其中，文本语义模型为预训练的BERT模型，图像语义模型为预训练的ResNet模型。计算机设备可以根据预先获取的训练样本，引入已经训练好的BERT文本语义模型和ResNet图像语义模型训练点击率预测模型。其中，可以将BERT模型和ResNet模型分别作为点击率预测模型中的编码器，以分别提取描述文本对应的文本特征编码向量和图像对应的图像特征编码向量。进一步通过预训练的点击率预测模型中的特征连接层将两端获得的文本特征编码向量和图像特征编码向量进行特征融合，得到分享内容的图文多模态向量。进而通过点击率预测模型的预测层基于图文多模态向量对分享内容的点击率进行回归预测，从而获得分享内容的点击率预测值。

以分享内容为视频分享内容为例，在视频内容搜索场景中，通常以视频标题加关键帧图像的缩略图的形式进行展示，因此合适的关键帧图像往往更有利于提高点击率预测效率。例如，视频分享内容的视频内容关于红烧肉的教程，参照图5，为一个具体实例中的视频分享内容的示意图。如图5所示，图5中展示了(a)、(b)、(c)、(d)分别对应的分享内容。通常情况下，图5(b)和图5(c)展示的分享内容更加吸引用户点击。而图5(a)和图5(c)中分享内容的图像和描述文本的内容的一致性不高，可能存在图文不对应的情况，通常这类分享内容的点击率不高。

参照图6，图6为一个实施例中通过点击率预测模型预测对视频分享内容的点击率进行预测的示意图，展示了对图5(b)中对应的分享内容进行处理的示意图，图5(b)中视频分享内容的为红烧肉的做法，视频分享内容的标题为“一学就会的家常红烧肉的做法”。计算机设备获取视频分享内容后，获取视频分享内容的标题，并从视频分享内容中抽取关键帧图像。计算机设备则将视频分享内容的标题输入至点击率预测模型所包括的BERT文本语义模型，并将从视频分享内容中抽取的关键帧图像输入至点击率预测模型所包括的ResNet图像语义模型。通过BERT文本语义模型获得视频分享内容的文本特征向量，以及通过ResNet图像语义模型获得视频分享内容的图像特征向量后，分别将文本特征向量和图像特征向量输入至特征连接层(即fusion融合层)进行特征融合，获得视频分享内容的图文多模态向量。点击率预测模型进而将所获得的图文多模态向量输入至预测层(即CTR_PROB层)进行点击率回归预测，从而获得视频分享内容的点击率预测值。通过包括文本语义模型和图像语义模型的点击率预测模型，捕捉描述文本的语义和图像语义与点击率之间的关系，能够准确地预测视频分享内容的点击率预测值。由此根据点击率预测值对分享内容进行推荐时，可以有效利用视频图像对用户的视觉冲击的同时，能够有效缓解视频分享内容中文不对题的现象，进而能够有效提高优质视频分享内容的推荐质量和推荐效率。

在一个实施例中，分享内容处理方法是通过点击率预测模型执行的；点击率预测模型通过训练步骤训练获得，训练步骤包括：获取分享内容样本以及分享内容样本的训练标签；分享内容样本包括历史分享内容的描述文本和历史分享内容所包括的图像；训练标签是历史分享内容的历史点击率；基于分享内容样本和训练标签训练点击率预测模型。

本实施中，分享内容处理方法是通过点击率预测模型执行的。其中点击率预测模型是利用分享内容样本数据训练得到的。通过点击率预测模型对分享内容进行处理之前，需要预先训练点击率预测模型。

其中，分享内容样本可以为历史时间段内的历史分享内容，分享内容样本包括历史分享内容的描述文本和历史分享内容所包括的图像。即过去一段时间的曝光历史分享内容，历史分享内容包括了其在历史时间段内真实的历史点击率。在训练点击率预测模型的过程中，将历史分享内容作为用于训练的分享内容样本，将历史分享内容的历史点击率作为训练标签。训练标签用于对每次的训练结果进行调参等处理，以进一步训练和优化点击率预测模型。

分享内容样本可以是从预设样本库中获取的，也可以从各种平台中获取的，如社交网络、视频分享网络、社区论坛和博客等发布或分享的历史分享内容。分享内容样本可以包括描述文本和图像的文章内容、图文内容、视频内容或网页内容等。

具体地，计算机设备获取分享内容样本后，将分享内容样本中历史分享内容的描述文本，以及历史分享内容所包括的图像输入至预设的点击率预测模型中进行训练，并利用训练标签对点击率预测模型进行调参和优化，以训练出满足条件的点击率预测模型。

在一个实施例中，如图7所示，点击率预测模型的训练步骤包括：

S702，获取分享内容样本以及分享内容样本的训练标签；分享内容样本包括历史分享内容的描述文本和历史分享内容所包括的图像；训练标签是历史分享内容的历史点击率。

S704，通过点击率预测模型所包括的预训练的文本语义提取网络，提取分享内容样本的样本文本特征向量。

S706，通过点击率预测模型所包括的预训练的图像语义提取网络，提取分享内容样本的样本图像特征向量。

S708，通过点击率预测模型所包括的特征连接层，将样本文本特征向量和样本图像特征向量融合，获得样本图文多模态向量。

S710，通过点击率预测模型所包括的预测层，基于样本图文多模态向量确定分享内容样本的样本点击率。

S712，基于样本点击率与训练标签的差异，调整点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

其中，点击率预测模型中包括预训练的文本语义提取网络和预训练的图像语义提取网络。具体可以将文本语义提取网络和图像语义提取网络分别作为点击率预测模型中的Encoder层(编码层)。其中，图像语义提取网络的参数是固定的；文本语义提取网络的参数也可以是固定的。在其中一个实施例中，文本语义提取网络的参数还可以在训练点击率预测模型的过程中进行迁移学习，以对参数进行微调，比如可以采用Fine-tune(微调)方式。

计算机设备将历史分享内容的描述文本，以及历史分享内容所包括的图像输入至预设的点击率预测模型后，通过点击率预测模型所包括的预训练的文本语义提取网络，提取分享内容样本的样本文本特征向量。并通过点击率预测模型所包括的预训练的图像语义提取网络，提取分享内容样本的样本图像特征向量。计算机设备进一步通过点击率预测模型的特征连接层，将样本文本特征向量和样本图像特征向量融合，获得样本图文多模态向量。其中，连接层可以采用Concat方式对向量进行融合。

计算机设备将获得的样本图文多模态向量输入至点击率预测模型所包括的预测层，基于样本图文多模态向量对分享内容样本的样本点击率进行回归预测。进而基于样本点击率与样本标签的差异，调整点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

其中，样本点击率与效率标签的差异可以损失函数来衡量，例如可以选择平均绝对值损失函数(MAE)、平滑平均绝对误差(Huber损失)、交叉熵损失函数等函数作为损失函数。训练条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整参数后的点击率预测模型的预测性能指标达到预设指标。

具体地，可以采用MSE作为最终的损失函数，其具体的公式如下：

其中，x_k为预测的样本点击率，y_k为训练标签的历史点击率。

计算机设备通过预训练的文本语义提取网络提取分享内容样本中描述文本的文本特征向量，可以快速准确的获得分享内容样本的文本语义；通过预训练的图像语义提取网络提取分享内容样本在图像的样本图像特征向量，可以快速准确的获得分享内容样本的图像语义。利用待训练的点击率预测模型对提取的文本特征向量和样本图像特征向量进行点击率预测训练，得到样本点击率。计算机设备进而可以根据得到的样本点击率与训练标签的差异，逐步对点击率预测模型中的参数进行调整。由此在参数调整过程中，使得点击率预测模型能够同时结合文本语义和图像语义捕获样本分享内容与点击率之间的隐含关系。在基于点击率预测模型对分享内容进行点击率预测时，得到了文本语义特征和图像语义特征的双重指导，从而提高了分享内容的点击率预测的准确性。

在一个实施例中，如图8所示，提供了一种分享内容处理方法，包括以下步骤：

S802，获取搜索关键字。

S804，根据搜索关键字确定待推荐的分享内容。

S806，获取分享内容的描述文本和分享内容所包括的图像。

S808，对于描述文本，基于文本语义进行特征提取，获得文本特征向量。

S810，对于图像，基于图像语义进行特征提取，获得图像特征向量。

S812，将文本特征向量和图像特征向量融合，获得图文多模态向量。

S814，根据图文多模态向量确定分享内容的点击率预测值。

S816，将待推荐的分享内容按照相应的点击率预测值进行排序。

S818，按照排序的结果进行分享内容的推荐。

其中，搜索关键字可以为基于查询请求携带的关键字。例如，用户通过搜索引擎搜索分享内容时用户输入的所要查找的信息内容即为搜索关键字。

通常而言，历史曝光量、点击等统计信息在粗、精排过程中都是比较重要的特征，发挥着关键作用，往往近期被多次曝光点击的内容在排序中更容易被优先再次曝光。

用户可以通过对于的终端在内容分享平台基于搜索关键字发起查询请求。计算机设备获取搜索关键字后，根据搜索关键字确定待推荐的分享内容。计算机设备进而获取分享内容的描述文本和分享内容所包括的图像，基于文本语义对描述文本进行特征提取，从而能够有效获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，从而能够有效获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，由此能够有效地获得包括文本语义和图像语义的图文多模态向量。进一步根据获得的图文多模态向量确定分享内容的点击率预测值，由此能够基于分享内容的文本语义和图像语义精准有效地预测点击率，以获得较为准确合理的点击率预测值。

计算机设备进而将待推荐的分享内容按照相应的点击率预测值进行排序，并按照排序的结果对分享内容进行推荐。具体地，可以按照各分享内容的点击率预测值进行降序排序，由此能够有效使得点击率预测值较高的分享内容展示在最前面，从而能够有效地将优质的分享内容展示在最容易曝光和被用户点击的位置。对于点击率预测值较低的分享内容的推荐序序列则排在较低的位置。能够有效缓解分享内容文不对题的现象，由此根据点击率预测值对分享内容进行推荐时，从而能够有效提高优质分享内容的推荐质量和推荐效率。

在一个实施例中，当分享内容包括历史曝光信息时，根据历史曝光信息获取分享内容的历史点击率；根据点击率预测值和历史点击率对分享内容进行排序。

其中，已有历史曝光信息的分享内容也包括通过上述方法所确定的点击率预测值。计算机设备根据搜索关键字确定待推荐的分享内容，并确定分享内容的点击率预测值后，若其中的一些分享内容携带历史曝光信息时，则根据历史曝光信息获取分享内容的历史点击率，根据点击率预测值和历史点击率确定该分享内容的推荐序列，按照推荐序列对分享内容进行排序。若分享内容没有携带历史曝光信息时，则直接根据点击率预测值确定分享内容的推荐序列，从而得到待推荐的各分享内容对应的推荐序列，并按照推荐序列对这些分享内容进行排序推荐。通过结合点击率预测值和分享内容的真实历史点击率进行推荐，能够有效促进优质分享内容进一步曝光。对于未曝光的优质分享内容，能够有效地通过点击率预测值来提升曝光量，从而能够有效提高优质分享内容的推荐效率。

举例说明，参照图9，图9为一个具体的实施例中对分享内容进行推荐的示意图，包括分享内容的搜索流程示意图和推荐结果的界面示意图。以基于分享内容的搜索引擎为例，在搜索的时候，通常会进行至少两轮排序，即经过粗排和精排。第一轮通常为粗排，通过简单的规则将庞大数据集中的其中一部分提取出来，进而参与第二轮的精排。在精排的过程中则可以基于分享内容的点击率预测值和历史点击率进行排序。例如，索引库中存储了大量的分享内容。用户在搜索分享内容时，针对用户给定的query(查询)，比如用户基于搜索关键字发起查询请求时，计算机设备首先根据搜索关键字从索引库中召回待推荐的分享内容，并对获取的待推荐的分享内容进行多轮排序。计算机设备可以先按照预设排序规则对分享内容进行粗排，然后基于分享内容的图文多模态向量所确定的点击率预测值进一步进行精排，然后按照排序结果对分享内容进行推荐，并在用户终端进行展示。由此能够有效地将优质的分享内容展示在容易被用户点击的位置，有效增强了优质分享内容的曝光机会，从而有效提高了推荐质量和优质分享内容的推荐效率。

在一个具体的实施例中，如图10所示，提供了一种分享内容处理方法，包括以下步骤：

S1002，获取搜索关键字。

S1004，根据搜索关键字确定待推荐的分享内容。

S1006，获取分享内容的描述文本和分享内容所包括的图像。

S1008，通过点击率预测模型所包括的文本语义提取网络，从描述文本提取文本语义特征。

S1010，基于文本语义特征进行编码，获得预设维度的文本特征向量。

S1012，通过点击率预测模型所包括的图像语义提取网络，从图像提取图像语义特征。

S1014，对图像语义特征进行编码，获得预设维度的图像特征向量。

S1016，通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量。

S1018，将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量确定分享内容的点击率预测值。

S1020，根据图文多模态向量确定分享内容的点击率预测值；点击率预测值用于对分享内容的推荐。

S1022，将待推荐的分享内容按照相应的点击率预测值进行排序。

S1024，按照排序的结果进行分享内容的推荐。

本实施例中，通过引入文本语义模型和图像语义模型训练得到的点击率预测模型，基于文本语义和图像语义获得的图文多模态向量预测分享内容的点击率，能够有效捕捉描述文本的语义和图像语义与点击率之间的关系，从而能够准确地预测分享内容的点击率预测值。由此根据点击率预测值对分享内容进行推荐时，能够有效缓解分享内容文不对题的现象，进而能够有效提高优质分享内容的推荐质量和推荐效率。

本申请还提供一种应用场景，该应用场景应用上述的分享内容处理方法，用于对各种内容分享平台(比如社交网络、视频分享网络、社区论坛和博客等)，发布或分享的分享内容进行点击率预测。具体地，用户可以在内容分享平台发布各种分享内容。计算机设备获取内容分享平台中新发布的分享内容后，则获取分享内容的描述文本和分享内容所包括的图像，基于文本语义对描述文本进行特征提取，获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，由此能够有效地获得包括文本语义和图像语义的图文多模态向量。进一步根据获得的图文多模态向量确定分享内容的点击率预测值。点击率预测值可以用于后续对分享内容进行推广和搜索排序等，从而能够有效提高优质分享内容的曝光量。

本申请还另外提供一种应用场景，该应用场景应用上述的分享内容处理方法，应用于分享内容的搜索场景。以视频分享网络平台为例，用户可以在视频分享网络平台搜索感兴趣的分享内容。其中，视频分享网络平台还可以为社交应用程序中的视频分享子程序。具体地，用户通过对应的用户终端基于关键词发起搜索请求后，视频分享网络平台对应的服务器根据搜索请求携带的关键词获取相匹配的待推荐的分享内容，进一步获取分享内容的描述文本和分享内容所包括的图像，基于文本语义和图像语义分别对描述文本和图像进行特征提取，获得描述文本对应的文本特征向量以及图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，获得包括文本语义和图像语义的图文多模态向量。服务器进一步根据图文多模态向量确定分享内容的点击率预测值，并根据点击率预测值对这些待推送的分享内容进行排序，进而将排序后的分享内容推送至用户终端，并按照排序结果在用户终端的显示界面展示分享内容。由此能够将点击率预测值较高的分享内容优先展示给用户，从而能够有效促进优质分享内容的曝光。

应该理解的是，虽然图2、4、7、8、10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、7、8、10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种分享内容处理装置1100，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据获取模块1102、文本特征提取模块1104、图像特征提取模块1106、特征融合模块1108和点击率预测模块1110，其中：

数据获取模块1102，用于获取分享内容的描述文本和分享内容所包括的图像；

文本特征提取模块1104，用于对于描述文本，基于文本语义进行特征提取，获得文本特征向量；

图像特征提取模块1106，用于对于图像，基于图像语义进行特征提取，获得图像特征向量；

特征融合模块1108，用于将文本特征向量和图像特征向量融合，获得图文多模态向量；

点击率预测模块1110，用于根据图文多模态向量确定分享内容的点击率预测值；点击率预测值用于对分享内容的推荐。

在一个实施例中，文本特征提取模块1104还用于通过文本语义提取网络，从描述文本提取文本语义特征；基于文本语义特征进行编码，获得预设维度的文本特征向量。

在一个实施例中，图像特征提取模块1106还用于通过图像语义提取网络，从图像提取图像语义特征；对图像语义特征进行编码，获得预设维度的图像特征向量。

在一个实施例中，特征融合模块1108还用于通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量；点击率预测模块1110还用于将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量确定分享内容的点击率预测值。

在一个实施例中，分享内容处理方法是通过点击率预测模型执行的；点击率预测模型通过训练步骤训练获得，如图12所示，上述分享内容处理装置还包括模型训练模块1101，用于获取分享内容样本以及分享内容样本的训练标签；分享内容样本包括历史分享内容的描述文本和历史分享内容所包括的图像；训练标签是历史分享内容的历史点击率；基于分享内容样本和训练标签训练点击率预测模型。

在一个实施例中，模型训练模块1101还用于通过点击率预测模型所包括的预训练的文本语义提取网络，提取分享内容样本的样本文本特征向量；通过点击率预测模型所包括的预训练的图像语义提取网络，提取分享内容样本的样本图像特征向量；通过点击率预测模型所包括的特征连接层，将样本文本特征向量和样本图像特征向量融合，获得样本图文多模态向量；通过点击率预测模型所包括的预测层，基于样本图文多模态向量确定分享内容样本的样本点击率；基于样本点击率与训练标签的差异，调整点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

在一个实施例中，数据获取模块1102还用于从视频分享内容中提取至少两个视频关键帧；确定至少两个视频关键帧分别与描述文本的相关度；按照相关度从至少两个视频关键帧中确定关键帧图像。

在一个实施例中，数据获取模块1102还用于获取搜索关键字；根据搜索关键字确定待推荐的分享内容；如图13所示，上述分享内容处理装置还包括内容推荐模块1112，用于在确定待推荐的分享内容的点击率预测值之后，将待推荐的分享内容按照相应的点击率预测值进行排序；按照排序的结果进行分享内容的推荐。

在一个实施例中，内容推荐模块1112还用于当分享内容包括历史曝光信息时，根据历史曝光信息获取分享内容的历史点击率；根据点击率预测值和历史点击率对分享内容进行排序。

关于分享内容处理装置的具体限定可以参见上文中对于分享内容处理方法的限定，在此不再赘述。上述分享内容处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备具体可以是图1中的服务器104，其内部结构图可以如图14所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储分享内容、描述文本以及分享内容所包括的图像等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分享内容处理方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种分享内容处理方法，其特征在于，所述方法包括：

获取多个分享内容中每个分享内容的描述文本和所述分享内容所包括的图像；所述分享内容是通过互联网平台分享的用户生成内容，且是视频分享内容；

通过点击率预测模型根据所述图文多模态向量确定所述分享内容的点击率预测值；所述点击率预测模型，是利用历史时间段内曝光的历史分享内容的描述文本、所述历史分享内容所包括的图像以及所述历史分享内容在所述历史时间段内真实的历史点击率训练得到的；

当所述分享内容携带有历史曝光信息，根据所述历史曝光信息获取所述分享内容的历史点击率，根据所述点击率预测值和所述历史点击率确定所述分享内容的排序结果；

当所述分享内容未携带历史曝光信息，直接根据点击率预测值确定所述分享内容的排序结果；

对所述多个分享内容按照各自的排序结果进行排序推荐。

2.根据权利要求1所述的方法，其特征在于，所述文本特征向量，是通过点击率预测模型所包括的文本语义提取网络提取的；

所述图像特征向量，是通过所述点击率预测模型所包括的图像语义提取网络提取的。

3.根据权利要求2所述的方法，其特征在于，所述对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量，包括：

通过所述文本语义提取网络，从所述描述文本提取文本语义特征；

基于所述文本语义特征进行编码，获得预设维度的文本特征向量。

4.根据权利要求2所述的方法，其特征在于，所述对于所述图像，基于图像语义进行特征提取，获得图像特征向量，包括：

通过所述图像语义提取网络，从所述图像提取图像语义特征；

对所述图像语义特征进行编码，获得预设维度的图像特征向量。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量，包括：

通过点击率预测模型所包括的特征连接层，将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；

所述根据所述图文多模态向量确定所述分享内容的点击率预测值包括：

将所述图文多模态向量输入所述点击率预测模型所包括的预测层，通过所述预测层，根据所述图文多模态向量确定所述分享内容的点击率预测值。

6.根据权利要求1所述的方法，其特征在于，所述点击率预测模型的训练步骤包括：

通过所述点击率预测模型所包括的预训练的文本语义提取网络，提取历史分享内容的样本文本特征向量；

通过所述点击率预测模型所包括的预训练的图像语义提取网络，提取所述历史分享内容的样本图像特征向量；

通过所述点击率预测模型所包括的特征连接层，将所述样本文本特征向量和所述样本图像特征向量融合，获得样本图文多模态向量；

通过所述点击率预测模型所包括的预测层，基于所述样本图文多模态向量确定所述分享内容样本的样本点击率；

基于所述样本点击率与训练标签的差异，调整所述点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

7.根据权利要求1所述的方法，其特征在于，所述描述文本为所述视频分享内容的标题，所述图像为所述视频分享内容中的关键帧图像。

8.根据权利要求7所述的方法，其特征在于，所述关键帧图像按照以下步骤确定：

从所述视频分享内容中提取至少两个视频关键帧；

确定所述至少两个视频关键帧分别与所述描述文本的相关度；

按照所述相关度从所述至少两个视频关键帧中确定关键帧图像。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取搜索关键字；

根据所述搜索关键字确定待推荐的分享内容。

10.一种分享内容处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取多个分享内容中每个分享内容的描述文本和所述分享内容所包括的图像；所述分享内容是通过互联网平台分享的用户生成内容，且是视频分享内容；

点击率预测模块，用于通过点击率预测模型根据所述图文多模态向量确定所述分享内容的点击率预测值；所述点击率预测模型，是利用历史时间段内曝光的历史分享内容的描述文本、所述历史分享内容所包括的图像以及所述历史分享内容在所述历史时间段内真实的历史点击率训练得到的；

内容推荐模块，用于当所述分享内容携带有历史曝光信息，根据所述历史曝光信息获取所述分享内容的历史点击率，根据所述点击率预测值和所述历史点击率确定所述分享内容的排序结果；当所述分享内容未携带历史曝光信息，直接根据点击率预测值确定所述分享内容的排序结果；对所述多个分享内容按照各自的排序结果进行排序推荐。

11.根据权利要求10所述的装置，其特征在于，所述文本特征向量，是通过点击率预测模型所包括的文本语义提取网络提取的；所述图像特征向量，是通过所述点击率预测模型所包括的图像语义提取网络提取的。

12.根据权利要求11所述的装置，其特征在于，所述文本特征提取模块，还用于通过所述文本语义提取网络，从所述描述文本提取文本语义特征；基于所述文本语义特征进行编码，获得预设维度的文本特征向量。

13.根据权利要求11所述的装置，其特征在于，所述图像特征提取模块，还用于通过所述图像语义提取网络，从所述图像提取图像语义特征；对所述图像语义特征进行编码，获得预设维度的图像特征向量。

14.根据权利要求11至13中任一项所述的装置，其特征在于，所述特征融合模块，还用于通过点击率预测模型所包括的特征连接层，将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；所述点击率预测模块，还用于将所述图文多模态向量输入所述点击率预测模型所包括的预测层，通过所述预测层，根据所述图文多模态向量确定所述分享内容的点击率预测值。

15.根据权利要求10所述的装置，其特征在于，所述装置还包括模型训练模块，所述模型训练模块用于通过所述点击率预测模型所包括的预训练的文本语义提取网络，提取历史分享内容的样本文本特征向量；通过所述点击率预测模型所包括的预训练的图像语义提取网络，提取所述历史分享内容的样本图像特征向量；通过所述点击率预测模型所包括的特征连接层，将所述样本文本特征向量和所述样本图像特征向量融合，获得样本图文多模态向量；通过所述点击率预测模型所包括的预测层，基于所述样本图文多模态向量确定所述分享内容样本的样本点击率；基于所述样本点击率与训练标签的差异，调整所述点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

16.根据权利要求10所述的装置，其特征在于，所述描述文本为所述视频分享内容的标题，所述图像为所述视频分享内容中的关键帧图像。

17.根据权利要求16所述的装置，其特征在于，所述数据获取模块，还用于从所述视频分享内容中提取至少两个视频关键帧；确定所述至少两个视频关键帧分别与所述描述文本的相关度；按照所述相关度从所述至少两个视频关键帧中确定关键帧图像。

18.根据权利要求10所述的装置，其特征在于，所述数据获取模块，还用于获取搜索关键字；根据所述搜索关键字确定待推荐的分享内容。

19.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

20.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。