CN112800276A - 视频封面确定方法、装置、介质及设备 - Google Patents
视频封面确定方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN112800276A CN112800276A CN202110075978.4A CN202110075978A CN112800276A CN 112800276 A CN112800276 A CN 112800276A CN 202110075978 A CN202110075978 A CN 202110075978A CN 112800276 A CN112800276 A CN 112800276A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- target
- click rate
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种视频封面确定方法、装置、介质及设备,该方法包括:获取目标视频中多张图像帧;针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;根据预测点击率信息,从多张图像帧中确定目标视频的目标封面图像。通过上述技术方案,更容易选取出具有显著性物体的图像帧作为目标视频的封面图像,使得确定出的目标封面图像更符合用户的浏览兴趣,提高封面图像选取的准确性,将该目标封面图像作为封面发布目标视频之后,可以提升目标视频的点击率和用户关注度。
Description
技术领域
本公开涉及互联网技术领域,具体地,涉及一种视频封面确定方法、装置、介质及设备。
背景技术
视频封面是用户最先看到的视频的信息,是用户对视频的第一印象,视频封面通常能够直接决定用户是否会点击视频进行观看,因此选择合适的图像帧作为视频封面尤为重要。
相关技术中,一般根据视频中图像帧的颜色、纹理、清晰度、构图完整性等因素选取封面图像,然而这种方式选取的封面图像可能并不能提高用户对视频的关注程度。或者,由人工选取合适的图像帧作为视频的封面图像,但是这种方式浪费大量人力,并且效率低下,影响视频的发布。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种视频封面确定方法,所述方法包括:获取目标视频中多张图像帧;针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
第二方面,本公开提供一种视频封面确定装置,所述装置包括:第一获取模块,用于获取目标视频中多张图像帧;第一确定模块,用于针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;第二确定模块,用于根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面提供的所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面提供的所述方法的步骤。
通过上述技术方案,根据图像帧的显著性物体特征信息,确定若将该图像帧作为目标视频的封面图像,用户对目标视频的预测点击率信息。用户一般对视频中显著性物体的关注度更高,因此根据图像帧的显著性物体特征信息确定图像帧对应的预测点击率信息,可以使得其中出现显著性物体的图像帧对应的预测点击率信息相对较高,从而在进行封面选取时,更容易选取出具有显著性物体的图像帧作为目标视频的封面图像,使得确定出的目标封面图像更符合用户的浏览兴趣,提高封面图像选取的准确性,将该目标封面图像作为封面发布目标视频之后,可以提升目标视频的点击率和用户关注度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性实施例示出的一种视频封面确定方法的流程图。
图2是根据一示例性实施例示出的一种视频封面确定模型的示意图。
图3是根据一示例性实施例示出的一种确定图像帧的显著性物体特征信息的方法的流程图。
图4是根据一示例性实施例示出的一种对图像帧进行处理的示意图。
图5是根据一示例性实施例示出的一种根据图像帧的显著性物体特征信息确定预测点击率信息的方法的流程图。
图6是根据一示例性实施例示出的一种视频封面确定模型的训练方法的流程图。
图7是根据一示例性实施例示出的一种模型训练过程的示意图。
图8是根据一示例性实施例示出的一种确定一组训练数据对应的损失函数值的方法的流程图。
图9是根据一示例性实施例示出的一种视频封面确定装置的框图。
图10是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1是根据一示例性实施例示出的一种视频封面确定方法的流程图,该方法可应用于具有处理能力的电子设备中,例如终端或服务器,如图1所示,该方法可包括S101~S103。
在S101中,获取目标视频中多张图像帧。
目标视频指的是需要确定封面图像的视频,例如可以是用户实时拍摄的视频,也可以是预先存储的视频,或者也可以是已经发布到网络需要更换封面图像的视频。该多张图像帧可以是目标视频中任意多张图像帧,本公开对从目标视频中获取的图像帧的数量不做具体限制。
在S102中,针对每一图像帧,确定该图像帧的显著性物体特征信息,并根据该显著性物体特征信息,确定若将该图像帧作为目标视频的封面图像,用户对目标视频的预测点击率信息。
其中,显著性物体可以是人物、物品等,以短视频为例,短视频在拍摄时通常有主要的拍摄主题,视频中通常存在较为显著的主体物体,例如以人物作为拍摄主题,视频中的人物可作为显著性物体。用户一般对视频中显著性物体的关注度更高,因此根据图像帧的显著性物体特征信息确定图像帧对应的预测点击率信息,可以使得其中出现显著性物体的图像帧对应的预测点击率信息相对较高。
预测点击率信息指的是在视频发布之前,预测出来的若将该图像帧作为目标视频的封面图像,用户可能对目标视频的点击率信息。该预测点击率信息越高,可以表征如果将该图像帧作为封面图像,越能吸引用户的关注,用户对目标视频的实际点击率可能越高。在一可选实施方式中,该预测点击率信息可以以数值的形式进行表示,例如以(0,1)之间的数值进行表示。
在S103中,根据预测点击率信息,从多张图像帧中确定目标视频的目标封面图像。
在一实施例中,例如可将预测点击率信息最高的图像帧,作为目标视频的目标封面图像。在另一实施例中,可将预测点击率信息最高的多张图像帧提供给用户,并根据用户的选择操作,将用户所选择的图像帧作为目标视频的目标封面图像。
通过上述技术方案,根据图像帧的显著性物体特征信息,确定若将该图像帧作为目标视频的封面图像,用户对目标视频的预测点击率信息。用户一般对视频中显著性物体的关注度更高,因此根据图像帧的显著性物体特征信息确定图像帧对应的预测点击率信息,可以使得其中出现显著性物体的图像帧对应的预测点击率信息相对较高,从而在进行封面选取时,更容易选取出具有显著性物体的图像帧作为目标视频的封面图像,使得确定出的目标封面图像更符合用户的浏览兴趣,提高封面图像选取的准确性,将该目标封面图像作为封面发布目标视频之后,可以提升目标视频的点击率和用户关注度。
在一可选实施方式中,预测点击率信息可以是通过视频封面确定模型对图像帧进行处理得到的,执行本公开提供的视频封面确定方法的电子设备中可配置有预先训练完成的视频封面确定模型,电子设备可将图像帧输入到视频封面确定模型中,视频封面确定模型可以通过确定图像帧的显著性物体特征信息,并根据显著性物体特征信息确定预测点击率信息。图2是根据一示例性实施例示出的一种视频封面确定模型的示意图,值得说明的是,图2所示的视频封面确定模型仅为示例性的,不构成对本公开实施方式的限制,在实际应用中,模型的形式以及结构并不局限于此。
可选地,S102中确定图像帧的显著性物体特征信息的示例性实施方式可如图3所示,包括S301和S302。
在S301中,提取图像帧的图像整体特征信息。
参考图2,可由模型中的图像特征提取模块提取图像帧的图像整体特征信息,该图像特征提取模块例如可以为卷积模块。该图像整体特征信息中每一元素对应图像帧中指定位置的预设数量个像素点的特征信息,例如包括像素点的色彩特征信息、亮度特征信息、边缘特征信息等。
示例地,图像帧的分辨率例如为M×N,M表示图像帧长度方向上像素点的个数,N表示图像帧宽度方向上像素点的个数。图像整体特征信息可以通过矩阵的形式进行表示,例如H×W×C的矩阵,其中,H为图像整体特征信息的矩阵的列的个数,W为图像整体特征信息的矩阵的行的个数,C为特征向量的维度。
图4是根据一示例性实施例示出的一种对图像帧进行处理的示意图,需要说明的是,图4仅为示例性的,便于本领域技术人员更好的理解该处理过程,不构成对本公开实施方式的限制。图4以对图像帧进行卷积处理且卷积核大小为3×3为例,上述的预设数量与该卷积核大小和网络深度有关,卷积计算的过程可参照本领域相关技术。如图4所示,以图像整体特征信息中元素Y11为例,该元素Y11对应图像帧中如图4所示的X11、X12、X13、X21、X22、X23、X31、X32、X33共9个像素点的综合特征信息。其他元素不再赘述。
在S302中,根据该图像整体特征信息,确定该图像帧的显著性物体特征信息。
参考图2,可由模型中的显著性物体检测模块根据图像整体特征信息进行显著性物体检测。该显著性物体特征信息中每一元素用于表征图像帧中指定位置的预设数量个像素点所在位置为显著性物体的可信度,元素值越大可表征该预设数量个像素点所在位置为显著性物体的概率越大。
显著性物体特征信息也可通过矩阵的形式进行表示,该矩阵的行列数与图像整体特征信息的矩阵的行列数可以相同,为H×W大小的矩阵。如图5所示,显著性物体特征信息中元素Z11可用于表征图像帧中X11、X12、X13、X21、X22、X23、X31、X32、X33共9个像素点为显著性物体的可能性。
如此,根据图像帧的图像整体特征信息确定图像帧的显著性物体特征信息,可以准确确定图像帧的显著性物体特征信息,即图像帧中的像素点所在位置为显著性物体的可信度。
图5是根据一示例性实施例示出的一种根据图像帧的显著性物体特征信息确定预测点击率信息的方法的流程图,如图5所示,S102中根据显著性物体特征信息,确定若将图像帧作为目标视频的封面图像,用户对目标视频的预测点击率信息,可包括S501~S503。
在S501中,根据图像帧的图像整体特征信息和显著性物体特征信息,确定图像帧的图像显著性特征信息。
示例地,图像帧的图像整体特征信息的提取方式可如S301的实施方式。参考图2,模型中的显著性物体特征增强模块可根据图像帧的图像整体特征信息和显著性物体特征信息,确定该图像显著性特征信息。该图像显著性特征信息可以是根据图像整体特征信息中的元素和显著性物体特征信息中对应元素的乘积得到的。该图像显著性特征信息也可通过矩阵的形式进行表示,其中对应元素可以指的是矩阵中坐标位置相同的元素。如图4所示,图像显著性特征信息中元素M11可以是Y11和Z11的乘积,M12可以是Y12和Z12的乘积。
这样,得到的图像帧的图像显著性特征信息中,属于显著性物体的区域的特征被加强,不属于显著性物体的区域的特征被削弱,使得图像显著性特征信息更能表征图像帧中的显著性物体。
在S502中,根据图像整体特征信息和图像显著性特征信息进行特征融合,得到融合特征信息。
参考图2,可在模型的融合模块中进行特征融合操作。如图2所示,可将显著性物体特征增强模块输出的图像显著性特征信息经过全局平均池化(GAP,Global AveragePooling)模块、以及全连接(FC,Fully Connected)模块进行处理,得到处理之后的图像显著性特征信息Fs。图像整体特征信息也经过全局平均池化模块以及全连接模块进行处理,得到处理之后的图像整体特征信息Fb。融合模块可将根据图像显著性特征信息得到的Fs和根据图像整体特征信息得到的Fb进行融合,得到融合特征信息。
在一可选实施方式中,可将信息Fs和信息Fb的均值作为该融合特征信息。
优选地,本公开另一实施方式中,该步骤S502可包括:根据图像整体特征信息和图像显著性特征信息,确定图像整体特征信息的第一权重和图像显著性特征信息的第二权重;根据第一权重、第二权重、图像整体特征信息和图像显著性特征信息,得到融合特征信息。
示例地,可通过如下公式(1)确定第一权重和第二权重,并通过如下公式(2)得到融合特征信息:
Fa=λ·Fs+(1-λ)·Fb (2)
其中,λ表示第一权重,(1-λ)表示第二权重,Fa表示融合特征信息,sigmoid为公知函数,Q和K表示线性变换操作,d为大于0的常数,例如d的取值可以为上述的特征向量维度C的值。
如此,考虑到对于不同的图像帧,其中的显著性物体和图像背景在图像中的重要性往往是不同的,相比于根据预设的权重值进行特征融合,本公开中根据图像显著性特征信息和图像整体特征信息,可以自适应地确定各自的权重,使得得到的融合特征信息更符合图像本身的特征,准确性更高。
在S503中,根据融合特征信息,确定预测点击率信息。
如图2所示,可将融合特征信息经过全连接模块处理之后得到的信息,作为该图像帧对应的预测点击率信息。
通过上述技术方案,考虑到视频中通常存在较为显著的主体物体,例如人脸,因此对目标视频中的图像帧进行显著性物体检测,根据图像帧的显著性物体特征信息确定图像帧的图像显著性特征信息,可以使得图像帧的图像显著性特征信息更能表征图像帧中的主体物体。并且,用户对图像帧中显著性物体的关注度更高,在模型中增加显著性物体检测模块,在通过训练完成的视频封面确定模型进行封面选取时,更容易选取出具有显著性物体的图像帧作为目标视频的封面图像,使得确定出的封面图像更符合用户的浏览兴趣。
其中,视频封面确定模型可以是根据用户对历史视频的历史实际点击率信息进行训练得到的。历史视频可包括历史时段(如过去一周或一个月)发布的视频。示例地,该历史视频可包括展示次数或曝光次数超过一定数量阈值的视频,用户对历史视频的历史实际点击率信息指的是该历史视频被点击的次数与该历史视频被展示次数的比值。
历史视频的历史封面图像即该历史视频在展示时作为封面的图像,用户是否会点击视频进行观看,与视频的封面图像有直接的关系,如果用户点击该历史视频进行观看,可在一定程度上表征该历史视频的历史封面图像能够吸引用户的关注,因此用户对历史视频的历史实际点击率信息可表征历史封面图像对用户的吸引程度。本公开中根据用户对历史视频的历史实际点击率信息训练出视频封面确定模型。
图6是根据一示例性实施例示出的一种视频封面确定模型的训练方法的流程图,该方法可以应用于具有处理能力的电子设备中,如终端或服务器,执行模型训练方法的电子设备与执行视频封面确定方法的电子设备,可以相同或不同。如图6所示,该方法可包括S601~S607。
在S601中,从训练集中获取至少一组训练数据。每组训练数据可包括第一历史视频的第一历史封面图像和用户对第一历史视频的第一历史实际点击率信息,以及第二历史视频的第二历史封面图像和用户对第二历史视频的第二历史实际点击率信息。
历史封面图像和历史实际点击率信息已在上文说明。该第一历史视频和该第二历史视频是不同的两个历史视频。其中,可将历史视频的历史封面图像和用户对该历史视频的历史实际点击率信息作为训练数据,预先存储在训练集中,该步骤中,可从训练集中随机选取至少一组训练数据,每组训练数据可包括两个不同的历史视频各自的历史封面图像和历史实际点击率信息。本公开对从训练集中获取的训练数据的组数不做具体限定,可以是一组或多组。
在S602中,针对每组训练数据,分别将该组训练数据包括的第一历史封面图像和第二历史封面图像作为模型的输入,并分别获取模型对第一历史封面图像进行处理之后输出的第一历史封面图像的第一目标特征信息、以及对第二历史封面图像进行处理之后输出的第二历史封面图像的第二目标特征信息。
其中,分别将第一历史封面图像和第二历史封面图像输入到模型的方式可以有多种,例如按照预设顺序先后将第一历史封面图像和第二历史封面图像分别输入到模型中,或者也可将第一历史封面图像和第二历史封面图像同时输入到两个相同的模型中。
图7是根据一示例性实施例示出的一种模型训练过程的示意图。图7所示的两个模型是相同的,为孪生网络模型,只是处理的历史封面图像不同,是同时通过两个不同的历史封面图像对模型进行训练,并不指训练两个模型。
模型对第一历史封面图像进行处理之后输出的第一目标特征信息,可表征模型预测出的第一历史视频的点击率信息,模型对第二历史封面图像进行处理之后输出的第二目标特征信息,可表征模型预测出的第二历史视频的点击率信息。其中,模型输出的目标特征信息可以以数值的形式进行表示,例如以(0,1)之间的数值进行表示。
在S603中,根据第一目标特征信息、第二目标特征信息、第一历史实际点击率信息、第二历史实际点击率信息以及预设的损失函数,确定该组训练数据对应的损失函数值。
损失函数可以预先设置,对应的损失函数值可表征模型预测点击率信息与实际点击率信息之间的差异信息。
在S604中,根据至少一组训练数据各自对应的损失函数值确定目标损失函数值,并根据目标损失函数值对模型的参数进行更新。
如果S601中获取一组训练数据,则该目标损失函数值为该组训练数据对应的损失函数值。其中,根据一组训练数据得到的损失函数值仅能反映模型对于该组训练数据的预测误差,可靠性相对较低,因此优选地,S601中可获取多组训练数据,该目标损失函数值可以为多组训练数据各自对应的损失函数值的均值或加权值,该实施方式中,目标损失函数值可反映模型对多组训练数据的整体的预测结果,根据该目标损失函数值可以更加准确地对模型进行训练。示例地,可以根据目标损失函数值采用梯度下降法对模型的参数进行更新,如图7所示,例如可更新模型中图像特征提取模块、全连接模块、显著性物体检测模块和融合模块等模块的参数。
在S605中,确定训练集中的训练数据被使用的数量是否达到预设阈值。在否的情况下,重新执行S601~S604;在是的情况下,执行S606。
对模型的训练可以分为多轮进行,每轮训练包括训练阶段和验证阶段,训练阶段对模型的参数进行更新,验证阶段对模型的性能和预测准确度进行验证。在训练集中的训练数据被使用的数量未达到预设阈值的情况下,可认为一轮训练的训练阶段尚未完成,可重新执行S601~S604继续对模型进行训练。其中,预设阈值可以预先标定出,并且对于每次从训练数据集中获取的训练数据的组数,可以相同也可不同。
在S606中,通过验证集确定模型是否训练完成。在是的情况下,执行S607;在否的情况下,重新执行S601~S606。
在训练集中的训练数据被使用的数量达到预设阈值的情况下,可认为一轮训练的训练阶段完成,进行对模型的验证阶段。
通过验证集确定模型是否训练完成的方式有多种。示例地,验证集中可包括多组验证数据,验证数据可包括历史视频的历史封面图像以及用户对该历史视频的历史实际点击率信息,训练集与验证集可以无交集。根据当前训练的模型以及损失函数,可得到多组验证数据各自对应的损失函数值的均值或加权值,并作为综合损失函数值。如果连续多轮训练中,通过验证集得到的综合损失函数值的下降幅度小于预设值,可表征模型收敛,确定模型训练完成。再示例地,验证集可包括历史实际点击率较高的历史视频,通过当前训练的模型选取历史视频的封面图像,根据模型对封面图像选取的准确度作为判断标准,如果模型选取的封面图像较为准确,与点击率较高的历史视频的实际历史封面图像接近,可认为模型的预测结果准确,模型性能较佳,可确定模型训练完成。
在S607中,响应于模型训练完成,得到视频封面确定模型。
如果模型训练完成,则可得到视频封面确定模型,如果模型未训练完成,可重新执行S601~S606,进行下一轮训练,直至模型训练完成。
通过上述技术方案,视频封面确定模型是根据用户对历史视频的历史实际点击率信息进行训练得到的,通过该视频封面确定模型可预测出若将图像帧作为视频的封面,用户对该视频的点击率信息。根据视频封面确定模型输出的预测点击率信息,可以为确定视频的封面图像提供准确的依据,使得确定的封面图像更能吸引用户的关注,提高封面图像选取的准确性,提升视频的点击率和用户关注度。
下面介绍模型对历史封面图像进行处理的过程,该历史封面图像可以为上述的第一历史封面图像或第二历史封面图像,在该历史封面图像为第一历史封面图像的情况下,模型输出的目标特征信息为上述的第一目标特征信息,在该历史封面图像为第二历史封面图像的情况下,模型输出的目标特征信息为上述的第二目标特征信息。
其中,如图7所示,可由模型中的图像特征提取模块提取历史封面图像的图像整体特征信息,由显著性物体检测模块根据历史封面图像的图像整体特征信息确定历史封面图像的显著性物体特征信息,并由显著性物体特征增强模块根据历史封面图像的图像整体特征信息和显著性物体特征信息,确定该历史封面图像的图像显著性特征信息。之后,由融合模块根据历史封面图像的图像整体特征信息和图像显著性特征信息进行特征融合得到融合特征信息,并根据融合特征信息确定历史封面图像的目标特征信息。其中,未训练完成的模型对历史封面图像进行处理的方式,例如提取特征的方式、特征融合的方式,可以与上述介绍的训练完成的视频封面确定模型对图像帧的处理方式类似。
在得到模型输出的第一目标特征信息和第二目标特征信息后,可确定该组训练数据对应的损失函数值,下面对确定对应的损失函数值的示例性方式进行介绍。
图8是根据一示例性实施例示出的一种确定一组训练数据对应的损失函数值的方法的流程图,如图8所示,上述S603可包括S801~S803。
在S801中,确定第一目标特征信息与第二目标特征信息之间的模型预测差值信息。
示例地,模型输出的可以为(0,1)之间的数,模型预测差值信息可通过如下公式(3)得到:
Dp=yi-yj (3)
其中,Dp表示模型预测差值信息,yi表示第一目标特征信息,yj表示第二目标特征信息。
在S802中,根据第一历史实际点击率信息和第二历史实际点击率信息进行归一化处理,确定目标点击率差值信息。
其中,历史实际点击率本身的数值通常是非常小的数,如0.02,如果直接使用该历史实际点击率信息对模型进行训练,容易导致模型训练困难,不易收敛,导致预测效果不够准确。为了保证模型正常收敛和训练出的模型的预测结果的准确性,本公开中,在确定点击率差值信息时,可首先根据第一历史实际点击率信息和第二历史实际点击率信息进行归一化处理,归一化之后的数值与实际点击率信息呈正相关且比实际点击率大,然后确定目标点击率差值信息。
示例地,该步骤S802可包括:根据第一历史实际点击率信息和第二历史实际点击率信息中较大值与较小值的比值信息、以及预设函数,确定目标点击率差值信息。
其中,在第一历史实际点击率信息大于第二历史实际点击率信息的情况下,根据第一历史实际点击率信息与第二历史实际点击率信息之间的比值信息和预设函数,确定目标点击率差值信息;在第一历史实际点击率信息小于或等于第二历史实际点击率信息的情况下,根据第二历史实际点击率信息与第一历史实际点击率信息之间的比值信息和预设函数,确定目标点击率差值信息。预设函数例如可以采用tanh函数,示例地,可通过如下公式(4)确定目标点击率差值信息:
其中,Dg表示目标点击率差值信息,ci表示第一历史实际点击率信息,cj表示第二历史实际点击率信息。
在S803中,根据模型预测差值信息、目标点击率差值信息,以及预设的所述损失函数,确定该组所述训练数据对应的损失函数值。
示例地,预设的损失函数的公式(5)如下所示:
其中,Loss表示损失函数值,max表示公知的取最大值的函数,ms和md为预设的阈值,且0<ms<md。
通过上述技术方案,由于历史实际点击率本身的数值通常是非常小的数,容易导致模型训练困难,不易收敛,为了保证模型正常收敛和训练出的模型的预测结果的准确性,在确定点击率差值信息时,首先根据第一历史实际点击率信息和第二历史实际点击率信息进行归一化处理,确定目标点击率差值信息。然后根据模型预测差值信息和目标点击率差值信息以及预设的损失函数确定对应的损失函数值。
基于同一发明构思,本公开还提供一种视频封面确定装置,图9是根据一示例性实施例示出的一种视频封面确定装置的框图,如图9所示,该装置900可包括:
第一获取模块901,用于获取目标视频中多张图像帧;
第一确定模块902,用于针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;
第二确定模块903,用于根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
可选地,所述第一确定模块902,可包括:提取子模块,用于提取所述图像帧的图像整体特征信息,其中,所述图像整体特征信息中每一元素对应所述图像帧中指定位置的预设数量个像素点的特征信息;第一确定子模块,用于根据所述图像整体特征信息,确定所述图像帧的显著性物体特征信息,其中,所述显著性物体特征信息中每一元素用于表征所述图像帧中指定位置的预设数量个像素点所在位置为显著性物体的可信度。
可选地,所述第一确定模块902,可包括:第二确定子模块,用于根据所述图像帧的图像整体特征信息和所述显著性物体特征信息,确定所述图像帧的图像显著性特征信息;融合子模块,用于根据所述图像整体特征信息和所述图像显著性特征信息进行特征融合,得到融合特征信息;第三确定子模块,用于根据所述融合特征信息,确定所述预测点击率信息。
可选地,所述融合子模块,可包括:第四确定子模块,用于根据所述图像整体特征信息和所述图像显著性特征信息,确定所述图像整体特征信息的第一权重和所述图像显著性特征信息的第二权重;第五确定子模块,用于根据所述第一权重、所述第二权重、所述图像整体特征信息和所述图像显著性特征信息,得到所述融合特征信息。
可选地,所述预测点击率信息是通过视频封面确定模型对所述图像帧进行处理得到的,所述视频封面确定模型通过确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息确定所述预测点击率信息,所述视频封面确定模型是通过视频封面确定模型的训练装置进行训练得到的,所述视频封面确定模型的训练装置包括:第二获取模块,用于从训练集中获取至少一组训练数据,每组所述训练数据包括第一历史视频的第一历史封面图像和用户对所述第一历史视频的第一历史实际点击率信息、以及第二历史视频的第二历史封面图像和用户对所述第二历史视频的第二历史实际点击率信息;第三确定模块,用于针对每组所述训练数据,分别将该组所述训练数据包括的第一历史封面图像和所述第二历史封面图像作为模型的输入,并分别获取所述模型对所述第一历史封面图像进行处理之后输出的所述第一历史封面图像的第一目标特征信息、以及对所述第二历史封面图像进行处理之后输出的所述第二历史封面图像的第二目标特征信息;根据所述第一目标特征信息、所述第二目标特征信息、所述第一历史实际点击率信息、所述第二历史实际点击率信息以及预设的损失函数,确定该组所述训练数据对应的损失函数值;参数更新模块,用于根据所述至少一组训练数据各自对应的所述损失函数值确定目标损失函数值,并根据所述目标损失函数值对所述模型的参数进行更新;触发模块,用于在所述训练集中的训练数据被使用的数量未达到预设阈值的情况下,触发所述第二获取模块从训练集中获取至少一组训练数据以及所述参数更新模块根据所述至少一组训练数据各自对应的所述损失函数值确定目标损失函数值,并根据所述目标损失函数值对所述模型的参数进行更新;第四确定模块,用于在所述训练集中的训练数据被使用的数量达到所述预设阈值的情况下,通过验证集确定所述模型是否训练完成;模型获取模块,用于响应于模型训练完成,得到所述视频封面确定模型。
可选地,所述第三确定模块,包括:预测差值确定子模块,用于确定所述第一目标特征信息与所述第二目标特征信息之间的模型预测差值信息;目标差值确定子模块,用于根据所述第一历史实际点击率信息和所述第二历史实际点击率信息进行归一化处理,确定目标点击率差值信息;损失函数值确定子模块,用于根据所述模型预测差值信息、所述目标点击率差值信息以及预设的所述损失函数,确定该组所述训练数据对应的损失函数值。
可选地,所述目标差值确定子模块用于:根据所述第一历史实际点击率信息和所述第二历史实际点击率信息中较大值与较小值的比值信息、以及预设函数,确定所述目标点击率差值信息。
下面参考图10,其示出了适于用来实现本公开实施例的电子设备1000的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
通常,以下装置可以连接至I/O接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置1008;以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1009从网络上被下载和安装,或者从存储装置1008被安装,或者从ROM 1002被安装。在该计算机程序被处理装置1001执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取目标视频中多张图像帧;针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一获取模块还可以被描述为“图像帧获取模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种视频封面确定方法,所述方法包括:获取目标视频中多张图像帧;针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述确定所述图像帧的显著性物体特征信息,包括:提取所述图像帧的图像整体特征信息,其中,所述图像整体特征信息中每一元素对应所述图像帧中指定位置的预设数量个像素点的特征信息;根据所述图像整体特征信息,确定所述图像帧的显著性物体特征信息,其中,所述显著性物体特征信息中每一元素用于表征所述图像帧中指定位置的预设数量个像素点所在位置为显著性物体的可信度。
根据本公开的一个或多个实施例,示例3提供了示例1的方法,所述根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息,包括:根据所述图像帧的图像整体特征信息和所述显著性物体特征信息,确定所述图像帧的图像显著性特征信息;根据所述图像整体特征信息和所述图像显著性特征信息进行特征融合,得到融合特征信息;根据所述融合特征信息,确定所述预测点击率信息。
根据本公开的一个或多个实施例,示例4提供了示例3的方法,所述根据所述图像整体特征信息和所述图像显著性特征信息进行特征融合,得到融合特征信息,包括:根据所述图像整体特征信息和所述图像显著性特征信息,确定所述图像整体特征信息的第一权重和所述图像显著性特征信息的第二权重;根据所述第一权重、所述第二权重、所述图像整体特征信息和所述图像显著性特征信息,得到所述融合特征信息。
根据本公开的一个或多个实施例,示例5提供了示例1的方法,所述预测点击率信息是通过视频封面确定模型对所述图像帧进行处理得到的,所述视频封面确定模型通过确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息确定所述预测点击率信息,其中,所述视频封面确定模型是通过如下方式训练得到的:从训练集中获取至少一组训练数据,每组所述训练数据包括第一历史视频的第一历史封面图像和用户对所述第一历史视频的第一历史实际点击率信息、以及第二历史视频的第二历史封面图像和用户对所述第二历史视频的第二历史实际点击率信息;针对每组所述训练数据,分别将该组所述训练数据包括的所述第一历史封面图像和所述第二历史封面图像作为模型的输入,并分别获取所述模型对所述第一历史封面图像进行处理之后输出的所述第一历史封面图像的第一目标特征信息、以及对所述第二历史封面图像进行处理之后输出的所述第二历史封面图像的第二目标特征信息;根据所述第一目标特征信息、所述第二目标特征信息、所述第一历史实际点击率信息、所述第二历史实际点击率信息以及预设的损失函数,确定该组所述训练数据对应的损失函数值;根据所述至少一组训练数据各自对应的所述损失函数值确定目标损失函数值,并根据所述目标损失函数值对所述模型的参数进行更新;在所述训练集中的训练数据被使用的数量未达到预设阈值的情况下,重新执行所述从训练集中获取至少一组训练数据的步骤至所述根据所述至少一组训练数据各自对应的所述损失函数值确定目标损失函数值,并根据所述目标损失函数值对所述模型的参数进行更新的步骤;在所述训练集中的训练数据被使用的数量达到所述预设阈值的情况下,通过验证集确定所述模型是否训练完成;响应于模型训练完成,得到所述视频封面确定模型。
根据本公开的一个或多个实施例,示例6提供了示例5的方法,所述根据所述第一目标特征信息、所述第二目标特征信息、所述第一历史实际点击率信息、所述第二历史实际点击率信息以及预设的损失函数,确定该组所述训练数据对应的损失函数值,包括:确定所述第一目标特征信息与所述第二目标特征信息之间的模型预测差值信息;根据所述第一历史实际点击率信息和所述第二历史实际点击率信息进行归一化处理,确定目标点击率差值信息;根据所述模型预测差值信息、所述目标点击率差值信息以及预设的所述损失函数,确定该组所述训练数据对应的损失函数值。
根据本公开的一个或多个实施例,示例7提供了示例6的方法,所述根据所述第一历史实际点击率信息和所述第二历史实际点击率信息进行归一化处理,确定目标点击率差值信息,包括:根据所述第一历史实际点击率信息和所述第二历史实际点击率信息中较大值与较小值的比值信息、以及预设函数,确定所述目标点击率差值信息。
根据本公开的一个或多个实施例,示例8提供了一种视频封面确定装置,所述装置包括:第一获取模块,用于获取目标视频中多张图像帧;第一确定模块,用于针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;第二确定模块,用于根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
根据本公开的一个或多个实施例,示例9提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1-7中任一项所述方法的步骤。
根据本公开的一个或多个实施例,示例10提供了一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-7中任一项所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
Claims (10)
1.一种视频封面确定方法,其特征在于,所述方法包括:
获取目标视频中多张图像帧;
针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;
根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
2.根据权利要求1所述的方法,其特征在于,所述确定所述图像帧的显著性物体特征信息,包括:
提取所述图像帧的图像整体特征信息,其中,所述图像整体特征信息中每一元素对应所述图像帧中指定位置的预设数量个像素点的特征信息;
根据所述图像整体特征信息,确定所述图像帧的显著性物体特征信息,其中,所述显著性物体特征信息中每一元素用于表征所述图像帧中指定位置的预设数量个像素点所在位置为显著性物体的可信度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息,包括:
根据所述图像帧的图像整体特征信息和所述显著性物体特征信息,确定所述图像帧的图像显著性特征信息;
根据所述图像整体特征信息和所述图像显著性特征信息进行特征融合,得到融合特征信息;
根据所述融合特征信息,确定所述预测点击率信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述图像整体特征信息和所述图像显著性特征信息进行特征融合,得到融合特征信息,包括:
根据所述图像整体特征信息和所述图像显著性特征信息,确定所述图像整体特征信息的第一权重和所述图像显著性特征信息的第二权重;
根据所述第一权重、所述第二权重、所述图像整体特征信息和所述图像显著性特征信息,得到所述融合特征信息。
5.根据权利要求1所述的方法,其特征在于,所述预测点击率信息是通过视频封面确定模型对所述图像帧进行处理得到的,所述视频封面确定模型通过确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息确定所述预测点击率信息,
其中,所述视频封面确定模型是通过如下方式训练得到的:
从训练集中获取至少一组训练数据,每组所述训练数据包括第一历史视频的第一历史封面图像和用户对所述第一历史视频的第一历史实际点击率信息、以及第二历史视频的第二历史封面图像和用户对所述第二历史视频的第二历史实际点击率信息;
针对每组所述训练数据,分别将该组所述训练数据包括的所述第一历史封面图像和所述第二历史封面图像作为模型的输入,并分别获取所述模型对所述第一历史封面图像进行处理之后输出的所述第一历史封面图像的第一目标特征信息、以及对所述第二历史封面图像进行处理之后输出的所述第二历史封面图像的第二目标特征信息;根据所述第一目标特征信息、所述第二目标特征信息、所述第一历史实际点击率信息、所述第二历史实际点击率信息以及预设的损失函数,确定该组所述训练数据对应的损失函数值;
根据所述至少一组训练数据各自对应的所述损失函数值确定目标损失函数值,并根据所述目标损失函数值对所述模型的参数进行更新;
在所述训练集中的训练数据被使用的数量未达到预设阈值的情况下,重新执行所述从训练集中获取至少一组训练数据的步骤至所述根据所述至少一组训练数据各自对应的所述损失函数值确定目标损失函数值,并根据所述目标损失函数值对所述模型的参数进行更新的步骤;
在所述训练集中的训练数据被使用的数量达到所述预设阈值的情况下,通过验证集确定所述模型是否训练完成;
响应于模型训练完成,得到所述视频封面确定模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一目标特征信息、所述第二目标特征信息、所述第一历史实际点击率信息、所述第二历史实际点击率信息以及预设的损失函数,确定该组所述训练数据对应的损失函数值,包括:
确定所述第一目标特征信息与所述第二目标特征信息之间的模型预测差值信息;
根据所述第一历史实际点击率信息和所述第二历史实际点击率信息进行归一化处理,确定目标点击率差值信息;
根据所述模型预测差值信息、所述目标点击率差值信息以及预设的所述损失函数,确定该组所述训练数据对应的损失函数值。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一历史实际点击率信息和所述第二历史实际点击率信息进行归一化处理,确定目标点击率差值信息,包括:
根据所述第一历史实际点击率信息和所述第二历史实际点击率信息中较大值与较小值的比值信息、以及预设函数,确定所述目标点击率差值信息。
8.一种视频封面确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标视频中多张图像帧;
第一确定模块,用于针对每一所述图像帧,确定所述图像帧的显著性物体特征信息,并根据所述显著性物体特征信息,确定若将所述图像帧作为所述目标视频的封面图像,用户对所述目标视频的预测点击率信息;
第二确定模块,用于根据所述预测点击率信息,从所述多张图像帧中确定所述目标视频的目标封面图像。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110075978.4A CN112800276B (zh) | 2021-01-20 | 2021-01-20 | 视频封面确定方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110075978.4A CN112800276B (zh) | 2021-01-20 | 2021-01-20 | 视频封面确定方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800276A true CN112800276A (zh) | 2021-05-14 |
CN112800276B CN112800276B (zh) | 2023-06-20 |
Family
ID=75810795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110075978.4A Active CN112800276B (zh) | 2021-01-20 | 2021-01-20 | 视频封面确定方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800276B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343832A (zh) * | 2021-06-01 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 视频封面判别方法、装置、设备及计算机可读介质 |
CN113821678A (zh) * | 2021-07-21 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 视频封面的确定方法及装置 |
CN114979652A (zh) * | 2022-05-20 | 2022-08-30 | 北京字节跳动网络技术有限公司 | 一种视频处理方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918656A (zh) * | 2017-11-17 | 2018-04-17 | 北京奇虎科技有限公司 | 基于视频标题的视频封面提取方法及装置 |
CN108833942A (zh) * | 2018-06-28 | 2018-11-16 | 北京达佳互联信息技术有限公司 | 视频封面选取方法、装置、计算机设备及存储介质 |
CN109165301A (zh) * | 2018-09-13 | 2019-01-08 | 北京字节跳动网络技术有限公司 | 视频封面选择方法、装置和计算机可读存储介质 |
CN109862432A (zh) * | 2019-01-31 | 2019-06-07 | 厦门美图之家科技有限公司 | 点击率预测方法和装置 |
CN110765882A (zh) * | 2019-09-25 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种视频标签确定方法、装置、服务器及存储介质 |
CN110796204A (zh) * | 2019-11-01 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 视频标签确定方法、装置和服务器 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
CN111491202A (zh) * | 2019-01-29 | 2020-08-04 | 广州市百果园信息技术有限公司 | 一种视频发布方法、装置、设备和存储介质 |
CN111918130A (zh) * | 2020-08-11 | 2020-11-10 | 北京达佳互联信息技术有限公司 | 视频封面确定方法、装置、电子设备及存储介质 |
CN111984821A (zh) * | 2020-06-22 | 2020-11-24 | 汉海信息技术(上海)有限公司 | 确定视频动态封面的方法、装置、存储介质及电子设备 |
-
2021
- 2021-01-20 CN CN202110075978.4A patent/CN112800276B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918656A (zh) * | 2017-11-17 | 2018-04-17 | 北京奇虎科技有限公司 | 基于视频标题的视频封面提取方法及装置 |
CN108833942A (zh) * | 2018-06-28 | 2018-11-16 | 北京达佳互联信息技术有限公司 | 视频封面选取方法、装置、计算机设备及存储介质 |
CN109165301A (zh) * | 2018-09-13 | 2019-01-08 | 北京字节跳动网络技术有限公司 | 视频封面选择方法、装置和计算机可读存储介质 |
CN111491202A (zh) * | 2019-01-29 | 2020-08-04 | 广州市百果园信息技术有限公司 | 一种视频发布方法、装置、设备和存储介质 |
CN109862432A (zh) * | 2019-01-31 | 2019-06-07 | 厦门美图之家科技有限公司 | 点击率预测方法和装置 |
CN110765882A (zh) * | 2019-09-25 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种视频标签确定方法、装置、服务器及存储介质 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
CN110796204A (zh) * | 2019-11-01 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 视频标签确定方法、装置和服务器 |
CN111984821A (zh) * | 2020-06-22 | 2020-11-24 | 汉海信息技术(上海)有限公司 | 确定视频动态封面的方法、装置、存储介质及电子设备 |
CN111918130A (zh) * | 2020-08-11 | 2020-11-10 | 北京达佳互联信息技术有限公司 | 视频封面确定方法、装置、电子设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343832A (zh) * | 2021-06-01 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 视频封面判别方法、装置、设备及计算机可读介质 |
CN113343832B (zh) * | 2021-06-01 | 2024-02-02 | 北京奇艺世纪科技有限公司 | 视频封面判别方法、装置、设备及计算机可读介质 |
CN113821678A (zh) * | 2021-07-21 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 视频封面的确定方法及装置 |
CN113821678B (zh) * | 2021-07-21 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 视频封面的确定方法及装置 |
CN114979652A (zh) * | 2022-05-20 | 2022-08-30 | 北京字节跳动网络技术有限公司 | 一种视频处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112800276B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740018B (zh) | 用于生成视频标签模型的方法和装置 | |
CN112800276B (zh) | 视频封面确定方法、装置、介质及设备 | |
CN109829432B (zh) | 用于生成信息的方法和装置 | |
CN110021052B (zh) | 用于生成眼底图像生成模型的方法和装置 | |
US11514263B2 (en) | Method and apparatus for processing image | |
CN110059623B (zh) | 用于生成信息的方法和装置 | |
CN111784712B (zh) | 图像处理方法、装置、设备和计算机可读介质 | |
CN111459364B (zh) | 图标更新方法、装置和电子设备 | |
CN110991373A (zh) | 图像处理方法、装置、电子设备及介质 | |
CN112381717A (zh) | 图像处理方法、模型训练方法、装置、介质及设备 | |
CN112907628A (zh) | 视频目标追踪方法、装置、存储介质及电子设备 | |
CN110211017B (zh) | 图像处理方法、装置及电子设备 | |
CN112330788A (zh) | 图像处理方法、装置、可读介质及电子设备 | |
CN110008926B (zh) | 用于识别年龄的方法和装置 | |
CN109816023B (zh) | 用于生成图片标签模型的方法和装置 | |
CN113256339B (zh) | 资源投放的方法、装置、存储介质及电子设备 | |
CN115757933A (zh) | 推荐信息生成方法、装置、设备、介质和程序产品 | |
CN111737575B (zh) | 内容分发方法、装置、可读介质及电子设备 | |
CN115690845A (zh) | 一种运动轨迹预测方法及装置 | |
CN113220922B (zh) | 图像搜索方法、装置和电子设备 | |
CN111680754B (zh) | 图像分类方法、装置、电子设备及计算机可读存储介质 | |
CN113705386A (zh) | 视频分类方法、装置、可读介质和电子设备 | |
CN113222050A (zh) | 图像分类方法、装置、可读介质及电子设备 | |
CN112418233A (zh) | 图像处理方法、装置、可读介质及电子设备 | |
CN113283115B (zh) | 图像模型生成方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |