一种多媒体内容发布的方法、装置、电子设备及存储介质
技术领域
本公开涉及信息处理技术领域,具体而言,涉及一种多媒体内容发布的方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,出现了各种各样的自媒体社交应用程序(Application,APP),所有用户都可以在APP上上传自己的多媒体内容(如视频、图片等),并可以为上传的多媒体内容添加对应的标题后,进行发布。由于热门APP上发布的多媒体内容数量非常大,在基于用户的搜索请求为用户查找多媒体内容时很难定位到较为准确的搜索结果。
对于一些高热的实时新闻内容,很多有价值的多媒体内容在发布后就可能无法被用户及时搜索并阅读到,从而一方面导致了资源的浪费,另一方面也无法很好地满足用户的搜索需求。
发明内容
本公开实施例至少提供一种多媒体内容发布的方案,为多媒体内容的发布者提供候选时效标签,以供发布者从中选择目标时效标签,添加的目标时效标签能够用于在为发起搜索请求的用户提供相关搜索结果时参考使用,以提高搜索结果的准确性。
主要包括以下几个方面:
第一方面,本公开实施例提供了一种多媒体内容发布的方法,所述方法包括:
确定待发布的多媒体内容;
获取与所述多媒体内容匹配的至少一个候选时效标签;
确定所述至少一个候选时效标签中被选中的至少一个目标时效标签;
生成包含所述目标时效标签的多媒体内容发布信息。
在一种实施方式中,生成包含所述目标时效标签的多媒体内容发布信息之后,所述方法还包括:
响应媒体内容发布请求,将生成的包含所述目标时效标签的多媒体内容发布信息向外发布。
在一种实施方式中,所述获取与所述多媒体内容匹配的至少一个候选时效标签,包括:
响应于时效标签获取操作,获取与所述多媒体内容匹配的至少一个候选时效标签;或者,
在根据所述多媒体内容对应的内容属性信息和/或作者属性信息,确定所述多媒体内容为时效性内容后,获取与所述多媒体内容匹配的至少一个候选时效标签。
在一种实施方式中,所述确定待发布的多媒体内容,包括:
获取目标用户上传的多媒体内容,以及为所述多媒体内容添加的标题信息,将所述目标用户上传的多媒体内容以及所述标题信息作为所述待发布的多媒体内容。
第二方面,本公开实施例还提供了一种多媒体内容发布的方法,所述方法包括:
获取待发布的多媒体内容;
从候选时效标签集中,选取至少一个与所述多媒体内容匹配的候选时效标签,并将选取的至少一个候选时效标签返回给第一用户端;
接收包含至少一个目标时效标签的多媒体内容发布信息,所述至少一个目标时效标签属于所述候选时效标签;
基于所述多媒体内容发布信息,发布所述多媒体内容。
在一种实施方式中,所述方法还包括:
存储与所述多媒体内容对应的目标时效标签;
在接收到第二用户端发起的搜索请求的情况下,从存储的与所述多媒体内容对应的目标时效标签中查找与所述搜索请求匹配的目标时效标签;
将查找到的所述目标时效标签对应的多媒体内容推送至所述第二用户端。
在一种实施方式中,所述从候选时效标签集中,选取至少一个与所述多媒体内容匹配的候选时效标签,包括:
确定所述多媒体内容与候选时效标签集中的每个时效标签之间的相关度;
基于所述相关度,从所述候选时效标签集中选取至少一个所述候选时效标签。
在一种实施方式中,所述确定所述多媒体内容与候选时效标签集中的每个时效标签之间的相关度,包括:
从所述多媒体内容中提取出多媒体特征向量,以及从所述候选时效标签集中的每个时效标签中提取出文本特征向量;
确定所述多媒体特征向量与每个所述文本特征向量之间的向量相关度;
基于确定出的每个所述向量相关度,确定所述多媒体内容与所述候选时效标签集中的每个时效标签之间的相关度。
在一种实施方式中,所述待发布的多媒体内容包括所述第一用户端上传的多媒体内容,以及为所述多媒体内容添加的标题信息;所述从所述多媒体内容中提取出多媒体特征向量,包括:
从所述第一用户端上传的多媒体内容中提取出内容特征向量,以及,从为所述多媒体内容添加的标题信息中提取出文本特征向量;
将提取出的所述内容特征向量和所述文本特征向量,确定为所述多媒体特征向量。
在一种实施方式中,所述确定所述多媒体特征向量与每个所述文本特征向量之间的向量相关度,包括:
利用训练好的相关度模型,确定所述多媒体特征向量与每个所述文本特征向量之间的向量相关度。
在一种实施方式中,按照如下步骤训练所述相关度模型:
获取各个历史搜索词以及基于每个历史搜索词发起搜索所返回的多媒体内容搜索结果;
针对每个多媒体内容搜索结果,将该多媒体内容搜索结果所对应的历史搜索词作为该多媒体内容搜索结果的正类时效标签,并将除该多媒体内容搜索结果之外的其它多媒体内容搜索结果对应的历史搜索词作为该多媒体内容搜索结果的负类时效标签;
将每个多媒体内容搜索结果、该多媒体内容搜索结果的正类时效标签以及该多媒体内容搜索结果的负类时效标签作为一组训练样本数据,基于多组训练样本数据对所述待训练的相关度模型进行训练,得到所述训练好的相关度模型。
在一种实施方式中,按照如下步骤确定每个多媒体内容搜索结果的负类时效标签:
针对各组训练样本数据的同一个历史搜索词,为该历史搜索词添加同一标识信息;
针对每个多媒体内容搜索结果,确定与该多媒体内容搜索结果对应历史搜索词的标识信息不同的其它多媒体内容搜索结果,并将确定的所述其它多媒体内容搜索结果对应的历史搜索词作为该多媒体内容搜索结果的负类时效标签。
在一种实施方式中,所述方法还包括:
将所述候选时效标签集中语义相似度大于预设阈值的时效标签作为一个时效标签组;
针对每个时效标签组,计算该时效标签组中的每个时效标签与该时效标签组中除该时效标签之外的其它时效标签之间的字词重叠度;根据计算得到的多个所述字词重叠度对该时效标签组进行更新,得到更新后的时效标签组;
将更新后的各个时效标签组进行组合,得到更新后的候选时效标签集。
在一种实施方式中,所述根据计算得到的多个所述字词重叠度对该时效标签组进行更新,得到更新后的时效标签组,包括:
若多个所述字词重叠度均大于预设阈值,则将该时效标签组中字数最多的时效标签归属至所述更新后的时效标签组;
若多个所述字词重叠度中包括大于预设阈值的第一字词重叠度、且包括小于或等于预设阈值的第二字词重叠度,则将所述第一字词重叠度所指向的多个时效标签中字数最多的时效标签归属至所述更新后的时效标签组,并将所述第二字词重叠度所指向的多个时效标签分别归属至所述更新后的时效标签组;
若多个所述字词重叠度均小于或等于预设阈值,则将该时效标签组中的各个时效标签分别归属至所述更新后的时效标签组。
在一种实施方式中,按照如下步骤确定所述字词重叠度:
针对待计算字词重叠度的两个时效标签,将所述两个时效标签中的每个所述时效标签进行字词切分处理,得到与每个时效标签对应的多个时效标签字词;
将所述两个时效标签分别对应的多个时效标签字词进行交集处理,得到处理后的第一时效标签字词组,以及将所述两个时效标签分别对应的多个时效标签字词进行并集处理,得到处理后的第二时效标签字词组;
确定所述第一时效标签字词组在所述第二时效标签字词组中的占比,将确定的所述占比作为所述两个时效标签之间的字词重叠度。
在一种实施方式中,所述从候选时效标签集中,选取至少一个与所述多媒体内容匹配的候选时效标签,包括:
按照预设快照采样频率从候选时效标签集中获取与当前采样时刻对应的时效标签;
基于获取的所述时效标签,确定至少一个与所述多媒体内容匹配的候选时效标签。
第三方面,本公开实施例还提供了一种多媒体内容发布的装置,所述装置包括:
内容确定模块,用于确定待发布的多媒体内容;
标签获取模块,用于获取与所述多媒体内容匹配的至少一个候选时效标签;所述候选时效标签为基于用户实时搜索数据动态更新的媒体内容标签;
标签确定模块,用于确定所述至少一个候选时效标签中被选中的至少一个目标时效标签;
信息生成模块,用于生成包含所述目标时效标签的多媒体内容发布信息。
第四方面,本公开实施例还提供了一种多媒体内容发布的装置,所述装置包括:
内容获取模块,用于获取待发布的多媒体内容;
标签选取模块,用于从候选时效标签集中,选取至少一个与所述多媒体内容匹配的候选时效标签,并将选取的至少一个候选时效标签返回给第一用户端;
信息接收模块,用于接收包含至少一个目标时效标签的多媒体内容发布信息,所述目标时效标签属于所述候选时效标签;
内容发布模块,用于基于所述多媒体内容发布信息,发布所述多媒体内容。
第五方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式、第二方面及其各种实施方式任一项所述的多媒体内容发布的方法的步骤。
第六方面,本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被电子设备运行时,所述电子设备执行如第一方面及其各种实施方式、第二方面及其各种实施方式任一项所述的多媒体内容发布的方法的步骤。
采用上述多媒体内容发布的方案,其在确定待发布的多媒体内容的情况下,可以获取与多媒体内容匹配的至少一个候选时效标签,这样,在确定至少一个候选时效标签中被选中的目标时效标签的情况下,可以生成包含所述目标时效标签的多媒体内容发布信息,这里的候选时效标签可以是基于用户实时搜索数据提供的动态更新的时效标签,这样,发布者从中选择的目标时效标签也就是时效性较高的标签,因而一定程度上可以为后续搜索提供时效性较强的多媒体内容;另外,目标时效标签是在候选时效标签的基础上由发布者进一步确认选择的,进一步提升了目标时效标签作为多媒体内容的查询索引的准确性,从而能够为发起搜索请求的用户提供更准确有效的搜索结果,提升搜索平台的服务质量。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例一所提供的一种多媒体内容发布的方法的流程图;
图2(a)示出了本公开实施例一所提供的一种多媒体内容发布的方法的应用示意图;
图2(b)示出了本公开实施例一所提供的另一种多媒体内容发布的方法的应用示意图;
图2(c)示出了本公开实施例一所提供的另一种多媒体内容发布的方法的应用示意图;
图3示出了本公开实施例二所提供的一种多媒体内容发布的方法的流程图;
图4示出了本公开实施例二所提供的多媒体内容发布的方法中,确定相似度具体方法的流程图;
图5示出了本公开实施例二所提供的多媒体内容发布的方法中,更新时效标签集具体方法的流程图;
图6示出了本公开实施例三所提供的一种多媒体内容发布的装置的示意图;
图7示出了本公开实施例三所提供的另一种多媒体内容发布的装置的示意图;
图8示出了本公开实施例四所提供的一种电子设备的示意图;
图9示出了本公开实施例四所提供的另一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,由于一些热门的网站或APP上发布的多媒体内容数量很多,对于一些高热的实时新闻内容,很多有价值的多媒体内容在被发布后可能无法被用户及时搜索并阅读到,导致资源没有得到充分利用,也没有很好地满足用户的搜索需求。
基于上述研究,本公开实施例提供了至少一种多媒体内容发布的方案,为用户提供时效标签自主选择添加的功能,以便为用户提供时效性较强、较准确的搜索结果。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种多媒体内容发布的方法进行详细介绍,本公开实施例所提供的多媒体内容发布的方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务端或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该多媒体内容发布的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为用户端为例对本公开实施例提供的多媒体内容发布的方法加以说明。
参见图1所示,为本公开实施例提供的多媒体内容发布的方法的流程图,方法包括步骤S101~S104,其中:
S101、确定待发布的多媒体内容;
S102、获取与多媒体内容匹配的至少一个候选时效标签;
S103、确定至少一个候选时效标签中被选中的至少一个目标时效标签;
S104、生成包含目标时效标签的多媒体内容发布信息。
上述多媒体内容发布的方法主要适用于具有多媒体内容发布需求的应用场景中,在发布多媒体内容时,可以提供相关标签,为后续进行多媒体内容查询提供搜索参考。如果只是提供位置、类别等一些固定类型的标签,无法体现出一些多媒体内容的时效性热点信息,导致在搜索侧,一些高价值多媒体内容被用户忽略,从而无法有效利用好一些高时效性的多媒体内容,导致资源的浪费和搜索服务质量的降低。
为了解决上述问题,本公开实施例提供了一种基于时效标签进行多媒体内容发布的方案,该方案基于动态更新的时效标签为用户提供时效性标签自主添加功能,以便为多媒体内容搜索提供时效性较强的搜索结果。
其中,上述待发布的多媒体内容可以包括用户上传的多媒体内容,这里的多媒体内容可以是图片、还可以是视频、还可以是其它多媒体内容形式,考虑到视频搜索的广泛应用,以下多以视频为例进行具体说明,此外,在具体应用中,上述待发布的多媒体内容还可以包括为上传的多媒体内容添加的标题信息。
本公开实施例中,为了便于确定待发布的多媒体内容,可以在用户端的发布页面上设置相应的上传按钮和信息输入框,例如,可以在用户进入发布页面之后,响应针对上传按钮的触发操作,获取用户上传的多媒体内容,与此同时,还可以在信息输入框输入相应的标题信息,该标题信息可以采用多媒体内容的有关关键词来表征。
需要说明的是,本公开实施例中的标题信息可以是用户手动输入的,也可以是在用户端接收到用户上传的多媒体内容之后,基于这一多媒体内容自动解析得到的标题信息,本公开实施例对此不做具体的限制。
在确定待发布的多媒体内容的情况下,本公开实施例可以获取与多媒体内容匹配的至少一个候选时效标签,从而便于用户从中选取出与意图直接相关的目标时效标签。
本公开实施例中的候选时效标签可以是基于用户实时搜索数据动态更新的媒体内容标签,该媒体内容标签可以随着用户的实时搜索操作而动态变化,具有较高的时效性。
在具体应用中,可以从各种搜索平台获取用户实时搜索数据,这里的搜索平台可以是百科搜索平台,还可以是多媒体搜索平台,还可以是其它搜索平台,这里的实时搜索数据可以是距离当前发布时间最近的一段时间内从上述各个搜索平台的搜索记录中获取的,可以是搜索词,还可以是基于搜索词发起搜索所返回的搜索结果。
这样,在从搜索平台获取到用户实时搜索数据的情况下,本公开实施例可以基于对用户实时搜索数据的分析结果确定更新的候选时效标签,也即,一旦在一定时间内确定接入的各个搜索平台发生了搜索更新,则对应的候选时效标签将产生更新。
本公开实施例中,为了便于从候选时效标签中选取符合用户意图的目标时效标签,可以先在用户端展示上述候选时效标签。为了提升用户与发布平台的交互体验,这里可以基于用户端发布页面上设置的标签添加按钮的触发操作,再进行上述候选时效标签的展示。
需要说明的是,本公开实施例提供的多媒体内容发布的方法可以是在确定待发布的多媒体内容为时效性内容的情况下,再获取与多媒体内容匹配的候选时效标签,还可以是响应时效标签获取操作来获取候选时效标签。
其中,上述判断待发布的多媒体内容为时效性内容的过程可以是用户端基于用户上传的多媒体内容对应的内容属性信息和/或作者属性信息确定的。这里的内容属性信息可以是基于对该多媒体内容进行解析之后所确定的,在具体应用中,可以预设多种时效性比较强的多媒体内容类型(例如军事类、生活类、娱乐类),这样,在确定上传的多媒体内容属于上述多媒体内容类型的情况下,即可以确定上传的是时效性内容;这里的作者属性信息可以是多媒体内容的提供者的相关信息,例如,针对新闻类作者而言,其发布时效性内容的可能性也会更高,这样,即可以基于该作者的新闻类身份确定上传的是时效性内容。
本公开实施例中,在确定各个候选时效标签之后,可以基于用户的选取操作选取与用户意图相关的目标时效标签,并生成包含目标时效标签的多媒体内容发布信息。这时,在响应媒体内容发布请求的前提下,可以将包含目标时效标签的多媒体内容发布信息向外发布,例如,为了便于服务端实现后续的多媒体搜索,可以将上述多媒体内容发布信息发送给服务端。
其中,上述多媒体内容发布信息可以包括用户上传的多媒体内容,还可以包括为该多媒体内容输入的标题信息,除此之外,还可以包括发布时间、发布位置等信息。
需要说明的是,有关发布位置等涉及用户隐私权限的信息,可以是在获得用户授权之后再采集的。
针对发布后的各个多媒体内容,可以在用户向服务端发起搜索请求之后,基于该多媒体内容所包含的目标时效标签向用户推送与搜索请求对应的多媒体内容,由于这里的目标时效标签所标识的是时效性较高的多媒体内容,因而一定程度上可以提升多媒体内容的浏览量。
其中,本公开实施例提供的多媒体内容发布的方法可以在用户端的发布页面上设置相应的发布按钮,例如,可以在用户选中目标时效标签之后,响应针对发布按钮的触发操作,将包含目标时效标签的多媒体内容发布信息发布出去。
本公开实施例中的多媒体内容发布信息除了可以包括有关多媒体内容,还可以包括其它发布信息,例如,可以是在用户端的发布页面上进行多媒体内容发布时的封面设置信息,还可以是添加位置、多媒体内容来源等标签添加信息,还可以是与发布权限和发布时间等相关的信息,本公开实施例对此不做具体的限制。
接下来可以下面结合图2(a)、图2(b)以及图2(c)所示的用户端界面呈现效果图对本公开实施例提供的上述多媒体内容发布的方法进行示例说明。
如图2(a)所示,用户端所呈现的发布页面上包括有上传按钮和信息输入框。用户触发上传按钮之后,可以上传AA视频,还可以在信息输入框输入AA事件这一标题信息。
这样,服务端即可以基于上传的AA视频以及输入的AA事件,确定与待发布的AA视频匹配的多个候选时效标签,即AA中风险、AA事件升级、AA二级响应、AA相关人员。这时,用户端可以基于呈现的发布页面上包括的标签添加按钮的触发操作从服务端获取上述候选时效标签并可以将获取的候选时效标签对应显示在标签添加按钮所对应的显示区域内,如图2(b)所示。
针对用户端当前发布页面显示的各个候选时效标签,可以执行选取操作,以选取与用户意图最接近的目标时效标签,即AA中风险、AA事件升级,如图2(c)所示。
如图2(c)所示,在发布页面上设置有发布按钮,在该发布按钮被触发之后,即可以将上述包含有AA中风险、AA事件升级的多媒体内容发布信息发布给服务端。
除此之外,如图2(a)、图2(b)以及图2(c)所示,还可以设置其它多媒体内容发布信息,如地理标签添加信息、封面设置信息、发布设置等相关信息,在此不再赘述。
接下来从服务端侧,对本公开实施例提供的多媒体内容发布的方法作进一步说明。
实施例二
参见图3所示,为本公开实施例二提供的多媒体内容发布的方法的流程图,方法包括步骤S301~S304,其中:
S301、获取待发布的多媒体内容;
S302、从候选时效标签集中,选取至少一个与多媒体内容匹配的候选时效标签,并将选取的至少一个候选时效标签返回给第一用户端;
S303、接收包含至少一个目标时效标签的多媒体内容发布信息,至少一个目标时效标签属于候选时效标签;
S304、基于多媒体内容发布信息,发布多媒体内容。
上述步骤中,有关多媒体内容、多媒体内容发布信息的相关描述内容参照本公开实施例一的相关描述,在此不再赘述。
为了确定与获取的待发布的多媒体内容匹配的候选时效标签,本公开实施例可以依赖于候选时效标签集与多媒体内容之间的相关度,也即,可以从候选时效标签集中选取与多媒体内容相关度比较高的时效标签作为该多媒体内容的候选时效标签。
其中,上述候选时效标签集可以是基于用户实时搜索数据动态更新的媒体内容标签而生成的,有关媒体内容标签的更新过程参见上述实施例一的相关描述,在此不再赘述。这样,每当媒体内容标签产生更新,即可以将更新后的媒体内容标签置入候选时效标签集中,也即,随着用户实时搜索数据的捕获,候选时效标签集也随之产生更新,因而时效性较强。
在为多媒体内容选取了匹配的候选时效标签之后,即可以将选取的一个或多个候选时效标签推送给用户端,以便于用户端从中选取出符合自身发布意图的目标时效标签,并可以发布包含该目标时效标签的多媒体内容发布信息到服务端。其中,有关目标时效标签的选取以及多媒体内容发布信息的发布具体参见上述实施例一的相关描述内容,在此不再赘述。
服务端在接收到用户端发送的多媒体内容发布信息之后,即可以多媒体内容发布信息,发布多媒体内容。一旦对应的多媒体内容得以发布,由于多媒体内容发布信息中携带时效性比较强的目标时效标签可以作为搜索依据,相对一般发布的多媒体内容而言,其后续被实时搜索到的可能性将大大提升,从而可以提升多媒体内容的曝光度。
本公开实施例中的候选时效标签集可以是由若干个时效标签构成的,这样,在从用户端获取到待发布的多媒体内容之后,即可以确定该多媒体内容与候选时效标签集中的各个时效标签之间的相关度,基于相关度从时效标签集中选取一个或多个候选时效标签。
本公开实施例中,可以先将各个相关度进行排名,然后从排名结果中选取相关度在预设名次的时效标签作为候选时效标签,例如,可以选取排名在前10名的时效标签作为候选时效标签。
考虑到相关度计算对候选时效标签选取的关键作用,接下来可以对相关度的计算过程进行具体描述,如图4所示,计算相关度的过程具体包括如下步骤:
S401、从多媒体内容中提取出多媒体特征向量,以及从候选时效标签集中的每个时效标签中提取出文本特征向量;
S402、确定多媒体特征向量与每个文本特征向量之间的向量相关度;
S403、基于确定出的每个向量相关度,确定多媒体内容与候选时效标签集中的每个时效标签之间的相关度。
这里,首先可以分别从多媒体内容中提取出多媒体特征向量以及从时效标签集中的每个时效标签中提取出文本特征向量,而后可以基于向量相似度的计算方法确定多媒体特征向量与每个文本特征向量之间的向量相关度,由于向量相关度很大程度上表征了多媒体内容与时效标签的相关度,因而可以基于向量之间的向量相关度来确定多媒体内容与时效标签之间的相关度。
其中,上述提取多媒体特征向量可以是直接从待发布的多媒体内容中提取出的,如,一个视频的视频场景信息、视频时长信息等特征,还可以是基于预先训练好的多媒体特征提取模型提取得到的。
考虑到本公开实施例中待发布的多媒体内容可以是第一用户端上传的多媒体内容,还可以是为多媒体内容添加的标题信息,因而,这里的多媒体特征向量可以是针对上传的多媒体内容提取出的内容特征向量,还可以是针对添加的标题信息提取出的文本特征向量。
其中,在提取的多媒体特征向量是有关多媒体内容的特征向量的情况下,这里的多媒体特征提取模型可以是卷积神经网络(Convolutional Neural Networks,CNN)训练得到的,该网络训练的可以是输入的多媒体内容与其各种维度属性之间的关联关系,例如,针对一个视频,可以训练得到128维的多媒体特征这个向量;在提取的多媒体特征向量是有关多媒体内容的标题信息的特征向量的情况下,这里的多媒体特征提取模型可以是采用独热one-hot编码得到,还可以采用词向量编码模型Word2vec训练得到,训练的是标题信息与标题向量之间的关联关系,例如,针对一个视频的标题信息,可以提取出128维的特征向量。
另外,上述时效标签的文本特征向量可以是针对时效标签进行编码得到的,这里也可以采用读热one-hot编码得到,还可以采用Word2vec训练得到,本公开实施例对此不做具体的限制,例如,针对时效标签集中的每个时效标签可以提取出128维的文本特征向量。
本公开实施例中,在确定出多媒体内容的多媒体特征向量以及各个时效标签的文本特征向量之后,可以确定向量之间的向量相关度,本公开实施例一方面可以直接由向量余弦公式确定向量相关度,另一方面还可以基于训练好的相关度模型来确定向量相关度。考虑到相关度模型一定程度上可以挖掘出更为丰富、更为深层次的特征,因此,本公开实施例中可以采用训练好的相关度模型的方式来确定向量相关度。
本公开实施例中的相关度模型可以是有关标签多分类的模型,在模型训练的过程中,旨在从各个标签中选取出与输入的多媒体内容相关性更高的标签。这里,考虑到传统的分类模型一般都通过标签标识ID来表示标签,因此需要固定住标签集,例如,1号对应标签集中的第一个标签,2号对应标签集中的第二个标签。
然而,在本公开实施例的应用下,标签集(对应时效标签集)在实时变化,旧的标签标识会失效,因此标签标识将变得不再具有实时的泛化性。为了解决上述问题,本公开实施例才选用了文本编码的方式达到泛化的目的,这样,不管时效标签如何变换,均可以将时效标签对齐到文本空间,而后再和多媒体内容进行相关性学习和匹配。与此同时,相比标识编码方式,本公开实施例中所采用的文本编码所得到的文本特征向量能够挖掘出更为丰富的信息,这将有助于进行后续相关度模型的训练。
本公开实施例中训练相关度模型的训练样本数据可以是基于本公开提供的多媒体内容发布的方法的具体应用场景所确定的,也即,基于场景应用可以获取到相应的训练样本数据,进而进行相关度模型的训练,具体包括如下步骤:
步骤一、获取各个历史搜索词以及基于每个历史搜索词发起搜索所返回的多媒体内容搜索结果;
步骤二、针对每个多媒体内容搜索结果,将该多媒体内容搜索结果所对应的历史搜索词作为该多媒体内容搜索结果的正类时效标签,并将除该多媒体内容搜索结果之外的其它多媒体内容搜索结果对应的历史搜索词作为该多媒体内容搜索结果的负类时效标签;
步骤三、将每个多媒体内容搜索结果、该多媒体内容搜索结果的正类时效标签以及该多媒体内容搜索结果的负类时效标签作为一组训练样本数据,基于多组训练样本数据对待训练的相关度模型进行训练,得到训练好的相关度模型。
这里,首先可以从各搜索平台获取各个历史搜索词以及基于每个历史搜索词发起搜索所返回的多媒体内容搜索结果等相关历史搜索数据,这里的多媒体内容搜索结果与其历史搜索词相对应,也即,两者基于搜索关系而绑定在一起,从而可以避免相关技术中需要进行人工标签标注所带来的费时费力的问题。例如,搜索词是“BB新歌”,返回的搜索结果可以是“BB新歌”相关的视频和标题。
上述相关度模型作为一个多分类模型,针对每个多媒体内容搜索结果,可以确定该搜索结果的正类时效标签以及负类时效标签,该多媒体内容搜索结果与正类时效标签的相关度更高,与负类时效标签的相关度更低。一个多媒体内容搜索结果的正类时效标签可以是得到该多媒体内容搜索结果的发起搜索词,负类时效标签则可以是其它多媒体内容搜索结果的发起搜索词。
本公开实施例中,将每个多媒体内容搜索结果、该多媒体内容搜索结果的正类时效标签以及该多媒体内容搜索结果的负类时效标签作为一组训练样本数据可进行相关度模型的训练,从而得到相关度模型的模型参数。这样,在获取到待发布的多媒体内容之后,即可以基于这一模型参数确定该多媒体内容与时效标签集中的每个时效标签之间的相关度。
考虑到在进行多媒体内容搜索的过程中,一个历史搜索词,所搜索得到的多媒体内容搜索结果往往为多个,也即,多媒体内容搜索结果与历史搜索词存在多对一的关系,因而,在针对一个多媒体内容搜索结果进行负类时效标签的确定时,为了避免与该多媒体内容搜索结果同步被一个搜索词搜索出来的其它多媒体内容搜索结果对训练识别率的影响,这里,可以先为各组训练样本数据的同一个历史搜索词添加同一标识信息。
这样,针对每个多媒体内容搜索结果,可以确定与该多媒体内容搜索结果对应历史搜索词的标识信息不同的其它多媒体内容搜索结果,该其它多媒体内容搜索结果对应的历史搜索词即可作为该多媒体内容搜索结果的负类时效标签。
本公开实施例中,相同搜索词具有相同的标识信息,如果目标多媒体内容搜索结果的搜索词标识,和另一个多媒体内容搜索结果的搜索词标识一致,本公开实施例不会将另一个多媒体内容搜索结果所对应的历史搜索词作为目标多媒体内容搜索结果的负类。
采用上述负类时效标签确定方案,可以避免采样相同标识信息的数据作为伪负类,提升了正负类的高判别能力,进而提升相关度模型的准确率。
考虑到本公开实施例中的时效标签集可以是从各个搜索平台的用户实时搜索数据分析得到的,这难以避免产生冗余的时效标签,例如,在一个搜索平台对应有“A国家B地点游行”这一时效标签,而另一个搜索平台对应有“B地点游行”这一时效标签,这即是产生了时效标签的冗余。如果直接将存在冗余的时效标签推送给用户,不仅会占用不必要的展示位,还一定程度上会造成用户对发布平台体验度的下降。
为了解决上述问题,本公开实施例提供了一种对时效标签集进行消重处理的方法,如图5所示,上述消重处理具体通过如下步骤实现:
S501、将候选时效标签集中语义相似度大于预设阈值的时效标签作为一个时效标签组;
S502、针对每个时效标签组,计算该时效标签组中的每个时效标签与该时效标签组中除该时效标签之外的其它时效标签之间的字词重叠度;根据计算得到的多个字词重叠度对该时效标签组进行更新,得到更新后的时效标签组;
S503、将更新后的各个时效标签组进行组合,得到更新后的候选时效标签集。
这里,首先可以基于候选时效标签集中的各个时效标签的语义相似度对时效标签集进行聚类,得到各个时效标签组,这样,针对每个时效标签组,可以计算该时效标签组内的任意两个时效标签的字词重叠度,字词重叠度一定程度上可以表征两个时效标签存在冗余的可能性,字词重叠度越大,存在冗余的可能性也越大,字词重叠度越小,存在冗余的可能性也越小,基于每个时效标签组对应的多个字词重叠度即可以对这以时效标签组进行更新,这样,基于时效标签组的更新结果,可以确定更新后的候选时效标签集。
其中,本公开实施例可以先对候选时效标签集中的各个时效标签进行语义向量的提取,而后通过计算语义向量的相似度来确定时效标签之间的语义相似度。
本公开实施例中,针对语义相同或相似的时效标签可以纳入同一个时效标签组,这样,即可以确定一个时效标签组中任意两个时效标签的字词重叠度,上述字词重叠度可以按照如下步骤来确定:
步骤一、针对待计算字词重叠度的两个时效标签,将两个时效标签中的每个时效标签进行字词切分处理,得到与每个时效标签对应的多个时效标签字词;
步骤二、将两个时效标签分别对应的多个时效标签字词进行交集处理,得到处理后的第一时效标签字词组,以及将两个时效标签分别对应的多个时效标签字词进行并集处理,得到处理后的第二时效标签字词组;
步骤三、确定第一时效标签字词组在第二时效标签字词组中的占比,将确定的占比作为两个时效标签之间的字词重叠度。
这里,首先可以针对待计算字词重叠度的两个时效标签,分别计算对两个进行字词切分处理,得到每个时效标签对应的多个时效标签字词,本公开实施例中的字词切分可以是逐字切分,也即一个时效标签包括多少字,就可以对应切分几份,除此之外,本公开实施例还可以基于词典确定可切分的字词。例如,针对“A国家B地点游行”和“B地点游行”这两个时效标签而言,“A国家B地点游行”这一时效标签可以切分为“A国家”、“B地点”、“游行”等三个时效标签字词,“B地点游行”可以切分为“B地点”、“游行”等两个时效标签字词。
在确定两个时效标签中每个时效标签对应的多个时效标签字词之后,即可以进行时效标签字词的交集处理和并集处理,将交集处理所得到的第一时效标签字词组在并集处理所得到的第二时效标签字词组的占比,即可以确定为这两个时效标签之间的字词重叠度。
仍以“A国家B地点游行”和“B地点游行”这两个时效标签为例,在“A国家B地点游行”这一时效标签所对应的三个时效标签字词为“A国家”、“B地点”、“游行”,“B地点游行”这一时效标签所对应的两个时效标签字词为“B地点”、“游行”的情况下,取交集结果得到的第一时效标签字词组为“B地点游行”(对应5个字),取并集结果得到“A国家B地点游行”(对应8个字),此时5/8即可作为上述两个时效标签的字词重叠度。
本公开实施例中,重复上述字词重叠度的计算过程,即可以确定每个时效标签组对应的多个字词重叠度。
本公开实施例可以通过设定字词重叠度的预设阈值(如设置为0.5)实现时效标签组的更新。
在具体应用中,其一、可以是在确定一个时效标签组对应的多个字词重叠度均大于预设阈值,则将该时效标签组中字数最多的时效标签归属至更新后的时效标签组,也即,选取标签信息更为丰富的时效标签作为更新后的时效标签组内的时效标签,对应其它时效标签可以进行删减操作;其二、还可以在确定一个时效标签组对应的多个字词重叠度均小于或等于预设阈值,则将该时效标签组中的各个时效标签分别归属至更新后的时效标签组,也即,在各个字词重叠度均不到预设阈值的前提下,一定程度上说明该时效标签组存在冗余的可能性较小,此时,可以直接基于该时效标签组的原始时效标签确定更新后的时效标签组。
除了以上两种情形,在一个时效标签组对应的多个字词重叠度中既存在大于预设阈值的第一字词重叠度又存在小于或等于预设阈值的第二字词重叠度的情况下,可以对第一字词重叠度对应的时效标签按照上述第一种处理方式选取字数最多的进行时效标签组的更新,还可以对第二字词重叠度对应的时效标签按照上述第二种处理方式进行时效标签组的更新。
本公开实施例提供的多媒体内容发布的方法在实现时效标签组的更新之后,可以对应更新时效标签集。
这里,为了便于为待发布的多媒体内容匹配时效性更强的候选时效标签,可以按照预设快照采样频率从候选时效标签集中获取与当前采样时刻对应的时效标签,例如,每秒即向候选时效标签集发起一次快照抓取。
这里,可以将当前快照抓取的候选时效标签集中的所有时效标签均作为与多媒体内容匹配的候选时效标签,还可以是先对抓取的所有时效标签进行筛选操作,基于筛选操作所得到的部分时效标签来确定与多媒体内容匹配的候选时效标签,例如,可以将标签时间与当前采样时间相隔不超过预设时长的时效标签确定为候选时效标签。
本公开实施例中,在发布多媒体内容的同时,还可以存储与各个待上传的多媒体内容对应的目标时效标签,基于存储的各个目标时效标签可实现有关高时效多媒体内容的搜索,具体可以通过如下步骤来实现:
步骤一、存储与多媒体内容对应的目标时效标签;
步骤二、在接收到第二用户端发起的搜索请求的情况下,从存储的与多媒体内容对应的目标时效标签中查找与搜索请求匹配的目标时效标签;
步骤三、将查找到的目标时效标签对应的多媒体内容推送至第二用户端。
这里,在接受到第二用户端发起的搜索请求的情况下,可以基于搜索请求中携带的搜索词与存储的各个目标时效标签之间的匹配关系,从中查找出与搜索请求对应的多媒体内容。
其中,有关搜索词与目标时效标签之间的匹配关系,这里可以基于词向量相似度来确定。
这里的第二用户端可以与第一用户端不同,例如,在第一用户端作为多媒体内容发布端的情况下,第二用户端可以是多媒体内容搜索端,由于目标时效标签可以是基于高时效需求所建立的时效标签,因而这里所推送给第二用户端的可以是时效性更高的多媒体内容,能够满足用户的高时效搜索需求,提升搜索平台的服务质量。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与多媒体内容发布的方法对应的多媒体内容发布的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述多媒体内容发布的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
实施例三
参照图6所示,为本公开实施例提供的一种多媒体内容发布的装置示意图,装置包括:内容确定模块601、标签获取模块602、标签确定模块603和信息生成模块604;其中,
内容确定模块601,用于确定待发布的多媒体内容;
标签获取模块602,用于获取与多媒体内容匹配的至少一个候选时效标签;
标签确定模块603,用于确定至少一个候选时效标签中被选中的至少一个目标时效标签;
信息生成模块604,用于生成包含目标时效标签的多媒体内容发布信息。
本公开实施例提供的多媒体内容发布的装置中,候选时效标签可以是是基于用户实时搜索数据提供的动态更新的时效标签,这样,发布者从中选择的目标时效标签也就是时效性较高的标签,因而一定程度上可以为后续搜索提供时效性较强的多媒体内容;另外,目标时效标签是在候选时效标签的基础上由发布者进一步确认选择的,进一步提升了目标时效标签作为多媒体内容的查询索引的准确性,从而能够为发起搜索请求的用户提供更准确有效的搜索结果,提升搜索平台的服务质量。
在一种实施方式中,上述装置还包括:
内容发布模块605,用于生成包含目标时效标签的多媒体内容发布信息之后,响应媒体内容发布请求,将生成的包含目标时效标签的多媒体内容发布信息向外发布。
在一种实施方式中,标签获取模块602,用于按照以下步骤获取与多媒体内容匹配的至少一个候选时效标签:
响应于时效标签获取操作,获取与多媒体内容匹配的至少一个候选时效标签;或者,
在根据多媒体内容对应的内容属性信息和/或作者属性信息,确定多媒体内容为时效性内容后,获取与多媒体内容匹配的至少一个候选时效标签。
在一种实施方式中,内容确定模块601,用于按照以下步骤确定待发布的多媒体内容:
获取目标用户上传的多媒体内容,以及为多媒体内容添加的标题信息,将目标用户上传的多媒体内容以及标题信息作为待发布的多媒体内容。
参照图7所示,为本公开实施例提供的另一种多媒体内容发布的装置示意图,装置包括:内容获取模块701、标签选取模块702、信息接收模块703和内容发布模块704;其中,
内容获取模块701,用于获取待发布的多媒体内容;
标签选取模块702,用于从候选时效标签集中,选取至少一个与多媒体内容匹配的候选时效标签,并将选取的至少一个候选时效标签返回给第一用户端;
信息接收模块703,用于接收包含至少一个目标时效标签的多媒体内容发布信息,至少一个目标时效标签属于候选时效标签;
内容发布模块704,用于基于多媒体内容发布信息,发布多媒体内容。
在一种实施方式中,上述装置还包括:
内容推送模块705,用于存储与多媒体内容对应的目标时效标签;在接收到第二用户端发起的搜索请求的情况下,从存储的与多媒体内容对应的目标时效标签中查找与搜索请求匹配的目标时效标签;将查找到的目标时效标签对应的多媒体内容推送至第二用户端。
在一种实施方式中,标签选取模块702,用于按照以下步骤从候选时效标签集中,选取至少一个与多媒体内容匹配的候选时效标签:
确定多媒体内容与候选时效标签集中的每个时效标签之间的相关度;
基于相关度,从候选时效标签集中选取至少一个候选时效标签。
在一种实施方式中,标签选取模块702,用于按照以下步骤确定多媒体内容与候选时效标签集中的每个时效标签之间的相关度:
从多媒体内容中提取出多媒体特征向量,以及从候选时效标签集中的每个时效标签中提取出文本特征向量;
确定多媒体特征向量与每个文本特征向量之间的向量相关度;
基于确定出的每个向量相关度,确定多媒体内容与候选时效标签集中的每个时效标签之间的相关度。
在一种实施方式中,待发布的多媒体内容包括第一用户端上传的多媒体内容,以及为多媒体内容添加的标题信息;标签选取模块702,用于按照以下步骤从多媒体内容中提取出多媒体特征向量:
从第一用户端上传的多媒体内容中提取出内容特征向量,以及,从为多媒体内容添加的标题信息中提取出文本特征向量;
将提取出的内容特征向量和文本特征向量,确定为多媒体特征向量。
在一种实施方式中,标签选取模块702,用于按照以下步骤确定多媒体特征向量与每个文本特征向量之间的向量相关度:
利用训练好的相关度模型,确定多媒体特征向量与每个文本特征向量之间的向量相关度。
在一种实施方式中,标签选取模块702,用于按照以下步骤训练相关度模型:
获取各个历史搜索词以及基于每个历史搜索词发起搜索所返回的多媒体内容搜索结果;
针对每个多媒体内容搜索结果,将该多媒体内容搜索结果所对应的历史搜索词作为该多媒体内容搜索结果的正类时效标签,并将除该多媒体内容搜索结果之外的其它多媒体内容搜索结果对应的历史搜索词作为该多媒体内容搜索结果的负类时效标签;
将每个多媒体内容搜索结果、该多媒体内容搜索结果的正类时效标签以及该多媒体内容搜索结果的负类时效标签作为一组训练样本数据,基于多组训练样本数据对待训练的相关度模型进行训练,得到训练好的相关度模型。
在一种实施方式中,标签选取模块702,用于按照如下步骤确定每个多媒体内容搜索结果的负类时效标签:
针对各组训练样本数据的同一个历史搜索词,为该历史搜索词添加同一标识信息;
针对每个多媒体内容搜索结果,确定与该多媒体内容搜索结果对应历史搜索词的标识信息不同的其它多媒体内容搜索结果,并将确定的其它多媒体内容搜索结果对应的历史搜索词作为该多媒体内容搜索结果的负类时效标签。
在一种实施方式中,上述装置还包括:
标签集更新模块706,用于将候选时效标签集中语义相似度大于预设阈值的时效标签作为一个时效标签组;针对每个时效标签组,计算该时效标签组中的每个时效标签与该时效标签组中除该时效标签之外的其它时效标签之间的字词重叠度;根据计算得到的多个字词重叠度对该时效标签组进行更新,得到更新后的时效标签组;将更新后的各个时效标签组进行组合,得到更新后的候选时效标签集。
在一种实施方式中,标签集更新模块706,用于按照以下步骤根据计算得到的多个字词重叠度对该时效标签组进行更新,得到更新后的时效标签组:
若多个字词重叠度均大于预设阈值,则将该时效标签组中字数最多的时效标签归属至更新后的时效标签组;
若多个字词重叠度中包括大于预设阈值的第一字词重叠度、且包括小于或等于预设阈值的第二字词重叠度,则将第一字词重叠度所指向的多个时效标签中字数最多的时效标签归属至更新后的时效标签组,并将第二字词重叠度所指向的多个时效标签分别归属至更新后的时效标签组;
若多个字词重叠度均小于或等于预设阈值,则将该时效标签组中的各个时效标签分别归属至更新后的时效标签组。
在一种实施方式中,标签集更新模块706,用于按照如下步骤确定字词重叠度:
针对待计算字词重叠度的两个时效标签,将两个时效标签中的每个时效标签进行字词切分处理,得到与每个时效标签对应的多个时效标签字词;
将两个时效标签分别对应的多个时效标签字词进行交集处理,得到处理后的第一时效标签字词组,以及将两个时效标签分别对应的多个时效标签字词进行并集处理,得到处理后的第二时效标签字词组;
确定第一时效标签字词组在第二时效标签字词组中的占比,将确定的占比作为两个时效标签之间的字词重叠度。
在一种实施方式中,标签选取模块702,用于按照以下步骤从候选时效标签集中,选取至少一个与多媒体内容匹配的候选时效标签:
按照预设快照采样频率从候选时效标签集中获取与当前采样时刻对应的时效标签;
基于获取的时效标签,确定至少一个与多媒体内容匹配的候选时效标签。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
实施例四
本公开实施例还提供了一种电子设备,该电子设备可以是服务端,也可以是用户端。在以用户端作为电子设备时,如图8所示,为本公开实施例提供的电子设备的结构示意图,包括:处理器801、存储器802、和总线803。存储器802存储有处理器801可执行的机器可读指令(如图6所示多媒体内容发布的装置中,内容确定模块601、标签获取模块602、标签确定模块603和信息生成模块604所对应执行的指令),当电子设备运行时,处理器801与存储器802之间通过总线803通信,机器可读指令被处理器801执行时执行如下处理:
确定待发布的多媒体内容;
获取与多媒体内容匹配的至少一个候选时效标签;
确定至少一个候选时效标签中被选中的至少一个目标时效标签;
生成包含目标时效标签的多媒体内容发布信息。
在一种实施方式中,生成包含目标时效标签的多媒体内容发布信息之后,上述处理器801执行的指令还包括:
响应媒体内容发布请求,将生成的包含目标时效标签的多媒体内容发布信息向外发布。
在一种实施方式中,上述处理器801执行的指令中,获取与多媒体内容匹配的至少一个候选时效标签,包括:
响应于时效标签获取操作,获取与多媒体内容匹配的至少一个候选时效标签;或者,
在根据多媒体内容对应的内容属性信息和/或作者属性信息,确定多媒体内容为时效性内容后,获取与多媒体内容匹配的至少一个候选时效标签。
在一种实施方式中,上述处理器801执行的指令中,确定待发布的多媒体内容,包括:
获取目标用户上传的多媒体内容,以及为多媒体内容添加的标题信息,将目标用户上传的多媒体内容以及标题信息作为待发布的多媒体内容。
在以服务端作为电子设备时,如图9所示,为本公开实施例提供的电子设备的结构示意图,包括:处理器901、存储器902、和总线903。存储器902存储有处理器901可执行的机器可读指令(如图7所示多媒体内容发布的装置中,内容获取模块701、标签选取模块702、信息接收模块703和内容发布模块704所对应执行的指令),当电子设备运行时,处理器901与存储器902之间通过总线903通信,机器可读指令被处理器901执行时执行如下处理:
获取待发布的多媒体内容;
从候选时效标签集中,选取至少一个与多媒体内容匹配的候选时效标签,并将选取的至少一个候选时效标签返回给第一用户端;
接收包含至少一个目标时效标签的多媒体内容发布信息,至少一个目标时效标签属于候选时效标签;
基于多媒体内容发布信息,发布多媒体内容。
在一种实施方式中,上述处理器901执行的指令还包括:
存储与多媒体内容对应的目标时效标签;
在接收到第二用户端发起的搜索请求的情况下,从存储的与多媒体内容对应的目标时效标签中查找与搜索请求匹配的目标时效标签;
将查找到的目标时效标签对应的多媒体内容推送至第二用户端。
在一种实施方式中,上述处理器901执行的指令中,从候选时效标签集中,选取至少一个与多媒体内容匹配的候选时效标签,包括:
确定多媒体内容与候选时效标签集中的每个时效标签之间的相关度;
基于相关度,从候选时效标签集中选取至少一个候选时效标签。
在一种实施方式中,上述处理器901执行的指令中,确定多媒体内容与候选时效标签集中的每个时效标签之间的相关度,包括:
从多媒体内容中提取出多媒体特征向量,以及从候选时效标签集中的每个时效标签中提取出文本特征向量;
确定多媒体特征向量与每个文本特征向量之间的向量相关度;
基于确定出的每个向量相关度,确定多媒体内容与候选时效标签集中的每个时效标签之间的相关度。
在一种实施方式中,待发布的多媒体内容包括第一用户端上传的多媒体内容,以及为多媒体内容添加的标题信息;上述处理器901执行的指令中,从多媒体内容中提取出多媒体特征向量,包括:
从第一用户端上传的多媒体内容中提取出内容特征向量,以及,从为多媒体内容添加的标题信息中提取出文本特征向量;
将提取出的内容特征向量和文本特征向量,确定为多媒体特征向量。
在一种实施方式中,上述处理器901执行的指令中,确定多媒体特征向量与每个文本特征向量之间的向量相关度,包括:
利用训练好的相关度模型,确定多媒体特征向量与每个文本特征向量之间的向量相关度。
在一种实施方式中,上述处理器901执行的指令中,按照如下步骤训练相关度模型:
获取各个历史搜索词以及基于每个历史搜索词发起搜索所返回的多媒体内容搜索结果;
针对每个多媒体内容搜索结果,将该多媒体内容搜索结果所对应的历史搜索词作为该多媒体内容搜索结果的正类时效标签,并将除该多媒体内容搜索结果之外的其它多媒体内容搜索结果对应的历史搜索词作为该多媒体内容搜索结果的负类时效标签;
将每个多媒体内容搜索结果、该多媒体内容搜索结果的正类时效标签以及该多媒体内容搜索结果的负类时效标签作为一组训练样本数据,基于多组训练样本数据对待训练的相关度模型进行训练,得到训练好的相关度模型。
在一种实施方式中,上述处理器901执行的指令中,按照如下步骤确定每个多媒体内容搜索结果的负类时效标签:
针对各组训练样本数据的同一个历史搜索词,为该历史搜索词添加同一标识信息;
针对每个多媒体内容搜索结果,确定与该多媒体内容搜索结果对应历史搜索词的标识信息不同的其它多媒体内容搜索结果,并将确定的其它多媒体内容搜索结果对应的历史搜索词作为该多媒体内容搜索结果的负类时效标签。
在一种实施方式中,上述处理器901执行的指令还包括:
将候选时效标签集中语义相似度大于预设阈值的时效标签作为一个时效标签组;
针对每个时效标签组,计算该时效标签组中的每个时效标签与该时效标签组中除该时效标签之外的其它时效标签之间的字词重叠度;根据计算得到的多个字词重叠度对该时效标签组进行更新,得到更新后的时效标签组;
将更新后的各个时效标签组进行组合,得到更新后的候选时效标签集。
在一种实施方式中,上述处理器901执行的指令中,根据计算得到的多个字词重叠度对该时效标签组进行更新,得到更新后的时效标签组,包括:
若多个字词重叠度均大于预设阈值,则将该时效标签组中字数最多的时效标签归属至更新后的时效标签组;
若多个字词重叠度中包括大于预设阈值的第一字词重叠度、且包括小于或等于预设阈值的第二字词重叠度,则将第一字词重叠度所指向的多个时效标签中字数最多的时效标签归属至更新后的时效标签组,并将第二字词重叠度所指向的多个时效标签分别归属至更新后的时效标签组;
若多个字词重叠度均小于或等于预设阈值,则将该时效标签组中的各个时效标签分别归属至更新后的时效标签组。
在一种实施方式中,上述处理器901执行的指令中,按照如下步骤确定字词重叠度:
针对待计算字词重叠度的两个时效标签,将两个时效标签中的每个时效标签进行字词切分处理,得到与每个时效标签对应的多个时效标签字词;
将两个时效标签分别对应的多个时效标签字词进行交集处理,得到处理后的第一时效标签字词组,以及将两个时效标签分别对应的多个时效标签字词进行并集处理,得到处理后的第二时效标签字词组;
确定第一时效标签字词组在第二时效标签字词组中的占比,将确定的占比作为两个时效标签之间的字词重叠度。
在一种实施方式中,上述处理器901执行的指令中,从候选时效标签集中,选取至少一个与多媒体内容匹配的候选时效标签,包括:
按照预设快照采样频率从候选时效标签集中获取与当前采样时刻对应的时效标签;
基于获取的时效标签,确定至少一个与多媒体内容匹配的候选时效标签。
上述指令的具体执行过程可以参考本公开实施例一和实施例二中的多媒体内容发布的方法的步骤,此处不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例一和实施例二中所述的多媒体内容发布的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的多媒体内容发布的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的多媒体内容发布的方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务端,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。