CN115114460A - 多媒体内容的推送方法及装置 - Google Patents

多媒体内容的推送方法及装置 Download PDF

Info

Publication number
CN115114460A
CN115114460A CN202110303386.3A CN202110303386A CN115114460A CN 115114460 A CN115114460 A CN 115114460A CN 202110303386 A CN202110303386 A CN 202110303386A CN 115114460 A CN115114460 A CN 115114460A
Authority
CN
China
Prior art keywords
multimedia content
information
content
entity object
heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110303386.3A
Other languages
English (en)
Inventor
石磊
马连洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110303386.3A priority Critical patent/CN115114460A/zh
Publication of CN115114460A publication Critical patent/CN115114460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种多媒体内容的推送方法及装置,属于计算机技术领域。所述方法包括:确定多媒体内容关联的实体对象;获取实体对象的热度信息;基于实体对象的热度信息,确定多媒体内容的目标时效信息;根据目标时效信息,推送多媒体内容。本申请实施例通过先确定多媒体内容的时效和关联实体对象,再确定实体对象的热度,进而结合多媒体内容的时效以及关联实体对象的热度,更新多媒体内容的时效,以提升多媒体内容时效的准确性,最终根据更新后的时效推送多媒体内容,以减少信息流中的过期内容,降低服务器运行压力,有效提升资源利用率。

Description

多媒体内容的推送方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种多媒体内容的推送方法及装置。
背景技术
随着互联网技术的发展,出现了越来越多的信息流内容服务,用户可通过信息流内容服务接收各种资讯信息。
为了提高用户的信息获取体验,各种信息平台往往会根据一定的信息推送标准,向用户推送内容。例如,按照固定时效向用户推送信息流内容服务中的内容。
但是目前信息流中内容的时效往往不准确,导致信息流中存在过期内容,资源利用率低。
发明内容
本申请实施例提供了一种多媒体内容的推送方法及装置,提升了多媒体内容的推送率,提高了压缩方式结合度。
一方面,本申请实施例提供了一种多媒体内容的推送方法,所述方法包括:
确定多媒体内容关联的实体对象;
获取所述实体对象的热度信息;
基于所述实体对象的热度信息,确定所述多媒体内容的目标时效信息;
根据所述目标时效信息,推送所述多媒体内容。
另一方面,本申请实施例提供了一种多媒体内容的推送装置,所述装置包括:
实体对象确定模块,用于确定多媒体内容关联的实体对象;
热度信息获取模块,用于获取所述实体对象的热度信息;
时效信息确定模块,用于基于所述实体对象的热度信息,确定所述多媒体内容的目标时效信息;
内容推送模块,用于根据所述目标时效信息,推送所述多媒体内容。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述多媒体内容的推送方法。
再一方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述多媒体内容的推送方法。
还一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述多媒体内容的推送方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过先确定多媒体内容的时效以及多媒体内容关联的实体对象,再确定多媒体内容关联的实体对象的热度,进而结合多媒体内容的时效以及多媒体内容关联的实体对象的热度,对多媒体内容的时效进行更新,以提升多媒体内容时效的准确性,最终根据更新后的时效推送多媒体内容,以减少信息流中的过期内容,降低服务器运行压力,有效提升资源利用率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的多媒体内容的推送方法的流程图;
图3是本申请另一个实施例提供的多媒体内容的推送方法的流程图;
图4示例性示出了一种实体对象的展示页面示意图;
图5示例性示出了确定文章时效的流程示意图;
图6示例性示出了确定文章关联的综艺影视作品的示意图;
图7是本申请一个实施例提供的多媒体内容的推送装置的框图;
图8是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请技术方案涉及人工智能技术领域和云技术领域,下面对此进行介绍说明。
AI(Artificial Intelligence,人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
下面对本申请实施例可能涉及的相关术语名词进行简单介绍,以便于本领域技术人员理解。
正则表达式,又称规则表达式。(Regular Expression,RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。正则表达式用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,可以达到如下的目的:1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);2.可以通过正则表达式,从字符串中获取我们想要的特定部分。
TextRank算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。TextRank不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。
词向量(word embedding),是嵌入式自然语言处理中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高自然语言处理任务的性能,例如语法分析和情感分析。词向量具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以,可以将词向量的每一维称为一个词语特征。
Word2Vec是用来产生词向量的相关模型,是用于从单词生成向量的词嵌入技术之一。这一点你可能从名字本身就能理解。Word2Vec是一个浅层神经网络,只有两层,因此不具备深度学习模型的资格。输入是一个文本语料库,它用来生成矢量作为输出。这些向量被称为输入语料库中单词的特征向量。它将语料库转换成可以被深层神经网络理解的数值数据。Word2Vec的目的是理解两个或更多单词一起出现的概率,从而将具有相似含义的单词组合在一起,在向量空间中形成一个聚类。像任何其他机器学习或深度学习模型一样,通过从过去的数据和过去出现的单词中学习,Word2Vec变得越来越有效。因此,如果有足够的数据和上下文,它可以根据过去的事件和上下文准确地猜测一个单词的意思,就像我们理解语言的方式一样。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer,个人计算机)等电子设备。终端 10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供信息流内容服务的应用程序。典型地,该应用程序为内容推荐类应用程序。当然,除了内容推荐类应用程序之外,其它类型的应用程序中也可以提供信息流内容服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。另外,对于不同的应用程序来说,其推送的内容也会有所不同,且相应的功能也会有所不同,这都可以根据实际需求预先进行配置,本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。在一些实施例中,上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱乐、游戏等诸多垂直内容,并且用户可通过上述信息流内容服务享受到文章、图片、小视频、短视频、直播、专题、栏目等众多形式的内容服务。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。
请参考图2,其示出了本申请一个实施例提供的多媒体内容的推送方法的流程图。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤(210~240)。
步骤210,确定多媒体内容关联的实体对象。
多媒体是指多种媒体的综合,可包括文本、音频、视频和图像等多种媒体形式。多媒体内容是指多种媒体所承载和传输某种信息或物质。在一些可能的应用场景中,如信息流内容服务,多媒体内容用于供用户阅读观赏、传递资讯。
实体对象是指可以区分、可识别的对象或者事物。实体对象可以包括具体的人或物;也可以包括抽象的事件;还可以包括无形的个体,例如影视作品。综艺节目等。
可选地,根据多媒体内容的具体内容,确定多媒体内容关联的实体对象。例如,一篇网络文章的具体内容是介绍一个影视作品,那么该影视作品便是多媒体内容关联的实体对象。
可选地,根据多媒体内容的标签信息,确定多媒体内容关联的实体对象。例如,一篇网络文章的标签是一个影视作品,那么该影视作品便是多媒体内容关联的实体对象。
可选地,通过实体识别处理确定多媒体内容关联的实体对象,上述实体识别技术包括关键词提取处理,正则提取处理等方式,本申请实施例对此不作限定。
步骤220,获取实体对象的热度信息。
热度信息反映社会大众的关注程度。在现实生活中,往往存在很多社会大众关注的热点,这些热点可涉及一个或者多个实体对象。例如,新出的影视作品或者综艺节目往往会吸引社会大众的广泛关注,通过热度信息,可以反映社会大众对新出的影视作品或者综艺节目的关注程度。
可选地,热度信息包括实体对象的热度类型。例如,热度类型包括过期内容、近期热门内容、当前热门内容等。可选地,实体对象的热度类型可通过热度关联数据确定。其中,热度关联数据是可以反映与实体对象的热度的数据,例如,热度关联数据可以包括但不限于与实体对象关联的多媒体内容的数量、曝光率、点击率、赞赏率、浏览量等数据。
可选地,热度信息包括热度值,上述热度值反映实体对象的当前热度。上述热度值可根据与实体对象关联的多媒体内容的数量、曝光率、点击率、赞赏率、浏览量等数据确定。
步骤230,基于实体对象的热度信息,确定多媒体内容的目标时效信息。
目标时效信息表征多媒体内容的目标推送时长。上述目标时效信息可以是多媒体内容的实际时效信息,也可以是在具体应用场景中的时效信息,还可是对初始时效信息进行修改得到的时效信息。上述目标推送时长是指针对多媒体内容设置的推荐时长,或者是多媒体内容的推送时长上限。多媒体内容具有时效性,因多媒体内容的差异,不同的多媒体内容的时效性不同,上述时效性可通过多媒体内容的目标推送时长来体现。例如,在信息流内容服务场景下,需要有针对性地对该场景下的多媒体内容进行推送,上述目标时长便可代表多媒体内容的最长推送时长,一旦累计推送时长超过目标推送时长,也就意味着多媒体内容是过期内容,用户对过期内容的兴趣程度低,并且可能是用户已经看过过期内容相似的内容,所以可停止推送过期的多媒体内容。
可选地,时效信息包括时效类型,时效类型是指具有共同时效性的多媒体内容所形成的种类。同一时效类型的多媒体内容的时效性相同或者相似。可选地,时效类型与推送时长具有对应关系,例如,同时效类型的多媒体内容的推送时长是相同的,或者同时效类型的多媒体内容的推送时长处于同一时长区间,同时效类型的多媒体内容中的最短推送时长大于或者等于该时长区间的最小值,同时效类型的多媒体内容中的最长推送时长小于或者等于该时长区间的最大值。
可选地,基于实体对象的热度类型,确定与实体对象关联的多媒体内容的时效类型。上述热度类型与时效类型之间具有对应关系,根据热度类型与时效类型之间的对应关系,确定与实体对象关联的多媒体内容的时效类型。
可选地,基于实体对象的热度类型,确定与实体对象关联的多媒体内容的目标推送时长。上述热度类型与目标推送时长之间具有对应关系,根据热度类型与目标推送时长之间的对应关系,确定与实体对象关联的多媒体内容的时效类型。
可选地,将实体对象的热度信息以及多媒体内容的特征信息输入至训练完成的机器学习模型,通过机器学习模型输出多媒体内容的时效类型或者目标推送时长。通过结合实体对象的热度去确定多媒体内容的时效性,提升时效确定的准确性。
在示例性实施例中,上述方法还包括如下步骤:
步骤250,获取多媒体内容的初始时效信息。
初始时效信息表征多媒体内容的初始推送时长。
可选地,通过时效分类模型确定多媒体内容的初始时效信息,上述时效分类模型可以是预先训练好的机器学习模型,上述时效分类模型可确定出多媒体内容的时效类型,也可直接确定多媒体内容的推送时长。
可选地,通过多媒体内容的标签信息确定多媒体内容的初始时效信息,上述标签信息用于反映多媒体内容的主题,例如,某个影视作品、综艺节目、新闻热点、热议话题等。在一种可能的实施方式中,上述标签信息与时效信息之间具有映射关系,上述映射关系可作为确定时效信息的依据,例如,何种标签对应何种时效类型,或者对应具体的目标推送时长。
可选地,通过多媒体内容的品类确定多媒体内容的初始时效信息。上述品类可以包括电影类、电视剧类、综艺类、财经类、娱乐类、社会类,可根据品类与时效之间的对应关系,确定多媒体内容的时效信息。例如,多媒体内容是电影类内容,便将电影类对应的默认时效作为该多媒体内容的时效信息。
在一种可能的实施方式中,基于实体对象的热度信息与多媒体内容的初始时效信息,确定多媒体内容的目标时效信息。
在信息流内容服务场景中,会设定时效确定策略,建立内容时效与内容品类之间的对应关系。通过确定信息流中内容对应的品类,然后根据信息流中内容对应的品类以及内容时效与内容品类之间的对应关系,确定该内容的时效。但往往存在这样的情况,多媒体内容关联的实体对象的热度早已下降,成为过期的热点内容,但因多媒体内容所属品类对应的目标推送时长较长,***仍会长期向用户推送该多媒体内容,用户便可能收到早已阅读过的内容,影响用户体验。本申请实施例结合多媒体内容的时效,以及多媒体内容关联的实体对象的热度,会对多媒体内容的时效进行更新,以此更加准确地确定多媒体内容的时效。
本申请实施例提供的方法包括判断实体对象的热度信息是否符合预设热度条件,以及多媒体内容的时效信息是否符合预设时效条件,进而根据两者的判断结果去更新多媒体内容的时效信息,得到多媒体内容的目标时效信息。
上述预设热度条件用于筛选出目标热度的实体对象。可选地,预设热度条件包括热度关联数据符合热度阈值条件。可选地,预设热度条件包括热度类型为目标热度类型,上述目标热度类型为根据应用场景选定的热度类型。可选地,预设热度条件包括热度值大于或者等于热度值阈值。
上述热度阈值条件用于区分不同热度的实体对象。可选地,热度阈值条件包括热度关联数据与热度关联数据对应的热度阈值之间的大小关系满足预设规则。热度关联数据包括但不限于多媒体内容的数量、曝光率、点击率、赞赏率、浏览量。上述热度阈值是至少一种热度关联数据对应的至少一种阈值的总称。相应地,热度阈值条件包括但不限于多媒体内容的数量大于或者等于数量阈值;曝光率大于或者等于曝光率阈值;点击率大于或者等于点击率阈值;赞赏率大于或者等于赞赏率阈值;浏览量大于或者等于浏览量阈值中至少一种。上述热度阈值条件可以进行组合,本申请实施例对此不作限定。上述数量阈值是从多媒体内容的数量维度评定多媒体内容热度的阈值;上述曝光率阈值是从多媒体内容的在用户中的曝光率维度评定多媒体内容热度的阈值;点击率阈值是从多媒体内容的点击率维度评定多媒体内容热度的阈值;赞赏率阈值是从多媒体内容的赞赏率维度评定多媒体内容热度的阈值;浏览量阈值是从多媒体内容的浏览量维度评定多媒体内容热度的阈值。
可选地,一种热度关联数据对应一种热度阈值,或者多种热度关联数据对应一种热度阈值,又或者一种热度关联数据对应多个热度阈值,本申请实施例对此不作限定。
上述预设时效条件用于筛选出目标时效的实体对象。可选地,预设时效条件包括时效类型是目标时效类型。可选地,预设时效条件包括目标推送时长大于或者等于目标时长阈值。上述目标时长阈值可以是多媒体内容的最长推送时长,例如目标时长阈值为7天。上述预设时效条件可根据具体的应用场景进行调整,本申请实施例对比不作限定。
在示例性实施例中,在实体对象的热度信息符合预设热度条件,且多媒体内容的时效信息符合预设时效条件的情况下,对多媒体内容的初始时效信息进行修改,得到多媒体内容的实际时效信息,实际时效信息对应的目标推荐时长小于初始时效信息对应的目标推荐时长。
可选地,热度信息符合预设热度条件的实体对象属于近期热门类型。可选地,时效信息符合预设时效条件的多媒体内容属于长时效类型。在多媒体内容为长时效类型,且多媒体内容关联的实体对象属于近期热门类型的情况下,将该多媒体内容的时效类型由长时效类型,改为中时效类型或者短时效类型,或者减短该多媒体内容的目标推送时长。上述长时效类型、中时效类型以及短时效类型的区分依据为各自对应的目标推送时长不同,例如长时效类型对应的目标推送时长为7天,中时效类型对应的目标推送时长为3天,短时效类型对应的目标推送时长为1天。
在示例性实施例中,上述步骤230可通过如下方式实现。
在实体对象的热度类型为近期热门类型,且初始时效信息对应的初始推送时长大于或者等于目标时长阈值的情况下,对多媒体内容的初始时效信息进行修改,得到多媒体内容的目标时效信息。
近期热门类型的实体对象关联的多媒体内容在内容数据库中的比例高于目标比例阈值。上述目标时长阈值可以是多媒体内容的最长推送时长,例如目标时长阈值为7天。上述目标比例阈值是从实体对象关联的多媒体内容在内容数据库中所占比例的角度评定实体对象热度的阈值,可以是一个百分比。目标时效信息对应的目标推荐时长小于初始时效信息对应的初始推荐时长。
上述近期热门类型可通过实体对象的热度关联数据确定,在一种可能的实施方式中,热度关联数据为实体对象关联的多媒体内容在内容数据库中的比例。上述内容数据库的数据统计范围可以是整个网络中的多媒体内容,比如从整个网络中抓取多媒体内容信息,为每个多媒体内容生成一条数据记录,记录多媒体内容的网络地址、内容类型、关联的实体对象等信息。上述内容数据库的数据统计范围也可以是信息流内容服务中的多媒体内容,也可是信息流内容服务外的多媒体内容。可通过实体对象关联的多媒体内容在内容数据库中的比例与目标比例阈值进行比较表征实体对象的热度,近期热门类型的实体对象关联的多媒体内容在内容数据库中的比例会高于正在热门的实体对象关联的多媒体内容在内容数据库中的比例,因此可以根据实际场景,选定合适的阈值作为目标比例阈值,便可确定实体对象的热度类型以表征实体对象的热度信息。
可选地,将多媒体内容的初始时效信息对应的初始推送时长修改为小于初始推送时长的目标推送时长,得到多媒体内容的目标时效信息。可选地,上述初始时效信息包括时效类型,在多媒体内容为长时效类型的情况下,将多媒体内容的长时效类型修改为中时效类型或者短时效类型,得到多媒体内容的目标时效信息。上述长时效类型、中时效类型、短时效类型分别对应不同的推送时长,例如长时效类型的推送时长为7天、中时效类型的推送时长为4天、短时效类型的推送时长为2天。
可选地,根据初始推送时长与目标时长阈值之间的差值确定多媒体内容的目标推送时长。例如,上述目标推送时长与初始推送时长与目标时长阈值之间的差值具有对应关系,根据目标推送时长与初始推送时长与目标时长阈值之间的差值的对应关系,确定多媒体内容的目标推送时长。可选地,将目标时长阈值作为多媒体内容的目标推送时长。
在一种可能的实施方式中,在实体对象的热度类型为近期热门类型,且初始时效信息对应的初始推送时长大于或者等于目标时长阈值的情况下,根据多媒体内容的类型对初始推送时长进行修改,得到多媒体内容的目标推送时长。可选地,目标推送时长与多媒体内容的类型之间具有对应关系,上述对应关系可以是根据业务场景预先设置好的。例如,多媒体内容的类型是影视综艺类文章,其对应的目标推送时长为2天。
在一种可能的实施方式中,在实体对象的热度类型为近期热门类型,且初始时效信息对应的初始推送时长大于或者等于目标时长阈值的情况下,根据多媒体内容的内容对初始推送时长进行修改,得到多媒体内容的目标推送时长。可选地,目标推送时长与多媒体内容的内容之间具有对应关系,上述对应关系可以是根据业务场景预先设置好的。例如,多媒体内容的内容是影视综艺作品介绍,其对应的目标推送时长为3天。
在一种可能的实施方式中,在实体对象的热度类型为近期热门类型,且初始时效信息对应的初始推送时长大于或者等于目标时长阈值的情况下,将多媒体内容的初始推送时长修改为固定的目标推送时长。
示意性地,通过将实体对象的热度类型标记为近期热门类型,来表征此实体对象的热度已下降,或者此实体对象成为过期热点。与近期热门的实体对象关联的多媒体内容,因其所属品类对应的初始推送时长较长,***往往会按照较长的初始推送时长推送此类多媒体内容,例如剧情解说类的综艺影视文章。但因实体对象已经为近期热门类型,用户便可能会收到关于该实体对象的重复内容或者早已知晓的相关内容,影响用户体验。因此,本申请实施例将近期热门实体对象的长时效多媒体内容的推送时长减短,保证多媒体内容的时效准确性。以影视综艺类文章为例,本申请实施例结合最新的影视综艺作品信息,通过实体识别技术确定影视综艺类文章涉及的影视综艺作品,一定程度上保证了行文比较偏向解说、介绍,但又是近期热门综艺影视作品相关的文章的时效性精准度,避免了这类文章被长期留在推荐侧而造成的用户感知层面的文章过期严重的情况,一定程度提升了用户在时效性方面的体验。
步骤240,根据目标时效信息,推送多媒体内容。
根据目标时效信息对应的目标推送时长,推送多媒体内容。在示意性的应用场景下,例如信息流内容服务中,多媒体内容众多,首先会对多媒体内容进行筛选,确定出推荐的多媒体内容以及不推荐的多媒体内容,上述确定出的推荐的多媒体内容会进入内容推荐库中优先向用户推送。此种情况下,上述目标推送时长也可以理解为推荐的多媒体内容在内容推荐库中的存续时长上限。一旦多媒体内容在内容推荐库中的存续时长,即(累计推送时长),到达存续时长上限,即(目标推送时长),就会将该多媒体内容从内容推荐库中移出,这样便停止推送该多媒体内容,以节省计算资源。
在示例性实施例中,在多媒体内容对应的累计推送时长未到达初始时效信息对应的目标推荐时长的情况下,推送多媒体内容。在多媒体内容对应的累计推送时长到达初始时效信息对应的目标推荐时长的情况下,停止推送多媒体内容。
在一种可能的实施方式中,将多媒体内容添加至内容推荐库中,***便会将内容推荐库中的多媒体内容推送至客户端,在上述累计推送时长到达上述初始推荐时长的情况下,将该多媒体内容从内容推荐库中移出,便实现停止推送多媒体内容。
在另一种可能的实施方式中,对累计推送时长未到达初始推荐时长的多媒体内容进行标记,***向客户端推送标记后的多媒体内容,在累计推送时长到达初始推荐时长的情况下,将该多媒体内容的标记删除,便实现停止推送多媒体内容。
在示例性实施例中,在多媒体内容对应的累计推送时长未到达目标时效信息对应的目标推荐时长的情况下,推送多媒体内容。在多媒体内容对应的累计推送时长到达目标时效信息对应的目标推荐时长的情况下,停止推送多媒体内容。
在一种可能的实施方式中,将多媒体内容添加至内容推荐库中,***便会将内容推荐库中的多媒体内容推送至客户端,在上述累计推送时长到达上述目标推荐时长的情况下,将该多媒体内容从内容推荐库中移出,便实现停止推送多媒体内容。
在另一种可能的实施方式中,对累计推送时长未到达目标推荐时长的多媒体内容进行标记,***向客户端推送标记后的多媒体内容,在累计推送时长到达目标推荐时长的情况下,将该多媒体内容的标记删除,便实现停止推送多媒体内容。
综上所述,本申请实施例提供的技术方案,先确定多媒体内容的时效以及多媒体内容关联的实体对象,再确定多媒体内容关联的实体对象的热度,进而结合多媒体内容的时效以及多媒体内容关联的实体对象的热度,对多媒体内容的时效进行更新,以提升多媒体内容时效的准确性,最终根据更新后的时效推送多媒体内容,以减少信息流中的过期内容,降低服务器运行压力,有效提升资源利用率。
请参考图3,其示出了本申请另一个实施例提供的多媒体内容的推送方法的流程图。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤(310~380)。
步骤310,确定多媒体内容对应的特征向量。
上述特征向量表征多媒体内容的内容特征。
在示例性实施例中,上述步骤310可通过如下步骤(311-314)实现。
步骤311,获取多媒体内容对应的文本信息。
根据多媒体内容的类型,获取多媒体内容的对应的文本信息。
可选地,多媒体内容为文本内容,相应的,上述文本信息包括标题和正文。
步骤312,对文本信息进行分词处理,得到分词结果。
对文本信息中的文本进行分词处理,得到分词结果。上述分词处理用于将输入的文本分为字、词。可选地,上述分词处理的分词粒度可以根据实际应用场景定义,本申请实施例对此不作限制。可选地,通过分词算法实现分词处理,例如,基于词典的规则匹配方法,和基于统计的机器学习方法,本申请实施例对此不作限制。
在多媒体内容为文本内容的情况下,对标题进行分词处理,得到标题分词结果;对正文进行分词处理,得到正文分词结果。
步骤313,确定分词结果中字词对应的字词向量。
根据词向量库中字词与词向量之间的对应关系,确定分词结果中字词对应的字词向量。上述词向量库是由预先训练好的词向量模型生成的。可选地,上述词向量模型为Word2Vec模型,上述Word2Vec模型的训练数据包括信息流内容服务中的文本内容。在一种可能的实时方式中,先利用多媒体内容库里历史存量的100万篇文章,训练Word2Vec模型,生成一版100维的词向量库,词向量库的量级可达200万。
在多媒体内容为文本内容的情况下,确定标题分词结果中字词对应的字词向量;确定正文分词结果中字词对应的字词向量。
步骤314,基于字词对应的字词向量,确定多媒体内容对应的特征向量。
在一种可能的实施方式中,对字词向量进行累加处理,得到累加后的字词向量;对累加后的字词向量进行归一化处理,得到多媒体内容对应的特征向量。
在多媒体内容为文本内容的情况下,对标题分词结果中字词对应的字词向量进行累加处理,得到累加后的字词向量;对累加后的字词向量进行归一化处理,得到标题字词向量;对正文分词结果中字词对应的字词向量进行累加处理,得到累加后的字词向量;对累加后的字词向量进行归一化处理,得到正文字词向量;将标题字词向量与正文字词向量进行拼接,组成文本内容特征向量。
可选地,上述归一化处理是指将累加后的字词向量中各维度的数据映射到 0~1范围内或者-1~1范围内。例如,获取累加后的字词向量中的最大值以及最小值,将各维度上的向量值和最小值的差与最大值和最小值的差相除,得到各维度上归一化的向量值,进而完成归一化处理。
步骤320,将多媒体内容对应的特征向量输入至时效分类模型中,通过时效分类模型输出多媒体内容的初始时效信息。
可选地,上述时效分类模型是预先训练好的机器学习模型。可选地,上述时效分类模型的训练数据为标注好的多媒体内容对应的特征向量,上述多媒体内容可以是信息流内容服务中的历史多媒体内容,多媒体内容应的特征向量的生成过程可以参考上文,这里不再赘述。上述多媒体内容对应的特征向量的标签信息可以是多媒体内容的时效信息,例如时效类型或者目标推荐时长,基于已标注的多媒体内容对应的特征向量训练上述时效分类模型。
在一种可能的实施方式中,上述时效分类模型为二分类模型,上述多媒体内容对应的特征向量的标签为多媒体内容的时效类型,包括长时效类型、短时效类型。可选地,时效分类模型为Xgboost模型,Xgboost是一个优化的分布式梯度增强库,通过Xgboost模型能够更加准确的确定多媒体内容的时效类型。可选地,时效分类模型为逻辑回归(LogisticRegression,LR)模型。可选地,时效分类模型为支持向量机(Support Vector Machine,SVM)。
将多媒体内容对应的特征向量输入至时效分类模型中,通过时效分类模型输出多媒体内容的时效类型,或者目标推荐时长。
在示例性实施例中,上一实施例中的步骤210可通过上述步骤310-320实现。
步骤330,对多媒体内容进行信息提取处理,得到多媒体内容的特征信息。
可选地,根据多媒体内容的形式,确定信息提取处理的方式,进而对多媒体内容进行与多媒体内容形式对应的信息提取处理,得到多媒体内容的特征信息。
在一种可能的实施方式中,多媒体内容为文本内容,例如文章,与文本内容对应的信息提取处理可以是分词处理、关键词提取处理或者基于正则表达式的提取处理,通过上述信息提取处理方式得到文本内容的特征信息,例如文本内容中的关键词。
在一种可能的实施方式中,多媒体内容为图像内容,例如图片、视频,与图像内容对应的信息提取处理可以是图像识别处理、图像特征提取、图像文字识别、图像属性信息提取等处理,通过上述信息提取处理方式得到图像内容的特征信息,例如图像内容中的关键帧图像、人物、物体、建筑及文字信息等。
在一种可能的实施方式中,多媒体内容为音频内容,例如歌曲、录音,与音频内容对应的信息提取处理可以是音频识别处理、音频转换文字处理等处理,通过上述信息提取处理方式得到音频内容的特征信息,例如音频内容对应的文字信息等。
在示例性实施例中,对多媒体内容进行关键词提取处理,得到多媒体内容对应的关键词。
获取多媒体内容对应的文本信息。获取多媒体内容对应的文本信息的方式参见上文,这里不再赘述。
对文本信息进行关键词提取处理,得到多媒体内容对应的关键词。
在示例性实施例中,确定多媒体内容对应的文本信息中至少一个词语的权重信息;基于至少一个词语的权重信息,确定多媒体内容对应的关键词。
权重信息反映词语在文本信息中的重要程度。可选地,权重信息包括权重值,上述权重值与词语在正文内容中的重要程度呈正相关。可选地,权重信息包括词语之间的关联程度,关联程度与词语在正文内容中的重要程度呈正相关。
在示例性实施例中,多媒体内容对应的关键词包括标题关键词和正文关键词,标题关键词和正文关键词可通过如下方式得到。
获取多媒体内容对应的文本信息中的标题内容和正文内容。
对标题内容进行正则提取处理,得到标题关键词。上述正则提取处理是指基于通过正则表达式从字符串中获取特定部分的关键词的处理。在一种可能的实施方式中,由于标题文字内容较少,可通过正则表达式,从字符串中获取特定部分的关键词。例如,模式(pattern)1=(近期上映|近期热映|即将上映|马上呈现|精彩呈现|正在热播)的XXXX,模式2=‘《XXXX》’等,其中XXXX便是正则表达式想要获取的特定部分的关键词。通过正则表达式将比较明显的,方便提取的一些关键词提取出来作为备用,这些关键词可能会反映多媒体内容关联的实体对象。
确定正文内容中至少一个词语的权重信息。权重信息反映词语在正文内容中的重要程度。
基于至少一个词语的权重信息,确定正文关键词。
在一种可能的实施方式中,多媒体内容为文本内容,内容作者在行文、构建内容的过程中,通常是变化万千,不容易通过统一规整的策略来提取干净的关键词。此种情况下,可通过以文本内容主题识别为基础的关键词提取处理,例如TextRank算法,来提取正文的关键词。
可选地,对标题关键词以及正文关键词进行筛选,得到筛选后的关键词。
在一种可能的实时方式中,筛选的方式为将标题关键词以及正文关键词与预设关键词进行比较,保留标题关键词以及正文关键词中与预设关键词相似或者相同的字词,得到筛选后的关键词。
步骤340,根据多媒体内容的特征信息,确定多媒体内容关联的实体对象。
在示例性实施例中,根据多媒体内容对应的关键词,确定多媒体内容关联的实体对象。
在示例性实施例中,本申请实施例还包括如下步骤。
步骤390,获取实体对象信息。
上述实体对象信息包括实体对象标识以及与实体对象关联的特征信息,例如实体对象名称、实体对象简称或者与实体对象关联的特征词等特征信息。
在一种可能的实施方式中,可从外部的某些专业网站中定时收集实体对象信息,对收集到的实体对象信息做数据整合规范化处理,得到实体对象信息表,如表1所示。图1所示的实体对象信息表仅是示意性的,表中具体内容可根据实际场景制定,本申请实施例对此不作限定。在一个示例中,如图4所示,其示例性示出了一种实体对象的展示页面示意图。其中,实体对象41为影视作品,实体对象名称为影视作品名称42。
表1
实体对象名称 别名/又名 时间
热XXXX团 XXXXX 2020/X1/13
风XXX静 重XXX码头 202X/11/06
热XXXXX家 XXXXXX驶员 2020/11/XX
根据多媒体内容的特征信息以及实体对象信息,确定多媒体内容关联的实体对象。将多媒体内容的特征信息与实体对象的实体对象信息进行匹配,若匹配,则确定该实体对象为该多媒体内容的关联的实体对象。可选地,多媒体内容关联的实体对象的数量可以是一个,也可以是多个。
可选地,基于筛选后的关键词,确定多媒体内容关联的实体对象。
将筛选后的关键词与各实体对象的实体对象信息中的关键词进行匹配,若匹配成功,则可确定多媒体内容关联的实体对象。
在示例性实施例中,上一实施例中的步骤220可通过上述步骤330-340实现。
步骤350,获取实体对象的热度关联数据。
可选地,获取实体对象的至少一种热度关联数据,例如与实体对象关联的多媒体内容的数量、曝光率、点击率、赞赏率、浏览量等热度关联数据。
在示例性实施例中,上述步骤350可通过如下步骤(351-353)实现。
步骤351,获取目标时段内进入内容推荐库的多媒体内容中与实体对象关联的多媒体内容的数量。
步骤352,获取目标时段内进入内容推荐库的多媒体内容的总量。
步骤353,根据实体对象关联的多媒体内容的数量,以及多媒体内容的总量,确定实体对象的热度关联数据。
将实体对象关联的多媒体内容在内容数据库中的比例,作为实体对象的热度关联数据,反映目标时段内实体对象关联的多媒体内容在内容数据库中的数量占比,通过上述数量占比可反映实体对象的热度信息。
步骤360,基于实体对象的热度关联数据以及热度关联数据对应的热度阈值条件,确定实体对象的热度信息。
若实体对象关联的多媒体内容在内容数据库中的比例大于或者等于目标比例阈值,则确定实体对象的热度类型为近期热门类型。
可通过将热度关联数据与热度关联数据对应的热度阈值条件中的热度阈值进行比较,根据比较结果确定实体对象的热度信息,例如实体对象的热度类型。
可选地,上述热度关联数据包括与实体对象关联的多媒体内容的数量、曝光率、点击率、赞赏率、浏览量等热度关联数据;相应的,热度阈值条件包括与实体对象关联的多媒体内容的数量达到数量阈值、曝光率达到曝光率阈值、点击率达到点击率阈值、赞赏率达到赞赏率阈值、浏览量达到浏览量阈值等热度阈值条件。
在示例性实施例中,上一实施例中的步骤230可通过如上步骤350-360实现。
在一种可能的实施方式中,上述多媒体内容是实时进入内容推荐库的多媒体内容,上述实体对象的热度信息可以存于上述实体对象信息表中,上述步骤 350-360可以提前执行,确定出实体对象信息表中各实体对象的热度信息,并且可对实体对象信息表中各实体对象的热度信息进行更新,这样在识别出多媒体内容的实体对象之后,可以立即获取实体对象的热度信息,无需再行计算,提升运行速度。
步骤370,基于实体对象的热度信息与多媒体内容的初始时效信息,确定多媒体内容的目标时效信息。
可选地,热度信息符合预设热度条件的实体对象属于近期热门类型。可选地,时效信息符合预设时效条件的多媒体内容属于长时效类型。在多媒体内容为长时效类型,且多媒体内容关联的实体对象属于近期热门的热度类型的情况下,将该多媒体内容的时效类型由长时效类型,改为中时效类型或者短时效类型,或者减短该多媒体内容的目标推送时长。
步骤380,根据目标时效信息,推送多媒体内容。
对于步骤370、380的解释说明可参照上一实施例中的介绍,这里不再赘述。
综上所述,本申请实施例提供的技术方案,通过一个时效分类模型确定多媒体内容的时效,通过信息提取处理提取出与多媒体内容关联的实体对象,再结合实体对象的热度更新多媒体内容的时效,将已经确定为长时效的多媒体内容的时效修正为中短时效,避免此类多媒体内容在信息流服务中长期被推送,影响用户体验,提升多媒体内容时效的准确性,减少了信息流中的过期内容,降低服务器运行压力,有效提升资源利用率。
下面,结合具体的场景对本申请提供的方法进行说明。本申请提供的实施例能够实现信息流内容服务场景下,通过识别的实体对象与外部影视综艺作品库匹配,来解决影视综艺类文章的时效性过期问题,将推荐池就(即内容推荐库)中过期的影视综艺类文章识别出来及时下架,优化用户体验。区别于传统的依据关键词、日期等方式的时效性识别策略,用时效分类模型、实体识别、影视作品库匹配等策略,将文章打上恰当的时效结果。
总体来说,先通过一个时效分类模型将文章打上短时效或长时效的结果,再通过实体识别策略挖掘文章关联的影视综艺作品,再通过实体和外部影视综艺作品库的匹配来召回已经被打成长时效的影视综艺类文章,将其修正为中短时效文章,避免此类文章在推荐侧长期被推荐,影响用户体验。以下为具体说明。
1、获取目标文章的文章内容。目标文章是实时进入内容推荐库的文章。
在一个实例中,如图5所示,其示例性示出了确定文章时效的流程示意图。图5中示出了下述步骤2-5的简要流程。
2、对标题进行分词处理,得到标题分词结果;确定标题分词结果中字词对应的字词向量;对标题分词结果中字词对应的字词向量进行累加处理,得到累加后的字词向量;对累加后的字词向量进行归一化处理,得到标题字词向量。
3、对正文进行分词处理,得到正文分词结果;确定正文分词结果中字词对应的字词向量;对正文分词结果中字词对应的字词向量进行累加处理,得到累加后的字词向量;对累加后的字词向量进行归一化处理,得到正文字词向量。
4、将标题字词向量与正文字词向量进行拼接,组成目标文章对应的文章特征向量。
5、将文章特征向量输入至长/短时效分类模型中,通过长/短时效分类模型输出目标文章的时效类型。可选地,时效类型包括长时效类型和短时效类型。可选地,长/短时效分类模型为二分类模型。
在一个示例中,如图6所示,其示例性示出了确定文章关联的综艺影视作品的示意图。图6中示出了下述步骤6-9的简要流程。
6、对目标文章的标题进行正则提取处理,得到标题关键词。
7、对目标文章的正文进行关键词提取处理,得到正文关键词。
8、对标题关键词以及正文关键词进行筛选,得到筛选后的关键词。
9、基于筛选后的关键词,确定目标文章关联的目标影视综艺作品。
10、统计目标时段内进入内容推荐库的影视综艺类文章的总量N,N为正整数。
11、统计目标时段内进入内容推荐库的影视综艺类文章中与目标影视综艺作品关联的文章的数量M,M为正整数。可选地,目标时段为近一个月。
12、若M/N大于或者等于目标比例阈值,则确定目标影视综艺作品为近期热门的影视综艺作品。可选地,目标比例阈值为0.02。上述确定目标影视综艺作品的热度类型的过程可以提前执行,目标影视综艺作品的热度信息可以记录在外部影视综艺作品库中并更新,以便直接取用。
13、在目标文章关联的目标影视综艺作品为近期热门的影视综艺作品,且目标文章为长时效类型的情况下,将目标文章的时效类型改为短时效类型。
综上所述,本申请实施例提供的技术方案,通过一个长/短时效分类模型确定影视综艺类文章的时效,通过信息提取处理提取出与影视综艺类文章关联的影视综艺作品,再结合影视综艺作品的热度更新影视综艺类文章的时效,将已经确定为长时效的影视综艺类文章的时效修正为中短时效,避免此类过期的影视综艺类文章在信息流服务中长期被推送,影响用户体验,提升影视综艺类文章时效的准确性,减少了信息流中的过期内容,降低服务器运行压力,有效提升资源利用率。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图7,其示出了本申请一个实施例提供的多媒体内容的推送装置的框图。该装置具有实现上述多媒体内容的推送方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置700可以包括:实体对象确定模块710、热度信息获取模块720、时效信息确定模块730以及内容推送模块740。
实体对象确定模块710,用于确定多媒体内容关联的实体对象。
热度信息获取模块720,用于获取所述实体对象的热度信息。
时效信息确定模块730,用于基于所述实体对象的热度信息,确定所述多媒体内容的目标时效信息。
内容推送模块740,用于根据所述目标时效信息,推送所述多媒体内容。
在示例性实施例中,所述装置还包括:初始时效获取模块。
初始时效获取模块,用于获取所述多媒体内容的初始时效信息;
所述热度信息包括热度类型,所述时效信息确定模块740用于:
在所述实体对象的热度类型为近期热门类型,且所述初始时效信息对应的目标推送时长大于或者等于目标时长阈值情况下,对所述多媒体内容的初始时效信息进行修改,得到所述多媒体内容的目标时效信息,所述近期热门类型的实体对象关联的多媒体内容在内容推荐库中的比例大于或者等于目标比例阈值,所述目标时效信息对应的目标推荐时长小于所述初始时效信息对应的初始推荐时长。
在示例性实施例中,所述初始时效获取模块,用于:
获取所述多媒体内容对应的文本信息;
对所述文本信息进行分词处理,得到分词结果;
确定所述分词结果中字词对应的字词向量;
基于所述字词对应的字词向量,确定所述多媒体内容对应的特征向量;
将所述多媒体内容对应的特征向量输入至时效分类模型中,通过所述时效分类模型输出所述多媒体内容的初始时效信息。
在示例性实施例中,所述内容推送模块750,用于:
在所述多媒体内容对应的累计推送时长未到达所述目标时效信息对应的目标推荐时长的情况下,推送所述多媒体内容;
在所述多媒体内容对应的累计推送时长到达所述目标时效信息对应的目标推荐时长的情况下,停止推送所述多媒体内容。
在示例性实施例中,所述热度信息获取模块730,用于:
获取所述实体对象的热度关联数据;
基于所述实体对象的热度关联数据以及所述热度关联数据对应的热度阈值条件,确定所述实体对象的热度信息。
在示例性实施例中,所述热度信息获取模块730包括:数量获取单元、总量获取单元以及数据确定单元。
数量获取单元,用于获取目标时段内进入内容推荐库的多媒体内容中与所述实体对象关联的多媒体内容的数量。
总量获取单元,用于获取所述目标时段内进入所述内容推荐库的多媒体内容的总量。
数据确定单元,用于根据所述实体对象关联的多媒体内容的数量,以及所述多媒体内容的总量,确定所述实体对象的热度关联数据。
在示例性实施例中,所述实体对象确定模块720包括:关键词提取单元以及实体对象确定单元。
关键词提取单元,用于对所述多媒体内容进行关键词提取处理,得到所述多媒体内容对应的关键词。
实体对象确定单元,用于根据所述多媒体内容对应的关键词,确定所述多媒体内容关联的实体对象。
在示例性实施例中,所述关键词提取单元包括:权重确定子单元以及关键词确定子单元。
权重确定子单元,用于确定所述多媒体内容对应的文本信息中至少一个词语的权重信息,所述权重信息反映所述词语在所述文本信息中的重要程度。
关键词确定子单元,用于基于所述至少一个词语的权重信息,确定所述多媒体内容对应的关键词。
在示例性实施例中,所述多媒体内容对应的关键词包括标题关键词和正文关键词,所述关键词提取单元还包括:内容获取子单元以及关键词提取子单元。
内容获取子单元,用于获取所述多媒体内容对应的文本信息中的标题内容和正文内容。
关键词提取子单元,用于对所述标题信息进行正则提取处理,得到所述标题关键词。
所述权重确定子单元,还用于确定所述正文内容中至少一个词语的权重信息,所述权重信息反映所述词语在所述正文内容中的重要程度。
所述关键词确定子单元,还用于基于所述至少一个词语的权重信息,确定所述正文关键词。
综上所述,本申请实施例提供的技术方案,先确定多媒体内容的时效以及多媒体内容关联的实体对象,再确定多媒体内容关联的实体对象的热度,进而结合多媒体内容的时效以及多媒体内容关联的实体对象的热度,对多媒体内容的时效进行更新,以提升多媒体内容时效的准确性,最终根据更新后的时效推送多媒体内容,以减少信息流中的过期内容,降低服务器运行压力,有效提升资源利用率。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述多媒体内容的推送方法。具体来讲:
计算机设备800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器(Random Access Memory,RAM)802和只读存储器(Read Only Memory,ROM)803的***存储器804,以及连接***存储器804和中央处理单元801的***总线805。计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O(Input/Output)***)806,和用于存储操作***813、应用程序814和其他程序模块812的大容量存储设备807。
基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,大容量存储设备807可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在***总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述多媒体内容的推送方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述多媒体内容的推送方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述多媒体内容的推送方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种多媒体内容的推送方法,其特征在于,所述方法包括:
确定多媒体内容关联的实体对象;
获取所述实体对象的热度信息;
基于所述实体对象的热度信息,确定所述多媒体内容的目标时效信息;
根据所述目标时效信息,推送所述多媒体内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述多媒体内容的初始时效信息;
所述热度信息包括热度类型,所述基于所述实体对象的热度信息,确定所述多媒体内容的目标时效信息,包括:
在所述实体对象的热度类型为近期热门类型,且所述初始时效信息对应的初始推送时长大于或者等于目标时长阈值的情况下,对所述多媒体内容的初始时效信息进行修改,得到所述多媒体内容的目标时效信息,所述近期热门类型的实体对象关联的多媒体内容在内容数据库中的比例大于或者等于目标比例阈值,所述目标时效信息对应的目标推荐时长小于所述初始时效信息对应的初始推荐时长。
3.根据权利要求2所述的方法,其特征在于,所述获取所述多媒体内容的初始时效信息,包括:
获取所述多媒体内容对应的文本信息;
对所述文本信息进行分词处理,得到分词结果;
确定所述分词结果中字词对应的字词向量;
基于所述字词对应的字词向量,确定所述多媒体内容对应的特征向量;
将所述多媒体内容对应的特征向量输入至时效分类模型中,通过所述时效分类模型确定所述多媒体内容的初始时效信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标时效信息,推送所述多媒体内容,包括:
在所述多媒体内容对应的累计推送时长未到达所述目标时效信息对应的目标推荐时长的情况下,推送所述多媒体内容;
在所述多媒体内容对应的累计推送时长到达所述目标时效信息对应的目标推荐时长的情况下,停止推送所述多媒体内容。
5.根据权利要求1所述的方法,其特征在于,所述获取所述实体对象的热度信息,包括:
获取所述实体对象的热度关联数据;
基于所述实体对象的热度关联数据以及所述热度关联数据对应的热度阈值条件,确定所述实体对象的热度信息。
6.根据权利要求5所述的方法,其特征在于,所述获取所述实体对象的热度关联数据,包括:
获取目标时段内进入内容推荐库的多媒体内容中与所述实体对象关联的多媒体内容的数量;
获取所述目标时段内进入所述内容推荐库的多媒体内容的总量;
根据所述实体对象关联的多媒体内容的数量,以及所述多媒体内容的总量,确定所述实体对象的热度关联数据。
7.根据权利要求1所述的方法,其特征在于,所述确定多媒体内容关联的实体对象,包括:
对所述多媒体内容进行关键词提取处理,得到所述多媒体内容对应的关键词;
根据所述多媒体内容对应的关键词,确定所述多媒体内容关联的实体对象。
8.根据权利要求7所述的方法,其特征在于,所述对所述多媒体内容进行关键词提取处理,得到所述多媒体内容对应的关键词,包括:
确定所述多媒体内容对应的文本信息中至少一个词语的权重信息,所述权重信息反映所述词语在所述文本信息中的重要程度;
基于所述至少一个词语的权重信息,确定所述多媒体内容对应的关键词。
9.根据权利要求7所述的方法,其特征在于,所述多媒体内容对应的关键词包括标题关键词和正文关键词,所述对所述多媒体内容进行关键词提取处理,得到所述多媒体内容对应的关键词,还包括:
获取所述多媒体内容对应的文本信息中的标题内容和正文内容;
对所述标题内容进行正则提取处理,得到所述标题关键词;
确定所述正文内容中至少一个词语的权重信息,所述权重信息反映所述词语在所述正文内容中的重要程度;
基于所述至少一个词语的权重信息,确定所述正文关键词。
10.一种多媒体内容的推送装置,其特征在于,所述装置包括:
实体对象确定模块,用于确定多媒体内容关联的实体对象;
热度信息获取模块,用于获取所述实体对象的热度信息;
时效信息确定模块,用于基于所述实体对象的热度信息,确定所述多媒体内容的目标时效信息;
内容推送模块,用于根据所述目标时效信息,推送所述多媒体内容。
CN202110303386.3A 2021-03-22 2021-03-22 多媒体内容的推送方法及装置 Pending CN115114460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110303386.3A CN115114460A (zh) 2021-03-22 2021-03-22 多媒体内容的推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110303386.3A CN115114460A (zh) 2021-03-22 2021-03-22 多媒体内容的推送方法及装置

Publications (1)

Publication Number Publication Date
CN115114460A true CN115114460A (zh) 2022-09-27

Family

ID=83323142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110303386.3A Pending CN115114460A (zh) 2021-03-22 2021-03-22 多媒体内容的推送方法及装置

Country Status (1)

Country Link
CN (1) CN115114460A (zh)

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
Kaur et al. Comparative analysis on cross-modal information retrieval: A review
Li et al. Visual to text: Survey of image and video captioning
Chen et al. Using social media images as data in social science research
US10380249B2 (en) Predicting future trending topics
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
Shah et al. Multimodal analysis of user-generated multimedia content
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
Tariq et al. A context-driven extractive framework for generating realistic image descriptions
CN111444357A (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN112015928B (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
WO2023108993A1 (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Pereira et al. SAPTE: A multimedia information system to support the discourse analysis and information retrieval of television programs
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN112989167B (zh) 搬运账号的识别方法、装置、设备及计算机可读存储介质
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及***
Das A multimodal approach to sarcasm detection on social media
CN116051192A (zh) 处理数据的方法和装置
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN117648504A (zh) 媒体资源序列的生成方法、装置、计算机设备和存储介质
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及***
Yu et al. TCR: Short Video Title Generation and Cover Selection with Attention Refinement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination