CN110020110B - 媒体内容推荐方法、装置及存储介质 - Google Patents

媒体内容推荐方法、装置及存储介质 Download PDF

Info

Publication number
CN110020110B
CN110020110B CN201710831497.5A CN201710831497A CN110020110B CN 110020110 B CN110020110 B CN 110020110B CN 201710831497 A CN201710831497 A CN 201710831497A CN 110020110 B CN110020110 B CN 110020110B
Authority
CN
China
Prior art keywords
media content
data
word
feature
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710831497.5A
Other languages
English (en)
Other versions
CN110020110A (zh
Inventor
李会珠
卫磊
花贵春
张宏志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201710831497.5A priority Critical patent/CN110020110B/zh
Publication of CN110020110A publication Critical patent/CN110020110A/zh
Application granted granted Critical
Publication of CN110020110B publication Critical patent/CN110020110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种媒体内容推荐方法,包括:针对一个类别下的任一个候选媒体内容,执行如下处理:获取该媒体内容中的文本内容;根据该媒体内容的文本内容及质量分析模型确定该媒体内容在所述类别下的质量评分数据,所述质量分析模型由所述类别下的样本媒体内容确定,所述样本媒体内容的的投放数据满足预定条件;根据该媒体内容的所述质量评分数据确定该媒体内容在所述类别下的推荐度;根据所述类别下多个候选媒体内容的所述推荐度,确定待投放的媒体内容。本申请还提出了相应的装置及存储介质。

Description

媒体内容推荐方法、装置及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及媒体内容推荐方法、装置及存储介质。
背景技术
随着互联网技术的发展,人们在互联网上进行的活动越来越多,不仅是简单的浏览网页,还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及,网络数据量不断增长,在给网络用户获取信息带来便利的同时也造成了信息过载问题,如何在海量的数据中快速有效地查找定位到需要的信息成为当前互联网发展中的突出问题,也是网络信息检索研究的热点。例如,面对每天与日剧增的媒体内容的数量,如何使得更优质的媒体内容最快触达其目标用户,在解决该问题时,优质媒体内容的挖掘也是非常关键的一点。
发明内容
本申请实例提供了一种媒体内容推荐方法,包括:
针对一个类别下的任一个候选媒体内容,执行如下处理:
获取该媒体内容中的文本内容;
根据该媒体内容的文本内容及质量分析模型确定该媒体内容在所述类别下的质量评分数据,所述质量分析模型由所述类别下的样本媒体内容确定,所述样本媒体内容的投放数据满足预定条件;
根据该媒体内容的所述质量评分数据确定该媒体内容在所述类别下的推荐度;根据所述类别下多个候选媒体内容的所述推荐度,确定待投放的媒体内容。
本申请一实例还提供了一种媒体内容推荐装置,包括:
评测单元,用以针对一个类别下的任一个候选媒体内容,执行如下处理:
获取该媒体内容中的文本内容;
根据该媒体内容的文本内容及质量分析模型确定该媒体内容在所述类别下的质量评分数据,所述质量分析模型由所述类别下的样本媒体内容确定,所述样本媒体内容的投放数据满足预定条件;及
根据该媒体内容的所述质量评分数据确定该媒体内容在所述类别下的推荐度;
推荐单元,用以根据所述类别下多个候选媒体内容的所述推荐度,确定待投放的媒体内容。
本申请一实例还提供了一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如上述所述的方法。
采用本申请提供的上述方案,通过媒体内容的文本内容评测媒体内容并进行推荐,确定的媒体内容的推荐度更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实例涉及的***构架图;
图2是本申请一实例媒体内容推荐方法的流程图;
图3是本申请一实例媒体内容推荐的页面示意图;
图4是本申请一实例文章推荐方法的详细流程图;
图5是本申请一实例媒体内容推荐装置的结构示意图;以及
图6为本申请实例中的计算设备组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提出了一种媒体内容推荐方法、装置及存储介质,可应用于图1所示的***构架中。如图1所示,该***构架包括:应用(APP)客户端101、应用服务器102、投放数据库103及推送信息提供方客户端104,其中,应用客户端101与应用服务器102之间通过互联网连接,推送信息提供方客户端104与应用服务器102之间通过互联网连接。
终端用户可以使用应用客户端101访问应用服务器102,比如:浏览新闻或者文章等。当用户使用应用客户端101访问应用服务器102时,例如向应用服务器102请求页面数据时,应用服务器102确定待投放的媒体内容,并将待投放媒体内容的链接发送给应用客户端101,以在应用客户端101展示的页面上展示。当终端用户点击所述页面上一媒体内容的链接以浏览该媒体内容时,客户端101同时将用户访问该媒体内容的行为发送给应用服务器102,应用服务器102将媒体内容对应的点击数据保存在投放数据库103中,同时还将媒体内容的曝光数据保存在投放数据库103中,媒体内容的投放数据包括,例如,媒体内容的曝光量、点击量、用户对媒体内容的点赞量、收藏量等。应用服务器102可以分析投放数据库103中媒体内容的投放情况,来指导媒体内容的投放,例如,根据媒体内容的投放数据挖掘出优质媒体内容,将挖掘出的优质媒体内容进行投放。通过推送信息提供方客户端104,推送信息提供方可以将其要推送的媒体内容的素材上传到应用服务器102,以生成相应的用于投放的媒体内容。
当上述媒体内容为新闻时,图1所示的***构架可以为实现新闻投放的***构架,推送信息提供方可以为新闻发布者,应用客户端101为新闻客户端或浏览器,应用服务器102为新闻服务器。当终端用户使用应用客户端101访问新闻服务器时,新闻服务器可以根据投放过的新闻的投放数据挖掘出优质的新闻文章,将该优质新闻文章的链接发送给应用客户端101,应用客户端101将该链接以文字或图片的形式展示在页面上,当用户点击所述文字或图片时,新闻客户端展示对应新闻的全部内容。
当挖掘优质媒体内容推荐给用户时,例如,当媒体内容为文章或新闻时,针对某一领域的专业文章,如科技、财经类文章,由于其专业性,非业内人士比较难评价其文章质量的好坏,而如果组织人力对该类文章的质量进行评测,则需要耗费非常高的人力资源和成本。在一些实例中,通过文章的作者、来源渠道、段落结构、图文配比等特定规则来评价文章质量。在该实例中,对于一般意义上的普通类型文章,评价门槛相对较低,固定规则相对能适用,但是对于专业门槛较高的文章,其文章质量与文章主体内容较为密切,而与段落结构、图文配比等相关性较低,固定规则的评价方案对于专业门槛较高的媒体内容效果不好。对于专业门槛较高的媒体内容的质量评价,组织专业的人员进行评价则资源和成本又消耗太高。
为解决以上技术问题,本申请提出了一种媒体内容推荐方法,应用于应用服务器102,如图2所示,该方法包括以下步骤:
201:针对一个类别下的任一个候选媒体内容,执行如下处理:
获取该媒体内容中的文本内容。
当对一个媒体内容进行评测时,通过获取的质量分析模型对媒体内容进行评测,该质量分析模型体现的是某一类别下的优质媒体内容的文本内容的结构特征,通过该质量分析模型对一个媒体内容进行评测时,评测的是该媒体内容文本内容维度上的质量。首先获取该媒体内容中的文本内容,例如,当所述媒体内容为新闻时,首先获取新闻除去图片的文本内容。
202:根据该媒体内容的文本内容及质量分析模型确定该媒体内容在所述类别下的质量评分数据,所述质量分析模型由所述类别下的样本媒体内容确定,所述样本媒体内容的的投放数据满足预定条件。
将媒体内容的文本内容进行分段,在对文本进行分段前,先对文本进行预处理,除去一些停用词,包括标点、数字、单字和其它一些无意义的词等。之后对文本内容进行分段,在分段的时候以标点符号进行分段,可以以标点符号中的逗号作为分段的间隔,质量分析模型能够刻画一专业类的媒体内容对应的复杂结构特征,质量分析模型体现的是某一类别下的优质媒体内容的文本内容的结构特征,质量分析模型由一类别下的优质媒体内容训练得到,该类别下的优质媒体的投放数据满足预定条件。所述媒体内容进行分段后得到多个分段单元,质量分析模型对每个分段单元进行评测,得到各个分段单元对应的质量评分数据,各分段单元对应的质量评分数据表征各分段单元与样本媒体内容的训练样本的相关性。
203:根据该媒体内容的所述质量评分数据确定该媒体内容在所述类别下的推荐度。
根据媒体内容的各分段单元对应的质量评分数据,确定媒体内容的质量评分,媒体内容的质量评分表征媒体内容与所述类别下的优质媒体内容的相关性。根据确定的媒体内容的质量评分确定所述媒体内容在所述类别下的推荐度。其中,推荐度越高,该媒体内容与优质媒体内容在文本内容方面的相关性越高。
204:根据所述类别下多个候选媒体内容的所述推荐度,确定待投放的媒体内容。
训练获得质量分析模型及通过模型确定媒体内容在所述类别下的推荐度的过程为离线过程,通过质量分析模型确定一个媒体内容的推荐度后,将媒体内容的推荐度保存在投放数据库103中,以便后续媒体内容推荐时使用。当应用服务器102接收到所述类别的页面数据请求时,根据多个候选媒体内容的推荐度确定待投放的媒体内容,例如,可以将所述多个候选媒体内容按照其推荐度进行排序,选取排序靠前的N个媒体内容作为待投放的媒体内容,也可以将推荐度超过某一预设阈值的候选媒体内容作为待投放媒体内容。所述候选媒体内容的获取可以通过一些筛选维度进行筛选获得,例如,对于新闻来说,将作者排名作为一个筛选维度进行筛选获得所述候选媒体内容。应用服务器102确定待投放的媒体内容后,将媒体内容的链接发送给客户端,从而在客户端的对应页面上展示,同时可以将所述待投放媒体内容的排序发送给客户端,使得客户端在展示所述媒体内容时,按照所述排序展示对应的媒体内容。例如,当所述媒体内容为新闻时,当所述类别为科技时,如图3所示,当终端用户在客户端上点击科技类别控件301时,向应用服务器102发送科技类别新闻页面数据的请求,应用服务器102确定待投放的科技新闻及各科技新闻的排序,将待投放的科技新闻的链接(链接可以为文章或图片的形式)及所述排序发送给客户端,客户端按照排序展示各科技新闻,如图3所示,按顺序展示多篇科技新闻的链接302。
采用本申请提供的媒体内容推荐方法,选取某一类别的优质媒体内容作为训练样本媒体内容,输入深度学习框架进行训练,得到进行自然语言处理的质量分析模型。获得的该质量分析模型可以刻画所述类别的优质媒体内容的文本的复杂结构特征,使用该质量分析模型对媒体内容进行评测,评测媒体内容与所述类别下的优质媒体内容在文本内容方面的相关性,即确定媒体内容在所述类别下的推荐度,并基于媒体内容的推荐度确定待投放的媒体内容。本申请提供的媒体内容推荐方法基于文本内容方面对媒体内容进行评测,确定的媒体内容的推荐度更准确,实现向用户推荐优质的媒体内容,同时基于训练得到质量分析模型自动对媒体内容进行评测,节省了人力,提高了效率。
在一些实例中,其中,由所述类别下的样本媒体内容确定所述质量分析模型包括以下步骤:
S201:根据所述类别下的样本媒体内容,获取多个训练样本。
从已投放的媒体内容中获取一个类别下的样本媒体内容,所述样本媒体内容包括所述类别下的投放数据满足预定条件的媒体内容。本申请通过选取专业类的优质媒体内容输入深度学习框架进行训练,学习既有的专业优质媒体内容的内容特征,获得模型,使用训练出的模型对待评测媒体内容进行评测,从而挖掘出优质的媒体内容推荐给用户。因而选取的样本媒体内容为一个类别下的优质媒体内容,在选取一个类别下的优质媒体内容时,应用服务器102可以在投放数据库103中选取所述类别下的投放数据满足预定条件的媒体内容作为所述样本媒体内容,例如,将投放数据库103中的投放过的媒体内容按照媒体内容的曝光点击比对媒体内容进行排序,取排序靠前的Top30%的媒体内容,作为所述样本媒体内容。此外,在通过投放数据选取样本媒体内容的基础上,还可以增加其他的筛选维度(例如,媒体内容的作者,媒体内容的来源渠道等)来筛选所述样本媒体内容。例如,通过投放数据与作者排序的组合来选取样本媒体内容,例如,当所述媒体内容为文章时,选出所述类别下企鹅号作者排序靠前的Top 30%,其中企鹅号排序综合了其认证来源、粉丝量、发文阅读量、发文曝光点击量等多方面因素。其次分别获取上述Top30%企鹅号作者的最近发文列表,考虑到文章的时效性属性,这里可以截取最近一周时间内的文章,最后按照曝光点击比对文章进行排序,取排序靠前的Top30%文章,作为该专业类的样本文章,用来训练模型。此外,可以通过投放数据及媒体内容来源来选取所述样本媒体内容,例如,当媒体内容为文章时,筛选专业领域内认证机构的发表文章,并从中选出数据表现优异的文章,如曝光点击比超过某个特定阈值的文章作为样本文章。在选取样本媒体内容时,按照不同的类别进行区分,不同类别的媒体内容不能交叉。
所述样本媒体内容的个数为多个,样本媒体内容的一部分作为训练样本媒体内容,一部分作为测试样本媒体内容,训练样本媒体内容用以训练形成质量分析模型,测试样本媒体内容可以用以检测形成的模型的质量,同时也可以在后续的确定的媒体内容的推荐度时使用。针对每一个训练样本媒体内容,获取该训练样本媒体内容的文本内容,例如,对于新闻来说,获取一篇新闻中的文本部分。将所述文本部分进行分段,每一段作为一个训样本。例如,对于一篇新闻的文本内容为:“2017腾讯博鳌午餐会将于3月25日在海南博鳌东屿岛大酒店召开,主题为“融合·平衡----全球化与自由贸易的未来”。在刚刚过去的2016年,黑天鹅事件频发,让全球经济面临巨大的不确定性。据IMF(国际货币基金组织)分析:“世界经济在危机以后一直没有恢复,处于低增长、低利率、低通货膨胀、低出口、低资本流入的低位运行阶段””,对该文本内容进行分段,得到以下多个训练样本,如下表1所示:
Figure GDA0004076505880000081
表1
在对文本进行分段前,先对文本进行预处理,除去一些停用词,包括标点、数字、单字和其它一些无意义的词等。之后对文本内容进行分段,在分段的时候以标点符号进行分段,两个标点符号之间的文本内容作为一个训练样本。在上例中,以标点符号中的逗号作为分段的间隔,一句文本作为一个训练样本,将该样本输入学习框架,获得的模型可以刻画一个类别的优质文章的词与词之间的关联。同时也可以以特定的标点符号作为分段的间隔,例如,以句号作为分段间隔,这样获得的训练样本中可能包括多个句子,使用该训练样本训练得到的模型还可以刻画一个类别的优质文章的文本的句与句之间的关联。可以根据具体的需要对文本进行分段。
S202:根据所述多个训练样本分别生成各训练样本的多个特征数据及其各自对应的期望数据。
一个训练样本对应一个特征数据,样本为一段文本内容,根据训练样本中各词对应的特征词确定训练样本对应的特征数据,特征数据可以为与所述文本内容对应的词组向量,词组向量的每一个维度为所述文本内容对应词组的ID。特征数据表征训练样本的文本特征。同时根据特征数据确定与各特征数据对应的期望数据,具体地,根据特征数据每一维度对应的特征词,确定该维度的期望特征词,由各维度对应的期望特征词确定期望数据,期望数据的每一维度可以为对应期望特征词的ID。例如,例如,一个训练样本中各词对应的特征词构成的词序列为:让全球经济面临巨大的不确定性,“让”的期望特征词为:“全球”,“全球”的期望特征词为:“经济”,“经济”的期望特征词为:“面临”,“面临”的期望特征词为:“巨大”,“巨大”的期望特征词为:“的”,“的”的期望特征词为:“不确定性”,“不确定性”的期望特征词为结束字符。因而,根据特征数据与期望输出数据之间的上述对应关系,根据特征数据中各维度对应特征词可以确定期望数据中对应维度对应的特征词,根据特征数据可以确定对应的期望数据。
S203:将各训练样本的所述多个特征数据及其对应的期望数据输入学习框架进行训练,以确定质量分析模型的相应参数,使得所述质量分析模型根据输入的媒体内容的第一特征数据确定其期望数据,并根据输入的该媒体内容的第二特征数据与所述第一特征数据的期望数据之间匹配度确定该媒体内容在所述类别下的质量评分数据。
将多个特征数据及各特征数据输入学习框架进行训练,以确定质量分析模型的相应参数。在进行训练时,采用可监督的方式进行训练。所述学习框架可以为深度学习框架,例如nlp-caffe框架,也可以采用其他的自然语言深度学习框架。神经网络深度学习是通过学习来解决问题,可以根据问题自动建立模型。而对于某一类专业媒体内容,其内容相对较为集中,可以用有限的专业词库覆盖其内容构成,采用从优质媒体内容的文本内容生成的训练样本输入神经网络深度学习框架进行训练,得到的质量分析模型能够刻画一专业类的媒体内容对应的复杂结构特征,该质量分析模型体现的是某一类别下的优质媒体内容的文本内容的结构特征,该质量分析模型可以为CNN(convolutional neural network,卷积神经网络)-NLP(natural language processing,自然语言处理)模型。
训练得到的质量分析模型的相关参数包括:神经网络的层数、每一层的网络类型(函数类型),以及每一层每神经元到下一层各神经元的权重等。在进行模型训练之前,对样本媒体内容的文本内容进行分词,得到语料库,语料库中包括所述类别的媒体内容的多个特征词,该多个特征词可以覆盖所述类别的媒体内容的构成。对于一个输入词,质量分析模型可以确定语料库中多个特征词中各特征词作为其输出的概率,训练模型时,期望数据中各维度对应的期望特征词作为特征数据中对应维度的特征词的真实输出,确定期望数据中各维度对应的期望特征词作为特征数据中对应维度的特征词的输出的概率,即确定期望数据作为特征数据的输出数据的概率,模型训练时,使得该概率达到最大的情况下确定质量分析模型的模型参数,确定的模型参数,使得训练样本对应的特征数据的输出最大程度逼近期望数据,因而训练得到的模型能体现样本媒体内容的文本特征。将一个媒体内容的文本内容对应的多个特征数据输入该训练得到的质量分析模型,该质量分析模型可以得到该媒体内容的多个特征数据中各特征数据对应的质量评分数据,根据质量评分数据可以确定该媒体内容与所述类别下的优质媒体内容的匹配度,即可以确定该媒体内容作为所述类别下的优质媒体内容的推荐度。
在一些实例中,本申请提供的媒体内容推荐方法,进一步包括以下步骤:
S301:对所述样本媒体内容的文本内容进行分词处理得到多个特征词,并建立包含所述多个特征词的语料库。
将所述样本媒体内容的文本内容进行分词,获得多个特征词,分词时,采用Jieba分词,同时也可以采用其他的分词方式。获得的所述多个特征词构成语料库,该语料库覆盖了所述类别下的优质媒体内容的文本构成。其次,对所述语料库中的多个特征词中的每一个特征词分配唯一的一个ID,即每个词映射一个全局唯一的整数。
其中,在上述步骤S202中,在执行所述根据所述多个训练样本分别生成各训练样本的多个特征数据包括时,包括步骤:
S302,针对每一个训练样本,执行如下处理:
对该训练样本进行分词处理以生成该训练样本对应的词序列;在所述语料库中查找所述词序列中各词分别对应的特征词,并构成包含查找到的各特征词的特征词序列;及根据所述特征词序列确定该训练样本对应的所述特征数据,所述特征数据包括所述特征词序列以及其中各特征词对应的至少一个维度。
Figure GDA0004076505880000111
表2
对于表2所示的训练样本媒体内容的文本内容,首先对该文本内容进行预处理,除去一些停用词,包括标点、数字、单字和其它一些无意义的词等。之后对预处理后的文本进行分段、得到多个段落单元,其中,一个段落单元对应一训练样本,将训练样本中的文本内容进行分词,得到训练样本的词序列,分词时可以采用Jieba分词。将词序列中的各词与语料库中的特征词进行匹配,确定所述词序列中每一个词对应的特征词,构成对应的特征词序列。如上表2中的文本内容,得到如下表3所示的多个训练样本中各训练样本对应的特征词序列。
Figure GDA0004076505880000112
表3
其中,在上述步骤S202中,在执行所述得到各训练样本的所述多个特征数据各自对应的期望数据时,包括以下步骤:
S303:针对每一个训练样本的特征数据的特征词序列中的任一特征词,确定该特征词在所述特征词序列中相邻的下一特征词,并将其作为对应的期望特征词;及根据各特征词对应的期望特征词确定该训练样本对应的期望数据。具体地,针对每一个训练样本的特征数据中的每一个维度,确定该维度对应的特征词在所述特征词序列中相邻的下一特征词,并将其作为对应的期望特征词;及根据各维度对应的期望特征词,生成该训练样本对应的期望数据,所述期望数据包括各维度对应的期望特征词。
例如,对于表3中的一个训练样本对应的特征数据对应的特征词序列:腾讯、博鳌、午餐、将、于、月、日、在、海南、博鳌、岛、大酒店、召开,对于第1维度的特征词:腾讯,将该特征词在所述特征词序列中的相邻的下一个特征词“博鳌”作为特征词:“腾讯”的期望特征词。按照这种方式可以确定所述特征词序列中各维度对应的特征词对应的期望特征词,根据各维度对应的期望特征词确定期望数据,期望数据包括各维度对应的期望特征词。
在一些实例中,在上述步骤S302中,在执行所述根据所述特征词序列确定该训练样本对应的所述特征数据时,包括以下步骤:
S401:将所述特征词序列中的各特征词转换为各词标识ID并形成第一ID序列,根据所述第一ID序列确定所述特征数据。具体地,将所述特征词序列中的各特征词转换为各词标识ID并形成第一ID序列,其中,不同的特征词对应不同的词ID,各特征词对应的各词ID按顺序排列并具有各自的序号;及根据所述第一ID序列生成包含至少一个维度的第一词向量并将其作为所述特征数据,其中,每一个维度对应所述第一ID序列中的一个序号及其对应的词ID。
例如,对于表3中的每一个训练样本对应的特征词序列,将该特征词序列中的特征词转换为各特征词的ID,形成如表4所示的ID序列,各ID具有各自的序号。其中,该ID序列中最后的0.0为结束字符对应的ID,例如,可以为标点符号对应的ID。根据所述ID序列形成第一词向量,并将该第一词向量作为所述特征数据。
Figure GDA0004076505880000121
Figure GDA0004076505880000131
表4
其中,在上述步骤S202中,在执行所述得到各训练样本的所述多个特征数据各自对应的期望数据时,包括以下步骤:
S402:针对每一个训练样本,对该训练样本对应的所述第一ID序列中的各词ID做偏移处理以获得第二ID序列,根据所述第二ID序列确定该训练样本的特征数据对应的期望数据。具体地,针对每一个训练样本,对该训练样本对应的所述第一ID序列中的各词ID做偏移处理以获得第二ID序列,所述第二ID序列中,一个序号对应的词ID为所述第一ID序列中该序号的下一序号对应的词ID;及根据所述第二ID序列生成包含所述至少一个维度的第二词向量并将其作为所述期望数据,其中,一个维度对应所述第二ID序列中的一个序号及其对应的词ID,一个维度对应所述第一ID序列和所述第二ID序列中相同的序号。
对于一特征数据,例如表3中最上一行对应的特征数据对应的ID序列形成的词向量:{20001 310.0 15240.0 35317.0 19.0 105.0 11.0 30.0 3.0 3711.0 15240.09034.016235.0 903.0 20002},对于要输入到学习框架的特征数据,其中20001和20002是全局唯一ID,分别标识起始字符和结束字符。
将将上述特征数据对应的词向量中各元素左移一位,即将词组向量中的下一位元素覆盖上一位元素以及获得期望数据对应的词向量:{310.0 15240.0 35317.019.0 105.011.0 30.0 3.0 3711.0 15240.0 9034.0 16235.0 903.0 20002 20002}。
在一些实例中,在上述步骤202中,在执行所述根据该媒体内容的文本内容及所述质量分析模型确定该媒体内容在所述类别下的质量评分数据时,包括步骤:
S501:根据该媒体内容的文本内容,确定该媒体内容的至少一个第一特征数据及其各自对应的第二特征数据。
将媒体内容的文件内容进行分段,得到多个段落单元,每一个段落单元对应一个第一特征数据,第一特征数据包括对应段落单元中各词对应的特征词。根据第一特征数据确定第二特征数据,具体地,当第一特征数据包括的各维度对应的特征词为:A、B、C时,第二特征数据包括的各维度对应的特征词为:B、C、结束字符,即将第一特征数据中一维度对应的特征词作为第二特征数据中上一维度对应的特征词。
S502:将该媒体内容的至少一个第一特征数据及其各自对应的第二特征数据输入所述质量分析模型;确定所述质量分析模型输出的该媒体内容的所述至少一个第一特征数据各自对应的质量评分数据。
针对一个特征数据及其对应的第二特征数据的一个维度,其中,第一特征数据与第二特征数据中的维数相同。质量分析模型确定第一特征数据中该维度对应的特征词的多个输出词及各输出词的概率,确定概率最大的输出词,确定第二特征数据中该维度对应的特征与确定的所述输出词的偏差,作为质量评分数据中所述维度的值,其中,质量评分数据、第一特征数据及第二特征数据的维度数相同。
在一些实例中,本申请提出的媒体内容推荐方法,进一步包括以下步骤:
S601:对所述样本媒体内容的文本内容进行分词处理得到多个特征词,并建立包含所述多个特征词的语料库。在该步骤中,建立语料库的方式与步骤S301中相同,在此不再赘述。
其中,在上述步骤S501中,在执行所述确定该媒体内容的至少一个第一特征数据及其各自对应的第二特征数据时,包括步骤:
S602:根据该媒体内容的文本内容确定该媒体内容对应的至少一个词序列,针对任一词序列,执行以下处理:
在所述语料库中查找所述词序列中各词分别对应的第一特征词,并构成包含查找到的各第一特征词的特征词序列;及根据所述特征词序列确定所述词序列对应的所述第一特征数据。具体地,将该媒体内容的文本内容进行去停用词等预处理后进行分段,形成多个段落单元,对于每一个段落单元,对段落单元中的文本进行分词形成各段落单元对应的词序列。在所述语料库中查找所述词序列中各词分别对应的第一特征词,并构成包含查找到的各第一特征词的第一特征词序列;及根据所述第一特征词序列确定所述词序列对应的所述第一特征数据,所述第一特征数据包括所述第一特征词序列以及其中各第一特征词对应的至少一个维度。
在该步骤中根据词序列形成对应的第一特征数据的过程与步骤S302中根据训练样本对应的词序列形成特征数据的方式相同,在此不再赘述。
S603:针对所述特征词序列中的每一个第一特征词,确定该第一特征词在所述特征词序列中相邻的下一个第一特征词,并将其作为对应的第二特征词;根据所述特征词序列中的各第一特征词对应的第二特征词,确定所述第一特征数据对应的第二特征数据。
具体地,针对所述词序列的第一特征数据中的每一个维度,确定该维度对应的第一特征词在所述第一特征词序列中相邻的下一个第一特征词,并将其作为对应的第二特征词;根据各维度对应的第二特征词确定所述词序列对应的包含各第二特征词的第二特征词序列,根据所述第二特征词序列确定所述词序列对应的所述第二特征数据,所述第二特征数据包括所述第二特征词序列以及其中各第二特征词对应的至少一个维度。
该步骤中,根据第一特征数据形成第二特征数据的过程与步骤S303中根据特征数据确定期望数据的过程相同,在此不再赘述。
其中,在上述步骤S502中,在执行所述确定所述质量分析模型输出的该媒体内容的所述至少一个第一特征数据各自对应的质量评分数据时,包括步骤:
S701:针对任一第一特征数据,执行以下处理:
所述质量分析模型,针对该第一特征数据的每一第一特征词,确定该第一特征数据对应的第二特征数据中与该第一特征词对应的第二特征词,确定该第一特征词对应的期望特征词,确定该期望特征词与所述第二特征词之间的偏差;根据各第一特征词对应的偏差确定所述第一特征数据对应的质量评分数据。
具体地,所述质量分析模型,针对该第一特征数据的每一维度,确定该维度对应的第一特征词及对应的第二特征数据中的第二特征词,确定该第一特征词对应的期望特征词,确定该期望特征词与所述第二特征词之间的偏差;根据各维度对应的偏差确定所述第一特征数据对应的质量评分数据,所述质量评分数据包括各偏差对应的至少一个维度。针对第一特征数据中一个维度对应的第一特征词,质量分析模型确定语料库中与第一特征词对应的多个输出词及各输出词的概率,确定概率最大的输出词作为所述期望输出词,确定该期望输出词与第二特征数据中对应的第二特征词之间的偏差,作为质量评分数据中所述维度的值,所述偏差可以为期望输出词的概率与所述第二特征词的概率的差值、方差等。例如,对于第一特征数据中一维度对应的词a,对应的第二特征数据中的词为b,质量分析模型可以确定b作为a是输出的概率p1,同时确定语料库中多个特征词作为a的输出的概率,确定概率最大的特征词及对应的概率p2,根据p1与p2的差值可以确定质量评分数据中对应的元素的值。
在一些实例中,在上述步骤S602中,在执行所述根据所述第一特征词序列确定所述词序列对应的所述第一特征数据时,包括步骤:
S801:将所述特征词序列中的各第一特征词转换为各词标识ID并形成第三ID序列,根据所述第三ID序列确定所述第一特征数据。
具体地,将所述特征词序列中的各第一特征词转换为各词标识ID并形成第三ID序列,其中,不同的第一特征词对应不同的词ID,各第一特征词对应的各词ID按顺序排列并具有各自的序号;及根据所述第三ID序列生成包含至少一个维度的第三词向量并将其作为所述第一特征数据,其中,每一个维度对应所述第三ID序列中的一个序号及其对应的词ID。
在该步骤中,形成第一特征数据对应的第三词向量的过程与步骤S401相同,在此不再赘述。
其中,在上述步骤S501中,在执行所述确定该媒体内容的至少一个第一特征数据各自对应的第二特征数据时,包括步骤:
S802:针对任一第一特征数据对应的第三ID序列,对该第三ID序列中的各词ID做偏移处理以获得第四ID序列,根据所述第四ID序列确定所述第一特征数据对应的第二特征数据。
具体地,针对任一第一特征数据对应的第三ID序列,对该第三ID序列中的各词ID做偏移处理以获得第四ID序列,所述第四ID序列中,一个序号对应的词ID为所述第三ID序列中该序号的下一序号对应的词ID;及根据所述第四ID序列生成包含所述至少一个维度的第四词向量并将其作为所述第二特征数据,其中,一个维度对应所述第四ID序列中的一个序号及其对应的词ID,一个维度对应所述第三ID序列和所述第四ID序列中相同的序号。
在该步骤中,形成第二特征数据对应的第四词向量的过程与步骤S402相同,在此不再赘述。
在一些实例中,在上述步骤206中,在执行所述根据该媒体内容的所述质量评分数据确定该媒体内容在所述类别下的推荐度时,包括以下步骤:
S901:根据该媒体内容的所述质量评分数据,确定该媒体内容的质量评分。
质量评分数据对应特征数据,特征数据对应媒体内容的文本内容的段落,对于媒体内容的一段落对应的特征数据,对应的质量评分数据表征该段落中词与词之间的关联与样本媒体内容的文本中词与词之间的关联的偏差,将质量评分数据中各维度对应的偏差的加和作为所述特征数据的偏差,根据一媒体内容的多个特征数据中各特征数据对应的偏差、以及各特征数据的维数(特征数据对应的词的个数)确定所述媒体内容的质量评分,该媒体内容的质量评分用以表征该媒体内容与优质样本媒体内容在文本内容方面的偏差,质量评分越高,偏差越大,与优质样本媒体内容的相关性越小。
S902:根据该媒体内容的所述质量评分确定该媒体内容在所述类别下的推荐度。
根据步骤S901中确定的该媒体内容的质量评分,确定该媒体内容在所述类别下的推荐度,推荐度越大,媒体内容与优质样本媒体内容的相关性越大。
在一些实例中,本申请提出的媒体内容推荐方法,进一步包括以下步骤:
S1001:根据所述样本媒体内容确定测验样本媒体内容;确定所述测试样本媒体内容中各测试样本媒体内容的质量评分,根据所述各测试样本媒体内容的质量评分确定所述测试样本媒体内容的质量评分的平均值。
选取出的投放数据满足预定条件的所述类别的媒体内容中一部分作为上述步骤202中的样本媒体内容,用以训练形成质量分析模型,一部分作为测试样本媒体内容,可以用以测试训练得到的质量分析模型的好坏。按照上述的确定媒体内容质量评分的方法确定各测试样本媒体内容的质量评分,进而确定各测试样本媒体内容的质量评分的平均值,该质量评分的平均值越小,说明训练得到的质量分析模型越好。同时该质量评分的平均值还用以确定一媒体内容的推荐度。
其中,在上述步骤S902中,在执行所述根据该媒体内容的所述质量评分确定该媒体内容在所述类别下的推荐度时,包括步骤:
S1002:根据该媒体内容的所述质量评分及所述各测试样本媒体内容的质量评分的平均值确定该媒体内容在所述类别下的推荐度。
虽然所述质量分析模型是由样本媒体内容中的训练样本媒体内容进行训练得到的,获得的模型是考虑各个训练样本媒体内容对模型的影响确定模型参数,因而即使输入一样本媒体内容,得到的质量评分也不一定为0。根据多个测试样本媒体内容确定所述平均质量评分,根据待评测的媒体内容的质量评分与所述平均质量评分的比值,确定所述待评测的媒体内容的推荐度,更能体现出待评测的媒体内容与优质的样本媒体内容的相关性。
在一些实例中,通过以下公式(1)确定所述媒体内容的质量评分:
Figure GDA0004076505880000181
其中,s1-sn为所述各质量评分数据对应的质量评分参数,该质量评分参数为质量评分数据中各维度对应元素的加和,l1-ln为所述各质量评分数据对应的维度,该维度与第一特征数据、第二特征数据的维度相同。
按照以下公式(2)确定所述媒体内容在所述类别下的推荐度:
Figure GDA0004076505880000191
其中,base为所述各测试样本媒体内容的质量评分的平均值。
在一些实例中,本申请提出的媒体内容推荐方法,进一步包括以下步骤:
S1101:获取已投放的所述类别的媒体内容的投放数据。
按照上述通过质量分析模型确定候选媒体内容的推荐度,进而确定待投放的媒体内容,对于投放后的媒体内容,收集其线上表现数据,例如,点击曝光比,用以选取所述类别的优质媒体内容。
S1102:将投放数据满足所述预定条件的媒体内容作为所述样本媒体内容,以更新所述质量分析模型。
从投放的所述类别的媒体内容中,选出优质媒体内容作为样本媒体内容,该实例中选取样本媒体内容的方式与步骤201中选取样本媒体内容的方式相同,选取的样本媒体内容用以更新质量分析模型。
当本申请提供的媒体内容推荐方法应用到文章的推荐中时,如图4所示,主要包括以下步骤:
步骤401:搜集文章线上表现数据。在该步骤中,对于投放过的文章,收集该文章的线上表现数据,所示表现数据可以为投放数据,包括曝光量、点击量等。
步骤402:优质专业类文章收集,在该步骤中,选取某一类别的投放数据满足预定条件的文章,例如,科技类优质文章,用以训练科技类的质量分析模型。在收集文章时还可以加入一些其他的筛选维度,例如,作者,文章来源等。
步骤403:将步骤402中选取的文章的文本内容进行分段,分段时可以以文本内容中的标点符号作为分段依据。
步骤404:将步骤402中选取的优质专业类文章的文本内容进行分词,得到语料库,语料库包括多个特征词,同时为每一特征词分配唯一对应的ID。
步骤405:分段后的每一段落单元对应一训练样本,将段落单元的文本内容进行分词及ID化,在ID化的过程中与语料库中的特征词进行匹配,得到与每一训练样本对应的特征数据,同时确定与每一特征数据对应的期望输出数据。
步骤406:将步骤405中确定的多个特征数据及各特征数据对应的期望输出数据输入深度学习框架(nlp-caffe)进行训练,以得到CNN-NLP模型的模型参数。在训练的过程中还可以采用其他的自然语言深度学习框架,以获得模型参数。
步骤407:根据步骤406中确定的模型参数确定CNN-NLP模型。
步骤408:在对一篇文章进行评测时,例如,对于推送信息提供方客户端104新上传给应用服务器102的一篇文章,获取该文章的文本内容。
步骤409:将上述文章的文本内容进行分段。分段的方式与步骤403中的方式相同。
步骤410:对分段后的各段落单元进行分词及ID化,获得与段落单元对应的特征数据,分词及ID化的方式与步骤405中的方式相同。
步骤411:根据各特征数据确定与各特征数据对应的期望输出数据,将确定的待评测的文章的各特征数据及各特征数据对应的期望输出数据输入步骤407中训练得到的CNN-NLP模型。
步骤412:CNN-NLP模型输出与各特征数据(对应各段落单元)对应的质量评分数据,根据各质量评分数据确定所述文章的质量评分。
步骤413:根据文章的质量评分确定所述文章在所述类别下的推荐度。
步骤414:当接收到客户端发送的所述类别的页面数据请求时,根据文章的推荐度确定待投放的文章及各待投放文章的优先级。此后,进行后续的401及402步骤,选取所述类别的优质文章作为样本文章以更新CNN-NLP模型。
本申请还提供了一种媒体内容推荐装置500,应用于应用服务器102,如图5所示,该装置包括:
评测单元501,用以针对一个类别下的任一个候选媒体内容,执行如下处理:
获取该媒体内容中的文本内容;
根据该媒体内容的文本内容及质量分析模型确定该媒体内容在所述类别下的质量评分数据,所述质量分析模型由所述类别下的样本媒体内容确定,所述样本媒体内容的投放数据满足预定条件;及
根据该媒体内容的所述质量评分数据确定该媒体内容在所述类别下的推荐度;
推荐单元502,用以根据所述类别下多个候选媒体内容的所述推荐度,确定待投放的媒体内容。
采用本申请提供的媒体内容推荐装置,选取某一类别的优质媒体内容作为训练样本媒体内容,输入深度学习框架进行训练,得到进行自然语言处理的质量分析模型。获得的该质量分析模型可以刻画所述类别的优质媒体内容的文本的复杂结构特征,使用该质量分析模型对媒体内容进行评测,评测媒体内容与所述类别下的优质媒体内容在文本内容方面的相关性,即确定媒体内容在所述类别下的推荐度,并基于媒体内容的推荐度确定待投放的媒体内容。本申请提供的媒体内容推荐方法基于文本内容方面对媒体内容进行评测,确定的媒体内容的推荐度更准确,实现向用户推荐优质的媒体内容,同时基于训练得到质量分析模型自动对媒体内容进行评测,节省了人力,提高了效率。
在一些实例中,所述装置还包括模型训练单元503,用以:
根据所述类别下的样本媒体内容,获取多个训练样本;
根据所述多个训练样本分别生成各训练样本的多个特征数据及其各自对应的期望数据;
将各训练样本的所述多个特征数据及其对应的期望数据输入学习框架进行训练,以确定质量分析模型的相应参数,使得所述质量分析模型根据输入的媒体内容的第一特征数据确定其期望数据,并根据输入的该媒体内容的第二特征数据与所述第一特征数据的期望数据之间匹配度确定该媒体内容在所述类别下的质量评分数据。
本申请还提供了一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如上述所述的方法。
图6示出了媒体内容推荐装置所在的计算设备的组成结构图。如图6所示,该计算设备包括一个或者多个处理器(CPU)602、通信模块604、存储器606、用户接口610,以及用于互联这些组件的通信总线608。
处理器602可通过通信模块604接收和发送数据以实现网络通信和/或本地通信。
用户接口610包括一个或多个输出设备612,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口610也包括一个或多个输入设备614,其包括诸如,键盘,鼠标,声音命令输入单元或扩音器,触屏显示器,触敏输入板,姿势捕获摄像机或其他输入按钮或控件等。
存储器606可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器606存储处理器602可执行的指令集,包括:
操作***616,包括用于处理各种基本***服务和用于执行硬件相关任务的程序;
应用618,包括导航数据处理及路线导航的各种应用程序,这种应用程序能够实现上述各实例中的处理流程,比如可以包括媒体内容推荐装置500的部分或全部单元或者模块。媒体内容推荐装置500中的各单元中的至少一个单元可以存储有机器可执行指令。处理器602通过执行存储器606中各单元中至少一个单元中的机器可执行指令,进而能够实现上述各单元或模块中的至少一个模块的功能。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令,存储在非易失性存储介质中。因此,各实施例也可以体现为软件产品。
各例中,硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如,硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。
另外,本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请,本申请还提供了一种非易失性存储介质,其中存储有数据处理程序,这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。
图6模块对应的机器可读指令可以使计算机上操作的操作***等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种媒体内容推荐方法,其特征在于,包括:
根据一个类别下的样本媒体内容,确定质量分析模型,包括:
根据所述样本媒体内容,获取多个训练样本;
对所述样本媒体内容的文本内容进行分词处理得到多个特征词,建立包含所述多个特征词的语料库;
针对每一个训练样本,执行如下处理:对该训练样本进行分词处理以生成该训练样本对应的词序列;在所述语料库中查找所述词序列中各词分别对应的特征词,并构成包含查找到的各特征词的特征词序列;及根据所述特征词序列,确定该训练样本对应的特征数据;
针对每一个训练样本的特征数据的特征词序列中的任一特征词,确定该特征词在所述特征词序列中相邻的下一特征词,并将其作为对应的期望特征词;及根据各特征词对应的期望特征词,确定该训练样本对应的期望数据;
将各训练样本的多个特征数据及其对应的期望数据,输入学习框架进行训练,以确定所述质量分析模型的相应参数;
针对所述类别下的任一个候选媒体内容,所述质量分析模型根据输入的该候选媒体内容的第一特征数据确定其期望数据,并根据输入的该候选媒体内容的第二特征数据与所述第一特征数据的期望数据之间的匹配度,确定该候选媒体内容在所述类别下的质量评分数据;根据所述质量评分数据,确定该候选媒体内容在所述类别下的推荐度;及,
根据所述类别下多个候选媒体内容的所述推荐度,确定待投放的媒体内容。
2.根据权利要求1所述的方法,进一步包括:
根据所述类别下的媒体内容的投放数据以及媒体内容来源,选取所述样本媒体内容。
3.根据权利要求1所述的方法,其中,所述质量分析模型为卷积神经网络-自然语言处理模型。
4.根据权利要求1所述的方法,其中,所述根据所述特征词序列,确定该训练样本对应的特征数据包括:
将所述特征词序列中的各特征词转换为各词标识ID并形成第一ID序列,根据所述第一ID序列确定所述特征数据;
其中,所述将各训练样本的多个特征数据及其对应的期望数据,输入学习框架进行训练包括:
针对每一个训练样本,对该训练样本对应的所述第一ID序列中的各词ID做偏移处理以获得第二ID序列,根据所述第二ID序列,确定该训练样本的特征数据对应的期望数据。
5.根据权利要求1所述的方法,进一步包括:
根据该候选媒体内容的文本内容,确定该候选媒体内容的至少一个第一特征数据及其各自对应的第二特征数据。
6.根据权利要求5所述的方法,其中,所述根据该候选媒体内容的文本内容,确定该候选媒体内容的至少一个第一特征数据及其各自对应的第二特征数据包括:
根据该候选媒体内容的文本内容,确定该候选媒体内容对应的至少一个词序列,针对任一词序列,执行以下处理:
在所述语料库中查找该词序列中各词分别对应的第一特征词,并构成包含查找到的各第一特征词的第一特征词序列;及根据所述第一特征词序列,确定该词序列对应的所述第一特征数据;
针对所述第一特征词序列中的每一个第一特征词,确定该第一特征词在所述第一特征词序列中相邻的下一个第一特征词,并将其作为对应的第二特征词;
根据所述第一特征词序列中的各第一特征词对应的第二特征词,确定所述第一特征数据对应的第二特征数据。
7.根据权利要求6所述的方法,其中,所述质量分析模型根据输入的该候选媒体内容的第一特征数据确定其期望数据,并根据输入的该候选媒体内容的第二特征数据与所述第一特征数据的期望数据之间的匹配度,确定该候选媒体内容在所述类别下的质量评分数据包括:
针对任一第一特征数据,执行以下处理:
所述质量分析模型针对该第一特征数据的每一个第一特征词,确定该第一特征数据对应的第二特征数据中与该第一特征词对应的第二特征词,确定该第一特征词对应的期望特征词,确定该期望特征词与该第二特征词之间的偏差;
根据各第一特征词对应的偏差,确定该第一特征数据对应的质量评分数据。
8.根据权利要求6所述的方法,其中,所述根据所述第一特征词序列,确定该词序列对应的所述第一特征数据包括:
将所述第一特征词序列中的各第一特征词转换为各词标识ID并形成第三ID序列,根据所述第三ID序列确定所述第一特征数据;
其中,所述根据所述第一特征词序列中的各第一特征词对应的第二特征词,确定所述第一特征数据对应的第二特征数据包括:
针对所述第一特征数据对应的第三ID序列,对该第三ID序列中的各词ID做偏移处理以获得第四ID序列,根据所述第四ID序列以及第二特征词,确定所述第二特征数据。
9.根据权利要求1所述的方法,其中,所述根据所述质量评分数据,确定该候选媒体内容在所述类别下的推荐度包括:
根据该候选媒体内容的多个质量评分数据,确定该候选媒体内容的质量评分;
根据所述质量评分,确定该候选媒体内容在所述类别下的推荐度。
10.根据权利要求9所述的方法,进一步包括:
根据所述样本媒体内容,确定测试样本媒体内容;
确定所述测试样本媒体内容中各测试样本媒体内容的质量评分,根据所述各测试样本媒体内容的质量评分,确定所述测试样本媒体内容的质量评分的平均值;
其中,所述根据所述质量评分,确定该候选媒体内容在所述类别下的推荐度包括:
根据所述质量评分及所述平均值,确定该候选媒体内容在所述类别下的推荐度。
11.根据权利要求10所述的方法,其中,根据以下公式(1)确定该候选媒体内容的质量评分:
Figure FDA0004076505860000041
其中,s1-sn为各质量评分数据对应的质量评分参数,l1-ln为各质量评分数据对应的特征数据的维度;
按照以下公式(2)确定该候选媒体内容在所述类别下的推荐度:
Figure FDA0004076505860000042
其中,base为所述平均值。
12.根据权利要求1所述的方法,进一步包括:
获取已投放的所述类别的媒体内容的投放数据;
将投放数据满足预定条件的媒体内容作为所述样本媒体内容,以更新所述质量分析模型。
13.一种媒体内容推荐装置,其特征在于,包括:
模型训练单元,用以根据一个类别下的样本媒体内容,确定质量分析模型,包括:根据所述样本媒体内容,获取多个训练样本;对所述样本媒体内容的文本内容进行分词处理得到多个特征词,建立包含所述多个特征词的语料库;针对每一个训练样本,执行如下处理:对该训练样本进行分词处理以生成该训练样本对应的词序列;在所述语料库中查找所述词序列中各词分别对应的特征词,并构成包含查找到的各特征词的特征词序列;及根据所述特征词序列,确定该训练样本对应的特征数据;针对每一个训练样本的特征数据的特征词序列中的任一特征词,确定该特征词在所述特征词序列中相邻的下一特征词,并将其作为对应的期望特征词;及根据各特征词对应的期望特征词,确定该训练样本对应的期望数据;将各训练样本的多个特征数据及其对应的期望数据,输入学习框架进行训练,以确定所述质量分析模型的相应参数;
评测单元,用以针对所述类别下的任一个候选媒体内容,所述质量分析模型根据输入的该候选媒体内容的第一特征数据确定其期望数据,并根据输入的该候选媒体内容的第二特征数据与所述第一特征数据的期望数据之间的匹配度,确定该候选媒体内容在所述类别下的质量评分数据;根据所述质量评分数据,确定该候选媒体内容在所述类别下的推荐度;及,
推荐单元,用以根据所述类别下多个候选媒体内容的所述推荐度,确定待投放的媒体内容。
14.根据权利要求13所述的装置,其中,所述模型训练单元用以,根据所述类别下的媒体内容的投放数据以及媒体内容来源,选取所述样本媒体内容。
15.一种计算机可读存储介质,其特征在于:存储有计算机可读指令,使至少一个处理器执行如权利要求1-12任一项所述的方法。
16.一种计算设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-12任一项所述的方法。
CN201710831497.5A 2017-09-15 2017-09-15 媒体内容推荐方法、装置及存储介质 Active CN110020110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710831497.5A CN110020110B (zh) 2017-09-15 2017-09-15 媒体内容推荐方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710831497.5A CN110020110B (zh) 2017-09-15 2017-09-15 媒体内容推荐方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110020110A CN110020110A (zh) 2019-07-16
CN110020110B true CN110020110B (zh) 2023-04-07

Family

ID=67186275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710831497.5A Active CN110020110B (zh) 2017-09-15 2017-09-15 媒体内容推荐方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110020110B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110366043B (zh) * 2019-08-20 2022-02-18 北京字节跳动网络技术有限公司 视频处理方法、装置、电子设备及可读介质
CN111008329A (zh) * 2019-11-22 2020-04-14 厦门美柚股份有限公司 基于内容分类的页面内容推荐方法及装置
CN111193795B (zh) * 2019-12-30 2021-07-02 腾讯科技(深圳)有限公司 信息推送方法及装置、电子设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446950A (zh) * 2007-11-26 2009-06-03 音乐会技术公司 对具有时间段的媒体类别进行分组及加权
CN104850617A (zh) * 2015-05-15 2015-08-19 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN106407364A (zh) * 2016-09-08 2017-02-15 北京百度网讯科技有限公司 一种基于人工智能的信息推荐方法和装置
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务***与方法
CN107133315A (zh) * 2017-05-03 2017-09-05 有米科技股份有限公司 一种基于语义分析的智能媒介推荐方法
CN107147504A (zh) * 2017-03-31 2017-09-08 北京奇艺世纪科技有限公司 一种消息推送方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014067540A1 (en) * 2012-11-02 2014-05-08 Voipfuture Gmbh Detection of periodic impairments in media streams

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446950A (zh) * 2007-11-26 2009-06-03 音乐会技术公司 对具有时间段的媒体类别进行分组及加权
CN104850617A (zh) * 2015-05-15 2015-08-19 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN106407364A (zh) * 2016-09-08 2017-02-15 北京百度网讯科技有限公司 一种基于人工智能的信息推荐方法和装置
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务***与方法
CN107147504A (zh) * 2017-03-31 2017-09-08 北京奇艺世纪科技有限公司 一种消息推送方法及装置
CN107133315A (zh) * 2017-05-03 2017-09-05 有米科技股份有限公司 一种基于语义分析的智能媒介推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Liyan Zhang et al..A random-walk based recommendation algorithm considering item categories.《Neurocomputing》.2013,391-396. *
黄泽明.基于主题模型的学术论文推荐***研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2013,I138-538. *

Also Published As

Publication number Publication date
CN110020110A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10733197B2 (en) Method and apparatus for providing information based on artificial intelligence
CN110888990B (zh) 文本推荐方法、装置、设备及介质
US8725717B2 (en) System and method for identifying topics for short text communications
CN109190049B (zh) 关键词推荐方法、***、电子设备和计算机可读介质
US8620906B2 (en) Detecting competitive product reviews
CN110516067A (zh) 基于话题检测的舆情监控方法、***及存储介质
CN112711937A (zh) 一种模板推荐方法、装置、设备及存储介质
CN109388760B (zh) 推荐标签获取方法、媒体内容推荐方法、装置及存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
US10019419B2 (en) Method, server, browser, and system for recommending text information
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
US9407589B2 (en) System and method for following topics in an electronic textual conversation
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN110020110B (zh) 媒体内容推荐方法、装置及存储介质
US20200218746A1 (en) Method and apparatus for presenting information
JP2017021796A (ja) 学習素材のセグメントのランク付け
US11640420B2 (en) System and method for automatic summarization of content with event based analysis
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN110717008B (zh) 基于语意识别的搜索结果排序方法及相关装置
tong et al. Mining and analyzing user feedback from app reviews: An econometric approach
Kesharwani et al. Movie rating prediction based on: twitter sentiment analysis
US9305103B2 (en) Method or system for semantic categorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant