CN111008278B - 内容推荐方法及装置 - Google Patents

内容推荐方法及装置 Download PDF

Info

Publication number
CN111008278B
CN111008278B CN201911157198.3A CN201911157198A CN111008278B CN 111008278 B CN111008278 B CN 111008278B CN 201911157198 A CN201911157198 A CN 201911157198A CN 111008278 B CN111008278 B CN 111008278B
Authority
CN
China
Prior art keywords
content
model
recall
user
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911157198.3A
Other languages
English (en)
Other versions
CN111008278A (zh
Inventor
陈方毅
黄益聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meishao Co ltd
Original Assignee
Xiamen Meishao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meishao Co ltd filed Critical Xiamen Meishao Co ltd
Priority to CN201911157198.3A priority Critical patent/CN111008278B/zh
Publication of CN111008278A publication Critical patent/CN111008278A/zh
Application granted granted Critical
Publication of CN111008278B publication Critical patent/CN111008278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了内容推荐方法及装置。涉及内容推荐领域,其中,方法通过获取内容池中多项待分类内容并进行内容识别,根据内容识别的结果选择对应的内容分类模型对待分类内容进行内容分类得到待召回内容,根据召回策略对待召回内容进行初步召回得到召回内容,根据推荐模型对召回内容进行排序得到初步排序列表,将所述初步排序列表使用排序算法模型进行二次排序,整合得到推荐内容列表。通过控制源头,在内容发布之前就对内容进行识别并准确过滤分类,将正常内容上线曝光给用户,而低质内容将被筛选过滤不曝光给用户,避免如标题党、擦边或者低俗的低质量内容在平台上线,从而提高平台整体内容质量,保持平台用户的粘性。

Description

内容推荐方法及装置
技术领域
本发明涉及内容推荐领域,尤其是一种内容推荐方法及装置。
背景技术
如今在很多互联网产品尤其是内容平台中,内容推荐***是不可或缺的一部分,其能够在用户没有显式行为的条件下为用户提供优质的个性化推荐服务。例如用户打开资讯APP,首页出现用户感兴趣的内容文章,满足用户需求,既要通过一些新颖性推荐结果,起到流量分发的作用,同时需要给用户提供精准个性化推荐,从而缩短用户的商品选择时间。这就对推荐***的多样性和准确性提出了更高的要求。如何在注意力稀缺的现实中吸引用户关注推送的内容,是值得研究的课题。
但是一些文章的发布者为了吸引流量,发布标题党、擦边或者低俗的内容,这些内容因为博眼球吸引用户点击获得了更多的曝光推荐量,用户虽然点击阅读了内容,但是并没有获得很好的用户体验,长此以往会造成平台内容低俗化,导致用户大量流失,因此需要提出一种能够对平台发布的内容进行过滤分类,去除低俗、标题党等低质量内容,提高用户推荐内容的质量和转化率的内容推荐方法,以提高内容推荐的准确性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的是提供一种能够提高用户推荐内容的质量和转化率的内容推荐方法及装置。
本发明所采用的技术方案是:
第一方面,本发明提供一种内容推荐方法,包括:
获取内容池中多项待分类内容并进行内容识别,得到为文本内容或视频图像内容的内容识别结果;
根据所述内容识别结果选择对应的内容分类模型对所述待分类内容进行内容分类得到待召回内容,所述内容分类模型包括:文本分类模型和视频图像分类模型;
根据召回策略对所述待召回内容进行初步召回得到召回内容;
根据推荐模型对所述召回内容进行排序得到初步排序列表,将所述初步排序列表使用排序算法模型进行二次排序,整合得到推荐内容列表。
进一步地,所述文本分类模型为长短期记忆神经网络分类器或BERT模型;
构建所述文本分类模型的过程具体为:
获取所述文本分类模型的文本训练样本集及对应的分类标签;
对所述文本训练样本集进行文本分词得到多个特征词进行文本预处理,并计算所述特征词的词向量;
根据所述词向量生成文档模型;
将所述文档模型和所述分类标签输入到所述文本分类模型中进行模型参数训练。
进一步地,所述视频图像分类模型为残差神经网络;
构建所述视频图像分类模型的过程具体为:
收集图像样本并进行图像分类标注;
对所述图像样本进行样本扩展得到图像样本,所述样本扩展包括:平移、翻转、剪切、缩放;
根据所述图像样本生成图像训练样本集;
将所述图像训练样本集和所述图像分类标注输入到所述视频图像分类模型中进行模型参数训练;
当所述视频图像内容的内容为视频时,通过截取所述视频的预设帧图像作为图像样本。
进一步地,还包括:获取当前用户对所述召回内容的反馈结果,根据所述反馈结果进行召回审核,召回审核策略包括:根据用户负面评论召回审核和/或根据用户负反馈召回审核和/或指标异常召回审核。
进一步地,所述召回策略包括以下至少一种:内容关注召回策略、热门内容召回策略、人群属性召回策略、用户兴趣召回策略、语义标签召回策略。
进一步地,所述推荐模型包括DIN模型,所述排序算法模型为:根据推荐模型分数、阅读完成率和内容阅读时长进行排序;
所述排序算法模型表示为:
Score=a*f1+b*f2+c*f3
其中,Score表示所述召回内容的得分,f1是所述推荐模型返回的分数,f2表示所述召回内容的平均阅读完成率,f3表示所述召回内容的平均阅读时长,a、b、c分别表示f1、f2、f3对应的权重值;
所述阅读完成率指:根据用户在内容上停留时长判断是否为有效阅读,然后根据内容总字数和当前已曝光字数计算得到阅读完成率。
进一步地,所述根据召回策略对所述待召回内容进行初步召回得到召回内容之后还包括初筛,所述初筛包括:曝光初筛和负评价初筛;
所述曝光初筛指:过滤已经给用户曝光过的内容;
所述负评价初筛指:获取用户历史负反馈信息,将与所述负反馈信息同类型的内容进行过滤。
第二方面,本发明还提供一种内容推荐装置,包括:
内容识别模块:用于获取内容池中多项待分类内容并进行内容识别,得到为文本内容或视频图像内容的内容识别结果;
内容分类模块:用于根据所述内容识别的结果选择对应的内容分类模型对所述待分类内容进行内容分类得到待召回内容,所述内容分类模型包括:文本分类模型和视频图像分类模型;
内容召回模块:用于根据召回策略对所述待召回内容进行初步召回得到召回内容;
内容排序模块:用于根据推荐模型对所述召回内容进行排序得到初步排序列表,将所述初步排序列表使用排序算法模型进行二次排序,整合得到推荐内容列表。
第三方面,本发明提供一种内容推荐设备,包括:
至少一个处理器,以及与所述至少一个处理器通信连接的存储器;
其中,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如第一方面任一项所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面任一项所述的方法。
本发明的有益效果是:
本发明通过获取内容池中多项待分类内容并进行内容识别,根据内容识别的结果选择对应的内容分类模型对待分类内容进行内容分类得到待召回内容,根据召回策略对待召回内容进行初步召回得到召回内容,根据推荐模型对召回内容进行排序得到初步排序列表,将初步排序列表使用排序算法模型进行二次排序,整合得到推荐内容列表。通过控制源头,在内容发布之前就对内容进行识别并准确过滤分类,将正常内容上线曝光给用户,而低质内容将被筛选过滤不曝光给用户,避免如标题党、擦边或者低俗的低质量内容在平台上线,避免用户因为博眼球的操作点击阅读内容,降低用户体验的问题,从而提高平台整体内容质量和用户推荐内容质量,保持平台用户的粘性。
另外,本发明还通过初步召回和召回审核两个步骤,提高了内容推荐的精准性,使内容平台针对用户提供更加个性化的定制内容推荐服务,更好更快地满足用户需求,提高用户体验。
进一步地,本发明还通过排序策略的结合,对内容进行有效排序,提高了召回内容后排序的准确性,避免标题党等内容影响用户使用体验,提高用户粘性以及内容的转化率。
可广泛应用于内容推荐等领域。
附图说明
图1是本发明中内容推荐方法的一具体实施例的实现流程图;
图2是本发明中内容推荐方法的一具体实施例的进行文本分类示意图;
图3是本发明中内容推荐装置的一具体实施例的结构框图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一:
本发明实施例一提供一种内容推荐方法,图1为本发明实施例提供的一种内容推荐方法的实现流程图,如图1所示,该方法包括以下步骤:
S1:获取内容池中多项待分类内容并进行内容识别,其中内容识别的结果将内容分为:文本内容和视频图像内容,其中内容池指:对应的内容平台中内容发布者发布的内容集合,一般来说,内容池中包含海量的内容信息,因而召回指:选择一定的召回策略,从海量信息中筛选一批内容作为推荐给用户的定制化内容。
S2:根据内容识别结果选择对应的内容分类模型对待分类内容进行内容分类,得到待召回内容,其中内容分类模型包括:文本分类模型和视频图像分类模型,即通过文本分类模型对文本内容进行分类,通过视频图像分类模型对视频图像内容进行分类,这里分类结果可选的是质量分类,如正常内容、优质内容和低品质内容等,可以根据实际的分类需求进行标签标注。
S3:根据召回策略对待召回内容进行初步召回得到召回内容;
S4:对召回内容进行排序得到推荐内容列表,具体是:对召回内容进行初筛,然后根据推荐模型对召回内容进行排序得到初步排序列表,将初步排序列表使用排序算法模型进行二次排序,整合得到推荐内容列表,其中,推荐模型包括DIN模型,排序算法模型为:根据推荐模型分数、阅读完成率和内容阅读时长进行排序内容阅读时长。
本实施例中,经过推荐模型和排序算法模型两种排序策略的结合,根据初步排序列表的内容进行整合排序得到用于推荐的内容,即先使用推荐模型进行排序,例如使用DIN(deep interest network)模型,但是不做限定,其他能够实现推荐的算法均在本实施例的保护范围之内,例如经过DIN模型返回的100条内容的初步排序列表,再使用排序算法模型,按照阅读时长、阅读完成率、推荐模型din返回的分数,进行排序,最终生成包含100条内容的经过重新排序的推荐内容列表返回给用户。
S5:还包括,获取当前用户对初步召回内容的反馈结果,根据反馈结果进行召回审核,其中,召回审核包括:根据用户负面评论召回审核和根据用户负反馈召回审核。
具体的,步骤S2中,文本分类模型为长短期记忆神经网络分类器或BERT模型,这两种模型都常用于文本分类。
长短期记忆神经网络分类器表示为:LSTM(Long short term memory)长短期记忆神经网络模型,其为循环神经网络的变形结构,即在普通RNN基础上,在隐藏层各神经单元中增加记忆单元,从而使时间序列上的记忆信息可控,每次在隐藏层各神经单元间传递信息时通过几个可控门(遗忘门、输入门、候选门、输出门),可以控制前一时刻信息和当前信息的记忆和遗忘程度,从而使RNN网络具备了长期记忆功能,对于RNN的实际应用,有巨大作用。
BERT模型的全称是:Bidirectional Encoder Representations fromTransformer,BERT模型的目标是Google开发利用大规模无标注语料训练、获得文本的包含丰富语义信息的模型,即:根据文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。构建文本分类模型的过程具体为:
S211:获取文本分类模型的文本训练样本集及对应的分类标签。
即获取大量文本内容作为文本分类模型的文本训练样本集,通过训练样本集拟合去寻找文本分类模型的初始参数,通过训练数据集和反向传播算法去每个神经元找到最优的模型权重。分类标签为一种先验信息,即通过人工标注的方式将文本内容进行分类标签标注,例如:正常内容、优质内容和低品质内容等。
S212:对文本训练样本集(包括文本标题和文本正文)进行文本分词得到多个特征词并计算特征词的词向量。
本实施例中,进行文本分词的算法可选的包括:jieba分词算法或word2vec分词算法,但是并不限定文本分词算法,凡是能够实现文本分词的算法均可以应用在本实施例中。
进一步地,本实施例通过文本分词得到每一个训练样本的多个特征词,对其进行文本预处理,文本预处理即文本清洗,包括:去除链接地址、去除停用词、去除低频词、去除标点符号或空白符等无效关键词,用于提高后续计算的准确度。
然后将特征词转化为词向量,本实施例中可选的通过词嵌入(Word Embedding)方式将特征词映射到向量空间里,并用词向量来表示,基本思想是把每个关键词表征为实数向量(每个实数都对应着一个特征,可以是和其他关键词之间的联系),将相似的关键词分组映射到向量空间的不同部分。
S213:根据词向量生成文档模型,具体的文档模型即每一个文本样本的词向量组成的句向量,因此每个文本样本对应一个文档模型。
S214:将文档模型和分类标签输入到文本分类模型中进行模型参数训练。其中,模型参数训练即调整文本分类模型网络隐藏节点的权重,利用提前标注的文本内容分类标签,通过模型训练调整模型参数,去匹配人工标注的分类标签,从而调整隐藏节点的权重。
S215:进一步地,生成文本验证样本集和文本测试样本集对文本分类模型进行参数调优及验证。其中,文本训练样本集用于训练模型参数,文本验证样本集用于对模型参数进行调优,文本测试样本集用于对模型参数进行验证。
如图2所示,为本实施例进行文本分类的一种具体实施方式示意图。从图中可以看出,包括特征提取模块和文本分类模型,特征提取模块包括文本输入层、词向量层和文档模型层,文本分类模型包括:256个输入节点、128个隐藏节点和一个输出节点。
具体的文本分类流程为:
1)将原始文本样本进行文本分词,得到特征词序列;
2)将特征词序列输入到词向量层,输出对应的词向量;
3)根据词向量得到对应的文档模型;
4)将文档模型输入到文本分类模型中,输出节点输出分类标签;
5)根据先验的人工标注分类标签与输出的分类标签进行对比,调整隐藏节点的权重。
另外,本实施例的文本分类模型的激活函数可选sigmoid函数或者tanh函数。
本实施例可根据负样本中特征词出现的位置与频率通过随机森林决策树模型判别文本内容是否属于标题党或低质内容。
上述为待分类内容为文本内容时的文本分类过程,下面介绍当待分类内容为视频图文内容时的视频图像分类过程。
进一步地,步骤S2中:视频图像分类模型为残差神经网络,残差神经网络就是一种为了解决网络加深梯度消失现象而提出的神经网络结构,本实施例可选的是ResNet 50网络框架,ResNet即共50层的残差神经网络,其中没有需要训练的参数的层,比如池化(pooling layer)层不参与计数,包含了恒等块(Identity block)和卷积块(convolutional block)2种结构等,其具体的结构在此不做赘述。
本实施例中构建视频图像分类模型的过程具体为:
S221:收集图像样本并进行图像分类标注,当视频图像内容的内容为视频时,通过截取视频的预设帧图像作为图像样本,例如截取视频开始、中间、结束三个阶段的若干图像作为该视频内容的图像样本。
S222:对图像样本进行样本扩展得到图像样本,样本扩展的方法包括:平移、翻转、剪切、缩放等。
S223:根据图像样本生成图像训练样本集。
S224:将图像训练样本集和图像分类标注输入到视频图像分类模型中进行模型参数训练,与文本分类模型类似,模型参数训练即调整视频图像分类模型网络节点的权重,利用提前标注得到的图像分类标签,通过模型训练调整模型参数,去匹配人工标注的分类标签,从而调整节点的权重。
S225:进一步地,生成图像验证样本集和图像测试样本集对视频图像分类模型进行参数调优及验证。其中,图像训练样本集用于训练模型参数,图像验证样本集用于对模型参数进行调优,图像测试样本集用于对模型参数进行验证。
根据内容分类模型再待分类内容中筛选过滤出待推荐给用户的正常或优质内容。
通过控制源头,在内容发布之前就对内容进行识别并准确过滤分类,将正常内容上线曝光给用户,而低质内容将被筛选过滤不曝光给用户,避免如标题党、擦边或者低俗的低质量内容在平台上线,避免用户因为博眼球的操作点击阅读内容,降低用户体验的问题,从而提高平台整体内容质量和用户推荐内容质量,保持平台用户的粘性。
步骤S3中,召回策略包括以下至少一种:内容关注召回策略、热门内容召回策略、人群属性召回策略、用户兴趣召回策略、语义标签召回策略,可以理解的是,本实施例中召回策略可以选择其中一种或者将多种策略进行结合,从而得到高质量的召回结果。
1)内容关注召回策略具体为:
S311:获取当前用户关注的内容发布者;
S312:从内容池中选择内容发布者新发布但当前用户还未浏览的内容进行召回。
例如,某实施方式中,当前用户A关注了内容发布者B,在用户A登录之后,将用户A本次登录之前,内容发布者B发布的但是用户A还未浏览的内容进行召回,显示在用户A的终端界面。
2)热门内容召回策略具体为:
S321:获取不同内容排序策略下内容池中第一预设排名的热门内容,内容排序策略包括:按点击率排序、按浏览量排序、按评论量排序、按收藏量排序、按转发量排序等,可以根据实际需要进行选择或结合,第一预设排名可选的如Top10。
S322:合并热门内容,并将热门内容进行召回,例如,将每一种内容排序策略得到的热门内容合并在一起,得到总的热门内容列表,将Top10的内容召回给当前用户。
3)人群属性召回策略具体为:
S331:根据用户特征细分得到用户群,其中用户特征包括以下一种或多种:用户属性、用户所属地域、用户年龄区间。
用户属性为:内容平台根据用户身份或者用户设备平台进行用户群划分,例如某母婴APP中,将用户属性按照用户身份划分为:经期少女用户、备孕用户、怀孕用户、辣妈用户等,或者将用户属性按照用户设备平台划分为:ios用户、Android用户等,U额可以根据终端价位区间进行用户属性划分,可根据实际需求进行选择或结合。
用户所属地域指根据用户注册地域或终端登录地域进行用户群划分,例如:超一线城市用户、一线城市用户、二线城市用户、三线城市用户、四线城市用户、五线城市用户等,因为不同地域的用户具有文化上的相似性,因此根据用户所属地域划分用户有一定的参考性。用户年龄区间即按照用户年龄进行用户群划分,不同年龄段的用户由于生长背景、时代限制等导致其关注的内容有较明显的区分。
本实施例中,可以依据上述特征将用户群进一步细分成数百个小群体,以达到用户画像更为准确,精确判断用户归属的目的。
S332:分别统计每个用户群中第二预设排名的热门内容,例如,分别统计每个小群体用户点击率高内容作为热门内容,第二预设排名可选的为Top10等。热门内容的选择,可选的根据步骤S221中的内容排序策略得到。
S333:根据当前用户特征判断其所属的用户群,召回所属用户群的热门内容。即在进行内容召回时,首先依据当前用户特征对其进行用户群划分,将其归类到精确细分的用户群中,再依据当前的用户群获取该用户群依据点击率排序的推荐内容进行召回。
4)用户兴趣召回策略具体为:
S341:获取当前用户的兴趣标签,兴趣标签即根据用户行为画像对当前用户进行归类得到的标签特征,可选的,根据用户行为得到的标签特征,例如当前用户经常搜索“游泳”、“化妆”等,即可为当前用户设置“游泳”、“化妆”等兴趣标签,一般来说,每个内容平台均有自身的标签***,可根据用户的行为进行用户画像。
S342:获取当前用户每个兴趣标签下第三预设排名的内容构成热门内容,在一个具体实施方式中,针对用户每个兴趣标签下的内容,设置第三预设排名为Top5,即获取每个兴趣标签下Top5的热门内容,进一步地,为了提高计算效率,可以根据用户历史使用行为对兴趣标签按照点击率进行排名,获取排名靠前的几个兴趣标签来获取其热门内容,例如获取排名靠前的3~6个兴趣标签等。
S343:根据排序规则对热门内容进行排序得到推荐内容,本实施例中,排序规则可选的为:根据点击率×当前兴趣标签的权重进行热门内容排序,兴趣标签的权重可以根据当前用户的行为频率进行分析得到,如果当前用户为新用户,则根据大量用户的行为频率统计得到。
S344:将推荐内容进行召回。
5)语义标签召回策略包括:其特征在于,所述语义标签召回策略包括:获取内容池中新增内容的类别标签,将所述类别标签与用户画像中的内容兴趣标签进行匹配召回。
这是对内容池新增内容的冷启动曝光推荐,由于这些新增内容还没被曝光过,没有用户曝光、点击行为数据,通过对新增内容进行分析根据分类器得到类别标签,然后用类别标签与用户画像的内容兴趣标签进行匹配,做冷启动曝光推荐本实施例中,根据item-based协同过滤算法计算类别标签和用户画像的内容兴趣标签之间的相似度。
简而言之是根据用户喜欢的内容推荐与之相似的内容,例如用户A喜欢内容A1,则为用户A推荐内容A2、内容A3等与内容A1相似的内容,而不是推荐H9等相似度低的内容。比如,某母婴APP中,用户搜索“婴儿胀气怎么解决”,则为其推荐与婴儿胀气、婴儿喂养、婴儿抚触等相关的内容,而不是婴儿玩具、婴儿绘本等相似度低的内容。
基于用户的协同过滤指:判断与当前用户内容偏好一致的相似用户,获取相似用户偏好但当前用户未浏览的内容进行召回,计算相似用户的方法为user-based协同过滤算法。例如判断用户A和用户B之间浏览内容的相似度很高,即定义用户B为用户A的内容偏好一致的相似用户,因此将用户B偏好的内容,但是用户A未曾浏览过的内容对用户A进行召回,以满足用户A的内容获取需求。
具体的,步骤S4中,初筛包括:曝光初筛和负评价初筛;
其中曝光初筛指:过滤已经给用户曝光过的内容。
例如,召回的内容中包含当前用户已经浏览过的内容,则称这部分内容为曝光过的内容,避免用户浏览到重复内容而影响使用体验,需要将这些内容进行过滤。
负评价初筛指:获取用户历史负反馈信息,将与负反馈信息同类型的内容进行过滤。
负反馈指用户根据反馈标签在历史浏览过程进行的负反馈,例如:“不感兴趣”、“内容质量低”、“不看该作者”、“不看哈士奇”、“不看狗”、“不看宝宝”等具体的根据实际应用场景确定的负反馈标签。例如用户选择“不感兴趣”,则将召回的内容中与这篇内容的负反馈标签相同或者相似的内容进行过滤,即过滤与当前用户曾经负反馈过的内容相似的且同类别的内容,或者当前用户屏蔽作者的内容等。
进一步地,步骤S4中,排序算法模型表示为:
Score=a*f1+b*f2+c*f3
其中,Score表示召回内容的得分,f1是推荐模型返回的分数,f2表示召回内容的平均阅读完成率,f3表示召回内容的平均阅读时长,a、b、c分别表示f1、f2、f3对应的权重值。
可选的,推荐模型采用DIN模型为深度兴趣网络(Deep Interest Network,DIN),是在阿里巴巴的广告推荐***中研发并使用的模型,其受机器翻译模型中的attention机制的启发,DIN也是用兴趣权重来表示用户兴趣的多样性,并设计了一个attention-like的神经网络根据候选广告去激活相关的兴趣,跟候选广告有更强相关性的行为会获得更高的attention值,从而更显著地影响预测结果。本实施例中,将待排序内容输入到DIN模型中进行初步排序得到一个初步排序列表,每一个该列表中的待排序内容都有一个对应的attention值,即本实施例中的推荐模型返回的分数。
阅读完成率指:根据用户在内容上停留时长判断是否为有效阅读,然后根据内容总字数和当前已曝光字数计算得到阅读完成率。
例如可选的方式是对文本内容是通过阅读的字数预估完成率,对视频内容通过播放的时长预估完成率。例如一种具体实施方式中采用下面的方式:通过App客户端记录并上报用户在文章详情页上下滑动事件和停留的时间,阅读完成率会依据两个数据计算:1.文章详情页当前区域停留的时长(并与预设曝光时长阈值进行比较,例如设置为1.5s,可以根据实际需求进行更改);2.文章详情页已曝光的内容。例如用户阅读一篇1000字的文章,点击进入详情页后,手机屏幕上只曝光了前600字内容,用户在这个页面停留8s后,向下滑动屏幕,又曝光200字内容,但是只停留1s就退出文章详情页。阅读完成率按有效曝光内容的占比计算,即600/1000=60%,前600字内容,有效曝光且停留足够时长,认为是有效阅读;后200字内容有曝光,但是停留时长小于预设曝光时长阈值,不认为是有效阅读;最后200字内容无曝光,也不认为是有效阅读。
平均阅读时长排序指:根据每个内容的平均阅读时长进行排序,即使用同类人群对该篇文章阅读的统计时长,平均阅读时长为统计值,获取这篇内容曝光的用户数以及曝光时长统计得到平均阅读时长。
通过排序策略的结合,对内容进行有效排序,提高了召回内容后排序的准确性,避免标题党等内容影响用户使用体验,提高用户粘性以及内容的转化率。
本实施例中,排序算法可选的是***的wide&deep算法模型或者DIN(deepinterest network)模型进行建模。wide&deep算法模型是TensorFlow在2016年6月左右发布的一类用于分类和回归的模型,主要用于APP的推荐,wide是指广义线性模型(WideLinear Model)deep是指深度神经网络(Deep Netural Network),wide&deep模型的核心思想是结合线性模型的记忆能力(memorization)和DNN模型的泛化能力(generalization),在训练过程中同时优化2个模型的参数,从而达到整体模型的预测能力最优,同时训练wide模型和deep模型,并将两个模型的结果的加权作为最终的预测结果。其中,记忆(memorization)即从历史数据中发现item或者特征之间的相关性,泛化(generalization)即相关性的传递,发现在历史数据中很少或者没有出现的新的特征组合。
进一步地,步骤S5中,获取当前用户对初步召回内容的反馈结果,根据反馈结果进行召回审核,其中召回审核包括:根据用户负面评论召回审核和根据用户负反馈召回审核。
经过步骤S4后,将初步召回的结果进行综合排序,上线并经过推荐引擎分发给相关的用户,然后监控内容上线后用户的反馈结果,对召回的内容进行审核,召回审核策略分为两类,为根据用户负面评论召回审核、根据用户负反馈召回审核或指标异常召回审核。
可以择一选择也可结合使用。
其中,根据用户负面评论召回审核的过程为:
设定负面评价关键词列表,例如:“瞎编”、“错别字”、“乱七八糟”、“卸载xx”、“小编脑残”等,可根据平台实际运行过程进行补充及修改。当用户对召回的内容评论中包含负面关键词时,对应的召回文章进入审核列表,进行召回审核,审核后进行修改或下线操作等。
根据用户负反馈召回审核的过程为:
在平台(如客户端等)页面的文章底部,提供负反馈选项,方便用户在对文章不满意时能够进行反馈与投诉,负反馈包括如:广告、重复、旧闻、格式问题、低俗内容、标题夸张、与事实不符、文章质量差、疑似抄袭、举报等供用户进行选择。根据召回文章收到的负反馈数量进行排序,将负反馈多、举报数高的文章进行负反馈召回审核,审核后进行修改或下线操作等。
根据指标异常召回审核的过程为:
获取所初步召回内容的反馈结果的评价指标参数,评价指标包括:点击率、用户转化率、阅读时长的一种或多种,将评价指标参数与预设评价指标标准值进行比较,如果出现异常评价结果,则对初步召回内容进行召回审核。例如如果初步召回的内容的点击率小于预设曝光点击率、或者初步召回内容中导流设置的用户转化率低于预设转化率、或者初步召回内容阅读时长低于预设阅读时长时,都能够推测用户对待召回内容的关注度和满意度不高,因此可以对初步召回内容进行召回审核,其中预设曝光点击率、预设转化率和预设阅读时长可以根据实际需要进行设置,或者根据深度学习过程进行学习得出较为合适的阈值,在此不做限定。
本实施例通过召回审核策略选择出需要召回审核的内容,对被召回审核策略召回的内容停止或者减少后续曝光,进入人工审核环节。人工审核的处理结果,包括对内容进行下线、内容修改、限制曝光(例如:仅作者和关注用户可见)、不推荐(例如:仅搜索可见,但不在feeds流推荐)等,通过对内容小范围曝光的及时召回审核处理,能够及时发现和处置负面及用户反感内容,同时能避免这些内容的扩散与传播。
实施例二:
本实施例提供一种内容推荐装置,用于执行如实施例一所述的方法。如图3所示,为本实施例一种内容推荐装置结构框图,包括:
内容识别模块10:用于获取内容池中多项待分类内容并进行内容识别,得到为文本内容或视频图像内容的内容识别结果;
内容分类模块20:用于根据所述内容识别的结果选择对应的内容分类模型对所述待分类内容进行内容分类得到待召回内容,所述内容分类模型包括:文本分类模型和视频图像分类模型;
内容召回模块30:用于根据召回策略对所述待召回内容进行初步召回得到召回内容;
内容排序模块40:用于根据不同的排序策略分别对所述召回内容进行排序得到初步排序列表,将所述初步排序列表进行整合得到推荐内容列表。
召回审核模块50:用于获取当前用户对初步召回内容的反馈结果,根据反馈结果进行召回审核。
另外,本发明还提供内容推荐设备,包括:
至少一个处理器,以及与所述至少一个处理器通信连接的存储器;
其中,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如实施例一所述的方法。
另外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,其中计算机可执行指令用于使计算机执行如实施例一所述的方法。
本发明通过获取内容池中多项待分类内容并进行内容识别,根据内容识别的结果选择对应的内容分类模型对待分类内容进行内容分类得到待召回内容,根据召回策略对待召回内容进行初步召回得到召回内容,根据排序策略对召回内容进行初筛得到待排序内容,然后对待排序内容进行综合排序得到推荐内容。
以上各实施例仅用以说明本发明的技术方案,而非对其限制,尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.一种内容推荐方法,其特征在于,包括:
获取内容池中多项待分类内容并进行内容识别,得到为文本内容或视频图像内容的内容识别结果;
根据所述内容识别结果选择对应的内容分类模型对所述待分类内容进行内容分类得到待召回内容,所述内容分类模型包括:文本分类模型和视频图像分类模型;
根据召回策略对所述待召回内容进行初步召回得到召回内容,所述召回策略包括以下至少一种:内容关注召回策略、热门内容召回策略、人群属性召回策略、用户兴趣召回策略、语义标签召回策略,其中,所述人群属性召回策略为根据用户特征细分得到用户群的召回策略,所述语义标签召回策略包括获取内容池中新增内容的类别标签,将所述类别标签与用户画像中的内容兴趣标签进行匹配召回;
根据推荐模型对所述召回内容进行排序得到初步排序列表,将所述初步排序列表使用排序算法模型进行二次排序,整合得到推荐内容列表;
其中,所述推荐模型包括DIN模型,所述排序算法模型为:根据推荐模型分数、阅读完成率和内容阅读时长进行排序;
所述排序算法模型表示为:
Score=a*f1+b*f2+c*f3
其中,Score表示所述召回内容的得分,f1是所述推荐模型返回的分数,f2表示所述召回内容的平均阅读完成率,f3表示所述召回内容的平均阅读时长,a、b、c分别表示f1、f2、f3对应的权重值;
所述阅读完成率指:根据用户在内容上停留时长判断是否为有效阅读,若为有效阅读,根据内容总字数和当前已曝光字数计算得到阅读完成率。
2.根据权利要求1所述的一种内容推荐方法,其特征在于,所述文本分类模型为长短期记忆神经网络分类器或BERT模型;
构建所述文本分类模型的过程具体为:
获取所述文本分类模型的文本训练样本集及对应的分类标签;
对所述文本训练样本集进行文本分词得到多个特征词进行文本预处理,并计算所述特征词的词向量;
根据所述词向量生成文档模型;
将所述文档模型和所述分类标签输入到所述文本分类模型中进行模型参数训练。
3.根据权利要求2所述的一种内容推荐方法,其特征在于,所述视频图像分类模型为残差神经网络;
构建所述视频图像分类模型的过程具体为:
收集图像样本并进行图像分类标注;
对所述图像样本进行样本扩展得到图像样本,所述样本扩展包括:平移、翻转、剪切、缩放;
根据所述图像样本生成图像训练样本集;
将所述图像训练样本集和所述图像分类标注输入到所述视频图像分类模型中进行模型参数训练;
当所述视频图像内容的内容为视频时,通过截取所述视频的预设帧图像作为图像样本。
4.根据权利要求1所述的一种内容推荐方法,其特征在于,还包括:获取当前用户对所述召回内容的反馈结果,根据所述反馈结果进行召回审核,召回审核策略包括:根据用户负面评论召回审核和/或根据用户负反馈召回审核和/或指标异常召回审核。
5.根据权利要求1至4任一项所述的一种内容推荐方法,其特征在于,所述根据召回策略对所述待召回内容进行初步召回得到召回内容之后还包括初筛,所述初筛包括:曝光初筛和负评价初筛;
所述曝光初筛指:过滤已经给用户曝光过的内容;
所述负评价初筛指:获取用户历史负反馈信息,将与所述负反馈信息同类型的内容进行过滤。
6.一种内容推荐装置,其特征在于,包括:
内容识别模块:用于获取内容池中多项待分类内容并进行内容识别,得到为文本内容或视频图像内容的内容识别结果;
内容分类模块:用于根据所述内容识别的结果选择对应的内容分类模型对所述待分类内容进行内容分类得到待召回内容,所述内容分类模型包括:文本分类模型和视频图像分类模型;
内容召回模块:用于根据召回策略对所述待召回内容进行初步召回得到召回内容,所述召回策略包括以下至少一种:内容关注召回策略、热门内容召回策略、人群属性召回策略、用户兴趣召回策略、语义标签召回策略,其中,所述人群属性召回策略为根据用户特征细分得到用户群的召回策略,所述语义标签召回策略包括获取内容池中新增内容的类别标签,将所述类别标签与用户画像中的内容兴趣标签进行匹配召回;
内容排序模块:用于根据推荐模型对所述召回内容进行排序得到初步排序列表,将所述初步排序列表使用排序算法模型进行二次排序,整合得到推荐内容列表;
其中,所述推荐模型包括DIN模型,所述排序算法模型为:根据推荐模型分数、阅读完成率和内容阅读时长进行排序;
所述排序算法模型表示为:
Score=a*f1+b*f2+c*f3
其中,Score表示所述召回内容的得分,f1是所述推荐模型返回的分数,f2表示所述召回内容的平均阅读完成率,f3表示所述召回内容的平均阅读时长,a、b、c分别表示f1、f2、f3对应的权重值;
所述阅读完成率指:根据用户在内容上停留时长判断是否为有效阅读,若为有效阅读,根据内容总字数和当前已曝光字数计算得到阅读完成率。
7.一种内容推荐设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述至少一个处理器通过调用所述存储器中存储的计算机程序,用于执行如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至5任一项所述的方法。
CN201911157198.3A 2019-11-22 2019-11-22 内容推荐方法及装置 Active CN111008278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911157198.3A CN111008278B (zh) 2019-11-22 2019-11-22 内容推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911157198.3A CN111008278B (zh) 2019-11-22 2019-11-22 内容推荐方法及装置

Publications (2)

Publication Number Publication Date
CN111008278A CN111008278A (zh) 2020-04-14
CN111008278B true CN111008278B (zh) 2022-06-21

Family

ID=70112890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911157198.3A Active CN111008278B (zh) 2019-11-22 2019-11-22 内容推荐方法及装置

Country Status (1)

Country Link
CN (1) CN111008278B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523041B (zh) * 2020-04-30 2023-03-24 掌阅科技股份有限公司 热度数据的推荐方法、计算设备及计算机存储介质
CN112464006A (zh) * 2020-06-14 2021-03-09 黄雨勤 基于人工智能和互联网的数据分析方法及***
CN111859126B (zh) * 2020-07-09 2024-05-14 有半岛(北京)信息科技有限公司 推荐项目确定方法、装置、设备及存储介质
CN112015923A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 一种多模态数据检索方法、***、终端及存储介质
CN112073582B (zh) * 2020-09-09 2021-04-06 中国海洋大学 基于触摸行为序列的智能手机使用情境识别方法
CN112165639B (zh) * 2020-09-23 2024-02-02 腾讯科技(深圳)有限公司 内容分发方法、装置、电子设备以及存储介质
CN112464083A (zh) * 2020-11-16 2021-03-09 北京达佳互联信息技术有限公司 模型训练方法、作品推送方法、装置、电子设备及存储介质
CN112435091B (zh) * 2020-11-23 2024-03-29 百果园技术(新加坡)有限公司 推荐内容的选择方法、装置、设备及存储介质
CN114564556A (zh) * 2020-11-27 2022-05-31 北京搜狗科技发展有限公司 一种词条推荐方法、装置和用于推荐词条的装置
CN112579771B (zh) * 2020-12-08 2024-05-07 腾讯科技(深圳)有限公司 一种内容的标题检测方法及装置
CN112800223A (zh) * 2021-01-26 2021-05-14 上海明略人工智能(集团)有限公司 基于长文本标签化的内容召回方法及***
CN112836085A (zh) * 2021-02-08 2021-05-25 深圳市欢太科技有限公司 一种权重调整方法及装置、存储介质
CN112800234B (zh) * 2021-04-15 2021-06-22 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备和存储介质
CN113297398B (zh) * 2021-05-24 2024-06-21 百果园技术(新加坡)有限公司 一种用户召回方法、装置、计算机设备和存储介质
CN113435983A (zh) * 2021-07-21 2021-09-24 陕西科技大学 一种基于机器视觉与改进神经网络的个性化商品推荐方法
CN115730111B (zh) * 2021-09-01 2024-02-06 腾讯科技(深圳)有限公司 内容分发方法、装置、设备及计算机可读存储介质
CN114936885B (zh) * 2022-07-21 2022-11-04 成都薯片科技有限公司 广告信息匹配推送方法、装置、***、设备及存储介质
CN116108267A (zh) * 2022-12-19 2023-05-12 华为技术有限公司 一种推荐方法及相关设备
CN116484091B (zh) * 2023-03-10 2024-07-19 湖北天勤伟业企业管理有限公司 卡牌信息程序交互方法和装置
CN117788105A (zh) * 2023-12-25 2024-03-29 公安县谦合广告装饰有限公司 一种基于互联网的电商在线直播方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095949A (zh) * 2016-06-14 2016-11-09 东北师范大学 一种基于混合推荐的数字化图书馆资源个性化推荐方法与***
CN107679564A (zh) * 2017-09-20 2018-02-09 北京百度网讯科技有限公司 样本数据推荐方法及其装置
CN109086439A (zh) * 2018-08-15 2018-12-25 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN110263189A (zh) * 2019-06-24 2019-09-20 腾讯科技(深圳)有限公司 媒体内容的推荐方法、装置、存储介质和计算机设备
CN110442796A (zh) * 2019-08-14 2019-11-12 北京思维造物信息科技股份有限公司 一种推荐策略分桶方法、装置及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10536728B2 (en) * 2009-08-18 2020-01-14 Jinni Content classification system
US9348899B2 (en) * 2012-10-31 2016-05-24 Open Text Corporation Auto-classification system and method with dynamic user feedback

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095949A (zh) * 2016-06-14 2016-11-09 东北师范大学 一种基于混合推荐的数字化图书馆资源个性化推荐方法与***
CN107679564A (zh) * 2017-09-20 2018-02-09 北京百度网讯科技有限公司 样本数据推荐方法及其装置
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN109086439A (zh) * 2018-08-15 2018-12-25 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN110263189A (zh) * 2019-06-24 2019-09-20 腾讯科技(深圳)有限公司 媒体内容的推荐方法、装置、存储介质和计算机设备
CN110442796A (zh) * 2019-08-14 2019-11-12 北京思维造物信息科技股份有限公司 一种推荐策略分桶方法、装置及设备

Also Published As

Publication number Publication date
CN111008278A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111008278B (zh) 内容推荐方法及装置
CN109492157B (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
Buber et al. Web page classification using RNN
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
Hayat et al. Towards deep learning prospects: insights for social media analytics
Mai et al. Joint sentence and aspect-level sentiment analysis of product comments
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN111460252B (zh) 一种基于网络舆情分析的自动化搜索引擎方法及***
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
CN112348629A (zh) 一种商品信息推送方法和装置
US12020267B2 (en) Method, apparatus, storage medium, and device for generating user profile
CN110990695A (zh) 推荐***内容召回方法及装置
CN112633690A (zh) 服务人员信息分配方法、装置、计算机设备和存储介质
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN110825974B (zh) 推荐***内容排序方法及装置
CN118014622A (zh) 一种基于用户画像的广告推送方法及***
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Liu et al. Oasis: online analytic system for incivility detection and sentiment classification
Berg et al. Do you see what I see? Measuring the semantic differences in image‐recognition services' outputs
CN111859165A (zh) 一种基于用户行为的实时个性化信息流推荐方法
Li et al. Deep recommendation based on dual attention mechanism
TWI847119B (zh) 社群網路社團危機資訊管理之系統、方法以及電腦程式產品
US20240020336A1 (en) Search using generative model synthesized images
Akalya et al. NARS: News Aggregation and Recommendation System.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant