CN113569557A - 信息的质量识别方法、装置、设备、存储介质及程序产品 - Google Patents

信息的质量识别方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN113569557A
CN113569557A CN202111127146.9A CN202111127146A CN113569557A CN 113569557 A CN113569557 A CN 113569557A CN 202111127146 A CN202111127146 A CN 202111127146A CN 113569557 A CN113569557 A CN 113569557A
Authority
CN
China
Prior art keywords
information
quality
quality parameter
features
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111127146.9A
Other languages
English (en)
Other versions
CN113569557B (zh
Inventor
王晨琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111127146.9A priority Critical patent/CN113569557B/zh
Publication of CN113569557A publication Critical patent/CN113569557A/zh
Application granted granted Critical
Publication of CN113569557B publication Critical patent/CN113569557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种信息的质量识别方法、装置、设备、计算机可读存储介质及计算机程序产品,应用于车联网领域以及人工智能技术领域;方法包括:在第一阶段中获取信息的至少两个维度的特征,对至少两个维度的特征进行特征组合处理,得到信息的组合特征,以及基于所述组合特征确定所述信息的第一质量参数;其中,第一阶段是对信息进行上线推荐之前的时期;在第二阶段中获取与信息的推荐过程相关的交互特征,基于交互特征确定信息的第二质量参数,以及结合第一质量参数及第二质量参数,确定信息的质量识别结果;其中,第二阶段是对信息进行上线推荐的时期。通过本申请,能够准确识别信息的质量进而提升推荐精度。

Description

信息的质量识别方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及车联网领域以及人工智能技术领域,尤其涉及一种信息的质量识别方法、装置、设备、计算机可读存储介质及计算机程序产品。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。
人工智能技术广泛应用于推荐***中,例如,通过推荐***将信息推荐给用户,由于信息的质量参差不齐,所以统一的推荐方案将会出现大量的低质量信息被推荐的情况,影响了推荐***的精度和用户体验。
相关技术缺乏有效的方案来识别信息的质量以提升推荐***的推荐精度和用户体验。
发明内容
本申请实施例提供一种信息的质量识别方法、装置、设备、计算机可读存储介质及计算机程序产品,能够准确识别信息的质量,以提升推荐***的推荐精度和用户体验。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息的质量识别方法,包括:
在第一阶段中获取所述信息的至少两个维度的特征,对所述至少两个维度的特征进行特征组合处理,得到所述信息的组合特征,以及基于所述组合特征确定所述信息的第一质量参数;其中,所述第一阶段是对所述信息进行上线推荐之前的时期;
在第二阶段中获取与所述信息的推荐过程相关的交互特征,基于所述交互特征确定所述信息的第二质量参数,以及结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果;其中,所述第二阶段是对所述信息进行上线推荐的时期。
本申请实施例提供一种信息的质量识别装置,包括:
第一确定模块,用于在第一阶段中获取所述信息的至少两个维度的特征,对所述至少两个维度的特征进行特征组合处理,得到所述信息的组合特征,以及基于所述组合特征确定所述信息的第一质量参数;其中,所述第一阶段是对所述信息进行上线推荐之前的时期;
第二确定模块,用于在第二阶段中获取与所述信息的推荐过程相关的交互特征,基于所述交互特征确定所述信息的第二质量参数;
第三确定模块,用于结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果;其中,所述第二阶段是对所述信息进行上线推荐的时期。
上述方案中,所述第二确定模块,还用于在第二阶段中周期性地获取与所述信息的推荐过程相关的交互数据,并从所述交互数据中提取对应的交互特征,其中,所述周期基于所述交互数据的采样时长或采集数量划分的;
基于每个周期的所述交互特征,确定所述信息在所述每个周期的第二质量参数;
所述第三确定模块,还用于结合所述第一质量参数及所述每个周期的第二质量参数,确定所述信息在所述每个周期的周期质量识别结果;
根据所述信息在所述每个周期的周期质量识别结果,确定所述信息的质量变化趋势满足的正态分布,将所述正态分布的参数作为所述信息的整体质量识别结果,其中,所述参数包括质量参数均值和质量参数方差。
上述方案中,所述第二确定模块,还用于在第二阶段的采样窗口中采集与所述信息的推荐过程相关的交互数据,并从所述交互数据中提取对应的交互特征,其中,所述采样窗口的类型包括:设定时长采样窗口、设定数据量采样窗口;
基于所述交互数据确定所述采样窗口中的第二质量参数;
所述第三确定模块,还用于将所述第一质量参数及所述采样窗口中的第二质量参数进行融合处理,将得到的第三质量参数作为质量识别结果。
上述方案中,所述装置还包括:
信息屏蔽模块,用于根据所述质量识别结果表征所述信息是需要屏蔽的低质信息时,根据所述信息的低质等级确定对应的屏蔽模式,并对所述信息应用对应的屏蔽模式;
其中,所述屏蔽模式包括以下至少之一:在推荐***的排序环节中对所述信息进行降权处理;在推荐***的召回结果中对所述信息进行暂时过滤;在推荐***的召回结果中对所述信息进行永久过滤。
上述方案中,所述第一确定模块,还用于在第一阶段中执行以下多个操作中的至少两个操作:
获取表征所述信息的内容结构特征,其中,所述内容结构特征用于表征信息的内容结构的质量;
获取所述信息的账号特征,其中,所述账号特征包括发布所述信息的账号的等级;
获取所述信息的内容理解特征,其中,所述内容理解特征表征所述信息所属的至少一种质量类别,且每个所述质量类别均是需要在所述第二阶段中被屏蔽推荐。
上述方案中,所述第一确定模块,还用于获取所述信息的以下连续特征至少之一:标题长度、图像数量、图文比例、文本长度;
对所述连续特征进行离散化处理,得到对应的离散特征;
将至少一个所述连续特征对应的离散特征作为所述信息的内容结构特征。
上述方案中,所述第一确定模块,还用于对所述信息中的至少两个词语进行编码处理,得到每个所述词语的向量表示,并基于每个所述词语的位置以及向量表示进行迭代编码处理,得到所述信息的编码特征;
对所述信息的编码特征进行映射处理,得到所述信息的映射特征,并对所述映射特征进行偏置处理,得到所述信息的内容理解特征。
上述方案中,所述第一确定模块,还用于对所述信息进行分词处理,得到至少两个词语,并对所述至少两个词语进行向量转换,得到每个词语对应的向量表示;
根据每个所述词语在所述信息中的位置,对每个词语对应的向量表示进行位置嵌入处理,得到每个所述词语对应的位置编码;
将每个所述词语对应的向量表示与所述位置编码进行加和处理,确定对应每个所述词语的编码特征。
上述方案中,所述位置编码的维度与所述词语的向量表示的维度相同;所述第一确定模块,还用于当所述位置编码中维度的序号为偶数时,根据正弦函数确定所述位置编码中对应所述维度的编码值,其中,所述正弦函数以所述词语在所述信息中的排序位置、以及位置编码维度为参数;
当所述位置编码中维度的序号为奇数时,根据余弦函数确定所述位置编码中对应所述维度的编码值,其中,所述余弦函数以所述词语在所述信息中的排序位置、位置编码维度为参数。
上述方案中,所述第一确定模块,还用于对所述组合特征中的第一部分特征进行特征***,得到所述信息的***特征;
对所述信息的***特征及所述组合特征中的第二部分特征进行特征组合处理,得到所述信息的逻辑回归特征,其中,所述第一部分特征的区分度大于所述第二部分特征的区分度;
基于所述逻辑回归特征对所述信息进行质量参数预测处理,得到所述信息的第一质量参数。
上述方案中,所述交互特征包括表征偏好所述信息的正向交互特征和表征不偏好所述信息的负向交互特征;所述第二确定模块,还用于基于每个维度的所述正向交互特征的第一权重,对每个维度的所述正向交互特征进行加权求和处理,并确定与第一加权求和处理结果负相关的正向质量参数;
基于每个维度的所述负向交互特征的第二权重,对每个维度的所述负向交互特征进行加权求和处理,并确定与第二加权求和结果正相关的负向质量参数;
对所述正向质量参数与所述负向质量参数进行求和处理,得到所述信息的第二质量参数;
其中,所述正向交互特征的取值与所述正向质量参数的大小呈负相关关系,所述负向交互特征的取值与所述负向质量参数的大小呈正相关关系,所述第二质量参数的取值与所述信息的质量呈负相关关系。
上述方案中,所述装置还包括:
特征处理模块,用于获取表征偏好所述信息的以下连续正向交互特征至少之一:点赞量、点击量、评论量、分享量;
对所述连续正向交互特征进行离散化处理,得到对应的离散正向特征;
将至少一个所述连续正向交互特征对应的离散正向特征作为所述正向交互特征。
上述方案中,所述装置还包括:权重确定模块,用于根据每个维度的所述正向交互特征和每个维度的所述负向交互特征对所述信息的质量识别结果的影响程度,确定相应的所述第一权重和所述第二权重;或者,确定所述信息所属的质量类别,并根据所述质量类别确定与所述质量类别相适配的所述第一权重和所述第二权重;或者,确定所述信息所属的信息类别,并根据所述信息类别确定与所述信息类别相适配的所述第一权重和所述第二权重。
上述方案中,所述第三确定模块,还用于对所述第一质量参数及所述第二质量参数进行相乘处理,将得到的第三质量参数作为所述信息的质量识别结果;或者,对所述第一质量参数及所述第二质量参数进行加权求和处理,将得到的第三质量参数作为所述信息的质量识别结果。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息的质量识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的信息的质量识别方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本申请实施例提供的信息的质量识别方法。
本申请实施例具有以下有益效果:
在对信息进行上线推荐之前,根据信息的多个维度的特征确定信息的第一质量参数,在对信息进行上线推荐的期间,根据与信息的推荐过程相关的交互特征确定信息的第二质量参数,并结合第一质量参数和第二质量参数确定信息的质量识别结果;从多个维度综合考虑上线推荐前和上线推荐过程中信息的质量参数,能够提高最终得到的质量识别结果的精确性,为推荐***提供准确的参考数据进而提升推荐精度和用户体验。
附图说明
图1是本申请实施例提供的信息推荐***10的架构示意图;
图2是本申请实施例提供的用于信息的质量识别的电子设备500的结构示意图;
图3A是本申请实施例提供的信息的质量识别方法的流程示意图;
图3B是本申请实施例提供的内容理解特征的获取方法示意图;
图3C是本申请实施例提供的第一质量参数的确定方法示意图;
图3D是本申请实施例提供的质量识别结果的确定方法示意图;
图3E是本申请实施例提供的质量识别结果的确定方法示意图;
图3F是本申请实施例提供的第二质量参数的确定方法示意图;
图4为本申请实施例提供的质量参数预测示意图;
图5为本申请实施例提供的信息屏蔽推荐处理示意图;
图6是本申请实施例提供的Bert预训练示意图;
图7是本申请实施例提供的文本分类模型的训练示意图;
图8是本申请实施例提供的先验质量得分的获取示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)终端程序:运行在终端上的各种可接受消息及信息流的应用,如即时通信应用、新闻浏览应用等。
2)信息流产品:终端程序的一种产品形式,可以在这种产品上获得各种视频、音频、文本、图文等信息。
3)机器学习(ML,Machine Learning):是人工智能的核心,属于人工智能的一个分支,让计算机拥有像人一样的学习能力,模拟和实现人的学习行为和能力,可以像人一样具有识别和判断的能力,可以看作是仿生学。机器学习的核心在于数据、算法(模型)和算力(计算机运算能力),它涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
4)自然语言处理(NLP,Natural Language Processing):是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
5)梯度提升树(GBDT,Gradient Boosting Decision Tree):是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。XGBoost是梯度提升树模型的一种,将损失函数作二阶泰勒展开,利用损失函数的二阶导数信息优化损失函数,根据损失函数是否减小来贪心的选择是否***节点;同时,XGBoost在防止过拟合方面加入了正则化、学习率、列采样、近似最优分割点等手段。
6)逻辑回归(LR,Logistic regression)模型,是一种对数几率模型,用于对输入特征进行二分类结果预测。
7)质量参数:用于反映待推荐信息或已推荐信息的质量高低的统计指标,可用信息的质量分数或信息的转化率等来表征。二者的关系是可以正相关或负相关。
例如,质量参数的取值越大,信息的质量就越低,即二者正相关。此时,质量参数是通过质量参数模型得到的,且在模型训练阶段以与信息质量呈负相关的质量参数为标签的信息样本训练得到质量参数模型。
又例如,质量参数的取值越大,信息的质量就越低,即二者负相关,此时,质量参数模型是以与信息质量呈正相关的质量参数为标签的信息样本训练得到的。
为了方便描述,在没有特别说明的情况下,下文以质量参数的取值与信息的质量负相关为例说明。
本申请实施例提供一种信息的质量识别方法、装置、设备、存储介质及计算机程序产品,能够准确识别信息的质量以提升推荐***的推荐精度和用户体验。
本申请实施例提供的信息的质量识别方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。例如终端独自执行下文所述的信息的质量识别方法,或者,终端向服务器发送识别请求,服务器根据接收的识别请求执行信息的质量识别方法。
本申请实施例提供的用于信息的质量识别的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为信息的质量识别服务,即云端的服务器封装有本申请实施例提供的信息的质量识别程序。用户通过终端(运行有客户端,例如即时通信客户端、直播客户端、短视频客户端、社交客户端等)调用云服务中的信息的质量识别服务,以使部署在云端的服务器调用封装的信息的质量识别程序,确定信息的质量识别结果,并基于质量识别结果对信息执行相应的操作,例如,在召回阶段对识别出的低质信息进行过滤;在排序阶段对识别出的低质信息进行降权排序或过滤等。
在一些实施例中,以服务器单独实施本申请实施例提供的信息的质量识别方法为例进行说明。在对信息进行上线推荐之前的第一阶段,服务器获取信息的至少两个维度的特征,对至少两个维度的特征进行特征组合处理,得到信息的组合特征,以及基于组合特征确定信息的第一质量参数;在对信息进行上线推荐之后的第二阶段,服务器获取与信息的推荐过程相关的交互特征,基于交互特征确定信息的第二质量参数,以及结合第一质量参数及第二质量参数,确定信息的质量识别结果。
在一些实施例中,以服务器和终端协同实施本申请实施例提供的信息的质量识别方法为例进行说明。参见图1,图1是本申请实施例提供的信息推荐***10的架构示意图。终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400(运行有客户端,例如即时通信客户端、直播客户端、短视频客户端、社交客户端等)可以被用来获取针对用户的信息推荐请求,例如,当用户打开终端上运行的新闻客户端后,终端自动获取针对用户的新闻推荐请求。
在一些实施例中,终端获取信息推荐请求后,调用服务器200的信息推荐接口(可以提供为云服务的形式,即信息推荐服务),服务器200基于信息推荐请求,根据用户的用户数据(如年龄、性别、职业、受教育程度、消费水平等自有属性数据,或浏览、点击、收藏、购买等行为数据等)、物品数据(如信息的标签、类别或相关的交互数据等)、所处的上下文信息(如推荐场景)等特征,从待推荐信息库中召回符合用户上述特征的候选信息,对候选信息进行质量识别以根据质量识别结果确定候选信息是否属于低质信息,并对属于低质信息的候选信息应用相应的屏蔽模式。例如,在推荐***的召回环节,对低质信息暂时过滤或永久过滤,并对过滤后的候选信息进行排序;在推荐***的排序环节,对低质信息进行降权排序;从而将高质量的信息推荐给终端显示,避免质量低下的信息的广泛传播,间接提高整体信息质量,提高用户体验,有效保留初访用户和复访用户。
在一些实施例中,本申请实施例提供的信息的质量识别方法还可应用于与车联网服务(如加油、导航、停车、维修等)相关的信息推荐场景中,如在对车载终端进行信息推荐时,利用本申请实施例提供的质量识别方法对多个待推荐的候选信息进行质量识别,以根据质量识别结果确定候选信息是否属于低质信息,并对属于低质信息的候选信息应用相应的屏蔽模式,将不属于低质信息的候选信息推荐给车载终端,从而避免质量低下的信息的广泛传播,间接提高整体信息质量,提高了用户体验。
下面说明本申请实施例提供的用于信息的质量识别的电子设备的结构,参见图2,图2是本申请实施例提供的用于信息的质量识别的电子设备500的结构示意图,以电子设备500是服务器为例说明,图2所示的用于信息的质量识别的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的信息的质量识别装置可以采用软件方式实现,例如,可以是上文所述的服务器中质量识别服务或信息推荐服务,还可以是上文所述的终端中质量识别插件或信息推荐插件。当然,不局限于此,本申请实施例提供的信息的质量识别装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
在一些实施例中,本申请实施例提供的信息的质量识别装置可以采用软件方式实现,图2示出了存储在存储器550中的信息的质量识别装置555,其可以是程序和插件等形式的软件,包括以下软件模块:第一确定模块5551、第二确定模块5552和第三确定模块5553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明每个模块的功能。
在另一些实施例中,本申请实施例提供的信息的质量识别装置可以采用硬件方式实现,作为示例,本申请实施例提供的信息的质量识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的信息的质量识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面将结合附图对本申请实施例提供的信息的质量识别方法进行说明,下述信息的质量识别方法的执行主体可以为服务器,具体可以是服务器通过运行上文的各种计算机程序来实现的;当然,根据对下文的理解,不难看出也可以由终端和服务器协同实施本申请实施例提供的信息的质量识别方法。
参见图3A,图3A是本申请实施例提供的信息的质量识别方法的流程示意图,将结合图3A示出的步骤进行说明。
在步骤101中,服务器在第一阶段中获取信息的至少两个维度的特征,对至少两个维度的特征进行特征组合处理,得到信息的组合特征,以及基于组合特征确定信息的第一质量参数。
其中,第一阶段是对信息进行上线推荐之前的时期,也即信息未进入推荐流程的离线阶段。
在一些实施例中,步骤101中获取信息的至少两个维度的特征可通过在第一阶段中执行以下多个操作中的至少两个操作得到:获取表征信息的内容结构特征,其中,内容结构特征用于表征信息的内容结构的质量;获取信息的账号特征,其中,账号特征包括发布信息的账号的等级;获取信息的内容理解特征,其中,内容理解特征表征信息所属的至少一种质量类别,且每个质量类别均是需要在第二阶段中被屏蔽推荐。
在实际应用中,信息的内容结构用于表征组成信息的内容样式,例如,当信息为文本时,其内容结构可包括以下至少之一:标题长度、文本长度、图像数量、图文比例;当信息为视频时,其内容结构可包括以下至少之一:标题长度、视频时长、视频关联的描述信息;通过对信息的内容结构进行特征提取,得到标识信息的内容结构的质量的相关特征。信息的账号特征可基于发布信息的账号的等级来表征,账号的等级可根据账号的启用率、账号的活跃度、账号发布信息的数量或频率等来划分,通常情况下,账号的等级与其所发布信息的推荐量呈正相关关系,如权威账号所发布的信息的推荐量大于一般账号所发布信息的推荐量。信息的内容理解特征用于指示信息是否属于在第二阶段中被屏蔽推荐的质量类别,如当信息属于标题党、无营养文、广告文、旧闻等中至少之一的质量类别时,对信息进行屏蔽推荐。
在一些实施例中,服务器可通过如下方式获取表征信息的内容结构特征:获取信息的以下连续特征至少之一:标题长度、图像数量、图文比例、文本长度;对连续特征进行离散化处理,得到对应的离散特征;将至少一个连续特征对应的离散特征作为信息的内容结构特征。
在实际应用中,当多个连续特征处于不同的量纲时,为了平衡每个连续特征对信息的质量识别结果的影响,需对多个连续特征进行离散化处理,得到对应的离散特征,并将得到的离散特征作为信息的内容结构特征。在实际实施时,不同的连续特征,其对应的离散化处理方式可以是不同的,例如,根据统计,通常情况下信息的标题长度范围为0~50个字,图像数量为0~50个,由于数量较小,可直接将标题长度和图像数量作为信息的内容结构特征,但当标题长度范围较大(如大于100)、图像数量较大(如大于100)时,需对标题长度或图像数量进行缩放处理,其中,可根据情况设置缩放系数,如设置为5或10,同样地,文本长度范围为100~10000字之间,对文本长度进行缩放处理时,可设置较大的缩放系数,如设置为100;图文比用于表征文本长度与图像数量的比值,对图文比可采用如下公式(1)进行分箱处理:
Figure 4971DEST_PATH_IMAGE001
(1)
其中,
Figure 109062DEST_PATH_IMAGE002
为图文比、
Figure 560903DEST_PATH_IMAGE003
为文本长度、
Figure 378948DEST_PATH_IMAGE004
为图像数量。
在一些实施例中,参见图3B,图3B是本申请实施例提供的内容理解特征的获取方法示意图,上述获取信息的内容理解特征可通过图3B示出的步骤201至步骤202实现:
在步骤201中,对信息中的至少两个词语进行编码处理,得到每个词语的向量表示,并基于每个词语的位置以及向量表示进行迭代编码处理,得到信息的编码特征。
在一些实施例中,步骤201中对信息中的至少两个词语进行编码处理,得到每个词语的向量表示:对信息进行分词处理,得到至少两个词语,并对至少两个词语进行向量转换,得到每个词语对应的向量表示;相应的,步骤201中基于每个词语的位置以及向量表示进行迭代编码处理,得到信息的编码特征:根据每个词语在信息中的位置,对每个词语对应的向量表示进行位置嵌入处理,得到每个词语对应的位置编码;将每个词语对应的向量表示与位置编码进行加和处理,确定对应每个词语的编码特征。
这里,以对信息进行分词得到的词语为维度进行后续的编码处理,能够提高对信息的语义理解能力,考虑到出现在信息中不同位置的词语所携带的语义信息存在差异,对出现在信息中不同位置的词语的向量表示附加相应的位置编码加以区分,能够更好地表达信息的真实含义。
在一些实施例中,词语的位置编码的维度与词语的向量表示的维度相同;上述根据每个词语在信息中的位置,对每个向量表示进行位置嵌入处理,得到每个词语对应的位置编码可通过如下方式实现:当位置编码中维度的序号为偶数时,根据正弦函数确定位置编码中对应维度的编码值,其中,正弦函数以词语在信息中的排序位置、以及位置编码维度为参数;当位置编码中维度的序号为奇数时,根据余弦函数确定位置编码中对应所述维度的编码值,其中,余弦函数以词语在信息中的排序位置、位置编码维度为参数。
作为示例,当位置编码中维度的序号为偶数时,根据以下正弦函数(2)确定位置编码中对应所述维度的编码值:
Figure 131004DEST_PATH_IMAGE005
(2)
当位置编码中维度的序号为奇数时,根据以下余弦函数(3)确定位置编码中对应维度的编码值:
Figure 140417DEST_PATH_IMAGE006
(3)
其中,PE(i)为位置编码中第i个维度的编码值,pos为分词在所述理解属性信息中的排序位置,i为位置编码中每个维度的序号,且i为不小于0的整数,dmodel为位置编码维度。
通过上述方式,采用正弦函数或余弦函数等三角函数的编码的方式确定位置编码中对应维度的编码值,不仅能够表达信息的绝对位置信息,还可表达信息的相对位置关系,由于三角函数的公式特性,可以通过下一个位置的位置编码可以通过上一个位置的位置编码来表示,因此可以学习到信息的相对位置关系,在位置编码的偶数维度位置使用正弦函数进行编码,在位置编码的奇数维度位置使用余弦函数进行编码,从而位置编码更容易获取时序信息。需要说明的是,上述仅为位置编码的一种实施方式,在实际应用中,位置编码不局限于使用三角函数进行编码,本申请并不对位置编码的实施方式进行限定。
在得到每个词语的编码特征后,对每个词语的编码特征进行迭代编码处理,得到信息的编码特,在一些实施例中,对每个词语的编码特征进行迭代编码处理,得到信息的编码特,可通过如下方式实现:通过N个级联的神经网络模型中的第n神经网络模型,对第n神经网络模型的输入进行编码处理,并将第n神经网络模型输出的第n编码处理结果传输到第n+1神经网络模型以继续进行编码;将第N个神经网络模型输出的第N个编码处理结果作为对应信息的编码特征。
其中,n为取值从1开始递增的整数,且n的取值范围满足1
Figure 79554DEST_PATH_IMAGE007
n
Figure 75192DEST_PATH_IMAGE008
,N为大于或等于2的整数;当n取值为1时,第n神经网络模型的输入为每个词语的编码特征,当n取值为2
Figure 432486DEST_PATH_IMAGE007
n
Figure 97954DEST_PATH_IMAGE008
时,第n神经网络模型的输入为第n-1神经网络模型的编码处理结果;神经网络模型的级联数目N可设置,如设置为3,前一个神经网络模型的输出结果是后一个神经网络模型的输入,最后一个神经网络模型的输出是对每个词语的编码特征进行编码的编码处理结果,第一个神经网络模型的输入是每个词语的编码特征。
在一些实施例中,每个神经网络模型包括注意力层、第一规范化层、前向传输层以及第二规范化层;上述通过N个级联的神经网络模型中的第n神经网络模型,对第n神经网络模型的输入进行编码处理,可通过如下方式实现:通过注意力层,对第n神经网络模型的输入进行注意力处理,得到对应所述第n神经网络模型的输入的注意力特征;通过第一规范化层,对注意力特征及第n神经网络模型的输入进行残差连接处理及规范化处理,得到对应第n神经网络模型的输入的规范化特征;通过前向传输层,对规范化特征进行线性整流处理,得到对应第n神经网络模型的输入的线性整流处理结果;通过第二规范化层,对第n神经网络模型的输入的规范化特征及线性整流处理结果进行残差连接处理及规范化处理,得到第n神经网络模型输出的第n编码处理结果。
作为示例,如图6所示,级联的神经网络模型可以是N个神经网络模型级联得到的,每个神经网络模型中包括注意力层、第一规范化层、前向传输层以及第二规范化层,接下来以第一个神经网络模型的处理流程为例,将每个词语对应的编码特征作为第一个神经网络模型的输入,通过注意力层的自注意力机制对各个词语对应的编码特征进行自注意力处理,得到各个词语对应的注意力特征,通过自注意力机制可以学习到各个词语对应的编码特征中词语之间的依赖关系,从而挖掘出信息中的重要特征,以用于后续质量识别处理,实现精准的识别功能。
第一规范化层和第二规范化层均用于进行残差连接和规范化处理,如通过第一规范化层对每个词语的注意力特征进行转置处理,得到每个词语对应的转置特征;将每个词语对应的转置特征与每个词语对应的编码特征进行加和处理,得到每个词语对应的加和处理结果;对每个词语对应的加和处理结果进行规范化处理,得到每个词语对应的规范化特征。这是考虑到网络的深度可以帮助模型提取到更为丰富、抽象和具有语义信息的特征,深度增加不能简单地通过增加层数来进行,不仅会导致梯度出现弥散或者***,更为严重的是会导致模型退化,残差连接是为了解决退化的问题,以尽可能保留上一层的原始输入(即各个词语对应的注意力特征),规范化处理是对本次输入的每个词语对应的编码特征进行归一化处理,归一化因子是本层的神经元的个数,通过规范化处理可以提高模型的收敛速度。
前向传输层包括两层深度神经网络(DNN,Deep Neural Networks)结构和激活函数层,激活函数层是对该层的输入进行线性整流处理,线性整流处理可以通过激活函数(如Relu)实现,多个前向传输层的堆叠使用,可以增加对每个词语刻画的精准程度,将通过前向传输层得到的线性整流结果输入至第二规范化层,通过第二规范化层,对每个词语对应的线性整流处理结果进行残差连接处理及规范化处理,得到第一个神经网络模型输出的第一编码处理结果,即信息的第一编码特征,将信息的第一编码特征输入至后续级联的神经网络模型中,直至得到级联的最后一个神经网络模型输出的第N编码处理结果作为对应信息的编码特征,得到的对应信息的编码特征用于后续对信息进行质量类别识别。
在步骤202中,对信息的编码特征进行映射处理,得到信息的映射特征,并对映射特征进行偏置处理,得到信息的内容理解特征。
这里,在得到信息的编码特征后,可通过多层全连接对信息的编码特征进行线性或非线性映射处理,得到对应的映射特征,如将信息的编码特征进行全连接处理,经输入层传输至隐藏层,通过隐藏层得到对应的隐层特征,对隐层特征进行特征映射,得到信息的映射特征;然后,将得到的映射特征经过激活函数(例如ReLu)进行质量类别预测,得到表征信息所属质量类别的内容理解特征。
在一些实施例中,在得到信息的编码特征后,还可通过训练好的文本分类模型对信息的编码特征进行质量类别预测,得到表征信息所属质量类别的预测结果,并将预测结果作为信息的内容理解特征。其中,质量类别为信息的低质类别,例如标题党、无营养文、广告文、旧闻等多种需要在第二阶段中被屏蔽推荐的低质类别,在训练文本分类模型时可为每种质量类别训练相应的文本分类模型,即以携带相应质量类别标签的训练样本训练相应质量类别的文本分类模型,如在训练标题党这一质量类别的文本分类模型时,训练样本携带类别标签(指示是否为标题党,如是标题党则标签为1,不是标题党则标签为0),可基于预估的质量类别与训练样本携带的类别标签构建相应的损失函数,如二分类交叉熵损失函数,通过最小化该损失函数求解更新文本分类模型的模型参数。
在得到信息的至少两个维度的特征后,可通过如下方式对至少两个维度的特征进行特征组合处理,得到信息的组合特征:对至少两个维度的特征进行特征拼接处理,得到信息的组合特征;或者,对至少两个维度的特征进行特征加权求和处理,得到信息的组合特征。在实际实施时,在进行加权求和处理时,可先确定对应至少两个维度中各维度的特征的权重参数,并基于各维度的权重参数对至少两个维度的特征进行加权求和处理,得到对应的组合特征。
在一些实施例中,参见图3C,图3C是本申请实施例提供的第一质量参数的确定方法示意图,步骤101中的基于组合特征确定信息的第一质量参数,可通过图3C示出的步骤1011至步骤1013实现:在步骤1011中,对组合特征中的第一部分特征进行特征***,得到信息的***特征;在步骤1012中,对信息的***特征及组合特征中的第二部分特征进行特征组合处理,得到信息的逻辑回归特征,其中,第一部分特征的区分度大于第二部分特征的区分度;在步骤1013中,基于逻辑回归特征对信息进行质量参数预测处理,得到信息的第一质量参数。
其中,区分度表征特征对信息质量的识别能力,区分度越高,越容易识别信息的质量类别,例如,假设标题长度大于50的信息中80%都是低质内容,图像数量大于20的信息中30%都是低质内容,则相较于图像数量,根据标题长度可容易确定信息的质量,故可将标题长度的区分度大于图像数量的区分度。在进行特征***时,将组合特征输入至梯度提升树(如GBDT、XGBoost等)模型中,参见图4,图4为本申请实施例提供的质量参数预测示意图,梯度提升树模型首先对组合特征中区分度相对较高的第一部分特征进行特征***,得到对应的***特征,然后将得到的***特征和组合特征中剩余的区分度相对较低的第二部分特征输入至逻辑回归模型中,将对***特征和第二部分特征进行特征融合得到逻辑回归特征,并经过激活函数(例如ReLu)对逻辑回归特征进行质量参数预测处理,得到表征信息质量高低的第一质量参数。
其中,***特征由取值为0/1的元素构成,每个元素对应于梯度提升树模型中树的叶子结点,当某个特征通过某棵树最终落在这棵树的一个叶子结点上,那么在***特征的向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0,***特征的长度等于梯度提升树模型中所有树包含的叶子结点数之和。假设梯度提升树模型包括两棵树,第一棵树有3个叶子结点,而第二棵树有2个叶子节点,将第一部分特征中某个特征输入至梯度提升树模型中,如果它在第一棵树最后落在第二个叶子结点,在第二棵树里最后落在第一个叶子结点,那么通过梯度提升树模型获得的***特征的向量表示为[0,1,0,1,0],其中,向量中前三个元素对应第一棵树的3个叶子结点,后两个元素对应第二棵树的2个叶子结点。
通过上述方式,将组合特征中部分特征进行特征***后,能够学习到更加丰富的***特征,基于***特征进行质量参数预测得到的第一质量参数会更加准确。
在一些实施例中,可仅采用梯度树模型或逻辑回归模型中的一个模型对信息的组合特征预测得到第一质量参数,如将信息的组合特征输入至逻辑回归模型中,通过逻辑回归模型对组合特征进行投影处理,得到对应的投影特征,如通过逻辑回归函数对组合特征进行线性逻辑回归处理,这里的线性逻辑回归处理可以是线性加和处理,也可以是对线性加和结果代入逻辑回归函数,得到逻辑回归特征,然后经过激活函数对逻辑回归特征进行质量参数预测处理,得到表征信息质量高低的第一质量参数。
在一些实施例中,还可基于因子分解机(FM,Factorization Machine)模型对信息进行第一质量参数预测,如FM模型对信息的多个维度的特征中的两两特征进行特征交叉处理,得到交叉特征,并基于交叉特征对信息进行质量预测得到第一质量参数。
在一些实施例中,还可采用端到端的神经网络模型对信息进行第一质量预测,如将待识别的信息输入至训练好的神经网络模型中,通过神经网络模型提取得到信息的至少两个维度的特征,对至少两个维度的特征进行特征组合处理,得到信息的组合特征,并基于组合特征对信息的质量进行预测得到第一质量参数。
可以理解的是,在实际实施时,可采用其他预测方式对信息进行质量预测,本申请实施例并不对质量参数的预测方式进行限定。
在步骤102中,在第二阶段中获取与信息的推荐过程相关的交互特征,基于交互特征确定信息的第二质量参数,以及结合第一质量参数及第二质量参数,确定信息的质量识别结果。
其中,第二阶段是对信息进行上线推荐的时期,即信息的在线阶段。
在一些实施例中,参见图3D,图3D是本申请实施例提供的质量识别结果的确定方法示意图,步骤102中在第二阶段中获取与信息的推荐过程相关的交互特征,并基于交互特征确定所述信息的第二质量参数,可通过图3D示出的步骤1021至步骤1022实现:在步骤1021中,在第二阶段中周期性地获取与信息的推荐过程相关的交互数据,并从交互数据中提取对应的交互特征,其中,周期基于交互数据的采样时长或采集数量划分的;在步骤1022中,基于每个周期的交互特征,确定信息在每个周期的第二质量参数;
步骤102中结合第一质量参数及第二质量参数,确定信息的质量识别结果,可通过图3D示出的步骤1023至步骤1024实现:在步骤1023中,结合第一质量参数及每个周期的第二质量参数,确定信息在每个周期的周期质量识别结果;在步骤1024中,根据信息在每个周期的周期质量识别结果,确定信息的质量变化趋势满足的正态分布,将正态分布的参数作为信息的整体质量识别结果,其中,参数包括质量参数均值和质量参数方差。
在实际实施时,在第二阶段周期性地根据与信息的推荐过程相关的交互数据,如点赞量、点击量、评论量、分享量、负反馈量、举报量,计算信息在每个周期的第二质量参数,将信息在每个周期的第二质量参数分别与第一阶段得到的第一质量参数进行结合,每次结合时可将第二质量参数与第一质量参数进行相乘或加权求和的方式,得到信息在每个周期的周期识别结果,从而不断更新信息的质量识别结果,例如,当前周期的周期识别结果表征信息的质量不合格,且下个或间隔多个周期重新计算,连续多次不合格时,则将信息确定为低质内容。在根据信息的质量变化趋势满足的正态分布确定信息是否为低质内容时,质量变化趋势使用正态分布参数中的质量参数均值和质量参数方差来表征,当质量参数均值高于质量参数阈值,质量参数方差大于方差阈值时,表征信息质量较低且质量不稳定,则将信息确定为低质内容,并对该信息进行屏蔽处理。通过上述方式,通过多个周期的交互数据能够准确识别信息的质量,避免偶尔的质量抖动导致的误判。
在一些实施例中,参见图3E,图3E是本申请实施例提供的质量识别结果的确定方法示意图,步骤102中在第二阶段中获取与信息的推荐过程相关的交互特征,并基于交互特征确定所述信息的第二质量参数,可通过图3E示出的步骤1025至步骤1026实现:在步骤1025中,在第二阶段的采样窗口中采集与信息的推荐过程相关的交互数据,并从交互数据中提取对应的交互特征,其中,采样窗口的类型包括:设定时长采样窗口、设定数据量采样窗口;在步骤1026中,基于交互数据确定采样窗口中的第二质量参数;步骤102中结合第一质量参数及第二质量参数,确定信息的质量识别结果,可通过图3E示出的步骤1027实现:在步骤1027中,将第一质量参数及采样窗口中的第二质量参数进行融合处理,将得到的第三质量参数作为质量识别结果。
其中,设定时长采样窗口是指采样时长固定,如采样时长为1小时,而采样数据量不固定,如采样数据量为采样的1小时内与信息的推荐过程相关的交互数据的数量,对于不同的信息即使采样时长相同,对应的采样数据量可以是不同的,或针对同一信息在不同采样时间段内的相同采样时长,对应的采样数据量也可以是不同的。设定数据量采样窗口是指采样数据量固定,时长不固定,如对于同一信息在不同时间段内采样相同的交互数据量所需要的采样时长可能是不同的。
在第二阶段根据采样窗口采集的交互数据计算一次第二质量参数,并将第二质量参数与第一质量参数进行融合,得到第三质量参数,如对第一质量参数及第二质量参数进行相乘处理,将得到的第三质量参数作为信息的质量识别结果;或者,对第一质量参数及第二质量参数进行加权求和处理,将得到的第三质量参数作为信息的质量识别结果。如此,根据一次计算结果确定信息不合格时,就将信息确定为低质内容,并对该信息进行屏蔽处理,能够及时避免低质信息的广泛传播。
在一些实施例中,交互特征包括表征偏好信息的正向交互特征和表征不偏好信息的负向交互特征;正向交互特征和负向交互特征的维度均为至少两个;参见图3F,图3F是本申请实施例提供的第二质量参数的确定方法示意图,步骤102中的基于交互特征确定信息的第二质量参数,可通过步骤1028至步骤1030实现:步骤1028中,基于每个维度的正向交互特征的第一权重,对每个维度的正向交互特征进行加权求和处理,并确定与第一加权求和处理结果负相关的正向质量参数;步骤1029中,基于每个维度的负向交互特征的第二权重,对每个维度的负向交互特征进行加权求和处理,并确定与第二加权求和结果正相关的负向质量参数;步骤1030中,对正向质量参数与负向质量参数进行求和处理,得到信息的第二质量参数。
作为示例,将第一加权求和处理结果的倒数作为正向质量参数,将采用以自然指数为底、以第二加权求和处理结果为幂的幂指数作为负向质量参数。其中,正向交互特征的取值与正向质量参数的大小呈负相关关系,负向交互特征的取值与负向质量参数的大小呈正相关关系,第二质量参数的取值与信息的质量呈负相关关系。
当各个维度的连续***互特征处于不同量纲时,为了平衡每个交互特征对信息的质量识别结果的影响,需将对交互特征进行离散化处理后的特征作为最终的交互特征,如获取表征偏好信息的以下连续正向交互特征至少之一:点赞量、点击量、评论量、分享量;对连续正向交互特征进行离散化处理,得到对应的离散正向特征;将至少一个连续正向交互特征对应的离散正向特征作为正向交互特征。
作为示例,由于点赞量、点击量可以达到10万级别,可采用如下公式(4)对点赞量和点击量进行离散化处理:
Figure 773655DEST_PATH_IMAGE009
(4)
其中,
Figure 182770DEST_PATH_IMAGE010
是信息的点赞量,
Figure 237314DEST_PATH_IMAGE011
是点赞量对应的正向交互特征,
Figure 89995DEST_PATH_IMAGE012
是信息的点击量,
Figure 3724DEST_PATH_IMAGE013
是点击量对应的正向交互特征。
对于评论量、分享量可采用如下公式(5)进行离散化处理:
Figure 465798DEST_PATH_IMAGE014
(5)
其中,
Figure 640428DEST_PATH_IMAGE015
是信息的评论量,
Figure 647698DEST_PATH_IMAGE016
是评论量对应的正向交互特征,
Figure 907778DEST_PATH_IMAGE017
是信息的分享量,
Figure 409429DEST_PATH_IMAGE018
是分享量对应的正向交互特征。
对于负反馈量、举报量,由于这两个维度表征不偏好信息的负向交互特征,代表了用户的负面情绪,因此直接将负反馈量、举报量作为负向交互特征,无需离散化。
在一些实施例中,可通过如下方式确定每个维度的正向交互特征的第一权重和每个维度的负向交互特征的第二权重:根据每个维度的正向交互特征和每个维度的负向交互特征对信息的质量识别结果的影响程度,确定相应的第一权重和第二权重;或者,确定信息所属的质量类别,并根据质量类别确定与质量类别相适配的第一权重和第二权重;或者,确定信息所属的信息类别,并根据信息类别确定与信息类别相适配的第一权重和第二权重。
在实际应用中,无论是正向交互特征还是负向交互特征,每个维度的权重的大小与其对信息的质量识别结果的影响程度的高低呈正相关关系,即对信息的质量识别结果的影响程度较大,相应的,其对应维度的权重就较大。
由于用户对不同质量类别的信息的交互行为分布是不同的,故根据信息所属的质量类别设置与所属质量类别相适配的权重,例如,用户对标题党、无营养文、广告文等不同质量类别的信息的交互行为分布不同,对信息的质量识别结果的影响程度存在不同,故设置不同的权重,如对于标题党和广告文这两个质量类别,对应(点赞量、点击率、评论量、分享量)这四个维度的正向交互特征中,至少一个维度的权重存在不同,对于(负反馈量、举报量)这两个维度的负向交互特征中,两个维度的权重存在不同。
用户对不同信息类别的信息的交互行为分布也是不同的,如用户对娱乐、社会、体育等不同信息类别的交互行为分布不同,故在设置每个维度的特征的权重时,针对不同信息类别的信息设置不同的权重。
在一些实施例中,在确定信息的质量识别结果后,当质量识别结果表征信息是需要屏蔽的低质信息时,根据信息的低质等级确定对应的屏蔽模式,并对信息应用对应的屏蔽模式;其中,屏蔽模式包括以下至少之一:在推荐***的排序环节中对信息进行降权处理;在推荐***的召回结果中对信息进行暂时过滤;在推荐***的召回结果中对信息进行永久过滤。
当确定信息为需要屏蔽的低质信息时,直接从信息库中删除,以禁止对低质信息的再次推荐,此外,本申请实施例提供的信息的质量识别方法还可应用于推荐***的召回阶段,当确定召回的信息中存在需要屏蔽的低质信息时,则在召回的信息中暂时过滤或永久过滤掉低质信息,然后基于过滤后的信息进行后续的排序再推荐,其中,暂时过滤是指信息的过滤时长达到目标时长时,再召回该信息,目标时长与信息的质量参数呈正相关关系,即信息的质量参数越大(信息的质量越低),目标时长就越大,如信息1的质量参数大于信息2的质量参数(即信息1的质量低于信息2的质量),将信息1过滤2天后召回,而将信息2过滤1天后召回;还可应用于推荐***的排序阶段,当确定排序的信息中存在是需要屏蔽的低质信息时,则将低质信息进行降权排序,以减少推荐次数或推荐频率,如在未采取降权排序之前,在一周内可能会向100个人推荐该信息,在采取降权排序之后,在一周内可能只向20个人推荐该信息,另外,降权的幅度与信息的质量呈负相关关系,即信息的质量越低,降权幅度越大,降权排序后在一定时间内针对该信息的推荐次数或推荐频率就越低;如此,对低质信息禁止推荐或进行降权推荐,从而避免质量低下的信息的广泛传播,间接提高整体信息质量,提高用户体验,有效保留初访用户和复访用户。
需要说明的是,本申请实施例中的第一质量参数和第二质量参数的取值与信息的质量呈负相关关系,即质量参数越大,信息的质量就越低,结合第一质量参数和第二质量参数得到的第三质量参数的取值与信息的质量也呈负相关关系,当第三质量参数的值达到第一参数阈值时,可确定信息为低质信息。但在实际应用中,若质量参数是通过质量参数模型得到的、且在模型训练阶段以与信息质量呈正相关的质量参数为标签的信息样本对质量参数模型进行训练,则第一质量参数和第二质量参数的取值与信息的质量呈正相关关系,即上述正向交互特征的取值与正向质量参数的大小将呈正相关关系,负向交互特征的取值与负向质量参数的大小呈负相关关系,如将上述的第一加权求和处理结果作为正向质量参数,将以自然指数为底、以第二加权求和处理结果为幂的幂指数的倒数作为负向质量参数,如此,最终得到的第三质量参数的取值与信息的质量呈正相关关系,即质量参数越小,信息的质量就越低,当第三质量参数的值低于第二参数阈值时,可确定信息为低质信息。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。参见图5,图5为本申请实施例提供的信息屏蔽推荐处理示意图,在信息流推荐场景中,在对信息进行上线推荐之前,信息流平台会对待推荐信息进行质量审核,以将质量较差的信息淘汰避免推荐上线,审核包括人工审核和机器审核,人工审核采用审核人员巡查的方式发现低质信息,但受限于审核人员的个人知识储备,对于一些较为专业的垂类信息,例如娱乐类的新闻八卦、漫画类的情节讨论等,由于审核人员缺乏背景知识,无法对信息进行有效判断,导致对信息的质量识别准确率较低。机器审核基于自然语言处理模型对信息的质量进行识别,而由于机器审核存在一定的准确率和召回率限制,识别准确率较低(如小于80%),无法达到100%准召,故无法直接对低质信息进行打击下架(即屏蔽过滤),否则会误伤很多正常的信息;在对信息进行线上推荐后,通过监控针对单个信息的举报量和负反馈量来判断信息是否低质,但此种方式只有当举报量和负反馈量积累到一定阈值时,才对相应低质信息进行屏蔽推荐,导致对低质信息的识别效率低,屏蔽不及时。
为此,本申请实施例在对信息进行上线推荐之前,结合信息的内容结构特征(包括标题长度、文本长度、图像数量、图文比)、账号特征和内容理解特征等多个维度的特征,得到信息的先验质量得分(即第一质量参数);在对信息进行上线推荐的时期,获取与信息的推荐过程相关的交互特征,基于交互特征确定信息的后验质量得分(即第二质量参数),并结合先验质量得分确定信息的综合质量得分(即第三质量参数),能够提高信息质量的识别效率和准确性,及时对低质信息进行屏蔽过滤,以提升推荐***的推荐精度和用户体验。
首先在对信息进行上线推荐之前,对信息的多个维度的特征的获取方法进行说明,获取信息的标题长度、文本长度、图像数量、图文比等内容结构特征,当这些特征处于不同的量纲时,为了平衡每个特征对信息的质量识别结果的影响,需先对特征进行离散化处理,得到对应的离散特征,并将得到的离散特征作为信息的内容结构特征。在实际实施时,不同的特征其对应的离散化处理方式可以是不同的,例如,通常情况下信息的标题长度范围为0~50个字,图像数量为0~50个,由于数量较小,可直接将标题长度和图像数量作为信息的内容结构特征,文本长度范围为100~10000字之间,对文本长度进行缩放处理,缩放系数可设置,如设置为100,将缩放后的文本长度作为内容结构特征;图文比用于表征文本长度与图像数量的比值,对图文比可采用上述公式(1)进行分箱处理。信息的账号特征即为信息发布者的账号等级,账号等级取值1-5,可直接作为账号特征。
接下来对信息的内容理解特征的获取过程进行说明,在实际实施时,可通过训练好的变压器的双向编码器表示(Bert,Bidirectional Encoder Representation fromTransformers)模型对信息进行特征提取得到内容理解特征,其中,Bert模型包括Bert预训练模型和文本分类模型,在训练Bert预训练模型前,预先定义好Bert预训练模型的网络结构,参见图6,图6是本申请实施例提供的Bert预训练示意图,网络结构可采用多个Transformer中的编码器的结构,采用无监督的训练方式将训练样本集合中每个无标注的训练样本输入编码器的各个层中进行正向传播,每个编码器包括注意力层、第一规范化层、前向传输层以及第二规范化层,从注意力层开始进行逐层训练,然后采用反向传播的方式对编码器中的各个层的参数进行调整直至收敛完成训练。
参见图7,图7是本申请实施例提供的文本分类模型的训练示意图,文本分类模型用于预测信息所属的质量类别,质量类别表征信息的低质类别,如标题党、无营养文、广告文、旧闻等,在训练文本分类模型时,采用有监督的训练方式为每种质量类别训练相应的文本分类模型,即以携带相应质量类别标签的训练样本训练相应质量类别的文本分类模型,如在训练标题党这一质量类别的文本分类模型时,训练样本携带类别标签(指示是否为标题党,如是标题党则标签为1,不是标题党则标签为0),可基于预估的质量类别与训练样本携带的类别标签构建相应的损失函数,如二分类交叉熵损失函数,通过最小化该损失函数求解更新文本分类模型的模型参数。
在训练好Bert模型中Bert预训练模型和文本分类模型之后,将待识别的信息输入至Bert模型中,通过Bert预训练模型对信息中的至少两个词语进行编码处理,得到每个词语的向量表示,根据每个词语在信息中的位置,对每个词语对应的向量表示进行位置嵌入处理,得到每个词语对应的位置编码;将每个词语对应的向量表示与位置编码进行加和处理,确定对应每个词语的编码特征;对每个词语的编码特征进行多次迭代编码处理,得到信息的编码特征,并将信息的编码特征输入至文本分类模型中;通过文本分类模型对信息的编码特征进行质量类别识别,得到表征信息所属的至少一种质量类别的内容理解特征,如对信息的编码特征进行映射处理,得到信息的映射特征,并对映射特征进行偏置处理,得到信息的内容理解特征。
参见图8,图8是本申请实施例提供的先验质量得分的获取示意图,在得到信息的内容结构特征、账号特征和内容理解特征之后,将内容结构特征、账号特征和内容理解特征进行特征组合,得到组合特征,并将组合特征输入至用于预测先验质量得分的质量得分预测模型中进行质量得分预测,其中,质量得分预测模型包括梯度提升树(XGBoost)模型和逻辑回归(LR)模型,梯度提升树模型首先对组合特征中区分度相对较高的第一部分特征进行特征***,得到对应的***特征,然后将得到的***特征和组合特征中剩余的区分度相对较低的第二部分特征输入至逻辑回归模型中,将对***特征和第二部分特征进行特征融合得到逻辑回归特征,并经过激活函数(例如ReLu)对逻辑回归特征进行质量得分预测处理,得到表征信息质量高低的先验质量得分
Figure 313931DEST_PATH_IMAGE019
在对信息进行上线推荐的时期,获取与信息的推荐过程相关的交互特征,如点赞量、点击量、评论量、分享量等正向交互数据,以及负反馈量、举报量等负向交互数据,在分别对正向交互数据和负向交互数据进行特征提取后,可采用相应的离散化处理方式对提取的特征进一步处理,例如,由于点赞量、点击量可以达到10万级别,可采用上述公式(4)对点赞量和点击量进行离散化处理,对于评论量、分享量可采用上述公式(5)进行离散化处理,并将离散化的特征作为正向交互特征,如此,能够防止某一维度的正向交互特征过大导致对其他特征的挤出效应,离散化处理后的特征处于同一个量纲,故可进行加权求和得到
Figure 882316DEST_PATH_IMAGE020
来表征对偏好信息的数值,因此,将该数值的倒数作为正向质量得分(即正向质量参数)
Figure 754325DEST_PATH_IMAGE021
,其中,n表示正向交互的总维度,
Figure 308935DEST_PATH_IMAGE022
表示第i个维度的正向交互特征,
Figure 192577DEST_PATH_IMAGE023
表示第i个维度的正向交互特征的权重,C与信息的质量呈负相关关系,即C越大表示信息的质量就越低。
对于负反馈量、举报量,由于这两个维度表征不偏好信息的负向交互特征,代表了用户的负面情绪,因此直接将负反馈量、举报量作为负向交互特征,则负向质量得分(即负向质量参数)
Figure 557962DEST_PATH_IMAGE024
,其中,A表示举报量,B表示负反馈量,
Figure 668000DEST_PATH_IMAGE025
表示举报量的权重,
Figure 9989DEST_PATH_IMAGE026
表示举报量的权重,D与信息的质量呈负相关关系,即D越大表示信息的质量就越低。
结合正向质量得分C和负向质量得分D,即可得到信息的后验质量得分
Figure 279296DEST_PATH_IMAGE027
,如
Figure 799270DEST_PATH_IMAGE028
,然后,再结合信息的先验质量得分
Figure 412916DEST_PATH_IMAGE029
即可得到信息的综合质量得分(即第三质量参数),如将先验质量得分与后验质量得分相乘得到综合质量得分
Figure 168383DEST_PATH_IMAGE030
,综合质量得分与信息的质量呈负相关关系,即综合质量得分越大,表示信息的质量就越低。
在确定信息的综合得分后,根据信息的综合质量得分对信息的质量进行识别判断,将综合质量得分超过得分阈值的信息确定为低质信息,或根据综合质量得分由高到低的顺序,对线上推荐的信息进行排序,将排名前TOP N(如N=100)的信息确定为低质信息,并对低质信息进行屏蔽推荐,以避免质量低下的信息的广泛传播,通过此种方式,信息流中低质信息的比例得到有效地降低,用户举报和负反馈量持续下降,从而间接提高信息流中整体信息质量,提高用户体验,有效保留初访用户和复访用户。
下面继续说明本申请实施例提供的信息的质量识别装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的信息的质量识别装置555中的软件模块可以包括:
第一确定模块5551,用于在第一阶段中获取所述信息的至少两个维度的特征,对所述至少两个维度的特征进行特征组合处理,得到所述信息的组合特征,以及基于所述组合特征确定所述信息的第一质量参数;其中,所述第一阶段是对所述信息进行上线推荐之前的时期;
第二确定模块5552,用于在第二阶段中获取与所述信息的推荐过程相关的交互特征,基于所述交互特征确定所述信息的第二质量参数;
第三确定模块5553,用于结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果;其中,所述第二阶段是对所述信息进行上线推荐的时期。
在一些实施例中,所述第二确定模块5552,还用于在第二阶段中周期性地获取与所述信息的推荐过程相关的交互数据,并从所述交互数据中提取对应的交互特征,其中,所述周期基于所述交互数据的采样时长或采集数量划分的;
基于每个周期的所述交互特征,确定所述信息在所述每个周期的第二质量参数;
所述第三确定模块5553,还用于结合所述第一质量参数及所述每个周期的第二质量参数,确定所述信息在所述每个周期的周期质量识别结果;
根据所述信息在所述每个周期的周期质量识别结果,确定所述信息的质量变化趋势满足的正态分布,将所述正态分布的参数作为所述信息的整体质量识别结果,其中,所述参数包括质量参数均值和质量参数方差。
在一些实施例中,所述第二确定模块5552,还用于在第二阶段的采样窗口中采集与所述信息的推荐过程相关的交互数据,并从所述交互数据中提取对应的交互特征,其中,所述采样窗口的类型包括:设定时长采样窗口、设定数据量采样窗口;
基于所述交互数据确定所述采样窗口中的第二质量参数;
所述第三确定模块5553,还用于将所述第一质量参数及所述采样窗口中的第二质量参数进行融合处理,将得到的第三质量参数作为质量识别结果。
在一些实施例中,所述装置还包括:
信息屏蔽模块,用于根据所述质量识别结果表征所述信息是需要屏蔽的低质信息时,根据所述信息的低质等级确定对应的屏蔽模式,并对所述信息应用对应的屏蔽模式;
其中,所述屏蔽模式包括以下至少之一:在推荐***的排序环节中对所述信息进行降权处理;在推荐***的召回结果中对所述信息进行暂时过滤;在推荐***的召回结果中对所述信息进行永久过滤。
在一些实施例中,所述第一确定模块5551,还用于在第一阶段中执行以下多个操作中的至少两个操作:
获取表征所述信息的内容结构特征,其中,所述内容结构特征用于表征信息的内容结构的质量;
获取所述信息的账号特征,其中,所述账号特征包括发布所述信息的账号的等级;
获取所述信息的内容理解特征,其中,所述内容理解特征表征所述信息所属的至少一种质量类别,且每个所述质量类别均是需要在所述第二阶段中被屏蔽推荐。
在一些实施例中,所述第一确定模块5551,还用于获取所述信息的以下连续特征至少之一:标题长度、图像数量、图文比例、文本长度;
对所述连续特征进行离散化处理,得到对应的离散特征;
将至少一个所述连续特征对应的离散特征作为所述信息的内容结构特征。
在一些实施例中,所述第一确定模块5551,还用于对所述信息中的至少两个词语进行编码处理,得到每个所述词语的向量表示,并基于每个所述词语的位置以及向量表示进行迭代编码处理,得到所述信息的编码特征;
对所述信息的编码特征进行映射处理,得到所述信息的映射特征,并对所述映射特征进行偏置处理,得到所述信息的内容理解特征。
在一些实施例中,所述第一确定模块5551,还用于对所述信息进行分词处理,得到至少两个词语,并对所述至少两个词语进行向量转换,得到每个词语对应的向量表示;
根据每个所述词语在所述信息中的位置,对每个词语对应的向量表示进行位置嵌入处理,得到每个所述词语对应的位置编码;
将每个所述词语对应的向量表示与所述位置编码进行加和处理,确定对应每个所述词语的编码特征。
在一些实施例中,所述位置编码的维度与所述词语的向量表示的维度相同;所述第一确定模块,还用于当所述位置编码中维度的序号为偶数时,根据正弦函数确定所述位置编码中对应所述维度的编码值,其中,所述正弦函数以所述词语在所述信息中的排序位置、以及位置编码维度为参数;
当所述位置编码中维度的序号为奇数时,根据余弦函数确定所述位置编码中对应所述维度的编码值,其中,所述余弦函数以所述词语在所述信息中的排序位置、位置编码维度为参数。
在一些实施例中,所述第一确定模块5551,还用于对所述组合特征中的第一部分特征进行特征***,得到所述信息的***特征;
对所述信息的***特征及所述组合特征中的第二部分特征进行特征组合处理,得到所述信息的逻辑回归特征,其中,所述第一部分特征的区分度大于所述第二部分特征的区分度;
基于所述逻辑回归特征对所述信息进行质量参数预测处理,得到所述信息的第一质量参数。
在一些实施例中,所述交互特征包括表征偏好所述信息的正向交互特征和表征不偏好所述信息的负向交互特征;所述第二确定模块,还用于基于每个维度的所述正向交互特征的第一权重,对每个维度的所述正向交互特征进行加权求和处理,并确定与第一加权求和处理结果负相关的正向质量参数;
基于每个维度的所述负向交互特征的第二权重,对每个维度的所述负向交互特征进行加权求和处理,并确定与第二加权求和结果正相关的负向质量参数;
对所述正向质量参数与所述负向质量参数进行求和处理,得到所述信息的第二质量参数;
其中,所述正向交互特征的取值与所述正向质量参数的大小呈负相关关系,所述负向交互特征的取值与所述负向质量参数的大小呈正相关关系,所述第二质量参数的取值与所述信息的质量呈负相关关系。
在一些实施例中,所述装置还包括:
特征处理模块,用于获取表征偏好所述信息的以下连续正向交互特征至少之一:点赞量、点击量、评论量、分享量;
对所述连续正向交互特征进行离散化处理,得到对应的离散正向特征;
将至少一个所述连续正向交互特征对应的离散正向特征作为所述正向交互特征。
在一些实施例中,所述装置还包括:权重确定模块,用于根据每个维度的所述正向交互特征和每个维度的所述负向交互特征对所述信息的质量识别结果的影响程度,确定相应的所述第一权重和所述第二权重;或者,确定所述信息所属的质量类别,并根据所述质量类别确定与所述质量类别相适配的所述第一权重和所述第二权重;或者,确定所述信息所属的信息类别,并根据所述信息类别确定与所述信息类别相适配的所述第一权重和所述第二权重。
在一些实施例中,所述第三确定模块5553,还用于对所述第一质量参数及所述第二质量参数进行相乘处理,将得到的第三质量参数作为所述信息的质量识别结果;或者,对所述第一质量参数及所述第二质量参数进行加权求和处理,将得到的第三质量参数作为所述信息的质量识别结果。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的信息的质量识别方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的信息的质量识别方法,例如,如图3A示出的信息的质量识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
通过上述方式,在对信息进行上线推荐之前,根据信息的多个维度的特征确定信息的第一质量参数,在对信息进行上线推荐的期间,根据与信息的推荐过程相关的交互特征确定信息的第二质量参数,并结合第一质量参数和第二质量参数确定信息的质量识别结果;如此,从多个维度综合考虑上线推荐前和上线推荐过程中信息的质量参数,能够提高最终得到的质量识别结果的精确性,并根据质量识别结果对低质信息进行屏蔽推荐,以避免质量低下的信息的广泛传播,通过此种方式,信息流中低质信息的比例得到有效地降低,用户举报和负反馈量持续下降,从而间接提高信息流中整体信息质量,提高用户体验,有效保留初访用户和复访用户。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (18)

1.一种信息的质量识别方法,其特征在于,所述方法包括:
在第一阶段中获取所述信息的至少两个维度的特征,对所述至少两个维度的特征进行特征组合处理,得到所述信息的组合特征,以及
基于所述组合特征确定所述信息的第一质量参数;其中,所述第一阶段是对所述信息进行上线推荐之前的时期;
在第二阶段中获取与所述信息的推荐过程相关的交互特征,基于所述交互特征确定所述信息的第二质量参数,以及
结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果;其中,所述第二阶段是对所述信息进行上线推荐的时期。
2.如权利要求1所述的方法,其特征在于,所述在第二阶段中获取与所述信息的推荐过程相关的交互特征,并基于所述交互特征确定所述信息的第二质量参数,包括:
在第二阶段中周期性地获取与所述信息的推荐过程相关的交互数据,并从所述交互数据中提取对应的交互特征,其中,所述周期基于所述交互数据的采样时长或采集数量划分的;
基于每个周期的所述交互特征,确定所述信息在所述每个周期的第二质量参数;
所述结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果,包括:
结合所述第一质量参数及所述每个周期的第二质量参数,确定所述信息在所述每个周期的周期质量识别结果;
根据所述信息在所述每个周期的周期质量识别结果,确定所述信息的质量变化趋势满足的正态分布,将所述正态分布的参数作为所述信息的整体质量识别结果,其中,所述参数包括质量参数均值和质量参数方差。
3.如权利要求1所述的方法,其特征在于,所述在第二阶段中获取与所述信息的推荐过程相关的交互特征,并基于所述交互特征确定所述信息的第二质量参数,包括:
在第二阶段的采样窗口中采集与所述信息的推荐过程相关的交互数据,并从所述交互数据中提取对应的交互特征,其中,所述采样窗口的类型包括:设定时长采样窗口、设定数据量采样窗口;
基于所述交互数据确定所述采样窗口中的第二质量参数;
所述结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果,包括:
将所述第一质量参数及所述采样窗口中的第二质量参数进行融合处理,将得到的第三质量参数作为质量识别结果。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述质量识别结果表征所述信息是需要屏蔽的低质信息时,根据所述信息的低质等级确定对应的屏蔽模式,并对所述信息应用对应的屏蔽模式;
其中,所述屏蔽模式包括以下至少之一:在推荐***的排序环节中对所述信息进行降权处理;在推荐***的召回结果中对所述信息进行暂时过滤;在推荐***的召回结果中对所述信息进行永久过滤。
5.如权利要求1所述的方法,其特征在于,所述在第一阶段中获取所述信息的至少两个维度的特征,包括:
在第一阶段中执行以下多个操作中的至少两个操作:
获取表征所述信息的内容结构特征,其中,所述内容结构特征用于表征信息的内容结构的质量;
获取所述信息的账号特征,其中,所述账号特征包括发布所述信息的账号的等级;
获取所述信息的内容理解特征,其中,所述内容理解特征表征所述信息所属的至少一种质量类别,且每个所述质量类别均是需要在所述第二阶段中被屏蔽推荐。
6.如权利要求5所述的方法,其特征在于,所述获取表征所述信息的内容结构特征,包括:
获取所述信息的以下连续特征至少之一:标题长度、图像数量、图文比例、文本长度;
对所述连续特征进行离散化处理,得到对应的离散特征;
将至少一个所述连续特征对应的离散特征作为所述信息的内容结构特征。
7.如权利要求5所述的方法,其特征在于,所述获取所述信息的内容理解特征,包括:
对所述信息中的至少两个词语进行编码处理,得到每个所述词语的向量表示,并基于每个所述词语的位置以及向量表示进行迭代编码处理,得到所述信息的编码特征;
对所述信息的编码特征进行映射处理,得到所述信息的映射特征,并对所述映射特征进行偏置处理,得到所述信息的内容理解特征。
8.如权利要求7所述的方法,其特征在于,所述对所述信息中的至少两个词语进行编码处理,得到每个所述词语的向量表示,包括:
对所述信息进行分词处理,得到至少两个词语,并对所述至少两个词语进行向量转换,得到每个词语对应的向量表示;
所述基于每个所述词语的位置以及向量表示进行迭代编码处理,得到所述信息的编码特征,包括:
根据每个所述词语在所述信息中的位置,对每个词语对应的向量表示进行位置嵌入处理,得到每个所述词语对应的位置编码;
将每个所述词语对应的向量表示与所述位置编码进行加和处理,确定对应每个所述词语的编码特征。
9.如权利要求8所述的方法,其特征在于,所述位置编码的维度与所述词语的向量表示的维度相同;
所述根据每个所述词语在所述信息中的位置,对每个所述向量表示进行位置嵌入处理,得到每个所述词语对应的位置编码,包括:
当所述位置编码中维度的序号为偶数时,根据正弦函数确定所述位置编码中对应所述维度的编码值,其中,所述正弦函数以所述词语在所述信息中的排序位置、以及位置编码维度为参数;
当所述位置编码中维度的序号为奇数时,根据余弦函数确定所述位置编码中对应所述维度的编码值,其中,所述余弦函数以所述词语在所述信息中的排序位置、位置编码维度为参数。
10.如权利要求1所述的方法,其特征在于,所述基于所述组合特征确定所述信息的第一质量参数,包括:
对所述组合特征中的第一部分特征进行特征***,得到所述信息的***特征;
对所述信息的***特征及所述组合特征中的第二部分特征进行特征组合处理,得到所述信息的逻辑回归特征,其中,所述第一部分特征的区分度大于所述第二部分特征的区分度;
基于所述逻辑回归特征对所述信息进行质量参数预测处理,得到所述信息的第一质量参数。
11.如权利要求1所述的方法,其特征在于,所述交互特征包括表征偏好所述信息的正向交互特征和表征不偏好所述信息的负向交互特征;
所述基于所述交互特征确定所述信息的第二质量参数,包括:
基于每个维度的所述正向交互特征的第一权重,对每个维度的所述正向交互特征进行加权求和处理,并确定与第一加权求和处理结果负相关的正向质量参数;
基于每个维度的所述负向交互特征的第二权重,对每个维度的所述负向交互特征进行加权求和处理,并确定与第二加权求和结果正相关的负向质量参数;
对所述正向质量参数与所述负向质量参数进行求和处理,得到所述信息的第二质量参数;
其中,所述正向交互特征的取值与所述正向质量参数的大小呈负相关关系,所述负向交互特征的取值与所述负向质量参数的大小呈正相关关系,所述第二质量参数的取值与所述信息的质量呈负相关关系。
12.如权利要求11所述的方法,其特征在于,所述方法还包括:
获取表征偏好所述信息的以下连续正向交互特征至少之一:点赞量、点击量、评论量、分享量;
对所述连续正向交互特征进行离散化处理,得到对应的离散正向特征;
将至少一个所述连续正向交互特征对应的离散正向特征作为所述正向交互特征。
13.如权利要求11所述的方法,其特征在于,所述方法还包括:
根据每个维度的所述正向交互特征和每个维度的所述负向交互特征对所述信息的质量识别结果的影响程度,确定相应的所述第一权重和所述第二权重;或者,
确定所述信息所属的质量类别,并根据所述质量类别确定与所述质量类别相适配的所述第一权重和所述第二权重;或者,
确定所述信息所属的信息类别,并根据所述信息类别确定与所述信息类别相适配的所述第一权重和所述第二权重。
14.如权利要求1所述的方法,其特征在于,所述结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果,包括:
对所述第一质量参数及所述第二质量参数进行相乘处理,将得到的第三质量参数作为所述信息的质量识别结果;或者,
对所述第一质量参数及所述第二质量参数进行加权求和处理,将得到的第三质量参数作为所述信息的质量识别结果。
15.一种信息的质量识别装置,其特征在于,所述装置包括:
第一确定模块,用于在第一阶段中获取所述信息的至少两个维度的特征,对所述至少两个维度的特征进行特征组合处理,得到所述信息的组合特征,以及基于所述组合特征确定所述信息的第一质量参数;其中,所述第一阶段是对所述信息进行上线推荐之前的时期;
第二确定模块,用于在第二阶段中获取与所述信息的推荐过程相关的交互特征,基于所述交互特征确定所述信息的第二质量参数;
第三确定模块,用于结合所述第一质量参数及所述第二质量参数,确定所述信息的质量识别结果;其中,所述第二阶段是对所述信息进行上线推荐的时期。
16.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至14任一项所述的信息的质量识别方法。
17.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至14任一项所述的信息的质量识别方法。
18.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至14任一项所述的信息的质量识别方法。
CN202111127146.9A 2021-09-26 2021-09-26 信息的质量识别方法、装置、设备、存储介质及程序产品 Active CN113569557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111127146.9A CN113569557B (zh) 2021-09-26 2021-09-26 信息的质量识别方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111127146.9A CN113569557B (zh) 2021-09-26 2021-09-26 信息的质量识别方法、装置、设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN113569557A true CN113569557A (zh) 2021-10-29
CN113569557B CN113569557B (zh) 2022-01-04

Family

ID=78174575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111127146.9A Active CN113569557B (zh) 2021-09-26 2021-09-26 信息的质量识别方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN113569557B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN112070226A (zh) * 2020-09-02 2020-12-11 北京百度网讯科技有限公司 在线预测模型的训练方法、装置、设备及存储介质
CN112163165A (zh) * 2020-10-21 2021-01-01 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及计算机可读存储介质
CN112883285A (zh) * 2021-04-28 2021-06-01 北京搜狐新媒体信息技术有限公司 一种信息推荐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN112070226A (zh) * 2020-09-02 2020-12-11 北京百度网讯科技有限公司 在线预测模型的训练方法、装置、设备及存储介质
CN112163165A (zh) * 2020-10-21 2021-01-01 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及计算机可读存储介质
CN112883285A (zh) * 2021-04-28 2021-06-01 北京搜狐新媒体信息技术有限公司 一种信息推荐方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANI FEBRI MUSTIKA ET AL.: "Measuring the Effect of Elementary Descriptive Attributes on News Recommender Systems", 《2020 INTERNATIONAL CONFERENCE ON RADAR, ANTENNA, MICROWAVE, ELECTRONICS, AND TELECOMMUNICATIONS》 *
胡吉明: "《基于用户-资源关联的社会化推荐研究》", 31 October 2017, 武汉大学出版社 *
黄立威 等: "基于深度学习的推荐***研究综述", 《计算机学报》 *

Also Published As

Publication number Publication date
CN113569557B (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN113626719B (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN112163165B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN111444428A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111382361A (zh) 信息推送方法、装置、存储介质和计算机设备
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN110704510A (zh) 一种结合用户画像的题目推荐方法及***
CN111723295A (zh) 一种内容分发方法、装置和存储介质
CN115659008A (zh) 大数据信息反馈的信息推送***、方法、电子设备及介质
CN114357204B (zh) 媒体信息的处理方法及相关设备
CN116628345B (zh) 一种内容推荐方法、装置、电子设备和存储介质
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
CN117312562A (zh) 内容审核模型的训练方法、装置、设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN113569557B (zh) 信息的质量识别方法、装置、设备、存储介质及程序产品
Ali et al. Big social data as a service (BSDaaS): a service composition framework for social media analysis
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
Foote et al. A computational analysis of social media scholarship
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品
CN112287239B (zh) 课程推荐方法、装置、电子设备及存储介质
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
CN117150053A (zh) 多媒体信息推荐模型训练方法、推荐方法及装置
CN112446738A (zh) 广告数据处理方法、装置、介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40054000

Country of ref document: HK