CN111737554A - 评分模型训练方法、电子书评分方法及装置 - Google Patents

评分模型训练方法、电子书评分方法及装置 Download PDF

Info

Publication number
CN111737554A
CN111737554A CN202010550244.2A CN202010550244A CN111737554A CN 111737554 A CN111737554 A CN 111737554A CN 202010550244 A CN202010550244 A CN 202010550244A CN 111737554 A CN111737554 A CN 111737554A
Authority
CN
China
Prior art keywords
sample
electronic book
scoring
model
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010550244.2A
Other languages
English (en)
Inventor
刘广东
杨勇
张洪祯
刘先钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010550244.2A priority Critical patent/CN111737554A/zh
Publication of CN111737554A publication Critical patent/CN111737554A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提供了一种评分模型训练方法、电子书评分方法及装置。包括:获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值;获取所述学习样本关联的样本特征;将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件;将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值;在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。本申请可以实现对新上线的多媒体文件的质量评分。

Description

评分模型训练方法、电子书评分方法及装置
技术领域
本申请涉及电子书评分处理技术领域,特别是涉及一种评分模型训练方法、电子书评分方法及装置。
背景技术
随着科学技术的不断发展,电子设备(如手机、电脑等)逐渐成为人们生活工作中不可或缺的一种电子工具。
在人们的生活工作中经常会使用电子设备浏览多媒体文件(如电子书、视频等),而在用户选择浏览的多媒体文件时,通常会参考多媒体文件的评分数据进行选择。现有技术方案中,多媒体文件的评分方式大多是收集指定多媒体文件平台中的用户行为数据,如多媒体文件的浏览量、下载量、购买量、评论等数据,通过对这些数据进行分析,以得到多媒体文件的评分数据。
而上述评分方式中,需要结合大量的用户行为数据,才能实现对多媒体文件的评分,而此种方式对新上线的多媒体文件,缺乏用户行为数据,导致无法对这类多媒体文件进行评分。
发明内容
本申请实施例的目的在于提供一种评分模型训练方法、电子书评分方法及装置,以实现对新上线的多媒体文件进行评分。具体技术方案如下:
在本申请实施的第一方面,提供了一种评分模型训练方法,包括:
获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值;
获取所述学习样本关联的样本特征;
将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件;
将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值;
在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。
可选地,所述获取所述学习样本关联的样本特征,包括:
根据所述学习样本中的文本信息,提取所述学习样本的样本特征;和/或
根据所述学习样本对应的文件状态信息,获取所述学习样本的样本特征;和/或
根据所述学习样本对应的历史行为数据,获取所述学习样本的样本特征。
可选地,所述在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型,包括:
获取所述预测评分值和所述初始评分值的差值绝对值;
在所述差值绝对值处于所述误差阈值范围内的情况下,将所述目标模型文件作为所述内容评分模型。
可选地,在所述采用所述测试样本对所述目标模型文件进行测试,得到所述测试样本对应的预测评分值之后,还包括:
在所述预测评分值和所述初始评分值的差值处于误差阈值范围之外的情况下,按照预置调整策略对所述预置模型算法进行调整,得到调整模型算法;
根据获取的参考样本对所述调整模型算法进行训练;
所述预置调整策略包括:算法参数调整策略、样本特征调整策略、样本数量调整策略中的至少一种。
在本申请实施的第二方面,提供了一种电子书评分方法,包括:
获取待评分电子书;
获取所述待评分电子书的电子书特征;
将所述电子书特征输入至内容评分模型,并获取由所述内容评分模型输出的所述待评分电子书的内容评分;
其中,所述内容评分模型是通过上述任一项所述的评分模型训练方法训练得到的。
可选地,所述获取所述待评分电子书的电子书特征,包括:
根据所述待评分电子书中的文本信息,提取所述待评分电子书的电子书特征;和/或
根据所述待评分电子书对应的文件状态信息,获取所述待评分电子书的电子书特征;和/或
根据所述待评分电子书对应的历史行为数据,获取所述待评分电子书的电子书特征。
在本申请实施的第三方面,提供了一种评分模型训练装置,包括:
测试样本获取模块,用于获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值;
样本特征获取模块,用于获取所述学习样本关联的样本特征;
目标模型文件获取模块,用于将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件;
预测评分值获取模块,用于将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值;
内容评分模型获取模块,用于在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。
可选地,所述样本特征获取模块包括:
第一样本特征获取单元,用于根据所述学习样本中的文本信息,提取所述学习样本的样本特征;
第二样本特征获取单元,用于根据所述学习样本对应的文件状态信息,获取所述学习样本的样本特征;
第三样本特征获取单元,用于根据所述学习样本对应的历史行为数据,获取所述学习样本的样本特征。
可选地,所述内容评分模型获取模块包括:
差值绝对值获取单元,用于获取所述预测评分值和所述初始评分值的差值绝对值;
内容评分模型获取单元,用于在所述差值绝对值处于所述误差阈值范围内的情况下,将所述目标模型文件作为所述内容评分模型。
可选地,还包括:
调整模型算法获取模块,用于在所述预测评分值和所述初始评分值的差值处于误差阈值范围之外的情况下,按照预置调整策略对所述预置模型算法进行调整,得到调整模型算法;
调整模型算法训练模块,用于根据获取的参考样本对所述调整模型算法进行训练;
所述预置调整策略包括:算法参数调整策略、样本特征调整策略、样本数量调整策略中的至少一种。
在本申请实施的第四方面,提供了一种电子书评分装置,包括:
待评分电子书获取模块,用于获取待评分电子书;
电子书特征获取模块,用于获取所述待评分电子书的电子书特征;
内容评分获取模块,用于将所述电子书特征输入至内容评分模型,并获取由所述内容评分模型输出的所述待评分电子书的内容评分;
其中,所述内容评分模型是通过上述任一项所述的评分模型训练装置训练得到的。
可选地,所述电子书特征获取模块包括:
第一电子书特征获取单元,用于根据所述待评分电子书中的文本信息,提取所述待评分电子书的电子书特征;
第二电子书特征获取单元,用于根据所述待评分电子书对应的文件状态信息,获取所述待评分电子书的电子书特征;
第三电子书特征获取单元,用于根据所述待评分电子书对应的历史行为数据,获取所述待评分电子书的电子书特征。
在本申请实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述评分模型训练方法,或上述电子书评分方法。
在本申请实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述评分模型训练方法,或上述电子书评分方法。
本申请实施例提供的评分模型训练方法、电子书评分方法及装置,通过获取学习样本和测试样本,学习样本和测试样本均为多媒体文件样本,测试样本对应于一个初始评分值,获取学习样本关联的样本特征,将样本特征输入至预置模型算法,并获取由预置模型算法输出的目标模型文件,将测试样本对应的样本特征输入至目标模型文件,并获取由目标模型输出的测试样本对应的预测评分值,在预测评分值和初始评分值的差值处于误差阈值范围内的情况下,将目标模型文件作为最终的内容评分模型。本申请实施例通过结合多媒体文件样本的样本特征训练评分模型,对于新上线的多媒体文件而言,在缺乏用户行为数据的情况下,也能够实现多媒体文件的质量评分。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种评分模型训练方法的步骤流程图;
图2为本申请实施例提供的一种电子书评分方法的步骤流程图;
图3为本申请实施例提供的一种评分模型训练装置的结构示意图;
图4为本申请实施例提供的一种电子书评分装置的结构示意图;
图5为本申请实施例提供的一种电子书设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
参照图1,示出了本申请实施例提供的一种评分模型训练方法的步骤流程图,如图1所示,该评分模型训练方法具体可以包括如下步骤:
步骤101:获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值。
本申请实施例可以应用于训练对多媒体文件对应的评分模型的场景中。
学习样本是指用于对预置模型算法进行训练的样本。
测试样本是指用于对预置模型算法输出的模型文件进行测试的样本。
在本实施例中,学习样本和测试样本均为多媒体文件样本,例如,视频文件样本、电子书文件样本、图片文件样本等,具体地,可以根据业务需求而定,本实施例对此不加以限制。
在某些示例中,可以通过互联网获取学习样本和测试样本,例如,在需要训练电子书评分模型时,可以从互联网中获取电子书文件以作为学习样本和测试样本。
在某些示例中,可以通过预置多媒体文件数据库获取学习样本和测试样本,例如,在需要训练视频评分模型时,可以从视频文件数据库中获取学习样本和测试样本。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
初始评分值是指预先设置的测试样本所对应的评分值,在获取测试样本后,可以由业务人员根据测试样本的样本特征为测试样本赋予一个评分值,以作为初始评分值。
在本实施例中,学习样本和测试样本的数量可以由业务人员预先设置,例如,上百个、上千个、上万个等,当然,学习样本和测试样本的数量可以是相同的,也可以是不相同的,具体地,可以根据业务需求而定,本实施例对此不加以限制。
在获取学习样本和测试样本之后,执行步骤102。
步骤102:获取所述学习样本关联的样本特征。
样本特征是指与学习样本关联的特征,在本实施例中,样本特征可以为样本固有维度的特征、样本状态维度的特征和用户行为维度的特征等维度特征中的至少一种,具体地,对于获取学习样本关联的样本特征的过程可以结合下述具体实现方式进行详细描述。
在本实施例的一种具体实现方式中,上述步骤102可以包括:
子步骤S1:根据所述学习样本中的文本信息,提取所述学习样本的样本特征;和/或
子步骤S2:根据所述学习样本对应的文件状态信息,获取所述学习样本的样本特征;和/或
子步骤S3:根据所述学习样本对应的历史行为数据,获取所述学习样本的样本特征。
在本实施例中,样本特征可以为根据学习样本中的固有文本信息提取的学习样本的特征,例如,学习样本以电子书为例,固有文本信息是指电子书本身的信息,如书籍分类、书籍标签、书籍字数等,即将电子书的分类、标签和字数中的至少之一作为电子书的样本特征。
样本特征也可以为根据学习样本对应的文件状态信息获取的学习样本的特征,例如,学习样本以电子书为例,文件状态信息可以为电子书是否连载等状态信息,即将电子书的状态信息作为电子书的样本特征。
样本特征还可以为根据学习样本的历史行为数据获取的学习样本的特征,例如,学习样本以电子书为例,历史行为数据是指根据用户行为统计出的数据指标,如访问量、阅读量、转化率、评论等数据。
当然,对于历史行为数据特征还可以按照时间维度进行扩充,比如,一天内的访问量或三天内的访问量等。
学习样本的样本特征可以为上述几种特征中的至少一种,具体地,可以根据业务需求选定学习样本的样本特征的维度,具体地,可以根据业务需求而定。
在获取学习样本关联的样本特征之后,执行步骤103。
步骤103:将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件。
预置模型算法是指用于对多媒体进行评分的模型进行训练的算法,在本实施例中,预置模型算法可以为GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法,GBDT算法是一种典型的集成学习算法,在GBDT算法流程中,使用一些已标注样本依次训练处两个以上的决策树,然后将训练处的各决策树集成为一个模型,以作为训练结果。
目标模型文件是指在采用学习样本训练完成之后,由预置模型算法输出的模型文件。
在获取学习样本关联的样本特征之后,可以将样本特征输入至预置模型算法(本示例中以GBDT算法为例),在GBDT算法流程中,训练出一个决策树之后,会继续训练下一个决策树。针对除第一个决策树之外的其它决策树,该其它决策树用于拟合根据该其他决策树之前所有决策树计算出的训练残差。如此,随着GBDT算法流程的推进,越来越多的决策树被依次训练出来,训练残差会越来越小。当训练残差足够小时,说明当前的模型的模型参数对各已标注样本的样本特征的拟合效果达标,此时,便可以结束训练,此时GBDT算法输出的模型文件即为目标模型文件。
当然,在本实施例中,可以获取设定数量(如上百个、上千个等)的学习样本,在采用GBDT算法对设定数量的学习样本进行训练之后,可以输出目标模型文件。
在将样本特征输入至预置模型算法,并获取由预置模型算法输出的目标模型文件之后,执行步骤104。
步骤104:将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值。
预测评分值是指采用目标模型文件对测试样本的样本特征进行处理,得到的测试样本的评分值。
在获取目标模型文件之后,可以采用测试样本对应的样本特征对目标模型文件进行测试。具体地测试过程为:可以将测试样本对应的样本特征输入至目标模型文件,并由目标模型文件对测试样本的样本特征进行相应处理,可以输出测试样本的预测评分值。
在获取由目标模型文件输出的测试样本对应的预测评分值之后,执行步骤105。
步骤105:在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。
误差阈值范围是指由业务人员预先设置的用于判定测试样本的初始评分值和预测评分值的差值是否满足条件的差值范围。
在获取测试样本的预测评分值之后,可以计算测试样本对应的初始评分值和预测评分值之间的差值绝对值,进而判定差值绝对值是否处于误差阈值范围内,具体地,可以结合下述具体实现方式进行详细描述。
在本实施例的一种具体实现方式中,上述步骤105可以包括:
子步骤M1:获取所述预测评分值和所述初始评分值的差值绝对值。
在本实施例中,差值绝对值是指预测评分值和初始评分值之间的差值的绝对值,在获取测试样本的预测评分值之后,可以计算差值绝对值。
在获取差值绝对值之后,执行子步骤M2。
子步骤M2:在所述差值绝对值处于所述误差阈值范围内的情况下,将所述目标模型文件作为所述内容评分模型。
在获取差值绝对值之后,可以判定差值绝对值是否处于误差阈值范围内,在差值绝对值处于误差阈值范围内时,则将目标模型文件作为内容评分模型,例如,误差阈值范围为5~10,而在差值绝对值位于5~10之间时,则将预置模型算法输出的目标模型文件作为内容评分模型。
而在预测评分值和初始评分值之间的差值处于误差阈值范围之外时,可以采用预置调整策略对预置模型算法进行调整,以继续进行训练,具体地,可以进行如下描述。
在本申请的一种具体实现方式中,在上述步骤105之后,还可以包括:
步骤N1:在所述预测评分值和所述初始评分值的差值处于误差阈值范围之外的情况下,按照预置调整策略对所述预置模型算法进行调整,得到调整模型算法。
在本实施例中,调整模型算法是指按照预置调整策略对预置模型算法进行调整之后,得到的调整模型算法。
预置调整策略可以包括算法参数调整策略、样本特征调整策略、样本数量调整策略等策略中的一种或多种策略。
算法参数调整策略是指对预置模型算法的算法参数进行调整的策略,例如,在预置模型算法中包含多种数学算法时,算法调整策略可以为对预置模型算法中的一种数学算法的算法参数进行调整的策略,也可以为对预置模型算法中的多种数学算法的算法参数进行调整的策略等。
样本特征调整策略是指对学习样本的样本特征进行调整的策略。例如,在上述预置模型算法训练内容评分模型的过程中,学习样本的样本特征包含三种维度的特征,而在按照样本特征调整策略对学习样本的样本特征进行调整之后,所得到的样本特征可以为两种或一种维度的样本特征,也可以为四种或五种维度的样本特征。
样本数量调整策略是指对学习样本的数量进行调整的策略,例如,在上述采用预置模型算法训练内容评分模型的过程中,所采用的学习样本的数量为3000个时,而在采用测试样本进行测试,得到的预测评分值和初始评分值的差值处于误差阈值范围之外时,可以通过调整学习样本的数量以再次对预置模型算法进行训练,例如,调整的学习样本的数量为2000、800等。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在预测评分值和初始评分值的差值处于误差阈值范围之外时,可以按照预置调整策略对预置模型算法进行调整,从而可以得到调整模型算法。
在得到调整模型算法之后,执行步骤N2。
步骤N2:根据获取的参考样本对所述调整模型算法进行训练。
参考样本是指用于对调整模型算法进行再次训练的样本,参考样本也为多媒体文件样本,可以理解地,参考样本与学习样本、测试样本的文件类型相同,例如,在学习样本为电子书样本时,则参考样本为电子书样本,而在学习样本为音乐文件样本时,则参考样本为音乐文件样本。
在对预置模型算法进行调整得到调整模型算法之后,可以获取参考样本,进而可以根据参考样本对调整模型算法进行训练,具体地训练过程可以如同上述采用学习样本对预置模型算法进行训练的过程,本实施例在此不再加以赘述。
在采用参考样本对调整模型算法进行训练之后,可以获取由调整模型算法输出目标模型文件,进而可以再次采用测试样本对再次输出的目标模型文件进行测试,可以如同上述测试过程。
本实施例中限定的学习样本的样本特征不仅限于用户行为数据的特征,还可以结合学习样本的固有特征和状态特征对评分模型进行训练,从而训练得到的内容评分模型可以对新上线的缺乏用户行为数据的多媒体文件进行质量评分。
本申请实施例提供的评分模型训练方法,通过获取学习样本和测试样本,学习样本和测试样本均为多媒体文件样本,测试样本对应于一个初始评分值,获取学习样本关联的样本特征,将样本特征输入至预置模型算法,并获取由预置模型算法输出的目标模型文件,将测试样本对应的样本特征输入至目标模型文件,并获取由目标模型输出的测试样本对应的预测评分值,在预测评分值和初始评分值的差值处于误差阈值范围内的情况下,将目标模型文件作为最终的内容评分模型。本申请实施例通过结合多媒体文件样本的样本特征训练评分模型,对于新上线的多媒体文件而言,在缺乏用户行为数据的情况下,也能够实现多媒体文件的质量评分。
参照图2,示出了本申请实施例提供的一种电子书评分方法的步骤流程图,如图2所示,该电子书评分方法具体可以包括如下步骤:
步骤201:获取待评分电子书。
本申请实施例可以应用于采用内容评分模型对电子书进行评分的场景中。
待评分电子书是指用于进行评分的电子书。
在某些示例中,待评分电子书可以为某阅读平台上新上线的电子书,例如,在某个新书在xx阅读平台上线之后,可以将该新书作为待评分电子书。
在某些示例中,待评分电子书可以为从某阅读平台上搜索到的上线有一段时间的电子书,例如,在xx阅读平台需要对该平台上发布的某类的电子书进行评分时,可以在该平台上进行搜索,并将搜索到的该类的电子书作为待评分电子书。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。
步骤202:获取所述待评分电子书的电子书特征。
电子书特征是指与待评分电子书关联的书籍特征。在本实施例中,电子书样本可以为电子书固有维度的特征、电子书状态维度的特征和用户行为维度的特征等维度特征中的至少一种,具体地,对于获取待评分电子书的电子书特征的过程可以结合下述具体实现方式进行详细描述。
在本申请的一种具体实现方式中,上述步骤202可以包括:
子步骤P1:根据所述待评分电子书中的文本信息,提取所述待评分电子书的电子书特征;和/或
子步骤P2:根据所述待评分电子书对应的文件状态信息,获取所述待评分电子书的电子书特征;和/或
子步骤P3:根据所述待评分电子书对应的历史行为数据,获取所述待评分电子书的电子书特征。
在本实施例中,电子书特征可以为根据待评分电子书中的固有文本信息提取的电子书特征,固有文本信息是指待评分电子书本身的信息,如书籍分类、书籍标签、书籍字数、书籍作者等,即将书籍分类、书籍标签、书籍字数、书籍作者等特征中的至少之一作为电子书特征。
电子书特征也可以为根据待评分电子书对应的文件状态信息获取的待评分电子书的特征,例如,待评分电子书是否连载等状态特征。
电子书特征哈可以为根据待评分电子书的历史行为数据获取的特征,历史行为数据是指根据用户行为统计出的数据指标,如访问量、阅读量、转化率、评论等数据指标。
当然,对于历史行为数据特征还可以按照时间维度进行扩充,比如,一天内的访问量或三天内的访问量等。
电子书特征可以为上述几种特征中的一种或多种,具体地,可以根据业务需求选定待评分电子书的电子书特征的维度,具体地,可以根据业务需求而定,本实施例对此不加以限制。
在获取待评分电子书的电子书特征之后,执行步骤203。
步骤203:将所述电子书特征输入至内容评分模型,并获取由所述内容评分模型输出的所述待评分电子书的内容评分。
在本实施例中,内容评分模型是采用上述评分模型训练方法训练得到的。
内容评分是指采用内容评分模型对待评分电子书进行评分得到待评分电子书的质量评分。
在获取电子书特征之后,可以将电子书特征输入至内容评分模型,可以由内容评分模型对电子书特征进行处理,以由内容评分模型输出待评分电子书的内容评分。
本申请实施例不仅可以对上线时间较长的电子书进行质量评分,还可以对新上线的电子书进行质量评分,能够对没有电子书行为数据的电子书进行质量评分,提高了电子书质量评分的应用场景。
本申请实施例提供的电子书评分方法,通过获取待评分电子书,获取待评分电子书的电子书特征,将电子书特征输入至内容评分模型,并获取由内容评分模型输出待评分电子书的内容评分。本申请实施例提供的内容评分模型,不仅限于结合电子书的用户行为数据进行训练,还可以结合电子书的固有特征进行训练,可以实现对新上线的电子书的质量进行评分。
参照图3,示出了本申请实施例提供的一种评分模型训练装置的结构示意图,如图3所示,该评分模型训练装置可以包括如下模块:
测试样本获取模块310,用于获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值;
样本特征获取模块320,用于获取所述学习样本关联的样本特征;
目标模型文件获取模块330,用于将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件;
预测评分值获取模块340,用于将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值;
内容评分模型获取模块350,用于在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。
可选地,所述样本特征获取模块320包括:
第一样本特征获取单元,用于根据所述学习样本中的文本信息,提取所述学习样本的样本特征;
第二样本特征获取单元,用于根据所述学习样本对应的文件状态信息,获取所述学习样本的样本特征;
第三样本特征获取单元,用于根据所述学习样本对应的历史行为数据,获取所述学习样本的样本特征。
可选地,所述内容评分模型获取模块350包括:
差值绝对值获取单元,用于获取所述预测评分值和所述初始评分值的差值绝对值;
内容评分模型获取单元,用于在所述差值绝对值处于所述误差阈值范围内的情况下,将所述目标模型文件作为所述内容评分模型。
可选地,还包括:
调整模型算法获取模块,用于在所述预测评分值和所述初始评分值的差值处于误差阈值范围之外的情况下,按照预置调整策略对所述预置模型算法进行调整,得到调整模型算法;
调整模型算法训练模块,用于根据获取的参考样本对所述调整模型算法进行训练;
所述预置调整策略包括:算法参数调整策略、样本特征调整策略、样本数量调整策略中的至少一种。
本申请实施例提供的评分模型训练装置,通过获取学习样本和测试样本,学习样本和测试样本均为多媒体文件样本,测试样本对应于一个初始评分值,获取学习样本关联的样本特征,将样本特征输入至预置模型算法,并获取由预置模型算法输出的目标模型文件,将测试样本对应的样本特征输入至目标模型文件,并获取由目标模型输出的测试样本对应的预测评分值,在预测评分值和初始评分值的差值处于误差阈值范围内的情况下,将目标模型文件作为最终的内容评分模型。本申请实施例通过结合多媒体文件样本的样本特征训练评分模型,对于新上线的多媒体文件而言,在缺乏用户行为数据的情况下,也能够实现多媒体文件的质量评分。
参照图4,示出了本申请实施例提供的一种电子书评分装置的结构示意图,如图4所示,该电子书评分装置可以包括如下模块:
待评分电子书获取模块410,用于获取待评分电子书;
电子书特征获取模块420,用于获取所述待评分电子书的电子书特征;
内容评分获取模块430,用于将所述电子书特征输入至内容评分模型,并获取由所述内容评分模型输出的所述待评分电子书的内容评分;
其中,所述内容评分模型是通过上述任一项所述的评分模型训练装置训练得到的。
可选地,所述电子书特征获取模块420包括:
第一电子书特征获取单元,用于根据所述待评分电子书中的文本信息,提取所述待评分电子书的电子书特征;
第二电子书特征获取单元,用于根据所述待评分电子书对应的文件状态信息,获取所述待评分电子书的电子书特征;
第三电子书特征获取单元,用于根据所述待评分电子书对应的历史行为数据,获取所述待评分电子书的电子书特征。
本申请实施例提供的电子书评分装置,通过获取待评分电子书,获取待评分电子书的电子书特征,将电子书特征输入至内容评分模型,并获取由内容评分模型输出待评分电子书的内容评分。本申请实施例提供的内容评分模型,不仅限于结合电子书的用户行为数据进行训练,还可以结合电子书的固有特征进行训练,可以实现对新上线的电子书的质量进行评分。
本申请实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值;
获取所述学习样本关联的样本特征;
将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件;
将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值;
在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。
可选地,所述获取所述学习样本关联的样本特征,包括:
根据所述学习样本中的文本信息,提取所述学习样本的样本特征;和/或
根据所述学习样本对应的文件状态信息,获取所述学习样本的样本特征;和/或
根据所述学习样本对应的历史行为数据,获取所述学习样本的样本特征。
可选地,所述在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型,包括:
获取所述预测评分值和所述初始评分值的差值绝对值;
在所述差值绝对值处于所述误差阈值范围内的情况下,将所述目标模型文件作为所述内容评分模型。
可选地,在所述采用所述测试样本对所述目标模型文件进行测试,得到所述测试样本对应的预测评分值之后,还包括:
在所述预测评分值和所述初始评分值的差值处于误差阈值范围之外的情况下,按照预置调整策略对所述预置模型算法进行调整,得到调整模型算法;
根据获取的参考样本对所述调整模型算法进行训练;
所述预置调整策略包括:算法参数调整策略、样本特征调整策略、样本数量调整策略中的至少一种。
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取待评分电子书;
获取所述待评分电子书的电子书特征;
将所述电子书特征输入至内容评分模型,并获取由所述内容评分模型输出的所述待评分电子书的内容评分;
其中,所述内容评分模型是通过上述任一项所述的评分模型训练方法训练得到的。
可选地,所述获取所述待评分电子书的电子书特征,包括:
根据所述待评分电子书中的文本信息,提取所述待评分电子书的电子书特征;和/或
根据所述待评分电子书对应的文件状态信息,获取所述待评分电子书的电子书特征;和/或
根据所述待评分电子书对应的历史行为数据,获取所述待评分电子书的电子书特征。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述评分模型训练方法,或上述电子书评分方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述评分模型训练方法,或上述电子书评分方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种评分模型训练方法,其特征在于,包括:
获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值;
获取所述学习样本关联的样本特征;
将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件;
将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值;
在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。
2.根据权利要求1所述的方法,其特征在于,所述获取所述学习样本关联的样本特征,包括:
根据所述学习样本中的文本信息,提取所述学习样本的样本特征;和/或
根据所述学习样本对应的文件状态信息,获取所述学习样本的样本特征;和/或
根据所述学习样本对应的历史行为数据,获取所述学习样本的样本特征。
3.根据权利要求1所述的方法,其特征在于,所述在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型,包括:
获取所述预测评分值和所述初始评分值的差值绝对值;
在所述差值绝对值处于所述误差阈值范围内的情况下,将所述目标模型文件作为所述内容评分模型。
4.根据权利要求1所述的方法,其特征在于,在所述采用所述测试样本对所述目标模型文件进行测试,得到所述测试样本对应的预测评分值之后,还包括:
在所述预测评分值和所述初始评分值的差值处于误差阈值范围之外的情况下,按照预置调整策略对所述预置模型算法进行调整,得到调整模型算法;
根据获取的参考样本对所述调整模型算法进行训练;
所述预置调整策略包括:算法参数调整策略、样本特征调整策略、样本数量调整策略中的至少一种。
5.一种电子书评分方法,其特征在于,包括:
获取待评分电子书;
获取所述待评分电子书的电子书特征;
将所述电子书特征输入至内容评分模型,并获取由所述内容评分模型输出的所述待评分电子书的内容评分;
其中,所述内容评分模型是通过权利要求1至4任一项所述的评分模型训练方法训练得到的。
6.根据权利要求5所述的方法,其特征在于,所述获取所述待评分电子书的电子书特征,包括:
根据所述待评分电子书中的文本信息,提取所述待评分电子书的电子书特征;和/或
根据所述待评分电子书对应的文件状态信息,获取所述待评分电子书的电子书特征;和/或
根据所述待评分电子书对应的历史行为数据,获取所述待评分电子书的电子书特征。
7.一种评分模型训练装置,其特征在于,包括:
测试样本获取模块,用于获取学习样本和测试样本,所述学习样本和所述测试样本均为多媒体文件样本,所述测试样本对应于一个初始评分值;
样本特征获取模块,用于获取所述学习样本关联的样本特征;
目标模型文件获取模块,用于将所述样本特征输入至预置模型算法,并获取由所述预置模型算法输出的目标模型文件;
预测评分值获取模块,用于将所述测试样本对应的样本特征输入至所述目标模型文件,并获取由所述目标模型文件输出的所述测试样本对应的预测评分值;
内容评分模型获取模块,用于在所述预测评分值和所述初始评分值的差值处于误差阈值范围内的情况下,将所述目标模型文件作为最终的内容评分模型。
8.一种电子书评分装置,其特征在于,包括:
待评分电子书获取模块,用于获取待评分电子书;
电子书特征获取模块,用于获取所述待评分电子书的电子书特征;
内容评分获取模块,用于将所述电子书特征输入至内容评分模型,并获取由所述内容评分模型输出的所述待评分电子书的内容评分;
其中,所述内容评分模型是通过权利要求7至10任一项所述的评分模型训练装置训练得到的。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的评分模型训练方法,或权利要求5-6所述的电子书评分方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4任一所述的评分模型训练方法,或权利要求5-6所述的电子书评分方法。
CN202010550244.2A 2020-06-16 2020-06-16 评分模型训练方法、电子书评分方法及装置 Pending CN111737554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550244.2A CN111737554A (zh) 2020-06-16 2020-06-16 评分模型训练方法、电子书评分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550244.2A CN111737554A (zh) 2020-06-16 2020-06-16 评分模型训练方法、电子书评分方法及装置

Publications (1)

Publication Number Publication Date
CN111737554A true CN111737554A (zh) 2020-10-02

Family

ID=72649921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550244.2A Pending CN111737554A (zh) 2020-06-16 2020-06-16 评分模型训练方法、电子书评分方法及装置

Country Status (1)

Country Link
CN (1) CN111737554A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536769A (zh) * 2021-07-21 2021-10-22 深圳证券信息有限公司 文本简洁明晰程度评价方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522950A (zh) * 2018-11-09 2019-03-26 网易传媒科技(北京)有限公司 图像评分模型训练方法及装置和图像评分方法及装置
CN109871858A (zh) * 2017-12-05 2019-06-11 北京京东尚科信息技术有限公司 预测模型建立、对象推荐方法及***、设备及存储介质
CN110866119A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 一种文章质量的确定方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871858A (zh) * 2017-12-05 2019-06-11 北京京东尚科信息技术有限公司 预测模型建立、对象推荐方法及***、设备及存储介质
CN109522950A (zh) * 2018-11-09 2019-03-26 网易传媒科技(北京)有限公司 图像评分模型训练方法及装置和图像评分方法及装置
CN110866119A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 一种文章质量的确定方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536769A (zh) * 2021-07-21 2021-10-22 深圳证券信息有限公司 文本简洁明晰程度评价方法及相关设备

Similar Documents

Publication Publication Date Title
CN109657137B (zh) 舆情新闻分类模型构建方法、装置、计算机设备和存储介质
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
WO2013121181A1 (en) Method of machine learning classes of search queries
CN110704626A (zh) 一种用于短文本的分类方法及装置
US20180300336A1 (en) Knowledge point structure-based search apparatus
CN110852056A (zh) 一种获取文本相似度的方法、装置、设备及可读存储介质
CN112669078A (zh) 一种行为预测模型训练方法、装置、设备及存储介质
CN111309970A (zh) 一种数据检索方法、装置、电子设备及存储介质
CN111640099A (zh) 一种确定图像质量的方法、装置、电子设备及存储介质
CN110689211A (zh) 网站服务能力的评估方法及装置
CN111639696A (zh) 一种用户分类方法及装置
CN108021713B (zh) 一种文档聚类的方法和装置
CN111737554A (zh) 评分模型训练方法、电子书评分方法及装置
CN112199500A (zh) 针对评论的情感倾向识别方法、装置及电子设备
CN113516251A (zh) 一种机器学习***及模型训练方法
CN110837732B (zh) 目标人物间亲密度识别方法、装置、电子设备及存储介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN113076487B (zh) 一种用户兴趣表征及内容推荐方法、装置和设备
CN110309421B (zh) 一种ugc内容质量评估方法、装置及电子设备
CN110674330B (zh) 表情管理的方法、装置、电子设备及存储介质
CN111353052B (zh) 一种多媒体对象推荐方法、装置、电子设备及存储介质
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN113536138A (zh) 一种网络资源推荐方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination