CN113343082B - 可热字段预测模型生成方法、装置、存储介质及设备 - Google Patents

可热字段预测模型生成方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN113343082B
CN113343082B CN202110574931.2A CN202110574931A CN113343082B CN 113343082 B CN113343082 B CN 113343082B CN 202110574931 A CN202110574931 A CN 202110574931A CN 113343082 B CN113343082 B CN 113343082B
Authority
CN
China
Prior art keywords
training
key field
field
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110574931.2A
Other languages
English (en)
Other versions
CN113343082A (zh
Inventor
邵佳帅
闫开元
于吉士
陈松林
张子实
谭孟泷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110574931.2A priority Critical patent/CN113343082B/zh
Publication of CN113343082A publication Critical patent/CN113343082A/zh
Application granted granted Critical
Publication of CN113343082B publication Critical patent/CN113343082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种可热字段预测模型生成方法、装置、存储介质及设备,其中方法包括:获取样本关键字段在第一历史时间段内的训练特征数据;获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型。采用本申请,可以基于样本关键字段在历史时间段内的特征,以及在历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,提升热点发文内容的产生效率,保证内容平台的扩展。

Description

可热字段预测模型生成方法、装置、存储介质及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种可热字段预测模型生成方法、装置、存储介质及设备。
背景技术
随着计算机技术不断的开发和完善,手机、电脑等终端已经成为人们日常生活中必不可少的设备,通过装载在终端中的内容应用,可以基于内容平台将作者产生的发文内容推送给用户进行浏览,由于不同作者的兴趣爱好不同,因此所产生的发文内容的主题类型也较为丰富,满足了绝大多数用户的浏览需求。然而,现有发文内容的产生往往需要依赖作者的创作灵感或者对内容平台用户的理解,对于不同领域的热点需要由作者自行进行把控,因此容易导致所产生的发文内容由于缺乏热点的构成,使得用户浏览反馈较少,不仅无法保证发文内容的质量,同时还花费了作者较多的时间,影响了热点发文内容的产生效率,进而影响了内容平台的扩展。
发明内容
本申请提供一种可热字段预测模型生成方法、装置、存储介质及设备,可以基于样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,提升热点发文内容的产生效率,保证内容平台的扩展。
第一方面,本申请实施例提供一种可热字段预测模型生成方法,包括:
获取样本关键字段在第一历史时间段内的训练特征数据;
获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
所述第一历史时间段为在设定时间之前的历史时间段,所述第二历史时间段为在设定时间之后的历史时间段。
第二方面,本申请实施例提供一种预测模型生成装置,包括:
训练特征获取单元,用于获取样本关键字段在第一历史时间段内的训练特征数据;
训练结果确定单元,用于获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
模型生成单元,用于初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
所述第一历史时间段为在设定时间之前的历史时间段,所述第二历史时间段为在设定时间之后的历史时间段。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
第四方面,本申请实施例提供一种计算机设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。
在本申请实施例中,通过样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,为作者提供创作灵感以及创作方向,提升了热点发文内容的产生效率,保证了内容平台的扩展。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种主题推送的***架构图;
图2为本申请实施例提供的一种可热字段预测模型生成方法的流程示意图;
图3为本申请实施例提供的一种可热字段预测模型生成方法的流程示意图;
图4为本申请实施例提供的历史时间段的坐标轴的举例示意图;
图5为本申请实施例提供的预测模型生成及使用的举例示意图;
图6为本申请实施例提供的训练特征数据获取的流程示意图;
图7为本申请实施例提供的第一训练预测结果获取的流程示意图;
图8为本申请实施例提供的预测模型确定的流程示意图;
图9为本申请实施例提供的预测模型生成及使用的举例示意图;
图10为本申请实施例提供的一种预测模型生成装置的结构示意图;
图11为本申请实施例提供的一种预测模型生成装置的结构示意图;
图12为本申请实施例提供的训练特征获取单元的结构示意图;
图13为本申请实施例提供的训练结果确定单元的结构示意图;
图14为本申请实施例提供的模型生成单元的结构示意图;
图15为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使得本申请的特征和优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,为本申请实施例提供了一种主题推送的***架构图。如图1所示,本申请实施例提供的可热字段预测模型生成方法可以应用于内容平台的场景中,所述内容平台中存在作者、用户、发文内容这三个实体,其中,作者为内容平台提供发文内容,用户在内容平台中浏览发文内容,发文内容与用户进行精准匹配,从实体结构可以具体划分为作者终端设备、用户终端设备以及内容服务设备,作者终端设备与内容服务设备,以及用户终端设备与内容服务设备之间可以通过网络相互连接。
作者终端设备具体可以为作者产生发文内容的设备,可以包括但不限于手机、个人电脑、笔记本电脑、车载设备、可穿戴设备等具备内容生产功能在内的终端设备;所述用户终端设备具体可以为用户浏览发文内容的设备,可以包括但不限于手机、个人电脑、笔记本电脑、车载设备、可穿戴设备等具备内容浏览功能在内的终端设备;所述内容服务设备具体可以为搭载了内容平台,且对作者产生的发文内容进行存储的后台服务设备,例如:服务器、服务集群等;发文内容具体可以为由多媒体数据所组成的内容,多媒体数据可以包括但不限于视频、图片、文字等。
在本申请实施例中,由于现有发文内容的产生往往需要依赖作者的创作灵感或者对内容平台用户的理解,因此对于作者的创作水平是一种考验,并且对于加入内容平台的新作者,无法及时了解发文内容的创作方向,会导致作者出现流失的情况,减少了内容平台中发文内容的产生,进而影响了内容平台的扩展,因此需要改善内容平台与作者之间的关系,帮助作者解决产生何种内容的问题,本申请实施例以预测模型生成装置为执行主体,预测模型生成装置具体可以为***架构中的内容服务设备,也可以为内容服务设备中模型生成应用程序,具体提供了一种可热字段预测模型生成方法,其中,预测模型生成装置获取样本关键字段在第一历史时间段内的训练特征数据;预测模型生成装置获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;预测模型生成装置初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;所述第一历史时间段为在设定时间之前的历史时间段,所述第二历史时间段为在设定时间之后的历史时间段。通过样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,为作者提供创作灵感以及创作方向,提升了热点发文内容的产生效率,保证了内容平台的扩展。
基于图1所示的***架构,下面将结合图2-图9,对本申请实施例提供的可热字段预测模型生成方法进行详细介绍。
请参见图2,为本申请实施例提供了一种可热字段预测模型生成方法的流程示意图。如图2所示,所述方法可以包括以下步骤S101-步骤S103。
S101,获取样本关键字段在第一历史时间段内的训练特征数据;
具体的,预测模型生成装置可以获取样本关键字段在第一历史时间段内的训练特征数据,所述样本关键字段为依据一个历史周期内,在内容平台发布的发文内容中所提取的,所述历史周期可以为固定的时间段,也可以人为进行设定,所述第一历史时间段为设定时间之前的历史时间段,所述设定时间可以为用户设定的与当前时间相近的一个时间点,所述第一历史时间段的时长可以依据实际模型生成的需求进行设定,例如:可以选择当前时间的前第三天作为设定时间,在该设定时间的前7天作为第一历史时间段。所述训练特征数据具体可以为针对预测模型的训练所选取的与所述样本关键字段相关联的特征数据,所述训练特征数据可以包括但不限于基础特征、趋势特征以及相关字段特征中的至少一种,所述基础特征具体可以用于表示所述样本关键字段的发文行为特征,所述趋势特征具体可以用于表示与所述样本关键字段相关联的发文内容的浏览量特征,所述相关字段特征具体可以用于表示所述样本关键字段的相关字段的发文行为特征和相关字段的浏览量特征。
S102,获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
具体的,预测模型生成装置可以获取所述样本关键字段在第二历史时间段内的发文点击数据,所述第二历史时间段为设定时间之后的历史时间段,所述第二历史时间段的时长同样也可以依据实际模型生成的需求进行设定,依据上述举例,当前时间的前第三天作为设定时间,可以将该设定时间的后3天作为第二历史时间段。所述发文点击数据可以包括发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势中的至少一种。
S103,初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
具体的,预测模型生成装置可以初始化预测模型,包括确定预测模型的模型类型、建立预测模型的基本架构等,所述预测模型生成装置可以以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到所述预测模型中的模型参数。可以理解的是,预测模型生成装置可以采用样本关键字段集合中所有样本关键字段分别对应的训练特征数据以及第一训练预测结果,对所述预测模型进行训练,也可以在样本关键字段集合中选取部分的样本关键字段分别对应的训练特征数据以及第一训练预测结果,对所述预测模型进行训练,可以依据实际需求进行选取。
预测模型生成装置可以将所述模型参数代入所述预测模型中,以得到训练后的可热字段预测模型,所述可热字段预测模型可以用于预测目标关键字段在未来的一时间段内是否属于热点关键字段,主要依据的是该目标关键字段在历史时间段内的特征表现,实现了对热点关键词的前瞻性预测。
在本申请实施例中,通过样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,为作者提供创作灵感以及创作方向,提升了热点发文内容的产生效率,保证了内容平台的扩展。
请参见图3,为本申请实施例提供了一种可热字段预测模型生成方法的流程示意图。如图3所示,所述方法可以包括以下步骤S201-步骤S206。
S201,统计在第三历史时间段内发布的发文内容,在所述发文内容中提取样本关键字段;
具体的,预测模型生成装置可以统计在第三历史时间段内发布的发文内容,所述第三历史时间段具体可以为一个历史周期,所述历史周期可以为固定的时间段,也可以人为进行设定,例如:一个月、一年等,所述第三历史时间段包含有第一历史时间段和第二历史时间段。预测模型生成装置可以统计发布平台中在第三历史时间段内发布的所有发文内容,在所述发文内容中提取样本关键字段集合,所述样本关键字段集合可以包含有一个或多个样本关键字段,所述样本关键字段具体可以为所述发文内容中的关键词。可以理解的是,不同的发文内容可以具备有不同的样本关键字段,并且每个发文内容可以对应一个或多个样本关键字段。
S202,获取样本关键字段在第一历史时间段内的训练特征数据;
具体的,预测模型生成装置可以获取样本关键字段在第一历史时间段内的训练特征数据,所述样本关键字段为依据一个历史周期内,在内容平台发布的发文内容中所提取的,所述历史周期可以为固定的时间段,也可以人为进行设定,所述第一历史时间段为设定时间之前的历史时间段,所述设定时间可以为用户设定的与当前时间相近的一个时间点,所述第一历史时间段的时长可以依据实际模型生成的需求进行设定,例如:可以选择当前时间的前第三天作为设定时间,在该设定时间的前7天作为第一历史时间段。所述训练特征数据具体可以为针对预测模型的训练所选取的与所述样本关键字段相关联的特征数据,所述训练特征数据可以包括但不限于基础特征、趋势特征以及相关字段特征中的至少一种,所述基础特征具体可以用于表示所述样本关键字段的发文行为特征,所述趋势特征具体可以用于表示与所述样本关键字段相关联的发文内容的浏览量特征,所述相关字段特征具体可以用于表示所述样本关键字段的相关字段的发文行为特征和相关字段的浏览量特征。
S203,获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
具体的,预测模型生成装置可以获取所述样本关键字段在第二历史时间段内的发文点击数据,所述第二历史时间段为设定时间之后的历史时间段,所述第二历史时间段的时长同样也可以依据实际模型生成的需求进行设定,依据上述举例,当前时间的前第三天作为设定时间,可以将该设定时间的后3天作为第二历史时间段。所述发文点击数据可以包括发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势中的至少一种。
请一并参见图4,为本申请实施例提供了历史时间段的坐标轴的举例示意图。图4示出了一种示意性的历史时间段分布方式,历史时间段中可以以天为单位时间,所述第三历史时间段为O~T+q,所述第一历史时间段为T-m~T,所述第二历史时间段为T+1~T+q,其中,T为设定时间,q大于或等于1,m大于或等于0,T+q可以为当前日,也可以为当前日的前一天。
由图4可知,第三历史时间段为当前日之前的一较大范围的时间段,具体用于筛选出需要进行模型训练的样本关键字段,第一历史时间段和第二历史时间段具体依据设定时间进行分布,设定时间通常选取较为靠近当前日的时间点,可以保证样本关键字段的特征数据选取以及预测结果具有代表性,进而可以保证预测模型训练的准确性。
S204,初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
具体的,预测模型生成装置可以初始化预测模型,包括确定预测模型的模型类型、建立预测模型的基本架构等,所述预测模型生成装置可以以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到所述预测模型中的模型参数。可以理解的是,预测模型生成装置可以采用样本关键字段集合中所有样本关键字段分别对应的训练特征数据以及第一训练预测结果,对所述预测模型进行训练,也可以在样本关键字段集合中选取部分的样本关键字段分别对应的训练特征数据以及第一训练预测结果,对所述预测模型进行训练,可以依据实际需求进行选取。
预测模型生成装置可以将所述模型参数代入所述预测模型中,以得到训练后的可热字段预测模型,所述可热字段用于表示任一关键字段在未来的一时间段内属于热点关键字段,所述可热字段预测模型可以用于预测目标关键字段在未来的一时间段内是否属于热点关键字段,主要依据的是该目标关键字段在历史时间段内的特征表现,实现了对热点关键词的前瞻性预测。
请一并参见图5,为本申请实施例提供了预测模型生成及使用的举例示意图。如图5所示,预测模型生成装置可以获取样本关键字段在T-m~T之间的训练特征数据,以及T+1~T+q之间的发文点击数据,其中,T-n表示T-m~T之间的数字,n小于或等于m,T+p表示T+1~T+q之间的数字,p小于或等于q,通过发文点击数据确定样本关键字段的第一训练预测结果,预测模型生成装置可以以训练特征数据作为预测模型的模型输入数据,将第一训练预测结果作为预测模型的模型输出数据,对预测模型进行训练,最终得到可热字段预测模型。
S205,获取所输入的目标关键字段,获取所述目标关键字段在第四历史时间段内的字段特征数据;
具体的,预测模型生成装置可以获取所输入的目标关键字段,所述目标关键字段可以为内容平台的管理者所挑选的准备推送给作者的关键字段,也可以为内容平台中作者所选择输入的需要进行可热性预测的关键字段,对于作者输入的目标关键字段,内容平台可以提供所述可热字段预测模型的输入接口,作者可以基于作者终端设备在所述输入接口中输入目标关键字段。
所述预测模型生成装置进一步可以获取所述目标关键字段在第四历史时间段内的字段特征数据,所述第四历史时间段为当前时间之前的历史时间段,所述第四历史时间段的时长与所述第一历史时间段的时长相同,所述字段特征数据具体可以为所述目标关键字段的特征数据,具体可以包括目标关键字段在第四历史时间段内的基础特征、趋势特征、相关字段特征中的至少一种,其中,基础特征、趋势特征、相关字段特征的相关描述已在对样本关键字段的训练特征数据中进行描述,在此不进行赘述。
S206,将所述字段特征数据输入至所述可热字段预测模型中,以得到所述目标关键字段的目标预测结果;
具体的,预测模型生成装置可以将所述字段特征数据输入至所述可热字段预测模型中,以得到所述目标关键字段的目标预测结果。再请一并参见图5,在对预测模型训练得到可热字段预测模型后,该可热字段预测模型就可以实现对输入的关键字段进行可热性预测,在获取到所输入的目标关键字段时,可以获取目标关键字段在第四历史时间段内的字段特征数据,将所述字段特征数据作为可热字段预测模型的模型输入数据,计算得到目标关键字段的目标预测结果,所述预测模型生成装置可以对所述目标预测结果进行输出显示。
在本申请实施例中,通过样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,为作者提供创作灵感以及创作方向,提升了热点发文内容的产生效率,保证了内容平台的扩展;设定时间通常选取较为靠近当前日的时间点,可以保证样本关键字段的特征数据选取以及预测结果具有代表性,进而可以保证预测模型训练的准确性;可热字段预测模型可以用于预测目标关键字段在未来的一时间段内是否属于热点关键字段,主要依据的是该目标关键字段在历史时间段内的特征表现,实现了对热点关键词的前瞻性预测。
请参见图6,为本申请实施例提供了训练特征数据获取的流程示意图。如图6所示,本申请实施例主要阐述S101和S202的具体实现过程,可以包括步骤S301-步骤S304。
S301,获取样本关键字段在第一历史时间段内的基础特征;
具体的,预测模型生成装置可以获取样本关键字段在第一历史时间段内的基础特征,所述基础特征用于表示所述样本关键字段的发文行为特征,所述发文行为特征具体可以包括在所述第一历史时间段内对所述样本关键字段进行发文的作者数量、作者级别、作者的粉丝数量、在所述第一历史时间段内对所述样本关键字段进行发文的第一发文内容的多媒体类型(例如:文字类型、视频类型、图片类型等)、第一发文内容的数量、在第三历史时间段内对所述样本关键字段进行发文的第二发文内容,在所述第一历史时间段内的点击量等。可以理解的是,第一发文内容是指在第一历史时间段内发布到内容平台中与样本关键字段相关联的发文内容,第二发文内容是指在第三历史时间段内发布到内容平台中与样本关键字段相关联的发文内容,由于第一历史时间段位于第三历史时间段内,因此第一历史时间段内发布的第一发文内容包含于所述第二发文内容中。
S302,获取所述样本关键字段在第一历史时间段内的趋势特征;
具体的,预测模型生成装置可以获取所述样本关键字段在第一历史时间段内的趋势特征,所述趋势特征用于表示与所述样本关键字段相关联的发文内容的浏览量特征,所述浏览量特征具体可以包括所述第一历史时间段内单日所述第二发文内容的点击量属于正样本的总天数、所述第一历史时间段内所述第二发文内容的点击量的上升幅度等。
S303,获取所述样本关键字段在第一历史时间段内的相关字段特征;
具体的,预测模型生成装置可以获取所述样本关键字段在第一历史时间段内的相关字段特征,所述相关字段特征用于表示所述样本关键字段的相关字段的发文行为特征和相关字段的浏览量特征,所述相关字段与所述样本关键字段为属于同一内容类别的字段,所述内容类别可以为样本关键字段所属的一级类目,例如:娱乐、文学、运动等,所述相关字段的发文行为特征可以包括所述第一历史时间段内对所述相关字段进行发文的作者数量、作者级别、作者的粉丝数量、所述第一历史时间段内对所述相关字段进行发文的第三发文内容的多媒体类型(例如:文字类型、视频类型、图片类型等)、第三发文内容的数量、在第三历史时间段内对所述相关字段进行发文的第四发文内容,在所述第一历史时间段内的点击量等,所述相关字段的浏览量特征可以包括所述第一历史时间段内单日所述第四发文内容的点击量属于正样本的总天数、所述第一历史时间段内所述第四发文内容的点击量的上升幅度等。可以理解的是,第三发文内容是指在第一历史时间段内发布到内容平台中与相关字段相关联的发文内容,第四发文内容是指在第三历史时间段内发布到内容平台中与相关字段相关联的发文内容,由于第一历史时间段位于第三历史时间段内,因此第一历史时间段内发布的第三发文内容包含于所述第四发文内容中。
需要说明的是,本申请实施例涉及的正样本具体用于表示点击量满足设定条件的样本发文内容或相关发文内容,所述点击量满足设定条件具体可以为点击量大于或等于点击数阈值。
S304,基于所述基础特征、趋势特征和所述相关字段特征生成样本关键字段在第一历史时间段内的训练特征数据;
具体的,预测模型生成装置可以基于所述基础特征、所述趋势特征和所述相关字段特征生成样本关键字段在第一历史事件段内的训练特征数据,可以理解的是,当样本关键字段存在多个时,各样本关键字段均对应有各自的基础特征、趋势特征和相关字段特征。
在本申请实施例中,步骤S301-步骤S303可以同时执行,也可以依据实际需求变换执行顺序,具体可以依据实际需求进行设定。
在本申请实施例中,通过对样本关键字段的基础特征、趋势特征以及相关字段特征进行获取,保证了对样本关键字段在一定时间段内的表现进行描述,保证了可热字段预测模型训练的准确性,进而提升了对关键字段的可热预测的准确性。
请参见图7,为本申请实施例提供了第一训练预测结果获取的流程示意图。如图7所示,本申请实施例主要阐述S102和S203的具体实现过程,可以包括步骤S401-步骤S402。
S401,获取所述样本关键字段在第二历史时间段内的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势;
具体的,预测模型生成装置可以获取所述样本关键字段在第二历史时间段内的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,所述发文点击数量具体可以表示在第三历史时间段内对所述样本关键字段进行发文的第五发文内容,在所述第二历史时间段内的点击量;所述发文点击数量的数量排序可以表示所述第五发文内容在第二历史时间段内的点击量在点击量排序中的排序位置,所述点击量排序中包含了各样本关键字段的发文内容在第二历史时间段内的点击量,所述点击量排序的方式可选为按照点击量从多到少进行排序;所述发文点击数量的涨幅趋势可以表示所述第五发文内容在第二历史时间段内的点击量的平均涨幅。
S402,基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果;
具体的,预测模型生成装置可以基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果,所述第一训练预测结果用于表示所述样本关键字段属于可热关键字段或非可热关键字段,所述可热关键字段用于表示预测关键字段未来的一个时间段内为热点字段,所述非可热关键字段用于表示预测关键字段未来的时间段内为非热点字段,可选的,对所述样本关键字段的第一训练预测结果进行确定的方式可以包括以下任一情况:
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第一排序范围,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势大于或等于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
若所述发文点击数量小于数量阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势小于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第三排序范围,则确定所述样本关键字段的第一训练预测结果为非可热关键字段。
需要说明的是,所述第一排序范围高于所述第二排序范围,所述第二排序范围高于所述第三排序范围,例如:所述第一排序范围为点击量排序中的前10位,所述第二排序范围为点击量排序中的第11-20位,所述第三排序范围为点击量排序中的21位以后等。
在本申请实施例中,通过对样本关键字段的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,保证了样本关键字段的第一训练预测结果的准确性,由于第一训练预测结果是作为样本关键字段的预测依据,进而保证了后续对候选预测模型进行筛选的准确性,提升了对关键字段的可热预测的准确性。
请参见图8,为本申请实施例提供了预测模型确定的流程示意图。如图8所示,本申请实施例主要阐述S103和S204的具体实现过程,可以包括步骤S501-步骤S504。
S501,初始化多个类型的候选预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述多个类型的候选预测模型进行训练,以得到训练后的多个候选预测模型;
具体的,预测模型生成装置可以初始化多个类型的候选预测模型,包括确定候选预测模型的模型类型、建立候选预测模型的基本架构等,所述预测模型生成装置可以以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述多个类型的候选预测模型进行训练,以得到所述多个类型的候选预测模型中各类型的候选预测模型的模型参数。
由于不同模型类型的预测模型具有其自身特性,因此在实际模型训练过程中,可以利用相同的模型输入数据和模型输出数据,同时对不同类型的预测模型分别进行训练,具体的,所述预测模型可以为多个类型的候选预测模型,所述候选预测模型可以包括线性模型、树模型、深度神经网络等。
预测模型生成装置可以将所述模型参数分别代入多个类型的候选预测模型中,以得到训练后的多个候选预测模型,可以理解的是,所述预测模型生成装置在对多个类型的候选预测模型分别进行训练时,可以得到每个候选预测模型对应的模型参数,进而可以将模型参数代入到对应的候选预测模型,以最终得到训练后的多个候选预测模型。
S502,将所述训练特征数据分别输入至所述训练后的多个候选预测模型中的各候选预测模型,以得到所述各候选预测模型对应的第二训练预测结果;
具体的,预测模型生成装置可以将训练特征数据再次作为模型输入数据,输入至训练后的各候选预测模型中,可以得到所述各候选预测模型输入的样本关键字段的第二训练预测结果,所述第二训练预测结果为训练后的各候选预测模型实际计算后所得到的预测结果
S503,基于所述第一训练预测结果对所述第二训练预测结果进行匹配,以得到各候选预测模型对应的预测准确率;
具体的,预测模型生成装置可以采用所述第一训练预测结果对所述第二训练预测结果进行匹配,可以理解的是,所述第一训练预测结果是基于样本关键字段在第二历史时间段内的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势所确定的训练结果,因此第一训练预测结果作为样本关键字段的准确的预测结果,本申请实施例利用第一训练预测结果来对第二训练预测结果进行匹配,可以得到各候选预测模型的预测准确率。
S504,在所述训练后的多个候选预测模型中选取预测准确率最高的候选预测模型,作为可热字段预测模型;
请一并参加图9,为本申请实施例提供了预测模型生成及使用的举例示意图。如图9所示,图9在图5的基础上进一步增加了候选预测模型的筛选过程,图9示出的样本关键字段1和样本关键字段2可以为相同的样本关键字段,通过发文点击数据确定样本关键字段的第一训练预测结果,预测模型生成装置可以以训练特征数据分别作为多个类型的候选预测模型的模型输入数据,将第一训练预测结果分别作为多个类型的候选预测模型的模型输出数据,对多个类型的候选预测模型分别进行训练,以得到训练后的多个候选预测模型。
预测模型生成装置可以再次将所述训练特征数据分别输入至所述训练后的多个候选预测模型中的各候选预测模型,以得到所述各候选预测模型对应的第二训练预测结果,并基于所述第一训练预测结果对所述第二训练预测结果进行匹配,以得到各候选预测模型对应的预测准确率,最终在所述训练后的多个候选预测模型中选取预测准确率最高的候选预测模型,作为可热字段预测模型。
在本申请实施例中,通过提供多种类型的预测模型进行模型训练,得到多个候选预测模型,可以使用相同样本关键字段的训练特征数据进行模型计算得到第二训练预测结果,进而可以依据第一训练预测结果与第二训练预测结果之间的匹配程度在候选预测模型中选取预测准确率最高的可热字段预测模型,有效的保证了可热字段预测模型对于关键字段的可热性预测的准确性。
基于图1所示的***架构,下面将结合图10-图14,对本申请实施例提供的预测模型生成装置进行详细介绍。需要说明的是,图2-图9中的预测模型生成装置,用于执行本申请图2-图9所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图2-图9所示的实施例。
请参见图10,为本申请实施例提供了一种预测模型生成装置的结构示意图。如图10所示,本申请实施例的所述预测模型生成装置1可以包括:训练特征获取单元11、训练结果确定单元12和模型生成单元13。
训练特征获取单元11,用于获取样本关键字段在第一历史时间段内的训练特征数据;
训练结果确定单元12,用于获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
模型生成单元13,用于初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
其中,所述第一历史时间段为在设定时间之前的历史时间段,所述第二历史时间段为在设定时间之后的历史时间段。
在本申请实施例中,通过样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,为作者提供创作灵感以及创作方向,提升了热点发文内容的产生效率,保证了内容平台的扩展。
请参见图11,为本申请实施例提供了一种预测模型生成装置的结构示意图。如图11所示,本申请实施例的所述预测模型生成装置1可以包括:训练特征获取单元11、训练结果确定单元12、模型生成单元13、样本字段获取单元14、字段特征获取单元15和预测结果获取单元16。
样本字段获取单元14,用于统计在第三历史时间段内发布的发文内容,在所述发文内容中提取样本关键字段;
其中,所述第三历史时间段包含所述第一历史时间段和所述第二历史时间段。
训练特征获取单元11,用于获取样本关键字段在第一历史时间段内的训练特征数据;
具体的,请一并参见图12,为本申请实施例提供了训练特征获取单元的结构示意图。如图12所示,所述训练特征获取单元11可以包括:
基础特征获取子单元111,用于获取样本关键字段在第一历史时间段内的基础特征;
其中,所述基础特征用于表示所述样本关键字段的发文行为特征。
趋势特征获取子单元112,用于获取所述样本关键字段在第一历史时间段内的趋势特征;
其中,所述趋势特征用于表示与所述样本关键字段相关联的发文内容的浏览量特征。
字段特征获取子单元113,用于获取所述样本关键字段在第一历史时间段内的相关字段特征;
其中,所述相关字段特征用于表示所述样本关键字段的相关字段的发文行为特征和相关字段的浏览量特征。
训练特征生成子单元114,用于基于所述基础特征、趋势特征和所述相关字段特征生成样本关键字段在第一历史时间段内的训练特征数据。
训练结果确定单元12,用于获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
具体的,请一并参见图13,为本申请实施例提供了训练结果确定单元的结构示意图。如图13所示,所述训练结果确定单元12可以包括:
点击数据获取子单元121,用于获取所述样本关键字段在第二历史时间段内的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势;
第一结果确定子单元122,用于基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果;
具体实现中,所述第一结果确定子单元122具体用于:
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第一排序范围,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势大于或等于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
所述第一排序范围高于所述第二排序范围。
具体实现中,所述第一结果确定子单元122具体用于:
若所述发文点击数量小于数量阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势小于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第三排序范围,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
所述第二排序范围高于所述第三排序范围。
其中,所述第一历史时间段为在设定时间之前的历史时间段,所述第二历史时间段为在设定时间之后的历史时间段。
模型生成单元13,用于初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
具体的,请一并参见图14,为本申请实施例提供了模型生成单元的结构示意图。如图14所示,所述预测模型为多个类型的候选预测模型,所述模型生成单元13可以包括:
候选模型生成子单元131,用于初始化多个类型的候选预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述多个类型的候选预测模型进行训练,以得到训练后的多个候选预测模型;
第二结果确定子单元132,用于将所述训练特征数据分别输入至所述训练后的多个候选预测模型中的各候选预测模型,以得到所述各候选预测模型对应的第二训练预测结果;
准确率获取子单元133,用于基于所述第一训练预测结果对所述第二训练预测结果进行匹配,以得到各候选预测模型对应的预测准确率;
预测模型生成子单元134,用于在所述训练后的多个候选预测模型中选取预测准确率最高的候选预测模型,作为可热字段预测模型。
字段特征获取单元15,用于获取所输入的目标关键字段,获取所述目标关键字段在第四历史时间段内的字段特征数据;
预测结果获取单元16,用于将所述字段特征数据输入至所述字段预测模型中,以得到所述目标关键字段的目标预测结果。
在本申请实施例中,通过样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,为作者提供创作灵感以及创作方向,提升了热点发文内容的产生效率,保证了内容平台的扩展;设定时间通常选取较为靠近当前日的时间点,可以保证样本关键字段的特征数据选取以及预测结果具有代表性,进而可以保证预测模型训练的准确性;通过对样本关键字段的基础特征、趋势特征以及相关字段特征进行获取,保证了对样本关键字段在一定时间段内的表现进行描述,保证了可热字段预测模型训练的准确性,进而提升了对关键字段的可热预测的准确性;通过对样本关键字段的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,保证了样本关键字段的第一训练预测结果的准确性,由于第一训练预测结果是作为样本关键字段的预测依据,进而保证了后续对候选预测模型进行筛选的准确性,提升了对关键字段的可热预测的准确性;通过提供多种类型的预测模型进行模型训练,得到多个候选预测模型,可以使用相同样本关键字段的训练特征数据进行模型计算得到第二训练预测结果,进而可以依据第一训练预测结果与第二训练预测结果之间的匹配程度在候选预测模型中选取预测准确率最高的可热字段预测模型,有效的保证了可热字段预测模型对于关键字段的可热性预测的准确性;可热字段预测模型可以用于预测目标关键字段在未来的一时间段内是否属于热点关键字段,主要依据的是该目标关键字段在历史时间段内的特征表现,实现了对热点关键词的前瞻性预测。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条程序指令,所述程序指令适于由处理器加载并执行如上述图2-图9所示实施例的方法步骤,具体执行过程可以参见图2-图9所示实施例的具体说明,在此不进行赘述。
请参见图15,为本申请实施例提供了一种计算机设备的结构示意图。如图15所示,所述计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,输入输出接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、输入输出接口模块以及模型生成应用程序。
在图15所示的计算机设备1000中,输入输出接口1003主要用于为用户提供输入的接口,获取用户输入的数据,以及向用户展示计算后的数据。
在一个实施例中,处理器1001可以用于调用存储器1005中存储的模型生成应用程序,并具体执行以下操作:
获取样本关键字段在第一历史时间段内的训练特征数据;
获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
所述第一历史时间段为在设定时间之前的历史时间段,所述第二历史时间段为在设定时间之后的历史时间段。
可选的,所述处理器1001在执行获取样本关键字段在第一历史时间段内的发文特征数据之前,还执行以下操作:
统计在第三历史时间段内发布的发文内容,在所述发文内容中提取样本关键字段;
所述第三历史时间段包含所述第一历史时间段和所述第二历史时间段。
可选的,所述处理器1001在执行获取样本关键字段在第一历史时间段内的训练特征数据时,具体执行以下操作:
获取样本关键字段在第一历史时间段内的基础特征,所述基础特征用于表示所述样本关键字段的发文行为特征;
获取所述样本关键字段在第一历史时间段内的趋势特征,所述趋势特征用于表示与所述样本关键字段相关联的发文内容的浏览量特征;
获取所述样本关键字段在第一历史时间段内的相关字段特征,所述相关字段特征用于表示所述样本关键字段的相关字段的发文行为特征和相关字段的浏览量特征;
基于所述基础特征、趋势特征和所述相关字段特征生成样本关键字段在第一历史时间段内的训练特征数据。
可选的,所述处理器1001在执行获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果时,具体执行以下操作:
获取所述样本关键字段在第二历史时间段内的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势;
基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果。
可选的,所述处理器1001在执行基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果时,具体执行以下操作:
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第一排序范围,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势大于或等于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
所述第一排序范围高于所述第二排序范围。
可选的,所述处理器1001在执行基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果时,具体执行以下操作:
若所述发文点击数量小于数量阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势小于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第三排序范围,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
所述第二排序范围高于所述第三排序范围。
可选的,所述预测模型为多个类型的候选预测模型;
所述处理器1001在执行初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型时,具体执行以下操作:
初始化多个类型的候选预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述多个类型的候选预测模型进行训练,以得到训练后的多个候选预测模型;
将所述训练特征数据分别输入至所述训练后的多个候选预测模型中的各候选预测模型,以得到所述各候选预测模型对应的第二训练预测结果;
基于所述第一训练预测结果对所述第二训练预测结果进行匹配,以得到各候选预测模型对应的预测准确率;
在所述训练后的多个候选预测模型中选取预测准确率最高的候选预测模型,作为可热字段预测模型。
可选的,所述处理器1001还执行以下操作:
获取所输入的目标关键字段,获取所述目标关键字段在第四历史时间段内的字段特征数据;
将所述字段特征数据输入至所述可热字段预测模型中,以得到所述目标关键字段的目标预测结果。
可选的,所述候选预测模型包括线性模型、树模型、深度神经网络中的至少一种。
在本申请实施例中,通过样本关键字段在设定时间之前的历史时间段内的特征,以及在设定时间之后的历史时间段内的发文点击数据,生成热点字段预测模型,从而可以对热点字段进行确定,为作者提供创作灵感以及创作方向,提升了热点发文内容的产生效率,保证了内容平台的扩展;设定时间通常选取较为靠近当前日的时间点,可以保证样本关键字段的特征数据选取以及预测结果具有代表性,进而可以保证预测模型训练的准确性;通过对样本关键字段的基础特征、趋势特征以及相关字段特征进行获取,保证了对样本关键字段在一定时间段内的表现进行描述,保证了可热字段预测模型训练的准确性,进而提升了对关键字段的可热预测的准确性;通过对样本关键字段的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,保证了样本关键字段的第一训练预测结果的准确性,由于第一训练预测结果是作为样本关键字段的预测依据,进而保证了后续对候选预测模型进行筛选的准确性,提升了对关键字段的可热预测的准确性;通过提供多种类型的预测模型进行模型训练,得到多个候选预测模型,可以使用相同样本关键字段的训练特征数据进行模型计算得到第二训练预测结果,进而可以依据第一训练预测结果与第二训练预测结果之间的匹配程度在候选预测模型中选取预测准确率最高的可热字段预测模型,有效的保证了可热字段预测模型对于关键字段的可热性预测的准确性;可热字段预测模型可以用于预测目标关键字段在未来的一时间段内是否属于热点关键字段,主要依据的是该目标关键字段在历史时间段内的特征表现,实现了对热点关键词的前瞻性预测。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (12)

1.一种可热字段预测模型生成方法,其特征在于,包括:
获取样本关键字段在第一历史时间段内的训练特征数据,所述样本关键字段为在发文内容中所提取的关键字段,所述训练特征数据包括:基础特征、趋势特征和相关字段特征,所述基础特征用于表示所述样本关键字段的发文行为特征;
获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型;
所述第一历史时间段为在设定时间之前的历史时间段,所述第二历史时间段为在设定时间之后的历史时间段。
2.根据权利要求1所述的方法,其特征在于,所述获取样本关键字段在第一历史时间段内的发文特征数据之前,还包括:
统计在第三历史时间段内发布的发文内容,在所述发文内容中提取样本关键字段;
所述第三历史时间段包含所述第一历史时间段和所述第二历史时间段。
3.根据权利要求1所述的方法,其特征在于,所述获取样本关键字段在第一历史时间段内的训练特征数据,包括:
获取样本关键字段在第一历史时间段内的所述基础特征;
获取所述样本关键字段在第一历史时间段内的所述趋势特征,所述趋势特征用于表示与所述样本关键字段相关联的发文内容的浏览量特征;
获取所述样本关键字段在第一历史时间段内的所述相关字段特征,所述相关字段特征用于表示所述样本关键字段的相关字段的发文行为特征和相关字段的浏览量特征;
基于所述基础特征、趋势特征和所述相关字段特征生成样本关键字段在第一历史时间段内的训练特征数据。
4.根据权利要求1所述的方法,其特征在于,所述获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果,包括:
获取所述样本关键字段在第二历史时间段内的发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势;
基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果。
5.根据权利要求4所述的方法,其特征在于,所述基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果,包括:
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第一排序范围,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势大于或等于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为可热关键字段;
所述第一排序范围高于所述第二排序范围。
6.根据权利要求4所述的方法,其特征在于,所述基于所述发文点击数量、发文点击数量的数量排序、发文点击数量的涨幅趋势,确定所述样本关键字段的第一训练预测结果,包括:
若所述发文点击数量小于数量阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值、所述发文点击数量的数量排序位于第二排序范围,且所述发文点击数量的涨幅趋势小于涨幅阈值,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
若所述发文点击数量大于或等于数量阈值,且所述发文点击数量的数量排序位于第三排序范围,则确定所述样本关键字段的第一训练预测结果为非可热关键字段;
所述第二排序范围高于所述第三排序范围。
7.根据权利要求1所述的方法,其特征在于,所述预测模型为多个类型的候选预测模型;
所述初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型,包括:
初始化多个类型的候选预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述多个类型的候选预测模型进行训练,以得到训练后的多个候选预测模型;
将所述训练特征数据分别输入至所述训练后的多个候选预测模型中的各候选预测模型,以得到所述各候选预测模型对应的第二训练预测结果;
基于所述第一训练预测结果对所述第二训练预测结果进行匹配,以得到各候选预测模型对应的预测准确率;
在所述训练后的多个候选预测模型中选取预测准确率最高的候选预测模型,作为可热字段预测模型。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取所输入的目标关键字段,获取所述目标关键字段在第四历史时间段内的字段特征数据;
将所述字段特征数据输入至所述可热字段预测模型中,以得到所述目标关键字段的目标预测结果。
9.根据权利要求7所述的方法,其特征在于,所述候选预测模型包括线性模型、树模型、深度神经网络中的至少一种。
10.一种预测模型生成装置,其特征在于,包括:
训练特征获取单元,用于获取样本关键字段在第一历史时间段内的训练特征数据,所述样本关键字段为在发文内容中所提取的关键字段,所述训练特征数据包括:基础特征、趋势特征和相关字段特征,所述基础特征用于表示所述样本关键字段的发文行为特征;
训练结果确定单元,用于获取所述样本关键字段在第二历史时间段内的发文点击数据,基于所述发文点击数据确定所述样本关键字段的第一训练预测结果;
模型生成单元,用于初始化预测模型,以所述训练特征数据作为模型输入数据,所述第一训练预测结果作为模型输出数据,对所述预测模型进行训练,以得到训练后的可热字段预测模型。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-9任一项所述方法的步骤。
12.一种计算机设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-9任一项所述方法的步骤。
CN202110574931.2A 2021-05-25 2021-05-25 可热字段预测模型生成方法、装置、存储介质及设备 Active CN113343082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110574931.2A CN113343082B (zh) 2021-05-25 2021-05-25 可热字段预测模型生成方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110574931.2A CN113343082B (zh) 2021-05-25 2021-05-25 可热字段预测模型生成方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN113343082A CN113343082A (zh) 2021-09-03
CN113343082B true CN113343082B (zh) 2024-07-02

Family

ID=77471408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110574931.2A Active CN113343082B (zh) 2021-05-25 2021-05-25 可热字段预测模型生成方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113343082B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106685933A (zh) * 2016-12-08 2017-05-17 腾讯科技(深圳)有限公司 一种授权策略推荐及装置
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488599B (zh) * 2015-12-29 2020-03-06 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN110222260A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质
CN110705821A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 基于多评价维度的热点学科预测方法、装置、终端、及介质
CN112269930B (zh) * 2020-10-26 2023-10-24 北京百度网讯科技有限公司 建立区域热度预测模型、区域热度预测的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106685933A (zh) * 2016-12-08 2017-05-17 腾讯科技(深圳)有限公司 一种授权策略推荐及装置
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置

Also Published As

Publication number Publication date
CN113343082A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN110309427B (zh) 一种对象推荐方法、装置及存储介质
US20190364123A1 (en) Resource push method and apparatus
US11550871B1 (en) Processing structured documents using convolutional neural networks
US10210243B2 (en) Method and system for enhanced query term suggestion
US10747771B2 (en) Method and apparatus for determining hot event
US20180174037A1 (en) Suggesting resources using context hashing
US10108701B2 (en) System and method for determining context
CN112868004B (zh) 资源推荐方法、装置、电子设备及存储介质
CN108491540B (zh) 文本信息推送方法、装置及智能终端
US11861516B2 (en) Methods and system for associating locations with annotations
CN110413867B (zh) 用于内容推荐的方法及***
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN110175264A (zh) 视频用户画像的构建方法、服务器及计算机可读存储介质
CN113076416A (zh) 信息热度评估方法、装置和电子设备
CN111767394A (zh) 一种基于人工智能专家***的摘要提取方法及装置
CN111782925B (zh) 物品推荐方法、装置、设备、***及可读存储介质
CN113742580B (zh) 目标类型数据的召回方法、装置、电子设备及存储介质
CN112069803A (zh) 文本备份方法、装置、设备及计算机可读存储介质
CN113343082B (zh) 可热字段预测模型生成方法、装置、存储介质及设备
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN114491093B (zh) 多媒体资源推荐、对象表征网络的生成方法及装置
CN110442767B (zh) 一种确定内容互动平台标签的方法、装置及可读存储介质
CN114547116A (zh) 一种数据推送方法、装置、设备和介质
KR101663359B1 (ko) 업데이트된 뉴스 콘텐츠 제공 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant