CN111401940A - 特征预测方法、装置、电子设备及存储介质 - Google Patents

特征预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111401940A
CN111401940A CN202010148299.0A CN202010148299A CN111401940A CN 111401940 A CN111401940 A CN 111401940A CN 202010148299 A CN202010148299 A CN 202010148299A CN 111401940 A CN111401940 A CN 111401940A
Authority
CN
China
Prior art keywords
sequence
characteristic
feature
historical
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010148299.0A
Other languages
English (en)
Other versions
CN111401940B (zh
Inventor
王迪
肖伟集
朱旭律
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zaigu Technology Co Ltd
Original Assignee
Hangzhou Netease Zaigu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Zaigu Technology Co Ltd filed Critical Hangzhou Netease Zaigu Technology Co Ltd
Priority to CN202010148299.0A priority Critical patent/CN111401940B/zh
Publication of CN111401940A publication Critical patent/CN111401940A/zh
Application granted granted Critical
Publication of CN111401940B publication Critical patent/CN111401940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种特征预测方法、装置、电子设备及存储介质,以提高预测准确度,所述方法包括:根据多个产品的样本数据对特征预测模型进行训练,获得训练好的特征预测模型,获取目标产品的基准时间以及预测时间,并根据基准时间,获取目标产品的历史特征序列和历史关联特征序列;获取目标产品在基准时间至预测时间内的未来时序特征序列;将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值。这样,根据多个产品的样本数据训练获得特征预测模型,以及通过目标产品的多个维度的特征数据和特征预测模型进行特征预测,扩大了输入数据的数据量以及覆盖面,提高了特征预测的准确度。

Description

特征预测方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种特征预测方法、装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近年来,随着互联网的发展,零售行业也得到了迅猛的发展。为更好的做出企业决策,通常需要对产品的销量等特征进行精确地预测。
传统的预测方式大多对数据的连续性、数据量以及稳定性等要求较高,并且无法适应复杂的业务场景,而大部分数据要求以及业务场景都不能很好的满足,使得传统的预测方式的预测的误差较大,难以获得理想的预测效果。
由此,如何提高预测的准确度,是一个亟待解决的问题。
发明内容
针对上述技术问题,非常需要一种改进的方法,以提高特征预测的准确度。
一方面,本申请一实施例提供了一种特征预测方法,包括:
获取目标产品的基准时间以及预测时间,基准时间用于划分历史数据和未来数据;
根据基准时间,获取目标产品的历史特征序列和历史关联特征序列;
获取目标产品在基准时间至预测时间内的未来时序特征序列;
将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值,特征预测模型是根据多个产品的样本数据训练获得的。
较佳的,根据基准时间,获取目标产品的历史特征序列和历史关联特征序列,包括:
获取目标产品的指定特征在基准时间之前的特征值;
根据获取的指定特征的各特征值,组成历史特征序列;
获取目标产品的指定特征的关联特征在基准时间之前的特征值;
根据获取的关联特征的各特征值,组成历史关联特征序列。
较佳的,获取目标产品在基准时间至预测时间内的未来时序特征序列,包括:
获取目标产品的未来时序特征在基准时间至预测时间之间的特征值,其中,未来时序特征的各特征值是预先设置的;
根据未来时序特征的各特征值,组成未来时序特征序列。
较佳的,在将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值之前,进一步包括:
采用指定填充值,对数据缺失的历史关联特征序列和未来时序特征序列进行填充,以更新历史关联特征序列和未来时序特征序列;
分别针对填充后的每一历史关联特征序列和每一未来时序特征序列,生成相应的辅助特征序列,辅助特征序列用于指示填充后的历史关联特征序列或未来时序特征序列中的元素是否为填充的。
较佳的,在将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值之前,进一步包括:
获取目标产品的各静态特征对应的静态特征值,静态特征为与产品相关并且与时间无关的特征;
根据获取的各静态特征值,组成目标产品的静态特征序列;
将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值,包括:
将历史特征序列、历史关联特征序列、未来时序特征序列,辅助特征序列以及静态特征序列,输入特征预测模型,获得指定特征的预测值。
较佳的,在获取目标产品的基准时间以及预测时间之前,进一步包括:
根据各产品的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
较佳的,根据各产品的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型,包括:
分别将设定时间段内的每两个采样时间进行组合,获得相应的二元组,其中,二元组中包含的第一个采样时间早于第二个采样时间,;
分别将每一产品的每一个二元组作为一个样本点,并将二元组中包含的第一个采样时间,作为相应样本点的基准时间,以及将二元组中包含的第二个采样时间作为相应样本点的预测时间;
分别根据每一样本点对应的基准时间和预测时间,确定每一样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列;
根据各样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
一方面,本申请一实施例提供了一种特征预测装置,包括:
第一获取单元,用于获取目标产品的基准时间以及预测时间,基准时间用于划分历史数据和未来数据;
第二获取单元,用于根据基准时间,获取目标产品的历史特征序列和历史关联特征序列;
第三获取单元,用于获取目标产品在基准时间至预测时间内的未来时序特征序列;
预测单元,用于将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值,特征预测模型是根据多个产品的样本数据训练获得的。
较佳的,第二获取单元用于:
获取目标产品的指定特征在基准时间之前的特征值;
根据获取的指定特征的各特征值,组成历史特征序列;
获取目标产品的指定特征的关联特征在基准时间之前的特征值;
根据获取的关联特征的各特征值,组成历史关联特征序列。
较佳的,第三获取单元用于:
获取目标产品的未来时序特征在基准时间至预测时间之间的特征值,其中,未来时序特征的各特征值是预先设置的;
根据未来时序特征的各特征值,组成未来时序特征序列。
较佳的,预测单元还用于:
采用指定填充值,对数据缺失的历史关联特征序列和未来时序特征序列进行填充,以更新数据缺失的历史关联特征序列和未来时序特征序列;
分别针对填充后的每一历史关联特征序列和每一未来时序特征序列,生成相应的辅助特征序列,辅助特征序列用于指示填充后的历史关联特征序列或未来时序特征序列中的元素是否为填充的。
较佳的,预测单元还用于:
获取目标产品的各静态特征对应的静态特征值,静态特征为与产品相关并且与时间无关的特征;
根据获取的各静态特征值,组成目标产品的静态特征序列;
预测单元用于:
将历史特征序列、历史关联特征序列、未来时序特征序列,辅助特征序列以及静态特征序列,输入特征预测模型,获得指定特征的预测值。
较佳的,第一获取单元还用于:
根据各产品的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
较佳的,第一获取单元还用于:
分别将设定时间段内的每两个采样时间进行组合,获得相应的二元组,其中,二元组中包含的第一个采样时间早于第二个采样时间,;
分别将每一产品的每一个二元组作为一个样本点,并将二元组中包含的第一个采样时间,作为相应样本点的基准时间,以及将二元组中包含的第二个采样时间作为相应样本点的预测时间;
分别根据每一样本点对应的基准时间和预测时间,确定每一样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列;
根据各样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
一方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
一方面,本申请一实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,程序指令被处理器执行时实现上述任一种方法的步骤。
本申请实施例提供的特征预测方法、装置、电子设备及存储介质,根据多个产品的样本数据对特征预测模型进行训练,获得训练好的特征预测模型;获取目标产品的基准时间以及预测时间,并根据基准时间,获取目标产品的历史特征序列和历史关联特征序列;获取目标产品在基准时间至预测时间内的未来时序特征序列;将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值。这样,根据多个产品的样本数据训练获得特征预测模型,以及通过目标产品的多个维度的特征数据和特征预测模型进行特征预测,扩大了输入数据的数据量以及覆盖面,降低了数据质量要求,提高了特征预测的准确度。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
图1为本申请实施例提供的一种特征预测模型训练的方法的实施流程图;
图2为本申请实施例提供的一种二元组数据的示例图;
图3为本申请一实施例提供的一种特征预测方法的实施流程图;
图4为本申请一实施例提供的一种样本点示例图;
图5为本申请一实施例提供的特征预测装置的结构示意图;
图6为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
终端设备,可以安装各类应用,并且能够将已安装的应用中提供的对象进行显示的设备,终端设备可以是移动的,也可以是固定的。桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personaldigital assistant,PDA)、销售终端(point of sales,POS)或其它能够实现上述功能的电子设备等。
基准时间:用于划分历史数据和未来数据。基准时间之前的数据为历史数据,基准时间之后的数据为未来数据。
样本点:表示一个产品的一个二元组,产品不同或二元组不同时,对应的样本点不同。
未来时序特征:通常为计划性的或是有明确规律性的数据变化的特征。
静态特征:为与产品相关并且与时间无关的特征。
辅助特征序列:用于指示填充后的特征序列中的元素是否为填充的。
极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型:为一种决策树模型,其本身是一种通用的机器学习算法。
特征预测模型:用于预测产品的指定特征在预测时间的预测值,是根据各产品的样本数据训练获得的。特征预测模型可以采用XGBoost模型训练获得,也可以采用其他模型,在此不做限制。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
本申请的发明人发现,传统的预测方式,大多对产品的数据以及应用场景的要求较高,而大部分数据要求以及业务场景都不能很好的满足要求,使得预测结果的误差较大,难以获得理想的预测效果。数据要求如,数据量要求、数据连续性要求、数据稳定性要求以及数据单一性要求等,业务场景要求如简单的业务场景等。
为解决上述问题,本申请实施例提供了一种特征预测方法,具体包括:根据多个产品的样本数据对特征预测模型进行训练,获得训练好的特征预测模型;获取目标产品的基准时间以及预测时间,并根据基准时间,获取目标产品的历史特征序列和历史关联特征序列;获取目标产品在基准时间至预测时间内的未来时序特征序列;将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值。这样,根据多个产品的样本数据训练获得特征预测模型,以及通过目标产品的多个维度的特征数据和特征预测模型进行特征预测,扩大了输入数据的数据量以及覆盖面,降低了数据质量要求,提高了特征预测的准确度。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
示例性方法
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者装置执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
本申请实施例中,特征为销量,及对产品的销量进行预测为例进行说明,实际应用中,产品的特征也可以根据实际应用进行设置,在此不做限制。
本申请实施例中,在对产品进行特征预测之前,先对特征预测模型进行训练,获得训练后的特征预测模型,参阅图1所示,为一种特征预测模型训练的方法的实施流程图,该方法的具体流程如下:
步骤101:控制设备分别将设定时间段内的每两个采样时间,进行组合,获得相应的二元组。
具体的,执行步骤101时,控制设备分别针对设定时间段内的每一采样时间,执行以下步骤:
控制设备将该采样时间分别与该采样时间之后的每一采样时间进行组合,获得两个采样时间组成的二元组。
需要说明的是,设定时间段和采样时间可以根据实际应用场景进行设置,在此不做限制。二元组由两个采样时间组成,二元组中的第一个采样时间早于第二个采样时间。
例如,参阅图2所示,为一种二元组数据的示例图,设定时间段为1月1号至1月5号,可以产生10个二元组,(1.1,1.2),(1.1,1.3),(1.1,1.4),(1.1,1.5),(1.2,1.3),(1.2,1.4),(1.2,1.5),(1.3,1.4),(1.3,1.5)以及(1.4,1.5)。
这样,设定时间段越长,采样时间之间的间隔越小,生成的二元组的数据量就越多。
步骤102:控制设备分别将每一产品的每一个二元组作为一个样本点,并根据二元组,确定相应的样本点的基准时间和预测时间。
具体的,控制设备分别将每一产品的每一个二元组作为一个样本点,并将二元组中包含的第一个采样时间,作为相应样本点的基准时间,以及将二元组中包含的第二个采样时间作为相应样本点的预测时间。
其中,基准时间用于划分该样本点对应的历史数据和未来数据,可以采用今天(today)表示,预测时间可以采用目标(target)表示。
需要说明的是,产品不同,或者二元组不同,均为不同的样本点,也就是说,一个样本点对应一个产品、基准时间和预测时间。
例如,参阅图2所示,为一种二元组数据的示例图,设定时间段为1月1号至1月5号,针对一个产品可以产生10个二元组即10个样本点,(1.1,1.2),(1.1,1.3),(1.1,1.4),(1.1,1.5),(1.2,1.3),(1.2,1.4),(1.2,1.5),(1.3,1.4),(1.3,1.5)以及(1.4,1.5)。
需要说明的是,样本点的数量越多,特征预测模型能学习到的规律就更具有普遍性,预测效果也就越好,本申请实施例中,将各采样时间进行组合,设定时间段越长,生成的样本点的数据量就越多,可以在短时间内生成大量的样本点,可以解决数据量不够的问题。
步骤103:控制设备分别根据每一样本点对应的基准时间和预测时间,确定每一样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、预测样本值以及静态特征序列。
具体的,执行步骤103时,控制设备可以分别针对每一采样点,执行以下步骤:
S1031:控制设备根据采样点对应的基准时间,获取采样点对应的产品的历史特征样本序列和历史关联特征样本序列。
具体的,控制设备获取采样点对应的产品的指定特征在采样点对应的基准时间之前的特征值,并根据获取的指定特征的各特征值,组成历史特征样本序列。控制设备获取采样点对应的产品的指定特征的关联特征在采样点对应的基准时间之前的特征值,并根据获取的所述关联特征的各特征值,组成历史关联特征序列。
其中,历史特征样本序列由产品的指定特征在设定时间段内并且基准时间之前的特征值组成。每一历史关联特征样本序列由产品的关联特征在设定时间段内并且基准时间之前的特征值组成。
需要说明的是,历史特征样本序列、历史关联特征样本序列通常为历史已经发生的客观事实的统计指标的数据。指定特征为待预测的特征,如,销量。关联特征为与设置的指定特征相关的特征,如销售额和流量。关联特征可以为一个维度的特征,也可以包括多个维度的特征。
例如,一个样本点为产品A的二元组(1.3,1.5),指定特征为销量,关联特征为销售额,设定时间段为1.1-1.5,则控制设备根据产品A在1.1和1.2的销量生成历史特征样本序列,根据产品A在1.1和1.2的在1.1和1.2的销售额,生成历史关联特征样本序列。
S1032:控制设备获取采样点对应的产品,在采样点对应的基准时间至采样点对应的预测时间内的未来时序特征样本序列。
其中,每一未来时序特征样本序列由产品的未来时序特征在基准时间至预测时间之间的特征值组成。
其中,未来时序特征的各特征值是预先设置的,为反映未来的非指定特征。未来时序特征样本序列通常为计划性的或是有明确规律性的数据,也就是说,是可以明确已知的数据。例如,未来时序特征可以为未来的法定节假日等。
需要说明的是,基准时间至预测时间之间的未来时序特征样本序列包括基准时间对应的未来时序特征值、预测时间对应的未来时序特征值,以及基准时间与预测时间之内的时间对应的各未来时序特征值。
S1033:控制设备获取采样点对应的产品的指定特征,在采样点对应的预测时间的特征值,作为预测样本值。
其中,预测样本值为产品的指定特征在预测时间对应的特征值。
S1034:控制设备获取采样点对应的产品的静态特征序列。
具体的,控制设备获取采样点对应的产品的静态特征对应的静态特征值。
其中,静态特征序列由各静态特征的特征值组成。静态特征为与产品相关并且与时间无关的特征。
第n个静态特征序列可以表示为sn,s静态特征序列,表示n表示静态特征的维度。各静态特征序列的集合可以表示为S。静态特征序列的数量可以为一个,也可以为多个。
例如,静态特征为商品的标识信息(Identity,ID)以及商品的类目ID等。
S1035:控制设备对数据缺失的历史关联特征样本序列和未来时序特征样本序列进行填充,以更新数据缺失的历史关联特征样本序列和未来时序特征样本序列,并分别根据每一填充后的历史关联特征样本序列和未来时序特征样本序列,生成相应的辅助特征序列。
其中,辅助特征序列是根据存在数据缺失的历史关联特征样本序列和未来时序特征序列生成的。
执行S1035时,控制设备可以采用以下步骤:
采用指定填充值,对数据缺失的历史关联特征样本序列和未来时序特征样本序列进行填充,以更新历史关联特征样本序列和未来时序特征样本序列,并分别针对填充后的每一历史关联特征样本序列和未来时序特征样本序列,生成相应的辅助特征序列。
其中,辅助特征序列用于指示填充后的特征序列中的元素是否为填充的,即指示填充后的历史关联特征样本序列或未来时序特征样本序列的元素是否为填充的。
需要说明的是,填充后的特征序列与辅助特征序列是一对一的对应关系,即每一个填充后的历史关联特征样本序列,均生成一个相应的辅助特征序列,每一个填充后的未来时序特征样本序列,均生成一个相应的辅助特征序列。
实际应用中,指定填充值可以根据实际应用场景进行设置,如,可以为0,在此不做限制。
一种实施方式中,控制设备可以针对每一历史关联特征样本序列,执行以下步骤:
步骤a:控制设备根据设定时间段和基准时间,确定历史特征长度。
其中,历史特征长度表示追溯过去的长度,可以为历史关联特征样本序列在数据不缺失时包含的元素的数量。
例如,设定时间段为1.1-1.5,基准时间为1.3,每隔一天采样一次,则时间1.1和1.2对应的两个元素值,则历史特征长度为2。
步骤b:当该历史关联特征样本序列的长度低于历史特征长度时,控制设备采用指定填充值,对该历史关联特征样本序列进行填充,使得填充后的历史关联特征样本序列的长度达到历史特征长度。
步骤c:控制设备针对填充后的历史关联特征样本序列,生成相应的辅助特征序列。
一种实施方式中,控制设备可以针对每一未来时序特征样本序列,执行以下步骤:
步骤a:控制设备根据基准时间至预测时间,确定未来特征长度。
其中,未来特征长度表示追溯未来的长度,可以为未来时序特征样本序列在数据不缺失时包含的元素的数量。
步骤b:当该未来时序特征样本序列的长度低于未来特征长度时,控制设备采用指定填充值,对该未来时序特征样本序列进行填充,使得填充后的未来时序特征样本序列的长度达到未来特征长度。
步骤c:控制设备针对填充后的未来时序特征样本序列,生成相应的辅助特征序列。
这是由于实际应用中,数据可能存在缺失,例如,历史特征长度L1=30时,仅上市10天的商品前20天的数据是缺失的,因此,可以对于数据缺失的特征序列进行数据填充,并根据是否为填充元素,生成相应的辅助特征序列。
步骤104:控制设备根据各产品的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列以及预测样本值,对特征预测模型进行训练,获得训练后的特征预测模型。
其中,特征预测模型用于预测产品的指定特征在预测时间的预测值,是根据各产品的各维度的样本数据训练获得的。
可选的,特征预测模型可以采用XGBoost模型进行训练获得,也可以采用其他模型,在此不做限制。在执行步骤104之前,控制设备可以预先对特征预测模型中的参数进行初始化。
进一步的,控制设备还可以根据各采样点的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列以及预测样本值,对特征预测模型进行训练,获得训练后的特征预测模型。
一种实施方式中,对特征预测模型进行训练时,可以采用以下步骤:
S1041:控制设备将样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、以及静态特征序列输入特征预测模型,输出预测值。
具体的,样本点的历史特征样本序列可以采用yt1表示,t1=(T-L1,T-L1+1,……,T-2,T-1)。
历史关联特征样本序列的集合可以表示为Ht1,t1=(T-L1,T-L1+1,……,T-2,T-1)。第i个历史关联特征样本序列可表示为hi,hi t1表示第i个关联特征在t1时刻的特征值。
各未来时序特征样本序列的集合可以表示为Ft2,t2=(T,T+1,……,T+L2-1,T+L2)。第j个未来时序特征样本序列可表示为fj,fj t2表示第j个未来时序特征在t2时刻的特征值。
辅助特征序列可以表示为pk t3
Figure BDA0002401528860000141
其中,T表示基准时间,L1表示历史特征长度,L2表示未来特征长度,i表示关联特征的维度,j表示未来时序特征的维度,k为对应的填充的特征序列的维度,t1、t2和t3均表示离散时间。
根据上述各参数,预测值Y可以采用以下表达式:
Y=g(yt1,Ht1,Ft2,pk t3,S)。
其中,g为特征预测模型。
S1042:控制设备根据该样本点对应的预测样本值以及输出的预测值,确定预测误差。
S1043:控制设备判断预测误差对特征预测模型中的参数进行调整。
S1044:控制设备判断预测误差是否符合训练终止条件,若是,则执行S1045,否则执行S1041。
可选的,训练终止条件可以为该次预测误差低于预设误差阈值,也可以为连续的多次预测误差均低于预设误差阈值。
实际应用中,训练终止条件和预设误差阈值均可以根据实际应用场景进行设置,在此不做限制。
S1045:控制设备获得训练好的特征预测模型。
这样,就可以在后续的预测步骤中,根据训练好的特征预测模型,对待预测的目标产品进行预测。
需要说明的是,模型训练过程中的各产品中包括待预测的目标产品,也包括非待预测的产品。例如,可以通过100个商品对应的各样本点对同一模型进行训练,并将训练好的特征预测模型对第1个商品进行预测。
电商场景下,如果上线时间不够长、商品数量不够多,数据量不足的情况常有发生(例如,上市30天的商品,数据长度只有30,而拟合一个复杂模型要用到的数据量通常是百万级的),使得机器学习算法无法被广泛用于电商业务预测中,而本申请实施例中,采用二元组的方式生成大量的样本点,并通过不同产品的样本点对同一模型进行训练,使训练好的特征预测模型不仅能考虑到单个产品的多个维度,还能综合考虑多个产品的特性,一方面,可以辅助数据较少的特征预测,另一方面,也会极大地降低单个产品上出现的异常值对特征预测模型的影响,从而可以获得预测精准度较高的特征预测模型。
参阅图3所示,为本申请提供的一种特征预测方法的实施流程图,该方法的具体流程如下:
步骤300:控制设备获取目标产品的基准时间以及预测时间。
具体的,目标产品为待预测的产品,基准时间以及预测时间可以根据用户的输入获得,也可以为预先设定的,在不做限制。
例如,控制设备获取化妆品B(目标产品)的基准时间为1.3,预测时间为1.5。
步骤301:控制设备根据基准时间,获取目标产品的历史特征序列和历史关联特征序列。
具体的,执行步骤301时,控制设备可以采用以下步骤:
S3011:控制设备获取目标产品的指定特征在基准时间之前的特征值,并根据获取的指定特征的各特征值,组成历史特征序列。
一种实施方式中,控制设备获取目标产品的指定特征在设定起始时间至基准时间之前的特征值,并根据获取的各特征值,组成历史特征序列。
实际应用中,设定起始时间可以根据实际应用场景进行设置,在此不做限制。
其中,历史特征序列是根据产品的指定特征在基准时间之前的特征值确定的。
S3012:控制设备获取目标产品的指定特征的关联特征在基准时间之前的特征值,并根据获取的关联特征的各特征值,组成历史关联特征序列。
一种实施方式中,控制设备分别针对指定特征的每一关联特征,获取目标产品的该关联特征在设定起始时间至基准时间之前的各特征值,并根据获得的各特征值,组成相应的历史关联特征序列。
其中,历史关联特征序列是根据产品的关联特征在基准时间之前的特征值确定的。
需要说明的是,历史特征序列和历史关联特征序列通常为历史已经发生的客观事实的统计指标的数据。
这样,就可以获取目标产品的历史特征序列和各历史关联特征序列。
步骤302:控制设备获取目标产品在基准时间至预测时间内的未来时序特征序列。
具体的,控制设备获取目标产品的未来时序特征在基准时间至预测时间之间的特征值,并根据未来时序特征的各特征值,组成未来时序特征序列。
一种实施方式中,控制设备分别针对每一未来时序特征,获取目标产品的该未来时序特征在基准时间至预测时间之间的各特征值,并将获得的各特征值组成相应的未来时序特征值序列。
其中,未来时序特征的各特征值是预先设置的,未来时序特征序列由产品的未来时序特征在基准时间至预测时间之间的特征值组成。
进一步地,控制设备还可以采用指定填充值对数据缺失的历史关联特征序列和未来时序特征序列进行填充,以完成对相应特征序列的更新,并针对填充后的特征序列,生成相应的辅助特征序列。
具体的,控制设备采用指定填充值,对数据缺失的历史关联特征序列和未来时序特征序列进行填充,以更新数据缺失的历史关联特征序列和未来时序特征序列,并分别针对填充后的每一历史关联特征序列和每一未来时序特征序列,生成相应的辅助特征序列。
其中,辅助特征序列也可以用于指示填充后的历史关联特征序列或未来时序特征序列中的元素是否为填充的。
其中,基于与对数据缺失的历史关联特征样本序列和未来时序特征样本序列进行填充并生成相应辅助特征序列相似的原理,对数据缺失的历史关联特征序列和未来时序特征序列进行填充并生成相应的辅助特征序列,在此不再赘述。
进一步地,控制设备还可以获取目标产品的静态特征序列。
具体的,控制设备获取目标产品的各静态特征对应的静态特征值,并根据获取的各静态特征值,组成目标产品的静态特征序列。
这样,就可以获得特征预测模型的输入数据。
步骤303:控制设备将目标产品的历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值。
进一步地,控制设备还可以将目标产品的历史特征序列、历史关联特征序列、未来时序特征序列,辅助特征序列以及静态特征序列,输入特征预测模型,获得指定特征的预测值。
本申请实施例中,根据多个产品的多个维度样本数据对特征预测模型进行训练,不仅能考虑到单个产品的不同维度,还能综合考虑多个产品的特性,扩大了输入数据的覆盖范围,使得特征预测模型可以从多个角度学习不同特征以及不同产品之间的复杂关系,提高了预测准确率,以及通过各产品的二元组可以生成大量的采样点,解决了产品数据量少以及单个上出现的异常值影响特征预测准确度的问题,能在数据质量较差时仍取得较好的预测效果,节省大量数据预处理和数据清洗的过程,降低了数据质量要求,模型在训练的过程中自主学习,不需要人为对模型内部进行改造,可以适用于各种复杂场景,应用范围广以及通用性强。
下面采用一个具体的应用场景,对特征预测模型进行训练以及预测进行说明。参阅图4所示,为一种样本点示例图。设定时间段为1.01-1.04,产品包括商品1、商品2、商品3和商品4。每一个圆圈表示一个样本点。以商品1为例,每一商品的训练集包括6个样本点,对应的二元组依次为(1.1,1.2),(1.1,1.3),(1.1,1.4),(1.2,1.3),(1.2,1.4),(1.3,1.4)。则控制设备根据商品1、商品2、商品3和商品4的各样本点(共24个样本点)对特征预测模型进行训练,获得训练后的特征预测模型。
每一商品的预测集包括2个样本点,对应的二元组依次为(1.4,1.5)和(1.4,1.6)。则控制设备采用训练好的特征预测模型依次对每一商品的样本点(1.4,1.5)和(1.4,1.6)进行预测,分别获得每一商品分别在1.5的预测值,以及在1.6的预测值。
下面采用另一个具体的应用场景,对特征预测模型进行训练以及预测进行举例说明。
假设已知100件商品2019年1月1日~2019年6月30日的数据,需要预测其中的10件商品在2019年7月1日~2019年7月30日每一天的销量。
控制设备分别针对每一商品,执行以下步骤,根据2019年1月1日~2019年6月30日,生成各二元组。
其中,二元组依次为(20190101,20190102)……(20190101,20190630);
(20190102,20190103)……(20190102,20190630);……;(20190628,20190629)、(20190628,20190630)(20190629,20190630)。
接着,控制设备根据各商品的二元组,获得各采样点,以及根据各商品2019年1月1日~2019年6月30日的数据,分别确定每一采样点的历史特征样本序列yt1、历史关联特征样本序列的集合Ht1、各未来时序特征样本序列的集合Ft2、辅助特征序列pk t3、静态特征序列S,以及预测样本值。这样,就可以获得各采样点的对应训练样本数据。
其中,t1=(T-L1,T-L1+1,……,T-2,T-1),t2=(T,T+1,……,T+L2-1,T+L2),t1、t2和t3均表示离散时间,T为基准时间。L1为历史特征长度,L2为未来特征长度。针对每一采样点,其基准时间、预测时间、历史特征长度L1以及未来特征长度L2都是确定的。
然后,控制设备将各采样点对应的历史特征样本序列yt1、历史关联特征样本序列的集合Ht1、各未来时序特征样本序列的集合Ft2、辅助特征序列pk t3、静态特征序列S,输入至特征预测模型,获得训练好的特征预测模型。
接着,控制设备根据2019年7月1日~2019年7月30日,将20190630作为基准时间,则生成30个二元组,并根据待预测的10个商品和30个二元组,生成10*30=300个采样点。
其中,30个二元组依次为:(20190630,20190701)、(20190630,20190702)……(20190630,20190730)。
需要说明的是,基准时间可以取2019年1月1日~2019年6月30日中的任意一天,日期越晚,预测效果越好。
进一步地,控制设备获取上述300个样本点对应的历史特征序列、历史关联特征序列、未来时序特征序列,辅助特征序列以及静态特征序列。
最后,控制设备分别将每一样本点的历史特征序列、历史关联特征序列、未来时序特征序列,辅助特征序列以及静态特征序列输入特征预测模型,获得相应的销量预测值。
这样,就可以获得上述10个商品分别在2019年7月1日~2019年7月30日中的每一天的销量预测值。
示例性设备
基于同一发明构思,本申请实施例中还提供了一种特征预测的装置,由于上述装置及设备解决问题的原理与一种特征预测信的方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图5示,其为本申请实施例提供的一种特征预测的装置的结构示意图。
一种特征预测的装置包括:
第一获取单元501,用于获取目标产品的基准时间以及预测时间,基准时间用于划分历史数据和未来数据;
第二获取单元502,用于根据基准时间,获取目标产品的历史特征序列和历史关联特征序列;
第三获取单元503,用于获取目标产品在基准时间至预测时间内的未来时序特征序列;
预测单元504,用于将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值,特征预测模型是根据多个产品的样本数据训练获得的。
较佳的,第二获取单元502用于:
获取目标产品的指定特征在基准时间之前的特征值;
根据获取的指定特征的各特征值,组成历史特征序列;
获取目标产品的指定特征的关联特征在基准时间之前的特征值;
根据获取的关联特征的各特征值,组成历史关联特征序列。
较佳的,第三获取单元503用于:
获取目标产品的未来时序特征在基准时间至预测时间之间的特征值,其中,未来时序特征的各特征值是预先设置的;
根据未来时序特征的各特征值,组成未来时序特征序列。
较佳的,预测单元504还用于:
采用指定填充值,对数据缺失的历史关联特征序列和未来时序特征序列进行填充,以更新历史关联特征序列和未来时序特征序列;
分别针对填充后的每一历史关联特征序列和每一未来时序特征序列,生成相应的辅助特征序列,辅助特征序列用于指示填充后的历史关联特征序列或未来时序特征序列中的元素是否为填充的。
较佳的,预测单元504还用于:
获取目标产品的各静态特征对应的静态特征值,静态特征为与产品相关并且与时间无关的特征;
根据获取的各静态特征值,组成目标产品的静态特征序列;
预测单元504用于:
将历史特征序列、历史关联特征序列、未来时序特征序列,辅助特征序列以及静态特征序列,输入特征预测模型,获得指定特征的预测值。
较佳的,第一获取单元501还用于:
根据各产品的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
较佳的,第一获取单元501还用于:
分别将设定时间段内的每两个采样时间进行组合,获得相应的二元组,其中,二元组中包含的第一个采样时间早于第二个采样时间,;
分别将每一产品的每一个二元组作为一个样本点,并将二元组中包含的第一个采样时间,作为相应样本点的基准时间,以及将二元组中包含的第二个采样时间作为相应样本点的预测时间;
分别根据每一样本点对应的基准时间和预测时间,确定每一样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列;
根据各样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
本申请实施例提供的特征预测方法、装置、电子设备及存储介质,根据多个产品的样本数据对特征预测模型进行训练,获得训练好的特征预测模型,获取目标产品的基准时间以及预测时间,并根据基准时间,获取目标产品的历史特征序列和历史关联特征序列;获取目标产品在基准时间至预测时间内的未来时序特征序列;将历史特征序列、历史关联特征序列以及未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值。这样,根据多个产品的样本数据训练获得特征预测模型,以及通过目标产品的多个维度的特征数据和特征预测模型进行特征预测,扩大了输入数据的数据量以及覆盖面,降低了数据质量要求,提高了特征预测的准确度。
基于与上述特征预测方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为桌面计算机、便携式计算机、服务器等。如图6所示,该电子设备60可以包括处理器601和存储器602。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
示例性程序产品
本申请实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行上述特征预测方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
在一些可能的实施方式中,本申请的各个方面还可以实现为一种计算机程序产品,其包括程序代码,当该计算机程序产品在服务器设备上运行时,该计算机程序产品用于使所述服务器设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的特征预测方法中的步骤。
所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
根据本申请的实施方式的用于即时通信应用的计算机程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在服务器设备上运行。然而,本申请的程序产品不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以采用一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种特征预测的方法,其特征在于,包括:
获取目标产品的基准时间以及预测时间,所述基准时间用于划分历史数据和未来数据;
根据所述基准时间,获取所述目标产品的历史特征序列和历史关联特征序列;
获取所述目标产品在所述基准时间至所述预测时间内的未来时序特征序列;
将所述历史特征序列、所述历史关联特征序列以及所述未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值,所述特征预测模型是根据多个产品的样本数据训练获得的。
2.如权利要求1所述的方法,其特征在于,根据所述基准时间,获取所述目标产品的历史特征序列和历史关联特征序列,包括:
获取所述目标产品的指定特征在基准时间之前的特征值;
根据获取的所述指定特征的各特征值,组成历史特征序列;
获取所述目标产品的指定特征的关联特征在基准时间之前的特征值;
根据获取的所述关联特征的各特征值,组成历史关联特征序列。
3.如权利要求1所述的方法,其特征在于,获取所述目标产品在所述基准时间至所述预测时间内的未来时序特征序列,包括:
获取所述目标产品的未来时序特征在基准时间至预测时间之间的特征值,其中,所述未来时序特征的各特征值是预先设置的;
根据所述未来时序特征的各特征值,组成未来时序特征序列。
4.如权利要求1所述的方法,其特征在于,在将所述历史特征序列、历史关联特征序列以及所述未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值之前,进一步包括:
采用指定填充值,对数据缺失的历史关联特征序列和未来时序特征序列进行填充,以更新所述历史关联特征序列和所述未来时序特征序列;
分别针对填充后的每一历史关联特征序列和每一未来时序特征序列,生成相应的辅助特征序列,所述辅助特征序列用于指示填充后的历史关联特征序列或未来时序特征序列中的元素是否为填充的。
5.如权利要求4所述的方法,其特征在于,在将所述历史特征序列、所述历史关联特征序列以及所述未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值之前,进一步包括:
获取所述目标产品的各静态特征对应的静态特征值,所述静态特征为与产品相关并且与时间无关的特征;
根据获取的各静态特征值,组成所述目标产品的静态特征序列;
将所述历史特征序列、所述历史关联特征序列以及所述未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值,包括:
将所述历史特征序列、所述历史关联特征序列、所述未来时序特征序列,所述辅助特征序列以及所述静态特征序列,输入所述特征预测模型,获得指定特征的预测值。
6.如权利要求1-5任一项所述的方法,其特征在于,在获取目标产品的基准时间以及预测时间之前,进一步包括:
根据各产品的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
7.如权利要求6所述的方法,其特征在于,根据各产品的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型,包括:
分别将设定时间段内的每两个采样时间进行组合,获得相应的二元组,其中,所述二元组中包含的第一个采样时间早于第二个采样时间,;
分别将每一产品的每一个二元组作为一个样本点,并将所述二元组中包含的第一个采样时间,作为相应样本点的基准时间,以及将所述二元组中包含的第二个采样时间作为相应样本点的预测时间;
分别根据每一样本点对应的基准时间和预测时间,确定每一样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列;
根据各样本点对应的历史特征样本序列、历史关联特征样本序列、未来时序特征样本序列、辅助特征序列、预测样本值以及静态特征序列,对特征预测模型进行训练,获得训练后的特征预测模型。
8.一种特征预测装置,其特征在于,包括:
第一获取单元,用于获取目标产品的基准时间以及预测时间,所述基准时间用于划分历史数据和未来数据;
第二获取单元,用于根据所述基准时间,获取所述目标产品的历史特征序列和历史关联特征序列;
第三获取单元,用于获取所述目标产品在所述基准时间至所述预测时间内的未来时序特征序列;
预测单元,用于将所述历史特征序列、所述历史关联特征序列以及所述未来时序特征序列,输入训练好的特征预测模型,获得指定特征的预测值,所述特征预测模型是根据多个产品的样本数据训练获得的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202010148299.0A 2020-03-05 2020-03-05 特征预测方法、装置、电子设备及存储介质 Active CN111401940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010148299.0A CN111401940B (zh) 2020-03-05 2020-03-05 特征预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010148299.0A CN111401940B (zh) 2020-03-05 2020-03-05 特征预测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111401940A true CN111401940A (zh) 2020-07-10
CN111401940B CN111401940B (zh) 2023-07-04

Family

ID=71430528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010148299.0A Active CN111401940B (zh) 2020-03-05 2020-03-05 特征预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111401940B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113238714A (zh) * 2021-05-28 2021-08-10 广东好太太智能家居有限公司 基于历史监测数据的磁盘容量预测方法及***、存储介质
CN113298552A (zh) * 2020-12-02 2021-08-24 阿里巴巴集团控股有限公司 数据处理方法、服务器及存储介质
CN113743643A (zh) * 2021-02-05 2021-12-03 北京京东振世信息技术有限公司 一种确定商品数据预测准确率的方法、装置、设备和介质
CN113850418A (zh) * 2021-09-02 2021-12-28 支付宝(杭州)信息技术有限公司 时间序列中异常数据的检测方法和装置
CN114117689A (zh) * 2022-01-21 2022-03-01 锱云(上海)物联网科技有限公司 一种防生产共振的方法、***、终端设备和存储介质
CN115222164A (zh) * 2022-09-20 2022-10-21 国能大渡河大数据服务有限公司 一种基于经验耦合函数的水泵故障预测方法及***

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316046A (zh) * 2010-06-29 2012-01-11 国际商业机器公司 向社交网络中的用户推荐信息的方法和装置
CN107515842A (zh) * 2017-07-19 2017-12-26 中南大学 一种城市人口密度动态预测方法及***
CN107633254A (zh) * 2017-07-25 2018-01-26 平安科技(深圳)有限公司 建立预测模型的装置、方法及计算机可读存储介质
CN108053242A (zh) * 2017-12-12 2018-05-18 携程旅游信息技术(上海)有限公司 景点门票票量预测方法、***、设备及存储介质
CN108133391A (zh) * 2017-12-22 2018-06-08 联想(北京)有限公司 销量预测方法以及服务器
CN108133014A (zh) * 2017-12-22 2018-06-08 广州数说故事信息科技有限公司 基于句法分析和聚类的三元组生成方法、装置及用户终端
US20180278644A1 (en) * 2017-03-27 2018-09-27 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
WO2018222308A1 (en) * 2017-05-31 2018-12-06 Microsoft Technology Licensing, Llc Time-based features and moving windows sampling for machine learning
CN109067586A (zh) * 2018-08-16 2018-12-21 海南大学 DDoS攻击检测方法及装置
CN109143995A (zh) * 2018-07-13 2019-01-04 浙江大学 一种基于质量相关慢特征充分分解的闭环***精细运行状态监测方法
CN109815980A (zh) * 2018-12-18 2019-05-28 北京三快在线科技有限公司 用户类型的预测方法、装置、电子设备及可读存储介质
CN110019401A (zh) * 2017-12-25 2019-07-16 顺丰科技有限公司 件量预测方法、装置、设备及其存储介质
CN110084438A (zh) * 2019-05-09 2019-08-02 上汽安吉物流股份有限公司 订单的预测方法及装置、物流***以及计算机可读介质
CN110555714A (zh) * 2018-06-04 2019-12-10 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110751497A (zh) * 2018-07-23 2020-02-04 北京京东尚科信息技术有限公司 一种商品补货方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316046A (zh) * 2010-06-29 2012-01-11 国际商业机器公司 向社交网络中的用户推荐信息的方法和装置
US20180278644A1 (en) * 2017-03-27 2018-09-27 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
WO2018222308A1 (en) * 2017-05-31 2018-12-06 Microsoft Technology Licensing, Llc Time-based features and moving windows sampling for machine learning
CN107515842A (zh) * 2017-07-19 2017-12-26 中南大学 一种城市人口密度动态预测方法及***
WO2019019255A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 建立预测模型的装置、方法、预测模型建立程序及计算机可读存储介质
CN107633254A (zh) * 2017-07-25 2018-01-26 平安科技(深圳)有限公司 建立预测模型的装置、方法及计算机可读存储介质
CN108053242A (zh) * 2017-12-12 2018-05-18 携程旅游信息技术(上海)有限公司 景点门票票量预测方法、***、设备及存储介质
CN108133391A (zh) * 2017-12-22 2018-06-08 联想(北京)有限公司 销量预测方法以及服务器
CN108133014A (zh) * 2017-12-22 2018-06-08 广州数说故事信息科技有限公司 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN110019401A (zh) * 2017-12-25 2019-07-16 顺丰科技有限公司 件量预测方法、装置、设备及其存储介质
CN110555714A (zh) * 2018-06-04 2019-12-10 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109143995A (zh) * 2018-07-13 2019-01-04 浙江大学 一种基于质量相关慢特征充分分解的闭环***精细运行状态监测方法
CN110751497A (zh) * 2018-07-23 2020-02-04 北京京东尚科信息技术有限公司 一种商品补货方法和装置
CN109067586A (zh) * 2018-08-16 2018-12-21 海南大学 DDoS攻击检测方法及装置
CN109815980A (zh) * 2018-12-18 2019-05-28 北京三快在线科技有限公司 用户类型的预测方法、装置、电子设备及可读存储介质
CN110084438A (zh) * 2019-05-09 2019-08-02 上汽安吉物流股份有限公司 订单的预测方法及装置、物流***以及计算机可读介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298552A (zh) * 2020-12-02 2021-08-24 阿里巴巴集团控股有限公司 数据处理方法、服务器及存储介质
CN113743643A (zh) * 2021-02-05 2021-12-03 北京京东振世信息技术有限公司 一种确定商品数据预测准确率的方法、装置、设备和介质
CN113743643B (zh) * 2021-02-05 2023-11-03 北京京东振世信息技术有限公司 一种确定商品数据预测准确率的方法、装置、设备和介质
CN113238714A (zh) * 2021-05-28 2021-08-10 广东好太太智能家居有限公司 基于历史监测数据的磁盘容量预测方法及***、存储介质
CN113850418A (zh) * 2021-09-02 2021-12-28 支付宝(杭州)信息技术有限公司 时间序列中异常数据的检测方法和装置
CN113850418B (zh) * 2021-09-02 2024-07-02 支付宝(杭州)信息技术有限公司 时间序列中异常数据的检测方法和装置
CN114117689A (zh) * 2022-01-21 2022-03-01 锱云(上海)物联网科技有限公司 一种防生产共振的方法、***、终端设备和存储介质
CN114117689B (zh) * 2022-01-21 2022-04-29 锱云(上海)物联网科技有限公司 一种防生产共振的方法、***、终端设备和存储介质
CN115222164A (zh) * 2022-09-20 2022-10-21 国能大渡河大数据服务有限公司 一种基于经验耦合函数的水泵故障预测方法及***

Also Published As

Publication number Publication date
CN111401940B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111401940B (zh) 特征预测方法、装置、电子设备及存储介质
CN110366734B (zh) 优化神经网络架构
US11122333B2 (en) User feature generation method and apparatus, device, and computer-readable storage medium
CN110149540B (zh) 多媒体资源的推荐处理方法、装置、终端及可读介质
US20190354810A1 (en) Active learning to reduce noise in labels
CN109376267B (zh) 用于生成模型的方法和装置
US20230049747A1 (en) Training machine learning models using teacher annealing
CN111783810B (zh) 用于确定用户的属性信息的方法和装置
CN108985489B (zh) 一种风险预测方法、风险预测装置和终端设备
US11556773B1 (en) Machine learning analysis of incremental event causality towards a target outcome
US11501107B2 (en) Key-value memory network for predicting time-series metrics of target entities
US20220230065A1 (en) Semi-supervised training of machine learning models using label guessing
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN112836128A (zh) 信息推荐方法、装置、设备和存储介质
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
CN116204714A (zh) 推荐方法、装置、电子设备及存储介质
CN115018552A (zh) 产品点击率确定方法
CN114912030A (zh) 权益模型训练方法、推荐方法及电子终端和计算机介质
CN116703466A (zh) 基于改进灰狼算法的***访问量预测方法及其相关设备
CN116720946A (zh) 基于循环神经网络的信贷风险预测方法、装置和存储介质
US20210406773A1 (en) Transforming method, training device, and inference device
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
US11531694B1 (en) Machine learning based improvements in estimation techniques
US20210182696A1 (en) Prediction of objective variable using models based on relevance of each model
CN113627513A (zh) 一种训练数据生成方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant