CN114418776A - 一种数据处理方法、装置、终端设备及介质 - Google Patents

一种数据处理方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN114418776A
CN114418776A CN202111657708.0A CN202111657708A CN114418776A CN 114418776 A CN114418776 A CN 114418776A CN 202111657708 A CN202111657708 A CN 202111657708A CN 114418776 A CN114418776 A CN 114418776A
Authority
CN
China
Prior art keywords
data
training
prediction model
factor data
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111657708.0A
Other languages
English (en)
Inventor
赵洋
包荣鑫
陈龙
田多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202111657708.0A priority Critical patent/CN114418776A/zh
Publication of CN114418776A publication Critical patent/CN114418776A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例适用于深度学习技术领域,提供了一种数据处理方法、装置、终端设备及介质,所述方法包括:获取训练数据,训练数据包括多个因子数据;以预设的时间长度作为窗口期,对多个因子数据进行处理,得到训练数据对应的时序因子数据;对多个因子数据进行二阶多项式处理,得到训练数据对应的多项式因子数据;采用因子数据、时序因子数据和多项式因子数据对预设的预测模型进行训练,得到目标预测模型;接收待预测数据,并确定待预测数据中的目标数据;将目标数据输入到目标预测模型中进行预测,得到对应的预测结果。通过上述方法,能够提高预测模型的准确率。

Description

一种数据处理方法、装置、终端设备及介质
技术领域
本申请属于深度学习技术领域,特别是涉及一种数据处理方法、装置、终端设备及介质。
背景技术
随着证券行业监管力度加大,越来越多的上市公司财务造假、年报造假等虚假陈述事件被披露出来,上市公司虚假陈述往往会造成投资者判断错误,从而形成金融损失。
但是目前对于由于上市公司虚假陈述导致的投资者损失没有较为科学合理的评估方法,无法准确地评估投资者的损失。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法、装置、终端设备及介质,采用该方法可以定量地计算投资者因上市公司虚假陈述而产生的投资损失,从而保障投资者的利益。
本申请实施例的第一方面提供了一种数据处理方法,包括:
获取训练数据,所述训练数据包括多个因子数据;
以预设的时间长度作为窗口期,对多个所述因子数据进行处理,得到所述训练数据对应的时序因子数据;
对多个所述因子数据进行二阶多项式处理,得到所述训练数据对应的多项式因子数据;
采用所述因子数据、所述时序因子数据和所述多项式因子数据对预设的预测模型进行训练,得到目标预测模型;
接收待预测数据,并确定所述待预测数据中的目标数据;
将所述目标数据输入到所述目标预测模型中进行预测,得到对应的预测结果。
本申请实施例的第二方面提供了一种数据处理装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括多个因子数据;
时序处理模块,用于以预设的时间长度作为窗口期,对多个所述因子数据进行处理,得到所述训练数据对应的时序因子数据;
多项式处理模块,用于对多个所述因子数据进行二阶多项式处理,得到所述训练数据对应的多项式因子数据;
训练模块,用于采用所述因子数据、所述时序因子数据和所述多项式因子数据对预设的预测模型进行训练,得到目标预测模型;
接收模块,用于接收待预测数据,并确定所述待预测数据中的目标数据;预测模块,用于将所述目标数据输入到所述目标预测模型中进行预测,得到对应的预测结果。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法。
本申请实施例的第五方面提供了一种计算机程序产品,当所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述第一方面所述的方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例,可以采用训练数据训练得到对应的预测模型。在进行预测模型的训练过程中,可以基于训练数据本身的因子数据,得到对应的时序因子数据和多项式因子数据,采用因子数据、时序因子数据和多项式因子数据对预测模型进行训练,相当于在训练过程,提高了训练数据的表达能力,能够使得得到的预测模型的准确率更高。在预测模型训练完成之后,根据训练数据和预测模型,可以得到对应的预测结果。本申请实施例时,在计算投资者因为公司虚假陈述而产生的投资损失时,可以根据现有的股票交易数据训练得到股价走势模拟模型;然后根据投资者的股票交易数据和股价走势模拟模型,可以计算在上市公司没有虚假陈述的前提下,投资者应得的收益;对比投资者实际得到的收益和应得的收益,可以得到投资者因为公司虚假陈述而产生的损失。在本申请实施例中,可以对投资者因虚假陈述而产生的损失进行定量的计算,保障了投资者的利益。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例的一种数据处理方法的步骤流程示意图;
图2是本申请一个实施例的一种数据处理装置的示意图;
图3是本申请一个实施例的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
下面通过具体实施例来说明本申请的技术方案。
参照图1,示出了本申请实施例提供的一种数据处理方法的步骤流程示意图,具体可以包括如下步骤:
S101,获取训练数据,所述训练数据包括多个因子数据。
本申请实施例提供的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
本申请实施例中的数据处理方法,是依据现有的数据建立预测模型,从而能够基于预测模型进行数据预测。预测模型具有对应的待预测事务,训练数据可以包括影响待测事务的各种因子对应的因子数据,以及每种因子数据对应的结果。
上述训练数据可以为与待预测事务相关的数据,上述因子数据是指在预测过程中,可能对事务的结果造成影响的数据。
本申请实施例中的方法具体可以应用在对股价走势进行模拟的场景下。训练数据可以为和待评估公司市值相似,所属板块相同,并且在时间节点周期内未出现虚假陈述的多家公司的股价数据。影响股价的因子数据可以包括很多种,例如可以选择表一中所示的因子数据。
表一:
Figure BDA0003446157550000051
Figure BDA0003446157550000061
例如,按照表一中的多个因子数据,可以将训练数据处理为多维向量,然后采用多维向量进行模型预测。
在采用训练数据进行模型训练之前,需要对训练数据进行预处理。例如,需要对训练数据进行离群点检测和数据填充。具体地,可以使用Z-score方法确定训练数据中的离群点。如果数据的值和均值的差超过了三倍标准差值,则判定该数据为异常值。可以根据前后数据,对异常数据重新进行填充。
S102,以预设的时间长度作为窗口期,对多个所述因子数据进行处理,得到所述训练数据对应的时序因子数据。
具体地,每个训练数据都对应有时间,上述时间长度可以为3天、5天、7天。比如训练数据是2年内的训练数据,则可以分别以3天、5天、7天作为窗口划分2年时间,然后计算每个窗口期内的训练数据在每个因子下的均值和方差。将每个窗口期内的均值和方差作为一项因子数据,该因子数据可以反映出在预设时间长度内的训练数据的特征,相当于赋予了数据时序特征。
S103,对多个所述因子数据进行二阶多项式处理,得到所述训练数据对应的多项式因子数据。
具体地,可以对因子数据进行二阶多项式特征处理,假设有两个特征(a,b),则二阶多项式为(1,a,b,a2,ab,b2),则新的特征维度为(a2,ab,b2)。例如,在进行股价交易走势预测模型的训练过程中,可以对公司舆情和行业舆情的多个特征进行二阶多项式处理,获取新的多项式特征。
S104,采用所述因子数据、所述时序因子数据和所述多项式因子数据对预设的预测模型进行训练,得到目标预测模型。
具体地,可以将原始因子、时序因子、多项式因子组合到一起,最终形成了多个不同的特征因子,然后采用特征因子对应的数据对预测模型进行训练。
上述预测模型可以采用LightGBM模型。LightGBM是由微软提出的轻量级梯度提升决策树模型,LightGBM使用带深度限制的Leaf-wise叶子生长策略,并使用直方图做差加速。
预测模型中可以包括参数和超参数,超参数可以为树的深度等,超参数的值可以由用户进行设置,参数的值可以通过训练得到。为了使预测模型的预测结果更为准确,需要选择合适的超参数值。
为了选择合适的超参数值,可以进行网格搜索,确定在每个预设的超参数值下的模型的准确率,然后选择效果最佳的超参数值。
为了选择合适的参数值,可以将训练数据划分为多份数据集合,然后随机选取其中的两份作为一个训练组合,采用训练组合中的一组作为训练集,另一组作为测试集,得到多个训练后的预测模型,将多个训练后的预测模型中误差最小的预测模型作为中间预测模型;之后可以采用因子数据、时序因子数据和多项式因子数据对中间预测模型进行训练,得到目标预测模型。
此外,可以采用训练组合进行预设次数的训练,预设次数的值等于超参数可能具有的组合值。从而确定出每个超参数的值对应的训练结果。
示例性地,假设超参数共有3个取值:A、B、C;训练数据分为x1、x2、x3这3个数据集合,则可以随机组合得到{x1,x2}、{x1,x3}、{x2,x3}、{x1,x2}这3中训练组合。对于每个训练组合可以分别将超参数取值为A、B、C,训练三次,得到对应的3个误差。采用{x1,x2}在超参数值为A、B、C训练得到的模型的误差分别为y1、y2、y3;采用{x1,x3}在超参数值为A、B、C训练得到的模型的误差分别为z1、z2、z3;采用{x2,x3}在超参数值为A、B、C训练得到的模型的误差分别为t1、t2、t3。可以从9个误差中选取最小的误差对应的模型作为中间模型,然后采用训练数据的因子数据、时序因子数据以及多项式因子数据对该中间模型进行训练得到最终的预测模型。
在另一种可能地实现方式中,假设超参数共有3个取值:A、B、C;训练数据分为x1、x2、x3这3个数据集合,则可以随机组合得到{x1,x2}、{x1,x3}、{x2,x3}、{x1,x2}这3中训练组合。对于每个训练组合可以分别将超参数取值为A、B、C,训练三次,得到对应的3个误差。采用{x1,x2}在超参数值为A、B、C训练得到的模型的误差分别为y1、y2、y3;采用{x1,x3}在超参数值为A、B、C训练得到的模型的误差分别为z1、z2、z3;采用{x2,x3}在超参数值为A、B、C训练得到的模型的误差分别为t1、t2、t3。y1、z1、t的平均值,即为超参数取值为A的误差值;类似的,确定超参数取值为B、C对应的误差值,然后观察超参数在那个取值下的误差最小,则可以将超参数的设置为该取值。此外计算y1、y2、y3的平均值可以得到预测模型利用第一个训练组合进行训练的误差值;类似的,确定预存模型利用第二个训练组合、第三个训练组合进行训练的误差值,然后选取误差值最小的参数组合。然后选取误差值最小的训练组合对应的三个预测模型;利用这3个预测模型的参数取值,确定出预测模型的参数可能具有的多种组合;在超参数为误差最小的超参数值的情况下,可以分别确定在预测模型的多个参数取值中,那个参数组合对应的误差最小,可以根据该参数组合得到对应的中间模型。然后采用误差最小的超参数值,和误差最小的参数组合,作为中间模型,使用训练数据对中间模型进行训练,得到最终的预测模型。
S105,接收待预测数据,并确定所述待预测数据中的目标数据。
具体的,待预测数据可以为与待预测预设事务相关的数据,可以对待预测数据进行处理,得到目标数据,目标数据可以与预测模型的输入参数的形式保持一致。
S106,将所述目标数据输入到所述目标预测模型中进行预测,得到对应的预测结果。
具体地,将目标数据输入到预测模型中进行计算,得到对应的预测结果。
在本申请实施例中,采用时序因子数据和多项式因子数据,在训练过程中融合了训练数据的多种特征,增强了数据的表达力;另外,训练过程中采用时序因子数据对模型进行训练,相当于在训练过程中了考虑了数据的时序特征,可以提高预测模型预测的准确率。
需要说明的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请中的方法可以具体应用在股价模拟的场景下,采用交易数据训练得到交易走势预测模型。采用该股票交易走势预测模型可以根据投资者的交易数据预测交易走势,从而计算投资者的预测交易所得;再基于现有的实际股价走势,计算投资者的实际交易所得;根据预测交易所得和实际交易所得可以计算投资者由于上市公司的虚假陈述而带来的损失。
上市公司的虚假陈述会误导投资者进行错误的投资,从而带来投资损失。通常来说,投资者的损失是由“***风险”和“非***风险”两种风险的叠加导致的。***性风险即市场风险,即指由整体政治、经济、社会等环境因素对证券价格所造成的影响。非***风险亦称“非市场风险”、“可分散风险”,与“***性风险”相对,指与股票市场、期货市场、外汇市场等相关金融投机市场波动无关的风险。
对投资者的赔偿由虚假陈述上市公司、代理机构和律师事务所共同承担,不涉及证券交易中心等机构,所以应该排除***性风险,单纯考虑非***性风险导致的股民损失。虚假陈述导致的赔偿金额评估,现有方法参照标准一般为大盘指数、同类可比股票走势、和股票模拟走势三大类。大盘指数是从候选的多个综合指数和成分指数中选择关联性最高的作为参考基准。同类可比股票指数是优先参考最具关联性的行业指数或无行业指数时的板块市值,在特殊情况下可以适当参考地域板块指数、概念板块指数等。股票模拟走势是基于线性回归、LASSO回归、循环神经网络等多因子机器学习算法,模拟出从实施日至揭露日之间的股票走势。其中基于指数的股票走势模拟方法叫做“统一相对比例法”,基于模拟走势的方法叫做“收益率曲线同步对比法”。“统一相对比例法”在指数的选取上多简单以大盘指数或行业指数为依据,并且只是考察了两个点(揭露日和基准日)上指数和股价的涨跌情况,对虚假陈述整体作用区间股价的波动缺少全局性的分析。这种做法难以客观反映虚假陈述作用区间内非***风险的影响情况。因此本实施例提出多因子模型来进行赔偿金额评估。
投资者在投资过程中的总损失Loss由***性风险损失Losssystem和非***性风险损失Lossnon-system两部分组成:
Loss=Losssystem+Lossnon-system
目前对于非***性风险目前没有权威的影响因子及量化方法研究,但是***性风险损失的影响因素相对较少,评估相对简单。因此对于计算上市公司应赔付的金额,可以假设未发生虚假陈述,计算在不考虑虚假陈述的前提下,以其他因素计算投资者模拟损益比例。非***风险损失的计算方法如下所示:(以下所有公式中下标b表示买入,下标s表示卖出)
Lossnon-system=Loss-Losssystem=cb×(pr-ps)
其中cb表示投资者股票的买入总成本,pr表示投资者损失的总比例,ps表示投资者***风险损失的比例。投资者总损失比例又可以通过卖出总收益cs表示如下:
Figure BDA0003446157550000101
其中ab和as分别表示买入和卖出均价,nb和ns分别表示买入和卖出的股数。
买入均价从“第一笔有效买入”开始计算,对于任意一天投资过后的买入均价计算方式如下:
Figure BDA0003446157550000111
其中ctoday和ntoday分别代表当天买入的股票成本和股票数量,分别对其求和获取总成本和总数量。cpre和npre分别代表当天之前的总持股成本和持股数量。
投资者***风险的损失比例ps可以通过“多因子模型算法”模拟得出,计算方式和总损失比例pr的计算方式类似。多因子模型算法即为基于股票交易数据和本申请中的方法训练得到的股价走势模拟模型。
在本实施例中,训练数据可以选择和待评估公司市值相似,所属板块相同,并且在时间节点周期内未出现虚假陈述的多家公司的股价数据。
然后对该训练数据进行离群点检测和数据填充。在离群点检测中,可以使用Z-score方法,它基于统计学中的
Figure BDA0003446157550000115
原则。如果数据的值和均值的差超过了三倍标准差值,则数据被判定为异常值。这是因为数据分布在均值正负
Figure BDA0003446157550000116
的区间的概率为99.7%,因此在此范围外出现的概率为:
Figure BDA0003446157550000112
这是一个极小概率的事件,因此在
Figure BDA0003446157550000117
区间外的数据被判定为离群点。因此Z-score方法的公式可以总结为:
Figure BDA0003446157550000113
其中μ为特征的均值,
Figure BDA0003446157550000114
为特征的标准差。对所有原始数据特征进行离群点检测,离群点的值用空值代替。
由于股价相关数据受时间序列影响,本实施例中可以采用前后值双向填充的方式对训练数据中的空值进行数据填充。因此对于所有的数据空值,先使用后一个非空值进行填充,为了避免边缘数据没有填充的情况,再进行一次使用前一个非空值进行填充。最终双向填充过后,所有特征都不再存在空值的情况。
本实施例中可以采用集成模型LightGBM作为基模型训练,但是股价数据和时间相关,属于时序数据,时序数据本身不能作为LightGBM的输入。因此,本实施例中对时序数据的特征工程处理,根据时间的窗口期计算各维度的统计特征作为输入。
股价受短期内的涨跌幅的影响要比长期的大,因此,可以选择3天,5天,7天三个周期作为窗口期,分别统计部分原始因子例如包括"涨跌幅"、“换手率”、“波动”和“beta因素”的均值和方差,均值和方差的计算公式分别如下:
Figure BDA0003446157550000121
Figure BDA0003446157550000122
其中n为窗口期,分别取3,5,7。之后再对因子数据进行二阶多项式特征处理,假设有两个特征(a,b),则二阶多项式为(1,a,b,a2,ab,b2),则新的特征维度为(a2,ab,b2)。对公司舆情和行业舆情的多个特征进行二阶多项式处理,获取新的多项式特征。将原始因子、时序因子、多项式因子组合到一起,最终形成了多个不同的特征因子。
LightGBM是由微软提出的轻量级梯度提升决策树模型,LightGBM使用带深度限制的Leaf-wise叶子生长策略,并使用直方图做差加速,拥有更快的训练效率、更低的内存使用以及更高的准确率。
LightGBM基于决策树实现,首先训练一棵决策树,接着计算当前损失函数的负梯度作为当前决策树的残差近似值,去训练并拟合新的决策树,循环此过程,直至训练完成。LightGBM在训练中使用GBDT策略,和逻辑回归类似,在二分类任务中使用对数似然作为损失函数:
Figure BDA0003446157550000123
L(y,F)=log(1+exp(-2yF)),y∈{-1,1}
其中,x为测试集数据,y为预测输出。F(x)为关于x和y的对数函数,也可以视为二分类的预测函数。由于需要沿着负梯度方向构造出多棵树,接下来计算预测函数Ft-1(x)的当前负梯度值
Figure BDA0003446157550000124
Figure BDA0003446157550000131
在获得负梯度值后,仍然以决策树为基础学习器,进行线性搜索计算最优叶子节点的拟合值γ:
Figure BDA0003446157550000132
其中Rtj为叶子节点区域,j的取值范围为决策树t的叶子节点个数。
Figure BDA0003446157550000133
本实施例中使用组块二折交叉验证结合网格搜索验证模型效果并寻找最优参数组合。
组块交叉验证首先将所有数据D随机分为k份:
D={D1,D2,...,Dk}
接着从k份数据中选择出任意两份,一份作为训练集,另一份作为测试集,共有
Figure BDA0003446157550000134
种不同的组合,则用于评估模型效果的组块交叉验证平均误差
Figure BDA0003446157550000135
定义如下:
Figure BDA0003446157550000136
网格搜索中使用穷举法,针对LightGBM中的多个可调节超参数进行调整,以组块交叉验证的方式进行,以
Figure BDA0003446157550000137
为判定标准,
Figure BDA0003446157550000138
越小则表明参数的表现越好。经过多轮训练与验证,最终确定针对当前数据的最优参数组合。进而根据递推公式可以不断更新学习器并获得最终的回归强学习器Ft(x),可以预测出在没有虚假陈述前提下的每日股价走势。
读取最优参数组合训练得到的LightGBM模型,以个股股价走势和相关因子为输入数据,通过预测出的模拟股价走势和真实股价走势,可以计算出投资者***风险的损失比例ps,从而计算出非***风险损失Lossnon-system。Lossnon-system可以为上市公司需要赔付给投资者的赔偿金额。
本实施例中进行了特征工程,对股票交易数据进行行了包括因子数据、时序因子数据、多项式因子数据等多种特征的提取,充分增强了数据的表达能力。另外,将时序数据处理成便于作为LightGBM模型的输入的格式,提升了股票交易走势预测的准确性。此外,本实施例提出使用多因子模型模拟个股在不考虑虚假陈述前提下的走势,使用LightGBM算法进行梯度提升迭代决策树训练,保证模型的准确率和鲁棒性。另外,本实施例还提出了投资者赔偿算法,在算法中给出了完整的损失比例和赔偿金额评估算法,仅需给出投资者历史交易流水数据,即可最终得出应赔偿给投资者的损失比例和最终金额。本实施例中使用组块交叉验证结合网格搜索的模型训练方法,能查找到模型的最优参数组合,避免出现过拟合,模型的普适性和鲁棒性更强。
参照图2,示出了本申请一个实施例的一种数据处理装置的示意图,具体可以包括获取模块21、时序处理模块22、多项式处理模块23、训练模块24、接收模块25和预测模块26,其中:
获取模块21,用于获取训练数据,所述训练数据包括多个因子数据;
时序处理模块22,用于以预设的时间长度作为窗口期,对多个所述因子数据进行处理,得到所述训练数据对应的时序因子数据;
多项式处理模块23,用于对多个所述因子数据进行二阶多项式处理,得到所述训练数据对应的多项式因子数据;
训练模块24,用于采用所述因子数据、所述时序因子数据和所述多项式因子数据对预设的预测模型进行训练,得到目标预测模型;
接收模块25,用于接收待预测数据,并确定所述待预测数据中的目标数据;
预测模块26,用于将所述目标数据输入到所述目标预测模型中进行预测,得到对应的预测结果。
在一种可能的处理方式中,上述时序处理模块22包括:
确定子模块,用于确定所述训练数据在每个窗口期内的因子数据;
计算子模块,用于计算每个所述窗口期内的每种所述因子数据的均值和方差;
时序因子数据确定子模块,用于将每个所述窗口期内每种所述因子数据的均值和方差作为所述时序因子数据。
在一种可能的处理方式中,上述训练模块24,包括:
划分子模块,用于将所述训练数据划分为多个数据集合;
训练组合确定子模块,用于根据所述多个数据集合,确定多个训练组合,每个所述训练组合中包括两个数据集合;
第一训练子模块,用于分别采用多个所述训练组合对所述预测模型进行训练,得到多个训练后的预测模型;
中间预测模型确定子模块,用于将多个所述训练后的预测模型中误差最小的预测模型作为中间预测模型;
第二训练子模块,用于采用所述因子数据、所述时序因子数据和所述多项式因子数据对所述中间预测模型进行训练,得到所述目标预测模型。
在一种可能的处理方式中,上述第一训练子模块,包括:
训练单元,用于针对任一所述训练组合,采用所述训练组合的一个数据集合作为训练集对所述预测模型进行预设次数的训练;
测试单元,用于采用所述训练组合的另一个数据集合作为测试集,计算每次训练后的所述预测模型的误差。
在一种可能的处理方式中,上述预测模型包括超参数,上述超参数具有对应的多个值,上述装置还包括:
超参数的值对应误差确定模块,用于对于每个超参数的值,采用所述训练组合进行一次训练,得到所述超参数的值对应的误差。
在一种可能的处理方式中,上述训练模块24还包括:
超参数的值确定子模块,用于确定所述中间预测模型在每个所述超参数的值下的误差;
选取子模块,用于选取误差最小的超参数的值作为所述中间预测模型的超参数的值。
在一种可能的处理方式中,上述预测模块26包括:
交易走势信息确定子模块,用于将预设类型的所述交易数据输入到所述目标预测模型中,得到交易走势信息。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例部分的说明即可。
图3为本申请实施例提供的一种终端设备的结构示意图。如图3所示,该实施例的终端设备3包括:至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32,所述处理器30执行所述计算机程序32时实现上述任意各个方法实施例中的步骤。
所述终端设备3可以是桌上型计算机、笔记本、掌上电脑及云端终端设备等终端设备。该终端设备可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是终端设备3的举例,并不构成对终端设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31在一些实施例中可以是所述终端设备3的内部存储单元,例如终端设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述终端设备3的外部存储设备,例如所述终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取训练数据,所述训练数据包括多个因子数据;
以预设的时间长度作为窗口期,对所述多个因子数据进行处理,得到所述训练数据对应的时序因子数据;
对所述多个因子数据进行二阶多项式处理,得到所述训练数据对应的多项式因子数据;
采用所述因子数据、所述时序因子数据和所述多项式因子数据对预设的预测模型进行训练,得到目标预测模型;
接收待预测数据,并确定所述待预测数据中的目标数据;
将所述目标数据输入到所述目标预测模型中进行预测,得到对应的预测结果。
2.如权利要求1所述的方法,其特征在于,所述以预设的时间长度作为窗口期,对所述多个因子数据进行处理,得到所述训练数据对应的时序因子数据,包括:
确定所述训练数据在每个窗口期内的因子数据;
计算每个所述窗口期内的每种所述因子数据的均值和方差;
将每个所述窗口期内每种所述因子数据的均值和方差作为所述时序因子数据。
3.如权利要求1或2所述的方法,其特征在于,所述采用所述因子数据、所述时序因子数据和所述多项式因子数据对预设的预测模型进行训练,得到目标预测模型,包括:
将所述训练数据划分为多个数据集合;
根据所述多个数据集合,确定多个训练组合,每个所述训练组合中包括两个数据集合;
分别采用多个所述训练组合对所述预测模型进行训练,得到多个训练后的预测模型;
将多个所述训练后的预测模型中误差最小的预测模型作为中间预测模型;
采用所述因子数据、所述时序因子数据和所述多项式因子数据对所述中间预测模型进行训练,得到所述目标预测模型。
4.如权利要求3所述的方法,其特征在于,所述分别采用多个所述训练组合对所述预测模型进行训练,得到多个训练后的预测模型,包括:
针对任一所述训练组合,采用所述训练组合的一个数据集合作为训练集对所述预测模型进行预设次数的训练;
采用所述训练组合的另一个数据集合作为测试集,计算每次训练后的所述预测模型的误差。
5.如权利要求3所述的方法,其特征在于,所述预测模型包括超参数,所述超参数具有对应的多个值,还包括:
对于每个超参数的值,采用所述训练组合进行一次训练,得到所述超参数的值对应的误差。
6.如权利要求5所述的方法,其特征在于,在所述将多个所述训练后的预测模型中误差最小的预测模型作为中间预测模型之后,还包括:
确定所述中间预测模型在每个所述超参数的值下的误差;
选取误差最小的超参数的值作为所述中间预测模型的超参数的值。
7.如权利要求1所述的方法,所述训练数据为交易数据,所述将所述目标数据输入到所述目标预测模型中进行预测,得到对应的预测结果,包括:
将预设类型的所述交易数据输入到所述目标预测模型中,得到交易走势信息。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括多个因子数据;
时序处理模块,用于以预设的时间长度作为窗口期,对多个所述因子数据进行处理,得到所述训练数据对应的时序因子数据;
多项式处理模块,用于对多个所述因子数据进行二阶多项式处理,得到所述训练数据对应的多项式因子数据;
训练模块,用于采用所述因子数据、所述时序因子数据和所述多项式因子数据对预设的预测模型进行训练,得到目标预测模型;
接收模块,用于接收待预测数据,并确定所述待预测数据中的目标数据;
预测模块,用于将所述目标数据输入到所述目标预测模型中进行预测,得到对应的预测结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202111657708.0A 2021-12-30 2021-12-30 一种数据处理方法、装置、终端设备及介质 Pending CN114418776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111657708.0A CN114418776A (zh) 2021-12-30 2021-12-30 一种数据处理方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111657708.0A CN114418776A (zh) 2021-12-30 2021-12-30 一种数据处理方法、装置、终端设备及介质

Publications (1)

Publication Number Publication Date
CN114418776A true CN114418776A (zh) 2022-04-29

Family

ID=81269601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111657708.0A Pending CN114418776A (zh) 2021-12-30 2021-12-30 一种数据处理方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN114418776A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306819A (zh) * 2023-03-22 2023-06-23 大连海事大学 基于光谱重构的高光谱交叉定标方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306819A (zh) * 2023-03-22 2023-06-23 大连海事大学 基于光谱重构的高光谱交叉定标方法、装置及电子设备
CN116306819B (zh) * 2023-03-22 2024-05-03 大连海事大学 基于光谱重构的高光谱交叉定标方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Collin‐Dufresne et al. Do prices reveal the presence of informed trading?
Post et al. Risk aversion and skewness preference
Meinshausen et al. Monte Carlo methods for the valuation of multiple‐exercise options
TW530234B (en) Methods and systems for efficiently sampling portfolios for optimal underwriting
TWI248001B (en) Methods and apparatus for automated underwriting of segmentable portfolio assets
Iori et al. Empirical analyses of networks in finance
Farboodi et al. Where has all the big data gone?
CN112734559A (zh) 企业信用风险评价方法、装置及电子设备
US20220207326A1 (en) Anomaly detection, data prediction, and generation of human-interpretable explanations of anomalies
Bakhach et al. TSFDC: A trading strategy based on forecasting directional change
CN110796539A (zh) 一种征信评估方法及装置
US20110137781A1 (en) Intermarket Analysis
BenSaïda et al. Value‐at‐risk under market shifts through highly flexible models
CN111695938A (zh) 产品推送方法及***
Sekerke Bayesian risk management: A guide to model risk and sequential learning in financial markets
CN109767333A (zh) 选基方法、装置、电子设备及计算机可读存储介质
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
JP2018514889A (ja) 当初証拠金標準モデルに基づいて当初証拠金を計算及び提供する方法及びシステム
Ingermann et al. The recovery rate for retail and commercial customers in Germany: a look at collateral and its adjusted market values
CN115860924A (zh) 供应链金融信用风险预警方法及相关设备
CN115186101A (zh) 一种投资管理后端***、方法、设备及存储介质
Niknya et al. Financial distress prediction of Tehran Stock Exchange companies using support vector machine
Kartiwi et al. Sukuk rating prediction using voting ensemble strategy
CN113222767A (zh) 指数化证券组合的数据处理方法及装置
CN112396455A (zh) 数据资产的定价方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination