CN116720957A - 一种基于分析师群体智慧的股票盈余预测方法及*** - Google Patents

一种基于分析师群体智慧的股票盈余预测方法及*** Download PDF

Info

Publication number
CN116720957A
CN116720957A CN202310683787.5A CN202310683787A CN116720957A CN 116720957 A CN116720957 A CN 116720957A CN 202310683787 A CN202310683787 A CN 202310683787A CN 116720957 A CN116720957 A CN 116720957A
Authority
CN
China
Prior art keywords
analyst
viewpoint
prediction
group
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310683787.5A
Other languages
English (en)
Inventor
蒋帅
郭艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202310683787.5A priority Critical patent/CN116720957A/zh
Publication of CN116720957A publication Critical patent/CN116720957A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及金融投资技术领域,尤其涉及一种基于分析师群体智慧的股票盈余预测方法及***。方法包括:构建以分析师群体作出的包括若干个分析师观点的预测观点组为输入项并且以上市公司在待预测财政年度的盈余预测值为输出项的群体智慧挖掘模型;获取包括若干个分析师观点的预测观点组并且输入至群体智慧挖掘模型;群体智慧挖掘模型,针对每个分析师观点进行评估,得到质量评估;群体智慧挖掘模型,还根据质量评估,针对若干个分析师观点进行异质观点聚合优化,得到盈余预测值。本申请通过贝叶斯神经网络模型针对单独的分析师观点进行质量评估,还通过双目标规划权重优化模型自动为各个分析师观点分配权重,用于得出科学的盈余预测值。

Description

一种基于分析师群体智慧的股票盈余预测方法及***
技术领域
本申请涉及金融投资技术领域,尤其涉及一种基于分析师群体智慧的股票盈余预测方法及***。
背景技术
上市公司的盈余(Earnings)能力是评估其内在价值和预测其股票价格表现的最基本指标之一。因此,预测一个公司的盈余是上市公司和投资者做出合理的投资决策的共同任务。然而,投资者受到信息不对称的影响,以及缺乏信息获取和处理能力,使得他们无法准确估计上市公司的盈余,从而降低了市场效率。为了缓解上述困境,证券分析师在资本市场上发挥着重要的中介作用,他们通过发布专业化、标准化的荐股报告向投资者分享对公司盈余的观点。
然而,在决策中盲目遵循分析师观点的投资者会面临严重的经济损失。造成这种结果的主要原因是:由于专业知识的差异,利益冲突,个人偏见以及其他情境因素,分析师观点的质量存在很大差异。此外,由于分析师观点中所蕴含的知识和专长没有得到广泛的解释和分享,因此投资者在识别有价值的分析师观点(而不是信息较少的观点)方面存在严重阻碍。值得注意的是,对于同一上市公司在未来某一特定财政年度的盈余,往往有多种异质的分析师观点存在,它们通常是不一致的,有时甚至是完全冲突得,这不利于信息效率的提高。投资者面对这样复杂的情况可能会感到困惑,从而减少了从分析师观点中获得有价值信息的机会。
发明内容
本申请提供了一种基于分析师群体智慧的股票盈余预测方法及***,能够解决现有技术中不能准确评估分析师观点质量以及无法针对分析师群体的观点质量进行科学优化的问题。
本申请的第一个技术方案是一种基于分析师群体智慧的股票盈余预测方法,包括:
S1:基于贝叶斯神经网络模型和双目标规划权重优化模型,构建以分析师群体作出的包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组为输入项并且以上市公司在待预测财政年度的盈余预测值为输出项的群体智慧挖掘模型;
S2:获取包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组并且输入至群体智慧挖掘模型;
S3:通过所述群体智慧挖掘模型,针对预测观点组中的每个分析师观点进行关于预测准确性和预测不确定性的评估,得到相应于预测观点组中每个分析师观点的观点质量的质量评估;
通过所述群体智慧挖掘模型以及根据预测观点组中每个分析师观点的观点质量的质量评估,针对预测观点组中的若干个分析师观点进行异质观点聚合优化,得到相应于预测观点组的盈余预测值。
本申请的第二个技术方案是一种基于分析师群体智慧的股票盈余预测***,包括:
观点质量评估模块,用于获取包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组并且针对预测观点组中的每个分析师观点进行关于预测准确性和预测不确定性的评估,得到相应于预测观点组中每个分析师观点的观点质量的输出分布;
观点组质量优化模块,用于根据预测观点组中每个分析师观点的观点质量的输出分布,针对预测观点组中的若干个分析师观点进行异质观点聚合优化,得到相应于预测观点组的盈余预测值。
有益效果:
本申请通过提出一种新的群体智慧挖掘模型(SmartMOA),用于挖掘分析师群体智慧以生成更准确的上市公司每股收益的预测。
具体地,SmartMOA首先包括一个创新的贝叶斯神经网络EDI-BNN,该模型可以捕捉到分析师观点数据的独特特征以产生不确定性感知的AOQ预测,因此充分释放了大规模分析师观点数据中的隐性知识,提高了基于分析师观点的决策水平。
此外,SmartMOA还通过双目标规划权重优化模型自动为各个分析师观点分配权重,该优化问题的目标是使组聚合准确性最大化,并最小化组聚合不确定性。
综上可知,SmartMOA不仅能够针对单个分析师观点的观点质量进行准确地评估,还可针对分析师群体的观点质量进行科学权重优化,可有效挖掘分析师群体的群体智慧,综合分析师群体的观点质量的差异,因此可根据分析师群体的观点质量做出科学依据,所以本申请能够解决现有技术中不能准确评估分析师观点质量以及无法针对分析师群体的观点质量进行科学优化的问题,可使投资者在面对复杂的情况时有足够的科学决策选择,大大提高了从分析师观点中获得有价值信息的机会。
附图说明
图1为本申请实施例中基于分析师群体智慧的股票盈余预测方法的流程示意图;
图2为本申请实施例中群体智慧挖掘模型的结构示意图;
图3为本申请实施例中贝叶斯神经网络结构的前向传播示意图;
图4为本申请实施例中预测误差-不确定性阈值的变化曲线(MSE);
图5为本申请实施例中预测误差-不确定性阈值的变化曲线(MSLE);
图6为本申请实施例中SmartMOA模型的说明性案例示例图;
图7为本申请实施例中SmartMOA模型与共识预测模型的性能对比示意图;
图8为本申请实施例中基于分析师群体智慧的股票盈余预测***的结构示意图;
图中,观点质量评估模块-1;观点组质量优化模块-2。
具体实施方式
(一)实施例一
分析师观点组(Analyst Opinions Group,AOG)是一组分析师对某一财政年度上市公司每股收益(Earnings Per Share,EPS)的所有预测的集合。假设现在的预测目标是上市公司j在财年t的EPS,那么相应的分析师观点组可以表示为集合AOGj,t,具体形式如下:
AOGj,t={AEFi,j,t|i=1,2,...,nj,t}; 式1
其中,AEFi,j,t表示分析师i对上市公司j在财年t的每股收益的预测值,而nj,t则表示分析师观点组的规模大小。
本申请实施例中分析师观点的质量是由其盈余预测的准确性来度量的。一般的,分析师盈余预测准确性由其对目标上市公司在某一财政年度的每股收益的量化公司盈余的基本指标,其计算方法是公司的净收益减去优先股的股息,再除以流通股的数量。
预测值与实际值的接近程度,预测值与实际值越接近,准确性越高,相应的观点质量就越高。本申请实施例采用绝对百分比误差(Absolute Percentage Error,APE)作为衡量分析师盈余预测准确性的标准。因为这个指标是一个负向指标,为了方便起见,本申请实施例将其乘以-1,使之成为整项指标。分析师观点AEFi,j,t的准确性函数如下所示:
式中,EPSj,t表示上市公司j在财年t的真实每股收益,而|AEFi,j,t-EPSj,t|表示分析师观点AEFi,j,t的绝对预测误差。由公式2可知分析师盈余预测准确性函数确保了Q(AEFi,j,t)越大,观点AEFi,j,t的质量越高。
本申请实施例假设有一组分析师观点其中,AEFi,j,t表示分析师i对上市公司j在财年t的盈余预测(i=1,2,...,nj,t);分析师群体智慧挖掘的目的是找到一组权重/>使得观点组AOGj,t内各分析师观点的加权和尽可能接近公司j在t年的实际收益EPSj,t
ωi,j,t≥0并且
形式上,对于一个给定的损失函数L,群体智慧挖掘的目标如下所示:
其中,是通过汇总多元分析师观点得到的上市公司真实EPS的估计值。
本申请实施例提供了一种基于分析师群体智慧的股票盈余预测方法,通过利用历史观点数据的有用信息来最大限度地学习人类专家的知识,如图1所示,图1为本申请实施例中基于分析师群体智慧的股票盈余预测方法的流程示意图,方法包括:
S1:基于贝叶斯神经网络模型和双目标规划权重优化模型,构建以分析师群体作出的包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组为输入项并且以上市公司在待预测财政年度的盈余预测值为输出项的群体智慧挖掘模型。
其中,步骤S1包括:
S11:搭建用于确定预测观点组中每个分析师观点的观点质量的输出分布的贝叶斯神经网络结构。其中,步骤S11包括:
S111:确定可用于确定分析师观点的观点质量的输出分布公式,公式如下所示:
式中,AEF′表示任意一个待测评观点质量的分析师观点;Q(AEF′)表示相应于待测评观点质量的分析师观点的观点质量;x′表示相应于待测评观点质量的分析师观点的特征向量;p(Q(AEF′)|x′,D)表示待测评观点质量的分析师观点的观点质量的输出分布;q*(Θ)表示相应于p(Q(AEF′)|x′,D)的后验分布的近似分布;Θt表示从分布q*(Θ)中抽样得到的一组模型参数的样本;D表示N个分析师作出的关于上市公司j在财政年度t中股票盈余的历史数据集;
式中,AEFi表示分析师观点i所给出的盈余预测值,N表示分析师观点的总数;Q(AEFi)表示分析师观点i的观点质量;均表示相应于AEFi的特征向量;
具体地,本申请实施例首先设定一个历史观点数据集假设有一个历史观点数据集 其中,/>代表所有分析师对上市公司j在财年t的预测;xi,j,t表示分析师观点AEFi,j,t的特征向量。
本申请实施例的目标是学习一个聚合函数其中ωM(xi,j,t)=Mxi,j,t是一个学习函数,其功能是在如下目标函数的设置下将历史观点数据中的特征bmxi,j,t映射为观点的权重向量:
式中,是参数矩阵M预测的EPS,M由最前沿的深度学习和优化模型所训练得到;
为解决现有技术中存在的分析师群体智慧挖掘问题,本申请实施例提供了一种群体智慧挖掘模型(Smart Multiple Opinions Aggregation,Smart-MOA)。如图2所示,图2为本申请实施例中群体智慧挖掘模型的结构示意图,Smart-MOA模型包括:评估模块和优化模块。首先,在评估模块中,Smart-MOA从历史观点数据中训练一个贝叶斯神经网络EDI-BNN。当给定一个新的分析师观点组时,每个分析师观点将由训练好的EDI-BNN模型处理,EDI-BNN将提供准确性和不确定性的估计。然后,在优化模块则基于上述评估结果确定观点的最佳权重,这些权重将被用来计算集成的EPS预测,本申请实施例称之为分析师观点组的盈余预测(Group Analyst Earnings Forecast,GAEF)。
评估模块侧重于评估个体观点的质量。在该模块中,SmartMOA首先提出了EDI,它是一个新颖的能够捕捉到AOQ预测的独特特征的深度神经网络模型。进一步的,Smart-MOA将EDI转化为BNN版本,以分布的形式输出预测的AOQ,这为SmartMOA获得预测准确性(输出分布的期望)和预测不确定性(输出分布的方差)提供了条件。
优化模块旨在构建一个权重分配函数,根据评估模块产生的质量评估结果为每个分析师观点分配合理的权重。为了释放分析师群体智慧的潜力,优化模块的基本原则应该是给高质量观点分配更高的权重。因此,SmartMOA构建了一个双目标组合优化问题,使一组分析师观点的聚合准确性最大化,同时使其聚合不确定性最小。具有高预测准确性和低预测不确定性的分析师观点在群体集成的过程中会获得较高权重。
贝叶斯神经网络在结构上也通过建模事件域交互来促进个体观点的质量评估。给定一个分析师意见AEF与其特征向量x,本申请实施例将其特征x进一步表示为下式:
x={xa,xf,xs}; 式5
式中,分别表示观点AEF中分析师事件域,预测事件域和股票事件域的特征向量,而na,nf,ns分别表示各事件域中特征的数量。基于上述观点特征表示,贝叶斯神经网络结构的前向传播过程如图3所示,图3为本申请实施例中贝叶斯神经网络结构的前向传播示意图。
本申请实施例使用EDI(Event Domain Interaction)来表示上述网络结构。算法1显示EDI由三个部分组成:事件域表示、跨域交互学习和质量预测。质量预测部分则将事件域表征和跨域交互表征串联成一个高阶地特征向量,通过将其输入多层感知机来评估观点质量。与传统的神经网络致力于最小化均方误差不同,本申请实施例试图将预测不确定性纳入模型以说明模型预测的可靠程度。EDI在输出中加入了一个额外的输出来量化偶然不确定性,该不确定性有效地量化了观测噪声,将在下文中对模型细节进行说明。
为了在观点质量评估中量化预测不确定性,本申请实施例通过将上述EDI网络转换为贝叶斯神经网络结构,记为EDI-BNN。与传统深度学习网络将模型参数设置为每个模型参数设置为一个确定值不同,贝叶斯神经网络结构每个模型参数被设置为遵循一个概率分布。如图2中评估模块所示,求解BNN中模型参数所服从分布的关键利用变分推断计算参数的后验分布。
给定是一个由N条分析师历史观点组成的训练集,其中AEFi是分析师观点i所给出的盈余预测,/>是该观点的特征向量,而Q(AEFi)∈R是分析师观点的准确性。
令x′=xa′,xf′,xs′表示任意一个需要评估其质量的测试观点AEF′的特征向量,EDI-BNN预测其观点准确性Q(AEF′)服从的分布:p(Q(AEF′)|xa′,xf′,xs′,D);式6
上述预测分布的期望和方差量化了分析师观点AEF′的预测准确性和认知不确定性。
令fΘ表示本申请实施例提出EDI-BNN模型,其中Θ~p(Θ)代表模型的所有参数,[模型的参数分布]p(Θ)代表Θ服从的分布;因此,通过EDI-BNN评估观点质量的关键是确定模型参数的分布p(Θ)。原则上,模型参数分布p(Θ)应该使提出的EDI-BNN模型fΘ最有可能生成收集到的历史观点数据D。因此,模型参数分布p(Θ)→后验分布p(Θ|D)。
公式5.6中表示出的分析师观点AEF′的质量评估分布可以转化为以下形式:
p(Q(AEF′)|xa′,xf′,xs′,D)=∫Θp(Q(AEF′)|xa′,xf′,xs′,Θ)p(Θ|D)dΘ; 式7
式中,p(Q(AEF′)|xa*,xf*,xs*,Θ)是通过将测试观点的特征xa*,xf*,xs*输入到EDI-BNN模型fΘ中输出的用来评估观点质量,该分布在Θ已知的情况下是很容易计算的。
上式实际上是指根据数据D找到所有可能的模型,然后计算每个模型所预测的分析师观点的质量Q(AEF′)的点估计,最后得到Q(AEF′)的概率分布。
根据式7可以得出Θ由后验分布p(Θ|D)所决定。按照贝叶斯法则,为了推断出p(Θ|D),需要在EDI-BNN模型fΘ的空间上加入先验分布p(Θ)的限制,该先验分布代表了对模型参数的先验信息。因此,后验分布p(Θ|D)的计算方式如下:
根据全概率公式可得到p(D)=∫Θp(D,Θ)dΘ。通过变分推断(VariationalInference,VI)来对p(Θ|D)进行近似求解。
具体的,VI指定了一个关于参数Θ的简单分布族Q,然后通过确定分布q*(Θ)∈Q(Θ)来近似p(Θ|D)。VI寻求优化一个简单分布的参数而不是优化原始神经网络的参数,用一个优化任务取代了BNN中需要计算所有权重积分的棘手问题。
正式的,通过VI方法优化的近似分布q*(Θ)∈Q(Θ)可以通过下述公式确定:
式中,DKL表示KL散度,用来计算两个分布之间的距离,其值越小代表两个分布相似性越高。
定理一(贝叶斯变分推断)令E代表求解分布期望的数学算子,那么公式5.9中定义的优化问题等同于以下方程:
式中,DKL[q(Θ)||p(Θ)]对应于与先验分布的距离,通常被称为复杂性代价;
一Eq(Θ)[logp(D|Θ)]对应于数据的拟合过程,通常被称为似然代价。
公式10在生成数据D和满足先验p(Θ)之间作出了良好的平衡。
本申请实施例引入MCDVI来评估分析师观点质量。通过一组参数来定义提出的贝叶斯神经网络EDI-BNN;
其中Wi是该神经网络中第i=1,2,...,L层的权重矩阵,相应的维数是Ki×Ki-1
为了将EDI-BNN中的贝叶斯近似推断与Dropout训练联系起来,本申请实施例为第i层的参数定义一个近似的伯努利变分分布为定义第i层的参数定义一个近似的伯努利变分分布q(Wi),即:
zi,j~Bernoulli(pi);
i=1,2,...,L;
j=1,2,...,K-1;
式中,zi,j是服从以概率pi为参数的伯努利分布的随机变量,Mi需要优化的变分参数;
diag(·)是将向量映射为对角线现矩阵的数学算子,其矩阵的对角线与向量的元素一一对应。
基于上述变分推断的设置,可以用近似后验q*(Θ)代替式7中的p(Θ|D)来预测分析师的观点质量,如下所示:
p(Q(AEF′)|xa′,xf′,xs′,D)=∫Θp(Q(AEF′)|xa′,xf′,xs′,Θ)q*(Θ)dΘ 式12
对于近似分布q*(Θ),通过蒙特卡洛积分近似法(Monte Carlo IntegrationApproximation Method)来进行计算。
Θt~q*(Θ);
S112:根据输出分布公式,确定分析师观点的观点质量的质量评估公式;
所述分析师观点的观点质量的质量评估公式如下所示:
式中,表示分析师观点i的盈余预测值的预测准确性;/>表示分析师观点i的盈余预测值的偶然不确定性;/>表示分析师观点i的盈余预测值的认知不确定性;/>示分析师观点i的盈余预测值的预测不确定性;/>表示贝叶斯神经网络结构输出的第i个单元;
具体地,本申请实施例从预测准确性和预测不确定性两个方面评估分析师观点的质量。其中,给定任意一个测试分析师观点AEF′(特征向量为x′),EDI-BNN模型将通过两个输出单元产生其质量评估结果,分别是预测准确性和预测的偶然不确定性/>为了确定测试观点的预测准确性以及预测不确定性,可以从模型参数服从的分布q*(Θ)中随机抽出T组参数/>即Θt~q*(Θ)。
每一组Θt都下降实施化一个特定的EDI神经网络,该网络可以产生的采样点估计值作为输出,因此本申请实施例可通过蒙特卡洛积分近似法来计算预测准确性和偶然不确定性。
本申请实施例通过表示贝叶斯神经网络结构输出的第i个单元,该模型的测试观点AEF′的预测准确性如下所示:
EDI-BNN输出的测试观点AEF′的偶然准确性如下所示:
与偶然不确定性捕捉数据产生的不确定性不同,认知不确定性刻画模型的不确定性,其量化方式如下所示:
综上可知,AEF′的预测不确定性可以表示为认知不确定性和偶然不确定性之和,即:
S113:基于所述分析师观点的观点质量的输出分布公式和质量评估公式,搭建贝叶斯神经网络结构。
S12:获取包括历史观点组和历史盈余值的训练集;
历史观点组包括若干个分析师作出的关于上市公司在历史财政年度的股票盈余的预测观点;历史盈余值为上市公司在历史财政年度的股票盈余的盈余实际值。
具体地,本申请实施例的训练集来自国泰安金融数据库(CSMAR)如表1所示,表1列出了该分析师观点数据集的基本统计数据。为了收集观点特征和计算分析师观点所推荐的股票的事后投资收益,本申请实施例还收集了中国证券市场上相关股票和市场指数在2009年至2022年间的每日价格数据。
表1分析师观点数据集的基本描述
年份 观点数量 分析师数量 券商数量 股票数量 行业数量
2010 27,784 2,839 106 1,555 80
2011 34,647 2,037 95 1,788 76
2012 36,527 2,374 97 1,725 76
2013 35,865 2,582 78 1,616 75
2014 34,881 2,616 79 1,778 75
2015 31,681 2,396 83 2,017 77
2016 40,538 2,500 72 2,294 76
2017 49,047 3,073 80 2,466 78
2018 46,063 3,241 70 2,004 78
2019 46,701 3,513 82 2,024 77
2020 49,048 3,831 80 2,158 74
2021 46,497 3,866 83 2,215 74
ALL 479,279 20,046 181 3,988 87
为了挖掘分析师群体智慧,本申请实施例主张首先构建深度不确定性学习模型来评估个体分析师观点的质量,并据此构建了一个典型的监督学习任务。收集的分析师观点数据集应该被划分为训练集(Training Set)、验证集(Validation Set)和测试集(TestSet)。
此外,为了评估所提出的方法的性能是否随时间变化而变化,本申请实施例采用了移动时间窗策略(Moving Time Window Strategy)来获得多个实验数据集。选择最近五年(从2017年到2021年)的分析师观点数据来生成测试集。通过将移动时间步长设置为一年,最终共获得五个测试集来验证SmartMOA模型的有效性。对于每个测试集,使用其前七年产生的分析师观点数据学习用于个体观点质量评估的机器学习模型,其中前六年的数据作为训练集,最后一年的数据作为验证集。表2总结了详细的数据划分设置。
表2基于时间窗口滑动策略的数据集划分
此外,在使用机器学习模型评估分析师观点质量时,有必要在在事件嵌入框架下对观点的特征进行收集。表3中展示了本申请实施例所收集到的观点特征。
表3AOQ评估任务中的观点特征
/>
S13:通过训练集针对贝叶斯神经网络结构进行训练,得到以分析师群体作出的包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组为输入项并且以相应于预测观点组中每个分析师观点的观点质量的输出分布为输出项的贝叶斯神经网络模型。贝叶斯神经网络结构在训练过程中所应用的损失函数如下所示:
式中,Q(AEFi)表示分析师观点i的观点质量;表示分析师观点i的盈余预测值的预测准确性;/>表示分析师观点i的预测不确定性;λ表示权重系数;Θ表示贝叶斯神经网络模型的模型参数。
具体地,机器学习模型产生的预测不确定性通常表明模型对预测结果的信心,可以用来揭示模型实际学到的知识。预测不确定性通常包括两种类型:认知不确定性(Epistemic Uncertainty)和偶然不确定性(Aleatoric Uncertainty)。
偶然不确定性可以分为同质的和异质的,前者对不同的输入保持恒定,后者则取决于模型的输入。本申请实施例假设评价分析师观点质量的偶然不确定性是异质的,因为这种类型的不确定性在更大的空间内捕捉到了与数据相关的噪声。通过假设观察噪声的分布和估计分布的充分统计量,偶然不确定性可以和认知不确定性一起被捕获。
本申请实施例假设偶然不确定性服从高斯分布,在给定历史分析师观点数据/>的情况下,可以推导出如下形式的代价函数:
式中,AEFi表示分析师观点i的预测盈余值,xi表示其特征向量;Q(AEFi)表示分析师观点i的观点质量;表示分析师观点i的盈余预测值的预测准确性;/>表示分析师观点i的盈余预测值的预测不确定性;/>和/>均可以在训练过程中模型的输出单元中确定。
相当于式10中的负对数似然项,它确保当分子中的预测误差较高时,分母中的偶然不确定性应该很高。/>为估计的偶然不确定性提供额外的正则化,防止网络对所有观点实例预测出无限大的偶然不确定性(会造成上述损失为0)。λ·||Θ||2是以λ为系数的权重正则化,等价于式10中的KL散度项。本申请实施例采用了Adam With Decoupled Weight Decay(Adam W)算法来训练上述损失函数下的EDI-BNN模型。
S14:搭建用于可识别预测观点组中每个分析师观点的观点质量的输出分布并且可根据观点质量的输出分布聚合预测观点组中异质观点的双目标规划权重优化模型。
具体地,双目标规划权重优化模型的目的是确定一组合适的权重来分配给AOGj,t中的各个观点;将相对高的权重分配给高质量的观点,进而可以保证集成后的分析师盈余预测尽可能地接近上市公司的实际盈余。
以及,步骤S14包括:
S141:确定可识别观点质量的输出分布并且根据观点质量的输出分布针对观点质量的预测准确性和预测不确定性进行权重优化的双目标规划权重优化公式;
双目标规划权重优化公式如下所示:
式中,AOGj,t表示关于上市公司j在财政年度t中每股股票的盈余预测值的预测观点组;表示相应于预测观点组的经过归一化处理后的分析师观点的观点质量的输出分布的组聚合准确性;/>表示相应于预测观点组的经过归一化处理后的分析师观点的观点质量的输出分布的组聚合不确定性;
表示相应于预测观点组的组聚合准确性和组聚合不确定性的第k个帕累托最优解,m表示帕累托最优解的总数;/>表示相应于分析师观点i所给出的盈余预测值上市公司j在财政年度t中每股股票的盈余预测值的权重值;/>
具体地,本申请通过解决以下带合法性约束的双目标规划来确定最佳的观点权重:
其中,Q(AOGj,t)和U(AOGj,t)分别是集成观点组AOGj,t中各观点预测准确性和预测不确定性得到的组聚合准确性和组聚合不确定性。
在式19定义的双目标规划中,第一个目标是将较高的权重分配给具有较高的值的观点,第二个目标是将较高的权重分配给具有较低的/>值的观点。后面的两个约束条件定义了可行解空间,确保了权重的合法性。
本申请实施例通过NSGA-II(Non-dominated Sorting Genetic Algorithm II)来解决式19中描述的观点组合优化问题。假设针对分析师观点组AOGj,t,可基于NSGA-II得到m个帕累托最优解,本申请实施例的集合表示如下所示:
其中,表示集合中的第k个帕累托最优解。为了确定唯一的帕累托最优解/>本申请实施例提出了一种原则性的方法来从帕累托最优解集Ωj,t中做出选择。具体的,对于任意一个/>帕累托最优解,本申请实施例通过/>和/>来分别表示其在式19中相应的组聚合准确性和组聚合不确定性。
因此,与帕累托最优解集相对应的组聚合准确性集合如下所示:
与帕累托最优解集相对应的组聚合不确定性集合如下所示:
QP(AOGj,t)和UP(AOGj,t)构成式19中优化问题的帕累托前沿。
本申请实施例期望所选择的唯一的帕累托最优解能同时兼顾到公式5.19中的两个目标。然而,组聚合准确性和组聚合不确定性在尺度上通常是不一致的,它们不具备直接可比性。因此,本申请实施例首先通过以下公式将它们进行归一化处理:
式中,和/>是帕累托最优解/>对应的归一化后的组聚合准确定性和组聚合不确定性。显而易见的是,/>和/>均被缩放至0(对应最差情形)到1(对应最佳情形),因此可通过下式来确定位移的帕累托最优解/>
作为唯一的帕累托最优解,因此可以对式19中的两个目标进行良好的平衡。
S142:根据双目标规划权重优化公式,确定用于聚合预测观点组中异质观点的观点组质量确定公式;
观点组质量确定公式如右所示:
式中,GAEFj,t表示对上市公司j在财政年度t的每股股票的盈余预测值;AEFi,j,t表示分析师观点i所给出的盈余预测值上市公司j在财政年度t中每股股票的盈余预测值;
表示基于帕累托最优解确定的相应于分析师观点i所给出的盈余预测值上市公司j在财政年度t中每股股票的盈余预测值的权重值。
具体地,根据获得的观点组AOGj,t的唯一帕累托最优解权重(该权重自动地识别了每个观点的重要性),可以输出一个组内多个分析师观点的集成结果,具体如下:
GAEFj,t是在挖掘分析师群体智慧的基础上产生的对上市公司j在财年t的每股收益的估计值,它蕴含了人类金融专家的知识。
S143:基于双目标规划权重优化公式和观点组质量确定公式,搭建双目标规划权重优化模型。
S15:针对贝叶斯神经网络模型和双目标规划权重优化模型进行整合处理,得到以分析师群体作出的包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组为输入项并且以上市公司在待预测财政年度的盈余预测值为输出项的群体智慧挖掘模型。
S2:获取包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组并且输入至群体智慧挖掘模型;
S3:通过所述群体智慧挖掘模型,针对预测观点组中的每个分析师观点进行关于预测准确性和预测不确定性的评估,得到相应于预测观点组中每个分析师观点的观点质量的质量评估;
通过所述群体智慧挖掘模型以及根据预测观点组中每个分析师观点的观点质量的质量评估,针对预测观点组中的若干个分析师观点进行异质观点聚合优化,得到相应于预测观点组的盈余预测值。
(二)贝叶斯神经网络模型性能分析
2.1对比基线模型:为了更好地说明本申请实施例提出的事件域交互贝叶斯神经网络(EDI-BNN)在预测分析师观点质量方面的有效性,本申请实施例将其他机器学习基线模型进行比较。具体的,本申请实施例采用的对比基线包括:(1)LR,(2)Ridge,(3)Lasso,(4)ElasticNet,(5)SVR,(6)DT,(7)RFs,(8)Adaboost,(9)XGB,(10)LGBM(Light,(11)MLP-BNN。
前四个基线(LR,Ridge,Lasso和ElasticNet)是个体机器学习模型,它们既不能捕捉非线性关系,也不能量化预测的不确定性。两个基线(SVR和DT)是可以捕捉非线性关系个体机器学习模型,但不能量化预测的不确定性。接下来的四个基线(RFs,Adaboost,XGB和LGBM)是集成机器学习模型,它们可以捕捉非线性关系,但不能量化预测的不确定性。最后一个(MLP-BNN)是贝叶斯神经网络,它既可以捕捉非线性关系,又可以量化预测的不确定性。表4总结了上述基线和本申请实施例提出的EDI-BNN的特点。
表4对比基线模型的特点
基线模型 非线性关系 集成学习 不确定性学习
LR × × ×
Ridge × × ×
Lasso × × ×
ElasticNet × × ×
SVR × ×
DT × ×
RFs ×
Adaboost ×
XGB ×
LGBM ×
MLP-BNN ×
EDI-BNN ×
此外,本申请实施例通过构建多元观点集成的基线模型来确认本申请实施例提出的SmartMOA方法在挖掘分析师群体智慧方面的优越性。具体的,本申请实施例首先采用共识预测作为比较基线,它不依赖任何外部知识。相比之下,本申请实施例还构建了另外两种类型的群体智慧挖掘基线,它们都利用了外部知识。第一种类型是基于传统机器学习模型的基线,它根据机器学习模型预测的观点质量来为多元观点分配权重。在表4中显示的所有机器学习模型都将被采用,随后,本申请实施例使用softmax函数将原始的模型预测转换为合法权重。另一种类型是基于不确定性学习的,即SmartMOA(MLP),它用MLP-BNN代替提出SarmtMOA模型中的EDI-BNN,其他的保持不变。
2.2性能度量指标:对于被形式化为回归问题的分析师观点质量评估任务,本申请实施例使用两个标准的度量指标来报告表4中列出的各种机器学习模型的预测性能,分别是:均方误差(MSE)和对数均方误差(MSLE)。MSE是衡量回归模型预测性能的最流行的指标,而MLSE是MSE的一个变种。与MSE相比,MLSE只关心真实值和预测值之间的相对差异,对低估的惩罚大于高估,这在误差曲线中引入了不对称性。上述两个指标都计算了预测的观点质量和真实观点质量之间的误差,具体计算公式定义如下:
/>
其中,N表示测试集包含的观点数量;
Q(AEFi)表示测试观点AEFi的真实质量,而Q(AEFi)表示模型预测的观点质量。
为了解决在预测不确定性下如何衡量分析师观点质量预测性能的问题,本申请实施例引入了两个额外的指标:MSE@K%和MSLE@K%。它们分别表示由整个测试数据集中预测不确定性最低的K%观点所组成的观点数据集的MSE和MSLE。提出这两个指标的原因是,预测不确定性水平高的观点,意味着模型对其预测结果的信心较低,在衡量预测性能时不应该包括在内。
最后,本申请实施例选择了三个通用的指标来量化各种群体智慧挖掘模型的性能。第一个是APE(Absolute Percentage Error),其计算方法类似于式2。假设群体智慧挖掘模型给出的观点集成预测为GAEFj,t,EPSj,t是上市公司j的股票的市盈率在财年t每股收益的实际值,那么群体智慧挖掘的集成预测的APE可以用以下方式计算:
本申请实施例用AEFEj,t=|AEFj,t-EPSj,t|表示分析师观点AEFi,j,t的绝对预测误差。那么,FACC可以通过以下公式计算:
式中,GAEFj,t=|GAEFj,t-EPSj,t|表示集成预测GAEFj,t的绝对误差,AEFEj,t={AEFEi,j,t|i=1,2,...,sj,t}是观点组AOGj,t中所有个体观点对应的预测误差构成的集合。相应的,max(AEFEj,t)和min(AEFEj,t)分别表示该观点组预测误差集合的最大值和最小值。
第三个性能度量指标是PMAFE(Percentage Mean Absolute Forecast Error),该指标的计算公式如下所示:
其中,是绝对预测误差集AEFEj,t的平均值。APE是一个负向指标,而FACC和PMAFE是正向指标,表明FACC或PMAFE的值越大,群体智慧的挖掘结果越好。
特别的,FACC和PMAFE是相对的衡量标准,有助于确定挖掘群体智慧是否比个人观点更好。FACC将观点集成预测的质量标准化至0(最差预测)到100(最佳预测)之间,如果预测具有较高的FACC得分(至少大于50),则可以认为挖掘群体智慧提供了相对优势。PMAFE是由分析师观点组的平均预测误差直接比较的,根据式30,如果集成预测的PMAFE得分大于0,则可以认为挖掘分析师群体智慧产生了比个体观点更多的优势。
2.3模型实现:本申请实施例先后开发了两个不同的深度神经网络来评估分析师观点的质量,包括:EDI-BNN和MLP-BNN。其中EDI-BNN是本申请实施例的主要贡献,而MLP-BNN则是作为对比基线。所有与训练这两个BNN有关的实验都是在配备了4个NVIDIA2080TiGPU的服务器上进行的,并以PyTorch作为后端框架。为了根据收集到的数据训练上述两个深度学习模型,本申请实施例采用AdamW作为优化器,因为它在效率、准确度和泛化方面具有优越性。此外,为了采用蒙特卡洛方法获得分析师观点的预测准确性和预测不确定性,因此在不同的随机种子下对BNN的权重进行了30次采样。
本申请实施例采用Tree-structured Parzen Estimator方法(TPE)来调优上述两个贝叶斯神经网络的超参数。其他传统机器学习模型的实现都是基于scikit-learn,它是机器学习界最流行的python库。
2.4贝叶斯神经网络模型的性能对比
2.41观点质量预测性能对比:本小节主要讨论机器学习模型在预测分析师观点质量方面的表现,该任务被形式化为一个有监督的回归问题。除了本申请实施例提出的深度不确定性学习方法EDI-BNN外,本申请实施例还采用了表4中介绍的机器学习模型,而性能评估指标是MSE和MSLE。表5中报告了各种机器学习模型的AOQ预测性能比较结果以考察本申请实施例提出的EDI-BNN的观点质量评估能力,其中黑体字表示性能的最佳表现。从表5中的结果来看,本申请实施例可以得出如下结论:
(1)在传统的机器学***均值(有参数共享);
(2)对于四个线性模型,Ridge、Lasso和ElasticNet的表现比LR好,这表明正则化技术可以提高线性回归模型在预测分析师观点质量方面的表现。但ElasticNet的表现并不优于Ridge和Lasso,说明同时使用L1或L2正则化并不比单独使用它们更好。对于深度神经网络,如果给它的权重参数一个高斯先验,这将产生L2正则化(或权重衰减),而如果给它一个拉普拉斯先验,则会产生L1正则化,因此采用L2正则化来训练EDI-BNN。
(3)在预测分析师观点质量的任务中,深度不确定性学***均预测MSE降低到0.2132,明显小于XGBoost的平均预测MSE(0.2795)。另一方面,对于MSLE,MLP-BNN@75%将XGBoost的预测误差从0.0798降低到0.0640。上述证据表明深度不确定性学***均预测MSE和MSLE分别降低到0.1488和0.0460。这进一步验证了MLP-BNN在解决分析师观点质量预测任务方面的优越性。
(4)在所有的实验中,本申请实施例提出的EDI-BNN@50%在这两个指标上表现最好。具体来说,对于MSE,EDI-BNN@50%比XGBoost(提高了51.02%)、MLP-BNN@75%(提高了35.65%)、MLP-BNN@75%(提高了32.84%)和MLP-BNN@50%(提高了7.80%)降低了预测误差。对于MSLE,EDI-BNN@50%比XGBoost(提高了43.73%)、MLP-BNN@75%(提高了29.84%)、MLP-BNN@75%(提高了27.46%)和MLP-BNN@50%(提高了8.37%)降低了预测误差。上述结果表明,对于分析师观点的质量预测任务,本申请实施例提出的新型EDI网络(它利用事件域监护来捕捉分析师观点中隐含的模式和知识)是一种优于MLP的网络结构。
综上可知,本申请实施例提出的EDI-BNN模型通过利用深度不确定性学习和事件域交互的知识,表现出了明显优于基线的预测性能,这表明EDI-BNN模型在预测分析师观点的质量方面具有优势。
表5AOQ预测模型的性能比较
/>
/>
2.42预测不确定性的质量:在本申请实施例的模型中,只有当模型的预测不确定性低于用户指定的阈值时,才会评估模型的预测误差。如果模型评估的预测不确定性被很好地校准,当输出的预测不确定性较低时,投资者就可以相信模型的预测,而当模型的预测具有较高的不确定性时,模型的预测将不再可靠,可能需要应用其他的解决方案(例如,通过人为干预或使用其他模型的预测)。如果将百分比阈值设置为80%,那么期望模型的预测误差会小于百分比阈值设置为90%的情形。因此,只有当模型的预测误差随着设置的百分比阈值的降低而降低时,模型估计的预测不确定性才是高质量的。
如图4所示,图4为本申请实施例中预测误差-不确定性阈值的变化曲线(MSE),图4(a)为实验EXP#1,图4(b)为实验EXP#2,图4(c)为实验EXP#3,图4(d)为实验EXP#4,图4(e)为实验EXP#5。在图4(a)中,X轴是设置的百分比阈值,Y轴是预测误差MSE,该图显示了EDI-BNN在实验EXP#1的测试集中预测分析师观点质量的MSE-Threshold曲线。该图显示,MSE-Threshold曲线的趋势是持续向右上升的,这表明EDI-BNN模型的性能通过去除不确定性大于各种百分数阈值的测试观点而得到改善。当百分比阈值设置为100%时,所有测试观点都被考虑在内,此时EDI-BNN的预测MSE为0.3242。当阈值为50%时,预测MSE降低到0.1320,而当阈值为5%时,预测MSE只有0.0378。
如图5所示,图5为本申请实施例中预测误差-不确定性阈值的变化曲线(MSLE),图5(a)为实验EXP#1,图5(b)为实验EXP#2,图5(c)为实验EXP#3,图5(d)为实验EXP#4,图5(e)为实验EXP#5。图5(a)显示了实验EXP#1的MSLE-Threshold曲线,随着百分比阈值的降低,预测误差持续下降:从0.0934(当阈值设置为100%时)显著地降低到0.0188(当阈值设置为5%)。上述证据表明,对于EXP#1,本申请实施例提出的EDI-BNN估计出的不确定性师高质量的,可以有效辅助预测测试数据集中的分析师观点质量。
在图4和图5中分别显示了其他四个实验集的预测误差-百分比阈值曲线,其中每个子图对应一个特定的实验集,图4的子图使用MSE作为误差的度量,图5的子图使用MSLE作为误差的度量。从上述两图中可知,本申请实施例提出的EDI-BNN在其余四组实验中的预测误差-百分比阈值曲线的趋势与上面讨论的EXP#1一致,这表明“EDI-BNN可以估计高质量的不确定性以提高分析师观点质量的预测性能”这一结论是稳健的。
为了更进一步,本申请实施例在图4和图5中的每个子图上额外添加了两条预测误差-百分比阈值曲线以测量其他两种不确定性的质量。第一条曲线是由MLP-BNN估计的不确定性,其预测误差百分比阈值分别是图4中各子图内蓝色曲线和图5中各子图内的黄色曲线,相应的图例为MLP(Eepistemic+Aleatoric)。上述图中的结果显示:从五个实验的整体来看,不管是用MSE还是MSLE来衡量误差,MLP-BNN对应的曲线都位于EDI-BNN的曲线之上。这表明,使用相同的不去确定性百分比阈值,EDI-BNN的预测可以产生比MLP-BNN的预测更低的误差,这验证了EDI网络结构相对于MLP的优越性。
此外,本申请实施例考虑的另一种不确定性是EDI-BNN估计的认知不确定性,也就是图中的EDI(Eepistemic),其预测误差-百分比阈值曲线是图4中各子图内的橙色曲线或图5中各子图内的红色曲线。本申请实施例提出的BNN所估计的不确定性同时包含认知不确定性和偶然不确定性,而最终的预测不确定性是两者之和。相比之下,普通的BNN只具有量化认知不确定性的能力。因此,本申请实施例增加了认知不确定性的曲线以研究在评价分析师观点的质量时量化偶然不确定性是否有必要。在图4和图5中的结果显示,在大多数情况下,EDI(Eepistemic)的曲线位于EDI(Eepistemic+Aleatoric)的曲线之上,这为验证本申请实施例提出的同时量化认知不确定性和偶然不确定性的方法提供了支持。
(三)群体智慧挖掘模型的性能分析
3.1群体智慧挖掘示例:提供说明性案例来阐述本申请实施例提出的SmartMOA模型是如何根据EDI-BNN提供的个体分析师观点的质量评估结果来集成多元异质观点的。
如图6所示,图6为本申请实施例中SmartMOA模型的说明性案例示例图。图6(a)提供了用于案例研究的分析师观点组的基本信息,从中可以看出,该观点组由42条分析师观点组成,事件跨度是从2017年1月23日到2017年11月16日。该分析师观点组的预测目标是公司A在2017年的每股收益,分析师给出的最高预测值为0.717,最低预测值为0.32,而真实值为0.1894。该组观点的最大预测误差为0.5276,最小预测误差为0.1306。
基于从实验EXP#1的训练数据集和验证数据集中学到的EDI-BNN模型,SmartMOA可以联合估计该组中每个观点的预测准确性和预测不确定性。图6(c)显示了该组中各个观点质量评价结果的散点图,其中每个点代表一个具体的分析师观点,X轴代表观点的预测准确性,Y轴代表观点的预测不确定性。本申请实施例认为如何合理地分配每个观点的权重是挖掘分析师群体智慧的关键。为此,SmartMOA构建了一个双目标优化问题来根据各个观点的质量评价结果分配权重,其优化目标是使组聚合准确性最大化且最小化组聚合不确定性,具体如式19中所述。本申请实施例采用NSGA-II算法来解决该观点组对应的双目标优化问题,得到了70个帕累托最优解。
为了从这些帕累托最有解中确定一个唯一的最优解,Smart-MOA对这些帕累托解对应的目标值进行归一化处理。图6(b)展示了这些帕累托解对应的归一化之后的目标值,其中每个点代表一个特定的帕累托最优解,X轴代表帕累托最优解对应的归一化后的组聚合准确性,Y轴代表帕累托最优解对应的归一化后的组聚合不确定性。使用归一化组聚合准确性和归一化组聚合不确定性之和作为选择标准,选取具有最大标准值的帕累托最优解作为最终选择,因为该解能够在式19中的两个目标之间提供了良好的权衡。
在图6(b)中,每个帕累托最优解对应的点的颜色越深,其标准值越高。从图中可以看到,靠近两边的点颜色较浅,因为它们通常过分关注一个目标。最后,SmartMOA选择中间的五角星所代表的帕累托最优解作为唯一的解。根据得到的唯一解,SmartMOA确定了观点组中每个观点的权重。
图6(c)用颜色深度来表示每个观点的权重,权重越高颜色越深。靠近左下角的观点被赋予了较高的权重,这表明SmartMOA自动识别了群体观点中的重要成员。SmartMOA产生的集成预测为0.4526,这比共识预测更准确。SmartMOA输出的盈余预测的APE、FACC和PMAFE分别为138.94、66.61和4.68,都优于共识预测。
3.2模型性能分析:为了检验本申请实施例提出的SmartMOA在处理分析师群体智慧挖掘任务方面的优越性,本小节提供了SmartMOA与其他分析师群体智慧挖掘基线的性能对比实验结果。在这个实验中,本申请实施例只考虑达到最小规模的分析师观点组,因为太少的观点不利于释放群体智慧的潜力。
如图7所示,图7为本申请实施例中SmartMOA模型与共识预测模型的性能对比示意图。图7介绍了SmartMOA和共识预测(Consensus)的群体智慧挖掘性能比较。首先,图7(a)采用APE作为群体智慧挖掘性能的评价指标,结果表明:在集成多元分析师观点时,SmartMOA能产生更准确的盈余预测,因为在不同的最小组规模设置下,其APE总是低于共识预测。当设置观点组的规模不小于30时,SmartMOA的APE为28.49,而Consensus的APE为29.40,SmartMOA的改进幅度为3.1%;当观点组的最小规模分别设置为45、60和75时,SmartMOA的APE分别比Consensus提高了4.09%、4.20%和3.54%。
类似的,图7(b)采用FACC作为性能评价指标,从中可以看到:SmartMOA的FACC曲线一直高于Consensus的曲线,当观点组的最小规模分别设置为30、45、60和75时,SmartMOA的FACC比Consensus分别提高了0.93%、1.37%、1.18%和1.19%。图7(c)采用PMAFE作为性能评价指标,可以从中看出:SmartMOA的PMAFE曲线一直高于Con-sensus的曲线,当观点组的最小规模分别设置为30、45、60和75时,SmartMOA的PMAFE比Consensus分别提高了3.79%、8.00%、8.09%和9.48%。上述证据充分证实了本申请实施例提出的SmartMOA是一个优于共识预测的群体智慧挖掘模型。此外,还应该注意到:图7(a)中的性能曲线随着观点组的规模大小呈单调递减态势,SmartMOA的APE从28.49单调降低到20.05。同时,图7(b)和图7(c)中的性能曲线随着观点组规模的增加而单调增加,SmartMOA的FACC和PMAFE分别从69.49和19.34增加到了73.09和22.38。上述实验结果表明:群体智慧挖掘模型在规模较大的观点组中可以产生更准确的预测。这背后的原因可能是大规模的观点组更有可能包含不一致的、差异很大的预测,而这正是群体智慧容易发挥其力量的理想场景。
第二类要比较的群体智慧挖掘基线是基于传统的机器学习模型的,该类模型只能预测分析师观点的准确性,而不能输出预测不确定性的信息。表6总结了SmartMOA和这类基线的性能比较结果,从中可以看出:在不同的性能指标下,LR在这类群体智慧挖掘基线中取得了最佳的性能,而本申请实施例提出的SmartMOA模型则表现得更加出色。与LR的群体智慧挖掘性能相比,当最小分组规模设置为30时,本申请实施例提出的SmartMOA(EDI)在APE、FACC和PMAFE下对LR的改进率可分别达到2.54%、0.63%和1.12%。当最小组规模设置为45时,相应的改进率分别增加到3.41%、1.05%和4.89%。特别的,基于传统机器学习的基线在大多数情况下都优于共识预测,这表明利用外部知识是提高群体智慧挖掘效果的重要途径。
最后一个基线是SmartMOA(MLP),它使用与SmartMOA(EDI)相同的模型结构,只是用MLP-BNN代替EDI-BNN。表6中的结果显示:在绝大多数情况下,SmartMOA(MLP)都是最好的基线,它优于共识预测和各种基于传统机器学习的群体智慧挖掘基线,仅次于SmartMOA(EDI)。因此,可得出以下结论:(1)本申请实施例提出的SmartMOA模型是一个扩展性优良的框架,可以有效聚合多元观点以充分释放分析师群体智慧的潜力;(2)根据具体应用场景的独特特征,为BNN设计微妙的架构是提高SmartMOA模型性能的一个有前途的方向。本申请实施例中为分析师观点设计的EDI网络来利用事件域的交互捕捉分析师观点中的潜在模式和知识,是比MLP这样的通用网络架构更好的选择。
表6SmartMOA vs Machine Learning的群体智慧挖掘性能对比
/>
/>
根据图7和表6可知,集成多元分析师观点是否比单一的分析师观点更有优势。支持这一结论的证据主要来自于分析师群体智慧挖掘在PMAFE和FACC这两个指标上的表现。如公式5.30所示,PMAFE是一个基于相对误差的指标,需要从群体智慧挖掘模型的预测误差中减去观点小组的平均预测误差。FACC也是一个基于相对误差的指标,只不过它相对的是观点组内的最大预测误差和最小预测误差,最终结果从0到100进行了标准化处理。结果显示,群体智慧挖掘模型的FACC接近70,处于远高于50的高水平,因此也表明在利用分析师观点的应用中,群体智慧是比个体智慧更有前景的选择。
综上可知,本申请实施例的EDI-BNN在处理AOQ评估任务方面的出色表现大大促进了SmartMOA在挖掘群体智慧方面的优势。管理启示方面,本申请实施例一方面证明了由SmartMOA产生的盈余预测可以产生更有利的股票估值,另一方面,本申请实施例确认了SmartMOA与基于会计的模型在EPS预测任务上是互补的,将二者的预测结合起来可以构建一个人类-算法协作***,从而产生更高质量的盈余预测。本申请实施例通过提出EDI-BNN模型充分释放了大规模分析师观点数据中的隐性知识,提高了基于分析师观点的决策水平,在方法论上做出了贡献。
(五)实施例二
本申请实施例二阐释了一种基于分析师群体智慧的股票盈余预测***,包括:
观点质量评估模块1,用于获取包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组并且针对预测观点组中的每个分析师观点进行关于预测准确性和预测不确定性的评估,得到相应于预测观点组中每个分析师观点的观点质量的输出分布。观点组质量优化模块2,用于根据预测观点组中每个分析师观点的观点质量的输出分布,针对预测观点组中的若干个分析师观点进行异质观点聚合优化,得到相应于预测观点组的盈余预测值。
具体地,观点质量评估模块1对应于SmartMOA中的贝叶斯神经网络模型,观点组质量优化模块2对应于双目标规划权重优化模型。观点质量评估模块1用于对每个分析师观点进行质量评估。观点组质量优化模块2用于对分析师群体的观点质量进行权重优化,最终得到盈余预测值。由于相应技术内容已详细记载,此处不再赘述。

Claims (6)

1.一种基于分析师群体智慧的股票盈余预测方法,其特征在于,包括:
S1:基于贝叶斯神经网络模型和双目标规划权重优化模型,构建以分析师群体作出的包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组为输入项并且以上市公司在待预测财政年度的盈余预测值为输出项的群体智慧挖掘模型;
S2:通过获取包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组并且输入至群体智慧挖掘模型;
S3:通过所述群体智慧挖掘模型,针对预测观点组中的每个分析师观点进行关于预测准确性和预测不确定性的评估,得到相应于预测观点组中每个分析师观点的观点质量的质量评估;
通过所述群体智慧挖掘模型以及根据预测观点组中每个分析师观点的观点质量的质量评估,针对预测观点组中的若干个分析师观点进行异质观点聚合优化,得到相应于预测观点组的盈余预测值。
2.根据权利要求1所述的基于分析师群体智慧的股票盈余预测方法,其特征在于,所述步骤S1包括:
S11:搭建用于确定预测观点组中每个分析师观点的观点质量的质量评估的贝叶斯神经网络结构;
S12:获取包括历史观点组和历史盈余值的训练集;
所述历史观点组包括分析师作出的关于上市公司在历史财政年度的股票盈余的若干个预测观点;所述历史盈余值为上市公司在历史财政年度的股票盈余的盈余实际值;
S13:通过训练集针对贝叶斯神经网络结构进行训练,得到以分析师群体作出的包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组为输入项并且以相应于预测观点组中每个分析师观点的观点质量的质量评估为输出项的贝叶斯神经网络模型;
S14:搭建用于可识别预测观点组中每个分析师观点的观点质量的质量评估并且可根据观点质量的输出分布聚合预测观点组中异质观点的双目标规划权重优化模型;
S15:针对贝叶斯神经网络模型和双目标规划权重优化模型进行整合处理,得到以分析师群体作出的包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组为输入项并且以上市公司在待预测财政年度的盈余预测值为输出项的群体智慧挖掘模型。
3.根据权利要求2所述的基于分析师群体智慧的股票盈余预测方法,其特征在于,所述步骤S11包括:
S111:确定可用于确定分析师观点的观点质量的输出分布公式;
输出分布公式如下所示:
式中,AEF′表示任意一个待测评观点质量的分析师观点;
Q(AEF′)表示相应于待测评观点质量的分析师观点的观点质量;
x′表示相应于待测评观点质量的分析师观点的特征向量;
p(Q(AEF′)|x′,D)表示待测评观点质量的分析师观点的观点质量的输出分布;
q*(Θ)表示相应于后验分布p(Q(AEF′)|x′,D)的近似分布;
Θt表示从分布q*(Θ)中抽样得到的一组模型参数的样本;
D表示N个分析师作出的关于上市公司j在财政年度t中股票盈余的历史数据集;
式中,AEFi表示分析师观点i所给出的盈余预测值,N表示分析师观点的总数;
Q(AEFi)表示分析师观点i的观点质量;
均表示相应于AEFi的特征向量;
S112:根据输出分布公式,确定分析师观点的观点质量的质量评估公式;
所述分析师观点的观点质量的质量评估公式如下所示:
式中,表示分析师观点i的盈余预测值的预测准确性;
表示分析师观点i的盈余预测值的偶然准确性;/>表示分析师观点i的盈余预测值的认知不确定性;/>示分析师观点i的盈余预测值的预测不确定性;表示贝叶斯神经网络结构输出的第i个单元;
S113:基于所述分析师观点的观点质量的输出分布公式和质量评估公式,搭建贝叶斯神经网络结构。
4.根据权利要求2所述的基于分析师群体智慧的股票盈余预测方法,其特征在于,在所述步骤S13中,贝叶斯神经网络结构在训练过程中所应用的损失函数如下所示:
式中,Q(AEFi)表示分析师观点i的观点质量;表示分析师观点i的盈余预测值的预测准确性;/>表示分析师观点i的盈余预测值的预测不确定性;
λ表示权重系数;Θ表示贝叶斯神经网络模型的模型参数。
5.根据权利要求2所述的基于分析师群体智慧的股票盈余预测方法,其特征在于,所述步骤S14包括:
S141:确定可识别观点质量的输出分布并且根据观点质量的输出分布针对观点质量的预测准确性和预测不确定性进行权重优化的双目标规划权重优化公式;
双目标规划权重优化公式如下所示:
式中,AOGj,t表示关于上市公司j在财政年度t中每股股票的盈余预测值的预测观点组;
表示相应于预测观点组的经过归一化处理后的分析师观点的观点质量的输出分布的组聚合准确性;/>表示相应于预测观点组的经过归一化处理后的分析师观点的观点质量的输出分布的组聚合不确定性;/>表示相应于预测观点组的组聚合准确性和组聚合不确定性的第k个帕累托最优解,m表示帕累托最优解的总数;表示相应于分析师观点i所给出的盈余预测值上市公司j在财政年度t中每股股票的盈余预测值的权重值;
S142:根据双目标规划权重优化公式,确定用于聚合预测观点组中异质观点的观点组质量确定公式;所述观点组质量确定公式如下所示:
式中,GAEFj,t表示对上市公司j在财政年度t的每股股票的盈余预测值;AEFi,j,t表示分析师观点i所给出的盈余预测值上市公司j在财政年度t中每股股票的盈余预测值;
表示基于帕累托最优解确定的相应于分析师观点i所给出的盈余预测值上市公司j在财政年度t中每股股票的盈余预测值的权重值;
S143:基于双目标规划权重优化公式和观点组质量确定公式,搭建双目标规划权重优化模型。
6.一种基于分析师群体智慧的股票盈余预测***,其特征在于,包括:
观点质量评估模块,用于获取包括关于上市公司在待预测财政年度的股票盈余的若干个分析师观点的预测观点组并且针对预测观点组中的每个分析师观点进行关于预测准确性和预测不确定性的评估,得到相应于预测观点组中每个分析师观点的观点质量的输出分布;
观点组质量优化模块,用于根据预测观点组中每个分析师观点的观点质量的输出分布,针对预测观点组中的若干个分析师观点进行异质观点聚合优化,得到相应于预测观点组的盈余预测值。
CN202310683787.5A 2023-06-10 2023-06-10 一种基于分析师群体智慧的股票盈余预测方法及*** Pending CN116720957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310683787.5A CN116720957A (zh) 2023-06-10 2023-06-10 一种基于分析师群体智慧的股票盈余预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310683787.5A CN116720957A (zh) 2023-06-10 2023-06-10 一种基于分析师群体智慧的股票盈余预测方法及***

Publications (1)

Publication Number Publication Date
CN116720957A true CN116720957A (zh) 2023-09-08

Family

ID=87872852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310683787.5A Pending CN116720957A (zh) 2023-06-10 2023-06-10 一种基于分析师群体智慧的股票盈余预测方法及***

Country Status (1)

Country Link
CN (1) CN116720957A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197701A (zh) * 2023-11-07 2023-12-08 广州天地林业有限公司 基于图像分析的保护区环境空间特征分析方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197701A (zh) * 2023-11-07 2023-12-08 广州天地林业有限公司 基于图像分析的保护区环境空间特征分析方法及***
CN117197701B (zh) * 2023-11-07 2024-02-13 广州天地林业有限公司 基于图像分析的保护区环境空间特征分析方法及***

Similar Documents

Publication Publication Date Title
Carroll et al. Household classification using smart meter data
Kozeny Genetic algorithms for credit scoring: Alternative fitness function performance comparison
Li et al. A study of project selection and feature weighting for analogy based software cost estimation
Filev et al. Generalized Markov models for real-time modeling of continuous systems
CN106897918A (zh) 一种混合式机器学习信用评分模型构建方法
CN111612261B (zh) 基于区块链的金融大数据分析***
CN110097088A (zh) 一种基于迁移学习与特殊点策略的动态多目标进化方法
Li et al. Heterogeneous ensemble learning with feature engineering for default prediction in peer-to-peer lending in China
CN116720957A (zh) 一种基于分析师群体智慧的股票盈余预测方法及***
Zhao et al. Evaluating the reliability of sources of evidence with a two-perspective approach in classification problems based on evidence theory
Rambachan et al. Counterfactual risk assessments under unmeasured confounding
Haga et al. Initial stage clustering when estimating accounting quality measures with self-organizing maps
CN113344692B (zh) 多信息源融合的网络借贷信用风险评估模型的建立方法
Huang et al. A multi-attribute decision-making model for the robust classification of multiple inputs and outputs datasets with uncertainty
Jain et al. Increasing fairness in predictions using bias parity score based loss function regularization
CN116308809A (zh) 一种基于事件域交互的分析师观点质量评估方法及模型
Xu et al. Novel Early-Warning Model for Customer Churn of Credit Card Based on GSAIBAS-CatBoost.
Himani et al. A comparative study on machine learning based prediction of citations of articles
Escobar et al. Evaluating temporal bias in time series event detection methods
Moradi et al. An application of support vector machines in bankruptcy prediction; Evidence from Iran
Cao et al. Fuzzy genetic algorithms for pairs mining
Gui et al. Fairer machine learning through the hybrid of multi-objective evolutionary learning and adversarial learning
CN117593101B (zh) 基于多维数据的金融风险数据处理分析方法及***
Musyoka Comparison of Data Mining Algorithms in Credit Card Approval
Petchrompo et al. A two-step post-optimality approach for a multi-objective railway maintenance planning problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination