CN117314643A - 基于金融风洞数据的数据分析方法、装置及存储介质 - Google Patents
基于金融风洞数据的数据分析方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117314643A CN117314643A CN202311589116.9A CN202311589116A CN117314643A CN 117314643 A CN117314643 A CN 117314643A CN 202311589116 A CN202311589116 A CN 202311589116A CN 117314643 A CN117314643 A CN 117314643A
- Authority
- CN
- China
- Prior art keywords
- index
- parameters
- sample
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007405 data analysis Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000003062 neural network model Methods 0.000 claims abstract description 90
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000012360 testing method Methods 0.000 claims abstract description 42
- 230000009977 dual effect Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 206010033307 Overweight Diseases 0.000 description 10
- 230000008859 change Effects 0.000 description 10
- 238000010606 normalization Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 108010014172 Factor V Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Human Resources & Organizations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于金融风洞数据的数据分析方法、装置及存储介质,方法包括:将p个样本对象的目标数据集划分为训练集和测试集;将其对第一多模型超融合神经网络模型进行调整,得到第二多模型超融合神经网络模型;根据p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出c个权重因子中的d个权重参数;通过其优化第一样本对象的指标参数,得到目标第一样本对象。
Description
技术领域
本申请涉及人工智能技术领域以及大数据技术领域,具体涉及一种基于金融风洞数据的数据分析方法、装置及存储介质。
背景技术
实际应用中,2023年,中国***宣布全面实行股票发行注册制改革正式启动。上市标准多样化,上市前5交易日涨跌幅取消限制,市场投融资决策环境将会更加复杂。目前,开盘价与开盘之后的价格决定于股票本身价值、信息流传播以及知情交易者、技术交易者、噪声交易者等不同类型交易者的共同博弈结果。然而,市场化价格不仅受到公司自身经营状况的影响,还会受到宏观经济情况、行业发展情况、资本市场状态等市场情绪影响因素的干扰。目前,传统方法比较关注拟上市公司的内在价值,从而忽略了外在市场供求关系的动态变化,导致股票上市之后波动幅度较大,因此,如何结合市场环境的动态变化,保障股票上市之后的股价控制在合理范围内波动。
发明内容
本申请提供了一种基于金融风洞数据的数据分析方法、装置及存储介质,可以结合市场环境的动态变化,保障股票上市之后的股价控制在合理范围内波动。
第一方面,本申请提供一种基于金融风洞数据的数据分析方法,所述方法包括:
获取m个样本对象,每一样本对象包括n个指标参数,其中,所述n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,所述显性数据属性指标参数为所述样本对象自身的指标参数;所述隐性数据属性指标参数为所述样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c;
对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数;
将所述p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数;
将所述p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集;
将所述目标数据集划分为训练集和测试集;
根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型;
根据所述p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过所述第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据所述x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出所述c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c;
通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
第二方面,本申请提供了一种基于金融风洞数据的数据分析装置,所述装置包括:获取单元、数据处理单元和模型优化单元,其中,
所述获取单元,用于获取m个样本对象,每一样本对象包括n个指标参数,其中,所述n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,所述显性数据属性指标参数为所述样本对象自身的指标参数;所述隐性数据属性指标参数为所述样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c;
所述数据处理单元,用于对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数;将所述p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数;将所述p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集;
所述模型优化单元,用于将所述目标数据集划分为训练集和测试集;根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型;根据所述p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过所述第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据所述x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出所述c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c;通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
第三方面,本申请提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请第一方面中的步骤的指令。
第四方面,本申请提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请第一方面中所描述的部分或全部步骤。
第五方面,本申请提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请,具备如下有益效果:
可以看出,本申请中所描述的基于金融风洞数据的数据分析方法、装置及存储介质,获取m个样本对象,每一样本对象包括n个指标参数,其中,n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,显性数据属性指标参数为样本对象自身的指标参数;隐性数据属性指标参数为样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c,对m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数,将p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数,将p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集,将目标数据集划分为训练集和测试集,根据训练集和测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型,根据p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c,通过d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,目标第一样本对象包括优化后指标参数,将隐性风洞属性嫁接给显性属性,可以实现价格充分考虑新股自身价值和外在市场环境的动态变化,还可以根据输出变量最优解,识别出高权重参数,可进行动态、灵活调参,优化样本对象,从而,实现结合市场环境的动态变化,保障股票上市之后的股价控制在合理范围内波动。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种基于金融风洞数据的数据分析方法的流程示意图;
图2是本申请提供的一种多模型超融合神经网络模型的架构示意图;
图3是本申请提供的另一种基于金融风洞数据的数据分析方法的流程示意图;
图4是本申请提供的一种电子设备的结构示意图;
图5是本申请提供的一种基于金融风洞数据的数据分析装置500的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的仅仅是本申请一部分,而不是全部的。基于本申请中的,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“”意味着,结合描述的特定特征、结构或特性可以包含在本申请的至少一个中。在说明书中的各个位置出现该短语并不一定均是指相同的,也不是与其它互斥的独立的或备选的。本领域技术人员显式地和隐式地理解的是,本文所描述的可以与其它相结合。
本申请所描述的电子设备可以包括智能手机(如Android手机、iOS手机、WindowsPhone手机等)、平板电脑、掌上电脑、行车记录仪、服务器、笔记本电脑、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备(如智能手表、蓝牙耳机)等,上述仅是举例,而非穷举,包含但不限于上述电子设备,该电子设备也可以为云服务器,或者,该电子设备也可以为计算机集群。
下面对本申请进行详细介绍。
请参阅图1,图1是本申请提供的一种基于金融风洞数据的数据分析方法的流程示意图,如图所示,本基于金融风洞数据的数据分析方法包括:
S101、获取m个样本对象,每一样本对象包括n个指标参数,其中,所述n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,所述显性数据属性指标参数为所述样本对象自身的指标参数;所述隐性数据属性指标参数为所述样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c。
本申请中,样本对象可以包括上市公司或者准上市公司。其中,m个样本对象可以为至少一个区域的上市公司,又例如,m个样本对象可以包括至少一个板块的上市公司,例如,m个样本对象可以包括科创板的上市公司。
其中,每一样本对象包括n个指标参数,n个指标参数可以包括输入指标参数和输出指标参数,例如,输入指标参数包括:a个显性数据属性指标参数、b个隐性数据属性指标参数,输出指标参数包括c个输出指标参数。
其中,金融风洞数据可以理解为金融环境相关的数据,由于市场化价格会受到宏观经济情况、行业发展情况、资本市场状态等市场情绪影响因素的干扰,本申请实施例中,则可以将这部分影响数据处理为金融风洞数据,即本申请实施例中,隐性数据属性指标参数则是金融风洞数据的具体表现。
其中,显性数据属性指标参数也就是具备显性数据属性的指标参数,隐性数据属性指标参数即具备隐性数据属性的指标参数,隐性数据属性也可以称之为隐性风洞属性。具体的,显性数据属性指标参数可以包括样本对象自身的指标参数,即与样本对象自身相关的指标参数,显性数据属性指标参数可以包括以下至少一种:营业收入、净利润、流动比率、财务状况等等,在此不做限定。隐性数据属性指标参数可以包括样本对象的环境条件对应的指标参数,隐性数据属性指标参数可以包括以下至少一种:行业发展情况(包括对标公司发展情况)、宏观经济(包括GDP增速)、政策(国内政策、国际政策)、资本市场状态(如市场情绪因素、汇率变化、期货市场变化)、灾难情况(战争、极端天气情况、地震、疫情等等)等等,在此不做限定。输出指标参数可以包括以下至少一种:首发开盘价、5min价、1h价、收盘价、周价格、月价格、K线图等等,在此不做限定。
具体实现中,可以获取m个样本对象,每一样本对象可以包括n个指标参数,其中,n个指标参数可以包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,显性数据属性指标参数为样本对象自身的指标参数;隐性数据属性指标参数为样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c。每一样本对象的各个指标参数可以整理成相应的矩阵,例如,每个样本对象中的a个显性数据属性指标参数、b个隐性数据属性指标参数可以被整理成相应的输入数据对应的矩阵,而每个样本对象中的c个输出指标参数则可以被整理成相应的输出数据对应的矩阵。
举例说明下,可以从中国经济金融研究数据库(china stock market&accountingresearch database,CSMAR)数据库中提取5019个样本对象,147个参数,其中,显性数据属性87个,隐性数据属性54个、6个输出指标参数。
S102、对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数。
本申请中,可以对m个样本对象进行指标剔除操作,在此基础上再进行样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数,从而,可以去除一些劣质样本对象,可以提升样本对象的质量。
可选的,上述步骤S102,对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数,可以包括如下步骤:
21、确定所述m个样本对象的指标参数i的第一空值率,在所述第一空值率大于第一阈值时,剔除所述指标参数i;在所述第一空值率小于或等于所述第一阈值时,保留所述指标参数i;所述指标参数i为所述n个指标参数中的任一指标参数;
22、在指标剔除操作之后,确定样本对象i中的指标参数的第二空值率,若所述第二空值率小于第二阈值,保留所述样本对象i,若所述第二空值率大于或等于所述第二阈值,剔除所述样本对象i,所述样本对象i为所述m个样本对象中的任一样本对象。
其中,第一阈值、第二阈值均可以预先设置或者***默认。
本申请中,以m个样本对象的指标参数i为例,指标参数i为n个指标参数中的任一指标参数,则可以确定m个样本对象的指标参数i的第一空值率,即统计所有的样本对象中指标参数i的空值率,即指标参数i为0的数量与全部指标参数i的数量之间的比值,进而,在第一空值率大于第一阈值时,则可以剔除指标参数i,在第一空值率小于或等于第一阈值时,保留指标参数i。
进一步的,以样本对象j为例,样本对象i为m个样本对象中的任一样本对象,在指标剔除操作之后,可以确定样本对象j中的指标参数的第二空值率,即确定样本对象j中的指标参数为0的数量与样本对象j中的指标参数的总数量之间的比值,若第二空值率小于第二阈值,则保留样本对象j,若第二空值率大于或等于第二阈值,剔除样本对象j。
举例说明下,以市场换手率(或研发费用等其他指标)为例,20年数据中数据量缺失39%以上,则剔除该指标参数,对于上市公司的其他指标参数,若仍存在空值,则剔除该上市公司。
S103、将所述p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数。
本申请中,可以将p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数,从而,便于后续的运算。
举例说明下,针对非数值型指标(文本型变量等)转化为数值型,具体的,可以采用标签编码Label Encoding,将每个类别映射到整数值,从0开始递增。例如,行业类型是文本性数据(农业、制造业、金融类等等),需要转为数值型,比如:1、2、3、4等等。
S104、将所述p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集。
本申请中,可以将p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集,归一化即将指标参数的取值限定在0~1之间,标准化处理即将指标参数进行聚合,使得指标参数更加收敛,例如,使得其指标参数的均值为0、方差为1。
举例说明下,归一化及标准化处理,主要是为提高模型精度,例如,将某些数据特征进行缩放,通过归一化,将某一列数据特征缩放到0-1之间,再通过标准化,将训练集中某一列数值特征缩放成均值为0,方差为1。
S105、将所述目标数据集划分为训练集和测试集。
本申请中,可以将目标数据集划分为两部分,一部分为训练集,另一部分为测试集。例如,针对数据集划分,可以将数据集按照9:1的方式划分为训练集和测试集。
例如,训练集可以包括P个样本对象中的部分对象的指标参数,测试集包括P个样本对象中的另外部分对象的指标参数。又例如,训练集包括P个样本对象中的全部部分对象的在指定时间段的指标参数,测试集包括P个样本对象中的全部部分对象的在指定时间段之外的时间段的指标参数。
其中,训练集可以包括样本对象的显性数据属性指标参数和隐性数据属性指标参数,当然,训练集还可以包括显性数据属性指标参数、隐性数据属性指标参数和输出指标参数。测试集可以包括样本对象的显性数据属性指标参数和隐性数据属性指标参数,当然,测试集还可以包括显性数据属性指标参数、隐性数据属性指标参数和输出指标参数。
具体实现中,训练集是用来训练模型的,当模型训练到一定程度,需要用测试集去测试这个模型的效果,如果好就可以投入使用,不好就要持续优化。其中,训练集和测试集都要用历史数据去完成,因为未来发生的数据目前拿不到,历史数据就需要分成2部分,一部分用于训练,一部分用于测试。例如,147是指标参数,每个指标参数都有很多年份,例如,20年,那留下最近2年做测试,其他的就可以用作训练。
S106、根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型。
本申请中,具备稳定状态模型参数即多模型超融合神经网络模型达到指定训练条件,指定训练条件可以包括以下至少一种:指定收敛程度、指定训练次数等等,在此不做限定,指定训练条件可以预先设置或者***默认。
其中,第一多模型超融合神经网络模型的输入为显示数据属性指标参数和隐性数据属性指标参数,第一多模型超融合神经网络模型的输出为输出指标数据。
本申请中,在构建多模型超融合神经网络模型方面,采用混合融合方式,设置输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层,多模型处理层可以包括以下至少两个网络模型,例如,可以具体如下:广义回归神经网络(generalizedregression neural network,GRNN)、线性函数(linear)、回归模型(lasso)、岭回归模型(ridge)、逻辑回归模型(regression)、弹性网络(Elastic Net)和高效的梯度提升树算法(Light Gradient Boosting Machine,LGBM)等等,在此不做限定。
进一步的,输入层输入显性数据和隐性数据,经特征抽取层分别抽取显性数据特征和隐性数据特征,在特征融合层融合后形成不等权的双属性特征向量,输入GRNN、linear、lasso、ridge、regression、Elastic Net和LGBM等多个模型并得到相应的输出结果,最后在决策融合层进行结果提纯(即寻找最优解)后输出最终结果。
本申请中,在训练多模型超融合神经网络模型过程中,输入训练集中的显性与隐性风洞属性,即输入相应的显性数据属性指标参数、隐性数据属性指标参数,输出训练集中的首发开盘价、5min价、1h价、收盘价、周价格、月价格,再对多模型超融合神经网络模型进行训练,获取稳定状态模型参数,即第二多模型超融合神经网络模型,模型训练多次迭代后逐渐趋于稳定,得到稳定后的模型参数。
可选的,上述步骤S106,根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型,可以包括如下步骤:
61、利用所述训练集对所述第一多模型超融合神经网络模型进行训练,得到收敛的所述第一多模型超融合神经网络模型;
62、利用所述测试集对所述第一多模型超融合神经网络模型进行调整,得到所述第二多模型超融合神经网络模型。
本申请中,可以利用训练集对第一多模型超融合神经网络模型进行训练,得到收敛的第一多模型超融合神经网络模型,再利用测试集对第一多模型超融合神经网络模型进行调整,得到第二多模型超融合神经网络模型,即可以得到具备稳定状态模型参数的多模型超融合神经网络模型。
进一步的,可选的,所述第一多模型超融合神经网络模型包括:输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层,其中,
所述输入层用于输入所述显性数据属性指标参数和所述隐性数据属性指标参数;
所述特征抽取层用于分别抽取所述显性数据属性指标参数的显性数据特征和所述隐性数据属性指标参数的隐性数据特征;
所述特征融合层用于将所述显性数据特征和所述隐性数据特征融合成不等权的双属性特征向量;
所述多模型处理层用于将所述不等权的双属性特征向量进行运算,得到多个输出结果;
所述决策融合层用于将所述多个输出结果寻找最优解,得到最终结果;所述结果输出层用于输出所述最终结果。
本申请中,第一多模型超融合神经网络模型可以包括:输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层。多模型处理层可以包括以下至少两个网络模型,例如,可以具体如下:GRNN、linear、lasso、ridge、regression、Elastic Net和LGBM等等,在此不做限定。
其中,输入层用于输入显性数据属性指标参数和隐性数据属性指标参数,特征抽取层可以用于分别抽取显性数据属性指标参数的显性数据特征和隐性数据属性指标参数的隐性数据特征,特征融合层可以用于将显性数据特征和隐性数据特征融合成不等权的双属性特征向量,多模型处理层可以用于将不等权的双属性特征向量进行运算,得到多个输出结果,决策融合层用于将所述多个输出结果寻找最优解,得到最终结果,结果输出层用于输出最终结果。
具体实现中,输入层输入显性数据和隐性数据,经特征抽取层分别抽取显性数据特征和隐性数据特征,在特征融合层融合后形成不等权的双属性特征向量,输入GRNN、linear、lasso、ridge、regression、Elastic Net和LGBM等多个模型并得到相应的输出结果,最后在决策融合层进行结果提纯(即寻找最优解)后输出最终结果。
举例说明下,如图2所示,第一多模型超融合神经网络模型可以包括:输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层。输入可以包括:公司1显性及隐性数据、公司2显性及隐性数据、公司3显性及隐性数据、…,利用输入数据整理出显性指标数据,即x1、x2、x3、…、xn,隐性指标数据,即k1、k2、k3、…、km,再在特征抽取层进行特征抽取,可以将x1、x2、x3、…、xn输入到CNN模型,得到显性factor集,可以将k1、k2、k3、…、km输入到CNN模型,得到隐性factor集,特征融合层则将显性factor集和隐性factor集进行特征融合成不等权的双属性特征向量,即Factor1、Factor2、Factor3、…,再将不等权的双属性特征向量输入到多模型处理层,例如,GRNN、linear、lasso、ridge、regression、Elastic Net和LGBM等等,得到多个输出结果,例如,y1、y2、y3、y4、y5、y6、…、yn,再将这些输出结果在决策融合层进行模型选优,得到最优模型结果,结果输出层则输出最优模型结果。
例如,针对公司1显性及隐性数据,通过使得LGBM模型最优,输出该模型结果,又例如,针对公司2显性及隐性数据,通过使得GRNN模型最优,输出该模型结果,又例如,针对公司3显性及隐性数据,通过使得Lasso模型最优,输出该模型结果。
S107、根据所述p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过所述第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据所述x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出所述c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c。
其中,预设阈值可以预先设置或者***默认。
本申请中,可以将p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数输入到第二多模型超融合神经网络模型,从而,得到x个显性数据属性权重和y个隐性风洞属性权重;x、y均为大于1的整数。
接着,再根据x个显性数据属性权重和y个隐性风洞属性权重进行聚合操作,以构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,再识别出c个权重因子中大于预设阈值的权重因子,得到d个权重参数,x、y均为大于1的整数;c、d均为正整数,d小于或等于c。
举例说明下,本申请中,可以根据141个指标生成不等权显性数据因子及隐性风洞数据因子,即利用神经网络参数生成显性数据属性和隐性风洞属性权重,构建显性和隐性双重数据属性的不等权混合因子集,识别出高权重参数。
S108、通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
本申请中,可以通过d个权重参数优化第一样本对象的指标参数中的部分参数或者全部参数,得到目标第一样本对象,目标第一样本对象包括优化后的指标参数。
可选的,上述步骤S108,通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数,可以包括如下步骤:
A81、获取所述第一样本对象的历史显示数据属性指标参数和历史隐性数据属性指标参数的总体样本分布;
A82、根据所述总体样本分布和所述d个权重参数,生成输出变量最优解;
A83、通过所述输出变量最优解对所述第一样本对象的指标参数进行优化,得到优化后的指标参数。
其中,第一样本对象为m个样本对象中的任一样本对象,或者,第一样本对象为除了m个样本对象之外的任一样本对象。
本申请中,可以获取第一样本对象的历史显示数据属性指标参数和历史隐性数据属性指标参数的总体样本分布,再根据总体样本分布,生成输出变量最优解,例如,不同的总体样本分布可以对应不同的输出变量最优解,其中,权重参数则在一定程度上决定了哪些指标参数需要优化,以及相应的优化程度,进而,可以预先建立总体样本分布、d个权重参数与输出变量最优解之间的映射关系,再基于该映射关系确定第一样本对象的历史显示数据属性指标参数和历史隐性数据属性指标参数的总体样本分布、以及d个权重参数对应的输出变量最优解。
最后,可以通过输出变量最优解对第一样本对象的指标参数进行优化,得到优化后的指标参数。具体的,不同的输出变量最优解则对应的需要优化的指标参数不一样,以及需要优化的指标参数的优化幅度也不一样,基于输出变量最优解,则可以对需要优化的指标参数进行动态优化,从而,得到目前环境条件下的理想的指标参数。
举例说明下,比如,通过A公司自身指标以及环境指标输出上市后的价格,同时输出高权重因子(如公司盈利能力因子,该因子涉及公司规模、净利润等具体指标),生成价格最优解,通过优化这些涉及的指标提升上市公司整体状况。例如,准上市公司的话,可以通过本申请中的模型,得到最优的指标参数,从而可以在一定程度上设置好其相应的开盘上市价,合理的上市时间,以尽可能保障股票上市之后的股价控制在合理范围内波动。
可选的,上述步骤S108,通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数,可以包括如下步骤:
B81、获取所述第一样本对象的指标参数;
B82、获取所述m个样本对象的历史指标参数;
B83、将所述第一样本对象的指标参数与所述m个样本对象的历史指标参数进行比对,得到匹配成功的s个对标样本对象,s为正整数;
B83、获取所述s个对标样本对象的样本分布,得到s个样本分布,根据所述s个样本分布获取最优解;
B84、根据所述最优解、所述d个权重参数优化所述第一样本对象的指标参数,得到所述目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
其中,第一样本对象为除了m个样本对象之外的任一样本对象。第一样本对象的指标参数可以包括显性数据属性指标参数和隐性数据属性指标参数。
本申请中,可以获取第一样本对象的指标参数,再获取m个样本对象的历史指标参数,将第一样本对象的指标参数与m个样本对象的历史指标参数进行比对,得到匹配成功的s个对标样本对象,s为正整数,即可以从m个样本对象中选取与第一样本对象类似的对标对象,通过第二多模型超融合神经网络模型获取s个对标样本对象的k线图,通过k线图可以获取s个对标样本对象的样本分布,得到s个样本分布,具体的,可以获取k线图包络线,得到k个包络线,根据k个包络线确定输出指标、第一样本对象的指标参数作为输入,通过第二多模型超融合神经网络模型,可以得到大于预设阈值的权重因子,得到e个权重参数,e为正整数,将e个权重参数作为最优解,根据最优解调节d个权重参数,得到调节后的d个权重参数,具体的,e个权重参数中每一权重参数对应一个维度,确定e个权重参数中与d个权重参数中维度相同的参数,针对维度相同的参数,采用e个权重参数中的参数替代d个权重参数中的参数,e个权重参数中与d个权重参数中维度不相同的参数,则将e个权重参数与对应维度的参数进行加权平均运算,如此,可以得到优化后的第二多模型超融合神经网络模型,再将第一样本对象的指标参数作为输入,输入到优化后的第二多模型超融合神经网络模型,得到输出结果,利用输出结果优化第一样本对象的指标参数,即通过输出结果,不断调整第一样本对象的指标参数,使其达到用户需要的程度,如此,可以基于与待上市公司类似的对标公司,利用对标公司本身的经验优化待上市公司的各项指标,使得待上市公司的各项指标更加清晰化,从而,待上市公司可以通过自身的发展,以满足优化后的待上市公司的各项指标,有助于提升优化待上市公司的竞争力。
其中,可以将k个包络线中最优包络线作为输出指标,或者,用户可以选取k个包络线中的一个包络线作为输出指标,或者,可以将k个包络线进行融合,即合并k个包络线,合并后的包络线作为输出指标。
举例说明下,假设一家新的待上市公司A,将该上市公司的显性数据属性和隐性数据属性与其他历史数据集中的样本对象进行相似性匹配,得到s个对标公司,即就是和待上市公司A最相似的公司。再根据这s个对标公司的样本分布获取最优解,即相同的显性和隐性属性下不同公司能够获得的股价是不同的,获取其包络线,输入公司A的属性,即可得到最优解,得到最优股价后,按照最优的股价目标调整d个权重参数,即可完成优化。
进一步的,第二多模型超融合神经网络模型还可以实现动态自适应模型调整,即可以实时追踪市场动态变化,更新迭代样本对象,同时为节省训练资源消耗,对训练好后的多模型超融合神经网络模型进行边际影响分析和模型参数高效微调,更新多模型超融合神经网络模型以及显性、隐性数据图谱。例如,当前环境会发生变化,上市公司也会不多增加,从而形成新的样本,将这些新样本加入历史样本中后重新训练模型,即可实现模型参数的自动调整。
本申请中,在上市公司经营状况、风险水平、成长潜力的以及资金流向、投资者情绪、行业与宏观经济金融发展情况等海量数据,综合运用深度学习、自然语言处理等人工智能方法,精准预测股票发行价及上市后价格趋势,为拟上市公司、相关券商和投资者的投资与决策提供参考依据。通过高维建模,深度挖掘参数间关系,生成权重,通过模型可调参特性,为上市公司后续经营提供参考依据。
目前,传统方法存在如下缺陷:1、对显性数据属性高度依赖;2、显性数据属性的历史数据存在叠加记忆的缺陷;3、未能深度挖掘数据规律,将不同属性间进行等权分布;4、模型无动态自适应能力,无法实时追踪市场动态变化。为了解决传统方法中的缺陷,本申请中,可以将隐性风洞属性嫁接给显性属性,可以实现价格充分考虑新股自身价值和外在市场环境的动态变化。高维建模,即从海量数据集中高维提取多维数组形成映射标识ID,建立数据以数据属性之间的相关关系。另外,通过多模型超融合神经网络解决传统股票价格预测模型对历史价格数据高度依赖的缺陷。再基于大语言模型,以深度挖掘数据规律,提升新股价格预测精度。同时,模型可调参,即可以根据输出变量最优解,识别出高权重参数,可进行动态、灵活调参,优化样本对象。
举例说明下,如图3所示,本申请中,可以按照如下方式优化多模型超融合神经网络模型,具体如下:
S1:从CSMAR数据库中选取5019个样本对象,147个参数,其中显性数据属性指标参数87个,隐性数据属性指标参数54个、6个输出参数。
S2:缺失值处理:指标剔除:空值率大于40%;样本剔除:存在空缺;
S3:文本型变量转化:针对非数值型指标(例如,文本型变量等)转化为数值型。采用标签编码(Label Encoding),将每个类别映射到整数值,从0开始递增。
S4: 归一化及标准化处理。通过归一化,将某一列数据特征缩放到0-1之间;通过标准化,例如,将训练集中某一列数值特征缩放成均值为0且方差为1。
S5:数据集划分:训练集和测试集,例如,将数据集按照9:1的方式划分为训练集和测试集。
S6:构建多模型超融合神经网络:采用混合融合方式,设置输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层,输入层输入显性数据和隐性数据,经特征抽取层分别抽取显性数据特征和隐性数据特征,在特征融合层融合后形成不等权的双属性特征向量,输入GRNN、linear、lasso、ridge、regression、Elastic Net和LGBM等多个模型并得到相应的输出结果,最后在决策融合层进行结果提纯(寻找最优解)后输出最终结果。
S7:训练多模型超融合神经网络模型。输入S5中训练集的显性与隐性风洞属性,输出训练集中的首发开盘价、5min价、1h价、收盘价、周价格、月价格,对多模型超融合神经网络模型进行训练,获取稳定状态模型参数。
S8:根据141个指标生成不等权显性数据因子及隐性数据因子(隐性风洞数据因子):利用神经网络参数生成显性数据属性和隐性风洞属性权重,构建显性和隐性双重数据属性的不等权混合因子集,识别出高权重参数。
S9:优化样本对象,即样本对象数据优化:跟踪当前显性数据属性和隐性风洞属性动态变化,结合历史显性数据属性和隐性数据属性总体样本分布,生成输出变量最优解,对S8识别出的高权重参数进行参数偏量求解并动态、灵活调参,优化样本对象。
S10:动态自适应模型调整,即可调参:实时追踪市场动态变化,更新迭代样本对象,同时为节省训练资源消耗,对训练好后的多模型超融合神经网络模型进行边际影响分析和模型参数高效微调,更新多模型超融合神经网络模型以及显性、隐性数据图谱。
具体实现中,将多模型超融合神经网络得到的各个显性数据因子、隐性数据因子进行聚合以生成不等权因子,再利用不等权因子优化样本对象,即确定不等权因子中的高权重因子,再通过高权重因子实现样本对象数据优化。
其中,针对显性数据因子,假如参数1、参数2、参数3、参数4聚合成显性数据因子factor1;参数5、参数6聚合成显性数据因子factor2。针对隐性数据因子,假如参数A、参数B、参数C、参数D聚合成隐性数据因子factor4;参数E、参数F聚合成隐性数据因子factor5。进一步,还可以选择出高权重因子,即Factor1、Factor2、…。
本申请中,比如,通过A公司自身指标以及环境指标输出上市后的价格,同时输出高权重因子,如:公司盈利能力因子,该因子涉及公司规模、净利润等具体指标等等,生成价格最优解,通过优化这些涉及的指标提升上市公司整体状况。
另外,本申请中,当前环境会发生变化,上市公司也会不断增加,从而形成新的样本,将这些新样本加入历史样本中后重新训练模型,即可实现模型参数的自动调整。
可以看出,本申请中所描述的基于金融风洞数据的数据分析方法,获取m个样本对象,每一样本对象包括n个指标参数,其中,n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,显性数据属性指标参数为样本对象自身的指标参数;隐性数据属性指标参数为样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c,对m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数,将p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数,将p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集,将目标数据集划分为训练集和测试集,根据训练集和测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型,根据p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c,通过d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,目标第一样本对象包括优化后指标参数,将隐性风洞属性嫁接给显性属性,可以实现价格充分考虑新股自身价值和外在市场环境的动态变化,还可以根据输出变量最优解,识别出高权重参数,可进行动态、灵活调参,优化样本对象,从而,实现结合市场环境的动态变化,保障股票上市之后的股价控制在合理范围内波动。
与上述一致地,请参阅图4,图4是本申请提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,本申请中,上述程序包括用于执行以下步骤的指令:
获取m个样本对象,每一样本对象包括n个指标参数,其中,所述n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,所述显性数据属性指标参数为所述样本对象自身的指标参数;所述隐性数据属性指标参数为所述样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c;
对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数;
将所述p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数;
将所述p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集;
将所述目标数据集划分为训练集和测试集;
根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型;
根据所述p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过所述第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据所述x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出所述c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c;
通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
可选的,在所述对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数方面,上述程序包括用于执行以下步骤的指令:
确定所述m个样本对象的指标参数i的第一空值率,在所述第一空值率大于第一阈值时,剔除所述指标参数i;在所述第一空值率小于或等于所述第一阈值时,保留所述指标参数i;所述指标参数i为所述n个指标参数中的任一指标参数;
在指标剔除操作之后,确定样本对象j中的指标参数的第二空值率,若所述第二空值率小于第二阈值,保留所述样本对象j,若所述第二空值率大于或等于所述第二阈值,剔除所述样本对象j,所述样本对象j为所述m个样本对象中的任一样本对象。
可选的,在所述根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型方面,上述程序包括用于执行以下步骤的指令:
利用所述训练集对所述第一多模型超融合神经网络模型进行训练,得到收敛的所述第一多模型超融合神经网络模型;
利用所述测试集对所述第一多模型超融合神经网络模型进行调整,得到所述第二多模型超融合神经网络模型。
可选的,所述第一多模型超融合神经网络模型包括:输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层,其中,
所述输入层用于输入所述显性数据属性指标参数和所述隐性数据属性指标参数;
所述特征抽取层用于分别抽取所述显性数据属性指标参数的显性数据特征和所述隐性数据属性指标参数的隐性数据特征;
所述特征融合层用于将所述显性数据特征和所述隐性数据特征融合成不等权的双属性特征向量;
所述多模型处理层用于将所述不等权的双属性特征向量进行运算,得到多个输出结果;
所述决策融合层用于将所述多个输出结果寻找最优解,得到最终结果;
所述结果输出层用于输出所述最终结果。
可选的,在所述通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数方面,上述程序包括用于执行以下步骤的指令:
获取所述第一样本对象的历史显示数据属性指标参数和历史隐性数据属性指标参数的总体样本分布;
根据所述总体样本分布和所述d个权重参数,生成输出变量最优解;
通过所述输出变量最优解对所述第一样本对象的指标参数进行优化,得到优化后的指标参数。
图5是本申请中所涉及的基于金融风洞数据的数据分析装置500的功能单元组成框图。该基于金融风洞数据的数据分析装置500包括:获取单元501、数据处理单元502和模型优化单元503,其中,
所述获取单元501,用于获取m个样本对象,每一样本对象包括n个指标参数,其中,所述n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,所述显性数据属性指标参数为所述样本对象自身的指标参数;所述隐性数据属性指标参数为所述样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c;
所述数据处理单元502,用于对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数;将所述p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数;将所述p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集;
所述模型优化单元503,用于将所述目标数据集划分为训练集和测试集;根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型;根据所述p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过所述第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据所述x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出所述c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c;通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
可选的,在所述对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数方面,所述数据处理单元502具体用于:
确定所述m个样本对象的指标参数i的第一空值率,在所述第一空值率大于第一阈值时,剔除所述指标参数i;在所述第一空值率小于或等于所述第一阈值时,保留所述指标参数i;所述指标参数i为所述n个指标参数中的任一指标参数;
在指标剔除操作之后,确定样本对象j中的指标参数的第二空值率,若所述第二空值率小于第二阈值,保留所述样本对象j,若所述第二空值率大于或等于所述第二阈值,剔除所述样本对象j,所述样本对象j为所述m个样本对象中的任一样本对象。
可选的,在所述根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型方面,所述模型优化单元503具体用于:
利用所述训练集对所述第一多模型超融合神经网络模型进行训练,得到收敛的所述第一多模型超融合神经网络模型;
利用所述测试集对所述第一多模型超融合神经网络模型进行调整,得到所述第二多模型超融合神经网络模型。
可选的,所述第一多模型超融合神经网络模型包括:输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层,其中,
所述输入层用于输入所述显性数据属性指标参数和所述隐性数据属性指标参数;
所述特征抽取层用于分别抽取所述显性数据属性指标参数的显性数据特征和所述隐性数据属性指标参数的隐性数据特征;
所述特征融合层用于将所述显性数据特征和所述隐性数据特征融合成不等权的双属性特征向量;
所述多模型处理层用于将所述不等权的双属性特征向量进行运算,得到多个输出结果;
所述决策融合层用于将所述多个输出结果寻找最优解,得到最终结果;
所述结果输出层用于输出所述最终结果。
可选的,在所述通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数方面,所述模型优化单元503具体用于:
获取所述第一样本对象的历史显示数据属性指标参数和历史隐性数据属性指标参数的总体样本分布;
根据所述总体样本分布和所述d个权重参数,生成输出变量最优解;
通过所述输出变量最优解对所述第一样本对象的指标参数进行优化,得到优化后的指标参数。
可以理解的是,本的基于金融风洞数据的数据分析装置500的各程序模块的功能可根据上述方法中的方法具体实现,其具体实现过程可以参照上述方法的相关描述,此处不再赘述。
本申请还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的均属于优选,所涉及的动作和模块并不一定是本申请所必须的。
在上述中,对各个的描述都各有侧重,某个中没有详述的部分,可以参见其他的相关描述。
在本申请所提供的几个中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本方案的目的。
另外,在本申请各个中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:RandomAccess Memory,简称:RAM)、磁盘或光盘等。
以上对本申请进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于金融风洞数据的数据分析方法,其特征在于,所述方法包括:
获取m个样本对象,每一样本对象包括n个指标参数,其中,所述n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,所述显性数据属性指标参数为所述样本对象自身的指标参数;所述隐性数据属性指标参数为所述样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c;
对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数;
将所述p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数;
将所述p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集;
将所述目标数据集划分为训练集和测试集;
根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型;
根据所述p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过所述第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据所述x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出所述c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c;
通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
2.根据权利要求1所述的方法,其特征在于,所述对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数,包括:
确定所述m个样本对象的指标参数i的第一空值率,在所述第一空值率大于第一阈值时,剔除所述指标参数i;在所述第一空值率小于或等于所述第一阈值时,保留所述指标参数i;所述指标参数i为所述n个指标参数中的任一指标参数;
在指标剔除操作之后,确定样本对象j中的指标参数的第二空值率,若所述第二空值率小于第二阈值,保留所述样本对象j,若所述第二空值率大于或等于所述第二阈值,剔除所述样本对象j,所述样本对象j为所述m个样本对象中的任一样本对象。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型,包括:
利用所述训练集对所述第一多模型超融合神经网络模型进行训练,得到收敛的所述第一多模型超融合神经网络模型;
利用所述测试集对所述第一多模型超融合神经网络模型进行调整,得到所述第二多模型超融合神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述第一多模型超融合神经网络模型包括:输入层、特征抽取层、特征融合层、多模型处理层、决策融合层和结果输出层,其中,
所述输入层用于输入所述显性数据属性指标参数和所述隐性数据属性指标参数;
所述特征抽取层用于分别抽取所述显性数据属性指标参数的显性数据特征和所述隐性数据属性指标参数的隐性数据特征;
所述特征融合层用于将所述显性数据特征和所述隐性数据特征融合成不等权的双属性特征向量;
所述多模型处理层用于将所述不等权的双属性特征向量进行运算,得到多个输出结果;
所述决策融合层用于将所述多个输出结果寻找最优解,得到最终结果;
所述结果输出层用于输出所述最终结果。
5.根据权利要求1或2所述的方法,其特征在于,所述通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数,包括:
获取所述第一样本对象的历史显示数据属性指标参数和历史隐性数据属性指标参数的总体样本分布;
根据所述总体样本分布和所述d个权重参数,生成输出变量最优解;
通过所述输出变量最优解对所述第一样本对象的指标参数进行优化,得到优化后的指标参数。
6.一种基于金融风洞数据的数据分析装置,其特征在于,所述装置包括:获取单元、数据处理单元和模型优化单元,其中,
所述获取单元,用于获取m个样本对象,每一样本对象包括n个指标参数,其中,所述n个指标参数包括a个显性数据属性指标参数、b个隐性数据属性指标参数和c个输出指标参数,所述显性数据属性指标参数为所述样本对象自身的指标参数;所述隐性数据属性指标参数为所述样本对象的环境条件对应的指标参数;m、n、a、b、c均为大于1的整数,且n=a+b+c;
所述数据处理单元,用于对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数;p为小于或等于m的正整数;将所述p个样本对象对应的指标参数中非数值型的指标参数转化为数值型的指标参数;将所述p个样本对象对应的指标参数归一化以及标准化处理,得到目标数据集;
所述模型优化单元,用于将所述目标数据集划分为训练集和测试集;根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型;根据所述p个样本对象中的每一样本对象的显性数据属性指标参数和隐性数据属性指标参数通过所述第二多模型超融合神经网络模型生成x个显性数据属性权重和y个隐性风洞属性权重;根据所述x个显性数据属性权重和y个隐性风洞属性权重构建显性和隐性双重属性的不等权混合因子集,得到c个权重因子,识别出所述c个权重因子中大于预设阈值的权重因子,得到d个权重参数;x、y均为大于1的整数;c、d均为正整数,d小于或等于c;通过所述d个权重参数优化第一样本对象的指标参数,得到目标第一样本对象,所述目标第一样本对象包括优化后指标参数。
7.根据权利要求6所述的装置,其特征在于,在所述对所述m个样本对象进行指标剔除操作以及样本剔除操作,得到p个样本对象以及每一样本对象对应的指标参数方面,所述数据处理单元具体用于:
确定所述m个样本对象的指标参数i的第一空值率,在所述第一空值率大于第一阈值时,剔除所述指标参数i;在所述第一空值率小于或等于所述第一阈值时,保留所述指标参数i;所述指标参数i为所述n个指标参数中的任一指标参数;
在指标剔除操作之后,确定样本对象j中的指标参数的第二空值率,若所述第二空值率小于第二阈值,保留所述样本对象j,若所述第二空值率大于或等于所述第二阈值,剔除所述样本对象j,所述样本对象j为所述m个样本对象中的任一样本对象。
8.根据权利要求6或7所述的装置,其特征在于,在所述根据所述训练集和所述测试集对第一多模型超融合神经网络模型进行调整,得到具备稳定状态模型参数的第二多模型超融合神经网络模型方面,所述模型优化单元具体用于:
利用所述训练集对所述第一多模型超融合神经网络模型进行训练,得到收敛的所述第一多模型超融合神经网络模型;
利用所述测试集对所述第一多模型超融合神经网络模型进行调整,得到所述第二多模型超融合神经网络模型。
9.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311589116.9A CN117314643A (zh) | 2023-11-27 | 2023-11-27 | 基于金融风洞数据的数据分析方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311589116.9A CN117314643A (zh) | 2023-11-27 | 2023-11-27 | 基于金融风洞数据的数据分析方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117314643A true CN117314643A (zh) | 2023-12-29 |
Family
ID=89255530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311589116.9A Pending CN117314643A (zh) | 2023-11-27 | 2023-11-27 | 基于金融风洞数据的数据分析方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117314643A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117764631A (zh) * | 2024-02-22 | 2024-03-26 | 山东中翰软件有限公司 | 基于源端静态数据建模的数据治理优化方法及*** |
-
2023
- 2023-11-27 CN CN202311589116.9A patent/CN117314643A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117764631A (zh) * | 2024-02-22 | 2024-03-26 | 山东中翰软件有限公司 | 基于源端静态数据建模的数据治理优化方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vargas et al. | Deep leaming for stock market prediction using technical indicators and financial news articles | |
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN111832647A (zh) | 异常流量检测***及方法 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及*** | |
CN110399238B (zh) | 一种磁盘故障预警方法、装置、设备及可读存储介质 | |
CN111626785A (zh) | 一种基于结合注意力的cnn-lstm网络基金价格预测方法 | |
CN117314643A (zh) | 基于金融风洞数据的数据分析方法、装置及存储介质 | |
CN110309508A (zh) | 一种基于投资者情绪的vwap量化交易***及方法 | |
CN109063983B (zh) | 一种基于社交媒体数据的自然灾害损失实时评估方法 | |
CN117455417B (zh) | 一种智能风控审批策略自动迭代优化方法及*** | |
CN113705715B (zh) | 一种基于lstm和多尺度fcn的时间序列分类方法 | |
Li et al. | Stock price prediction based on generative adversarial network | |
Xue et al. | Research and prediction of Shanghai-Shenzhen 20 index based on the support vector machine model and gradient boosting regression tree | |
Kašćelan et al. | Hybrid support vector machine rule extraction method for discovering the preferences of stock market investors: Evidence from Montenegro | |
CN117076672A (zh) | 文本分类模型的训练方法、文本分类方法及装置 | |
WO2023071129A1 (zh) | 绿色资产的占比的识别方法及相关产品 | |
Mao et al. | Information system construction and research on preference of model by multi-class decision tree regression | |
Zhuang et al. | Research on quantitative stock selection strategy based on CNN-LSTM | |
CN114118779A (zh) | 一种基于kgann的面向互联网舆情事件的企业风险识别方法 | |
Zhang et al. | Improving Stock Price Forecasting Using a Large Volume of News Headline Text. | |
CN106485363A (zh) | 一种股票日内价格趋势的量化及预测方法 | |
CN112364662A (zh) | 一种基于神经网络的意图识别方法及电子装置 | |
Patil et al. | Cluster Driven Candlestick Method for Stock Market Prediction | |
AU2021104628A4 (en) | A novel machine learning technique for classification using deviation parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |