CN116737727B - 基于树结构的股票交易数据列式存储方法及服务器 - Google Patents

基于树结构的股票交易数据列式存储方法及服务器 Download PDF

Info

Publication number
CN116737727B
CN116737727B CN202311022942.5A CN202311022942A CN116737727B CN 116737727 B CN116737727 B CN 116737727B CN 202311022942 A CN202311022942 A CN 202311022942A CN 116737727 B CN116737727 B CN 116737727B
Authority
CN
China
Prior art keywords
data
stock
node
target
subdivision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311022942.5A
Other languages
English (en)
Other versions
CN116737727A (zh
Inventor
金基东
汤汝军
顾金国
易朝霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kafang Information Technology Co ltd
Original Assignee
Hangzhou Chi Squared Distribution Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chi Squared Distribution Information Technology Co ltd filed Critical Hangzhou Chi Squared Distribution Information Technology Co ltd
Priority to CN202311022942.5A priority Critical patent/CN116737727B/zh
Publication of CN116737727A publication Critical patent/CN116737727A/zh
Application granted granted Critical
Publication of CN116737727B publication Critical patent/CN116737727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据存储技术领域,本发明公开了基于树结构的股票交易数据列式存储方法及服务器,采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应细分领域的目标树结构,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内。

Description

基于树结构的股票交易数据列式存储方法及服务器
技术领域
本发明涉及数据存储技术领域,更具体地说,本发明涉及基于树结构的股票交易数据列式存储方法及服务器。
背景技术
互联网的高速发展使得电子管理***在各行各业都有了广泛且重要的应用,具有速度快、成本低和突破场地限制等优势的电子化交易方式,极大地满***易量的增长需求,而为了让使用者及时掌握股票市场行情,对交易***的股票交易数据的存储性能提出了很高的要求;
如专利公开号为CN113781220A的中国专利公开了一种分布式股票交易撮合***及方法,通过用户的日常行为日志获取用户感兴趣的股票,利用股票K线图预测用户感兴趣股票的日内收益率,日内收益率与用户感兴趣的股票进行撮合匹配,提高用户购买股票的需求,增加股票的交易率;
其中撮合匹配的基础是需要一个完善的股票交易数据的存储***,但是现有的存储***还存在以下问题;
1、无法有效地组织和存储大规模的股票交易数据,导致存储空间的浪费和存储效率的低下。
2、股票交易数据庞大且复杂,当前主要通过传统的数据分析方法,难以提取出其中的关键模式和趋势,无法实现精简功能,使用者在数据查询和检索时,效率较低,带来极大的不便。而且大规模的股票交易数据需要大量的存储空间,对数据库存储要求高。
鉴于此,本发明提供基于树结构的股票交易数据列式存储方法。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供基于树结构的股票交易数据列式存储方法及服务器。
根据本发明的一个方面,提供了基于树结构的股票交易数据列式存储方法,包括以下步骤:
S1:采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应储存节点上;
S2:对每个细分领域的第一目标数据构建目标树结构,第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据;所述股票节点数据包括节点位置信息、节点数据信息和备份节点数据信息;
S3:将所述股票节点数据根据时间戳对应的时间序列模式生成股票序列数据;统计所有股票序列数据的股票支持度和股票共现度,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;
S4:对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内。
在一个优选的实施方式中,所述第一目标数据对应的细分领域的具体分析过程如下:
对原始股票交易数据进行数据预处理,获得第一目标数据;数据预处理包括但不限于以下处理方式中的一种或多种:过滤错误数据、过滤重复数据和归一化处理数据;
将基于第一目标数据提取细分领域特征,将细分领域特征转化为模糊领域变量;
模糊领域变量通过隶属函数计算出股票交易数据所在细分领域的隶属程度,通过隶属程度进行划分获得模糊领域变量对应的模糊数值区间;
基于细分领域特征映射的模糊数值区间表征股票交易数据的细分领域。
在一个优选的实施方式中,获取所述细分领域特征包括:
采用预设的特征提取网络模型提取所述第一目标数据对应细分领域的关联领域特征;
对所述关联领域特征和所述第一目标数据通过交叉验证模型获得细分领域特征。
在一个优选的实施方式中,所述备份节点数据信息为对应节点数据信息的备份。
在一个优选的实施方式中,根节点的节点位置信息为根节点的位置数,所述根节点下细分的第一目标数据为子节点,所述子节点的节点位置信息为当前节点的父节点的位置数和节点本身的位置数组成,节点的位置数表示其在同层节点中位置的表示符号。
在一个优选的实施方式中,在所述频繁正序列模式集中进行时间序列模式的挖掘,得到股票时间正序列模式集包括:
统计时间序列模式的股票支持度和股票共现度,其中,所述票支持度用于表示所述时间序列模式在所有股票序列数据出现的总次数,所述共现度用于表示所述时间序列模式在多少个股票序列数据中出现过,所述时间序列模式表示发生第一时间节点之后发生第二时间节点,所述第一时间节点和所述第二时间节点为所述频繁正序列模式集中的任意两个时间节点;
任意两个时间节点对应的股票支持度大于预设的股票支持度阈值,且所述股票共现度大于预设的股票共现度阈值的情况下,将对应的股票序列数据作为所述股票时间正序列模式集中的元素。
在一个优选的实施方式中,所述精简股票节点数据的获取逻辑为:
股票时间正序列模式集中的股票节点数据按照预设的节点数据项进行数据分组,利用哈希算法和各个股票节点数据的权重值计算所述股票节点数据对应的加权哈希值;
相互比较所有的股票节点数据对应的加权哈希值,将哈希值之间的海明距离小于预设的海明阈值的两个股票节点数据归并到同一项相似股票数据集中;
将同一项相似股票数据集合并为一个新的股票节点数据,将新的股票节点数据标记为精简股票节点数据;并更新股票节点数据的节点位置信息;将精简股票节点数据存储在更新的节点位置信息上。
在一个优选的实施方式中,更新股票节点数据的节点位置信息包括:
获取同一项相似股票数据集中的节点数据信息对应的节点位置信息;
基于所述节点位置信息获得当前节点距离根节点的距离;当前节点距离根节点的距离为第一距离和第二距离之和;所述第一距离为当前节点的父节点到根节点的距离;所述第二距离为当前节点位置数与父节点下节点位置总数的比值;
相互比较所有的节点位置信息;将节点距离根节点距离最小的节点位置信息为更新的节点位置信息。
在一个优选的实施方式中,所述股票节点数据的权重值的获取逻辑为:
所述权重值包括固定权重值与波动权重值,所述固定权重值为对应股票节点数据到根节点距离的倒数,所述波动权重值为数据变动幅度最大值与预设的幅度阈值的差值;所述波动权重值根据以下任意一种方法确定:
当所述股票节点数据的数据变动幅度大于或等于预设的幅度阈值时,则增大节点数据信息对应的权重值;
当所述股票节点数据的数据变动幅度小于预设的幅度阈值时,则减小节点数据信息对应的权重值。
根据本发明的另一个方面,提供了一种股票交易数据存储服务器,包括:
数据采集模块,采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应储存节点上;
树结构构建模块,对每个细分领域的第一目标数据构建目标树结构,第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据;所述股票节点数据包括节点位置信息、节点数据信息和备份节点数据信息;
精简序列生成模块,将所述股票节点数据根据时间戳对应的时间序列模式生成股票序列数据;统计所有股票序列数据的股票支持度和股票共现度,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;
数据存储模块,对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内。
根据本发明的又一个方面,提供了一种电子设备,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
所述处理器通过调用所述存储器中存储的计算机程序,执行上述基于树结构的股票交易数据列式存储方法。
根据本发明的再一个方面,提供了一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行上述基于树结构的股票交易数据列式存储方法。
本发明基于树结构的股票交易数据列式存储方法的技术效果和优点:
本发明通过树结构的存储方式能够有效地组织和存储大量的股票交易数据,通过将数据按照细分领域和节点位置信息进行存储,可以快速定位和检索特定的股票节点数据,提高数据的存储效率;通过统计股票序列数据的股票支持度和共现度,可以挖掘出频繁正序列模式,用以揭示股票交易中的重要趋势和模式,对于制定投资策略和预测市场走势具有重要意义;还能够捕捉股票交易中的时间相关性,帮助分析师和投资者发现重要的时间序列模式,并用于市场预测和决策制定,最后通过哈希操作和数据合并,可以将原始的股票节点数据精简化。这种精简可以减少存储空间的占用,并降低存储成本;从而可以提高股票交易数据的存储效率和数据挖掘能力,从而为股票分析和决策提供更有效的支持。
附图说明
图1为本发明的一种股票交易数据存储服务器;
图2为本发明的基于树结构的股票交易数据列式存储方法示意图;
图3为本发明的目标树结构示意图;
图4为本发明的一种电子设备结构示意图;
图5为本发明的一种计算机可读存储介质结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1所示,本实施例为一种股票交易数据存储服务器,包括:数据采集模块1、树结构构建模块2、精简序列生成模块3和数据存储模块4,上述各个模块通过有线和/或无线连接的方式连接,实现各个模块间的数据传输;
数据采集模块1,采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应储存节点上;
这里需要说明的是:首先股票交易数据包括股票交易所的数据源、金融数据提供商或第三方API;从多个方向获取多个股票交易数据,这在一定程度上可以完善我们获取数据的准确性和完整性;存在的缺陷是会有大量的相同的数据重叠,这在后续需要对原始股票交易数据进行预处理,获得比较准确和统一的第一目标数据。
基于模糊函数分析第一目标数据的细分领域,细分领域的方式包括但不限于以下方式中的一种或多种:行业、市场、证券类型(如股票、期权、期货等)或其他自定义分类标准进行细分分类,根据不同的细分领域将每笔股票交易数据存储在对应的储存节点上。确保在存储过程中保留时间戳信息,以便后续分析或查询和添加时间戳信息;方便后续定期更新和维护股票交易数据。
所述第一目标数据对应的细分领域的具体分析过程如下:
对原始股票交易数据进行数据预处理,获得第一目标数据;数据预处理包括但不限于以下处理方式中的一种或多种:过滤错误数据、过滤重复数据和归一化处理数据;
将基于第一目标数据提取细分领域特征,将细分领域特征转化为模糊领域变量;
模糊领域变量通过隶属函数计算出股票交易数据所在细分领域的隶属程度,通过隶属程度进行划分获得模糊领域变量对应的模糊数值区间;
基于细分领域特征映射的模糊数值区间表征股票交易数据的细分领域。
这里需要说明的是:首先对收集到的原始股票交易数据进行预处理,以确保数据的准确性和一致性。
预处理方式包括:
过滤错误数据:识别并排除那些存在错误或异常值的数据点,例如价格为负数或交易量异常高的数据。
过滤重复数据:检测并删除重复的交易数据,以避免对分析结果产生重复的影响。
归一化处理数据:对数据进行归一化处理,将不同尺度的数据统一到一个特定的范围内,以消除因数据差异而引起的偏差。
根据预处理后的股票交易数据提取出与所选细分领域相关的特征,具体的特征提取方法取决于所选择的细分领域。具体示例性:对于市场指数数据的细分领域,可能提取每日指数值;对于个股数据的细分领域,可能提取股票的价格、交易量等特征;对于以行业领域的细分领域,可能提取电子、农业、生物、化学和餐饮等特征领域,具体根据当前服务器对细分领域的定义以及类别进行分类。
将细分领域特征转化为模糊领域变量,并计算其在不同细分领域中的隶属程度,模糊领域变量是通过定义隶属函数来量化细分领域特征与细分领域之间的关系。隶属函数可以是高斯函数、三角函数或其他适合的函数形式。
可以建立一个映射表,将细分领域特征与模糊数值区间进行对应,以便后续的分析和决策过程中可以参考这些区间的含义,具体细分领域的选择、定义和实际应用场景,可根据实际的细分领域具体情况和需求进行调整和扩展。
获取所述细分领域特征包括:
采用预设的特征提取网络模型提取所述第一目标数据对应细分领域的关联领域特征;
对所述关联领域特征和所述第一目标数据通过交叉验证模型获得细分领域特征。
这里需要说明的是:使用预先训练好的特征提取网络模型,该模型在细分领域相关的领域中进行了训练。通过将第一目标数据输入到特征提取网络模型中,可以提取细分领域的关联领域特征。
将上述获得的细分领域的关联领域特征与第一目标数据通过交叉验证模型进行训练和评估。交叉验证是一种将数据划分为训练集和验证集,并进行多次训练和验证的技术。通过交叉验证,可以评估关联领域特征在对应细分领域中的效果,从中选择对第一目标数据具有良好性能的特征。
树结构构建模块2,对每个细分领域的第一目标数据构建目标树结构,所述目标树结构包括一个根节点和至少一组子节点;其中,第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据;所述股票节点数据包括节点位置信息、节点数据信息和多个备份节点数据信息。
这里需要说明的是:在本实施例中首先构建目标树结构,目标树结构可以是一棵多叉树,其中包含一个根节点和多组子节点,所述根节点为存储节点,且根节点为初始父节点;根节点表示对应细分领域中的所有第一目标数据;子节点为父节点下细分的第一目标数据;
其中,根节点的节点位置信息为根节点的位置数,所述子节点的节点位置信息为其父节点的位置数和节点本身的位置数组成,节点的位置数表示其在同层节点中位置的表示符号,当前节点距离对应的父节点的长度标记为当前节点的步长。
进一步地,所述备份节点数据信息为对应节点数据信息的备份;这里将备份节点数据信息存储在对应节点位置信息上的目的在于:当对应节点位置信息上的节点数据信息缺失或无效时,直接提取对应节点的备份节点数据信息,若提取的备份节点数据信息缺失或无效时,在提取下一个备份节点数据信息,从备份节点数据信息中备份缺失的历史数据;若多个备份节点数据信息都存在确实或无效时,大概率是服务器被攻击,需要对服务器进行维护。
精简序列生成模块3,将所述股票节点数据根据时间戳对应的时间序列模式生成股票序列数据;统计所有股票序列数据的股票支持度和股票共现度,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;
这里需要说明的是:根据每个股票节点的时间戳,将其映射到对应的时间序列模式,创建股票序列数据。确保每个时间戳对应的时间序列模式是正确的,以便后续分析;遍历所有股票序列数据,统计每个股票的支持度(即在序列中出现的频率)和股票之间的共现度(即在同一个序列中同时出现的频率);
基于股票支持度和股票共现度,可以使用关联规则挖掘的方法来获取频繁正序列模式集。挖掘的方法如Apriori算法或FP-growth算法,在股票序列数据中发现频繁正序列模式。这些模式是经常出现且有意义的序列;从频繁正序列模式集中进行进一步的挖掘,以获取更精简的股票序列模式集。可以使用一些数据挖掘和机器学习技术,如序列模式挖掘、聚类分析或关联规则挖掘等方法,以找到更有用和有价值的股票序列模式。
在所述频繁正序列模式集中进行时间序列模式的挖掘,得到股票时间正序列模式集包括:
统计时间序列模式的股票支持度和股票共现度,其中,所述票支持度用于表示所述时间序列模式在所有股票序列数据出现的总次数,所述共现度用于表示所述时间序列模式在多少个股票序列数据中出现过,所述时间序列模式表示发生第一时间节点之后发生第二时间节点,所述第一时间节点和所述第二时间节点为所述频繁正序列模式集中的任意两个时间节点;
任意两个时间节点对应的股票支持度大于预设的股票支持度阈值,且所述股票共现度大于预设的股票共现度阈值的情况下,将对应的股票序列数据作为所述股票时间正序列模式集中的元素。
这里需要说明的是:通过上述方式可以得到股票时间正序列模式集,其中每个元素都满足预设的股票支持度阈值和股票共现度阈值条件,以确保时间序列模式的重要性和共现性。其中股票支持度阈值和股票共现度阈值选择主要通过专业人士分析可得,对于不同细分领域对应的股票序列数据的差异性,股票支持度阈值和股票共现度阈值也随之进行调整。
数据存储模块4,对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内。
这里需要说明的是:对于股票时间正序列模式集中的每个股票节点数据,使用哈希函数对其进行哈希操作。哈希函数将节点数据映射到一个唯一的哈希值,以便后续的数据合并和存储。
哈希操作可以采用常用的哈希函数,例如MD5、SHA-1或SHA-256等。确保选择的哈希函数具有良好的散列性,以最大程度地减少哈希冲突。
将哈希后的股票节点数据进行合并;具体实际需求和目标树结构的设计,选择不同的合并策略,例如简单的相邻节点合并、基于节点属性的合并规则或基于时间窗口的合并等,以便后续的数据分析和查询操作。
所述精简股票节点数据的获取逻辑为:
股票时间正序列模式集中的股票节点数据按照预设的节点数据项进行数据分组,利用哈希算法和各个股票节点数据的权重值计算所述股票节点数据对应的加权哈希值;
相互比较所有的股票节点数据对应的加权哈希值,将哈希值之间的海明距离小于预设的海明阈值的两个股票节点数据归并到同一项相似股票数据集中;
将同一项相似股票数据集合并为一个新的股票节点数据,将新的股票节点数据标记为精简股票节点数据;并更新股票节点数据的节点位置信息;将精简股票节点数据存储在更新的节点位置信息上。
这里需要说明的是:预设的节点数据项进行数据分组和加权哈希值计算,然后根据海明距离和海明阈值进行相似股票数据集的归并,并最终获取精简的股票节点数据并存储在更新后的节点位置信息上。
另外储存在目标树结构上的股票节点数据的字符串长度是一致的,因此使用海明距离计算股票节点数据之间的差异程度,可以将两个股票节点数据的等长字符串逐位比较,统计它们在相同位置上的异位数,异位数为不相等的位数;或者对股票节点数据进行异或操作,得到一个新的二进制字符串,统计新的二进制字符串中 1 的个数,这也可以表达为海明距离。
更新股票节点数据的节点位置信息包括:
获取同一项相似股票数据集中的节点数据信息对应的节点位置信息;
基于所述节点位置信息获得当前节点距离根节点的距离;当前节点距离根节点的距离为第一距离和第二距离之和;所述第一距离为当前节点的父节点到根节点的距离;所述第二距离为当前节点位置数与父节点下节点位置总数的比值;
相互比较所有的节点位置信息;将节点距离根节点距离最小的节点位置信息为更新的节点位置信息。
这里需要举例说明:根节点为存储节点,起到目录节点的作用,将其标记为,根节点对应的子节点标记为/>,/>为根节点对应的子节点中的第/>个节点,/>,,且/>表示为根节点对应子节点位置总数;股票节点数据标记为/>,则当前股票节点数据对应的父节点为/>下的子节点中的第/>个节点;/>,/>,且/>表示为当前股票节点数据所在父节点下的子节点位置总数;因此当前股票节点数据到父节点的距离为第二距离/>,由公式计算可得,/>;依次类推,获得当前股票节点数据到根节点的距离,将距离根节点距离最近的节点设置为更新的节点位置信息。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数以及阈值选取由本领域的技术人员根据实际情况进行设置。
所述股票节点数据的权重值的获取逻辑为:
所述权重值包括固定权重值与波动权重值,所述固定权重值为对应股票节点数据到根节点距离的倒数,所述波动权重值为数据变动幅度最大值与预设的幅度阈值的差值;所述波动权重值根据以下任意一种方法确定:
当所述股票节点数据的数据变动幅度大于或等于预设的幅度阈值时,则增大节点数据信息对应的权重值;
当所述股票节点数据的数据变动幅度小于预设的幅度阈值时,则减小节点数据信息对应的权重值。
这里需要说明的是:这里需要根据具体需求和数据特点,调整预设的幅度阈值来控制波动权重值的变化程度。综合固定权重值和波动权重值,可以得到最终的股票节点数据的权重值。这样,每个节点数据的权重值将包括固定权重值和根据数据波动性调整的波动权重值,以反映节点数据在树结构中的位置以及数据的波动程度。
这里还需要说明的是:现有技术都是直接对股票节点数据的权重值进行统计,具体实施例:各个股票节点数据的权重值主要根据预设的节点数据项进行预先分配的,主要根据先验知识或领域专家的建议,基于对数据项的重要性、影响力或领域内的经验进行设定。
还可以通过统计特征,如均值、方差、标准差等,将这些统计特征作为权重值。较大的统计特征值可能会被赋予较高的权重,表示该属性在数据中的重要性;
另一方面当前很多领域对于权重值的计算通过机器学习方法,根据已有数据和目标变量,使用机器学习方法(如回归、决策树等)来训练模型,从而得到每个节点数据项的权重值。这些模型可以根据数据的特征和目标变量之间的关系来确定权重值。
根据具体应用场景和数据特点选择合适的权重计算方法,并根据问题的复杂性和数据的特点,进行权重值的调整和优化:调整和优化的过程就是减少波动权重值对固定权重值的影响程度。
结合具体实施例进行解释:
首先创建一个映射关系表,用于表征第一目标数据和细分领域之间的关系。随后根据细分领域创建目标树结构,每个目标树结构对应一个细分领域,将对应细分领域中的第一目标数据存储在对应储存节点上,即将第一目标数据存储在对应细分领域的目标树结构上;每个目标树结构代表一个特定的领域,包括电子、农业、生物、化学和餐饮领域;
对于每个目标树结构,会都包括一个根节点和多组子节点,如图3所示,根节点为目标树结构上的起始存储点,可以对其进行一级类型划分获得一组一级子节点,根节点为一级子节点的父节点,一级子节点还可以进行二级类型划分,获得一组二级子节点,一级子节点为二级子节点的父节点,以此类推,从而生成目标树结构。第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据。
具体示例性:根节点为"餐饮",一级子节点为“快餐”、“高级餐厅”和“咖啡馆”,二级子节点为一级子节点中对应餐饮企业的股票代码、名称、历史数据等,通过以上示例配置,可以实现对股票领域的识别。如果您想获取餐饮领域关联的股票,可以遍历树结构,找到餐饮领域节点,并获取其子节点中对应的股票节点。这样,您就能够获取与餐饮领域相关的股票信息,以此类推,在实际应用中,可根据实际情况进行修改添加子节点。
实施例2
请参阅图2所示,本实施例未详细叙述部分见实施例一描述内容,本实施例提供基于树结构的股票交易数据列式存储方法,包括:以下步骤:
S1:采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应储存节点上;
所述第一目标数据对应的细分领域的具体分析过程如下:
对原始股票交易数据进行数据预处理,获得第一目标数据;数据预处理包括但不限于以下处理方式中的一种或多种:过滤错误数据、过滤重复数据和归一化处理数据;
将基于第一目标数据提取细分领域特征,将细分领域特征转化为模糊领域变量;
模糊领域变量通过隶属函数计算出股票交易数据所在细分领域的隶属程度,通过隶属程度进行划分获得模糊领域变量对应的模糊数值区间;
基于细分领域特征映射的模糊数值区间表征股票交易数据的细分领域。
获取所述细分领域特征包括:
采用预设的特征提取网络模型提取所述第一目标数据对应细分领域的关联领域特征;
对所述关联领域特征和所述第一目标数据通过交叉验证模型获得细分领域特征。
S2:对每个细分领域的第一目标数据构建目标树结构,第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据;所述股票节点数据包括节点位置信息、节点数据信息和备份节点数据信息;
所述备份节点数据信息为对应节点数据信息的备份。
根节点的节点位置信息为根节点的位置数,所述子节点的节点位置信息为当前节点的父节点的位置数和节点本身的位置数组成,节点的位置数表示其在同层节点中位置的表示符号。
S3:将所述股票节点数据根据时间戳对应的时间序列模式生成股票序列数据;统计所有股票序列数据的股票支持度和股票共现度,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;
在所述频繁正序列模式集中进行时间序列模式的挖掘,得到股票时间正序列模式集包括:
统计时间序列模式的股票支持度和股票共现度,其中,所述票支持度用于表示所述时间序列模式在所有股票序列数据出现的总次数,所述共现度用于表示所述时间序列模式在多少个股票序列数据中出现过,所述时间序列模式表示发生第一时间节点之后发生第二时间节点,所述第一时间节点和所述第二时间节点为所述频繁正序列模式集中的任意两个时间节点;
任意两个时间节点对应的股票支持度大于预设的股票支持度阈值,且所述股票共现度大于预设的股票共现度阈值的情况下,将对应的股票序列数据作为所述股票时间正序列模式集中的元素。
S4:对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内。
所述精简股票节点数据的获取逻辑为:
股票时间正序列模式集中的股票节点数据按照预设的节点数据项进行数据分组,利用哈希算法和各个股票节点数据的权重值计算所述股票节点数据对应的加权哈希值;
相互比较所有的股票节点数据对应的加权哈希值,将哈希值之间的海明距离小于预设的海明阈值的两个股票节点数据归并到同一项相似股票数据集中;
将同一项相似股票数据集合并为一个新的股票节点数据,将新的股票节点数据标记为精简股票节点数据;并更新股票节点数据的节点位置信息;将精简股票节点数据存储在更新的节点位置信息上。
所述股票节点数据的权重值的获取逻辑为:
所述权重值包括固定权重值与波动权重值,所述固定权重值为对应股票节点数据到根节点距离的倒数,所述波动权重值为数据变动幅度最大值与预设的幅度阈值的差值;所述波动权重值根据以下任意一种方法确定:
当所述股票节点数据的数据变动幅度大于或等于预设的幅度阈值时,则增大节点数据信息对应的权重值;
当所述股票节点数据的数据变动幅度小于预设的幅度阈值时,则减小节点数据信息对应的权重值。
更新股票节点数据的节点位置信息包括:
获取同一项相似股票数据集中的节点数据信息对应的节点位置信息;
基于所述节点位置信息获得当前节点距离根节点的距离;当前节点距离根节点的距离为第一距离和第二距离之和;所述第一距离为当前节点的父节点到根节点的距离;所述第二距离为当前节点位置数与父节点下节点位置总数的比值;
相互比较所有的节点位置信息;将节点距离根节点距离最小的节点位置信息为更新的节点位置信息。
本发明通过树结构的存储方式能够有效地组织和存储大量的股票交易数据,通过将数据按照细分领域和节点位置信息进行存储,可以快速定位和检索特定的股票节点数据,提高数据的存储效率;通过统计股票序列数据的股票支持度和共现度,可以挖掘出频繁正序列模式,用以揭示股票交易中的重要趋势和模式,对于制定投资策略和预测市场走势具有重要意义;还能够捕捉股票交易中的时间相关性,帮助分析师和投资者发现重要的时间序列模式,并用于市场预测和决策制定,最后通过哈希操作和数据合并,可以将原始的股票节点数据精简化。这种精简可以减少存储空间的占用,并降低存储成本;从而可以提高股票交易数据的存储效率和数据挖掘能力,从而为股票分析和决策提供更有效的支持。
实施例3
根据示例性实施例示出的一种电子设备,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
所述处理器通过调用所述存储器中存储的计算机程序,执行上述的基于树结构的股票交易数据列式存储方法。
图4是本申请实施例提供的一种电子设备的结构示意图,该电子设备可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(Central ProcessingUnits,CPU)和一个或一个以上的存储器,其中,该存储器中存储有至少一条计算机程序,该至少一条计算机程序由该处理器加载并执行以实现上述各个方法实施例提供的基于深度神经网络的股票算法交易方法。该电子设备还能够包括其他用于实现设备功能的部件,例如,该电子设备还能够具有线或无线网络接口以及输入输出接口等部件,以便进行输入输出。本申请实施例在此不做赘述。
实施例4
如图5是本申请一个实施例提供的计算机可读存储介质结构示意图。如图5所示,是根据本申请一个实施方式的计算机可读存储介质100。计算机可读存储介质100上存储有计算机可读指令。当计算机可读指令由处理器运行时,可执行参照以上附图描述的根据本申请实施方式的路径规划方法。存储介质100包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。
另外,根据本申请的实施方式,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质存储有机器可读指令,所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令,例如:采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应储存节点上;对每个细分领域的第一目标数据构建目标树结构,第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据;所述股票节点数据包括节点位置信息、节点数据信息和备份节点数据信息;将所述股票节点数据根据时间戳对应的时间序列模式生成股票序列数据;统计所有股票序列数据的股票支持度和股票共现度,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内。
可能以许多方式来实现本申请的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应理解,根据A确定B并不意味着仅仅根据A确定B,还能够根据A和/或其它信息确定B。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于树结构的股票交易数据列式存储方法,其特征在于,包括以下步骤:
S1:采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应储存节点上;
S2:对每个细分领域的第一目标数据构建目标树结构,第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据;所述股票节点数据包括节点位置信息、节点数据信息和备份节点数据信息;
S3:将所述股票节点数据根据时间戳对应的时间序列模式生成股票序列数据;统计所有股票序列数据的股票支持度和股票共现度,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;
S4:对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内;
在所述频繁正序列模式集中进行时间序列模式的挖掘,得到股票时间正序列模式集包括:
统计时间序列模式的股票支持度和股票共现度,其中,所述票支持度用于表示所述时间序列模式在所有股票序列数据出现的总次数,所述共现度用于表示所述时间序列模式在多少个股票序列数据中出现过,所述时间序列模式表示发生第一时间节点之后发生第二时间节点,所述第一时间节点和所述第二时间节点为所述频繁正序列模式集中的任意两个时间节点;
任意两个时间节点对应的股票支持度大于预设的股票支持度阈值,且所述股票共现度大于预设的股票共现度阈值的情况下,将对应的股票序列数据作为所述股票时间正序列模式集中的元素;
所述精简股票节点数据的获取逻辑为:
股票时间正序列模式集中的股票节点数据按照预设的节点数据项进行数据分组,利用哈希算法和各个股票节点数据的权重值计算所述股票节点数据对应的加权哈希值;
相互比较所有的股票节点数据对应的加权哈希值,将哈希值之间的海明距离小于预设的海明阈值的两个股票节点数据归并到同一项相似股票数据集中;
将同一项相似股票数据集合并为一个新的股票节点数据,将新的股票节点数据标记为精简股票节点数据;并更新股票节点数据的节点位置信息;将精简股票节点数据存储在更新的节点位置信息上;
更新股票节点数据的节点位置信息包括:
获取同一项相似股票数据集中的节点数据信息对应的节点位置信息;
基于所述节点位置信息获得当前节点距离根节点的距离;当前节点距离根节点的距离为第一距离和第二距离之和;所述第一距离为当前节点的父节点到根节点的距离;所述第二距离为当前节点位置数与父节点下节点位置总数的比值;
相互比较所有的节点位置信息;将节点距离根节点距离最小的节点位置信息为更新的节点位置信息。
2.根据权利要求1所述的基于树结构的股票交易数据列式存储方法,其特征在于,所述第一目标数据对应的细分领域的具体分析过程包括:
对原始股票交易数据进行数据预处理,获得第一目标数据;数据预处理包括但不限于以下处理方式中的一种或多种:过滤错误数据、过滤重复数据和归一化处理数据;
基于第一目标数据提取细分领域特征,将细分领域特征转化为模糊领域变量;
模糊领域变量通过隶属函数计算出股票交易数据所在细分领域的隶属程度,通过隶属程度进行划分获得模糊领域变量对应的模糊数值区间;
基于细分领域特征映射的模糊数值区间表征股票交易数据的细分领域。
3.根据权利要求2所述的基于树结构的股票交易数据列式存储方法,其特征在于,获取所述细分领域特征包括:
采用预设的特征提取网络模型提取所述第一目标数据对应细分领域的关联领域特征;
对所述关联领域特征和所述第一目标数据通过交叉验证模型获得细分领域特征。
4.根据权利要求3所述的基于树结构的股票交易数据列式存储方法,其特征在于,所述备份节点数据信息为对应节点数据信息的备份。
5.根据权利要求4所述的基于树结构的股票交易数据列式存储方法,其特征在于,根节点的节点位置信息为根节点的位置数,所述根节点下细分的第一目标数据为子节点,所述子节点的节点位置信息为当前节点的父节点的位置数和节点本身的位置数组成,节点的位置数表示其在同层节点中位置的表示符号。
6.根据权利要求5所述的基于树结构的股票交易数据列式存储方法,其特征在于,所述股票节点数据的权重值的获取逻辑为:
所述权重值包括固定权重值与波动权重值,所述固定权重值为对应股票节点数据到根节点距离的倒数,所述波动权重值为数据变动幅度最大值与预设的幅度阈值的差值;所述波动权重值根据以下任意一种方法确定:
当所述股票节点数据的数据变动幅度大于或等于预设的幅度阈值时,则增大节点数据信息对应的权重值;
当所述股票节点数据的数据变动幅度小于预设的幅度阈值时,则减小节点数据信息对应的权重值。
7.一种股票交易数据存储服务器,所述服务器用于驱动如权利要求1至6任一项所述的基于树结构的股票交易数据列式存储方法,其特征在于,所述服务器包括:
数据采集模块,采集股票交易中带有时间戳的原始股票交易数据,对原始股票交易数据进行预处理,获得第一目标数据,基于模糊函数分析第一目标数据的细分领域,将细分领域的第一目标数据存储在对应储存节点上;
树结构构建模块,对每个细分领域的第一目标数据构建目标树结构,第一目标数据存储的储存节点为对应细分领域的目标树结构,细分领域为当前目标树结构的根节点,将第一目标数据存储在对应的目标树结构中,获得对应节点的股票节点数据;所述股票节点数据包括节点位置信息、节点数据信息和备份节点数据信息;
精简序列生成模块,将所述股票节点数据根据时间戳对应的时间序列模式生成股票序列数据;统计所有股票序列数据的股票支持度和股票共现度,基于股票支持度和股票共现度获得频繁正序列模式集;对所述频繁正序列模式集中进行时间序列模式的挖掘,获取股票时间正序列模式集;
数据存储模块,对股票时间正序列模式集中的股票节点数据依次进行哈希操作和数据合并,获得精简股票节点数据,将精简股票节点数据根据节点位置信息列式存储在目标树结构内。
8.一种电子设备,其特征在于,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
所述处理器通过调用所述存储器中存储的计算机程序,执行权利要求1-6任一项所述的基于树结构的股票交易数据列式存储方法。
9.一种计算机可读存储介质,其特征在于:储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的基于树结构的股票交易数据列式存储方法。
CN202311022942.5A 2023-08-15 2023-08-15 基于树结构的股票交易数据列式存储方法及服务器 Active CN116737727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311022942.5A CN116737727B (zh) 2023-08-15 2023-08-15 基于树结构的股票交易数据列式存储方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311022942.5A CN116737727B (zh) 2023-08-15 2023-08-15 基于树结构的股票交易数据列式存储方法及服务器

Publications (2)

Publication Number Publication Date
CN116737727A CN116737727A (zh) 2023-09-12
CN116737727B true CN116737727B (zh) 2023-12-01

Family

ID=87904776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311022942.5A Active CN116737727B (zh) 2023-08-15 2023-08-15 基于树结构的股票交易数据列式存储方法及服务器

Country Status (1)

Country Link
CN (1) CN116737727B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419630A (zh) * 2008-12-11 2009-04-29 中国科学院计算技术研究所 一种数据流中Top-k项的挖掘方法及***
CN104574153A (zh) * 2015-01-19 2015-04-29 齐鲁工业大学 快速的负序列挖掘模式在客户购买行为分析中的应用
KR101564616B1 (ko) * 2015-04-13 2015-11-02 주식회사 프로이트 연관규칙탐사 분석 방법
CN107783993A (zh) * 2016-08-25 2018-03-09 阿里巴巴集团控股有限公司 数据的存储方法和装置
CN111209591A (zh) * 2019-12-31 2020-05-29 浙江工业大学 一种按时间排序的存储结构与快速查询的方法
CN112837158A (zh) * 2021-02-19 2021-05-25 苏州科知律信息科技有限公司 基于云计算技术的股票数据采集和存储方法、装置及***
CN115757411A (zh) * 2022-11-17 2023-03-07 企知道网络技术有限公司 一种股市信息数据管理方法、***、设备及存储介质
CN115964501A (zh) * 2021-10-11 2023-04-14 ***通信集团设计院有限公司 数据处理方法、装置、计算设备及计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419630A (zh) * 2008-12-11 2009-04-29 中国科学院计算技术研究所 一种数据流中Top-k项的挖掘方法及***
CN104574153A (zh) * 2015-01-19 2015-04-29 齐鲁工业大学 快速的负序列挖掘模式在客户购买行为分析中的应用
KR101564616B1 (ko) * 2015-04-13 2015-11-02 주식회사 프로이트 연관규칙탐사 분석 방법
CN107783993A (zh) * 2016-08-25 2018-03-09 阿里巴巴集团控股有限公司 数据的存储方法和装置
CN111209591A (zh) * 2019-12-31 2020-05-29 浙江工业大学 一种按时间排序的存储结构与快速查询的方法
CN112837158A (zh) * 2021-02-19 2021-05-25 苏州科知律信息科技有限公司 基于云计算技术的股票数据采集和存储方法、装置及***
CN115964501A (zh) * 2021-10-11 2023-04-14 ***通信集团设计院有限公司 数据处理方法、装置、计算设备及计算机存储介质
CN115757411A (zh) * 2022-11-17 2023-03-07 企知道网络技术有限公司 一种股市信息数据管理方法、***、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Erasable pattern mining based on tree structures with damped window over data streams;Yoonji Baek等;《Engineering Applications of Artificial Intelligence》;1-20 *
关联规则推荐的高效分布式计算框架;李昌盛;伍之昂;张璐;曹杰;;计算机学报(06);1218-1231 *

Also Published As

Publication number Publication date
CN116737727A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Aghabozorgi et al. A hybrid algorithm for clustering of time series data based on affinity search technique
Rajalingam et al. Hierarchical clustering algorithm-a comparative study
CN111506637B (zh) 一种基于kpi指标的多维异常检测方法、装置及存储介质
Wang et al. A scalable method for time series clustering
CN112148843A (zh) 文本处理方法、装置、终端设备和存储介质
Karrar The effect of using data pre-processing by imputations in handling missing values
CN104598599A (zh) 命名排歧方法及***
Sagar et al. Analysis of prediction techniques based on classification and regression
Wijayanti et al. K-means cluster analysis for students graduation: case study: STMIK Widya Cipta Dharma
Elouataoui et al. An End-to-End Big Data Deduplication Framework based on Online Continuous Learning
Hassan et al. Crime news analysis: Location and story detection
CN117520660A (zh) 基于大数据的资讯信息提取推送方法及***
CN116737727B (zh) 基于树结构的股票交易数据列式存储方法及服务器
Rahul et al. Data cleaning mechanism for big data and cloud computing
Hou A new clustering validity index based on K-means algorithm
Lin et al. Toward a MapReduce-based K-means method for multi-dimensional time serial data clustering
Ismanto et al. Comparison of running time between C4. 5 and k-nearest neighbor (k-NN) algorithm on deciding mainstay area clustering.
Wu et al. Top-k contrast order-preserving pattern mining for time series classification
Siddiqi et al. Detecting Outliers in Non-IID Data: A Systematic Literature Review
Marinakos et al. Viability prediction for retail business units using data mining techniques: a practical application in the Greek pharmaceutical sector
Al Shami et al. Intelligent synthetic composite indicators with application
CN116756325B (zh) 一种获取标签的数据处理***
Sim et al. A review of scalable time series pattern recognition
Zhang et al. An Adaptive Parameters Density Cluster Algorithm for Data Cleaning in Big Data
Ali et al. Duplicates detection within incomplete data sets using blocking and dynamic sorting key methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240430

Address after: 201100 floor 2, building 2, No. 1508, Kunyang Road, Minhang District, Shanghai

Patentee after: Shanghai Kafang Information Technology Co.,Ltd.

Country or region after: China

Address before: Room 1801, Building 3, No. 1186-1 Bin'an Road, Changhe Street, Binjiang District, Hangzhou City, Zhejiang Province, 310000

Patentee before: Hangzhou Chi-squared distribution Information Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right