CN106780018A

CN106780018A - 一种基于历史重现的股票数据挖掘模型和***

Info

Publication number: CN106780018A
Application number: CN201611016848.9A
Authority: CN
Inventors: 洪志令; 吴梅红
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-11-19
Filing date: 2016-11-19
Publication date: 2017-05-31

Abstract

本发明公开了一种基于历史重现的股票数据挖掘模型和***。模型基于“历史会重演”的思想从海量的股票历史趋势线中寻求发现有价值的信息，构建的股票数据挖掘模型包括6个核心模块，分别为：数据存储中心、数据准备、数据模型与数据挖掘、数据挖掘结果、结果跟踪、性能评估。基于此模型，可构建功能丰富且扩展性强的股票大数据挖掘***，***一方面有利用股票挖掘方法的快速测试与实践，另一方可为用户进行股票投资提供辅助决策支持。

Description

一种基于历史重现的股票数据挖掘模型和***

技术领域

本发明涉及股票数据挖掘技术领域，尤其是涉及一种基于历史重现的股票数据挖掘模型和***。

背景技术

随着我国证券行业的飞速发展，股票投资已成为许多家庭和个人理财的一种重要方式，是很多家庭财产收入的重要组成部分。股票市场具有高风险与高收益并存的特性，股票价格的涨跌及变化趋势也一直受到政府和投资大众的密切关注，证券市场的波动也逐渐成为衡量我国经济发展水平的一个重要指标。因此，股票价格的预测已成为经济学中一个重要的研究课题。

然而股票价格受各种经济的、政治的、社会的因素相互作用、相互影响，其变化有着很强的无序性，其数学模型往往复杂难以准确确定或者包含混沌性，从而增加了预测的难度。

数据挖掘的作用是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。股票数据挖掘的研究主要集中在4个方面:相似序列匹配、股票价格预测、交易规则抽取以及时间模式发现。

发明内容

本发明方法的模型模块组成或步骤如下：

（1）构建数据存储中心；

（2）进行数据抽取及预处理；

（3）构建数据模型，并进行股票数据挖掘；

（4）根据数据模型、不同的挖掘目的获取不同的股票挖掘结果；

（5）对股票数据挖掘结果进行记录跟踪；

（6）对模型中各个环节进行性能评估和优化。

其中，步骤(1) 构建数据存储中心主要用于负责数据的存储，具体包括股票数据库和股票数据挖掘库。股票数据库用于存储股票相关的数据，存储内容包括：每个交易日的股票交易数据、股票列表、股票的行业分类、地域分类、概念分类、终止或暂停上市的股票列表等。股票数据挖掘库用于存储对股票进行数据挖掘的过程和结果的数据。如规范化后的股票数据、股票匹配的中间数据、每日的推荐数据、统计数据、跟踪数据等。

其中，步骤(2) 的进行数据抽取及预处理，具体为：数据抽取分为2种，入库的抽取和出库的抽取；预处理分为股票收盘价基准变换、数据量化、相对值计算和递增量计算等方面。

其中，步骤(3) 的构建数据模型，并进行股票数据挖掘，具体为：根据不同的目的，如股票预测、股票推荐等，定义不同的数据模型、学习规则等对股票数据进行挖掘。包括但不限于如下几个方面。

（A）趋势匹配。以股票近期一段时间的走势去匹配股票历史数据，从而获得相似走势。

（B）数据统计。对股票近几个交易日的涨跌幅量化值进行共现的统计，从而获取下一交易日的可能涨跌幅及出现的概率。

（C）数据分类。基于股票之间相似度计算的基础上，利用分层聚类树、k-均值、kNN等方法对股票进行聚类或者分类。

（D）模式匹配。通过预先定义的走势模式，匹配股票历史数据，获取相似的走势模式。

其中，步骤(4) 的根据数据模型、不同的挖掘目的获取不同的股票挖掘结果，结果具体的划分包括但不限于如下几个方面。

（A）股票预测。对股票未来不同时间长度，不同的内容进行预测。基于趋势匹配的数据模型方法既可预测未来一段时间的走势，也可预测近一两天的行情；基于数据统计的数据模型方法主要用于预测下一交易日的可能涨跌幅及涨跌概率。

（B）股票推荐。通过对股票预测的结果进行排序后择优推荐。区分对于未来一段时间走势的预测结果、对于近期几天行情的预测结果和对于下一交易日的预测结果三种不同时间点预测结果的择优推荐步骤。

（C）股票选择。对股票的选择分为两种类型：粗选和精选。基于数据分类的数据模型在基于股票的相似性计算后，对股票形成了分类。这些分类构成了股票的粗选；或者基于模式匹配的数据模型通过对股票进行预定义的模式匹配，匹配结果也构成了股票的粗选。在粗选的基础上，精选过程可结合一些参量进行，如换手率、成交量等。

（D）统计排序。对股票的历史数据进行统计排序，目的在于对股票现状有更好的整体理解。一些统计结果如：强相关排序、强匹配排序、N元语法排序、关联规则排序、涨跌幅排序等。

（E）规则学习。对模型学习过程中生成的规则进行学习，从而更好理解股市运行逻辑。如对关联规则数据模型中生成的各种规则，提取满足支持度并且置信度高的规则，即强关联规则。

其中，步骤(5) 的对股票数据挖掘结果进行记录跟踪，具体为记录每天的数据挖掘结果，构成新的时间序列数据，并对这些数据进行跟踪，包括结果的递增更新和结果的优化。

其中，步骤(6)的对模型中各个环节进行性能评估和优化，具体为对整个股票数据挖掘模型中的各个环节进行性能评估，包括准确性评估、效率评估、数据评估。准确性评估分为两种：定性评估和定量评估。对于股票的推荐结果，以定性评估为主。对于股票的预测结果，以定量评估为主，定性评估为辅。效率评估主要是测算每个环节、每个数据模型的计算时间，而后通过改进算法、并行计算等方式对计算效率进行提升。数据评估主要是根据数据挖掘结果的可视化展示发现异常，回溯到原始数据后进行数据的质量跟踪与修正。

附图说明

图1 是基于历史重现的股票数据挖掘模型的流程图。

具体实施方式

下面结合附图和实例，对本发明进行详细的描述。

将股票价格用曲线连接起来就成为一条趋势线，股票数据挖掘的目的就是基于“历史会重演”的思想从海量的历史趋势线中寻求发现有价值的信息。

数据挖掘的作用是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

本发明方法基于“历史会重演”的思想，提出了一种用于股票数据挖掘的模型。如图1所示，本发明的股票数据挖掘模型主要包括6个核心模块：数据存储中心、数据准备、数据模型与数据挖掘、数据挖掘结果、结果跟踪、性能评估。

一、数据存储中心。

本模块主要负责数据的存储。

1.1股票数据库。用于存储股票相关的数据，存储内容包括：每个交易日的股票交易数据、股票列表、股票的行业分类、地域分类、概念分类、终止或暂停上市的股票列表等。

1.2 股票数据挖掘库。用于存储对股票进行数据挖掘的过程和结果的数据。如规范化后的股票数据、股票匹配的中间数据、每日的推荐数据、统计数据、跟踪数据等。

二、数据准备。本模块主要为下一步的数据挖掘处理提供需要的输入数据。

2.1 数据抽取。

数据抽取分为2种：入库的抽取和出库的抽取。

a.从网络或其他数据来源抓取股票数据并入库。通过网络爬虫技术直接从新浪财经频道或网易财经频道抓取实时的股票数据，或者通过新浪、Yahoo、腾讯提供的api接口获取收盘后的股票数据。

b. 从数据存储中心抽取数据供下一步数据的预处理。抽取某个时间点以来（如2005年1月1日）的股票数据；或者抽取近期一段时间（如近30天）的股票数据。

2.2 数据预处理。对于每只股票，有这样几种类型的数据预处理。

a.基准变换。以某个起始时间点的收盘价定义为1并设为基准，其后续时间点的收盘价根据涨跌幅进行变换得到，如第二天的涨跌幅为Change₂,则第二天的基准收盘价为：1*(1+Change₂/100); 第三天的的涨跌幅为Change₃,则第三天的基准收盘价为：1*(1+Change₂/100) (1+Change₃/100); 以此类推。

b.数据量化。对股票的涨跌幅数据进行量化，即对涨跌幅值进行四舍五入操作，形成整数值。

c. 相对值计算。计算开盘价Open、最高价High和最低价Low相对于当天收盘价Close的增减幅度。

d.递增量计算。计算成交量Volume、换手率Turnover、成交额等相对于前一交易日的增减幅度。

三、数据模型与数据挖掘。

本模块根据不同的目的，如股票预测、股票推荐等，定义不同的数据模型、学习规则等对股票数据进行挖掘。

3.1 趋势匹配。本子模块以股票近期一段时间的走势去匹配股票历史数据，从而获得相似走势。

根据匹配的范围，用于匹配的数据也不同。如股票自身历史趋势的匹配，由于数据量较少，股性相同，可以用基准收盘价进行匹配；所有股票全局历史数据的匹配，由于数据量大，股票间股性各不相同，可以用涨跌幅进行匹配。

在匹配结果的获取上，两两股票之间会有匹配值和匹配时间点。为获取一只股票的最佳匹配，可以仅根据匹配值进行排序获得；也可以先根据相同匹配时间点的次数统计排序后，再进行匹配值排序获得。

3.2 数据统计。本子模块对股票近几个交易日的涨跌幅量化值进行共现的统计，从而获取下一交易日的可能涨跌幅及出现的概率。

用于共现统计的模型主要有n元语法、关联规则、共生矩阵等。

n元语法通过进行多元语法的统计，即统计相邻n个值共同出现的次数，来建立语法规则，估算下一交易日的可能情况。根据语法统计范围的不同，可分为局部n元语法和全局n元语法。

关联规则将量化的涨跌幅数值看作是关联规则中项的集合，近期的小段时间序列看作是一个事务交易，从而通过关联规则算法寻找满足支持度要求且置信度较高的规则。规则是形如X→Y的蕴涵式，X和Y分别称为关联规则的前件和后件。后件Y即为下一交易日的可能涨跌幅，规则置信度即为相应的涨跌概率。

3.3 数据分类。本子模块对股票数据进行分类。分类的关键在于股票之间相似度的计算。在相似度计算的基础上，则可用分层聚类树、k-均值、kNN等方法对股票进行聚类或者分类。

由于待比较相似度的两只股票序列的长度一般不相等，所以不能使用传统的欧几里得距离计算相似性。使用动态时间规整方法(Dynamic Time Warping,DTW), 通过把时间序列进行延伸和缩短，来计算两个时间序列性之间的相似性。

3.4 模式匹配。本子模块通过预先定义的走势模式，匹配股票历史数据，获取相似的走势模式。

3.5 其他扩展模块。

四、数据挖掘结果。

本模块根据数据模型、不同的挖掘目的提供不同的股票挖掘结果。

4.1 股票预测。本子模块对股票未来不同时间长度，不同的内容进行预测。

基于趋势匹配的数据模型方法既可预测未来一段时间的走势，也可预测近一两天的行情。预测内容既包括涨跌幅，还包括开盘、最高、最低、成交量等。预测方法为：根据最佳匹配股票匹配时间点之后的走势，结合预处理过程中相对值和递增量的计算值，还原待预测股票的后期走势。

基于数据统计的数据模型方法主要用于预测下一交易日的可能涨跌幅及涨跌概率。预测方法为：将股票近几个交易日的量化涨跌幅值应用到模型已经学习到的规则之中，直接获取预测值。由于该方法规则是事先学习准备好的，规则的应用简单高效，所有该方法可用于实时预测。

4.2 股票推荐。本子模块通过对股票预测的结果进行排序后择优推荐。

对于未来一段时间走势的预测结果(短期预测)，择优推荐步骤为：先对可能的几种走势进行一致性的判断，一致性高意味着准确性高，在准确性前提下统计短期涨幅最大的前几个走势作为推荐。

对于近期几天行情的预测结果(近期预测)，择优推荐步骤为：先对近期几天的涨跌幅进行前向累加，同时统计多种预测结果对当天预测的涨跌投票情况，涨的投票数多且较为一致的意味着准确性较高，在准确性前提下统计涨幅最大的前几个走势作为推荐。

对于下一交易日的预测结果(隔天预测)，择优推荐步骤为：先对涨跌概率进行排序，获取上涨概率较大的股票，再在这些股票中排序获取涨幅较大的股票作为推荐。

4.3 股票选择。本子模块对股票的选择分为两种类型：粗选和精选。

基于数据分类的数据模型在基于股票的相似性计算后，对股票形成了分类。这些分类构成了股票的粗选；或者基于模式匹配的数据模型通过对股票进行预定义的模式匹配，匹配结果也构成了股票的粗选。一般粗选结果中的股票数量在10到100区间。

精选过程可结合一些参量进行。在粗选的基础上，结合用户的偏好，进一步过滤粗选股票。如用户偏好波动幅度较大股票，则可结合换手率高、成交量大这些因素，或者统计股票的历史涨跌幅，挑选历史大涨跌幅次数多的股票。

4.4 统计排序。本子模块对股票的历史数据进行统计排序，目的在于对股票现状有更好的整体理解。一些统计排序结果如下。

强相关排序：趋势匹配数据模型中，以基准收盘价进行自身历史趋势匹配，对每只股票的最佳匹配值进行排序，从而获得与自身走势最为相似的股票列表。高相似性意味着匹配日期之后走势的可信度高，该股票的自身历史可借鉴性强。

强匹配排序：趋势匹配数据模型中，以涨跌幅进行全局历史数据匹配，对每只股票的全局最佳匹配值再进行排序，从而获得最为相似的股票列表。高相似性意味着将匹配日期之后的涨跌幅作为股票未来的预测值其可信度高。

N元语法排序：N元语法数据模型中，根据对每只股票下一交易日预测的可能涨跌幅及涨跌概率，先过滤涨跌概率大的，即准确性高的，而后对可能涨跌幅进行从大到小排序。

关联规则排序：关联规则数据模型中，根据对每只股票后件预测的可能涨跌幅及置信度，先过滤置信度值大的，即准确性高的，而后对可能涨跌幅进行从大到小排序。

涨跌幅排序：统计自某段时间以来每只股票当前价格相对于高点的跌幅和相对于低点的涨幅，分别排序后获取股票的涨跌排名，如跌得最多涨得最少的股票。

4.5 规则学习。本子模块对模型学习过程中生成的规则进行学习，从而更好理解股市运行逻辑。如对关联规则数据模型中生成的各种规则，提取满足支持度并且置信度高的规则，即强关联规则。结合规则对股市进行分析，可知股市以趋稳为主，但涨跌停时，下一交易日将大概率连续涨跌停。

五、数据挖掘结果跟踪。

本模块记录每天的数据挖掘结果，构成新的时间序列数据，并对这些数据进行跟踪。

5.1 结果递增更新。本子模块递增更新所涉及的结果包含两种：中间结果和最终结果。

中间结果如基于数据统计模型中的统计结果，当新增交易数据时，仅更新新增交易数据的统计并合并到原来统计结果中。

最终结果如每日的近期推荐、每日的短期推荐、模式匹配等结果，递增更新仅需按计算日期分开记录即可。

5.2 结果优化。本子模块根据记录结果的时间序列数据进行优化。如在股票近期推荐的时间序列数据中，寻找连续多日受推荐的股票；在股票的短期推荐的时间序列数据中，寻找多日预测趋势较为一致的股票。

六、性能评估。

本模块对整个股票数据挖掘模型中的各个环节进行性能评估。

6.1 准确性评估。本子模块对股票挖掘的结果进行准确性评估。评估分为两种：定性评估和定量评估。

对于股票的推荐结果，以定性评估为主。通过后期股票的实际涨跌结果判断与当前推荐涨或预警跌的股票是否一致。

对于股票的预测结果，以定量评估为主，定性评估为辅。近期预测、隔天预测的结果先进行定性评估，以后期的实际涨跌结果判断是否一致；在此基础上进行定量评估，计算实际涨跌幅与预测涨跌幅的差距。短期预测结果直接进行定量评估，计算后期的实际走势与当前预测走势的距离。

6.2 效率评估。本子模块对股票挖掘的过程进行效率评估。评估主要是测算每个环节、每个数据模型的计算时间，而后通过改进算法、并行计算等方式对计算效率进行提升。

6.3 数据评估。本子模块对股票挖掘所用数据进行质量评估。评估主要方法是根据数据挖掘结果的可视化展示发现异常，回溯到原始数据后进行数据的质量跟踪与修正。

综上所述，本发明公开了一种基于历史重现的股票数据挖掘模型和***，模型基于“历史会重演”的思想从海量的股票历史趋势线中寻求发现有价值的信息，构建的股票数据挖掘模型包括6个核心模块，包括：数据存储中心、数据准备、数据模型与数据挖掘、数据挖掘结果、结果跟踪、性能评估。

本发明方法同样可应用于证券类具有时间序列特征的数据，如基金、期货等。因此，尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权力要求的精神和范围内，各种替换、变化和修改都是不可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。当前公开的实施例在所有方面应被理解为说明性的而非对其请求保护的范围的限制。

Claims

1.一种基于历史重现的股票数据挖掘模型和***，其特征在于所述方法包括如下步骤：

（1）构建数据存储中心；

（2）进行数据抽取及预处理；

（3）构建数据模型，并进行股票数据挖掘；

（5）对股票数据挖掘结果进行记录跟踪；

（6）对模型中各个环节进行性能评估和优化。

2.根据权利要求1所述的一种基于历史重现的股票数据挖掘模型和***，其特征在于，在构建数据模型对股票进行数据挖掘时，为寻找历史上曾经出现的各种模式，应用了历史相似走势的匹配模型、相邻量化值的统计模型、基于相似度的数据分类模型和基于预定义模式的走势匹配模型等。

3.根据权利要求1所述的一种基于历史重现的股票数据挖掘模型和***，其特征在于，在根据数据模型、不同的挖掘目获取的股票挖掘结果，包括了股票近期/短期的预测、股票的推荐、股票的选择、历史数据的统计排序、历史数据的规则学习等,从不同角度对股票进行刻画。

4.根据权利要求1所述的一种基于历史重现的股票数据挖掘模型和***，其特征在于，通过对股票数据挖掘结果的记录跟踪，从而构成一个反馈的闭环，持续的对模型中的各个环节进行评估和优化，包括准确性评估、效率评估和数据评估。