CN109598387A - 基于双向跨模态注意力网络模型的股价预测方法及*** - Google Patents
基于双向跨模态注意力网络模型的股价预测方法及*** Download PDFInfo
- Publication number
- CN109598387A CN109598387A CN201811535943.9A CN201811535943A CN109598387A CN 109598387 A CN109598387 A CN 109598387A CN 201811535943 A CN201811535943 A CN 201811535943A CN 109598387 A CN109598387 A CN 109598387A
- Authority
- CN
- China
- Prior art keywords
- text
- sequence
- stock
- social
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 65
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000000306 recurrent effect Effects 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000015654 memory Effects 0.000 claims description 23
- 230000000875 corresponding effect Effects 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims 1
- 210000004218 nerve net Anatomy 0.000 claims 1
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000036642 wellbeing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了一种基于双向跨模态注意力网络模型的股价预测方法,选取数据集,爬取股价闭市序列数据和相应的推特社交文本数据集,并对文本数据进行预处理;针对推特社交文本,利用词向量将文本序列转化成向量特征表示,针对股价序列数据,将连续序列进行三分类处理,转化成离散数据表示;对股价序列数据和推特文本数据集分别利用循环神经网络进行建模,利用一个双向的跨模态的注意力机制融合两部分模块,分别学习提取与预测目标相关的股价序列和社交文本序列;切分数据集,利用训练样本学习网络模型的参数并利用验证集进行参数调优;利用基于双向跨模态注意力的网络模型预测目标数据中的股价趋势。
Description
技术领域
本发明涉及金融技术领域,具体涉及是一种基于深度序列模型建模多模态数据的股价预 测方法及预测***。
背景技术
随着经济水平的提高,股市发展与稳定在宏观经济中处于愈发重要的地位。而对于个体, 人们的投资方式正经历巨大的变化,更多的人开始关注并参与到股票市场投资中。股票投资 具有高收益的同时也具有高风险性,其市场受众多因素的影响,如各种宏观因素、投资心理、 公司情况等,因此较难以预测。
尽管如此,股票价格预测的研究具有巨大的价值。对个体来说,高效的股市预测能够带 来可观的经济收益。从宏观的角度,金融数据预测技术的发展有助于解析宏观经济。
在股势预测技术中,常采用时间序列进行分析或者提取重要时序特征进行预测。利用跨 模态数据如股价数据和文本数据进行建模已经证明能产生比较好的预测方法,然而,利用双 向的注意力机制,同时对股价数据和文本数据序列化建模还未被深入研究。
在本发明中,采用跨模态的双向注意力机制对股价数据和社交文本进行建模,能够有效 地提取出重要的序列信息。
经检索,目前没有与本发明相关的公开专利。
发明内容
本发明首次创新提供了一种应用社交文本和股票价格序列数据进行股价预测的方法及股 价预测***,其核心是对股票价格和文本联合建模,并且双向计算跨模态的注意力权重。经 检索,尚未见有任何与本发明相关的现有技术或报道。本发明采用跨模态的双向注意力机制 对股价数据和社交文本进行建模,能够有效地提取出重要的序列信息。本发明提供一种能够 使用的网络框架,即对股票价格离散数据和社交网络中的文本信息建模预测股票趋势的方法 及预测***。
本发明提出的基于双向跨模态注意力网络模型的股价预测方法,包括以下步骤:
第一步,选取数据集,爬取股价闭市序列数据和相应的推特等社交文本数据集,并对文 本数据进行预处理。
第二步,针对社交文本,利用词向量将文本序列转化成向量特征表示,针对股价序列数 据,将连续股价序列进行三分类处理,转化成离散数据表示。
第三步,对股价序列数据和推特等社交文本数据集分别利用循环神经网络进行建模,利 用一个双向的跨模态的注意力机制融合两部分模块,分别学习提取与预测目标相关的股价序 列和社交文本序列。
第四步,切分数据集,利用训练样本学习网络模型的参数并利用验证集进行参数调优。
第五步,利用基于双向跨模态注意力的网络模型预测目标数据中的股价趋势。
本发明中,所述股价信息是指采集到的股市收盘价格数据信息,股价闭市序列数据是指 由原始股价信息预处理后的股价数据,在本发明中采用预处理后的股价闭市序列数据作为模 型的输入。优选地,是指爬取雅虎金融上标准普尔500指数上的股市收盘股价信息。
本发明中,社交文本信息是指包括但不限于推特、微博、微信及其他各种网络社交平台 上的有关股票的信息,优选地,有关标准普尔500中股票的社交文本信息。优选地,利用python 中的推特接口,以股票标签“$”为关键字进行攫取。如,利用股票标签“$”为关键字进行 爬取的推特社交平台中的用户状态文本数据。
本发明中,社交文本信息是原始文本信息,社交文本数据是指预处理后的文本信息。
所述第一步中,文本数据预处理是指:由于存在一些没有信息量的词汇或者字符,需要 对爬取的社交文本数据(如,推特文本数据)进行去停止词、特殊符号、链接的去除操作等。
其中,所述去停止词在英文中用频率很多,但出去后不影响整体理解的字或词,常为冠 词、介词、副词或连词等。
其中,所述特殊符号为推特中出去字母数字和基本逗号句号后的一些数学符号和表情符 号。
其中,所述链接为在许多推特的末尾,用户添加了描述对象的网站链接,在本发明数据 预处理过程中去掉了该类链接。
所述第二步中,利用词向量将文本序列转化成向量特征表示,按以下步骤生成:
(1)对文本预处理好的社交文本数据,利用词向量模型word2vec进行训练,学习出整个 文本库中每个词的词向量表示;记词向量的维度为De;
(2)生成社交文本级别的向量表示;
如,以某一条股票的社交文本(推特)为例,根据已获取的词向量,对该条社交文本所 有词的词向量的每一维进行平均池化操作。即将该条社交文本中的Nword个词的维度 为Nword*De词向量矩阵使用维度上的平均池化,得到一个De维的社交文本表示。
(3)生成天级别的向量表示;
如,以某一天的股票有关的社交文本表示为例。根据前述步骤(2)的方法获取了Ntweet个 社交文本(如,推特)的社交文本级别的向量表示(如,推特级表示)后,针对Ntweet*De为 维度的天级别的股票文本矩阵表示,在词向量的每一维上采用最大、最小和平均池化操作, 得到一个3*De的该天的股票文本表示。该向量表示作为本发明中模型的文本输入表示形式。 实现了利用词向量将文本序列转化成向量特征表示。
所述第二步中,对股价连续值序列进行三分类处理的操作是指:针对爬取的原始收盘股 价序列特征,若当天的收盘价高于前一天的收盘价,则使用“+1”作为当天的股价特征表示,反之,则用“-1”作为当天的股价特征表示,若当天的收盘价与前一天的收盘价持平,则用“0”作为当天的股价特征表示。由此,所述连续股价序列特征转化为了一个取自{+1,0,-1}的三分类序列特征。
所述第三步中,分别利用循环神经网络对股价序列数据和社交文本数据集进行建模。其 中,对股价序列数据的建模为:利用外部股价和目标历史价格序列股价序列数据进行循环神 经网络的建模,其核心是利用一个编码-解码组成的注意力机制:在编码端使用注意力机制选 择相关的外部股票,在解码端对于整个序列选择相关的序列特征。按照以下步骤进行:
(1)在编码端使用注意力机制选择相关的外部股票:
(a)输入序列长度为T的M支外部股票[X1,...XM],其中每支股票是一个长度为T的向 量表示;
(b)利用输入计算注意力权重:
其中表示长短时记忆网络的隐藏状态,Xm,表示第m支股票的序列输入, Uen分别表示编码端注意力计算全局权重参数、隐藏状态的权重参数和第m支股票的序列输 入的权重参数,表示对后的注意力权重;
(c)注意力权重用于选择与预测股票相关的外部股价特征;
采用此特征更新记忆单元的状态值;
(2)在解码端对于整个序列选择相关的序列特征:
(a)输入编码端传入的每一时刻记忆单元的状态特征以及文本模块输入序列特征,对其 采用注意力机制选择整个序列中与预测值相关的序列特征;其中,注意力权重计算方式为:
其中,Tt表示社交文本模块的输入特征;注意力权重用于选择相关的编码器端的记忆单 元状态,Wde、Ude分别表示解码端注意力计算全局权重参数、隐藏状态的权重参数和编 码端传入的隐藏状态对应的权重参数,QT表示第t天的文本向量对应的权重参数,表示对 后的注意力权重;
(b)通过注意力权重计算状态序列加权和的表示:
该状态序列加权和的表示与目标股的历史时间序列共同更新解码端的记忆单元状态。
在第三步中,利用循环神经网络对社交文本(推特文本)数据集进行建模是指:对所述 第一步中的预处理得到的向量化的社交文本序列表示,使用长短时记忆网络对文本序列进行 建模,包括如下步骤:
(1)输入为[E1,...,ET],表示目标股票的序列长为T的推特文本向量,即按所述第二步 方法对社交文本(如,推特文本)预处理后的向量表示;
(2)利用股价序列模块中的加权序列和表示Cd,参与文本注意力权重的计算
Wtext和Utext分别表示社交文本中的注意力计算公式全局权重、隐藏状态的权重参 数和社交文本输入的权重参数。QC表示股价序列模块中的加权序列和对应的权重参数。表 示对进行softmax得到的注意力权重。
(3)此文本注意力权重可计算得文本序列的加权和特征
表示时间序列中每个时间上的社交文本输入对应的注意力权重,Ctext表示基于社交文 本输入的注意力机制的加权和综合表示。
(4)特征Ctext用于更新记忆单元的状态
其中,表示每次LSTM更新前后的隐藏状态表示,Ctext即基于社交文本输入的 注意力机制的加权和综合表示。
所述第三步中,利用一个双向的跨模态的注意力机制是指,在股价网络模块的解码端, 利用文本的输入特征[E1,...,ET]帮助训练序列注意力权重;在文本网络模块,利用了股价模块 中计算得到的隐藏状态加权和表示Cd,对文本注意力权重进行更新。因此在序列中的每一时 刻,两部分模块均使用了互相之间的跨模态数据双向地计算各自的注意力权重。
所述第四步中,切分数据集是指,对于整个股价序列数据集合社交文本数据集(如推特 文本数据集),按照时间进行数据集的切分,利用切分好的训练集训练模型参数,利用验证集 进行参数调优。
所述第五步中,利用基于双向跨模态注意力的网络模型,预测目标股价趋势,按照以下 步骤进行:
(1)按照第三步的方法得到与预测目标相关的股价序列和社交文本序列,即,可以得到股价序列模块解码端和文本模块的每一时刻的隐藏单元状态
(2)取前述步骤(1)中两部分特征最后一天的状态表示并进行拼接得到
(3)利用拼接的特征进行预测,如下:
其中,采用sigmoid作为激活函数σ;vo,Wo,bo,bv为网络中需要训练的参数。
优选地,还包括步骤(4):在模型训练期间,采用dropout网络和参数的二范数正则对 参数进行限制,防止产生过拟合的情况。
本发明中,所述第二步中,本发明将价格数据进行三分类处理,利用词向量将文本信息 进行池化操作,并对两部分数据分别进行建模,重点是使用长短时记忆网络得到记忆单元的 隐藏状态,提取股票间和序列间的关系。
所述第三步中,双向的跨模态注意力机制融合股价和文本数据,其核心是股价模块解码 端和文本模块的信息交互,采用的方式是分别利用解码端的隐藏状态序列和文本的输入序列。
本发明还提出了一种利用股价信息和社交文本信息的股价预测***,所述***包括以下:
(1)输入表征单元,分别预处理原始股价闭市数据和推特文本数据,离散化原始股价闭 市数据,利用词向量序列化推特文本数据。
(2)文本与价格序列建模单元,对输入表征的股价数据和文本数据进行序列建模,利用 相互信息计算两部分数据的注意力权重,选取相关输入表征。
(3)预测生成单元,取得(2)部分文本和价格序列建模中的最后一天的隐藏状态并拼 接,接入双层的全连接层最后sigmoid激活输出。
本发明在序列每一个时间步上,同时融合股价模块和社交文本模块计算各自注意力的权 重,要求注意力计算的序列齐次性。
与现有技术相比,本发明具有有益效果包括:本发明能够利用社交文本序列数据,结合 目标股票和外部股票的股价信息,联合预测目标股势,根据双向的注意力交互,能够分别选 取重要的股价序列和文本序列特征。
附图说明
图1为本发明股价预测方法的流程示意图。
图2为本发明一实施例中数据处理流程图。
图3为本发明一实施例中整个网络模型的框架图。
图4为本发明股价预测***的组成结构示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、 实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特 别限制内容。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下, 还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明提供一种应用社交文本和股票价格序列数据进行预测的方法,如图1所示,该方 法包括以下步骤:
第一步,选取任务所需的股价闭市序列数据集相应的推特社交文本数据集,文本数据进 行去燥等预处理。
第二步,利用词向量将预处理的文本序列转化成向量特征表示,并对股价序列数据三分 类处理成离散数据表示。
第三步,利用循环神经网络分别对股价序列数据和推特文本数据集进行建模,利用一个 双向的跨模态的注意力机制融合两部分模块,分别提取与预测目标相关的序列特征。
第四步,切分数据集,训练数据集并参数调优。
第五步,基于双向跨模态注意力的网络模型,预测目标数据的股价趋势。
本发明提出股价预测***,如图4所示,包括:
(1)输入表征单元。分别预处理原始股价闭市数据和推特文本数据,离散三分类原始股 价闭市数据,利用词向量生成推特文本数据的向量化表示。
(2)文本与价格序列建模单元。采用长短时记忆网络对输入表征的股价数据和文本数据 进行序列建模,利用双向注意力机制,通过使用两部分数据相互信息计算的各自注意力权重, 选取相关输入表征。
(3)预测生成单元。取得(2)部分文本和价格序列建模中的最后一天的长短时记忆网 络隐藏状态并拼接,接入双层的全连接层最后sigmoid激活函数输出。
本实施例的具体流程,如图1所示。
首先,选取数据集
(1)爬取雅虎金融的标准普尔500指数中的股票,取出股票每天的闭市价格。
(2)以股票标签“$”为爬取关键词,通过python框架工具tweepy爬取推特中与标准普尔股票相关的推特文本。
(3)对爬取的推特文本,过滤其中的特殊字符,去除没有信息量的停止词以及大量文本 中出现的url网址信息。
对于获取的原始数据,下面描述了对数据的转换方式:
(1)股价序列的离散化表示。对于爬取的股价序列数据,若当天的收盘价高于前一天的 收盘价,使用“+1”作为当天的股价特征表示,反之,则用“-1”表示,若当天的收盘价与前一天的收盘价持平,则用0作为当天的股价特征表示。连续股价序列特征转化为了一个取自{+1,0,-1}的三分类序列特征。
(2)文本的向量化表示。
(a)首先对去噪的推特文本,利用词向量模型word2vec学习文本库中每个词的词向量 表示。记词向量的维度为De。
(b)以某一条股票推特为例,根据已获取的词向量,对所有词的词向量在每一维进行平 均池化操作。即将推特中的Nword个词的维度为Nword*De词向量矩阵使用维度上的平均池化, 得到一个De维的推特文本表示。
(c)生成天级别的向量表示。以某一天的股票文本表示为例。根据(b)的方法获取了Ntweet条推特的向量表示后,对维度为Ntweet*De的天级别的股票文本矩阵表示,在词向量的每一维 上采用最大、最小和平均池化操作,得到一个3*De的该天股票文本表示。该向量表示作为本 发明中模型的文本输入表示形式。
接下来利用tensorflow中的LSTM模块为基础,对两部分序列数据进行序列建模。
(1)股价序列数据建模。利用外部股价序列和目标股历史价格序列进行循环神经网络的 建模。
(a)在编码端:
输入序列长度为T的M支外部股票[X1,...XM],其中,每支股票是一个长度为T的向量表 示。
利用输入计算注意力权重:
其中,表示长短时记忆网络的隐藏状态,Xm,表示第m支股票的序列输入。
注意力权重用于选择与预测股票相关的外部股价特征:
采用此特征更新记忆单元的状态值。
(b)在解码端:
输入编码端传入的每一时刻记忆单元的状态特征以及文本模块输入序列特征,对其采用 注意力机制选择整个序列中与预测值相关的序列特征。
注意力权重计算方式:
其中,Tt表示社交文本模块的输入特征。注意力权重用于选择相关的编码器端的记忆单 元状态。通过注意力权重计算状态序列加权和的表示该表示与目标股的历 史时间序列共同更新解码端的记忆单元状态。
(2)文本序列数据建模。
对预处理得到了向量化的文本序列表示后,使用长短时记忆网络对文本序列进行建模。
首先输入为[E1,...,ET],表示目标股票的序列长为T的推特文本向量,对推特文本预处理 后的向量表示。利用文本输入特征和股价序列模块中的加权序列和表示Cd,参与文本注意力 权重的计算:
此文本注意力权重可计算得文本序列的加权和特征该特征Ctext用于 更新记忆单元的状态
接下来把整个数据集根据时间轴,按照训练集、验证集和测试集比例8:1:1进行切分,训 练集用于训练学习整个模型的参数,使用验证集进行模型参数的调优。
在预测过程中,由股价序列模块解码端和文本模块的每一时刻的隐藏单元状态去取出最后一时刻的状态特征并拼接为利用该特 征进行预测:
其中,采用sigmoid作为激活函数σ。vo,Wo,bo,bv为网络中需要训练的参数。
优选地,在模型的训练中,为防止发生过拟合,采用dropout网络和参数的二范数正则 对参数训练大小进行限制。
本发明方法还可以适用于其他社交网络,如微博,其实施和推特实施方式基本相同,具 体过程不再详细说明。
本发明上述实施例中的参数是根据实验结果确定的,即测试不同的参数组合,选取准确 率较优的一组参数。在实际以上的测试中,可根据需求对上述参数进行适当调整也可实现本 发明的目的。
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技 术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (13)
1.一种基于双向跨模态注意力网络模型的股价预测方法,其特征在于,所述方法包括如下步骤:
第一步,选取数据集,爬取股价闭市序列数据和相应的社交文本数据集,并对社交文本数据进行预处理;
第二步,针对社交文本数据,利用词向量将文本序列转化成向量特征表示;针对股价闭市序列数据,将连续股价闭市序列进行三分类处理,转化成离散数据表示;
第三步,对股价闭市序列数据和社交文本数据集分别利用循环神经网络进行建模,利用双向的跨模态的注意力机制融合两部分模块,分别学习提取与预测目标相关的股价闭市序列和社交文本序列;
第四步,切分数据集,利用训练样本学习网络模型的参数并利用验证集进行参数调优;
第五步,利用基于双向跨模态注意力的网络模型预测目标数据中的股价趋势。
2.根据权利要求1所述的股价预测方法,其特征在于,所述股价信息是指:爬取金融网站上标准普尔500指数上的股市收盘股价信息。
3.根据权利要求1所述的股价预测方法,其特征在于,所述社交文本信息是指社交平台上有关标准普尔500中股票的用户状态文本信息。
4.根据权利要求1所述的股价预测方法,其特征在于,所述第一步中,所述对社交文本数据进行预处理是指:对爬取的社交文本数据信息进行去停止词、特殊符号、链接的替换操作。
5.根据权利要求1所述的股价预测方法,其特征在于,所述第二步中,利用词向量将文本序列转化成向量特征表示,按照以下步骤生成:
(1)对文本预处理好的社交文本数据,利用词向量模型word2vec进行训练,学习出整个文本库中每个词的词向量表示;记词向量的维度为De;
(2)生成社交文本级别的向量表示;针对有关股票的某一条社交文本信息,根据已获取的词向量,对该条社交文本所有词的词向量的每一维进行平均池化操作,即,将该条社交文本中的Nword个词的维度为Nword*De词向量矩阵使用维度上的平均池化,得到一个De维的社交文本表示;
(3)生成天级别的向量表示;针对某一天的股票相关社交文本表示,根据所述步骤(2)的方法获取了Ntweet个社交文本的社交文本级别的向量表示后,针对Ntweet*De为维度的天级别的股票文本矩阵表示,在词向量的每一维上采用最大、最小和平均池化操作,得到一个3*De的该天的股票文本的向量特征表示。
6.根据权利要求1所述的股价预测方法,其特征在于,所述第二步中,将连续股价序列进行三分类处理是指:针对爬取的原始收盘股价序列特征,若当天的收盘价高于前一天的收盘价,则使用+1作为当天的股价特征表示,反之,则用-1作为当天的股价特征表示,若当天的收盘价与前一天的收盘价持平,则用0作为当天的股价特征表示,连续股价序列特征转化为了一个取自{+1,0,-1}的三分类序列特征。
7.根据权利要求1所述的股价预测方法,其特征在于,所述第三步中,利用一个编码-解码组成的注意力机制,利用循环神经网络对股价序列数据进行建模,所述编码-解码组成的注意力机制为:在编码端使用注意力机制选择相关的外部股票,在解码端对于整个序列选择相关的序列特征;包括如下步骤:
(1)在编码端使用注意力机制选择相关的外部股票:
(a)输入序列长度为T的M支外部股票[X1,...XM],其中每支股票是一个长度为T的向量表示;
(b)利用输入计算注意力权重:
其中表示长短时记忆网络的隐藏状态,Xm,表示第m支股票的序列输入,Wen、Uen分别表示编码端注意力计算全局权重参数、隐藏状态的权重参数和第m支股票的序列输入的权重参数,表示对后的注意力权重;
(c)注意力权重用于选择与预测股票相关的外部股价特征:
其中,每个元素表示基于注意力权重α对第d天的M只股票的输入数据X进行重要性的再分配;采用此特征更新记忆单元的状态值;
(2)在解码端对于整个序列选择相关序列特征:
(a)输入编码端传入的每一时刻记忆单元的状态特征以及文本模块输入序列特征,对其采用注意力机制选择整个序列中与预测值相关的序列特征;注意力权重计算方式为:
其中,Tt表示社交文本模块的输入特征,Wde、Ude分别表示解码端注意力计算全局权重参数、隐藏状态的权重参数和编码端传入的隐藏状态对应的权重参数,QT表示第t天的文本向量对应的权重参数,表示对后的注意力权重;注意力权重用于选择相关的编码器端的记忆单元状态;
(b)通过注意力权重计算状态序列加权和的表示:
其中,表示时间序列中每个时间上的编码器隐藏状态对应的注意力权重,Cd表示基于编码器隐藏状态的注意力机制的综合表示;该表示与目标股的历史时间序列共同更新解码端的记忆单元状态。
8.根据权利要求1所述的股价预测方法,其特征在于,所述第三步中,利用循环神经网络对社交文本数据集进行建模是指:对预处理得到了向量化的文本序列表示后,使用长短时记忆网络对文本序列进行建模,包括如下步骤:
(1)输入为[E1,...,ET],表示目标股票的序列长为T的社交文本向量,如所述第二步中对社交文本预处理后的向量表示;
(2)利用股价序列模块中的加权序列和表示Cd,参与文本注意力权重的计算:
其中,Wtext和Utext分别表示社交文本中的注意力计算公式全局权重、隐藏状态的权重参数和社交文本输入的权重参数;QC表示股价序列模块中的加权序列和对应的权重参数;表示对进行softmax得到的注意力权重;
(3)此文本注意力权重可计算得文本序列的加权和特征:
其中,表示时间序列中每个时间上的社交文本输入对应的注意力权重,Ctext表示基于社交文本输入的注意力机制的加权和综合表示;
(4)特征Ctext用于更新记忆单元的状态:
其中,表示每次LSTM更新前后的隐藏状态表示,Ctext即基于社交文本输入的注意力机制的加权和综合表示。
9.根据权利要求1所述的股价预测方法,其特征在于,所述第三步中,利用双向的跨模态的注意力机制是指,在股价网络模块的解码端,利用文本的输入特征[E1,...,ET]帮助训练序列注意力权重;在文本网络模块,利用了股价模块中计算得到的隐藏状态加权和表示Cd,对文本注意力权重进行更新。
10.根据权利要求1所述的股价预测方法,其特征在于,所述第四步中,切分数据集是指,对于整个股价序列数据集合推特文本数据集,按照时间进行数据集的切分,利用切分好的训练集训练模型参数,利用验证集进行参数调优。
11.根据权利要求1所述的股价预测方法,其特征在于,所述第五步中,利用基于双向跨模态注意力的网络模型预测目标股价趋势,包括如下步骤:
(1)按照所述第三步得到的与预测目标相关的股价序列和社交文本序列,即,股价序列模块解码端和社交文本模块的每一时刻的隐藏单元状态
(2)取前述步骤(1)中的两部分特征最后一天的状态表示并进行拼接得到
(3)利用前述得到的拼接特征进行预测:
其中,采用sigmoid作为激活函数σ;vo,Wo,bo,bv为网络中需要训练的参数,Wo,bo分别表示拼接后连接的第一层全连接层的权重和偏置参数,vo,bv分别表示第二层全连接层的权重和偏置参数。
12.根据权利要求11所述的股价预测方法,其特征在于,进一步包括:步骤(4),在模型训练期间,采用dropout网络和参数的二范数正则对参数进行限制。
13.一种基于双向跨模态注意力网络模型的股价预测***,其特征在于,采用如权利要求1-12之任一项所述的股价预测方法,所述***包括以下:
(1)输入表征单元,分别预处理原始股价闭市数据和推特文本数据,离散化原始股价闭市数据,利用词向量序列化推特文本数据;
(2)文本与价格序列建模单元,对输入表征的股价数据和文本数据进行序列建模,利用相互信息计算两部分数据的注意力权重,选取相关输入表征;
(3)预测生成单元,取得文本和价格序列建模中的最后一天的隐藏状态并拼接,接入双层的全连接层最后sigmoid激活输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535943.9A CN109598387A (zh) | 2018-12-14 | 2018-12-14 | 基于双向跨模态注意力网络模型的股价预测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535943.9A CN109598387A (zh) | 2018-12-14 | 2018-12-14 | 基于双向跨模态注意力网络模型的股价预测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109598387A true CN109598387A (zh) | 2019-04-09 |
Family
ID=65960833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811535943.9A Pending CN109598387A (zh) | 2018-12-14 | 2018-12-14 | 基于双向跨模态注意力网络模型的股价预测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598387A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363568A (zh) * | 2019-06-06 | 2019-10-22 | 上海交通大学 | 融合文本多主题信息的股票价格预测方法、***及介质 |
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析*** |
CN111680107A (zh) * | 2020-08-11 | 2020-09-18 | 南昌木本医疗科技有限公司 | 一种基于人工智能和区块链的金融预测*** |
CN111986730A (zh) * | 2020-07-27 | 2020-11-24 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 一种预测siRNA沉默效率的方法 |
WO2021068528A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于卷积神经网络的注意力权重计算方法、装置及设备 |
WO2021094920A1 (en) * | 2019-11-14 | 2021-05-20 | International Business Machines Corporation | Fusing multimodal data using recurrent neural networks |
CN113052661A (zh) * | 2021-04-14 | 2021-06-29 | 京东数字科技控股股份有限公司 | 属性信息的获取方法和装置、电子设备和存储介质 |
CN113343922A (zh) * | 2021-06-30 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 视频识别方法、装置、电子设备及存储介质 |
CN113807964A (zh) * | 2021-09-16 | 2021-12-17 | 陈炜 | 一种预测股票价格和确定参数的方法、设备及存储介质 |
WO2023129272A1 (en) * | 2021-12-29 | 2023-07-06 | Fidelity Information Services, Llc | Processing sequences of multi-modal entity features using convolutional neural networks |
-
2018
- 2018-12-14 CN CN201811535943.9A patent/CN109598387A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363568A (zh) * | 2019-06-06 | 2019-10-22 | 上海交通大学 | 融合文本多主题信息的股票价格预测方法、***及介质 |
WO2021068528A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于卷积神经网络的注意力权重计算方法、装置及设备 |
US11915123B2 (en) | 2019-11-14 | 2024-02-27 | International Business Machines Corporation | Fusing multimodal data using recurrent neural networks |
AU2020385264B2 (en) * | 2019-11-14 | 2023-12-14 | International Business Machines Corporation | Fusing multimodal data using recurrent neural networks |
WO2021094920A1 (en) * | 2019-11-14 | 2021-05-20 | International Business Machines Corporation | Fusing multimodal data using recurrent neural networks |
GB2604552A (en) * | 2019-11-14 | 2022-09-07 | Ibm | Fusing multimodal data using recurrent neural networks |
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111241234B (zh) * | 2019-12-27 | 2023-07-18 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111414749B (zh) * | 2020-03-18 | 2022-06-21 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析*** |
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析*** |
CN111986730A (zh) * | 2020-07-27 | 2020-11-24 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 一种预测siRNA沉默效率的方法 |
CN111680107B (zh) * | 2020-08-11 | 2020-12-08 | 上海竞动科技有限公司 | 一种基于人工智能和区块链的金融预测*** |
CN111680107A (zh) * | 2020-08-11 | 2020-09-18 | 南昌木本医疗科技有限公司 | 一种基于人工智能和区块链的金融预测*** |
CN113052661A (zh) * | 2021-04-14 | 2021-06-29 | 京东数字科技控股股份有限公司 | 属性信息的获取方法和装置、电子设备和存储介质 |
CN113052661B (zh) * | 2021-04-14 | 2024-04-09 | 京东科技控股股份有限公司 | 属性信息的获取方法和装置、电子设备和存储介质 |
CN113343922A (zh) * | 2021-06-30 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 视频识别方法、装置、电子设备及存储介质 |
CN113343922B (zh) * | 2021-06-30 | 2024-04-19 | 北京达佳互联信息技术有限公司 | 视频识别方法、装置、电子设备及存储介质 |
CN113807964A (zh) * | 2021-09-16 | 2021-12-17 | 陈炜 | 一种预测股票价格和确定参数的方法、设备及存储介质 |
WO2023129272A1 (en) * | 2021-12-29 | 2023-07-06 | Fidelity Information Services, Llc | Processing sequences of multi-modal entity features using convolutional neural networks |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及*** | |
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN107832400B (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
Wang et al. | Coupled multi-layer attentions for co-extraction of aspect and opinion terms | |
Zhu et al. | Hierarchical attention flow for multiple-choice reading comprehension | |
CN103778215B (zh) | 一种基于情感分析和隐马尔科夫模型融合的股市预测方法 | |
Aydoğan et al. | Improving the accuracy using pre-trained word embeddings on deep neural networks for Turkish text classification | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN109635109A (zh) | 基于lstm并结合词性及多注意力机制的句子分类方法 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
Zhang et al. | Deep stock ranker: A LSTM neural network model for stock selection | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
CN108984775A (zh) | 一种基于商品评论的舆情监控方法及*** | |
CN110188348A (zh) | 一种基于深度神经网络的中文语言处理模型及方法 | |
Larsen et al. | 9. A mathematical approach to categorization and labeling of qualitative data: The latent categorization method | |
Basnet et al. | Improving Nepali news recommendation using classification based on LSTM recurrent neural networks | |
Chen et al. | Online sales prediction via trend alignment-based multitask recurrent neural networks | |
CN109033073A (zh) | 文本蕴含识别方法及装置 | |
Farimani et al. | Leveraging latent economic concepts and sentiments in the news for market prediction | |
Zhang et al. | Dual-attention graph convolutional network | |
Zheng et al. | Named entity recognition in electric power metering domain based on attention mechanism | |
Hwang et al. | Recent deep learning methods for tabular data | |
CN107392229A (zh) | 一种基于最面向社会关系抽取的网络表示方法 | |
Wang et al. | Sentiment analysis of commodity reviews based on ALBERT-LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190409 |