CN109284504A - 利用深度学习模型的证券研报分析方法及装置 - Google Patents
利用深度学习模型的证券研报分析方法及装置 Download PDFInfo
- Publication number
- CN109284504A CN109284504A CN201811228761.7A CN201811228761A CN109284504A CN 109284504 A CN109284504 A CN 109284504A CN 201811228761 A CN201811228761 A CN 201811228761A CN 109284504 A CN109284504 A CN 109284504A
- Authority
- CN
- China
- Prior art keywords
- subordinate sentence
- security
- report
- analyzed
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种利用深度学习模型的证券研报分析方法,包括:接收待分析证券研报;对该证券研报进行分句得到各分句;将各分句采用第一深度学习模型进行评分得到各分句的第一评分并基于第一评分确定观点类分句;将各观点类分句采用第二深度学习模型进行评分得到各观点类分句的第二评分并基于第二评分确定行业观点类分句;将各行业观点类分句采用第三深度学习模型进行评分得到各行业观点类分句的第三评分;根据各行业观点类分句的第二、第三评分确定该证券研报的整体情感趋势。本发明利用深度学习模型进行智能化评分的方式实现对证券研报的分析,可解决现有技术针对证券研报分析方案的效率及准确率较低的问题,提高对证券研报分析的效率及准确率。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种利用深度学习模型的证券研报分析方法及装置。
背景技术
证券研究报告,也可简称为证券研报,是指相关研究人员(比如证券公司内的研究人员等)对证券及相关产品的价值、或者影响其市场价格的因素进行分析,所作出的研究报告。
对证券研报进行分析,可以及时了解证券研报中关于行业、政策、投资可行性等方面情况,但目前主要还是通过人工方式对证券研报进行阅读分析,以获得作者的核心观点等有用信息,此种方式需要耗费大量人力,效率及准确率都较低。此外,也有通过情感词典进行分析的方案,比如通过与情感词典中关键语库进行比对,以对证券研报中的语句进行情感分析,此种方式相对割裂了语句的前后关系,很难对语句进行比较完善准确的分析,尤其在针对具有因果、转折类等关联关系的语句时,分析的准确率更为不理想。
相关技术中针对证券研报分析方案的效率及准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种利用深度学习模型的证券研报分析方法、装置、计算机设备及可读存储介质,进而在一定程度上克服上述现有技术中存在的问题,可提高对证券研报分析的效率及准确率。
本发明是通过下述技术方案来解决上述技术问题:
根据本发明的一个方面,提供了一种利用深度学习模型的证券研报分析方法,包括如下步骤:
S01,接收输入的待分析证券研报;
S02,对所述待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
S03,将待分析证券研报中的各分句采用预先训练好的第一深度学习模型进行评分,以得到针对待分析证券研报中的各分句的第一评分,并基于第一评分从待分析证券研报中的各分句中确定观点类分句;
S04,将待分析证券研报中的各观点类分句采用预先训练好的第二深度学习模型进行评分,以得到针对待分析证券研报中的各观点类分句的第二评分,并基于第二评分从待分析证券研报中的各观点类分句中确定行业观点类分句;
S05,将待分析证券研报中的各行业观点类分句采用预先训练好的第三深度学习模型进行评分,以得到针对待分析证券研报中的各行业观点类分句的第三评分,所述第三评分用于确定待分析证券研报中的各行业观点类分句的情感趋势;
S06,根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势。
进一步的,S02对待分析证券研报进行分句处理,得到待分析证券研报中的各分句,包括:
根据预置类型的符号对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
基于预置的包括分词与数值的对应转换关系的字典,确定待分析证券研报中的各分词对应的数值;
根据确定结果,将待分析证券研报中的各分句转换成数值向量格式的分句。
进一步的,第一深度学习模型的训练过程,包括如下步骤:
步骤110,确定第一数据集,所述第一数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类;
步骤120,将标注有第一类型标签的各分句进行分词处理,得到标注有第一类型标签的各分词;
步骤130,根据预置规则将标注有第一类型标签的各分词转换为对应的第一数值,并将标注有第一类型标签的各分词与其对应的第一数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤140,根据所述字典,将标注有第一类型标签的各分句转换成数值向量格式的分句,形成第一数值向量分句集合;
步骤150,从第一数值向量分句集合中选取第一预置数量的分句作为第一训练数据;
步骤160,将第一训练数据经深度学习模型进行训练,以获得第一深度学习模型。
进一步的,第二深度学习模型的训练过程,包括如下步骤:
步骤210,确定第二数据集,所述第二数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类;
步骤220,将标注有第二类型标签的各分句进行分词处理,得到标注有第二类型标签的各分词;
步骤230,根据预置规则将标注有第二类型标签的各分词转换为对应的第二数值,并将标注有第二类型标签的各分词与其对应的第二数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤240,根据所述字典,将标注有第二类型标签的各分句转换成数值向量格式的分句,形成第二数值向量分句集合;
步骤250,从第二数值向量分句集合中选取第二预置数量的分句作为第二训练数据;
步骤260,将第二训练数据经深度学习模型进行训练,以获得第二深度学习模型。
进一步的,第三深度学习模型的训练过程,包括如下步骤:
步骤310,确定第三数据集,所述第三数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类,且标注有行业观点类标签的分句同时具有预先标注的第三类型标签,第三类型标签包括看涨类和看跌类;
步骤320,将标注有第三类型标签的各分句进行分词处理,得到标注有第三类型标签的各分词;
步骤330,根据预置规则将标注有第三类型标签的各分词转换为对应的第三数值,并将标注有第三类型标签的各分词与其对应的第三数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤340,根据所述字典,将标注有第三类型标签的各分句转换成数值向量格式的分句,形成第三数值向量分句集合;
步骤350,从第三数值向量分句集合中选取第三预置数量的分句作为第三训练数据;
步骤360,将第三训练数据经深度学习模型进行训练,以获得第三深度学习模型。
进一步的,所述深度学习模型为长短期记忆网络机器学习模型。
进一步的,S06根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势,包括:
计算待分析证券研报中的每个行业观点类分句的第二评分与第三评分的积,作为每个行业观点类分句的第一积值;
计算所有行业观点类分句的第一积值的和,作为第一和值;
计算所有行业观点类分句的第二评分的和,作为第二和值;
将第一和值除以第二和值,得到待分析证券研报的整体情感评分;
判断所述待分析证券研报的整体情感评分是否高于预置评分阈值;
若是,则确定待分析证券研报的整体情感趋势为看涨,若否,则确定待分析证券研报的整体情感趋势为看跌。
进一步的,所述方法还包括:
根据待分析证券研报中的各行业观点类分句的第三评分确定与证券研报的整体情感趋势一致的行业观点类分句;
从确定结果中选取第三评分最高或最低的预设个数的行业观点类分句,作为待分析证券研报的核心观点并输出。
为了实现上述目的,本发明还提供一种利用深度学习模型的证券研报分析装置,包括:
接收模块,用于接收输入的待分析证券研报;
分句模块,用于对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
第一评分模块,用于将待分析证券研报中的各分句采用预先训练好的第一深度学习模型进行评分,以得到针对待分析证券研报中的各分句的第一评分,并基于第一评分从待分析证券研报中的各分句中确定观点类分句;
第二评分模块,用于将待分析证券研报中的各观点类分句采用预先训练好的第二深度学习模型进行评分,以得到针对待分析证券研报中的各观点类分句的第二评分,并基于第二评分从待分析证券研报中的各观点类分句中确定行业观点类分句;
第三评分模块,用于将待分析证券研报中的各行业观点类分句采用预先训练好的第三深度学习模型进行评分,以得到针对待分析证券研报中的各行业观点类分句的第三评分,所述第三评分用于确定待分析证券研报中的各行业观点类分句的情感趋势;
情感趋势确定模块,用于根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势。
进一步的,所述分句模块,包括:
分句单元,用于根据预置类型的符号对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
分词单元,用于对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
数值确定单元,用于基于预置的包括分词与数值的对应转换关系的字典,确定待分析证券研报中的各分词对应的数值;
转换单元,用于根据确定结果,将待分析证券研报中的各分句转换成数值向量格式的分句。
进一步的,第一深度学习模型的训练过程,包括如下步骤:
步骤110,确定第一数据集,所述第一数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类;
步骤120,将标注有第一类型标签的各分句进行分词处理,得到标注有第一类型标签的各分词;
步骤130,根据预置规则将标注有第一类型标签的各分词转换为对应的第一数值,并将标注有第一类型标签的各分词与其对应的第一数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤140,根据所述字典,将标注有第一类型标签的各分句转换成数值向量格式的分句,形成第一数值向量分句集合;
步骤150,从第一数值向量分句集合中选取第一预置数量的分句作为第一训练数据;
步骤160,将第一训练数据经深度学习模型进行训练,以获得第一深度学习模型。
进一步的,第二深度学习模型的训练过程,包括如下步骤:
步骤210,确定第二数据集,所述第二数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类;
步骤220,将标注有第二类型标签的各分句进行分词处理,得到标注有第二类型标签的各分词;
步骤230,根据预置规则将标注有第二类型标签的各分词转换为对应的第二数值,并将标注有第二类型标签的各分词与其对应的第二数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤240,根据所述字典,将标注有第二类型标签的各分句转换成数值向量格式的分句,形成第二数值向量分句集合;
步骤250,从第二数值向量分句集合中选取第二预置数量的分句作为第二训练数据;
步骤260,将第二训练数据经深度学习模型进行训练,以获得第二深度学习模型。
进一步的,第三深度学习模型的训练过程,包括如下步骤:
步骤310,确定第三数据集,所述第三数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类,且标注有行业观点类标签的分句同时具有预先标注的第三类型标签,第三类型标签包括看涨类和看跌类;
步骤320,将标注有第三类型标签的各分句进行分词处理,得到标注有第三类型标签的各分词;
步骤330,根据预置规则将标注有第三类型标签的各分词转换为对应的第三数值,并将标注有第三类型标签的各分词与其对应的第三数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤340,根据所述字典,将标注有第三类型标签的各分句转换成数值向量格式的分句,形成第三数值向量分句集合;
步骤350,从第三数值向量分句集合中选取第三预置数量的分句作为第三训练数据;
步骤360,将第三训练数据经深度学习模型进行训练,以获得第三深度学习模型。
进一步的,所述深度学习模型为长短期记忆网络机器学习模型。
进一步的,情感趋势确定模块,包括:
第一计算单元,用于计算待分析证券研报中的每个行业观点类分句的第二评分与第三评分的积,作为每个行业观点类分句的第一积值;
第二计算单元,用于计算所有行业观点类分句的第一积值的和,作为第一和值;
第三计算单元,用于计算所有行业观点类分句的第二评分的和,作为第二和值;
第四计算单元,用于将第一和值除以第二和值,得到待分析证券研报的整体情感评分;
判断单元,用于判断待分析证券研报的整体情感评分是否高于预置评分阈值;
情感趋势确定单元,用于在所述判断单元的判断结果为是时,确定待分析证券研报的整体情感趋势为看涨,在所述判断单元的判断结果为否时,确定待分析证券研报的整体情感趋势为看跌。
进一步的,所述装置,还包括:
行业观点类分句确定模块,用于根据待分析证券研报中的各行业观点类分句的第三评分确定与证券研报的整体情感趋势一致的行业观点类分句;
选取模块,用于从确定结果中选取第三评分最高或最低的预设个数的行业观点类分句,作为待分析证券研报的核心观点并输出。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
本发明提供的利用深度学习模型的证券研报分析方法、装置、计算机设备及可读存储介质,可先将待分析证券研报进行分句处理,再将各分句采用预先训练好的第一深度学习模型进行评分以得到各分句的第一评分,并根据第一评分判断分句是否为观点类分句,然后将判断出的观点类分句采用预先训练好的第二深度学习模型进行评分以得到各观点类分句的第二评分,并根据第二评分判断各观点类分句是否为行业观点类分句,接下来将判断出的行业观点类分句采用预先训练好的第三深度学习模型进行评分以得到各行业观点类分句的第三评分,并根据第三评分判断各行业观点类分句的情感趋势,最后根据各行业观点类分句的第二评分及第三评分确定该待分析证券研报的整体情感趋势。通过上述方案,可基于预先训练好的深度学习模型通过评分的方式挑选出观点类分句、行业观点类分句以及确定行业观点类分句的情感趋势,并最终通过客观的评分确定该证券研报的整体情感趋势,由此,上述利用深度学习模型智能评分并分析的过程,不但可大大节省人力,而且可提高分析效率及分析结果的准确率。
附图说明
图1是根据本发明实施例的利用深度学习模型的证券研报分析方法的一种可选的流程示意图;
图2是根据本发明实施例的利用深度学习模型的证券研报分析装置的一种可选的程序模块示意图;
图3是根据本发明实施例的利用深度学习模型的证券研报分析装置的另一种可选的程序模块示意图;
图4是根据本发明实施例的利用深度学习模型的证券研报分析装置的又一种可选的程序模块示意图;
图5是根据本发明实施例的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
下面结合附图对本发明提供的利用深度学习模型的证券研报分析方法进行说明。
图1为本发明利用深度学习模型的证券研报分析方法的一种可选的流程示意图,如图1所示,该方法可以包括以下步骤:
S01,接收输入的待分析证券研报。
在本实施例中,比如可以一篇证券研报为单位进行其核心观点的提取,当接收到一篇待分析的证券研报后,可先对该篇证券研报的格式进行判断。具体的,可判断该篇证券研报的格式是否为文本类型,比如“.txt”格式、“.doc”格式等。若判断结果为否,也就是说该证券研报的格式不是文本类型,则可将该证券研报的格式转换为文本类型,比如该证券研报的格式为便携文件格式(PDF格式),则可使用现有的“PDFParser”等工具将PDF格式的证券研报转换txt格式的证券研报。以此,可统一接收到的待分析证券研报的格式,以更方便且更高效的对待分析证券研报的内容进行读取。
S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句。
在本实施例中,可根据预置类型的符号对待分析证券研报进行分句处理,比如可根据逗号“,”、句号“。”、点号“.”、破折号“—”、中括号“[]、【】”、分号“;”等符号,对待分析证券研报进行分句处理,以得到待分析证券研报中的各分句。
在得到待分析证券研报中的各分句后,可进一步采用jieba分词模块对各分句进行分词处理,以得到待分析证券研报中的各分词。
在得到待分析证券研报中的各分词后,可基于在预置的包括分词与数值的对应转换关系的字典,确定待分析证券研报中各分词所对应的数值(在本实施例中为整数型数值)。
然后,再根据各分词与其对应数值的确定结果,将待分析证券研报中每个由多个分词组成的分句转换成数值向量格式的分句。以此,可在后续步骤中,将数值向量格式的分句输入深度学习模型中,以便深度学习模型对各分句进行评分并可根据评分对分句的类型进行判断。
S03,将待分析证券研报中的各分句采用预先训练好的第一深度学习模型进行评分,以得到针对待分析证券研报中的各分句的第一评分,并基于第一评分从待分析证券研报中的各分句中确定观点类分句。
首先,先对第一深度学习模型的训练过程进行说明,该训练过程可包括如下步骤:
步骤110,确定第一数据集。
比如,预先挑选预置篇数(比如300篇)的证券研报,比如可挑选一定比例的观点比较明显、尤其是行业观点比较明显、情感趋势比较清晰的证券研报,还可挑选一定比例的观点比较模糊、尤其是行业观点比较模糊、情感趋势不太清晰的证券研报等,然后可对这些证券研报的摘要部分进行分句处理以得到多个分句,然后以人工方式对每个分句进行第一类型标签的标注,该第一类型标签可包括观点类和非观点类。也就是说,经第一类型标签标注后,在第一数据集中的分句可包括观点类分句和非观点类分句。
步骤120,将标注有第一类型标签的各分句进行分词处理,得到标注有第一类型标签的各分词。
比如,可使用现有jieba分词模块对第一数据集中标注有第一类型标签的各分句进行分词处理,以得到标注有第一类型标签的各分词。
步骤130,根据预置规则将标注有第一类型标签的各分词转换为对应的第一数值,并将标注有第一类型标签的各分词与其对应的第一数值存储于预置的包括分词与数值的对应转换关系的字典中。
具体的,可根据预置规则(比如随机转换,或者可根据实际需求预先设定词语到数值的转换规则等)将标注有第一类型标签的各分词一一转换为数值(在本实施例中,可称为第一数值),其中,第一数值比如可为integer整数型的数值,并可将标注有第一类型标签的各分词与第一数值存储于预置的包括分词与数值的对应转换关系的字典中。
在本实施例中,可将标注有第一类型标签的各分词与第一数值的对应转换关系以文件或者数据表的形式保存于字典中,内容可如表1所示。
表1分词与数值的对应转换关系
分词 | 数值 |
分词1 | 2 |
分词2 | 175 |
分词3 | 50 |
... | ... |
步骤140,根据字典,将标注有第一类型标签的各分句转换成数值向量格式的分句,形成第一数值向量分句集合。
也即,可根据上述包括分词与数值的对应转换关系的字典,将每个标注有第一类型标签的由多个分词组成的分句,转换成数值向量格式的分句,并形成数值向量分句集合,在本实施例中,可称为第一数值向量分句集合。
步骤150,从第一数值向量分句集合中选取第一预置数量的分句作为第一训练数据。
通常在进行深度学习模型训练之前,可先确定用于训练的训练集和用于测试的测试集,在本实施例中,可从上述第一数值向量分句集合中选取预置数量(在本实施例中,可称为第一预置数量,比如占比90%)的分句作为第一训练数据,剩余(比如占比10%)的分句则可作为第一测试数据。
步骤160,将第一训练数据经深度学习模型进行训练,以获得第一深度学习模型。
在本实施例中,该深度学习模型可为长短期记忆网络(LSTM,Long Short-TermMemory)机器学习模型,在训练之前,可对一些关键参数进行设置,比如嵌入层大小(embedding size)、隐藏层大小(hidden layer size)、批次训练大小(batch size)、全样本循环次数(num epochs)、遗忘率(dropout)、激活函数(activation,分类型变量使用sigmoid)、损失函数(loss,分类型问题使用binary-crossentropy)等参数。然后,可将第一训练数据输入LSTM机器学习模型进行训练,以在训练完毕后获得第一深度学习模型。
此外,在训练完毕获得第一深度学习模型后,还可将第一测试数据输入第一深度学习模型进行测试,以得到该第一深度学习模型的准确率,经多次试验,我们的第一深度学习模型在第一测试数据上的准确率可达到85%左右。在准确率低于预定标准(比如70%)时,可通过调整参数、对训练集数据进行调整等方式重新进行训练,以得到符合预定标准的准确率的第一深度学习模型,从而保证利用训练好的第一深度模型可更为准确的对分句进行评分并判断出句子类型。
由此,可将待分析证券研报中的各分句采用上述第一深度学习模型进行评分以得到针对待分析证券研报中的各分句的第一评分,并可基于第一评分从待分析证券研报中的各分句中确定观点类分句。
在本实施例中,该第一评分可为该模型认为的评分,该评分可视为概率(在0至1之间),比如模型认为比较偏向于观点类的分句,则评分更接近于1(比如0.75),模型认为比较偏向于非观点类的分句,则评分更接近于0(比如0.22)。
在得到第一评分后,可根据该第一评分与预先设置的第一分数阈值进行比较,并根据比较结果判断出观点类分句,比如可将第一评分大于第一分数阈值的分句判定为观点类分句,将第一评分不大于第一分数阈值的分句判定为非观点分句。在本实施例中,可将该第一分数阈值设置为0.5,也就是说,第一评分不大于0.5的分句均可确定为非观点类分句,不再参与后续步骤;第一评分大于0.5的分句均可确定为观点类分句,可以继续参与后续步骤。
以此,采用预先训练好的第一深度学习模型,以智能评分的方式分析出分句的类型(观点类分句或非观点类分句),一方面,可大大节省人力,提高分析效率;另一方面,可提高分析结果的准确率。
S04,将待分析证券研报中的各观点类分句采用预先训练好的第二深度学习模型进行评分,以得到针对待分析证券研报中的各观点类分句的第二评分,并基于第二评分从待分析证券研报中的各观点类分句中确定行业观点类分句。
首先,先对第二深度学习模型的训练过程进行说明,该训练过程可包括如下步骤:
步骤210,确定第二数据集。
比如,预先挑选预置篇数(比如300篇)证券研报,比如可挑选一定比例的观点比较明显、尤其是行业观点比较明显、情感趋势比较清晰的证券研报,还可挑选一定比例的观点比较模糊、尤其是行业观点比较模糊、情感趋势不太清晰的证券研报等,然后可对证券研报的摘要部分进行分句处理以得到多个分句,然后以人工方式对每个分句进行第一类型标签的标注,该第一类型标签可包括观点类和非观点类。也就是说,经第一类型标签标注后,第二数据集中的分句可包括观点类分句和非观点类分句。
然后,再以人工方式对每个观点类分句进行第二类型标签的标注,该第二类型标签可包括行业观点类和非行业观点类。也就是说,经第二类型标签标注后,在第二数据集中的分句可包括观点类分句和非观点类分句,且观点类分句中还包括行业观点类分句和非行业观点类分句。
步骤220,将标注有第二类型标签的各分句进行分词处理,得到标注有第二类型标签的各分词。
也就是说,将第二数据集中的标注有第二类型标签的各分句(也即第二数据集中的行业观点类分句和非行业观点类分句)进行分词处理,比如,可使用现有jieba分词模块对上述各分句进行分词处理,以得到标注有第二类型标签的各分词。
步骤230,根据预置规则将标注有第二类型标签的各分词转换为对应的第二数值,并将标注有第二类型标签的各分词与其对应的第二数值存储于预置的包括分词与数值的对应转换关系的字典中。
具体的,可根据预置规则(比如随机转换,或者可根据实际需求预先设定词语到数值的转换规则等)将标注有第二类型标签的各分词一一转换为数值(在本实施例中,可称为第二数值),其中,第一数值比如可为integer整数型的数值,并可将标注有第二类型标签的各分词与第二数值存储于预置的包括分词与数值的对应转换关系的字典中。
在本实施例中,可将标注有第二类型标签的各分词与第二数值的对应转换关系以文件或者数据表的形式保存于字典中,内容可如上述表1所示。
步骤240,根据字典,将标注有第二类型标签的各分句转换成数值向量格式的分句,形成第二数值向量分句集合。
也即,可根据上述包括分词与数值的对应转换关系的字典,将每个标注有第二类型标签的由多个分词组成的分句,转换成数值向量格式的分句,并形成数值向量分句集合,在本实施例中,可称为第二数值向量分句集合。
步骤250,从第二数值向量分句集合中选取第二预置数量的分句作为第二训练数据。
通常在进行深度学习模型训练之前,可先确定用于训练的训练集和用于测试的测试集,在本实施例中,可从上述第二数值向量分句集合中选取预置数量(在本实施例中,可称为第二预置数量,比如占比90%)的分句作为第二训练数据,剩余(比如占比10%)的分句则可作为第二测试数据。
步骤260,将第二训练数据经深度学习模型进行训练,以获得第二深度学习模型。
在本实施例中,该深度学习模型可为长短期记忆网络(LSTM,Long Short-TermMemory)机器学习模型,在训练之前,可对一些关键参数进行设置,比如嵌入层大小(embedding size)、隐藏层大小(hidden layer size)、批次训练大小(batch size)、全样本循环次数(num epochs)、遗忘率(dropout)、激活函数(activation,分类型变量使用sigmoid)、损失函数(loss,分类型问题使用binary-crossentropy)等参数。然后,可将第二训练数据输入LSTM机器学习模型进行训练,以在训练完毕后获得第二深度学习模型。
此外,在训练完毕获得第二深度学习模型后,还可将第二测试数据输入第二深度学习模型进行测试,以得到该第二深度学习模型的准确率。经多次试验,我们的第二深度学习在第二测试数据上的准确率可达到85%左右。在准确率低于预定标准(比如70%)时,可通过调整参数、对训练集数据进行调整等方式重新进行训练,以得到符合预定标准的准确率的第二深度学习模型,从而保证利用训练好的第二深度模型可更为准确的对分句进行评分并判断出句子类型。
由此,可将由S03中判定的待分析证券研报中的各观点类分句采用上述第二深度学习模型进行评分,以得到针对待分析证券研报中的各观点类分句的第二评分,并可基于第二评分从待分析证券研报中的观点类分句中确定行业观点类分句。
在本实施例中,该第二评分可为该模型认为的评分,该评分可视为概率(在0至1之间),比如模型认为比较偏向于行业观点类的分句,则评分更接近于1(比如0.85),模型认为比较偏向于非行业观点类的分句,则评分更接近于0(比如0.3)。在得到第二评分后,可根据该第二评分与预先设置的第二分数阈值进行比较,并根据比较结果判断出观点类分句,比如可将第二评分大于第二分数阈值的分句判定为行业观点类分句,第二评分不大于第二分数阈值的分句判定为非行业观点分句。在本实施例中,可将该第二分数阈值设置为0.5,也就是说,第二评分不大于0.5的分句均可确定为非行业观点类分句,不再参与后续步骤;第二评分大于0.5的分句均可确定为行业观点类分句,可以继续参与后续步骤。
以此,采用预先训练好的第二深度学习模型,以智能评分的方式分析出观点类分句的具体类型(行业观点类分句或非行业观点类分句),一方面,可大大节省人力,提高分析效率;另一方面,可提高分析结果的准确率。
S05,将待分析证券研报中的各行业观点类分句采用预先训练好的第三深度学习模型进行评分,以得到针对待分析证券研报中的各行业观点类分句的第三评分,所述第三评分用于确定待分析证券研报中的各行业观点类分句的情感趋势。
首先,先对第三深度学习模型的训练过程进行说明,该训练过程可包括如下步骤:
步骤310,确定第三数据集。
比如,我们可预先精心挑选预置篇数(比如300篇)证券研报,比如可挑选一定比例的观点比较明显、尤其是行业观点比较明显、情感趋势比较清晰的证券研报,还可挑选一定比例的观点比较模糊、尤其是行业观点比较模糊、情感趋势不太清晰的证券研报等,然后可对证券研报的摘要部分进行分句处理以得到多个分句,然后以人工方式对每个分句进行第一类型标签的标注,该第一类型标签可包括观点类和非观点类。也就是说,经第一类型标签标注后,第一数据集中的分句可包括观点类分句和非观点类分句。
然后,再以人工方式对每个观点类分句进行第二类型标签的标注,该第二类型标签可包括行业观点类和非行业观点类。也就是说,经第二类型标签标注后,第二数据集中的分句可包括观点类分句和非观点类分句,同时观点类分句中还包括行业观点类分句和非行业观点类分句。
接下来,再以人工方式对每个行业观点类分句进行第三类型标签的标注,该第三类型标签可包括看涨类和看跌类。也就是说,经第三类型标签标注后,第三数据集中的分句可包括观点类分句和非观点类分句,且观点类分句中还包括行业观点类分句和非行业观点类分句,且行业观点类分句中还包括看涨类行业观点类分句和看跌类行业观点类分句。
步骤320,将标注有第三类型标签的各分句进行分词处理,得到标注有第三类型标签的各分词。
也就是说,将第三数据集中标注有第三类型的各分句(也即第三数据集中的看涨类行业观点类分句和看跌类行业观点类分句)进行分词处理。比如,可使用现有jieba分词模块对上述各分句进行分词处理,以得到标注有第三类型标签的各分词。
步骤330,根据预置规则将标注有第三类型标签的各分词转换为对应的第三数值,并将标注有第三类型标签的各分词与其对应的第三数值存储于预置的包括分词与数值的对应转换关系的字典中。
具体的,可根据预置规则(比如随机转换,或者可根据实际需求预先设定词语到数值的转换规则等)将标注有第三类型标签的各分词一一转换为数值(在本实施例中,可称为第三数值),其中,第三数值比如可为integer整数型的数值,并可将标注有第三类型标签的各分词与第三数值存储于预置的包括分词与数值的对应转换关系的字典中。
在本实施例中,可将标注有第三类型标签的各分词与第三数值的对应转换关系以文件或者数据表的形式保存于字典中,内容可如上述表1所示。
步骤340,根据所述字典,将标注有第三类型标签的各分句转换成数值向量格式的分句,形成第三数值向量分句集合。
也即,可根据上述包括分词与数值的对应转换关系的字典,将每个标注有第三类型标签的由多个分词组成的分句,转换成数值向量格式的分句,并形成数值向量分句集合,在本实施例中,可称为第三数值向量分句集合。
步骤350,从第三数值向量分句集合中选取第三预置数量的分句作为第三训练数据。
通常在进行深度学习模型训练之前,可先确定用于训练的训练集和用于测试的测试集,在本实施例中,可从上述第三数值向量分句集合中选取预置数量(在本实施例中,可称为第三预置数量,比如占比90%)的分句作为第三训练数据,剩余(比如占比10%)的分句则可作为第三测试数据。
步骤360,将第三训练数据经深度学习模型进行训练,以获得第三深度学习模型。
在本实施例中,该深度学习模型可为长短期记忆网络(LSTM,Long Short-TermMemory)机器学习模型,在训练之前,可对一些关键参数进行设置,比如嵌入层大小(embedding size)、隐藏层大小(hidden layer size)、批次训练大小(batch size)、全样本循环次数(num epochs)、遗忘率(dropout)、激活函数(activation,分类型变量使用sigmoid)、损失函数(loss,分类型问题使用binary-crossentropy)等参数。然后,可将第三训练数据输入LSTM机器学习模型进行训练,以在训练完毕后获得第三深度学习模型。
此外,在训练完毕获得第三深度学习模型后,还可将第三测试数据输入第三深度学习模型进行测试,以得到该第三深度学习模型的准确率。经多次试验,我们的第三深度学习在第三测试数据上的准确率可达到85%左右。在准确率低于预定标准(比如70%)时,可通过调整参数、对训练集数据进行调整等方式重新进行训练,以得到符合预定标准的准确率的第三深度学习模型,从而保证利用训练好的第三深度模型可更为准确的对分句进行评分并根据需求判断出句子类型。
由此,可将由S04中判定的待分析证券研报中的各行业观点类分句采用上述第三深度学习模型进行评分,以得到针对待分析证券研报中的各行业观点类分句的第三评分,并可基于第三评分确定待分析证券研报中的行业观点类分句的情感趋势,也即看涨类行业观点类分句还是看跌类行业观点类分句。
在本实施例中,该第三评分可为该模型认为的评分,该评分可视为概率(在0至1之间),比如模型认为比较偏向于看涨类行业观点类的分句,则评分更接近于1(比如0.85),模型认为比较偏向于看跌类行业观点类的分句,则评分更接近于0(比如0.3)。在得到第三评分后,可根据该第三评分与预先设置的第三分数阈值进行比较,并根据比较结果进一步判断看涨或看跌情绪的程度,比如可将第三评分大于第三分数阈值的分句判定为看涨情绪较高或看跌情绪较低的行业观点类分句,将第三评分不大于第三分数阈值的分句判定为看涨情绪较低或看跌情绪较高的行业观点类分句。在本实施例中,可将该第二分数阈值设置为0.5-0.6之间,优选设置为0.6,也就是说,第三评分大于0.6的分句均可确定为看涨情绪较高或看跌情绪较低的行业观点类分句;第三评分不大于0.6的分句均可确定为看涨情绪较低或看跌情绪较高的行业观点类分句。
以此,采用预先训练好的第三深度学习模型,以智能评分的方式得出用于确定各行业观点类分句的情感趋势的第三类评分,以用来分析各行业观点类分句是看涨类行业观点类分句还是看跌类行业观点类分句,以及看涨看跌情绪的程度,一方面,可大大节省人力,提高分析效率;另一方面,可提高分析结果的准确率。
S06,根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势。
在本实施例中,在S04中得到待分析证券研报中的各行业观点类分句的第二评分,以及在S05中得到待分析证券研报中的各行业观点类分句的第三评分后,可结合这两个评分对待分析证券研报的整体情感趋势进行评估。
在具体实现时,可先计算待分析证券研报中的每个行业观点类分句的第二评分与第三评分的积,作为每个行业观点类分句的第一积值;再计算所有行业观点类分句的第一积值的和,作为第一和值;然后计算所有行业观点类分句的第二评分的和,作为第二和值;接下来,将第一和值除以第二和值,以得到待分析证券研报的整体情感评分(也可以理解为涨跌评分),由于第二评分和第三评分都处于0至1之间,因此,计算得到的待分析证券研报的整体情感得分也处于0至1之间。
在计算得到待分析证券研报的整体情感评分之后,可继续判断该整体情感评分是否高于预置评分阈值,该预置评分阈值比如可根据实际经验设置为0.5-0.6之间,优选设置为0.6。
若整体情感评分高于上述预置评分阈值,则可确定该待分析证券研报的整体情感趋势为看涨,若整体情感评分不高于上述预置评分阈值,则可确定该待分析证券研报的整体情感趋势为看跌。
以此,可通过对深度学习模型评出的待分析证券研报中的各行业观点类分句的第二评分(可用于确定是否为较为明显的行业观点)及第三评分(可用于确定各行业观点的情感趋势)进行综合计算的方式,得到待分析证券研报的整体情感评分,并通过该待分析证券研报的整体情感评分与预定指标的比较结果,得到待分析证券研报的整体情感趋势,从而可得到更为客观且准确的情感趋势分析结果。
此外,在确定待分析证券研报的整体情感趋势之后,还可对待分析证券研报中的核心观点进行提取。
在具体实现时,比如可将待分析证券研报中的各行业观点类分句根据其对应的第三评分分为两部分,包括第三评分大于0.6的部分和第三评分不大于0.6的部分,且两部分均可以正序(分值从大到小)进行排序。由此,可根据各行业观点类分句的第三评分确定与证券研报的整体情感趋势一致的行业观点类分句。
也就是说,若待分析证券研报的整体情感趋势为看涨,则可将第三评分大于0.6的行业观点类分句,确定为与待分析证券研报的整体情感趋势一致的行业观点类分句;若待分析证券研报的整体情感趋势为看跌,则可将第三评分不大于0.6的行业观点类分句,确定为与待分析证券研报的整体情感趋势一致的行业观点类分句。
在确定了与待分析证券研报的整体情感趋势一致的行业观点类分句之后,若待分析证券研报的整体情感趋势为看涨,可选取第三评分最高的预设个数的行业观点类分句,作为待分析证券研报的核心观点并输出;若待分析证券研报的整体情感趋势为看跌,可选取第三评分最低的预设个数的行业观点类分句,作为待分析证券研报的核心观点并输出。其中该预设个数可根据实际需求进行设置,在本实施例中,比如可设置为2个。
也就是说,若待分析证券研报的整体情感趋势为看涨,则可在上述第三评分大于0.6的部分中选取2个第三评分最高(即排序为第一、第二)的行业观点类分句,作为该待分析证券研报的核心观点并输出;若待分析证券研报的整体情感趋势为看跌,则可在上述第三评分不大于0.6的部分中选取2个第三评分最低(即排序为倒数第一、第二)的行业观点类分句,作为该待分析证券研报的核心观点并输出。
以此,可根据客观的评分结果选取出与待分析证券研报的整体情感趋势一致且最代表核心观点的分句,从而可保证选取结果的准确性,以便于用户准确了解该待分析证券研报的核心观点。
根据本实施例的各个实施方式,可先将待分析证券研报进行分句处理,再将各分句采用预先训练好的第一深度学习模型进行评分以得到各分句的第一评分,并根据第一评分判断分句是否为观点类分句,然后将判断出的观点类分句采用预先训练好的第二深度学习模型进行评分以得到各观点类分句的第二评分,并根据第二评分判断各观点类分句是否为行业观点类分句,接下来将判断出的行业观点类分句采用预先训练好的第三深度学习模型进行评分以得到各行业观点类分句的第三评分,并根据第三评分判断各行业观点类分句的情感趋势,最后根据各行业观点类分句的第二评分及第三评分确定该待分析证券研报的整体情感趋势。通过上述方案,可基于预先训练好的深度学习模型通过评分的方式挑选出观点类分句、行业观点类分句以及确定行业观点类分句的情感趋势,并最终通过客观的评分确定该证券研报的整体情感趋势,由此,上述利用深度学习模型智能评分并分析的过程,不但可大大节省人力,而且可提高分析效率及分析结果的准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
实施例二
基于上述实施例一中提供的利用深度学习模型的证券研报分析方法,本实施例中提供一种利用深度学习模型的证券研报分析装置,具体地,图2至4示出了该利用深度学习模型的证券研报分析装置的可选的结构框图,该利用深度学习模型的证券研报分析装置被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述利用深度学习模型的证券研报分析装置在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图2所示,该利用深度学习模型的证券研报分析装置20可包括:
接收模块21,可接收输入的待分析证券研报;
分句模块22,可用于对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
第一评分模块23,可用于将待分析证券研报中的各分句采用预先训练好的第一深度学习模型进行评分,以得到针对待分析证券研报中的各分句的第一评分,并基于第一评分从待分析证券研报中的各分句中确定观点类分句;
第二评分模块24,可用于将待分析证券研报中的各观点类分句采用预先训练好的第二深度学习模型进行评分,以得到针对待分析证券研报中的各观点类分句的第二评分,并基于第二评分从待分析证券研报中的各观点类分句中确定行业观点类分句;
第三评分模块25,可用于将待分析证券研报中的各行业观点类分句采用预先训练好的第三深度学习模型进行评分,以得到针对待分析证券研报中的各行业观点类分句的第三评分,所述第三评分用于确定待分析证券研报中的各行业观点类分句的情感趋势;
情感趋势确定模块26,可用于根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势。
进一步的,参看图3所示,分句模块22,可具体包括:
分句单元221,可用于根据预置类型的符号对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
分词单元222,可用于对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
数值确定单元223,可用于基于预置的包括分词与数值的对应转换关系的字典,确定待分析证券研报中的各分词对应的数值;
转换单元224,可用于根据确定结果,将待分析证券研报中的各分句转换成数值向量格式的分句。
在本实施例中,第一深度学习模型的训练过程,可包括如下步骤:
步骤110,确定第一数据集,所述第一数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类;
步骤120,将标注有第一类型标签的各分句进行分词处理,得到标注有第一类型标签的各分词;
步骤130,根据预置规则将标注有第一类型标签的各分词转换为对应的第一数值,并将标注有第一类型标签的各分词与其对应的第一数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤140,根据字典,将标注有第一类型标签的各分句转换成数值向量格式的分句,形成第一数值向量分句集合;
步骤150,从第一数值向量分句集合中选取第一预置数量的分句作为第一训练数据;
步骤160,将第一训练数据经深度学习模型进行训练,以获得第一深度学习模型。
在本实施例中,第二深度学习模型的训练过程,可包括如下步骤:
步骤210,确定第二数据集,其中,第二数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类;
步骤220,将标注有第二类型标签的各分句进行分词处理,得到标注有第二类型标签的各分词;
步骤230,根据预置规则将标注有第二类型标签的各分词转换为对应的第二数值,并将标注有第二类型标签的各分词与其对应的第二数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤240,根据字典,将标注有第二类型标签的各分句转换成数值向量格式的分句,形成第二数值向量分句集合;
步骤250,从第二数值向量分句集合中选取第二预置数量的分句作为第二训练数据;
步骤260,将第二训练数据经深度学习模型进行训练,以获得第二深度学习模型。
在本实施例中,第三深度学习模型的训练过程,可包括如下步骤:
步骤310,确定第三数据集,其中,第三数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类,且标注有行业观点类标签的分句同时具有预先标注的第三类型标签,第三类型标签包括看涨类和看跌类;
步骤320,将标注有第三类型标签的各分句进行分词处理,得到标注有第三类型标签的各分词;
步骤330,根据预置规则将标注有第三类型标签的各分词转换为对应的第三数值,并将标注有第三类型标签的各分词与其对应的第三数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤340,根据字典,将标注有第三类型标签的各分句转换成数值向量格式的分句,形成第三数值向量分句集合;
步骤350,从第三数值向量分句集合中选取第三预置数量的分句作为第三训练数据;
步骤360,将第三训练数据经深度学习模型进行训练,以获得第三深度学习模型。
进一步的,深度学习模型为长短期记忆网络机器学习模型。
此外,参看图4所示,情感趋势确定模块26,可具体包括:
第一计算单元261,用于计算待分析证券研报中的每个行业观点类分句的第二评分与第三评分的积,作为每个行业观点类分句的第一积值;
第二计算单元262,用于计算所有行业观点类分句的第一积值的和,作为第一和值;
第三计算单元263,用于计算所有行业观点类分句的第二评分的和,作为第二和值;
第四计算单元264,用于将第一和值除以第二和值,得到待分析证券研报的整体情感评分;
判断单元265,用于判断待分析证券研报的整体情感评分是否高于预置评分阈值;
情感趋势确定单元266,可用于在判断单元265的判断结果为是时,确定待分析证券研报的整体情感趋势为看涨,在判断单元265的判断结果为否时,确定待分析证券研报的整体情感趋势为看跌。
进一步的,该证券研报的分析装置,还可包括:
行业观点类分句确定模块,用于根据待分析证券研报中的各行业观点类分句的第三评分确定与证券研报的整体情感趋势一致的行业观点类分句;
选取模块,用于从确定结果中选取第三评分最高或最低的预设个数的行业观点类分句,作为证券研报的核心观点并输出。
关于上述实施例中的装置,其中各个单元、模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
通过本实施例的各个实施方式,可先将待分析证券研报进行分句处理,再将各分句采用预先训练好的第一深度学习模型进行评分以得到各分句的第一评分,并根据第一评分判断分句是否为观点类分句,然后将判断出的观点类分句采用预先训练好的第二深度学习模型进行评分以得到各观点类分句的第二评分,并根据第二评分判断各观点类分句是否为行业观点类分句,接下来将判断出的行业观点类分句采用预先训练好的第三深度学习模型进行评分以得到各行业观点类分句的第三评分,并根据第三评分判断各行业观点类分句的情感趋势,最后根据各行业观点类分句的第二评分及第三评分确定该待分析证券研报的整体情感趋势。通过上述方案,可基于预先训练好的深度学习模型通过评分的方式挑选出观点类分句、行业观点类分句以及确定行业观点类分句的情感趋势,并最终通过客观的评分确定该证券研报的整体情感趋势,由此,上述利用深度学习模型智能评分并分析的过程,不但可大大节省人力,而且可提高分析效率及分析结果的准确率。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图5所示,本实施例的计算机设备50至少包括但不限于:可通过***总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件51-52的计算机设备50,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备50的内部存储单元,例如该计算机设备50的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备50的外部存储设备,例如该计算机设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备50的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备50的操作***和各类应用软件,例如实施例二的利用深度学习模型的证券研报分析装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备50的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如利用深度学习模型的证券研报分析装置等。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于利用深度学习模型的证券研报分析装置,被处理器执行时实现实施例一的利用深度学习模型的证券研报分析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (11)
1.一种利用深度学习模型的证券研报分析方法,其特征在于,包括如下步骤:
S01,接收输入的待分析证券研报;
S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
S03,将待分析证券研报中的各分句采用预先训练好的第一深度学习模型进行评分,以得到针对待分析证券研报中的各分句的第一评分,并基于第一评分从待分析证券研报中的各分句中确定观点类分句;
S04,将待分析证券研报中的各观点类分句采用预先训练好的第二深度学习模型进行评分,以得到针对待分析证券研报中的各观点类分句的第二评分,并基于第二评分从待分析证券研报中的各观点类分句中确定行业观点类分句;
S05,将待分析证券研报中的各行业观点类分句采用预先训练好的第三深度学习模型进行评分,以得到针对待分析证券研报中的各行业观点类分句的第三评分,所述第三评分用于确定待分析证券研报中的各行业观点类分句的情感趋势;
S06,根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势。
2.根据权利要求1所述的利用深度学习模型的证券研报分析方法,其特征在于,S02对待分析证券研报进行分句处理,得到待分析证券研报中的各分句,包括:
根据预置类型的符号对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
基于预置的包括分词与数值的对应转换关系的字典,确定待分析证券研报中的各分词对应的数值;
根据确定结果,将待分析证券研报中的各分句转换成数值向量格式的分句。
3.根据权利要求1所述的利用深度学习模型的证券研报分析方法,其特征在于,第一深度学习模型的训练过程,包括如下步骤:
步骤110,确定第一数据集,所述第一数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类;
步骤120,将标注有第一类型标签的各分句进行分词处理,得到标注有第一类型标签的各分词;
步骤130,根据预置规则将标注有第一类型标签的各分词转换为对应的第一数值,并将标注有第一类型标签的各分词与其对应的第一数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤140,根据所述字典,将标注有第一类型标签的各分句转换成数值向量格式的分句,形成第一数值向量分句集合;
步骤150,从第一数值向量分句集合中选取第一预置数量的分句作为第一训练数据;
步骤160,将第一训练数据经深度学习模型进行训练,以获得第一深度学习模型。
4.根据权利要求1所述的利用深度学习模型的证券研报分析方法,其特征在于,第二深度学习模型的训练过程,包括如下步骤:
步骤210,确定第二数据集,所述第二数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类;
步骤220,将标注有第二类型标签的各分句进行分词处理,得到标注有第二类型标签的各分词;
步骤230,根据预置规则将标注有第二类型标签的各分词转换为对应的第二数值,并将标注有第二类型标签的各分词与其对应的第二数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤240,根据所述字典,将标注有第二类型标签的各分句转换成数值向量格式的分句,形成第二数值向量分句集合;
步骤250,从第二数值向量分句集合中选取第二预置数量的分句作为第二训练数据;
步骤260,将第二训练数据经深度学习模型进行训练,以获得第二深度学习模型。
5.根据权利要求1所述的利用深度学习模型的证券研报分析方法,其特征在于,第三深度学习模型的训练过程,包括如下步骤:
步骤310,确定第三数据集,所述第三数据集包括预先对预置篇数的证券研报的摘要部分进行分句处理后得到的多个分句,其中每个分句具有预先标注的第一类型标签,第一类型标签包括观点类和非观点类,且标注有观点类标签的分句同时具有预先标注的第二类型标签,第二类型标签包括行业观点类和非行业观点类,且标注有行业观点类标签的分句同时具有预先标注的第三类型标签,第三类型标签包括看涨类和看跌类;
步骤320,将标注有第三类型标签的各分句进行分词处理,得到标注有第三类型标签的各分词;
步骤330,根据预置规则将标注有第三类型标签的各分词转换为对应的第三数值,并将标注有第三类型标签的各分词与其对应的第三数值存储于预置的包括分词与数值的对应转换关系的字典中;
步骤340,根据所述字典,将标注有第三类型标签的各分句转换成数值向量格式的分句,形成第三数值向量分句集合;
步骤350,从第三数值向量分句集合中选取第三预置数量的分句作为第三训练数据;
步骤360,将第三训练数据经深度学习模型进行训练,以获得第三深度学习模型。
6.根据权利要求3或4或5所述的利用深度学习模型的证券研报分析方法,其特征在于,所述深度学习模型为长短期记忆网络机器学习模型。
7.根据权利要求1所述的利用深度学习模型的证券研报分析方法,其特征在于,S06根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势,包括:
计算待分析证券研报中的每个行业观点类分句的第二评分与第三评分的积,作为每个行业观点类分句的第一积值;
计算所有行业观点类分句的第一积值的和,作为第一和值;
计算所有行业观点类分句的第二评分的和,作为第二和值;
将第一和值除以第二和值,得到待分析证券研报的整体情感评分;
判断所述待分析证券研报的整体情感评分是否高于预置评分阈值;
若是,则确定待分析证券研报的整体情感趋势为看涨,若否,则确定待分析证券研报的整体情感趋势为看跌。
8.根据权利要求1所述的利用深度学习模型的证券研报分析方法,其特征在于,还包括:
根据待分析证券研报中的各行业观点类分句的第三评分确定与证券研报的整体情感趋势一致的行业观点类分句;
从确定结果中选取第三评分最高或最低的预设个数的行业观点类分句,作为待分析证券研报的核心观点并输出。
9.一种利用深度学习模型的证券研报分析装置,其特征在于,包括:
接收模块,用于接收输入的待分析证券研报;
分句模块,用于对所述待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
第一评分模块,用于将待分析证券研报中的各分句采用预先训练好的第一深度学习模型进行评分以得到针对待分析证券研报中的各分句的第一评分,并基于第一评分从待分析证券研报中的各分句中确定观点类分句;
第二评分模块,用于将待分析证券研报中的各观点类分句采用预先训练好的第二深度学习模型进行评分以得到针对待分析证券研报中的各观点类分句的第二评分,并基于第二评分从待分析证券研报中的各观点类分句中确定行业观点类分句;
第三评分模块,用于将待分析证券研报中的各行业观点类分句采用预先训练好的第三深度学习模型进行评分以得到针对待分析证券研报中的各行业观点类分句的第三评分,所述第三评分用于确定待分析证券研报中的各行业观点类分句的情感趋势;
情感趋势确定模块,用于根据待分析证券研报中的各行业观点类分句的第二评分及第三评分确定待分析证券研报的整体情感趋势。
10.一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811228761.7A CN109284504A (zh) | 2018-10-22 | 2018-10-22 | 利用深度学习模型的证券研报分析方法及装置 |
PCT/CN2019/070287 WO2020082609A1 (zh) | 2018-10-22 | 2019-01-03 | 利用深度学习模型的证券研报分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811228761.7A CN109284504A (zh) | 2018-10-22 | 2018-10-22 | 利用深度学习模型的证券研报分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109284504A true CN109284504A (zh) | 2019-01-29 |
Family
ID=65177794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811228761.7A Pending CN109284504A (zh) | 2018-10-22 | 2018-10-22 | 利用深度学习模型的证券研报分析方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109284504A (zh) |
WO (1) | WO2020082609A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110295A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 大样本研报信息提取方法、装置、设备及存储介质 |
CN110889291A (zh) * | 2019-11-21 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习和区块链的研报评价方法 |
CN112257435A (zh) * | 2020-09-11 | 2021-01-22 | 安徽中科新辰技术有限公司 | 一种基于人工智能分词技术的警情数据治理方法 |
CN113553829A (zh) * | 2021-07-19 | 2021-10-26 | 中国工商银行股份有限公司 | 一种证券研究报告的观点识别方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090043637A1 (en) * | 2004-06-01 | 2009-02-12 | Eder Jeffrey Scott | Extended value and risk management system |
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要*** |
US20120226645A1 (en) * | 2011-03-04 | 2012-09-06 | UltraTick | Predicting the Performance of a Financial Instrument |
CN106384166A (zh) * | 2016-09-12 | 2017-02-08 | 中山大学 | 一种结合财经新闻的深度学习股市预测方法 |
CN106407236A (zh) * | 2015-08-03 | 2017-02-15 | 北京众荟信息技术有限公司 | 一种面向点评数据的情感倾向性检测方法 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN106844330A (zh) * | 2016-11-15 | 2017-06-13 | 平安科技(深圳)有限公司 | 文章情感的分析方法和装置 |
CN108256098A (zh) * | 2018-01-30 | 2018-07-06 | ***股份有限公司 | 一种确定用户评论情感倾向的方法及装置 |
CN108647823A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 基于深度学习的股票数据分析方法和装置 |
CN108647822A (zh) * | 2018-05-10 | 2018-10-12 | 平安科技(深圳)有限公司 | 电子装置、基于研报数据的预测方法和计算机存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062300A (zh) * | 2016-11-08 | 2018-05-22 | 中移(苏州)软件技术有限公司 | 一种基于中文文本进行情感倾向分析的方法及装置 |
CN107844558A (zh) * | 2017-10-31 | 2018-03-27 | 金蝶软件(中国)有限公司 | 一种分类信息的确定方法以及相关装置 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和*** |
-
2018
- 2018-10-22 CN CN201811228761.7A patent/CN109284504A/zh active Pending
-
2019
- 2019-01-03 WO PCT/CN2019/070287 patent/WO2020082609A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090043637A1 (en) * | 2004-06-01 | 2009-02-12 | Eder Jeffrey Scott | Extended value and risk management system |
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要*** |
US20120226645A1 (en) * | 2011-03-04 | 2012-09-06 | UltraTick | Predicting the Performance of a Financial Instrument |
CN106407236A (zh) * | 2015-08-03 | 2017-02-15 | 北京众荟信息技术有限公司 | 一种面向点评数据的情感倾向性检测方法 |
CN106384166A (zh) * | 2016-09-12 | 2017-02-08 | 中山大学 | 一种结合财经新闻的深度学习股市预测方法 |
CN106844330A (zh) * | 2016-11-15 | 2017-06-13 | 平安科技(深圳)有限公司 | 文章情感的分析方法和装置 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN108256098A (zh) * | 2018-01-30 | 2018-07-06 | ***股份有限公司 | 一种确定用户评论情感倾向的方法及装置 |
CN108647823A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 基于深度学习的股票数据分析方法和装置 |
CN108647822A (zh) * | 2018-05-10 | 2018-10-12 | 平安科技(深圳)有限公司 | 电子装置、基于研报数据的预测方法和计算机存储介质 |
Non-Patent Citations (4)
Title |
---|
张仰森;孙旷怡;杜翠兰;王建;佟玲玲;: "一种级联式微博情感分类器的构建方法" * |
李爱萍;邸鹏;段利国;: "基于句子情感加权算法的篇章情感分析" * |
杨江;彭石玉;侯敏;: "基于主题情感句的汉语评论文倾向性分析" * |
林政;谭松波;程学旗;: "基于情感关键句抽取的情感分类研究" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110295A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 大样本研报信息提取方法、装置、设备及存储介质 |
CN110110295B (zh) * | 2019-04-04 | 2023-10-20 | 平安科技(深圳)有限公司 | 大样本研报信息提取方法、装置、设备及存储介质 |
CN110889291A (zh) * | 2019-11-21 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习和区块链的研报评价方法 |
CN112257435A (zh) * | 2020-09-11 | 2021-01-22 | 安徽中科新辰技术有限公司 | 一种基于人工智能分词技术的警情数据治理方法 |
CN112257435B (zh) * | 2020-09-11 | 2024-05-14 | 安徽中科新辰技术有限公司 | 一种基于人工智能分词技术的警情数据治理方法 |
CN113553829A (zh) * | 2021-07-19 | 2021-10-26 | 中国工商银行股份有限公司 | 一种证券研究报告的观点识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020082609A1 (zh) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284504A (zh) | 利用深度学习模型的证券研报分析方法及装置 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
US20180181573A1 (en) | Search method and device for asking type query based on deep question and answer | |
Tian et al. | Towards predicting the best answers in community-based question-answering services | |
CN108717406A (zh) | 文本情绪分析方法、装置及存储介质 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及*** | |
Butler et al. | Financial forecasting using character n-gram analysis and readability scores of annual reports | |
CN109389418A (zh) | 基于lda模型的供电服务客户诉求识别方法 | |
CN106980667B (zh) | 一种给文章标注标签的方法和装置 | |
CN114240672B (zh) | 绿色资产的占比的识别方法及相关产品 | |
CN109388804A (zh) | 利用深度学习模型的证券研报核心观点提取方法及装置 | |
CN109189892A (zh) | 一种基于文章评论的推荐方法及装置 | |
CN111369148A (zh) | 对象指标的监测方法、电子装置及存储介质 | |
CN107992550A (zh) | 一种网络评论分析方法及*** | |
CN113240322B (zh) | 气候风险披露质量方法、装置、电子设备及存储介质 | |
CN113822040B (zh) | 一种主观题阅卷评分方法、装置、计算机设备及存储介质 | |
CN111221873A (zh) | 基于关联网络的企业间同名人识别方法及*** | |
CN110489514B (zh) | 提升事件抽取标注效率的***及方法、事件抽取方法及*** | |
Kelih et al. | Quantitative text typology: The impact of sentence length | |
CN116127155A (zh) | 一种措施推送方法、***、电子设备及存储介质 | |
CN110414819B (zh) | 一种工单评分方法 | |
CN113312482A (zh) | 问题分类方法、装置、电子设备及可读存储介质 | |
CN109460550A (zh) | 利用大数据的证券研报情感分析方法、装置及计算机设备 | |
Chang et al. | Validating halstead metrics for scratch program using process data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |