CN110941713A - 基于主题模型的自优化金融资讯版块分类方法 - Google Patents

基于主题模型的自优化金融资讯版块分类方法 Download PDF

Info

Publication number
CN110941713A
CN110941713A CN201811107536.8A CN201811107536A CN110941713A CN 110941713 A CN110941713 A CN 110941713A CN 201811107536 A CN201811107536 A CN 201811107536A CN 110941713 A CN110941713 A CN 110941713A
Authority
CN
China
Prior art keywords
text
stock
classification
block
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811107536.8A
Other languages
English (en)
Other versions
CN110941713B (zh
Inventor
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Original Assignee
Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Instrument Electric (group) Co Ltd Central Research Institute filed Critical Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority to CN201811107536.8A priority Critical patent/CN110941713B/zh
Publication of CN110941713A publication Critical patent/CN110941713A/zh
Application granted granted Critical
Publication of CN110941713B publication Critical patent/CN110941713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于主题模型的自优化金融资讯版块分类方法,包括以下步骤:1)获取网络抓取的股票证券行业资讯文本,对所述文本进行分词处理,获取与所述文本对应的词汇;2)判断是否需要进行去重处理,若是,则去重后返回步骤1),若否,则执行步骤3);3)从所述词汇中提取股票名称和/或股票代码,记录每一股票名称或股票代码对应的股票版块,形成与所述文本对应的版块标签;4)基于所述词汇利用自动更新的关联版块预测模型获得关联预测概率;5)基于版块标签和关联预测概率获得所述文本在某个版块分类上的评分,以评分最高的版块分类作为推荐分类。与现有技术相比,本发明具有良好的自动扩展能力与随时间自动优化的能力。

Description

基于主题模型的自优化金融资讯版块分类方法
技术领域
本发明涉及金融数据处理技术领域,尤其是涉及一种基于主题模型的自优化金融资讯版块分类方法。
背景技术
在金融证券行业,资讯消息对于从业人员是不可忽视的重要参考信息来源,因此消息的及时性、准确性、可靠性成为了行业从业人员非常关心的问题。随着信息时代的到来,资讯的获取途径也逐渐向网络化、信息化进行转移,越来越多的信息化手段能够辅助行业人员进行咨询的获取、汇聚。但相应的,在信息的***时代,如何有效的筛选、甄别和分类获取的咨询,对于行业人员第一时间聚焦到有效、相关的咨询信息具有重要意义。在这其中,咨询文本对应的股票版块分类是一个最为迫切、常见的需求。
针对网络各类信息源获取/爬取的咨询文本信息,目前也有几种基于自然语言处理技术的文本分类方法可以辅助人工进行文本分类,但是目前绝大多数分类算法都需要来源于数量庞大的具有标注的数据,而且随着技术、市场的不断变化,文本的分类规则和具体标记有可能也会发生相应的改变,因此很多基于历史上的人工标记的咨询版块分类数据训练得出的分类算法,并不能很好的适用于新的咨询。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于主题模型的自优化金融资讯版块分类方法。
本发明的目的可以通过以下技术方案来实现:
一种基于主题模型的自优化金融资讯版块分类方法,包括以下步骤:
1)获取网络抓取的股票证券行业资讯文本,对所述文本进行分词处理,获取与所述文本对应的词汇;
2)判断是否需要进行去重处理,若是,则去重后返回步骤1),若否,则执行步骤3);
3)从所述词汇中提取股票名称和/或股票代码,记录每一股票名称或股票代码对应的股票版块,形成与所述文本对应的版块标签;
4)基于所述词汇利用自动更新的关联版块预测模型获得关联预测概率;
5)基于步骤4)的版块标签和步骤5)的关联预测概率获得所述文本在某个版块分类上的评分,以评分最高的版块分类作为推荐分类。
进一步地,所述去重处理具体为:
采用TF-IDF向量计算当前文本与历史文本的相似度,删除相似度大于设定阈值的文本。
进一步地,所述历史文本为从当前文本接收时间起过去1小时内的文本。
进一步地,所述关联版块预测模型的训练优化具体为:
101)以历史文本及其词汇作为语料库,对语料库中的每个词汇w随机赋予一个topic编号;
102)扫描语料库,对每个词汇w,使用Gibbs Sampling公式对其采样,更新其topic编号,直至Gibbs Sampling收敛;
103)建立语料库的topic-word共现频率矩阵;
104)以所述topic-word共现频率矩阵作为训练数据,以版块标签作为训练目标,进行关联版块预测模型的分类训练优化。
进一步地,所述分类训练优化基于随机森林实现,所述随机森林中的参数k通过以下公式选择:
k=log2d+log2c+1
式中,d为标签库中资讯总数,c为标签库中的分类数量。
进一步地,所述关联版块预测模型按设定周期进行训练优化。
进一步地,所述文本在某个版块分类上的评分的计算公式为:
Figure BDA0001808260010000021
式中,ki为所述文本在第i个版块分类所属股票名称或股票代码出现的次数,k为所有股票名称或股票代码在该文本中出现的次数,RFi为所述文本在第i个版块分类上的关联预测概率。
与现有技术相比,本发明通过持续抓取互联网上的金融资讯,自动形成不断累积和演化的语料库与标签库,通过语料库与标签库定期的训练生成符合时代变化和技术更新的资讯股票版块关联预测模型,解决金融类资讯版块分类问题中,标记数据量小、难以生成,且难以随时代技术的发展而变化的问题。相对于传统的标记数据训练方法,该方法具有良好的自动扩展能力与随时间自动优化的能力。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于主题模型的自优化金融资讯版块分类方法,包括以下步骤:1)获取网络抓取的股票证券行业资讯文本,对所述文本进行分词处理,获取与所述文本对应的词汇;2)判断是否需要进行去重处理,若是,则去重后返回步骤1),若否,则执行步骤3);3)从所述词汇中提取股票名称和/或股票代码,记录每一股票名称或股票代码对应的股票版块,形成与所述文本对应的版块标签;4)基于所述词汇利用自动更新的关联版块预测模型获得关联预测概率;5)基于步骤4)的版块标签和步骤5)的关联预测概率获得所述文本在某个版块分类上的评分,以评分最高的版块分类作为推荐分类。
如图1所示,本***处理流程如下:
1)针对网络抓取的股票证券行业资讯文本,首先利用成熟的中英文分词技术,结合金融行业特定词典,进行分词处理。
2)分词后的文本数据与历史数据库对比,排除重复多余的资讯,对于去重方法,本发明采用TF-IDF向量计算两条文本的相似程度,对于相似度过大的两条咨询,认为是重复咨询,计算方式如下:
Figure BDA0001808260010000031
上式为单词i在资讯j中的TFIDF值。其中TF计算单词出现次数与资讯分词后单词总数之比,IDF为全库单词数与包含单词i的资讯数量比值的对数。
值得注意的是,由于资讯库在持续累积,因此本方法仅对过去1小时内抓取的资讯进行IDF库计算,而每条新抓取的资讯,均与1小时内所有其他资讯进行逐一比对TFIDF向量的相似度,最终重复判定如下:
Figure BDA0001808260010000041
当上述相似度大于给定重复判定阈值时,讲判定为该两条资讯重复,会把时间更新的一条标记为重复新闻。
3)去重之后的有效文本存储入语料库,作为文本主题聚类训练的储备数据。语料库储存所有爬取的资讯的文本,每条新闻的所有文字为1条语料。
4)对于资讯中可能存在的股票名称、股票代码进行提取,提取出的对应股票检查其所属的股票版块(每只股票所属版块通过证券交易所数据获取,并经过从业人员验证认可,该映射关系变动较小,无需频繁更新)。
5)对于4)中的结果,当一条资讯包含的所有股票均属于同一版块的情况下(排除一些无主题股评情况的影响),将该资讯标记为其对应的版块标签,存入标签库。标签库包含了新闻的文本以及其对应的板块分类标签(如“汽车行业”等),标签库每条数据格式为:<新闻文本,板块分类标签>。
6)同时,标签库也将包含人工处理和标定的资讯分类结果。
7)对于步骤3)中存储的文本语料库数据,进行LDA主题聚类运算,具体算法如下:
·1.对语料库中的每篇文档中的每个词汇w,随机的赋予一个topic编号z;
·2.重新扫描语料库,对每个词w,使用Gibbs Sampling公式对其采样,求出它的topic,在语料中更新;
·3.重复步骤2,直到Gibbs Sampling收敛;
·4.统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型。
值得注意的是,上述LDA模型生成过程可能持续时间较长,且过程中可能加入新的爬取资讯,为保证模型收敛,我们选取***数据进入较少的时段(交易时间以外的时段新闻资讯产生速率会降低),并且在LDA训练开始后对于新加入的资讯不予计入。上述LDA训练过程每天进行一次即可,目的是能够使模型随着资讯的积累不断的优化。
8)对于标签库中的数据,进行LDA模型分析后,形成单条资讯属于各不同主题的概率分布,步骤如下所示:
1.对当前文档中的每个单词专栏w随机初始化一个topic编号z;
2.使用Gibbs Sampling公式,对每个w重新采样其topic;
3.重复以上过程,直至Gibbs Sampling收敛;
4.统计文档中的topic分布。
进一步的,将得到的每条资讯对应的topic分布形成的数据向量作为训练数据,利用资讯的版块标记作为训练目标,进行随机森林(或其他分类算法)的分类训练和优化。在随机森林中,对于决策树的每个结点,显示从当前节点的全部属性集合中随机选择一个包含k个属性的子集,之后再从这个子集中选择一个最优的划分属性。而在金融资讯中,训练集是随着时间增长的,为了平衡训练集的大小、样本相关度变化以及资讯分类数量的变化,本发明创新性的定义了k的选取方式如下:
k=log2d+log2c+1
其中,d为标签库中资讯总数,c为标签库中的分类数量。可见,随着数据总量和分类数量的增长,k会有相应的变化,但是并不会增长很快。
9)有了8)中的预测模型,对于新的一条资讯,经分词和去重处理后,就可以利用其LDA特征(即topic概率分布)进行分类。再结合其包含股票所属版块与步骤8)中的模型预测版块结果进行该资讯的关联版块推荐,这里给出资讯在某个分类上的关联度评分算法,根据该算法计算得到的关联度最高的分类,作为推荐分类给出。
Figure BDA0001808260010000051
上式中,ki为该资讯第i个分类所属股票代码出现的次数,k为所有股票代码在该资讯中出现次数,RF为对应分类的关联预测概率。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种基于主题模型的自优化金融资讯版块分类方法,其特征在于,包括以下步骤:
1)获取网络抓取的股票证券行业资讯文本,对所述文本进行分词处理,获取与所述文本对应的词汇;
2)判断是否需要进行去重处理,若是,则去重后返回步骤1),若否,则执行步骤3);
3)从所述词汇中提取股票名称和/或股票代码,记录每一股票名称或股票代码对应的股票版块,形成与所述文本对应的版块标签;
4)基于所述词汇利用自动更新的关联版块预测模型获得关联预测概率;
5)基于步骤4)的版块标签和步骤5)的关联预测概率获得所述文本在某个版块分类上的评分,以评分最高的版块分类作为推荐分类。
2.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述去重处理具体为:
采用TF-IDF向量计算当前文本与历史文本的相似度,删除相似度大于设定阈值的文本。
3.根据权利要求2所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述历史文本为从当前文本接收时间起过去1小时内的文本。
4.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述关联版块预测模型的训练优化具体为:
101)以历史文本及其词汇作为语料库,对语料库中的每个词汇w随机赋予一个topic编号;
102)扫描语料库,对每个词汇w,使用Gibbs Sampling公式对其采样,更新其topic编号,直至Gibbs Sampling收敛;
103)建立语料库的topic-word共现频率矩阵;
104)以所述topic-word共现频率矩阵作为训练数据,以版块标签作为训练目标,进行关联版块预测模型的分类训练优化。
5.根据权利要求4所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述分类训练优化基于随机森林实现,所述随机森林中的参数k通过以下公式选择:
k=log2d+log2c+1
式中,d为标签库中资讯总数,c为标签库中的分类数量。
6.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述关联版块预测模型按设定周期进行训练优化。
7.根据权利要求1所述的基于主题模型的自优化金融资讯版块分类方法,其特征在于,所述文本在某个版块分类上的评分的计算公式为:
Figure FDA0001808258000000021
式中,ki为所述文本在第i个版块分类所属股票名称或股票代码出现的次数,k为所有股票名称或股票代码在该文本中出现的次数,RFi为所述文本在第i个版块分类上的关联预测概率。
CN201811107536.8A 2018-09-21 2018-09-21 基于主题模型的自优化金融资讯版块分类方法 Active CN110941713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811107536.8A CN110941713B (zh) 2018-09-21 2018-09-21 基于主题模型的自优化金融资讯版块分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811107536.8A CN110941713B (zh) 2018-09-21 2018-09-21 基于主题模型的自优化金融资讯版块分类方法

Publications (2)

Publication Number Publication Date
CN110941713A true CN110941713A (zh) 2020-03-31
CN110941713B CN110941713B (zh) 2023-12-22

Family

ID=69904548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811107536.8A Active CN110941713B (zh) 2018-09-21 2018-09-21 基于主题模型的自优化金融资讯版块分类方法

Country Status (1)

Country Link
CN (1) CN110941713B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032653A (zh) * 2021-04-02 2021-06-25 盐城师范学院 一种基于大数据的舆情监测平台
CN117648909A (zh) * 2024-01-29 2024-03-05 国网湖北省电力有限公司信息通信公司 一种基于人工智能的电力***公文数据管理***及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105718444A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 基于新闻语料的金融概念对应股票关联方法及其装置
CN105930360A (zh) * 2016-04-11 2016-09-07 云南省国家税务局 一种基于Storm流计算框架文本索引方法及***
CN105975478A (zh) * 2016-04-09 2016-09-28 北京交通大学 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105718444A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 基于新闻语料的金融概念对应股票关联方法及其装置
CN105975478A (zh) * 2016-04-09 2016-09-28 北京交通大学 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN105930360A (zh) * 2016-04-11 2016-09-07 云南省国家税务局 一种基于Storm流计算框架文本索引方法及***
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚立: "基于主题模型的改进随机森林算法在文本分类中的应用", 计算机应用与软件 *
杨春明;何天翔;: "元搜索引擎的结果去重及排序研究", 软件 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032653A (zh) * 2021-04-02 2021-06-25 盐城师范学院 一种基于大数据的舆情监测平台
CN117648909A (zh) * 2024-01-29 2024-03-05 国网湖北省电力有限公司信息通信公司 一种基于人工智能的电力***公文数据管理***及方法
CN117648909B (zh) * 2024-01-29 2024-04-12 国网湖北省电力有限公司信息通信公司 一种基于人工智能的电力***公文数据管理***及方法

Also Published As

Publication number Publication date
CN110941713B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
US20210382878A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN110888990B (zh) 文本推荐方法、装置、设备及介质
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN108376129B (zh) 一种纠错方法及装置
CN107102993B (zh) 一种用户诉求分析方法和装置
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
WO2017091985A1 (zh) 停用词识别方法与装置
CN112883734B (zh) 区块链安全事件舆情监测方法及***
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
CN111782793A (zh) 智能客服处理方法和***及设备
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN114757178A (zh) 核心产品词提取方法、装置、设备及介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN111324705A (zh) 自适应性调整关连搜索词的***及其方法
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN113095073A (zh) 语料标签生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant