CN114969498A - 一种行业龙头信息的推荐方法及装置 - Google Patents

一种行业龙头信息的推荐方法及装置 Download PDF

Info

Publication number
CN114969498A
CN114969498A CN202110210125.7A CN202110210125A CN114969498A CN 114969498 A CN114969498 A CN 114969498A CN 202110210125 A CN202110210125 A CN 202110210125A CN 114969498 A CN114969498 A CN 114969498A
Authority
CN
China
Prior art keywords
industry
enterprise
information
target
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110210125.7A
Other languages
English (en)
Inventor
茹玉年
张鹏飞
顾松庠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110210125.7A priority Critical patent/CN114969498A/zh
Publication of CN114969498A publication Critical patent/CN114969498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种行业龙头信息的推荐方法及装置、电子设备和存储介质,其中,所述行业龙头信息的推荐方法包括:获取多个行业文本数据;将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度,从而可以得到更加准确的企业热度计算结果;在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,从而可以快速准确地从海量的行业信息中挖掘并推荐行业龙头企业信息。

Description

一种行业龙头信息的推荐方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种行业龙头信息的推荐方法及装置、电子设备和存储介质。
背景技术
行业龙头指在市场上对同行业板块中具有强大影响力和号召力的企业,使它不仅能带动同板块股票,甚至可以带动大盘指数上涨,给投资者提供了充足的获利空间,是一个优质的投资对象。同时,通过研究行业龙头企业的种类和特性,可以了解市场行情的发展趋势。因此,行业龙头对投资和市场分析都有极其重要的意义。
但是,市场风云变幻,行业龙头股也不是一成不变的。投资者需要实时更新市场信息,追踪最新的行情,分析市场数据,做出判断。然而市场数据来源众多、信息庞杂,无论是投资机构研究员还是投资者都很难具备各个行业的知识,因此如何快速准确地从海量的行业信息中挖掘并推荐行业龙头企业,是现有技术中需要解决的技术问题。
发明内容
本发明提供一种行业龙头信息的推荐方法及装置、电子设备和存储介质,用以解决现有技术中存在的技术缺陷。
本发明提供一种行业龙头信息的推荐方法,包括:
获取多个行业文本数据;
将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度;
在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
根据本发明提供的一种行业龙头信息的推荐方法,所述行业类别识别模型包括:编码网络、循环网络和分类器,所述行业文本数据包括多个句子;
将所述行业文本数据输入至行业类别识别模型,得到所述行业文本数据所属的行业类别,包括:
将所述行业文本数据输入至编码网络,得到每个句子的编码向量;
将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量;
将所述文章表示向量输入至分类器中,得到所述行业文本数据对应的行业标签分类结果及其概率值,根据所述行业标签分类结果确定所述行业文本数据所属的行业类别。
根据本发明提供的一种行业龙头信息的推荐方法,在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,包括:
在预先保存的知识图谱中获取目标企业的属性信息,其中,所述属性信息包括目标企业的规模、市值、上市时间、盈利状况和注册资金中的至少一项;
根据所述目标企业的属性信息和热度,构建目标企业排序所需要的排序特征,其中,所述排序特征包括市盈率、扣非市盈率、企业估值/息税前利润、企业估值/税后经营利润和产业链热度;
基于所述排序特征以及各个排序特征的权重值,得到每个所述目标企业的分值,并按照分值大小的顺序进行排序。
根据本发明提供的一种行业龙头信息的推荐方法,所述编码网络包括多个依次连接的编码层;
将所述行业文本数据输入至编码网络,得到每个句子的编码向量,包括:将所述行业文本数据进行分割,得到多个句子;
将每个所述句子依次经过多个编码层进行编码处理,基于最后一个编码层输出的编码向量得到每个句子的编码向量。
根据本发明提供的一种行业龙头信息的推荐方法,所述循环网络为双向长短期记忆网络;
将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量,包括:
将所述句子的编码向量按照从前到后的顺序依次输入至前向长短期记忆网络,得到第一隐向量;
将所述句子的编码向量按照从后到前的顺序依次输入至后向长短期记忆网络,得到第二隐向量;
将所述第一隐向量和所述第二隐向量合并,得到所述行业文本数据对应的文章表示向量。
根据本发明提供的一种行业龙头信息的推荐方法,根据所述目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度,包括:
确定目标时间段内每个目标企业所属的行业类别对应的企业信息作为目标企业信息;
统计所述目标企业信息中提及所述目标企业的企业名称的频次,以得到所述目标企业的热度。
本发明还提供一种行业龙头信息的推荐装置,包括:
获取模块,用于获取多个行业文本数据;
识别模块,用于将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
统计模块,用于根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度;
排序模块,用于在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
根据本发明提供的一种行业龙头信息的推荐装置,所述行业类别识别模型包括:编码网络、循环网络和分类器,所述行业文本数据包括多个句子;所述识别模块,包括:
编码单元,用于将所述行业文本数据输入至编码网络,得到每个句子的编码向量;
合成单元,用于将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量;
分类单元,用于将所述文章表示向量输入至分类器中,得到所述行业文本数据对应的行业标签分类结果及其概率值,根据所述行业标签分类结果确定所述行业文本数据所属的行业类别。
根据本发明提供的一种行业龙头信息的推荐装置,所述排序模块具体用于:在预先保存的知识图谱中获取目标企业的属性信息,其中,所述属性信息包括所述目标企业的规模、市值、上市时间、盈利状况和注册资金中的至少一项;
根据所述目标企业的属性信息和热度,构建目标企业排序所需要的排序特征,其中,所述排序特征包括市盈率、扣非市盈率、息税前利润、税后经营利润和产业链热度;
基于所述排序特征以及各个排序特征的权重值,得到每个所述目标企业的分值,并按照分值大小的顺序进行排序。
根据本发明提供的一种行业龙头信息的推荐装置,所述编码网络包括多个依次连接的编码层;所述编码单元,具体用于:
将所述行业文本数据进行分割,得到多个句子;
将每个所述句子依次经过多个编码层进行编码处理,基于最后一个编码层输出的编码向量得到每个句子的编码向量。
根据本发明提供的一种行业龙头信息的推荐装置,所述循环网络为双向长短期记忆网络;所述合成单元,具体用于:
将所述句子的编码向量按照从前到后的顺序依次输入至前向长短期记忆网络,得到第一隐向量;
将所述句子的编码向量按照从后到前的顺序依次输入至后向长短期记忆网络,得到第二隐向量;
将所述第一隐向量和所述第二隐向量合并,得到所述行业文本数据对应的文章表示向量。
根据本发明提供的一种行业龙头信息的推荐装置,所述统计模块,具体用于:确定目标时间段内每个目标企业所属的行业类别对应的企业信息作为目标企业信息;
统计所述目标企业信息中提及所述目标企业的企业名称的频次,以得到所述目标企业的热度。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述行业龙头信息的推荐方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述行业龙头信息的推荐方法的步骤。
本发明提供的行业龙头信息的推荐方法和装置,通过行业类别识别模型对获取的行业文本数据进行行业分类,通过实体识别模型以及信息抽取模型得到行业文本数据中的企业名称和企业信息,从而可以得到更加准确的企业热度计算结果,然后基于目标企业的属性信息和热度进行排序得到推荐的龙头企业信息,从而可以快速准确地从海量的行业信息中挖掘并推荐行业龙头企业信息。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的行业龙头信息的推荐方法的流程示意图;
图2a是本发明实施例中的BERT模型的结构示意图;
图2b是本发明实施例中的Bi-LSTM模型的结构示意图;
图3是本发明实施例中的行业类别识别模型的结构示意图;
图4是本发明实施例提供的目标企业的排序界面的示意图;
图5是本发明提供的行业龙头信息的推荐装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种行业龙头的推荐方法,参见图1,包括:
101、获取多个行业文本数据。
本实施例中,行业文本数据的来源有多个,例如各行业新闻、行业研报、公司研报公开网站数据等。通过构建一套数据获取网站列表,获取HTML格式、doc格式、PDF格式的数据,处理成可抽取的行业文本数据。
其中,行业文本数据的长度会根据文本类型的不同而有所区别,例如研报的文本长度一般会大于5000字,行业新闻的文本长度一般为300~800字左右。
102、将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息。
本实施例中,通过获取行业文本数据所属的行业类别、企业名称和企业信息,可以用于分析企业的热度,为后续步骤中进行行业龙头企业的选择提供依据。
具体地,步骤102包括下述步骤S121~S123:
S121、将所述行业文本数据输入至编码网络,得到每个句子的编码向量。
本实施例中,以编码网络为BERT模型为例进行说明。参见图2a,图2a示出了BERT模型的结构示意图。
BERT模型一般包括多个编码层,图2a以BERT模型包括6个编码层为例进行说明。
步骤S121具体包括:将所述行业文本数据进行分割,得到多个句子;将每个所述句子依次经过多个编码层进行编码处理,基于最后一个编码层输出的编码向量得到每个句子的编码向量。
由图2a可见,将最后一个编码层输出的编码向量依次经由线性层和归一化层处理,得到每个句子的编码向量。
本实施例通过BERT模型对行业文本数据进行编码,从而得到更加准确的行业热度计算结果,用来挖掘推荐龙头企业。
对于长文本,通过层次化编码来解决了BERT模型对文本长度的限制,该方法更加适用于长度大于5000字的研报类文本。
S122、将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量。
本实施例中,以循环网络为双向长短期记忆网络Bi-LSTM模型为例进行说明。参见图2b,图2b示出了Bi-LSTM模型的结构示意图。
步骤S122具体包括:
将所述句子的编码向量按照从前到后的顺序依次输入至前向长短期记忆网络,得到第一隐向量,如图2b中h11~h13所示;
将所述句子的编码向量按照从后到前的顺序依次输入至后向长短期记忆网络,得到第二隐向量,如图2b中h21~h23所示;
将所述第一隐向量h11~h13和所述第二隐向量h21~h23合并,得到所述行业文本数据对应的文章表示向量,如图2b中h0~h2所示。
S123、将所述文章表示向量输入至分类器中,得到所述行业文本数据对应的行业标签分类结果及其概率值,根据所述行业标签分类结果确定所述行业文本数据所属的行业类别。
本实施例中,以分类器为MLP多层感知机网络为例进行说明。将得到的文章表示向量输入MLP多层感知机网络进行特征提取,最后得到行业文本数据对应的行业标签分类结果及其概率值。通过,可计算行业文本数据属于43个行业类别的概率。
参见图3,图3示出了本实施例的一种行业类别识别模型的结构示意图。
以输入的为行业文本C为例,
1)将行业文本C进行分割,得到句子c1、c2、c3……cn
2)分别将句子c1、c2、c3……cn输入至BERT模型进行编码,得到对应的句向量c11、c21、c31……cn1
3)将句向量依次输入至LSTM循环网络中进行处理,得到行业文本C对应的文章表示向量Cm
4)将文章表示向量Cm输入至分类器MLP中,得到行业文本C对应的行业标签分类结果及其概率值,进而确定行业文本C所属的行业类别Cnm
另外,实体识别模型用于识别行业文本数据中的企业实体,常用的模型包括:条件场随机模型CRF、双向长短期记忆模型Bi-LSTM、Bi-LSTM+CRF等。
信息抽取模型可以根据功能不同,包括:关系抽取模型、事件抽取模型和指标抽取模型。
具体地,信息抽取模型可以为长短期记忆模型LSTM、条件场随机模型CRF等。
其中,关系抽取可以为自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。
事件抽取可以为从行业文本数据中抽取出用户感兴趣的事件并以结构化的形式呈现出来。
指标抽取可以为从行业文本数据中抽取目标企业的关键指标数据,如营业收入增长率、总资产增长率、营业利润增长率等。
103、根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度。
具体地,步骤103包括:确定目标时间段内每个目标企业所属的行业类别对应的企业信息作为目标企业信息;
统计所述目标企业信息中提及所述目标企业的企业名称的频次,以得到所述目标企业的热度。
若频次越高,则热度越高;若频次越低,则热度越低。
其中,目标时间段可以根据实际需求而设置,例如设置目标时间段为一年内、半年内等。
需要说明的是,一个类别可以包含多个企业,且每个企业可以隶属于多个类别。例如,目标企业1所属的行业类别为类别A,那么统计类别A中对应的企业信息作为目标企业信息,统计目标企业信息中提及目标企业1的企业名称的频次,以确定目标企业1的热度。
对于一个目标企业隶属于多个行业类别的情形,可以分别统计每个类别中提及目标企业的企业名称的频次,然后通过加权求和的方式得到目标企业的最终热度。
104、在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
具体地,步骤104包括:
S141、在预先保存的知识图谱中获取目标企业的属性信息。
其中,所述属性信息包括目标企业的规模、市值、上市时间、盈利状况和注册资金中的至少一项。
S142、根据所述目标企业的属性信息和热度,构建目标企业排序所需要的排序特征。
其中,所述排序特征包括市盈率、扣非市盈率、企业估值/息税前利润、企业估值/税后经营利润和产业链热度。
具体地,市盈率(Price Earnings Ratio,PE)指的是股票价格除以每股收益(每股收益,EPS)的比率,或以公司市值除以年度股东应占溢利。
扣非市盈率,指的是扣除非经营性损益的市价盈利比率。
企业估值/息税前利润(EV/EBIT),指的是企业估值和息税前利润的比值,其中,企业估值为股票市值+净负债,息税前利润为净利润+所得税+利息。
企业估值/税后经营利润(EV/NOPAT),指的是企业估值和税后经营利润的比值。其中,企业估值为股票市值+净负债,税后经营利润是指将公司不包括利息收支的营业利润扣除实付所得税税金之后的数额加上折旧及摊销等非现金支出,再减去营运资本的追加和物业厂房设备及其他资产方面的投资。
S143、基于所述排序特征以及各个排序特征的权重值,得到每个所述目标企业的分值,并按照分值大小的顺序进行排序。
其中,龙头企业可以为排名第一的企业,也可以为排名前五名的企业等。参见图4,图4示出了目标企业的排序界面的示意图。通过从上到下的顺序依次排序,将龙头企业显示在前,从而方便用户查看。
本实施例提供的行业龙头信息的推荐方法,通过行业类别识别模型对获取的行业文本数据进行行业分类,通过实体识别模型以及信息抽取模型得到行业文本数据中的企业名称和企业信息,从而可以得到更加准确的企业热度计算结果,然后基于目标企业的属性信息和热度进行排序得到推荐的龙头企业信息,从而可以快速准确地从海量的行业信息中挖掘并推荐行业龙头企业信息。
下面对本发明提供的行业龙头信息的推荐装置进行描述,下文描述的行业龙头信息的推荐装置与上文描述的行业龙头信息的推荐方法可相互对应参照。
本发明实施例公开了一种行业龙头信息的推荐装置,参见图5,包括:
获取模块501,用于获取多个行业文本数据;
识别模块502,用于将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
统计模块503,用于根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度;
排序模块504,用于在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
可选地,行业类别识别模型包括:编码网络、循环网络和分类器,所述行业文本数据包括多个句子;
所述识别模块502,包括:
编码单元,用于将所述行业文本数据输入至编码网络,得到每个句子的编码向量;
合成单元,用于将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量;
分类单元,用于将所述文章表示向量输入至分类器中,得到所述行业文本数据对应的行业标签分类结果及其概率值,根据所述行业标签分类结果确定所述行业文本数据所属的行业类别。
可选地,所述排序模块504,具体用于:
在预先保存的知识图谱中获取目标企业的属性信息,其中,所述属性信息包括所述目标企业的规模、市值、上市时间、盈利状况和注册资金中的至少一项;
根据所述目标企业的属性信息和热度,构建目标企业排序所需要的排序特征,其中,所述排序特征包括市盈率、扣非市盈率、息税前利润、税后经营利润和产业链热度;
基于所述排序特征以及各个排序特征的权重值,得到每个所述目标企业的分值,并按照分值大小的顺序进行排序。
可选地,编码网络包括多个依次连接的编码层;
所述编码单元,具体用于:
将所述行业文本数据进行分割,得到多个句子;
将每个所述句子依次经过多个编码层进行编码处理,基于最后一个编码层输出的编码向量得到每个句子的编码向量。
可选地,循环网络为双向长短期记忆网络;
所述合成单元,具体用于:
将所述句子的编码向量按照从前到后的顺序依次输入至前向长短期记忆网络,得到第一隐向量;
将所述句子的编码向量按照从后到前的顺序依次输入至后向长短期记忆网络,得到第二隐向量;
将所述第一隐向量和所述第二隐向量合并,得到所述行业文本数据对应的文章表示向量。
可选地,所述统计模块503,具体用于:
确定目标时间段内每个目标企业所属的行业类别对应的企业信息作为目标企业信息;
统计所述目标企业信息中提及所述目标企业的企业名称的频次,以得到所述目标企业的热度。
本发明提供的行业龙头信息的推荐装置,通过行业类别识别模型对获取的行业文本数据进行行业分类,通过实体识别模型以及信息抽取模型得到行业文本数据中的企业名称和企业信息,从而可以得到更加准确的企业热度计算结果,然后基于目标企业的属性信息和热度进行排序得到推荐的龙头企业信息,从而可以快速准确地从海量的行业信息中挖掘并推荐行业龙头企业信息。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行行业龙头信息的推荐方法,其特征在于,包括:
获取多个行业文本数据;
将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度;
在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业,其中,n为大于等于1的整数。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的行业龙头信息的推荐方法,包括:
获取多个行业文本数据;
将所述行业文本数据分别输入至行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
根据目标企业的行业类别、企业名称和企业信息,基于所述行业文本数据统计目标时间段内的目标企业的热度;
在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的行业龙头信息的推荐方法,包括:
获取多个行业文本数据;
将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度;
在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种行业龙头信息的推荐方法,其特征在于,包括:
获取多个行业文本数据;
将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度;
在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
2.根据权利要求1所述的行业龙头信息的推荐方法,其特征在于,所述行业类别识别模型包括:编码网络、循环网络和分类器,所述行业文本数据包括多个句子;
将所述行业文本数据输入至行业类别识别模型,得到所述行业文本数据所属的行业类别,包括:
将所述行业文本数据输入至编码网络,得到每个句子的编码向量;
将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量;
将所述文章表示向量输入至分类器中,得到所述行业文本数据对应的行业标签分类结果及其概率值,根据所述行业标签分类结果确定所述行业文本数据所属的行业类别。
3.根据权利要求1所述的行业龙头信息的推荐方法,其特征在于,在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,包括:
在预先保存的知识图谱中获取目标企业的属性信息,其中,所述属性信息包括目标企业的规模、市值、上市时间、盈利状况和注册资金中的至少一项;
根据所述目标企业的属性信息和热度,构建目标企业排序所需要的排序特征,其中,所述排序特征包括市盈率、扣非市盈率、企业估值/息税前利润、企业估值/税后经营利润和产业链热度;
基于所述排序特征以及各个排序特征的权重值,得到每个所述目标企业的分值,并按照分值大小的顺序进行排序。
4.根据权利要求2所述的行业龙头信息的推荐方法,其特征在于,所述编码网络包括多个依次连接的编码层;
将所述行业文本数据输入至编码网络,得到每个句子的编码向量,包括:
将所述行业文本数据进行分割,得到多个句子;
将每个所述句子依次经过多个编码层进行编码处理,基于最后一个编码层输出的编码向量得到每个句子的编码向量。
5.根据权利要求2所述的行业龙头信息的推荐方法,其特征在于,所述循环网络为双向长短期记忆网络;
将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量,包括:
将所述句子的编码向量按照从前到后的顺序依次输入至前向长短期记忆网络,得到第一隐向量;
将所述句子的编码向量按照从后到前的顺序依次输入至后向长短期记忆网络,得到第二隐向量;
将所述第一隐向量和所述第二隐向量合并,得到所述行业文本数据对应的文章表示向量。
6.根据权利要求1所述的行业龙头信息的推荐方法,其特征在于,根据所述目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度,包括:
确定目标时间段内每个目标企业所属的行业类别对应的企业信息作为目标企业信息;
统计所述目标企业信息中提及所述目标企业的企业名称的频次,以得到所述目标企业的热度。
7.一种行业龙头信息的推荐装置,其特征在于,包括:
获取模块,用于获取多个行业文本数据;
识别模块,用于将所述行业文本数据分别输入至预先训练的行业类别识别模型、实体识别模型以及信息抽取模型中,得到所述行业文本数据所属的行业类别、企业名称和企业信息;
统计模块,用于根据目标企业的行业类别、企业名称和企业信息,统计目标时间段内的目标企业的热度;
排序模块,用于在预先保存的知识图谱中获取目标企业对应的属性信息,基于所述目标企业的属性信息和热度进行排序,将前n位的目标企业作为龙头企业信息,其中,n为大于等于1的整数。
8.根据权利要求7所述的行业龙头信息的推荐装置,其特征在于,所述行业类别识别模型包括:编码网络、循环网络和分类器,所述行业文本数据包括多个句子;
所述识别模块,包括:
编码单元,用于将所述行业文本数据输入至编码网络,得到每个句子的编码向量;
合成单元,用于将所述句子的编码向量均输入至循环网络中,得到所述行业文本数据对应的文章表示向量;
分类单元,用于将所述文章表示向量输入至分类器中,得到所述行业文本数据对应的行业标签分类结果及其概率值,根据所述行业标签分类结果确定所述行业文本数据所属的行业类别。
9.根据权利要求7所述的行业龙头信息的推荐装置,其特征在于,所述排序模块,具体用于:
在预先保存的知识图谱中获取目标企业的属性信息,其中,所述属性信息包括所述目标企业的规模、市值、上市时间、盈利状况和注册资金中的至少一项;
根据所述目标企业的属性信息和热度,构建目标企业排序所需要的排序特征,其中,所述排序特征包括市盈率、扣非市盈率、息税前利润、税后经营利润和产业链热度;
基于所述排序特征以及各个排序特征的权重值,得到每个所述目标企业的分值,并按照分值大小的顺序进行排序。
10.根据权利要求8所述的行业龙头信息的推荐装置,其特征在于,所述编码网络包括多个依次连接的编码层;
所述编码单元,具体用于:
将所述行业文本数据进行分割,得到多个句子;
将每个所述句子依次经过多个编码层进行编码处理,基于最后一个编码层输出的编码向量得到每个句子的编码向量。
11.根据权利要求8所述的行业龙头信息的推荐装置,其特征在于,所述循环网络为双向长短期记忆网络;
所述合成单元,具体用于:
将所述句子的编码向量按照从前到后的顺序依次输入至前向长短期记忆网络,得到第一隐向量;
将所述句子的编码向量按照从后到前的顺序依次输入至后向长短期记忆网络,得到第二隐向量;
将所述第一隐向量和所述第二隐向量合并,得到所述行业文本数据对应的文章表示向量。
12.根据权利要求7所述的行业龙头信息的推荐装置,其特征在于,所述统计模块,具体用于:
确定目标时间段内每个目标企业所属的行业类别对应的企业信息作为目标企业信息;
统计所述目标企业信息中提及所述目标企业的企业名称的频次,以得到所述目标企业的热度。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述行业龙头信息的推荐方法的步骤。
14.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述行业龙头信息的推荐方法的步骤。
CN202110210125.7A 2021-02-24 2021-02-24 一种行业龙头信息的推荐方法及装置 Pending CN114969498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110210125.7A CN114969498A (zh) 2021-02-24 2021-02-24 一种行业龙头信息的推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110210125.7A CN114969498A (zh) 2021-02-24 2021-02-24 一种行业龙头信息的推荐方法及装置

Publications (1)

Publication Number Publication Date
CN114969498A true CN114969498A (zh) 2022-08-30

Family

ID=82973096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110210125.7A Pending CN114969498A (zh) 2021-02-24 2021-02-24 一种行业龙头信息的推荐方法及装置

Country Status (1)

Country Link
CN (1) CN114969498A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035695A (zh) * 2023-10-08 2023-11-10 之江实验室 一种信息预警的方法、装置、可读存储介质以及电子设备
CN117436830A (zh) * 2023-12-20 2024-01-23 陕西青叶海棠网络科技有限责任公司 一种毕业生就业企业鉴别***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035695A (zh) * 2023-10-08 2023-11-10 之江实验室 一种信息预警的方法、装置、可读存储介质以及电子设备
CN117035695B (zh) * 2023-10-08 2024-03-05 之江实验室 一种信息预警的方法、装置、可读存储介质以及电子设备
CN117436830A (zh) * 2023-12-20 2024-01-23 陕西青叶海棠网络科技有限责任公司 一种毕业生就业企业鉴别***

Similar Documents

Publication Publication Date Title
CA2862273C (en) Methods and systems for generating corporate green score using social media sourced data and sentiment analysis
US20120296845A1 (en) Methods and systems for generating composite index using social media sourced data and sentiment analysis
Hisano et al. High quality topic extraction from business news explains abnormal financial market volatility
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN104115178A (zh) 基于新闻和情绪分析来预测市场行为的方法和***
CN107247728B (zh) 文本处理方法、装置及计算机存储介质
CN112419029B (zh) 类金融机构风险监控方法、风险模拟***及存储介质
Urolagin Text mining of tweet for sentiment classification and association with stock prices
Amin et al. Application of optimistic and pessimistic OWA and DEA methods in stock selection
CN114969498A (zh) 一种行业龙头信息的推荐方法及装置
WO2021257610A1 (en) Time series forecasting and visualization methods and systems
CN114266443A (zh) 数据评估方法和装置、电子设备、存储介质
Coelho et al. Social media and forecasting stock price change
Smailović Sentiment analysis in streams of microblogging posts
CN111429214A (zh) 一种基于交易数据的买卖双方匹配方法及装置
Chen et al. Analysis of the impact of investor sentiment on stock price using the latent dirichlet allocation topic model
Wang et al. Fake review identification methods based on multidimensional feature engineering
CN110889716A (zh) 识别潜在注册用户的方法及装置
Bodendorf et al. Business analytics in strategic purchasing: Identifying and evaluating similarities in supplier documents
Thi et al. A novel solution for anti-money laundering system
Ji et al. Understanding heterogeneity of investor sentiment on social media: A structural topic modeling approach
Xu et al. [Retracted] Metrological Analysis of Online Consumption Evaluation Influence Commodity Marketing Decision Based on Data Mining
CN109242690A (zh) 理财产品推荐方法、装置、计算机设备及可读存储介质
Hajek et al. Predicting M&A targets using news sentiment and topic detection
Sperková et al. How to measure quality of service using unstructured data analysis: A general method design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination