CN115409018A - 基于大数据的公司舆情监测***及其方法 - Google Patents

基于大数据的公司舆情监测***及其方法 Download PDF

Info

Publication number
CN115409018A
CN115409018A CN202211141297.4A CN202211141297A CN115409018A CN 115409018 A CN115409018 A CN 115409018A CN 202211141297 A CN202211141297 A CN 202211141297A CN 115409018 A CN115409018 A CN 115409018A
Authority
CN
China
Prior art keywords
event
feature
feature vector
scale
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211141297.4A
Other languages
English (en)
Other versions
CN115409018B (zh
Inventor
郭雷廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shuxiang Homer Culture Co ltd
Original Assignee
Zhejiang Shuxiang Homer Culture Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shuxiang Homer Culture Co ltd filed Critical Zhejiang Shuxiang Homer Culture Co ltd
Priority to CN202211141297.4A priority Critical patent/CN115409018B/zh
Publication of CN115409018A publication Critical patent/CN115409018A/zh
Application granted granted Critical
Publication of CN115409018B publication Critical patent/CN115409018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种基于大数据的公司舆情监测***及其方法,其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息,并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体;然后,通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样,可以提高所述待监控公司相关的舆情判断结果的准确性,以及时地掌握公司的动向和预测热点事件的发生。

Description

基于大数据的公司舆情监测***及其方法
技术领域
本申请涉及智能监测技术领域,且更为具体地,涉及一种基于大数据的公司舆情监测***及其方法。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
对于当前高度发达的互联网形势,中国已成为世界第一大网民国家,网络重要性凸显,公司监测舆情也成为非常重要的关键点。但是,目前没有较为全面的基于算法、大数据、人工智能的公司舆情监测方案。现有的公司舆情监测方案大多都是依靠人工来进行处理,在大数据的时代发展下,由于网络数据量较为繁杂且人为语义理解的偏差,这种舆情监测方式显然不能够有效地对于公司舆情进行较好地监测。
因此,期待一种优化的基于大数据的公司舆情监测方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于大数据的公司舆情监测***及其方法,其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息,并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体;然后,通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样,可以提高所述待监控公司相关的舆情判断结果的准确性,以及时地掌握公司的动向和预测热点事件的发生。
根据本申请的一个方面,提供了一种基于大数据的公司舆情监测***,其包括:
舆情监控模块,用于获取与待监控公司相关的文章和所述文章的评论数据;
事件抽取模块,用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;
事件上下文语义编码模块,用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;
词粒度特征表示模块,用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;
片语粒度特征表示模块,用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;
多粒度特征融合模块,用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;
评论数据编码模块,用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;
关联编码模块,用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;
关联特征提取模块,用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及
舆情监测结果生成模块,用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
在上述基于大数据的公司舆情监测***中,所述事件上下文语义编码模块,包括:分词子单元,用于对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列;嵌入编码子单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,上下文编码子单元,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。
在上述基于大数据的公司舆情监测***中,所述片语粒度特征表示模块,包括:第一片语尺度编码单元,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二片语尺度编码单元,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联单元,用于将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。
在上述基于大数据的公司舆情监测***中,所述多粒度特征融合模块,进一步用于:以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量;其中,所述公式为:
Figure BDA0003853660820000031
其中Vp表示所述词粒度特征向量,V2表示所述片语粒度特征向量,vi表示所述片语粒度特征向量的各个位置的特征值,
Figure BDA0003853660820000032
是所述片语粒度特征向量的各个位置的特征值集合的全局均值,且L是所述片语粒度特征向量的长度,α是加权超参数,
Figure BDA0003853660820000033
表示按位置加法,⊙表示按位置点乘,exp(·)表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值。
在上述基于大数据的公司舆情监测***中,所述关联编码模块,进一步用于:以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵;其中,所述公式为:
Figure BDA0003853660820000034
其中V1表示所述多尺度事件描述特征向量,
Figure BDA0003853660820000035
表示所述多尺度事件描述特征向量的转置向量,Vc表示所述多尺度评论特征向量,M表示所述事件-评论关联矩阵,
Figure BDA0003853660820000036
表示向量相乘。
在上述基于大数据的公司舆情监测***中,所述关联特征提取模块,进一步用于:所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。
在上述基于大数据的公司舆情监测***中,所述舆情监测结果生成模块,进一步用于:使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果,其中,所述公式为:O=softmax{(Wn,Bn):…:(W1,B1)|F(M)},其中F(M)表示所述事件-评论关联特征矩阵投影为向量,W1至Wn为各层全连接层的权重矩阵,B1至Bn表示各层全连接层的偏置矩阵。
根据本申请的另一方面,提供了一种基于大数据的公司舆情监测方法,其包括:
获取与待监控公司相关的文章和所述文章的评论数据;
对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;
将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;
将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;
将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;
融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;
通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;
对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;
将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及
将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
与现有技术相比,本申请提供的基于大数据的公司舆情监测***及其方法,其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息,并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体;然后,通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样,可以提高所述待监控公司相关的舆情判断结果的准确性,以及时地掌握公司的动向和预测热点事件的发生。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的基于大数据的公司舆情监测***的应用场景图。
图2图示了根据本申请实施例的基于大数据的公司舆情监测***的框图。
图3图示了根据本申请实施例的基于大数据的公司舆情监测***中所述事件上下文语义编码模块的框图。
图4图示了根据本申请实施例的基于大数据的公司舆情监测***中所述片语粒度特征表示模块的框图。
图5图示了根据本申请实施例的基于大数据的公司舆情监测方法的流程图。
图6图示了根据本申请实施例的基于大数据的公司舆情监测方法的架构的示意图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如上所述,对于当前高度发达的互联网形势,中国已成为世界第一大网民国家,网络重要性凸显,公司监测舆情也成为非常重要的关键点。但是,目前没有较为全面的基于算法、大数据、人工智能的公司舆情监测方案。现有的公司舆情监测方案大多都是依靠人工来进行处理,在大数据的时代发展下,由于网络数据量较为繁杂且人为语义理解的偏差,这种舆情监测方式显然不能够有效地对于公司舆情进行较好地监测。因此,期待一种优化的基于大数据的公司舆情监测方案。
应可以理解,由于舆情结合爬取的文章、新闻来说,其实本质是属于情感分类,无论文章还是评论都可以分为正面和负面两类(或者积极和消极)。因此,对于公司的舆情监测本质上是一个分类的问题。也就是,利用基于深度学习的人工智能技术来提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息,并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体,进而提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样,能够对于公司相关的舆情正负性进行准确地判断,进而能够及时掌握公司的动向和预测热点事件的发生。
具体地,在本申请的技术方案中,首先,获取与待监控公司相关的文章和所述文章的评论数据。然后,对所述与待监控公司相关的文章进行实体识别和事件抽取,以提取出所述文章中的重要事件和实体,以得到事件文本描述。应可以理解,所述事件抽取的目的是在大量文章中快速识别事件及其实体,实体是指世界中真实存在的目标,主要用于分析文本中“谁对谁做了什么以及何时何地”,并且能找到一个或者多个参与者,事件抽取也属于信息抽取领域中难度比较大的研究内容,依赖于实体抽取和关系抽取。
接着,使用包含嵌入层的上下文编码器对于所述事件文本描述进行高维语义特征挖掘,以提取出所述事件文本描述中的各个词的基于全局的高维语义特征,从而得到多个事件文本描述词特征向量。进一步地,将所述多个事件文本描述词特征向量进行级联以整个所述各个词的全局高维语义关联特征信息,从而得到词粒度特征向量。
然后,考虑到在所述事件文本描述中,除了所述各个词有着全局性的高维语义关联特征外,所述各个词之间组成的片语也有着不同的语义特征信息。因此,在本申请的技术方案中,为了能够更为准确充分地理解所述事件文本描述中的语义信息,进一步将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量。也就是,使用多尺度邻域特征提取模块来对于所述一维特征向量进行编码,以提取出所述事件文本描述中在不同的词跨度下组成的片语的高维语义特征信息。
进一步地,融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量。也就是,通过所述事件文本描述中的各个词的全局语义关联特征和所述事件文本描述中的各个词之间组成的片语的多尺度邻域语义关联特征的融合特征来进行充分地语义理解,进而提高后续分类的准确性。
同样地,对于所述文章的评论数据,也以同样的方式进行编码以对于所述文章的评论数据进行充分且准确地语义理解。也就是,通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量,以提取出所述文章的评论数据中的包含各个词与片语的全局语义关联特征信息。
接着,为了能够对于所述待监控公司相关的舆情是正向的还是负向的进行准确地判断,在得到所述多尺度评论特征向量和所述多尺度事件描述特征向量后,进一步将这两者进行关联编码来得到事件-评论关联矩阵。然后,将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络中进行特征挖掘,以提取出所述事件描述语义特征和所述评论语义特征的关联性隐含特征,从而得到事件-评论关联特征矩阵。这样,能够基于所述事件描述语义特征和所述评论语义特征的关联性隐含特征来综合得到人们对于所述待监控公司相关的舆情的情感倾向,进而提高判断的精准度。进一步地,再将所述事件-评论关联特征矩阵通过分类器以得到用于表示与待监控公司相关的舆情是正向还是负向的分类结果。
特别地,在本申请的技术方案中,将所述片语粒度特征向量和所述词粒度特征向量进行级联以得到多尺度事件描述特征向量时,由于所述片语粒度特征向量是将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块得到的,而所述词粒度特征向量是直接将所述多个事件文本描述词特征向量进行级联得到的,因此所述片语粒度特征向量相对于所述词粒度特征向量具有更深层的特征分布。
为了提高级联后的多尺度事件描述特征向量的特征分布的一致性,对所述词粒度特征向量进行注意力导向的分层深度联立优化,表示为:
Figure BDA0003853660820000081
其中Vp是所述词粒度特征向量,V2是所述片语粒度特征向量,vi是所述片语粒度特征向量的每个位置的特征值,
Figure BDA0003853660820000082
是所述片语粒度特征向量的特征值的全局均值,且L是所述片语粒度特征向量的长度,α是加权超参数。
这里,以作为深层特征的所述片语粒度特征向量V2的子维度一致性作为注意力导向权重,对作为浅层特征的所述词粒度特征向量Vp施加子维度分布的一致性注意力机制,来在具有深度差的高维流形之间进行体匹配,从而使得所述词粒度特征向量Vp和所述片语粒度特征向量V2在各个子维度上具有高一致性的联立分布,以提高所述多尺度事件描述特征向量的特征分布的一致性,进而提高分类的准确性。这样,能够对于公司相关的舆情正负性进行准确地判断,同样也能够对于大众的情绪进行准确地检测,进而及时地掌握公司的动向和预测热点事件的发生。
基于此,本申请提供了一种基于大数据的公司舆情监测***,其包括:舆情监控模块,用于获取与待监控公司相关的文章和所述文章的评论数据;事件抽取模块,用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;事件上下文语义编码模块,用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;词粒度特征表示模块,用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;片语粒度特征表示模块,用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;多粒度特征融合模块,用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;评论数据编码模块,用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;关联编码模块,用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;关联特征提取模块,用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及,舆情监测结果生成模块,用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
图1图示了根据本申请实施例的基于大数据的公司舆情监测***的应用场景图。如图1所示,在该应用场景中,首先获取与待监控公司相关的文章例如,如图1中所示意的C)和所述文章的评论数据(例如,如图1中所示意的M);然后,将获取的与待监控公司相关的文章和所述文章的评论数据输入至部署有基于大数据的公司舆情监测***的服务器中(例如,图1中所示意的S),其中,所述服务器能够使用基于大数据的公司舆情监测算法对所述待监控公司相关的文章和所述文章的评论数据进行处理以生成用于表示与待监控公司相关的舆情是正向的还是负向的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性***
图2图示了根据本申请实施例的基于大数据的公司舆情监测***的框图。如图2所示,根据本申请实施例的基于大数据的公司舆情监测***100,包括:舆情监控模块101,用于获取与待监控公司相关的文章和所述文章的评论数据;事件抽取模块102,用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;事件上下文语义编码模块103,用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;词粒度特征表示模块104,用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;片语粒度特征表示模块105,用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;多粒度特征融合模块106,用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;评论数据编码模块107,用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;关联编码模块108,用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;关联特征提取模块109,用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及,舆情监测结果生成模块110,用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
具体地,在本申请实施例中,所述舆情监控模块101,用于获取与待监控公司相关的文章和所述文章的评论数据。如前所述,对于当前高度发达的互联网形势,中国已成为世界第一大网民国家,网络重要性凸显,公司监测舆情也成为非常重要的关键点。但是,目前没有较为全面的基于算法、大数据、人工智能的公司舆情监测方案。现有的公司舆情监测方案大多都是依靠人工来进行处理,在大数据的时代发展下,由于网络数据量较为繁杂且人为语义理解的偏差,这种舆情监测方式显然不能够有效地对于公司舆情进行较好地监测。因此,期待一种优化的基于大数据的公司舆情监测方案。
应可以理解,由于舆情结合爬取的文章、新闻来说,其实本质是属于情感分类,无论文章还是评论都可以分为正面和负面两类(或者积极和消极)。因此,对于公司的舆情监测本质上是一个分类的问题。也就是,利用基于深度学习的人工智能技术来提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息,并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体,进而提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样,能够对于公司相关的舆情正负性进行准确地判断,进而能够及时掌握公司的动向和预测热点事件的发生。
更具体地,在本申请的技术方案中,首先,获取与待监控公司相关的文章和所述文章的评论数据。
具体地,在本申请实施例中,所述事件抽取模块102,用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述。也就是,在得到所述与待监控公司相关的文章后,接着,对所述与待监控公司相关的文章进行实体识别和事件抽取,以提取出所述文章中的重要事件和实体,以得到事件文本描述。
应可以理解,所述事件抽取的目的是在大量文章中快速识别事件及其实体,实体是指世界中真实存在的目标,主要用于分析文本中“谁对谁做了什么以及何时何地”,并且能找到一个或者多个参与者,事件抽取也属于信息抽取领域中难度比较大的研究内容,依赖于实体抽取和关系抽取。
具体地,在本申请实施例中,所述事件上下文语义编码模块103和所述词粒度特征表示模块104,用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量,以及,用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量。
也就是,使用包含嵌入层的上下文编码器对于所述事件文本描述进行高维语义特征挖掘,以提取出所述事件文本描述中的各个词的基于全局的高维语义特征,从而得到多个事件文本描述词特征向量。进一步地,将所述多个事件文本描述词特征向量进行级联以整个所述各个词的全局高维语义关联特征信息,从而得到词粒度特征向量。
更具体地,在本申请实施例中,图3图示了根据本申请实施例的基于大数据的公司舆情监测***中所述事件上下文语义编码模块的框图,如图3所示,所述事件上下文语义编码模块103,包括:分词子单元210,用于对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列;嵌入编码子单元220,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,上下文编码子单元230,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。
具体地,在本申请实施例中,所述片语粒度特征表示模块105,用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量。考虑到在所述事件文本描述中,除了所述各个词有着全局性的高维语义关联特征外,所述各个词之间组成的片语也有着不同的语义特征信息。因此,在本申请的技术方案中,为了能够更为准确充分地理解所述事件文本描述中的语义信息,进一步将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量。也就是,使用多尺度邻域特征提取模块来对于所述一维特征向量进行编码,以提取出所述事件文本描述中在不同的词跨度下组成的片语的高维语义特征信息。
更具体地,在本申请实施例中,图4图示了根据本申请实施例的基于大数据的公司舆情监测***中所述片语粒度特征表示模块的框图,如图4所示,所述片语粒度特征表示模块105,包括:第一片语尺度编码单元310,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二片语尺度编码单元320,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度级联单元330,用于将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。
值得一提的是,在本申请的其他示例中,所述多尺度邻域特征提取模块还可以包含更多数量的一维卷积层,其使用不同长度的一维卷积核对所述多个事件文本描述词特征向量进行特征提取,对此,并不为本申请所局限。
具体地,在本申请实施例中,所述多粒度特征融合模块106,用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量。进一步地,融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量。也就是,通过所述事件文本描述中的各个词的全局语义关联特征和所述事件文本描述中的各个词之间组成的片语的多尺度邻域语义关联特征的融合特征来进行充分地语义理解,进而提高后续分类的准确性。
特别地,在本申请的技术方案中,将所述片语粒度特征向量和所述词粒度特征向量进行级联以得到多尺度事件描述特征向量时,由于所述片语粒度特征向量是将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块得到的,而所述词粒度特征向量是直接将所述多个事件文本描述词特征向量进行级联得到的,因此所述片语粒度特征向量相对于所述词粒度特征向量具有更深层的特征分布。
为了提高级联后的多尺度事件描述特征向量的特征分布的一致性,对所述词粒度特征向量进行注意力导向的分层深度联立优化,也就是,以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量;其中,所述公式为:
Figure BDA0003853660820000121
其中Vp表示所述词粒度特征向量,V2表示所述片语粒度特征向量,vi表示所述片语粒度特征向量的各个位置的特征值,
Figure BDA0003853660820000122
是所述片语粒度特征向量的各个位置的特征值集合的全局均值,且L是所述片语粒度特征向量的长度,α是加权超参数,
Figure BDA0003853660820000131
表示按位置加法,⊙表示按位置点乘,exp(·)表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值。
这里,以作为深层特征的所述片语粒度特征向量V2的子维度一致性作为注意力导向权重,对作为浅层特征的所述词粒度特征向量Vp施加子维度分布的一致性注意力机制,来在具有深度差的高维流形之间进行体匹配,从而使得所述词粒度特征向量Vp和所述片语粒度特征向量V2在各个子维度上具有高一致性的联立分布,以提高所述多尺度事件描述特征向量的特征分布的一致性,进而提高分类的准确性。这样,能够对于公司相关的舆情正负性进行准确地判断,同样也能够对于大众的情绪进行准确地检测,进而及时地掌握公司的动向和预测热点事件的发生。
具体地,在本申请实施例中,所述评论数据编码模块107,用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量。同样地,对于所述文章的评论数据,也以同样的方式进行编码以对于所述文章的评论数据进行充分且准确地语义理解。也就是,通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量,以提取出所述文章的评论数据中的包含各个词与片语的全局语义关联特征信息。
具体地,在本申请实施例中,所述关联编码模块108,用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵。接着,为了能够对于所述待监控公司相关的舆情是正向的还是负向的进行准确地判断,在得到所述多尺度评论特征向量和所述多尺度事件描述特征向量后,进一步将这两者进行关联编码来得到事件-评论关联矩阵。
进一步地,在本申请实施例中,以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵;其中,所述公式为:
Figure BDA0003853660820000132
其中V1表示所述多尺度事件描述特征向量,
Figure BDA0003853660820000133
表示所述多尺度事件描述特征向量的转置向量,Vc表示所述多尺度评论特征向量,M表示所述事件-评论关联矩阵,
Figure BDA0003853660820000141
表示向量相乘。
具体地,在本申请实施例中,所述关联特征提取模块109,用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵。将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络中进行特征挖掘,以提取出所述事件描述语义特征和所述评论语义特征的关联性隐含特征,从而得到事件-评论关联特征矩阵。
这样,能够基于所述事件描述语义特征和所述评论语义特征的关联性隐含特征来综合得到人们对于所述待监控公司相关的舆情的情感倾向,进而提高判断的精准度。进一步地,再将所述事件-评论关联特征矩阵通过分类器以得到用于表示与待监控公司相关的舆情是正向还是负向的分类结果。
更具体地,在本申请实施例中,所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。
具体地,在本申请实施例中,所述舆情监测结果生成模块110,用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。也就是,将所述事件-评论关联特征矩阵输入分类函数以获得分类函数值,其中,所述分类函数值为所述分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
进一步地,使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果,其中,所述公式为:
O=softmax{(Wn,Bn):…:(W1,B1)|F(M)},其中F(M)表示所述事件-评论关联特征矩阵投影为向量,W1至Wn为各层全连接层的权重矩阵,B1至Bn表示各层全连接层的偏置矩阵。
综上,基于本申请实施例的基于大数据的公司舆情监测***100被阐明,其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息,并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体;然后,通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样,可以提高所述待监控公司相关的舆情判断结果的准确性,以及时地掌握公司的动向和预测热点事件的发生。
如上所述,根据本申请实施例的基于大数据的公司舆情监测***100可以实现在各种终端设备中,例如具有基于大数据的公司舆情监测算法的服务器等。在一个示例中,该基于大数据的公司舆情监测***100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于大数据的公司舆情监测***100可以是该终端设备的操作***中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于大数据的公司舆情监测***100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于大数据的公司舆情监测***100与该终端设备也可以是分立的设备,并且该基于大数据的公司舆情监测***100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图5图示了根据本申请实施例的基于大数据的公司舆情监测方法的流程图。如图5所示,根据本申请实施例的基于大数据的公司舆情监测方法,其包括:S101,获取与待监控公司相关的文章和所述文章的评论数据;S102,对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;S103,将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;S104,将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;S105,将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;S106,融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;S107,通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;S108,对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;S109,将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及,S110,将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
图6图示了根据本申请实施例的基于大数据的公司舆情监测方法的架构的示意图。如图6所示,在所述基于大数据的公司舆情监测方法的网络架构中,首先,获取与待监控公司相关的文章和所述文章的评论数据;然后,对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;接着,将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;然后,将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;接着,将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;然后,融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;接着,通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;然后,对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;接着,将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及,最后,将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
在本申请的一个实施例中,在上述基于大数据的公司舆情监测方法中,所述将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量,包括:对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。
在本申请的一个实施例中,在上述基于大数据的公司舆情监测方法中,所述将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量,包括:将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。
在本申请的一个实施例中,在上述基于大数据的公司舆情监测方法中,所述融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量,进一步包括:以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量;其中,所述公式为:
Figure BDA0003853660820000171
其中Vp表示所述词粒度特征向量,V2表示所述片语粒度特征向量,vi表示所述片语粒度特征向量的各个位置的特征值,
Figure BDA0003853660820000172
是所述片语粒度特征向量的各个位置的特征值集合的全局均值,且L是所述片语粒度特征向量的长度,α是加权超参数,
Figure BDA0003853660820000173
表示按位置加法,⊙表示按位置点乘,exp(·)表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值。
在本申请的一个实施例中,在上述基于大数据的公司舆情监测方法中,所述对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵,进一步包括:以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵;其中,所述公式为:
Figure BDA0003853660820000174
其中V1表示所述多尺度事件描述特征向量,
Figure BDA0003853660820000175
表示所述多尺度事件描述特征向量的转置向量,Vc表示所述多尺度评论特征向量,M表示所述事件-评论关联矩阵,
Figure BDA0003853660820000176
表示向量相乘。
在本申请的一个实施例中,在上述基于大数据的公司舆情监测方法中,所述将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵,进一步包括:所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。
在本申请的一个实施例中,在上述基于大数据的公司舆情监测方法中,所述将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的,进一步包括:使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果,其中,所述公式为:O=softmax{(Wn,Bn):…:(W1,B1)|F(M)},其中F(M)表示所述事件-评论关联特征矩阵投影为向量,W1至Wn为各层全连接层的权重矩阵,B1至Bn表示各层全连接层的偏置矩阵。
这里,本领域技术人员可以理解,上述基于大数据的公司舆情监测方法中的各个步骤的具体操作已经在上面参考图1到图4的基于大数据的公司舆情监测***的描述中得到了详细介绍,并因此,将省略其重复描述。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种基于大数据的公司舆情监测***,其特征在于,包括:
舆情监控模块,用于获取与待监控公司相关的文章和所述文章的评论数据;
事件抽取模块,用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;
事件上下文语义编码模块,用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;
词粒度特征表示模块,用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;
片语粒度特征表示模块,用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;
多粒度特征融合模块,用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;
评论数据编码模块,用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;
关联编码模块,用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;
关联特征提取模块,用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及
舆情监测结果生成模块,用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
2.根据权利要求1所述的基于大数据的公司舆情监测***,其特征在于,所述事件上下文语义编码模块,包括:
分词子单元,用于对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列;
嵌入编码子单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及
上下文编码子单元,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。
3.根据权利要求2所述的基于大数据的公司舆情监测***,其特征在于,所述片语粒度特征表示模块,包括:
第一片语尺度编码单元,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;
第二片语尺度编码单元,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及
多尺度级联单元,用于将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。
4.根据权利要求3所述的基于大数据的公司舆情监测***,其特征在于,所述多粒度特征融合模块,进一步用于:以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量;
其中,所述公式为:
Figure FDA0003853660810000021
其中Vp表示所述词粒度特征向量,V2表示所述片语粒度特征向量,vi表示所述片语粒度特征向量的各个位置的特征值,
Figure FDA0003853660810000022
是所述片语粒度特征向量的各个位置的特征值集合的全局均值,且L是所述片语粒度特征向量的长度,α是加权超参数,
Figure FDA0003853660810000023
表示按位置加法,
Figure FDA0003853660810000024
表示按位置点乘,exp(·)表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值。
5.根据权利要求4所述的基于大数据的公司舆情监测***,其特征在于,所述关联编码模块,进一步用于:以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵;
其中,所述公式为:
Figure FDA0003853660810000031
其中V1表示所述多尺度事件描述特征向量,
Figure FDA0003853660810000032
表示所述多尺度事件描述特征向量的转置向量,Vc表示所述多尺度评论特征向量,M表示所述事件-评论关联矩阵,
Figure FDA0003853660810000033
表示向量相乘。
6.根据权利要求5所述的基于大数据的公司舆情监测***,其特征在于,所述关联特征提取模块,进一步用于:所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。
7.根据权利要求6所述的基于大数据的公司舆情监测***,其特征在于,所述舆情监测结果生成模块,进一步用于:使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果,其中,所述公式为:O=softmax{(Wn,Bn):…:(W1,B1)|F(M)},其中F(M)表示所述事件-评论关联特征矩阵投影为向量,W1至Wn为各层全连接层的权重矩阵,B1至Bn表示各层全连接层的偏置矩阵。
8.一种基于大数据的公司舆情监测方法,其特征在于,包括:
获取与待监控公司相关的文章和所述文章的评论数据;
对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述;
将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量;
将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量;
将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量;
融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量;
通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量;
对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵;
将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵;以及
将所述事件-评论关联特征矩阵通过分类器以得到分类结果,所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。
9.根据权利要求8所述的基于大数据的公司舆情监测方法,其特征在于,所述将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量,包括:
对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列;
使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及
使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。
10.根据权利要求9所述的基于大数据的公司舆情监测方法,其特征在于,所述将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量,包括:
将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;
将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及
将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。
CN202211141297.4A 2022-09-20 2022-09-20 基于大数据的公司舆情监测***及其方法 Active CN115409018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211141297.4A CN115409018B (zh) 2022-09-20 2022-09-20 基于大数据的公司舆情监测***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211141297.4A CN115409018B (zh) 2022-09-20 2022-09-20 基于大数据的公司舆情监测***及其方法

Publications (2)

Publication Number Publication Date
CN115409018A true CN115409018A (zh) 2022-11-29
CN115409018B CN115409018B (zh) 2023-05-02

Family

ID=84165088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211141297.4A Active CN115409018B (zh) 2022-09-20 2022-09-20 基于大数据的公司舆情监测***及其方法

Country Status (1)

Country Link
CN (1) CN115409018B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108143A (zh) * 2023-04-10 2023-05-12 长春财经学院 基于区块链技术的数字经济监测方法及其***
CN116127019A (zh) * 2023-03-07 2023-05-16 杭州国辰智企科技有限公司 动态参数与可视化模型生成web 2d自动建模引擎***
CN116932852A (zh) * 2023-06-21 2023-10-24 江西中唐产业互联网有限公司 互联网信息监控***及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
US20190012374A1 (en) * 2015-05-08 2019-01-10 Thomson Reuters Global Resources Unlimited Company Systems and methods for cross-media event detection and coreferencing
CN110705276A (zh) * 2019-09-26 2020-01-17 中电万维信息技术有限责任公司 基于神经网络监控网络舆情的方法、装置及存储介质
CN114864090A (zh) * 2022-05-23 2022-08-05 浙江大学 基于数据智能的超重肥胖儿童的干预效果评估***
CN115049461A (zh) * 2022-06-29 2022-09-13 杭州卓壹网络技术有限公司 基于多平台全域信息的电子商务信用评估方法及其***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012374A1 (en) * 2015-05-08 2019-01-10 Thomson Reuters Global Resources Unlimited Company Systems and methods for cross-media event detection and coreferencing
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN110705276A (zh) * 2019-09-26 2020-01-17 中电万维信息技术有限责任公司 基于神经网络监控网络舆情的方法、装置及存储介质
CN114864090A (zh) * 2022-05-23 2022-08-05 浙江大学 基于数据智能的超重肥胖儿童的干预效果评估***
CN115049461A (zh) * 2022-06-29 2022-09-13 杭州卓壹网络技术有限公司 基于多平台全域信息的电子商务信用评估方法及其***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘宏鹏 等: "考虑反讽语义识别的协同双向编码舆情评论情感分析研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127019A (zh) * 2023-03-07 2023-05-16 杭州国辰智企科技有限公司 动态参数与可视化模型生成web 2d自动建模引擎***
CN116127019B (zh) * 2023-03-07 2024-06-11 杭州国辰智企科技有限公司 动态参数与可视化模型生成web 2d自动建模引擎***
CN116108143A (zh) * 2023-04-10 2023-05-12 长春财经学院 基于区块链技术的数字经济监测方法及其***
CN116108143B (zh) * 2023-04-10 2023-07-04 长春财经学院 基于区块链技术的数字经济监测方法及其***
CN116932852A (zh) * 2023-06-21 2023-10-24 江西中唐产业互联网有限公司 互联网信息监控***及其方法

Also Published As

Publication number Publication date
CN115409018B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN115409018B (zh) 基于大数据的公司舆情监测***及其方法
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN111814487B (zh) 一种语义理解方法、装置、设备及存储介质
CN114444516B (zh) 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN110287323A (zh) 一种面向目标的情感分类方法
WO2023040493A1 (zh) 事件检测
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
Huang et al. Learning social image embedding with deep multimodal attention networks
CN115186673A (zh) 科技信息管理***及其管理方法
CN112966503A (zh) 方面级情感分析方法
CN116523583A (zh) 电子商务数据分析***及其方法
CN116702091A (zh) 基于多视图clip的多模态讽刺意图识别方法、装置和设备
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN115391701A (zh) 一种互联网内容风险分析及预警方法
CN115859980A (zh) 一种半监督式命名实体识别方法、***及电子设备
CN116992304A (zh) 基于人工智能的政策匹配分析***及其方法
CN114647730A (zh) 一种融合图注意力和图卷积网络的事件检测方法
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
CN116452241B (zh) 一种基于多模态融合神经网络的用户流失概率计算方法
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN113239277A (zh) 一种基于用户评论的概率矩阵分解推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant