CN115293479A - 舆情分析工作流***及其方法 - Google Patents

舆情分析工作流***及其方法 Download PDF

Info

Publication number
CN115293479A
CN115293479A CN202210559536.1A CN202210559536A CN115293479A CN 115293479 A CN115293479 A CN 115293479A CN 202210559536 A CN202210559536 A CN 202210559536A CN 115293479 A CN115293479 A CN 115293479A
Authority
CN
China
Prior art keywords
analysis
workflow
public opinion
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210559536.1A
Other languages
English (en)
Inventor
付培国
吴俊杰
赵志云
葛自发
赵忠华
孙立远
王禄恒
李欣
万欣欣
左源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN202210559536.1A priority Critical patent/CN115293479A/zh
Publication of CN115293479A publication Critical patent/CN115293479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情分析工作流***,包括:数据分析功能模块,其包括N个能够进行舆情数据分析的数据分析模块;工作流建立模块,其根据舆情分析需求从数据分析功能模块中选择多个数据分析模块,按顺序进行连接,建立对特定任务进行分析的工作流,针对同一事件不同分析角度的舆情分析需求,建立多个工作流,以对多个舆情分析任务进行分析;工作流管理模块,其对建立的工作流进行数据分析计算,并通过可视化工作流图查看计算结果;事件管理模块,其对同一事件的多个舆情分析任务进行管理,并通过舆情分析数据构建不同任务之间的联系。本发明还提供了舆情分析工作流方法。本***和方法能够根据舆情分析需求实现从不同层次和不同角度获得舆情信息。

Description

舆情分析工作流***及其方法
技术领域
本发明涉及工作流管理、数据分析领域。更具体地说,本发明涉及一种舆情分析工作流***及其方法。
背景技术
社交媒体具有广泛参与性,基于社交媒体的数据挖掘技术为网民的特征分析、画像、跟踪,舆论的发起者和引导者的寻找提供了技术的保障。此外,在商业界,利用社交媒体大数据对用户进行社群划分、分块运营、KOL转化、舆论引导等工作,为传统的公关带来了新的提升空间,为公司的利益做出了贡献。
但与此同时,许多业务分析人员精于对数据报表的分析和识别,而缺乏足够的编程能力,对于复杂的数据获取、预处理、计算、存储、展示等流程无法予以快速实现,从而能高效地发现社交媒体的关键要素,这对业务的有效展开构成了严重的阻碍,为传统分析流程赋能已是刻不容缓。
发明内容
本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种舆情分析工作流***,其能够根据舆情分析需求实现从不同层次和不同角度获得舆情信息。
为了实现本发明的这些目的和其它优点,第一方面,本发明提供了一种舆情分析工作流***,包括:
数据分析功能模块,其包括N个能够进行舆情数据分析的数据分析模块, N>=2;
工作流建立模块,其根据舆情分析需求从所述数据分析功能模块中选择多个数据分析模块,并按顺序进行连接,建立能够对特定任务进行分析的工作流,其中,针对同一事件的不同分析角度的舆情分析需求,建立多个工作流,以便于能够对多个舆情分析任务进行分析;
工作流管理模块,其用于对建立的工作流进行数据分析计算,并通过可视化工作流图查看计算结果;
事件管理模块,其用于对同一事件的多个舆情分析任务进行管理,并通过舆情分析的数据构建不同任务之间的联系。
优选的是,所述的舆情分析工作流***,所述工作流建立模块还包括工作流模型模块,其为预设的工作流模型,存储在工作流模型数据库中,其中,当选择其中一工作流模型后,能够根据舆情分析需求对工作流模型中的数据分析模块进行修改。
优选的是,所述的舆情分析工作流***,所述工作流管理模块具体包括:
舆情数据获取模块,其用于获取不同异质的数据源,所述舆情数据获取模块包括:数据获取接口模块,其用于连接社交媒体网络或者连接存储有社交媒体数据的数据库;数据查询模块,其能够进行模糊查询和结构化精确查找,其中,所述舆情数据获取模块与建立的工作流中第一个数据分析模块进行连接;
舆情数据预处理模块,其用于对获取的舆情数据,构建转发网络关系和对社交网络文本进行预处理;
舆情数据计算模块,其包括:
数据分析算法模块,其包括各种数据分析算法;
算法分类模块,其用于对各种数据分析算法进行分类,形成图和文本两类分析算法;
算法转接模块,其用于对建立的工作流中相连接的数据分析模块中的数据分析算法,以层级嵌套的模式进行。
优选的是,所述的舆情分析工作流***,在建立工作流时,当选择一数据分析模块后,需对该数据分析模块的参数进行设定;
所述数据分析功能模块包括社团划分模块、传播态势分析模块、文本分类器计算模块、敏感性分析模块以及LDA模块。
优选的是,所述的舆情分析工作流***,所述工作流管理模块还包括舆情数据存储模块,其通过层级哈希索引的形式进行储存。
优选的是,所述的舆情分析工作流***,所述构建转发网络关系具体包括:根据社交媒体网络的转发关系、IP关系和昵称建立转发网络关系;
所述对社交网络文本进行预处理具体包括:根据正则表达式、停用词表、社交媒体专用语词表进行数据判断,结合分词手段,对社交媒体文本进行分词、去重、去停用词、去专用语、去标点符号操作。
优选的是,所述的舆情分析工作流***,所述舆情数据获取模块需设置的参数为舆情分析所关注的关键词和时间范围。
第二方面,本发明提供了一种舆情分析工作流方法,应用于所述的舆情分析工作流***,所述方法包括:
根据舆情分析需求从数据分析功能模块中选择多个数据分析模块,并按顺序进行连接,建立工作流,或者从工作流模型模块中选择一工作流模型并对数据分析模块进行修改,其中,需对工作流中的每个数据分析模块的参数进行设置;
对于同一事件的不同分析角度的舆情分析需求,建立多个工作流;
使用工作流管理模块中舆情数据预处理模块处理的社交媒体数据对工作流进行实例化,生成计算任务,对舆情进行分析,其中,从事件库中选择或新建事件,将计算任务归属于该事件;
根据计算流程完成数据计算,通过在可视化工作流图查看各数据分析模块的计算结果。
第三方面,本发明提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的舆情分析工作流***。
第四方面,本发明提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的舆情分析工作流***。
本发明至少包括以下有益效果:
一、由于本发明设置的数据分析功能模块中包括多个能够进行舆情数据分析的数据分析模块,因此,在建立工作流时,可以根据一个具体的舆情分析需求自由选择多个数据分析模块,并按顺序进行连接,形成多层级的分析模块,以使建立的工作流能够完成特定的舆情分析任务。本申请和现有技术相比,具有很大的自由度,可以建立满足任意需求的工作流。此外,通过自由连线的多层级分析模块,可以为经过不同数据分析模块的数据赋予不同分析模块的标签,从而为业务人员提供层级化、标签化的结果,构建分析任务的多层级多标签分类体系,并可以在分析结果上启动新任务进行进一步的分析。通过自由连接的数据分析模块,也提供了较现有***更大的灵活性、扩展性、易用性,业务人员不必了解不同类型数据的构成方式,只需自由地连接不同数据分析模块即可得出所需的多层级分析结果,而可视化的展示方式能够让他们对不同层级的分析结果进行自由选取,较现有***的交互性更强。
二、本发明可以针对同一事件从不同的分析角度,建立多个工作流,从而对多个舆情分析任务进行分析,从而能够实现从不同层次和不同角度获得舆情信息。设置的事件管理模块能够对这多个舆情分析任务进行管理,同时能够通过舆情分析数据构建不同任务之间的关系,即通过一个工作流计算分析获取的舆情分析结果能够作为另外一个工作流数据获取模块的输入数据,因此,事件管理模块实现了对同一数据源的不同数据分析方法,并可以在分析结果上继续进一步分析。
三、由于工作流管理模块具体包括舆情数据获取模块、舆情数据预处理模块,舆情数据计算模块和舆情数据存储模块,因此,本发明在工作流管理模块中,利用高级抽象和多种设计模式,设计了统一的数据获取、数据预处理、数据计算、数据存储接口,覆盖了不同数据源、结构化数据与非结构化数据的互联互通、模糊查询和结构化精确查找。每一类算法中都提供了算法原型,可以以较低的成本引入成型的分析算法,每一项***的内容都为软件与硬件做好了分布式、可插拔的***设计预案,可以以敏捷开发的模式对不满足的业务需求提供高效、精准的开发与调试。
四、本发明可以针对社交网络图、社交文本数据等不同异质数据的数据分析模块进行自由连线,并且每一种数据的分析算法都可以进行扩展,而只需少量工作即可完成不同数据输入输出之间的转换工作,这使得本发明提供了较现有***更为灵活和丰富的分析手段,例如,业务人员可以发现转发同一类型敏感信息的群体,并对这部分人群进行人物画像、群体画像、地理溯源等进一步的分析手段。本发明针对这一点,通过基于自由连线的多层级分析模块,可以为经过不同数据分析模块的数据赋予不同分析模块的标签,从而为业务人员提供层级化、标签化的结果,构建了分析任务的多层级多标签分类体系,并可以在分析结果上启动新任务进行进一步的分析。本发明通过工作流模型模块,提供了较现有***更大的灵活性、扩展性、易用性,业务人员不必了解不同类型数据的构成方式,只需自由地连接不同分析模块即可得出所需的多层级分析结果,而可视化的展示方式则允许他们对不同层级的分析结果进行自由选取,较现有***的交互性更强。
五、本发明能够实现对社交媒体的热点事件舆情跟踪,提早发现社会不稳定的潜在因素,对从网络信息空间安全角度确保国家的社会稳定与安全,具有重要的研究意义;利用社交媒体的转发网络关系图,发现潜在的舆论引导者和舆情发酵社团,从而辅助业务人员精准破除信息茧房,抓紧舆情核心人群;提供了一种简便、高效、可扩展的工作流***,具有舆情分析以外的潜力,能够在少量开发的基础上,为不同行业的业务人员进行数据分析赋能,提高他们对于数据的洞察力,从而更好地辅助业务推行。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明其中一个实施例中舆情分析工作流***的结构关系示意图;
图2为本发明其中一个实施例中舆情分析工作流方法流程示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
在本发明实施例中,事件被定义为针对某一个具体分析需求所包含的一组任务的集合,具体而言,事件可以指使用某一关键词、标签,一组给定时间范围内的数据源的输入。任务被定义为一个工作流的具体实例化,任务可以从属于某一个事件,也可以独立生成,以便于满足业务人员整体性事件分析和快速分析某一特定内容的不同需求。
如图1所示,本发明实施例提供了一种舆情分析工作流***,包括:数据分析功能模块,其包括N个能够进行舆情数据分析的数据分析模块,N>=2;工作流建立模块,其根据舆情分析需求从所述数据分析功能模块中选择多个数据分析模块,并按顺序进行连接,建立能够对特定任务进行分析的工作流,其中,针对同一事件的不同分析角度的舆情分析需求,建立多个工作流,以便于能够对多个舆情分析任务进行分析;工作流管理模块,其用于对建立的工作流进行数据分析计算,并通过可视化工作流图查看计算结果;事件管理模块,其用于对同一事件的多个舆情分析任务进行管理,并通过舆情分析的数据构建不同任务之间的联系。
其中,所述数据分析功能模块包括社团划分模块、传播态势分析模块、文本分类器计算模块、敏感性分析模块以及LDA(Latent Dirichlet Allocation) 模块等等。选择上述数据分析模块进行连接建立工作流时,能够采用自由拖拽的连线式生成,对业务人员屏蔽了繁杂的数据输入格式,前后序关系等细节,从而辅助业务人员快速构建出自己脑中的舆情分析流程图。需要说明的是,所述数据分析功能模块中的数据分析模块类型并不限于本实施例所列出的几种,可以根据需求进行具体设置。
其中,在建立工作流时,当选择一数据分析模块后,需对该数据分析模块的参数进行设定,每个数据分析模块都设置了进行数据分析时的一些参数。例如,当选择社团划分模块后,设定社团划分的算法;选择敏感性分析模块后,设定敏感信息判别阈值,阈值越高判别结果更精准。
在上述实施例中,由于设置的数据分析功能模块中包括多个能够进行舆情数据分析的数据分析模块,因此,在建立工作流时,可以根据一个具体的舆情分析需求自由选择多个数据分析模块,并按顺序进行连接,形成多层级的分析模块,以使建立的工作流能够完成特定的舆情分析任务。
本实施例可以针对同一事件从不同的分析角度,建立多个工作流,从而对多个舆情分析任务进行分析,从而能够实现从不同层次和不同角度获得舆情信息。设置的事件管理模块能够对这多个舆情分析任务进行管理,同时能够通过舆情分析数据构建不同任务之间的关系,即通过一个工作流计算分析获取的舆情分析结果能够作为另外一个工作流数据获取模块的输入数据,例如建立了三个工作流A,B和C,工作流A计算完成了一个舆情分析任务,工作流A获得的层级化的舆情分析结果能够作为工作流B的输入数据,工作流B获得的层级化的舆情分析结果也能够作为工作流C的输入数据,从而能够构建不同舆情分析任务之间的关系,也能够从更深层次获取舆情分析结果。因此,事件管理模块实现了对同一数据源的不同数据分析方法,并可以在分析结果上继续进一步分析,在现有技术中,并未针对一组关键词的不同任务构建统一管理的事件管理模块。
在本实施例中,可以通过可视化工作流图查看计算结果,由于工作流为层级化的分析模块,因此,本实施例能够通过可视化的工作流图查看层级化的计算结果。
在其中一具体实施方式中,所述的舆情分析工作流***,所述工作流建立模块还包括工作流模型模块,其为预设的工作流模型,存储在工作流模型数据库中,其中,当选择其中一工作流模型后,能够根据舆情分析需求对工作流模型中的数据分析模块进行修改。
在上述实施方式中,当选择其中一工作流模型后,能够可视化地调整不同数据分析模块之间的前后关系和具体参数,使得业务人员可以非常轻松地搭建出层级化、多样化的工作流。
在其中一具体实施方式中,所述的舆情分析工作流***,所述工作流管理模块具体包括:
舆情数据获取模块,其用于获取不同异质的数据源,所述舆情数据获取模块包括:数据获取接口模块,其用于连接社交媒体网络或者连接存储有社交媒体数据的数据库;数据查询模块,其能够进行模糊查询和结构化精确查找,其中,所述舆情数据获取模块与建立的工作流中第一个数据分析模块进行连接;
舆情数据预处理模块,其用于对获取的舆情数据,构建转发网络关系和对社交网络文本进行预处理;
舆情数据计算模块,其包括:数据分析算法模块,其包括各种数据分析算法;算法分类模块,其用于对各种数据分析算法进行分类,形成图和文本两类分析算法;算法转接模块,其用于对建立的工作流中相连接的数据分析模块中的数据分析算法,以层级嵌套的模式进行。
在上述实施方式中,舆情数据获取模块通过高级抽象,设计了统一的数据获取接口,包括了不用异质数据源的获取方式,覆盖了结构化数据与非结构化数据,因此,舆情数据获取模块能够获取不同异质的数据源,数据获取模块能够从社交媒体网络中直接获取舆情数据,也能够从存储有社交媒体数据的数据库中获取舆情数据。获取数据时需要进行检索,数据查询模块能够进行模糊查询和结构化精确查找。由于所述舆情数据获取模块与建立的工作流中第一个数据分析模块进行连接,为工作流提供数据的输入;所述舆情数据获取模块需设置的参数为舆情分析所关注的关键词和时间范围。因此,根据关键词和时间范围,可以通过模糊搜索的方式从非结构化数据库中得到原始微博、推特等社交媒体中文本、时间、IP地址等不同类型的数据。根据预定义的存储过程,可以通过结构化查询的方式从结构化数据库中获取计算结果、工作流模板、任务参数等结构化数据。
舆情数据预处理模块通过有效的接口设计,能够承载舆情数据获取模块中不同异质数据源的输入,并且为其提供了多种有效的数据预处理模式。根据社交媒体网络的转发关系、IP关系和昵称建立转发网络关系,为识别社交媒体社群关系、社区检测、KOL发现等进一步的舆情数据分析提供了坚实的数据基础;根据正则表达式、停用词表、社交媒体专用语词表等进行数据判断,结合分词手段,对社交媒体文本进行分词、去重、去停用词、去专用语、去标点符号等不同的操作方式,并可进行自由搭配选择,对社交网络文本进行预处理。通过高效的算法转接模块,前后序数据分析算法在执行过程中以以层级嵌套的模式进行,如“社团1—>主题1—>正面情绪”,从而为业务人员展现数据的不同层次、不同维度的特点,以此辅助业务人员对舆情进行从粗粒度到细粒度的精准把控。和现有***相比,舆情数据计算模块通过高自由度、高扩展性的自由连线方式,提供了异质数据源之间的输入输出转换,为源数据给予多层级、多类型的标签,这与现有***的单一数据源(如文本) 分析模式是不同的,为业务人员提供了更大的可能性。
在其中一具体实施方式中,所述的舆情分析工作流***,所述工作流管理模块还包括舆情数据存储模块,其通过层级哈希索引的形式进行储存。
在上述实施方式中,数据存储模块通过创新性地构造数据计算结果的层级哈希索引,因此,能够高效地从存储数据库中提取出分级计算结果,并反馈到前端可视化工作流图中进行实时渲染,在兼顾存取效率的同时,很大程度上节约了存储资源,对海量数据的实时展示具有重要的作用。该部分与数据计算的多层级多类型结果是相符相成的,和现有***的结构化存储方式,本实施例的舆情数据存储模块通过层级哈希索引,避免了树结构的维护难度,保留了树结构的层次特性和高效查找,利用非结构化索引与结构化查询相结合的方式,能够比现有***增加筛选条件的查找方式更快更精准。
总体上来说,工作流管理模块通过对舆情数据分析的流程进行拆分和高级抽象,将数据分析的流程划分为上述舆情数据获取模块、舆情数据预处理模块、舆情数据计算模块和舆情数据存储模块四大模块,并定义了不同数据分析模块的基本架构,以便于进行多种不同算法之间的耦合,并提供面向未来发展的扩展性。本发明实施例通过以工作流作为核心和基础,构建了以任务为主要计算方式,事件为主要分析特点的可扩展的自由连线舆情分析工作流***。
本发明实施例还提供了一种舆情分析工作流方法,应用于所述的舆情分析工作流***,如图2所示,所述方法包括:
步骤一、根据舆情分析需求从数据分析功能模块中选择多个数据分析模块,并按顺序进行连接,建立工作流,或者从工作流模型模块中选择一工作流模型并对数据分析模块进行修改,其中,需对工作流中的每个数据分析模块的参数进行设置;
步骤二、对于同一事件的不同分析角度的舆情分析需求,建立多个工作流;
步骤三、使用工作流管理模块中舆情数据预处理模块处理的社交媒体数据对工作流进行实例化,生成计算任务,对舆情进行分析,其中,从事件库中选择或新建事件,将计算任务归属于该事件;
步骤四、根据计算流程完成数据计算,通过在可视化工作流图查看各数据分析模块的计算结果。
本发明实施例还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的舆情分析工作流***。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的舆情分析工作流***。
下面将通过一个具体的实例来进行说明。
前序步骤S0、构建一个定制化工作流,用户可选择本***提供的数据分析模块,定制化特定流程,建立特定分析顺序的工作流。例如,构建工作流“社团划分→主题模型文本聚类→文本情感分类→敏感信息识别”的具体构建过程为:
1.选好舆情数据获取模块,设定好本次分析所关注的关键词,以及时间范围。
2.选好社团划分模块,设定好完成社团划分的算法。连接舆情数据获取模块与社团划分模块。
3.选好主题模型文本聚类模块,设定好需要计算返回的主题数目,以及主题计算推断中的相关参数。连接好社团划分和主题模型文本聚类模块。
4.选好文本情感分类模块,选定所使用的分类方法。连接好主题模型文本聚类模块和文本情感分类模块。
5.选好敏感信息识别模块,设定好敏感信息判别阈值(阈值越高判别结果更精准)。连好文本情感分类模块和敏感信息模块。
至此,完成一条示例工作流的创建,下面来执行此条工作流。
步骤S1、从微博流式数据库中,根据定制工作流中舆情数据获取模块设定的关键词和划定的时间范围,选定的分析文本数量K,在微博流式数据库中按照上述条件进行筛选,获取与关键词最相关的K条微博;
采用Elasticsearch作为流式数据库,Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。在本发明***中可以将微博平台API接口获取到的微博数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当需要进行检索的时候,再根据权重将结果排名,打分,再将返回结果送入步骤S2进行处理。
步骤S2、根据步骤S1获取的与设定关键词,时间范围相关的微博文本,构建微博转发网络;根据相关微博文本,在进行文本清洗的工作后,获取微博的文本表征,便于后面步骤中数据分析直接使用。
微博转发网络的构建,主要是以转发关系的添加完成,例如,在微博数据流有“root_mid”字段,该字段表示本条微博所转发的原始微博的ID。如此,即可在微博转发网络中添加“本微博→原始微博”的转发关系。需要注意的是,实际情况中,有大量的微博文本中包含长传的转发链,例如“xxx//@B:xxx//@C:xxx//@D:xxx//@X”,此种情况下,如果直接添加“本微博→原始微博”这样的转发关系,会使得最终构建的微博转发网络有偏差,从而影响后续算法的精确度。基于此,本***构建转发链条中的用户名匹配算法,通过此算法在长链条中获取相关用户名,根据用户名匹配用户ID,搜索对应原微博内容,再逐次添加转发关系进入到微博转发网络中。因此,最终的转发网络将被添加“本条微博→B→C→D→原始微博”的转发关系。
微博转发网络的节点规模,为了考虑计算的效率,本发明***选用开源图计算工具包Networkit,该工具包基于C++语言编写,这是一个不断发展壮大的用于大规模网络分析的开源工具包。它实现了高效的图形算法,其中许多算法是并行的,因为可以很好地利用多核架构进行网络分析任务的计算。这些用于计算网络分析的标准度量,例如度序列、聚类系数和中心度度量。本***使用Networkit工具包中定义的graph类来存储微博的转发网络图。
在完成转发网络的构建后,再进行微博文本的预处理。
一般有原创、转发和评论三种类型的微博。显然,转发微博中有可能包含非本条微博用户发布的文本内容。换言之,可以理解为有部分文本并不代表微博发布者的意思,可能与其转发的文本所表达的情感或者观点相距甚远,还有可能相反。
具体来看:转发微博一般包含该用户转发后写的内容以及原贴微博内容两部分,例如“我觉得应该支持//@沙坪某用户:真的不知道这是什么才能相互来的办法”,这些与用户发布文本无关的内容极有可能会降低后续敏感信息识别,文本情感分类,文本主题模型的精度。所以在获取微博文本特征表示之前首先需要把这些与该用户发布文本无关的内容利用正则表达式将转发和评论微博中与该用户发布文本无关内容去掉。
步骤S3、根据步骤S2所传递的处理完成的微博文本以及微博转发网络图,实例化用户定义的工作流并进行运算,产生各个步骤的结果,供用户查看参考;
我们以围绕与具体实例相关微博文本定义的,“社团划分→主题模型文本聚类→文本情感分类→敏感信息识别”的工作流为例。
1.通过社团划分任务,将选定的N条微博文本划分成了K个社团(K≤N),在展示台绘制出了微博转发网络,不同社团中的节点,使用不同的颜色进行渲染,将鼠标光标移动到节点上即展示该条微博的ID和微博的原始文本内容。
2.通过主题模型文本聚类任务,可以对上一任务划分的K个社团分别进行主题模型计算,设定T个主题,最终将获得(K×T)个主题对,用户可以选择某一个社团查看其中成员的言论的主题,即可大致了解该社团的观点与倾向,可以特别关注社团中心节点的文本内容。
3.通过文本情感分类任务,将对K个社团的T个主题,即K×T个文本子集分别进行情感极性的判断。用户可以选择“社团k-主题t”来查看,某一特定社团特定讨论主题下,文本所表达情感的倾向性,***展台还会展示正面负面情感比例。
4.通过敏感信息识别任务,将对K个社团,T个主题,2种情感,即K×T×2 个文本自己分别进行敏感信息识别的判别。用户可以选择“社团k-主题t-正面”来查看,某一特定社团下,第t个主题表现正面情感的文本是否涉及敏感信息,***展台会展示涉及和不涉及敏感信息的文本ID和文本内容,给予用户充足的参考。
上述工作流执行过程中涉及的具体算法模块的相关原理介绍如下:
第一块任务,社团划分,使用步骤S2中已经处理好的微博转发网络,依托FastUnfolding算法完成社团划分工作:
该算法可以大致分为两个阶段,可反复迭代直至收敛。假设步骤S2传回的微博转发网络有N个社团。
1.为每一个节点都分配一个community index,即此时网络有N个 community。此为初始状态
2.对每个节点i,考虑它的邻接节点j;让i的community变成j的,看这个动作对modularity的值有怎样的作用。如果这个变动带来的ΔQ是正的,就接受这个变动,否则就保持原来的分配方式。
3.重复以上过程直到社团划分结果收敛为止。
其中ΔQ即表示微博节点i加入社团C为对整体modularity值的影响,计算方式如下所示:
Figure RE-GDA0003856221300000131
使用Networkit开源工具包实现这一算法,可以在0.14秒内完成10万微博节点的社团划分,能够精准高效地完成任务。
第二块任务,主题模型文本聚类,本发明***采用LDA模型来完成本项任务,采用jGibbLDA开源工具包来实现。基于步骤S2传来的完成分词的微博文本数据,进行如下建模:
假设每篇文档i的主题分布为θi服从多项式分布,文档i的词j的词分布
Figure RE-GDA0003856221300000132
服从多项式分布,由词分布
Figure RE-GDA0003856221300000133
最终生成词语wi,j,可以写出如下的联合分布:
Figure RE-GDA0003856221300000141
基于此,可以给出一篇文档中单词分布的极大似然估计:
Figure RE-GDA0003856221300000142
继而可以通过Gibbs采样的方式,估计模型中的参数。于是,可以得到每篇文档的主题分布情况,以及每个主题的词分布情况。本发明***取每篇文档中概率最高的主题作为该篇文档的主题,依照不同的主题对文档进行聚类,与此同时,选取主题下的TOP100高频词作为该主题的代表词用于界面展示。
第三块任务,文本情感分类任务,由于步骤S2传回的数据大都是短文本,在这里采用情感词典+基于BERT的微调分类模型投票的方式完成文本情感分类任务。
情感词典,主要是针对表肯定否定的词汇,以及相关情绪的词汇,结合了中文语法的领域只是来判断文本的情感极性。此方法用于表述较为直白的文本能够具有比较高的分类精度,但是针对具有深层次含义的文本,例如常见的阴阳怪气语义不能够进行很好地判断。因此,本发明***还额外使用20 万条带标记的微博文本训练得到经过表征层参数微调的深度情感分类模型。基于两个模型的判别结果投票后,返回最终的情感判别值。
第四块任务,文本敏感信息识别任务,根据步骤S2传回的数据,通过预训练中文语言模型ERNIE获取该条微博文本的深度语义表征,再基于Faiss 开源工具库,依据实现选定好的敏感种子与正常种子文本,完成向量索引构建,随后便能够实现敏感信息识别的任务工作。最终将在工作台中展示筛选出的敏感信息。
步骤S4、基于实用例的分析目的,具体实例的相关分析,可以将上述计算完成的任务归为实例事件,如果该事件还未创建,可以使用任务工作台功能创建新的实例事件将该任务进行归类。用户可以查看事件中完成的任务的计算结果。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (10)

1.舆情分析工作流***,其特征在于,包括:
数据分析功能模块,其包括N个能够进行舆情数据分析的数据分析模块,N>=2;
工作流建立模块,其根据舆情分析需求从所述数据分析功能模块中选择多个数据分析模块,并按顺序进行连接,建立能够对特定任务进行分析的工作流,其中,针对同一事件的不同分析角度的舆情分析需求,建立多个工作流,以便于能够对多个舆情分析任务进行分析;
工作流管理模块,其用于对建立的工作流进行数据分析计算,并通过可视化工作流图查看计算结果;
事件管理模块,其用于对同一事件的多个舆情分析任务进行管理,并通过舆情分析的数据构建不同任务之间的联系。
2.如权利要求1所述的舆情分析工作流***,其特征在于,所述工作流建立模块还包括工作流模型模块,其为预设的工作流模型,存储在工作流模型数据库中,其中,当选择其中一工作流模型后,能够根据舆情分析需求对工作流模型中的数据分析模块进行修改。
3.如权利要求2所述的舆情分析工作流***,其特征在于,所述工作流管理模块具体包括:
舆情数据获取模块,其用于获取不同异质的数据源,所述舆情数据获取模块包括:数据获取接口模块,其用于连接社交媒体网络或者连接存储有社交媒体数据的数据库;数据查询模块,其能够进行模糊查询和结构化精确查找,其中,所述舆情数据获取模块与建立的工作流中第一个数据分析模块进行连接;
舆情数据预处理模块,其用于对获取的舆情数据,构建转发网络关系和对社交网络文本进行预处理;
舆情数据计算模块,其包括:
数据分析算法模块,其包括各种数据分析算法;
算法分类模块,其用于对各种数据分析算法进行分类,形成图和文本两类分析算法;
算法转接模块,其用于对建立的工作流中相连接的数据分析模块中的数据分析算法,以层级嵌套的模式进行。
4.如权利要求3所述的舆情分析工作流***,其特征在于,在建立工作流时,当选择一数据分析模块后,需对该数据分析模块的参数进行设定;
所述数据分析功能模块包括社团划分模块、传播态势分析模块、文本分类器计算模块、敏感性分析模块以及LDA模块。
5.如权利要求3所述的舆情分析工作流***,其特征在于,所述工作流管理模块还包括舆情数据存储模块,其通过层级哈希索引的形式进行储存。
6.如权利要求3所述的舆情分析工作流***,其特征在于,
所述构建转发网络关系具体包括:根据社交媒体网络的转发关系、IP关系和昵称建立转发网络关系;
所述对社交网络文本进行预处理具体包括:根据正则表达式、停用词表、社交媒体专用语词表进行数据判断,结合分词手段,对社交媒体文本进行分词、去重、去停用词、去专用语、去标点符号操作。
7.如权利要求4所述的舆情分析工作流***,其特征在于,所述舆情数据获取模块需设置的参数为舆情分析所关注的关键词和时间范围。
8.舆情分析工作流方法,应用于权利要求1~7任一所述的舆情分析工作流***,其特征在于,所述方法包括:
根据舆情分析需求从数据分析功能模块中选择多个数据分析模块,并按顺序进行连接,建立工作流,或者从工作流模型模块中选择一工作流模型并对数据分析模块进行修改,其中,需对工作流中的每个数据分析模块的参数进行设置;
对于同一事件的不同分析角度的舆情分析需求,建立多个工作流;
使用工作流管理模块中舆情数据预处理模块处理的社交媒体数据对工作流进行实例化,生成计算任务,对舆情进行分析,其中,从事件库中选择或新建事件,将计算任务归属于该事件;
根据计算流程完成数据计算,通过在可视化工作流图查看各数据分析模块的计算结果。
9.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7中任一项所述的***。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1-7中任一项所述的***。
CN202210559536.1A 2022-05-23 2022-05-23 舆情分析工作流***及其方法 Pending CN115293479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210559536.1A CN115293479A (zh) 2022-05-23 2022-05-23 舆情分析工作流***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210559536.1A CN115293479A (zh) 2022-05-23 2022-05-23 舆情分析工作流***及其方法

Publications (1)

Publication Number Publication Date
CN115293479A true CN115293479A (zh) 2022-11-04

Family

ID=83819806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210559536.1A Pending CN115293479A (zh) 2022-05-23 2022-05-23 舆情分析工作流***及其方法

Country Status (1)

Country Link
CN (1) CN115293479A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117910850A (zh) * 2023-12-18 2024-04-19 北京宇信科技集团股份有限公司 一种指标数据分析引擎、指标数据计算装置和计算方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117910850A (zh) * 2023-12-18 2024-04-19 北京宇信科技集团股份有限公司 一种指标数据分析引擎、指标数据计算装置和计算方法

Similar Documents

Publication Publication Date Title
CN105740228B (zh) 一种互联网舆情分析方法及***
US10740678B2 (en) Concept hierarchies
US20180240043A1 (en) Model and pattern structure online unital learning: mapsoul
Soibelman et al. Management and analysis of unstructured construction data types
Kang et al. Neural and attentional factorization machine-based Web API recommendation for mashup development
KR20060045783A (ko) 제품 지원에 대한 서비스 요청을 마이닝하는 방법 및 장치
CN117271767B (zh) 基于多智能体的运维知识库的建立方法
US20180330231A1 (en) Entity model establishment
US8140464B2 (en) Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture
CN115293479A (zh) 舆情分析工作流***及其方法
Reddy et al. Manta ray optimized deep contextualized bi-directional long short-term memory based adaptive galactic swarm optimization for complex question answering
Elhebir et al. A novel ensemble approach to enhance the performance of web server logs classification
Rashid Access methods for Big Data: current status and future directions
Battle et al. What exactly is an insight? a literature review
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
Rogushina et al. The use of ontological knowledge for multi-criteria comparison of complex information objects
Peng et al. TH-SLP: Web service link prediction based on topic-aware heterogeneous graph neural network
Coli et al. Towards automatic building of human-machine conversational system to support maintenance processes
Nebot et al. Towards Analytical MD Stars from Linked Data.
Hirchoua et al. Topic hierarchies for knowledge capitalization using hierarchical Dirichlet processes in big data context
Hristoskova et al. A graph-based disambiguation approach for construction of an expert repository from public online sources
Sukumar et al. Knowledge Graph Generation for Unstructured Data Using Data Processing Pipeline
Kumar Singh et al. Efficient Management of Community Question Answering Sites using Improved Spectral Clustering.
Pandey et al. Real-time Twitter sentiment analysis using machine learning using different classification algorithm
Lumbantoruan et al. TopC-CAMF: A Top Context Based Matrix Factorization Recommender System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination