CN111949848A - 一种基于特定事件的跨平台传播态势评估及分级方法 - Google Patents

一种基于特定事件的跨平台传播态势评估及分级方法 Download PDF

Info

Publication number
CN111949848A
CN111949848A CN202010785632.9A CN202010785632A CN111949848A CN 111949848 A CN111949848 A CN 111949848A CN 202010785632 A CN202010785632 A CN 202010785632A CN 111949848 A CN111949848 A CN 111949848A
Authority
CN
China
Prior art keywords
topic
event
propagation
grade
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010785632.9A
Other languages
English (en)
Other versions
CN111949848B (zh
Inventor
孙立远
周亚东
付培国
边策
王博
高泱晗
黄亮
万欣欣
李欣
赵忠华
王禄恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202010785632.9A priority Critical patent/CN111949848B/zh
Publication of CN111949848A publication Critical patent/CN111949848A/zh
Application granted granted Critical
Publication of CN111949848B publication Critical patent/CN111949848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于特定事件的跨平台传播态势评估及分级方法,属于网络信息领域。本发明的基于特定事件的跨平台传播态势评估及分级方法,具体包括四个功能模块,分别为:原始网络元素检测模块、特定事件的话题传播计算模块、话题传播模型参数的等级评定和威胁分析模块、任务调度和优化模块。本发明解决了现有技术中没有考虑到事件的传播态势评估及分级方法,提出了针对特定事件传播情况的量化评估方法和有区分度的分级手段,建立了信息***框架,实现了对特定事件的跨平台传播态势评估及分级,同时根据特定事件的跨平台传播态势评估对后续监测工作进行指导,从而有效提高对于事件传播的紧急或影响程度的判断能力,用以指导实际工作。

Description

一种基于特定事件的跨平台传播态势评估及分级方法
技术领域
本发明属于网络信息技术领域,特别涉及一种基于特定事件的跨平台传播态势评估及分级方法。
背景技术
在互联网的催化作用下,近年来网络热点事件层出不穷。所谓网络热点事件,是指经由互联网发布、传播、发酵,引起社会广泛关注与讨论的事件。网络热点事件的内容十分广泛,涉及政治、经济、文化、娱乐、民生等各个方面。互联网群体传播的出现更是给网络热点事件的传播机制带来了新的发展契机与呈现特点。事件提出者的身份不断多元化,事件内容更具敏感性、感染力与争议性,受众通过转发、评论、赞赏、话题制造等方式,主动完成传者与受者身份的不断转化,最终汇聚成为可见的积聚性力量,推动网络事件的传播发展,不断扩大其社会影响力,达到***式传播效果。考虑到目前传播载体平台的多样性以及传播模式的复杂性,单一平台的传播无法体现事件的整体全貌,需要综合考虑主流传播平台上,跨平台传播的情况。
目前实际工作中对于传播态势评估及分级方法,以经验和人工判断为主,缺少量化评估方法和有区分度的分级手段,需要设计评估模型对事件中的传播情况进行量化评估,配以实现相关方法的信息***框架,进而设计分级方法,对事件传播的紧急或影响程度进行划分,用以指导实际工作。
发明内容
本发明的目的是提出一种基于特定事件的跨平台传播态势评估及分级方法,以了解特定事件的跨平台传播态势评估及分级的问题,实现建立信息***框架对特定事件的跨平台传播态势评估及分级,同时针对特定事件的跨平台传播态势评估对后续监测工作进行指导。
本发明提出的基于特定事件的跨平台传播态势评估及分级方法,包括以下步骤:
(1)原始网络元素检测模块通过获取网络社交媒体网站数据对舆论话题进行实时流量监测,并根据指定的话题或检测的话题进行用户实时数据的输出;其中原始网络元素检测模块从基于Web型或社交媒体网站API型的网络获取数据,并将其中的文本数据进行嵌入训练,抽取特定话题,得到相关话题的跨网络平台的实时文本数据和用户行为数据,发送给特定事件传播计算模块;
(2)特定事件的话题传播计算模块对原始网络元素检测模块得到的数据,进行特定事件的话题传播计算;其中对于特定事件的话题根据用户的不同社交行为分别进行分时统计,得到话题在不同社交网络平台的传播折线图;对于各个平台的话题传播情况,建立动力学模型,利用优化模型最终得到传播模型的参数,作为特定事件的话题传播特征传递给话题传播模型参数的等级评定和威胁分析模块;
(3)话题传播模型参数的等级评定和威胁分析模块对各等级样例事件的威胁程度分析,进行等级对应的基准值参数评定,对待评价数据各维度参数确定并实现无量纲处理;根据任务调度和优化模块进行加权误差计算,寻找出与未评定数据关联程度最高的基准等级,实现等级判定;针对特定事件各参数和基准等级中对应参数的比较进行参数对应的现实意义分析,同时将特定事件的等级评定传递给任务调度和优化模块;
(4)任务调度和优化模块对话题传播模型参数的等级评定和威胁分析模块提取事件中威胁等级较低的事件进行释放,对威胁等级较高的事件进行筛选,将事件标题进行关键词提取,在跨网络平台寻找关键词对应相似事件标题,传递给原始网络元素检测模块进一步对相关事件进行持续监测和等级评定,同时对特定事件内容进行信息抽取,生成特定事件概述;任务调度和优化模块同时根据现实需求对于话题传播模型参数的等级评定和威胁分析模块中各参数进行权值标准规定。
上述方法中,所述的原始网络元素检测模块的原始网络元素检测方法,包括以下步骤:
(1)数据获取子模块通过基于Web的网络爬虫和基于社交网络平台API的网络爬虫获得社交网络的多媒体文本数据及用户行为数据;
(2)词嵌入子模块在步骤(1)的经过文本预处理的基础上,通过单词联系上下文的方法,基于Skip-Grams的技术,对单词进行词嵌入,得到单词的向量表示;
(3)话题抽取与匹配子模块实时导入的社交网络平台数据,利用基于给定关键词、基于文本的TF-IDF计算及命名实体识别的方法得到话题单词,并对已有的单词向量库进行匹配比较,得到并输出实时特定事件话题。
上述方法中,所述的特定事件的话题传播计算模块的话题传播计算方法,包括以下步骤:
(1)根据同一话题的跨网络数据,根据不同的用户行为如转发、发推和评论进行统计,根据统计结果画出实时的话题热度折线图;
(2)根据统计结果,建立跨平台的话题传播的动力学模型,并基于随机梯度下降的方法,对参数进行优化求解,并将参数输出。
上述方法中,所述的话题传播模型参数的等级评定和威胁分析模块的分析方法,包括以下步骤:
(1-1)根据事件的威胁程度分析进行各等级基准值评定,设立一级、二级、三级、四级,同时对各等级事件热度增长情况、事件参与人数增长情况、事件跨平台传播情况、事件传播阻力系数这四个维度的参数制定标准;
(1-2)确定待评价数据,根据特定事件的话题传播计算模块所计算得出的各参数构建四维向量,即为话题参与人员增长系数
Figure BDA0002621859740000032
话题热度传播系数γi,话题跨平台传播系数
Figure BDA0002621859740000031
以及调控话题系数ζ(t)i,对所得到的各维度数据进行无量纲化处理,量化并标准化衡量特定事件传播情况的四个参数值;
(1-3)利用步骤(1-2)的四个参数值和各等级标准的参数值,根据任务调度和优化层所制定的各参数的权值标准,计算误差值作为特定事件和各等级标准的对比参数,与特定事件计算所得误差值最小对应的等级即为事件的威胁程度等级。
上述方法中,所述的任务调度和优化模块的工作过程包括以下步骤:
(1)对特定事件对应的威胁等级进行分类和筛选,对其中威胁等级较高的事件选择传递给原始网络元素检测模块,继续基于特定模块实现持续监查和检测,实现不断地实时更新威胁等级;威胁等级较低的事件选择释放;
(2)对威胁等级较高的事件标题进行分词,利用各分词结果在网络语料库中出现的频率实现基于统计方法的关键词的提取,将关键词涉及到的事件传递给原始网络元素检测模块进行监测;
(3)对威胁等级较高的事件对应的短文本进行信息抽取,提取各热点事件发生的基础要素——时间、地点、人名、机构名等信息,实现对特定事件的概述;
(4)根据事件的现实意义对话题传播模型等级评定和威胁分析模块提供的参数权值标准,根据现实意义对各参数实时更新。
本发明提出的基于特定事件的跨平台传播态势评估及分级方法,其优点是:
1、本发明提出的基于特定事件的跨平台传播态势评估及分级方法,在话题文本信息处理方面,经过多层机制筛选,可以更好地检测出具有相同意义或相近意义的话题,并根据任务调度和优化模块针对某一话题实时监测。
2、本发明方法中话题传播模型利用的动力学模型,除了计算单一平台下的话题传播以外,独特地考虑了跨网络平台之间的信息传播,可以更好地针对不同平台之间的话题的传播进行计算。
3、本发明方法采用分级评定和威胁分析的方法,针对话题传播模型给出的参数,来进行对话题传播评分,根据最终的得分实现对话题传播的分级评定。
4、不呢发明方法针对实时监测的话题,进一步采用了信息抽取的方法,实现了对话题的实时监控,并针对话题热度的变化对各个模块进行实时的调度和优化,更好地检测话题流量信息。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明提出的跨平台传播态势评估及分级方法的框架图。
图2是本发明的原始网络元素检测模块处理流程图。
图3是本发明的文本嵌入后对于话题相近的单词进行匹配的示例图。
图4是本发明的特定事件的话题传播计算模块处理流程图
图5是本发明的话题传播模型参数的等级评定和威胁分析模块流程图
图6是本发明的任务调度和优化模块流程图
图7是某社交网络平台话题热度实际曲线与话题传播模型预测结果的实例
图8所示为实时话题热度增长的实际值与模型预测话题增长结果的实例
具体实施方式
本发明提出的基于特定事件的跨平台传播态势评估及分级方法,其流程框图如图1所示,包括以下步骤:
(1)原始网络元素检测模块通过获取网络社交媒体网站数据对舆论话题进行实时流量监测,并根据指定的话题或检测的话题进行用户实时数据的输出;其中原始网络元素检测模块从基于Web型或社交媒体网站API型的网络获取数据,并将其中的文本数据进行嵌入训练,抽取特定话题,得到相关话题的跨网络平台的实时文本数据和用户行为数据,发送给特定事件传播计算模块;
(2)特定事件的话题传播计算模块对原始网络元素检测模块得到的数据,进行特定事件的话题传播计算;其中对于特定事件的话题根据用户的不同社交行为分别进行分时统计,得到话题在不同社交网络平台的传播折线图;对于各个平台的话题传播情况,建立动力学模型,利用优化模型最终得到传播模型的参数,作为特定事件的话题传播特征传递给话题传播模型参数的等级评定和威胁分析模块;
(3)话题传播模型参数的等级评定和威胁分析模块对各等级样例事件的威胁程度分析,进行等级对应的基准值参数评定,对待评价数据各维度参数确定并实现无量纲处理;根据任务调度和优化模块进行加权误差计算,寻找出与未评定数据关联程度最高的基准等级,实现等级判定;针对特定事件各参数和基准等级中对应参数的比较进行参数对应的现实意义分析,同时将特定事件的等级评定传递给任务调度和优化模块;
(4)任务调度和优化模块对话题传播模型参数的等级评定和威胁分析模块提取事件中威胁等级较低的事件进行释放,对威胁等级较高的事件进行筛选,将事件标题进行关键词提取,在跨网络平台寻找关键词对应相似事件标题,传递给原始网络元素检测模块进一步对相关事件进行持续监测和等级评定,同时对特定事件内容进行信息抽取,生成特定事件概述;任务调度和优化模块同时根据现实需求对于话题传播模型参数的等级评定和威胁分析模块中各参数进行权值标准规定。
上述方法中,所述的原始网络元素检测模块的原始网络元素检测方法,包括以下步骤:
(1)数据获取子模块通过基于Web的网络爬虫和基于社交网络平台API的网络爬虫获得社交网络的多媒体文本数据及用户行为数据;
(2)词嵌入子模块在步骤(1)的经过文本预处理的基础上,通过单词联系上下文的方法,基于Skip-Grams的技术,对单词进行词嵌入,得到单词的向量表示;
(3)话题抽取与匹配子模块实时导入的社交网络平台数据,利用基于给定关键词、基于文本的TF-IDF计算及命名实体识别的方法得到话题单词,并对已有的单词向量库进行匹配比较,得到并输出实时特定事件话题。
上述方法中,所述的特定事件的话题传播计算模块的话题传播计算方法,包括以下步骤:
(1)根据同一话题的跨网络数据,根据不同的用户行为如转发、发推和评论进行统计,根据统计结果画出实时的话题热度折线图;
(2)根据统计结果,建立跨平台的话题传播的动力学模型,并基于随机梯度下降的方法,对参数进行优化求解,并将参数输出。
上述方法中,所述的话题传播模型参数的等级评定和威胁分析模块的分析方法,包括以下步骤:
(1-1)根据事件的威胁程度分析进行各等级基准值评定,设立一级、二级、三级、四级,同时对各等级事件热度增长情况、事件参与人数增长情况、事件跨平台传播情况、事件传播阻力系数这四个维度的参数制定标准;
(1-2)确定待评价数据,根据特定事件的话题传播计算模块所计算得出的各参数构建四维向量,即为话题参与人员增长系数
Figure BDA0002621859740000061
话题热度传播系数γi,话题跨平台传播系数
Figure BDA0002621859740000062
以及调控话题系数ζ(t)i,对所得到的各维度数据进行无量纲化处理,量化并标准化衡量特定事件传播情况的四个参数值;
(1-3)利用步骤(1-2)的四个参数值和各等级标准的参数值,根据任务调度和优化层所制定的各参数的权值标准,计算误差值作为特定事件和各等级标准的对比参数,与特定事件计算所得误差值最小对应的等级即为事件的威胁程度等级。
上述方法中,所述的任务调度和优化模块的工作过程包括以下步骤:
(1)对特定事件对应的威胁等级进行分类和筛选,对其中威胁等级较高的事件选择传递给原始网络元素检测模块,继续基于特定模块实现持续监查和检测,实现不断地实时更新威胁等级;威胁等级较低的事件选择释放;
(2)对威胁等级较高的事件标题进行分词,利用各分词结果在网络语料库中出现的频率实现基于统计方法的关键词的提取,将关键词涉及到的事件传递给原始网络元素检测模块进行监测;
(3)对威胁等级较高的事件对应的短文本进行信息抽取,提取各热点事件发生的基础要素——时间、地点、人名、机构名等信息,实现对特定事件的概述;
(4)根据事件的现实意义对话题传播模型等级评定和威胁分析模块提供的参数权值标准,根据现实意义对各参数实时更新。
以下介绍本发明方法的实施例:
本发明方法中的原始网络元素检测模块的检测过程包括以下步骤:
(1)数据获取子模块,通过基于Web的网络爬虫和基于社交网络平台API的网络爬虫获得社交网络的多媒体文本数据及用户行为数据;
(2)词嵌入子模块,在经过文本预处理的基础上,通过单词联系上下文的方法,基于Skip-Grams的思想,对单词进行词嵌入,得到单词的向量表示;
文本预处理,首先利用正则化匹配的方法将文本中的html标签、Latex代码,URL,Emoji表情等非文本数据进行剔除,之后利用基于HMM的分词方法,对中文进行文本分词,将句子分成若干个单词有顺序的组合Sentencei={w1,w2,w3…wn};
词嵌入,首先根据网络平台的历史文本数据,经过文本预处理得到句子的单词组合形式,根据Skip-Gram原理,建立自编码器,中间隐层的结果即为单词嵌入结果,并基于得到的单词向量结果,进行无监督的学习,将单词聚类分为不同的簇;
(3)话题抽取与匹配子模块,通过实时导入的社交网络平台数据,利用基于给定关键词、基于文本的TF-IDF计算及命名实体识别的方法得到话题单词,并针对已有的单词向量库进行匹配比较,得到并输出的实时的特定事件话题;
话题抽取,首先通过平台话题标识符,如“#”等符号作为话题标志进行提取,对文本内容进行进一步的话题挖掘,可通过TF-IDF进行预先的话题提取,在特定文本Sentencei中的词语wj来说其TF指数为
Figure BDA0002621859740000071
IDF值为
Figure BDA0002621859740000072
通过给定阈值,计算单词的TF-IDF值与阈值比较,最终得到文本中比较重要的单词,在此基础上继续利用基于CRF的命名实体识别的方法,进一步提升话题单词的精度;
话题匹配,首先通过话题抽取得到的话题单词,根据S102)得到的词向量模型,针对得到的话题单词进行相似度计算,单词之间的相似度衡量利用向量差的二范数作为衡量标准,即similarityi,j=||Vi-Vj||,得到话题单词的相似度,根据给定簇间距离阈值K1,如果similarityi,j<K1,则认为两个话题为同一话题,并将同一话题的跨平台的数据进行整合输出。
本发明方法中的身特定事件的话题传播计算模块过程,包括以下步骤:
(1)根据以上得到的同一话题的跨网络数据,根据不同的用户行为如转发,发推,评论等进行统计,根据统计结果画出实时的话题热度折线图。
(2)根据得到的统计结果,建立跨平台的话题传播的动力学模型,并基于随机梯度下降的方法,对参数进行优化求解,并将参数输出;
话题传播的动力学模型,首先将单一平台Sitei的社交网络用户依据对话题的感受接受程度,将用户分为
Figure BDA0002621859740000073
即{未接收话题用户群,接收话题用户群,接收话题但不活跃用户群,活跃传播话题用户群,话题冷淡用户群}
Figure BDA0002621859740000074
Figure BDA0002621859740000075
Figure BDA0002621859740000076
Figure BDA0002621859740000077
Figure BDA0002621859740000078
Figure BDA0002621859740000079
Figure BDA00026218597400000710
根据获得的各个平台实时的数据,以目标结果和预测结果的均方差为目标函数,利用随机梯度下降的方法进行优化求解,获得话题参与人员增长系数
Figure BDA0002621859740000081
话题热度传播系数γi,话题跨平台传播系数
Figure BDA0002621859740000082
以及调控话题系数ζ(t)i,最终将拟合结果及参数整合并输出。
本发明方法中的话题传播模型参数的等级评定和威胁分析模块工作过程,包括以下步骤:
(1)根据事件的威胁程度分析进行各等级基准值评定,设立一级、二级、三级、四级,同时根据各威胁等级对应的样例事件进行调研、计算其参与人员增长系数,话题热度传播系数,话题跨平台传播系数,以及调控话题系数,最终取均值实现对这四个维度的标准参数值的制定,即为α、γ、α1、ζ。
(2)确定待评价数据,根据特定事件的话题传播计算模块所计算得出的各参数构建四维向量,即为话题参与人员增长系数
Figure BDA0002621859740000083
话题热度传播系数γi,话题跨平台传播系数
Figure BDA0002621859740000084
以及调控话题系数ζ(t)i,为简化后续运算,对所得到的各维度数据进行无量纲化处理,标准化衡量特定事件传播情况的四个参数值。
(3)利用步骤(2)得到的四个参数值和各等级标准的参数值,根据任务调度和优化层所制定的各参数的权值标准β1、β2、β3、β4,计算误差值W作为特定事件和各等级标准的对比参数:
Figure BDA0002621859740000085
针对特定事件参数与四个等级标准参数计算得到误差值W1、W2、W3、W4,其中最小的值对应的等级即为事件的威胁程度等级。
本发明方法中的任务调度和优化模块的工作过程,包括以下步骤:
(1)对得到的特定事件对应的威胁等级进行分类和筛选,其中威胁等级极高的事件选择优先传递给原始网络元素检测模块,继续基于特定事件进行持续监查和检测,实现实时更新威胁等级,威胁等级较高和一般的事件考虑间隔一段时间进行持续监测;威胁等级较低的事件选择释放。
(2)对上述威胁等级较高的事件标题进行分词,利用各分词结果在网络语料库中出现的频率实现基于统计方法的关键词的提取,将关键词涉及到的相关事件传递给原始网络元素检测模块进行监测。
(3)对得到的威胁等级较高的事件对应的短文本利用自然语言处理进行信息抽取,提取各热点事件发生的基础要素——时间、地点、人名、机构名等信息,存到结构化的数据库当中,以便用户查询和使用实现对特定事件的概述。
(4)根据事件的现实意义对话题传播模型等级评定和威胁分析模块的S304)提供参数权值标准,制定话题参与人员增长系数,话题热度传播系数,话题跨平台传播系数,以及调控话题系数的权值,分别为β1、β2、β3、β4。其中需满足:
β1234=1.
同时因不同研究和监测背景,对各参数实时更新。
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
请参阅图1所示,本发明提供一种基于特定事件的跨平台传播态势评估及分级***具体包括四个模块,分别为:特定事件的话题传播计算模块、话题传播模型参数的等级评定和威胁分析模块、任务调度和优化模块。
请参阅图2所示,原始网络元素检测模块,包括以下步骤:
S101)通过基于Web的网络爬虫和基于社交网络平台API的网络爬虫,访问社交网络平台,获得社交网络的多媒体文本数据及用户行为数据;
S102)首先根据爬虫获取的用户的历史文本数据,通过正则化剔除非文本数据、nltk提供的词形还原、缩写还原、停用词剔除等自然语言处理的手段对已有的历史文本数据进行数据清洗工作;例如原文本“@apple今天,你是不是得请我吃饭?#必胜客豪华星期五#肯德基疯狂星期四https://twitter.com//6A5S1B”,经过文本处理之后得到“今天,你是不是得请我吃饭?#必胜客豪华星期五#肯德基疯狂星期四”。
在之后利用基于HMM的分词方法,实现对中文的文本进行分词处理,将句子分成若干个单词有顺序的组合Sentencei={w1,w2,w3…wn};例如上文经文本处理之后的句子,进行分词,得到结果如下{今天,你,是不是,得,请,我,吃饭,必胜客,豪华星期五,肯德基,疯狂星期四}
根据由历史文本数据得到的分词结果,可根据Skip-Grams原理,通过建立自编码器,进行单词嵌入学习,由此得到单词的向量化表示,意义相近的单词被嵌入的较近,意义向左的单词被嵌入的较远;
之后在词嵌入的基础上,进一步进行无监督的聚类学***均簇间距离设为distance。
S103)在训练好词嵌入模型之后,网络元素检测模块开始关注用户实时的数据,根据用户实时的文本数据,先通过平台话题标识符,如“#”等符号作为话题标志进行提取,对文本内容进行进一步的话题挖掘,可通过TF-IDF进行预先的话题提取,在特定文本Sentencei中的词语wj来说其TF指数为
Figure BDA0002621859740000101
IDF值为
Figure BDA0002621859740000102
其中ni,j代表单词wj在第i条文本中出现的次数,||为文本总个数,|{i:wj∈Sentencei}|为包含单词wj的文本数,通过TFi,j*DFi,j最终计算得到单词的TF-IDF值;得数最高的N个单词,即为文本中比较重要的单词,在此基础上可继续利用基于CRF的命名实体识别的方法,进一步提升话题单词的精度。例如原文本数据为“今天是《我和我的祖国》首映日,这个电影我打满分,大家一定要看哦,#我和我的祖国真的好看,#黄渤”;经过话题提取可以得到以下话题{我和我的祖国,《我和我的祖国》首映日,我和我的祖国真的好看,黄渤}
话题匹配,首先通过话题抽取得到的话题单词,根据S102)得到的词向量模型,针对得到的话题单词进行相似度计算,单词之间的相似度衡量利用向量差的二范数作为衡量标准,即similarityi,j=||i-j||,得到话题单词的相似度,根据给定的簇间距离阈值distance,如果similarityi,j<distance,则认为两个话题为同一话题,并将同一话题的跨平台的数据进行整合输出如图3所示,为不同的话题进行聚类匹配时,单词之间的相似度的比较实例。
请参阅图4所示,特定事件的话题传播计算模块过程,包括以下步骤:
S201)、根据S103)得到的同一话题的跨网络数据,根据不同的用户行为如转发,发推,评论等进行统计,根据统计结果画出实时的话题热度折线图;图7所示为某社交网络平台话题热度实际曲线与话题传播模型预测结果的实例,图8所示为实时话题热度增长的实际值与模型预测话题增长结果的实例;
S202)、根据S201)得到的统计结果,建立跨平台的话题传播的动力学模型,并基于随机梯度下降的方法,对参数进行优化求解,并将参数输出;
如图X所示为话题传播的动力学模型示意图,其中黑线为用户群状态转移示意图,绿线为跨平台用户群影响示意图,首先将单一平台Sitei的社交网络用户依据对话题的感受接受程度,将用户分为
Figure BDA0002621859740000111
即{未接收话题用户群,接收话题用户群,接收话题但不活跃用户群,活跃传播话题用户群,话题冷淡用户群},其中影响关系由如下公式表出:
Figure BDA0002621859740000112
Figure BDA0002621859740000113
Figure BDA0002621859740000114
Figure BDA0002621859740000115
Figure BDA0002621859740000116
Figure BDA0002621859740000117
Figure BDA0002621859740000118
根据获得的各个平台实时的数据,以目标结果和预测结果的均方差为目标函数,利用随机梯度下降的方法进行优化求解,获得话题参与人员增长系数
Figure BDA0002621859740000119
话题热度传播系数γi,话题跨平台传播系数
Figure BDA00026218597400001110
以及调控话题系数ζ(t)i,最终将拟合结果及参数整合并输出。
如图7所示,为针对图8的某社交网络平台话题热度折线图进行优化拟合得到的话题热度折线预测图,可以清晰看出,该模型能够很好的拟合实际话题热度曲线,并最终得到较好的参数优化结果。
请参阅图5所示,话题传播模型参数的等级评定和威胁分析模块过程,包括以下步骤:
S301)、根据事件的威胁程度分析进行各等级基准值评定,设立一级、二级、三级、四级,同时根据各威胁等级对应的样例事件进行调研、计算其参与人员增长系数,话题热度传播系数,话题跨平台传播系数,以及调控话题系数,最终取均值实现对这四个维度的标准参数值的制定,即为α、γ、α1、ζ。
S302)、确定待评价数据,根据特定事件的话题传播计算模块所计算得出的各参数构建四维向量,即为话题参与人员增长系数
Figure BDA00026218597400001111
话题热度传播系数γi,话题跨平台传播系数
Figure BDA00026218597400001112
以及调控话题系数ζ(t)i,为简化后续运算,对所得到的各维度数据进行无量纲化处理,标准化衡量特定事件传播情况的四个参数值。
S303)、利用S303)得到的四个参数值和各等级标准的参数值,根据任务调度和优化层所制定的各参数的权值标准β1、β2、β3、β4,计算误差值W作为特定事件和各等级标准的对比参数:
Figure BDA0002621859740000121
针对特定事件参数与四个等级标准参数计算得到误差值W1、W2、W3、W4,其中四组误差值中,最小的值对应的等级即为事件的威胁程度等级。
请参阅图6所示,任务调度和优化模块过程,包括以下步骤:
S401)、对在S303)得到的特定事件对应的威胁等级进行分类和筛选,其中威胁等级极高的事件选择优先传递给原始网络元素检测模块,继续基于特定事件进行持续监查和检测,实现实时更新威胁等级,威胁等级较高和一般的事件考虑间隔一段时间进行持续监测;威胁等级较低的事件选择释放。
S402)、对在S303)得到的威胁等级较高的事件标题进行分词,利用各分词结果在网络语料库中出现的频率实现基于统计方法的关键词的提取,将关键词涉及到的相关事件传递给原始网络元素检测模块进行监测。
S403)、对在S303)得到的威胁等级较高的事件对应的短文本利用自然语言处理进行信息抽取,提取各热点事件发生的基础要素——时间、地点、人名、机构名等信息,存到结构化的数据库当中,以便用户查询和使用实现对特定事件的概述。
S404)、对话题传播模型等级评定和威胁分析模块的S304)提供参数权值标准,制定话题参与人员增长系数,话题热度传播系数,话题跨平台传播系数,以及调控话题系数的权值,分别为β1、β2、β3、β4。四个参数的权值需要根据对特定事件的关注点来决定,若希望更多的关注于话题参与人这一角度,则调高话题参与人员增长系数权值β1;若希望更多的关注于话题本身热度,则调高话题热度传播系数β2;若希望更多的关注于话题跨平台传播情况,则调高话题跨平台传播系数β3;若希望更多的关注于平台对于话题的调控情况,则调高调控话题系数β4。若未有权值需求,则自定义β1、β2、β3、β4均为0.25。
其中β1、β2、β3、β4需满足:
β1234=1.
同时因不同研究和监测背景,对各参数实时更新。

Claims (5)

1.一种基于特定事件的跨平台传播态势评估及分级方法,其特征在于,该方法包括以下步骤:
(1)原始网络元素检测模块通过获取网络社交媒体网站数据对舆论话题进行实时流量监测,并根据指定的话题或检测的话题进行用户实时数据的输出;其中原始网络元素检测模块从基于Web型或社交媒体网站API型的网络获取数据,并将其中的文本数据进行嵌入训练,抽取特定话题,得到相关话题的跨网络平台的实时文本数据和用户行为数据,发送给特定事件传播计算模块;
(2)特定事件的话题传播计算模块对原始网络元素检测模块得到的数据,进行特定事件的话题传播计算;其中对于特定事件的话题根据用户的不同社交行为分别进行分时统计,得到话题在不同社交网络平台的传播折线图;对于各个平台的话题传播情况,建立动力学模型,利用优化模型最终得到传播模型的参数,作为特定事件的话题传播特征传递给话题传播模型参数的等级评定和威胁分析模块;
(3)话题传播模型参数的等级评定和威胁分析模块对各等级样例事件的威胁程度分析,进行等级对应的基准值参数评定,对待评价数据各维度参数确定并实现无量纲处理;根据任务调度和优化模块进行加权误差计算,寻找出与未评定数据关联程度最高的基准等级,实现等级判定;针对特定事件各参数和基准等级中对应参数的比较进行参数对应的现实意义分析,同时将特定事件的等级评定传递给任务调度和优化模块;
(4)任务调度和优化模块对话题传播模型参数的等级评定和威胁分析模块提取事件中威胁等级较低的事件进行释放,对威胁等级较高的事件进行筛选,将事件标题进行关键词提取,在跨网络平台寻找关键词对应相似事件标题,传递给原始网络元素检测模块进一步对相关事件进行持续监测和等级评定,同时对特定事件内容进行信息抽取,生成特定事件概述;任务调度和优化模块同时根据现实需求对于话题传播模型参数的等级评定和威胁分析模块中各参数进行权值标准规定。
2.根据权利要求1所述的方法,其特征在于,其中所述的原始网络元素检测模块的原始网络元素检测方法,包括以下步骤:
(1)数据获取子模块通过基于Web的网络爬虫和基于社交网络平台API的网络爬虫获得社交网络的多媒体文本数据及用户行为数据;
(2)词嵌入子模块在步骤(1)的经过文本预处理的基础上,通过单词联系上下文的方法,基于Skip-Grams的技术,对单词进行词嵌入,得到单词的向量表示;
(3)话题抽取与匹配子模块实时导入的社交网络平台数据,利用基于给定关键词、基于文本的TF-IDF计算及命名实体识别的方法得到话题单词,并对已有的单词向量库进行匹配比较,得到并输出实时特定事件话题。
3.如权利要求1所述的方法,其特征在于,其中所述的特定事件的话题传播计算模块的话题传播计算方法,包括以下步骤:
(1)根据同一话题的跨网络数据,根据不同的用户行为如转发、发推和评论进行统计,根据统计结果画出实时的话题热度折线图;
(2)根据统计结果,建立跨平台的话题传播的动力学模型,并基于随机梯度下降的方法,对参数进行优化求解,并将参数输出。
4.如权利要求1所述的方法,其特征在于,话题传播模型参数的等级评定和威胁分析模块的分析方法,包括以下步骤:
(1-1)根据事件的威胁程度分析进行各等级基准值评定,设立一级、二级、三级、四级,同时对各等级事件热度增长情况、事件参与人数增长情况、事件跨平台传播情况、事件传播阻力系数这四个维度的参数制定标准;
(1-2)确定待评价数据,根据特定事件的话题传播计算模块所计算得出的各参数构建四维向量,即为话题参与人员增长系数
Figure FDA0002621859730000021
话题热度传播系数γi,话题跨平台传播系数
Figure FDA0002621859730000022
以及调控话题系数ζ(t)i,对所得到的各维度数据进行无量纲化处理,量化并标准化衡量特定事件传播情况的四个参数值;
(1-3)利用步骤(1-2)的四个参数值和各等级标准的参数值,根据任务调度和优化层所制定的各参数的权值标准,计算误差值作为特定事件和各等级标准的对比参数,与特定事件计算所得误差值最小对应的等级即为事件的威胁程度等级。
5.如权利要求1所述的方法,其特征在于,任务调度和优化模块的工作过程包括以下步骤:
(1)对特定事件对应的威胁等级进行分类和筛选,对其中威胁等级较高的事件选择传递给原始网络元素检测模块,继续基于特定模块实现持续监查和检测,实现不断地实时更新威胁等级;威胁等级较低的事件选择释放;
(2)对威胁等级较高的事件标题进行分词,利用各分词结果在网络语料库中出现的频率实现基于统计方法的关键词的提取,将关键词涉及到的事件传递给原始网络元素检测模块进行监测;
(3)对威胁等级较高的事件对应的短文本进行信息抽取,提取各热点事件发生的基础要素——时间、地点、人名、机构名等信息,实现对特定事件的概述;
(4)根据事件的现实意义对话题传播模型等级评定和威胁分析模块提供的参数权值标准,根据现实意义对各参数实时更新。
CN202010785632.9A 2020-08-06 2020-08-06 一种基于特定事件的跨平台传播态势评估及分级方法 Active CN111949848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010785632.9A CN111949848B (zh) 2020-08-06 2020-08-06 一种基于特定事件的跨平台传播态势评估及分级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010785632.9A CN111949848B (zh) 2020-08-06 2020-08-06 一种基于特定事件的跨平台传播态势评估及分级方法

Publications (2)

Publication Number Publication Date
CN111949848A true CN111949848A (zh) 2020-11-17
CN111949848B CN111949848B (zh) 2022-05-31

Family

ID=73331763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010785632.9A Active CN111949848B (zh) 2020-08-06 2020-08-06 一种基于特定事件的跨平台传播态势评估及分级方法

Country Status (1)

Country Link
CN (1) CN111949848B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348279A (zh) * 2020-11-18 2021-02-09 武汉大学 资讯传播趋势的预测方法、装置、电子设备和存储介质
CN112632364A (zh) * 2021-03-09 2021-04-09 中译语通科技股份有限公司 新闻传播速度测评方法和***
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN114666121A (zh) * 2022-03-21 2022-06-24 山东鼎夏智能科技有限公司 数据监控方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及***
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN108765178A (zh) * 2018-04-23 2018-11-06 华侨大学 玩具缺陷事件的互联网传播影响力的评估方法
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN111428113A (zh) * 2020-03-27 2020-07-17 华侨大学 一种基于模糊综合评判的网络舆论引导效果预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及***
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN108765178A (zh) * 2018-04-23 2018-11-06 华侨大学 玩具缺陷事件的互联网传播影响力的评估方法
CN111428113A (zh) * 2020-03-27 2020-07-17 华侨大学 一种基于模糊综合评判的网络舆论引导效果预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348279A (zh) * 2020-11-18 2021-02-09 武汉大学 资讯传播趋势的预测方法、装置、电子设备和存储介质
CN112348279B (zh) * 2020-11-18 2024-04-05 武汉大学 资讯传播趋势的预测方法、装置、电子设备和存储介质
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN112926327B (zh) * 2021-03-02 2022-05-20 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN112632364A (zh) * 2021-03-09 2021-04-09 中译语通科技股份有限公司 新闻传播速度测评方法和***
CN114666121A (zh) * 2022-03-21 2022-06-24 山东鼎夏智能科技有限公司 数据监控方法及装置

Also Published As

Publication number Publication date
CN111949848B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN111949848B (zh) 一种基于特定事件的跨平台传播态势评估及分级方法
AlDayel et al. Stance detection on social media: State of the art and trends
US11061946B2 (en) Systems and methods for cross-media event detection and coreferencing
US10977447B2 (en) Method and device for identifying a user interest, and computer-readable storage medium
US20220366328A1 (en) Methods, systems, and media for providing direct and hybrid data acquisition approaches
CN108319686A (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
WO2013151546A1 (en) Contextually propagating semantic knowledge over large datasets
CN115878841B (zh) 一种基于改进秃鹰搜索算法的短视频推荐方法及***
CA3075865A1 (en) Systems and methods for cross-media event detection and coreferencing
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
Nigam et al. Towards a robust metric of polarity
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
Sheeba et al. A fuzzy logic based on sentiment classification
CN106469163A (zh) 一种公众号推荐方法及***
CN113672818A (zh) 一种获取社交媒体用户画像的方法及***
Voronov et al. Forecasting popularity of news article by title analyzing with BN-LSTM network
CN105787101B (zh) 一种信息处理方法和电子设备
KR102328234B1 (ko) 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법
CN113177164A (zh) 基于大数据的多平台协同新媒体内容监控管理***
Juneja et al. Mining aspects on the social network
Chan et al. Social media harvesting
CN110147497A (zh) 一种面向青少年群体的个性化内容推荐方法
Bide et al. Cross event detection and topic evolution analysis in cross events for man-made disasters in social media streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant