CN116244446A - 社交媒体认知威胁检测方法及*** - Google Patents
社交媒体认知威胁检测方法及*** Download PDFInfo
- Publication number
- CN116244446A CN116244446A CN202211732859.2A CN202211732859A CN116244446A CN 116244446 A CN116244446 A CN 116244446A CN 202211732859 A CN202211732859 A CN 202211732859A CN 116244446 A CN116244446 A CN 116244446A
- Authority
- CN
- China
- Prior art keywords
- cognitive
- threat
- emotion
- text
- cognitive threat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 307
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 230000008451 emotion Effects 0.000 claims abstract description 269
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 230000005540 biological transmission Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000008520 organization Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 76
- 238000004458 analytical method Methods 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 30
- 238000002372 labelling Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 238000013136 deep learning model Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013475 authorization Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 10
- 230000019771 cognition Effects 0.000 description 7
- 230000007547 defect Effects 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000016571 aggressive behavior Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000005079 cognition system Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络安全技术领域,特别涉及一种社交媒体认知威胁检测方法及***,采集网络平台敏感话题文本数据并对数据进行预处理操作;针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本;通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱;基于认知威胁传播知识图谱对认知威胁话题文本传播进行用户溯源、事件溯源以及组织溯源。本发明针对特定主题和敏感事件相关的话题文本,利用其背后的情感倾向来识别认知威胁,相较于传统人工举证,大幅缩短鉴定周期,提高检测信息量及效率,具有很好的安全性和可行性,威胁性判定准确率高,检测效果较好,具有很广阔的应用场景。
Description
技术领域
本发明属于网络安全技术领域,特别涉及一种社交媒体认知威胁检测方法及***。
背景技术
认知,是指人们获得知识或应用知识的过程,或信息加工的过程,它包括感觉、知觉、记忆、思维、想象和语言等。认知威胁基于对个体输入具有目的性、煽动性、隐蔽性、方向性、非真实性的信息,通过对个体认知过程不断的影响、固化而达到使个体形成扭曲、非常规、反向负面的认知,或是改变个体已有正常认知体系,使之背离社会核心价值体系。自媒体平台、社交平台的新兴为认知威胁的滋生、传播提供了温床。网络空间俨然已成为认知威胁对抗的主战场。社交网络具有身份匿名、言论“自由”、实时性高、传播快等特点,用户多是年轻人,对社会问题不敏感,极易被认知渗透。而认知威胁隐蔽性高、溯源难度大、跨平台监管困难等问题亟待解决,从技术上对认知威胁信息进行识别、溯源和对抗已经迫在眉睫。针对认知威胁隐蔽性高、溯源难度大、跨平台监管困难等问题,如何从技术上遏制认知威胁成为净化网络空间的迫切需求。
发明内容
为此,本发明提供一种社交媒体认知威胁检测方法及***,针对特定主题和敏感事件相关的话题文本,利用其背后的情感倾向来识别认知威胁,相较于传统人工举证,大幅缩短鉴定周期,提高检测信息量及效率。
按照本发明所提供的设计方案,提供一种社交媒体认知威胁检测方法,包含如下内容:
采集网络平台敏感话题文本数据并对数据进行预处理操作;
针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,其中,多层级认知威胁检测包含:将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本的初级检测,将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本的中级检测,和通过人工标注从疑似认知威胁话题文本来获取认知威胁话题文本的终极检测;
通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱;
基于认知威胁传播知识图谱对认知威胁话题文本传播进行用户溯源、事件溯源以及组织溯源。
作为本发明中社交媒体认知威胁检测方法,进一步,采集网络平台敏感话题文本数据并对数据进行预处理操作,包含:
首先,根据用户授权信息库分布式采集网络平台敏感话题文本信息及相关用户数据;
然后,针对采集的文本信息,将标题与正文进行合并,利用冗余检测算法去除冗余信息,将相关评论进行去重处理,对文本噪声数据进行清洗转换,并利用分词***对文本进行分词处理。
作为本发明中社交媒体认知威胁检测方法,进一步地,初级检测中,利用情感分析方法将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本,其中,情感分析方法划分的过程包含:
首先,依据已知情感词典并运用词频统计方法来构建基础情感词典,通过将文本数据中词语与基础情感词典中词汇进行相关性统计来扩充情感词典;
接着,以敏感话题文本数据中文本为单位、以情感词为分隔符,对每个分隔符之间的断句进行情感权值统计,依据负向情感权值在所有情感词权值中的比重来判断文本的情感极性;
然后,依据文本的情感极性将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本。
作为本发明中社交媒体认知威胁检测方法,进一步地,依据已知情感词典并运用词频统计方法来构建基础情感词典,包含:
首先,在已知情感词典中选取系列情感词,依据系列情感词中搜索引擎点击量来对情感词进行排序,依据点击量热度来选取若干情感词;
接着,基于词频统计选取与主题相关度最高的情感词汇,利用选取的若干情感词和情感词汇共同构成基础情感字典;
然后,利用同义词及带情感倾向候选词对基础情感字典进行扩充。
作为本发明中社交媒体认知威胁检测方法,进一步地,对每个分隔符之间的断句进行情感权值统计,依据负向情感权值在所有情感词权值中的比重来判断文本的情感极性,包含:
首先,针对分隔符之间的断句,分别通过情感词分析、否定词分析、副词分析、固定搭配词分析、转折词分析及感叹句分析来统计情感倾向;
然后,统计文本包含所有子句的负向情感倾向值总和与总体情感权值绝对值总和,并利用负向情感词权值在文本所有情感词权重纵占比来判断文本的情感极性。
作为本发明社交媒体认知威胁检测方法,进一步地,中级检测中,利用深度学习方法将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本,分类过程包含:
构建深度学习模型,并利用带有标注标签的训练数据集进行预训练,其中,深度学习模型包含用于对输入进行词向量表示的BERT模型,和用于对输入的词向量进行认知威胁检测的BiLSTM模型;
将初始疑似认知威胁话题文本输入至预训练的深度学习模型中,利用深度学习模型来获取认知威胁概率值,通过认知威胁概率值来确定初始疑似认知威胁话题文本中的认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本。
作为本发明社交媒体认知威胁检测方法,进一步地,针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,还包含:利用情感分析方法在认知威胁话题文本中评论区依据整体情感倾向来评估认知威胁影响度。
作为本发明社交媒体认知威胁检测方法,进一步地,通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱,包含:
构建命名实体抽取模型,并利用对抗训练方法对模型进行优化,其中,命名实体识别模型包含用于将输入字符映射到实数空间并挖掘潜在语义的编码器、用于通过捕捉编码器转化向量中向前和向后双向特征来提取上下文语义信息的BiLSTM神经网络层、和用于将BiLSTM神经网络层提取的双向特征作为输入并结合Bioes标注范式生成字符对应标签的CRF条件随机场层;
将认知威胁话题文本作为优化后的命名实体抽取模型输入,利用命名实体抽取模型来识别认知威胁话题文本中的实体类别和关系。
作为本发明社交媒体认知威胁检测方法,进一步地,通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱中,搭建管道式连接的两个命名实体抽取模型,其中,第一个命名实体抽取模型采用单标签多分类任务方式来识别认知威胁话题文本中实体,第二个命名实体抽取模型中采用多标签多分类任务方式将第一命名实体抽取模型输入作为输入来识别实体之间关系。
进一步地,本发明还提供一种社交媒体认知威胁检测***,包含:数据采集服务器、多台认知威胁鉴别服务器、知识图谱服务器和web服务器,其中,
数据采集服务器,用于采集网络平台敏感话题文本数据并对数据进行预处理操作;
多台认知威胁鉴别服务器,用于针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,其中,多台认知威胁鉴别服务器具体包含:将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本的初级鉴别服务器,将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本的中级鉴别服务器,和通过人工标注从疑似认知威胁话题文本来获取认知威胁话题文本的终极鉴别服务器;
知识图谱服务器,用于通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱;
web服务器,用于基于认知威胁传播知识图谱并利用web交互界面对认知威胁话题文本传播进行用户溯源、事件溯源以及组织溯源。
本发明的有益效果:
本发明可依托于微博、知乎、微信公众号等网络社交平台,对爬取的敏感话题文本及其评论进行多维情感分析来实现认知威胁话题文本的检测,通过识别认知威胁相关命名实体并抽取实体间关系来构建认知威胁传播知识图谱,利用知识图谱实现认知威胁传播用户溯源,认知威胁传播事件溯源以及认知威胁传播组织溯源的可视化展示,通过隐含关系发掘,实现认知威胁传播预测,对重点账号、群组、组织、用户进行实时监测,提供认知对抗策略分析,阻断认知威胁传播,深化网络认知威胁监管力度,威慑认知威胁相关网络违法行为,有效净化网络空间。
附图说明:
图1为实施例中社交媒体认知威胁检测流程示意;
图2为实施例中认知威胁检测和度量流程示意;
图3为实施例中对抗训练流程示意;
图4为实施例中知识图谱可视化构建层次示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
网络环境的发达使认知域威胁的实施更加简便易行,可以在多维度、多层面单独或共同实施,从而影响整个社会价值形态。本案实施例,参见图1所示,提供一种社交媒体认知威胁检测方法,包含:
S101、采集网络平台敏感话题文本数据并对数据进行预处理操作;
S102、针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,其中,多层级认知威胁检测包含:将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本的初级检测,将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本的中级检测,和通过人工标注从疑似认知威胁话题文本来获取认知威胁话题文本的终极检测;
S103、通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱;
S104、基于认知威胁传播知识图谱对认知威胁话题文本传播进行用户溯源、事件溯源以及组织溯源。
依托于微博、知乎、微信公众号等网络社交平台,对爬取的敏感话题文本及其评论进行多维情感分析来实现认知威胁话题文本的检测,通过识别认知威胁相关命名实体并抽取实体间关系来构建认知威胁传播知识图谱,利用知识图谱实现认知威胁传播用户溯源。通过构建认知威胁知识图谱,预测认知威胁传播路径,提供认知对抗策略分析。不仅能在社交媒体平台的短文本背景下实现准确鉴别,也能在鉴别媒体长文本时保持较高的准确率,使得新闻媒体必须对自己的言行负责,能够有效震慑某些无良媒体。
作为优选实施例,进一步,采集网络平台敏感话题文本数据并对数据进行预处理操作,包含:
首先,根据用户授权信息库分布式采集网络平台敏感话题文本信息及相关用户数据;
然后,针对采集的文本信息,将标题与正文进行合并,利用冗余检测算法去除冗余信息,将相关评论进行去重处理,对文本噪声数据进行清洗转换,并利用分词***对文本进行分词处理。
可通过API接口获取微博、公众号等社交平台的海量敏感话题文本数据,其包括文章标题、正文、评论等十个字段。为方便进一步处理,对数据进行标题与正文合并,通过冗余检测算法去除冗余信息,评论去重,噪声数据清洗与转换,通过ICTCLAS进行分词的数据预处理操作。去除冗余信息的冗余检测算法可设计包含如下步骤:
Step1:按照标点符号对文本分句;
Step2:获取分句后文章的前5句,若包含“关注我们”、“点击**字体”等字样,则将该句话删除,其余保留;
Step3:获取分句后文章的前10句,若包含“编辑”、“初审”、“点击在看”等文本,则将该句话删除,其余保留;
Step4:将保留的句子重新合并为文本。
需要说明的是,本案采集的数据可以是各网络社交平台的敏感话题文本数据。可通过微博平台进行采集,也会随机通过知乎、微信公众号等社交平台进行采集。微博数据采集主要流程可包括:用户授权、新发布微博获取、微博信息更新、用户信息获取。用户授权通过Oauth2完成,新发布微博的获取以及微博信息更新、用户信息的获取通过自动化调用微博官方公开的API接口完成。
初级检测中,可利用情感分析方法将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本,其中,情感分析方法划分的过程包含:
首先,依据已知情感词典并运用词频统计方法来构建基础情感词典,通过将文本数据中词语与基础情感词典中词汇进行相关性统计来扩充情感词典;
接着,以敏感话题文本数据中文本为单位、以情感词为分隔符,对每个分隔符之间的断句进行情感权值统计,依据负向情感权值在所有情感词权值中的比重来判断文本的情感极性;
然后,依据文本的情感极性将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本。
多维情感分析是利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本的情感极性、情感程度、情感类别多维度进行分析、处理的过程。NLP领域的一个重要研究方向是情感分析,正确有效的情感分析可以快速从文本中得到人们所表达出的积极或者消极的情绪,有助于发掘文本背后的情感倾向,进而分离出海量信息中潜藏的政治威胁和带有文化渗透性质的认知威胁。情感分析任务按其分析的粒度可以分为篇章级、句子级、词或短语级;按其处理文本的类别可分为基于文本的情感分析和基于评论的情感分析,按其研究的任务类型,可分为情感分类,情感检索和情感抽取等子问题。本案实施例中,如图2所示,通过基于情感词典动态拓展和深度学习的认知威胁识别和度量的基本流程
对于情感分类的方法大体可以分为基于情感词典的分类方法和基于深度学习的分类方法,两类方法各有特点也各有不足。基于情感词典的方法是指运用一个标有情感极性的情感词典对文本进行情感极性量化计算,该方法是利用一系列规则和情感词典来进行分类的,首先将情感词典中的词语和待分析文本中的词语进行匹配,而后通过计算获得句子的情感值,最后把得到的情感值作为句子情感倾向分类的判断依据,虽然这种方法的正确率比较高,但是构建情感词典的成本较大,而且基于情感词典的方法没有考虑文本中词语之间的联系,缺少词义信息;基于深度学习的方法是将情感分类视为一种特殊的文本分类,运用人工标注和机器学习的方法对文本进行情感分类。基于深度学习的方法利用标记好的数据与标签,这些数据和标签都是人工标记的,然后再利用深度学习的方法对文本进行情感分析,常用的机器学习方法有朴素贝叶斯NB(NaiveBayes)、决策树、支持向量机SVM(SupportVectorMachine)等。该方法效果的好坏主要依赖于人工标注的数据的数量和质量,所以受人的主观意识影响较大,且要耗费大量人工。
针对两种方法各自的特点,将基于情感词典和深度学习两类方法相结合并进行优化,提出动态拓展情感词典和深度学习相结合的多维情感分析方法,进而克服两种方法各自缺点,取得较高准确率。
其中,依据已知情感词典并运用词频统计方法来构建基础情感词典,包含为:
首先,在已知情感词典中选取系列情感词,依据系列情感词中搜索引擎点击量来对情感词进行排序,依据点击量热度来选取若干情感词;
接着,基于词频统计选取与主题相关度最高的情感词汇,利用选取的若干情感词和情感词汇共同构成基础情感字典;
然后,利用同义词及带情感倾向候选词对基础情感字典进行扩充。
进一步,对每个分隔符之间的断句进行情感权值统计,依据负向情感权值在所有情感词权值中的比重来判断文本的情感极性,包含:
首先,针对分隔符之间的断句,分别通过情感词分析、否定词分析、副词分析、固定搭配词分析、转折词分析及感叹句分析来统计情感倾向;
然后,统计文本包含所有子句的负向情感倾向值总和与总体情感权值绝对值总和,并利用负向情感词权值在文本所有情感词权重纵占比来判断文本的情感极性。
可从知网Hownet中选取一系列情感词,将它们逐个输入至搜索引擎,根据搜索引擎返回的点击量(hits值)的大小对情感词进行排序,选取点击量最高的若干个情感词作为基础情感词,此外采取基于词频统计的方法,半自动地选取与主题相关度更高的基础情感词汇共同构成基础情感词典。因为文本中含有情感成分的词语大多为形容词、动词、和部分名词,所以在预处理后,只需基于条目足够多的自动文本进行词频统计,然后针对词频较高的若干词汇,选取词频最高的20个正面情感词和词频最高的20个负向情感词,与通用基础情感词汇共同构成基础情感词典。
由于基础情感词典表达了较强烈的感情倾向,可将基础情感词典中负向情感词赋予情感倾向值-1。基础情感词典中词汇量较小,不可能包含文本集中出现的所有带有情感倾向性的词汇,因此需要对基础情感词典进行扩充,构建相对完整的情感词典。可添加同义词和添加带有情感倾向候选词进行扩充。
添加同义词能够帮助更宽泛地识别情感词汇,利用现有同义词词库对基础情感词典进行同义词扩充。但是为了提高情感倾向计算的算法性能,仍需人工筛选出常用的同义词词汇,扩充后情感词典词语增至256个,可将负面情感词的同义词的情感倾向值设置为-1。
构建完全无遗漏情感词典非常困难,但通过分析文本集中每个词语与情感词典中词汇的相关性,将相关性很高的词语纳入词典,可以有效构建覆盖面更广的情感词典。
可点互信息法(Pointwise Mutual Information)来计算候选词语字典中情感词汇相关性,从而判断是否添加其至情感词典。点互信息法基于互信息理论计算词语和词语之间的相关性。其基本思想是统计两个词wordi和wordj在文本中共现的概率,共现概率越大,则两个词相关性越高,计算公式如下:
其中p(wordi^wordj)是wordi和wordj在文本中共现的概率,计算方法如下:
其中n代表文本中子句总条数,numSentence(wordi,wordj)表示同时包含wordi和wordj的子句条数。P(wordi)和P(wordj)分别表示文本中包含wordi和wordj的子句条数在总的子句数中所占比例。计算公式如下:
其中numSentence(wordi)表示文本中包含wordi的子句条数。上式中PMI(wordi,wordj)表示当wordi和wordj其中一个变量出现时,可以获取到的另一个变量的信息量,充分表现了wordi和wordj之间的统计相关性:PMI大于0时,表示两个词语是具有相关性的,且PMI值越大,相关性越强;PMI为0时,表示两词之间是统计独立的;PMI小于0时,表示两个词之间是互斥的。
可采用ICTCLAS***分词之后获取词语的词性property,之后计算由word.propertyal∈{a,d,an,ag,al}和word.propertyal∈{vn,vd,vi,vg,vl},所限定的两种候选词的SO-PMI值,其余词性的词直接被视为中性词语,该方法旨在解决添加相关词时出现的部分本身无情感倾向性词语与正向或负向情感词汇共现概率很高,导致错误引入情感词典之中,造成情感分类的性能无谓开销问题,降低准确性问题,提高扩充词典算法的效率。计算两种候选词word的SO-PMI值具体为:计算候选词和正向基础词典的PMI值,计算候选词与负向词之间的PMI值,最后将两者相见得到候选词的SO-PMI值,计算公式如下:
SO-PMI(word)=
∑posWord∈posWordsPMI(word,posWord)-∑negWord∈negWordsPMI(word,negWord)
可将SO-PMI的值和情感倾向性关系调整为
综上,对于情感词典扩充方法进行如下总结:
posWords:
如果word是基础情感词典中的正面词语,难么word纳入posWords;
如果word是基础情感词典中的某个正面词语的同义词,那么word纳入posWords;
如果word符合式word.propertyal∈{a,d,an,ag,al}或word.propertyal∈{vn,vd,vi,vg,vl},并且1.36<SO-PMI(word)<23,word纳入posWords。
同理,negWords:
如果word为基础情感词典中的负面词语,那么word纳入negWords;
如果word是基础情感词典中的某个负面词语的同义词,那么word纳入到negWords;
如果word符合word.propertyal∈{a,d,an,ag,al}或word.propertyal∈{vn,vd,vi,vg,vl},并且-16<SO-PMI(word)<-1,那么word纳入negWords。
在情感词典基础上,以每条文本语句S为单位,以该语句中的每个情感词WS为分隔符,对两个分隔符之间的断句phrase(WSi-1,WSi)进行情感权值计算,断句phrase(WSi-1,WSi)包含词语WSI但不包含词语WSi-1;该模型由5个模块组成,分别为:情感词的分析、否定词的分析、副词的分析、固定搭配词句的分析、转折词的分析、感叹句的分析。
情感词的分析:针对待分析文本中的每个词语word,扫描情感词典,判断word是否存在于情感词典之中,若存在,则将word视为存在情感词并从负向情感词典中读取该词的情感倾向值,将其返回;若不存在,则将word视为中性词汇,返回0,这样循环,直至对整个文本集的词语判断完成。通过对每个词语的情感倾向值计算,我们获取到准确的情感词(即权值不等于0的词),并且过滤了在特定语句中不发挥情感作用的情感词(即权值等于0的情感词)。
否定词分析:在语句出现情感词Wsi情况下,计算Wsi与前一个分隔符Wsi-1之间(即一个断句中)否定词的个数negNum(Wsi-1,Wsi)。如果negNum为奇数,则该子句的情感值为情感词的情感倾向值取反;反之,则保持原情感倾向值。
副词的分析:判断词汇是否位于副词词典,若在,从副词词典中获取副词情感强度,将对应权值乘上子句当前情感倾向值作为子句情感权值。
转折词分析:从当前情感词Wsi处开始向后扫描寻找下一个情感词Wsi+1.在这个过程中,如果扫描到转折词,则将weight(phrase(Wsi-1,Wsi))取反,使得phrase(Wsi-1,Wsi)的情感倾向偏向转折词后面的断句phrase(Wsi,Wsi+1)的情感倾向。
感叹句分析:对于感叹句的分析,我们以惊叹号“!”作为感叹句的标识,将它记为exc。其情感权值计算方法为:扫描到惊叹号是,我们从后往前寻找距离惊叹号最近的情感词语Wsi-1,并将Wsi-1的情感倾向值作为exc的权值。
计算得到一条文本S包含的所有子句的负向情感倾向值之和weight(S)与总体情感权值绝对值之和total(S),计算负向情感词权值在文本所有情感词权值中比重scale(S),scale(S)=weight(S)/total(S),依据scale(S)判断文本S的情感极性,依据情感极性做出对该文本的认知威胁性质做出初步判断,scale(S)在[0.68-1]区间内的文本,视为极大可能性为认知威胁;scale(S)在[0-0.68)区间内为疑似认知威胁话题文本,至此实现对文本认知威胁性的第一阶段分类。
作为优选实施例,进一步地,中级检测中,利用深度学习方法将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本,分类过程包含:
构建深度学习模型,并利用带有标注标签的训练数据集进行预训练,其中,深度学习模型包含用于对输入进行词向量表示的BERT模型,和用于对输入的词向量进行认知威胁检测的BiLSTM模型;
将初始疑似认知威胁话题文本输入至预训练的深度学习模型中,利用深度学习模型来获取认知威胁概率值,通过认知威胁概率值来确定初始疑似认知威胁话题文本中的认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本。
本案实施例中,针对两种方法各自的特点,将基于情感词典和深度学习两类方法相结合并进行优化,提出动态拓展情感词典和深度学习相结合的多维情感分析方法,进而克服两种方法各自缺点,取得较高准确率。
基于情感分析的认知威胁识别对文本分两阶段进行情感分析。第一阶段,可参考已有的知网(HowNet)情感词典、BosonNLP情感词典,并运用基于词频统计方法构建基础情感词典,对候选词语与基础情感词典中词汇的统计相关性计算来判断其情感倾向,实现情感词典动态扩充。在情感词典、否定词典、程度副词词典基础之上,以每条文本S为单位,以该语句的每个情感词WS为分隔符,对两个分隔符之间的断句phrase(WSi-1,WSi)计算负向情感权值之和weight(S)与情感词权值绝对值之和total(S),定义scale(S)为负向情感权值在所有情感词权值中所占比重,依据scale(S)大小判断文本S的情感极性,依据情感极性做出对该文本的认知威胁性质做出初步判断,完成认知威胁初识别。经过对采集的大量实验文本分析的统计结果显示,负向情感权重scale(S)在[0.68-1]区间内的文本,极大可能性为认知威胁;负向情感权重scale(S)在[0-0.68)区间内为疑似认知威胁话题文本;对情感倾向值在[0-0.68)分值区间内的文本初步归类为疑似认知威胁,对其进行第二阶段鉴别处理。第二阶段可采用以BERT+BiLSTM深度学习模型为核心进行情感分析,对文本情感倾向性进一步分析,完成认知威胁再识别,采用BERT(BidirectionalEncode,Reprsesnationfrom Transformers,BERT)预训练的词向量替代传统方式训练的词向量,将分词处理的文本转化为多维词向量,采用能解决短时依赖问题与长时依赖问题的双向长短时记忆网络(BiLSTM)模型构成该板块情感倾向性分析的核心,以人工标注的认知威胁话题文本集与同主题下已知认知威胁话题文本作为训练集,对BERT+BiLSTM模型进行训练,以训练后的模型对第一阶段得到的疑似认知威胁话题文本进一步情感分析,利用Softmax分类器将文本划分为确定认知威胁话题文本集,疑似认知威胁话题文本集和非认知威胁话题文本集。
对于第一阶段基于动态扩充情感词典的情感分析结果为疑似认知威胁的文本进行第二阶段鉴别处理,以BERT+BiLSTM深度学习模型作为认知威胁进一步识别的核心。首先进行模型训练,训练流程如下:可首先对训练数据集进行人工标注,标注是否具有认知威胁性质,分词处理后使用BERT模型对其进行词向量表示,最后将转化成的向量传入BiLSTM神经网络。根据认知威胁样本训练出覆盖认知威胁样本的BiLSTM模型。将第一阶段处理结果为疑似认知威胁的文本通过BERT词向量化,将转化的向量分别传入认知威胁模型,通过该模型会得到一个认知威胁概率值,通过对大量文本试验表明,训练结果概率在(0.68-1]的文本可以确定具有认知威胁性质,概率在(0.32-0.68]为疑似认知威胁,需人工判别,概率为[0-0.32]为非认知威胁。
实验结果表明,在数据集包含近5000条微博文本数据情况下,单纯基于深度学习和单纯基于情感词典的情感倾向性分析方法进行认知威胁识别准确率分别为67.9%和83.27%,本案基于多维情感分析的综合型认知威胁识别的准确率为89.9%,相对较优。
进一步地,本案实施例中,针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,还包含:利用情感分析方法在认知威胁话题文本中评论区依据整体情感倾向来评估认知威胁影响度。
通过对已识别出为认知威胁的文本下评论区整体情感倾向来定义认知威胁影响度,将一条已确定为认知威胁的文本下的所有评论文本进行合并,数据预处理和文本分词后,可采用上文提到基于情感词典的认知威胁识别方法对评论区文本整体情感倾向进行判断,以认知威胁性质文本引发的评论导向作为威胁度的评判依据,并依据评论情感分析结果对文本的威胁度做出评价,可将威胁度由高到低分为一、二、三级,将评论文本整体负向情感权值在文本总体情感词权值比重在[0.68-1]区间的文本认知威胁度定义为一级;评论文本整体负向情感权值在文本总体情感词权值比重在[0.32-0.68)的文本威胁度定义为二级;评论文本整体负向情感权值在文本总体情感词权值比重在[0-0.32)的文本认知威胁度定义为三级,分析结果可为应对处理认知威胁提供重要参考。
作为优选实施例,进一步地,通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱,包含:
构建命名实体抽取模型,并利用对抗训练方法对模型进行优化,其中,命名实体识别模型包含用于将输入字符映射到实数空间并挖掘潜在语义的编码器、用于通过捕捉编码器转化向量中向前和向后双向特征来提取上下文语义信息的BiLSTM神经网络层、和用于将BiLSTM神经网络层提取的双向特征作为输入并结合Bioes标注范式生成字符对应标签的CRF条件随机场层;
将认知威胁话题文本作为优化后的命名实体抽取模型输入,利用命名实体抽取模型来识别认知威胁话题文本中的实体类别和关系。
目前利用基于统计机器学习的方法实现命名实体识别任务较为常见,本案实施例中的命名实体抽取模型采用BERT-BiLSTM-CRF模型,其是基于BiLSTM-CRF模型发展的一种无需人工归纳特征、端到端的深度学习模型,能够满足目前中文地址解析和地址要素标注任务需求。该模型自底向上由编码器(Transformer)、BiLSTM神经网络层和条件随机场(CRF)层组成。Transformer编码器是基于字符级的中文BERT模型,将输入的中文地址字符映射到低维稠密的实数空间中,挖掘中文地址中各类地址要素蕴含的潜在语义;BiLSTM神经网络层将编码器转化而来的字符向量作为输入,捕捉中文地址序列前向(自左向右)和后向(自右向左)的双向特征,能够充分获取上下文的语义信息;CRF条件随机场层属于概率图模型,以上游BiLSTM提取的双向特征作为输入,结合Bioes标注范式生成地址中各字符对应的标签,从而进一步将中文地址按照标签解析为各类地址要素,并且在计算过程中考虑到了序列的问题,可以很大程度上提高命名实体的识别效果。
认知威胁领域的实体还没有既定的标准,现有的网络命名识别任务大多仅针对网络舆情识别。本案实施例中,对爬取的数据进行分析,依据认知威胁识别需求,可设置认知威胁领域实体共6种类型,分别为用户、时间、地址、平台、组织、热点事件,如表1所示:
表1认知威胁实体类型
实体标注是命名实体识别任务最重要的问题,也是模型训练的基础。常用的标注方法有BIO和BIOES两类。虽然BIOES标注方式提供更多的信息,但需要预测的标签更多,由于本案构建的数据集数量有限,采用BIOES的标注方式效果可能会受到影响。在BIO标注体系中,可采用“B”标记实体的开始,“I”标记实体内部,“O”标记非实体。每一类实体的标签都包含“开始”和“内部”,因此,本案构建的命名实体识别数据集可设置为13个标签。
认知威胁用户知识图谱相关实体之间具有关系复杂性,在对认知威胁话题文本进行知识抽取的时候,也应注意相邻标签之间的依赖关系。但由于BiLSTM善于处长距离的文本信息,无法处理相邻标签之间的依赖关系,因此,可在认知威胁用户知识图谱的知识抽取中结合CRF(Conditional Random FieId,条件随机场)在BiLSTM输出每个单词初步对应的预测标签的基础上,通过邻近标签的关系,对输出分数进行校正,获得一个最优的预测序列。
CRF层将上一层BILSTM的输出得分作为输入,输出符合标注转移约束条件的、最大可能的预测标注序列。对于任一个序列X=(x1,x2,…,xn);在此假定P是BiLSTM的输出得分矩阵,P的大小为n\times k,其中n为词的个数,k为标签个数,Pij表示第i个词第j个标签的分数,对预测序列Y=(y1,y2,…,yn)而言,得到它的分数函数为:
A表示转移分数矩阵,Aij代表标签i转移为标签j的分数,A的大小为k+2。预测序列Y产生的概率为:
两头取对数得到预测序列的似然函数:
式中,\widetilde{Y}表示真实的标注序列,YX表示所有可能的标注序列。解码后得到最大分数的输出序列:
CRF层输出的是认知威胁话题文本的最优标签序列,关注的是转发用户、转发时间、转发地点、转发平台、文本摘要信息、文本主题等标签所对应的词语,这些是建立认知威胁用户知识图谱并进行转发用户溯源、转发过程溯源、转发时间溯源、转发平台溯源等溯源过程以及进行认知威胁转发用户关系推理的基础。
在使用BERT及其变体时,由于其已经进行了预训练,参数已经达到较好水平,为保持训练效果,应采用较低的学习率;相反,由于其下游任务为经过预训练,如果设置较低的学习率,不仅使得训练过程慢,且难以同BERT训练同步。因此,本案实施例中,可采用分层设置学习率策略:对上游BERT预训练层,设置较小学习率,而下阶层设置较大学习率。
在模型训练过程中,当损失值下降逐渐平缓时,如果仍采用较大学习率,会导致模型在收敛到全局最优点时在最优点附近来回摆荡,为保证损失函数最终始终保持在离最优值很近的范围内,并逐渐接近最优值,需要采用学习率衰减策略,即减小参数更新的步长。本案可设置一种学习衰减策略:在训练过程中当模型效果没有提升时,减小学习率,可有效提升模型精度。
BERT-BiLSTM-CRF作为命名实体识别模型,但由于神经网络具有局部不稳定性,即使微小的扰动也可能对模型产生较大误差。因此,本案实施例采用对抗训练方法优化模型。对抗训练通过向模型中输入微小扰动来提高模型鲁棒性,可以达到缓解神经网络局部不稳定性的缺陷和提高模型鲁棒性的效果。参见图3所示。训练过程中,首先BERT会对输入的文本生成初始向量,然后在初始向量上添加一些扰动来生成对抗样本,这些对抗样本作为原始样本的变体,很容易对模型产生误导。初始向量和对抗样本将一同输入BiLSTM进行训练,神经网络将在训练过程中将学习到更加健壮的参数以抵抗对抗样本攻击。
作为优选实施例,进一步地,通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱中,可搭建管道式连接的两个命名实体抽取模型,其中,第一个命名实体抽取模型采用单标签多分类任务方式来识别认知威胁话题文本中实体,第二个命名实体抽取模型中采用多标签多分类任务方式将第一命名实体抽取模型输入作为输入来识别实体之间关系。
知识融合是构建领域知识图谱的一项重要任务,其通过多个相关实体的对齐、关联和合并,使之成为一个整体,主要工作分为实体统一和实体消歧两个部分。由于认知威胁话题文本具有政治性、攻击性的特点,命名实体识别出的实体之间存在未统一的问题,因此需要进行实体统一个实体消歧。其中,实体统一是指含义相同的不同实体示例,需要进行实体统一。
命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体,由于中文语义的丰富性与复杂性,同一个词在不同语境下代表的含义可能有所不同,因此需要进行实体消歧。本案可采用基于链接的实体消歧方法,将实体指称项链接到知识库中的相应实体上。经过实体统一后共可得到最终的有效实体。
图数据库善于处理大量复杂、互连接、低结构化的数据,这些数据变化迅速,需要频繁的查询——在关系数据库中,这些查询会导致大量的表连接,因此会产生性能上的问题。而传统的如RDBMS等在查询时出现的性能衰退问题,故而本案实施例中可采取支持完整事务的持久化引擎Neo4j,其提供大规模可扩展性,在一台机器上可以处理数十亿节点关系-属性图,可以扩展到多台机器并行运行。同时重点解决性能衰退问题。通过围绕图进行数据建模,Neo4j会以相同的速度遍历节点与边,其遍历速度与构成图的数据量没有任何关系。
如图4所示,在基于Neo4j实现知识图谱可视化展示时,可在Neo4j程序中定义可视化图谱元素集合。认知威胁传播的schema可主要由类型(type)和属性(property)来表达。将用户、事件、地址、平台、热点事件、情感标签、威胁意图定义为实体。在关系的定义上,可以定义出如下关系:文本-热点事件,用户-文本,转发,用户-组织,文本-情感标签,文本-威胁意图等。用三元组可表示为:<文本,文本-热点事件,热点事件>,<用户,用户-认知威胁话题文本,文本>,<用户,转发,用户>,<用户,用户-组织,用户>,<文本,文本-威胁意图,威胁意图>等。
通过构建认知威胁传播知识图谱来实现认知威胁传播用户溯源、事件溯源、组织溯源。通过隐含关系挖掘,对重点账号、群组、组织、用户进行实时监测,能够对认知威胁精准定位和定向阻断提供依据。
进一步地,基于上述的方法,本发明实施例还提供一种社交媒体认知威胁检测***,包含:数据采集服务器、多台认知威胁鉴别服务器、知识图谱服务器和web服务器,其中,
数据采集服务器,用于采集网络平台敏感话题文本数据并对数据进行预处理操作;
多台认知威胁鉴别服务器,用于针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,其中,多台认知威胁鉴别服务器具体包含:将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本的初级鉴别服务器,将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本的中级鉴别服务器,和通过人工标注从疑似认知威胁话题文本来获取认知威胁话题文本的终极鉴别服务器;
知识图谱服务器,用于通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱;
web服务器,用于基于认知威胁传播知识图谱并利用web交互界面对认知威胁话题文本传播进行用户溯源、事件溯源以及组织溯源。
前端可基于JavaScript设计、采用Echart实现数据可视化。多台认知威胁鉴别服务器可设置为去中心的分布式特性,共同负责认知威胁信息的检测度量,只有多台服务器公认为认知威胁的文本才会被判定为认知威胁话题文本。在文本被判定为认知威胁话题文本后,认知威胁鉴别服务器将文本信息及文本认知威胁属性度量信息上传至分布式网络。分布式的结构不仅提升了认知威胁检测的准确率,也提升了***的抗风险能力,一台服务器的损坏不会影响整个***的运作。
知识图谱服务器对应认知威胁知识抽取模块和认知威胁传播知识图谱构建模块。知识图谱服务器通过智能合约自动化访问分布式网络,提取已被检测认知威胁话题文本的文本信息,对用户、时间、地址、组织、转发平台,认知威胁话题文本相关热点事件等认知威胁实体进行命名实体识别与关系抽取,通过Neo4j构建认知威胁传播知识图谱。
人机交互界面可利用Web实现用户与数据交互的桥梁,利用Echart可视化工具将抽象的数据、关系转化为直观的图表。
本案实施例中,***具有很好的安全性和可行性,模块化操作复杂度较低,便于维护。并经过试验数据验证,对百字以内话题文本的威胁性判定准确率达到93%,其准确率较高,检测效果较好。此外,本案方案具有很广阔的应用场景,可以用于新闻媒体监管、网络舆情监管以及打击违法行为等方面。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种社交媒体认知威胁检测方法,其特征在于,包含如下内容:
采集网络平台敏感话题文本数据并对数据进行预处理操作;
针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,其中,多层级认知威胁检测包含:将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本的初级检测,将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本的中级检测,和通过人工标注从疑似认知威胁话题文本来获取认知威胁话题文本的终极检测;
通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱;
基于认知威胁传播知识图谱对认知威胁话题文本传播进行用户溯源、事件溯源以及组织溯源。
2.根据权利要求1所述的社交媒体认知威胁检测方法,其特征在于,采集网络平台敏感话题文本数据并对数据进行预处理操作,包含:
首先,根据用户授权信息库分布式采集网络平台敏感话题文本信息及相关用户数据;
然后,针对采集的文本信息,将标题与正文进行合并,利用冗余检测算法去除冗余信息,将相关评论进行去重处理,对文本噪声数据进行清洗转换,并利用分词***对文本进行分词处理。
3.根据权利要求1所述的社交媒体认知威胁检测方法,其特征在于,初级检测中,利用情感分析方法将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本,其中,情感分析方法划分的过程包含:
首先,依据已知情感词典并运用词频统计方法来构建基础情感词典,通过将文本数据中词语与基础情感词典中词汇进行相关性统计来扩充情感词典;
接着,以敏感话题文本数据中文本为单位、以情感词为分隔符,对每个分隔符之间的断句进行情感权值统计,依据负向情感权值在所有情感词权值中的比重来判断文本的情感极性;
然后,依据文本的情感极性将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本。
4.根据权利要求3所述的社交媒体认知威胁检测方法,其特征在于,依据已知情感词典并运用词频统计方法来构建基础情感词典,包含:
首先,在已知情感词典中选取系列情感词,依据系列情感词中搜索引擎点击量来对情感词进行排序,依据点击量热度来选取若干情感词;
接着,基于词频统计选取与主题相关度最高的情感词汇,利用选取的若干情感词和情感词汇共同构成基础情感字典;
然后,利用同义词及带情感倾向候选词对基础情感字典进行扩充。
5.根据权利要求3所述的社交媒体认知威胁检测方法,其特征在于,对每个分隔符之间的断句进行情感权值统计,依据负向情感权值在所有情感词权值中的比重来判断文本的情感极性,包含:
首先,针对分隔符之间的断句,分别通过情感词分析、否定词分析、副词分析、固定搭配词分析、转折词分析及感叹句分析来统计情感倾向;
然后,统计文本包含所有子句的负向情感倾向值总和与总体情感权值绝对值总和,并利用负向情感词权值在文本所有情感词权重纵占比来判断文本的情感极性。
6.根据权利要求1所述的社交媒体认知威胁检测方法,其特征在于,中级检测中,利用深度学习方法将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本,分类过程包含:
构建深度学习模型,并利用带有标注标签的训练数据集进行预训练,其中,深度学习模型包含用于对输入进行词向量表示的BERT模型,和用于对输入的词向量进行认知威胁检测的BiLSTM模型;
将初始疑似认知威胁话题文本输入至预训练的深度学习模型中,利用深度学习模型来获取认知威胁概率值,通过认知威胁概率值来确定初始疑似认知威胁话题文本中的认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本。
7.根据权利要求1所述的社交媒体认知威胁检测方法,其特征在于,针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,还包含:利用情感分析方法在认知威胁话题文本中评论区依据整体情感倾向来评估认知威胁影响度。
8.根据权利要求1所述的社交媒体认知威胁检测方法,其特征在于,通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱,包含:
构建命名实体抽取模型,并利用对抗训练方法对模型进行优化,其中,命名实体识别模型包含用于将输入字符映射到实数空间并挖掘潜在语义的编码器、用于通过捕捉编码器转化向量中向前和向后双向特征来提取上下文语义信息的BiLSTM神经网络层、和用于将BiLSTM神经网络层提取的双向特征作为输入并结合Bioes标注范式生成字符对应标签的CRF条件随机场层;
将认知威胁话题文本作为优化后的命名实体抽取模型输入,利用命名实体抽取模型来识别认知威胁话题文本中的实体类别和关系。
9.根据权利要求8所述的社交媒体认知威胁检测方法,其特征在于,通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱中,搭建管道式连接的两个命名实体抽取模型,其中,第一个命名实体抽取模型采用单标签多分类任务方式来识别认知威胁话题文本中实体,第二个命名实体抽取模型中采用多标签多分类任务方式将第一命名实体抽取模型输入作为输入来识别实体之间关系。
10.一种社交媒体认知威胁检测***,其特征在于,包含:数据采集服务器、多台认知威胁鉴别服务器、知识图谱服务器和web服务器,其中,
数据采集服务器,用于采集网络平台敏感话题文本数据并对数据进行预处理操作;
多台认知威胁鉴别服务器,用于针对预处理后的敏感话题文本数据,通过多层级认知威胁检测来获取认知威胁话题文本,其中,多台认知威胁鉴别服务器具体包含:将敏感话题文本数据划分为认知威胁话题文本和初始疑似认知威胁话题文本的初级鉴别服务器,将初始疑似认知威胁话题文本分类为认知威胁话题文本、疑似认知威胁话题文本和非认知威胁话题文本的中级鉴别服务器,和通过人工标注从疑似认知威胁话题文本来获取认知威胁话题文本的终极鉴别服务器;
知识图谱服务器,用于通过对认知威胁话题文本的命名实体识别和实体关系抽取来构建认知威胁传播知识图谱;
web服务器,用于基于认知威胁传播知识图谱并利用web交互界面对认知威胁话题文本传播进行用户溯源、事件溯源以及组织溯源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211732859.2A CN116244446A (zh) | 2022-12-30 | 2022-12-30 | 社交媒体认知威胁检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211732859.2A CN116244446A (zh) | 2022-12-30 | 2022-12-30 | 社交媒体认知威胁检测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116244446A true CN116244446A (zh) | 2023-06-09 |
Family
ID=86628873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211732859.2A Pending CN116244446A (zh) | 2022-12-30 | 2022-12-30 | 社交媒体认知威胁检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116244446A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874755A (zh) * | 2024-03-13 | 2024-04-12 | 中国电子科技集团公司第三十研究所 | 一种识别暗网威胁用户的***及方法 |
CN117910567A (zh) * | 2024-03-20 | 2024-04-19 | 道普信息技术有限公司 | 一种基于安全词典、深度学习网络的漏洞知识图谱构造方法 |
-
2022
- 2022-12-30 CN CN202211732859.2A patent/CN116244446A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874755A (zh) * | 2024-03-13 | 2024-04-12 | 中国电子科技集团公司第三十研究所 | 一种识别暗网威胁用户的***及方法 |
CN117874755B (zh) * | 2024-03-13 | 2024-05-10 | 中国电子科技集团公司第三十研究所 | 一种识别暗网威胁用户的***及方法 |
CN117910567A (zh) * | 2024-03-20 | 2024-04-19 | 道普信息技术有限公司 | 一种基于安全词典、深度学习网络的漏洞知识图谱构造方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Daumé III et al. | A large-scale exploration of effective global features for a joint entity detection and tracking model | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
Liu et al. | Measuring similarity of academic articles with semantic profile and joint word embedding | |
CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及*** | |
CN116244446A (zh) | 社交媒体认知威胁检测方法及*** | |
Das et al. | A graph based clustering approach for relation extraction from crime data | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
Uppal et al. | Fake news detection using discourse segment structure analysis | |
CN110765277A (zh) | 一种基于知识图谱的移动端的在线设备故障诊断平台 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
Amali et al. | Classification of cyberbullying Sinhala language comments on social media | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
Kurniawan et al. | Indonesian twitter sentiment analysis using Word2Vec | |
Xun et al. | A survey on context learning | |
Li et al. | Neural factoid geospatial question answering | |
Suresh et al. | Data mining and text mining—a survey | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN116192537B (zh) | 一种apt攻击报告事件抽取方法、***和存储介质 | |
Qi et al. | Scratch-dkg: A framework for constructing scratch domain knowledge graph | |
Wang et al. | Sentiment detection and visualization of Chinese micro-blog | |
Yang et al. | Web service clustering method based on word vector and biterm topic model | |
Wang et al. | A Method of Hot Topic Detection in Blogs Using N-gram Model. | |
Thambi et al. | Graph based document model and its application in keyphrase extraction | |
Sun et al. | Topic-Aware Fake News Detection Based on Heterogeneous Graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |