CN111597310A - 一种敏感内容检测方法、装置、设备、介质 - Google Patents
一种敏感内容检测方法、装置、设备、介质 Download PDFInfo
- Publication number
- CN111597310A CN111597310A CN202010455008.2A CN202010455008A CN111597310A CN 111597310 A CN111597310 A CN 111597310A CN 202010455008 A CN202010455008 A CN 202010455008A CN 111597310 A CN111597310 A CN 111597310A
- Authority
- CN
- China
- Prior art keywords
- weight
- preset
- keyword
- target
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000035945 sensitivity Effects 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000009825 accumulation Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- XHEFDIBZLJXQHF-UHFFFAOYSA-N fisetin Chemical compound C=1C(O)=CC=C(C(C=2O)=O)C=1OC=2C1=CC=C(O)C(O)=C1 XHEFDIBZLJXQHF-UHFFFAOYSA-N 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000013016 damping Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000013461 design Methods 0.000 description 16
- 230000018109 developmental process Effects 0.000 description 12
- 238000011161 development Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000003814 drug Substances 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 239000006187 pill Substances 0.000 description 5
- 238000004091 panning Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种敏感内容检测方法、装置、设备、介质,该方法包括:对目标原文进行预处理,确定出所述目标原文的关键词;确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;确定所述关键词之间以及预设敏感词与所述关键词之间的相似度以及所述预设敏感词与所述关键词之间的匹配度权重;利用所述匹配度权重确定出所述目标原文的敏感度指数。这样能够提高检测效率,减低漏检率,提高敏感内容检测的准确度和精确度,增强检测效果。
Description
技术领域
本公开涉及信息安全技术领域,特别涉及一种敏感内容检测方法、装置、设备、介质。
背景技术
保密安全业务要求对用户数据进行检查,以确定用户数据是否包含相关的敏感数据。现有的敏感内容检测的方法主要是,先根据实际情况预设敏感词,根据预设敏感词检测用户数据中是否包含预设敏感词,以及预设敏感词在用户数据中出现的频数,以判断用户数据是否为敏感内容。这样通过判断检测用户数据中是否出现与预设敏感词一样的词,来判断是否出现敏感词的方式,忽略了词形不同但语义相同或者相近的词,例如,“毒品”和“***”这两个词在词形上完全不相同,但语义相关性很强,当预设敏感词为“毒品”时,并不能检测出用户数据中的“***”等词语,这就导致检测效果不佳,漏检率高,若增加预设敏感词,则会降低检测效率。此外,这样的检测方法只能检测预设敏感词在用户数据中出现的频数,忽略用户数据中词语的分布情况,减低敏感内容检测的准确度和精确度。
发明内容
有鉴于此,本公开的目的在于提供一种敏感内容检测方法、装置、设备、介质,能够提高检测效率,减低漏检率,提高敏感内容检测的准确度和精确度,增强检测效果。其具体方案如下:
第一方面,本公开提供了一种敏感内容检测方法,包括:
对目标原文进行预处理,确定出所述目标原文的关键词;
确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;
确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;
根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;
利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。
可选的,所述对目标原文进行预处理,确定出所述目标原文的关键词,包括:
对目标原文进行分句、分词、去停用词和词性过滤处理,确定出所述目标原文的关键词。
可选的,所述根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重,包括:
根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的第一匹配度权重;
将最大的所述第一匹配度权重对应的所述预设敏感词确定为目标敏感词;
利用所述相似度、所述第一匹配度权重以及预设极限匹配比例,确定所述目标敏感词的第二匹配度权重,其中,所述预设极限匹配比例表示所述关键词中能与所述目标敏感词一致的目标关键词数量占关键词总数量的最大比例;
相应地,所述利用所述匹配度权重确定出所述目标原文的敏感度指数,包括:
利用所述目标敏感词的所述第一匹配度权重和所述第二匹配度权重确定出所述目标原文的敏感度指数。
可选的,所述确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重,包括:
确定所述关键词在预设滑动窗口内的共现关系;
根据所述共现关系构建所述目标原文的关键词共现关系网络图,其中,一个关键词为一个节点,存在所述共现关系的所述关键词之间彼此连接;
根据所述共现关系和第一预设公式迭代计算所述关键词的第一累加权重,直到所述第一累加权重收敛,并将收敛的所述第一累加权重确定为所述关键词在所述目标原文中的重要度权重,其中,所述第一预设公式为:
其中,WS1(vi)表示所述关键词共现关系网络图中的节点vi的所述第一累加权重,wji为表示节点vi与节点vj之间的表述共现关系的连接权重,当wji=1时,表示节点vi与节点vj之间存在共现关系,当wji=0时,表示节点vi与节点vj之间不存在共现关系,在第一次迭代计算时每个节点的第一累加权重初始值WS1(vi)均设置为1,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合,d为表示一个节点跳转到其他节点的概率的阻尼系数。
可选的,所述确定所述关键词之间以及预设敏感词与所述关键词之间的相似度,包括:
利用Word2vec技术确定所述关键词之间以及预设敏感词与所述关键词之间的相似度。
可选的,所述根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的第一匹配度权重,包括:
构建敏感词真实匹配网络图,其中,一个所述关键词或一个所述预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接;
根据相似度、所述重要度权重以及第二预设公式迭代计算所述预设敏感词和所述关键词的第二累加权重,直到所述第二累加权重收敛,并将收敛的、与所述预设敏感词对应的所述第二累加权重确定为所述预设敏感词和所述关键词之间的第一匹配度权重,其中,所述第二预设公式为:
其中,WS2(vi)表示所述敏感词真实匹配网络图中的节点vi的所述第二累加权重,sji为表示节点vi与节点vj之间的相似度的连接权重,在第一次迭代计算时每个关键词节点的第二累加权重初始值WS2(vi)均设置为对应的所述重要度权重,每个预设敏感词的第二累加权重初始值WS2(vi)均设置为0,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合。
可选的,所述利用所述相似度、所述第一匹配度权重以及预设极限匹配比例,确定所述目标敏感词的第二匹配度权重,包括:
根据预设极限匹配比例、所述相似度和所述关键词的数量,从所述关键词中确定出目标关键词;
如果所述目标匹配关键词与所述目标敏感词不一致,则将所述目标关键词与所述目标敏感词之间的所述相似度设置为1;
构建敏感词极限匹配网络图,其中,一个所述关键词或一个预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接;
利用所述相似度、所述第一匹配度权重和第三预设公式迭代计算所述预设敏感词和所述关键词的第三累加权重,直到所述第三累加权重收敛,并将收敛的、与所述目标敏感词对应的第三累加权重确定为第二匹配度权重,其中,所述第三预设公式为:
其中,WS3(vi)表示所述敏感词极限匹配网络图的节点vi的所述第三累加权重,sji为表示所述节点vi与节点vj之间的相似度的连接权重,在第一次迭代计算时每个关键词节点的第三累加权重初始值WS3(vi)均设置为对应的所述重要度权重,每个预设敏感词的第三累加权重初始值WS3(vi)均设置为0,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合。
可选的,所述利用所述目标敏感词的所述第一匹配度权重和所述第二匹配度权重,确定出所述目标原文的敏感度指数,包括:
利用所述目标敏感词的所述第一匹配度权重、所述第二匹配度权重以及第四预设公式,确定出所述目标原文的敏感度指数,其中,所述第四预设公式为:
其中,Indexsensitive表示所述敏感度指数,Sreal表示所述目标敏感词的所述第一匹配度权重,Slim表示所述目标敏感词的所述第二匹配度权重。
第二方面,本公开提供了一种敏感内容检测装置,包括:
关键词确定模块,用于对目标原文进行预处理,确定出所述目标原文的关键词;
共现关系确定模块,用于确定所述关键词在预设滑动窗口内的共现关系;
重要度权重确定模块,用于根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;
相似度确定模块,用于确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;
匹配度权重确定模块,用于根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;
敏感度指数确定模块,用于利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。
第三方面,本公开提供了一种电子设备,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述公开的敏感内容检测方法。
第四方面,本公开提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的敏感内容检测方法。
可见,本公开先对目标原文进行预处理,确定出所述目标原文的关键词;再确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;然后确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;接着根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。这样不再采用精确匹配方法,而是先确定关键词在原文中的重要程度,以及关键词和敏感词之间的相似度,再根据重要程度和相似度确定出关键词和敏感词之间的匹配程度,再由匹配程度最终得到原文的敏感度指数,这样考虑到了关键词与敏感词不完全相同但是意思相近等情况,能够提高检测效率,减低漏检率,提高敏感内容检测的准确度和精确度,增强检测效果。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本公开提供的一种敏感内容检测方法流程图;
图2为本公开提供的一种具体的敏感内容检测方法流程图;
图3为本公开提供的一种具体的关键词共现关系网络图;
图4为本公开提供的一种具体的敏感词真实匹配网络图;
图5为本公开提供的一种敏感词极限匹配网络图;
图6为本公开提供的一种敏感内容检测装置结构示意图;
图7为本公开提供的一种敏感内容检测设备结构图;
图8为本公开提供的一种电子设备结构图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
目前,敏感内容检测的方法主要是,先根据实际情况预设敏感词,根据预设敏感词检测用户数据中是否包含预设敏感词,以及预设敏感词在用户数据中出现的频数,以判断用户数据是否为敏感内容。这样通过判断检测用户数据中是否出现与预设敏感词一样的词,来判断是否出现敏感词的方式,忽略了词形不同但语义相同或者相近的词,例如,“毒品”和“***”这两个词在词形上完全不相同,但语义相关性很强,当预设敏感词为“毒品”时,并不能检测出用户数据中的“***”等词语,这就导致检测效果不佳,漏检率高,若增加预设敏感词,则会降低检测效率。此外,这样的检测方法只能检测预设敏感词在用户数据中出现的频数,忽略用户数据中词语的分布情况,减低敏感内容检测的准确度和精确度。有鉴于此,本公开提供了一种敏感内容检测方法,能够提高检测效率,减低漏检率,提高敏感内容检测的准确度和精确度,增强检测效果。
参见图1所示,本公开实施例提供了一种敏感内容检测方法,该方法包括:
步骤S11:对目标原文进行预处理,确定出所述目标原文的关键词。
本实施例中,需要进行敏感度检测的用户数据称为目标原文,需要先对所述目标原文进行预处理,确定出所述目标原文的关键词。其中,所述预处理包括但不限于分句、分词、去停用词以及词性过滤等。通常当所述目标原文包括多句话时,需要先对所述目标原文进行分句,再进行分词,在分词之后,进行去停用词和词性过滤操作,得到所述目标原文的所述关键词;当所述目标原文至包括一句话时,先进行分词,在进行去停用词和词性过滤操作,得到所述目标原文的所述关键词。所述关键词的数量可以大于或等于1。当所述关键词的数量大于1时,组成所述目标原文的关键词集。
步骤S12:确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重。
在具体的实施过程中,需要确定所述关键词在与预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词对所述目标原文的重要度权重。其中,所述预设滑动窗口具有相应的长度。根据所述共现关系确定所述关键词在所述目标原文中的所述重要度权重可以描述所述关键词在所述目标原文中的贡献度和重要程度。
步骤S13:确定所述关键词之间以及预设敏感词与所述关键词之间的相似度。
在具体的实施过程中,在确定出所述关键词在所述目标原文中的重要度权重之后,还需要确定所述关键词之间的相似度以及预设敏感词与所述关键词之间的相似度。
步骤S14:根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重。
可以理解的是,确定出所述关键词之间以及所述预设敏感词与所述关键词之间的相似度之后,还需要根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重。
步骤S15:利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否为敏感内容。
可以理解的是,在确定出所述匹配度权重匹配度权重之后,还需要利用所述匹配度权重匹配度权重,确定所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。当所述敏感度指数大于预设敏感度阈值时,所述目标原文为敏感内容。
可见,本公开先对目标原文进行预处理,确定出所述目标原文的关键词;再确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;然后确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;接着根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。这样不再采用精确匹配方法,而是先确定关键词在原文中的重要程度,以及关键词和敏感词之间的相似度,再根据重要程度和相似度确定出关键词和敏感词之间的匹配程度,再由匹配程度最终得到原文的敏感度指数,这样考虑到了关键词与敏感词不完全相同但是意思相近等情况,能够提高检测效率,减低漏检率,提高敏感内容检测的准确度和精确度,增强检测效果。
参见图2所示,本公开实施例提供了一种具体的敏感内容检测方法,该方法包括:
步骤S201:对目标原文进行分句、分词、去停用词和词性过滤处理,确定出所述目标原文的关键词。
在具体的实施过程中,需要对目标原文进行分句、分词、去停用词和词性过滤处理,确定出所述目标原文的关键词。其中,所述词性过滤操作包括但不限于将代词、指示词以及量词等过滤掉,保留携带关键信息的名词、动词等,所述分句为根据句子结尾标点符号进行句子划分,所述句子结尾标点符号包但不限于句号、问号、感叹号以及省略号等,经过所述预处理得到的所述关键词需按照在句子中出现的先后顺序排序。例如,目标原文为“程序员是从事程序开发、维护的专业人员,一般把程序员分为程序设计人员和程序编码人员”,经过分词、去停用词以及词性过滤操作等数据预处理后,得到关键词:“程序员”,“程序”,“开发”,“维护”,“专业”,“人员”,“程序员”,“分为”,“程序”,“设计”,“人员”,“程序”,“编码”,“人员”。
步骤S202:确定所述关键词在预设滑动窗口内的共现关系。
在具体的实施例中,需要确定有一定长度的预设滑动窗口,以确定所述关键词在所述预设滑动窗口内的共现关系。具体的,假设预设滑动窗口的长度为k,则当前关键词与当前关键词前面连续的k个关键词有共现关系,当前关键词与当前关键词后面连续的k个关键词也有共现关系。若当前关键词前面连续的关键词数量不足k个,或/和当前关键词后面连续的关键词数量不足k个,则根据实际进行选取。如果同一个关键词出现的次数大于1,则需要找出与其有共现关系的所有关键词。例如,当预设滑动窗口的长度为5时,对于前述关键词:“程序员”,“程序”,“开发”,“维护”,“专业”,“人员”,“程序员”,“分为”,“程序”,“设计”,“人员”,“程序”,“编码”,“人员”,从中任选出以下5个关键词作为示例:“开发”,“程序员”,“程序”,“专业”,“设计”,确定出这5个示例关键词与其他关键词的共现关系为:
“开发”=[“专业”,“程序员”,“维护”,“程序”,“人员”,“分为”];
“程序员”=[“开发”、“程序”,“维护”,“专业”,“人员”,“设计”,“分为”];
“程序”=[“专业”,“开发”,“维护”,“程序员”,“设计”,“编码”,“人员”,“分为”];
“专业”=[“开发”,“维护”,“程序”,“程序员”,“设计”,“人员”];
“设计”=[“程序员”,“程序”,“分为”,“人员”,“编码”,“专业”];
其中,中括号中的关键词表示与等号前面的关键词有共现关系。
步骤S203:根据所述共现关系构建所述目标原文的关键词共现关系网络图,其中,一个关键词为一个节点,存在所述共现关系的所述关键词之间彼此连接。
在具体的实施过程中,可以根据所述共现关系构建所述目标原文的关键词共现关系网络图,其中,一个关键词为一个节点,存在所述共现关系的所述关键词之间彼此连接。参见图3所示,为一种具体的关键词共现关系网络图。其中,从前述示例中的关键词中选出任意5个关键词:“开发”,“程序员”,“程序”,“专业”,“设计”,根据所述共现关系,构建相应的关键词共现关系网络图,关键词“开发”记为节点v1,关键词“程序员”记为节点v2,关键词“程序”记为节点v3,关键词“专业”记为节点v4,关键词“设计”记为节点v5,wji为表示节点vi与节点vj之间的表述共现关系的连接权重,当wji=1时,表示节点vi与节点vj之间存在共现关系,当wji=0时,表示节点vi与节点vj之间不存在共现关系,且wji=wij。WS1(vi)表示所述关键词共现关系网络图中节点vi的第一累加权重。
步骤S204:根据所述共现关系和第一预设公式迭代计算所述关键词的第一累加权重,直到所述第一累加权重收敛,并将收敛的所述第一累加权重确定为所述关键词在所述目标原文中的重要度权重,其中,所述第一预设公式为:
其中,WS1(vi)表示所述关键词共现关系网络图中的节点vi的所述第一累加权重,wji为表示节点vi与节点vj之间的表述共现关系的连接权重,当wji=1时,表示节点vi与节点vj之间存在共现关系,当wji=0时,表示节点vi与节点vj之间不存在共现关系,在第一次迭代计算时每个节点的第一累加权重初始值WS1(vi)均设置为1,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合,d为表示一个节点跳转到其他节点的概率的阻尼系数。
在具体的实施例中,需要根据所述共现关系和第一预设公式迭代计算所述关键词的第一累加权重,直到所述第一累加权重收敛,并将收敛的所述第一累加权重确定为所述关键词在所述目标原文中的重要度权重。也即,根据所述共现关系和第一预设公式迭代计算所述关键词的第一累加权重,直到各个所述关键词的当前第一累加权重与对应的上一次计算得到的第一累加权重差值的绝对值小于或者等于第一阈值,则所述第一累加权重收敛,将收敛的所述第一累加权重确定为所述关键词在所述目标原文中的重要度权重。所述阻尼系数d通常可以取0.85。例如,对前述示例中的关键词:“程序员”,“程序”,“开发”,“维护”,“专业”,“人员”,“程序员”,“分为”,“程序”,“设计”,“人员”,“程序”,“编码”,“人员”进行所述第一累加权重的迭代计算,得到所述关键词的重要度权重,按照所述重要度权重排序,前5名的关键词和对应的重要度权重依次为:('人员',1.0),('程序员',0.44955231210045854),('设计',0.4299594237471879),('程序',0.42217324363606423),('编码',0.3433619323771528)。
在第一种具体的实施方式中,在确定出所述关键词对所述目标原文的重要度权重之后,还可以包括:将大于或等于预设重要度权重阈值的所述重要度权重对应的所述关键词确定为最终关键词,再对所述最终关键词进行后续操作,确定出敏感度指数,这样可以增大对所述目标原文的重要度高的所述关键词的贡献度,且能减少相关的工作量,节约检测时间,进一步提高敏感内容检测效率。
在第二种具体的实施方式中,在确定出所述关键词对所述目标原文的重要度权重之后,还可以包括:将所述关键词的所述重要度权重进行区间离散化,并根据实际需要给新的离散区间内的所述关键词配置新重要度权重,例如,将所述重要度权重大于0.4且小于0.7的关键词划分为一个区间,并给这个区间内的所述关键词配置新的重要度权重2。这样可以增大对所述目标原文的重要度高的所述关键词的贡献度。
在第三种具体的实施方式中,在确定出所述关键词对所述目标原文的重要度权重之后,还可以包括:将大于或等于预设重要度权重阈值的所述重要度权重对应的所述关键词确定为最终关键词,再将所述最终关键词的所述重要度权重进行离散区间化,并根据实际需要给新的离散区间内的所述最终关键词配置新重要度权重。
步骤S205:利用Word2vec技术确定所述关键词之间以及预设敏感词与所述关键词之间的相似度。
本实施例中,需要确定所述关键词之间以及预设敏感词与所述关键词之间的相似度。假设预设敏感词之间不相似,所以需要计算所述关键词之间的相似度,以及所述关键词与所述预设敏感词之间的相似度。具体的,可以利用Word2vec技术确定所述关键词之间以及预设敏感词与所述关键词之间的相似度。所述Word2vec技术为一种深度学习模型,基于人工神经网络,通过在大规模语料库上的训练,利用词语的上下文信息,可以将一个词语表征为N维空间上的向量,向量空间上的距离可以用来表示词语语义上的相似度,语义越相似的词语在向量空间中的距离越近。比如“吸毒”和“***”这两个词语通常会关联出现,这两个词语的上下文信息很相近,则训练得到的word2vec向量之间的余弦距离也很近,因此,word2vec技术能够被用来进行词语之间的语义相关性检测,这避免了目前技术方案无法检测相近词和关联词的局限。可以利用所述词向量之间的余弦夹角表征两个词语之间的相似度。例如,词语A=“信息安全”;词语B=“数据保护”;词语C=“动物园”。则这三个词语对应的Word2vec词向量为:
Vector(A)=[0.646 227,-0.113 685,-0.027 796,0.538 202,-0.262 904,…,0.567 046,0.160 617,0.643 117,-0.083 449,0.282 224];
Vector(B)=[0.579001,0.099 916,-0.162 789,0.131 -385,0.333 306,…,0.431 116,0.717 707,0.337 384,-0.285 081,0.445 127];
Vector(C)=[0.696 384,-0.474 865,-0.196 781,-0.315 463,0.289 084,…,0.443 540,-0.154 656,-0.359 946,0.120 395,-0.113 570]。
计算所述词向量之间的余弦夹角,得到两个词语之间的相似度,如下表1所示:
表1
词向量余弦相似度结果
在一种具体的实施过程中,如果在所述关键词中出现与预设敏感词相同的词,则可以将这个相同的关键词与对应的预设敏感词之间的所述相似度设置为一个较大的值,例如,将这个相同的关键词与对应的预设敏感词之间的所述相似度设置为10,这样可以使得最后得到的敏感度指数更便于判定所述目标原文是否是敏感内容。
在另外一种具体的实施方式,如果所述相似度低于预设相似度阈值,则将所述相似度对应的两个词语之间的相似度设置为0,这样可以避免不相干词语对敏感内容检测的干扰。
步骤S206:根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的第一匹配度权重。
可以理解的是,确定出所述关键词之间以及所述预设敏感词与所述关键词之间的相似度之后,还需要根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的第一匹配度权重。
具体的,所述根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的第一匹配度权重,包括:构建敏感词真实匹配网络图,其中,一个所述关键词或一个所述预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接。
本实施例中,在确定出所述相似度之后,可以先构建敏感词真实匹配网络图,以便确定其中,一个所述关键词或一个所述预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接。参见图4所示,为一种具体的敏感词真实匹配网络图。关键词以“人员”,“程序员”,“设计”,“程序”,“编码”为例,预设敏感词为“算法”,“标准”,“军队”,每个关键词彼此连接,且各个预设敏感词连接,故每个关键有7条连接线,每个预设敏感词与每个关键词连接,且预设敏感词之间彼此不连接,所以每个预设敏感词有5条连接线,WS2(vi)表示所述敏感词真实匹配网络图中的节点vi的所述第二累加权重。
在构建出所述敏感词真实匹配网络图之后,还需要根据所述相似度、所述重要度权重以及第二预设公式迭代计算所述预设敏感词和所述关键词的第二累加权重,直到所述第二累加权重收敛,并将收敛的、与所述预设敏感词对应的所述第二累加权重确定为所述预设敏感词和所述关键词之间的第一匹配度权重,其中,所述第二预设公式为:
其中,WS2(vi)表示所述敏感词真实匹配网络图中的节点vi的所述第二累加权重,sji为表示节点vi与节点vj之间的相似度的连接权重,在第一次迭代计算时每个关键词节点的第二累加权重初始值WS2(vi)均设置为对应的所述重要度权重,每个预设敏感词的第二累加权重初始值WS2(vi)均设置为0,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合。
在具体的实施过程中,确定出所述相似度之后,还需要根据所述相似度、所述重要度权重以及第二预设公式迭代计算所述预设敏感词和所述关键词的第二累加权重,直到所述第二累加权重收敛,并将收敛的、与所述预设敏感词对应的所述第二累加权重确定为所述预设敏感词和所述关键词之间的第一匹配度权重。具体的,根据所述相似度、所述重要度权重以及第二预设公式迭代计算所述预设敏感词和所述关键词的第二累加权重,直到各个所述关键词的当前第二累加权重与上一次计算得到的第二累加权重差值的绝对值小于或等于第二阈值,则所述第二累加权重收敛,并将收敛的、与所述预设敏感词对应的所述第二累加权重确定为所述预设敏感词和所述关键词之间的第一匹配度权重。例如,目标原文的关键词集=[“开发”,“算法”,“程序”,“项目”,“设计”];关键词对应的重要度权重=[“0.9”,“0.8”,“0.7”,“0.6”,“0.5”];预定义敏感词集=[“算法”,“标准”,“军队”]。利用所述第二预设公式迭代计算后,得到预设敏感词的第一匹配度权重=[0.90071,0.81052,0.39819]。
步骤S207:将最大的所述第一匹配度权重对应的所述预设敏感词确定为目标敏感词。
在具体的实施过程中,需要将最大的所述第一匹配度权重对应的所述预设敏感词确定为目标敏感词。例如,目标原文的关键词集=[“开发”,“算法”,“程序”,“项目”,“设计”];关键词对应的重要度权重=[“0.9”,“0.8”,“0.7”,“0.6”,“0.5”];预定义敏感词集=[“算法”,“标准”,“军队”]。利用所述第二预设公式迭代计算后,得到预设敏感词的第一匹配度权重=[0.90071,0.81052,0.39819];最大的第一匹配度权重=0.90071;最大的第一匹配度权重对应的敏感词=“算法”。则将预设敏感词“算法”确定为目标敏感词。
步骤S208:利用所述相似度、所述第一匹配度权重以及预设极限匹配比例,确定所述目标敏感词的第二匹配度权重,其中,所述预设极限匹配比例表示所述关键词中能与所述目标敏感词一致的目标关键词数量占关键词总数量的最大比例。
在确定出所述目标敏感词之后,还需要利用所述相似度、所述第一匹配度权重以及预设极限匹配比例,确定所述目标敏感词的第二匹配度权重,其中,所述预设极限匹配比例表示所述关键词中能与所述目标敏感词一致的目标关键词数量占关键词总数量的最大比例。
具体的,利用所述相似度、所述第一匹配度权重以及预设极限匹配比例,确定所述目标敏感词的第二匹配度权重,包括:根据预设极限匹配比例、所述相似度和所述关键词的数量,从所述关键词中确定出目标关键词,其中,所述预设极限匹配比例表示所述关键词中能与所述目标敏感词一致的目标关键词数量占关键词总数量的最大比例。
本实施例中,在确定出所述第一匹配度权重之后,还需要根据预设极限匹配比例、所述相似度和所述关键词的数量,从所述关键词中确定出目标关键词,其中,所述预设极限匹配比例表示所述关键词中能与所述目标敏感词一致的目标关键词数量占关键词总数量的最大比例。根据述预设极限匹配比例能够确定出所述关键词中最多能有多少个词语与所述目标敏感词一致。并将与所述目标敏感词之间的最大的所述相似度对应的关键词确定为目标关键词。例如,目标原文的关键词集=[“开发”,“算法”,“程序”,“项目”,“设计”];预定义敏感词集=[“算法”,“标准”,“军队”],确定出的所述目标敏感词为“算法”,所述预设极限匹配比例为40%,则可以确定所述目标原文关键词集中有2个关键词被确定为目标关键词,根据所述相似度,则可以将所述“程序员”和“程序”确定为所述目标关键词。
在确定所述目标关键词之后,如果所述目标关键词与所述目标敏感词不一致,则将所述目标关键词与所述目标敏感词之间的所述相似度设置为1。具体的,就是在确定出所述目标关键词之后,还需要判断所述目标关键词与所述目标敏感词是否一致,如果所述目标关键词与所述目标敏感词一致,则所述目标关键词与所述目标敏感词之间的所述相似度已经是1或者是一个比较大的值,不需要重新设置,如果所述目标关键词与所述目标敏感词不一致,则将所述目标关键词与所述目标敏感词之间的所述相似度设置为1。没有重新设置相似度的关键词的相似度不变,与步骤S205中确定出的所述相似度相同。例如,前述示例中,目标关键词“程序员”和目标关键词“程序”与所述目标敏感词“算法”均不一致,则将所述目标关键词“程序员”与所述目标敏感词“算法”之间的相似度设置为1,将所述目标关键词“程序”与所述目标敏感词“算法”之间的相似度也设置为1。
接着还需要构建敏感词极限匹配网络图,其中,一个所述关键词或一个预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接。
在具体的实施例中,也可以构建敏感词极限匹配网络与图,以方便计算所述第二匹配度权重。所述敏感词极限匹配网络图中,一个所述关键词或一个预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接。参见图5所示,为一种具体的敏感词极限匹配网络图。目标原文的关键词以“人员”,“程序员”,“设计”,“程序”,“编码”为例,预设敏感词为“算法”,“标准”,“军队”,每个关键词彼此连接,且各个预设敏感词连接,故每个关键有7条连接线,每个预设敏感词与每个关键词连接,且预设敏感词之间彼此不连接,所以每个预设敏感词有5条连接线,WS3(vi)表示所述敏感词极限匹配网络图的节点vi的第三累加权重。其中,“算法”为目标敏感词,“程序员”和“程序”为目标关键词。
在构建出所述敏感词极限匹配网络图之后,便可利用所述相似度、所述第一匹配度权重和第三预设公式迭代计算所述预设敏感词和所述关键词的第三累加权重,直到所述第三累加权重收敛,并将收敛的、与所述目标敏感词对应的第三累加权重确定为所述目标敏感词的第二匹配度权重,其中,所述第三预设公式为:
其中,WS3(vi)表示所述敏感词极限匹配网络图的节点vi的所述第三累加权重,sji为表示所述节点vi与节点vj之间的相似度的连接权重,在第一次迭代计算时每个关键词节点的第三累加权重初始值WS3(vi)均设置为对应的所述重要度权重,每个预设敏感词的第三累加权重初始值WS3(vi)均设置为0,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合。
本实施例中,利用所述相似度、所述第一匹配度权重和第三预设公式迭代计算所述预设敏感词和所述关键词的第三累加权重,直到当前第三累加权重与相应的上一次计算得到的第三累加权重的差值的绝对值小于或者等于第三阈值,则所述第三累加权重收敛,将收敛的、与所述目标敏感词对应的所述第三累加权重确定为所述目标敏感词的第二匹配度权重。其中,所述第一阈值、所述第二阈值以及所述第三阈值可以相同,也可以不相同。
步骤S209:利用所述目标敏感词的所述第一匹配度权重和所述第二匹配度权重确定出所述目标原文的敏感度指数。
在得到所述第一匹配度权重和所述第二匹配度权重之后,还需要利用所述目标敏感词的所述第一匹配度权重和所述第二匹配度权重确定出所述目标原文的敏感度指数。具体的,就是利用所述目标敏感词的所述第一匹配度权重、所述第二匹配度权重以及第四预设公式,确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容,其中,所述第四预设公式为:
其中,Indexsensitive表示所述敏感度指数,Sreal表示所述目标敏感词的所述第一匹配度权重,Slim表示所述目标敏感词的所述第二匹配度权重。
在确定出所述目标敏感词的所述第二匹配度权重之后,需要利用所述目标敏感词的所述第一匹配度权重和所述第二匹配度权重确定所述目标原文的敏感度指数,当所述敏感度权重大于预设敏感度阈值时,所述目标原文为敏感内容。示例一,假设目标原文的关键词集=[“开发”,“软件”,“程序”,“项目”,“设计”];关键词对应的重要度权重=[“0.9”,“0.8”,“0.7”,“0.6”,“0.5”];预设敏感词集=[“算法”,“标准”,“军队”]。则经过计算之后可得敏感度指数Indexsensitive=0.69。示例二,假设目标原文的关键词集=[“经济”,“政策”,“政府”,“税收”,“房地产”];关键词对应的重要度权重=[“0.9”,“0.8”,“0.7”,“0.6”,“0.5”];预设敏感词集=[“算法”,“标准”,“军队”]。则经过计算之后可得敏感度指数Indexsensitive=0.54。
如果在步骤S205之后,将低于预设相似度阈值的所述相似度对应的两个词语之间的相似度重新设置为0,则前述示例一确定出的敏感度指数Indexsensitive=0.71,示例二确定出的敏感度指数Indexsensitive=0.38,增大了不同目标原文的敏感度指数的区分度。
参见图6所示,本公开实施例提供了一种敏感内容检测装置10,包括:
关键词确定模块11,用于对目标原文进行预处理,确定出所述目标原文的关键词;
共现关系确定模块12,用于确定所述关键词在预设滑动窗口内的共现关系;
重要度权重确定模块13,用于根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;
相似度确定模块14,用于确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;
匹配度权重确定模块15,用于根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;
敏感度指数确定模块16,用于利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。
可见,本公开先对目标原文进行预处理,确定出所述目标原文的关键词;再确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;然后确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;接着根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。这样不再采用精确匹配方法,而是先确定关键词在原文中的重要程度,以及关键词和敏感词之间的相似度,再根据重要程度和相似度确定出关键词和敏感词之间的匹配程度,再由匹配程度最终得到原文的敏感度指数,这样考虑到了关键词与敏感词不完全相同但是意思相近等情况,能够提高检测效率,减低漏检率,提高敏感内容检测的准确度和精确度,增强检测效果。
进一步的,参见图7所示,本公开实施例还提供了一种敏感内容检测设备,包括:处理器21和存储器22。
其中,所述存储器22,用于存储计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例中公开的敏感内容检测方法。
其中,关于上述敏感内容检测方法的具体过程可以参考前述实施例中提供的相应内容,在此不再进行赘述。
进一步的,本公开实施例还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例中公开的敏感内容检测方法。
其中,关于上述敏感内容检测方法的具体过程可以参考前述实施例中提供的相应内容,在此不再进行赘述。
图8是根据一示例性实施例示出的一种电子设备20的框图。该电子设备20包括前述实施例中的处理器21和存储器22。该电子设备20还可以包括多媒体组件23,输入/输出(I/O)接口24,以及通信组件25中的一者或多者。
其中,处理器21用于控制该电子设备20的整体操作,以完成上述的敏感内容检测方法中的全部或部分步骤。存储器22用于存储各种类型的数据以支持在该电子设备20的操作,这些数据例如可以包括用于在该电子设备20上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件23可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器22或通过通信组件25发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口24为处理器21和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件25用于该电子设备20与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件25可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备20可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的敏感内容检测方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
最后,还需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (11)
1.一种敏感内容检测方法,其特征在于,包括:
对目标原文进行预处理,确定出所述目标原文的关键词;
确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;
确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;
根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;
利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。
2.根据权利要求1所述的敏感内容检测方法,其特征在于,所述对目标原文进行预处理,确定出所述目标原文的关键词,包括:
对目标原文进行分句、分词、去停用词和词性过滤处理,确定出所述目标原文的关键词。
3.根据权利要求1所述的敏感内容检测方法,其特征在于,所述根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重,包括:
根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的第一匹配度权重;
将最大的所述第一匹配度权重对应的所述预设敏感词确定为目标敏感词;
利用所述相似度、所述第一匹配度权重以及预设极限匹配比例,确定所述目标敏感词的第二匹配度权重,其中,所述预设极限匹配比例表示所述关键词中能与所述目标敏感词一致的目标关键词数量占关键词总数量的最大比例;
相应地,所述利用所述匹配度权重确定出所述目标原文的敏感度指数,包括:
利用所述目标敏感词的所述第一匹配度权重和所述第二匹配度权重确定出所述目标原文的敏感度指数。
4.根据权利要求3所述的敏感内容检测方法,其特征在于,所述确定所述关键词在预设滑动窗口内的共现关系,并根据所述共现关系确定所述关键词在所述目标原文中的重要度权重,包括:
确定所述关键词在预设滑动窗口内的共现关系;
根据所述共现关系构建所述目标原文的关键词共现关系网络图,其中,一个关键词为一个节点,存在所述共现关系的所述关键词之间彼此连接;
根据所述共现关系和第一预设公式迭代计算所述关键词的第一累加权重,直到所述第一累加权重收敛,并将收敛的所述第一累加权重确定为所述关键词在所述目标原文中的重要度权重,其中,所述第一预设公式为:
其中,WS1(vi)表示所述关键词共现关系网络图中的节点vi的所述第一累加权重,wji为表示节点vi与节点vj之间的表述共现关系的连接权重,当wji=1时,表示节点vi与节点vj之间存在共现关系,当wji=0时,表示节点vi与节点vj之间不存在共现关系,在第一次迭代计算时每个节点的第一累加权重初始值WS1(vi)均设置为1,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合,d为表示一个节点跳转到其他节点的概率的阻尼系数。
5.根据权利要求4所述的敏感内容检测方法,其特征在于,所述确定所述关键词之间以及预设敏感词与所述关键词之间的相似度,包括:
利用Word2vec技术确定所述关键词之间以及预设敏感词与所述关键词之间的相似度。
6.根据权利要求5所述的敏感内容检测方法,其特征在于,所述根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的第一匹配度权重,包括:
构建敏感词真实匹配网络图,其中,一个所述关键词或一个所述预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接;
根据相似度、所述重要度权重以及第二预设公式迭代计算所述预设敏感词和所述关键词的第二累加权重,直到所述第二累加权重收敛,并将收敛的、与所述预设敏感词对应的所述第二累加权重确定为所述预设敏感词和所述关键词之间的第一匹配度权重,其中,所述第二预设公式为:
其中,WS2(vi)表示所述敏感词真实匹配网络图中的节点vi的所述第二累加权重,sji为表示节点vi与节点vj之间的相似度的连接权重,在第一次迭代计算时每个关键词节点的第二累加权重初始值WS2(vi)均设置为对应的所述重要度权重,每个预设敏感词的第二累加权重初始值WS2(vi)均设置为0,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合。
7.根据权利要求6所述的敏感内容检测方法,其特征在于,所述利用所述相似度、所述第一匹配度权重以及预设极限匹配比例,确定所述目标敏感词的第二匹配度权重,包括:
根据预设极限匹配比例、所述相似度和所述关键词的数量,从所述关键词中确定出目标关键词;
如果所述目标匹配关键词与所述目标敏感词不一致,则将所述目标关键词与所述目标敏感词之间的所述相似度设置为1;
构建敏感词极限匹配网络图,其中,一个所述关键词或一个预设敏感词为一个节点,所述关键词之间彼此相连接,所述预设敏感词与各个所述关键词均有连接,且所述预设敏感词彼此之间没有连接;
利用所述相似度、所述第一匹配度权重和第三预设公式迭代计算所述预设敏感词和所述关键词的第三累加权重,直到所述第三累加权重收敛,并将收敛的、与所述目标敏感词对应的第三累加权重确定为第二匹配度权重,其中,所述第三预设公式为:
其中,WS3(vi)表示所述敏感词极限匹配网络图的节点vi的所述第三累加权重,sji为表示所述节点vi与节点vj之间的相似度的连接权重,在第一次迭代计算时每个关键词节点的第三累加权重初始值WS3(vi)均设置为对应的所述重要度权重,每个预设敏感词的第三累加权重初始值WS3(vi)均设置为0,In(vi)表示与节点vi有连接的所有节点集合,Out(vj)表示与节点vj有连接的所有节点集合。
9.一种敏感内容检测装置,其特征在于,包括:
关键词确定模块,用于对目标原文进行预处理,确定出所述目标原文的关键词;
共现关系确定模块,用于确定所述关键词在预设滑动窗口内的共现关系;
重要度权重确定模块,用于根据所述共现关系确定所述关键词在所述目标原文中的重要度权重;
相似度确定模块,用于确定所述关键词之间以及预设敏感词与所述关键词之间的相似度;
匹配度权重确定模块,用于根据所述相似度和所述重要度权重,确定所述预设敏感词与所述关键词之间的匹配度权重;
敏感度指数确定模块,用于利用所述匹配度权重确定出所述目标原文的敏感度指数,以确定所述目标原文是否是敏感内容。
10.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现权利要求1至8任一项所述的敏感内容检测方法。
11.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的敏感内容检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010455008.2A CN111597310B (zh) | 2020-05-26 | 2020-05-26 | 一种敏感内容检测方法、装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010455008.2A CN111597310B (zh) | 2020-05-26 | 2020-05-26 | 一种敏感内容检测方法、装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597310A true CN111597310A (zh) | 2020-08-28 |
CN111597310B CN111597310B (zh) | 2023-10-20 |
Family
ID=72187849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010455008.2A Active CN111597310B (zh) | 2020-05-26 | 2020-05-26 | 一种敏感内容检测方法、装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597310B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277083A (zh) * | 2022-06-23 | 2022-11-01 | 武汉联影医疗科技有限公司 | 数据传输控制方法、装置、***、计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及*** |
CN102426599A (zh) * | 2011-11-09 | 2012-04-25 | 中国人民解放军信息工程大学 | 基于d-s证据理论的敏感信息检测方法 |
CN103576882A (zh) * | 2012-07-27 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 非正常文本识别方法及其*** |
US8799287B1 (en) * | 2010-04-06 | 2014-08-05 | Symantec Corporation | Method and apparatus for categorizing documents containing sensitive information |
US20140283097A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Anonymizing Sensitive Identifying Information Based on Relational Context Across a Group |
WO2015127859A1 (en) * | 2014-02-25 | 2015-09-03 | Tencent Technology (Shenzhen) Company Limited | Sensitive text detecting method and apparatus |
CN109308295A (zh) * | 2018-09-26 | 2019-02-05 | 南京邮电大学 | 一种面向数据发布的隐私暴露实时监测方法 |
CN109800600A (zh) * | 2019-01-23 | 2019-05-24 | 中国海洋大学 | 面向保密需求的海洋大数据敏感度评估***及防范方法 |
CN110489757A (zh) * | 2019-08-26 | 2019-11-22 | 北京邮电大学 | 一种关键词提取方法及装置 |
-
2020
- 2020-05-26 CN CN202010455008.2A patent/CN111597310B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及*** |
US8799287B1 (en) * | 2010-04-06 | 2014-08-05 | Symantec Corporation | Method and apparatus for categorizing documents containing sensitive information |
CN102426599A (zh) * | 2011-11-09 | 2012-04-25 | 中国人民解放军信息工程大学 | 基于d-s证据理论的敏感信息检测方法 |
CN103576882A (zh) * | 2012-07-27 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 非正常文本识别方法及其*** |
US20140283097A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Anonymizing Sensitive Identifying Information Based on Relational Context Across a Group |
WO2015127859A1 (en) * | 2014-02-25 | 2015-09-03 | Tencent Technology (Shenzhen) Company Limited | Sensitive text detecting method and apparatus |
CN109308295A (zh) * | 2018-09-26 | 2019-02-05 | 南京邮电大学 | 一种面向数据发布的隐私暴露实时监测方法 |
CN109800600A (zh) * | 2019-01-23 | 2019-05-24 | 中国海洋大学 | 面向保密需求的海洋大数据敏感度评估***及防范方法 |
CN110489757A (zh) * | 2019-08-26 | 2019-11-22 | 北京邮电大学 | 一种关键词提取方法及装置 |
Non-Patent Citations (4)
Title |
---|
PAWAN GOYAL等: "A Context-Based Word Indexing Model for Document Summarization" * |
南奎娘若;安见才让;: "基于敏感信息的藏文文本摘要提取的研究", no. 04 * |
张培;党安荣;张远智;: "面向数字城市总体规划生态敏感信息图谱构建的GIS方法", 地理信息世界, no. 01 * |
金贵涛等: "一种基于Word2vec的敏感内容识别技术", pages 2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277083A (zh) * | 2022-06-23 | 2022-11-01 | 武汉联影医疗科技有限公司 | 数据传输控制方法、装置、***、计算机设备 |
CN115277083B (zh) * | 2022-06-23 | 2024-03-22 | 武汉联影医疗科技有限公司 | 数据传输控制方法、装置、***、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111597310B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
Neal et al. | Surveying stylometry techniques and applications | |
CN111371806B (zh) | 一种Web攻击检测方法及装置 | |
WO2020001373A1 (zh) | 一种本体构建方法及装置 | |
Peng et al. | Bit-level n-gram based forensic authorship analysis on social media: Identifying individuals from linguistic profiles | |
WO2020082560A1 (zh) | 文本关键词提取方法、装置、设备及计算机可读存储介质 | |
CN107168954B (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
CN111951805A (zh) | 一种文本数据处理方法及装置 | |
CN109918660B (zh) | 一种基于TextRank的关键词提取方法和装置 | |
CN108628834B (zh) | 一种基于句法依存关系的词语表示学习方法 | |
CN110516210B (zh) | 文本相似度的计算方法和装置 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
US8386238B2 (en) | Systems and methods for evaluating a sequence of characters | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
US20230076387A1 (en) | Systems and methods for providing a comment-centered news reader | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN110162771A (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN113360646A (zh) | 基于动态权重的文本生成方法、设备及存储介质 | |
CN112836039B (zh) | 基于深度学习的语音数据处理方法和装置 | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
KR20210074023A (ko) | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 | |
CN110705282A (zh) | 关键词提取方法、装置、存储介质及电子设备 | |
CN111597310B (zh) | 一种敏感内容检测方法、装置、设备、介质 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN117009832A (zh) | 异常命令的检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |