CN109145283A - 一种人工智能的敏感信息检测方法 - Google Patents
一种人工智能的敏感信息检测方法 Download PDFInfo
- Publication number
- CN109145283A CN109145283A CN201710459979.2A CN201710459979A CN109145283A CN 109145283 A CN109145283 A CN 109145283A CN 201710459979 A CN201710459979 A CN 201710459979A CN 109145283 A CN109145283 A CN 109145283A
- Authority
- CN
- China
- Prior art keywords
- phrase
- sensitive
- sensitive keys
- text
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种人工智能的敏感信息检测方法,该方法包括如下步骤:A.人工分组敏感关键词组、B.按算法对敏感关键词组继续分组、C.人工介入机器学***行计算方法,能够快速检测中文文本中是否包含敏感信息;并且通过人工介入机器学习完善敏感关键词组及特征关键词组,以减少漏报和误报。
Description
技术领域
本发明涉及多模式匹配算法、自然语言处理及人工智能技术领域,更具体的说是涉及一种基于择优的多模式匹配算法及人工智能的敏感信息检测方法。
背景技术
敏感关键词是敏感信息的必要不充分条件,即含有敏感信息的文本中一定包含有敏感关键词,但含有敏感关键词的文本中不一定含有敏感信息。目前社会上的主流技术主要包括两种:一种是基于多模式匹配算法精确的检测出敏感关键词;另一种是基于搜索引擎技术的模糊匹配敏感信息。
多模式匹配算法一般采用Wu-Manber算法或者Aho-Corasick算法及其衍生算法。Wu-Manber算法的优点是占用内存少、平均匹配速度快;缺点是最差情况(哈希表冲突大时)及大量短关键词时的匹配速度慢;Aho-Corasick算法的优点是匹配速度与关键词总数呈线性关系,不受关键词的长短影响;缺点是内存占用量大;多模式匹配算法是精确的关键词匹配,虽然速度快,但是匹配到敏感关键词并不意味着文本含有敏感信息,故此类方法将导致大量误报。
搜索引擎技术是对中文文本创建检索后逐一根据敏感关键词的模糊匹配规则检测是否含有敏感信息。此方法的优点是当匹配规则完善时可消除误报、漏报;缺点是由于实际应用中模糊匹配的规则即难以做到准确、完善亦需要具备编写匹配规则的专业人士,创建、维护匹配规则的效率低,而且由于大量的匹配规则及所有文本需要创建检索,导致在实际应用中匹配速度极慢。
因此,如何提供一种运用计算机应用程序快速、准确检测出敏感信息的方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种人工智能的敏感信息检测方法,本发明通过分组敏感关键词、创建敏感关键词关联的特征关键词、选择最优的多模式匹配算法和运用平行计算方法,能够快速检测中文文本中是否包含敏感信息;并且通过人工介入机器学习完善敏感关键词组及特征关键词组,以减少漏报和误报。
为了达到上述目的,本发明采用如下技术方案:
一种人工智能的敏感信息检测方法,包括如下步骤:
A.人工分组敏感关键词组:人工创建敏感关键词组,并根据敏感关键词组与敏感信息的关系将所述敏感关键词组分为充要条件敏感关键词组和必要不充分条件敏感关键词组;
B.按算法对敏感关键词组继续分组:根据步骤A中的敏感关键词组的长度以及运用Wu-Manber算法时的哈希表中冲突的敏感关键词组将敏感关键词组分为Wu-Manber(WM)算法词组和Aho-Corasick(AC)算法词组;
C.人工介入机器学***行匹配文本,截取文本中匹配的必要不充分敏感关键词组前后一定字数的子文本;
D.应用程序检测:分别对经步骤A和步骤B得到的WM算法词组和AC算法词组采用WM算法及AC算法平行匹配待检测文本,以判断所述待检测文本是否含敏感信息。
优选的,步骤A中,所述敏感关键词组与敏感信息的关系指的是敏感关键词组是敏感信息的必要不充分条件,即含有敏感信息的文本中一定包含有敏感关键词组,但含有敏感关键词组的文本中不一定含有敏感信息。
优选的,步骤B中,所述Wu-Manber(WM)算法词组包括充要条件WM敏感关键词组和必要不充分条件WM敏感关键词组;所述Aho-Corasick(AC)算法词组包括充要条件AC敏感关键词组和必要不充分条件AC敏感关键词组。
优选的,步骤B中,所述敏感关键词组的字数小于等于4则归入AC算法词组,剩余的敏感关键词组按照WM算法构建SHIFT、HASH、PREFIX三个表,并将具有相同哈希值的敏感关键词组中字数少的词组归入AC算法词组。
优选的,步骤C中,将所述敏感关键词组对应的特征关键词及安全词分别与所述子文本比对,如果匹配成功则从所述子文本中删除,所述子文本剩余的字词由人工判断是否为所述必要不充分敏感关键词组的特征关键词或安全词,并分别将所述字词加入到相应的词组内。
优选的,步骤D中待检测文本是否含敏感信息的评判方式包括:文本中检测到充要条件敏感关键词组,则此文本含敏感信息;文本中未检测到敏感关键词组,则此文本不含敏感信息。
优选的,文本中检测到必要不充分条件敏感关键词组,则在敏感关键词组前后截取一定字数的子文本,再利用此敏感关键词组的特征关键词匹配子文本;如果所述子文本中检测到特征关键词,则此文本含敏感信息,如果所述子文本中未检测到特征关键词,则此文本不含敏感信息。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种人工智能的敏感信息检测方法,不仅解决了在中文文本信息中如何运用计算机应用程序快速地、准确地检测出敏感信息,而且本发明的应用领域包括互联网信息、邮件、短信中违法违规有害信息的屏蔽、过滤、拦截和检测,以及关注领域舆情信息的提取和预警;
并且本发明利用多模式匹配算法中Wu-Manber算法与Aho-Corasick算法各自的优点,将敏感关键词分为两组分别运用Wu-Manber算法与Aho-Corasick算法对中文文本匹配,根据敏感关键词与敏感信息的关系进而将每组敏感关键词分为敏感信息的充要条件组和必要不充分条件组,如果因内存限制导致算法无法加载敏感关键词组,则将敏感关键词组继续分组后运用相应算法结合平行计算方法在计算机集群中匹配中文文本;
另外如果中文文本中含有充要条件组的敏感关键词,则此文本含有敏感信息,否则将对匹配到必要不充分条件组的敏感关键词的文本做进一步分析,必要不充分条件组中每一敏感关键词都对应一组特征关键词,截取敏感关键词前后固定长度的一段文本,运用多模式匹配算法,如果匹配到特征关键词,则此文本含敏感信息;
其中的特征关键词是人工介入不断学习创建的,创建方法是在大量含敏感信息的文本中,在必要不充分条件组的敏感关键词前后一定长度的文本内选出特征关键词。
本发明集精确、快速于一体,不仅能够对海量中文文本信息中的敏感信息快速的检测,还能通过人工智能技术不断完善检测的准确性,以减少漏报和误报。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为该人工智能的敏感信息检测方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案做出清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种人工智能的敏感信息检测方法,其目的是实现对海量中文文本信息中的敏感信息的快速检测,通过人工智能技术不断完善检测的准确性,以减少漏报和误报。
请参见附图1,本发明具体提供的一种人工智能的敏感信息检测方法,包括如下步骤:
A.人工分组敏感关键词组:人工创建敏感关键词组,并根据敏感关键词组与敏感信息的关系将所述敏感关键词组分为充要条件敏感关键词组和必要不充分条件敏感关键词组;
敏感关键词组将随着新的含有敏感信息的文本不断被发现,进而不断扩充、完善。
B.按算法对敏感关键词组继续分组:根据步骤A中的敏感关键词组的长度以及运用Wu-Manber算法时的哈希表中冲突的敏感关键词组将敏感关键词组分为Wu-Manber(WM)算法词组和Aho-Corasick(AC)算法词组;
敏感关键词组的字数小于等于4则归入AC算法词组,剩余的敏感关键词组按照WM算法构建SHIFT、HASH、PREFIX三个表,并将具有相同哈希值的敏感关键词组中字数少的词组归入AC算法词组。
C.人工介入机器学***行匹配文本,截取文本中匹配的必要不充分敏感关键词组前后一定字数(如前后各15个字)的子文本;
将此敏感关键词组对应的特征关键词及安全词分别与此段子文本比对,如果匹配成功则从子文本中删除,子文本剩余的字词由人工判断是否为此必要不充分敏感关键词组的特征关键词或安全词,并分别将此字词加入到相应的词组内
D.应用程序检测:分别对经步骤A和步骤B得到的WM算法词组和AC算法词组采用WM算法及AC算法平行匹配待检测文本,以判断待检测文本是否含敏感信息。
如果文本中检测到充要条件敏感关键词组,则此文本含敏感信息;如果文本中未检测到敏感关键词组,则此文本不含敏感信息;如果文本中检测到必要不充分条件敏感关键词组,则在敏感关键词组前后截取一定字数的子文本,再利用此敏感关键词组的特征关键词匹配子文本;如果子文本中检测到特征关键词,则此文本含敏感信息;如果子文本中未检测到特征关键词,则此文本不含敏感信息。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种人工智能的敏感信息检测方法,其特征在于,包括如下步骤:
A.人工分组敏感关键词组:人工创建敏感关键词组,并根据敏感关键词组与敏感信息的关系将所述敏感关键词组分为充要条件敏感关键词组和必要不充分条件敏感关键词组;
B.按算法对敏感关键词组继续分组:根据步骤A中的敏感关键词组的长度以及运用Wu-Manber算法时的哈希表中冲突的敏感关键词组将敏感关键词组分为Wu-Manber(WM)算法词组和Aho-Corasick(AC)算法词组;
C.人工介入机器学***行匹配文本,截取文本中匹配的必要不充分敏感关键词组前后一定字数的子文本;
D.应用程序检测:分别对经步骤A和步骤B得到的WM算法词组和AC算法词组采用WM算法及AC算法平行匹配待检测文本,以判断所述待检测文本是否含敏感信息。
2.根据权利要求1所述的一种人工智能的敏感信息检测方法,其特征在于,步骤A中,所述敏感关键词组与敏感信息的关系指的是敏感关键词组是敏感信息的必要不充分条件,即含有敏感信息的文本中一定包含有敏感关键词组,但含有敏感关键词组的文本中不一定含有敏感信息。
3.根据权利要求1所述的一种人工智能的敏感信息检测方法,其特征在于,步骤B中,所述Wu-Manber(WM)算法词组包括充要条件WM敏感关键词组和必要不充分条件WM敏感关键词组;所述Aho-Corasick(AC)算法词组包括充要条件AC敏感关键词组和必要不充分条件AC敏感关键词组。
4.根据权利要求1所述的一种人工智能的敏感信息检测方法,其特征在于,步骤B中,所述敏感关键词组的字数小于等于4则归入AC算法词组,剩余的敏感关键词组按照WM算法构建SHIFT、HASH、PREFIX三个表,并将具有相同哈希值的敏感关键词组中字数少的词组归入AC算法词组。
5.根据权利要求1所述的一种人工智能的敏感信息检测方法,其特征在于,步骤C中,将所述敏感关键词组对应的特征关键词及安全词分别与所述子文本比对,如果匹配成功则从所述子文本中删除,所述子文本剩余的字词由人工判断是否为所述必要不充分敏感关键词组的特征关键词或安全词,并分别将所述字词加入到相应的词组内。
6.根据权利要求1所述的一种人工智能的敏感信息检测方法,其特征在于,步骤D中待检测文本是否含敏感信息的评判方式包括:文本中检测到充要条件敏感关键词组,则此文本含敏感信息;文本中未检测到敏感关键词组,则此文本不含敏感信息。
7.根据权利要求6所述的一种人工智能的敏感信息检测方法,其特征在于,文本中检测到必要不充分条件敏感关键词组,则在敏感关键词组前后截取一定字数的子文本,再利用此敏感关键词组的特征关键词匹配子文本;如果所述子文本中检测到特征关键词,则此文本含敏感信息,如果所述子文本中未检测到特征关键词,则此文本不含敏感信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710459979.2A CN109145283B (zh) | 2017-06-17 | 2017-06-17 | 一种人工智能的敏感信息检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710459979.2A CN109145283B (zh) | 2017-06-17 | 2017-06-17 | 一种人工智能的敏感信息检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145283A true CN109145283A (zh) | 2019-01-04 |
CN109145283B CN109145283B (zh) | 2022-03-15 |
Family
ID=64830784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710459979.2A Active CN109145283B (zh) | 2017-06-17 | 2017-06-17 | 一种人工智能的敏感信息检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145283B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030221A (zh) * | 2007-04-13 | 2007-09-05 | 清华大学 | 一种用于文本或网络内容分析的大规模多关键词匹配方法 |
CN103186669A (zh) * | 2013-03-21 | 2013-07-03 | 厦门雅迅网络股份有限公司 | 关键词快速过滤方法 |
US20150310014A1 (en) * | 2013-04-28 | 2015-10-29 | Verint Systems Ltd. | Systems and methods for keyword spotting using adaptive management of multiple pattern matching algorithms |
CN105426412A (zh) * | 2015-11-03 | 2016-03-23 | 北京锐安科技有限公司 | 多模式的串匹配方法和装置 |
US20170116351A1 (en) * | 2015-10-22 | 2017-04-27 | Verint Systems Ltd. | System and method for keyword searching using both static and dynamic dictionaries |
-
2017
- 2017-06-17 CN CN201710459979.2A patent/CN109145283B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030221A (zh) * | 2007-04-13 | 2007-09-05 | 清华大学 | 一种用于文本或网络内容分析的大规模多关键词匹配方法 |
CN103186669A (zh) * | 2013-03-21 | 2013-07-03 | 厦门雅迅网络股份有限公司 | 关键词快速过滤方法 |
US20150310014A1 (en) * | 2013-04-28 | 2015-10-29 | Verint Systems Ltd. | Systems and methods for keyword spotting using adaptive management of multiple pattern matching algorithms |
US20170116351A1 (en) * | 2015-10-22 | 2017-04-27 | Verint Systems Ltd. | System and method for keyword searching using both static and dynamic dictionaries |
CN105426412A (zh) * | 2015-11-03 | 2016-03-23 | 北京锐安科技有限公司 | 多模式的串匹配方法和装置 |
Non-Patent Citations (2)
Title |
---|
GEN-ZHEN YU 等: ""A Multi-pattern Matching Algorithm Based on WM Algorithm"", 《管理科學與統計決策 》 * |
朱永强 等: ""中文多模式匹配算法性能的分析与研究"", 《计算机技术与发展》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109145283B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Potthast et al. | Overview of the 2nd international competition on plagiarism detection | |
CN106294350B (zh) | 一种文本聚合方法及装置 | |
Menai | Detection of plagiarism in Arabic documents | |
CN105072214B (zh) | 基于域名特征的c&c域名识别方法 | |
US9519718B2 (en) | Webpage information detection method and system | |
CN105912514B (zh) | 基于指纹特征的文本复制检测***及方法 | |
CA2743273C (en) | Method and device for intercepting junk mail | |
CN102446255B (zh) | 一种检测页面篡改的方法及装置 | |
CN111581355A (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
CN106250769A (zh) | 一种多级过滤的源代码数据检测方法及装置 | |
CN107871002B (zh) | 一种基于指纹融合的跨语言剽窃检测方法 | |
CN105677661A (zh) | 一种检测社交媒体重复数据的方法 | |
CN105589894B (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
CN109492118A (zh) | 一种数据检测方法及检测装置 | |
CN106951530A (zh) | 一种事件类型抽取方法和装置 | |
CN104050299A (zh) | 一种论文查重的方法 | |
Wu et al. | Efficient near-duplicate detection for q&a forum | |
US10970489B2 (en) | System for real-time expression of semantic mind map, and operation method therefor | |
CN104346382B (zh) | 使用语言查询的文本分析***和方法 | |
CN110019674A (zh) | 一种文本抄袭检测方法及*** | |
CN104036189A (zh) | 页面篡改检测方法及黑链数据库生成方法 | |
CN113590421A (zh) | 日志模板提取方法、程序产品及存储介质 | |
Wurzenberger et al. | Creating character-based templates for log data to enable security event classification | |
WO2010149986A2 (en) | A method, a computer program and apparatus for analysing symbols in a computer | |
CN101604365A (zh) | 确定计算机恶意程序样本家族数的***和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230616 Address after: 226000 No. 500, Linyang Road, Qidong Economic Development Zone, Nantong City, Jiangsu Province Patentee after: Qidong Haisheng Marine Technology Co.,Ltd. Address before: 410000 738, building 4, district D6, Yulan Road, Yuelu District, Changsha City, Hunan Province Patentee before: Huang Gang |
|
TR01 | Transfer of patent right |