CN116226315A - 基于人工智能的敏感信息检测方法、装置及相关设备 - Google Patents

基于人工智能的敏感信息检测方法、装置及相关设备 Download PDF

Info

Publication number
CN116226315A
CN116226315A CN202310136673.9A CN202310136673A CN116226315A CN 116226315 A CN116226315 A CN 116226315A CN 202310136673 A CN202310136673 A CN 202310136673A CN 116226315 A CN116226315 A CN 116226315A
Authority
CN
China
Prior art keywords
sensitive information
file
sensitive
word
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310136673.9A
Other languages
English (en)
Inventor
高星
韩伟
邓坤
王建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310136673.9A priority Critical patent/CN116226315A/zh
Publication of CN116226315A publication Critical patent/CN116226315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,提供一种基于人工智能的敏感信息检测方法、装置及相关设备,所述方法包括:获取第一文件;对第一文件进行解析,得到第二文件;对第二文件进行敏感信息检测,得到第一敏感信息集;将第一文件及第一敏感信息集输入预先训练好的语义分类模型中,输出每个第一敏感信息的类别;根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集;根据第二敏感信息集及第一文件的文件类型,确定第一文件的检测结果。本申请根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集,将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。

Description

基于人工智能的敏感信息检测方法、装置及相关设备
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于人工智能的敏感信息检测方法、装置及相关设备。
背景技术
敏感文件检测是安全领域的重要内容,现有技术一般采用敏感信息识别***检测敏感信息。
然而,目前敏感信息识别***大部分已经产品化,无法识别出个性化敏感信息,导致敏感信息检测准确率低。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的敏感信息检测方法、装置及相关设备,根据第一敏感信息集的每个第一敏感信息的类别,确定第二敏感信息集,将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
本申请的第一方面提供一种基于人工智能的敏感信息检测方法,所述方法包括:
响应于接收到的文件检测请求,获取第一文件;
对所述第一文件进行解析,得到第二文件;
对所述第二文件进行敏感信息检测,得到第一敏感信息集;
将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;
根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;
根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
可选地,所述对所述第二文件进行敏感信息检测,得到第一敏感信息集包括:
采用正则匹配表达式对所述第二文件进行敏感信息检测,得到第一信息,同时将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息;
对所述第一信息和所述第二信息进行去重处理,得到第一敏感信息集。
可选地,在所述将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息之前,所述方法还包括:
获取预设的多个主题;
从预设的多个数据源获取每个所述主题的第一词库;
采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库;
将所述多个主题的多个第二词库中的相同的敏感词进行剔除,得到第三词库;
对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库;
将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库。
可选地,所述采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库包括:
从预设的开源数据库中获取每个所述主题的敏感词;
将每个所述主题的敏感词添加至每个所述主题的第一词库中,得到每个所述主题的第二词库。
可选地,所述对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库包括:
使用预设模块读取所述第三词库中的每个所述敏感词的词向量,查询预设词向量集中的所有词;
获取查询到的每个所述敏感词对应的相似词;
将每个所述敏感词对应的相似词添加至所述第三词库中,得到第四词库。
可选地,所述根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集包括:
获取每个所述第一敏感信息的类别对应的敏感分计算规则,并根据所述敏感分计算规则计算对应第一敏感信息的敏感分值;
对所述敏感分值进行降序排序;
从所述排序结果中选取排序在前的多个敏感分值对应的多个第一敏感信息确定为第二敏感信息集。
可选地,所述根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果包括:
当所述第一文件的文件类型为预设类型时,获取所述第二文件中数值型数据对应的处理规则,基于所述处理规则对所述第二文件进行处理,得到目标文件,并对所述目标文件中的数值型数据进行敏感信息检测,得到第三敏感信息集,将所述第二敏感信息集和所述第三敏感信息集确定为所述第一文件的检测结果;
当所述第一文件的文件类型不为预设类型时,将所述第二敏感信息集确定为所述第一文件的检测结果。
本申请的第二方面提供一种基于人工智能的敏感信息检测装置,所述装置包括:
获取模块,用于响应于接收到的文件检测请求,获取第一文件;
解析模块,用于对所述第一文件进行解析,得到第二文件;
检测模块,用于对所述第二文件进行敏感信息检测,得到第一敏感信息集;
输出模块,用于将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;
第一确定模块,用于根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;
第二确定模块,用于根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
本申请的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的敏感信息检测方法。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的敏感信息检测方法。
综上所述,本申请所述的基于人工智能的敏感信息检测方法、装置及相关设备,能够推动智慧城市的建设,应用于智慧建筑、智慧安防、智慧社区、智慧生活、物联网等领域,通过对所述第一文件进行解析,得到第二文件,将第一文件解析为统一格式,在敏感信息检测过程中减少了格式不统一所带来的格式干扰。对所述第二文件进行敏感信息检测,得到第一敏感信息集,在得到第一敏感信息集时考虑了创建的敏感词数据库,确保了获取的第一敏感信息集的完整性,减少了敏感信息的漏报和误报,提高了后续敏感信息检测的准确率。通过根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集,在确定第二敏感信息集过程中,根据每个所述第一敏感信息的类别对应的敏感分计算规则计算每个敏感信息的敏感分值,更加具有针对性,确保了计算的敏感分值的准确率,同时保留满足条件的多个第一敏感信息确定为第二敏感信息集,剔除掉不满足条件的多个第一敏感信息,即将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
附图说明
图1是本申请实施例一提供的基于人工智能的敏感信息检测方法的流程图。
图2是本申请实施例二提供的基于人工智能的敏感信息检测装置的结构图。
图3是本申请实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
实施例一
图1是本申请实施例一提供的基于人工智能的敏感信息检测方法的流程图。
在本实施例中,所述基于人工智能的敏感信息检测方法可以应用于电子设备中,对于需要进行基于人工智能的敏感信息检测的电子设备,可以直接在电子设备上集成本申请的方法所提供的基于人工智能的敏感信息检测的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
如图1所示,所述基于人工智能的敏感信息检测方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
101,响应于接收到的文件检测请求,获取第一文件。
本实施例中,敏感文件检测是安全领域的重要内容,为了避免重要信息及保密信息以各种形式散播出去,需要对邮件外发的文件、打印的文件等进行敏感信息检测。
本实施例中,响应于接收到文件检测请求时,解析所述文件检测请求,获取所述文件检测请求的报文,并从所述报文中获取待检测文件,即第一文件。
102,对所述第一文件进行解析,得到第二文件。
本实施例中,为了提高后续敏感信息检测效率,将所述第一文件转换为统一格式文件,即第二文件。
在一个可选的实施例中,所述对所述第一文件进行解析,得到第二文件包括:
识别所述第一文件的文件类型;
获取所述文件类型的解析规则;
基于所述解析规则对所述第一文件进行解析,得到第二文件。
进一步地,所述基于所述解析规则对所述第一文件进行解析,得到第二文件包括:
基于所述解析规则将所述第一文件转换为字符串,将转换后的字符串确定为第二文件。
本实施例中,所述文件类型包括有多种,例如,不同版本的office文档(word、excel、ppt)、pdf、邮件格式(eml、msg)、压缩格式(rar、zip、gz、7z)以及加密文档等。
示例性地,若文件类型为pdf文档,对应的解析规则为检测所述pdf文档是否提供txt转换,当存在txt转换时,将所述PDF文档转换为txt,将所述txt中的内容转换为字符串;当不存在txt转换时,使用预设的工具自动从PDF文档中提取内容,将提取的内容转换为字符串,其中,所述预设的工具可以为Amazon Textract,所述Amazon Textract自动从PDF文档中提取内容(例如,打印的文本、表单和表格)。
本实施例中,每种文件类型对应有解析规则,根据对应的解析规则,将所述第一文件的文件内容中的不同编码格式进行统一转换,避免了敏感信息检测过程中,由于格式不统一所带来的格式干扰,提高了敏感信息检测的效率及准确率。
103,对所述第二文件进行敏感信息检测,得到第一敏感信息集。
本实施例中,所述敏感信息检测是指检测所述第二文件中的敏感信息,例如,手机号码、身份证号码、薪酬等。
在一个可选的实施例中,所述对所述第二文件进行敏感信息检测,得到第一敏感信息集包括:
采用正则匹配表达式对所述第二文件进行敏感信息检测,得到第一信息,同时将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息;
对所述第一信息和所述第二信息进行去重处理,得到第一敏感信息集。
本实施例中,所述正则匹配表达式预先存储在数据库中,通过从所述数据库中获取正则匹配表达式。
本实施例中,所述第一信息是指通过正则匹配表达式从第二文件中匹配得到的敏感信息;所述第二信息是指从创建的敏感词数据库中获取的与第二文件匹配的敏感信息。
在一个可选的实施例中,在所述将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息之前,创建敏感词数据库,具体地,所述敏感词数据库的创建过程包括:
获取预设的多个主题;
从预设的多个数据源获取每个所述主题的第一词库;
采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库;
将所述多个主题的多个第二词库中的相同的敏感词进行剔除,得到第三词库;
对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库;
将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库。
进一步地,所述采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库包括:
从预设的开源数据库中获取每个所述主题的敏感词;
将每个所述主题的敏感词添加至每个所述主题的第一词库中,得到每个所述主题的第二词库。
本实施例中,所述预设的开源词库可以为A开源词库,从所述A开源词库中获取每个主题的敏感词,并添加至对应的第一词库中,从主题维度考虑对敏感词进行了第一次扩充。
进一步地,所述对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库包括:
使用预设模块读取所述第三词库中的每个所述敏感词的词向量,查询预设词向量集中的所有词;
获取查询到的每个所述敏感词对应的相似词;
将每个所述敏感词对应的相似词添加至所述第三词库中,得到第四词库。
本实施例中,所述预设模块可以为gensim模块,所述gensim模块是一种通过检查词汇模式发现文档语义结构的工具,支持分布式训练,提供了相似度计算、信息检索等一些常用的API接口,通过相似度计算的API接口可以实现每个所述敏感性的相似词查询,无需单独将每个敏感词与预设词向量中的每个词进行相似度计算,提高了敏感词对应的相似词的获取效率。
本实施例中,所述预设词向量集可以为A词向量集,从所述预设词向量集中获取每个所述敏感性对应的相似词,从相似词维度考虑对敏感词进行了第二次扩充。
在其他可选的实施例中,查询所述第三词库中的每个所述敏感词对应的相似词还可以包括:基于所述第三词库中的每个敏感词及每个敏感词的词向量构建词汇和索引的映射表,并将所述映射表采用JSON格式进行离线保存;基于预设词向量集中的所有词构建Annoy索引;根据所述映射表中的每个词汇,逐个查询所述Annoy索引中的每个词向量,返回查询结果,其中,所述查询结果中包含有索引元素;基于所述索引元素从所述预设词向量集中获取对应敏感词的相似词。
本实施例中,Annoy(Approximate Nearest Neighbors Oh Yeah)是Spotify开源的一个用于近似最近邻查询的C++/Python工具,对内存使用进行了优化,索引可以在硬盘保存或者加载,通过基于预设词向量集中的所有词构建Annoy索引,当这些预设词向量被映射到向量空间后,能够快速的查询到每个预设词向量的最近邻,即相似词,提高了相似词的查询效率。
在其他可选的实施例中,所述将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库包括:获取每个主题位于所述预设的数据库中的位置信息,及根据所述位置信息对所述第四词库中的敏感词进行映射,得到敏感词数据库。
本实施例中,映射是指将所述第三词库中的每个敏感词写入到所述预设的数据库的对应位置。
本实施例中,在创建敏感词数据库的过程中,从敏感词对应的主题维度及近义词两个维度考虑,对敏感词进行扩充,确保了创建的敏感词数据库中的敏感词的完整性。
本实施例中,在得到第一敏感信息集时考虑了创建的敏感词数据库,确保了获取的第一敏感信息集的完整性,减少了敏感信息的漏报和误报,提高了后续敏感信息检测的准确率。
104,将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别。
本实施例中,敏感信息可以为第一敏感信息,也可以为第二敏感信息,所述敏感信息的类别可以包含有会议类别、业务员类别、薪酬类别、简历类别等。
本实施例中,可以预先训练语义分类模型,具体地,所述语义分类模型的训练过程包括:
获取多个类别的文件及每个类别的文件对应的历史敏感信息;
通过对所述历史敏感信息进行分词处理,得到分词语句;
通过词向量提取模型提取所述分词语句的词向量,并根据所述词向量获取所述分词语句的句向量;
将所述多个类别的多个句向量作为样本集;
从所述样本集中划分出训练集和测试集;
将所述训练集输入初始语义分类模型中进行训练,得到语义分类模型;
将所述测试集输入至所述语义分类模型中进行测试,并计算测试通过率;
将所述测试通过率与预设的通过率阈值进行比对;
当所述测试通过率大于或者等于预设通过率阈值,确定所述语义分类模型训练结束,得到训练好的语义分类模型。
进一步地,当所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行语义分类模型的训练。
本实施例中,由于在中文中存在一字多义的问题,即同一个字在不同的词语中的含义可能完全不同,因此直接对历史敏感信息采用语义分类模型进行分类,会导致分类不准确的问题,故在进行分类前,采用分词处理模型对每个类别的文件对应的历史敏感信息进行分词处理,以获取历史敏感信息本意的分词语句,提高了敏感信息分类的准确度。
本实施例中,词向量提取模型,用于将分词语句以向量形式进行表示,以更适合计算机处理,在获取分词完成语句后,通过词向量提取模型,将分词语句转化为向量模式,以获取分词语句的句向量,提高了语义分类模型的分类速度。
本实施例中,采用训练好的预先训练好的语义分类模型对所述第一文件及所述第一敏感信息集中的每个所述第一敏感信息进行分类,提高了分类的准确率和效率。
105,根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集。
本实施例中,所述第一文件中可以包含有至少一个类别的敏感信息。
在一个可选的实施例中,所述根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集包括:
获取每个所述第一敏感信息的类别对应的敏感分计算规则,并根据所述敏感分计算规则计算对应第一敏感信息的敏感分值;
对所述敏感分值进行降序排序;
从所述排序结果中选取排序在前的多个敏感分值对应的多个第一敏感信息确定为第二敏感信息集。
本实施例中,通过根据每个所述第一敏感信息的类别对应的敏感分计算规则计算每个敏感信息的敏感分值,更加具有针对性,确保了计算的敏感分值的准确率,同时保留满足条件的多个第一敏感信息确定为第二敏感信息集,剔除掉不满足条件的多个第一敏感信息,即将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
106,根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
本实施例中,所述第一文件的文件类型可以为预设类型,也可以不为预设类型。
在一个可选的实施例中,所述根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果包括:
当所述第一文件的文件类型为预设类型时,获取所述第二文件中数值型数据对应的处理规则,基于所述处理规则对所述第二文件进行处理,得到目标文件,并对所述目标文件中的数值型数据进行敏感信息检测,得到第三敏感信息集,将所述第二敏感信息集和所述第三敏感信息集确定为所述第一文件的检测结果;
当所述第一文件的文件类型不为预设类型时,将所述第二敏感信息集确定为所述第一文件的检测结果。
本实施例中,可以预先设置预设类型,具体地,所述预设类型可以设置为EXCEl类型,本申请实施例在此不做限制。
本实施例中,由于EXCEl格式文件中存在特殊数值计算需求,当所述第一文件的文件类型为EXCEl格式文件时,需要对所述第一文件按照处理规则进行重新处理,得到目标文件,对目标文件重新进行敏感信息检测。
示例性的,针对主题为薪酬的文件,大部分都是EXCEL格式文件,并且文件中存在较多数值型数据,例如,身份证号码、手机号码等。若EXCEl格式文件中的身份证号码对应的数值格式设置为显示6位数值,无法将身份证号码作为敏感信息检测出来,导致敏感信息检测的准确率低。
本申请实施例中,通过获取EXCEL格式文件中数值型数据对应的处理规则,基于所述处理规则对所述第二文件进行处理,例如,可以将身份证号码对应的数据格式设置为显示18位数值后重新进行敏感信息检测,可以将身份证号码作为敏感信息检测出来,提高了敏感信息检测的准确性。
综上所述,本实施例所述的基于人工智能的敏感信息检测方法,通过对所述第一文件进行解析,得到第二文件,将第一文件解析为统一格式,在敏感信息检测过程中减少了格式不统一所带来的格式干扰。对所述第二文件进行敏感信息检测,得到第一敏感信息集,在得到第一敏感信息集时考虑了创建的敏感词数据库,确保了获取的第一敏感信息集的完整性,减少了敏感信息的漏报和误报,提高了后续敏感信息检测的准确率。通过根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集,在确定第二敏感信息集过程中,根据每个所述第一敏感信息的类别对应的敏感分计算规则计算每个敏感信息的敏感分值,更加具有针对性,确保了计算的敏感分值的准确率,同时保留满足条件的多个第一敏感信息确定为第二敏感信息集,剔除掉不满足条件的多个第一敏感信息,即将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
实施例二
图2是本申请实施例二提供的基于人工智能的敏感信息检测装置的结构图。
在一些实施例中,所述基于人工智能的敏感信息检测装置20可以包括多个由程序代码段所组成的功能模块。所述基于人工智能的敏感信息检测装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)基于人工智能的敏感信息检测的功能。
本实施例中,所述基于人工智能的敏感信息检测装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、解析模块202、检测模块203、输出模块204、第一确定模块205及第二确定模块206。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
获取模块201,用于响应于接收到的文件检测请求,获取第一文件。
本实施例中,敏感文件检测是安全领域的重要内容,为了避免重要信息及保密信息以各种形式散播出去,需要对邮件外发的文件、打印的文件等进行敏感信息检测。
本实施例中,响应于接收到文件检测请求时,解析所述文件检测请求,获取所述文件检测请求的报文,并从所述报文中获取待检测文件,即第一文件。
解析模块202,用于对所述第一文件进行解析,得到第二文件。
本实施例中,为了提高后续敏感信息检测效率,将所述第一文件转换为统一格式文件,即第二文件。
在一个可选的实施例中,所述解析模块202对所述第一文件进行解析,得到第二文件包括:
识别所述第一文件的文件类型;
获取所述文件类型的解析规则;
基于所述解析规则对所述第一文件进行解析,得到第二文件。
进一步地,所述基于所述解析规则对所述第一文件进行解析,得到第二文件包括:
基于所述解析规则将所述第一文件转换为字符串,将转换后的字符串确定为第二文件。
本实施例中,所述文件类型包括有多种,例如,不同版本的office文档(word、excel、ppt)、pdf、邮件格式(eml、msg)、压缩格式(rar、zip、gz、7z)以及加密文档等。
示例性地,若文件类型为pdf文档,对应的解析规则为检测所述pdf文档是否提供txt转换,当存在txt转换时,将所述PDF文档转换为txt,将所述txt中的内容转换为字符串;当不存在txt转换时,使用预设的工具自动从PDF文档中提取内容,将提取的内容转换为字符串,其中,所述预设的工具可以为Amazon Textract,所述Amazon Textract自动从PDF文档中提取内容(例如,打印的文本、表单和表格)。
本实施例中,每种文件类型对应有解析规则,根据对应的解析规则,将所述第一文件的文件内容中的不同编码格式进行统一转换,避免了敏感信息检测过程中,由于格式不统一所带来的格式干扰,提高了敏感信息检测的效率及准确率。
检测模块203,用于对所述第二文件进行敏感信息检测,得到第一敏感信息集。
本实施例中,所述敏感信息检测是指检测所述第二文件中的敏感信息,例如,手机号码、身份证号码、薪酬等。
在一个可选的实施例中,所述检测模块203对所述第二文件进行敏感信息检测,得到第一敏感信息集包括:
采用正则匹配表达式对所述第二文件进行敏感信息检测,得到第一信息,同时将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息;
对所述第一信息和所述第二信息进行去重处理,得到第一敏感信息集。
本实施例中,所述正则匹配表达式预先存储在数据库中,通过从所述数据库中获取正则匹配表达式。
本实施例中,所述第一信息是指通过正则匹配表达式从第二文件中匹配得到的敏感信息;所述第二信息是指从创建的敏感词数据库中获取的与第二文件匹配的敏感信息。
在一个可选的实施例中,在所述将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息之前,创建敏感词数据库,具体地,所述敏感词数据库的创建过程包括:
获取预设的多个主题;
从预设的多个数据源获取每个所述主题的第一词库;
采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库;
将所述多个主题的多个第二词库中的相同的敏感词进行剔除,得到第三词库;
对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库;
将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库。
进一步地,所述采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库包括:
从预设的开源数据库中获取每个所述主题的敏感词;
将每个所述主题的敏感词添加至每个所述主题的第一词库中,得到每个所述主题的第二词库。
本实施例中,所述预设的开源词库可以为A开源词库,从所述A开源词库中获取每个主题的敏感词,并添加至对应的第一词库中,从主题维度考虑对敏感词进行了第一次扩充。
进一步地,所述对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库包括:
使用预设模块读取所述第三词库中的每个所述敏感词的词向量,查询预设词向量集中的所有词;
获取查询到的每个所述敏感词对应的相似词;
将每个所述敏感词对应的相似词添加至所述第三词库中,得到第四词库。
本实施例中,所述预设模块可以为gensim模块,所述gensim模块是一种通过检查词汇模式发现文档语义结构的工具,支持分布式训练,提供了相似度计算、信息检索等一些常用的API接口,通过相似度计算的API接口可以实现每个所述敏感性的相似词查询,无需单独将每个敏感词与预设词向量中的每个词进行相似度计算,提高了敏感词对应的相似词的获取效率。
本实施例中,所述预设词向量集可以为A词向量集,从所述预设词向量集中获取每个所述敏感性对应的相似词,从相似词维度考虑对敏感词进行了第二次扩充。
在其他可选的实施例中,查询所述第三词库中的每个所述敏感词对应的相似词还可以包括:基于所述第三词库中的每个敏感词及每个敏感词的词向量构建词汇和索引的映射表,并将所述映射表采用JSON格式进行离线保存;基于预设词向量集中的所有词构建Annoy索引;根据所述映射表中的每个词汇,逐个查询所述Annoy索引中的每个词向量,返回查询结果,其中,所述查询结果中包含有索引元素;基于所述索引元素从所述预设词向量集中获取对应敏感词的相似词。
本实施例中,Annoy(Approximate Nearest Neighbors Oh Yeah)是Spotify开源的一个用于近似最近邻查询的C++/Python工具,对内存使用进行了优化,索引可以在硬盘保存或者加载,通过基于预设词向量集中的所有词构建Annoy索引,当这些预设词向量被映射到向量空间后,能够快速的查询到每个预设词向量的最近邻,即相似词,提高了相似词的查询效率。
在其他可选的实施例中,所述将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库包括:获取每个主题位于所述预设的数据库中的位置信息,及根据所述位置信息对所述第四词库中的敏感词进行映射,得到敏感词数据库。
本实施例中,映射是指将所述第三词库中的每个敏感词写入到所述预设的数据库的对应位置。
本实施例中,在创建敏感词数据库的过程中,从敏感词对应的主题维度及近义词两个维度考虑,对敏感词进行扩充,确保了创建的敏感词数据库中的敏感词的完整性。
本实施例中,在得到第一敏感信息集时考虑了创建的敏感词数据库,确保了获取的第一敏感信息集的完整性,减少了敏感信息的漏报和误报,提高了后续敏感信息检测的准确率。
输出模块204,用于将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别。
本实施例中,敏感信息可以为第一敏感信息,也可以为第二敏感信息,所述敏感信息的类别可以包含有会议类别、业务员类别、薪酬类别、简历类别等。
本实施例中,可以预先训练语义分类模型,具体地,所述语义分类模型的训练过程包括:
获取多个类别的文件及每个类别的文件对应的历史敏感信息;
通过对所述历史敏感信息进行分词处理,得到分词语句;
通过词向量提取模型提取所述分词语句的词向量,并根据所述词向量获取所述分词语句的句向量;
将所述多个类别的多个句向量作为样本集;
从所述样本集中划分出训练集和测试集;
将所述训练集输入初始语义分类模型中进行训练,得到语义分类模型;
将所述测试集输入至所述语义分类模型中进行测试,并计算测试通过率;
将所述测试通过率与预设的通过率阈值进行比对;
当所述测试通过率大于或者等于预设通过率阈值,确定所述语义分类模型训练结束,得到训练好的语义分类模型。
进一步地,当所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行语义分类模型的训练。
本实施例中,由于在中文中存在一字多义的问题,即同一个字在不同的词语中的含义可能完全不同,因此直接对历史敏感信息采用语义分类模型进行分类,会导致分类不准确的问题,故在进行分类前,采用分词处理模型对每个类别的文件对应的历史敏感信息进行分词处理,以获取历史敏感信息本意的分词语句,提高了敏感信息分类的准确度。
本实施例中,词向量提取模型,用于将分词语句以向量形式进行表示,以更适合计算机处理,在获取分词完成语句后,通过词向量提取模型,将分词语句转化为向量模式,以获取分词语句的句向量,提高了语义分类模型的分类速度。
本实施例中,采用训练好的预先训练好的语义分类模型对所述第一文件及所述第一敏感信息集中的每个所述第一敏感信息进行分类,提高了分类的准确率和效率。
第一确定模块205,用于根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集。
本实施例中,所述第一文件中可以包含有至少一个类别的敏感信息。
在一个可选的实施例中,所述第一确定模块205根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集包括:
获取每个所述第一敏感信息的类别对应的敏感分计算规则,并根据所述敏感分计算规则计算对应第一敏感信息的敏感分值;
对所述敏感分值进行降序排序;
从所述排序结果中选取排序在前的多个敏感分值对应的多个第一敏感信息确定为第二敏感信息集。
本实施例中,通过根据每个所述第一敏感信息的类别对应的敏感分计算规则计算每个敏感信息的敏感分值,更加具有针对性,确保了计算的敏感分值的准确率,同时保留满足条件的多个第一敏感信息确定为第二敏感信息集,剔除掉不满足条件的多个第一敏感信息,即将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
第二确定模块206,用于根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
本实施例中,所述第一文件的文件类型可以为预设类型,也可以不为预设类型。
在一个可选的实施例中,所述第二确定模块206根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果包括:
当所述第一文件的文件类型为预设类型时,获取所述第二文件中数值型数据对应的处理规则,基于所述处理规则对所述第二文件进行处理,得到目标文件,并对所述目标文件中的数值型数据进行敏感信息检测,得到第三敏感信息集,将所述第二敏感信息集和所述第三敏感信息集确定为所述第一文件的检测结果;
当所述第一文件的文件类型不为预设类型时,将所述第二敏感信息集确定为所述第一文件的检测结果。
本实施例中,可以预先设置预设类型,具体地,所述预设类型可以设置为EXCEl类型,本申请实施例在此不做限制。
本实施例中,由于EXCEl格式文件中存在特殊数值计算需求,当所述第一文件的文件类型为EXCEl格式文件时,需要对所述第一文件按照处理规则进行重新处理,得到目标文件,对目标文件重新进行敏感信息检测。
示例性的,针对主题为薪酬的文件,大部分都是EXCEL格式文件,并且文件中存在较多数值型数据,例如,身份证号码、手机号码等。若EXCEl格式文件中的身份证号码对应的数值格式设置为显示6位数值,无法将身份证号码作为敏感信息检测出来,导致敏感信息检测的准确率低。
本申请实施例中,通过获取EXCEL格式文件中数值型数据对应的处理规则,基于所述处理规则对所述第二文件进行处理,例如,可以将身份证号码对应的数据格式设置为显示18位数值后重新进行敏感信息检测,可以将身份证号码作为敏感信息检测出来,提高了敏感信息检测的准确性。
综上所述,本实施例所述的基于人工智能的敏感信息检测装置,通过对所述第一文件进行解析,得到第二文件,将第一文件解析为统一格式,在敏感信息检测过程中减少了格式不统一所带来的格式干扰。对所述第二文件进行敏感信息检测,得到第一敏感信息集,在得到第一敏感信息集时考虑了创建的敏感词数据库,确保了获取的第一敏感信息集的完整性,减少了敏感信息的漏报和误报,提高了后续敏感信息检测的准确率。通过根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集,在确定第二敏感信息集过程中,根据每个所述第一敏感信息的类别对应的敏感分计算规则计算每个敏感信息的敏感分值,更加具有针对性,确保了计算的敏感分值的准确率,同时保留满足条件的多个第一敏感信息确定为第二敏感信息集,剔除掉不满足条件的多个第一敏感信息,即将不隶属于敏感信息范围内的敏感信息进行剔除,提高了敏感信息检测的准确率。
实施例三
参阅图3所示,为本申请实施例三提供的电子设备的结构示意图。在本申请较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的基于人工智能的敏感信息检测装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于人工智能的敏感信息检测装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于人工智能的敏感信息检测的目的。
示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成获取模块201、解析模块202、检测模块203、输出模块204、第一确定模块205及第二确定模块206。
在本申请的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于人工智能的敏感信息检测的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本申请中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种基于人工智能的敏感信息检测方法,其特征在于,所述方法包括:
响应于接收到的文件检测请求,获取第一文件;
对所述第一文件进行解析,得到第二文件;
对所述第二文件进行敏感信息检测,得到第一敏感信息集;
将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;
根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;
根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
2.如权利要求1所述的基于人工智能的敏感信息检测方法,其特征在于,所述对所述第二文件进行敏感信息检测,得到第一敏感信息集包括:
采用正则匹配表达式对所述第二文件进行敏感信息检测,得到第一信息,同时将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息;
对所述第一信息和所述第二信息进行去重处理,得到第一敏感信息集。
3.如权利要求2所述的基于人工智能的敏感信息检测方法,其特征在于,在所述将所述第二文件与预先创建的敏感词数据库进行数据匹配,得到第二信息之前,所述方法还包括:
获取预设的多个主题;
从预设的多个数据源获取每个所述主题的第一词库;
采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库;
将所述多个主题的多个第二词库中的相同的敏感词进行剔除,得到第三词库;
对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库;
将所述第四词库中的敏感词读入预设的数据库中,得到敏感词数据库。
4.如权利要求3所述的基于人工智能的敏感信息检测方法,其特征在于,所述采用预设的开源词库对每个所述主题的第一词库中的敏感词进行第一次扩充处理,得到每个所述主题的第二词库包括:
从预设的开源数据库中获取每个所述主题的敏感词;
将每个所述主题的敏感词添加至每个所述主题的第一词库中,得到每个所述主题的第二词库。
5.如权利要求3所述的基于人工智能的敏感信息检测方法,其特征在于,所述对所述第三词库中的敏感词进行第二次扩充处理,得到第四词库包括:
使用预设模块读取所述第三词库中的每个所述敏感词的词向量,查询预设词向量集中的所有词;
获取查询到的每个所述敏感词对应的相似词;
将每个所述敏感词对应的相似词添加至所述第三词库中,得到第四词库。
6.如权利要求1所述的基于人工智能的敏感信息检测方法,其特征在于,所述根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集包括:
获取每个所述第一敏感信息的类别对应的敏感分计算规则,并根据所述敏感分计算规则计算对应第一敏感信息的敏感分值;
对所述敏感分值进行降序排序;
从所述排序结果中选取排序在前的多个敏感分值对应的多个第一敏感信息确定为第二敏感信息集。
7.如权利要求1所述的基于人工智能的敏感信息检测方法,其特征在于,所述根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果包括:
当所述第一文件的文件类型为预设类型时,获取所述第二文件中数值型数据对应的处理规则,基于所述处理规则对所述第二文件进行处理,得到目标文件,并对所述目标文件中的数值型数据进行敏感信息检测,得到第三敏感信息集,将所述第二敏感信息集和所述第三敏感信息集确定为所述第一文件的检测结果;
当所述第一文件的文件类型不为预设类型时,将所述第二敏感信息集确定为所述第一文件的检测结果。
8.一种基于人工智能的敏感信息检测装置,其特征在于,所述装置包括:
获取模块,用于响应于接收到的文件检测请求,获取第一文件;
解析模块,用于对所述第一文件进行解析,得到第二文件;
检测模块,用于对所述第二文件进行敏感信息检测,得到第一敏感信息集;
输出模块,用于将所述第一文件及所述第一敏感信息集输入预先训练好的语义分类模型中,输出每个所述第一敏感信息的类别;
第一确定模块,用于根据所述第一敏感信息集的每个所述第一敏感信息的类别,确定第二敏感信息集;
第二确定模块,用于根据所述第二敏感信息集及所述第一文件的文件类型,确定所述第一文件的检测结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的基于人工智能的敏感信息检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于人工智能的敏感信息检测方法。
CN202310136673.9A 2023-02-09 2023-02-09 基于人工智能的敏感信息检测方法、装置及相关设备 Pending CN116226315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310136673.9A CN116226315A (zh) 2023-02-09 2023-02-09 基于人工智能的敏感信息检测方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310136673.9A CN116226315A (zh) 2023-02-09 2023-02-09 基于人工智能的敏感信息检测方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN116226315A true CN116226315A (zh) 2023-06-06

Family

ID=86581959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310136673.9A Pending CN116226315A (zh) 2023-02-09 2023-02-09 基于人工智能的敏感信息检测方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN116226315A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349407A (zh) * 2023-12-04 2024-01-05 江苏君立华域信息安全技术股份有限公司 一种面向内容安全的自动化检测方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349407A (zh) * 2023-12-04 2024-01-05 江苏君立华域信息安全技术股份有限公司 一种面向内容安全的自动化检测方法和***
CN117349407B (zh) * 2023-12-04 2024-01-30 江苏君立华域信息安全技术股份有限公司 一种面向内容安全的自动化检测方法和***

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
WO2022160449A1 (zh) 文本分类方法、装置、电子设备及存储介质
CN110825878B (zh) 基于接收的数据输入来生成与未被充分表示的数据相关联的数据
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN113435582B (zh) 基于句向量预训练模型的文本处理方法及相关设备
CN114663223A (zh) 基于人工智能的信用风险评估方法、装置及相关设备
CN111753089A (zh) 话题聚类方法、装置、电子设备及存储介质
CN113704410A (zh) 情绪波动检测方法、装置、电子设备及存储介质
CN114372082B (zh) 基于人工智能的数据查询方法、装置、电子设备及介质
CN115525750A (zh) 机器人话术检测可视化方法、装置、电子设备及存储介质
CN116226315A (zh) 基于人工智能的敏感信息检测方法、装置及相关设备
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN113806492A (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
US20230186613A1 (en) Sample Classification Method and Apparatus, Electronic Device and Storage Medium
CN111797633A (zh) 特征提交重复数据删除引擎
CN114969385B (zh) 基于文档属性赋值实体权重的知识图谱优化方法及装置
CN113722324B (zh) 基于人工智能的报表生成方法、装置、电子设备及介质
Panthum et al. Generating functional requirements based on classification of mobile application user reviews
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
WO2022141838A1 (zh) 模型置信度分析方法、装置、电子设备及计算机存储介质
CN114239538A (zh) 断言处理方法、装置、计算机设备及存储介质
CN114492446A (zh) 法律文书处理方法、装置、电子设备及存储介质
CN113935328A (zh) 文本摘要生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination