CN116049397B - 基于多模态融合的敏感信息发现并自动分类分级方法 - Google Patents
基于多模态融合的敏感信息发现并自动分类分级方法 Download PDFInfo
- Publication number
- CN116049397B CN116049397B CN202211705972.1A CN202211705972A CN116049397B CN 116049397 B CN116049397 B CN 116049397B CN 202211705972 A CN202211705972 A CN 202211705972A CN 116049397 B CN116049397 B CN 116049397B
- Authority
- CN
- China
- Prior art keywords
- data
- unstructured data
- mode
- embedding
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000004927 fusion Effects 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 47
- 230000000007 visual effect Effects 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 36
- 238000003860 storage Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000003384 imaging method Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000005065 mining Methods 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于多模态融合的敏感信息发现并自动分类分级方法,通过判断所接入的非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;输出并保存所述数据分级分类结果。能过使用共享参数的BERT结构,来同时完成图像/视频的每一帧与文本关系判断以及视觉特征和文本特征的融合,实现对文本、图像、视频等不同模态数据联动处理分析。解决市面上数据安全分级分类产品存在的处理数据模态类型单一、对数据信息挖掘不足、自动化和定制化程度低、应用业务范围窄、准确率低、因模型众多而计算资源消耗大等不足等问题。
Description
技术领域
本公开涉及非结构化数据技术领域,尤其涉及一种基于多模态融合的敏感信息发现并自动分类分级方法、装置和控制***。
背景技术
网络化、大数据日益发达的今天,对数据安全和隐私保护带来前所未有的挑战。敏感数据的准确标识是数据安全防护的前提。社交媒体、公司机构每天产生大量的非结构化生产运营数据,若其中包含敏感信息,一旦泄露,对公司或个人造成的损失不可估量。而这些数据的模态并非单一的,通常文本信息中夹杂关键图片信息,视频信息中蕴含重要的字幕信息,音频与音频中的文字更是不可割裂。所以,表达同一信息的多个模态数据相辅相成。如何从庞大体量的多模态的非结构化数据中,将每个模态的数据都充分利用结合起来,从中发现敏感数据并进行自动分级分类,是数据安全的重中之重。
数据分类分级是指,根据不同的行业背景和应用场景,明确哪些数据属于哪个业务领域,即类别。分级表示的是数据的敏感等级。因数据的敏感等级不同,对内、对外共享策略随之变化。区别于传统的关键字或者正则匹配算法匹配关键信息,目前比较流行的是利用机器学习、自然语言处理、文本语义分析、计算机视觉等技术对数据内容进行分析处理,通过反复的样本训练和模型修正,可实现对数据自动分级分类。但已有模型全是针对于单一模态的数据,并未充分利用数据的其余模态,所以在模型推理结果的准确度和效率方面会大打折扣。
现今的非结构化数据安全分类分级的处理方式,主要是传统的模板匹配法。将现有的非结构化数据与已经形成的关键字库、正则匹配模板或固定句式语句模板进行对比,提取出关键信息。这种方法机械、死板且处理能力有限,应用场景一旦稍微变化,模板将很难再适应新业务;另外,一部分产品虽然使用了基于人工智能的方法做敏感发现并自动分类分级,但是均基于通用的算法模型,只能完成最基本的识别任务,无法满足用户更高级别的定制化需求,分类颗粒度大并且精度低;除此之外,现存安全分级分类产品或***,在非结构化数据敏感信息提取上,对于不同类型的非结构化数据需要不同类型的人工智能模型去处理,例如用自然语言处理模型处理纯文字信息,专注于处理文本信息而忽略了相关联的图片信息;视觉模型处理纯图片、视频信息,专注于视觉信息而忽略了重要的文本信息。而现今无论国防安全数据、社交媒体数据、公司内部生产经营数据或是个人信息数据等,均是文本、图片、视频、音频等多个模态相互融合在一起的。现存分类分级***单一模态模型将文本信息和图片、视频信息彼此相互分割,未能联动融合起来,从而使模型集成度低、准确度低、未能充分挖掘敏感信息,而且众多的模型将消耗更多资源。
发明内容
为了解决上述问题,本申请提出一种基于多模态融合的敏感信息发现并自动分类分级方法、装置和控制***。
本申请一方面,提出一种基于多模态融合的敏感信息发现并自动分类分级方法,包括如下步骤:
接入非结构化数据;
判断所述非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;
采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;
输出并保存所述数据分级分类结果。
作为本申请的一可选实施方案,可选地,接入非结构化数据,包括:
配置数据源连接器;
采用所配置的所述数据源连接器,从所选定的数据源接入对应的非结构化数据;
按照预设的消息队列,将接入的所述非结构化数据实时进行上报。
作为本申请的一可选实施方案,可选地,接入非结构化数据,还包括:
预设分布式储存条件;
将接入的所述非结构化数据,按照所述分布式储存条件,进行分布式储存。
作为本申请的一可选实施方案,可选地,接入非结构化数据,还包括:
预配置图像化管理界面;
采用所述图像化管理界面,对接入的所述非结构化数据,进行可视化管理。
作为本申请的一可选实施方案,可选地,在接入非结构化数据之后,还包括:
预设预处理条件;
将接入的所述非结构化数据,按照所述预处理条件,进行预处理。
作为本申请的一可选实施方案,可选地,采用预设模型对所述单模态非结构化数据进行处理分析,得到相对应的数据分级分类结果,包括:
基于AI技术,根据不同类型的非结构化数据和不同的任务目标,训练并生成不同的AI模型;
将所述单模态非结构化数据,根据其数据类型,输入到不同的AI模型中,进行特征提取;
根据所提取的特征,对所述单模态非结构化数据进行数据分级分类,并保存所得到的数据分级分类结果。
作为本申请的一可选实施方案,可选地,采用预设模型对所述多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果,包括:
基于预训练模型,获得文本特征矩阵;
基于视觉预处理模型,获得图像/视频的视觉特征矩阵;
将所述文本特征矩阵和所述视觉特征矩阵进行融合处理,得到融合后的特征向量;
将融合后的特征向量输入至所述预训练模型中,经过训练计算后得到文本-视觉的相关概率,并以此构建视觉掩码矩阵;
融合所述视觉掩码矩阵和所述视觉特征矩阵,得到融合特征;
将融合特征输入至所述预训练模型中,经过训练计算后得到带有视觉线索的文本编码;
将所述带有视觉线索的文本编码输入至预设的命名实体识别模型,提取关键实体信息;
根据提取得到的关键实体信息,对所述多模态非结构化数据进行处理分析,得到并保存相对应的数据分级分类结果。
作为本申请的一可选实施方案,可选地,所述预训练模型为共享参数的BERT模型;所述视觉预处理模型为152层残差网络。
本申请另一方面,提出一种实现所述基于多模态融合的敏感信息发现并自动分类分级方法的装置,包括:
数据接入模块,用于接入非结构化数据;
数据类型判断模块,用于判断所述非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;
分级分类处理模块,用于采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;
分布式储存模块,用于输出并保存所述数据分级分类结果。
本申请另一方面,还提出一种控制***,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的基于多模态融合的敏感信息发现并自动分类分级方法。
本发明的技术效果:
基于本申请的实施,本申请通过接入非结构化数据;判断所述非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;输出并保存所述数据分级分类结果。能过使用共享参数的BERT结构,来同时完成图像/视频的每一帧与文本关系判断以及视觉特征和文本特征的融合,基于多模态融合、能够处理大规模非结构化数据的自动安全分级分类***,并实现了对文本、图像、视频等不同模态数据融合联动处理分析。解决了市面上数据安全分级分类产品存在的处理数据模态类型单一、对数据信息挖掘不足、自动化和定制化程度低、应用业务范围窄、准确率低、因模型众多而计算资源消耗大等不足等技术问题。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出为本发明基于多模态融合的敏感信息发现并自动分类分级方法的实施流程示意图;
图2示出为本发明对多模态非结构化数据进行处理分析的实施流程示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本发明设计了一种基于多模态融合的、能够处理大规模非结构化数据的自动安全分级分类***,并实现了对文本、图像、视频等不同模态数据融合联动处理分析。本发明使用共享参数的BERT结构(Bidirectional Encoder Representations from Transformers,来自转换器的双向编码器表示),来同时完成图像/视频的每一帧与文本关系判断以及视觉特征和文本特征的融合。
该***包含以下步骤:
1)非结构化数据的接入,利用基于分布式的大数据框架,解决非结构化数据源管理、访问的问题;
2)非结构化数据预处理,将我们大数据平台的ETL能力应用于此,完成必要的预处理;
3)单模态非结构化数据分析处理,利用基于AI的技术,训练修正处理模型,对单模态数据进行分析处理;
4)多模态非结构化数据分析处理,针对于大规模复杂的多模态非结构化数据,进行相应的多模态融合建模、优化,完成对多模态数据关系判断并进行关键信息提取。具体地,第一阶段:使用一个共享参数的多模态BERT结构,双向长短时记忆网络编码的文字特征和残差网络编码的图特征,进行[SEP]符号相连,输入到共享BERT模型中,输出的[CLS]向量用来判断不同模态数据表达的信息是否相关联。第二阶段:再将变换后的图文关联矩阵置信度与视觉特征矩阵进行点乘,得到的乘积矩阵与文字特征再[CLS]+文字特征+[SEP]+视觉表示拼接后,输入到共享BERT模型中,进行多模态命名实体识别任务,最终输出提取的关键信息结果。
下面将具体描述各个步骤的实施方案。
实施例1
如图1所示,本申请一方面,提出一种基于多模态融合的敏感信息发现并自动分类分级方法,包括如下步骤:
S1、接入非结构化数据;
非结构化数据,其类型不限定,主要是根据***所接入的数据源而确定。比如通过数据连接器从分布式文件存储***中所接入的非结构化数据等;
S2、判断所述非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;
非结构化数据,可能是单模态或多模态数据结构的非结构化数据,因此首先需要对接入的非结构化数据的数据类型进行判断,判断该非结构化数据是单模态非结构化数据还是多模态非结构化数据。
本实施例,多模态至少是存在两种或者两种以上模态的数据类型。
S3、采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;
对于单模态非结构化数据还是多模态非结构化数据,本方案将采取不同的分级分类方法:
对单模态非结构化数据,利用基于AI的技术,训练修正处理模型,对单模态数据提取数据特征,进行分析处理;
对模态非结构化数据,针对于大规模复杂的多模态非结构化数据,进行相应的多模态融合建模、优化,完成对多模态数据关系判断并进行关键信息提取。
S4、输出并保存所述数据分级分类结果。
本实施例,采用分布式储存方式,对采集得到的非结构化数据和/或提取得到的数据特征/分级分类结果进行分布式储存。分布式储存技术,采用现有技术即可,本实施例不作描述。
下面将具体描述各个步骤的实施过程。
作为本申请的一可选实施方案,可选地,接入非结构化数据,包括:
配置数据源连接器;
采用所配置的所述数据源连接器,从所选定的数据源接入对应的非结构化数据;
按照预设的消息队列,将接入的所述非结构化数据实时进行上报。
非结构化数据的接入,利用基于分布式的大数据框架,解决非结构化数据源管理、访问的问题。具体如下:
通过数据连接器选择连接源类型,构建数据源到安全分级分类***数据管道,或连接到数据库、分布式文件存储***或在要求实时任务处理的场景中,配置相应消息队列。
根据消息队列,按序上报所采集的数据即可,便于管理。
作为本申请的一可选实施方案,可选地,接入非结构化数据,还包括:
预设分布式储存条件;
将接入的所述非结构化数据,按照所述分布式储存条件,进行分布式储存。
将实时采集到的非结构化数据,完成分布式存储(此步骤可选)。分布式储存条件不限定,只要是可以利用分布式储存技术进行数据储存皆可。
作为本申请的一可选实施方案,可选地,接入非结构化数据,还包括:
预配置图像化管理界面;
采用所述图像化管理界面,对接入的所述非结构化数据,进行可视化管理。
本处采用可视化的技术,实现各个数据的可视化管理。应用图像化配置界面对大规模的非结构化数据进行管理。
图像化管理界面,由用户自行在分级分类***上选定即可,对导入的数据进行可视化界面管理即可和应用即可。
作为本申请的一可选实施方案,可选地,在接入非结构化数据之后,还包括:
预设预处理条件;
将接入的所述非结构化数据,按照所述预处理条件,进行预处理。
本处,在接入非结构化数据之后,可能存在数据需要进行格式转换或者清洗等预处理,因此,本处采用ETL(Extract-Transform-Load,提取-转换-加载)能力应用于此,完成非结构化数据必要的预处理,包括搜索、转换、清洗、挖掘等基本处理。具体如下:
从不同的数据库***、文件***中连接并抽取数据;
将抽取的数据根据规则进行拆分、合并、格式转换、判断值的合理性、去重、清零、删除错误数据等;
将已预处理后的数据加载到目标数据库中,供下一步使用。
作为本申请的一可选实施方案,可选地,采用预设模型对所述单模态非结构化数据进行处理分析,得到相对应的数据分级分类结果,包括:
基于AI技术,根据不同类型的非结构化数据和不同的任务目标,训练并生成不同的AI模型;
将所述单模态非结构化数据,根据其数据类型,输入到不同的AI模型中,进行特征提取;
根据所提取的特征,对所述单模态非结构化数据进行数据分级分类,并保存所得到的数据分级分类结果。
单模态非结构化数据分析处理
利用基于AI(Artificial Intelligence人工智能)的技术,训练修正处理模型,对能够表达完成信息的单模态数据进行分析处理。具体如下:
3.1模型训练阶段
1)收集与待处理问题有相似特征的大量数据,作为机器学习模型的训练集;
2)对待训练数据进行预处理,分析统计数据基本特征;
3)根据不同类型的非结构化数据和不同的任务目标选取相对应的AI模型,用训练集对所选用模型进行参数训练和优化;
3.2模型测试阶段
1)用相应的测试集对3.1中所训练模型进行测试,根据测试结果,进行参数调优;
2)重复3.1 3)中的训练步骤;
3)直到模型输出满意的测试结果,存储最优结果对应的模型参数,供后面推理使用;
3.3模型推理使用阶段
1)将预处理后的数据,根据数据类型输入到不同的训练好的模型中,提取所需要的数据特征;
2)得到数据分级分类结果。
作为本申请的一可选实施方案,可选地,采用预设模型对所述多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果,包括:
基于预训练模型,获得文本特征矩阵;
基于视觉预处理模型,获得图像/视频的视觉特征矩阵;
将所述文本特征矩阵和所述视觉特征矩阵进行融合处理,得到融合后的特征向量;
将融合后的特征向量输入至所述预训练模型中,经过训练计算后得到文本-视觉的相关概率,并以此构建视觉掩码矩阵;
融合所述视觉掩码矩阵和所述视觉特征矩阵,得到融合特征;
将融合特征输入至所述预训练模型中,经过训练计算后得到带有视觉线索的文本编码;
将所述带有视觉线索的文本编码输入至预设的命名实体识别模型,提取关键实体信息;
根据提取得到的关键实体信息,对所述多模态非结构化数据进行处理分析,得到并保存相对应的数据分级分类结果。
作为本申请的一可选实施方案,可选地,所述预训练模型为共享参数的BERT模型;所述视觉预处理模型为152层残差网络。
多模态非结构化数据的处理方法,具体的:
如图2所示,针对于大规模复杂的多模态非结构化数据,进行相应的多模态融合建模、优化,完成对多模态数据关系判断并进行关键信息提取。以下主要讲述多模态非结构化数据融合建模具体过程,和所得结果的处理。具体多模态融合模型结构见图2
具体地,第一阶段:使用一个共享参数的多模态BERT结构(采用BERT分词器对文本序列进行处理,得到文本特征矩阵SEP;采用152层残差网络对图片序列进行处理,并接入一个全连接层,得到视觉特征矩阵CLS),双向长短时记忆网络编码的文字特征和残差网络编码的图特征,进行[SEP]符号相连,输入到共享BERT模型中,输出的[CLS]向量用来判断不同模态数据表达的信息是否相关联。第二阶段:再将变换后的图文关联矩阵置信度与视觉特征矩阵进行点乘,得到的乘积矩阵与文字特征再[CLS]+文字特征+[SEP]+视觉表示拼接后,输入到共享BERT模型中,进行多模态命名实体识别任务,最终输出提取的关键信息结果。
具体包括如下步骤:
4.1非结构化数据特征提取
基于BERT预训练模型,获得文本特征矩阵。文本特征表达矩阵由BERT预模型生成,BERT预训练模型可以将一个位置单词分解为多个单词片段进行标记。此处的BERT预训练模型的输入为单个字,输出为每个字的词嵌入向量,记为T。
基于152层的残差网络,获得图像、视频的视觉特征矩阵。视觉表达矩阵由152层的残差网络生成,输入为图片/视频的帧,输出将图片分为49个块区域,因残差网络最后一个卷积层的输出大小为7×7×2048,其中7×7表示图像中的49个块区域。将这49个块区域提取({fi,j}7i,j=1)特征依次排列成图像块嵌入序列,记为V,序列的维度与上述词嵌入向量的维度相同。
4.2多模态特征嵌入矩阵融合
按照BERT模型输入的做法,模型的输入是字嵌入或图像块嵌入,分段嵌入和位置嵌入的总和。此处,字嵌入为4.1中提取的字嵌入向量和图像块嵌入序列;分段嵌入从两种模态中学习,例如用0表示字嵌入向量,1表示图像块嵌入序列;字位置嵌入是从句子中的词顺序中学习的,但图像块嵌入序列的位置标记都是相同的,为同一个固定值。
融合后的模型输入序列为:[CLS]T+字分段嵌入+字位置嵌入[SEP]V+图像分段嵌入+图像位置嵌入,其中[CLS]为开始一段融合特征开始标志,[SEP]为文字特征和视觉特征的分隔符。
4.3送入BERT模型训练得到文本-视觉关系
将4.2中融合后的特征向量,送入到BERT预训练模型中,将模型输出的[CLS]结果再接入一个全连接层,得到文本-视觉相关概率大小。此概率可用于判断图文是否相关。根据相关概率,构建视觉掩码矩阵R。
4.4融合视觉掩码矩阵R的视觉特征矩阵-融合特征
在这个步骤,使用掩码矩阵R来控制附加的视觉线索,将V变成V与R对应元素的乘积。此操作使视觉特征矩阵加上了掩码,而掩码矩阵是根据上一层的文本-视觉相关概率得到的。
4.5送入BERT模型训练得到带有视觉线索的文本编码
将4.4中的融合特征送入BERT模型,得到带有视觉线索的文本编码。
4.6送入命名实体识别模型,提取关键实体信息
命名实体识别模型,此处选用biLSTM-CRF(Bidirectional Long Short TermMemory-Conditional Random Field,双向长短时记忆-条件随机场)模型。biLSTM-CRF模型由双向LSTM和条件随机场(CRF)组成。biLSTMCRF的输入是单词和4.5中输出的带有视觉信息的文本编码的串联。CRF使用每个标记的biLSTM隐藏向量来标记带有实体标签的序列。
最终得到要提取的关键实体。
因此,本申请通过基于多模态融合的、能够处理大规模非结构化数据的自动安全分级分类方法,实现了对文本、图像、视频等不同模态数据融合联动处理分析,提高敏感信息发现模型的精确度。并对数据进行全方位挖掘,解决了因众多单模态模型而计算资源消耗大等问题。基于人工智能的技术,使分级分类***的自动化和定制化程度提高,应用业务范围拓宽。
需要说明的是,尽管以各个训练/识别模型作为示例介绍了如上单模态或者多模态非结构化数据的分级分类处理,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据实际应用场景灵活设定各个模态的应用模型,只要可以按照上述技术方法实现本申请的技术功能即可。
显然,本领域的技术人员应该明白,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
实施例2
基于实施例1的实施原理,本申请另一方面,提出一种实现所述基于多模态融合的敏感信息发现并自动分类分级方法的装置,包括:
数据接入模块,用于接入非结构化数据;
数据类型判断模块,用于判断所述非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;
分级分类处理模块,用于采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;
分布式储存模块,用于输出并保存所述数据分级分类结果。
上述各个模块具体参见实施例1的描述,本实施例不作赘述。
上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
实施例3
更进一步地,本申请另一方面,还提出一种控制***,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的基于多模态融合的敏感信息发现并自动分类分级方法。
本公开实施例来控制***包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面任一所述的一种基于多模态融合的敏感信息发现并自动分类分级方法。
此处,应当指出的是,处理器的个数可以为一个或多个。同时,在本公开实施例的控制***中,还可以包括输入装置和输出装置。其中,处理器、存储器、输入装置和输出装置之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器作为一计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的一种基于多模态融合的敏感信息发现并自动分类分级方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块,从而执行控制***的各种功能应用及数据处理。
输入装置可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (8)
1.基于多模态融合的敏感信息发现并自动分类分级方法,其特征在于,包括如下步骤:
接入非结构化数据;
判断所述非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;
采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;
输出并保存所述数据分级分类结果;
采用预设模型对所述多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果,具体包括如下步骤:
非结构化数据特征提取:
基于BERT预训练模型,获得文本特征矩阵,文本特征表达矩阵由BERT预模型生成,BERT预训练模型可以将一个位置单词分解为多个单词片段进行标记,此处的BERT预训练模型的输入为单个字,输出为每个字的词嵌入向量,记为T;
基于152层的残差网络,获得图像、视频的视觉特征矩阵,视觉表达矩阵由152层的残差网络生成,输入为图片/视频的帧,输出将图片分为49个块区域,因残差网络最后一个卷积层的输出大小为7×7×2048,其中7×7表示图像中的49个块区域,将这49个块区域提取({fi,j}7i,j=1)特征依次排列成图像块嵌入序列,记为V,序列的维度与上述词嵌入向量的维度相同;
多模态特征嵌入矩阵融合:
按照BERT模型输入的做法,模型的输入是字嵌入或图像块嵌入,分段嵌入和位置嵌入的总和,此处,字嵌入为提取的所述的字嵌入向量和图像块嵌入序列;分段嵌入从两种模态中学习;字位置嵌入是从句子中的词顺序中学习的,但图像块嵌入序列的位置标记都是相同的,为同一个固定值;
融合后的模型输入序列为:[CLS]T+字分段嵌入+字位置嵌入[SEP]V+图像分段嵌入+图像位置嵌入,其中[CLS]为开始一段融合特征开始标志,[SEP]为文字特征和视觉特征的分隔符;
送入BERT模型训练得到文本-视觉关系:
将融合后的特征向量,送入到BERT预训练模型中,将模型输出的[CLS]结果再接入一个全连接层,得到文本-视觉相关概率大小,根据相关概率,构建视觉掩码矩阵R;
融合视觉掩码矩阵R的视觉特征矩阵-融合特征:
使用掩码矩阵R来控制附加的视觉线索,将V变成V与R对应元素的乘积;
送入BERT模型训练得到带有视觉线索的文本编码:
将所述的融合特征送入BERT模型,得到带有视觉线索的文本编码;
送入命名实体识别模型,提取关键实体信息;
根据提取得到的关键实体信息,对所述多模态非结构化数据进行处理分析,得到并保存相对应的数据分级分类结果。
2.根据权利要求1所述的基于多模态融合的敏感信息发现并自动分类分级方法,其特征在于,接入非结构化数据,包括:
配置数据源连接器;
采用所配置的所述数据源连接器,从所选定的数据源接入对应的非结构化数据;
按照预设的消息队列,将接入的所述非结构化数据实时进行上报。
3.根据权利要求2所述的基于多模态融合的敏感信息发现并自动分类分级方法,其特征在于,接入非结构化数据,还包括:
预设分布式储存条件;
将接入的所述非结构化数据,按照所述分布式储存条件,进行分布式储存。
4.根据权利要求2所述的基于多模态融合的敏感信息发现并自动分类分级方法,其特征在于,接入非结构化数据,还包括:
预配置图像化管理界面;
采用所述图像化管理界面,对接入的所述非结构化数据,进行可视化管理。
5.根据权利要求1所述的基于多模态融合的敏感信息发现并自动分类分级方法,其特征在于,在接入非结构化数据之后,还包括:
预设预处理条件;
将接入的所述非结构化数据,按照所述预处理条件,进行预处理。
6.根据权利要求1所述的基于多模态融合的敏感信息发现并自动分类分级方法,其特征在于,采用预设模型对所述单模态非结构化数据进行处理分析,得到相对应的数据分级分类结果,包括:
基于AI技术,根据不同类型的非结构化数据和不同的任务目标,训练并生成不同的AI模型;
将所述单模态非结构化数据,根据其数据类型,输入到不同的AI模型中,进行特征提取;
根据所提取的特征,对所述单模态非结构化数据进行数据分级分类,并保存所得到的数据分级分类结果。
7.实现权利要求1-6中任一项所述基于多模态融合的敏感信息发现并自动分类分级方法的装置,其特征在于,包括:
数据接入模块,用于接入非结构化数据;
数据类型判断模块,用于判断所述非结构化数据的数据类型,得到单模态非结构化数据或多模态非结构化数据;
分级分类处理模块,用于采用预设模型对所述单模态非结构化数据或多模态非结构化数据进行处理分析,得到相对应的数据分级分类结果;
分布式储存模块,用于输出并保存所述数据分级分类结果。
8.控制***,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1-6中任一项所述的基于多模态融合的敏感信息发现并自动分类分级方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211705972.1A CN116049397B (zh) | 2022-12-29 | 2022-12-29 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211705972.1A CN116049397B (zh) | 2022-12-29 | 2022-12-29 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049397A CN116049397A (zh) | 2023-05-02 |
CN116049397B true CN116049397B (zh) | 2024-01-02 |
Family
ID=86130697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211705972.1A Active CN116049397B (zh) | 2022-12-29 | 2022-12-29 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049397B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681086B (zh) * | 2023-07-31 | 2024-04-02 | 深圳市傲天科技股份有限公司 | 数据分级方法、***、设备及存储介质 |
CN117351257B (zh) * | 2023-08-24 | 2024-04-02 | 长江水上交通监测与应急处置中心 | 一种基于多模态信息的航运数据抽取方法及*** |
CN117787924A (zh) * | 2024-02-28 | 2024-03-29 | 中国航空工业集团公司西安飞机设计研究所 | 一种飞机设计数据发放数据包发放方法及*** |
CN117992925B (zh) * | 2024-04-03 | 2024-06-14 | 成都新希望金融信息有限公司 | 基于多源异构数据和多模态数据的风险预测方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014213560A1 (en) * | 2013-08-15 | 2015-03-05 | Po, Wilson MR | Communication Platform and Method for Participants of a Text Message Conversation to Convey Real Emotions, and to Experience Shared Content Together at the Same Time |
CN108932549A (zh) * | 2017-05-25 | 2018-12-04 | 百度(美国)有限责任公司 | 倾听、交互和交谈:通过交互学习说话 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN113822340A (zh) * | 2021-08-27 | 2021-12-21 | 北京工业大学 | 一种基于注意力机制的图文情感识别方法 |
CN114936623A (zh) * | 2022-04-20 | 2022-08-23 | 西北工业大学 | 一种融合多模态数据的方面级情感分析方法 |
CN115146057A (zh) * | 2022-05-27 | 2022-10-04 | 电子科技大学 | 基于交互注意力的供应链生态区图文融合情感识别方法 |
WO2022227294A1 (zh) * | 2021-04-30 | 2022-11-03 | 山东大学 | 一种基于多模态融合的疾病风险预测方法和*** |
CN115510224A (zh) * | 2022-07-14 | 2022-12-23 | 南京邮电大学 | 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 |
-
2022
- 2022-12-29 CN CN202211705972.1A patent/CN116049397B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014213560A1 (en) * | 2013-08-15 | 2015-03-05 | Po, Wilson MR | Communication Platform and Method for Participants of a Text Message Conversation to Convey Real Emotions, and to Experience Shared Content Together at the Same Time |
CN108932549A (zh) * | 2017-05-25 | 2018-12-04 | 百度(美国)有限责任公司 | 倾听、交互和交谈:通过交互学习说话 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
WO2022227294A1 (zh) * | 2021-04-30 | 2022-11-03 | 山东大学 | 一种基于多模态融合的疾病风险预测方法和*** |
CN113822340A (zh) * | 2021-08-27 | 2021-12-21 | 北京工业大学 | 一种基于注意力机制的图文情感识别方法 |
CN114936623A (zh) * | 2022-04-20 | 2022-08-23 | 西北工业大学 | 一种融合多模态数据的方面级情感分析方法 |
CN115146057A (zh) * | 2022-05-27 | 2022-10-04 | 电子科技大学 | 基于交互注意力的供应链生态区图文融合情感识别方法 |
CN115510224A (zh) * | 2022-07-14 | 2022-12-23 | 南京邮电大学 | 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 |
Non-Patent Citations (1)
Title |
---|
面向跨模态检索的协同注意力网络模型;邓一姣;张凤荔;陈学勤;艾擎;余苏喆;;计算机科学(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116049397A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341366B2 (en) | Cross-modality processing method and apparatus, and computer storage medium | |
CN116049397B (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN111080645B (zh) | 基于生成式对抗网络的遥感图像半监督语义分割方法 | |
CN109271539B (zh) | 一种基于深度学习的图像自动标注方法及装置 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
CN110968695A (zh) | 基于弱监督技术主动学***台 | |
US20240078826A1 (en) | Methods and systems of field detection in a document | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与*** | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN116304745A (zh) | 基于深层次语义信息的文本话题匹配方法及*** | |
CN112966676B (zh) | 一种基于零样本学习的文档关键信息抽取方法 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN116246287B (zh) | 目标对象识别方法、训练方法、装置以及存储介质 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及*** | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN115690816A (zh) | 一种文本要素提取方法、装置、设备和介质 | |
CN112528674B (zh) | 文本处理方法、模型的训练方法、装置、设备及存储介质 | |
CN114708472A (zh) | 面向ai实训的多模态数据集标注方法、装置及电子设备 | |
CN112948251B (zh) | 软件自动测试方法及装置 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |