CN111522950A

CN111522950A - 一种针对非结构化海量文本敏感数据的快速识别***

Info

Publication number: CN111522950A
Application number: CN202010338431.4A
Authority: CN
Inventors: 章明珠; 刘超
Original assignee: Chengdu Siwei Century Technology Co ltd
Current assignee: Chengdu Siwei Century Technology Co ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-11
Anticipated expiration: 2040-04-26
Also published as: CN111522950B

Abstract

本发明公开了一种针对非结构化海量文本敏感数据的快速识别***，包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元，所述建模单元包括信息采集模块和建模计算模块，且建模单元与识别层单元电性连接，所述存储单元用于为所述建模单元的元数据提供持久化存储，所述存储单元电性连接于建模单元，所述支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块。本发明对于非结构化数据的快速分类，利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类，提高了识别效率，并且对于非结构化数据的高效识别、根据敏感类型，能自主选择对应的查询方法进行扫描，提高了扫描效率。

Description

一种针对非结构化海量文本敏感数据的快速识别***

技术领域

本发明属于数据安全、数据分类算法及数据建模领域，更具体地说，尤其涉及一种针对非结构化海量文本敏感数据的快速识别***。

背景技术

针对于海量的非机构化的文本数据，目前市场上面通过对非结构化数据的文本的建模和文本相似度比较,对于大规模非结构化数据的分类算法进行抽离和优化,将非结构化数据进行分类和敏感提取。目前主流的相关技术方案主要是使用神经网络数据分析引擎对文本数据进行分类和汇总、然后对数据进行抽离和识别，其中核心技术是对于文本数据的快速分类和体系化饿的敏感识别引擎，随着互联网技术的发展和普及，互联网上存在大量的非结构化电子文本，面对日益增长的网页数据，其中的敏感数据也时刻威胁着企业和个人日常生活。如何帮助企业高效识别这些敏感数据，快速地从海量的非结构化文本中对敏感数据进行分类，如何将这些非结构化文本数据表示成计算机能够“理解”的形式，减轻识别成本，同时将数据高效的挖掘与储存起来，越来越受到广泛的市场需求。

对于目前非结构化数据的敏感识别现有技术，主要存在的缺点有：对于海量数据进行敏感识别时，识别效率十分低下，主要原因是数据的分类效率和关键信息的扫描效率。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种针对非结构化海量文本敏感数据的快速识别***，本***对于非结构化数据的快速分类，利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类，提高了识别效率，并且对于非结构化数据的高效识别、根据敏感类型，能自主选择对应的查询方法进行扫描，提高了扫描效率。

为实现上述目的，本发明提供如下技术方案：

一种针对非结构化海量文本敏感数据的快速识别***，包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元，所述建模单元包括信息采集模块和建模计算模块，且建模单元与识别层单元电性连接，所述存储单元用于为所述建模单元的元数据提供持久化存储，且存储单元上设置有读写接口，所述存储单元电性连接于建模单元，所述支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块，且所述支撑层单元用于对所述序列化单元的算法进行优化，并对信息采集模块采集重心提供策略和依据。

优选的，所述信息采集模块包括人工采集模块和机器采集模块，所述人工采集模块由人工分拣样本数据到存储单元，并对样本进行敏感类型及等级标注，所述人工采集模块上设置有与识别层单元连接的接口，且人工采集模块由人工提供批量关键字导入，所述人工采集模块采集样本每个应不少于100条信息，且上述样本均存储于存储单元内。

优选的，所述建模计算模块同于对所述人工采集模块和机器采集模块提供相应的人采计算和机采计算，所述机采计算采用行业在神经网络和人工智能方面技术前沿企业开源的算法，所述人采计算是用于对机采计算进行业务相关性的修正，对敏感分类和评级打分体系进行平滑过渡处理，所述人采计算引入相似度计算、海明距离扩展性算法，且人采计算增加近似度和词法联想的自然语言处理。

优选的，所述识别层单元以建模单元的输出作为输入对模型进行初始加载操作，且识别层单元根据业务需要动态增减模型项，并支持热插拔操作，所述识别层单元针对每个敏感模型返回的命中评分***应具备一个汇总算法，即每个分类自身权重乘以其匹配度累加值取对数，其结果是一个介于零和一之间的浮点数，来作为敏感最终评估计算的修正值。

优选的，所述识别层单元用于对海量的非结构化文本数据利用分类算法或者聚类算法进行汇总处理，然后处理判断字符集和语言，并根据需要转换为内部存储所对应的字符集，所述识别层单元采用分词***对元数据进行分词，删除停用词以后提取当前文本的关键词。

优选的，所述存储单元基于网络数据特性采用半结构化的分布式存储解决方案来保存高扩展性的网页内容，且存储单元中的消息队列满足先进先出的特性，并且能对消息队列进行自由订阅。

优选的，所述读写接口用于定期读取增量数据并传输至所述存储单元形成消息队列，并将上述消息队列推送到识别层单元的各个业务节点，所述业务节点根据设备负载情况以及消费队列数据进行设置，并在处理完毕后立即回写到消息队列中。

优选的，所述序列化单元包括敏感信息模块，所述敏感信息模块用于将敏感词及敏感字段封闭，所述序列化单元在生产端序列化，并在消费端反序列化，所述序列化单元需要序列化的信息包括版本号、信息类型、操作类型、加密标识和密钥、数据长度、数据信息、识别结果。

优选的，该针对非结构化海量文本敏感数据的快速识别***的具体工作流程为：

S1：数据采集与储存,将需要识别的机构或者企业提供的数据存储在hbase、ES或者其他非关系型数据中；

S2：识别操作，根据配置项加载部分或全部识别模型，利用关系型抽取从数据中依照识别模型进行数据识别，线程池从消息队列逐一读取记录并执行反序列化操作，根据数据类型执行不同的处理流程，模型匹配完成后进行汇总计算，序列化后回写***总线消息队列主题，并对当前执行过程记录日志用于离线的效果分析；

S3：总线队列，***总线启动时可创建生产工作线程和消费工作线程，生产工作线程定时跟踪底层存储增量数据的变化情况，当有数据到达的时候，将待消费数据从存储单元中提取出来放入消费主题；消费工作线程在入口挂起等待，有新消息的时候自动触发回写操作，更新底层的原址数据；

S4：日志分析，序列化单元***以小时为单位，采用整批处理方式对日志数据进行分析并生成报表，统计得到数据规模、敏感信息比例、敏感信息强度、传播频次热度以及识别准确率等；

S5：支撑***，通过支撑层单元对该快速识别***整体架构提供支撑能力，主要是数据库组件和学习引擎的支撑能力，数据库需要定期进行数据清理和数据优化。学习引擎需要及时更新识别算法和识别库；

S6：对外接口，对外提供敏感识别数据导入和对敏感数据识别的请求接口。

本发明的技术效果和优点：本发明提供的一种针对非结构化海量文本敏感数据的快速识别***，与传统的灌溉技术相比，本发明对于非结构化数据的快速分类，利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类，提高了识别效率，并且对于非结构化数据的高效识别、根据敏感类型，能自主选择对应的查询方法进行扫描，提高了扫描效率。

附图说明

图1为本发明的针对非结构化海量文本敏感数据的快速识别***框图；

图2为本发明的针对非结构化海量文本敏感数据的快速识别***工作流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

一种针对非结构化海量文本敏感数据的快速识别***，包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元，建模单元包括信息采集模块和建模计算模块，且建模单元与识别层单元电性连接，存储单元用于为建模单元的元数据提供持久化存储，且存储单元上设置有读写接口，存储单元电性连接于建模单元，支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块，且支撑层单元用于对序列化单元的算法进行优化，并对信息采集模块采集重心提供策略和依据。

其中，信息采集模块包括人工采集模块和机器采集模块，人工采集模块由人工分拣样本数据到存储单元，并对样本进行敏感类型及等级标注，人工采集模块上设置有与识别层单元连接的接口，且人工采集模块由人工提供批量关键字导入，人工采集模块采集样本每个应不少于100条信息，且上述样本均存储于存储单元内。

其中，建模计算模块同于对人工采集模块和机器采集模块提供相应的人采计算和机采计算，机采计算采用行业在神经网络和人工智能方面技术前沿企业开源的算法，人采计算是用于对机采计算进行业务相关性的修正，对敏感分类和评级打分体系进行平滑过渡处理，人采计算引入相似度计算、海明距离扩展性算法，且人采计算增加近似度和词法联想的自然语言处理。

其中，识别层单元以建模单元的输出作为输入对模型进行初始加载操作，且识别层单元根据业务需要动态增减模型项，并支持热插拔操作，识别层单元针对每个敏感模型返回的命中评分***应具备一个汇总算法，即每个分类自身权重乘以其匹配度累加值取对数，其结果是一个介于零和一之间的浮点数，来作为敏感最终评估计算的修正值。

其中，识别层单元用于对海量的非结构化文本数据利用分类算法或者聚类算法进行汇总处理，然后处理判断字符集和语言，并根据需要转换为内部存储所对应的字符集，识别层单元采用分词***对元数据进行分词，删除停用词以后提取当前文本的关键词。

其中，存储单元基于网络数据特性采用半结构化的分布式存储解决方案来保存高扩展性的网页内容，且存储单元中的消息队列满足先进先出的特性，并且能对消息队列进行自由订阅。

其中，读写接口用于定期读取增量数据并传输至存储单元形成消息队列，并将上述消息队列推送到识别层单元的各个业务节点，业务节点根据设备负载情况以及消费队列数据进行设置，并在处理完毕后立即回写到消息队列中。

其中，序列化单元包括敏感信息模块，敏感信息模块用于将敏感词及敏感字段封闭，序列化单元在生产端序列化，并在消费端反序列化，序列化单元需要序列化的信息包括版本号、信息类型、操作类型、加密标识和密钥、数据长度、数据信息、识别结果。

实施例2

一种针对非结构化海量文本敏感数据的快速识别***的具体工作流程为：

综上所述：本发明提供的一种针对非结构化海量文本敏感数据的快速识别***，与传统的灌溉技术相比，本发明对于非结构化数据的快速分类，利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类，提高了识别效率，并且对于非结构化数据的高效识别、根据敏感类型，能自主选择对应的查询方法进行扫描，提高了扫描效率。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对非结构化海量文本敏感数据的快速识别***，包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元，其特征在于：所述建模单元包括信息采集模块和建模计算模块，且建模单元与识别层单元电性连接，所述存储单元用于为所述建模单元的元数据提供持久化存储，且存储单元上设置有读写接口，所述存储单元电性连接于建模单元，所述支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块，且所述支撑层单元用于对所述序列化单元的算法进行优化，并对信息采集模块采集重心提供策略和依据。

2.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：所述信息采集模块包括人工采集模块和机器采集模块，所述人工采集模块由人工分拣样本数据到存储单元，并对样本进行敏感类型及等级标注，所述人工采集模块上设置有与识别层单元连接的接口，且人工采集模块由人工提供批量关键字导入，所述人工采集模块采集样本每个应不少于100条信息，且上述样本均存储于存储单元内。

3.根据权利要求2所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：所述建模计算模块同于对所述人工采集模块和机器采集模块提供相应的人采计算和机采计算，所述机采计算采用行业在神经网络和人工智能方面技术前沿企业开源的算法，所述人采计算是用于对机采计算进行业务相关性的修正，对敏感分类和评级打分体系进行平滑过渡处理，所述人采计算引入相似度计算、海明距离扩展性算法，且人采计算增加近似度和词法联想的自然语言处理。

4.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：所述识别层单元以建模单元的输出作为输入对模型进行初始加载操作，且识别层单元根据业务需要动态增减模型项，并支持热插拔操作，所述识别层单元针对每个敏感模型返回的命中评分***应具备一个汇总算法，即每个分类自身权重乘以其匹配度累加值取对数，其结果是一个介于零和一之间的浮点数，来作为敏感最终评估计算的修正值。

5.根据权利要求4所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：所述识别层单元用于对海量的非结构化文本数据利用分类算法或者聚类算法进行汇总处理，然后处理判断字符集和语言，并根据需要转换为内部存储所对应的字符集，所述识别层单元采用分词***对元数据进行分词，删除停用词以后提取当前文本的关键词。

6.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：所述存储单元基于网络数据特性采用半结构化的分布式存储解决方案来保存高扩展性的网页内容，且存储单元中的消息队列满足先进先出的特性，并且能对消息队列进行自由订阅。

7.根据权利要求6所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：所述读写接口用于定期读取增量数据并传输至所述存储单元形成消息队列，并将上述消息队列推送到识别层单元的各个业务节点，所述业务节点根据设备负载情况以及消费队列数据进行设置，并在处理完毕后立即回写到消息队列中。

8.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：所述序列化单元包括敏感信息模块，所述敏感信息模块用于将敏感词及敏感字段封闭，所述序列化单元在生产端序列化，并在消费端反序列化，所述序列化单元需要序列化的信息包括版本号、信息类型、操作类型、加密标识和密钥、数据长度、数据信息、识别结果。

9.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***，其特征在于：该针对非结构化海量文本敏感数据的快速识别***的具体工作流程为：