CN110472075A

CN110472075A - 一种基于机器学习的异构数据分类存储方法及***

Info

Publication number: CN110472075A
Application number: CN201810438149.6A
Authority: CN
Inventors: 陈闻宇; 杨学; 马永征; 杨琪
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2019-11-19

Abstract

本发明公开了一种基于机器学习的异构数据分类存储方法及***。本方法为：1)数据预处理模块根据数据类别对异构数据进行预处理分类；2)对预处理后的每一类数据分别采用对应的分析模型进行关键字提取，得到每一数据的关键词并将其作为对应数据的标签；3)将标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储；其中关键词分类表中设有多个类别，每一类别对应若干关键词。本发明将原始数据和标签数据分别处理，数据标签作为一种同构化的数据，有效的实现了异构数据同构化，为后继进行数据挖掘提供了更为便利的环境。

Description

一种基于机器学习的异构数据分类存储方法及***

技术领域

本发明涉及一种基于自动学习的异构数据分类存储方法及***，属于网络技术领域。

背景技术

因为互联网的极大普及，产生了数量巨大的异构数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等，这些数据中存在着大量的极具价值的信息，目前大量数据公司和网络公司均在研发各种数据自动化处理分析技术。

目前数据主要处理方式为：a)对异构数据以标题为主要内容进行筛选分类；b)通过关键字、特征数据进行过滤筛选；c)通过格式分类将各类数据按照文件类别分类。

以上方法有以下不足：

处理方式a)：分类效率低，不全面。

处理方式b)：分类效果差，不准确。

处理方式c)：关联性差，分类效果不明显。

发明内容

针对现有技术存在的技术问题，本发明的目的在于提供一种基于自动学习的异构数据分类存储方法及***。本发明能够实现对异构数据同构处理，自动分类存储，提高了数据分析的准确性。

本发明通过使用自我训练机制，细化分类目录，自适应各类新内容数据处理；并且本发明提供自我学习不断完善数据处理模型，提升对异构数据处理的完备率和效率。

本发明解决关键问题的技术方案分为三个部分：数据自动化处理，数据标签化处理，训练数据收集。

本发明的技术方案为：

一种基于机器学习的异构数据分类存储方法，其步骤包括：

1)根据数据类别对异构数据进行预处理分类；

2)对预处理后的每一类数据分别采用对应的分析模型进行关键字提取，得到每一数据的关键词并将其作为该数据的标签；

3)将标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储；其中关键词分类表中设有多个类别，每一类别对应若干关键词。

进一步的，根据数据类别对异构数据进行分类，得到音频、图片以及文字三种类别的数据；然后对每类数据按照数据时间进行排序。

进一步的，所述分析模型包括用于从文字类别数据中提取关键词的文字数据处理模型、用于从图片类别数据中提取关键词的图像数据处理模型和用于从音频类别数据中提取关键词的语音数据处理模型。

进一步的，提取关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。

进一步的，所述标签中包含对应原始数据的存储位置；所述标签及其对应的原始数据分别存储。

进一步的，首先对收到的异构数据进行安全过滤，排除各种恶意代码；以及筛除重复数据、无效数据；然后进行预处理分类。

一种基于机器学习的异构数据分类存储***，其特征在于，包括数据预处理模块、标签生成模块、分类模块；其中：

数据预处理模块，用于根据数据类别对异构数据进行预处理分类；

标签生成模块，用于对预处理后的每一类数据分别采用对应的分析模型进行关键字提取，得到每一数据的关键词并将其作为该数据的标签；

分类模块，用于将标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储；其中关键词分类表中设有多个类别，每一类别对应若干关键词。

进一步的，还包括一数据存储模块，用于对标签及其对应的原始数据分别存储；其中，所述标签中包含对应原始数据的存储位置。

进一步的，还包括一训练数据生成模块，用于利用关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。

进一步的，所述数据预处理模块，用于对收到的异构数据进行安全过滤，排除各种恶意代码；以及筛除重复数据、无效数据；然后根据文件类别对异构数据进行分类，然后对每类数据按照数据时间进行排序。

与现有技术相比，本发明的积极效果为：

本发明将原始数据和标签数据分别处理，数据标签作为一种同构化的数据，有效的实现了异构数据(文档、图片、语音等)同构化，且分类准确性高，大大提高了数据分析的准确性，为后继进行数据挖掘提供了更为便利的环境。

附图说明

图1为本发明的方法流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明。

本发明方法的流程如图1所示，具体实施流程步骤描述如下：

1)数据接入层接收各渠道汇总异构数据；

2)接入层完成数据安全过滤，排除各种恶意代码；筛除重复数据或无效数据。

3)数据处理层，对过滤后的数据进行初步分类预处理；

4)使用对应的音频、文本、图片分析模型对数据进行处理；提炼出多段关键词作为对应数据的标签内容，根据关键词分类表和标签内容对处理后的数据进行关联、分类处理，将标签内容属于关键词分类表中同一类别的标签对应的数据划分为一类进行存储；其中关键词分类表中设有多个类别，每一类别对应若干关键词。

5)将标签数据以及原始数据分别存储。

6)自动提取关键字识别准确率低于预设值的数据作为新的训练数据。开发人员定期对***提供的新数据处理形成新的训练集用来完善数据处理模型。本发明提出了数据处理模块自我学习的概念，使数据处理模型自动收集确定性较低的数据，虽然训练集还是需要人工完成，但是自动收集的数据在实际应用中有着相关度高，成本相对较低的优势，无需额外进行训练数据采集。

本***包括数据预处理模块、标签生成模块、分类模块、数据存储模块和训练数据生成模块；其中：

1)数据预处理模块，对异构数据通过数据类别、时间进行预处理分类。首先通过文件类别识别将数据导入对应的处理模式，得到音频、图片以及文字三种形式的数据，(视频数据将被过滤分为音频数据以及每秒25帧截取的图片数据)；其次对上述初步处理的数据按照数据时间正常流逝进行排序。至此完成数据预处理。

2)标签生成模块，对目前已开源的数据处理算法模型上修改、整合，将单独的图像、文字、音视频处理模型融合构建成一个具有处理多种数据能力的综合***，使用已完成训练的训练模型对预处理后的数据进行处理，生成不同标签，根据提炼出的数据标签内容进行关键字关联分析和数据分类。处理过程分别为文字数据处理模型在BiLSTM开源模型基础上对时部、权值进行调整，使训练模型能确保原模型的识别精确度的基础上处理效率有3％左右的提升，同时针对中文处理中，识别率提升2％(注：BiLSTM是长短期记忆网络，主要层次结构为输入层，后向卷积层，前向卷积层以及输出层)，实现文本自动分词、内容判断；图像数据处理模型使用tensorflow通用开源图像识别框架构建基于深层卷积神经网络的图像识别算法，初期通过标注过的图像数据集(主要为物体识别图像数据集)完成模型初步训练，能较好的识别日常物体(如交通、家庭、常见动植物)，语音数据处理模型主要使用开源项目ISIP实现。该综合***将产出被分析数据的关键内容标签。标签主要用作是纪录对应数据的关键内容，生成独立的标签数据(标签数据头中还包含对应原始数据的存储位置)，为后继数据挖掘提供统一的数据格式，每段标签数据的数据头指向对应原始数据。

3)分类模块，根据关键词分类表和标签内容对处理后的数据进行关联、分类处理，将标签内容属于关键词分类表中同一类别的标签对应的数据划分为一类进行存储；其中关键词分类表中设有多个类别，每一类别对应若干关键词。

4)数据存储模块，将标签数据和原始数据分别存储，数据标签模块仅存储对应数据的数据标签；原始数据则进行对应封存，限制各种修改权限，确保数据安全。

5)训练数据生成模块，对上述数据处理过程中将准确度判断低于70％的数据自动提取备份，形成新的数据集。训练模型分析工程师定期对收集的数据进行标注后与原数据集合并形成新的训练集。***通过半监督化的机器学习，使用新训练集进行重新训练，形成新的数据处理模型。

此发明主要使得数据处理分析能够更高效、全面，同时可以适应各类数据分析处理场景，训练数据的自动收集减少了人工，节约了成本。此外本发明提出标签数据作为原始数据的提取内容，一定程度上解决了数据分析中对异构数据处理上的难点，实现了异构数据的同构化，为后期的进一步数据分析发觉提供了良好的前置数据。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于机器学习的异构数据分类存储方法，其特征在于：

根据数据类别对异构数据进行预处理分类；

对所述预处理分类后得到的每一类数据分别采用对应的分析模型进行关键字提取，得到每一数据的关键词并将其作为该数据的标签；

将所述标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储；

其中关键词分类表中设有多个类别，每一类别对应若干关键词。

2.如权利要求1所述的方法，其特征在于，数据预处理模块根据数据类别对异构数据进行分类，得到音频、图片以及文字三种类别的数据；然后对每类数据按照数据时间进行排序。

3.如权利要求2所述的方法，其特征在于，所述分析模型包括用于从文字类别数据中提取关键词的文字数据处理模型、用于从图片类别数据中提取关键词的图像数据处理模型和用于从音频类别数据中提取关键词的语音数据处理模型。

4.如权利要求1所述的方法，其特征在于，提取关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。

5.如权利要求1所述的方法，其特征在于，所述标签中包含对应原始数据的存储位置；所述标签及其对应的原始数据分别存储。

6.如权利要求1所述的方法，其特征在于，首先对收到的异构数据进行安全过滤，排除各种恶意代码；以及筛除重复数据、无效数据；然后进行预处理分类。

7.一种基于机器学习的异构数据分类存储***，其特征在于，包括数据预处理模块、标签生成模块、分类模块；其中：

8.如权利要求7所述的***，其特征在于，还包括一数据存储模块，用于对标签及其对应的原始数据分别存储；其中，所述标签中包含对应原始数据的存储位置。

9.如权利要求7所述的***，其特征在于，还包括一训练数据生成模块，用于利用关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。

10.如权利要求7所述的***，其特征在于，所述数据预处理模块，用于对收到的异构数据进行安全过滤，排除各种恶意代码；以及筛除重复数据、无效数据；然后根据文件类别对异构数据进行分类，然后对每类数据按照数据时间进行排序。