CN110472075A - 一种基于机器学习的异构数据分类存储方法及*** - Google Patents

一种基于机器学习的异构数据分类存储方法及*** Download PDF

Info

Publication number
CN110472075A
CN110472075A CN201810438149.6A CN201810438149A CN110472075A CN 110472075 A CN110472075 A CN 110472075A CN 201810438149 A CN201810438149 A CN 201810438149A CN 110472075 A CN110472075 A CN 110472075A
Authority
CN
China
Prior art keywords
data
label
classification
isomeric
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810438149.6A
Other languages
English (en)
Inventor
陈闻宇
杨学
马永征
杨琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
China Internet Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Network Information Center filed Critical China Internet Network Information Center
Priority to CN201810438149.6A priority Critical patent/CN110472075A/zh
Publication of CN110472075A publication Critical patent/CN110472075A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的异构数据分类存储方法及***。本方法为:1)数据预处理模块根据数据类别对异构数据进行预处理分类;2)对预处理后的每一类数据分别采用对应的分析模型进行关键字提取,得到每一数据的关键词并将其作为对应数据的标签;3)将标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储;其中关键词分类表中设有多个类别,每一类别对应若干关键词。本发明将原始数据和标签数据分别处理,数据标签作为一种同构化的数据,有效的实现了异构数据同构化,为后继进行数据挖掘提供了更为便利的环境。

Description

一种基于机器学习的异构数据分类存储方法及***
技术领域
本发明涉及一种基于自动学习的异构数据分类存储方法及***,属于网络技术领域。
背景技术
因为互联网的极大普及,产生了数量巨大的异构数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等,这些数据中存在着大量的极具价值的信息,目前大量数据公司和网络公司均在研发各种数据自动化处理分析技术。
目前数据主要处理方式为:a)对异构数据以标题为主要内容进行筛选分类;b)通过关键字、特征数据进行过滤筛选;c)通过格式分类将各类数据按照文件类别分类。
以上方法有以下不足:
处理方式a):分类效率低,不全面。
处理方式b):分类效果差,不准确。
处理方式c):关联性差,分类效果不明显。
发明内容
针对现有技术存在的技术问题,本发明的目的在于提供一种基于自动学习的异构数据分类存储方法及***。本发明能够实现对异构数据同构处理,自动分类存储,提高了数据分析的准确性。
本发明通过使用自我训练机制,细化分类目录,自适应各类新内容数据处理;并且本发明提供自我学习不断完善数据处理模型,提升对异构数据处理的完备率和效率。
本发明解决关键问题的技术方案分为三个部分:数据自动化处理,数据标签化处理,训练数据收集。
本发明的技术方案为:
一种基于机器学习的异构数据分类存储方法,其步骤包括:
1)根据数据类别对异构数据进行预处理分类;
2)对预处理后的每一类数据分别采用对应的分析模型进行关键字提取,得到每一数据的关键词并将其作为该数据的标签;
3)将标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储;其中关键词分类表中设有多个类别,每一类别对应若干关键词。
进一步的,根据数据类别对异构数据进行分类,得到音频、图片以及文字三种类别的数据;然后对每类数据按照数据时间进行排序。
进一步的,所述分析模型包括用于从文字类别数据中提取关键词的文字数据处理模型、用于从图片类别数据中提取关键词的图像数据处理模型和用于从音频类别数据中提取关键词的语音数据处理模型。
进一步的,提取关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。
进一步的,所述标签中包含对应原始数据的存储位置;所述标签及其对应的原始数据分别存储。
进一步的,首先对收到的异构数据进行安全过滤,排除各种恶意代码;以及筛除重复数据、无效数据;然后进行预处理分类。
一种基于机器学习的异构数据分类存储***,其特征在于,包括数据预处理模块、标签生成模块、分类模块;其中:
数据预处理模块,用于根据数据类别对异构数据进行预处理分类;
标签生成模块,用于对预处理后的每一类数据分别采用对应的分析模型进行关键字提取,得到每一数据的关键词并将其作为该数据的标签;
分类模块,用于将标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储;其中关键词分类表中设有多个类别,每一类别对应若干关键词。
进一步的,还包括一数据存储模块,用于对标签及其对应的原始数据分别存储;其中,所述标签中包含对应原始数据的存储位置。
进一步的,还包括一训练数据生成模块,用于利用关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。
进一步的,所述数据预处理模块,用于对收到的异构数据进行安全过滤,排除各种恶意代码;以及筛除重复数据、无效数据;然后根据文件类别对异构数据进行分类,然后对每类数据按照数据时间进行排序。
与现有技术相比,本发明的积极效果为:
本发明将原始数据和标签数据分别处理,数据标签作为一种同构化的数据,有效的实现了异构数据(文档、图片、语音等)同构化,且分类准确性高,大大提高了数据分析的准确性,为后继进行数据挖掘提供了更为便利的环境。
附图说明
图1为本发明的方法流程图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明。
本发明方法的流程如图1所示,具体实施流程步骤描述如下:
1)数据接入层接收各渠道汇总异构数据;
2)接入层完成数据安全过滤,排除各种恶意代码;筛除重复数据或无效数据。
3)数据处理层,对过滤后的数据进行初步分类预处理;
4)使用对应的音频、文本、图片分析模型对数据进行处理;提炼出多段关键词作为对应数据的标签内容,根据关键词分类表和标签内容对处理后的数据进行关联、分类处理,将标签内容属于关键词分类表中同一类别的标签对应的数据划分为一类进行存储;其中关键词分类表中设有多个类别,每一类别对应若干关键词。
5)将标签数据以及原始数据分别存储。
6)自动提取关键字识别准确率低于预设值的数据作为新的训练数据。开发人员定期对***提供的新数据处理形成新的训练集用来完善数据处理模型。本发明提出了数据处理模块自我学习的概念,使数据处理模型自动收集确定性较低的数据,虽然训练集还是需要人工完成,但是自动收集的数据在实际应用中有着相关度高,成本相对较低的优势,无需额外进行训练数据采集。
本***包括数据预处理模块、标签生成模块、分类模块、数据存储模块和训练数据生成模块;其中:
1)数据预处理模块,对异构数据通过数据类别、时间进行预处理分类。首先通过文件类别识别将数据导入对应的处理模式,得到音频、图片以及文字三种形式的数据,(视频数据将被过滤分为音频数据以及每秒25帧截取的图片数据);其次对上述初步处理的数据按照数据时间正常流逝进行排序。至此完成数据预处理。
2)标签生成模块,对目前已开源的数据处理算法模型上修改、整合,将单独的图像、文字、音视频处理模型融合构建成一个具有处理多种数据能力的综合***,使用已完成训练的训练模型对预处理后的数据进行处理,生成不同标签,根据提炼出的数据标签内容进行关键字关联分析和数据分类。处理过程分别为文字数据处理模型在BiLSTM开源模型基础上对时部、权值进行调整,使训练模型能确保原模型的识别精确度的基础上处理效率有3%左右的提升,同时针对中文处理中,识别率提升2%(注:BiLSTM是长短期记忆网络,主要层次结构为输入层,后向卷积层,前向卷积层以及输出层),实现文本自动分词、内容判断;图像数据处理模型使用tensorflow通用开源图像识别框架构建基于深层卷积神经网络的图像识别算法,初期通过标注过的图像数据集(主要为物体识别图像数据集)完成模型初步训练,能较好的识别日常物体(如交通、家庭、常见动植物),语音数据处理模型主要使用开源项目ISIP实现。该综合***将产出被分析数据的关键内容标签。标签主要用作是纪录对应数据的关键内容,生成独立的标签数据(标签数据头中还包含对应原始数据的存储位置),为后继数据挖掘提供统一的数据格式,每段标签数据的数据头指向对应原始数据。
3)分类模块,根据关键词分类表和标签内容对处理后的数据进行关联、分类处理,将标签内容属于关键词分类表中同一类别的标签对应的数据划分为一类进行存储;其中关键词分类表中设有多个类别,每一类别对应若干关键词。
4)数据存储模块,将标签数据和原始数据分别存储,数据标签模块仅存储对应数据的数据标签;原始数据则进行对应封存,限制各种修改权限,确保数据安全。
5)训练数据生成模块,对上述数据处理过程中将准确度判断低于70%的数据自动提取备份,形成新的数据集。训练模型分析工程师定期对收集的数据进行标注后与原数据集合并形成新的训练集。***通过半监督化的机器学习,使用新训练集进行重新训练,形成新的数据处理模型。
此发明主要使得数据处理分析能够更高效、全面,同时可以适应各类数据分析处理场景,训练数据的自动收集减少了人工,节约了成本。此外本发明提出标签数据作为原始数据的提取内容,一定程度上解决了数据分析中对异构数据处理上的难点,实现了异构数据的同构化,为后期的进一步数据分析发觉提供了良好的前置数据。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于机器学习的异构数据分类存储方法,其特征在于:
根据数据类别对异构数据进行预处理分类;
对所述预处理分类后得到的每一类数据分别采用对应的分析模型进行关键字提取,得到每一数据的关键词并将其作为该数据的标签;
将所述标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储;
其中关键词分类表中设有多个类别,每一类别对应若干关键词。
2.如权利要求1所述的方法,其特征在于,数据预处理模块根据数据类别对异构数据进行分类,得到音频、图片以及文字三种类别的数据;然后对每类数据按照数据时间进行排序。
3.如权利要求2所述的方法,其特征在于,所述分析模型包括用于从文字类别数据中提取关键词的文字数据处理模型、用于从图片类别数据中提取关键词的图像数据处理模型和用于从音频类别数据中提取关键词的语音数据处理模型。
4.如权利要求1所述的方法,其特征在于,提取关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。
5.如权利要求1所述的方法,其特征在于,所述标签中包含对应原始数据的存储位置;所述标签及其对应的原始数据分别存储。
6.如权利要求1所述的方法,其特征在于,首先对收到的异构数据进行安全过滤,排除各种恶意代码;以及筛除重复数据、无效数据;然后进行预处理分类。
7.一种基于机器学习的异构数据分类存储***,其特征在于,包括数据预处理模块、标签生成模块、分类模块;其中:
数据预处理模块,用于根据数据类别对异构数据进行预处理分类;
标签生成模块,用于对预处理后的每一类数据分别采用对应的分析模型进行关键字提取,得到每一数据的关键词并将其作为该数据的标签;
分类模块,用于将标签属于关键词分类表中同一类别的标签对应的数据划分为一类并进行存储;其中关键词分类表中设有多个类别,每一类别对应若干关键词。
8.如权利要求7所述的***,其特征在于,还包括一数据存储模块,用于对标签及其对应的原始数据分别存储;其中,所述标签中包含对应原始数据的存储位置。
9.如权利要求7所述的***,其特征在于,还包括一训练数据生成模块,用于利用关键字识别准确率低于预设值的数据作为新的训练数据对所述分析模型进行训练更新。
10.如权利要求7所述的***,其特征在于,所述数据预处理模块,用于对收到的异构数据进行安全过滤,排除各种恶意代码;以及筛除重复数据、无效数据;然后根据文件类别对异构数据进行分类,然后对每类数据按照数据时间进行排序。
CN201810438149.6A 2018-05-09 2018-05-09 一种基于机器学习的异构数据分类存储方法及*** Pending CN110472075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810438149.6A CN110472075A (zh) 2018-05-09 2018-05-09 一种基于机器学习的异构数据分类存储方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810438149.6A CN110472075A (zh) 2018-05-09 2018-05-09 一种基于机器学习的异构数据分类存储方法及***

Publications (1)

Publication Number Publication Date
CN110472075A true CN110472075A (zh) 2019-11-19

Family

ID=68503529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810438149.6A Pending CN110472075A (zh) 2018-05-09 2018-05-09 一种基于机器学习的异构数据分类存储方法及***

Country Status (1)

Country Link
CN (1) CN110472075A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417220A (zh) * 2020-11-20 2021-02-26 国家电网有限公司大数据中心 一种异构数据的整合方法
CN112464071A (zh) * 2020-11-25 2021-03-09 国家电网有限公司客户服务中心 一种基于大数据平台数据共享的管理***
CN117371533A (zh) * 2023-11-01 2024-01-09 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置
CN117591578A (zh) * 2024-01-18 2024-02-23 山东科技大学 一种基于大数据的数据挖掘***及其挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN107103016A (zh) * 2016-02-23 2017-08-29 百度(美国)有限责任公司 基于关键词表示使图像与内容匹配的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN107103016A (zh) * 2016-02-23 2017-08-29 百度(美国)有限责任公司 基于关键词表示使图像与内容匹配的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417220A (zh) * 2020-11-20 2021-02-26 国家电网有限公司大数据中心 一种异构数据的整合方法
CN112464071A (zh) * 2020-11-25 2021-03-09 国家电网有限公司客户服务中心 一种基于大数据平台数据共享的管理***
CN117371533A (zh) * 2023-11-01 2024-01-09 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置
CN117371533B (zh) * 2023-11-01 2024-05-24 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置
CN117591578A (zh) * 2024-01-18 2024-02-23 山东科技大学 一种基于大数据的数据挖掘***及其挖掘方法
CN117591578B (zh) * 2024-01-18 2024-04-09 山东科技大学 一种基于大数据的数据挖掘***及其挖掘方法

Similar Documents

Publication Publication Date Title
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
CN110472075A (zh) 一种基于机器学习的异构数据分类存储方法及***
CN107705066A (zh) 一种商品入库时信息录入方法及电子设备
CN108897778B (zh) 一种基于多源大数据分析的图像标注方法
CN109919368B (zh) 一种基于关联图的法条推荐预测***及方法
CN102542061B (zh) 一种产品的智能分类方法
CN111460252A (zh) 一种基于网络舆情分析的自动化搜索引擎方法及***
CN109657058A (zh) 一种公告信息的抽取方法
CN110909542B (zh) 智能语义串并分析方法及***
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN109271527A (zh) 一种需求功能点智能识别方法
CN109670453B (zh) 一种提取短视频主题的方法
CN110019703A (zh) 数据标记方法及装置、智能问答方法及***
CN111680073A (zh) 一种基于用户数据的金融服务平台政策资讯推荐方法
CN112784078A (zh) 一种基于语义识别的视频自动剪辑方法
CN113220878A (zh) 一种基于知识图谱的ocr识别结果分类方法
CN110688856B (zh) 一种裁判文书信息提取方法
CN106326451A (zh) 一种基于视觉特征提取的网页传感信息块判决方法
CN107239787A (zh) 一种利用多来源数据具有隐私保护功能的图象分类方法
CN110889717A (zh) 文本中的广告内容过滤方法、装置、电子设备及存储介质
CN114238735B (zh) 一种互联网数据智能采集方法
CN113128238B (zh) 基于自然语言处理技术的金融情报语义分析方法和***
CN106407271B (zh) 一种智能客服***及其智能客服知识库的更新方法
Kurniawan et al. Exploring Tourist Feedback on Riau Attractions Through Indonesian Language YouTube Opinion Using Naïve Bayes Algorithm
CN115357220A (zh) 一种面向工业app开发的群智化需求获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119

RJ01 Rejection of invention patent application after publication