CN106055557A - 一种互联网环境下大数据分类预处理方法及*** - Google Patents

一种互联网环境下大数据分类预处理方法及*** Download PDF

Info

Publication number
CN106055557A
CN106055557A CN201610308773.5A CN201610308773A CN106055557A CN 106055557 A CN106055557 A CN 106055557A CN 201610308773 A CN201610308773 A CN 201610308773A CN 106055557 A CN106055557 A CN 106055557A
Authority
CN
China
Prior art keywords
module
pretreatment
video
internet
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610308773.5A
Other languages
English (en)
Inventor
张晓丹
梁冰
王莉
白海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Publication of CN106055557A publication Critical patent/CN106055557A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据分类预处理方法及***,特别涉及一种互联网环境下大数据分类预处理方法,属于数据挖掘领域。本发明采用互联网中多类别的网络数据组成较完备的预处理的基础数据集,先通过降维等操作,实现数据的精简;然后通过对该数据集中不同类型数据分别进行分析和预处理,得到用于分类的数据集,为实现进一步的分类做好数据准备。

Description

一种互联网环境下大数据分类预处理方法及***
技术领域
本发明涉及一种大数据分类预处理方法及***,特别涉及一种互联网环境下大数据分类预处理方法,属于数据挖掘领域。
背景技术
随着现代社会的不断进步,尤其是互联网的快速发展,各类网络资源数量呈现出数量巨大、种类繁多、变化迅速等特点。互联网已进入大数据时代。目前互联网应用环境中大数据除了数量庞大外,非结构化数据占的比重越来越大,资源数量线性增量增长。如此繁杂的网络资源中只有10%的数据是真正可以被利用的。因此,快速定位有效数据,实现对资源的自动分类,是解决该问题的关键方法之一。然而,传统的存储及分类算法无法满足互联网应用环境中大数据的分类要求。如何快速、准确地实现互联网应用环境中大数据的自动分类,已经成为当前数据技术研究的热点。而预处理技术是解决大数据分类问题的基础。
本专利针对互联网应用环境中大数据自动分类的预处理问题进行研究。重点研究基于Hadoop平台的互联网应用环境中大数据的预处理技术。通过本专利的研究,不仅能实现互联网应用环境中大数据分类,还可以为互联网应用环境中大数据的信息检索和挖掘提供有效的基础技术。
发明内容
本发明的目的是提出了一种互联网环境下大数据分类预处理方法及***。
本发明的目的是通过下述技术方案实现的。
本发明提出的一种互联网环境下大数据分类预处理方法,其特征在于:其包括以下操作步骤:
步骤一、互联网环境下大数据分类预处理方法的数据获取。
对互联网中不同类型的网络数据进行采集,并进行降维处理。
步骤二、互联网环境下大数据分类预处理方法的预处理,形成***可以直接处理的数据。
所述预处理包括除噪。
一种互联网环境下大数据分类预处理***,包括:数据获取模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块。
所述数据获取模块的主要功能是:对互联网中不同类型的网络数据进行采集,并进行降维处理;
所述信息抽取模块的主要功能是:从输入的互联网中抽取出文本信息、图像信息、视频信息、音频信息;
所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理:
所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;
所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理。
其连接关系为:
数据获取模块的输出端分别与信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;文本预处理模块的输出端与外部设备中的文本分析模块的输入端连接;图像预处理模块的输出端与外部设备中的图像分析模块的输入端连接;视频预处理模块的输出端与外部设备中的视频分析模块的输入端连接;音频预处理模块的输出端与外部设备中的音频分析模块的输入端连接。
有益效果
本发明提出的一种互联网环境下的大数据分类预处理方法及***,与已有方法和***比较,有以下创新:采用互联网中多类别的网络数据组成较完备的预处理的基础数据集,先通过降维等操作,实现数据的精简;然后通过对该数据集中不同类型数据分别进行分析和预处理,得到用于分类的数据集。为实现进一步的分类做好数据准备。
附图说明
图1为本发明具体实施方式中待检测设备舵机(6)的主视图;
具体实施方式
为了进一步说明本发明的目的和优点,下面结合附图和具体实施例对本发明。
本实施例中的互联网环境下大数据分类预处理方法,其包括以下操作步骤:
步骤一、互联网环境下大数据分类预处理方法的数据获取。
对互联网中不同类型的网络数据进行采集,并进行降维处理。
步骤二、互联网环境下大数据分类预处理方法的预处理,形成***可以直接处理的数据
所述预处理包括除噪。
基于上述互联网环境下大数据分类预处理方法的预处理***,其结构框架如图1所示,包括:数据获取模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块。
所述数据获取模块的主要功能是:对互联网中不同类型的网络数据进行采集,并进行降维处理;
所述信息抽取模块的主要功能是:从输入的互联网中抽取出文本信息、图像信息、视频信息、音频信息;
所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理;
所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;
所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种互联网环境下大数据分类预处理方法,其特征在于:其包括以下操作步骤:
步骤一、互联网环境下大数据分类预处理方法的数据获取;
对互联网中不同类型的网络数据进行采集,并进行降维处理;
步骤二、互联网环境下大数据分类预处理方法的预处理,形成***可以直接处理的数据;所述预处理包括除噪。
2.一种互联网环境下大数据分类预处理***,其特征在于:其包括:数据获取模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块;
所述数据获取模块的主要功能是:对互联网中不同类型的网络数据进行采集,并进行降维处理;
所述信息抽取模块的主要功能是:从输入的互联网中抽取出文本信息、图像信息、视频信息、音频信息;
所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理;
所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;
所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理;
其连接关系为:
数据获取模块的输出端分别与信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块的输入端连接;文本预处理模块的输出端与外部设备中的文本分析模块的输入端连接;图像预处理模块的输出端与外部设备中的图像分析模块的输入端连接;视频预处理模块的输出端与外部设备中的视频分析模块的输入端连接;音频预处理模块的输出端与外部设备中的音频分析模块的输入端连接。
CN201610308773.5A 2015-12-25 2016-05-12 一种互联网环境下大数据分类预处理方法及*** Pending CN106055557A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510988528 2015-12-25
CN2015109885289 2015-12-25

Publications (1)

Publication Number Publication Date
CN106055557A true CN106055557A (zh) 2016-10-26

Family

ID=57176211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610308773.5A Pending CN106055557A (zh) 2015-12-25 2016-05-12 一种互联网环境下大数据分类预处理方法及***

Country Status (1)

Country Link
CN (1) CN106055557A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112158692A (zh) * 2020-09-09 2021-01-01 北京明略昭辉科技有限公司 获取电梯内目标对象流量的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588879A (zh) * 2004-08-12 2005-03-02 复旦大学 一种互联网内容过滤***及过滤方法
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类***
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析***和方法
CN104731852A (zh) * 2014-12-16 2015-06-24 芜湖乐锐思信息咨询有限公司 一种大数据***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588879A (zh) * 2004-08-12 2005-03-02 复旦大学 一种互联网内容过滤***及过滤方法
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类***
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析***和方法
CN104731852A (zh) * 2014-12-16 2015-06-24 芜湖乐锐思信息咨询有限公司 一种大数据***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112158692A (zh) * 2020-09-09 2021-01-01 北京明略昭辉科技有限公司 获取电梯内目标对象流量的方法及装置

Similar Documents

Publication Publication Date Title
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
Rizzo et al. NERD meets NIF: Lifting NLP Extraction Results to the Linked Data Cloud.
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN106778851B (zh) 基于手机取证数据的社交关系预测***及其方法
CN102542061B (zh) 一种产品的智能分类方法
CN110910175B (zh) 一种旅游门票产品画像生成方法
CN105808722A (zh) 一种信息判别方法和***
CN111507083A (zh) 文本解析方法、装置、设备及存储介质
CN111985896A (zh) 邮件过滤方法及装置
CN111259951A (zh) 案件检测方法、装置、电子设备及可读存储介质
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
CN107944032A (zh) 用于生成信息的方法和装置
CN101794378A (zh) 基于图片编码的垃圾图片过滤方法
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
CN110675121A (zh) 图片类案卷材料的采集方法
CN104268214B (zh) 一种基于微博用户关系的用户性别识别方法及***
Wilkinson et al. A novel word segmentation method based on object detection and deep learning
CN106326335A (zh) 一种基于显著属性选择的大数据归类方法
CN110210025A (zh) 一种基于文本提取的转换方法
CN106055557A (zh) 一种互联网环境下大数据分类预处理方法及***
CN103218420A (zh) 一种网页标题提取方法及装置
Sueno et al. Converting text to numerical representation using modified Bayesian vectorization technique for multi-class classification
CN107291952B (zh) 一种提取有意义串的方法及装置
Lu et al. Exploration and application of graphic design language based on artificial intelligence visual communication
CN111723297B (zh) 一种面向网格社情研判的双重语义相似度判别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161026

WD01 Invention patent application deemed withdrawn after publication