CN106484884A - 一种数据处理*** - Google Patents
一种数据处理*** Download PDFInfo
- Publication number
- CN106484884A CN106484884A CN201610901693.0A CN201610901693A CN106484884A CN 106484884 A CN106484884 A CN 106484884A CN 201610901693 A CN201610901693 A CN 201610901693A CN 106484884 A CN106484884 A CN 106484884A
- Authority
- CN
- China
- Prior art keywords
- data
- handling system
- module
- mining
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据处理***,其包括:初始化数据模块:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;数据选择模块:从所述初始化处理的数据中将不同格式的数据转化为统一格式;数据预处理模块:检查所述统一格式的数据,并对数据进行处理;数据挖掘模块:其具体执行以下操作:确定要发现的目标数据的特征值;根据目标数据的具体特征值类型选择相应的数据挖掘算法;采用所述挖掘算法对数据进行处理后导出并存储。本发明提供的数据处理***通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本发明在数据搜索时的速率提高,且搜索精度得到很大的保障。
Description
技术领域
本发明涉及到数据处理技术领域,特别是一种用于数据挖掘的数据处理***。
背景技术
目前,随着计算机应用的日益广泛以及不同领域的业务种类的日益丰富,从与特定的对象相关的海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。
在现有的技术方案中,通常根据与目标对象相关联的一个或多个属性数据来对目标对象进行分类,即基于每个目标对象的某个或某些特定的属性数据的值对目标对象进行分类。
现有的技术方案存在如下问题:由于仅仅基于单一或数个属性数据对目标对象进行分类,故分类结果的精确度较低,并且由于需要对每个目标对象的属性数据进行相同的评估操作,故数据挖掘的效率较低。
因此,存在如下需求:提供能够根据目标对象的综合特征来挖掘和分类目标对象的基于局域网的数据处理***。
发明内容
为解决上述技术问题,本发明提供了一种数据处理***,其包括:
初始化数据模块:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;
数据选择模块:从所述初始化处理的数据中将不同格式的数据转化为统一格式;
数据预处理模块:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;
数据挖掘模块:其具体执行以下操作:
确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;
选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;
数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。
较佳地,所述局域网中的不同存储空间为局域网中的服务器。
较佳地,所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。
较佳地,所述缺省数据的补充内容包括数据扩展名与***存储路径。
较佳地,所述脏数据是指源***中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源***中存在不规范的编码和含糊的业务逻辑的数据。
本发明具有以下有益效果:
本发明提供的数据处理***通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本发明在数据搜索时的速率提高,且搜索精度得到很大的保障。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据处理***示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据处理***,其包括:
初始化数据模块1:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;
数据选择模块2:从所述初始化处理的数据中将不同格式的数据转化为统一格式;
数据预处理模块3:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;
数据挖掘模块4:其具体执行以下操作:
确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;
选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;
数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。
本实施例中,所述局域网中的不同存储空间为局域网中的服务器。
其中所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。
所述缺省数据的补充内容包括数据扩展名与***存储路径。
所述脏数据是指源***中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源***中存在不规范的编码和含糊的业务逻辑的数据。
本发明提供的数据处理***通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本发明在数据搜索时的速率提高,且搜索精度得到很大的保障。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (5)
1.一种数据处理***,其特征在于,包括:
初始化数据模块:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;
数据选择模块:从所述初始化处理的数据中将不同格式的数据转化为统一格式;
数据预处理模块:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;
数据挖掘模块:其具体执行以下操作:
确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;
选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;
数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。
2.如权利要求1所述的数据处理***,其特征在于,所述局域网中的不同存储空间为局域网中的服务器。
3.如权利要求1所述的数据处理***,其特征在于,所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。
4.如权利要求1所述的数据处理***,其特征在于,所述缺省数据的补充内容包括数据扩展名与***存储路径。
5.如权利要求1所述的数据处理***,其特征在于,所述脏数据是指源***中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源***中存在不规范的编码和含糊的业务逻辑的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610901693.0A CN106484884A (zh) | 2016-10-18 | 2016-10-18 | 一种数据处理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610901693.0A CN106484884A (zh) | 2016-10-18 | 2016-10-18 | 一种数据处理*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106484884A true CN106484884A (zh) | 2017-03-08 |
Family
ID=58269975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610901693.0A Pending CN106484884A (zh) | 2016-10-18 | 2016-10-18 | 一种数据处理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484884A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1967579A (zh) * | 2006-02-13 | 2007-05-23 | 湖南大学 | 金融风险管理辅助挖掘分析*** |
CN102098175A (zh) * | 2011-01-26 | 2011-06-15 | 浪潮通信信息***有限公司 | 一种移动互联网告警关联规则获取方法 |
CN102567375A (zh) * | 2010-12-27 | 2012-07-11 | ***通信集团公司 | 数据挖掘方法及设备 |
-
2016
- 2016-10-18 CN CN201610901693.0A patent/CN106484884A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1967579A (zh) * | 2006-02-13 | 2007-05-23 | 湖南大学 | 金融风险管理辅助挖掘分析*** |
CN102567375A (zh) * | 2010-12-27 | 2012-07-11 | ***通信集团公司 | 数据挖掘方法及设备 |
CN102098175A (zh) * | 2011-01-26 | 2011-06-15 | 浪潮通信信息***有限公司 | 一种移动互联网告警关联规则获取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu | Computing infrastructure for big data processing | |
CN106055277A (zh) | 一种去中心化的分布式异构存储***数据分布方法 | |
CN104112026B (zh) | 一种短信文本分类方法及*** | |
CN109101474B (zh) | 一种地址聚合的方法、包裹聚合的方法以及设备 | |
WO2017096892A1 (zh) | 索引构建方法、查询方法及对应装置、设备、计算机存储介质 | |
CN104021161A (zh) | 一种聚簇存储方法及装置 | |
CN104899199A (zh) | 一种数据仓库数据处理方法和*** | |
CN106462633B (zh) | 将相关的稀疏数据高效存储在搜索索引中 | |
CN103902702A (zh) | 一种数据存储***和存储方法 | |
CN102682108B (zh) | 一种行列混合的数据库存储方法 | |
CN106446255A (zh) | 一种基于云服务器的数据处理方法 | |
CN108268586A (zh) | 跨多数据表的数据处理方法、装置、介质和计算设备 | |
CN106486167A (zh) | 改进闪速存储器清除的方法和*** | |
CN103345496A (zh) | 多媒体信息检索方法和*** | |
WO2010062445A1 (en) | Predictive indexing for fast search | |
CN103488523A (zh) | 一种页的访问方法和页的访问装置、服务器 | |
CN102959548B (zh) | 数据存储方法、查找方法及装置 | |
CN102810116A (zh) | 一种基于数据库连接的自动路由和负载均衡的方法及*** | |
WO2022007596A1 (zh) | 图像检索***、方法和装置 | |
CN110309143A (zh) | 数据相似度确定方法、装置及处理设备 | |
CN104166736A (zh) | 倒排索引文件的存储方法和装置 | |
CN105830160A (zh) | 用于将经屏蔽数据写入到缓冲器的设备及方法 | |
CN113971225A (zh) | 图像检索***、方法和装置 | |
CN106484884A (zh) | 一种数据处理*** | |
CN104050189A (zh) | 页面共享处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170308 |
|
RJ01 | Rejection of invention patent application after publication |