CN106126739A - 一种处理业务关联数据的装置 - Google Patents
一种处理业务关联数据的装置 Download PDFInfo
- Publication number
- CN106126739A CN106126739A CN201610524327.8A CN201610524327A CN106126739A CN 106126739 A CN106126739 A CN 106126739A CN 201610524327 A CN201610524327 A CN 201610524327A CN 106126739 A CN106126739 A CN 106126739A
- Authority
- CN
- China
- Prior art keywords
- data
- submodule
- quality
- useful
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种处理业务关联数据的装置,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块。
Description
技术领域
本发明涉及业务数据领域,具体涉及一种处理业务关联数据的装置。
背景技术
数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据是载荷或记录信息的按一定规则排列组合的物理符号。
在现在使用的数据信息中,有很大一部分的数据是由管理者来进行发布,并且根据用户的建议或者管理者自身的需求由管理者来进行修改的,对于这部分的海量信息,如何能够更好地进行质量管理和挖掘,快速有效地从中找到有用的信息,是一个亟需解决的问题。
发明内容
针对上述问题,本发明提供一种处理业务关联数据的装置。
本发明的目的采用以下技术方案来实现:
一种处理业务关联数据的装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块,用于对业务关联数据进行采集,其特征是,包括以下步骤:
D1将属于同一业务的多个待采集的数据项连续放置,属于不同业务的共有的待采集数据项放置在两种业务分别对应的数据项之间;
D2采用若干采集线程组启动数据采集过程顺序调度数据项队列放置的各项,完成业务关联的数据采集。
优选地,其特征是,所述D1包括以下步骤:
d1将每个数据采集业务分别对应一个采集过程,且将采集周期相同的多个采集过程划分在同一采集过程队列;
d2将每个采集过程队列包含的多个采集过程依据采集过程间的数据项共有关系进行采集过程排序;
d3将每个采集过程依据该采集过程与相近采集过程间的数据项共有关系进行该采集过程内数据项排序,得到最终数据项队列;
其中,所述每个采集过程队列分别对应一个采集线程组。
优选地,其特征在于,所述数据项为被采集的最小独立单元。
优选地,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理;
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
有益效果为:引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是一种处理业务关联数据的装置的结构框图。
附图标记:质量管理模块-1;有用数据挖掘模块-2;初步处理子模块-11;数据描述子模块-12;数据质量评价子模块-13;数据质量分级管理子模块-14;数据预处理子模块-21;有用数据构建子模块-22;有用数据修正子模块-23;有用数据分层挖掘子模块-24。
具体实施方式
结合以下实施例对本发明作进一步描述。
实施例1:
如图1所示的一种处理业务关联数据的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,用于对业务关联数据进行采集,其特征是,包括以下步骤:
D1将属于同一业务的多个待采集的数据项连续放置,属于不同业务的共有的待采集数据项放置在两种业务分别对应的数据项之间;
D2采用若干采集线程组启动数据采集过程顺序调度数据项队列放置的各项,完成业务关联的数据采集。
优选地,其特征是,所述D1包括以下步骤:
d1将每个数据采集业务分别对应一个采集过程,且将采集周期相同的多个采集过程划分在同一采集过程队列;
d2将每个采集过程队列包含的多个采集过程依据采集过程间的数据项共有关系进行采集过程排序;
d3将每个采集过程依据该采集过程与相近采集过程间的数据项共有关系进行该采集过程内数据项排序,得到最终数据项队列;
其中,所述每个采集过程队列分别对应一个采集线程组。
优选地,其特征在于,所述数据项为被采集的最小独立单元。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例2:
如图1所示的一种处理业务关联数据的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,用于对业务关联数据进行采集,其特征是,包括以下步骤:
D1将属于同一业务的多个待采集的数据项连续放置,属于不同业务的共有的待采集数据项放置在两种业务分别对应的数据项之间;
D2采用若干采集线程组启动数据采集过程顺序调度数据项队列放置的各项,完成业务关联的数据采集。
优选地,其特征是,所述D1包括以下步骤:
d1将每个数据采集业务分别对应一个采集过程,且将采集周期相同的多个采集过程划分在同一采集过程队列;
d2将每个采集过程队列包含的多个采集过程依据采集过程间的数据项共有关系进行采集过程排序;
d3将每个采集过程依据该采集过程与相近采集过程间的数据项共有关系进行该采集过程内数据项排序,得到最终数据项队列;
其中,所述每个采集过程队列分别对应一个采集线程组。
优选地,其特征在于,所述数据项为被采集的最小独立单元。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/6,提示数据范围增加4%,但是计算量增加了3.3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例3:
如图1所示的一种处理业务关联数据的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,用于对业务关联数据进行采集,其特征是,包括以下步骤:
D1将属于同一业务的多个待采集的数据项连续放置,属于不同业务的共有的待采集数据项放置在两种业务分别对应的数据项之间;
D2采用若干采集线程组启动数据采集过程顺序调度数据项队列放置的各项,完成业务关联的数据采集。
优选地,其特征是,所述D1包括以下步骤:
d1将每个数据采集业务分别对应一个采集过程,且将采集周期相同的多个采集过程划分在同一采集过程队列;
d2将每个采集过程队列包含的多个采集过程依据采集过程间的数据项共有关系进行采集过程排序;
d3将每个采集过程依据该采集过程与相近采集过程间的数据项共有关系进行该采集过程内数据项排序,得到最终数据项队列;
其中,所述每个采集过程队列分别对应一个采集线程组。
优选地,其特征在于,所述数据项为被采集的最小独立单元。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/7,提示数据范围增加3.5%,但是计算量增加了3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例4:
如图1所示的一种处理业务关联数据的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,用于对业务关联数据进行采集,其特征是,包括以下步骤:
D1将属于同一业务的多个待采集的数据项连续放置,属于不同业务的共有的待采集数据项放置在两种业务分别对应的数据项之间;
D2采用若干采集线程组启动数据采集过程顺序调度数据项队列放置的各项,完成业务关联的数据采集。
优选地,其特征是,所述D1包括以下步骤:
d1将每个数据采集业务分别对应一个采集过程,且将采集周期相同的多个采集过程划分在同一采集过程队列;
d2将每个采集过程队列包含的多个采集过程依据采集过程间的数据项共有关系进行采集过程排序;
d3将每个采集过程依据该采集过程与相近采集过程间的数据项共有关系进行该采集过程内数据项排序,得到最终数据项队列;
其中,所述每个采集过程队列分别对应一个采集线程组。
优选地,其特征在于,所述数据项为被采集的最小独立单元。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/8,提示数据范围增加3%,但是计算量增加了2.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例5:
如图1所示的一种处理业务关联数据的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,用于对业务关联数据进行采集,其特征是,包括以下步骤:
D1将属于同一业务的多个待采集的数据项连续放置,属于不同业务的共有的待采集数据项放置在两种业务分别对应的数据项之间;
D2采用若干采集线程组启动数据采集过程顺序调度数据项队列放置的各项,完成业务关联的数据采集。
优选地,其特征是,所述D1包括以下步骤:
d1将每个数据采集业务分别对应一个采集过程,且将采集周期相同的多个采集过程划分在同一采集过程队列;
d2将每个采集过程队列包含的多个采集过程依据采集过程间的数据项共有关系进行采集过程排序;
d3将每个采集过程依据该采集过程与相近采集过程间的数据项共有关系进行该采集过程内数据项排序,得到最终数据项队列;
其中,所述每个采集过程队列分别对应一个采集线程组。
优选地,其特征在于,所述数据项为被采集的最小独立单元。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/9,提示数据范围增加2.7%,但是计算量增加了2.5%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (5)
1.一种处理业务关联数据的装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块,用于对业务关联数据进行采集,其特征是,包括以下步骤:
D1将属于同一业务的多个待采集的数据项连续放置,属于不同业务的共有的待采集数据项放置在两种业务分别对应的数据项之间;
D2采用若干采集线程组启动数据采集过程顺序调度数据项队列放置的各项,完成业务关联的数据采集。
2.根据权利要求1所述的一种处理业务关联数据的装置,其特征是,所述D1包括以下步骤:
d1将每个数据采集业务分别对应一个采集过程,且将采集周期相同的多个采集过程划分在同一采集过程队列;
d2将每个采集过程队列包含的多个采集过程依据采集过程间的数据项共有关系进行采集过程排序;
d3将每个采集过程依据该采集过程与相近采集过程间的数据项共有关系进行该采集过程内数据项排序,得到最终数据项队列;
其中,所述每个采集过程队列分别对应一个采集线程组。
3.根据权利要求1所述的一种处理业务关联数据的装置,其特征在于,所述数据项为被采集的最小独立单元。
4.根据权利要求1所述的一种处理业务关联数据的装置,其特征是,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
5.根据权利要求1所述的一种处理业务关联数据的装置,其特征是,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集;
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610524327.8A CN106126739A (zh) | 2016-07-04 | 2016-07-04 | 一种处理业务关联数据的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610524327.8A CN106126739A (zh) | 2016-07-04 | 2016-07-04 | 一种处理业务关联数据的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126739A true CN106126739A (zh) | 2016-11-16 |
Family
ID=57469453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610524327.8A Withdrawn CN106126739A (zh) | 2016-07-04 | 2016-07-04 | 一种处理业务关联数据的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126739A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122425A (zh) * | 2017-04-07 | 2017-09-01 | 广东精点数据科技股份有限公司 | 对企业客户进行评价的方法及*** |
CN111049698A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 一种遥测数据采集方法及装置 |
CN113129481A (zh) * | 2019-12-31 | 2021-07-16 | 广州海英智慧家居科技有限公司 | 一种指纹锁控制方法 |
-
2016
- 2016-07-04 CN CN201610524327.8A patent/CN106126739A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122425A (zh) * | 2017-04-07 | 2017-09-01 | 广东精点数据科技股份有限公司 | 对企业客户进行评价的方法及*** |
CN111049698A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 一种遥测数据采集方法及装置 |
CN111049698B (zh) * | 2018-10-15 | 2022-04-29 | 华为技术有限公司 | 一种遥测数据采集方法及装置 |
CN113129481A (zh) * | 2019-12-31 | 2021-07-16 | 广州海英智慧家居科技有限公司 | 一种指纹锁控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
Ardizzone et al. | Impact of mapping errors on the reliability of landslide hazard maps | |
US5546564A (en) | Cost estimating system | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
CN111222661A (zh) | 一种城市规划实施效果分析评估方法 | |
CN110135890A (zh) | 基于知识关系挖掘的产品数据推送方法及相关设备 | |
CN105975640A (zh) | 一种大数据质量管理与有用数据挖掘装置 | |
CN110516704A (zh) | 一种基于关联规则的mlknn多标签分类方法 | |
CN106326923A (zh) | 一种顾及位置重复和密度峰值点的签到位置数据聚类方法 | |
CN106126739A (zh) | 一种处理业务关联数据的装置 | |
CN108898244B (zh) | 一种耦合多源要素的数字标牌位置推荐方法 | |
CN105205052A (zh) | 一种数据挖掘方法及装置 | |
CN110263109A (zh) | 一种融合互联网信息及gis技术的家庭户数估算方法 | |
CN106202347A (zh) | 一种用于数据质量管理与有用数据挖掘的装置 | |
CN110459050B (zh) | 一种基于混合决策树的短期公交客流预测方法 | |
CN106202344A (zh) | 一种车载数据的质量管理与有用数据挖掘装置 | |
CN111461197A (zh) | 一种基于特征提取的空间负荷分布规律研究方法 | |
Soltanifard et al. | Assessment and ranking of influencing factors in the relationship between spatial patterns of urban green spaces and socioeconomic indices in Mashhad urban districts, Iran | |
CN106156323A (zh) | 实现数据分级管理与挖掘的装置 | |
CN103150616B (zh) | 一种史前聚落遗址分布特征的挖掘方法 | |
Zhang et al. | Clustering with implicit constraints: A novel approach to housing market segmentation | |
CN106611339B (zh) | 种子用户筛选方法、产品的用户影响力评价方法及装置 | |
CN106202345A (zh) | 一种基于数据挖掘的故障诊断装置 | |
CN106156322A (zh) | 一种大规模数据处理装置 | |
CN106126738A (zh) | 一种图像数据管理和选取的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C04 | Withdrawal of patent application after publication (patent law 2001) | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20161116 |