CN104699717A - 数据挖掘方法 - Google Patents

数据挖掘方法 Download PDF

Info

Publication number
CN104699717A
CN104699717A CN201310665357.7A CN201310665357A CN104699717A CN 104699717 A CN104699717 A CN 104699717A CN 201310665357 A CN201310665357 A CN 201310665357A CN 104699717 A CN104699717 A CN 104699717A
Authority
CN
China
Prior art keywords
sample
data
regression model
destination object
digging method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310665357.7A
Other languages
English (en)
Other versions
CN104699717B (zh
Inventor
王骏
杨鸿超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201310665357.7A priority Critical patent/CN104699717B/zh
Priority to EP14869820.2A priority patent/EP3082051A4/en
Priority to PCT/CN2014/093430 priority patent/WO2015085916A1/zh
Priority to US15/100,533 priority patent/US10482093B2/en
Publication of CN104699717A publication Critical patent/CN104699717A/zh
Application granted granted Critical
Publication of CN104699717B publication Critical patent/CN104699717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了数据挖掘方法,所述方法包括:根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集,每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值;从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量,并对筛选出的特性向量执行过滤操作以获得样本;基于所述样本构建回归模型,并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。本发明所公开的数据挖掘方法能够根据目标对象的综合特征来挖掘和分类目标对象。

Description

数据挖掘方法
技术领域
本发明涉及数据挖掘方法,更具体地,涉及基于回归模型的数据挖掘方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,从与特定的对象相关的海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。
在现有的技术方案中,通常根据与目标对象相关联的一个或多个属性数据来对目标对象进行分类,即基于每个目标对象的某个或某些特定的属性数据的值对目标对象进行分类。
然而,现有的技术方案存在如下问题:由于仅仅基于单一或数个属性数据对目标对象进行分类,故分类结果的精确度较低,并且由于需要对每个目标对象的属性数据进行相同的评估操作,故数据挖掘的效率较低。
因此,存在如下需求:提供能够根据目标对象的综合特征来挖掘和分类目标对象的基于回归模型的数据挖掘方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够根据目标对象的综合特征来挖掘和分类目标对象的基于回归模型的数据挖掘方法。
本发明的目的是通过以下技术方案实现的:
一种数据挖掘方法,所述数据挖掘方法包括下列步骤:
(A1)根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集,每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值;
(A2)从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量,并对筛选出的特性向量执行过滤操作以获得样本;
(A3)基于所述样本构建回归模型,并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。
在上面所公开的方案中,优选地,所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值。
在上面所公开的方案中,优选地,所述过滤操作包括:根据预定的标准从筛选出的特性向量中过滤掉噪点。
在上面所公开的方案中,优选地,所述步骤(A3)进一步包括:抽取所述样本中的第一部分作为训练样本以构建所述回归模型;抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型;抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。
在上面所公开的方案中,优选地,所述步骤(A3)进一步包括:在构建所述回归模型之前对每个样本中的每个字段执行规范化操作,其包括:(1)处理缺失值;(2)处理奇异值;(3)对离散型的字符型字段进行重新编码;(4)对每个样本中的每个字段以z-score方式进行规范化,以消除量纲不一致的影响。
在上面所公开的方案中,优选地,所述步骤(A3)进一步包括:在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作,其包括:(1)对连续型的数据以划分区间的方式进行离散化,其中,区间之间的划分点是导致目标变量出现明显转折的点;(2)根据WOE值曲线的趋势来判断区间划分结果的优劣,其中,如果WOE值曲线是递增、递减或者只有一个转折点的趋势,则确定划分结果是优良的并随之终止离散化操作,否则返回步骤(1)以继续在该区间内进行划分。
在上面所公开的方案中,优选地,以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象:基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率,并且如果计算出的概率大于预定的分类阈值,则判定该已知的第二类目标对象潜在地属于第一类目标对象。
本发明所公开的基于回归模型的数据挖掘方法具有以下优点:能够根据目标对象的综合特征来挖掘和分类目标对象,并且由于使用回归模型进行判定,故复用性较高并且能够显著地提高判定操作的效率和准确性。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的数据挖掘方法的流程图。
具体实施方式
图1是根据本发明的实施例的数据挖掘方法的流程图。如图1所示,本发明所公开的数据挖掘方法包括下列步骤:(A1)根据目标数据集(例如金融领域中的交易记录集合)中的记录统计每个目标对象(例如金融卡持卡人)的特征向量以构成粗糙数据集,每个所述特征向量包括其所对应的目标对象的至少一个属性数据(例如金融领域中的月均消费金额、月均交易频度、跨境交易次数、境外消费金额、大额交易占比、高端卡标记等等)的值;(A2)从所述粗糙数据集中筛选出所有已知的第一类目标对象(例如金融领域中的高端持卡人,诸如白金卡持卡人)所对应的特征向量,并对筛选出的特性向量执行过滤操作以获得样本;(A3)基于所述样本构建回归模型,并随之使用所构建的回归模型确定所有已知的第二类目标对象(例如金融领域中的非高端持卡人,诸如普通卡持卡人)中的每个是否潜在地属于第一类目标对象(例如,从非高端持卡人中挖掘出潜在的高端持卡人)。
优选地,在本发明所公开的数据挖掘方法中,所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值(即所述回归模型包含所有第一类目标对象共有的特征)。
优选地,在本发明所公开的数据挖掘方法中,所述过滤操作包括:根据预定的标准从筛选出的特性向量中过滤掉噪点(例如,针对金融领域中的高端持卡人信息,如果以月均消费额度为筛选标准,则过滤噪点的过程如下:对该字段进行排序,过滤掉前10%和后10%的持卡人交易信息,因为并非所有的高端卡的消费记录都属于高端消费特性,并且少部分的高端卡的消费记录过于高端而缺少普适性)。
优选地,在本发明所公开的数据挖掘方法中,所述步骤(A3)进一步包括:抽取所述样本中的第一部分(例如70%)作为训练样本以构建所述回归模型;抽取所述样本中的第二部分(例如20%)作为测试样本以测试已构建的回归模型;抽取所述样本中的第三部分(例如10%)作为应用样本以测试已构建的回归模型稳定性。
优选地,在本发明所公开的数据挖掘方法中,所述步骤(A3)进一步包括:在构建所述回归模型之前对每个样本中的每个字段执行规范化操作,其包括:(1)处理缺失值(例如,如果数值型字段缺失数据,则采用列均值填充,如果字符型字段缺失数据,则丢弃该样本);(2)处理奇异值(例如采用盒装图技术过滤出极值异常点);(3)对离散型的字符型字段进行重新编码;(4)对每个样本中的每个字段以z-score方式进行规范化,以消除量纲不一致的影响。
优选地,在本发明所公开的数据挖掘方法中,所述步骤(A3)进一步包括:在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作,其包括:(1)对连续型的数据以划分区间的方式进行离散化,其中,区间之间的划分点是导致目标变量出现明显转折的点;(2)根据WOE(weight of evidence,证据权重)值曲线的趋势来判断区间划分结果的优劣,其中,如果WOE值曲线是递增、递减或者只有一个转折点的趋势,则确定划分结果是优良的并随之终止离散化操作,否则返回步骤(1)以继续在该区间内进行划分。
优选地,在本发明所公开的数据挖掘方法中,以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象:基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率,并且如果计算出的概率大于预定的分类阈值(例如0.8),则判定该已知的第二类目标对象潜在地属于第一类目标对象(例如,在金融领域中,判定某个普通卡用户是潜在的高价值持卡人)。
由上可见,本发明所公开的数据挖掘方法具有下列优点:能够根据目标对象的综合特征来挖掘和分类目标对象,并且由于使用回归模型进行判定,故复用性较高并且能够显著地提高判定操作的效率和准确性。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (7)

1.一种数据挖掘方法,所述数据挖掘方法包括下列步骤:
(A1)根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集,每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值;
(A2)从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量,并对筛选出的特性向量执行过滤操作以获得样本;
(A3)基于所述样本构建回归模型,并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。
2.根据权利要求1所述的数据挖掘方法,其特征在于,所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值。
3.根据权利要求2所述的数据挖掘方法,其特征在于,所述过滤操作包括:根据预定的标准从筛选出的特性向量中过滤掉噪点。
4.根据权利要求3所述的数据挖掘方法,其特征在于,所述步骤(A3)进一步包括:抽取所述样本中的第一部分作为训练样本以构建所述回归模型;抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型;抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。
5.根据权利要求4所述的数据挖掘方法,其特征在于,所述步骤(A3)进一步包括:在构建所述回归模型之前对每个样本中的每个字段执行规范化操作,其包括:(1)处理缺失值;(2)处理奇异值;(3)对离散型的字符型字段进行重新编码;(4)对每个样本中的每个字段以z-score方式进行规范化,以消除量纲不一致的影响。
6.根据权利要求5所述的数据挖掘方法,其特征在于,所述步骤(A3)进一步包括:在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作,其包括:(1)对连续型的数据以划分区间的方式进行离散化,其中,区间之间的划分点是导致目标变量出现明显转折的点;(2)根据WOE值曲线的趋势来判断区间划分结果的优劣,其中,如果WOE值曲线是递增、递减或者只有一个转折点的趋势,则确定划分结果是优良的并随之终止离散化操作,否则返回步骤(1)以继续在该区间内进行划分。
7.根据权利要求6所述的数据挖掘方法,其特征在于,以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象:基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率,并且如果计算出的概率大于预定的分类阈值,则判定该已知的第二类目标对象潜在地属于第一类目标对象。
CN201310665357.7A 2013-12-10 2013-12-10 数据挖掘方法 Active CN104699717B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310665357.7A CN104699717B (zh) 2013-12-10 2013-12-10 数据挖掘方法
EP14869820.2A EP3082051A4 (en) 2013-12-10 2014-12-10 Data mining method
PCT/CN2014/093430 WO2015085916A1 (zh) 2013-12-10 2014-12-10 数据挖掘方法
US15/100,533 US10482093B2 (en) 2013-12-10 2014-12-10 Data mining method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310665357.7A CN104699717B (zh) 2013-12-10 2013-12-10 数据挖掘方法

Publications (2)

Publication Number Publication Date
CN104699717A true CN104699717A (zh) 2015-06-10
CN104699717B CN104699717B (zh) 2019-01-18

Family

ID=53346850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310665357.7A Active CN104699717B (zh) 2013-12-10 2013-12-10 数据挖掘方法

Country Status (4)

Country Link
US (1) US10482093B2 (zh)
EP (1) EP3082051A4 (zh)
CN (1) CN104699717B (zh)
WO (1) WO2015085916A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975590A (zh) * 2016-05-03 2016-09-28 无锡雅座在线科技发展有限公司 对象类型的确定方法和装置
CN106570015A (zh) * 2015-10-09 2017-04-19 杭州海康威视数字技术股份有限公司 图像搜索方法和装置
CN107153907A (zh) * 2017-03-22 2017-09-12 华为技术有限公司 一种评估视频业务的***的方法及相关装置
CN107229621A (zh) * 2016-03-23 2017-10-03 北大方正集团有限公司 差异数据的清洗方法及装置
CN108334954A (zh) * 2018-01-22 2018-07-27 中国平安人寿保险股份有限公司 逻辑回归模型的构建方法、装置、存储介质及终端
CN108427753A (zh) * 2018-03-13 2018-08-21 河海大学 一种新的数据挖掘方法
CN108932530A (zh) * 2018-06-29 2018-12-04 新华三大数据技术有限公司 标签体系的构建方法及装置
CN109241669A (zh) * 2018-10-08 2019-01-18 成都四方伟业软件股份有限公司 一种自动建模方法、装置及其存储介质
CN110766944A (zh) * 2019-10-28 2020-02-07 长沙地大物泊网络科技有限公司 一种基于车辆轨迹大数据挖掘的停车位推荐方法
CN110910231A (zh) * 2019-11-06 2020-03-24 上海百事通信息技术股份有限公司 一种债务清收管理平台
CN110908858A (zh) * 2019-10-12 2020-03-24 中国平安财产保险股份有限公司 基于双漏斗结构的日志类样本抽样方法及相关装置
CN111667919A (zh) * 2019-03-05 2020-09-15 上海悟景信息科技有限公司 一种基于物联网的智慧养老***及方法
CN111984707A (zh) * 2020-08-21 2020-11-24 重庆大数据研究院有限公司 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法
CN112102074A (zh) * 2020-10-14 2020-12-18 深圳前海弘犀智能科技有限公司 一种评分卡建模方法
CN112783934A (zh) * 2019-11-11 2021-05-11 北京沃东天骏信息技术有限公司 交易数据区间确定方法及装置、存储介质及计算机设备
CN113051317A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种数据探查方法和***、数据挖掘模型更新方法和***
CN113222632A (zh) * 2020-02-04 2021-08-06 北京京东振世信息技术有限公司 对象挖掘的方法和装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090475A1 (ja) * 2015-11-25 2017-06-01 日本電気株式会社 情報処理システム、関数作成方法および関数作成プログラム
JP7199345B2 (ja) 2017-03-30 2023-01-05 ドットデータ インコーポレイテッド 情報処理システム、特徴量説明方法および特徴量説明プログラム
CN109325167B (zh) * 2017-07-31 2022-02-18 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质
SG11202003814TA (en) 2017-10-05 2020-05-28 Dotdata Inc Feature generating device, feature generating method, and feature generating program
CN109583468B (zh) * 2018-10-12 2020-09-22 阿里巴巴集团控股有限公司 训练样本获取方法,样本预测方法及对应装置
CN109615232A (zh) * 2018-12-12 2019-04-12 税友软件集团股份有限公司 一种信用积分预测的方法、***及相关装置
CN109636482B (zh) * 2018-12-21 2021-07-27 南京星云数字技术有限公司 基于相似度模型的数据处理方法及***
CN110245981B (zh) * 2019-05-31 2021-10-01 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN113159085B (zh) * 2020-12-30 2024-05-28 北京爱笔科技有限公司 分类模型的训练及基于图像的分类方法、相关装置
CN114422973B (zh) * 2022-03-30 2022-06-28 北京融信数联科技有限公司 一种基于大数据的网约车司机智能识别方法、***及可读存储介质
CN114511047B (zh) * 2022-04-20 2022-07-08 北京寄云鼎城科技有限公司 挖掘机工作模式识别方法、计算机设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和***
US20100191734A1 (en) * 2009-01-23 2010-07-29 Rajaram Shyam Sundar System and method for classifying documents
CN102693498A (zh) * 2012-05-16 2012-09-26 上海卓达信息技术有限公司 一种基于不完善数据的精准推荐方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6016394A (en) * 1997-09-17 2000-01-18 Tenfold Corporation Method and system for database application software creation requiring minimal programming
US20020169735A1 (en) * 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
US7139764B2 (en) * 2003-06-25 2006-11-21 Lee Shih-Jong J Dynamic learning and knowledge representation for data mining
US7873218B2 (en) * 2004-04-26 2011-01-18 Canon Kabushiki Kaisha Function approximation processing method and image processing method
US7627620B2 (en) * 2004-12-16 2009-12-01 Oracle International Corporation Data-centric automatic data mining
US8503796B2 (en) * 2006-12-29 2013-08-06 Ncr Corporation Method of validating a media item
US8527445B2 (en) * 2010-12-02 2013-09-03 Pukoa Scientific, Llc Apparatus, system, and method for object detection and identification
US8402397B2 (en) * 2011-07-26 2013-03-19 Mentor Graphics Corporation Hotspot detection based on machine learning
US8612599B2 (en) * 2011-09-07 2013-12-17 Accenture Global Services Limited Cloud service monitoring system
CN103176981B (zh) * 2011-12-20 2016-04-27 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法
US9152997B2 (en) * 2012-01-27 2015-10-06 Robert M. Sellers, Jr. Method for buying and selling stocks and securities
CN103324938A (zh) * 2012-03-21 2013-09-25 日电(中国)有限公司 训练姿态分类器及物体分类器、物体检测的方法及装置
US9164961B2 (en) * 2012-11-30 2015-10-20 Xerox Corporation Methods and systems for predicting learning curve for statistical machine translation system
WO2014103560A1 (ja) * 2012-12-25 2014-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 分析装置、分析プログラム、分析方法、推定装置、推定プログラム、及び、推定方法。

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和***
US20100191734A1 (en) * 2009-01-23 2010-07-29 Rajaram Shyam Sundar System and method for classifying documents
CN102693498A (zh) * 2012-05-16 2012-09-26 上海卓达信息技术有限公司 一种基于不完善数据的精准推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHRISTOPHER D. MANNING等: "An Introduction to Information Retrieval", 《ONLINE EDITION(C) 2009 CAMBRIDGE UP》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570015A (zh) * 2015-10-09 2017-04-19 杭州海康威视数字技术股份有限公司 图像搜索方法和装置
CN106570015B (zh) * 2015-10-09 2020-02-21 杭州海康威视数字技术股份有限公司 图像搜索方法和装置
CN107229621A (zh) * 2016-03-23 2017-10-03 北大方正集团有限公司 差异数据的清洗方法及装置
CN105975590A (zh) * 2016-05-03 2016-09-28 无锡雅座在线科技发展有限公司 对象类型的确定方法和装置
CN107153907A (zh) * 2017-03-22 2017-09-12 华为技术有限公司 一种评估视频业务的***的方法及相关装置
CN108334954A (zh) * 2018-01-22 2018-07-27 中国平安人寿保险股份有限公司 逻辑回归模型的构建方法、装置、存储介质及终端
CN108427753A (zh) * 2018-03-13 2018-08-21 河海大学 一种新的数据挖掘方法
CN108932530A (zh) * 2018-06-29 2018-12-04 新华三大数据技术有限公司 标签体系的构建方法及装置
CN109241669A (zh) * 2018-10-08 2019-01-18 成都四方伟业软件股份有限公司 一种自动建模方法、装置及其存储介质
CN111667919A (zh) * 2019-03-05 2020-09-15 上海悟景信息科技有限公司 一种基于物联网的智慧养老***及方法
CN110908858A (zh) * 2019-10-12 2020-03-24 中国平安财产保险股份有限公司 基于双漏斗结构的日志类样本抽样方法及相关装置
CN110766944A (zh) * 2019-10-28 2020-02-07 长沙地大物泊网络科技有限公司 一种基于车辆轨迹大数据挖掘的停车位推荐方法
CN110910231A (zh) * 2019-11-06 2020-03-24 上海百事通信息技术股份有限公司 一种债务清收管理平台
CN112783934A (zh) * 2019-11-11 2021-05-11 北京沃东天骏信息技术有限公司 交易数据区间确定方法及装置、存储介质及计算机设备
CN112783934B (zh) * 2019-11-11 2024-04-05 北京沃东天骏信息技术有限公司 交易数据区间确定方法及装置、存储介质及计算机设备
CN113222632A (zh) * 2020-02-04 2021-08-06 北京京东振世信息技术有限公司 对象挖掘的方法和装置
CN111984707A (zh) * 2020-08-21 2020-11-24 重庆大数据研究院有限公司 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法
CN112102074A (zh) * 2020-10-14 2020-12-18 深圳前海弘犀智能科技有限公司 一种评分卡建模方法
CN112102074B (zh) * 2020-10-14 2024-01-30 深圳前海弘犀智能科技有限公司 一种评分卡建模方法
CN113051317A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种数据探查方法和***、数据挖掘模型更新方法和***
CN113051317B (zh) * 2021-04-09 2024-05-28 上海云从企业发展有限公司 一种数据挖掘模型更新方法、***、计算机设备及可读介质

Also Published As

Publication number Publication date
US10482093B2 (en) 2019-11-19
US20160314174A1 (en) 2016-10-27
EP3082051A4 (en) 2017-08-16
WO2015085916A1 (zh) 2015-06-18
EP3082051A1 (en) 2016-10-19
CN104699717B (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN104699717A (zh) 数据挖掘方法
CN111428599B (zh) 票据识别方法、装置和设备
CN106022902A (zh) 一种会计核算方法及装置
CN102629305B (zh) 一种面向snp数据的特征选择方法
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及***
CA2671627A1 (en) Intelligent collections models
CN105893388A (zh) 一种基于类间区分度及类内高表征度的文本特征提取方法
CN105528447B (zh) 一种对特定数据逐层边剔除边汇总的方法
CN102081781A (zh) 基于信息自循环的金融建模优化方法
CN111325619A (zh) 一种基于联合学习的***欺诈检测模型更新方法及装置
CN102982421A (zh) 基于银行对账单的集团合并现金流量表的编制方法及***
CN107169864A (zh) 一种基于复杂网络的***客户欺诈风险特征提取方法
CN110297853A (zh) 频繁集挖掘方法和装置
CN107644299A (zh) 账单资金流向分析方法及计算机可读存储介质
CN104699702A (zh) 数据挖掘及分类方法
CN109559058A (zh) 一种基于云计算的电子商务用户行为数据分析技术
CN103885947A (zh) 一种搜索需求的挖掘方法、智能搜索方法及其装置
CN107493370A (zh) 流量模板确定方法、流量信息识别方法及装置
CN111199465A (zh) 一种基于智能化的企业财务识假的方法
CN104932742B (zh) 一种触屏设备获取多点操作轨迹的方法及***
CN105589900A (zh) 基于多维分析的数据挖掘方法
CN110958273B (zh) 一种基于分布式数据流的区块链检测***
CN105320666B (zh) 多数据集的数据聚合方法
CN101840423A (zh) 基于成对下单原理与数据挖掘技术的话单准确性稽核***
CN103761573A (zh) 实现内部交易业务进行对账关联的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant