CN104123395A - 一种基于大数据的决策方法和*** - Google Patents

一种基于大数据的决策方法和*** Download PDF

Info

Publication number
CN104123395A
CN104123395A CN201410398787.1A CN201410398787A CN104123395A CN 104123395 A CN104123395 A CN 104123395A CN 201410398787 A CN201410398787 A CN 201410398787A CN 104123395 A CN104123395 A CN 104123395A
Authority
CN
China
Prior art keywords
data
decision
user
setting
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410398787.1A
Other languages
English (en)
Inventor
程恒炎
高伟
李登彪
陈烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING CYCLE CENTURY DIGITAL TECHNOLOGY Co Ltd
Original Assignee
BEIJING CYCLE CENTURY DIGITAL TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CYCLE CENTURY DIGITAL TECHNOLOGY Co Ltd filed Critical BEIJING CYCLE CENTURY DIGITAL TECHNOLOGY Co Ltd
Priority to CN201410398787.1A priority Critical patent/CN104123395A/zh
Publication of CN104123395A publication Critical patent/CN104123395A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种基于大数据的决策方法和***,所述方法预先集成了一系列可通用于各行业的决策影响因素,并提供对各影响因素进行设置的设置功能,使各行各业的用户通过简单的设置即可实现对决策所需的采集规则、决策规则等进行定制,如用户可通过对行业类型、数据关键字进行设置来制定采集规则;同时,本发明预先建立了一个通用的分类模型,该模型可基于用户依据其业务需求设置的辅助信息对待分类数据进行分类,方便对用户所需数据进行进一步挖掘,得出目标数据,例如,模型可依据用户设置的“病症”这一辅助信息,从病症的角对采集的医疗数据进行分类,最后依据用户设置的决策规则实现决策。可见,本发明克服了现有决策方法不具有通用性的缺点。

Description

一种基于大数据的决策方法和***
技术领域
本发明属于基于大数据的数据挖掘和处理技术领域,尤其涉及一种基于大数据的决策方法和***。
背景技术
当前,人们生活在大数据时代,各种数据***式增长,每天均有大量的资讯、娱乐、财经、医疗、教育等各行各业的信息数据注入网络,形成海量数据。
从这些海量数据中挖掘出有价值的数据,并对其进行分析作出有效决策可为各行业的企业或个人提供参考、辅助作用,例如从海量数据中挖掘医疗行业中某病症的病例、治疗方法及治疗效果等信息,通过对各病例采用的治疗方法及相应的治疗效果进行分析,得出治疗该病症的最优方法,为后续医生对该病症的治疗提供参考。然而,现有基于大数据的决策方法或***不具有通用性,不能满足不同行业、不同业务的决策需求。
发明内容
有鉴于此,本发明的目的在于提供一种基于大数据的决策方法和***,以解决现有基于大数据的决策方法或***不具有通用性的问题。
为此,本发明公开如下技术方案:
一种基于大数据的决策方法,包括:
基于用户依据其业务需求所设置的采集规则,从数据源中获取相应的原始数据,并将所述原始数据作为待分类数据,所述采集规则包含预先集成的各采集因素的用户设置信息;
利用预先建立的分类模型结合用户依据其业务需求设置的辅助信息对所述待分类数据进行分类,得到各个类别的数据,并将所述各个类别的数据中与用户的业务需求相对应的类别的数据作为目标数据;
基于用户依据其业务需求所设置的决策规则对所述目标数据进行处理和决策,得出决策结果,所述决策规则包含预先集成的各决策因素的用户设置信息。
上述方法,优选的,所述采集因素包括行业类型、数据关键字、数据相似度、反监控策略及数据抓取策略,所述行业类型包括资讯、娱乐、财经、教育、医疗、体育、汽车、时尚、科技、房产。
上述方法,优选的,所述决策因素包含关联规则策略、决策目的、决策成本和决策耗时,其中,所述关联规则策略包含关键参量之间的支持度和置信度,所述关键参量由用户依据其业务需求而定。
上述方法,优选的,所述辅助信息包括分类方法和分类角度,所述分类方法包括决策树分类、贝叶斯分类、神经网络分类。
上述方法,优选的,还包括:
对所述原始数据进行选样,利用所选出的样本数据,对所述分类模型进行验证,并在验证结果未达到期望目标时,依据所述验证结果对所述分类模型进行调整。
上述方法,优选的,还包括:
利用设定的预处理规则对所述原始数据进行预处理,并将经过预处理的数据作为新的待分类数据,所述预处理规则包含至少一个设定了操作方式的预处理操作,某一预处理操作的操作方式由用户基于预先集成的所述预处理操作的操作方式集设置而定。
上述方法,优选的,所述预处理包括:数据清理、数据集成、数据转换、数据归约和压缩,其中:
所述数据清理,包括填写空缺值,平滑噪声数据,识别、删除孤立点;
所述数据集成,包括将数据集成多个数据库、数据立方体或文件;
所述数据转换,包括数据的规范化和聚集。
上述方法,优选的,还包括依据用户的业务需求对所述原始数据进行如下分类存储:
将不需要实时分析的数据以文件的形式通过分布式***基础架构Hadoop的分布式文件***HDFS进行分布式存储;
将需要实时分析的数据通过面向文档存储的数据库MongoDB或关系型数据库进行存储。
上述方法,优选的,采用数据爬虫技术实现从数据源中获取原始数据。
一种基于大数据的决策***,包括获取模块、分类模块和决策模块,其中:
所述获取模块,用于基于用户依据其业务需求所设置的采集规则,从数据源中获取相应的原始数据,并将所述原始数据作为待分类数据,所述采集规则包含预先集成的各采集因素的用户设置信息;
所述分类模块,用于利用预先建立的分类模型结合用户依据其业务需求设置的辅助信息对所述待分类数据进行分类,得到各个类别的数据,并将所述各个类别的数据中与用户的业务需求相对应的类别的数据作为目标数据;
所述决策模块,用于基于用户依据其业务需求所设置的决策规则对所述目标数据进行处理和决策,得出决策结果,所述决策规则包含预先集成的各决策因素的用户设置信息。
上述***,优选的,还包括:
选样和验证模块,用于对所述原始数据进行选样,利用所选出的样本数据,对所述分类模型进行验证,并在验证结果未达到期望目标时,依据所述验证结果对所述分类模型进行调整。
上述***,优选的,还包括:
预处理模块,用于利用设定的预处理规则对所述原始数据进行预处理,并将经过预处理的数据作为新的待分类数据,所述预处理规则包含至少一个设定了操作方式的预处理操作,某一预处理操作的操作方式由用户基于预先集成的所述预处理操作的操作方式集设置而定。
上述***,优选的,还包括:
分类存储模块,用于依据用户的业务需求对所述原始数据进行如下分类存储:将不需要实时分析的数据以文件的形式通过分布式***基础架构Hadoop的分布式文件***HDFS进行分布式存储;需要实时分析的数据通过面向文档存储的数据库MongoDB或关系型数据库进行存储。
本发明方法预先集成了一系列能够通用于各行业的决策影响因素,并为用户提供对各影响因素进行设置的设置功能,使各行各业的用户通过简单的设置即可实现对决策所需的采集规则、决策规则等各项规则进行自定义定制,例如,用户可通过对行业类型、数据关键字等采集因素进行相应设置实现采集规则的制定;同时,本发明预先建立了一个通用的分类模型,该模型可基于用户依据其业务需求设置的辅助信息对待分类数据进行分类,方便对用户所需数据进行进一步挖掘,得出目标数据,例如,模型可依据用户设置的“病症”这一辅助信息,从病症这一角对采集的医疗数据进行分类,最后依据用户设置的决策规则对目标数据进行决策,得出决策结果。
可见,本发明克服了现有决策方法不具有通用性的缺点,能够满足不同行业、不同业务的决策需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一公开的基于大数据的决策方法的一种流程图;
图2是本发明实施例二公开的基于大数据的决策方法的另一种流程图;
图3是本发明实施例三公开的基于大数据的决策方法的又一种流程图;
图4是本发明实施例三公开的预处理过程图;
图5是本发明实施例四公开的基于大数据的决策方法的再一种流程图;
图6是本发明实施例四公开的分类存储示意图;
图7是本发明实施例五公开的基于大数据的决策***的一种结构示意图;
图8是本发明实施例五公开的基于大数据的决策***的另一种结构示意图;
图9是本发明实施例五公开的基于大数据的决策***的又一种结构示意图;
图10是本发明实施例五公开的基于大数据的决策***的再一种结构示意图;
图11是本发明实施例五公开的具体应用实例中决策平台的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
HDFS:Hadoop Distributed File System,简称HDFS,是Hadoop实现的分布式文件***。
Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算,其采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果,简单地说,MapReduce就是“任务的分解与结果的汇总”。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例一公开一种基于大数据的决策方法。
为了支撑不同行业的企业、个人进行决策,保证所述方法具有通用性,本发明预先集成了一系列可通用于各行业的、能够对实现决策的各个环节产生影响的影响因素,例如,可对数据采集产生影响的行业类型、数据关键字、数据相似度等采集因素,可对决策环节产生影响的关联规则策略、决策目的等决策因素,并在此基础上,为用户提供对集成的各影响因素进行设置的设置功能,从而,可使不同行业的用户通过对各影响因素进行简单设定,即可实现采集规则、决策规则等所需规则的自定义定制。
本发明方法可采用软件平台的方式实现其功能。其中,为实现规则制定的灵活性,用户可对相应影响因素进行自定义设置,如输入关键字等,也可以基于预先集成的各个取值对相应影响因素进行选择设置,例如从行业类型的下拉菜单中选择医疗这一行业类型。
参考图1,本发明的基于大数据的决策方法包括如下步骤:
S101:基于用户依据其业务需求所设置的采集规则,从数据源中获取相应的原始数据,并将所述原始数据作为待分类数据,所述采集规则包含预先集成的各采集因素的用户设置信息。
具体地,本步骤采用数据爬虫技术从数据源中采集数据。
其中,在从诸如互联网等数据源中获取、采集原始数据之前,需要用户预先对各采集因素进行相应设置,以确保数据的采集按照一定的采集规则执行。
本实施例中,用户需首先对如下采集因素进行设置:
数据行业类型:即用户业务所属的行业,包括资讯、娱乐、财经、教育、医疗、体育、汽车、时尚、科技、房产等各种类型;
数据关键字:用户业务需求所包含的关键字,例如医疗信息中的某一具体病症、所采用的治疗方法,房产信息中的期房、二手房、具体路段等;
数据相似度:实际采集的数据与期望的目标数据之间的相似度;
反监控策略:包括一定时间内单IP(网络互联协议,Internet Protocol)访问次数、一定时间内单账号访问次数。本发明方法可通过用户设置的这两个数值进行访问次数的控制(控制访问次数不超过用户设定值),从而实现反监控,以规避用户账号或具有相应IP的用户设备因访问次数过多而被网络中的站点作为恶意访客;
数据抓取策略:每分钟开启的线程数,反映采集数据时的数据抓取能力,例如用户可设定每分钟开启100个线程或1000个线程等。
当特定行业的企业或个人需要针对特定业务进行决策时,可依据其业务需求对以上各个影响因素进行相应设置,从而实现了采集规则的制定。
S102:利用预先建立的分类模型结合用户依据其业务需求设置的辅助信息对所述待分类数据进行分类,得到各个类别的数据,并将所述各个类别的数据中与用户的业务需求相对应的类别的数据作为目标数据。
除了集成各决策影响因素,并为用户提供各影响因素的设置功能外,本发明还预先建立了一个可通用于各行业数据的分类模型,该模型具体基于对各行业的各种业务数据进行大样本集训练所得,保证了数据分类的准确度和精度,该模型可采用不同的分类方法对不同行业中的业务数据从不同角度进行分类,例如,针对教育行业的数据,可从教育程度级别的角度将其分为小学、中学、高中等各类数据,还可从学科角度将其分为物理、数学、英语等各类数据;针对医疗行业的数据,可将其从医患角度分为院方、患者两类数据,可还从病症角度将其分为各种病症类别数据。
步骤S101从数据源中采集数据实现了从海量数据中进行数据的初步筛选,例如从资讯、娱乐、财经、教育、医疗等海量数据中采集筛选出医疗数据,但所采集的数据其数据量仍然很庞大,不利于进行高精度决策。基于此考虑,本发明训练并建立了上述分类模型,以依据用户的业务需求对所采集的数据进行细分,进而为从所采集数据中进一步挖掘用户所需数据奠定基础。
分类模型的使用需要结合用户依据其业务需求设置的分类方法和分类角度等辅助信息,分类方法包括决策树分类、贝叶斯分类、神经网络分类等。
其中,用户可参考如下选择原则并结合各分类方法的特性对分类方法进行选择、设置:
预测的准确率:模型正确预测新数据的类编号的能力;
速度:产生和使用模型的计算花销;
健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力;
可伸缩性:对大量数据,有效的构建模型的能力;
可解释性:学习模型提供的理解和洞察的层次。
在此基础上,用户需依据其业务需求设定分类的角度,例如,若用户需对某一病症的治疗状况进行决策,得出该病症的最优治疗方案或几个相对较好的治疗方案,则用户可设定分类角度为“病症”,即使用所设置方法利用分类模型从“病症”这一角度对采集的医疗数据进行分类,得到更细粒度的各分类类别数据。
在利用模型分类得出更细粒度的各类别数据的基础上,本步骤S102依据用户业务需求继续从各类别数据中进一步挖掘出用户所需类别的数据,作为目标数据,例如,从“病症”角度对医疗数据进行细分后,得到各种病症的相关数据,若用户需对“心脏病”这一病症进行决策,则从分类数据中挖掘出“心脏病”的相关数据,从而实现了对不相关数据进行过滤,为后续高精准度的决策提供了保障,现实应用场景中,也可能从各类别数据中挖掘出两种或多种类别的数据,具体情况需视用户具体的业务需求而定。
具体地,本实施例采用Hive数据分析框架对分类后所得各类别数据进行分析,并运行自定义的Map/Reduce(映射计算)计算模型,输出数据分析结果集,进而实现目标数据的挖掘。
S103:基于用户依据其业务需求所设置的决策规则对所述目标数据进行处理和决策,得出决策结果,所述决策规则包含预先集成的各决策因素的用户设置信息。
所述决策因素包含关联规则策略、决策目的、决策成本和决策耗时等,其中,所述关联规则策略包含关键参量之间的支持度和置信度,所述关键参量由用户依据其业务需求进行设置。
本步骤首先基于关联规则策略,依据用户对关键参量间的支持度、置信度的设置阈值从目标数据中抽取出决策所需的数据,在此基础上,将用户设定的决策目的等需求与抽取出的数据相结合进行决策,得出决策结果。
仍以上述示例为例,本发明基于用户设置的“心脏病”与“治疗方法A”的支持度、置信度抽取出治疗方法A的相关治疗数据,基于用户设置的“心脏病”与“治疗方法B”的支持度、置信度抽取出治疗方法B的相关治疗数据,其他治疗方法如治疗方法C、D……的情况类似,在此基础上,若用户的决策目的是获取两种较好的治疗方案,则本发明通过对抽取的各种治疗方法的治疗数据进行分析,决策出两种最好的方案,供医疗人员进行参考,以降低医疗失败风险。
综上,本发明方法预先集成了一系列能够通用于各行业的决策影响因素,并为用户提供对各影响因素进行设置的设置功能,使各行各业的用户通过简单的设置即可实现对决策所需的采集规则、决策规则等各项规则进行自定义定制,例如,用户可通过对行业类型、数据关键字等采集因素进行相应设置实现采集规则的制定;同时,本发明预先建立了一个通用的分类模型,该模型可基于用户依据其业务需求设置的辅助信息对待分类数据进行分类,方便对用户所需数据进行进一步挖掘,得出目标数据,例如,模型可依据用户设置的“病症”这一辅助信息,从病症这一角对采集的医疗数据进行分类,最后依据用户设置的决策规则对目标数据进行决策,得出决策结果。
可见,本发明克服了现有决策方法不具有通用性的缺点,能够满足不同行业、不同业务的决策需求。
实施例二
为保证分类模型的有效性,使其具有较高的分类准确度,参考图2,本实施例二在步骤S101之后,添加如下步骤:
S104:对所述原始数据进行选样,利用所选出的样本数据,对分类模型进行验证,并在验证结果未达到期望目标时,依据所述验证结果对所述分类模型进行调整。
具体地,选样方式包括简单随机选样、聚类选样、分层选样等多种方式,用户可通过设置选取某一方式实现选样。
在选样基础上,继续利用选取出的样本数据对分类模型进行验证,以评估模型的预测准确率,并在验证结果显示分类效果较差时,依据验证结果对分类模型进行调整、校准。
其中,具体的验证内容包括:
针对每个测试样本,将该样本的已知类标号与该样本通过模型预测的类标号进行比较;
验证模型在给定测试样本集上的准确率。
其中,模型在给定测试样本集上的准确率是指被模型正确分类的测试样本占测试样本集的百分比。
需要说明的是,测试样本集要独立于训练样本集,否则会出现“过分适应数据”的情况。
本实施例保证了分类模型具有较高的准确度,为高精准度的决策提供了保障。
实施例三
现实世界的数据很可能是不完整的、含噪音的或不一致的等等,而高质量的决策依赖于高质量的数据,因此,本实施例二在从数据源中获取原始数据之后,添加对原始数据的预处理过程,为后续高质量的挖掘及高质量的决策提供支持。
具体地,参考图3,本发明方法在步骤S104之后还包括:
S105:利用设定的预处理规则对所述原始数据进行预处理,并将经过预处理的数据作为新的待分类数据,所述预处理规则包含至少一个设定了操作方式的预处理操作,某一预处理操作的操作方式由用户基于预先集成的所述预处理操作的操作方式集设置而定。
其中,如图4所示,所述预处理包括:数据清理、数据集成、数据转换、数据归约和压缩。
1)数据清理
包括填写空缺的值,平滑噪声数据,识别、删除孤立点,解决一致性。
其中,空缺值处理规则包括:忽略元组、人工填写空缺值、使用一个全局变量填充空缺值、使用属性的平均值填充空缺值、使用不给定元组属同一类的所有样本的平均值等,用户可采用单选或多选的方式选取相应的处理规则填写、处理空缺值。
噪音数据处理规则:分箱类型选择等。
2)数据集成
将数据集成为多个数据库、数据立方体或文件。
3)数据转换
具体指数据的规范化和聚集。
4)数据归约和压缩
其中,数据压缩是在不丢失信息的前提下,通过缩减数据量来减少存储空间,或按照一定的算法对数据进行重新组织来减少数据的冗余和存储的空间,进而提高数据传输、存储和处理效率的一种技术方法。
具体地,本实施例通过概念分层和数据的离散化来规约数据,对数字型数据特别重要;并对数据进行压缩,得到数据集的压缩表示,压缩后的数据与压缩前相比要小得多,但通过压缩可以得到与原数据相同或相近的结果。
数据规约策略包括有参方法、无参方法,数据压缩策略包括小波变换、主要成分分析,用户可依据实际需求对其进行设置。
本实施例通过对获取的原始数据进行预处理保证了其具有较高了数据质量,进而为高质量的决策提供了支撑。
实施例四
本实施例四继续对以上公开的方法进行补充,如图5所示,上述方法在步骤S101之后还包括:
S106:依据用户的业务需求对所述原始数据进行分类存储,将不需要实时分析的数据以文件的形式通过Hadoop(分布式***基础架构)的HDFS(Hadoop Distributed File System,分布式文件***)进行分布式存储;将需要实时分析的数据通过MongoDB(面向文档存储的数据库)或关系型数据库进行存储。
采集的原始数据中,某些数据可能在后续的数据分类、处理或决策过程中需要实时使用,而其他数据则不需实时使用,因此,参考图6,本实施例根据原始数据中不同数据的不同实时性需求,将其分类存储,具体将实时性要求较低的数据以文件的形式通过hadoop的hdfs分布式存储,而实时性要求较高的数据以文本方式通过MongoDB或关系型数据库存储,为后续调取数据提供便利。
实施例五
本实施例五公开一种基于大数据的决策***,该***与以上各实施例公开的方法相对应。
首先,参考图7,相应于实施例一,该***包括获取模块100、分类模块200和决策模块300。
获取模块100,用于基于用户依据其业务需求所设置的采集规则,从数据源中获取相应的原始数据,并将所述原始数据作为待分类数据,所述采集规则包含预先集成的各采集因素的用户设置信息。
分类模块200,用于利用预先建立的分类模型结合用户依据其业务需求设置的辅助信息对所述待分类数据进行分类,得到各个类别的数据,并将所述各个类别的数据中与用户的业务需求相对应的类别的数据作为目标数据。
决策模块300,用于基于用户依据其业务需求所设置的决策规则对所述目标数据进行处理和决策,得出决策结果,所述决策规则包含预先集成的各决策因素的用户设置信息。
相应于实施例二,如图8所示,上述***还包括选样和验证模块400,该模块用于对所述原始数据进行选样,利用所选出的样本数据,对所述分类模型进行验证,并在验证结果未达到期望目标时,依据所述验证结果对所述分类模型进行调整。
相应于实施例三,参考图9,上述***还包括预处理模块500,该模块用于利用设定的预处理规则对所述原始数据进行预处理,并将经过预处理的数据作为新的待分类数据,所述预处理规则包含至少一个设定了操作方式的预处理操作,某一预处理操作的操作方式由用户基于预先集成的所述预处理操作的操作方式集设置而定。
相应于实施例四,参考图10,上述***还包括分类存储模块600,该模块用于依据用户的业务需求对所述原始数据进行如下分类存储:将不需要实时分析的数据以文件的形式通过分布式***基础架构Hadoop的分布式文件***HDFS进行分布式存储;需要实时分析的数据通过面向文档存储的数据库MongoDB或关系型数据库进行存储。
对于本发明实施例五公开的基于大数据的决策***而言,由于其与以上各实施例公开的基于大数据的决策方法相对应,所以描述的比较简单,相关相似之处请参见以上各实施例中基于大数据的决策方法部分的说明即可,此处不再详述。
接下来,本实施例公开本发明方法或***的一应用实例。参考图11,图11示出了本实例的基于大数据智能决策平台的结构,该平台包括业务规则引擎子***1、数据采集子***2、数据预处理子***3、数据分析子***4以及数据应用子***5。
其中,业务规则引擎子***1定义了不同的数据采集、数据挖掘、数据决策等业务规则设置项,例如,行业类型、关键字、空缺值处理方式、噪音数据处理方式、支持度、置信度、决策目的、决策成本等等,并为用户提供对各设置项进行设置的功能,用户可通过对业务规则引擎子***的相应设置项进行设置来定制采集规则、预处理规则、数据挖掘规则、决策规则等相应规则。
数据采集子***2,依据用户设置的采集规则从数据源中采集数据。
数据预处理子***3,依据用户设置的预处理规则对采集的数据进行预处理。
数据分析子***4,利用预先建立的分类模型并结合用户设置的挖掘规则实现对预处理后的数据进行分类和进一步挖掘,得出用户业务需求所需的目标数据;
数据应用子***5,依据用户设置的决策规则将用户需求及决策所需数据相结合实现决策,得出决策结果。
综上所述,本发明可使不同行业的企业或个人依据其业务需求,基于简单的设置实现定制不同的业务规则算法,解决了现有决策***不具有通用性的缺陷。同时可使用户根据决策成本、决策失误率之间的关系,选择不同的决策方式,例如选择决策成本高,决策失误率低的方式,或选择决策成本低,决策失误率高的方式等,实现了决策***的高灵活性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种基于大数据的决策方法,其特征在于,包括:
基于用户依据其业务需求所设置的采集规则,从数据源中获取相应的原始数据,并将所述原始数据作为待分类数据,所述采集规则包含预先集成的各采集因素的用户设置信息;
利用预先建立的分类模型结合用户依据其业务需求设置的辅助信息对所述待分类数据进行分类,得到各个类别的数据,并将所述各个类别的数据中与用户的业务需求相对应的类别的数据作为目标数据;
基于用户依据其业务需求所设置的决策规则对所述目标数据进行处理和决策,得出决策结果,所述决策规则包含预先集成的各决策因素的用户设置信息。
2.根据权利要求1所述的方法,其特征在于,所述采集因素包括行业类型、数据关键字、数据相似度、反监控策略及数据抓取策略,所述行业类型包括资讯、娱乐、财经、教育、医疗、体育、汽车、时尚、科技、房产。
3.根据权利要求1所述的方法,其特征在于,所述决策因素包含关联规则策略、决策目的、决策成本和决策耗时,其中,所述关联规则策略包含关键参量之间的支持度和置信度,所述关键参量由用户依据其业务需求而定。
4.根据权利要求1所述的方法,其特征在于,所述辅助信息包括分类方法和分类角度,所述分类方法包括决策树分类、贝叶斯分类、神经网络分类。
5.根据权利要求1所述的方法,其特征在于,还包括:
对所述原始数据进行选样,利用所选出的样本数据,对所述分类模型进行验证,并在验证结果未达到期望目标时,依据所述验证结果对所述分类模型进行调整。
6.根据权利要求1所述的方法,其特征在于,还包括:
利用设定的预处理规则对所述原始数据进行预处理,并将经过预处理的数据作为新的待分类数据,所述预处理规则包含至少一个设定了操作方式的预处理操作,某一预处理操作的操作方式由用户基于预先集成的所述预处理操作的操作方式集设置而定。
7.根据权利要求6所述的方法,其特征在于,所述预处理包括:数据清理、数据集成、数据转换、数据归约和压缩,其中:
所述数据清理,包括填写空缺值,平滑噪声数据,识别、删除孤立点;
所述数据集成,包括将数据集成多个数据库、数据立方体或文件;
所述数据转换,包括数据的规范化和聚集。
8.根据权利要求1所述的方法,其特征在于,还包括依据用户的业务需求对所述原始数据进行如下分类存储:
将不需要实时分析的数据以文件的形式通过分布式***基础架构Hadoop的分布式文件***HDFS进行分布式存储;
将需要实时分析的数据通过面向文档存储的数据库MongoDB或关系型数据库进行存储。
9.根据权利要求1所述的方法,其特征在于,采用数据爬虫技术实现从数据源中获取原始数据。
10.一种基于大数据的决策***,其特征在于,包括获取模块、分类模块和决策模块,其中:
所述获取模块,用于基于用户依据其业务需求所设置的采集规则,从数据源中获取相应的原始数据,并将所述原始数据作为待分类数据,所述采集规则包含预先集成的各采集因素的用户设置信息;
所述分类模块,用于利用预先建立的分类模型结合用户依据其业务需求设置的辅助信息对所述待分类数据进行分类,得到各个类别的数据,并将所述各个类别的数据中与用户的业务需求相对应的类别的数据作为目标数据;
所述决策模块,用于基于用户依据其业务需求所设置的决策规则对所述目标数据进行处理和决策,得出决策结果,所述决策规则包含预先集成的各决策因素的用户设置信息。
11.根据权利要求10所述的***,其特征在于,还包括:
选样和验证模块,用于对所述原始数据进行选样,利用所选出的样本数据,对所述分类模型进行验证,并在验证结果未达到期望目标时,依据所述验证结果对所述分类模型进行调整。
12.根据权利要求10所述的***,其特征在于,还包括:
预处理模块,用于利用设定的预处理规则对所述原始数据进行预处理,并将经过预处理的数据作为新的待分类数据,所述预处理规则包含至少一个设定了操作方式的预处理操作,某一预处理操作的操作方式由用户基于预先集成的所述预处理操作的操作方式集设置而定。
13.根据权利要求10所述的***,其特征在于,还包括:
分类存储模块,用于依据用户的业务需求对所述原始数据进行如下分类存储:将不需要实时分析的数据以文件的形式通过分布式***基础架构Hadoop的分布式文件***HDFS进行分布式存储;需要实时分析的数据通过面向文档存储的数据库MongoDB或关系型数据库进行存储。
CN201410398787.1A 2014-08-13 2014-08-13 一种基于大数据的决策方法和*** Pending CN104123395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410398787.1A CN104123395A (zh) 2014-08-13 2014-08-13 一种基于大数据的决策方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410398787.1A CN104123395A (zh) 2014-08-13 2014-08-13 一种基于大数据的决策方法和***

Publications (1)

Publication Number Publication Date
CN104123395A true CN104123395A (zh) 2014-10-29

Family

ID=51768806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410398787.1A Pending CN104123395A (zh) 2014-08-13 2014-08-13 一种基于大数据的决策方法和***

Country Status (1)

Country Link
CN (1) CN104123395A (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462459A (zh) * 2014-12-16 2015-03-25 芜湖乐锐思信息咨询有限公司 基于神经网络的大数据分析处理***及方法
CN104615701A (zh) * 2015-01-27 2015-05-13 深圳市融创天下科技有限公司 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群
CN104731953A (zh) * 2015-03-31 2015-06-24 河海大学 一种基于r的数据预处理***的构建方法
CN104834706A (zh) * 2015-04-30 2015-08-12 南京邮电大学 基于位置推荐的互联网数据处理***及方法
CN104850632A (zh) * 2015-05-22 2015-08-19 东北师范大学 一种通用的基于异构信息网络的相似度计算方法与***
CN105303470A (zh) * 2015-11-26 2016-02-03 国网辽宁省电力有限公司大连供电公司 一种基于大数据的电力项目规划建设方法
CN105653523A (zh) * 2014-11-04 2016-06-08 江南大学 能耗监管物联网络基础平台的***构建方法
CN106022664A (zh) * 2016-07-08 2016-10-12 大连大学 基于大数据分析的网络智慧节电监控方法
CN106126515A (zh) * 2016-05-12 2016-11-16 广东电网有限责任公司信息中心 一种大数据***构件的自动选型方法
WO2016184159A1 (zh) * 2015-05-18 2016-11-24 中兴通讯股份有限公司 大数据计算的方法及***
CN106203803A (zh) * 2016-07-01 2016-12-07 衡度信息科技(无锡)有限公司 一种基于决策引擎的产品管理平台
CN106815308A (zh) * 2016-12-16 2017-06-09 上海客鹭信息技术有限公司 面向大数据分析的洋葱式数据组织方法及***
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及***
CN107025509A (zh) * 2016-02-01 2017-08-08 腾讯科技(深圳)有限公司 基于业务模型的决策***和方法
CN107122464A (zh) * 2017-04-27 2017-09-01 国信优易数据有限公司 一种辅助决策***及方法
CN107302451A (zh) * 2017-06-13 2017-10-27 国网江西省电力公司信息通信分公司 一种信息通信运行主动辅助决策的方法
CN107330029A (zh) * 2017-06-23 2017-11-07 北京奇艺世纪科技有限公司 一种数据处理方法、装置及电子设备
CN107679686A (zh) * 2017-08-28 2018-02-09 阿里巴巴集团控股有限公司 一种业务执行方法及装置
CN107798068A (zh) * 2017-09-26 2018-03-13 浙江极赢信息技术有限公司 一种失信用户数据的处理方法、***及相关装置
CN108119757A (zh) * 2017-11-30 2018-06-05 北京市燃气集团有限责任公司 一种对燃气调压器状态进行监控的实现方法
CN108268988A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种粮食收购业务管理方法及***
CN108630319A (zh) * 2017-03-21 2018-10-09 ***通信有限公司研究院 一种基于医疗数据建模的预测方法及装置
CN108694175A (zh) * 2017-04-05 2018-10-23 郑州博信知识产权代理有限公司 一种基于数据挖掘算法分析电能检测大数据的方法
CN108876406A (zh) * 2018-06-28 2018-11-23 中国建设银行股份有限公司 客服行为分析方法、装置、服务器及可读存储介质
CN108960950A (zh) * 2017-05-23 2018-12-07 王四春 一种跨境电商商务大数据决策的智能***及方法
CN109255030A (zh) * 2018-09-21 2019-01-22 青岛黄海学院 一种基于大数据的招商决策平台
CN109447687A (zh) * 2018-09-27 2019-03-08 中国平安人寿保险股份有限公司 基于大数据分析的用户挖掘方法及装置
CN109508370A (zh) * 2018-09-28 2019-03-22 北京百度网讯科技有限公司 评论抽取方法、设备和存储介质
CN109784736A (zh) * 2019-01-21 2019-05-21 成都乐超人科技有限公司 一种基于大数据的分析决策***
CN110246554A (zh) * 2018-03-07 2019-09-17 西门子医疗保健有限责任公司 保健网络
CN110458600A (zh) * 2019-07-08 2019-11-15 平安科技(深圳)有限公司 画像模型训练方法、装置、计算机设备及存储介质
CN110502553A (zh) * 2019-08-22 2019-11-26 武汉东湖大数据交易中心股份有限公司 一种基于大数据的辅助决策方法
CN110517787A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种基于中文医疗主诉分析的临床数据组分类方法
WO2020024448A1 (zh) * 2018-08-01 2020-02-06 平安科技(深圳)有限公司 人群绩效等级识别方法、装置、存储介质及计算机设备
CN111191692A (zh) * 2019-12-18 2020-05-22 平安医疗健康管理股份有限公司 基于决策树的数据计算方法、装置和计算机设备
CN112348193A (zh) * 2020-11-25 2021-02-09 德联易控科技(北京)有限公司 决策方法、决策装置及终端设备
CN116226260A (zh) * 2022-12-21 2023-06-06 安徽大学江淮学院 一种大数据决策方法、***及云端服务中心

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493346B2 (en) * 2005-02-16 2009-02-17 International Business Machines Corporation System and method for load shedding in data mining and knowledge discovery from stream data
US7571159B2 (en) * 2006-02-01 2009-08-04 Oracle International Corporation System and method for building decision tree classifiers using bitmap techniques
CN102141997A (zh) * 2010-02-02 2011-08-03 三星电子(中国)研发中心 智能决策支持***及其智能决策方法
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法
CN103605771A (zh) * 2013-11-28 2014-02-26 东莞中国科学院云计算产业技术创新与育成中心 一种智能化辅助决策和维护***及其运行方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493346B2 (en) * 2005-02-16 2009-02-17 International Business Machines Corporation System and method for load shedding in data mining and knowledge discovery from stream data
US7571159B2 (en) * 2006-02-01 2009-08-04 Oracle International Corporation System and method for building decision tree classifiers using bitmap techniques
CN102141997A (zh) * 2010-02-02 2011-08-03 三星电子(中国)研发中心 智能决策支持***及其智能决策方法
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法
CN103605771A (zh) * 2013-11-28 2014-02-26 东莞中国科学院云计算产业技术创新与育成中心 一种智能化辅助决策和维护***及其运行方法

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653523A (zh) * 2014-11-04 2016-06-08 江南大学 能耗监管物联网络基础平台的***构建方法
CN104462459A (zh) * 2014-12-16 2015-03-25 芜湖乐锐思信息咨询有限公司 基于神经网络的大数据分析处理***及方法
CN104615701A (zh) * 2015-01-27 2015-05-13 深圳市融创天下科技有限公司 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群
CN104615701B (zh) * 2015-01-27 2018-04-06 融创天下(上海)科技发展有限公司 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群
CN104731953A (zh) * 2015-03-31 2015-06-24 河海大学 一种基于r的数据预处理***的构建方法
CN104834706A (zh) * 2015-04-30 2015-08-12 南京邮电大学 基于位置推荐的互联网数据处理***及方法
WO2016184159A1 (zh) * 2015-05-18 2016-11-24 中兴通讯股份有限公司 大数据计算的方法及***
JP2018521391A (ja) * 2015-05-18 2018-08-02 ゼットティーイー コーポレイション ビッグデータの計算方法及びシステム、プログラムならびに記録媒体
CN106294381A (zh) * 2015-05-18 2017-01-04 中兴通讯股份有限公司 大数据计算的方法及***
CN104850632A (zh) * 2015-05-22 2015-08-19 东北师范大学 一种通用的基于异构信息网络的相似度计算方法与***
CN105303470A (zh) * 2015-11-26 2016-02-03 国网辽宁省电力有限公司大连供电公司 一种基于大数据的电力项目规划建设方法
CN107025509A (zh) * 2016-02-01 2017-08-08 腾讯科技(深圳)有限公司 基于业务模型的决策***和方法
CN107025509B (zh) * 2016-02-01 2021-06-18 腾讯科技(深圳)有限公司 基于业务模型的决策***和方法
CN106126515A (zh) * 2016-05-12 2016-11-16 广东电网有限责任公司信息中心 一种大数据***构件的自动选型方法
CN106203803A (zh) * 2016-07-01 2016-12-07 衡度信息科技(无锡)有限公司 一种基于决策引擎的产品管理平台
CN106022664A (zh) * 2016-07-08 2016-10-12 大连大学 基于大数据分析的网络智慧节电监控方法
CN106815308B (zh) * 2016-12-16 2018-11-06 上海客鹭信息技术有限公司 面向大数据分析的洋葱式数据组织方法及***
CN106815308A (zh) * 2016-12-16 2017-06-09 上海客鹭信息技术有限公司 面向大数据分析的洋葱式数据组织方法及***
CN108268988B (zh) * 2016-12-30 2022-06-10 航天信息股份有限公司 一种粮食收购业务管理方法及***
CN108268988A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种粮食收购业务管理方法及***
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及***
CN108630319A (zh) * 2017-03-21 2018-10-09 ***通信有限公司研究院 一种基于医疗数据建模的预测方法及装置
CN108694175A (zh) * 2017-04-05 2018-10-23 郑州博信知识产权代理有限公司 一种基于数据挖掘算法分析电能检测大数据的方法
CN107122464A (zh) * 2017-04-27 2017-09-01 国信优易数据有限公司 一种辅助决策***及方法
CN107122464B (zh) * 2017-04-27 2020-05-01 国信优易数据有限公司 一种辅助决策***及方法
CN108960950A (zh) * 2017-05-23 2018-12-07 王四春 一种跨境电商商务大数据决策的智能***及方法
CN107302451A (zh) * 2017-06-13 2017-10-27 国网江西省电力公司信息通信分公司 一种信息通信运行主动辅助决策的方法
CN107330029A (zh) * 2017-06-23 2017-11-07 北京奇艺世纪科技有限公司 一种数据处理方法、装置及电子设备
CN107679686A (zh) * 2017-08-28 2018-02-09 阿里巴巴集团控股有限公司 一种业务执行方法及装置
CN107679686B (zh) * 2017-08-28 2024-03-29 创新先进技术有限公司 一种业务执行方法及装置
CN107798068A (zh) * 2017-09-26 2018-03-13 浙江极赢信息技术有限公司 一种失信用户数据的处理方法、***及相关装置
CN108119757A (zh) * 2017-11-30 2018-06-05 北京市燃气集团有限责任公司 一种对燃气调压器状态进行监控的实现方法
CN110246554A (zh) * 2018-03-07 2019-09-17 西门子医疗保健有限责任公司 保健网络
CN110246554B (zh) * 2018-03-07 2024-02-02 西门子医疗保健有限责任公司 用于控制用户设备的操作的方法和计算机
CN108876406A (zh) * 2018-06-28 2018-11-23 中国建设银行股份有限公司 客服行为分析方法、装置、服务器及可读存储介质
WO2020024448A1 (zh) * 2018-08-01 2020-02-06 平安科技(深圳)有限公司 人群绩效等级识别方法、装置、存储介质及计算机设备
CN109255030A (zh) * 2018-09-21 2019-01-22 青岛黄海学院 一种基于大数据的招商决策平台
CN109447687A (zh) * 2018-09-27 2019-03-08 中国平安人寿保险股份有限公司 基于大数据分析的用户挖掘方法及装置
CN109508370A (zh) * 2018-09-28 2019-03-22 北京百度网讯科技有限公司 评论抽取方法、设备和存储介质
CN109784736A (zh) * 2019-01-21 2019-05-21 成都乐超人科技有限公司 一种基于大数据的分析决策***
CN110458600A (zh) * 2019-07-08 2019-11-15 平安科技(深圳)有限公司 画像模型训练方法、装置、计算机设备及存储介质
CN110502553A (zh) * 2019-08-22 2019-11-26 武汉东湖大数据交易中心股份有限公司 一种基于大数据的辅助决策方法
CN110517787A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种基于中文医疗主诉分析的临床数据组分类方法
CN111191692A (zh) * 2019-12-18 2020-05-22 平安医疗健康管理股份有限公司 基于决策树的数据计算方法、装置和计算机设备
CN111191692B (zh) * 2019-12-18 2022-10-14 深圳平安医疗健康科技服务有限公司 基于决策树的数据计算方法、装置和计算机设备
CN112348193A (zh) * 2020-11-25 2021-02-09 德联易控科技(北京)有限公司 决策方法、决策装置及终端设备
CN112348193B (zh) * 2020-11-25 2021-09-07 德联易控科技(北京)有限公司 决策方法、决策装置及终端设备
CN116226260A (zh) * 2022-12-21 2023-06-06 安徽大学江淮学院 一种大数据决策方法、***及云端服务中心
CN116226260B (zh) * 2022-12-21 2023-10-03 安徽大学江淮学院 一种大数据决策方法、***及云端服务中心

Similar Documents

Publication Publication Date Title
CN104123395A (zh) 一种基于大数据的决策方法和***
CA2953969C (en) Interactive interfaces for machine learning model evaluations
US8577823B1 (en) Taxonomy system for enterprise data management and analysis
DE112018005459T5 (de) Datenanonymisierung
WO2018085859A1 (en) Dimension grouping and reduction for model generation, testing, and documentation
Gupta et al. Performance analysis of various data mining classification techniques on healthcare data
CN106547809A (zh) 将复合关系表示在图数据库中
CN108509982A (zh) 一种处理二分类不平衡医学数据的方法
Chapman et al. Capturing and querying fine-grained provenance of preprocessing pipelines in data science
Aher et al. Best combination of machine learning algorithms for course recommendation system in e-learning
CN108717875A (zh) 一种基于大数据的慢性疾病智能管理***
Desarkar et al. Big-data analytics, machine learning algorithms and scalable/parallel/distributed algorithms
CN110321556A (zh) 一种医生诊疗医保控费智能推荐方案的方法及其***
CN116150663A (zh) 数据分级方法、装置、计算机设备和存储介质
Omar et al. Distributed big data analysis using spark parallel data processing
Alazmi et al. Data mining and visualization of large databases
CN106682173A (zh) 一种社保大数据olap预处理方法及在线分析查询方法
Wills Analysis of current and future computer science needs via advertised faculty searches for 2017
Xhafa et al. Using bi-clustering algorithm for analyzing online users activity in a virtual campus
Pandey Study and Analysis of K-Means Clustering Algorithm Using Rapidminer
Dai et al. Intelligent audit question answering system based on knowledge graph and semantic similarity
Finogeev et al. Application of hyper-convergent platform for big data in exploring regional innovation systems
Alzahrani Big Data Analytics Tools: Twitter API and Spark
Radhika et al. Confrontation and oppurtunities of big data—A survey
Li et al. The model design of medical data life cycle based on big data platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141029