CN107590262A

CN107590262A - 大数据分析的半监督学习方法

Info

Publication number: CN107590262A
Application number: CN201710861920.6A
Authority: CN
Inventors: 黄国华
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-01-16

Abstract

本发明公开了一种大数据分析的半监督学习方法，首先从多个数据源抽取大数据，并对大数据按照一定的规则进行转换,得到适合计算机处理的数据格式；然后对进行规则转换后的大数据进行数据处理；最后根据数据处理后的大数据建立数据库，以及构建多个半监督分类器和构建最终安全半监督分类器，其具体构建过程是首先对于给定训练数据集构建多个差异性大的半监督分类器，然后通过最坏情况下最大化性能提高来构建最终安全半监督分类器。本发明的方法在实施过程中很少导致性能下降，与此同时取得了与现有经典技术高度可比的性能。

Description

大数据分析的半监督学习方法

技术领域

本发明涉及大数据技术领域，具体地说是一种大数据分析的半监督学习方法，利用未标记学习的重要技术，在无需外界干预的情况下自动利用大量标记数据提升学习器在整个数据分布上的泛化能力。

背景技术

在大数据应用***中，当前多个行业，尤其是情报分析领域，会从多个数据源获取不同的数据，既有来自工商、民航、出入境、户籍等的各类信息，也有来自各类门户网站(如团购网站、招聘网站、社交网站)的注册信息，以及通过网络爬虫获取的各类数据；其中数据类型又有结构化数据、半结构化数据、非结构化数据；这些数据内容、格式杂乱无章，信息虚实结合。所以需要通过大数据分析技术，从海量多源异构数据中挖掘中有用的价值信息，为各类分析应用提供数据支撑。

机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能，机器学习方法例如监督学习方法，通常要求历史数据都有明确的概念标记(称为有标记数据)且要求有大量的有标记数据。在很多现实任务中，由于概念标记的获取需要耗费大量的人力物力资源，因此有标记数据通常是稀少的，而大量没有概念标记的历史数据(称为未标记数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题，而半监督学习方法是该方面的两大主流技术之一。

半监督学习方法已经在很多方面得以广泛应用；然而在不少情况下，现有半监督学习方法利用未标记数据会导致性能下降，即半监督学习方法的性能会明显低于直接利用少量有标记数据训练监督学习方法所取得的性能。这个现象严重影响了半监督学习方法在实际任务中的应用，因为用户通常希望利用了半监督学习方法而不会导致性能下降。因此需要一种安全的半监督学习方法使得，一方面其通常可以带来性能提高，另一方面其很少会导致性能显著下降。基于半监督学习问题在实际任务中普遍存在，这方面的成果将会在很多实际任务中发挥作用。

发明内容

本发明要解决的技术问题是提供一种从多个异构数据源抽取大数据，并对大数据进行规则转换；对进行规则转换后的大数据进行数据处理；根据数据处理后的大数据建立数据库，并且进行监督学习，得到预测结果。

为了解决上述技术问题，本发明采取以下技术方案：

一种大数据分析的半监督学习方法，包括以下步骤：

步骤1，从多个数据源抽取大数据，该大数据包括结构化数据和非结构化数据，并对所述大数据按照一定的规则进行转换，得到适合计算机处理的数据格式；

步骤2，对进行规则转换后的所述大数据进行数据处理；

步骤3，根据数据处理后的所述大数据建立数据库；

步骤4，对数据库中标记数据和未标记数据，随机初始化多个半监督分类器；

步骤5，对于每个初始的半监督分类器，根据半监督分类器的目标函数，通过优化方法对半监督分类器的预测结果进行优化；

步骤6，将优化过的半监督分类器的预测结果分割成多个目标值，提取其中目标值最优的半监督分类器；

步骤7，对有标记数据进行训练，得到监督学习方法，通过该监督学习方法预测未标记数据，得到未标记数据上的预测结果；

步骤8，根据监督学习方法的预测结果，对任意未标记数据上的预测结果定义性能提高函数；

步骤9，对任意未标记数据上的预测结果，使用性能提高函数得到最小的性能提高数据，将该最小的性能提高数据所对应的性能提高函数定义为最坏情况下的性能提高函数；

步骤10，根据最坏情况下的性能提高目标函数，通过优化方法对未标记数据的预测结果进行优化，将优化结果输出，作为最终的安全半监督分类器的预测结果。

所述初始化半监督分类器指对未标记数据上的预测结果进行初始化。

半监督分类器的目标函数包括不同类别数据的间隔和概率似然。

所述步骤7中的监督学习方法包括生成式模型方法、最近邻监督学习方法(KNN)和支持向量机学习方法(SVM)。

对所述大数据进行规则转换的方式包括数据清洗和数据预处理，所述数据清洗和所述数据预处理包括以下至少之一：格式标准化、异常数据清除、错误纠正、去重。

在所述大数据为结构化数据的情况下，对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一：对象抽取、数据关联、置信度计算、标签计算、模型计算。

在所述大数据为非结构化数据的情况下，对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一：分词处理、特征值提取。

对所述大数据进行第一步数据处理后还需要将多维特征数据进行降维处理，数据降维的方法包括：线性降维和非线性降维。

本发明通过从多源异构数据中分析出各类信息并构建数据库，从而为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。并且利用安全半监督学习方法，实施过程中很少导致性能显著下降，与此同时取得了与现有技术高度可比的性能。

附图说明

附图1为本发明流程示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合附图对本发明作进一步的描述。

本发明面向本发明面向海量多源异构数据，数据包括结构化数据、半结构化数据和非结构化数据，将从所有数据中计算出人员的各种特征属性信息及人物关系拓扑图。对数据执行复杂的处理过程，包括：数据抽取，数据清洗，数据回填，属性值计算；将计算的属性值填入统一的对象表中以便通过界面进行检索展示。

如附图1所示，一种大数据分析的半监督学习方法，包括以下步骤：

步骤2，对进行规则转换后的所述大数据进行数据处理；

步骤3，根据数据处理后的所述大数据建立数据库；

需要说明的是，以上所述并非是对本发明的限定，在不脱离本发明的创造构思的前提下，任何显而易见的替换均在本发明的保护范围之内。

Claims

1.一种大数据分析的半监督学习方法，包括以下步骤：

步骤2，对进行规则转换后的所述大数据进行数据处理；

步骤3，根据数据处理后的所述大数据建立数据库；

2.根据权利要求1所述的大数据分析的半监督学习方法，其特征在于，所述初始化半监督分类器是指对未标记数据上的预测结果进行初始化。

3.根据权利要求2所述的大数据分析的半监督学习方法，其特征在于，半监督分类器的目标函数包括不同类别数据的间隔和概率似然。

4.根据权利要求3所述的大数据分析的半监督学习方法，其特征在于，所述步骤7中的监督学习方法包括生成式模型方法、最近邻监督学习方法(KNN)和支持向量机学习方法(SVM)。

5.根据权利要求1所述的大数据分析的半监督学习方法，其特征在于，对所述大数据进行规则转换的方式包括数据清洗和数据预处理，所述数据清洗和所述数据预处理包括以下至少之一：格式标准化、异常数据清除、错误纠正、去重。

6.根据权利要求1所述的大数据分析的半监督学习方法，其特征在于，在所述大数据为结构化数据的情况下，对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一：对象抽取、数据关联、置信度计算、标签计算、模型计算。

7.根据权利要求1所述的大数据分析的半监督学习方法，其特征在于，在所述大数据为非结构化数据的情况下，对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一：分词处理、特征值提取。

8.根据权利要求1所述的大数据分析的半监督学习方法，其特征在于，对所述大数据进行第一步数据处理后还需要将多维特征数据进行降维处理，数据降维的方法包括：线性降维和非线性降维。