CN107590262A - 大数据分析的半监督学习方法 - Google Patents
大数据分析的半监督学习方法 Download PDFInfo
- Publication number
- CN107590262A CN107590262A CN201710861920.6A CN201710861920A CN107590262A CN 107590262 A CN107590262 A CN 107590262A CN 201710861920 A CN201710861920 A CN 201710861920A CN 107590262 A CN107590262 A CN 107590262A
- Authority
- CN
- China
- Prior art keywords
- data
- semi
- big data
- supervised
- learning method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大数据分析的半监督学习方法,首先从多个数据源抽取大数据,并对大数据按照一定的规则进行转换,得到适合计算机处理的数据格式;然后对进行规则转换后的大数据进行数据处理;最后根据数据处理后的大数据建立数据库,以及构建多个半监督分类器和构建最终安全半监督分类器,其具体构建过程是首先对于给定训练数据集构建多个差异性大的半监督分类器,然后通过最坏情况下最大化性能提高来构建最终安全半监督分类器。本发明的方法在实施过程中很少导致性能下降,与此同时取得了与现有经典技术高度可比的性能。
Description
技术领域
本发明涉及大数据技术领域,具体地说是一种大数据分析的半监督学习方法,利用未标记学习的重要技术,在无需外界干预的情况下自动利用大量标记数据提升学习器在整个数据分布上的泛化能力。
背景技术
在大数据应用***中,当前多个行业,尤其是情报分析领域,会从多个数据源获取不同的数据,既有来自工商、民航、出入境、户籍等的各类信息,也有来自各类门户网站(如团购网站、招聘网站、社交网站)的注册信息,以及通过网络爬虫获取的各类数据;其中数据类型又有结构化数据、半结构化数据、非结构化数据;这些数据内容、格式杂乱无章,信息虚实结合。所以需要通过大数据分析技术,从海量多源异构数据中挖掘中有用的价值信息,为各类分析应用提供数据支撑。
机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能,机器学习方法例如监督学习方法,通常要求历史数据都有明确的概念标记(称为有标记数据)且要求有大量的有标记数据。在很多现实任务中,由于概念标记的获取需要耗费大量的人力物力资源,因此有标记数据通常是稀少的,而大量没有概念标记的历史数据(称为未标记数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题,而半监督学习方法是该方面的两大主流技术之一。
半监督学习方法已经在很多方面得以广泛应用;然而在不少情况下,现有半监督学习方法利用未标记数据会导致性能下降,即半监督学习方法的性能会明显低于直接利用少量有标记数据训练监督学习方法所取得的性能。这个现象严重影响了半监督学习方法在实际任务中的应用,因为用户通常希望利用了半监督学习方法而不会导致性能下降。因此需要一种安全的半监督学习方法使得,一方面其通常可以带来性能提高,另一方面其很少会导致性能显著下降。基于半监督学习问题在实际任务中普遍存在,这方面的成果将会在很多实际任务中发挥作用。
发明内容
本发明要解决的技术问题是提供一种从多个异构数据源抽取大数据,并对大数据进行规则转换;对进行规则转换后的大数据进行数据处理;根据数据处理后的大数据建立数据库,并且进行监督学习,得到预测结果。
为了解决上述技术问题,本发明采取以下技术方案:
一种大数据分析的半监督学习方法,包括以下步骤:
步骤1,从多个数据源抽取大数据,该大数据包括结构化数据和非结构化数据,并对所述大数据按照一定的规则进行转换,得到适合计算机处理的数据格式;
步骤2,对进行规则转换后的所述大数据进行数据处理;
步骤3,根据数据处理后的所述大数据建立数据库;
步骤4,对数据库中标记数据和未标记数据,随机初始化多个半监督分类器;
步骤5,对于每个初始的半监督分类器,根据半监督分类器的目标函数,通过优化方法对半监督分类器的预测结果进行优化;
步骤6,将优化过的半监督分类器的预测结果分割成多个目标值,提取其中目标值最优的半监督分类器;
步骤7,对有标记数据进行训练,得到监督学习方法,通过该监督学习方法预测未标记数据,得到未标记数据上的预测结果;
步骤8,根据监督学习方法的预测结果,对任意未标记数据上的预测结果定义性能提高函数;
步骤9,对任意未标记数据上的预测结果,使用性能提高函数得到最小的性能提高数据,将该最小的性能提高数据所对应的性能提高函数定义为最坏情况下的性能提高函数;
步骤10,根据最坏情况下的性能提高目标函数,通过优化方法对未标记数据的预测结果进行优化,将优化结果输出,作为最终的安全半监督分类器的预测结果。
所述初始化半监督分类器指对未标记数据上的预测结果进行初始化。
半监督分类器的目标函数包括不同类别数据的间隔和概率似然。
所述步骤7中的监督学习方法包括生成式模型方法、最近邻监督学习方法(KNN)和支持向量机学习方法(SVM)。
对所述大数据进行规则转换的方式包括数据清洗和数据预处理,所述数据清洗和所述数据预处理包括以下至少之一:格式标准化、异常数据清除、错误纠正、去重。
在所述大数据为结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:对象抽取、数据关联、置信度计算、标签计算、模型计算。
在所述大数据为非结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:分词处理、特征值提取。
对所述大数据进行第一步数据处理后还需要将多维特征数据进行降维处理,数据降维的方法包括:线性降维和非线性降维。
本发明通过从多源异构数据中分析出各类信息并构建数据库,从而为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。并且利用安全半监督学习方法,实施过程中很少导致性能显著下降,与此同时取得了与现有技术高度可比的性能。
附图说明
附图1为本发明流程示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述。
本发明面向本发明面向海量多源异构数据,数据包括结构化数据、半结构化数据和非结构化数据,将从所有数据中计算出人员的各种特征属性信息及人物关系拓扑图。对数据执行复杂的处理过程,包括:数据抽取,数据清洗,数据回填,属性值计算;将计算的属性值填入统一的对象表中以便通过界面进行检索展示。
如附图1所示,一种大数据分析的半监督学习方法,包括以下步骤:
步骤1,从多个数据源抽取大数据,该大数据包括结构化数据和非结构化数据,并对所述大数据按照一定的规则进行转换,得到适合计算机处理的数据格式;
步骤2,对进行规则转换后的所述大数据进行数据处理;
步骤3,根据数据处理后的所述大数据建立数据库;
步骤4,对数据库中标记数据和未标记数据,随机初始化多个半监督分类器;
步骤5,对于每个初始的半监督分类器,根据半监督分类器的目标函数,通过优化方法对半监督分类器的预测结果进行优化;
步骤6,将优化过的半监督分类器的预测结果分割成多个目标值,提取其中目标值最优的半监督分类器;
步骤7,对有标记数据进行训练,得到监督学习方法,通过该监督学习方法预测未标记数据,得到未标记数据上的预测结果;
步骤8,根据监督学习方法的预测结果,对任意未标记数据上的预测结果定义性能提高函数;
步骤9,对任意未标记数据上的预测结果,使用性能提高函数得到最小的性能提高数据,将该最小的性能提高数据所对应的性能提高函数定义为最坏情况下的性能提高函数;
步骤10,根据最坏情况下的性能提高目标函数,通过优化方法对未标记数据的预测结果进行优化,将优化结果输出,作为最终的安全半监督分类器的预测结果。
所述初始化半监督分类器指对未标记数据上的预测结果进行初始化。
半监督分类器的目标函数包括不同类别数据的间隔和概率似然。
所述步骤7中的监督学习方法包括生成式模型方法、最近邻监督学习方法(KNN)和支持向量机学习方法(SVM)。
对所述大数据进行规则转换的方式包括数据清洗和数据预处理,所述数据清洗和所述数据预处理包括以下至少之一:格式标准化、异常数据清除、错误纠正、去重。
在所述大数据为结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:对象抽取、数据关联、置信度计算、标签计算、模型计算。
在所述大数据为非结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:分词处理、特征值提取。
对所述大数据进行第一步数据处理后还需要将多维特征数据进行降维处理,数据降维的方法包括:线性降维和非线性降维。
需要说明的是,以上所述并非是对本发明的限定,在不脱离本发明的创造构思的前提下,任何显而易见的替换均在本发明的保护范围之内。
Claims (8)
1.一种大数据分析的半监督学习方法,包括以下步骤:
步骤1,从多个数据源抽取大数据,该大数据包括结构化数据和非结构化数据,并对所述大数据按照一定的规则进行转换,得到适合计算机处理的数据格式;
步骤2,对进行规则转换后的所述大数据进行数据处理;
步骤3,根据数据处理后的所述大数据建立数据库;
步骤4,对数据库中标记数据和未标记数据,随机初始化多个半监督分类器;
步骤5,对于每个初始的半监督分类器,根据半监督分类器的目标函数,通过优化方法对半监督分类器的预测结果进行优化;
步骤6,将优化过的半监督分类器的预测结果分割成多个目标值,提取其中目标值最优的半监督分类器;
步骤7,对有标记数据进行训练,得到监督学习方法,通过该监督学习方法预测未标记数据,得到未标记数据上的预测结果;
步骤8,根据监督学习方法的预测结果,对任意未标记数据上的预测结果定义性能提高函数;
步骤9,对任意未标记数据上的预测结果,使用性能提高函数得到最小的性能提高数据,将该最小的性能提高数据所对应的性能提高函数定义为最坏情况下的性能提高函数;
步骤10,根据最坏情况下的性能提高目标函数,通过优化方法对未标记数据的预测结果进行优化,将优化结果输出,作为最终的安全半监督分类器的预测结果。
2.根据权利要求1所述的大数据分析的半监督学习方法,其特征在于,所述初始化半监督分类器是指对未标记数据上的预测结果进行初始化。
3.根据权利要求2所述的大数据分析的半监督学习方法,其特征在于,半监督分类器的目标函数包括不同类别数据的间隔和概率似然。
4.根据权利要求3所述的大数据分析的半监督学习方法,其特征在于,所述步骤7中的监督学习方法包括生成式模型方法、最近邻监督学习方法(KNN)和支持向量机学习方法(SVM)。
5.根据权利要求1所述的大数据分析的半监督学习方法,其特征在于,对所述大数据进行规则转换的方式包括数据清洗和数据预处理,所述数据清洗和所述数据预处理包括以下至少之一:格式标准化、异常数据清除、错误纠正、去重。
6.根据权利要求1所述的大数据分析的半监督学习方法,其特征在于,在所述大数据为结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:对象抽取、数据关联、置信度计算、标签计算、模型计算。
7.根据权利要求1所述的大数据分析的半监督学习方法,其特征在于,在所述大数据为非结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:分词处理、特征值提取。
8.根据权利要求1所述的大数据分析的半监督学习方法,其特征在于,对所述大数据进行第一步数据处理后还需要将多维特征数据进行降维处理,数据降维的方法包括:线性降维和非线性降维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710861920.6A CN107590262A (zh) | 2017-09-21 | 2017-09-21 | 大数据分析的半监督学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710861920.6A CN107590262A (zh) | 2017-09-21 | 2017-09-21 | 大数据分析的半监督学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107590262A true CN107590262A (zh) | 2018-01-16 |
Family
ID=61047545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710861920.6A Pending CN107590262A (zh) | 2017-09-21 | 2017-09-21 | 大数据分析的半监督学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590262A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108923962A (zh) * | 2018-06-25 | 2018-11-30 | 哈尔滨工业大学 | 一种基于半监督聚类的局部网络拓扑测量任务选择方法 |
CN109977094A (zh) * | 2019-01-30 | 2019-07-05 | 中南大学 | 一种用于结构化数据的半监督学习的方法 |
CN111797832A (zh) * | 2020-07-14 | 2020-10-20 | 成都数之联科技有限公司 | 一种图像感兴趣区域自动生成方法及***及图像处理方法 |
CN111896681A (zh) * | 2020-07-08 | 2020-11-06 | 南昌工程学院 | 一种半监督半学习式大气污染物*** |
CN113168907A (zh) * | 2018-11-30 | 2021-07-23 | 第一百欧有限公司 | 一种利用半监督学习的诊断***提供方法以及利用其的诊断*** |
WO2023273249A1 (zh) * | 2021-06-30 | 2023-01-05 | 国网上海市电力公司 | 基于tsvm模型的智能电能表自动化检定***异常检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390171A (zh) * | 2013-07-24 | 2013-11-13 | 南京大学 | 一种安全的半监督学习方法 |
CN104636493A (zh) * | 2015-03-04 | 2015-05-20 | 浪潮电子信息产业股份有限公司 | 一种基于多分类器融合的动态数据分级方法 |
CN106528874A (zh) * | 2016-12-08 | 2017-03-22 | 重庆邮电大学 | 基于Spark内存计算大数据平台的CLR多标签数据分类方法 |
-
2017
- 2017-09-21 CN CN201710861920.6A patent/CN107590262A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390171A (zh) * | 2013-07-24 | 2013-11-13 | 南京大学 | 一种安全的半监督学习方法 |
CN104636493A (zh) * | 2015-03-04 | 2015-05-20 | 浪潮电子信息产业股份有限公司 | 一种基于多分类器融合的动态数据分级方法 |
CN106528874A (zh) * | 2016-12-08 | 2017-03-22 | 重庆邮电大学 | 基于Spark内存计算大数据平台的CLR多标签数据分类方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108923962A (zh) * | 2018-06-25 | 2018-11-30 | 哈尔滨工业大学 | 一种基于半监督聚类的局部网络拓扑测量任务选择方法 |
CN108923962B (zh) * | 2018-06-25 | 2021-05-28 | 哈尔滨工业大学 | 一种基于半监督聚类的局部网络拓扑测量任务选择方法 |
CN113168907A (zh) * | 2018-11-30 | 2021-07-23 | 第一百欧有限公司 | 一种利用半监督学习的诊断***提供方法以及利用其的诊断*** |
CN109977094A (zh) * | 2019-01-30 | 2019-07-05 | 中南大学 | 一种用于结构化数据的半监督学习的方法 |
CN109977094B (zh) * | 2019-01-30 | 2021-02-19 | 中南大学 | 一种用于结构化数据的半监督学习的方法 |
CN111896681A (zh) * | 2020-07-08 | 2020-11-06 | 南昌工程学院 | 一种半监督半学习式大气污染物*** |
CN111797832A (zh) * | 2020-07-14 | 2020-10-20 | 成都数之联科技有限公司 | 一种图像感兴趣区域自动生成方法及***及图像处理方法 |
CN111797832B (zh) * | 2020-07-14 | 2024-02-02 | 成都数之联科技股份有限公司 | 一种图像感兴趣区域自动生成方法及***及图像处理方法 |
WO2023273249A1 (zh) * | 2021-06-30 | 2023-01-05 | 国网上海市电力公司 | 基于tsvm模型的智能电能表自动化检定***异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590262A (zh) | 大数据分析的半监督学习方法 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN109726246A (zh) | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 | |
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN103559199B (zh) | 网页信息抽取方法和装置 | |
US20150095022A1 (en) | List recognizing method and list recognizing system | |
CN103778205A (zh) | 一种基于互信息的商品分类方法和*** | |
CN107766555A (zh) | 基于软约束无监督型跨模态哈希的图像检索方法 | |
CN104112026A (zh) | 一种短信文本分类方法及*** | |
CN105550170A (zh) | 一种中文分词方法及装置 | |
CN104217038A (zh) | 一种针对财经新闻的知识网络构建方法 | |
CN106339481B (zh) | 基于最大置信度的中文复合新词发现方法 | |
CN110222328A (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN107895117A (zh) | 恶意代码标注方法和装置 | |
CN104933032A (zh) | 一种基于复杂网络的博客关键词提取方法 | |
Bahri et al. | A sketch-based naive bayes algorithms for evolving data streams | |
WO2024031930A1 (zh) | 一种异常日志检测方法、装置、电子设备及存储介质 | |
CN103116636B (zh) | 基于特征空间分解的文本大数据主题挖掘方法和装置 | |
CN107463624B (zh) | 一种基于社交媒体数据进行城市兴趣域识别的方法及*** | |
CN104537280B (zh) | 基于文本关系相似性的蛋白质交互关系识别方法 | |
CN108763192A (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN109325204B (zh) | 网页内容自动提取方法 | |
CN109165295B (zh) | 一种智能简历评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180116 |
|
WD01 | Invention patent application deemed withdrawn after publication |