CN111008706A - 一种自动标注、训练、预测海量数据的处理方法 - Google Patents

一种自动标注、训练、预测海量数据的处理方法 Download PDF

Info

Publication number
CN111008706A
CN111008706A CN201911248223.9A CN201911248223A CN111008706A CN 111008706 A CN111008706 A CN 111008706A CN 201911248223 A CN201911248223 A CN 201911248223A CN 111008706 A CN111008706 A CN 111008706A
Authority
CN
China
Prior art keywords
data
training
model
result
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911248223.9A
Other languages
English (en)
Other versions
CN111008706B (zh
Inventor
李波
张少卓
李旭
孙洪鑫
安天博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Jiacheng Information Technology Co ltd
Original Assignee
Changchun Jiacheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Jiacheng Information Technology Co ltd filed Critical Changchun Jiacheng Information Technology Co ltd
Priority to CN201911248223.9A priority Critical patent/CN111008706B/zh
Publication of CN111008706A publication Critical patent/CN111008706A/zh
Application granted granted Critical
Publication of CN111008706B publication Critical patent/CN111008706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自动标注、训练、预测海量数据的处理方法,包括步骤一、采集数据、步骤二、模型训练、步骤三、更新预测模型、步骤四、迭代更新。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。

Description

一种自动标注、训练、预测海量数据的处理方法
技术领域
本发明涉及一种处理方法,尤其涉及一种自动标注、训练、预测海量数据的处理方法。
背景技术
在解决大规模机器学习过程中,需要前期进行投入数据标注,先进行少量的数据标注,然后后续过程中利用机器学习的特性进行辅助监督学习,进行纠偏机器学习标注的结果,再反馈到下一轮的学习过程中,重复上述过程不断地加强机器学习的准确率。因此基于大规格数据进行机器学习时,需要投入大量的人工进行数据标注,然后进行模型训练,存在着互联网海量数据在进行机器学习时前期投入人工较多,耗时较长,模型更新周期长,工作量较大、见效成果慢的问题。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种自动标注、训练、预测海量数据的处理方法。
为了解决以上技术问题,本发明采用的技术方案是:一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
进一步地,模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
本发明可以在初期只有少量基础训练集的情况下,通过不断采集、识别新数据,根据识别结果进行自动标注,并将标注结果纳入新的训练集中进行下一轮训练。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示的一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛等网站抓取符合关键词的数据,将新闻标题、正文、回复等数据进行结构化保存,保存至数据管理平台;
Python(计算机程序设计语言)是一种跨平台的计算机程序设计语言,是一种面向对象的动态类型语言,随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python具有简单、易学、速度快、免费、开源、高层语言、可移植性、解释性、可扩展性、可嵌入性、丰富的库、规范的代码等优点。Scrapyd是一个服务器端,用来运行scrapy爬虫的。
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
其中,数据管理平台是本方法中使用的一种数据管理工具。
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
图中上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (2)

1.一种自动标注、训练、预测海量数据的处理方法,其特征在于:包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
2.根据权利要求1所述的自动标注、训练、预测海量数据的处理方法,其特征在于:所述模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
CN201911248223.9A 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法 Active CN111008706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911248223.9A CN111008706B (zh) 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911248223.9A CN111008706B (zh) 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法

Publications (2)

Publication Number Publication Date
CN111008706A true CN111008706A (zh) 2020-04-14
CN111008706B CN111008706B (zh) 2023-05-05

Family

ID=70114092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911248223.9A Active CN111008706B (zh) 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法

Country Status (1)

Country Link
CN (1) CN111008706B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916192A (zh) * 2020-07-22 2020-11-10 复旦大学 一种医疗行为多模态数据标注方法和***
CN112598326A (zh) * 2020-12-31 2021-04-02 五八有限公司 模型迭代方法、装置、电子设备及存储介质
CN114282586A (zh) * 2020-09-27 2022-04-05 中兴通讯股份有限公司 一种数据标注方法、***和电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达***工程股份有限公司 一种基于机器学习的***及学习方法
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
WO2018170512A1 (en) * 2017-03-17 2018-09-20 Neurala, Inc. Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
CN109255044A (zh) * 2018-08-31 2019-01-22 江苏大学 一种基于YOLOv3深度学习网络的图像智能标注方法
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
JP2019182412A (ja) * 2018-04-13 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 自動運転車に用いられる自動データラベリング
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110533086A (zh) * 2019-08-13 2019-12-03 天津大学 图像数据半自动标注方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
WO2018170512A1 (en) * 2017-03-17 2018-09-20 Neurala, Inc. Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达***工程股份有限公司 一种基于机器学习的***及学习方法
JP2019182412A (ja) * 2018-04-13 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 自動運転車に用いられる自動データラベリング
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
CN109255044A (zh) * 2018-08-31 2019-01-22 江苏大学 一种基于YOLOv3深度学习网络的图像智能标注方法
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110533086A (zh) * 2019-08-13 2019-12-03 天津大学 图像数据半自动标注方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916192A (zh) * 2020-07-22 2020-11-10 复旦大学 一种医疗行为多模态数据标注方法和***
CN114282586A (zh) * 2020-09-27 2022-04-05 中兴通讯股份有限公司 一种数据标注方法、***和电子设备
CN112598326A (zh) * 2020-12-31 2021-04-02 五八有限公司 模型迭代方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111008706B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110347603B (zh) 一种人工智能的自动化软件测试***及方法
CN111008706A (zh) 一种自动标注、训练、预测海量数据的处理方法
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
CN110134949B (zh) 一种基于教师监督的文本标注方法和设备
CN111026671A (zh) 测试用例集构建方法和基于测试用例集的测试方法
CN111611797B (zh) 基于Albert模型的预测数据标注的方法、装置及设备
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
CN108664269A (zh) 一种基于深度学习的特征依恋代码异味检测方法
US20190163737A1 (en) Method and apparatus for constructing binary feature dictionary
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN107608951B (zh) 报表生成方法和***
CN109271630B (zh) 一种基于自然语言处理的智能标注方法及装置
CN111309910A (zh) 文本信息挖掘方法及装置
US11551151B2 (en) Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus
CN109885821B (zh) 基于人工智能的文章撰写方法及装置、计算机存储介质
US20220067054A1 (en) Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN109447412A (zh) 构建企业关系图谱的方法、装置、计算机设备和存储介质
CN117093260B (zh) 一种基于决策树分类算法的融合模型网站结构解析方法
CN114168743A (zh) 基于知识图谱的网络防御意图识别解析方法、设备及介质
CN115544975B (zh) 一种日志格式转换方法及设备
CN110442858B (zh) 一种问句实体识别方法、装置、计算机设备及存储介质
CN116975255A (zh) 文本摘要生成方法、装置、电子设备及可读存储介质
CN113919347B (zh) 一种文本数据的内链词提取匹配方法及装置
US20220067576A1 (en) Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant