CN111008706A - 一种自动标注、训练、预测海量数据的处理方法 - Google Patents
一种自动标注、训练、预测海量数据的处理方法 Download PDFInfo
- Publication number
- CN111008706A CN111008706A CN201911248223.9A CN201911248223A CN111008706A CN 111008706 A CN111008706 A CN 111008706A CN 201911248223 A CN201911248223 A CN 201911248223A CN 111008706 A CN111008706 A CN 111008706A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- model
- result
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自动标注、训练、预测海量数据的处理方法,包括步骤一、采集数据、步骤二、模型训练、步骤三、更新预测模型、步骤四、迭代更新。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。
Description
技术领域
本发明涉及一种处理方法,尤其涉及一种自动标注、训练、预测海量数据的处理方法。
背景技术
在解决大规模机器学习过程中,需要前期进行投入数据标注,先进行少量的数据标注,然后后续过程中利用机器学习的特性进行辅助监督学习,进行纠偏机器学习标注的结果,再反馈到下一轮的学习过程中,重复上述过程不断地加强机器学习的准确率。因此基于大规格数据进行机器学习时,需要投入大量的人工进行数据标注,然后进行模型训练,存在着互联网海量数据在进行机器学习时前期投入人工较多,耗时较长,模型更新周期长,工作量较大、见效成果慢的问题。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种自动标注、训练、预测海量数据的处理方法。
为了解决以上技术问题,本发明采用的技术方案是:一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
进一步地,模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
本发明可以在初期只有少量基础训练集的情况下,通过不断采集、识别新数据,根据识别结果进行自动标注,并将标注结果纳入新的训练集中进行下一轮训练。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示的一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛等网站抓取符合关键词的数据,将新闻标题、正文、回复等数据进行结构化保存,保存至数据管理平台;
Python(计算机程序设计语言)是一种跨平台的计算机程序设计语言,是一种面向对象的动态类型语言,随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python具有简单、易学、速度快、免费、开源、高层语言、可移植性、解释性、可扩展性、可嵌入性、丰富的库、规范的代码等优点。Scrapyd是一个服务器端,用来运行scrapy爬虫的。
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
其中,数据管理平台是本方法中使用的一种数据管理工具。
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
图中上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (2)
1.一种自动标注、训练、预测海量数据的处理方法,其特征在于:包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
2.根据权利要求1所述的自动标注、训练、预测海量数据的处理方法,其特征在于:所述模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911248223.9A CN111008706B (zh) | 2019-12-09 | 2019-12-09 | 一种自动标注、训练、预测海量数据的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911248223.9A CN111008706B (zh) | 2019-12-09 | 2019-12-09 | 一种自动标注、训练、预测海量数据的处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111008706A true CN111008706A (zh) | 2020-04-14 |
CN111008706B CN111008706B (zh) | 2023-05-05 |
Family
ID=70114092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911248223.9A Active CN111008706B (zh) | 2019-12-09 | 2019-12-09 | 一种自动标注、训练、预测海量数据的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008706B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916192A (zh) * | 2020-07-22 | 2020-11-10 | 复旦大学 | 一种医疗行为多模态数据标注方法和*** |
CN112598326A (zh) * | 2020-12-31 | 2021-04-02 | 五八有限公司 | 模型迭代方法、装置、电子设备及存储介质 |
CN114282586A (zh) * | 2020-09-27 | 2022-04-05 | 中兴通讯股份有限公司 | 一种数据标注方法、***和电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达***工程股份有限公司 | 一种基于机器学习的***及学习方法 |
US20180114142A1 (en) * | 2016-10-26 | 2018-04-26 | Swiss Reinsurance Company Ltd. | Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof |
WO2018170512A1 (en) * | 2017-03-17 | 2018-09-20 | Neurala, Inc. | Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
CN109255044A (zh) * | 2018-08-31 | 2019-01-22 | 江苏大学 | 一种基于YOLOv3深度学习网络的图像智能标注方法 |
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN110287482A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 半自动化分词语料标注训练装置 |
JP2019182412A (ja) * | 2018-04-13 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | 自動運転車に用いられる自動データラベリング |
CN110457675A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 预测模型训练方法、装置、存储介质及计算机设备 |
CN110533086A (zh) * | 2019-08-13 | 2019-12-03 | 天津大学 | 图像数据半自动标注方法 |
-
2019
- 2019-12-09 CN CN201911248223.9A patent/CN111008706B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
US20180114142A1 (en) * | 2016-10-26 | 2018-04-26 | Swiss Reinsurance Company Ltd. | Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof |
WO2018170512A1 (en) * | 2017-03-17 | 2018-09-20 | Neurala, Inc. | Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications |
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达***工程股份有限公司 | 一种基于机器学习的***及学习方法 |
JP2019182412A (ja) * | 2018-04-13 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | 自動運転車に用いられる自動データラベリング |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
CN109255044A (zh) * | 2018-08-31 | 2019-01-22 | 江苏大学 | 一种基于YOLOv3深度学习网络的图像智能标注方法 |
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN110287482A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 半自动化分词语料标注训练装置 |
CN110457675A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 预测模型训练方法、装置、存储介质及计算机设备 |
CN110533086A (zh) * | 2019-08-13 | 2019-12-03 | 天津大学 | 图像数据半自动标注方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916192A (zh) * | 2020-07-22 | 2020-11-10 | 复旦大学 | 一种医疗行为多模态数据标注方法和*** |
CN114282586A (zh) * | 2020-09-27 | 2022-04-05 | 中兴通讯股份有限公司 | 一种数据标注方法、***和电子设备 |
CN112598326A (zh) * | 2020-12-31 | 2021-04-02 | 五八有限公司 | 模型迭代方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111008706B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347603B (zh) | 一种人工智能的自动化软件测试***及方法 | |
CN111008706A (zh) | 一种自动标注、训练、预测海量数据的处理方法 | |
CN109670191B (zh) | 机器翻译的校准优化方法、装置与电子设备 | |
CN110134949B (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN111026671A (zh) | 测试用例集构建方法和基于测试用例集的测试方法 | |
CN111611797B (zh) | 基于Albert模型的预测数据标注的方法、装置及设备 | |
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
CN108664269A (zh) | 一种基于深度学习的特征依恋代码异味检测方法 | |
US20190163737A1 (en) | Method and apparatus for constructing binary feature dictionary | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN107608951B (zh) | 报表生成方法和*** | |
CN109271630B (zh) | 一种基于自然语言处理的智能标注方法及装置 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
US11551151B2 (en) | Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus | |
CN109885821B (zh) | 基于人工智能的文章撰写方法及装置、计算机存储介质 | |
US20220067054A1 (en) | Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN109447412A (zh) | 构建企业关系图谱的方法、装置、计算机设备和存储介质 | |
CN117093260B (zh) | 一种基于决策树分类算法的融合模型网站结构解析方法 | |
CN114168743A (zh) | 基于知识图谱的网络防御意图识别解析方法、设备及介质 | |
CN115544975B (zh) | 一种日志格式转换方法及设备 | |
CN110442858B (zh) | 一种问句实体识别方法、装置、计算机设备及存储介质 | |
CN116975255A (zh) | 文本摘要生成方法、装置、电子设备及可读存储介质 | |
CN113919347B (zh) | 一种文本数据的内链词提取匹配方法及装置 | |
US20220067576A1 (en) | Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |