CN111985583B - 基于学习数据的深度学习样本标注方法 - Google Patents
基于学习数据的深度学习样本标注方法 Download PDFInfo
- Publication number
- CN111985583B CN111985583B CN202011035409.9A CN202011035409A CN111985583B CN 111985583 B CN111985583 B CN 111985583B CN 202011035409 A CN202011035409 A CN 202011035409A CN 111985583 B CN111985583 B CN 111985583B
- Authority
- CN
- China
- Prior art keywords
- learning
- rate
- mark
- section
- chapter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于学***均标注率;根据获取的所述各章节平均标注率,计算所述历史学***均水准,降低了学习对象的学习负荷,提高了学习对象的学习效率,从而实现了对学习数据进行深度学习样本标注的目的。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于学习数据的深度学习样本标注方法。
背景技术
现有的学习样本标注中,主要有两种标注方式,一种是:采用人工进行手动标注的方式;这种人工手动的标注方式,标注效率低且需花费大量的时间和精力。另一种是,自动标注的方式;目前,现有技术中的自动标注方式,通常需要根据人为设置的关键字/词等作为参照,进行标注,标注准确率低,且相邻页面中的标注信息对应的标注数据量存在较大差异时,也无法自动修正处理,也需要人工介入。因此,现有的学习样本标注方法不能满足学习数据标注的实际需求。
发明内容
本发明提供一种基于学***均水准,降低学习对象的学习负荷。
本发明提供了一种基于学习数据的深度学习样本标注方法,所述包括:
采集历史学***均标注率;
根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率;
根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作。
进一步地,所述采集历史学***均标注率,包括:
根据深度学习样本标注需求信息,对所学习的课程内容进行识别,采集历史学习对象的标注信息;
基于采集的所述历史学***均标注率。
进一步地,所述基于采集的所述历史学***均标注率,包括:
根据采集的所述历史学***均标注率Mark(km,km-1),则有:
其中,m为抽取的所述学***均标注率。
进一步地,所述根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率,包括:
根据获取的所述各章节平均标注率,利用公式(2),计算得到所述学习课程中各章节对应的相邻的学习页面之间的标记差异率Dif(km,km-1),则有:
其中,η为差异度参数,取值为0.2;Mark(km,km-1)为所述各章节平均标注率,Dif(km,km-1)为所述学习课程中各章节第m页的标记总数与第m-1页的标记总数之间的标记差异率。
进一步地,所述根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作,包括:
根据计算得到的所述学习课程中各章节对应的标记差异率,将所述标记差异率与预设差异率进行比较;
根据所述标记差异率与预设差异率的比较结果,执行深度学习样本的标注操作。
进一步地,所述根据所述标记差异率与预设差异率的比较结果,执行深度学习样本的标注操作,包括:
若所述标记差异率大于所述预设差异率,则基于所述标记差异率,并根据获取的所述历史学***均标注率,对所述深度学习样本执行相应的标注操作;
若所述标记差异率小于或者等于所述预设差异率,则不进行深度学习样本的标注操作。
进一步地,所述若所述标记差异率大于所述预设差异率,则基于所述标记差异率,并根据获取的所述历史学***均标注率,对所述深度学习样本执行相应的标注操作,包括:
针对所述学***均标注率,利用公式(3),计算各章节中学习页面所对应的待调整标记数量Q,则有:
其中,θ为修正因子,取值为1.5;Q为各章节中各学***均标注率;Dif(km,km-1)为所述学习课程中各章节对应的相邻的学习页面之间的标记差异率;m为各章节中对应的第m页的学习页面,其取值范围为[2,M];
根据计算得到的各章节中各学习页面所对应的待调整标记数量Q,执行所述深度学习样本的标注操作。
进一步地,所述根据计算得到的各章节中各学习页面所对应的待调整标记数量Q,执行所述深度学习样本的标注操作,包括:
若计算得到的各章节中学习页面所对应的待调整标记数量Q为0,则不进行深度学习样本的标注操作;
若计算得到的各章节中学习页面所对应的待调整标记数量Q不为0,则根据计算得到的所述待调整标记数量Q,执行深度学习样本的标注操作。
进一步地,所述根据计算得到的所述待调整标记数量Q,执行深度学习样本的标注操作,包括:
根据计算得到的所述待调整标记数量Q,参照所述标记差异率与所述各章节平均标注率之间的大小关系,补充或者删除所述待调整标记数量Q对应的标注,以执行所述深度学习样本对应的标注操作。
进一步地,所述根据计算得到的所述待调整标记数量Q,参照所述标记差异率与所述各章节平均标注率之间的大小关系,补充或者删除所述待调整标记数量Q对应的标注,包括:
若所述标记差异率大于所述各章节平均标注率,则对各章节中相应的学习页面删除对应数量的标注;其中,对所述学习页面删除的标注数量等于所述待调整标记数量Q;
若所述标记差异率小于所述各章节平均标注率,则对各章节中相应的学习页面补充对应数量的标注;其中,对所述学习页面补充的标注数量等于所述待调整标记数量Q。
本发明基于学***均标注率;根据获取的所述各章节平均标注率,计算所述历史学***均水准,降低了学习对象的学习负荷,提高了学习对象的学习效率,从而实现了对学习数据进行深度学习样本标注的目的。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于学习数据的深度学习样本标注方法的一种实施方式的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种基于学***均标注率和各章节中学***均水准,降低了学习对象的学习负荷,提高了学习对象的学习效率,从而实现了对学习数据进行深度学习样本标注的目的。
如图1所示,图1是本发明基于学习数据的深度学习样本标注方法的一种实施方式的流程示意图;本发明一种基于学习数据的深度学习样本标注方法可以实施为如下描述的步骤S10-S30:
步骤S10、采集历史学***均标注率。
步骤S20、根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率。
步骤S30、根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作。
在一个实施例中,图1所述实施例中的“步骤S10、所述采集历史学***均标注率”,可以按照如下描述的技术手段实施:
根据深度学***均标注率。
本发明实施例中,通过对历史学***均标注率。
在一个实施例中,所述基于采集的所述历史学***均标注率,可以按照如下描述的技术手段实施:
根据采集的所述历史学***均标注率Mark(km,km-1),则有:
其中,m为抽取的所述学***均标注率。
在一个实施例中,图1所述实施例中的“步骤S20、根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率”,可以按照如下描述的技术手段实施:
根据获取的所述各章节平均标注率,利用公式(2),计算得到所述学习课程中各章节对应的相邻的学习页面之间的标记差异率Dif(km,km-1),则有:
其中,η为差异度参数,取值为0.2;Mark(km,km-1)为所述各章节平均标注率,Dif(km,km-1)为所述学习课程中各章节第m页的标记总数与第m-1页的标记总数之间的标记差异率。
在一个实施例中,所述根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作,可以按照如下描述的技术手段实施:
根据计算得到的所述学习课程中各章节对应的标记差异率,将所述标记差异率与预设差异率进行比较;根据所述标记差异率与预设差异率的比较结果,执行深度学习样本的标注操作。
进一步地,在一个实施例中,所述根据所述标记差异率与预设差异率的比较结果,执行深度学习样本的标注操作,可以按照如下描述的技术手段实施:
若所述标记差异率大于所述预设差异率,则基于所述标记差异率,并根据获取的所述历史学***均标注率,对所述深度学习样本执行相应的标注操作;
若所述标记差异率小于或者等于所述预设差异率,则不进行深度学习样本的标注操作。
进一步地,在一个实施例中,所述若所述标记差异率大于所述预设差异率,则基于所述标记差异率,并根据获取的所述历史学***均标注率,对所述深度学习样本执行相应的标注操作,可以按照如下描述的技术手段实施:
针对所述学***均标注率,利用公式(3),计算各章节中学习页面所对应的待调整标记数量Q,则有:
其中,θ为修正因子,取值为1.5;Q为各章节中各学***均标注率;Dif(km,km-1)为所述学习课程中各章节对应的相邻的学习页面之间的标记差异率;m为各章节中对应的第m页的学习页面,其取值范围为[2,M];根据计算得到的各章节中各学习页面所对应的待调整标记数量Q,执行所述深度学习样本的标注操作。
另外,本发明实施例中,为确保需要调整的标记数量因不大于1而被忽略,因此,将修正因子θ的取值设置为1.5。
进一步地,在一个实施例中,所述根据计算得到的各章节中各学习页面所对应的待调整标记数量Q,执行所述深度学习样本的标注操作,可以按照如下描述的技术手段实施:
若计算得到的各章节中学习页面所对应的待调整标记数量Q为0,则不进行深度学习样本的标注操作;
若计算得到的各章节中学习页面所对应的待调整标记数量Q不为0,则根据计算得到的所述待调整标记数量Q,执行深度学习样本的标注操作。
进一步地,在一个实施例中,所述根据计算得到的所述待调整标记数量Q,执行深度学习样本的标注操作,可以按照如下描述的技术手段实施:
根据计算得到的所述待调整标记数量Q,参照所述标记差异率与所述各章节平均标注率之间的大小关系,补充或者删除所述待调整标记数量Q对应的标注,以执行所述深度学习样本对应的标注操作。
进一步地,在一个实施例中,所述根据计算得到的所述待调整标记数量Q,参照所述标记差异率与所述各章节平均标注率之间的大小关系,补充或者删除所述待调整标记数量Q对应的标注,进一步地,在一个实施例中,:
若所述标记差异率大于所述各章节平均标注率,则对各章节中相应的学习页面删除对应数量的标注;其中,对所述学习页面删除的标注数量等于所述待调整标记数量Q。
若所述标记差异率小于所述各章节平均标注率,则对各章节中相应的学习页面补充对应数量的标注;其中,对所述学习页面补充的标注数量等于所述待调整标记数量Q。
本发明基于学***均标注率;根据获取的所述各章节平均标注率,计算所述历史学***均水准,降低了学习对象的学习负荷,提高了学习对象的学习效率,从而实现了对学习数据进行深度学习样本标注的目的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (4)
1.一种基于学习数据的深度学习样本标注方法,其特征在于,所述方法包括:
采集历史学***均标注率;
根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率;
根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作;
其中,所述采集历史学***均标注率,包括:
根据深度学习样本标注需求信息,对所学习的课程内容进行识别,采集历史学习对象的标注信息;
基于采集的所述历史学***均标注率,具体包括:
根据采集的所述历史学***均标注率Mark(km,km-1),则有:
其中,m为抽取的所述学***均标注率;
其中,所述根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率,包括:
根据获取的所述各章节平均标注率,利用公式(2),计算得到所述学习课程中各章节对应的相邻的学习页面之间的标记差异率Dif(km,km-1),则有:
其中,η为差异度参数,取值为0.2;Mark(km,km-1)为所述各章节平均标注率,Dif(km,km-1)为所述学习课程中各章节第m页的标记总数与第m-1页的标记总数之间的标记差异率;
其中,所述根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作,包括:
根据计算得到的所述学习课程中各章节对应的标记差异率,将所述标记差异率与预设差异率进行比较;
根据所述标记差异率与预设差异率的比较结果,执行深度学习样本的标注操作,具体包括:
若所述标记差异率大于所述预设差异率,则基于所述标记差异率,并根据获取的所述历史学***均标注率,对所述深度学习样本执行相应的标注操作;
若所述标记差异率小于或者等于所述预设差异率,则不进行深度学习样本的标注操作;
其中,所述若所述标记差异率大于所述预设差异率,则基于所述标记差异率,并根据获取的所述历史学***均标注率,对所述深度学习样本执行相应的标注操作,包括:
针对所述学***均标注率,利用公式(3),计算各章节中学习页面所对应的待调整标记数量Q,则有:
其中,θ为修正因子,取值为1.5;Q为各章节中各学***均标注率;Dif(km,km-1)为所述学习课程中各章节对应的相邻的学习页面之间的标记差异率;m为各章节中对应的第m页的学习页面,其取值范围为[2,M];
根据计算得到的各章节中各学习页面所对应的待调整标记数量Q,执行所述深度学习样本的标注操作。
2.如权利要求1所述的基于学习数据的深度学习样本标注方法,其特征在于,所述根据计算得到的各章节中各学习页面所对应的待调整标记数量Q,执行所述深度学习样本的标注操作,包括:
若计算得到的各章节中学习页面所对应的待调整标记数量Q为0,则不进行深度学习样本的标注操作;
若计算得到的各章节中学习页面所对应的待调整标记数量Q不为0,则根据计算得到的所述待调整标记数量Q,执行深度学习样本的标注操作。
3.如权利要求2所述的基于学习数据的深度学习样本标注方法,其特征在于,所述根据计算得到的所述待调整标记数量Q,执行深度学习样本的标注操作,包括:
根据计算得到的所述待调整标记数量Q,参照所述标记差异率与所述各章节平均标注率之间的大小关系,补充或者删除所述待调整标记数量Q对应的标注,以执行所述深度学习样本对应的标注操作。
4.如权利要求3所述的基于学***均标注率之间的大小关系,补充或者删除所述待调整标记数量Q对应的标注,包括:
若所述标记差异率大于所述各章节平均标注率,则对各章节中相应的学习页面删除对应数量的标注;其中,对所述学习页面删除的标注数量等于所述待调整标记数量Q;
若所述标记差异率小于所述各章节平均标注率,则对各章节中相应的学习页面补充对应数量的标注;其中,对所述学习页面补充的标注数量等于所述待调整标记数量Q。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035409.9A CN111985583B (zh) | 2020-09-27 | 2020-09-27 | 基于学习数据的深度学习样本标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035409.9A CN111985583B (zh) | 2020-09-27 | 2020-09-27 | 基于学习数据的深度学习样本标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985583A CN111985583A (zh) | 2020-11-24 |
CN111985583B true CN111985583B (zh) | 2021-04-30 |
Family
ID=73450586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011035409.9A Active CN111985583B (zh) | 2020-09-27 | 2020-09-27 | 基于学习数据的深度学习样本标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985583B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678771A (zh) * | 2016-01-06 | 2016-06-15 | 无线生活(杭州)信息科技有限公司 | 一种图像质量分的确定方法及装置 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注***及方法 |
CN110826494A (zh) * | 2019-11-07 | 2020-02-21 | 达而观信息科技(上海)有限公司 | 标注数据质量评价方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447031A (zh) * | 2014-08-28 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 训练样本的标注方法及装置 |
-
2020
- 2020-09-27 CN CN202011035409.9A patent/CN111985583B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678771A (zh) * | 2016-01-06 | 2016-06-15 | 无线生活(杭州)信息科技有限公司 | 一种图像质量分的确定方法及装置 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注***及方法 |
CN110826494A (zh) * | 2019-11-07 | 2020-02-21 | 达而观信息科技(上海)有限公司 | 标注数据质量评价方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111985583A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909901B (zh) | 从图像中检测物体的方法及装置 | |
CN107797989A (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN109886928A (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
CN111402579A (zh) | 道路拥堵程度预测方法、电子装置及可读存储介质 | |
CN109753976B (zh) | 语料标注装置和方法 | |
CN111159167A (zh) | 标注质量检测装置和方法 | |
CN109871544B (zh) | 基于中文病历的实体识别方法、装置、设备及存储介质 | |
CN111985583B (zh) | 基于学习数据的深度学习样本标注方法 | |
CN111382687A (zh) | 人脸检测方法及*** | |
CN109783483A (zh) | 一种数据整理的方法、装置、计算机存储介质及终端 | |
CN112839185A (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN113312482B (zh) | 问题分类方法、装置、电子设备及可读存储介质 | |
CN114818685B (zh) | 关键词提取方法、装置、电子设备及存储介质 | |
CN113807416B (zh) | 一种模型训练方法、装置、电子设备以及存储介质 | |
CN111460767B (zh) | 一种hmi流程图的生成方法及装置 | |
CN115238653A (zh) | 一种报告生成方法、装置、设备和介质 | |
CN112836827B (zh) | 模型训练方法、装置以及计算机设备 | |
CN113610161A (zh) | 一种基于图像分类技术的目标检测数据标注方法 | |
CN112418217A (zh) | 用于识别字符的方法、装置、设备和介质 | |
CN113642642A (zh) | 控件识别方法及装置 | |
CN113626583A (zh) | 文本摘要标注方法、装置、电子设备和存储介质 | |
CN112131418A (zh) | 目标标注方法、目标标注装置和计算机可读存储介质 | |
CN112699887B (zh) | 一种获得数学对象标注模型、数学对象标注的方法和装置 | |
CN117953320A (zh) | 一种图像类别标注模型的训练方法、装置及电子设备 | |
CN117315704A (zh) | 字段识别方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20221020 Granted publication date: 20210430 |