CN111985583B

CN111985583B - 基于学习数据的深度学习样本标注方法

Info

Publication number: CN111985583B
Application number: CN202011035409.9A
Authority: CN
Inventors: 崔炜
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-04-30
Anticipated expiration: 2040-09-27
Also published as: CN111985583A

Abstract

本发明公开了一种基于学***均标注率；根据获取的所述各章节平均标注率，计算所述历史学***均水准，降低了学习对象的学习负荷，提高了学习对象的学习效率，从而实现了对学习数据进行深度学习样本标注的目的。

Description

基于学习数据的深度学习样本标注方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于学习数据的深度学习样本标注方法。

背景技术

现有的学习样本标注中，主要有两种标注方式，一种是：采用人工进行手动标注的方式；这种人工手动的标注方式，标注效率低且需花费大量的时间和精力。另一种是，自动标注的方式；目前，现有技术中的自动标注方式，通常需要根据人为设置的关键字/词等作为参照，进行标注，标注准确率低，且相邻页面中的标注信息对应的标注数据量存在较大差异时，也无法自动修正处理，也需要人工介入。因此，现有的学习样本标注方法不能满足学习数据标注的实际需求。

发明内容

本发明提供一种基于学***均水准，降低学习对象的学习负荷。

本发明提供了一种基于学习数据的深度学习样本标注方法，所述包括：

采集历史学***均标注率；

根据获取的所述各章节平均标注率，计算所述历史学习对象对应的学习课程中各章节对应的标记差异率；

根据计算得到的所述学习课程中各章节对应的标记差异率，执行深度学习样本的标注操作。

进一步地，所述采集历史学***均标注率，包括：

根据深度学习样本标注需求信息，对所学习的课程内容进行识别，采集历史学习对象的标注信息；

基于采集的所述历史学***均标注率。

进一步地，所述基于采集的所述历史学***均标注率，包括：

根据采集的所述历史学***均标注率Mark(k_m,k_m-1)，则有：

其中，m为抽取的所述学***均标注率。

进一步地，所述根据获取的所述各章节平均标注率，计算所述历史学习对象对应的学习课程中各章节对应的标记差异率，包括：

根据获取的所述各章节平均标注率，利用公式(2)，计算得到所述学习课程中各章节对应的相邻的学习页面之间的标记差异率Dif(k_m,k_m-1)，则有：

其中，η为差异度参数，取值为0.2；Mark(k_m,k_m-1)为所述各章节平均标注率，Dif(k_m,k_m-1)为所述学习课程中各章节第m页的标记总数与第m-1页的标记总数之间的标记差异率。

进一步地，所述根据计算得到的所述学习课程中各章节对应的标记差异率，执行深度学习样本的标注操作，包括：

根据计算得到的所述学习课程中各章节对应的标记差异率，将所述标记差异率与预设差异率进行比较；

根据所述标记差异率与预设差异率的比较结果，执行深度学习样本的标注操作。

进一步地，所述根据所述标记差异率与预设差异率的比较结果，执行深度学习样本的标注操作，包括：

若所述标记差异率大于所述预设差异率，则基于所述标记差异率，并根据获取的所述历史学***均标注率，对所述深度学习样本执行相应的标注操作；

若所述标记差异率小于或者等于所述预设差异率，则不进行深度学习样本的标注操作。

进一步地，所述若所述标记差异率大于所述预设差异率，则基于所述标记差异率，并根据获取的所述历史学***均标注率，对所述深度学习样本执行相应的标注操作，包括：

针对所述学***均标注率，利用公式(3)，计算各章节中学习页面所对应的待调整标记数量Q，则有：

其中，θ为修正因子，取值为1.5；Q为各章节中各学***均标注率；Dif(k_m,k_m-1)为所述学习课程中各章节对应的相邻的学习页面之间的标记差异率；m为各章节中对应的第m页的学习页面，其取值范围为[2,M]；

根据计算得到的各章节中各学习页面所对应的待调整标记数量Q，执行所述深度学习样本的标注操作。

进一步地，所述根据计算得到的各章节中各学习页面所对应的待调整标记数量Q，执行所述深度学习样本的标注操作，包括：

若计算得到的各章节中学习页面所对应的待调整标记数量Q为0，则不进行深度学习样本的标注操作；

若计算得到的各章节中学习页面所对应的待调整标记数量Q不为0，则根据计算得到的所述待调整标记数量Q，执行深度学习样本的标注操作。

进一步地，所述根据计算得到的所述待调整标记数量Q，执行深度学习样本的标注操作，包括：

根据计算得到的所述待调整标记数量Q，参照所述标记差异率与所述各章节平均标注率之间的大小关系，补充或者删除所述待调整标记数量Q对应的标注，以执行所述深度学习样本对应的标注操作。

进一步地，所述根据计算得到的所述待调整标记数量Q，参照所述标记差异率与所述各章节平均标注率之间的大小关系，补充或者删除所述待调整标记数量Q对应的标注，包括：

若所述标记差异率大于所述各章节平均标注率，则对各章节中相应的学习页面删除对应数量的标注；其中，对所述学习页面删除的标注数量等于所述待调整标记数量Q；

若所述标记差异率小于所述各章节平均标注率，则对各章节中相应的学习页面补充对应数量的标注；其中，对所述学习页面补充的标注数量等于所述待调整标记数量Q。

本发明基于学***均标注率；根据获取的所述各章节平均标注率，计算所述历史学***均水准，降低了学习对象的学习负荷，提高了学习对象的学习效率，从而实现了对学习数据进行深度学习样本标注的目的。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明基于学习数据的深度学习样本标注方法的一种实施方式的流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种基于学***均标注率和各章节中学***均水准，降低了学习对象的学习负荷，提高了学习对象的学习效率，从而实现了对学习数据进行深度学习样本标注的目的。

如图1所示，图1是本发明基于学习数据的深度学习样本标注方法的一种实施方式的流程示意图；本发明一种基于学习数据的深度学习样本标注方法可以实施为如下描述的步骤S10-S30：

步骤S10、采集历史学***均标注率。

步骤S20、根据获取的所述各章节平均标注率，计算所述历史学习对象对应的学习课程中各章节对应的标记差异率。

步骤S30、根据计算得到的所述学习课程中各章节对应的标记差异率，执行深度学习样本的标注操作。

在一个实施例中，图1所述实施例中的“步骤S10、所述采集历史学***均标注率”，可以按照如下描述的技术手段实施：

根据深度学***均标注率。

本发明实施例中，通过对历史学***均标注率。

在一个实施例中，所述基于采集的所述历史学***均标注率，可以按照如下描述的技术手段实施：

根据采集的所述历史学***均标注率Mark(k_m,k_m-1)，则有：

其中，m为抽取的所述学***均标注率。

在一个实施例中，图1所述实施例中的“步骤S20、根据获取的所述各章节平均标注率，计算所述历史学习对象对应的学习课程中各章节对应的标记差异率”，可以按照如下描述的技术手段实施：

在一个实施例中，所述根据计算得到的所述学习课程中各章节对应的标记差异率，执行深度学习样本的标注操作，可以按照如下描述的技术手段实施：

根据计算得到的所述学习课程中各章节对应的标记差异率，将所述标记差异率与预设差异率进行比较；根据所述标记差异率与预设差异率的比较结果，执行深度学习样本的标注操作。

进一步地，在一个实施例中，所述根据所述标记差异率与预设差异率的比较结果，执行深度学习样本的标注操作，可以按照如下描述的技术手段实施：

进一步地，在一个实施例中，所述若所述标记差异率大于所述预设差异率，则基于所述标记差异率，并根据获取的所述历史学***均标注率，对所述深度学习样本执行相应的标注操作，可以按照如下描述的技术手段实施：

其中，θ为修正因子，取值为1.5；Q为各章节中各学***均标注率；Dif(k_m,k_m-1)为所述学习课程中各章节对应的相邻的学习页面之间的标记差异率；m为各章节中对应的第m页的学习页面，其取值范围为[2,M]；根据计算得到的各章节中各学习页面所对应的待调整标记数量Q，执行所述深度学习样本的标注操作。

另外，本发明实施例中，为确保需要调整的标记数量因不大于1而被忽略，因此，将修正因子θ的取值设置为1.5。

进一步地，在一个实施例中，所述根据计算得到的各章节中各学习页面所对应的待调整标记数量Q，执行所述深度学习样本的标注操作，可以按照如下描述的技术手段实施：

进一步地，在一个实施例中，所述根据计算得到的所述待调整标记数量Q，执行深度学习样本的标注操作，可以按照如下描述的技术手段实施：

进一步地，在一个实施例中，所述根据计算得到的所述待调整标记数量Q，参照所述标记差异率与所述各章节平均标注率之间的大小关系，补充或者删除所述待调整标记数量Q对应的标注，进一步地，在一个实施例中，：

若所述标记差异率大于所述各章节平均标注率，则对各章节中相应的学习页面删除对应数量的标注；其中，对所述学习页面删除的标注数量等于所述待调整标记数量Q。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于学习数据的深度学习样本标注方法，其特征在于，所述方法包括：

采集历史学***均标注率；

根据计算得到的所述学习课程中各章节对应的标记差异率，执行深度学习样本的标注操作；

其中，所述采集历史学***均标注率，包括：

基于采集的所述历史学***均标注率，具体包括：

根据采集的所述历史学***均标注率Mark(k_m,k_m-1)，则有：

其中，m为抽取的所述学***均标注率；

其中，所述根据获取的所述各章节平均标注率，计算所述历史学习对象对应的学习课程中各章节对应的标记差异率，包括：

其中，η为差异度参数，取值为0.2；Mark(k_m,k_m-1)为所述各章节平均标注率，Dif(k_m,k_m-1)为所述学习课程中各章节第m页的标记总数与第m-1页的标记总数之间的标记差异率；

其中，所述根据计算得到的所述学习课程中各章节对应的标记差异率，执行深度学习样本的标注操作，包括：

根据所述标记差异率与预设差异率的比较结果，执行深度学习样本的标注操作，具体包括：

若所述标记差异率小于或者等于所述预设差异率，则不进行深度学习样本的标注操作；

其中，所述若所述标记差异率大于所述预设差异率，则基于所述标记差异率，并根据获取的所述历史学***均标注率，对所述深度学习样本执行相应的标注操作，包括：

2.如权利要求1所述的基于学习数据的深度学习样本标注方法，其特征在于，所述根据计算得到的各章节中各学习页面所对应的待调整标记数量Q，执行所述深度学习样本的标注操作，包括：

3.如权利要求2所述的基于学习数据的深度学习样本标注方法，其特征在于，所述根据计算得到的所述待调整标记数量Q，执行深度学习样本的标注操作，包括：

4.如权利要求3所述的基于学***均标注率之间的大小关系，补充或者删除所述待调整标记数量Q对应的标注，包括：