CN116662764A

CN116662764A - 误识别纠正的数据识别方法、模型训练方法、装置和设备

Info

Publication number: CN116662764A
Application number: CN202310941877.XA
Authority: CN
Inventors: 李常宝; 顾平莉; 王书龙; 袁媛; 贾贺; 李茜; 潘爽; 尹发
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-08-29
Anticipated expiration: 2043-07-28
Also published as: CN116662764B

Abstract

本说明书实施例公开了一种误识别纠正的数据识别方法、模型训练方法、装置和设备。数据识别方法包括：获取用户待操作记录；对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集；若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率；基于所述新模型准确率与所述原模型准确率，确定上线模型；基于所述上线模型，对待识别数据进行识别，获得数据识别结果。

Description

误识别纠正的数据识别方法、模型训练方法、装置和设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种误识别纠正的数据识别方法、模型训练方法、装置和设备。

背景技术

数据识别模型用于对特定数据进行数据识别、数据分类等操作，数据识别模型经训练评估后，进入上线服务阶段，其识别能力一般是固化的。而在用户实际使用过程中，由于训练样本集数据变化等原因，数据识别模型在进行数据识别时，可能存在局部数据误识别的情况。

现有技术中，一般采用机器自动标注技术进行数据识别的修正。但是机器自动标注技术只能应用于建模阶段，无法解决模型上线后的能力修正，更无法将用户经验持续在线融合。

因此，需要一种新的数据识别方法，以发现并修正数据识别模型的区域误识别，从而提高数据识别、数据分类的准确性。

发明内容

本说明书实施例提供一种误识别纠正的数据识别方法、模型训练方法、装置和设备，用于解决如下技术问题：现有的机器自动标注技术进行数据识别的修正，只能应用于建模阶段，无法解决模型上线后的能力修正，更无法将用户经验持续在线融合。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种误识别纠正的数据识别方法，包括：

获取用户待操作记录；

对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，所述用户行为操作包括确认操作、修改操作及浏览操作，其中：若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数；

若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率；

若所述新模型准确率相对于所述原模型准确率大于等于预设比值，将所述新模型做为上线模型；

基于所述上线模型，对待识别数据进行识别，获得数据识别结果。

本说明书实施例提供一种误识别纠正的模型训练方法，该训练方法包括：

获取用户待操作记录；

基于所述新模型准确率与所述原模型准确率，确定上线模型。

本说明书实施例提供的一种误识别纠正的数据识别装置，包括：

模型能力调用模块，获取用户待操作记录；

用户行为分析模块，对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，所述用户行为操作包括确认操作、修改操作及浏览操作，其中：若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数；

模型重训与评估模块，若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率；

模型上线模块，若所述新模型准确率相对于所述原模型准确率大于等于预设比值，将所述新模型做为上线模型；

数据识别模块，基于所述上线模型，对待识别数据进行识别，获得数据识别结果。

本说明书实施例提供的一种误识别纠正的数据识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取用户待操作记录；

本说明书一个实施例至少能够达到以下有益效果：应用于模型上线后，能够快速发现锁定模型识别能力短板，自动引导完成进化升级。本发明将用户纠正的误识别记录自动泛化到相似记录集，以相似记录集逼近旧模型的能力缺陷区域，引导用户进一步纠正和确认。同时，基于纠正记录样本自动完成模型重训，持续修正模型识别能力。同时，用户确认、修改的记录总量更少。本发明设计待确认指数机制，用户每一次记录纠正行为触发相似记录集的“待确认指数”更新，优先将“待确认指数”最高的记录推送给用户进行确认，最大化减少用户操作。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的误识别纠正的数据识别方法的***架构示意图；

图2为本说明书实施例提供的一种误识别纠正的数据识别方法的总体框架图；

图3为本说明书实施例提供的一种误识别纠正的数据识别方法的流程示意图；

图4为本说明书实施例提供的一种待确认推送算法的流程示意图；

图5为本说明书实施例提供的一种模型自动进化算法的流程示意图；

图6为本说明书实施例提供的一种误识别纠正的模型训练方法的流程示意图；

图7为本说明书实施例提供的一种误识别纠正的数据识别装置的示意图；

图8为本说明书实施例提供的一种误识别纠正的模型训练装置的示意图。

具体实施方式

数据识别模型经训练评估后，进入上线服务阶段，其识别能力一般是固化的，因此，数据识别模型存在局部数据误识别的情况。为了修正数据识别模型的区域误识别，现有技术中，数据识别的纠正采用的是机器自动标注技术。机器自动标注技术主要是基于自动建模技术，利用用户手动标记形成的数据标注样本集，来训练相应的数据识别模型，通过融入用户经验，实现数据标注由人工手工到机器自动的转变，显著提升数据标注效率。但是机器自动标注技术只能应用于模型构建阶段，无法进行模型上线阶段后的数据识别的纠正。

基于此，本说明书实施例提供一种基于误识别纠正的数据识别方法，通过在线收集用户的记录纠正行为以发现模型误识别的大概率分布区域，优先将模型误识别的大概率分布区域的记录推送给用户，以便用户对该大概率分布区域的记录进行确认或者修正，持续形成针对模型误识别的纠正记录样本，以利用纠正记录样本对识别模型进行重训以实现模型识别能力的持续修正，从而达到对数据识别的纠正，提高数据识别的准确性。

为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。

应当理解，尽管在本申请文件中可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例提供的误识别纠正的数据识别方法的***架构示意图。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如具有数据识别等功能的专用应用程序。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种专用或通用的电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。

服务器105可以是提供各种服务的服务器，例如为终端设备101、102、103上所安装的客户端应用提供服务的后端服务器。例如，服务器可以训练并运行数据识别模型，实现数据识别功能，以便将数据识别后的结果显示在终端设备101、102、103上。

服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。

本公开实施例提供的基于误识别纠正的数据识别方法例如可以由服务器105执行，也可以由终端设备101、102、103执行。或者，本公开实施例的基于误识别纠正的数据识别方法可以部分地由终端设备101、102、103执行，其他部分由服务器105执行。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2为本说明书实施例提供的一种误识别纠正的数据识别方法的总体框架图。如图2所示，模型能力调用模块，提供模型能力使用环境，以及用户行为操作的采集环境，该模块以用户请求为输入参数，调用模型能力，返回模型结果，在该模块中提供记录推荐以及记录确认和修改入口，从而确定待操作记录。确定待操作记录后，基于用户行为分析模块采集用户行为信息后，根据用户行为操作更新用户状态记录后，经进化态数据管理模块建立并维护用户状态记录、用户行为操作，建立并维护原数据集和新数据集，进而经模型重训与评估模型实现对原模型重训获得新模块，并对原模型和新模型进行评估；新模型上线模型，对通过评估的新模型进行上线，包括将模型部署到指定运行环境、启动模型并测试模型可用性、将模型说明信息和版本信息、更新模型能力调用模块中的模型调用地址。新模型上线后，将相关数据加入模型能力调用模块，以便模型使用用户使用新模型。需要特别说明的是，进化态数据管理模块的相关数据也供模型能力调用模块调用。

为了进一步理解本说明书实施例提供的基于误识别纠正的数据识别方法，下面将结合具体的实施例予以说明。图3为本说明书实施例提供的基于误识别纠正的数据识别方法的流程示意图。如图3所示，该数据识别方法包括：

步骤S301：获取用户待操作记录。

在本说明书实施例中，待操作记录为数据识别结果的记录，具体而言，待操作记录为为结构化数据的识别结果的记录。需要特别说明的是，结构化数据做广义理解，即为结构化数据，或者可以转化为结构化数据的数据。具体而言，待操作记录可以为图像数据、文本数据、视频数据、音频数据的识别结果的记录。

在本说明书实施例中，待操作记录至少包括：key、value、用户操作状态及待确认指数。其中key为对象唯一标识，value为对象识别结果，用户操作状态mark包括确认态和修改态，待确认指数w_c的默认值为0。待操作记录中的对象即结构化数据。在本说明书实施例中，待操作记录以用户状态记录表示，具体到实施例中，以Record表示。

在本说明书实施例中，所述获取用户待操作记录，之前还包括通过搜索入口或者推荐入口，确定用户待操作记录，具体而言，包括：

通过搜索入口，按照用户指定的搜索条件，获取所述用户指定的搜索条件相关的搜索结果集，以便从所述搜索结果集中选取所述用户待操作记录，所述搜索结果集按照待确认指数进行排序；

或者

通过推荐入口，按照待确认指数对推荐结果集进行排序，以便从所述推荐结果集中选取所述用户待操作记录。

在具体实施例中，优先判断用户是否使用搜索入口，若未使用搜索入口，则使用推荐入口。具体而言，在搜索入口，用户输入搜索条件，基于用户输入的搜索条件的相关性生成搜索结果集；在搜索结果集中，为用户显示“待确认指数”，支持按“待确认指数”排序，以便用户从搜索结果集中选取用户待操作记录。

在推荐入口直接获取推荐结果集，从推荐结果集中直接选取“待确认指数”最高的X条记录，从该X条记录中随机选择若干条记录推送给用户，以作为用户待操作记录。其中X为min{10%*{count(Record)}，1000，count(Record.w_c>0)，count(Record.w_c>10)表示所述更新的待确认指数大于10的计数；count(Record)表示用户状态记录的计数；min{10%*{count(Record)}，1000，count(Record.w_c>0)表示1%*count(Record)、1000、count(Record.w_c>0)中选取最小值。

步骤S303：对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，所述用户行为操作包括确认操作、修改操作及浏览操作，其中：若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数。

在本说明书实施例中，所述对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，具体包括：

基于用户行为操作的优先级，对所述用户待操作记录进行相应的用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得所述更新的用户行为状态、所述更新的待确认指数及所述更新的新数据集。

具体到本说明书实施例中，用户行为操作以action表示，action=<{confirm，modify，browse}，m_value>，即用户行为操作为确认操作confirm或者修改操作modify或者浏览操作browse。需要特别说明的是，若用户行为操作为确认操作或者浏览操作，则m_value的值为空。

在本说明书实施例中，所述基于用户行为操作的优先级依次为确认操作、修改操作和浏览操作；

所述基于用户行为操作的优先级，对所述用户待操作记录进行相应的用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得所述更新的用户行为状态、所述更新的待确认指数及所述更新的新数据集，具体包括：

若对所述用户待操作记录进行确认操作，则更新所述待操作记录的用户行为状态为确认，更新所述待操作记录的待确认指数为0，将所述待操作记录被确认后的key和value加入到所述新数据集中，作为所述更新的新数据集；

若未对所述用户待操作记录进行确认操作，则进一步判断是否对所述用户待操作记录进行修改操作；

若对所述待操作记录进行修改操作，则将修改后的所述待操作记录的value作为所述待操作记录的用户状态记录的value，更新所述待操作记录的用户行为状态为修改，更新所述待操作记录的待确认指数为0，将所述待操作记录被修改后的key和value加入到所述新数据集中，作为所述更新的新数据集；

若对所述待操作记录进行浏览操作，则不执行操作。

在本说明书实施例中，所述若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数，具体包括：

若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于90%的记录集，作为相似记录集；

将所述相似记录集中的各记录的待确认指数增加1作为所述更新的待确认指数。

具体到实施例中，若对用户待操作记录进行确认操作，则执行如下操作：

{

记录用户的确认状态，Record.mark=c，即将用户行为状态修改为确认；

更新待确认指数，Record.w_c=0，即更新待确认指数为0；

更新新数据集B+=<Record.key，Record.value>，即将将待操作记录被确认后的key和value加入到新数据集中，作为更新后的新数据集 }。

若对待操作记录进行修改操作，则执行如下操作：

{

将修改值更新Record.value=action.m_value，即将修改后的待操作记录的value作为待操作记录的用户状态记录的value；

记录用户的修改状态，Record.mark=m，即更新待操作记录的用户行为状态为修改；

更新待确认指数，Record.w_c=0，即更新待确认指数为0；

更新新数据集B+=<Record.key，Record.value>，即将待操作记录被修改后的key和value加入到新数据集中，作为更新的新数据集；

更新相似记录的待确认指数，即采用余弦向量获取与用户待操作记录相似度高于预设值的记录集，将记录集中的各记录的待确认指数增加1作为所述更新的待确认指数 }。

为了进一步理解待确认指数及新数据集的更新过程，下面将进一步予以说明。图4为本说明书实施例提供的一种待确认推送算法的流程示意图。如图4所示，首先判断用户是否使用搜索入口，若使用搜索入口，则返回搜索结果集，该搜索结果集支持按照“待确认指数”排序；若未使用搜索入口，则使用推荐入口推荐的“待确认指数”最高的推荐结果集；随后，从搜索结果集或者推荐结果集中选取指定记录，并进行用户操作判断，具体地，首先判断是否对记录进行确认操作，若是，则更新该记录的确认状态，并将该记录的待确认指数置为0，并更新新数据集；若否，则判断是否对该记录进行修改操作。若是，则更新该记录的确认状态，将该记录的待确认指数置为0，并更新新数据集合，同时更新相似记录的待确认指数，若否，则不做任何操作。

步骤S305：若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率。

在本说明书实施例中，若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率，具体包括：

若所述更新的待确认指数满足预设条件，则以原数据集及所述更新的新数据集构建学习样本集；

基于所述学习样本集中的训练集重训原模型，生成新模型；

基于所述学习样本集中的评估集对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率。

在本说明书实施例中，所述预设条件为：

count(Record.w_c>第一数值)>min{1%*(count(Record))，第二数值}*factor，且count（B）> min{1%*(count(Record))，第三数值}*factor

其中：

Record.w_c>第一数值，表示所述更新的待确认指数大于数值；

count(Record.w_c>第一数值)，表示所述更新的待确认指数大于第一数值的计数；

count(Record)，表示用户状态记录的计数；

min{1%*(count(Record))，第二数值}，表示1%*count(Record)与第二数值取最小值；

factor，表示当前进化控制因子；

count（B），表示更新的新数据集的计数；

min{1%*(count(Record))，第三数值}，表示1%*count(Record)与第三数值取最小值。

需要特别说明的是，第一数值、第二数值及第三数值的具体大小可以根据业务需要进行调整。在本说明书的一个具体实施例中，第一数值优选为10，第二数值优选为100，第三数值优选为500，即预设条件为：

count(Record.w_c>10)>min{1%*(count(Record))，100}*factor，且count（B）>min{1%*(count(Record))，500}*factor

其中：

Record.w_c>10，表示所述更新的待确认指数大于10；

count(Record.w_c>10)，表示所述更新的待确认指数大于10的计数；

count(Record)，表示用户状态记录的计数；

min{1%*(count(Record))，100}，表示1%*count(Record)与100取最小值；

factor，表示当前进化控制因子；

count（B），表示更新的新数据集的计数；

min{1%*(count(Record))，500}，表示1%*count(Record)与500取最小值。

步骤S307：基于所述新模型准确率与所述原模型准确率，确定上线模型。

在本说明书实施例中，所述基于所述新模型准确率与所述原模型准确率，确定上线模型，具体包括：

若所述新模型准确率相对于所述原模型准确率小于所述预设比值，则将所述原模型继续作为所述上线模型。

新模型相对于原模型的准确率是指（新模型准确率-原模型准确率）/原模型准确率，具体到实施例中，新模型准确率表示为p_new，原模型准确率为p，则新模型相对于原模型的准确率=（p_new-p）/p。预设比值可以根据业务场景而定，在本说明书的一个实施例中，预设比值为5%，即新模型相对于原模型的准确率=（p_new-p）/p≥5%时，将新模型作为上线模型，新模型相对于原模型的准确率=（p_new-p）/p＜5%时，将原模型继续作为上线模型。

在本说明书实施例中，所述若所述新模型准确率相对于所述原模型准确率大于等于预设比值，将所述新模型做为上线模型，进一步包括：

若所述新模型准确率相对于所述原模型准确率小于所述预设比值，则按照预设步长更新所述进化因子，获得更新的进化因子；

基于所述更新的进化因子，确定所述待确认指数满足预设条件的样本集合，以构建学习样本集，进而训练新模型。

在本说明书实施例中，预设步长亦可以理解为增加的数值，即进化因子的增加数值。在具体实施例中，进化因子初始为1。若预设步长为1，若新模型准确率相对于原模型准确率小于预设比值，则继续以原模型作为上线模型，同时更新进化因子，更新的进化因子=1+1=2。当然，预设步长的选择也可以为其他大于1的数值，且预设步长可以为非整数。

若新模型为上线模型后，进一步需要将新数据集中的数据加入到原数据集中，作为原数据集，同时清空新数据集，更新进化因子为1。

在本说明书实施例中，原模型理解为当前模型，或者说是上线模型，例如将新模型作为上线模型后，则上线模型即作为原模型应用于数据识别，以便再次进行模型重训，确定新的上线模型。

为了进一步理解本说明书实施例中，模型的自动进化过程，下面将详细予以说明。图5为本说明书实施例提供的一种模型自动进化算法的流程示意图。如图5所示，首先初始化进化因子为1，满足预设条件后，触发模型自动进化机制；若不满足预设条件，则继续收集用户交互信息，具体而言，对用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集。若触发模型自动进化机制，则利用原数据集及更新的新数据集构建学习样本集，并将学习样本集划分为训练集和测试集；随后基于学习样本集中的训练集重训原模型，生成新模型；进一步，基于学习样本集中的评估集对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率。若新模型准确率相对于原模型准确率大于等于预设比值，则上线新模型，并将新数据集加入到原数据集中作为新的原数据集，并清空新数据集，更新进化因子为1。若新模型准确率相对于原模型准确率小于预设比值，则继续以原模型作为上线模型，同时以预设步长更新进化因子，获得更新的进化因子。基于更新的进化因子，确定待确认指数满足预设条件的样本集合，以构建学习样本集，进而训练新模型。

步骤S309：基于所述上线模型，对待识别数据进行识别，获得数据识别结果。

在本说明书实施例中，待识别数据为结构化数据，需要特别说明的是，该结构化数据做广义理解，即为结构化数据，或者可以转化为结构化数据的数据。具体而言，待识别数据可以为图像数据、文本数据、视频数据、音频数据。

将待识别数据输入上线模型后，即可获得数据识别结果。

采用本说明书实施例提供的误识别纠正的数据识别方法，应用于模型上线后，能够快速发现锁定模型识别能力短板，自动引导完成进化升级。本发明将用户纠正的误识别记录自动泛化到相似记录集，以相似记录集逼近旧模型的能力缺陷区域，引导用户进一步纠正和确认。同时，基于纠正记录样本自动完成模型重训，持续修正模型识别能力。同时，用户确认、修改的记录总量更少。本发明设计待确认指数机制，用户每一次记录纠正行为触发相似记录集的“待确认指数”更新，优先将“待确认指数”最高的记录推送给用户进行确认，最大化减少用户操作。

本说明书实施例还提供一种误识别纠正的模型训练方法，如图6所示，该训练方法包括：

步骤S601：获取用户待操作记录；

步骤S603：对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，所述用户行为操作包括确认操作、修改操作及浏览操作，其中：若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数；

步骤S605：若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率；

步骤S607：基于所述新模型准确率与所述原模型准确率，确定上线模型。

本说明书前述实施例提供了一种误识别纠正的数据识别方法，基于同样的思路，本说明书实施例还提供一种误识别纠正的数据识别装置。图7为本说明书实施例提供的一种误识别纠正的数据识别装置的示意图，如图7所示，该数据识别装置包括：

模型能力调用模块701，获取用户待操作记录；

用户行为分析模块703，对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，所述用户行为操作包括确认操作、修改操作及浏览操作，其中：若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数；

模型重训与评估模块705，若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率；

模型上线模块707，基于所述新模型准确率与所述原模型准确率，确定上线模型；

数据识别模块709，基于所述上线模型，对待识别数据进行识别，获得数据识别结果。

本说明书前述实施例提供了一种误识别纠正的模型训练方法，基于同样的思路，本说明书实施例还提供一种误识别纠正的模型训练装置。图8为本说明书实施例提供的一种误识别纠正的模型训练装置的示意图，如图8所示，该数据识别装置包括：

模型能力调用模块801，获取用户待操作记录；

用户行为分析模块803，对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，所述用户行为操作包括确认操作、修改操作及浏览操作，其中：若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数；

模型重训与评估模块805，若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率；

模型上线模块807，基于所述新模型准确率与所述原模型准确率，确定上线模型。

本说明书实施例还提供一种基于误识别纠正的数据识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取用户待操作记录；

基于所述新模型准确率与所述原模型准确率，确定上线模型；

上述对本说明书特定实施例进行了描述，在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。

本说明书实施例提供的装置、设备与方法是对应的，因此，装置、设备也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备的有益技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种误识别纠正的数据识别方法，其特征在于，所述方法包括：

获取用户待操作记录；

2.如权利要求1所述的数据识别方法，其特征在于，所述获取用户待操作记录，之前还包括：

或者

3.如权利要求1所述的数据识别方法，其特征在于，所述对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，具体包括：

4.如权利要求3所述的数据识别方法，其特征在于，所述基于用户行为操作的优先级依次为确认操作、修改操作和浏览操作；

若对所述待操作记录进行浏览操作，则不执行操作。

5.如权利要求1所述的数据识别方法，其特征在于，所述若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数，具体包括：

6.如权利要求1所述的数据识别方法，其特征在于，所述基于所述新模型准确率与所述原模型准确率，确定上线模型，具体包括：

7.如权利要求6所述的数据识别方法，其特征在于，所述若所述新模型准确率相对于所述原模型准确率大于等于预设比值，将所述新模型做为上线模型，进一步包括：

若所述新模型准确率相对于所述原模型准确率小于所述预设比值，则按照预设步长更新进化因子，获得更新的进化因子；

8.一种误识别纠正的模型训练方法，其特征在于，所述方法包括：

获取用户待操作记录；

9.一种误识别纠正的数据识别装置，其特征在于，所述装置包括：

模型能力调用模块，获取用户待操作记录；

模型上线模块，基于所述新模型准确率与所述原模型准确率，确定上线模型；

10.一种误识别纠正的数据识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取用户待操作记录；

对所述用户待操作记录进行用户行为操作，更新所述用户待操作记录的用户行为状态、所述用户待操作记录的待确认指数及新数据集，获得更新的用户行为状态、更新的待确认指数及更新的新数据集，所述用户行为操作包括确认操作、修改操作及浏览操作；

若对所述用户待操作记录进行用户行为操作为修改操作，则采用余弦向量获取与所述用户待操作记录相似度高于预设值的记录集，将所述记录集中的各记录的待确认指数增加1作为所述更新的待确认指数，其中：若所述更新的待确认指数满足预设条件，则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型，对所述新模型及所述原模型进行评估，获得新模型准确率及原模型准确率；