CN115601779A - 一种模型迭代方法及装置 - Google Patents

一种模型迭代方法及装置 Download PDF

Info

Publication number
CN115601779A
CN115601779A CN202211399013.1A CN202211399013A CN115601779A CN 115601779 A CN115601779 A CN 115601779A CN 202211399013 A CN202211399013 A CN 202211399013A CN 115601779 A CN115601779 A CN 115601779A
Authority
CN
China
Prior art keywords
data set
data
initial
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211399013.1A
Other languages
English (en)
Inventor
黄东振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pacific Insurance Technology Co Ltd
Original Assignee
Pacific Insurance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pacific Insurance Technology Co Ltd filed Critical Pacific Insurance Technology Co Ltd
Priority to CN202211399013.1A priority Critical patent/CN115601779A/zh
Publication of CN115601779A publication Critical patent/CN115601779A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种本申请提供了一种模型迭代方法及装置,该方法包括:获取已完成人工标注的新增数据,作为第一数据集;基于第一数据集对初始模型进行训练,并统计第一数据集中所有数据的聚集离群指标;基于聚集离群指标,将聚集离群指标小于第一预设值的数据从第一数据集中删除,从而获得第二数据集;基于初始数据集和第二数据集,得到第三数据集;基于第三数据集对初始模型重新进行训练,从而完成一次模型的迭代。可知,获取新增数据后,基于训练过程中统计的聚集离群指标主动将存在质量问题的数据从数据集中删除后,重新对模型进行训练,实现了模型的迭代,解决模型存在域偏移问题的同时,提高了模型的性能,从而可以准确抽取出医疗票据信息。

Description

一种模型迭代方法及装置
技术领域
本申请涉及模型训练技术领域,具体涉及一种模型迭代方法及装置。
背景技术
医疗票据信息的提取在保险理赔鉴定等领域有着广泛的应用。由于各个地区的医疗票据版式不同、各个医院的医疗票据版式不同,所以医疗票据具有版式繁多的情况。主流的医疗票据信息抽取方法至少包括两个步骤:光学字符识别(Optical CharacterRecognition,OCR)和命名实体识别(Named Entity Recognition,NER)两个步骤。
当前对于NER任务是来说,最常见的训练方式是有监督学习,即NER任务是通过训练方式为有监督学习得到的模型实现的。有监督学习是机器学习中的一种,具体为利用一组带标签的样本作为训练集,通过该训练集对模型进行训练,从而得到目标模型。
基于有监督学习训练得到的模型存在域偏移的问题,将该模型应用到场景复杂、票据版式多样的医疗票据信息提取任务中时,会导致无法准确得到医疗票据信息。
发明内容
基于上述问题,本申请提供了一种模型迭代方法及装置,可以应对场景复杂、票据版式多样的医疗票据信息提取任务中的模型的域偏移问题,从而可以准确抽取出医疗票据信息。
本申请实施例公开了如下技术方案:
第一方面,本申请公开了一种模型迭代方法,其特征在于,所述方法包括:
获取已完成人工标注的新增数据,作为第一数据集;
基于所述第一数据集对初始模型进行训练,并统计所述第一数据集中所有数据的聚集离群指标;所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积;
基于所述聚集离群指标,将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除,从而获得第二数据集;
基于初始数据集和所述第二数据集,得到第三数据集;所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据;
基于所述第三数据集对所述初始模型重新进行训练,从而完成一次模型的迭代。
可选的,在所述基于初始数据集和所述第二数据集,得到第三数据集之后,所述方法还包括:
判断所述第三数据集中的数据数量是否大于预设数量;
若是,则对所述第三数据集中的所有数据进行降采样;基于已经降采样过的第三数据集,对所述初始模型重新进行训练;
若否,则直接基于所述第三数据集对所述初始模型重新进行训练。
可选的,所述对所述第三数据集中的所有数据进行降采样包括:
统计所述第三数据集中的所有数据的聚集离群指标;
基于所述所有数据的聚集离群指标,将所述聚集离群指标小于第二预设值的数据从所述第三数据集中删除,从而实现降采样;所述第二预设值大于所述第一预设值。
可选的,在所述获取人工标注完成的新增数据,作为第一数据集之前,所述方法还包括:
获取医疗票据;
基于所述医疗票据,筛选出所述医疗票据的新增数据。
可选的,所述基于所述医疗票据,筛选出所述医疗票据的新增数据包括:
基于所述医疗票据,通过主动学习技术,筛选出所述医疗票据中指标超过预设阈值的数据;所述指标超过预设阈值的数据为所述医疗票据的新增数据。
可选的,还包括:
预先获取初始数据集;
基于所述初始数据集,选取训练模型;
基于所述初始数据集,对所述训练模型进行训练得到初始模型。
可选的,所述基于所述初始数据集,选取训练模型,包括:
基于所述初始数据集,对所述初始数据集中的数据进行分词,并统计各个所述数据分词后的序列长度;
基于所述序列长度,分析所述序列长度的分布;
基于所述序列长度的分布,选取对应的信息抽取模型作为训练模型。
可选的,所述预先获取初始数据集包括:
基于初始医疗票据,获取已完成人工标注的初始医疗票据;
基于所述已完成人工标注的初始医疗票据,对所述初始医疗票据中的目标实体进行光学字符识别,从而获取所述初始数据集。
第二方面,本申请提供了一种模型迭代装置,其特征在于,所述装置包括:
获取模块,用于获取已完成人工标注的新增数据,作为第一数据集;
统计模块,用于基于所述第一数据集对初始模型进行训练,并统计所述第一数据集中所有数据的聚集离群指标;所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积;
筛选模块,用于基于所述聚集离群指标,将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除,从而获得第二数据集;
合并模块,用于基于初始数据集和所述第二数据集,得到第三数据集;所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据;
迭代训练模块,用于基于所述第三数据集对所述初始模型重新进行训练,从而完成一次模型的迭代。
可选的,所述装置还包括:
判断模块,用于判断所述第三数据集中的数据数量是否大于预设数量;
若是,则降采样模块,用于对所述第三数据集中的所有数据进行降采样;所述迭代训练模块,具体用于基于已经降采样过的第三数据集,对所述初始模型重新进行训练;
若否,则所述迭代训练模块,具体用于直接基于所述第三数据集对所述初始模型重新进行训练。
可选的,所述降采样模块,具体用于统计所述第三数据集中的所有数据的聚集离群指标;
基于所述所有数据的聚集离群指标,将所述聚集离群指标小于第二预设值的数据从所述第三数据集中删除,从而实现降采样;所述第二预设值大于所述第一预设值。
可选的,所述装置还包括:
票据获取模块,用于获取医疗票据;
新增数据筛选模块,用于基于医疗票据,筛选出医疗票据中的新增数据。
可选的,所述新增数据筛选模块,具体用于:基于医疗票据,通过主动学习技术,筛选出医疗票据中指标超过预设阈值的数据;指标超过预设阈值的数据为所述医疗票据的新增数据。
可选的,所述装置还包括:
初始数据获取模块,用于预先获取初始数据集;
训练模型选取模块,用于基于初始数据集,选取训练模型;
初始模型训练模块,用于基于初始数据集,对训练模型进行训练得到初始模型。
可选的,所述训练模型选取模块,具体用于:基于所述初始数据集,对所述初始数据集中的数据进行分词,并统计各个数据分词后的序列长度;基于序列长度,分析所述序列长度的分布;基于所述序列长度的分布,选取对应的信息抽取模型作为训练模型。
可选的,所述初始数据获取模块,具体用于:
基于初始医疗票据,获取已完成人工标注的初始医疗票据;基于已完成人工标注的初始医疗票据,对初始医疗票据中的目标实体进行光学字符识别,从而获取所述初始数据集。
相较于现有技术,本申请具有以下有益效果:接收已完成人工标注的新增数据,并基于已完成人工标注的新增数据对初始模型进行训练,在训练过程中将存在质量问题的数据从数据集中删除,结合已经删除错误数据的新增数据和初始数据一同对初始模型进行重新训练,以实现了模型的迭代,可以解决模型存在域偏移的问题的同时,提高了新增数据的质量,主动筛选出存在质量问题的数据,提高模型的性能,从而可以准确抽取出医疗票据信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种模型迭代方法的流程图;
图2为本申请实施例提供的一种获取初始数据集方法的流程图;
图3为本申请实施例提供的一种模型迭代装置的结构框图。
具体实施方式
正如前文描述,现有技术中医疗票据信息的提取任务是通过训练方式为有监督学习得到的模型实现的。有监督学习是通过有限的已知数据集作为训练样本(比如已知的输入和对应的输出)进行训练,从而得到一个目标模型,基于该目标模型实现医疗票据信息的提取。由于医疗票据版式繁多(各个地区的医疗票据版式不同、各个医院的医疗票据版式不同),医疗票据版式也会更新,因此基于有限的数据训练下得到的模型实现医疗票据信息的提取任务往往会存在域偏移问题,模型的泛化性能差。例如:基于A医院的医疗票据数据训练得到的模型A,模型A应用于B医院的医疗票据信息的提取任务,往往无法准确提取B医院的医疗票据信息。
为了解决上述问题,本申请提供了一种模型迭代方法,包括:本申请实施例提供的一种模型迭代方法,包括:获取已完成人工标注的新增数据,作为第一数据集;基于所述第一数据集对初始模型进行训练,并统计所述第一数据集中所有数据的聚集离群指标;所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积;基于所述聚集离群指标,将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除,从而获得第二数据集;基于初始数据集和所述第二数据集,得到第三数据集;所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据;基于所述第三数据集对所述初始模型重新进行训练,从而完成一次模型的迭代。。由此可见,识别已完成人工标注的新增数据,并基于已完成人工标注的新增数据对初始模型进行训练,在训练过程中将存在质量问题的数据从数据集中删除,结合已经删除错误数据的新增数据和初始数据一同对初始模型进行重新训练,以实现了模型的迭代,可以解决模型存在域偏移的问题的同时,提高了新增数据的质量,主动筛选出存在质量问题的数据,提高模型的性能,从而可以准确抽取出医疗票据信息。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,该图为本申请实施例提供的一种模型迭代方法的流程图,该方法包括:
S101、获取初始数据集。
初始数据集是一组用于训练模型的已标注的数据的集合。
如图2所示的获取初始数据集的流程示意图可知,获取初始数据集具体包括:
S201、基于初始医疗票据,获取已完成人工标注的初始医疗票据。
获取已完成人工标注的初始医疗票据,主要是针对初始医疗票据中的目标实体进行人工标注。
其中,目标实体一般指的是具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。按照业务需求目标实体还可以包括更多类别的实体,比如产品名称、型号、价格等。以医疗票据为例,医疗票据的目标实体一般包括:人名、医院名称、医疗项目名称、缴费费用等实体。
基于初始医疗票据,将初始医疗票据中的目标实体的对应位置以及所述目标实体的类别进行人工标注。
S202、基于已完成人工标注的初始医疗票据,对初始医疗票据中的目标实体进行OCR检测识别,从而获取初始数据集。
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
所以本申请实施例中,对初始医疗票据中的目标实体的字符进行OCR识别,即将所述目标实体对应的文字转换成计算机文字(例如文本格式)。
S202也可以是根据初始医疗票据,人为将文字输入成计算机文字。在本申请中不做具体限定。
通过OCR技术,将初始医疗票据中的目标实体的字符转换为计算机文字,相比人工将目标实体的字符输入成计算机文字,减少人力资源的浪费,并且速度更快。
上述S201标注的目标实体的对应位置以及目标实体的类别,以及S202中所得到的目标实体的计算机文字,一一对应得到用于训练模型的一组已知的输入以及对应的输出。例如:目标实体的位置(seat)、该目标实体的类别(key)以及该目标实体的计算文字(value),key-seat-value为一组用于训练模型的数据和对应输出。
S102、基于初始数据集,选取训练模型。
具体的,采用分词器对初始数据集中的数据进行分词,统计各个数据分词后的序列长度,并分析该初始数据集中的数据分词后的序列长度的分布,选取合适序列长度分布的信息抽取模型作为训练模型。例如:某一初始数据集进行分词以后,序列长度分布在512的占95%,序列长度分布在1024的占5%,则选取适合序列长度为512的信息抽取模型作为训练模型。
S103、基于初始数据集对训练模型进行训练,从而得到初始模型。
基于初始数据集对训练模型进行有监督训练,训练后的训练模型就是有监督学习
进一步,在基于初始数据集对训练模型进行训练的过程中,计算损失函数(loss)。其中损失函数是用来估计模型的输出与真实值之间的差距,给模型的优化指引方向。
进一步,在loss计算部分增加了R-Drop模块,借助transformer结构中的dropout层中的随机性,在原始loss计算部分的基础上加上两次推断间的K-L散度。
其中K-L散度(Kullback-Leibler divergence),也被成为相对信息熵,是描述两个概率分布P和Q差异的一种方法。在机器学习领域来说,K-L散度的物理意义就是用来度量两个函数的相似程度或相近程度的。
其中dropout(随机失活)是指在深度学习网络的训练过程中,随机丢弃每层的部分神经元,也就是指在模型训练过程中,随机使一部分数据节点失效,可以避免模型过拟合。
而R-Drop是一种一致性的训练策略来规范化Dropout。R-Drop作用于模型的输出层,弥补了Dropout在训练和测试时的不一致性,简单来说就是在一次训练中,每个数据经过两次具备Dropout的同一模型进行推断,其中Dropout部分在两次推断中随机丢弃不同的单元,随后R-Drop方法基于K-L散度对输出进行约束,从而提升模型输出的一致性。。
可以进一步减少模型训练的输出值与预测值之间的差异,使得训练得到的初始模型更准确。
S104、获取已完成人工标注的新增数据,作为第一数据集。
具体为,当获取医疗票据时,基于主动学习技术,选取医疗票据中的新增数据,并获取人工对该新增数据进行人工标注后的新增数据,作为第一数据集。
其中,主动学习主要包括两类,第一种是流式的主动学习(Sequential ActiveLearning),第二种是离线批量的主动学习(Pool-based Active Learning)。不同的场景下,可以选择不同的方案来执行,在本申请实施例中采用离线批量的主动学习,即主动学习从未标注样本池中决定哪些样本需要进行标注。离线批量的主动学习,常用的选择方式包括:最低置信度(Least Confident)、最小方差(Variance Reduction)、边缘采样法(MarginSampling)、熵方法(Entroy)、密度权重法(Density-Weighted Methods)等,在本申请实施例中可以使用选择方式中任意一种或任意组合。当获取医疗票据时,基于主动学习技术可以判断该医疗票据是否为新版式的医疗票据(即与初始医疗票据版式不同的医疗票据)。具体为,由于初始医疗票据的数据属于已标注的数据(也就是初始数据集),经过初始训练集训练后的模型对于其中已经存在的数据具有较高的置信度,主动学习方法基于这种特性以及其衍生特性,设计了上述系列指标(最低置信度、最小方差、边缘采样法、熵方法、密度权重法等)。通过这些指标,可以将新类型的数据(例如:新版式医疗票据的数据),从未标注的样本数据池中筛选出来。
若该医疗票据为新版式的医疗票据,则进行如下步骤:基于主动学习技术,获取医疗票据未标注数据中指标超过预设阈值的数据,将该指标超过阈值的数据为新增数据。其中预设阈值根据实际情况而定,本申请中不做具体限定。
具体的,基于该新增数据,获取已完成人工标注的新增数据是将医疗票据中的新增数据人为进行位置的标注以及类别的标注,然后通过ORC技术将数据的字符识别成计算机文字(当然也可以根据新增数据的字符,人为输入成计算机文字)。
S105、基于第一数据集对初始模型进行训练,在训练过程中统计第一数据集中所有数据的聚集离群指标。
在训练过程中,统计两个指标作为聚集离群值的筛选依据:训练过程中已标注的新增数据在各个训练周期(Epoch)中对于真实标签(label)的置信度的均值(Confidence)以及训练过程中已标注的新增数据在各个Epoch中对于真实label的置信度的标准差(Variablility)。
其中时期(Epoch)是使用所有已标注的新增数据(也可以成为第二数据集)对模型进行一次完整训练,被称为“一轮训练”。真实标签(label)为已标注的新增数据真实的数据标签。对于真实label的置信度是指训练过程中,得到的预计label为真实label的准确度(可信度)。
基于两个指标(作为聚集离群值的筛选依据):Confidence和Variablility,得到聚集离群指标,所述聚集离群指标为数据的置信度的均值(Confidence)和数据的置信度的标准差(Variablility)的乘积,聚集离群指标为最终筛选聚集离群值的指标。设定Confidence和Variablility的乘积(也就是聚集离群指标)小于第一预设值的数据为聚集离群值,聚集离群值所对应的数据是在标注过程中可能存在质量问题的数据。
S106、基于聚集离群指标,将聚集离群指标小于第一预设值的数据从第一数据集中删除,从而得到第二数据集。
通过模型主动筛选出标注过程中存在质量的数据,将该数据从已标注的新增数据中剔除,避免了由于人员对数据标注错误,而导致通过该数据训练出的模型性能差,甚至无法胜过随机采样。
S107、基于初始数据集和第二数据集,得到第三数据集。
第三数据集包括:初始数据集的所有数据以及第二数据集的所有数据。
S108、判断第三数据集中的数据数量是否大于预设数量。
若大于预设数量,则进行S109;若小于预设数量则直接进行S110。
S109、对第三数据集中的所有数据进行降采样。
具体的,对整体数据进行降采样,降采样策略可采用简单的随机降采样;也可以采用S106中的两个指标Confidence和Variablility的乘积(也就是聚集离群指标)作为筛选依据,选择更高质量的数据,其中S109中所采用的作为筛选标准的预设值(第二预设值)应该大于S106中的设定的预设值(第一预设值);除此之外,还可以采用两种方式的结合。本申请不做具体的限定。
具体为,统计所述第三数据集中的所有数据的聚集离群指标,根据聚集离群指标,将聚集离群指标小于第二预设值的数据从第三数据集中删除。其中第二预设值大于第一预设值。
减少了相同数据的重复训练,减少了每次训练模型所用的时间的同时,训练出来的模型的性能更好。
需要说明的是,上述S108、S109为可选步骤。
S110、基于第三数据集,对初始模型重新进行训练,完成本次迭代。
具体的,当获取医疗票据时,重复S104-S110即可实现模型的持续迭代。
综上所述,本申请实施例提供的一种模型迭代方法,包括:获取已完成人工标注的新增数据,作为第一数据集;基于所述第一数据集对初始模型进行训练,并统计所述第一数据集中所有数据的聚集离群指标;所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积;基于所述聚集离群指标,将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除,从而获得第二数据集;基于初始数据集和所述第二数据集,得到第三数据集;所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据;基于所述第三数据集对所述初始模型重新进行训练,从而完成一次模型的迭代。由此可见,获取已完成人工标注的新增数据,并基于已完成人工标注的新增数据对初始模型进行训练,基于训练过程中统计的聚集离群指标主动将存在质量问题的数据从数据集中删除,结合已经删除错误数据的新增数据和初始数据一同对初始模型进行重新训练,以实现了模型的迭代,可以解决模型存在域偏移的问题的同时,提高了新增数据的质量,主动筛选出存在质量问题的数据,提高模型的性能,从而可以准确抽取出医疗票据信息。
进一步,基于主动学习技术,对医疗票据进行检测、筛选和回流,简化了数据获取流程,提高了新增数据的有效性,抑制了同类数据的冗余,减少了数据收集、人力标注以及模型训练过程中的资源以及时间的浪费。
进一步,对于已知第三数据集中的整体数据进行降采样,可以减少重复数据的训练,并且减少了模型训练过程中的资源以及时间的浪费。
如图3所示,该图为本申请实施例提供了一种模型迭代装置的结构框图,下面结合图3具体说明,该装置包括:
获取模块301,用于获取已完成人工标注的新增数据,作为第一数据集。
统计模块302,用于基于第一数据集对初始模型进行训练,在训练过程中统计第一数据集中所有数据的聚集离群指标。
筛选模块303,用于基于聚集离群指标,将聚集离群指标小于第一预设值的数据从第一数据集中删除,从而得到第二数据集。
合并模块304,用于基于初始数据集和第二数据集,得到第三数据集。
迭代训练模块305,用于基于第三数据集对初始模型重新进行训练,从而完成一次模型的迭代。
进一步,该装置还包括:
判断模块,用于判断第三数据集中的数据数量是否大于预设数量;
若是,则降采样模块,用于对第三数据集中的所有数据进行降采样;
迭代训练模块305,还用于基于已经降采样过的第三数据集,对所述初始模型进行训练;
若否,则迭代训练模块305,直接基于第三数据集对初始模型进行训练。
其中,降采样模块具体用于,统计第三数据集中的所有数据的聚集离群指标;基于所有数据的聚集离群指标,将所述聚集离群指标小于第二预设值的数据从所述第三数据集中删除,从而实现降采样。其中第一预设值小于第二预设值。
除此之外,该装置还包括:
票据获取模块,用于获取医疗票据;
新增数据筛选模块,用于基于医疗票据,筛选出医疗票据中的新增数据。
进一步,新增数据筛选模块具体用于,基于医疗票据,通过主动学习技术,筛选出医疗票据中指标超过预设阈值的数据;指标超过预设阈值的数据为所述医疗票据的新增数据。
除此之外,该装置还包括:
初始数据获取模块,用于预先获取初始数据集;
训练模型选取模块,用于基于初始数据集,选取训练模型;
初始模型训练模块,用于基于初始数据集,对训练模型进行训练得到初始模型。
进一步,该训练模型选取模块,具体用于基于所述初始数据集,对所述初始数据集中的数据进行分词,并统计各个数据分词后的序列长度;基于序列长度,分析所述序列长度的分布;基于所述序列长度的分布,选取对应的信息抽取模型作为训练模型。
进一步,该初始数据获取模块,具体用于基于初始医疗票据,获取已完成人工标注的初始医疗票据;基于已完成人工标注的初始医疗票据,对初始医疗票据中的目标实体进行光学字符识别,从而获取所述初始数据集。
综上所述,本申请实施例提供了一种模型迭代装置,包括:获取模块301,用于获取已完成人工标注的新增数据,作为第一数据集;统计模块302,用于基于第一数据集对初始模型进行训练,在训练过程中统计第一数据集中所有数据的聚集离群指标;筛选模块303,用于基于聚集离群指标,将聚集离群指标小于第一预设值的数据从第一数据集中删除,从而得到第二数据集;合并模块304,用于基于初始数据集和第二数据集,得到第三数据集;迭代训练模块305,用于基于第三数据集对初始模型重新进行训练,从而完成一次模型的迭代。由此可见,识别已完成人工标注的新增数据,并基于已完成人工标注的新增数据对初始模型进行训练,在训练过程中将存在质量问题的数据从数据集中删除,结合已经删除错误数据的新增数据和初始数据一同对初始模型进行重新训练,以实现了模型的迭代,可以解决模型存在域偏移的问题的同时,提高了新增数据的质量,主动筛选出存在质量问题的数据,提高模型的性能,从而可以准确抽取出医疗票据信息。
进一步,基于主动学习技术,对医疗票据进行检测、筛选和回流,简化了数据获取流程,提高了新增数据的有效性,抑制了同类数据的冗余,减少了数据收集、人力标注以及模型训练过程中的资源以及时间的浪费。
进一步,对于已知第三数据集中的整体数据进行降采样,可以减少重复数据的训练,并且减少了模型训练过程中的资源以及时间的浪费。
本申请实施例还提供了对应的设备以及计算机可读存储介质,用于实现本申请实施例提供的方案。
其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本申请任一实施例所述的一种模型迭代方法。
在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种模型迭代方法,其特征在于,所述方法包括:
获取已完成人工标注的新增数据,作为第一数据集;
基于所述第一数据集对初始模型进行训练,并统计所述第一数据集中所有数据的聚集离群指标;所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积;
基于所述聚集离群指标,将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除,从而获得第二数据集;
基于初始数据集和所述第二数据集,得到第三数据集;所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据;
基于所述第三数据集对所述初始模型重新进行训练,从而完成一次模型的迭代。
2.根据权利要求1所述的方法,其特征在于,在所述基于初始数据集和所述第二数据集,得到第三数据集之后,所述方法还包括:
判断所述第三数据集中的数据数量是否大于预设数量;
若是,则对所述第三数据集中的所有数据进行降采样;基于已经降采样过的第三数据集,对所述初始模型重新进行训练;
若否,则直接基于所述第三数据集对所述初始模型重新进行训练。
3.根据权利要求2所述的方法,其特征在于,所述对所述第三数据集中的所有数据进行降采样包括:
统计所述第三数据集中的所有数据的聚集离群指标;
基于所述所有数据的聚集离群指标,将所述聚集离群指标小于第二预设值的数据从所述第三数据集中删除,从而实现降采样;所述第二预设值大于所述第一预设值。
4.根据权利要求1所述的方法,其特征在于,在所述获取已完成人工标注的新增数据,作为第一数据集之前,所述方法还包括:
获取医疗票据;
基于所述医疗票据,筛选出所述医疗票据的新增数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述医疗票据,筛选出所述医疗票据的新增数据包括:
基于所述医疗票据,通过主动学习技术,筛选出所述医疗票据中指标超过预设阈值的数据;所述指标超过预设阈值的数据为所述医疗票据的新增数据。
6.根据权利要求1所述的方法,其特征在于,还包括:
预先获取初始数据集;
基于所述初始数据集,选取训练模型;
基于所述初始数据集,对所述训练模型进行训练得到初始模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述初始数据集,选取训练模型,包括:
基于所述初始数据集,对所述初始数据集中的数据进行分词,并统计各个所述数据分词后的序列长度;
基于所述序列长度,分析所述序列长度的分布;
基于所述序列长度的分布,选取对应的信息抽取模型作为训练模型。
8.根据权利要求6所述的方法,其特征在于,所述预先获取初始数据集包括:
基于初始医疗票据,获取已完成人工标注的初始医疗票据;
基于所述已完成人工标注的初始医疗票据,对所述初始医疗票据中的目标实体进行光学字符识别,从而获取所述初始数据集。
9.一种模型迭代装置,其特征在于,所述装置包括:
获取模块,用于获取已完成人工标注的新增数据,作为第一数据集;
统计模块,用于基于所述第一数据集对初始模型进行训练,并统计所述第一数据集中所有数据的聚集离群指标;所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积;
筛选模块,用于基于所述聚集离群指标,将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除,从而获得第二数据集;
合并模块,用于基于初始数据集和所述第二数据集,得到第三数据集;所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据;
迭代训练模块,用于基于所述第三数据集对所述初始模型重新进行训练,从而完成一次模型的迭代。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所述第三数据集中的数据数量是否大于预设数量;
若是,则降采样模块,用于对所述第三数据集中的所有数据进行降采样;所述迭代训练模块,具体用于基于已经降采样过的第三数据集,对所述初始模型重新进行训练;
若否,则所述迭代训练模块,具体用于直接基于所述第三数据集对所述初始模型重新进行训练。
CN202211399013.1A 2022-11-09 2022-11-09 一种模型迭代方法及装置 Pending CN115601779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211399013.1A CN115601779A (zh) 2022-11-09 2022-11-09 一种模型迭代方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211399013.1A CN115601779A (zh) 2022-11-09 2022-11-09 一种模型迭代方法及装置

Publications (1)

Publication Number Publication Date
CN115601779A true CN115601779A (zh) 2023-01-13

Family

ID=84853385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211399013.1A Pending CN115601779A (zh) 2022-11-09 2022-11-09 一种模型迭代方法及装置

Country Status (1)

Country Link
CN (1) CN115601779A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503695A (zh) * 2023-06-29 2023-07-28 天津所托瑞安汽车科技有限公司 目标检测模型的训练方法、目标检测方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503695A (zh) * 2023-06-29 2023-07-28 天津所托瑞安汽车科技有限公司 目标检测模型的训练方法、目标检测方法及设备
CN116503695B (zh) * 2023-06-29 2023-10-03 天津所托瑞安汽车科技有限公司 目标检测模型的训练方法、目标检测方法及设备

Similar Documents

Publication Publication Date Title
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CA3124358C (en) Method and system for identifying citations within regulatory content
US20120323866A1 (en) Efficient development of a rule-based system using crowd-sourcing
WO2022089227A1 (zh) 地址参数处理方法及相关设备
US11886820B2 (en) System and method for machine-learning based extraction of information from documents
CN112966102A (zh) 分类模型构建及文本语句分类方法、设备及存储介质
CN115601779A (zh) 一种模型迭代方法及装置
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
WO2022143608A1 (zh) 语言标注方法、装置、计算机设备和存储介质
CN117112782A (zh) 一种招标公告信息提取方法
CN111581346A (zh) 一种事件抽取方法和装置
CN117251685B (zh) 一种基于知识图谱的标准化政务数据构建方法和装置
CN112036151B (zh) 基因疾病关系知识库构建方法、装置和计算机设备
CN111797772A (zh) ***图像自动分类方法、***、装置
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN113807256A (zh) 票据数据处理方法、装置、电子设备和存储介质
US20200327319A1 (en) Agency Notice Processing System
CN113221705B (zh) 电子文献的自动分类方法、装置、设备以及存储介质
Bahaj A hybrid intelligent model for early validation of infectious diseases: An explorative study of machine learning approaches
CN112837148B (zh) 一种融合领域知识的风险逻辑关系量化分析方法
Ellis Accounting for matching uncertainty in photographic identification studies of wild animals
CN115439853A (zh) 一种电子账单文本识别方法、装置、电子设备及存储介质
CN116991983A (zh) 一种面向公司资讯文本的事件抽取方法及***
Qiu et al. Knowledge-graph relation extraction for Chinese business datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination