CN116935368A - 深度学习模型训练方法、文本行检测方法、装置及设备 - Google Patents

深度学习模型训练方法、文本行检测方法、装置及设备 Download PDF

Info

Publication number
CN116935368A
CN116935368A CN202310706632.9A CN202310706632A CN116935368A CN 116935368 A CN116935368 A CN 116935368A CN 202310706632 A CN202310706632 A CN 202310706632A CN 116935368 A CN116935368 A CN 116935368A
Authority
CN
China
Prior art keywords
sample
training
sample images
pseudo
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310706632.9A
Other languages
English (en)
Inventor
万星宇
吕鹏原
范森
章成全
姚锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310706632.9A priority Critical patent/CN116935368A/zh
Publication of CN116935368A publication Critical patent/CN116935368A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

本公开公开了一种深度学习模型训练方法、文本行检测方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可用于光学字符识别场景。具体实现方案为:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,其中,目标检测模型包括利用标注样本集训练得到。利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。

Description

深度学习模型训练方法、文本行检测方法、装置及设备
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可用于光学字符识别场景。更具体地,公开了一种深度学习模型训练方法、文本行检测方法、装置、电子设备以及存储介质。
背景技术
文本行检测是计算机视觉领域的一个重要任务,它是指在图像中定位和识别文本行的过程。在许多应用场景中,如车牌识别、身份证识别、票据识别等,文本行检测技术的准确性直接影响到整个***的性能表现。
发明内容
本公开提供了一种深度学习模型训练方法、文本行检测方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种深度学习模型训练方法,包括:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到上述多个第一样本图像各自的伪标签,其中,上述目标检测模型包括利用标注样本集训练得到;以及利用上述多个第一样本图像、上述多个第一样本图像各自的伪标签和上述标注样本集训练初始模型,得到深度学习模型。。
根据本公开的另一方面,提供了一种文本行检测方法,包括:利用深度学习模型处理待检测图像,得到文本行检测结果;其中,上述深度学习模型包括利用如上所述的深度学习模型训练方法训练得到。
根据本公开的另一方面,提供了一种深度学习模型训练装置,包括:第一处理模块,用于利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到上述多个第一样本图像各自的伪标签,其中,上述目标检测模型包括利用标注样本集训练得到;以及训练模块,用于利用上述多个第一样本图像、上述多个第一样本图像各自的伪标签和上述标注样本集训练初始模型,得到深度学习模型。
根据本公开的另一方面,提供了一种文本行检测装置,包括:第二处理模块,用于利用深度学习模型处理待检测图像,得到文本行检测结果;其中,上述深度学习模型包括利用如上所述的深度学习模型训练方法训练得到。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用深度学习模型训练方法或文本行检测方法及装置的示例性***架构。
图2示意性示出了根据本公开实施例的深度学习模型训练方法的流程图。
图3示意性示出了根据本公开实施例的深度学习模型训练方法的示意图。
图4示意性示出了根据本公开另一实施例的深度学习模型训练方法的示意图。
图5示意性示出了根据本公开实施例的文本行检测方法的流程图。
图6示意性示出了根据本公开实施例的深度学习模型训练装置的框图。
图7示意性示出了根据本公开实施例的文本行检测装置的框图。
图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
文本行检测可以用于在图像中定位和识别文本行。文本行的种类繁多,涵盖了各种大小、字体、方向、颜色、背景等因素的变化,这给文本行检测任务带来了很大的挑战。因此,为了提高文本行检测技术的准确性和鲁棒性,以及针对不同场景的泛化性,需要使用大量的数据来训练文本行检测模型。
在相关技术中,文本行检测方法通常需要大量的标注数据来训练模型,但是标注数据的获取需要耗费大量的时间和人力成本,并且标注数据的覆盖范围可能不够广泛,导致模型的泛化性能不佳。此外,小模型由于参数量的限制,往往需要在不同场景训练不同的文本行检测模型,这就会带来许多问题,比如维护多个模型需要消耗大量的时间和资源,同时也容易出现模型精度不稳定的问题。为了增强文本行检测模型在不同场景的泛化能力,需要使用大模型来提高其表征能力。然而由于大模型的参数量巨大,直接在大规模数据上进行训练会带来很高的计算成本。
有鉴于此,本公开的实施例提供了一种深度学习模型训练方法、文本行检测方法、装置、电子设备以及存储介质,可以通过半监督训练的方法,利用大量无标签数据来提高模型的泛化能力,以及文本行检测的准确性和鲁棒性,可以应用于各种文本行检测场景,如车牌识别、身份证识别、票据识别等,为实际应用场景中的文本识别任务提供更好的解决方案。
具体地,深度学习模型训练方法包括:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,其中,目标检测模型包括利用标注样本集训练得到。利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。
图1示意性示出了根据本公开实施例的可以应用深度学习模型训练方法或文本行检测方法及装置的示例性***架构。
需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。例如,在另一实施例中,可以应用深度学习模型训练方法或文本行检测方法及装置的示例性***架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的深度学习模型训练方法或文本行检测方法及装置。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。
终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。可选地,终端设备101、1 02、103可以配置有GPU,用于完成深度学习模型的训练。可选地,终端设备101、102、103可以配置有摄像设备,用于实现第一样本图像的获取。
网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
服务器105可以是提供各种服务的服务器,也可以是各种云服务器,在此不作限定。
需要说明的是,本公开实施例所提供的深度学习模型训练方法或文本行检测方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的深度学习模型训练方法或文本行检测装置也可以设置于终端设备101、102、或103中。或者,本公开实施例所提供的深度学习模型训练方法或文本行检测方法一般也可以由服务器105执行。相应地,本公开实施例所提供的深度学习模型训练方法或文本行检测装置一般可以设置于服务器105中。本公开实施例所提供的深度学习模型训练方法或文本行检测方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的深度学习模型训练方法或文本行检测装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,用户可以通过终端设备101、102、103发起模型训练请求,该请求及标注样本集、无标签样本集可以通过网络104传输至服务器105。服务器105可以利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,并利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图2示意性示出了根据本公开实施例的深度学习模型训练方法的流程图。
如图2所示,该方法200包括操作S210~S220。
在操作S210,利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签。
在操作S220,利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。
根据本公开的实施例,标注样本集可以包括各类通用场景下的文本行标注数据,每一条文本行标注数据可以表示为一张图像。各类通用场景可以包括手写文体,如手写字母、手写数字、手写符号等,也可以包括印刷文体,如印刷字母、印刷数字、印刷符号等,还可以包括自然场景文本,如道路标志、广告牌、商店招牌、车牌等,此外也可以包括表格及书籍文本,如报表、***、合同、小说、教科书等,在此不作限定。
根据本公开的实施例,目标检测模型可以是已完成训练且可用于完成目标检测任务的模型。例如,目标检测模型可以利用人工标注的文本行检测数据集,即标注样本集训练DINO-SwinL模型来得到。DINO-SwinL模型可以指以SwinL作为主干网络的DINO(DETR withImproved Denoising Anchor Boxes)模型,是一种基于Transformer网络结构的模型。目标检测模型可以具有较大的网络参数,即目标检测模型可以具有较多的网络层,且每个网络层可以包括较多的神经元。
根据本公开的实施例,DINO-SwinL模型的SwinL主干网络可以预加载在公开数据集上训练得到的网络权重,且DINO-SwinL模型可以在其他公开数据集上进行了模型参数的微调。在利用标注样本集对DINO-SwinL模型进行再训练时,可以对标注样本集进行多种数据增强处理,多种数据增强处理可以包括但不限于图像随机翻转、随机旋转、随机缩放、随机裁剪、按照短边进行多尺度缩放、图像归一化等,在此不作限定。模型训练过程可以使用训练样本的人工标注结果作为真值来计算模型预测结果和真值之间的损失函数并进行优化。采用的损失函数可以包括但不限于分类损失Focal Loss、检测框的L1损失、GIOU损失、以及多边形的L1损失和GIOU损失等。可以使用AdamW优化器来加速模型训练。
根据本公开的实施例,无标签样本集可以包括来源于多个场景的样本数据,在此不作限定。例如,无标签样本集可以包括如与标注样本集相关的各类通用场景下的样本数据。无标签样本集也可以包括各种特定的文字识别场景下的样本数据。各种特定的文字识别场景例如可以是竖排文字场景、古籍场景、小语种场景等。可选地,无标签样本集还可以包括坏例场景下样本数据。坏例场景下的样本数据例如可以是利用目标检测模型对标注样本集进行校验确定的标注样本集中评价参数低于一定值的样本数据。各个场景下的样本数据的比例在此不作限定。例如,可以设置各类通用场景下的样本数据占总样本数量的70%,设置特定文字识别场景下的样本数占总样本数量的20%,设置坏例场景下的样本数据占总样本数量的10%。
根据本公开的实施例,无标签样本集包括的样本数据即第一样本图像。利用目标检测模型处理第一样本图像,可以是将第一样本图像分别输入到目标检测模型中,目标检测模型的输出即为该第一样本图像的伪标签。
根据本公开的实施例,目标检测模型输出的伪标签可以与标注样本集的人工标注的标签具有类似的数据结构。具体地,伪标签可以包括检测框的位置信息、检测框内对象的类别信息、基于检测框内对象的类别确定的检测框的置信度数据等。检测框的位置信息可以包括检测框的坐标位置、检测框的大小、检测框的旋转角度等信息。检测框内对象的类别信息可以是检测框所框定区域内的对象所属的类别。例如,可以是表示检测框内的文本行对象属于手写文本、印刷文本或自然场景文本的分类信息。基于检测框内对象的类别确定的检测框的置信度数据可以表示为检测框内包含该对象的概率。例如,检测框内对象的类别信息表示为检测框内包括对象A,对实际检测框内不包含任意对象,则基于检测框内对象的类别确定的检测框的置信度数据可以是一个接近0的数值。
根据本公开的实施例,与目标检测模型类似的,初始模型也可以是用于完成目标检测任务的模型。例如,初始模型可以是以ResNet50作为主干网络的DINO模型。
根据本公开的实施例,标注样本集可以包括多个标注样本图像和多个标注样本图像各自的标签。在训练初始模型时,第一样本图像和标注样本图像可以作为训练样本,第一样本图像的伪标签和标注样本图像的标签可以作为训练样本的标签。可以将训练样本的标签作为真值,来计算将训练样本输入初始模型后得到的预测结果和真值之间的损失值,并使用损失值进行初始模型的模型参数的优化,以最终得到深度学习模型。
根据本公开的实施例,可以采用半监督训练的方式完成深度学习模型的训练,即使用已训练的目标检测模型对多个第一样本图像进行标注,得到多个第一样本图像的伪标签,再利用带有伪标签的第一样本图像和人工标注的标注样本集来完成深度学习模型的训练,可以利用已有模型完成大批量的样本数据的批注,从而可以有效降低人工标注成本。同时,可以通过堆积样本量的方式,扩大训练样本的应用场景覆盖范围,从而使得模型可以适应不同的应用场景,可以有效提升模型的泛化能力和鲁棒性。
下面参考图3和图4,结合具体实施例对图2所示的方法做进一步说明。
图3示意性示出了根据本公开实施例的深度学习模型训练方法的示意图。
如图3所示,深度学习模型训练方法可以包括目标检测模型的训练流程、伪标签的生成流程和深度学习模型的训练流程。
根据本公开的实施例,在目标检测模型的训练流程中,可以使用标注样本集301完成目标检测模型302的训练,具体训练过程在此不再赘述。
根据本公开的实施例,在伪标签的生成流程中,可以使用目标检测模型302来处理无标签样本集303,以得到无标签样本集303中的多个第一样本图像各自的伪标签304。
根据本公开的实施例,伪标签的质量可以直接影响深度学习模型的训练效果和性能表现,为减少目标检测模型的错误预测、噪声数据等的影响,可以采用泛化筛选的处理策略,来优化伪标签的生成流程。
根据本公开的实施例,利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签可以包括如下操作:
对于每个第一样本图像,对第一样本图像进行数据增强处理,得到多个第二样本图像。利用目标检测模型分别处理多个第二样本图像,得到多个第一标签。基于多个第一标签,确定第一样本图像的伪标签。
根据本公开的实施例,可以采用数据增强的方法实现样本的泛化。数据增强处理可以包括不限于图像随机翻转、随机旋转、随机缩放、随机裁剪、按照短边进行多尺度缩放、图像归一化等,在此不作限定。
根据本公开的实施例,通过数据增强处理,一个第一样本图像可以生成多个不同的第二样本图像,每个第二样本图像在输入目标检测模型后,得到的模型输出即第一标签。
根据本公开的实施例,可以从多个第一标签中筛选得该第一样本图像的伪标签,筛选方式在此不作限定。例如,可以基于各个第一标签的置信度来选择伪标签,具体地,基于多个第一标签,确定第一样本图像的伪标签可以包括如下从中:
基于多个第一标签各自包括的置信度数值,对多个第一标签进行非极大值抑制处理,得到第一样本图像的伪标签。
根据本公开的实施例,非极大值抑制(Non-Maximum Suppression,NMS)可以是搜索局部极大值,并抑制非极大值元素。具体地,每个第一标签可以表示为在第一样本图像的目标区域的检测框。在将多个第一标签映射到同一个第一样本图像后,多个第一标签在该目标区域的检测框之间可能会有重叠。非极大值抑制即是从重叠的多个检测框中选择具有最大置信度数值的检测框进行保留,并消除冗余的其他检测框。保留的具有最大置信度数值的检测框即为与伪标签对应的检测框。
根据本公开的实施例,通过基于非极大值抑制的筛选处理,可以有效提升生成的伪标签的质量,进而可以有效降低错误标签对深度学习模型训练效果的影响。
根据本公开的实施例,鉴于目标检测模型的训练过程中也可以使用数据增强方法对标注样本集进行数据增强,目标检测模型对于检测对象的位置变化的泛化能力较强,即针对不同位置下的同一对象,目标检测模型可以输出相似的检测结果。因此,可选的,针对第一样本图像的数据增强处理可以是尺度变化处理,使得目标检测模型可以提取不同尺寸的对象的特征。具体地,对第一样本图像进行数据增强处理,得到多个第二样本图像可以包括如下操作:
对第一样本图像进行多次尺度变换,得到多个第二样本图像,其中,多次尺度变换各自所使用的缩放比例不同。
根据本公开的实施例,例如,尺度变换可以是将第一样本图像基于该图像的几何中心放大20%,使用的缩放比例可以表示为120%。再例如,尺度变换可以是将第一样本图像基于该图像的端点缩小30%,使用的缩放比例可以表示为70%。
根据本公开的实施例,由于采用了不同缩放比例的尺度变换处理,针对同一对象,不同的第一标签表示的检测框的大小可以存在区别。因此,对于每个第二样本,可以基于生成第二样本时所使用的缩放比例,对第一标签进行还原处理,得到第二标签。基于多个第二标签,确定第一样本图像的伪标签。.
根据本公开的实施例,例如,在生成第二样本图像时对第一样本图像扩大了25%,则可以基于图像扩大时同样的方式,将第一标签表示的检测框缩小为原本的80%,以得到第二标签。
根据本公开的实施例,与基于多个第一标签来确定伪标签的方法类似的,基于多个第二标签确定伪标签可以使用非极大值抑制的方法来得到,在此不再赘述。
根据本公开的实施例,通过多尺度缩放的数据增强策略,可以有效增强目标检测模型对于不同尺寸图像输入的鲁棒性,从而可以有效提升伪标签的准确性。
根据本公开的实施例,在深度学习模型的训练流程中,可以将标注样本集301和无标签样本集303融合,作为训练样本集,并将标注样本集301包括的标签和伪标签304融合,作为训练样本集的标签,对初始模型305进行训练,以得到深度学习模型306。
根据本公开的实施例,利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型可以包括如下操作:
对多个第一样本图像和标注样本集进行采样处理,得到训练样本集。利用训练样本集训练初始模型,得到深度学习模型。
根据本公开的实施例,深度学习模型训练阶段的每轮迭代均可以使用不同的训练集进行训练。例如,标注样本集的样本量为20万,无标签样本集的样本量为100万,每轮迭代训练开始之前,可以从标注样本集中随机选择10万个样本数据加入到训练样本集中,并从无标签样本集中随机选择90万个样本数据加入到训练样本集中,并以训练样本集完成本轮次的训练。从标注样本集和无标签样本集中选择训练样本的比例可以根据具体应用场景进行设置,在此不作限定。
根据本公开的实施例,初始模型可以包括回归分支网络和分类分支网络。回归分支网络可以用于确定检测框的位置信息和检测框的置信度数值,分类分支网络可以用于确定检测框内对象的类别。
根据本公开的实施例,在训练初始模型时,可以分别采用不同的训练样本来进行回归分支网络和分类分支网络的训练。具体地,在进行回归分析时,希望模型能够较为准确地定位目标对象,期望的训练样本应当是可信度较高的样本,即期望的训练样本的标签应当具有较高的置信度数值。因此,可以使用标注样本集和无标签样本集中具有较高置信度数据的第一样本图像来完成回归分支网络的训练。在进行分类分析时,则希望模型能够准确分辨不同类型的对象,并且能够区分对象和背景,期望的训练样本应当包括正样本和负样本,即期望的训练样本的标签应当包括指示前景的标签和指示后景的标签。因此,可以使用标注样本集和完整的无标签样本集来完成分类分支网络的训练。
根据本公开的实施例,可以基于多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值。该第一置信度阈值可以用于正样本和负样本的区分,即可以基于第一置信度阈值,将多个第一样本图像划分为第一样本子集和第二样本子集,其中,与第一样本子集包括的第一样本图像相关的置信度数值大于或等于第一置信度阈值,与第二样本子集包括的第一样本图像相关的置信度数值小于第一置信度阈值。
根据本公开的实施例,第一置信度阈值可以基于各个第一样本图像的伪标签各自的置信度数值的分布趋势来确定。具体地,基于多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值,包括:
基于多个第一样本图像各自的伪标签包括的置信度数值,确定与多个预设置信区间各自相关的比例数据。基于与多个预设置信区间各自相关的比例数据和多个预设置信区间各自的区间端点值,确定第一置信度阈值。
根据本公开的实施例,置信度数值可以是一个0~1之间的数值,相应的,预设置信区间可以表示为分布在0~1之间的数值区间。例如,多个预设置信区间可以分别表示[0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)和[0.8,1]。基于如上的预设置信区间,可以选择的区间端点值包括0.2、0.4、0.6和0.8,即可以从0.2、0.4、0.6和0.8中确定一个数值作为第一置信度阈值。
根据本公开的实施例,与预设置信区间相关的比例数据可以表示为置信度数值落入该预设置信区间的伪标签的数量与伪标签的总数量之间的比值。
根据本公开的实施例,可以根据具体应用场景下对于正负样本的需求比例,和与多个预设置信区间各自相关的比例数据,来确定第一置信度阈值的具体取值。例如,在一应用场景下,对于正负样本的数量的期望比例可以是1:1。多个预设置信区间可以包括[0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)和[0.8,1],与多个预设置信区间各自相关的比例数据可以如表1所示。具体地,与预设置信区间[0,0.2)相关的比例数据为5%,与预设置信区间[0.2,0.4)相关的比例数据为41%,与预设置信区间[0.4,0.6)相关的比例数据为28%,与预设置信区间[0.6,0.8)相关的比例数据为19%,与预设置信区间[0.8,1]相关的比例数据为7%。基于期望比例可以确定期望的负样本比例为50%,正样本比例为50%。基于表1可以确定,与置信区间[0,0.4)相关的比例数据为46%,与置信区间[0.4,1]相关的比例数据为54%,因此,可以确定第一置信度阈值为0.4。
表1
预设置信区间 [0,0.2) [0.2,0.4) [0.4,0.6) [0.6,0.8) [0.8,1]
比例数据 5% 41% 28% 19% 7%
根据本公开的实施例,作为一种可选实施方式,第一置信度阈值可以设置为一个固定值,例如可以设置为0.3等。在基于设置为固定值的第一置信度阈值确定的正负样本比例不符合期望的情况下,可以对正样本或负样本进行再一次的采样,以对正负样本比例进行修正。
根据本公开的实施例,在进行回归分析时,使用标注样本集和无标签样本集中具有较高置信度数据的第一样本图像来完成回归分支网络的训练,即是利用第一样本子集和标注样本集训练回归分支网络。在进行分类分析时,使用标注样本集和无标签样本集中具有较高置信度数据的第一样本图像来完成回归分支网络的训练,即是利用第一样本子集、第二样本子集和标注样本集训练分类分支网络。
根据本公开的实施例,作为一种可选实施方式,在初始模型的训练阶段,还可以基于伪标签的置信度数值,对伪标签作进一步的筛选,以充分利用高质量的伪标签来完成反向传播的调参过程,从而有效提高模型的鲁棒性。具体地,利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型可以包括如下操作:
基于多个第一样本图像、多个第一样本图像各自的伪标签和多个第一样本图像各自的掩膜值,得到第一损失。基于损失多个标注样本图像和多个标注样本图像各自的标签,得到第二损失。利用第一损失和损失第二损失,调整初始模型的模型参数,以最终训练得到深度学习模型。
根据本公开的实施例,在初始模型训练的前向训练阶段,所有的第一样本图像均可以参与此阶段的训练,即每个第一样本图像输入初始模型中,可以得到一个检测结果。在初始模型训练的反向传播阶段,可以将掩膜值作为损失值的权重进行相乘,以得到总损失值,如公式(1)所示:
在公式(1)中,L可以表示总损失值,该总损失值可以用于调整初始模型的模型参数。maski可以表示第i个第一样本图像的掩膜值,基于置信度数值确定的具有高质量伪标签的第一样本图像的掩膜值可以为1,基于置信度数值确定的不具有高质量伪标签的第一样本图像的掩膜值可以为0。Loss()可以表示损失函数。可以表示第i个第一样本图像输入初始模型后得到的检测结果。yi可以表示第i个第一样本图像的伪标签。
根据本公开的实施例,伪标签是否为高质量伪标签可以利用第二置信度阈值来确定。
根据本公开的实施例,可以基于多个第一样本图像各自的伪标签包括的置信度数值,确定第二置信度闽值。基于多个第一样本图像各自的伪标签和第二置信度阈值,确定多个第一样本图像各自的掩膜值。
根据本公开的实施例,可以采用与确定第一置信度阈值时相同或相似的方法来确定第二置信度阈值,在此不再赘述。
根据本公开的实施例,在第一样本图像的伪标签的置信度数值大于或等于该第二置信度阈值的情况下,可以确定该第一样本图像的掩膜值为1。在第一样本图像的伪标签的置信度数值小于该第二置信度阈值的情况下,可以确定该第一样本图像的掩膜值为0。
根据本公开的实施例,通过为每个第一样本图像生产一个对应的值为0或1的掩膜值,在模型训练阶段可以将掩膜值作为损失函数的权重进行相乘,来对不同置信度的第一样本图像进行约束,从而可以达到在模型训练时只保留高置信度的伪标签作为正样本,对不够置信的伪标签进行忽略的效果,从而可以充分利用高质量的伪标签,有效提高模型的鲁棒性。
根据本公开的实施例,由于无标签样本集中的第一样本图像可以来源于多个场景,因此,在进行初始模型的训练时,可以基于第一样本图像的来源,将无标签样本集分类多个子集。利用每个子集进行模型训练时,所使用的采样比例、第一置信度阈值和第二置信度阈值可以存在区别。
图4示意性示出了根据本公开另一实施例的深度学习模型训练方法的示意图。
如图4所示,无标签样本集403中的第一样本图像可以来源于3个场景,3个场景分别为坏例场景、通用场景和特殊场景。
根据本公开的实施例,在坏例场景下,可以基于预设评价参数407,从标注样本集401中筛选得到第一样本图像。预设评价参数407例如可以包括用于评价目标检测模型402的指标,包括但不限于Precision(精确率)、Recall(召回率)和F1 Score等。
例如,可以使用标注样本集401来验证目标检测模型402,基于输出结果和标注样本集401的标签来确定各个标注样本图像的F1 Score。可以从标注样本集401中筛选F1Score低于0.7的标注样本图像作为第一样本图像,加入到无标签样本集403中。
根据本公开的实施例,在通用场景下,可以从前端图像识别服务408的回流数据409中筛选得到第一样本图像。前端图像识别服务408例如可以是线上OCR(OpticalCharacter Recognitio,光学字符识别)服务。用户可以将图像上传至线上OCR服务,线上OCR服务可以返回相应的文本识别结果。前端图像识别服务408的回流数据409即是用户上传至线上OCR服务的图像。
根据本公开的实施例,从回流数据409中筛选得到第一样本图像时,可以确定回流数据409包括的各个图像的场景类别,再基于场景类别全覆盖的原则,进行第一样本图像的筛选,或者,可以基于优先选择高频场景的原则,进行第一样本图像的筛选。
根据本公开的实施例,在特殊场景下,可以基于预设场景特征410,从共享资源411中筛选得到第一样本图像。
根据本公开的实施例,预设场景特征410可以包括特征词、形状特征等。特征词例如可以包括“古籍”、“街景”、“竖排”等。形状特征例如可以是“长条状”、“不规则形状”等。共享资源411例如可以是互联网上的公开资源,或者,也可以是得到数据使用许可的各种资源数据。
根据本公开的实施例,通过基于预设场景特征410,从共享资源411中筛选得到第一样本图像,可以定向搜集一些特定垂类的文字识别场景,包括有竖排文字场景、古籍场景、街景、小语种和节目截图等,从而可以扩大无标签样本集403的覆盖面。
根据本公开的实施例,依据场景的不同,无标签样本集403可以分为3个子样本集,分别为第一子样本集、第二子样本集和第三子样本集。在进行初始模型405的训练时,第一子样本集、第二子样本集和第三子样本集可以具有各自的采样比例、第一置信度阈值和第二置信度阈值,并采用如上所述的方法来训练得到深度学习模型406,在此不再赘述。
根据本公开的实施例,在深度学习模型的训练流程中,可以将标注样本集401和无标签样本集403融合,作为训练样本集,并将标注样本集401包括的标签和伪标签404融合,作为训练样本集的标签,对初始模型405进行训练,以得到深度学习模型406。
根据本公开的实施例,通过学习海量数据的特征来提高小参数量模型在多种不同文本场景的表征能力。相较于相关技术的有监督学习往往需要在不同场景数据上进行多轮训练迭代并产出多个不同的模型,才能实现多场景的文本行检测。而本公开的实施例所使用的海量无标签数据囊括了各种从简单到困难场景的图像数据,能够有效将多种场景的不同数据特征迁移到小模型中,从而实现一个模型、训练一次、多场景通用的效果。
根据本公开的实施例,另一方面,通过DINO大模型生成伪标签,可以减少人工标注数据的成本。标注数据是机器学习的关键资源之一,标注一条数据往往需要耗费大量时间和精力。使用伪标签进行半监督学习可以减少标注数据的需求量,从而降低标注成本。本公开的实施例通过生成伪标签的方式来避免耗费大量的时间和资源进行手动标注,大大缩短了模型训练的时间和成本。
根据本公开的实施例,此外,采用半监督学习和多种伪标签筛选策略,提高模型的训练效率和性能。使用伪标签进行半监督学习可以利用无标注数据来增加训练数据量,从而提高模型的泛化能力和性能。此外,伪标签的引入可以增加数据多样性,使模型更具鲁棒性,从而提高模型性能和泛化能力。此外,本公开的实施例提供了多种伪标签的清洗筛选策略,包括有多尺度测试+NMS后处理、分场景的ignore策略,能够保证半监督学习阶段所使用到充分且高质量的伪标签数据。
图5示意性示出了根据本公开实施例的文本行检测方法的流程图。
如图5所示,该方法500包括操作S510。
在操作S510,利用深度学习模型处理待检测图像,得到文本行检测结果。
根据本公开的实施例,深度学习模型可以利用如上所述的深度学习模型训练方法训练得到,在此不再赘述。
图6示意性示出了根据本公开实施例的深度学习模型训练装置的框图。
如图6所示,深度学习模型训练装置600包括第一处理模块610和训练模块620。
第一处理模块610,用于利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,其中,目标检测模型包括利用标注样本集训练得到。
训练模块620,用于利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。
根据本公开的实施例,第一处理模块610包括第一处理单元、第二处理单元和第三处理单元。
第一处理单元,用于对于每个第一样本图像,对第一样本图像进行数据增强处理,得到多个第二样本图像。
第二处理单元,用于利用目标检测模型分别处理多个第二样本图像,得到多个第一标签。
第三处理单元,用于基于多个第一标签,确定第一样本图像的伪标签。
根据本公开的实施例,第三处理单元包括第一处理子单元。
第一处理子单元,用于基于多个第一标签各自包括的置信度数值,对多个第一标签进行非极大值抑制处理,得到第一样本图像的伪标签。
根据本公开的实施例,第一处理单元包括第二处理子单元。
第二处理子单元,用于对第一样本图像进行多次尺度变换,得到多个第二样本图像,其中,多次尺度变换各自所使用的缩放比例不同。
根据本公开的实施例,第三处理单元包括第三处理子单元和第四处理子单元。
第三处理子单元,用于对于每个第二样本图像,基于生成第二样本图像时所使用的缩放比例,对第一标签进行还原处理,得到第二标签。
第四处理子单元,用于基于多个第二标签,确定第一样本图像的伪标签。.
根据本公开的实施例,训练模块620包括第一训练单元和第二训练单元。
第一训练单元,用于对多个第一样本图像和标注样本集进行采样处理,得到训练样本集。
第二训练单元,用于利用训练样本集训练初始模型,得到深度学习模型。
根据本公开的实施例,深度学习模型训练装置600还包括第一确定模块和划分模块。
第一确定模块,用于基于多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值。
划分模块,用于基于第一置信度阈值,将多个第一样本图像划分为第一样本子集和第二样本子集,其中,与第一样本子集包括的第一样本图像相关的置信度数值大于或等于第一置信度阈值,与第二样本子集包括的第一样本图像相关的置信度数值小于第一置信度阈值。
根据本公开的实施例,初始模型包括回归分支网络和分类分支网络。
根据本公开的实施例,训练模块620包括第三训练单元和第四训练单元。
第三训练单元,用于利用第一样本子集和标注样本集训练回归分支网络。
第四训练单元,用于利用第一样本子集、第二样本子集和标注样本集训练分类分支网络。
根据本公开的实施例,第一确定模块包括第一确定单元和第二确定单元。
第一确定单元,用于基于多个第一样本图像各自的伪标签包括的置信度数值,确定与多个预设置信区间各自相关的比例数据。
第二确定单元,用于基于与多个预设置信区间各自相关的比例数据和多个预设置信区间各自的区间端点值,确定第一置信度阈值。
根据本公开的实施例,标注样本集包括多个标注样本图像和多个标注样本图像各自的标签。
根据本公开的实施例,训练模块620包括第五训练单元、第六训练单元和第七训练单元。
第五训练单元,用于基于多个第一样本图像、多个第一样本图像各自的伪标签和多个第一样本图像各自的掩膜值,得到第一损失。
第六训练单元,用于基于损失多个标注样本图像和多个标注样本图像各自的标签,得到第二损失。
第七训练单元,用于利用第一损失和损失第二损失,调整初始模型的模型参数,以最终训练得到深度学习模型。
根据本公开的实施例,深度学习模型训练装置600还包括第二确定模块和第三确定模块。
第二确定模块,用于基于多个第一样本图像各自的伪标签包括的置信度数值,确定第二置信度阈值。
第三确定模块,用于基于多个第一样本图像各自的伪标签和第二置信度阈值,确定多个第一样本图像各自的掩膜值。
根据本公开的实施例,深度学习模型训练装置600还包括第一筛选模块。
第一筛选模块,用于基于预设评价参数,从标注样本集中筛选得到第一样本图像。
根据本公开的实施例,深度学习模型训练装置600还包括第二筛选模块。
第二筛选模块,用于从前端图像识别服务的回流数据中筛选得到第一样本图像。
根据本公开的实施例,深度学习模型训练装置600还包括第三筛选模块。
第三筛选模块,用于基于预设场景特征,从共享资源中筛选得到第一样本图像。
图7示意性示出了根据本公开实施例的文本行检测装置的框图。
如图7所示,文本行检测装置700包括第二处理模块710。
第二处理模块710,用于利用深度学习模型处理待检测图像,得到文本行检测结果。
根据本公开的实施例,深度学习模型包括利用如上所述的深度学习模型训练方法训练得到。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至输入/输出(I/O)接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如深度学习模型训练方法或文本行检测方法。例如,在一些实施例中,深度学习模型训练方法或文本行检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的深度学习模型训练方法或文本行检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度学习模型训练方法或文本行检测方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (33)

1.一种深度学习模型训练方法,包括:
利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到所述多个第一样本图像各自的伪标签,其中,所述目标检测模型包括利用标注样本集训练得到;以及
利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型。
2.根据权利要求1所述的方法,其中,所述利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到所述多个第一样本图像各自的伪标签,包括:
对于每个所述第一样本图像,对所述第一样本图像进行数据增强处理,得到多个第二样本图像;
利用所述目标检测模型分别处理所述多个第二样本图像,得到多个第一标签;以及
基于所述多个第一标签,确定所述第一样本图像的伪标签。
3.根据权利要求2所述的方法,其中,所述基于所述多个第一标签,确定所述第一样本图像的伪标签,包括:
基于所述多个第一标签各自包括的置信度数值,对所述多个第一标签进行非极大值抑制处理,得到所述第一样本图像的伪标签。
4.根据权利要求2所述的方法,其中,所述对所述第一样本图像进行数据增强处理,得到多个第二样本图像,包括:
对所述第一样本图像进行多次尺度变换,得到所述多个第二样本图像,其中,所述多次尺度变换各自所使用的缩放比例不同。
5.根据权利要求4所述的方法,其中,所述基于所述多个第一标签,确定所述第一样本图像的伪标签,包括:
对于每个所述第二样本图像,基于生成所述第二样本图像时所使用的缩放比例,对所述第一标签进行还原处理,得到第二标签;以及
基于所述多个第二标签,确定所述第一样本图像的伪标签。
6.根据权利要求1所述的方法,其中,所述利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型,包括:
对所述多个第一样本图像和所述标注样本集进行采样处理,得到训练样本集;以及
利用所述训练样本集训练所述初始模型,得到所述深度学习模型。
7.根据权利要求1所述的方法,还包括:
基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值;以及
基于所述第一置信度阈值,将所述多个第一样本图像划分为第一样本子集和第二样本子集,其中,与所述第一样本子集包括的第一样本图像相关的置信度数值大于或等于所述第一置信度阈值,与所述第二样本子集包括的第一样本图像相关的置信度数值小于所述第一置信度阈值。
8.根据权利要求7所述的方法,其中,所述初始模型包括回归分支网络和分类分支网络;
其中,所述利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型,包括:
利用所述第一样本子集和所述标注样本集训练所述回归分支网络;以及
利用所述第一样本子集、所述第二样本子集和所述标注样本集训练所述分类分支网络。
9.根据权利要求7所述的方法,其中,所述基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值,包括:
基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定与多个预设置信区间各自相关的比例数据;以及
基于与多个预设置信区间各自相关的比例数据和所述多个预设置信区间各自的区间端点值,确定所述第一置信度阈值。
10.根据权利要求1所述的方法,其中,所述标注样本集包括多个标注样本图像和所述多个标注样本图像各自的标签;
其中,所述利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型,包括:
基于所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述多个第一样本图像各自的掩膜值,得到第一损失;
基于损失多个标注样本图像和所述多个标注样本图像各自的标签,得到第二损失;以及
利用所述第一损失和损失第二损失,调整所述初始模型的模型参数,以最终训练得到所述深度学习模型。
11.根据权利要求10所述的方法,还包括:
基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第二置信度阈值;以及
基于所述多个第一样本图像各自的伪标签和所述第二置信度阈值,确定所述多个第一样本图像各自的掩膜值。
12.根据权利要求1~11所述的方法,还包括:
基于预设评价参数,从所述标注样本集中筛选得到所述第一样本图像。
13.根据权利要求1~11所述的方法,还包括:
从前端图像识别服务的回流数据中筛选得到所述第一样本图像。
14.根据权利要求1~11所述的方法,还包括:
基于预设场景特征,从共享资源中筛选得到所述第一样本图像。
15.一种文本行检测方法,包括:
利用深度学习模型处理待检测图像,得到文本行检测结果;
其中,所述深度学习模型包括利用根据权利要求1~14中任一项所述的深度学习模型训练方法训练得到。
16.一种深度学习模型训练装置,包括:
第一处理模块,用于利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到所述多个第一样本图像各自的伪标签,其中,所述目标检测模型包括利用标注样本集训练得到;以及
训练模块,用于利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型。
17.根据权利要求16所述的装置,其中,所述第一处理模块包括第一处理单元、第二处理单元和第三处理单元;
第一处理单元,用于对于每个所述第一样本图像,对所述第一样本图像进行数据增强处理,得到多个第二样本图像;
第二处理单元,用于利用所述目标检测模型分别处理所述多个第二样本图像,得到多个第一标签;以及
第三处理单元,用于基于所述多个第一标签,确定所述第一样本图像的伪标签。
18.根据权利要求17所述的装置,其中,所述第三处理单元包括第一处理子单元;
第一处理子单元,用于基于所述多个第一标签各自包括的置信度数值,对所述多个第一标签进行非极大值抑制处理,得到所述第一样本图像的伪标签。
19.根据权利要求17所述的装置,其中,所述第一处理单元包括第二处理子单元;
第二处理子单元,用于对所述第一样本图像进行多次尺度变换,得到所述多个第二样本图像,其中,所述多次尺度变换各自所使用的缩放比例不同。
20.根据权利要求19所述的装置,其中,所述第三处理单元包括第三处理子单元和第四处理子单元;
第三处理子单元,用于对于每个所述第二样本图像,基于生成所述第二样本图像时所使用的缩放比例,对所述第一标签进行还原处理,得到第二标签;以及
第四处理子单元,用于基于所述多个第二标签,确定所述第一样本图像的伪标签。
21.根据权利要求16所述的装置,其中,所述训练模块包括第一训练单元和第二训练单元;
第一训练单元,用于对所述多个第一样本图像和所述标注样本集进行采样处理,得到训练样本集;以及
第二训练单元,用于利用所述训练样本集训练所述初始模型,得到所述深度学习模型。
22.根据权利要求16所述的装置,还包括第一确定模块和划分模块;
第一确定模块,用于基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值;以及
划分模块,用于基于所述第一置信度阈值,将所述多个第一样本图像划分为第一样本子集和第二样本子集,其中,与所述第一样本子集包括的第一样本图像相关的置信度数值大于或等于所述第一置信度阈值,与所述第二样本子集包括的第一样本图像相关的置信度数值小于所述第一置信度阈值。
23.根据权利要求22所述的装置,其中,所述初始模型包括回归分支网络和分类分支网络;
其中,所述训练模块包括第三训练单元和第四训练单元;
第三训练单元,用于利用所述第一样本子集和所述标注样本集训练所述回归分支网络;以及
第四训练单元,用于利用所述第一样本子集、所述第二样本子集和所述标注样本集训练所述分类分支网络。
24.根据权利要求22所述的装置,其中,所述第一确定模块包括第一确定单元和第二确定单元;
第一确定单元,用于基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定与多个预设置信区间各自相关的比例数据;以及
第二确定单元,用于基于与多个预设置信区间各自相关的比例数据和所述多个预设置信区间各自的区间端点值,确定所述第一置信度阈值。
25.根据权利要求16所述的装置,其中,所述标注样本集包括多个标注样本图像和所述多个标注样本图像各自的标签;
其中,所述训练模块包括第五训练单元、第六训练单元和第七训练单元;
第五训练单元,用于基于所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述多个第一样本图像各自的掩膜值,得到第一损失;
第六训练单元,用于基于损失多个标注样本图像和所述多个标注样本图像各自的标签,得到第二损失;以及
第七训练单元,用于利用所述第一损失和损失第二损失,调整所述初始模型的模型参数,以最终训练得到所述深度学习模型。
26.根据权利要求25所述的装置,还包括第二确定模块和第三确定模块;
第二确定模块,用于基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第二置信度阈值;以及
第三确定模块,用于基于所述多个第一样本图像各自的伪标签和所述第二置信度阈值,确定所述多个第一样本图像各自的掩膜值。
27.根据权利要求16~26所述的装置,还包括第一筛选模块;
第一筛选模块,用于基于预设评价参数,从所述标注样本集中筛选得到所述第一样本图像。
28.根据权利要求16~26所述的装置,还包括第二筛选模块;
第二筛选模块,用于从前端图像识别服务的回流数据中筛选得到所述第一样本图像。
29.根据权利要求16~26所述的装置,还包括第三筛选模块;
第三筛选模块,用于基于预设场景特征,从共享资源中筛选得到所述第一样本图像。
30.一种文本行检测装置,包括:
第二处理模块,用于利用深度学习模型处理待检测图像,得到文本行检测结果;
其中,所述深度学习模型包括利用根据权利要求1~14中任一项所述的深度学习模型训练方法训练得到。
31.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。
33.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。
CN202310706632.9A 2023-06-14 2023-06-14 深度学习模型训练方法、文本行检测方法、装置及设备 Pending CN116935368A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310706632.9A CN116935368A (zh) 2023-06-14 2023-06-14 深度学习模型训练方法、文本行检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310706632.9A CN116935368A (zh) 2023-06-14 2023-06-14 深度学习模型训练方法、文本行检测方法、装置及设备

Publications (1)

Publication Number Publication Date
CN116935368A true CN116935368A (zh) 2023-10-24

Family

ID=88391608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310706632.9A Pending CN116935368A (zh) 2023-06-14 2023-06-14 深度学习模型训练方法、文本行检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116935368A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274965A (zh) * 2023-11-21 2023-12-22 浙江恒逸石化有限公司 图像识别模型的训练方法、喷丝板检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
WO2022042002A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN114881129A (zh) * 2022-04-25 2022-08-09 北京百度网讯科技有限公司 一种模型训练方法、装置、电子设备及存储介质
CN115240035A (zh) * 2022-07-29 2022-10-25 北京百度网讯科技有限公司 半监督目标检测模型训练方法、装置、设备以及存储介质
CN116091858A (zh) * 2022-10-31 2023-05-09 北京邮电大学 一种半监督学习电力设备目标检测模型训练方法、检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022042002A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN114881129A (zh) * 2022-04-25 2022-08-09 北京百度网讯科技有限公司 一种模型训练方法、装置、电子设备及存储介质
CN115240035A (zh) * 2022-07-29 2022-10-25 北京百度网讯科技有限公司 半监督目标检测模型训练方法、装置、设备以及存储介质
CN116091858A (zh) * 2022-10-31 2023-05-09 北京邮电大学 一种半监督学习电力设备目标检测模型训练方法、检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUGONG QIN 等: "Curved Text Detection in Natural Scene Images with Semi- and Weakly-Supervised Learning", 《2019 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》, 3 February 2020 (2020-02-03), pages 559 - 564 *
程康明 等: "一种自训练框架下的三优选半监督回归算法", 《智能***学报》, no. 03, 30 June 2020 (2020-06-30), pages 568 - 577 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274965A (zh) * 2023-11-21 2023-12-22 浙江恒逸石化有限公司 图像识别模型的训练方法、喷丝板检测方法及装置
CN117274965B (zh) * 2023-11-21 2024-03-05 浙江恒逸石化有限公司 图像识别模型的训练方法、喷丝板检测方法及装置

Similar Documents

Publication Publication Date Title
US11062453B2 (en) Method and system for scene parsing and storage medium
CN113657390B (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
CN113657483A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN113239807B (zh) 训练票据识别模型和票据识别的方法和装置
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN112926621B (zh) 数据标注方法、装置、电子设备及存储介质
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN115690443B (zh) 特征提取模型训练方法、图像分类方法及相关装置
CN113378832A (zh) 文本检测模型训练方法、文本预测框方法及装置
CN116935368A (zh) 深度学习模型训练方法、文本行检测方法、装置及设备
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
CN114495101A (zh) 文本检测方法、文本检测网络的训练方法及装置
CN113947700A (zh) 模型确定方法、装置、电子设备和存储器
CN106709490B (zh) 一种字符识别方法和装置
CN114998897B (zh) 生成样本图像的方法以及文字识别模型的训练方法
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN114612651B (zh) Roi检测模型训练方法、检测方法、装置、设备和介质
CN114120305B (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN115359322A (zh) 一种目标检测模型训练方法、装置、设备和存储介质
CN114821190A (zh) 图像分类模型训练方法、图像分类方法、装置及设备
CN113947195A (zh) 模型确定方法、装置、电子设备和存储器
CN113901901A (zh) 图像处理模型的训练方法、装置、电子设备和介质
CN115809687A (zh) 一种图像处理网络的训练方法及装置
CN113657364A (zh) 用于识别文字标志的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination