CN116052096B

CN116052096B - 一种压缩数据船舶检测方法、***及计算机存储介质

Info

Publication number: CN116052096B
Application number: CN202310335897.2A
Authority: CN
Inventors: 吴显德; 俞伟娜; 张鹏; 周瑶越; 钱茂俊
Original assignee: Zhejiang Whyis Technology Co ltd
Current assignee: Zhejiang Whyis Technology Co ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-13
Anticipated expiration: 2043-03-31
Also published as: CN116052096A

Abstract

本发明公开一种压缩数据船舶检测方法、***及计算机存储介质。该方法包括：利用原始图片的复杂因子对原始数据集进行压缩，筛选出简单样本集；利用原始图片的损失值挑选易简样本集；将既属于简单样本集又属于易简样本集的原始图片删除；将原始训练集中除去简单样本集和易简样本集的原始图片作为难例样本集；将难例样本集、属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片进行模型训练，得到目标船舶检测模型；将待检测图片输入到目标船舶检测模型中进行检测得到船舶位置。该方法减少了训练集数量，加快了模型训练；降低了模型对既属于简单样本又属于易简样本的过分学习；提高了模型对难例样本集的学习。

Description

一种压缩数据船舶检测方法、***及计算机存储介质

技术领域

本发明涉及船舶检测技术领域，具体而言，涉及一种压缩数据船舶检测方法、***及计算机存储介质。

背景技术

随着水上交通不断发展，水上交通秩序也不断升级，维持水上交通的工作人员的工作量不断增加，其中船舶检测是水上交通工作量的之一。近几年船舶检测算法产生巨大进步，其中基于深度学习的船舶检测算法在实际水上交通中被广泛使用，其中训练集的数量是船舶检测模型重要指标之一。基于这个原因，工业界收集了大量的训练集数量，虽然在数量具有急剧的增加，船舶检测模型也具有较高的提高。训练集数量增加也带来较多负面作用，其中训练船舶检测模型的时间随之增加和训练集中含有大量的冗余数据导致船舶检测模型鲁棒性变差。

针对现有技术中训练集数据冗余以及因训练集数量多所带来的训练耗时的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例中提供一种压缩数据船舶检测方法、***及计算机存储介质，以解决现有技术中训练集数据冗余以及因训练集数量多所带来的训练耗时的问题。

为达到上述目的，本发明提供了一种压缩数据船舶检测方法，该方法包括：S101，根据原始训练集中每张原始图片的所有像素点计算得到每张原始图片的复杂因子；S102，将全部原始图片的复杂因子从小到大排序，选取排序后的前第一预设数量的复杂因子对应的原始图片作为简单样本集；S103，将原始训练集中每张原始图片进行模型训练，得到每张原始图片的损失值；S104，将全部原始图片的损失值从小到大排序，选取排序后的前第二预设数量的损失值对应的原始图片作为易简样本集；S105，将既属于简单样本集又属于易简样本集的原始图片删除；将原始训练集中除去简单样本集和易简样本集的原始图片作为难例样本集；将所述难例样本集、属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片进行模型训练，得到当前轮船舶检测模型以及当前轮总损失值；S106，重复所述S103~S105，直至当前轮总损失值在预设范围内波动，得到目标船舶检测模型；S107，将待检测图片输入到所述目标船舶检测模型中进行检测，得到船舶位置。

可选的，所述S101包括：将原始训练集中每张原始图片均做如下处理：S1011，将当前原始图片划分为多块，并计算每块的像素均值；将所述每块的像素均值赋值到当前原始图片对应块位置的所有像素点，得到当前块图片；S1012，根据所述当前原始图片中每个像素点的像素值和所述当前块图片中每个像素点的像素值计算得到当前原始图片的复杂因子。

可选的，所述将当前原始图片划分为多块，并计算每块的像素均值包括：S10111，将当前原始图片划分为多块，得到多个分块；S10112，将每个分块继续划分为多块，得到每个分块对应的多个子分块，并计算每个子分块的像素均值；S10113，根据每个分块的所有子分块的像素均值计算得到每个分块的像素均值。

可选的，所述当前原始图片的复杂因子根据以下公式计算：

；

其中，

为当前原始图片的复杂因子，/>

为当前原始图片或当前块图片总的像素点个数，/>

表示第/>

个像素点，/>

表示第/>

个像素点，/>

表示当前原始图片的像素值，/>

表示当前块图片的像素值，/>

表示激活函数。

可选的，所述S103包括：S1031，将原始训练集中每张原始图片输入到初始船舶检测模型中进行模型训练，得到当前轮对应的每张原始图片的损失值以及当前轮更新船舶检测模型；S1032，将测试集中每张测试图片输入到所述当前轮更新船舶检测模型中进行检测，得到当前轮测试集的准确率；判断所述准确率是否大于预设准确率，若是，进入步骤S104；反之，重复S1031、S1032，直至测试集的准确率大于预设准确率，得到最后轮对应的每张原始图片的损失值。

可选的，所述当前轮总损失值根据以下公式计算：

；

其中，

为当前轮总损失值，/>

表示难例样本集的图片张数，/>

表示第/>

张原始难例图片，/>

表示第/>

张原始难例图片的分类损失值，/>

表示第/>

张原始难例图片的回归损失值，/>

表示属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片的图片张数，/>

表示属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片中的第/>

张图片，/>

表示第/>

张图片的分类损失值，/>

表示第/>

张图片的回归损失值，

表示第/>

张图片的复杂因子。

另一方面，本发明提供了一种压缩数据船舶检测***，该***包括：复杂因子计算模块，用于根据原始训练集中每张原始图片的所有像素点计算得到每张原始图片的复杂因子；第一筛选模块，用于将全部原始图片的复杂因子从小到大排序，选取排序后的前第一预设数量的复杂因子对应的原始图片作为简单样本集；损失值计算模块，用于将原始训练集中每张原始图片进行模型训练，得到每张原始图片的损失值；第二筛选模块，用于将全部原始图片的损失值从小到大排序，选取排序后的前第二预设数量的损失值对应的原始图片作为易简样本集；模型训练模块，用于将既属于简单样本集又属于易简样本集的原始图片删除；将原始训练集中除去简单样本集和易简样本集的原始图片作为难例样本集；将所述难例样本集、属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片进行模型训练，得到当前轮船舶检测模型以及当前轮总损失值；重复训练模块，用于重复所述损失值计算模块、第二筛选模块、模型训练模块，直至当前轮总损失值在预设范围内波动，得到目标船舶检测模型；检测模块，用于将待检测图片输入到所述目标船舶检测模型中进行检测，得到船舶位置。

可选的，所述复杂因子计算模块包括：将原始训练集中每张原始图片均做如下处理：分块子模块，用于将当前原始图片划分为多块，并计算每块的像素均值；将所述每块的像素均值赋值到当前原始图片对应块位置的所有像素点，得到当前块图片；复杂因子计算子模块，用于根据所述当前原始图片中每个像素点的像素值和所述当前块图片中每个像素点的像素值计算得到当前原始图片的复杂因子。

可选的，所述损失值计算模块包括：训练子模块，用于将原始训练集中每张原始图片输入到初始船舶检测模型中进行模型训练，得到当前轮对应的每张原始图片的损失值以及当前轮更新船舶检测模型；判断子模块，用于将测试集中每张测试图片输入到所述当前轮更新船舶检测模型中进行检测，得到当前轮测试集的准确率；判断所述准确率是否大于预设准确率，若是，进入所述第二筛选模块；反之，重复所述训练子模块、判断子模块，直至测试集的准确率大于预设准确率，得到最后轮对应的每张原始图片的损失值。

另一方面，本发明还提供了一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的压缩数据船舶检测方法。

本发明的有益效果：

本发明提供了一种压缩数据船舶检测方法、***及计算机存储介质，其中，该方法利用原始图片的复杂因子对原始数据集进行压缩，从而从冗余的数据集筛选出简单样本；利用原始图片的损失值挑选易简样本；对属于简单样本但不属于易简样本、属于易简样本但不属于简单样本的图片进行学习，将既属于简单样本又属于易简样本的图片进行剔除，从而减少训练集数量，加快模型训练，并且使模型降低对既属于简单样本又属于易简样本的过分学习，防止造成对该类型数据集过拟现象，使目标船舶检测模型检测性能更好；提高模型对难例样本集的学习，提高模型的检出率。

附图说明

图1是本发明实施例提供的一种压缩数据船舶检测方法的流程图；

图2是本发明实施例提供的计算得到每张原始图片的复杂因子的流程图；

图3是本发明实施例提供的得到每张原始图片的损失值的流程图；

图4是本发明实施例提供的一种压缩数据船舶检测***的结构示意图；

图5是本发明实施例提供的复杂因子计算模块的结构示意图；

图6是本发明实施例提供的损失值计算模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

基于上述问题，本发明提供了一种压缩数据船舶检测方法，可以解决现有技术中训练集数据冗余以及因训练集数量多所带来的训练耗时的问题。图1是本发明实施例提供的一种压缩数据船舶检测方法的流程图，如图1所示，该方法包括：

S101，根据原始训练集中每张原始图片的所有像素点计算得到每张原始图片的复杂因子；

图2是本发明实施例提供的计算得到每张原始图片的复杂因子的流程图，如图2所示，所述S101包括：

将原始训练集中每张原始图片均做如下处理：

S1011，将当前原始图片划分为多块，并计算每块的像素均值；将所述每块的像素均值赋值到当前原始图片对应块位置的所有像素点，得到当前块图片；

具体的，所述将当前原始图片划分为多块，并计算每块的像素均值包括：

S10111，将当前原始图片划分为多块，得到多个分块；

本发明中，采用图片宽高的四分之一将当前原始图片划分为16块，得到多个分块（即16个分块）。

S10112，将每个分块继续划分为多块，得到每个分块对应的多个子分块，并计算每个子分块的像素均值；

具体的，将每个分块再继续划分为16块，得到每个分块对应的16个子分块，并采用线性插值法计算每个子分块的像素均值。

S10113，根据每个分块的所有子分块的像素均值计算得到每个分块的像素均值。

具体的，对当前分块的16个子分块的像素均值求和并除16求平均值得到当前分块的像素均值，通过该方法得到每个分块的像素均值。

将所述每个分块的像素均值赋值到当前原始图片对应块位置的所有像素点，得到当前块图片；

具体的，假设当前原始图片第一块位置有30个像素点，将第一个分块的像素均值赋值到该30个像素点，其余15个分块均按上述方法对应赋值，得到当前块图片。

S1012，根据所述当前原始图片中每个像素点的像素值和所述当前块图片中每个像素点的像素值计算得到当前原始图片的复杂因子。

当前原始图片中有多少个像素点，当前块图片中就对应有多个少像素点。

具体的，所述当前原始图片的复杂因子根据以下公式计算：

；

其中，

为当前原始图片的复杂因子，/>

为当前原始图片或当前块图片总的像素点个数，/>

表示第/>

个像素点，/>

表示第/>

个像素点，/>

表示当前原始图片的像素值，/>

表示当前块图片的像素值，/>

表示激活函数；

表示当前原始图片第/>

个像素点的像素值，/>

表示当前块图片第/>

个像素点的像素值，/>

表示当前原始图片第/>

个像素点的像素值，/>

表示当前块图片第/>

个像素点的像素值。

S102，将全部原始图片的复杂因子从小到大排序，选取排序后的前第一预设数量的复杂因子对应的原始图片作为简单样本集；

复杂因子越大，说明这张图片物体越多，对船舶检测模型造成干扰越多。因此，本发明中，将全部原始图片的复杂因子从小到大排序，选取排序后的前60%的复杂因子对应的原始图片作为简单样本集；例如:100张图片选取60张图片。

S103，将原始训练集中每张原始图片进行模型训练，得到每张原始图片的损失值；

具体的，图3是所述S103包括：

S1031，将原始训练集中每张原始图片输入到初始船舶检测模型中进行模型训练，得到当前轮对应的每张原始图片的损失值以及当前轮更新船舶检测模型；

S1032，将测试集中每张测试图片输入到所述当前轮更新船舶检测模型中进行检测，得到当前轮测试集的准确率；判断所述准确率是否大于预设准确率，若是，进入步骤S104；反之，重复S1031、S1032，直至测试集的准确率大于预设准确率，得到最后轮对应的每张原始图片的损失值。

具体的，将原始训练集中每张原始图片输入到初始船舶检测模型中进行第一轮模型训练，得到第一轮对应的每张原始图片的损失值以及第一轮更新船舶检测模型；将测试集中每张测试图片输入到所述第一轮更新船舶检测模型中进行检测，得到正确图片、错误图片；根据正确图片和错误图片计算正确图片的占比，得到第一轮测试集的准确率；判断所述准确率是否大于预设准确率（本发明中设置为34%），若是，则进入步骤S104；反之，将原始训练集中每张原始图片输入到所述第一轮更新船舶检测模型中进行第二轮模型训练，得到第二轮对应的每张原始图片的损失值以及第二轮更新船舶检测模型；将测试集中每张测试图片输入到所述第二轮更新船舶检测模型中进行检测，得到第二轮测试集的准确率，判断所述准确率是否大于预设准确率（本发明中设置为34%），若是，则得到第二轮对应的每张原始图片的损失值，反之，重复上述操作，直至测试集的准确率大于预设准确率。

S104，将全部原始图片的损失值从小到大排序，选取排序后的前第二预设数量的损失值对应的原始图片作为易简样本集；

将上述过程得到的全部原始图片的损失值从小到大排序，选取排序后的前30%的损失值对应的原始图片作为易简样本集；例如：100张图片选取30张图片。

S105，将既属于简单样本集又属于易简样本集的原始图片删除；将原始训练集中除去简单样本集和易简样本集的原始图片作为难例样本集；将所述难例样本集、属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片进行模型训练，得到当前轮船舶检测模型以及当前轮总损失值；

具体的，将既属于简单样本集又属于易简样本集的原始图片删除；从而减少模型训练的图片数量，加快模型训练；又可以减少训练集中冗余数据，防止模型对既属于简单样本集又属于易简样本集的原始图片过分学习，改成该类数据集过拟现象，对其他数据集造成欠拟现象。

将原始训练集中除去简单样本集和易简样本集的原始图片作为难例样本集；将难例样本集进行模型训练，提高模型对难例样本集的学习，提高模型的检出率。

将属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片赋值权重，所述权重为S101得到的复杂因子；将赋值权重后的图片进行模型训练。

本发明中，将所述难例样本集、属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片进行模型训练（即输入到S1032得到的最后轮更新船舶检测模型中进行模型训练），得到当前轮船舶检测模型以及当前轮总损失值；

所述当前轮总损失值根据以下公式计算：

；

其中，

为当前轮总损失值，/>

表示难例样本集的图片张数，/>

表示第/>

张原始难例图片，/>

表示第/>

张原始难例图片的分类损失值，/>

表示第/>

张原始难例图片的回归损失值，/>

张图片，/>

表示第/>

张图片的分类损失值，/>

表示第/>

张图片的回归损失值，

表示第/>

张图片的复杂因子。

S106，重复所述S103~S105，直至当前轮总损失值在预设范围内波动，得到目标船舶检测模型；

具体的，重复所述S103~S105，直至当前轮总损失值在预设范围内（即±0.1%）波动，停止模型训练，得到目标船舶检测模型。

S107，将待检测图片输入到所述目标船舶检测模型中进行检测，得到船舶位置。

图4是本发明实施例提供的一种压缩数据船舶检测***的结构示意图，如图4所示，该***包括：

复杂因子计算模块201，用于根据原始训练集中每张原始图片的所有像素点计算得到每张原始图片的复杂因子；

图5是本发明实施例提供的复杂因子计算模块的结构示意图，如图5所示，所述复杂因子计算模块201包括：

将原始训练集中每张原始图片均做如下处理：

分块子模块2011，用于将当前原始图片划分为多块，并计算每块的像素均值；将所述每块的像素均值赋值到当前原始图片对应块位置的所有像素点，得到当前块图片；

所述分块子模块2011包括：

第一划分单元，用于将当前原始图片划分为多块，得到多个分块；

第二划分单元，用于将每个分块继续划分为多块，得到每个分块对应的多个子分块，并计算每个子分块的像素均值；

计算单元，用于根据每个分块的所有子分块的像素均值计算得到每个分块的像素均值。

复杂因子计算子模块2012，用于根据所述当前原始图片中每个像素点的像素值和所述当前块图片中每个像素点的像素值计算得到当前原始图片的复杂因子。

第一筛选模块202，用于将全部原始图片的复杂因子从小到大排序，选取排序后的前第一预设数量的复杂因子对应的原始图片作为简单样本集；

损失值计算模块203，用于将原始训练集中每张原始图片进行模型训练，得到每张原始图片的损失值；

图6是本发明实施例提供的损失值计算模块的结构示意图，如图6所示，所述损失值计算模块203包括：

训练子模块2031，用于将原始训练集中每张原始图片输入到初始船舶检测模型中进行模型训练，得到当前轮对应的每张原始图片的损失值以及当前轮更新船舶检测模型；

判断子模块2032，用于将测试集中每张测试图片输入到所述当前轮更新船舶检测模型中进行检测，得到当前轮测试集的准确率；判断所述准确率是否大于预设准确率，若是，进入所述第二筛选模块；反之，重复所述训练子模块、判断子模块，直至测试集的准确率大于预设准确率，得到最后轮对应的每张原始图片的损失值。

第二筛选模块204，用于将全部原始图片的损失值从小到大排序，选取排序后的前第二预设数量的损失值对应的原始图片作为易简样本集；

模型训练模块205，用于将既属于简单样本集又属于易简样本集的原始图片删除；将原始训练集中除去简单样本集和易简样本集的原始图片作为难例样本集；将所述难例样本集、属于简单样本集但不属于易简样本集的原始图片和属于易简样本集但不属于简单样本集的原始图片进行模型训练，得到当前轮船舶检测模型以及当前轮总损失值；

重复训练模块206，用于重复所述损失值计算模块、第二筛选模块、模型训练模块，直至当前轮总损失值在预设范围内波动，得到目标船舶检测模型；

检测模块207，用于将待检测图片输入到所述目标船舶检测模型中进行检测，得到船舶位置。

本发明还提供了一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的压缩数据船舶检测方法。

上述存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

本发明的有益效果：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。