CN113240638A - 基于深度学习的目标检测方法、设备及介质 - Google Patents
基于深度学习的目标检测方法、设备及介质 Download PDFInfo
- Publication number
- CN113240638A CN113240638A CN202110518366.8A CN202110518366A CN113240638A CN 113240638 A CN113240638 A CN 113240638A CN 202110518366 A CN202110518366 A CN 202110518366A CN 113240638 A CN113240638 A CN 113240638A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- detection
- pixel point
- detection frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 295
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims description 25
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 239000002184 metal Substances 0.000 claims 1
- 210000001165 lymph node Anatomy 0.000 description 13
- 102100033620 Calponin-1 Human genes 0.000 description 11
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 11
- 238000002591 computed tomography Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000009966 trimming Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000002595 magnetic resonance imaging Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000002600 positron emission tomography Methods 0.000 description 3
- 102100033591 Calponin-2 Human genes 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 244000077995 Coix lacryma jobi Species 0.000 description 1
- 235000007354 Coix lacryma jobi Nutrition 0.000 description 1
- 244000183914 Dianthus superbus Species 0.000 description 1
- 235000013535 Dianthus superbus Nutrition 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Radiology & Medical Imaging (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的目标检测方法、设备及介质,该方法包括:获取待检测图像;通过第一检测网络对待检测图像进行处理,得到目标第一检测框;提取待检测图像的特征图;对待检测图像的特征图进行裁剪,得到包含目标第一检测框的目标裁剪图像;将目标裁剪图像输入第二检测网络,得到目标裁剪图像中各像素点的中心度、以及各目标像素点与所属的目标第二检测框的各边界之间的偏移量,其中,中心度为对应像素点是第二检测框的中心点的概率,目标像素点为中心度大于预设中心度阈值的像素点;根据各目标像素点与所属的目标第二检测框的各边界之间的偏移量,确定各目标第二检测框。本发明能够解决难以将图像中相邻物体准确区分的问题。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习的目标检测方法、设备及介质。
背景技术
基于影像的计算机辅助诊断技术主要通过机器学习或深度学习来实现目标结构或病灶的自动检测与识别。传统检测技术通常使用拟合椭圆、Faster-RCNN、Retina-Net等方法直接对目标结构或者病灶进行定位和检测,但由于人体结构复杂,不同疾病的影像学表现存在多样性,且会受其他疾病与人体解剖结构的影响,因此经常将相互靠近的多个检测目标检测为单个物体,从而导致误检。这不但影响目标物体数量的统计,还会导致对目标物体的大小判断出现大幅偏差,进而间接影响医生对患者病情的判断。
以***检测为例,文献【刘芳,瞿秋薏,李玲玲,等.基于形状和椭圆拟合的胃部CT图像***检测***及方法,2013.】公开的***自动检测***由预处理、感兴趣边界点检测、边界椭圆拟合、区域合并和***跟踪提取功能模块组成。其中,预处理模块用于对待检测图像进行预处理,感兴趣边界点检测模块用于对预处理后的图像做进一步处理,得到感兴趣边界点;边界椭圆拟合模块用于对感兴趣边界点形成的曲线进行椭圆拟合,得到类椭圆闭合区域;区域合并模块用于消除椭圆相交形成的歧义区域;***跟踪提取模块用于对疑似***进行窗口特征匹配跟踪,完成***提取。该方案虽然能提取***,但泛化性能差,对于复杂形状的***检测准确率不高。
文献【曹汉强,徐国平.一种于改进SegNet分割网络的***检测方法,2019.】公开了一种基于深度学习的***检测方法,该方法首先构建基于空洞卷积操作的SegNet分割网络,而后使用训练集训练SegNet分割网络,并以正余弦交叉熵损失函数最小化为网络优化目标函数对其进行优化,从而可以根据优化的SegNet分割网络实现***的识别和分割。该方法虽然可以对***进行分割和检测,但容易将距离接近的多个***检测成一个,造成检测误差。
发明内容
为了解决现有技术中难以将图像中相邻物体准确区分的问题,本发明提供一种基于深度学习的目标检测方法、设备及介质。
为了实现上述目的,本发明提供一种基于深度学习的目标检测方法,包括:
获取待检测图像;
通过预先训练的第一检测网络对所述待检测图像进行处理,得到目标第一检测框;
提取所述待检测图像的特征图;
对所述待检测图像的特征图进行裁剪,得到包含所述目标第一检测框的目标裁剪图像;
将所述目标裁剪图像输入预先训练的第二检测网络,得到所述目标裁剪图像中各像素点的中心度、以及各目标像素点与所属的目标第二检测框的各边界之间的偏移量,其中,所述中心度为对应像素点是第二检测框的中心点的概率,所述目标像素点为中心度大于预设中心度阈值的像素点;
根据各所述目标像素点与所属的目标第二检测框的各边界之间的偏移量,确定各所述目标第二检测框。
在本发明一个优选实施例中,所述通过预先训练的第一检测网络对所述待检测图像进行处理,得到目标第一检测框,包括:
将所述待检测图像输入所述第一检测网络,得到若干第一检测框的中心位置、尺寸和置信度;
当某个所述第一检测框的置信度大于预设的置信度阈值时,确定该第一检测框为所述目标第一检测框。
在本发明一个优选实施例中,所述对所述待检测图像的特征图进行裁剪,得到包含所述目标第一检测框的目标裁剪图像,包括:
以所述目标第一检测框的中心位置为中心、以所述目标第一检测框的尺寸的m倍为裁剪尺寸,对所述待检测图像的特征图进行裁剪,其中,m>=1。
在本发明一个优选实施例中,所述方法还包括:
从各所述目标第二检测框中去除重叠的目标第二检测框。
在本发明一个优选实施例中,所述第一检测网络的训练过程如下:
获取第一样本集,所述第一样本集包括若干第一样本图像以及第一检测框金标准;
将所述第一样本图像输入预设的第一检测网络,得到第一预测检测框的中心位置和尺寸;
根据所述第一预测检测框的中心位置和尺寸、以及对应的所述第一检测框金标准,计算第一模型损失;
根据所述第一模型损失,对所述第一检测网络进行训练。
在本发明一个优选实施例中,所述第二检测网络的训练过程如下:
获取第二样本集,所述第二样本集包括若干第二样本图像以及第二检测框金标准,所述第二检测框金标准包括所述第二样本图像中标注的第二标注检测框,其中至少部分所述第二样图像中标注有两个或两个以上邻近的第二标注检测框;
将所述第二样本图像输入预设的第二检测网络,得到所述第二样本图像中各像素点的预测中心度、以及各目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量,其中,所述预测中心度为对应像素点是所属的第二预测检测框的中心点的预测概率,所述第二样本图像中的目标像素点为预测中心度大于所述预设中心度阈值的像素点;
根据所述第二样本图像中各像素点的预测中心度、各所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及对应的第二检测框金标准,计算第二模型损失;
根据所述第二模型损失,对所述第二检测网络型进行训练。
在本发明一个优选实施例中,所述根据所述第二样本图像中各像素点的预测中心度、各所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及对应的第二检测框金标准,计算第二模型损失,包括:
获取所述第二检测框金标准,所述第二检测框金标准包括所述第二样本图像对应的若干第二标注检测框;
基于所述若干第二标注检测框,计算所述第二样本图像中各像素点的标准中心度,其中,所述标准中心度为对应像素点是所属的第二标注检测框的中心点的标准概率;
计算每个所述目标像素点与所属的第二标注检测框的各边界之间的标准偏移量;
根据所述第二样本图像中每个所述像素点的预测中心度、每个所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及每个所述像素点的标准中心度、每个所述目标像素点与所属的第二标注检测框的各边界之间的标准偏移量,计算所述第二模型损失。
在本发明一个优选实施例中,所述基于所述若干第二标注检测框,计算所述第二样本图像中各像素点的标准中心度,包括:
当所述第二样本图像为2D图像时,通过如下公式计算所述第二样本图像中所述第二标注检测框内各像素点的标准中心度C:
其中,l*、r*、u*、d*分别表示对应像素点与所述第二标注检测框内左、右、上、下边界的距离;
当所述第二样本图像为3D图像时,通过如下公式计算所述第二样本图像中所述第二标注检测框内各像素点的标准中心度C:
其中,l*、r*、u*、d*、f*、b*分别表示对应像素点与所述第二标注检测框内左、右、上、下、前、后边界的距离;
当所述第二样本图像为2D或3D图像时,所述第二样本图像中所述第二标注检测框之外的各像素点的标准中心度C均为0;
当所述第二样本图像中某像素点同时位于n个所述第二标注检测框内,且n大于1时,该像素点的中心度C为:C=max(C1,C2,…,Cn),其中,Ci表示基于第i个所述第二标注检测框获取的该像素点的中心度。
为了实现上述目的,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明首先通过预先训练的第一检测网络对所述待检测图像进行处理,得到目标第一检测框;而后提取所述待检测图像的特征图,并对所述待检测图像的特征图进行裁剪,得到包含所述目标第一检测框的目标裁剪图像;最后将所述目标裁剪图像输入预先训练的第二检测网络,得到所述目标裁剪图像中各像素点的中心度、以及各目标像素点与所属的目标第二检测框的各边界之间的偏移量,并根据偏移量确定各所述目标第二检测框。可见,本发明在通过第一检测网络进行粗检测的基础上,增加了第二检测网络进行精细检测,该第二检测网络能够检测出目标裁剪图像中各像素点的中心度,当某个像素点的中心度大于预设的概率阈值时,则将该像素点作为目标像素点,以表示目标裁剪图像中对应待检目标物体的中心点,根据中心点的数量即可确定目标物体(也即目标第二检测框)的数量,再结合该像素点与对应目标第二检测框的各边界之间的偏移量,即可对相应目标第二检测框进行定位,按照这种方式,可以准确定位目标裁剪图像中的每一个目标物体,从而解决相邻物体难以准确区分的问题。
附图说明
图1为本发明实施例1的基于深度学习的目标检测方法的流程示意图;
图2为本发明实施例1的基于深度学习的目标检测方法进行***检测的原理图;
图3为本发明实施例2中训练第一检测网络的流程示意图;
图4为本发明实施例3中训练第二检测网络的流程示意图;
图5为本发明实施例4的基于深度学习的目标检测***的结构框图;
图6为本发明实施例5的电子设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1
本实施例提供一种基于深度学习的目标检测方法,如图1和图2所示,该方法具体包括以下步骤:
S11,获取待检测图像。
在本实施例中,可以从PACS(Picture Archiving and Communication Systems,图像归档和通信***)获取待检测图像,也可以从图像采集设备中实时地获取待检测图像。
可选地,待检测图像可以为计算机断层扫描(Computed Tomography,CT)图像,也可以为磁共振(Magnetic Resonance Imaging,MRI)图像,也可以为低剂量的正电子发射计算机断层显像(Positron Emission Computed Tomography/Magnetic ResonanceImaging,PET)图像或其它模态图像,本实施例并不对待检测图像的模态进行具体限制。
S12,通过预先训练的第一检测网络对所述待检测图像进行处理,得到目标第一检测框。
在本实施例中,第一检测网络CNN1可以是Fast-RCNN、Retina-Net、Yolo等任意合适的一阶或多阶检测网络。将待检测图像输入第一检测网络CNN1进行粗检测处理,将得到若干第一检测框的中心位置、尺寸和置信度;当某个所述第一检测框的置信度大于预设的置信度阈值时,确定该第一检测框为所述目标第一检测框,如图2所示。其中,目标第一检测框内可能包括不只一个相邻目标物体。
可选地,在将待检测图像输入第一检测网络CNN1之前,本实施例还包括对待检测图像进行预处理,例如,进行取窗宽窗位、像素归一化、高斯滤波等预处理,以减少噪声对网络的干扰,使图像特征更加鲜明,降低学习的难度。
S13,提取所述待检测图像的特征图。
在本实施例中,可以通过多个对称跳跃连接的残差块来提取待检测图像的多尺度特征图,以保证图像特征在浅层和深层的有效抽取。
S14,对所述待检测图像的特征图进行裁剪,得到包含所述目标第一检测框的目标裁剪图像。
在本实施例中,裁剪方式包括但不限于采用ROI Pooling或ROI Align等进行裁剪。具体地,以所述目标第一检测框的中心位置为中心、以所述目标第一检测框的尺寸的m倍为裁剪尺寸,对所述待检测图像的特征图进行裁剪,其中,m>=1。例如,得到的目标裁剪图像如图2所示。
S15,将所述目标裁剪图像输入预先训练的第二检测网络,得到所述目标裁剪图像中各像素点的中心度、以及各目标像素点与所属的目标第二检测框的各边界之间的偏移量,其中,所述中心度为对应像素点是第二检测框的中心点的概率,所述目标像素点为中心度大于预设中心度阈值的像素点(属于0-1之间)。
当目标裁剪图像输入第二检测网络CNN2时,如图2所示,可以得到目标裁剪图像的中心度图,还可以得到各目标像素点与该目标像素点所属的第二检测框的各边界之间的偏移量(即偏移像素数)。
优选地,在将所述目标裁剪图像输入第二检测网络之前,可预先对其进行插值处理以使其分辨率与待检测图像的分辨率相同。
S16,根据各所述目标像素点与所属的目标第二检测框的各边界之间的偏移量,确定各所述目标第二检测框。
例如,当目标裁剪图像中有像素点A和B的中心度大于预设中心度阈值时,则认为目标裁剪图像中有两个单独的目标物体,像素点A和B分别为两个目标物体的中心,则根据像素点A、B的坐标位置以及像素点A、B与目标第二检测框的各边界之间的偏移量,即可确定两个目标第二检测框各边界的位置,从而实现相邻目标物体的准确识别。
优选地,本实施例的方法还可以包括从确定的各所述目标第二检测框中去除多余重叠的目标第二检测框。具体地,可以使用NMS、贪心算法或其他优化算法来删掉多余的重叠检测框。
可见,本实施例在通过第一检测网络进行粗检测的基础上,增加了第二检测网络进行精细检测,该第二检测网络能够检测出目标裁剪图像中各像素点的中心度,当某个像素点的中心度大于预设的概率阈值时,则将该像素点作为目标像素点,以表示目标裁剪图像中对应待检目标物体的中心点,根据中心点的数量即可确定目标物体(也即目标第二检测框)的数量,再结合该像素点与对应目标第二检测框的各边界之间的偏移量,即可对相应目标第二检测框进行定位,按照这种方式,可以准确定位目标裁剪图像中的每一个目标物体,从而解决相邻物体难以准确区分的问题。
实施例2
本实施例是对实施例1的进一步改进,如图3所示,本实施例具体限定了第一检测网络的训练过程如下:
S21,获取第一样本集,所述第一样本集包括若干第一样本图像以及第一检测框金标准。
在本实施例中,可以从PACS(Picture Archiving and Communication Systems,图像归档和通信***)获取第一样本图像,也可以从图像采集设备中实时地获取第一样本图像。
可选地,第一样本图像可以为计算机断层扫描(Computed Tomography,CT)图像,也可以为磁共振(Magnetic Resonance Imaging,MRI)图像,也可以为低剂量的正电子发射计算机断层显像(Positron Emission Computed Tomography/Magnetic ResonanceImaging,PET)图像或其它模态图像,本实施例并不对第一样本图像的模态进行具体限制,但应该理解,第一样本图像的模态应该与前述待检测图像的模态一致。
S22,将所述第一样本图像输入预设的第一检测网络CNN1,得到第一预测检测框的中心位置、尺寸以及置信度。
例如,当第一样本图像为2D图像时,第一检测网络CNN1将得到第一预测检测框的中心位置坐标(x,y)、二维尺寸(w,h)以及置信度(p),并输出置信度p大于置信度阈值p0的所有第一预测检测框作为预测结果。当第一样本图像为3D图像时,第一检测网络CNN1将得到第一预测检测框的中心位置坐标(x,y,z)、二维尺寸(w,h,d)以及置信度(p),并输出置信度p大于置信度阈值p0的所有第一预测检测框作为预测结果。
可选地,在将第一样本图像输入第一检测网络CNN1之前,本实施例还包括对第一样本图像进行预处理。其中,预处理过程与待检测图像的预处理过程一致。
S23,根据第一检测网络CNN1输出的所述第一预测检测框的中心位置、尺寸、置信度、以及对应的所述第一检测框金标准,计算第一模型损失。
在本实施例中,采用手工标注的第一检测框金标准(包括中心位置、尺寸、置信度)作为第一检测网络的金标准,以计算对应的第一模型损失。
S24,根据所述第一模型损失,对所述第一检测网络进行迭代训练,直至第一模型损失收敛或者达到预设的迭代次数。
在本实施例中,第一模型损失的函数根据第一检测网络的具体结构而定。
通过本实施例训练得到的第一检测网络能够准确得到待检测图像中第一预测检测框的中心位置、尺寸以及置信度。
实施例3
本实施例是对实施例1或2的进一步改进。如图4所示,本实施例具体限定了第二检测网络的训练过程如下:
S31,获取第二样本集,所述第二样本集包括若干第二样本图像以及第二检测框金标准,所述第二检测框金标准包括所述第二样本图像中标注的第二标注检测框,其中至少部分所述第二样图像中标注有两个或两个以上邻近的第二标注检测框。
在本实施例中,第二样本图像可以是对第一样本图像的特征图进行矩形裁剪得到的图像。在对第一样本图像进行裁剪时,可以对第一样本图像中的单独目标物体进行裁剪,也可以对第一样本图像中的多个相邻目标物体进行裁剪,也可以对第一样本图像中的空白区域(即不包含目标物体的区域)进行裁剪,使得第二样本图像中可能包括单个目标物体、或者多个相邻的目标物体、或者不包括目标物体,从而提高第二检测网络的鲁棒性。
S32,将所述第二样本图像输入预设的第二检测网络,得到所述第二样本图像中各像素点的预测中心度、以及各目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量,其中,所述预测中心度为对应像素点是所属的第二预测检测框的中心点的预测概率,所述第二样本图像中的目标像素点为预测中心度大于所述预设中心度阈值的像素点。
S33,根据所述第二样本图像中各像素点的预测中心度、各所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及对应的第二检测框金标准,计算第二模型损失。具体实现过程如下:
S331,获取所述第二检测框金标准,所述第二检测框金标准包括所述第二样本图像对应的若干第二标注检测框。
S332,基于所述若干第二标注检测框,计算所述第二样本图像中各像素点的标准中心度,其中,所述标准中心度为对应像素点是所属的第二标注检测框的中心点的标准概率。
具体地,当所述第二样本图像为2D图像时,通过如下公式计算所述第二样本图像中所述第二标注检测框内各像素点的标准中心度C:
其中,l*、r*、u*、d*分别表示对应像素点与所述第二标注检测框内左、右、上、下边界的距离。
当所述第二样本图像为3D图像时,通过如下公式计算所述第二样本图像中所述第二标注检测框内各像素点的标准中心度C:
其中,l*、r*、u*、d*、f*、b*分别表示对应像素点与所述第二标注检测框内左、右、上、下、前、后边界的距离。
当所述第二样本图像为2D或3D图像时,所述第二样本图像中所述第二标注检测框之外的各像素点的标准中心度C均为0。
当所述第二样本图像中某像素点同时位于n个(n大于1)第二标注检测框内时,该像素点的中心度C为:C=max(C1,C2,…,Cn),其中,Ci表示基于第i个第二标注检测框获取的该像素点的中心度,即Ci为该像素点是第i个第二标注检测框的中心点的概率,max(C1,C2,…,Cn)表示取C1,C2,…,Cn中的最大值。
S333,计算每个所述目标像素点与所属的第二标注检测框的各边界之间的标准偏移量。
具体地,当某像素点的中心度大于预设中心度阈值c0时,该像素点即为目标像素点,通过计算该像素点与对应第二标注检测框的各边界之间的距离即可得到所述标准偏移量。
S334,根据所述第二样本图像中每个所述像素点的预测中心度、每个所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及每个所述像素点的标准中心度、每个所述目标像素点与所属的第二标注检测框的各边界之间的标准偏移量,计算所述第二模型损失。
在本实施例中,第二模型损失可以采用L1、L2或其他回归损失。
S34,根据所述第二模型损失,对所述第二检测网络型进行迭代训练,直至第二模型损失收敛或者达到预设的迭代次数。
通过本实施例训练得到的第二检测网络能够准确定位待检测图像中目标第二预测检测框的位置。
实施例4
本实施例提供一种基于深度学习的目标检测***,如图5所示,该***包括:图像获取模块11、第一检测网络处理模块12、特征提取模块13、裁剪模块14、第二检测网络处理模块15、目标检测模块16。下面分别对上述各个模块的功能进行详细描述:
图像获取模块11用于获取待检测图像。
在本实施例中,可以从PACS(Picture Archiving and Communication Systems,图像归档和通信***)获取待检测图像,也可以从图像采集设备中实时地获取待检测图像。
可选地,待检测图像可以为计算机断层扫描(Computed Tomography,CT)图像,也可以为磁共振(Magnetic Resonance Imaging,MRI)图像,也可以为低剂量的正电子发射计算机断层显像(Positron Emission Computed Tomography/Magnetic ResonanceImaging,PET)图像或其它模态图像,本实施例并不对待检测图像的模态进行具体限制。
第一检测网络处理模块12用于通过预先训练的第一检测网络对所述待检测图像进行处理,得到目标第一检测框。
在本实施例中,第一检测网络CNN1可以是Fast-RCNN、Retina-Net、Yolo等任意合适的一阶或多阶检测网络。将待检测图像输入第一检测网络CNN1进行粗检测处理,将得到若干第一检测框的中心位置、尺寸和置信度;当某个所述第一检测框的置信度大于预设的置信度阈值时,确定该第一检测框为所述目标第一检测框,如图2所示。其中,目标第一检测框内可能包括不只一个相邻目标物体。
可选地,在将待检测图像输入第一检测网络CNN1之前,本实施例还包括对待检测图像进行预处理,例如,进行取窗宽窗位、像素归一化、高斯滤波等预处理,以减少噪声对网络的干扰,使图像特征更加鲜明,降低学习的难度。
特征提取模块13用于提取所述待检测图像的特征图。
在本实施例中,可以通过多个对称跳跃连接的残差块来提取待检测图像的多尺度特征图,以保证图像特征在浅层和深层的有效抽取。
裁剪模块14用于对所述待检测图像的特征图进行裁剪,得到包含所述目标第一检测框的目标裁剪图像。
在本实施例中,裁剪方式包括但不限于采用ROI Pooling或ROI Align等进行裁剪。具体地,以所述目标第一检测框的中心位置为中心、以所述目标第一检测框的尺寸的m倍为裁剪尺寸,对所述待检测图像的特征图进行裁剪,其中,m>=1。例如,得到的目标裁剪图像如图2所示。
第二检测网络处理模块15用于将所述目标裁剪图像输入预先训练的第二检测网络,得到所述目标裁剪图像中各像素点的中心度、以及各目标像素点与所属的目标第二检测框的各边界之间的偏移量,其中,所述中心度为对应像素点是第二检测框的中心点的概率,所述目标像素点为中心度大于预设中心度阈值的像素点(属于0-1之间)。
当目标裁剪图像输入第二检测网络CNN2时,如图2所示,可以得到目标裁剪图像的中心度图,还可以得到各目标像素点与该目标像素点所属的第二检测框的各边界之间的偏移量(即偏移像素数)。
优选地,在将所述目标裁剪图像输入第二检测网络之前,可预先对其进行插值处理以使其分辨率与待检测图像的分辨率相同。
目标检测模块16用于根据各所述目标像素点与所属的目标第二检测框的各边界之间的偏移量,确定各所述目标第二检测框。
例如,当目标裁剪图像中有像素点A和B的中心度大于预设中心度阈值时,则认为目标裁剪图像中有两个单独的目标物体,像素点A和B分别为两个目标物体的中心,则根据像素点A、B的坐标位置以及像素点A、B与目标第二检测框的各边界之间的偏移量,即可确定两个目标第二检测框各边界的位置,从而实现相邻目标物体的准确识别。
优选地,本实施例的方法还可以包括从确定的各所述目标第二检测框中去除多余重叠的目标第二检测框。具体地,可以使用NMS、贪心算法或其他优化算法来删掉多余的重叠检测框。
可见,本实施例在通过第一检测网络进行粗检测的基础上,增加了第二检测网络进行精细检测,该第二检测网络能够检测出目标裁剪图像中各像素点的中心度,当某个像素点的中心度大于预设的概率阈值时,则将该像素点作为目标像素点,以表示目标裁剪图像中对应待检目标物体的中心点,根据中心点的数量即可确定目标物体(也即目标第二检测框)的数量,再结合该像素点与对应目标第二检测框的各边界之间的偏移量,即可对相应目标第二检测框进行定位,按照这种方式,可以准确定位目标裁剪图像中的每一个目标物体,从而解决相邻物体难以准确区分的问题。
本实施例中第一检测网络和第二检测网络的训练过程参考实施例2和3所示。
实施例5
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1、2或3提供的基于深度学习的目标检测方法。
图6示出了本实施例的硬件结构示意图,如图6所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同***组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1、2或3所提供的基于深度学习的目标检测方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1、2或3所提供的基于深度学习的目标检测方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1、2或3所述的基于深度学习的目标检测方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种基于深度学习的目标检测方法,其特征在于,包括:
获取待检测图像;
通过预先训练的第一检测网络对所述待检测图像进行处理,得到目标第一检测框;
提取所述待检测图像的特征图;
对所述待检测图像的特征图进行裁剪,得到包含所述目标第一检测框的目标裁剪图像;
将所述目标裁剪图像输入预先训练的第二检测网络,得到所述目标裁剪图像中各像素点的中心度、以及各目标像素点与所属的目标第二检测框的各边界之间的偏移量,其中,所述中心度为对应像素点是第二检测框的中心点的概率,所述目标像素点为中心度大于预设中心度阈值的像素点;
根据各所述目标像素点与所属的目标第二检测框的各边界之间的偏移量,确定各所述目标第二检测框。
2.根据权利要求1所述的目标检测方法,其特征在于,所述通过预先训练的第一检测网络对所述待检测图像进行处理,得到目标第一检测框,包括:
将所述待检测图像输入所述第一检测网络,得到若干第一检测框的中心位置、尺寸和置信度;
当某个所述第一检测框的置信度大于预设的置信度阈值时,确定该第一检测框为所述目标第一检测框。
3.根据权利要求1所述的目标检测方法,其特征在于,所述对所述待检测图像的特征图进行裁剪,得到包含所述目标第一检测框的目标裁剪图像,包括:
以所述目标第一检测框的中心位置为中心、以所述目标第一检测框的尺寸的m倍为裁剪尺寸,对所述待检测图像的特征图进行裁剪,其中,m>=1。
4.根据权利要求1所述的目标检测方法,其特征在于,所述方法还包括:
从各所述目标第二检测框中去除重叠的目标第二检测框。
5.根据权利要求1所述的目标检测方法,其特征在于,所述第一检测网络的训练过程如下:
获取第一样本集,所述第一样本集包括若干第一样本图像以及第一检测框金标准;
将所述第一样本图像输入预设的第一检测网络,得到第一预测检测框的中心位置和尺寸;
根据所述第一预测检测框的中心位置和尺寸、以及对应的所述第一检测框金标准,计算第一模型损失;
根据所述第一模型损失,对所述第一检测网络进行训练。
6.根据权利要求1所述的目标检测方法,其特征在于,所述第二检测网络的训练过程如下:
获取第二样本集,所述第二样本集包括若干第二样本图像以及第二检测框金标准,所述第二检测框金标准包括所述第二样本图像中标注的第二标注检测框,其中至少部分所述第二样图像中标注有两个或两个以上邻近的第二标注检测框;
将所述第二样本图像输入预设的第二检测网络,得到所述第二样本图像中各像素点的预测中心度、以及各目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量,其中,所述预测中心度为对应像素点是所属的第二预测检测框的中心点的预测概率,所述第二样本图像中的目标像素点为预测中心度大于所述预设中心度阈值的像素点;
根据所述第二样本图像中各像素点的预测中心度、各所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及对应的第二检测框金标准,计算第二模型损失;
根据所述第二模型损失,对所述第二检测网络型进行训练。
7.根据权利要求6所述的目标检测方法,其特征在于,所述根据所述第二样本图像中各像素点的预测中心度、各所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及对应的第二检测框金标准,计算第二模型损失,包括:
基于所述第二标注检测框,计算所述第二样本图像中各像素点的标准中心度,其中,所述标准中心度为对应像素点是所属的第二标注检测框的中心点的标准概率;
计算每个所述目标像素点与所属的第二标注检测框的各边界之间的标准偏移量;
根据所述第二样本图像中每个所述像素点的预测中心度、每个所述目标像素点与所属的目标第二预测检测框的各边界之间的预测偏移量、以及每个所述像素点的标准中心度、每个所述目标像素点与所属的第二标注检测框的各边界之间的标准偏移量,计算所述第二模型损失。
8.根据权利要求7所述的目标检测方法,其特征在于,所述基于所述第二标注检测框,计算所述第二样本图像中各像素点的标准中心度,包括:
当所述第二样本图像为2D图像时,通过如下公式计算所述第二样本图像中所述第二标注检测框内各像素点的标准中心度C:
其中,l*、r*、u*、d*分别表示对应像素点与所述第二标注检测框内左、右、上、下边界的距离;
当所述第二样本图像为3D图像时,通过如下公式计算所述第二样本图像中所述第二标注检测框内各像素点的标准中心度C:
其中,l*、r*、u*、d*、f*、b*分别表示对应像素点与所述第二标注检测框内左、右、上、下、前、后边界的距离;
当所述第二样本图像为2D或3D图像时,所述第二样本图像中所述第二标注检测框之外的各像素点的标准中心度C均为0;
当所述第二样本图像中某像素点同时位于n个所述第二标注检测框内,且n大于1时,该像素点的中心度C为:C=max(C1,C2,…,Cn),其中,Ci表示基于第i个所述第二标注检测框获取的该像素点的中心度。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518366.8A CN113240638B (zh) | 2021-05-12 | 2021-05-12 | 基于深度学习的目标检测方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518366.8A CN113240638B (zh) | 2021-05-12 | 2021-05-12 | 基于深度学习的目标检测方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240638A true CN113240638A (zh) | 2021-08-10 |
CN113240638B CN113240638B (zh) | 2023-11-10 |
Family
ID=77133732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110518366.8A Active CN113240638B (zh) | 2021-05-12 | 2021-05-12 | 基于深度学习的目标检测方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240638B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658273A (zh) * | 2021-08-19 | 2021-11-16 | 上海新氦类脑智能科技有限公司 | 一种基于空间感知的场景自适应目标定位方法和*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190272438A1 (en) * | 2018-01-30 | 2019-09-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for detecting text |
CN111091091A (zh) * | 2019-12-16 | 2020-05-01 | 北京迈格威科技有限公司 | 目标对象重识别特征的提取方法、装置、设备及存储介质 |
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
-
2021
- 2021-05-12 CN CN202110518366.8A patent/CN113240638B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190272438A1 (en) * | 2018-01-30 | 2019-09-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for detecting text |
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
CN111091091A (zh) * | 2019-12-16 | 2020-05-01 | 北京迈格威科技有限公司 | 目标对象重识别特征的提取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
***;何冉;: "基于深度神经网络的遥感图像飞机目标检测", 计算机工程, no. 07 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658273A (zh) * | 2021-08-19 | 2021-11-16 | 上海新氦类脑智能科技有限公司 | 一种基于空间感知的场景自适应目标定位方法和*** |
CN113658273B (zh) * | 2021-08-19 | 2024-04-26 | 上海新氦类脑智能科技有限公司 | 一种基于空间感知的场景自适应目标定位方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN113240638B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462200B (zh) | 一种跨视频行人定位追踪方法、***及设备 | |
US10891473B2 (en) | Method and device for use in hand gesture recognition | |
US7787683B2 (en) | Tree structure based 2D to 3D registration | |
CN110363817B (zh) | 目标位姿估计方法、电子设备和介质 | |
CN110136153B (zh) | 一种图像处理方法、设备及存储介质 | |
US20200226392A1 (en) | Computer vision-based thin object detection | |
US20130322720A1 (en) | Apparatus and method for parsing human body image | |
CN113743385A (zh) | 一种无人船水面目标检测方法、装置及无人船 | |
CN109145752B (zh) | 用于评估对象检测和跟踪算法的方法、装置、设备和介质 | |
CN111275040A (zh) | 定位方法及装置、电子设备、计算机可读存储介质 | |
CN115496923B (zh) | 一种基于不确定性感知的多模态融合目标检测方法及装置 | |
CN111696133A (zh) | 一种实时目标跟踪方法及*** | |
CN112116635A (zh) | 一种基于快速人体移动的视觉跟踪方法及装置 | |
CN114820639A (zh) | 基于动态场景的图像处理方法、装置、设备及存储介质 | |
CN115797929A (zh) | 基于双注意力机制的小型农田图像分割方法、装置 | |
CN116152266A (zh) | 一种穿刺针超声图像的分割方法、装置和*** | |
CN113240638B (zh) | 基于深度学习的目标检测方法、设备及介质 | |
CN118015190A (zh) | 一种数字孪生模型的自主构建方法及装置 | |
CN114119695A (zh) | 一种图像标注方法、装置及电子设备 | |
CN111709269B (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
CN112884804A (zh) | 行动对象追踪方法及相关设备 | |
US20220155441A1 (en) | Lidar localization using optical flow | |
CN115223173A (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN112184766B (zh) | 一种对象的跟踪方法、装置、计算机设备和存储介质 | |
US20220245860A1 (en) | Annotation of two-dimensional images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |