CN110516681A - 影像特征提取方法及其显著物体预测方法 - Google Patents
影像特征提取方法及其显著物体预测方法 Download PDFInfo
- Publication number
- CN110516681A CN110516681A CN201810487011.5A CN201810487011A CN110516681A CN 110516681 A CN110516681 A CN 110516681A CN 201810487011 A CN201810487011 A CN 201810487011A CN 110516681 A CN110516681 A CN 110516681A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- characteristic pattern
- neural network
- operation layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种类神经网络的影像特征提取方法及其显著物体预测方法,适用于环景影像,包含下列步骤:将环景影像投影至立方模型以产生包含多个图像且彼此具有链接关系的图像组;以图像组作为类神经网络的输入,其中,当类神经网络的运算层对其中多个图像进行填补运算时,根据连结关系由多个图像中的相邻图像取得须填补的数据,以保留图像边界部分的特征;以及由类神经网络的运算层的运算而产生填补特征图,并由填补特征图中提取影像特征图。
Description
技术领域
本发明是关于一种类神经网络的影像特征提取方法及其显著物体预测方法,运用本发明的经由立方模型(Cube model)进行立方填补(Cube padding)的图像处理方式,使影像在极点的特征表现完整且不失真,以符合使用者的需求。
背景技术
近年来,影像拼接技术开始蓬勃发展,且360度环景影像是当今被广泛应用的一种影像呈现方式,因为其可无死角的对应各个方位故可运用在各个领域上,并再套用于现今的机器学习方式,可研发出无死角的预测与学习。
但由于现今环景影像大多是等距圆柱投影方法(EQUI)即为方格投影,但等距圆柱投影会造成图像在南北极(极点附近)的扭曲也会产生多余的像素(即失真),也产生物体辨识及应用的不便,以计算机视觉的***处理这些影像时,也会因为投影的扭曲降低预测的精准度。
因此,在环景影像的显著度预测上,如何能在机器学习的训练架构中,更有效率的处理环景影像极点失真问题,并更快速且精准的产生输出特征值将是相关图像处理厂商所希望达成之目标,因此,本发明的发明人思索并设计一种影像特征提取方法并透过机器学习的方式与现有的技术做比较,并针对现有技术的缺失加以改善,进而增进产业上之实施利用。
发明内容
有鉴于上述现有技术的问题,本发明的目的就是在提供一种影像特征提取方法及其显著物体预测方法,以解决现有技术影像修补方法修补出来的对象可能仍有瑕疵或是不自然失真的无法提取图像特征值的缺陷。
根据本发明的目的,提出一种影像特征提取方法及其显著物体预测方法,其包含以下步骤:于将环景影像投影至立方模型(Cube model)以产生包含多个图像且彼此具有链接关系的图像组(Image stack);以图像组作为该类神经网络(Convolution NeuralNetworks,CNN)的输入,其中,当类神经网络的运算层(Operation layer)对其中多个图像进行填补运算(Padding)时,根据连结关由多个图像中的相邻图像(Neighboring images)取得须填补的数据,以保留图像边界部分的特征;以及由类神经网络的运算层的运算而产生填补特征图(Padded feature map),并由填补特征图中提取影像特征图,影像特征图并运用静态模型再提取静态显著物体图,也可在类神经网络的运算层中***长短期记忆神经网络运算层(long short-term memory,LSTM)的运算产生填补特征图,并在运用损失方程式(Loss function)对填补特征图进行修正后,进而产生的动态显著物体图。
优选地,环景影像可包含任何具有360度视角的影像呈现方式。
优选地,立方模型不局限除了本发明的立方六面模型,也可包含延伸到具有多边形模型,例如,八面模型及十二面模型等。
优选地,多个图像且彼此具有链接关系的图像组(Image stack),其连接关系的连接方式运用其立方模型并将环景影像放入立方模型之中进行投影的预处理(Pre-process),此预处理将立方模型的六面的面与面之间相对应图像边界运用重迭方法(Overlap)的方式进行,使其在类神经网络训练中在进行调整。
优选地,多个图像可包含任何将环景影像投影至立方模型且具有链接关系的多个图像所形成的图像组,且图像组之间有依连接关系产生的相对性位置的多个图像。
优选地,图像组确认连接关系的多个图像并运用如上述其经过预处理(Pre-process)的立方模型后,并依此图像组做为类神经网络(CNN)的输入。
优选地,其图像组运用类神经网络的运算层训练,在训练过程中会运用运算层(Operation layer)进行影像特征提取训练,并在训练的同时对经过立方模型且具有链接关系的多个图像所形成的图像组中的相邻图像(Neighboring images)进行填补运算(Padding)即为立方填补(cube padding),其相邻图像为立方模型中面与面之间的图像即为相邻图像,如此每一个图像组在类神经网络的运算层训练皆有至少相对应的上方、下方、左方、右方的四方相邻图像,依据其相邻图像的重迭关系并确认其图像边界的特征值,并运用其运算层的边界再进一步确认其图像边界的边界范围。
优选地,对运算层的范围可进一步包含图像的相邻图像取得须填补的数据的范围由运算层之一过滤器(Filter)的维度(Dimension)所控制。
优选地,图像组在经过类神经网络的运算层训练中确认相邻图像的标示与重迭关系后即为填补特征图,在本发明调整图像组在经过类神经网络的运算层训练中确认相邻图像的标示与重迭关系使其在类神经网络训练过程中在特征抓取与效率上有优化的表现。
优选地,运算层对该图像组进行运算时,可进一步包含产生彼此具有上述连结关系的多个填补特征图。
优选地,在图像组在经过类神经网络的运算层训练中确认相邻图像的表示与重迭关后即为填补特征图,在经由后处理模块(Post-process),此后处理模块对填补特征图中运用最大池化(Max-pooling)、反向投影(Inverse projection)以及升频(Up-sampling)等处理方法把经过类神经网络的运算层的填补特征图提取出影像特征图。
优选地,并对其影像特征图进行静态模型(Static model,Ms)修正后对其提取静态显著物体图,其静态模型修正在影像特征图运用标示真值(Ground truth,GT)来确认影像特征的方式并对各图像的画素进行显著性评分(Saliency scoring)即为静态显著物体图(Static saliency map,)。
优选地,本发明使用其显著性评分方法需先经过扫描曲线下面积方法如本发明提及的线性相关系数(Linear Correlation Coefficient,CC)、贾德曲线下面积方法(AUC-Judd,AUC-J)以及多波曲线下面积方法(AUC-Borji,AUC-B)皆为举例的扫描曲线下面积方法,故本发明皆可适用于任一扫描曲线下面积方法,并在经过扫描曲线下面积方法过后才可对其抓取影像特征图进行一显著性评分。
优选地,显著性评分,主要调整再优化本发明的影像特征提取方法在静态模型以及***长短期记忆神经网络运算层的动态模型之中,并可同时从评分上再比较现有技术方法以及基线(Baseline),例如零填补(Zero-padding)、运动幅度(Motion Magnitude)、一致性显著影像(ConsistentVideoSal)以及显著神经(SalGAN),并确认此本发明从显著性评分此客观的方法中可明显展现出卓越的分数。
优选地,其图像组经由类神经网络的运算层训练可***在长短期记忆神经网络运算层中产生的两个具有时间连续性特征的填补特征图,且其图像组具有与上述所说明的立方模型且具有链接关系的多个图像所形成的图像组表示之。
优选地,其图像组经由类神经网络的运算层训练可***在长短期记忆神经网络运算层中产生的具有时间连续性特征的填补特征图,经过长短期记忆神经网络运算层的两个连续填补特征图需再运用损失方程式进行修正,其损失方程式主要强化两个连续填补特征图的时间一致性。
优选地,运算层对多个图像进行运算时,可进一步包含产生彼此具有连结关系的多个填补特征图,形成该填补特征图组。
优选地,运算层可进一步包含卷积层(Convolutional layer)、池化层(Poolinglayer)以及长短期记忆神经网络运算层(LSTM)。
根据本发明的另一目的,提出一种显著物体预测的方法,适用于环景影像,包含下列步骤:提取环景影像的影像特征图,作为静态模型;对静态模型中各图像的画素进行显著性评分,而取得静态显著物体图;并在运算层中加入以长短期记忆神经网络运算层,将不同时间的多个静态显著物体图加以聚集,再经由显著性评分而取得一动态显著物体图;以及以损失方程式,根据先前时间点的动态显著物体图对当前时间点的动态显著物体图进行优化,以作为环景影像的显著物体预测结果。
综上所述,依本发明的影像特征提取方法及显著物体预测方法,其可具有一或多个下述优点:
(1)此影像特征提取方法及其显著物体预测方法,能利用环景影像为基础并运用立方模型方式进而使其极点影像特征图不扭曲失真,立方模型中参数能调整图像重迭范围而成型的深度网络架构,进而减少失真度以提升影像特征图抓取质量。
(2)此影像特征提取方法及其显著物体预测方法,能够经由卷积神经网络并对影像进行修补,再运用热影像作为完成影像输出,使得修补完成的影像能更接近实际影像,减少影像当中不自然画面的情况发生。
(3)此影像特征提取方法及其显著物体预测方法,能适用在任何全景摄影及虚拟现实之辅助当中,也不会因为庞大的运算量阻碍了装置的操作,提升了使用上的普及性。
(4)此影像特征提取方法及其显著物体预测方法,在输出效果上皆能与习知的影像填补方法在显著性评分上皆能表现得更优化。
附图说明
图1为本发明实施例的影像特征提取方法的步骤图。
图2为本发明实施例的影像特征提取方法环景影像输入经过类神经网络训练过后的静态模型与***长短期记忆神经网络运算层的对应关系分配图。
图3为本发明实施例的影像特征提取方法的运算模块示意图。
图4为本发明实施例的影像特征提取方法的VGG-16神经网络训练模型。
图5为本发明实施例的影像特征提取方法的ResNet-50神经网络训练模型。
图6为本发明实施例的影像特征提取方法的立体影像示意图。
图7为本发明实施例的影像特征提取方法的环景影像实线与立方模型网格线表示图。
图8为本发明实施例的影像特征提取方法的立体影像之六面分配图。
图9为本发明实施例的影像特征提取方法的立方填补与零填补实际比较图。
图10为本发明实施例的影像特征提取方法的长短期记忆神经网络运算层方块图。
图11A-11D为本发明实施例的影像特征提取方法的实际抓取效果图。
图12A及12B为本发明实施例的比较影像特征提取方法的实际抓取特征热地图及实际平面图。
图13A及13B为本发明实施例的影像特征提取方法的不同影像来源实际抓取特征及热地图。
附图标记说明
S101、S102、S103、S104、S105:步骤
201:静态模型
202:时间模型
203、3013:预处理模块
204:类神经网络训练
205、3012:后处理模块
206、100a:长短期记忆神经网络运算层
207、3011:损失模块
301:模块
400a:VGG-16神经网络训练模型
500a:ResNet-50神经网络训练模型
601:环景影像
602、1202:立方模型
603:解决边界问题
604:影像特征图
605:特征图应用
701:立方模型示意图
702:零填补方法的立方网格线图
703:立方填补方法的立方网格线图
801:立方展开图
802:图像边界重迭示意图
803:F面示意图
901:立方填补
902:零填补
903a、903b:立方面
1201、1304:等距圆柱投影方法
1203、Ours:影像特征提取方法
1301:特向特征图
1302:实际热地图
1303:正常视野图
1305:立方填补模型方法
1306:Drone
1307:Wild-360
B、D、F、L、R、T:立方模型的六面
NFoVs:正常视野图
P1、P2、P3:对应点
Size:尺寸
Pool/2:池化层
GT、1204:真值
Frame、1205:实际平面图
Time:时间轴
具体实施方式
本发明配合附图,并以实施例的表达形式详细说明如下:如图1所示,其分别为本发明的撷取影像的影像特征提取方法的实施例的方法图,包含以下步骤(S101-S105):
步骤S101:输入一360度环景影像,该360度环景影像可通过各种影像捕获设备取得,例如,wild-360及Drone等。
步骤S102:运用一预处理模块(Pre-process)建立多个图像且彼此具有链接关系的图像组(Image stack)。例如,预处理模块3013将立方模型的六面当作一对应环景影像的对应多个图像,其连接关系图像边界运用重迭方法(Overlap)的方式进行,此预处理模块3013表示可如图3中的预处理模块3013表示,当中的环景影像It系经过预处理模型P过后,产生一对应于立方模型下的环景影像It。此立方模型可如图7所示,其中,立方模型701从当中的环景影像用圆形网格线表示,并对应立方模型的B面、D面、F面、L面、R面、T面的六面表示,连接关系除了步骤S101提及的重迭方法(Overlap)外并进一步包含确认一相邻图像,并从立方模型903中可看出对应一F面的立方模型示意图,并在确认连接关系的多个图像并运用如上述其经过预处理模块(Pre-process)的立方模型后即形成图像组,并依此图像组做为类神经网络(CNN)的输入。
步骤S103:以图像组进行类神经网络训练,其类神经网络训练过程会在之后类神经网络训练流程中提及,其中在类神经网络训练的运算层的范围可进一步包含该图像的相邻图像取得须填补的数据的范围由该运算层之一过滤器(Filter)的维度(Dimension)进一步控制相邻图像的图像边界的重迭(Overlap),并从类神经网络训练过程中在特征抓取与效率上有找出优化的表现。图像组再经过类神经网络训练过后,产生一填补特征图,并从图8中可说明其立方填补(Cube padding)及相邻图像可从立方模型801、802、803说明,例如从立方模型801为立方模型展开图表示,当中的F面为一面,其对于F面所相邻的四面为T面、L面、R面、D面表示,且可进一步从立方模型802表示图像之间的重迭,其填补特征图将图像组当作输入图像,并在立方填补时运用神经网络训练的运算层中维度调整过后的一输出图像即填补特征图。
步骤S104:用一后处理模块(Post-process)对填补特征图中运用最大池化(Max-pooling)、反向投影(Inverse projection)以及升频(Up-sampling)等处理方法把经过类神经网络的运算层的填补特征图提取出影像特征图,再经过扫描曲线下面积方法,如线性相关系数(Linear Correlation Coefficient,CC)、贾德曲线下面积方法(AUC-Judd,AUC-J)以及多波曲线下面积方法(AUC-Borji,AUC-B),其皆为举例的扫描曲线下面积方法。故本发明皆可适用于任一扫描曲线下面积方法,并在经过扫描曲线下面积方法过后才可对其抓取影像特征图。
步骤S105:对其经过扫描曲线下面积方法过后才可对其抓取影像特征图进行显著性评分,主要调整再优化本发明的影像特征提取方法在静态模型以及***长短期记忆神经网络运算层的动态模型之中,并可同时从评分上再比较现有技术方法以及基线(Baseline),例如零填补(Zero-padding)、运动幅度(Motion Magnitude)、一致性显著影像(ConsistentVideoSal)以及显著神经(SalGAN),并确认此本发明从显著性评分此客观的方法中可明显展现出卓越的分数。
在步骤S102中,进入类神经网络(CNN)训练的图像组,即本发明的类神经网络训练系运用如图5所示的500a为VGG-16及图6所示的600a为ResNet-50两种类神经网络训练模型进行训练,进行类神经网络训练之中的运算层包含卷积层(Convolutional layer)以及池化层(Pooling layer)的训练,在卷积层中有使用7×7、3×3以及1×1的卷积核。图中以英文缩写及数字对各卷积层命名及分组。
如图4与图5所示,本发明的影像特征提取方法的类神经网络训练模型,图4为VGG-16神经网络训练模型400a和图5为ResNet-50神经网络训练模型500a当中的运算层包含卷积层与池化层,此该运算层的范围由过滤器(Filter)的维度(Dimension)所控制,且控制此运算层的范围同时控制立方填补的边界范围。
在400a中VGG-16神经网络训练模型使用3×3的卷积核其中第一组包含两个第一卷积层3×3conv,64、尺寸Size:224及第一跨跃卷积层即第一池化层pool/2;第二组包含两个第二卷积层conv,128、尺寸Size:112及第二跨跃卷积层即第二池化层pool/2;第三组包含三个第三卷积层3×3Conv,256、尺寸Size:56及第三跨跃卷积层即第三池化层pool/2;第四组包含三个第四卷积层3×3conv,512、尺寸Size:28及第四跨跃卷积层即第四池化层pool/2;第五组包含三个第五卷积层3×3conv,512、尺寸Size:14及第五跨跃卷积层即第五池化层pool/2;第六组则尺寸Size:7下即进行分辨率扫描。这样的分组表示经过该组产生后的填补特征图是相同维度的,Size数字即为分辨率,运算层后的数字则代表特征维度,该维度控制此运算层的范围亦同时控制本发明的立方填补的边界范围。在这当中,卷积层与池化层两者目的皆在于将前一层产生的信息再进一步混合与扩散,随着越后层的感受野(Receptive field)逐渐扩大,期望捕捉到图像在不同层次下的特征。跨越卷积层不同于正常卷积层之处在于跨跃步长设定为2,经过该层后的填补特征图的尺寸自然减半,达成更有效信息交换同时降低了运算复杂度。
经过400a中VGG-16神经网络训练模型卷积层卷积层的用途在于将前一层的信息逐层整合,让逐渐减小的填补特征图分辨率扩增回原始输入分辨率,因此将放大倍率设定为2。另外,在此设计上同时使用池化层做链接将前面对应分辨率的填补特征图串上目前卷积的结果继续向后传递,目的在于将最前几层保有强烈物体结构信息用来提示及辅助卷积层的生成结果,使其能尽量接近原图结构。本实施例的生成模型可将图像输入后,通过上述卷积、转换而输出产生影像,但本发明卷积层的形式与层数不局限于图中所述的架构,对于不同分辨率图像而对生成模型的卷积层类型及层数作出的调整,也应包含于本申请的范围当中。
经过在500a中ResNet-50神经网络训练模型使用类神经网络训练模型有使用7×7、3×3以及1×1的卷积核,其中第一组包含第一卷积层7×7卷积核conv,64/2及第一跨跃卷积层即第一最大池化层max pool/2;第二组在尺寸Size:56下包含三组运算层每组中皆包含三个第二卷积层1×1Conv,64、第二卷积层3×3conv,64、第二卷积层1×1conv,64并在卷基层间(实线表示)及跨跃卷积层间(虚线表示)皆运用第二最大池化层max pool/2做连结;第三组在尺寸Size:28下包含三组运算层每组中皆包含三个第三卷积层第一个第三卷基层其中各自为1×1conv,128/2、3×3conv,64以及1×1conv,512,第二个第三卷积层1×1conv,128、3×3conv,128以及1×1conv,512,第三个第三卷积层1×1conv,128、3×3conv,128以及1×1conv,512、及卷基层间及跨跃卷积层皆运用第三最大池化层max pool/2做连结;第四组在尺寸Size:14下包含三组运算层每组中皆包含三个第四卷积层,第一个第四卷基层其中各自为1×1conv,256/2、3×3conv,256以及1×1conv,1024,第二个第三卷积层1×1conv,256、3×3conv,256以及1×1conv,1024,第三个第三卷积层1×1conv,256、3×3conv,256以及1×1conv,1024及卷基层间及跨跃卷积层皆运用第四最大池化层max pool/2做连结;第五组在尺寸Size:7下包含三组运算层每组中皆包含三个第五卷积层,第一个第五卷基层其中各自为1×1conv,512/2、3×3conv,512以及1×1conv,2048,第二个第五卷积层1×1conv,512、3×3conv,512以及1×1conv,2048,第三个第五卷积层1×1conv,512、3×3conv,512以及1×1conv,2048及卷基层间运用第五最大池化层Max pool/2做连结及跨跃卷积层运用平均池化层avg pool/2做连结;经过一平均池化层后即到第六组则尺寸Size:7下即进行分辨率扫描,分组表示经过该组产生后的填补特征图是相同维度的,如每层后面括号数字所示,Size数字即为分辨率,运算层后的数字则代表特征维度,该维度控制此运算层的范围亦同时控制本发明之立方填补的边界范围。在这当中,卷积层与池化层两者目的皆在于将前一层产生的信息再进一步混合与扩散,随着越后层的感受野(Receptivefield)逐渐扩大,期望捕捉到图像在不同层次下的特征。跨越不同卷积层于正常卷积层之处在于跨跃步长设定为2,经过该层后的填补特征图的分辨率自然减半,达成更有效信息交换同时降低了运算复杂度。
经过500a中ResNet-50神经网络训练模型的卷积层的用途在于将前一层的信息逐层整合,让逐渐减小的填补特征图分辨率扩增回原始输入分辨率,因此将放大倍率设定为2。另外,在此设计上同时使用池化层做链接将前面对应分辨率的填补特征图串上目前卷积的结果继续向后传递,目的在于将最前几层保有强烈物体结构信息用来提示及辅助卷积层的生成结果,使其能尽量接近原图结构,当中再相同分辨率下可用一组数据段(block)当做实时影像提取处理,不需要等到整个类神经网络训练完成再做提取。本实施例的生成模型可将图像输入后,通过上述卷积、转换而输出产生影像,但本发明卷积层的形式与层数不局限于图中所述的架构,对于不同分辨率图像而对生成模型的卷积层类型及层数作出之调整,也应包含于本案的申请专利范围当中。
上述图4及图5中提及的VGG-16、ResNet-50的两种类神经网络训练模型。如《IEEE国际计算器视觉与模式识别会议(IEEE Conference on Computer Vision and PatternRecognition)》、1512.03385以及1409.1556中亦记载般,该影像特征提取方法中将环景影像经由立方模型转换并运用上述两种类神经网络训练模型进行立方填补中的并产生填补特征图。
在步骤S103中,图像组再经过类神经网络训练过后为一填补特征图,该填补特征图且需再经过一后处理模块(Post-process)对填补特征图中运用最大池化(max-pooling)、反向投影(inverse projection)以及升频(up-sampling)等处理方法把经过类神经网络的运算层的填补特征图提取出影像特征图。
在步骤S103中,该填补特征图且需再经过一后处理模(Post-process)即提取出经过类神经网络的运算层的填补特征图提取出影像特征图,该影像特征图可运用热地图(Heat map)并抓取其热领域(Heat zone)方式来确认其影像特征与实际图像特征值做比较确认是否提取正确的影像特征。
在步骤S103中,图像组再经过类神经网络训练的运算层时,可在其中***长短期记忆神经网络运算层(LSTM),并再做动态模型训练,再训练过程中需再加上损失方程式其主要强化经长短期记忆神经网络运算层训练的两个连续填补特征图的时间一致性。
如图2所示,其分别为本发明的撷取影像的影像特征提取方法的实施例的环景影像输入经过类神经网络训练过后之静态模型与动态模型流程图,该组件说明及组件连接简单描述,图2中It及It-1皆为一环景影像输入并经过预处理模块203后,即进入类神经网络训练模型204其中包含对环景影像进行立方填补CP,可得出填补特征图MS,t-1、MS,t并经过后处理模块205,即产生静态显著物体图OS t-1、OS或经过长短期记忆神经网络运算层206再经过后处理模块205后再经由损失模块207修正对应Lt-1、Lt即可得一动态显著物体图Ot-1、Ot,该组件之间关系相惜描述皆可由上述实施方式中说明及本发明提及的预处理模块203、后处理模块205、损失模块207会再下述加以描述之,其运用环景影像经由立方模型转换出六面的二维图像后并把此六面图像当作一静态模型201输出MS,并通过将从卷积层(Convolutionallayer)相乘特征Ml与完全相连的层Wfc,运用其公式如下:
MS=Ml*Wfc
当中,MS∈R6×K×w×w、Ml∈R6×c×w×w、Wfc∈Rc×K×1×1,c是通道数量,w是相应的特征宽度,「*」表示卷积运算,K是在特定分类数据集上预训练的模型的类数,为了生成静态显著图S,按照像素移动图片(Pixel-wisely)沿着维度(Dimension)的MS中的最大值。
如图3所示,说明本发明运用的模块(301),包含
损失模块(Loss,L)3011的运算模块,其经过长短期记忆神经网络运算层(LSTM)处理的动态显著物体图Ot、Ot-1及生成填补特征图mt在经过损失模块(L)会把图像损失最小化形成动态显著图Lt,其损失模块即运用一损失方程式(Loss function)进行,该损失方程式主要强化经长短期记忆神经网络运算层训练的两个连续填补特征图的时间一致性,其损失方程式会再下述说明。
后处理模块(Post-process)3012的运算模块,指经过最大池化层Max过后的逆投影(Inverse projection)P-1转换回图像后再经过升频(Upsampling)U处理,使该填补特征图Mt或热地图Ht经过投影至立方模型请经过类神经网络训练包含立方填补后须经过后处理模块可还原出经类神经网络训练的显著物体图Ot、Ot S。
预处理模块(Pre-process)3013为使用立方模型投影前须经过预处理模块,在预处理模块产生包含将一环景影像It经预处理模块(P)将多个图像且放入立方模型中让该多个图像彼此具有一链接关系形成一图像组It。
如图6所示,本发明的影像特征提取方法的立方模型的图像特征示意图与立方模型的六面分配图,图6为实际环景影像601经由立方模型示意图602后再转换成对应实际环景影像601的热影像方式603解决边界问题后再经由影像特征图604表示为其影像特征提取实际热地图(704并从P1、P2、P3对应点的实际热地图可对应并从正常视野(Normal FieldOf View)NFoVs角度表示其特征图应用605。
如图7为立方模型下的环景影像(实线表示),六面分别表示为B面、D面、F面、L面、R面以及T面并可从网格线表示立方模型示意图701与六面经由零填补方法的立方网格线图702及六面经由立方填补方法的立方网格线图703做比较可明显看出零填补方法的立方网格线图702边缘实线的扭曲,
并运用其立方模型公式如下:
当中,Sj(x,y)的(x,y)是显著性评分(saliency scoring)S在立方面j的位置处,经过此立方模型公式。
如图8为实际图像映射六面(B面、D面、F面、L面、R面以及T面)立方展开图801即可从立方模型处理顺序802确认图像重迭部分(框)并可从图像边界重迭示意图得知,并可对应立方模型F面示意图803的F面来做确认。
如图9所示,立方模型(Cube padding)方法与现有技术零填补方法(zeropadding)其特征图图像做明显度比较,从图9的抓取特征图框可明显看出经立方填补的影像特征提取方法的黑白特征图中901的白色区域明显多于经零填补的影像特征提取方法902的白色区域,并从图标中可表示出立方模型处理过后的影像比零填补技术的影像更容易抓取其影像特征,而在立方面903a、903b皆为立方模型过后的实际影像图。
综上所述,皆为静态图像处理,故会再如图2中时间模型202结合,使其静态的图像再加上时间序排列产生一连续的动态影像,该时间模202如图10长短期记忆神经网络运算层100a方块图所示,其长短期记忆神经网络运算层运作如下:
gt=tanh(Wxc*Xt+Whc*Ht-1+bc)
当中表示元素对元素的乘法,σ()是S型函数,所有W*和b*是需学习的模型参数,i是输入值,f是忽略值以及o输出值为[0,1]的控制信号,g是经过变换的输入信号,其值为[-1,-1],C是记忆单元值,H∈R6×K×w×w是作为输出和经常性输入的表示方式,MS是静态模型的输出,t是时间索引并可以在下标中用来表示时间步长。,并将上述长短期记忆神经网络运算层(LSTM)进而带入在立方填补过后的六个面(B面、D面、F面、L面、R面以及T面)。
其公式如下:
当中,是主要显著性评分在位置(x,y)经一时间步长t在立方面j的位置处,且需再经过动态一致损失(Temporal consistent loss)调整下的离散图像之间的模型相关性受到每像素位移翘曲,平滑度等的影响,因此本发明运用了3个损失函数来训练时间模型并透过时间轴来优化重建损失Lrecons、平滑损失Lsmooth、动态重建损失Lmotion,每个时间步长t的总损失函数可以表示为:
当中Lrecons为动态重建损失(Temporal reconstruction loss),Lsmooth为平滑损失(Smoothness loss),Lmotion移动遮蔽损失(Motion masking loss),经由动态一致损失调整过可以制定每个时间步长t的总损失函数,且在经由
动态重建损失方程式
动态重建损失方程式当中是由跨越不同时间步长t的相同像素应具有相似的显著性评分,这个方程式有助于将特征图更精确地修补为具有相似运动模式的对像。
平滑损失方程式
平滑损失方程式当中用于限制附近的框架具有类似的响应而没有大的改变,它也抑制了时间重建方程式与移动遮蔽损失方程式的嘈杂(Noisy)或漂移(Drifting)以及
移动遮蔽损失方程式
移动遮蔽损失方程式中运动幅度降低∈如果移动模式在长时间步长内保持稳定,这些非移动像素的视频显著性评分应该低于改变补丁(Patch)。
并将不同时间的复数个该静态显著物体图加以聚集(aggregate),再经由显著性评分而取得动态显著物体图(Temporal saliency map,),并运用损失方程式(Lossfunction),根据先前时间点的该动态显著物体图对当前时间点的该动态显著物体图进行优化,以作为环景影像的显著物体预测结果。
如图11所示,比较静态模型的影像特征提取方法与现有影像提取方法在类神经网络训练过程VGG-16与ResNet-50与加上长短期记忆神经网络运算层(LSTM)的动态模型下,且横轴为图像分辨率(像素从Full HD:1920pixel至4K:3096pixel),纵轴为每秒显示张数(FPS)。
在静态模型中比较四种影像分析方法。
1.等距圆柱投影方法(EQUI),为静态模型采用的六面立方体作为输入产生特征图(Our state)对其直接做等距圆柱投影方法。
2.立方体贴图方法(Cubemap)为静态模型采用的六面立方体作为输入产生特征图(Our state),然而,使用零填补(ZP)透过操作类神经网络运算层经过卷积层与池化层过后的维度控制该零填补的图像边界,使得立方体的表面仍有连续性的损失。
3.重迭方法(Overlap)设定一立方填补的变体使其面与面之间的角度具有120度使图像具有更多的重迭处来产生特征图,然而,使用零填补(ZP)并用于通过网络操作运算层经过卷积层(Convolution layer)与池化层(Pooling layer)过后的维度控制该零填补的图像边界,使得立方体的表面仍因零填补方法故有连续性的损失。
4.本发明的立方模型并仅将环景影像直接放入立方模型之预处理时并不作任何调整(Our static),透过操作类神经网络运算层经过卷积层与池化层。
5.本发明的影像特征提取方法(Ours),简述之本发明的方法为运用上述的立方填补模型方法1305且再进一步运用立方填补方式进行设定一重迭方法,用于通过类神经网络操作运算层经过卷积层(Convolution layer)与池化层(Pooling layer)的维度控制立方填补的边界后,使得立方体的表面无连续性的损失。
6.动态训练过程主要是本发明的影像特征提取方法(Ours),简述之本发明的方法为运用上述的立方填补模型方法且再进一步运用立方填补方式进行设定一重迭方法,用于通过类神经网络操作运算层经过卷积层(Convolution layer)与池化层(Pooling layer)的维度控制立方填补的边界后,并再之后再***长短期记忆神经网络运算层(LSTM),及运用习知等距圆柱投影方法加上长短期记忆神经网络运算层(EQUI+LSTM)。
运用上述影像特征提取方法做比较且从图上经ResNet-50神经网络训练模型以及VGG-16神经网络训练模型可明显看出随着图像分辨率的提高,其结果为立方填补模型方法1305的速度变得更接近立方贴图方法,此外,本发明的立方填补模型方法1305及重迭方法的所有静态模型测试的图像分辨率皆超过等距长方圆柱静态模型方法。
如表1所示,是上述图12A及图12B中的六种方法与基线(Baseline)经显著性评分化后的表示方式运用以下三种显著物体预测方法评估方式进行比较,其等距圆柱投影方法(EQUI)、重迭方法(Overlap)、经长短期记忆神经网络运算层(LSTM)的动态训练之比较方法与第5图示皆相同。
显著物体预测方法即并运用三种曲线下面积来做比较,一贾德曲线下面积方法(AUC-Judd,AUC-J)系通过计算视点的正误率和误判率来衡量我们的显著性预测与人类视觉标记的基本事实之间的差异及一多波曲线下面积方法(AUC-Borji,AUC-B)系对图像像素进行均匀随机采样,并将这些像素阈值以外的显著图值定义为误判以及线性相关系数(CC)相关系数是一种基于分布的度量,用于度量给定显著性图和视点之间的线性关系,系数值在-1和1之间,表示我们的输出数值和地面实况之间是具有线性关系。
从表1中除了上述图11A至图11D中的方法外即再加上本发明的影像特征提取方法(Ours),简述之本发明的方法为运用上述之立方填补模型方法1305且再进一步运用立方填补方式进行设定一重迭方法,用于通过类神经网络操作运算层经过卷积层(Convolutionlayer)与池化层(Pooling layer)的维度控制立方填补的边界后,使得立方体的表面无连续性的损失。
与其他现有基线运动幅度(Motion Magnitude)、一致性显著影像(ConsistentVideoSal)以及显著神经(SalGAN)做显著性评分比较。
从表1上的数字上可明显看出本发明之影像特征提取方法(Ours)除了在ResNet-50的类神经网络训练下分数稍比仅用我们的立方模型(Our static)低外,其余皆是最高的分数,由此得知本发明再显著性评分拥有较卓越的表现。
表1
如图12A至图12B所示,我们运用实际环景影像经过动态训练的影像图做分析从实际范围热地图中可发现经由我们的方法框线区域明显增加,代表运用本发明与现有技术做比较可从图中看出在等距圆柱投影方法1201、立方模型1202、重迭方法1203、真值1204图像特征图上系能更优化的进行图像特征抓取。
如表2所示,因为影像失真除了机器判定是否失真外,最后仍是由人眼来判定是否为失真为主要依据、故运用立方模型方法(Ours statics)、等距圆柱投影方法(EQUI)、立方体贴图方法(Cubemap)以及真值(Ground truth,GT)做比较评分,其数值估计方法采用人眼判定是否失真,如图像经人眼判定无失真当作得分(Win)而图像失真当作失分(Loss)做比较,从比分上可确定本发明的影像特征提取方法(Ours)1203评分是高于等距圆柱投影方法(EQUI)、立方体贴图方法(Cubemap)以及运用立方模型但使用零填补的方法(Oursstatics)等图像处理方法,且从人眼判定上经本发明之影像特征提取方法1203的影像特征已接近实际图。
表2
再以图12A及图12B为例,并对应图12中的影像特征提取方法1203,对应并与实际平面图1205与实际平面放大图1207同时比较,可明显看出本发明的影像特征提取方法1203主要在热地图上的表现跟其他方法比较较为显著。
再以图13A及图13B为例,运用两种环景影像Wild-360 1306与Drone1307做等距圆柱投影方法(EQUI)1304与立方填补模型方法(Ours static)1305并对其特向特征图1301做比较可明显发现比较立方填补模型方法1305在实际热地图1302与正常视野图1303以及实际平面图Frame中再有时间轴Time变化时皆在图像抓取上表现更优越。
本发明的影像特征提取方法Ours运用上述的立方填补模型方法1305且再运用立方填补方式进行设定一重迭方法,用于通过类神经网络操作运算层经过卷积层(Convolution layer)与池化层(Pooling layer)的维度控制立方填补的边界后,使得立方体的表面无连续性的损失。上述环景影像的特征提取方法及显著物体预测方法可进一步运用于环景影像智能运镜剪辑、智能监控***、机器人场域导航、人工智能对广角内容的感知与理解判定上,并不仅局限于前述实施例中的环景影像的应用。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种类神经网络的影像特征提取方法,适用于环景影像,其特征在于,包含下列步骤:
将所述环景影像投影至立方模型以产生包含多个图像且彼此具有链接关系的图像组;
以所述图像组作为类神经网络的输入,其中,当所述类神经网络的运算层对其中所述多个图像进行填补运算时,根据连结关系由所述多个图像中的相邻图像取得须填补的数据,以保留图像边界部分的特征;以及
由所述类神经网络的运算层的运算而产生填补特征图,并由所述填补特征图中提取影像特征图。
2.如权利要求1所述的影像特征提取方法,其特征在于,所述运算层对所述多个图像进行运算,进而产生彼此具有连结关系的多个填补特征图,而形成填补特征图组。
3.如权利要求2所述的影像特征提取方法,其特征在于,当所述类神经网络的运算层对所述多个填补特征图其中之一进行填补运算时,根据连结关系,由所述多个填补特征图中的相邻填补特征图取得须填补的数据。
4.如权利要求1所述的影像特征提取方法,其特征在于,所述运算层为卷积层或池化层。
5.如权利要求4所述的影像特征提取方法,其特征在于,进一步包含所述图像的相邻图像取得须填补的数据的范围由所述运算层之过滤器的维度所控制。
6.一种显著物体预测方法,适用于环景影像,其特征在于,包含下列步骤:将所述环景影像投影至立方模型以产生包含多个图像且彼此具有链接关系的图像组;
以所述图像组作为类神经网络的输入,其中,当所述类神经网络的运算层对其中所述多个图像进行填补运算时,根据连结关系由所述多个图像中的相邻图像取得须填补的数据,以保留图像边界部分的特征;
由所述类神经网络的运算层的运算而产生填补特征图,并由所述填补特征图中提取影像特征图,作为静态模型;
对所述静态模型中各图像的画素进行显著性评分,而取得静态显著物体图;并在运算层中加入以长短期记忆神经网络运算层,将不同时间的多个静态显著物体图加以聚集,再经由显著性评分而取得动态显著物体图;以及
以损失方程式,根据先前时间点的动态显著物体图对当前时间点的动态显著物体图进行优化,以作为所述环景影像之显著物体预测结果。
7.如权利要求6所述的显著物体预测方法,其特征在于,所述运算层对所述多个图像进行运算,进而产生彼此具有连结关系的多个填补特征图,而形成填补特征图组。
8.如权利要求7所述的显著物体预测方法,其特征在于,当所述类神经网络的运算层对所述多个填补特征图其中之一进行填补运算时,根据连结关系,由所述多个填补特征图中的相邻填补特征图取得须填补的数据。
9.如权利要求6所述的显著物体预测方法,其特征在于,所述运算层为卷积层或池化层。
10.如权利要求9所述的显著物体预测方法,其特征在于,进一步包含所述图像的相邻图像取得须填补的数据的范围由所述运算层之过滤器的维度所控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810487011.5A CN110516681A (zh) | 2018-05-21 | 2018-05-21 | 影像特征提取方法及其显著物体预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810487011.5A CN110516681A (zh) | 2018-05-21 | 2018-05-21 | 影像特征提取方法及其显著物体预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516681A true CN110516681A (zh) | 2019-11-29 |
Family
ID=68621971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810487011.5A Pending CN110516681A (zh) | 2018-05-21 | 2018-05-21 | 影像特征提取方法及其显著物体预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516681A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163990A (zh) * | 2020-09-08 | 2021-01-01 | 上海交通大学 | 360度图像的显著性预测方法及*** |
CN112927357A (zh) * | 2021-03-05 | 2021-06-08 | 电子科技大学 | 一种基于动态图网络的3d物体重建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3249928A1 (en) * | 2016-05-23 | 2017-11-29 | Thomson Licensing | Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices |
CN107665492A (zh) * | 2017-06-29 | 2018-02-06 | 南京信息工程大学 | 基于深度网络的结直肠全景数字病理图像组织分割方法 |
-
2018
- 2018-05-21 CN CN201810487011.5A patent/CN110516681A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3249928A1 (en) * | 2016-05-23 | 2017-11-29 | Thomson Licensing | Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices |
CN107665492A (zh) * | 2017-06-29 | 2018-02-06 | 南京信息工程大学 | 基于深度网络的结直肠全景数字病理图像组织分割方法 |
Non-Patent Citations (2)
Title |
---|
KONSTANTINOS SFIKAS ETAL.: "Exploiting the PANORAMA Representation for Convolutional Neural Network Classification and Retrieval", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/317033744》 * |
高明等: "序列全景图像的特征提取与匹配", 《合肥工业大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163990A (zh) * | 2020-09-08 | 2021-01-01 | 上海交通大学 | 360度图像的显著性预测方法及*** |
CN112163990B (zh) * | 2020-09-08 | 2022-10-25 | 上海交通大学 | 360度图像的显著性预测方法及*** |
CN112927357A (zh) * | 2021-03-05 | 2021-06-08 | 电子科技大学 | 一种基于动态图网络的3d物体重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
Li et al. | MDCN: Multi-scale dense cross network for image super-resolution | |
CN113112411B (zh) | 基于多尺度特征融合的人脸图像语义修复方法 | |
CN106127684A (zh) | 基于双向递归卷积神经网络的图像超分辨率增强方法 | |
CN101394573B (zh) | 一种基于特征匹配的全景图生成方法及*** | |
CN113012172A (zh) | 一种基于AS-UNet的医学图像分割方法及*** | |
CN106780592A (zh) | 基于相机运动和图像明暗的Kinect深度重建算法 | |
CN104463859B (zh) | 一种基于跟踪指定点的实时视频拼接方法 | |
CN111626927B (zh) | 采用视差约束的双目图像超分辨率方法、***及装置 | |
CN108648264A (zh) | 基于运动恢复的水下场景重建方法及存储介质 | |
CN105096311A (zh) | 基于gpu的深度图修复和虚实场景结合技术 | |
CN108537747A (zh) | 一种基于带对称跨层连接的卷积神经网络的图像修复方法 | |
CN113989928B (zh) | 一种动作捕捉和重定向方法 | |
CN112950475A (zh) | 一种基于残差学习及空间变换网络的光场超分辨率重建方法 | |
CN109712071A (zh) | 基于航迹约束的无人机图像拼接与定位方法 | |
CN110490797A (zh) | 一种基于双流深层卷积网络的深度图像超分辨率重建方法 | |
CN110516681A (zh) | 影像特征提取方法及其显著物体预测方法 | |
CN112184547B (zh) | 红外图像的超分辨率方法及计算机可读存储介质 | |
CN111199207A (zh) | 基于深度残差神经网络的二维多人体姿态估计方法 | |
CN115619685A (zh) | 一种用于图像修复的追踪结构的Transformer方法 | |
CN107103610A (zh) | 立体测绘卫星影像匹配可疑区域自动检测方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN114638842B (zh) | 一种基于mlp的医学图像分割方法 | |
CN116580184A (zh) | 一种基于YOLOv7的轻量化模型 | |
CN115880111B (zh) | 基于图像的虚拟仿真实训课堂教学管理方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191129 |