CN110574077A

CN110574077A - 利用虚拟三维深层神经网络的影像分析装置及方法

Info

Publication number: CN110574077A
Application number: CN201880027104.8A
Authority: CN
Inventors: 金东珉; 白钟焕; 李明宰; 孙智秀; 姜信顼; 金元泰; 金东亿
Original assignee: Jlk Yingshi Co Ltd
Current assignee: Jlk Yingshi Co Ltd
Priority date: 2017-03-24
Filing date: 2018-03-23
Publication date: 2019-12-13
Anticipated expiration: 2038-03-23
Also published as: KR102061408B1; JP6979664B2; KR20180108501A; US20210103716A1; EP3605472A1; US10970520B1; CN110574077B; JP2020513124A; EP3605472A4; WO2018174623A1

Abstract

公开了一种利用虚拟三维深层神经网络的影像分析装置及方法。影像分析装置包括：影像获取部，按预先设定的顺序堆叠多个二维影像数据；三维影像生成部，基于对来自影像获取部的堆叠形态的多个二维影像数据的不同形态的多个信息，生成多个三维数据；以及深度学习算法分析部，对来自三维影像生成部的多个三维数据分别适用二维卷积神经网络，合并针对多个三维数据的二维卷积神经网络的适用结果。

Description

利用虚拟三维深层神经网络的影像分析装置及方法

技术领域

本发明的实施例涉及利用影像重组的影像分析技术，更详细地说涉及利用虚拟三维深层神经网络的影像分析装置及方法。

背景技术

人工神经网络(artificial neural network，ANN)是体现机械学习(machinelearning)的技术之一。

一般来讲，人工神经网络由输入层(input layer)、隐藏层(hidden layer)及输出层(output layer)组成。各个层由神经元(neuron)所构成，各层神经元与之前层的神经元的输出相连接。将之前层的神经元的各个输出值与其相应的连接加权值(weight)内积(inner product)后的值加上偏差(bias)的值，放进通常为非线性(non-linear)的激活函数(activation function)中后将其输出值传送给下一层的神经元。

现有的机械学习技术是通过在输入的数据中人为设计的特征提取(featureextraction)过程获得的信息中，学习分类器(classifier)，但是人工神经网络的特征是从头到尾学习特征提取和分类器(end-to-end learning)。

卷积神经网络(convolutional neural network，CNN)在影像识别领域以凌驾于现有机械学习技术的性能而备受瞩目。卷积神经网络的结构与普通的人工神经网络的结构基本相同，额外的构成因素是卷积层(convolutional layer)与采样层(pooling layer)。

普通的卷积神经网络的结构是卷积层和采样层交替进行，经过两三个左右的全连接层(fully-connected layer)最后抵达输出层。卷积层的神经网与之前层的与所有神经元全连接(fully-connected)的人工神经网络不同，只与之前层的小区域连接(localconnectivity)。

并且，如特征图(feature map)属于切片(slice)的神经元拥有相同的值(parameter sharing)的加权值和偏差。如此执行的演算为卷积，适用加权值的集合称为滤波器(filter)或者内核(kernel)。卷积神经网络可以有效提取影像中的特征，并且通过减少参数量防止过拟合(overfitting)，提升泛化(generalization)性能。

采样层位于卷积层之间，起到减少特征图(feature map)的空间(spatial)大小的作用。并且此过程也起到通过减少参数量防止过拟合的作用。使用最多的形态是将2x2的滤波器以2的间距适用的最大池化(max-pooling)法。此过程会将特征图的大小对于宽度和高度方向各减少一半。

另一方面，现有的技术有涉及用于视觉内容基础的影像识别的深度学习框架及影像识别方法的韩国公开专利公报第10-2016-0122452号(2016.10.24公开)。但是所述技术是提供适用基本的深度学习算法模型的框架，与构成特定结构的模型多少有些差别。

发明内容

(要解决的问题)

为解决所述现有技术的问题，本发明的目的在于提供在三维空间里将二维影像重组为三维数据，并且通过旋转重组的三维数据生成另一个三维数据，然后在生成的多个三维数据分别适用二维卷积神经网络后合并，从而能够在深层神经网络容易地分析三维影像数据的影像分析装置及方法。

(解决问题的手段)

为解决所述技术问题，根据本发明的另一面的利用虚拟三维深层神经网络的影像分析装置包括：影像获取部，按预先设定的顺序堆叠多个二维影像数据；三维影像生成部，基于对来自所述影像获取部的堆叠形态的多个二维影像数据的不同形态的多个信息，生成多个三维数据；以及深度学习算法分析部，对来自所述三维影像生成部的多个三维数据分别适用二维卷积神经网络，合并针对所述多个三维数据的二维卷积神经网络的适用结果。

在一实施例中，所述三维影像生成部能够在生成所述多个三维数据前，对所述多个二维影像数据分别执行零均值化(zero-mean)或者单位方差(unit-variance)演算。

在一实施例中，所述多个不同形态的多个信息可以包括识别根据所述堆叠的二维影像数据的时间或位置的对应于移动或者模样的变化的图案。

在一实施例中，所述深度学***均的决策层融合(decision level fusion)中的某一个进行合并。

为解决所述技术问题，根据本发明的另一面的利用虚拟三维深层神经网络的影像分析方法包括：在影像获取部按预先设定的顺序堆叠多个二维影像数据的步骤；在三维影像生成部基于对堆叠形态的所述多个二维影像数据的不同形态的多个信息，生成多个三维数据的步骤；及在深度学习算法分析部对所述多个三维数据分别适用二维卷积神经网络，合并针对所述多个三维数据的二维卷积神经网络的适用结果的步骤。

在一实施例中，所述生成步骤在生成所述多个三维数据之前，对所述多个二维影像数据分别执行零均值化(zero-mean)或者单位方差(unit-variance)演算。

在一实施例中，所述合并步骤将针对所述多个三维数据的所述二维卷积神经网络的适用结果在卷积层(convolutional layer)、全连接层(fully-connected layer)、输出层(output layer)及导出最终结果的平均的决策层融合(decision level fusion)中的某一个进行合并。

为解决所述技术问题，根据本发明的另一面的利用虚拟三维深层神经网络的影像分析装置包括：影像获取部，将二维影像按照摄影位置和时间顺序堆叠；三维影像生成部，由从所述影像获取部接收的二维影像生成第一三维影像数据，为了表示所述摄影位置或者时间的轴与其余两个轴的任何一个一致，旋转所述第一三维影像数据生成第二三维影像数据；以及对由从所述三维影像生成部接收的多个三维数据分别适用二维卷积神经网络，合并对各个三维数据的适用结果的深度学习算法分析部。

在一实施例中，所述三维影像生成部能够基于对通过所述二维影像的框架之间的差异或光流得到的所述二维影像进行旋转得出的其他二维影像，生成额外的三维数据。

为解决所述技术问题，根据本发明的另一面的利用虚拟三维深层神经网络的影像分析方法包括：在影像获取部将二维影像按照摄影位置或者时间顺序堆叠的的步骤；在三维影像生成部由从所述影像获取部接收的二维影像生成第一三维影像数据，为了表示所述摄影位置或者时间的轴与其余两个轴的任何一个一致，旋转所述第一三维影像数据生成第二三维影像数据的步骤；以及对由从所述三维影像生成部接收的多个三维数据分别适用二维卷积神经网络，合并对各个三维数据的适用结果的步骤。

在一实施例中，所述生成步骤能够基于对通过所述二维影像的框架之间的差异或光流得到的所述二维影像进行旋转得出的其他二维影像，生成额外的三维数据。

(发明的效果)

根据本发明，拥有能够利用比普通的三维卷积神经网络方法拥有更少的参数的二维卷积神经网络，更加有效的学习三维数据并分析影像的优点。

并且，根据本发明，能够解决参数过多导致占太多内存，学习耗时太长，且在利用学习的模型时计算时间太长的三维卷积神经网络模型的问题，并能够提供对三维影像数据进行有效的学习和影像分析的新的影像分析模型。

附图说明

图1是示出根据本发明的实施例的利用虚拟三维深层神经网络的影像分析装置的方框图。

图2是示出公式化示出图1的影像分析装置的工作原理的示例图。

图3是示出在图1的影像分析装置能够采用的二维卷积神经网络现有的工作原理的示例图。

图4示出根据比较例的三维卷积神经网络的工作原理的示例图。

图5是示出根据本发明的另一个实施例的利用虚拟三维深层神经网络的影像分析方法的流程图。

图6是示出根据本发明的另一个实施例的利用虚拟三维深层神经网络的影像分析装置的方框图。

具体实施方式

以下，参照附图更详细地说明本发明的可取的实施例。在说明本发明时为了更便于整体地理解，对附图的相同构成因素使用相同的附图标记，对相同的构成因素的重复说明给予省略。

图1是示出根据本发明的一实施例的利用虚拟三维深层神经网络的影像分析装置的方框图。

参照图1，根据本实施例的影像分析装置100包括影像获取部110、三维影像生成部120及深度学习算法分析部130。

影像获取部110准备根据二维影像的摄影角度或时间顺序堆叠的二维影像。影像获取部110能够连接至相机、控制部、通信部等。

三维影像生成部120通过从影像获取部110接收的二维影像生成多个三维数据。作为简单的例子，三维影像生成部120能够将三维数据重组为多个，所述重组的三维数据叠层二维影像并转换为第一三维数据，将转换的第一三维数据在三维空间以任意角度，优选三维空间的三个轴(x，y，z)中的任何一个轴旋转至另一个轴的位置以便生成第二三维数据。

这表示根据预设的标准，例如将根据时间轴叠层的多个二维影像数据，根据对所述多个二维影像数据的相对的时间或位置变化，可获得不同形态的多个三维数据。即，本实施例中堆叠二维影像数据，基于堆叠的二维影像数据的时间或位置变化，分别执行多个演算获得多个三维数据。三维数据可包括三维影像数据。

并且，作为一个例子，如细胞影像的包括动态视频信息的二维影像数据在各个二维影像数据拥有形态可变化位置可变化的形态，即可进行跟踪的状态。在这里，在考虑到轮廓线时，影像识别装置在根据位置或时间的二维影像数据中提取轮廓线已变化或位置稍微变化的差异，在对二维影像数据进行三维数据化时，基于提取的信息可识别对应于动作的变化或模样变化的图案。

换句话说，将二维影像数据在X-Y平面上沿着时间轴Z方向堆叠时，堆叠的二维影像数据拥有三维数据形态，在此，从上方和侧方查看堆叠的二维影像数据会发生差异，例如从上方查看二维影像数据时，所述差异可能被识别为形态上的差异的主要差异，从侧方查看二维影像数据时，所述差异根据时间的差异被识别为对其位置的变化。如此，在本实施例中获得并利用以堆叠的二维影像数据的其他形态识别的多个数据，即多个虚拟三维数据。

深度学习算法分析部130的对于重组的多个三维数据分别适用二维卷积神经网络(2D Convolutional Neural Network，CNN)，合并对各个三维数据的适用结果分析三维影像。

如此，本实施例以堆叠二维影像数据后，通过二维卷积神经网络学习对堆叠的二维影像数据的其他形态的信息，执行三维影像分析为主要技术特点。

前述构成因素110至130能够以硬件方式构成，但不限于此。影像分析装置100的构成因素能够体现为以软件模块形态储存于内存等储存装置，与储存装置连接的处理器执行软件模块从而以虚拟三维深层神经网络为基础有效学习并分析三维影像数据。

以下，详细说明利用虚拟三维深层神经网络的影像分析装置。

参照图2，影像获取部可以根据摄影位置或摄影时间堆叠从外部接收或获得的二维影像或者读取存储在影像分析装置外部或内部的存储器等的二维影像。

三维影像生成部利用从影像获取部接收的二维影像生成多个三维数据。三维数据可以包括三维影像数据。

三维影像生成部能够将多个二维影像按摄影位置或时间顺序叠层生成三维影像数据。三维影像生成部将生成的三维影像数据按预设角度进行旋转，从而生成额外的三维影像数据。

例如，对三维影像数据相互直交的三个方向进行分析时，根据下面的过程能够生成多个三维影像数据。即，如果将二维影像的两个轴设为x和y，表示二维影像的摄影位置或时间的轴设为z，则可以使用按z轴顺序叠层二维影像得出的三维数据Dxyz(第一三维数据)，将Dxyz分别向另外两个轴方向进行旋转得出的三维数据Dyzx和三维数据Dzxy。

当然，根据最终模型的储存器大小或计算速度或目标的性能，可以只对三个方向中的两个方向实施。

并且，三维影像生成部相加在上述的多个三维数据，可额外生成其他三维数据并进行使用。即，三维影像生成部对于从原来的二维影像中通过预设的计算得出的其他影像适用上述方法生成多个三维影像。例如，对各二维影像进行规格化(normalization)使得它们具有零均值(zero-mean)和单位方差(unit-variance)后，通过上述方法生成多个三维数据。

在另一个体现中，视频时，三维影像生成部可生成通过框架之间的差异或光流(optical flow)等的计算获得的影像和旋转其影像的额外的三维影像。

深度学习算法分析部能够根据需要对从三维影像生成部获得的多个三维数据分别以任意间隔分割、投影，从而生成多个二维数据集。多个二维数据集能够包括于三维数据中。

深度学习算法分析部对从三维影像生成部获得的多个三维数据分别适用二维卷积神经网络，并通过合并这些的过程获得影像分析结果。

在深度学***均的决策层融合(d ecision level fusion)。

图3是示出图1的影像分析装置能够采用的二维卷积神经网络现有的工作原理的示例图。图4是示出根据比较例的三维卷积神经网络的工作原理的示例图。

首先，参照图3，示出了二维卷积神经网络的卷积(convolution)计算结构。二维卷积神经网络的卷积计算结构可以表现为以下数学式1。

【数学式1】

数学式1中，表示第i个层(layer)的第j个特征图(feature map)中的(x，y)位置的值。

f(·)表示激活函数(activation function)。

b_ij表示对于相应的特征图的变差(bias)。

m表示第(i-1)个层的特征图的索引。

表示适用于第m个特征图的内核(kernel)或滤波器(filter)的(p，q)位置的值。

P_i和Q_i分别显示内核的横向和竖向大小。

前述的二维卷积神经网络在影像识别中展现卓越的性能。但是，卷积(convolution)只计算二维空间(spatial)特征，因此只利用二维神经网络时，无法学习多个二维影像相聚的三维影像中的深度或时间方向的信息。

为克服上述技术问题，即使代替用三维卷积神经网络模型进行使用，普通的三维卷积神经网络为了分析三维影像学习三维滤波器，因此参数量过多导致占用太多内存且需要较长的学习时间(参照数学式2)。因此本实施例以新的方式组合并使用二维卷积神经网络的卷积计算结构和利用三维卷积神经网络的卷积计算结构。

在二维卷积神经网络的卷积计算结构结合三维卷积神经网络的卷积计算结构如图4所示，并且可以表现为以下数学式2。

【数学式2】

数学式2中，表示第i个层的第j个特征图中的(x，y，z)位置的值。

f(·)表示激活函数。

b_ij表示对于相应的特征图的变差。

m表示第(i-1)个层的特征图的索引。

表示适用于第m个特征图的内核(kernel)或滤波器(filter)的(p，q，r)位置的值。

P_i、Q_i、R_i分别显示内核的横向、竖向以及深度(或者时间)方向的大小。

如此，前述的只利用三维卷积神经网络模型的现有技术由于基本的参数量太多导致占用太多内存，学习耗时较长，且在使用已学习的模型时也需要较长的计算时间。因此本实施例利用拥有比三维卷积神经网络更少的参数量的二维卷积神经网络，对三维影像数据进行有效的学习和影像分析。

即，深度学习算法分析部可导出由‘虚拟三维深层神经网络’的影响分析结果，所述影响分析结果包括对从三维影像生成部获得的多个二维数据集(多个三维数据)分别适用二维卷积神经网络，并合成其适用结果的过程。

参照图5，根据本实施例的利用虚拟三维深层神经网络的影像分析方法，包括：首先在影像分析装置内的影像获取部，根据摄影位置或者时间堆叠特定组的二维影像步骤S51；利用二维影像生成三维影像(第一三维数据)，并旋转第一三维数据生成第二三维数据的步骤S52；并且对多个三维影像(第一及第二三维数据)分别适用二维卷积神经网络并合并对各个三维影像的适用结果的步骤S53。

根据本发明的利用虚拟三维深层神经网络的影像分析方法，利用比普通的三维卷积神经网络方法拥有更少的参数的二维卷积神经网络，从而更加有效的学习三维数据并适用于分析影像。这样的方法可以命名为根据‘虚拟三维深层神经网络’的方法。

参照图6，根据本实施例的影像分析装置100可以包括通讯部160、控制部170以及储存器180。影像分析装置100可以体现为包含控制器或计算装置。影像分析装置100根据从用户、管理员、控制终端等的输入处理数据或信号后，能够连接至为了输出处理结果的输入输出装置190。并且，影像分析装置100能够与具备数据库的数据库***200连接。数据库能够包含提供需要分析的影像的装置的识别信息、连接信息、验证信息中的至少一个。

本实施例的输入输出装置190及数据库***200示为不包含在影像分析装置100的形态，但本发明不限于这样的结构，根据具体情况可以体现为输入输出装置190及数据库***200中的至少任何一个以上。

通讯部160将影像分析装置100连接至通讯网络。通讯部160能够从通过网络访问的用户终端、服务器、管理员终端等，接收影像或影像分析的相关信息或信号。

通讯部160能够包含支持一个以上的通讯协议的一个以上的有线及/或无线通讯子***。有线通讯子***能包括为PSTN(public switched telephone network，公共交换电话网)、ADSL(Asymmetric Digital Subscriber Line，非对称数字用户线路)、VDSL(Veryhigh-data rate Digital Subscriber Line，超高速数字用户回路)网络或PES(PSTNEmulation Service，PSTN仿真服务)的子***和IP(internet protocol，互联网协议)多媒体子***(IMS)等。无线通讯子***能够包括无线电频率(radio frequency，RF)接收器、RF发射机、RF收发器、光(例如,红外线)接收器、光发射机、光收发器或这些的组合。

无线网络一般指Wi-Fi，但不限于此。本实施例的通讯部160能够体现为支持多种无线网络，例如从GSM(Global System for Mobile Communication，全球移动通信***)、EDGE(Enhanced Data GSM Environment，增强型数据GSM环境)、CDMA(Code DivisionMultiple Access，码分多址连接方式)、W-CDMA(W-Code Division Multiple Access，W码分多址连接方式)、LTE(Long Term Evolution，长期演进)、LET-A(LET-Advanced，演进计划)、OFDMA(Orthogonal Frequency Division Multiple Access，正交频分多址)、WiMax(全球微波接入互操作性)、Wi-Fi(Wireless Fidelity，无线保真)、Bluetooth(蓝牙)等中选择的至少一个以上的无线网络。

控制部170能够通过执行储存于内存或储存器180的软件模块或程序体现影像分析方法。例如，控制部170可以被称为处理器，并能够执行图5所示的一系列步骤。

控制部170能够体现为包含至少一个以上的中央处理器(CPU)或核心的处理器或微处理器。中央处理器或核心能够具备储存需要处理的命令的寄存器(register)；负责比较、判断、演算的运算器(arithmetic logical unit，ALU)；为解析和实行命令而内部控制CPU的控制部件(control unit)及连接这些的内部总线。中央处理装置或核心能够体现为与MCU(micro control unit)和周边装置(为外部扩展装置的集成电路)一同配置的SOC(system on chip)，但不限于此。

并且，控制部170可以包含一个以上的数据处理器，图像处理器或编码解码器(CODEC)，但不限于此。控制部170可以具备周边装置界面和储存器界面。周边装置界面连接控制部170和输入输出装置190等的输入输出***或其他周边装置，储存器能够连接控制部170和储存器180。

储存器180可以储存利用虚拟三维深层神经网络分析影像的软件模块。软件模块可以包括分别执行图5的步骤们S51至S53的第一模块至第三模块。

上述的储存器180可以体现为非易失性内存(non-volatile RAM，NVRAM)，作为典型的易失性内存的DRAM(dynamic random access memory，动态随机访问存储器)等的半导体储存器、硬盘驱动器(hard disk drive，HDD)、光储存器、闪存等。并且储存器180除了利用三维深层神经网络分析影像的软件模块之外，还能储存操作***、程序、命令集等。

另一方面，根据本实施例的影像分析方法可以体现为能够通过不同的计算机手段执行的程序命令形态并记录在计算机可读媒体。计算机可读媒体可以单独或组合包含程序命令、数据文件、数据结构等。记录在计算机可读媒体的程序命令可以是为本发明特意设计或构成的，或是给计算机软件技术人员通告从而可以使用的。

计算机可读媒体的例子包括为储存并执行只读储存器(rom)、随机存取储存器(ram)、闪存(flash memory)等程序命令而特意构成的硬件装置。程序命令的例子不仅包括通过编译***(compiler)制作的机器语言代码，还包括通过使用解释器(interpreter)能够由计算机执行的高级语言代码。所述硬件装置为执行本发明的动作而可以运行为至少一个软件模块，反之亦然。

如此，本实施例提供用于分析三维影像数据构成深层神经网络的结构的方法。根据本实施例的虚拟三维深层神经网络结构能够用于在输入的医疗影像中诊断疾病，找出病变的位置，或在视频中识别人的动作等三维影像数据分析。

以上参照本发明的可取的实施例进行了说明，本发明的熟练技术人员应当理解在所述权利要求记载的本发明的思想及领域的范围内能够不同的修改及变更本发明。

Claims

1.一种利用虚拟三维深层神经网络的影像分析装置，其特征在于，包括：

影像获取部，按预先设定的顺序堆叠多个二维影像数据；

三维影像生成部，基于对来自所述影像获取部的堆叠形态的多个二维影像数据的不同形态的多个信息，生成多个三维数据；及

深度学习算法分析部，对来自所述三维影像生成部的多个三维数据分别适用二维卷积神经网络，合并针对所述多个三维数据的二维卷积神经网络的适用结果。

2.根据权利要求1所述的利用虚拟三维深层神经网络的影像分析装置，其特征在于，

所述三维影像生成部在生成所述多个三维数据前，对所述多个二维影像数据分别执行零均值化或者单位方差演算。

3.根据权利要求1所述的利用虚拟三维深层神经网络的影像分析装置，其特征在于，

所述多个不同形态的多个信息包括识别根据所述堆叠的二维影像数据的时间或位置的对应于移动或者模样的变化的图案。

4.根据权利要求1所述的利用虚拟三维深层神经网络的影像分析装置，其特征在于，

所述深度学***均的决策层融合中的某一个进行合并。

5.一种利用虚拟三维深层神经网络的影像分析方法，其特征在于，包括：

在影像获取部按预先设定的顺序堆叠多个二维影像数据的步骤；

在三维影像生成部基于对堆叠形态的所述多个二维影像数据的不同形态的多个信息，生成多个三维数据的步骤；及

在深度学习算法分析部对所述多个三维数据分别适用二维卷积神经网络，合并针对所述多个三维数据的二维卷积神经网络的适用结果的步骤。

6.根据权利要求5所述的利用虚拟三维深层神经网络的影像分析方法，其特征在于，

所述生成步骤在生成所述多个三维数据之前，对所述多个二维影像数据分别执行零均值化或者单位方差演算。

7.根据权利要求5所述的利用虚拟三维深层神经网络的影像分析方法，其特征在于，

所述合并步骤将针对所述多个三维数据的所述二维卷积神经网络的适用结果在卷积层、全连接层、输出层及导出最终结果的平均的决策层融合中的某一个进行合并。