CN108335313A

CN108335313A - 图像分割方法及装置

Info

Publication number: CN108335313A
Application number: CN201810159647.7A
Authority: CN
Inventors: 余宙; 杨永智; 郭萌
Original assignee: A Bozzi De (beijing) Science And Technology Co Ltd
Current assignee: Beijing Abbott Technology Co ltd
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-07-27
Also published as: US10740904B2; US20190266731A1

Abstract

本发明涉及一种图像分割方法及装置，所述图像分割方法包括步骤：深度学习以得到FCN网络模型，且在深度学习过程中，使用L(p_ji)＝‑(1‑p_ji)^rlog(p_ji)进行损失计算；将待分割图像输入最后一次更新的FCN网络模型中，得到待分割图像中每个像素为各种类别的概率，选择概率最大值对应的类别为该个像素图像分割所确定的类别。本发明通过对FCN网络模型的损失函数进行改进，提高对图像分类的准确性，实现了利用像素分类的方式准确提提电子文档中的图表信息。

Description

图像分割方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于FCN网络模型的图像分割方法及装置。

背景技术

用于图像分割的深度学***衡，学***衡的状态，如采用标准的多分类交叉熵损失函数进行分类，分类模型更倾向将所有的像素均分类成背景，导致像素分割不准确。

发明内容

本发明的目的在于改善现有技术中所存在的类别不平衡时像素分割不准确的不足，提供一种可以提高像素分割准确性的图像分割方法及装置。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一方面，本发明实施例中提供了一种图像分割方法，包括以下步骤：

步骤A，将一张样本图像输入已初始化的FCN网络模型中，得到当前模型参数下样本图像中每个像素分类的概率p_ji，p_ji表示样本图像中第j个像素为第i类的概率；

步骤B，采用如下公式对步骤A中的输出结果进行损失计算，并求取一张样本图像中所有像素的平均损失L(p_ji)＝-(1-p_ji)^rlog(p_ji)，式中，L(p_ji)为第j个像素的损失，r为0～4之间的实数；

步骤C，求解最小化并更新FCN网络模型中所有的学习参数；

步骤D，循环执行步骤A～步骤C，直至设定的迭代次数；

步骤E，将待分割图像输入最后一次更新的FCN网络模型中，得到待分割图像中每个像素为各种类别的概率，选择概率最大值对应的类别为该个像素图像分割所确定的类别。

在采用标准的损失函数时，对于像素极少的类别，如图例文字等分类错误比例较大，上述方法采用改进后的损失函数进行损失计算，在训练过程中收敛速度加快，对图例文字等少像素类别的分割效果优于传统的交叉熵损失，大大提高像素分类的准确性。

另一方面，本发明实施例提供了一种图像分割装置，包括：

参数设置模块，用于设置所述FCN网络模型中的学习参数，包括初始化FCN网络模型中的学习参数，以及在迭代过程中更新FCN网络模型中的学习参数；

图像输入模块，用于将待分割的样本图像输入到所述FCN网络模型；

概率输出模块，用于从所述FCN网络模型输出当前模型参数下所述样本图像中每个像素分类的概率p_ji，p_ji表示图像中第j个像素为第i类的概率；

损失计算模块，用于采用如下公式对所述概率输出模块的输出结果进行损失计算，并求取一张图像中所有像素的平均损失L；L(p_ji)＝-(1-p_ji)^rlog(p_ji)，式中，L(p_ji)为第j个像素的损失，r为0～4之间的实数；

最小化平均损失求解模块，用于求解最小化L，求解得到的最小化L被输出给所述参数设置模块，用于更新所述FCN网络模型中的学习参数；

其中，所述FCN网络模型中的学***均损失求解模块重复迭代工作，直至设定的迭代次数；

所述图像分割装置还包括类别选择模块，用于从最后一次更新的FCN网络模型输出待分割图像中每个像素为各种类别的概率，并选择概率最大值对应的类别，作为该像素所确定的类别。

再一方面，本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质，所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。

再一方面，本发明实施例同时提供了一种电子设备，包括：存储器，存储程序指令；处理器，与所述存储器相连接，执行存储器中的程序指令，实现本发明实施例中所述方法中的步骤。

与现有技术相比，本发明的有益效果：本发明通过对FCN网络模型的损失函数进行改进，提高对图像分类的准确性，实现了利用像素分类的方式准确提提电子文档中的图表信息，通过这些信息就可以对文件中的图表进行重绘，并可以根据这些元素对图表进行检索、分析等处理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1本发明较佳实施例提供的图像分割方法的流程图。

图2是本发明较佳实施例提供的图像分割装置的功能模块示意图。

图3为采用传统图像分割方法分割后还原得到的图像。

图4为采用本发明实施例中所述图像分割方法分割后还原得到的图像。

图5为实施例中提供的一种电子设备的结构示意框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例中提供了一种图像分割方法，具体地，包括以下步骤：

S201，将一张样本图像输入已初始化的FCN网络模型中，得到当前模型参数下样本图像中每个像素分类的概率p_ji，p_ji表示样本图像中第j个像素为第i类的概率。

所述初始化是指初始化FCN网络模型中的学习参数，所述学习参数包括卷积层中每层的权重矩阵，作为举例说明，例如权重初始设置为均值为0，方差为0.002的随机数。

需要说明的是，针对于不同的应用，像素分类的类别可以不同。例如本实施例中，仅针对于图表图像为例，像素分类的类别可以包括背景、Y轴、X轴、Y轴文字、X轴文字、图例、图例文字、图题文字等。以像素类别包括背景、Y轴、X轴、Y轴文字、X轴文字、图例、图例文字、图题文字这8个类别为例，则有i＝0,1,2,3,4,5,6,7。也就是针对于每一个像素，就会得到该像素对应的8个概率值，每个概率值即表示该像素为对应类别的概率大小。

另外需要说明的是，本实施例中，仅以图表图像为例进行说明，但是本实施例中所述的FCN网络模型，可以应用于任何图像的分割，包括类别平衡或不平衡的图像，针对于图表图像等类别不平衡的情况，相对于传统方法，提高像素分割准确度的效果更佳明显。

S202，利用掩膜图像中的标记对步骤S102中的输出结果进行损失计算。此处的掩膜图像(maskimage)是与图表图像对应的，掩膜图像与图表图像的尺寸一样，掩膜图像中的每个像素表示对应的图表图像中每个像素的所属类别，此处通过0～255的数值表示，如背景标记为0，Y轴标记为1，X轴标记为2，等等，即是说，掩膜图像中每个像素对应标记一个0～255的数值。在生成图表图像后，就对应生成掩膜图像，图表图像和掩膜图像均作为训练样本。

具体地，本步骤中，采用如下公式进行损失计算：L(p_ji)＝-(1-p_ji)^rlog(p_ji)，式中，L(p_ji)为第j个像素的损失，r可以为0～4之间的实数，尤其针对于分类不均衡的应用，优先选择r＝2。需要说明的是，p_ji表示为第j个像素为第i类的概率，其中像素输入第i类的类别时需要从掩膜图像中获取。例如，第j个像素为背景像素，则i＝0,这时候仅计算一个p_ji，即仅选择p_j0参与损失计算。又例如，第j’个像素为X轴像素，则i＝2，这时候仅选择p_j'2参与损失计算。

计算出一张图表图像中所有像素的损失后，求取所有像素的平均损失

S203，采用例如反向传播和梯度下降算法，求解最小化更新FCN网络模型中所有的学习参数。反向传播和梯度下降是神经网络中参数更新的标准方法，进行参数更新的时候，采用梯度下降法，即要找到最优解对应的W的方法。具体步骤是：对损失函数中每个参数W求导数，找到每个参数的负梯度方向dW，然后进行一小步更新，即权重更新为W＝W+learning_rate*dW，其中learning_rate为学习率或理解成更新步长，例如设置为0.001。迭代此步骤。求导时由于是复合函数求导(多层神经网络)，因此，需要采用微积分中的链式法则，链式法则在神经网络中的体现就是反向传播(BP)，是神经网络中的专用术语。dW从最后一层依次向前计算。

S204，循环执行步骤S102～S104，直至设定的迭代次数。设定迭代次数时，迭代次数的最小值至少应保障步骤S104中最小化不再下降。

经过上述步骤得到的FCN网络模型，可以对图像进行像素分割，提高像素分割的准确性。

S205，将待分割图像输入最后一次更新的FCN网络模型中，得到待分割图像中每个像素为各种类别的概率，选择概率最大值对应的类别为该个像素图像分割所确定的类别。

本步骤S205中，具体是将待分割图像输入到经过步骤S201～S204训练的FCN网络模型，得到每个像素对应的类别概率后，得到最大概率对应类别，继而可得到像素分类。例如，像素分类的类别包括背景(i＝0)、Y轴(i＝1)、X轴(i＝2)、Y轴文字(i＝3)、X轴文字(i＝4)、图例(i＝5)、图例文字(i＝6)、图题文字(i＝7)，将待分割的图表图像输入经过步骤S201～S204优化后的FCN网络模型中，得到第j个像素的概率值分别为：p_j0＝0.94，p_j1＝0.01，p_j2＝0，p_j3＝0，p_j4＝0，p_j5＝0，p_j6＝0，p_j7＝0.05，继而可以得到第j个像素为背景像素。

请参照图3和图4，分别利用传统方法(标准损失函数)和采样本发明图像分割方法(改进后的损失函数)对相同的样本图像进行像素分割，结果如下表和图3、图4所示，明显地，本发明图像分割方法可以大大提高像素分割的准确性。

请参照图3和图4，特别在文字区域，传统损失函数得到的分割效果较差，而改进后的损失函数效果明显改善。

请参阅图2，基于与图1所示的方法相同的发明构思，本申请实施例还提供了一种图像分割装置，本图像分割装置描述中未涉及之处，可参见图1所示方法中的相应描述。如图2所示，该图像分割装置主要包括图像输入模块41、FCN网络模型42、参数设置模块43、概率输出模块44、损失计算模块45、最小化平均损失求解模块46和类别选择模块47。

其中，图像输入模块41，用于将待分割的图像输入到所述FCN网络模型42中，输入的图像包括深度学习过程中的样本图像及图像分割应用时的待处理图像；

参数设置模块43，用于设置FCN网络模型42中的学习参数，包括初始化FCN网络模型中的学习参数，以及在迭代过程中更新FCN网络模型中的学习参数；

概率输出模块44，用于从FCN网络模型输出当前模型参数下样本图像中每个像素分类的概率p_ji，p_ji表示图像中第j个像素为第i类的概率；例如仅针对于图表图像，像素分类的类别包括背景、Y轴、X轴、Y轴文字、X轴文字、图例、图例文字、图题文字等。以像素类别包括背景、Y轴、X轴、Y轴文字、X轴文字、图例、图例文字、图题文字这8个类型为例，则有i＝0,1,2,3,4,5,6,7。

损失计算模块45，用于采用如下公式对概率输出模块43中的输出结果进行损失计算，并求取一张样本图像中所有像素的平均损失L(p_ji)＝-(1-p_ji)^rlog(p_ji)，式中，L(p_ji)为第j个像素的损失，r为0～4之间的实数；

最小化平均损失求解模块46，用于求解最小化例如可以通过反向传播和梯度下降算法求解最小化求解得到的最小化被输出给参数设置模块41，以便参数设置模块41更新FCN网络模型中所有的学习参数。

其中，所述FCN网络模型中的学***均损失求解模块46重复迭代工作，直至设定的迭代次数，即是说上述模块41-46是完成FCN网络模型的深度学习过程，模块47是完成具体应用的图像分割。

类别选择模块47，用于从最后一次更新的FCN网络模型输出待分割图像中每个像素为各种类别的概率，并选择概率最大值对应的类别，作为该像素所确定的类别。

如图5所示，本实施例同时提供了一种电子设备，该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构，实现数据提取、图表重绘、通信或其他功能。

如图5所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图5中显示的所有部件。此外，电子设备还可以包括图5中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的图表数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如可以为文件读取装置，用于向处理器51提供包含图表的电子文档。显示单元54用于显示经过像素分割后还原的图像信息，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

本发明实施例还提供一种计算机可读指令，其中当在电子设备中执行所述指令时，所述程序使得电子设备执行如图1所示方法所包含的操作步骤。

本发明实施例还提供一种存储有计算机可读指令的存储介质，其中所述计算机可读指令使得电子设备执行如图1所示的方法所包含的操作步骤。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像分割方法，其特征在于，包括以下步骤：

步骤C，求解最小化并更新FCN网络模型中所有的学习参数；

步骤D，循环执行步骤A～步骤C，直至设定的迭代次数；

2.根据权利要求1所述的方法，其特征在于，所述待分割图像为图表图像，像素分类包括背景、Y轴、X轴、Y轴文字、X轴文字、图例、图例文字、图题文字。

3.根据权利要求1所述的方法，其特征在于，所述步骤D中，采用反向传播和梯度下降算法求解最小化

4.根据权利要求1所述的方法，其特征在于，所述步骤D中所设定的迭代次数的最小值至少应保障所得到的不再下降。

5.根据权利要求1所述的方法，其特征在于，在损失函数中，选择r＝2。

6.一种图像分割装置，其特征在于，包括：

FCN网络模型；

损失计算模块，用于采用如下公式对所述概率输出模块的输出结果进行损失计算，并求取一张样本图像中所有像素的平均损失L(p_ji)＝-(1-p_ji)^rlog(p_ji)，式中，L(p_ji)为第j个像素的损失，r为0～4之间的实数；

最小化平均损失求解模块，用于求解最小化求解得到的最小化被输出给所述参数设置模块，用于更新所述FCN网络模型中的学习参数；

7.一种包括计算机可读指令的计算机可读存储介质，其特征在于，所述计算机可读指令在被执行时使处理器执行权利要求1-5中任一方法中的操作。

8.一种电子设备，其特征在于，所述的设备包括：

存储器，存储程序指令；

处理器，与所述存储器相连接，执行存储器中的程序指令，实现权利要求1-5中任一方法中的步骤。