CN113902670A

CN113902670A - 一种基于弱监督学习的超声视频分割方法及装置

Info

Publication number: CN113902670A
Application number: CN202111010966.XA
Authority: CN
Inventors: 常瑞恒; 王东; 马璐; 胡阳; 王立威; 丁佳; 吕晨翀
Original assignee: Beijing Yizhun Medical AI Co Ltd
Current assignee: Zhejiang Yizhun Intelligent Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2022-01-07
Anticipated expiration: 2041-08-31
Also published as: CN113902670B

Abstract

本申请公开了一种基于弱监督学习的超声视频分割方法及装置，所述方法包括：获得第一视频样本，对所述第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片；将所述弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型；所述目标视频注意力网络模型用于确定所述弱监督标注图片上的图片分割区域，以获得与所述第一视频样本对应的第二视频样本；将所述第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型，应用本方法实施例提供的方法，在训练超声视频分割模型的时候，能够节省大量的人力物力成本，并提高超声视频分割模型的分割效果。

Description

一种基于弱监督学习的超声视频分割方法及装置

技术领域

本申请涉及医疗影像技术领域，尤其涉及一种基于弱监督学习的超声视频分割方法及装置。

背景技术

医学超声通过将超声波发射到生物体内，通过超声波在生物体形成的反射、折射、吸收、衰减等特性，可以仪器生成对应的特定的波型、曲线图像或视频等信息。结合超声视频可以有效辅助医学工作。尽管超声视频的获取是较为简单，但是因为信号衰减、斑点噪声等干扰，使得超声视频的分割具有较大挑战。超声视频的分割受训练样本质量的影响很强。超声图像由于斑点、阴影和信号衰减产生的特征伪影，使得分割任务复杂化。因此，目前用于视频分割的算法模型在训练过程中十分依赖有监督学习，以保证训练准确性，通常需要人工对视频每一帧的特定分割区域轮廓进行标注，标注成本过高，消耗人力物力。

发明内容

本申请实施例为了解决用于训练超声视频分割模型的训练样本标注成本过高的问题，提供了一种基于弱监督学习的超声视频分割方法及装置。

本申请一方面提供一种基于弱监督学习的超声视频分割方法，所述方法包括：获得第一视频样本，对所述第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片；将所述弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型；所述目标视频注意力网络模型用于确定所述弱监督标注图片上的图片分割区域，以获得与所述第一视频样本对应的第二视频样本；将所述第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型。

在一可实施方式中，将所述弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型，包括：随机抽取与所述第一视频样本对应的弱监督标注图片；基于残差神经网络对所述弱监督标注图片进行区域分割，获得第一分割区域；基于视频注意力网络对所述弱监督标注图片进行区域分割，获得第二分割区域；基于所述第一分割区域和所述第二分割区域对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型。

在一可实施方式中，所述基于残差神经网络对所述弱监督标注图片进行区域分割，获得第一分割区域，包括：根据所述残差神经网络确定与所述弱监督标注图片对应的预测特征图；基于所述预测特征图确定第一类别激活图；基于所述第一类别激活图确定第一分割区域。

在一可实施方式中，所述随机抽取的弱监督标注图片包含第一图片帧和第二图片帧；相应的，基于视频注意力网络对所述弱监督标注图片进行区域分割，获得第二分割区域，包括：根据视频注意力网络确定所述第一图片帧和所述第二图片帧的关系矩阵；根据所述关系矩阵确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图；根据所述第一注意力特征图和所述第二注意力特征图确定第二类别激活图；基于所述第二类别激活图确定第二分割区域。

在一可实施方式中，根据所述关系矩阵确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图，包括：对所述关系矩阵进行归一化处理，得到归一化参数；根据所述归一化参数确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图。

在一可实施方式中，所述基于所述第一分割区域和所述第二分割区域对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型，包括：基于第一类别激活图和第二类别激活图确定一致性损失函数；根据所述一致性损失函数对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型。

在一可实施方式中，所述获得第一视频样本，对所述第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片，包括：获得所述第一视频样本；确定类别标注指令，所述类别标注指令标注有与第一类别标签对应的起始图片帧和结束图片帧；将位于所述起始图片帧和所述结束图片帧之间的图片帧均标注为第一类别标签；将位于所述起始图片帧和所述结束图片帧之外的图片帧标注为第二类别标签；其中，所述图片类别标签包含所述第一类别标签和所述第二类别标签。

在一可实施方式中，在获得目标视频注意力网络模型之后，所述方法还包括：对所述第一视频样本进行图片抽取,获得抽取图片帧，所述抽取图片帧包括待预测图片帧和正样本帧；通过所述目标视频注意力网络模型对所述待预测图片帧和正样本帧进行预测，获得对应的预测结果和预测准确率；根据预测准确率对所述预测结果进行融合，获得与所述待预测图片帧对应的图像分割区域。

在一可实施方式中，所述根据预测准确率对所述预测结果进行融合，包括：确定所述预测准确率满足特定指标的正样本帧；确定与所述满足特定指标的正样本帧对应的第二类别激活图；对所述第二类别激活图进行融合，获得融合类别激活图；基于所述融合类别激活图确定与所述待预测图片帧对应的图像分割区域。

本申请另一方面提供一种基于弱监督学习的超声视频分割装置，所述装置包括：弱监督标注模块，用于获得第一视频样本，对所述第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片；弱监督学习模块，用于将所述弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型；所述目标视频注意力网络模型用于确定所述弱监督标注图片上的图片分割区域，以获得与所述第一视频样本对应的第二视频样本；有监督学习模块，用于将所述第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型。

在一可实施方式中，所述弱监督学习模块，包括：抽取子模块，用于随机抽取与所述第一视频样本对应的弱监督标注图片；分割子模块，用于基于残差神经网络对所述弱监督标注图片进行区域分割，获得第一分割区域；所述分割子模块，还用于基于视频注意力网络对所述弱监督标注图片进行区域分割，获得第二分割区域；更新子模块，用于基于所述第一分割区域和所述第二分割区域对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型。

在一可实施方式中，所述分割子模块，还用于根据所述残差神经网络确定与所述弱监督标注图片对应的预测特征图；基于所述预测特征图确定第一类别激活图；基于所述第一类别激活图确定第一分割区域。

在一可实施方式中，所述随机抽取的弱监督标注图片包含第一图片帧和第二图片帧；相应的，所述分割子模块，还用于根据视频注意力网络确定所述第一图片帧和所述第二图片帧的关系矩阵；根据所述关系矩阵确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图；根据所述第一注意力特征图和所述第二注意力特征图确定第二类别激活图；基于所述第二类别激活图确定第二分割区域。

在一可实施方式中，所述分割子模块，还用于对所述关系矩阵进行归一化处理，得到归一化参数；根据所述归一化参数确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图。

在一可实施方式中，所述更新子模块，还用于基于第一类别激活图和第二类别激活图确定一致性损失函数；根据所述一致性损失函数对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型。

在一可实施方式中，所述弱监督标注模块，包括：获得子模块，用于获得所述第一视频样本；确定子模块，用于确定类别标注指令，所述类别标注指令标注有与第一类别标签对应的起始图片帧和结束图片帧；标注子模块，用于将位于所述起始图片帧和所述结束图片帧之间的图片帧均标注为第一类别标签；所述标注子模块，还用于将位于所述起始图片帧和所述结束图片帧之外的图片帧标注为第二类别标签；其中，所述图片类别标签包含所述第一类别标签和所述第二类别标签。

在一可实施方式中，所述装置还包括：抽取模块，用于对所述第一视频样本进行图片抽取,获得抽取图片帧，所述抽取图片帧包括待预测图片帧和正样本帧；预测模块，用于通过所述目标视频注意力网络模型对所述待预测图片帧和正样本帧进行预测，获得对应的预测结果和预测准确率；融合模块，用于根据预测准确率对所述预测结果进行融合，获得与所述待预测图片帧对应的图像分割区域。

在一可实施方式中，所述融合模块，还用于确定所述预测准确率满足特定指标的正样本帧；确定与所述满足特定指标的正样本帧对应的第二类别激活图；对所述第二类别激活图进行融合，获得融合类别激活图；基于所述融合类别激活图确定与所述待预测图片帧对应的图像分割区域。

本申请提供的超声视频分割模型的训练方法及装置，通过弱监督标注对第一视频样本进行类别标注，通过视频注意力网络训练获得目标视频注意力网络模型，通过目标视频注意力网络模型对第一视频样本进行区域分割，以获得第二视频样本，采用第二视频样本对视频分割模型进行有监督训练，以获得目标视频分割模型，应用本方法，第一视频样本能够通过目标视频注意力网络模型对图片分割区域的分割，从而解决了有监督学习标注成本过高的问题，节省了大量的人力物力成本。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本申请实施例一种基于弱监督学习的超声视频分割方法的实现流程示意图一；

图2为本申请实施例一种基于弱监督学习的超声视频分割方法的实现流程示意图二；

图3为本申请实施例一种基于弱监督学习的超声视频分割方法的实现流程示意图三；

图4为本申请实施例一种基于弱监督学习的超声视频分割方法的模型结构和流程示意图；

图5为本申请实施例一种基于弱监督学习的超声视频分割方法的流程比较图；

图6为本申请实施例一种基于弱监督学习的超声视频分割方法的预测比较图；

图7为本申请实施例一种基于弱监督学习的超声视频分割装置的实现模块示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例一种基于弱监督学习的超声视频分割方法的实现流程示意图一。

参见图1，本申请一方面提供一种基于弱监督学习的超声视频分割方法，方法包括：操作101，获得第一视频样本，对第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片；操作102，将弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型；目标视频注意力网络模型用于确定弱监督标注图片上的图片分割区域，以获得与第一视频样本对应的第二视频样本；操作103，将第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型。

本申请提供的超声视频分割模型的训练方法，通过弱监督标注对第一视频样本进行类别标注，获得标注有图片类别标签的弱监督标注图片。以弱监督标注图片作为训练样本，通过视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型。通过目标视频注意力网络模型分割并标注弱监督标注图片的图片分割区域，获得标注有图片类别标签和图片分割区域的第二视频样本。然后采用第二视频样本对视频分割模型进行有监督学习，从而能够获得目标视频分割模型。目标视频分割模型能够确定与待分割视频对应的视频类别标签和视频分割区域。应用本方法，第一视频样本能够通过目标视频注意力网络模型对弱监督标注图片进行区域分割，无需人工对第一视频样本的每一帧都进行图片分割区域的标注，从而解决了有监督学习标注成本过高的问题，节省了大量的人力物力成本。

在本方法操作101中，获得第一视频样本，第一视频样本通过弱监督标注图片类别标签。具体的，第一视频样本为超声视频样本。本方法可以通过在第一视频样本上进行图片类别标签的标注，可以理解的是，第一视频样本中包含多段视频样本，一段视频样本中包括多张的图片帧，本方法对所有的图片帧进行图片类别标签的标注，从而确定每一帧图片帧对应的类别。其中，根据需要，与每一帧图片帧对应的类别标注可以是图片类别的标注、标注框、标注点或其他方式，具体类别同样需要视频样本的标注需求进行确定。在一种具体实施场景中，当本方法的第一视频样本为通过医疗超声设备拍摄获得的超声视频样本，图片标注可以为对该部位是否具有特定图形进行类别标注，如对该部位是否具有病灶进行标注。需要理解的是，视频样本可以通过数据库获得，例如，当视频样本为针对某一病灶的超声视频的情况下，其可以为来自多位实验者提供的针对该病灶的多段超声视频。

在本方法操作102中，将弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型。具体的，本方法通过弱监督学习能够缓解完全有监督学习标注成本过高的问题，可以理解的是，相较于图片分割区域的标注，对第一视频样本进行图片类别标签的标注是一种非常高效的标注形式。基于标注图片类别的弱监督学习具体可以为基于类别激活图(Class Activation Map，CAM)，从而使目标视频注意力网络模型能够用于确定与待分割视频对应的图片分割区域。例如，利用本申请获得的目标视频注意力网络模型能够准确分割在超声图片中的病灶区域。

在训练获得目标视频注意力网络模型的情况下，可以通过目标视频注意力网络模型对第一视频样本进行区域分割，具体的，可以通过目标视频注意力网络模型对弱监督标注图片进行区域分割，以确定与第一视频样本对应的第二视频样本。第二视频样本标注有图片类别标签和图片分割区域。具体的，第二视频样本可以为由目标视频注意力网络模型分割获得的伪掩膜。

在本方法操作103中，将第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型。目标视频分割模型用于确定与待分割视频对应的视频类别标签和视频分割区域。在一种实施方式下，本方法采用对视频分割模型进行有监督训练获得目标视频分割模型，进一步采用完全有监督训练获得目标视频分割模型。在一种具体实施方式下，可以选用超声视频分割模型3DC-SEG作为视频分割模型，超声视频分割模型3DC-SEG为目前性能较为优秀的超声视频分割模型。完全有监督学习完成之后，就得到了目标视频分割模型。

上述方法提出了一种十分高效的适用于弱监督学习的标注方式，无需人工对第一视频样本的每一帧进行分割区域的标注，通过先弱监督标注第一视频样本的图片类别标签，再训练目标视频注意力网络模型对第一视频样本进行分割，即可获得标注有分割区域的第二视频样本，通过第二视频样本训练视频分割模型，获得目标视频分割模型，相对于完全有监督学习，节省了大量的人力物力成本。

图2为本申请实施例一种基于弱监督学习的超声视频分割方法的实现流程示意图二。

参见图2，在一可实施方式中，操作101，获得第一视频样本，对第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片，包括：操作1011，获得第一视频样本；操作1012，确定类别标注指令，类别标注指令标注有与第一类别标签对应的起始图片帧和结束图片帧；操作1013，将位于起始图片帧和结束图片帧之间的图片帧均标注为第一类别标签；操作1014，将位于起始图片帧和结束图片帧之外的图片帧标注为第二类别标签；其中，图片类别标签包含第一类别标签和第二类别标签。

在对第一视频样本的图片类别标签进行标注的操作中，本方法利用视频样本具有连续性的特点，进一步了提高标注效率。本方法通过标注视频样本中的起始图片帧和结束图片帧，就能够确定位于第一视频样本重每一帧的图片类别标签，可以理解的是，标注后的图片帧为弱监督标注图片。具体的，起始图片帧、结束图片帧和起始图片帧之间的每一帧和结束图片帧的图片类别标签都是一致的。进一步的，当第一视频样本中存在多段相同图片类别标签的情况下，起始图片帧和结束图片帧的数量可以为多个。为方便上述实施方式的进一步理解，以下提供具体实施方场景进行说明。

在一种具体实施场景中，第一视频样本为其中一段视频时间内具有连续的特定区域、其他视频时间内不具有特定区域的影像视频。本方法设定第一类别标签为存在特定区域的图片帧，第二类别标签为不存在特定区域的图片帧。通过人工点击存在特定区域的图片帧的起始图片帧和结束图片帧。将起始图片帧和结束图片帧标注为第一类别标签。并且可以确定特定区域的时间段，可以将该时间段内的所有图片帧标注为第一类别标签，即将位于起始图片帧和结束图片帧之间图片帧标注为第一类别标签。进而可以确定，位于起始图片帧和结束图片帧之外的时间段不存在特定区域的图片帧，可以将位于起始图片帧和结束图片帧之外的图片帧标注为第二类别标签。

在另一种具体实施场景中，第一视频样本为中存在多个时间段具有连续的特定区域的影像。其他时间段不具有特定区域的影像。本方法设定第一类别标签为存在特定区域的图片帧，第二类别标签为不存在特定区域的图片帧。通过人工点击存在特定区域的图片帧的起始图片帧和结束图片帧。将每一个起始图片帧和结束图片帧标注为第一类别标签。并且可以确定通过每一段起始图片帧和结束图片帧确定具有特定区域的时间段，可以将这些时间段内的所有图片帧标注为第一类别标签，即将位于起始图片帧和结束图片帧之间的图片帧均标注为第一类别标签，位于起始图片帧和结束图片帧之外的时间段不存在特定区域的图片帧，可以将位于起始图片帧和结束图片帧之外的图片帧标注为第二类别标签。

举例说明，假设一段针对特定病灶的超声视频样本，其总时长20秒，中间3～10秒存在特定病灶，其他时间段不存在特定病灶，点击第3秒存在特定病灶的第一帧图片，点击第10秒存在特定病灶的最后一帧图片，将第一帧图片至最后一帧图片之间的所有图片标注与存在特定病灶对应的类别标签，将第一帧图片至最后一帧图片之外的所有图片标注与不存在特定病灶对应的类别标签。

假设一段针对特定病灶的超声视频样本，其总时长20秒，中间3～5秒、8～10秒和15～20秒存在特定病灶，其他时间段不存在特定病灶，点击第3秒存在特定病灶的第一帧图片，点击第5秒存在特定病灶的最后一帧图片，点击第8秒存在特定病灶的第一帧图片，点击第10秒存在特定病灶的最后一帧图片，点击第15秒存在特定病灶的第一帧图片，点击第20秒存在特定病灶的最后一帧图片；将第3秒存在特定病灶的第一帧图片至第5秒存在特定病灶的最后一帧图片之间的所有图片标注与存在特定病灶对应的类别标签；将第8秒存在特定病灶的第一帧图片至第10秒存在特定病灶的最后一帧图片之间的所有图片标注与存在特定病灶对应的类别标签；将第15秒存在特定病灶的第一帧图片至第20秒存在特定病灶的最后一帧图片之间的所有图片标注与存在特定病灶对应的类别标签；将其他图片标注与不存在特定病灶对应的类别标签。

如此操作，可以进一步降低标注难度，减少标注工作量，节省了大量的人力物力成本。

图3为本申请实施例一种基于弱监督学习的超声视频分割方法的实现流程示意图三。

参见图3，在一可实施方式中，操作102，将弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型，包括：操作1021，随机抽取与第一视频样本对应的弱监督标注图片；操作1022，基于残差神经网络对弱监督标注图片进行区域分割，获得第一分割区域；操作1023，基于视频注意力网络对弱监督标注图片进行区域分割，获得第二分割区域；操作1024，基于第一分割区域和第二分割区域对视频注意力网络模型进行更新，获得目标视频注意力网络模型。

在操作102中，本方法对弱监督学习进行进一步优化，利用视频具有的许多特性，如在同一视频中，利用图片帧之间具有关联的特性，利用视频注意力网络模型进行弱监督学习以避免分割的区域过大，使类别激活图处理超声视频中具有更好的表现性，更准确地对图片进行分割区域的标注。

在本方法操作1021中，在同一段第一视频样本中随机抽取弱监督标注图片，进一步的，抽取的弱监督标注图片的数量为至少两帧，本方法还可以采用设定时间间隔抽取、设定图片类别抽取等其他抽取方式对弱监督标注图片进行抽取。每一轮训练，本方法从同一段第一视频样本中随机抽取两帧进行训练，本方法的第一视频样本可以存在多段。

在本方法操作1022中，本方法利用残差神经网络对弱监督标注图片进行区域分割，获得第一分割区域。

具体的，本方法可以将抽取的多帧弱监督标注图片同时输入到残差神经网络中，通过残差神经网络预测与每一弱监督标注图片对应的预测特征图，然后利用特征图进行计算以确定对应的第一类别激活图，并根据第一类别激活图确定对应的第一分割区域。第一分割区域用于确定需要进行标注的图片分割区域。

在本方法操作1023中，我们利用不同弱监督标注图片之间的关系，通过视频注意力网络对不同弱监督标注图片之间的关系进行建模，以确定不同弱监督标注图片之间的关系矩阵，并利用关系矩阵进行计算确定对应的第二类别激活图，并基于第二类别激活图确定对应的第二分割区域。第一分割区域用于确定需要进行标注的图片分割区域。

在本方法操作1024中，通过结合考虑第一分割区域和第二分割区域，对视频注意力网络模型进行更新，即可获得目标视频注意力网络模型。需要说明的是，本方法的目的是关联第一分割区域和第二分割区域，本方法不对关联方式进行限定，例如，本方法可以对第一分割区域和第二分割区域的结果进行关联，以确定目标视频注意力网络模型。本方法也可以根据第一分割区域的结果，基于第一分割区域和关系矩阵进行计算确定对应的第二类别激活图，实现第一分割区域和第二分割区域在过程上的关联，本方法还可以通过第二分割区域的过程关联第一分割区域的结果；本方法还可以根据第一分割区域的过程关联第二分割区域的结果。进一步需要补充的是，本方法可以直接将对应的类别激活图作为与弱监督标注图片对应的图片分割区域。

图4为本申请实施例一种基于弱监督学习的超声视频分割方法的模型结构和流程示意图。

参见图4，在一可实施方式中，操作1022，基于残差神经网络对弱监督标注图片进行区域分割，获得第一分割区域，包括：首先，根据残差神经网络确定与弱监督标注图片对应的预测特征图；然后，基于预测特征图确定第一类别激活图；再后，基于第一类别激活图确定第一分割区域。

具体的，本方法在操作1022中，首先随机抽取一个超声视频样本中的两帧，分别记作I_A，I_B。基于操作101，每一帧都标注有图片类别标签，图片类别标签至少为两种，如有特定区域标签和无特定区域标签，本方法具体为有病灶标签和无病灶标签。具体的，I_A标注有标签y_A，I_B标注有标签y_B。将标注有标签y_A的I_A和标注有标签y_B的I_B输入残差神经网络(resnet)得到对应的特征图F_A，F_B。

接着利用一层卷积层把特征图F_A，F_B的通道数量降为1，得到R_a，R_b。1个通道的情况在后续计算中可以不考虑通道维度，方便后续计算。

之后，可以利用扩展函数Φ对R_a，R_b进行计算，从而生成对应I_A，I_B的分类结果，即预测的图片类别标签。其中，扩展函数Φ具体为：

其中，R_h，w用于表征特征图F通道数量降为1的R的坐标；具体的，h表征高度方向坐标，W表征宽度方向坐标。∈为预设的常数，用于避免分母为0，∈为大于0的正数。σ为激活函数。通过该公式，可以获得与每一帧图中每一个像素点对应的分值，Φ(R)可以对应至预测分类结果通过S进行表征，即与I_A对应的预测分类结果为s_A，与I_B对应的预测分类结果为s_B。需要解释的是，预测分类结果为与标注的图片类别标签对应的分类结果。

其中，激活函数σ的具体计算方式可以为：

其中，x用于表征特征图F通道数量降为1的图R上对应的每一点对应的输入值，x为实数。

该预测分类结果可以通过损失函数(CE)进行评价，本方法采用交叉熵函数作为分类结果的损失函数，具体为：

L_CAM(I_A，I_B)＝CE(s_A，y_A)+CE(s_B，y_B)

其中，L_CAM用于表征与第一类别激活图对应预测分类结果的损失函数。其中，y_A和y_B为与I_A和I_B标注的图片类别标签。

第一类别激活图L_CAM的确定方式为

CAM_A＝σ(R_A)，CAM_B＝σ(R_B)

CAM用于表征第一类别激活图，具体的，CAM_A用于表征与弱监督标注图片I_A对应的第一类别激活图。同理，该方法可以获得与弱监督标注图片I_B对应的第一类别激活图CAM_B。

在一可实施方式中，随机抽取的弱监督标注图片包含第一图片帧和第二图片帧；相应的，操作1023，基于视频注意力网络对弱监督标注图片进行区域分割，获得第二分割区域，包括：首先，根据视频注意力网络确定第一图片帧和第二图片帧的关系矩阵；然后，根据关系矩阵确定与第一图片帧和第二图片帧对应的第一注意力特征图和第二注意力特征图；再后，根据第一注意力特征图和第二注意力特征图确定第二类别激活图；之后，基于第二类别激活图确定第二分割区域。

其中，根据关系矩阵确定与第一图片帧和第二图片帧对应的第一注意力特征图和第二注意力特征图，包括：对关系矩阵进行归一化处理，得到归一化参数；根据归一化参数确定与第一图片帧和第二图片帧对应的第一注意力特征图和第二注意力特征图。

本方法还通过视频注意力网络来建模不同弱监督标注图片之间的关系，以利用视频的特性，充分利用视频维度的信息，进行弱监督视频分割，提高分割的精度和准确性。

具体的，本方法计算F_A与F_B之间的关系矩阵，关系矩阵具体表示为：

其中，P为关系矩阵，该关系矩阵用于表征特征图F_A与F_B之间每个像素点之间的关联关系。F_A用于表征与特征图F_A对应的像素点矩阵；F_B用于表征与特征图F_B对应的像素点。W_P为关联参数，为视频注意力网络中的参数，通过视频注意力网络在训练过程中反向传播更新获得，以使F_A与F_B的关系矩阵更容易学习。

然后对矩阵关系矩阵P分别进行行与列的归一化(softmax)处理，得到归一化参数，然后将归一化参数乘到F_B和F_A上，得到注意力特征图

对注意力特征图

和

接着利用一层卷积层把特征图

和

的通道数量降为1，得到

和

同操作1021，以扩展函数Φ对

和

进行计算，从而生成对应

的分类结果，即预测的图片类别标签。

其中，L_coCAM用于表征与第二类别激活图对应预测分类结果的损失函数。

其中，区别于操作1021的损失函数，y^co用于表征注意力标签，注意力标签通过y^co＝y_A^y_B计算获得，其中^表示“与”操作。

同理，第二类别激活图的计算方式为：

coCAM_A＝σ(R_A)，coCAM_B＝σ(R_B

coCAM用于表征第二类别激活图，具体的，coCAM_A用于表征与弱监督标注图片I_A对应的第二类别激活图。同理，该方法可以获得与弱监督标注图片I_B对应的第二类别激活图coCAM_B。

在一可实施方式中，操作1024，基于第一分割区域和第二分割区域对视频注意力网络模型进行更新，获得目标视频注意力网络模型，包括：首先，基于第一类别激活图和第二类别激活图确定一致性损失函数；然后，根据一致性损失函数对视频注意力网络模型进行更新，获得目标视频注意力网络模型。

进一步的，基于模型预测出的CAM会更加保守，由CAM对应的预测分割区域较小，而coCAM由于使用了其他帧的信息，预测分割区域会较大，通过设置用于关联CAM和coCAM的一致性的损失函数，使coCAM会受到CAM的影响，使预测的分割区域得更加准确，且由于coCAM是由CAM得到的，在训练过程中也能够使CAM更加准确，从而达到相互提升的效果。

一致性损失函数可以表征为：

L_eonsist＝1(y^co＝1)·MSE(CAM_A，coCAM_A)+1(y^co＝1)·MSE(CAM_B，coCAM_B)

其中，L_consist用于表征一致性损失函数，MSE用于表征均方误差。

进一步的，模型整体的损失函数的形式可以为：

L_total＝L_CAM+L_coCAM+λ·L_consist

其中λ用于表征一致性损失函数的权重。权重为预先设置的固定值，权重通常为大于1的正数。

利用第一视频样本，基于上述的操作方式对视频注意力网络模型进行弱监督学习，即可获得对应的目标视频注意力网络模型。

在一可实施方式中，在操作102获得目标视频注意力网络模型之后，方法还包括：首先，对第一视频样本进行图片抽取，获得抽取图片帧，抽取图片帧包括待预测图片帧和正样本帧；然后，通过目标视频注意力网络模型对待预测图片帧和正样本帧进行预测，获得对应的预测结果和预测准确率；再后，根据预测准确率对预测结果进行融合，获得与待预测图片帧对应的图像分割区域。

其中，根据预测准确率对预测结果进行融合，包括：首先，确定预测准确率满足特定指标的正样本帧；然后，确定与满足特定指标的正样本帧对应的第二类别激活图；再后，对第二类别激活图进行融合，获得融合类别激活图；之后，基于融合类别激活图确定与待预测图片帧对应的图像分割区域。

本方法在训练完目标视频注意力网络模型之后，通过目标视频注意力网络模型对第一视频样本进行分割，获得与第一视频样本中每一帧对应的图像类别标签和图像分割区域。进一步的，第一视频样本可以定义为模型的训练集。在对第一视频样本中的每一帧进行分割的情况下，可以同时采样与待分割帧对应的N个正样本帧，将待分割帧与N个正样本帧一起输入到目标视频注意力网络模型中，然后选取分数最高的K帧对应的coCAM进行融合，从而获得与待分割帧对应的图像分割区域。其中，N为大于1的正整数，K为不超过N的正整数。其中，分数通过与预测分类结果对应的准确值概率进行征。本方法可以采用多种融合方法进行融合，如将融合值确定为平均值、和值、乘积、最小值、最大值等。根据融合值可以确定与待分割帧对应的图像类别标签和图像分割区域。通过上述方式对每一帧进行分割，即可获得第二视频样本。进一步的，本方法在抽取正样本帧的情况下，可以采用等距抽取或随机抽取的方式，抽取数量为大于等于1的正整数。

最后，利用第二视频样本对分割模型3DC-SEG进行完全有监督训练之后，得到目标视频分割模型，即用于分割待分割视频的超声视频分割模型。当有视频需要分割的情况下，将待分割视频输入目标视频分割模型中，目标视频分割模型通过对待分割视频的每一帧进行分割，以获得与待分割视频对应的视频类别标签和视频分割区域，其中，视频类别标签为每一帧图片帧对应的图片类别标签的集，视频分割区域为每一帧图片帧对应的图片分割区域的集。

在一种具体实施场景中，以乳腺超声视频作为待预测视频。通过数据库获得的乳腺超声视频样本依据本申请实施例训练获得的目标视频分割模型进行了测试。该数据集包括1565个超声视频，平均长度为96.40秒，每秒30帧，我们把数据集划分成了训练集、验证集以及测试集，我们使用验证集测试生成的第二视频样本的效果，使用测试集测试目标视频分割模型的分割效果，指标选取的是平均交并比(mean Intersection over Union,mIoU)，实验结果见下表：

图5为本申请实施例一种基于弱监督学习的超声视频分割方法的流程比较图；图6为本申请实施例一种基于弱监督学习的超声视频分割方法的预测比较图。

在图5中，regularway表征常规模型训练流程，our WSL way表征本申请的模型训练流程。在图6中，第一行图片为抽取的图片帧，第二行和第三行为通过其他模型预测的可视化的分割结果，第四行为本申请训练的模型预测的可视化的分割结果。

进一步的，本申请还进行了消融实验来验证模型的效果，如下表，用于表征不同一致性损失函数对应的权值对模型预测结果的影响。

如下表，用于表征不同第二视频样本对应的K帧和N帧以及融合方式对模型预测结果的影响。

参见图7，本申请另一方面提供一种基于弱监督学习的超声视频分割装置，装置包括：弱监督标注模块701，用于获得第一视频样本，对第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片；弱监督学习模块702，用于将弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型；目标视频注意力网络模型用于确定弱监督标注图片上的图片分割区域，以获得与第一视频样本对应的第二视频样本；有监督学习模块703，用于将第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型。

在一可实施方式中，弱监督学习模块702，包括：抽取子模块7021，用于随机抽取与第一视频样本对应的弱监督标注图片；分割子模块7022，用于基于残差神经网络对弱监督标注图片进行区域分割，获得第一分割区域；分割子模块7022，还用于基于视频注意力网络对弱监督标注图片进行区域分割，获得第二分割区域；更新子模块7023，用于基于第一分割区域和第二分割区域对视频注意力网络模型进行更新，获得目标视频注意力网络模型。

在一可实施方式中，分割子模块7022，还用于根据残差神经网络确定与弱监督标注图片对应的预测特征图；基于预测特征图确定第一类别激活图；基于第一类别激活图确定第一分割区域。

在一可实施方式中，随机抽取的弱监督标注图片包含第一图片帧和第二图片帧；相应的，分割子模块7022，还用于根据视频注意力网络确定第一图片帧和第二图片帧的关系矩阵；根据关系矩阵确定与第一图片帧和第二图片帧对应的第一注意力特征图和第二注意力特征图；根据第一注意力特征图和第二注意力特征图确定第二类别激活图；基于第二类别激活图确定第二分割区域。

在一可实施方式中，分割子模块7022，还用于对关系矩阵进行归一化处理，得到归一化参数；根据归一化参数确定与第一图片帧和第二图片帧对应的第一注意力特征图和第二注意力特征图。

在一可实施方式中，更新子模块7023，还用于基于第一类别激活图和第二类别激活图确定一致性损失函数；根据一致性损失函数对视频注意力网络模型进行更新，获得目标视频注意力网络模型。

在一可实施方式中，弱监督标注模块701，包括：获得子模块7011，用于获得第一视频样本；确定子模块7012，用于确定类别标注指令，类别标注指令标注有与第一类别标签对应的起始图片帧和结束图片帧；标注子模块7013，用于将位于起始图片帧和结束图片帧之间的图片帧均标注为第一类别标签；标注子模块7013，还用于将位于起始图片帧和结束图片帧之外的图片帧标注为第二类别标签；其中，图片类别标签包含第一类别标签和第二类别标签。

在一可实施方式中，装置还包括：抽取模块704，用于对第一视频样本进行图片抽取,获得抽取图片帧，抽取图片帧包括待预测图片帧和正样本帧；预测模块705，用于通过目标视频注意力网络模型对待预测图片帧和正样本帧进行预测，获得对应的预测结果和预测准确率；融合模块706，用于根据预测准确率对预测结果进行融合，获得与待预测图片帧对应的图像分割区域。

在一可实施方式中，融合模块706，还用于确定预测准确率满足特定指标的正样本帧；确定与满足特定指标的正样本帧对应的第二类别激活图；对第二类别激活图进行融合，获得融合类别激活图；基于融合类别激活图确定与待预测图片帧对应的图像分割区域。

本申请另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的超声视频分割模型的训练方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于弱监督学习的超声视频分割方法，其特征在于，所述方法包括：

获得第一视频样本，对所述第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片；

将所述弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型；所述目标视频注意力网络模型用于确定所述弱监督标注图片上的图片分割区域，以获得与所述第一视频样本对应的第二视频样本；

将所述第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型。

2.根据权利要求1所述的方法，其特征在于，将所述弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型，包括：

随机抽取与所述第一视频样本对应的弱监督标注图片；

基于残差神经网络对所述弱监督标注图片进行区域分割，获得第一分割区域；

基于视频注意力网络对所述弱监督标注图片进行区域分割，获得第二分割区域；

基于所述第一分割区域和所述第二分割区域对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型。

3.根据权利要求2所述的方法，其特征在于，所述基于残差神经网络对所述弱监督标注图片进行区域分割，获得第一分割区域，包括：

根据所述残差神经网络确定与所述弱监督标注图片对应的预测特征图；

基于所述预测特征图确定第一类别激活图；

基于所述第一类别激活图确定第一分割区域。

4.根据权利要求2所述的方法，其特征在于，所述随机抽取的弱监督标注图片包含第一图片帧和第二图片帧；

相应的，基于视频注意力网络对所述弱监督标注图片进行区域分割，获得第二分割区域，包括：

根据视频注意力网络确定所述第一图片帧和所述第二图片帧的关系矩阵；

根据所述关系矩阵确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图；

根据所述第一注意力特征图和所述第二注意力特征图确定第二类别激活图；

基于所述第二类别激活图确定第二分割区域。

5.根据权利要求2所述的方法，其特征在于，根据所述关系矩阵确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图，包括：

对所述关系矩阵进行归一化处理，得到归一化参数；

根据所述归一化参数确定与所述第一图片帧和所述第二图片帧对应的第一注意力特征图和第二注意力特征图。

6.根据权利要求2所述的方法，其特征在于，所述基于所述第一分割区域和所述第二分割区域对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型，包括：

基于第一类别激活图和第二类别激活图确定一致性损失函数；

根据所述一致性损失函数对所述视频注意力网络模型进行更新，获得所述目标视频注意力网络模型。

7.根据权利要求1所述的方法，其特征在于，所述获得第一视频样本，对所述第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片，包括：

获得所述第一视频样本；

确定类别标注指令，所述类别标注指令标注有与第一类别标签对应的起始图片帧和结束图片帧；

将位于所述起始图片帧和所述结束图片帧之间的图片帧均标注为第一类别标签；

将位于所述起始图片帧和所述结束图片帧之外的图片帧标注为第二类别标签；

其中，所述图片类别标签包含所述第一类别标签和所述第二类别标签。

8.根据权利要求1所述的方法，其特征在于，在获得目标视频注意力网络模型之后，所述方法还包括：

对所述第一视频样本进行图片抽取,获得抽取图片帧，所述抽取图片帧包括待预测图片帧和正样本帧；

通过所述目标视频注意力网络模型对所述待预测图片帧和正样本帧进行预测，获得对应的预测结果和预测准确率；

根据预测准确率对所述预测结果进行融合，获得与所述待预测图片帧对应的图像分割区域。

9.根据权利要求8所述的方法，其特征在于，所述根据预测准确率对所述预测结果进行融合，包括：

确定所述预测准确率满足特定指标的正样本帧；

确定与所述满足特定指标的正样本帧对应的第二类别激活图；

对所述第二类别激活图进行融合，获得融合类别激活图；

基于所述融合类别激活图确定与所述待预测图片帧对应的图像分割区域。

10.一种基于弱监督学习的超声视频分割装置，其特征在于，所述装置包括：

弱监督标注模块，用于获得第一视频样本，对所述第一视频样本进行弱监督标注，以得到标注有图片类别标签的弱监督标注图片；

弱监督学习模块，用于将所述弱监督标注图片输入视频注意力网络模型进行弱监督学习，获得目标视频注意力网络模型；所述目标视频注意力网络模型用于确定所述弱监督标注图片上的图片分割区域，以获得与所述第一视频样本对应的第二视频样本；

有监督学习模块，用于将所述第二视频样本输入视频分割模型进行有监督学习，以获得目标视频分割模型。