CN110162649B

CN110162649B - 样本数据获取方法、获取***、服务器和计算机可读介质

Info

Publication number: CN110162649B
Application number: CN201910441621.6A
Authority: CN
Inventors: 杨大陆; 孙旭; 杨叶辉; 王磊; 许言午; 黄艳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-06-18
Anticipated expiration: 2039-05-24
Also published as: CN110162649A

Abstract

本公开提供了一种样本数据获取方法，包括：构建母样本图片数据库；对母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合；针对每一个母样本图片集合，采用具有预定尺寸的选取框从该母样本图片集合内的每一张母样本图片中均提取出多张子样本图片，并为每张子样本图片赋予初步类标，以得到每一个母样本图片集合所对应的子样本图片集合；针对每一个子样本图片集合，以该子样本图片集合内所包含的全部子样本图片作为训练样本数据，训练出各子样本图片集合所对应的样本分类模型；针对每一张子样本图片，将该子样本图片分别输入至各样本分类模型中，并选取频数最大的一个分类结果作为该子样本图片的标定类标。

Description

样本数据获取方法、获取***、服务器和计算机可读介质

技术领域

本公开涉及深度学习领域，特别涉及样本数据获取方法、获取***、服务器和计算机可读介质。

背景技术

在基于深度学习(Deep Learning)技术训练用于针对特定任务的检测模型时，需要预先采集大量具有标定类别的训练样本数据。

然而，在实际应用中发现，对于一些特殊任务，难以获得大量的被标注(具有标定类别)的小尺寸样本；例如，在针对眼底图片的病灶检测任务中，为实现所训练出的检测模型能够检测出眼底图片中是否存在病灶，并在检测出存在病灶时对病灶位置进行定位，则需要获取到大批量的小尺寸(patch)级或像素级的病灶标注样本数据，当前只能通过人工在眼底图片中进行选取、标注的方式进行样本采集。上述人工采样方式存在如下问题：1)由于病变形态复杂，医生标注存在很强的主观性，边界划分比较随意，专业的眼科医生也很难界定病灶边界像素的属性问题，即标注难度大；2)医生手动标注的耗时长，获取样本的标定类别的成本高，即难以获取大量样本。

发明内容

本公开旨在至少解决现有技术中存在的技术问题之一，提出了一种样本数据获取方法、获取***、服务器和计算机可读介质。

第一方面，本公开实施例提供了一种样本数据获取方法，包括：

构建母样本图片数据库，所述母样本图片数据库包括：具有标定类标的多张母样本图片；

对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合，每个所述母样本图片集合包括多张母样本图片；

针对每一个所述母样本图片集合，采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片，并为每张所述子样本图片赋予初步类标，以得到每一个所述母样本图片集合所对应的子样本图片集合，所述子样本图片的初步类标为其所属母样本图片的标定类标，其中所述选取框的尺寸小于所述母样本图片的尺寸；

针对每一个所述子样本图片集合，以该子样本图片集合内所包含的全部所述子样本图片以及各所述子样本图片对应的初步类标作为训练样本数据，训练出各所述子样本图片集合所对应的样本分类模型；

针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各所述样本分类模型中，以供各所述样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标。

在一些实施例中，所述母样本图片的形状为正方形；

所述选取框的形状为正方形；

所述选取框的边长与所述母样本图片的边长的比值等于第一预定系数q，其中0＜q＜1。

在一些实施例中，在所述针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各所述样本分类模型中，以供各所述样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标的步骤之后，还包括：

判断所述子样本图片的边长是否小于或等于预定长度阈值；

当判断出所述子样本图片的边长小于或等于所述预定长度阈值时，则流程结束；

当判断出所述子样本图片的边长大于所述预定长度阈值时，则以具有标定类标的所述子样本图片作为新的母样本图片，构建出新的母样本图片数据库，并基于新的母样本图片数据库继续执行上述对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合的步骤。

监控所述针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各所述样本分类模型中，以供各所述样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标的步骤的循环执行累计次数是否达到预定次数阈值；

当监控到所述循环执行累计次数未达到所述预定次数阈值时，则以具有标定类标的所述子样本图片作为新的母样本图片，构建出新的母样本图片数据库，并基于新的母样本图片数据库继续执行上述对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合的步骤；

当监控到所述循环执行累计次数达到所述预定次数阈值时，则流程结束。

在一些实施例中，所述第一预定系数q满足：0.5≤q≤0.7。

在一些实施例中，在对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合的步骤中，每个母样本图片集合所包含的母样本图片的数量相等；

一个母样本图片集合所包含的母样本图片的数量与所述母样本图片数据库所包含的母样本图片的数量的比值等于第二预定系数p，其中0＜p＜1。

在一些实施例中，所述第二预定系数p满足：0.4≤p≤0.6。

在一些实施例中，在采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片的步骤中，从一张所述母样本图片所提取出的子样本图片的数量为预定数量N；

其中预定数量N为正整数，且3≤N≤10。

在一些实施例中，所述构建母样本图片数据库的步骤包括：

采集具有标定类标的多张原始样本图片；

对所述原始样本图片进行尺寸调整处理，以对原始样本图片的尺寸进行统一化；

将完成尺寸调整处理的所述原始样本图片作为母样本图片，以构建出母样本图片数据库。

第二方面，本公开实施例还提供了一种样本数据获取***，包括：

第一构建模块，用于构建母样本图片数据库，所述母样本图片数据库包括：具有标定类标的多张母样本图片；

采样模块，用于对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合，每个所述母样本图片集合包括多张母样本图片；

提取模块，用于针对每一个所述母样本图片集合，采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片，并为每张所述子样本图片赋予初步类标，以得到每一个所述母样本图片集合所对应的子样本图片集合，所述子样本图片的初步类标为其所属母样本图片的标定类标，其中所述选取框的尺寸小于所述母样本图片的尺寸；

训练模块，用于针对每一个所述子样本图片集合，以该子样本图片集合内所包含的全部所述子样本图片以及各所述子样本图片对应的初步类标作为训练样本数据，训练出各所述子样本图片集合所对应的样本分类模型；

处理模块，用于针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各所述样本分类模型中，以供各所述样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标。

在一些实施例中，所述母样本图片的形状为正方形；

所述选取框的形状为正方形；

在一些实施例中，还包括：

判断模块，用于在所述处理模块确定出每一个子样本图片集合中的每一张子样本图片的标定类标后，判断所述子样本图片的边长是否小于或等于预定长度阈值；

第二构建模块，用于当所述判断模块判断出所述子样本图片的边长大于所述预定长度阈值时，则以具有标定类标的所述子样本图片作为新的母样本图片，构建出新的母样本图片数据库，并控制所述采样模块基于新的母样本图片数据库继续执行相应处理；

第一控制模块，用于当所述判断模块判断出所述子样本图片的边长小于或等于所述预定长度阈值时，控制所述样本数据获取***停止工作。

在一些实施例中，还包括：

监控模块，用于在所述处理模块确定出每一个子样本图片集合中的每一张子样本图片的标定类标后，监控所述处理模块的循环执行累计次数是否达到预定次数阈值；

第三构建模块，用于在所述监控模块监控到所述循环执行累计次数未到达所述预定次数阈值时，以具有标定类标的所述子样本图片作为新的母样本图片，构建出新的母样本图片数据库，并控制所述采样模块基于新的母样本图片数据库继续执行相应处理；

第二控制模块，用于当所述监控模块监控到所述循环执行累计次数到达所述预定次数阈值时，控制所述样本数据获取***停止工作。

在一些实施例中，所述第一预定系数q满足：0.5≤q≤0.7。

在一些实施例中，在所述采样模块对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合的过程中，每个母样本图片集合所包含的母样本图片的数量相等；

在一些实施例中，所述第二预定系数p满足：0.4≤p≤0.6。

在一些实施例中，在所述提取模块采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片的过程中，从一张所述母样本图片所提取出的子样本图片的数量为预定数量N；

其中预定数量N为正整数，且3≤N≤10。

在一些实施例中，所述第一构建模块包括：

采集单元，用于采集具有标定类标的多张原始样本图片；

尺寸调整单元，用于对所述原始样本图片进行尺寸调整处理，以对原始样本图片的尺寸进行统一化；

构建单元，用于将完成尺寸调整处理的所述原始样本图片作为母样本图片，以构建出母样本图片数据库。

第三方面，本公开实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前述任一实施例所提供的方法。

第四方面，本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如前述任一实施例所提供的方法。

本公开具有以下有益效果：

本公开实施例提供了一种样本数据获取方法，可实现可从大尺寸的样本图片中提取出大量的小尺寸的样本图片，并为这些小尺寸的样本图片进行自动标注。

附图说明

图1为本公开实施例提供的一种样本数据获取方法的流程图；

图2为本公开中步骤S1的一种具体实现流程图；

图3为本公开实施例提供的另一种样本数据获取方法的流程图；

图4为本公开实施例提供的又一种样本数据获取方法的流程图；

图5为本公开实施例提供的一种样本数据获取***的结构框图；

图6为本公开中第一构建模块的一种结构框图；

图7为本公开实施例提供的另一种样本数据获取***的结构框图；

图8为本公开实施例提供的另一种样本数据获取***的结构框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的一种样本数据获取方法、获取***、服务器和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

将理解的是，虽然本文可以使用术语第一、第二等来描述各种元件，但这些元件不应当受限于这些术语。这些术语仅用于区分一个元件和另一元件。因此，在不背离本公开的指教的情况下，下文讨论的第一元件、第一组件或第一部件可称为第二元件、第二组件或第二部件。

本文所述实施例可借助本公开的理想示意图而参考平面图和/ 或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语) 的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

本公开中的“样本”均是指图片样本，本公开中的样本数据获取方法用于获取针对预定任务的标注样本数据，这些标注样本数据既可能为针对预定任务的正样本数据，也可能为针对预定任务的负样本数据；其中，该预定任务可以为分割任务、分类任务、定位任务、识别任务等任意可适用于深度学习技术的任务，本公开的技术方案对上述预定任务的具体类型不作限定。

此外，本公开中的“标注样本数据”是指具有标定类标的图片样本，标定类标的种类和数量是由人工预先根据具体的预定任务所设定；例如，预定任务为针对眼底图片的病灶检测任务，则标定类标可以设为“病灶”样本和“非病灶”样本两类，当然也可以根据需要对标定类标作进一步细化以使得后续训练出的检测模型能够对病灶的具体种类进行识别，例如标定类标可设为“出血斑型病灶”样本、“渗出型病灶”样本、“棉绒斑型病灶”样本……“非病灶”样本等多个类。需要说明的是，本公开的技术方案对“标定类标”的种类和数量均不作限定。

图1为本公开实施例提供的一种样本数据获取方法的流程图，如图1所示。

步骤S1、构建母样本图片数据库，母样本图片数据库包括：具有标定类标的多张母样本图片。

图2为本公开中步骤S1的一种具体实现流程图，如图2所示，步骤S1包括：

步骤S101、采集具有标定类标的多张原始样本图片。

在本公开中，原始样本图片是指针对预定任务已完成标注(具有标定类别)的大尺寸样本图片，这些原始样本图片未经过任何处理。另外，考虑到在实际应用中，针对预定任务的正样本数据的获取难度和重要程度，要远远大于负样本数据的获取难度和重要程度，因此应尽可能的多获取到针对预定任务的正样本数据。为此，所选用的原始样本图片应尽可能选用标定类别对应于正样本的图片。

为便于本领域技术人员更好的理解本公开的技术方案，下面以预定任务为针对眼底图片的病灶检测任务，预先设置的标定类标包含“病灶”和“非病灶”两个类的情况为例，进行示例性描述。其中，标定类标为“病灶”的图片可作为正样本，标定类标为“非病灶”的图片可作为负样本。本领域人员应该知晓的是，上述设定仅起到示例性作用，其不会对本公开的技术方案产生限制。

在步骤S101中，可将具有的标定类标(可由人工预先标注)的大尺寸眼底图片作为原始样本图片；当然，为使得在本公开所提供的样本数据获取方法结束后，能够尽可能的得到更多正样本，原始样本图片选用标定类标为“病灶”的大尺寸眼底图片。

步骤S102、对原始样本图片进行尺寸调整处理，以对原始样本图片的尺寸进行统一化。

在步骤S102中，考虑到不同原始样本图片的尺寸可能不同，为方便后续能够对不同原始样本图片进行统一处理，则需对这些原始样本图片进行尺寸调整(Resize)处理，以对原始样本图片的尺寸进行统一化。

以对眼底图像进行处理为例，通常眼底图像的宽大于高，则可先对眼底图像的左、右两侧部分进行裁剪，以使得眼底图像的形状变为正方形；然后将裁剪后的眼底图像统一Resize处理为设定尺寸，该设定尺寸的大小可根据实际情况进行设计和调整。作为一种可选实施方案，经过Resize处理后的眼底图像形状为正方形，尺寸为H×H， H＝1600像素。

对图片进行Resize处理以达到尺寸统一化的实现过程为本领域的常规技术，此处不进行详细描述。

步骤S103、将完成尺寸调整处理的原始样本图片作为母样本图片，以构建出母样本图片数据库。

在步骤S103中，将完成尺寸调整处理的原始样本图片作为母样本图片，以构建出母样本图片数据库，该母样本图片数据库包括：具有标定类标的多张母样本图片。

需要说明的是，上述对原始样本图片进行Resize处理，以对原始样本图片的尺寸进行统一化的情况，属于本公开中的优选实施方案，可便于后续对各原始样本图片进行统一处理，提升处理效率，其不会对本公开的技术产生限制作用。

步骤S2、对母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合，每个母样本图片集合包括多张母样本图片。

在步骤S2中，可通过随机采样方式或基于一定规则的采样方式来对母样本图片数据库进行多次采样，该多次采样可以使用有放回采样或无放回采样。其中，每次采样均会采集出多张母样本图片，每次采样所采集出的多张母样本图片构成一个母样本图片集合。

作为一种具体可选方案，采用随机采样方式来对母样本图片数据库进行多次有放回采样，且每次采样所采集的母样本图片的数量相等；需要说明的是，在采用上述采样方式所得到的母样本图片集合中，不同母样本图片集合之间可能会存在交集。

进一步地，假定母样本图片数据库所包含的母样本图片的数量记为C，则每个母样本图片集合所包含的母样本图片的数量可为p*C，即一个母样本图片集合所包含的母样本图片的数量与母样本图片数据库所包含的母样本图片的数量的比值为p，其中0＜p＜1，p的具体取值可根据实际情况进行设计和调整。

需要说明的是，p的取值越大，则两个不同母样本图片集合所包含相同的母样本图片的数量越多，两个不同母样本图片集合之间的差异性越小，不利于后续步骤S4和步骤S5的训练和标注；然而，p的取值越小，则每个母样本图片集合所包含的母样本图片数量越少，导致在样本数据获取方法结束后最终能获取的样本数量较少。综合考虑上述因素，本公开中优选地，0.4≤p≤0.6；进一步优选地，p＝0.5。

另外，步骤S2中得到的母样本图片集合的数量记为M，M为预先设定的大于或等于2的正整数，M的具体取值可根据实际情况进行设计和调整。

在本公开中，为尽可能的让母样本图片数据库内的每一张母样本图片均能够被采样至至少一个母样本图片集合中，则M*p的取值应大于1，其中M*p的取值越大图片数据库内母样本图片可被采样至母样本图片集合的概率越大，当然M*p的取值越大则会导致后续***的处理量越大。综合考虑上述因素，本公开中优选地，M*p的取值满足 1＜M*p＜10。

步骤S3、针对每一个母样本图片集合，采用具有预定尺寸的选取框从该母样本图片集合内的每一张母样本图片中均提取出多张子样本图片，并为每张子样本图片赋予初步类标，以得到每一个母样本图片集合所对应的子样本图片集合，子样本图片的初步类标为其所属母样本图片的标定类标，其中选取框的尺寸小于母样本图片的尺寸。

在步骤S3中，在使用选取框从一张母样本图片提取多张子样本图片时，可以采用随机提取方式或者按照一定规则提取方式进行子样本图片，均属于本公开的保护范围。另外，在从一张母样本图片所提取出的多张子样本图片中，可能会存在部分子样本图片存在部分交叠，该种情况不会对本公开的技术方案产生影响。

作为一种可选方案，母样本图片的形状为正方形；选取框的形状为正方形；其中，假定母样本图片的边长为H，则预先设定的选取框的边长可为q*H，即选取框的边长与母样本图片的边长的比值等于第一预定系数q，其中0＜q＜1，q的具体取值可根据实际情况进行设计和调整。

需要说明的是，在母样本图片的边长一定的情况下，q取值较大，则选取框尺寸越大，得到的子样本图片的尺寸越大，难以满足用户的“小尺寸”需求；q取值较小，则选取框尺寸越小，选取框能获取到正样本的几率越小。综合考虑上述因素，本公开中优选地，第一预定系数q满足：0.5≤q≤0.7。进一步优选地，q＝0.6。

为方便描述，假定每一张母样本图片中均提取出N张子样本图片(N为预先设定的大于1的正整数)，则针对一个母样本图片集合中母样本图片，共计可提取出N*p*C张子样本图片，该N*p*C张子样本图片构成一个子样本图片集合。因此，通过步骤S3，可以得到M 个子样本图片集合，且每个子样本图片集合包含N*p*C张子样本图片。

作为一种可选方案，预定数量N满足：3≤N≤10。

针对所提取出的每一张子样本图片，为其配置对应的初步类标，子样本图片的初步类标为其所属母样本图片的标定类标。

步骤S4、针对每一个子样本图片集合，以该子样本图片集合内所包含的全部子样本图片以及各子样本图片对应的初步类标作为训练样本数据，训练出各子样本图片集合所对应的样本分类模型。

在步骤S4中，基于深度学习技术，可根据子样本图片集合内的全部子样本图片以及各子样本图片对应的初步类标，来训练出与该子样本图片集合对应的样本分类模型，该样本分类模型可用于对输入的样本进行分类处理。需要说明的是，基于深度学习技术根据样本来训练出相应模型的过程属于本领域的常规技术，此处不进行详细描述。

通过步骤S4，可以训练出与M个子样本图片集合一一对应的M 个样本分类模型。

步骤S5、针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各样本分类模型中，以供各样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标。

基于前述步骤S3可知，M个子样本图片集合共计包含M*N*p*C 张尺寸为q*H×q*H的子样本图片。在步骤S5中，针对M*N*p*C张子样本图片中的每一张子样本图片，将该子样本图片分别输出至M个样本分类模型中，从而得到M个分类结果，将该M个分类结果仅分类统计选取出频数最大的一个分类结果作为该子样本图片的标定类标。通过步骤S5，即可实现为M*N*p*C张子样本图片中的每一张子样本图片配置对应的标定类标(为子样本图片进行自动标注)。

基于上述内容可见，通过执行一次上述步骤S1～步骤S5，可实现从C张尺寸为H×H的大尺寸样本图片中获取到M*N*p*C张为尺寸为q*H×q*H的子样本图片，并对M*N*p*C张子样本图片实现自动标注。需要说明的是，上述M*N*p*C张子样本图片中的部分可用作正样本，部分可用作负样本。

在本公开中，通过循环执行上述步骤S2～步骤S5，可获取到更多、尺寸更小且被自动标注的子样本图片。下面将结合具体实施例进行描述。

图3为本公开实施例提供的另一种样本数据获取方法的流程图，如图3所示，该样本数据获取方法包括：

在步骤S1中，母样本图片数据库所包含的母样本图片的数量为 C；母样本图片的形状为正方形，边长为H。

在步骤S2中，母样本图片集合的数量为M，每个母样本图片集合所包含的母样本图片的数量与母样本图片数据库中所包含的母样本图片的数量的比值等于第二预定系数p。

在步骤S3中，选取框的形状为正方形，选取框的边长与母样本图片的边长的比值等于第一预定系数q；每一张母样本图片中均提取出N张子样本图片。

步骤S6a、判断子样本图片的边长是否小于或等于预定长度阈值。

在步骤S6a中，预定长度阈值的具体取值是根据预定任务所需要的训练样本图片的尺寸由人工预先设定的。例如，当预定任务为针对眼底图片的病灶检测任务时，考虑到所需要的训练样本图片的理想尺寸应小于或等于16×16(单位：像素)，此时可将预定长度阈值设计为16像素。

当步骤S6a判断出子样本图片的边长小于或等于预定长度阈值时，则表明最近一次执行完步骤S5所获取到的张子样本图片的尺寸符合预定的需求，最近一次执行完步骤S5所获取到的每一张子样本图片均可作为所需的训练样本图片，流程结束；当步骤S6a判断出子样本图片的边长大于预定长度阈值时，则最近一次执行完步骤S5所获取到的张子样本图片的尺寸过大，需要继续进行提取小尺寸的子样本图片的处理过程，此后执行步骤S7a。

步骤S7a、以具有标定类标的子样本图片作为新的母样本图片，构建出新的母样本图片数据库。

在步骤S7a结束后，基于新的母样本图片数据库再次执行上述步骤S2，以循环执行步骤S2～步骤S7a，直至在某一次循环过程中的步骤S6a判断出子样本图片的边长小于或等于预定长度阈值。需要说明的是，对于本实施例中步骤S1～步骤S5的具体描述，可参见前述实施例中相应内容，此处不再赘述。

在上述循环执行步骤S2～步骤S7a的过程中，当i次执行完步骤S5时，得到的完成标准的子样本图片的数量为(M*N*p)ⁱ*C，每张子样本图片的边长为qⁱ*H，i为正整数。

通过图3所示样本数据获取方法，可从大尺寸的样本图片中提取出边长小于或等于预定长度阈值的小尺寸的样本图片，并为这些小尺寸的样本图片进行自动标注。与此同时，基于“预定长度阈值”可对最终得到的子样本图片的尺寸进行控制。

图4为本公开实施例提供的又一种样本数据获取方法的流程图，如图4所示，与图3中基于“预定长度阈值”来控制最终得到的子样本图片的尺寸的方案不同的是，图4所示实施例中基于步骤S5的循环执行累计次数来控制最终得到的子样本图片的尺寸。该样本数据获取方法包括：

为实现对步骤S5循环执行累计次数进行监控，可配置一个可变常数i，该可变常数i表示步骤S5的循环执行累计次数。在步骤S2 执行之前，可先对循环执行累计次数i进行初始化，即令i＝0；需要说明的是，令i＝0的操作可在步骤S1之前执行(未给出相应附图) 或在步骤S1和步骤S2之间执行(参见图4中所示)，其均属于本公开的保护范围。

需要说明的是，每执行完一次步骤S5，均执行一次i＝i+1，以实现对步骤S5的循环执行累计次数进行计数。

步骤S6b、监控步骤S5的循环执行累计次数i是否达到预定次数阈值。

在步骤S6b中，当监控到步骤S5的循环执行累计次数i达到预定次数阈值I时，则流程结束；当监控到步骤S5的循环执行累计次数i未达到预定次数阈值I时，则执行步骤S7b。

步骤S7b、以具有标定类标的子样本图片作为新的母样本图片，构建出新的母样本图片数据库。

在步骤S7b结束后，基于新的母样本图片数据库再次执行上述步骤S2，以循环执行步骤S2～步骤S7b，直至在某一次循环过程中的步骤S6b判断出步骤S5的循环执行累计次数i达到预定次数阈值 I。需要说明的是，对于本实施例中步骤S1～步骤S5的具体描述，可参见前述实施例中相应内容，此处不再赘述。

在上述循环执行步骤S2～步骤S7b的过程中，当i次执行完步骤S5时，得到的完成标准的子样本图片的数量为(M*N*p)ⁱ*C，每张子样本图片的边长为qⁱ*H，i为正整数。

需要说明的是，预定次数阈值的具体取值是根据预定任务所需要的训练样本图片的尺寸由人工预先设定的。例如，当预定任务为针对眼底图片的病灶检测任务时，假定步骤S1中母样本图片的边长为 H＝1600像素，步骤S3中的第一预定系数q＝0.6，则预先计算出第9 次执行上述步骤S5之后所得到的子样本图片的尺寸为16×16(单位：像素)。此时，该预定次数阈值可设定为9。

通过图4所示样本数据获取方法，可从大尺寸的样本图片中提取出边长小于或等于预定长度阈值的小尺寸的样本图片，并为这些小尺寸的样本图片进行自动标注。与此同时，基于“预定次数阈值”可对最终得到的子样本图片的尺寸进行控制。

图5为本公开实施例提供的一种样本数据获取***的结构框图，如图5所示，该样本数据获取***可用于实现上述各实施例所提供的样本数据获取方法，该样本数据获取***包括：第一构建模块1、采样模块2、提取模块3、训练模块4和处理模块5。

其中，第一构建模块1用于构建母样本图片数据库，母样本图片数据库包括：具有标定类标的多张母样本图片。

采样模块2用于对母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合，每个母样本图片集合包括多张母样本图片；

提取模块3用于针对每一个母样本图片集合，采用具有预定尺寸的选取框从该母样本图片集合内的每一张母样本图片中均提取出多张子样本图片，并为每张子样本图片赋予初步类标，以得到每一个母样本图片集合所对应的子样本图片集合，子样本图片的初步类标为其所属母样本图片的标定类标，其中选取框的尺寸小于母样本图片的尺寸；

训练模块4用于针对每一个子样本图片集合，以该子样本图片集合内所包含的全部子样本图片以及各子样本图片对应的初步类标作为训练样本数据，训练出各子样本图片集合所对应的样本分类模型；

处理模块5用于针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各样本分类模型中，以供各样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标。

图6为本公开中第一构建模块的一种结构框图，如图6所示，作为一种可选方案，第一构建模块1包括：采集单元101、尺寸调整单元102和构建单元103。

其中，采集单元101用于采集具有标定类标的多张原始样本图片。

尺寸调整单元102用于对原始样本图片进行尺寸调整处理，以对原始样本图片的尺寸进行统一化。

构建单元103用于将完成尺寸调整处理的原始样本图片作为母样本图片，以构建出母样本图片数据库。

在一些实施例中，母样本图片的形状为正方形；选取框的形状为正方形；选取框的边长与母样本图片的边长的比值等于第一预定系数q，其中0＜q＜1；进一步优选地，第一预定系数q满足：0.5≤q ≤0.7。

在一些实施例中，在采样模块2对母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合的过程中，每个母样本图片集合所包含的母样本图片的数量相等；一个母样本图片集合所包含的母样本图片的数量与母样本图片数据库所包含的母样本图片的数量的比值等于第二预定系数p，其中0＜p＜1。进一步优选地，第二预定系数p满足：0.4≤p≤0.6。

在一些实施例中，在提取模块3采用具有预定尺寸的选取框从该母样本图片集合内的每一张母样本图片中均提取出多张子样本图片的过程中，从一张母样本图片所提取出的子样本图片的数量为预定数量N；其中预定数量N为正整数，且3≤N≤10。

对于本实施例中各模块、单元的具体描述可参见前述方法实施例中的相应内容，此次不再赘述。

图7为本公开实施例提供的另一种样本数据获取***的结构框图，如图7所示，图7所示样本数据获取***可用于实现图3所示样本数据获取方法，图7所示样本数据获取***不但包括图5中所示的第一构建模块1、采样模块2、提取模块3、训练模块4和处理模块5，还包括：判断模块6a、第二构建模块7a和第一控制模块8a。

其中，判断模块6a用于在处理模块确定出每一个子样本图片集合中的每一张子样本图片的标定类标后，判断子样本图片的边长是否小于或等于预定长度阈值。

第二构建模块7a用于当判断模块6a判断出子样本图片的边长大于预定长度阈值时，则以具有标定类标的子样本图片作为新的母样本图片，构建出新的母样本图片数据库，并控制采样模块2基于新的母样本图片数据库继续执行相应处理；

第一控制模块8a用于当判断模块6a判断出子样本图片的边长小于或等于预定长度阈值时，控制样本数据获取***停止工作。

对于本实施例中各模块的具体描述可参见前述方法实施例中的相应内容，此次不再赘述。

图8为本公开实施例提供的另一种样本数据获取***的结构框图，如图8所示，图8所示样本数据获取***可用于实现图4所示样本数据获取方法，图8所示样本数据获取***不但包括图5中所示的第一构建模块1、采样模块2、提取模块3、训练模块4和处理模块5，还包括：监控模块6b、第三构建模块7b和第二控制模块8b。

监控模块6b用于在处理模块确定出每一个子样本图片集合中的每一张子样本图片的标定类标后，监控处理模块的循环执行累计次数是否达到预定次数阈值；

第三构建模块7b用于在监控模块6b监控到循环执行累计次数未到达预定次数阈值时，以具有标定类标的子样本图片作为新的母样本图片，构建出新的母样本图片数据库，并控制采样模块2基于新的母样本图片数据库继续执行相应处理；

第二控制模块8b用于当监控模块6b监控到循环执行累计次数到达预定次数阈值时，控制样本数据获取***停止工作。

作为一种具体应用场景，以预定任务为针对眼底图片的病灶检测任务为例，进行示例描述。

首先，将完成标注的眼底图片作为原始样本，采用前述任一实施例所提供的样本数据获取方法或样本数据获取***，对这些眼底图片进行处理，以得到大量的小尺寸子样本图片，且这些小尺寸子样本均被标注。其中，假定最终得到的小尺寸子样本图片的尺寸为w×d；

然后，以上述获取到的大量小尺寸子样本图片作为训练样本数据，基于深度学习技术，生成针对病灶检测任务的病灶检测模型。假定训练出的病灶检测模型为二分类模型，该二分类模型可用于检测输入的图片内是否存在病灶。

接着，将待处理的眼底图片(未进行标注)划分出尺寸为w×d 的多个检测区域，并将每个检测区域所对应的图像作为输入数据，输入至先前训练出的病灶检测模型内，以对检测出各检测区域内是否存在病灶；

当检测出在至少一个检测区域内存在病灶时，则识别出该待处理的眼底图片内存在病灶，并根据存在病灶的检测区域来对病灶区域进行定位；当检测出没有检测区域内存在病灶时，则识别出待处理的眼底图片内不存在病灶。

本公开实施例还提供了一种服务器，该服务器包括前述实施例所提供的样本数据获取***。

本公开实施例还提供了一种服务器，该服务器包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如前述实施例所提供的样本数据获取方法。

本公开实施例还提供了一计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被执行时实现如前述实施例所提供的样本数据获取方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块 /单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种样本数据获取方法，其特征在于，包括：

针对每一个所述母样本图片集合，采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片，并为每张所述子样本图片赋予初步类标，以得到每一个所述母样本图片集合所对应的子样本图片集合，所述子样本图片的初步类标为其所属母样本图片的标定类标，其中所述选取框的尺寸小于所述母样本图片的尺寸，所述子样本图片集合中的每张子样本图片的尺寸小于对应的母样本图片的尺寸；

2.根据权利要求1所述的方法，其特征在于，所述母样本图片的形状为正方形；

所述选取框的形状为正方形；

3.根据权利要求2所述的方法，其特征在于，在所述针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各所述样本分类模型中，以供各所述样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标的步骤之后，还包括：

判断所述子样本图片的边长是否小于或等于预定长度阈值；

4.根据权利要求2所述的方法，其特征在于，在所述针对每一个子样本图片集合中的每一张子样本图片，将该子样本图片分别输入至各所述样本分类模型中，以供各所述样本分类模型分别输出相应的分类结果，并选取频数最大的一个分类结果作为该子样本图片的标定类标的步骤之后，还包括：

5.根据权利要求2所述的方法，其特征在于，所述第一预定系数q满足：0.5≤q≤0.7。

6.根据权利要求1所述的方法，其特征在于，在对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合的步骤中，每个母样本图片集合所包含的母样本图片的数量相等；

7.根据权利要求6所述的方法，其特征在于，所述第二预定系数p满足：0.4≤p≤0.6。

8.根据权利要求1所述的方法，其特征在于，在采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片的步骤中，从一张所述母样本图片所提取出的子样本图片的数量为预定数量N；

其中预定数量N为正整数，且3≤N≤10。

9.根据权利要求1-8中任一所述的方法，其特征在于，所述构建母样本图片数据库的步骤包括：

采集具有标定类标的多张原始样本图片；

10.一种样本数据获取***，其特征在于，包括：

提取模块，用于针对每一个所述母样本图片集合，采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片，并为每张所述子样本图片赋予初步类标，以得到每一个所述母样本图片集合所对应的子样本图片集合，所述子样本图片的初步类标为其所属母样本图片的标定类标，其中所述选取框的尺寸小于所述母样本图片的尺寸，所述子样本图片集合中的每张子样本图片的尺寸小于对应的母样本图片的尺寸；

11.根据权利要求10所述的***，其特征在于，所述母样本图片的形状为正方形；

所述选取框的形状为正方形；

12.根据权利要求11所述的***，其特征在于，还包括：

13.根据权利要求11所述的***，其特征在于，还包括：

14.根据权利要求11所述的***，其特征在于，所述第一预定系数q满足：0.5≤q≤0.7。

15.根据权利要求10所述的***，其特征在于，在所述采样模块对所述母样本图片数据库进行多次采样，以得到对应的多个母样本图片集合的过程中，每个母样本图片集合所包含的母样本图片的数量相等；

16.根据权利要求15所述的***，其特征在于，所述第二预定系数p满足：0.4≤p≤0.6。

17.根据权利要求10所述的***，其特征在于，在所述提取模块采用具有预定尺寸的选取框从该母样本图片集合内的每一张所述母样本图片中均提取出多张子样本图片的过程中，从一张所述母样本图片所提取出的子样本图片的数量为预定数量N；

其中预定数量N为正整数，且3≤N≤10。

18.根据权利要求10-17中任一所述的***，其特征在于，所述第一构建模块包括：

采集单元，用于采集具有标定类标的多张原始样本图片；

19.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。