CN113256637B

CN113256637B - 一种基于深度学习、上下文相关的尿液有形成分检测方法

Info

Publication number: CN113256637B
Application number: CN202110802795.8A
Authority: CN
Inventors: 李柏蕤; 连荷清
Original assignee: Beijing Xiaofei Technology Co ltd
Current assignee: Beijing Xiaofei Technology Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-05
Anticipated expiration: 2041-07-15
Also published as: US20240153272A1; WO2023284341A1; EP4361946A1; CN113256637A

Abstract

本发明提供一种基于深度学习、上下文相关的尿液有形成分检测方法，在显微成像设备的视野下对尿液样本进行视频采集，从尿液视频中抽取图像，得到带有时间序列的单帧图像数据，标注出单帧图像数据的有形成分位置和类别，并分为训练集和测试集；构建具有检测、跟踪、预测、上下文关联匹配、定位和比对识别功能的尿液有形成分检测分类模型，使用训练集和测试集进行模型训练；然后对待检测尿液样本进行检测。本发明解决尿液在显微镜视野下有形成分位置易变化而产生漏检、重复检测的问题，基于Transformer技术，将基于卡尔曼滤波目标跟踪技术应用于尿液细胞计数，充分考虑长尾分布，光照等干扰因素，解决上述问题的同时达到速度和精度的权衡，具有临床应用价值。

Description

一种基于深度学习、上下文相关的尿液有形成分检测方法

技术领域

本发明涉及计算、推算、计数技术领域，具体涉及一种基于深度学习、上下文相关的尿液有形成分检测方法。

背景技术

尿液有形成分是指来自泌尿***，并以可见形式渗出、排出、脱落和浓缩结晶所形成的物质的总称。尿液有形成分分析是指用显微镜或专用设备对尿液有形成分进行检查，识别尿液中细胞、管型、结晶、细菌、寄生虫等各种病理成分，辅助泌尿***疾病的诊断、定位、鉴别诊断及判断预后。

尿液有形成分检测属于流动液体检测，在相同显微成像视野下每一帧中有形成分的位置都可能会有变化，因此易漏检。

现有的尿液有形成分检测方法主要有以下几种：

（1）、干化学分析法。由含干化学试剂的模块附着在坚固的塑料条或纸条上构成的。尿液中各种常规化学检查内容与干化学试剂发生反应，使模块颜色发生变化，其颜色的深浅与尿液中相应化学成分的浓度成正比。

（2）、仪器检查法以流式细胞术进行成分分析为代表。流式分析仪利用尿液中有形成分经荧光色素（如菲啶与羧化氰等）染料染色后，在鞘流液的作用下，形成单列、快速通过氩激光检测区，仪器检测荧光、散射光和电阻抗的变化。

（3）、人工镜检法，尿液有形成分检测的金标准。医生通常需要在显微镜40x物镜下观察整个尿液玻片，一般需要数分钟到数十分钟不等。

但现有的检测方法都存在一些不足，干化学分析法不能替代病理性尿标本的显微镜检查，并且对白细胞、管型和结晶的检测属于间接检测，很难判断尿红细胞形态特征；仪器检查法，存在一定误差，仍需要人工显微镜复检；人工镜检法耗费时间人力，且易造成人为误差。

另外，现有尿液有形成分检测的算法中，图像分割方法只能得到单个有形成分，泛化性极差，受光照，对比度，颜色等因素干扰严重，泛化能力弱，速度慢，并且未考虑细胞的类别不均衡问题，导致严重的识别偏移，使得尾部类别的细胞无法被正确识别，无较大实际应用价值。

因此，亟需一种快速、高精度的尿液有形成分检测方法。

发明内容

本发明是为了解决尿液在显微镜视野下有形成分位置易变化而产生漏检和重检的问题，提供一种基于深度学习、上下文相关的尿液有形成分检测方法，基于Transformer技术，将基于卡尔曼滤波目标跟踪技术应用于尿液细胞计数，充分考虑长尾分布，光照等干扰因素，在一定程度上解决上述问题时达到速度和精度的权衡，具有较强的临床应用价值。

本发明提供一种基于深度学习、上下文相关的尿液有形成分检测方法，包括如下步骤：

S1、建立有形成分数据集：在显微成像设备的视野下对标注用尿液样本进行视频采集，得到标注用尿液视频；从标注用尿液视频中抽取图像，得到带有时间序列n的单帧图像数据；在单帧图像数据上标注出有形成分位置和类别，得到有形成分数据集，并将有形成分数据集分为训练集和测试集；

S2、建立尿液有形成分检测分类模型：构建具有检测、跟踪、预测、上下文关联匹配、定位和比对识别功能的尿液有形成分检测分类模型，使用训练集和测试集进行模型训练；

S3、待测尿液检测：在显微成像设备的视野下对待检测尿液样本进行视频采集，得到待测尿液视频；从待测尿液视频中抽取图像，得到带有时间序列n的单帧图像数据；尿液有形成分检测分类模型通过检测、跟踪、预测和上下文关联匹配后定位单帧图像数据中全部有形成分并进行编号，将有形成分与有形成分数据集比对后识别有形成分的种类和数量后输出最终结果，检测完成。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S2包括：

S21、构建模型：构建Transformer检测模型、跟踪模型和识别模型，并使用训练集和测试集进行模型训练；

S22、第一帧图像检测：Transformer检测模型对时间序列为1的单帧图像数据进行检测，得到目标的检测框坐标（

）及相应的坐标框变化率(

)，（

）为时间序列1单帧图像的中心点坐标，

为时间序列1单帧图像检测框宽度，

为时间序列为1单帧图像检测框高度；

S23、跟踪图像数据：将检测框坐标（

）及坐标框变化率(

)输入跟踪模型进行跟踪模型初始化；

S24、抽取图像：抽取时间序列为n单帧图像数据，n初始为2，图像检测进入步骤S25，状态预测进入步骤S26；

S25、图像检测：Transformer检测模型对单帧图像数据进行检测，得到目标的检测框坐标（

）及相应的坐标框变化率(

)，进入步骤S27，其中，（

）为时间序列n单帧图像中心点坐标，

为时间序列n单帧图像检测框宽度，

为时间序列n单帧图像检测框高度；

S26、状态预测：跟踪模型对上一个单帧图像的检测框坐标进行状态预测得到检测框预测坐标（

），进入步骤S27；

S27、上下文关联匹配：将检测框坐标（

）与检测框预测坐标（

）进行匹配，根据匹配结果将检测框分为匹配目标、可能丢失目标和丢失目标；

S28、跟踪模型更新：将匹配目标、可能丢失目标和丢失目标输入跟踪模型进行跟踪模型更新后，判断是否全部单帧图像数据检测、跟踪完成，若否，则n=n+1，返回步骤S24，若是，获得全部匹配目标；

S29、匹配目标识别：识别模型对全部匹配目标进行识别，获得有形成分的种类和数量并输出，模型训练完成。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S21中，Transformer检测模型包括依次设置的编码器、解码器和多层神经网络映射层；

编码器包括顺序连接的至少两个多头自注意力模块，编码器用于将单帧图像数据分割成k个图像块，通过第一个多头自注意力模块的查询矩阵Qi、值矩阵Vi和关键字矩阵Ki将图像块线性变换得到图像块的特征表达，将特征表达叠加多头自注意力模块的特征后输入下一个多头自注意力模块，直至最后一个多头自注意力模块得到图像块最终特征表达，图像块最终特征表达与位置编码叠加后得到解码器输入特征；

解码器包括顺序连接的至少一个多头自注意力模块，解码器用于将解码器输入特征经至少两个多头自注意力模块解码后得到解码后特征向量；

多层神经网络映射层用于将解码后特征向量进行计算后得到对应的特征向量并经过线性映射后得到检测框坐标（

）和及相应的坐标框变化率(

)。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，单帧图像数据像素为608*608，k为16，图像块像素为38*38；

编码器包括顺序连接的四个多头自注意力模块，解码器包括顺序连接的四个多头自注意力模块，多层神经网络为三层全连接层神经网络；

Transformer检测模型的检测结果为：

)

)；

其中，

为

的图像编码，pos为单帧图像在整个图像中的位置编号，i是位置编码的维度，

为位置编码的总的维度；

检测结果作为跟踪模型的待匹配对象，输入跟踪模型。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S21中，跟踪模型为基于卡尔曼滤波预测的跟踪模型或者跟踪模型使用以下任意一种算法：SSD算法、FPN算法、Fast R-CNN算法、faster R-CNN算法、mask R-CNN算法、efficentNet算法、YOLO /v2/v3/v4/v5算法和RetianNet算法。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S21中，跟踪模型中卡尔曼滤波的状态包括：中心点坐标（

）、检测框的宽高（

），中心点坐标的变化率（

）和检测框宽高的变化率（

）。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S21中，跟踪模型采用如下公式：

=A*

B*

+

=H*

；

其中，

为***状态矩阵，

为状态矩阵观测量，A为状态转移矩阵，B为控制输入矩阵，H为状态观测矩阵，

为过程噪声，

为测量噪声。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S22中，目标包括细胞和晶体。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S27中，可能丢失目标为小于等于5次未匹配的目标，丢失目标为5次以上未匹配的目标，丢失目标包括移动过快目标和虚焦目标；

匹配的方法包括：曼哈顿距离计算法、表征相似度计算法和匈牙利算法。

本发明所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，作为优选方式，步骤S21中，识别模型的识别方法为：

A、分组：将所有匹配目标分为四组，并为每个组分别设置一个other类别；

B、推断：当样本真实类别在其他分组时，此分组的类别即为other类别，选取所有组内概率最大的类别。

本发明构建模型的具体方法如下：

1、构建单帧尿液图像检测分类模型。

首先，输入608*608的图像，将其按照38*38的像素大小等分成16份。将该16个图像块作为需要计算注意力系数的图像块，送入编码器的‘多头自注意力（M-SELF-ATTENTION）’模块，分别计算该图像块同其他图像块之间的相关度。其中对于每个图像块，都有查询矩阵Qi,值矩阵Vi，关键字矩阵Ki。‘多头自注意力’模块运算规则如下：

对于当前图像块，设置其查询矩阵Qi,并将38*38图像块向量化后作为值矩阵Vi，将Qi和Vi进行矩阵运算，得到线性变换后的查询矩阵Qi*。

对于其他的图像块，分别设置关键字矩阵Ki，利用当前值矩阵Vi，将Ki和Vi进行矩阵运算，得到线性变换后的关键字矩阵Ki*。

基于（1）所计算得到的Qi*,基于（2）所计算的16个矩阵组合维一个大矩阵K*，将Q*和K*进行矩阵相乘运算即得到相关度矩阵W，对W进行归一化操作得到该图像块同其他图像块之间的相关度（0-1）。

将该相关度矩阵同其他图像块的值矩阵Vi做矩阵乘法，得到基于不同图像块的加权特征。将该特征经过全连接层进行映射，得到最终的该图像块的特征表达。其中全连接层用来控制最终表述的特征维度。

将最后得到的特征同输入‘多头自注意力’的特征（或图像）进行‘叠加’操作，得到新特征，作为下一级‘多头自注意力’的输入。将上述新特征送入第二级‘多头自注意力’模块。

重复上述操作，在编码器内得到最终的特征。整个编码流程共进行了四级‘多头自注意力’计算。然后进行解码，将编码器得到的特征的位置信息进行编码。将该位置编码同编码器得到的特征进行‘叠加’操作，得到最终解码器的输入特征。将该特征送入解码器，该解码器共包含四级‘多头注意力’操作，同编码器‘多头注意力’操作计算流程相似，最终解码器输出解码后的特征向量。该特征向量送入检测框对应的三层全连接层，得到该任务的特征向量，将该特征向量分别进行线性映射，得到检测框坐标，置信度。将检测结果作为跟踪模型的待匹配对象，输入追踪模型。

)

)；

其中pos为图像块在整个图像中的位置编号,i是位置编码的某个维度,

为位置编码的总的维度.

2、跟踪模型

在输入视频的每一帧中，基于步骤1所得到的目标目标的有效信息，建立基于卡尔曼滤波预测的跟踪模型。

除本实施例提出的模型之外，还包括SSD、FPN、Fast R-CNN 、faster R-CNN、maskR-CNN、efficentNet、YOLO /v2/v3/v4/v5、RetianNet等检测算法均可完成。

2.1 跟踪模型初始化

构建以卡尔曼滤波为原理的跟踪模型，将步骤1所得到的第一帧的细胞检测结果得到初始的跟踪目标。检测到的位置信息（w,y,w,h）作为初始化状态，对跟踪模型进行初始化。其中，所选取模型的状态有中心点坐标（x，y）检测框的宽高（w，h），以及中心电坐标的变化率（dx,dy）,坐标框宽高的变化率（dw，dh）等八个状态变量。初始化参数时采用常规经验进行状态转移矩阵等的初始化。

2.2 状态预测

首先，有2.1已对模型进行初始化，跟踪模型对跟踪到的目标进行状态预测，得到该模型预测的目标状态，即新的（w,y,w,h,dx,dy,dw,dh）。

2.3 目标匹配（上下文相关）

在输入的每一帧中，利用步骤1得到该帧所检测到的待匹配的目标，将检测到的目标同预测的目标进行匹配，得到两两配对的结果。对于上一帧中跟踪到的目标在这一帧终无匹配对象的目标，记为‘可能丢失目标’，将这一帧中检测到但未同上一帧跟踪到的目标所匹配的目标，记为新的跟踪目标，并对卡尔曼滤波模型其状态进行初始化。若某个目标被标记为‘可能丢失目标’超过5帧，则记该目标为‘丢失目标’，不再跟踪。

目标匹配方法：

曼哈顿距离

曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离，屏幕是由像素构成，是整数，点的坐标也是整数，欧式距离为浮点运算，速度慢且有累积误差，曼哈顿距离只要计算加减法即可，提高效率且降低了误差。

表征相似度

由于卡尔曼滤波预测的随机性，我们引入了基于相似度计算的匹配方法。我们利用孪生网络对前帧中检测到的目标同上一帧中跟踪到的目标进行相似度计算，得到不同目标间的相似度。

匈牙利算法（二分匹配）

利用曼哈顿距离得到当前帧中检测到的目标上一帧中跟踪到的目标进行距离计算，得到不同目标间的两两距离，将该距离同表征相似度进行加权得到匈牙利算法的权值矩阵，并且进行最佳目标的两两匹配，得到匹配后的结果。

2.4 跟踪模型参数更新

对于该帧中所有跟踪到的目标，对其状态及模型参数进行更新。得到新的跟踪到的目标的跟踪模型的参数和状态，重复2.2至2.4至结束。

3 识别模型

识别模型基于步骤1的检测框架，

由于异常细胞相对于目标中的所有细胞数量较少，且不同异常细胞所采集到的样本的数量不同，所以在前景和背景以及不同类别的细胞数量服从长尾分布，严重影响了模型的识别性能，我们采取对分类器进行分组的方法来缓解此种情况。

我们将细胞按照不同数量一共分为四组（包括背景类）。

在不同组上加入一个other类别，即当样本真实类别在其他分组时，此分组的类别即为other类别。

在推断时选取所有组内概率最大的类别。

采用此方法，使得分类器在不同类别上的权重差异较小，有力的缓解了长尾分布对识别模型所带来的严重影响。

4.有效成分定位

依据上述检测，识别，跟踪模型,我们为每一个跟踪到的对象赋予唯一的id（id从零开始，随着跟踪到的目标数依次增加）且识别出该目标的类别，最终可以得到有效的尿液中的细胞数量，类别。

本发明具有以下优点：

（1）本专利基于Transformer技术，将基于卡尔曼滤波目标跟踪技术应用于尿液细胞计数，充分考虑长尾分布，光照等干扰因素，在一定程度上解决上述问题时达到速度和精度的权衡，具有较强的临床应用价值；

（2）本方法针对尿液具有流动性，且具有分层现象（不同细胞位于不同高度，需逐层对焦），单纯的逐帧目标检测会造成重复检测，分层会导致逐帧目标检测漏检的问题，采用基于目标追踪的方法，可以较好的解决上述问题，单个成分精准定位与追踪，速度快，实时可出结果，不仅能降低人工成本，还能降低地区医疗差异，同时可有效的缓解尿液细胞类别不均衡带来的长尾识别问题，符合临床应用的需求。

附图说明

图1为一种基于深度学习、上下文相关的尿液有形成分检测方法实施例1-2流程图；

图2为一种基于深度学习、上下文相关的尿液有形成分检测方法模型构建示意图；

图3为一种基于深度学习、上下文相关的尿液有形成分检测方法流程图；

图4为一种基于深度学习、上下文相关的尿液有形成分检测方法实施例2步骤S2流程图；

图5为一种基于深度学习、上下文相关的尿液有形成分检测方法Transformer检测模型架构图；

图6为一种基于深度学习、上下文相关的尿液有形成分检测方法跟踪模型流程图；

图7为一种基于深度学习、上下文相关的尿液有形成分检测方法识别模型流程图；

图8为一种基于深度学习、上下文相关的尿液有形成分检测方法曼哈顿距离目标匹配方法示意图；

图9为一种基于深度学习、上下文相关的尿液有形成分检测方法匈牙利算法目标匹配示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

如图1所示，一种基于深度学习、上下文相关的尿液有形成分检测方法，包括如下步骤：

实施例2

如图1、2、3所示，一种基于深度学习、上下文相关的尿液有形成分检测方法，包括如下步骤：

如图4所示，步骤S2包括以下步骤：

如图5所示，Transformer检测模型包括依次设置的编码器、解码器和多层神经网络映射层；

）及相应的坐标框变化率(

)；

单帧图像数据像素为608*608，k为16，图像块像素为38*38；

Transformer检测模型的检测结果为：

)

)；

其中，

为

为位置编码的总的维度；

检测结果作为跟踪模型的待匹配对象，输入跟踪模型；

如图6所示，跟踪模型为基于卡尔曼滤波预测的跟踪模型或者跟踪模型使用以下任意一种算法：SSD算法、FPN算法、Fast R-CNN算法、faster R-CNN算法、mask R-CNN算法、efficentNet算法、YOLO /v2/v3/v4/v5算法和RetianNet算法；

跟踪模型中卡尔曼滤波的状态包括：中心点坐标（

）、检测框的宽高（

），中心点坐标的变化率（

）和检测框宽高的变化率（

）；

跟踪模型采用如下公式：

=A*

B*

+

=H*

；

其中，

为***状态矩阵，

为过程噪声，

为测量噪声；

如图7所示，识别模型的识别方法为：

B、推断：当样本真实类别在其他分组时，此分组的类别即为other类别，选取所有组内概率最大的类别；

）及相应的坐标框变化率(

)，（

）为时间序列1单帧图像的中心点坐标，

为时间序列1单帧图像检测框宽度，

为时间序列为1单帧图像检测框高度；目标包括细胞和晶体；

S23、跟踪图像数据：将检测框坐标（

）及坐标框变化率(

)输入跟踪模型进行跟踪模型初始化；

）及相应的坐标框变化率(

)，进入步骤S27，其中，（

）为时间序列n单帧图像中心点坐标，

为时间序列n单帧图像检测框宽度，

为时间序列n单帧图像检测框高度；

），进入步骤S27；

S27、上下文关联匹配：将检测框坐标（

）与检测框预测坐标（

可能丢失目标为小于等于5次未匹配的目标，丢失目标为5次以上未匹配的目标，丢失目标包括移动过快目标和虚焦目标；

如图8-9所示，匹配的方法包括：曼哈顿距离计算法、表征相似度计算法和匈牙利算法；

S29、匹配目标识别：识别模型对全部匹配目标进行识别，获得有形成分的种类和数量，模型训练完成；

实施例3

如图2-3所示，一种基于深度学习、上下文相关的尿液有形成分检测方法，包括如下步骤：

1、显微镜下尿液动态视频实时采集

首先在显微成像设备下对每个视野拍照采集，生成时间序列的单视野图像。

2、尿液有形成分数据标注

由专业医生在单上用特定标注工具标注出有形成分位置及类别信息，标注量达到一定规模后，将标注数据按照一定比例分为训练集和测试集，为构建神经网络模型准备数据。

3、基于Transformer的尿液有形成分检测，跟踪，识别模型构建

构建一个上下文相关的尿液有形成分检测，跟踪，识别算法。

3.1检测模型

如图5所示，构建单帧尿液图像检测分类模型。

)

)；

为位置编码的总的维度.

3.2 跟踪模型

在输入视频的每一帧中，基于3.1所得到的目标目标的有效信息，建立基于卡尔曼滤波预测的跟踪模型，过程如图6所示。

3.2.1 跟踪模型初始化

构建以卡尔曼滤波为原理的跟踪模型，将3.1所得到的第一帧的细胞检测结果得到初始的跟踪目标。检测到的位置信息（w,y,w,h）作为初始化状态，对跟踪模型进行初始化。其中，所选取模型的状态有中心点坐标（x，y）检测框的宽高（w，h），以及中心电坐标的变化率（dx,dy）,坐标框宽高的变化率（dw，dh）等八个状态变量。初始化参数时采用常规经验进行状态转移矩阵等的初始化。

3.2.2 状态预测

首先，有3.2.1已对模型进行初始化，跟踪模型对跟踪到的目标进行状态预测，得到该模型预测的目标状态，即新的（w,y,w,h,dx,dy,dw,dh）。

3.2.3 目标匹配（上下文相关）

在输入的每一帧中，利用3.1得到该帧所检测到的待匹配的目标，将检测到的目标同预测的目标进行匹配，得到两两配对的结果。对于上一帧中跟踪到的目标在这一帧终无匹配对象的目标，记为‘可能丢失目标’，将这一帧中检测到但未同上一帧跟踪到的目标所匹配的目标，记为新的跟踪目标，并对卡尔曼滤波模型其状态进行初始化。若某个目标被标记为‘可能丢失目标’超过5帧，则记该目标为‘丢失目标’，不再跟踪。

目标匹配方法：

曼哈顿距离

如图8所示，曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离，屏幕是由像素构成，是整数，点的坐标也是整数，欧式距离为浮点运算，速度慢且有累积误差，曼哈顿距离只要计算加减法即可，提高效率且降低了误差。

表征相似度

匈牙利算法（二分匹配）

如图9所示，利用曼哈顿距离得到当前帧中检测到的目标上一帧中跟踪到的目标进行距离计算，得到不同目标间的两两距离，将该距离同表征相似度进行加权得到匈牙利算法的权值矩阵，并且进行最佳目标的两两匹配，得到匹配后的结果。

3.2.4 跟踪模型参数更新

对于该帧中所有跟踪到的目标，对其状态及模型参数进行更新。得到新的跟踪到的目标的跟踪模型的参数和状态，重复3.2.2至3.2.4至结束。

3.3 识别模型

识别模型基于3.1的检测框架，如图7所示，

我们将细胞按照不同数量一共分为四组（包括背景类）。

在推断时选取所有组内概率最大的类别。

4.有效成分定位

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习、上下文相关的尿液有形成分检测方法，其特征在于：包括如下步骤：

S1、建立有形成分数据集：在显微成像设备的视野下对标注用尿液样本进行视频采集，得到标注用尿液视频；从所述标注用尿液视频中抽取图像，得到带有时间序列n的单帧图像数据；在所述单帧图像数据上标注出有形成分位置和类别，得到有形成分数据集，并将所述有形成分数据集分为训练集和测试集；

S2、建立尿液有形成分检测分类模型：构建具有检测、跟踪、预测、上下文关联匹配、定位和比对识别功能的尿液有形成分检测分类模型，使用所述训练集和所述测试集进行模型训练；

S21、构建模型：构建Transformer检测模型、跟踪模型和识别模型，并使用所述训练集和所述测试集进行模型训练；

所述跟踪模型为基于卡尔曼滤波预测的跟踪模型或者所述跟踪模型使用以下任意一种算法：SSD算法、FPN算法、Fast R-CNN算法、faster R-CNN算法、mask R-CNN算法、efficentNet算法、YOLO /v2/v3/v4/v5算法和RetianNet算法；

S22、第一帧图像检测：所述Transformer检测模型对时间序列为1的单帧图像数据进行检测，得到目标的检测框坐标（

）及相应的坐标框变化率(

)，（

）为时间序列为1的单帧图像的中心点坐标，

为所述时间序列为1的单帧图像检测框宽度，

为时间序列为1的单帧图像检测框高度；

S23、跟踪图像数据：将所述检测框坐标（

）及所述坐标框变化率(

)输入所述跟踪模型进行所述跟踪模型初始化；

S24、抽取图像：抽取时间序列为n的单帧图像数据，n初始为2，图像检测进入步骤S25，状态预测进入步骤S26；

S25、图像检测：所述Transformer检测模型对所述单帧图像数据进行检测，得到目标的检测框坐标（

）及相应的坐标框变化率(

)，进入步骤S27，其中，（

）为时间序列为n的单帧图像中心点坐标，

为所述时间序列为n的单帧图像检测框宽度，

为所述时间序列为n的单帧图像检测框高度；

S26、状态预测：所述跟踪模型对上一个所述单帧图像的检测框坐标进行状态预测得到检测框预测坐标（

），进入步骤S27；

S27、上下文关联匹配：将所述检测框坐标（

）与所述检测框预测坐标（

所述匹配的方法包括：曼哈顿距离计算法、表征相似度计算法和匈牙利算法，利用孪生网络对当前帧中检测到的目标同上一帧中跟踪到的目标进行相似度计算，得到不同目标间的相似度，利用曼哈顿距离对当前帧中检测到的目标与上一帧中跟踪到的目标进行距离计算，得到不同目标间的两两距离，将所述两两距离同所述相似度进行加权得到匈牙利算法的权值矩阵，并且进行最佳目标的两两匹配，得到匹配后的结果；

S28、跟踪模型更新：将所述匹配目标、所述可能丢失目标和所述丢失目标输入所述跟踪模型进行跟踪模型更新后，判断是否全部所述单帧图像数据检测、跟踪完成，若否，则n=n+1，返回步骤S24，若是，获得全部匹配目标；

S29、匹配目标识别：所述识别模型对全部所述匹配目标进行识别，获得所述有形成分的种类和数量并输出，模型训练完成；

所述识别模型的识别方法为：

A、分组：将所有所述匹配目标分为四组，并为每个组分别设置一个other类别；

S3、待测尿液检测：在显微成像设备的视野下对待检测尿液样本进行视频采集，得到待测尿液视频；从所述待测尿液视频中抽取图像，得到带有时间序列n的单帧图像数据；所述尿液有形成分检测分类模型通过检测、跟踪、预测和上下文关联匹配后定位所述单帧图像数据中全部所述有形成分并进行编号，将所述有形成分与所述有形成分数据集比对后识别所述有形成分的种类和数量，然后输出最终结果，检测完成。

2.根据权利要求1所述的一种基于深度学习、上下文相关的尿液有形成分检测方法，其特征在于：步骤S21中，所述Transformer检测模型包括依次设置的编码器、解码器和多层神经网络映射层；

所述编码器包括顺序连接的至少两个多头自注意力模块，所述编码器用于将所述单帧图像数据分割成k个图像块，通过第一个多头自注意力模块的查询矩阵Qi、值矩阵Vi和关键字矩阵Ki将所述图像块线性变换得到图像块的特征表达，将所述特征表达叠加所述多头自注意力模块的特征后输入下一个所述多头自注意力模块，直至最后一个所述多头自注意力模块得到图像块最终特征表达，所述图像块最终特征表达与位置编码叠加后得到解码器输入特征；

所述解码器包括顺序连接的至少一个多头自注意力模块，所述解码器用于将所述解码器输入特征经至少两个所述多头自注意力模块解码后得到解码后特征向量；

所述多层神经网络映射层用于将所述解码后特征向量进行计算后得到对应的特征向量并经过线性映射后得到所述检测框坐标（