CN108784636A

CN108784636A - 一种基于深度强化学习的人工智能胶囊内镜检查方法及***

Info

Publication number: CN108784636A
Application number: CN201810555536.8A
Authority: CN
Inventors: 于红刚; 吴练练; 宫德馨
Original assignee: Renmin Hospital of Wuhan University
Current assignee: Wuhan Endoangel Medical Technology Co Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-13
Anticipated expiration: 2038-06-01
Also published as: CN108784636B

Abstract

本发明公开了一种基于深度强化学习的人工智能胶囊内镜检查方法及***，该方法包括：胶囊内镜采集胃腔环境的图像，提取图像的特征值；将图像特征值输入预先训练的深度强化学习模型中，得到可执行的最大价值动作；利用深度强化学习模型输出的最大价值动作，根据胶囊内镜的状态生成相应的控制指令，控制胶囊内镜在复杂的胃腔环境中进行自主运动；自主运动动作完成后，根据实际完成情况获取回报值；并判定胶囊内镜是否到达终点位置。本发明旨在通过训练，使胶囊内镜能在复杂的高度动态的胃腔环境中，作出正确的决策；能控制胶囊内镜在复杂的胃腔环境中进行自主运动，智能化地、高效地、不遗漏地实现对全胃的检查。

Description

一种基于深度强化学习的人工智能胶囊内镜检查方法及***

技术领域

本发明涉及医疗器械领域，尤其涉及一种基于深度强化学习的人工智能胶囊内镜检查方法及***。

背景技术

我国是胃病大国，尤其是胃癌，发病率和死亡率一直居高不下。现有技术中,内镜检查在消化***疾病诊断中具有重要意义。

传统的电子胃镜作为一项侵入性检查，在实施过程中，会刺激患者咽喉，给患者带来生理不适，患者的依从性降低，耽误病情的早期诊断；此外，对医生操作水平和经验要求较高，培训一名优秀的消化内镜医生周期长耗费大；新世纪初，胶囊内镜登上舞台。患者只需吞入一颗小小的胶囊，就能在消化道的蠕动下历经整个消化过程，便于医生了解患者消化道内具体情况。胶囊内镜需要拍摄到胃底，贲门，胃体中上部，胃体下部，胃角，胃窦等部位的各个象限，才能避免漏诊。但是，胃是一个空腔器官，体积较大，胶囊内镜通过速度快，很难完整拍摄到上述部位的图像，存在许多观察盲区；磁控胶囊内镜是一种由医师推动操控杆遥控改变外部磁场来操纵胃内胶囊内镜的诊断工具，实现小步长(2mm)平移和小角度(3°)转动，提高了胃腔检查的完整度，已应用于少数高端体检中。但磁场对胶囊内镜的磁力取决磁铁距离胶囊的角度和距离，这要求操控者有丰富的经验能适应这些变化。

我们拟在现有胶囊内镜检查技术中，加入深度强化学习算法和动作控制模块，使内镜检查不再需要医生操作，能自己做出正确决策，不遗漏地完成全胃检查，减少医生工作量，节约时间、金钱和脑力成本。此外，本发明提供的检查技术安全舒适，检查过程无痛无创，易于被患者接受，有望尽早发现消化道疾病。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于深度强化学习的人工智能胶囊内镜检查方法及***。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于深度强化学习的人工智能胶囊内镜检查方法，该方法包括以下步骤：

步骤S10、胶囊内镜通过摄像头采集胃腔环境的图像，对图像进行处理，提取图像的特征值，将其作为运动前状态；

步骤S20、将图像特征值输入预先训练的深度强化学习模型中，得到运动前状态下，胶囊内镜可执行的最大价值动作；

步骤S30、利用深度强化学习模型输出的最大价值动作，根据胶囊内镜的状态生成相应的控制指令，控制胶囊内镜在复杂的胃腔环境中进行自主运动；

步骤S40、自主运动动作完成后，根据实际完成情况获取回报值；并判定胶囊内镜是否到达终点位置，若是，则本次检查结束；若否，则返回步骤S10重复执行，直至到达终点位置。

进一步地，本发明的步骤S10中提取图像的特征值的方法具体为：利用卷积神经网络对图像进行卷积处理，得到卷积特征。

进一步地，本发明的步骤S20中深度强化学习模型的训练方法具体为：

获取训练数据，包括运动前状态s，执行动作a，运动后状态s’，执行对应动作后的回报值r；

胶囊内镜通过摄像头采集图像，处理图像，提取特征值，将此作为运动前状态s，任意选择一个动作a执行；若胶囊内镜执行动作a到达或接近期望位置，给予相应的奖励值；反之，若胶囊内镜执行动作a后偏离期望位置，则给予相应的惩罚值；

将训练数据中的运动前状态s输入预训练的深度强化学习模型并反向传播，得到Q值；将训练数据中的运动后状态s’输入预训练的深度强化学习模型并反向传播，得到maxQ’值；将运动前状态s的Q值更新为r+γmax Q’，其中γ为折扣因子；

其中，反向传播过程采用梯度下降法进行迭代更新；Q值计算方法使用贝尔曼方程；执行动作的选择采用ε-greedy方式，随机选取动作。

进一步地，本发明的步骤S20中深度强化学习模型的训练方法还包括：

根据选择的算法，设计深度神经网络，构建合适的深度强化学习模型，算法包括：DQN算法、A3C算法和UNREAL算法。

进一步地，本发明的步骤S40中获取的回报值用于对深度强化学习模型进行优化，其方法具体为：

自主运动动作完成后，根据期望和实际完成情况获取回报值，并对深度强化学习模型参数进行更新，不断调整优化深度强化学习模型；

在进行胶囊内镜实际检查时，训练好的深度强化学习模型会给出最大价值动作供胶囊内镜执行，将实际操作中的运动前状态s，执行动作a，运动后状态s’，执行对应动作后的回报值r作为经验，供已经训练好的深度强化学习模型进行学习更新，即重复步骤S20的操作，不断完善深度强化学习模型。

进一步地，本发明的步骤S20中的深度强化学习模型的表达形式为：

深度强化学习模型即构建损失函数，训练过程就是对损失函数的优化，损失函数的表达形式为：

L(w)＝E[(r+γmaxQ’-Q)²]

其中，r执行对应动作a后的回报值；γ为折扣因子；将训练数据中的运动前状态s输入预训练的深度强化学习模型并反向传播，得到Q值；将训练数据中的运动后状态s’输入预训练的深度强化学习模型并反向传播，得到maxQ’值；将运动前状态s的Q值更新为r+γmax Q’。

本发明提供一种基于深度强化学习的人工智能胶囊内镜检查***，该***包括以下模块：

状态获取模块：用于根据胶囊内镜的摄像头采集胃腔环境的图像，对图像进行处理，提取图像的特征值，进而获得当前状态；

深度强化学习模块：用于获取训练数据，将其输入深度强化学习模块，训练深度强化学习模型；并将特征值输入深度强化学习模型进行处理，得到胶囊内镜可执行的最大价值对应的动作；

控制指令生成与执行模块：利用深度强化学习模块输出的最大价值动作，根据胶囊内镜的状态生成相应的控制指令，调整胶囊内镜的体外梯度线圈和匀场线圈的电压，改变磁场强度，控制胶囊内镜在复杂的胃腔环境中进行自主运动；

通信模块：用于实现状态获取模块、深度强化学习模块、控制指令生成与执行模块之间的连接，并实现它们之间的数据通信。

进一步地，本发明的状态获取模块包括：

图像采集单元：通过胶囊内镜搭载的摄像头，拍摄检查环境的图像，用于获取胶囊内镜当前状态；

特征值提取单元：根据图像采集单元采集的环境图像，利用卷积神经网络处理，提取特征值，并将特征值输入到深度强化学习模块。

进一步地，本发明的深度强化学习模块包括：

训练数据存储单元：用于获取并存储训练数据，包括运动前状态s，执行动作a，运动后状态s’，执行对应动作后的回报值r；

奖惩单元：用于根据胶囊内镜执行动作a后到达位置的情况，给予对应的奖惩值。

本发明产生的有益效果是：本发明的基于深度强化学习的人工智能胶囊内镜检查方法及***，1、胃部的内镜检查实现全自动化，不再需要医生进行操作：本发明训练后的深度强化学习模型能够自动帮助胶囊内镜进行决策，按照一定的顺序不遗漏地进行检查，不再需要医生操作，节约时间成本。2、检查过程无创无痛，更易被患者接受，可早期发现消化道疾病，早期进行治疗，患者预后更好。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的基于深度强化学习的人工智能胶囊内镜检查方法的流程图。

图2是本发明的基于深度强化学习的人工智能胶囊内镜检查***的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一：

本发明实施例的基于深度强化学习的人工智能胶囊内镜检查方法，该方法包括：

步骤S10：胶囊内镜通过摄像头采集图像，处理图像，提取图像特征值，将此作为运动前状态；

通过胶囊内镜拍摄图像作为当前agent的状态，输入深度强化学习模块，以期得到决策动作。本实施例中，为减少计算机处理时间，可对采集图像做预处理，包括进行灰度化与降采样等操作，然后将预处理后的图像输入卷积神经网络进行特征值的提取。

步骤S20：将步骤S10中提取的图像特征值，输入预先训练的深度强化学习模型中，得到此状态下胶囊内镜可执行的最大价值动作；

深度强化学习是将深度学习与增强学习结合起来，输入感知信息，然后通过深度神经网络，直接输出最大价值动作。

深度强化学习模型训练方法包括：获取训练数据，包括运动前状态s，执行动作a，运动后状态s’，执行对应动作后的回报值r。

胶囊内镜通过摄像头采集图像，处理图像，提取特征值，将此作为运动前状态s，任意选择一个动作a执行。若胶囊内镜执行动作a到达或接近期望位置，给予相应的奖励值；反之，若胶囊内镜执行动作a后偏离期望位置，则给予相应的惩罚值。

将训练数据中的运动前状态s输入预训练的深度强化学习模型并反向传播，得到Q值；将训练数据中的运动后状态s’输入预训练的深度强化学习模型并反向传播，得到maxQ’值；将运动前状态s的Q值更新为r+γmax Q’，其中γ为折扣因子；需要说明的是，反向传播过程采用梯度下降法进行迭代更新；Q值计算方法使用贝尔曼方程；执行动作的选择采用ε-greedy方式，随机选取动作；

本实施例中，利用上述操作完成深度强化学习模型的训练。需要清楚的是，模型的训练并不局限于上述操作，可根据选择的深度强化学习算法，设计深度神经网络，构建合适的深度强化学习模型。

深度强化学习的前沿算法有三种。DQN算法是第一个被提出的深度强化学习算法，仅使用价值网络，训练效率较低，需要大量的时间训练，并且只能面向低维的离散控制问题，通用性有限。A3C算法相比DQN算法而言，是一个更好更通用的深度强化学习算法。相比DQN算法，A3C算法不需要使用经验池来存储历史样本，节约了存储空间，并且采用异步训练，大大加倍了数据的采样速度，也因此提升了训练速度。与此同时，采用多个不同训练环境采集样本，样本的分布更加均匀，更有利于神经网络的训练。UNREAL算法是最新的深度强化学习算法，在A3C算法的基础上对性能和速度进行进一步提升，UNREAL算法通过设置多个辅助任务，同时训练同一个A3C网络，从而加快学习的速度，并进一步提升性能。

完整的胶囊内镜检查，需要拍摄到胃底，贲门，胃体中上部，胃体下部，胃角，胃窦等部位的各个象限的图像，才能避免漏诊。本发明具体实施中，我们希望胶囊内镜能按照一定的顺序自动完成上述各个部位的检查，若当前状态为胃底，根据深度强化学习模块的输出，可以将胶囊内镜转移到贲门部拍摄图像。

深度强化学习模型的表达形式为：

L(w)＝E[(r+γmaxQ’-Q)²]

步骤S30：利用深度强化学习模型输出的最大价值动作，根据胶囊内镜的状态生成相应的控制指令，控制胶囊内镜在复杂的胃腔环境中进行自主运动；

本实施例中，被检查患者处于含有电磁线圈产生的磁场中，线圈包括梯度线圈和匀场线圈，梯度线圈产生均匀场强梯度磁场，匀场线圈产生均匀磁场强度磁场，通过调节供电电压来调节其电流，进而有效地调整磁场，对内置有永磁体的胶囊内镜产生不同电磁作用力，完成状态的转移。

步骤S40：动作执行完成后，根据期望和实际完成情况获取回报值；同时，判定胶囊内镜是否到达终点位置，若是，则本次检查结束；若否，则重复执行上述步骤，直至到达所述终点位置。

胶囊内镜在胃内需要拍到胃底、贲门(远景)、贲门(近景)、胃体后壁、胃体大小弯、胃体前壁、胃角、胃窦、幽门、十二指肠球部十个部位的清晰图像，我们希望胶囊内镜能够按照上述一定的顺序进行运动。举例而言，根据图像特征值提取到胶囊内镜处于胃底这部位，将特征值输入深度强化学习模型得到当前可执行的最大价值动作，执行最大价值动作后，能够拍摄到贲门(远景)，与期望相符，则给予正回报值，为胶囊内镜加分；若胶囊内镜执行动作后，拍摄到的部位是胃体后壁，虽然也观察到了胃内情况，但是没有按照我们期望的顺序进行，则给予负回报值。

更优选地，步骤S40中，根据运动前状态和最大价值对应的执行控制指令，获取胶囊内镜运动后状态，获取回报值，并对深度强化学习模型参数进行更新，不断调整优化深度强化学习模型。同时，判断运动后状态是否为胃部检查的终点位置，是则本次检查结束，否则将运动后状态设置为下一***作的运动前状态，并循环上述操作。

参数更新时，在进行胶囊内镜实际检查时，训练好的深度强化学习模型会给出最大价值动作供胶囊内镜执行，可以将实际操作中的运动前状态s，执行动作a，运动后状态s，，执行对应动作后的回报值r作为经验，供已经训练好的深度强化学习模型进行学习更新，即重复步骤S20的操作，不断完善深度强化学习模型。

通常一份完整的胃镜检查报告需要包含口咽部、食管、贲门、胃底、胃体、胃角、胃窦、幽门、十二指肠球部及降部10个部位的至少31张图片，本实施例中，胶囊内镜按照上述顺序进行移动，拍摄到十二指肠降部图像即可结束本次检查。

本发明实施例建立深度强化学习模型，通过采集图像提取特征值获得胶囊内镜当前状态，输入模型，以获得当前状态最有价值动作并执行，将执行动作后的回报值反馈给深度强化学习模型，不断优化该模型。本发明不需要医生进行操作，实现全自动化，同时检查过程无创无痛，易于被患者接受，尽早发现疾病，尽早治疗疾病，使患者利益最大化。

实施例二

另一方面，本发明实施例的基于深度强化学习的人工智能胶囊内镜检查***，包括：

状态获取模块：用于根据胶囊内镜摄像头拍摄图像获得胶囊内镜当前状态；

深度强化学习模块：用于将所述特征值输入深度强化学习模型进行处理，得到最大价值对应的动作；用于将训练数据输入该模块，训练深度强化学习模型，以使经过训练后的深度强化学习模型能够进行决策分析；

控制指令生成与执行模块：利用深度强化学习模块输出的最大价值动作，根据胶囊内镜的状态生成相应的控制指令，调整体外梯度线圈和匀场线圈的电压，改变磁场强度，控制胶囊内镜在复杂的胃腔环境中进行自主运动。

通信模块：用于状态获取模块、深度强化学习模块、控制指令生成与执行模块的连接。

更优选地，状态获取模块包括：

特征值提取单元：根据图像采集模块采集的环境图像，利用卷积神经网络处理，用于提取特征值，便于输入深度强化学习模块进行分析。

更优选地，深度强化学习模块包括：

训练数据存储单元：包括运动前状态s，执行动作a，运动后状态s’，执行对应动作后的回报值r；

奖惩单元：用于根据胶囊内镜执行动作a后到达位置的情况，给予对应的奖励值；反之，根据胶囊内镜执行动作a后偏离位置的情况，给予相应的惩罚值。

其中，状态获取模块具体用于，采集胃内图像，使用卷积神经网络提取特征值，获得胶囊内镜的当前状态。

其中，深度强化学习模型的训练可根据选择的深度强化学习算法，设计合适的深度神经网络，构建适合的深度强化学习模型。

本发明实施例中通信模块将状态获取模块、深度强化学习模块、控制指令生成和执行模块连接，传递信息。通过采集图像提取特征值获得胶囊内镜当前状态，输入模型，以获得当前状态最有价值动作并执行，将执行动作后的回报值反馈给深度强化学习模型，不断优化该模型。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于深度强化学习的人工智能胶囊内镜检查方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的人工智能胶囊内镜检查方法，其特征在于，步骤S10中提取图像的特征值的方法具体为：利用卷积神经网络对图像进行卷积处理，得到卷积特征。

3.根据权利要求1所述的基于深度强化学习的人工智能胶囊内镜检查方法，其特征在于，步骤S20中深度强化学习模型的训练方法具体为：

获取训练数据，包括运动前状态s，执行动作a，运动后状态s，，执行对应动作后的回报值r；

将训练数据中的运动前状态s输入预训练的深度强化学习模型并反向传播，得到Q值；将训练数据中的运动后状态s，输入预训练的深度强化学习模型并反向传播，得到maxQ，值；将运动前状态s的Q值更新为r+γmax Q，，其中γ为折扣因子；

4.根据权利要求1所述的基于深度强化学习的人工智能胶囊内镜检查方法，其特征在于，步骤S20中深度强化学习模型的训练方法还包括：

5.根据权利要求3所述的基于深度强化学习的人工智能胶囊内镜检查方法，其特征在于，步骤S40中获取的回报值用于对深度强化学习模型进行优化，其方法具体为：

在进行胶囊内镜实际检查时，训练好的深度强化学习模型会给出最大价值动作供胶囊内镜执行，将实际操作中的运动前状态s，执行动作a，运动后状态s，，执行对应动作后的回报值r作为经验，供已经训练好的深度强化学习模型进行学习更新，即重复步骤S20的操作，不断完善深度强化学习模型。

6.根据权利要求3所述的基于深度强化学习的人工智能胶囊内镜检查方法，其特征在于，根据步骤S20中的深度强化学习模型的表达形式为：

L(w)＝E[(r+γmaxQ，-Q)²]

其中，r执行对应动作a后的回报值；γ为折扣因子；将训练数据中的运动前状态s输入预训练的深度强化学习模型并反向传播，得到Q值；将训练数据中的运动后状态s，输入预训练的深度强化学习模型并反向传播，得到maxQ，值；将运动前状态s的Q值更新为r+γmaxQ，。

7.一种基于深度强化学习的人工智能胶囊内镜检查***，其特征在于，该***包括以下模块：

8.根据权利要求7所述的基于深度强化学习的人工智能胶囊内镜检查***，其特征在于，状态获取模块包括：

9.根据权利要求7所述的基于深度强化学习的人工智能胶囊内镜检查***，其特征在于，深度强化学习模块包括：

训练数据存储单元：用于获取并存储训练数据，包括运动前状态s，执行动作a，运动后状态s，，执行对应动作后的回报值r；