CN110689025B - 图像识别方法、装置、***及内窥镜图像识别方法、装置 - Google Patents
图像识别方法、装置、***及内窥镜图像识别方法、装置 Download PDFInfo
- Publication number
- CN110689025B CN110689025B CN201910872399.5A CN201910872399A CN110689025B CN 110689025 B CN110689025 B CN 110689025B CN 201910872399 A CN201910872399 A CN 201910872399A CN 110689025 B CN110689025 B CN 110689025B
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- output
- image recognition
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012512 characterization method Methods 0.000 claims abstract description 26
- 238000003745 diagnosis Methods 0.000 claims description 61
- 238000011176 pooling Methods 0.000 claims description 56
- 238000012549 training Methods 0.000 claims description 56
- 230000007704 transition Effects 0.000 claims description 56
- 238000013527 convolutional neural network Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 47
- 201000010099 disease Diseases 0.000 claims description 41
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 41
- 238000010606 normalization Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 24
- 230000003902 lesion Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 16
- 239000003086 colorant Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 19
- 230000006378 damage Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 208000025865 Ulcer Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 231100000397 ulcer Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本公开提供了一种图像识别方法、装置、***及内窥镜图像识别方法、装置,涉及人工智能领域。该方法包括:获取原始图像,将所述原始图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层;通过所述网络主体结构对所述原始图像中的目标对象进行特征提取,以获取与所述目标对象对应的图像特征;通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述目标对象对应的分类结果和表征信息。本公开能够使用户根据表征信息和经验判断图像识别获得的分类结果的可信度,提高了图像识别效率和图像识别结果的精准度,进一步减少了人工成本。
Description
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种图像识别方法、内窥镜图像识别方法、图像识别装置、内窥镜图像识别装置及图像识别***。
背景技术
随着计算机技术的变革以及算法的提升,人工智能在经历了充满波折的发展历程之后,成为了世界各国家的战略性发展方向。医疗作为人工智能最具社会价值和商业价值的应用场景之一,近几年得到了社会的广泛关注。利用人工智能,除了可以教会机器如何“听懂”,更能教会机器“看懂”我们的世界,从而协助医生诊断疾病。据有关部门统计,目前超过90%的医疗数据来自于医疗影像,医疗影像数据已经成为医生诊断必不可少的“证据”之一。如何利用医疗影像海量数据,辅助医生进行疾病诊断,提高医生诊断效率是广大科研工作者关注的重点。
目前,深度学习在对医学图像进行识别后,通常能够给出相应地预测结果—是否患有某种疾病,但是预测结果的可信度不确定,如果一味依赖机器学习模型输出的结果的话,会对医生的辅助诊断产生干扰,因此医生在进行疾病诊断时,还需要根据一些其它的表观特征才能来诊断出对应的疾病类型。
鉴于此,本领域亟需开发一种新的图像识别方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的实施例提供了一种图像识别方法、图像识别装置、图像识别***及内窥镜图像识别方法、内窥镜图像识别装置,进而至少在一定程度上可以在输出识别结果的同时输出相应地表征信息,使得用户可以根据表征信息判断识别结果的可信度,提高了图像识别效率及识别结果的准确率,并减少了人工识别成本。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种图像识别方法,包括:获取原始图像,将所述原始图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层;通过所述网络主体结构对所述原始图像中的目标对象进行特征提取,以获取与所述目标对象对应的图像特征;通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述目标对象对应的分类结果和表征信息。
根据本公开实施例的一个方面,提供了一种图像识别装置,包括:图像获取模块,用于获取原始图像,将所述原始图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层;特征提取模块,用于通过所述网络主体结构对所述原始图像中的目标对象进行特征提取,以获取与所述目标对象对应的图像特征;分类输出模块,用于通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述目标对象对应的分类结果和表征信息。
在本公开的一些实施例中,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;基于前述方案,所述特征提取模块配置为:通过所述起始卷积层对所述目标对象进行特征提取,以获取第一特征信息;通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息,其中所述稠密卷积神经网络模块的输出信息包括所述稠密卷积神经网络模块中各特征提取层所提取的图像特征,所述过渡层用于对所述稠密卷积神经网络模块的输出信息进行下采样;通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述目标对象对应的图像特征。
在本公开的一些实施例中,所述输出层包括全连接层和归一化层;基于前述方案,所述分类输出模块包括:从多个所述输出层中确定目标输出层,获取所述目标输出层对应的目标任务,并根据所述目标任务从所述图像特征中获取与所述目标任务对应的目标子图像特征;通过所述全连接层对所述目标子图像特征进行全连接,以获取第三特征信息;通过所述归一化层对所述第三特征信息中的子特征信息进行归一化处理,以获取与所述子特征信息对应的概率值;根据所述概率值确定与所述目标任务对应的输出信息,并将所述输出信息作为所述分类结果或所述表征信息。
在本公开的一些实施例中,基于前述方案,所述图像识别装置还包括:第一训练样本获取模块,用于获取训练数据集,所述训练数据集包括图像样本和与所述图像样本对应的多个标签样本,其中各所述标签样本与各所述任务相对应;第一模型训练模块,用于根据所述图像样本和所述标签样本对待训练图像识别模型进行训练,以获取所述图像识别模型。
在本公开的一些实施例中,基于前述方案,所述第一模型训练模块配置为:根据目标任务从所述标签样本中确定目标标签样本;将所述图像样本输入至所述待训练图像识别模型,通过所述待训练图像识别模型对所述图像样本中的目标对象进行特征提取,以使与所述目标任务对应的输出层输出预测信息;根据所述预测信息、所述目标标签样本和损失函数确定损失值,并通过优化所述待训练图像识别模型的参数使所述损失值最小,以完成对所述待训练图像识别模型的训练。
在本公开的一些实施例中,基于前述方案,所述图像识别装置还包括:第一初始化模块,用于获取基于自然图像训练得到的图像识别模型的模型参数,将所述模型参数作为初始值对所述网络主体结构进行初始化;第二初始化模块,用于通过随机初始化的方式对所述输出层进行初始化。
根据本公开实施例的一个方面,提供了一种内窥镜图像识别方法,包括:获取原始内窥镜图像,将所述原始内窥镜图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层;通过所述网络主体结构对所述原始内窥镜图像中的病灶进行特征提取,以获取与所述病灶对应的图像特征;通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述病灶对应的诊断结果和辅助诊断信息。
根据本公开实施例的一个方面,提供了一种内窥镜图像识别装置,包括:内窥镜图像获取模块,用于获取原始内窥镜图像,将所述原始内窥镜图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层;图像特征提取模块,用于通过所述网络主体结构对所述原始内窥镜图像中的病灶进行特征提取,以获取与所述病灶对应的图像特征;图像分类输出模块,用于通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述病灶对应的诊断结果和辅助诊断信息。
在本公开的一些实施例中,基于前述方案,所述不同任务包括:疾病类型分类任务、病灶颜色程度分类任务、病灶边缘分类任务和病灶凹陷程度分类任务。
在本公开的一些实施例中,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;基于前述方案,所述图像特征提取模块配置为:通过所述起始卷积层对所述病灶进行特征提取,以获取第一图像特征;通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息,其中所述稠密卷积神经网络模块的输出信息包括所述稠密卷积神经网络模块中各特征提取层所提取的图像特征,所述过渡层用于对所述稠密卷积神经网络模块的输出信息进行下采样;通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述病灶对应的图像特征。
在本公开的一些实施例中,基于前述方案,所述图像分类输出模块配置为:通过与所述疾病类型分类任务对应的输出层对所述图像特征中与疾病类型相关的第一子图像特征进行全连接和归一化处理,以确定所述诊断结果;同时,通过与所述病灶颜色程度分类任务、所述病灶边缘分类任务或所述病灶凹陷程度分类任务对应的输出层对所述图像特征中与病灶颜色、病灶边缘或病灶表面形态相关的第二子图像特征进行全连接和归一化处理,以确定所述辅助诊断信息。
在本公开的一些实施例中,基于前述方案,所述内窥镜图像识别装置还包括:第二训练样本获取模块,用于获取内窥镜图像训练样本集,所述内窥镜图像训练样本集包括内窥镜图像样本和与所述内窥镜图像样本对应的多个标签样本,其中各所述标签样本与各所述任务相对应;目标标签确定模块,用于根据目标任务从所述标签样本中确定目标标签样本;第二模型训练模块,用于将所述内窥镜图像样本输入至待训练图像识别模型,通过所述待训练图像识别模型对所述内窥镜图像样本中的病灶进行特征提取,以使与所述目标任务对应的输出层输出预测信息;根据所述预测信息、所述目标标签样本和损失函数确定损失值,并通过优化所述待训练图像识别模型的参数使所述损失值最小,以完成对所述待训练图像识别模型的训练。
在本公开的一些实施例中,基于前述方案,所述内窥镜图像识别装置还可以配置为:通过所述待训练图像识别模型对所述内窥镜图像样本交替进行与各所述任务对应的图像识别。
根据本公开实施例的一个方面,提供了一种图像识别***,包括:拍摄装置,用于采集图像信号以生成包含目标对象的原始图像;图像识别装置,与所述拍摄装置连接,用于接收所述原始图像,并且所述图像识别装置包括一个或多个处理器及存储装置,其中,所述存储装置用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器对所述原始图像执行如上述实施例中所述的图像识别方法或内窥镜图像识别方法;显示装置,与所述图像识别装置连接,用于接收所述图像识别装置输出的图像识别结果,并将所述图像识别结果显示于所述显示装置的显示屏幕上。
在本公开的一些实施例所提供的技术方案中,通过图像识别模型对原始图像中的目标对象进行特征提取,其中图像识别模型包括网络主体结构和多个对应不同任务的输出层,首先通过网络主体结构对原始图像中的目标对象进行特征提取生成与目标对象对应的图像特征,接着通过与不同任务对应的输出层根据不同任务对应的子图像特征进行分类,以输出与目标对象对应的分类结果和表征信息。本公开的技术方案能够在输出目标对象的分类结果的同时输出目标对象的表征信息,帮助用户确定分类结果的可信度,提高了图像识别的效率及图像识别结果的准确率,进一步减少了人工识别标注的成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性***架构的示意图;
图2示意性示出了根据本公开的一个实施例的图像识别方法的流程示意图;
图3示意性示出了根据本公开的一个实施例的多个单任务学习及多任务学习的结构示意图;
图4示意性示出了根据本公开的一个实施例的网络主体结构的结构示意图;
图5示意性示出了根据本公开的一个实施例的网络主体结构提取图像特征的流程示意图;
图6示意性示出了根据本公开的一个实施例的输出层进行分类的流程示意图;
图7示意性示出了根据本公开的一个实施例的内窥镜图像识别方法的流程示意图;
图8示意性示出了根据本公开的一个实施例的图像识别模型的结构示意图;
图9示意性示出了根据本公开的一个实施例的待训练图像识别模型的训练流程示意图;
图10示意性示出了根据本公开的一个实施例的待训练图像识别模型的训练流程示意图;
图11示意性示出了根据本公开的一个实施例的图像识别装置的框图;
图12示意性示出了根据本公开的一个实施例的图像识别装置的框图;
图13示意性示出了根据本公开的一个实施例的图像识别***的框图;
图14示出了适于用来实现本公开实施例的图像识别装置的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的技术方案的示例性***架构的示意图。
如图1所示,***架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要,可以具有任意数目的终端设备、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等。终端设备101可以是诸如摄像机、照相机、智能手机、内窥镜等带有成像单元的拍摄装置,通过终端设备101可以获取包含目标对象的图像。
在本公开的一个实施例中,终端设备101获取包含目标对象的原始图像后,可以通过网络102向服务器103发送该原始图像,当服务器103获取原始图像后,可以对原始图像中的目标对象进行图像识别,以获取与原始图像中的目标对象对应的分类结果和表征信息,具体地,可以通过服务器103中搭载的图像识别模型进行图像识别,该图像识别模型包括网络主体结构和与网络主体结构连接的多个对应不同任务的输出层,其中,网络主体结构对原始图像中的目标对象进行特征提取以获取与目标对象对应的图像特征,进而通过与不同任务对应的输出层根据图像特征中与不同任务对应的子图像特征进行分类,以输出与目标对象对应的分类结果和表征信息。其中该分类结果是目标对象的属性信息,表征信息是将目标对象确定为该分类结果的辅助判别依据。本公开实施例的技术方案能够使用户根据表征信息和经验判断图像识别获得的分类结果的可信度,提高了图像识别效率和图像识别结果的精准度,进一步减少了人工成本。
需要说明的是,本公开实施例所提供的图像识别方法、内窥镜图像识别方法一般由服务器执行,相应地,图像识别装置、内窥镜图像识别装置一般设置于服务器中。但是,在本公开的其它实施例中,也可以由终端设备执行本公开实施例所提供的图像识别方法、内窥镜图像识别方法。
在本领域的相关技术中,以医学图像的识别为例,根据收集的标注好的内窥镜图像可以对待训练图像识别模型进行训练,通过微调参数,训练得到一个分类器;然后将未标注的医学图像输入至训练好的图像识别模型,以输出预测结果,辅助医生进行疾病诊断,但是对医学图像进行识别只能预测出是否患有某种疾病,但是医生无法了解模型的判别依据,并且预测结果的可信度有多大也不确定,因此当预测结果不准确时,容易误导医生,对医生的辅助诊断产生干扰。
鉴于相关技术中存在的问题,本公开实施例提供了一种图像识别方法和内窥镜图像识别方法,该图像识别方法及内窥镜图像识别方法是基于机器学习实现的,机器学习属于人工智能的一种,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本公开实施例提供的方案涉及人工智能的图像识别技术,具体通过如下实施例进行说明:
本公开实施例首先提出了一种图像识别方法,该图像识别方法可以应用于医学图像识别领域、设备损伤分析领域等等,以下对本公开实施例的技术方案的实现细节进行详细阐述:
图2示意性示出了根据本公开的一个实施例的图像识别方法的流程图,该图像识别方法可以由服务器来执行,该服务器可以是图1中所示的服务器103。参照图2所示,该图像识别方法至少包括步骤S210至步骤S230,详细介绍如下:
在步骤S210中,获取原始图像,将原始图像输入至图像识别模型,图像识别模型包含网络主体结构和与网络主体结构连接的多个对应不同任务的输出层。
在本公开的一个实施例中,通过终端设备101可以获取原始图像,该原始图像可以是通过终端设备101对目标物体进行拍摄,并通过其中的成像单元根据捕捉到的图像信号成像形成的,也可以是通过终端设备101从网络上下载得到的,当然也可以是终端设备101本地保存的图像,等等,本公开实施例对此不作具体限定。在获取终端设备101发送的原始图像后,可以将该原始图像输入至图像识别模型,以对原始图像中的目标对象进行识别、分类预测。该原始图像可以是任意的图像,例如可以是设备损伤图像,其中的损伤位置就是目标对象,通过对损伤位置进行识别、分类预测,能够确定该损伤的类型,进而根据损伤类型确定是维修后继续使用还是直接报废;当然该原始图像还可以是其它类型的图像,例如医学影像图像、动植物组织图像等等。
在本公开的一个实施例中,图像识别模型包括网络主体结构和多个对应不同任务的输出层,其中网络主体结构用于对接收到的原始图像进行特征提取,以获取与原始图像中目标对象对应的图像特征;输出层用于根据网络主体结构输出的图像特征中的部分子图像特征进行分类预测,以输出与目标对象对应的分类结果或表征信息。在本公开实施例中,为了在获取预测结果的同时获取辅助判别该预测结果可信度的信息,在图像识别的基础上结合了多任务学习,网络主体结构即为多个任务共享的一部分模型结构,输出层即为各个任务对应的独立模型结构,也就是说,本公开实施例中的图像识别模型包含与多个任务对应的共享结构和独立结构。
图3示出了多个单任务学习及多任务学习的结构示意图,如图3所示,箭头左边为多个单任务学习模型,每一个学习模型对应一个任务,当需要对一个输入信息进行多任务预测时,就需要将输入信息分别输入至各个任务对应的学习模型,通过各个学习模型对输入信息进行处理以输出与各任务对应的预测结果;箭头右边为多任务学习,多个任务对应的学习模型只有一个,各个任务可以共享一部分模型参数,同时各个任务又有独立的输出层参数。由于共享参数可以节省计算量,同时抵消了每个任务中出现的噪音,从而提高了模型泛化能力,降低过拟合,而独立的输出层可以在共享部分中获得对于该任务最相关的特征,学习每个任务特有的分类界限,使得模型有足够大的灵活度,对于图像识别这样的复杂任务可以获得较高准确度。
在步骤S220中,通过网络主体结构对原始图像中的目标对象进行特征提取,以获取与目标对象对应的图像特征。
在本公开的一个实施例中,图像识别模型可以是任意的用于图像识别的神经网络模型,例如可以是CNN、R-CNN、Faster R-CNN、VGG等等。在本公开的实施例中,图像识别模型为稠密卷积神经网络模型,其中网络主体结构包括起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的稠密卷积神经网络模块的过渡层和终止池化层,图4示出了网络主体结构的结构示意图,如图4所示,网络主体结构400依次包括起始卷积层401、第一Dense Block402、过渡层403、第二Dense Block 404、过渡层405、第三Dense Block 406、过渡层407、第四Dense Block 408和终止池化层409。
接着,基于图4示出的网络主体结构对图像特征提取的流程进行说明,图5示出了网络主体结构提取图像特征的流程示意图,如图5所述,该流程至少包括步骤S501-S503,具体地:
在步骤S501中,通过起始卷积层对原始图像进行特征提取,以获取第一特征信息。
在本公开的一个实施例中,原始图像首先被输入至网络主体结构400的起始卷积层401中,该起始卷积层401可以以预设大小的卷积核和预设步幅对原始图像进行特征提取,例如起始卷积层401所对应的卷积核大小可以设置为7×7,步幅可以设置为2。通过起始卷积层401对原始图像中的目标对象进行图像提取,能够获取与目标图像对应的第一特征信息。
在步骤S502中,通过依次连接的稠密卷积神经网络模块和过渡层对第一特征信息进行特征提取,以获取第二特征信息,其中稠密卷积神经网络模块的输出信息包括稠密卷积神经网络模块中各特征提取层所提取的图像特征,过渡层用于对稠密卷积神经网络模块的输出信息进行下采样。
在本公开的一个实施例中,起始卷积层401将第一特征信息输出至与其连接的第一Dense Block 402,通过第一Dense Block 402对第一特征信息进行处理以获取第一输出特征。该第一Dense Block 402包含多个卷积层,例如可以是六个卷积层,第一卷积层对第一特征信息进行特征提取,将输出信息传递至后面的第二卷积层至第六卷积层;第二卷积层接收对第一卷积层输出的信息进行非线性变换形成的信息,并对其进行特征提取,同时将输出信息传递至后面的第三卷积层至第六卷积层;第三卷积层接收到对第一卷积层和第二卷积层输出的信息进行非线性变换后的信息后,对其进行特征提取,并将输出信息传递至第四卷积层至第六卷积层;以此类推,直至得到对第一卷积层至第六卷积层输出的信息进行非线性变换后的信息进行非线性变换所输出的第一输出特征,其中非线性变换具体可以由批量归一化层-激活层-卷积层组成的结构执行。接着,第一输出特征输入至与第一Dense Block 402连接的过渡层403,由于第一输出特征中包含了第一Dense Block 402中各个卷积层输出的特征,因此第一输出特征的维度很大,为了提高***的计算效率,需要通过过渡层对Dense Block输出的输出特征进行下采样,以减小数据维度,具体地,过渡层403包括一个大小为1×1的卷积层和一个池化层,首先通过1×1的卷积层对第一输出特征进行特征提取,以对特征图的大小进行初步降维处理,接着通过池化层对初步降维后的第一输出特征以步幅2进行2×2的平均池化,实现对第一输出特征的进一步降维。
进一步地,第二Dense Block 404、过渡层405、第三Dense Block 406、过渡层407和第四Dense Block 408对接收到的相邻结构所输出的特征进行如上所述的卷积操作或下采样,直至第四Dense Block 408输出与目标对象对应的第二特征信息。
在步骤S503中,通过终止池化层对第二特征信息进行全局平均池化,以获取与目标对象对应的图像特征。
在本公开的一个实施例中,终止池化层409接收到第二特征信息后,对该第二特征信息进行池化处理,以获取与目标对象对应的图像特征,在本公开实施例中,对第二特征信息进行的池化处理具体可以是全局平均池化,当然也可以是其它的池化方式,本公开实施例对此不做具体限定。
值得说明的是,本公开实施例中网络主体结构所包含的各个稠密卷积神经网络模块的结构可以相同,也可以不同,如图4所示的网络主体结构中,第一Dense Block 402、第二Dense Block 404、第三Dense Block 406和第四Dense Block 408可以具有相同数量的卷积层,例如都有6层卷积层,也可以具有不同数量的卷积层,例如第一Dense Block 402包含6层卷积层、第二Dense Block 404包含12层卷积层、第三Dense Block 406包含24层卷积层、第四Dense Block 408包含16层卷积层,并且其中各卷积层的卷积核大小可以相同,也可以不同。同样地,网络主体结构400中各过渡层都包括卷积层和池化层,至于各过渡层中卷积核的大小及池化层的池化方式、步幅等参数可以相同,也可以不同,例如图4中的过渡层403、过渡层405和过渡层407可以都包含卷积核大小为1×1的卷积层及用于进行2×2全局平均池化且步幅为2的池化层。
在步骤S230中,通过各输出层对图像特征中与各任务对应的子图像特征进行分类,以输出与目标对象对应的分类结果和表征信息。
在本公开的一个实施例中,网络主体结构对原始图像中的目标对象进行特征提取生成与目标图像对应的图像特征后,可以将图像特征输入至输出层,以使输出层根据图像特征中与各个任务相对应的子图像特征进行分类,确定与目标对象对应的分类结果以及用于对判别分类结果可信度的表征信息。
在本公开的一个实施例中,输出层包括一全连接层和一归一化层,该归一化层即为softmax层,每个输出层对应不同的任务,例如对于设备损伤检测领域,通过根据损伤情况判断损伤类型之外,还需要从中获取确定该损伤类型的判别依据,例如损伤类型可以是腐蚀损伤或机械损伤,不同类型的损伤,其所对应的损伤面的纹理、损伤面的颜色、损伤深度等因素都不同,因此为了保证损伤类型的可信度,需要同时根据损伤图像预测损伤面的纹理、损伤面的颜色及损伤深度,辅助用户判别预测的损失类型是否正确。
由于存在多个输出层,且各个输出层对应的任务不同,因此在通过输出层对图像特征进行分类预测时,各个输出层所需的图像特征也不同。图6示出了输出层进行分类的流程示意图,如图6所示,输出层分类流程至少包括步骤S601-步骤S603,具体为:
在步骤S601中,从多个输出层中确定目标输出层,获取目标输出层对应的目标任务,并根据目标任务从图像特征中获取与目标任务对应的目标子图像特征。
在本公开的一个实施例中,可以将所有输出层中的任意一个输出层作为目标输出层,当目标输出层确定后,即可确定与其对应的目标任务,例如一目标输出层对应的任务为损伤深度分类,那么就可以将损伤深度分类确定为目标任务。在确定了目标任务后,当网络主体结构输出与目标对象对应的图像特征时,与该目标任务相关的目标图像特征就别输入至目标输出层,以使目标输出层根据目标图像特征进行分类并预测。值得说明的是,本公开实施例中也可以先确定目标任务,接着根据目标任务确定与目标任务对应的目标输出层和目标子图像特征。
在步骤S602中,通过全连接层对目标图像特征进行全连接,以获取第三特征信息。
在本公开的一个实施例中,在获取目标图像特征后,全连接层可以对其进行全连接,将其转换为一维向量,该一维向量即为第三特征信息,其中所包含元素的数量与目标任务对应的分类数量相同。
在步骤S603中,通过归一化层对第三特征信息中的子特征信息进行归一化处理,以获取与子特征信息对应的概率值。
在本公开的一个实施例中,归一化层可以根据第三特征信息中的各个子特征信息对每个子特征信息进行归一化处理,以将每个子特征信息转换为0到1之间的数值,即为与子特征信息对应的概率值,其中最大概率值所对应的类型信息即为输出层最终输出的信息。例如目标任务为损伤深度分类,与损伤深度对应的分类有浅、较浅、较深、深四种,在经过归一化处理后,获得四种分类所对应的概率值分别为0.3、0.5、0.1、0.1,那么可以确定最终输出的损失深度为较浅。
本公开实施例中的技术方案通过图像识别模型结合多任务学习的方式对输入图像进行处理,获取与输入图像中目标对象对应的分类信息和表征信息,用户根据表征信息能够确定分类信息的可信度,为后续的数据处理奠定基础。本公开实施例中的技术方案还可以应用于医学影响领域,通常根据医学影像图像只能获取疾病预测结果,至于该疾病预测结果的可信度,医生无法知晓,若可信度很低,但是医生根据该疾病预测结果对患者进行了治疗,那后果不堪设想,因此本公开还提出了一种内窥镜图像识别方法,图7示意性示出了根据本公开的一个实施例的内窥镜图像识别方法的流程图,该内窥镜图像识别方法可以由服务器来执行,该服务器可以是图1中所示的服务器103。参照图7所示,该内窥镜图像识别方法至少包括步骤S710至步骤S730,具体为:
在步骤S710中,获取原始内窥镜图像,将原始内窥镜图像输入至图像识别模型,图像识别模型包含网络主体结构和与网络主体结构连接的多个对应不同任务的输出层;
在步骤S720中,通过网络主体结构对原始内窥镜图像中的病灶进行特征提取,以获取与病灶对应的图像特征;
在步骤S730中,通过各输出层对图像特征中与各任务对应的子图像特征进行分类,以输出与病灶对应的诊断结果和辅助诊断信息。
图7所示的内窥镜图像识别方法与图2所示的图像识别方法类似,通过图像识别模型结合多任务学习对原始内窥镜图像进行图像识别和分类预测,能够获得与原始内窥镜图像中病灶对应的诊断结果和辅助诊断信息,医生根据辅助诊断信息能够确定图像识别模型输出的诊断结果的可信度,当确定可信度高时,即可以此诊断结果为基础,指定治疗方案对患者进行治疗,当确定可信度低时,即可放弃该诊断结果,通过人工识别的方式从内窥镜图像中观察病灶情况,确定疾病类型。
在本公开的一个实施例中,用于对内窥镜图像进行识别的图像识别模型所包含的输出层可以有四个,并且每个对应不同的任务,图8示出了图像识别模型的结构示意图,如图8所示,图像识别模型800包括网络主体结构800-a和输出层800-b,其中网络主体结构800-a依次包括起始卷积层801、第一Dense Block 802、过渡层803、第二Dense Block 804、过渡层805、第三Dense Block 806、过渡层807、第四Dense Block 808和终止池化层809,输出层800-b包括第一输出层810、第二输出层811、第三输出层812和第四输出层813。其中,第一输出层810用于输出与疾病类型分类任务对应的疾病诊断结果,第二输出层811用于输出与病灶颜色程度分类任务对应的辅助诊断信息,第三输出层812用于输出与病灶边缘分类任务对应的辅助诊断信息,第四输出层813用于输出与病灶凹陷程度分类任务对应的辅助诊断信息,医生根据所有的辅助诊断信息可以对疾病诊断结果的可信度进行判别,并用于指导后续的治疗方案的制定。进一步地,内窥镜图像识别模型800中各层的组成、大小可以与前文所述的图像识别模型中各层的组成、大小相同,也可以不同,本公开实施例对此不做具体限定。
类似地,采用图像识别模型对原始内窥镜图像进行识别和分类预测时,首先可以通过起始卷积层801对原始内窥镜图像进行特征提取,以获取第一图像特征;接着通过依次连接的第一Dense Block 802、过渡层803、第二Dense Block 804、过渡层805、第三DenseBlock 806、过渡层807、第四Dense Block 808对第一特征信息进行特征提取,以获取第二特征信息,稠密卷积神经网络模块和过渡层的处理方法与前文所述的稠密卷积神经网络模块和过渡层的处理方法相同,在此不再赘述;然后通过终止池化层809对第二特征信息进行池化,例如全局平均池化等,以获取与病灶对应的图像特征;最后通过第一输出层810接收图像特征中与疾病类型相关的第一子图像特征,并对第一子图像特征进行全连接和归一化处理,以确定诊断结果;同时,通过第二输出层811、第三输出层812和第四输出层813分别接收图像特征中与病灶颜色、病灶边缘或病灶表面形态相关的第二子图像特征,并对第二子图像特征进行全连接和归一化处理,以确定辅助诊断信息。
基于图像识别模型结合多任务学习的方式对原始内窥镜图像进行处理,能够同时获取疾病诊断结果和辅助诊断信息,医生根据辅助诊断信息和临床经验能够对疾病诊断结果的可信度进行判别,进而决定是否接受该疾病诊断结果。通过本公开实施例的技术方案,在确定疾病诊断结果的同时,能够提供更加详细的诊断依据和可信的诊断结论,并且融入医生的诊断经验,最大程度地辅助医生进行疾病诊断,减少漏诊和误诊情况的发生,并且提升了计算机疾病辅助诊断***的实用性。
在采用图像识别模型对原始图像、原始内窥镜图像进行特征提取之前,还需要对待训练图像识别模型进行训练,以形成稳定的图像识别模型。具体地,首先获取训练数据集,该训练数据集包括图像样本和与图像样本对应的多个标签样本,其中各标签样本与各任务相对应;接着根据图像样本和标签样本对待训练图像识别模型进行训练,以获取图像识别模型。
在本公开的一个实施例中,对于具有多个与不同任务对应的输出层的图像识别模型而言,在训练模型时,需要交替进行各个任务,以对待训练图像识别模型的共享参数和独立参数进行调整,进而获得稳定的图像识别模型。
接下来,以内窥镜图像为例,对本公开实施例中的模型训练过程进行说明。图9示出了待训练图像识别模型的训练流程示意图,如图9所示,模型训练过程包括步骤S901-S904,具体为:
在步骤S901中,获取训练数据集。
在本公开的一个实施例中,该训练数据集包括图像样本和与图像样本对应的人工标注的多个标签样本,例如对于内窥镜图像而言,内窥镜图像识别对应四个任务,那么相应地,与其对应的人工标注的标签样本就有四个,该四个标签分别对应一个任务,举例而言,该四个标签可以为:患有溃疡疾病、颜色为中毒发红、边缘成锯齿状和病变中央凹陷。在对内窥镜图像进行人工标注时,可以根据图像中疾病特征表现设置如下标注规则:疾病类型:0(正常)、1(炎症)、2(溃疡)、3(肿瘤)、4(其它);颜色:0(正常)、1(轻度发红)、2(中度发红)、3(重度发红出血)、4(红白相间)、5(白色)、6(橘红色)、7(蓝色);边缘:0(清晰)、1(逐渐不清晰)、2(明显不清晰)、3(呈锯齿状);病变凹陷度:0(平坦)、1(轻度凹陷)、2(凹陷)、3(轻度***)、4(***)、5(中央微凹陷,周边微***)、6(中央凹陷,周边***)。标准人员可以根据上述规则对内窥镜图像进行标注,形成与内窥镜图像对应的标签信息。
在步骤S902中,初始化待训练图像识别模型。
在本公开的一个实施例中,可以利用在自然图像上训练好的图像识别模型的参数作为初始值,初始化图像识别模型中的共享网络层参数。其中自然图像可以是任意的图像,不仅限于后续模型处理的图像类型,例如可以是ImageNet数据集。由于图像识别模型中的网络主体结构是多个任务所共享的网络层,而输出层是与各个任务对应的,因此网络主体结构中的参数可以采用已训练好的图像识别模型的参数进行初始化,而各个输出层则可以通过随机初始化,即通过随机赋值的方式进行初始化。
在步骤S903中,将图像样本输入至待训练图像识别模型,通过待训练图像识别模型对图像样本中的目标对象进行特征提取,以使与目标任务对应的输出层输出预测信息。
在本公开的一个实施例中,在训练的过程中,不同任务是交替进行的,通过调整模型参数直至模型收敛,因此在训练之前应当确定目标任务,再对包含与目标任务对应的输出层的待训练图像识别模型进行训练。在训练时,将图像样本输入至待训练图像识别模型,通过待训练图像识别模型中的网络主体结构对图像样本进行特征提取,并向输出层输出与目标对象对应的图像特征,通过输出层对图像特征中与目标任务相关的子图像特征进行全连接和归一化,以输出相应的预测信息。例如,图像样本为内窥镜图像样本,目标任务是病灶的颜色分类任务,那么可以首先通过网络主体结构对内窥镜图像样本中的病灶进行特征提取,以获取与病灶对应的图像特征;接着与病灶的颜色分类任务对应的输出层获取图像特征中与病灶颜色相关的子图像特征,通过对子图像特征进行全连接和归一化处理后,以输出匹配度最高的颜色分类。
在步骤S904中,根据预测信息、目标标签样本和损失函数确定损失值,并通过优化待训练图像识别模型的参数使损失值最小,以完成对待训练图像识别模型的训练。
在本公开的一个实施例中,获取待训练图像识别模型输出的预测结果后,可以根据预测结果、目标标签样本及损失函数确定损失值,并通过优化器对待训练图像识别模型中的参数进行优化,以使损失值最小,也就是使损失函数收敛,其中损失函数可以是交叉熵损失函数等等,同时优化器可以采用如随机梯度下降的方法进行训练,当然也可以采用其它的方法进行训练;最后再反向传播以更新共享结构和独有结构中的参数。通过交替进行不同任务,当与每个任务对应的图像识别模型的损失函数都收敛时,待训练图像识别模型的训练就完成了。
图10示出了待训练图像识别模型的训练流程示意图,如图10所示,将原始内窥镜图像输入至待训练图像识别模型中的网络主体结构中,通过网络主体结构对原始内窥镜图像中的目标对象进行图像识别,获取与该目标对象对应的图像特征;接着通过与各个任务对应的输出层根据图像特征中与各任务相关的子图像特征进行分类获取与各个任务对应的分类结果,如图10中的疾病分类结果、颜色程度分类结果、边缘分类结果和凹陷程度分类结果;然后分别将各个任务对应的目标标签信息与分类结果进行比对,确定损失值,例如疾病分类结果与目标疾病分类结果患有溃疡疾病进行比对,确定疾病分类损失值;颜色程度分类结果与目标颜色程度分类结果重度发红进行比对,确定颜色分类损失值;边缘分类结果与目标边缘分类结果锯齿状进行比对,确定边缘分类损失值;凹陷程度分类结果与目标凹陷程度分类结果中央凹陷进行比对,确定凹陷程度分类损失值;最后通过第一优化器对疾病分类损失进行优化,以确定使疾病分类损失函数具有最小值的参数,并采用该参数对网络主体结构参数和与疾病分类任务对应的输出层参数进行更新,同样地,可以通过第二优化器、第三优化器、第四优化器分别对颜色程度分类损失、边缘分类损失和凹陷程度分类损失进行优化,以确定使颜色程度分类损失函数、边缘分类损失函数和凹陷程度分类损失函数具有最小值的参数,并采用该参数对网络主体结构参数和与颜色程度分类任务、边缘分类任务或凹陷程度分类任务对应的输出层参数进行更新。
值得注意的是,在训练过程中,四个任务交替进行调整模型参数直至收敛,并且在进行任一任务时,输入待训练图像识别模型的为图像样本及相应的与该任务对应的标签样本,其它的标签样本在进行相应任务时再输入即可。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的图像识别方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的图像识别方法的实施例。
图11示意性示出了根据本公开的一个实施例的图像识别装置的框图。
参照图11所示,根据本公开的一个实施例的图像识别装置1100,包括:图像获取模块1101、特征提取模块1102和分类输出模块1103。
其中,图像获取模块1101,用于获取原始图像,将所述原始图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层;特征提取模块1102,用于通过所述网络主体结构对所述原始图像中的目标对象进行特征提取,以获取与所述目标对象对应的图像特征;分类输出模块1103,用于通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述目标对象对应的分类结果和表征信息。
在本公开的一个实施例中,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;所述特征提取模块1102配置为:通过所述起始卷积层对所述目标对象进行特征提取,以获取第一特征信息;通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息,其中所述稠密卷积神经网络模块的输出信息包括所述稠密卷积神经网络模块中各特征提取层所提取的图像特征,所述过渡层用于对所述稠密卷积神经网络模块的输出信息进行下采样;通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述目标对象对应的图像特征。
在本公开的一个实施例中,所述输出层包括全连接层和归一化层;所述分类输出模块1103包括:从多个所述输出层中确定目标输出层,获取所述目标输出层对应的目标任务,并根据所述目标任务从所述图像特征中获取与所述目标任务对应的目标子图像特征;通过所述全连接层对所述目标子图像特征进行全连接,以获取第三特征信息;通过所述归一化层对所述第三特征信息中的子特征信息进行归一化处理,以获取与所述子特征信息对应的概率值;根据所述概率值确定与所述目标任务对应的输出信息,并将所述输出信息作为所述分类结果或所述表征信息。
在本公开的一个实施例中,所述图像识别装置1100还包括:第一训练样本获取模块,用于获取训练数据集,所述训练数据集包括图像样本和与所述图像样本对应的多个标签样本,其中各所述标签样本与各所述任务相对应;第一模型训练模块,用于根据所述图像样本和所述标签样本对待训练图像识别模型进行训练,以获取所述图像识别模型。
在本公开的一个实施例中,所述第一模型训练模块配置为:根据目标任务从所述标签样本中确定目标标签样本;将所述图像样本输入至所述待训练图像识别模型,通过所述待训练图像识别模型对所述图像样本中的目标对象进行特征提取,以使与所述目标任务对应的输出层输出预测信息;根据所述预测信息、所述目标标签样本和损失函数确定损失值,并通过优化所述待训练图像识别模型的参数使所述损失值最小,以完成对所述待训练图像识别模型的训练。
在本公开的一个实施例中,所述图像识别装置1100还包括:第一初始化模块,用于获取基于自然图像训练得到的图像识别模型的模型参数,将所述模型参数作为初始值对所述网络主体结构进行初始化;第二初始化模块,用于通过随机初始化的方式对所述输出层进行初始化。
图12示意性示出了根据本公开的一个实施例的内窥镜图像识别装置的框图。
参照图12所示,根据本公开的一个实施例的内窥镜图像识别装置1200,包括:内窥镜图像获取模块1201、图像特征提取模块1202和图像分类输出模块1203。
其中,内窥镜图像获取模块1201,用于获取原始内窥镜图像,将所述原始内窥镜图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层;图像特征提取模块1202,用于通过所述网络主体结构对所述原始内窥镜图像中的病灶进行特征提取,以获取与所述病灶对应的图像特征;图像分类输出模块1203,用于通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述病灶对应的诊断结果和辅助诊断信息。
在本公开的一个实施例中,所述不同任务包括:疾病类型分类任务、病灶颜色程度分类任务、病灶边缘分类任务和病灶凹陷程度分类任务。
在本公开的一个实施例中,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;所述图像特征提取模块1202配置为:通过所述起始卷积层对所述病灶进行特征提取,以获取第一图像特征;通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息,其中所述稠密卷积神经网络模块的输出信息包括所述稠密卷积神经网络模块中各特征提取层所提取的图像特征,所述过渡层用于对所述稠密卷积神经网络模块的输出信息进行下采样;通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述病灶对应的图像特征。
在本公开的一个实施例中,所述图像分类输出模块1203配置为:通过与所述疾病类型分类任务对应的输出层对所述图像特征中与疾病类型相关的第一子图像特征进行全连接和归一化处理,以确定所述诊断结果;同时,通过与所述病灶颜色程度分类任务、所述病灶边缘分类任务或所述病灶凹陷程度分类任务对应的输出层对所述图像特征中与病灶颜色、病灶边缘或病灶表面形态相关的第二子图像特征进行全连接和归一化处理,以确定所述辅助诊断信息。
在本公开的一个实施例中,所述内窥镜图像识别装置1200还包括:第二训练样本获取模块,用于获取内窥镜图像训练样本集,所述内窥镜图像训练样本集包括内窥镜图像样本和与所述内窥镜图像样本对应的多个标签样本,其中各所述标签样本与各所述任务相对应;目标标签确定模块,用于根据目标任务从所述标签样本中确定目标标签样本;第二模型训练模块,用于将所述内窥镜图像样本输入至待训练图像识别模型,通过所述待训练图像识别模型对所述内窥镜图像样本中的病灶进行特征提取,以使与所述目标任务对应的输出层输出预测信息;根据所述预测信息、所述目标标签样本和损失函数确定损失值,并通过优化所述待训练图像识别模型的参数使所述损失值最小,以完成对所述待训练图像识别模型的训练。
在本公开的一个实施例中,所述内窥镜图像识别装置1200还可以配置为:通过所述待训练图像识别模型对所述内窥镜图像样本交替进行与各所述任务对应的图像识别。
本公开实施例还提供了一种图像识别***,图13示出了图像识别***的结构示意图,如图13所示,图像识别***1300包括:拍摄装置1301、图像识别装置1302和显示装置1303,具体地:
拍摄装置1301,用于采集图像信号以生成包含目标对象的原始图像;图像识别装置1302,与所述拍摄装置1301连接,用于接收所述原始图像,并且所述图像识别装置包括一个或多个处理器及存储装置,其中,所述存储装置用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器对所述原始图像执行如上述实施例所述的图像识别方法或内窥镜图像识别方法;显示装置1303,与所述图像识别装置1302连接,用于接收所述图像识别装置输出的图像识别结果,并将所述图像识别结果显示于所述显示装置的显示屏幕上。
该图像识别***可用于对任意类型的输入图像进行识别,以获取与输入图像中目标对象对应的分类结果和表征信息,例如当图像识别***用于识别内窥镜图像时,可以通过内窥镜镜头拍摄患病部位的图像,并将拍摄获得的内窥镜图像发送至图像识别装置,通过图像识别装置根据本公开实施例所述的内窥镜图像识别方法对该内窥镜图像进行图像识别和分类,以输出与患病部位对应的疾病诊断结果和用于判别诊断结果可信度的辅助诊断信息,医生根据辅助诊断信息和临床经验能够对诊断结果的可信度进行判别。
图14示出了适于用来实现本公开实施例的图像识别装置1302的计算机***的结构示意图。
需要说明的是,图14示出的图像识别装置1302的计算机***1400仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图14所示,计算机***1400包括中央处理单元(Central Processing Unit,CPU)1401,其可以根据存储在只读存储器(Read-Only Memory,ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(Random Access Memory,RAM)1403中的程序而执行各种适当的动作和处理,实现上述实施例中所述的图像标注方法。在RAM 1403中,还存储有***操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(Input /Output,I/O)接口1405也连接至总线1404。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时,执行本公开的***中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的图像处理装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (13)
1.一种图像识别方法,其特征在于,包括:
获取原始图像,将所述原始图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层,所述不同任务为与同一所述原始图像对应的多个不同任务,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;各所述输出层包括全连接层和归一化层;
通过所述起始卷积层对所述原始图像中的目标对象进行特征提取,以获取第一特征信息;
通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息;其中,所述多个稠密卷积神经网络模块中的第一个稠密卷积神经模块与所述起始卷积层直接连接;各所述稠密卷积神经网络模块包括多个卷积层,用于对接收到的特征信息进行特征提取,相邻所述卷积层之间由依次连接的批量归一化层-激活层-卷积层连接,用于对所述卷积层输出的特征信息进行非线性变换;所述过渡层包括卷积层和池化层,用于对所述稠密卷积神经网络模块的输出信息进行下采样;各所述过渡层中所述卷积层的卷积核大小和所述池化层的池化方式、步幅不同;所述稠密卷积神经网络模块的输出信息为所述稠密卷积神经网络模块中所有卷积层输出的信息进行非线性变换后进行非线性变换所获取的特征信息;
通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述目标对象对应的图像特征;
通过各所述输出层中的全连接层和归一化层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述目标对象对应的分类结果和表征信息,以便用户根据所述表征信息和经验确定所述分类结果的可信度,并根据所述可信度决定是否接受所述分类结果。
2.根据权利要求1所述的图像识别方法,其特征在于,
所述通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述目标对象对应的分类结果和表征信息,包括:
从多个所述输出层中确定目标输出层,获取所述目标输出层对应的目标任务,并根据所述目标任务从所述图像特征中获取与所述目标任务对应的目标子图像特征;
通过所述全连接层对所述目标子图像特征进行全连接,以获取第三特征信息;
通过所述归一化层对所述第三特征信息中的子特征信息进行归一化处理,以获取与所述子特征信息对应的概率值;
根据所述概率值确定与所述目标任务对应的输出信息,并将所述输出信息作为所述分类结果或所述表征信息。
3.根据权利要求1所述的图像识别方法,其特征在于,在将所述原始图像输入至图像识别模型之前,所述方法还包括:
获取训练数据集,所述训练数据集包括图像样本和与所述图像样本对应的多个标签样本,其中各所述标签样本与各所述任务相对应;
根据所述图像样本和所述标签样本对待训练图像识别模型进行训练,以获取所述图像识别模型。
4.根据权利要求3所述的图像识别方法,所述根据所述图像样本和所述标签样本对待训练图像识别模型进行训练,以获取所述图像识别模型,包括:
根据目标任务从所述标签样本中确定目标标签样本;
将所述图像样本输入至所述待训练图像识别模型,通过所述待训练图像识别模型对所述图像样本中的目标对象进行特征提取,以使与所述目标任务对应的输出层输出预测信息;
根据所述预测信息、所述目标标签样本和损失函数确定损失值,并通过优化所述待训练图像识别模型的参数使所述损失值最小,以完成对所述待训练图像识别模型的训练。
5.根据权利要求3所述的图像识别方法,在根据所述图像样本和所述标签样本对待训练图像识别模型进行训练之前,所述方法还包括:
获取基于自然图像训练得到的图像识别模型的模型参数,将所述模型参数作为初始值对所述网络主体结构进行初始化;
通过随机初始化的方式对所述输出层进行初始化。
6.一种内窥镜图像识别方法,其特征在于,包括:
获取原始内窥镜图像,将所述原始内窥镜图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层,所述不同任务为与同一所述原始内窥镜图像对应的多个不同任务,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;各所述输出层包括全连接层和归一化层;
通过所述起始卷积层对所述原始内窥镜图像中的病灶进行特征提取,以获取第一特征信息;
通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息;其中,所述多个稠密卷积神经网络模块中的第一个稠密卷积神经模块与所述起始卷积层直接连接;各所述稠密卷积神经网络模块包括多个卷积层,用于对接收到的特征信息进行特征提取,相邻所述卷积层之间由依次连接的批量归一化层-激活层-卷积层连接,用于对所述卷积层输出的特征信息进行非线性变换;所述过渡层包括卷积层和池化层,用于对所述稠密卷积神经网络模块的输出信息进行下采样;各所述过渡层中所述卷积层的卷积核大小和所述池化层的池化方式、步幅不同;所述稠密卷积神经网络模块的输出信息为所述稠密卷积神经网络模块中所有卷积层输出的信息进行非线性变换后进行非线性变换所获取的特征信息;
通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述病灶对应的图像特征;
通过各所述输出层中的全连接层和归一化层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述病灶对应的诊断结果和辅助诊断信息,以便用户根据所述辅助诊断信息和诊断经验确定所述诊断结果的可信度,并根据所述可信度决定是否接受所述分类结果。
7.根据权利要求6所述的内窥镜图像识别方法,其特征在于,所述不同任务包括:疾病类型分类任务、病灶颜色程度分类任务、病灶边缘分类任务和病灶凹陷程度分类任务。
8.根据权利要求7所述的内窥镜图像识别方法,其特征在于,所述通过各所述输出层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述病灶对应的诊断结果和辅助诊断信息,包括:
通过与所述疾病类型分类任务对应的输出层对所述图像特征中与疾病类型相关的第一子图像特征进行全连接和归一化处理,以确定所述诊断结果;同时,
通过与所述病灶颜色程度分类任务、所述病灶边缘分类任务或所述病灶凹陷程度分类任务对应的输出层对所述图像特征中与病灶颜色、病灶边缘或病灶表面形态相关的第二子图像特征进行全连接和归一化处理,以确定所述辅助诊断信息。
9.根据权利要求6所述的内窥镜图像识别方法,其特征在于,在将所述原始内窥镜图像输入至图像识别模型之前,所述方法还包括:
获取内窥镜图像训练样本集,所述内窥镜图像训练样本集包括内窥镜图像样本和与所述内窥镜图像样本对应的多个标签样本,其中各所述标签样本与各所述任务相对应;
根据目标任务从所述标签样本中确定目标标签样本;
将所述内窥镜图像样本输入至待训练图像识别模型,通过所述待训练图像识别模型对所述内窥镜图像样本中的病灶进行特征提取,以使与所述目标任务对应的输出层输出预测信息;
根据所述预测信息、所述目标标签样本和损失函数确定损失值,并通过优化所述待训练图像识别模型的参数使所述损失值最小,以完成对所述待训练图像识别模型的训练。
10.根据权利要求9所述的图像识别方法,其特征在于,所述方法还包括:
通过所述待训练图像识别模型对所述内窥镜图像样本交替进行与各所述任务对应的图像识别。
11.一种图像识别装置,其特征在于,包括:
图像获取模块,用于获取原始图像,将所述原始图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层,所述不同任务为与同一所述原始图像对应的多个不同任务,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;各所述输出层包括全连接层和归一化层;
特征提取模块,用于通过所述起始卷积层对所述原始图像中的目标对象进行特征提取,以获取第一特征信息;
通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息;其中,所述多个稠密卷积神经网络模块中的第一个稠密卷积神经模块与所述起始卷积层直接连接;各所述稠密卷积神经网络模块包括多个卷积层,用于对接收到的特征信息进行特征提取,相邻所述卷积层之间由依次连接的批量归一化层-激活层-卷积层连接,用于对所述卷积层输出的特征信息进行非线性变换;所述过渡层包括卷积层和池化层,用于对所述稠密卷积神经网络模块的输出信息进行下采样;各所述过渡层中所述卷积层的卷积核大小和所述池化层的池化方式、步幅不同;所述稠密卷积神经网络模块的输出信息为所述稠密卷积神经网络模块中所有卷积层输出的信息进行非线性变换后进行非线性变换所获取的特征信息;
通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述目标对象对应的图像特征;
分类输出模块,用于通过各所述输出层中的全连接层和归一化层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述目标对象对应的分类结果和表征信息,以便用户根据所述表征信息和经验确定所述分类结果的可信度,并根据所述可信度决定是否接受所述分类结果。
12.一种内窥镜图像识别装置,其特征在于,包括:
内窥镜图像获取模块,用于获取原始内窥镜图像,将所述原始内窥镜图像输入至图像识别模型,所述图像识别模型包含网络主体结构和与所述网络主体结构连接的多个对应不同任务的输出层,所述不同任务为与同一所述原始内窥镜图像对应的多个不同任务,所述网络主体结构包含起始卷积层、多个稠密卷积神经网络模块、用于连接相邻的所述稠密卷积神经网络模块的过渡层和终止池化层;各所述输出层包括全连接层和归一化层;
图像特征提取模块,用于通过所述起始卷积层对所述原始内窥镜图像中的病灶进行特征提取,以获取第一特征信息;
通过依次连接的所述稠密卷积神经网络模块和所述过渡层对所述第一特征信息进行特征提取,以获取第二特征信息;其中,所述多个稠密卷积神经网络模块中的第一个稠密卷积神经模块与所述起始卷积层直接连接;各所述稠密卷积神经网络模块包括多个卷积层,用于对接收到的特征信息进行特征提取,相邻所述卷积层之间由依次连接的批量归一化层-激活层-卷积层连接,用于对所述卷积层输出的特征信息进行非线性变换;所述过渡层包括卷积层和池化层,用于对所述稠密卷积神经网络模块的输出信息进行下采样;各所述过渡层中所述卷积层的卷积核大小和所述池化层的池化方式、步幅不同;所述稠密卷积神经网络模块的输出信息为所述稠密卷积神经网络模块中所有卷积层输出的信息进行非线性变换后进行非线性变换所获取的特征信息;
通过所述终止池化层对所述第二特征信息进行全局平均池化,以获取与所述病灶对应的图像特征;
图像分类输出模块,用于通过各所述输出层中的全连接层和归一化层对所述图像特征中与各所述任务对应的子图像特征进行分类,以输出与所述病灶对应的诊断结果和辅助诊断信息,以便用户根据所述辅助诊断信息和诊断经验确定所述诊断结果的可信度,并根据所述可信度决定是否接受所述分类结果。
13.一种图像识别***,其特征在于,包括:
拍摄装置,用于采集图像信号以生成包含目标对象的原始图像;
图像识别装置,与所述拍摄装置连接,用于接收所述原始图像,并且所述图像识别装置包括一个或多个处理器及存储装置,其中,所述存储装置用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器对所述原始图像执行如权利要求1至5中任一项所述的图像识别方法或权利要求6至10中任一项所述的内窥镜图像识别方法;
显示装置,与所述图像识别装置连接,用于接收所述图像识别装置输出的图像识别结果,并将所述图像识别结果显示于所述显示装置的显示屏幕上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872399.5A CN110689025B (zh) | 2019-09-16 | 2019-09-16 | 图像识别方法、装置、***及内窥镜图像识别方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872399.5A CN110689025B (zh) | 2019-09-16 | 2019-09-16 | 图像识别方法、装置、***及内窥镜图像识别方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689025A CN110689025A (zh) | 2020-01-14 |
CN110689025B true CN110689025B (zh) | 2023-10-27 |
Family
ID=69109281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910872399.5A Active CN110689025B (zh) | 2019-09-16 | 2019-09-16 | 图像识别方法、装置、***及内窥镜图像识别方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689025B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275041B (zh) * | 2020-01-20 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 内窥镜图像展示方法、装置、计算机设备及存储介质 |
CN111739007B (zh) * | 2020-06-22 | 2024-01-26 | 中南民族大学 | 内窥镜图像识别方法、设备、存储介质及装置 |
CN111899223A (zh) * | 2020-06-30 | 2020-11-06 | 上海依智医疗技术有限公司 | 一种确定***图像中回缩征象的方法及装置 |
CN111860687A (zh) * | 2020-07-31 | 2020-10-30 | 中国铁塔股份有限公司 | 一种图像识别方法、装置、电子设备和存储介质 |
CN112419251A (zh) * | 2020-11-13 | 2021-02-26 | 浙江核睿医疗科技有限公司 | 上消化道内镜图像生成方法、装置、电子设备和存储介质 |
CN112613517B (zh) * | 2020-12-17 | 2022-02-18 | 深圳大学 | 内窥镜仪器分割方法、装置、计算机设备及存储介质 |
CN113610750B (zh) * | 2021-06-03 | 2024-02-06 | 腾讯医疗健康(深圳)有限公司 | 对象识别方法、装置、计算机设备及存储介质 |
CN113505821B (zh) * | 2021-06-29 | 2022-09-27 | 重庆邮电大学 | 一种基于样本可信度的深度神经网络图像识别方法及*** |
CN113539439B (zh) * | 2021-07-16 | 2022-05-10 | 数坤(北京)网络科技股份有限公司 | 医学图像的处理方法、装置、计算机设备和存储介质 |
CN113496489B (zh) * | 2021-09-06 | 2021-12-24 | 北京字节跳动网络技术有限公司 | 内窥镜图像分类模型的训练方法、图像分类方法和装置 |
CN114419041B (zh) * | 2022-03-29 | 2022-06-21 | 武汉大学 | 病灶颜色的识别方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3273387A1 (en) * | 2016-07-19 | 2018-01-24 | Siemens Healthcare GmbH | Medical image segmentation with a multi-task neural network system |
CN107977671A (zh) * | 2017-10-27 | 2018-05-01 | 浙江工业大学 | 一种基于多任务卷积神经网络的舌象分类方法 |
CN107992819A (zh) * | 2017-11-29 | 2018-05-04 | 青岛海信网络科技股份有限公司 | 一种车辆属性结构化特征的确定方法与装置 |
CN108198179A (zh) * | 2018-01-03 | 2018-06-22 | 华南理工大学 | 一种生成对抗网络改进的ct医学图像肺结节检测方法 |
CN108898152A (zh) * | 2018-05-14 | 2018-11-27 | 浙江工业大学 | 一种基于多通道多分类器的胰腺囊性肿瘤ct图像分类方法 |
CN109003651A (zh) * | 2018-06-29 | 2018-12-14 | 上海联影医疗科技有限公司 | 病灶报告生成装置和方法 |
CN109308495A (zh) * | 2018-07-05 | 2019-02-05 | 北京昆仑医云科技有限公司 | 从患者的医学图像自动预测生理状况的装置和*** |
CN109325443A (zh) * | 2018-09-19 | 2019-02-12 | 南京航空航天大学 | 一种基于多实例多标签深度迁移学习的人脸属性识别方法 |
CN109523532A (zh) * | 2018-11-13 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN109859172A (zh) * | 2019-01-08 | 2019-06-07 | 浙江大学 | 基于眼底造影图像深度学习的糖网病变无灌注区识别方法 |
CN110046572A (zh) * | 2019-04-15 | 2019-07-23 | 重庆邮电大学 | 一种基于深度学习的地标建筑物识别与检测方法 |
CN110110600A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 眼部oct图像病灶识别方法、装置及存储介质 |
CN110136103A (zh) * | 2019-04-24 | 2019-08-16 | 平安科技(深圳)有限公司 | 医学影像解释方法、装置、计算机设备及存储介质 |
CN110136106A (zh) * | 2019-05-06 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 医疗内窥镜图像的识别方法、***、设备和内窥镜影像*** |
-
2019
- 2019-09-16 CN CN201910872399.5A patent/CN110689025B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3273387A1 (en) * | 2016-07-19 | 2018-01-24 | Siemens Healthcare GmbH | Medical image segmentation with a multi-task neural network system |
CN107977671A (zh) * | 2017-10-27 | 2018-05-01 | 浙江工业大学 | 一种基于多任务卷积神经网络的舌象分类方法 |
CN107992819A (zh) * | 2017-11-29 | 2018-05-04 | 青岛海信网络科技股份有限公司 | 一种车辆属性结构化特征的确定方法与装置 |
CN108198179A (zh) * | 2018-01-03 | 2018-06-22 | 华南理工大学 | 一种生成对抗网络改进的ct医学图像肺结节检测方法 |
CN108898152A (zh) * | 2018-05-14 | 2018-11-27 | 浙江工业大学 | 一种基于多通道多分类器的胰腺囊性肿瘤ct图像分类方法 |
CN109003651A (zh) * | 2018-06-29 | 2018-12-14 | 上海联影医疗科技有限公司 | 病灶报告生成装置和方法 |
CN109308495A (zh) * | 2018-07-05 | 2019-02-05 | 北京昆仑医云科技有限公司 | 从患者的医学图像自动预测生理状况的装置和*** |
CN109325443A (zh) * | 2018-09-19 | 2019-02-12 | 南京航空航天大学 | 一种基于多实例多标签深度迁移学习的人脸属性识别方法 |
CN109523532A (zh) * | 2018-11-13 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN109859172A (zh) * | 2019-01-08 | 2019-06-07 | 浙江大学 | 基于眼底造影图像深度学习的糖网病变无灌注区识别方法 |
CN110110600A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 眼部oct图像病灶识别方法、装置及存储介质 |
CN110046572A (zh) * | 2019-04-15 | 2019-07-23 | 重庆邮电大学 | 一种基于深度学习的地标建筑物识别与检测方法 |
CN110136103A (zh) * | 2019-04-24 | 2019-08-16 | 平安科技(深圳)有限公司 | 医学影像解释方法、装置、计算机设备及存储介质 |
CN110136106A (zh) * | 2019-05-06 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 医疗内窥镜图像的识别方法、***、设备和内窥镜影像*** |
Non-Patent Citations (5)
Title |
---|
Deep Learning for Multi-task Medical Image Segmentation in Multiple Modalities;Pim Moeskops 等;《MICCAI 2016》;20161002;摘要 * |
What And How Other Datasets Can Be Leveraged For Medical Imaging Classification;Hong Shang 等;《2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI 2019)》;20190711;摘要 * |
基于DenseNet的低分辨CT影像肺腺癌组织学亚型分类;杨婧 等;《浙江大学学报(工学版)》;20190630;第53卷(第6期);摘要 * |
基于卷积神经网络的糖尿病视网膜病变检测方法的研究;方毅;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20190515;摘要 * |
基于深度学习的糖尿病性视网膜图像分类研究;于凤丽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215;摘要 * |
Also Published As
Publication number | Publication date |
---|---|
CN110689025A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689025B (zh) | 图像识别方法、装置、***及内窥镜图像识别方法、装置 | |
WO2020215984A1 (zh) | 基于深度学习的医学图像检测方法及相关设备 | |
CN111369576B (zh) | 图像分割模型的训练方法、图像分割方法、装置及设备 | |
Yu et al. | MSCI: A multistate dataset for colposcopy image classification of cervical cancer screening | |
CN109544518B (zh) | 一种应用于骨骼成熟度评估的方法及其*** | |
WO2022089257A1 (zh) | 医学图像处理方法、装置、设备、存储介质及产品 | |
An et al. | Medical image segmentation algorithm based on multilayer boundary perception-self attention deep learning model | |
WO2019184851A1 (zh) | 图像处理方法和装置及神经网络模型的训练方法 | |
US11538577B2 (en) | System and method for automated diagnosis of skin cancer types from dermoscopic images | |
CN113610118B (zh) | 一种基于多任务课程式学习的青光眼诊断方法、装置、设备及方法 | |
Costa et al. | Eyequal: Accurate, explainable, retinal image quality assessment | |
CN112419326B (zh) | 图像分割数据处理方法、装置、设备及存储介质 | |
CN113706562B (zh) | 图像分割方法、装置、***及细胞分割方法 | |
Alawad et al. | Machine learning and deep learning techniques for optic disc and cup segmentation–a review | |
CN117237351B (zh) | 一种超声图像分析方法以及相关装置 | |
Wang et al. | Explainable multitask Shapley explanation networks for real-time polyp diagnosis in videos | |
CN113781387A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN113822323A (zh) | 脑部扫描图像的识别处理方法、装置、设备及存储介质 | |
CN116703837B (zh) | 一种基于mri图像的肩袖损伤智能识别方法及装置 | |
Wang et al. | Optic disc detection based on fully convolutional neural network and structured matrix decomposition | |
CN112801238B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
Perumal et al. | Microaneurysms detection in fundus images using local fourier transform and neighbourhood analysis | |
CN113822846A (zh) | 医学图像中确定感兴趣区域的方法、装置、设备及介质 | |
Li et al. | Image analysis and diagnosis of skin diseases-a review | |
CN117010971B (zh) | 一种基于人像识别的智能健康险提供方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020804 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |