CN116843778A

CN116843778A - 一种基于放射学报告生成x线胸片图像的方法及***

Info

Publication number: CN116843778A
Application number: CN202310587337.6A
Authority: CN
Inventors: 周修庄; 侯泽毅; 郎宁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-10-03
Anticipated expiration: 2043-05-23
Also published as: CN116843778B

Abstract

本申请提出一种基于放射学报告生成X线胸片图像的方法及***，所述方法包括：获取待生成X线胸片图像的放射学报告的文本特征及预设的隐藏变量项；将所述文本特征和所述隐藏变量项输入预先训练好的X线胸片图像生成模型中，得到符合所述放射学报告描述的多个X线胸片图像；其中，所述X线胸片图像生成模型是以放射学报告的文本特征、隐藏变量项为输入，以放射学报告对应的多个X线胸片图像为输出，对生成对抗网络进行训练得到的。本申请提出的技术方案，提升了生成图像的保真度，同时基于引入隐藏变量项来生成X线胸片图像，保证了生成的胸片图像具有多样性。

Description

一种基于放射学报告生成X线胸片图像的方法及***

技术领域

本申请涉及医疗图像生成领域，尤其涉及一种基于放射学报告生成X线胸片图像的方法及***。

背景技术

X线胸片(Chest X-ray,CXR)是一种广泛应用于诊断和治疗决策的成像技术，在临床护理和流行病学研究中发挥着关键作用。放射科医生可以根据X线胸片进行胸廓、胸腔、肺组织、纵膈、心脏等疾病的筛查。在体检中，X线胸片是常规的体检项目，据统计，一家大型三甲医院每年仅从门诊患者就可获得超过四万张X线胸片。数据显示，2016年以来，体检市场服务人次多年保持在4.7至5.0亿人次，预计2025年体检人数将达到5.05亿人，这个数目还会继续增长。如此大量的X线胸片诊断需求，导致放射科医生的工作强度巨大。另一个事实是，放射科医生的培养周期较长，数量缺口大，尤其是一些落后地区，放射科医生的诊断水平偏低，难以满足高质量解读大量X线胸片的需求。

因此，探索使用人工智能技术进行X线胸片自动诊断，对于辅助放射科医生进行临床诊断具有重要的现实意义。然而，此类数据驱动的方法需要大量的具有准确标记的X线胸片进行模型训练，出于对患者隐私的保护和准确标注X线胸片的巨大工作量要求，很难大量获得此类数据，数量有限的去识别X线胸片数据限制了自动诊断技术的发展。尽管缺乏大型的，精心标注的公开医学成像数据集，但现有的X线胸片通常附有一份基于自由文本的放射学报告，用于详细描述成像研究中包含的相关医学信息，这种医疗决策的“副产品”可以用于自动提取可用于下游任务的标签。值得注意的是，利用文本-视觉生成模型，根据放射学报告自动生成反映其中描述的医学内容的X线胸片图像，可以制作大规模的、具有标注信息的、符合患者隐私保护要求的X线胸片数据集，为自动诊断技术的发展提供一种直观的数据增强机制。可以预见，医疗领域中许多传统的有监督下游应用，例如疾病诊断、检索、分割等任务，都会得到促进。

利用自由文本形式的放射学报告生成X线胸片图像本质上属于文本到图像生成(Text-to-Image Generation)任务。现今已有很多根据文本内容生成相关图像的方法，这些方法一般采用编码器-解码器(encoder-decoder)结构。编码器(encoder)负责提取文本特征，解码器(decoder)则将提取出的特征转换成图像，从而完成跨模态的生成任务。有学者提出了XRayGAN方法，将编码器-解码器结构应用于医疗领域，探索根据放射学报告生成X线胸片图像。XRayGAN采用分层的长短期记忆网络(Long Short-Term Memory,LSTM)来提取文本报告内容，然后堆叠多个不同尺度的编码器与解码器来生成高保真的X线胸片图像。同时，使用像素级别的重构损失以及视角一致性损失来约束模型，从而保证堆叠结构训练过程的收敛。虽然该方法可以生成符合放射学报告的X线胸片图像，但仍然存在以下问题：生成的X线胸片图像的质量较低且一份报告只能生成固定的一张胸片图像。

发明内容

本申请提供一种基于放射学报告生成X线胸片图像的方法及***，以至少解决生成的X线胸片图像的质量较低且一份报告只能生成固定的一张胸片图像的技术问题。

本申请第一方面实施例提出一种基于放射学报告生成X线胸片图像的方法，所述方法包括：

获取待生成X线胸片图像的放射学报告的文本特征及预设的隐藏变量项；

将所述文本特征和所述隐藏变量项输入预先训练好的X线胸片图像生成模型中，得到符合所述放射学报告描述的多个X线胸片图像；

其中，所述X线胸片图像生成模型是以放射学报告的文本特征、隐藏变量项为输入，以放射学报告对应的多个X线胸片图像为输出，对生成对抗网络进行训练得到的。

优选的，所述获取待生成X线胸片图像的放射学报告的文本特征，包括：

利用BioWordVec模型将所述待生成X线胸片图像的放射学报告中各句子的各词符转换成词向量，得到各句子的各词符的词向量；

将所述各句子的各词符的词向量输入编码器中，得到所述待生成X线胸片图像的放射学报告中各句子对应的语义特征；

将所述各句子对应的语义特征输入解码器中，得到所述待生成X线胸片图像的放射学报告的文本特征。

优选的，所述预设的隐藏变量项的获取过程包括：

在标准多元正态分布中进行采样，得到所述隐藏变量项。

优选的，所述生成对抗网络包括：生成器和判别器；

所述生成器包括：一个全连接层、多个上采样模块及多个特征融合模块、一个卷积层；

所述判别器包括：多个卷积层及多个下采样层；

其中，所述生成对抗网络中的生成器和判别器是采用深度神经网络构建得到的。

进一步的，所述X线胸片图像生成模型的训练过程包括：

获取多个放射学报告及各所述报告对应的多个X线胸片图像及预设的隐藏变量项；

提取各放射学报告的文本特征；

基于所述隐藏变量项、各所述文本特征和各所述报告对应的多个X线胸片图像构成训练集；

以所述隐藏变量项、各所述文本特征作为生成对抗网络中生成器的输入，以各所述报告对应的多个X线胸片图像作为生成对抗网络中判别器的输入，利用对抗的方式进行生成对抗网络的训练，得到训练好的X线胸片图像生成模型。

本申请第二方面实施例提出一种基于放射学报告生成X线胸片图像的***，所述***包括：

获取模块，用于获取待生成X线胸片图像的放射学报告的文本特征及预设的隐藏变量项；

第一确定模块，用于将所述文本特征和所述隐藏变量项输入预先训练好的X线胸片图像生成模型中，得到符合所述放射学报告描述的多个X线胸片图像；

优选的，所述获取模块，包括：

转换单元，用于利用BioWordVec模型将所述待生成X线胸片图像的放射学报告中各句子的各词符转换成词向量，得到各句子的各词符的词向量；

第一提取单元，用于将所述各句子的各词符的词向量输入编码器中，得到所述待生成X线胸片图像的放射学报告中各句子对应的语义特征；

第二提取单元，用于将所述各句子对应的语义特征输入解码器中，得到所述待生成X线胸片图像的放射学报告的文本特征。

优选的，所述生成对抗网络包括：生成器和判别器；

所述判别器包括：多个卷积层及多个下采样层；

进一步的，所述***还包括：训练模块；

所述训练模块，用于获取多个放射学报告、各所述报告对应的多个X线胸片图像及预设的隐藏变量项；

所述训练模块，还用于提取各放射学报告的文本特征；

所述训练模块，还用于基于所述隐藏变量项、各所述文本特征和各所述报告对应的多个X线胸片图像构成训练集；

所述训练模块，还用于以所述隐藏变量项、所述各文本特征作为生成对抗网络中生成器的输入，以各所述报告对应的多个X线胸片图像作为生成对抗网络中判别器的输入，利用对抗的方式进行生成对抗网络的训练，得到训练好的X线胸片图像生成模型。

本申请第三方面实施例提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请提出了一种基于放射学报告生成X线胸片图像的方法及***，其中，所述方法包括：获取待生成X线胸片图像的放射学报告的文本特征及预设的隐藏变量项；将所述文本特征和所述隐藏变量项输入预先训练好的X线胸片图像生成模型中，得到符合所述放射学报告描述的多个X线胸片图像；其中，所述X线胸片图像生成模型是以放射学报告的文本特征、隐藏变量项为输入，以放射学报告对应的多个X线胸片图像为输出，对生成对抗网络进行训练得到的。本申请提出的技术方案，提升了生成图像的保真度，同时基于引入隐藏变量项来生成X线胸片图像，保证了生成的胸片图像具有多样性。

本申请附加的方面以及优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面以及优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例提供的一种基于放射学报告生成X线胸片图像的方法的流程图；

图2为根据本申请一个实施例提供的对抗网络中的生成器和判别器的对抗训练过程示意图；

图3为根据本申请一个实施例提供的X线胸片图像生成模型的结构示意图；

图4为根据本申请一个实施例提供的一种基于放射学报告生成X线胸片图像的***的第一种结构图；

图5为根据本申请一个实施例提供的获取模块的第一种结构图；

图6为根据本申请一个实施例提供的获取模块的第二种结构图；

图7为根据本申请一个实施例提供的一种基于放射学报告生成X线胸片图像的***的第二种结构图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请提出的一种基于放射学报告生成X线胸片图像的方法及***，其中，所述方法包括：获取待生成X线胸片图像的放射学报告的文本特征及预设的隐藏变量项；将所述文本特征和所述隐藏变量项输入预先训练好的X线胸片图像生成模型中，得到符合所述放射学报告描述的多个X线胸片图像；其中，所述X线胸片图像生成模型是以放射学报告的文本特征、隐藏变量项为输入，以放射学报告对应的多个X线胸片图像为输出，对生成对抗网络进行训练得到的。本申请提出的技术方案，提升了生成图像的保真度，同时基于引入隐藏变量项来生成X线胸片图像，保证了生成的胸片图像具有多样性。

下面参考附图描述本申请实施例的一种基于放射学报告生成X线胸片图像的方法及***。

实施例一

图1为根据本申请一个实施例提供的一种基于放射学报告生成X线胸片图像的方法的流程图，如图1所示，所述方法包括：

步骤1：获取待生成X线胸片图像的放射学报告的文本特征及预设的隐藏变量项；

在本公开实施例中，所述步骤1具体包括：

步骤1-1：利用BioWordVec模型将所述待生成X线胸片图像的放射学报告中各句子的各词符转换成词向量，得到各句子的各词符的词向量；其中，所述BioWordVec模型为能够反映医疗词汇相关性的词嵌入模型；

步骤1-2：将所述各句子的各词符的词向量输入编码器中，得到所述待生成X线胸片图像的放射学报告中各句子对应的语义特征；

步骤1-3：将所述各句子对应的语义特征输入解码器中，得到所述待生成X线胸片图像的放射学报告的文本特征。

需要说明的是，在本实施例中采用分层的结构来设计编码器。

例如一份报告：The heart remains mildly enlarged.No large effusion orpneumonthorax.No signs of dedma or pneumonia.可以看成是由3个句子组成的，其中一个句子：The heart remains mildly enlarged.又可以看成是由几个词符(The，heart，remains，mildly，enlarged)组成的。

在单词级别，每个句子被表示成T个词符加上一个特殊的词符[SENT]，对于每个词符都采用预训练的医疗领域特定的词嵌入BioWordVec来转换成词向量e_t。然后采用Transformer的编码器来捕获每一个词符的上下文信息，并将其聚合在特殊词符的嵌入e[SENT]中：e[SENT]＝TrsEncoder({e[SENT],e₁,...,e_t,...,e_T})。

在报告级别，每份报告是由s个句子嵌入和一个特殊的词符[REPO]组成的。同样的，采用Transformer的编码器来捕获每一个句子嵌入的上下文信息，并将其聚合在特殊词符的嵌入e[REPO]中:

此时，e[REPO]包含了整个放射学报告的文本特征，用于指导图像生成器生成内容相关的X线胸片图像。

在本公开实施例中，所述预设的隐藏变量项的获取过程包括：

在标准多元正态分布中进行采样，得到所述隐藏变量项。

需要说明的是，在标准多元正态分布中根据其概率密度函数进行采样，将采样得到的各样本的集合作为隐藏变量项。

需要说明的是，为了保证生成X线胸片图像的多样性，本发明为生成器引入一个隐变量输入项Z即隐藏变量项，所述隐藏变量项中包含多个隐变量，目的是让生成的X线胸片图像在符合报告描述的前提下，能够生成不同的X线胸片图像(例如生成符合放射学报告描述病灶的不同身形的患者的X线胸片图像)。在这种情况下，在放射学报告文本特征e[REPO]的指导下，根据输入的隐变量z_i生成符合报告内容的X线胸片图像x_i:x_i←G(z_i,e_[REPO]),i＝1,2,....，其中，z_i为隐变量。这种情况下，本实施例可以根据一份放射学报告提取出的文本特征e[REPO]，从标准多元正态分布中采样N个隐变量，生成N个符合报告描述的不同的X线胸片图像。

步骤2：将所述文本特征和所述隐藏变量项输入预先训练好的X线胸片图像生成模型中，得到符合所述放射学报告描述的多个X线胸片图像；

在本公开实施例中，所述生成对抗网络包括：生成器和判别器；

所述判别器包括：多个卷积层及多个下采样层；

需要说明的是，如图2所示，为对抗网络中的生成器和判别器的对抗训练过程示意图。

示例的，所述抗网络中的生成器和判别器的对抗训练过程包括：

步骤1)：在初始的生成器中输入隐变量、放射学报告的文本特征，生成器由隐变量生成符合放射学报告的X线胸片图像。然后加载判别器模型，利用该模型计算生成器生成胸片图像的对抗损失，更新生成器的模型参数并保存。

步骤2)：将真实的X线胸片图像与放射学报告文本特征输入给判别器。加载生成器模型文件，利用该模型生成X线胸片图像，并同样输入给判别器。判别器计算三种输入组合的对抗损失，更新判别器的参数并保存模型文件。

步骤3)：重复上述两个训练步骤，直到生成器与判别器的性能均不再提升。

进一步的，如图3所示，所述X线胸片图像生成模型的训练过程包括：

获取多个放射学报告、各所述报告对应的多个X线胸片图像及预设的隐藏变量项；

提取各放射学报告的文本特征；

需要说明的是，为了提升生成X线胸片图像的保真度，为医疗领域的下游任务提供高质量的数据，本实施例设计的生成对抗网络采用深度神经网络构建的方式构建生成器G和判别器D。生成器包含多个上采样模块和特征融合模块，其中上采样模块用于提升生成图像的分辨率，特征融合模块用于保证生成的X线胸片图像符合放射学报告中的描述。特征融合模块由两个仿射变换(Affine Transformation)和两个线性整流激活函数层(RectifiedLinear Unit,RELU)组成，其中仿射变换的缩放和平移参数是由两个多层感知机(Multilayer Perceptron,MLP)根据文本特征输入e[REPO]来预测的。判别器包含多个卷积层、下采样模块、图像融合模块，其中，卷积层与下采样模块用于提取输入图像的特征，图像融合模块用于将文本特征与图像特征进行对齐，卷积层计算出对抗损失,基于所述对抗损失更新判别器参数，提升X线胸片图像生成模型的性能。

需要说明的是，图3中的跨模态融合是将提取的文本特征与上采样模块输入的隐变量信息进行跨模态融合，作用是让放射学报告提取的文本特征来控制生成符合描述的胸片图像；图3中的空间复制作用是判断判别器输入的图像所提取的特征是否与报告提取的文本特征一致。

在本公开实施例中，由于生成器和判别器以对抗的方式进行训练，生成器的目的是根据文本报告特征，生成高质量的X线胸片图像x，以骗过判别器(获取较高的判别分数)，因此，训练生成器的损失函数L_G为：

判别器的目的是根据文本报告特征，判别输入的X线胸片图像来源于真实数据集且符合放射学报告描述(输出较高的判别分数)，还是其他两种情况(包括来源于真实数据集但不符合报告描述，来源于生成器但符合报告描述)(输出较低的判别分数)，因此，训练判别器的损失函数L_D为：

其中，为输入给判别器的X线胸片图像来源于真实数据集且符合放射学报告描述的期望，/>为来源于生成器但符合报告描述的期望，/>为来源于真实数据集但不符合报告描述的期望。

综上所述，本实施例提出的一种基于放射学报告生成X线胸片图像的方法，提升了生成图像的保真度，同时基于引入隐藏变量项来生成X线胸片图像，保证了生成的胸片图像具有多样性。

实施例二

图4为根据本申请一个实施例提供的一种基于放射学报告生成X线胸片图像的***的结构图，如图4所示，所述***包括：

获取模块100，用于获取待生成X线胸片图像的放射学报告的文本特征及预设的隐藏变量项；

第一确定模块200，用于将所述文本特征和所述隐藏变量项输入预先训练好的X线胸片图像生成模型中，得到符合所述放射学报告描述的多个X线胸片图像；

在本公开实施例中，如图5所示，所述获取模块100，包括：

转换单元101，用于利用BioWordVec模型将所述待生成X线胸片图像的放射学报告中各句子的各词符转换成词向量，得到各句子的各词符的词向量；

第一提取单元102，用于将所述各句子的各词符的词向量输入编码器中，得到所述待生成X线胸片图像的放射学报告中各句子对应的语义特征；

第二提取单元103，用于将所述各句子对应的语义特征输入解码器中，得到所述待生成X线胸片图像的放射学报告的文本特征。

在本公开实施例中，如图6所示，所述获取模块100还包括：采样单元104；

所述采样单元104，用于在标准多元正态分布中进行采样，得到所述隐藏变量项。

所述判别器包括：多个卷积层及多个下采样层；

在本公开实施例中，如图7所示，所述***还包括：训练模块300；

所述训练模块300，用于获取多个放射学报告、各所述报告对应的多个X线胸片图像及预设的隐藏变量项；

所述训练模块300，还用于提取各放射学报告的文本特征；

所述训练模块300，还用于基于所述隐藏变量项、各所述文本特征和各所述报告对应的多个X线胸片图像构成训练集；

所述训练模块300，还用于以所述隐藏变量项、各所述文本特征作为生成对抗网络中生成器的输入，以各所述报告对应的多个X线胸片图像作为生成对抗网络中判别器的输入，利用对抗的方式进行生成对抗网络的训练，得到训练好的X线胸片图像生成模型。

综上所述，本实施例提出的一种基于放射学报告生成X线胸片图像的***，提升了生成图像的保真度，同时基于引入隐藏变量项来生成X线胸片图像，保证了生成的胸片图像具有多样性。

实施例三

为了实现上述实施例，本公开还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于放射学报告生成X线胸片图像的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取待生成X线胸片图像的放射学报告的文本特征，包括：

3.如权利要求1所述的方法，其特征在于，所述预设的隐藏变量项的获取过程包括：

在标准多元正态分布中进行采样，得到所述隐藏变量项。

4.如权利要求1所述的方法，其特征在于，所述生成对抗网络包括：生成器和判别器；

所述判别器包括：多个卷积层及多个下采样层；

5.如权利要求4所述的方法，其特征在于，所述X线胸片图像生成模型的训练过程包括：

提取各放射学报告的文本特征；

6.一种基于放射学报告生成X线胸片图像的***，其特征在于，所述***包括：

7.如权利要求6所述的***，其特征在于，所述获取模块，包括：

8.如权利要求6所述的***，其特征在于，所述生成对抗网络包括：生成器和判别器；

所述判别器包括：多个卷积层及多个下采样层；

9.如权利要求8所述的***，其特征在于，所述***还包括：训练模块；

所述训练模块，还用于提取各放射学报告的文本特征；

所述训练模块，还用于以所述隐藏变量项、各所述文本特征作为生成对抗网络中生成器的输入，以各所述报告对应的多个X线胸片图像作为生成对抗网络中判别器的输入，利用对抗的方式进行生成对抗网络的训练，得到训练好的X线胸片图像生成模型。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法。