CN117954099A

CN117954099A - 一种乳腺癌风险预测方法、装置、设备和存储介质

Info

Publication number: CN117954099A
Application number: CN202410347514.8A
Authority: CN
Inventors: 刘建井; 边海曼; 戴东; 徐文贵
Original assignee: Tianjin Medical University Cancer Institute and Hospital
Current assignee: Tianjin Medical University Cancer Institute and Hospital
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30

Abstract

本申请提供一种乳腺癌风险预测方法、装置、设备和存储介质，属于乳腺癌预测技术领域，该方法包括获取乳腺癌患者的临床特征和影像学图像，预处理并提取PET和CT图像的组学特征。将临床、PET和CT特征拼接成总特征矩阵，建立逻辑回归模型，根据模型和损失函数确定样本权重，求得每个样本的风险评估值。此方法通过PET/CT图像处理和机器学习，建立乳腺癌分子分型与影像的映射关系，预测乳腺癌分子分型概率，制定个体化诊疗方案。相较于传统活检，此预测***减少患者痛苦、降低医疗成本、高可重复性和易操作性。

Description

一种乳腺癌风险预测方法、装置、设备和存储介质

技术领域

本申请涉及乳腺癌预测领域，尤其涉及一种乳腺癌风险预测方法、装置、设备和存储介质。

背景技术

乳腺癌分子分型在临床特征、生物学行为、治疗方案选择及预后方面存在显著差异，因此，确定乳腺癌的分子分型对临床实践具有重要意义。然而，目前主要依赖于穿刺或手术获取组织进行病理检测，存在有创、耗时、易漏诊等缺点。

发明内容

本申请的目的在于克服上述现有技术中，提供一种乳腺癌风险预测方法、装置、设备和存储介质。

本申请提供一种乳腺癌风险预测方法，包括：

获取乳腺癌患者的临床特征和影像学图像，该影像学图像包括PET图像和CT图像；

对所述PET图像和所述CT图像乳腺癌原发灶ROI标注、分别依次进行预处理，影像组学特征提取，获得PET组学特征和CT组学特征；

将所述临床特征、PET组学特征和CT组学特征表示为矩阵，并进行拼接，得到总特征矩阵；

根据所述总特征矩阵建立逻辑回归模型和损失函数；

根据所述逻辑回归模型和损失函数确定各个样本的权重，将所述权重与各个样本的特征进行相乘求和，获得每个样本的风险评估值，用于乳腺癌风险预测。

可选地，所述预处理包括：

指数、梯度、高斯拉普拉斯算子、对数、平方、平方根和小波滤波；

其中，所述小波滤波由纳入PET/CT图像3个维度的高通H与低通L的组合组成，分别包括LLH、LHL、HHL、LLL、HHH、LHH、HLL、HLH。

可选地，影像组学特征提取，包括：

从PET/CT的原始图像中提取三维和二维形状特征；

从PET/CT的预处理图像和原始图像中提取形状特征、一阶特征、灰度共生矩阵、灰度游程长度矩阵、灰度大小区域矩阵、灰度依赖矩阵。

可选地，根据所述逻辑回归模型和损失函数确定各个样本的权重，将所述权重与各个样本的特征进行相乘求和，获得每个样本的风险评估值，包括：

使用wilcoxon检验计算具有显著差异的影像组学特征；

计算每两个具有显著差异的影像组学特征组合之间的相关性，根据所述相关性确定特征之间的冗余程度，并去除高维的特征冗余；

使用LASSO回归筛选去除高维的特征冗余的影像组学特征组合；

将筛选后的保留特征以及对应的特征权重进行线性组合计算每个病人的影像组学分数。

可选地，使用LASSO回归筛选预测效能较高的影像组学特征组合，表达式如下：

，

其中，P(y=1|X)表示样本预测为1类的概率；为各个样本的权重，/>为各个样本所对应的特征，e是自然常数。

可选地，损失函数表达式如下：

，

其中，y表示样本的真实分类值，表示预测值；

令损失函数最小，得到各个样本的最佳权重/>。

可选地，所述临床特征，包括：患者的年龄、月经情况、临床分期、病理类型、ER、PR及HER-2表达状态、分子分型。

本申请还提供一种乳腺癌风险预测装置，包括：

获取模块，用于获取乳腺癌患者的临床特征和影像学图像，该影像学图像包括PET图像和CT图像；

特征模块，用于对所述PET图像和所述CT图像乳腺癌原发灶ROI标注、分别依次进行预处理，影像组学特征提取，获得PET组学特征和CT组学特征；

拼接模块，用于将所述临床特征、PET组学特征和CT组学特征表示为矩阵，并进行拼接，得到总特征矩阵；

计算模块，用于根据所述总特征矩阵建立逻辑回归模型和损失函数；

预测模块，用于根据所述逻辑回归模型和损失函数确定各个样本的权重，将所述权重与各个样本的特征进行相乘求和，获得每个样本的风险评估值，用于乳腺癌风险预测。

本申请还提供一种乳腺癌风险预测设备，包括：

存储器，用于存储上述一种乳腺癌风险预测方法的计算机可执行程序；

处理器，用于调取所述计算机可执行程序，执行：获取乳腺癌患者的临床特征和影像学图像，该影像学图像包括PET图像和CT图像；对所述PET图像和所述CT图像乳腺癌原发灶ROI标注、分别依次进行预处理，影像组学特征提取，获得PET组学特征和CT组学特征；将所述临床特征、PET组学特征和CT组学特征表示为矩阵，并进行拼接，得到总特征矩阵；根据所述总特征矩阵建立逻辑回归模型和损失函数；根据所述逻辑回归模型和损失函数确定各个样本的权重，将所述权重与各个样本的特征进行相乘求和，获得每个样本的风险评估值，用于乳腺癌风险预测。

本申请还提供一种存储介质，存储有计算机可执行程序，该计算机可执行程序用于被处理器调取，执行上述一种乳腺癌风险预测方法的步骤。

本申请的有益效果是：

本申请提供一种乳腺癌风险预测方法，包括：获取乳腺癌患者的临床特征和影像学图像，该影像学图像包括PET图像和CT图像；对所述PET图像和所述CT图像乳腺癌原发灶ROI标注、分别依次进行预处理，影像组学特征提取，获得PET组学特征和CT组学特征；将所述临床特征、PET组学特征和CT组学特征表示为矩阵，并进行拼接，得到总特征矩阵；根据所述总特征矩阵建立逻辑回归模型和损失函数；根据所述逻辑回归模型和损失函数确定各个样本的权重，将所述权重与各个样本的特征进行相乘求和，获得每个样本的风险评估值，用于乳腺癌风险预测。本申请通过PET/CT图像处理和机器学习，建立乳腺癌分子分型与影像之间的映射关系，根据患者的临床特征和PET/CT图像，预测其乳腺癌分子分型的概率，从而制定出更精确的个体化诊疗方案。相较于传统的活检方法，这种基于统计建模的预测***具有减少患者痛苦、降低医疗成本、高可重复性和易操作性等优点。

附图说明

图1是本申请中一种乳腺癌风险预测流程示意图；

图2是本申请中乳腺癌风险预测***示意图；

图3是本申请中乳腺癌风险预测影像处理流程示意图；

图4是三阴组患者与非三阴组患者乳腺癌原发灶PET/CT对比图示意图；

图5是纳入¹⁸F-FDG-PET/CT的10个影像组学特征的相关性示意图；

图6是影像组学模型与联合临床特征信息的综合性影像组学模型对三阴性乳腺癌分子分型预测的ROC曲线比较示意图；

图7是影像组学模型与联合临床特征信息的综合性影像组学模型对三阴性乳腺癌分子分型预测的校准曲线（A）和决策曲线（B）比较示意图；

具体实施方式

下面结合附图和具体实施例对本申请作进一步说明，以使本领域的技术人员更好地理解本申请并能予以实施。

以下内容均是为了详细说明本申请要保护的技术方案所提供的具体实施过程的示例，但是本申请还采用不同于此的描述的其他方式实施，本领域技术人员在本申请构思的指引下，采用不同的技术手段实现本申请，因此本申请不受下面具体实施例的限制。

请参考图1~图3所示，一种乳腺癌风险预测方法，其步骤包括：

S101获取乳腺癌患者的临床特征和影像学图像，该影像学图像包括PET图像和CT图像。

获取乳腺癌患者的全面临床特征和影像学图像资料，是诊断和治疗的关键步骤。所述资料包括患者的年龄、月经情况、临床分期、病理类型等基本信息，还包括ER、PR及HER-2表达状态和分子分型等重要生物标志物的数据。

同时，本申请通过PET和CT影像学检查，获取乳腺癌的详细影像学图像。所述图像提供了关于肿瘤位置、大小、形态以及与周围组织的相互关系的重要信息。通过分析所述图像，更准确地评估肿瘤的恶性程度、生长速度以及的扩散范围。

PET图像显示肿瘤的代谢活动，有助于识别肿瘤组织与正常组织之间的差异。通过测量肿瘤的SUVmax、SUVmean、SUVpeak、MTV和TLG等代谢参数，了解肿瘤的生长速度和恶性程度。

其中，最大标准化摄取值（Maximumstandarduptakevalue，SUVmax）、平均标准PET图像特征化摄取值（meanstandarduptakevalue，SUVmean）、标准化摄取值峰值（peakofstandarduptakevalue，SUVpeak）、肿瘤代谢体积（metabolictumorvolume，MTV）和病灶糖酵解总量（totallesionglycolysis，TLG）。

具体测量方法：由两名以上有丰富经验的核医学医师在Xeleris工作站(GEHealthcare,Milwaukee,WI,US)上读片，Xeleris工作站实现横断位、冠状位和矢状位的自由切换，医师盲法读片。所有图像通过AW4.6后处理工作站的PETVCAR软件进行处理。PETVCAR是自动软件***，用迭代自适应算法来探测阈值水平，以乳腺癌原发病灶SUVmax的42%为阈值，需要将鼠标定位到目标病灶，通过Insert键自动标注感兴趣区，包上整个病灶。如果感兴趣区外的活性不可避免，分析前要把该病灶剔除。确认感兴趣区合适后，PETVCAR软件自动计算感兴趣区内如下指标:SUVmax，SUVmean，SUVpeak，MTV和TLG。

CT图像则提供更详细的解剖结构信息，有助于确定肿瘤的确切位置、大小和边缘特征。通过分析CT图像，评估肿瘤是否侵犯邻近组织，是否存在***转移或其他器官的转移。

CT形态学特征，包括从CT图像上测量乳腺癌原发病灶的部位（左乳/右乳）、数量（单灶/多灶）、大小（最大径）、边缘（边缘模糊/边缘规整）、是否合并钙化、是否累犯邻近***或皮肤、有无同侧腋下***转移及脑转移等。

S102对所述PET图像和所述CT图像乳腺癌原发灶ROI标注、分别依次进行预处理，影像组学特征提取，获得PET组学特征和CT组学特征。

将入组患者的PET和CT图像分别导出为DICOM格式，这是医学影像的标准格式，确保了图像数据的准确性和通用性。这种格式便于后续的图像处理和分析。

由两位具有5年以上PET/CT阅片经验的核医学科医生，应用先进的机器联合手动分割模块，对患者的PET和CT图像（主要在软组织窗）的乳腺癌原发灶感兴趣区域（ROI）进行细致的分割。这一过程分别在轴状位、冠状位和矢状位进行，确保了对肿瘤区域的全面覆盖。医生们会互相复核彼此的分割结果，进一步确保结果的准确性。

当两位医生在分割结果上出现意见分歧时，他们将通过协商达成一致。这是一个严谨的过程，旨在确保每个肿瘤区域都被正确识别。若经过协商仍无法达成一致，将寻求另一位具有10年以上PET/CT阅片经验的核医学科医师的帮助。这位资深医师将对存在分歧的ROI标注进行查验和校对，并做出最终判断，确保数据的准确性和可靠性。

完成手动分割后，将标注后的PET和CT图像及相应的ROI区域文件保存为.nii格式。这种格式是神经影像学中的标准格式，也适用于后续的图像处理和分析。

本申请中，进一步深入分析这些图像，使用Python3.7.1中的Pyradiomics模块。该模块具备强大的图像处理和特征提取功能。首先，对PET和CT图像进行滤波预处理，包括指数滤波、梯度滤波、高斯拉普拉斯算子滤波、对数滤波、平方滤波、平方根滤波和小波滤波等。这些滤波技术有助于提取图像中的重要特征，如边缘、纹理和形态学特征等。

其中，小波滤波在处理图像时特别重要。它通过纳入PET/CT图像的三个维度（横向、纵向和深度）的高通H与低通L的组合，实现了对肿瘤区域的多尺度分析。这种多尺度分析能够更好地捕捉肿瘤内部的异质性，为后续的特征提取和模型构建提供更全面的信息。具体的小波滤波组合包括LLH、LHL、HHL、LLL、HHH、LHH、HLL和HLH等。

为了全面分析乳腺癌患者的PET/CT图像，本申请从原始图像和预处理图像中提取了一系列形态学和纹理特征，包括：

从原始图像中提取三维和二维形状特征：

从PET/CT原始图像中，本申请提取了肿瘤的三维形态学特征，如体积、表面积、球形度、相对紧凑性等。这些特征提供了关于肿瘤整体形态的深入了解。

同时，本申请还从CT图像中提取了二维的形状特征，如周长、面积、圆形度等，以补充对肿瘤形态的描述。

从预处理图像和原始图像中提取其他特征：

形态学特征：基于肿瘤的边缘、区域和大小，提取了一系列的形态学特征。

一阶统计特征：描述图像的直方图信息，如均值、中位数、标准差等。

灰度共生矩阵(GLCM)特征：用于分析像素间的空间关系和灰度级别的共生情况。

灰度游程长度矩阵(GLRLM)特征：描述像素值的连续序列及其长度。

灰度大小区域矩阵(GLSZM)特征：描述不同大小区域的像素分布。

灰度依赖矩阵(GLDM)特征：用于描述像素值之间的依赖关系。

接下来，筛选稳定的影像组学特征。

为了确保所选择的特征具有稳定性和预测能力，本申请采取了以下筛选步骤：

使用Wilcoxon检验，本申请筛选出在两组（例如，病例与对照组）之间具有显著差异的影像组学特征。本申请将显著性水平设置为p=0.05。

通过计算每两两特征之间的相关性（R），本申请识别并去除了高维的特征冗余。冗余特征定义为相关性R>0.8的两个特征中AUC值较小的特征。

S103将所述临床特征、PET组学特征和CT组学特征表示为矩阵，并进行拼接，得到总特征矩阵。

本申请中，临床特征为具有i行j列的矩阵，记为A(i,j)。这些特征包括患者的年龄、性别、家族病史、肿瘤标志物水平等，每一行代表一个样本，每一列代表一个临床特征。

CT图像特征为具有i行k列的矩阵，记为B(i,k)。这些特征包括肿瘤的形态学特征、密度、边缘信息等，来源于对CT图像的深入分析。每一行代表一个样本的CT图像，每一列代表一个图像特征。

PET代谢参数为具有i行p列的矩阵，记为C(i,p)。这些参数包括SUVmax、SUVmean等PET图像的代谢参数，它们反映了肿瘤的代谢活性。每一行代表一个样本的PET图像，每一列代表一个代谢参数。

进一步的，影像组学分数为具有i个的数组，记为D(i,1)。这是一个一维数组，用于存储每个样本的影像组学分数。这个分数是通过上述筛选出的稳定特征计算得出的，包含对肿瘤恶性程度的量化评估。

本申请中，将所有特征矩阵按照样本顺序进行拼接，得到具有i行n列的总特征矩阵，记为M(i,n)。其中，n=j+k+p+1，表示所有特征的总数。

S104根据所述总特征矩阵建立逻辑回归模型和损失函数。

在建立逻辑回归模型时，通过定义每个样本预测为1类的概率P(y=1∣X)来预测样本的分类结果。这里使用的是多因素逻辑回归模型，通过迭代优化权重来最小化损失函数并找到最佳的预测模型。

逻辑回归模型的公式如下：

，

其中，P(y=1∣X)表示样本预测为1类的概率；为各个样本的权重。/>为各个样本所对应的特征，e是自然常数。

本申请中，损失函数用于衡量预测值与实际值之间的差距，通过最小化损失函数找到最优的模型参数。损失函数公式如下：

，

其中，y表示样本的真实分类值，表示预测值。通过优化这个损失函数，逐步调整权重并最终找到最佳的模型参数。

S105根据所述逻辑回归模型和损失函数确定各个样本的权重，将所述权重与各个样本的特征进行相乘求和，获得每个样本的风险评估值，用于乳腺癌风险预测。

本申请将每个样本的特征与相应的权重进行相乘并求和，得到每个样本的风险评估值R。这个风险评估值是基于逻辑回归模型计算得出的，综合考虑了临床特征、CT图像特征、PET代谢参数以及影像组学分数等多个方面的影响。

具体地，通过以下公式计算每个样本的风险评估值R：

，

其中，是每个样本的权重，/>是相应样本的特征值。这些权重是通过逻辑回归模型训练得到的，用于反映各个特征对预测结果的影响程度。

通过计算每个样本的风险评估值R，更全面地了解乳腺癌的风险情况。这个风险评估值不仅综合了患者的临床特征，还考虑了影像学特征和代谢参数等多个方面，有助于提高预测的准确性和可靠性。

在实际应用中，根据风险评估值R的大小来评估乳腺癌的风险程度。例如，通过设定一个阈值，将R值高于阈值的样本归类为高风险，低于阈值的样本归类为低风险。这样，就为患者提供个性化的乳腺癌风险预测，有助于早期发现和治疗乳腺癌。

本申请还提供一种乳腺癌风险预测装置，包括：

本申请还提供一种乳腺癌风险预测设备，包括：

实验说明：

临床特征及CT形态学特征比较：

本申请共纳入227例患者，均为女性，年龄为52.16±11.04岁（24-78岁），绝大多数为浸润性导管癌（209例），占总数的92.07%。按照患者激素受体和HER-2表达情况将患者分为两组，即三阴性乳腺癌82例，非三阴性乳腺癌145例（其中LuminalA型乳腺癌7例、LuminalB型109例、HER-2过表达型29例）。

两组患者的临床特征和CT形态学特征比较如下表1所示。

表1三阴组与非三阴组患者临床特征及CT形态学特征的比较

，

从上表可以看出，三阴组患者和非三阴组患者的原发灶肿瘤直径、边缘、合并同侧***转移、累犯邻近***或皮肤方面的差异有统计学意义（p＜0.05）。三阴性乳腺癌的病灶往往更大，肿瘤边缘多不规整，容易累犯邻近组织，发生前哨***转移，表现出更强的侵袭性和转移倾向。而两组患者在年龄、绝经情况、肿瘤部位、数量、合并钙化、脑转移、病理类型及临床分期方面没有显著差异（p＞0.05）。

PET代谢参数比较：

如图4所示，本申请着重分析了PET代谢参数，包括SUVmax、SUVmean、SUVpeak、MTV和TLG，在三阴性乳腺癌分子分型诊断中的价值。

如下表2所示，三阴组患者的SUVmax、SUVmean、SUVpeak及TLG均显著高于非三阴组患者，且统计分析显示，这种组间差异均有统计学意义（均P＜0.05）；两组患者间的MTV没有显著差异（P＞0.05）。

表2三阴组与非三阴组患者PET代谢参数的比较

，

注：PET为正电子发射断层显像术；TN为三阴性乳腺癌；SUVmax为最大标准化摄取值；SUVmean为平均标准化摄取值；SUVpeak为标准化摄取值峰值；MTV为肿瘤代谢体积；TLG为病灶糖酵解总量。

如图4所示，A~D分别为三阴性乳腺癌患者（女性，48岁）的全身MIP图和乳腺癌原发灶CT图、PET图、PET/CT融合图；乳腺癌原发灶位于右乳外上象限，边缘不规整，直径约2.3cm，病灶的SUVmax=15.16，SUVmean=9.47，SUVpeak=9.21，MTV为1.76cm3，TLG为16.68g。E~H分别为非三阴性乳腺癌患者（女性，29岁）的全身MIP图和乳腺癌原发灶CT图、PET图、PET/CT融合图；乳腺癌原发灶位于右乳内上象限，边缘规整，直径约1.0cm，病灶的SUVmax=6.47，SUVmean=3.84，SUVpeak=2.97，MTV为0.57cm3，TLG为2.17g。

¹⁸F-FDG-PET/CT影像组学分析在三阴性乳腺癌分子分型诊断中的价值：

伴随大数据人工智能分析技术的不断发展，基于医学影像图像构建的影像组学模型也可以有效预测乳腺癌的分子分型。申请基于PET图像和CT图像，通过三维靶区勾画、影像特征提取和特征降维筛选，建立了基于¹⁸F-FDG-PET/CT图像的影像组学模型。

如图5所示，基于CT图像的影像组学特征有4个，基于PET图像的影像组学特征有6个。

如图6所示，ROC曲线分析显示ROC曲线下面积AUC为0.83，准确度为75.9%，灵敏度为74.5%，特异度为77.2%，表明该影像组学模型能够有效预测三阴性乳腺癌的分子分型。

此外，根据前面的统计分析筛选出的在三阴性乳腺癌组和非三阴性乳腺癌组间具有统计学差异的8个影像特征，包括肿瘤直径、边缘、合并同侧腋下***转移、累犯邻近***或皮肤、SUVmax、SUVmean、SUVpeak及TLG，将其纳入上述影像组学模型，构建一个联合临床特征信息的综合性影像组学模型。

如图7所示，ROC曲线分析显示，该综合性影像组学模型的ROC曲线下面积AUC为0.86，准确度为77.2%，灵敏度为78.6%，特异度为75.9%。相比于单纯影像组学模型，预测效能进一步提升，且经Delong检验证实，两个模型的ROC差异有统计学意义（z=-3.27，p<0.01）。绘制的校准曲线和决策曲线也表明，本申请构建的影像组学模型和综合性影像组学模型的拟合情况良好，且均具有潜在的临床应用价值。

Claims

1.一种乳腺癌风险预测方法，其特征在于，包括：

根据所述总特征矩阵建立逻辑回归模型和损失函数；

2.根据权利要求1所述乳腺癌风险预测方法，其特征在于，所述预处理包括：

3.根据权利要求1所述乳腺癌风险预测方法，其特征在于，影像组学特征提取，包括：

从PET/CT的原始图像中提取三维和二维形状特征；

4.根据权利要求1所述乳腺癌风险预测方法，其特征在于，根据所述逻辑回归模型和损失函数确定各个样本的权重，将所述权重与各个样本的特征进行相乘求和，获得每个样本的风险评估值，包括：

使用wilcoxon检验计算具有显著差异的影像组学特征；

5.根据权利要求1所述乳腺癌风险预测方法，其特征在于，使用LASSO回归筛选预测效能较高的影像组学特征组合，表达式如下：

，

6.根据权利要求1所述乳腺癌风险预测方法，其特征在于，损失函数表达式如下：

，

其中，y表示样本的真实分类值，表示预测值；

令损失函数最小，得到各个样本的最佳权重/>。

7.根据权利要求1所述乳腺癌风险预测方法，其特征在于，所述临床特征，包括：患者的年龄、月经情况、临床分期、病理类型、ER、PR及HER-2表达状态、分子分型。

8.一种乳腺癌风险预测装置，其特征在于，包括：

9.一种乳腺癌风险预测设备，其特征在于，包括：

存储器，用于存储权利要求1~7任一项所述一种乳腺癌风险预测方法的计算机可执行程序；

10.一种存储介质，其特征在于，存储有计算机可执行程序，该计算机可执行程序用于被处理器调取，执行权利要求1~7任一项所述一种乳腺癌风险预测方法的步骤。