WO2023010660A1

WO2023010660A1 - 一种生物材料功能预测评价方法

Info

Publication number: WO2023010660A1
Application number: PCT/CN2021/119233
Authority: WO
Inventors: 邓旭亮; 周莹莹; 张学慧; 平现凤
Original assignee: 北京大学口腔医学院
Priority date: 2021-08-03
Filing date: 2021-09-18
Publication date: 2023-02-09
Also published as: CN113604544A; CN113604544B

Abstract

本发明涉及一种生物材料功能预测评价方法，其解决了现有评价方法劳动密集、实验周期长、样本库异质性大的技术问题，其包括如下步骤：(1)在待测材料环境中，培养人源骨髓间充质干细胞；(2)收集所述步骤(1)培养的人源骨髓间充质干细胞，提取总RNA，纯化建库，转录组测序,得到待测样本的转录组数据；(3)将所述步骤(2)得到的待测样本的转录组数据经批次效应校正、特征提取后，输入本发明的功能预测评价模型，计算出待测样本分别为不同细胞类型的置信度。本发明可用于生物材料功能预测评价领域。

Description

一种生物材料功能预测评价方法

技术领域

本发明涉及一种生物材料的评价模型，具体地说，其涉及一种生物材料功能预测评价方法。

背景技术

当前，国内外对医用材料的评价内容主要分为理化性能评价和生物学评价两方面。其中，生物性能的评价集中在生物毒性，安全性评估方面，而在功能性评估上缺乏统一的评价体系。例如，对生物材料的干细胞命运调控功能评估尚未纳入国家医用生物材料有效性和安全性评价标准。因此这方面的材料评估数据产生于各生物材料研究实验室，由于表征手段，表征技术等缺乏统一的标准，样本数据库存在异质性。此外，当前大多数功能评估实验局限于单一的指标。细胞的身份体现在特异基因的表达上，因此当前对细胞类型的鉴定往往是对单个特异性基因表达的鉴定。例如，在基因层面上对在成骨细胞中高表达的基因BMP2，Runx2，COL1等进行qPCR检测，或者在蛋白质层面上对骨钙蛋白OCN，骨源性碱性磷酸酶ALP进行Western Blot检测。

然而，使用传统单一指标评价方法具有很大局限性，主要体现在以下几个方面：(1)单基因的qPCR检测不足以准确判断细胞的身份,因为同一种基因可能在多种细胞类型中高表达，另外，即使只有一部分细胞高表达该基因仍可能导致qPCR检测为整体高表达。(2)为提高准确性，往往需要对多个基因进行qPCR检测，造成劳力的浪费。(3)不同材料的评估之间难以比较：基于不同指标的评价无法直接比较，即使相同的指标也因缺乏标准定量化而难以比较。(4)无法提供细胞分化状态的全貌，既不能给出分化细胞的比例，也无法知晓细胞是否已经朝骨细胞的方向分化。

综上所述，单个生物标志分子的表达对细胞分化方向的评估效果不可定量，缺乏对细胞分化全貌的可量化评估，使得新型生物材料功能性上的设计优化研究缺少理论和数据支持，难以高通量筛选优化材料体系的理化参数，新型生物材料的生物性能也缺乏可预测性。

发明内容

本发明就是针对现有评价方法劳动密集、实验周期长、样本库异质性大等技术问题，提供一种准确率高、可预测的生物材料功能预测评价方法。

为此，本发明提供一种生物材料功能预测评价方法，包括如下步骤：(1)在待测材料环境中，培养人源骨髓间充质干细胞；(2)收集所述步骤(1)培养的人源骨髓间充质干细胞，提取总RNA，纯化建库，转录组测序,得到待测样本的转录组数据；(3)将所述步骤(2)得到的待测样本的转录组数据经批次效应校正、特征提取后，输入功能预测评价模型，计算出待测样本分别为不同细胞类型的置信度。

优选的,所述步骤(3)中的功能预测评价模型的构建方法包括如下步骤:(a)将所述步骤(2)得到的待测样本的转录组数据分为训练集和测试集，分别进行批次效应校正；(b)基于训练集数据提取四类细胞类型的基因表达特征，并对转录组数据进行特征提取；(c)基于训练集数据训练机器学习模型，优化得到Ensemble Learning智能预测模型；(d)将测试集数据输入Ensemble Learning智能预测模型，得到测试集样本的预测细胞类型，与样本的真实细胞类型比较，计算模型的准确率、查全率指标。

优选的,所述步骤(a)中，所述批次效应校正，基于ComBatseq算法和DaMiRseq算法整合优化；训练集已知样本类型和批次；测试集的样本类型未知，对测试集的批次效应校正基于训练集批次效应校正产生的参数，每个测试集独立校正。

优选的,所述步骤(b)中，所述特征提取,基于DaMiRseq算法和DESeq2算法整合提取；对训练集进行批次效应校正后，根据样本类型提取四类细胞类型的特征表达基因；对经过批次效应校正处理后的训练集和测试集数据分别提取特征基因的表达矩阵。

优选的,所述步骤(c)中，通过整合Ridge Classifier CV、Support Vector Machine、Decision Tree和Gaussian Naive Bayes四种机器学习算法，构建得到Ensemble Learning智能预测模型；首先在训练集上训练和优化模型，然后在测试集上计算模型的评价指标。

本发明具有以下有益效果：

本发明设计和构建以转录组为定量评价依据的生物材料功能预测评价方法，将待测细胞转录组与事先构建好的干细胞分化的不同细胞类型的基因表达谱进行比较，以获得生物材料诱导细胞分化状态的全貌。

具体地说，本发明整合Ridge Classifier CV、Support Vector Machine、Decision Tree和Gaussian Naive Bayes四种机器学习算法，训练出能区分成骨细胞、成软骨细胞、脂细胞、未分化间充质干细胞四类细胞类型样本的智能预测模型，相对于传统生物标志物评价方法，对四种细胞类型的判断准确率有明显提升；同时，本发明将来源于公共数据库的，经化学诱导和生物材料培养前后人骨髓间充质干细胞的RNAseq数据作为测试样本，输入基于参考样本基因表达谱数据库构建的预测模型，得到的结果显示，智能模型预测出的细胞类型与测试样本的表型相符。

附图说明

图1为本发明中公共数据库来源的RNAseq数据的层级聚类图，通过样本之间的相关系数我们剔除横线以上的异常样本，保留下来的样本用于参考样本基因表达谱数据库的构建；

图2(a)、图2(b)、图2(c)、图2(d)为本发明中批次效应校正前后，参考样本基因表达谱数据库的变量方差解释百分比定量柱状图及基因表达箱型图；其中，图2(a)显示批次效应校正前，参考数据库中批次所解释的方差百分比明显高于细胞类型，说明样本之间的差异主要源于批次效应；图2(b)显示批次效应校正前，参考数据库中样本的基因表达分布在各批次间不一致，存在明显的批次效应；图2(c)显示批次效应校正后，参考数据库中细胞类型所解释的方差百分比明显升高并高于批次效应；图2(d)显示显示批次效应校正后，参考数据库中样本的基因表达分布在各批次间趋于一致，批次效应得到明显校正；

图3(a)、图3(b)为本发明中在数据预处理前后，参考数据库中样本通过tSNE降维的可视化图；其中，图3(a)显示在数据预处理前，降维后样本按照批次聚类；图3(b)显示在经过批次效应校正和特征提取两步预处理后，降维后样本按照细胞类型聚类，同一种细胞类型的样本在大数据中可视化会聚类在一起；

图4为本发明中在经过特征提取后，成骨细胞、成软骨细胞、脂细胞、未分化间充质干细胞四类细胞类型样本的基因表达热图，显示在提取特征基因的基因表达图谱后，成骨细胞、成软骨细胞、脂细胞、未分化间充质干细胞四类细胞类型有明显的区别，纵坐标是基因名，横坐标是样本；

图5(a)、图5(b)为本发明中比较经典的机器学***均受试者工作特征曲线靠近左上角，曲线下面积(AUC值)接近1，表明该预测模型具有优良的分类效果；

图6为本发明中优化后智能预测模型的分类效果评价报告，将来源于公共数据库的成骨、成软骨、成脂三种化学诱导处理前后人骨髓间充质干细胞的RNAseq数据作为测试样本，输入智能预测模型，计算后得到每个样本的预测细胞类型，从而对智能预测模型的分类效果进行评价，可见四类测试样本均能获得较高的F1分数，说明综合查准率和查全率两个指标，智能预测模型对成骨细胞、成软骨细胞、脂细胞、未分化间充质干细胞四类细胞类型样本的分类效果良好；

图7为本发明中功能预测评价模型的构建方法流程图。

具体实施方式

下面结合实施例对本发明做进一步描述。

本发明提供一种生物材料功能预测评价方法，其包括如下步骤：(1)在待测材料环境中，培养人源骨髓间充质干细胞；(2)收集所述步骤(1)培养的人源骨髓间充质干细胞，提取总RNA，纯化建库，转录组测序；(3)将待测样本的转录组数据(即步骤(2)得到样本的数据)经批次效应校正、特征提取后，输入本发明的功能预测评价模型(功能预测评价模型是通过整合Ridge Classifier CV、Support Vector Machine、Decision Tree和Gaussian Naive Bayes四种机器学习算法，构建得到的Ensemble Learning智能预测模型)，计算出待测样本分别为成骨细胞、成软骨细胞、脂细胞、未分化间充质干细胞四类细胞类型的置信度。

如图7所示，本发明中功能预测评价模型的构建包括如下步骤：首先，转录组数据被分为训练集和测试集，分别进行批次效应校正；然后，基于训练集数据提取四类细胞类型的基因表达特征，并对转录组数据进行特征提取；之后，基于训练集数据训练机器学习模型，优化得到Ensemble Learning智能预测模型；最后，将测试集数据输入Ensemble Learning智能预测模型，得到测试集样本的预测细胞类型，与样本的真实细胞类型比较，计算模型的准确率、查全率等指标。

一、批次效应校正：基于ComBatseq算法和DaMiRseq算法整合优化。

训练集已知样本类型和批次，批次效应校正选用的函数参数如示意图7所示；测试集的样本类型未知，对测试集的批次效应校正基于训练集批次效应校正产生的参数，每个测试集独立校正，选用的函数参数如示意图7所示。

二、特征提取：基于DaMiRseq算法和DESeq2算法整合提取。

对训练集进行批次效应校正后，根据样本类型提取四类细胞类型的特征表达基因，选用的函数参数如示意图7所示；然后，对经过批次效应校正处理后的训练集和测试集数据分别提取特征基因的表达矩阵。

三、功能预测评价模型：通过整合Ridge Classifier CV、Support Vector Machine、Decision Tree和Gaussian Naive Bayes四种机器学习算法，构建得到Ensemble Learning智能预测模型。首先在训练集上训练和优化模型，然后在测试集上计算模型的评价指标。

如图3(a)、图3(b)、图4所示，本发明经批次效应校正和特征提取两步数据预处理后，参考数据库中成骨细胞、成软骨细胞、脂细胞、未分化间充质干细胞四类细胞类型的样本在基因表达图谱上存在明显类间差异。

如图5(b)所示，用优化后的Ensemble Learning智能预测模型训练出能区分成骨细胞、成软骨细胞、脂细胞、未分化间充质干细胞四类细胞类型样本的智能预测模型，受试者工作特征曲线显示，基于大数据和机器学习的Ensemble Learning智能预测模型对四种细胞类型具有优良的分类效果。

如图6所示，将来源于公共数据库的成骨、成软骨、成脂三种化学诱导处理前后人骨髓间充质干细胞的RNAseq数据作为测试样本，输入智能预测模型，计算后得到每个样本的预测细胞类型，从而对Ensemble Learning智能预测模型的分类效果进行评价，可见四类测试样本均能获得较高的F1分数，其中成骨细胞一类细胞类型的查准率和查全率均较高，说明Ensemble Learning智能预测模型对于生物材料环境培养的样本是否成骨具有可靠的预测效果。

惟以上所述者，仅为本发明的具体实施例而已，当不能以此限定本发明实施的范围，故其等同组件的置换，或依本发明专利保护范围所作的等同变化与修改，皆应仍属本发明权利要求书涵盖之范畴。

Claims

一种生物材料功能预测评价方法，其特征是，包括如下步骤：

(1)在待测材料环境中，培养人源骨髓间充质干细胞；

(2)收集所述步骤(1)培养的人源骨髓间充质干细胞，提取总RNA，纯化建库，转录组测序,得到待测样本的转录组数据；

(3)将所述步骤(2)得到的待测样本的转录组数据经批次效应校正、特征提取后，输入功能预测评价模型，计算出待测样本分别为不同细胞类型的置信度。
根据权利要求1所述的生物材料功能预测评价方法，其特征在于,所述步骤(3)中的功能预测评价模型的构建方法包括如下步骤:

(a)将所述步骤(2)得到的待测样本的转录组数据分为训练集和测试集，分别进行批次效应校正；

(b)基于训练集数据提取四类细胞类型的基因表达特征，并对转录组数据进行特征提取；

(c)基于训练集数据训练机器学习模型，优化得到Ensemble Learning智能预测模型；

(d)将测试集数据输入Ensemble Learning智能预测模型，得到测试集样本的预测细胞类型，与样本的真实细胞类型比较，计算模型的准确率、查全率指标。
根据权利要求2所述的的生物材料功能预测评价方法，其特征在于,所述步骤(a)中，所述批次效应校正，基于ComBatseq算法和DaMiRseq算法整合优化；训练集已知样本类型和批次；测试集的样本类型未知，对测试集的批次效应校正基于训练集批次效应校正产生的参数，每个测试集独立校正。
根据权利要求2所述的的生物材料功能预测评价方法，其特征在于,所述步骤(b)中，所述特征提取,基于DaMiRseq算法和DESeq2算法整合提取；对训练集进行批次效应校正后，根据样本类型提取四类细胞类型的特征表达基因；对经过批次效应校正处理后的训练集和测试集数据分别提取特征基因的表达矩阵。
根据权利要求2所述的的生物材料功能预测评价方法，其特征在于,所述步骤(c)中，通过整合Ridge Classifier CV、Support Vector Machine、Decision Tree和Gaussian Naive Bayes四种机器学习算法，构建得到Ensemble Learning智能预测模型；首先在训练集上训练和优化模型，然后在测试集上计算模型的评价指标。