一种拉曼光谱结合人工智能高通量单细胞分析鉴定方法
技术领域
本发明涉及细胞分析鉴定技术领域,尤其涉及一种拉曼光谱结合人工智能高通量单细胞分析鉴定方法。
背景技术
高通量、快速的细胞分析鉴定技术在科学研究、工业生产、食品安全等领域承担重要的角色。细胞分析鉴定技术传统方法基于染色、培养、生理生化、血清特征等为主,存在操作繁琐,检测周期长,对工作人员技术操作水平和专业知识要求高等问题。目前常用的核酸分子杂交、PCR扩增技术、基因芯片技术等分子检测方法,通过检测分析细胞的遗传物质判定细胞之间的差异。分子检测方法相比较传统方法提高了细胞检测鉴定的灵敏性,并缩短了检测时间,但难以实现单细胞的快速分析鉴定。MALDI-TOF质谱法通过判定细胞的特定蛋白谱的差异分析鉴定细胞,但是该方法目前尚不能实现原位检测,需要纯培养物,而且要求大量的细胞蛋白。单细胞测序等方法可以实现单细胞的鉴定分析,但该方法是侵入损毁型方法,需要破碎细胞,无法实现原位操作,也无法得到细胞的动态的信息和后续的研究,因此亟需发展高通量、快速、无损的单细胞分析鉴定技术。
发明内容
为了解决上述技术问题,本发明提供了一种拉曼光谱结合人工智能高通量单细胞分析鉴定方法,能够实现对单细胞的高通量、无损、快速分析鉴定。
微流控技术、拉曼光谱技术和共聚焦技术多功能联用相结合的技术可实现高通量、快速、无损单细胞分析和鉴定。微流控是一种研究微米尺度通道中生化微流体的精确操控与分析的技术与科学,具备高通量、集成化、微型化和便携化等特点。拉曼光谱是根据光子与化学物质分子之间发生非弹性碰撞而产生的一种非弹性光学散射的拉曼散射效应原理而发展起来的拉曼光谱分析技术。根据拉曼光谱的特征峰位置、强度和线宽可以判断特定分子振动、转动方面的信息,据此可获得分子中不同的化学键和官能团的信息。拉曼光谱可以实现快速、非接触、无损等条件下获取生物细胞的核酸、蛋白质、脂类和代谢产物等“指纹图谱”信息。每个单细胞拉曼光谱由上千个拉曼峰组成,反映细胞内化学成分及含量的多维信息,每个单细胞的所有拉曼光谱信息也被称为“拉曼组”。由于拉曼组承载海量的信息,分析工作量极大,所以我们采用机器学习人工智能技术,让人工智能对大量的数据进行学习和分析,实现自动化的准确鉴定。
该发明利用微流控技术高通量分离单细胞,快速收集单细胞的拉曼光谱,运用人工智能技术分析单细胞的拉曼光谱特征,对其进行分类鉴定,是一个完全创新的技术方法,解决目前无法高通量、无损、快速分析鉴定单细胞的问题。
为了实现上述发明目的,本发明提供了一种拉曼光谱结合人工智能高通量单细胞分析鉴定方法,包括如下步骤:
S1、获取待测活体细胞液,并将细胞液利用微流控技术在芯片上制备成单细胞阵列;
S2、获取所述单细胞阵列的拉曼光谱并对拉曼光谱数据进行预处理;
S3、利用预处理后的数据进行模型训练、验证和检验,最后得到最优模型,利用最优模型对预处理后的拉曼光谱数据进行鉴定预测。
其中,
所述步骤S1具体为:
获取待测活体细胞液,对获取的待测活体细胞液中的细胞用盐水或细胞等渗透压溶液进行洗涤2-3次;所述盐水为0.85% NaCl或适合该细胞生理浓度的NaCl
将洗涤后的细胞上样,使其最终产生单细胞液滴;
设置芯片移动步距,将单细胞液滴密集排布在芯片上,制得单细胞阵列。
所述步骤S1中所述芯片的材质为石英材质、玻璃材质和氟化钙材质中的任意一种。
所述步骤S2中:
所述获取单细胞阵列的拉曼光谱,具体为:将步骤S1获取的含有单细胞阵列的芯片放置于拉曼光谱采集设备上,调节激光器的功率,设置光谱采集时间和光栅参数,对芯片上的单细胞逐一进行采集,获取每一个单细胞的拉曼光谱数据;单细胞拉曼光谱的采集设备可以为任意拉曼设备;
所述对拉曼光谱数据进行预处理的处理方式可采用光滑处理、去除基线和归一化中的一种或任意几种组合。所述光滑处理方法可采用卷积平滑方法、移动平均方法、高斯滤波、双边滤波或均值滤波等;所述去除基线方法可采用多项式拟合法、BEADS算法、小波算法、经验模态分解(EMD)等;所述归一化方法可采用最大-最小值方法、面积归一化、向量归一化等。
所述步骤S3中:
所述模型的结构包括卷积层、池化层和全连接层;所述卷积层为2-100层,所述池化层为2-100层,所述池化层的池化方法为最大池化或平均池化,所述全连接层为至少1个;
所述模型的验证采用K折交叉验证法,所述K为1-10的任一整数。
所述步骤S3中,采用均匀随机抽样的方式将预先构建的样本数据库进行分组,分成训练集和验证集,并由验证集中均匀随机抽样构成检验集;所述训练集、验证集和检验集分别用于模型的训练、验证和检验;
其中,所述样本数据库的构建如下:获取已知的不同种类的细胞液,并将不同种类的细胞液分别利用微流控技术在芯片上制备成单细胞阵列,然后利用激光器作为激发光源激发细胞产生拉曼散射信号,通过光谱仪获取单细胞阵列的细胞拉曼光谱,并对获取的细胞拉曼光谱数据进行统一的预处理;所述对拉曼光谱数据进行预处理的处理方式为光滑处理、荧光背景去除、去除基线和归一化中的一种或任意几种组合。
拉曼光谱仪的激光器波长为532 nm、633 nm或785 nm等任意波长。
样本数据库中细胞的拉曼光谱的拉曼位移取值范围为0-4000 cm-1。
所述样本数据库的细胞液种类包括植物细胞、动物细胞和微生物细胞中的任意一种或几种,所述植物细胞为植物花粉细胞或植物根茎叶的离体活细胞组织,动物细胞为来自动物的离体活细胞,所述微生物细胞为单核细胞微生物或病毒。
样本数据库对植物、动物或微生物的种类没有限制,但任何一种类细胞的光谱数量需要大于10。
所述步骤S3中,在模型训练过程中,损失函数(Loss function)收敛,并且训练的过程中损失函数值趋于稳定在某一数值时模型训练过程结束。
所述步骤S1中,获取的所述细胞液为植物细胞、动物细胞或微生物细胞。
一种如上述的拉曼光谱结合人工智能高通量单细胞分析鉴定方法在单细胞分析鉴定技术中的应用。
本发明的有益效果是:本发明利用微流控技术高通量分离单细胞,快速收集单细胞的拉曼光谱,运用人工智能技术分析单细胞的拉曼光谱特征,对其进行分类鉴定,鉴定准确率高、灵敏性强,解决了目前无法高通量、无损、快速分析鉴定单细胞的问题。
附图说明
图1为本发明实施例2中机器学习算法的结构构架。
图2 为本发明实施例2中机器学习训练获得的模型检验单细胞物种的结果图。
图3 为本发明实施例3中机器学习训练获得的模型检验单细胞病原微生物的结果图。
具体实施方式
本发明首先采用微流控技术,将制备成悬浮液的细胞通过微流通道形成单细胞液滴,将液滴密集的排布在芯片上。芯片上的单细胞在显微拉曼光谱仪上获取拉曼光谱,对获取的单细胞拉曼光谱数据进行前期处理。最后,用机器学习人工智能的方法对不同种类的拉曼光谱数据进行学习,建立可靠的分类模型,并对其进行检测和预测分析。
为能清楚说明本方案的技术特点,下面通过具体实施方式,对本方案进行阐述。
实施例1
本发明实施例提供了一种拉曼光谱结合人工智能高通量单细胞分析鉴定方法,包括如下步骤:
S1、获取待测活体细胞液,并将细胞液利用微流控技术在芯片上制备成单细胞阵列;
S2、获取所述单细胞阵列的拉曼光谱并对拉曼光谱数据进行预处理;
S3、利用预处理后的数据进行模型训练、验证和检验,最后得到最优模型,利用最优模型对预处理后的拉曼光谱数据进行鉴定预测。
其中,
步骤S1具体为:
获取待测活体细胞液,对获取的待测活体细胞液中的细胞用盐水或细胞等渗透压溶液进行洗涤3次;盐水为0.85% NaCl或适合该细胞生理浓度的NaCl
将洗涤后的细胞上样,使其最终产生单细胞液滴;
设置芯片移动步距,将单细胞液滴密集排布在芯片上,制得单细胞阵列。
步骤S1中芯片的材质为石英材质、玻璃材质和氟化钙材质中的任意一种。
步骤S2中:
获取单细胞阵列的拉曼光谱,具体为:将步骤S1获取的含有单细胞阵列的芯片放置于拉曼光谱采集设备上,调节激光器的功率,设置光谱采集时间和光栅参数,对芯片上的单细胞逐一进行采集,获取每一个单细胞的拉曼光谱数据;单细胞拉曼光谱的采集设备可以为任意拉曼设备;
对拉曼光谱数据进行预处理的处理方式可采用光滑处理、去除基线和归一化中的一种或任意几种组合,本实施例采用光滑处理、去除基线和归一化。光滑处理方法可采用卷积平滑方法、移动平均方法、高斯滤波、双边滤波或均值滤波等,本实施例采用卷积平滑方法;去除基线方法可采用多项式拟合法、BEADS算法、小波算法、经验模态分解(EMD)等,本实施例采用多项式拟合法;归一化方法可采用最大-最小值方法、面积归一化、向量归一化等,本实施例采用向量归一化方法。
步骤S3中:
模型的结构包括卷积层、池化层和全连接层;卷积层为2-100层,本实施例为2层,池化层为2-100层,本实施例为2层,池化层的池化方法为最大池化或平均池化,本实施例采用最大池化,全连接层为1层;
模型的验证采用K折交叉验证法,K为1-10的任一整数,本实施例采用10折交叉验证法。
步骤S3中,采用均匀随机抽样的方式将预先构建的样本数据库进行分组,分成训练集和验证集,并由验证集中均匀随机抽样构成检验集;训练集、验证集和检验集分别用于模型的训练、验证和检验;
其中,样本数据库的构建如下:获取已知的不同种类的细胞液,并将不同种类的细胞液分别利用微流控技术在芯片上制备成单细胞阵列,然后利用激光器作为激发光源激发细胞产生拉曼散射信号,通过光谱仪获取单细胞阵列的细胞拉曼光谱,并对获取的细胞拉曼光谱数据进行统一的预处理;对拉曼光谱数据进行预处理的处理方式为光滑处理、荧光背景去除、去除基线和归一化中的一种或任意几种组合,本实施例采用光滑处理、荧光背景去除、去除基线和归一化。
拉曼光谱仪的激光器波长为785 nm。
样本数据库中细胞的拉曼光谱的拉曼位移取值范围为0-4000 cm-1。
样本数据库的细胞液种类包括植物细胞、动物细胞和微生物细胞,且植物细胞为植物花粉细胞或植物根茎叶的离体活细胞组织,动物细胞为来自动物的离体活细胞,微生物细胞为单核细胞微生物或病毒。
步骤S3中,在模型训练过程中,损失函数(Loss function)收敛,并且训练的过程中损失函数值趋于稳定在某一数值时模型训练过程结束。
步骤S1中,获取的细胞液为植物细胞、动物细胞或微生物细胞。
实施例2
本发明实施例利用拉曼光谱仪采集获得Escherichia coli DH5α, Pseudomouasaeruginosa PAO1, Haloferax mediterranei ATu33sin, Sulfolobus islandicusE233S, Methanococcus maripaludis S2, Metallosphaera cuprina JCM 15769T,Acidianus brierleyi DSM 1651, Candida albicans SC5314, Cryptococcusneoformans JEC21, Saccharomyces cerevisiae W303-10D, S. arboricolusHZZt16L.1, S. kudriavzevii XS29L.2, S. mikatae FJSB44.3 和S. paradoxusCBS2908共计14种微生物单细胞拉曼光谱,总计获得1301个拉曼组数据。将这些数据利用卷积平滑滤波器(Savitzky-Golay filter)光滑处理、多项式拟合方法去除基线,最后利用向量归一化处理。
将预处理的数据输入搭建的机器学习人工智能算法模型中,该机器学习算法的结构框架见图1。该结构包含2层卷积层,2层最大池化层,1层全连接层。模型训练过程如实施例1中S3,通过模型训练最终获得最优模型。结果如图2显示,最优模型的物种鉴定正确率达到98.45%,灵敏性和特异性分别为96.35%和99.70%。
实施例3
本发明实施例对来自临床的病原微生物的耐药性检测分析。我们利用拉曼光谱仪获取对来自临床的烟曲霉菌(Aspergillus fumigatus)耐伊曲康唑菌株和白色念珠菌(Candida albicans)耐氟康唑菌株以及这两种微生物的野生菌株的拉曼光谱,共计获得723个拉曼组数据。采用的数据前处理和机器学习训练方法如上述的实施例2。结果如图3显示,最优模型能够很好的将烟曲霉耐药菌株与野生菌株区分,也将白色念珠菌的耐药菌株与野生菌株很好的识别,灵敏性和特异性都达到了98%。
本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述,当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。