CN114783539A - 一种基于光谱聚类的中药成分分析方法及*** - Google Patents

一种基于光谱聚类的中药成分分析方法及*** Download PDF

Info

Publication number
CN114783539A
CN114783539A CN202210461016.7A CN202210461016A CN114783539A CN 114783539 A CN114783539 A CN 114783539A CN 202210461016 A CN202210461016 A CN 202210461016A CN 114783539 A CN114783539 A CN 114783539A
Authority
CN
China
Prior art keywords
sample
chinese medicine
traditional chinese
component analysis
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210461016.7A
Other languages
English (en)
Inventor
聂磊
庄晓琪
臧恒昌
张中湖
金翩
杨新娅
李连
姜红
朱友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210461016.7A priority Critical patent/CN114783539A/zh
Publication of CN114783539A publication Critical patent/CN114783539A/zh
Priority to PCT/CN2023/083467 priority patent/WO2023207453A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本公开公开的一种基于光谱聚类的中药成分分析方法及***,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。通过该训练好的中药成分分析模型进行中药成分分析时,提高了模型预测的精度。

Description

一种基于光谱聚类的中药成分分析方法及***
技术领域
本发明涉及近红外光谱分析技术领域,尤其涉及一种基于光谱聚类的中药成分分析方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
近红外(NIR)光谱是一种波长范围为780nm至2526nm的电磁波,主要反映C-H、O-H和N-H振动的泛音和组合带的光谱吸收,具有快速、成本低、操作简单、无损、重现性好以及符合绿色分析化学理念等特点。近红外光谱分析方法作为一种快速分析技术,已广泛应用于制药科学、食品科学和石油化学等多个领域,在对于中药和食品等的定性鉴定、定量分析和实时在线分析方面显示出巨大的潜力。
建立有效的近红外光谱定量模型是近红外光谱技术用于中药和食品等质量监测的关键问题,为了建立近红外光谱定量模型,引入了多种建模方法,但无论采用何种建模方法,所建模型的校正样本都需要覆盖预测样本的特征信息,然而在实际应用中对于新测定的样本通常难以满足这一要求,例如由于产地、生长年份、气候条件和提取方法等的不同,所测得新样本的光谱数据和质量属性可能存在差异,甚至这种差异很大,从而导致建立的原始模型准确性下降。
有两种常见的方法可以解决由于新测定样品和原始样品之间的***差异而导致的模型准确性损失:一种是只使用新样本重建新模型,即在新模型中不使用原始校准集样本,但这样会丢失原始模型的信息,造成在模型中的时间和精力的浪费;另一种解决方案是模型更新的方法,即使用原始校正集样本结合少量选定的新样本对原始模型进行更新以提高建模精度,由于只需要选择少量的新样本,模型更新的时间和成本比重建新模型的时间和成本要少,更适合实际应用,从大量新样本中选择具有代表性的样本是模型更新的关键问题,但现有的从大量新样本中选择代表性样本时,并未考虑新样本的光谱信息,因此选择的样本是否具有代表性很难确定,导致更新后的模型准确性依然不高。
发明内容
本公开为了解决上述问题,提出了一种基于光谱聚类的中药成分分析方法及***,通过选择距离光谱各类别中心最近的样本为候选样本,加入原始样本集划分出的校正集中完成对原校正集的更新,对中药成分分析模型进行更新训练,使得获得的训练好的中药成分分析模型的准确性提高,具有更好的预测性能。
为实现上述目的,本公开采用如下技术方案:
第一方面,公开了一种基于光谱聚类的中药成分分析方法,包括:
获取中药的近红外光谱;
根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
第二方面,提出了一种基于光谱聚类的中药成分分析***,包括:
数据获取模块,用于获取中药的近红外光谱;
结果获取模块,用于根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成一种基于光谱聚类的中药成分分析方法所述的步骤。
第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成一种基于光谱聚类的中药成分分析方法所述的步骤。
与现有技术相比,本公开的有益效果为:
1、本公开在获得训练好的中药成分分析模型时,首先通过原始样本集对原始模型进行训练获得中药成分分析模型,之后从新样本集中选择距离光谱各类别中心最近的样本为候选样本,将候选样本加入原始样本集划分出的校正集中形成新校正集,通过新校正集对中药成分分析模型进行更新训练,最终获得训练好的中药成分分析模型,该最终获得的训练好的中药成分分析模型,具有更好的预测性能,提高了实际应用价值。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为实施例1公开方法的流程框图;
图2为实施例1中所有样本一的近红外光谱图;
图3为实施例1中所有样本一在第一和第二PC空间的分布图;
图4为实施例1中所有样本一采用Ward方法的聚类结果树状图;
图5为实施例1中所有样本一采用Average方法的聚类结果树状图;
图6为实施例1中不同方法所选样本在第一和第二PC空间的分布图;
图7为实施例1中所有样本二的近红外光谱图;
图8为实施例1中所有样本二在第一和第二PC空间的分布图;
图9为实施例1中所有样本二采用Ward方法的聚类结果树状图;
图10为实施例1中所有样本二采用Average方法的聚类结果树状图;
图11为实施例1中不同方法所选样本在第一和第二PC空间的分布图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
在该实施例中,公开了一种基于光谱聚类的中药成分分析方法,包括:
获取中药的近红外光谱;
根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
进一步的,选择距离各类别中心最近的样本为候选样本的具体过程为:
计算各类别的样本中心;
计算各样本到各自类别的样本中心的欧氏距离;
对计算的欧氏距离进行排序;
选择各类别中欧式距离最小的样本为候选样本。
进一步的,采用Ward方法或Average方法对新样本集进行聚类分析。
进一步的,通过原始样本集构建获得中药成分分析模型的具体过程为:
建立原始中药成分分析模型;
将原始样本集划分为校正集和验证集,对原始中药成分分析模型进行训练,获得中药成分分析模型。
进一步的,中药成分分析模型采用PLS模型、神经网络模型或支持向量机模型。
进一步的,对中药成分近红外光谱样本进行预处理,通过预处理后的中药成分近红外光谱样本构建原始样本集和新样本集。
进一步的,原始样本集和新样本集中的样本不重合。
对本实施例公开的一种基于光谱聚类的中药成分分析方法进行详细说明。
如图1所示,一种基于光谱聚类的中药成分分析方法,包括:
S1:获取中药的近红外光谱。
在具体实施时,采用光谱仪获取中药的近红外光谱。
S2:根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果。
其中,中药成分分析模型采用PLS模型、神经网络模型或支持向量机模型等。
建立原始中药成分分析模型,并对原始中药成分分析模型进行训练,获得训练好的中药成分分析模型,具体过程为:
S21:获取中药成分近红外光谱样本,该样本用于后续的模型训练。
中药成分近红外光谱样本包含采用行业标准检测方法测定的各成分指标及成分指标的参考值。
S22:对中药成分近红外光谱样本划分为原始样本集X和新样本集Xnew
在具体实施时,可以直接将中药成分近红外光谱样本划分为原始样本集和新样本集;也可以先对中药成分近红外光谱进行预处理,将预处理后的近红外光谱进行划分,获得原始样本集和新样本集。
其中,对中药成分近红外光谱进行的预处理方式包括:平滑处理、一阶导数计算、二阶导数计算、标准化处理、基线漂移处理、标准正态变量处理、多元散射校正处理等中的任意一种或多种的组合。
S23:通过原始样本集对建立的原始中药成分分析模型进行训练,获得中药成分分析模型。
在具体实施时,将原始样本集X划分为校正集Xcal和验证集Xval,对建立的原始中药成分分析模型进行训练,获得中药成分分析模型。
其中,校正集Xcal的数量大于或等于验证集Xval的数量,校正集和验证集Xval样本数量的设置比例为2:1及以上。
将原始样本集X划分为校正集Xcal和验证集Xval的划分方法可以为:KS方法、Rank-KS方法、SPXY方法、Rank-SPXY方法及含量梯度法中的任意一种。
S24:通过新样本集Xnew对中药成分分析模型进行进一步的训练,获得训练好的中药成分分析模型,具体为:
S241:将新样本集中的样本光谱进行聚类分析(HCA),根据选择的聚类结果和类别数据,将新样本分为不同的Xnew,i,其中“i”表示不同的类别。
在具体实施时,采用Ward方法和Average方法等中的任意一种,对样本进行聚类分析。
S242:计算各类别的样本中心xcenter,i,可以通过以下公式获得:
xcenter,i=Xnew,i/N(1)
其中,xcenter,i表示不同类别的样本中心,“N”表示各类别中的样本个数。
S243:计算各样本xnew,j到各自类别中心的欧氏距离dx(j):
Figure BDA0003622213270000091
S244:对对计算的欧氏距离进行排序;选择各类别中欧式距离最小的样本为候选样本Xsel
S245:将所有候选样本加入原始样本集划分出的校正集中,形成新校正集,将新样本集中除候选样本外的其余样本作为测试集Xtest,通过新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
本实施例公开的一种基于光谱聚类的中药成分分析方法,通过选择距离光谱各类别中心最近的样本作为候选样本加入原始样本集划分出的校正集中,并进一步对中药成分分析模型进行更新,使训练后的中药成分分析模型对未知新样本具有更好的预测性能,更具有实际应用价值。
以市售的黄芪提取物(RAE)为实例对本实施例公开方法进行验证。
测定的样本数共有82个RAE样本,包括从5个制造商收集的9个批次,具体信息见表1。其中,S1~S6共53个样本为原始样本集X,用于建立中药成分分析模型,其余29个样本(S7~S9)被用作为新样本集Xnew。原始样本和新样本的近红外光谱由AntarisⅡFT-NIR光谱仪(赛默飞科技有限公司,美国),测得的近红外光谱见图2,实线为原始样本,虚线为新样本。黄芪甲苷(AST IV)、毛蕊异黄酮葡萄糖苷(CG)和黄芪多糖(APS)作为参照的成分指标Y,采用HPLC法分别测定黄芪提取物中AST IV和CG的含量,由高效液相色谱仪(1260,安捷伦科技有限公司,美国)测得;采用苯酚硫酸法测定黄芪提取物中APS的含量,结果如表1所示。
表1 RAE样品信息表
Figure BDA0003622213270000101
Figure BDA0003622213270000111
注:10:1的浓缩比表示将10倍重量的原料浓缩为1倍重量,以此类推。A,B,C,D和E厂家均来自陕西省。
采用常用的KS方法将原始样本集划分为校正集Xcal和验证集Xval,分别用于开发和验证中药成分分析模型,其中校正集样本数为36,预测集样本是17。近红外光谱采用SNV结合一阶导数的预处理方法进行处理。
以APS为例,经预处理后的所有样本光谱的主成分分析(PCA)得分图如图3所示。如图3所示,新样本的分布区域不包含在原始样本的光谱空间中,而是分成不同的簇,从呈现不同聚类的角度来看,原始样本集和新样本集之间基本上没有重叠区域,表明新样本与原始样本相比可能存在***性差异。因此,使用中药成分分析模型直接预测新样本会导致结果不佳。
为此,首先对RAE的新样本集进行聚类分析。图4和图5展示了经Ward和Average两种方法对经预处理后新样本的聚类结果,点虚线、虚线和实线分别代表新样本分为4、5和6类,将新样本分为了不同的类别Xnew,i。从图4、5中可以看出,虽然两种聚类方法形成的树状图有所不同,但是1-5类的样本分类结果是一致的,所以1-5类包含的样本应该是一致的。
根据聚类的结果,分别计算出每个类别的样本中心xcenter,i,其次计算每个样本到各自类别中心的欧氏距离dx(j)并进行排序,挑选出最接近每个类别中心的样本作为候选样本Xsel加入校正集Xcal中,形成新校正集进行中药成分分析模型的更新,剩余的样本作为测试集Xtest对更新后的模型进行验证。对于通过模型更新来预测新样本,应选择尽可能少的新样本,我们选择了3个(大约29个新样本的10%)到6个样本(大约20%)用于模型更新,结果见表3。由结果可以看出,采用本实施例公开方法(CCD方法)进行模型更新后,Rt和RPDt值均比采用中药成分分析模型直接预测的值要高,RMSET值也大幅度降低,说明训练后的中药成分分析模型对于新样本的含量预测有了很大的提高。其中,AST IV、CG和APS三种成分的RMSET值分别从0.0637、0.0261和4.1141降低到0.0063、0.0011和1.0133,证明了使用本实施例公开方法可以大大提高模型对未知新样本的预测能力。
表2模型更新前后对测试集样本含量预测的对比结果
Figure BDA0003622213270000121
注:“-”表示选择的样本数为0。
为评价本实施例公开方法的性能效果,将本实施例公开方法与常用方法如RS法、SPXY法和KS法进行比较,其中采用RS方法由于随机性,将进行十次重复采样,并取十次的平均结果与其他方法进行比较。其他三种方法均选取与本实施例公开方法选取的相同样本数量范围(3~6个)的样本加入原校正集,并通过更新模型的性能来评估所选样本的代表性,以此比较不同方法的建模性能和预测能力。有关结果见表3。
表3不同方法进行模型更新的最佳结果
Figure BDA0003622213270000131
由表4可知,四种选择样本的方法均能使更新后的模型更好地预测新样品中各成分的含量,说明模型更新策略是可行的,并有效地将更新后的模型应用于新样本。与原始模型相比,采用本实施例公开方法进行模型更新的预测结果与RS、SPXY和KS法相比均达到了最佳预测结果,RMSET值较低,RPDt值较高。
为了进一步证明本实施例公开方法的实用性,比较了四种方法在选择最少样本数(3个样本)时进行模型更新后的结果,结果见表4。从表4看,当所选择的样品的数量最小时,CCD方法比其他三种方法更具有明显的优势。此外,经本实施例公开方法进行模型更新的RPDt值均大于3.5,说明本实施例公开方法大大提高了更新后的模型的适用性。图6展示了CCD、SPXY和KS法三种方法选择的样品在第一和第二PC空间中的分布,放大图为S7(a-c)、S8(d-f)和S9(g-i)的放大图像,其中(a)、(d)和(g)代表AST IV;(b)、(e)和(h)代表CG;(c)、(f)和(i)代表APS。由图可以看出,本实施例公开方法选取的样本基本上更接近每个类别的中心,可能对相应类别的样本具有更好的代表性,从而获得更好的结果。
表4不同方法在选择3个样本时进行模型更新的结果
Figure BDA0003622213270000141
Figure BDA0003622213270000151
再次以市售的黄芪提取物(RAE)为实例对本实施例公开方法进行验证,测定的样本数共有82个RAE样本,从5个制造商收集的9个批次,具体信息见表1。原始样本和新样本的近红外光谱由Micro-NIR 1700微型近红外光谱仪(VIAVI,美国)测得,测得的近红外光谱见图7,实线为原始样本,虚线为新样本。黄芪甲苷(AST IV)、毛蕊异黄酮葡萄糖苷(CG)和黄芪多糖(APS)作为参照成分指标。
采用常用的KS方法将原始样本集划分为校正集Xcal和验证集Xval,分别用于开发和验证原始模型,其中校正集样本数为36,预测集样本是17。近红外光谱采用SNV结合一阶导数的预处理方法进行处理。以APS为例,经预处理后的所有样品光谱的主成分分析(PCA)得分图如图8所示。如图8所示,新样本的分布均不包含在原始样本的光谱空间中,而是分成不同的簇,且原始样本集和新样本集之间基本上没有重叠区域,表明新样本与原始样本之间可能存在***性差异。
首先,对RAE的新样本集进行聚类分析。图9和图10展示了经Ward和Average两种方法对经预处理后新样品的聚类结果。点虚线、虚线和实线分别代表新样本分为4、5和6个类别,将新样本分为了不同的类别Xnew,i。从图中可以看出,1-5类的样本分类结果是一致的,所以1-5类包含的样本应该是一致的。
由于HCA将新样本根据不同的类别数划分成了不同的类别,为了选出具有类别代表性的样本,首先计算出了每个类别的样本中心xcenter,i,接着分别计算每个样本到各自类别中心的欧氏距离并将其进行排序,挑选出最接近各自类别中心的一个样本作为候选代表样本Xsel加入至原始样本集划分出的校正集Xcal中形成新校正集,通过新校正集进行中药成分分析模型的更新。具体的选择了3个(大约29个新样本的10%)到6个样本(大约20%)用于模型更新。表5显示了模型更新后新样本中剩余未选择样本Xtest的三种活性成分的最佳含量预测结果。采用本实施例公开方法(CCD方法)进行模型更新后,Rt和RPDt值均比采用原始模型直接预测的值要高,RMSET值也大幅度降低,说明模型对于新样本的含量预测有了很大的提高。AST IV、CG和APS三种成分的RMSET值分别从0.0507、0.0268和3.6572降低到0.0085、0.0029和1.2583,Rt值从0.9428、0.5250和0.8827增大到0.9931、0.9876和0.9723,同时RPDt值也分别从0.47、0.12和1.01提升至4.66、4.39和3.13,证明了使用本实施例公开方法进行模型更新可以大大提高模型的性能和对未知新样本的预测。
表5模型更新前后对测试集样本含量预测的对比结果
Figure BDA0003622213270000161
Figure BDA0003622213270000171
将本实施例公开方法与经典方法如RS法、SPXY法和KS法进行比较,其中采用RS方法进行十次重复采样,取十次的平均结果并与其他方法进行比较。选取与本实施例公开方法所选相同数量范围的样本加入原始样本集划分出的校正集中形成新校正集,并通过新校正集更新模型的性能来评估所选样本的代表性,以此比较不同方法的建模性能和预测能力。有关结果见表6。。
表6不同方法进行模型更新的最佳结果
Figure BDA0003622213270000172
Figure BDA0003622213270000181
由表6可知,四种方法均能使更新后的模型更好地预测新样品中各成分的含量。与原始模型相比,除了CG成分外,采用本实施例公开方法进行模型更新后的预测结果与RS、SPXY和KS法方法相比均达到了最佳预测结果,RMSET值较低,RPDt值较高,CG成分的结果也与其他方法的结果相似。
此外,比较了四种方法在选择最少样本数(3个样本)时进行模型更新后的结果,结果见表7。从结果中可以看出,当只选择最少的样本数时,可以得到本实施例公开方法与其他三种方法相似或者更好的结果。此外,CCD更新模型的RPDt值均大于2,说明本实施例公开方法进行模型更新后的模型可以对未知新样本进行含量预测。图11展示了CCD、SPXY和KS法三种方法选择的样品在第一和第二PC空间中的分布,放大图为S7(a-c)、S8(d-f)和S9(g-i)的放大图像,其中(a)、(d)和(g)代表AST IV;(b)、(e)和(h)代表CG;(c)、(f)和(i)代表APS。由图可以看出,本实施例方法选取的样本基本上更接近每个类别的中心,可能对相应类别的样本具有更好的代表性,从而获得更好的结果。
表7不同方法在选择3个样本时进行模型更新的结果
Figure BDA0003622213270000182
Figure BDA0003622213270000191
由以上两个实例可以看出,新样本确实与原始样本存在一定的***性差异,导致样品的光谱呈现出不同的类别,中药成分分析模型无法适用。以上两个验证示例获取样本的设备不同,但均能验证本实施例采用原始校正集结合少量选取的新样本更新中药成分分析模型,选择最接近类别中心的样本作为候选样本来更新原始样本集划分出的校正集,使选择的样本具有代表性,更新后的模型预测结果均良好。此外,将本实施例公开方法与RS、SPXY和KS法进行比较,具有一定的优势。此外,本实施例公开的基于光谱聚类中心的样本选择及模型更新方法可以扩展到各个领域,更具有实际意义。
实施例2
在该实施例中,公开了一种基于光谱聚类的中药成分分析***,包括:
数据获取模块,用于获取中药的近红外光谱;
结果获取模块,用于根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
实施例3
在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的一种基于光谱聚类的中药成分分析方法所述的步骤。
实施例4
在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的一种基于光谱聚类的中药成分分析方法所述的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于光谱聚类的中药成分分析方法,其特征在于,包括:
获取中药的近红外光谱;
根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
2.如权利要求1所述的一种基于光谱聚类的中药成分分析方法,其特征在于,选择距离各类别中心最近的样本为候选样本的具体过程为:
计算各类别的样本中心;
计算各样本到各自类别的样本中心的欧氏距离;
对计算的欧氏距离进行排序;
选择各类别中欧式距离最小的样本为候选样本。
3.如权利要求1所述的一种基于光谱聚类的中药成分分析方法,其特征在于,采用Ward方法或Average方法对新样本集进行聚类分析。
4.如权利要求1所述的一种基于光谱聚类的中药成分分析方法,其特征在于,通过原始样本集构建获得中药成分分析模型的具体过程为:
建立原始中药成分分析模型;
将原始样本集划分为校正集和验证集,对原始中药成分分析模型进行训练,获得中药成分分析模型。
5.如权利要求1所述的一种基于光谱聚类的中药成分分析方法,其特征在于,中药成分分析模型采用PLS模型、神经网络模型或支持向量机模型。
6.如权利要求1所述的一种基于光谱聚类的中药成分分析方法,其特征在于,对中药成分近红外光谱样本进行预处理,通过预处理后的中药成分近红外光谱样本构建原始样本集和新样本集。
7.如权利要求1所述的一种基于光谱聚类的中药成分分析方法,其特征在于,原始样本集和新样本集中的样本不重合。
8.一种基于光谱聚类的中药成分分析***,其特征在于,包括:
数据获取模块,用于获取中药的近红外光谱;
结果获取模块,用于根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的一种基于光谱聚类的中药成分分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的一种基于光谱聚类的中药成分分析方法的步骤。
CN202210461016.7A 2022-04-28 2022-04-28 一种基于光谱聚类的中药成分分析方法及*** Pending CN114783539A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210461016.7A CN114783539A (zh) 2022-04-28 2022-04-28 一种基于光谱聚类的中药成分分析方法及***
PCT/CN2023/083467 WO2023207453A1 (zh) 2022-04-28 2023-03-23 一种基于光谱聚类的中药成分分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210461016.7A CN114783539A (zh) 2022-04-28 2022-04-28 一种基于光谱聚类的中药成分分析方法及***

Publications (1)

Publication Number Publication Date
CN114783539A true CN114783539A (zh) 2022-07-22

Family

ID=82434752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210461016.7A Pending CN114783539A (zh) 2022-04-28 2022-04-28 一种基于光谱聚类的中药成分分析方法及***

Country Status (2)

Country Link
CN (1) CN114783539A (zh)
WO (1) WO2023207453A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207453A1 (zh) * 2022-04-28 2023-11-02 山东大学 一种基于光谱聚类的中药成分分析方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101532954A (zh) * 2008-03-13 2009-09-16 天津天士力现代中药资源有限公司 一种用红外光谱结合聚类分析鉴定中药材的方法
CN104849234A (zh) * 2015-04-30 2015-08-19 江苏扬农化工集团有限公司 基于近红外光谱分析吡虫啉原药主成分含量的测定方法
CN110220866A (zh) * 2019-06-05 2019-09-10 温州大学 一种基于cars-svm算法的淫羊藿药材质量快速检测方法
CN113376117A (zh) * 2021-02-27 2021-09-10 南京海源中药饮片有限公司 一种当归的近红外在线质量检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563448B (zh) * 2017-09-11 2020-06-23 广州讯动网络科技有限公司 基于近红外光谱分析的样本空间聚类划分法
CN108509997A (zh) * 2018-04-03 2018-09-07 深圳市药品检验研究院(深圳市医疗器械检测中心) 一种基于近红外光谱技术对中药皂角刺的真伪进行化学模式识别的方法
CN109540836A (zh) * 2018-11-30 2019-03-29 济南大学 基于bp人工神经网络的近红外光谱糖度检测方法及***
CN110687072B (zh) * 2019-10-17 2020-12-01 山东大学 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN114783539A (zh) * 2022-04-28 2022-07-22 山东大学 一种基于光谱聚类的中药成分分析方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101532954A (zh) * 2008-03-13 2009-09-16 天津天士力现代中药资源有限公司 一种用红外光谱结合聚类分析鉴定中药材的方法
CN104849234A (zh) * 2015-04-30 2015-08-19 江苏扬农化工集团有限公司 基于近红外光谱分析吡虫啉原药主成分含量的测定方法
CN110220866A (zh) * 2019-06-05 2019-09-10 温州大学 一种基于cars-svm算法的淫羊藿药材质量快速检测方法
CN113376117A (zh) * 2021-02-27 2021-09-10 南京海源中药饮片有限公司 一种当归的近红外在线质量检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张英昊等: "出芽短梗霉发酵液中聚苹果酸定量近红外模型的建立与应用", 《食品科学》, vol. 41, no. 8, 31 December 2020 (2020-12-31), pages 152 - 158 *
李彤彤等: "近红外光谱技术快速测定参枝苓口服液醇沉过程中的5种指标成分", 《中国中药杂志》, vol. 41, no. 19, 31 October 2016 (2016-10-31), pages 3543 - 3550 *
阎续: "机器学习在制药过程分析中的应用基础研究", 《中国博士学位论文全文数据库工程科技I辑》, 15 August 2020 (2020-08-15), pages 1 - 146 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207453A1 (zh) * 2022-04-28 2023-11-02 山东大学 一种基于光谱聚类的中药成分分析方法及***

Also Published As

Publication number Publication date
WO2023207453A1 (zh) 2023-11-02

Similar Documents

Publication Publication Date Title
Kemsley et al. Multivariate statistics: Considerations and confidences in food authenticity problems
CN110687072B (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
Forina et al. Class-modeling techniques, classic and new, for old and new problems
Khakimov et al. Trends in the application of chemometrics to foodomics studies
CN110838340B (zh) 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
CN108181263B (zh) 基于近红外光谱的烟叶部位特征提取及判别方法
Kalogiouri et al. Liquid chromatographic methods coupled to chemometrics: A short review to present the key workflow for the investigation of wine phenolic composition as it is affected by environmental factors
CN111370067A (zh) 一种面向lc/gc-ms的代谢组学数据质量控制方法及***
CN109557165B (zh) 用于监控质谱成像制备工作流程的质量的方法
Bowling et al. Analyzing the metabolome
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及***
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
WO2023207453A1 (zh) 一种基于光谱聚类的中药成分分析方法及***
Li et al. A novel method for the nondestructive classification of different‐age Citri Reticulatae Pericarpium based on data combination technique
CN106770607B (zh) 一种利用hs‐imr‐ms鉴别卷烟真伪的方法
CN108663334B (zh) 基于多分类器融合寻找土壤养分光谱特征波长的方法
CN113310934A (zh) 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法
CN109001143A (zh) 一种灵敏预测麻黄品质特性的中红外光谱法
CN108287200A (zh) 质谱参照数据库的建立方法及基于其的物质分析方法
Karimi et al. Identification of discriminatory variables in proteomics data analysis by clustering of variables
CN115620818A (zh) 一种基于自然语言处理的蛋白质质谱肽段验证方法
Enot et al. Detecting a difference–assessing generalisability when modelling metabolome fingerprint data in longer term studies of genetically modified plants
CN114141316A (zh) 一种基于谱图分析的有机物生物毒性预测方法及***
Li et al. Sequential decision fusion pipeline for the high-throughput species recognition of medicinal caterpillar fungus by using ATR-FTIR
CN114067169A (zh) 一种基于卷积神经网络的拉曼光谱分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination