CN112633390A - 一种基于贝叶斯概率优化的青蒿素提净度分析方法 - Google Patents

一种基于贝叶斯概率优化的青蒿素提净度分析方法 Download PDF

Info

Publication number
CN112633390A
CN112633390A CN202011586918.0A CN202011586918A CN112633390A CN 112633390 A CN112633390 A CN 112633390A CN 202011586918 A CN202011586918 A CN 202011586918A CN 112633390 A CN112633390 A CN 112633390A
Authority
CN
China
Prior art keywords
artemisinin
data
real
representing
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011586918.0A
Other languages
English (en)
Other versions
CN112633390B (zh
Inventor
利节
蒋理
罗庆林
廖宏程
朱文文
王艺凡
张祥
吴凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Science and Technology
Original Assignee
Chongqing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Science and Technology filed Critical Chongqing University of Science and Technology
Priority to CN202011586918.0A priority Critical patent/CN112633390B/zh
Publication of CN112633390A publication Critical patent/CN112633390A/zh
Application granted granted Critical
Publication of CN112633390B publication Critical patent/CN112633390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及青蒿素提净度分析技术领域,具体公开了一种基于贝叶斯概率优化的青蒿素提净度分析方法,结合青蒿素提取过程数据来源多维异构的特点将多源数据(包括实时数据、实时状态时间序列和关键工艺参数)先进行整合,而后将整合后的多维异构数据与权重相结合融入到贝叶斯概率模型之中以构建贝叶斯概率模型,以确保最后输出的最优概率能反映提净效果的综合表现。本发明使青蒿素提净程度变得可监控,填补目前无法再现跟踪提净效果的空白,并且输出可靠度高,能帮助指导青蒿素生产及其副产物综合利用开发,逐步替代现有人工操作,降低安全生产风险,提高产品收率,降低生产成本。

Description

一种基于贝叶斯概率优化的青蒿素提净度分析方法
技术领域
本发明涉及青蒿素提净度分析技术领域,尤其涉及一种基于贝叶斯概率优化的青蒿素提净度分析方法。
背景技术
青蒿素是一种新型抗疟药,是目前世界上公认的治疗脑型疟疾和抗氯喹恶性疟疾最有效的药物。它具有低毒、高效、速效的特点,已成为世界卫生组织推荐的治疗疟疾的首选方法,在国际市场上供不应求,应用及经济前景十分看好。青蒿素目前主要是直接从青蒿中提取,研究表明,青蒿的叶片和花表面的腺毛是青蒿素的主要合成和储存部位,青蒿的不同部位在不同时期的青蒿素含量不同,青蒿素的含量也与产地和生长环境相关。目前,青蒿药用成分提取率低是造成资源浪费的重大原因。未来,青蒿素及其副产物不仅应用于人类健康,还可辐射到生物农药、兽药等更多领域。但目前青蒿素生产车间因安全要求级别高,无法人工进入设备,而目前又无法在线跟踪提净效果。
发明内容
本发明提供一种基于贝叶斯概率优化的青蒿素提净度分析方法,解决的技术问题在于:现有青蒿素生产车间因安全要求级别高,无法人工进入设备监控青蒿素提净程度,也无法再现跟踪提净效果。
为解决以上技术问题,本发明提供一种基于贝叶斯概率优化的青蒿素提净度分析方法,包括步骤:
(1)预训练处理
S1:收集青蒿素提取过程中的实时数据,并对所述实时数据进行实体命名识别,提取出评语、提净度及影响因子的实体;
S2:收集青蒿素提取过程中的有机溶剂的实时状态时间序列,并对所述实时状态时间序列进行预训练图像处理,得到维度相同的输出特征;
S3:收集青蒿素提取过程中的关键工艺参数,并对所述关键工艺参数做归一化处理;
(2)多维异构数据整合
S4:将步骤S1、S2和S3得到的数据一并放入序列挖掘当中进行整合;
S5:将步骤S4整合后的数据先归一化为神经网络处理分布,进一步将归一化的神经网络处理分布转换为高斯分布;
(3)贝叶斯概率优化
S6:将步骤S5转化为高斯分布的数据放入贝叶斯概率模型中,进行贝叶斯概率分布,输出最优概率,从而得到最准确的青蒿素提净度并以此优化步骤(2)中的神经网络。
进一步地,步骤S1具体包括步骤:
S11:收集青蒿素提取过程的实时数据,并对不同过程的实时数据进行分组编号;
S12:分别采取不同的n-gram内核对步骤S11得到的数据进行预处理,得到分组后的文本数据;
S13:基于先进中文识别模型对步骤S12得到的数据进行实体命名提取,得到评语、提净度及影响因子的实体。
进一步地,在所述步骤S2中,基于Transformer预训练图像处理方法对所述实时状态时间序列进行预训练图像处理。
进一步地,在所述步骤S2中,基于Transformer预训练图像处理方法进行预训练图像处理的步骤包括:
S21:将采集的实时状态时间序列对应的图片x经过一个头结构Hi()变换为特征图fH=Hi(x),fH∈RH×C×W
S22:对特征图fH进行切块与拉平操作,具体是,按照P×P的大小将特征图切割成N块,每一个特征块再被拉平为维度为p^2×C的向量,得到特征向量
Figure BDA0002867412590000031
S23:将所有的特征向量送入Transformer进行处理,得到维度相同的输出特征
Figure BDA0002867412590000032
进一步地,在所述步骤S5中,归一化为神经网络处理分布的步骤包括:
S51:对步骤S4整合后的数据进行加权;
S52:对步骤S51进行加权后的权重分数进行整合。
进一步地,所述步骤S51采用如下四个权重公式进行加权:
权重公式一:
Figure BDA0002867412590000033
其中,n(i,j)表示实体i和j同时出现的次数,i=1,2,...,N,N表示按概率排序的前top-N预测;
权重公式二:
Figure BDA0002867412590000034
其中,ni表示给定数据样本中包含相对应实体i的数量,D为实体特征矩阵;
权重公式三:
Figure BDA0002867412590000035
权重公式四:
Figure BDA0002867412590000036
其中,ti表示整个训练语料中实体i出现的次数。
进一步地,所述步骤S52进行权重分数整合依据:
Figure BDA0002867412590000037
Figure BDA0002867412590000038
Figure BDA0002867412590000039
其中,d代表步骤,Pr(d)指的是步骤d输出的先验概率,F+、F-代表实体极性,“+”代表相关,“-”代表不相关,下标1、2、3分别对应实时数据、有机溶剂的实时状态时间序列、关键工艺参数,Pr(dCNN)代表神经网络得到的先验概率,Pr(dBN)代表贝叶斯网络上得到的后验概率。
进一步地,在所述步骤S5中,转化为高斯分布的公式为:
Figure BDA0002867412590000041
Figure BDA0002867412590000042
其中,式(8)为标准高斯分布,式(9)为转换为标准高斯分布的映射函数,p(x)代表高斯分布,π(y)代表原分布;为不改变转换前后的数据,式(9)采用的是可逆的映射函数,针对于此,式(9)采取逆矩阵G-1形式,其中x=G(y),y=G-1(x)。
进一步地,通过下式改进独立同分布的高斯密度函数:
Figure BDA0002867412590000043
其中,Vardata和Varmodel分别表示真实的数据变量和于模型训练所得的数据变量;式(10)表示数据固定不变,调整高斯模型N~(0,σ)参数去拟合数据。
进一步地,在所述步骤S6中,进行贝叶斯概率分布的公式为:
Figure BDA0002867412590000044
其中,p(x1,x2,...,xn)表示样本的后验概率,p(y1,y2,...,yn)表示样本的先验概率,
Figure BDA0002867412590000045
表示条件概率;式(11)表示在z空间中建立线性高斯模型,并转移到贝叶斯概率模型中。
本发明提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法,结合青蒿素提取过程数据来源多维异构的特点将多源数据(包括实时数据、实时状态时间序列和关键工艺参数)先进行整合,而后将整合后的多维异构数据与权重相结合融入到贝叶斯概率模型之中以构建贝叶斯概率模型,以确保最后输出的最优概率能反映提净效果的综合表现。本发明使青蒿素提净程度变得可监控,填补目前无法再现跟踪提净效果的空白,并且输出可靠度高,能帮助指导青蒿素生产及其副产物综合利用开发,逐步替代现有人工操作,降低安全生产风险,提高产品收率,降低生产成本。
附图说明
图1是本发明实施例提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法的网络框架示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
如图1所示的网络框架图,本发明实施例提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法,该方法包括步骤:(1)预训练图像处理;(2)多维异构数据整合;(3)贝叶斯概率优化。本实施例所提出的方法基于青蒿素提取过程中的多维异构数据S在客观要求及青蒿素纯净程度d∈D(d代表相应的步骤,D代表实体特征矩阵)上输出的贝叶斯概率分布Pr(d|S)。在本发明中,S对应青蒿素提取过程中所产生的多维异构数据,即S有少部分文本、图像和一些结构化数据组成,主要包含:实时提取数据、溶剂状态时间序列及关键工艺参数。
现实生活中,在进行一个工程项目的验收时,为了保证公正性与客观性,往往需要专业的第三方机构介入,并且以第三方机构的评估结果作为该项目的衡量标准。
本发明中,借鉴了这种思想,引入了第三方评估的机制,即通过不同的分类模型,利用其分类准确率这一指标来反映样本质量。
本发明中需要进行质量评估的对象主要为青蒿素,其包含的样本数据为实时提取数据、溶剂状态时间序列、关键工艺参数,这些数据都是在青蒿素提取过程中收集并整理而生成。
下面针对各方法步骤作详细说明。
(1)预训练处理
S1:收集青蒿素提取过程中的实时数据,并对所述实时数据进行实体命名识别,提取出评语、提净度及影响因子的实体。
进一步的,步骤S1具体包括步骤:
S11:收集青蒿素提取过程的实时数据,并对不同过程的实时数据进行分组编号;
S12:分别采取不同的n-gram内核对步骤S11得到的数据进行预处理,得到分组后的文本数据;
S13:基于先进中文识别模型对步骤S12得到的数据进行实体命名提取,得到评语、提净度及影响因子的实体。
在将实时提取数据抛入神经网络之前,首先需要做的是本发明所提出框架的基本组成部分——实体命名识别(NER)。NER从文本句子中提取实体及其类型,对于捕获文本的关键信息非常重要。本方法所使用的是改进的传统NER,集成了先进的中文NER模型,从中提取出评语、提净及影响因子的实体,在其中添加实体的极性(“+”、“-”、或“?”,分别表示“相关”、“不相关”和“不明确”)来客观地表示给定的提取过程实时数据中是否存在所提取的实体。它可以与基于规则的方法一起使用,该方法使用带有否定中文单词的词汇表以及极性检测模型。并提取了实施提取过程中相关内容当中的实体。为确保其准确性,将NER***做F1分数评估,并由专业生物科研人员对真实青蒿素提取过程中的重复数据删除语句进行单独评估。
S2:收集青蒿素提取过程中的有机溶剂的实时状态时间序列,并对所述实时状态时间序列进行预训练图像处理,得到维度相同的输出特征。
不同于高层视觉语义任务的目标是进行特征抽取,底层视觉任务的输入和输出均为图像。除超分辨率任务之外,大多数底层视觉任务的输入和输出维度相同。相比于高层视觉任务,输入和输出维度匹配这一特性使底层视觉任务更适合由Transformer处理。故本步骤基于Transformer预训练图像处理方法对所述实时状态时间序列进行预训练图像处理,具体包括步骤:
S21:将采集的实时状态时间序列对应的图片x经过一个头结构Hi()变换为特征图fH=Hi(x),fH∈RH×C×W
S22:对特征图fH进行切块与拉平操作,具体是,按照P×P的大小将特征图切割成N块,每一个特征块再被拉平为维度为P^2×C的向量,得到特征向量
Figure BDA0002867412590000071
(如此,每个特征向量可以等同于一个「单词」)
S23:将所有的特征向量送入Transformer进行处理,得到维度相同的输出特征
Figure BDA0002867412590000072
这些输出特征
Figure BDA0002867412590000073
再经过整形和拼接操作,还原为与输入相同维度的新特征图。再将新特征图送入一个尾结构,被解码为目标图像。
S3:收集青蒿素提取过程中的关键工艺参数,并对所述关键工艺参数做归一化处理。
(2)多维异构数据整合
S4:将步骤S1、S2和S3得到的数据一并放入序列挖掘当中进行整合。
S5:将步骤S4整合后的数据先归一化为神经网络处理分布,进一步将归一化的神经网络处理分布转换为高斯分布。
在步骤S5中,归一化为神经网络处理分布的步骤包括:
S51:对步骤S4整合后的数据采用如下四个权重公式进行加权:
权重公式一:
Figure BDA0002867412590000074
其中,n(i,j)表示实体i和j同时出现的次数,i=1,2,...,N,N表示按概率排序的前top-N预测;
权重公式二:
Figure BDA0002867412590000075
其中,ni表示给定数据样本中包含相对应实体i的数量,D为实体特征矩阵;
权重公式三:
Figure BDA0002867412590000081
权重公式四:
Figure BDA0002867412590000082
其中,ti表示整个训练语料中实体i出现的次数;
S52:对步骤S51进行加权后的权重分数进行整合,该整合依据:
Figure BDA0002867412590000083
Figure BDA0002867412590000084
Figure BDA0002867412590000085
其中,d代表步骤,Pr(d)指的是步骤d输出的先验概率,F+、F-代表实体极性,“+”代表相关,“-”代表不相关,下标1、2、3分别对应实时数据、有机溶剂的实时状态时间序列、关键工艺参数,Pr(dCNN)代表神经网络得到的先验概率,Pr(dBN)代表贝叶斯网络上得到的后验概率。式(6)、(7)的意思是指当前层的输入事前一层的输出,顺序呈现级联方法,最终按照计算所得的概率占比将分数加权以得到最后的综合概率分布。
在将步骤S4整合后的数据先归一化为神经网络处理分布后,需要进一步转换为高斯分布,而转化为高斯分布的公式为:
Figure BDA0002867412590000086
Figure BDA0002867412590000087
其中,式(8)为标准高斯分布,式(9)为转换为标准高斯分布的映射函数,p(x)代表高斯分布,π(y)代表原分布;为不改变转换前后的数据,式(9)采用的是可逆的映射函数,针对于此,式(9)采取逆矩阵G-1形式,其中x=G(y),y=G-1(x)。式(9)所示的概率分布转换函数是可逆的,在对边缘数据的更优处理的同时可以保留数据的完整性,因此采取可逆矩阵的转换形式,即是概率处理过程的映射函数是可逆的。
考虑到隐空间的单高斯假设没有区分性、低维空间中概率密度与概率质量基本一致,但高维空间中概率密度与概率质量不一样,因此改进独立同分布的高斯密度函数:
Figure BDA0002867412590000091
其中,Vardata和Varmodel分别表示真实的数据变量和于模型训练所得的数据变量;式(10)表示数据固定不变,调整高斯模型N~(0,σ)参数去拟合数据,目的是为了检验神经网络模型的训练的鲁棒性。
数据预处理过程采取多种方式以确保每种类型的预处理效果最佳,相对于青蒿素提取过程更具针对性,且采取实体提取、权重评估与高斯映射的方式将青蒿素提取过程所收集的多维异构数据进行综合性整合,以使智能时代下的青蒿素提净度更具科学性与合理性。
(3)贝叶斯概率优化
S6:将步骤S5转化为高斯分布的数据放入贝叶斯概率模型中,进行贝叶斯概率分布,输出最优概率,从而得到最准确的青蒿素提净度并以此优化步骤(2)中的神经网络。
在该步骤中,进行贝叶斯概率分布的公式为:
Figure BDA0002867412590000092
其中,p(x1,x2,...,xn)表示样本的后验概率,p(y1,y2,...,yn)表示样本的先验概率,
Figure BDA0002867412590000093
表示条件概率;式(11)表示在z空间中建立线性高斯模型,并转移到贝叶斯概率模型中,要注意其过程是可逆的,减少了边缘数据的损失,以增加准确度与可靠度。
综上,本发明实施例提供的一种基于贝叶斯概率优化的青蒿素提净度分析方法,结合青蒿素提取过程数据来源多维异构的特点将多源数据(包括实时数据、实时状态时间序列和关键工艺参数)先进行整合,而后将整合后的多维异构数据与权重相结合融入到贝叶斯概率模型之中以构建贝叶斯概率模型,以确保最后输出的最优概率能反映提净效果的综合表现。本发明使青蒿素提净程度变得可监控,填补目前无法再现跟踪提净效果的空白,并且输出可靠度高,能帮助指导青蒿素生产及其副产物综合利用开发,逐步替代现有人工操作,降低安全生产风险,提高产品收率,降低生产成本。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,包括步骤:
(1)预训练处理
S1:收集青蒿素提取过程中的实时数据,并对所述实时数据进行实体命名识别,提取出评语、提净度及影响因子的实体;
S2:收集青蒿素提取过程中的有机溶剂的实时状态时间序列,并对所述实时状态时间序列进行预训练图像处理,得到维度相同的输出特征;
S3:收集青蒿素提取过程中的关键工艺参数,并对所述关键工艺参数做归一化处理;
(2)多维异构数据整合
S4:将步骤S1、S2和S3得到的数据一并放入序列挖掘当中进行整合;
S5:将步骤S4整合后的数据先归一化为神经网络处理分布,进一步将归一化的神经网络处理分布转换为高斯分布;
(3)贝叶斯概率优化
S6:将步骤S5转化为高斯分布的数据放入贝叶斯概率模型中,进行贝叶斯概率分布,输出最优概率,从而得到最准确的青蒿素提净度并以此优化步骤(2)中的神经网络。
2.如权利要求1所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,步骤S1具体包括步骤:
S11:收集青蒿素提取过程的实时数据,并对不同过程的实时数据进行分组编号;
S12:分别采取不同的n-gram内核对步骤S11得到的数据进行预处理,得到分组后的文本数据;
S13:基于先进中文识别模型对步骤S12得到的数据进行实体命名提取,得到评语、提净度及影响因子的实体。
3.如权利要求1或2所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于:在所述步骤S2中,基于Transformer预训练图像处理方法对所述实时状态时间序列进行预训练图像处理。
4.如权利要求3所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,在所述步骤S2中,基于Transformer预训练图像处理方法进行预训练图像处理的步骤包括:
S21:将采集的实时状态时间序列对应的图片x经过一个头结构Hi()变换为特征图fH=Hi(x),fH∈RH×C×W
S22:对特征图fH进行切块与拉平操作,具体是,按照P×P的大小将特征图切割成N块,每一个特征块再被拉平为维度为P^2×C的向量,得到特征向量
Figure FDA0002867412580000021
S23:将所有的特征向量送入Transformer进行处理,得到维度相同的输出特征
Figure FDA0002867412580000022
5.如权利要求3所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,在所述步骤S5中,归一化为神经网络处理分布的步骤包括:
S51:对步骤S4整合后的数据进行加权;
S52:对步骤S51进行加权后的权重分数进行整合。
6.如权利要求5所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,所述步骤S51采用如下四个权重公式进行加权:
权重公式一:
Figure FDA0002867412580000023
其中,n(i,j)表示实体i和j同时出现的次数,i=1,2,…,N,N表示按概率排序的前top-N预测;
权重公式二:
Figure FDA0002867412580000031
其中,ni表示给定数据样本中包含相对应实体i的数量,D为实体特征矩阵;
权重公式三:
Figure FDA0002867412580000032
权重公式四:
Figure FDA0002867412580000033
其中,ti表示整个训练语料中实体i出现的次数。
7.如权利要求6所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,所述步骤S52进行权重分数整合依据:
Figure FDA0002867412580000034
Figure FDA0002867412580000035
Figure FDA0002867412580000036
其中,d代表步骤,Pr(d)指的是步骤d输出的先验概率,F+、F-代表实体极性,“+”代表相关,“-”代表不相关,下标1、2、3分别对应实时数据、有机溶剂的实时状态时间序列、关键工艺参数,Pr(dCNN)代表神经网络得到的先验概率,Pr(dBN)代表贝叶斯网络上得到的后验概率。
8.如权利要求5~7任一项所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,在所述步骤S5中,转化为高斯分布的公式为:
Figure FDA0002867412580000037
Figure FDA0002867412580000038
其中,式(8)为标准高斯分布,式(9)为转换为标准高斯分布的映射函数,p(x)代表高斯分布,π(y)代表原分布;式(9)采取逆矩阵G-1形式,其中x=G(y),y=G-1(x)。
9.如权利要求8所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,通过下式改进独立同分布的高斯密度函数:
Figure FDA0002867412580000041
其中,Vardata和Varmodel分别表示真实的数据变量和于模型训练所得的数据变量;式(10)表示数据固定不变,调整高斯模型N~(0,σ)参数去拟合数据。
10.如权利要求9所述的一种基于贝叶斯概率优化的青蒿素提净度分析方法,其特征在于,在所述步骤S6中,进行贝叶斯概率分布的公式为:
Figure FDA0002867412580000042
其中,p(x1,x2,…,xn)表示样本的后验概率,p(y1,y2,…,yn)表示样本的先验概率,
Figure FDA0002867412580000043
表示条件概率;式(11)表示在z空间中建立线性高斯模型,并转移到贝叶斯概率模型中。
CN202011586918.0A 2020-12-29 2020-12-29 一种基于贝叶斯概率优化的青蒿素提净度分析方法 Active CN112633390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011586918.0A CN112633390B (zh) 2020-12-29 2020-12-29 一种基于贝叶斯概率优化的青蒿素提净度分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011586918.0A CN112633390B (zh) 2020-12-29 2020-12-29 一种基于贝叶斯概率优化的青蒿素提净度分析方法

Publications (2)

Publication Number Publication Date
CN112633390A true CN112633390A (zh) 2021-04-09
CN112633390B CN112633390B (zh) 2022-05-20

Family

ID=75286189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011586918.0A Active CN112633390B (zh) 2020-12-29 2020-12-29 一种基于贝叶斯概率优化的青蒿素提净度分析方法

Country Status (1)

Country Link
CN (1) CN112633390B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154933A (zh) * 2010-07-28 2013-06-12 培力(香港)健康产品有限公司 用于将草药成分与中医中的疾病相关联的人工智能和方法
CN105095448A (zh) * 2015-07-24 2015-11-25 浙江大远智慧制药工程技术有限公司 一种适用于天然产物质谱数据解析的数据库构建方法
CN105956577A (zh) * 2016-05-20 2016-09-21 重庆科技学院 基于随机共振的输气管道微泄漏音波信号特征提取方法
CN108648191A (zh) * 2018-05-17 2018-10-12 吉林大学 基于贝叶斯宽度残差神经网络的害虫图像识别方法
US20190018922A1 (en) * 2016-02-04 2019-01-17 King Abdullah University Of Science And Technology Method for Determining Heterologous Biosynthesis Pathways
CN109543735A (zh) * 2018-11-14 2019-03-29 北京工商大学 视频拷贝检测方法及其***
CN109902801A (zh) * 2019-01-22 2019-06-18 华中科技大学 一种基于变分推理贝叶斯神经网络的洪水集合预报方法
CN110033019A (zh) * 2019-03-06 2019-07-19 腾讯科技(深圳)有限公司 人体部位的异常检测方法、装置和存储介质
US20190244680A1 (en) * 2018-02-07 2019-08-08 D-Wave Systems Inc. Systems and methods for generative machine learning
CN110309919A (zh) * 2019-07-09 2019-10-08 西北工业大学 基于结构化贝叶斯后验概率估计的神经网络压缩方法
CN110766051A (zh) * 2019-09-20 2020-02-07 四川大学华西医院 一种基于神经网络的肺结节形态学分类方法
CN111966223A (zh) * 2020-08-17 2020-11-20 陈涛 非感知的mr眼镜人机识别方法、***、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154933A (zh) * 2010-07-28 2013-06-12 培力(香港)健康产品有限公司 用于将草药成分与中医中的疾病相关联的人工智能和方法
CN105095448A (zh) * 2015-07-24 2015-11-25 浙江大远智慧制药工程技术有限公司 一种适用于天然产物质谱数据解析的数据库构建方法
US20190018922A1 (en) * 2016-02-04 2019-01-17 King Abdullah University Of Science And Technology Method for Determining Heterologous Biosynthesis Pathways
CN105956577A (zh) * 2016-05-20 2016-09-21 重庆科技学院 基于随机共振的输气管道微泄漏音波信号特征提取方法
US20190244680A1 (en) * 2018-02-07 2019-08-08 D-Wave Systems Inc. Systems and methods for generative machine learning
CN108648191A (zh) * 2018-05-17 2018-10-12 吉林大学 基于贝叶斯宽度残差神经网络的害虫图像识别方法
CN109543735A (zh) * 2018-11-14 2019-03-29 北京工商大学 视频拷贝检测方法及其***
CN109902801A (zh) * 2019-01-22 2019-06-18 华中科技大学 一种基于变分推理贝叶斯神经网络的洪水集合预报方法
CN110033019A (zh) * 2019-03-06 2019-07-19 腾讯科技(深圳)有限公司 人体部位的异常检测方法、装置和存储介质
CN110309919A (zh) * 2019-07-09 2019-10-08 西北工业大学 基于结构化贝叶斯后验概率估计的神经网络压缩方法
CN110766051A (zh) * 2019-09-20 2020-02-07 四川大学华西医院 一种基于神经网络的肺结节形态学分类方法
CN111966223A (zh) * 2020-08-17 2020-11-20 陈涛 非感知的mr眼镜人机识别方法、***、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIE LI等: "Entropy-based Sampling Approaches for Multi-Class Imbalanced Problems", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
M. JALALI-HERAVI等: "The use of Bayesian nonlinear regression techniques for the modelling of the retention behaviour of volatile components of Artemisia species", 《SAR AND QSAR IN ENVIRONMENTAL RESEARCH》 *
刘建伟等: "基于值函数和策略梯度的深度强化学习综述", 《计算机学报》 *
周梁琦等: "基于贝叶斯的大数据异常值检测模型研究", 《电脑知识与技术》 *
孟根其其格等: "广义逐次截尾数据下逆高斯分布参数的贝叶斯估计", 《中国科技论文》 *
崔佳旭等: "贝叶斯优化方法和应用综述", 《软件学报》 *

Also Published As

Publication number Publication date
CN112633390B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN110210037B (zh) 面向循证医学领域的类别检测方法
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN110287323B (zh) 一种面向目标的情感分类方法
CN117077786A (zh) 一种基于知识图谱的数据知识双驱动智能医疗对话***和方法
CN112687388A (zh) 一种基于文本检索的可解释性智慧医疗辅助诊断***
CN111968700A (zh) 一种基于bert的水稻表型组学知识图谱关系提取方法及***
CN111859938B (zh) 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法
Wang et al. Cross-lingual image caption generation based on visual attention model
CN113076411A (zh) 一种基于知识图谱的医疗查询扩展方法
CN111651605A (zh) 基于多标签分类的肺癌前沿趋势预测方法
CN116881336A (zh) 一种用于医学大数据的高效多模态对比深度哈希检索方法
Zou et al. Utilizing BERT intermediate layers for multimodal sentiment analysis
Derby et al. Using sparse semantic embeddings learned from multimodal text and image data to model human conceptual knowledge
CN115114445A (zh) 细胞知识图谱构建方法、装置、计算设备及存储介质
Zhang et al. Multi-head self-attention gated-dilated convolutional neural network for word sense disambiguation
Choudhary et al. A review of convolution neural network used in various applications
CN112633390B (zh) 一种基于贝叶斯概率优化的青蒿素提净度分析方法
Marerngsit et al. A two-stage text-to-emotion depressive disorder screening assistance based on contents from online community
CN116070700A (zh) 融合迭代式主动学习的生物医学关系抽取方法及***
Chen et al. DSTL: Solution to limitation of small corpus in speech emotion recognition
Hadid et al. Semantic Image Retrieval Analysis Based on Deep Learning and Singular Value Decomposition
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和***
Jiang et al. Fine-tuning BERT-based models for plant health bulletin classification
Agarwal et al. Convtab: A context-preserving, convolutional model for ad-hoc table retrieval
Shan et al. A novel semantic matching method for chatbots based on convolutional neural network and attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant