CN108376567B - 一种基于标签传播算法的临床药品-药品不良反应检测方法 - Google Patents

一种基于标签传播算法的临床药品-药品不良反应检测方法 Download PDF

Info

Publication number
CN108376567B
CN108376567B CN201810010035.1A CN201810010035A CN108376567B CN 108376567 B CN108376567 B CN 108376567B CN 201810010035 A CN201810010035 A CN 201810010035A CN 108376567 B CN108376567 B CN 108376567B
Authority
CN
China
Prior art keywords
label
sample
similarity
drug
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810010035.1A
Other languages
English (en)
Other versions
CN108376567A (zh
Inventor
张强
魏小鹏
燕智策
赵腊生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201810010035.1A priority Critical patent/CN108376567B/zh
Publication of CN108376567A publication Critical patent/CN108376567A/zh
Application granted granted Critical
Publication of CN108376567B publication Critical patent/CN108376567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于标签传播算法的临床药品‑药品不良反应检测方法。基于给定药品样本集的新相似性与标签初始化重构标签传播方式,进而用于药品‑药品不良反应的检测。首先,采用CHI方法对药品特征进行过滤,选择包含信息量较大的特征;其次,根据样本标签相似性与拉普拉斯算子调整的样本相似性构造新的样本相似性;然后,基于已知标签样本的信息建立未知标签样本的初始化信息;最后,通过标签传播检测不良反应的药品。本发明对药品相似性计算方式与标签传播方式进行了重构,使得药品之间的相似性更加精确,标签传播方式更加顺利,能够有效地提高临床阶段药品‑药品不良反应的检测。

Description

一种基于标签传播算法的临床药品-药品不良反应检测方法
技术领域
本发明涉及药品安全性检测领域,具体涉及一种基于标签传播算法的临床药品-药品不良反应检测方法。
背景技术
传统的药品安全性检测方法中,如频数法(报告比例比法(PRR),报告比值比法(ROR)和综合标准法(MHRA))与贝叶斯法(贝叶逊置信度增殖神经网络(BCPNN)和多变量伽马-泊松分布缩减法(MGPS))等方法都是针对市场上已经出现不良反应药品进行的检测。而现实生活中,需要对上市前的药品进行检测,防止一些不安全药品出现在市场上,这些不安全药品服用后可能会引发其他的疾病或者造成患者的死亡。近年来,随着大数据的火热,在医药领域也开始使用大数据方法进行新药品的检测,主要的检测方法分为两大类:基于相似性的方法和基于分类模型的方法。基于相似性方法采用相似的药品和同一种药品之间发生着相同作用的这一假设。而基于分类模型的方法是把药品研究问题看作二分类问题,利用传统的数据挖掘或机器学习方法进行检测。目前,在药品大数据研究领域中,研究者更习惯用基于相似性假设的方法,这是因为基于相似性的方法更能解释药品发生不良反应的原因,而且与基于分类模型的方法相比较,也能够获得更高的检测能力。
虽然研究者利用基于相似性的方法在药品检测方面取得了大量的贡献,但新药品中仍然存在大量的不良反应出现在市场上。这是因为基于相似性的方法直接利用药品之间的相似性并不能把药品准确的归类(它们之间存在着大量类别重合的现象)。标签传播算法(LPA)就是一种基于相似性方法提出的药品不良反应检测算法。在标签传播算法中,研究者根据已知标签的样本,直接利用样本之间的相似性,迭代的传播标签,直到样本的标签信息值收敛为止,这样就会获得检测样本的不良反应信息。然而这种方法除了相似性方法的不足外,还具有样本数据特征信息选取上的不足与未标签样本标签初始化方式上的不足。
发明内容
本发明分别从给出数据的特征、数据样本相似性、以及样本标签初始化方面对标签传播算法进行相应的调整,提出了一种基于标签传播算法的临床药品-药品不良反应检测方法,以完善药品相似性方法上的不足与标签传播算法的不足。
本发明为解决其技术问题所采用的技术方案为提供一种基于标签传播算法的临床药品-药品不良反应检测方法,该方法包括以下步骤:
步骤1:采用卡方(CHI)方法对药品特征进行过滤,选择包含信息量较大的特征;
步骤2:根据样本标签相似性与拉普拉斯算子调整的样本相似性构造新的样本相似性;
步骤3:基于已知标签样本的信息建立未知标签样本的初始化信息;
步骤4:整合步骤1,步骤2和步骤3获得新的标签传播算法,使用该算法,得到与待识别样本的检测结果。
其中,步骤1,步骤2和步骤3包括以下具体步骤:
(1)药品数据集包括两部分内容:药品样本数据集和药品标签数据集。药品样本数据集中,每一个药品用1×n的二值型向量表示,N表示样本的总数。药品标签数据集中,每一个药品用1×c的向量表示,c既代表已知标签的样本数目,又代表样本的多标签数目,药品的标签数据集经常用Y表示;
(2)在药品的训练数据集中,利用CHI方法进行样本特征值的计算,从药品的所有数据中,选择出含有信息量较大的特征值:
Figure BDA0001539986220000031
其中,
Figure BDA0001539986220000032
表示特征ti在类别ck中出现的频率;
Figure BDA0001539986220000033
表示特征集体出现在某一个类别中的程度;a表示类别ck中含有特征ti的数量,b表示非类别ck中含有特征ti的数量,c表示类别ck中不含有特征ti的数量,d表示非类别ck中不含有特征ti的数量,N=a+b+c+d表示样本的总数;
(3)求经过步骤(2)后的药品拉普拉斯算子调整后的样本相似性矩阵A:
Figure BDA0001539986220000034
si和sj代表第i个样本与第j个药品特征组成的向量。
(4)求药品的标签相似性矩阵C:
Figure BDA0001539986220000035
Figure BDA0001539986220000041
表示第t个标签的权值;Np表示样本的总数目,Nt表示样本标签中第t个标签的数目;l是一个1×n的向量,
Figure BDA0001539986220000042
表示第i个样本标签向量的第t个标签;表示未知标签样本xj的k-ξ近邻集合中包含所有有标签样本的子集;
Figure BDA0001539986220000043
是前面三种情况的平均值,表示未标签样本标签之间的相似性。
(5)构造药品的相似性矩阵S,S=TC.*C。
(6)利用已知标签样本的标签信息以及相似矩阵A,重建未知标签样本的标签初始化信息:
Figure BDA0001539986220000044
其中,Pdiff表示已知标签样本中相似性小于0.5发生反应的概率,Psim表示已知标签样本中相似性大于0.5发生反应的概率。
步骤4包括以下具体步骤:
(1)利用Bregmanian-Bi-Stochastication(BBS)算法对相似矩阵S进行迭代归一化处理,获得归一化收敛矩阵W。
(2)根据(1)的归一化矩阵W以及上述的(6),利用标签传播算法进行药品的检测:
Figure BDA0001539986220000045
其中,u表示药品从其他药品获得u部分的标签信息,保留自身1-u部分的标签信息;I表示一个N×N的单位矩阵。
本发明在标签传播模型的基础上,从数据特征方面,样本相似性方面和样本标签初始化方面,理论的分析与实践,分别利用CHI特征提取方法,拉普拉斯算子与标签相似性方法,以及自定义的获取未知标签样本初始化方法进行了模型上的改进,改进后的模型更有利于药品不良反应事件的检测。
附图说明
图1为整合多种方式的标签传播方法流程示意图。
具体实施方式
如图1所示,为实现本发明的理论性标签传播算法的改进与实验性的药品有效检测的目的,首先,获取药品数据集,利用CHI特征提取方法对药品样本数据集中的样本特征进行过滤,从中选择信息量较大的特征;其次,采用拉普拉斯算法对杰卡德相关系数(TC)方法进行改进,计算药品的样本相似性,并根据标签相似性方法计算药品的标签相似性,根据药品的样本相似性与药品的标签相似性重构药品的相似性;然后使用BBS算法对药品的相似性矩阵进行归一化处理,得到药品的相似归一化矩阵;最后基于训练药品的标签信息初始化测试样本的标签信息,依据标签传播思想,迭代的传播标签,直到样本的标签信息收敛为止,利用评估方法计算得出评估结果。
以下结合实施例和附图对本发明作详细的说明:
本发明实验数据来自于FAERS DDI dataset数据库和Chemical structuredataset数据库,从FAERS DDI dataset数据库中能够挖掘出645个药品,以及它们之间发生的63473种不良反应信息,在这里使用DDI数据集表示;从Chemical structure dataset数据库中可获得这645种药品的化学结构数据,每一个药品用一个881维的{0,1}向量表示出来。实验中使用的数据是保留了化学结构相同药品中的预处理药品数据,即使用的数据是完全不相同的数据。对预处理后的数据进行了5折交叉验证。具体过程如下:
步骤一:对获取的药品特征数据进行初始的预处理,包括删除里面特征相同的药品,并随机的保留其中的一个;删除特征中只有一种特征值的特征列。最终获得638个药品,以及这638个药品的616种特征。实验中,利用交叉验证函数随机的把638个药品分为5等分(可得到对应的特征矩阵和标签矩阵),每一次实验拿出其中的一份作为测试集,其余的作为训练集,进行验证。
1、对训练药品数据集中的所有药品,利用CHI方法对所有药品特征进行筛选:
Figure BDA0001539986220000061
其中,χ2(ti,Ck)表示类别Ck中特征ti所含有的信息量;
Figure BDA0001539986220000062
表示所有类别中特征ti的平均信息量。若
Figure BDA0001539986220000063
选择特征ti;否则,删除特征ti
2、构造未知标签样本中,标签的初始化信息:
Figure BDA0001539986220000064
其中,Pdiff表示已知标签样本中相似性小于0.5发生反应的概率,Psim表示已知标签样本中相似性大于0.5发生反应的概率。
步骤二:求样本相似性矩阵A,标签相似性矩阵C以及构成的新相似性矩阵S:
Figure BDA0001539986220000065
Figure BDA0001539986220000066
S=TC.*C;
li和lj表示第i个样本与第j个样本的特征向量;在标签相似矩阵C计算过程中,使用了k-ξ近邻法,这里k=2,表示k紧邻;ξ=0.80,表示阈值近邻。
步骤三:利用步骤一中的相似矩阵S计算归一化矩阵W:
Figure BDA0001539986220000071
其中,l是一个n×1维元素全为1的向量;W+表示矩阵W中正的部分。
步骤四:利用标签传播算法进行标签的传播:
Figure BDA0001539986220000072
其中,u表示药品从其他药品获得u部分的标签信息,保留自身1-u部分的标签信息;I表示一个638×638的单位矩阵。在实验中,u的最佳取值为:u=0.97,识别结果见表1。
表1传统方法与本发明所提方法检测率比较
模型 AUC AUPR
传统的标签传播算法 0.8063+/-0.0050 0.6457+/-0.0154
提出的标签传播算法 0.8119+/-0.0054 0.6522+/-0.0163
根据以上步骤,本发明比较了在药品检测方面传统的标签传播算法与整合多种方法的标签传播算法,从表1可以观察到,本发明提出的方法明显优于传统的方法。
综上所述,本发明提出的LPA方法对给定的药品不良反应数据有很好的识别效果,具有较强的鲁棒性。分别对药品数据从特征,相似性,标签初始值方面进行了特征的过滤,传统相似性计算方式的改进,以及标签初始化方式的调整,使得标签更加容易得到判断,增加检测的准确率。
以上所述,仅为本发明最佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同改变,都应涵盖在本发明的保护范围内。

Claims (1)

1.一种基于标签传播算法的临床药品-药品不良反应检测方法,其特征在于,包括以下步骤:
步骤1:采用卡方方法对药品特征进行过滤,选择包含信息量较大的特征;
步骤2:根据样本标签相似性与拉普拉斯算子调整的样本相似性构造新的样本相似性;
步骤3:基于已知标签样本的信息建立未知标签样本的初始化信息;
步骤4:整合步骤1,步骤2和步骤3获得新的标签传播算法,使用该算法,得到待识别样本的检测结果;
其中,步骤1所述的对药品特征进行过滤,选择包含信息量较大的特征,所采用的方法模型为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
,表示特征
Figure DEST_PATH_IMAGE006
在类别
Figure DEST_PATH_IMAGE008
中出现的频率;
Figure DEST_PATH_IMAGE010
,表示特征集体出现在某一个类别中的频率;
Figure DEST_PATH_IMAGE012
表示类别
Figure 325356DEST_PATH_IMAGE008
中含有特征
Figure 751789DEST_PATH_IMAGE006
的数量,
Figure DEST_PATH_IMAGE014
表示非类别
Figure 659440DEST_PATH_IMAGE008
中含有特征
Figure 651667DEST_PATH_IMAGE006
的数量,
Figure DEST_PATH_IMAGE016
表示类别
Figure 956877DEST_PATH_IMAGE008
中不含有特征
Figure 165879DEST_PATH_IMAGE006
的数量,
Figure DEST_PATH_IMAGE018
表示非类别
Figure 113107DEST_PATH_IMAGE008
中不含有特征
Figure 959840DEST_PATH_IMAGE006
的数量,
Figure DEST_PATH_IMAGE020
表示样本的总数;
步骤2所述的构造新的样本相似性,所采用的方法模型为:
Figure DEST_PATH_IMAGE022
其中,S(i, j)表示样本相似性矩阵,
Figure DEST_PATH_IMAGE024
,表示样本
Figure DEST_PATH_IMAGE026
与样本
Figure DEST_PATH_IMAGE028
之间的相似性;
Figure DEST_PATH_IMAGE030
表示样本标签与样本标签间的相似性,其公式为:
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
,表示第
Figure DEST_PATH_IMAGE036
个标签的权值;
Figure DEST_PATH_IMAGE038
表示样本的总数目,
Figure DEST_PATH_IMAGE040
表示样本标签中第
Figure 59121DEST_PATH_IMAGE036
个标签的数目;
Figure DEST_PATH_IMAGE042
是一个
Figure DEST_PATH_IMAGE044
的向量,
Figure DEST_PATH_IMAGE046
表示第
Figure 568468DEST_PATH_IMAGE026
个样本标签向量的第
Figure 850545DEST_PATH_IMAGE036
个标签,表示未知标签样本
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
近邻集合中包含所有有标签样本的子集;
Figure DEST_PATH_IMAGE052
是本公式中前面三种情况的平均值,表示未知标签样本的标签之间的相似性;
步骤3所述的建立未知标签样本的初始化信息,所采用的方法模型为:
Figure DEST_PATH_IMAGE054
其中,
Figure DEST_PATH_IMAGE056
表示已知标签样本中相似性小于0.5发生反应的概率,
Figure DEST_PATH_IMAGE058
表示已知标签样本中相似性大于等于0.5发生反应的概率;
步骤4按
Figure DEST_PATH_IMAGE060
进行传播,获得检测结果,式中F表示整合上述步骤1、步骤2和步骤3获得的标签传播算法,
Figure DEST_PATH_IMAGE062
表示药品从其他药品获得
Figure 738736DEST_PATH_IMAGE062
部分的标签信息,保留自身
Figure DEST_PATH_IMAGE064
部分的标签信息;I表示一个
Figure DEST_PATH_IMAGE066
的单位矩阵;W表示归一化收敛矩阵,Y表示样本的初始化标签。
CN201810010035.1A 2018-01-05 2018-01-05 一种基于标签传播算法的临床药品-药品不良反应检测方法 Active CN108376567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810010035.1A CN108376567B (zh) 2018-01-05 2018-01-05 一种基于标签传播算法的临床药品-药品不良反应检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810010035.1A CN108376567B (zh) 2018-01-05 2018-01-05 一种基于标签传播算法的临床药品-药品不良反应检测方法

Publications (2)

Publication Number Publication Date
CN108376567A CN108376567A (zh) 2018-08-07
CN108376567B true CN108376567B (zh) 2022-04-01

Family

ID=63016617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810010035.1A Active CN108376567B (zh) 2018-01-05 2018-01-05 一种基于标签传播算法的临床药品-药品不良反应检测方法

Country Status (1)

Country Link
CN (1) CN108376567B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383725B (zh) * 2018-12-28 2023-04-28 国家食品药品监督管理总局药品评价中心 不良反应数据鉴别方法、装置、电子设备及可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043896A (zh) * 2009-12-28 2011-05-04 中国人民解放军第二军医大学东方肝胆外科医院 临床组织样本库信息管理方法
CN105354595A (zh) * 2015-10-30 2016-02-24 苏州大学 一种鲁棒视觉图像分类方法及***
CN106055879A (zh) * 2016-05-24 2016-10-26 北京千安哲信息技术有限公司 药物不良反应挖掘方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012003453A2 (en) * 2010-07-01 2012-01-05 Sagent Pharmaceuticals, Inc. Label, labeling system and method of labeling for containers for drug products

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043896A (zh) * 2009-12-28 2011-05-04 中国人民解放军第二军医大学东方肝胆外科医院 临床组织样本库信息管理方法
CN105354595A (zh) * 2015-10-30 2016-02-24 苏州大学 一种鲁棒视觉图像分类方法及***
CN106055879A (zh) * 2016-05-24 2016-10-26 北京千安哲信息技术有限公司 药物不良反应挖掘方法和***

Also Published As

Publication number Publication date
CN108376567A (zh) 2018-08-07

Similar Documents

Publication Publication Date Title
Hage Chehade et al. Lung and colon cancer classification using medical imaging: A feature engineering approach
Nanni et al. A classifier ensemble approach for the missing feature problem
CN112270666A (zh) 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Althubiti et al. Ensemble learning framework with GLCM texture extraction for early detection of lung cancer on CT images
Chakradeo et al. Breast cancer recurrence prediction using machine learning
Yaqoob et al. Applications and techniques of machine learning in cancer classification: A systematic review
Tian et al. Radiomics and its clinical application: artificial intelligence and medical big data
CN117591953A (zh) 基于多组学数据的癌症分类方法、***及电子设备
Laajili et al. Application of radiomics features selection and classification algorithms for medical imaging decision: MRI radiomics breast cancer cases study
Batool et al. Towards Improving Breast Cancer Classification using an Adaptive Voting Ensemble Learning Algorithm
Mahesh et al. Optimized Local Weber and Gradient Pattern-based medical image retrieval and optimized Convolutional Neural Network-based classification
CN111582370B (zh) 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法
CN108376567B (zh) 一种基于标签传播算法的临床药品-药品不良反应检测方法
Thapa et al. Deep learning for breast cancer classification: Enhanced tangent function
Nugroho et al. Image dermoscopy skin lesion classification using deep learning method: systematic literature review
CN116805522A (zh) 诊断报告输出方法、装置、终端及存储介质
Warjurkar et al. A study on brain tumor and parkinson’s disease diagnosis and detection using deep learning
Syafiandini et al. Cancer subtype identification using deep learning approach
Gupta et al. Improving accuracy of lung nodule classification using AlexNet model
Kharrat et al. Brain tumour diagnostic segmentation based on optimal texture features and support vector machine classifier
Jaisakthi et al. A deep learning approach for nucleus segmentation and tumor classification from lung histopathological images
Ashraf et al. Iterative weighted k-NN for constructing missing feature values in Wisconsin breast cancer dataset
Danilov et al. Feature selection algorithm based on PDF/PMF area difference
Chhabra et al. Comparison of different edge detection techniques to improve quality of medical images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant