CN112365991B - 面向srs联合用药不良反应信号的存疑信号挖掘方法 - Google Patents
面向srs联合用药不良反应信号的存疑信号挖掘方法 Download PDFInfo
- Publication number
- CN112365991B CN112365991B CN202011308163.8A CN202011308163A CN112365991B CN 112365991 B CN112365991 B CN 112365991B CN 202011308163 A CN202011308163 A CN 202011308163A CN 112365991 B CN112365991 B CN 112365991B
- Authority
- CN
- China
- Prior art keywords
- signal
- adverse reaction
- srs
- signals
- doubt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向SRS联合用药不良反应信号的存疑信号挖掘方法,包括:通过SRS获取数据,得到联合用药不良反应信号集合X={D1,D2,…,Dx},Dx为判定为不良反应信号的药品组合,通过信号强度和阈值判断方法鉴别存疑信号,首先找出强存疑信号及其对应的所有的只包含一个信号的最小关联信号组,对排除强存疑信号组后的信号再经过信号强度判断,以及通过贪心策略利用阈值判断方法得到该信号的一个最小关联信号组,即弱存疑信号及其对应的一个最小关联信号组;存疑信号可作为假阳性信号线索,其关联关系即最小关联信号组可作为影响该信号不良反应风险评估的混杂因素,提高不良反应信号分析的质量。
Description
技术领域
本发明涉及信号挖掘技术领域,尤其涉及一种面向SRS联合用药不良反应信号的存疑信号挖掘方法。
背景技术
受限于实验范围、研究对象及时间等因素,上市前阶段不可能完成所有联合用药相互作用的研究,许多潜在的药物相互作用只有在药品上市后大范围、长时间使用过程中才发现。药物不良事件自发呈报***(Spontaneous Reporting System,SRS)为上市后药物相互作用信号挖掘提供了重要的数据来源。例如美国FDA不良事件报告***(FDA AdverseEvent Reporting System,FAERS)等,真实反应了现实生活中用药安全的复杂性,据调查,其60%的不良事件报告中患者用药多于一种,70%的报告中患者发生的不良事件多于一种,84%的报告中患者用药或发生不良事件的总数至少3种。这些特点给联合用药不良反应信号挖掘带来机遇和挑战。
为了突破“数据海量、信息匮乏”的困境,主流研究利用计算机在自发呈报***数据中批量发掘联合用药不良反应信号。信号包含两个要素:药物组合D及目标不良反应AE。药物组合是一个药品集合,也可称为组合用药或联合用药。若药物组合D是不良反应AE的信号,则意味着当病患同时服用D中的全部药品时可能会产生目标不良反应AE。当AE确定时,信号可表述为药物组合。需要指出的是,信号只是一种线索,并不能证明药物组合与不良反应之间存在因果关系,这需要更完备的医药实验及机制分析来确认,能够被确认的信号称为阳性信号,不能被确认的称为假阳性信号。信号中阳性信号占比越高,则说明信号挖掘的质量越高。其中,信号强度度量是信号挖掘的关键。非均衡性测量是信号度量的基本思路,即所关注事件与其他事件相比较而言的“非均衡性”或“不相称性”。包括频数法和贝叶斯法两大类,频数法包括相对危险比(RR)、比例报告比值(PRR)、报告比值比(ROR)等,贝叶斯法包括贝叶斯置信度递进神经网络(BCPNN),经验贝叶斯伽玛泊松分布缩减法(MGPS)、BCPNN高维扩展版、以及Ω收缩测量法等。上述方法各有优势,但整体而言,存在信号线索量大且准确率低(4%)的共性问题,无法真正发挥大数据优势,这个缺陷在高阶联合用药不良反应信号挖掘时会更加凸显。现实生活中的药物联用模式非常复杂,而已知的非均衡性测量方法评估信号不良反应风险时假设用药独立不相关,只评价其药物组合本身,不考虑其他联合用药的影响,这使得与阳性信号日常联用的其他药物(组合)可能被评估为假阳性信号(即事实上与药物不良反应无关的药物组合被判定为联合用药不良反应信号)。值得指出的是,也可能是若干信号的联合影响导致了假阳性信号的出现。识别此类信号与信号、信号与信号组之间的关联关系,对研判假阳性信号、丰富信号分析线索具有重要意义。目前尚无类似研究工作可借鉴。
发明内容
(一)要解决的技术问题
针对上述问题,本发明提供一种面向SRS联合用药不良反应信号的存疑信号挖掘方法,存疑信号可作为假阳性信号线索,其关联关系即最小关联信号组可作为影响该信号不良反应风险评估的混杂因素,从而有利于提高不良反应信号分析质量。
(二)技术方案
基于上述的技术问题,本发明提供一种面向SRS联合用药不良反应信号的存疑信号挖掘方法,所述方法包括以下步骤:
S1、初始化令关联关系集合W=Ф,强存疑信号集合A=Ф,弱存疑信号集合B=Ф,通过药物不良事件自发呈报***SRS获取数据并预处理,然后筛选得到联合用药不良反应信号集合X={D1,D2,…,Dx},Dx为判定为不良反应信号的药品组合;
S2、遍历X,为X中的每个信号D依次通过信号强度和阈值判断方法找出Z=X-{D}中所有的只包含一个信号的最小关联信号组Y,将D放入强存疑信号集合A,将D与Y的关联关系<D,Y>加入关联关系集合W;
S3、令信号集合U=X-A,遍历U,为U中每个信号D求解最小关联信号组Y,若求解成功,则将D放入弱存疑信号集合B,并将<D,Y>加入关联关系集合W:
S3.1、令信号集合U=X-A,开始遍历U;
S3.2、判断遍历U是否结束,若是,则进入步骤S4,否则进入步骤S3.3;
S3.3、选定U中未被处理的信号D,令信号集合ZZ=U-{D},XX=Ф;
S3.4、遍历ZZ,求解ZZ中信号强度高于D的所有信号,加入候选信号集合XX;
S3.5、令t=1,Yt=Ф,t表示最小关联信号组Y的循环轮数;
S3.6、判断XX是否为空集,若否,则进入步骤S3.7;若是,则进入步骤S3.2;
S3.7、遍历XX,将XX的现有信号中不良反应报告数最大的信号Dt加入信号集合Yt,合成Yt+1,通过阈值判断方法将Yt+1是否是D的关联信号组,若是,则Yt+1为D的最小关联信号组,将关联关系<D,Yt+1>加入关联关系集合W,将D放入弱存疑信号集合B,进入步骤S3.2;若否,则令t=t+1后,重新执行步骤S3.6;
S4、输出关联关系集合W、强存疑信号集合A、弱存疑信号集合B;强存疑信号集合A包含的信号对应的每个关联信号组Y中仅包含一个信号即一个药物组合,弱存疑信号集合B包含的弱存疑信号对应的关联关系Yt+1为包含信号最少的关联信号组,且Yt+1中包含的信号数即药物组合数大于一,关联关系集合W中的关联关系<D,Y>或<D,Yt+1>表示Y或Yt+1是对应的信号D的混杂因素,Y或Yt+1包含的信号即药物组合影响信号D即药物组合的不良反应风险评估。
进一步的,步骤S2包括以下步骤:
S2.1、遍历X,选定X中未被处理的信号D,令信号集合Z=X-{D};
S2.2、遍历Z,依次从Z中通过信号强度和阈值判断方法求解出D的所有的只包含一个信号的最小关联信号组Y,并将D与Y的关联关系<D,Y>加入关联关系集合W,遍历Z结束后,将存在只包含一个信号的最小关联信号组Y的信号D加入强存疑信号集合A;
S2.3、判断遍历X是否结束,若是,则进入步骤S3,否则进入步骤S2.1。
进一步的,步骤S2.1还包括:令标记tag=0;步骤S2.2包括以下步骤:
S2.2.1、遍历Z,判断遍历Z是否结束,若是,则进入步骤S2.2.5,否则进入步骤S2.2.2;
S2.2.2、选定信号集合Z中未被处理的信号Db,查询附加信息集合I,判断Q(PS,D,AE).CI-<Q(PS,Db,AE).CI-且Q(PS,D,AE).CI+<Q(PS,Db,AE).CI+是否成立,若均成立,则进入步骤S2.2.3,否则进入步骤S2.2.5;
S2.2.3、令Y={Db},基于SRS数据计算CC(D,Y)及QQ(D,Y),判断CC(D,Y)≤θ或QQ(D,Y)≤β是否成立,若任意一个不等式成立,则进入步骤S2.2.4,否则进入步骤S2.2.5;
S2.2.4、令tag=1,令W=W∪{<D,Y>},返回步骤S2.2.1;
S2.2.5、判断tag是否等于1,若是,则令A=A∪{D},进入步骤S2.3,若否,则进入步骤S2.3;
其中,所述附加信息集合I为X中每个信号D基于SRS数据计算得到的对应的Q(PS,D,AE)的集合,Q(PS,D,AE).CI-表示所述Q(PS,D,AE)的信号强度置信区间下界CI-,Q(PS,D,AE).CI+表示所述Q(PS,D,AE)的信号强度置信区间上界CI+,Q(PS,D,AE)为根据病患集合PS的SRS数据得到的D作为不良反应AE的信号度量函数;QQ(D,Y)=Q(PS-为支持剔除信号干扰的信号度量函数,β为强信号强度阈值;为支持剔除信号干扰的不良反应报告统计函数,G(.)表示用药病例函数,C(.,.)为不良反应报告统计函数,θ为不良反应报告数阈值。
进一步的,步骤S3.4包括以下步骤:
S3.4.1、选定信号集合ZZ中未被处理的信号Da,查询附加信息集合I,判断Q(PS,D,AE).CI-<Q(PS,Da,AE).CI-且Q(PS,D,AE).CI+<Q(PS,Da,AE).CI+是否成立,若均成立,则进入步骤S3.4.2,否则进入步骤S3.4.3;其中,所述附加信息集合I为X中每个信号D基于SRS数据计算得到的对应的Q(PS,D,AE)的集合,Q(PS,D,AE).CI-表示所述Q(PS,D,AE)的信号强度置信区间下界CI-,Q(PS,D,AE).CI+表示所述Q(PS,D,AE)的信号强度置信区间上界CI+,Q(PS,D,AE)为根据病患集合PS的SRS数据得到的D作为不良反应AE的信号度量函数;
S3.4.2、令XX=XX∪{Da};
S3.4.3、判断遍历ZZ是否结束,若是,进入步骤S3.5,否则进入步骤S3.4.1。
进一步的,步骤S3.7包括以下步骤:
S3.7.2、判断CC(D∪Dc,Yt)是否大于0,若是,进入步骤S3.7.3,否则,进入步骤S3.2;
S3.7.3、令Yt+1=Yt∪{Dt},XX=XX-{Dt};
S3.7.4、基于SRS数据计算CC(D,Yt+1)及QQ(D,Yt+1),判断CC(D,Yt+1)≤θ或QQ(D,Yt+1)≤β是否成立,若任意一个不等式成立,则进入步骤S3.7.5,否则进入步骤S3.7.6;
S3.7.5、令W=W∪{<D,Yt+1>},B=B∪{D},进入步骤S3.2;
S3.7.6、令t=t+1,进入步骤S3.6;
其中,为支持剔除信号干扰的不良反应报告统计函数,G(.)表示用药病例函数,AE表示不良反应,C(.,.)为不良反应报告统计函数,θ为不良反应报告数阈值;为支持剔除信号干扰的信号度量函数,Q(.,.,.)为信号度量函数,β为强信号强度阈值。
进一步的,所述数据获取自药物不良事件自发呈报***SRS的人口学信息、用药信息、药物不良反应的信息。
进一步的,所述判定为不良反应信号的药物组合的方法包括:若来自药物组合D的用药病患上报的目标不良反应信号AE的次数大于支持度阈值;药物组合D的长度不大于联合用药信号长度阈值MAX_D;根据病患集合PS的SRS数据得到的D作为目标不良反应AE的信号强度置信区间的下界Q(PS,D,AE).CI->信号强度阈值δ;则判定D为目标不良反应信号AE的药物组合。
进一步的,所述Q(PS,D,AE)采用的度量方法包括RR、PRR、RoR、BCPNN、MGPS。
本发明还公开了一种服务器,包括:
至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法。
本发明还公开了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法。
(三)有益效果
本发明的上述技术方案具有如下优点:
(1)本发明提供一种面向SRS联合用药不良反应信号的信号关联关系挖掘方法,对于给定的信号D,若存在一个信号强度高于D的信号集合Y,当在SRS数据中剔除Y中每个信号的用药病患后,信号D的强度评估低于预期,则称D关联于信号集合Y,Y称为D的关联信号组,这种关联关系有助于研判D是否为假阳性信号,也可丰富信号D的数据分析线索,将信号集合Y中的信号作为信号D的混杂因素;
(2)为了减少求解关联关系代价,重点求解D的最小关联信号组,通过信号强度的判断方法和阈值判断的方法,分两种情况分别求解出最小关联信号组,若最小关联信号组只包含一个信号,将D标记为强存疑信号,并求解其所有的最小关联信号组;对于其他的存疑信号即弱存疑信号,采用贪心策略求解一个最小关联信号组;上述策略既提取了有代表性的关联关系,又避免了指数级的计算开销;
(3)本发明还进行空集的判断以及不良反应报告统计函数的判断提前确定是否继续进行或终止,减少计算量,提高了运算效率。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明实施例的面向SRS联合用药不良反应信号的存疑信号挖掘方法的整体流程示意图;
图2为本发明实施例面向SRS联合用药不良反应信号的存疑信号挖掘方法的流程示意图;
图3为本发明实施例步骤S2的流程示意图;
图4为本发明实施例步骤S3的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明以FAERS发布的不良事件报告文件分析联合用药出血的不良反应信号的信号关联关系的挖掘方法如图1所示,包括如下步骤:
第I阶段通过药物不良事件自发呈报***SRS获取数据并预处理:通过药物不良事件自发呈报***SRS获取数据,对数据去重,对药物名称进行规范化,选定目标不良反应AE。这是所有信号挖掘工作的基础和前提。数据预处理之后,用于后两个阶段的信号分析。为便于下文表述,定义以下符号:令SRS中全部病患集合记为PS={p1,p2,…,pm},全部的药物集合记为DS={d1,d2,…,dn}。为方便表述,给定病患集合P1及P2,定义集合减法P1-P2=P1-P1∩P2。令C(.,.)表示不良反应报告统计函数,给定病患集合P,C(P,AE)表示来自病患集合P的不良反应AE的报告数。令G(.)表示用药病例函数,给定信号D,G(D)为服用药物组合D的病例集合。
获取FAERS 2018年三季度数据发布的不良事件报告文件,得到420,915个病例报告,1,651,966条用药记录(包括51083种药物名称),以及1,329,530条不良反应事件记录(涵盖11,944种不良反应事件),整合其中的通过病例ID关联的人口学信息、用药信息、药物不良反应,将药物不良反应名称和药品名称进行规范化处理。选定出血事件为目标不良反应AE,涉及194中不良反应事件(均可归纳为出血事件,但表述不同),共有19,067条出血事件记录。
第II阶段挖掘联合用药不良反应信号:对于选定的SRS数据和目标不良反应AE,挖掘联合用药不良反应信号挖掘方法,获得联合用药不良反应信号集合X={D1,D2,…,Dx},其中信号Di是若干药物的集合,当病患同时服用了Di中的每个药品,则称病患服用了Di。。其中,信号评定由以下三个参数共同决定:(1)支持度阈值Support;来自药物组合D的用药病患上报的目标不良反应AE的次数大于Support;(2)长度阈值MAX_D;药物组合D的长度(即D中包含的药物个数)不大于MAX_D,即|D|<=MAX_D;(3)信号度量函数Q(.,.,.)及信号强度阈值δ;函数Q的输入为病患集合PS、药物组合D及目标不良反应AE,Q(P,D,AE)输出为根据病患集合PS的SRS数据得到的D作为AE信号的信号强度置信区间(Confidence Interval,CI)为[CI-,CI+],若置信区间下界CI->δ,则判定D为目标不良反应AE的信号。信号度量函数Q采用非均衡度量类的方法,这是传统研究工作的范畴,知名的度量方法有相对危险比(RR),比例报告比值(PRR)、报告比值比(ROR)、贝叶斯置信度递进神经网络(BCPNN),经验贝叶斯伽玛泊松分布缩减法(MGPS)等,Q与典型方法的对应关系见表1。非均衡度量类方法求解Q(PS,D,AE)时,均需要基于SRS数据来计算C(G(D),AE)。为了提高后续工作的计算效率,信号集合X中的每个信号D,均有附加信息Q(PS,D,AE),将附加信息集合记为I。
表1典型信号度量方法及其置信区间选择
使用FAERS 2018年三季度数据挖掘联合用药出血事件信号,令支持度阈值Support=20,长度阈值MAX_D=2,信号度量函数Q(.)采用报告比值比RoR,信号强度阈值δ=2,共得到419个联合用药出血事件信号。
第III阶段从所述联合用药不良反应信号集合中挖掘存疑信号及其关联关系。对于给定的信号D,若存在一个信号强度高于D的信号集合当在SRS数据中剔除Y中每个信号的用药病患后,信号D的强度评估低于预期,则称D与Y关联,Y是D的关联信号组,标记D为存疑信号。存疑信号可作为假阳性信号线索,关联信号组可作为影响该不良反应风险评估的混杂因素,有利于提高不良反应信号分析的准确性。全面求解关联关系的计算开销是指数级的,为了提高计算效率,只求解D的最小关联信号组(即包含信号最少的关联信号组)。若D的最小关联信号组只包含一个信号,则将D标记为强存疑信号,并求解其全部的最小关联信号组。若D的最小关联信号组包含不少于2个信号,则将D标记为弱存疑信号,只求解一个最小关联信号组。
已有方法得到的信号集合X中包含大量的假阳性信号,严重损害了联合用药不良反应信号挖掘的应用价值。本发明分析认为(若干)高强度信号与低强度信号之间共有的不良反应病患报告会拉高低强度信号的信号强度评估值,这是造成假阳性信号的重要原因。换言之,对于给定的信号D,若存在一个信号强度高于信号D的信号集合Y,当在SRS数据中剔除Y中每个信号的用药病患后,信号D的强度评估低于预期,则意味着D有可能是假阳性信号,医药研究人员在对信号D进行分析确认时,可考虑将信号集合Y中的信号作为混杂因素。
为便于表述,定义以下符号表示。对于给定信号D,及信号集合Y,以不良反应报告统计函数C(.,.)为基础,定义剔除信号干扰的不良反应报告统计函数CC(.,.),令因为本阶段不良反应AE不发生变化,在函数CC中省略了参数AE。类似的,以信号度量函数Q(.,.,.)为基础,定义剔除信号干扰的信号度量函数QQ(D,Y),令在此基础上,给出关联关系的定义。
关联关系:给定信号D,信号集合若同时满足以下两个条件,则称D与Y关联,Y是D的关联信号组,标记D为存疑信号:(i)Y中的每个信号Db的强度高于D,即满足Q(PS,D,AE).CI-<Q(PS,Db,AE).CI-且Q(PS,D,AE).CI+<Q(PS,Db,AE).CI+;(ii)当在SRS数据中剔除Y中每个信号的用药病患后,信号D的不良反应报告数低于预期,即CC(D,Y)不大于不良反应报告数阈值θ,或者信号D的强度低于预期,即QQ(D,Y).CI-不大于关联分析信号强度阈值β。
上述定义中,条件(i)使用信号D的附加信息进行判定,开销较小。条件(ii)需要基于SRS数据进行判断,开销较大。利用条件(i),可先找出X-{D}中满足信号强于高于D的信号的全部信号,这些信号的集合记为D的待选信号集合XX。则若Y是D的关联信号组,则假定XX中有h个信号,这意味着Y有2h-1种可能性,求解全部关联关系的计算开销较大。一般情况下,若Y1,Y2均为D的关联信号组,当Y1中的信号数目少于Y2时,参照数据分析普遍采用的奥卡姆剃刀原则,可认为Y1优于Y2。利用此原则,本申请不会求解全部的关联关系,仅求解包含信号数目最少的关联信号组(称为最小关联信号组)。根据最小关联信号组大小,将存疑信号分为强存疑信号和弱存疑信号两步,简化关联关系求解:
第一步,求解强存疑信号及其所有最小关联信号组。若信号D的最小关联信号组Y中只包含一个信号(记为Db),则将D标记为强存疑信号。显然,当D的待选信号集合XX中有h个信号时,D至多有h个不同的最小关联信号组,其计算开销是线性的。鉴于此,针对强存疑信号D,求解D的所有最小关联信号组;
第二步,求解弱存疑信号及其一个最小关联信号组。为了降低分析开销,将强存疑信号从信号集合中删除。对于保留下来的信号D,要么不是存疑信号,要么是弱存疑信号,这可以通过求解D的一个最小关联信号组来判定。若求解成功,则D标记为弱存疑信号。在信号集合XX上求解D的最小关联信号组Y是NP问题,为了降低开销,本发明初始化Y为空集,采用贪心策略循环迭代增加Y中的信号。令第t轮候选最小关联信号组为Yt,若信号集合XX为空集,则表明D没有关联信号组,求解结束。否则,从SRS数据中剔除Y中每个信号的用药病患,在XX中选择与D共同拥有的不良反应报告数最多的信号从XX中删除Dt,将Dt加入Yt得到Yt+1。若D与Yt+1关联,则求解结束。否则,令t=t+1,进入下一循环。
综上,给定SRS数据、信号度量方法Q、信号集合X及附加信息集合I(包含每个信号的信号强度信息)、不良反应报告数阈值θ、以及关联关系强度阈值β,本方法输出为关联关系集合W,强存疑信号集合A,弱存疑信号集合B。如图2所示,具体实施流程如下:
S1、初始化令关联关系集合W=Ф,强存疑信号集合A=Ф,弱存疑信号集合B=Ф;
S2、遍历X,为X中的每个信号D依次通过信号强度和阈值判断方法找出Z=X-{D}中所有的只包含一个信号的最小关联信号组Y,将D放入强存疑信号集合A,将D与Y的关联关系<D,Y>加入关联关系集合W;如图3所示,包括如下步骤:
S2.1、遍历X,选定X中未被处理的信号D,令信号集合Z=X-{D},令标记tag=0;
S2.2、遍历信号集合Z,求解D的所有的只包含一个信号的最小关联信号组;
S2.2.1、遍历Z,判断遍历Z是否结束,若是,则进入步骤S2.2.5,否则进入步骤S2.2.2;
S2.2.2、选定信号集合Z中未被处理的信号Db,查询附加信息集合I,判断Q(PS,D,AE).CI-<Q(PS,Db,AE).CI-且Q(PS,D,AE).CI+<Q(PS,Db,AE).CI+是否成立,若两个不等式均成立,则进入步骤S2.2.3,否则进入步骤S2.2.5;
S2.2.3、令Y={Db},基于SRS数据计算CC(D,Y)及QQ(D,Y),判断CC(D,Y)≤θ或QQ(D,Y)≤β是否成立,若两个不等式任意一个成立,则进入步骤S2.2.4,否则进入步骤S2.2.5;
S2.2.4、令tag=1,并将D与Y的关联关系<D,Y>加入关联关系集合W,即令W=W∪{<D,Y>},返回步骤S2.2.1;
S2.2.5、判断tag是否等于1,若是,则将D加入强存疑信号集合A,即令A=A∪{D},进入步骤S2.3,若否,则进入步骤S2.3;
S2.3、判断遍历X是否结束,若是,则进入步骤S3,否则进入步骤S2.1;
步骤S2.2.2和步骤S2.2.3分别根据上述关联关系的判断方法(i)、(ii)得到,对于信号D,只要Z中有一个信号Db满足判断方法(i)、(ii),那tag取值为1,该一个信号D就是强存疑信号,但该强存疑信号的只包含一个信号的最小关联信号组Y不限于一个。
S3、令信号集合U=X-A,遍历U,为U中每个信号D求解最小关联信号组Y,若求解成功,将D放入弱存疑信号集合B,并将<D,Y>加入关联关系集合W;如图4所示,包括如下步骤:
S3.1、令信号集合U=X-A,开始遍历U;
S3.2、判断遍历U是否结束,若是,则进入步骤S4,否则进入步骤S3.3;
S3.3、选定U中未被处理的信号D,令信号集合ZZ=U-{D},XX=Ф;
S3.4、遍历信号集合ZZ,求解ZZ中信号强度高于D的所有信号,并将这些信号加入候选信号集合XX;
S3.4.1、选定信号集合ZZ中未被处理的信号Da,查询附加信息集合I,判断Q(PS,D,AE).CI-<Q(PS,Da,AE).CI-且Q(PS,D,AE).CI+<Q(PS,Da,AE).CI+是否成立,若两个不等式均成立,则进入步骤S3.4.2,否则进入步骤S3.4.3;
S3.4.2、将Da加入XX,即令XX=XX∪{Da};
S3.4.3、判断遍历ZZ是否结束,若是,进入步骤S3.5,否则进入步骤S3.4.1;
S3.5、令t=1,Yt=Ф;
S3.6、判断XX是否为空集,若否,则进入步骤S3.7;若是,则进入步骤S3.2;
若XX为空集,则步骤S3.4中未从ZZ筛选出信号强度高于D的信号,D没有关联信号组,终止筛选。
S3.7、遍历XX,将XX的现有信号中不良反应报告数最大的信号Dt加入信号集合Yt,合成Yt+1,通过阈值判断方法将Yt+1是否是D的关联信号组,若是,则Yt+1为D的最小关联信号组,将关联关系<D,Yt+1>加入关联关系集合W,将D放入弱存疑信号集合B,进入步骤S3.2;若否,则令t=t+1后,重新执行步骤S3.6;
S3.7.2、判断CC(D∪Dc,Yt)是否大于0,若是,进入步骤S3.7.3,否则,说明D没有关联信号组,终止筛选,进入步骤S3.2;
S3.7.3、将Dt加入Yt得到Yt+1,即令Yt+1=Yt∪{Dt},将Dt从XX中删除,即令XX=XX-{Dt};
S3.7.4、基于SRS数据计算CC(D,Yt+1)及QQ(D,Yt+1),判断CC(D,Yt+1)≤θ或QQ(D,Yt+1)≤β是否成立,若两个不等式任意一个成立,则说明D与Yt+1关联,进入步骤S3.7.5,否则进入步骤S3.7.6;
S3.7.5、将D与Yt+1的关联关系<D,Yt+1>加入关联关系集合W,即W=W∪{<D,Yt+1>},将D加入弱存疑信号集合B,即B=B∪{D},进入步骤S3.2;
S3.7.6、令t=t+1,进入步骤S3.6。
先由步骤S3.4将U中信号强度高于D的所有信号筛选到XX中,进行关联信号的第一步判断,再由步骤S3.5-S3.7得到XX中信号按不良反应报告数从大到小的顺序加入集合Y进行关联信号的第二步判断;且步骤S3.6和步骤S3.7.2排除D没有关联信号组的情况,结束筛选,减少计算量。
S4、输出关联关系集合W、强存疑信号集合A、弱存疑信号集合B。
针对传统联合用药不良反应信号挖掘得到的419个联合用药出血事件信号进行关联关系挖掘,令信号度量函数Q(.)采用报告比值比RoR、不良反应报告数阈值θ=4、以及关联关系强度阈值β=1,共得到236个强存疑信号及对应的关联关系3015条,得到11个弱存疑信号及对应的关联关系22。这些结果有助于识别假阳性信号,比如,使用2018年三季度的SRS数据评估信号强度,Q(PS,{谷赖胰岛素},AE)=[3.13,4.85],Q(PS,{苯丙香豆素},AE)=[4.16,5.82]。然而,当在SRS数据中剔除两个信号共同拥有的病例后,{谷赖胰岛素}小于预期,即QQ({谷赖胰岛素},{{苯丙香豆素}}).CI-=0.48<β。由此,{谷赖胰岛素}被标记为强存疑信号,{{苯丙香豆素}}是其最小关联信号组。这个结果可以与当前的药物不良反应研究成果印证,苯丙香豆素是一种抗凝药,是已确认的出血事件信号(阳性信号);而谷赖胰岛素未见这方面的报道,经与两位临床医师讨论,均认可{谷赖胰岛素}为假阳性信号,并指出若进一步验证信号{谷赖胰岛素},应将苯丙香豆素作为混杂因素纳入实验设计。选取药品知识库DrugBank及科研文库PubMed、Medline中提示出血事件信号作为阳性信号库,鉴于阳性信号库并未在联合用药不良反应信号挖掘及本发明中使用,因此,在同等零知识条件下,阳性信号占比可用于评价信号质量。来自第II阶段的419个信号中共有53个阳性信号(阳性信号占比为12.7%)。本发明得到247个质疑信号中有1个阳性信号(占比0.4%)。可见本发明有助于识别假阳性信号,提升信号质量。
该方法可以单独用于联合用药不良反应信号分析,也可以结合面向SRS联合用药不良反应信号的强信号筛选方法和/或面向SRS联合用药不良反应信号的存疑信号挖掘方法协同使用。三种方法均是分析信号与信号之间的关系,但目标各有侧重,强信号筛选是找出阳性信号线索,存疑信号挖掘是找出假阳性信号线索,等价关系信号挖掘是找出数据高度一致的信号线索,这些线索各自有利于提升信号分析质量。建议先进行等价关系信号挖掘再进行强信号筛选、存疑信号挖掘执行。等价关系信号挖掘方法得到最大等价组集合,每个最大等价组中仅需选择一个信号参与后续分析,可降低整个分析流程的计算开销。
最后需要说明的是,上述的方法可以转换为软件程序指令,既可以使用包括处理器和存储器的控制***来运行实现,也可以通过非暂态计算机可读存储介质中存储的计算机指令来实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上可知,通过上述的一种面向SRS联合用药不良反应信号的信号关联关系挖掘方法,具有以下优点:
(1)本发明提供一种面向SRS联合用药不良反应信号的信号关联关系挖掘方法,对于给定的信号D,若存在一个信号强度高于D的信号集合Y,当在SRS数据中剔除Y中每个信号的用药病患后,信号D的强度评估低于预期,则称D关联于信号集合Y,Y称为D的关联信号组,这种关联关系有助于研判D是否为假阳性信号,也可丰富信号D的数据分析线索,将信号集合Y中的信号作为信号D的混杂因素;
(2)为了减少求解关联关系代价,重点求解D的最小关联信号组,通过信号强度的判断方法和阈值判断的方法,分两种情况分别求解出最小关联信号组,若最小关联信号组只包含一个信号,将D标记为强存疑信号,并求解其所有的最小关联信号组;对于其他的存疑信号即弱存疑信号,采用贪心策略求解一个最小关联信号组;上述策略既提取了有代表性的关联关系,又避免了指数级的计算开销;
(3)本发明还进行空集的判断以及不良反应报告统计函数的判断提前确定是否继续进行或终止,减少计算量,提高了运算效率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,所述方法包括以下步骤:
S1、初始化令关联关系集合W=Ф,强存疑信号集合A=Ф,弱存疑信号集合B=Ф,通过药物不良事件自发呈报***SRS获取数据并预处理,然后筛选得到联合用药不良反应信号集合X={D1,D2,…,Dx},Dx为判定为不良反应信号的药品组合;
S2、遍历X,为X中的每个信号D依次通过信号强度和阈值判断方法找出Z=X-{D}中所有的只包含一个信号的最小关联信号组Y,将D放入强存疑信号集合A,将D与Y的关联关系<D,Y>加入关联关系集合W;
S3、令信号集合U=X-A,遍历U,为U中每个信号D求解最小关联信号组Y,若求解成功,则将D放入弱存疑信号集合B,并将<D,Y>加入关联关系集合W:
S3.1、令信号集合U=X-A,开始遍历U;
S3.2、判断遍历U是否结束,若是,则进入步骤S4,否则进入步骤S3.3;
S3.3、选定U中未被处理的信号D,令信号集合ZZ=U-{D},XX=Ф;
S3.4、遍历ZZ,求解ZZ中信号强度高于D的所有信号,加入候选信号集合XX;
S3.5、令t=1,Yt=Ф,t表示最小关联信号组Y的循环轮数;
S3.6、判断XX是否为空集,若否,则进入步骤S3.7;若是,则进入步骤S3.2;
S3.7、遍历XX,将XX的现有信号中不良反应报告数最大的信号Dt加入信号集合Yt,合成Yt+1,通过阈值判断方法将Yt+1是否是D的关联信号组,若是,则Yt+1为D的最小关联信号组,将关联关系<D,Yt+1>加入关联关系集合W,将D放入弱存疑信号集合B,进入步骤S3.2;若否,则令t=t+1后,重新执行步骤S3.6;
S4、输出关联关系集合W、强存疑信号集合A、弱存疑信号集合B;强存疑信号集合A包含的信号对应的每个关联信号组Y中仅包含一个信号即一个药物组合,弱存疑信号集合B包含的弱存疑信号对应的关联关系Yt+1为包含信号最少的关联信号组,且Yt+1中包含的信号数即药物组合数大于一,关联关系集合W中的关联关系<D,Y>或<D,Yt+1>表示Y或Yt+1是对应的信号D的混杂因素,Y或Yt+1包含的信号即药物组合影响信号D即药物组合的不良反应风险评估。
2.根据权利要求1所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,步骤S2包括以下步骤:
S2.1、遍历X,选定X中未被处理的信号D,令信号集合Z=X-{D};
S2.2、遍历Z,依次从Z中通过信号强度和阈值判断方法求解出D的所有的只包含一个信号的最小关联信号组Y,并将D与Y的关联关系<D,Y>加入关联关系集合W,遍历Z结束后,将存在只包含一个信号的最小关联信号组Y的信号D加入强存疑信号集合A;
S2.3、判断遍历X是否结束,若是,则进入步骤S3,否则进入步骤S2.1。
3.根据权利要求2所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,步骤S2.1还包括:令标记tag=0;步骤S2.2包括以下步骤:
S2.2.1、遍历Z,判断遍历Z是否结束,若是,则进入步骤S2.2.5,否则进入步骤S2.2.2;
S2.2.2、选定信号集合Z中未被处理的信号Db,查询附加信息集合I,判断Q(PS,D,AE).CI-<Q(PS,Db,AE).CI-且Q(PS,D,AE).CI+<Q(PS,Db,AE).CI+是否成立,若均成立,则进入步骤S2.2.3,否则进入步骤S2.2.5;
S2.2.3、令Y={Db},基于SRS数据计算CC(D,Y)及QQ(D,Y),判断CC(D,Y)≤θ或QQ(D,Y)≤β是否成立,若任意一个不等式成立,则进入步骤S2.2.4,否则进入步骤S2.2.5;
S2.2.4、令tag=1,令W=W∪{<D,Y>},返回步骤S2.2.1;
S2.2.5、判断tag是否等于1,若是,则令A=A∪{D},进入步骤S2.3,若否,则进入步骤S2.3;
4.根据权利要求1所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,步骤S3.4包括以下步骤:
S3.4.1、选定信号集合ZZ中未被处理的信号Da,查询附加信息集合I,判断Q(PS,D,AE).CI-<Q(PS,Da,AE).CI-且Q(PS,D,AE).CI+<Q(PS,Da,AE).CI+是否成立,若均成立,则进入步骤S3.4.2,否则进入步骤S3.4.3;其中,所述附加信息集合I为X中每个信号D基于SRS数据计算得到的对应的Q(PS,D,AE)的集合,Q(PS,D,AE).CI-表示所述Q(PS,D,AE)的信号强度置信区间下界CI-,Q(PS,D,AE).CI+表示所述Q(PS,D,AE)的信号强度置信区间上界CI+,Q(PS,D,AE)为根据病患集合PS的SRS数据得到的D作为不良反应AE的信号度量函数;
S3.4.2、令XX=XX∪{Da};
S3.4.3、判断遍历ZZ是否结束,若是,进入步骤S3.5,否则进入步骤S3.4.1。
5.根据权利要求1所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,步骤S3.7包括以下步骤:
S3.7.2、判断CC(D∪Dc,Yt)是否大于0,若是,进入步骤S3.7.3,否则,进入步骤S3.2;
S3.7.3、令Yt+1=Yt∪{Dt},XX=XX-{Dt};
S3.7.4、基于SRS数据计算CC(D,Yt+1)及QQ(D,Yt+1),判断CC(D,Yt+1)≤θ或QQ(D,Yt+1)≤β是否成立,若任意一个不等式成立,则进入步骤S3.7.5,否则进入步骤S3.7.6;
S3.7.5、令W=W∪{<D,Yt+1>},B=B∪{D},进入步骤S3.2;
S3.7.6、令t=t+1,进入步骤S3.6;
6.根据权利要求1所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,所述数据获取自药物不良事件自发呈报***SRS的人口学信息、用药信息、药物不良反应的信息。
7.根据权利要求1所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,所述判定为不良反应信号的药物组合的方法包括:若来自药物组合D的用药病患上报的目标不良反应信号AE的次数大于支持度阈值;药物组合D的长度不大于联合用药信号长度阈值MAX_D;根据病患集合PS的SRS数据得到的D作为目标不良反应AE的信号强度置信区间的下界Q(PS,D,AE).CI->信号强度阈值δ;则判定D为目标不良反应信号AE的药物组合。
8.根据权利要求3所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法,其特征在于,所述Q(PS,D,AE)采用的度量方法包括RR、PRR、RoR、BCPNN、MGPS。
9.一种服务器,其特征在于,包括:
至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至8任一项所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至8任一项所述的面向SRS联合用药不良反应信号的存疑信号挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011308163.8A CN112365991B (zh) | 2020-11-19 | 2020-11-19 | 面向srs联合用药不良反应信号的存疑信号挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011308163.8A CN112365991B (zh) | 2020-11-19 | 2020-11-19 | 面向srs联合用药不良反应信号的存疑信号挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365991A CN112365991A (zh) | 2021-02-12 |
CN112365991B true CN112365991B (zh) | 2022-05-03 |
Family
ID=74533010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011308163.8A Active CN112365991B (zh) | 2020-11-19 | 2020-11-19 | 面向srs联合用药不良反应信号的存疑信号挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365991B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2722395A1 (en) * | 2001-10-15 | 2014-04-23 | Bioarray Solutions Ltd | Multiplexed analysis of polymorphic loci by concurrent interrogation and enzyme-mediated detection |
CN108538396A (zh) * | 2018-04-09 | 2018-09-14 | 南京邮电大学 | 一种基于混合模型的药品不良反应遮蔽效应消除方法 |
CN109215799A (zh) * | 2018-08-20 | 2019-01-15 | 南京邮电大学 | 用于合并用药不良反应报告数据中虚假关联信号的筛选方法 |
-
2020
- 2020-11-19 CN CN202011308163.8A patent/CN112365991B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2722395A1 (en) * | 2001-10-15 | 2014-04-23 | Bioarray Solutions Ltd | Multiplexed analysis of polymorphic loci by concurrent interrogation and enzyme-mediated detection |
CN108538396A (zh) * | 2018-04-09 | 2018-09-14 | 南京邮电大学 | 一种基于混合模型的药品不良反应遮蔽效应消除方法 |
CN109215799A (zh) * | 2018-08-20 | 2019-01-15 | 南京邮电大学 | 用于合并用药不良反应报告数据中虚假关联信号的筛选方法 |
Non-Patent Citations (3)
Title |
---|
药品不良反应信号检测中的关联规则;王超等;《中国药物警戒》;20100315(第03期);第28-33页 * |
药品不良反应信号检测中遮蔽效应的影响及消除方法;叶小飞等;《中国药物警戒》;20130115(第01期);第66-71页 * |
阿奇霉素不良反应信号挖掘与评价;冷维萍等;《药物流行病学杂志》;20200315(第03期);第96-105页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112365991A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11954614B2 (en) | Systems and methods for visualizing a pattern in a dataset | |
Nowicka et al. | CyTOF workflow: differential discovery in high-throughput high-dimensional cytometry datasets | |
JP7057913B2 (ja) | ビッグデータ解析方法及び該解析方法を利用した質量分析システム | |
US20180225416A1 (en) | Systems and methods for visualizing a pattern in a dataset | |
JP6715451B2 (ja) | マススペクトル解析システム,方法およびプログラム | |
Bock et al. | Association mapping in biomedical time series via statistically significant shapelet mining | |
Cordero et al. | Tracing co-regulatory network dynamics in noisy, single-cell transcriptome trajectories | |
EP4035163A1 (en) | Single cell rna-seq data processing | |
US20200265919A1 (en) | Analyzing device, analysis method program, and non-volatile storage medium | |
CN112365991B (zh) | 面向srs联合用药不良反应信号的存疑信号挖掘方法 | |
Cisar et al. | A unified pipeline for FISH spatial transcriptomics | |
US20010056571A1 (en) | Difference engine method and apparatus | |
CN115527610B (zh) | 一种单细胞组学数据的聚类分析方法 | |
Mukherjee et al. | Determining clinically relevant features in cytometry data using persistent homology | |
CN112365990B (zh) | 面向srs联合用药不良反应信号的强信号筛选方法 | |
CN112365989B (zh) | 面向srs联合用药不良反应信号的等价信号挖掘方法 | |
Pura | Multiple Testing Embedded in an Aggregation Tree With Applications to Omics Data | |
CN110970089A (zh) | 胎儿浓度计算的预处理方法、预处理装置及其应用 | |
Huang et al. | Evaluating institutional open access performance: Sensitivity analysis | |
WO2023238439A1 (ja) | 分析装置、分析方法、および分析プログラム | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 | |
Lauria | Rank‐Based miRNA Signatures for Early Cancer Detection | |
CN116364182A (zh) | 一种单细胞转录组与tcr和bcr测序数据的整合分析方法 | |
CN117893512A (zh) | 核酸检测及数据分析方法、设备、***及存储介质 | |
Keener et al. | A unified pipeline for FISH spatial transcriptomics. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |