CN112906395B

CN112906395B - 药物关系提取方法、装置、设备及存储介质

Info

Publication number: CN112906395B
Application number: CN202110322905.0A
Authority: CN
Inventors: 付桂振; 顾大中; 徐任翔
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-08-15
Anticipated expiration: 2041-03-26
Also published as: CN112906395A

Abstract

本发明涉及数据处理领域，公开了一种药物关系提取方法、装置、设备及存储介质，用于解决现有技术提取到的药物关系准确度不足的技术问题。该方法包括：提取待提取文献中至少包含两种药物实体的目标语句；将目标语句输入预置第一特征提取模型中进行文本特征提取，得到药物实体相关的第一特征向量；提取预先建立的药物信息库中的现有药物信息文本并建立现有药物关系图，将现有药物关系图输入预置的第二特征提取模型进行特征提取，得到第二特征向量；基于第一特征向量与第二特征向量组合得到的组合特征向量提取出待提取文献中包含的药物促进关系。此外，本发明还涉及区块链技术，药物关系提取任务的相关信息可存储于区块链中。

Description

药物关系提取方法、装置、设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种药物关系提取方法、装置、设备及存储介质。

背景技术

在医疗领域中，往往不同的药物不能简单地交互使用，某些药物的简单叠加使用会造成巨大的后果，例如，阿司匹林与阿贝地洛联合使用可能会增加高血压的风险；而有些药物之间可以相互促进，两种不同药物的同时使用可能会起到更好的治疗效果。

目前，医疗人员在进行药物的联合使用过程中，主要是通过查询历史使用信息以及历史的药物促进关系来确定药物的使用，但是这仅靠手动查阅医学文献的方法费时费力，并且这样的方法得到的药物关系也不够准确，从而大大减缓了研究发现到临床应用的速度。

发明内容

本发明的主要目的在于解决现有技术提取到的药物关系准确度不足的技术问题。

本发明第一方面提供了一种药物关系提取方法，包括：

提取待提取文献中的目标语句，其中，所述目标语句为至少包含两种药物实体的语句；

将所述目标语句输入预置的第一特征提取模型中进行文本特征提取，得到所述目标语句中药物实体相关的第一特征向量；

提取预先建立的药物信息库中的现有药物信息文本，基于所述现有药物信息文本建立现有药物关系图；

将所述现有药物关系图输入预置的第二特征提取模型进行特征提取，得到现有药物信息相关的第二特征向量；

将所述第一特征向量与所述第二特征向量进行组合，得到组合特征向量，基于所述组合特征向量提取出所述待提取文献中包含的药物促进关系。

可选的，在本发明第一方面的第一种实现方式中，所述提取待提取文献中的目标语句包括：

调用文字提取算法对待提取的文献中的文字进行识别提取，得到所述待提取文献的文本数据；

将所述文本数据输入预先基于深度学习算法建立的实体提取模型中进行识别，得到所述文本数据中的药物实体词语；

查找出至少包含两种所述药物实体词语的语句并保存，得到待提取文献中的目标语句。

可选的，在本发明第一方面的第二种实现方式中，所述实体提取模型包括卷积神经网络层、双向长短期记忆网络层和条件随机场层，所述将所述文本数据输入预先基于深度学习算法建立的实体提取模型中进行识别，得到所述文本数据中的药物实体词语包括：

将所述文本数据输入卷积神经网络层中对所述文本数据中的词语进行编码，得到词语编码信息；

将所述词语编码信息输入双向长短期记忆网络层中，根据所述文本数据中每个词语的上下文信息，对所述文本数据中每个词语的词性进行识别，得到每个词语的词性标签概率；

将所述每个词语的词性标签概率输入条件随机场层中进行优化，得到每个词语的标签优化概率；

根据所述标签优化概率判断每个词语的最终标签，根据最终标签筛选得到所述文本数据中的药物实体词语。

可选的，在本发明第一方面的第三种实现方式中，所述第一特征提取模型包括向量嵌入层、卷积层和池化层，所述将所述目标语句输入预置的第一特征提取模型中进行文本特征提取，得到所述目标语句中药物实体相关的第一特征向量包括：

将所述目标语句输入向量嵌入层中采用向量对目标语句中的词语进行标注，得到词语标注向量；

将所述词语标注向量输入卷积层中进行特征提取，得到词语标注向量对应的特征向量矩阵；

将所述特征向量矩阵输入池化层提取所述特征向量矩阵中的最大特征，得到第一特征向量。

可选的，在本发明第一方面的第四种实现方式中，所述第二特征提取模型中包括采样层和自然语言处理层，所述将所述现有药物关系图输入预置的第二特征提取模型进行特征提取，得到现有药物信息相关的第二特征向量包括：

将所述现有药物关系图输入采样层中对所述现有药物关系图中的每个节点的近邻序列进行采样，得到节点序列集；

将所述节点序列集输入自然语言处理层中进行向量嵌入，得到每种药物相关的第二特征向量。

可选的，在本发明第一方面的第五种实现方式中，在所述提取待提取文献中的目标语句之前，还包括：

获取具有标注的药物促进关系图以及未优化的图卷积提取模型；

将具有标注的药物促进关系图组成关系图训练集，调用所述关系图训练集对所述未优化的图卷积提取模型进行训练，得到第二特征提取模型。

可选的，在本发明第一方面的第六种实现方式中，所述基于所述组合特征向量提取出所述待提取文献中包含的药物促进关系包括：

调用softmax函数对所述组合特征向量进行归一化处理，得到所述药物相关信息概率；

基于所述药物相关信息概率对药物关系进行判断，得到药物关系分类结果，将所述分类结果为具有药物促进关系的特征向量对应的药物信息进行保存，得到药物促进关系。

本发明第二方面提供了一种药物关系提取装置，包括：

文献提取模块，用于提取待提取文献中的目标语句，其中，所述目标语句为至少包含两种药物实体的语句；

第一特征提取模块，用于将所述目标语句输入预置的第一特征提取模型中进行文本特征提取，得到所述目标语句中药物实体相关的第一特征向量；

关系图建立模块，用于提取预先建立的药物信息库中的现有药物信息文本，基于所述现有药物信息文本建立现有药物关系图；

第二特征提取模块，用于将所述现有药物关系图输入预置的第二特征提取模型进行特征提取，得到所述现有药物信息相关的第二特征向量；

促进关系获取模块，用于将所述第一特征向量与所述第二特征向量进行组合，得到组合特征向量，基于所述组合特征向量提取出所述待提取文献中包含的药物促进关系。

可选的，在本发明第二方面的第一种实现方式中，所述文献提取模块包括：

文献数据抓取单元，用于调用文字提取算法对待提取的文献中的文字进行识别提取，得到所述待提取文献的文本数据；

实体关系提取单元，用于将所述文本数据输入预先基于深度学习算法建立的实体提取模型中进行识别，得到所述文本数据中的药物实体词语；

语句查找单元，用于查找出至少包含两种所述药物实体词语的语句并保存，得到待提取文献中的目标语句。

可选的，在本发明第二方面的第二种实现方式中，所述实体关系提取单元包括：

卷积神经网络子单元，用于将所述文本数据输入卷积神经网络层中对所述文本数据中的词语进行编码，得到词语编码信息；

双向长短期记忆网络子单元，用于将所述词语编码信息输入双向长短期记忆网络层中，根据所述文本数据中每个词语的上下文信息，对所述文本数据中每个词语的词性进行识别，得到每个词语的词性标签概率；

条件随机场子单元，用于将所述每个词语的词性标签概率输入条件随机场层中进行优化，得到每个词语的标签优化概率；

标签筛选子单元，用于根据所述标签优化概率判断每个词语的最终标签，根据最终标签筛选得到所述文本数据中的药物实体词语。

可选的，在本发明第二方面的第三种实现方式中，所述第一特征提取模块包括：

向量嵌入单元，用于将所述目标语句输入向量嵌入层中采用向量对目标语句中的词语进行标注，得到词语标注向量；

卷积提取单元，用于将所述词语标注向量输入卷积层中进行特征提取，得到词语标注向量对应的特征向量矩阵；

池化单元，用于将所述特征向量矩阵输入池化层提取所述特征向量矩阵中的最大特征，得到第一特征向量。

可选的，在本发明第二方面的第四种实现方式中，所述第二特征提取模块包括：

采样单元，用于将所述现有药物关系图输入采样层中对所述现有药物关系图中的每个节点的近邻序列进行采样，得到节点序列集；

向量嵌入单元，用于将所述节点序列集输入自然语言处理层中进行向量嵌入，得到每种药物相关的第二特征向量。

可选的，在本发明第二方面的第五种实现方式中，所述药物关系提取装置还包括第二特征提取模型构建模块，所述第二特征提取模型构建模块具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述促进关系获取模块包括：

归一化单元，用于调用softmax函数对所述组合特征向量进行归一化处理，得到所述药物相关信息概率；

分类单元，用于基于所述药物相关信息概率对药物关系进行判断，得到药物关系分类结果，将所述分类结果为具有药物促进关系的特征向量对应的药物信息进行保存，得到药物促进关系。

本发明第三方面提供了一种药物关系提取设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述药物关系提取设备执行上述的药物关系提取方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的药物关系提取方法的步骤。

本发明提供的技术方案中，提取待提取文献中至少包含两种药物实体的目标语句；调用预先建立好的对中的文本特征进行提取，得到目标语句中药物实体相关的第一特征向量；提取预先建立的药物信息库中的现有药物信息文本，根据现有药物信息文本的内容建立现有药物关系图；调用预先建立的第二特征提取模型对现有药物关系图进行特征提取，得到现有药物信息相关的第二特征向量；将第一特征向量与第二特征向量进行组合，得到组合特征向量，基于组合特征向量提取出待提取文献中包含的药物促进关系。本发明实施例中提供的药物关系提取方法在对医学文献中的内容进行语义分析的基础上综合了现有药物信息库中的信息，提高了药物关系提取技术对药物促进关系的提取准确度。

附图说明

图1为本发明实施例中药物关系提取方法的一个实施例示意图；

图2为本发明实施例中药物关系提取方法的另一个实施例示意图；

图3为本发明实施例中药物关系提取方法的另一个实施例示意图；

图4为本发明实施例中药物关系提取方法中的数据处理示意图；

图5为本发明实施例中药物关系提取方法的另一个实施例示意图；

图6为本发明实施例中药物关系提取装置的一个实施例示意图；

图7为本发明实施例中药物关系提取装置的另一个实施例示意图；

图8为本发明实施例中药物关系提取设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种药物关系提取方法、装置、设备及存储介质，通过抓取医学文献中包含有至少两种药物实体的目标语句，利用预置的第一特征提取模型对目标语句进行第一特征向量的提取；在预先建立的药物信息库中提取现有的药物信息，并利用预置的第二特征提取模型对现有药物信息进行第二特征向量的提取；基于第一特征向量和第二特征向量组合得到的组合特征向量提取出待提取文献中包含的药物促进关系。本发明实施例中提供的药物关系提取方法在对医学文献中的内容进行语义分析的基础上综合了现有药物信息库中的信息，提高了药物关系提取技术对药物促进关系的提取准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中药物关系提取方法的一个实施例包括：

101、提取待提取文献中的目标语句；

可以理解的是，本发明的执行主体可以为药物关系提取装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，首先获取欲进行药物促进关系提取的待提取文献，其中，该待提取文献可以为医学药物的论文集、医学期刊中的文献。提取获取到的待提取文献中的文本内容，利用命名实体识别功能对提取到的文本内容中的命名实体进行识别，得到药物相关的命名实体。由于本实施例中具体欲对药物之间的促进关系进行提取，文献中在对药物促进关系进行描述时会有若干至少包含两种药物实体的语句，将这些语句作为本步骤中所述目标语句，故在获取到药物相关的命名实体后，在待提取文献的文本内容中筛选至少包含两种药物命名实体的语句，得到目标语句，将这些目标语句暂存。

例如，某待提取文献中包含有如下语句：“……我们开展了针对胃癌一次联合用药的药物试验，将卡托普利和二甲双胍用于174位病人……”则首先通过命名实体识别功能识别到例句中的药物命名实体包含有“卡托普利”以及“二甲双胍”，为包含有两种药物命名实体的语句，故将该例句作为目标语句进行暂存。

102、将目标语句输入预置的第一特征提取模型中进行文本特征提取，得到目标语句中药物实体相关的第一特征向量；

本步骤中，第一特征提取模型是基于分段卷积神经网络(PiecewiseConvolutionalNeural Networks，PCNN)建立的，第一特征提取模型对目标语句进行实体关系抽取。

具体进行特征提取时，以上步骤中获取到的目标语句作为输入，首先利用自然语言处理(Natural Language Processing，NLP)技术对获取到的目标语句进行处理，本实施例中使用自然语言处理技术中的向量嵌入(Vector Representation)功能对目标语句中包含的词语进行向量嵌入，也就是对目标语句中包含的词语基于词语的表示意义进行向量的标注，得到每个词语表示意义相关的词语变化向量。同时，根据每个词语在目标语句中所处的位置对每个词语的位置信息进行编码，得到词语的位置向量。将每个词语的词语变化向量和位置变化向量结合，得到输入向量。

获取到输入向量后，利用卷积层对输入向量进行特征训练，每个输入向量相对的若干个特征表示，得到特征矩阵。对于得到的特征矩阵按照药物实体在目标语句中的位置将目标语句进行分段池化，得到具有最大特征的第一特征向量。

103、提取预先建立的药物信息库中的现有药物信息文本，基于现有药物信息文本建立现有药物关系图；

获取预先建立好的药物信息库，根据药物信息库获取公开的现有的药物信息文本，其中，该现有药物信息文本中包括已知的药物促进关系。

本实施例中，可以采用现有的Drugbank数据库作为药物信息库，通过信息爬虫工具对Drugbank数据库中的公开文本内容进行爬取，获取具有促进关系的现有药物信息文本，其中，DrugBank数据库是一个全面、免费访问的在线数据库，其中包含有关药物和药物靶点的信息。

本实施例中，将具有促进关系的每种药物作为一个节点，若有两种药物之间存在促进关系，则在二者的节点间添加一条边。基于这种逻辑对药物信息库中的药物促进关系进行整合，最终可得到药物关系图。

104、将现有药物关系图输入预置的第二特征提取模型进行特征提取，得到现有药物信息相关的第二特征向量；

将得到的药物关系图输入基于图卷积神经网络建立的第二特征提取模型中，第二特征提取模型首先识别药物关系图中的每个节点，随后使用随机游走算法在图中提取若干节点序列，并将节点序列组成药物序列集。调用第二特征提取模型中的自然语言处理层，使用向量对将药物序列集中的每一个节点进行向量表示，得到第二特征向量。

105、将第一特征向量与第二特征向量进行组合，得到组合特征向量，基于组合特征向量提取出待提取文献中包含的药物促进关系。

待获取到前述步骤中根据待提取文献中得到的第一特征向量以及根据药物信息库得到的第二特征向量后，将第一特征向量与第二特征向量进行拼接，得到组合向量，例如，在使用第一特征提取模型对药物目标关系语句进行第一特征向量提取时，提取到的语句中包含有阿司匹林和卡托普利两种药物，则将提取到的阿司匹林和卡托普利相关的第一向量与在药物信息库中利用第二特征提取模型提取到的现有的阿司匹林和卡托普利相关的第二特征向量进行结合得到组合向量。

随后，利用预先建立好的分类器对基于获取到的组合向量判断当前获取的目标语句中包含的两种药物实体之间是否具有促进关系，并将判断结果为具有药物促进关系的两种药物实体进行保存，得到药物促进关系。

本发明实施例中的药物关系提取方法，对医学文献中的内容进行语义分析并综合现有药物信息库中的信息，提高了药物关系提取技术对药物促进关系的提取准确度。

请参阅图2，本发明实施例中药物关系提取方法的另一个实施例包括：

201、调用文字提取算法对待提取的文献中的文字进行识别提取，得到待提取文献的文本数据；

本发明实施例以服务器为执行主体进行说明，本实施例中服务器调用信息爬虫工具对具有论文、期刊文章等医学文献的网站公开内容进行爬取，具体地，首先在服务器中保存如中国知网等学术文献网站，调用文字提取算法在保存的学术文献网站中对公开的医学文献相关信息进行爬取，并将具有医学文献相关信息网页的URL进行保存，将其中包含的医学文献内容进行下载得到待提取文献，使用文字提取算法提取到待提取的文献中的文本数据。

此外，获取文本数据的方法还可以为将现有的待提取文献的文本内容以电子文档方式直接输入本实施例服务器中，服务器可以通过对电子文档进行识别从而获取待提取文献中的文本数据。

202、将文本数据输入卷积神经网络层中对文本数据中的词语进行编码，得到词语编码信息；

提取到文本数据后，本步骤中首先将获取到的文本数据进行向量嵌入，向量嵌入(Vector Representation)又称为词嵌入，具体通过神经网络使用向量的形式对词语进行表示。并将文本数据中的文字进行分词处理，将分词处理后的文本数据输入卷积神经网络层中，使用训练好的卷积神经网络层识别文本数据中的信息，其中，本步骤中所述的卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(Deep Learning)的代表算法之一。

具体地，本步骤中预先对卷积神经网络进行训练，调用训练好的卷积神经网络对获取到的文本数据中的词语进行特征提取，初步获取文本数据中词语代表的内容信息，并将获取到的词语代表的内容信息编码到文本数据中的词语表示中，也就是说根据需被转换的词语的索引(或位置)提取出向量表中特定行的数字进而组合成一个向量用来表示该词语，从而得到文本数据中的词语编码信息。

203、将词语编码信息输入双向长短期记忆网络层中，根据文本数据中每个词语的上下文信息，对文本数据中每个词语的词性进行识别，得到每个词语的词性标签概率；

本实施例中，将词语编码信息输入本实施例中实体提取模型中的双向长短期记忆网络层中基于词语编码信息对每个词语的上下文信息进行识别。本步骤中双向长短期记忆网络(Bi-directionalLong Short-Term Memory，BiLSTM)层由前向长短期记忆网络(LongShort-Term Memory，LSTM)与后向长短期记忆网络(Long Short-Term Memory，LSTM)组合而成，将词语编码信息输入双向长短期记忆网络中对每个词语的上下文信息进行建模，建立词语之间的关联，根据词语之间上下文的关联信息对文本数据中每个词语的词性进行识别，得到每个词语的词性标签概率。

204、将每个词语的词性标签概率输入条件随机场层中进行优化，得到每个词语的标签优化概率；

205、根据标签优化概率判断每个词语的最终标签，根据最终标签筛选得到文本数据中的药物实体词语；

将前述步骤中长短期记忆网络输出的词性标签概率作为条件随机场(Conditional Random Field，CRF)层的输入，统计文本数据中每个词语的词性标签概率并根据词语在句子中的连接顺序等信息对词性标签概率进行优化，得到每个词语的优化标签概率，也就是说，输出每个词语最优可能属于的词性的相应概率信息。其中，本实施例中使用的条件随机场(Conditional Random Field，CRF)是一个序列化标注算法(SequenceLabeling Algorithm)，预先根据具有标注的词语训练集训练得到能够标注药物实体词语的条件随机场层。

根据优化标签概率判断每个词语的最终标签，根据最终标签筛选出文本数据中的药物实体词语并对文本中的药物实体词语进行标注。

206、查找出至少包含两种药物实体词语的语句并保存，得到待提取文献中的目标语句；

由于医学文献中包含有药物关系的语句中一定包含有至少两种药物实体词语，故本步骤中根据获取到的药物实体词语，对前述步骤中获取到的文本数据中的语句进行筛选以及查找，将同时包含有至少两种的药物实体词语的语句查找出来并进行保存，得到目标语句。

207、将目标语句输入预置的第一特征提取模型中进行文本特征提取，得到目标语句中药物实体相关的第一特征向量；

208、提取预先建立的药物信息库中的现有药物信息文本，基于现有药物信息文本建立现有药物关系图；

209、将现有药物关系图输入预置的第二特征提取模型进行特征提取，得到现有药物信息相关的第二特征向量。

本实施例中，步骤207、208和209中具体内容与前述实施例中步骤102、103和104中内容基本相同，故在此不再赘述。

本发明实施例中的药物关系提取方法，利用深度学习技术对医学文献中的内容进行语义分析，识别出医学文献中包含有药物实体关系的目标语句，对目标语句进行分析，综合现有药物信息库中的信息，从而提取到医学文献中的药物关系，提高了药物关系提取技术对药物促进关系的提取准确度。

请参阅图3以及图4，本发明实施例中药物关系提取方法的另一个实施例包括：

301、提取待提取文献中的目标语句；

本步骤中具体内容与前述实施例中步骤101中内容基本相同，故在此不再赘述。

302、将目标语句输入向量嵌入层中采用向量对目标语句中的词语进行标注，得到词语标注向量；

303、将词语标注向量输入卷积层中进行特征提取，得到词语标注向量对应的特征向量矩阵；

获取到目标语句后，本实施例中将目标语句输入基于分段卷积神经网络(Piecewise Convolutional Neural Networks，PCNN)建立的第一特征提取模型中进行实体关系抽取，具体地，本实施例中的第一特征提取模型包括向量嵌入层、卷积层以及池化层。

本实施例中，首先调用向量嵌入层对目标语句中的词语进行向量嵌入(VectorRepresentation)得到目标语句的向量表示，其中，向量嵌入(Vector Representation)又称为词嵌入，具体通过神经网络使用向量的形式对词语进行表示，本实施例中具体采用的是word2vec技术对目标语句中的词语进行向量嵌入，得到词语的向量表示，随后将每个目标语句中的药物实体词语在句子中的位置向量进行表示，如附图4所示，将词语的向量表示和位置向量进行组合，得到词语标注向量。

此外，在对目标语句中的词语位置向量进行标注后，根据句子中的药物实***置对句子进行切分，例如，将句子“……我们开展了针对胃癌一次联合用药的药物试验，将卡托普利和二甲双胍用于174位病人……”在药物实***置进行切分，得到“……我们开展了针对胃癌一次联合用药的药物试验，将卡托普利……”、“……卡托普利和二甲双胍……”以及“……二甲双胍用于174位病人……”，同时将词语信息向量也一并进行切分。

进一步的，如附图4所示，在得到词语标注向量后，将输入词语标注向量输入卷积层(Convolution)中进行特征提取，将每个词语标注向量卷积后得到的特征作为矩阵一个列，将得到的所有特征组成特征向量矩阵。

304、将特征向量矩阵输入池化层提取特征向量矩阵中的最大特征，得到第一特征向量；

得到特征向量矩阵后，将特征向量矩阵输入池化层中提取每层中的最大特征，本步骤中的池化层为分段最大池化层(Piecewise Max Pooling)，在进行池化操作时，将每层中的最大值进行返回，而不是直接在整个特征中找最大值，得到含有最大特征的向量，将得到的向量保存为第一特征向量。

305、提取预先建立的药物信息库中的现有药物信息文本，基于现有药物信息文本建立现有药物关系图；

本实施例中步骤305中具体内容与前述实施例中步骤103中内容基本相同，故在此不再赘述。

306、将现有药物关系图输入采样层中对现有药物关系图中的每个节点的近邻序列进行采样，得到节点序列集；

307、将节点序列集输入自然语言处理层中进行向量嵌入，得到每种药物相关的第二特征向量。

本实施例中的第二特征提取模型包括和自然语言处理层，将得到的药物关系图输入基于图卷积神经网络建立的第二特征提取模型中，首先调用第二特征提取模型中的采样层识别药物关系图中的每个节点，随后使用随机游走算法在图中提取若干节点序列，并将节点序列组成药物序列集。随后，调用第二特征提取模型中的自然语言处理层，使用向量对将药物序列集中的每一个节点进行向量表示，得到第二特征向量。

具体地，以Node2vec为例对本步骤中所述的第二特征提取模型进行说明，Node2vec是一种半监督的机器学习算法，它可以用来学习网络图中的关系特征，其思想就是将网络图中的节点信息映射成向量，使得这些代表节点的向量可以充分表示原网络图的信息。

本实施例中调用Node2vec对将上步骤中获取到的药物关系图时，首先建立一个需要优化的目标函数f(u)，该目标函数f(u)为将节点u映射为词向量的映射函数；定义N(u)为通过采样策略S采样出的节点u的近邻节点集合，本步骤中Node2vec的目标是在给定每个节点u条件下使其临近节点出现的概率最大。具体进行随机行走时，使用以广度优先搜索(Breadth First Search，BFS)和深度优先搜索(Depth First Search，DFS)的方式探索邻域进行邻域抽样，得到节点序列集。随后，调用自然语言处理层将得到的节点序列集中的每个节点序列进行处理，将每个节点表示为一个向量，得到代表每个药物节点信息的向量，其中，可以使用word2vec对得到的节点序列集中的每个节点序列进行处理，Word2vec由双层的浅层神经网络组成，可以用来根据每个词语映射词语相对应的向量，以表示词语之间的关系。

308、将第一特征向量与第二特征向量进行组合，得到组合特征向量，基于组合特征向量进行药物实体关系的分类，得到药物促进关系。

本步骤中具体内容与前述实施例中步骤105中基本相同，在此不再赘述。

本发明实施例中的药物关系提取方法，对医学文献中的内容进行语义分析时利用分段卷积神经网络对文献中包含的药物实体关系的第一特征向量进行提取，并根据现有的医学信息药物信息库构建药物之间的关系得到的第二特征向量，综合第一特征向量以及第二特征向量进行药物促进关系的提取，提高了药物关系提取技术对药物促进关系的提取准确度。

请参阅图4以及图5，本发明实施例中药物关系提取方法的另一个实施例包括：

501、获取具有标注的药物促进关系图以及未优化的图卷积提取模型；

502、将具有标注的药物促进关系图组成关系图训练集，调用关系图训练集对未优化的图卷积提取模型进行训练，得到第二特征提取模型；

获取现有的药物信息库中的药物信息，根据已有的药物信息将药物作为无向图中的节点，将具有促进关系的药物之间添加边，基于已有的药物信息获得药物促进关系图。对获取到的药物促进关系图进行拆分与标注，得到多个药物促进关系图，将得到的多个药物促进关系图组成关系图训练集，使用关系图训练集对未优化的图卷积提取模型进行训练，根据训练时的结果与标注进行比较，从而调整未优化的图卷积提取模型中的参数，从而得到第二特征提取模型。

503、调用文字提取算法对待提取的文献中的文字进行识别提取，得到待提取文献的文本数据；

504、将文本数据输入卷积神经网络层中对文本数据中的词语进行编码，得到词语编码信息；

505、将词语编码信息输入双向长短期记忆网络层中，根据文本数据中每个词语的上下文信息，对文本数据中每个词语的词性进行识别，得到每个词语的词性标签概率；

506、将每个词语的词性标签概率输入条件随机场层中进行优化，得到每个词语的标签优化概率；

507、根据标签优化概率判断每个词语的最终标签，根据最终标签筛选得到文本数据中的药物实体词语；

508、查找出至少包含两种药物实体词语的语句并保存，得到待提取文献中的目标语句；

本实施例中步骤503-508中具体内容与前述实施例中步骤201-206中内容基本相同，在此不再赘述。

509、将目标语句输入向量嵌入层中采用向量对目标语句中的词语进行标注，得到词语标注向量；

510、将词语标注向量输入卷积层中进行特征提取，得到词语标注向量对应的特征向量矩阵；

511、将特征向量矩阵输入池化层提取特征向量矩阵中的最大特征，得到第一特征向量；

本实施例中步骤509、510和511中具体内容与前述实施例中步骤302、303和304中内容基本相同，在此不再赘述。

512、提取预先建立的药物信息库中的现有药物信息文本，基于现有药物信息文本建立现有药物关系图；

本实施例中步骤512中具体内容与前述实施例中步骤103中内容基本相同，故在此不再赘述。

513、将现有药物关系图输入采样层中对现有药物关系图中的每个节点的近邻序列进行采样，得到节点序列集；

514、将节点序列集输入自然语言处理层中进行向量嵌入，得到每种药物相关的第二特征向量；

本实施例中步骤513和514中具体内容与前述实施例中步骤306和307中基本相同，在此不再赘述。

515、将第一特征向量与第二特征向量进行组合，得到组合特征向量；

516、调用softmax函数对组合特征向量进行归一化处理，得到药物相关信息概率；

517、基于药物相关信息概率对药物关系进行判断，得到药物关系分类结果，将分类结果为具有药物促进关系的特征向量对应的药物信息进行保存，得到药物促进关系。

预先基于softmax函数建立药物促进关系分类器，softmax是逻辑回归模型在多分类问题上的推广，在多分类问题中，类标签可以取两个以上的值。调用softmax函数对组合特征向量进行归一化处理，计算出药物相关信息概率，也即是计算出两种药物之间处于促进关系的概率。

基于计算得到的药物相关信息概率对药物实体之间的关系进行判断，得出分类结果，将分类结果具有药物促进关系的特征向量对应的药物信息进行保存，同时输出当前具有促进关系的药物之间的促进关系的种类信息，得到抽取完毕的药物关系。

本发明实施例中的药物关系提取方法，利用深度学习技术对医学文献中的内容进行语义分析，识别出医学文献中包含有药物实体关系的目标语句并对目标语句进行分析；并使用基于图卷积网络建立的第二特征提取模型对现有药物信息库中的信息进行提取，从而提取到得到医学文献中的药物关系，提高了药物关系提取技术对药物促进关系的提取准确度。

上面对本发明实施例中药物关系提取方法进行了描述，下面对本发明实施例中药物关系提取装置进行描述，请参阅图6，本发明实施例中药物关系提取装置一个实施例包括：

文献提取模块601，用于提取待提取文献中的目标语句，其中，所述目标语句为至少包含两种药物实体的语句；

第一特征提取模块602，用于将所述目标语句输入预置的第一特征提取模型中进行文本特征提取，得到所述目标语句中药物实体相关的第一特征向量；

关系图建立模块603，用于提取预先建立的药物信息库中的现有药物信息文本，基于所述现有药物信息文本建立现有药物关系图；

第二特征提取模块604，用于将所述现有药物关系图输入预置的第二特征提取模型进行特征提取，得到所述现有药物信息相关的第二特征向量；

促进关系获取模块605，用于将所述第一特征向量与所述第二特征向量进行组合，得到组合特征向量，基于所述组合特征向量提取出所述待提取文献中包含的药物促进关系。

请参阅图7，本发明实施例中药物关系提取装置的另一个实施例包括：

可选的，所述文献提取模块601包括：

文献数据抓取单元6011，用于调用文字提取算法对待提取的文献中的文字进行识别提取，得到所述待提取文献的文本数据；

实体关系提取单元6012，用于将所述文本数据输入预先基于深度学习算法建立的实体提取模型中进行识别，得到所述文本数据中的药物实体词语；

语句查找单元6013，用于查找出至少包含两种所述药物实体词语的语句并保存，得到待提取文献中的目标语句。

可选的，所述实体关系提取单元6012包括：

可选的，所述第一特征提取模块602包括：

向量嵌入单元6021，用于将所述目标语句输入向量嵌入层中采用向量对目标语句中的词语进行标注，得到词语标注向量；

卷积提取单元6022，用于将所述词语标注向量输入卷积层中进行特征提取，得到词语标注向量对应的特征向量矩阵；

池化单元6023，用于将所述特征向量矩阵输入池化层提取所述特征向量矩阵中的最大特征，得到第一特征向量。

可选的，所述第二特征提取模块604包括：

采样单元6041，用于将所述现有药物关系图输入采样层中对所述现有药物关系图中的每个节点的近邻序列进行采样，得到节点序列集；

向量嵌入单元6042，用于将所述节点序列集输入自然语言处理层中进行向量嵌入，得到每种药物相关的第二特征向量。

可选的，所述药物关系提取装置还包括第二特征提取模型构建模块，所述第二特征提取模型构建模块具体用于：

可选的，所述促进关系获取模块605包括：

上面图6和图7从模块化功能实体的角度对本发明实施例中的药物关系提取装置进行详细描述，下面从硬件处理的角度对本发明实施例中药物关系提取设备进行详细描述。

图8是本发明实施例提供的一种药物关系提取设备的结构示意图，该药物关系提取设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对药物关系提取设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在药物关系提取设备800上执行存储介质830中的一系列指令操作。

药物关系提取设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作***831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的药物关系提取设备结构并不构成对药物关系提取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种药物关系提取设备，所述药物关系提取设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述药物关系提取方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述药物关系提取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种药物关系提取方法，其特征在于，所述药物关系提取方法包括：

将所述第一特征向量与所述第二特征向量进行组合，得到组合特征向量，基于所述组合特征向量提取出所述待提取文献中包含的药物促进关系；

所述提取待提取文献中的目标语句包括：

查找出至少包含两种所述药物实体词语的语句并保存，得到待提取文献中的目标语句；

所述实体提取模型包括卷积神经网络层、双向长短期记忆网络层和条件随机场层，所述将所述文本数据输入预先基于深度学习算法建立的实体提取模型中进行识别，得到所述文本数据中的药物实体词语包括：

根据所述标签优化概率判断每个词语的最终标签，根据最终标签筛选得到所述文本数据中的药物实体词语；

所述第一特征提取模型包括向量嵌入层、卷积层和池化层，所述将所述目标语句输入预置的第一特征提取模型中进行文本特征提取，得到所述目标语句中药物实体相关的第一特征向量包括：

将所述特征向量矩阵输入池化层提取所述特征向量矩阵中的最大特征，得到第一特征向量；

所述第二特征提取模型中包括采样层和自然语言处理层，所述将所述现有药物关系图输入预置的第二特征提取模型进行特征提取，得到现有药物信息相关的第二特征向量包括：

2.根据权利要求1所述的药物关系提取方法，其特征在于，在所述提取待提取文献中的目标语句之前，还包括：

3.根据权利要求1或2所述的药物关系提取方法，其特征在于，所述基于所述组合特征向量提取出所述待提取文献中包含的药物促进关系包括：

4.一种药物关系提取装置，其特征在于，所述药物关系提取装置执行如权利要求1至3中任一项所述的药物关系提取方法的步骤，所述药物关系提取装置包括：

5.一种药物关系提取设备，其特征在于，所述药物关系提取设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述一种药物关系提取设备执行如权利要求1-3中任意一项所述的药物关系提取方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-3中任一项所述的一种药物关系提取方法的步骤。