CN113658688A

CN113658688A - 基于无分词深度学习的临床决策支持方法

Info

Publication number: CN113658688A
Application number: CN202110965560.0A
Authority: CN
Inventors: 王一
Original assignee: Shanghai Quyuan Technology Service Co ltd
Current assignee: Shanghai Quyuan Technology Service Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-16
Anticipated expiration: 2041-08-23
Also published as: CN113658688B

Abstract

本发明属于医疗信息化技术领域，具体为一种基于深度学习的临床决策支持方法。本发明中采用不基于分词的中文语义适配技术，即在原有基于单词的深度学习技术框架不变的前提下，无需分词即可适应中文，还可导入已知的词向量，实现较为理想的中文语义适配；具体包括：由历史病历库导入已诊断的病历数据；对已病历数据进行特征提取，提取全体k‑字符短语以生成短语包，作为训练样本；将训练样本输入多层前馈神经网络进行端对端训练，生成临床决策支持模型；导入待诊断的病历数据，输出诊断建议结果。本发明临床诊断准确率高，鲁棒性强，可获得性强，泛化能力强，能够快速实现综合、专科、全科、急诊的多类型、多层次的临床决策支持需求。

Description

基于无分词深度学习的临床决策支持方法

技术领域

本发明属于医疗信息化技术领域，具体涉及一种基于深度学习的临床决策支持方法。

背景技术

随着我国健康医疗大数据规划的推进，医院的病历***已进入信息时代，在医院内部积攒了海量的电子病历数据，其中包含了患者在医院诊断中的详细记录，包括症状表现、诊断结果、治疗措施及预后情况等，对于其他医生诊治同类病人具有很高的参考价值。而当前公立三甲医院就诊人数数量庞大，医生每天需要接诊大量具有相似症状的病人，当接诊人数过多时，容易出现医生工作效率低、甚至误诊率变高等问题。

现有临床决策支持的商业化软件产品，主要是通过NLP技术对病历、检查检验报告进行语义识别与内容结构化，然后通过基于规则的专家***进行比对，根据比对结果的一致性输出辅助诊断结果。该类型的产品的缺陷主要由两方面：（1）目前基于NLP技术的语意识别准确率一般，特别是在病历中大量存在专业术语、符号，以及与常规文本不一致的表达习惯的场景下，语意识别准确率较低，进而影响最终输出的辅助诊断结果准确率较低；（2）最终用于推理的是基于规则的专家***的依据是各种疾病（综合性医院常见疾病>3000种）的指南、规范、专家共识，这些指导性文件在持续更新中。在实际应用场景下，需要保证持续投入大量的研发人员、医疗专家进行***的更新升级，成本相对更高。

近年来深度学习发展迅速，在语音识别、图像识别、自然语言处理等领域都取得了巨大的成就。使用深度学习的方法来对病历数据进行关联规则的挖掘、分类、回归等操作，生成辅助诊断应用，能够帮助没有经验的医生做出诊断，或帮助医生在疾病诊治过程中做出更好的决策。

对中文电子病历利用深度学习开发临床决策支持***的相关研究仍处于起步阶段，尤其对于多特征多类别医学数据集，尚有诸多技术难题有待解决。具体来说有以下几点：

（1）使用深度学习进行机器训练时，常规方法是先基于语义对待处理文本进行分词操作，才能作为输入项进入后续模型处理；而这种分词操作存在有难以处理生词，分词方法不唯一，难以处理非中文字符混杂情况等问题，都会对后续模型运算构成影响，造成数据拟合度不高、泛化性差等情况；

（2）基于固定字典提取词义的方法对数据标准化程度要求高，无法应对处理在现实场景下多来源、质量不一的非标准化数据，适应性能较差；

（3）不同科室的病例种类繁多且差别较大，面对多科室多病种的现实情况，所涉及各项特征存在诸多复杂交互作用，若只针对整体病历中的某些局部特征进行分析，难免有挂一漏万之嫌。

发明内容

本发明的目的在于提供一种诊断准确率高、泛化能力强、鲁棒性好的临床决策支持方法。

本发明提供的临床决策支持方法，主要实现以下两个目标：

（1）输入病历、检查检验报告，经过模型推理，能够输出多个诊断提示（每个诊断提示均包含病种以及该病种对应的患病概率值）为医生提供临床决策支持；

（2）通过医生诊断结果与模型诊断提示的比对，对医生、科室、医疗机构的诊断质量与诊断能力进行量化评估。

本发明提供的临床决策支持方法，是基于无分词深度学习技术的，其中特别提出一种不基于分词的中文语义适配技术，在原有基于单词的深度学习技术框架基本不变的前提下，无需分词即可适应中文，同时在可能的情况下还可以导入已知的词向量，从而实现较为理想的中文语义适配。

本发明提供的基于无分词深度学习的临床决策支持方法，具体步骤如下：

S1、由历史病历库导入已诊断的病历数据；

S2、对已诊断的病历数据进行特征提取，提取全体k-字符短语以生成短语包，作为训练样本；

或者，对生成的短语包进一步进行词向量转换，作为训练样本；

S3、将训练样本输入多层前馈神经网络，进行端对端训练，生成临床决策支持模型；

S4、导入待诊断的病历数据，对待诊断的病历数据执行与步骤S2相同的特征提取处理后，将生成的短语包输入步骤S3生成的临床决策支持模型，输出诊断建议结果。

步骤S2中所述的k-字符短语由以下规则确定：

将已诊断的病历数据所包含的文本设为T，T中共包含n个字符，以w_i表示T中的第i个字符，其中1≤i≤n，自w_i起始的k-字符短语为自w_i起始的连续k个字符，即：w_iw_i+ ₁...w_i+k-1，其中k为小于等于n的正整数，若w_i靠近T的尾部导致无法提取某一长度的k-字符短语，则放弃该k-字符短语；

所述短语包包含全体k-字符短语，所述全体k-字符短语包括：自w₁起始的全体k-字符短语，自w₂起始的全体k-字符短语，自w₃起始的全体k-字符短语，依次类推，直至自w_n起始的全体k-字符短语；

所述文本中包含的字符，可以是中文字符，也可以是非中文字符。

优选的，k小于等于10，或9，或8，或7，或6，或5。

更优选的，k小于等于4，当k小于等于4时，所提取的即包括1-字符短语，2-字符短语，3-字符短语，4-字符短语。

进一步地，步骤S1中所述的已诊断的病历数据，包括从医院的医疗信息管理***提取已诊断的电子病历；对已诊断的电子病历进行去结构化，删掉个人敏感信息等信息，得到电子病历的纯文本内容，并将每个诊断结论相关的原始数据合成一个独立文本集。

进一步地，步骤S2中所述的词向量转换方法，具体为：

对于短语包中包含的每一个k-字符短语，查询词向量数据库，如果找到该单词，则将该k-字符短语的词向量设置为已知词向量，否则将该k-字符短语的词向量随机初始化为均值为0，标准差为0.1的正态分布。

进一步地，步骤S3中，所述多层前馈神经网络，分为输入层、隐藏层、输出层，其中：

所述输入层，其输入对象是前一步骤生成的短语包；

所述隐藏层，其层数和每层的隐藏单元可根据实际情况确定；

所述隐藏层，由至少1个连接的隐藏层组成，每个层包含至少64个隐藏单元；

优选的，由至少2个连接的隐藏层组成；更优的，由至少3个连接的隐藏层组成；

优选的，每个层包含至少128个隐藏单元；较优的，包含至少256个隐藏单元；更优的，包含至少512个隐藏单元；

隐藏层通过训练样本短语包中的逐条向量赋予不同的权重按进行加权计算，并加上一个偏置项，通过激活函数输出一个特征h_i，即h_i＝f(w×X_i:j+b_i)，其中w为权重，f为非线性函数，b_i为偏置；

所述输出层，利用分类器对病历中提取特征进行分类，获取已诊断的或待诊断的病历的各个病症的患病概率。

步骤S3具体包括以下子步骤：

S31、将训练样本输入多层前馈神经网络进行端对端学习；

S32、将S31的结果输入多分类输出层，输出诊断建议结果；

S33、将S32输出的结果与病历记录的原始诊断结果进行比对，通过反向传播算法，对错误的S32结果进行修正；

S34、训练期间，将保留5％的训练样本以监视训练过程，将子步骤S33进行循环，当保留的样本上的损失停止改善时，循环停止，完成临床决策支持模型训练。

进一步地，步骤S4中所述的诊断建议结果包含病种以及该病种对应的患病概率值。

本发明中的深度学习模型采取多层前馈神经网络，而非目前更常用的卷积神经网络，可以更好地反映出多因素多症状的复杂交互作用，而不像卷积神经网络只能提取局部症状。

本发明的技术优势在于实现了模型训练的全机器化，由于未采用常规的语义分词和特征提取的技术路径，使得产品的准确性、鲁棒性和泛化能力都更强，研发的成本更低，具体来说有以下几点：

（1）临床诊断准确率高，诊断结果绝对准确率>95%；

（2）鲁棒性强，对软硬件环境、数据治理水平要求低，能够快速适应指南规范与诊疗路径的变化；

（3）可获得性强，实施周期短、投入小，应用门槛低，适合基层医疗结构与互联网医疗场景；

（4）泛化能力强，能够快速实现综合、专科、全科、急诊的多类型、多层次的临床决策支持需求。

本发明尤其适用于儿科等疾病的辅助诊断。由于我国儿科医生的配比率低，造成儿科医生的接诊任务繁重，同时由于儿童的体质的特殊性，诊断时需慎之又慎，造成儿科医生的工作压力极大。本发明具有高效的诊断速率与精确的匹配度，能为医生提供有效的辅助诊断，极大程度避免误诊，减轻医生的工作压力。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解。

图1为本发明一实施例的基于无分词深度学习的临床决策支持方法的流程示意图。

图2为本发明一实施例的基于无分词深度学习的临床决策支持方法的深度学习训练过程的流程示意图。

图3为本发明又一实施例的基于无分词深度学习的临床决策支持方法的流程示意图。

具体实施方式

下面通过具体实施例进一步描述本发明，但不能理解为对本发明的限制。

在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，该程序在执行时包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

本发明中所述的病历是病人在医院诊断治疗全过程的原始记录，它包含有科室、病人年龄、性别、主诉、病史、病程记录、诊断结果、检查检验结果、医嘱、手术记录、护理记录等等。电子病历不仅指静态病历信息，还包括提供的相关服务，是以电子化方式管理的有关个人终生健康状态和医疗保健行为的信息，涉及病人信息的采集、存储、传输、处理和利用的所有过程信息。

实施例1，提供了一种临床决策支持方法，如图1所示，具体步骤为：

S1. 由历史病历库导入已诊断的病历数据。

举例来说，已诊断的病历数据可以是从医院的医疗信息管理***提取过去几年的各科室主要病症的电子病历。在获取到海量的已诊断的电子病历之后，对已诊断的电子病历进行去结构化，删掉个人敏感信息等信息，得到电子病历的纯文本内容。

导入过程已诊断的病历数据后，将其中每个诊断结论相关的原始数据合成一个独立文本集。

S2.对已诊断的病历数据进行特征提取，提取全体k-字符短语以生成短语包，作为训练样本。

其中，k-字符短语由以下规则确定：

将已诊断的病历数据所包含的文本设为T，T中共包含n个字符，以w_i表示T中的第i个字符，其中1≤i≤n，自w_i起始的k-字符短语为自w_i起始的连续k个字符，即：w_iw_i+ ₁...w_i+k-1，其中k为小于等于n的正整数，若w_i靠近T的尾部导致无法提取某一长度的k-字符短语，则放弃该k-字符短语。

短语包包含全体k-字符短语，所述全体k-字符短语包括：自w₁起始的全体k-字符短语，自w₂起始的全体k-字符短语，自w₃起始的全体k-字符短语，依次类推，直至自w_n起始的全体k-字符短语。

本实施例中使用k ≤ 4，即，本步骤中进行特征提取的是全体1-字符短语，全体2-字符短语，全体3-字符短语和全体4-字符短语生成短语包，作为训练样本。

S3. 将训练样本输入多层前馈神经网络进行端对端训练，生成临床决策支持模型。

所述深度学习模型采取多层前馈神经网络，而非目前更常见的卷积神经网络，可以更好地反映出多因素多症状的复杂交互作用，而不像卷积神经网络只能提取局部症状。

多层前馈神经网络，分为输入层、隐藏层、输出层。

其中，输入层的输入对象是前一步骤生成的短语包。

其中，隐藏层的层数和每层的隐藏单元可根据实际情况确定。隐藏层通过训练样本短语包中的逐条短语或向量赋予不同的权重按进行加权计算，并加上一个偏置项，通过激活函数输出一个特征h_i，即h_i＝f(w×X_i:j+b_i)，其中w为权重，f为非线性函数，例如：双曲正切函数(tanh)、Sigmoid函数、ReLU函数等，b_i为偏置。

其中，输出层利用分类器对病历中提取特征进行分类，获取已诊断的或待诊断的病历的各个病症的患病概率。

具体地，以分类器为softmax分类器为例，前馈多层神经网络模型的全连接层可以连接softmax分类器，softmax分类器对前馈多层神经网络模型的特征向量进行分类，得到各个病症的患病概率：

；

其中，p_i表示已诊断的电子病历的第i个病症的患病概率，y_i表示y的第i个元素，即电子病历中第i个病症的得分。

深度学习训练过程如图2所示，具体训练过程如下：

（1）将特征提取并转换词向量后的训练样本输入多层前馈神经网络，该神经网络由3个连接的隐藏层组成，每个层包含512个隐藏单元，进入全连接层执行深度学习训练过程；

（2）将隐藏层输出的结果输入多分类输出层（softmax层），输出诊断建议结果；

（3）将前一步骤输出的诊断建议结果与病历记录的原始诊断结果进行比对，通过反向传播算法，对错误结果进行修正；

（4）训练期间，将保留5％的训练样本以监视训练过程，将步骤进行循环，当保留的样本上的损失停止改善时，循环停止，完成临床决策支持模型训练。

随机梯度下降用于训练神经网络。以50％的速率对网络进行正规化处理，以减少输入。

利用预设算法对已诊断的电子病历的各个病症的患病概率和已诊断的电子病历对应的医生诊断结果进行分析，根据分析结果修正深度卷积神经网络模型的参数和分类器的参数。

具体地，在训练过程中，通过诸如反向传播（Back Propagation，BP）算法等预设算法更新深度卷积神经网络模型的参数和分类器的参数。

例如，整个网络的输出的损失函数表示为：

需要说明的是，整个网络可以理解为从前馈多层神经网络模型和分类器组成的网络。其中，P_T表示分类器的输出结果，每一个P_T元素表示训练产出的所患病症的患病概率。训练过程通过BP算法最小化LOSS函数，直到网络收敛，LOSS不再下降，此时训练完成，保留整个网络中所有参数。

S4. 导入待诊断的病历数据，对待诊断的病历数据执行与步骤S2相同的特征提取处理后，将生成的短语包输入步骤S3生成的临床决策支持模型，输出诊断建议结果，诊断建议结果包含病种以及该病种对应的患病概率值。

实施例2，提供又一种临床决策支持方法，如图3所示。通过加入词向量数据库对训练样本进行优化，可进一步提高效率。

词向量数据库保存了海量的医疗词汇对应的词向量，同时还保存了医疗词汇和词向量的对应关系。在获取到待诊断病历的各个医疗词汇之后，基于医疗词汇和词向量的对应关系可以高效地在预设词向量数据库中查询到进行待诊断病历的医疗词汇对应的词向量。

目前有许多可从网络公开获得的中文词向量数据库，如：腾讯AI Lab公布的中文词向量数据库或Github上的中文词向量数据库（https://github.com/Embedding/Chinese-Word-Vectors），都可以用于本发明。

本发明所使用的词向量数据库还可以通过以下方法构建获得。

通过获取医疗词库中的各个医疗词汇；将医疗词库中的医疗词汇输入到预先建立的Word2Vec模型中，获取医疗词汇对应的词向量；将与医疗词汇对应的词向量形成词向量样本，将词向量样本保存在预设词向量数据库中。由于医疗词库收录了海量的医疗词汇，相应地，所建立的预设词向量数据库的存储了海量的医疗词汇对应的词向量，进而有利于整个***的高效运行。此外，利用Word2Vec模型可高效地获取到医疗词汇对应的词向量。

本发明对所可采用的词向量数据库不作任何限定。

具体的，在前一实施例的步骤S2之后，加入以下步骤：

S21. 对由步骤S2已诊断的病历数据的获得短语包进行词向量转换，作为训练样本。

本实施例中所使用的词向量转换方法具体如下：

其他步骤与实施例1相同，不再赘述。

实施例3，使用以上实施例的方法，基于上海某大学附属儿科医院（国家儿童医学中心）提供的726万份门急诊病历，将其作为训练集构建临床决策支持***并进行模型训练。完成模型训练后，再以该院所有科室某月的全部门诊病历共计13万份（覆盖7213个病种）作为待诊断病历集，对完成训练的模型进行测试，最终诊断结果一致率达到93.6%，与医生诊断的单盲比对后发现算法准确度优于三甲医院平均水平。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于无分词深度学习的临床决策支持方法，其特征在于，具体步骤如下：

S1、由历史病历库导入已诊断的病历数据；

其中，所述的k-字符短语由以下规则确定：

将已诊断的病历数据所包含的文本设为T，T中共包含n个字符，以w_i表示T中的第i个字符，其中1≤i≤n，自w_i起始的k-字符短语为自w_i起始的连续k个字符，即：w_iw_i+1...w_i+k-1，其中k为小于等于n的正整数，若w_i靠近T的尾部导致无法提取某一长度的k-字符短语，则放弃该k-字符短语；

2.根据权利要求1所述的临床决策支持方法，其特征在于，步骤S2中所述文本中包含的字符为中文字符，或者为非中文字符；

其中，k小于等于10，或小于等于9，或小于等于8，或小于等于7，或小于等于6，或小于等于5，或小于等于4。

3.根据权利要求2所述的临床决策支持方法，其特征在于，步骤S1中所述的已诊断的病历数据，包括从医院的医疗信息管理***提取已诊断的电子病历；对已诊断的电子病历进行去结构化，删掉个人敏感信息等信息，得到电子病历的纯文本内容；并将其中每个诊断结论相关的原始数据合成一个独立文本集。

4.根据权利要求2所述的临床决策支持方法，其特征在于，步骤S2中所述的词向量转换方法，具体为：

5.根据权利要求1-4之一所述的临床决策支持方法，其特征在于，步骤S3中所述多层前馈神经网络分为输入层、隐藏层、输出层，其中：

所述输入层，其输入对象是前一步骤生成的短语包；

6.根据权利要求5所述的临床决策支持方法，其特征在于，步骤S3中所述的隐藏层，由至少2个连接的隐藏层组成；或者由至少3个连接的隐藏层组成；

每个层包含至少128个隐藏单元；或者包含至少256个隐藏单元；或者包含至少512个隐藏单元。

7.根据权利要求6所述的临床决策支持方法，其特征在于，步骤S3中所述的隐藏层通过训练样本短语包中的逐条短语或向量赋予不同的权重进行加权计算，并加上一个偏置项，通过激活函数输出一个特征h_i，即h_i＝f(w×X_i:j+b_i)，其中w为权重，f为非线性函数，b_i为偏置。

8.根据权利要求7所述的临床决策支持方法，其特征在于，步骤S3具体包括以下子步骤：

S31、将训练样本输入多层前馈神经网络进行端对端学习；

S32、将S31的结果输入多分类输出层，输出诊断建议结果；

9.根据权利要求1-8之一所述的临床决策支持方法，其特征在于，步骤S4中所述的诊断建议结果包含病种以及该病种对应的患病概率值。