CN105894088B

CN105894088B - 基于深度学习及分布式语义特征医学信息抽取***及方法

Info

Publication number: CN105894088B
Application number: CN201610176409.8A
Authority: CN
Inventors: 吴永辉; 王璟琪
Original assignee: Suzhou Hebta Health Information Technology Co ltd
Current assignee: Digital China Health Technologies Co ltd; Shenzhou Hebote Medical Information Technology Suzhou Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2018-06-29
Anticipated expiration: 2036-03-25
Also published as: CN105894088A

Abstract

本发明公开了基于深度学习及分布式语义特征医学信息抽取***和方法，包含预处理模块、基于语言模型的词向量训练模块、海量医学知识库加强学习模块和基于深度人工神经网络的医学名实体识别模块；通过深度学习方法以生成语言模型的概率为优化目标，使用医学文本大数据训练初级的词向量；基于海量医学知识库，训练第二个深度人工神经网络，通过深度加强学习，把海量知识库结合到深度学习的特征学习过程中，从而获取真对医学领域的分布式语义特征；最后使用基于优化语句级极大似然概率的深度学习方法进行中文医学名实体识别。使用大量未标注语料来生成词向量，从而避免医学自然语言处理中的繁琐的特征选择和调优过程。

Description

基于深度学习及分布式语义特征医学信息抽取***及方法

技术领域

本发明涉及一种基于深度学习及分布式语义特征的医学信息抽取***及其实现方法。

背景技术

广泛使用的健康信息技术导致了电子健康记录(EHR)数据的空前膨胀。电子病历数据不仅已经用于支持临床操作任务(例如，临床决策支持***)，同时也可以支持多种临床研究任务。许多重要的病人信息分散在叙述性医疗文本中，但大部分的计算机应用只能理解结构化数据。因此，可以提取医疗文本中重要的患者信息临床自然语言处理(ClinicalNLP)的技术已被引入到医疗领域，而且在许多应用中都表现出极大的效用。

根据第六届信息理解会议(MUC-6)，旨在识别命名实体边界和类型的命名实体识别(NER)技术，已经成为自然语言处理研究的一个热门且相对成熟的研究方向。在医疗文本处理中，名实体识别(例如，疾病名称，药物名称，检测名称等)同样是最基础的处理步骤之一。许多现有的NLP***使用了基于词典和规则的方法来识别医学概念，比如MEDLEE。MEDLEE是美国哥伦比亚大学开发的医学概念抽取***，也是最早和功能最全面的医疗NLP***之一。MetaMap***是美国国家医学图书馆(National Library of Medicine,NLM)开发的面向生物医学文本的信息提取***。cTAKES是基于非结构化信息管理框架(UIMA)和OpenNLP自然语言处理开源工具包。近年来，医学信息研究机构先后组织了多个名实体识别相关的国际评测。2009年i2b2(the Center of Informatics for Integrating Biologyand the Bedside)组织了专注于药物治疗实体识别任务的评测，2010年，i2b2又组织了专注于症状、治疗和医疗测试实体识别任务的评测。2013年Share/CLEF，2014年及2015年Semantic Evaluation(SemEval)等国际评测专注于识别疾病名实体并将其正则化到UMLS术语库上。在2009年i2b2药物治疗实体识别任务中，大多数参与队伍采用了基于医学词典和人工规则的方法，比如美国Vanderbilt University开发的MedEx***。在2010年的i2b2评测中，主办方提供了一个比较大的标注语料集，因而多个参与队伍以及排名前5的***都使用基于机器学习的识别方法。参赛队伍使用了条件随机场(Conditional RandomFields,CRFs),结构化支持向量机(Structual Support Vector Machines,SSVMs)并探索了大量的特征表示方法。

随着中国电子病历实施的快速增长，目前迫切需要从中国的临床文本中提取重要的患者信息，以加速国内的临床研究。学者们已经开始研究中文临床医疗实体识别任务。厦门大学的王世昆等人采用条件随机场对明清古医案中症状、病机这类实体进行了识别。2004年徐华等人提出了一种中文分词和名实体识别的集成方法，在中文医学文本上同步完成这两个任务并提高各自的准确率。北京大学的雷健波等人较全面地比较了几种常用机器学习算法在使用不同类型的特征时识别现代医学医疗文本中临床医疗实体的性能，比较的算法包括支持向量机、最大熵、条件随机场和结构化支持向量机。综上所述，在中文医学名实体识别任务中，目前的努力主要集中在研究不同的机器学习算法和不同类型的特征组合上。

近年来，基于深度学习(Deep learning)的自然语言处理***取得了长足的发展。这类***使用无监督学习(unsupervised learning)技术从大量未标注文本中学习更有效的特征表示方法。深度学习是机器学习中一个活跃的研究领域，它使用深层神经网络以得到高级别的特征表示方法。在图像处理，语音识别，机器翻译等领域，深度学习都取得了相比于其他方法更优的性能。通过深层神经网络，NLP研究人员不再需要花费大量时间针对特定任务优化特征，转而从大量未标注文本中自动获取有效特征。研究人员还发现，基于深层神经网络的词向量(word embedding)表示不仅可以获取语法级别的特征，还可以获得语义级别的特征，这种特征可以有效的应用在通用英文NLP任务中，取得了明显的效果。例如，Dr.Ronan Collobert开发的基于深层神经网络的NLP***，在词性标注、短语识别、名实体识别、语义角色标注等任务中，都获得了相比于已有***中的最高的准确率。

词向量是目前非常流行的传统词袋(bag of words)特征表示方法的替代途径，将每一个词映射成为一个浮点数组成的数组。浮点数组的表示方法相比于传统途径可以保存更多的语义信息。传统方法使用基于排序的词向量生成方法。该方法认定所有在语料中自然出现的顺序为正例。比如，当取词窗口(window size)为5时，以下词序列视为一个正例：

X＝{w_L2,w_L1,w₀,w_R1,w_R2}

其中，W0是当前词，WL2，WL1是当前词左侧临近词，WR1，WR2是当前词右侧临近词。在运行词向量生成算法时，算法随机选择一个词替换W0以构成一个负例样本，即：

X^*＝{w_L2,w_L1,w^*,w_R1,w_R2}

而后词向量生成算法将优化以下排序准则，使其最小：

MAX{0，1-DNN(X)+DNN(X^*)}

同时，传统的深层神经网络采用随机梯度下降算法，应用以下公式更新参数集合：

θ＝θ-λΔ_θ

其中，λ是学习比率，而Δ_θ是梯度。

传统基于神经网络的词向量训练方法，通常使用基于语言模型的优化目标函数。在词向量的训练过程中，通过不断最大化合理文字序列在神器网络模型中的出现概率，进而调整神经网络的参数，通过后向传递的方式，逐渐修改训练中的向量，最终得到一个最大化合理文本序列的词向量。这中训练方法虽然可以通过优化语言模型的概率来获得一个合理的词向量，但是忽略了已有知识库的作用。由于通用领域的多样性，目前还没有一个通用的知识库能过涵盖各个领域的已有知识。因此，无法把领域知识用于词向量的训练过程。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种基于深度学习及分布式语义特征的医学信息抽取***及其实现方法。

本发明的目的通过以下技术方案来实现：

基于深度学习及分布式语义特征医学信息抽取***，特点是：包含预处理模块、基于语言模型的词向量训练模块、海量医学知识库加强学习模块以及基于深度人工神经网络的医学名实体识别模块，所述预处理模块，用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成下一模块词向量训练使用的字表，字表是所有文本中出现的文字的列表；

所述基于语言模型的词向量训练模块，读取预处理过的医疗文本，根据预订的窗口，生成正例；同时，使用随机替换正例中心字的方式生成负例，通过训练一个深度神经网络，以优化语言模型的概率作为优化目标，生成初级词向量；

所述海量医学知识库加强学习模块，以初级词向量为出发点，使用另外一个深度神经网络，通过优化医学知识库的预测概率，对初级词向量进行加强学习，从而生成医学领域的分布式语义特征；

所述基于深度人工神经网络的医学名实体识别模块，使用海量医学知识库加强学习模块中训练的医学领域的分布式语义特征表示，训练一个医学名实体识别的深度神经网络，识别医学文本中重要的名实体。

进一步地，上述的基于深度学习及分布式语义特征医学信息抽取***，所述预处理模块包含非法字符过滤模块、中文编码统一模块以及字表生成模块，

所述非法字符过滤模块，以字符为单位遍历文本，移出其中无效非可见字符；

所述中文编码统一模块，根据设置确定输入文本的中文字符编码方式；

所述字表生成模块，以unicode字符为单位，生成字表，表中字在后续词向量生成过程中，被映射为浮点数形式的词向量。

更进一步地，上述的基于深度学习及分布式语义特征医学信息抽取***，所述基于语言模型的词向量训练模块包含正负例生成模块、词向量深度神经网络模块以及网络优化及训练误差监控模块，所述正负例生成模块，用于读取输入语句，根据预设的窗口，生成正例，同时，采用随机替换正例的中心词方法，生成相应负例；

所述词向量深度神经网络模块，将生成的正例负例输入网络，计算概率，并根据正负例的概率调整网络；

所述网络优化及训练误差监控模块，针对全局，优化语言模型的概率，并控制训练过程中的误差，达到训练设置的终止条件时，终止训练，保存模型。

更进一步地，上述的基于深度学习及分布式语义特征医学信息抽取***，所述海量医学知识库加强学习模块包含知识库标准化模块、加强学习深度神经网络模块以及网络优化和误差监控模块，所述知识库标准化模块，标准化知识库中实体的表示；

所述加强学习深度神经网络模块，将知识库中的实体作为输入，使用初级词向量作为特征，在加强学习网络中预测，并根据预测值与知识库真实值的情况，加强初级词向量；

所述网络优化和误差监控模块，针对全局，优化语言模型的概率，并控制训练过程中的误差，达到训练设置的终止条件时，终止训练，保存模型。

更进一步地，上述的基于深度学习及分布式语义特征医学信息抽取***，所述基于深度人工神经网络的医学名实体识别模块包含医学名实体深度神经网络模块以及语句级极大似然优化及溢出控制模块，所述医学名实体深度神经网络模块，读取输入的语句，使用分布式意义特征进行特征表示，并输入名实体识别网络，根据小规模的标注语料训练识别各种医学名实体的识别网络；

所述语句级极大似然优化及溢出控制模块，针对深度神经网络模型训练中出现的溢出错误，进行近似计算。

更进一步地，上述的基于深度学习及分布式语义特征医学信息抽取***，所述语句级极大似然优化及溢出控制模块采用极大似然算法，避免模型训练中由于计算机浮点数表达范围受限而导致模型训练失败，其算法为：

首先，对所有输入x_i找到最大的输入x_max＝MAX(x_i)；

然后，按照以下方式进行变换：

以避免目标函数优化过程中的浮点溢出问题，提高鲁棒性和模型的精度。

更进一步地，上述的基于深度学习及分布式语义特征医学信息抽取***，采用基于深层神经网络的名实体识别算法，深层神经网络包含一个卷积层、一个基于HardTanh函数的非线性变换层和多个线性层；

计算每一个词的分类类别分数时，取目标词的一个特定的窗口尺寸范围内的上下文词被作为输入；对于邻近句子开头或句子结束的词，采用一个伪填充字以保证所有词的输入向量为固定长度；在输入窗口中的每个词可被映射到N维向量，N是词向量维数；然后，卷积层产生对应于隐藏节点的全局化特征；最后，局部特征和全局特征一并送入一个标准的放射网络以使用反向传播算法进行训练；其中，损失函数定义为以下语句级对数似然：

其中,S(X，T)是标签序列T被赋予输入X时的句子级似然得分；H(T_t-1,T_t)标签T_t-1到标签T_t全局转移分数；DNN(X_t,T_t)标签T_t被赋予输入X_t时的深层神经网络得分。

本发明基于深度学习及分布式语义特征医学信息抽取方法，包括以下步骤：

采用随机替换输入正例的中心词生成负例；

基于语言模型优化的深度神经网络训练初级词向量；

采用医学知识库大数据进行深度加强学习，获取针对医学领域的分布式语义表示；

基于优化语句级极大似然估计概率的深层神经网络的中文医学名实体识别；

预防深度神经网络模型溢出的近似算法；

通过深度加强学习，将海量中文医学知识库结合到非监督学习的过程。

再进一步地，上述的基于深度学习及分布式语义特征医学信息抽取方法，由预处理模块对医学大数据进行去噪，编码统一，以及生成字表；由基于语言模型的词向量训练模块读取医疗文本，使用预先定义的窗口长度，将输入语句分割为多个输入窗口的正例，同时，通过随机替换中心词的的方法生成相应负例，正例和负例在一个词向量训练人工神经网络中不断经过网络概率预测和挑战网络参数的循环，最终有最大化语言模型训练出初级词向量；由海量医学知识库加强学习模块使用初级词向量进行初始化，并使用初级词向量预测海量知识库中的词条，通过不断的加强学习，调整初级词向量，最终得到面向医学领域的分布式语义特征表示；由基于深度人工神经网络的医学名实体识别模块读取新人工标注的少量语料，使用分布式语义特征描述把输入语句转化为分布式的特征描述，并预测词条的标注，通过不断的调整网络系数，实现基于深度学习和分布式语义特征的医学名实体识别。

再进一步地，上述的基于深度学习及分布式语义特征医学信息抽取方法，基于语言模型的词向量训练模块中的正负例生成模块使用随机替换正例中心词的方式生成负例；词向量深度神经网络模块通过正负例学习训练初级词向量，网络优化及训练误差监控模块进行模型优化，监控网络训练误差及判断训练终止条件；

海量医学知识库加强学习模块中，知识库标准化模块读取医学知识库词条，标准化知识库描述；加强学习深度神经网络模块读取标准化的条目，通过对比网络预测与真实知识库标记，产生错误信号，通过加强学习，把初级词向量训练为面向医学领域的分布式语义特征；

基于深度人工神经网络的医学名实体识别模块中，医学名实体深度神经网络模块使用少量人工标注的语录，通过语句级极大似然优化及溢出控制模块训练能够精确识别医学名实体的网络，并进行有效的模型训练溢出控制。

本发明技术方案突出的实质性特点和显著的进步主要体现在：

①基于神经网络和医疗文本大数据的无监督特征学习，极大减轻了人工特征选择的负担；无监督特征学习不需要大量的人工标注，避免了耗时的大量人工标注过程；

②基于医学文本大数据的无监督特征学习，提高了模型中特征的覆盖率，相比传统方法在召回率上有较大提升；

③使用大量未标注语料来生成词向量，从而避免医学自然语言处理中的繁琐的特征选择和调优过程；充分利用医学领域现有的海量知识库，把现有知识通过加强学习结合到深度学习算法中,从而有效提高***性能；

④针对医学文本利用基于深层神经网络的医学名实体识别算法,在中文医疗文本标注语料集上进行评估，取得了比传统的基于序列标注的方法更高的性能。

附图说明

图1：本发明***的架构原理示意图；

图2：深层神经网络的结构示意图。

具体实施方式

本发明通过深度学习方法以生成语言模型的概率为优化目标，使用医学文本大数据训练初级的词向量；基于海量医学知识库，训练第二个深度人工神经网络，通过深度加强学习，把海量知识库结合到深度学习的特征学习过程中，从而获取真对医学领域的分布式语义特征；最后使用基于优化语句级极大似然概率的深度学习方法进行中文医学名实体识别。

如图1所示，基于深度学习及分布式语义特征医学信息抽取***，包含预处理模块1、基于语言模型的词向量训练模块2、海量医学知识库加强学习模块3以及基于深度人工神经网络的医学名实体识别模块4，预处理模块1，用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成下一模块词向量训练使用的字表，字表是所有文本中出现的文字的列表；

基于语言模型的词向量训练模块2，读取预处理过的医疗文本，根据预订的窗口，生成正例；同时，使用随机替换正例中心字的方式生成负例，通过训练一个深度神经网络，以优化语言模型的概率作为优化目标，生成初级词向量；

海量医学知识库加强学习模块3，以初级词向量为出发点，使用另外一个深度神经网络，通过优化医学知识库的预测概率，对初级词向量进行加强学习，从而生成医学领域的分布式语义特征；

基于深度人工神经网络的医学名实体识别模块4，使用海量医学知识库加强学习模块3中训练的医学领域的分布式语义特征表示，训练一个医学名实体识别的深度神经网络，识别医学文本中重要的名实体。

其中，预处理模块1包含非法字符过滤模块101、中文编码统一模块102以及字表生成模块103，

非法字符过滤模块101，以字符为单位遍历文本，移出其中无效非可见字符，包括ascii码表中的控制字符0x0-0x1F；

中文编码统一模块102，根据设置确定输入文本的中文字符编码方式；如输入文本为GBK编码，则将其转换为UTF-8编码，后续***将读取utf-8形式编码，并在后续***内存中统一使用unicode；

字表生成模块103，以unicode字符为单位，生成字表，表中字在后续词向量生成过程中，被映射为浮点数形式的词向量。

基于语言模型的词向量训练模块2包含正负例生成模块201、词向量深度神经网络模块202以及网络优化及训练误差监控模块203，所述正负例生成模块201，用于读取输入语句，根据预设的窗口，生成正例，同时，采用随机替换正例的中心词方法，生成相应负例；

词向量深度神经网络模块202，将生成的正例负例输入网络，计算概率，并根据正负例的概率调整网络；

络优化及训练误差监控模块203，针对全局，优化语言模型的概率，并控制训练过程中的误差，达到训练设置的终止条件时，终止训练，保存模型。

海量医学知识库加强学习模块3包含知识库标准化模块301、加强学习深度神经网络模块302以及网络优化和误差监控模块303，所述知识库标准化模块301，标准化知识库中实体的表示；

加强学习深度神经网络模块302，将知识库中的实体作为输入，使用初级词向量作为特征，在加强学习网络中预测，并根据预测值与知识库真实值的情况，加强初级词向量；

网络优化和误差监控模块303，针对全局，优化语言模型的概率，并控制训练过程中的误差，达到训练设置的终止条件时，终止训练，保存模型。

基于深度人工神经网络的医学名实体识别模块4包含医学名实体深度神经网络模块401以及语句级极大似然优化及溢出控制模块402，医学名实体深度神经网络模块401，读取输入的语句，使用分布式意义特征进行特征表示，并输入名实体识别网络，根据小规模的标注语料训练识别各种医学名实体的识别网络；

语句级极大似然优化及溢出控制模块402，针对深度神经网络模型训练中出现的溢出错误，进行近似计算。

语句级极大似然优化及溢出控制模块402采用极大似然算法，避免模型训练中由于计算机浮点数表达范围受限而导致模型训练失败，其算法为：

首先，对所有输入x_i找到最大的输入x_max＝MAX(x_i)；

然后，按照以下方式进行变换：

采用基于深层神经网络的名实体识别算法，深层神经网络包含一个卷积层、一个基于HardTanh函数的非线性变换层和多个线性层，如图2所示，这种结构因性能良好而被广泛用于多种NLP任务。

采用随机替换输入正例的中心词生成负例；

基于语言模型优化的深度神经网络训练初级词向量；

有效预防深度神经网络模型溢出的近似算法；

其中，由预处理模块1对医学大数据进行去噪，编码统一，以及生成字表；基于语言模型的词向量训练模块2读取医疗文本，使用预先定义的窗口长度，将输入语句分割为多个输入窗口的正例，同时，通过随机替换中心词的的方法生成相应负例，正例和负例在一个词向量训练人工神经网络中不断经过网络概率预测和挑战网络参数的循环，最终有最大化语言模型训练出初级词向量；海量医学知识库加强学习模块3使用初级词向量进行初始化，并使用初级词向量预测海量知识库中的词条，通过不断的加强学习，调整初级词向量，最终得到面向医学领域的分布式语义特征表示；基于深度人工神经网络的医学名实体识别模块4读取新人工标注的少量语料，使用分布式语义特征描述把输入语句转化为分布式的特征描述，并预测词条的标注，通过不断的调整网络系数，实现基于深度学习和分布式语义特征的医学名实体识别。

基于语言模型的词向量训练模块2中的正负例生成模块201使用随机替换正例中心词的方式生成负例；词向量深度神经网络模块202通过正负例学习训练初级词向量，网络优化及训练误差监控模块203进行模型优化，监控网络训练误差及判断训练终止条件；

海量医学知识库加强学习模块3中，知识库标准化模块301读取医学知识库词条，标准化知识库描述；加强学习深度神经网络模块302读取标准化的条目，通过对比网络预测与真实知识库标记，产生错误信号，通过加强学习，把初级词向量训练为面向医学领域的分布式语义特征；

基于深度人工神经网络的医学名实体识别模块4中，医学名实体深度神经网络模块401使用少量人工标注的语录，通过语句级极大似然优化及溢出控制模块402训练能够精确识别医学名实体的网络，并进行有效的模型训练溢出控制。

作为一个专业性极强的领域，医学领域有着标准化极高，涵盖很广泛的知识库。开发一种创新性的两步训练方法。在第一步中，使用基于优化语言模型概率的方法得到中间词向量；在第二步训练中，从第一步的词向量出发，设计一神经网络来通过优化已有医学知识库来进一步训练已有的词向量。第二步训练使用大规模的医学知识库作为监督指导，进一步优化词向量的医学语意表示，极大的优化词向量矩阵对医学医学语意表达的能力，使得到的词向量能够更加准确的描述医学知识。医学词向量关键技术区别于其他通用词向量技术。

中文医学知识是对词向量进行正确导向的重要资源。整理目前医学领域的一些通用医学知识库，如包含常见药物相关信息的中华药典、中文的诊断用语集合、ICD10、以及医学诊断用语辞典LOINC中文版等。通过整理已有的医学术语库，获得一个包含广泛使用的医学术语的基本知识库。

由于中文医学研究的起步较晚，中文的医学知识库相对有限。整理国外广泛使用的30个常用医学知识库，收集200多万条相关的医学词条，并在多名领域专家的帮助下，将英文的医学术语翻译为中文。

已有医学术知识库的一个问题是覆盖率不足。医学领域的相关研究证明，已有的医学知识库大概只能涵盖医学领域常用术语的60％左右。由于时间的延后，很多新的术语和知识不能够及时更新到术语库中。因此，开发医学信息抽取***，在大规模的中文医学文本中抽取大量的临床广泛使用的医学术语。在计算机算法的辅助下，对抽取的医学术语进行甄别，纠错已经和已有知识库的合并等；最后，构建一个以已有中文医学知识库为基础，国际多种常用医疗术语库为补充，并增加了在临床中经常使用，但是未被涵盖的医疗术语的全面的医学领域知识库。

医学知识导向的词向量优化方法，收集并整理一个包含三百多万词条的全面的中文医学领域知识库。知识库涵盖医学领域常见的术语，包括：药物名称、疾病名称、检测结果、手术操作、治疗手段、不良反应等。设计一个深度神经网络，使用知识库，对上一阶段训练的词向量进行定向优化。

优化神将网络的输入层是医学术语对应的词向量。输入层读取上一阶段根据优化语言模型训练的词向量，作为医学术语对应的输入向量。对每一个术语，神经网络计算属于每个医学类别(上述6中类别)的概率，然后通过优化医学术语类别的预测概率，对词向量进行定向优化。神经网络的结构如下：

1)输入层，使用现有词向量，将输入的医学术语转换为输入向量；

2)卷积层，将输入向量通过卷积转换，映射到定长的中间层(300个隐含节点)；

3)线性变换层，通过线性变换层，将卷积后的中间层映射到第一层隐含层(500个隐含节点)；

4)非线性变换层，使用HardTan函数，将输入映射到第二层隐含层(500个隐含节点)；

5)线性变换层，根据第二层隐含层的输入，映射到最终的输出层节点(6个)；

根据输出层的概率，以及真实的医学术语类别，计算相应的错误信号，通过后向传播算法调整整个神经网络参数，并最终调整相应的词向量。

训练方式，在模型训练过程中，从未标注训练语料集中抽取5分之一作为验证集合。在参数选择上，设置学习比率(learning rate)0.01，词向量纬度为50，隐藏层节点数目设置为100(我们测试了隐藏节点数从50到150的所有可能，100取得了最好的效果，100以上已无明显提高)，取词窗口设置为5。所有深层神经网络参数应用随机梯度下降算法及反向传播算法(back propagation)更新。对于中文医学文本，未使用分词技术，而是将单个汉字作一个独立的词，生成词向量。

词向量中不仅包含了语法信息，更包含了语义信息。在得到了词向量之后，对每一个词，使用余弦相似度(cosine similarity)计算了与其相似度最高的词汇。在下边的例子中，第一列显示了与“一”相似度最高的其他词汇。可以看到，其主要由数字和数量词组成。第三列中，主要包含人体器官相关的医学名词。

一	左	肢	喉
				三	右	颌	颠
二	双	肺	局
				半	两	臂	鼻
0	上	壁	窦
				两	并	述	腔
数	有	午	睑
				有	前	显	峡
较	枕	颈	脚
				美	下	臀	涕

综上所述，本发明提出了一种基于深度学习及分布式语义特征的方法来识别医疗文本中的6种重要信息，包括：药物、检测、疾病、手术操作、治疗手段以及不良反应等信息。与传统条件随机场(CRF)模型相比，本发明的特点在于:1)使用大量未标注语料来生成词向量，从而避免医学自然语言处理中的繁琐的特征选择和调优过程；2)充分利用医学领域现有的海量知识库，把现有知识通过加强学习结合到深度学习算法中,从而有效提高***性能；3)针对医学文本利用基于深层神经网络的医学名实体识别算法,在中文医疗文本标注语料集上进行评估，取得了比传统的基于序列标注的方法更高的性能。

需要理解到的是：以上所述仅是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于深度学习及分布式语义特征医学信息抽取***，其特征在于：包含预处理模块(1)、基于语言模型的词向量训练模块(2)、海量医学知识库加强学习模块(3)以及基于深度人工神经网络的医学名实体识别模块(4)，所述预处理模块(1)，用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成下一模块词向量训练使用的字表，字表是所有文本中出现的文字的列表；

所述基于语言模型的词向量训练模块(2)，读取预处理过的医疗文本，根据预订的窗口，生成正例；同时，使用随机替换正例中心字的方式生成负例，通过训练一个深度神经网络，以优化语言模型的概率作为优化目标，生成初级词向量；

所述海量医学知识库加强学习模块(3)，以初级词向量为出发点，使用另外一个深度神经网络，通过优化医学知识库的预测概率，对初级词向量进行加强学习，从而生成医学领域的分布式语义特征；

所述基于深度人工神经网络的医学名实体识别模块(4)，使用海量医学知识库加强学习模块(3)中训练的医学领域的分布式语义特征表示，训练一个医学名实体识别的深度神经网络，识别医学文本中重要的名实体。

2.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***，其特征在于：所述预处理模块(1)包含非法字符过滤模块(101)、中文编码统一模块(102)以及字表生成模块(103)，

所述非法字符过滤模块(101)，以字符为单位遍历文本，移出其中无效非可见字符；

所述中文编码统一模块(102)，根据设置确定输入文本的中文字符编码方式；

所述字表生成模块(103)，以unicode字符为单位，生成字表，表中字在后续词向量生成过程中，被映射为浮点数形式的词向量。

3.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***，其特征在于：所述基于语言模型的词向量训练模块(2)包含正负例生成模块(201)、词向量深度神经网络模块(202)以及网络优化及训练误差监控模块(203)，所述正负例生成模块(201)，用于读取输入语句，根据预设的窗口，生成正例，同时，采用随机替换正例的中心词方法，生成相应负例；

所述词向量深度神经网络模块(202)，将生成的正例负例输入网络，计算概率，并根据正负例的概率调整网络；

所述网络优化及训练误差监控模块(203)，针对全局，优化语言模型的概率，并控制训练过程中的误差，达到训练设置的终止条件时，终止训练，保存模型。

4.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***，其特征在于：所述海量医学知识库加强学习模块(3)包含知识库标准化模块(301)、加强学习深度神经网络模块(302)以及网络优化和误差监控模块(303)，所述知识库标准化模块(301)，标准化知识库中实体的表示；

所述加强学习深度神经网络模块(302)，将知识库中的实体作为输入，使用初级词向量作为特征，在加强学习网络中预测，并根据预测值与知识库真实值的情况，加强初级词向量；

所述网络优化和误差监控模块(303)，针对全局，优化语言模型的概率，并控制训练过程中的误差，达到训练设置的终止条件时，终止训练，保存模型。

5.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***，其特征在于：所述基于深度人工神经网络的医学名实体识别模块(4)包含医学名实体深度神经网络模块(401)以及语句级极大似然优化及溢出控制模块(402)，所述医学名实体深度神经网络模块(401)，读取输入的语句，使用分布式意义特征进行特征表示，并输入名实体识别网络，根据小规模的标注语料训练识别各种医学名实体的识别网络；

所述语句级极大似然优化及溢出控制模块(402)，针对深度神经网络模型训练中出现的溢出错误，进行近似计算。

6.根据权利要求5所述的基于深度学习及分布式语义特征医学信息抽取***，其特征在于：所述语句级极大似然优化及溢出控制模块(402)采用极大似然算法，避免模型训练中由于计算机浮点数表达范围受限而导致模型训练失败，其算法为：

首先，对所有输入x_i找到最大的输入x_max＝MAX(x_i)；

然后，按照以下方式进行变换：

7.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***，其特征在于：采用基于深层神经网络的名实体识别算法，深层神经网络包含一个卷积层、一个基于HardTanh函数的非线性变换层和多个线性层；

其中,S(X,T)是标签序列T被赋予输入X时的句子级似然得分；H(T_t-1,T_t)标签T_t-1到标签T_t全局转移分数；DNN(X_t,T_t)标签T_t被赋予输入X_t时的深层神经网络得分。

8.一种用于实现权利要求1所述的***的基于深度学习及分布式语义特征医学信息抽取方法，其特征在于包括以下步骤：

采用随机替换输入正例的中心词生成负例；

基于语言模型优化的深度神经网络训练初级词向量；

预防深度神经网络模型溢出的近似算法；

9.根据权利要求8所述的基于深度学习及分布式语义特征医学信息抽取方法，其特征在于：由预处理模块(1)对医学大数据进行去噪，编码统一，以及生成字表；由基于语言模型的词向量训练模块(2)读取医疗文本，使用预先定义的窗口长度，将输入语句分割为多个输入窗口的正例，同时，通过随机替换中心词的的方法生成相应负例，正例和负例在一个词向量训练人工神经网络中不断经过网络概率预测和挑战网络参数的循环，最终有最大化语言模型训练出初级词向量；由海量医学知识库加强学习模块(3)使用初级词向量进行初始化，并使用初级词向量预测海量知识库中的词条，通过不断的加强学习，调整初级词向量，最终得到面向医学领域的分布式语义特征表示；由基于深度人工神经网络的医学名实体识别模块(4)读取新人工标注的少量语料，使用分布式语义特征描述把输入语句转化为分布式的特征描述，并预测词条的标注，通过不断的调整网络系数，实现基于深度学习和分布式语义特征的医学名实体识别。

10.根据权利要求9所述的基于深度学习及分布式语义特征医学信息抽取方法，其特征在于：基于语言模型的词向量训练模块(2)中的正负例生成模块(201)使用随机替换正例中心词的方式生成负例；词向量深度神经网络模块(202)通过正负例学习训练初级词向量，网络优化及训练误差监控模块(203)进行模型优化，监控网络训练误差及判断训练终止条件；

海量医学知识库加强学习模块(3)中，知识库标准化模块(301)读取医学知识库词条，标准化知识库描述；加强学习深度神经网络模块(302)读取标准化的条目，通过对比网络预测与真实知识库标记，产生错误信号，通过加强学习，把初级词向量训练为面向医学领域的分布式语义特征；

基于深度人工神经网络的医学名实体识别模块(4)中，医学名实体深度神经网络模块(401)使用少量人工标注的语录，通过语句级极大似然优化及溢出控制模块(402)训练精确识别医学名实体的网络，并进行模型训练溢出控制。