CN105894088B - 基于深度学习及分布式语义特征医学信息抽取***及方法 - Google Patents

基于深度学习及分布式语义特征医学信息抽取***及方法 Download PDF

Info

Publication number
CN105894088B
CN105894088B CN201610176409.8A CN201610176409A CN105894088B CN 105894088 B CN105894088 B CN 105894088B CN 201610176409 A CN201610176409 A CN 201610176409A CN 105894088 B CN105894088 B CN 105894088B
Authority
CN
China
Prior art keywords
module
training
network
term vector
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610176409.8A
Other languages
English (en)
Other versions
CN105894088A (zh
Inventor
吴永辉
王璟琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital China Health Technologies Co ltd
Shenzhou Hebote Medical Information Technology Suzhou Co Ltd
Original Assignee
Suzhou Hebta Health Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Hebta Health Information Technology Co ltd filed Critical Suzhou Hebta Health Information Technology Co ltd
Priority to CN201610176409.8A priority Critical patent/CN105894088B/zh
Publication of CN105894088A publication Critical patent/CN105894088A/zh
Application granted granted Critical
Publication of CN105894088B publication Critical patent/CN105894088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于深度学习及分布式语义特征医学信息抽取***和方法,包含预处理模块、基于语言模型的词向量训练模块、海量医学知识库加强学习模块和基于深度人工神经网络的医学名实体识别模块;通过深度学习方法以生成语言模型的概率为优化目标,使用医学文本大数据训练初级的词向量;基于海量医学知识库,训练第二个深度人工神经网络,通过深度加强学习,把海量知识库结合到深度学习的特征学习过程中,从而获取真对医学领域的分布式语义特征;最后使用基于优化语句级极大似然概率的深度学习方法进行中文医学名实体识别。使用大量未标注语料来生成词向量,从而避免医学自然语言处理中的繁琐的特征选择和调优过程。

Description

基于深度学习及分布式语义特征医学信息抽取***及方法
技术领域
本发明涉及一种基于深度学习及分布式语义特征的医学信息抽取***及其实现方法。
背景技术
广泛使用的健康信息技术导致了电子健康记录(EHR)数据的空前膨胀。电子病历数据不仅已经用于支持临床操作任务(例如,临床决策支持***),同时也可以支持多种临床研究任务。许多重要的病人信息分散在叙述性医疗文本中,但大部分的计算机应用只能理解结构化数据。因此,可以提取医疗文本中重要的患者信息临床自然语言处理(ClinicalNLP)的技术已被引入到医疗领域,而且在许多应用中都表现出极大的效用。
根据第六届信息理解会议(MUC-6),旨在识别命名实体边界和类型的命名实体识别(NER)技术,已经成为自然语言处理研究的一个热门且相对成熟的研究方向。在医疗文本处理中,名实体识别(例如,疾病名称,药物名称,检测名称等)同样是最基础的处理步骤之一。许多现有的NLP***使用了基于词典和规则的方法来识别医学概念,比如MEDLEE。MEDLEE是美国哥伦比亚大学开发的医学概念抽取***,也是最早和功能最全面的医疗NLP***之一。MetaMap***是美国国家医学图书馆(National Library of Medicine,NLM)开发的面向生物医学文本的信息提取***。cTAKES是基于非结构化信息管理框架(UIMA)和OpenNLP自然语言处理开源工具包。近年来,医学信息研究机构先后组织了多个名实体识别相关的国际评测。2009年i2b2(the Center of Informatics for Integrating Biologyand the Bedside)组织了专注于药物治疗实体识别任务的评测,2010年,i2b2又组织了专注于症状、治疗和医疗测试实体识别任务的评测。2013年Share/CLEF,2014年及2015年Semantic Evaluation(SemEval)等国际评测专注于识别疾病名实体并将其正则化到UMLS术语库上。在2009年i2b2药物治疗实体识别任务中,大多数参与队伍采用了基于医学词典和人工规则的方法,比如美国Vanderbilt University开发的MedEx***。在2010年的i2b2评测中,主办方提供了一个比较大的标注语料集,因而多个参与队伍以及排名前5的***都使用基于机器学习的识别方法。参赛队伍使用了条件随机场(Conditional RandomFields,CRFs),结构化支持向量机(Structual Support Vector Machines,SSVMs)并探索了大量的特征表示方法。
随着中国电子病历实施的快速增长,目前迫切需要从中国的临床文本中提取重要的患者信息,以加速国内的临床研究。学者们已经开始研究中文临床医疗实体识别任务。厦门大学的王世昆等人采用条件随机场对明清古医案中症状、病机这类实体进行了识别。2004年徐华等人提出了一种中文分词和名实体识别的集成方法,在中文医学文本上同步完成这两个任务并提高各自的准确率。北京大学的雷健波等人较全面地比较了几种常用机器学习算法在使用不同类型的特征时识别现代医学医疗文本中临床医疗实体的性能,比较的算法包括支持向量机、最大熵、条件随机场和结构化支持向量机。综上所述,在中文医学名实体识别任务中,目前的努力主要集中在研究不同的机器学习算法和不同类型的特征组合上。
近年来,基于深度学习(Deep learning)的自然语言处理***取得了长足的发展。这类***使用无监督学习(unsupervised learning)技术从大量未标注文本中学习更有效的特征表示方法。深度学习是机器学习中一个活跃的研究领域,它使用深层神经网络以得到高级别的特征表示方法。在图像处理,语音识别,机器翻译等领域,深度学习都取得了相比于其他方法更优的性能。通过深层神经网络,NLP研究人员不再需要花费大量时间针对特定任务优化特征,转而从大量未标注文本中自动获取有效特征。研究人员还发现,基于深层神经网络的词向量(word embedding)表示不仅可以获取语法级别的特征,还可以获得语义级别的特征,这种特征可以有效的应用在通用英文NLP任务中,取得了明显的效果。例如,Dr.Ronan Collobert开发的基于深层神经网络的NLP***,在词性标注、短语识别、名实体识别、语义角色标注等任务中,都获得了相比于已有***中的最高的准确率。
词向量是目前非常流行的传统词袋(bag of words)特征表示方法的替代途径,将每一个词映射成为一个浮点数组成的数组。浮点数组的表示方法相比于传统途径可以保存更多的语义信息。传统方法使用基于排序的词向量生成方法。该方法认定所有在语料中自然出现的顺序为正例。比如,当取词窗口(window size)为5时,以下词序列视为一个正例:
X={wL2,wL1,w0,wR1,wR2}
其中,W0是当前词,WL2,WL1是当前词左侧临近词,WR1,WR2是当前词右侧临近词。在运行词向量生成算法时,算法随机选择一个词替换W0以构成一个负例样本,即:
X*={wL2,wL1,w*,wR1,wR2}
而后词向量生成算法将优化以下排序准则,使其最小:
MAX{0,1-DNN(X)+DNN(X*)}
同时,传统的深层神经网络采用随机梯度下降算法,应用以下公式更新参数集合:
θ=θ-λΔθ
其中,λ是学习比率,而Δθ是梯度。
传统基于神经网络的词向量训练方法,通常使用基于语言模型的优化目标函数。在词向量的训练过程中,通过不断最大化合理文字序列在神器网络模型中的出现概率,进而调整神经网络的参数,通过后向传递的方式,逐渐修改训练中的向量,最终得到一个最大化合理文本序列的词向量。这中训练方法虽然可以通过优化语言模型的概率来获得一个合理的词向量,但是忽略了已有知识库的作用。由于通用领域的多样性,目前还没有一个通用的知识库能过涵盖各个领域的已有知识。因此,无法把领域知识用于词向量的训练过程。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种基于深度学习及分布式语义特征的医学信息抽取***及其实现方法。
本发明的目的通过以下技术方案来实现:
基于深度学习及分布式语义特征医学信息抽取***,特点是:包含预处理模块、基于语言模型的词向量训练模块、海量医学知识库加强学习模块以及基于深度人工神经网络的医学名实体识别模块,所述预处理模块,用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成下一模块词向量训练使用的字表,字表是所有文本中出现的文字的列表;
所述基于语言模型的词向量训练模块,读取预处理过的医疗文本,根据预订的窗口,生成正例;同时,使用随机替换正例中心字的方式生成负例,通过训练一个深度神经网络,以优化语言模型的概率作为优化目标,生成初级词向量;
所述海量医学知识库加强学习模块,以初级词向量为出发点,使用另外一个深度神经网络,通过优化医学知识库的预测概率,对初级词向量进行加强学习,从而生成医学领域的分布式语义特征;
所述基于深度人工神经网络的医学名实体识别模块,使用海量医学知识库加强学习模块中训练的医学领域的分布式语义特征表示,训练一个医学名实体识别的深度神经网络,识别医学文本中重要的名实体。
进一步地,上述的基于深度学习及分布式语义特征医学信息抽取***,所述预处理模块包含非法字符过滤模块、中文编码统一模块以及字表生成模块,
所述非法字符过滤模块,以字符为单位遍历文本,移出其中无效非可见字符;
所述中文编码统一模块,根据设置确定输入文本的中文字符编码方式;
所述字表生成模块,以unicode字符为单位,生成字表,表中字在后续词向量生成过程中,被映射为浮点数形式的词向量。
更进一步地,上述的基于深度学习及分布式语义特征医学信息抽取***,所述基于语言模型的词向量训练模块包含正负例生成模块、词向量深度神经网络模块以及网络优化及训练误差监控模块,所述正负例生成模块,用于读取输入语句,根据预设的窗口,生成正例,同时,采用随机替换正例的中心词方法,生成相应负例;
所述词向量深度神经网络模块,将生成的正例负例输入网络,计算概率,并根据正负例的概率调整网络;
所述网络优化及训练误差监控模块,针对全局,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,保存模型。
更进一步地,上述的基于深度学习及分布式语义特征医学信息抽取***,所述海量医学知识库加强学习模块包含知识库标准化模块、加强学习深度神经网络模块以及网络优化和误差监控模块,所述知识库标准化模块,标准化知识库中实体的表示;
所述加强学习深度神经网络模块,将知识库中的实体作为输入,使用初级词向量作为特征,在加强学习网络中预测,并根据预测值与知识库真实值的情况,加强初级词向量;
所述网络优化和误差监控模块,针对全局,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,保存模型。
更进一步地,上述的基于深度学习及分布式语义特征医学信息抽取***,所述基于深度人工神经网络的医学名实体识别模块包含医学名实体深度神经网络模块以及语句级极大似然优化及溢出控制模块,所述医学名实体深度神经网络模块,读取输入的语句,使用分布式意义特征进行特征表示,并输入名实体识别网络,根据小规模的标注语料训练识别各种医学名实体的识别网络;
所述语句级极大似然优化及溢出控制模块,针对深度神经网络模型训练中出现的溢出错误,进行近似计算。
更进一步地,上述的基于深度学习及分布式语义特征医学信息抽取***,所述语句级极大似然优化及溢出控制模块采用极大似然算法,避免模型训练中由于计算机浮点数表达范围受限而导致模型训练失败,其算法为:
首先,对所有输入xi找到最大的输入xmax=MAX(xi);
然后,按照以下方式进行变换:
以避免目标函数优化过程中的浮点溢出问题,提高鲁棒性和模型的精度。
更进一步地,上述的基于深度学习及分布式语义特征医学信息抽取***,采用基于深层神经网络的名实体识别算法,深层神经网络包含一个卷积层、一个基于HardTanh函数的非线性变换层和多个线性层;
计算每一个词的分类类别分数时,取目标词的一个特定的窗口尺寸范围内的上下文词被作为输入;对于邻近句子开头或句子结束的词,采用一个伪填充字以保证所有词的输入向量为固定长度;在输入窗口中的每个词可被映射到N维向量,N是词向量维数;然后,卷积层产生对应于隐藏节点的全局化特征;最后,局部特征和全局特征一并送入一个标准的放射网络以使用反向传播算法进行训练;其中,损失函数定义为以下语句级对数似然:
其中,S(X,T)是标签序列T被赋予输入X时的句子级似然得分;H(Tt-1,Tt)标签Tt-1到标签Tt全局转移分数;DNN(Xt,Tt)标签Tt被赋予输入Xt时的深层神经网络得分。
本发明基于深度学习及分布式语义特征医学信息抽取方法,包括以下步骤:
采用随机替换输入正例的中心词生成负例;
基于语言模型优化的深度神经网络训练初级词向量;
采用医学知识库大数据进行深度加强学习,获取针对医学领域的分布式语义表示;
基于优化语句级极大似然估计概率的深层神经网络的中文医学名实体识别;
预防深度神经网络模型溢出的近似算法;
通过深度加强学习,将海量中文医学知识库结合到非监督学习的过程。
再进一步地,上述的基于深度学习及分布式语义特征医学信息抽取方法,由预处理模块对医学大数据进行去噪,编码统一,以及生成字表;由基于语言模型的词向量训练模块读取医疗文本,使用预先定义的窗口长度,将输入语句分割为多个输入窗口的正例,同时,通过随机替换中心词的的方法生成相应负例,正例和负例在一个词向量训练人工神经网络中不断经过网络概率预测和挑战网络参数的循环,最终有最大化语言模型训练出初级词向量;由海量医学知识库加强学习模块使用初级词向量进行初始化,并使用初级词向量预测海量知识库中的词条,通过不断的加强学习,调整初级词向量,最终得到面向医学领域的分布式语义特征表示;由基于深度人工神经网络的医学名实体识别模块读取新人工标注的少量语料,使用分布式语义特征描述把输入语句转化为分布式的特征描述,并预测词条的标注,通过不断的调整网络系数,实现基于深度学习和分布式语义特征的医学名实体识别。
再进一步地,上述的基于深度学习及分布式语义特征医学信息抽取方法,基于语言模型的词向量训练模块中的正负例生成模块使用随机替换正例中心词的方式生成负例;词向量深度神经网络模块通过正负例学习训练初级词向量,网络优化及训练误差监控模块进行模型优化,监控网络训练误差及判断训练终止条件;
海量医学知识库加强学习模块中,知识库标准化模块读取医学知识库词条,标准化知识库描述;加强学习深度神经网络模块读取标准化的条目,通过对比网络预测与真实知识库标记,产生错误信号,通过加强学习,把初级词向量训练为面向医学领域的分布式语义特征;
基于深度人工神经网络的医学名实体识别模块中,医学名实体深度神经网络模块使用少量人工标注的语录,通过语句级极大似然优化及溢出控制模块训练能够精确识别医学名实体的网络,并进行有效的模型训练溢出控制。
本发明技术方案突出的实质性特点和显著的进步主要体现在:
①基于神经网络和医疗文本大数据的无监督特征学习,极大减轻了人工特征选择的负担;无监督特征学习不需要大量的人工标注,避免了耗时的大量人工标注过程;
②基于医学文本大数据的无监督特征学习,提高了模型中特征的覆盖率,相比传统方法在召回率上有较大提升;
③使用大量未标注语料来生成词向量,从而避免医学自然语言处理中的繁琐的特征选择和调优过程;充分利用医学领域现有的海量知识库,把现有知识通过加强学习结合到深度学习算法中,从而有效提高***性能;
④针对医学文本利用基于深层神经网络的医学名实体识别算法,在中文医疗文本标注语料集上进行评估,取得了比传统的基于序列标注的方法更高的性能。
附图说明
图1:本发明***的架构原理示意图;
图2:深层神经网络的结构示意图。
具体实施方式
本发明通过深度学习方法以生成语言模型的概率为优化目标,使用医学文本大数据训练初级的词向量;基于海量医学知识库,训练第二个深度人工神经网络,通过深度加强学习,把海量知识库结合到深度学习的特征学习过程中,从而获取真对医学领域的分布式语义特征;最后使用基于优化语句级极大似然概率的深度学习方法进行中文医学名实体识别。
如图1所示,基于深度学习及分布式语义特征医学信息抽取***,包含预处理模块1、基于语言模型的词向量训练模块2、海量医学知识库加强学习模块3以及基于深度人工神经网络的医学名实体识别模块4,预处理模块1,用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成下一模块词向量训练使用的字表,字表是所有文本中出现的文字的列表;
基于语言模型的词向量训练模块2,读取预处理过的医疗文本,根据预订的窗口,生成正例;同时,使用随机替换正例中心字的方式生成负例,通过训练一个深度神经网络,以优化语言模型的概率作为优化目标,生成初级词向量;
海量医学知识库加强学习模块3,以初级词向量为出发点,使用另外一个深度神经网络,通过优化医学知识库的预测概率,对初级词向量进行加强学习,从而生成医学领域的分布式语义特征;
基于深度人工神经网络的医学名实体识别模块4,使用海量医学知识库加强学习模块3中训练的医学领域的分布式语义特征表示,训练一个医学名实体识别的深度神经网络,识别医学文本中重要的名实体。
其中,预处理模块1包含非法字符过滤模块101、中文编码统一模块102以及字表生成模块103,
非法字符过滤模块101,以字符为单位遍历文本,移出其中无效非可见字符,包括ascii码表中的控制字符0x0-0x1F;
中文编码统一模块102,根据设置确定输入文本的中文字符编码方式;如输入文本为GBK编码,则将其转换为UTF-8编码,后续***将读取utf-8形式编码,并在后续***内存中统一使用unicode;
字表生成模块103,以unicode字符为单位,生成字表,表中字在后续词向量生成过程中,被映射为浮点数形式的词向量。
基于语言模型的词向量训练模块2包含正负例生成模块201、词向量深度神经网络模块202以及网络优化及训练误差监控模块203,所述正负例生成模块201,用于读取输入语句,根据预设的窗口,生成正例,同时,采用随机替换正例的中心词方法,生成相应负例;
词向量深度神经网络模块202,将生成的正例负例输入网络,计算概率,并根据正负例的概率调整网络;
络优化及训练误差监控模块203,针对全局,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,保存模型。
海量医学知识库加强学习模块3包含知识库标准化模块301、加强学习深度神经网络模块302以及网络优化和误差监控模块303,所述知识库标准化模块301,标准化知识库中实体的表示;
加强学习深度神经网络模块302,将知识库中的实体作为输入,使用初级词向量作为特征,在加强学习网络中预测,并根据预测值与知识库真实值的情况,加强初级词向量;
网络优化和误差监控模块303,针对全局,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,保存模型。
基于深度人工神经网络的医学名实体识别模块4包含医学名实体深度神经网络模块401以及语句级极大似然优化及溢出控制模块402,医学名实体深度神经网络模块401,读取输入的语句,使用分布式意义特征进行特征表示,并输入名实体识别网络,根据小规模的标注语料训练识别各种医学名实体的识别网络;
语句级极大似然优化及溢出控制模块402,针对深度神经网络模型训练中出现的溢出错误,进行近似计算。
语句级极大似然优化及溢出控制模块402采用极大似然算法,避免模型训练中由于计算机浮点数表达范围受限而导致模型训练失败,其算法为:
首先,对所有输入xi找到最大的输入xmax=MAX(xi);
然后,按照以下方式进行变换:
以避免目标函数优化过程中的浮点溢出问题,提高鲁棒性和模型的精度。
采用基于深层神经网络的名实体识别算法,深层神经网络包含一个卷积层、一个基于HardTanh函数的非线性变换层和多个线性层,如图2所示,这种结构因性能良好而被广泛用于多种NLP任务。
计算每一个词的分类类别分数时,取目标词的一个特定的窗口尺寸范围内的上下文词被作为输入;对于邻近句子开头或句子结束的词,采用一个伪填充字以保证所有词的输入向量为固定长度;在输入窗口中的每个词可被映射到N维向量,N是词向量维数;然后,卷积层产生对应于隐藏节点的全局化特征;最后,局部特征和全局特征一并送入一个标准的放射网络以使用反向传播算法进行训练;其中,损失函数定义为以下语句级对数似然:
其中,S(X,T)是标签序列T被赋予输入X时的句子级似然得分;H(Tt-1,Tt)标签Tt-1到标签Tt全局转移分数;DNN(Xt,Tt)标签Tt被赋予输入Xt时的深层神经网络得分。
本发明基于深度学习及分布式语义特征医学信息抽取方法,包括以下步骤:
采用随机替换输入正例的中心词生成负例;
基于语言模型优化的深度神经网络训练初级词向量;
采用医学知识库大数据进行深度加强学习,获取针对医学领域的分布式语义表示;
基于优化语句级极大似然估计概率的深层神经网络的中文医学名实体识别;
有效预防深度神经网络模型溢出的近似算法;
通过深度加强学习,将海量中文医学知识库结合到非监督学习的过程。
其中,由预处理模块1对医学大数据进行去噪,编码统一,以及生成字表;基于语言模型的词向量训练模块2读取医疗文本,使用预先定义的窗口长度,将输入语句分割为多个输入窗口的正例,同时,通过随机替换中心词的的方法生成相应负例,正例和负例在一个词向量训练人工神经网络中不断经过网络概率预测和挑战网络参数的循环,最终有最大化语言模型训练出初级词向量;海量医学知识库加强学习模块3使用初级词向量进行初始化,并使用初级词向量预测海量知识库中的词条,通过不断的加强学习,调整初级词向量,最终得到面向医学领域的分布式语义特征表示;基于深度人工神经网络的医学名实体识别模块4读取新人工标注的少量语料,使用分布式语义特征描述把输入语句转化为分布式的特征描述,并预测词条的标注,通过不断的调整网络系数,实现基于深度学习和分布式语义特征的医学名实体识别。
基于语言模型的词向量训练模块2中的正负例生成模块201使用随机替换正例中心词的方式生成负例;词向量深度神经网络模块202通过正负例学习训练初级词向量,网络优化及训练误差监控模块203进行模型优化,监控网络训练误差及判断训练终止条件;
海量医学知识库加强学习模块3中,知识库标准化模块301读取医学知识库词条,标准化知识库描述;加强学习深度神经网络模块302读取标准化的条目,通过对比网络预测与真实知识库标记,产生错误信号,通过加强学习,把初级词向量训练为面向医学领域的分布式语义特征;
基于深度人工神经网络的医学名实体识别模块4中,医学名实体深度神经网络模块401使用少量人工标注的语录,通过语句级极大似然优化及溢出控制模块402训练能够精确识别医学名实体的网络,并进行有效的模型训练溢出控制。
作为一个专业性极强的领域,医学领域有着标准化极高,涵盖很广泛的知识库。开发一种创新性的两步训练方法。在第一步中,使用基于优化语言模型概率的方法得到中间词向量;在第二步训练中,从第一步的词向量出发,设计一神经网络来通过优化已有医学知识库来进一步训练已有的词向量。第二步训练使用大规模的医学知识库作为监督指导,进一步优化词向量的医学语意表示,极大的优化词向量矩阵对医学医学语意表达的能力,使得到的词向量能够更加准确的描述医学知识。医学词向量关键技术区别于其他通用词向量技术。
中文医学知识是对词向量进行正确导向的重要资源。整理目前医学领域的一些通用医学知识库,如包含常见药物相关信息的中华药典、中文的诊断用语集合、ICD10、以及医学诊断用语辞典LOINC中文版等。通过整理已有的医学术语库,获得一个包含广泛使用的医学术语的基本知识库。
由于中文医学研究的起步较晚,中文的医学知识库相对有限。整理国外广泛使用的30个常用医学知识库,收集200多万条相关的医学词条,并在多名领域专家的帮助下,将英文的医学术语翻译为中文。
已有医学术知识库的一个问题是覆盖率不足。医学领域的相关研究证明,已有的医学知识库大概只能涵盖医学领域常用术语的60%左右。由于时间的延后,很多新的术语和知识不能够及时更新到术语库中。因此,开发医学信息抽取***,在大规模的中文医学文本中抽取大量的临床广泛使用的医学术语。在计算机算法的辅助下,对抽取的医学术语进行甄别,纠错已经和已有知识库的合并等;最后,构建一个以已有中文医学知识库为基础,国际多种常用医疗术语库为补充,并增加了在临床中经常使用,但是未被涵盖的医疗术语的全面的医学领域知识库。
医学知识导向的词向量优化方法,收集并整理一个包含三百多万词条的全面的中文医学领域知识库。知识库涵盖医学领域常见的术语,包括:药物名称、疾病名称、检测结果、手术操作、治疗手段、不良反应等。设计一个深度神经网络,使用知识库,对上一阶段训练的词向量进行定向优化。
优化神将网络的输入层是医学术语对应的词向量。输入层读取上一阶段根据优化语言模型训练的词向量,作为医学术语对应的输入向量。对每一个术语,神经网络计算属于每个医学类别(上述6中类别)的概率,然后通过优化医学术语类别的预测概率,对词向量进行定向优化。神经网络的结构如下:
1)输入层,使用现有词向量,将输入的医学术语转换为输入向量;
2)卷积层,将输入向量通过卷积转换,映射到定长的中间层(300个隐含节点);
3)线性变换层,通过线性变换层,将卷积后的中间层映射到第一层隐含层(500个隐含节点);
4)非线性变换层,使用HardTan函数,将输入映射到第二层隐含层(500个隐含节点);
5)线性变换层,根据第二层隐含层的输入,映射到最终的输出层节点(6个);
根据输出层的概率,以及真实的医学术语类别,计算相应的错误信号,通过后向传播算法调整整个神经网络参数,并最终调整相应的词向量。
训练方式,在模型训练过程中,从未标注训练语料集中抽取5分之一作为验证集合。在参数选择上,设置学习比率(learning rate)0.01,词向量纬度为50,隐藏层节点数目设置为100(我们测试了隐藏节点数从50到150的所有可能,100取得了最好的效果,100以上已无明显提高),取词窗口设置为5。所有深层神经网络参数应用随机梯度下降算法及反向传播算法(back propagation)更新。对于中文医学文本,未使用分词技术,而是将单个汉字作一个独立的词,生成词向量。
词向量中不仅包含了语法信息,更包含了语义信息。在得到了词向量之后,对每一个词,使用余弦相似度(cosine similarity)计算了与其相似度最高的词汇。在下边的例子中,第一列显示了与“一”相似度最高的其他词汇。可以看到,其主要由数字和数量词组成。第三列中,主要包含人体器官相关的医学名词。
0
综上所述,本发明提出了一种基于深度学习及分布式语义特征的方法来识别医疗文本中的6种重要信息,包括:药物、检测、疾病、手术操作、治疗手段以及不良反应等信息。与传统条件随机场(CRF)模型相比,本发明的特点在于:1)使用大量未标注语料来生成词向量,从而避免医学自然语言处理中的繁琐的特征选择和调优过程;2)充分利用医学领域现有的海量知识库,把现有知识通过加强学习结合到深度学习算法中,从而有效提高***性能;3)针对医学文本利用基于深层神经网络的医学名实体识别算法,在中文医疗文本标注语料集上进行评估,取得了比传统的基于序列标注的方法更高的性能。
需要理解到的是:以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.基于深度学习及分布式语义特征医学信息抽取***,其特征在于:包含预处理模块(1)、基于语言模型的词向量训练模块(2)、海量医学知识库加强学习模块(3)以及基于深度人工神经网络的医学名实体识别模块(4),所述预处理模块(1),用于对医学文本大数据进行非法字符清理、中文字符编码统一以及生成下一模块词向量训练使用的字表,字表是所有文本中出现的文字的列表;
所述基于语言模型的词向量训练模块(2),读取预处理过的医疗文本,根据预订的窗口,生成正例;同时,使用随机替换正例中心字的方式生成负例,通过训练一个深度神经网络,以优化语言模型的概率作为优化目标,生成初级词向量;
所述海量医学知识库加强学习模块(3),以初级词向量为出发点,使用另外一个深度神经网络,通过优化医学知识库的预测概率,对初级词向量进行加强学习,从而生成医学领域的分布式语义特征;
所述基于深度人工神经网络的医学名实体识别模块(4),使用海量医学知识库加强学习模块(3)中训练的医学领域的分布式语义特征表示,训练一个医学名实体识别的深度神经网络,识别医学文本中重要的名实体。
2.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***,其特征在于:所述预处理模块(1)包含非法字符过滤模块(101)、中文编码统一模块(102)以及字表生成模块(103),
所述非法字符过滤模块(101),以字符为单位遍历文本,移出其中无效非可见字符;
所述中文编码统一模块(102),根据设置确定输入文本的中文字符编码方式;
所述字表生成模块(103),以unicode字符为单位,生成字表,表中字在后续词向量生成过程中,被映射为浮点数形式的词向量。
3.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***,其特征在于:所述基于语言模型的词向量训练模块(2)包含正负例生成模块(201)、词向量深度神经网络模块(202)以及网络优化及训练误差监控模块(203),所述正负例生成模块(201),用于读取输入语句,根据预设的窗口,生成正例,同时,采用随机替换正例的中心词方法,生成相应负例;
所述词向量深度神经网络模块(202),将生成的正例负例输入网络,计算概率,并根据正负例的概率调整网络;
所述网络优化及训练误差监控模块(203),针对全局,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,保存模型。
4.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***,其特征在于:所述海量医学知识库加强学习模块(3)包含知识库标准化模块(301)、加强学习深度神经网络模块(302)以及网络优化和误差监控模块(303),所述知识库标准化模块(301),标准化知识库中实体的表示;
所述加强学习深度神经网络模块(302),将知识库中的实体作为输入,使用初级词向量作为特征,在加强学习网络中预测,并根据预测值与知识库真实值的情况,加强初级词向量;
所述网络优化和误差监控模块(303),针对全局,优化语言模型的概率,并控制训练过程中的误差,达到训练设置的终止条件时,终止训练,保存模型。
5.根据权利要求1所述的基于深度学习及分布式语义特征医学信息 抽取***,其特征在于:所述基于深度人工神经网络的医学名实体识别模块(4)包含医学名实体深度神经网络模块(401)以及语句级极大似然优化及溢出控制模块(402),所述医学名实体深度神经网络模块(401),读取输入的语句,使用分布式意义特征进行特征表示,并输入名实体识别网络,根据小规模的标注语料训练识别各种医学名实体的识别网络;
所述语句级极大似然优化及溢出控制模块(402),针对深度神经网络模型训练中出现的溢出错误,进行近似计算。
6.根据权利要求5所述的基于深度学习及分布式语义特征医学信息抽取***,其特征在于:所述语句级极大似然优化及溢出控制模块(402)采用极大似然算法,避免模型训练中由于计算机浮点数表达范围受限而导致模型训练失败,其算法为:
首先,对所有输入xi找到最大的输入xmax=MAX(xi);
然后,按照以下方式进行变换:
以避免目标函数优化过程中的浮点溢出问题,提高鲁棒性和模型的精度。
7.根据权利要求1所述的基于深度学习及分布式语义特征医学信息抽取***,其特征在于:采用基于深层神经网络的名实体识别算法,深层神经网络包含一个卷积层、一个基于HardTanh函数的非线性变换层和多个线性层;
计算每一个词的分类类别分数时,取目标词的一个特定的窗口尺寸范围内的上下文词被作为输入;对于邻近句子开头或句子结束的词,采用一个伪填充字以保证所有词的输入向量为固定长度;在输入窗口中的每个词可被映射到N维向量,N是词向量维数;然后,卷积层产生对应于隐藏节点的全局化特征;最后,局部特征和全局特征一并送入一个标准的放射网络以使用反向传播算法进行训练;其中,损失函数定义为以下语句级对数似然:
其中,S(X,T)是标签序列T被赋予输入X时的句子级似然得分;H(Tt-1,Tt)标签Tt-1到标签Tt全局转移分数;DNN(Xt,Tt)标签Tt被赋予输入Xt时的深层神经网络得分。
8.一种用于实现权利要求1所述的***的基于深度学习及分布式语义特征医学信息抽取方法,其特征在于包括以下步骤:
采用随机替换输入正例的中心词生成负例;
基于语言模型优化的深度神经网络训练初级词向量;
采用医学知识库大数据进行深度加强学习,获取针对医学领域的分布式语义表示;
基于优化语句级极大似然估计概率的深层神经网络的中文医学名实体识别;
预防深度神经网络模型溢出的近似算法;
通过深度加强学习,将海量中文医学知识库结合到非监督学习的过程。
9.根据权利要求8所述的基于深度学习及分布式语义特征医学信息抽取方法,其特征在于:由预处理模块(1)对医学大数据进行去噪,编 码统一,以及生成字表;由基于语言模型的词向量训练模块(2)读取医疗文本,使用预先定义的窗口长度,将输入语句分割为多个输入窗口的正例,同时,通过随机替换中心词的的方法生成相应负例,正例和负例在一个词向量训练人工神经网络中不断经过网络概率预测和挑战网络参数的循环,最终有最大化语言模型训练出初级词向量;由海量医学知识库加强学习模块(3)使用初级词向量进行初始化,并使用初级词向量预测海量知识库中的词条,通过不断的加强学习,调整初级词向量,最终得到面向医学领域的分布式语义特征表示;由基于深度人工神经网络的医学名实体识别模块(4)读取新人工标注的少量语料,使用分布式语义特征描述把输入语句转化为分布式的特征描述,并预测词条的标注,通过不断的调整网络系数,实现基于深度学习和分布式语义特征的医学名实体识别。
10.根据权利要求9所述的基于深度学习及分布式语义特征医学信息抽取方法,其特征在于:基于语言模型的词向量训练模块(2)中的正负例生成模块(201)使用随机替换正例中心词的方式生成负例;词向量深度神经网络模块(202)通过正负例学习训练初级词向量,网络优化及训练误差监控模块(203)进行模型优化,监控网络训练误差及判断训练终止条件;
海量医学知识库加强学习模块(3)中,知识库标准化模块(301)读取医学知识库词条,标准化知识库描述;加强学习深度神经网络模块(302)读取标准化的条目,通过对比网络预测与真实知识库标记,产生错误信号,通过加强学习,把初级词向量训练为面向医学领域的分布式语义特征;
基于深度人工神经网络的医学名实体识别模块(4)中,医学名实体深度神经网络模块(401)使用少量人工标注的语录,通过语句级极大似然优化及溢出控制模块(402)训练精确识别医学名实体的网络,并进行模型训练溢出控制。
CN201610176409.8A 2016-03-25 2016-03-25 基于深度学习及分布式语义特征医学信息抽取***及方法 Active CN105894088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610176409.8A CN105894088B (zh) 2016-03-25 2016-03-25 基于深度学习及分布式语义特征医学信息抽取***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610176409.8A CN105894088B (zh) 2016-03-25 2016-03-25 基于深度学习及分布式语义特征医学信息抽取***及方法

Publications (2)

Publication Number Publication Date
CN105894088A CN105894088A (zh) 2016-08-24
CN105894088B true CN105894088B (zh) 2018-06-29

Family

ID=57013869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610176409.8A Active CN105894088B (zh) 2016-03-25 2016-03-25 基于深度学习及分布式语义特征医学信息抽取***及方法

Country Status (1)

Country Link
CN (1) CN105894088B (zh)

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446533B (zh) * 2016-09-12 2023-12-19 北京和信康科技有限公司 一种人体健康数据处理***及其方法
CN106484674B (zh) * 2016-09-20 2020-09-25 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN106547737B (zh) * 2016-10-25 2020-05-12 复旦大学 基于深度学习的自然语言处理中的序列标注方法
CN106547735B (zh) * 2016-10-25 2020-07-07 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN106682397B (zh) * 2016-12-09 2020-05-19 江西中科九峰智慧医疗科技有限公司 一种基于知识的电子病历质控方法
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN107145910A (zh) * 2017-05-08 2017-09-08 京东方科技集团股份有限公司 医学影像的表现生成***、其训练方法及表现生成方法
CN107220506A (zh) * 2017-06-05 2017-09-29 东华大学 基于深度卷积神经网络的乳腺癌风险评估分析***
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN109284497B (zh) * 2017-07-20 2021-01-12 京东方科技集团股份有限公司 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN107451295B (zh) * 2017-08-17 2020-06-30 四川长虹电器股份有限公司 一种基于文法网络获取深度学习训练数据的方法
CN107526798B (zh) * 2017-08-18 2020-09-01 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
WO2019045759A1 (en) * 2017-08-30 2019-03-07 Google Llc AUTOMATIC LEARNING METHOD FOR GENERATING TAGS FOR FLOUSED RESULTS
CN107491655B (zh) * 2017-08-31 2020-08-25 上海柯棣健康管理咨询有限公司 基于机器学习的肝脏疾病信息智能咨询***
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109949938B (zh) * 2017-12-20 2024-04-26 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN108170677B (zh) * 2017-12-27 2022-01-04 北京嘉和海森健康科技有限公司 一种医疗术语抽取方法及装置
CN108280061B (zh) 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN110162766B (zh) * 2018-02-12 2023-03-24 深圳市腾讯计算机***有限公司 词向量更新方法和装置
CN108446388A (zh) * 2018-03-22 2018-08-24 平安科技(深圳)有限公司 文本数据质检方法、装置、设备及计算机可读存储介质
EP3567605A1 (en) * 2018-05-08 2019-11-13 Siemens Healthcare GmbH Structured report data from a medical text report
CN109003678B (zh) * 2018-06-12 2021-04-30 清华大学 一种仿真文本病历的生成方法及***
CN110728147B (zh) * 2018-06-28 2023-04-28 阿里巴巴集团控股有限公司 一种模型训练方法及命名实体识别方法
CN110737758B (zh) * 2018-07-03 2022-07-05 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109086268A (zh) * 2018-07-13 2018-12-25 上海乐言信息科技有限公司 一种基于迁移学习的领域文法学习***和方法
CN109376250A (zh) * 2018-09-27 2019-02-22 中山大学 基于强化学习的实体关系联合抽取方法
EP3637428A1 (en) * 2018-10-12 2020-04-15 Siemens Healthcare GmbH Natural language sentence generation for radiology reports
CN109284491B (zh) * 2018-10-23 2023-08-22 北京惠每云科技有限公司 医学文本识别方法、语句识别模型训练方法
CN109299467B (zh) * 2018-10-23 2023-08-08 北京惠每云科技有限公司 医学文本识别方法及装置、语句识别模型训练方法及装置
CN111180019A (zh) * 2018-11-09 2020-05-19 上海云贵信息科技有限公司 一种基于深度学习的化合物参数自动提取方法
CN109408626B (zh) * 2018-11-09 2021-09-21 思必驰科技股份有限公司 对自然语言进行处理的方法及装置
CN109471945B (zh) * 2018-11-12 2021-11-23 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质
CN109492233B (zh) * 2018-11-14 2023-10-17 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
TWI678709B (zh) * 2018-11-15 2019-12-01 義守大學 藉由神經網路協助資料探勘與大數據之資料辨識進行疾病預測的方法
CN109800411B (zh) * 2018-12-03 2023-07-18 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109767817B (zh) * 2019-01-16 2023-05-30 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN111538806B (zh) * 2019-01-21 2023-04-07 阿里巴巴集团控股有限公司 查询负例的泛化方法及装置
CN109712680B (zh) * 2019-01-24 2021-02-09 易保互联医疗信息科技(北京)有限公司 基于hl7 规范的医疗数据生成方法及***
CN109902292B (zh) * 2019-01-25 2023-05-09 网经科技(苏州)有限公司 中文词向量处理方法及其***
CN109858004B (zh) * 2019-02-12 2023-08-01 四川无声信息技术有限公司 文本改写方法、装置及电子设备
CN111563376A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 菜名识别方法和装置
US11185735B2 (en) 2019-03-11 2021-11-30 Rom Technologies, Inc. System, method and apparatus for adjustable pedal crank
US11471729B2 (en) 2019-03-11 2022-10-18 Rom Technologies, Inc. System, method and apparatus for a rehabilitation machine with a simulated flywheel
US20200289889A1 (en) 2019-03-11 2020-09-17 Rom Technologies, Inc. Bendable sensor device for monitoring joint extension and flexion
CN110134772B (zh) * 2019-04-18 2023-05-12 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110083838B (zh) * 2019-04-29 2021-01-19 西安交通大学 基于多层神经网络与外部知识库的生物医学语义关系提取方法
US11801423B2 (en) 2019-05-10 2023-10-31 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to interact with a user of an exercise device during an exercise session
US11904207B2 (en) 2019-05-10 2024-02-20 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to present a user interface representing a user's progress in various domains
US11433276B2 (en) 2019-05-10 2022-09-06 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to independently adjust resistance of pedals based on leg strength
US11957960B2 (en) 2019-05-10 2024-04-16 Rehab2Fit Technologies Inc. Method and system for using artificial intelligence to adjust pedal resistance
CN110322959B (zh) * 2019-05-24 2021-09-28 山东大学 一种基于知识的深度医疗问题路由方法及***
CN110276081B (zh) * 2019-06-06 2023-04-25 百度在线网络技术(北京)有限公司 文本生成方法、装置及存储介质
CN110298040A (zh) * 2019-06-20 2019-10-01 翼健(上海)信息科技有限公司 一种对中文语料进行标注识别的控制方法及控制装置
CN110458397A (zh) * 2019-07-05 2019-11-15 苏州热工研究院有限公司 一种核电材料服役性能信息提取方法
CN110442840B (zh) * 2019-07-11 2022-12-09 新华三大数据技术有限公司 序列标注网络更新方法、电子病历处理方法及相关装置
CN110399433A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于深度学习的数据实体关系抽取方法
US11701548B2 (en) 2019-10-07 2023-07-18 Rom Technologies, Inc. Computer-implemented questionnaire for orthopedic treatment
US11071597B2 (en) 2019-10-03 2021-07-27 Rom Technologies, Inc. Telemedicine for orthopedic treatment
US11515021B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system to analytically optimize telehealth practice-based billing processes and revenue while enabling regulatory compliance
US11830601B2 (en) 2019-10-03 2023-11-28 Rom Technologies, Inc. System and method for facilitating cardiac rehabilitation among eligible users
US11915816B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. Systems and methods of using artificial intelligence and machine learning in a telemedical environment to predict user disease states
US11270795B2 (en) 2019-10-03 2022-03-08 Rom Technologies, Inc. Method and system for enabling physician-smart virtual conference rooms for use in a telehealth context
US11282604B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for use of telemedicine-enabled rehabilitative equipment for prediction of secondary disease
US11887717B2 (en) 2019-10-03 2024-01-30 Rom Technologies, Inc. System and method for using AI, machine learning and telemedicine to perform pulmonary rehabilitation via an electromechanical machine
US11923065B2 (en) 2019-10-03 2024-03-05 Rom Technologies, Inc. Systems and methods for using artificial intelligence and machine learning to detect abnormal heart rhythms of a user performing a treatment plan with an electromechanical machine
US11515028B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to create optimal treatment plans based on monetary value amount generated and/or patient outcome
US20210134432A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Method and system for implementing dynamic treatment environments based on patient information
US11978559B2 (en) 2019-10-03 2024-05-07 Rom Technologies, Inc. Systems and methods for remotely-enabled identification of a user infection
US11069436B2 (en) 2019-10-03 2021-07-20 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouraging rehabilitative compliance through patient-based virtual shared sessions with patient-enabled mutual encouragement across simulated social networks
US20210134458A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method to enable remote adjustment of a device during a telemedicine session
US20210134412A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method for processing medical claims using biometric signatures
US11325005B2 (en) 2019-10-03 2022-05-10 Rom Technologies, Inc. Systems and methods for using machine learning to control an electromechanical device used for prehabilitation, rehabilitation, and/or exercise
US20210128080A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Augmented reality placement of goniometer or other sensors
US11955220B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML and telemedicine for invasive surgical treatment to determine a cardiac treatment plan that uses an electromechanical machine
US11101028B2 (en) 2019-10-03 2021-08-24 Rom Technologies, Inc. Method and system using artificial intelligence to monitor user characteristics during a telemedicine session
US11317975B2 (en) 2019-10-03 2022-05-03 Rom Technologies, Inc. Method and system for treating patients via telemedicine using sensor data from rehabilitation or exercise equipment
US11955222B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for determining, based on advanced metrics of actual performance of an electromechanical machine, medical procedure eligibility in order to ascertain survivability rates and measures of quality-of-life criteria
US11282608B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to provide recommendations to a healthcare provider in or near real-time during a telemedicine session
US11282599B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouragement of rehabilitative compliance through patient-based virtual shared sessions
US11915815B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning and generic risk factors to improve cardiovascular health such that the need for additional cardiac interventions is mitigated
US11955221B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML to generate treatment plans to stimulate preferred angiogenesis
US11265234B2 (en) 2019-10-03 2022-03-01 Rom Technologies, Inc. System and method for transmitting data and ordering asynchronous data
US11955223B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning to provide an enhanced user interface presenting data pertaining to cardiac health, bariatric health, pulmonary health, and/or cardio-oncologic health for the purpose of performing preventative actions
US11075000B2 (en) 2019-10-03 2021-07-27 Rom Technologies, Inc. Method and system for using virtual avatars associated with medical professionals during exercise sessions
US20210142893A1 (en) 2019-10-03 2021-05-13 Rom Technologies, Inc. System and method for processing medical claims
US11756666B2 (en) 2019-10-03 2023-09-12 Rom Technologies, Inc. Systems and methods to enable communication detection between devices and performance of a preventative action
US11961603B2 (en) 2019-10-03 2024-04-16 Rom Technologies, Inc. System and method for using AI ML and telemedicine to perform bariatric rehabilitation via an electromechanical machine
US20210127974A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Remote examination through augmented reality
US11826613B2 (en) 2019-10-21 2023-11-28 Rom Technologies, Inc. Persuasive motivation for orthopedic treatment
CN110889282B (zh) * 2019-11-28 2023-03-21 哈尔滨工程大学 一种基于深度学习的文本情感分析方法
CN111160012B (zh) * 2019-12-26 2024-02-06 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111259112B (zh) 2020-01-14 2023-07-04 北京百度网讯科技有限公司 医疗事实的验证方法和装置
CN111460834B (zh) * 2020-04-09 2023-06-06 北京北大软件工程股份有限公司 基于lstm网络的法条语义标注方法及装置
US11107591B1 (en) * 2020-04-23 2021-08-31 Rom Technologies, Inc. Method and system for describing and recommending optimal treatment plans in adaptive telemedical or other contexts
US11574128B2 (en) 2020-06-09 2023-02-07 Optum Services (Ireland) Limited Method, apparatus and computer program product for generating multi-paradigm feature representations
CN111680145B (zh) * 2020-06-10 2023-08-15 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111950235A (zh) * 2020-08-14 2020-11-17 杭州朗通信息技术有限公司 智能医学文本处理***
CN112309519B (zh) * 2020-10-26 2021-06-08 浙江大学 基于多模型的电子病历用药结构化处理***
CN112270186B (zh) * 2020-11-04 2024-02-02 吾征智能技术(北京)有限公司 一种基于熵模型的口辣文本信息匹配***
CN112464667B (zh) * 2020-11-18 2021-11-16 北京华彬立成科技有限公司 文本的实体识别方法、装置、电子设备和存储介质
CN112434756A (zh) * 2020-12-15 2021-03-02 杭州依图医疗技术有限公司 医学数据的训练方法、处理方法、装置及存储介质
CN113128233B (zh) * 2021-05-11 2022-07-19 济南大学 一种心理疾病知识图谱的构建方法及***
CN113297852B (zh) * 2021-07-26 2021-11-12 北京惠每云科技有限公司 一种医学实体词的识别方法和装置
US11698934B2 (en) 2021-09-03 2023-07-11 Optum, Inc. Graph-embedding-based paragraph vector machine learning models
CN114722208B (zh) * 2022-06-08 2022-11-01 成都健康医联信息产业有限公司 一种健康医疗文本自动分类和安全等级自动分级方法
CN117747124A (zh) * 2024-02-20 2024-03-22 浙江大学 基于网络激发图分解的医学大模型逻辑反演方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104252570A (zh) * 2013-06-28 2014-12-31 上海联影医疗科技有限公司 一种海量医学影像数据挖掘***及其实现方法
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线***
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的***和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122704A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Integrated medical knowledge base interface system and method
US20080281868A1 (en) * 2007-02-26 2008-11-13 Connections Center Methods, apparatus and products for transferring knowledge

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252570A (zh) * 2013-06-28 2014-12-31 上海联影医疗科技有限公司 一种海量医学影像数据挖掘***及其实现方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线***
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的***和方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Data and Knowledge in Medical Distributed Applications;Serban A等;《IOS Press》;20141231;全文 *
基于人工智能的医疗诊断***研究与设计;滕文龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140415(第04期);全文 *
基于词表示方法的生物医学命名实体识别;李丽双等;《小型微型计算机***》;20160229;第37卷(第2期);全文 *

Also Published As

Publication number Publication date
CN105894088A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105894088B (zh) 基于深度学习及分布式语义特征医学信息抽取***及方法
Wang et al. Label-aware double transfer learning for cross-specialty medical named entity recognition
Wang et al. Prompt engineering for healthcare: Methodologies and applications
Zhang et al. Neural networks incorporating dictionaries for Chinese word segmentation
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
Liu et al. Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning
CN109670179A (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
Hu et al. HITSZ_CNER: a hybrid system for entity recognition from Chinese clinical text
CN108509419A (zh) 中医药古籍文献分词和词性标引方法及***
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN112420191A (zh) 一种中医辅助决策***及方法
CN115630649B (zh) 一种基于生成模型的医学中文命名实体识别方法
Zhang et al. Identifying adverse drug reaction entities from social media with adversarial transfer learning model
Hou et al. Automatic report generation for chest X-ray images via adversarial reinforcement learning
CN112949308A (zh) 基于功能结构的中文电子病历命名实体识别方法及***
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
Al-Sadi et al. Visual question answering in the medical domain based on deep learning approaches: A comprehensive study
Zhang et al. Using a pre-trained language model for medical named entity extraction in Chinese clinic text
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Klochko et al. Data mining of the healthcare system based on the machine learning model developed in the Microsoft azure machine learning studio
Liu et al. Cross-document attention-based gated fusion network for automated medical licensing exam
Weegar et al. Deep medical entity recognition for Swedish and Spanish
Lin et al. Research on named entity recognition of traditional Chinese medicine electronic medical records
Miftahutdinov et al. Deep learning for ICD coding: Looking for medical concepts in clinical documents in English and in French
Lin et al. Long-distance disorder-disorder relation extraction with bootstrapped noisy data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181106

Address after: 100080 Beijing Haidian District Suzhou Street 16 (Shenzhou digital building) 18 tier 1809

Co-patentee after: Suzhou Hebta Medical Information Technology Co., Ltd.

Patentee after: Digital medical Polytron Technologies Inc

Address before: 215021 2 Creative Industrial Park, 328 Xing Hu Street, Suzhou Industrial Park, Jiangsu

Patentee before: Suzhou Hebta Medical Information Technology Co., Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District Suzhou Street 16 (Shenzhou digital building) 18 tier 1809

Co-patentee after: Shenzhou hebote medical information technology (Suzhou) Co., Ltd

Patentee after: DIGITAL CHINA HEALTH TECHNOLOGIES Co.,Ltd.

Address before: 100080 Beijing Haidian District Suzhou Street 16 (Shenzhou digital building) 18 tier 1809

Co-patentee before: SUZHOU HEBTA HEALTH INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: DIGITAL CHINA HEALTH TECHNOLOGIES Co.,Ltd.

CP01 Change in the name or title of a patent holder