CN108563725A - 一种中文症状体征构成识别方法 - Google Patents

一种中文症状体征构成识别方法 Download PDF

Info

Publication number
CN108563725A
CN108563725A CN201810292579.1A CN201810292579A CN108563725A CN 108563725 A CN108563725 A CN 108563725A CN 201810292579 A CN201810292579 A CN 201810292579A CN 108563725 A CN108563725 A CN 108563725A
Authority
CN
China
Prior art keywords
symptom
sign
chinese
chinese character
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810292579.1A
Other languages
English (en)
Inventor
叶琪
阮彤
王祺
曾露
翟洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201810292579.1A priority Critical patent/CN108563725A/zh
Publication of CN108563725A publication Critical patent/CN108563725A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种中文症状体征构成识别方法。该方法包括:将中文症状体征分解为11种症状体征的构成成分;根据症状体征的构成成分为中文症状体征中的每个汉字标注,得到每个汉字表示症状体征的构成情况的标签序列;对中文症状体征数据进行数据预处理,得到汉字特征向量和对应的词性特征向量;将所述汉字特征向量和词性特征向量利用双向LSTM神经网络来训练得到输入症状体征的特征向量;将所述症状体征的特征向量利用条件随机场来对每个汉字进行标注,得到症状体征的标签序列;在神经网络的训练过程中,利用已有的类型‑成分词典生成人工数据帮助训练。相比于现有技术,本发明能够很好的识别中文症状,识别正确率得到很大的提高。

Description

一种中文症状体征构成识别方法
技术领域
本发明涉及中文文本标注技术领域,更为具体地,尤其涉及一种中文症状体征构成识别方法。
背景技术
电子病历***目前在国内外得到了广泛的应用,而要实现医疗信息的电子化,进而在其上进行数据挖掘,医疗文本的结构化便显得尤为重要。中文症状构成的识别有助于更精确地把握症状所表达的含义。
中文症状体征构成识别旨在识别出症状体征中的构成成分,其本质上是自然语言处理中的分词与词性识别。目前分词与词性识别通常使用机器学习方法求解,常见的方法包括:最大熵模型、隐马尔科夫模型、条件随机场模型、深度神经网络等。然而,当前中文症状体征构成识别在实际应用中的效果不尽如人意,一方面是由于不同领域对识别的要求各不相同,对于中文症状体征需要进行专门的构成分析,单纯用常规的分词及词性标注方法对症状进行切分,并不能完全满足需要;另一方面是由于中文症状体征的描述丰富多样,其构成元素复杂多变,因而需要大规模的训练语料进行学习,而训练语料的构造往往需要很高的人力成本。
本发明寻求一种能够解决上述问题的方法,将症状按字进行分割,将预处理得到汉字特征向量和对应的词性特征向量,传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入症状体征的特征向量,利用条件随机场(CRF)来对每个汉字进行标注,得到症状体征的标签序列。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于词典和Bi-LSTM-CRF的中文症状体征构成识别方法。
依据本发明的一个方面,提供了一种中文症状体征构成识别方法,包括:
将中文症状体征分解为11种症状体征的构成成分,包括:原子症状、部位词、中心词、连接词、否定词、程度词、情景限定词、方位词、感觉词、特征词、其它修饰词;
根据症状体征的构成成分为中文症状体征中的每个汉字标注,得到每个汉字表示症状体征的构成情况的标签序列;
对中文症状体征数据进行数据预处理,得到汉字特征向量和对应的词性特征向量;
将所述汉字特征向量和词性特征向量传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入症状体征的特征向量;
将所述症状体征的特征向量利用条件随机场来对每个汉字进行标注,得到症状体征的标签序列;
在神经网络的训练过程中,利用已有的类型-成分词典生成人工数据帮助训练。
其中,利用训练语料或者已有词典收集症状和体征的构成成分构建类型-成分词典。人工数据是使用类型-成分词典,对训练语料中的每一个症状或体征,将其中的构成成分替换成词典中相同类型的其它构成成分,并将新的症状体征加入到训练集中。
汉字特征向量和词性特征向量是:预训练的汉字特征向量和词性特征向量或者随机初始化并且由神经网络训练出的汉字特征向量和词性特征向量。词性特征包括:位置无关词性特征和位置有关词性特征。词性特征的表示方式包括:独热编码或分布式表示。
在其中的一实施例,根据症状体征的构成成分为中文症状体征中的每个汉字标注,得到每个汉字表示症状体征的构成情况的标签序列包括如下步骤:
令标签分类为B_C、I_C、E_C、S_C,其中“_”是某个任意的分隔符,“B”、“I”、“E”、“S”代表对应汉字在构成成分中所处的位置,“B”是某个任意的代表构成成分的开头汉字的符号,“I”是某个任意的代表构成成分的为非开头汉字和结尾汉字的中间汉字的符号,“E”是某个任意的代表构成成分的结尾汉字的符号;“S”是某个任意的代表一个字就是一个构成成分的符号,“C”一般有多个符号来表示,分别代表某个构成成分类别;
根据所述标签分类为中文症状体征中的每个汉字标注,得到表示症状体征的构成情况的标签序列。
在其中的一实施例,中文症状体征数据进行数据预处理过程包括步骤:
将中文症状体征按汉字进行分割;
对分割后的汉字进行统计,形成汉字表;
对于出现次数少于所设阈值的汉字,将其从汉字表中剔除,并用某个未在汉字表中出现过的字符<OOV>来代替这些被剔除的汉字,将<OOV>加入汉字表;
为汉字表中的每个汉字分别分配一个专属的向量,作为汉字在神经网络中的输入。
在其中的一实施例,利用双向LSTM神经网络来训练得到输入症状体征的信息特征包括步骤:
(1)定义xt为t时刻的输入字符特征向量,ht是t时刻隐藏层的输出状态向量,it是t时刻的输入门,ft是t时刻的遗忘门,Ot是t时刻的输出门,Wi、Wf、Wc、Wo为隐藏层输出向量ht的权重矩阵,Ui、Uf、Uc、Uo为不同状态下针对输入xt的权重矩阵,bi、bf、bc、bo为偏置向量,n为xt的维数,σ是sigmoid函数;
(2)t时刻的遗忘门计算如公式(1)所示:
ft=σ(Wfxt+Ufht-1+bf) (1)
(3)t时刻更新ht-1中存储的信息,计算公式如(2)、(3)所示:
it=σ(Wixt+Uiht-1+bi) (2)
其中,为t时刻可被加入到cell state的向量;
(4)在t时刻将t-1时刻存储的信息更新为t时刻的存储信息,计算
公式为(4):
其中,为t时刻cell state的向量;
(5)在t时刻的输出如式(5)所示,并更新ht,计算公式如式(6):
Ot=σ(Woxt+Uoht-1+bo) (5)
ht=Ot*tanh(Ct) (6)
其中,Ot为t时刻的输出门。
在其中的一实施例,利用条件随机场来对每个汉字进行标注,得到症状体征的构成信息包括步骤:
(1)定义标签转移矩阵A,Ai,j代表从标签i转移到标签j的得分,θ为Bi-LSTM学习参数,为模型要学习的所有参数,为症状汉字序列,T为症状体征长度,[fθ]i,t表示第t个词的第i个标签的Bi-LSTM的输出分值;
(2)给定标签序列总得分计算公式如式(7):
(3)计算的真实标签序列真实概率计算公式如式(8):
其中,是真实标签序列,表示所有可能的标签序列;
(4)条件随机场(CRF)训练阶段,使用最大似然估计方法训练模型参数,计算公式如式(9):
(5)在标签序列中找到最高条件概率来对序列进行标签标注,计算公式如式(10):
本发明实验结果显示,症状和构成识别的准确率达到92.77%和94.34%。相比于基本模型结果提高了20.72%和14.42%。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1示出依据本发明的一实施方式,中文症状体征构成识别方法的关键步骤工作流程图。
图2示出基于Bi-LSTM-CRF的神经网络模型的示意图。
具体实施方式
为了使本申请所揭示的技术内容更加详尽与完备,可参照附图以及本发明的下述各种具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。
图1示出依据本发明的一实施方式,中文症状体征构成识别方法的工作流程图。依据本发明的一个方面,提供了一种中文症状体征构成识别方法,包括:
将中文症状体征分解为11种症状体征的构成成分,包括:原子症状、部位词、中心词、连接词、否定词、程度词、情景限定词、方位词、感觉词、特征词、其它修饰词;
根据症状体征的构成成分为中文症状体征中的每个汉字标注,得到每个汉字表示症状体征的构成情况的标签序列;
对中文症状体征数据进行数据预处理,得到汉字特征向量和对应的词性特征向量;
将所述汉字特征向量和词性特征向量传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入症状体征的特征向量;
将所述症状体征的特征向量利用条件随机场来对每个汉字进行标注,得到症状体征的标签序列;
在神经网络的训练过程中,利用已有的类型-成分词典生成人工数据帮助训练。
在其中的一实施例,根据症状体征的构成成分为中文症状体征中的每个汉字标注,得到每个汉字表示症状体征的构成情况的标签序列包括如下步骤:
令标签分类为B_C、I_C、E_C、S_C,其中“_”是某个任意的分隔符,“B”、“I”、“E”、“S”代表对应汉字在构成成分中所处的位置,“B”是某个任意的代表构成成分的开头汉字的符号,“I”是某个任意的代表构成成分的为非开头汉字和结尾汉字的中间汉字的符号,“E”是某个任意的代表构成成分的结尾汉字的符号;“S”是某个任意的代表一个字就是一个构成成分的符号,“C”一般有多个符号来表示,分别代表某个构成成分类别;
根据所述标签分类为中文症状体征中的每个汉字标注,得到表示症状体征的构成情况的标签序列。
其中,11种症状体征的构成成分如表1所示。
表1症状体征的构成成分
本发明将症状汉字序列送入嵌入层,得到字向量序列其中T是上位词的长度。然后,将E送入Bi-LSTM中。最后,使用线性链CRF以获得全局最优的标注信息。
图2给出基于Bi-LSTM-CRF的神经网络模型的示意图。在其中的一实施例,其特征在于对中文症状体征数据进行数据预处理,得到汉字特征向量和对应的词性特征向量包括步骤:
(1)将中文症状体征按汉字进行分割;
(2)对分割后的汉字进行统计,形成汉字表;
(3)对于出现次数少于所设阈值的汉字,将其从汉字表中剔除,并用某个未在汉字表中出现过的字符<OOV>来代替这些被剔除的汉字,将<OOV>加入汉字表;
(4)为汉字表中的每个汉字分别分配一个专属的向量,作为汉字在神经网络中的输入。
在其中的一实施例,(1)类型-成分词典可从训练语料中收集,也可以从诸如《人体解剖学名词(第二版)》等词典中收集构成成分。
在其中的一实施例,训练语料还可以使用构成成分替换的方法建立。如症状“足部疼痛”,替换部位词“足部”,可以得到“头部疼痛”、“背部疼痛”、“腿部疼痛”等各种不同的症状。为了生成更多训练语料,包括:(1)首先收集症状和疾病的构成成分,构建了一个类型-成分词典;(2)使用类型-成分词典,对训练语料中的每一个症状或体征,将其中的构成成分替换成词典中相同类型的其它构成成分,并将新的症状体征加入到训练集中。
在其中的一实施例,所述汉字特征向量和词性特征向量包括:预训练的汉字特征向量和词性特征向量,随机初始化并且由神经网络训练出的汉字特征向量和词性特征向量。
在其中的一实施例,利用双向LSTM神经网络来训练得到输入症状体征的信息特征,包括步骤:
(1)定义xt为t时刻的输入字符特征向量,ht是t时刻隐藏层的输出状态向量,it是t时刻的输入门,ft是t时刻的遗忘门,Ot是t时刻的输出门,Wi、Wf、Wc、Wo为隐藏层输出向量ht的权重矩阵,Ui、Uf、Uc、Uo为不同状态下针对输入xt的权重矩阵,bi、bf、bc、bo为偏置向量,n为xt的维数,σ是sigmoid函数;
(2)t时刻的遗忘门计算如公式(1)所示:
ft=σ(Wfxt+Ufht-1+bf) (1)
(3)t时刻更新ht-1中存储的信息,计算公式如(2)、(3)所示:
it=σ(Wixt+Uiht-1+bi) (2)
其中,为t时刻可被加入到cell state的向量;
(4)在t时刻将t-1时刻存储的信息更新为t时刻的存储信息,计算公式为(4):
其中,为t时刻cell state的向量;
(5)在t时刻的输出如式(5)所示,并更新ht,计算公式如式(6):
Ot=σ(Woxt+Uoht-1+bo) (5)
ht=Ot*tanh(Ct) (6)
其中,Ot为t时刻的输出门。
本发明用正向LSTM的最后一个输出来编码E的正序信息,用逆向LSTM的最后一个输出来编码E的逆序信息,并用的拼合来编码E的上下文信息。
在其中的一实施例,利用条件随机场来对每个汉字进行标注,得到症状体征的构成信息包括步骤:
(1)定义标签转移矩阵A,Ai,j代表从标签i转移到标签j的得分,θ为Bi-LSTM学习参数,为模型要学习的所有参数,为症状汉字序列,T为症状体征长度,[fθ]i,t表示第t个词的第i个标签的Bi-LSTM的输出分值;
(2)给定标签序列总得分计算公式如式(7):
(3)计算的真实标签序列真实概率计算公式如式(8):
其中,是真实标签序列,表示所有可能的标签序列;
(4)条件随机场(CRF)训练阶段,使用最大似然估计方法训练模型参数,计算公式如式(9):
(5)在标签序列中找到最高条件概率来对序列进行标签标注,计算公式如式(10):
本发明以字为单位进行序列标注,然而只有词语才有词性。本发明提出两种词性特征:(1)位置无关词性;(2)位置有关词性。其中,位置无关词性是以汉字所在词语的词性作为该字的词性特征。如表2所示的第1、2行,词语“明显”的词性是形容词(记作“a”),故以“a”为汉字“明”和“显”的位置无关词性特征。
但是,位置无关词性仅仅考虑汉字所在词语的词性,而没有考虑汉字在词语中所处的位置。位置有关词性同时考虑汉字所在词语的词性以及汉字在词语中所处的位置:若一个汉字就是一个词语,则在相应词性前加一个位置标记“S”,否则,若汉字位于词语的开头,则在相应词性前加一个位置标记“B”;若汉字位于词语的结尾,则在相应词性前加一个位置标记“E”;若汉字位于词语的中间,则在相应词性前加一个位置标记“I”。如下表第1、3行,词语“明显”的词性是形容词(记作“a”),故以“B-a”为汉字“明”的位置有关词性特征,以“E-a”为汉字“显”的位置有关词性特征。
本发明词性特征采用两种表示方式:独热编码与分布式表示。
表2成分构成序列和对应的特征、标签序列表
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (10)

1.一种中文症状体征构成识别方法,其特征在于,包括:
(1)将中文症状体征分解为11种症状体征的构成成分,包括:原子症状、部位词、中心词、连接词、否定词、程度词、情景限定词、方位词、感觉词、特征词、其它修饰词;
(2)根据症状体征的构成成分为中文症状体征中的每个汉字标注,得到每个汉字表示症状体征的构成情况的标签序列;
(3)对中文症状体征数据进行数据预处理,得到汉字特征向量和对应的词性特征向量;
(4)将所述汉字特征向量和词性特征向量传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入症状体征的特征向量;
(5)将所述症状体征的特征向量利用条件随机场来对每个汉字进行标注,得到症状体征的标签序列;
(6)在神经网络的训练过程中,利用已有的类型-成分词典生成人工数据帮助训练。
2.如权利要求1所述的一种中文症状体征构成识别方法,其特征在于,根据症状体征的构成成分为中文症状体征中的每个汉字标注,得到每个汉字表示症状体征的构成情况的标签序列包括:
(1)令标签分类为B_C、I_C、E_C、S_C,其中“_”是分隔符,“B”、“I”、“E”、“S”代表对应汉字在构成成分中所处的位置,“B”是代表构成成分的开头汉字的符号,“I”是代表构成成分的非开头汉字和结尾汉字的中间汉字的符号,“E”是代表构成成分的结尾汉字的符号;“S”是代表单个字是一个构成成分的符号,“C”有多个符号来表示,分别代表构成成分的类别;
(2)根据所述标签分类为中文症状体征中的每个汉字标注,得到表示症状体征的构成情况的标签序列。
3.如权利要求1所述的一种中文症状体征构成识别方法,其特征在于,对中文症状体征数据进行数据预处理,得到汉字特征向量和对应的词性特征向量包括:
(1)将中文症状体征按汉字进行分割;
(2)对分割后的汉字进行统计,形成汉字表;
(3)对于出现次数少于所设阈值的汉字,将其从汉字表中剔除,并用一个未在汉字表中出现过的字符<OOV>来替换被剔除的汉字,将<OOV>加入汉字表;
(4)为汉字表中的每个汉字分别分配一个专属的汉字特征向量和词性特征向量,作为神经网络中的输入。
4.如权利要求1所述的中文症状体征构成识别方法,其特征在于,利用训练语料或者已有词典收集症状和体征的构成成分构建所述的类型-成分词典。
5.如权利要求1所述的中文症状体征构成识别方法,其特征在于,所述人工数据是使用所述类型-成分词典,对训练语料中的每一个症状或体征,将其中的构成成分替换成词典中相同类型的其它构成成分,并将新的症状体征加入到训练集中。
6.如权利要求1所述的中文症状体征构成识别方法,其特征在于,所述汉字特征向量和词性特征向量包括:预训练的汉字特征向量和词性特征向量或者随机初始化并且由神经网络训练出的汉字特征向量和词性特征向量。
7.如权利要求1所述的中文症状体征构成识别方法,其特征在于,所述词性特征包括:位置无关词性特征和位置有关词性特征。
8.如权利要求1所述的中文症状体征构成识别方法,其特征在于,所述词性特征的表示方式包括:独热编码或分布式表示。
9.如权利要求1所述的中文症状体征构成识别方法,其特征在于,将所述汉字特征向量传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入症状体征的信息特征包括步骤:
(1)定义xt为t时刻的输入字符特征向量,ht是t时刻隐藏层的输出状态向量,it是t时刻的输入门,ft是t时刻的遗忘门,Ot是t时刻的输出门,Wi、Wf、Wc、Wo为隐藏层输出向量ht的权重矩阵,Ui、Uf、Uc、Uo为不同状态下针对输入xt的权重矩阵,bi、bf、bc、bo为偏置向量,n为xt的维数,σ是sigmoid函数;
(2)t时刻的遗忘门计算如公式(1)所示:
ft=σ(Wfxt+Ufht-1+bf) (1)
(3)t时刻更新ht-1中存储的信息,计算公式如(2)、(3)所示:
it=σ(Wixt+Uiht-1+bi) (2)
其中,为t时刻可被加入到cell state的向量;
(4)在t时刻将t-1时刻存储的信息更新为t时刻的存储信息,计算公式为(4):
其中,为t时刻cell state的向量;
(5)在t时刻的输出如式(5)所示,并更新ht,计算公式如式(6):
Ot=σ(Woxt+Uoht-1+bo) (5)
ht=Ot*tanh(Ct) (6)
其中,Ot为t时刻的输出门。
10.如权利要求1所述的中文症状体征构成识别方法,其特征在于,利用条件随机场来对每个汉字进行标注,得到症状体征的构成信息包括:
(1)定义标签转移矩阵A,Ai,j代表从标签i转移到标签j的得分,θ为Bi-LSTM学习参数,为模型要学习的所有参数,为症状汉字序列,T为症状体征长度,[fθ]i,t表示第t个词的第i个标签的Bi-LSTM的输出分值;
(2)给定标签序列总得分计算公式如式(7):
(3)计算的真实标签序列真实概率计算公式如式(8):
其中,是真实标签序列,表示所有可能的标签序列;
(4)条件随机场(CRF)训练阶段,使用最大似然估计方法训练模型参数,计算公式如式(9):
(5)在标签序列中找到最高条件概率来对序列进行标签标注,计算公式如式(10):
CN201810292579.1A 2018-04-04 2018-04-04 一种中文症状体征构成识别方法 Pending CN108563725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810292579.1A CN108563725A (zh) 2018-04-04 2018-04-04 一种中文症状体征构成识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810292579.1A CN108563725A (zh) 2018-04-04 2018-04-04 一种中文症状体征构成识别方法

Publications (1)

Publication Number Publication Date
CN108563725A true CN108563725A (zh) 2018-09-21

Family

ID=63533897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810292579.1A Pending CN108563725A (zh) 2018-04-04 2018-04-04 一种中文症状体征构成识别方法

Country Status (1)

Country Link
CN (1) CN108563725A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388806A (zh) * 2018-10-26 2019-02-26 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和***
CN110097936A (zh) * 2019-05-08 2019-08-06 北京百度网讯科技有限公司 用于输出病历的方法和装置
CN110569343A (zh) * 2019-08-16 2019-12-13 华东理工大学 一种基于问答的临床文本结构化的方法
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN113159111A (zh) * 2021-05-24 2021-07-23 国网河北省电力有限公司 基于汉字分解和特征映射的手写体识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的***和方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的***和方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙健 等: ""中文电子病历中的时间关系识别"", 《计算机应用》 *
李剑风: ""融合外部知识的中文命名实体识别研究及其医疗领域应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388806A (zh) * 2018-10-26 2019-02-26 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109388806B (zh) * 2018-10-26 2023-06-27 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置
CN109829156B (zh) * 2019-01-18 2023-11-14 北京惠每云科技有限公司 医学文本识别方法及装置
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和***
CN110085307B (zh) * 2019-04-04 2023-02-03 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和***
CN110097936A (zh) * 2019-05-08 2019-08-06 北京百度网讯科技有限公司 用于输出病历的方法和装置
CN110097936B (zh) * 2019-05-08 2022-08-05 北京百度网讯科技有限公司 用于输出病历的方法和装置
CN110569343A (zh) * 2019-08-16 2019-12-13 华东理工大学 一种基于问答的临床文本结构化的方法
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112016295B (zh) * 2020-09-04 2024-02-23 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN113159111A (zh) * 2021-05-24 2021-07-23 国网河北省电力有限公司 基于汉字分解和特征映射的手写体识别方法及装置

Similar Documents

Publication Publication Date Title
CN108563725A (zh) 一种中文症状体征构成识别方法
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN109635280A (zh) 一种基于标注的事件抽取方法
CN110851599B (zh) 一种中文作文自动评分方法及教辅***
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答***及方法
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的***和方法
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN110059185A (zh) 一种医学文档专业词汇自动化标注方法
CN113312453B (zh) 一种面向跨语言对话理解的模型预训练***
CN106202030B (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN111651983B (zh) 一种基于自训练与噪声模型的因果事件抽取方法
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
CN111950296A (zh) 一种基于bert微调模型的评论目标情感分析
CN110413768A (zh) 一种文章题目自动生成方法
CN114528411B (zh) 一种中文医药知识图谱自动化构建方法、装置及介质
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180921

WD01 Invention patent application deemed withdrawn after publication