CN116186271A - 一种医疗专业名词分类模型训练方法、分类方法及装置 - Google Patents

一种医疗专业名词分类模型训练方法、分类方法及装置 Download PDF

Info

Publication number
CN116186271A
CN116186271A CN202310422796.9A CN202310422796A CN116186271A CN 116186271 A CN116186271 A CN 116186271A CN 202310422796 A CN202310422796 A CN 202310422796A CN 116186271 A CN116186271 A CN 116186271A
Authority
CN
China
Prior art keywords
medical term
medical
type
classification
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310422796.9A
Other languages
English (en)
Other versions
CN116186271B (zh
Inventor
赵礼悦
李格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Asiainfo Data Co ltd
Original Assignee
Beijing Asiainfo Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Asiainfo Data Co ltd filed Critical Beijing Asiainfo Data Co ltd
Priority to CN202310422796.9A priority Critical patent/CN116186271B/zh
Publication of CN116186271A publication Critical patent/CN116186271A/zh
Application granted granted Critical
Publication of CN116186271B publication Critical patent/CN116186271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种医疗专业名词分类模型训练方法、分类方法及装置。所述医疗专业名词分类模型训练方法包括:获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到各医疗专业名词对应的特征向量,作为第一特征向量;根据各医疗专业名词对应的第一特征向量和第一类型标签生成训练样本,并将训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。本发明能够提高对医疗专业名词进行分类的效率和准确率。

Description

一种医疗专业名词分类模型训练方法、分类方法及装置
技术领域
本发明涉及医保风控领域,特别涉及一种医疗专业名词分类模型训练方法、分类方法及装置。
背景技术
医疗专业名词是医保风控数据中的重要线索来源,标准化处理的医疗专业名词提升了数据的价值。
在医疗专业名词标准化的过程中,包含对原始医保数据涉及到的医疗专业名词进行提取和分类的步骤。对于分类的步骤来说,由于不同数据来源的复杂性和差异性,导致原始医保数据对部分同一医疗专业名词可能划归于不同的细化分类之中,现有技术中主要依靠人工校对的方式对医疗专业名词进行分类得到这种细化分类,人工处理的方式容易将医疗专业名词进行错误的分类,效率较低且准确率不高,并且,对于医疗专业名词的标准化处理过程如果直接使用原始医保数据的类型,由于类型种类太多,也会拉低医疗专业名词的标准化整体效率。
基于此,如何实现高效地将医疗专业名词准确分类是一项亟待解决的问题,并且对实现医疗专业名词标准化和医疗资源共享具有十分重要的意义。
发明内容
本发明的发明人发现,现有技术中,依赖手工校对和手工补充的方式很难高效地对非标准医疗专业名词或者标准医疗专业名词进行分类,并且消耗大量人力,效率低。
鉴于上述问题,发明人提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种医疗专业名词分类模型训练方法、分类方法及装置。
第一方面,本发明实施例提供一种医疗专业名词分类模型训练方法,包括:
获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;
将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述各医疗专业名词对应的特征向量,作为第一特征向量;
根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本,并将所述训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
在一个实施例中,所述分类模型为XGBoost模型或者随机森林模型。
在一个实施例中,所述孪生网络为SBERT模型。
第二方面,本发明实施例提供一种医疗专业名词分类的方法,包括:
获取待分类的医疗专业名词;
将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述待分类的医疗专业名词对应的特征向量,作为第二特征向量;
将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将所述第二类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息;
所述第一医疗专业名词分类模型是通过如前所述的医疗专业名词分类模型训练方法得到的。
在一个实施例中,还包括:
获取原始数据中所述待分类的医疗专业名词对应的类型信息,作为原始类型信息;
则相应地,在所述得到第二类型标签的步骤之后,还包括:
判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致;
若不一致,则将原始类型标签与所述第二特征向量进行向量拼接,得到拼接向量;其中,所述原始类型标签为所述原始类型信息对应的类型标签;
将所述拼接向量输入至第二医疗专业名词分类模型进行分类识别,得到第三类型标签,将所述第三类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。
在一个实施例中,在所述判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致之前,还包括:
若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同,根据预先建立的原始类型信息与第二类型标签之间的映射关系,确定所述原始类型信息映射后对应的类型信息,作为第四类型标签;
则相应地,所述判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致,具体为:判断所述第四类型标签表征的类型信息,与所述原始类型信息映射后对应的类型信息是否一致。
第三方面,本发明实施例提供一种医疗专业名词分类模型训练装置,包括:
第一获取模块:用于获取数据库中各医疗专业名词及预先确定的所述医疗专业名词对应的类型标签,作为第一类型标签;
第一特征提取模块:用于将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述各医疗专业名词对应的特征向量,作为第一特征向量;
训练模块:用于根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本,并将所述训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
第四方面,本发明实施例提供一种医疗专业名词分类的装置,包括:
第二获取模块,用于获取待分类的医疗专业名词;
第二特征提取模块,用于将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述待分类的医疗专业名词对应的特征向量,作为第二特征向量;
分类模块,用于将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将所述第二类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息;
所述第一医疗专业名词分类模型是通过如前所述的医疗专业名词分类模型训练方法得到的。
第五方面,本发明实施例提供一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前所述的医疗专业名词分类模型训练方法或如前所述的医疗专业名词分类的方法。
第六方面,本发明实施例提供一种电子设备,存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的医疗专业名词分类模型训练方法或如前所述的医疗专业名词分类的方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的医疗专业名词分类模型训练方法,包含对医疗专业名词的特征提取和分类的两个步骤,将提取出的各医疗专业名词以及与各医疗专业名词对应的第一类型标签,通过使用孪生网络训练好的文本向量化模型对各医疗专业名词进行向量提取,得到与各医疗专业名词对应的第一特征向量,相比现有技术中的向量提取的方式,由于采用孪生网络训练好的文本向量化模型进行向量提取,能够获得语义上有意义的文本向量,并且通过孪生网络训练好的文本向量化模型使用余弦相似度或曼哈顿距离等进行比较,从而找到语义相似的文本,可使得提取的特征向量能够更好地表征原有信息(医疗专业名词),并更好地学习特征向量与对应的类别之间的匹配关系,保证训练得到第一医疗专业名词分类模型更准确,克服了现有技术中使用人工方式对医疗专业名词进行分类带来的效率低下和准确不高的问题,提高了对医疗专业名词进行分类的效率和准确率,为后续医疗专业名词的标准化处理过程,提供了一个较好的数据支撑。
本发明实施例提供的医疗专业名词分类的方法,通过训练好的第一医疗专业名词分类模型,输出待分类医疗专业名词对应的第二类型标签,并根据输出的第二类型标签,是否与待分类医疗专业名词对应的原始类型信息一致,如果不一致,则将原始类型标签与第二特征向量拼接得到的拼接向量输入至第二医疗专业名词分类模型得到最终的分类结果,通过该反馈机制,使用不同的医疗专业名词分类模型来矫正第一医疗专业名词分类模型的输出结果,进一步保证了分类结果的准确性。
进一步地,在本发明实施例中,通过预先建立的原始类型信息与第二类型标签之间的映射关系,来验证第一医疗专业名词分类模型输出的分类标签表征的分类信息,与待分类的医疗专业名词对应的原始类型标签表征的分类信息是否一致,实施过程简单,结果准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中医疗专业名词分类模型训练方法的流程图;
图2为本发明实施例中SBERT模型的训练框架;
图3为本发明实施例中医疗专业名词分类的方法的流程图之一;
图4为本发明实施例中医疗专业名词分类的方法的流程图之二;
图5为本发明实施例中医疗专业名词分类模型训练装置的结构示意图;
图6为本发明实施例中医疗专业名词分类的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的难以高效便捷地对医疗领域的医疗专业名词进行分类的问题,本发明实施例提供一种医疗专业名词分类模型训练方法,其实施流程参照图1所示,包括如下步骤:
步骤S1:获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;
步骤S2:将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到各医疗专业名词对应的特征向量,作为第一特征向量;
步骤S3:根据各医疗专业名词对应的第一特征向量和第一类型标签生成训练样本,并将训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
上述步骤S1中,从数据库中获取各医疗专业名词及各医疗专业名词对应的类型标签,作为训练预搭建的分类模型进行训练的初始数据。
本发明实施例中,从数据库中获取的医疗专业名词可以仅为标准医疗专业名词,也可以是仅为非标准的医疗专业名词,还可以同时包含两者,本发明实施例对此不做限定。
本发明实施例中,将医疗领域内标准和规范使用的术语称为标准医疗专业名词,而将口语化的、约定俗成的术语,或者一些术语的简称等等,称为非标准医疗专业名词。
在从数据库中提取各医疗专业名词时,需要剔除数据库中除了医疗专业名词之外的数据,避免噪音数据对模型训练的干扰,提高了分类模型的训练效率和准确率。
上述步骤S2中,通过预先使用孪生网络训练好的文本向量化模型对各医疗专业名词进行向量提取,得到与各医疗专业名词对应的第一特征向量,相比现有技术中的向量提取的方式,由于采用孪生网络训练好的文本向量化模型进行向量提取,能够获得语义上有意义的文本向量,并且该文本向量化模型使用余弦相似度或曼哈顿距离等进行比较从而找到语义相似的文本,可使得提取的特征向量能够更好地表征原有信息(医疗专业名词),并更好地学习特征向量与对应的类别之间的匹配关系,保证训练得到第一医疗专业名词分类模型更准确。
上述步骤S3中,使用样本集,对预搭建的分类模型进行训练,例如可采用有监督的学习的训练方法,即将样本集划分为训练集和测试集,通过训练样本进行训练,并通过验证集验证学习效果,并反向调整分类模型的参数,使得模型的损失函数不断收敛,直至损失函数的损失达到预设的条件,本发明实施例对训练过程并不做限定,可根据实际采用的分类模型采用对应的训练方式,在此仅示例而已。
本发明实施例利用医疗专业名词的向量和对应的第一类型标签作为训练样本,训练预搭建的分类模型,使得分类模型可以较好地识别医疗专业名词与对应类型之间的关系,保证第一医疗专业名词分类模型输出结果的准确性,实现对医疗专业名词进行高效地、准确地分类。
在一些可选的实施例中,上述步骤S1中,获取的各医疗专业名词,在数据库的原始数据中,保存有原始类型信息,在此称为细分类信息,该细分类信息例如可以是根据医疗专业名词对应的收费类别名称来划分的,举例来说, 数据库中包含16个收费类别名称,分别是: “西药费”、“床位费”、 “化验费”、 “护理费”、“治疗费”、“检查费”、“中成药费”、“诊察费”、“中草药费”、“手术费”、“其他费”、“输血费”、“空调费”、“卫生材料费”、“输氧费”和“挂号费”,那么对应的细分类别信息为:“西药”、“床位”、 “化验”、 “护理”、“治疗”、“检查”、“中成药”、“诊察”、“中草药”、“手术”、“其他”、“输血”、“空调”、“卫生材料”、“输氧”和“挂号”等,医疗专业名词“冬凌草”是一种中草药,其实际收费类别名称为“中草药费”,则“冬凌草”对应的细分类信息为“中草药”,又比如,医疗专业名词“西地碘含片”是一种西药,实际收费类别名称为“西药费”,则“西地碘含片”对应的细分类信息为“西药”。
而为了使得医疗专业名词的分类更好地与医疗行业内的字典、各种标准库中的分类相对应或适配,为后续数据分析做支撑,本发明实施例需要对训练过程中使用的医疗专业名词进行第一类型的划分,这种划分,是依据医疗行业内的字典、各种标准库中的分类来的。并针对作为训练样本的医疗专业名词的分类,需要预先确定其对应的类型标签(标注过程),这个类型标签,在本发明实施例中称为第一类型标签。第一类型标签例如可以是通过人工标注得到,或者其他模型输出的,本发明实施例并不限定。
举例来说,第一类型标签包括但不限于下述几种类型信息的标签:“疾病”、“药品”、“医疗服务项目”、“耗材”和“中草药”五种。为了与上述细分类信息相区分,将该五种分类信息的标签称为粗分类标签,比如医疗专业名词“糖尿病”,对应的粗分类标签为“疾病”,又比如医疗专业名词“磁共振平扫(0.5T一下)”,对应的粗分类标签为“医疗服务项目”等等。
在一些可选的实施例中,上述步骤S2,将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到各医疗专业名词对应的特征向量,作为第一特征向量:其中,孪生网络例如可以为SBERT模型。SBERT模型通过使用孪生(Siamese)网络结构来获得语义上有意义的句子向量,并通过模型内部的余弦相似度等算法对句子向量进行比较的方式,找到语义相似的句子,相比其他特征提取的模型而言,SBERT模型在文本语义相似度的计算上效率更高,参照图2所示,训练完成的SBERT模型中的BERT模型和pooling两部分(比如左路的分支)构成了最终的文本向量化模型,可根据输入的文本,输出对应的文本向量,例如,在本发明实施例中,第一特征向量可以是医疗专业名词经过文本向量化模型输出得到的含有语义的512维的向量。
在一些可选的实施例中,上述步骤S3中,将各医疗专业名词对应的第一特征向量和对应的第一类型标签作为一个训练样本,生成样本集,输入至预搭建的分类模型中进行训练,其中,分类模型例如可以是XGBoost模型或者随机森林模型。
由于XGBoost模型中加入了正则项,使学习出来的模型更简单,有助于防止过拟合的现象,并且XGBoost模型的计算量小,计算速度高,内部对损失函数进行了二阶泰勒展开,因此是学习出来的模型精度也更高,拥有较高精度、灵活性强、列抽样防止过拟合等优势。
随机森林模型也是常见的分类模型,是一种利用多棵树对样本进行训练并预测的分类器,具有学习率较高、准确率较高的优点。当然,本发明实施例并不限于上述两种分类模型。
在上述步骤S3生成样本集的过程中,还可以将样本集划分为训练样本集和验证样本集,例如可以是:将90%的样本作为用于训练的训练样本集,将10%的样本作为用于验证的测试样本集,将样本集输入预先选择的XGBoost模型中进行训练,并同时监控验证的结果,对XGBoost模型的参数进行调整,当损失函数不再下降时,第一医疗专业名词分类模型训练完成。
经过上述医疗专业名词分类模型训练方法训练得到第一医疗专业名词分类模型之后,本发明实施例还可以利用第一医疗专业名词分类模型预测未知类型的医疗专业名词的分类结果。基于此,本发明实施例还提供一种医疗专业名词分类的方法,其流程参照图3所示,包括如下步骤:
步骤S21:获取待分类的医疗专业名词;
步骤S22:将待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到待分类的医疗专业名词对应的特征向量,作为第二特征向量;
步骤S23:将第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将第二类型标签作为待分类的医疗专业名词的类型结果;其中,第二类型标签用于表征待分类的医疗专业名词所属的类型信息;
上述第一医疗专业名词分类模型是通过如前所述的医疗专业名词分类模型训练方法得到的。
在本发明实施例中,为了与训练过程中医疗专业名词所标注的类型标签相区分,将训练过程中医疗专业名词对应的粗分类信息的标签称为第一类型标签,在预测过程中第一医疗专业名词分类模型输出的标签称为第二类型标签,这两种标签均表征对应的粗分类型信息,例如前述“疾病”、“药品”、“医疗服务项目”、“耗材”和“中草药”五种。
在一些可选的实施例中,上述步骤S22中,对待分类的医疗专业名词进行特征提取,得到待分类的医疗专业名词所对应的第二特征向量,例如可以通过类似步骤S2中说明的方法实现,本发明实施例对此不再赘述。
在一些可选的实施例中,上述步骤S23中,将第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,第二类型标签用于表征待分类的医疗专业名词的粗分类信息(例如前述例子中“疾病”、“药品”、“医疗服务项目”、“耗材”和“中草药”中的某一种),具体的,对于输入的每个待分类的医疗专业名词,第一医疗专业名词分类模型输出的结果例如可以是一个数值,该数值代表了对应的某个粗分类信息。用一个例子进行说明:在第一医疗专业名词分类模型训练之前,预先设定各个粗分类信息所对应的数值来作为粗分类标签,比如,预先设定数值“0”表示“疾病”、数值“1”表示“药品”、数值“2”表示“中草药”、数值“3”表示“医疗服务项目”、数值“4”表示“耗材”,比如对于医疗专业名词“84消毒液”来说,其正确的粗分类信息为“耗材”,当“84消毒液”对应的第二特征向量输入至第一医疗专业名词分类模型后,第一医疗专业名词分类模型将输出整数“4”,表示“84消毒液”对应的第二类型标签为“4”,换言之,“84消毒液”对应的粗分类信息为“耗材”。
当然,第一医疗专业名词分类模型输出也可以是其他的表现形式,本发明实施例对此不做限定。
用一个具体的例子说明第一医疗专业名词分类模型输出的结果,如下表1所示,左边一列是待分类的医疗专业名词,右边一列是第一医疗专业名词分类模型输出的与待分类的医疗专业名词对应的第二类型标签,每行数据代表某个医疗专业名词通过第一医疗专业名词分类模型得到的对应的分类结果,以第一行数据为例,医疗专业名词“医用胶带”,通过第一医疗专业名词分类模型输出第二类型标签,即输出数值4,数值4代表“耗材”,由此我们可以得出以下结论:“医用胶带”的分类结果为“耗材”:
表1:
Figure SMS_1
/>
为了保证第一医疗专业名词分类模型输出的结果的准确性,本发明实施例还提供了一种反馈机制,可对第一医疗专业名词分类模型输出的结果的准确性进行验证,并在验证发现其不准确的情况下,对其进行校正。参照图4所示,该机制可包括如下步骤:
步骤S31:获取待分类的医疗专业名词,将待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到待分类的医疗专业名词对应的特征向量,作为第二特征向量;将第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签;
步骤S32:获取原始数据中待分类的医疗专业名词对应的类型信息,作为原始类型信息;
如原始类型信息,可参照前述细分类信息的说明,在此不再赘述。
步骤S33:判断第二类型标签表征的类型信息,与原始类型信息是否一致;
步骤S34:若不一致,则将原始类型标签与第二特征向量进行向量拼接,得到拼接向量;其中,原始类型标签为原始类型信息对应的类型标签;
步骤S35:将拼接向量输入至第二医疗专业名词分类模型进行分类识别,得到第三类型标签,将第三类型标签作为待分类的医疗专业名词的类型结果;其中,第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。
步骤S36:若一致,则使用第二类型标签得到最终的分类结果。
在一些可选的实施例中,上述步骤S31,可参见前述S21-S23的步骤,本发明实施例在此不再赘述。
将第四类型标签表征的类型信息,与原始类型信息映射后对应的类型信息进行比较,判断两者是否一致的结果,可能出现以下三种情况:(1)、第二类型标签所表征的类型信息与原始类型信息不一致;(2)、待分类的医疗专业名词的原始类型信息为空;(3)、第二类型标签所表征的类型信息与原始类型信息一致。
上述不一致情况的处理过程可参见步骤S34和步骤S35,一致的情况可参见步骤S36。为空的情况,可参照S36即一致的情况下的处理方法。
在一些可选的实施例中,上述步骤S33中,若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同,根据预先建立的原始类型信息与第二类型标签之间的映射关系,确定原始类型信息映射后对应的类型信息,作为第四类型标签;相应地,判断第二类型标签表征的类型信息,与原始类型信息是否一致,具体为:判断第四类型标签表征的类型信息,与原始类型信息映射后对应的类型信息是否一致。
在该反馈机制中,利用原始数据中的原始类型信息(例如前述细分类信息)来判断第一医疗专业名词分类模型分类结果的准确性,并在分类结果的准确性不高的情况下,使用另外一个分类模型即第二医疗专业名词分类模型的输出结果来校正第一分类模型的输出结果,通过两个分类模型,可充分保证最终的分类结果的准确性。
用一个具体的例子说明第二类型标签(粗分类标签)所表征的类型信息与原始类型信息不一致的情况,例如,医疗专业名词“桑枝”,在原始数据中的原始类型信息为“中草药”,将“桑枝”的特征向量输入至第一医疗专业名词分类模型中,输出的类型标签代表的类型信息为“耗材”,根据预先建立的原始类型信息与第二类型标签之间的映射关系,确定“桑枝”的第二类型标签表征的类型信息与原始类型信息不一致,则将得到的原始类型标签与第二特征向量进行向量拼接,得到拼接向量的步骤再输入到第二医疗专业名词分类模型进行分类识别,根据第二医疗专业名词分类模型输出的类型标签得到最终的分类结果。
上述步骤S35中,第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的,例如,采用某种XGBoost分类模型(与第一医疗专业名词分类模型所使用的分类模型的架构不一样)对样本数据进行学习,得到训练好的第二医疗专业名词分类模型,该模型训练使用的样本数据为医疗专业名词和所对应的细分类标签的组合,第二医疗专业名词分类模型的训练过程与第一医疗专业名词分类模型的训练过程类似,本发明实施例在此不再赘述。
基于同一发明构思,本发明实施例还提供一种医疗专业名词分类模型训练装置,该装置的结构如图5所示,包括:
第一获取模块41:用于获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;
第一特征提取模块42:用于将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到各医疗专业名词对应的特征向量,作为第一特征向量;
训练模块43:用于根据各医疗专业名词对应的第一特征向量和第一类型标签生成训练样本,并将训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
关于上述实施例中的医疗专业名词分类模型训练装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本发明实施例还提供一种医疗专业名词分类的装置,该装置的结构如图6所示,包括:
第二获取模块51,用于获取待分类的医疗专业名词;
第二特征提取模块52,用于将待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到待分类的医疗专业名词对应的特征向量,作为第二特征向量;
分类模块53,用于将第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将第二类型标签作为待分类的医疗专业名词的类型结果;其中,第二类型标签用于表征待分类的医疗专业名词所属的类型信息;
第一医疗专业名词分类模型是通过如前所述的医疗专业名词分类模型训练方法得到的。
关于上述实施例中的医疗专业名词分类的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令被处理器执行时实现如前所述的医疗专业名词分类模型训练方法或如前所述的医疗专业名词分类的方法。
基于同一发明构思,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如前所述的医疗专业名词分类模型训练方法或如前所述的医疗专业名词分类的方法。
除非另外具体陈述,术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算***、或类似设备的动作和/或过程,所述动作和/或过程将表示为处理***的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理***的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如,在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个***所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (10)

1.一种医疗专业名词分类模型训练方法,其特征在于,包括:
获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;
将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述各医疗专业名词对应的特征向量,作为第一特征向量;
根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本,并将所述训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
2.如权利要求1所述的方法,其特征在于,所述分类模型为XGBoost模型或者随机森林模型。
3.如权利要求1所述的方法,其特征在于,所述孪生网络为SBERT模型。
4.一种医疗专业名词分类的方法,其特征在于,包括:
获取待分类的医疗专业名词;
将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述待分类的医疗专业名词对应的特征向量,作为第二特征向量;
将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将所述第二类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息;
所述第一医疗专业名词分类模型是通过如权利要求1-3任一所述的医疗专业名词分类模型训练方法得到的。
5.如权利要求4所述的方法,其特征在于,还包括:
获取原始数据中所述待分类的医疗专业名词对应的类型信息,作为原始类型信息;
则相应地,在所述得到第二类型标签的步骤之后,还包括:
判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致;
若不一致,则将原始类型标签与所述第二特征向量进行向量拼接,得到拼接向量;其中,所述原始类型标签为所述原始类型信息对应的类型标签;
将所述拼接向量输入至第二医疗专业名词分类模型进行分类识别,得到第三类型标签,将所述第三类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。
6.如权利要求5所述的方法,其特征在于,在所述判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致之前,还包括:
若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同,根据预先建立的原始类型信息与第二类型标签之间的映射关系,确定所述原始类型信息映射后对应的类型信息,作为第四类型标签;
则相应地,所述判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致,具体为:判断所述第四类型标签表征的类型信息,与所述原始类型信息映射后对应的类型信息是否一致。
7.一种医疗专业名词分类模型训练装置,其特征在于,包括:
第一获取模块:用于获取数据库中各医疗专业名词及预先确定的所述医疗专业名词对应的类型标签,作为第一类型标签;
第一特征提取模块:用于将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述各医疗专业名词对应的特征向量,作为第一特征向量;
训练模块:用于根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本,并将所述训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
8.一种医疗专业名词分类的装置,其特征在于,包括:
第二获取模块,用于获取待分类的医疗专业名词;
第二特征提取模块,用于将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述待分类的医疗专业名词对应的特征向量,作为第二特征向量;
分类模块,用于将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将所述第二类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息;
所述第一医疗专业名词分类模型是通过如权利要求1-3任一所述的医疗专业名词分类模型训练方法得到的。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1-3任一所述的医疗专业名词分类模型训练方法或如权利要求4-6任一项所述的医疗专业名词分类的方法。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-3任一所述的医疗专业名词分类模型训练方法或如权利要求4-6任一项所述的医疗专业名词分类的方法。
CN202310422796.9A 2023-04-19 2023-04-19 一种医疗专业名词分类模型训练方法、分类方法及装置 Active CN116186271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310422796.9A CN116186271B (zh) 2023-04-19 2023-04-19 一种医疗专业名词分类模型训练方法、分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310422796.9A CN116186271B (zh) 2023-04-19 2023-04-19 一种医疗专业名词分类模型训练方法、分类方法及装置

Publications (2)

Publication Number Publication Date
CN116186271A true CN116186271A (zh) 2023-05-30
CN116186271B CN116186271B (zh) 2023-07-25

Family

ID=86434773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310422796.9A Active CN116186271B (zh) 2023-04-19 2023-04-19 一种医疗专业名词分类模型训练方法、分类方法及装置

Country Status (1)

Country Link
CN (1) CN116186271B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN112417863A (zh) * 2020-11-27 2021-02-26 中国科学院电子学研究所苏州研究院 基于预训练词向量模型与随机森林算法的中文文本分类方法
WO2021179712A1 (zh) * 2020-10-22 2021-09-16 平安科技(深圳)有限公司 心电信号分类模型的训练方法、心电信号分类方法及装置
CN113593661A (zh) * 2021-07-07 2021-11-02 青岛国新健康产业科技有限公司 临床术语标准化方法、装置、电子设备及存储介质
US20220138456A1 (en) * 2020-10-30 2022-05-05 National Dong Hwa University Method and computer program product and apparatus for diagnosing tongues based on deep learning
WO2022160490A1 (zh) * 2021-01-29 2022-08-04 平安科技(深圳)有限公司 信息提取模型训练方法、装置、终端设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
WO2021179712A1 (zh) * 2020-10-22 2021-09-16 平安科技(深圳)有限公司 心电信号分类模型的训练方法、心电信号分类方法及装置
US20220138456A1 (en) * 2020-10-30 2022-05-05 National Dong Hwa University Method and computer program product and apparatus for diagnosing tongues based on deep learning
CN112417863A (zh) * 2020-11-27 2021-02-26 中国科学院电子学研究所苏州研究院 基于预训练词向量模型与随机森林算法的中文文本分类方法
WO2022160490A1 (zh) * 2021-01-29 2022-08-04 平安科技(深圳)有限公司 信息提取模型训练方法、装置、终端设备及存储介质
CN113593661A (zh) * 2021-07-07 2021-11-02 青岛国新健康产业科技有限公司 临床术语标准化方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116186271B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN116150382B (zh) 一种确定标准化医疗专业名词的方法及装置
CN110287337A (zh) 基于深度学习和知识图谱获取医学同义词的***及方法
CN112541056A (zh) 医学术语标准化方法、装置、电子设备及存储介质
CN111191415A (zh) 基于原始手术数据的手术分类编码方法
CN114912887B (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN111180025A (zh) 表示病历文本向量的方法、装置及问诊***
CN113420122A (zh) 分析文本的方法、装置、设备及存储介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN109284497B (zh) 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN114298314A (zh) 一种基于电子病历的多粒度因果关系推理方法
CN112732863B (zh) 电子病历标准化切分方法
CN110688411A (zh) 一种文本识别方法及装置
Kovtun et al. Entropy-argumentative concept of computational phonetic analysis of speech taking into account dialect and individuality of phonation
CN112749277B (zh) 医学数据的处理方法、装置及存储介质
CN113453065A (zh) 一种基于深度学习的视频分段方法、***、终端及介质
CN116186271B (zh) 一种医疗专业名词分类模型训练方法、分类方法及装置
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
Hacine-Gharbi et al. Prosody based Automatic Classification of the Uses of French ‘Oui’as Convinced or Unconvinced Uses
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN115934948A (zh) 一种基于知识增强的药物实体关系联合抽取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant