CN113836901B - 一种中英文医学同义词数据清洗方法及*** - Google Patents
一种中英文医学同义词数据清洗方法及*** Download PDFInfo
- Publication number
- CN113836901B CN113836901B CN202111074910.0A CN202111074910A CN113836901B CN 113836901 B CN113836901 B CN 113836901B CN 202111074910 A CN202111074910 A CN 202111074910A CN 113836901 B CN113836901 B CN 113836901B
- Authority
- CN
- China
- Prior art keywords
- data
- synonym
- chinese
- english
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims description 94
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 4
- 239000013589 supplement Substances 0.000 abstract description 3
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 3
- 206010067484 Adverse reaction Diseases 0.000 description 2
- 230000006838 adverse reaction Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种中英文医学同义词数据清洗方法及***,其方法包括:确定待清洗的中英文医学同义词数据;将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;其中,所述数据清洗模型是基于标准同义词数据训练得到的。本发明实现了借助AI技术对复杂零乱的非规整医学同义词数据进行清洗,更加准确、快速地解决数据处理工作的繁杂耗时长的问题,同时智能的补全医学缺失词汇,补全医学同义词数据清晰的短板。
Description
技术领域
本发明涉及医学数据处理技术领域,尤其涉及一种中英文医学同义词数据清洗方法及***。
背景技术
近年来,随着互联网技术的不断深入发展,企业在数据产生、挖掘和使用过程中,数据量呈大幅度增长,特别是互联网+医疗产业规模的增长,对医学数据的质量要求不断提高。目前,获取到的医学数据中可能会存在大量的冗余、缺失以及许多垃圾数据和无用数据。为了满足业务需求、提升产品品质,需要将大量的非规整数据清洗出满足产品需求的高质量数据。然而,在医学数据中,医学同义词数据情况更为复杂,清洗难度也更大。
针对医学同义词数据的清洗,传统方法是根据已经较为成熟的医学词库,如:ICD数据、Mesh词库、WHO不良反应集等,通过文本字符串匹配进行词汇的校正和清洗过滤,这类方法可以较为精准的匹配医学同义词汇,但容易造成同义词数据遗漏且耗时较长。随着深度学习技术的发展,自然语言处理(NLP)中的文本分类任务已经被广泛研究。基于机器学习的NLP技术,尽管提高了准确率,但模型不能学习规则外的复杂语义,训练集质量对模型性能影响较大。而基于卷积神经网络、循环神经网络的NLP技术,通过对词向量进行学习,可以表征更加抽象、复杂的文本语义,进一步提高模型的性能,提升准确率。但是卷积神经网络更倾向于捕捉局部语义信息,而循环神经网络则没有同时考虑上下文语义,且存在长期依赖问题。
发明内容
本发明实施例提供一种中英文医学同义词数据清洗方法及***,用以解决目前医学同义词数据的清洗方法中存在上述部分或全部的问题。
第一方面,本发明实施例提供一种中英文医学同义词数据清洗方法,包括:
确定待清洗的中英文医学同义词数据;
将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;
其中,所述数据清洗模型是基于标准同义词数据训练得到的。
优选地,所述数据清洗模型包括数据加载与中英文判定模型、过滤器、中英文同义词训练模型;
将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果,包括:
将所述待清洗的中英文医学同义词数据输入所述数据加载与中英文判定模型,输出中英文数据的判定结果;
将所述中英文数据的判定结果输入所述过滤器,输出符合预设规则的过滤出的数据和不符合预设规则的数据;
将所述不符合预设规则的数据输入所述中英文同义词训练模型,输出所述数据清洗结果;
将所述符合预设规则的过滤出的数据融合入所述数据清洗结果。
优选地,所述标准同义词数据包括中文同义词标准集和英文同义词标准集;
所述中英文同义词训练模型包括中文同义词训练模型和英文同义词训练模型;
所述中文同义词训练模型是基于所述中文同义词标准集进行数据集微调得到的;
所述英文同义词训练模型是基于所述英文同义词标准集进行数据集微调得到的。
优选地,将所述不符合预设规则的数据输入所述中英文同义词训练模型,输出所述数据清洗结果,包括:
基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型,输出预测出的正类数据和负类数据,并判断所述预测出的正类数据占比是否达到预设比例:
若达到预设比例,则输出所述数据清洗结果;否则,将所述预测出的正类数据和所述预测出的负类数据扩充到所述中文同义词标准集或所述英文同义词标准集,相应地对所述中文同义词训练模型或英文同义词训练模型进行训练后迭代更新所述数据清洗模型。
第二方面,本发明实施例提供一种中英文医学同义词数据清洗***,包括:
数据确定单元,用于确定待清洗的中英文医学同义词数据;
数据清洗单元,用于将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;
其中,所述数据清洗模型是基于标准同义词数据训练得到的。
优选地,所述数据清洗单元包括数据加载与中英文判定模块、过滤器、中英文同义词训练模块;
所述数据加载与中英文判定模块,用于输入所述待清洗的中英文医学同义词数据,输出中英文数据的判定结果;
所述过滤器,用于输入所述中英文数据的判定结果,输出符合预设规则的过滤出的数据和不符合预设规则的数据;
所述中英文同义词训练模块,用于输入所述不符合预设规则的数据,输出所述数据清洗结果,并将所述符合预设规则的过滤出的数据融合入所述数据清洗结果。
优选地,所述标准同义词数据包括中文同义词标准集和英文同义词标准集;
所述中英文同义词训练模块包括中文同义词训练模型和英文同义词训练模型;
其中,所述中文同义词训练模型是基于所述中文同义词标准集进行数据集微调得到的;
所述英文同义词训练模型是基于所述英文同义词标准集进行数据集微调得到的。
优选地,所述中英文同义词训练模块,具体用于基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型,输出预测出的正类数据和负类数据,并判断所述预测出的正类数据占比是否达到预设比例:
若达到预设比例,则输出所述数据清洗结果;否则,将所述预测出的正类数据和所述预测出的负类数据扩充到所述中文同义词标准集或所述英文同义词标准集,相应地对所述中文同义词训练模型或英文同义词训练模型进行训练后迭代更新所述数据清洗模型。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述中英文医学同义词数据清洗方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述中英文医学同义词数据清洗方法的步骤。
本发明实施例提供的一种中英文医学同义词数据清洗方法及***,通过将待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;所述数据清洗模型是基于标准同义词数据训练得到的。本发明借助了生物医学预训练模型对医学同义词数据进行清洗,可以对冗余数据、垃圾数据和无用数据进行清洗,对缺失数据进行精准补全,从而高效率地解决枯燥的医学数据的清洗问题,让高质量的医学数据助力互联网辅助临床诊断,配合医生作出更加全面、准确的临床决策。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种中英文医学同义词数据清洗方法的流程示意图;
图2是本发明提供的一种中英文医学同义词数据清洗***的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明将前沿的NLP技术应用到了生物医学同义词数据清洗中,通过特定的判定规则与预训练模型相结合的方法进行医学同义词数据的清洗,具有以下几个关键点:
1)使用标准同义词数据作为训练集微调(fine-tuning)模型;
2)通过对模型的准确率、f值等指标的评估确立清洗跳出机制;
3)通过循环扩充训练数据不断提升模型质量来完成数据清洗;
4)能够为大规模数据的清洗问题提供清洗思路,并且流程较为自动化,降低人力成本与人为因素对数据清洗的影响。
下面结合图1-图3描述本发明提供的一种中英文医学同义词数据清洗方法及***。
本发明实施例提供了一种中英文医学同义词数据清洗方法。图1为本发明实施例提供的中英文医学同义词数据清洗方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待清洗的中英文医学同义词数据;
步骤120,将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;
其中,所述数据清洗模型是基于标准同义词数据训练得到的。
本发明实施例提供的方法,借助AI技术对复杂零乱的非规整医学同义词数据进行清洗,更加准确、快速地解决数据处理工作的繁杂耗时长的问题,同时智能的补全医学缺失词汇,补全医学同义词数据清晰的短板。
基于上述任一实施例,所述数据清洗模型包括数据加载与中英文判定模型、过滤器、中英文同义词训练模型;
将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果,包括:
将所述待清洗的中英文医学同义词数据输入所述数据加载与中英文判定模型,输出中英文数据的判定结果;
具体地,将待筛选数据送入数据加载与中英文判定模块,断出中英文数据后送入过滤器,分别依据过滤器规则进行判断,将符合规则的数据融合纳入最终清洗结果,不符合过滤器规则的数据送入对应的中英文SynonymBert模型。
将所述中英文数据的判定结果输入所述过滤器,输出符合预设规则的过滤出的数据和不符合预设规则的数据;
需要说明的是,过滤器的预设规则是根据上述医学词库和临床医生筛选负类数据过程中的数据特征,总结出的一套可以过滤掉部分负类数据的规则。也即,将待清洗数据送入过滤器进行规则判定,将无法判定的送入中英文SynonymBert模型。
将所述不符合预设规则的数据输入所述中英文同义词训练模型,输出所述数据清洗结果;
将所述符合预设规则的过滤出的数据融合入所述数据清洗结果。
基于上述任一实施例,所述标准同义词数据包括中文同义词标准集和英文同义词标准集;
具体地,基于ICD10、Mesh词库、WHO不良反应集以及A公司自建医学同义词典等医学术语库经过专业临床医生筛选出符合临床标准的医学同义词作为标准集的正类数据,筛选出不符合临床标准的医学词作为标准集的负类数据,由正类数据和负类数据构成训练数据的标准集。
所述中英文同义词训练模型包括中文同义词训练模型和英文同义词训练模型;
所述中文同义词训练模型是基于所述中文同义词标准集进行数据集微调得到的;
所述英文同义词训练模型是基于所述英文同义词标准集进行数据集微调得到的。
具体地,中英文同义词训练模型即SynonymBert模型根据需要清洗的数据语种不同分为ChSynonymBert和EnSynonymBert,目前仅支持中英文数据清洗。其中ChSynonymBert是在中文Bert的基础上,通过800余万医学同义词汇数据继续训练然后通过使用中文同义词标准集进行fine-tuning得到的中文同义词预训练模型,EnSynonymBert是在BioBert的基础上,通过1000余万医学同义词汇数据继续训练然后通过使用英文同义词标准集进行fine-tuning得到的英文同义词预训练模型。
需要说明的是,预训练模型Bert(Bidirectional Encoder Representation fromTransformers)发布后,产生了多个Bert生物医学领域预训练模型变种(如:BioBert、PubMedBert等),为借助NLP算法对医学数据清洗提供了新的思路。生物医学预训练模型通过在大规模无标注的生物医学语料上进行自监督学习,获得与任务无关的模型,然后在具体任务上进行微调。该类模型可以更好的理解上下文信息,表征文本语义,在医学文本任务上的准确率不断创出新高。
基于上述任一实施例,将所述不符合预设规则的数据输入所述中英文同义词训练模型,输出所述数据清洗结果,包括:
基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型,输出预测出的正类数据和负类数据,并判断所述预测出的正类数据占比是否达到预设比例:
若达到预设比例,则输出所述数据清洗结果;否则,将所述预测出的正类数据和所述预测出的负类数据扩充到所述中文同义词标准集或所述英文同义词标准集,相应地对所述中文同义词训练模型或英文同义词训练模型进行训练后迭代更新所述数据清洗模型。
具体地,中英文SynonymBert模型通过对接收到的数据的推理,得到预测为正类和预测为负类的数据,然后通过正类数据占接收到的过滤器数据的比例是否达到80%(可根据当前数据质量自由调整)来决定是否输出清洗结果,如果未达到80%则将模型预测为正类和预测为负类的数据扩充到原始的标准化数据集中继续对模型进行训练,用训练好的最优模型自动替换掉原SynonymBert模型,循环执行以上流程完成同义词数据清洗。
下面对本发明提供的一种中英文医学同义词数据清洗***进行描述,下文描述的与上文描述的一种中英文医学同义词数据清洗方法可相互对应参照。
图2为本发明实施例提供的一种中英文医学同义词数据清洗***的结构示意图,如图2所示,该***包括数据确定单元210和数据清洗单元220;
所述数据确定单元210,用于确定待清洗的中英文医学同义词数据;
所述数据清洗单元220,用于将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;
其中,所述数据清洗模型是基于标准同义词数据训练得到的。
本发明实施例提供的***,借助AI技术对复杂零乱的非规整医学同义词数据进行清洗,更加准确、快速地解决数据处理工作的繁杂耗时长的问题,同时智能的补全医学缺失词汇,补全医学同义词数据清晰的短板。
基于上述任一实施例,所述数据清洗单元包括数据加载与中英文判定模块、过滤器、中英文同义词训练模块;
所述数据加载与中英文判定模块,用于输入所述待清洗的中英文医学同义词数据,输出中英文数据的判定结果;
所述过滤器,用于输入所述中英文数据的判定结果,输出符合预设规则的过滤出的数据和不符合预设规则的数据;
所述中英文同义词训练模块,用于输入所述不符合预设规则的数据,输出所述数据清洗结果,并将所述符合预设规则的过滤出的数据融合入所述数据清洗结果。
基于上述任一实施例,所述标准同义词数据包括中文同义词标准集和英文同义词标准集;
所述中英文同义词训练模块包括中文同义词训练模型和英文同义词训练模型;
其中,所述中文同义词训练模型是基于所述中文同义词标准集进行数据集微调得到的;
所述英文同义词训练模型是基于所述英文同义词标准集进行数据集微调得到的。
基于上述任一实施例,所述中英文同义词训练模块,具体用于基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型,输出预测出的正类数据和负类数据,并判断所述预测出的正类数据占比是否达到预设比例:
若达到预设比例,则输出所述数据清洗结果;否则,将所述预测出的正类数据和所述预测出的负类数据扩充到所述中文同义词标准集或所述英文同义词标准集,相应地对所述中文同义词训练模型或英文同义词训练模型进行训练后迭代更新所述数据清洗模型。
图3为本发明实施例提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行中英文医学同义词数据清洗方法,该方法包括:确定待清洗的中英文医学同义词数据;将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;其中,所述数据清洗模型是基于标准同义词数据训练得到的。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的中英文医学同义词数据清洗方法,该方法包括:确定待清洗的中英文医学同义词数据;将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;其中,所述数据清洗模型是基于标准同义词数据训练得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的中英文医学同义词数据清洗方法,该方法包括:确定待清洗的中英文医学同义词数据;将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;其中,所述数据清洗模型是基于标准同义词数据训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种中英文医学同义词数据清洗方法,其特征在于,包括:
确定待清洗的中英文医学同义词数据;
将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;
其中,所述数据清洗模型是基于标准同义词数据训练得到的;
所述数据清洗模型包括数据加载与中英文判定模型、过滤器、中英文同义词训练模型;
将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果的步骤包括:
将所述待清洗的中英文医学同义词数据输入所述数据加载与中英文判定模型,输出中英文数据的判定结果;
将所述中英文数据的判定结果输入所述过滤器,输出符合预设规则的过滤出的数据和不符合预设规则的数据;
将所述不符合预设规则的数据输入所述中英文同义词训练模型,输出所述数据清洗结果;
将所述符合预设规则的过滤出的数据融合入所述数据清洗结果;所述标准同义词数据包括中文同义词标准集和英文同义词标准集;
所述中英文同义词训练模型包括中文同义词训练模型和英文同义词训练模型;
所述中文同义词训练模型是在中文Bert模型的基础上基于所述中文同义词标准集进行数据集微调得到的;
所述英文同义词训练模型是在BioBert模型的基础上基于所述英文同义词标准集进行数据集微调得到的。
2.根据权利要求1所述的中英文医学同义词数据清洗方法,其特征在于,将所述不符合预设规则的数据输入所述中英文同义词训练模型,输出所述数据清洗结果,包括:
基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型,输出预测出的正类数据和负类数据,并判断所述预测出的正类数据占比是否达到预设比例:
若达到预设比例,则输出所述数据清洗结果;否则,将所述预测出的正类数据和所述预测出的负类数据扩充到所述中文同义词标准集或所述英文同义词标准集,相应地对所述中文同义词训练模型或英文同义词训练模型进行训练后迭代更新所述数据清洗模型。
3.一种中英文医学同义词数据清洗***,其特征在于,包括:
数据确定单元,用于确定待清洗的中英文医学同义词数据;
数据清洗单元,用于将所述待清洗的中英文医学同义词数据输入至数据清洗模型,得到所述数据清洗模型输出的数据清洗结果;
其中,所述数据清洗模型是基于标准同义词数据训练得到的;
所述数据清洗单元包括数据加载与中英文判定模块、过滤器、中英文同义词训练模块;
所述数据加载与中英文判定模块,用于输入所述待清洗的中英文医学同义词数据,输出中英文数据的判定结果;
所述过滤器,用于输入所述中英文数据的判定结果,输出符合预设规则的过滤出的数据和不符合预设规则的数据;所述中英文同义词训练模块,用于输入所述不符合预设规则的数据,输出所述数据清洗结果,并将所述符合预设规则的过滤出的数据融合入所述数据清洗结果;所述标准同义词数据包括中文同义词标准集和英文同义词标准集;
所述中英文同义词训练模块包括中文同义词训练模型和英文同义词训练模型;
其中,所述中文同义词训练模型是在中文Bert模型的基础上基于所述中文同义词标准集进行数据集微调得到的;
所述英文同义词训练模型是在BioBert模型的基础上基于所述英文同义词标准集进行数据集微调得到的。
4.根据权利要求3所述的中英文医学同义词数据清洗***,其特征在于,所述中英文同义词训练模块,具体用于基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型,输出预测出的正类数据和负类数据,并判断所述预测出的正类数据占比是否达到预设比例:
若达到预设比例,则输出所述数据清洗结果;否则,将所述预测出的正类数据和所述预测出的负类数据扩充到所述中文同义词标准集或所述英文同义词标准集,相应地对所述中文同义词训练模型或英文同义词训练模型进行训练后迭代更新所述数据清洗模型。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述的中英文医学同义词数据清洗方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一项所述的中英文医学同义词数据清洗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111074910.0A CN113836901B (zh) | 2021-09-14 | 2021-09-14 | 一种中英文医学同义词数据清洗方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111074910.0A CN113836901B (zh) | 2021-09-14 | 2021-09-14 | 一种中英文医学同义词数据清洗方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836901A CN113836901A (zh) | 2021-12-24 |
CN113836901B true CN113836901B (zh) | 2023-11-14 |
Family
ID=78959327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111074910.0A Active CN113836901B (zh) | 2021-09-14 | 2021-09-14 | 一种中英文医学同义词数据清洗方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836901B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001001305A1 (en) * | 1999-06-25 | 2001-01-04 | International Diagnostic Technology, Inc. | Method and system for accessing medical data |
CN109960815A (zh) * | 2019-03-27 | 2019-07-02 | 河南大学 | 一种神经机器翻译nmt模型的创建方法及*** |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
CN111127385A (zh) * | 2019-06-06 | 2020-05-08 | 昆明理工大学 | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111738001A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 同义词识别模型的训练方法、同义词确定方法及设备 |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112417206A (zh) * | 2020-11-24 | 2021-02-26 | 杭州一知智能科技有限公司 | 基于两分支提议网络的弱监督视频时段检索方法及*** |
CN112528003A (zh) * | 2020-12-24 | 2021-03-19 | 北京理工大学 | 一种基于语义排序和知识修正的多项选择问答方法 |
CN112989848A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种领域适应医学文献神经机器翻译模型的训练方法 |
CN113111180A (zh) * | 2021-03-22 | 2021-07-13 | 杭州祺鲸科技有限公司 | 基于深度预训练神经网络的中文医疗同义词聚类方法 |
CN113361285A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、自然语言处理方法及装置 |
US11113175B1 (en) * | 2018-05-31 | 2021-09-07 | The Ultimate Software Group, Inc. | System for discovering semantic relationships in computer programs |
-
2021
- 2021-09-14 CN CN202111074910.0A patent/CN113836901B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001001305A1 (en) * | 1999-06-25 | 2001-01-04 | International Diagnostic Technology, Inc. | Method and system for accessing medical data |
US11113175B1 (en) * | 2018-05-31 | 2021-09-07 | The Ultimate Software Group, Inc. | System for discovering semantic relationships in computer programs |
CN109960815A (zh) * | 2019-03-27 | 2019-07-02 | 河南大学 | 一种神经机器翻译nmt模型的创建方法及*** |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111127385A (zh) * | 2019-06-06 | 2020-05-08 | 昆明理工大学 | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111738001A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 同义词识别模型的训练方法、同义词确定方法及设备 |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112417206A (zh) * | 2020-11-24 | 2021-02-26 | 杭州一知智能科技有限公司 | 基于两分支提议网络的弱监督视频时段检索方法及*** |
CN112528003A (zh) * | 2020-12-24 | 2021-03-19 | 北京理工大学 | 一种基于语义排序和知识修正的多项选择问答方法 |
CN113111180A (zh) * | 2021-03-22 | 2021-07-13 | 杭州祺鲸科技有限公司 | 基于深度预训练神经网络的中文医疗同义词聚类方法 |
CN112989848A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种领域适应医学文献神经机器翻译模型的训练方法 |
CN113361285A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、自然语言处理方法及装置 |
Non-Patent Citations (4)
Title |
---|
Domain-independent data cleaning via analysis of entity-relationship graph;Kalashnikov Dmitri V. 等;《ACM Transactions on Database Systems (TODS)》;第31卷(第2期);716-767 * |
Evaluation of dataset selection for pre-training and fine-tuning transformer language models for clinical question answering;Soni Sarvesh 等;《Proceedings of the Twelfth Language Resources and Evaluation Conference》;5532-5538 * |
基于BERT的心血管医疗指南实体关系抽取方法;武小平 等;《计算机应用》;第41卷(第1期);145-149 * |
生物医学文本挖掘若干关键技术研究;罗凌;《中国博士学位论文全文数据库医药卫生科技辑》(第06期);E080-12 * |
Also Published As
Publication number | Publication date |
---|---|
CN113836901A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134968B (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
CN111199795A (zh) | 用于提取语义三元组以建立知识库的*** | |
CN113361266B (zh) | 文本纠错方法、电子设备及存储介质 | |
TW201918913A (zh) | 機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體 | |
CN109858042B (zh) | 一种翻译质量的确定方法及装置 | |
CN111460833A (zh) | 文本生成方法、装置和设备 | |
CN106294466A (zh) | 分类模型构建方法、分类模型构建设备和分类方法 | |
CN111144137B (zh) | 机器翻译后编辑模型语料的生成方法及装置 | |
CN115048944B (zh) | 一种基于主题增强的开放域对话回复方法及*** | |
CN112307130B (zh) | 一种文档级远程监督关系抽取方法及*** | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN113836901B (zh) | 一种中英文医学同义词数据清洗方法及*** | |
CN110390093B (zh) | 一种语言模型建立方法及装置 | |
Liu et al. | Augmenting multi-turn text-to-SQL datasets with self-play | |
CN112347773A (zh) | 基于bert模型的医学应用模型训练方法及装置 | |
CN109657244B (zh) | 一种英文长句自动切分方法及*** | |
CN103019924B (zh) | 输入法智能性评测***和方法 | |
CN111898337A (zh) | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 | |
JP2021140558A (ja) | 学習装置及びプログラム | |
CN113033179B (zh) | 知识获取方法、装置、电子设备及可读存储介质 | |
CN111666734B (zh) | 序列标注方法及装置 | |
CN113988047A (zh) | 一种语料筛选方法和装置 | |
CN104537461A (zh) | 对企业内部控制制度进行合规性检查的方法和装置 | |
KR102600839B1 (ko) | 문장 유사관계 예측 모델을 이용한 요약 문서 생성 방법 및 장치, 요약 문서를 생성하는데 이용되는 문장 유사관계 예측 모델을 학습시키는 방법 및 장치 | |
CN111144095B (zh) | 一种工伤案件裁决书的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |