CN113836901B

CN113836901B - 一种中英文医学同义词数据清洗方法及***

Info

Publication number: CN113836901B
Application number: CN202111074910.0A
Authority: CN
Inventors: 王则远; 刘鹏
Original assignee: Lingxi Quantum Beijing Medical Technology Co ltd
Current assignee: Lingxi Quantum Beijing Medical Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-11-14
Anticipated expiration: 2041-09-14
Also published as: CN113836901A

Abstract

本发明提供一种中英文医学同义词数据清洗方法及***，其方法包括：确定待清洗的中英文医学同义词数据；将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；其中，所述数据清洗模型是基于标准同义词数据训练得到的。本发明实现了借助AI技术对复杂零乱的非规整医学同义词数据进行清洗，更加准确、快速地解决数据处理工作的繁杂耗时长的问题，同时智能的补全医学缺失词汇，补全医学同义词数据清晰的短板。

Description

一种中英文医学同义词数据清洗方法及***

技术领域

本发明涉及医学数据处理技术领域，尤其涉及一种中英文医学同义词数据清洗方法及***。

背景技术

近年来，随着互联网技术的不断深入发展，企业在数据产生、挖掘和使用过程中，数据量呈大幅度增长，特别是互联网+医疗产业规模的增长，对医学数据的质量要求不断提高。目前，获取到的医学数据中可能会存在大量的冗余、缺失以及许多垃圾数据和无用数据。为了满足业务需求、提升产品品质，需要将大量的非规整数据清洗出满足产品需求的高质量数据。然而，在医学数据中，医学同义词数据情况更为复杂，清洗难度也更大。

针对医学同义词数据的清洗，传统方法是根据已经较为成熟的医学词库，如：ICD数据、Mesh词库、WHO不良反应集等，通过文本字符串匹配进行词汇的校正和清洗过滤，这类方法可以较为精准的匹配医学同义词汇，但容易造成同义词数据遗漏且耗时较长。随着深度学习技术的发展，自然语言处理(NLP)中的文本分类任务已经被广泛研究。基于机器学习的NLP技术，尽管提高了准确率，但模型不能学习规则外的复杂语义，训练集质量对模型性能影响较大。而基于卷积神经网络、循环神经网络的NLP技术，通过对词向量进行学习，可以表征更加抽象、复杂的文本语义，进一步提高模型的性能，提升准确率。但是卷积神经网络更倾向于捕捉局部语义信息，而循环神经网络则没有同时考虑上下文语义，且存在长期依赖问题。

发明内容

本发明实施例提供一种中英文医学同义词数据清洗方法及***，用以解决目前医学同义词数据的清洗方法中存在上述部分或全部的问题。

第一方面，本发明实施例提供一种中英文医学同义词数据清洗方法，包括：

确定待清洗的中英文医学同义词数据；

将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；

其中，所述数据清洗模型是基于标准同义词数据训练得到的。

优选地，所述数据清洗模型包括数据加载与中英文判定模型、过滤器、中英文同义词训练模型；

将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果，包括：

将所述待清洗的中英文医学同义词数据输入所述数据加载与中英文判定模型，输出中英文数据的判定结果；

将所述中英文数据的判定结果输入所述过滤器，输出符合预设规则的过滤出的数据和不符合预设规则的数据；

将所述不符合预设规则的数据输入所述中英文同义词训练模型，输出所述数据清洗结果；

将所述符合预设规则的过滤出的数据融合入所述数据清洗结果。

优选地，所述标准同义词数据包括中文同义词标准集和英文同义词标准集；

所述中英文同义词训练模型包括中文同义词训练模型和英文同义词训练模型；

所述中文同义词训练模型是基于所述中文同义词标准集进行数据集微调得到的；

所述英文同义词训练模型是基于所述英文同义词标准集进行数据集微调得到的。

优选地，将所述不符合预设规则的数据输入所述中英文同义词训练模型，输出所述数据清洗结果，包括：

基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型，输出预测出的正类数据和负类数据，并判断所述预测出的正类数据占比是否达到预设比例：

若达到预设比例，则输出所述数据清洗结果；否则，将所述预测出的正类数据和所述预测出的负类数据扩充到所述中文同义词标准集或所述英文同义词标准集，相应地对所述中文同义词训练模型或英文同义词训练模型进行训练后迭代更新所述数据清洗模型。

第二方面，本发明实施例提供一种中英文医学同义词数据清洗***，包括：

数据确定单元，用于确定待清洗的中英文医学同义词数据；

数据清洗单元，用于将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；

优选地，所述数据清洗单元包括数据加载与中英文判定模块、过滤器、中英文同义词训练模块；

所述数据加载与中英文判定模块，用于输入所述待清洗的中英文医学同义词数据，输出中英文数据的判定结果；

所述过滤器，用于输入所述中英文数据的判定结果，输出符合预设规则的过滤出的数据和不符合预设规则的数据；

所述中英文同义词训练模块，用于输入所述不符合预设规则的数据，输出所述数据清洗结果，并将所述符合预设规则的过滤出的数据融合入所述数据清洗结果。

所述中英文同义词训练模块包括中文同义词训练模型和英文同义词训练模型；

其中，所述中文同义词训练模型是基于所述中文同义词标准集进行数据集微调得到的；

优选地，所述中英文同义词训练模块，具体用于基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型，输出预测出的正类数据和负类数据，并判断所述预测出的正类数据占比是否达到预设比例：

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述中英文医学同义词数据清洗方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述中英文医学同义词数据清洗方法的步骤。

本发明实施例提供的一种中英文医学同义词数据清洗方法及***，通过将待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；所述数据清洗模型是基于标准同义词数据训练得到的。本发明借助了生物医学预训练模型对医学同义词数据进行清洗，可以对冗余数据、垃圾数据和无用数据进行清洗，对缺失数据进行精准补全，从而高效率地解决枯燥的医学数据的清洗问题，让高质量的医学数据助力互联网辅助临床诊断，配合医生作出更加全面、准确的临床决策。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种中英文医学同义词数据清洗方法的流程示意图；

图2是本发明提供的一种中英文医学同义词数据清洗***的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明将前沿的NLP技术应用到了生物医学同义词数据清洗中，通过特定的判定规则与预训练模型相结合的方法进行医学同义词数据的清洗，具有以下几个关键点：

1)使用标准同义词数据作为训练集微调(fine-tuning)模型；

2)通过对模型的准确率、f值等指标的评估确立清洗跳出机制；

3)通过循环扩充训练数据不断提升模型质量来完成数据清洗；

4)能够为大规模数据的清洗问题提供清洗思路，并且流程较为自动化，降低人力成本与人为因素对数据清洗的影响。

下面结合图1-图3描述本发明提供的一种中英文医学同义词数据清洗方法及***。

本发明实施例提供了一种中英文医学同义词数据清洗方法。图1为本发明实施例提供的中英文医学同义词数据清洗方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待清洗的中英文医学同义词数据；

步骤120，将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；

本发明实施例提供的方法，借助AI技术对复杂零乱的非规整医学同义词数据进行清洗，更加准确、快速地解决数据处理工作的繁杂耗时长的问题，同时智能的补全医学缺失词汇，补全医学同义词数据清晰的短板。

基于上述任一实施例，所述数据清洗模型包括数据加载与中英文判定模型、过滤器、中英文同义词训练模型；

具体地，将待筛选数据送入数据加载与中英文判定模块，断出中英文数据后送入过滤器，分别依据过滤器规则进行判断，将符合规则的数据融合纳入最终清洗结果，不符合过滤器规则的数据送入对应的中英文SynonymBert模型。

需要说明的是，过滤器的预设规则是根据上述医学词库和临床医生筛选负类数据过程中的数据特征，总结出的一套可以过滤掉部分负类数据的规则。也即，将待清洗数据送入过滤器进行规则判定，将无法判定的送入中英文SynonymBert模型。

基于上述任一实施例，所述标准同义词数据包括中文同义词标准集和英文同义词标准集；

具体地，基于ICD10、Mesh词库、WHO不良反应集以及A公司自建医学同义词典等医学术语库经过专业临床医生筛选出符合临床标准的医学同义词作为标准集的正类数据，筛选出不符合临床标准的医学词作为标准集的负类数据，由正类数据和负类数据构成训练数据的标准集。

具体地，中英文同义词训练模型即SynonymBert模型根据需要清洗的数据语种不同分为ChSynonymBert和EnSynonymBert，目前仅支持中英文数据清洗。其中ChSynonymBert是在中文Bert的基础上，通过800余万医学同义词汇数据继续训练然后通过使用中文同义词标准集进行fine-tuning得到的中文同义词预训练模型，EnSynonymBert是在BioBert的基础上，通过1000余万医学同义词汇数据继续训练然后通过使用英文同义词标准集进行fine-tuning得到的英文同义词预训练模型。

需要说明的是，预训练模型Bert(Bidirectional Encoder Representation fromTransformers)发布后，产生了多个Bert生物医学领域预训练模型变种(如：BioBert、PubMedBert等)，为借助NLP算法对医学数据清洗提供了新的思路。生物医学预训练模型通过在大规模无标注的生物医学语料上进行自监督学习，获得与任务无关的模型，然后在具体任务上进行微调。该类模型可以更好的理解上下文信息，表征文本语义，在医学文本任务上的准确率不断创出新高。

基于上述任一实施例，将所述不符合预设规则的数据输入所述中英文同义词训练模型，输出所述数据清洗结果，包括：

具体地，中英文SynonymBert模型通过对接收到的数据的推理，得到预测为正类和预测为负类的数据，然后通过正类数据占接收到的过滤器数据的比例是否达到80％(可根据当前数据质量自由调整)来决定是否输出清洗结果，如果未达到80％则将模型预测为正类和预测为负类的数据扩充到原始的标准化数据集中继续对模型进行训练，用训练好的最优模型自动替换掉原SynonymBert模型，循环执行以上流程完成同义词数据清洗。

下面对本发明提供的一种中英文医学同义词数据清洗***进行描述，下文描述的与上文描述的一种中英文医学同义词数据清洗方法可相互对应参照。

图2为本发明实施例提供的一种中英文医学同义词数据清洗***的结构示意图，如图2所示，该***包括数据确定单元210和数据清洗单元220；

所述数据确定单元210，用于确定待清洗的中英文医学同义词数据；

所述数据清洗单元220，用于将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；

本发明实施例提供的***，借助AI技术对复杂零乱的非规整医学同义词数据进行清洗，更加准确、快速地解决数据处理工作的繁杂耗时长的问题，同时智能的补全医学缺失词汇，补全医学同义词数据清晰的短板。

基于上述任一实施例，所述数据清洗单元包括数据加载与中英文判定模块、过滤器、中英文同义词训练模块；

基于上述任一实施例，所述中英文同义词训练模块，具体用于基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型，输出预测出的正类数据和负类数据，并判断所述预测出的正类数据占比是否达到预设比例：

图3为本发明实施例提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行中英文医学同义词数据清洗方法，该方法包括：确定待清洗的中英文医学同义词数据；将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；其中，所述数据清洗模型是基于标准同义词数据训练得到的。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的中英文医学同义词数据清洗方法，该方法包括：确定待清洗的中英文医学同义词数据；将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；其中，所述数据清洗模型是基于标准同义词数据训练得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的中英文医学同义词数据清洗方法，该方法包括：确定待清洗的中英文医学同义词数据；将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果；其中，所述数据清洗模型是基于标准同义词数据训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中英文医学同义词数据清洗方法，其特征在于，包括：

确定待清洗的中英文医学同义词数据；

其中，所述数据清洗模型是基于标准同义词数据训练得到的；

所述数据清洗模型包括数据加载与中英文判定模型、过滤器、中英文同义词训练模型；

将所述待清洗的中英文医学同义词数据输入至数据清洗模型，得到所述数据清洗模型输出的数据清洗结果的步骤包括：

将所述符合预设规则的过滤出的数据融合入所述数据清洗结果；所述标准同义词数据包括中文同义词标准集和英文同义词标准集；

所述中文同义词训练模型是在中文Bert模型的基础上基于所述中文同义词标准集进行数据集微调得到的；

所述英文同义词训练模型是在BioBert模型的基础上基于所述英文同义词标准集进行数据集微调得到的。

2.根据权利要求1所述的中英文医学同义词数据清洗方法，其特征在于，将所述不符合预设规则的数据输入所述中英文同义词训练模型，输出所述数据清洗结果，包括：

3.一种中英文医学同义词数据清洗***，其特征在于，包括：

数据确定单元，用于确定待清洗的中英文医学同义词数据；

所述数据清洗单元包括数据加载与中英文判定模块、过滤器、中英文同义词训练模块；

所述过滤器，用于输入所述中英文数据的判定结果，输出符合预设规则的过滤出的数据和不符合预设规则的数据；所述中英文同义词训练模块，用于输入所述不符合预设规则的数据，输出所述数据清洗结果，并将所述符合预设规则的过滤出的数据融合入所述数据清洗结果；所述标准同义词数据包括中文同义词标准集和英文同义词标准集；

其中，所述中文同义词训练模型是在中文Bert模型的基础上基于所述中文同义词标准集进行数据集微调得到的；

4.根据权利要求3所述的中英文医学同义词数据清洗***，其特征在于，所述中英文同义词训练模块，具体用于基于所述中英文数据的判定结果将所述不符合预设规则的数据输入所述中文同义词训练模型或英文同义词训练模型，输出预测出的正类数据和负类数据，并判断所述预测出的正类数据占比是否达到预设比例：

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至2任一项所述的中英文医学同义词数据清洗方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至2任一项所述的中英文医学同义词数据清洗方法的步骤。