CN111128388A

CN111128388A - 一种值域数据匹配方法、装置及相关产品

Info

Publication number: CN111128388A
Application number: CN201911222384.0A
Authority: CN
Inventors: 冯仓龙
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-05-08
Anticipated expiration: 2039-12-03
Also published as: CN111128388B

Abstract

本申请公开了一种值域数据匹配方法、装置及相关产品。获得待匹配值域数据中待匹配手术名称；对待匹配手术名称进行处理获得待匹配特征向量组；利用预先训练的数据匹配模型和待匹配特征向量组获得匹配结果。因此训练得到的数据匹配模型具有根据非国标的手术名称匹配出国标手术名称的功能，且能够确定出该国标手术名称在值域分类树中的具体分类情况，并通过节点索引值反映该具体分类情况。利用该匹配结果可索引获得以待匹配手术名称匹配出的国标手术名称，以及确定匹配出的国标手术名称在值域分类树中的具体分类情况。相比于现有技术有效节省了人力劳动，提升匹配效率。此外，也可以提升匹配的抗干扰性，进而提升值域数据的匹配准确性。

Description

一种值域数据匹配方法、装置及相关产品

技术领域

本申请涉及数据处理技术领域，特别是涉及一种值域数据匹配方法、装置及相关产品。

背景技术

近年来，随着医疗领域信息化产业化进程的不断推进，医疗数据的展现形式也发生了巨大的变化。这对于医院的医疗信息***(Hospital Information System,HIS)和国家卫生信息***都产生了深刻的影响。为了对区域的疾病发病状况、疾病治疗方案等医疗领域相关信息进行有效收集、分析和运用，目前可以建立区域平台。

医疗数据中包含大量的值域数据，其中有些值域数据的种类较少，数据组织简单，可称为小值域的值域数据，例如医保类别、患者性别等；另外还有一些值域数据的种类较少，数据组织复杂，可称为大值域的值域数据，例如手术名称、疾病名称等。

区域平台对应的区域通常包括多个医院，每个医院分别建立数据库用以存储该医院的医疗数据，区域平台从这些数据库中获得数据并进行分析和应用。但是各个医院的数据库存储的值域数据可能存在不标准、不统一的问题。作为示例，医院A的数据库中对“喉切除术”的名称为“第一手术”，医院B的数据库中对“喉切除术”的名称为“第二手术”。如果不进行手术名称的匹配，将难以对这些值域数据进行有效分析和应用。

目前，医疗领域中，对医疗数据中大值域的值域数据进行匹配的方案包括模糊查询、分词比较和手动对照，但是利用模糊查询或分词比较的方法匹配效果不佳，而手动对照的方法则耗费大量人力。可见，如何提升值域数据匹配的准确性和匹配效率，已经成为建立和完善医疗区域平台急需解决的技术问题。

发明内容

基于上述问题，本申请提供了一种值域数据匹配方法、装置及相关产品，以提升值域数据匹配的准确性和匹配效率。

本申请实施例公开了如下技术方案：

第一方面，本申请提供一种值域数据匹配方法，包括：

获得待匹配值域数据；

对所述待匹配值域数据中待匹配手术名称进行处理，获得待匹配特征向量组；

利用数据匹配模型和所述待匹配特征向量组获得匹配结果；所述数据匹配模型为预先利用打标签的样本特征向量组训练后获得的；所述标签包括所述历史手术名称对应的国标手术名称的名称索引值，和所述国标手术名称在值域分类树的各层对应的节点索引值；所述值域分类树为依据人体或动物体的部位对国标手术名称进行分类的结构树。

可选地，获得所述数据匹配模型，具体包括：

按照人体或动物体的部位对国际疾病分类标准中包括的多个国标手术名称进行分类，获得值域分类树；所述值域分类树中各层至少包括一个节点；

从医院信息***HIS获得的所述历史手术名称，以及所述历史手术名称与国标手术名称的对应关系；

对所述历史手术名称进行处理，获得所述样本特征向量组；利用所述历史手术名称、所述对应关系以及所述值域分类树，获得所述标签；

利用带有所述标签的所述样本特征向量组对待训练模型进行训练，当预设结束条件满足时，停止训练并获得所述数据匹配模型。

可选地，对所述历史手术名称进行处理，获得所述样本特征向量组，具体包括：

拆分所述历史手术名称，获得所述历史手术名称对应的m个维度的基本特征；利用所述m个维度的基本特征获得第k个维度的特征关系特征值w_k，其中，所述k＝1,2,…,m；

从医院信息***HIS获得所述历史手术名称的科室信息和/或挂号信息，利用所述科室信息和/或挂号信息获得所述历史手术名称的类别向量；

利用m个维度的特征关系特征值w₁,w2,…,w_m和所述类别向量，获得所述样本特征向量组。

可选地，利用所述m个维度的基本特征获得第k个维度的特征关系特征值w_k，具体包括：

利用皮尔逊计算公式、斯皮尔曼计算公式或卡方检验的方法获得第k个维度的基本特征与其他各个维度的基本特征之间的相关度评分；

利用预设相关系数和所述相关度评分获得所述第k个维度的特征关系特征值w_k。

可选地，拆分所述历史手术名称，获得所述历史手术名称对应的m个维度的基本特征，具体包括：

拆分所述历史手术名称，获得所述历史手术名称的关键词、目标字、预设字窗口中所述目标字之前或之后的字、目标词、预设词窗口中所述目标词之前或之后的词。

可选地，对所述待匹配值域数据中待匹配手术名称进行处理，获得待匹配特征向量组，具体包括：

拆分所述待匹配手术名称，获得所述待匹配手术名称对应的m个维度的基本特征；利用所述待匹配手术名称对应的m个维度的基本特征获得所述待匹配手术名称的第k个维度的特征关系特征值t_k；其中，k＝1,2,…,m；

从所述HIS获得所述待匹配手术名称的科室信息和/或挂号信息，利用所述待匹配手术名称的科室信息和/或挂号信息获得所述待匹配手术名称的类别向量；

利用所述待匹配手术名称的m个维度的特征关系特征值t₁,t2,…,t_m和所述待匹配手术名称的类别向量，获得所述待匹配特征向量组。

第二方面，本申请提供一种值域数据匹配装置，包括：

数据获取模块，用于获得待匹配值域数据；

数据处理模块，用于对所述待匹配值域数据中待匹配手术名称进行处理，获得待匹配特征向量组；

数据匹配模块，用于利用数据匹配模型和所述待匹配特征向量组获得匹配结果；所述数据匹配模型为预先利用打标签的样本特征向量组训练后获得的；所述标签包括所述历史手术名称对应的国标手术名称的名称索引值，和所述国标手术名称在值域分类树的各层对应的节点索引值；所述值域分类树为依据人体或动物体的部位对国标手术名称进行分类的结构树。

可选地，装置还包括：模型训练模块，具体包括：

值域分类树获取单元，用于按照人体或动物体的部位对国际疾病分类标准中包括的多个国标手术名称进行分类，获得值域分类树；所述值域分类树中各层至少包括一个节点；

手术名称获取单元，用于获得的所述历史手术名称；

对应关系获取单元，用于获得所述历史手术名称与国标手术名称的对应关系；

样本特征向量组获取单元，用于对所述历史手术名称进行处理，获得所述样本特征向量组；

标签获取单元，用于利用所述历史手术名称、所述对应关系以及所述值域分类树，获得所述标签；

模型训练单元，用于利用带有所述标签的所述样本特征向量组对待训练模型进行训练，当预设结束条件满足时，停止训练并获得所述数据匹配模型。

可选地，样本特征向量组获取单元具体可以包括：

基本特征第一获取子单元，用于拆分所述历史手术名称，获得所述历史手术名称对应的m个维度的基本特征；

特征关系特征值第一获取子单元，用于利用所述m个维度的基本特征获得第k个维度的特征关系特征值w_k，其中，所述k＝1,2,…,m；

类别向量第一获取子单元，用于从医院信息***HIS获得所述历史手术名称的科室信息和/或挂号信息，利用所述科室信息和/或挂号信息获得所述历史手术名称的类别向量；

样本特征向量组获取子单元，用于利用m个维度的特征关系特征值w₁,w₂,…,w_m和所述类别向量，获得所述样本特征向量组。

可选地，特征关系特征值第一获取子单元，具体用于利用皮尔逊计算公式、斯皮尔曼计算公式或卡方检验的方法获得第k个维度的基本特征与其他各个维度的基本特征之间的相关度评分；利用预设相关系数和所述相关度评分获得所述第k个维度的特征关系特征值w_k。

可选地，基本特征第一获取子单元，具体用于拆分所述历史手术名称，获得所述历史手术名称的关键词、目标字、预设字窗口中所述目标字之前或之后的字、目标词、预设词窗口中所述目标词之前或之后的词。

可选地，数据处理模块具体包括：

基本特征第二获取子单元，用于拆分所述待匹配手术名称，获得所述待匹配手术名称对应的m个维度的基本特征；

特征关系特征值第二获取子单元，用于利用所述待匹配手术名称对应的m个维度的基本特征获得所述待匹配手术名称的第k个维度的特征关系特征值t_k；其中，k＝1,2,…,m；

类别向量第二获取子单元，用于从所述HIS获得所述待匹配手术名称的科室信息和/或挂号信息，利用所述待匹配手术名称的科室信息和/或挂号信息获得所述待匹配手术名称的类别向量；

待匹配特征向量组获取子单元，用于利用所述待匹配手术名称的m个维度的特征关系特征值t₁,t₂,…,t_m和所述待匹配手术名称的类别向量，获得所述待匹配特征向量组。

第三方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当所述程序被处理器运行时，实现如第一方面提供的值域数据匹配方法。

第四方面，本申请提供一种处理器，用于运行计算机程序，所述程序运行时执行如第一方面提供的值域数据匹配方法。

相较于现有技术，本申请具有以下有益效果：

本申请获得待匹配值域数据，其中包括待匹配手术名称；对待匹配手术名称进行处理，获得待匹配特征向量组；利用预先训练的数据匹配模型和待匹配特征向量组获得匹配结果。由于数据匹配模型是以打标签的样本特征向量组训练后获得的，而标签包括历史手术名称对应的国标手术名称的名称索引值，和该国标手术名称在值域分类树的各层对应的节点索引值，因此训练得到的数据匹配模型具有根据非国标的手术名称匹配出国标手术名称的功能，且能够确定出该国标手术名称在值域分类树中的具体分类情况，并通过节点索引值反映该具体分类情况。本申请利用数据匹配模型获得的匹配结果能够以与标签相同或相似的形式展示，因此利用该匹配结果可索引获得以待匹配手术名称匹配出的国标手术名称，以及确定匹配出的国标手术名称在值域分类树中的具体分类情况。

本申请中，利用预先训练的数据匹配模型进行值域数据的自动匹配，相比于手动对照的匹配方式有效节省了人力劳动，提升匹配效率。此外，由于值域分类树是依据人体或动物体的部位进行划分的，因此即便待匹配手术名称与其他非国标的手术名称相似，也可以依据节点索引值与其他针对部位不同(即分类不同)但是名称相似的手术名称进行有效区分，避免匹配出错。可见，相比于模糊查询和分词比较的匹配方案，本申请也可以提升匹配的抗干扰性，进而提升值域数据的匹配准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种值域数据匹配方法的流程图；

图2为本申请实施例提供的一种值域分类树的结构示意图；

图3为本申请实施例提供的一种获取数据匹配模型的流程图；

图4为本申请实施例提供的一种获得样本特征向量组的实现方式流程图；

图5为本申请实施例提供的一种获得待匹配特征向量组的实现方式流程图；

图6为本申请实施例提供的一种值域数据匹配装置的结构示意图；

图7为本申请实施例提供的另一种值域数据匹配装置的结构示意图；

图8为本申请实施例提供的一种模型训练模块的结构示意图；

图9为本实施例提供的一种值域数据匹配设备的硬件结构图。

具体实施方式

正如前文描述，对于医疗领域内大值域的值域数据(例如手术名称、疾病名称等)，目前在各个医院存在不统一、不标准的问题，该问题给这些值域数据的后续分析和应用带来困难。通过值域数据匹配可以解决上述问题，但是值域数据匹配的实现过程中，发明人发现已有的一些匹配技术方案存在效率较低、准确率较低的问题。

以手术名称为例，某些手术名称之间存在重合的用词或相似的用词。例如，第一医院的第三手术和第二医院的第四手术存在重复的词语YY，如果采用模糊查询或分词比较的方式进行值域数据匹配，词语YY干扰匹配的准确性，因此容易将第三手术和第四手术共同匹配成对应于国标的第五手术。但是实际上，可能由于第一医院的惯用语的缘故，导致将国标的“甲状舌管切除术”命名为第三手术；而由于第二医院的惯用语的缘故，导致将国标的“肺和支气管切除术”命名为第四手术。可见，第三手术和第四手术实际上各自对应于不同的国标手术名称，但是因为重合的用词或相似的用词导致匹配失误。

此外，当前还可以采用手动对照的方式实现值域数据的匹配。但是这种人工参与匹配的方式需要耗费大量的人力，效率较低。例如，医院的手术名称可能在一段时间过后更新，这表示需要重新进行手动对照，费时费力。另外，人工操作的准确性受到视力、疲劳程度的影响，失误率高，影响值域数据匹配的准确性。

基于以上问题，本申请中提供一种值域数据匹配方法、装置及相关产品。利用预先训练的数据匹配模型，每当需要进行值域数据匹配时，将待匹配手术名称处理后获得的待匹配特征向量组作为模型的输入，由模型进行运算和处理后，获得模型输出的匹配结果。因为模型是预先训练获得的，因此便捷度较高，匹配效率较高。模型具有手术名称匹配以及识别所属分类的功能，且分类是基于值域分类树获得的，该值域分类树以部位作为分类依据，因此匹配结果具有较强的排他性，避免了相似手术名称的匹配干扰，提升了大值域的值域数据的匹配准确性。另外，本申请无需消耗大量人力，因此匹配效率高，且节省了人力成本。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参见图1，该图为本申请实施例提供的一种值域数据匹配方法的流程图。本实施例提供的值域数据匹配方法可以应用于医疗领域的区域平台，该区域平台具体可以以服务器的形式实现。服务器应用该方法对来自区域内的各个医院的值域数据进行匹配。

如图1所示，本申请实施例提供的值域数据匹配方法，包括：

步骤101：获得待匹配值域数据。

本实施例方法的应用场景中，区域平台(服务器)对应的区域内包括多个医院，各个医院采用医疗信息***HIS。服务器与各个医院的HIS能够实现远程通信，服务器可以通过各个医院的HIS的数据库获取医院的医疗数据。这些医疗数据中包括待匹配值域数据。

作为示例，待匹配值域数据可以包括但不限于：待匹配手术名称、待匹配疾病名称、待匹配医保类别和待匹配患者性别等。另外需要说明的是，待匹配值域数据可以同时获取也可以分别获取。例如，首先同时地获取待匹配手术名称和待匹配疾病名称，其后，按照实际需求再获取待匹配医保类别和待匹配患者性别。因此，此处对待匹配值域数据的获取时序不做具体限定

步骤102：对待匹配值域数据中待匹配手术名称进行处理，获得待匹配特征向量组。

本实施例方法的主要目的是匹配出待匹配手术名称对应的国标手术名称。作为一种可能的实现方式，可以将国际疾病分类标准中包括的手术名称作为国标手术名称。本实施例中可以将国际疾病分类第九次临床修订本(International Classification ofDiseases,Ninth Revision,Clinical Modification,ICD-9-CM)中记载的内容作为国际疾病分类标准。ICD-9-CM为本领域技术人员所熟知，因此本申请中对于ICD-9-CM包括的国标手术名称不再逐一列出。

在对手术名称进行匹配之前，需要对待匹配手术名称进行处理，通过处理获得待匹配手术名称的向量表示。本实施例中，将待匹配手术名称的向量表示称为待匹配特征向量组。

作为一种示例实现方式，可以对待匹配手术名称进行拆分，获得待匹配手术名称的关键词、目标词等基本特征。通过分析基本特征相互之间的关联关系，获得一系列的特征关系特征值。另外，还可以获取待匹配手术名称的科室信息和/或挂号信息。由于科室信息和/或挂号信息通常反映了待匹配手术名称对应的科室，每个科室负责诊治的人体或动物体部位是有限的几个(例如眼科负责眼睛，妇科负责子宫)，因此利用待匹配手术名称的科室信息和/或挂号信息可以提取出待匹配手术名称的类别信息。类别信息具体可以是类别向量的形式。上述特征关系特征值和类别向量作为待匹配特征向量组的组成元素。

可以理解的是，以上仅为本步骤的示例实现方式，实际应用时可以根据具体的匹配需求或HIS存储的数据种类等，采用其他实现方式获得待匹配特征向量组。因此，此处对本步骤的实现方式不加限定，对待匹配特征向量组的组成元素也不进行限定。

步骤103：利用数据匹配模型和待匹配特征向量组获得匹配结果。

需要说明的是，本实施例预先利用带有标签的样本特征向量组训练获得数据匹配模型。其中，样本特征向量组为历史手术名称的向量化表示，该历史手术名称具体可以是从各个医院的HIS获得的。样本特征向量组的标签包括：历史手术名称对应的国标手术名称的名称索引值，和国标手术名称在值域分类树的各层对应的节点索引值。其中，名称索引值可以用于索引获得历史手术名称对应的国标手术名称。

本实施例中，历史手术名称和待匹配手术名称都是指未曾进行过值域匹配的手术名称。其中，待匹配手术名称是指获得训练好的模型之后，当前需要利用这一模型进行值域匹配的手术名称；而历史手术名称是指在模型训练完成之前所用到的未经过值域匹配的手术名称。也就是说，相对于待匹配手术名称，本实施例中历史手术名称具体为历史数据，用来形成训练模型所用的样本。

为便于理解值域分类树的形式和节点索引值，可参见图2，该图为本申请实施例提供的一种值域分类树的结构示意图。

如图2所示，值域分类树包括多层(从根至叶子分别为第1层，第2层，…，第s层，其中s为大于2的整数)，每一层包括至少一个节点。其中，第1层的唯一一个节点不指代具体的国标手术名称；第2层至第s层的每一个节点代表一个不同的国标手术名称。第2层的节点对应于依据人体或动物体的部位进行分类的各个国标手术名称，例如：神经***手术、内分泌***手术、眼部手术、呼吸***手术等。第2层的每个节点对应的国标手术名称还可以依次进行更为细致的分类。例如，呼吸***手术可以分为喉切除术、肺和支气管切除术等，以此类推。

结合图2可知，值域分类树中第1层至第s-1层的每个父节点各自具有对应至少一个子节点；第2层至第s层的每个子节点各自具有对应的父节点。样本特征向量组的标签中包含的节点索引值具体是指历史手术名称对应的国标手术名称在值域分类树的各层对应的节点索引值。为便于理解，下面举例说明。

假设历史手术名称对应的国标手术名称是喉切除术，依据节点之间的父子关系很容易确定出：代表喉切除术的节点235，其父节点222代表呼吸***手术。因此，样本特征向量组的标签包括节点的节点索引值和节点的节点索引值。可以理解的是，标签中的节点索引值可以用于索引确定历史手术名称对应的国标手术名称在值域分类树的分类情况。

可以理解的是，在模型训练过程中，标签作为深度学习的训练依据。通过深度学习训练，使模型逐渐具备由样本特征向量组输出标签的功能。因此，当步骤102获得的待匹配特征向量组输入至已预先训练好的数据匹配模型后，数据匹配模型即可通过运算和处理输出符合匹配需求的匹配结果。该匹配结果的具体组成形式与训练阶段使用的标签相同或相似。即，匹配结果中包含待匹配手术名称对应的国标手术名称的名称索引值，和该国标手术名称在值域分类树的各层对应的节点索引值。

以上即为本申请实施例提供的值域数据匹配方法。该方法中，获得待匹配值域数据，其中包括待匹配手术名称；对待匹配手术名称进行处理，获得待匹配特征向量组；利用预先训练的数据匹配模型和待匹配特征向量组获得匹配结果。由于数据匹配模型是以打标签的样本特征向量组训练后获得的，而标签包括历史手术名称对应的国标手术名称的名称索引值，和该国标手术名称在值域分类树的各层对应的节点索引值，因此训练得到的数据匹配模型具有根据非国标的手术名称匹配出国标手术名称的功能，且能够确定出该国标手术名称在值域分类树中的具体分类情况，并通过节点索引值反映该具体分类情况。本申请利用数据匹配模型获得的匹配结果能够以与标签相同或相似的形式展示，因此利用该匹配结果可索引获得以待匹配手术名称匹配出的国标手术名称，以及确定匹配出的国标手术名称在值域分类树中的具体分类情况。

本申请中，利用预先训练的数据匹配模型进行值域数据的自动匹配，相比于手动对照的匹配方式有效节省了人力劳动，提升匹配效率。此外，由于值域分类树是依据人体或动物体的部位进行划分的，因此即便待匹配手术名称与其他非国标的手术名称相似，也可以依据节点索引值与其他针对部位不同(即分类不同)但是名称相似的手术名称进行有效区分，避免匹配出错。可见，相比于模糊查询和分词比较的匹配方案，本申请提供的值域数据匹配方法也可以提升匹配的抗干扰性，进而提升值域数据的匹配准确性。

为便于理解数据匹配模型的训练过程，下面结合图3和实施例说明训练数据匹配模型的具体实现方式。

参见图3，该图为本申请实施例提供的一种获取数据匹配模型的流程图。图3所示意的各个步骤具体可以在前述实施例描述的步骤101-103之前执行。

如图3所示，获取数据匹配模型的实现流程包括：

步骤301：按照人体或动物体的部位对国际疾病分类标准中包括的多个国标手术名称进行分类，获得值域分类树。

作为一示例实现方式，可以对ICD-9-CM包括的多个国标手术名称按照对应的人体或动物体的部位(治疗部位或发病部位)进行分类，并确定在每一个分类下的所有国标手术名称的关系(包括但不限于隶属关系、非隶属关系及补充关系)。利用每一个分类下所有国标手术名称的关系部署值域分类树第2层以下的各个节点。值域分类树的示例形式可以参照图2。

步骤302：获得的所述历史手术名称，以及所述历史手术名称与国标手术名称的对应关系。

为便于理解，此处介绍医院信息***HIS和值域对照***。

HIS是医院内部的***。HIS的数据库中存储了医院中未经标准化匹配的值域数据，例如历史手术名称、历史疾病名称、历史医保类型和历史患者性别等。本步骤中，服务器(即区域平台)具体可以从HIS获得大量的历史手术名称，进而便于后续处理得到训练模型所用的样本数据。例如，从HIS取300个不同的历史手术名称。

值域对照***是预先建立的。需要说明的是，每个医院的HIS数据库中存储的历史手术名称通常并不是随意命名的，这些历史手术名称也是遵循了医疗业务层的命名规则。尽管每个医院的命名规则存在多种可能的变型形式(例如根据医院的业务惯用语或者口语特点发生的变型)，但是历史手术名称均与国标手术名称存在对应关系。

作为一示例实现方式，该对应关系可以是在医院的手术名称命名阶段获得的，对应关系以文件的形式存储于值域对照***中。作为另一示例实现方式，该对应关系也可以是命名后通过人工手动对照的方式获得的，对应关系以文件的形式存储于值域对照***中。在执行本步骤时，服务器从值域对照***中获得上述历史手术名称与国标手术名称的对应关系。例如，从HIS获得300个历史手术名称，为便于指代，简称A001～A300(未在附图中示出)，因此需要从值域对照***中获得该300个历史手术名称A001～A300与国标手术名称B001～B300(未在附图中示出)的对应关系。其中，A001对应B001，A002对应B002，…，A300对应B300。

需要说明的是，随着建立区域平台的进程的不断推进，医院等医疗卫生机构对值域数据匹配的需求是非常大的。由于上述对应关系可以在本实施例方法中用于形成训练模型所用的样本数据，并用于训练获得进行准确、高效值域数据匹配的数据匹配模型，因此即便对应关系是以上述示例方式即通过人工手动对照的方式获得后存储于值域对照***的，相较于每次需要匹配值域数据时采取人工手动对照的方法，也极大地提升了匹配效率。可见，人工手动对照获得历史手术名称和国标手术名称的对应关系的人工工作量相比于值域匹配需求是微乎其微的。

步骤303：对历史手术名称进行处理，获得所述样本特征向量组。

样本特征向量组是历史手术名称的向量化表示。样本特征向量组作为后续训练模型所用的样本数据。

下面结合图4描述步骤303的一种示例性实现方式。参见图4，该图为本申请实施例提供的一种获得样本特征向量组的实现方式流程图。

步骤3031：拆分历史手术名称，获得历史手术名称对应的m个维度的基本特征。

实际应用中，可以通过分词的方法对历史手术名称进行处理，获得多个维度的基本特征。分词是本领域比较成熟的技术，因此可以利用一些成熟的分词算法对历史手术名称进行拆分，此处对分词算法不进行具体限定。

m表示拆分后基本特征的维度的数量，m为大于1的整数。作为示例，拆分得到的基本特征可以包括以下至少一种：

历史手术名称的关键词、目标字、预设字窗口中所述目标字之前或之后的字、目标词、预设词窗口中所述目标词之前或之后的词。

其中，关键词可以是通过对不同的历史手术名称去同(或称去重)后获得的。例如，历史手术名称A001为XYZ手术，历史手术名称A008为XUZ手术，去同后，“Y”可作为历史手术名称A001的关键词，“U”可作为历史手术名称A008的关键词。

目标字和目标词分别可以是依据需求或者分词算法设定的。例如，历史手术名称“ABCDEFGHIJKLMN”，其中A、B、C、D、E、F、G、H、I、J、K、L、M、N各自代表一个汉字，AB、CD、EFG、HI、JK、LMN各自代表一个词。对于目标字，可以预设定字窗口的大小，从而获得该目标字之前或之后的字。同理，对于目标词，可以预设定词窗口的大小，从而获得该词之前或之后的词。

作为示例，目标字为D，字窗口大小为2，则该字窗口中目标字之前的字按照从前到后的顺序依次为B和C，目标字之后的字依次为E和F。作为示例，目标词为HI，词窗口大小为2，则该词窗口中目标词之前的词按照从前到后的顺序依次为CD和EFG，目标词之后的词依次为JK和LMN。

作为一种可能的实现方式，可以预先建立一个字典，其中字典中每个汉字对应于一个独立的序列号。上述基本特征可以通过序列号的形式表示并加以应用。

步骤3032：利用m个维度的基本特征获得第k个维度的特征关系特征值w_k。

第k个维度的基本特征可以是指m个维度的基本特征中任意一个维度的基本特征，即k＝1,2,…,m。第k个维度的特征关系特征值表征第k个维度的基本特征与其他各维度的基本特征的特征关系。参见公式(1)，该公式展示了历史手术名称的第k个维度的特征关系特征值w_k的获取方式。

公式(1)中，u为预设相关系数，

为第k个维度的基本特征与第p个维度的基本特征之间的相关度评分。其中，p的取值从1至m，并且p不等于k。也就是说，第k个维度的基本特征不等同于第p个维度的基本特征。

具体实现时，可以采用向量的形式表示每个维度的基本特征，再通过皮尔逊计算公式、斯皮尔曼计算公式或卡方检验的方法获得第k个维度的基本特征与第q个维度的基本特征之间的相关度评分

本实施例中如果采用皮尔逊计算公式，则将皮尔逊计算公式获得的皮尔逊相关系数称为本实施例中的相关度评分；如果采用斯皮尔曼计算公式，则将斯皮尔曼计算公式获得的斯皮尔曼相关系数称为本实施例中的相关度评分。

可以理解的是，在实际应用中获得相关度评分的方式不局限于以上示例的几种，此处对本步骤获取相关度评分的实现方式不进行具体限定。

步骤3033：从医院信息***HIS获得历史手术名称的科室信息和/或挂号信息，利用科室信息和/或挂号信息获得历史手术名称的类别向量。

需要说明的是，服务器还可以从HIS获得历史手术名称的科室信息和/或挂号信息。可以理解的是，科室信息和/或挂号信息在一定程度上能够反映出医生(或医师)诊查的历史手术名称所对应的部位。例如，如果挂号信息中挂号科室是眼科，则不可能在疾病诊查环节给出病人胃溃疡或者患有足藓的结论。可见，历史手术名称的科室信息和/或挂号信息能够有助于排除与其他不相关类别的手术名称的进行匹配的可能性，进而提升匹配准确性。

为便于处理，本实施例中可以将历史手术名称的科室信息和/或挂号信息以向量的形式进行表达。例如，形成历史手术名称的类别向量，该类别向量中，第一个元素用以表示历史手术名称的科室信息；第二个元素用以表示历史手术名称的挂号信息。

步骤3034：利用m个维度的特征关系特征值w₁,w₂,…,w_m和类别向量，获得样本特征向量组。

参见公式(2)，该公式展示了样本特征向量组的示例形式：

R＝{W,C} (2)

公式(2)中，C为历史手术名称的类别向量，W为历史手术名称的特征关系特征向量，W的表达式如下：

W＝{w₁,w₂,...,w_m} (3)

结合步骤3031-3034可知，本实施例中，每个样本特征向量组R包含一个历史手术名称的两重信息，其中一重信息由该历史手术名称的特征关系特征向量W来表示，另一重信息由该历史手术名称的类别向量C来表示。

步骤304：利用历史手术名称、历史手术名称与国标手术名称的对应关系，以及值域分类树，获得样本特征向量组的标签。

需要说明的是，本实施例中样本特征向量组的标签至少包括以下两个部分：历史手术名称对应的国标手术名称的名称索引值，和所述国标手术名称在值域分类树的各层对应的节点索引值。下面对标签中包括的名称索引值和节点索引值分别进行说明。

实际应用中，利用历史手术名称以及上述对应关系，即可确定历史手术名称对应的国标手术名称。由于值域分类树是由多个国标手术名称按照人体或动物体的部位进行分类后建立的，该值域分类树必然包含代表历史手术名称对应的国标手术名称的节点。实际应用中，每个节点都有一个名称索引值，名称索引值可以用于索引获得该节点代表的国标手术名称。

本实施例中，可以利用历史手术名称对应的国标手术名称以及该值域分类树，确定该国标手术名称在值域分类树的各层对应的节点。需要说明的是，此处所述的国标手术名称在值域分类树的各层对应的节点，包括代表该国标手术名称的节点，还包括该节点的各个祖先节点(除了第1层根节点)。

此处为便于理解，可参见图2所述的值域分类树。假设节点243代表一历史手术名称对应的国标手术名称。节点243的祖先节点包括节点236和节点223。可以理解的是，节点之间的父子关系揭示出节点所代表的国标手术名称之间的分类关系。

实际应用中，每个节点都有一个节点索引值。相互存在父子关系的节点，其节点索引值之间也存在相应的关联，因此，节点索引值可以用于索引确定历史手术名称对应的国标手术名称在值域分类树中的分类情况。

通过执行以上步骤301-304，逐步获得了用以训练模型的样本特征向量组，并获得了样本特征向量组的标签。接下来即可利用带有标签的特征向量组对模型进行训练，从而在训练过程中逐渐使模型具备准确匹配值域数据的功能。

步骤305：利用带有所述标签的所述样本特征向量组对待训练模型进行训练，判断预设结束条件是否满足，如果是，则执行步骤306；如果否，则循环步骤305。

实际应用中，可以设定对模型训练的结束条件。作为一示例，预设结束条件可以是训练迭代次数达到预设次数。作为另一示例，预设结束条件还可以是目标函数的值达到预设阈值以下。

可以理解的是，如果满足预设结束条件，则表示模型对值域数据的匹配准确度已经满足值域数据匹配的实际需求。即可以应用训练获得的数据匹配模型实际进行值域数据匹配。反之，则表示值域数据的匹配准确度仍不满足实际需求，需要继续训练。

步骤306：停止模型训练并获得数据匹配模型。

可以理解的是，当模型训练停止时，模型内部的参数是保证模型数据匹配效果的关键。因此可以将此时参数作为后续模型实际使用时内部的参数。这些参数可以存储起来，当模型需要实际应用时，调取并载入这些参数。

通过上文描述可知，模型训练好之后，可以用于实际进行值域数据匹配。也就是说，以上步骤301-306描述的模型训练过程发生在步骤101-103之前。

在之前的实施例中，曾描述过，模型应用过程中，真正输入模型的并非待匹配手术名称，而是待匹配手术名称的向量化表示，即待匹配的特征向量组。具体可以参见步骤102。

为了保证训练得到的模型在实际中对于输入的匹配性，本实施例中采用与获取样本特征向量组相似的方式获得待匹配特征向量组。下面结合图5描述步骤102的一种示例性实现方式。

参见图5，该图为本申请实施例提供的一种获得待匹配特征向量组的实现方式流程图。

步骤1021：拆分待匹配手术名称，获得待匹配手术名称对应的m个维度的基本特征。

本步骤描述的待匹配手术名称具体是指步骤101获得的待匹配值域数据中的待匹配手术名称。本步骤拆分获得的m个维度的基本特征可以包括但不限于以下几个维度的基本特征：

待匹配手术名称的关键词、目标字、预设字窗口中所述目标字之前或之后的字、目标词、预设词窗口中所述目标词之前或之后的词。

步骤1022：利用待匹配手术名称对应的m个维度的基本特征获得待匹配手术名称的第k个维度的特征关系特征值t_k。

需要说明的是，k＝1,2,…,m。本步骤具体实现时，可以利用皮尔逊计算公式、斯皮尔曼计算公式或卡方检验的方法，获得待匹配手术名称的第k个维度的基本特征与其他各个维度的基本特征之间的相关度评分；再利用预设相关系数和上述相关度评分获得待匹配手术名称的第k个维度的特征关系特征值t_k。

参见公式(4)，该公式展示了待匹配手术名称的第k个维度的特征关系特征值t_k的获取方式：

公式(4)中，u为预设相关系数，

为待匹配手术名称的第k个维度的基本特征与第p个维度的基本特征之间的相关度评分。其中，p的取值从1至m，并且p不等于k。也就是说，待匹配手术名称的第k个维度的基本特征不等同于待匹配手术名称的第p个维度的基本特征。

步骤1023：从HIS获得待匹配手术名称的科室信息和/或挂号信息，利用待匹配手术名称的科室信息和/或挂号信息获得待匹配手术名称的类别向量。

获得待匹配手术名称的类别向量的实现方式和获得未匹配手术名称的类别向量的实现方式基本相同，关于本步骤的描述可参照步骤3033。

步骤1024：利用待匹配手术名称的m个维度的特征关系特征值t₁,t₂,…,t_m和待匹配手术名称的类别向量，获得待匹配特征向量组。

本步骤的实现方式与步骤3034中获得样本特征向量组的实现方式基本相同，关于本步骤的实现可参照步骤3034的描述，此处不再赘述。

以上即为获取待匹配特征向量组的示例实现方式说明。通过执行步骤1021-1024，保证了待匹配特征向量组和样本特征向量组的获取方式的一致性，从而保证训练的数据匹配模型对于实际应用时输入其中的待匹配特征向量组具有较好的适应性，进而便于该模型输出接近样本特征向量组的标签质量的匹配结果。

本申请实施例提供针对大值域的手术名称因种类繁多导致无法集中匹配的问题，通过值域分类树(结构树)分为不同级别类目，在小范围内采用基于监督的数据匹配模型进行匹配，可以有效的防止手术名称极其相似对正确匹配手术名称的干扰，大大提高了匹配的准确率。

大值域的值域数据(即手术名称)的统一、标准化问题作为大值域匹配的突出问题，其特点是国标手术名称的种类庞大。以上实施例中，充分结合两种手段进行手术名称匹配。其一，采用值域数据的关键词、字、词、位置关系以及他们之间的关联关系为深度学习提供有效的向量化方案；其二，通过将手术名称按照人体或动物体的部位进行结构拆分形成值域分类树，在每一层做值域匹配直到形成最终准确性较高的匹配结果。可以理解的是，本实施例这里获取样本时，把历史手术名称或待匹配手术名称对接到值域分类树的每一层，进而极大提升匹配结果的准确性。

基于前述实施例提供的值域数据匹配方法，本申请还提供一种值域数据匹配装置。下面结合实施例和附图进行说明。

装置实施例

参见图6，该图为本申请实施例提供的一种值域数据匹配装置的结构示意图。如图6所示，本实施例提供的值域数据匹配装置，包括：

数据获取模块601，用于获得待匹配值域数据；

数据处理模块602，用于对所述待匹配值域数据中待匹配手术名称进行处理，获得待匹配特征向量组；

数据匹配模块603，用于利用数据匹配模型和待匹配特征向量组获得匹配结果。

本实施例中描述的数据匹配模型为预先利用打标签的样本特征向量组训练后获得的；所述样本特征向量组为历史手术名称的向量化表示；所述标签包括所述历史手术名称对应的国标手术名称的名称索引值，和所述国标手术名称在值域分类树的各层对应的节点索引值；所述值域分类树为依据人体或动物体的部位对国标手术名称进行分类的结构树。

由于数据匹配模型是以打标签的样本特征向量组训练后获得的，而标签包括历史手术名称对应的国标手术名称的名称索引值，和该国标手术名称在值域分类树的各层对应的节点索引值，因此训练得到的数据匹配模型具有根据非国标的手术名称匹配出国标手术名称的功能，且能够确定出该国标手术名称在值域分类树中的具体分类情况，并通过节点索引值反映该具体分类情况。本申请利用数据匹配模型获得的匹配结果能够以与标签相同或相似的形式展示，因此利用该匹配结果可索引获得以待匹配手术名称匹配出的国标手术名称，以及确定匹配出的国标手术名称在值域分类树中的具体分类情况。

可选地，实际应用中，本实施例提供的数据匹配装置还可以包括：模型训练模块，从而使该装置具备了模型训练的功能。参见图7，该图为另一种值域数据匹配装置的结构示意图，通过图7可知，在图6所示的装置结构基础上进一步添加了模型训练模块701。

参见图8，该图为本申请实施例提供的一种模型训练模块的结构示意图。

如图8所示，该模型训练模块701具体可以包括：

值域分类树获取单元7011，用于按照人体或动物体的部位对国际疾病分类标准中包括的多个国标手术名称进行分类，获得值域分类树；所述值域分类树中各层至少包括一个节点；

手术名称获取单元7012，用于获得的所述历史手术名称；

对应关系获取单元7013，用于获得所述历史手术名称与国标手术名称的对应关系；

样本特征向量组获取单元7014，用于对所述历史手术名称进行处理，获得所述样本特征向量组；

标签获取单元7015，用于利用所述历史手术名称、所述对应关系以及所述值域分类树，获得所述标签；

模型训练单元7016，用于利用带有所述标签的所述样本特征向量组对待训练模型进行训练，当预设结束条件满足时，停止训练并获得所述数据匹配模型。

可选地，样本特征向量组获取单元7014具体可以包括：

可选地，数据处理模块602具体包括：

通过以上描述可知，该装置保证了待匹配特征向量组和样本特征向量组的获取方式的一致性，从而保证训练的数据匹配模型对于实际应用时输入其中的待匹配特征向量组具有较好的适应性，进而便于该模型输出接近样本特征向量组的标签质量的匹配结果。

基于前述实施例提供的值域数据匹配方法和装置，本申请实施例还提供了一种计算机可读存储介质。

该存储介质上存储有程序，该程序被处理器执行时实现本申请前述方法实施例保护的值域数据匹配方法中部分或全部步骤。

该存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

基于前述实施例提供的值域数据匹配方法、装置和存储介质，本申请实施例提供了一种处理器。该处理器用于运行程序，其中，所述程序运行时执行前述方法实施例保护的值域数据匹配方法中部分或全部步骤。

基于前述实施例提供的存储介质和处理器，本申请还提供了一种值域数据匹配设备。

参见图9，该图为本实施例提供的值域数据匹配设备硬件结构图。

如图9所示，值域数据匹配设备包括：存储器901、处理器902、通信总线903和通信接口904。

其中，存储器901上存储有可在处理器上运行的程序，程序执行时实现本申请前述方法实施例提供的值域数据匹配方法中部分或全部步骤。存储器901可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

该设备中，处理器902与存储器901通过通信总线传输信令、逻辑指令等。该设备能够通过通信接口904与其它设备进行通信交互。

训练得到的数据匹配模型具有根据非国标的手术名称匹配出国标手术名称的功能，且能够确定出该国标手术名称在值域分类树中的具体分类情况，并通过节点索引值反映该具体分类情况。因此，通过程序执行上述方法，利用数据匹配模型获得的匹配结果能够以与标签相同或相似的形式展示，因此利用该匹配结果可索引获得以待匹配手术名称匹配出的国标手术名称，以及确定匹配出的国标手术名称在值域分类树中的具体分类情况。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种值域数据匹配方法，其特征在于，包括：

获得待匹配值域数据；

2.根据权利要求1所述的方法，其特征在于，获得所述数据匹配模型，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述历史手术名称进行处理，获得所述样本特征向量组，具体包括：

利用m个维度的特征关系特征值w₁,w_2,…,w_m和所述类别向量，获得所述样本特征向量组。

4.根据权利要求3所述的方法，其特征在于，所述利用所述m个维度的基本特征获得第k个维度的特征关系特征值w_k，具体包括：

5.根据权利要求3所述的方法，其特征在于，所述拆分所述历史手术名称，获得所述历史手术名称对应的m个维度的基本特征，具体包括：

6.根据权利要求3-5任一项所述的方法，其特征在于，所述对所述待匹配值域数据中待匹配手术名称进行处理，获得待匹配特征向量组，具体包括：

利用所述待匹配手术名称的m个维度的特征关系特征值t₁,t_2,…,t_m和所述待匹配手术名称的类别向量，获得所述待匹配特征向量组。

7.一种值域数据匹配装置，其特征在于，包括：

数据获取模块，用于获得待匹配值域数据；

8.根据权利要求7所述的装置，其特征在于，还包括：模型训练模块，具体包括：

手术名称获取单元，用于获得的所述历史手术名称；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述程序被处理器运行时，实现如权利要求1-6任一项所述的值域数据匹配方法。

10.一种处理器，其特征在于，用于运行计算机程序，所述程序运行时执行如权利要求1-6任一项所述的值域数据匹配方法。