CN110827929A

CN110827929A - 疾病分类编码识别方法、装置、计算机设备及存储介质

Info

Publication number: CN110827929A
Application number: CN201911071894.2A
Authority: CN
Inventors: 任江涛; 冯毅飞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-21
Anticipated expiration: 2039-11-05
Also published as: CN110827929B

Abstract

本发明公开了一种疾病分类编码识别方法、装置、计算机设备及存储介质，其中，所述疾病分类编码识别方法应用于计算机设备，包括：获取诊断数据；将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量；基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度；根据所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，确定所述诊断数据对应的疾病分类编码。采用本发明所提供的疾病分类编码识别方法、装置、计算机设备及存储介质解决了现有技术中疾病分类编码识别的准确率不高的问题。

Description

疾病分类编码识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种疾病分类编码识别方法、装置、计算机设备及存储介质。

背景技术

随着医学技术的发展，国际疾病分类(ICD,International Classification ofDiseases)编码被广泛应用于描述病人病情，例如病因、损伤、死因等等。它不仅使得全世界能够以一致标准的方式，在各国家医院之间分享和比较数据，以极大地促进医学技术的更进一步发展，而且，目前我国正大力推行的按疾病诊断分组的预付费制度(DRGs)也需要在该疾病分类编码的基础上才能更好地发挥作用，因此如何快速地将医生关于病人的非标准化的诊断数据转化为标准化的疾病分类编码便具有重要意义。

通常，上述非标准化至标准化的转化过程，是由医院专门的编码员为医生给出的诊断数据赋予疾病分类编码。这就要求编码员需要掌握许多特殊技能，例如医学知识、编码规则、医学术语等等，进而导致依赖于人工实现的编码不仅人力成本非常昂贵，而且耗时没有效率。

为此，基于计算机设备的疾病分类编码自动识别应运而生，然而，无论是基于字典检索技术的自动识别，或者基于分类学习的自动识别，虽然在一定程度上缓解了人工实现的困境，仍不可避免地存在因数据稀疏，进而难以保证疾病分类编码识别的准确率。

由上可知，现有的疾病分类编码识别尚存在准确率不高的缺陷。

发明内容

本发明各实施例提供一种疾病分类编码识别方法、装置、计算机设备及存储介质，以解决相关技术中存在的疾病分类编码识别的准确率不高的问题。

其中，本发明所采用的技术方案为：

根据本发明的一个方面，一种疾病分类编码识别方法，所述方法应用于计算机设备，所述方法包括：获取诊断数据；将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量；基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度；根据所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，确定所述诊断数据对应的疾病分类编码。

根据本发明的一个方面，一种疾病分类编码识别装置，所述装置应用于计算机设备，所述装置包括：数据获取模块，用于获取诊断数据；向量获取模块，用于将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量；相似度获取模块，用于基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度；编码识别模块，用于根据所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，确定所述诊断数据对应的疾病分类编码。

根据本发明的一个方面，一种计算机设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的疾病分类编码识别方法。

根据本发明的一个方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的疾病分类编码识别方法。

在上述技术方案中，将获取到的诊断数据映射至疾病分类编码所在的表示空间，得到该诊断数据对应的中间向量，并基于由疾病分类编码对应中间向量构建的向量矩阵，对该诊断数据对应的中间向量进行相似性度量，得到向量矩阵中的中间向量与该诊断数据对应的中间向量之间的相似度，进而由此确定该诊断数据对应的疾病分类编码，也就是说，由于诊断数据与疾病分类编码映射至同一个表示空间，并在此基础上进行了相似性度量，避免因数据稀疏所导致的疾病分类编码识别的准确率不高的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种计算机设备的硬件结构框图。

图3是根据一示例性实施例示出的一种疾病分类编码识别方法的流程图。

图4为图3对应实施例所涉及的自编码器的结构示意图。

图5为图3对应实施例所涉及的降噪编码器的结构示意图。

图6是图3对应实施例中步骤330在一个实施例的流程图。

图7是根据一示例性实施例示出的另一种疾病分类编码识别方法的流程图。

图8是图3对应实施例中步骤350在一个实施例的流程图。

图9为图8对应实施例所涉及的相似性度量过程的结构示意图。

图10是根据一示例性实施例示出的另一种疾病分类编码识别方法的流程图。

图11是根据一示例性实施例示出的一种疾病分类编码识别装置的框图。

图12是根据一示例性实施例示出的一种计算机设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如前所述，疾病分类编码能够基于计算机设备自动识别，主要包括两种方案：第一种方案是基于字典检索技术的自动识别，第二种方案是基于分类学习的自动识别。

第一种方案中，首先将疾病分类编码构建成一个字典，然后编码员将非标准化的医生关于病人病情描述的诊断数据输入计算机设备中部署的疾病分类编码识别***，该***则通过搜索技术，从字典中查找出与该诊断数据相匹配的疾病分类编码，并向用户输出。

但是，由于不同的医生描述病人病情的方式不同，例如会使用不同的缩写、别名等等，使得非标准化的诊断数据关于病人病情的描述极具多样化，进而导致数据稀疏，而难以保证疾病分类编码识别的准确率。

第二种方案中，将疾病分类编码视为多分类问题，首先使用特征工程抽取出非标准化的诊断数据的特征，然后使用多个不同的一级分类器进行分类学习，再基于该多个不同的一级分类器输出结果的基础上添加一个二级分类器，进而将该多个不同的一级分类器的输出结果综合，从而识别出最终的分类结果，即疾病分类编码。

虽然此种方法在一定程度上缓解了人工实现的问题，但仍有一些不足之处。首先，它需要使用特征工程来抽取特征，这一步不可避免地需要许多人力和特殊技巧来决定应该抽取哪些特征并评估；其次，它将疾病分类编码视为多分类问题，而疾病分类编码多达3万多条，在如此庞大的类别上直接分类的分类效果很难保证，并且还会受到因每家医院中诊断数据所对应的疾病类别不齐全而产生的数据稀疏问题影响分类器的训练效果，进而难以保证疾病分类编码识别的准确率。

由上可知，现有的疾病分类编码仍存在准确率不高的局限性。

为此，本发明特提出了一种疾病分类编码识别方法，能够有效地改善数据稀疏问题，进而有效地提高疾病分类编码识别的准确率，相应地，还提出了一种疾病分类编码识别装置，可部署于具备冯诺依曼体系的计算机设备中，例如，计算机设备可以是台式电脑、笔记本电脑、服务器等等，以此实现疾病分类编码方法。

图1为一种疾病分类编码识别方法所涉及的实施环境的示意图。该实施环境包括用户端110和服务端130。

具体地，用户端110，用于提供医生关于描述病人病情的诊断数据。该用户端110可以是台式电脑、笔记本电脑、平板电脑、智能手机、掌上电脑、便携移动终端等等电子设备，在此不构成具体限定。

服务端130，该服务端130可以是台式电脑、笔记本电脑、服务器等等计算机设备，还可以是由多台服务器构成的服务器集群，甚至是由多台服务器构成的云计算中心。其中，服务器是为用户提供后台服务的电子设备，例如，后台服务包括但不限于疾病分类编码识别服务等等。

服务端130与用户端110之间预先建立通信连接，并通过通信连接实现与用户端110的数据传输。传输的数据包括但不限于：疾病分类编码、诊断数据等等。

通过用户端110与服务端130的交互，用户端110将收集到的诊断数据上传至服务端130，以使服务端130基于该诊断数据提供疾病分类编码识别服务。

对于服务端130而言，在接收到用户端110上传的诊断数据之后，便能够调用疾病分类编码识别服务，获得该诊断数据对应的疾病分类编码，并返回至用户端110。

图2是根据一示例性实施例示出的一种计算机设备的硬件结构框图。该种计算机设备适用于图1所示出实施环境的服务端130。

需要说明的是，该种计算机设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该种计算机设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的计算机设备200中的一个或者多个组件。

计算机设备200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，计算机设备200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。

具体地，电源210用于为计算机设备200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口，用于与外部设备交互。例如，进行图1所示出实施环境中用户端110与服务端130之间的交互。

当然，在其余本发明适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图2所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作***251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作***251用于管理与控制计算机设备200上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作***251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对计算机设备200的一系列计算机可读指令。例如，疾病分类编码识别装置可视为部署于计算机设备200的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是诊断数据、疾病分类编码等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成疾病分类编码识别方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图3，在一示例性实施例中，一种疾病分类编码识别方法适用于计算机设备，例如，图1所示实施环境的服务端130，该计算机设备的结构可以如图2所示。

该种疾病分类编码识别方法可以由计算机设备执行，也可以理解为由计算机设备中部署的疾病分类编码识别装置执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为计算机设备加以说明，但是并不对此构成限定。

该种疾病分类编码识别方法可以包括以下步骤：

步骤310，获取诊断数据。

其中，诊断数据，本质是非标准化的医生关于病人病情描述的疾病分类编码，也可以认为是，诊断数据，即为融入了噪声的疾病分类编码。

关于诊断数据的来源，可以是用户端实时收集到的诊断数据，也可以是计算机设备中预先存储的诊断数据。那么，对于计算机设备而言，所获取到的诊断数据，既可以是用户端实时收集到的诊断数据，还可以是计算机设备自身预先存储的诊断数据，即读取一历史时间段内用户端收集到的诊断数据，此处并未加以具体限定。

那么，在获取到诊断数据之后，计算机设备既可以对诊断数据进行实时处理，还可以预先存储了再处理。例如，在计算机设备处理任务少的时候处理，或者，按照编码员的指示处理。

步骤330，将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量。

应当理解，我们期望计算机设备最终识别出的诊断数据对应的疾病分类编码应当尽量与实际的疾病分类编码吻合，为此，在进行非标准化至标准化的转化过程中，发明人意识到，诊断数据与疾病分类编码应当被映射至同一个表示空间，方才有利于后续疾病分类编码识别，进而有利于提高疾病分类编码识别的准确率。

基于此，本实施例中，诊断数据对应的中间向量，即是将诊断数据映射至疾病分类编码所在的表示空间产生的。

步骤350，基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度。

向量矩阵，是由众多疾病分类编码对应的中间向量构建的，不仅方便于每一个疾病分类编码对应的中间向量与诊断数据对应的中间向量之间所进行的相似度度量，而且通过疾病分类编码对应的中间向量存储于该向量矩阵，避免针对不同诊断数据时重复计算疾病分类编码对应的中间向量，能够有效地提高计算机设备的任务处理效率，提高疾病分类编码识别效率，进而有利于改善用户体验。

相似性度量，实质为计算向量矩阵中的中间向量与诊断数据对应的中间向量之间的相似度。其中，相似性度量可以采用余弦相似度方案直接计算，也可以基于分类器实现，此处并未加以具体限定。

步骤370，根据所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，确定所述诊断数据对应的疾病分类编码。

在计算得到向量矩阵中的中间向量与诊断数据对应的中间向量之间的相似度之后，便能够基于最高相似度，确定诊断数据对应的疾病分类编码。

举例来说，假设向量矩阵中的中间向量包括A和B，分别对应疾病分类编码A1和B1。诊断数据对应的中间向量C与中间向量A之间的相似度为M，诊断数据对应的中间向量C与中间向量B之间的相似度为N。

如果M>N，则诊断数据对应的疾病分类编码为A1。

反之，如果M<N，则诊断数据对应的疾病分类编码为B1。

通过如上所述的过程，基于诊断数据与疾病分类编码被映射在同一个表示空间，并在此基础上进行了相似性度量，避免在疾病分类编码庞大的类别上直接分类，进而有效地避免了数据稀疏所导致的疾病分类编码识别的准确率不高的问题。

在一示例性实施例中，步骤330可以包括以下步骤：

基于由深度学习模型训练生成的自编码器，按照所述疾病分类编码所在的表示空间对所述诊断数据进行降噪处理，得到所述诊断数据对应的中间向量。

如前所述，诊断数据，即为融入了噪声的疾病分类编码，由此，发明人意识到，疾病分类编码识别，实质上是要将融入了噪声的疾病分类编码，转化为标准化的疾病分类编码，也可以理解为，将诊断数据与疾病分类编码映射至同一个表示空间，其实质上属于降噪的过程。

本实施例中，降噪的过程是基于由深度学习模型训练生成的自编码器实现的。

如图4所示，自编码器包括降噪编码器和解码器。

其中，降噪编码器，用于过滤掉诊断数据中的噪声，以得到诊断数据对应的中间向量。

进一步地，如图5所示，所述降噪编码器包括字嵌入层、双向长短期记忆层(BLSTM,Bi-Long Short Term Memory)和自注意力层(Self-Attention)。其中，字嵌入层采用字符级别的embedding，以此克服医学领域的语料涉及大量医学术语导致分词处理不够精准的问题。双向长短期记忆层，由于具备出色的序列建模能力，不仅有利于文本的特征提取，而且能够很好地避免地因梯度消失而导致模型训练不足的问题。自注意力层，进一步地聚焦于序列的关键特征，亦即全局特征，能够有效地提升中间向量的表示效果。

解码器，则用于将诊断数据对应的中间向量解码为该诊断数据对应的疾病分类编码。其中，为了保证解码器能够更加准确地区分不同中间向量所解码得到的疾病分类编码不同，解码器采用单向长短期记忆层(LSTM,Long Short Term Memory)实现。

基于上述结构，发明人意识到，如果要使解码器的输出即为我们实际所需要的疾病分类编码，要求过于苛刻反而难以得到较高的识别准确率，故而，本实施例中，相似度度量将基于降噪编码器输出的诊断数据对应的中间向量进行，而并非直接基于解码器的输出。

基于上述结构，下面对降噪的过程加以详细地说明。

如图6所示，在一实施例的具体实现中，步骤330可以包括以下步骤：

步骤331，将所述诊断数据输入所述字嵌入层，与所述字嵌入层中特定字符字典中的字符编号进行匹配，得到所述诊断数据对应的字嵌入向量序列。

特定字符字典，实质上建立了字符与字符编号之间的一一对应关系，亦即是，字符对应字符编号的集合。

那么，在诊断数据输入至字嵌入层之后，便可基于特定字符字典所建立的字符与字符编号之间的一一对应关系，将该诊断数据中的每一个字符匹配得到一个对应的字符编号，由此形成该诊断数据对应的字嵌入向量序列。

也就是说，诊断数据对应的字嵌入向量序列，即由该诊断数据中的每一个字符对应的字符编号拼接构成。

步骤333，将所述诊断数据对应的字嵌入向量序列输入至所述双向长短期记忆层，进行局部特征提取，得到所述诊断数据对应的向量特征。

诊断数据对应的向量特征，即局部特征，是以数字形式对诊断数据进行较为粗略地表征。

步骤335，将所述诊断数据对应的向量特征输入至所述自注意力层，进行全局特征提取，得到所述诊断数据对应的中间向量。

诊断数据对应的中间向量，即全局特征，则是在步骤333中得到的局部特征的基础上，以数字形式对诊断数据进行更为细致且唯一地表征。

在上述实施例的作用下，实现了基于由深度学习模型训练生成的自编码器的特征提取，避免特征提取依赖于特征工程而耗费大量的人力物力，有利于降低疾病分类编码识别的成本。

在一示例性实施例中，步骤350之前，如上所述的方法还可以包括以下步骤：

基于疾病分类编码对应结构树上不同中间向量所表示疾病分类编码之间的距离，对所述诊断数据对应的中间向量进行不同程度地相似性约束，以使所述相似性度量基于相似性约束后的所述诊断数据对应中间向量进行。

应当理解，疾病分类编码是一种二层分类的结构树，即该疾病分类编码共有6位编码，前三位编码表示大类，视为一级分类，后三位编码表示小类，视为二级分类。在此，发明人意识到，现有的疾病分类编码识别均忽视了疾病分类编码关于二层分类的结构信息，将会影响疾病分类编码识别的准确性。

为此，本实施例中，将基于疾病分类编码对应结构树上不同中间向量所表示疾病分类编码之间的距离，对步骤330中得到的诊断数据的中间向量，作进一步不同程度地相似性约束，以期望计算机设备最终识别出的诊断数据对应的疾病分类编码应当尽量与实际的疾病分类编码吻合。

具体地，根据相似性约束损失函数，对诊断数据对应的中间向量进行不同程度地相似性约束。

其中，相似性约束损失函数，是基于疾病分类编码对应结构树上不同中间向量所表示疾病分类编码之间的距离、以及若干复合训练样本优化生成的。

下面对相似性约束损失函数的优化过程加以详细地说明。

请参阅图7，在一示例性实施例中，步骤350之前，如上所述的方法还可以包括以下步骤：

步骤510，构建相似性约束损失函数，并获取若干复合训练样本。

其中，所述复合训练样本包括两个原始训练样本和一个相似性标签。所述原始训练样本包括已识别诊断数据及其对应的疾病分类编码，所述相似性标签用于指示两个所述原始训练样本中的疾病分类编码在疾病分类编码对应结构树上的距离。

举例来说，复合训练样本表示为：{(x1,y1),(x2,y2),tag}。

其中，(x1,y1)表示复合训练样本中的第一个原始训练样本，(x2,y2)表示复合训练样本中的第二个原始训练样本。x1、x2表示已识别诊断数据，y1表示已识别诊断数据x1对应的疾病分类编码，y2表示已识别诊断数据x2对应的疾病分类编码。

tag表示相似性标签，该相似性标签tag对应的数值即被用于指示两个原始训练样本中的疾病分类编码在疾病分类编码对应结构树上的距离。

本实施例中，相似性标签tag对应的数值包括0、1、2。

具体而言，tag＝0，表示y1与y2不相等，且不属于同一个一级分类。

tag＝1，表示y1与y2不相等，虽属于同一个一级分类但不属于同一个二级分类。

tag＝2，表示y1与y2相等，即属于同一个一级分类且属于同一个二级分类。

当然，根据应用场景的实际需求，相似性标签tag对应的数值可以灵活地设置，以便于能够提供更加细致的相似性信息，即表示为两个原始训练样本中的疾病分类编码在疾病分类编码对应结构树上的距离，此处并非对此构成具体限定。

步骤530，根据若干所述复合训练样本对所述相似性约束损失函数进行优化。

优化，实质是基于若干复合训练样本，使得相似性约束损失函数对应的余弦相似性满足特定规则。

具体而言，相似性约束损失函数如以下计算公式：

其中，loss_similarity表示相似性约束损失函数。

仍以前述例子继续举例说明，对于同一个复合训练样本而言，(x1,y1)表示第一个原始训练样本，(x2,y2)表示第二个原始训练样本。x1、x2表示已识别诊断数据，y1表示已识别诊断数据x1对应的疾病分类编码，y2表示已识别诊断数据x2对应的疾病分类编码。

h1表示第一个原始训练样本中已识别诊断数据x1对应的中间向量，h2表示第二个原始训练样本中已识别诊断数据x2对应的中间向量。

此时，特定规则反映了基于两个原始训练样本中的疾病分类编码在疾病分类编码对应结构树上的距离所设定的不同程度地约束，具体描述如下：

当tag＝0，表示y1与y2不相等，且不属于同一个一级分类。则，相似性约束损失函数对应的余弦相似性尽可能小。

当tag＝2，表示y1与y2相等，即属于同一个一级分类且属于同一个二级分类。则，相似性约束损失函数对应的余弦相似性仅可能大。

当tag＝1，表示y1与y2不相等，虽属于同一个一级分类但不属于同一个二级分类。则，相似性能约束损失函数对应的余弦相似性介于tag＝0与tag＝2两种情况之间。

此处，利用超参数0.5来调节相似性能约束损失函数对应的余弦相似性，使其介于tag＝0与tag＝2两种情况之间，进而达到弱化h1与h2之间相似性的目的。当然，根据应用场景的实际需求，超参数可以灵活地调整，本实施例并非对此构成具体限定。

由此，基于第一个复合训练样本，如果相似性约束损失函数对应的余弦相似性不满足上述特定规则，则基于第二个复合训练样本对相似性约束损失函数继续优化，直至相似性约束损失函数对应的余弦相似性满足上述特定规则。

当相似性约束损失函数对应的余弦相似性满足上述特定规则，则该相似性约束损失函数完成优化，亦视为该相似性约束损失函数收敛。

步骤550，当所述相似性约束损失函数按照特定规则优化至逐渐收敛，则收敛的相似性约束损失函数被用于对所述诊断数据对应的中间向量进行不同程度地相似性约束。

也即是说，通过收敛的相似性约束损失函数，对诊断数据的中间向量作进一步不同程度地相似性约束，将使得诊断数据对应的中间向量更具有聚类效果，进而使得计算机设备最终识别出的诊断数据对应的疾病分类编码与实际的疾病分类编码更加地吻合，以此提高了疾病分类编码识别的准确率。

请参阅图8，在一示例性实施例中，步骤350可以包括以下步骤：

步骤351，针对所述向量矩阵中的每一个中间向量，与所述诊断数据对应的中间向量进行拼接，得到多个输入向量。

步骤353，基于由深度学习模型训练生成的特定分类模型中，分别对多个输入向量进行分类预测，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度。

如图9所示，向量矩阵中的一个中间向量作为其中一个降噪表示，表示为h1，诊断数据对应的中间向量作为另一个降噪表示，表示为h2，由此拼接得到输入向量{h1,h2}。

将输入向量{h1,h2}输入至logistics模型进行分类预测。

假设可预测类别包括由1表示的相似类别和由0表示的不相似类别。

那么，通过logistics模型中的分类器，计算出输入向量{h1,h2}属于相似类别的概率为P1，属于不相似类别的概率为P2。

如果P1>P2，则输入向量{h1,h2}属于相似类别，即向量矩阵中的中间向量h1与诊断数据对应的中间向量h2相似，相似度为1。

反之，如果P1<P2，则输入向量{h1,h2}属于不相似类别，即向量矩阵中的中间向量h1与诊断数据对应的中间向量h2不相似，相似度为0。

当然，特定分类模型除了二分类模型(logistics模型)之外，还可以根据应用场景的实际需求灵活地调整为其余模型，此处不一一列举，也并非对此构成具体限定。

通过上述实施例的配合，实现了基于由深度学习模型训练生成的特定分类模型的分类预测，避免直接在庞大的分类上直接分类的效果难以保证的问题，同时也能够有效地避免数据稀疏问题，从而进一步有利于提高疾病分类编码识别的准确率。

无论是前述的自编码器，还是特定分类模型，都是由深度学习模型训练生成的。其中，深度学习模型包括但不限于神经网络模型。

下面便针对神经网络模型的模型训练过程加以详细地说明。

请参阅图10，在一示例性实施例中，如上所述的方法还可以包括以下步骤：

步骤610，基于神经网络模型进行建模，并根据若干原始训练样本对所建模型进行模型训练。

其中，所述原始训练样本包括已识别诊断数据及其对应的疾病分类编码。

简单来说，模型训练是基于已知疾病分类编码的诊断数据及其对应的疾病分类编码进行的，而疾病分类编码识别则是基于未知疾病分类编码的诊断数据进行的。

神经网络模型，用于建模，可视为自编码器和/或特定分类模型的原型，其本质上构建了诊断数据与疾病分类编码之间的数学映射关系。

相应地，模型训练，则是基于若干原始训练样本，对所建模型的参数进行优化，以使所建模型对应的损失函数收敛，进而使得诊断数据与疾病分类编码之间的数学映射关系达到最优。

其中，损失函数包括但不限于：最大似然函数、激活损失函数等。

下面结合最大似然函数作为特定函数，说明模型训练过程。

具体而言，对所建模型的参数执行随机初始化，并基于随机初始化的参数和其中一个原始训练样本，计算最大似然函数的对数似然损失值。

如果该对数似然损失值达到最小，则最大似然函数视为收敛，此时，由所建模型收敛得到自编码器或者特定分类模型。

反之，如果该对数似然损失值未达到最小，则更新所建模型的参数，并基于更新的参数和后一个原始训练样本，计算最大似然函数的对数似然损失值，直至该对数似然损失值达到最小。

当然，考虑训练效率，还可以设置迭代次数，该迭代次数可以根据应用场景的实际需求灵活设置，例如，对疾病分类编码识别的准确率要求较高的应用场景，设置较大的迭代次数。

此时，如果迭代次数达到最大，即使最大似然函数的对数似然损失值未达到最小，也停止迭代，视为最大似然函数以收敛，并跳转执行步骤630。

还应当说明的是，发明人意识到，原始训练样本的数量和类别，关乎模型训练的效果。数量越大，效果越好，类别越齐全，避免数据稀疏，则效果也越好。

为此，本实施例中，针对每一个原始训练样本，将进行正样本扩展处理。

举例来说，原始训练样本表示为(x1,y1)，x1表示已识别诊断数据，y1表示已识别诊断数据x1对应的疾病分类编码。

此时，将该原始训练样本视为负样本，扩展得到正样本，表示为(y1,y1)。

由此，通过正负样本的相互结合，有利于提升模型训练效果，进而充分保障疾病分类编码识别的准确率，即对于非标准化的诊断数据而言，输入输出不同，识别得到对应的标准化的疾病分类编码，而对于标准化的诊断数据而言，输入输出相同，识别得到其自身，即标准化的诊断数据，亦即标准化的疾病分类编码。

步骤630，当通过所述模型训练使得所建模型对应的损失函数收敛，则由所建模型收敛得到所述自编码器和/或所述特定分类模型。

在上述实施例的作用下，实现了基于神经网络模型的模型训练，使得自编码器、特定分类模型分别具有特征提取能力、分类预测能力，进而方能够实现疾病分类编码识别。

下述为本发明装置实施例，可以用于执行本发明所涉及的疾病分类编码识别方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的疾病分类编码识别方法的方法实施例。

请参阅图11，在一示例性实施例中，一种疾病分类编码识别装置900应用于计算机设备，所示疾病分类编码装置900包括但不限于：数据获取模块910、向量获取模块930、相似度获取模块950和编码识别模块970。

其中，数据获取模块910，用于获取诊断数据。

向量获取模块930，用于将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量。

相似度获取模块950，用于基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度。

编码识别模块970，用于根据所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，确定所述诊断数据对应的疾病分类编码。

需要说明的是，上述实施例所提供的疾病分类编码识别装置在进行疾病分类编码识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即疾病分类编码识别装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的疾病分类编码识别装置与疾病分类编码识别方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图12，在一示例性实施例中，一种计算机设备1000，包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。

其中，存储器1002上存储有计算机可读指令，处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的疾病分类编码识别方法。

在一示例性实施例中，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的疾病分类编码识别方法。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种疾病分类编码识别方法，其特征在于，所述方法应用于计算机设备，所述方法包括：

获取诊断数据；

将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量；

基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度；

根据所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，确定所述诊断数据对应的疾病分类编码。

2.如权利要求1所述的方法，其特征在于，所述将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量，包括：

3.如权利要求2所述的方法，其特征在于，所述自编码器包括降噪编码器和解码器，所述降噪编码器包括字嵌入层、双向长短期记忆层和自注意力层；

所述基于由深度学习模型训练生成的自编码器，按照所述疾病分类编码所在的表示空间对所述诊断数据进行降噪处理，得到所述诊断数据对应的中间向量，包括：

将所述诊断数据输入所述字嵌入层，与所述字嵌入层中特定字符字典中的字符编号进行匹配，得到所述诊断数据对应的字嵌入向量序列；

将所述诊断数据对应的字嵌入向量序列输入至所述双向长短期记忆层，进行局部特征提取，得到所述诊断数据对应的向量特征；

将所述诊断数据对应的向量特征输入至所述自注意力层，进行全局特征提取，得到所述诊断数据对应的中间向量。

4.如权利要求1所述的方法，其特征在于，所述基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度之前，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述基于疾病分类编码对应结构树上不同中间向量所表示疾病分类编码之间的距离，对所述诊断数据对应的中间向量进行不同程度地相似性约束之前，所述方法还包括：

构建相似性约束损失函数，并获取若干复合训练样本；所述复合训练样本包括两个原始训练样本和一个相似性标签，所述原始训练样本包括已识别诊断数据及其对应的疾病分类编码，所述相似性标签用于指示两个所述原始训练样本中的疾病分类编码在疾病分类编码对应结构树上的距离；

根据若干所述复合训练样本对所述相似性约束损失函数进行优化；

当所述相似性约束损失函数按照特定规则优化至逐渐收敛，则收敛的相似性约束损失函数被用于对所述诊断数据对应的中间向量进行不同程度地相似性约束。

6.如权利要求1所述的方法，其特征在于，所述基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，包括：

针对所述向量矩阵中的每一个中间向量，与所述诊断数据对应的中间向量进行拼接，得到多个输入向量；

基于由深度学习模型训练生成的特定分类模型中，分别对多个输入向量进行分类预测，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度。

7.如权利要求2、3或者6所述的方法，其特征在于，所述深度学习模型包括神经网络模型；

所述方法还包括：

基于神经网络模型进行建模，并根据若干原始训练样本对所建模型进行模型训练；所述原始训练样本包括已识别诊断数据及其对应的疾病分类编码；

当通过所述模型训练使得所建模型对应的损失函数收敛，则由所建模型收敛得到所述自编码器和/或所述特定分类模型。

8.一种疾病分类编码识别装置，其特征在于，所述装置应用于计算机设备，所述装置包括：

数据获取模块，用于获取诊断数据；

向量获取模块，用于将所述诊断数据映射至疾病分类编码所在的表示空间，得到所述诊断数据对应的中间向量；

相似度获取模块，用于基于由疾病分类编码对应中间向量构建的向量矩阵，对所述诊断数据对应的中间向量进行相似性度量，得到所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度；

编码识别模块，用于根据所述向量矩阵中的中间向量与所述诊断数据对应的中间向量之间的相似度，确定所述诊断数据对应的疾病分类编码。

9.一种计算机设备，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的疾病分类编码识别方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的疾病分类编码识别方法。