CN111145910A

CN111145910A - 基于人工智能的异常案例识别方法、装置、计算机设备

Info

Publication number: CN111145910A
Application number: CN201911275089.1A
Authority: CN
Inventors: 李何言; 王玉婷
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-12

Abstract

本申请涉及大数据,提供了一种基于人工智能的异常案例识别方法，应用于平台服务器，包括：获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将诊疗项目数据作为文本中的单词进行文本构建，构建的文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据；对文本进行主题模型构建得到对应的主题向量分布，每个主题向量分布对应一个主题，包括多个单词标识和对应的单词权重，其中各个主题对于不同用户有不同的用户主题权重；将各个文本对应的主题向量分布对齐并进行聚类得到各个用户在不同时间对应的诊疗项目类别形成用户对应的诊疗序列；将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径从而识别异常案例。

Description

基于人工智能的异常案例识别方法、装置、计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于人工智能的异常案例识别方法、装置、计算机设备和存储介质。

背景技术

随着医保制度改革与发展的进一步推进，医保欺诈行为也愈演愈烈。医保欺诈的手段多种多样，包括过度医疗、违规开药、分解住院、虚假套名、代刷医保卡、非法报销等。面对骗保行为的巨大威胁，现在的医保***缺少有效的反制手段。

传统异常案例识别通常由各个医疗机构通过本地服务器采用自定义的算法进行识别，如第一医疗机构通过第一医院服务器采用第一识别算法识别异常案例，各种自定义的算法进行识别的识别范围低、识别准确率差，很难高效地覆盖含有疑点的案例，且需要各个医疗机构在本地服务器布置识别算法，浪费了大量的计算机资源。

发明内容

基于此，有必要针对上述技术问题，提供一种基于人工智能的异常案例识别方法、装置、计算机设备和存储介质，使得异常案例的识别通过统一的平台服务器进行，提高异常案例的识别准确率和识别范围，节省计算机资源。

一种基于人工智能的异常案例识别方法，应用于平台服务器，所述方法包括：

获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将所述诊疗项目数据作为文本中的单词进行文本构建，构建的每个文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据；

对各个所述文本进行主题模型构建，获得各个文本对应的主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，每个主题向量分布对应一个主题，其中各个主题相对于不同用户具有不同的用户主题权重；

将各个文本对应的主题向量分布对齐，将对齐后的各个主题向量分布进行聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列；

将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径，根据所述标准临床路径识别异常案例。

在其中一个实施例中，所述方法还包括：

获取同一病种多个不同用户对应的诊疗项目数据和案例描述信息，将各个用户对应的诊疗项目数据和案例描述信息构建形成各个用户对应的诊疗样本；

将各个用户对应的诊疗样本基于深度神经网络的表征学习进行降维，提取得到上下文属性向量；

对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

在其中一个实施例中，所述对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本包括：

计算任意两个用户的上下文属性向量之间的距离，获取与第一用户距离小于预设阈值的用户得到关联用户集合；

根据所述关联用户集合中各个用户对应的实际诊疗费用等级，确定所述第一用户对应的预测诊疗费用等级；

根据第一用户的实际诊疗费用等级与预测诊疗费用等级之间的差距计算得到所述第一用户的诊疗样本对应的异常分数，其中所述异常分数与差距成正比。

对各个用户对应的上下文属性向量进行聚类得到多个不同的聚类簇；

获取各个所述聚类簇的容量，按照容量大小进行排序，按照容量从低至高的顺序取预设比例的聚类簇识别为异常聚类簇；

根据容量大小确定各个所述异常聚类簇中对应的诊疗样本的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

在其中一个实施例中，所述方法还包括：

对所述诊疗项目数据进行清洗，对所述诊疗项目数据中的缺失值进行处理；

对所述诊疗项目数据中的类别型字段和连续值字段进行离散化处理，对所述诊疗项目数据中的连续型变量进行标准化处理；

根据诊疗项目相似度将诊疗项目数据中的诊疗项目进行合并。

一种基于人工智能的异常案例识别装置，应用于平台服务器，所述装置包括：

文本构建模块，用于获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将所述诊疗项目数据作为文本中的单词进行文本构建，构建的每个文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据；

主题向量分布模块，用于对各个所述文本进行主题模型构建，获得各个文本对应的主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，每个主题向量分布对应一个主题，其中各个主题相对于不同用户具有不同的用户主题权重；

诊疗序列确定模块，用于将各个文本对应的主题向量分布对齐，将对齐后的各个主题向量分布进行聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列；

异常案例识别模块，用于将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径，根据所述标准临床路径识别异常案例。

在其中一个实施例中，所述装置还包括：

异常诊疗样本识别模块，用于获取同一病种多个不同用户对应的诊疗项目数据和案例描述信息，将各个用户对应的诊疗项目数据和案例描述信息构建形成各个用户对应的诊疗样本；将各个用户对应的诊疗样本基于深度神经网络的表征学习进行降维，提取得到上下文属性向量；对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

在其中一个实施例中，所述异常诊疗样本识别模块还用于计算任意两个用户的上下文属性向量之间的距离，获取与第一用户距离小于预设阈值的用户得到关联用户集合；根据所述关联用户集合中各个用户对应的实际诊疗费用等级，确定所述第一用户对应的预测诊疗费用等级；根据第一用户的实际诊疗费用等级与预测诊疗费用等级之间的差距计算得到所述第一用户的诊疗样本对应的异常分数，其中所述异常分数与差距成正比。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于人工智能的异常案例识别方法、装置、计算机设备和存储介质，应用于平台服务器，通过将同一病种不同用户不同诊疗日期的诊疗项目数据分别构建不同的文本，进行主题提取和聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列，并进行过程挖掘模型得到病种对应的标准临床路径，根据标准临床路径识别异常案例，规范各个病种对应的标准治疗路径，提高标准临床路径的生成准确性和标准化，通过平台服务器统一识别各个地区的异常案例，提高异常案例的识别准确率和识别范围，提高异常案例的识别自动化，提高识别效率，且节省了计算机资源。

附图说明

图1为一个实施例中基于人工智能的异常案例识别方法的应用环境图；

图2为一个实施例中基于人工智能的异常案例识别方法的流程示意图；

图3为一个实施例中主题向量分布示意图；

图4为一个实施例中基于人工智能的异常案例识别装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人工智能的异常案例识别方法，可以应用于如图1所示的应用环境中。图1为一个实施例中基于人工智能的异常案例识别方法运行的应用环境图。如图1所示，该应用环境包括终端110、终端120、平台服务器130、第一医院服务器140和第二医院服务器150。终端、服务器之间通过网络进行通信，通信网络可以是无线或者有线通信网络，例如IP网络、蜂窝移动通信网络等，其中终端和服务器的个数不限。

其中，终端110、终端120可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。平台服务器130从第一医院服务器140和/或第二医院服务器150获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将所述诊疗项目数据作为文本中的单词进行文本构建，构建的每个文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据，对各个文本进行主题模型构建，获得各个文本对应的主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，每个主题向量分布对应一个主题，其中各个主题相对于不同用户具有不同的用户主题权重；将各个文本对应的主题向量分布对齐，将对齐后的各个主题向量分布进行聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列，将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径，根据标准临床路径识别异常案例。

平台服务器130可以接收终端110或终端120发送的电子票据报销请求，根据电子票据报销请求中的当前病种信息识别异常案例，根据识别结果确定报销结果。

在一个实施例中，如图2所示，提供了一种基于人工智能的异常案例识别方法，以该方法应用于图1中的第一服务器130为例进行说明，包括以下步骤：

步骤210，获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将所述诊疗项目数据作为文本中的单词进行文本构建，构建的每个文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据。

其中，诊疗项目数据是各个诊疗项目对应的实际结算数据，包括用户名称、收费项目明细数据，如诊疗时间，诊疗项目名称，诊疗费用、检验检查、药品、耗材等明细数据等。

具体地，获取同一病种各个用户对应的诊疗项目数据，以诊疗时间为单位，以预设时间间隔为单位，如以天为单位，得到诊疗第一天，诊疗第二天，诊疗第N天的诊疗项目数据，将同一病种各个用户住院第n天的所有诊疗项目数据形成与天对应的文本。在一个实施例中，在进行文本构建时，以同一区域标识对应的诊疗项目数据进行构建，从而不同的区域标识对应的同一病种可以构建得到不同的文本，使得文本更符合当地或医院的实际情况，提高了标准临床路径与地域、医院的匹配性。

步骤220，对各个文本进行主题模型构建，获得各个文本对应的主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，每个主题向量分布对应一个主题，其中各个主题相对于不同用户具有不同的用户主题权重。

具体地，对各个文本对应的项目名称进行LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)分析，获得各个文本对应的主题向量分布。LDA模型是一种非监督机器学习技术，可以用来识别文档集合中潜藏的主题信息。主题即为聚类后得到的多个单词聚合成的集合，一个文档可以对应多个主题，即属于多个类型；主题中可包含多个单词，每个单词具有相应的概率。将各个文本中的单词输入LDA模型，通过该模型的无监督学习即可得到多个主题，多个主题组成主题集合。每个主题对应一个主题向量分布，一个主题向量分布对应多个单词，每个单词对应相应的概率，由LDA模型计算得到。

如图3所示，为一个文本对应的主题向量分布，包括3个主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，可以将单词标识和对应的单词权重进行加权求和得到每个主题向量分布对应的主题，组成各个文本对应的主题集合，如下图3个主题向量分布分别对应主题A、主题B和主题C，如存在2个用户，用户1和用户2，则主题A对应用户1存在第一权重，对应用户2存在第二权重，其中主题对应用户的用户主题权重可由主题向量分布与用户对应的诊疗项目数据确定。

步骤230，将各个文本对应的主题向量分布对齐，将对齐后的各个主题向量分布进行聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列。

其中，对齐是指将各个主题向量分布出现过的单词进行集合，得到对齐单词集合，对齐后的各个主题向量分布包括对齐单词集合中的所有单词。

具体地，如果对齐单词集合中的第一单词未存在于对齐前的主题向量分布中，则对齐后的各个主题向量分布中第一单词对应的单词权重为0。可运用kmeans(k-meansclustering algorithm，k均值聚类算法)聚类得到每个用户对应的诊疗项目类别。虽然各个用户对应的同一天的主题向量分布相同，但是由于相对于不同用户具有不同的用户主题权重，所以将对齐后的各个主题向量分布进行聚类得到的各个用户对应的同一天的诊疗项目类别不同。如用户1在诊疗第一天对应A类别和B类别，用户2在诊疗第一天对应B类别和C类别。每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列。

步骤240，将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径，根据所述标准临床路径识别异常案例。

具体地，标准临床路径包括通过过程挖掘模型确定的各个诊疗时间对应的目标诊疗项目类别，根据目标诊疗项目类别确定各个诊疗时间对应的目标诊疗项目，根据诊疗时间先后顺序得到病种对应的标准临床路径。如90％的患者在诊疗第一天都进行了诊疗项目类别A的诊疗项目，则诊疗项目类别A的诊疗项目就是标准临床路径在诊疗第一天的目标诊疗项目。

可根据标准临床路径对应的路径流程图统计标准临床路径上各个目标诊疗项目对应的项目金额，计算成本，得到此病种对应的标准诊疗费用，如果第一案例对应的诊疗费用与标准诊疗费用差别超过阈值，则说明第一案例为异常案例，存在异常诊疗行为。也可计算同一病种的第一案例与标准临床路径之间的相似度，如果相似度小于预设阈值，则说明第一案例为异常案例。

上述基于人工智能的异常案例识别方法，应用于平台服务器，通过将同一病种不同用户不同诊疗日期的诊疗项目数据分别构建不同的文本，进行主题提取和聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列，并进行过程挖掘模型得到病种对应的标准临床路径，根据标准临床路径识别异常案例，规范各个病种对应的标准治疗路径，提高标准临床路径的生成准确性和标准化，通过平台服务器统一识别各个地区的异常案例，提高异常案例的识别准确率和识别范围，提高异常案例的识别自动化，提高识别效率，且节省了计算机资源。

在一个实施例中，方法还包括：获取同一病种多个不同用户对应的诊疗项目数据和案例描述信息，将各个用户对应的诊疗项目数据和案例描述信息构建形成各个用户对应的诊疗样本；将各个用户对应的诊疗样本基于深度神经网络的表征学习进行降维，提取得到上下文属性向量；对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

其中，案例描述信息包括患者信息、诊断信息，主治医师信息等，如用户的年龄、性别、主要诊断记录、主治医师名称等。可以从案例首页中提取部分字段得到案例描述信息。以诊疗项目数据为主要特征，并辅以案例描述信息作为其他特征构建形成各个用户对应的诊疗样本。表征学习是将原始数据转化为能够被机器学习而有效开发的一种形式，分为监督和无监督学习。

具体地，将各个用户对应的诊疗样本基于深度神经网络的表征学习进行降维，运用深度神经网络将原始的用户信息、医院信息、住院明细进行降维，得到各个用户对应的上下文属性向量。离群点检测是指对数据集中的异常值进行检测，即与大部分数据点不一致的行为进行检测，通过计算各个诊疗样本对应的异常分数进行离群点检测，如果异常分数高于阈值，则诊疗样本识别为异常诊疗样本。计算异常分数的方法可自定义，可采用度量学习方法计算2个样本之间的距离，根据距离确定各个样本的预测诊疗费用，根据预测诊疗费用与实际诊疗费用的差距确定各个样本的异常分数。也可采用聚类的方法对各个诊疗样本进行聚类，根据聚类结果确定各个诊疗样本的异常分数。

在一个实施例中，对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本包括：计算任意两个用户的上下文属性向量之间的距离，获取与第一用户距离小于预设阈值的用户得到关联用户集合；根据关联用户集合中各个用户对应的实际诊疗费用等级，确定第一用户对应的预测诊疗费用等级；根据第一用户的实际诊疗费用等级与预测诊疗费用等级之间的差距计算得到第一用户的诊疗样本对应的异常分数，其中异常分数与差距成正比。

具体地，可采用基于马氏距离的度量学习方法计算任意两个用户的上下文属性向量之间的距离。获取与第一用户距离小于预设阈值的用户得到关联用户集合，计算关联用户集合中各个用户对应的实际诊疗费用等级的概率，如第一等级有80％，第二等级有15％，第三等级有5％，则将比例占比最大的等级即第一等级作为第一用户的预测诊疗费用等级。可将第一用户的预测诊疗费用等级与实际诊疗费用等级的差距作为第一用户的诊疗样本的异常分数，差距越大，则异常分数越高。

在一个实施例中，对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本包括：对各个用户对应的上下文属性向量进行聚类得到多个不同的聚类簇；获取各个聚类簇的容量，按照容量大小进行排序，按照容量从低至高的顺序取预设比例的聚类簇识别为异常聚类簇；根据容量大小确定各个异常聚类簇中对应的诊疗样本的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

具体地，其中聚类算法可以是DBSCAN((Density-Based Spatial Clustering ofApplications with Noise，基于密度的聚类算法)聚类算法，DBSCAN聚类算法是基于密度空间的聚类算法，与KMeans算法不同，它不需要确定聚类的数量，而是基于数据推测聚类的数目，它能够针对任意形状产生聚类。获取各个聚类簇的容量，如果一个诊疗样本所属的聚类簇容量较大，则说明此诊疗样本可能为正常样本，如果一个诊疗样本所属的聚类簇容量较小，则说明诊疗样本可能为异常样本。根据聚类簇的容量大小确定聚类簇中的诊疗样本对应的异常分数，异常分数的高低与聚类簇的容量大小成反比。

在一个实施例中，方法还包括：对诊疗项目数据进行清洗，对诊疗项目数据中的缺失值进行处理；对诊疗项目数据中的类别型字段和连续值字段进行离散化处理，对诊疗项目数据中的连续型变量进行标准化处理；根据诊疗项目相似度将诊疗项目数据中的诊疗项目进行合并。

具体地，上述各个实施例的步骤之前，都可实施本实施例中的步骤。数据清洗是数据分析的第一阶段，主要将诊疗项目数据中的明显不合理，如存在前后矛盾的变量、不符合医学常识的变量值等进行清洗过滤。如果数据为空或NA则为缺失值，对于少数字段缺失的数据可以采用均值、众数填充的方法，字段缺失多的数据可以直接删除。字段的取值为类别，如主要诊断为肺结核、肺炎、支气管炎等各类别，进行离散化处理，如用预设字符串作为类别型字段对应的映射值，如用0001表示肺结核，用0002表示肺炎等。连续值字段进行离散化处理，如25.33进行取整得到25。连续类变量可以采用z-score标准分数的方法进行标准化，比如0.9％氯化钠注射液(袋装)(基)与0.9％氯化钠注射液进行合并，将名称有包含关系的进行合并。可根据临床知识将具有统一诊疗目的的诊疗项目合并，如将血细胞五分类、白细胞计数、红细胞计数等合并为血常规，合并后的诊疗项目作为诊疗项目数据中的一个诊疗项目。

在一个实施例中，记录医院标识或地区标识、第一病种、标准临床路径、标准费用之间的关联关系。接收第一终端上传的电子报销票据，提取电子报销票据中的当前医院标识或当前地区标识以及当前病种信息，根据当前医院标识或当前地区标识以及当前病种信息确定电子报销票据对应的标准临床路径，将电子报销票据中当前待报销诊疗项目与标准临床路径对应的标准诊疗项目进行比对，只有符合目标标准诊疗项目的待报销诊疗项目可进行报销，对异常案例进行识别和自动过滤，保证了报销的标准化与统一化。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于人工智能的异常案例识别装置，包括：文本构建模块310、主题向量分布模块320、诊疗序列确定模块330、异常案例识别模块340，其中：

文本构建模块310，用于获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将所述诊疗项目数据作为文本中的单词进行文本构建，构建的每个文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据。

主题向量分布模块320，用于对各个所述文本进行主题模型构建，获得各个文本对应的主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，每个主题向量分布对应一个主题，其中各个主题相对于不同用户具有不同的用户主题权重。

诊疗序列确定模块330，用于将各个文本对应的主题向量分布对齐，将对齐后的各个主题向量分布进行聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列。

异常案例识别模块340，用于将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径，根据所述标准临床路径识别异常案例。

在一个实施例中，装置还包括：

异常诊疗样本识别模块350，用于获取同一病种多个不同用户对应的诊疗项目数据和案例描述信息，将各个用户对应的诊疗项目数据和案例描述信息构建形成各个用户对应的诊疗样本；将各个用户对应的诊疗样本基于深度神经网络的表征学习进行降维，提取得到上下文属性向量；对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

在一个实施例中，异常诊疗样本识别模块350还用于计算任意两个用户的上下文属性向量之间的距离，获取与第一用户距离小于预设阈值的用户得到关联用户集合；根据所述关联用户集合中各个用户对应的实际诊疗费用等级，确定所述第一用户对应的预测诊疗费用等级；根据第一用户的实际诊疗费用等级与预测诊疗费用等级之间的差距计算得到所述第一用户的诊疗样本对应的异常分数，其中所述异常分数与差距成正比。

在一个实施例中，异常诊疗样本识别模块350还用于对各个用户对应的上下文属性向量进行聚类得到多个不同的聚类簇；获取各个所述聚类簇的容量，按照容量大小进行排序，按照容量从低至高的顺序取预设比例的聚类簇识别为异常聚类簇；根据容量大小确定各个所述异常聚类簇中对应的诊疗样本的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

在一个实施例中，装置还包括：

前处理模块360，用于对所述诊疗项目数据进行清洗，对诊疗项目数据中的缺失值进行处理；对诊疗项目数据中的类别型字段和连续值字段进行离散化处理，对诊疗项目数据中的连续型变量进行标准化处理；根据诊疗项目相似度将诊疗项目数据中的诊疗项目进行合并。

关于基于人工智能的异常案例识别装置的具体限定可以参见上文中对于基于人工智能的异常案例识别方法的限定，在此不再赘述。上述基于人工智能的异常案例识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储临床路径相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的异常案例识别方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将诊疗项目数据作为文本中的单词进行文本构建，构建的每个文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据；对各个文本进行主题模型构建，获得各个文本对应的主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，每个主题向量分布对应一个主题，其中各个主题相对于不同用户具有不同的用户主题权重；将各个文本对应的主题向量分布对齐，将对齐后的各个主题向量分布进行聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列；将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径，根据标准临床路径识别异常案例。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取同一病种多个不同用户对应的诊疗项目数据和案例描述信息，将各个用户对应的诊疗项目数据和案例描述信息构建形成各个用户对应的诊疗样本；将各个用户对应的诊疗样本基于深度神经网络的表征学习进行降维，提取得到上下文属性向量；对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

在一个实施例中，所述对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本包括：计算任意两个用户的上下文属性向量之间的距离，获取与第一用户距离小于预设阈值的用户得到关联用户集合；根据关联用户集合中各个用户对应的实际诊疗费用等级，确定所述第一用户对应的预测诊疗费用等级；根据第一用户的实际诊疗费用等级与预测诊疗费用等级之间的差距计算得到第一用户的诊疗样本对应的异常分数，其中异常分数与差距成正比。

在一个实施例中，所述对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本包括：对各个用户对应的上下文属性向量进行聚类得到多个不同的聚类簇；获取各个所述聚类簇的容量，按照容量大小进行排序，按照容量从低至高的顺序取预设比例的聚类簇识别为异常聚类簇；根据容量大小确定各个所述异常聚类簇中对应的诊疗样本的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对所述诊疗项目数据进行清洗，对所述诊疗项目数据中的缺失值进行处理；对所述诊疗项目数据中的类别型字段和连续值字段进行离散化处理，对所述诊疗项目数据中的连续型变量进行标准化处理；根据诊疗项目相似度将诊疗项目数据中的诊疗项目进行合并。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取同一病种对应的诊疗项目数据，以诊疗时间为单位，将诊疗项目数据作为文本中的单词进行文本构建，构建的每个文本包括对应诊疗时间段内同一病种不同用户的诊疗项目数据；对各个文本进行主题模型构建，获得各个文本对应的主题向量分布，每个主题向量分布包括多个单词标识和对应的单词权重，每个主题向量分布对应一个主题，其中各个主题相对于不同用户具有不同的用户主题权重；将各个文本对应的主题向量分布对齐，将对齐后的各个主题向量分布进行聚类得到各个用户在不同时间对应的诊疗项目类别，每个用户对应的各个诊疗项目类别形成用户对应的诊疗序列；将各个用户在不同诊疗时间对应的诊疗序列输入过程挖掘模型得到病种对应的标准临床路径，根据标准临床路径识别异常案例。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取同一病种多个不同用户对应的诊疗项目数据和案例描述信息，将各个用户对应的诊疗项目数据和案例描述信息构建形成各个用户对应的诊疗样本；将各个用户对应的诊疗样本基于深度神经网络的表征学习进行降维，提取得到上下文属性向量；对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的异常案例识别方法，应用于平台服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本包括：

4.根据权利要求2所述的方法，其特征在于，所述对各个用户对应的上下文属性向量进行离群点检测，计算各个诊疗样本对应的异常分数，将异常分数高于阈值的诊疗样本识别为异常诊疗样本包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

6.一种基于人工智能的异常案例识别装置，应用于平台服务器，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述异常诊疗样本识别模块还用于计算任意两个用户的上下文属性向量之间的距离，获取与第一用户距离小于预设阈值的用户得到关联用户集合；根据所述关联用户集合中各个用户对应的实际诊疗费用等级，确定所述第一用户对应的预测诊疗费用等级；根据第一用户的实际诊疗费用等级与预测诊疗费用等级之间的差距计算得到所述第一用户的诊疗样本对应的异常分数，其中所述异常分数与差距成正比。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。