CN113283500A

CN113283500A - 医疗问诊数据的处理方法、装置、设备及存储介质

Info

Publication number: CN113283500A
Application number: CN202110564908.5A
Authority: CN
Inventors: 周亮彪
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-20

Abstract

本发明涉及人工智能领域，公开了一种医疗问诊数据的处理方法、装置、设备及存储介质，用于进行图形处理器资源管理、数据标注、数据质检、模型训练、模型评估、上线发布的全流程开发和部署，提升了医疗问诊数据的处理效率。医疗问诊数据的处理方法包括：接收图形处理器资源申请请求，并进行资源分配，得到资源分配信息；对医疗问诊训练数据进行数据标注、质量检测和分类，得到分类数据；对预置的机器学习模型进行模型训练和评估，生成目标机器学习模型；调用目标机器学习模型对待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。此外，本发明还涉及区块链技术，目标就诊信息可存储于区块链节点中。

Description

医疗问诊数据的处理方法、装置、设备及存储介质

技术领域

本发明涉及机器学习领域，尤其涉及一种医疗问诊数据的处理方法、装置、设备及存储介质。

背景技术

目前业界比较优秀的机器学***台、亚马逊的SageMaker、微软的Azure、腾讯的TI平台以及百度的PaddlePaddle，也有很多开源的产品，如Google的TensorFlow、加州大学伯克利分校的Caffe、Apache的Spark MLlib以及Facebook的PyTorch等。

在现有技术中，开源平台大都是机器学习或者深度学习基础计算的框架，仅仅聚焦于训练机器学习或深度学习模型，没有形成一整套的工程实践体系，导致医疗问诊数据的处理效率低下。

发明内容

本发明提供了一种医疗问诊数据的处理方法、装置、设备及存储介质，用于基于基础的机器学习和深度学习计算框架进行二次开发，进行图形处理器资源管理、数据标注、数据质检、模型训练、模型评估、上线发布的全流程开发和部署，并实现了训练及评估容器的自动构建及销毁，提升了医疗问诊数据的处理效率。

本发明第一方面提供了一种医疗问诊数据的处理方法，包括：接收图形处理器资源申请请求，并根据所述图形处理器资源申请请求进行资源分配，得到资源分配信息；获取医疗问诊训练数据，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，并对所述目标标注数据进行质量检测和分类，得到分类数据；调用所述资源分配信息和所述分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型；获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。

可选的，在本发明第一方面的第一种实现方式中，所述获取医疗问诊训练数据，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，并对所述目标标注数据进行质量检测和分类，得到分类数据包括：获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，所述医疗问诊训练数据的格式包括txt、csv和excel三种文本格式；调用预置的数据质量检测算法对所述目标标注数据进行质量检测，得到异常数据和缺失数据，并对所述目标标注数据进行基于所述异常数据的过滤和基于所述缺失数据的填补，得到质检数据；按照预设的比例将所述质检数据进行分类，得到分类数据，所述分类数据包括训练集数据和评估集数据。

可选的，在本发明第一方面的第二种实现方式中，所述获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，所述医疗问诊训练数据的格式包括txt、csv和excel三种文本格式包括：获取医疗问诊训练数据，调用预置的数据标记算法，按照业务类型对所述医疗问诊训练数据进行数据标注，得到预标注数据，所述模型训练数据的格式包括txt、csv和excel三种文本格式，所述业务类型包括疾病标注和搜索关键词标注；获取预置的辅助标记算法的接口，以及所述接口的返回参数字段，并判断所述返回参数字段是否满足预设的条件；若所述返回参数字段满足预设的条件，则调用所述接口，对所述预标注数据进行基于推荐标签信息的标注，得到目标标注数据。

可选的，在本发明第一方面的第三种实现方式中，所述调用所述资源分配信息和所述分类数据，对预置的机器学***台和所述图形处理器资源分配信息，创建目标训练容器；获取容器资源信息，通过所述目标训练容器、所述容器资源信息和所述分类数据中的训练集数据，对预置的机器学习模型进行训练，得到训练后的模型，所述容器资源信息包括文件目录、训练集数据、外部资源和代码库地址，所述分类数据包括训练集数据和评估集数据；对所述训练后的模型进行分类，得到分类后的训练模型，并按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型。

可选的，在本发明第一方面的第四种实现方式中，所述对所述训练后的模型进行分类，得到分类后的训练模型，并按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型包括：按照预置的目录类别将所述训练后的模型进行分类，得到分类后的训练模型，所述目录类别包括模型应用名、模型创建时间和快照版本；按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，判断所述模型评估结果是否满足预设的模型评估条件，若所述模型评估结果满足预设的模型评估条件，则将所述初始机器学习模型确定为目标机器学习模型，所述预置的评估指标包括精准率和召回率。

可选的，在本发明第一方面的第五种实现方式中，所述获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息包括：获取待处理的医疗问诊数据，所述待处理的医疗问诊数据包括目标用户输入的问题句子和/或问题词语；调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别，得到问诊关键词，将所述问诊关键词与预置的目标关键词进行关联度计算，得到关联度匹配值；当所述关联度匹配值大于预设的阈值时，将所述问诊关键词确定为目标就诊信息。

可选的，在本发明第一方面的第六种实现方式中，在所述获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息之后，所述方法还包括：将所述目标就诊信息存储至预置的分布式文件***。

本发明第二方面提供了一种医疗问诊数据的处理装置，包括：接收模块，用于接收图形处理器资源申请请求，并根据所述图形处理器资源申请请求进行资源分配，得到资源分配信息；分类模块，用于获取医疗问诊训练数据，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，并对所述目标标注数据进行质量检测和分类，得到分类数据；训练模块，用于调用所述资源分配信息和所述分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型；生成模块，用于获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。

可选的，在本发明第二方面的第一种实现方式中，所述分类模块包括：标注单元，用于获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，所述医疗问诊训练数据的格式包括txt、csv和excel三种文本格式；检测单元，用于调用预置的数据质量检测算法对所述目标标注数据进行质量检测，得到异常数据和缺失数据，并对所述目标标注数据进行基于所述异常数据的过滤和基于所述缺失数据的填补，得到质检数据；第一分类单元，用于按照预设的比例将所述质检数据进行分类，得到分类数据，所述分类数据包括训练集数据和评估集数据。

可选的，在本发明第二方面的第二种实现方式中，所述标注单元具体用于：获取医疗问诊训练数据，调用预置的数据标记算法，按照业务类型对所述医疗问诊训练数据进行数据标注，得到预标注数据，所述模型训练数据的格式包括txt、csv和excel三种文本格式，所述业务类型包括疾病标注和搜索关键词标注；获取预置的辅助标记算法的接口，以及所述接口的返回参数字段，并判断所述返回参数字段是否满足预设的条件；若所述返回参数字段满足预设的条件，则调用所述接口，对所述预标注数据进行基于推荐标签信息的标注，得到目标标注数据。

可选的，在本发明第二方面的第三种实现方式中，所述训练模块包括：创建单元，用于通过预置的容器集群平台和所述图形处理器资源分配信息，创建目标训练容器；训练单元，用于获取容器资源信息，通过所述目标训练容器、所述容器资源信息和所述分类数据中的训练集数据，对预置的机器学习模型进行训练，得到训练后的模型，所述容器资源信息包括文件目录、训练集数据、外部资源和代码库地址，所述分类数据包括训练集数据和评估集数据；评估单元，用于对所述训练后的模型进行分类，得到分类后的训练模型，并按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型。

可选的，在本发明第二方面的第四种实现方式中，所述评估单元具体用于：按照预置的目录类别将所述训练后的模型进行分类，得到分类后的训练模型，所述目录类别包括模型应用名、模型创建时间和快照版本；按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，判断所述模型评估结果是否满足预设的模型评估条件，若所述模型评估结果满足预设的模型评估条件，则将所述初始机器学习模型确定为目标机器学习模型，所述预置的评估指标包括精准率和召回率。

可选的，在本发明第二方面的第五种实现方式中，所述生成模块包括：获取单元，用于获取待处理的医疗问诊数据，所述待处理的医疗问诊数据包括目标用户输入的问题句子和/或问题词语；识别单元，用于调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别，得到问诊关键词，将所述问诊关键词与预置的目标关键词进行关联度计算，得到关联度匹配值；生成单元，用于当所述关联度匹配值大于预设的阈值时，将所述问诊关键词确定为目标就诊信息。

可选的，在本发明第二方面的第六种实现方式中，在所述生成模块之后，所述医疗问诊数据的处理装置还包括：存储模块，用于将所述目标就诊信息存储至预置的分布式文件***。

本发明第三方面提供了一种医疗问诊数据的处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述医疗问诊数据的处理设备执行上述的医疗问诊数据的处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的医疗问诊数据的处理方法。

本发明提供的技术方案中，接收图形处理器资源申请请求，并根据所述图形处理器资源申请请求进行资源分配，得到资源分配信息；获取医疗问诊训练数据，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，并对所述目标标注数据进行质量检测和分类，得到分类数据；调用所述资源分配信息和所述分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型；获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。本发明实施例中，基于基础的机器学习和深度学习计算框架进行二次开发，进行图形处理器资源管理、数据标注、数据质检、模型训练、模型评估、上线发布的全流程开发和部署，并实现了训练及评估容器的自动构建及销毁，提升了医疗问诊数据的处理效率。

附图说明

图1为本发明实施例中医疗问诊数据的处理方法的一个实施例示意图；

图2为本发明实施例中医疗问诊数据的处理方法的另一个实施例示意图；

图3为本发明实施例中医疗问诊数据的处理装置的一个实施例示意图；

图4为本发明实施例中医疗问诊数据的处理装置的另一个实施例示意图；

图5为本发明实施例中医疗问诊数据的处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种医疗问诊数据的处理方法、装置、设备及存储介质，用于基于基础的机器学习和深度学习计算框架进行二次开发，进行图形处理器资源管理、数据标注、数据质检、模型训练、模型评估、上线发布的全流程开发和部署，并实现了训练及评估容器的自动构建及销毁，提升了医疗问诊数据的处理效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中医疗问诊数据的处理方法的一个实施例包括：

101、接收图形处理器资源申请请求，并根据图形处理器资源申请请求进行资源分配，得到资源分配信息。

可以理解的是，本发明的执行主体可以为医疗问诊数据的处理装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器接收图形处理器资源申请请求，并根据图形处理器资源申请请求进行资源分配，得到资源分配信息。服务器接收并读取用户端发送的图形处理器(graphicsprocessing unit，GPU)资源申请请求，对图形处理器GPU资源申请请求进行解析，得到解析结果，根据解析结果从预置的资源数据库中调取硬件资源并进行资源的分配，得到GPU资源分配信息，GPU资源分配信息包括GPU类型、GPU颗数、GPU内存大小、CPU核数、CPU内存大小及磁盘大小，用户可以通过GPU资源申请页面，申请对应应用的GPU资源，用于后续应用镜像部署环境，服务器接收到用户端发送的GPU资源申请请求后将进行指定硬件资源的分配，在后续模型训练过程中将根据资源分配信息生成指定硬件资源的训练容器。

102、获取医疗问诊训练数据，对医疗问诊训练数据进行数据标注，得到目标标注数据，并对目标标注数据进行质量检测和分类，得到分类数据。

服务器获取医疗问诊训练数据，对医疗问诊训练数据进行数据标注，得到目标标注数据，并对目标标注数据进行质量检测和分类，得到分类数据。服务器通过爬虫获取医疗问诊训练数据，本实施例中的医疗问诊训练数据都经过用户授权，通过调用预置的数据标记算法和预置的辅助标记算法对医疗问诊训练数据进行数据标注，数据标记算法主要包括调用预置的标注工具，并按照业务类型对医疗问诊训练数据进行预标注，得到预标注数据，预置的标注工具包括但不限于标签盒labelbox或图像注释器(vgg image annotator，VIA)，辅助标记算法主要通过将预标注数据传输至指定的辅助标记算法超文本传输协议(hypertext transfer protocol，HTTP)接口，得到目标标注数据，并调用预置的数据质量检测算法对目标标注数据进行质量检测，检测到的异常数据直接删除，缺失数据则采用热卡插补算法进行填补，质检完成后将质检数据按照预置的比例进行分类，得到分类数据。

103、调用资源分配信息和分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当模型评估结果满足预设的模型评估条件时，将初始机器学习模型确定为目标机器学习模型。

服务器调用资源分配信息和分类数据，对预置的机器学***台并根据GPU资源分配信息进行训练容器的创建，生成目标训练容器，目标训练容器的生成主要是通过容器集群平台(kubernetes，k8s)得到，将预置的机器学***台资源接口，将目标训练容器的资源释放归还给宿主机，以便后续用于新容器的资源分配。

104、获取待处理的医疗问诊数据，调用目标机器学习模型，对待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。

服务器获取待处理的医疗问诊数据，调用目标机器学习模型，对待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。服务器通过获取用户的医疗问诊数据，将医疗问诊数据导入目标机器学习模型，从而识别出医疗问诊数据中的关键词，并与预置的目标关键词进行关联度计算，得到关联度匹配值，当关联度匹配值满足预设条件时，得到目标就诊信息，得到目标就诊信息之后，服务器将目标就诊信息导入分布式文件***ceph中进行存储，ceph是一个统一的分布式存储***，摒弃了传统的集中式存储元数据寻址的方案，采用数据分发(controlled replication under scalable hashing，CRUSH)算法，使得数据分布均衡，并行度高，能够支持上千个存储节点的规模。

本发明实施例中，基于基础的机器学习和深度学习计算框架进行二次开发，进行图形处理器资源管理、数据标注、数据质检、模型训练、模型评估、上线发布的全流程开发和部署，并实现了训练及评估容器的自动构建及销毁，提升了医疗问诊数据的处理效率。

请参阅图2，本发明实施例中医疗问诊数据的处理方法的另一个实施例包括：

201、接收图形处理器资源申请请求，并根据图形处理器资源申请请求进行资源分配，得到资源分配信息。

服务器接收图形处理器资源申请请求，并根据图形处理器资源申请请求进行资源分配，得到资源分配信息。服务器接收并读取用户端发送的图形处理器GPU资源申请请求，对图形处理器GPU资源申请请求进行解析，得到解析结果，根据解析结果从预置的资源数据库中调取硬件资源并进行资源的分配，得到GPU资源分配信息，GPU资源分配信息包括GPU类型、GPU颗数、GPU内存大小、CPU核数、CPU内存大小及磁盘大小，用户可以通过GPU资源申请页面，申请对应应用的GPU资源，用于后续应用镜像部署环境，服务器接收到用户端发送的GPU资源申请请求后将进行指定硬件资源的分配，在后续模型训练过程中将根据资源分配信息生成指定硬件资源的训练容器。

202、获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对医疗问诊训练数据进行数据标注，得到目标标注数据，医疗问诊训练数据的格式包括txt、csv和excel三种文本格式。

服务器获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对医疗问诊训练数据进行数据标注，得到目标标注数据，医疗问诊训练数据的格式包括txt、csv和excel三种文本格式。具体的，服务器获取医疗问诊训练数据，调用预置的数据标记算法，按照业务类型对医疗问诊训练数据进行数据标注，得到预标注数据，模型训练数据的格式包括txt、csv和excel三种文本格式，业务类型包括疾病标注和搜索关键词标注；服务器获取预置的辅助标记算法的接口，以及接口的返回参数字段，并判断返回参数字段是否满足预设的条件；若返回参数字段满足预设的条件，服务器则调用辅助标记算法的接口，对预标注数据进行基于推荐标签信息的标注，得到目标标注数据。

服务器调用预置的标注工具标签盒labelbox或图像注释器(vgg imageannotator，VIA)，并基于业务类型对医疗问诊训练数据进行预标注，业务类型包括但不限于疾病标注和搜索关键词标注，辅助标记算法的接入是通过配置指定的接口，该接口可以为HTTP接口，但接口的返回参数字段需满足预设的条件，预设的条件包括但不限于返回参数的格式要求和语法要求，服务器会将每条需标注的数据通过JSON的数据格式传递给指定的HTTP接口并完成算法接口推荐值的自动获取，当获取到算法接口推荐值时，则表示辅助标记已经完成，辅助标记算法主要是提供推荐标签信息，来根据已有算法结果的辅助标注，提高了标注的效率。

203、调用预置的数据质量检测算法对所述目标标注数据进行质量检测，得到异常数据和缺失数据，并对所述目标标注数据进行基于所述异常数据的过滤和基于所述缺失数据的填补，得到质检数据。

服务器调用预置的数据质量检测算法对所述目标标注数据进行质量检测，得到异常数据和缺失数据，并对所述目标标注数据进行基于所述异常数据的过滤和基于所述缺失数据的填补，得到质检数据。质量检测过程中检测到的异常数据直接删除，缺失数据则采用热卡插补算法进行填补，热卡插补(hot deck imputation)也叫就近补齐，对于一个包含空值的对象，热卡插补算法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充，通常会找到超出一个的相似对象，从中随机的挑选一个作为填充值。

204、按照预设的比例将所述质检数据进行分类，得到分类数据，所述分类数据包括训练集数据和评估集数据。

服务器按照预设的比例将所述质检数据进行分类，得到分类数据，所述分类数据包括训练集数据和评估集数据。质检完成后，服务器将质检数据按3：7的比例分配为评估集和训练集，评估集比例比训练集比例低。

205、调用资源分配信息和分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当模型评估结果满足预设的模型评估条件时，将初始机器学习模型确定为目标机器学习模型。

服务器调用资源分配信息和分类数据，对预置的机器学***台和图形处理器资源分配信息，创建目标训练容器；服务器获取容器资源信息，通过目标训练容器、容器资源信息和分类数据中的训练集数据，对预置的机器学习模型进行训练，得到训练后的模型，容器资源信息包括文件目录、训练集数据、外部资源和代码库地址，分类数据包括训练集数据和评估集数据；服务器对训练后的模型进行分类，得到分类后的训练模型，并按照预置的评估指标对分类后的训练模型进行评估，得到模型评估结果，当模型评估结果满足预设的模型评估条件时，将初始机器学习模型确定为目标机器学习模型。

目标训练容器的生成主要是通过容器集群平台k8s得到来实现，k8s是一个完备的分布式***支撑平台，具有完备的集群管理能力，在应用容器引擎Docker的基础上，为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列完整功能，提高了大规模容器集群管理的便捷性，k8s内建智能负载均衡器，具有强大的故障发现和自我修复能力，本方案中通过Kubernetes平台完成目标训练容器的创建，并将预置的机器学习模型和训练集数据导入目标训练容器，并进行DockerFile的编写，DockerFile中主要编写的内容是需要使用的文件目录、训练数据集、外部资源及git代码库地址等信息，方便应用容器引擎Docker构建容器时，生成完备的***运行环境，

服务器将质检通过后的评估集数据和训练后的模型加载到评估容器中，可以选择特定模型移动到评估模型的管理目录中，管理目录包括模型应用名、模型创建时间和快照版本SNAPSHOT，移动到评估模型中的目的是明确此模型已提测，开发人员不能再进行更改，以便更好的管理模型的迭代流程，服务器按照预置的评估指标对分类后的训练模型进行评估，加载DockerFile完成依赖组件的导入，根据精准率、召回率等指标评估模型是否达到生产要求。

206、获取待处理的医疗问诊数据，调用目标机器学习模型，对待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。

服务器获取待处理的医疗问诊数据，调用目标机器学习模型，对待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。具体的，服务器获取待处理的医疗问诊数据，待处理的医疗问诊数据包括目标用户输入的问题句子和/或问题词语；服务器调用目标机器学习模型，对待处理的医疗问诊数据进行关键词识别，得到问诊关键词，将问诊关键词与预置的目标关键词进行关联度计算，得到关联度匹配值；当关联度匹配值大于预设的阈值时，服务器将问诊关键词确定为目标就诊信息。

其中，问题句子包括多种形式，例如：“我今天测的腋下温度38摄氏度”、“胃疼应该去看那个科？”、“这两天总感觉头晕”，问题词语可以包括一个或多个词语，例如，“上腹痛、餐后饱胀感”、“胃疼、食欲不振”、“糖尿病”等，在模型标注和训练阶段已有根据“体温”、“38℃”等目标关键词与“发烧”标签的关联标注，因此目标机器学习模型会将识别到的问诊关键词“腋下温度”与“体温”进行关联度计算，“38摄氏度”与“38℃”进行关联度计算，识别到的关键词可以包括一个或多个，当每一个识别到的关键词与目标机器学习模型中的目标关键词的关联度大于98％时，服务器将问诊关键词确定为目标就诊信息，即得出用户需要到线上发热门诊就诊的提示信息。

上面对本发明实施例中医疗问诊数据的处理方法进行了描述，下面对本发明实施例中医疗问诊数据的处理装置进行描述，请参阅图3，本发明实施例中医疗问诊数据的处理装置的一个实施例包括：

接收模块301，用于接收图形处理器资源申请请求，并根据图形处理器资源申请请求进行资源分配，得到资源分配信息；

分类模块302，用于获取医疗问诊训练数据，对医疗问诊训练数据进行数据标注，得到目标标注数据，并对目标标注数据进行质量检测和分类，得到分类数据；

训练模块303，用于调用资源分配信息和分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当模型评估结果满足预设的模型评估条件时，将初始机器学习模型确定为目标机器学习模型；

生成模块304，用于获取待处理的医疗问诊数据，调用目标机器学习模型，对待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。

请参阅图4，本发明实施例中医疗问诊数据的处理装置的另一个实施例包括：

其中，分类模块302具体包括：

标注单元3021，用于获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对医疗问诊训练数据进行数据标注，得到目标标注数据，医疗问诊训练数据的格式包括txt、csv和excel三种文本格式；

检测单元3022，用于调用预置的数据质量检测算法对目标标注数据进行质量检测，得到异常数据和缺失数据，并对目标标注数据进行基于异常数据的过滤和基于缺失数据的填补，得到质检数据；

第一分类单元3023，用于按照预设的比例将质检数据进行分类，得到分类数据，分类数据包括训练集数据和评估集数据；

可选的，标注单元3021还可以具体用于：

获取医疗问诊训练数据，调用预置的数据标记算法，按照业务类型对医疗问诊训练数据进行数据标注，得到预标注数据，模型训练数据的格式包括txt、csv和excel三种文本格式，业务类型包括疾病标注和搜索关键词标注；获取预置的辅助标记算法的接口，以及接口的返回参数字段，并判断返回参数字段是否满足预设的条件；若返回参数字段满足预设的条件，则调用接口，对预标注数据进行基于推荐标签信息的标注，得到目标标注数据。

可选的，训练模块303包括：

创建单元3031，用于通过预置的容器集群平台和图形处理器资源分配信息，创建目标训练容器；

训练单元3032，用于获取容器资源信息，通过目标训练容器、容器资源信息和分类数据中的训练集数据，对预置的机器学习模型进行训练，得到训练后的模型，容器资源信息包括文件目录、训练集数据、外部资源和代码库地址，分类数据包括训练集数据和评估集数据；

评估单元3033，用于对训练后的模型进行分类，得到分类后的训练模型，并按照预置的评估指标对分类后的训练模型进行评估，得到模型评估结果，当模型评估结果满足预设的模型评估条件时，将初始机器学习模型确定为目标机器学习模型。

可选的，评估单元3033具体用于：

按照预置的目录类别将所述训练后的模型进行分类，得到分类后的训练模型，目录类别包括模型应用名、模型创建时间和快照版本；按照预置的评估指标对分类后的训练模型进行评估，得到模型评估结果，判断模型评估结果是否满足预设的模型评估条件，若模型评估结果满足预设的模型评估条件，则将初始机器学习模型确定为目标机器学习模型，预置的评估指标包括精准率和召回率。

可选的，生成模块304包括：

获取单元3041，用于获取待处理的医疗问诊数据，待处理的医疗问诊数据包括目标用户输入的问题句子和/或问题词语；

识别单元3042，用于调用目标机器学习模型，对待处理的医疗问诊数据进行关键词识别，得到问诊关键词，将问诊关键词与预置的目标关键词进行关联度计算，得到关联度匹配值；

生成单元3043，用于当关联度匹配值大于预设的阈值时，将问诊关键词确定为目标就诊信息。

可选的，在生成模块304之后，医疗问诊数据的处理装置还包括：

存储模块305，用于将目标就诊信息存储至预置的分布式文件***。

上面图3和图4从模块化功能实体的角度对本发明实施例中的医疗问诊数据的处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中医疗问诊数据的处理设备进行详细描述。

图5是本发明实施例提供的一种医疗问诊数据的处理设备的结构示意图，该医疗问诊数据的处理设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对医疗问诊数据的处理设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在医疗问诊数据的处理设备500上执行存储介质530中的一系列指令操作。

医疗问诊数据的处理设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的医疗问诊数据的处理设备结构并不构成对医疗问诊数据的处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种医疗问诊数据的处理设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述医疗问诊数据的处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述医疗问诊数据的处理方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医疗问诊数据的处理方法，其特征在于，所述医疗问诊数据的处理方法包括：

接收图形处理器资源申请请求，并根据所述图形处理器资源申请请求进行资源分配，得到资源分配信息；

获取医疗问诊训练数据，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，并对所述目标标注数据进行质量检测和分类，得到分类数据；

调用所述资源分配信息和所述分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型；

获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。

2.根据权利要求1所述的医疗问诊数据的处理方法，其特征在于，所述获取医疗问诊训练数据，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，并对所述目标标注数据进行质量检测和分类，得到分类数据包括：

获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，所述医疗问诊训练数据的格式包括txt、csv和excel三种文本格式；

调用预置的数据质量检测算法对所述目标标注数据进行质量检测，得到异常数据和缺失数据，并对所述目标标注数据进行基于所述异常数据的过滤和基于所述缺失数据的填补，得到质检数据；

按照预设的比例将所述质检数据进行分类，得到分类数据，所述分类数据包括训练集数据和评估集数据。

3.根据权利要求2所述的医疗问诊数据的处理方法，其特征在于，所述获取医疗问诊训练数据，并调用预置的数据标记算法和预置的辅助标记算法，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，所述医疗问诊训练数据的格式包括txt、csv和excel三种文本格式包括：

获取医疗问诊训练数据，调用预置的数据标记算法，按照业务类型对所述医疗问诊训练数据进行数据标注，得到预标注数据，所述模型训练数据的格式包括txt、csv和excel三种文本格式，所述业务类型包括疾病标注和搜索关键词标注；

获取预置的辅助标记算法的接口，以及所述接口的返回参数字段，并判断所述返回参数字段是否满足预设的条件；

若所述返回参数字段满足预设的条件，则调用所述接口，对所述预标注数据进行基于推荐标签信息的标注，得到目标标注数据。

4.根据权利要求1所述的医疗问诊数据的处理方法，其特征在于，所述调用所述资源分配信息和所述分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型包括：

通过预置的容器集群平台和所述图形处理器资源分配信息，创建目标训练容器；

获取容器资源信息，通过所述目标训练容器、所述容器资源信息和所述分类数据中的训练集数据，对预置的机器学习模型进行训练，得到训练后的模型，所述容器资源信息包括文件目录、训练集数据、外部资源和代码库地址，所述分类数据包括训练集数据和评估集数据；

对所述训练后的模型进行分类，得到分类后的训练模型，并按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型。

5.根据权利要求4所述的医疗问诊数据的处理方法，其特征在于，所述对所述训练后的模型进行分类，得到分类后的训练模型，并按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型包括：

按照预置的目录类别将所述训练后的模型进行分类，得到分类后的训练模型，所述目录类别包括模型应用名、模型创建时间和快照版本；

按照预置的评估指标对所述分类后的训练模型进行评估，得到模型评估结果，判断所述模型评估结果是否满足预设的模型评估条件，若所述模型评估结果满足预设的模型评估条件，则将所述初始机器学习模型确定为目标机器学习模型，所述预置的评估指标包括精准率和召回率。

6.根据权利要求1所述的医疗问诊数据的处理方法，其特征在于，所述获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息包括：

获取待处理的医疗问诊数据，所述待处理的医疗问诊数据包括目标用户输入的问题句子和/或问题词语；

调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别，得到问诊关键词，将所述问诊关键词与预置的目标关键词进行关联度计算，得到关联度匹配值；

当所述关联度匹配值大于预设的阈值时，将所述问诊关键词确定为目标就诊信息。

7.根据权利要求1-6中任一项所述的医疗问诊数据的处理方法，其特征在于，在所述获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息之后，所述方法还包括：

将所述目标就诊信息存储至预置的分布式文件***。

8.一种医疗问诊数据的处理装置，其特征在于，所述医疗问诊数据的处理装置包括：

接收模块，用于接收图形处理器资源申请请求，并根据所述图形处理器资源申请请求进行资源分配，得到资源分配信息；

分类模块，用于获取医疗问诊训练数据，对所述医疗问诊训练数据进行数据标注，得到目标标注数据，并对所述目标标注数据进行质量检测和分类，得到分类数据；

训练模块，用于调用所述资源分配信息和所述分类数据，对预置的机器学习模型进行模型训练和评估，得到初始机器学习模型和模型评估结果，当所述模型评估结果满足预设的模型评估条件时，将所述初始机器学习模型确定为目标机器学习模型；

生成模块，用于获取待处理的医疗问诊数据，调用所述目标机器学习模型，对所述待处理的医疗问诊数据进行关键词识别和关联度匹配，得到目标就诊信息。

9.一种医疗问诊数据的处理设备，其特征在于，所述医疗问诊数据的处理设备包括：

存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述医疗问诊数据的处理设备执行如权利要求1-7中任意一项所述的医疗问诊数据的处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述医疗问诊数据的处理方法。