CN113656588B

CN113656588B - 基于知识图谱的数据对码方法、装置、设备和存储介质

Info

Publication number: CN113656588B
Application number: CN202111019709.2A
Authority: CN
Inventors: 黎安
Original assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2024-05-10
Anticipated expiration: 2041-09-01
Also published as: CN113656588A

Abstract

本申请涉及人工智能技术领域，提供一种基于知识图谱的数据对码方法、装置、计算机设备和存储介质，方法包括：获取医疗清单数据；将项目数据输入目标文本分类模型，获取与项目数据对应的文本分类结果；若文本分类结果属于医保目录分类结果，从知识图谱查找与文本分类结果对应的类别节点；对项目数据进行预处理得到关键词；从知识图谱中获取与类别节点对应的多条第一链路，从所有第一链路中确定出与所有关键词匹配的目标链路；获取与目标链路对应的目标医疗编码；将目标医疗编码作为项目数据的对码结果。本申请能够准确实现对于医疗清单数据中的项目数据的对码处理。本申请还可以应用于区块链领域，上对码结果等数据可以存储于区块链上。

Description

基于知识图谱的数据对码方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种基于知识图谱的数据对码方法、装置、设备和存储介质。

背景技术

当前在用户去医保局进行医保报销时，需要对用户提供的医疗清单数据，如住院清单数据中符合报销要求的项目数据进行对码操作，再基于对码操作得到的编码数据进行相应的费用结算处理。现有对医疗清单数据进行对码操作通常是由医保局的工作人员依靠自己的工作经验以及查阅医保三目录表来进行的，这样基于人工的数据对码处理方式存在耗时耗力，处理效率低，且生成的编码数据的准确性较低的问题。

发明内容

本申请的主要目的为提供一种基于知识图谱的数据对码方法、装置、计算机设备和存储介质，旨在解决现有对医疗清单数据进行对码操作时，基于人工的数据对码处理方式存在耗时耗力，处理效率低，且生成的编码数据的准确性较低的技术问题。

本申请提出一种基于知识图谱的数据对码方法，所述方法包括步骤：

获取待处理的医疗清单数据；其中，所述医疗清单数据包括项目数据；

将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果；

判断所述文本分类结果是否属于预设的医保目录分类结果；

若是，从预设的知识图谱中查找出与所述文本分类结果对应的类别节点；

对所述项目数据进行文本预处理得到对应的关键词；其中，所述关键词的数量包括多个；

从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路；

获取与所述目标链路对应的目标医疗编码；

将所述目标医疗编码作为所述项目数据的对码结果。

可选地，所述将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果的步骤之前，包括：

调用预先训练好的预设数量的文本分类模型；其中，每一个所述文本分类模型是基于各自不同的训练样本集对预设的初始文本分类模型进行训练生成的，所述训练样本集的数量等于所述预设数量；

基于预设的验证样本集生成各所述文本分类模型的分类准确度；

获取预设的分类准确度阈值，从所有所述文本分类模型中筛选出分类准确度大于所述准确度阈值的第一文本分类模型；

基于所述验证样本集生成各所述第一文本分类模型的模型处理时间；

获取与所述分类准确度对应的第一权重，以及获取与所述模型处理时间对应的第二权重；

基于各所述第一文本分类模型的分类准确度、所述模型处理时间、所述第一权重与所述第二权重，计算生成各所述第一文本分类模型的评测得分；

从所有所述第一文本分类模型中筛选出评测得分最高的第二文本分类模型；

将所述第二文本分类模型作为所述目标文本分类模型。

可选地，所述基于预设的验证样本集生成各所述文本分类模型的分类准确度的步骤，包括：

获取所述验证样本集；其中，所述验证数据集包括多个验证数据，以及与各所述验证数据分别对应的类别信息；

分别将各所述验证数据输入至第三文本分类模型中，获取所述第三文本分类模型输出的与各所述验证数据分别对应的第一分类结果；其中，所述第三文本分类模型为所有所述文本分类模型中的任意一个模型；

基于与各所述验证数据分别对应的类别信息，获取所有所述第一分类结果中预测正确的第二分类结果；

获取所述第一分类结果的第一数量，以及获取所述第二分类结果的第二数量；

计算所述第二数量与所述第一数量的第一商值；

将所述第一商值作为所述第三文本分类模型的分类准确度。

可选地，所述基于所述验证样本集生成各所述第一文本分类模型的模型处理时间的步骤，包括：

在第四文本分类模型获取到每一个所述验证数据时，分别统计所述第四文本分类模型输出与每一个所述验证数据分别对应的第三分类结果的第一处理时间；其中，所述第四文本分类模型为所有所述文本分类模型中的任意一个模型；

计算所有所述第一处理时间的和值；

获取所有所述验证数据的第三数量；

计算所述和值与所述第三数量的第二商值；

将所述第二商值作为所述第四文本分类模型的模型处理时间。

可选地，所述从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路的步骤，包括：

从所述知识图谱中获取与所述类别节点对应的多条所述第一链路；

基于所述关键词对所有所述第一链路进行筛选处理，从所有所述第一链路中筛选出至少包含一个所述关键词的第二链路；

获取所有所述关键词的第一数量；

从所述第二链路中筛选出包含的节点的第二数量等于所述第一数量的第三链路；

从所有所述第三链路中筛选出各节点中包含的目标关键词与各所述关键词一一匹配的第四链路；

将所述第四链路作为所述目标链路。

可选地，所述判断所述文本分类结果是否属于预设的医保目录分类结果的步骤之后，包括：

若所述文本分类结果不属于所述医保目录分类结果，限制对所述项目数据进行处理；

获取预设的错误提醒信息；

展示所述错误提醒信息。

可选地，所述将所述目标医疗编码作为所述项目数据的对码结果的步骤之后，包括：

基于所述项目数据与所述对码结果生成相应的对码信息；

从预设的规则库中调用与对码结果对应的核算规则；

获取预设的邮件登录信息，以及获取与指定用户对应的指定邮件地址；

根据所述邮件登录信息登录至对应的邮件服务器；

通过所述邮件服务器将所述对码信息与所述核算规则发送至所述指定邮件地址。

本申请还提供一种基于知识图谱的数据对码装置，包括：

第一获取模块，用于获取待处理的医疗清单数据；其中，所述医疗清单数据包括项目数据；

输入模块，用于将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果；

判断模块，用于判断所述文本分类结果是否属于预设的医保目录分类结果；

查找模块，用于若是，从预设的知识图谱中查找出与所述文本分类结果对应的类别节点；

第一处理模块，用于对所述项目数据进行文本预处理得到对应的关键词；其中，所述关键词的数量包括多个；

第二处理模块，用于从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路；

第二获取模块，用于获取与所述目标链路对应的目标医疗编码；

第一确定模块，用于将所述目标医疗编码作为所述项目数据的对码结果。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中提供的基于知识图谱的数据对码方法、装置、计算机设备和存储介质，具有以下有益效果：

本申请中提供的基于知识图谱的数据对码方法、装置、计算机设备和存储介质，在获取到医疗清单数据后，会先将医疗清单数据中包含的项目数据输入预设的目标文本分类模型以获取与项目数据对应的文本分类结果，在判别出文本分类结果属于医保目录分类结果后，从预设的知识图谱查找与文本分类结果对应的类别节点，之后对项目数据进行预处理得到关键词，进而从知识图谱中获取与类别节点对应的多条第一链路，并从所有第一链路中确定出与所有关键词匹配的目标链路，最后获取与目标链路对应的目标医疗编码，并将目标医疗编码作为项目数据的对码结果，以完成对于医疗清单数据中项目数据的对码处理。不同于现有的通过人工进行对码处理的方式，本申请能够基于知识图谱的使用来自动准确快速的生成医疗清单数据中包含的项目数据的对码结果，降低生成项目数据的对码结果的花费时间，降低生成项目数据的对码结果的处理成本，有效地提高了对于项目数据的对码处理效率与处理准确性。

附图说明

图1是本申请一实施例的基于知识图谱的数据对码方法的流程示意图；

图2是本申请一实施例的基于知识图谱的数据对码装置的结构示意图；

图3是本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

参照图1，本申请一实施例的基于知识图谱的数据对码方法，包括：

S1：获取待处理的医疗清单数据；其中，所述医疗清单数据包括项目数据；

S2：将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果；

S3：判断所述文本分类结果是否属于预设的医保目录分类结果；

S4：若是，从预设的知识图谱中查找出与所述文本分类结果对应的类别节点；

S5：对所述项目数据进行文本预处理得到对应的关键词；其中，所述关键词的数量包括多个；

S6：从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路；

S7：获取与所述目标链路对应的目标医疗编码；

S8：将所述目标医疗编码作为所述项目数据的对码结果。

如上述步骤S1至S8所述，本方法实施例的执行主体为一种基于知识图谱的数据对码装置。在实际应用中，上述基于知识图谱的数据对码装置可以通过虚拟装置，例如软件代码实现，也可以通过写入或集成有相关执行代码的实体装置实现，且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的基于知识图谱的数据对码装置，能够基于知识图谱的使用来自动准确快速的生成医疗清单数据中包含的项目数据的对码结果，降低生成项目数据的对码结果的花费时间，降低生成项目数据的对码结果的处理成本，有效地提高了对于项目数据的对码处理效率与处理准确性。具体地，首先获取待处理的医疗清单数据。其中，所述医疗清单数据包括项目数据。另外，项目数据的数量可包括多条，项目数据的数据格式为文本格式，所述项目数据至少可包括项目名称、剂型、规格、生产厂家等数据，还可包括包装、包装单位、最小计价单位等数据。然后将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果。其中，可通过对基于不同的训练样本集训练生成的所有文本分类模型分别进行分类准确度与模型处理时间的综合考量，并在生成每一个文本分类模型计算生成相应的评测得分后，从所有文本分类模型中筛选出评测得分最高的文本分类模型最为最终的所述目标文本分类模型。在得到了所述文本分类结果后，判断所述文本分类结果是否属于预设的医保目录分类结果。其中，医保目录分类结果为与医保局的三目录表中包含的三种目录对应的结果，可包括药品目录或者诊疗目录或者耗材目录。

若所述文本分类结果属于所述医保目录分类结果，从预设的知识图谱中查找出与所述文本分类结果对应的类别节点。其中，所述知识图谱是基于医保局的三目录表进行构建生成的，三目录表包含三种目录下对应的医保数据，以及与医保数据对应的编码数据，所述三种目录包括药品目录、诊疗目录以及耗材目录。在知识图谱中会先以三种目录的名称作为类别节点，也可称为根节点，类别节点的节点值为类别名称，即药品、诊疗以及耗材。然后将三目录表中各个目录下的医保数据分别以关键词的形式填入到对应的类别节点下的各个节点中。具体的，对于每一种目录，会将该目录包含的每一条医保数据以关键词拆分的形式得到对应的多个关键词，并在知识图谱中生成与该多个关键词对应的多个节点，节点的节点值即为所填入的相应的关键词，以及在具有相关关系的各个节点之间创建一条边以使得多个节点形成一条链路，该链路与医保数据具有映射关系。另外，知识图谱中还可进一步存储有与链路对应的医保数据的医疗编码，使得后续在查询到目标链路时，可进一步快速地获取到与该目标链路对应的医保编码作为其对码结果。通过参照前述的处理方式直至完成将医保局的三目录表各个目录下的医保数据以关键词的形式存储于知识图谱内对应的类别节点下的各个节点中，便可完成所述知识图谱的构建。此外，构建好的知识图谱可使用数据对象形式的存储在任意适用的数据存储***中，例如，基于资源描述框架(ResourceDescription Framework，RDF)的存储***，或是基于图数据结构的图数据库。举例地，对于药品目录下的医保数据，每一条医保数据可以是包含有药品通用名称、剂型、包装、规格、包装单位、最小计价单位、生产厂家的数据信息的医保文本，通过对该医保文本进行分词后可得到表示药品通用名称的关键词、表示剂型的关键词、表示包装的关键词、表示规格的关键词、表示包装单位的关键词、表示最小计价单位的关键词以及表示生产厂家的关键词。然后创建与所有关键词的数量相同的多个节点，将每一个关键词与每一个节点建立一一对应的关系，并将与节点具有对应关系的关键词作为该节点的节点值。之后将节点值为药品的类别节点与前面得到的所有节点进行排序，并在任意两个节点之间创建一条边，从而可以构建生成与该医保数据对应的一条链路。

之后对所述项目数据进行文本预处理得到对应的关键词。其中，所述关键词的数量包括多个。其中，文本预处理的方式包括分词处理。可使用现有的分词工具对该项目数据进行分词处理，经过分词后会只保留项目数据中具备实体意义或特征的词语。举例地，假如项目数据为在注射时使用A厂家的B规格的葡萄糖注射液(针型)，对该项目数据进行分词后会得到以下关键词：A厂家、B规格、葡萄糖、注射液、针型。另外，所述文本预处理还可包括改写处理，改写处理可包括大小写的统一、专业用词的标准化替换、近义词的替换等。后续从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路。其中，目标链路中所包括的多个节点中包含有每一个关键词分别相同的目标关键词。即每一个节点中包含有与一个与关键词相同的目标关键词，且整合标链路中每一个节点包含的所有关键词得到的便是与项目数据对应的所有关键词。在得到了所述目标链路后，获取与所述目标链路对应的目标医疗编码。其中，知识图谱中的链路与医保局的三目录表包含三种目录下对应的医保数据具有对应关系，知识图谱中还可进一步存储有与链路对应的医保数据的医疗编码，使得后续在查询到指定链路时，可进一步快速地获取到与该指定链路对应的医疗编码作为其对码结果。最后将所述目标医疗编码作为所述项目数据的对码结果。

本实施例在获取到医疗清单数据后，会先将医疗清单数据中包含的项目数据输入预设的目标文本分类模型以获取与项目数据对应的文本分类结果，在判别出文本分类结果属于医保目录分类结果后，从预设的知识图谱查找与文本分类结果对应的类别节点，之后对项目数据进行预处理得到关键词，进而从知识图谱中获取与类别节点对应的多条第一链路，并从所有第一链路中确定出与所有关键词匹配的目标链路，最后获取与目标链路对应的目标医疗编码，并将目标医疗编码作为项目数据的对码结果，以完成对于医疗清单数据中项目数据的对码处理。不同于现有的通过人工进行对码处理的方式，本实施例能够基于知识图谱的使用来自动准确快速的生成医疗清单数据中包含的项目数据的对码结果，降低生成项目数据的对码结果的花费时间，降低生成项目数据的对码结果的处理成本，有效地提高了对于项目数据的对码处理效率与处理准确性。

进一步地，本申请一实施例中，上述步骤S2之前，包括：

S200：调用预先训练好的预设数量的文本分类模型；其中，每一个所述文本分类模型是基于各自不同的训练样本集对预设的初始文本分类模型进行训练生成的，所述训练样本集的数量等于所述预设数量；

S201：基于预设的验证样本集生成各所述文本分类模型的分类准确度；

S202：获取预设的分类准确度阈值，从所有所述文本分类模型中筛选出分类准确度大于所述准确度阈值的第一文本分类模型；

S203：基于所述验证样本集生成各所述第一文本分类模型的模型处理时间；

S204：获取与所述分类准确度对应的第一权重，以及获取与所述模型处理时间对应的第二权重；

S205：基于各所述第一文本分类模型的分类准确度、所述模型处理时间、所述第一权重与所述第二权重，计算生成各所述第一文本分类模型的评测得分；

S206：从所有所述第一文本分类模型中筛选出评测得分最高的第二文本分类模型；

S207：将所述第二文本分类模型作为所述目标文本分类模型。

如上述步骤S200至S207所述，在执行所述将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果的步骤之前，还可包括确定出所述目标文本分类模型的过程。具体地，首先调用预先训练好的预设数量的文本分类模型。其中，每一个所述文本分类模型是基于各自不同的训练样本集对预设的初始文本分类模型进行训练生成的，所述训练样本集的数量等于所述预设数量。另外，所述初始文本分类模型为基于TextCNN网络结构的文本分类模型，可基于训练样本集来对预先建立的基于TextCNN网络结构的初始文本分类模型进行训练从而得到相应的文本分类模型。训练样本集中可包括多个样本数据，以及与样本数据对应的类别信息，类别信息包括药品类型、疗诊类型、耗材类型、无类型。各文本分类模型的具体训练生成过程可参照现有的TextCNN网络的训练生成过程，在此不作过多阐述。此外，由于采用了不同的训练样本集来进行模型训练，因此生成的各个文本分类模型的模型识别分类的准确性与稳定性会有所不同，从而后续步骤可以对各个文本分类模型的模型识别分类的准确性与稳定性进行分析，进而从所有所述文本分类模型筛选出用于对待处理的项目数据进行识别分类处理的目标文本分类模型，以起到有效提高最终生成的与所述项目数据对应的文本分类结果的准确性。并且，对于上述预设数量的具体数值不做限定，可根据实际需求进行设置，例如可设为4。所述预设数量是指用户期望训练生成的文本分类模型的数量，通过基于用户输入的预设数量来生成对应数量的多个文本分类模型，有利于提高用户的使用体验。然后基于预设的验证样本集生成各所述文本分类模型的分类准确度。其中，上述验证样本集可基于所述训练样本集生成，如可随机从训练样本集集中获取预设数值比例的数据作为该验证样本集，且该预设数值比例可根据实际需求进行设置，例如可设为30％。另外，对于计算生成各所述文本分类模型的分类准确度的过程将在后续的具体实施例中进行详细阐述，在此不进行赘述。在得到了所述分类准确度后，获取预设的分类准确度阈值，从所有所述文本分类模型中筛选出分类准确度大于所述准确度阈值的第一文本分类模型。其中，对于所述准确度阈值的取值不作具体限定，可根据实际需求进行设置。之后基于所述验证样本集生成各所述第一文本分类模型的模型处理时间。其中，对于计算生成各所述文本分类模型的模型处理时间的过程将在后续的具体实施例中进行详细阐述，在此不进行赘述。在得到了所述模型处理时间后，获取与所述分类准确度对应的第一权重，以及获取与所述模型处理时间对应的第二权重。其中，对于所述第一权重与的第二权重的取值不作具体限定，可根据实际需求进行设置，优选所述第一权重的取值大于所述第二权重的取值，且第一权重与第二权重之间的和值为1。后续基于各所述第一文本分类模型的分类准确度、所述模型处理时间、所述第一权重与所述第二权重，计算生成各所述第一文本分类模型的评测得分。其中，可基于所述第一权重与所述第二权重分别对每一个所述第一文本分类模型的分类准确度以及该第一文本分类模型的模型处理时间进行加权求和处理，从而生成每一个所述第一文本分类模型的评测得分。最后从所有所述第一文本分类模型中筛选出评测得分最高的第二文本分类模型，并将所述第二文本分类模型作为所述目标文本分类模型。本实施例通过对基于不同的训练样本集训练生成的所有文本分类模型分别进行分类准确度与模型处理时间的综合考量，并为每一个文本分类模型计算生成相应的评测得分，进而从所有文本分类模型中筛选出评测得分最高的文本分类模型最为最终的目标文本分类模型。由于目标文本分类模型的评测得分最高，故其具有较高的分类准确性以及较快的处理效率，以使得后续会智能地使用该目标文本分类模型来对项目数据进行分类处理，并将目标文本分类模型输出的对应的分类结果作为与所述项目数据对应的文本分类结果，有效地提高了对项目数据进行分类处理的准确性。

进一步地，本申请一实施例中，上述步骤S201，包括：

S2010：获取所述验证样本集；其中，所述验证数据集包括多个验证数据，以及与各所述验证数据分别对应的类别信息；

S2011：分别将各所述验证数据输入至第三文本分类模型中，获取所述第三文本分类模型输出的与各所述验证数据分别对应的第一分类结果；其中，所述第三文本分类模型为所有所述文本分类模型中的任意一个模型；

S2012：基于与各所述验证数据分别对应的类别信息，获取所有所述第一分类结果中预测正确的第二分类结果；

S2013：获取所述第一分类结果的第一数量，以及获取所述第二分类结果的第二数量；

S2014：计算所述第二数量与所述第一数量的第一商值；

S2015：将所述第一商值作为所述第三文本分类模型的分类准确度。

如上述步骤S2010至S2015所述，所述基于预设的验证样本集生成各所述文本分类模型的分类准确度的步骤，具体可包括：首先获取所述验证样本集。其中，所述验证数据集包括多个验证数据，以及与各所述验证数据分别对应的类别信息。另外，所述验证样本集可基于所述训练样本集生成，如可随机从训练样本集集中获取预设数值比例的数据作为该验证样本集，且该预设数值比例可根据实际需求进行设置。然后分别将各所述验证数据输入至第三文本分类模型中，获取所述第三文本分类模型输出的与各所述验证数据分别对应的第一分类结果。其中，所述第三文本分类模型为所有所述文本分类模型中的任意一个模型。之后基于与各所述验证数据分别对应的类别信息，获取所有所述第一分类结果中预测正确的第二分类结果。其中，预测正确的第二分类结果是指所有所述第一分类结果中与相对应的测试数据的类别信息相同的分类结果。后续获取所述第一分类结果的第一数量，以及获取所述第二分类结果的第二数量。最后计算所述第二数量与所述第一数量的第一商值，并将所述第一商值作为所述第三文本分类模型的分类准确度。本实施例通过基于验证样本集可以快速地计算出每一个文本分类模型的分类准确度，使得有利于后续能够基于该分类准确度以及各文本分类模型的模型处理时间来对所有文本分类模型进行筛选处理以生成最终的目标文本分类模型，进而可基于目标文本分类模型来准确地生成与项目数据对应的文本分类结果。由于经过对文本分类模型的分类准确度与模型处理时间进行综合考虑后筛选出目标文本分类模型，使得该目标文本分类模型具有较高的分类准确度以及优秀的模型处理速度，进而能够保证生成的文本分类结果具有较高的准确性，有效地提高了对项目数据进行文本分类的准确性，以及提高了生成文本分类结果的处理效率。

进一步地，本申请一实施例中，上述步骤S203，包括：

S2030：获取所述验证样本集；其中，所述验证数据集包括多个验证数据，以及与各所述验证数据分别对应的类别信息；

S2031：在第四文本分类模型获取到每一个所述验证数据时，分别统计所述第四文本分类模型输出与每一个所述验证数据分别对应的第三分类结果的第一处理时间；其中，所述第四文本分类模型为所有所述文本分类模型中的任意一个模型；

S2032：计算所有所述第一处理时间的和值；

S2033：获取所有所述验证数据的第三数量；

S2034：计算所述和值与所述第三数量的第二商值；

S2035：将所述第二商值作为所述第四文本分类模型的模型处理时间。

如上述步骤S2030至S2035所述，所述基于所述验证样本集生成各所述第一文本分类模型的模型处理时间的步骤，具体可包括：首先获取所述验证样本集。其中，所述验证数据集包括多个验证数据，以及与各所述验证数据分别对应的类别信息。另外，上述验证样本集可基于所述训练样本集生成，如可随机从训练样本集集中获取预设数值比例的数据作为该验证样本集，且该预设数值比例可根据实际需求进行设置。然后在第四文本分类模型获取到每一个所述验证数据时，分别统计所述第四文本分类模型输出与每一个所述验证数据分别对应的第三分类结果的第一处理时间。其中，所述第四文本分类模型为所有所述文本分类模型中的任意一个模型。另外，所述第一处理时间是指第四文本分类模型在接到任意一个验证数据直到输出与该验证数据对应的分类结果所花费的时间。举例地，第四文本分类模型接收到验证数据m的时间为T1，第四文本分类模型输出验证数据m的分类结果时的时间为T2，则可得到该第四文本分类模型的第一处理时间为T＝T2-T1。之后计算所有所述第一处理时间的和值。后续获取所有所述验证数据的第三数量。最后计算所述和值与所述第三数量的第二商值，并将所述第二商值作为所述第四文本分类模型的模型处理时间。本实施例通过基于验证样本集可以快速地计算出每一个文本分类模型的模型处理时间，有利于后续能够基于该模型处理时间以及各文本分类模型的分类准确度对所有文本分类模型进行筛选处理以生成最终的目标文本分类模型，进而可基于目标文本分类模型来准确地生成与项目数据对应的文本分类结果。由于经过对文本分类模型的分类准确度与模型处理时间进行综合考虑后筛选出目标文本分类模型，使得该目标文本分类模型具有较高的分类准确度以及优秀的模型处理速度，进而能够保证生成的文本分类结果具有较高的准确性，有效地提高了对项目数据进行文本分类的准确性，以及提高了生成文本分类结果的处理效率。

进一步地，本申请一实施例中，上述步骤S6，包括：

S600：从所述知识图谱中获取与所述类别节点对应的多条所述第一链路；

S601：基于所述关键词对所有所述第一链路进行筛选处理，从所有所述第一链路中筛选出至少包含一个所述关键词的第二链路；

S602：获取所有所述关键词的第一数量；

S603：从所述第二链路中筛选出包含的节点的第二数量等于所述第一数量的第三链路；

S604：从所有所述第三链路中筛选出各节点中包含的目标关键词与各所述关键词一一匹配的第四链路；

S605：将所述第四链路作为所述目标链路。

如上述步骤S600至S605所述，所述从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路的步骤，具体可包括：首先从所述知识图谱中获取与所述类别节点对应的多条所述第一链路。其中，知识图谱中的链路是由多个节点组成的路径。然后基于所述关键词对所有所述第一链路进行筛选处理，从所有所述第一链路中筛选出至少包含一个所述关键词的第二链路。之后获取所有所述关键词的第一数量。后续从所述第二链路中筛选出包含的节点的第二数量等于所述第一数量的第三链路。最后从所有所述第三链路中筛选出各节点中包含的目标关键词与各所述关键词一一匹配的第四链路，并将所述第四链路作为所述目标链路。其中，从知识图谱中确定出所需的与项目数据的关键词对应的目标链路时会选用层层筛选的方式实现。具体的，先获取与所述类别节点对应的多条第一链路，再从第一链路中获取至少包含一个所述关键词的第二链路，之后从所述第二链路中筛选出包含的关键词节点的第二数量等于所述第一数量的第三链路，最后只需从第三链路中进行筛选以选出最终的目标链路，而不需要对知识图谱中包含的所有链路进行匹配处理，能够有效地较少数据处理量，提高获取目标链路的处理效率，提高装置的处理智能性。另外，从所有所述第三链路中筛选出每一个关键词节点中包含的目标关键词与各所述关键词一一匹配的第四链路是指：所述第四链路中所包括的多个节点中包含有每一个关键词分别相同的目标关键词。即每一个节点中包含有与一个与关键词相同的目标关键词，且整合每一个节点包含的所有关键词得到的便是与项目数据对应的所有关键词。具体的，可通过计算关键词与目标关键词的相似度来判断两者是否属于相同的词语。如果相似度大于预设的相似度阈值，则可视作两者为相同的词语。对于项目数据中包含的每一个关键词，如果存在一个链路包含有与每一个关键词相同的目标关键词，则将该链路作为所述第四链路。通过本实施例能够快速准确地从知识图谱中包含的第一链路中查询出与所有所述关键词匹配的第四链路并作为所述目标链路，进而后续能够获取与所述目标链路对应的目标医疗编码，并将所述目标医疗编码作为所述项目数据的对码结果，以自动准确实现对于项目数据的对码处理，降低生成项目数据的对码结果的花费时间，降低生成项目数据的对码结果的处理成本，有效地提高了对于项目数据的对码处理效率与处理准确性。

进一步地，本申请一实施例中，上述步骤S3之后，包括：

S300：若所述文本分类结果不属于所述医保目录分类结果，限制对所述项目数据进行处理；

S301：获取预设的错误提醒信息；

S302：展示所述错误提醒信息。

如上述步骤S300至S302所述，如果所述文本分类结果不属于所述医保目录分类结果，则在执行完所述判断所述文本分类结果是否属于预设的医保目录分类结果的步骤之后，还可包括生成相应的错误提醒信息并展示的过程。具体地，若所述文本分类结果不属于所述医保目录分类结果，限制对所述项目数据进行处理。然后获取预设的错误提醒信息。其中，可以预先存储有错误提醒信息。所述错误提醒信息的内容可包括：本项目数据不属于医保目录的范畴。最后展示所述错误提醒信息。其中，对所述错误提醒信息的展示方式不作具体限定，例如可采用短信或语音的方式进行展示。本实施例在判别出项目数据对应的文本分类结果不属于医保目录后，会智能地限制对所述项目数据进行处理，即不会对项目数据进行任何数据处理，从而可以降低数据损耗，提高了对于项目数据处理的智能性。另外，通过生成错误提醒信息并展示以起到对于相关用户的提醒作用，使得相关用户能够清楚的知道当前的项目数据不属于医保目录处理的范围内，提高了用户的使用体验。

进一步地，本申请一实施例中，上述步骤S8之后，包括：

S800：基于所述项目数据与所述对码结果生成相应的对码信息；

S801：从预设的规则库中调用与对码结果对应的核算规则；

S802：获取预设的邮件登录信息，以及获取与指定用户对应的指定邮件地址；

S803：根据所述邮件登录信息登录至对应的邮件服务器；

S804：通过所述邮件服务器将所述对码信息与所述核算规则发送至所述指定邮件地址。

如上述步骤S800至S804所述，在执行完所述将所述目标医疗编码作为所述项目数据的对码结果的步骤之后，还可包括生成与所述对码结果相应的对码信息并发送至相应用户的过程。具体地，首先基于所述项目数据与所述对码结果生成相应的对码信息。其中，所述对码信息至少包括所述项目数据与所述对码结果，可预先存储一个预先编写好的对码信息模板，再将所述项目数据与所述对码结果填充至所述对码信息模板内的相应位置处以生成该对码信息。然后从预设的规则库中调用与对码结果对应的核算规则。其中，所述规则库为预先创建的存储有医疗编码，以及与医疗编码对应的医疗项目费用相关的核算规则的数据库。之后获取预设的邮件登录信息，以及获取与指定用户对应的指定邮件地址。后续根据所述邮件登录信息登录至对应的邮件服务器。最后通过所述邮件服务器将所述对码信息与所述核算规则发送至所述指定邮件地址。本实施例在获得了对码结果后，会智能地生成与项目数据及对码结果相应的对码信息，以及同时从预设的规则库中调用与对码结果对应的核算规则，并将该所述对码信息与所述核算规则至指定用户对应的指定邮件地址，使得指定用户能够基于该对码信息及时查阅到项目数据的对码结果，并能够依据与对码结果对应的核算规则来便捷快速地进行对于医保清单数据的核算，有利于提高对医保清单数据的核算速率，保证医保清单数据的核算准确性，提高了指定用户的使用体验。

本申请实施例中的基于知识图谱的数据对码方法还可以应用于区块链领域，如将上述对码结果等数据存储于区块链上。通过使用区块链来对上述对码结果进行存储和管理，能够有效地保证上述对码结果的安全性与不可篡改性。

上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

参照图2，本申请一实施例中还提供了一种基于知识图谱的数据对码装置，包括：

第一获取模块1，用于获取待处理的医疗清单数据；其中，所述医疗清单数据包括项目数据；

输入模块2，用于将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果；

判断模块3，用于判断所述文本分类结果是否属于预设的医保目录分类结果；

查找模块4，用于若是，从预设的知识图谱中查找出与所述文本分类结果对应的类别节点；

第一处理模块5，用于对所述项目数据进行文本预处理得到对应的关键词；其中，所述关键词的数量包括多个；

第二处理模块6，用于从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路；

第二获取模块7，用于获取与所述目标链路对应的目标医疗编码；

第一确定模块8，用于将所述目标医疗编码作为所述项目数据的对码结果。

本实施例中，其中，上述模块或单元分别用于执行的操作与前述实施方式的基于知识图谱的数据对码方法的步骤一一对应，在此不再赘述。

进一步地，本申请一实施例中，上述基于知识图谱的数据对码装置，包括：

第一调用模块，用于调用预先训练好的预设数量的文本分类模型；其中，每一个所述文本分类模型是基于各自不同的训练样本集对预设的初始文本分类模型进行训练生成的，所述训练样本集的数量等于所述预设数量；

第一生成模块，用于基于预设的验证样本集生成各所述文本分类模型的分类准确度；

第一筛选模块，用于获取预设的分类准确度阈值，从所有所述文本分类模型中筛选出分类准确度大于所述准确度阈值的第一文本分类模型；

第二生成模块，用于基于所述验证样本集生成各所述第一文本分类模型的模型处理时间；

第三获取模块，用于获取与所述分类准确度对应的第一权重，以及获取与所述模型处理时间对应的第二权重；

计算模块，用于基于各所述第一文本分类模型的分类准确度、所述模型处理时间、所述第一权重与所述第二权重，计算生成各所述第一文本分类模型的评测得分；

第二筛选模块，用于从所有所述第一文本分类模型中筛选出评测得分最高的第二文本分类模型；

第二确定模块，用于将所述第二文本分类模型作为所述目标文本分类模型。

本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的基于知识图谱的数据对码方法的步骤一一对应，在此不再赘述。

进一步地，本申请一实施例中，上述第一生成模块，包括：

第一获取单元，用于获取所述验证样本集；其中，所述验证数据集包括多个验证数据，以及与各所述验证数据分别对应的类别信息；

输入单元，用于分别将各所述验证数据输入至第三文本分类模型中，获取所述第三文本分类模型输出的与各所述验证数据分别对应的第一分类结果；其中，所述第三文本分类模型为所有所述文本分类模型中的任意一个模型；

第二获取单元，用于基于与各所述验证数据分别对应的类别信息，获取所有所述第一分类结果中预测正确的第二分类结果；

第三获取单元，用于获取所述第一分类结果的第一数量，以及获取所述第二分类结果的第二数量；

第一计算单元，用于计算所述第二数量与所述第一数量的第一商值；

第一确定单元，用于将所述第一商值作为所述第三文本分类模型的分类准确度。

进一步地，本申请一实施例中，上述第二生成模块，包括：

第四获取单元，用于获取所述验证样本集；其中，所述验证数据集包括多个验证数据，以及与各所述验证数据分别对应的类别信息；

统计单元，用于在第四文本分类模型获取到每一个所述验证数据时，分别统计所述第四文本分类模型输出与每一个所述验证数据分别对应的第三分类结果的第一处理时间；其中，所述第四文本分类模型为所有所述文本分类模型中的任意一个模型；

第二计算单元，用于计算所有所述第一处理时间的和值；

第五获取单元，用于获取所有所述验证数据的第三数量；

第三计算单元，用于计算所述和值与所述第三数量的第二商值；

第二确定单元，用于将所述第二商值作为所述第四文本分类模型的模型处理时间。

进一步地，本申请一实施例中，上述第二处理模块6，包括：

第六获取单元，用于从所述知识图谱中获取与所述类别节点对应的多条所述第一链路；

第一筛选单元，用于基于所述关键词对所有所述第一链路进行筛选处理，从所有所述第一链路中筛选出至少包含一个所述关键词的第二链路；

第七获取单元，用于获取所有所述关键词的第一数量；

第二筛选单元，用于从所述第二链路中筛选出包含的节点的第二数量等于所述第一数量的第三链路；

第三筛选单元，用于从所有所述第三链路中筛选出各节点中包含的目标关键词与各所述关键词一一匹配的第四链路；

第三确定单元，用于将所述第四链路作为所述目标链路。

第三处理模块，用于若所述文本分类结果不属于所述医保目录分类结果，限制对所述项目数据进行处理；

第四获取模块，用于获取预设的错误提醒信息；

展示模块，用于展示所述错误提醒信息。

第三生成模块，用于基于所述项目数据与所述对码结果生成相应的对码信息；

第二调用模块，用于从预设的规则库中调用与对码结果对应的核算规则；

第五获取模块，用于获取预设的邮件登录信息，以及获取与指定用户对应的指定邮件地址；

登录模块，用于根据所述邮件登录信息登录至对应的邮件服务器；

发送模块，用于通过所述邮件服务器将所述对码信息与所述核算规则发送至所述指定邮件地址。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作***、计算机程序和数据库。该内存储器为存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗清单数据、项目数据、目标文本分类模型、文本分类结果、指定附加险信息、关键词、目标链路、目标医疗编码以及对码结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备，用于将数字信号转换为光信号，使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置，用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种基于知识图谱的数据对码方法。

上述处理器执行上述基于知识图谱的数据对码方法的步骤：

判断所述文本分类结果是否属于预设的医保目录分类结果；

获取与所述目标链路对应的目标医疗编码；

将所述目标医疗编码作为所述项目数据的对码结果。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于知识图谱的数据对码方法，具体为：

判断所述文本分类结果是否属于预设的医保目录分类结果；

获取与所述目标链路对应的目标医疗编码；

将所述目标医疗编码作为所述项目数据的对码结果。

综上所述，本申请实施例中提供的基于知识图谱的数据对码方法、装置、计算机设备和存储介质，在获取到医疗清单数据后，会先将医疗清单数据中包含的项目数据输入预设的目标文本分类模型以获取与项目数据对应的文本分类结果，在判别出文本分类结果属于医保目录分类结果后，从预设的知识图谱查找与文本分类结果对应的类别节点，之后对项目数据进行预处理得到关键词，进而从知识图谱中获取与类别节点对应的多条第一链路，并从所有第一链路中确定出与所有关键词匹配的目标链路，最后获取与目标链路对应的目标医疗编码，并将目标医疗编码作为项目数据的对码结果，以完成对于医疗清单数据中项目数据的对码处理。不同于现有的通过人工进行对码处理的方式，本申请实施例能够基于知识图谱的使用来自动准确快速的生成医疗清单数据中包含的项目数据的对码结果，降低生成项目数据的对码结果的花费时间，降低生成项目数据的对码结果的处理成本，有效地提高了对于项目数据的对码处理效率与处理准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于知识图谱的数据对码方法，其特征在于，包括：

判断所述文本分类结果是否属于预设的医保目录分类结果；

获取与所述目标链路对应的目标医疗编码；

将所述目标医疗编码作为所述项目数据的对码结果；

所述从所述知识图谱中获取与所述类别节点对应的多条第一链路，并基于所述关键词对所有所述第一链路进行匹配处理，从所有所述第一链路中确定出与所有所述关键词匹配的目标链路的步骤，包括：

获取所有所述关键词的第一数量；

将所述第四链路作为所述目标链路。

2.根据权利要求1所述的基于知识图谱的数据对码方法，其特征在于，所述将所述项目数据输入至预设的目标文本分类模型，获取所述目标文本分类模型输出的与所述项目数据对应的文本分类结果的步骤之前，包括：

将所述第二文本分类模型作为所述目标文本分类模型。

3.根据权利要求2所述的基于知识图谱的数据对码方法，其特征在于，所述基于预设的验证样本集生成各所述文本分类模型的分类准确度的步骤，包括：

获取所述验证样本集；其中，所述验证样本集包括多个验证数据，以及与各所述验证数据分别对应的类别信息；

计算所述第二数量与所述第一数量的第一商值；

将所述第一商值作为所述第三文本分类模型的分类准确度。

4.根据权利要求2所述的基于知识图谱的数据对码方法，其特征在于，所述基于所述验证样本集生成各所述第一文本分类模型的模型处理时间的步骤，包括：

计算所有所述第一处理时间的和值；

获取所有所述验证数据的第三数量；

计算所述和值与所述第三数量的第二商值；

5.根据权利要求1所述的基于知识图谱的数据对码方法，其特征在于，所述判断所述文本分类结果是否属于预设的医保目录分类结果的步骤之后，包括：

获取预设的错误提醒信息；

展示所述错误提醒信息。

6.根据权利要求1所述的基于知识图谱的数据对码方法，其特征在于，所述将所述目标医疗编码作为所述项目数据的对码结果的步骤之后，包括：

基于所述项目数据与所述对码结果生成相应的对码信息；

从预设的规则库中调用与对码结果对应的核算规则；

根据所述邮件登录信息登录至对应的邮件服务器；

7.一种基于知识图谱的数据对码装置，用于实现权利要求1-6中任意一项所述的方法，其特征在于，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。