CN111128391A

CN111128391A - 一种信息处理设备、方法和存储介质

Info

Publication number: CN111128391A
Application number: CN201911351404.4A
Authority: CN
Inventors: 唐雯; 张荣国; 李新阳; 陈宽; 王少康
Original assignee: Infervision Co Ltd
Current assignee: Beijing Infervision Technology Co Ltd; Infervision Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-08
Anticipated expiration: 2039-12-24
Also published as: CN111128391B

Abstract

本发明实施例公开了一种信息处理设备、方法和存储介质，该设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如下操作：获取当前对象的当前病历信息；对当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量；将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，预设图网络模型根据医学知识图谱进行构建；根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果。通过本发明实施例的技术方案，可以保证分类结果的准确性。

Description

一种信息处理设备、方法和存储介质

技术领域

本发明实施例涉及医学领域，尤其涉及一种信息处理设备、方法和存储介质。

背景技术

通常，一些疾病有很多相似的症状，比如骨科脊柱方面的疾病，从而需要医生要有丰富的临床知识，也要不断地获取新的疾病知识，以便可以准确地进行诊断。

现有技术中，可以通过将患者的病历信息直接输入至预先训练好的机器学习模型中，自动确定出患者的诊断结果，以避免因医生经验不足而导致出现误诊断的情况，从而可以提高诊断效率和准确度，并且可以辅助医生制定相应的治疗方案。然而，由于患者病历的撰写并没有完备的标准，使得病历质量参差不齐，从而导致患者的病历信息中会存在大量的冗余信息。若基于先验知识对认为无关或者不重要的信息进行排除，则可能会存在所排除信息中包含用于疾病分类的重要指标的情况，若不进行冗余信息的排除，则可能会导致利用现有的机器学习模型无法准确地进行疾病分类。

发明内容

本发明实施例提供了一种信息处理设备、方法和存储介质，以保证分类结果的准确性。

第一方面，本发明实施例提供了一种信息处理设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如下操作：

获取当前对象的当前病历信息；

对所述当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量；

将每个所述第一词向量输入至预设图网络模型中，并根据所述预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，所述预设图网络模型根据医学知识图谱进行构建；

根据预设分类网络模型、各个词对应的所述注意力权重和所述第一词向量，确定所述当前对象对应的分类结果。

第二方面，本发明实施例还提供了一种信息处理方法，包括：

获取当前对象的当前病历信息；

第三方面，本发明实施例还提供了一种信息处理装置，包括：

当前病历信息获取模块，用于获取当前对象的当前病历信息；

第一词向量确定模块，用于对所述当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量；

注意力权重确定模块，用于将每个所述第一词向量输入至预设图网络模型中，并根据所述预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，所述预设图网络模型根据医学知识图谱进行构建；

分类结果确定模块，用于根据预设分类网络模型、各个词对应的所述注意力权重和所述第一词向量，确定所述当前对象对应的分类结果。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下操作：

获取当前对象的当前病历信息；

上述发明中的实施例具有如下优点或有益效果：

通过对当前对象的当前病历信息进行分词处理，并确定出当前病历信息的分词结果中的每个词对应的第一词向量。将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，可以确定出每个词对应的注意力权重，其中，预设图网络模型是预先根据医学知识图谱进行构建的，以便利用该预设图网络模型实现注意力机制。通过根据各个词对应的注意力权重和第一词向量，可以对当前病历信息中的每个词基于注意力权重加以限定，使得预设分类网络模型可以有效利用当前病历信息中的全部信息，准确地确定出当前对象对应的分类结果，进而保证了分类结果的准确性。

附图说明

图1是本发明实施例一提供的一种信息处理设备的结构示意图；

图2是本发明实施例一所涉及的处理器所执行的信息处理过程的流程图；

图3是本发明实施例二提供的一种信息处理设备中处理器所执行的信息处理过程的流程图；

图4是本发明实施例三提供的一种信息处理装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种信息处理设备的结构示意图；图2是本发明实施例一所涉及的处理器所执行的信息处理过程的流程图。如图1和图2所示，本实施例中的信息处理设备包括：

一个或多个处理器110；

存储器120，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器110执行，使得所述一个或多个处理器110可以实现如下操作S210-S240，以自动获得疾病的分类结果。

图1中以一个处理器110为例；设备中的处理器110和存储器120可以通过总线或其他方式连接，图1中以通过总线连接为例。存储器120作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中步骤S210-S240对应的程序指令/模块。处理器110通过运行存储在存储器120中的软件程序、指令以及模块，从而执行设备中的各种功能应用以及数据处理，即执行步骤S210-S240的操作。

存储器120主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器120可进一步包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

参见图2，处理器110执行的信息处理过程具体包括以下步骤：

S210、获取当前对象的当前病历信息。

其中，当前对象可以是指当前待诊断的患者。当前病历信息可以包括但不限于当前对象的个人信息、疾病症状信息、医疗图像信息、体检指标信息、家族遗传信息等。

具体地，医生可以在设备的显示界面上输入当前对象的当前病历信息，以使设备可以获得当前病历信息。

S220、对当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量。

其中，第一词向量可以是指对当前病历信息中的每个词进行硬编码获得的0-1向量。第一词向量中的每位元素对应的元素值为0或1。

具体地，可以基于预设分词词典，对当前病历信息进行分词处理，比如中文分词，识别专有名词等，将当前病历信息中的各个词作为分词结果。本实施例可以利用预设编码方式对分词结果中的每个词进行硬编码，获得每个词对应的第一词向量。

示例性地，S220中确定分词结果中的每个词对应的第一词向量，可以包括：根据预设词汇表，对分词结果中的每个词进行独热One-Hot编码，并将编码结果确定为相应的第一词向量。

其中，预设词汇表可以是预先基于医学知识图谱设置的，比如预设词汇表中可以包括医学知识图谱中的各个词汇。具体地，将对分词结果中的每个词在预设词汇表中进行匹配，若匹配成功，则相应位元素的元素值为1，其他位元素的元素值为0，从而对当前词对应的One-Hot编码，获得相应的第一词向量；若匹配失败，即分词结果中的当前词未出现在预设词汇表中，则当前词对应的第一词向量为全0向量。例如，利用预设词汇表表示的第一词向量是一个1000维的向量，若当前词在预设词汇表中的出现位置为第3个，则当前词对应的第一词向量是一个第三位元素值为1，其他位元素值均为0的1000维向量。

示例性地，预设词汇表中的每个词汇可以设置一个或多个同义词。例如，预设词汇表中的“背疼”对应的同义词可以为：“后背疼”。当分词结果中的当个词与预设词汇表中的每个词汇均匹配失败时，可以与每个词汇对应的同义词进行匹配，若匹配成功，则可以确定当前词出现在预设词汇表中，并可以基于出现位置确定出当前词对应的第一词向量。通过匹配同义词，可以提高信息处理的普适性和鲁棒性，进而保证处理结果的准确性。

S230、将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，预设图网络模型根据医学知识图谱进行构建。

其中，医学知识图谱可以预先基于医学文献、书籍、先验知识等进行构建获得。医学知识图谱中可以包括每种疾病类型对应的症状信息和具体表现信息。预设图网络模型可以是一种注意力机制的图网络，用于确定当前病历信息中的每个词对应的注意力权重。注意力权重可以是指当前病历信息中的每个词用于疾病分类时的重要程度。本实施例可以将医学知识图谱作为框架构建预设图网络模型，例如，将医学知识图谱中的连接结构作为预设图网络模型中的图结构。预设图网络模型在构建后需要利用样本数据进行训练，以便利用训练后的预设图网络模型可以准确地确定出每个词对应的注意力权重。

需要说明的是，预设图网络模型可以具有两个输出端，其中第一输出端输出的第一输出结果可以用于表征每个词对应的注意力权重；第二输出端输出的第二输出结果可以用于表征疾病的分类结果，以便基于该分类结果对预设图网络模型进行训练。

具体地，可以将当前病历信息中的每个词对应的第一词向量逐个输入至训练好的预设图网络模型中，根据预设图网络模型的第一输出结果，可以确定出每个词对应的注意力权重，从而可以基于预设图网络模型自动判断出每个词的重要程度。

示例性地，预设图网络模型可以通过如下步骤实现确定每个词对应的注意力权重的功能：基于预设图网络模型的各个网络层对当前输入的第一词向量进行处理，确定每个分类节点对应的分类概率；对各个分类概率取绝对值，并将取绝对值后的各个分类概率进行相加；将相加结果确定为当前输入的第一词向量对应的词所对应的注意力权重，并将相加结果作为预设图网络模型的第一输出结果进行输出。

其中，预设图网络模型中的每个分类节点可以对应一种疾病类型。分类节点对应的分类概率可以是指属于该分类节点所对应的疾病类型的概率。分类概率可以是零、正数或者负数，其具体数值可以是由与其连通的各个节点的网络参数值决定。

具体地，若当前输入的第一词向量是包含元素值为1的向量，则在利用各个网络层进行处理时，每个输入节点可以与其所通过的其他节点的网络参数值进行相乘，元素值为1所对应的输入节点进行相乘后的结果仍为网络参数值，元素值为0所对应的输入节点进行相乘后的结果为0，从而可以输出每个分类节点对应的分类概率，即利用当前词可以判断出属于每个分类节点所对应的疾病类型的概率。通过将每个分类概率取绝对值并进行相加，获得的相加结果可以是指当前词对整体分类的贡献度，即为当前词所对应的注意力权重。若当前输入的第一词向量是全0向量，则每个分类节点对应的分类概率为0，从而当前词所对应的注意力权重也为0。

S240、根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果。

其中，当前对象对应的分类结果可以用于表征当前对象所患有的疾病类型。预设分类网络模型可以是预先设置的，用于判断当前对象对应的分类结果的神经网络模型。例如，预设分类网络模型可以是但不限于循环神经网络(Recurrent Neural Network，RNN)。预设分类网络模型可以是预先基于监督学习的方式，根据样本数据训练获得的。

示例性地，S240可以包括：根据每个词对应的注意力权重，对每个词对应的第一词向量进行更新；将更新后的各个第一词向量输入至预设分类网络模型中，根据预设分类网络模型的输出，确定当前对象对应的分类结果。示例性地，S240还可以包括：将各个词对应的注意力权重和第一词向量直接输入至预设分类网络模型中，根据预设分类网络模型的输出，确定当前对象对应的分类结果。

具体地，可以将每个词对应的第一词向量和相应的注意力权重进行相乘，以对每个第一词向量进行加权处理，使得当前病历信息中的重要词的第一词向量增大，非重要词的第一词向量减小。通过将更新后的第一词向量序列输入至预设分类网络模型中，从而可以使得预设分类网络模型有效地利用当前病历信息中的全部信息，准确地确定出当前对象对应的分类结果，进而保证了分类结果的准确性。本实施例也可以直接将各个词对应的注意力权重和第一词向量输入至预设分类网络模型中，以在预设分类网络模型的内部进行第一词向量的更新，并输出当前对象对应的分类结果。需要说明的是，当预设分类网络模型的输入参数不同时，预设分类网络模型的内部结构也不同，从而训练后获得的预设分类网络模型也不同。

本实施例的技术方案，通过对当前对象的当前病历信息进行分词处理，并确定出当前病历信息的分词结果中的每个词对应的第一词向量。将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，可以确定出每个词对应的注意力权重，其中，预设图网络模型是预先根据医学知识图谱进行构建的，以便利用该预设图网络模型实现注意力机制。通过根据各个词对应的注意力权重和第一词向量，可以对当前病历信息中的每个词基于注意力权重加以限定，使得预设分类网络模型可以有效利用当前病历信息中的全部信息，准确地确定出当前对象对应的分类结果，进而保证了分类结果的准确性。

在上述技术方案的基础上，在S230之后，还可以包括：检测是否存在注意力权重为0的目标词；若是，则将目标词对应的注意力权重更新为1，并利用更新后的注意力权重确定当前对象对应的分类结果。

具体地，在确定出当前病历信息中的每个词对应的注意力权重后，可以实时检测是否存在注意力权重为0的目标词，若是，则将该目标词对应的注意力权重从0更新为1，以避免将该目标词对应的第一词向量进行加权后变为0，避免去除用于疾病分类的重要指标，进一步提高分类结果的准确性。

在上述技术方案的基础上，在使用预设图网络模型之前，还包括预设图网络模型的训练过程，具体包括：

获取多个样本数据，其中，样本数据包括样本病历信息中的各个样本词对应的样本词向量和相应的标准分类结果；将各样本词向量输入至预设图网络模型中，根据预设图网络模型的第二输出结果，确定第一训练分类结果；根据第一训练分类结果和相应的标准分类结果，确定出第一训练误差；检测第一训练误差是否收敛，或者迭代次数是否等于预设次数；若是，则停止迭代，预设图网络模型训练完成；若否，则将第一训练误差反向传播至预设图网络模型，调整预设图网络模型中的网络参数值。

其中，样本词向量可以是通过对样本病历信息进行分词处理以及编码所获得的向量。在训练预设图网络模型时，预设图网络模型的输入为由样本病历信息中的各样本词向量所组成的样本词向量序列，以及预设图网络模型输出的第二输出结果是基于样本病历信息所判断出的分类结果。标准分类结果可以是指样本病历信息所对应的最终确诊的疾病类型，其可以作为训练标签。

具体地，预设图网络模型可以对当前输入的样本词向量序列进行对应维度相加，并将相加结果可以作为该样本病历对应的文本向量，基于预设图网络模型的各个网络层对该文本向量先进行处理，确定出每个分类节点对应的分类概率，并将最高的分类概率对应的分类节点所对应的疾病类型作为第二输出结果进行输出，从而可以获得该样本病历对应的第一训练分类结果。利用该样本病历对应的第一训练分类结果和相应的标准分类结果计算出第一训练误差，并检测第一训练误差是否收敛，即是否小于预设误差或误差变化是否趋于稳定，或者当前的迭代次数是否等于预设次数，以便确定出该预设图网络模型是否训练完成。若第一训练误差收敛，即小于预设误差或误差变化趋于稳定，或者当前的迭代次数等于预设次数，表明预设图网络模型训练完成，此时可以停止迭代训练。若第一训练误差不收敛，并且当前的迭代次数小于预设次数，则将该第一训练误差反向传播至当前的预设图网络模型中，调整预设图网络模型中的网络参数，直到预设图网络模型训练完成为止。

需要说明的是，本实施例在使用训练好的预设图网络模型时，仅利用该预设图网络模型确定出每个词对应的注意力权重，并不会利用该预设图网络模型获得当前对象的分类结果，是为了避免仅由医学知识图谱所构建出的预设图网络模型所带来的先验知识为主的情况，忽略了可能用于疾病分类的重要指标，使得利用预设图网络模型获得的分类结果的准确性无法得到保证。

在上述技术方案的基础上，在使用预设分类网络模型之前，还包括预设分类网络模型的训练过程，具体包括：

获取多个样本数据，其中，样本数据包括样本病历信息中的各个样本词对应的样本词向量和相应的标准分类结果；将每个样本词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个样本词对应的样本注意力权重；根据预设分类网络模型、各个样本词对应的样本注意力权重和样本词向量，确定第二训练分类结果；根据第二训练分类结果和相应的标准分类结果，确定出第二训练误差；检测第二训练误差是否收敛，或者迭代次数是否等于预设次数；若是，则停止迭代，预设分类网络模型训练完成；若否，则将第二训练误差反向传播至预设图网络模型和预设分类网络模型中，调整预设图网络模型和预设分类网络模型中的网络参数值。

具体地，在训练预设分类网络模型时，若预设分类网络模型的输入参数为：词向量进行加权处理后所组成的词向量序列，则可以对每个样本词对应的样本注意力权重与相应的样本词向量进行相乘，获得加权处理后的样本词向量序列，并将样本词向量序列输入至预设分类网络模型中，从而获得输出的样本病历对应的第二训练分类结果。若预设分类网络模型的输入参数为：词向量序列和每个词对应的注意力权重，则将各个样本词对应的样本注意力权重和样本词向量直接输入至预设分类网络模型中，从而获得输出的样本病历对应的第二训练分类结果。利用该样本病历对应的第二训练分类结果和相应的标准分类结果计算出第二训练误差，并检测第二训练误差是否收敛，或者当前的迭代次数是否等于预设次数，以便确定出该预设分类网络模型是否训练完成。若第二训练误差收敛，即小于预设误差或误差变化趋于稳定，或者当前的迭代次数等于预设次数，表明预设分类网络模型训练完成，此时可以停止迭代训练。若第二训练误差不收敛，并且当前的迭代次数小于预设次数，则将该第二训练误差反向传播至当前的预设分类网络模型和预设图网络模型中，调整预设图网络模型和预设分类网络模型中的网络参数值，直到预设分类网络模型训练完成为止，此时预设图网络模型也相当于真正的训练完成。

需要说明的是，本实施例中的预设图网络模型有效地结合了医学知识图谱中的先验知识，并基于先验知识确定出每个词的注意力权重，通过将每个词的注意力权重加入到预设分类网络模型中，可以有助于预设分类网络模型更快收敛，提高了预设分类网络模型的普适性和鲁棒性，同时也可以通过更少的数据支持便可获得更优的分类效果。

实施例二

图3为本发明实施例二提供的一种信息处理设备中处理器所执行的信息处理过程的流程图，本实施例在上述实施例的基础上，增加了步骤“将分词结果输入至预设语言处理模型中，并根据预设语言处理模型的输出确定分词结果中的每个词对应的第二词向量”，并在此基础上，对步骤“根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果”进行了优化。其中与上述实施例相同或相应的术语的解释在此不再赘述。

参见图3，本实施例提供的信息处理过程具体包括以下步骤：

S310、获取当前对象的当前病历信息。

S320、对当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量。

S330、将分词结果输入至预设语言处理模型中，并根据预设语言处理模型的输出确定分词结果中的每个词对应的第二词向量。

其中，预设语言处理模型可以是通过网络学习参数的方式，将词语编码为第二词向量的模型，以便进一步提高分类结果的准确性。例如，预设语言处理模型可以是基于当前病历信息中词语的上下文信息来确定出每个词对应的第二词向量的神经网络模型，以便可以准确地表示当前病历信息中每个词的语义，比如预设语言处理模型可以是但不限于Skip-gram模型、CBOW(Continuous Bag-of-Words，连续词袋)模型、Word2vec模型、BERT(Bidirectional Encoder Representations from Transformers，双向编码器)模型等。本实施例中的第二词向量中的元素值可以为任意数值，比如小数等。

具体地，本实施例可以将当前病历信息中的各个词按照原有排列顺序同时输入至预设语言处理模型中，预设语言处理模型可以基于每个词的上下文词汇输出每个词对应的第二词向量，从而可以提高。

示例性地，在使用预设语言处理模型之前，还包括预设语言处理模型的训练过程，具体包括：获取多个样本病历信息，对各样本病历信息进行分词处理，并根据样本分词结果训练预设语言处理模型。具体地，本实施例可以根据每个样本病历信息中各个词以及每个词的上下文词汇计算预设语言模型的目标函数，当目标函数的最大值不变时，预设语言处理模型训练完成。

需要说明的是，本实施例并不限定步骤S330的执行顺序。比如步骤S330可以在步骤S320之后执行，也可以在步骤S320之前执行，还可以与步骤S320同时执行。

S340、将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，预设图网络模型根据医学知识图谱进行构建。

示例性地，在确定每个词对应的注意力权重之后，还可以包括：检测是否存在注意力权重为0的目标词；若是，则将目标词对应的注意力权重更新为1，并利用更新后的注意力权重确定当前对象对应的分类结果。

具体地，在确定当前病历信息中的每个词对应的注意力权重之后，可以实时检测是否存在注意力权重为0的目标词，若是，则将该目标词对应的注意力权重从0更新为1，以避免将该目标词对应的第二词向量进行加权后变为0，避免去除用于疾病分类的重要指标，进一步提高分类结果的准确性。

S350、根据预设分类网络模型、各个词对应的注意力权重和第二词向量，确定当前对象对应的分类结果。

示例性地，S240可以包括：根据每个词对应的注意力权重，对每个词对应的第二词向量进行更新；将更新后的各个第二词向量输入至预设分类网络模型中，根据预设分类网络模型的输出，确定当前对象对应的分类结果。示例性地，S240还可以包括：将各个词对应的注意力权重和第二词向量直接输入至预设分类网络模型中，根据预设分类网络模型的输出，确定当前对象对应的分类结果。

具体地，可以将每个词对应的第二词向量和相应的注意力权重进行相乘，以对每个第二词向量进行加权处理，使得当前病历信息中的重要词的第二词向量增大，非重要词的第二词向量减小。通过将更新后的第二词向量序列输入至预设分类网络模型中，从而可以使得预设分类网络模型更加有效地利用当前病历信息中的全部信息，准确地确定出当前对象对应的分类结果，进一步保证了分类结果的准确性。本实施例也可以直接将各个词对应的注意力权重和第二词向量输入至预设分类网络模型中，以在预设分类网络模型的内部进行第二词向量的更新，并输出当前对象对应的分类结果。

示例性地，在使用预设分类网络模型之前，还包括预设分类网络模型的训练过程，具体包括：

获取多个样本数据，其中，样本数据包括样本病历信息中的各个样本词对应的第一样本词向量、第二样本词向量和相应的标准分类结果；将每个第一样本词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个样本词对应的样本注意力权重；根据预设分类网络模型、各个样本词对应的样本注意力权重和第二样本词向量，确定第二训练分类结果；根据第二训练分类结果和相应的标准分类结果，确定出第二训练误差；检测第二训练误差是否收敛，或者迭代次数是否等于预设次数；若是，则停止迭代，预设分类网络模型训练完成；若否，则将第二训练误差反向传播至预设图网络模型和预设分类网络模型中，调整预设图网络模型和预设分类网络模型中的网络参数值。

其中，第一样本词向量可以是利用步骤S320的操作方式确定出的词向量。第二样本词样本可以是利用步骤S330的操作方式确定出的词向量。具体地，在训练预设分类网络模型时，若预设分类网络模型的输入参数为：词向量进行加权处理后所组成的词向量序列，则可以对每个样本词对应的样本注意力权重与相应的第二样本词向量进行相乘，获得加权处理后的第二样本词向量序列，并将第二样本词向量序列输入至预设分类网络模型中，从而获得输出的样本病历对应的第二训练分类结果。若预设分类网络模型的输入参数为：词向量序列和每个词对应的注意力权重，则将各个样本词对应的样本注意力权重和第二样本词向量直接输入至预设分类网络模型中，从而获得输出的样本病历对应的第二训练分类结果。利用该样本病历对应的第二训练分类结果和相应的标准分类结果计算出第二训练误差，并检测第二训练误差是否收敛，或者当前的迭代次数是否等于预设次数，以便确定出该预设分类网络模型是否训练完成。若第二训练误差收敛，即小于预设误差或误差变化趋于稳定，或者当前的迭代次数等于预设次数，表明预设分类网络模型训练完成，此时可以停止迭代训练。若第二训练误差不收敛，并且当前的迭代次数小于预设次数，则将该第二训练误差反向传播至当前的预设分类网络模型和预设图网络模型中，调整预设图网络模型和预设分类网络模型中的网络参数值，直到预设分类网络模型训练完成为止，此时预设图网络模型也相当于真正的训练完成。

本实施例的技术方案，通过利用预设语言处理模型确定分词结果中的每个词对应的第二词向量，以便可以更加准确地表征每个词的语义，并利用每个词对应的注意力权重对当前病历信息中的每个词对应的第二词向量进行加权处理，使得预设分类网络模型可以更加有效利用当前病历信息中的全部信息，进一步提高了分类结果的准确性。

以下是本发明实施例提供的信息处理方法的实施例，该方法与上述各实施例的信息处理设备中处理器所执行的信息处理过程属于同一个发明构思，在信息处理方法的实施例中未详尽描述的细节内容，可以参考上述信息处理设备的实施例。

实施例三

本发明实施例提供一种信息处理方法，可适用于对疾病类型进行判断的情况。该方法可以由信息处理装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于信息处理设备中。该信息处理方法具体包括以下步骤：

S410、获取当前对象的当前病历信息。

S420、对当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量。

S430、将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，预设图网络模型根据医学知识图谱进行构建。

S440、根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果。

可选地，确定分词结果中的每个词对应的第一词向量，包括：

根据预设词汇表，对分词结果中的每个词进行独热One-Hot编码，并将编码结果确定为相应的第一词向量。

可选地，预设图网络模型通过如下步骤实现确定每个词对应的注意力权重的功能：

基于预设图网络模型的各个网络层对当前输入的第一词向量进行处理，确定每个分类节点对应的分类概率；

对各个分类概率取绝对值，并将取绝对值后的各个分类概率进行相加；

将相加结果确定为当前输入的第一词向量对应的词所对应的注意力权重，并将相加结果作为预设图网络模型的第一输出结果进行输出。

可选地，在确定每个词对应的注意力权重之后，还包括：

检测是否存在注意力权重为0的目标词；

若是，则将目标词对应的注意力权重更新为1，并利用更新后的注意力权重确定当前对象对应的分类结果。

可选地，根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果，包括：

根据每个词对应的注意力权重，对每个词对应的第一词向量进行更新；

将更新后的各个第一词向量输入至预设分类网络模型中，根据预设分类网络模型的输出，确定当前对象对应的分类结果。

可选地，在对当前病历信息进行分词处理之后，还包括：

将分词结果输入至预设语言处理模型中，并根据预设语言处理模型的输出确定分词结果中的每个词对应的第二词向量；

相应地，根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果，包括：

根据预设分类网络模型、各个词对应的注意力权重和第二词向量，确定当前对象对应的分类结果。

可选地，在使用预设图网络模型之前，还包括预设图网络模型的训练过程，具体包括：

获取多个样本数据，其中，样本数据包括样本病历信息中的各个样本词对应的样本词向量和相应的标准分类结果；

将各样本词向量输入至预设图网络模型中，根据预设图网络模型的第二输出结果，确定第一训练分类结果；

根据第一训练分类结果和相应的标准分类结果，确定出第一训练误差；

检测第一训练误差是否收敛，或者迭代次数是否等于预设次数；

若是，则停止迭代，预设图网络模型训练完成；

若否，则将第一训练误差反向传播至预设图网络模型，调整预设图网络模型中的网络参数值。

可选地，在使用预设分类网络模型之前，还包括预设分类网络模型的训练过程，具体包括：

将每个样本词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个样本词对应的样本注意力权重；

根据预设分类网络模型、各个样本词对应的样本注意力权重和样本词向量，确定第二训练分类结果；

根据第二训练分类结果和相应的标准分类结果，确定出第二训练误差；

检测第二训练误差是否收敛，或者迭代次数是否等于预设次数；

若是，则停止迭代，预设分类网络模型训练完成；

若否，则将第二训练误差反向传播至预设图网络模型和预设分类网络模型中，调整预设图网络模型和预设分类网络模型中的网络参数值。

本发明实施例所提供的信息处理方法可以具备与上述任意实施例提供的信息处理过程相同的有益效果。

以下是本发明实施例提供的信息处理装置的实施例，该装置与上述各实施例的信息处理设备属于同一个发明构思，在信息处理装置的实施例中未详尽描述的细节内容，可以参考上述信息处理设备的实施例。

实施例四

图4为本发明实施例四提供的一种信息处理装置的结构示意图，本实施例可适用于对疾病类型进行判断的情况，该装置具体包括：当前病历信息获取模块410、第一词向量确定模块420、注意力权重确定模块430和分类结果确定模块440。

其中，当前病历信息获取模块410，用于获取当前对象的当前病历信息；第一词向量确定模块420，用于对当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量；注意力权重确定模块430，用于将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，预设图网络模型根据医学知识图谱进行构建；分类结果确定模块440，用于根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果。

可选地，第一词向量确定模块420，具体用于：根据预设词汇表，对分词结果中的每个词进行独热One-Hot编码，并将编码结果确定为相应的第一词向量。

可选地，该装置还包括：

注意力权重更新模型，用于在确定每个词对应的注意力权重之后，检测是否存在注意力权重为0的目标词；若是，则将目标词对应的注意力权重更新为1，并利用更新后的注意力权重确定当前对象对应的分类结果。

可选地，分类结果确定模块440，具体用于：

根据每个词对应的注意力权重，对每个词对应的第一词向量进行更新；将更新后的各个第一词向量输入至预设分类网络模型中，根据预设分类网络模型的输出，确定当前对象对应的分类结果。

可选地，该装置还包括：

第二词向量确定模块，用于在对当前病历信息进行分词处理之后，将分词结果输入至预设语言处理模型中，并根据预设语言处理模型的输出确定分词结果中的每个词对应的第二词向量；

相应地，分类结果确定模块440，具体用于：根据预设分类网络模型、各个词对应的注意力权重和第二词向量，确定当前对象对应的分类结果。

可选地，该装置还包括：预设图网络模型训练模块，用于：

在使用预设图网络模型之前，获取多个样本数据，其中，样本数据包括样本病历信息中的各个样本词对应的样本词向量和相应的标准分类结果；

若是，则停止迭代，预设图网络模型训练完成；

可选地，该装置还包括：预设分类网络模型训练模块，用于：

在使用预设分类网络模型之前，获取多个样本数据，其中，样本数据包括样本病历信息中的各个样本词对应的样本词向量和相应的标准分类结果；

若是，则停止迭代，预设分类网络模型训练完成；

本发明实施例所提供的信息处理装置可执行本发明任意实施例所提供的信息处理过程，具备执行信息处理过程相应的功能模块和有益效果。

值得注意的是，上述信息处理装置的实施例中，所包括的各个模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例五

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的信息处理过程，该过程可以包括如下操作：

获取当前对象的当前病历信息；

对当前病历信息进行分词处理，并确定分词结果中的每个词对应的第一词向量；

将每个第一词向量输入至预设图网络模型中，并根据预设图网络模型的第一输出结果，确定每个词对应的注意力权重，其中，预设图网络模型根据医学知识图谱进行构建；

根据预设分类网络模型、各个词对应的注意力权重和第一词向量，确定当前对象对应的分类结果。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种信息处理设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

获取当前对象的当前病历信息；

2.根据权利要求1所述的设备，其特征在于，确定分词结果中的每个词对应的第一词向量，包括：

3.根据权利要求1所述的设备，其特征在于，所述预设图网络模型通过如下步骤实现确定每个词对应的注意力权重的功能：

基于所述预设图网络模型的各个网络层对当前输入的第一词向量进行处理，确定每个分类节点对应的分类概率；

对各个所述分类概率取绝对值，并将取绝对值后的各个分类概率进行相加；

将相加结果确定为当前输入的第一词向量对应的词所对应的注意力权重，并将所述相加结果作为所述预设图网络模型的第一输出结果进行输出。

4.根据权利要求3所述的设备，其特征在于，在确定每个词对应的注意力权重之后，还包括：

检测是否存在所述注意力权重为0的目标词；

若是，则将所述目标词对应的注意力权重更新为1，并利用更新后的注意力权重确定所述当前对象对应的分类结果。

5.根据权利要求1所述的设备，其特征在于，根据预设分类网络模型、各个词对应的所述注意力权重和所述第一词向量，确定所述当前对象对应的分类结果，包括：

根据每个词对应的所述注意力权重，对每个词对应的所述第一词向量进行更新；

将更新后的各个第一词向量输入至预设分类网络模型中，根据所述预设分类网络模型的输出，确定所述当前对象对应的分类结果。

6.根据权利要求1所述的设备，其特征在于，在对所述当前病历信息进行分词处理之后，还包括：

将分词结果输入至预设语言处理模型中，并根据所述预设语言处理模型的输出确定所述分词结果中的每个词对应的第二词向量；

相应地，根据预设分类网络模型、各个词对应的所述注意力权重和所述第一词向量，确定所述当前对象对应的分类结果，包括：

根据预设分类网络模型、各个词对应的所述注意力权重和所述第二词向量，确定所述当前对象对应的分类结果。

7.根据权利要求1-6任一所述的设备，其特征在于，在使用所述预设图网络模型之前，还包括所述预设图网络模型的训练过程，具体包括：

获取多个样本数据，其中，所述样本数据包括样本病历信息中的各个样本词对应的样本词向量和相应的标准分类结果；

将各所述样本词向量输入至预设图网络模型中，根据所述预设图网络模型的第二输出结果，确定第一训练分类结果；

根据所述第一训练分类结果和相应的所述标准分类结果，确定出第一训练误差；

检测所述第一训练误差是否收敛，或者迭代次数是否等于预设次数；

若是，则停止迭代，所述预设图网络模型训练完成；

若否，则将所述第一训练误差反向传播至所述预设图网络模型，调整所述预设图网络模型中的网络参数值。

8.根据权利要求1-6任一所述的设备，其特征在于，在使用所述预设分类网络模型之前，还包括所述预设分类网络模型的训练过程，具体包括：

将每个所述样本词向量输入至预设图网络模型中，并根据所述预设图网络模型的第一输出结果，确定每个样本词对应的样本注意力权重；

根据预设分类网络模型、各个样本词对应的所述样本注意力权重和所述样本词向量，确定第二训练分类结果；

根据所述第二训练分类结果和相应的所述标准分类结果，确定出第二训练误差；

检测所述第二训练误差是否收敛，或者迭代次数是否等于预设次数；

若是，则停止迭代，所述预设分类网络模型训练完成；

若否，则将所述第二训练误差反向传播至所述预设图网络模型和所述预设分类网络模型中，调整所述预设图网络模型和所述预设分类网络模型中的网络参数值。

9.一种信息处理方法，其特征在于，包括：

获取当前对象的当前病历信息；

10.根据权利要求9所述的方法，其特征在于，在对所述当前病历信息进行分词处理之后，还包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如下操作：

获取当前对象的当前病历信息；