CN110706771A

CN110706771A - 多模态患教内容的生成方法、装置、服务器及存储介质

Info

Publication number: CN110706771A
Application number: CN201910957077.0A
Authority: CN
Inventors: 王天浩; 潘志刚; 虞莹
Original assignee: Zhongshan Hospital Fudan University
Current assignee: Zhongshan Hospital Fudan University
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-17
Anticipated expiration: 2039-10-10
Also published as: CN110706771B

Abstract

本发明涉及一种多模态患教内容的生成方法、装置、服务器及存储介质。属于互联网数据处理技术领域与医疗信息领域。其生成方法的步骤包括：将至少一个模态的患教内容进行实体识别处理生成不同模态数据；将不同模态数据进行编码生成不同模态数据对应的嵌入数据；将得到的嵌入数据写入数据库中生成多模态数据。以及实现该方法的装置、服务器及存储介质。本发明可以根据单一模态的患教内容，通过主动检索生成其它模态的患教内容，从而丰富患教内容，简化用户的主动搜索等过程。

Description

多模态患教内容的生成方法、装置、服务器及存储介质

技术领域

本发明涉及一种多模态患教内容的生成方法、装置、服务器及存储介质，属于互联网数据处理技术领域与医疗信息领域。

背景技术

互联网上存在海量的文本、图片、视频、音频等多模态的内容，然而这些内容在大多数情况下只以单一模态的的形式存在，相互之间是独立、分散、没有交集的。而现有的搜索技术或者推荐***往往只是针对单一模态数据，如主流的搜索引擎主要是对文本数据进行搜索，因此用户获取多模态的数据过程十分地艰难。如果将不同模态的数据映射到同一个向量空间中，得到它们的联合表示，让它们在向量空间中相互检索，将会极大地方便用户获取多模态的内容。但是互联网上面的数据种类繁多，因此对全领域的数据进行处理太过于繁琐，在单一领域下实现多模态内容的联合表示更为可行，而医疗领域在众多领域中更为有意义。

随着互联网的普及，它已经成为患者获取医疗信息资源的重要渠道，如何更方便地让用户获得多模态的医疗信息是主要难题。例如一个糖尿病患者正在阅读一篇胰岛素注射相关的文章，如果文章末尾自动载入胰岛素注射的教学视频，用户就避免了需要额外从别的渠道搜索胰岛素注射相关视频的步骤。

发明内容

本发明要解决的技术问题是：将不同模态的患教数据映射到相同的空间得到它们的联合表示，生成包含多模态数据的患教内容，以利于患教的普及。

为了解决上述技术问题，本发明的一个技术方案是提供了一种多模态患教内容的生成方法，其特征在于，包括以下步骤：

步骤1：定义实体，将不同模态的患教内容进行实体识别，处理生成不同模态数据，其中，不同模态的患教内容包括文本数据、图片数据及视频数据，对于文本数据进行实体识别生成文本模态数据，对图片数据提取图片标题或图片标签进行实体识别生成图片模态数据，将视频数据中的字幕或音频信息转换成文字后对文字进行实体识别生成视频模态数据；

步骤2、对文本模态数据、图片模态数据及视频模态数据进行编码，编码后的数据为不同模态数据对应的嵌入数据；

步骤3、将上一步得到的嵌入数据及其对应模态的文本模态数据、图片模态数据及视频模态数据写入数据库中；

步骤4、实时获得当前模态的患教内容后，利用步骤1及步骤2相同的步骤获得当前模态的患教内容的当前嵌入数据，在步骤3所得到的数据库中查找与当前嵌入数据类似的相似嵌入数据，将相似嵌入数据对应的文本模态数据、图片模态数据或视频模态数据***当前模态的模态数据中，从而获得与当前模态不同模态的患教内容。

优选地，步骤1中，所述实体识别使用双向长短期记忆网络加条件随机场。

优选地，所述步骤2包括以下步骤：

步骤201、采用独热编码One-Hot对文本模态数据、图片模态数据及视频模态数据进行编码；

步骤202、根据独热编码One-Hot的编码结果自动选择相应的编码器对文本模态数据、图片模态数据及视频模态数据进行编码，其中：文本模态数据的编码器采用双向lstm模型对文本模态数据进行编码，再经过一全连接层将文本模态数据编码成一200维的向量作为文本模态数据编的嵌入数据；

图片模态数据的编码器采用深度残差网络模型对图片模态数据进行编码，再经过一全连接层将图片模态数据编码成一200维的向量作为图片模态数据的嵌入数据；

视频模态数据的编码器采用深度残差网络模型和双向lstm模型对当前视频的每一帧图像的视频模态数据进行编码，再经过一全连接层将视频模态数据编码成一向量作为视频模态数据的嵌入数据。

优选地，步骤201中，对所述独热编码One-Hot进行训练时，采用以下方法：

将用于训练的文本模态数据、图片模态数据及视频模态数据放在同一个批处理中同时训练所述独热编码One-Hot，使得所述独热编码One-Hot输出的编码结果能够区分输入的模态数据为文本模态数据、图片模态数据或视频模态数据。

优选地，步骤202中，所述视频模态数据的编码器对视频模态数据进行编码包括以下步骤：

先采用深度残差网络模型对视频模态数据进行编码，随后将深度残差网络模型的编码结果输入双向lstm模型进行二次编码，最后经过一全连接层将双向lstm模型输出的编码结果编码成一向量作为所述视频模态数据的所述嵌入数据。

优选地，在所述步骤2之后并在所述步骤3之前，还包括以下步骤：

将步骤2获得的文本模态数据、图片模态数据及视频模态数据的嵌入数据经过同一个softmax层来预测对应的标签；

步骤3中，还包括：不同模态对应的嵌入数据通过同样的标签来对齐，使相同实体同一模态或相同实体不同模态的嵌入数据在同一向量空间中处于相近位置。

优选地，步骤4中，利用k-维树，即k-dimensional树，在数据库中查找与当前嵌入数据类似的相似嵌入数据。

本发明的另一个技术方案是提供了一种多模态患教内容的生成装置，其特征在于，包括：实体识别单元、数据生成单元和写入单元；所述的实体识别单元，用于将不同模态的患教内容进行实体识别处理生成不同模态数据；所述的数据生成单元，与所述的实体识别单元连接，用于将所述不同模态数据进行编码生成不同模态数据对应的嵌入数据；所述的写入单元，与所述的数据生成单元连接，用于将得到的嵌入数据写入数据库中生成多模态数据。

本发明的另一个技术方案是提供了一种服务器，其特征在于，包括：存储器、一个或多个处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序；所述的一个或多个程序被所述的一个或多个处理器执行，使得一个或多个处理器实现上述的一种多模态患教内容的生成方法。

本发明的另一个技术方案是提供了一种计算机存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现上述的一种多模态患教内容的生成方法。

相比现有技术，本发明具有如下有益效果：

1.本发明中，可以根据单一模态的患教内容，主动检索生成其它模态的患教内容，来丰富患教内容，简化用户的主动搜索等过程。

2.将不同模态的信息输入到已经训练好的模型中，得到相应的低维度稠密的嵌入数据表示。通过向量相似度检索，匹配到相似度最高的其它模态的内容返回，共同形成一个患教内容。

3.对不同模态的数据放在在同一个批处理(batch)中同时训练，各个模态的数据经过神经网络后得到一个低维的稠密的向量，极大地节省了存储空间，在进行在线推送检索等任务能提高性能。对不同模态的数据通过同样的预测标签来对齐，使相同主题同一模态，相同主题不同模态的数据在同一向量空间中处于相近位。

附图说明

图1为本发明实施例一提供的一种多模态患教内容的生成方法的流程图。

图2为本发明实施例一提供的一种多模态患教内容的生成方法的实体识别处理示意图。

图3为本发明实施例一提供的一种多模态患教内容的生成方法的双向lstm模型示意图。

图4为本发明实施例一提供的一种多模态患教内容的生成方法的视频编码网络模型示意图。

图5为本发明实施例一提供的一种多模态患教内容的生成方法的ResNet模型示意图。

图6为本发明实施例一提供的一种多模态患教内容的生成方法的一优选方式的流程图。

图7为本发明实施例二提供的一种多模态患教内容的生成装置的结构图。

附图标记：1.实体识别单元 2.数据生成单元 3.写入单元

图8为本发明实施例三提供的一种服务器的结构图。

附图标记：71.存储器 72.处理器 73.通信接口 74.总线。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

实施例一

如图1至图6所示，本发明提供了一种多模态患教内容的生成方法，如图1示出了本实施例一提供的一种多模态患教内容的生成方法的流程图，该方法包括：

步骤S1，将至少一个模态的患教内容进行实体识别处理生成不同模态数据。

在本实施例中，患教内容可以包括但不限于文本数据、图片数据、视频数据。在步骤S1中，患教内容为文本数据时，使用双向长短期记忆网络+条件随机场(lstm+crf)对文本中的实体进行识别生成文本模态数据。其中实体可以包括疾病、药品、治疗方式、检查、手术等。如图2所示，为用于实体识别的双向长短期记忆网络+条件随机场(lstm+crf)网络，在输出结果的时候用条件随机场(crf)对输出结果进行调整，排除不太可能的标注顺序。这里可以直接只考虑每个字，省略了字母特征这一块。患教内容为图片数据时对所述图片的标题或标签进行与文本数据相同的实体识别处理生成图片模态数据。患教内容为视频数据时，视频中含有字幕或视频中的音频信息可以翻译成文本信息，对视频中的字幕进行软件识别后转换成文字或者将音频信息进行转文字处理，生成文本。对文本中的信息做对文本数据相同的实体识别处理生成视频模态数据。具体地，对视频中的字幕进行光学字符识别(Optical Character Recognition，OCR)后转换成文字或者将音频信息进行转文字。

步骤S2，将所述不同模态数据进行编码生成不同模态数据对应的嵌入数据。

具体地，应用一位有效编码(One-Hot)进行编码；根据有效编码(One-Hot)编码识别不同的模态，从而选择对应的编码器进行编码。一位有效编码(One-Hot)的训练方法可以是：对用于训练的不同模态数据的多个实体生成对应多个训练数据；然后将不同模态的多个训练数据经过不同的编码器进行编码，生成所述嵌入数据。在本发明实施例中，如果单个模态的单个输入数据中有N个对应的实体，那么针对这个模态的数据可以产生N个对应的训练数据：(input,N1),(input,N2),…,(input,Nn)。在训练过程中，将不同模态数据放在同一个批处理(batch)中同时训练，具体地，将不同模态数据的信息放在同一个批处理(batch)中同时训练。不同模态的数据会将模态信息用有效编码(One-Hot)进行编码，训练模型根据有效编码(One-Hot)的信息进行编码，并根据模态的有效编码(One-Hot)来识别不同的模态从而来在训练过程中选择相应的编码器(encoder)进行编码。

对文本模态数据使用双向长短期记忆网络(lstm)模型进行编码，再经过一全连接层将句子编码成一200维的向量作为句子的嵌入数据。具体地，对文本模态数据使用与实体识别相同的长短期记忆网络(lstm)模型进行编码，得到双向长短期记忆网络(lstm)模型的最后一个单元(cell)的隐藏层(hidden state)后再经过一层全连接层将句子编码(encoding)成200维的向量作为句子的嵌入数据(embedding)。

对图片模态数据使用深度残差网络(ResNet)模型进行编码，再经过一全连接层将图片编码成一200维的向量作为图片的嵌入数据。如图3所示，深度残差网络(Resnet)模型，ResNet模型分成5部分，分别是：conv1、conv2_x、conv3_x、conv4_x、conv5_x。本发明实施例中应用ResNet34，首先有个输入7x7x64的卷积层，然后经过3+4+6+3＝16个构成模块，每个模块为2层，所以有16x 2＝32层，最后有个fc层(用于分类)，所以整个模型共有1+32+1＝101层。

对视频模态数据将每一帧图片使用深度残差网络模型和双向长短期记忆网络(lstm)模型进行编码，再经过一全连接层编码成一向量作为视频的嵌入数据。具体地，如图4所示，首先将视频模态数据在影像网(image net)上预训练好，获得每一帧图片，对视频模态数据将每一帧图片使用与图片相同的深度残差网络进行编码；将所述每一帧图片的编码结果输入双向长短期记忆网络(lstm)模型进行编码，得到长短期记忆网络(lstm)最后一个单元(cell)的隐藏层(hidden state)后再经过一层全连接层将句子编码成200维的向量作为视频的嵌入数据。

在步骤S2中还包括：将不同模态对应的嵌入数据经过同一个softmax层来预测对应的标签。

如图5所示，步骤S2包括：

步骤S20：输入各模态数据。包括文本模态数据、图片模态数据以及视频模态数据。

步骤S21：对各模态数据进行预处理。

步骤S22：不同模态数据放在同一个批处理中进行有效编码(One-Hot)编码，选择对应的编码器。具体地，将不同模态数据放在同一个批处理中同时训练，应用一位有效编码(One-Hot)进行编码；根据有效编码(One-Hot)编码识别不同的模态，进而选择对应的编码器进行编码。

步骤S23：对视频模态数据应用对应的编码器进行编码，然后跳转至步骤S26。具体地，对视频模态数据将每一帧图片使用深度残差网络模型和双向长短期记忆网络(lstm)模型进行编码，再经过一全连接层编码成一200维的向量作为视频的嵌入数据。

步骤S24：对文本模态数据应用对应的编码器进行编码，然后跳转至步骤S26。具体地，对文本模态数据使用双向长短期记忆网络(lstm)模型进行编码，再经过一全连接层将句子编码成一200维的向量作为句子的嵌入数据。

步骤S25：对图片模态数据应用对应的编码器进行编码，然后执行步骤S26。具体地，对图片模态数据使用深度残差网络模型进行编码，再经过一全连接层将图片编码成一200维的向量作为图片的嵌入数据。

步骤S26：将不同模态对应的嵌入数据输入同一个softmax层。

步骤S27：根据不同模态对应的嵌入数据应用softmax层预测对应的标签。

对不同模态对应的嵌入数据通过同样的预测标签来对齐，使相同实体同一模态，相同实体不同模态的数据在同一向量空间中处于相近位置。

步骤S3，将得到的嵌入数据写入数据库中生成多模态数据。

具体地，将不同模态数据对应的嵌入数据写入数据库中，生成多模态数据。

本发明实施例可以根据单一模态的患教内容，主动检索生成其它模态的患教内容，来丰富患教内容，简化用户的主动搜索等过程。

如图6，在本实施例的一个优选方案中，多模态患教内容的生成方法包括：

步骤S50，输入单一模态数据；

具体地，可以是文本数据、图片数据、视频数据中的其中一种。

步骤S51，模型训练；

具体地，对输入的单一模态数据进行模型训练，得到对应的嵌入数据。

步骤S52，k-维树(k-dimensional树，KD树)查找；

具体地，在k-维树(k-dimensional树，KD树)的数据库中查找与嵌入数据类似的相似数据。

步骤S53，过滤。

对查找的相似数据进行过滤。

步骤S54，***单一模态数据；

将相似数据***单一模态数据中。

步骤S55，形成多模态数据。

本发明实施例可以将不同模态的内容映射到同一个向量空间，使主题相同的不同模态内容在向量空间中相似度更高，让他们可以相互检索，这样在生成患教内容的时候可以将不同模态的数据融合后推送给患者。

本实施例中，可以根据单一模态的患教内容，主动检索生成其它模态的患教内容，来丰富患教内容，简化用户的主动搜索等过程。

其次，将不同模态的信息输入到已经训练好的模型中，得到相应的低维度稠密的嵌入数据表示。通过向量相似度检索，匹配到相似度最高的其它模态的内容返回，共同形成一个患教内容。

再者，对不同模态的数据放在在同一个批处理(batch)中同时训练，各个模态的数据经过神经网络后得到一个低维的稠密的向量，极大地节省了存储空间，在进行在线推送检索等任务能提高性能。对不同模态的数据通过同样的预测标签来对齐，使相同主题同一模态，相同主题不同模态的数据在同一向量空间中处于相近位。

实施例二：

如图7所示，为本发明实施例二提供的一种多模态患教内容的生成装置的结构图，该多模态患教内容的生成装置包括：实体识别单元1、与实体识别单元1连接的数据生成单元2和与数据生成单元2连接的写入单元3。其中：实体识别单元1，用于将不同模态患教内容进行与文本数据相同的实体识别处理生成不同模态数据；具体地，患教内容可以包括但不限于文本数据、图片数据、视频数据。患教内容为文本数据时，实体识别单元1使用双向长短期记忆网络+条件随机场(lstm+crf)文本中的实体进行识别生成文本模态数据。其中实体可以包括疾病，药品，治疗方式，检查，手术等。患教内容为图片数据时，实体识别单元1对所述图片的标题或标签进行与文本数据相同的实体识别处理生成图片模态数据。患教内容为视频数据时，视频中含有字幕或视频中的音频信息可以翻译成文本信息，实体识别单元1对视频中的字幕进行软件识别后转换成文字或者将音频信息进行转文字，生成文本，对所述文本中的信息做对文本数据相同的实体识别处理生成视频模态数据。更具体地，实体识别单元1对视频中的字幕进行光学字符识别(Optical Character Recognition，OCR)后转换成文字或者将音频信息进行转文字。

数据生成单元2，用于将所述不同模态数据进行编码生成不同模态数据对应的嵌入数据；具体地，数据生成单元2对不同模态数据的多个实体生成对应多个训练数据；然后将不同模态的多个所述训练数据经过不同的编码器进行编码，生成所述嵌入数据。在本发明实施例中，如果单个模态的单个输入数据中有N个对应的实体，那么针对这个模态的数据可以产生N个对应的训练数据：(input,N1),(input,N2),…,(input,Nn)。在训练过程中，数据生成单元2将不同模态数据放在同一个批处理(batch)中同时训练，应用一位有效编码(One-Hot)进行编码；根据有效编码(One-Hot)编码识别不同的模态，选择对应的编码器进行编码。具体地，数据生成单元2将不同模态数据的信息放在同一个批处理(batch)中同时训练。不同模态的数据会将模态信息用有效编码(One-Hot)进行编码，训练模型根据有效编码(One-Hot)的信息进行编码，并根据模态的有效编码(One-Hot)编码来识别不同的模态从而来在训练过程中选择相应的编码器(encoder)进行编码。

数据生成单元2对文本模态数据使用双向长短期记忆网络(lstm)模型进行编码，再经过一全连接层将句子编码成一200维的向量作为句子的嵌入数据。具体地，数据生成单元2对文本模态数据使用与实体识别相同的长短期记忆网络(lstm)模型进行编码，得到长短期记忆网络(lstm)模型的最后一个单元(cell)的隐藏层(hidden state)后再经过一层全连接层将句子编码(encoding)成200维的向量作为句子的嵌入数据(embedding)。数据生成单元2对图片模态数据使用深度残差网络(ResNet)模型进行编码，再经过一全连接层将图片编码成一200维的向量作为图片的嵌入数据。数据生成单元2对视频模态数据将每一帧图片使用深度残差网络模型和双向长短期记忆网络(lstm)模型进行编码，再经过一全连接层编码成一向量作为视频的嵌入数据。具体地，数据生成单元2首先将视频模态数据在影像网(image net)上预训练好，获得每一帧图片，对视频模态数据将每一帧图片使用与图片相同的深度残差网络进行编码；将所述每一帧图片的编码结果输入双向长短期记忆网络(lstm)模型进行编码，得到长短期记忆网络(lstm)最后一个单元(cell)的隐藏层(hiddenstate)后再经过一层全连接层将句子编码成200维的向量作为视频的嵌入数据。

在本发明实施例中，数据生成单元2还将不同模态对应的嵌入数据经过同一个softmax层来预测对应的标签。

写入单元3，用于将得到的嵌入数据写入数据库中，用于向量相似度查询。具体地，写入单元3将不同模态数据对应的嵌入数据写入数据库中，生成多模态数据。在本实施例中，可以根据单一模态的患教内容，主动检索生成其它模态的患教内容，来丰富患教内容，简化用户的主动搜索等过程。

实施例三

如图8示出了本发明实施例三提供的一种服务器的结构图，该服务器包括：存储器(memory)71、处理器(processor)72、通信接口(Communications Interface)73和总线74，该处理器72、存储器71、通信接口73通过总线74完成相互之间的交互通信。存储器71，用于存储各种数据；具体地，存储器71用于存储各种数据，例如文本数据、图片数据、视频数据和各模态数据等，此处对此不作限制，该存储器还包括有多个计算机程序。

通信接口73，用于该服务器的通信设备之间的信息传输；

处理器72，用于调用存储器71中的各种计算机程序，以执行上述实施例一所提供的一种多模态患教内容的生成方法，例如：

将至少一个模态的患教内容进行实体识别处理生成不同模态数据；

将所述不同模态数据进行编码生成不同模态数据对应的嵌入数据；

将得到的嵌入数据写入数据库中生成多模态数据。

本发明属于数据处理技术领域，所公开的实例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。

Claims

1.一种多模态患教内容的生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种多模态患教内容的生成方法，其特征在于，步骤1中，所述实体识别使用双向长短期记忆网络加条件随机场。

3.如权利要求1所述的一种多模态患教内容的生成方法，其特征在于，所述步骤2包括以下步骤：

4.如权利要求3所述的一种多模态患教内容的生成方法，其特征在于，步骤201中，对所述独热编码One-Hot进行训练时，采用以下方法：

5.如权利要求3所述的一种多模态患教内容的生成方法，其特征在于，步骤202中，所述视频模态数据的编码器对视频模态数据进行编码包括以下步骤：

6.如权利要求1所述的一种多模态患教内容的生成方法，其特征在于，在所述步骤2之后并在所述步骤3之前，还包括以下步骤：

7.如权利要求1所述的一种多模态患教内容的生成方法，其特征在于，步骤4中，利用k-维树，即k-dimensional树，在数据库中查找与当前嵌入数据类似的相似嵌入数据。

8.一种多模态患教内容的生成装置，其特征在于，包括：实体识别单元、数据生成单元和写入单元；所述的实体识别单元，用于将不同模态的患教内容进行实体识别处理生成不同模态数据；所述的数据生成单元，与所述的实体识别单元连接，用于将所述不同模态数据进行编码生成不同模态数据对应的嵌入数据；所述的写入单元，与所述的数据生成单元连接，用于将得到的嵌入数据写入数据库中生成多模态数据。

9.一种服务器，其特征在于，包括：存储器、一个或多个处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序；所述的一个或多个程序被所述的一个或多个处理器执行，使得一个或多个处理器实现如权利要求1至7中任一项所述的一种多模态患教内容的生成方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种多模态患教内容的生成方法。