CN111341457A

CN111341457A - 一种基于大数据检索的医疗诊断信息可视化方法及装置

Info

Publication number: CN111341457A
Application number: CN202010116976.0A
Authority: CN
Inventors: 林瞰; 徐莉; 罗国基; 石万美
Original assignee: Guangzhou 7lk Pharmaceutical Chain Co ltd
Current assignee: Guangzhou Qilekang Digital Health Medical Technology Co ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-26
Anticipated expiration: 2040-02-25
Also published as: CN111341457B

Abstract

本发明公开了一种基于大数据检索的医疗诊断信息可视化方法及装置，其中，所述方法包括：用户终端接收用户输入的问诊文本信息，并所述问诊文本信息基于HTTPS协议上传至后台服务器；后台服务器基于接收到的问诊文本信息进行检索关键字提取处理，获得检索关键字；利用检索关键字在医疗诊断数据库上进行索引检索，并将索引检索到的医疗诊断信息按照相关度进行排序；将排序好的医疗诊断信息在后台服务器上进行视觉特征确定，获得确定的视觉特征；将医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果；后台服务器将待显示渲染结果加载至用户终端进行可视化显示。在本发明实施例中，实现对医疗诊断信息的检索及可视化显示。

Description

一种基于大数据检索的医疗诊断信息可视化方法及装置

技术领域

本发明涉及医疗大数据可视化技术领域，尤其涉及一种基于大数据检索的医疗诊断信息可视化方法及装置。

背景技术

今年来，随着人民的生活水平的不断提高，人们对身体健康的重视程度越来越高，但伴随国内的人口老龄化成为趋势，患有各种慢病，如，高血压，糖尿病，高血压等，或者一般的普通病，如，感冒，发烧等；现在随着互联网的发展，一般情况下均可以实现线上智能问诊，现有的线上智能问诊都是线上医生回答的，大部分无法实时回答，如何根据用户输入的问诊信息解决大数据检索匹配快速匹配出医疗诊断信息并进行可视化，从而快速实现线上智能问诊，并提高用户的使用体验。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于大数据检索的医疗诊断信息可视化方法及装置，可以实现根据用户输入的问诊信息通过大数据检索匹配快速匹配出医疗诊断信息并进行可视化，从而快速实现线上智能问诊，并提高用户的使用体验。

为了解决上述技术问题，本发明实施例提供了一种基于大数据检索的医疗诊断信息可视化方法，所述方法包括：

用户终端接收用户输入的问诊文本信息，并将所述问诊文本信息基于HTTPS协议上传至后台服务器；

所述后台服务器基于接收到的所述问诊文本信息进行检索关键字提取处理，获得检索关键字；

利用所述检索关键字在医疗诊断数据库上进行索引检索，并将索引检索到的医疗诊断信息按照相关度进行排序；

将排序好的医疗诊断信息在所述后台服务器上进行视觉特征确定，获得确定的视觉特征，所述视觉特征包括用于显示所述医疗诊断信息的用户终端的屏幕尺寸、屏幕分辨率、用户期望显示分辨率；

将所述医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果；

所述后台服务器将所述待显示渲染结果加载至所述用户终端进行可视化显示。

可选的，所述后台服务器基于接收到的所述问诊文本信息进行检索关键字提取处理，获得检索关键字，包括：

基于关键字提取算法对所述问诊文本信息进行初始关键字提取处理，获得初始关键字；

基于NLP分析模型对所述问诊文本信息进行语义分析处理，获得语义分析标签；

将所述初始关键字与所述语义分析标签进行筛选匹配，获得检索关键字。

可选的，所述基于NLP分析模型对所述问诊文本信息进行语义分析处理，获得语义分析标签，包括：

基于所述问诊文本信息进行文字特征向量列表构建处理，获得文字特征向量列表；

将所述文字特征向量列表输入所述NLP分析模型中，在所述NLP分析模型中利用N-Gram统计语言算法对所述文字特征向量列表中的每一个文字特征向量进行权值预设；

将预设好权值的文字特征向量经过所述NLP模型进行分析处理，输出语义分析标签。

可选的，所述利用所述检索关键字在医疗诊断数据库上进行索引检索，包括：

利用所述检索关键字为中心与所述医疗诊断数据库中的索引关键字进行聚类，获得聚类结果；

基于所述聚类结果进行欧式距离计算，并基于欧式距离计算结果获得最终索引关键字；

利用所述最终索引关键字构建关键字检索式，并基于构建好的关键字检索式在所述医疗诊断数据库上进行索引检索。

可选的，所述将索引检索到的医疗诊断信息按照相关度进行排序，包括：

获取每一份医疗诊断信息中所对应的索引关键字信息；

基于欧式距离计算结果对所述索引关键字信息赋予对应权值；

利用所述索引关键字信息赋予对应权值进行累加处理，并按照累加结果大小进行排序。

可选的，所述利用所述索引关键字信息赋予对应权值进行累加处理，包括：

按照每一份医疗诊断信息中的所述索引关键字所赋予的对应权值进行累加处理。

可选的，所述将排序好的医疗诊断信息在所述后台服务器上进行视觉特征确定，获得确定的视觉特征，包括：

所述后台服务器基于所述HTTPS协议获取所述用户终端的显示特征；

基于所述显示特征在所述后台服务器中确定所述排序好的医疗诊断信息的视觉特征，获得确定的视觉特征；

所述显示特征包括用户终端的用于显示的屏幕尺寸、用户设置的显示分辨率；

所述视觉特征包括用于显示所述医疗诊断信息的用户终端的屏幕尺寸、屏幕分辨率、用户期望显示分辨率。

可选的，所述将所述医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果，包括：

将所述医疗诊断信息中的数据元素按照确定的视觉特征进行映射，获得待显示文档框架；

将所述待显示文档框架进行待显示渲染处理，获得待显示渲染结果。

可选的，所述后台服务器将所述待显示渲染结果加载至所述用户终端进行可视化显示，包括：

所述后台服务器将所述待显示渲染结果按照显示顺序加载至所述用户终端上进行可视化显示。

另外，本发明实施例还提供了一种基于大数据检索的医疗诊断信息可视化装置，所述装置包括：

输入模块：用于用户终端接收用户输入的问诊文本信息，并将所述问诊文本信息基于HTTPS协议上传至后台服务器；

关键字提取模块：用于所述后台服务器基于接收到的所述问诊文本信息进行检索关键字提取处理，获得检索关键字；

索引检索模块：用于利用所述检索关键字在医疗诊断数据库上进行索引检索，并将索引检索到的医疗诊断信息按照相关度进行排序；

视觉特征确定模块：用于将排序好的医疗诊断信息在所述后台服务器上进行视觉特征确定，获得确定的视觉特征，所述视觉特征包括用于显示所述医疗诊断信息的用户终端的屏幕尺寸、屏幕分辨率、用户期望显示分辨率；

待显示渲染模块：用于将所述医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果；

加载可视化模块：用于所述后台服务器将所述待显示渲染结果加载至所述用户终端进行可视化显示。

在本发明实施例中，通过接收用户输入的问诊文本信息并上传至后台服务器中，经过关键字提取，然后利用提取的关键字进行索引检索，然后进行排序，将排序结果按照确定的视觉特征进行待显示渲染，然后将待显示渲染结果加载到用户终端进行可视化显示；可以实现根据用户输入的问诊信息通过大数据检索匹配快速匹配出医疗诊断信息并进行可视化，从而快速实现线上智能问诊，并提高用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于大数据检索的医疗诊断信息可视化方法的流程示意图；

图2是版面费实施例中的基于大数据检索的医疗诊断信息可视化装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1是本发明实施例中的基于大数据检索的医疗诊断信息可视化方法的流程示意图。

如图1所示，一种基于大数据检索的医疗诊断信息可视化方法，所述方法包括：

S11：用户终端接收用户输入的问诊文本信息，并将所述问诊文本信息基于HTTPS协议上传至后台服务器；

在本发明具体实施过程中，用户终端上安装有对应的APP或者小程序或者可以与后台服务器建立连接的PC应用程序等，在用户终端上相应的操作界面上有相应的用于接收用户输入的问诊信息的，在接收到问诊信息之后，该用户终端通过相应的算法，将该问诊信息转化为问诊文本信息，首先是将问诊信息进行冗余去除，一般基于语法规则的方式进行冗余去除，然后在去除冗余之后的问诊信息中按照输入的时间顺序整合问问诊文本信息；在用户终端得到问诊文本信息之后通过与后台服务器中的HTTPS协议上传至后台服务器；通过上述的方式，将用户输入的问诊信息进行相应的处理，方便后续的处理，加快后续步骤的处理速度，通过HTTPS协议，保障文本传输的安全以及传输速度。

S12：所述后台服务器基于接收到的所述问诊文本信息进行检索关键字提取处理，获得检索关键字；

在本发明具体实施过程中，所述后台服务器基于接收到的所述问诊文本信息进行检索关键字提取处理，获得检索关键字，包括：基于关键字提取算法对所述问诊文本信息进行初始关键字提取处理，获得初始关键字；基于NLP分析模型对所述问诊文本信息进行语义分析处理，获得语义分析标签；将所述初始关键字与所述语义分析标签进行筛选匹配，获得检索关键字。

进一步的，述基于NLP分析模型对所述问诊文本信息进行语义分析处理，获得语义分析标签，包括：基于所述问诊文本信息进行文字特征向量列表构建处理，获得文字特征向量列表；将所述文字特征向量列表输入所述NLP分析模型中，在所述NLP分析模型中利用N-Gram统计语言算法对所述文字特征向量列表中的每一个文字特征向量进行权值预设；将预设好权值的文字特征向量经过所述NLP模型进行分析处理，输出语义分析标签。

具体的，通过关键字提取算法来对问诊文本信息中的关键字进行初始提取，从而获得初始关键字，用于提取关键字的关键字提取算法可以为TF-IDF关键字提取算法、基于语义的统计语言模型、TF-IWF文档关键字自动提取算法、基于分离模型的文中关键字提取算法、基于语义的中文文本关键字提(SKE)取算法、基于朴素贝叶斯模型的中文关键字提取算法中的任意一种，上述的每种算法具有其独特的优势，在本发明实施例中，优先使用TF-IDF关键字提取算法，TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术；TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)；TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度；字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降；TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级；除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序；在提取初始关键字之后，再利用NLP分析模型来对问诊文本信息进行语义分析，从而分析获得语义分析标签；利用该初始关键字与语义分析标签进行筛选匹配，从而获得检索关键字；其中，筛选匹配时通过相似度计算来进行筛选匹配；具体的算法如下：

其中，S_i,S_j为比较相近的初始关键字集合和语义分析标签集合，t_jh,t_ik分别是集合S_i,S_j中的初始关键字和语义分析标签，wup(t_ik,t_jh)为初始关键字和语义分析标签之间的wup相似度，max_h(wup(t_ik,t_jh))是t_jh与S_j中的所有语义分析标签的wup相似度的最大值，max_k(wup(t_jh,t_ik))是t_ik与S_i中的所有初始关键字的wup相似度的最大值，size(S)表示集合的个数。

用于对应的问诊文本信息来构建位置特征向量列表，是通过自然语言处理领域的词袋模型(BOF)与N-Gram特征相结合，既能准确分词又能调整分词后的顺序。词袋模型(BOF)由特征提取、特征聚类、特征编码、特征汇聚和分类器分类4部分组成的标准目标分类框架。N-Gram特征是基于统计语言模型的算法，又被称为一阶马尔科夫链，是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有的gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间；列表中的每一种gram就是一个特征向量维度；具体是，首先对输入的罪名字段信息进行语段序列粗分处理；然后在进行Bi-gram切割处理；最后进行过滤处理，获取特征向量列表。

该NLP分析模型架构采用输入、映射(隐藏)、输出的架构，其中X(1)到X(n)表示文本中每个词的特征向量，段落则可以用所有词的嵌入累加后的均值表示，最后从隐层再经过一次的非线性变换得到输出层的标签；模型输入一个词的序列(一段文本或者一句话)，输出这个词序列属于不同类别的概率；隐层是由输入层求和并平均，乘以权重矩阵A得到的；输出层是由隐层乘以权重矩阵B得到的；为了改善运算时间，为了改善运行时间，该模型使用了层次Softmax技巧，建立在哈弗曼编码的基础上，对标签进行编码，能够极大地缩小模型预测目标的数量。

具体的，输出层是由隐层乘以权重矩阵B的公式如下：

其中，y_n表示true label(真标签)，x_n表示特征向量列表(文档n归一化后的N-Gram特征)，A和B分别表示权重矩阵；N＝1,2,3,…，N为正整数。

即首先将问诊文本信息构建文字特征向量，并将构建好的文字特征向量列表输入到NLP分析模型中，在该NLP分析模型中利用N-Gram统计语言算法对文字特征向量列表中的每一个文字特征向量进行权值预设；将预设好权值的文字特征向量经过NLP模型进行分析处理，输出语义分析标签。

S13：利用所述检索关键字在医疗诊断数据库上进行索引检索，并将索引检索到的医疗诊断信息按照相关度进行排序；

在本发明具体实施过程中，所述利用所述检索关键字在医疗诊断数据库上进行索引检索，包括：利用所述检索关键字为中心与所述医疗诊断数据库中的索引关键字进行聚类，获得聚类结果；基于所述聚类结果进行欧式距离计算，并基于欧式距离计算结果获得最终索引关键字；利用所述最终索引关键字构建关键字检索式，并基于构建好的关键字检索式在所述医疗诊断数据库上进行索引检索。

进一步的，所述将索引检索到的医疗诊断信息按照相关度进行排序，包括：获取每一份医疗诊断信息中所对应的索引关键字信息；基于欧式距离计算结果对所述索引关键字信息赋予对应权值；利用所述索引关键字信息赋予对应权值进行累加处理，并按照累加结果大小进行排序。

进一步的，所述利用所述索引关键字信息赋予对应权值进行累加处理，包括：按照每一份医疗诊断信息中的所述索引关键字所赋予的对应权值进行累加处理。

具体的，利用该检索关键字为中心与该医疗诊断数据库中的索引关键字进行聚类，在本发明实施例中利用k-means聚类，从而获得该该检索关键字为中心的聚类结果；然后利用该聚类结果中的关键字进行欧式距离的计算，然后根据计算得到的欧式距离来确定最终索引关键字；通过最终索引关键字构建适用于该医疗诊断数据库的检索式，然后利用该检索式在该医疗诊断数据库上进行索引检索。

首先获得每一份医疗诊断信息中的多对应的索引关键字信息，计算所有索引关键字之间的欧式距离，通过该索引关键字之间的欧式距离对每一个索引关键字进行对应的权值赋予；最终对每一份医疗诊断信息中的多对应的索引关键字信息赋予对应权值进行累计，然后根据照累加结果大小进行排序；其中，按照每一份医疗诊断信息中的索引关键字所赋予的对应权值进行累加处理。

S14：将排序好的医疗诊断信息在所述后台服务器上进行视觉特征确定，获得确定的视觉特征，所述视觉特征包括用于显示所述医疗诊断信息的用户终端的屏幕尺寸、屏幕分辨率、用户期望显示分辨率；

在本发明具体实施过程中，所述将排序好的医疗诊断信息在所述后台服务器上进行视觉特征确定，获得确定的视觉特征，包括：所述后台服务器基于所述HTTPS协议获取所述用户终端的显示特征；基于所述显示特征在所述后台服务器中确定所述排序好的医疗诊断信息的视觉特征，获得确定的视觉特征；所述显示特征包括用户终端的用于显示的屏幕尺寸、用户设置的显示分辨率；所述视觉特征包括用于显示所述医疗诊断信息的用户终端的屏幕尺寸、屏幕分辨率、用户期望显示分辨率。

具体的，在该后台服务器中利用HTTPS协议获取所述用户终端的显示特征，该显示特征包括用户终端的用于显示的屏幕尺寸、用户设置的显示分辨率；根据显示特征在后台服务器中确定排序好的医疗诊断信息的视觉特征，获得确定的视觉特征；具体是利用显示特征来确定的，视觉特征包括用于显示医疗诊断信息的用户终端的屏幕尺寸、屏幕分辨率、用户期望显示分辨率。

S15：将所述医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果；

在本发明具体实施过程中，所述将所述医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果，包括：将所述医疗诊断信息中的数据元素按照确定的视觉特征进行映射，获得待显示文档框架；将所述待显示文档框架进行待显示渲染处理，获得待显示渲染结果。

具体的，将该医疗诊断信息中的所有数据元素按照所确定的视觉特征进行待显示映射，从而映射至相应的文档框架中，得到待显示文档框架；最后将该待显示文档框架进行待显示渲染，从而得到待显示渲染结果。

S16：所述后台服务器将所述待显示渲染结果加载至所述用户终端进行可视化显示。

在本发明具体实施过程中，所述后台服务器将所述待显示渲染结果加载至所述用户终端进行可视化显示，包括：所述后台服务器将所述待显示渲染结果按照显示顺序加载至所述用户终端上进行可视化显示。

实施例

请参阅图2，图2是版面费实施例中的基于大数据检索的医疗诊断信息可视化装置的结构组成示意图。

如图2所示，一种基于大数据检索的医疗诊断信息可视化装置，所述装置包括：

输入模块21：用于用户终端接收用户输入的问诊文本信息，并将所述问诊文本信息基于HTTPS协议上传至后台服务器；

关键字提取模块22：用于所述后台服务器基于接收到的所述问诊文本信息进行检索关键字提取处理，获得检索关键字；

具体的，输出层是由隐层乘以权重矩阵B的公式如下：

索引检索模块23：用于利用所述检索关键字在医疗诊断数据库上进行索引检索，并将索引检索到的医疗诊断信息按照相关度进行排序；

视觉特征确定模块24：用于将排序好的医疗诊断信息在所述后台服务器上进行视觉特征确定，获得确定的视觉特征，所述视觉特征包括用于显示所述医疗诊断信息的用户终端的屏幕尺寸、屏幕分辨率、用户期望显示分辨率；

待显示渲染模块25：用于将所述医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果；

加载可视化模块26：用于所述后台服务器将所述待显示渲染结果加载至所述用户终端进行可视化显示。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于大数据检索的医疗诊断信息可视化方法及装置进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于大数据检索的医疗诊断信息可视化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的医疗诊断信息可视化方法，其特征在于，所述后台服务器基于接收到的所述问诊文本信息进行检索关键字提取处理，获得检索关键字，包括：

3.根据权利要求2所述的医疗诊断信息可视化方法，其特征在于，所述基于NLP分析模型对所述问诊文本信息进行语义分析处理，获得语义分析标签，包括：

4.根据权利要求1所述的医疗诊断信息可视化方法，其特征在于，所述利用所述检索关键字在医疗诊断数据库上进行索引检索，包括：

5.根据权利要求4所述的医疗诊断信息可视化方法，其特征在于，所述将索引检索到的医疗诊断信息按照相关度进行排序，包括：

获取每一份医疗诊断信息中所对应的索引关键字信息；

6.根据权利要求5所述的医疗诊断信息可视化方法，其特征在于，所述利用所述索引关键字信息赋予对应权值进行累加处理，包括：

7.根据权利要求1所述的医疗诊断信息可视化方法，其特征在于，所述将排序好的医疗诊断信息在所述后台服务器上进行视觉特征确定，获得确定的视觉特征，包括：

8.根据权利要求1所述的医疗诊断信息可视化方法，其特征在于，所述将所述医疗诊断信息按照确定的视觉特征进行待显示渲染处理，获得待显示渲染结果，包括：

9.根据权利要求1所述的医疗诊断信息可视化方法，其特征在于，所述后台服务器将所述待显示渲染结果加载至所述用户终端进行可视化显示，包括：

10.一种基于大数据检索的医疗诊断信息可视化装置，其特征在于，所述装置包括：