CN116153452A - 基于人工智能的医疗电子病历存储*** - Google Patents

基于人工智能的医疗电子病历存储*** Download PDF

Info

Publication number
CN116153452A
CN116153452A CN202310410374.XA CN202310410374A CN116153452A CN 116153452 A CN116153452 A CN 116153452A CN 202310410374 A CN202310410374 A CN 202310410374A CN 116153452 A CN116153452 A CN 116153452A
Authority
CN
China
Prior art keywords
character
analysis
characters
dimensional matrix
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310410374.XA
Other languages
English (en)
Other versions
CN116153452B (zh
Inventor
王静
苏敏
彭宇浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Liangyi Information Technology Co.,Ltd.
Original Assignee
Jinan Kexun Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Kexun Intelligent Technology Co ltd filed Critical Jinan Kexun Intelligent Technology Co ltd
Priority to CN202310410374.XA priority Critical patent/CN116153452B/zh
Publication of CN116153452A publication Critical patent/CN116153452A/zh
Application granted granted Critical
Publication of CN116153452B publication Critical patent/CN116153452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及电数字数据处理技术领域,具体涉及一种基于人工智能的医疗电子病历存储***,将就医人员的电子病历数据转化为同类型的一维字符数据,将一维字符数据映射为二维矩阵;将二维矩阵自适应划分为至少两个最终字符串;对每个最终字符串进行自适应的LZ77压缩处理,进而将压缩后的所有最终字符串进行存储。本发明通过将一维数据转化为二维矩阵,根据二维矩阵内的数据分布特征,将规律性较强的数据提取出来,使得数据更加适应LZ77压缩算法,提高了压缩效率,降低了数据存储空间。

Description

基于人工智能的医疗电子病历存储***
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种基于人工智能的医疗电子病历存储***。
背景技术
近年来,越来越多的智能硬件都可随时连接网络,为数字医疗的发展提供了良好的基础,如今,数字医疗行业的发展越来越成熟,数字医疗与传统医疗的结合日益紧密,使得医疗服务的工作流程得到了极大的优化。但是伴随而来的是海量的医疗数据,特别是每个病人对应的病历数据,每日的病人之多,病历对应数据之大,电子病历的数据无疑是非常巨大的,且需要保存的时间长达十五年之久,对于服务器来说,存储压力较大。
目前,利用LZ77压缩算法可以对电子病历数据进行压缩存储,但是LZ77压缩算法对电子病历数据进行压缩时,逐个对电子病历数据进行压缩,且在电子病历数据的规律性较强的情况下,LZ77压缩算法的压缩效率才会较高,但是电子病历数据较为复杂,对应一维数据的规律性较低,即重复数据较少,进而极大的降低了LZ77压缩算法的压缩效率。
发明内容
为了解决上述一维数据的规律性较低导致LZ77压缩算法的压缩效率降低的技术问题,本发明的目的在于提供一种基于人工智能的医疗电子病历存储***,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于人工智能的医疗电子病历存储***,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令以实现一种基于人工智能的医疗电子病历存储方法,包括以下步骤:
将就医人员的电子病历数据转化为同类型的一维字符数据,将一维字符数据映射为二维矩阵;
获取二维矩阵中的至少两个分析字符,基于二维矩阵的至少两个设定分析角度,获取分析字符在每个设定分析角度下的字符串,根据每个字符串中的字符分布获取对应字符串的待提取系数;根据每个分析字符的每个字符串的待提取系数将二维矩阵自适应划分为至少两个最终字符串;
对每个最终字符串进行自适应的LZ77压缩处理,进而将压缩后的所有最终字符串进行存储。
优选的,所述根据每个字符串中的字符分布获取对应字符串的待提取系数,包括:
对于任意分析字符的任意一个字符串,根据字符串中每个字符的数值计算信息熵;统计字符串的字符总数量,获取字符串中出现频率最高的重复字符串的数量以及字符串中出现频率最高的重复字符串的最大长度,其中重复字符串是指至少预设数量个连续一样的字符所组成的字符串,获取出现频率最高的每个重复字符串与分析字符之间的最小字符数量;
结合信息熵、字符总数量、出现频率最高的重复字符串的数量、出现频率最高的重复字符串的最大长度以及出现频率最高的每个重复字符串对应的最小字符数量,得到字符串的待提取系数。
优选的,所述待提取系数的计算公式为:
Figure SMS_1
其中,
Figure SMS_3
为字符串的待提取系数;
Figure SMS_7
为字符串中出现频率最高的重复字符串的 最大长度;
Figure SMS_10
为字符串中出现频率最高的重复字符串的数量;
Figure SMS_4
为字符串的字符总数量;
Figure SMS_6
为字符串的信息熵;
Figure SMS_9
为字符串中出现频率最高的第j个重复字符串与字符串对应的分 析字符之间的最小字符数量;
Figure SMS_11
为信息熵的权重值;
Figure SMS_2
为最小字符数量的累加和
Figure SMS_5
的 权重值;
Figure SMS_8
为归一化函数。
优选的,所述根据每个分析字符的每个字符串的待提取系数将二维矩阵自适应划分为至少两个最终字符串,包括:
对于任意一个分析字符的每个字符串的待提取系数,获取最大待提取系数,当最大待提取系数大于等于提取系数阈值时,将最大待提取系数对应的字符串作为分析字符的最终字符串;
基于分析字符的最终字符串,将二维矩阵中的剩余字符组成一个最终字符串,进而将二维矩阵自适应划分为至少两个最终字符串。
优选的,所述对每个最终字符串进行自适应的LZ77压缩处理,包括:
对于分析字符的最终字符串,根据每个最终字符串中出现频率最高的重复字符串的最大长度,获取对应最终字符串进行LZ77压缩处理时的滑动窗口的大小;利用每个最终字符串的滑动窗口的大小对相对应的最终字符串进行LZ77压缩处理;
对于由二维矩阵中的剩余字符组成的最终字符串,利用常规滑动窗口的大小进行LZ77压缩处理。
优选的,所述获取二维矩阵中的至少两个分析字符,包括:
从二维矩阵的最外圈开始,以一个字符为步长进行二维矩阵对应每圈的所有分析字符的迭代获取,当任意圈的分析字符在所有设定分析角度下的最长字符串所对应的字符数量小于数量阈值时,停止分析字符的迭代获取。
优选的,所述二维矩阵对应每圈的所有分析字符的迭代获取,包括:
取二维矩阵中的任意一圈为目标圈,以目标圈的任意顶点位置处的字符作为第一个分析字符,从第一个分析字符开始,对目标圈的字符进行顺时针遍历,将下一个不属于上一个分析字符的最终字符串中的字符作为下一个分析字符,直至目标圈的所有字符都遍历完;其中,二维矩阵对应每圈的第一个分析字符都是相同顶点位置处的字符。
优选的,所述设定分析角度为0度、45度、90度、135度、180度、225度、270度和315度。
优选的,使用ASCII编码将就医人员的电子病历数据转化为同类型的一维字符数据。
优选的,使用Z字形扫描法将一维字符数据映射为二维矩阵。
本发明具有如下有益效果:
考虑到电子病历信息较为复杂,且电子病历信息对应一维数据中存在的规律性较弱,使得压缩效率极低,因此本发明实施例将就医人员的电子病历数据转化为同类型的一维字符数据,将一维字符数据映射为二维矩阵,以通过二维矩阵将存在潜在规律性强的数据进行提取,使其更加适应LZ77压缩算法;一维字符数据映射为二维矩阵后,二维矩阵内的某一位置的字符在不同角度形成的字符串,其内部存在的规律性也会存在一定差异,则获取二维矩阵中的至少两个分析字符,基于二维矩阵的至少两个设定分析角度,获取分析字符在每个设定分析角度下的字符串,根据每个字符串中的字符分布获取对应字符串的待提取系数,由于待提取系数反映了字符串中重复字符串的分布情况,待提取系数越大,对应字符串的内部规律性越大,字符串被提取出来的概率越大,因此根据每个分析字符的每个字符串的待提取系数将二维矩阵自适应划分为至少两个最终字符串,实现了对一维字符数据中存在潜在规律的数据进行提取出来的目的,增强了数据的规律性,便于后续对每个最终字符串进行自适应的LZ77压缩处理,从而将压缩后的所有最终字符串进行存储。综上,本发明通过将一维数据转化为二维矩阵,根据二维矩阵内的数据分布特征,将规律性较强的数据提取出来,使得数据更加适应LZ77压缩算法,提高了压缩效率,降低了数据存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于人工智能的医疗电子病历存储***对应的一种基于人工智能的医疗电子病历存储方法的步骤流程图;
图2为本发明实施例提供的一种按照电子病历数据的填写顺序将转化后的十进制码组成一维字符数据的示意图;
图3为本发明实施例提供的一种Z字形扫描法的示意图;
图4为本发明实施例提供的二维矩阵的每圈字符的划分示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的医疗电子病历存储***,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明所针对的具体场景为:在对电子病历信息进行LZ77压缩时,电子病历信息较为复杂,电子病历信息对应一维数据中存在的规律性较弱,使得压缩效率极低,并不能将电子病历信息内部存在潜在规律性较强的数据进行挖掘并提取,本发明通过转化的方法,将电子病历信息的一维数据转化为二维矩阵,通过二维矩阵将存在潜在规律性强的数据进行提取,进而更加适应LZ77压缩方法,提高压缩效率,降低成本。
下面结合附图具体的说明本发明所提供的一种基于人工智能的医疗电子病历存储***的具体方案。
本发明实施例提供了一种基于人工智能的医疗电子病历存储***,包括处理器和存储器,处理器用于处理存储在存储器中的指令以实现一种基于人工智能的医疗电子病历存储方法。参阅图1,其示出了一种基于人工智能的医疗电子病历存储方法的步骤流程图,该方法包括:
步骤S001,将就医人员的电子病历数据转化为同类型的一维字符数据,将一维字符数据映射为二维矩阵。
具体的,不同的就医人员,对应电子病历中的数据也会存在不同,电子病历数据中存在文字、数字、英文、标点等不同的数据类型,要对该电子病历数据进行压缩,需要将不同类型的数据转化为同一类型数据,本发明实施例使用ASCII编码,将电子病历数据转化为十进制码,其十进制对应字符的数值范围为[0,127],在转化为同一类型数据之后,按照电子病历数据的填写顺序将转化后的十进制码组成一维字符数据,如图2所示,按照姓名、性别、年龄和病案编号的填写顺序,将电子病历数据转化的十进制码组成一维字符数据。作为其他实施例,电子病历数据的填写顺序可根据实施者的需求自行设定。
其中,ASCII编码为公知技术,本实施例不再赘述。
对于电子病历数据的一维字符数据,对应数据较为复杂,其数据内部的规律性较低,极难获取其中存在潜在规律的数据,而一维字符数据对应的为十进制的数据串,因此可以通过某种映射方式将电子病历数据的一维字符数据映射为二维矩阵,通过分析二维矩阵中的字符分布特征,将一维字符数据中看不出来的规律性数据挖掘出来。
对于一维字符数据,其为十进制的数据串,本实施例使用如图3所示的Z字形扫描 法将一维字符数据映射为二维矩阵,其中,统计得到一维字符数据的字符数量为
Figure SMS_12
,基于一 维字符数据的字符数量
Figure SMS_13
,本发明实施例规定二维矩阵为方形,且二维矩阵的宽度为
Figure SMS_14
Figure SMS_15
为取整符号,当一维字符数据的数据量小于二维矩阵的数据量时,对二维矩 阵进行补零操作,得到一个完整的方形二维矩阵。
需要说明的是,Z字形扫描法为公知技术,本实施例不再赘述。
步骤S002,获取二维矩阵中的至少两个分析字符,基于二维矩阵的至少两个设定分析角度,获取分析字符在每个设定分析角度下的字符串,根据每个字符串中的字符分布获取对应字符串的待提取系数;根据每个分析字符的每个字符串的待提取系数将二维矩阵自适应划分为至少两个最终字符串。
具体的,一维字符数据映射为二维矩阵后,二维矩阵内某一位置的字符在不同角度形成的字符串,其内部存在的规律性也会存在一定差异,存在一些角度形成的字符串内,存在重复字符串的频率较大,因此通过分析二维矩阵中不同角度形成的字符串中的字符分布特征,将存在重复字符串较多所对应角度下的字符串提取出来,通过对二维矩阵内的字符不断迭代,便可以自适应将二维矩阵内的字符分为规律性较强的字符串,进而更适应后期对二维矩阵中的字符进行压缩存储。
获取二维矩阵之后,为了避免计算量过大,本实施例设定二维矩阵的分析角度为0度、45度、90度、135度、180度、225度、270度和315度。从二维矩阵的最外圈开始,以一个字符为步长进行二维矩阵对应每圈的所有分析字符的迭代获取,取二维矩阵中的任意一圈为目标圈,以目标圈的任意顶点位置处的字符作为第一个分析字符,从第一个分析字符开始,对目标圈的字符进行顺时针遍历,将下一个不属于上一个分析字符的最终字符串中的字符作为下一个分析字符,直至目标圈的所有字符都遍历完;其中,二维矩阵对应每圈的第一个分析字符都是相同顶点位置处的字符。
具体的,参照附图4,虚线构成了8*8大小的二维矩阵,利用实线将8*8大小的二维矩阵中的字符分为一圈一圈的,即将8*8大小的二维矩阵的最边缘上的字符组成一圈Q1,然后去除最边缘对应的一圈字符之后,8*8大小的二维矩阵变成6*6大小的二维矩阵,进而将6*6大小的二维矩阵的最边缘上的字符又组成一圈Q2,依次类推,能将8*8大小的二维矩阵划分为4圈,分别为Q1、Q2、Q3、Q4。本实施例从二维矩阵的最外圈开始进行分析字符的获取,当最外圈的分析字符获取完之后,以同样的获取方式,获取下一圈的所有分析字符。
需要说明的是,当二维矩阵的大小为奇数尺寸时,如9*9大小的二维矩阵,该二维矩阵的最内圈为二维矩阵的一个中心字符,则此时,就不考虑该二维矩阵的最内圈,也即是不分析最内圈对应的字符了。
基于二维矩阵对应每圈的每个分析字符在每个设定分析角度下的字符串,根据字符串的字符分布特征,进行逐圈分析每个分析字符对应的字符串,以将二维矩阵自适应划分为多个字符串,具体为:
首先,本发明实施例以二维矩阵的最外圈为例,获取分析字符在每个设定分析角度下的字符串,根据每个字符串中的字符分布获取对应字符串的待提取系数,则待提取系数的获取方法为:对于任意分析字符的任意一个字符串,根据字符串中每个字符的数值计算信息熵;统计字符串的字符总数量,获取字符串中出现频率最高的重复字符串的数量以及字符串中出现频率最高的重复字符串的最大长度,其中重复字符串是指至少预设数量个连续一样的字符所组成的字符串,获取出现频率最高的每个重复字符串与分析字符之间的最小字符数量;结合信息熵、字符总数量、出现频率最高的重复字符串的数量、出现频率最高的重复字符串的最大长度以及出现频率最高的每个重复字符串对应的最小字符数量,得到字符串的待提取系数。
作为一个示例,参照附图4,将8*8大小的二维矩阵的最外圈Q1的最左侧上顶点处的字符作为第一个分析字符,将第一个分析字符在8*8大小的二维矩阵中的第一行上的所有字符且包括第一个分析字符组成第一个分析字符在分析角度为0度下的字符串,将8*8大小的二维矩阵的对角线上的所有字符包括第一个分析字符组成第一个分析字符在分析角度为315度下的字符串,同理基于每个设定的分析角度,获取第一个分析字符在每个分析角度下对应的字符串,需要说明的是,在其他实施例中,也可以将最外圈的最右侧上顶点处的字符、最外圈的最右侧下顶点处的字符以及最外圈的最左侧下顶点处的字符作为第一个分析字符。
对于第一个分析字符的任意一个字符串,根据字符串中每个字符的数值计算信息熵,其中信息熵的计算公式为:
Figure SMS_16
其中,
Figure SMS_17
为字符串的信息熵;
Figure SMS_18
为字符串中字符的数值为i的出现频率;
Figure SMS_19
为以 常数2为底的对数函数;127是指ASCII编码为十进制所对应字符的最大数值。
本发明设定重复字符串为由至少4个连续一样的字符所组成的字符串,例如,当分析字符1的字符串为12222333334533333时,2222为重复字符串,33333为重复字符串,由于重复字符串有1个,重复字符串33333有两个,因此33333也为出现频率最高的重复字符串,分析字符1与出现频率最高的第一个重复字符串33333之间的最小字符数量为:由于分析字符1和出现频率最高的第一个重复字符串33333中的第一个字符3之间间隔的4个字符2,因此最小字符数量为4,则根据字符串中的字符分布获取分析字符对应的字符串的待提取系数的计算公式为:
Figure SMS_20
其中,
Figure SMS_23
为字符串的待提取系数;
Figure SMS_25
为字符串中出现频率最高的重复字符串的 最大长度;
Figure SMS_29
为字符串中出现频率最高的重复字符串的数量;
Figure SMS_21
为字符串的字符总数量;
Figure SMS_26
为字符串的信息熵;
Figure SMS_28
为字符串中出现频率最高的第j个重复字符串与字符串对应的分 析字符之间的最小字符数量,也即是第j个重复字符串中靠近分析字符的字符与分析字符 之间间隔的字符数量;
Figure SMS_30
为信息熵的权重值;
Figure SMS_22
为最小字符数量的累加和
Figure SMS_24
的权重 值;
Figure SMS_27
为归一化函数。
优选的,本发明实施例中给予参考值
Figure SMS_31
Figure SMS_32
,在其他实施例中,实施者 可根据自身场景来设置。
需要说明的是,每个分析角度下的字符串中出现频率最高的重复字符串的数量越 多,且对应的长度越长,即
Figure SMS_33
的值越大,对应分析角度下的字符串内的规律性越强,被 提取的程度越大,对应分析角度下的字符串的待提取系数CE的值越大;分析角度下的字符 串内的信息熵H越小,即内部出现的不同数值的字符数量较少,出现重复字符串的概率较 大,即
Figure SMS_34
值越小,对应分析角度下的字符串被提取的程度越大;分析字符的分析角度下的字 符串中的重复字符串距离分析字符越近,说明重复字符串分布较为集中,对应分析角度下 的字符串中的规律性越强,则
Figure SMS_35
的值越小,对应分析角度下的字符串被提取程度越大, 待提取系数
Figure SMS_36
越大。
然后,基于字符串的待提取系数的计算公式获取最外圈的第一个分析字符在所有 分析角度下的字符串的待提取系数
Figure SMS_38
。对于最外圈的第一个分析字符在每个分析角度下 对应字符串的待提取系数,取最大待提取系数
Figure SMS_41
,设置提取系数阈值
Figure SMS_43
Figure SMS_39
的大 小由人工经验获取,当最大待提取系数
Figure SMS_40
大于等于提取系数阈值
Figure SMS_42
时,将最大待提取系 数对应的字符串作为第一个分析字符的最终字符串;反之,当最大待提取系数
Figure SMS_44
小于 提取系数阈值
Figure SMS_37
时,说明第一个分析字符的字符串的规律性较差,不适合提取该分析字符 的字符串,则认为第一个分析字符不存在最终字符串,进而直接获取最外圈中下一个分析 字符的最终字符串,其获取最终字符串的方法和第一个分析字符的最终字符串的获取方法 相同,直至将最外圈中的所有分析字符都遍历完,进而得到多个最终字符串。
同理,基于最外圈的分析字符的分析方法,对二维矩阵从外圈到内圈的顺序,都以每圈的最左侧上顶点处的字符作为第一个分析字符进行逐圈的分析字符的遍历,进而基于每圈中的分析字符得到多个最终字符串。
需要说明的是,当任意圈的分析字符在所有设定分析角度下的最长字符串所对应 的字符数量小于数量阈值时,停止分析字符的迭代获取。即每次获取分析字符时,统计分析 字符在所有设定分析角度下的最长字符串所对应的字符数量
Figure SMS_45
,设置数量阈值
Figure SMS_46
,数量阈 值的大小可由人工经验获取,本发明给予参考值
Figure SMS_47
,当字符数量
Figure SMS_48
小于
Figure SMS_49
时,则停止 分析字符的获取。
当二维矩阵停止分析字符的迭代获取时,二维矩阵中还存在部分剩余字符,进而基于分析字符的最终字符串,将二维矩阵中的剩余字符组成一个最终字符串,以将二维矩阵自适应划分为至少两个最终字符串。
需要说明的是,通过对二维矩阵对应每圈的分析字符的遍历,得到多个规律性高的最终字符串,而对于二维矩阵中除了通过分析字符得到的最终字符串外,二维矩阵中还存在一些剩余字符,本发明实施例通过Z字形扫描法将二维矩阵中的剩余字符扫描为一维字符集合,且将该一维字符集合作为单独的一个最终字符串,进而完成了二维矩阵的自适应字符分串的操作,实现了对一维字符数据中存在潜在规律的数据进行提取出来的目的,便于后期进行压缩。
步骤S003,对每个最终字符串进行自适应的LZ77压缩处理,进而将压缩后的所有最终字符串进行存储。
具体的,不同的分串数据,内部的规律性强度不同,进而可以对不同的最终字符串进行不同的LZ77压缩处理,以有效的提升数据的压缩效率,具体为:对于分析字符的最终字符串,根据每个最终字符串中出现频率最高的重复字符串的最大长度,获取对应最终字符串进行LZ77压缩处理时的滑动窗口的大小;利用每个最终字符串的滑动窗口的大小对相对应的最终字符串进行LZ77压缩处理;对于由二维矩阵中的剩余字符组成的最终字符串,利用常规滑动窗口的大小进行LZ77压缩处理。
作为一个示例,由于LZ77压缩算法采用字典的方式进行压缩,且LZ77使用前向缓 冲区和一个滑动窗口来实现压缩,因此对应不同的最终字符串,其内部的规律会存在不同, 故按照二维矩阵中的分析字符的遍历顺序排列最终字符串,对于不同的最终字符串,本发 明实施例规定使用滑动窗口大小为对应最终字符串中出现频率最高的重复字符串的最大 长度
Figure SMS_50
的LZ77压缩算法对相对应的最终字符串进行压缩,其中滑动窗口的大小比最 终字符串中出现频率最高的重复字符串的最大长度多一个长度单位,使得LZ77压缩字符串 的能力会更强;对应最后一个最终字符串,也即是二维矩阵内剩余字符组成的最终字符串, 使用目前常规滑动窗口的大小进行LZ77压缩,常规滑动窗口的大小为7。其中,LZ77压缩算 法为公知技术,且LZ77压缩算法中的滑动窗口为一维的,在此不再赘述。
为了保证解压后的数据准确性,按照二维矩阵中的分析字符的遍历顺序排列最终字符串,对于排列后的每个最终字符串,分别记录每个最终字符串在二维矩阵中的位置信息,本发明实施例设置位置信息为二维矩阵对应的行数和列数,且位置信息为一个四位数组,令四位数组的前两位数为最终字符串的首个字符在二维矩阵中的行列数,最终字符串的首个字符也即是最终字符串对应的分析字符,同时令四位数组的后两位数为最终字符串的末尾字符在二维矩阵中的行列数,进而能够得到每个最终字符串在二维矩阵中的位置信息(四位数组)。对于最后一个最终字符串,也即是二维矩阵内剩余字符组成的最终字符串,不用获取该最终字符串的位置信息,当分析字符对应的所有最终字符串根据对应的位置信息解压出来后,即可根据最后一个最终字符串的扫描方式还原最后一个最终字符串中每个字符在二维矩阵中的位置,最后将压缩后的所有最终字符串和排列后的每个最终字符串的位置信息进行存储,使得压缩后的数据存储空间得到了一定程度的缩小。
至此,通过分析二维矩阵内的字符分布特征,提取规律较强的分串数据(最终字符串),进而自适应进行LZ77的字符串压缩存储。通过将电子病历数据对应的一维字符数据中存在潜在规律的最终字符串,通过二维矩阵将其进行提取,使得提取的最终字符串更加适应LZ77压缩算法,极大的提升了数据的压缩效率,降低储存空间,同时也节约了一定的成本。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于人工智能的医疗电子病历存储***,其特征在于,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令以实现一种基于人工智能的医疗电子病历存储方法,包括以下步骤:
将就医人员的电子病历数据转化为同类型的一维字符数据,将一维字符数据映射为二维矩阵;
获取二维矩阵中的至少两个分析字符,基于二维矩阵的至少两个设定分析角度,获取分析字符在每个设定分析角度下的字符串,根据每个字符串中的字符分布获取对应字符串的待提取系数;根据每个分析字符的每个字符串的待提取系数将二维矩阵自适应划分为至少两个最终字符串;
对每个最终字符串进行自适应的LZ77压缩处理,进而将压缩后的所有最终字符串进行存储。
2.如权利要求1所述的基于人工智能的医疗电子病历存储***,其特征在于,所述根据每个字符串中的字符分布获取对应字符串的待提取系数,包括:
对于任意分析字符的任意一个字符串,根据字符串中每个字符的数值计算信息熵;统计字符串的字符总数量,获取字符串中出现频率最高的重复字符串的数量以及字符串中出现频率最高的重复字符串的最大长度,其中重复字符串是指至少预设数量个连续一样的字符所组成的字符串,获取出现频率最高的每个重复字符串与分析字符之间的最小字符数量;
结合信息熵、字符总数量、出现频率最高的重复字符串的数量、出现频率最高的重复字符串的最大长度以及出现频率最高的每个重复字符串对应的最小字符数量,得到字符串的待提取系数。
3.如权利要求2所述的基于人工智能的医疗电子病历存储***,其特征在于,所述待提取系数的计算公式为:
Figure QLYQS_1
其中,
Figure QLYQS_2
为字符串的待提取系数;/>
Figure QLYQS_5
为字符串中出现频率最高的重复字符串的最大长度;/>
Figure QLYQS_9
为字符串中出现频率最高的重复字符串的数量;/>
Figure QLYQS_4
为字符串的字符总数量;/>
Figure QLYQS_7
为字符串的信息熵;/>
Figure QLYQS_8
为字符串中出现频率最高的第j个重复字符串与字符串对应的分析字符之间的最小字符数量;/>
Figure QLYQS_11
为信息熵的权重值;/>
Figure QLYQS_3
为最小字符数量的累加和/>
Figure QLYQS_6
的权重值;/>
Figure QLYQS_10
为归一化函数。
4.如权利要求1所述的基于人工智能的医疗电子病历存储***,其特征在于,所述根据每个分析字符的每个字符串的待提取系数将二维矩阵自适应划分为至少两个最终字符串,包括:
对于任意一个分析字符的每个字符串的待提取系数,获取最大待提取系数,当最大待提取系数大于等于提取系数阈值时,将最大待提取系数对应的字符串作为分析字符的最终字符串;
基于分析字符的最终字符串,将二维矩阵中的剩余字符组成一个最终字符串,进而将二维矩阵自适应划分为至少两个最终字符串。
5.如权利要求4所述的基于人工智能的医疗电子病历存储***,其特征在于,所述对每个最终字符串进行自适应的LZ77压缩处理,包括:
对于分析字符的最终字符串,根据每个最终字符串中出现频率最高的重复字符串的最大长度,获取对应最终字符串进行LZ77压缩处理时的滑动窗口的大小;利用每个最终字符串的滑动窗口的大小对相对应的最终字符串进行LZ77压缩处理;
对于由二维矩阵中的剩余字符组成的最终字符串,利用常规滑动窗口的大小进行LZ77压缩处理。
6.如权利要求1所述的基于人工智能的医疗电子病历存储***,其特征在于,所述获取二维矩阵中的至少两个分析字符,包括:
从二维矩阵的最外圈开始,以一个字符为步长进行二维矩阵对应每圈的所有分析字符的迭代获取,当任意圈的分析字符在所有设定分析角度下的最长字符串所对应的字符数量小于数量阈值时,停止分析字符的迭代获取。
7.如权利要求6所述的基于人工智能的医疗电子病历存储***,其特征在于,所述二维矩阵对应每圈的所有分析字符的迭代获取,包括:
取二维矩阵中的任意一圈为目标圈,以目标圈的任意顶点位置处的字符作为第一个分析字符,从第一个分析字符开始,对目标圈的字符进行顺时针遍历,将下一个不属于上一个分析字符的最终字符串中的字符作为下一个分析字符,直至目标圈的所有字符都遍历完;其中,二维矩阵对应每圈的第一个分析字符都是相同顶点位置处的字符。
8.如权利要求1所述的基于人工智能的医疗电子病历存储***,其特征在于,所述设定分析角度为0度、45度、90度、135度、180度、225度、270度和315度。
9.如权利要求1所述的基于人工智能的医疗电子病历存储***,其特征在于,使用ASCII编码将就医人员的电子病历数据转化为同类型的一维字符数据。
10.如权利要求1所述的基于人工智能的医疗电子病历存储***,其特征在于,使用Z字形扫描法将一维字符数据映射为二维矩阵。
CN202310410374.XA 2023-04-18 2023-04-18 基于人工智能的医疗电子病历存储*** Active CN116153452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310410374.XA CN116153452B (zh) 2023-04-18 2023-04-18 基于人工智能的医疗电子病历存储***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310410374.XA CN116153452B (zh) 2023-04-18 2023-04-18 基于人工智能的医疗电子病历存储***

Publications (2)

Publication Number Publication Date
CN116153452A true CN116153452A (zh) 2023-05-23
CN116153452B CN116153452B (zh) 2023-06-30

Family

ID=86358510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310410374.XA Active CN116153452B (zh) 2023-04-18 2023-04-18 基于人工智能的医疗电子病历存储***

Country Status (1)

Country Link
CN (1) CN116153452B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116342891A (zh) * 2023-05-24 2023-06-27 济南科汛智能科技有限公司 一种适用于自闭症儿童结构化教学监控数据管理***
CN116915259A (zh) * 2023-09-12 2023-10-20 山东先飞数智物流科技有限公司 基于物联网的仓配数据优化储存方法及***
CN116959657A (zh) * 2023-09-18 2023-10-27 苏州绿华科技有限公司 一种医疗大数据安全管理***
CN117014519A (zh) * 2023-09-27 2023-11-07 北京融威众邦科技股份有限公司 一种数据传输方法及医院智能传输***
CN117254819A (zh) * 2023-11-20 2023-12-19 深圳市瑞健医信科技有限公司 一种医疗废物智能监管***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101086749A (zh) * 2006-06-08 2007-12-12 杭州掌幄科技有限公司 一种电子病历的数据压缩算法
JP2008276459A (ja) * 2007-04-27 2008-11-13 Sanyo Electric Co Ltd 入力文字列予測装置、入力文字列予測プログラムおよび電子カルテシステム
CN106549674A (zh) * 2016-10-28 2017-03-29 银江股份有限公司 一种面向电子病历的数据压缩及解压方法
CN110111851A (zh) * 2017-10-20 2019-08-09 人和未来生物科技(长沙)有限公司 基因测序数据压缩方法、***及计算机可读介质
US20190287684A1 (en) * 2018-03-16 2019-09-19 Vvc Holding Corporation Medical system interface apparatus and methods to classify and provide medical data using artificial intelligence
CN111223545A (zh) * 2020-01-08 2020-06-02 智业软件股份有限公司 电子病历痕迹保留的方法
WO2021121187A1 (zh) * 2020-06-24 2021-06-24 平安科技(深圳)有限公司 基于分词文本的电子病例查重方法、装置、计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101086749A (zh) * 2006-06-08 2007-12-12 杭州掌幄科技有限公司 一种电子病历的数据压缩算法
JP2008276459A (ja) * 2007-04-27 2008-11-13 Sanyo Electric Co Ltd 入力文字列予測装置、入力文字列予測プログラムおよび電子カルテシステム
CN106549674A (zh) * 2016-10-28 2017-03-29 银江股份有限公司 一种面向电子病历的数据压缩及解压方法
CN110111851A (zh) * 2017-10-20 2019-08-09 人和未来生物科技(长沙)有限公司 基因测序数据压缩方法、***及计算机可读介质
US20190287684A1 (en) * 2018-03-16 2019-09-19 Vvc Holding Corporation Medical system interface apparatus and methods to classify and provide medical data using artificial intelligence
CN111223545A (zh) * 2020-01-08 2020-06-02 智业软件股份有限公司 电子病历痕迹保留的方法
WO2021121187A1 (zh) * 2020-06-24 2021-06-24 平安科技(深圳)有限公司 基于分词文本的电子病例查重方法、装置、计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TARIQ RAHIM 等: "Compressed medical imaging based on average sparsity model and reweighted analysis of multiple basis pursuit", 《COMPUTERIZED MEDICAL IMAGING AND GRAPHICS》, pages 1 - 10 *
张丽霞;宋鸿陟;: "多重压缩DNA序列数据", 计算机应用, no. 05, pages 245 - 248 *
李新娱: "基于FM-index的DNA序列数据压缩算法", 《中国优秀硕士学位论文全文数据库》, pages 006 - 196 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116342891A (zh) * 2023-05-24 2023-06-27 济南科汛智能科技有限公司 一种适用于自闭症儿童结构化教学监控数据管理***
CN116342891B (zh) * 2023-05-24 2023-08-15 济南科汛智能科技有限公司 一种适用于自闭症儿童结构化教学监控数据管理***
CN116915259A (zh) * 2023-09-12 2023-10-20 山东先飞数智物流科技有限公司 基于物联网的仓配数据优化储存方法及***
CN116915259B (zh) * 2023-09-12 2023-12-01 山东先飞数智物流科技有限公司 基于物联网的仓配数据优化储存方法及***
CN116959657A (zh) * 2023-09-18 2023-10-27 苏州绿华科技有限公司 一种医疗大数据安全管理***
CN116959657B (zh) * 2023-09-18 2023-12-12 苏州绿华科技有限公司 一种医疗大数据安全管理***
CN117014519A (zh) * 2023-09-27 2023-11-07 北京融威众邦科技股份有限公司 一种数据传输方法及医院智能传输***
CN117014519B (zh) * 2023-09-27 2023-12-29 北京融威众邦科技股份有限公司 一种数据传输方法及医院智能传输***
CN117254819A (zh) * 2023-11-20 2023-12-19 深圳市瑞健医信科技有限公司 一种医疗废物智能监管***
CN117254819B (zh) * 2023-11-20 2024-02-27 深圳市瑞健医信科技有限公司 一种医疗废物智能监管***

Also Published As

Publication number Publication date
CN116153452B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN116153452B (zh) 基于人工智能的医疗电子病历存储***
CN110009565A (zh) 一种基于轻量化网络的超分辨率图像重建方法
CN115882868B (zh) 一种气体监测数据智能存储方法
CN116961675B (zh) 一种医疗护理数据智能处理方法
CN117155407B (zh) 一种智慧镜柜消毒日志数据优化存储方法
CN116153453B (zh) 基于云边协同的智能戒指信息管理方法及***
CN116820352B (zh) 一种具有数据容灾功能的病区自助结算***
CN116521093B (zh) 一种智慧社区人脸数据存储方法及***
CN116170027B (zh) 一种毒检设备数据管理***及处理方法
CN110933438A (zh) 一种jpeg图像可逆信息隐藏方法
CN117278054A (zh) 一种智慧电网监控数据存储方法及***
CN116662910A (zh) 一种基于联邦学习的多临床分期疾病辅助分类方法及***
CN116614139A (zh) 一种售酒小程序内用户交易信息压缩存储方法
CN116934487B (zh) 一种金融清算数据优化存储方法及***
CN117437310B (zh) 一种类器官培养图像压缩方法
CN117014519B (zh) 一种数据传输方法及医院智能传输***
CN116743181B (zh) 基于大数据的用药安全数据分类存储方法
CN111711511A (zh) 频域数据有损压缩方法
CN108880559A (zh) 数据压缩方法、数据解压缩方法、压缩设备及解压缩设备
CN115049055B (zh) 基于动态双可训练界限的超分神经网络的量化方法
CN115964347A (zh) 一种市场监管监测中心数据的智能存储方法
CN108259515A (zh) 一种适用于带宽受限下传输链路的无损信源压缩方法
CN117668269B (zh) 基于流形学习的车辆审核信息优化存储方法
Soundarya et al. Comparison of hybrid codes for MRI brain image compression
CN117998024A (zh) 一种心脏辅助检测用超声影像传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240528

Address after: 511446, No. 477 East Hanxi Avenue, Nancun Town, Panyu District, Guangzhou City, Guangdong Province 1412

Patentee after: Guangzhou Liangyi Information Technology Co.,Ltd.

Country or region after: China

Address before: Office Building 3008A6, No. 666 Kaifeng Road, High tech Zone, Jinan City, Shandong Province, 250000

Patentee before: Jinan Kexun Intelligent Technology Co.,Ltd.

Country or region before: China