CN117454843A - 一种基于电子病历问答模型的数据预处理*** - Google Patents
一种基于电子病历问答模型的数据预处理*** Download PDFInfo
- Publication number
- CN117454843A CN117454843A CN202311516587.7A CN202311516587A CN117454843A CN 117454843 A CN117454843 A CN 117454843A CN 202311516587 A CN202311516587 A CN 202311516587A CN 117454843 A CN117454843 A CN 117454843A
- Authority
- CN
- China
- Prior art keywords
- text
- candidate
- medical record
- electronic medical
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007781 pre-processing Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 26
- 230000002159 abnormal effect Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 49
- 238000003058 natural language processing Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 206010041823 squamous cell carcinoma Diseases 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 210000001989 nasopharynx Anatomy 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 102000009151 Luteinizing Hormone Human genes 0.000 description 1
- 108010073521 Luteinizing Hormone Proteins 0.000 description 1
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229940040129 luteinizing hormone Drugs 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 201000011216 nasopharynx carcinoma Diseases 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种基于电子病历问答模型的数据预处理***,***包括样本电子病历信息集、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:根据样本电子病例信息集,获取候选文本集,根据候选文本集和目标术语知识图谱,获取候选关键词集,根据候选文本集和候选关键词集,获取初始文本集,根据初始文本集,获取目标文本集,根据目标文本集,获取指定文本向量以实现数据预处理,本发明基于文本的类型对文本字符串的数量进行统一,保证了获取到的指定文本向量的全面性,同时,考虑文本中的关键词因素,基于不同因素采用不同手段对文本进行处理,提高了获取到的指定文本向量集的准确度。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种基于电子病历问答模型的数据预处理***。
背景技术
随着医疗业务量的不断增长以及人工智能技术的不断发展,病历电子化已成为趋势,如何对电子病历对应的文本数据进行处理生成用于医疗领域模型训练的数据成为当下的热门研究方向,在建立医疗领域相关模型时,对数据预处理的过程至关重要,对文本数据进行合理处理能够有效提高模型训练的性能。
目前,现有技术中,进行数据预处理的方法为:基于数据库中文本对应的文本字符串数量的平均值获取到目标文本字符串数量,当文本对应字符串过长时从文本的最后开始进行阶段,当文本对应字符串低于目标文本字符串数量时随机选取文本进行补充,从而获取指定文本向量集以实现数据预处理。
综上所述进行数据预处理存在的问题:对文本字符串的数量进行统一时未考虑文本的类型,不能保证获取到的指定文本向量的全面性,同时,未考虑文本中关键词因素,在进行文本字符截断时未考虑关键词的优先级,在进行文本字符补充时未考虑关键词对应的关联文本,未基于不同因素采用不同手段对文本进行处理,降低了获取到的指定文本向量集的准确度。
发明内容
本发明提供了一种基于电子病历问答模型的数据预处理***,***包括:样本电子病历信息集、处理器和存储有计算机程序的存储器,其中,样本电子病历信息集包括若干个样本电子病历信息,样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息,当计算机程序被处理器执行时,实现以下步骤:
S1,根据样本电子病历信息集,获取候选文本集A={A1,……,Ai,……,An},Ai为第i个候选文本,i=1……n,n为候选文本的数量。
S3,根据A和目标术语知识图谱,获取A对应的候选关键词集Q={Q1,……,Qi,……,Qn},Qi为Ai对应的候选关键词列表。
S5,根据A和Q,获取初始文本集T={T1,……,Ti,……,Tn},Ti={Ai,Qi},Ti为第i个初始文本。
S7,根据T,获取指定文本集U={U1,……,Ui,……,Un},Ui为第i个指定文本,其中,在S7中通过如下步骤获取Ui:
S71,根据Ti,获取Ti对应的文本字符串WTi=(WT0 i1,……,WT0 ix,……,WT0 ip,WT1 i1,……,WT1 iy,……,WT1 iq),WT0 ix为Ai对应的第x个文字字符,x=1……p,p为Ai对应的文字字符的数量,WT1 iy为Qi对应的第y个文字字符,y=1……q,q为Qi对应的文字字符的数量。
S72,当p+q=K时,获取Ui=Ti,其中,K为预设的关键优先级阈值。
S73,当p+q>K时,获取Q对应的候选优先级集P={P1,……,Pi,……,Pn},Pi={Pi1,……,Pie,……,Pif(i)},Pie为Qi对应的候选关键词列表中第e个候选关键词对应的候选优先级,e=1……f(i),f(i)为Qi对应的候选关键词列表中候选关键词的数量。
S74,基于P,对WTi进行处理以获取Ui。
S75,当p+q<K时,获取Qi对应的指定关键词集Ri={Ri1,……,Rie,……,Rif(i)}和Qi对应的指定优先级集Gi={Gi1,……,Gie,……,Gif(i)},Rie为Qie对应的指定关键词列表,Gie为Qie对应的指定优先级列表。
S76,根据Ri和Gi,对WTi进行处理以获取Ui。
S9,根据U,获取指定文本向量集以实现数据预处理,其中,所述指定文本向量集包括若干个指定文本向量,其中,所述指定文本向量为将指定文本输入至预训练电子病历编码模型中获取到的。
本发明提供了一种基于电子病历问答模型的数据预处理***,***包括样本电子病历信息集、处理器和存储有计算机程序的存储器,其中,所述样本电子病历信息集包括若干个样本电子病历信息,所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息,当所述计算机程序被处理器执行时,实现以下步骤:根据样本电子病例信息集,获取候选文本集,根据候选文本集和目标术语知识图谱,获取候选文本集对应的候选关键词集,根据候选文本集和候选关键词集,获取初始文本集,根据初始文本集,获取目标文本集,其中,基于初始文本对应的文本字符串数量,基于不同情况分别进行处理以获取目标文本,根据目标文本集,获取指定文本向量,本发明基于文本的类型对文本字符串的数量进行统一,保证了获取到的指定文本向量的全面性,同时,考虑文本中的关键词因素,基于关键词的优先级对文本字符进行截断,基于不同因素采用不同手段对文本进行处理,提高了获取到的指定文本向量集的准确度,从而使得数据预处理的准确度较高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种一种基于电子病历问答模型的数据预处理***的执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包括了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
一种基于LLM模型的电子病历问答***,所述***包括:样本电子病历信息集、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S1,根据样本电子病历信息集,获取候选文本集A={A1,……,Ai,……,An},Ai为第i个候选文本,i=1……n,n为候选文本的数量。
具体的,所述样本电子病历信息集包括若干个样本电子病历信息,其中,所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息,其中,所述异常状态特征信息为与疾病相关联的特征信息,例如异常糖链糖蛋白tap处于检测异常、鼻咽呈现低分化鳞癌等异常状态特征信息。
进一步的,本领域技术人员知晓,可根据实际需求进行任一可获取病例的医学公用数据库的选取,均落入本发明的保护范围,再次不再赘述。
进一步的,所述样本电子病历信息的数据格式包括文本格式和表格格式。
具体的,所述***中还包括目标术语知识图谱,其中,所述目标术语知识图谱呈现三元组形态,其中,目标术语知识图谱中每个三元组形态包括两个与异常状态相关的实体以及两个与异常状态相关的实体之间的关系。
进一步的,本领域技术人员知晓,现有技术中任一基于目标术语构建知识图谱的方法,均落入本发明的保护范围,在此不再赘述。
具体的,在S1中通过如下步骤获取候选文本:
S11,当样本电子病例信息的数据格式为文本格式时,将样本电子病例信息按照分割符号进行切分以生成候选文本。
S13,当样本电子病例信息的数据格式为表格格式时,将样本电子病例信息中每个记录以及记录对应的字段名称进行整合以生成候选文本,可以理解为:当样本电子病例信息中每个字段对应的字段名称从左到右依次为ID、活检部位、组织学分类时,样本电子病例信息中某一行的内容从左到右依次为008号、鼻咽、鳞状细胞癌时,获取到一个候选文本为:ID为008号的活检部位为鼻咽,组织学分类为鳞状细胞癌。
S3,根据A和目标术语知识图谱,获取A对应的候选关键词集Q={Q1,……,Qi,……,Qn},Qi为Ai对应的候选关键词列表。
具体的,在S3中通过如下步骤获取Qi:
S31,根据A,获取A对应的第一中间词集B={B1,……,Bi,……,Bn},Bi={Bi1,……,Bij,……,Bim(i)},Bij为Ai对应的第一中间词列表中的第j个第一中间词,j=1……m(i),m(i)为Ai对应的第一中间词列表中第一中间词的数量。
具体的,所述第一中间词为从候选文本中获取到的词,其中,本领域技术人员知晓,现有技术中任一从文本中提取词的方法,均落入本发明的保护范围,在此不在赘述。
S33,根据目标术语知识图谱,获取目标词列表D={D1,……,Dr,……,Ds},Dr为第r个目标词,r=1……s,s为目标词的数量。
具体的,所述目标词为从目标术语知识图谱中获取到的与异常状态相关的实体。
S35,根据B和D,获取B对应的第一中间相似度集F={F1,……,Fi,……,Fn},Fi={Fi1,……,Fij,……,Fim(i)},Fij={F1 i1,……,Fr ij,……,Fs im(i)},Fr ij为Bij与Dr之间的第一中间相似度。
具体的,所述第一中间相似度为第一中间词对应的词向量与目标词对应的词向量之间的相似度,其中,本领域技术人员知晓,现有技术中任一计算向量之间相似度的方法,均落入本发明的保护范围,在此不再赘述。
进一步的,所述第一中间词对应的词向量的方法为将第一中间词向量输入至自然语言处理模型中获取到的词对应的向量,其中,本领域技术人员知晓,现有技术中任一将文本转换成向量的自然语言处理模型,均落入本发明的保护范围,在此不再赘述。
S37,当Fr ij≥F0时,将Bij***至Qi中,其中,F0为预设的第一中间相似度阈值。
具体的,F0的取值范围为0.8~0.9,其中,本领域技术人员知晓,可根据实际需求进行F0的选取,均落入本发明的保护范围,在此不再赘述。
S5,根据A和Q,获取初始文本集T={T1,……,Ti,……,Tn},Ti={Ai,Qi},Ti为第i个初始文本。
具体的,所述初始文本为将候选文本与候选关键词进行拼接且候选关键词拼接在候选文本之后的文本。
S7,根据T,获取指定文本集U={U1,……,Ui,……,Un},Ui为第i个指定文本,其中,在S7中通过如下步骤获取Ui:
S71,根据Ti,获取Ti对应的文本字符串WTi=(WT0 i1,……,WT0 ix,……,WT0 ip,WT1 i1,……,WT1 iy,……,WT1 iq),WT0 ix为Ai对应的第x个文字字符,x=1……p,p为Ai对应的文字字符的数量,WT1 iy为Qi对应的第y个文字字符,y=1……q,q为Qi对应的文字字符的数量。
S72,当p+q=K时,获取Ui=Ti,其中,K为预设的关键优先级阈值。
具体的,在S72中通过如下步骤获取K:
S721,根据T,获取关键文本类型集C={C1,……,Cd,……,Cz},Cd={Cd1,……,Cdg,……,Cdh(d)},Cdg为第d类关键文本列表中的第g个关键文本,g=1……h(d),h(d)为第d类关键文本列表中关键文本的数量,d=1……z,z为关键文本类型的数量。
具体的,所述关键文本为基于初始文本对应的文本类型从T中获取到的初始文本,其中,本领域技术人员知晓,现有技术中任一对文本进行分类的方法,均落入本发明的保护范围,在此不再赘述,例如通过文本的关键词对文本进行分类的方法,其中,文本类型例如分为心脏类型和眼鼻喉类型等初始文本对应的文本类型。
S723,根据C,获取C对应的第一文本字符串数量集C0={C0 1,……,C0 d,……,C0 z},C0 d={C0 d1,……,C0 dg,……,C0 dh(d)},C0 dg为Cdg对应的第一文本字符串数量。
具体的,所述第一文本字符串数量为关键文本对应的文本字符串数量。
S725,根据C0,获取C对应的第二文本字符串数量集C1={C1 1,……,C1 d,……,C1 z},C1 d={C1 d1,……,C1 du,……,C1 dh(d)},C1 du为第d类关键文本列表对应的第二文本字符串数量列表中的第u个第二文本,u=1……h(d),其中,C1 d1≥……≥C1 du≥……≥C1 dh(d)。
具体的,所述第二文本字符串数量为根据第一文本字符串数量按照从大到小的顺序依次获取到的文本字符串数量。
进一步的,所述文本字符串数量为文本对应的文字字符串数量。
S725,根据C0,获取K,其中,K符合如下条件:
其中,C1 dα为第d类关键文本列表中的第α个第二文本字符串数量对应的关键文本对应的文本字符串数量,ε为预设的第一数量阈值。
具体的,为不大于(h(d)×ε)的整数。
具体的,ε的取值范围为0.85~1,其中,本领域技术人员知晓,可根据实际需求进行ε的选取,均落入本发明的保护范围,在此不再赘述。
上述,基于关键文本的类型以及每个类型关键文本对应文本字符串的数量获取到预设的关键优先级阈值,使得初始文本对应的文本字符串的数量统一,结合文本的类型统一文本字符串的数量保证了后续获取到的指定文本向量对应的文本的全面性,基于每个类型关键文本对应文本字符串的数量设置阈值提高了获取到的文本字符串数量统一值的准确度,通过合理设置阈值,既能够避免文本字符串长度过短易造成文本数据的缺失的问题,也能避免文本字符串长度过长造成文本数据处理效率降低的问题,进而提高了后续获取到的指定文本向量集的准确度。
S73,当p+q>K时,获取Q对应的候选优先级集P={P1,……,Pi,……,Pn},Pi={Pi1,……,Pie,……,Pif(i)},Pie为Qi对应的候选关键词列表中第e个候选关键词对应的候选优先级,e=1……f(i),f(i)为Qi对应的候选关键词列表中候选关键词的数量。
具体的,在S73中通过如下步骤获取Pie:
S731,获取候选关键词列表Qi={Qi1,……,Qie,……,Qif(i)},Qie为Qi中的第e个候选关键词。
S733,根据目标术语知识图谱,获取Qie对应的指定关键词列表Rie={R1 ie,……,Ra ie,……,Rb(e) ie}和Qie对应的指定优先级列表Gie={G1 ie,……,Ga ie,……,Gb(e) ie},Ra ie为Qie对应的第a个指定关键词,a=1……b(e),b(e)为Qie对应的指定关键词的数量,Ga ie为Qie与Ra ie之间的指定优先级。
具体的,所述指定关键词为从目标术语知识图谱中获取到的与候选关键词相关联的目标词。
具体的,所述指定优先级为候选关键词与指定关键词之间的关联程度,其中,本领域技术人员知晓,现有技术中任一获取两个文本之间关联程度的方法,均落入本发明的保护范围,在此不在赘述。
S735,根据Qie、Rie和Gie,获取Pie,其中,Pie符合如下条件:
其中,Mie为Qie在候选文本集A中出现的频数,Nie为候选文本集A中包括Qie的候选文本对应的第一中间词的数量,Vie为候选文本集A中包括Qie的候选文本的数量,Ea ie为Ga ie在候选文本集A中出现的频数,La ie为候选文本集A中包括Ga ie的候选文本对应的第一中间词的数量,Ja ie为候选文本集A中包括Ga ie的候选文本的数量。
S74,基于P,对WTi进行处理以获取Ui。
具体的,在S74中还包括如下步骤:
S741,根据Pi,获取Ti对应的第一中间文本β1 i=(Ai,Qi1,……,Qi(e-1),Qi(e+1)……,Qif(i)),其中,Pie为Pi中最小的候选优先级。
S743,当β1 i对应的文本字符串数量不大于K时,获取Ui=βi。
S745,当β1 i对应的文本字符串数量大于K时,获取Pi中Pie除Pie之外的最小候选优先级,将其在初始文本Qi中删除以获取Ti对应的第二中间文本β2 i。
S747,重复执行S743~S745,直到获取到的Ui对应的文本字符串数量不大于K从而以获取到Ui。
S75,当p+q<K时,获取Qi对应的指定关键词集Ri={Ri1,……,Rie,……,Rif(i)}和Qi对应的指定优先级集Gi={Gi1,……,Gie,……,Gif(i)},Rie为Qie对应的指定关键词列表,Gie为Qie对应的指定优先级列表。
S76,根据Ri和Gi,对WTi进行处理以获取Ui。
具体的,在S76中还包括如下步骤:
S761,当Ga ie为Gie中最大的指定优先级时,获取Ti对应的第一候选文本集,其中,所述第一候选文本集包括若干个第一候选文本,所述第一候选文本为从A中获取包括Ga ie对应的指定关键词Ra ie的候选文本。
S763,基于Ti对应的第一候选文本集,获取Ti对应的第二候选文本Hi,其中,H0 i=K-p-q,H0 i为Hi对应的文本字符串数量。
S765,根据Hi,获取Ui=(Ai,Qi,Hi)。
上述,基于初始文本对应的文本字符串的数量对初始文本进行处理,当初始文本对应的文本字符串超过预先设置的长度阈值时,基于初始文本对应的候选关键词对应的优先级进行截断处理,当初始文本对应的文本字符串不足预先设置的长度阈值时,基于与初始文本对应的候选关键词相关联的文本进行补充处理,基于初始文本对应的文本字符串数量的不同采用不同的处理方式将初始文本对应的文本字符串的数量进行统一,提高了获取到的指定文本向量集的准确度。
S9,根据U,获取指定文本向量集,其中,所述指定文本向量集包括若干个指定文本向量,其中,所述指定文本向量为将指定文本输入至预训练电子病历编码模型中获取到的。
具体的,所述预训练电子病历编码模型为基于预训练模型对病历文本训练集进行训练获取到的将文本转换成向量的模型。
进一步的,本领域技术人员知晓,可根据实际需求进行预训练模型的选取,均落入本发明的保护范围,在此不再赘述,例如ERNIE预训练模型。
进一步的,所述病历文本训练集为基于不同的搜索引擎获取到的用于模型训练的病历文本集,所述病历文本集包括若干个不同类型和形式的病历文本。
进一步的,本领域技术人员知晓,现有技术中任一从多个搜索引擎获取文本的方法,均落入本发明的保护范围,在此不再赘述,其中,例如百度等搜索引擎。
上述,基于文本的类型对文本字符串的数量进行统一,保证了获取到的指定文本向量的全面性,同时,考虑文本中的关键词因素,基于关键词的优先级对文本字符进行截断,基于不同因素采用不同手段对文本进行处理,提高了获取到的指定文本向量集的准确度。
具体的,在S9之后还包括如下步骤:
S100,基于第一预设文本集和指定文本向量集,获取第一预设文本集对应的第一目标文本集。
具体的,所述第一预设文本集包括若干个第一预设文本,其中,所述第一预设文本为基于异常状态获取到的有关异常状态的问题文本。
进一步的,所述问题文本为以提问形式呈现要求进行回答和解释的文本,例如:促***低于3的表现等问题文本。
进一步的,所述第一预设文本为通过医学公用数据库获取到的问题文本,其中,本领域技术人员知晓,现有技术中任一基于医学公用数据库获取与医学有关的问题的文本,均落入本发明的保护范围,在此不再赘述。
具体的,在S100中还包括如下步骤:
S101,获取第一预设文本向量集I={I1,……,It,……,Iθ},It为第t个第一预设文本对应的第一预设文本向量,t=1……θ,θ为第一预设文本的数量。
具体的,所述第一预设文本向量为将第一预设文本输入至预训练电子病历编码模型获取到的。
S103,获取指定文本向量集 为第i个指定文本向量。
S105,根据I和获取I对应的第一目标相似度集ER={ER1,……,ERt,……,ERθ},ERt={ERt1,……,ERti,……,ERtn},ERti为It与/>之间的第一目标相似度。
具体的,本领域技术人员知晓,现有技术中任一获取向量之间相似度的方法,均落入本发明的保护范围,在此不再赘述,例如余弦相似度等计算向量之间相似度的方法。
S107,当ERti≥ER0时,获取对应的目标文本Ui为It对应的第一目标文本,其中,ER0为预设的第二优先级阈值。
具体的,ER0的取值范围为0.8~0.85,本领域技术人员知晓,可根据实际需求进行ER0的选取,均落入本发明的保护范围,在此不再赘述。
S200,基于第一预设文本集和第一目标文本集,获取第一预设文本集对应的第二目标文本集。
具体的,所述第二目标文本集包括若干个第二目标文本,其中,所述第二目标文本为基于第一预设文本和第一目标文本集通过prompt指令生成的与第一预设文本相关联的解释内容文本,例如,当第一预设文本涉及到心脏时,结合与之相关的第一目标文本和一些异常状态领域的相关知识将心脏进行简单的解释,将第一预设文本以及基于第一预设文本获取到的解释内容当作第二目标文本。
进一步的,本领域技术人员知晓,现有技术中任一prompt指令进行训练从而输出结果的方法,均落入本发明的保护范围,在此不再赘述。
上述,基于第一预设文本集和第一目标文本通过prompt指令生成第一预设文本集对应的第二目标文本集,对于每个问题文本,获取到与之对应的病历文本,通过prompt指令为其设置指示指令,有利于电子病历问答***的理解和回复,提高了电子病历问答***输出结果的准确度。
S300,将第一预设文本集和第二目标文本集输入至预设的第一初始LLM模型中,获取第一预设文本集对应的第三目标文本集。
具体的,所述第三目标文本集包括若干个第三目标文本,其中,所述第三目标文本为基于第一预设文本获取到的第一预设文本对应的答案文本和解释文本。
进一步的,所述答案文本为基于问题文本进行回答的文本。
进一步的,所述解释文本为基于问题文本获取到对答案文本进行解释说明的文本。
进一步的,在S300中通过如下步骤获取第三目标文本:
S301,根据第一预设文本和第一预设文本对应的第二目标文本,获取第一预设文本对应的ψ个第四目标文本,其中,所述第四目标文本为基于第二目标文本在多个LLM模型获取到的第一预设文本对应的答案文本和解释文本。
具体的,本领域技术人员知晓,现有技术中任一通过LLM模型输出结果的方法,均落入本发明的保护范围,在此不再赘述,其中,例如Baichuan-13B模型、LLaMA模型等LLM模型。
具体的,ψ的取值范围为30~50,其中,本领域技术人员知晓,可根据实际需求进行ψ的选取,均落入本发明的保护范围,在此不再赘述。
S303,根据第四目标文本,获取第四目标文本对应的优选优先级,其中,所述优选优先级为基于投票法获取到的分数值,其中,本领域技术人员知晓,现有技术中任一基于投票法获取分数的方法,均落入本发明的保护范围,在此不再赘述。
具体的,所述优选优先级的取值范围为0~1。
S305,根据优选优先级,获取第一预设文本对应的第三目标文本,其中,所述第三目标文本为最大优选优先级对应的第四目标文本。
S400,将第一目标文本集、第二目标文本集和第三目标文本集作为训练集输入至预设的第二初始LLM模型中,生成初始电子病历问答模型。
在另一个具体的实施例中,在S400之后还包括如下步骤:
S401,当初始电子病历问答模型对应的训练集的数据量大于预设的数据量阈值时,获取初始电子病历问答模型对应的候选参数列表ω={ω1,……,ωc,……,ωw},ωc为第c个候选参数,c=1……w,w为候选参数的数量,其中,ωc=2c,w=6。
具体的,所述候选参数为降低初始电子病历问答模型中训练集的训练时间而设置的矩阵对应的秩,其中,可以理解为:在LLM模型进行数据处理时会涉及到矩阵与矩阵之间相乘,当训练集的数据量如果过大,会造成训练效率的降低,因此为了减少训练集的训练时间需要设置一个秩稍微较小的矩阵帮助训练,而候选参数就是设置的这个矩阵的秩。
进一步的,预设的数据量阈值的取值范围为100GB~1TB,本领域技术人员知晓,可根据实际需求进行预设的数据量阈值的选取,均落入本发明的保护范围,在此不再赘述。
S402,根据ω,获取ω对应的第一中间优先级列表Tω={Tω1,……,Tωc,……,Tωw},Tωc为ωc对应的第一中间优先级。
具体的,所述第一中间优先级为初始电子病历问答模型运行过程中GPU的占有率,其中,本领域技术人员知晓,现有技术中任一获取GPU占有率的方法,均落入本发明的保护范围,在此不再赘述。
S403,当第一预设文本为第一类第一预设文本时,基于预设权重类型获取ω对应的第二中间优先级集Eω={Eω1,……,Eωc,……,Eωw},Eωc={Eωc1……,Eωcμ,……,Eωcτ},Eωcμ为ωc对应的第二中间优先级列表中的第μ个第二中间优先级,μ=1……τ,τ为预设权重类型的数量。
具体的,所述第一类第一预设文本为第一预设文本为单独的问题且与其它问题无关联性的问题文本。
具体的,所述第二中间优先级为基于候选参数和第一类第一预设文本在不同预设权重类型下获取到的初始电子病历问答模型对应的分数值,其中,本领域技术人员知晓,现有技术中任一基于不同条件获取模型对应的方法,均落入本发明的保护范围,在此不再赘述。
具体的,所述预设权重类型为计算权重的矩阵类型,其中,可以理解为:在Transformer架构中,自注意模块中有四个权重矩阵(Wq、Wk、Wv、Wo),其中将Wq(或Wk,Wv)视为单个方矩阵。
具体的,4≤τ≤30。
优选地,τ的取值为6,其中,当τ取6时,既能避免进行大量测试导致效率较低的问题,又能保证测试的全面性。
S404,当第一预设文本为第二类第一预设文本时,基于预设权重类型获取ω对应的第三中间优先级集Lω={Lω1,……,Lωc,……,Lωw},Lωc={Lωc1……,Lωcμ,……,Lωcτ},Lωcμ为ωc对应的第三中间优先级列表中的第μ个第三中间优先级。
具体的,所述第二类第一预设文本为第一预设文本中包括多个问题且每个问题之间有关联的问题文本。
具体的,所述第三中间优先级为基于候选参数和第二类第一预设文本在不同预设权重类型下获取到的初始电子病历问答模型对应的分数值。
进一步的,所述第三中间优先级的获取方式与所述第二中间优先级的获取方式一致。
S405,根据Tω、Eω和Lω,获取ω对应的最终优先级列表Fω={Fω1,……,Fωc,……,Fωw},其中,Fωc符合如下条件:
S406,根据Fω,获取ωc为初始电子病历问答模型的目标参数,其中,Fωc为Fω中最大的最终优先级。
上述,通过初始电子病历问答模型的候选参数获取到初始电子病历问答模型的性能,通过设置候选参数,能够节约模型训练的时间,不易造成资源的浪费,同时不会影响到模型本身的推理能力和相应能力,同时对参数进行调整,使得电子病历问答模型输出的结果更加准确。
S500,将第二预设文本集输入至初始电子病历问答模型中,获取初始电子病历问答模型对应的待选优先级。
具体的,所述第二预设文本集包括若干个第二预设文本,其中,所述第二预设文本为用于测试初始电子病历问答模型效果的有关异常状态的问题文本。
具体的,在S500中通过如下步骤获取待选优先级:
S501,将第二预设文本集输入至初始电子病历问答模型中,获取第二预设文本集对应的第一关键文本集EP={EP1,……,EPδ,……,EPζ},其中,EPδ为第δ个第二预设文本对应的第一关键文本,δ=1……ζ,ζ为第二预设文本对应的数量。
具体的,所述第一关键文本为基于初始电子病历问答模型获取到的第二预设文本对应的答案文本和解释文本。
S503,根据EP,获取EP对应的第一关键文本向量集EP0={EP0 1,……,EP0 δ,……,EP0 ζ},EP0 δ=(EP0 δ1,……,EP0 δγ,……,EP0 δη),EP0 δγ为EPδ对应的第一关键文本向量中第γ位的bit值,γ=1……η,η为第一关键文本向量的比特位。
具体的,所述第一关键文本向量为将第一关键文本输入至自然语言处理模型中获取到的向量,其中,本领域技术人员知晓,现有技术任一自然语言处理模型将文本转换成向量的方法,均落入本发明的保护范围,在此不再赘述。
S505,获取第二预设文本集对应的第二关键文本集FP={FP1,……,FPδ,……,FPζ},FPδ为第δ个第二预设文本对应的第二关键文本。
具体的,所述第二关键文本为第二预设文本对应的准确的答案文本和解释文本。
S507,根据FP,获取FP对应的第二关键文本向量集FP0={FP0 1,……,FP0 δ,……,FP0 ζ},FP0 δ=(FP0 δ1,……,FP0 δγ,……,FP0 δη),EP0 δγ为EPδ对应的第二关键文本向量中第γ位的bit值。
具体的,所述第二关键文本向量的获取方式与所述第一关键文本向量的获取方式一致。
S509,根据EP0和FP0,获取初始电子病历问答模型对应的待选优先级KL,其中KL符合如下条件:
在另一个具体的实施例中,在S500中通过如下步骤获取待选优先级:
S610,将第二预设文本集输入至初始电子病历问答模型中,获取第一初始文本集EW={EW1,……,EWλ,……,EWσ},其中,EWλ为第λ个第一初始文本,λ=1……σ,σ为第一初始文本的数量。
具体的,所述第一初始文本为从第一关键文本集中获取到的中英文比例在预设比例范围的第一关键文本。
进一步的,所述第一关键文本集包括若干个第一关键文本,其中,所述第一关键文本为基于初始电子病历问答模型获取到的第二预设文本对应的答案文本和解释文本。
进一步的,所述答案文本为基于问题文本进行回答的文本。
进一步的,所述解释文本为基于问题文本获取到对答案文本进行解释说明的文本。
进一步的,所述预设比例范围为tr1~tr2,其中,tr1=tr-tr0,tr2=tr+tr0,tr为获取到样本文本中的文本中英文比例的平均值,tr0为预设的比例阈值。
进一步的,tr0的取值范围为0.01~0.1,其中,本领域技术人员知晓,可根据实际需求进行tr0的选取,均落入本发明的保护范围,在此不再赘述。
进一步的,所述样本文本为将预设样本文本输入至初始电子病历问答模型中输出的文本,其中,所述预设样本文本的性质与第一预设文本的性质一致,预设样本文本的获取方式可参照第一预设文本的获取方式。
S620,根据EW,获取第一初始文本向量集EW0={EW0 1,……,EW0 λ,……,EW0 σ},EW0 λ=(EW0 λ1,……,EW0 λγ,……,EW0 λη),EW0 λγ为EWλ对应的第一初始文本向量中第γ位的bit值,γ=1……η,η为第一初始文本向量的比特位。
具体的,所述第一初始文本向量为将第一初始文本输入至自然语言处理模型中获取到的向量,其中,本领域技术人员知晓,现有技术任一自然语言处理模型将文本转换成向量的方法,均落入本发明的保护范围,在此不再赘述。
S630,根据第一初始文本集,获取第二初始文本集FW={FW1,……,FWλ,……,FWσ},其中,FWλ为第λ个第二初始文本。
具体的,所述第二初始文本为第一初始文本对应的第二预设文本准确的答案文本和解释文本。
S640,根据FW,获取FW对应的第二初始文本向量集FW0={FW0 1,……,FW0 λ,……,FW0 σ},FW0 λ=(FW0 λ1,……,FW0 λγ,……,FW0 λη),FW0 λγ为FWλ对应的第一初始文本向量中第γ位的bit值。
具体的,所述第二初始文本向量的获取方式与第一初始文本向量的获取方式一致。
S650,根据EW0和FW0,获取第一相似度列表ΔW={ΔW1,……,ΔWλ,……,ΔWσ},其中,ΔWλ符合如下条件:
S660,根据EW,获取EW对应的第一初始关键词集,其中,所述第一初始关键词集包括若干个第一初始关键词列表,所述第一初始关键词列表包括一个第一初始关键词,所述第一初始关键词为第一初始文本中的关键词。
具体的,所述第一关键词为从第一初始文本中获取到的与目标术语知识图谱中的目标词相似的词、
具体的,所述第一初始关键词的获取方式与所述候选关键词的获取方式一致,可参照S731步骤~S737步骤。
S670,根据FW,获取FW对应的第二初始关键词集,所述第二初始关键词集包括若干个第二初始关键词列表,所述第二初始关键词列表包括一个第二初始关键词,所述第二初始关键词为第二初始文本中的关键词。
具体的,所述第二初始关键词的获取方式与第一初始关键词的获取方式一致。
S680,获取第一初始关键词集和第二初始关键词集,获取第二相似度列表ΔV={ΔV1,……,ΔVλ,……,ΔVσ},其中,ΔVλ为同一第二预设文本对应的第一初始关键词与第二初始关键词之间的相似度。
具体的,所述ΔVλ的获取方式与ΔWλ的获取方式一致。
S690,根据ΔW和ΔV,获取初始电子病历问答模型对应的待选优先级KL。
具体的,在S690中通过如下步骤获取KL:
S691,当ΔWλ≤ZM0时,KL=0,其中,ZM0为预设的第一相似度阈值。
具体的,ZM0的取值范围为0.6~0.85,其中,本领域技术人员知晓,本领域技术人员可根据实际需求进行预设的第一相似度阈值的选取,均落入本发明的保护范围,在此不再赘述。
S693,当ΔWλ≥ZM0且ΔVλ≤ZM1时,KL符合如下条件:
其中,ZM1预设的第二相似度阈值。
具体的,ZM1的取值范围为0.5~0.9,其中,本领域技术人员知晓,本领域技术人员可根据实际需求进行预设的第二相似度阈值的选取,均落入本发明的保护范围,在此不再赘述。
S695,当ΔWλ≥ZM0且ΔVλ≥ZM1时,KL符合如下条件
上述,基于第一相似度和第二相似度的不同,设置不同的计算待选优先级的相关系数,基于不同维度设置不同的相关系数使得获取到的待选优先级更加准确,基于不同维度获取电子病历问答模型对应的候选优先级,同时基于不同的情况采用不同的方式获取到待选优先级,通过合理设置优先级,使得电子病历问答***输出的结果更加准确。
S600,基于待选优先级,对初始电子问答模型进行参数调整,直到待选优先级不小于预设的待选优先级阈值时以获取到目标电子病历问答模型。
具体的,所述预设的待选优先级阈值的取值范围为0.7~0.9,其中,本领域技术人员知晓,本领域技术人员可根据实际需求进行预设的待选优先级阈值的选取,均落入本发明的保护范围,在此不再赘述。
具体的,本领域技术人员知晓,现有技术中任一对训练模型进行参数调整的过程,均落入本发明的保护范围,在此不再赘述。
S700,获取预设关键文本,将预设关键文本输入至目标电子病历问题模型中获取目标文本,其中,所述预设关键文本为待查询的基于异常状态获取到的有关异常状态的问题文本,所述目标文本为预设关键文本对应的答案文本和解释文本。
上述,将LLM模型应用于电子病历问答上,能够对大规模数据进行处理,降低了电子病历问答模型的应用的局限性,通过prompt指令为其设置指示指令,有利于电子病历问答***的理解和回复,提高了电子病历问答***输出结果的准确度。
具体的,在S700步骤之后还包括如下步骤:
S701,根据样本数据库,获取关键实体集,其中,所述关键实体集包括若干个关键实体,所述关键实体为基于样本数据库获取到的与异常状态相关的实体。
具体的,所述样本数据库包括若干个与异常状态相关的信息,例如药物数据表、人体部位、ICD-10标准词库、症状体征和传染病等与异常状态相关的信息。
进一步的,在S701中通过如下步骤获取关键实体:
S7011,根据样本数据集,获取样本实体集,其中,所述样本实体集包括若干个样本实体,所述样本实体为从样本数据集中获取到的与异常状态相关的实体,可以理解为:样本数据集中包括了大量描述与异常状态相关的文本,从这些文本中提取出与医疗领域相关联的术语,这些术语就是获取到的样本实体。
具体的,所述样本实体集包括的样本实体的数量为百万级。
进一步的,本领域知晓,现有技术中任一从文本中提取实体的方法,均落入本发明的保护范围,在此不再赘述。
S7013,根据样本实体集,获取第一样本实体集,其中,所述第一样本实体集包括如干个第一样本实体,所述第一样本实体为基于LLM模型获取到的与样本实体相似的实体。
具体的,本领域技术人员知晓,现有技术中任一基于LLM模型获取相似实体的方法,均落入本发明的保护范围,在此不再赘述,例如chatglm等LLM模型。
S7015,根据第一样本实体集,获取第二样本实体集,其中,所述第二样本实体集包括若干个第二样本实体,所述第二样本实体为与第一样本实体无相似特征的实体。
具体的,本领域技术人员知晓,现有技术中任一基于实体特征获取与实体无相似特征实体的方法,均落入本发明的保护范围,在此不再赘述,例如通过FM模型、FFM模型等模型获取与实体无相似特征的实体。
S7017,基于样本实体集、第一样本实体集和第二样本实体集,获取关键实体集,其中,所述关键实体集包括样本实体集、第一样本实体集和第二样本实体集。
具体的,所述关键实体集中关键实体的数量为千万级,其中,本领域技术人员知晓,可根据实际需求进行第一样本实体与第二样本实体比例的选取,均落入本发明的保护范围,在此不再赘述。
S702,将关键实体集和目标实体集输入至第一中间模型中,获取关键实体向量集和目标实体向量集。
具体的,所述目标实体集包括若干个目标实体,其中,所述目标实体为与异常状态相关的标准术语。
具体的,所述第一中间模型为将文本转换成向量的模型,其中,本领域技术人员知晓,可根据实际需求进行任一将文本转换成向量的自然语言处理模型,均落入本发明的保护范围,在此不再赘述,例如bert模型等自然语言处理模型。
具体的,所述关键实体向量集包括若干个关键实体向量,其中,所述关键实体向量为关键实体对应的向量。
进一步的,所述目标实体向量集包括若干个目标实体向量,其中,所述目标实体向量为目标实体对应的向量。
S703,将关键实体向量集和目标实体向量集输入至第二中间模型中,获取关键实体集对应的最终实体集,其中,所述第二中间模型为预设的神经网络模型。
具体的,在S703中通过如下步骤获取最终实体集:
S7031,从关键实体向量集中获取任一关键实体向量XY=(XY1,……,XY(ab),……,XY(jk)),XY(ab)为关键实体向量中第ab位的bit值,ab=1……jk,jk为关键实体向量的比特位。
S7032,获取目标实体向量集ZH={ZH1,……,ZH(cd),……,ZH(ef)},ZH(cd)=(ZH1 (cd),……,ZH(ab) (cd),……,ZH(jk) (cd)),ZH(ab) (cd)为第cd目标实体向量对应的第ab位的bit值,cd=1……ef,ef为目标实体向量的数量。
S7033,根据XY和ZH,获取XY对应的第一中间优先级列表XH={XH1,……,XH(cd),……,XH(ef)},XH(cd)为XY与ZH(cd)之间的第一中间优先级,其中,XH(cd)符合如下条件:
上述,在获取实体对应的优先级时,不局限于一种方法获取,通过将多种方法进行结合的方法,获取到实体对应的最终的优先级,提高了获取到实体对应优先级的准确度,从而使得基于电子病历问答模型输出结果对应的标准化结果更加准确。
S7035,根据XH,获取XY对应的最终实体,其中,当XH(cd)为XH中最大的第一中间优先级时,获取ZH(cd)对应的目标实体为XY对应的最终实体。
S704,基于样本实体集和最终实体集,获取目标模型,其中,所述目标模型为基于样本实体集获取最终实体集过程训练出的模型。
S705,获取目标文本对应的第一候选实体集,其中,所述第一候选实体集包括若干个第一候选实体,所述第一候选实体为从目标文本中获取到的实体。
具体的,本领域技术人员知晓,现有技术中任一从文本中获取实体的方法,均落入本发明的保护范围,在此不再赘述。
S706,将第一候选实体输入至目标模型中,获取目标文本对应的第二候选实体集,其中,所述第二候选实体集包括若干个第二候选实体,所述第二候选实体为基于第一候选实体和目标模型获取到的第一候选实体对应的目标实体中的实体。
S707,将目标文本中的第一候选实体集替换成对应的第二候选实体集以实现对目标文本的标准化处理。
上述,通过对电子病历问答模型输出的结果进行标准化处理,方便后续进行数据的查询和统计。
本实施例提供了一种基于电子病历问答模型的数据预处理***,***包括样本电子病历信息集、处理器和存储有计算机程序的存储器,其中,所述样本电子病历信息集包括若干个样本电子病历信息,所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息,当所述计算机程序被处理器执行时,实现以下步骤:根据样本电子病例信息集,获取候选文本集,根据候选文本集和目标术语知识图谱,获取候选文本集对应的候选关键词集,根据候选文本集和候选关键词集,获取初始文本集,根据初始文本集,获取目标文本集,其中,基于初始文本对应的文本字符串数量,基于不同情况分别进行处理以获取目标文本,根据目标文本集,获取指定文本向量,本发明基于文本的类型对文本字符串的数量进行统一,保证了获取到的指定文本向量的全面性,同时,考虑文本中的关键词因素,基于关键词的优先级对文本字符进行截断,基于不同因素采用不同手段对文本进行处理,提高了获取到的指定文本向量集的准确度,从而使得数据预处理的准确度较高。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (10)
1.一种基于电子病历问答模型的数据预处理***,其特征在于,所述***包括:样本电子病历信息集、处理器和存储有计算机程序的存储器,其中,所述样本电子病历信息集包括若干个样本电子病历信息,所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息,当所述计算机程序被处理器执行时,实现以下步骤:
S1,根据样本电子病历信息集,获取候选文本集A={A1,……,Ai,……,An},Ai为第i个候选文本,i=1……n,n为候选文本的数量;
S3,根据A和目标术语知识图谱,获取A对应的候选关键词集Q={Q1,……,Qi,……,Qn},Qi为Ai对应的候选关键词列表;
S5,根据A和Q,获取初始文本集T={T1,……,Ti,……,Tn},Ti={Ai,Qi},Ti为第i个初始文本;
S7,根据T,获取指定文本集U={U1,……,Ui,……,Un},Ui为第i个指定文本,其中,在S7中通过如下步骤获取Ui:
S71,根据Ti,获取Ti对应的文本字符串WTi=(WT0 i1,……,WT0 ix,……,WT0 ip,WT1 i1,……,WT1 iy,……,WT1 iq),WT0 ix为Ai对应的第x个文字字符,x=1……p,p为Ai对应的文字字符的数量,WT1 iy为Qi对应的第y个文字字符,y=1……q,q为Qi对应的文字字符的数量;
S72,当p+q=K时,获取Ui=Ti,其中,K为预设的关键优先级阈值;
S73,当p+q>K时,获取Q对应的候选优先级集P={P1,……,Pi,……,Pn},Pi={Pi1,……,Pie,……,Pif(i)},Pie为Qi对应的候选关键词列表中第e个候选关键词对应的候选优先级,e=1……f(i),f(i)为Qi对应的候选关键词列表中候选关键词的数量;
S74,基于P,对WTi进行处理以获取Ui;
S75,当p+q<K时,获取Qi对应的指定关键词集Ri={Ri1,……,Rie,……,Rif(i)}和Qi对应的指定优先级集Gi={Gi1,……,Gie,……,Gif(i)},Rie为Qie对应的指定关键词列表,Gie为Qie对应的指定优先级列表;
S76,根据Ri和Gi,对WTi进行处理以获取Ui;
S9,根据U,获取指定文本向量集以实现数据预处理,其中,所述指定文本向量集包括若干个指定文本向量,其中,所述指定文本向量为将指定文本输入至预训练电子病历编码模型中获取到的。
2.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***,其特征在于,所述样本电子病历信息的数据格式包括文本格式和表格格式。
3.根据权利要求2所述的一种基于电子病历问答模型的数据预处理***,其特征在于,在S1中通过如下步骤获取候选文本:
S11,当样本电子病例信息的数据格式为文本格式时,将样本电子病例信息按照分割符号进行切分以生成候选文本;
S13,当样本电子病例信息的数据格式为表格格式时,将样本电子病例信息中每个记录以及记录对应的字段名称进行整合以生成候选文本。
4.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***,其特征在于,在S3中通过如下步骤获取Qi:
S31,根据A,获取A对应的第一中间词集B={B1,……,Bi,……,Bn},Bi={Bi1,……,Bij,……,Bim(i)},Bij为Ai对应的第一中间词列表中的第j个第一中间词,j=1……m(i),m(i)为Ai对应的第一中间词列表中第一中间词的数量;
S33,根据目标术语知识图谱,获取目标词列表D={D1,……,Dr,……,Ds},Dr为第r个目标词,r=1……s,s为目标词的数量;
S35,根据B和D,获取B对应的第一中间相似度集F={F1,……,Fi,……,Fn},Fi={Fi1,……,Fij,……,Fim(i)},Fij={F1 i1,……,Fr ij,……,Fs im(i)},Fr ij为Bij与Dr之间的第一中间相似度;
S37,当Fr ij≥F0时,将Bij***至Qi中,其中,F0为预设的第一中间相似度阈值。
5.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***,其特征在于,所述初始文本为将候选文本与候选关键词进行拼接且候选关键词拼接在候选文本之后的文本。
6.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***,其特征在于,在S72中通过如下步骤获取K:
S721,根据T,获取关键文本类型集C={C1,……,Cd,……,Cz},Cd={Cd1,……,Cdg,……,Cdh(d)},Cdg为第d类关键文本列表中的第g个关键文本,g=1……h(d),h(d)为第d类关键文本列表中关键文本的数量,d=1……z,z为关键文本类型的数量;
S723,根据C,获取C对应的第一文本字符串数量集C0={C0 1,……,C0 d,……,C0 z},C0 d={C0 d1,……,C0 dg,……,C0 dh(d)},C0 dg为Cdg对应的第一文本字符串数量;
S725,根据C0,获取C对应的第二文本字符串数量集C1={C1 1,……,C1 d,……,C1 z},C1 d={C1 d1,……,C1 du,……,C1 dh(d)},C1 du为第d类关键文本列表对应的第二文本字符串数量列表中的第u个第二文本,u=1……h(d),其中,C1 d1≥……≥C1 du≥……≥C1 dh(d);
S725,根据C0,获取K,其中,K符合如下条件:
其中,C1 dα为第d类关键文本列表中的第α个第二文本字符串数量对应的关键文本对应的文本字符串数量,ε为预设的第一数量阈值。
7.根据权利要求6所述的一种基于电子病历问答模型的数据预处理***,其特征在于,所述关键文本为基于初始文本对应的文本类型从T中获取到的初始文本。
8.根据权利要求6所述的一种基于电子病历问答模型的数据预处理***,其特征在于,所述第二文本字符串数量为根据第一文本字符串数量按照从大到小的顺序依次获取到的文本字符串数量。
9.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***,其特征在于,在S73中通过如下步骤获取Pie:
S731,获取候选关键词列表Qi={Qi1,……,Qie,……,Qif(i)},Qie为Qi中的第e个候选关键词;
S733,根据目标术语知识图谱,获取Qie对应的指定关键词列表Rie={R1 ie,……,Ra ie,……,Rb(e) ie}和Qie对应的指定优先级列表Gie={G1 ie,……,Ga ie,……,Gb(e) ie},Ra ie为Qie对应的第a个指定关键词,a=1……b(e),b(e)为Qie对应的指定关键词的数量,Ga ie为Qie与Ra ie之间的指定优先级;
S735,根据Qie、Rie和Gie,获取Pie,其中,Pie符合如下条件:
其中,Mie为Qie在候选文本集A中出现的频数,Nie为候选文本集A中包括Qie的候选文本对应的第一中间词的数量,Vie为候选文本集A中包括Qie的候选文本的数量,Ea ie为Ga ie在候选文本集A中出现的频数,La ie为候选文本集A中包括Ga ie的候选文本对应的第一中间词的数量,Ja ie为候选文本集A中包括Ga ie的候选文本的数量。
10.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***,其特征在于,在S74中还包括如下步骤:
S741,根据Pi,获取Ti对应的第一中间文本β1 i=(Ai,Qi1,……,Qi(e-1),Qi(e+1)……,Qif(i)),其中,Pie为Pi中最小的候选优先级;
S743,当β1 i对应的文本字符串数量不大于K时,获取Ui=βi;
S745,当β1 i对应的文本字符串数量大于K时,获取Pi中Pie除Pie之外的最小候选优先级,将其在初始文本Qi中删除以获取Ti对应的第二中间文本β2 i;
S747,重复执行S743~S745,直到获取到的Ui对应的文本字符串数量不大于K从而以获取到Ui。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516587.7A CN117454843A (zh) | 2023-11-14 | 2023-11-14 | 一种基于电子病历问答模型的数据预处理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516587.7A CN117454843A (zh) | 2023-11-14 | 2023-11-14 | 一种基于电子病历问答模型的数据预处理*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117454843A true CN117454843A (zh) | 2024-01-26 |
Family
ID=89587310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311516587.7A Pending CN117454843A (zh) | 2023-11-14 | 2023-11-14 | 一种基于电子病历问答模型的数据预处理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117454843A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894482A (zh) * | 2024-03-14 | 2024-04-16 | 北方健康医疗大数据科技有限公司 | 一种医学肿瘤的编码方法、***、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326211A (zh) * | 2016-08-17 | 2017-01-11 | 海信集团有限公司 | 交互语句的关键词间距离的确定方法和装置 |
CN109948073A (zh) * | 2017-09-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
US20200342967A1 (en) * | 2019-04-26 | 2020-10-29 | International Business Machines Corporation | Dynamic medical summary |
US20210216722A1 (en) * | 2020-01-15 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing sematic description of text entity, and storage medium |
CN115455169A (zh) * | 2022-10-31 | 2022-12-09 | 杭州远传新业科技股份有限公司 | 一种基于词汇知识和语义依存的知识图谱问答方法和*** |
CN115545009A (zh) * | 2022-12-01 | 2022-12-30 | 中科雨辰科技有限公司 | 一种获取目标文本的数据处理*** |
-
2023
- 2023-11-14 CN CN202311516587.7A patent/CN117454843A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326211A (zh) * | 2016-08-17 | 2017-01-11 | 海信集团有限公司 | 交互语句的关键词间距离的确定方法和装置 |
CN109948073A (zh) * | 2017-09-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
US20200342967A1 (en) * | 2019-04-26 | 2020-10-29 | International Business Machines Corporation | Dynamic medical summary |
US20210216722A1 (en) * | 2020-01-15 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing sematic description of text entity, and storage medium |
CN115455169A (zh) * | 2022-10-31 | 2022-12-09 | 杭州远传新业科技股份有限公司 | 一种基于词汇知识和语义依存的知识图谱问答方法和*** |
CN115545009A (zh) * | 2022-12-01 | 2022-12-30 | 中科雨辰科技有限公司 | 一种获取目标文本的数据处理*** |
Non-Patent Citations (3)
Title |
---|
XIAOCHEN WANG等: "An Intelligent Question Answering Method Combining Knowledge Graph and Corpus", 《IEEE》, 2 November 2021 (2021-11-02) * |
吴丹: "基于知识图谱的健康体检知识问答应用研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, 15 February 2023 (2023-02-15) * |
赵沛;曹郡;贾瑞龙;: "基于hadoop技术的医疗云数据安全管理***设计与应用", 生命科学仪器, no. 03, 25 June 2020 (2020-06-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894482A (zh) * | 2024-03-14 | 2024-04-16 | 北方健康医疗大数据科技有限公司 | 一种医学肿瘤的编码方法、***、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | The gap of semantic parsing: A survey on automatic math word problem solvers | |
Van Halteren et al. | Improving data driven wordclass tagging by system combination | |
JP2943447B2 (ja) | テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 | |
CN112016295B (zh) | 症状数据处理方法、装置、计算机设备及存储介质 | |
CN117556034A (zh) | 一种对电子病历问答模型输出结果标准化的数据处理*** | |
CN112380344B (zh) | 文本分类的方法、话题生成的方法、装置、设备及介质 | |
CN114925692A (zh) | 一种获取目标事件的数据处理*** | |
CN117454843A (zh) | 一种基于电子病历问答模型的数据预处理*** | |
US20220358361A1 (en) | Generation apparatus, learning apparatus, generation method and program | |
CN111782826A (zh) | 知识图谱的信息处理方法、装置、设备及存储介质 | |
CN113806493B (zh) | 一种用于互联网文本数据的实体关系联合抽取方法、装置 | |
CN117711600A (zh) | 一种基于llm模型的电子病历问答*** | |
CN117454990A (zh) | 一种基于反馈结果对电子病历问答模型更新的*** | |
CN113821527A (zh) | 哈希码的生成方法、装置、计算机设备及存储介质 | |
CN115995281A (zh) | 一种基于数据治理的专病数据库的数据检索方法及装置 | |
Ramnarain-Seetohul et al. | Similarity measures in automated essay scoring systems: A ten-year review | |
CN114373554A (zh) | 利用药物知识和句法依存关系的药物相互作用关系抽取方法 | |
Chaudhary et al. | Explainable and discourse topic-aware neural language understanding | |
Chang et al. | Deep learning for sentence clustering in essay grading support | |
CN117454989A (zh) | 一种基于调参更新电子病历问答模型的*** | |
CN114627993A (zh) | 信息预测方法、装置、存储介质及计算机设备 | |
CN117520126A (zh) | 一种电子病历问答模型的评分*** | |
CN111415750B (zh) | 一种基于规则的用户信息结构化和快速检索的方法及*** | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
CN113408296A (zh) | 一种文本信息提取方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |