CN117454843A

CN117454843A - 一种基于电子病历问答模型的数据预处理***

Info

Publication number: CN117454843A
Application number: CN202311516587.7A
Authority: CN
Inventors: 刘立宇; 初乃强; 赵瑞莹
Original assignee: Singularity Digital Beijing Technology Co ltd; Singularity Of Life Beijing Technology Co ltd
Current assignee: Singularity Digital Beijing Technology Co ltd; Singularity Of Life Beijing Technology Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-01-26

Abstract

本发明提供了一种基于电子病历问答模型的数据预处理***，***包括样本电子病历信息集、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：根据样本电子病例信息集，获取候选文本集，根据候选文本集和目标术语知识图谱，获取候选关键词集，根据候选文本集和候选关键词集，获取初始文本集，根据初始文本集，获取目标文本集，根据目标文本集，获取指定文本向量以实现数据预处理，本发明基于文本的类型对文本字符串的数量进行统一，保证了获取到的指定文本向量的全面性，同时，考虑文本中的关键词因素，基于不同因素采用不同手段对文本进行处理，提高了获取到的指定文本向量集的准确度。

Description

一种基于电子病历问答模型的数据预处理***

技术领域

本发明涉及文本处理技术领域，特别是涉及一种基于电子病历问答模型的数据预处理***。

背景技术

随着医疗业务量的不断增长以及人工智能技术的不断发展，病历电子化已成为趋势，如何对电子病历对应的文本数据进行处理生成用于医疗领域模型训练的数据成为当下的热门研究方向，在建立医疗领域相关模型时，对数据预处理的过程至关重要，对文本数据进行合理处理能够有效提高模型训练的性能。

目前，现有技术中，进行数据预处理的方法为：基于数据库中文本对应的文本字符串数量的平均值获取到目标文本字符串数量，当文本对应字符串过长时从文本的最后开始进行阶段，当文本对应字符串低于目标文本字符串数量时随机选取文本进行补充，从而获取指定文本向量集以实现数据预处理。

综上所述进行数据预处理存在的问题：对文本字符串的数量进行统一时未考虑文本的类型，不能保证获取到的指定文本向量的全面性，同时，未考虑文本中关键词因素，在进行文本字符截断时未考虑关键词的优先级，在进行文本字符补充时未考虑关键词对应的关联文本，未基于不同因素采用不同手段对文本进行处理，降低了获取到的指定文本向量集的准确度。

发明内容

本发明提供了一种基于电子病历问答模型的数据预处理***，***包括：样本电子病历信息集、处理器和存储有计算机程序的存储器，其中，样本电子病历信息集包括若干个样本电子病历信息，样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息，当计算机程序被处理器执行时，实现以下步骤：

S1，根据样本电子病历信息集，获取候选文本集A＝{A₁，……，A_i，……，A_n}，A_i为第i个候选文本，i＝1……n，n为候选文本的数量。

S3，根据A和目标术语知识图谱，获取A对应的候选关键词集Q＝{Q₁，……，Q_i，……，Q_n}，Q_i为A_i对应的候选关键词列表。

S5，根据A和Q，获取初始文本集T＝{T₁，……，T_i，……，T_n}，T_i＝{A_i，Q_i}，T_i为第i个初始文本。

S7，根据T，获取指定文本集U＝{U₁，……，U_i，……，U_n}，U_i为第i个指定文本，其中，在S7中通过如下步骤获取U_i：

S71，根据T_i，获取T_i对应的文本字符串WT_i＝(WT⁰ _i1，……，WT⁰ _ix，……，WT⁰ _ip，WT¹ _i1，……，WT¹ _iy，……，WT¹ _iq)，WT⁰ _ix为A_i对应的第x个文字字符，x＝1……p，p为A_i对应的文字字符的数量，WT¹ _iy为Q_i对应的第y个文字字符，y＝1……q，q为Q_i对应的文字字符的数量。

S72，当p+q＝K时，获取U_i＝T_i，其中，K为预设的关键优先级阈值。

S73，当p+q＞K时，获取Q对应的候选优先级集P＝{P₁，……，P_i，……，P_n}，P_i＝{P_i1，……，P_ie，……，P_if(i)}，P_ie为Q_i对应的候选关键词列表中第e个候选关键词对应的候选优先级，e＝1……f(i)，f(i)为Q_i对应的候选关键词列表中候选关键词的数量。

S74，基于P，对WT_i进行处理以获取U_i。

S75，当p+q＜K时，获取Q_i对应的指定关键词集R_i＝{R_i1，……，R_ie，……，R_if(i)}和Q_i对应的指定优先级集G_i＝{G_i1，……，G_ie，……，G_if(i)}，R_ie为Q_ie对应的指定关键词列表，G_ie为Q_ie对应的指定优先级列表。

S76，根据R_i和G_i，对WT_i进行处理以获取U_i。

S9，根据U，获取指定文本向量集以实现数据预处理，其中，所述指定文本向量集包括若干个指定文本向量，其中，所述指定文本向量为将指定文本输入至预训练电子病历编码模型中获取到的。

本发明提供了一种基于电子病历问答模型的数据预处理***，***包括样本电子病历信息集、处理器和存储有计算机程序的存储器，其中，所述样本电子病历信息集包括若干个样本电子病历信息，所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息，当所述计算机程序被处理器执行时，实现以下步骤：根据样本电子病例信息集，获取候选文本集，根据候选文本集和目标术语知识图谱，获取候选文本集对应的候选关键词集，根据候选文本集和候选关键词集，获取初始文本集，根据初始文本集，获取目标文本集，其中，基于初始文本对应的文本字符串数量，基于不同情况分别进行处理以获取目标文本，根据目标文本集，获取指定文本向量，本发明基于文本的类型对文本字符串的数量进行统一，保证了获取到的指定文本向量的全面性，同时，考虑文本中的关键词因素，基于关键词的优先级对文本字符进行截断，基于不同因素采用不同手段对文本进行处理，提高了获取到的指定文本向量集的准确度，从而使得数据预处理的准确度较高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种一种基于电子病历问答模型的数据预处理***的执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包括了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例

一种基于LLM模型的电子病历问答***，所述***包括：样本电子病历信息集、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

具体的，所述样本电子病历信息集包括若干个样本电子病历信息，其中，所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息，其中，所述异常状态特征信息为与疾病相关联的特征信息，例如异常糖链糖蛋白tap处于检测异常、鼻咽呈现低分化鳞癌等异常状态特征信息。

进一步的，本领域技术人员知晓，可根据实际需求进行任一可获取病例的医学公用数据库的选取，均落入本发明的保护范围，再次不再赘述。

进一步的，所述样本电子病历信息的数据格式包括文本格式和表格格式。

具体的，所述***中还包括目标术语知识图谱，其中，所述目标术语知识图谱呈现三元组形态，其中，目标术语知识图谱中每个三元组形态包括两个与异常状态相关的实体以及两个与异常状态相关的实体之间的关系。

进一步的，本领域技术人员知晓，现有技术中任一基于目标术语构建知识图谱的方法，均落入本发明的保护范围，在此不再赘述。

具体的，在S1中通过如下步骤获取候选文本：

S11，当样本电子病例信息的数据格式为文本格式时，将样本电子病例信息按照分割符号进行切分以生成候选文本。

S13，当样本电子病例信息的数据格式为表格格式时，将样本电子病例信息中每个记录以及记录对应的字段名称进行整合以生成候选文本，可以理解为：当样本电子病例信息中每个字段对应的字段名称从左到右依次为ID、活检部位、组织学分类时，样本电子病例信息中某一行的内容从左到右依次为008号、鼻咽、鳞状细胞癌时，获取到一个候选文本为：ID为008号的活检部位为鼻咽，组织学分类为鳞状细胞癌。

具体的，在S3中通过如下步骤获取Q_i：

S31，根据A，获取A对应的第一中间词集B＝{B₁，……，B_i，……，B_n}，B_i＝{B_i1，……，B_ij，……，B_im(i)}，B_ij为A_i对应的第一中间词列表中的第j个第一中间词，j＝1……m(i)，m(i)为A_i对应的第一中间词列表中第一中间词的数量。

具体的，所述第一中间词为从候选文本中获取到的词，其中，本领域技术人员知晓，现有技术中任一从文本中提取词的方法，均落入本发明的保护范围，在此不在赘述。

S33，根据目标术语知识图谱，获取目标词列表D＝{D₁，……，D_r，……，D_s}，D_r为第r个目标词，r＝1……s，s为目标词的数量。

具体的，所述目标词为从目标术语知识图谱中获取到的与异常状态相关的实体。

S35，根据B和D，获取B对应的第一中间相似度集F＝{F₁，……，F_i，……，F_n}，F_i＝{F_i1，……，F_ij，……，F_im(i)}，F_ij＝{F¹ _i1，……，F^r _ij，……，F^s _im(i)}，F^r _ij为B_ij与D_r之间的第一中间相似度。

具体的，所述第一中间相似度为第一中间词对应的词向量与目标词对应的词向量之间的相似度，其中，本领域技术人员知晓，现有技术中任一计算向量之间相似度的方法，均落入本发明的保护范围，在此不再赘述。

进一步的，所述第一中间词对应的词向量的方法为将第一中间词向量输入至自然语言处理模型中获取到的词对应的向量，其中，本领域技术人员知晓，现有技术中任一将文本转换成向量的自然语言处理模型，均落入本发明的保护范围，在此不再赘述。

S37，当F^r _ij≥F⁰时，将B_ij***至Q_i中，其中，F⁰为预设的第一中间相似度阈值。

具体的，F⁰的取值范围为0.8～0.9，其中，本领域技术人员知晓，可根据实际需求进行F⁰的选取，均落入本发明的保护范围，在此不再赘述。

具体的，所述初始文本为将候选文本与候选关键词进行拼接且候选关键词拼接在候选文本之后的文本。

具体的，在S72中通过如下步骤获取K：

S721，根据T，获取关键文本类型集C＝{C₁，……，C_d，……，C_z}，C_d＝{C_d1，……，C_dg，……，C_dh(d)}，C_dg为第d类关键文本列表中的第g个关键文本，g＝1……h(d)，h(d)为第d类关键文本列表中关键文本的数量，d＝1……z，z为关键文本类型的数量。

具体的，所述关键文本为基于初始文本对应的文本类型从T中获取到的初始文本，其中，本领域技术人员知晓，现有技术中任一对文本进行分类的方法，均落入本发明的保护范围，在此不再赘述，例如通过文本的关键词对文本进行分类的方法，其中，文本类型例如分为心脏类型和眼鼻喉类型等初始文本对应的文本类型。

S723，根据C，获取C对应的第一文本字符串数量集C⁰＝{C⁰ ₁，……，C⁰ _d，……，C⁰ _z}，C⁰ _d＝{C⁰ _d1，……，C⁰ _dg，……，C⁰ _dh(d)}，C⁰ _dg为C_dg对应的第一文本字符串数量。

具体的，所述第一文本字符串数量为关键文本对应的文本字符串数量。

S725，根据C⁰，获取C对应的第二文本字符串数量集C¹＝{C¹ ₁，……，C¹ _d，……，C¹ _z}，C¹ _d＝{C¹ _d1，……，C¹ _du，……，C¹ _dh(d)}，C¹ _du为第d类关键文本列表对应的第二文本字符串数量列表中的第u个第二文本，u＝1……h(d)，其中，C¹ _d1≥……≥C¹ _du≥……≥C¹ _dh(d)。

具体的，所述第二文本字符串数量为根据第一文本字符串数量按照从大到小的顺序依次获取到的文本字符串数量。

进一步的，所述文本字符串数量为文本对应的文字字符串数量。

S725，根据C⁰，获取K，其中，K符合如下条件：

其中，C¹ _dα为第d类关键文本列表中的第α个第二文本字符串数量对应的关键文本对应的文本字符串数量，ε为预设的第一数量阈值。

具体的，为不大于(h(d)×ε)的整数。

具体的，ε的取值范围为0.85～1，其中，本领域技术人员知晓，可根据实际需求进行ε的选取，均落入本发明的保护范围，在此不再赘述。

上述，基于关键文本的类型以及每个类型关键文本对应文本字符串的数量获取到预设的关键优先级阈值，使得初始文本对应的文本字符串的数量统一，结合文本的类型统一文本字符串的数量保证了后续获取到的指定文本向量对应的文本的全面性，基于每个类型关键文本对应文本字符串的数量设置阈值提高了获取到的文本字符串数量统一值的准确度，通过合理设置阈值，既能够避免文本字符串长度过短易造成文本数据的缺失的问题，也能避免文本字符串长度过长造成文本数据处理效率降低的问题，进而提高了后续获取到的指定文本向量集的准确度。

具体的，在S73中通过如下步骤获取P_ie：

S731，获取候选关键词列表Q_i＝{Q_i1，……，Q_ie，……，Q_if(i)}，Q_ie为Q_i中的第e个候选关键词。

S733，根据目标术语知识图谱，获取Q_ie对应的指定关键词列表R_ie＝{R¹ _ie，……，R^a _ie，……，R^b(e) _ie}和Q_ie对应的指定优先级列表G_ie＝{G¹ _ie，……，G^a _ie，……，G^b(e) _ie}，R^a _ie为Q_ie对应的第a个指定关键词，a＝1……b(e)，b(e)为Q_ie对应的指定关键词的数量，G^a _ie为Q_ie与R^a _ie之间的指定优先级。

具体的，所述指定关键词为从目标术语知识图谱中获取到的与候选关键词相关联的目标词。

具体的，所述指定优先级为候选关键词与指定关键词之间的关联程度，其中，本领域技术人员知晓，现有技术中任一获取两个文本之间关联程度的方法，均落入本发明的保护范围，在此不在赘述。

S735，根据Q_ie、R_ie和G_ie，获取P_ie，其中，P_ie符合如下条件：

其中，M_ie为Q_ie在候选文本集A中出现的频数，N_ie为候选文本集A中包括Q_ie的候选文本对应的第一中间词的数量，V_ie为候选文本集A中包括Q_ie的候选文本的数量，E^a _ie为G^a _ie在候选文本集A中出现的频数，L^a _ie为候选文本集A中包括G^a _ie的候选文本对应的第一中间词的数量，J^a _ie为候选文本集A中包括G^a _ie的候选文本的数量。

S74，基于P，对WT_i进行处理以获取U_i。

具体的，在S74中还包括如下步骤：

S741，根据P_i，获取T_i对应的第一中间文本β¹ _i＝(A_i，Q_i1，……，Q_i(e-1)，Q_i(e+1)……，Q_if(i))，其中，P_ie为P_i中最小的候选优先级。

S743，当β¹ _i对应的文本字符串数量不大于K时，获取U_i＝β_i。

S745，当β¹ _i对应的文本字符串数量大于K时，获取P_i中P_ie除P_ie之外的最小候选优先级，将其在初始文本Q_i中删除以获取T_i对应的第二中间文本β² _i。

S747，重复执行S743～S745，直到获取到的U_i对应的文本字符串数量不大于K从而以获取到U_i。

S76，根据R_i和G_i，对WT_i进行处理以获取U_i。

具体的，在S76中还包括如下步骤：

S761，当G^a _ie为G_ie中最大的指定优先级时，获取T_i对应的第一候选文本集，其中，所述第一候选文本集包括若干个第一候选文本，所述第一候选文本为从A中获取包括G^a _ie对应的指定关键词R^a _ie的候选文本。

S763，基于T_i对应的第一候选文本集，获取T_i对应的第二候选文本H_i，其中，H⁰ _i＝K-p-q，H⁰ _i为H_i对应的文本字符串数量。

S765，根据H_i，获取U_i＝(A_i，Q_i，H_i)。

上述，基于初始文本对应的文本字符串的数量对初始文本进行处理，当初始文本对应的文本字符串超过预先设置的长度阈值时，基于初始文本对应的候选关键词对应的优先级进行截断处理，当初始文本对应的文本字符串不足预先设置的长度阈值时，基于与初始文本对应的候选关键词相关联的文本进行补充处理，基于初始文本对应的文本字符串数量的不同采用不同的处理方式将初始文本对应的文本字符串的数量进行统一，提高了获取到的指定文本向量集的准确度。

S9，根据U，获取指定文本向量集，其中，所述指定文本向量集包括若干个指定文本向量，其中，所述指定文本向量为将指定文本输入至预训练电子病历编码模型中获取到的。

具体的，所述预训练电子病历编码模型为基于预训练模型对病历文本训练集进行训练获取到的将文本转换成向量的模型。

进一步的，本领域技术人员知晓，可根据实际需求进行预训练模型的选取，均落入本发明的保护范围，在此不再赘述，例如ERNIE预训练模型。

进一步的，所述病历文本训练集为基于不同的搜索引擎获取到的用于模型训练的病历文本集，所述病历文本集包括若干个不同类型和形式的病历文本。

进一步的，本领域技术人员知晓，现有技术中任一从多个搜索引擎获取文本的方法，均落入本发明的保护范围，在此不再赘述，其中，例如百度等搜索引擎。

上述，基于文本的类型对文本字符串的数量进行统一，保证了获取到的指定文本向量的全面性，同时，考虑文本中的关键词因素，基于关键词的优先级对文本字符进行截断，基于不同因素采用不同手段对文本进行处理，提高了获取到的指定文本向量集的准确度。

具体的，在S9之后还包括如下步骤：

S100，基于第一预设文本集和指定文本向量集，获取第一预设文本集对应的第一目标文本集。

具体的，所述第一预设文本集包括若干个第一预设文本，其中，所述第一预设文本为基于异常状态获取到的有关异常状态的问题文本。

进一步的，所述问题文本为以提问形式呈现要求进行回答和解释的文本，例如：促***低于3的表现等问题文本。

进一步的，所述第一预设文本为通过医学公用数据库获取到的问题文本，其中，本领域技术人员知晓，现有技术中任一基于医学公用数据库获取与医学有关的问题的文本，均落入本发明的保护范围，在此不再赘述。

具体的，在S100中还包括如下步骤：

S101，获取第一预设文本向量集I＝{I₁，……，I_t，……，I_θ}，I_t为第t个第一预设文本对应的第一预设文本向量，t＝1……θ，θ为第一预设文本的数量。

具体的，所述第一预设文本向量为将第一预设文本输入至预训练电子病历编码模型获取到的。

S103，获取指定文本向量集为第i个指定文本向量。

S105，根据I和获取I对应的第一目标相似度集ER＝{ER₁，……，ER_t，……，ER_θ}，ER_t＝{ER_t1，……，ER_ti，……，ER_tn}，ER_ti为I_t与/>之间的第一目标相似度。

具体的，本领域技术人员知晓，现有技术中任一获取向量之间相似度的方法，均落入本发明的保护范围，在此不再赘述，例如余弦相似度等计算向量之间相似度的方法。

S107，当ER_ti≥ER⁰时，获取对应的目标文本U_i为I_t对应的第一目标文本，其中，ER⁰为预设的第二优先级阈值。

具体的，ER⁰的取值范围为0.8～0.85，本领域技术人员知晓，可根据实际需求进行ER⁰的选取，均落入本发明的保护范围，在此不再赘述。

S200，基于第一预设文本集和第一目标文本集，获取第一预设文本集对应的第二目标文本集。

具体的，所述第二目标文本集包括若干个第二目标文本，其中，所述第二目标文本为基于第一预设文本和第一目标文本集通过prompt指令生成的与第一预设文本相关联的解释内容文本，例如，当第一预设文本涉及到心脏时，结合与之相关的第一目标文本和一些异常状态领域的相关知识将心脏进行简单的解释，将第一预设文本以及基于第一预设文本获取到的解释内容当作第二目标文本。

进一步的，本领域技术人员知晓，现有技术中任一prompt指令进行训练从而输出结果的方法，均落入本发明的保护范围，在此不再赘述。

上述，基于第一预设文本集和第一目标文本通过prompt指令生成第一预设文本集对应的第二目标文本集，对于每个问题文本，获取到与之对应的病历文本，通过prompt指令为其设置指示指令，有利于电子病历问答***的理解和回复，提高了电子病历问答***输出结果的准确度。

S300，将第一预设文本集和第二目标文本集输入至预设的第一初始LLM模型中，获取第一预设文本集对应的第三目标文本集。

具体的，所述第三目标文本集包括若干个第三目标文本，其中，所述第三目标文本为基于第一预设文本获取到的第一预设文本对应的答案文本和解释文本。

进一步的，所述答案文本为基于问题文本进行回答的文本。

进一步的，所述解释文本为基于问题文本获取到对答案文本进行解释说明的文本。

进一步的，在S300中通过如下步骤获取第三目标文本：

S301，根据第一预设文本和第一预设文本对应的第二目标文本，获取第一预设文本对应的ψ个第四目标文本，其中，所述第四目标文本为基于第二目标文本在多个LLM模型获取到的第一预设文本对应的答案文本和解释文本。

具体的，本领域技术人员知晓，现有技术中任一通过LLM模型输出结果的方法，均落入本发明的保护范围，在此不再赘述，其中，例如Baichuan-13B模型、LLaMA模型等LLM模型。

具体的，ψ的取值范围为30～50，其中，本领域技术人员知晓，可根据实际需求进行ψ的选取，均落入本发明的保护范围，在此不再赘述。

S303，根据第四目标文本，获取第四目标文本对应的优选优先级，其中，所述优选优先级为基于投票法获取到的分数值，其中，本领域技术人员知晓，现有技术中任一基于投票法获取分数的方法，均落入本发明的保护范围，在此不再赘述。

具体的，所述优选优先级的取值范围为0～1。

S305，根据优选优先级，获取第一预设文本对应的第三目标文本，其中，所述第三目标文本为最大优选优先级对应的第四目标文本。

S400，将第一目标文本集、第二目标文本集和第三目标文本集作为训练集输入至预设的第二初始LLM模型中，生成初始电子病历问答模型。

在另一个具体的实施例中，在S400之后还包括如下步骤:

S401，当初始电子病历问答模型对应的训练集的数据量大于预设的数据量阈值时，获取初始电子病历问答模型对应的候选参数列表ω＝{ω₁，……，ω_c，……，ω_w}，ω_c为第c个候选参数，c＝1……w，w为候选参数的数量，其中，ω_c＝2^c，w＝6。

具体的，所述候选参数为降低初始电子病历问答模型中训练集的训练时间而设置的矩阵对应的秩，其中，可以理解为：在LLM模型进行数据处理时会涉及到矩阵与矩阵之间相乘，当训练集的数据量如果过大，会造成训练效率的降低，因此为了减少训练集的训练时间需要设置一个秩稍微较小的矩阵帮助训练，而候选参数就是设置的这个矩阵的秩。

进一步的，预设的数据量阈值的取值范围为100GB～1TB，本领域技术人员知晓，可根据实际需求进行预设的数据量阈值的选取，均落入本发明的保护范围，在此不再赘述。

S402，根据ω，获取ω对应的第一中间优先级列表Tω＝{Tω₁，……，Tω_c，……，Tω_w}，Tω_c为ω_c对应的第一中间优先级。

具体的，所述第一中间优先级为初始电子病历问答模型运行过程中GPU的占有率，其中，本领域技术人员知晓，现有技术中任一获取GPU占有率的方法，均落入本发明的保护范围，在此不再赘述。

S403，当第一预设文本为第一类第一预设文本时，基于预设权重类型获取ω对应的第二中间优先级集Eω＝{Eω₁，……，Eω_c，……，Eω_w}，Eω_c＝{Eω_c1……，Eω_cμ，……，Eω_cτ}，Eω_cμ为ω_c对应的第二中间优先级列表中的第μ个第二中间优先级，μ＝1……τ，τ为预设权重类型的数量。

具体的，所述第一类第一预设文本为第一预设文本为单独的问题且与其它问题无关联性的问题文本。

具体的，所述第二中间优先级为基于候选参数和第一类第一预设文本在不同预设权重类型下获取到的初始电子病历问答模型对应的分数值，其中，本领域技术人员知晓，现有技术中任一基于不同条件获取模型对应的方法，均落入本发明的保护范围，在此不再赘述。

具体的，所述预设权重类型为计算权重的矩阵类型，其中，可以理解为：在Transformer架构中，自注意模块中有四个权重矩阵(Wq、Wk、Wv、Wo)，其中将Wq(或Wk，Wv)视为单个方矩阵。

具体的，4≤τ≤30。

优选地，τ的取值为6，其中，当τ取6时，既能避免进行大量测试导致效率较低的问题，又能保证测试的全面性。

S404，当第一预设文本为第二类第一预设文本时，基于预设权重类型获取ω对应的第三中间优先级集Lω＝{Lω₁，……，Lω_c，……，Lω_w}，Lω_c＝{Lω_c1……，Lω_cμ，……，Lω_cτ}，Lω_cμ为ω_c对应的第三中间优先级列表中的第μ个第三中间优先级。

具体的，所述第二类第一预设文本为第一预设文本中包括多个问题且每个问题之间有关联的问题文本。

具体的，所述第三中间优先级为基于候选参数和第二类第一预设文本在不同预设权重类型下获取到的初始电子病历问答模型对应的分数值。

进一步的，所述第三中间优先级的获取方式与所述第二中间优先级的获取方式一致。

S405，根据Tω、Eω和Lω，获取ω对应的最终优先级列表Fω＝{Fω₁，……，Fω_c，……，Fω_w}，其中，Fω_c符合如下条件：

S406，根据Fω，获取ω_c为初始电子病历问答模型的目标参数，其中，Fω_c为Fω中最大的最终优先级。

上述，通过初始电子病历问答模型的候选参数获取到初始电子病历问答模型的性能，通过设置候选参数，能够节约模型训练的时间，不易造成资源的浪费，同时不会影响到模型本身的推理能力和相应能力，同时对参数进行调整，使得电子病历问答模型输出的结果更加准确。

S500，将第二预设文本集输入至初始电子病历问答模型中，获取初始电子病历问答模型对应的待选优先级。

具体的，所述第二预设文本集包括若干个第二预设文本，其中，所述第二预设文本为用于测试初始电子病历问答模型效果的有关异常状态的问题文本。

具体的，在S500中通过如下步骤获取待选优先级：

S501，将第二预设文本集输入至初始电子病历问答模型中，获取第二预设文本集对应的第一关键文本集EP＝{EP₁，……，EP_δ，……，EP_ζ}，其中，EP_δ为第δ个第二预设文本对应的第一关键文本，δ＝1……ζ，ζ为第二预设文本对应的数量。

具体的，所述第一关键文本为基于初始电子病历问答模型获取到的第二预设文本对应的答案文本和解释文本。

S503，根据EP，获取EP对应的第一关键文本向量集EP⁰＝{EP⁰ ₁，……，EP⁰ _δ，……，EP⁰ _ζ}，EP⁰ _δ＝(EP⁰ _δ1，……，EP⁰ _δγ，……，EP⁰ _δη)，EP⁰ _δγ为EP_δ对应的第一关键文本向量中第γ位的bit值，γ＝1……η，η为第一关键文本向量的比特位。

具体的，所述第一关键文本向量为将第一关键文本输入至自然语言处理模型中获取到的向量，其中，本领域技术人员知晓，现有技术任一自然语言处理模型将文本转换成向量的方法，均落入本发明的保护范围，在此不再赘述。

S505，获取第二预设文本集对应的第二关键文本集FP＝{FP₁，……，FP_δ，……，FP_ζ}，FP_δ为第δ个第二预设文本对应的第二关键文本。

具体的，所述第二关键文本为第二预设文本对应的准确的答案文本和解释文本。

S507，根据FP，获取FP对应的第二关键文本向量集FP⁰＝{FP⁰ ₁，……，FP⁰ _δ，……，FP⁰ _ζ}，FP⁰ _δ＝(FP⁰ _δ1，……，FP⁰ _δγ，……，FP⁰ _δη)，EP⁰ _δγ为EP_δ对应的第二关键文本向量中第γ位的bit值。

具体的，所述第二关键文本向量的获取方式与所述第一关键文本向量的获取方式一致。

S509，根据EP⁰和FP⁰，获取初始电子病历问答模型对应的待选优先级KL，其中KL符合如下条件：

在另一个具体的实施例中，在S500中通过如下步骤获取待选优先级：

S610，将第二预设文本集输入至初始电子病历问答模型中，获取第一初始文本集EW＝{EW₁，……，EW_λ，……，EW_σ}，其中，EW_λ为第λ个第一初始文本，λ＝1……σ，σ为第一初始文本的数量。

具体的，所述第一初始文本为从第一关键文本集中获取到的中英文比例在预设比例范围的第一关键文本。

进一步的，所述第一关键文本集包括若干个第一关键文本，其中，所述第一关键文本为基于初始电子病历问答模型获取到的第二预设文本对应的答案文本和解释文本。

进一步的，所述答案文本为基于问题文本进行回答的文本。

进一步的，所述预设比例范围为tr¹～tr²，其中，tr¹＝tr-tr⁰，tr²＝tr+tr⁰，tr为获取到样本文本中的文本中英文比例的平均值，tr⁰为预设的比例阈值。

进一步的，tr⁰的取值范围为0.01～0.1，其中，本领域技术人员知晓，可根据实际需求进行tr⁰的选取，均落入本发明的保护范围，在此不再赘述。

进一步的，所述样本文本为将预设样本文本输入至初始电子病历问答模型中输出的文本，其中，所述预设样本文本的性质与第一预设文本的性质一致，预设样本文本的获取方式可参照第一预设文本的获取方式。

S620，根据EW，获取第一初始文本向量集EW⁰＝{EW⁰ ₁，……，EW⁰ _λ，……，EW⁰ _σ}，EW⁰ _λ＝(EW⁰ _λ1，……，EW⁰ _λγ，……，EW⁰ _λη)，EW⁰ _λγ为EW_λ对应的第一初始文本向量中第γ位的bit值，γ＝1……η，η为第一初始文本向量的比特位。

具体的，所述第一初始文本向量为将第一初始文本输入至自然语言处理模型中获取到的向量，其中，本领域技术人员知晓，现有技术任一自然语言处理模型将文本转换成向量的方法，均落入本发明的保护范围，在此不再赘述。

S630，根据第一初始文本集，获取第二初始文本集FW＝{FW₁，……，FW_λ，……，FW_σ}，其中，FW_λ为第λ个第二初始文本。

具体的，所述第二初始文本为第一初始文本对应的第二预设文本准确的答案文本和解释文本。

S640，根据FW，获取FW对应的第二初始文本向量集FW⁰＝{FW⁰ ₁，……，FW⁰ _λ，……，FW⁰ _σ}，FW⁰ _λ＝(FW⁰ _λ1，……，FW⁰ _λγ，……，FW⁰ _λη)，FW⁰ _λγ为FW_λ对应的第一初始文本向量中第γ位的bit值。

具体的，所述第二初始文本向量的获取方式与第一初始文本向量的获取方式一致。

S650，根据EW⁰和FW⁰，获取第一相似度列表ΔW＝{ΔW₁，……，ΔW_λ，……，ΔW_σ}，其中，ΔW_λ符合如下条件：

S660，根据EW，获取EW对应的第一初始关键词集，其中，所述第一初始关键词集包括若干个第一初始关键词列表，所述第一初始关键词列表包括一个第一初始关键词，所述第一初始关键词为第一初始文本中的关键词。

具体的，所述第一关键词为从第一初始文本中获取到的与目标术语知识图谱中的目标词相似的词、

具体的，所述第一初始关键词的获取方式与所述候选关键词的获取方式一致，可参照S731步骤～S737步骤。

S670，根据FW，获取FW对应的第二初始关键词集，所述第二初始关键词集包括若干个第二初始关键词列表，所述第二初始关键词列表包括一个第二初始关键词，所述第二初始关键词为第二初始文本中的关键词。

具体的，所述第二初始关键词的获取方式与第一初始关键词的获取方式一致。

S680，获取第一初始关键词集和第二初始关键词集，获取第二相似度列表ΔV＝{ΔV₁，……，ΔV_λ，……，ΔV_σ}，其中，ΔV_λ为同一第二预设文本对应的第一初始关键词与第二初始关键词之间的相似度。

具体的，所述ΔV_λ的获取方式与ΔW_λ的获取方式一致。

S690，根据ΔW和ΔV，获取初始电子病历问答模型对应的待选优先级KL。

具体的，在S690中通过如下步骤获取KL：

S691，当ΔW_λ≤ZM⁰时，KL＝0，其中，ZM⁰为预设的第一相似度阈值。

具体的，ZM⁰的取值范围为0.6～0.85，其中，本领域技术人员知晓，本领域技术人员可根据实际需求进行预设的第一相似度阈值的选取，均落入本发明的保护范围，在此不再赘述。

S693，当ΔW_λ≥ZM⁰且ΔV_λ≤ZM¹时，KL符合如下条件：

其中，ZM¹预设的第二相似度阈值。

具体的，ZM¹的取值范围为0.5～0.9，其中，本领域技术人员知晓，本领域技术人员可根据实际需求进行预设的第二相似度阈值的选取，均落入本发明的保护范围，在此不再赘述。

S695，当ΔW_λ≥ZM⁰且ΔV_λ≥ZM¹时，KL符合如下条件

上述，基于第一相似度和第二相似度的不同，设置不同的计算待选优先级的相关系数，基于不同维度设置不同的相关系数使得获取到的待选优先级更加准确，基于不同维度获取电子病历问答模型对应的候选优先级，同时基于不同的情况采用不同的方式获取到待选优先级，通过合理设置优先级，使得电子病历问答***输出的结果更加准确。

S600，基于待选优先级，对初始电子问答模型进行参数调整，直到待选优先级不小于预设的待选优先级阈值时以获取到目标电子病历问答模型。

具体的，所述预设的待选优先级阈值的取值范围为0.7～0.9，其中，本领域技术人员知晓，本领域技术人员可根据实际需求进行预设的待选优先级阈值的选取，均落入本发明的保护范围，在此不再赘述。

具体的，本领域技术人员知晓，现有技术中任一对训练模型进行参数调整的过程，均落入本发明的保护范围，在此不再赘述。

S700，获取预设关键文本，将预设关键文本输入至目标电子病历问题模型中获取目标文本，其中，所述预设关键文本为待查询的基于异常状态获取到的有关异常状态的问题文本，所述目标文本为预设关键文本对应的答案文本和解释文本。

上述，将LLM模型应用于电子病历问答上，能够对大规模数据进行处理，降低了电子病历问答模型的应用的局限性，通过prompt指令为其设置指示指令，有利于电子病历问答***的理解和回复，提高了电子病历问答***输出结果的准确度。

具体的，在S700步骤之后还包括如下步骤：

S701，根据样本数据库，获取关键实体集，其中，所述关键实体集包括若干个关键实体，所述关键实体为基于样本数据库获取到的与异常状态相关的实体。

具体的，所述样本数据库包括若干个与异常状态相关的信息，例如药物数据表、人体部位、ICD-10标准词库、症状体征和传染病等与异常状态相关的信息。

进一步的，在S701中通过如下步骤获取关键实体：

S7011，根据样本数据集，获取样本实体集，其中，所述样本实体集包括若干个样本实体，所述样本实体为从样本数据集中获取到的与异常状态相关的实体，可以理解为：样本数据集中包括了大量描述与异常状态相关的文本，从这些文本中提取出与医疗领域相关联的术语，这些术语就是获取到的样本实体。

具体的，所述样本实体集包括的样本实体的数量为百万级。

进一步的，本领域知晓，现有技术中任一从文本中提取实体的方法，均落入本发明的保护范围，在此不再赘述。

S7013，根据样本实体集，获取第一样本实体集，其中，所述第一样本实体集包括如干个第一样本实体，所述第一样本实体为基于LLM模型获取到的与样本实体相似的实体。

具体的，本领域技术人员知晓，现有技术中任一基于LLM模型获取相似实体的方法，均落入本发明的保护范围，在此不再赘述，例如chatglm等LLM模型。

S7015，根据第一样本实体集，获取第二样本实体集，其中，所述第二样本实体集包括若干个第二样本实体，所述第二样本实体为与第一样本实体无相似特征的实体。

具体的，本领域技术人员知晓，现有技术中任一基于实体特征获取与实体无相似特征实体的方法，均落入本发明的保护范围，在此不再赘述，例如通过FM模型、FFM模型等模型获取与实体无相似特征的实体。

S7017，基于样本实体集、第一样本实体集和第二样本实体集，获取关键实体集，其中，所述关键实体集包括样本实体集、第一样本实体集和第二样本实体集。

具体的，所述关键实体集中关键实体的数量为千万级，其中，本领域技术人员知晓，可根据实际需求进行第一样本实体与第二样本实体比例的选取，均落入本发明的保护范围，在此不再赘述。

S702，将关键实体集和目标实体集输入至第一中间模型中，获取关键实体向量集和目标实体向量集。

具体的，所述目标实体集包括若干个目标实体，其中，所述目标实体为与异常状态相关的标准术语。

具体的，所述第一中间模型为将文本转换成向量的模型，其中，本领域技术人员知晓，可根据实际需求进行任一将文本转换成向量的自然语言处理模型，均落入本发明的保护范围，在此不再赘述，例如bert模型等自然语言处理模型。

具体的，所述关键实体向量集包括若干个关键实体向量，其中，所述关键实体向量为关键实体对应的向量。

进一步的，所述目标实体向量集包括若干个目标实体向量，其中，所述目标实体向量为目标实体对应的向量。

S703，将关键实体向量集和目标实体向量集输入至第二中间模型中，获取关键实体集对应的最终实体集，其中，所述第二中间模型为预设的神经网络模型。

具体的，在S703中通过如下步骤获取最终实体集：

S7031，从关键实体向量集中获取任一关键实体向量XY＝(XY₁，……，XY_(ab)，……，XY_(jk))，XY_(ab)为关键实体向量中第ab位的bit值，ab＝1……jk，jk为关键实体向量的比特位。

S7032，获取目标实体向量集ZH＝{ZH₁，……，ZH_(cd)，……，ZH_(ef)}，ZH_(cd)＝(ZH¹ _(cd)，……，ZH^(ab) _(cd)，……，ZH^(jk) _(cd))，ZH^(ab) _(cd)为第cd目标实体向量对应的第ab位的bit值，cd＝1……ef，ef为目标实体向量的数量。

S7033，根据XY和ZH，获取XY对应的第一中间优先级列表XH＝{XH₁，……，XH_(cd)，……，XH_(ef)}，XH_(cd)为XY与ZH_(cd)之间的第一中间优先级，其中，XH_(cd)符合如下条件：

上述，在获取实体对应的优先级时，不局限于一种方法获取，通过将多种方法进行结合的方法，获取到实体对应的最终的优先级，提高了获取到实体对应优先级的准确度，从而使得基于电子病历问答模型输出结果对应的标准化结果更加准确。

S7035，根据XH，获取XY对应的最终实体，其中，当XH_(cd)为XH中最大的第一中间优先级时，获取ZH_(cd)对应的目标实体为XY对应的最终实体。

S704，基于样本实体集和最终实体集，获取目标模型，其中，所述目标模型为基于样本实体集获取最终实体集过程训练出的模型。

S705，获取目标文本对应的第一候选实体集，其中，所述第一候选实体集包括若干个第一候选实体，所述第一候选实体为从目标文本中获取到的实体。

具体的，本领域技术人员知晓，现有技术中任一从文本中获取实体的方法，均落入本发明的保护范围，在此不再赘述。

S706，将第一候选实体输入至目标模型中，获取目标文本对应的第二候选实体集，其中，所述第二候选实体集包括若干个第二候选实体，所述第二候选实体为基于第一候选实体和目标模型获取到的第一候选实体对应的目标实体中的实体。

S707，将目标文本中的第一候选实体集替换成对应的第二候选实体集以实现对目标文本的标准化处理。

上述，通过对电子病历问答模型输出的结果进行标准化处理，方便后续进行数据的查询和统计。

本实施例提供了一种基于电子病历问答模型的数据预处理***，***包括样本电子病历信息集、处理器和存储有计算机程序的存储器，其中，所述样本电子病历信息集包括若干个样本电子病历信息，所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息，当所述计算机程序被处理器执行时，实现以下步骤：根据样本电子病例信息集，获取候选文本集，根据候选文本集和目标术语知识图谱，获取候选文本集对应的候选关键词集，根据候选文本集和候选关键词集，获取初始文本集，根据初始文本集，获取目标文本集，其中，基于初始文本对应的文本字符串数量，基于不同情况分别进行处理以获取目标文本，根据目标文本集，获取指定文本向量，本发明基于文本的类型对文本字符串的数量进行统一，保证了获取到的指定文本向量的全面性，同时，考虑文本中的关键词因素，基于关键词的优先级对文本字符进行截断，基于不同因素采用不同手段对文本进行处理，提高了获取到的指定文本向量集的准确度，从而使得数据预处理的准确度较高。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种基于电子病历问答模型的数据预处理***，其特征在于，所述***包括：样本电子病历信息集、处理器和存储有计算机程序的存储器，其中，所述样本电子病历信息集包括若干个样本电子病历信息，所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息，当所述计算机程序被处理器执行时，实现以下步骤：

S1，根据样本电子病历信息集，获取候选文本集A＝{A₁，……，A_i，……，A_n}，A_i为第i个候选文本，i＝1……n，n为候选文本的数量；

S3，根据A和目标术语知识图谱，获取A对应的候选关键词集Q＝{Q₁，……，Q_i，……，Q_n}，Q_i为A_i对应的候选关键词列表；

S5，根据A和Q，获取初始文本集T＝{T₁，……，T_i，……，T_n}，T_i＝{A_i，Q_i}，T_i为第i个初始文本；

S71，根据T_i，获取T_i对应的文本字符串WT_i＝(WT⁰ _i1，……，WT⁰ _ix，……，WT⁰ _ip，WT¹ _i1，……，WT¹ _iy，……，WT¹ _iq)，WT⁰ _ix为A_i对应的第x个文字字符，x＝1……p，p为A_i对应的文字字符的数量，WT¹ _iy为Q_i对应的第y个文字字符，y＝1……q，q为Q_i对应的文字字符的数量；

S72，当p+q＝K时，获取U_i＝T_i，其中，K为预设的关键优先级阈值；

S73，当p+q＞K时，获取Q对应的候选优先级集P＝{P₁，……，P_i，……，P_n}，P_i＝{P_i1，……，P_ie，……，P_if(i)}，P_ie为Q_i对应的候选关键词列表中第e个候选关键词对应的候选优先级，e＝1……f(i)，f(i)为Q_i对应的候选关键词列表中候选关键词的数量；

S74，基于P，对WT_i进行处理以获取U_i；

S75，当p+q＜K时，获取Q_i对应的指定关键词集R_i＝{R_i1，……，R_ie，……，R_if(i)}和Q_i对应的指定优先级集G_i＝{G_i1，……，G_ie，……，G_if(i)}，R_ie为Q_ie对应的指定关键词列表，G_ie为Q_ie对应的指定优先级列表；

S76，根据R_i和G_i，对WT_i进行处理以获取U_i；

2.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***，其特征在于，所述样本电子病历信息的数据格式包括文本格式和表格格式。

3.根据权利要求2所述的一种基于电子病历问答模型的数据预处理***，其特征在于，在S1中通过如下步骤获取候选文本：

S11，当样本电子病例信息的数据格式为文本格式时，将样本电子病例信息按照分割符号进行切分以生成候选文本；

S13，当样本电子病例信息的数据格式为表格格式时，将样本电子病例信息中每个记录以及记录对应的字段名称进行整合以生成候选文本。

4.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***，其特征在于，在S3中通过如下步骤获取Q_i：

S31，根据A，获取A对应的第一中间词集B＝{B₁，……，B_i，……，B_n}，B_i＝{B_i1，……，B_ij，……，B_im(i)}，B_ij为A_i对应的第一中间词列表中的第j个第一中间词，j＝1……m(i)，m(i)为A_i对应的第一中间词列表中第一中间词的数量；

S33，根据目标术语知识图谱，获取目标词列表D＝{D₁，……，D_r，……，D_s}，D_r为第r个目标词，r＝1……s，s为目标词的数量；

S35，根据B和D，获取B对应的第一中间相似度集F＝{F₁，……，F_i，……，F_n}，F_i＝{F_i1，……，F_ij，……，F_im(i)}，F_ij＝{F¹ _i1，……，F^r _ij，……，F^s _im(i)}，F^r _ij为B_ij与D_r之间的第一中间相似度；

5.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***，其特征在于，所述初始文本为将候选文本与候选关键词进行拼接且候选关键词拼接在候选文本之后的文本。

6.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***，其特征在于，在S72中通过如下步骤获取K：

S721，根据T，获取关键文本类型集C＝{C₁，……，C_d，……，C_z}，C_d＝{C_d1，……，C_dg，……，C_dh(d)}，C_dg为第d类关键文本列表中的第g个关键文本，g＝1……h(d)，h(d)为第d类关键文本列表中关键文本的数量，d＝1……z，z为关键文本类型的数量；

S723，根据C，获取C对应的第一文本字符串数量集C⁰＝{C⁰ ₁，……，C⁰ _d，……，C⁰ _z}，C⁰ _d＝{C⁰ _d1，……，C⁰ _dg，……，C⁰ _dh(d)}，C⁰ _dg为C_dg对应的第一文本字符串数量；

S725，根据C⁰，获取C对应的第二文本字符串数量集C¹＝{C¹ ₁，……，C¹ _d，……，C¹ _z}，C¹ _d＝{C¹ _d1，……，C¹ _du，……，C¹ _dh(d)}，C¹ _du为第d类关键文本列表对应的第二文本字符串数量列表中的第u个第二文本，u＝1……h(d)，其中，C¹ _d1≥……≥C¹ _du≥……≥C¹ _dh(d)；

S725，根据C⁰，获取K，其中，K符合如下条件：

7.根据权利要求6所述的一种基于电子病历问答模型的数据预处理***，其特征在于，所述关键文本为基于初始文本对应的文本类型从T中获取到的初始文本。

8.根据权利要求6所述的一种基于电子病历问答模型的数据预处理***，其特征在于，所述第二文本字符串数量为根据第一文本字符串数量按照从大到小的顺序依次获取到的文本字符串数量。

9.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***，其特征在于，在S73中通过如下步骤获取P_ie：

S731，获取候选关键词列表Q_i＝{Q_i1，……，Q_ie，……，Q_if(i)}，Q_ie为Q_i中的第e个候选关键词；

S733，根据目标术语知识图谱，获取Q_ie对应的指定关键词列表R_ie＝{R¹ _ie，……，R^a _ie，……，R^b(e) _ie}和Q_ie对应的指定优先级列表G_ie＝{G¹ _ie，……，G^a _ie，……，G^b(e) _ie}，R^a _ie为Q_ie对应的第a个指定关键词，a＝1……b(e)，b(e)为Q_ie对应的指定关键词的数量，G^a _ie为Q_ie与R^a _ie之间的指定优先级；

10.根据权利要求1所述的一种基于电子病历问答模型的数据预处理***，其特征在于，在S74中还包括如下步骤：

S741，根据P_i，获取T_i对应的第一中间文本β¹ _i＝(A_i，Q_i1，……，Q_i(e-1)，Q_i(e+1)……，Q_if(i))，其中，P_ie为P_i中最小的候选优先级；

S743，当β¹ _i对应的文本字符串数量不大于K时，获取U_i＝β_i；

S745，当β¹ _i对应的文本字符串数量大于K时，获取P_i中P_ie除P_ie之外的最小候选优先级，将其在初始文本Q_i中删除以获取T_i对应的第二中间文本β² _i；