CN117874178A

CN117874178A - 医学应答文本数据的确定方法、装置、设备和介质

Info

Publication number: CN117874178A
Application number: CN202311425588.0A
Authority: CN
Inventors: 金信冬; 范进; 潘金龙
Original assignee: Ali Health Technology Hangzhou Co ltd
Current assignee: Ali Health Technology Hangzhou Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-04-12

Abstract

本说明书实施方式提供了一种医学应答文本数据的确定方法、及相关装置。所述方法包括：在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，通过在指定医学知识数据库中召回与医学提问文本数据匹配的多个医学应答文本数据，再基于多个医学应答文本数据调用通用大语言模型，以利用通用大语言模型的自然语言处理能力从多个医学应答文本数据中确定与医学提问文本数据对应的目标医学应答文本数据。通过本说明书实施方式，实现了由通用大语言模型代替人工完成与医学提问文本数据对应的医学应答文本数据的确定过程，节约了对多个医学应答文本数据进行人工筛选占用的人力资源和时间。

Description

医学应答文本数据的确定方法、装置、设备和介质

技术领域

本说明书中实施方式关于人工智能技术领域，具体关于一种医学应答文本数据的获取方法、装置、设备和介质。

背景技术

随着人工智能技术的不断发展，智能问答***已在语音助手、智能客服、在线咨询等服务领域得到了广泛的应用。目前，智能问答***可以基于语义相关性分析，在大规模问答数据库中为用户输入的提问文本数据匹配应答文本数据。

在相关技术中，在提问文本数据匹配多个应答文本数据的情况下，为提高应答文本数据的准确性以及应答文本数据与提问文本数据之间的关联性，需要对多个应答文本数据进行人工筛选，以确定与提问文本数据匹配程度最高的应答文本数据。

在通用大语言模型投入使用之后，迅速提升了智能问答***的能力。现有的通用大语言模型虽然可以快速的生成针对提问文本数据的应答文本数据。但，通用大语言模型针对一些特定领域的问题，生成的应答文本数据，所表达的内容往往不够严谨。然而，对于一些技术领域来说，对于应答文本数据所表达内容的准确性要求较高，尤其是针对医学领域来说，如果，应答文本数据所表达的内容不够准确，可能会带来一些影响身体健康风险。

发明内容

有鉴于此，本说明书多个实施方式致力于提供一种医学应答文本数据的获取方法、装置、设备和介质，以实现可以较为快速且准确的提供针对医学问题的应答文本数据。

本说明书中一个实施方式提供一种医学应答文本数据的确定方法，应用于服务器，所述方法包括：在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据；其中，所述指定医学知识数据库包括多个医学文本数据对；所述医学文本数据对包括相对应的医学问题文本数据和医学应答文本数据；基于所述多个医学应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个医学应答文本数据中确定所述医学提问文本数据对应的目标医学应答文本数据。

本说明书中一个实施方式提供一种应答文本数据的确定方法，应用于服务器，所述方法包括：在接收到附带有提问文本数据的应答文本数据获取请求的情况下，在指定知识数据库中召回与所述提问文本数据相匹配的多个应答文本数据；其中，所述指定知识数据库包括多个文本数据对；所述文本数据对包括相对应的问题文本数据和应答文本数据；基于所述多个应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个应答文本数据中确定所述提问文本数据对应的目标应答文本数据。

本说明书的一个实施方式提供一种医学应答文本数据的确定装置，应用于服务器，所述装置包括：召回模块，用于在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据；其中，所述指定医学知识数据库包括多个医学文本数据对；所述医学文本数据对包括相对应的医学问题文本数据和医学应答文本数据；调用模块，用于基于所述多个医学应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个医学应答文本数据中确定所述医学提问文本数据对应的目标医学应答文本数据。

本说明书实施方式提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施方式所述的方法。

本说明书实施方式提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序被处理器执行时实现上述实施方式所述的方法。

本说明书提供的多个实施方式，在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，通过在指定医学知识数据库中召回与医学提问文本数据匹配的多个医学应答文本数据，再基于多个医学应答文本数据调用通用大语言模型，以利用通用大语言模型的自然语言处理能力从多个医学应答文本数据中确定与医学提问文本数据对应的目标医学应答文本数据。由于，医学应答文本数据为预先制定，使得医学应答文本数据可以处于一种内容可控的状态，通过召回多个医学文本数据对，并利用通用大语言模型的文本理解能力，选择出最为适当的目标医学应答文本数据，实现较为快速且准确的提供对应医学提问文本数据的目标医学应答文本数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书的一个实施方式提供的医学应答文本数据的确定***的多端交互示意图。

图2为本说明书的一个实施方式提供的医学应答文本数据的确定***的架构示意图。

图3为本说明书的一个实施方式提供的医学应答文本数据的确定方法的流程示意图。

图4为本说明书的一个实施方式提供的医学应答文本数据的确定装置的示意图。

图5为本说明书的一个实施方式提供的计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

大规模问答数据库可以存储有由相对应的问题文本数据和应答文本数据组成的文本数据对。智能问答***在接收到用户输入的提问文本数据后，可以基于文本相似度算法，将提问文本数据与大规模问答数据库中的问题文本数据进行匹配运算，以根据与提问文本数据相匹配的问题文本数据获得提问文本数据对应的应答文本数据。

在提问文本数据与多个问题文本数据匹配的情况下，提问文本数据可以存在多个对应的应答文本数据。由于智能问答***通常仅向用户提供一个应答文本数据，因此，需要对多个应答文本数据进行筛选。

在相关技术中，为提升用户的使用体验，可以由智能问答***的运营人员从准确性和与提问文本数据的关联性两个维度衡量多个应答文本数据与提问文本数据之间的匹配程度，从多个应答文本数据中确定与提问文本数据匹配程度最高的应答文本数据，作为与提问文本数据对应的应答文本数据提供给用户。

然而，在智能问答***需要服务较多用户的情况下，需要由大量运营人员对多个应答文本数据进行人工筛选，人力资源占用较多。同时，由于不同运营人员对提问文本数据所属知识领域的知识水平参差不齐，在运营人员对提问文本数据所属知识领域不够熟悉的情况下，进行人工筛选可能耗费较长时间，进而影响用户的使用体验。

随着通用大语言模型的推广应用，为了提升智能问答***的效率，也可以在从大规模问答数据库中得出与提问文本数据相匹配的文本数据对之后，可以根据提问文本数据和文本数据对调用通用大语言模型，以通过通用大语言模型的语义理解能力，输出对应提问文本数据的应答文本数据。通用大语言模型通常会学习过大量的世界知识，经过超大量的样本训练。使得通用大语言模型一定程度上涵盖了相对全面的知识领域。通用大语言模型的推广应用，很大的提升了各个行业人员的工作效率，减少了知识获取的时间长度。

然而，在实践中发现，通用大语言模型对于一些特定专业领域的回答，还是具有一定程度上的不准确性。具体的，通用大语言模型在训练过程中，所使用的训练样本可能并不全部十分准确，会存在一定的语义偏差，使得训练完成的通用大语言模型针对一些超出能力范畴的问题，会编造一些看似正确的错误答案。这种现象可以被称之为“AI幻觉问题”。为了减弱“AI幻觉问题”，可以采用的技术手段包括：①采用更多的正确的样本数据进行训练，以使得通用大语言模型具有更好的能力。②调整输入给通用大语言模型的提示指令(prompt)。③获取问题额外需要的知识语料，连同问题文本一同输入给通用大语言模型，要求通用大语言模型基于知识语料来回答问题。

然而，采用技术手段①需要付出大量的成本和时间，消耗非常多的资源，一般开发者难以承受。采用技术手段②会有一定的效果，但整体上还是会存在“AI幻觉问题”，即使在提示指令中加入“当你不知道答案的时候，不要编造答案，直接回答不知道。”，在得到的回答中，通常还是会存在一些编造的内容。采用技术手段③，主要是给通用大语言模型额外灌输了一些知识语料，但是还是不能完全杜绝通用大语言模型在生成的答案中存在一些编造的内容。

而，对于一些技术领域来说，可能存在该领域的特殊性，对于知识表述准确性要求很高。此时，由于通用大语言模型存在“AI幻觉问题”，直接使用通用大语言模型生成的回答可能会造成一些严重的后果。比如，医学领域中，提问文本数据可能是针对医学领域的问题，并可能会涉及患者的健康相关内容，此时，向患者反馈的应答文本数据所表达的医学知识，对于患者的身体健康可能存在较大的影响。

因此，有必要提供一种医学应答文本数据的确定方法，在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，通过在指定医学知识数据库中召回与医学提问文本数据匹配的多个医学应答文本数据，再基于多个医学应答文本数据调用通用大语言模型，以利用通用大语言模型的自然语言处理能力从多个医学应答文本数据中确定与医学提问文本数据对应的目标医学应答文本数据，实现由通用大语言模型代替人工完成与医学提问文本数据对应的医学应答文本数据的确定过程，节约对多个医学应答文本数据进行人工筛选占用的人力资源和时间，再者，医学应答文本数据不是由通用大语言模型直接生成，使得医学应答文本数据的内容可以是经过专业人员审核后确定的，并利用通用大语言模型的语义理解能力，从多个医学应答文本数据中挑选最为适合的医学应答文本数据作为最终的目标医学应答文本数据，实现了兼顾效率的基础上，一定克服了通用大语言模型的“AI幻觉问题”，实现目标医学应答文本数据的内容具有较高的准确性。

本说明书中提供一种智能问答***的应用场景示例。该智能问答***可以包括客户端、服务器和通用大语言模型。其中，客户端可以用于接收由用户操作输入的医学提问文本数据，服务器可以用于执行医学应答文本数据的确定方法，通用大语言模型可以用于从多个医学应答文本数据中确定与医学提问文本数据对应的目标医学应答文本数据。以线上问诊为例，对本说明书实施方式提供的医学应答文本数据的确定方法进行说明。

请参阅图1。智能问答***可以被配置为线上问诊平台。智能问答***的客户端可以为线上问诊平台的问诊客户端。用户进入线上问诊平台提供的问诊客户端后，可以在问诊客户端上的问诊界面输入医学提问文本数据，例如，问诊数据。问诊客户端在接收到用户输入的问诊数据后，可以为该问诊数据添加疾病标识，形成医学应答文本数据获取请求并将该医学应答文本数据获取请求发送给服务器。

服务器在接收到该医学应答文本数据获取请求的情况下，可以首先在多个医学知识数据库中确定与疾病标识表示疾病对应的指定医学知识数据库，随后在指定医学知识数据库中召回与该问诊数据相匹配的多个医学应答文本数据，再基于多个医学应答文本数据调用通用大语言模型。具体的，每个知识数据库可以具有疾病标识，并可以包括多个由相对应的医学问题文本数据和医学应答文本数据组成的医学文本数据对，其中，医学问题文本数据和对应的医学应答文本数据可以为该疾病标识对应的疾病的医学问题文本数据和对应的医学应答文本数据。例如，医学问题文本数据可以为“治疗糖尿病应采用什么药物”，对应的医学应答文本数据可以为“治疗糖尿病应采用胰岛素”。服务器可以先将疾病标识与问诊数据的疾病标识相同的医学知识数据库确定为指定医学知识数据库。在确定指定医学知识数据库后，服务器可以访问指定医学知识数据库，将问诊数据与指定医学知识数据库中的医学问题文本数据进行文本相似度匹配，得到与该问诊数据的文本相似度满足指定条件的多个医学问题文本数据，将上述多个医学问题文本数据对应的医学应答文本数据作为与问诊数据相匹配的多个诊疗数据。在得到多个诊疗数据后，服务器可以根据多个诊疗数据和第一提示指令模板生成第一应答提示指令，调用通用大语言模型的访问接口，将该第一应答提示指令输入通用大语言模型。

通用大语言模型在接收到第一应答提示指令后，可以结合其预先学习的语料与知识库，对多个诊疗数据进行理解、分析和推理，从多个诊疗数据中确定与问诊数据对应的目标诊疗数据并将该目标诊疗数据发送给服务器。

服务器在接收到该目标诊疗数据后，可以将该目标诊疗数据发送给问诊客户端，使得患者可以通过问诊客户端获得该目标诊疗数据。

在每次接收到问诊客户端传输的附带有问诊数据的诊疗数据获取请求的情况下，服务器从指定知识数据集中召回与问诊数据相匹配的多个诊疗数据，并基于多个诊疗数据调用通用大语言模型，由通用大语言模型从多个诊疗数据中确定与问诊数据对应的目标诊疗数据，并将目标诊疗数据反馈给服务器，再由服务器将目标诊疗数据推送至问诊客户端。

请参阅图2。本说明书实施方式提供一种智能问答***。所述智能问答***可以包括客户端、服务器和通用大语言模型。本说明书实施方式对客户端和服务器的数量不作具体限制。客户端和服务器之间可以通过有线或无线网络相互连接。

客户端可以是具有网络访问功能、数据存储功能和显示功能的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、智能电视等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔等。或者，客户端也可以为能够运行于所述电子设备中的具有人机交互界面的计算机程序。

服务器可以是具有一定运算处理能力和数据传输能力的电子设备。具体的，服务器可以具有网络通信模块、处理器和存储器等。服务器也可以是指运行于所述电子设备中的计算机程序。服务器还可以为分布式服务器，可以为具有多个处理器、存储器、网络通信模块等协同运作的***。或者，服务器还可以为若干服务器形成的服务器集群。或者，随着科学技术的发展，服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如，可以是基于量子计算实现的新形态的“服务器”。

通用大语言模型可以是具有深度学习能力和自然语言处理能力的机器学习模型。具体的，通用大语言模型可以具有语义理解、分析、推理、自然语言生成能力。

请参阅图3。本说明书的一个实施方式提供一种医学应答文本数据的确定方法。该医学应答文本数据的确定方法可以应用于服务器，该方法可以包括以下步骤。

步骤S110：在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据。

在特定应用场景下，与医学提问文本数据对应的医学应答文本数据的知识准确性可能对用户的人身健康产生较大影响。为对医学应答文本数据进行控制以提高医学应答文本数据的知识准确性，可以由医学知识领域的医学专家预先对指定医学知识数据库中的医学文本数据对进行审核后并存储于服务器中。再由服务器从经审核的指定医学知识数据库中召回与医学提问文本数据匹配的多个医学应答文本数据，从而实现了医学应答文本数据的可控。

在本实施方式中，医学提问文本数据可以包括医学应答文本数据获取请求发送方接收到的用户输入的文本数据。具体的，例如，应答数据获取请求发送方可以为具有人机交互界面的客户端，其中，人机交互界面可以设置有输入框，也可以预先设置有常用提问文本和选择按钮。医学提问文本数据可以包括用户直接通过输入框执行文本输入操作输入的数据，也可以包括用户通过输入框执行语音转文字操作输入的数据，也可以包括用户通过选择按钮执行选择操作选择的数据。

在本实施方式中，指定医学知识数据库可以包括多个医学文本数据对，每对医学文本数据对可以包括相对应的医学问题文本数据和医学应答文本数据。具体的，例如，针对不同的应用场景，知识数据库中医学文本数据对的数据来源可以不同。针对线上问诊智能客服产品，由于医学应答文本数据的知识准确性可能对用户的生命健康产生较大影响，需要控制医学应答文本数据提供准确知识。因此，知识数据库中医学文本数据对的数据来源可以为经过医学知识领域内医学专家审核的预设问答数据和历史问答数据。

在本实施方式中，在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据，可以基于关键词匹配实现。具体的，例如，可以提取医学提问文本数据的关键词，将提取到的关键词与指定医学知识数据库中的医学文本数据对进行匹配，得到与医学提问文本数据满足指定匹配条件的多个医学应答文本数据。

在一些实施方式中，在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据，可以包括：对所述医学提问文本数据进行向量化处理，得到提问向量数据；对所述提问向量数据与所述指定知识向量数据库中的问题向量数据进行匹配运算，得到与所述提问向量数据满足指定匹配条件的多个问题向量数据；分别从所述多个问题向量数据对应的医学问题文本数据所属的医学文本数据对中，获取医学应答文本数据。

为提高医学应答文本数据的知识准确性，指定医学知识数据库中的医学文本数据对的数据规模可能较大。在这种情况下，基于关键词匹配实现多个医学应答文本数据的召回可能存在运算速度较慢、运算时间较长的问题。除此之外，基于关键词的匹配规则可能局限于词语或字符匹配，忽略了医学提问文本数据包含的语义信息，导致召回的多个医学应答文本数据与医学提问文本数据实际的关联性不强，或者，召回的医学应答文本数据的数量较少。为解决上述问题，提高召回多个医学应答文本数据的运算速度，缩短向用户提供医学提问文本数据对应的医学应答文本数据的整体时间，同时增强召回的多个医学应答文本数据与医学提问文本数据的关联性，可以通过对医学提问文本数据和指定医学知识数据库中的医学问题文本数据进行向量化处理，基于向量相似度算法得到与医学提问文本数据匹配的多个医学问题文本数据，再根据多个医学问题文本数据获取与医学提问文本数据相匹配的多个医学应答文本数据。

在本实施方式中，指定医学知识数据库可以对应有指定知识向量数据库。其中，指定知识向量数据库可以包括与医学问题文本数据应的多个问题向量数据。具体的，例如，针对指定知识向量数据库中每个医学文本数据对，可以对医学问题文本数据进行向量化处理，得到与医学问题文本数据对应的问题向量数据，并将该问题向量数据存入指定知识向量数据库中。医学问题文本数据与问题向量数据之间的对应可以通过数据标识或数据存储规则实现。例如，相对应的医学问题文本数据和问题向量数据可以具有相同的问题数据标识。相对应的医学问题文本数据和问题向量数据也可以对应存储至指定医学知识数据库和指定知识向量数据库的对应地址。

在本实施方式中，指定匹配条件可以为问题向量数据与提问向量数据之间的向量相似度需要满足的数值条件或排序条件。具体的，在匹配运算的运算结果为向量相似度的数值的情况下，指定匹配条件可以为向量相似度的数值范围。例如，指定匹配条件可以为向量相似度的数值落入[-1,-0.8]和[0.8,1]范围内。在匹配运算的运算结果为向量相似度的排序的情况下，指定匹配条件可以为向量相似度的位次范围。例如，指定匹配条件可以为向量相似度位于前5位。

在本实施方式中，对医学提问文本数据进行向量化处理，可以通过按照向量编码规则对医学提问文本数据进行向量编码，将编码结果作为提问向量数据。例如，向量编码规则可以包括One-Hot编码、词袋模型编码、TF-IDF(Term Frequency-Inverse DocumentFrequency)编码等。

在一些实施方式中，对医学提问文本数据进行向量化处理，也可以通过将医学提问文本数据输入文本向量化模型，将模型的输出结果作为提问向量数据。其中，文本向量化模型可以为预训练的用于将文本数据转换为向量数据的机器学习模型。例如，Word2Vec模型和Doc2Vec模型。

在本实施方式中，对医学提问文本数据进行向量化处理采用的方法与对医学问题文本数据进行向量化处理采用的方法可以相同。具体的，采用相同方法进行向量化处理得到的提问向量数据的维度和问题向量数据的维度可以相同，便于后续进行提问向量数据和问题向量数据的匹配运算。

在一些实施方式中，对医学提问文本数据进行向量化处理采用的方法与对医学问题文本数据进行向量化处理采用的方法可以不同。在提问向量数据的维度和问题向量数据的维度不同的情况下，可以对提问向量和问题向量数据进行维度匹配处理，使两向量数据的维度相同。

在本实施方式中，对提问向量数据与指定知识向量数据库中的问题向量数据进行匹配运算，得到与所述提问向量数据满足指定匹配条件的多个问题向量数据，可以基于向量相似度算法，计算指定知识向量数据库中的每个问题向量数据与提问向量数据之间的向量相似度，得到向量相似度满足指定数值条件或指定排序条件的多个问题向量数据。其中，向量相似度算法可以包括以下算法的至少一种：余弦相似度、欧氏距离、曼哈顿距离和闵可夫斯基距离。本说明书实施方式对向量相似度算法不作具体限定。

在本实施方式中，分别从多个问题向量数据对应的医学问题文本数据所属的医学文本数据对中，获取医学应答文本数据，可以先根据问题向量数据和医学问题文本数据之间的对应关系确定医学文本数据对，再从医学文本数据对中取得医学应答文本数据。

步骤S120：基于所述多个医学应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个医学应答文本数据中确定所述医学提问文本数据对应的目标医学应答文本数据。

在一些情况下，在接收到用户输入的医学提问文本数据后，为减少多个医学应答文本数据对用户造成的干扰，智能问答***可以向用户提供少量与医学提问文本数据对应的医学应答文本数据。因此，在召回与医学提问文本数据相匹配的多个医学应答文本数据后，需要从多个医学应答文本数据中确定与医学提问文本数据匹配程度最高的目标医学应答文本数据。如此，实现在兼顾解决相关技术中存在的对多个医学应答文本数据进行人工筛选耗费人力资源和时间较多的问题的基础上，可以保障医学应答文本数据的内容具有较好的准确性。

再者，通过调用通用大语言模型，利用通用大语言模型的语义理解能力，可以快速从多个医学应答文本数据中确定出目标医学应答文本数据。由于指定了作为目标医学提问文本数据的答案范围，避免了通用大语言模型在生成答案过程中的编造问题，克服了通用大语言模型在使用过程中的“AI幻觉问题”。

在本实施方式中，针对不同内容的医学应答文本数据，可以通过不同方式调用不同通用大语言模型。具体的，例如，在医学应答文本数据的内容无法全部公开的情况下，可以将通用大语言模型部署在服务器本地，通过本地接口调用通用大语言模型；在医学应答文本数据的内容可以全部公开的情况下，可以直接通过网络接口调用通用大语言模型。在一些实施方式中，基于所述多个医学应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个医学应答文本数据中确定所述医学提问文本数据对应的目标医学应答文本数据，可以包括：根据所述医学提问文本数据、多个医学应答文本数据以及第一提示指令模板生成第一应答提示指令；将所述第一应答提示指令输入给所述通用大语言模型，以用于所述通用大语言模型依照所述第一应答提示指令在所述多个医学应答文本数据中确定所述目标医学应答文本数据。

在一些情况下，为控制通用大语言模型在多个医学应答文本数据中确定目标医学应答文本数据过程的输出，减少通用大语言模型输入的理解歧义，可以根据医学提问文本数据、多个医学应答文本数据以及第一提示指令模板生成用于引导和控制通用大语言模型的输出的第一应答提示指令，将该第一应答提示指令作为通用大语言模型的输入。

在本实施方式中，第一提示指令模板可以包括用于为通用大语言模型提供明确指示的规则提示词和用于利用医学提问文本数据和多个医学应答文本数据填充的填充模板。具体的，规则提示词可以用于指示通用大语言模型在多个医学应答文本数据中确定与医学提问文本数据对应的目标医学应答文本数据，并指示通用大语言模型输出的格式和信息。填充模板可以用于表示医学提问文本数据和多个医学应答文本数据的填充格式。例如，规则提示词可以为“对于给定的问题，下列哪段素材可以更好地回答？请从对应素材原文中提取如下信息：id，question，answer，tags。最终返回上述信息的JSON格式”。填充模板可以为“问题：{0}；素材1：{1}；素材2：{2}；……；素材n：{n}”。另外，由于提示指令模板的设置对通用大语言模型的输出具有重要影响，第一提示指令模板可以为预设提示指令模板。

在本实施方式中，根据所述医学提问文本数据、多个医学应答文本数据以及第一提示指令模板生成第一应答提示指令，可以通过将医学提问文本数据和多个医学应答文本数据填充至第一提示指令模板的指定位置，形成信息完整的第一应答提示指令。具体的，例如，在填充模板为“问题：{0}；素材1：{1}；素材2：{2}；……；素材n：{n}”的情况下，可以将医学提问文本数据填充至{0}，多个医学应答文本数据分别填充至{1}、{2}…{n}。由于第一提示指令模板中包括规则提示词，第一应答提示指令也可以包括针对通用大语言模型的规则提示词。

在本实施方式中，所述第一提示指令模板可以包括用于指示所述通用大语言模型反馈内容的数据格式的反馈要求提示词。可以将所述第一应答提示指令输入所述通用大语言模型，以用于指示所述通用大语言模型依照所述反馈要求提示词表达的要求，反馈属于所述数据格式的结果数据。可以通过反馈要求提示词传达对通用大语言模型的要求，以使得通用大语言模型按照该反馈要求提示词输出符合要求的结果数据。具体的，例如，反馈要求提示词可以为“最终返回上述信息的JSON格式”，此时，通用大语言模型反馈会反馈JSON格式的结果数据，以更加便于后续针对结果数据的使用符合后续的数据处理要求。

在本实施方式中，可以将所述第一应答提示指令输入所述通用大语言模型，以用于所述通用大语言模型根据所述规则提示词对所述多个医学应答文本数据进行筛选，将所述通用大语言模型的筛选结果作为目标医学应答文本数据。

在一些情况下，多个医学应答文本数据可以具有不可编辑属性，规则提示词可以明确指示通用大语言模型其需要完成的任务为医学应答文本数据的筛选，则通用大语言模型可以直接根据规则提示词执行多个医学应答文本数据的筛选过程，并按照规则提示词的格式和信息要求输出对多个医学应答文本数据的原文的筛选结果，从而实现了对通用大语言模型输出的控制，提高了通用大语言模型输出的准确性。

在本实施方式中，规则提示词可以表达的内容包括指定评估规则。具体的，指定评估规则可以包括评估各个医学应答文本数据相对于医学提问文本数据的准确程度和/或关联程度。例如，指定评估规则可以为先根据预设的评分规则对每个医学应答文本数据相对于医学提问文本数据的准确程度和关联程度进行评分，再根据预设的计分规则计算每个医学应答文本数据的得分，并对每个医学应答文本数据的得分进行排序，将得分最高的医学应答文本数据作为目标医学应答文本数据。

在本实施方式中，可以将所述第一应答提示指令输入所述通用大语言模型，以用于所述通用大语言模型根据所述指定评估规则在所述多个医学应答文本数据中确定所述目标医学应答文本数据。

在本实施方式中，在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，通过在指定医学知识数据库中召回与医学提问文本数据匹配的多个医学应答文本数据，再基于多个医学应答文本数据调用通用大语言模型，以利用通用大语言模型的自然语言处理能力从多个医学应答文本数据中确定与医学提问文本数据对应的目标医学应答文本数据，实现了由通用大语言模型代替人工完成与医学提问文本数据对应的医学应答文本数据的确定过程，节约了对多个医学应答文本数据进行人工筛选占用的人力资源和时间。在一些实施方式中，医学知识数据库的数量可以为多个，每个医学知识数据库可以对应一种疾病；可以将多个医学知识数据库中与医学提问文本数据涉及相同疾病的医学知识数据库作为所述指定医学知识数据库。

在一些情况下，为增大医学知识数据库中医学文本数据对覆盖的医学知识领域的范围，医学知识数据库的数量可能较多，从多个医学知识数据库中确定指定医学知识数据库可能需要耗费较长时间，进而影响确定目标医学应答文本数据的整体时间。为缩短确定指定医学知识数据库的时间，提高确定目标医学应答文本数据的运算速度，可以根据知识数据库对应的疾病和医学提问文本数据涉及的疾病，从多个知识数据库中快速确定指定医学知识数据库。

在本实施方式中，医学知识数据库与疾病之间的对应关系以及医学提问文本数据与疾病之间的对应关系，可以通过疾病种类标识实现。具体的，例如，每个医学知识数据库可以具有第一疾病种类标识。医学提问文本数据可以具有第二疾病种类标识。第一疾病种类标识和第二疾病种类标识之间可以具有指定映射关系。针对相同疾病，第一疾病种类标识和第二疾病种类标识可以相同。此时，在接收到附带有第二疾病种类标识的医学提问文本数据的情况下，可以将第二疾病种类标识与各个知识数据库的第一疾病种类标识进行比对，将具有与第二疾病种类标识相同的第一疾病种类标识的知识数据库作为指定医学知识数据库。

在一些实施方式中，在所述指定医学知识数据库中的医学应答文本数据不适合作为所述目标医学应答文本数据的情况下，调用指定在线知识库，获得所述指定在线知识库反馈的对应所述医学提问文本数据的知识文本数据；根据所述医学提问文本数据、所述知识文本数据以及第二提示指令模板生成第二应答提示指令；将所述第二应答提示指令输入给所述通用大语言模型，以用于所述通用大语言模型依照所述第二应答提示指令的指示，根据所述知识文本数据生成所述医学提问文本数据的目标医学应答文本数据。

在一些情况下，可能会没能从指定医学知识数据库包括的医学文本数据对中，召回适合作为回答医学提问文本数据的目标医学应答文本数据。具体的，例如，指定医学知识数据库中不存在与医学提问文本数据相匹配的医学问题文本数据。或者，在将多个医学应答文本数据输入通用大语言模型之后，通用大语言模型认定该多个医学应答文本数据都不适合作为目标医学应答文本数据。此时，为了避免最终没有反馈目标医学应答文本数据，可以采用调用指定在线知识库的方式，作为备选方案生成最终的目标医学应答文本数据。

在本实施方式中，可以通过调用指定在线知识库，以得到对应医学提问文本数据的知识文本数据。该知识文本数据可以是指定在线知识库中维护的针对医学提问文本数据相关医学概念的定义。或者，该知识文本数据可以是指定在线知识库中针对医学提问文本数据的答案。

在本实施方式中，第二提示指令模板可以用于填入医学提问文本数据和知识文本数据之后，形成第二应答提示指令。第二应答提示指令可以用于指示通用大语言模型基于知识文本数据生成医学提问文本数据的目标医学应答文本数据。具体的，例如，第二提示指令模板可以包括：“已知信息{A}，根据上述已知信息，判断已知信息是否有描述不对的地方，如果描述不正确请指出具体的错误点。如果描述正确，请简洁和专业的来回答用户的问题。如果无法从中得到答案，请说“根据已知信息无法回答该问题”，不允许在答案中添加编造成分，答案请使用中文。问题是：{Q}”，知识文本数据替换第二提示指令模板中的{A}，将医学提问文本数据替换第二提示指令模板中的{Q}，如此得到第二应答提示指令。

在一些情况下，通用大语言模型在基于知识文本数据生成的目标医学应答文本数据中，可能会包括一些超出知识文本数据的语义的内容，而导致通用大语言模型输出的结果数据中，可能会存在一定的不准确性。由于，医学领域对于知识的表述有着很高准确性的要求，否则可能会对用户的身体健康造成负面影响。为了避免通用大语言模型在输出的结果数据中加入自身编造的内容，可以在第二提示指令模板中包括内容范围提示词。内容范围提示词可以用于指示通用大语言模型生成的目标医学应答文本数据表达的内容，不能超出所述知识文本数据表达语义内容。如此，包括内容范围提示词的第二应答提示词可以用于指示所述通用大语言模型依照所述内容范围提示词表达的要求，在所述知识文本数据表达语义内容的范畴内，生成所述医学提问文本数据对应的目标医学应答文本数据。具体的，例如，第二提示指令模板中可以包括内容范围提示词“不允许在答案中添加编造成分”。如此，第二提示指令模板可以包括：第二提示指令模板可以包括：“已知信息{A}，根据上述已知信息，判断已知信息是否有描述不对的地方，如果描述不正确请指出具体的错误点。如果描述正确，请简洁和专业的来回答用户的问题。如果无法从中得到答案，请说“根据已知信息无法回答该问题”，不允许在答案中添加编造成分，答案请使用中文。问题是：{Q}”。

在一些实施方式中，在从指定医学知识数据库中召回与医学提问文本数据相匹配的多个医学应答文本数据后，可以利用具有简单问答功能的机器学习模型对多个医学应答文本数据进行预处理，以剔除多个医学应答文本数据中与医学提问文本数据匹配程度较低的医学应答文本数据。具体的，例如，在从指定医学知识数据库中召回与医学提问文本数据初步匹配的多个初始医学应答文本数据后，可以将多个初始医学应答文本数据输入具有简单问答功能的机器学习模型，将具有简单问答功能的机器学习模型的输出结果作为与医学提问文本数据相匹配的多个医学应答文本数据。

本说明书的一个实施方式提供一种应答文本数据的确定方法，应用于服务器，所述方法包括：在接收到附带有提问文本数据的应答文本数据获取请求的情况下，在指定知识数据库中召回与所述提问文本数据相匹配的多个应答文本数据；其中，所述指定知识数据库包括多个文本数据对；所述文本数据对包括相对应的问题文本数据和应答文本数据；基于所述多个应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个应答文本数据中确定所述提问文本数据对应的目标应答文本数据。

在本实施方式中，应答文本数据的确定方法可以不限于应用在医学领域，还可以应用于金融领域，或者，其他科研领域等，对于知识准确度要求比较高的领域。相应的，指定知识数据库可以不限于医学领域，还可以为金融领域，或其他科研领域。关于相应实现的功能和效果有，可以参照本说明书前述内容进行参照解释。

请参阅图4，本说明书的一个实施方式提供一种医学应答文本数据的确定装置。所述医学应答文本数据的确定装置应用于服务器。所述医学应答文本数据的确定装置可以包括：召回模块和调用模块。

召回模块，用于在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据；其中，所述指定医学知识数据库包括多个医学文本数据对；所述医学文本数据对包括相对应的医学问题文本数据和医学应答文本数据。

调用模块，用于基于所述多个医学应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个医学应答文本数据中确定所述医学提问文本数据对应的目标医学应答文本数据。

关于医学应答文本数据的确定装置实现的具体功能和效果，可以参照本说明书其他实施方式对照解释，在此不再赘述。所述医学应答文本数据的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图5。本说明书实施方式还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一实施方式中的医学应答文本数据的确定方法。

本说明书实施方式还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得，该计算机执行上述任一实施方式中的医学应答文本数据的确定方法。

本说明书实施方式还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述任一实施方式中的医学应答文本数据的确定方法。

本说明书多个实施方式中所涉及的数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经过用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律规定和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

可以理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式，而非限制本发明的范围。

可以理解，在本说明书中的各种实施方式中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施方式的实施过程构成任何限定。

可以理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本说明书实施方式对此并不限定。

除非另有说明，本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解，本说明书实施方式的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意，本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施方式描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本说明书所提供的几个实施方式中，应所述理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本说明书的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本说明书的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种医学应答文本数据的确定方法，其特征在于，应用于服务器，所述方法包括：

在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据；其中，所述指定医学知识数据库包括多个医学文本数据对；所述医学文本数据对包括相对应的医学问题文本数据和医学应答文本数据；

基于所述多个医学应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个医学应答文本数据中确定所述医学提问文本数据对应的目标医学应答文本数据。

2.根据权利要求1所述的方法，其特征在于，所述指定医学知识数据库对应有指定知识向量数据库；其中，所述指定知识向量数据库包括与所述医学问题文本数据对应的多个问题向量数据；在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据的步骤，包括：

对所述医学提问文本数据进行向量化处理，得到提问向量数据；

对所述提问向量数据与所述指定知识向量数据库中的问题向量数据进行匹配运算，得到与所述提问向量数据满足指定匹配条件的多个问题向量数据；

分别从所述多个问题向量数据对应的医学问题文本数据所属的医学文本数据对中，获取医学应答文本数据。

3.根据权利要求1所述的方法，其特征在于，基于所述多个医学应答文本数据调用通用大语言模型，以用于通过所述通用大语言模型在所述多个医学应答文本数据中确定所述医学提问文本数据对应的目标医学应答文本数据的步骤，包括：

根据所述医学提问文本数据、多个医学应答文本数据以及第一提示指令模板生成第一应答提示指令；

将所述第一应答提示指令输入给所述通用大语言模型，以用于所述通用大语言模型依照所述第一应答提示指令在所述多个医学应答文本数据中确定所述目标医学应答文本数据。

4.根据权利要求3所述的方法，其特征在于，所述第一提示指令模板包括用于表达指定评估规则的规则提示词；将所述第一应答提示指令输入给所述通用大语言模型，以用于所述通用大语言模型依照所述第一应答提示指令在所述多个医学应答文本数据中确定所述目标医学应答文本数据的步骤，包括：

将所述第一应答提示指令输入所述通用大语言模型，以用于所述通用大语言模型依照所述指定评估规则在所述多个医学应答文本数据中确定所述目标医学应答文本数据；其中，所述指定评估规则包括评估所述医学应答文本数据相对于所述医学提问文本数据的准确程度和/或关联程度。

5.根据权利要求3所述的方法，其特征在于，所述第一提示指令模板包括用于指示所述通用大语言模型反馈内容的数据格式的反馈要求提示词；将所述第一应答提示指令输入给所述通用大语言模型，以用于所述通用大语言模型依照所述第一应答提示指令在所述多个医学应答文本数据中确定所述目标医学应答文本数据的步骤，包括：

将所述第一应答提示指令输入所述通用大语言模型，以用于指示所述通用大语言模型依照所述反馈要求提示词表达的要求，反馈属于所述数据格式的结果数据。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述指定医学知识数据库中的医学应答文本数据不适合作为所述目标医学应答文本数据的情况下，调用指定在线知识库，获得所述指定在线知识库反馈的对应所述医学提问文本数据的知识文本数据；

根据所述医学提问文本数据、所述知识文本数据以及第二提示指令模板生成第二应答提示指令；

将所述第二应答提示指令输入给所述通用大语言模型，以用于所述通用大语言模型依照所述第二应答提示指令的指示，根据所述知识文本数据生成所述医学提问文本数据的目标医学应答文本数据。

7.根据权利要求6所述的方法，其特征在于，所述第二提示指令模板包括用于指示所述通用大语言模型生成的目标医学应答文本数据表达的内容，不能超出所述知识文本数据表达语义内容的内容范围提示词；将所述第二应答提示指令输入给所述通用大语言模型，以用于所述通用大语言模型依照所述第二应答提示指令的指示，根据所述知识文本数据生成所述医学提问文本数据的目标医学应答文本数据的步骤，包括：

将所述第二应答提示指令输入所述通用大语言模型，以用于指示所述通用大语言模型依照所述内容范围提示词表达的要求，在所述知识文本数据表达语义内容的范畴内，生成所述医学提问文本数据对应的目标医学应答文本数据；

反馈的结果数据中维持作为目标医学应答文本数据的医学应答文本数据的原文。

8.一种医学应答文本数据的确定装置，其特征在于，应用于服务器，所述装置包括：

召回模块，用于在接收到附带有医学提问文本数据的医学应答文本数据获取请求的情况下，在指定医学知识数据库中召回与所述医学提问文本数据相匹配的多个医学应答文本数据；其中，所述指定医学知识数据库包括多个医学文本数据对；所述医学文本数据对包括相对应的医学问题文本数据和医学应答文本数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。