CN116756282A

CN116756282A - 任务处理方法、服务器、语言预测和人机交互

Info

Publication number: CN116756282A
Application number: CN202310722096.1A
Authority: CN
Inventors: 卜崇宇; 孙权; 王莹雪; 白正彪; 包顺科; 王高俊; 董大祥
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-15

Abstract

本公开提供了一种任务处理方法、服务器、语言预测***和人机交互***，涉及数据处理领域，具体涉及人工智能、人机交互和深度学习领域。具体实现方案为：获取语言处理任务和所述语言处理任务的任务类型；在服务节点集群中，查询所述任务类型对应的至少一个目标节点；获取各所述目标节点的实时任务处理数量；根据各所述目标节点的实时任务处理数量，在各所述目标节点中筛选空闲节点，并将所述语言处理任务分配给所述空闲节点执行；获取所述空闲节点针对所述语言处理任务的执行结果，并反馈所述执行结果。本公开实施例可以提高请求响应效率和资源利用率。

Description

任务处理方法、服务器、语言预测***和人机交互***

技术领域

本公开涉及数据处理领域，具体涉及人工智能、人机交互和深度学习领域，尤其涉及一种任务处理方法、服务器、语言预测***和人机交互***。

背景技术

大语言模型(LLM，Large Language Model，LLM)是指使用大量文本数据训练的深度学习模型，可以理解语言文本的含义，生成相应内容。

大语言模型可以处理多种自然语言任务，如文案生成、知识问答、对话和文本续写等，是通向人工智能的一条重要途径。

发明内容

本公开提供了一种任务处理方法、服务器、语言预测***和人机交互***。

根据本公开的一方面，提供了一种任务处理方法，包括：

获取语言处理任务和所述语言处理任务的任务类型；

在服务节点集群中，查询所述任务类型对应的至少一个目标节点；

获取各所述目标节点的实时任务处理数量；

根据各所述目标节点的实时任务处理数量，在各所述目标节点中筛选空闲节点；

将所述语言处理任务分配给所述空闲节点执行；

获取所述空闲节点针对所述语言处理任务的执行结果，并反馈所述执行结果。

根据本公开的一方面，提供了一种任务处理装置，包括：

负载均衡器，用于获取语言处理任务和所述语言处理任务的任务类型；

资源协调器，用于在服务节点集群中，查询所述任务类型对应的至少一个目标节点；

所述资源协调器，用于获取各所述目标节点的实时任务处理数量；

所述资源协调器，用于根据各所述目标节点的实时任务处理数量，在各所述目标节点中筛选空闲节点；

所述负载均衡器，用于将所述语言处理任务分配给所述空闲节点执行；

所述负载均衡器，用于获取所述空闲节点针对所述语言处理任务的执行结果，并反馈所述执行结果。

根据本公开的另一方面，提供了一种服务器，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的任务处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任一实施例所述的任务处理方。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任一实施例所述的任务处理方法。

根据本公开的另一方面，提供了一种语言预测***，包括：如本公开任一实施例所述的功能服务器，和服务节点集群；所述功能服务器包括至少一个负载均衡器；

所述功能服务器用于接收语言处理任务和所述语言处理任务的任务类型；

所述功能服务器将所述语言处理任务分配至所述服务节点集群中节点；

所述服务节点集群用于执行语言处理任务得到执行结果，并将所述执行结果反馈给所述功能服务器；

所述功能服务器用于反馈所述执行结果。

根据本公开的另一方面，提供了一种人机交互***，包括：本公开任一实施例所述的语言预测***和人机交互服务器；

所述人机交互服务器，用于获取用户输入的语言内容，并对所述语言内容进行意图识别，生成语言处理任务和所述语言处理任务的任务类型；

所述人机交互服务器，用于将所述语言处理任务和所述任务类型发送至所述语言预测***；

所述语言预测***，用于根据所述任务类型处理所述语言处理任务，得到执行结果，并反馈给所述人机交互服务器；

所述人机交互服务器，用于将所述执行结果反馈给所述用户。

本公开实施例可以提高请求响应效率和资源利用率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例公开的一种任务处理方法的流程图；

图2是根据本公开实施例公开的另一种任务处理方法的流程图；

图3是根据本公开实施例公开的另一种任务处理方法的流程图；

图4是根据本公开实施例公开的一种任务处理装置的结构示意图；

图5是根据本公开实施例公开的一种实现任务处理方法的电子设备的框图；

图6是根据本公开实施例公开的一种语言预测***的示意图；

图7是根据本公开实施例公开的一种人机交互***的示意图；

图8是根据本公开实施例公开的任务处理方法的场景图；

图9是根据本公开实施例公开的空闲节点筛选的流程图；

图10是根据本公开实施例公开的服务节点注册的流程图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例公开的一种任务处理方法的流程图，本实施例可以适用于大语言模型的预测服务进行负载均衡的情况。本实施例方法可以由任务处理装置来执行，该装置可采用软件和/或硬件的方式实现，并具体配置于具有一定数据运算能力的电子设备中，该电子设备可以是服务器设备。

S101、获取语言处理任务和所述语言处理任务的任务类型。

语言处理任务用于根据语言内容，生成需要的内容。任务类型用于确定语言处理任务的任务内容，以及确定可以处理该语言处理任务的节点。示例性的，语言处理任务通常是在人机交互的过程中，获取用户输入的文本内容，并进行意图识别，得到用户的意图，根据用户的意图生成语言处理任务，以及语言处理任务的任务类型。

可选的，所述语言处理任务通过用户人机交互输入的语言内容生成，所述任务类型通过对所述语言内容进行意图识别确定。

语言内容为用户人机交互输入的内容，以文本形式展示。用户可以通过文本输入得到语言内容，或者语音输入，语音识别得到语言内容。对语言内容进行意图识别，生成语言处理任务和任务类型。实际上，语言处理任务具体是交互内容生成任务。生成的交互内容可以是多样化的。示例性的，语言处理任务可以包括问答、对话、文本续写或文生图等。语言处理任务可以通过大语言模型执行。

通过根据人机交互过程中用户输入的语言内容生成语言处理任务，以及通过对语言内容进行意图识别确定任务类型，将语言处理任务的处理过程应用于大语言模型的应用场景中，提高大语言模型场景下的语言处理任务的执行效率。

可选的，所述任务类型包括下述至少一项：文本生成类型、图像生成类型、富文本生成类型和超链接生成类型。

文本生成类型的语言处理任务用于根据语言内容生成文本。其中，文本生成类型可以继续细分。示例性的，文本生成类型可以细分包括：文案生成、问答、人机对话和文本续写等。具体的，文案生成可以是辅助企业快速生成高质量的宣传文案，提高宣传文案的创意性和效果，节约创意制作的时间和成本。问答可以是对问题进行回答。

示例性的，输入的语言内容为：“你扮演一个小助手，帮我写一篇作文，要求开头是：春暖花开”，相应的语言处理任务的任务类型为文本生成类型，具体是文本续写。

图像生成类型的语言处理任务用于根据语言内容生成文本。具体的，输入的语言内容为：“帮我画一幅画”，相应的语言处理任务的任务类型为图像生成类型。

富文本生成类型的语言处理任务用于根据语言内容生成富文本。具体的，输入的语言内容为：“推导下勾股定理”，相应的语言处理任务的任务类型为富文本生成类型。

超链接生成类型的语言处理任务用于根据语言内容生成超链接。具体的，输入的语言内容为：“XX医院的网址提供下”，相应的语言处理任务的任务类型为超链接生成类型。此外，还可以有其他具体场景，对此不具体限定。

通过将任务类型设置为文本、图像、富文本和超链接等生成类型，可以增加任务的丰富性，从而应对大模型的场景，可以更好的利用服务资源提供服务，加快请求响应速度，降低服务器压力。

S102、在服务节点集群中，查询所述任务类型对应的至少一个目标节点。

服务节点集群包括的服务节点用于执行语言处理任务。服务节点上运行有大语言模型，可以实现自然语言预测和/或推理功能。具体是利用预先训练好的大规模语言模型对文本进行推理或预测。在大模型推理中，预训练的模型已经具有较强的语言理解和表达能力，可以快速地对输入的文本或任务进行处理和预测。服务节点通过HTTP API(HypertextTransfer Protocol Application Programming Interface，超文本传输协议接口)的方式提供服务，用户可通过该HTTP API上传数据，获取推理或预测结果。

任务类型对应的目标节点为可以执行该任务类型的语言处理任务。实际上，不同的语言处理任务需要不同的语言预测模型实现。例如，文本续写任务通过文本续写模型执行，问答任务通过文本问答模型执行，文生图任务通过文生图模型执行。服务节点可以执行至少一类的语言处理任务。可以根据服务节点运行的模型类型，检测模型类型与任务类型匹配的服务节点，确定为目标节点。若目标节点的数量为零，可以向业务用户提示该任务类型的服务节点的扩容建议。

S103、获取各所述目标节点的实时任务处理数量。

实时任务处理数量可以是指目标节点当前正在处理且未完成的语言处理任务。实际上，服务节点可以并行处理多个语言处理任务。

S104、根据各所述目标节点的实时任务处理数量，在各所述目标节点中筛选空闲节点。

空闲节点用于分配该语言处理任务执行。空闲节点可以是实时任务处理数量最低的目标节点。

S105、将所述语言处理任务分配给所述空闲节点执行。

将语言处理任务发送至空闲节点，空闲节点执行得到执行结果。

S106、获取所述空闲节点针对所述语言处理任务的执行结果，并反馈所述执行结果。

空闲节点反馈执行结果，并将该执行结果，反馈给用户，或者是生成语言处理任务的服务方。

现有的针对大模型的负载均衡，通常使用传统的轮询、IP Hash(网际协议地址哈希)、最小连接数、最小响应时间、加权轮询以及加权最小连接数等负载均衡方案。但这种方案对于语言预测任务来说，语言预测任务的推理时间(执行时间)不可控，同一任务类型的语言预测任务由于用户输入不同而不同，从而语言预测模型的处理时间受输入的长度和输出的长度影响很大，每次请求的耗时差异巨大。例如，生成短的文本可能是1秒，生成长的文本可能10秒。基于现有的负载均衡策略，存在部分服务节点满负荷，而部分服务节点空闲，导致负载不均衡。

根据本公开的技术方案，通过在服务节点集群中筛选出任务类型对应的目标节点，并获取目标节点的实时任务处理数量，从目标节点中选择空闲节点分配语言处理任务执行，可以针对不同任务类型，分别对应不同的功能的服务节点进行独立负载均衡，并且针对同一任务类型的语言处理任务，可以根据目标节点的实时任务处理数量，筛选空闲节点，从而在目标节点执行的任务数量少的情况下，分配语言处理任务，可以针对随机语言处理任务的耗时不固定的情况，及时根据目标节点的实时状态，分配合理的负载，实现多类型任务的大模型的负载均衡，充分利用算力资源，提高任务执行效率。

图2是根据本公开实施例公开的另一种任务处理方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。所述根据各所述目标节点的实时任务处理数量，在各所述目标节点中筛选空闲节点，具体化为：获取所述目标节点最大任务处理数量，所述最大任务处理数量根据所述目标节点的处理单元类型确定；获取最大任务处理数量大于实时任务处理数量的目标节点，并从中筛选空闲节点。

S201、获取语言处理任务和所述语言处理任务的任务类型。

S202、在服务节点集群中，查询所述任务类型对应的至少一个目标节点。

S203、获取各所述目标节点的实时任务处理数量。

S204、获取所述目标节点最大任务处理数量，所述最大任务处理数量根据所述目标节点的处理单元类型确定。

最大任务处理数量用于确定目标节点的负载上限。最大任务处理数量可以是指单一服务节点同一时间能处理的最大的任务数量。处理单元类型可以包括：CPU(CentralProcessing Unit，中央处理器)和GPU(Graphics Processing Unit，图像处理器)等。需要说明的是，处理单元类型中GPU还可以采用显卡表示。不同的目标节点的最大任务处理数量不同，通常根据处理单元类型确定。示例性的，GPU型号A的算力优于GPU的型号B的算力，配置有A的目标节点的最大任务处理数量大于配置有B的目标节点的最大任务处理数量。

最大任务处理数量可以仅与处理单元类型有关。或者，最大任务处理数量还可以与任务类型有关。通常，目标节点针对文本生成类型的最大任务处理数量和针对图像生成类型的最大任务处理数量不同。相应的，可以根据待分配的语言处理任务的任务类型，和处理单元类型确定最大任务处理数量。示例性的，在处理单元类型一致的情况下，文本生成类型对应的最大任务处理数量大于图像生成类型对应的最大任务处理数量。通常单一服务节点仅执行单一任务类型的语言处理任务，筛选出语言处理任务的任务类型对应的多个目标节点，其任务类型一致，对应的最大任务处理数量不受任务类型的干扰，仅需要考虑处理单元类型对最大任务处理数量的影响。

S205、获取最大任务处理数量大于实时任务处理数量的目标节点，并从中筛选空闲节点。

通常实时任务处理数量小于等于最大任务处理数量。目标节点的实时任务处理数量等于该目标节点的最大任务处理数量，表明该目标节点满负载。最大任务处理数量大于实时任务处理数量，表明该目标节点还有余量可以并行处理任务。

S206、将所述语言处理任务分配给所述空闲节点执行。

S207、获取所述空闲节点针对所述语言处理任务的执行结果，并反馈所述执行结果。

可选的，所述从中筛选空闲节点，包括：在最大任务处理数量大于实时任务处理数量的目标节点中，筛选实时任务处理数量最小的目标节点，得到空闲节点。

实时任务处理数量最小的目标节点，表明该目标节点还可以并行执行的任务最多，表明该目标节点最空闲。或者，可以选择最大任务处理数量与实时任务处理数量之间的差值最大的目标节点，确定为空闲节点。若实时任务处理数量最小的目标节点的数量有多个，可以随机选择一个，或者将筛选出的首个任务处理数量最小的目标节点，确定为空闲节点。

通过将实时任务处理数量最小的目标节点，作为空闲节点，实现选择最空闲的服务节点执行语言处理任务，实现负载均衡。

可选的，在将所述语言处理任务分配给所述空闲节点执行之后，还包括：更新所述空闲节点的实时任务处理数量。

实时任务处理数量可以是在分配语言处理任务时，实时检测得到。或者可以在服务节点的任务处理状态改变时更新服务节点的实时任务处理数量，减少检测成本。通过更新空闲节点的实时任务处理数量，可以在分配下个语言处理任务时直接获取，减少请求获取节点任务处理状态的耗时和成本，从而提高任务处理效率。

可选的，任务处理方法还包括：获取节点注册请求；从所述节点注册请求中，提取备选节点的节点功能信息，所述节点功能信息包括下述至少一项：运行的模型的模型类型、模型功能和模型性能；根据所述节点功能信息，确定所述备选节点对应的任务类型；从所述节点注册请求中，提取所述备选节点的处理单元类型；根据所述备选节点的处理单元类型，和处理单元类型与最大任务处理数量之间的映射关系，确定所述备选节点的最大任务处理数量；根据所述备选节点的任务类型和最大任务处理数量，对所述备选节点进行注册。

节点注册请求可以是指备选节点添加到服务节点集群的请求。节点注册请求用于在服务节点集群中添加备选节点时，获取备选节点的信息。节点注册请求中携带有备选节点的信息，示例性的，可以包括节点功能信息和处理单元类型等。节点功能信息可以是指节点的功能和性能的信息。备选节点可以运行自然语言模型，或生成模型，运行模型可以是直接运行模型，或者是间接调用模型。运行的模型的模型类型，即确定输出类型，例如，模型类型可以包括：文本生成模型、图像生成模型、富文本生成模型或超链接生成模型。模型功能用于确定输出的具体内容。例如，文本生成模型的功能可以包括：聊天、标题生成、写作文、写小说或写论文等。图像生成模型的功能可以包括：描述绘画、实物绘画或模仿图像绘画等。模型性能可以是模型的速度、预测准确性、泛化能力或运行速度等。示例性的，文本生成模型的处理耗时小于图像生成模型的护理耗时。根据节点功能信息可以确定任务类型。具体的，任务类型中一级分类(大分类)与模型类型匹配，例如，文本生成类型与文本生成模型对应。任务类型中二级分类(小分类)与模型功能匹配。例如，人机交互的文本生成类型，与聊天的功能对应。

可以预先根据实验统计确定处理单元类型和最大任务处理数量之间的映射关系。根据备选节点的处理单元类型，以及该映射关系，确定备选节点的最大任务处理数量。此外，还可以对备选节点进行可信可靠性等校验。在校验通过时，将备选节点添加到服务节点集群中。将备选节点的节点功能信息、任务类型、处理单元类型和最大任务处理数量等，作为备选节点的附加信息。对备选节点进行注册，可以是记录备选节点的标识信息，并对应记录其附加信息，以便以后为该备选节点分配任务。标识信息可以包括备选节点的名称和/或URL(Uniform Resource Locator，统一资源***)等。

通过在备选节点添加到服务节点集群时，同时检测任务类型和最大任务处理数量，可以对备选节点进行注册，从而可以在分配任务时，及时获取，提高任务处理效率。

根据本公开的技术方案，通过处理单元类型确定最大任务处理数量，并将最大任务处理数量大于实时任务处理数量的目标节点，确定为空闲节点，实现快速获取性能空闲的服务节点，同时，可以适配包括复杂多样的处理单元类型的服务节点的服务节点集群，增加服务节点集群的兼容性，提高算力资源的利用率。

图3是根据本公开实施例公开的另一种任务处理方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。所述在服务节点集群中，查询所述任务类型对应的至少一个目标节点，具体化为：获取锁；根据所述锁，在服务节点集群中，查询所述任务类型对应的至少一个目标节点；所述更新所述空闲节点的实时任务处理数量，具体化为：更新所述空闲节点的实时任务处理数量，并释放所述锁。

S301、获取语言处理任务和所述语言处理任务的任务类型。

S302、获取锁。

锁用于更新服务节点的状态。锁可以是全局锁，用于锁定服务节点集群的任务处理的状态。

S303、根据所述锁，在服务节点集群中，查询所述任务类型对应的至少一个目标节点。

实际上，可以存在多个语言处理任务同时分配的需求，若同时分配，会导致服务节点集群的任务处理的状态的不准确，任务处理的状态具体是实时任务处理数量。例如，语言处理任务A和B，A分配了某个空闲节点，若该空闲节点的任务处理状态更新不及时，针对B无法在正确的任务处理状态下，分配到真正空闲的目标节点，从而导致负载均衡分配不准。某一模块获取了锁之后，在同一时间仅存在该模块为语言处理任务(且数量为一个)选择目标节点，也即在同一时间处理的语言任务的数量只有一个，不存在多个语言处理任务同时处理的情况。服务节点集群中的实时任务处理数量固定不变，为只读状态，可以被其他同时也需要分配语言处理任务的模块读取到。

S304、获取各所述目标节点的实时任务处理数量。

实时任务处理数量此时稳定不变，不会受到其他语言处理任务的分配的干扰。

S305、获取所述目标节点最大任务处理数量，所述最大任务处理数量根据所述目标节点的处理单元类型确定。

S306、获取最大任务处理数量大于实时任务处理数量的目标节点，并从中筛选空闲节点。

S307、将所述语言处理任务分配给所述空闲节点执行。

S308、更新所述空闲节点的实时任务处理数量，并释放所述锁。

实时任务处理数量更新，表明语言处理任务分配空闲节点，并实时更新了该空闲节点的实时任务处理数量。此时释放锁，可以确保分配语言处理任务的模块不能在对服务节点集群的任务处理状态进行增删改，以确保服务节点集群的任务处理状态最新且锁定。再由其他需要分配语言处理任务的模块获取锁，并更新状态。

通常在将语言处理任务分配给空闲节点的同时或者之后，释放锁。

通过锁可以实现串行分配语言处理任务，避免同时分配造成任务状态不准确，从而影响任务分配不准确。

S309、获取所述空闲节点针对所述语言处理任务的执行结果，并反馈所述执行结果。

可选的，所述任务处理方法还包括：在所述空闲节点执行完成所述语言处理任务时，获取所述锁；更新所述空闲节点的实时任务处理数量，释放所述锁。

在执行完成语言处理任务时，表明该空闲节点的实时任务处理数量减少，获取锁，更新该空闲节点的实时任务处理数量，更新之后释放锁，可以确保服务节点集群的任务处理状态最新且锁定。可以在接收到执行结果时，确定空闲节点执行完成语言处理任务。

通过获取锁，更新服务节点集群的实时任务处理数量，释放锁，可以确保服务节点集群的任务处理状态最新且锁定，减少并行分配语言处理任务时由于任务状态更新不及时，导致负载分配不均的情况，提高空闲任务匹配准确性。

可选的，所述任务处理方法还包括：在各所述目标节点中不存在空闲节点，等待预设目标时长，重新获取各所述目标节点的实时任务处理数量，并在各所述目标节点中筛选空闲节点；若等待时长满足超时条件，提示所述任务类型对应的服务扩容建议信息。

若任务类型对应的各目标节点的最大任务处理数量均小于等于实时任务处理数量，确定不存在空闲节点。目标时长为重试的等待时长。目标时长可以是10秒。在等待过程中，可以存在其他模块对语言处理任务进行分配服务节点，或者存在目标节点处理完成语言处理任务，重新获取最新的实时任务处理数量，检测是否存在空闲节点。

超时条件用于检测等待时长是否过长。通常超时条件表明目标节点均满负荷，无法继续增加任务。满足超时条件，可以通过增加任务类型对应的目标节点。任务类型对应的服务扩容建议信息，用于提示增加任务类型对应的目标节点，以适配当前不够的算力。

示例性的，超时条件可以是等待时长大于等于n*目标时长。或者是等待的次数大于等于预设次数阈值。n可以是3，次数阈值可以是4，可以根据需要设定，对此不具体限制。

通过在不存在空闲节点时等待重试，并在等待时长满足超时条件时，提示服务扩容，可以针对性的扩容，并且满足模型的横向扩容的需求。

此外，基于本公开的负载均匀的任务处理方法，对服务节点集群进行扩容，可以实现线性扩容，提高服务资源的使用率。

根据本公开的技术方案，通过为服务节点集群设置锁，实现在同一时间只能对一个语言处理任务分配节点，并更新节点的实时任务处理数量，确保服务节点集群的任务处理状态最新且锁定，减少多个同时任务分配，导致状态不准确，从而影响负载均衡的问题，精准实现负载均匀分配。

根据本公开的实施例，图4是本公开实施例中的任务处理装置的结构图，本公开实施例适用于大语言模型的预测服务进行负载均衡的情况。该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中，可以是服务器设备。

如图4所示的一种任务处理装置400，包括：负载均衡器401和资源协调器402。其中，

负载均衡器401，用于获取语言处理任务和所述语言处理任务的任务类型；

资源协调器402，用于在服务节点集群中，查询所述任务类型对应的至少一个目标节点；

所述资源协调器402，用于获取各所述目标节点的实时任务处理数量；

所述资源协调器402，用于根据各所述目标节点的实时任务处理数量，在各所述目标节点中筛选空闲节点；

所述负载均衡器401，用于将所述语言处理任务分配给所述空闲节点执行；

所述负载均衡器401，用于获取所述空闲节点针对所述语言处理任务的执行结果，并反馈所述执行结果。

进一步的，所述资源协调器402，包括：最大任务处理数量获取模块，用于获取所述目标节点最大任务处理数量，所述最大任务处理数量根据所述目标节点的处理单元类型确定；空闲节点筛选模块，用于获取最大任务处理数量大于实时任务处理数量的目标节点，并从中筛选空闲节点。

进一步的，所述空闲节点筛选模块，包括：余量节点检测单元，用于在最大任务处理数量大于实时任务处理数量的目标节点中，筛选实时任务处理数量最小的目标节点，得到空闲节点。

进一步的，所述资源协调器402，还包括：实时任务处理量更新模块，用于在将所述语言处理任务分配给所述空闲节点执行之后，更新所述空闲节点的实时任务处理数量。

进一步的，所述资源协调器402，还包括：注册请求接收模块，用于获取节点注册请求；节点信息提取模块，用于从所述节点注册请求中，提取备选节点的节点功能信息，所述节点功能信息包括下述至少一项：运行的模型的模型类型、模型功能和模型性能；任务类型确定模块，用于根据所述节点功能信息，确定所述备选节点对应的任务类型；处理单元类型确定模块，用于从所述节点注册请求中，提取所述备选节点的处理单元类型；最大任务量确定模块，用于根据所述备选节点的处理单元类型，和处理单元类型与最大任务处理数量之间的映射关系，确定所述备选节点针对对应的任务类型的最大任务处理数量；节点添加模块，用于根据所述备选节点的任务类型和最大任务处理数量，对所述备选节点进行注册。

进一步的，所述语言处理任务通过用户人机交互输入的语言内容生成，所述任务类型通过对所述语言内容进行意图识别确定，所述任务类型包括下述至少一项：文本生成类型、图像生成类型、富文本生成类型和超链接生成类型。

进一步的，所述资源协调器402还包括：等待重试模块，用于在各所述目标节点中不存在空闲节点，等待预设目标时长，重新获取各所述目标节点的实时任务处理数量，并在各所述目标节点中筛选空闲节点；所述负载均衡器401，还包括：扩容提示模块，用于若等待时长满足超时条件，提示所述任务类型对应的服务扩容建议信息。

进一步的，所述资源协调器402，包括：锁获取模块，用于获取锁；节点查询模块，用于根据所述锁在服务节点集群中，查询所述任务类型对应的至少一个目标节点；所述实时任务处理量更新模块，包括：锁释放单元，用于更新所述空闲节点的实时任务处理数量，并释放所述锁。

进一步的，所述资源协调器402，还包括：任务完成状态获取模块，用于在所述空闲节点执行完成所述语言处理任务时，获取所述锁；状态更新模块，用于更新所述空闲节点的实时任务处理数量，释放所述锁。

上述任务处理装置可执行本公开任意实施例所提供的任务处理方法，具备执行任务处理方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种服务器、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性区域图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。电子设备500可以是服务器。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如任务处理方法。例如，在一些实施例中，任务处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的任务处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行任务处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准对象(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)区块链网络和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作***、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

图6是根据本公开实施例公开的一种语言预测***的示意图。该语言预测***包括：如本公开任一项实施例所述的功能服务器，和服务节点集群；所述功能服务器用于接收语言处理任务和所述语言处理任务的任务类型；所述功能服务器将所述语言处理任务分配至所述服务节点集群中节点；所述服务节点集群用于执行语言处理任务得到执行结果，并将所述执行结果反馈给所述功能服务器；所述功能服务器用于反馈所述执行结果。

可选的，所述功能服务器包括至少一个负载均衡器。

负载均衡器：负载均衡器是一种网络设备或软件，用于将网络流量分发到多个服务器上，以提高网络服务的性能、可靠性和可扩展性。负载均衡器通常用于处理高并发流量和提供高可用***，可以分发来自用户的请求、流量和数据，将它们转发到多个后端服务器上，从而避免单点故障和过载。

通过设置至少一个负载均衡器，可以并行接收多个不同来源的语言处理任务，并且可以在某个负载均衡器异常之后，仍能提供语言处理服务，提高语言预测***的容错性。

图7是根据本公开实施例公开的一种人机交互***的示意图。该人机交互***包括：如本公开任一项实施例所述的语言预测***和人机交互服务器；所述人机交互服务器，用于获取用户输入的语言内容，并对所述语言内容进行意图识别，生成语言处理任务和所述语言处理任务的任务类型；所述人机交互服务器，用于将所述语言处理任务和所述任务类型发送至所述语言预测***；所述语言预测***，用于根据所述任务类型处理所述语言处理任务，得到执行结果，并反馈给所述人机交互服务器；所述人机交互服务器，用于将所述执行结果反馈给所述用户。

根据本公开的技术方案，可以提高自然语言请求的处理效率；减少服务资源的浪费；极大促进了语言大模型推理过程中流量均衡；满足大语言模型横向扩缩容业务需要。

图8-图10是根据本公开实施例公开的另一种任务处理方法的场景图。在本公开实施例中，任务处理方法应用于提供大模型的服务的应用场景中。大模型是指具有非常大的参数数量的人工神经网络模型。具体是应用于大语言模型的应用场景。大语言模型利用预先训练好的大规模语言模型对新的文本进行推理或预测，即执行语言处理任务。在大模型推理中，预训练的模型已经具有较强的语言理解和表达能力，可以快速地对输入的文本或任务进行处理和预测。如图8所示，大语言模型的应用场景中，设置有服务节点集群，服务节点集群包括服务节点S1、服务节点S2……服务节点SN。每个服务节点采用显卡运行某类语言模型，并具有该类语言模型实现的功能，不同服务节点可以运行不同类的语言模型，使得服务节点集群可以同时实现不同类型的功能，例如，服务节点S1配置有显卡1，服务节点S2配置有显卡2……服务节点SN配置有显卡N。其中，显卡(GPU)：在大语言模型训练和推理过程中，需要执行大量的矩阵计算和向量计算，这些计算通常可以通过显卡的并行计算能力来加速。

在产品用户端，用户通过Web可以使用大语言模型文案生成、文档问答以及文本续写的能力。用户可以在客户端(Web)输入语言内容；客户端根据语言内容生成用户请求，并发送至人机交互服务器中。人机交互服务器将请求中语言内容进行意图识别，生成语言处理任务和该语言处理任务对应的任务类型。人机交互服务器向负载均衡器发起预测。

负载均衡器在接收到语言处理任务后，调用资源协调器，在资源协调器中，查询最可能空闲的模型推理服务，即空闲节点，然后更新空闲节点在资源协调器中的任务处理状态，具体是该空闲节点的实时任务处理数量。资源协调器将空闲节点的URL发送至负载均衡器，负载均衡器将语言处理任务发送至该空闲节点处，发起预测推理。在空闲节点完成本次推理后，资源协调器重新获取锁，重置资源协调器中服务节点的实时任务处理数量，释放锁。

其中，如图9所示，资源协调器，根据任务类型，查询可以处理该语言处理任务的目标节点L1；多个目标节点L1形成L1列表，在L1列表中查询每个目标节点的实时任务处理数量是否小于对应的最大任务处理数量，将小于的目标节点即为节点L2，多个节点L2形成L2列表。在L2列表中查询实时任务处理数量最小的目标节点。如果有多个符合要求的目标节点，选择首个目标节点，确定为空闲节点，获取并发送空闲节点的URL至负载均衡器。例如，语言处理任务的一个示例处理顺序是：服务节点S2执行第一个语言处理任务，服务节点S3执行第二个语言处理任务，服务节点S1处理第三个语言处理任务，服务节点SN处理第四个语言处理任务。

如果负载均衡器在目标节点中无法找到可用的空闲节点，一直等待，直到有可用的目标节点来完成预测，或者确定该语言处理任务超时，反馈超时结果等等。

如果发生了超时，则重新执行调用资源协调器，查询空闲节点。如果重试三次后仍然超时，则返回给运营人员服务扩容建议信息，提示运营人员对服务扩容处理。

如图10所示，服务节点启动并初始化，服务节点向扩容协调器发送注册请求，并作为备选节点请求添加到服务节点集群中。或者用户可以调用扩容协调器实现服务节点集群的扩容。扩容协调器接收到备选节点的添加到服务节点集群的信息，生成节点注册请求发送至资源协调器。资源协调器从节点注册请求提取节点功能信息和处理单元类型，并确定备选节点对应的任务类型和最大任务处理数量。将节点功能信息、处理单元类型(CPU、显卡和内存等)、任务类型和最大任务处理数量作为该备选节点的附加信息，将备选节点注册到资源协调器中。资源协调器在服务节点集群包括S1-SN的服务节点的基础上，注册备选节点，记录为服务节点SN+1。从而后续查询空闲节点时，备选节点作为可选的节点进行检测。资源协调器可以初始化该备选节点的实时任务处理数量为0，之后可以根据为该备选节点分配的任务和处理完成的任务，不断更新该备选节点的实时任务处理数量。

现有的技术方案，针对大模型的负载均衡，使用传统的轮询、IP Hash、最小连接数、最小响应时间、加权轮询以及加权最小连接数等负载均衡方案。在kubernetes(容器集群管理***)集群中大部分使用kubernetes service(服务)作为负载均衡的方案，裸部署一般使用nginx(负载均衡器)作为负载均衡的方案。大语言模型的推理时长受输入的文本长度以及生成的文本长度限制，每次请求的耗时差异巨大，该方案下，涌现出较多问题。1.导致在分布式环境中，部分机器显卡被打满、部分显卡空闲，负载不均匀；2.不能够充分的利用显卡算力，浪费算力资源；3.不能满足语言大模型横向扩容、缩容的需要；4.导致扩容后，QPS无法线性增加。

本公开实施例可以提升语言大模型推理过程中显卡的利用率；可在相同资源下，提高数据的处理效率；减少在软件生产环境中资源的浪费；均衡多个语言大模型单实例流量，提升模型推理效率；弥补kubernetes service、ingress以及nginx等通用负载均衡设备在大模型场景的缺陷；快速扩容和缩容大模型推理服务，满足业务的弹性扩缩容；优先处理率先到达的任务。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种任务处理方法，包括：

获取语言处理任务和所述语言处理任务的任务类型；

获取各所述目标节点的实时任务处理数量；

将所述语言处理任务分配给所述空闲节点执行；

2.根据权利要求1所述的方法，其中，所述根据各所述目标节点的实时任务处理数量，在各所述目标节点中筛选空闲节点，包括：

获取所述目标节点最大任务处理数量，所述最大任务处理数量根据所述目标节点的处理单元类型确定；

获取最大任务处理数量大于实时任务处理数量的目标节点，并从中筛选空闲节点。

3.根据权利要求2所述的方法，在将所述语言处理任务分配给所述空闲节点执行之后，还包括：

更新所述空闲节点的实时任务处理数量。

4.根据权利要求2所述的方法，还包括：

获取节点注册请求；

从所述节点注册请求中，提取备选节点的节点功能信息，所述节点功能信息包括下述至少一项：运行的模型的模型类型、模型功能和模型性能；

根据所述节点功能信息，确定所述备选节点对应的任务类型；

从所述节点注册请求中，提取所述备选节点的处理单元类型；

根据所述备选节点的处理单元类型，和处理单元类型与最大任务处理数量之间的映射关系，确定所述备选节点的最大任务处理数量；

根据所述备选节点的任务类型和最大任务处理数量，对所述备选节点进行注册。

5.根据权利要求1所述的方法，其中，所述语言处理任务通过用户人机交互输入的语言内容生成，所述任务类型通过对所述语言内容进行意图识别确定，所述任务类型包括下述至少一项：文本生成类型、图像生成类型、富文本生成类型和超链接生成类型。

6.根据权利要求1所述的方法，还包括：

在各所述目标节点中不存在空闲节点，等待预设目标时长，重新获取各所述目标节点的实时任务处理数量，并在各所述目标节点中筛选空闲节点；

若等待时长满足超时条件，提示所述任务类型对应的服务扩容建议信息。

7.根据权利要求3所述的方法，其中，所述在服务节点集群中，查询所述任务类型对应的至少一个目标节点，包括：

获取锁；

根据所述锁，在服务节点集群中，查询所述任务类型对应的至少一个目标节点；

所述更新所述空闲节点的实时任务处理数量，包括：

更新所述空闲节点的实时任务处理数量，并释放所述锁。

8.一种任务处理装置，包括：

9.根据权利要求8所述的装置，其中，所述资源协调器，包括：

最大任务处理数量获取模块，用于获取所述目标节点最大任务处理数量，所述最大任务处理数量根据所述目标节点的处理单元类型确定；

空闲节点筛选模块，用于获取最大任务处理数量大于实时任务处理数量的目标节点，并从中筛选空闲节点。

10.根据权利要求9所述的装置，所述资源协调器，还包括：

实时任务处理量更新模块，用于在将所述语言处理任务分配给所述空闲节点执行之后，更新所述空闲节点的实时任务处理数量。

11.根据权利要求9所述的装置，所述资源协调器，还包括：

注册请求接收模块，用于获取节点注册请求；

节点信息提取模块，用于从所述节点注册请求中，提取备选节点的节点功能信息，所述节点功能信息包括下述至少一项：运行的模型的模型类型、模型功能和模型性能；

任务类型确定模块，用于根据所述节点功能信息，确定所述备选节点对应的任务类型；

处理单元类型确定模块，用于从所述节点注册请求中，提取所述备选节点的处理单元类型；

最大任务量确定模块，用于根据所述备选节点的处理单元类型，和处理单元类型与最大任务处理数量之间的映射关系，确定所述备选节点针对对应的任务类型的最大任务处理数量；

节点添加模块，用于根据所述备选节点的任务类型和最大任务处理数量，对所述备选节点进行注册。

12.根据权利要求8所述的装置，其中，所述语言处理任务通过用户人机交互输入的语言内容生成，所述任务类型通过对所述语言内容进行意图识别确定，所述任务类型包括下述至少一项：文本生成类型、图像生成类型、富文本生成类型和超链接生成类型。

13.根据权利要求8所述的装置，所述资源协调器还包括：

等待重试模块，用于在各所述目标节点中不存在空闲节点，等待预设目标时长，重新获取各所述目标节点的实时任务处理数量，并在各所述目标节点中筛选空闲节点；

所述负载均衡器，还包括：

扩容提示模块，用于若等待时长满足超时条件，提示所述任务类型对应的服务扩容建议信息。

14.根据权利要求10所述的装置，其中，所述资源协调器，包括：

锁获取模块，用于获取锁；

节点查询模块，用于根据所述锁在服务节点集群中，查询所述任务类型对应的至少一个目标节点；

所述实时任务处理量更新模块，包括：

锁释放单元，用于更新所述空闲节点的实时任务处理数量，并释放所述锁。

15.一种服务器，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的任务处理方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的任务处理方法。

17.一种语言预测***，包括：如权利要求15所述的功能服务器，和服务节点集群；所述功能服务器包括至少一个负载均衡器；

所述功能服务器用于反馈所述执行结果。

18.一种人机交互***，包括：如权利要求17所述的语言预测***和人机交互服务器；