CN113609266A

CN113609266A - 资源处理方法以及装置

Info

Publication number: CN113609266A
Application number: CN202110780305.9A
Authority: CN
Inventors: 施晨; 胡于响; 张增明; 邵亮; 姜飞俊
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-11-05

Abstract

本说明书实施例提供资源处理方法以及装置，其中所述资源处理方法包括：接收携带有待获取资源的资源获取请求，并在确定所述待获取资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息，获取用户的当前对话中目标对话轮次包含的当前资源类别，基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别。

Description

资源处理方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及资源处理方法。本说明书一个或者多个实施例同时涉及资源处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着科技的发展，越来越多的人工智能对话设备随之应运而生，用户可通过与人工智能对话设备进行对话交互或动作交互的方式，让人工智能对话设备为用户进行视频、音频的播放，或进行天气播报等等。

但随着人工智能对话设备中可为用户提供的服务项目的不断拓展，人工智能对话设备中的第三方应用或相关技能的接入越来越多，往往同一个人工智能设备中，同类型的应用或技能也逐渐增多。对于用户的同一请求，很多时候会有多个应用或技能都可以进行承接。因此，如何根据用户的请求，为用户选择更加准确、更加贴合用户需求的应用或技能为用户提供相应服务，以提高用户的使用体验成为亟需解决的问题。

发明内容

有鉴于此，本说明书实施例提供了资源处理方法。本说明书一个或者多个实施例同时涉及资源处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种资源处理方法，包括：

接收携带有待获取资源的资源获取请求，并在确定所述待获取资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息；

获取用户的当前对话中目标对话轮次包含的当前资源类别；

基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别。

可选地，所述基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别，包括：

将所述资源获取请求、所述历史偏好信息以及所述当前资源类别输入预测模型进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果；

根据所述概率预测结果确定所述待获取资源的目标资源类别。

可选地，所述将所述资源获取请求、所述历史偏好信息以及所述当前资源类别输入预测模型进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果，包括：

将所述资源获取请求、所述历史偏好信息以及所述当前资源类别作为输入集，输入预测模型的向量编码模块进行编码处理，生成所述输入集的编码向量；

将所述编码向量输入所述预测模型的概率预测模块进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果。

可选地，所述将所述资源获取请求、所述历史偏好信息以及所述当前资源类别作为输入集，输入预测模型的向量编码模块进行编码处理，生成所述输入集的编码向量，包括：

将所述资源获取请求输入预测模型的第一向量编码模块进行编码处理，生成第一编码向量；

将所述历史偏好信息输入预测模型的第二向量编码模块进行编码处理，生成第二编码向量；

将所述当前资源类别及所述每个资源类别输入预测模型的第三向量编码模块进行编码处理，生成对应的第三编码向量；

将所述第一编码向量、所述第二编码向量及所述第三编码向量共同作为所述资源获取请求、所述历史偏好信息以及所述当前资源类别的编码向量。

可选地，所述将所述当前资源类别及所述每个资源类别输入预测模型的第三向量编码模块进行编码处理，生成对应的第三编码向量，包括：

分别将所述当前资源类别作为输入集输入预测模型的第三向量编码模块进行编码处理，生成各当前资源类别对应的第一子编码向量；

将所述每个资源类别共同作为输入集输入预测模型的第三向量编码模块进行编码处理，生成所述输入集对应的第二子编码向量；

将所述第一子编码向量及所述第二子编码向量输入注意力计算模块进行注意力计算，生成对应的第三子编码向量；

将所述第二子编码向量输入预测模型的全卷积网络和平均池化层进行处理，生成对应的第四子编码向量；

将所述第三子编码向量及所述第四子编码向量共同作为所述当前资源类别及所述每个资源类别对应的第三编码向量。

可选地，所述将所述编码向量输入所述预测模型的概率预测模块进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果，包括：

将所述第一编码向量、所述第二编码向量及所述第三编码向量输入概率预测模块中的注意力计算子模块进行注意力计算，生成对应的注意力计算结果；

基于所述注意力计算结果进行多任务学习，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果；

根据所述初始概率预测结果确定所述用户对所述每个资源类别提交负反馈的概率预测结果。

可选地，所述基于所述注意力计算结果进行多任务学习，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果，包括：

将所述注意力计算结果输入所述概率预测模块中的全卷积网络进行降维处理，生成每个资源类别下各任务维度对应的降维处理结果；

利用激活函数对所述降维处理结果进行处理，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果。

可选地，所述资源处理方法，还包括：

在预先建立的常识信息映射表中查询与所述待获取资源存在映射关系的常识信息编码向量；

基于所述资源获取请求、所述历史偏好信息、所述当前资源类别以及所述常识信息编码向量，确定所述待获取资源的目标资源类别。

可选地，所述资源处理方法，还包括：

提取与所述目标资源类别对应的待获取资源，并将与所述目标资源类别对应的待获取资源发送至所述用户以响应所述资源获取请求。

可选地，所述资源处理方法，还包括：

接收所述用户针对所述待获取资源提交的反馈信息；

在根据所述反馈信息，确定所述用户针对所述目标资源类别对应的待获取资源提交负反馈的情况下，根据所述历史偏好信息以及所述当前资源类别，对所述目标资源类别进行调整，并将调整结果对应的待获取资源返回至所述用户。

根据本说明书实施例的第二方面，提供了另一种资源处理方法，包括：

接收携带有信息资源获取请求的语音指令，并在确定所述信息资源获取请求中的待获取信息资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息；

获取所述用户的当前对话中目标对话轮次包含的当前资源类别；

基于所述语音指令、所述历史偏好信息以及所述当前资源类别，确定所述待获取信息资源的目标资源类别；

提取与所述目标资源类别对应的待获取信息资源并发送至所述用户，以响应所述语音指令。

根据本说明书实施例的第三方面，提供了一种资源处理装置，包括：

接收模块，被配置为接收携带有待获取资源的资源获取请求，并在确定所述待获取资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息；

获取模块，被配置为获取用户的当前对话中目标对话轮次包含的当前资源类别；

确定模块，被配置为基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别。

根据本说明书实施例的第四方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取用户的当前对话中目标对话轮次包含的当前资源类别；

根据本说明书实施例的第五方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述资源处理方法的步骤。

本说明书一个实施例通过接收携带有待获取资源的资源获取请求，并在确定所述待获取资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息，获取用户的当前对话中目标对话轮次包含的当前资源类别，基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别。

本说明书实施例在接收到用户的资源获取请求后，可根据用户对每个资源类别的历史偏好信息、用户在当前对话中目标对话轮次包含的资源类别，并结合所述资源获取请求中的待获取资源为用户个性化地给出不同资源类别的排序结果，以根据排序结果选择更加贴合用户需求的目标资源类别的待获取资源，从而有利于提高资源获取结果的准确性，并有利于提高用户的服务体验。

附图说明

图1是本说明书一个实施例提供的一种资源处理方法的处理流程图；

图2是本说明书一个实施例提供的一种资源处理过程的示意图；

图3是本说明书一个实施例提供的一种资源处理方法的处理过程流程图；

图4是本说明书一个实施例提供的一种资源处理装置的示意图；

图5是本说明书一个实施例提供的另一种资源处理方法的处理流程图；

图6是本说明书一个实施例提供的另一种资源处理装置的示意图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

负反馈：用户与人工智能对话设备交流时，由于对设备的回复不满意，产生的负向反馈行为。

负反馈率：在特定的用户请求集合中，包含用户负向反馈行为的请求数占总请求数的比例。

达成率：在特定的用户请求集合中，用户需求被成功达成的请求数占总请求数的比例。

在本说明书中，提供了资源处理方法，本说明书同时涉及资源处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

人工智能对话设备在接收到用户的请求后，可为用户进行流量分发，以调用相关的应用为用户提供服务器，但目前的流量分发体系相对静态，对同一句用户请求的分发排序结果是固定的，不会随着不同用户或场景而变化，也并未直接以线上用户体验为算法优化目标调整策略，因此已无法满足新一代智能助手的需求。新一代的智能流量分发排序模型，应直接以用户体验为在线优化目标，兼具个性化、自适应、场景化的特性。在同一句用户请求有多个领域或技能都可承接的情况下，如何开发出一套参考不同用户偏好、不同上下文对话场景、并根据用户体验随时间推移自适应地调整策略的排序模型，是进一步提升用户体验，推动技能生态和质量的发展的关键。

图1示出了根据本说明书一个实施例提供的一种资源处理方法的处理流程图，包括步骤102至步骤106。

步骤102，接收携带有待获取资源的资源获取请求，并在确定所述待获取资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息。

本说明书实施例提供的资源处理方法，应用于客户端，该客户端包括但不限于大型音视频播放设备、游戏机、台式计算机、智能手机、平板电脑、MP3(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器，MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、电子书阅读器以及其它显示终端等客户端。

用户可向客户端发送资源获取请求，而客户端在接收到用户的资源获取请求后，可根据所述资源获取请求中待获取资源的资源类别，为用户提供对应类别的资源。但在待获取资源存在多种资源类别的情况下，客户端则需确定用户对每个资源类别的历史偏好信息，以根据所述历史偏好信息从多种资源类别中选择一种类别的资源，并向用户返回。

具体的，所述待获取资源，即用户请求获取的资源，包括但不限于视频资源、音频资源、文字资源等；所述资源类别，即所述待获取资源的类别，包括但不限于视频类别、音频类别、文字类别等。

客户端在接收到待获取资源的资源获取请求，并在确定该待获取资源对应至少两个资源类别的情况下，即可确定用户对每个资源类别的历史偏好信息。

以所述资源获取请求为“播放歌手S1的歌曲M1”为例，由于歌曲M1的资源类别包含音频(歌曲)和视频(音乐短片)两类，这种情况下，客户端则需要确定用户对客户端中每个资源类别的历史偏好信息，以确定为用户提供哪种类别的资源。

实际应用中，用户对每个资源类别的历史偏好信息，包括但不限于用户过去3个月/1个月/7天/1天向客户端发送的资源获取请求次数、用户向客户端提交的负反馈信息、每个资源类别在过去3个月/1个月/7天/1天被调用的次数、每个资源类别的负反馈信息、用户在该资源类别下，过去3个月/1个月/7天/1天提交的资源获取请求次数、用户在过去3个月/1个月/7天/1天针对该资源类别提交负反馈信息、用户过去3个月/7天中偏好的前10个资源类别，以及在这些资源类别下用户提交资源获取去请求的次数、用户提交的负反馈信息等。

步骤104，获取用户的当前对话中目标对话轮次包含的当前资源类别。

具体的，若用户与客户端进行对话交互，即用户通过与客户端进行对话的方式向客户端发送资源获取请求，则所述当前对话，即携带所述资源获取请求的对话，并且当前对话中可以包含除携带资源获取请求的对话之外的其他对话，并且当前对话中可以包含多个对话轮次；其中，一个对话轮次即用户与客户端进行的一轮对话；而所述目标对话轮次，则可以是携带所述资源获取请求的对话所在对话轮次的之前1～3个对话轮次。

另外，所述当前资源类别，即所述目标对话轮次所包含的资源类别，表征用于在提交该资源获取请求之前，在与客户端进行对话交互的过程中提及了当前资源类别。

与前述的历史偏好信息相对应，所述当前资源类别即相当于是用户的实时信息，本说明书实施例结合所述历史偏好信息和所述实时信息确定待获取资源的目标资源类别，有利于提高确定结果的准确性。

步骤106，基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别。

具体的，确定用户对每个资源类别的历史偏好信息，并获取用户的当前对话中目标对话轮次包含的当前资源类别后，即可基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别。

具体实施时，基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别，具体可通过以下方式实现：

具体的，确定用户对每个资源类别的历史偏好信息，并获取用户的当前对话中目标对话轮次包含的当前资源类别后，即可将所述资源获取请求、所述历史偏好信息以及所述当前资源类别输入预测模型，由预测模型对用户对各资源类别提交负反馈的概率进行预测，并生成对应的预测结果，然后可根据所述预测结果选择用户提交负反馈的概率偏低的资源类别作为所述待获取资源的目标资源类别。

具体实施时，将所述资源获取请求、所述历史偏好信息以及所述当前资源类别输入预测模型进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果，包括：

进一步的，将所述资源获取请求、所述历史偏好信息以及所述当前资源类别作为输入集，输入预测模型的向量编码模块进行编码处理，生成所述输入集的编码向量，包括：

更进一步的，将所述当前资源类别及所述每个资源类别输入预测模型的第三向量编码模块进行编码处理，生成对应的第三编码向量，包括：

具体的，预测模型中包含向量编码模块和概率预测模块，所述向量编码模块用于对所述资源获取请求、历史偏好信息和当前资源类别进行编码处理；概率预测模块用于根据向量编码模块输出的编码结果对各资源类别进行概率预测，以获得用户对各资源类别提交负反馈的概率预测结果。

另外，由于资源获取请求、历史偏好信息和当前资源类别中包含的信息存在差异，例如：资源获取请求和当前资源类别多包含一些语义信息，而历史偏好信息多包含一些数值型信息，因此，针对不同的输入信息，预测模型采用不同的向量编码模块对其进行编码处理，以得到更加准确的编码结果。

本说明书实施例中，采用预测模型中的第一向量编码模块对资源获取请求进行编码处理，生成第一编码向量，其中，所述第一向量编码模块可采用transformer模型的编码器encoder；采用预测模型的第三向量编码模块对当前资源类别及每个资源类别进行编码处理，生成第三编码向量，所述第三向量编码模块同样可采用transformer模型的编码器encoder；以及，采用预测模型的第二向量编码模块对历史偏好信息进行编码处理，生成第二编码向量，所述第二向量编码模块可采用stat编码层实现。

编码获得前述第一编码向量、第二编码向量以及第三编码向量后，即可将第一编码向量、第二编码向量及第三编码向量作为资源获取请求、历史偏好信息以及当前资源类别的编码向量。

本说明书实施例提供的一种资源处理过程的示意图如图2所示。获取资源获取请求、历史偏好信息以及当前资源类别后，将其输入预测模型进行处理，而预测模型包含向量编码模块和概率预测模块，因此，将资源获取请求、历史偏好信息以及当前资源类别输入预测模型后，首先由向量编码模块对其进行编码处理，生成对应的编码向量，再由概率预测模块基于编码结果对用户对各资源类别提交负反馈的概率进行预测，以根据预测结果筛选待获取资源的目标资源类别。

其中，如图2所示，预测模型的输入包括资源获取请求对应的请求文本(Query)、资源类别(item)、当前资源类别(用户实时信息，User real-time behavior)以及历史偏好信息，包括User profile(用户数据)、Item profile(资源类别数据)、UserItem profile(用户的资源类别数据)、User preference(用户偏好)。

其中，item即客户端所包含的全部资源类别；User real-time behavior即用户实时信息，具体即当前对话中，包含资源获取请求的对话轮次之前的1至3轮对话中包含的资源类别；User profile即该用户过去3个月/1个月/7天/1天的资源获取请求的次数、提交的负反馈信息等；Item profile即item过去3个月/1个月/7天/1天被调用的次数、用户针对该item提交的负反馈信息等；UI profile即该用户在该item下，过去3个月/1个月/7天/1天提交的资源获取请求的次数、提交的负反馈信息等；User preference即该用户过去3个月/7天中偏好的前10个资源类别，以及在这些资源类别下用户提交的资源获取请求的次数、提交的负反馈信息等。

在将这些信息输入预测模型后，由向量编码模块中的文本编码层Query EncodingLayer对Query进行编码，生成第一编码向量；由数据编码层Stat Encoding Layer对Userprofile、Item profile、UI profile以及User preference进行编码，生成第二编码向量；由资源类别编码层Item Encoding Layer对User real-time behavior中包含的各资源类别进行编码，生成各当前资源类别对应的第一子编码向量；由资源类别编码层ItemEncoding Layer对Item进行编码，生成对应的第二子编码向量；然后由注意力计算模块(文本注意力层Context Attention)对第一子编码向量和第二子编码向量进行注意力计算，生成对应的第三子编码向量；再将所述第二子编码向量输入全卷积网络(FCN Layer)进行处理，然后将处理结果输入平均池化层(Avg Pooling)进行池化处理，生成第四子编码向量；其中，所述第三子编码向量和第四子编码向量可共同作为当前资源类别及所述每个资源类别对应的第三编码向量。

或者，在平均池化层对全卷积网络输出的结果进行池化处理后，还可将生成的第四子编码向量输入drop out层进行处理，生成第五子编码向量，所述第三子编码向量和第五子编码向量可共同作为当前资源类别及所述每个资源类别对应的第三编码向量。

此外，将所述编码向量输入所述预测模型的概率预测模块进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果，具体可通过以下方式实现：

进一步的，基于所述注意力计算结果进行多任务学习，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果，包括：

具体的，本说明书实施例中，预测模型中的概率预测模块的示意图如图2所示，向量编码模块对资源获取请求、历史偏好信息以及当前资源类别进行编码处理生成第一编码向量、第二编码向量及第三编码向量后，可将所述第一编码向量、第二编码向量及第三编码向量输入概率预测模块，以由概率预测模块中的注意力计算子模块(目标注意力层TargetAttention)对第一编码向量、第二编码向量及第三编码向量进行注意力计算，生成对应的注意力计算结果，再基于该注意力计算结果进行多任务学习，以生成用户对各资源类别提交负反馈的概率预测结果。

由于本说明书实施例需对用户对不同资源类别提交负反馈的概率进行预测，而在实际应用中，用户是否对资源类别提交负反馈，主要受8个不同任务维度因素的影响，例如改变意图、客户端给予用户的反馈存在错误等；因此，为保证概率预测结果的准确性，在生成该注意力计算结果后，可基于该注意力计算结果进行多任务学习，将每个任务维度作为一个学习任务，分别对不同任务维度的负反馈概率进行预测，并根据预测结果确定总的用户对各资源类别提交负反馈的概率。

具体的多任务学习过程即，从该注意力计算结果中提取不同任务维度对应的子编码向量，然后将不同子编码向量分别输入概率预测模块中的全卷积网络(FCN Layer)进行降维处理，生成每个资源类别下各任务维度对应的降维处理结果；然后利用激活函数1和激活函数2对所述降维处理结果进行处理，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果；其中，激活函数1可以是带泄露修正线性单元函数Leaky Relu，激活函数2可以是Sigmoid函数；最后可根据不同任务维度所占权重以及不同任务维度所对应的概率预测结果计算用户对所述每个资源类别提交总负反馈的概率预测结果。

通过进行多任务学习，有利于提高概率预测结果的准确性。

除此之外，在接收到用户的资源获取请求后，可在预先建立的常识信息映射表中查询与所述待获取资源存在映射关系的常识信息编码向量，并基于所述资源获取请求、所述历史偏好信息、所述当前资源类别以及所述常识信息编码向量，确定所述待获取资源的目标资源类别。

具体的，如图2所示，除将资源获取请求、历史偏好信息以及当前资源类别输入预测模型外，还可将常识信息编码向量输入预测模型，区别在于，预测模型中的信息编码模块需对资源获取请求、历史偏好信息以及当前资源类别进行编码处理，而无需对常识信息编码向量进行编码处理；向量编码模块在对资源获取请求、历史偏好信息以及当前资源类别进行编码处理生成第一编码向量、第二编码向量和第三编码向量后，可将第一编码向量、第二编码向量、第三编码向量及常识信息编码向量共同输入概率预测模块进行处理。

实际应用中，所述常识信息编码向量可在预先建立的常识信息映射表中查询获得，并且所述常识信息映射表可由用户进行更新。由于本说明书实施例中的常识信息涉及41大类，例如"Person"、"Artist"、"Organization"等，并且通常一项资源获取请求中会涉及三个粒度，分别为领域、意图和信息槽的值，客户端在获取资源获取请求后，可确定资源获取请求中信息槽的值，然后在预先建立的常识信息映射表中查询该信息槽的值对应的常识信息编码向量，并且该常识信息编码向量为41维，每一维的值即是一个常识信息的分值，例如0.2、0.6或者1.0，这个分值用于表征每个常识信息的置信度。

以所述资源获取请求为“播放歌手S1的歌曲M1”为例，那么这里可以提取出来信息槽的值是歌手S1或者歌曲M1，然后即可在预先建立的常识信息映射表中查询歌手S1或者歌曲M1对应的常识信息编码向量，并基于资源获取请求、历史偏好信息、当前资源类别以及所述常识信息编码向量，确定所述待获取资源的目标资源类别。

最后，在确定待获取资源的目标资源类别后，即可提取与所述目标资源类别对应的待获取资源，并将与所述目标资源类别对应的待获取资源发送至所述用户以响应所述资源获取请求。例如，若目标资源类别为音频，则为用户播放歌曲；若目标资源类别为音乐短片，则为用户播放歌曲M1的音乐短片(MV)。

本说明书实施例中，在向用户发送与目标资源类别对应的待获取资源后，用户可针对该待获取资源提交反馈，并在用户提交的反馈为负反馈的情况下，还可为用户调整该待获取资源的资源类别，具体可通过以下方式实现：

接收所述用户针对所述待获取资源提交的反馈信息；

具体的，在接收到用户针对与该目标资源类别对应的待获取资源的反馈信息的情况下，可根据所述反馈信息确定用户是否提交负反馈，若用户提交负反馈，则表示该目标资源类别的待获取资源并不符合用户的需求，因此，可根据用户对资源类别的历史偏好信息以及前述的当前资源类别，并结合反馈信息重新确定符合用户需求的资源类别，即对目标资源类别进行调整，并将调整结果对应的待获取资源返回至用户。

例如，在目标资源类别为音频的情况下，通过播放器A为用户播放歌曲，但在歌曲的播放过程中，接收到用户提交的“换一个播放器”这一负反馈的情况下，则可根据反馈信息，结合用户的历史偏好信息及当前资源类别重新确定用于为用户播放歌曲的播放器B，并通过播放器B继续为用户播放歌曲。

本说明书实施例提出了一套直接以用户负向行为反馈为在线优化目标，兼具个性化、自适应、场景化的智能流量分发排序***。该***可降低线上用户负向反馈，提升用户需求达成率，并根据不同偏好的用户个性化地给出排序结果、在不同上下文对话历史下场景化地给出排序结果、并根据用户体验随时间推移自适应地调整排序策略。另外，本方案的输入针对每个用户的每条资源获取请求下的item列表，具有逐点性(pointwise)，故而易于采集到的大批量的训练数据进行训练；本方案会对Query和Item分别编码，在下游排序时可以直接参考Query的语义信息，避免了因上游自然语言理解模块解析错误导致的错误传导；本方案在item编码模块，特别加入了随机生成的负采样样本，从而一定程度避免了item维度的语义误匹配。

下述结合附图3，以本说明书提供的资源处理方法在实际场景的应用为例，对所述资源处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种资源处理方法的处理过程流程图，具体步骤包括步骤302至步骤332。

步骤302，接收携带有待获取资源的资源获取请求，并在确定所述待获取资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息。

步骤304，获取所述用户的当前对话中目标对话轮次包含的当前资源类别。

步骤306，将所述资源获取请求输入预测模型的第一向量编码模块进行编码处理，生成第一编码向量。

步骤308，将所述历史偏好信息输入预测模型的第二向量编码模块进行编码处理，生成第二编码向量。

步骤310，分别将所述当前资源类别作为输入集输入预测模型的第三向量编码模块进行编码处理，生成各当前资源类别对应的第一子编码向量。

步骤312，将所述每个资源类别共同作为输入集输入预测模型的第三向量编码模块进行编码处理，生成所述输入集对应的第二子编码向量。

步骤314，将所述第一子编码向量及所述第二子编码向量输入注意力计算模块进行注意力计算，生成对应的第三子编码向量。

步骤316，将所述第二子编码向量输入预测模型的全卷积网络和平均池化层进行处理，生成对应的第四子编码向量。

步骤318，将所述第三子编码向量及所述第四子编码向量共同作为所述当前资源类别及所述每个资源类别对应的第三编码向量。

步骤320，将所述第一编码向量、所述第二编码向量及所述第三编码向量共同作为所述资源获取请求、所述历史偏好信息以及所述当前资源类别的编码向量。

步骤322，在预先建立的常识信息映射表中查询与所述待获取资源存在映射关系的常识信息编码向量。

步骤324，将所述第一编码向量、所述第二编码向量、所述第三编码向量及所述常识信息编码向量输入概率预测模块中的注意力计算子模块进行注意力计算，生成对应的注意力计算结果。

步骤326，将所述注意力计算结果输入所述概率预测模块中的全卷积网络进行降维处理，生成每个资源类别下各任务维度对应的降维处理结果。

步骤328，利用激活函数对所述降维处理结果进行处理，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果。

步骤330，根据所述初始概率预测结果确定所述用户对所述每个资源类别提交负反馈的概率预测结果。

步骤332，根据所述概率预测结果确定所述待获取资源的目标资源类别。

本说明书实施例对上述输入特征，定制了适合不同特征的编码结构。具体地，对于Query特征和Item特征，分别使用一个基于Transformer的文本编码器进行编码；对于Userreal-time behavior，首先将其拆成一个个独立的item，之后加入位置编码，并在一个全连接层后过dropout；此外为了捕捉这些历史item与当前item间的语义关联，我们特别在二者之间加入了基于文本的注意力机制。

在所有特征编码结束后，本说明书实施例特别引入了一层注意力机制模块来进行特征的加权组合。首先将各个特征拼接在一起作为目标特征，将原本的特征列表与目标特征进行基于注意力机制的比较，来获得每个特征对于该目标特征的权重。最后对各个特征基于这个权重进行加权得到最终处理好的特征向量。

另外，本说明书实施例采用针对总体用户负反馈与负反馈各个子维度(如播放打断、重复发文等)的多任务学习，以总体负反馈的预测作为主任务，其他几个维度的预测作为辅助任务。考虑到在不同场景下，各个子任务的重要性是不同的(比如在歌曲点播场景下，播放打断的重要性要显著高于其他场景下)，这样的多任务学习机制便于我们针对场景灵活调整策略。

与上述方法实施例相对应，本说明书还提供了资源处理装置实施例，图4示出了本说明书一个实施例提供的一种资源处理装置的示意图。如图4所示，该装置包括：

接收模块402，被配置为接收携带有待获取资源的资源获取请求，并在确定所述待获取资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息；

获取模块404，被配置为获取用户的当前对话中目标对话轮次包含的当前资源类别；

确定模块406，被配置为基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别。

可选地，所述确定模块406，包括：

预测子模块，被配置为将所述资源获取请求、所述历史偏好信息以及所述当前资源类别输入预测模型进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果；

确定子模块，被配置为根据所述概率预测结果确定所述待获取资源的目标资源类别。

可选地，所述预测子模块，包括：

编码单元，被配置为将所述资源获取请求、所述历史偏好信息以及所述当前资源类别作为输入集，输入预测模型的向量编码模块进行编码处理，生成所述输入集的编码向量；

预测单元，被配置为将所述编码向量输入所述预测模型的概率预测模块进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果。

可选地，所述编码单元，包括：

第一编码子单元，被配置为将所述资源获取请求输入预测模型的第一向量编码模块进行编码处理，生成第一编码向量；

第二编码子单元，被配置为将所述历史偏好信息输入预测模型的第二向量编码模块进行编码处理，生成第二编码向量；

第三编码子单元，被配置为将所述当前资源类别及所述每个资源类别输入预测模型的第三向量编码模块进行编码处理，生成对应的第三编码向量；

处理子单元，被配置为将所述第一编码向量、所述第二编码向量及所述第三编码向量共同作为所述资源获取请求、所述历史偏好信息以及所述当前资源类别的编码向量。

可选地，所述第三编码子单元，进一步被配置为：

可选地，所述预测单元，包括：

计算子单元，被配置为将所述第一编码向量、所述第二编码向量及所述第三编码向量输入概率预测模块中的注意力计算子模块进行注意力计算，生成对应的注意力计算结果；

生成子单元，被配置为基于所述注意力计算结果进行多任务学习，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果；

确定子单元，被配置为根据所述初始概率预测结果确定所述用户对所述每个资源类别提交负反馈的概率预测结果。

可选地，所述生成子单元，进一步被配置为：

可选地，所述资源处理装置，还包括查询模块，被配置为：

可选地，所述资源处理装置，还包括：

提取模块，被配置为提取与所述目标资源类别对应的待获取资源，并将与所述目标资源类别对应的待获取资源发送至所述用户以响应所述资源获取请求。

可选地，所述资源处理装置，还包括调整模块，被配置为：

接收所述用户针对所述待获取资源提交的反馈信息；

上述为本实施例的一种资源处理装置的示意性方案。需要说明的是，该资源处理装置的技术方案与上述的资源处理方法的技术方案属于同一构思，资源处理装置的技术方案未详细描述的细节内容，均可以参见上述资源处理方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的另一种资源处理方法的处理流程图，包括步骤502至步骤506。

步骤502，接收携带有信息资源获取请求的语音指令，并在确定所述信息资源获取请求中的待获取信息资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息。

步骤504，获取所述用户的当前对话中目标对话轮次包含的当前资源类别。

步骤506，基于所述语音指令、所述历史偏好信息以及所述当前资源类别，确定所述待获取信息资源的目标资源类别。

步骤508，提取与所述目标资源类别对应的待获取信息资源并发送至所述用户，以响应所述语音指令。

具体的，本说明书实施例提供的资源处理方法，应用于客户端，该客户端可以是用于人机交互的智能机器人，用户可通过发送语音指令的方式与该客户端进行语音交互，即通过发送语音指令的方式向客户端发送资源获取请求，而客户端在接收到用户的携带有信息资源获取请求的语音指令后，可根据所述信息资源获取请求中待获取信息资源的资源类别，为用户提供对应类别的资源。但在待获取信息资源存在两种或多种资源类别的情况下，客户端则需确定用户对每个资源类别的历史偏好信息，并获取用户的当前对话中目标对话轮次包含的当前资源类别，以根据所述历史偏好信息、所述当前资源类别以及该信息资源获取请求从两种或多种资源类别中选择一种目标资源类别的待获取信息资源，并发送至用户以响应该语音指令。

实际应用中，该待获取信息资源可以是多媒体资源，例如音频或视频等资源。用户可通过发送语音指令的方式指示智能机器人播放音频或视频资源，而智能机器人在接收到该语音指令后，若存在两种或多种可用于播放音频或视频的播放器，则可根据用户对每个播放器的历史偏好信息，以及在提交该语音指令之前，用户与客户端进行对话交互的过程中提及的播放器，从两种或多种播放器中选择满足用户需求的目标播放器，并利用该目标播放器进行音频或视频的播放以响应该语音指令。

或者，该待获取信息资源可以是资讯类资源，例如新闻资讯。用户可通过发送语音指令的方式指示智能机器人展示新闻资讯，而智能机器人在接收到该语音指令后，若存在两种或多种可用于展示新闻资讯的应用，则可根据用户对每个应用的历史偏好信息，以及在提交该语音指令之前，用户与客户端进行对话交互的过程中提及的应用，从两种或多种应用中选择满足用户需求的目标应用，并利用该目标应用进行新闻资讯的展示以响应该语音指令。

再或者，该待获取信息资源还可以是待交易商品，例如口红、家用电器等。用户可通过发送语音指令的方式指示智能机器人为用户推荐商品，而智能机器人在接收到该语音指令后，若存在两种或多种可用于进行商品交易的交易平台，则可根据用户对每个交易平台的历史偏好信息，以及在提交该语音指令之前，用户与客户端进行对话交互的过程中提及的交易平台，从两种或多种交易平台中选择满足用户需求的目标交易平台，并利用该目标交易平台进行商品推荐以响应该语音指令；另外，智能机器人在接收到该语音指令后，若仅存在一种可用于进行商品交易的交易平台，但平台中可能存在多种类型或多种品牌的待交易商品，则可根据用户对每种类型或每种品牌的历史偏好信息，以及在提交该语音指令之前，用户与客户端进行对话交互的过程中提及的商品类型或品牌，从多种商品类型或品牌中选择满足用户需求的目标商品类型或商品品牌，并进行商品推荐以响应该语音指令。

另外，用户除可通过发送语音指令的方式与客户端进行交互外，还可以通过输入文字的方式发送相应的指令，客户端在获取用户输入的文字后，可通过文字识别和语义识别的方式确定用户的待获取信息资源，从而为用户发送目标资源类别的待获取信息资源，以响应该指令，具体的实现过程与前述用户的语音指令的处理过程类似，在此不再赘述。

本说明书实施例在接收到携带有信息资源获取请求的语音指令后，可根据用户对每个资源类别的历史偏好信息、用户在当前对话中目标对话轮次包含的资源类别，并结合所述信息资源获取请求中的待获取信息资源为用户个性化地给出不同资源类别的排序结果，以根据排序结果选择更加贴合用户需求的目标资源类别的待获取信息资源，从而有利于提高信息资源获取结果的准确性，并有利于提高用户的服务体验。

上述为本实施例的另一种资源处理方法的示意性方案。需要说明的是，该资源处理方法的技术方案与上述的一种资源处理方法的技术方案属于同一构思，该资源处理方法的技术方案未详细描述的细节内容，均可以参见上述一种资源处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了资源处理装置实施例，图6示出了本说明书一个实施例提供的另一种资源处理装置的示意图。如图6所示，该装置包括：

指令接收模块602，被配置为接收携带有信息资源获取请求的语音指令，并在确定所述信息资源获取请求中的待获取信息资源对应至少两个资源类别的情况下，确定用户对每个资源类别的历史偏好信息；

资源类别获取模块604，被配置为获取所述用户的当前对话中目标对话轮次包含的当前资源类别；

资源类别确定模块606，被配置为基于所述语音指令、所述历史偏好信息以及所述当前资源类别，确定所述待获取信息资源的目标资源类别；

响应模块608，被配置为提取与所述目标资源类别对应的待获取信息资源并发送至所述用户，以响应所述语音指令。

上述为本实施例的另一种资源处理装置的示意性方案。需要说明的是，该资源处理装置的技术方案与上述的另一种资源处理方法的技术方案属于同一构思，资源处理装置的技术方案未详细描述的细节内容，均可以参见上述另一种资源处理方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，所述存储器710用于存储计算机可执行指令，处理器720用于执行如下计算机可执行指令：

获取用户的当前对话中目标对话轮次包含的当前资源类别；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的资源处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述资源处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述资源处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的资源处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述资源处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种资源处理方法，包括：

2.根据权利要求1所述的资源处理方法，所述基于所述资源获取请求、所述历史偏好信息以及所述当前资源类别，确定所述待获取资源的目标资源类别，包括：

3.根据权利要求2所述的资源处理方法，所述将所述资源获取请求、所述历史偏好信息以及所述当前资源类别输入预测模型进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果，包括：

4.根据权利要求3所述的资源处理方法，所述将所述资源获取请求、所述历史偏好信息以及所述当前资源类别作为输入集，输入预测模型的向量编码模块进行编码处理，生成所述输入集的编码向量，包括：

5.根据权利要求4所述的资源处理方法，所述将所述当前资源类别及所述每个资源类别输入预测模型的第三向量编码模块进行编码处理，生成对应的第三编码向量，包括：

6.根据权利要求4或5所述的资源处理方法，所述将所述编码向量输入所述预测模型的概率预测模块进行概率预测，生成所述用户对所述每个资源类别提交负反馈的概率预测结果，包括：

7.根据权利要求6所述的资源处理方法，所述基于所述注意力计算结果进行多任务学习，生成每个资源类别下用户对各任务维度提交负反馈的初始概率预测结果，包括：

8.根据权利要求1所述的资源处理方法，还包括：

9.根据权利要求1所述的资源处理方法，还包括：

10.根据权利要求9所述的资源处理方法，还包括：

接收所述用户针对所述待获取资源提交的反馈信息；

11.一种资源处理方法，包括：

12.一种资源处理装置，包括：

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现权利要求1至11任意一项所述资源处理方法的步骤。

14.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至11任意一项所述资源处理方法的步骤。