CN109474696B

CN109474696B - 一种网络服务方法、装置、电子设备及可读存储介质

Info

Publication number: CN109474696B
Application number: CN201811504958.9A
Authority: CN
Inventors: 张宇超; 王文东; 阙喜戎
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2020-05-08
Anticipated expiration: 2038-12-10
Also published as: CN109474696A

Abstract

本发明实施例提供了一种网络服务方法、装置、电子设备及可读存储介质，应用于互联网技术领域，所述方法包括：提取各用户请求中的关键特征，根据关键特征以及、预先建立的ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组；针对每个ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点，若存在，通过目标ISP缓存节点对用户请求进行响应并传输请求数据至用户；否则通过CDN对用户请求进行响应并传输请求数据至用户。本发明可以提高网络服务质量。

Description

一种网络服务方法、装置、电子设备及可读存储介质

技术领域

本发明涉及互联网技术领域，特别是涉及一种网络服务方法、装置、电子设备及可读存储介质。

背景技术

随着互联网的高速发展，CDN(Content Deliver Network，内容分发网络)逐渐成为承载视频、直播、VR(Virtual Reality，虚拟现实)等互联网创新应用的基础支持平台和网络提速主力量，其重要性日益提高。现如今互联网数据以每年50％的速率快速增长，据Gartner(第一家信息技术研究和分析的公司)预测，到2020年，全球数据存储量将达到35Zettabyte(十万亿亿字节)。因此，如何高效地进行内容缓存与分发成为学术界与工业界的聚焦热点。

相关技术中，内容服务提供商通过向千万家庭用户提供智能硬件桥接ISP(Internet Service Provider，网络服务提供商)网络，从而将内容缓存到成千上万的ISP缓存节点当中，从而能利用ISP缓存节点的闲时带宽，将数据快速高效地分发至请求源端。该方法通过将用户请求导流至ISP缓存节点，利用ISP闲时带宽，从而缓解数据中心的流量突发压力，节省内容分发网络数据中心的网络带宽。由于ISP缓存节点的缓存内容距离请求源端的距离更近，相比于从内容分发网络远端数据中心进行传输，数据传输效率会得到大幅提升，从而对用户请求响应的服务质量提升。另外，能够有效使用ISP的闲置资源，将CDN的结构成本降至行业最低水平，为直播、VR、4K电视等CDN大需求量行业提供了一个最新技术、最低成本解决方案。

但这种服务方法也引发了新的挑战，例如：(1)ISP缓存节点的性能不稳定。相比于数据中心服务器而言，在可用带宽、服务成功率、能够承载的连接数量等方面，ISP小节点的性能可靠性大幅降低，服务抖动现象十分明显；(2)ISP缓存节点的缓存更新。由于存储空间有限，ISP缓存节点的缓存内容不足将成为另一难题。更新速度过慢会导致数据陈旧，利用率低下，而更新速度过快会频繁引发从服务器到节点的数据传输，增大网络流量，降低节点的数据缓存使用率。可见，现有的网络服务方法的服务质量较低。

发明内容

本发明实施例的目的在于提供一种网络服务方法、装置、电子设备及可读存储介质，以提高网络服务质量。具体技术方案如下：

本发明实施例提供了一种网络服务方法，所述方法包括：

提取所获取的各用户请求中的关键特征，根据所述各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定所述各用户请求对应的ISP网络组，每个ISP网络组中包括至少一个ISP缓存节点；

针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；

如果存在，通过所述目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户；

如果不存在，通过内容分发网络CDN对所述用户请求进行响应并传输请求数据至该用户。

可选的，在所述通过所述目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户之后，所述方法还包括：

将所述目标ISP缓存节点的带宽资源更新为传输所述请求数据后的剩余可用带宽，并将所述目标ISP缓存节点的网络状态中的可用带宽更新为所述剩余可用带宽，网络状态包括：可用带宽和是否包含所述请求数据。

可选的，所述根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点，包括：

获取该ISP网络组中每个ISP缓存节点的状态参数，设置该ISP网络组对应的学习模型的参数，所述学习模型的参数包括：价值阈值和循环次数；

步骤A，根据初始策略参数π(a|s₀)，选取ISP缓存节点，所述初始策略参数π(a|s₀)在初始状态s₀下选取每个ISP缓存节点时的概率是均等的；

其中，初始状态s₀表示ISP缓存节点部署之后尚未开始接受任务请求时的状态，a表示对该用户请求选取ISP缓存节点进行匹配和数据传输；

步骤B，根据所选取的ISP缓存节点的状态参数，获取该ISP网络组的r值，所述r值包括预先设置的大值和小值，所述大值表示所选取的ISP缓存节点具有响应用户请求的条件，所述小值表示所选取的ISP缓存节点不具有响应用户请求的条件；

根据价值函数：V(s,a)＝E_π(a|s)[r+γW(s′)]，确定在状态s下选取操作a之后的价值V(s,a)；

其中，V(s,a)表示在状态s下选取操作a的收益期望，s表示当前环境组内所有ISP缓存节点的状态，s′表示在当前网络状态s下采取操作a之后的网络状态，策略参数π(a|s)表示在状态s下选取操作a的概率，r表示在策略参数π(a|s)下该ISP网络组的奖励值，γ表示折扣率，γ的取值为0-1，W(s′)表示下一个状态s′下达到的最大价值，r+γW(s′)为操作值函数；

步骤C，根据优势函数：A(s,a)＝Q(s,a)-V(s,a)，确定是否选取操作a；

Q(s,a)＝r+γW(s′)，Q(s,a)表示在状态s下执行了操作a；

若A(s,a)大于0，选取操作a，执行步骤D；

若A(s,a)不大于0，不选取操作a，返回步骤A；

步骤D，根据公式：

计算从初始状态s₀到状态s的所有状态下的ISP网络组的价值的平均值，判断得到的平均值是否小于所述价值阈值；

如果得到的平均值小于所述价值阈值，且选取ISP缓存节点的次数小于循环次数，执行步骤E；如果得到的平均值小于所述价值阈值，且选取ISP缓存节点的次数等于循环次数，确定该ISP网络组内不存在使该ISP网络组的收益最大化且满足响应用户请求条件的目标ISP缓存节点；

如果得到的平均值不小于所述价值阈值，将最终选择的ISP缓存节点确定为目标ISP缓存节点；

步骤E，根据梯度函数：

确定使

变化最快的方向，更新策略参数π(a|s)，返回步骤B。

可选的，在所述通过CDN对所述用户请求进行响应并传输请求数据至该用户之后，所述方法还包括：

将所述请求数据缓存至所述最终选择的ISP缓存节点中，并将所述最终选择的ISP缓存节点的网络状态中的是否包含所述请求数据由不包含所述请求数据更新为包含所述请求数据。

可选的，在步骤B之后，所述方法还包括：

该ISP网络组将策略参数π(a|s)发送至参数服务器，所述参数服务器根据接收到的自身覆盖的所有ISP网络组发送的策略参数，对参数服务器的策略参数π(a|s)进行更新，并将更新后的策略参数π(a|s)发送给自身覆盖的所有ISP网络组。

本发明实施例提供了一种网络服务装置，所述装置包括：

分组模块，用于提取所获取的各用户请求中的关键特征，根据所述各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定所述各用户请求对应的ISP网络组，每个ISP网络组中包括至少一个ISP缓存节点；

节点确定模块，用于针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；

节点数据传输模块，用于在所述节点确定模块确定存在目标ISP缓存节点时，通过所述目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户；

网络数据传输模块，用于在所述节点确定模块确定不存在目标ISP缓存节点时，通过内容分发网络CDN对所述用户请求进行响应并传输请求数据至该用户。

可选的，本发明实施例的网络服务装置，还包括：

带宽更新模块，用于将所述目标ISP缓存节点的带宽资源更新为传输所述请求数据后的剩余可用带宽，并将所述目标ISP缓存节点的网络状态中的可用带宽更新为所述剩余可用带宽，网络状态包括：可用带宽和是否包含所述请求数据。

可选的，所述节点确定模块用于获取该ISP网络组中每个ISP缓存节点的状态参数，设置该ISP网络组对应的学习模型的参数，所述学习模型的参数包括：价值阈值和循环次数；

Q(s,a)＝r+γW(s′)，Q(s,a)表示在状态s下执行了操作a；

若A(s,a)大于0，选取操作a，执行步骤D；

若A(s,a)不大于0，不选取操作a，返回步骤A；

步骤D，根据公式：

步骤E，根据梯度函数：

确定使

变化最快的方向，更新策略参数π(a|s)，返回步骤B。

可选的，本发明实施例的网络服务装置，还包括：

缓存数据更新模块，用于将所述请求数据缓存至所述最终选择的ISP缓存节点中，并将所述最终选择的ISP缓存节点的网络状态中的是否包含所述请求数据由不包含所述请求数据更新为包含所述请求数据。

可选的，本发明实施例的网络服务装置，还包括：

策略参数更新模块，用于使该ISP网络组将策略参数π(a|s)发送至参数服务器，所述参数服务器根据接收到的自身覆盖的所有ISP网络组发送的策略参数，对参数服务器的策略参数π(a|s)进行更新，并将更新后的策略参数π(a|s)发送给自身覆盖的所有ISP网络组。

本发明实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的网络服务方法的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一所述的网络服务方法的步骤。

本发明实施例提供的网络服务方法、装置、电子设备及可读存储介质，通过提取所获取的各用户请求中的关键特征，根据各用户请求中的关键特征以及、预先建立的ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组；针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；如果存在，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户；如果不存在，通过CDN对用户请求进行响应并传输请求数据至该用户。本发明实施例通过深度强化学习算法进行智能组网与全局调度，从而利用ISP缓存节点的闲时带宽，将请求数据由ISP缓存节点分发至用户。本发明可以通过流量转移的方法，加快内容分发速度，缩短用户请求响应时间，提高网络服务质量。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的网络服务架构图；

图2为本发明实施例的网络服务方法的流程图；

图3为本发明实施例的ISP缓存节点选取的流程图；

图4为本发明实施例的网络服务装置的结构图；

图5为本发明实施例的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决ISP网络节点辅助CDN过程中网络服务质量低的问题，本发明实施例提供了一种网络服务方法、装置、电子设备及可读存储介质，以提高网络服务质量。

下面首先对本发明实施例所提供的网络服务方法进行详细介绍。

本发明实施例采用ISP辅助的方法搭建CDN，具体的，CDN通过向家庭网络部署ISP缓存节点，桥接家庭路由器，从而将内容缓存到成千上万的ISP缓存节点中。ISP缓存节点作为CDN末端节点，从而以共享的模式收集到家庭用户的空闲带宽。参见图1，图1为本发明实施例的网络服务架构图，可以看出，通过拓展CDN的末端节点(即ISP缓存节点)，能够充分利用ISP缓存节点的末梢带宽，实现最后一公里的快速响应。当客户端发出文件请求时，该网络可以利用遍布在全国各地的上百万个ISP缓存节点，配合内容提供商的骨干网络一起进行请求响应与内容传输。

参见图2，图2为本发明实施例的网络服务方法的流程图，包括以下步骤：

S201，提取所获取的各用户请求中的关键特征，根据各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组，每个ISP网络组中包括至少一个ISP缓存节点。

本发明实施例中，ISP缓存节点的个数可以达到上百万或者更多，相应地，用户请求的个数也可以有很多，因此可以预先将ISP缓存节点分为不同的ISP网络组，使不同的ISP网络组处理不同的用户请求。也就是，建立ISP网络组和用户请求的对应关系，具体为ISP网络组和用户请求中的关键特征的对应关系。例如，用户请求中的关键特征可以包括：源端IP(Internet Protocol，互联网协议)地址、请求数据、请求数据的大小和请求的响应截止时间等。那么可以按地域不同(不同省份)将ISP缓存节点分划分为不同的ISP网络组。提取用户请求中的源端IP地址，可以根据源端IP地址将不同的用户请求映射到不同的ISP网络组中。

S202，针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点。如果存在，执行S203；如果不存在，执行S204。

具体的，针对每个ISP网络组，当接收到用户请求时，需要为用户请求指定相应的ISP缓存节点进行服务，而选用不同的ISP缓存节点带来的服务效果是不同的，本步骤需要在可收敛的时间内寻找能够最大化整体性能收益的ISP缓存节点-用户请求匹配对，以便在加快请求响应时间的同时，增大ISP缓存节点集群能够承载的最大流量。本发明实施例通过深度强化学习算法确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点，下文将对深度强化学习算法进行详细描述。

S203，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户。

本发明实施例中，如果存在目标ISP缓存节点，表明该目标ISP缓存节点具备用户请求的数据，剩余带宽足以在规定时间内完成数据传输，状态稳定，数据传输成功率较高。那么，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户。

S204，通过CDN对用户请求进行响应并传输请求数据至该用户。

本发明实施例中，在ISP缓存节点均不能满足用户请求的情况下，可以在CDN与ISP缓存节点之间进行数据回源操作，即由CDN向ISP缓存节点进行数据传输。具体的，根据用户请求中的关键特征，在CDN的骨干网服务器内进行文件搜索，将相应的请求数据传输至最终选择的ISP缓存节点中，同时，该用户请求由CDN进行响应，该ISP网络组可以略过该用户请求，进行后续的响应操作。

本发明实施例的网络服务方法，通过提取所获取的各用户请求中的关键特征，根据各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组；针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；如果存在，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户。如果不存在，通过CDN对用户请求进行响应并传输请求数据至该用户。本发明实施例通过深度强化学习算法进行智能组网与全局调度，从而利用ISP缓存节点的闲时带宽，将请求数据由ISP缓存节点分发至用户。本发明可以通过流量转移的方法，加快内容分发速度，缩短用户请求响应时间，提高网络服务质量。

本发明的一种实现方式中，在图2实施例S203之后，将目标ISP缓存节点的带宽资源更新为传输请求数据后的剩余可用带宽，并将目标ISP缓存节点的网络状态中的可用带宽更新为剩余可用带宽，网络状态包括：可用带宽和是否包含请求数据。

更为具体的，每个ISP缓存节点可以具有一定的网络状态，网络状态包括：可用带宽和是否包含请求数据。在ISP缓存节点对用户请求响应之后，传输请求数据给用户，此时，由于ISP缓存节点的可用带宽发生变化，可以将ISP缓存节点的带宽资源进行更新，即将ISP缓存节点的带宽资源更新为初始带宽减去传输请求数据所使用的带宽。其中，传输请求数据所使用的带宽可以根据用户请求中的关键特征计算。相应地，ISP缓存节点的网络状态也将发生变化，那么，可以将网络状态中的可用带宽更新为剩余可用带宽。当然，如果ISP缓存节点没有对任何用户请求做响应，该ISP缓存节点的网络状态是不变的。这样，通过及时对ISP缓存节点的状态进行更新，在通过深度强化学习算法确定目标ISP缓存节点时，提高目标ISP缓存节点选取的准确性，进而提高数据传输的准确性，从而提高网络服务质量。

本发明的一种实现方式中，在图2实施例S202的具体过程可参见图3，包括以下步骤：

S301，获取该ISP网络组中每个ISP缓存节点的状态参数，设置该ISP网络组对应的学习模型的参数，学习模型的参数包括：价值阈值和循环次数。

本发明实施例中，通过深度强化学习算法对模型进行学习的过程中，至少包含以下参数：

状态s，即当前ISP网络组内所有ISP缓存节点的状态参数，包括：ISP缓存节点的ID、存储容量大小、是否连通为可用状态、已存储的文件、剩余可用带宽、历史数据传输成功率等。

操作a，即对当前接收到的用户请求选取一个ISP缓存节点进行匹配和数据传输。ISP网络组中共有ISP缓存节点K个，则每一次操作即有K种不同的选择。

策略参数π(a|s)表示在状态s下选取了操作a的概率。

收益r，即reward，意为在策略π下***的收益值。

因此，本步骤中，可以获取各ISP缓存节点的状态参数，当然，还包括ISP网络组中ISP缓存节点的个数。之后，根据各ISP缓存节点的状态参数对模型进行学***均值的最小值，循环次数指的是在学习过程中可以选取ISP缓存节点的次数。

S302，根据初始策略参数π(a|s₀)，选取ISP缓存节点，初始策略参数π(a|s₀)在初始状态s₀下选取每个ISP缓存节点时的概率是均等的。

其中，初始状态s₀表示ISP缓存节点部署之后尚未开始接受任务请求时的状态，深度强化学习算法的最初阶段，策略是随机的，即选取ISP缓存节点是随机的。

S303，根据所选取的ISP缓存节点的状态参数，获取该ISP网络组的r值，r值包括预先设置的大值和小值，大值表示所选取的ISP缓存节点具有响应用户请求的条件，小值表示所选取的ISP缓存节点不具有响应用户请求的条件。

本发明实施例中，若选取了不合适的ISP缓存节点，即ISP缓存节点不具有响应用户请求的条件(例如，不具备请求数据、具备请求数据但带宽不足、或具备请求数据带宽充足但ISP缓存节点状态不稳定失败率很高)，则r值较低；若选取了合适的ISP缓存节点，即ISP缓存节点具有响应用户请求的条件，则该r值较高。因此，可以将r值预先设置为两个值：大值和小值，这样，可以根据选取的ISP缓存节点是否具有响应用户请求的条件，确定r值为大值还是小值。

之后，根据价值函数：V(s,a)＝E_π(a|s)[r+γW(s′)]，确定在状态s下选取操作a之后的价值V(s,a)；

其中，V(s,a)表示在状态s下选取操作a的收益期望，s表示当前环境组内所有ISP缓存节点的状态，s′表示在当前网络状态s下采取操作a之后的网络状态，策略参数π(a|s)表示在状态s下选取操作a的概率，r表示在策略参数π(a|s)下该ISP网络组的奖励值，γ表示折扣率，γ的取值为0-1，W(s′)表示下一个状态s′下达到的最大价值，r+γW(s′)为操作值函数。

将V(s,a)定义为迭代形式，表示当前状态s所能获得的价值，是下一个状态s′所能获得的价值和在转移过程中得到的收益之和，令下一状态s'所反馈的收益期望乘以折扣率，表示当前的r值比未来反馈的r值更重要，下一个状态s′下达到的最大价值W(s′)，指的是，下一个状态s′下，在所有选取操作里面，选取操作a′可以使W(s′)最大，但是在实际选取中，并不一定选取操作a′。

S304，根据优势函数：A(s,a)＝Q(s,a)-V(s,a)，确定是否选取操作a；

Q(s,a)＝r+γW(s′)，Q(s,a)表示在状态s下执行了操作a；

若A(s,a)大于0，选取操作a，执行S305；

若A(s,a)不大于0，不选取操作a，返回S302；

具体的，为了表示操作a是否比当前平均情况好，可以通过优势函数确定，若A(s,a)大于0，表示选取操作a比当前平均情况好，那么选取操作a；否则，不选取操作a。另外，在选取了操作a之后，ISP网络组将策略参数π(a|s)发送至参数服务器，参数服务器根据接收到的自身覆盖的所有ISP网络组发送的策略参数，对参数服务器的策略参数π(a|s)进行更新，并将更新后的策略参数π(a|s)发送给自身覆盖的所有ISP网络组。例如，ISP网络组1和ISP网络组2分别对应不同的策略参数，即在状态s下以多大概率去转移到下一步的不同状态。那么，参数服务器的策略参数可以根据ISP网络组1和ISP网络组2各自的概率求平均，来更新ISP网络组1和ISP网络组2。

S305，根据公式：

计算从初始状态s₀到状态s的所有状态下的ISP网络组的价值的平均值，判断得到的平均值是否小于价值阈值。如果得到的平均值小于价值阈值，且选取ISP缓存节点的次数小于循环次数，表明选取的ISP缓存节点不满足匹配条件，那么执行S306。

S306，根据梯度函数：

确定使

变化最快的方向，更新策略参数π(a|s)，返回S303。

S307，如果得到的平均值小于价值阈值，且选取ISP缓存节点的次数等于循环次数，确定该ISP网络组内不存在使该ISP网络组的收益最大化且满足响应用户请求条件的目标ISP缓存节点。

本发明实施例中，如果选取ISP缓存节点的次数等于循环次数，表明选取ISP节点的次数已经达到最大值，且此时得到的平均值小于价值阈值，确定不存在使该ISP网络组的收益最大化且满足响应用户请求条件的目标ISP缓存节点。

S308，如果得到的平均值不小于价值阈值，将最终选择的ISP缓存节点确定为目标ISP缓存节点。

可见，通过构建ISP缓存节点和用户请求的匹配模型，根据深度强化学习算法智能动态地选取最佳服务路径，从而提高CDN的数据传输速度，提高网络服务质量。

本发明的一种实现方式中，在图3实施例S307之后，还可以将请求数据缓存至最终选择的ISP缓存节点中，并将最终选择的ISP缓存节点的网络状态中的是否包含请求数据由不包含请求数据更新为包含请求数据。

本发明实施例中，在CDN向ISP缓存节点进行数据传输之后，通过更新ISP缓存节点内的缓存文件，可以提高后续数据访问的命中率。

实施例一

若ISP网络组中包括5个ISP缓存节点，分别缓存数据文件情况如表1所示。

表1

ISP缓存节点	缓存文件
		1	A,B
2	A,C
		3	B,D
4	C,E
		5	D,E

其中，价值阈值设置为5，循环次数设置为3，r值中的大值设置为10，小值设置为0.1。

若收到用户请求<132.147.34.68,D,10G,100s>，表示IP地址为132.147.34.68的用户请求大小为10G的文件D，需要在100s内完成传输。

此时，进行ISP缓存节点预选取，假设第一轮以0.2的概率选取了2号ISP缓存节点，π(2|s)＝0.2，考虑到2号ISP缓存节点不存在请求文件D，则将r值设为0.1，此时J＝0.1，而由于3号和5号ISP缓存节点具备请求文件D，即r值较高，使得梯度函数

在3号和5号ISP缓存节点处取得较高梯度，因此在下一轮选取时，提高选取3号和5号ISP缓存节点的概率。

假设以0.4的概率选取了3号ISP缓存节点，π(3|s)＝0.4，读取ISP缓存节点信息剩余带宽资源为150M/s，能够满足当前请求的deadline要求，则将r值设为10，此时J＝5.05>价值阈值，且选取ISP缓存节点的次数为2，小于3，因此满足匹配条件，返回3号ISP缓存节点，对该服务请求进行响应，同时将3号ISP缓存节点的剩余带宽调整为：

实施例二

收到用户请求<132.147.34.68,F,2G,100s>，表示IP地址为132.147.34.68的用户请求大小为2G的文件F，需要在100s内完成传输。

此时，进行ISP缓存节点预选取，假设第一轮以0.2的概率选取了2号ISP缓存节点，π(2|s)＝0.2，考虑到2号ISP缓存节点不存在请求文件F，则将r值设为0.1，此时J＝0.1，而由于当前环境组中的任何ISP缓存节点都不具备请求文件F，即r值均较低，未能取得较高梯度，因此在下一轮仍然随机选取ISP缓存节点。

假设actor以0.2的概率选取了3号ISP缓存节点，π(3|s)＝0.2，考虑到3号ISP缓存节点也不存在请求文件F，则将reward设为0.1，此时J＝0.1<TH＝5，则进行第三次选取。

假设以0.2的概率选取了4号ISP缓存节点，π(4|s)＝0.2，考虑到4号ISP缓存节点仍然不存在请求文件F，则将r值设为0.1，此时J＝0.1<价值阈值，但此时选取ISP缓存节点的次数为3，因此需要进行数据回源。此时，在原内容分发网络骨干网中搜索数据文件F，并缓存到当前选取的4号ISP缓存节点上，若4号ISP缓存节点存储ISP缓存节点不足，则按照缓存替换策略进行文件替换(例如先进先出调度算法、最近最少调度算法、最近最不常用调度算法等等)。同时更新表1的节点缓存数据情况，更新后的表1即为表2。

表2

ISP缓存节点	缓存文件
		1	A,B
2	A,C
		3	B,D
4	E,F
		5	D,E

相应于上述方法实施例，本发明实施例提供了一种网络服务装置，参见图4，图4为本发明实施例的网络服务装置的结构图，包括：

分组模块401，用于用于提取所获取的各用户请求中的关键特征，根据各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组，每个ISP网络组中包括至少一个ISP缓存节点；

节点确定模块402，用于针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；

节点数据传输模块403，用于在节点确定模块确定存在目标ISP缓存节点时，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户；

网络数据传输模块404，用于在节点确定模块确定不存在目标ISP缓存节点时，通过CDN对用户请求进行响应并传输请求数据至该用户。

本发明实施例的网络服务装置，通过提取所获取的各用户请求中的关键特征，根据各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组；针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；如果存在，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户。如果不存在，通过CDN对用户请求进行响应并传输请求数据至该用户。本发明实施例通过深度强化学习算法进行智能组网与全局调度，从而利用ISP缓存节点的闲时带宽，将请求数据由ISP缓存节点分发至用户。本发明可以通过流量转移的方法，加快内容分发速度，缩短用户请求响应时间，提高网络服务质量。

可选的，本发明实施例的网络服务装置，还包括：

带宽更新模块，用于将目标ISP缓存节点的带宽资源更新为传输请求数据后的剩余可用带宽，并将目标ISP缓存节点的网络状态中的可用带宽更新为剩余可用带宽，网络状态包括：可用带宽和是否包含请求数据。

可选的，节点确定模块用于获取该ISP网络组中每个ISP缓存节点的状态参数，设置该ISP网络组对应的学习模型的参数，学习模型的参数包括：价值阈值和循环次数；

步骤A，根据初始策略参数π(a|s₀)，选取ISP缓存节点，初始策略参数π(a|s₀)在初始状态s₀下选取每个ISP缓存节点时的概率是均等的；

步骤B，根据所选取的ISP缓存节点的状态参数，获取该ISP网络组的r值，r值包括预先设置的大值和小值，大值表示所选取的ISP缓存节点具有响应用户请求的条件，小值表示所选取的ISP缓存节点不具有响应用户请求的条件；

Q(s,a)＝r+γW(s′)，Q(s,a)表示在状态s下执行了操作a；

若A(s,a)大于0，选取操作a，执行步骤D；

若A(s,a)不大于0，不选取操作a，返回步骤A；

步骤D，根据公式：

计算从初始状态s₀到状态s的所有状态下的ISP网络组的价值的平均值，判断得到的平均值是否小于价值阈值；

如果得到的平均值小于价值阈值，且选取ISP缓存节点的次数小于循环次数，执行步骤E；如果得到的平均值小于价值阈值，且选取ISP缓存节点的次数等于循环次数，确定该ISP网络组内不存在使该ISP网络组的收益最大化且满足响应用户请求条件的目标ISP缓存节点；

如果得到的平均值不小于价值阈值，将最终选择的ISP缓存节点确定为目标ISP缓存节点；

步骤E，根据梯度函数：

确定使

变化最快的方向，更新策略参数π(a|s)，返回步骤B。

可选的，本发明实施例的网络服务装置，还包括：

缓存数据更新模块，用于将请求数据缓存至最终选择的ISP缓存节点中，并将最终选择的ISP缓存节点的网络状态中的是否包含请求数据由不包含请求数据更新为包含请求数据。

可选的，本发明实施例的网络服务装置，还包括：

策略参数更新模块，用于使该ISP网络组将策略参数π(a|s)发送至参数服务器，参数服务器根据接收到的自身覆盖的所有ISP网络组发送的策略参数，对参数服务器的策略参数π(a|s)进行更新，并将更新后的策略参数π(a|s)发送给自身覆盖的所有ISP网络组。

本发明实施例还提供了一种电子设备，参见图5，图5为本发明实施例的电子设备的结构图，包括：处理器501、通信接口502、存储器503和通信总线504，其中，处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现上述任一网络服务方法的步骤。

需要说明的是，上述电子设备提到的通信总线504可以是PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述电子设备与其他设备之间的通信。

存储器503可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器501可以是通用处理器，包括：CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital SignalProcessing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例的电子设备中，处理器通过执行存储器上所存放的程序，提取所获取的各用户请求中的关键特征，根据各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组；针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；如果存在，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户。如果不存在，通过CDN对用户请求进行响应并传输请求数据至该用户。本发明实施例通过深度强化学习算法进行智能组网与全局调度，从而利用ISP缓存节点的闲时带宽，将请求数据由ISP缓存节点分发至用户。本发明可以通过流量转移的方法，加快内容分发速度，缩短用户请求响应时间，提高网络服务质量。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现上述任一网络服务方法的步骤。

本发明实施例的计算机可读存储介质中存储的指令在计算机上运行时，提取所获取的各用户请求中的关键特征，根据各用户请求中的关键特征以及、预先建立的网络服务提供商ISP网络组与关键特征的对应关系，确定各用户请求对应的ISP网络组；针对每个ISP网络组，对于该ISP网络组中的每个用户请求，根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点；如果存在，通过目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户。如果不存在，通过CDN对用户请求进行响应并传输请求数据至该用户。本发明实施例通过深度强化学习算法进行智能组网与全局调度，从而利用ISP缓存节点的闲时带宽，将请求数据由ISP缓存节点分发至用户。本发明可以通过流量转移的方法，加快内容分发速度，缩短用户请求响应时间，提高网络服务质量。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种网络服务方法，其特征在于，所述方法包括：

如果不存在，通过内容分发网络CDN对所述用户请求进行响应并传输请求数据至该用户，其中所述根据深度强化学习算法，通过依次循环执行选取ISP缓存节点、计算该ISP网络组的收益以及更新策略参数的步骤，确定是否存在使该ISP网络组的收益最大化且满足用户请求条件的目标ISP缓存节点，包括：

其中，V(s,a)表示在状态s下选取操作a的收益期望，s表示当前环境组内所有ISP缓存节点的状态，s′表示在当前网络状态s下采取操作a之后的网络状态，策略参数π(a|s)表示在状态s下选取操作a的概率，r表示在策略参数π(a|s)下该ISP网络组的奖励值，γ表示折扣率，γ的取值为0-1，W(s′)表示下一个状态s′下达到的最大价值，r+γW(s＇)为操作值函数；

Q(s,a)＝r+γW(s′)，Q(s,a)表示在状态s下执行了操作a；

若A(s,a)大于0，选取操作a，执行步骤D；

若A(s,a)不大于0，不选取操作a，返回步骤A；

步骤D，根据公式：

步骤E，根据梯度函数：

确定使

变化最快的方向，更新策略参数π(a|s)，返回步骤B。

2.根据权利要求1所述的网络服务方法，其特征在于，在所述通过所述目标ISP缓存节点对该用户请求进行响应并传输请求数据至该用户之后，所述方法还包括：

3.根据权利要求1或2所述的网络服务方法，其特征在于，在所述通过CDN对所述用户请求进行响应并传输请求数据至该用户之后，所述方法还包括：

4.根据权利要求1或2所述的网络服务方法，其特征在于，在步骤B之后，所述方法还包括：

5.一种网络服务装置，其特征在于，所述装置包括：

网络数据传输模块，用于在所述节点确定模块确定不存在目标ISP缓存节点时，通过内容分发网络CDN对所述用户请求进行响应并传输请求数据至该用户；其中，所述节点确定模块具体用于获取该ISP网络组中每个ISP缓存节点的状态参数，设置该ISP网络组对应的学习模型的参数，所述学习模型的参数包括：价值阈值和循环次数；

Q(s,a)＝r+γW(s′)，Q(s,a)表示在状态s下执行了操作a；

若A(s,a)大于0，选取操作a，执行步骤D；

若A(s,a)不大于0，不选取操作a，返回步骤A；

步骤D，根据公式：

步骤E，根据梯度函数：

确定使

变化最快的方向，更新策略参数π(a|s)，返回步骤B。

6.根据权利要求5所述的网络服务装置，其特征在于，所述装置还包括：

更新模块，用于将所述目标ISP缓存节点的带宽资源更新为传输所述请求数据后的剩余可用带宽，并将所述目标ISP缓存节点的网络状态中的可用带宽更新为所述剩余可用带宽，网络状态包括：可用带宽和是否包含所述请求数据。

7.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-4任一所述的网络服务方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-4任一所述的网络服务方法的步骤。