CN112822718B - 一种基于强化学习和流编码驱动的分组传输方法及*** - Google Patents

一种基于强化学习和流编码驱动的分组传输方法及*** Download PDF

Info

Publication number
CN112822718B
CN112822718B CN202011620034.2A CN202011620034A CN112822718B CN 112822718 B CN112822718 B CN 112822718B CN 202011620034 A CN202011620034 A CN 202011620034A CN 112822718 B CN112822718 B CN 112822718B
Authority
CN
China
Prior art keywords
packet
sending
action
packets
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011620034.2A
Other languages
English (en)
Other versions
CN112822718A (zh
Inventor
张非凡
李业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202011620034.2A priority Critical patent/CN112822718B/zh
Publication of CN112822718A publication Critical patent/CN112822718A/zh
Application granted granted Critical
Publication of CN112822718B publication Critical patent/CN112822718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0289Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/06Optimizing the usage of the radio link, e.g. header compression, information sizing, discarding information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习和流编码驱动的分组传输方法及***,分组传输方法具体包括以下步骤:首先初始化流编码相关参数,然后发送端根据接收端的反馈,估计此时网络的拥塞状况和接收端的有序分组接收进度,将这一系列状态作为特征向量供模型实时学习,然后根据奖赏函数对当前行为进行选择,最终在发分组的过程中,实现发送端发送动作的在线训练。分组***包括发送端、接收端、状态空间单元、奖赏函数单元、价值拟合单元和动作选择单元。本发明依据此时的网络状况以及丢包率,动态地调整分组发送间隔、智能地选择发送分组类型,实现流编码码率控制和拥塞控制的联合优化,提高网络的吞吐量、降低数据传输延迟、并且能够适应多变的链路条件。

Description

一种基于强化学习和流编码驱动的分组传输方法及***
技术领域
本发明属于无线通信技术领域,尤其涉及一种基于强化学习和流编码驱动的分组传输方法及***,特别是涉及一种面向具有大时延带宽积的无线链路的基于强化学习和流编码驱动的分组传输方法及***。
背景技术
无线长胖链路,即具有大时延带宽积的无线链路,是未来空天地一体化网络的一个重要组成部分。目前在长胖无线链路中,常规所依赖的TCP(传输控制协议)普遍存在带宽利用率低的问题。大多数TCP变体都将数据分组丢失视为拥塞信号,并会因此降低传输速率。然而在无线链路中,数据分组丢失可能是由于随机链路错误而非拥塞引起,这种实现会导致不必要的降速。在许多新出现的空天地一体化网络场景中,由于大的传播时延而无法使用链路层自动重传请求(ARQ),因此不可避免地会因链路错误而导致数据分组丢失,使得该问题尤为严重。其次,为了避免拥塞,TCP的发送速率在传输开始时逐渐增加(称为慢启动)。在带宽和传播延迟都很大的长胖链路中,这可能需要很长时间才能使链接充满数据。特别是在短时数据量连接中,将导致链路带宽利用率严重下降。
此前,领域内已经提出了许多TCP拥塞控制变体来解决这些问题,典型的例子包括TCPWestwood+和Google的BBR等。但这一类基于规则的拥塞控制方案不足以满足未来空天地一体化网络的高度异构和动态特点。在未来的异构和大规模无线网络中,需要更高的灵活性和更严格的吞吐量/延迟要求。近来,Google提出的快速UDP网络连接协议(QUIC)被广泛认为将是未来网络分组传输中TCP的替代方案。QUIC完全基于UDP,可利用UDP的无连接特性来减少TCP建立连接的3次握手延迟、利用UDP的无序性质来更有效地多路复用HTTP流、且UDP的轻量性还为部署带来极大灵活性。
不过,为了使基于UDP的传输提供类似TCP的可靠、有序应用接口,增加拥塞控制和可靠性机制仍然是必要的。然而,当前QUIC设计主要仍采用TCP的现有拥塞控制和重传机制。在长胖无线链路中,TCP原有的问题仍然存在。
发明内容
有鉴于此,本发明目的在于提出一种基于强化学习和流编码驱动的分组传输方法,以解决现有TCP和QUIC技术在长胖无线链路下分组传输链路带宽利用率低的问题。
本发明提供了一种基于强化学习和流编码驱动的分组传输方法,包括以下步骤:
S1.设定流编码参数;
S2.发送端发送分组,所述分组为未编码的源分组或经过编码的修复分组;
S3.接收端对收到的分组进行解码恢复并有序地传输到上层应用,同时向所述发送端发送反馈信息,所述反馈信息包括解码进度、最新收到分组的编号与类型、收到的源分组数量和收到的修复分组的数量;
S4.所述发送端对所述反馈信息进行处理,确定***状态信息,根据奖赏函数计算奖惩值,估算链路可用带宽,并根据所述链路可用带宽确定所述发送端发送动作的间隔时间,然后进行强化学习;
所述强化学习基于强化学习模型执行,包括如下步骤:
S41.根据所述***状态信息和所述奖惩值,输出更新权重后的价值函数和各个所述发送动作的价值;
S42.根据各个所述发送动作的价值选择最优发送动作,所述最优发送动作为当前状态下价值最大的发送动作;
其中,所述***状态信息包括当前分组往返时延与最小分组往返时延之比、当前发送分组动作数与总动作数之比、当前发送源分组数与总分组数之比;所述发送动作为发送源分组、发送修复分组和放弃发送中的一种;所述奖赏函数根据分组传输的优化目标来确定,所述分组传输的优化目标为每个用户流都在最大程度地减少时延的同时最大化其吞吐量;
S43.所述发送端根据步骤S42选择的最优发送动作实现发送动作;
S5.重复步骤S3和S4,以实现拥塞控制和流编码码率控制。
进一步的,所述修复分组为先前已发送过的源分组的线性组合,具体如下式所示:
Figure GDA0003245036390000021
其中,ck表示编号为k的修复分组,k=0,1,2,3,…;gk,i是从有限域
Figure GDA0003245036390000024
中选择的流编码系数;ws为目前发送队列中最早的源分组的编号,ws的初始值为0,ws的值会根据所述反馈信息不断更新;iseq表示最近一次发送的源分组的编号。
进一步的,所述奖赏函数如下式所示:
Figure GDA0003245036390000022
其中,R(s,a)表示***状态信息为s,发送动作为a时的奖惩值;gp为有效吞吐量,即所述接收端收到的有序源分组数量除以所用时间;inp为所述发送端发送的所有分组数量除以所用时间;Un为效用函数,Un=log(gp)-δlog(RTT),RTT为最小往返时延的平滑估计值;RTTratio为当前平滑估计出的RTT和RTT最小值的比值;τ为预设的超参数。
进一步的,所述价值函数具体通过以下步骤获得:
采用瓦片编码的方式将所述***状态信息映射为只含有离散值0和1的特征向量,然后结合所述奖惩值以所述特征向量的线性函数形式拟合得到价值函数。
进一步的,所述根据各个所述发送动作的价值选择最优的发送动作,具体为:运用e-greedy策略选出最优的发送动作。
本发明还提供了一种基于强化学习和流编码驱动的分组传输***,所述分组传输***包括:
发送端,所述发送端用于发送分组,所述分组为未编码的源分组或经过编码的修复分组;
接收端,所述接收端用于对收到的分组进行解码恢复并有序地传输到上层应用,同时向所述发送端发送反馈信息,所述反馈信息包括解码进度、最新收到分组的编号与类型、收到的源分组数量和收到的修复分组的数量;
状态空间单元,所述状态空间单元设置在发送端,用于对所述反馈信息进行处理,确定***状态信息;所述***状态信息包括当前分组往返时延与最小分组往返时延之比、当前发送分组动作数与总动作数之比、当前发送源分组数与总分组数之比;
奖赏函数单元,所述奖赏函数单元用于根据如下式所示的奖赏函数计算输出奖惩值;
Figure GDA0003245036390000023
其中,R(s,a)表示***状态信息为s,发送动作为a时的奖惩值;gp为有效吞吐量,即所述接收端收到的有序源分组数量除以所用时间;inp为所述发送端发送的所有分组数量除以所用时间;Un为效用函数,Un=log(gp)-δlog(RTT),RTT为最小往返时延的平滑估计值;RTTratio为当前平滑估计出的RTT和RTT最小值的比值;τ为预设的超参数;
价值拟合单元,用于采用瓦片编码的方式将所述***状态信息映射为只含有离散值0和1的特征向量,然后结合所述奖惩值以所述特征向量的线性函数形式拟合得到价值函数,并输出各个所述发送动作的价值;
动作选择单元,用于根据所述价值拟合单元输出的各个发送动作的价值,采用e-greedy策略选择价值最大的发送动作由所述发送端发送。
与现有技术相比,本发明具有以下有益效果:
1.从整体上,本发明技术方案一方面采用流编码实现丢包恢复,为UDP提供可靠性机制。比起重传方案有更高的吞吐量,且比起块码(block code)有更小的解码时延;另一方面,本发明基于强化学习模型,依据当前的网络状况以及丢包率,在线学习,并动态地调整分组发送间隔、智能地选择发送分组类型,实现流编码码率(发送源分组和修复分组两种动作的比例)控制和拥塞控制的联合优化,提高网络的吞吐量、降低数据传输延迟、并且能够适应多变的链路条件。
2.不需要大量的样本数据,仅需要外部环境的信息(此时网络的拥塞状况和接收端的有序分组接收进度)进行自学习的模型在线训练,极少依赖人工经验和外界数据信息。
3.发送端可以根据网络情况,在线学习并作出决策,使得分组发送更加智能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。需要说明的是,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的分组传输***框图。
图2为本发明提供的分组传输***中强化学习模型的结构框图。
图3为本发明的传输方法与其他方法的吞吐量对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,在此需要说明的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于强化学习和流编码驱动的分组传输方法,具体包括以下步骤:
S1.设定流编码参数;
流编码参数为获取流编码系数所用的伪随机数产生器的种子。
S2.发送端发送分组,所述分组为未编码的源分组或经过编码的修复分组;
S3.接收端对收到的分组进行解码恢复并有序地传输到上层应用,同时向所述发送端发送反馈信息,所述反馈信息包括解码进度、最新收到分组的编号与类型、收到的源分组数量和收到的修复分组的数量;
发送端可以发送两种分组,一种为未编码的源分组,另一种为经过编码的修复分组。令iseq表示最近一次发送的未编码源分组的编号,初始化iseq=-1,每当发送一个源分组后,iseq加1。修复分组表示为
Figure GDA0003245036390000031
其为从先前已发送过的源分组的线性组合。式(1)中,ck表示编号为k的修复分组,gk,i是从有限域
Figure GDA0003245036390000032
中选择的流编码系数,这里k=0,1,2…是修复分组的编号。ws对应目前发送队列中最早(老)的源分组的编号。初始化ws=0,根据接收端的反馈,将从队列中移除已确认接收到的原始分组,此时ws将会进行更新。令we=iseq,[ws,we]称为当前修复分组的编码窗。
接收端对收到的分组进行解码恢复并有序地传输到上层应用。令iord表示最新的有序传输分组编号,初始化iord=-1,译码器初始状态为有序状态。如果译码器下一个接收的分组既不是
Figure GDA0003245036390000047
也不是具有we=iord特性的修复分组,则意味着有序传输被中断。译码器进入失序状态,此时译码器将缓冲收到的分组并尝试解码。缓冲分组是无序源分组(其编号大于iord+1)或修复分组(其中we>iord+1)。令
Figure GDA0003245036390000041
又令
Figure GDA0003245036390000042
为缓冲的修复分组中编码窗口上界的最大编号。
Figure GDA0003245036390000043
称为译码器当前的解码窗。随着缓冲的分组增多,窗口可能会扩展(即
Figure GDA0003245036390000044
增长)。译码器使用高斯消元法进行解码,即动态构建线性方程组AS=B并在线执行前向消去,其中A和B的行分别是缓冲的分组的编码系数(无序源分组看作编码系数只有一个非零元素1的特殊修复分组)和编码信息符号。当解码成功时,解码窗中的解码出的源分组全部被传输到上层应用,译码器恢复到有序状态,有序传输以
Figure GDA0003245036390000045
重新开始。
S4.发送端对反馈信息进行处理,确定***状态信息,根据奖赏函数计算奖惩值,估算链路可用带宽,并根据链路可用带宽确定发送端发送动作的间隔时间,然后基于强化学习模型执行学习过程。
本发明中,***状态信息用于表征网络情况,具体包括当前分组往返时延与最小分组往返时延之比、当前发送分组动作数与总动作数之比、当前发送源分组数与总分组数之比。发送动作为发送源分组、发送修复分组和放弃发送(退避)中的一种。发送动作的间隔时间设定为2/3的分组大小除以链路可用带宽。
本发明中,奖赏函数根据分组传输的优化目标来确定,本发明中将分组传输的优化目标设定为每个用户流都在最大程度地减少时延的同时最大化其吞吐量。具体地,本发明实施例将奖赏函数的设计如下:
Figure GDA0003245036390000046
其中,R(s,a)表示***状态信息为s,发送动作为a时的奖惩值;gp为有效吞吐量,即所述接收端收到的有序源分组数量除以截至目前传输所用时间;inp为所述发送端发送的所有分组数量除以截至目前传输所用时间;Un为效用函数,Un=log(gp)-δlog(RTT),RTT为最小往返时延的平滑估计值;RTTratio为当前平滑估计出的RTT和RTT最小值的比值;τ为预设的超参数。本发明实施例中τ设为1.2,可以看出,该函数强调每个用户流都应尝试在最大程度地减少时延的同时最大化其吞吐量。log函数可确保当多个用户竞争同一瓶颈链路时,网络可以公平的分配带宽资源。
经过一次动作,如果效用函数值增加,会得到一个正的奖惩值。如果效用函数值减少且RTTratio≥τ,RTTratio为当前平滑估计出的RTT和RTT最小值的比值,故RTTratio≥τ表示拥塞,奖惩值为一负值,而且gp/inp越接近1,奖惩值越小。在其他情况下,奖惩值为零。
本发明中采用瓦片编码(tilecoding)的方式将具有连续值的***状态映射为只含有离散值0和1的特征向量。然后以这个特征向量的线性函数形式来拟合反映各个发送动作的价值的价值函数。强化学习的学习过程是为了获得每个发送动作的价值函数的权重。
具体的,本发明强化学习过程包括如下步骤:
S41.根据***状态信息和奖惩值,输出更新权重后的价值函数和各个发送动作的价值;
S42.根据各个发送动作的价值选择当前状态下价值最大的发送动作(即最优的发送动作);
S43.所述发送端根据步骤S42选择的最优发送动作实现发送动作。
具体的,发送端在发送动作时刻到来时选择当前是否发送分组;若决定发送分组则进一步决定是发送新的源分组还是基于此前已发送过的源分组生成一个修复分组发送。
本发明实施例中,运用e-greedy策略选出最优发送动作。e-greedy策略具体为:当前随机生成概率小于ò时,就随机选择一个动作,否则,就选取对应当前状态下价值最大的动作。根据e-greedy策略选取动作,可实现流编码码率控制和拥塞控制的联合优化;待发送的新分组或修复分组依序存入UDP发送缓冲区等待发送。
S5.不断重复步骤S3和S4,根据当前网络状况以及丢包率,动态地调整分组发送间隔、智能地选择发送的分组类型,实现流编码码率控制和拥塞控制的联合优化以实现拥塞控制和流编码码率控制。
流编码的码率为发送源分组和修复分组两种动作的比例。R=a/(a+b),其中a是发送的源分组的数目,b是发送的修复分组的数目。所以本发明提供的技术方案通过控制发送源分组和修复分组的动作比例控制了码率。
如图1所示,本发明还提供了一种基于强化学习和流编码驱动的分组传输***,该分组传输***包括发送端、接收端、状态空间单元、奖赏函数单元、价值拟合单元和动作选择单元。其中,状态空间单元、奖赏函数单元、价值拟合单元和动作选择单元构成了如图2所示的强化学习模型。
发送端,发送端设有编码器,编码器发送未编码的源分组或经过编码的修复分组;
接收端,接收端用于对收到的分组进行解码恢复并有序地传输到上层应用,同时向发送端发送反馈信息,反馈信息包括解码进度、最新收到分组的编号与类型、收到的源分组数量和收到的修复分组的数量。
状态空间单元,状态空间单元设置在发送端,用于对接收端发送的反馈信息进行处理,确定***状态信息;***状态信息包括当前分组往返时延与最小分组往返时延之比、当前发送分组动作数与总动作数之比、当前发送源分组数与总分组数之比。
奖赏函数单元,用于根据奖赏函数计算输出奖惩值。
价值拟合单元,用于采用瓦片编码的方式将所述***状态信息映射为只含有离散值0和1的特征向量,然后结合所述奖惩值以所述特征向量的线性函数形式拟合得到价值函数,并输出各个所述发送动作的价值。
动作选择单元,用于根据价值拟合单元输出的各个发送动作的价值,采用e-greedy策略选择价值最大的发送动作由发送端发送。待发送的新分组或修复分组依序存入UDP发送缓冲区等待发送。
在具体应用时,接收端发送流编码分组,接收端译码器进行解码,并将解码和接收进度信息以及拥塞指标不断反馈给发送端。发送端根据反馈信息抽象出状态信息,并根据奖赏函数计算出奖赏值,将奖赏值和状态信息输入价值拟合单元得到各动作对应价值并更新相关拟合参数,最终根据动作选择单元选取最优动作。强化学习过程即为接收端反馈驱动的智能体价值拟合函数的不断迭代更新的过程。随着分组传输过程的进行,该模型将不断学习,实现拥塞控制和流编码码率控制的联合优化。通过网络仿真结果表明,在无线长胖链路条件下。本发明的方法得到的吞吐量远远好于其他方法。如图3所示,本发明方案在1%丢包率、100毫秒时延、20Mbps带宽的长胖无线链路上获得的有效吞吐量(gp)远高于QUIC、TCPBBR、TCPCUBIC等现有方案。
虽然本发明已以较佳实施例公开如上,但实施例并不限定本发明。在不脱离本发明之精神和范围内,所做的任何等效变化或润饰,同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims (5)

1.一种基于强化学习和流编码驱动的分组传输方法,其特征在于,包括以下步骤:
S1.设定流编码参数;
S2.发送端发送分组,所述分组为未编码的源分组或经过编码的修复分组;
S3.接收端对收到的分组进行解码恢复并有序地传输到上层应用,同时向所述发送端发送反馈信息,所述反馈信息包括解码进度、最新收到分组的编号与类型、收到的源分组数量和收到的修复分组的数量;
S4.所述发送端对所述反馈信息进行处理,确定***状态信息,根据奖赏函数计算奖惩值,估算链路可用带宽,并根据所述链路可用带宽确定所述发送端发送动作的间隔时间,然后进行强化学习;
所述强化学习基于强化学习模型执行,包括如下步骤:
S41.根据所述***状态信息和所述奖惩值,输出更新权重后的价值函数和各个所述发送动作的价值;
S42.根据各个所述发送动作的价值选择最优发送动作,所述最优发送动作为当前状态下价值最大的发送动作;
其中,所述***状态信息包括当前分组往返时延与最小分组往返时延之比、当前发送分组动作数与总动作数之比、当前发送源分组数与总分组数之比;所述发送动作为发送源分组、发送修复分组和放弃发送中的一种;所述奖赏函数根据分组传输的优化目标来确定,所述分组传输的优化目标为每个用户流都在最大程度地减少时延的同时最大化其吞吐量;
S43.所述发送端根据步骤S42选择的最优发送动作实现发送动作;
S5.重复步骤S3和S4,以实现拥塞控制和流编码码率控制。
2.根据权利要求1所述的分组传输方法,其特征在于,所述修复分组为先前已发送过的源分组si的线性组合,具体如下式所示:
Figure FDA0003245036380000011
其中,ck表示编号为k的修复分组,k=0,1,2,3,…;gk,i是从有限域
Figure FDA0003245036380000013
中选择的流编码系数;ws为目前发送队列中最早的源分组的编号,ws的初始值为0,ws的值会根据所述反馈信息不断更新;iseq表示最近一次发送的源分组的编号。
3.根据权利要求1所述的分组传输方法,其特征在于,所述奖赏函数如下式所示:
Figure FDA0003245036380000012
其中,R(s,a)表示***状态信息为s,发送动作为a时的奖惩值;gp为有效吞吐量,即所述接收端收到的有序源分组数量除以所用时间;inp为所述发送端发送的所有分组数量除以所用时间;Un为效用函数,Un=log(gp)-δlog(RTT),RTT为最小往返时延的平滑估计值;RTTratio为当前平滑估计出的RTT和RTT最小值的比值;τ为预设的超参数。
4.根据权利要求1所述的分组传输方法,其特征在于,所述价值函数具体通过以下步骤获得:
采用瓦片编码的方式将所述***状态信息映射为只含有离散值0和1的特征向量,然后结合所述奖惩值以所述特征向量的线性函数形式拟合得到价值函数。
5.根据权利要求1所述的分组传输方法,其特征在于,所述根据各个所述发送动作的价值选择最优发送动作,具体为:运用e-greedy策略选出最优发送动作。
CN202011620034.2A 2020-12-31 2020-12-31 一种基于强化学习和流编码驱动的分组传输方法及*** Active CN112822718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011620034.2A CN112822718B (zh) 2020-12-31 2020-12-31 一种基于强化学习和流编码驱动的分组传输方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011620034.2A CN112822718B (zh) 2020-12-31 2020-12-31 一种基于强化学习和流编码驱动的分组传输方法及***

Publications (2)

Publication Number Publication Date
CN112822718A CN112822718A (zh) 2021-05-18
CN112822718B true CN112822718B (zh) 2021-10-12

Family

ID=75855909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011620034.2A Active CN112822718B (zh) 2020-12-31 2020-12-31 一种基于强化学习和流编码驱动的分组传输方法及***

Country Status (1)

Country Link
CN (1) CN112822718B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599965B (zh) * 2009-07-02 2012-01-25 电子科技大学 基于测量的自适应高速信息传输方法
CN102137023B (zh) * 2011-04-14 2014-01-29 中国人民解放军空军工程大学 基于可用带宽预测的组播拥塞控制方法
US8793557B2 (en) * 2011-05-19 2014-07-29 Cambrige Silicon Radio Limited Method and apparatus for real-time multidimensional adaptation of an audio coding system
CN109217977A (zh) * 2017-06-30 2019-01-15 株式会社Ntt都科摩 数据发送方法、装置及存储介质
CN107911242A (zh) * 2017-11-15 2018-04-13 北京工业大学 一种基于工业无线网络的认知无线电与边缘计算方法
CN110958078B (zh) * 2019-11-01 2022-06-24 南通先进通信技术研究院有限公司 一种面向高损链路的低时延流码分组传输方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Q-learning的HTTP自适应流码率控制方法研究;熊丽荣等;《通信学报》;20170925(第09期);全文 *

Also Published As

Publication number Publication date
CN112822718A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US6934251B2 (en) Packet size control technique
CN107171842B (zh) 基于强化学习的多路径传输协议拥塞控制方法
US10263904B2 (en) Kind of self-adaptive network congestion control method based on SCPS-TP
WO2012174763A1 (zh) 一种基于tcp协议的自适应网络控制传输方法和***
US6097697A (en) Congestion control
US10834368B2 (en) Kind of partially reliable transmission method based on hidden Markov model
US7203167B2 (en) Data flow control method
CN105827537A (zh) 一种基于quic协议的拥塞改进方法
JP5009009B2 (ja) 無線データストリーミングシステムのパラメータの制御方法及び装置
US7376737B2 (en) Optimised receiver-initiated sending rate increment
CN101588597B (zh) 一种基于Kalman滤波的无线流媒体自适应混合FEC/ARQ控制方法
RU2018117504A (ru) Способ для администрирования адаптивным и совместным образом политики маршрутизации и политики повторной передачи у узла в подводной сети, и средство для его реализации
CN111314022A (zh) 一种基于强化学习和喷泉码的屏幕更新传输方法
US20130039209A1 (en) Data transfer
CN105450357A (zh) 编码参数的调整、反馈信息的处理方法及装置
CN111818570A (zh) 一种面向真实网络环境的智能拥塞控制方法及***
CN113162850A (zh) 基于人工智能的异构网络多路径调度方法和***
Jarvinen et al. FASOR retransmission timeout and congestion control mechanism for CoAP
CN114666831A (zh) 一种基于流编码和带宽估计驱动的分组传输方法及其***
CN112822718B (zh) 一种基于强化学习和流编码驱动的分组传输方法及***
CN109039541B (zh) 一种基于aos通信***丢包率最小化的链路自适应优化方法
CN104980365A (zh) 一种基于连续丢包拥塞判断的tcp传输加速方法
CN113347114A (zh) 面向截止时间感知的实时流媒体的传输控制方法及装置
CN115134307B (zh) 云计算中基于分组丢失率编码的负载均衡方法
KR100419280B1 (ko) 무선 링크의 상태에 따른 스누프 프로토콜의 간접 승인방법 및 이 방법을 수행하는 유무선 통합 망의 패킷 전송장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant