WO2021143344A1

WO2021143344A1 - 码率决策模型训练方法以及电子设备

Info

Publication number: WO2021143344A1
Application number: PCT/CN2020/129671
Authority: WO
Inventors: 周超
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2020-01-16
Filing date: 2020-11-18
Publication date: 2021-07-22
Also published as: US20220124387A1; EP3968648A4; CN113132765A; EP3968648A1

Abstract

本公开关于一种码率决策模型训练方法以及电子设备，属于数据处理领域。方法包括：电子设备将网络吞吐量、缓冲区仿真模块的时间长度变化信息以及上一个码率决策时刻的目标决策码率输入到第一模型中，第一模型输出多个第一决策码率对应的第一概率，基于第一概率确定目标决策码率，电子设备基于目标决策码率以及下一个视频数据传输时刻的网络吞吐量和缓冲区仿真模块的时间长度变化信息来确定对于目标决策码率的第一评价值，基于第一评价值，更新第一模型的模型参数。

Description

码率决策模型训练方法以及电子设备

本公开要求于2020年1月16日提交的申请号为202010046898.1、发明名称为“码率决策模型训练方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及视频直播领域，尤其涉及一种码率决策模型训练方法以及电子设备。

背景技术

网络波动对于视频直播领域来说有十分巨大的影响，为了能在保持一定的清晰度的同时避免卡顿，电子设备需要根据网络波动情况来调整视频流码率。

视频码率控制一般采用下述方法：调整电子设备所发送的视频数据的码率，以使客户端缓存的视频时长维持在一个给定范围内，例如，将客户端的缓存的直播视频时长维持在10s-20s之间，当缓存的直播视频时长小于10s时，则降低传输的码率，降低视频的清晰度，使得相同的视频数据包中携带时长更长的直播视频；当缓存的直播视频时长大于20s时，则提高传输的码率，提高视频的清晰度，使得相同的视频数据包中携带时短更长的直播视频。

发明内容

本公开提供了一种码率决策模型训练方法以及电子设备，本公开的技术方案如下：

一方面，提供了一种码率决策模型训练方法，应用于电子设备，包括：

将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由所述第一模型输出多个第一决策码率对应的多个第一概率，其中，所述第二时刻为所述第一时刻的上一个码率决策时刻，所述第一时间长度变化信息为所述第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息；

确定所述第一时刻的目标决策码率，所述第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率；

将所述第一时刻的目标决策码率输入所述仿真交互环境，获取第二时间长度变化信息，其中，所述第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，所述第三时刻为所述第一时刻的下一个视频数据传输时刻；

基于所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率，获取第一评价值，所述第一评价值为所述第一时刻的目标决策码率的评价值；

基于所述第一评价值，更新所述第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，所述码率决策模型为满足所述第一迭代结束条件的迭代过程所得到的第一模型。

一方面，提供了一种码率决策方法，应用于电子设备，包括：

将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由所述码率决策模型输出多个第三决策码率对应的多个第三概率，其中，所述第六时刻为所述第五时刻的上一个码率决策时刻，所述第一参数变化信息为所述第五时刻的缓冲区的参数变化信息；

确定所述第五时刻的目标决策码率，所述第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率；

基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为采用权利要求1所述的码率决策模型训练方法训练出的码率决策模型。

一方面，提供了一种码率决策模型训练装置，包括：

第一概率输出单元，被配置为执行将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由所述第一模型输出多个第一决策码率对应的多个第一概率，其中，所述第二时刻为所述第一时刻的上一个码率决策时刻，所述第一时间长度变化信息为所述第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息；

第一目标决策码率确定单元，被配置为执行确定所述第一时刻的目标决策码率，所述第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率；

时间长度变化信息获取单元，被配置为执行将所述第一时刻的目标决策码率输入所述仿真交互环境，获取第二时间长度变化信息，其中，所述第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，所述第三时刻为所述第一时刻的下一个视频数据传输时刻；

评价值获取单元，被配置为执行基于所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率，获取第一评价值，所述第一评价值为所述第一时刻的目标决策码率的评价值；

模型参数更新单元，基于所述第一评价值，更新所述第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，所述码率决策模型为满足所述第一迭代结束条件的迭代过程所得到的第一模型。

一方面，提供了一种码率决策装置，包括：

第二概率输出单元，被配置为执行将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由所述码率决策模型输出多个第三决策码率对应的多个第三概率，其中，所述第六时刻为所述第五时刻的上一个码率决策时刻，所述第一参数变化信息为所述第五时刻的缓冲区的参数变化信息；

第二目标决策码率确定单元，被配置为执行确定所述第五时刻的目标决策码率，所述第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率；

码率调整单元，被配置为执行基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为通过权利要求9所述的码率决策模型训练装置训练出的码率决策模型。

一方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以下步骤：

一方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以下步骤：

基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为采用上一方面电子设备训练出的码率决策模型。

一方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行以下步骤：

基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为采用上一方面所述的存储介质训练出的码率决策模型。

一方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行以下步骤：

基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为采用上一方面所述的计算机程序产品训练出的码率决策模型。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是一种视频数据采集类型的示意图。

图2是一种仿真交互环境的结构示意图。

图3是一种码率决策模型训练方法的流程图。

图4是一种码率决策方法的流程图。

图5是一种码率决策模型训练方法的流程图。

图6是一种Actor网络的结构示意图。

图7是一种Critic网络的结构示意图。

图8是一种码率决策模型训练装置的框图。

图9是一种码率决策装置的框图。

图10是一种电子设备的结构图。

图11是一种电子设备的结构图。

图12是一种带宽随时间变化的示例图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下本公开实施例中所描述的实施方式并不代表与本相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面是对本公开所涉及的一些名词进行的解释：

码率用于表示一定时长的视频块包含信息多少，相同压缩比下码率较大的视频清晰度更高。

缓冲区用于存储还未发送的视频数据，缓冲区的大小是有限的，在直播领域，希望控制缓冲区内存储的视频数据尽量的小，确保直播的实时性。

网络吞吐量是指在单位时间内传输数据量的多少。

本公开实施例通过训练一个码率决策模型，用以根据上一时刻的网络传输信息来预测下一时刻所需码率，下面对本公开实施例采用的码率决策模型训练方法进行介绍，该码率决策模型训练方法包括数据收集、训练环境创建以及训练三个过程。

在数据收集过程中，在一些实施例中，电子设备获取多个电子设备在数据传输过程中用于表示视频传输环境的相关信息，该相关信息包括但不限于历史网络吞吐量W、缓冲区时间长度信息B、历史码率决策R以及历史缓冲区时间长度变化信息ΔB。上述相关信息所对应的数据采集时间尺度可以不同，举例来说，数据采集时间尺度可以包括长间隔和短间隔，其中，长间隔为在两次码率决策之间的时间间隔，短间隔为相邻两个视频帧之间的时间间隔，当然，该长间隔和短间隔的时长可以根据实际需要进行设置，本公开实施例对此不做的限定。码率决策是指对当前码率进行调整的方式。例如，数据采集的形式可以如图1所示，电子设备能够同时采集到长间隔和短间隔的网络吞吐量W，分别记为W _L和W _S；还能够同时采集到长间隔和短间隔的缓冲区时间长度信息B，分别记为B _L和B _S；历史码率决策R可以仅采集长间隔的数据，记为R _L；历史缓冲区时间长度变化信息ΔB可以仅采集短间隔的数据，记为ΔB _S。在上述数据收集过程中，电子设备获取的不同时间尺度的数据，对码率决策具有不同的意义，短间隔的信息能应对码率决策中的突发情况，而长间隔上的信息能够使码率决策模型更能抓住数据的全局信息，减少误决策情况的发生。

在训练环境创建过程中，在一些实施例中，基本模型架构采用任一种神经网络，例如，采用深度确定性策略梯度(deep deterministic policy gradient，DDPG)、异步优势动作评价算法(asynchronous advantage actor-critic，A3C)或者策略梯度(policy gradients)等，本公开实施例对此不做限定。

在一些实施例中，考虑到实际模型训练时，若将码率决策模型置于真实环境中训练，实际交互的时间为与真实时间同步，那么经历的环境变化情况十分有限，码率决策模型的训练效率较低。本公开实施例中的码率决策模型训练部分可以采用仿真交互环境与模型进行互动本公开实施例采用仿真交互环境与模型进行互动的方式，对码率决策模型进行训练。基于此，可以创建一个仿真交互环境，来模拟实际的网络吞吐量变化情况。电子设备将收集好的真实网络吞吐量随时间变化的记录输入到仿真交互环境中，由仿真交互环境按照收集好的真实网络吞吐量将视频数据发送出去，并获取当前视频传输环境的相关信息。码率决策模型根据从仿真交互环境中获取的视频传输环境的相关信息，输出相应的码率决策。在此之后，决策评价模型会根据码率决策模型输出的决策码率输出评价值。由于码率决策模型做出的码率决策会影响仿真交互环境，使得仿真交互环境发生一定的变化，最终使得反馈给决策评价模型的相关信息也发生变化，整个训练的过程就是上述交互动作的重复，在一些实施例中，获得的价评价值是有利于码率决策学习码率决策的奖励函数。在一些实施例中，仿真交互环境的结构如图2所示，包括三个模块：编码器仿真模块、缓冲区仿真模块以及发送仿真模块。

其中，编码器仿真模块用于接收码率决策模型输出的码率预测，将对应码率的视频数据发送至缓冲区仿真模块。需要说明的是，视频数据的大小除了会受码率大小的影响之外，也会受到视频数据中每一帧大小的影响，编码器仿真模块能够将视频数据的大小编码在满足码率约束的一定范围内随机波动，同时还需要在编码器仿真模块上设定符合直播视频实际的码率和视频数据大小。

其中，缓冲区仿真模块用于接收和发送视频数据。缓冲区仿真模块可以基于一个容量有限的队列实现，缓冲区仿真模块每隔一定的帧间隔接收编码器仿真模块发送的视频数据，同时将视频数据发送至发送仿真模块。

其中，发送仿真模块用于接收虚拟网络吞吐量，其中虚拟网络吞吐量是用于仿真网络实际可用带宽的变化情况，在一些实施例中，虚拟网络吞吐量是预先收集好的真实带宽随时间变化的记录。发送仿真模块还用于按照网络吞吐量的限制将缓冲区仿真模块中的视频数据发送出去，从而达到按照网络吞吐量决定的速度消耗缓冲区仿真模块视频数据的目的。

在一些实施例中，编码器仿真模块每次向缓冲区仿真模块发送固定时长的视频数据。码率决策模型输出的决策码率会导致单个视频数据大小的变化，例如一个视频数据的时长为10s，当前视频数据的大小为50KB(kilobyte，千字节)，下一时刻码率决策模型输出的决策码率为0.7，那么电子设备就将视频数据当前码率变为上个时刻的码率的0.7倍，那么相应的，一个视频数据的大小就变成了50×0.7＝35KB。

在一些实施例中，网络吞吐量会随着时间的推移发生波动，基于网络吞吐量从缓冲区仿真模块中取出视频数据，也就表示发送仿真模块不是随意从缓冲区仿真模块中取出视频数据，视频数据的取出速度是由当前的网络吞吐量决定的。例如，当前时刻的网络吞吐量为1000KB/s，也就表示发送仿真模块每秒能够从缓冲区仿真模块中取出1000KB的视频数据，如果单个视频数据的大小为50KB，那么就相当于发送仿真模块每秒能够取出20个视频数据；如果一个视频数据的大小为25KB，那么就相当于发送仿真模块每秒能够取出40个视频数据。缓冲区仿真模块的剩余容量是时刻变化的，若当前网络吞吐量较小，那么发送仿真模块从缓冲区仿真模块中取出视频数据的速度较慢，在这种情况下，由于编码器仿真模块向缓冲区发送的视频数据的数量是一定的，那么缓冲区仿真模块内存储的数据变多，相应的，缓冲区的剩余容量会减小。

在一些实施例中，若缓冲区仿真模块内的视频数据达到其容量上限，则按照“先进先出”的原则将视频数据丢弃。

在训练过程中，本公开实施例提供了一种基于仿真交互环境的模型训练过程，基本构思是电子设备通过第一模型，基于样本数据进行码率决策，由第一模型输出一个决策码率，电子设备将决策码率输入到仿真交互环境中，仿真交互环境基于接收到的决策码率调整视频数据的发送码率。电子设备获取在上述过程中仿真交互环境中缓冲区仿真模块的时间长度变化信息，将缓冲区仿真模块的时间长度变化信息、决策码率和网络吞吐量输入到第二模型中，由第二模型输出评价值，电子设备基于评价值更新第一模型的模型参数。第一模型、仿真交互环境以及第二模型三者的不断交互，最终得到码率决策模型，该码率决策模型具有基于视频传输环境的相关信息预测得到决策码率的能力。码率决策模型的训练过程参见501-507。

图3是一种码率决策模型训练方法的流程图，应用于电子设备，如图3所示，包括以下步骤：

301、电子设备将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由第一模型输出多个第一决策码率对应的多个第一概率，其中，第二时刻为第一时刻的上一个码率决策时刻，第一时间长度变化信息为第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。

302、电子设备确定第一时刻的目标决策码率，第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率。

303、电子设备将第一时刻的目标决策码率输入仿真交互环境，获取第二时间长度变化信息，其中，第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，第三时刻为第一时刻的下一个视频数据传输时刻。

304、电子设备基于第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率，获取第一评价值，第一评价值为第一时刻的目标决策码率的评价值。

305、电子设备基于第一评价值，更新第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，码率决策模型为满足第一迭代结束条件的迭代过程所得到的第一模型。

在一些实施例中，仿真交互环境还包括编码器仿真模块以及发送仿真模块，将第一时刻的目标决策码率输入仿真交互环境，获取第二时间长度变化信息包括：

将第一时刻的目标决策码率输入编码器仿真模块，由编码器仿真模块向缓冲区仿真模块发送第一时刻的目标决策码率的视频数据。

基于发送仿真模块所指示的速率从缓冲区仿真模块中提取视频数据。

基于缓冲区仿真模块在第一时刻和第三时刻存储视频数据的容量差，获取第二时间长度变化信息。

在一些实施例中，网络吞吐量包括第一网络吞吐量以及第二网络吞吐量，其中，第一网络吞吐量为两个视频帧间隔的时间范围内采集到的网络吞吐量，第二网络吞吐量为码率决策间隔的网络吞吐量。

缓冲区仿真模块的时间长度变化信息包括第一缓冲区时间长度变化信息和第二缓冲区时间长度变化信息，第一缓冲区时间长度变化信息为两个视频帧间隔的时间范围内采集到的缓冲区时间长度变化信息，第二缓冲区时间长度变化信息码率决策间隔的缓冲区时间长度变化信息。

在一些实施例中，基于第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率，获取第一时刻的目标决策码率的第一评价值包括：

将第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率同时输入到第二模型中，由第二模型输出第一评价值。

在一些实施例中，基于第一评价值，更新第一模型的模型参数之后，方法还包括：

将第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率同时输入到第一模型中，得到第三时刻的目标决策码率。

基于第四时刻的网络吞吐量、第三时间长度变化信息和第三时刻的目标决策码率更新第二模型的模型参数，直至任一迭代过程满足第二迭代结束条件，得到决策评价模型，其中，决策评价模型为满足第二迭代结束条件的迭代过程所得到的第二模型，其中，第四时刻为第三时刻的下一个视频数据传输时刻，第三时间长度变化信息为第四时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。

在一些实施例中，将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中之前，方法还包括：

在第一次模型训练过程中，将样本数据输入第一模型，由第一模型输出多个第二决策码率对应的多个第二概率，样本数据包括历史决策码率、历史缓冲区时间长度信息、历史缓冲区时间长度变化信息以及历史网络吞吐量。

确定样本目标码率，样本目标码率为第二概率符合第二目标条件的第二决策码率。

将样本目标码率输入到仿真交互环境中，获取仿真交互环境中的缓冲区仿真模块的样本时间长度变化信息。

将样本目标码率、样本时间长度变化信息以及下一个视频数据传输时刻的网络带宽输入到第二模型中，由第二模型输出第二评价值。

基于第二评价值，更新第一模型的模型参数。

图4是一种码率决策方法的流程图，应用于电子设备，如图4所示，包括以下步骤：

401、电子设备将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由码率决策模型输出多个第三决策码率对应的多个第三概率，其中，第六时刻为第五时刻的上一个码率决策时刻，第一参数变化信息为第五时刻的缓冲区的参数变化信息。

402、电子设备确定第五时刻的目标决策码率，第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率。

在一些实施例中，第三概率符合第三目标条件是指，该第三概率是多个第三概率中最高的。

403、电子设备基于第五时刻的目标决策码率，调整视频数据的码率，码率决策模型为采用上述码率决策模型训练方法训练出的码率决策模型。

在一些实施例中，基于第五时刻的目标决策码率，调整视频数据的码率之后，方法还包括：

基于第五时刻的目标决策码率以及第七时刻的网络吞吐量，更新码率决策模型的模型参数，第七时刻为第五时刻的下一个视频数据传输时刻。

图5是一种码率决策模型训练方法的流程图，如图5所示，方法应用于电子设备中，包括以下步骤：

501、电子设备将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由第一模型输出多个第一决策码率对应的多个第一概率，其中，第二时刻为第一时刻的上一个码率决策时刻，第一时间长度变化信息为第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。

在一些实施例中，电子设备将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率组成一个第一参数矩阵，并将第一参数矩阵输入到第一模型中，通过第一模型的至少一个权重矩阵与参数矩阵进行相乘，得到多个第一特征向量，将多个第一特征向量映射为多个第一概率。例如，若第一时刻的网络吞吐量W为500Kbps、第二时刻的目标决策码率R为0.7、第一时间长度变化信息ΔB为3％，电子设备生成一个一维的第一参数矩阵[500，0.7，3] ^T。电子设备将权重矩阵[0.2，1，0.3]与第一参数矩阵相乘，得到第一特征向量[10，0.7，0.9] ^T，通过归一化函数(SoftMax)将其映射为多个第一概率，例如[0.76，0.05，0.07] ^T，其中，第一特征向量中的数字表示对应的第一决策码率的概率。

需要说明的是，在一些实施例中，第一时刻和第二时刻之间的间隔是提前设置好的，定时直接切换。在一些实施例中，第一时刻和第二时刻之间的间隔是电子设备实时确定的间隔，本公开实施例对此不做限定。在一些实施例中，第一决策码率为码率调整的倍数，或者为一个的码率值。若第一决策码率为码率调整的倍数，那么码率决策模型输出的第一概率对应于不同的码率调整倍数，例如0.7，0.8，0.9，1.0，1.05，1.1以及1.15，每个数字用于表示将当前视频数据的码率调整为上一时刻的倍数，如果在多个第一决策码率中，0.7对应的第一概率最高，那么电子设备通过编码器仿真模块将当前视频数据的码率调整为上一时刻的0.7倍。

502、电子设备确定第一时刻的目标决策码率，第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率。

在一些实施例中，第一概率符合第一目标条件是指该第一概率为多个第一概率中最高的。

503、电子设备将第一时刻的目标决策码率输入仿真交互环境，获取第二时间长度变化信息，其中，第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，第三时刻为第一时刻的下一个视频数据传输时刻。

在一些实施例中，仿真交互环境还包括编码器仿真模块以及发送仿真模块，电子设备将第一时刻的目标决策码率输入编码器仿真模块，由编码器仿真模块向缓冲区仿真模块发送第一时刻的目标决策码率的视频数据。电子设备基于发送仿真模块所指示的速率从缓冲区仿真模块中提取视频数据。电子设备基于缓冲区仿真模块在第一时刻和第三时刻存储视频数据的容量差，获取第二时间长度变化信息。

504、电子设备将第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率同时输入到第二模型中，由第二模型输出第一评价值。

在一些实施例中，电子设备将第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率组成第二参数矩阵。电子设备将第二参数矩阵输入到第二模型中，通过第二模型的至少一个权重矩阵进行运算，得到多个第二特征向量，将多个第二特征向量映射为第一评价值。

例如，若第三时刻的网络吞吐量W为450Kbps、第一时刻的目标决策码率R为0.5、第三时刻的缓冲区仿真模块的时间长度变化信息ΔB为2％，电子设备生成一个一维的第二参数矩阵[450，0.5，2] ^T。电子设备将权重矩阵[0.1，1，0.5]与第二参数矩阵相乘，得到第二特征向量[4.5，0.5，1] ^T，通过S型生长曲线(Sigmoid)将其映射为第一评价值，例如0.6。

505、电子设备基于第一评价值，更新第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，码率决策模型为满足第一迭代结束条件的迭代过程所得到的第一模型。

在一些实施例中，电子设备基于第一评价值，对第一模型的至少一个权重矩阵进行更新，直至第一模型的损失函数的函数值低于目标阈值，或迭代次数达到目标次数时，第一模型训练完成，得到码率决策模型，其中，目标阈值和目标次数可以根据实际情况进行设置，本公开实施例对此不作限定。

506、电子设备将第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率同时输入到第一模型中，得到第三时刻的目标决策码率。

其中，电子设备确定第三时刻的目标决策码率的方法与确定第一时刻的目标决策码率的方法属于同一发明构思，在此不再赘述。

507、电子设备基于第四时刻的网络吞吐量、第三时间长度变化信息和第三时刻的目标决策码率更新第二模型的模型参数，直至任一迭代过程满足第二迭代结束条件，得到决策评价模型，其中，决策评价模型为满足第二迭代结束条件的迭代过程所得到的第二模型，其中，第四时刻为第三时刻的下一个视频数据传输时刻，第三时间长度变化信息为第四时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。

需要说明的是，在501-507之前，也即是在第一模型训练过程中，由于还不存在仿真交互环境中各个部分的参数信息，在一些实施例中，电子设备将样本数据输入第一模型，由第一模型输出多个第二决策码率对应的多个第二概率，其中，样本数据包括历史决策码率，历史缓冲区时间长度信息、历史缓冲区时间长度变化信息以及历史网络吞吐量。电子设备确定样本目标码率，样本目标码率为第二概率符合第二目标条件的第二决策码率。电子设备将样本目标码率输入到仿真交互环境中，获取仿真交互环境中的缓冲区仿真模块的样本时间长度变化信息。电子设备将样本目标码率、样本时间长度变化信息以及下一个视频数据传输时刻的网络带宽输入到第二模型中，由第二模型输出第二评价值。电子设备基于第二评价值，更新第一模型的模型参数。在一些实施例中，第二概率符合第二目标条件是指，该第二概率是多个第二概率中最高的。

在一些实施例中，样本数据来源于观看视频的用户端或者来自于服务器，本公开实施例对于样本数据的来源不做限定。

在一些实施例中，电子设备能够同时基于不同的网络带宽训练多个码率决策模型，基于训练得到的多个码率决策模型的模型参数，得到主码率决策模型的参数，主码率决策模型也即是在直播过程中进行码率决策的码率决策模型。例如，多个码率决策模型能够分别获取第一参考数量的训练参数，训练参数中至少包括表示视频传输环境的相关信息以及与表示视频传输环境的相关信息对应的评价值。电子设备通过多个码率决策模型，分别将第一参考数量的训练参数发送至主码率决策模型，电子设备基于第一参考数量的训练参数更新主码率决策模型的模型参数。随后，电子设备通过主码率决策模型将更新后的模型参数分别发送给多个码率决策模型。电子设备控制多个码率决策模型分别将模型参数替换为接收到的模型参数，随后继续在不同的仿真交互环境中训练。重复上述步骤，直至电子设备更新主码率决策模型的模型参数的次数达到参考次数时，结束训练。其中，参考次数可以根据实际需要进行设置，本公开实施例对此不做限定。需要说明的是，本公开实施例提供的主码率决策模型除了在达到参考次数的训练之后停止训练，也可以基于模型的损失函数来确定停止训练的时机，本公开实施例对此不做限定。

下面以采用异步更新强化模型(actor-critic)为例说明本公开实施例提供的码率决策模型的训练方法。其中，码率决策模型为Actor(策略)网络、决策评价模型为Critic(价值)网络，Critic网络用于基于在不同网络吞吐量下选择不同码率时所得到的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，来输出评价值，而Actor网络基于Critic网络输出的评价值调整模型参数，Critic网络基于当前时刻的用于表示视频传输环境的相关信息和上一时刻的决策码率，调整模型参数。换句话说，Critic网络对Actor网络输出的决策码率进行评价，Actor网络利用Critic网络的输出的评价值作为训练目标。

在一些实施例中，Actor网络通过如下公式(1)调模型参数，Critic网络通过如下公式(2)调整模型参数：

其中，θ _a为Actor的网络参数，α _a为Actor网络的学习率，π _θ(s _t,a _t)为Actor网络的码率预测，A(s _t,a _t)是Critic网络输出的评价值；θ _c为Critic网络的参数，α _c为Critic网络的学习率，V ^πθ(s _t，θ _c)是t时刻的网络传输信息s _t和当前Critic网络的参数θ _c下Critic网络输出的评价值。

在一些实施例中，在进行码率决策时，仅有Actor网络处于激活状态，而在训练状态下Actor网络和Critic网络同时处于激活状态。

在一些实施例中，Critic网络与Actor网络的最后一个输出层是不同的，Critic网络的最后一个输出层为一个没有激活函数的线性输出层；Actor网络的最后一个输出层为一个SoftMax输出层。除了最后一个输出层，Critic网络和Actor网络的其余结构相同。在一些实施例中，Actor网络的结构如图6所示，Critic网络的结构如图7所示。需要说明的是，Critic网络与Actor网络的结构可以基于实际情况进行设计，本公开实施例对此不做限定。

图8是一种码率决策模型训练装置的框图。参照图8，该装置包括第一概率输出单元801，第一目标决策码率确定单元802、时间长度变化信息确定单元803、评价值获取单元804和模型参数更新单元805。

第一概率输出单元801，被配置为执行将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由第一模型输出多个第一决策码率对应的多个第一概率，其中，第二时刻为第一时刻的上一个码率决策时刻，第一时间长度变化信息为第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。

第一目标决策码率确定单元802，被配置为执行确定第一时刻的目标决策码率，第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率。

时间长度变化信息获取单元803，被配置为执行将将第一时刻的目标决策码率输入仿真交互环境，获取第二时间长度变化信息，其中，第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，第三时刻为第一时刻的下一个视频数据传输时刻。

评价值获取单元804，被配置为执行基于第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率，获取第一评价值，第一评价值为第一时刻的目标决策码率的评价值。

模型参数更新单元805，被配置为执行基于第一评价值，更新第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，码率决策模型为满足第一迭代结束条件的迭代过程所得到的第一模型。

在一些实施例中，仿真交互环境还包括编码器仿真模块以及发送仿真模块，时间长度变化信息获取单元包括：

视频数据发送子单元，被配置为执行将第一时刻的目标决策码率输入编码器仿真模块，由编码器仿真模块向缓冲区仿真模块发送第一时刻的目标决策码率的视频数据。

视频数据提取子单元，被配置为执行基于发送仿真模块所指示的速率从缓冲区仿真模块中提取视频数据。

时间长度变化信息获取子单元，被配置为执行基于缓冲区仿真模块在第一时刻和第三时刻存储视频数据的容量差，获取第二时间长度变化信息。

在一些实施例中，评价值获取单元被配置为执行将第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率同时输入到第二模型中，由第二模型输出第一评价值。

在一些实施例中，装置还包括：

第三时刻目标码率决策确定单元，被配置为执行将第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率同时输入到第一模型中，得到第三时刻的目标决策码率。

决策评价模型确定单元，被配置为执行基于第四时刻的网络吞吐量、第三时间长度变化信息和第三时刻的目标决策码率更新第二模型的模型参数，直至任一迭代过程满足第二迭代结束条件，得到决策评价模型，其中，决策评价模型为满足第二迭代结束条件的迭代过程所得到的第二模型，其中，第四时刻为第三时刻的下一个视频数据传输时刻，第三时间长度变化信息为第四时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。

在一些实施例中，第一概率输出单元还被配置为执行在第一次模型训练过程中，将样本数据输入第一模型，由第一模型输出多个第二决策码率对应的多个第二概率，样本数据包括历史决策码率、历史缓冲区时间长度信息、历史缓冲区时间长度变化信息以及历史网络吞吐量。

第一时刻的目标决策码率确定单元，还被配置为执行确定样本目标码率，样本目标码率为第二概率符合第二目标条件的第二决策码率。

时间长度变化信息获取单元，还被配置为执行将样本目标码率输入到仿真交互环境中，获取仿真交互环境中的缓冲区仿真模块的样本时间长度变化信息。

评价值获取单元，还被配置为执行将样本目标码率、样本时间长度变化信息以及下一个视频数据传输时刻的网络带宽输入到第二模型中，由第二模型输出第二评价值。

模型参数更新单元，还被配置为执行基于第二评价值，更新第一模型的模型参数。

关于上述装置，其中各个模块执行操作的方式已经在有关该方法中进行了详细描述，此处将不做详细阐述说明。

图9是一种码率决策装置的框图。参照图9，该装置包括第二概率输出单元901、第二目标决策码率确定单元902和码率调整单元903。

第二概率输出单元901，被配置为执行将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由码率决策模型输出多个第三决策码率对应的多个第三概率，其中，第六时刻为第五时刻的上一个码率决策时刻，第一参数变化信息为第五时刻的缓冲区的参数变化信息。

第二目标决策码率确定单元902，被配置为执行确定第五时刻的目标决策码率，第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率。

码率调整单元903，被配置为执行基于第五时刻的目标决策码率，调整视频数据的码率，码率决策模型为上述决策模型训练装置训练出的码率决策模型。

在一些实施例中，装置还包括：

码率决策模型更新单元，被配置为执行基于第五时刻的目标决策码率以及第七时刻的网络吞吐量，更新码率决策模型的模型参数，第七时刻为第五时刻的下一个视频数据传输时刻。

关于上述实施例中的装置，其中各个模块执行操作的方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于相同构思，本公开实施例还提供了一种电子设备，如图10所示，所述电子设备包括：

处理器1001；

用于存储所述处理器1001可执行指令的存储器1002；

其中，处理器1001被配置为执行以下步骤：

将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由第一模型输出多个第一决策码率对应的多个第一概率，其中，第二时刻为第一时刻的上一个码率决策时刻，第一时间长度变化信息为第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。

确定第一时刻的目标决策码率，第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率。

将第一时刻的目标决策码率输入仿真交互环境，获取第二时间长度变化信息，其中，第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，第三时刻为第一时刻的下一个视频数据传输时刻。

基于第三时刻的网络吞吐量、第二时间长度变化信息以及第一时刻的目标决策码率，获取第一评价值，第一评价值为第一时刻的目标决策码率的评价值。

基于第一评价值，更新第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，码率决策模型为满足第一迭代结束条件的迭代过程所得到的第一模型。

在一些实施例中，仿真交互环境还包括编码器仿真模块以及发送仿真模块，处理器1001被配置为执行以下步骤：

在一些实施例中，处理器1001被配置为执行以下步骤：

基于第二评价值，更新第一模型的模型参数。

基于相同构思，本公开实施例还提供了一种电子设备，如图11所示，电子设备包括：

处理器1101。

用于存储处理器1101可执行指令的存储器1102。

其中，处理器1101被配置为执行以下步骤：

将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由码率决策模型输出多个第三决策码率对应的多个第三概率，其中，第六时刻为第五时刻的上一个码率决策时刻，第一参数变化信息为第五时刻的缓冲区的参数变化信息。

确定第五时刻的目标决策码率，第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率。

基于第五时刻的目标决策码率，调整视频数据的码率，码率决策模型为采用权利要求17的电子设备训练出的码率决策模型。

在一些实施例中，处理器1101被配置为执行以下步骤：

在一些实施例中，上述处理器是中央处理器(central processing unit，CPU)，或者是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field－programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

在一些实施例中，上述存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data random SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DRRAM)。

本公开提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行以下步骤：

在一些实施例中，仿真交互环境还包括编码器仿真模块以及发送仿真模块，电子设备被配置为执行以下步骤：

在一些实施例中，电子设备被配置为执行以下步骤：

基于第二评价值，更新第一模型的模型参数。

在一些实施例中，电子设备被配置为执行以下步骤：

本公开提供了一种计算机程序产品，当计算机程序被计算机执行时，可以使得处理器或电子设备执行以下步骤：

在一些实施例中，仿真交互环境还包括编码器仿真模块以及发送仿真模块，处理器或电子设备被配置为执行以下步骤：

在一些实施例中，处理器或电子设备被配置为执行以下步骤：

基于第二评价值，更新第一模型的模型参数。

图12是一种带宽随时间变化的示例图，参见图12，选取了波动较大的波形为正弦波的网络带宽验证。图中横坐标为时间(秒)，a曲线为真实带宽变化，单位为Mbps，b曲线为缓冲区时间大小的变化单位为秒(s)，c曲线为模型选择的码率，单位为Mbps，d曲线为实际发送视频数据的吞吐量，单位为Mbps，可以看出本公开提供的视频码率控制方法能够使得实际发送视频数据的吞吐量很好地跟随真实带宽的变化，使得发送视频数据的吞吐量几乎和实际不可预知的网络带宽相等，同时保持了缓冲区中存储的数据量在相对较低的水平，这样既保证了视频直播发送的吞吐量，又保证了视频直播的实时性。

本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种码率决策模型训练方法，应用于电子设备，包括：

将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由所述第一模型输出多个第一决策码率对应的多个第一概率，其中，所述第二时刻为所述第一时刻的上一个码率决策时刻，所述第一时间长度变化信息为所述第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息；

确定所述第一时刻的目标决策码率，所述第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率；

将所述第一时刻的目标决策码率输入所述仿真交互环境，获取第二时间长度变化信息，其中，所述第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，所述第三时刻为所述第一时刻的下一个视频数据传输时刻；

基于所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率，获取第一评价值，所述第一评价值为所述第一时刻的目标决策码率的评价值；

基于所述第一评价值，更新所述第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，所述码率决策模型为满足所述第一迭代结束条件的迭代过程所得到的第一模型。
根据权利要求1所述的码率决策模型训练方法，其中，所述仿真交互环境还包括编码器仿真模块以及发送仿真模块，所述将所述第一时刻的目标决策码率输入所述仿真交互环境，获取第二时间长度变化信息包括：

将所述第一时刻的目标决策码率输入所述编码器仿真模块，由所述编码器仿真模块向所述缓冲区仿真模块发送所述第一时刻的目标决策码率的视频数据；

基于所述发送仿真模块所指示的速率从所述缓冲区仿真模块中提取所述视频数据；

基于所述缓冲区仿真模块在所述第一时刻和所述第三时刻存储所述视频数据的容量差，获取所述第二时间长度变化信息。
根据权利要求1所述的码率决策模型训练方法，其中，所述网络吞吐量包括第一网络吞吐量以及第二网络吞吐量，其中，所述第一网络吞吐量为两个视频帧间隔的时间范围内采集到的网络吞吐量，所述第二网络吞吐量为码率决策间隔的网络吞吐量；

所述缓冲区仿真模块的时间长度变化信息包括第一缓冲区时间长度变化信息和第二缓冲区时间长度变化信息，所述第一缓冲区时间长度变化信息为所述两个视频帧间隔的时间范围内采集到的缓冲区时间长度变化信息，所述第二缓冲区时间长度变化信息所述码率决策间隔的缓冲区时间长度变化信息。
根据权利要求1所述的码率决策模型训练方法，其中，所述基于所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率，获取所述第一时刻的目标决策码率的第一评价值包括：

将所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率同时输入到第二模型中，由所述第二模型输出所述第一评价值。
根据权利要求4所述的码率决策模型训练方法，其中，所述基于所述第一评价值，更新所述第一模型的模型参数之后，所述方法还包括：

将所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率同时输入到所述第一模型中，得到所述第三时刻的目标决策码率；

基于第四时刻的网络吞吐量、第三时间长度变化信息和所述第三时刻的目标决策码率，更新所述第二模型的模型参数，直至任一迭代过程满足第二迭代结束条件，得到决策评价模型，其中，所述决策评价模型为满足所述第二迭代结束条件的迭代过程所得到的第二模型，其中，所述第四时刻为所述第三时刻的下一个视频数据传输时刻，所述第三时间长度变化信息为所述第四时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。
根据权利要求1所述的码率决策模型训练方法，其中，所述将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中之前，所述方法还包括：

在第一次模型训练过程中，将样本数据输入所述第一模型，由所述第一模型输出多个第二决策码率对应的多个第二概率，所述样本数据包括历史决策码率、历史缓冲区时间长度信息、历史缓冲区时间长度变化信息以及历史网络吞吐量；

确定样本目标码率，所述样本目标码率为第二概率符合第二目标条件的第二决策码率；

将所述样本目标码率输入到所述仿真交互环境中，获取所述仿真交互环境中的缓冲区仿真模块的样本时间长度变化信息；

将所述样本目标码率、所述样本时间长度变化信息以及下一个视频数据传输时刻的网络带宽输入到第二模型中，由所述第二模型输出第二评价值；

基于所述第二评价值，更新所述第一模型的模型参数。
一种码率决策方法，应用于电子设备，包括：

将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由所述码率决策模型输出多个第三决策码率对应的多个第三概率，其中，所述第六时刻为所述第五时刻的上一个码率决策时刻，所述第一参数变化信息为所述第五时刻的缓冲区的参数变化信息；

确定所述第五时刻的目标决策码率，所述第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率；

基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为采用权利要求1所述的码率决策模型训练方法训练出的码率决策模型。
根据权利要求7所述的码率决策方法，其中，所述基于所述第五时刻的目标决策码率，调整视频数据的码率之后，所述方法还包括：

基于所述第五时刻的目标决策码率以及第七时刻的网络吞吐量，更新所述码率决策模型的模型参数，所述第七时刻为所述第五时刻的下一个视频数据传输时刻。
一种码率决策模型训练装置，包括：

第一概率输出单元，被配置为执行将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由所述第一模型输出多个第一决策码率对应的多个第一概率，其中，所述第二时刻为所述第一时刻的上一个码率决策时刻，所述第一时间长度变化信息为所述第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息；

第一目标决策码率确定单元，被配置为执行确定所述第一时刻的目标决策码率，所述第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率；

时间长度变化信息获取单元，被配置为执行将所述第一时刻的目标决策码率输入所述仿真交互环境，获取第二时间长度变化信息，其中，所述第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，所述第三时刻为所述第一时刻的下一个视频数据传输时刻；

评价值获取单元，被配置为执行基于所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率，获取第一评价值，所述第一评价值为所述第一时刻的目标决策码率的评价值；

模型参数更新单元，基于所述第一评价值，更新所述第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，所述码率决策模型为满足所述第一迭代结束条件的迭代过程所得到的第一模型。
根据权利要求9所述的码率决策模型训练装置，其中，所述仿真交互环境还包括编码器仿真模块以及发送仿真模块，所述时间长度变化信息获取单元包括：

视频数据发送子单元，被配置为执行将所述第一时刻的目标决策码率输入所述编码器仿真模块，由所述编码器仿真模块向所述缓冲区仿真模块发送所述第一时刻的目标决策码率的视频数据；

视频数据提取子单元，被配置为执行基于所述发送仿真模块所指示的速率从所述缓冲区仿真模块中提取所述视频数据；

时间长度变化信息获取子单元，被配置为执行基于所述缓冲区仿真模块在所述第一时刻和所述第三时刻存储所述视频数据的容量差，获取所述第二时间长度变化信息。
根据权利要求9所述的码率决策模型训练装置，其中，所述网络吞吐量包括第一网络吞吐量以及第二网络吞吐量，其中，所述第一网络吞吐量为两个视频帧间隔的时间范围内采集到的网络吞吐量，所述第二网络吞吐量为码率决策间隔的网络吞吐量；

所述缓冲区仿真模块的时间长度变化信息包括第一缓冲区时间长度变化信息和第二缓冲区时间长度变化信息，所述第一缓冲区时间长度变化信息为所述两个视频帧间隔的时间范围内采集到的缓冲区时间长度变化信息，所述第二缓冲区时间长度变化信息所述码率决策间隔的缓冲区时间长度变化信息。
根据权利要求9所述的码率决策模型训练装置，其中，所述评价值获取单元被配置为执行将所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率同时输入到第二模型中，由所述第二模型输出所述第一评价值。
根据权利要求12所述的码率决策模型训练装置，其中，所述装置还包括：

第三时刻目标码率决策确定单元，被配置为执行将所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率同时输入到所述第一模型中，得到所述第三时刻的目标决策码率；

决策评价模型确定单元，被配置为执行基于所述第四时刻的网络吞吐量、所述第三时间长度变化信息和所述第三时刻的目标决策码率更新所述第二模型的模型参数，直至任一迭代过程满足第二迭代结束条件，得到决策评价模型，其中，所述决策评价模型为满足所述第二迭代结束条件的迭代过程所得到的第二模型，其中，所述第四时刻为所述第三时刻的下一个视频数据传输时刻，所述第三时间长度变化信息为所述第四时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。
根据权利要求9所述的码率决策模型训练装置，其中，所述第一概率输出单元还被配置为执行在第一次模型训练过程中，将样本数据输入所述第一模型，由所述第一模型输出多个第二决策码率对应的多个第二概率，所述样本数据包括历史决策码率、历史缓冲区时间长度信息、历史缓冲区时间长度变化信息以及历史网络吞吐量；

所述第一目标决策码率确定单元，还被配置为执行确定样本目标码率，所述样本目标码率为第二概率符合第二目标条件的第二决策码率；

所述时间长度变化信息获取单元，还被配置为执行将所述样本目标码率输入到所述仿真交互环境中，获取所述仿真交互环境中的缓冲区仿真模块的样本时间长度变化信息；

所述评价值获取单元，还被配置为执行将所述样本目标码率、所述样本时间长度变化信息以及下一个视频数据传输时刻的网络带宽输入到第二模型中，由所述第二模型输出第二评价值；

所述模型参数更新单元，还被配置为执行基于所述第二评价值，更新所述第一模型的模型参数。
一种码率决策装置，包括：

第二概率输出单元，被配置为执行将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由所述码率决策模型输出多个第三决策码率对应的多个第三概率，其中，所述第六时刻为所述第五时刻的上一个码率决策时刻，所述第一参数变化信息为所述第五时刻的缓冲区的参数变化信息；

第二目标决策码率确定单元，被配置为执行确定所述第五时刻的目标决策码率，所述第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率；

码率调整单元，被配置为执行基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为通过权利要求9所述的码率决策模型训练装置训练出的码率决策模型。
根据权利要求15所述的码率决策装置，其中，所述装置还包括：

码率决策模型更新单元，被配置为执行基于所述第五时刻的目标决策码率以及第七时刻的网络吞吐量，更新所述码率决策模型的模型参数，所述第七时刻为所述第五时刻的下一个视频数据传输时刻。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以下步骤：

将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由所述第一模型输出多个第一决策码率对应的多个第一概率，其中，所述第二时刻为所述第一时刻的上一个码率决策时刻，所述第一时间长度变化信息为所述第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息；

确定所述第一时刻的目标决策码率，所述第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率；

将所述第一时刻的目标决策码率输入所述仿真交互环境，获取第二时间长度变化信息，其中，所述第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，所述第三时刻为所述第一时刻的下一个视频数据传输时刻；

基于所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率，获取第一评价值，所述第一评价值为所述第一时刻的目标决策码率的评价值；

基于所述第一评价值，更新所述第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，所述码率决策模型为满足所述第一迭代结束条件的迭代过程所得到的第一模型。
根据权利要求17所述的电子设备，其中，所述仿真交互环境还包括编码器仿真模块以及发送仿真模块，所述处理器被配置为执行以下步骤：

将所述第一时刻的目标决策码率输入所述编码器仿真模块，由所述编码器仿真模块向所述缓冲区仿真模块发送所述第一时刻的目标决策码率的视频数据；

基于所述发送仿真模块所指示的速率从所述缓冲区仿真模块中提取所述视频数据；

基于所述缓冲区仿真模块在所述第一时刻和所述第三时刻存储所述视频数据的容量差，获取所述第二时间长度变化信息。
根据权利要求17所述的电子设备，其中，所述网络吞吐量包括第一网络吞吐量以及第二网络吞吐量，其中，所述第一网络吞吐量为两个视频帧间隔的时间范围内采集到的网络吞吐量，所述第二网络吞吐量为码率决策间隔的网络吞吐量；

所述缓冲区仿真模块的时间长度变化信息包括第一缓冲区时间长度变化信息和第二缓冲区时间长度变化信息，所述第一缓冲区时间长度变化信息为所述两个视频帧间隔的时间范围内采集到的缓冲区时间长度变化信息，所述第二缓冲区时间长度变化信息所述码率决策间隔的缓冲区时间长度变化信息。
根据权利要求17所述的电子设备，其中，所述处理器被配置为执行以下步骤：

将所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率同时输入到第二模型中，由所述第二模型输出所述第一评价值。
根据权利要求20所述的电子设备，其中，所述处理器被配置为执行以下步骤：

将所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率同时输入到所述第一模型中，得到所述第三时刻的目标决策码率；

基于所述第四时刻的网络吞吐量、所述第三时间长度变化信息和所述第三时刻的目标决策码率更新所述第二模型的模型参数，直至任一迭代过程满足第二迭代结束条件，得到决策评价模型，其中，所述决策评价模型为满足所述第二迭代结束条件的迭代过程所得到的第二模型，其中，所述第四时刻为所述第三时刻的下一个视频数据传输时刻，所述第三时间长度变化信息为所述第四时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息。
根据权利要求17所述的电子设备，其中，所述处理器被配置为执行以下步骤：

在第一次模型训练过程中，将样本数据输入所述第一模型，由所述第一模型输出多个第二决策码率对应的多个第二概率，所述样本数据包括历史决策码率、历史缓冲区时间长度信息、历史缓冲区时间长度变化信息以及历史网络吞吐量；

确定样本目标码率，所述样本目标码率为第二概率符合第二目标条件的第二决策码率；

将所述样本目标码率输入到所述仿真交互环境中，获取所述仿真交互环境中的缓冲区仿真模块的样本时间长度变化信息；

将所述样本目标码率、所述样本时间长度变化信息以及下一个视频数据传输时刻的网络带宽输入到第二模型中，由所述第二模型输出第二评价值；

基于所述第二评价值，更新所述第一模型的模型参数。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以下步骤：

将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由所述码率决策模型输出多个第三决策码率对应的多个第三概率，其中，所述第六时刻为所述第五时刻的上一个码率决策时刻，所述第一参数变化信息为所述第五时刻的缓冲区的参数变化信息；

确定所述第五时刻的目标决策码率，所述第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率；

基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为采用权利要求17所述的电子设备训练出的码率决策模型。
根据权利要求23所述的电子设备，其中，所述处理器被配置为执行以下步骤：

基于所述第五时刻的目标决策码率以及第七时刻的网络吞吐量，更新所述码率决策模型的模型参数，所述第七时刻为所述第五时刻的下一个视频数据传输时刻。
一种存储介质，其中，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行以下步骤：

将第一时刻的网络吞吐量、第一时间长度变化信息以及第二时刻的目标决策码率同时输入到第一模型中，由所述第一模型输出多个第一决策码率对应的多个第一概率，其中，所述第二时刻为所述第一时刻的上一个码率决策时刻，所述第一时间长度变化信息为所述第一时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息；

确定所述第一时刻的目标决策码率，所述第一时刻的目标决策码率为第一概率符合第一目标条件的第一决策码率；

将所述第一时刻的目标决策码率输入所述仿真交互环境，获取第二时间长度变化信息，其中，所述第二时间长度变化信息为第三时刻的仿真交互环境中的缓冲区仿真模块的时间长度变化信息，其中，所述第三时刻为所述第一时刻的下一个视频数据传输时刻；

基于所述第三时刻的网络吞吐量、所述第二时间长度变化信息以及所述第一时刻的目标决策码率，获取第一评价值，所述第一评价值为所述第一时刻的目标决策码率的评价值；

基于所述第一评价值，更新所述第一模型的模型参数，直至任一迭代过程满足第一迭代结束条件，得到码率决策模型，所述码率决策模型为满足所述第一迭代结束条件的迭代过程所得到的第一模型。
一种存储介质，其中，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行以下步骤：

将第五时刻的网络吞吐量、第一参数变化信息以及第六时刻的目标决策码率同时输入到码率决策模型中，由所述码率决策模型输出多个第三决策码率对应的多个第三概率，其中，所述第六时刻为所述第五时刻的上一个码率决策时刻，所述第一参数变化信息为所述第五时刻的缓冲区的参数变化信息；

确定所述第五时刻的目标决策码率，所述第五时刻的目标决策码率为第三概率符合第三目标条件的第三决策码率；

基于所述第五时刻的目标决策码率，调整视频数据的码率，所述码率决策模型为采用权利要求25所述的存储介质训练出的码率决策模型。