CN113473190B

CN113473190B - 一种基于强化学习的音视频柔性传输装置及传输方法

Info

Publication number: CN113473190B
Application number: CN202110897677.XA
Authority: CN
Inventors: 谭喆
Original assignee: Jiayuan Technology Co Ltd
Current assignee: Jiayuan Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2022-06-28
Anticipated expiration: 2041-08-05
Also published as: CN113473190A

Abstract

本发明涉及一种基于强化学习的音视频柔性传输装置及传输方法，基于强化学习的音视频柔性传输装置包括用于探测链路、发送端、接收端网络情况参数的链路侧及端侧网络探测装置、用于对视频浏览质量进行评价以产生正、负反馈的音视频浏览端QOE评价模块、用于对音视频编码数据进行调整和控制的音视频编码与发送控制器、以及用于实现链路侧和发送端调优以及柔性传输的强化学习智能体。本发明通过强化学习网络模型对链路侧与端侧网络情况以及音视频编码及发送参数进行训练，形成强化学习智能体，针对各种网络状况和参数可动态调整音视频编码与发送机制，可以有效应对各种异构弱网的偶发性和复杂性，实现音视频的柔性传输和QOE提升。

Description

一种基于强化学习的音视频柔性传输装置及传输方法

技术领域

本发明涉及音视频流媒体转发处理与传输技术领域，特别是一种基于强化学习的音视频柔性传输装置及传输方法。

背景技术

随着4K高清、VR/AR、5G、数字孪生等技术的发展，富媒体特别是音视频流媒体越来越占据数据处理的大成。与此相对应，数据传输却越来越呈现异构性、多样性和不确定性。一方面，5G的发展造就了大带宽、广连接和低延时的传输环境，为音视频数据的传输带来了发展机遇；另一方面，弱网环境又普遍存在，特别是高速移动环境下的接入点频繁切换、地下室移动信号减弱、高延迟高拥塞等环境存在极强的偶发性和复杂性。面对音视频数据特别是高清视频数据传输时，针对RTT (Round-Trip Time，网络时延)增大、网络抖动、丢包、网络拥塞等复杂弱网情况，传统传输方式无法克服高质量传输和抗弱网特性，因此会造成视频数据丢包、乱序、延迟抖动等一系列问题，从而大幅影响视频浏览QOE(体验质量)。

网络情况与音视频流本身的发送机制是相关的，这两个因素也直接影响到用户体验QOE和视频传输QOS(服务质量)。传统的音视频抗弱网传输办法大多采用FEC (前向纠错码)、ARQ(自动重传请求)、RTT延迟梯度检测、丢包率探测等方式，在大多场景下取得了良好的效果。但是，传输网络的情况是复杂的、牵一发而动全身的。例如RTT增大可以有效增强BDP(带宽延迟积，Bandwidth-Delay Product) 从而提升网络拥塞容纳能力，但同时也会带来接收端延迟现象。而向网络注入一定量的上行数据包后，即使没有达到最大的BDP也可能会造成传输节点拥塞从而继续增大RTT，最后导致大拥塞和高丢包率。因此，综合考量丢包率、RTT本身及其延迟梯度、各节点缓冲、发送和接收缓冲区的数据拥塞与堆积、视频浏览QOE、音视频编码码率、分辨率、帧率等参数，是一个庞大而繁杂的体系，若单纯改变部分参量往往会导致其他参量的对冲性变化，从而使得终端体验变得更差。可见，网络探测参数与视频流本身的参数不是单纯的正相关或负相关的关系，与用户体验(音视频浏览)QOE也没有固定的线性相关性。因此，无法实现线性控制。

发明内容

本发明的主要目的是克服现有技术的缺点，提供一种针对各种网络状况和参数可动态调整音视频编码与发送机制，可以有效应对各种异构弱网的偶发性和复杂性，实现音视频的柔性传输和QOE提升的基于强化学习的音视频柔性传输装置及传输方法。

本发明采用如下技术方案：

一种基于强化学习的音视频柔性传输装置，包括有：

链路侧及端侧网络探测装置，用于探测链路、发送端、接收端网络情况参数，包括链路探测装置、交换机探针、发送端探测装置及接收端探测装置；链路探测装置及交换机探针探测的网络参数包括网络时延RTT、延迟梯度、交换机排队深度、带宽延迟积BDP；发送端探测装置探测的参数包括发送缓冲区的排队深度、音视频包发送时序情况、发送缓冲区丢包溢出情况；接收端探测装置探测的参数包括接收缓冲区排队情况、音视频包接收时序情况、接收缓冲区溢出情况、RTP丢包率；

音视频浏览端QOE评价模块，用于对视频浏览质量进行评价以产生正、负反馈训练强化学习网络模型，评价的参数包括图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况；

音视频编码与发送控制器，用于对音视频编码数据进行调整和控制，控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器；

强化学习智能体，将链路侧与端侧网络探测装置探测的参数、音视频浏览端 QOE评价模块评价的参数、和音视频编码与发送控制器控制的参数的以往经验值作为输入参数训练强化学习网络模型，以形成基本的强化学习智能体；而后，将链路侧与端侧网络探测装置及网络探针探测的参数作为网络训练输入参数，将音视频编码与发送控制器的音视频编码和发送策略对应的控制参数作为网络训练输入参数，将音视频浏览端QOE评价模块评价的参数作为正、负反馈打分评价标准和奖励值，并输出针对音视频编码与发送控制器的编码与发送控制参数进行反馈控制，以持续优化强化学习智能体。

进一步地，所述音视频编码与发送控制器控制RTP分包打包处理器，并将RTP 分包打包处理器的发送策略参数作为输入参数训练强化学习智能体。

一种基于强化学习的音视频柔性传输方法，包括以下步骤：

步骤1，利用以往经验值训练强化学习网络智能体，具体训练方法包括以下步骤：

步骤1.1，在发送端及链路侧分别设置发送端探测装置、链路探测装置，获取发送端以及链路侧的如下参数：音视频包发送时序情况、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延RTT、延迟梯度及交换机排队深度，并将上述参数进行量化；

步骤1.2，在接收端设置接收端探测装置，获取接收端的如下参数：音视频包接收时序情况、接收缓冲区排队深度、接收缓冲区溢出情况及RTP丢包率，并将上述参数进行量化；

步骤1.3，设置音视频编码与发送控制器，控制音视频编码与发送的如下参数：视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器；

步骤1.4，设置视频质量QOE评价模块，对视频进行解码和渲染，并对图像质量进行识别及评价，评价的参数包括：图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况，并为每个评价参数设置对应的权值，将上述参数按照一定的权值加权后进行量化打分，作为正负激励机制的正、负反馈；

步骤1.5，开始训练强化学习智能体，改变步骤1.3中的音视频编码与发送参数，并基于不同的音视频编码与发送参数情况在固定链路进行发送，分别检测步骤 1.1中发送端以及链路侧的网络参数、步骤1.2中接收端的网络参数、步骤1.4中的视频质量评价参数，其中以步骤1.1中发送端以及链路侧的网络参数和步骤1.2 中接收端的网络参数为状态输入，以步骤1.3中输入的音视频编码与发送参数为动作输入，以步骤1.4中输入的视频质量评价参数为回报函数，根据不同情况下的状态和动作输入，训练强化学习网络模型，实现该强化学习决策过程中整体回报函数期望最优；

步骤2，利用步骤1训练的强化学习智能体，以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入，以步骤1.3中输入的音视频编码与发送参数为动作输入，以步骤1.4中输入的视频质量评价参数为回报函数，获得正、负反馈打分评价标准和奖励值，并输出针对音视频编码与发送控制器的编码与发送参数进行反馈控制，进行链路侧和发送端调优以及柔性传输，并可基于现实环境下的参数持续优化强化学习智能体。

进一步地，对步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数进行量化的方法为：设定对应标准，并按照匹配百分比进行打分，完全匹配为满分，完全不匹配为0分。

进一步地，步骤1.4中，评价参数的对应权值可通过人工设定。

进一步地，所述视频质量QOE评价模块的评价参数还包括雪花或马赛克情况。

进一步地，所述音视频编码与发送控制器控制的音视频编码与发送参数还包括 I帧间隔及发送去抖动。

进一步地，所述音视频编码与发送控制器控制的音视频编码与发送参数还包括采用前向纠错机制和采用自动反馈重发机制。

进一步地，可基于步骤1.1中发送端以及链路侧的各网络参数根据公式(1) 对网络状况进行评价，评价方法为：

f(x)＝k₁*x₁+k₂*x₂ ²+k₃*x₃ ²+k₄*x₄ ²+k₅*x₅ ³+k₆*x₆ ³ (1)；

其中，f(x)表示网络状况评分，评分越高网络状况越差；

X₁:音视频包发送时序情况的量化值，k₁：音视频包发送时序情况对应的权值；

X₂:发送缓冲区的排队深度的量化值，k₂:发送缓冲区的排队深度对应的权值；

X₃:发送缓冲区丢包溢出情况的量化值，k₃:发送缓冲区丢包溢出情况对应的权值；

X₄:网络时延RTT的量化值，k₄：网络时延RTT对应的权值；

X₅:延迟梯度的量化值，k₅：延迟梯度对应的权值；

X₆:交换机排队深度的量化值，k₆：交换机排队深度对应的权值；

权值k₁、k₂、k₃、k₄、k₅、k₆可根据网络实际情况动态设定。

进一步地，步骤1.4中，视频质量QOE评价模块支持人工或自动对图像质量进行识别并评价。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

第一，本发明针对弱网环境下的视频抗弱网特性和种种问题，对于网络参数、编码和发送参数以及视频浏览质量构建强化学习网络模型，通过强化学习网络模型对链路侧与端侧网络情况以及音视频编码及发送参数进行训练，以形成强化学习智能体，特别适合弱网环境下对于各种异构网络条件状况、发送接收、拥塞参数以及用户观赏QOE的联合调优，针对各种网络状况和参数可动态调整音视频编码与发送机制，根据不同弱网情况下链路、端侧和发送参数的训练，可以有效应对各种异构弱网的偶发性和复杂性，实现音视频的柔性传输和QOE提升。

第二，本发明链路侧网络参数包括网络时延RTT、延迟梯度、交换机排队深度、带宽延迟积BDP；发送端网络参数包括发送缓冲区的排队深度、音视频包发送时序情况、发送缓冲区丢包溢出情况；接收端网络参数包括接收缓冲区排队情况、音视频包接收时序情况、接收缓冲区溢出情况、RTP丢包率。音视频浏览端QOE评价模块评价的参数包括图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况。音视频编码与发送控制器控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器及RTP分包打包处理器。全面覆盖音视频传输的各项输入参数和控制参数，可抵消各项参数负相关的影响，实现音视频传输的综合最优化方案。

第三，本发明的评价参数以及各参数权值可通过人工设定，使用更加灵活。

第四，本发明可基于发送端以及链路侧的各网络参数对网络状况进行评价，并给出具体评分，在音视频传输的同时，能更直观的显示网络状况。

附图说明

图1是本发明具体实施方式的链路侧及端侧网络探测装置的工作原理框图；

图2是本发明具体实施方式的音视频浏览端QOE评价模块的工作原理框图；

图3是本发明具体实施方式的音视频编码与发送控制器的工作原理框图；

图4是本发明具体实施方式的强化学习网络模型的原理框图；

图5是本发明具体实施方式的音视频柔性传输装置的整体组网框架图。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

实施例1

参照图1至图5，本发明的一种基于强化学习的音视频柔性传输装置，包括有链路侧及端侧网络探测装置、音视频浏览端QOE评价模块、音视频编码与发送控制器及强化学习智能体。

音视频编码与发送控制器，用于对音视频编码数据进行调整和控制，控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器及RTP分包打包处理器；

参照图1至图5，本发明的一种基于强化学习的音视频柔性传输方法，包括以下步骤：

步骤1.1，在发送端及链路侧分别设置发送端探测装置、链路探测装置，获取发送端以及链路侧的如下参数：音视频包发送时序情况(是否按照编码时间戳的间隔进行发送)、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延RTT、延迟梯度及交换机排队深度，并将上述参数进行量化，量化的方法为：设定对应标准，并按照匹配百分比进行打分，完全匹配为10分，完全不匹配为0分；

在此，基于发送端以及链路侧的各网络参数根据公式(1)可对网络状况进行评价，评价方法为：

其中，f(x)表示网络状况评分，评分越高网络状况越差；

X₁:音视频包发送时序情况的量化值，即编码时间戳与发送时间戳的间隔情况是否匹配，该值描述了发送的抖动情况，由于发送抖动对于全网的影响不是很大，因此设定为一次线性关系；k₁：音视频包发送时序情况对应的权值；

X₂:发送缓冲区的排队深度的量化值，由于排队深度反映了网络拥塞和RTT状况，其对于网络的影响要大于X₁，因此采用二次线性关系表述；k₂:发送缓冲区的排队深度对应的权值；

X₃:发送缓冲区丢包溢出情况的量化值，该参数与排队深度紧密相关，因此可以近似看做排队深度的线性关系，因此也采用二次线性关系表述；k₃:发送缓冲区丢包溢出情况对应的权值；

X₄:网络时延RTT的量化值，该参数描述了一个网络包在链路上来回一次所消耗的时间，其对于网络的影响大致与X₃相同，因此也采用二次线性关系表述；k₄：网络时延RTT对应的权值；

X₅:延迟梯度的量化值，表示网络延迟的变差情况，当该参数不为0时表明网络拥塞急剧增加，因此采用三次线性关系描述；k₅：延迟梯度对应的权值；

X₆:交换机排队深度的量化值，该参数值与X₅具有相同的网络影响因子，因此也采用三次线性关系描述；k₆：交换机排队深度对应的权值；

权值k₁、k₂、k₃、k₄、k₅、k₆默认为1，可根据网络实际情况动态设定。

步骤1.2，在接收端设置接收端探测装置，获取接收端的如下参数：音视频包接收时序情况(是否按照编码时间戳的间隔进行接收)、接收缓冲区排队深度、接收缓冲区溢出情况及RTP丢包率，并按照步骤1.1中的参数量化方法将上述参数进行量化；

步骤1.3，设置音视频编码与发送控制器，控制音视频编码与发送的如下参数：视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器、 I帧间隔、发送去抖动、FEC(前向纠错)机制和ARQ(自动反馈重发)机制；

步骤1.4，设置视频质量QOE评价模块，对视频进行解码和渲染，并对图像质量进行识别及评价，支持人工或自动对图像质量进行识别并评价,评价的参数包括：图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况及雪花或马赛克情况，并为每个评价参数设置对应的权值，将上述参数按照一定的权值加权后进行量化打分，作为正负激励机制的正、负反馈，分数阈值区间设定为(-100,100)；评价参数的对应权值可通过人工设定；

步骤1.5，开始训练强化学习智能体，改变步骤1.3中的音视频编码与发送参数，并基于不同的音视频编码与发送参数情况在固定链路进行发送，分别检测步骤1.1中发送端以及链路侧的网络参数、步骤1.2中接收端的网络参数、步骤1.4中的视频质量评价参数，其中以步骤1.1中发送端以及链路侧的网络参数和步骤1.2 中接收端的网络参数为状态输入，以步骤1.3中输入的音视频编码与发送参数为动作输入，以步骤1.4中输入的视频质量评价参数为回报函数，根据不同情况下的状态和动作输入，训练强化学习网络模型，实现该强化学习决策过程中整体回报函数期望最优；训练过程中，可对音视频编码与发送实施一定的主体动作和辅助动作，其中主体动作包括改变编码参数和发送时序参数；辅助动作包括采用FEC机制、ARQ 机制。

实施例2

本实施例与实施例1的区别在于：发送端以及链路侧的网络参数包括音视频包发送时序情况(是否按照编码时间戳的间隔进行发送)、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延RTT、延迟梯度、带宽延迟积BDP及交换机排队深度；接收端的网络参数包括音视频包接收时序情况(是否按照编码时间戳的间隔进行接收)、接收缓冲区排队深度、接收缓冲区溢出情况及RTP丢包率；音视频编码与发送控制参数包括视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器、发送去抖动、FEC(前向纠错)机制和ARQ(自动反馈重发) 机制；视频质量评价参数包括图像丢包情况、图像卡顿情况、图像跳帧情况及音视频时序匹配情况。视频质量QOE评价模块自动对图像质量进行识别并评价，不支持人工评价。

上述仅为本发明的两个具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于强化学习的音视频柔性传输装置，其特征在于，包括有：

强化学习智能体，将链路侧与端侧网络探测装置探测的参数、音视频浏览端QOE评价模块评价的参数、和音视频编码与发送控制器控制的参数的以往经验值作为输入参数训练强化学习网络模型，以形成基本的强化学习智能体；而后，将链路侧与端侧网络探测装置及网络探针探测的参数作为网络训练输入参数，将音视频编码与发送控制器的音视频编码和发送策略对应的控制参数作为网络训练输入参数，将音视频浏览端QOE评价模块评价的参数作为正、负反馈打分评价标准和奖励值，并输出针对音视频编码与发送控制器的编码与发送控制参数进行反馈控制，以持续优化强化学习智能体。

2.如权利要求1所述的一种基于强化学习的音视频柔性传输装置，其特征在于，所述音视频编码与发送控制器控制RTP分包打包处理器，并将RTP分包打包处理器的发送策略参数作为输入参数训练强化学习智能体。

3.一种基于强化学习的音视频柔性传输方法，其特征在于，包括以下步骤：

步骤1.5，开始训练强化学习智能体，改变步骤1.3中的音视频编码与发送参数，并基于不同的音视频编码与发送参数情况在固定链路进行发送，分别检测步骤1.1中发送端以及链路侧的网络参数、步骤1.2中接收端的网络参数、步骤1.4中的视频质量评价参数，其中以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入，以步骤1.3中输入的音视频编码与发送参数为动作输入，以步骤1.4中输入的视频质量评价参数为回报函数，根据不同情况下的状态和动作输入，训练强化学习网络模型，实现该强化学习决策过程中整体回报函数期望最优；

4.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，对步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数进行量化的方法为：设定对应标准，并按照匹配百分比进行打分，完全匹配为满分，完全不匹配为0分。

5.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，步骤1.4中，评价参数的对应权值可通过人工设定。

6.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，所述视频质量QOE评价模块的评价参数还包括雪花或马赛克情况。

7.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，所述音视频编码与发送控制器控制的音视频编码与发送参数还包括I帧间隔及发送去抖动。

8.如权利要求3或7所述的一种基于强化学习的音视频柔性传输方法，其特征在于，所述音视频编码与发送控制器控制的音视频编码与发送参数还包括采用前向纠错机制和采用自动反馈重发机制。

9.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，可基于步骤1.1中发送端以及链路侧的各网络参数根据公式(1)对网络状况进行评价，评价方法为：

其中，f(x)表示网络状况评分，评分越高网络状况越差；

X₄:网络时延RTT的量化值，k₄：网络时延RTT对应的权值；

X₅:延迟梯度的量化值，k₅：延迟梯度对应的权值；

10.如权利要求3或5所述的一种基于强化学习的音视频柔性传输方法，其特征在于，步骤1.4中，视频质量QOE评价模块支持人工或自动对图像质量进行识别并评价。