CN108810567B - 一种音频与视频视角匹配的方法、客户端和服务器 - Google Patents

一种音频与视频视角匹配的方法、客户端和服务器 Download PDF

Info

Publication number
CN108810567B
CN108810567B CN201710289042.5A CN201710289042A CN108810567B CN 108810567 B CN108810567 B CN 108810567B CN 201710289042 A CN201710289042 A CN 201710289042A CN 108810567 B CN108810567 B CN 108810567B
Authority
CN
China
Prior art keywords
audio
client
fragment
mpd file
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710289042.5A
Other languages
English (en)
Other versions
CN108810567A (zh
Inventor
高莹
顾迎节
张尧烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710289042.5A priority Critical patent/CN108810567B/zh
Publication of CN108810567A publication Critical patent/CN108810567A/zh
Application granted granted Critical
Publication of CN108810567B publication Critical patent/CN108810567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种音频与视频视角匹配的方法、客户端和服务器,以解决现有的客户端播放全景视频的方案中存在的客户端在当前视角发生变化时,无法选择与之匹配的音频文件进行播放,导致用户体验差的问题。该方法为,客户端向服务器发送用于获取全景视频的MPD文件的携带有所述MPD文件的标识第一请求消息;接收服务器根据所述MPD文件的标识反馈的所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的空间描述信息,所述音频空间描述信息用于描述所述MPD文件中的至少一个音频分片的关联区域;根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片。

Description

一种音频与视频视角匹配的方法、客户端和服务器
技术领域
本申请涉及多媒体技术领域,尤其涉及一种音频与视频视角匹配的方法、客户端和服务器。
背景技术
全景视频也称为360度全景视频,是通过位于中心位置的相机对四周进行360度全景拍摄,并通过同步、拼接、投影等技术,将多个角度拍摄的图像合成全景图像,并将多个帧的全景图像组成全景视频。
用户观看全景视频时可以上下左右任意改变观看的角度,获得更好的体验。全景视频与传统普通视频的一个很大区别是:用户某一时刻观看到的不是完整的视频画面,只是完整视频画面的一部分区域。通常把用户当前实际观看的内容在全景视频坐标系所处的区域称为当前视角,本申请中将用户在当前视角观看到的视频画面称为视频视角。用户观看时通过滑动屏幕或转动头部(头盔),来转换当前视角观看到不同的视频视角。
目前的全景视频应用中,只考虑了视频视角随着用户当前视角的改变而不同,而没有考虑音频、字幕等其他媒体组件。而在一些应用场景中,当用户当前视角发生变化时,如果音频可以与视频视角进行同步匹配将为用户带来更好的观看体验。例如,当我们观看如《爸爸去哪儿》等娱乐节目时,当多组家庭在一起集合时,如果用户当前视角为家庭1时,表示用户对家庭1比较感兴趣,此时与之匹配的可以是家庭1成员相关的音频。而当用户当前视角切换为家庭2时,与之匹配的应为家庭2成员相关的音频。当用户没有特别关注的家庭或者视频画面中包含多个家庭时,与之匹配的可以是默认音频,但是,当前的全景视频应用中,在用户当前的视频视角发生变化时,无法选择与之匹配的音频文件进行播放,导致用户体验差。
发明内容
本申请实施例提供一种音频与视频视角匹配的方法、客户端和服务器,以解决现有的客户端播放全景视频的方案中存在的客户端在当前视角发生变化时,无法选择与之匹配的音频文件进行播放,导致用户体验差的问题。
本申请实施例提供的具体技术方案如下:
第一方面,本申请实施例提供一种音频与视频视角匹配的方法,包括:
服务器接收客户端发送的用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
所述服务器根据所述MPD文件的标识,向所述客户端返回所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
采用上述方法,客户端向服务器请求获取包含音频分片的标识及其对应的音频空间描述信息的MPD文件,使得客户端可以在当前视角范围确定后,根据音频空间描述信息计算出各个音频在全景视频图像中的关联区域。当某个音频分片对应的关联区域与用户当前视角范围相匹配时,使客户端获取到与视频图像精准匹配的音频文件进行播放,从而实现音频与视频图像的同步匹配,提升用户的观看体验。通过本申请实施例可以用以解决现有的客户端播放全景视频的方案中存在的客户端在当前视角发生变化时,无法选择与之匹配的音频文件进行播放,导致用户体验差的问题。
结合第一方面,一种可能的设计中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
这种设计中,所述MPD文件中包括区域匹配条件时,当音频分片的关联区域与用户当前视角范围之间满足区域匹配条件时,即认为所述音频分片与多给你钱视角是匹配的。当MPD文件中包括多音频匹配策略时,当存在至少两个音频分片的关联区域与用户当前视角范围之间满足区域匹配条件时,根据多音频匹配策略确定与当前视角范围匹配的音频分片,为用户提供更加灵活的视频匹配效果。
结合第一方面,一种可能的设计中,所述方法还包括:
所述服务器接收所述客户端发送的用于获取视频分片的第二请求消息,所述第二请求消息中携带有所述视频分片的标识;
所述服务器根据所述视频分片的标识,向所述客户端发送所述视频分片。
结合第一方面,一种可能的设计中,所述方法还包括:
所述服务器接收所述客户端发送的用于获取与所述视频分片匹配的第一音频分片的第三请求消息,所述第三请求消息中携带有所述第一音频分片的标识;
所述服务器根据所述第一音频分片的标识,向所述客户端发送所述第一音频分片。
第二方面,本申请实施例提供一种音频与视频视角匹配的方法,包括:
客户端向服务器发送用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
所述客户端接收所述服务器根据所述MPD文件的标识反馈的所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的空间描述信息,所述音频空间描述信息用于描述所述MPD文件中的至少一个音频分片的关联区域;
所述客户端根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片。
上述方法中,客户端向服务器请求获取包含音频分片的标识及其对应的音频空间描述信息的MPD文件,使得客户端可以在当前视角范围确定后,根据音频空间描述信息计算出各个音频在全景视频图像中的关联区域。当某个音频分片对应的关联区域与用户当前视角范围相匹配时,使客户端获取到与视频图像精准匹配的音频文件进行播放,从而实现音频与视频图像的同步匹配,提升用户的观看体验。通过本申请实施例可以用以解决现有的客户端播放全景视频的方案中存在的客户端在当前视角发生变化时,无法选择与之匹配的音频文件进行播放,导致用户体验差的问题。
结合第二方面,一种可能的设计中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
这种设计中,所述MPD文件中包括区域匹配条件时,当音频分片的关联区域与用户当前视角范围之间满足区域匹配条件时,即认为所述音频分片与多给你钱视角是匹配的。当MPD文件中包括多音频匹配策略时,当存在至少两个音频分片的关联区域与用户当前视角范围之间满足区域匹配条件时,根据多音频匹配策略确定与当前视角范围匹配的音频分片,为用户提供更加灵活的视频匹配效果。
结合第二方面,一种可能的设计中,所述客户端根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片,包括:
所述客户端根据所述至少一个音频空间描述信息得到所述MPD文件中的至少一个音频分片在所述全景视频中的至少一个关联区域;
所述客户端将所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域对应的音频分片确定为备选音频分片;
若只存在一个备选音频分片时,将所述备选音频分片确定为第一音频分片;
若存在至少两个备选音频分片时,根据所述多音频分片的匹配策略,确定第一音频分片;
若不存在备选音频分片时,将预配置的默认音频分片定为第一音频分片。
这种设计中,通过在MPD文件中设置多音频匹配策略,当多个关联区域与用户当前视角范围匹配时,根据多音频匹配策略,客户端可以选择最佳的音频进行匹配播放。
结合第二方面,一种可能的设计中,所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域为与所述当前视角范围相同的关联区域;或,
与所述当前视角范围满足所述区域匹配条件的关联区域。
这种设计中,针对所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域设置不同的条件,用户可以根据实际需要来具体确定所述至少一个关联区域是否与当前视角范围匹配,方式灵活,提高用户体验。
结合第二方面,一种可能的设计中,所述与所述当前视角范围满足所述区域匹配条件的关联区域,包括:
落入所述当前视角范围的关联区域;或,
与所述当前视角范围的匹配度大于预设阈值的关联区域。
这种设计中,通过在MPD文件中设置音频分片的区域匹配条件,可以实现音频的关联区域与用户当前视角之间不同的条件匹配,从而提供更加灵活的音频与视频图像间的匹配效果,更进一步的,
结合第二方面,一种可能的设计中,所述方法还包括:
所述客户端将所述MPD文件中包括的至少一个音频分片下载至所述客户端本地,所述客户端在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片之后,从下载至本地的至少一个音频分片中获取所述第一音频分片进行解码播放。
这种设计中,由于音频分片数据量并不大,客户端提前将多个音频都下载到本地,当中确定与用户的当前视角范围的区域相匹配的音频分片后在本地直接获取该音频分片进行解码播放,提高音频的获取效率,进一步提高匹配效率,提升用户体验。
第三方面,本申请实施例提供一种服务器,包括:
接收单元,用于接收客户端发送的用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
处理单元,用于根据所述MPD文件的标识,向所述客户端返回所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
结合第三方面,一种可能的设计中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
结合第三方面,一种可能的设计中,所述服务器还包括发送单元,
所述接收单元,还用于接收所述客户端发送的用于获取视频分片的第二请求消息,所述第二请求消息中携带有所述视频分片的标识;
所述发送单元,用于根据所述视频分片的标识,向所述客户端发送所述视频分片。
结合第三方面,一种可能的设计中,所述接收单元,还用于接收所述客户端发送的用于获取与所述视频分片匹配的第一音频分片的第三请求消息,所述第三请求消息中携带有所述第一音频分片的标识;
所述发送单元,还用于根据所述第一音频分片的标识,向所述客户端发送所述第一音频分片。
第四方面,本申请实施例提供一种客户端,包括:
发送单元,用于向服务器发送用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
接收单元,用于接收所述服务器根据所述MPD文件的标识反馈的所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的空间描述信息,所述音频空间描述信息用于描述所述MPD文件中的至少一个音频分片的关联区域;
处理单元,用于根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片。
结合第四方面,一种可能的设计中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
结合第四方面,一种可能的设计中,所述处理单元在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片时,具体用于:
根据所述至少一个音频空间描述信息得到所述MPD文件中的至少一个音频分片在所述全景视频中的至少一个关联区域;
将所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域对应的音频分片确定为备选音频分片;
若只存在一个备选音频分片时,将所述备选音频分片确定为第一音频分片;
若存在至少两个备选音频分片时,根据所述多音频分片的匹配策略,确定第一音频分片;
若不存在备选音频分片时,将预配置的默认音频分片定为第一音频分片。
结合第四方面,一种可能的设计中,所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域为与所述当前视角范围相同的关联区域;或,
与所述当前视角范围满足所述区域匹配条件的关联区域。
结合第四方面,一种可能的设计中,所述与所述当前视角范围满足所述区域匹配条件的关联区域,包括:
落入所述当前视角范围的关联区域;或,
与所述当前视角范围的匹配度大于预设阈值的关联区域。
结合第四方面,一种可能的设计中,所述处理单元还用于:
将所述MPD文件中包括的至少一个音频分片下载至所述客户端本地,所述客户端在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片之后,从下载至本地的至少一个音频分片中获取所述第一音频分片进行解码播放。
第五方面,本申请实施例提供的一种服务器,包括存储器、处理器以及通信接口;其中,
所述存储器用于存储计算机可读程序;
所述处理器通过运行所述存储器中的程序,以完成第一方面及第一方面中任一可能的实现方式提供的方法;
所述通信接口用于在所述处理器的控制下接收和发送数据。
第六方面,本申请实施例提供的一种客户端,包括存储器、处理器以及通信接口;其中,
所述存储器用于存储计算机可读程序;
所述处理器通过运行所述存储器中的程序,以完成第二方面及第二方面中任一可能的实现方式提供的方法;
所述通信接口用于在所述处理器的控制下接收和发送数据。
第七方面,本申请实施例提供一种计算机存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质存储有程序,程序包括指令,所述指令当被具有处理器的网络设备执行时使所述网络设备执行上述第一方面和一方面的各可能实现方式提供的方法。
第八方面,本申请实施例提供一种计算机存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质存储有程序,程序包括指令,所述指令当被具有处理器的电子设备执行时使所述电子设备执行上述第二方面和第二方面的各可能实现方式提供的方法。
附图说明
图1为本申请实施例提供的一种网络架构示意图;
图2为现有技术中MPD文件的内容结构示意图;
图3A为全幅传输方式的视频示意图;
图3B为分块传输方式的视频示意图;
图4为现有技术中视频画面切换示意图;
图5为本申请实施例提供的一种服务器的结构示意图;
图6为本申请实施例提供的一种客户端的结构示意图;
图7为本申请实施例提供的一种音频与视频视角匹配的方法流程示意图;
图8为本申请实施例提供的另一种音频与视频视角匹配的方法流程示意图;
图9A、图9B和图9C为音频分片的关联区域与当前视角的匹配方法示意图;
图10A、图10B和图10C为关联区域的数量大于一个时的示意图;
图11为本申请实施例提供的另一种服务器的结构示意图;
图12为本申请实施例提供的另一种客户端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供一种音频与视频视角匹配的方法、客户端和服务器,以解决现有的客户端播放全景视频的方案中存在的客户端在当前视角发生变化时,无法选择与之匹配的音频文件进行播放,导致用户体验差的问题。
其中,方法和装置是基于同一发明构思的,由于方法及装置解决问题的原理相似,因此装置与方法的实施可以相互参见,重复之处不再赘述。
本申请实施例提供的技术方案涉及的网络架构如图1所示,包括服务器101和客户端102。服务器与客户端相对应,为用户提供本地服务的程序,本申请实施例涉及的客户端具有为用户播放全景视频功能,客户端上运行全景视频播放器,该播放器可以是安装在客户端上的一个应用,也可以是浏览器上的一个页面。客户端可以是无线终端设备,也可以是有线终端设备。无线终端设备可以是具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端设备可以经无线接入网(Radio Access Network,RAN)与一个或多个核心网进行通信,无线终端设备可以是移动终端设备,如移动电话(或称为“蜂窝”电话)和具有移动终端设备的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。有线终端设备可以是有线电视机、有线计算机等。服务器是指提供计算服务的设备,服务器可响应客户端的服务请求,服务器具有承担服务并且保障服务的功能,本申请实施例涉及的服务器具有为客户端提供全景视频的功能。服务器的构成和通用的计算机架构类似,通常包括吹起、硬盘、内存、***总线等,在处理能力、可靠性、稳定性、安全性、可扩展性、可管理性等方面要求较高,例如,服务器可以为个人电脑(Personal Computer,PC)服务器。客户端与服务器之间的通信支持通用的全景视频的媒体传输协议,例如实时传输协议(Real-Time Protocol,RTP)、实时流协议(Real-Time Streaming Protocol,RTSP)、超文本传送协议(HyperText TransferProtocol,HTTP)、HTTP动态自适应流(Dynamic Adaptive Streaming over HTTP,DASH)媒体协议、HTTP直播流流(HTTP Live Streaming,HLS)媒体协议等。
本申请实施例涉及的服务器和客户端可以基于DASH技术,也可以基于其他技术。以基于DASH技术为例,DASH技术主要是为了解决不同视频分发商使用不同的HTTP流媒体技术造成的部署和接收机制上的繁冗问题。DASH技术的主要特点是客户端可以根据网络状况如下载速度、缓存多少等,选择合适码率的媒体分片,媒体分发商根据客户端的选择,通过HTTP协议将媒体分片发送到客户端,以保证用户的观看体验。
现有的DASH标准主要规范了媒体展现描述(Media Presentation Description,MPD)文件和媒体分片(Segment)的格式。现有的MPD文件的内容结构如图2所示,MPD文件分为时间段(Period)、适应集(Adaptation Set)、描述(Representation)、分片(Segment)共4个层次。一个MPD文件由一个或多个连续的period组成,一个Period表示一个媒体时间段,有起始时间和结束时间;一个period包含一个或多个Adaptation Set,每个AdaptationSet通常对应着一种媒体成分,如音频、视频、字幕等。以视频的MPD文件为例,一个视频的Adaptation Set通常包括多个Representation,不同Representation对应不同的码率、分辨率等其它特征,同一个Adaptation Set包含的多个Representation之间能够进行动态自适应切换;每个Representation由一个或多个媒体分片组成,分媒体片是MPD的基本单元,客户端可以通过MPD文件中的媒体分片的统一资源定位符(Uniform Resource Locator,URL)向服务器获取和处理媒体分片以实现流媒体服务。
本申请实施例涉及全景视频传输场景,具体涉及在客户端向服务器请求传输全景视频的视频分片之前向服务器请求获取MPD文件的场景。
全景视频也称为360度全景视频,全景视频是通过位于中心位置的相机对四周进行360o全景拍摄,用户观看时通过滑动屏幕或转动头部带动头盔来改变观察视角,播放全景视频的画面可以自动随之切换,用户好像身处真实环境中一样。
在全景视频传输场景中,客户端首先向服务器获取全景视频的MPD文件,它是一个元数据文件,提供了客户端如何访问全景视频的媒体分片的信息。
由于全景视频的数据量与普通视频相比大很多,目前传输全景视频的方式主要可以分为两类:
1)全幅传输:与普通视频传输方法一致,将整幅全景图像采用H.264、H.265等视频编码形式进行编码传输,客户端收到的是完整的全景视频内容,如图3A所示。
2)分块传输:将全景图像切成多个块(tile),对每块图像进行编码,每块图像对应一个视频分片,传输时将用户的当前视角对应的分块内容优先传输或者以高分辨率传输。如图3B所示,整个全景图像被分为16个块,每块图像对应一个视频分片。
客户端可以根据用户当前的视频视角去请求相应的视频分片,用户当前的视频视角可能落在一个或多个块上,因此客户端接收到的是一个或多个块对应的视频分片。假设客户端根据用户当前视角需要分别请求如图4的左侧所示图中四个分块对应的视频分片。客户端对获取回来的4个视频分片进行解码拼接,渲染播放,最终用户观看的视频画面如图4的右侧所示。
目前运动图像专家组(Moving Picture Experts Group,MPEG)DASH标准在MPD文件中定义了视角(viewpoint)描述符,具有相同viewpoint值的视频和音频内容可以同时播放。客户端可以在MPD文件中找到具有相同viewpoint值的视频和音频分片列表,并根据当前带宽分别获取合适码率的视频和音频分片。例如以下示意性的给出的MPD示例1的视频列表中共包含4个AdaptationSet,从mineType可以判断出前两个AdaptationSet对应视频,后两个AdaptationSet对应音频,其中,id为11或12的Representation对应的视频分片和id为31或32的Representation对应的音频分片可以一起播放,因为他们的viewpoint值都等于vp1。而id为21或22的Representation对应的视频分片和id为41或42的Representation对应的音频分片可以一起播放,因为他们的viewpoint值都等于vp2。
MPD示例一
Figure BDA0001281464880000071
Figure BDA0001281464880000081
由此可知,采用现有技术只能表示视频分片与音频分片之间的视角匹配关系,但是全景视频传输时,视频分片和视频视角并不是一一对应的,不能很好地表示出音频与视频视角之间的匹配关系。例如分块传输时,视频视角可能由多个视频分片组成,按照现有技术这几个视频分片以及该视角匹配的音频应设置相同的viewpoint值。但是同一个视频分片可以属于不同的视频视角中,尤其是当这两个视频视角匹配的音频不同时,采用现有技术无法表示出组成不同视频视角的视频分片与多个音频之间的匹配关系。
而当全景视频全幅传输时,全幅图像对应一个视频分片,其中可能包含多个视频视角,如果这些视频视角对应的音频不同时,采用现有技术无法表示出同一个视频分片中视频视角与不同音频之间的匹配关系。
而本申请实施例中在MPD文件中增加音频空间描述信息,客户端可以利用音频空间描述信息计算所述音频空间描述信息所对应的音频分片的关联区域,当用户当前视角确定后,客户端可以获取关联区域与用户当前视角范围匹配的音频分片并播放,实现音频与视频视角同步匹配的效果。
基于现有技术存在的上述问题,本申请实施例提供一种音频与视频视角匹配的方法、客户端和服务器。下面通过具体实施例详细说明本申请实施例提供的技术方案,需要说明的是,实施例的展示顺序仅代表实施例的先后顺序,并不代表实施例所提供的技术方案的优劣。
实施例一
本申请实施例提供了一种服务器,参阅图5所示,该服务器所在的主机500包括:至少一个处理器501、存储器502和通信接口503;所述至少一个处理器501、所述存储器502和所述通信接口503均通过总线504连接;
所述存储器502,用于存储计算机执行指令。
所述至少一个处理器501,用于执行所述存储器502存储的计算机执行指令,使得所述主机500通过所述通信接口503与客户端所在的主机进行数据交互来执行本申请实施例提供的一种音频与视频视角匹配的方法。其中,
所述至少一个处理器501读取存储器502中的程序,执行下列过程:
所述至少一个处理器501,用于通过所述通信接口503接收客户端发送的用于获取全景视频的MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;根据所述MPD文件的标识,向所述客户端返回所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
在一种可能的实现方式中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
所述至少一个处理器501,还用于:通过所述通信接口503接收所述客户端发送的用于获取视频分片的第二请求消息,所述第二请求消息中携带有所述视频分片的标识;根据所述视频分片的标识,通过所述通信接口503向所述客户端发送所述视频分片。
所述至少一个处理器501,还用于:通过所述通信接口503接收所述客户端发送的用于获取与所述视频分片匹配的第一音频分片的第三请求消息,所述第三请求消息中携带有所述第一音频分片的标识;根据所述第一音频分片的标识,通过所述通信接口503向所述客户端发送所述第一音频分片。
本实施例中,所述至少一个处理器501,可以包括不同类型的处理器501,或者包括相同类型的处理器501;处理器501可以是以下的任一种:中央处理器(Central ProcessingUnit,CPU)、微处理器、现场可编程门阵列(Field Programmable Gate Array,FPGA)、专用处理器等具有计算处理能力的器件。一种可选实施方式,所述至少一个处理器501还可以集成为众核处理器。
所述存储器502可以是以下的任一种或任一种组合:随机存取存储器(RandomAccess Memory,RAM)、只读存储器(read only memory,ROM)、非易失性存储器(non-volatile memory,NVM)、固态硬盘(Solid State Drives,SSD)、机械硬盘、磁盘、磁盘整列等存储介质。
所述通信接口503用于主机500与其他设备(例如客户端所在的主机)进行数据交互。通信接口503可以是以下的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
所述总线504可以包括地址总线、数据总线、控制总线等,为便于表示,图5用一条粗线表示该总线。所述总线504可以是以下的任一种或任一种组合:工业标准体系结构(Industry Standard Architecture,ISA)总线、外设组件互连标准(PeripheralComponent Interconnect,PCI)总线、扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等有线数据传输的器件。
本发明实施例提供了一种客户端,参阅图6所示,该客户端所在的主机600包括:至少一个处理器601、存储器602和通信接口603;所述至少一个处理器601、所述存储器602和所述通信接口603均通过总线604连接;
所述存储器602,用于存储计算机执行指令。
所述至少一个处理器601,用于执行所述存储器602存储的计算机执行指令,使得所述主机600通过所述通信接口603与客户端所在的主机进行数据交互来执行本申请实施例提供的一种音频与视频视角匹配的方法。其中,
所述至少一个处理器601读取存储器602中的程序,执行下列过程:
所述至少一个处理器601,用于通过所述通信接口603向服务器发送用于获取全景视频的MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;通过所述通信接口603接收所述服务器根据所述MPD文件的标识反馈的所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的空间描述信息,所述音频空间描述信息用于描述所述MPD文件中的至少一个音频分片的关联区域;根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片。
在一种可能的实现方式中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
所述至少一个处理器601在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片时,具体用于:
根据所述至少一个音频空间描述信息得到所述MPD文件中的至少一个音频分片在所述全景视频中的至少一个关联区域;将所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域对应的音频分片确定为备选音频分片;若只存在一个备选音频分片时,将所述备选音频分片确定为第一音频分片;若存在至少两个备选音频分片时,根据所述多音频分片的匹配策略,确定第一音频分片;若不存在备选音频分片时,将预配置的默认音频分片定为第一音频分片。
在一种可能的实现方式中,所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域为与所述当前视角范围相同的关联区域;或,与所述当前视角范围满足所述区域匹配条件的关联区域。
在一种可能的实现方式中,所述与所述当前视角范围满足所述区域匹配条件的关联区域,包括:落入所述当前视角范围的关联区域;或,与所述当前视角范围的匹配度大于预设阈值的关联区域。
所述至少一个处理器601,还用于将所述MPD文件中包括的至少一个音频分片下载至所述客户端本地,所述客户端在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片之后,从下载至本地的至少一个音频分片中获取所述第一音频分片进行解码播放。
本实施例中,所述至少一个处理器601,可以包括不同类型的处理器601,或者包括相同类型的处理器601;处理器601可以是以下的任一种:CPU、ARM处理器、FPGA、专用处理器等具有计算处理能力的器件。一种可选实施方式,所述至少一个处理器601还可以集成为众核处理器。
所述存储器602可以是以下的任一种或任一种组合:RAM、ROM、NVM、SSD、机械硬盘、磁盘、磁盘整列等存储介质。
所述通信接口603用于主机600与其他设备(例如服务器所在的主机)进行数据交互。通信接口603可以是以下的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
所述总线604可以包括地址总线、数据总线、控制总线等,为便于表示,图6用一条粗线表示该总线。所述总线604可以是以下的任一种或任一种组合:ISA总线、PCI总线、EISA总线等有线数据传输的器件。
本申请实施例提供的服务器和客户端可以实现客户端向服务器请求获取包含音频分片的标识及其对应的音频空间描述信息的MPD文件,使得客户端可以在当前视角范围确定后,根据音频空间描述信息计算出各个音频在全景视频图像中的关联区域。当某个音频分片对应的关联区域与用户当前视角范围相匹配时,使客户端获取到与视频图像精准匹配的音频文件进行播放,从而实现音频与视频图像的同步匹配,提升用户的观看体验。通过本申请实施例可以用以解决现有的客户端播放全景视频的方案中存在的客户端在当前视角发生变化时,无法选择与之匹配的音频文件进行播放,导致用户体验差的问题。进一步的,本申请实施例中,通过在MPD文件中设置音频分片的区域匹配条件,可以实现音频的关联区域与用户当前视角之间不同的条件匹配,从而提供更加灵活的音频与视频图像间的匹配效果,更进一步的,通过在MPD文件中设置多音频匹配策略,当多个关联区域与用户当前视角范围匹配时,根据多音频匹配策略,客户端可以选择最佳的音频进行匹配播放。
实施例二
本申请实施例提供了一种音频与视频视角匹配的方法,如图7所示,该方法中服务器与客户端的交互流程如下:
S701:客户端向服务器发送用于获取全景视频的MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识。
S701中,MPD文件的标识用于服务器获取该MPD文件的标识指示的MPD文件。MPD文件的标识可以是统一资源标识符(Uniform Resource Idetifier,URI),以URI是http://example.com/mpd为例,第一请求消息包括如下内容:
GET http://example.com/mpd HTTP/1.1
Connection:keep-alive
需要说明的是,上述第一请求消息仅为示例性说明,本实施例中的第一请求消息除包括MPD文件的标识之外,还可以包括其他参数,此处不再一一赘述。
S702:服务器根据MPD文件的标识,获取MPD文件。
S702中,MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
示例性的,包括音频空间描述信息的MPD文件的内容如下所示:
Figure BDA0001281464880000121
Figure BDA0001281464880000131
上述包括空间描述信息的MPD文件中部分属性的描述如下表一所示:
表一
Figure BDA0001281464880000132
上述表一中,adaptationSet@mimeType表示媒体类型,从AdaptationSet(mimeType="video/mp4")可知,上述MPD文件中包含一个mp4类型的视频文件,该AdaptationSet中包含了3种不同码率的视频分片,它们分别对应不同的视频高度和宽度,例如:当码率为bandwidth="1024000"时,视频图像的宽度为width="2560",高度为height="720",因为本实施例中视频采用全幅传输的方式,所以全景视频中全景图像的宽度和高度即为2560和720。此外,该MPD文件中还包含3个音频分片,AdaptationSet(mimeType="audio/mp4"),其中,包含一个主音频分片和2个特定区域对应的音频分片,schemeIdUri="urn:mpeg:dash:asrd:2016"表示音频空间描述信息,其键(value)值定义如表二所示,其中M表示必选,O表示可选。
表二
@value 用法 描述
object_x M 音频分片对应区域的左上角在全景视频图像中的横坐标
object_y M 音频分片对应区域的左上角在全景视频图像中的纵坐标
object_width M 音频分片对应区域的宽度或水平方向尺寸
object_height M 音频分片对应区域的高度或垂直方向尺寸
total_width O 全景视频图像的宽度
total_height O 全景视频图像的高度
因此音频分片1对应的音频空间描述信息<SupplementalProperty schemeIdUri="urn:mpeg:dash:asrd:2016"value="480,390,810,300,3840,1080"/>表示该音频分片的关联区域为在宽度为3840,高度为1080的全景视频图像中以(480,390)为左上角,宽度为810高度为300的区域。因为在音频分片1对应的空间描述信息中提供了全景视频图像的宽度和高度,因此在音频分片2对应的<SupplementalProperty schemeIdUri="urn:mpeg:dash:asrd:2016"value="3072,285,480,510"/>中可以不再提供全景视频图像的宽度和高度,它表示音频分片2的关联区域为在宽度为3840,高度为1080的全景视频图像中以(3072,285)为左上角,宽度为480高度为510的区域。
在本实施例中,没有提供音频关系描述信息的音频分片即被认为是主音频,也可以称为默认音频,除了没有提供音频关系描述信息的音频可以作为默认音频,如果音频分片包含优先级信息时,优先级最高的音频分片也可以认为是默认音频,本申请中并不限定确定默认音频分片的方法。
需要说明的是,音频空间描述信息除了可以如表二中给出的描述方法以外,还可以通过音频分片对应的关联区域的各顶点坐标位置来描述,本申请方案并不限定空间区域的描述方法。因此,除了上述绝对值描述法外,还可以通过给出与全景视频图像的相对比例来描述。
S703:服务器向客户端返回所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
本实施例中,通过上述方法可以实现服务器向客户端发送MPD文件,使客户端基于所述MPD文件实现视频分片与音频分片的一一匹配。上述方法还可以包括如下步骤,以实现服务器向客户端传输全景视频的音频分片:
S704:客户端向服务器发送用于获取视频分片的第二请求消息,该第二请求消息中包括所述视频分片的标识。
客户端根据当前带宽情况向服务器请求选择合适码率的视频分片,这里假设客户端选择的码率为bandwidth="1024000",对应的representation如下:
<Representation id="v2"bandwidth="1024000"width="2560"height="720">
<BaseURL>562465736.mp4</BaseURL>
</Representation>
因此,视频分片的URL为http://cdn1.example.com/562465736.mp4,第二请求消息格式如下:
GET http://cdn1.example.com/562465736.mp4HTTP/1.1
Connection:keep-alive
S705:服务器据所述视频分片的标识,向所述客户端发送所述视频分片。
S706:客户端根据用户的当前视角范围和MPD文件中的至少一个音频空间描述信息,
确定与所述当前视角范围匹配的第一音频分片。
因为客户端在S705中获取的视频分片对应的全景图像宽度为2560,高度为720,假设用户的当前视角范围区域为在宽度为2560,高度为720的全景视频图像中以(320,260)为左上角,宽度为540高度为200的区域。由于在表一的MPD文件的音频空间描述信息中对应的全景视频图像的宽度为3840,高度为1080,因此客户端需要将音频空间描述信息中的value值进行换算:
object_x‘=object_x*width‘/total_width
object_y‘=object_y*height‘/total_height
object_width’=object_width*width‘/total_width
object_height‘=object_height*height‘/total_height
其中,object_x,object_y,object_width,object_height,total_width,total_height为MPD文件中音频分片对应的音频空间描述信息中的原始value值,width,height为客户端获取的视频分片对应的全景视频图像的宽度和高度,object_x‘,object_y‘,object_width’,object_height‘,width,height为音频分片在客户端获取的视频分片对应的全景视频图像中的空间描述信息。经过计算后,音频分片1在宽度为2560,高度为720的全景视频图像中关联的区域为以(320,260)为左上角,宽度为540高度为200的区域,音频分片2在宽度为2560,高度为720的全景视频图像中关联的区域为以(2030,190)为左上角,宽度为320高度为340的区域,因此客户端确定与用户的当前视角范围区域匹配的音频分片为音频分片1,即第一音频分片为音频分片1.
S707:所述客户端向服务器发送用于获取与所述视频分片匹配的第一音频分片的第三请求消息,所述第三请求消息中携带有所述第一音频分片的标识。
音频分片1对应的AdaptationSet如下,包含两个不同码率的音频分片,假设客户端根据当前带宽确定选择码率为bandwidth="64000"的音频分片
Figure BDA0001281464880000151
Figure BDA0001281464880000161
因此,选择的音频分片的URL为http://cdn1.example.com/3463275477.mp4,第三请求消息格式如下:
GET http://cdn1.example.com/3463275477.mp4 HTTP/1.1
Connection:keep-alive
S708:所述服务器根据所述第一音频分片的标识,向所述客户端发送所述第一音频分片。
服务器根据客户端的第三请求信息,发送对应的音频分片至客户端,客户端对该音频分片进行解码播放。
需要说明的是,由于音频分片数据量并不大,客户端也可以提前将多个音频都下载到本地,当S706中确定与用户的当前视角范围的区域相匹配的音频分片后在本地直接获取该音频分片进行解码播放。
进一步的,当用户转换当前视角后,客户端获取与最新的当前视角相匹配的音频分片进行解码播放。
假设用户转换后的当前视角所观看的区域为在宽度为2560,高度为720的全景视频图像中以(2030,190)为左上角,宽度为320高度为340的区域,因此客户端按照步骤S706确定与用户的当前视角范围区域相匹配的音频分片为音频分片2,然后,执行S707和S708获取音频分片2对应的AdaptationSet中码率为bandwidth="64000"的音频分片后进行解码播放。
需要说明的是,本申请中并不限制S704-S705和S706-S708之间的执行顺序。
一种可能的实施方式中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。针对这种实施方式,下面实施例三来对此进行详细说明。
图8示出了一种音频与视频视角匹配的方法,图8中以客户端为执行主体进行了描述,此时,服务器的执行过程与图7中相同,在此不再赘述。
如图8所示,客户端确定与当前视频视角匹配的音频分片的方法包含以下步骤:
800:客户端向服务器发送用于获取全景视频的MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识。具体实现过程可参阅图7中的S701,在此不再赘述。
801:客户端接收服务器发送的MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
目前传输全景视频的方式主要可以分为全幅传输和分块传输两类,当采用全幅传输全景视频时,所述MPD文件的内容可以如实施例二中所示。本实施例三将着重以分块传输为例进行说明,此时,包括音频空间描述信息的MPD文件的内容如下所示。
Figure BDA0001281464880000171
Figure BDA0001281464880000181
上述MPD文件中包含一个主音频分片和2个特定区域对应的音频分片,schemeIdUri="urn:mpeg:dash:asrd:2016"表示音频空间描述信息,所述音频空间描述信息可以采用如实施例二中表一定义的表示方法以外,本实施例三中采用一种音频空间描述信息的相对值表示方法,其value值定义如表三所示:
表三
Figure BDA0001281464880000182
Figure BDA0001281464880000191
802:客户端选择视频分片,确定所述视频分片对应的全景视频图像的宽度和高度。
客户端根据当前带宽选择合适码率的视频分片,当采用如实施例二中的全幅传输全景视频时,所述选择的视频分片对应的宽度和高度即为全景视频图像的宽度和高度。当采用本实施例三中分块传输全景的视频分片时,假设客户端根据当前带宽选择码率为bandwidth="128000"的视频分片,width="960"height="270"表示视频分片对应的视频图像宽度为960,高度为270,以上述的示例的MPD文件进行说明,视频AdaptationSet(mimeType="video/mp4")的<SupplementalProperty schemeIdUri="urn:mpeg:dash:srd:2014"value="0,0,0,1,1,4,4"/>表示该全景视频图像宽度和高度分别分为4份,整个全景视频图像分为4*4=16块(Tile),也就是说,每一块视频分片图像的宽度和高度分别为全景视频图像的宽度和高度的四分之一,因此客户端选择码率为bandwidth="128000"的视频分片对应的全景视频图像的宽度为960*4=3840,高度为270*4=1080。
需要说明的是,确定视频分片对应的全景视频图像的宽度和高度可以参照已有的现有技术,本实施例三中只是给出一种示例说明,并不作具体限定。
803:客户端根据MPD文件中的音频空间描述信息计算各音频分片在所述视频分片对应的全景视频图像中关联的区域。
当音频空间描述信息采用如表二所示的绝对值表示方式时,可以按照实施例二中S706中描述的方法计算各音频分片在所述视频分片对应的全景视频图像中的关联区域。本实施例三中针对表三所示的相对比例表示音频空间描述信息时计算各音频分片在所述视频分片对应的全景视频图像中关联区域的方法进行详细说明。
由802中确定的全景视频图像的总宽度和总高度分别为3840和1080,根据表三中给出的音频空间描述信息value值属性(相对比例表示法)可以确定:音频分片1对应的音频空间描述信息<SupplementalProperty schemeIdUri="urn:mpeg:dash:asrd:2016"value="0.125,0.361,0.211,0.278"/>表示该音频分片关联的区域为在宽度为3840,高度为1080的全景视频图像中以(0.125*3840=480,0.361*1080=390)为左上角,宽度为0.211*3840=810高度为0.278*1080=300的区域。音频分片2对应的音频空间描述信息<SupplementalProperty schemeIdUri="urn:mpeg:dash:asrd:2016"value="0.8,0.264,0.125,0.472"/>表示该音频分片关联的区域为在宽度为3840,高度为1080的全景视频图像中以(0.8*3840=3072,0.264*1080=285)为左上角,宽度为0.125*3840=480高度为0.472*1080=510的区域。
804:当存在备选音频分片的关联区域与当前视角范围相匹配时,执行805;否则,执行807。
其中,客户端将至少一个关联区域中与所述当前视角范围内相匹配的关联区域对应的音频分片确定为备选音频分片。
具体的,确定是否存在音频分片的关联区域与当前视角范围相匹配。可以通过以下方式确定:
方式一,若一音频分片的关联区域为与当前视角范围相同的关联区域,则确定与当前视角范围相匹配。
当根据上述方法计算出一音频分片的关联区域后,若概音频分片的关联区域与用户的当前视角范围区域相同时,则认为该音频分片与当前视角范围相匹配。例如假设用户的当前视角范围区域为在宽度为3840,高度为1080的全景视频图像中以(480,390)为左上角,宽度为810高度为300的区域时,根据803中的计算结果可以确定音频分片1的关联区域与用户的当前视角范围区域相同,即音频分片1与当前视角范围匹配,如图9A所示。
方式二:若一音频分片的关联区域为与所述当前视角范围满足区域匹配条件的关联区域,则确定与当前视角范围相匹配。
具体的,与所述当前视角范围满足所述区域匹配条件的关联区域,包括:
落入所述当前视角范围的关联区域;或,与所述当前视角范围的匹配度大于预设阈值的关联区域。
具体的,MPD文件中可以设置区域匹配条件,当音频分片的关联区域与用户的当前视角范围区域之间满足所述区域匹配条件时,则确定该音频分片与当前视角范围相匹配。
例如,1)区域匹配条件为包含关系的条件,当用户的当前视角范围区域包含音频分片的关联区域时,认为该音频分片与当前视角范围相匹配,如图9A和图9B中所示;2)区域匹配条件为最小匹配比例的条件,最小匹配比例为预设的比例值。当用户的当前视角范围区域与音频分片的关联区域的重叠部分占音频分片的关联区域的比例大于最小匹配比例时,认为该音频分片与当前视角范围相匹配,如图9C所示。
需要说明的是,本申请中并不限制音频分片的关联区域与当前视角范围的匹配方法。
805:当存在至少两个备选音频分片的关联区域与当前视角范围相匹配时,执行806;否则,执行808。
按照上述方法确定的与所述当前视角范围相匹配的音频分片的关联区域的数量大于一个,具体可参阅图10A,图10B和图10C所示。
806:当MPD文件中包含多音频匹配策略时,执行809;否则,执行807。
807:客户端选择默认音频分片作为第一音频分片进行解码播放。
默认音频分片可以是没有任何关联区域的音频分片或者没有设置音频空间描述信息的音频分片,也可以是设置了最高优先级的音频分片。
808:选择与当前视角范围相匹配的第一音频分片进行解码播放。
809:根据多音频匹配策略确定要获取的与当前视角范围相匹配的第一音频分片进行解码播放。
多音频匹配策略用于指示当多个音频分片的关联区域都可以与当前视角范围相匹配时选择与当前视角范围匹配的音频分片的策略。例如,优先级匹配策略可以作为多音频匹配策略的一种实施方式。此时,需要在MPD文件中预设各个音频分片的优先级,根据预设的各个音频分片的优先级,选择优先级最高的音频分片作为与当前视角范围匹配的第一音频分片;又例如,匹配度的匹配策略可以作为多音频匹配策略的一种实施方式。此时,可以计算各个关联区域与当前视角范围区域的重合区域,将重合区域最大的关联区域作为匹配度最大的关联区域;或者,计算重合区域与关联区域的比例值,将比例值最大的关联区域作为匹配度最大的关联区域,从而确定与当前视角范围匹配的关联区域对应的第一音频分片。
需要说明的是,本申请中并不具体限定多音频匹配策略,任何可以用于当多个音频分片的关联区域都可以与当前视角范围匹配时选择与当前视角范围匹配的音频分片的方法都可以作为多音频匹配策略。
若多音频匹配策略为优先级匹配策略时,音频适应集(AdaptationSet)中应当包含优先级属性,用于指示该音频分片的优先级。当多个音频分片的关联区域都可以与当前视角范围相匹配时,通过比较这些音频分片的优先级,确定优先级符合要求的音频分片为与当前视角范围相匹配的音频分片。
实施例三的MPD文件在实施例二的基础上增加区域匹配条件,可以更加灵活地表示音频分片的关联区域与当前视角范围区域之间的匹配关系,进一步的通过多音频匹配策略可以解决多个音频分片与当前视角范围相匹配时如何选择最佳音频分片的问题,从而可以给用户带来更精准的音频与视频视角同步匹配的观看体验。
实施例三
基于以上实施例,本发明实施例还提供了一种服务器,该服务器可以是与图5所示的服务器相同的设备,可以采用实施例二中服务器侧执行的方法。参阅图11所示,本发明实施例提供的一种服务器1100包括:接收单元1101、处理单元1102。其中,
接收单元1101,用于接收客户端发送的用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
处理单元1102,用于根据所述MPD文件的标识,向所述客户端返回所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
在一种可能的实现方式中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
在一种可能的实现方式中,所述服务器还包括发送单元1103,
所述接收单元1101,还用于接收所述客户端发送的用于获取视频分片的第二请求消息,所述第二请求消息中携带有所述视频分片的标识;
所述发送单元1103,用于根据所述视频分片的标识,向所述客户端发送所述视频分片。
在一种可能的实现方式中,所述接收单元1101,还用于接收所述客户端发送的用于获取与所述视频分片匹配的第一音频分片的第三请求消息,所述第三请求消息中携带有所述第一音频分片的标识;
所述发送单元1103,还用于根据所述第一音频分片的标识,向所述客户端发送所述第一音频分片。
上述各个单元的功能可参见实施例二服务器侧执行的方法,此处不再赘述。
需要说明的是,本发明实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
基于以上实施例,本发明实施例还提供了一种客户端,该客户端可以是与图6所示的客户端相同的设备,可以采用实施例二中客户端侧执行的方法。参阅图12所示,本发明实施例提供的一种客户端1200包括:接收单元1201、处理单元1202和发送单元1203。其中,
发送单元1203,用于向服务器发送用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
接收单元1201,用于接收所述服务器根据所述MPD文件的标识反馈的所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的空间描述信息,所述音频空间描述信息用于描述所述MPD文件中的至少一个音频分片的关联区域;
处理单元1202,用于根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片。
在一种可能的实现方式中,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
在一种可能的实现方式中,所述处理单元1202在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片时,具体用于:
根据所述至少一个音频空间描述信息得到所述MPD文件中的至少一个音频分片在所述全景视频中的至少一个关联区域;
将所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域对应的音频分片确定为备选音频分片;
若只存在一个备选音频分片时,将所述备选音频分片确定为第一音频分片;
若存在至少两个备选音频分片时,根据所述多音频分片的匹配策略,确定第一音频分片;
若不存在备选音频分片时,将预配置的默认音频分片定为第一音频分片。
在一种可能的实现方式中,所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域为与所述当前视角范围相同的关联区域;或,
与所述当前视角范围满足所述区域匹配条件的关联区域。
在一种可能的实现方式中,所述与所述当前视角范围满足所述区域匹配条件的关联区域,包括:
落入所述当前视角范围的关联区域;或,
与所述当前视角范围的匹配度大于预设阈值的关联区域。
在一种可能的实现方式中,所述处理单元1202还用于:
将所述MPD文件中包括的至少一个音频分片下载至所述客户端本地,所述客户端在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片之后,从下载至本地的至少一个音频分片中获取所述第一音频分片进行解码播放。
上述各个单元的功能可参见实施例二客户端侧执行的方法,此处不再赘述。
需要说明的是,本发明实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域内的技术人员应明白,本申请实施例可提供为方法、***、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (22)

1.一种音频与视频视角匹配的方法,其特征在于,包括:
服务器接收客户端发送的用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
所述服务器根据所述MPD文件的标识,向所述客户端返回所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
2.如权利要求1所述的方法,其特征在于,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
所述服务器接收所述客户端发送的用于获取视频分片的第二请求消息,所述第二请求消息中携带有所述视频分片的标识;
所述服务器根据所述视频分片的标识,向所述客户端发送所述视频分片。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
所述服务器接收所述客户端发送的用于获取与所述视频分片匹配的第一音频分片的第三请求消息,所述第三请求消息中携带有所述第一音频分片的标识;
所述服务器根据所述第一音频分片的标识,向所述客户端发送所述第一音频分片。
5.一种音频与视频视角匹配的方法,其特征在于,包括:
客户端向服务器发送用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
所述客户端接收所述服务器根据所述MPD文件的标识反馈的所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的空间描述信息,所述音频空间描述信息用于描述所述MPD文件中的至少一个音频分片的关联区域;
所述客户端根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片。
6.如权利要求5所述的方法,其特征在于,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
7.如权利要求6所述的方法,其特征在于,所述客户端根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片,包括:
所述客户端根据所述至少一个音频空间描述信息得到所述MPD文件中的至少一个音频分片在所述全景视频中的至少一个关联区域;
所述客户端将所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域对应的音频分片确定为备选音频分片;
若只存在一个备选音频分片时,将所述备选音频分片确定为第一音频分片;
若存在至少两个备选音频分片时,根据所述多音频分片的匹配策略,确定第一音频分片;
若不存在备选音频分片时,将预配置的默认音频分片定为第一音频分片。
8.如权利要求7所述的方法,其特征在于,所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域为与所述当前视角范围相同的关联区域;或,
与所述当前视角范围满足所述区域匹配条件的关联区域。
9.如权利要求8所述的方法,其特征在于,所述与所述当前视角范围满足所述区域匹配条件的关联区域,包括:
落入所述当前视角范围的关联区域;或,
与所述当前视角范围的匹配度大于预设阈值的关联区域。
10.如权利要求5所述的方法,其特征在于,所述方法还包括:
所述客户端将所述MPD文件中包括的至少一个音频分片下载至所述客户端本地,所述客户端在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片之后,从下载至本地的至少一个音频分片中获取所述第一音频分片进行解码播放。
11.一种服务器,其特征在于,包括:
接收单元,用于接收客户端发送的用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
处理单元,用于根据所述MPD文件的标识,向所述客户端返回所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的音频空间描述信息,所述音频空间描述信息用于描述所述至少一个音频分片的关联区域。
12.如权利要求11所述的服务器,其特征在于,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
13.如权利要求11或12所述的服务器,其特征在于,所述服务器还包括发送单元,
所述接收单元,还用于接收所述客户端发送的用于获取视频分片的第二请求消息,所述第二请求消息中携带有所述视频分片的标识;
所述发送单元,用于根据所述视频分片的标识,向所述客户端发送所述视频分片。
14.如权利要求13所述的服务器,其特征在于,所述接收单元,还用于接收所述客户端发送的用于获取与所述视频分片匹配的第一音频分片的第三请求消息,所述第三请求消息中携带有所述第一音频分片的标识;
所述发送单元,还用于根据所述第一音频分片的标识,向所述客户端发送所述第一音频分片。
15.一种客户端,其特征在于,包括:
发送单元,用于向服务器发送用于获取全景视频的媒体展示描述MPD文件的第一请求消息,所述第一请求消息中携带有所述MPD文件的标识;
接收单元,用于接收所述服务器根据所述MPD文件的标识反馈的所述MPD文件,所述MPD文件中包括至少一个音频分片的标识及其对应的空间描述信息,所述音频空间描述信息用于描述所述MPD文件中的至少一个音频分片的关联区域;
处理单元,用于根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片。
16.如权利要求15所述的客户端,其特征在于,所述MPD文件中还包括所述MPD文件中的至少一个音频分片的区域匹配条件和/或多音频分片的匹配策略。
17.如权利要求16所述的客户端,其特征在于,所述处理单元在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片时,具体用于:
根据所述至少一个音频空间描述信息得到所述MPD文件中的至少一个音频分片在所述全景视频中的至少一个关联区域;
将所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域对应的音频分片确定为备选音频分片;
若只存在一个备选音频分片时,将所述备选音频分片确定为第一音频分片;
若存在至少两个备选音频分片时,根据所述多音频分片的匹配策略,确定第一音频分片;
若不存在备选音频分片时,将预配置的默认音频分片定为第一音频分片。
18.如权利要求17所述的客户端,其特征在于,所述至少一个关联区域中与所述当前视角范围内相匹配的关联区域为与所述当前视角范围相同的关联区域;或,
与所述当前视角范围满足所述区域匹配条件的关联区域。
19.如权利要求18所述的客户端,其特征在于,所述与所述当前视角范围满足所述区域匹配条件的关联区域,包括:
落入所述当前视角范围的关联区域;或,
与所述当前视角范围的匹配度大于预设阈值的关联区域。
20.如权利要求15所述的客户端,其特征在于,所述处理单元还用于:
将所述MPD文件中包括的至少一个音频分片下载至所述客户端本地,所述客户端在根据用户的当前视角范围和所述至少一个音频空间描述信息,确定与所述当前视角范围匹配的第一音频分片之后,从下载至本地的至少一个音频分片中获取所述第一音频分片进行解码播放。
21.一种服务器,其特征在于,包括存储器、处理器以及通信接口;其中,
所述存储器用于存储计算机可读程序;
所述处理器通过运行所述存储器中的程序,以完成如权利要求1至4任一所述的方法;
所述通信接口用于在所述处理器的控制下接收和发送数据。
22.一种客户端,其特征在于,包括存储器、处理器以及通信接口;其中,
所述存储器用于存储计算机可读程序;
所述处理器通过运行所述存储器中的程序,以完成如权利要求5至10任一所述的方法;
所述通信接口用于在所述处理器的控制下接收和发送数据。
CN201710289042.5A 2017-04-27 2017-04-27 一种音频与视频视角匹配的方法、客户端和服务器 Active CN108810567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710289042.5A CN108810567B (zh) 2017-04-27 2017-04-27 一种音频与视频视角匹配的方法、客户端和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710289042.5A CN108810567B (zh) 2017-04-27 2017-04-27 一种音频与视频视角匹配的方法、客户端和服务器

Publications (2)

Publication Number Publication Date
CN108810567A CN108810567A (zh) 2018-11-13
CN108810567B true CN108810567B (zh) 2020-10-16

Family

ID=64070220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710289042.5A Active CN108810567B (zh) 2017-04-27 2017-04-27 一种音频与视频视角匹配的方法、客户端和服务器

Country Status (1)

Country Link
CN (1) CN108810567B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139065A (zh) * 2019-01-30 2019-08-16 北京车和家信息技术有限公司 视频处理方法、视频播放方法及相关设备
CN109840052B (zh) * 2019-01-31 2022-03-18 成都超有爱科技有限公司 一种音频处理方法、装置、电子设备及存储介质
CN111107398A (zh) * 2019-12-27 2020-05-05 深圳市小溪流科技有限公司 一种流媒体数据的传输方法及接收方法、电子设备
CN113411684B (zh) * 2021-06-24 2023-05-30 广州酷狗计算机科技有限公司 视频播放方法和装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148851A (zh) * 2010-09-30 2011-08-10 华为技术有限公司 一种在动态http流传输中应用父母控制的方法和装置
CN105979470A (zh) * 2016-05-30 2016-09-28 北京奇艺世纪科技有限公司 全景视频的音频处理方法、装置和播放***
WO2017022467A1 (ja) * 2015-08-06 2017-02-09 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
CN106572359A (zh) * 2016-10-27 2017-04-19 乐视控股(北京)有限公司 多终端间全景视频同步播放方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9385998B2 (en) * 2013-06-06 2016-07-05 Futurewei Technologies, Inc. Signaling and carriage of protection and usage information for dynamic adaptive streaming

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148851A (zh) * 2010-09-30 2011-08-10 华为技术有限公司 一种在动态http流传输中应用父母控制的方法和装置
WO2017022467A1 (ja) * 2015-08-06 2017-02-09 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
CN105979470A (zh) * 2016-05-30 2016-09-28 北京奇艺世纪科技有限公司 全景视频的音频处理方法、装置和播放***
CN106572359A (zh) * 2016-10-27 2017-04-19 乐视控股(北京)有限公司 多终端间全景视频同步播放方法及装置

Also Published As

Publication number Publication date
CN108810567A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
JP6735415B2 (ja) オーディオビジュアルコンテンツの観察点および観察向きの制御された選択のための方法および装置
EP3459252B1 (en) Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback
CN109155873B (zh) 改进虚拟现实媒体内容的流传输的方法、装置和计算机程序
CN109155874B (zh) 虚拟现实媒体内容的自适应流传输的方法、装置和计算机程序
JP7460722B2 (ja) 空間的不均等ストリーミング
EP3557845A1 (en) Method and device for transmitting panoramic videos, terminal, server and system
CN108810567B (zh) 一种音频与视频视角匹配的方法、客户端和服务器
EP3734980A1 (en) Video playback method and terminal, server and storage medium
US11438645B2 (en) Media information processing method, related device, and computer storage medium
CN108810600B (zh) 一种视频场景的切换方法、客户端及服务器
CN107566854B (zh) 一种媒体内容的获取和发送方法及装置
TWI786572B (zh) 沉浸式媒體提供方法、獲取方法、裝置、設備及存儲介質
EP3490263A1 (en) Channel switching method and device
US20170223077A1 (en) Apparatus and method for providing content
CN113330751A (zh) 用于媒体片段大小和优先级排名的存储和信令的方法和装置
CN111557096A (zh) 发送装置、发送方法、接收装置和接收方法
JP2017123503A (ja) 映像配信装置、映像配信方法及びコンピュータプログラム
US20240119660A1 (en) Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs
CN109218274A (zh) 一种媒体信息的处理方法及装置
KR101944601B1 (ko) 기간들에 걸쳐 오브젝트들을 식별하기 위한 방법 및 이에 대응하는 디바이스
TW201942821A (zh) 資訊處理裝置、資訊處理方法、及程式
CN108574881B (zh) 一种投影类型推荐方法、服务器及客户端
CN109756727B (zh) 信息显示方法及相关设备
CN111885417B (zh) Vr视频播放方法、装置、设备以及存储介质
CN114556962A (zh) 多视点视频处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant