CN114584850B - 一种面向点云视频流媒体传输的用户视角预测方法 - Google Patents

一种面向点云视频流媒体传输的用户视角预测方法 Download PDF

Info

Publication number
CN114584850B
CN114584850B CN202210225898.7A CN202210225898A CN114584850B CN 114584850 B CN114584850 B CN 114584850B CN 202210225898 A CN202210225898 A CN 202210225898A CN 114584850 B CN114584850 B CN 114584850B
Authority
CN
China
Prior art keywords
frame
point cloud
sampling
feature
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210225898.7A
Other languages
English (en)
Other versions
CN114584850A (zh
Inventor
黎洁
李芷鑫
李奇越
文锋
邓锦深
张聪
韩玲
王枭
王慧宇
彭涛
陈勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210225898.7A priority Critical patent/CN114584850B/zh
Publication of CN114584850A publication Critical patent/CN114584850A/zh
Application granted granted Critical
Publication of CN114584850B publication Critical patent/CN114584850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向点云视频流媒体传输的用户视角预测方法,包括以下步骤:1、构建面向点云视频流媒体传输的用户视角预测网络;2、构建所述网络中的3D点云视频显著性检测模、基于用户视点预测提取特征模型和显著性检测与视点预测特征整合模型;3、结合视频的显著性特征和基于视点预测提取的特征进行融合,得到预测的用户视角情况。本发明首次提出3D点云视频流视角预测方法,利用3D点云视频流的显著性检测与某个用户视角结合起来得到最终预测的用户视角,从而能提高预测精度。

Description

一种面向点云视频流媒体传输的用户视角预测方法
技术领域
本发明涉及多媒体视频传输领域,具体的说是一种基于点集深度学习网络和LSTM的3D点云视频的视角预测方法。
背景技术
3D点云,由激光雷达或深度相机收集来的。它比起2D图像提供了更多的几何信息,也具有比2D图像更多更大的数据量。由于头戴式显示设备HMD的局限性,用户只能看到视频中每一帧画面的一小部分,此外3D点云的视频总是在一段时间内连续播放,视频的内容不断变化。因此,对3D点云视频进行视角预测的研究,预测用户每一帧想要看到的画面。假设用户未来的视角已知,则可以根据用户感兴趣的视频区域选择对应的视频传输,从而在视频传输中有利于带节省带宽资源,并使得用户观看的视频质量和用户体验效果更好。
3D点云视频视角预测要求网络同时提取空间信息和时间信息。因此将3D点云视频视角预测任务分解成两个子任务,即3D点云视频显著性检测和用户视点预测。其中3D点云视频显著性检测也分为空间特征提取和时间特征提取两个部分。
桂林电子科技大学吴军等人公开了一种基于卷积神经网络的复杂场景3D点云语义分割方法(公开号:CN110647835A),对获取的原始点云进行下采样,并分别利用中心自注意力机制和邻域自注意力机制对采样得到的采样点云进行特征提取,之后,将提取得到的点云空间位置特征和获取的点云数据属性特征进行拼接,经过注意力机制下的差异性池化处理,得到全局特征向量;采用跳跃连接的方式将每一层上采样结果和对应的所述全局特征向量进行级联,最终经过全连接层的处理,生成点云分割神经网络模型,利用获取的多组点云数据集对所述点云分割神经网络模型进行训练和预测,最终完成语义分割任务。该研究对3D点云进行语义分割方法只结合了当前帧的空间显著特征,对于3D点云视频的语义分割而言该研究方法导致分割精度低。
北京交通大学管文华提出分别设计了一种基于第一视角的行人轨迹预测算法和一种基于人体关节点的低头异常行为检测算法,使车辆能够在复杂的场景中更加准确地避开行人,提高道路行驶的安全性(分类号:U463.6;TP391.41;TP18)。该研究的主要工作之一提出了一种基于第一视角的行人轨迹预测算法。首先根据第一视角的场景特性,设计了相应算法提取所需的行人历史轨迹特征、场景特征及车辆的自我运动信息,帮助车辆更好地感知周围环境;其次将上述特征编码为相同长度的视觉张量,在轨迹生成器中,为了充分学习多种特征,在编码后的视觉张量中引入注意机制以避免时间序列算法的遗忘缺陷,进而建立对不同时间特征向量的不同关注度;最后,根据每个时刻解码器的状态,即具有注意机制的特征向量,使用LSTM解码器直接预测目标人物的未来轨迹。通过在公开数据集上测试,验证了本文算法的有效性。该研究的基于LSTM结合所需行人的历史轨迹特征考虑了时间维度上的特征对预测的影响,但并没有结合第一视角下场景的显著性特征得出车辆感知周围环境的优先顺序,导致车辆最后可能为了规避较远的行人却撞上了较近的行人,预测的精度低。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种面向点云视频流媒体传输的用户视角预测方法,以期将显著性检测与某用户视点预测结合起来得到最终预测的用户视角,从而提高预测精度。
本发明为解决技术问题采用如下技术方案:
本发明一种面向点云视频流媒体传输的用户视角预测方法的特点是按如下步骤进行的:
步骤一、数据预处理:
步骤1.1、获取m个用户观看n帧点云视频的m×n个视点信息其中,/>表示第m个用户观看第n帧点云视频的视点信息;
步骤1.2、提取所述视点信息中用户视角内的n帧点云数据{x1,x2,...,xt,...,xn},其中,xt表示第t帧点云数据,且每一帧点云数据包括m个用户视角内的点云数据;
步骤二、构建面向点云视频流媒体传输的用户视角预测网络;
所述用户视角预测网络包括:3D点云视频显著性检测模型NVS、基于用户视点预测提取特征模型NEP、显著性检测与视点预测特征整合模型NF2one和解码网络;
其中,所述3D点云视频显著性检测模型NVS包括:单帧点云显著性特征提取支路LSF和连续多帧点云时间特征提取支路LDC;其中,所述单帧点云显著性提取支路LSF包含:单帧同步帧采样模块NFS和单帧局部特征聚合模块MLFA;所述连续多帧点云时间特征提取支路LDC包含:多帧同步帧采样模块MFSM、多帧局部特征聚合模块MLFAM和多帧时间特征提取模块MDCF
所述基于用户视点预测提取特征模型NEP包含:视点同步帧采样模块MFSV和视点局部特征聚合模块MLFAV
步骤三、将所述第t帧点云数据xt作为当前帧点云数据并输入所述单帧点云显著性提取支路LSF中,经过所述单帧同步帧采样模块MFS的随机采样处理后,得到当前帧采样数据ft和采样时选取的中心点位置S;其中,当前帧采样数据ft的数据量为bs×nps个采样点,bs表示采样块个数,nps表示每个采样块的点数;
将当前帧采样数据ft输入所述单帧局部特征聚合模块MLFA中进行KNN算法处理,以搜寻出当前帧采样数据ft中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到当前帧空间尺度特征Ft S;其维度为bs×nps×1×1024;
步骤四、所述当前帧点云数据xt和前k帧点云数据输入所述连续多帧点云时间特征提取支路LDC中,其中,当前帧点云数据xt的前k帧点云数据输入所述多帧同步帧采样模块MFSM中进行随机采样,并以所述中心点位置S为前k帧点云数据采样的中心点位置,从而得到前k帧采样数据{ft-k,...,ft-1},其数据量均为bs×nps个采样点;其中,ft-1表示前一帧采样数据;
将所述前k帧采样数据{ft-k,...,ft-1}并行输入所述多帧局部特征聚合模块MLFAM中进行KNN算法处理,以搜寻出前k帧采样数据{ft-k,...,ft-1}中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到前k帧空间尺度特征其中,/>表示前一帧空间尺度特征;
将所述前k帧空间尺度特征和当前帧空间尺度特征Ft S输入所述多帧时间特征提取模块MDCF中进行处理,得到当前帧时间尺度特征Ft T
将所述当前帧空间尺度特征Ft S和当前帧时间尺度特征Ft T按通道串联后,得到当前帧点云数据xt的时空特征Ft ST并作为3D点云视频的当前帧显著性特征;
步骤五、利用LSTM神经网络对所述视点信息进行视点预测,得到m个用户n帧的视点预测信息/>其中,/>表示预测得到的第m个用户观看第n帧点云视频的视点信息;
步骤六、从视点预测信息中随机选取第u个用户的当前帧视点预测信息/>并提取其点云数据xu,t;其中,xu,t包含第u个用户预测观看到的点云数据/>和第u个用户预测观看不到的点云数据/>并将观看到的点云数据/>的标签设置“1”,观看不到的点云数据/>的标签为“0”;
所述点云数据xu,t输入所述基于用户视点预测提取特征模型NEP中,经过所述视点同步帧采样模块MFSV的随机采样,并以所述中心点位置S采样的中心点位置,得到预测后第u个用户的点云采样数据fu,t,其中,点云采样数据fu,t数据量为bs×nps个采样点;
所述点云采样数据fu,t输入视点局部特征聚合模块MLFAV中进行KNN算法处理,以搜寻出点云采样数据fu,t中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到第u个用户当前帧视点预测点云特征其维度为bs×nps×1×1024;
步骤七、所述当前帧显著性特征Ft ST和当前帧视点预测特征输入所述显著性检测与视点预测特征整合模型NF2one中进行整合处理后得到第u个用户当前帧特征Fu,t
步骤八、所述第u个用户当前帧特征Fu,t经过所述解码网络后得到最终预测的第u个用户第t帧看到的视角画面。
本发明所述一种面向点云视频流媒体传输的用户视角预测方法的特点也在于,所述多帧时间特征提取模块MDCF是按如下步骤提取时间尺度特征:
1)提取前一帧和当前帧空间尺度特征其维度均为bs×nps×1×nfs;其中,nfs是聚合的特征个数;
2)在所述采样块个数bs的维度上提取所述当前帧空间尺度特征的第i个采样块的特征/>其维度为1×nps×1×nfs;
3)将所述采样块的特征在所述采样块个数bs的维度上复制bs次,从而得到维度为bs×nps×1×nfs的复制采样块特征/>
4)将所述复制采样块特征与前一帧空间尺度特征特征/>进行融合,得到维度为bs×nps×1×nfs的融合特征featcc
5)将融合特征featcc进行一次共享多层感知机的处理后得到bs×nps×1×1024维的总分数scores,其中,所述总分数scores在所述采样块个数bs的维度上共有bs个张量表示总分数scores在所述采样块个数bs维度上第bs个张量;
6)将所述总分数scores在所述采样块个数bs的维度上进行归一化处理并得到bs个分数{score1,score2,...,scorebs},其中,scorebs表示总分数scores进行归一化处理后得到的第bs个分数;
7)计算bs个分数{score1,score2,...,scorebs}中最大分数scoremax所在的位置max;
8)提取所述总分数scores中在最大分数所在的位置max上的张量并作为当前帧的第i个采样块与前一帧时间信息的变化程度
9)按照步骤2)-步骤8)的过程得到当前帧空间尺度特征的bs个采样块与前一帧时间信息变化特征/>并在所述采样块个数bs的维度上进行拼接,得到当前帧与前一帧对比后的时间尺度特征/>其维度为bs×nps×1×1024;
10)按照步骤1)-步骤9)的过程对前k帧点云和当前帧点云的空间尺度特征进行处理,并得到其中,/>表示当前帧与前k帧对比后的时间尺度特征;
11)将所述当前帧与前k帧对比后的时间尺度特征在所述聚合的特征个数nfs的维度上进行拼接再经过多层感知机mlp处理,得到时间尺度特征Ft T,其维度为bs×nps×1×1024。
所述显著性检测与视点预测特征整合模型NF2one是按如下步骤进行整合处理:
1)将3D点云视频显著性特征Ft ST进行归一化处理,得到显著性归一化特征
2)在区间[0,1]上设置h个阈值,形成阈值区间并将所述显著性归一化特征/>划分到阈值区间的对应阈值上,从而得到显著性阈值特征/>
3)多余维度为bs×nps×1×1024的前帧视点预测特征的1024个特征值逐一进行判断,若特征值大于等于0.5,则令相应特征值为“1”,否则为“0”,从而得到视点预测阈值特征/>
4)将所述显著性阈值特征与视点预测阈值特征/>进行点乘处理后得到特征值为/>的当前帧特征Fu,t
与现有技术相比,本发明的有益效果体现在:
1.本发明首次提出3D点云视频显著性检测的方法;利用单帧显著性检测得到空间尺度特征和多帧时间维度上特征提取得到时间尺度特征并结合时空尺度特征实现了3D点云视频显著性检测,从而提高了3D点云视频显著性检测的可靠性。
2.本发明首次提出3D点云视频视角预测的方法,该方法利用3D点云视频显著性检测与用户视点预测相结合,从而提高了用户视角预测的准确率。
附图说明
图1为本发明用户视角预测方法中多帧时间特征提取模块MDCF结构图;
图2为本发明中用户视角预测方法的网络结构图。
具体实施方式
本实施例中,一种面向点云视频流媒体传输的用户视角预测方法,如图2所示,是面向点云视频流媒体传输的用户视角预测完整网络结构图;***结合3D点云视频显著性特征和基于用户视点预测提取的特征来预测用户在某帧点云的视角画面。
如图2所示,该用户视角预测方法具体包括以下步骤:
步骤一、数据预处理:
步骤1.1、获取m个用户观看n帧点云视频的m×n个视点信息其中,/>表示第m个用户观看第n帧点云视频的视点信息;
步骤1.2、提取视点信息中用户视角内的n帧点云数据{x1,x2,...,xt,...,xn},其中,xt表示第t帧点云数据,且每一帧点云数据包括m个用户视角内的点云数据;
步骤二、构建面向点云视频流媒体传输的用户视角预测网络;
用户视角预测网络包括:3D点云视频显著性检测模型NVS、基于用户视点预测提取特征模型NEP、显著性检测与视点预测特征整合模型NF2one和解码网络;
其中,3D点云视频显著性检测模型包括:单帧点云显著性特征提取支路LSF和连续多帧点云时间特征提取支路LDC;其中,单帧点云显著性提取支路LSF包含:单帧同步帧采样模块MFS和单帧局部特征聚合模块MLFA;连续多帧点云时间特征提取支路LDC包含:多帧同步帧采样模块MFSM、多帧局部特征聚合模块MLFAM和多帧时间特征提取模块MDCF
基于用户视点预测提取特征模型NEP包含:视点同步帧采样模块MFSV和视点局部特征聚合模块MLFAV
步骤三、将第t帧点云数据xt作为当前帧点云数据并输入单帧点云显著性提取支路LSF中,经过单帧同步帧采样模块MFS的随机采样处理后,得到当前帧采样数据ft和采样时选取的中心点位置S;其中,当前帧采样数据ft的数据量为bs×nps个采样点,bs表示采样块个数,nps表示每个采样块的点数;
将当前帧采样数据ft输入单帧局部特征聚合模块MLFA中进行KNN算法处理,以搜寻出当前帧采样数据ft中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机mlp的处理得到当前帧空间尺度特征Ft S;其维度为bs×nps×1×1024;
步骤四、当前帧点云数据xt和前k帧点云数据输入连续多帧点云时间特征提取支路LDC中,其中,当前帧点云数据xt的前k帧点云数据输入多帧同步帧采样模块MFSM中进行随机采样,并以中心点位置S为前k帧点云数据采样的中心点位置,从而得到前k帧采样数据{ft-k,...,ft-1},其数据量均为bs×nps个采样点;其中,ft-1表示前一帧采样数据;
将前k帧采样数据{ft-k,...,ft-1}并行输入多帧局部特征聚合模块MLFAM中进行KNN算法处理,以搜寻出前k帧采样数据{ft-k,...,ft-1}中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机mlp的处理得到前k帧空间尺度特征其中,/>表示前一帧空间尺度特征;
将前k帧空间尺度特征和当前帧空间尺度特征Ft S输入多帧时间特征提取模块MDCF中进行处理,得到当前帧时间尺度特征Ft T
多帧时间特征提取模块MDCF是如下步骤进行特征提取:
(1)提取前一帧和当前帧空间尺度特征其维度均为bs×nps×1×nfs;其中,nfs是聚合的特征个数;
(2)在采样块个数bs的维度上提取当前帧空间尺度特征的第i个采样块的特征其维度为1×nps×1×nfs;
(3)将采样块的特征在采样块个数bs的维度上复制bs次,从而得到维度为bs×nps×1×nfs的复制采样块特征/>
(4)将复制采样块特征与前一帧空间尺度特征特征/>进行融合,得到维度为bs×nps×1×nfs的融合特征featcc
(5)将融合特征featcc进行一次共享多层感知机shared_mlp的处理后得到bs×nps×1×1024维的总分数scores,其中,总分数scores在采样块个数bs的维度上共有bs个张量表示总分数scores在采样块个数bs维度上第bs个张量;
(6)将总分数scores在采样块个数bs的维度上进行归一化处理并得到bs个分数{score1,score2,...,scorebs},其中,scorebs表示总分数scores进行归一化处理后得到的第bs个分数;
(7)计算bs个分数{score1,score2,...,scorebs}中最大分数scoremax所在的位置max;
(8)提取总分数scores中在最大分数所在的位置max上的张量并作为当前帧的第i个采样块与前一帧时间信息的变化程度
(9)按照步骤2)-步骤8)的过程得到当前帧空间尺度特征的bs个采样块与前一帧时间信息变化特征/>并在采样块个数bs的维度上进行拼接,得到当前帧与前一帧对比后的时间尺度特征/>其维度为bs×nps×1×1024;
(10)按照步骤1)-步骤9)的过程对前k帧点云和当前帧点云的空间尺度特征进行处理,并得到其中,/>表示当前帧与前k帧对比后的时间尺度特征;
(11)将当前帧与前k帧对比后的时间尺度特征在聚合的特征个数nfs的维度上进行拼接再经过多层感知机mlp处理,得到时间尺度特征Ft T,其维度为bs×nps×1×1024。
将t时刻的空间尺度特征Ft S和时间尺度特征Ft T按通道串联后,得到t时刻的时空特征Ft ST,也称为3D点云视频的显著性特征。
如图1所示,本实施例中,k=1;该模块利用当前帧采样块特征与前一帧空间尺度特征/>在采样块个数bs的维度上进行特征比对,得到的bs个分数{score1,score2,...,scorebs}代表相似程度,特征分数scoremax最大说明当前帧采样块特征/>与前一帧第max个采样块特征最相近。我们将最大分数所在位置max上的张量作为该采样块的时间尺度特征/>
步骤五、利用LSTM神经网络对视点信息进行视点预测,得到m个用户n帧的视点预测信息/>其中,/>表示预测得到的第m个用户观看第n帧点云视频的视点信息;
步骤六、从视点预测信息中随机选取第u个用户的当前帧视点预测信息/>并提取其点云数据xu,t;其中,xu,t包含第u个用户预测观看到的点云数据/>和第u个用户预测观看不到的点云数据/>并将观看到的点云数据/>的标签设置“1”,观看不到的点云数据/>的标签为“0”;
点云数据xu,t输入基于用户视点预测提取特征模型NEP中,经过视点同步帧采样模块MFSV的随机采样,并以中心点位置S采样的中心点位置,得到预测后第u个用户的点云采样数据fu,t,其中,点云采样数据fu,t数据量为bs×nps个采样点;
点云采样数据fu,t输入视点局部特征聚合模块MLFAV中进行KNN算法处理,以搜寻出点云采样数据fu,t中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机mlp的处理得到第u个用户当前帧视点预测点云特征其维度为bs×nps×1×1024;
步骤七、当前帧显著性特征Ft ST和当前帧视点预测特征输入显著性检测与视点预测特征整合模型NF2one中进行整合处理后得到当前帧特征Ft;其中显著性检测与视点预测特征整合模型NF2one是按如下步骤进行整合处理:
1)将3D点云视频显著性特征Ft ST进行归一化处理,得到显著性归一化特征
2)在区间[0,1]上设置h个阈值,形成阈值区间并将显著性归一化特征/>划分到阈值区间的对应阈值上,从而得到显著性阈值特征/>
3)多余维度为bs×nps×1×1024的前帧视点预测特征的1024个特征值逐一进行判断,若特征值大于等于0.5,则令相应特征值为“1”,否则为“0”,从而得到视点预测阈值特征/>
4)将显著性阈值特征与视点预测阈值特征/>进行点乘处理后得到特征值为的当前帧特征Fu,t
步骤八、第u个用户当前帧特征Fu,t经过解码网络后得到最终预测的第u个用户第t帧看到的视角画面。
综上所述,本方法首次提出结合3D点云视频的显著性检测和3D点云用户的视点预测方法来预测某用户某一时刻观看到视频的画面。首次提出时间维度上提取当前帧与前一帧点云之间的特征变化信息,并将该特征变化信息与单帧显著性特征结合得出3D点云视频显著性检测的结果。最后将3D点云视频显著性检测特征与基于用户视角预测提取点云特征结合起来得到最终预测的某用户某帧看到的视角情况。

Claims (3)

1.一种面向点云视频流媒体传输的用户视角预测方法,其特征是按如下步骤进行的:
步骤一、数据预处理:
步骤1.1、获取m个用户观看n帧点云视频的m×n个视点信息其中,/>表示第m个用户观看第n帧点云视频的视点信息;
步骤1.2、提取所述视点信息中用户视角内的n帧点云数据{x1,x2,...,xt,...,xn},其中,xt表示第t帧点云数据,且每一帧点云数据包括m个用户视角内的点云数据;
步骤二、构建面向点云视频流媒体传输的用户视角预测网络;
所述用户视角预测网络包括:3D点云视频显著性检测模型NVS、基于用户视点预测提取特征模型NEP、显著性检测与视点预测特征整合模型NF2one和解码网络;
其中,所述3D点云视频显著性检测模型NVS包括:单帧点云显著性特征提取支路LSF和连续多帧点云时间特征提取支路LDC;其中,所述单帧点云显著性提取支路LSF包含:单帧同步帧采样模块MFS和单帧局部特征聚合模块MLFA;所述连续多帧点云时间特征提取支路LDC包含:多帧同步帧采样模块MFSM、多帧局部特征聚合模块MLFAM和多帧时间特征提取模块MDCF
所述基于用户视点预测提取特征模型NEP包含:视点同步帧采样模块MFSV和视点局部特征聚合模块MLFAV
步骤三、将所述第t帧点云数据xt作为当前帧点云数据并输入所述单帧点云显著性提取支路LSF中,经过所述单帧同步帧采样模块MFS的随机采样处理后,得到当前帧采样数据ft和采样时选取的中心点位置S;其中,当前帧采样数据ft的数据量为bs×nps个采样点,bs表示采样块个数,nps表示每个采样块的点数;
将当前帧采样数据ft输入所述单帧局部特征聚合模块MLFA中进行KNN算法处理,以搜寻出当前帧采样数据ft中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到当前帧空间尺度特征Ft S;其维度为bs×nps×1×1024;
步骤四、所述当前帧点云数据xt和前k帧点云数据输入所述连续多帧点云时间特征提取支路LDC中,其中,当前帧点云数据xt的前k帧点云数据输入所述多帧同步帧采样模块MFSM中进行随机采样,并以所述中心点位置S为前k帧点云数据采样的中心点位置,从而得到前k帧采样数据{ft-k,...,ft-1},其数据量均为bs×nps个采样点;其中,ft-1表示前一帧采样数据;
将所述前k帧采样数据{ft-k,...,ft-1}并行输入所述多帧局部特征聚合模块MLFAM中进行KNN算法处理,以搜寻出前k帧采样数据{ft-k,...,ft-1}中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到前k帧空间尺度特征其中,/>表示前一帧空间尺度特征;
将所述前k帧空间尺度特征和当前帧空间尺度特征Ft S输入所述多帧时间特征提取模块MDCF中进行处理,得到当前帧时间尺度特征Ft T
将所述当前帧空间尺度特征Ft S和当前帧时间尺度特征Ft T按通道串联后,得到当前帧点云数据xt的时空特征Ft ST并作为3D点云视频的当前帧显著性特征;
步骤五、利用LSTM神经网络对所述视点信息进行视点预测,得到m个用户n帧的视点预测信息/>其中,/>表示预测得到的第m个用户观看第n帧点云视频的视点信息;
步骤六、从视点预测信息中随机选取第u个用户的当前帧视点预测信息/>并提取其点云数据xu,t;其中,xu,t包含第u个用户预测观看到的点云数据和第u个用户预测观看不到的点云数据/>并将观看到的点云数据/>的标签设置“1”,观看不到的点云数据/>的标签为“0”;
所述点云数据xu,t输入所述基于用户视点预测提取特征模型NEP中,经过所述视点同步帧采样模块MFSV的随机采样,并以所述中心点位置S采样的中心点位置,得到预测后第u个用户的点云采样数据fu,t,其中,点云采样数据fu,t数据量为bs×nps个采样点;
所述点云采样数据fu,t输入视点局部特征聚合模块MLFAV中进行KNN算法处理,以搜寻出点云采样数据fu,t中所有采样点的邻近点,并将每个采样点的邻近点特征与采样点特征聚合,再经过多层感知机的处理得到第u个用户当前帧视点预测点云特征其维度为bs×nps×1×1024;
步骤七、所述当前帧显著性特征Ft ST和当前帧视点预测特征输入所述显著性检测与视点预测特征整合模型NF2one中进行整合处理后得到第u个用户当前帧特征Fu,t
步骤八、所述第u个用户当前帧特征Fu,t经过所述解码网络后得到最终预测的第u个用户第t帧看到的视角画面。
2.根据权利要求1所述一种面向点云视频流媒体传输的用户视角预测方法,其特征是,所述多帧时间特征提取模块MDCF是按如下步骤提取时间尺度特征:
1)提取前一帧和当前帧空间尺度特征其维度均为bs×nps×1×nfs;其中,nfs是聚合的特征个数;
2)在所述采样块个数bs的维度上提取所述当前帧空间尺度特征的第i个采样块的特征/>其维度为1×nps×1×nfs;
3)将所述采样块的特征在所述采样块个数bs的维度上复制bs次,从而得到维度为bs×nps×1×nfs的复制采样块特征/>
4)将所述复制采样块特征与前一帧空间尺度特征特征/>进行融合,得到维度为bs×nps×1×nfs的融合特征featcc
5)将融合特征featcc进行一次共享多层感知机的处理后得到bs×nps×1×1024维的总分数scores,其中,所述总分数scores在所述采样块个数bs的维度上共有bs个张量 表示总分数scores在所述采样块个数bs维度上第bs个张量;
6)将所述总分数scores在所述采样块个数bs的维度上进行归一化处理并得到bs个分数{score1,score2,...,scorebs},其中,scorebs表示总分数scores进行归一化处理后得到的第bs个分数;
7)计算bs个分数{score1,score2,...,scorebs}中最大分数scoremax所在的位置max;
8)提取所述总分数scores中在最大分数所在的位置max上的张量并作为当前帧的第i个采样块与前一帧时间信息的变化程度
9)按照步骤2)-步骤8)的过程得到当前帧空间尺度特征的bs个采样块与前一帧时间信息变化特征/>并在所述采样块个数bs的维度上进行拼接,得到当前帧与前一帧对比后的时间尺度特征/>其维度为bs×nps×1×1024;
10)按照步骤1)-步骤9)的过程对前k帧点云和当前帧点云的空间尺度特征进行处理,并得到其中,/>表示当前帧与前k帧对比后的时间尺度特征;
11)将所述当前帧与前k帧对比后的时间尺度特征在所述聚合的特征个数nfs的维度上进行拼接再经过多层感知机mlp处理,得到时间尺度特征Ft T,其维度为bs×nps×1×1024。
3.根据权利要求1一种面向点云视频流媒体传输的用户视角预测方法,其特征是,所述显著性检测与视点预测特征整合模型NF2one是按如下步骤进行整合处理:
1)将3D点云视频显著性特征Ft ST进行归一化处理,得到显著性归一化特征
2)在区间[0,1]上设置h个阈值,形成阈值区间并将所述显著性归一化特征/>划分到阈值区间的对应阈值上,从而得到显著性阈值特征/>
3)多余维度为bs×nps×1×1024的前帧视点预测特征的1024个特征值逐一进行判断,若特征值大于等于0.5,则令相应特征值为“1”,否则为“0”,从而得到视点预测阈值特征
4)将所述显著性阈值特征与视点预测阈值特征/>进行点乘处理后得到特征值为的当前帧特征Fu,t
CN202210225898.7A 2022-03-09 2022-03-09 一种面向点云视频流媒体传输的用户视角预测方法 Active CN114584850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210225898.7A CN114584850B (zh) 2022-03-09 2022-03-09 一种面向点云视频流媒体传输的用户视角预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210225898.7A CN114584850B (zh) 2022-03-09 2022-03-09 一种面向点云视频流媒体传输的用户视角预测方法

Publications (2)

Publication Number Publication Date
CN114584850A CN114584850A (zh) 2022-06-03
CN114584850B true CN114584850B (zh) 2023-08-25

Family

ID=81773822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210225898.7A Active CN114584850B (zh) 2022-03-09 2022-03-09 一种面向点云视频流媒体传输的用户视角预测方法

Country Status (1)

Country Link
CN (1) CN114584850B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749618A (zh) * 2019-10-31 2021-05-04 辉达公司 使用一个或更多个神经网络确定注视
CN112861862A (zh) * 2021-01-18 2021-05-28 西北大学 基于区域生长与深度学习结合的针对兵马俑点云的无监督分割方法
WO2021134325A1 (zh) * 2019-12-30 2021-07-08 深圳元戎启行科技有限公司 基于无人驾驶技术的障碍物检测方法、装置和计算机设备
CN113365156A (zh) * 2021-06-17 2021-09-07 合肥工业大学 一种基于有限视场反馈的全景视频多播流的视角预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3644277B1 (en) * 2017-08-14 2024-02-14 Rakuten Group, Inc. Image processing system, image processing method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749618A (zh) * 2019-10-31 2021-05-04 辉达公司 使用一个或更多个神经网络确定注视
WO2021134325A1 (zh) * 2019-12-30 2021-07-08 深圳元戎启行科技有限公司 基于无人驾驶技术的障碍物检测方法、装置和计算机设备
CN112861862A (zh) * 2021-01-18 2021-05-28 西北大学 基于区域生长与深度学习结合的针对兵马俑点云的无监督分割方法
CN113365156A (zh) * 2021-06-17 2021-09-07 合肥工业大学 一种基于有限视场反馈的全景视频多播流的视角预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
3D point cloud object detection with multi-view convolutional neural network;guan pang;《2016 3rd international conference on pattern recognition(ICPR)》;全文 *

Also Published As

Publication number Publication date
CN114584850A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
Li et al. Efficient violence detection using 3d convolutional neural networks
CN109886225B (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
Wang et al. A self-training approach for point-supervised object detection and counting in crowds
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN109948721B (zh) 一种基于视频描述的视频场景分类方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及***
CN110826447A (zh) 一种基于注意力机制的餐厅后厨人员行为识别方法
CN112766186A (zh) 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN112784841A (zh) 文本识别方法及装置
CN114708649A (zh) 基于集成学习方法融合时间注意力图卷积的行为识别方法
CN113936235A (zh) 一种基于质量评估的视频显著性目标检测方法
Wang et al. A lightweight network for violence detection
Zeng et al. Expression-tailored talking face generation with adaptive cross-modal weighting
Hatay et al. Learning to detect phone-related pedestrian distracted behaviors with synthetic data
Tian et al. Domain adaptive object detection with model-agnostic knowledge transferring
CN114119694A (zh) 一种基于改进U-Net的自监督单目深度估计算法
CN114584850B (zh) 一种面向点云视频流媒体传输的用户视角预测方法
Ghosh et al. Two-stream multi-dimensional convolutional network for real-time violence detection
CN110502995B (zh) 基于细微面部动作识别的驾驶员打哈欠检测方法
CN113033283A (zh) 一种改进的视频分类***
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN116992947A (zh) 模型训练方法、视频查询方法和装置
CN114821438A (zh) 一种基于多路径激励的视频人体行为识别方法及***
CN114463844A (zh) 一种基于自注意力双流网络的跌倒检测方法
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant