CN111669696A

CN111669696A - 声音对象跟随的方法和装置

Info

Publication number: CN111669696A
Application number: CN202010092432.5A
Authority: CN
Inventors: 郑盛元; 崔宅盛; 姜东贤; 李昇受; 赵泽一
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2019-03-08
Filing date: 2020-02-14
Publication date: 2020-09-15
Also published as: US20200288255A1; EP3706442B1; EP3706443B1; EP3706443A1; CN111666802A; KR20200107758A; US20200288256A1; US11277702B2; EP3706442A1; KR20200107757A

Abstract

本公开提供一种用于声音对象跟随的方法和装置。本公开涉及一种用于处理多媒体信号的方法和装置。更具体地，本公开涉及一种方法及其装置，该方法包括从多媒体信号获得视频帧和音频帧；从视频帧获得至少一个视频对象并且从音频帧获得至少一个音频对象；确定至少一个视频对象与至少一个音频对象之间的相关性；以及根据所确定的相关性，基于与来自于至少一个视频对象之中的特定音频对象有关的特定视频对象的屏幕位置，对至少一个音频对象的特定音频对象执行定向渲染。

Description

声音对象跟随的方法和装置

技术领域

本公开涉及多媒体信号处理，并且更具体地，涉及一种用于通过被配置成输出视频信号和音频信号的装置来提供具有三维声音效果和沉浸感的声音的方法和装置。

背景技术

随着技术的进步，装备有更大和更高分辨率的显示器以及多个扬声器的设备已经变得广泛。另外，已经积极地进行用于发送和接收更生动的图像的视频编译技术(videocoding technology)以及用于发送和接收身临其境的音频信号的音频编译技术的研究，并且基于视频编译技术和音频编译技术产生或创建的多媒体内容是广为流传的。例如，正在分发基于高效视频编译(HEVC)或H.265标准产生和支持的内容。此外，正在分发范围从基于立体声的内容到支持诸如杜比全景声的多通道(multi-channel)或基于对象的音频标准的内容(或基于基于对象的音频标准产生的内容)的内容。

然而，在采用常规的三维(3D)音频处理技术的情况下，编码器通过音频比特流向解码器传递有关声源或与音频有关的视频对象的位置和运动的信息，并且解码器基于音频比特流中包含的有关位置和运动的信息操作来处理音频信号以产生3D效果。因此，在基于3D音频处理技术产生音频内容的混合过程中，音频混合技术人员定位声源或与音频有关的视频对象，并基于声源或视频对象的位置生成用于提供空间感的混合参数。然后，将生成的参数与对象一起在比特流中进行编码，以产生音频内容。音频专业人员需要非常精确地测量和调整声源或与音频有关的视频对象的位置和运动，并生成有关它们的信息以在编码过程中最大化3D效果。因此，基于常规3D音频处理技术来创建内容可能花费大量时间和金钱。此外，可能难以将常规3D音频处理技术应用于用于广播和实时流送的内容。

因此，诸如杜比全景声的3D音频处理技术限于诸如电影的一些内容，并且尚未应用于大多数广播和流媒体内容。对于大多数广播和流送内容中包含的音频内容，声音图像(sound image)无法根据声源或视频对象的位置正确定位，并且因此，所创建的沉浸感受到限制。

发明内容

因此，本公开涉及一种用于声音对象跟随的方法和装置，其基本上消除由于现有技术的局限性和缺点引起的一个或多个问题。

本公开的目的是提供一种用于基于与音频对象有关的视频对象的位置来对音频对象的声音图像进行定位以提高关于音频的沉浸感的方法和装置。

本公开的另一目的是提供一种用于有效地确定多媒体信号中包含的音频对象和视频对象之间的关系的方法和装置。

本领域的技术人员将认识到，通过本公开可以实现的目的不限于上文已经特别描述的内容，并且从下面的详细描述中将更加清楚地理解本公开可以实现的以上和其他目的。

为了实现本公开的目的，在本公开的第一方面中，本文提供一种通过装置处理多媒体信号的方法，该方法包括：从多媒体信号获得视频帧和音频帧；从视频帧获得至少一个视频对象并且从音频帧获得至少一个音频对象；确定至少一个视频对象与至少一个音频对象之间的相关性；以及根据所确定的相关性，基于至少一个视频对象之中的与特定音频对象有关的特定视频对象的屏幕位置，对至少一个音频对象的特定音频对象执行定向渲染(directional rendering)。

为了实现本公开的目的，在本公开的第二方面中，本文提供一种装置，该装置被配置成处理多媒体信号，该装置包括：存储器，该存储器存储指令；以及至少一个处理器，其可操作地耦合到存储器，并且被配置成在执行指令时实现包括下述的操作：从多媒体信号获得视频帧和音频帧；从视频帧获得至少一个视频对象并且从音频帧获得至少一个音频对象；确定至少一个视频对象与至少一个音频对象之间的相关性；以及根据所确定的相关性，基于来自于至少一个视频对象之中的与特定音频对象有关的特定视频对象的屏幕位置，对至少一个音频对象的特定音频对象执行定向渲染。

附加地或可替选地，该方法或操作可以进一步包括：对至少一个视频对象执行视频分类，并且对至少一个音频对象执行音频分类。

附加地或可替选地，至少一个音频对象中的每个可以被分类成包括人类语音、动物声音和交通工具声音的类别中的一个。

附加地或可替选地，至少一个视频对象中的每个可以被分类成包括人脸、动物和交通工具的类别中的一个。

附加地或可替选地，该方法或操作可以进一步包括：通过对至少一个视频对象和至少一个音频对象执行特征提取来获得特征信息，其中基于视频分类的结果、音频分类的结果、获得的特征信息和对象匹配引擎来确定至少一个视频对象与至少一个音频对象之间的相关性。

附加地或可替选地，该方法或操作可以进一步包括：通过对至少一个视频对象和至少一个音频对象执行特征提取来获得特征信息，其中基于所获得的特征信息和对象匹配引擎来确定至少一个视频对象与至少一个音频对象之间的相关性。

附加地或可替选地，对象匹配引擎可以包括基于学习所训练的模型。

附加地或可替选地，对特定音频对象执行定向渲染可以包括：基于与特定音频对象有关的特定视频对象的屏幕位置，调整要输出到扬声器的音频信号的输出增益。

附加地或可替选地，对特定音频对象执行定向渲染可以包括：基于与特定音频对象有关的特定视频对象的屏幕位置，调整与扬声器有关的音频信号的输出速率。

附加地或可替选地，调整音频信号的输出速率可以包括：基于扬声器之间的水平间隔、屏幕宽度和特定视频对象的屏幕位置来调整与扬声器有关的音频信号的输出速率。

附加地或可替选地，基于包括左扬声器和右扬声器的扬声器，可以调整音频信号的输出速率，使得与左扬声器有关的音频信号的输出速率和与右扬声器有关的音频信号的输出速率之和等于恒定值。

附加地或可替选地，该恒定值可以是1。

附加地或可替选地，基于包括左上扬声器、右上扬声器、左下扬声器和右下扬声器的扬声器，可以调整音频信号的输出速率，使得与左上扬声器有关的音频信号的输出速率、与右上扬声器有关的音频信号的输出速率、与左下扬声器有关的音频信号的输出速率以及与右下扬声器有关的音频信号的输出速率之和等于恒定值。

附加地或可替选地，该恒定值可以是1。

从下面的详细描述中显而易见，本公开可以提供如下有利的技术效果。

根据本公开，可以通过基于与音频对象有关的视频对象的位置来定位音频对象的声音图像来提高关于音频的沉浸感。

另外，根据本公开，可以有效地确定多媒体信号中包含的音频对象和视频对象之间的关系。

本领域的技术人员将认识到，通过本公开可以实现的效果不限于以上已经具体描述的那些，并且从结合附图进行的以下详细描述中将更清楚地理解本公开的其他优点。

附图说明

被包括以提供对本公开的进一步理解并且被并入且构成本申请的一部分的附图图示了本公开的实施例并且与说明书一起用于解释本公开的原理。在附图中：

图1图示本公开中提出的方法的示例性流程图；

图2图示从多媒体信号获得音频帧和视频帧的示例；

图3图示从音频帧获得至少一个音频对象的示例；

图4图示从视频帧获得至少一个视频对象的示例；

图5图示根据本公开的提出的方法的声音对象跟随的框图；

图6图示执行音频/视频分类的示例；

图7和图8图示对视频对象执行特征提取的示例；

图9图示对象匹配引擎的操作的示例；

图10图示根据视频对象的屏幕位置的声音图像定位的示例；

图11和图12图示声音对象跟随的操作的示例；

图13图示本公开可适用的装置的框图；

图14图示本公开可适用的设备的更具体的框图；

图15示出应用于本公开的无线设备的另一示例；

图16图示应用于本公开的手持设备；

图17图示应用于本公开的交通工具或自主驾驶交通工具；

图18图示应用于本公开的交通工具；

图19图示应用于本公开的XR设备；以及

图20图示应用于本公开的人工智能(AI)设备。

具体实施方式

现在将详细参考本公开的优选实施例，其示例在附图中被图示。只要有可能，在整个附图中将使用相同的附图标记来意指相同或相似的部件。

为了将诸如杜比全景声(Dolby Atmos)的3D音频处理技术应用于广播或实时流送内容，音频混合技术人员需要实时生成和发送用于3D效果的混合参数。当前的技术难以执行实时处理。特别地，为了正确地应用诸如杜比全景声(Dolby Atmos)的3D音频处理技术，有必要准确地识别在用户(或解码器)侧上设置的扬声器的位置。然而，内容生产商和供应商(或编码器)很少有可能识别典型房屋中扬声器位置上的所有信息。因此，将常规3D音频处理技术应用于广播或实时流送内容中包括的音频内容存在技术困难。此外，包含在通过应用常规3D音频处理技术无法获得的内容(或未基于3D音频处理技术产生或创建的内容)中的音频内容提供极大降低的沉浸感，因为其声音图像未根据声源或视频对象的位置正确定位。

本文提出一种根据与包含在通过应用3D音频处理技术获得的内容(或基于3D音频处理技术未产生或创建的内容)中的音频内容有关的声源或视频对象的位置对声音图像进行定位以提高沉浸感的方法。具体地，在本说明书中，提出一种用于声音对象跟随的方法。声音对象跟随可以意指识别事物(或对象)或在图像或视频中发出声音的声源的位置并控制/调整音频输出以基于事物(或物体)的位置或发出声音的声源实现声音图像定位的技术。

本说明书中提出的用于声音对象跟随的方法是一种用于在包括显示器和扬声器的装置中提高三维声音效果以及沉浸感的技术。在本说明书提出的方法中，单个图像对象(或视频对象)或多个图像对象(或视频对象)与单个声音对象(或音频对象)或多个声音对象(或音频对象)之间的关系被确定，并且然后控制和/或调整输出速率(或增益)，使得相关声音对象(或音频对象)的声音图像被定位在图像对象(视频对象)的位置处。

利用本公开的提出的方法，即使当回放未经历常规3D音频处理技术的内容时，可以识别发出声音的声源或图像对象(或视频对象)，可以输出相关的音频信号使得声音图像被定位在声源或图像对象(或视频对象)的位置处。因此，可以提高沉浸感。当应用本公开的提出的方法时，其效果可以在配备有大屏幕或多通道扬声器的装置中进一步增强。

人工智能(AI)

本公开的提出的方法可以基于AI来实现。AI意指研究人工智能或可能创建人工智能的方法的领域，而机器学习意指在AI领域定义各种问题并研究解决问题的方法的领域。机器学习被定义为一种通过一致的任务体验来提高任务性能的算法。

人工神经网络(ANN)是在机器学习中使用的模型，并且可以意指总体解决问题的模型，该模型由通过突触的组合形成网络的人工神经元(节点)组成。可以通过不同层的神经元之间的连接模式、更新模型参数的学习过程以及生成输出值的激活函数来定义ANN。

ANN可以包括输入层和输出层，并且可选地包括一个或多个隐藏层。每个层可以包括一个或多个神经元，而ANN可以包括将一个神经元连接到另一神经元的突触。在ANN中，每个神经元可以输出通过突触、权重和偏差输入的输入信号的激活函数的函数值。

模型参数意指通过学习确定的参数，并且包括突触连接的权重和神经元的偏置。超参数意指要在学习之前在机器学习算法中设置的参数，并且包括学习速率、重复次数、最小批量大小和初始化函数。

ANN的学习的目的可以是确定最小化损失函数的模型参数。损失函数可以被用作在ANN的学习过程中确定最佳模型参数的指示符。

机器学习可以根据学习方案被归类成监督学习、无监督学习和强化学习。

监督学习可以意指用学习给定的数据的标签训练ANN的方法。在此，标签可以意指当将学习数据输入到ANN时ANN必须推断出的正确答案(或结果值)。无监督学习可以意指在没有用学习给定的数据的标签的情况下训练ANN的方法。强化学习可以意指一种使环境中定义的代理学习选择最大化每种状态下的累积奖励的动作或一系列动作的学习方法。

通过包括在ANN中的多个隐藏层的深度神经网络(DNN)实现的机器学习被称为深度学习，其是机器学习的一部分。在下面的描述中，机器学习被用作包括深度学习的概念。

扩展现实(XR)

本公开的提出的方法适用于扩展现实(XR)。XR统意指虚拟现实(VR)、增强现实(AR)和混合现实(MR)。VR技术仅为现实世界的对象、背景等提供计算机图形(CG)图像，而且AR技术在真实对象的图像上提供虚拟CG图像。MR技术是一种在现实世界中混合并组合虚拟对象的CG技术。

MR技术与AR技术的相似之处在于其显示真实和虚拟对象两者。然而，在AR技术中以补充真实对象的方式使用虚拟对象，而在MR技术中，虚拟对象和真实对象具有相同的特性。

XR技术适用于头戴式显示器(HMD)、平视显示器(HUD)、移动电话、平板电脑、膝上型计算机、台式PC、电视、数字标牌等。应用XR技术的装置可以称为XR设备。

提出的方法

图1是本公开中提出的方法的示例性流程图。图1中图示的流程图是非限制性示例，并且本公开的提出的方法不限于图1中所图示的流程图。例如，在实现本公开的所提出的方法中，图1中图示的一些操作可以省略，并且图1中未图示的操作可以被包括在方法中。此外，某些操作的执行顺序可能会更改。

如上所述，在本公开的提出的方法中，控制和/或调整扬声器(或音频信号)的输出速率(或增益)以通过将与声源或图像对象(视频对象)有关的音频对象的位置定位在发出声音的声源或者图像对象(视频对象)的位置处来输出声音。

在S102中，该装置可以接收多媒体信号。例如，多媒体(例如，视听)信号可以包括广播信号或通过YouTube实时流送的信号。多媒体信号可以包括例如视频信号和音频信号。在本公开中，视频信号可以用作指的是编译视频比特流的术语或用作指的是通过对编译视频比特流进行解码而获得的信号的术语。类似地，在本公开中，音频信号可以用作指的是编译音频比特流的术语或指的是通过对编译音频比特流进行解码而获得的信号的术语。

在S104中，该装置可以从多媒体信号获得音频帧和视频帧。详细地，多媒体信号可以被划分成音频帧和视频帧。音频帧和视频帧可以通过以预定时间间隔连续地从多媒体(例如，视听)信号中分离音频信号和(静止)图像信号(或视频信号)来获得。例如，音频帧可以指的是与特定时间长度相对应的音频样本的阵列，并且视频帧可以指的是在特定时间处的视频样本的二维阵列。例如，在S104中，装置可以如图2中所图示从多媒体信号获得音频帧和视频帧。

在S106中，该装置可以从音频帧获得至少一个音频对象，并且从视频帧获得至少一个视频对象。特别地，该装置可以从音频帧获得(或分离)单个音频对象或多个音频对象(或至少一个音频对象)。音频帧的音频信号是混合信号，该混合信号是由多个不同声源生成的信号、从单个声源生成的信号或“无声”信号的混合。音频对象是从音频帧中分离并获得的音频信号。该装置可以从视频帧获得(或分离)单个视频对象或多个视频对象(或至少一个视频对象)。视频帧是在特定时间间隔获得的(静止)图像。(静止)图像可能包含人/动物和各种物体形状。视频对象是通过分离视频帧的(静止)图像的区域而获得的(静止)图像块。例如，在S106中，装置可以如图3中所图示从音频帧获得至少一个音频对象。例如，在S106中，装置可以如图4中所图示从视频帧获得至少一个视频对象。附加地/可替选地，S106可以对应于图5的音频分离512和视频对象检测530。在S106中，装置的操作可以包括关于图5的音频分离512和视频对象检测530描述的操作。

在S108中，装置可以对(在S106中获得的)至少一个视频对象执行视频分类，并且对(在S106中获得的)至少一个音频对象执行音频分类。即，在S108中，装置对从音频(或音频帧)和视频(或视频帧)获得的对象(例如，音频对象和/或视频对象)进行分类。音频分类可以包括确定从其生成音频对象信号的声源的类型。不存在对通过音频分类来分类的声源的类型的限制。视频分类可以包括确定由视频对象信号(或(静止)图像块)表示的对象的类型。不存在对通过视频分类来分类的对象的类型的限制。例如，在S108中，装置可以对音频对象执行音频分类并且对视频对象执行视频分类，如图6中所图示。附加地/可替选地，S108可以对应于图5的音频分类518和视频分类532。S108中的装置的操作可以包括关于图5的音频分类518和视频分类532描述的操作。

在S110中，装置可以通过对(在S106中获得的)至少一个视频对象和至少一个音频对象执行特征提取来获取特征信息。在S110中可以提取多个特征。例如，S110可以对应于图5的音频特征提取518和视频特征提取532，并且S110中的装置的操作可以包括关于音频特征提取518和视频特征提取532描述的操作。附加地/可替选地，S110中的装置的操作可以包括参考图7描述的操作和/或参考图8描述的操作。

在S112中，装置可以基于特征信息(在S110中获得)和对象匹配引擎来确定至少一个视频对象与至少一个音频对象之间的相关性。具体地，该装置可以将音频/视频的特征输入到匹配引擎以确定其间的关系。例如，在S112中，装置可以确定至少一个视频对象与至少一个音频对象之间的相关性，如图9中所图示。附加地/可替选地，S112可以对应于图5的对象匹配引擎540，并且S112中的装置的操作可以包括关于图5的对象匹配引擎540描述的操作。

在S116中，该装置可以根据相关性(在S112中确定)基于与特定音频对象有关的视频对象的屏幕位置对特定音频对象执行定向渲染。定向渲染包括当对象匹配引擎确定音频对象声源是屏幕上的视频对象时根据视频对象的屏幕位置控制和/或调整扬声器(或音频信号)的输出速率(或增益)。例如，在S116中，装置可以基于与特定音频对象有关的视频对象的屏幕位置对特定音频对象执行定向渲染，如图10中所图示。附加地/可替选地，S116可以对应于图5的定向渲染516，并且在S116中装置的操作可以包括关于图5的定向渲染516描述的操作。

图2图示从多媒体信号获得音频帧和视频帧的示例。在图1的S104中可以执行图2中所图示的操作。尽管在图2中图示每秒25次或以40ms的间隔获得音频帧和视频帧，这仅出于说明目的。所提出的方法不限于图2的示例。

通过以预定时间间隔连续地从多媒体(例如，视听)信号中分离音频信号和(静止)图像信号而获得音频帧和视频帧。随着获得音频帧和获取视频帧之间的时间间隔缩短，可以提高确定音频对象和视频对象之间的关系的准确性。

例如，参考图2，当每秒25次，即，以40ms的间隔获得音频帧和视频帧时，每40ms分别获得由40ms长的音频信号组成的一个音频帧和由一个(静止)图像组成的视频帧。

音频帧的音频信号是混合信号，该混合信号是由多个不同声源生成的信号、从单个声源生成的信号或“无声”信号的混合。音频对象是从音频帧中分离并获得的音频信号。例如，当音频帧是从单个声音源生成的信号时，可以获得一个音频对象。例如，当音频帧是混合信号时，可以分别从声源分别获得多个音频对象。对于每个声源无法分离的残留信号在单独的沉浸式声音处理路径上被处理(例如，参见图5的背景和514)。与音频帧分离的单个音频对象或多个音频对象被用于分析与从视频帧获得的视频对象的关系。

图3图示从音频帧获得至少一个音频对象的示例。图3中所图示的操作可以在图1的S106中执行。在图3的示例中，假设从一个音频帧(例如，音频帧[n])获得一个音频对象(例如，音频对象[n,1])。然而，本公开的提出的方法不限于此。该方法甚至可以应用于从一个音频帧获得多个音频对象的情况。

例如，参考图3，当音频帧(例如，音频帧[n])的混合信号由从一个声源(例如，人)生成的语声(voice)和背景噪声组成时，可以通过分离人声获得一个音频对象(例如，音频对象[n,1])，并且背景噪声可以被分离为残留信号。音频帧[n]指示第n个音频帧，并且音频对象[n,1]指示从第n个音频帧获得的音频对象。

视频帧是在特定时间间隔获得的(静止)图像，并且(静止)图像包含人/动物和各种其他类型的对象形状。视频对象是通过分离视频帧的(静止)图像的区域而获得的(静止)图像块。视频对象是通过仅将对象的区域与整个(静止)图像区域分离，从而可以清楚地区分人/动物和各种类型的对象而获得的块。当视频对象的图像块被分离时，对象也可以被分类。例如，根据本公开的提出的方法，可以获得人/动物/交通工具的视频对象，其可以是声源。人的视频对象可以包括生成语声的脸部或嘴唇部分的静止图像块。

图4图示从视频帧获得至少一个视频对象的示例。可以在图1的S106中执行图4中所图示的操作。在图4的示例中，假设从一个视频帧(例如，视频帧[n])获得三个视频对象(例如，视频对象[n,1]、视频对象[n,2]和视频对象[n,3])。然而，本公开的提出的方法不限于此，并且甚至可以应用于从一个视频帧获得与三个视频对象不同数目的视频对象的情况。

与视频帧分离的单个视频对象或多个视频对象被用于分析视频对象与从音频帧获得的音频对象之间的关系。

例如，参考图4，在第n个静止图像(例如，视频帧[n])中，由三个矩形区域表示的人脸区域的图像块被分离，并且然后从左到右获得视频对象[n,1]、视频对象[n,2]和视频对象[n,3]。视频帧[n]表示第n个视频帧，视频对象[n,1]、视频对象[n,2]和视频对象[n,3]表示分别从第n帧获得的第一视频对象、第二视频对象和第三视频对象。

图5图示根据本公开提出的方法的声音对象跟随的框图。

在图5的示例中，音频分离512包括将音频输入信号502分离(或解复用(或解复用))为音频对象和残余信号(或背景信号)的操作。

在图5的示例中，通过对象匹配引擎对被确定为在音频和视频之间没有关系的分离的背景信号或音频信号执行沉浸式环绕514。沉浸式环绕声可以包括对传统立体声和环绕声的处理。

在图5的示例中，定向渲染516可以包括被执行以根据音频信号(或分离的音频对象)与图像对象(视频对象)之间的相关性在特定屏幕位置处(通过定位音频信号(或分离的音频对象)的声音图像)输出音频信号(或分离的音频对象)的处理。定向渲染516根据屏幕位置控制和/或调整扬声器(或音频信号)的输出速率(或增益)，以在位置方面定位音频信号的声音图像。更具体地说，定向渲染516可以包括基于与音频信号(或分离的音频对象)有关的图像对象的屏幕上的位置来控制和/或调整通过其输出音频对象的扬声器(或音频信号)的输出速率(或增益)的操作。例如，定向渲染516可以对应于图1的S114。

在图5的示例中，执行音频分类518以确定从其生成音频对象信号的声源的类型。对通过音频分类518分类的声源的类型没有限制。音频对象的音频分类518的结果可以用作匹配引擎540的输入特征，以确定音频对象与视频对象之间的关系。例如，音频分类518可以对应于图1的S108。

例如，如图6中所图示，音频分类518可以将音频对象信号分类成四种不同的类型，诸如人类语音、动物声音、交通工具声音和其他。当不能确定从其生成音频对象信号的声源的类型时，可以将该信号分类成其他。

可以执行视频对象检测530以从视频输入信号504中检测至少一个视频对象。如上所述，视频对象可以包括包含在视频帧中的(静止)图像块。例如，视频对象检测530可以对应于图1的S106。

执行视频分类532以确定与视频对象(静止)图像块相对应的对象的类型。对通过视频分类532分类的对象的类型没有限制。视频对象的视频分类532的结果可以用作匹配引擎540的输入特征，以确定音频对象和视频对象之间的关系。例如，视频分类532可以对应于图1的S108。

例如，如图6中所图示，视频分类532可以将视频对象分类成四种类型，诸如人脸、动物、交通工具和其他。当不能确定视频对象的类型时，可以将视频对象分类成其他。

在图5的示例中，对象匹配引擎540是基于作为输入值的音频和视频的特征值使用深度学习(DL)、机器学习(ML)、强化学习等学习的模型。例如，对象匹配引擎可以包括已经通过诸如DL、ML的学习或基于大量数据和ANN的强化学习所训练的模型。例如，对象匹配引擎540可以对应于图1的S112。

从音频和视频中提取有用成分的过程被称为特征提取。在图5的示例中，通过特征提取518、532对至少一个音频对象和至少一个视频对象执行特征提取518、532以获得特征值。特征值可以被称为特征信息。例如，特征提取518、532可以对应于图1的S110。

在音频特征提取518中，可以使用在语音识别(speech recognition)或音频识别中常规使用的各种方法来获得或提取音频特征值。附加地/可替选地，音频特征值可以包括用于确定是否已经发出语音的音频开始信息。

传统语音识别技术的代表性示例包括LPC、对数-梅尔(Log-mel)和MFCC。LPC代表线性预测编译，其是一种语音生成模型，其使用特定的周期性脉冲序列和高斯白噪声作为激励源，通过LPC滤波器生成语音。

对数-梅尔是表示人耳的非线性频率特性的单位。即，人在低频区域具有高分辨率并且在高频区域具有低分辨率，这在频带上表现出对数特性。可以通过对音频部分的样本执行傅立叶变换(例如，快速傅立叶变换(FFT))来估计频谱的大小或功率，并且然后被用于通过以梅尔标度(Mel-scale)配置的库滤波器获得对数-梅尔。

MFCC代表梅尔频率倒谱系数。可以使用倒频谱变换获得MFCC，其消除对数-梅尔中的相关性。

在视频特征提取532中，可以使用通常用于视频对象识别的各种方法来获得或提取视频特征值。附加地/可替选地，可以使用脸部框、嘴唇轮廓(lip skeleton)和/或其值的比较值来获得或提取视频特征值。

例如，图7图示基于脸部框和嘴唇轮廓获得或提取视频特征值的示例。如图7中所图示，确定是否识别出人的脸部，并且确定脸部框的高度H和水平长度W。脸部框指的是基于脸部识别而确定的矩形区域，脸部框的高度指的是此矩形区域的高度，并且脸部框的水平长度指的是此矩形区域的宽度。H和W可用于归一化嘴唇的垂直和水平值(例如，参见公式1)。使用从嘴唇轮廓获得的信息确定嘴唇的垂直和水平长度。通过根据视频帧比较嘴唇的垂直和水平长度，可以确定嘴唇是否移动。通过将当前帧与关于嘴唇的运动的先前帧进行比较，可以获得关于嘴唇的运动量的信息。

更具体地，在图7的示例中，可以基于等式1获得或提取视频特征值。在等式1中，H表示脸部框的高度，W表示脸部框的宽度，D1表示嘴唇轮廓的垂直长度，D2表示嘴唇轮廓的水平长度，d1表示基于脸部框的高度H的嘴唇轮廓垂直长度的归一化值，d2表示基于脸部框的宽度W的嘴唇轮廓水平长度的归一化值，n表示帧号，并且M1表示当前帧n和前一帧n-1之间的嘴唇轮廓的垂直长度的差，M2表示当前帧n与前一帧n-1之间的嘴唇轮廓的垂直长度的差，A1表示当前帧n的M1值与前一帧n-1的M1值之差，并且A2表示当前帧n的M2值与前一帧n-1中的值M2的差。

[等式1]

在等式1中，M1表示视频帧中嘴唇的垂直长度之间的比较的结果，M2表示视频帧中嘴唇的水平长度之间的比较的结果，并且A1和A2表示关于通过比较嘴唇的运动与先前的帧而确定的运动量的信息。在等式1中，M1、M2、A1和A2中的至少一个可以用作视频特征值。

作为另一示例，参考图8，可以将脸部框中的嘴唇位置比率(例如，A:B:C，D:E:F)用作视频特征值。具体地，当脸部框被称为第一矩形区域并且包含嘴唇轮廓的矩形区域被称为第二矩形区域时，视频特征值可以包括第一矩形区域中的第二矩形区域的顶边界和第一矩形区域的顶边界之间的距离(例如，图8中的A)、第二矩形区域的高度(例如，图8中的B)、在第二矩形区域的底边界和第一矩形区域的底边界之间的距离(例如，图8中的C)之间的比率(例如，A:B:C)；以及第二矩形区域的左边界和第一矩形区域的左边界之间的距离(例如，图8中的D)、第二矩形区域的高度(例如，图8中的E)、以及在第二矩形区域的右边界和第一矩形区域的右边界之间的距离(例如，图8中的F)之间的比率(例如，D:E:F)，或者可以基于这些比率被获得。例如，可以通过归一化嘴唇位置比率(例如，A:B:C，D:E:F)来获得或提取视频特征值。

在本公开的所提出的方法中，参考图7描述的视频特征值和参考图8描述的视频特征值可以单独或组合使用。相应地，参考图7描述的视频特征值和参考图8描述的视频特征值中的至少一个可以用作到对象匹配引擎540的输入。

返回参考图5，当从诸如广播或YouTube的多媒体信号获得或提取的音频信号(或音频对象)和视频信号(或视频对象)的特征值被输入到通过使用音频和视频特征值作为输入值进行训练的模型的对象匹配引擎540时，可以获得或确定音频信号(或音频对象)和视频信号(或视频对象)之间的关系程度。例如，音频对象和视频对象之间的关系程度可以被表达为(实数)值，其可以称为比率、相关性、指示关系程度的信息、关于该关系的信息等等。对象匹配引擎540可以(使用已经由DL、ML、强化学习等训练的模型)执行基于音频/视频对象的分类518、532的结果和/或音频/视频对象的特征提取518/532的结果来确定音频/视频对象之间的关系程度(或获得指示关系程度的信息)的操作。

图9图示对象匹配引擎540的操作的示例。在图9中，假设从一个视频帧获得三个视频对象(例如，视频1、视频2、视频3)，并且从一个音频帧获得一个音频对象(例如，音频1)。然而，该方法不限于此，并且甚至可以应用于所获得的视频对象和/或音频对象的数量与假设不同的情况。

参考图9，当从一个屏幕上的视频(或视频帧)获得三个视频对象(例如，视频1、视频2、视频3)时，这些对象被分类成相应的类别。视频1和视频3被分类成人的类别，并且视频2被分类成动物的类别。音频1是通过从原始声音中删除背景声音而获得的音频信号(或音频对象)。当从视频对象(例如，视频1、视频2、视频3)和音频对象(例如，音频1)中提取特征值并作为输入提供给对象匹配引擎540时，对象匹配引擎540将相关度输出作为比率。在图9的示例中，较高的比率可能意味着视频和音频之间的较高程度的关系。可替选地，其可以被配置成使得较低的比率意味着视频和音频之间的较高的关系程度。

例如，基于指示关系程度的信息(或关于关系的信息)的值(例如，比率)大于预定值，将与指示关系的程度的信息(或关于关系的信息)的值(例如，比率)有关的视频对象可以确定为与音频对象(例如，音频1)有关的视频对象。附加地/可替选地，当如图9的示例中存在多个视频对象时，与指示关系程度的信息(或关于关系的信息)(例如，比率)的最大值(例如，0.9)有关的视频对象(视频1)可以被确定为与音频对象(例如，音频1)有关的视频对象。

作为另一示例，基于指示关系程度的信息(或关于关系的信息)的值(例如，比率)小于预定值，与指示关系程度的信息(或关于关系的信息)的值(例如，比率)有关的视频对象可以被确定为与音频对象(例如，音频1)有关的视频对象。附加地/可替选地，当如图9的示例中存在多个视频对象时，与指示关系程度的信息(或关于关系的信息)(例如，比率)的最小值(例如，0.1)有关的视频对象(视频3)可以被确定为与音频对象(例如，音频1)有关的视频对象。

返回参考图5，定向渲染516可以包括当对象匹配引擎540确定音频对象声源或声音生成对象是屏幕上的视频对象时根据视频对象的屏幕位置来控制和/或调整扬声器(或音频信号)的输出速率(或增益)。例如，参考图4的示例，当对象匹配引擎540确定视频对象[n,3]与音频对象有关时，可以执行定向渲染516以根据视频对象[n,3]的屏幕位置控制和/或调整扬声器(或音频信号)的输出速率(或增益)。

控制和/或调整每个扬声器的输出速率(或增益)，以用于在视频对象相对于用户的屏幕位置处的声音图像定位。其输出速率(或增益)被控制和/或调整的扬声器的数量大于或等于2。取决于装置的尺寸、用户的位置以及扬声器的数量和布置，声音图像定位的输出速率可能改变。

图10图示由包括四个扬声器的装置根据视频对象的屏幕位置执行的声音图像定位的示例。图10仅是示例，并且本公开的提出的方法可以以相同的方式/相似的方式应用于包括不同数量的扬声器的装置。

例如，参考图10，当在电视的左上LT/右上RT/左下LB/右下RB上设置四个扬声器时，在相对于针对屏幕宽度(例如，屏幕_宽度)和屏幕高度(例如，屏幕_高度)的屏幕中心坐标(例如，(0,0))的坐标(X,Y)的位置处执行声音图像定位，针对扬声器位置的输出速率(或增益)GLT/GRT/GLB/GRB LT/RT/LB/RB可以被如下确定。在此，LT表示左上，RT表示右上，LB表示左下，RB表示右下，GLT表示左上的增益，GRT表示右上的增益，GLB表示左下的增益，并且GRB表示右下的增益。

基于“用户与屏幕之间的距离(例如，图10中的用户_屏幕_距离)、水平扬声器间隔(例如，图10中的水平_扬声器_间隔)、屏幕宽度(例如，图10中的屏幕_宽度)、屏幕高度(例如，图10中的屏幕_高度)”来确定针对坐标X的水平输出速率和针对坐标Y的垂直输出速率，并且GLT、GRT、GLB、GRB被确定使得基于水平输出速率和垂直输出速率GLT+GRT+GLB+GRB等于恒定值。

图11和图12分别图示当存在两个或四个扬声器时声音对象跟随的操作的示例。SCF表示场景改变标记，并且GL和GR表示左音频的增益和右音频的增益。音频开始表示存在音频对象的声音输出的概率。例如，对于人类语音，人类是否正在讲话通过在0(不讲话)和1(讲话)之间的概率来指示。检测人脸，并通过分析检测到的人脸与语音之间的相关性来确定人脸的位置。然后，控制和/或调整左和右语音信号输出增益，使得在人脸所位于的位置处输出语音。来自所有扬声器的输出的输出速率的总和应为1。通过用在音频和视频之间的更高相关性来增加扬声器的输出，可以为声音提供提高的3D效果和提高的沉浸感。可以根据装置的显示尺寸、装置的扬声器的数量和布置以及声音特性来调节输出速率。

返回参考图5，可以执行混合520以将在沉浸式环绕514中处理的信号与在定向渲染516中处理的信号混合以生成音频输出信号506。

装置的结构

图13图示可以将本公开应用于的信号处理装置的框图。根据本发明的装置10可以被配置成处理包括根据本发明的视频信号和音频信号的信号。例如，可以应用本发明的信号处理装置10可以包括诸如智能电话的移动终端、诸如膝上型计算机的便携式设备、诸如数字TV和数字视频播放器的家用电器、以及诸如汽车的运输工具。作为另一示例，本发明可以应用到的信号处理装置10可以被包括作为以片上***(SoC)的形式实现的专用集成电路(ASIC)的一部分。

存储器12可以存储用于处理器11的处理和控制的程序，并且可以存储包括视频信号和音频信号的比特流、解码的视频信号、解码的音频信号、信号处理所必需的控制信息、在信号处理等过程中产生的临时数据。另外，存储器12可以用作各种视频和音频信号的缓冲器。存储器12可以被实现为贮存器设备(storage device)，诸如只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、静态RAM(SRAM)、硬盘驱动器(HDD)、固态驱动器(SSD)等。

处理器11控制信号处理装置中的每个模块的操作。特别地，处理器11可以执行用于执行根据本发明的信号处理方法的各种控制功能。处理器11也可以被称为控制器、微控制器、微处理器、微型计算机等。根据本发明的方法可以通过硬件、固件、软件或其组合来实现。当使用硬件来实现本发明时，被配置成执行本发明的专用集成电路(ASIC)或数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)和现场可编程门阵列(FPGA)可以被设置在处理器11中。在使用固件或软件实现根据本发明的方法中，固件或软件可以被配置成包括用于本发明的功能或者操作的模块、过程或功能。被配置成执行根据本发明的方法的固件或软件可以被存储在存储器12中，或者可以被存储在与存储器12分离的计算机可读记录介质(未示出)中，并且当由处理器11执行时使装置10能够执行根据本发明的方法。

另外，装置10可以可选地包括网络接口模块(NIM)13。NIM 13可以可操作地连接至处理器11，并且处理器11可以控制NIM 13以通过无线/有线网络发送或者接收用于承载信息和/或数据、信号和消息的无线/有线信号。NIM 13可以支持各种通信标准，诸如例如，IEEE 802系列、3GPP LTE(-A)、3GPP 5G、Wi-Fi、高级电视***委员会(ATSC)和数字视频广播(DVB)。根据通信标准，可以发送和接收诸如控制信息和/或编码比特流的视频和音频信号。NIM 13可以根据需要不被包括在装置中。

另外，装置10可以可选地包括输入/输出接口14。输入/输出接口14可操作地与处理器11连接，并且处理器11可以控制输入/输出接口14以接收或输出控制信号和/或数据信号。输入/输出模块14可以支持诸如例如通用串行总线(USB)、蓝牙、近场通信(NFC)、串行/并行接口、数字视觉接口(DVI)和高清多媒体接口(HDMI)的标准使得被连接到例如，诸如键盘、鼠标、触摸板或照相机等输入装置以及诸如显示器的输出装置。

图14图示可以应用本发明的设备的更具体的框图。

设备100可以包括存储器130和控制器(或处理器)120，并且可以可选地进一步包括无线通信设备110、输入设备150、感测设备160、输出设备170、接口控制器180和电力供应器190中的至少一个。图14中示出的组件对于实现设备100不是必不可少的。因此，应用本文所述方法的设备可以具有比上面列出的组件更多或更少的组件。

更具体地说，组件的无线通信设备110可以包括一个或多个模块，这些模块使设备100与无线通信***之间、设备100与另一设备100之间、或设备100与外部服务器之间能够进行无线通信。另外，无线通信设备110可以包括用于将设备100连接到一个或多个网络的一个或多个模块。

无线通信设备110可以包括广播接收模块111、移动通信模块112、无线互联网模块113、近场通信(NFC)模块114和定位信息模块115中的至少一个。

输入设备150可以包括相机151或被配置成输入图像信号的图像输入设备、麦克风152或被配置成输入音频信号的音频输入设备、或被配置成从用户接收信息的用户输入设备153(例如，触摸键、机械键等)。通过输入设备150收集的音频数据或图像数据可以被分析并处理成用户的控制指令。

感测设备160可以包括一个或多个传感器，其被配置成感测设备内的信息、关于设备周围的周围环境的信息以及用户信息中的至少一项。例如，感测设备160可以包括接近传感器161、照度传感器162、触摸传感器、加速度传感器、磁传感器、G传感器、陀螺仪传感器、运动传感器、RGB传感器、红外(IR)传感器、手指扫描传感器、超声波传感器、光学传感器(例如，参见相机151)、麦克风152、电池电量计、环境传感器(例如，气压计、湿度计、温度计、辐射检测传感器、热传感器、气体传感器等)和化学传感器(例如，电子鼻、保健传感器、生物特征传感器等)中的至少一个。本文公开的设备可以组合并且利用由这些传感器中的至少两个或更多个传感器感测到的信息。

用于生成与视觉、听觉或触觉有关的输出的输出设备170可以包括显示器171、声音输出设备172、触觉模块173和光学输出设备174中的至少一个。显示器171可以与触摸传感器形成层结构或与触摸传感器集成在一起，从而实现触摸屏。触摸屏可以用作在设备100和用户之间提供输入接口的用户输入设备153，并且还可以在设备100和用户之间提供输出接口。

接口控制器180用作通往连接到设备100的各种类型的外部设备的路径。接口控制器180可以包括有线/无线耳机端口、外部充电器端口、有线/无线数据端口、存储卡端口、被配置成连接配备有识别模块的设备的端口、音频输入/输出(I/O)端口、视频输入/输出(I/O)端口和耳机端口中的至少一个端口。响应于外部设备到接口控制器180的连接，设备100可以执行与所连接的外部设备有关的适当控制。

另外，存储器130存储支持设备100的各种功能的数据。存储器130可以存储由设备100驱动的多个应用程序(或应用)、用于设备100的操作的数据、以及指令。这些应用中的至少一些可以经由无线通信从外部服务器下载。另外，这些应用程序中的至少一些可以从发货时就存在于设备100上，以启用设备100的基本功能(例如，呼叫接收、呼叫传输、消息接收和消息传输)。应用程序可以被存储在存储器130中，被安装在设备100上，并且被控制器120驱动以执行设备100的操作(或功能)。

除了与应用程序有关的操作之外，控制器120通常还控制设备100的整体操作。控制器120可以向用户提供适当的信息或功能，或者可以通过处理通过上述组件或通过驱动存储在存储器130中的应用程序来输入或输出的信号、数据、信息等来对其进行处理。

另外，控制器120可以控制参考图14描述的组件中的至少一些以便于驱动存储在存储器130中的应用程序。此外，控制器120可以组合并操作设备100中包括的组件的至少两个来驱动应用程序。

在控制器120的控制下，从外部电源或内部电源向电力供应器190供应电力，以向设备100中包括的每个组件供应电力。电力供应器190可以包括电池，该电池可以是内置电池或可更换电池。

上述组件中的至少一些可以彼此协作地操作以实现根据本发明的设备的操作、控制或控制方法。另外，可以通过驱动存储在存储器130中的至少一个应用程序来在设备100上实现设备100的操作、控制或控制方法。

被应用于本公开的无线设备的示例

图15图示应用于本公开的无线设备的另一示例。可以根据使用示例/服务以各种形式实现无线设备。

参考图15，无线设备100可以由各种元件、组件、单元/部分、和/或模块来配置。例如，无线设备100和200中的每个可以包括通信单元110、控制单元120、存储器单元130和附加组件140。通信单元可以包括通信电路和收发器。例如，通信电路可以包括一个或多个处理器和/或一个或多个存储器。例如，收发器可以包括一个或多个收发器和/或一个或多个天线。控制单元120被电连接到通信单元110、存储器130和附加组件140，并且控制无线设备的整体操作。例如，控制单元120可以基于存储在存储器单元130中的程序/代码/命令/信息来控制无线设备的电气/机械操作。控制单元120可以通过无线/有线接口经由通信单元110将存储在存储器单元130中的信息发送到外部(例如，其他通信设备)，或者将通过无线/有线接口从外部(例如，其他通信设备)通过通信单元110接收到的信息存储在存储器单元130中。

附加组件140可以根据无线设备的类型被不同地配置。例如，附加组件140可以包括电源单元/电池、输入/输出(I/O)单元、驱动单元和计算单元中的至少一个。无线设备可以以但不限于机器人、交通工具、XR设备、手持设备、家用电器、IoT设备、数字广播终端、全息图设备、公共安全设备、MTC设备、药品设备、金融科技设备(或金融设备)、安全设备、气候/环境设备、AI服务器/设备、基站、网络节点等的形式实现。无线设备可以根据使用示例/服务在移动或固定位置中使用。

在图15中，无线设备100中的各种元件、组件、单元/部分和/或模块的整体可以通过有线接口彼此连接，或者其至少一部分可以通过通信单元110无线连接。例如，在每个无线设备100中，控制单元120和通信单元110可以通过有线连接，并且控制单元120和第一单元(例如，130和140)可以通过通信单元110无线连接。无线设备100内的每个元件、组件、单元/部分和/或模块可以进一步包括一个或多个元件。例如，控制单元120可以由一个或多个处理器的集合配置。作为示例，控制单元120可以由通信控制处理器、应用处理器、电子控制单元(ECU)、图形处理单元和存储器控制处理器的集合配置。作为另一示例，存储器130可以由随机存取存储器(RAM)、动态RAM(DRAM)、只读存储器(ROM)、闪存、易失性存储器、非易失性存储器和/或其组合的集合配置。

在下文中，将参考附图详细描述实现图15的示例。

应用于本公开的手持设备的示例

图16图示应用于本公开的手持设备。手持设备可以包括智能电话、智能平板、可穿戴设备(例如，智能手表或智能眼镜)或可便携计算机(例如，笔记本电脑)。手持设备可以被称为移动台(MS)、用户终端(UT)、移动订户站(MSS)、订户站(SS)、高级移动站(AMS)或无线终端(WT)。

参考图16，手持设备100可以包括天线单元108、通信单元110、控制单元120、存储器单元130、电力供应单元140a、接口单元140b和I/O单元140c。天线单元108可以被配置成通信单元110的一部分。块110至130/140a至140c分别对应于图16的块110至130/140。

通信单元110可以向其他无线设备或BS发送信号(例如，数据和控制信号)，并且从其他无线设备或BS接收信号(例如，数据和控制信号)。控制单元120可以通过控制手持设备100的组成元件来执行各种操作。控制单元120可以包括应用处理器(AP)。存储器单元130可以存储驱动手持设备100所需的数据/参数/程序/代码/命令。存储器单元130可以存储输入/输出数据/信息。电力供应单元140a可以向手持设备100供应电力，并且包括有线/无线充电电路、电池等。接口单元140b可以支持手持设备100与其他外部设备的连接。接口单元140b可以包括用于与外部设备连接的各种端口(例如，音频I/O端口和视频I/O端口)。I/O单元140c可以输入或输出由用户输入的视频信息/信号、音频信息/信号、数据和/或信息。I/O单元140c可以包括照相机、麦克风、用户输入单元、显示单元140d、扬声器和/或触觉模块。

作为示例，在数据通信的情况下，I/O单元140c可以获取用户输入的信息/信号(例如，触摸、文本、语声、图像或视频)，并且所获取的信息/信号可以被存储在存储器单元130中。通信单元110可以将存储在存储器中的信息/信号转换成无线电信号，并且将转换后的无线电信号直接发送到其他无线设备或发送到BS。通信单元110可以从其他无线设备或BS接收无线电信号，并且然后将接收到的无线电信号恢复为原始信息/信号。恢复的信息/信号可以存储在存储器单元130中，并且可以通过I/O单元140c作为各种类型(例如，文本、语声、图像、视频或触觉)输出。

被应用于本公开的交通工具或自主驾驶交通工具(autonomous driving vehicle)的示例

图17图示应用于本公开的交通工具或自主驾驶交通工具。交通工具或自主驾驶交通工具可以通过移动机器人、汽车、火车、有人/无人飞行器(AV)、轮船等来实现。

参考图17，交通工具或自主驾驶交通工具100可以包括天线单元108、通信单元110、控制单元120、驱动单元140a、电力供应单元140b、传感器单元140c和自主驾驶单元140d。天线单元108可以被配置成通信单元110的一部分。块110/130/140a至140d分别对应于图15的块110/130/140。

通信单元110可以向诸如其他交通工具、BS(例如，gNB和路边单元)以及服务器的外部设备发送信号(例如，数据和控制信号)，并且从诸如其他交通工具、BS(例如，gNB和路边单元)以及服务器的外部设备接收信号(例如，数据和控制信号)。控制单元120可以通过控制交通工具或自主驾驶交通工具100的元件来执行各种操作。控制单元120可以包括电子控制单元(ECU)。驱动单元140a可以使交通工具或自主驾驶交通工具100在道路上驾驶。驱动单元140a可以包括发动机、电动机、传动***、车轮、制动器、转向装置等。电力供应单元140b可以向交通工具或自主驾驶交通工具100供应电力，并且包括有线/无线充电电路、电池等等。传感器单元140c可以获取交通工具状态、周围环境信息、用户信息等。传感器单元140c可以包括惯性测量单元(IMU)传感器、碰撞传感器、车轮传感器、速度传感器、坡度传感器、重量传感器、航向传感器(heading sensor)、位置模块、交通工具前进/后退传感器、电池传感器、燃料传感器、轮胎传感器、转向传感器、温度传感器、湿度传感器、超声波传感器、照度传感器、踏板位置传感器等。自主驾驶单元140d可以实施用于维持交通工具在其上正在行驶的车道的技术、用于诸如自适应巡航控制的自动调节速度的技术、用于沿着确定的路径自主驾驶的技术、用于如果设置目的地则自动设置路径的技术等。

例如，通信单元110可以从外部服务器接收地图数据、交通信息数据等。自主驾驶单元140d可以从获得的数据生成自主驾驶路径和驾驶计划。控制单元120可以控制驱动单元140a，使得交通工具或自主驾驶交通工具100可以根据驾驶计划(例如，速度/方向控制)沿着自主驾驶路径移动。在自主驾驶的中间，通信单元110可以不定期地/不定期地从外部服务器获取最近的交通信息数据，并且可以从邻近交通工具获取周围的交通信息数据。在自主驾驶的中间，传感器单元140c可以获得交通工具状态和/或周围环境信息。自主驾驶单元140d可以基于新获得的数据/信息来更新自主驾驶路径和驾驶计划。通信单元110可以将关于交通工具位置、自主驾驶路径和/或驾驶计划的信息传输到外部服务器。外部服务器可以基于从交通工具或自主驾驶交通工具收集的信息，使用AI技术等来预测交通信息数据，并将预测的交通信息数据提供给交通工具或自主驾驶交通工具。

适用于本公开的交通工具的示例

图18图示应用于本公开的交通工具。该交通工具可以被实现为运输工具、飞行器、轮船等。

参考图18，交通工具100可以包括通信单元110、控制单元120、存储器单元130、I/O单元140a和定位单元140b。这里，块110至130/140a和140b对应于图15的块110至130/140。

通信单元110可以向诸如其他交通工具或BS的外部设备发送和接收信号(例如，数据和控制信号)。控制单元120可以通过控制交通工具100的组成元件来执行各种操作。存储器单元130可以存储用于支持交通工具100的各种功能的数据/参数/程序/代码/命令。I/O单元140a可以基于存储器单元130内的信息输出AR/VR对象。I/O单元140a可以包括HUD。定位单元140b可以获取关于交通工具100的位置的信息。位置信息可以包括关于交通工具100的绝对位置的信息、关于交通工具100在行驶车道内的位置的信息、加速度信息以及关于交通工具100离邻近设备的位置的信息。定位单元140b可以包括GPS和各种传感器。

作为示例，交通工具100的通信单元110可以从外部服务器接收地图信息和交通信息，并且将接收到的信息存储在存储器单元130中。定位单元140b可以通过GPS和各种传感器获得交通工具位置信息并且将获得的信息存储在存储器单元130中。控制单元120可以基于地图信息、交通信息和交通工具位置信息来生成虚拟对象，并且I/O单元140a可以将所生成的虚拟对象显示在交通工具中的窗户(1410和1420)中。控制单元120可以基于交通工具位置信息来确定交通工具100是否在行驶车道内正常行驶。如果交通工具100异常地从行驶车道退出，则控制单元120可以通过I/O单元140a在交通工具的窗户上显示警告。另外，控制单元120可以通过通信单元110向邻近交通工具广播关于驾驶异常的警告消息。根据情况，控制单元120可以将交通工具位置信息和关于驾驶/交通工具异常的信息发送到相关组织。

适用于本公开的XR设备的示例

图19图示应用于本公开的XR设备。XR设备可以通过HMD、安装在交通工具、电视、智能手机、计算机、穿戴式设备、家用电器、数字标牌、交通工具、机器人等中的HUD来实现。

参考图19，XR设备100a可以包括通信单元110、控制单元120、存储器单元130、I/O单元140a、传感器单元140b和电力供应单元140c。这里，块110至130/140a至140c分别对应于图15的块110至130/140。

通信单元110可以向诸如其他无线设备、手持设备或媒体服务器的外部设备发送和接收信号(例如，媒体数据和控制信号)。媒体数据可以包括视频、图像和声音。控制单元120可以通过控制XR设备100a的组成元件来执行各种操作。例如，控制单元120可以被配置成控制和/或执行诸如视频/图像获取、(视频/图像)编码以及元数据生成和处理的过程。存储器单元130可以存储驱动XR设备100a/生成XR对象所需的数据/参数/程序/代码/命令。I/O单元140a可以从外部获得控制信息和数据，并且输出所生成的XR对象。I/O单元140a可以包括照相机、麦克风、用户输入单元、显示单元、扬声器和/或触觉模块。传感器单元140b可以获得XR设备状态、周围环境信息、用户信息等。传感器单元140b可以包括接近传感器、照度传感器、加速度传感器、磁传感器、陀螺仪传感器、惯性传感器、RGB传感器、IR传感器、指纹识别传感器、超声波传感器、光传感器、麦克风和/或雷达。电力单元140c可以向XR设备100a供应电力，并且可以包括有线/无线充电电路、电池等。

例如，XR设备100a的存储器单元130可以包括生成XR对象(例如，AR/VR/MR对象)所需的信息(例如，数据)。I/O单元140a可以从用户接收用于操纵XR设备100a的命令，并且控制单元120可以根据用户的驱动命令来驱动XR设备100a。例如，当用户期望通过XR设备100a观看电影或新闻时，控制单元120通过通信单元130将内容请求信息发送到另一设备(例如，手持设备100b)或媒体服务器。通信单元130可以将诸如电影或新闻的内容从另一设备(例如，手持设备100b)或媒体服务器下载/流送到存储器单元130。控制单元120可以控制和/或执行诸如视频/图像获取、(视频/图像)编码和相对于内容的元数据生成/处理的过程，并基于通过I/O单元140a/传感器单元140b获得的有关周围空间或真实对象的信息生成/输出XR对象。

XR设备100a可以通过通信单元110无线连接到手持设备100b，并且XR设备100a的操作可以由手持设备100b控制。例如，手持设备100b可以用作XR设备100a的控制器。为此，XR设备100a可以获得关于手持设备100b的3D位置的信息，并且生成并输出与手持设备100b相对应的XR对象。

被应用于本公开的AI设备的示例

图20图示应用于本发明的AI设备。AI设备可以通过固定装置或诸如电视、投影仪、智能手机、PC、笔记本电脑、数字广播终端、平板电脑、穿戴式设备、机顶盒(STB)、收音机、洗衣机、冰箱、数字标牌、机器人、交通工具等的移动装置来实现。

参考图20，AI设备100可以包括通信单元110、控制单元120、存储器单元130、I/O单元140a/140b、学习处理器单元140c和传感器单元140d。块110至130/140a至140d分别对应于图15的块110至130/140。

通信单元110可以使用有线/无线通信技术向诸如其他AI设备或AI服务器的外部设备发送有线/无线电信号(例如，传感器信息、用户输入、学习模型或控制信号)并且从诸如其他AI设备或AI服务器的外部设备接收有线/无线电信号(例如，传感器信息、用户输入、学习模型或控制信号)。为此，通信单元110可以将存储器单元130内的信息发送到外部设备，并且将从外部设备接收的信号发送到存储器单元130。

控制单元120可以基于使用数据分析算法或机器学习算法确定或生成的信息来确定AI设备100的至少一种可行操作。控制单元120可以执行通过控制AI设备100的组成元件而确定的操作。例如，控制单元120可以请求、搜索、接收或使用学习处理器单元140c或存储器单元130的数据，并控制AI设备100的组成元件以执行预测的操作或在至少一种可行操作中被确定为优选的操作。控制单元120可以收集包括AI设备100的操作内容和用户的操作反馈的历史信息，并将收集的信息存储在存储器单元130或学习处理器单元140c中，或者将收集的信息发送到诸如AI服务器的外部设备。所收集的历史信息可以用于更新学习模型。

存储器单元130可以存储用于支持AI设备100的各种功能的数据。例如，存储器单元130可存储从输入单元140a获得的数据、从通信单元110获得的数据、学习处理器单元140c的输出数据、以及从传感器单元140获得的数据。存储器单元130可以存储操作/驱动控制单元120所需的控制信息和/或软件代码。

输入单元140a可以从AI设备100的外部获取各种类型的数据。例如，输入单元140a可以获取用于模型学习的学习数据，以及要对其应用学习模型的输入数据。输入单元140a可以包括照相机、麦克风和/或用户输入单元。输出单元140b可以生成与视觉、听觉或触觉有关的输出。输出单元140b可以包括显示单元、扬声器和/或触觉模块。感测单元140可以使用各种传感器来获得AI设备100的内部信息、AI设备100的周围环境信息和用户信息中的至少一个。传感器单元140可以包括接近传感器、照度传感器、加速度传感器、磁传感器、陀螺仪传感器、惯性传感器、RGB传感器、IR传感器、指纹识别传感器、超声波传感器、光传感器、麦克风和/或雷达。

学习处理器单元140c可以使用学习数据来学习由人工神经网络组成的模型。学习处理器单元140c可以与AI服务器的学习处理器单元一起执行AI处理。学习处理器单元140c可以处理通过通信单元110从外部设备接收到的信息和/或存储在存储器单元130中的信息。另外，学习处理器单元140c的输出值可以通过通信单元110c发送到外部设备，并且可以存储在存储器单元130中。

通过以预定方式组合本公开的结构元件和特征来实现前述实施例。除非单独指定，否则应选择性地考虑每个结构元件或特征。可以在不与其他结构元件或特征组合的情况下执行每个结构元件或特征。此外，一些结构元件和/或特征可以彼此组合以构成本发明的实施例。在本发明的实施例中描述的操作顺序可以改变。一个实施例的一些结构元件或特征可以被包括在另一实施例中，或者可以被另一实施例的对应的结构元件或特征代替。此外，将显而易见的是，引用特定权利要求的一些权利要求可以与引用特定权利要求以外的其他权利要求的其他权利要求组合以构成实施例，或者在提交申请之后通过修改的方式添加新的权利要求。

本领域的技术人员将理解，在不脱离本发明的精神和基本特征的情况下，可以以不同于本文阐述的方式的其他特定方式来实施本发明。因此，以上示例性实施例在所有方面都应解释为示例性而非限制性的。本发明的范围应该由所附权利要求及其合法的等同物来确定，而不是由以上描述来确定，并且落入所附权利要求的含义和等同范围内的所有改变都旨在包含在其中。

Claims

1.一种通过装置处理多媒体信号的方法，所述方法包括：

从所述多媒体信号获得视频帧和音频帧；

从所述视频帧获得至少一个视频对象并且从所述音频帧获得至少一个音频对象；

确定所述至少一个视频对象与所述至少一个音频对象之间的相关性；以及

根据所述确定的相关性，基于所述至少一个视频对象之中的与特定音频对象有关的特定视频对象的屏幕位置，对所述至少一个音频对象的所述特定音频对象执行定向渲染。

2.根据权利要求1所述的方法，进一步包括：

对所述至少一个视频对象执行视频分类，并且对所述至少一个音频对象执行音频分类。

3.根据权利要求2所述的方法，其中，所述至少一个音频对象中的每个被分类成包括人类语音、动物声音和交通工具声音的类别中的一个。

4.根据权利要求2所述的方法，其中，所述至少一个视频对象中的每个被分类成包括人脸、动物和交通工具的类别中的一个。

5.根据权利要求2所述的方法，进一步包括：

通过对所述至少一个视频对象和所述至少一个音频对象执行特征提取来获得特征信息，

其中，基于所述视频分类的结果、所述音频分类的结果、所述获得的特征信息和对象匹配引擎来确定所述至少一个视频对象与所述至少一个音频对象之间的相关性。

6.根据权利要求1所述的方法，进一步包括：

其中，基于所述获得的特征信息和对象匹配引擎来确定所述至少一个视频对象与所述至少一个音频对象之间的相关性。

7.根据权利要求6所述的方法，其中，所述对象匹配引擎包括基于学习所训练的模型。

8.根据权利要求1所述的方法，其中，对所述特定音频对象执行所述定向渲染包括：

基于与所述特定音频对象有关的所述特定视频对象的屏幕位置，调整要输出到扬声器的音频信号的输出增益。

9.根据权利要求1所述的方法，其中，对所述特定音频对象执行所述定向渲染包括：

基于与所述特定音频对象有关的所述特定视频对象的屏幕位置，调整与扬声器有关的音频信号的输出速率。

10.根据权利要求9所述的方法，其中，调整所述音频信号的输出速率包括：

基于所述扬声器之间的水平间隔、屏幕宽度和所述特定视频对象的屏幕位置来调整与所述扬声器有关的所述音频信号的输出速率。

11.根据权利要求10所述的方法，其中，基于包括左扬声器和右扬声器的所述扬声器，调整所述音频信号的输出速率，使得与所述左扬声器有关的音频信号的输出速率和与所述右扬声器有关的音频信号的输出速率之和等于恒定值。

12.根据权利要求11所述的方法，其中，所述恒定值为1。

13.根据权利要求10所述的方法，其中，基于包括左上扬声器、右上扬声器、左下扬声器和右下扬声器的所述扬声器，调整所述音频信号的输出速率，使得与所述左上扬声器有关的音频信号的输出速率、与所述右上扬声器有关的音频信号的输出速率、与所述左下扬声器有关的音频信号的输出速率以及与所述右下扬声器有关的音频信号的输出速率之和等于恒定值。

14.根据权利要求13所述的方法，其中，所述恒定值为1。

15.一种被配置成处理多媒体信号的装置，所述装置包括：

存储器，所述存储器存储指令；以及

至少一个处理器，所述至少一个处理器可操作地耦合到所述存储器，并且被配置成在执行所述指令时实现包括下述操作：

从所述多媒体信号获得视频帧和音频帧；

根据所述确定的相关性，基于来自于所述至少一个视频对象之中的与特定音频对象有关的特定视频对象的屏幕位置，对所述至少一个音频对象的所述特定音频对象执行定向渲染。