CN111050271B - 用于处理音频信号的方法和装置 - Google Patents
用于处理音频信号的方法和装置 Download PDFInfo
- Publication number
- CN111050271B CN111050271B CN201811190415.4A CN201811190415A CN111050271B CN 111050271 B CN111050271 B CN 111050271B CN 201811190415 A CN201811190415 A CN 201811190415A CN 111050271 B CN111050271 B CN 111050271B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- head
- processed
- channel audio
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 288
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 title claims abstract description 46
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 40
- 238000012546 transfer Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 210000003128 head Anatomy 0.000 description 257
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 210000005069 ears Anatomy 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/403—Linear arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本公开的实施例公开了用于处理音频信号的方法和装置。该方法的一具体实施方式包括:获取目标用户的头部图像和待处理音频信号;基于头部图像,确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离;将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,其中,头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。该实施方式提高了处理音频信号的灵活性,有助于模拟出接近真实的音频播放效果。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于处理音频信号的方法和装置。
背景技术
随着互联网技术与电子技术的结合程度越来越高,人们对电子设备的智能化、人性化的要求也越来越高。手机以及便携式电子终端的使用普及度越来越高,多媒体功能是用户使用最多的应用之一。
目前的音频处理领域,为了模拟接近真实的声场,通常采用调整左右声道的响度差和调整左右声道的双耳时间差的方法。
发明内容
本公开的实施例提出了用于处理音频信号的方法和装置。
第一方面,本公开的实施例提供了一种用于处理音频信号的方法,该方法包括:获取目标用户的头部图像和待处理音频信号;基于头部图像,确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离;将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,其中,头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。
在一些实施例中,基于头部图像,确定目标用户的头部姿态角,包括:将头部图像输入预先训练的头部姿态识别模型,得到目标用户的头部姿态角,其中,头部姿态识别模型用于表征头部图像与头部图像所表征的用户的头部姿态角的对应关系。
在一些实施例中,头部姿态识别模型预先按照如下步骤训练得到:获取多个样本头部图像和多个样本头部图像中的样本头部图像对应的样本头部姿态角;利用机器学习方法,将多个样本头部图像中的样本头部图像作为输入,将输入的样本头部图像对应的样本头部姿态角作为期望输出,训练得到头部姿态识别模型。
在一些实施例中,确定目标声源与目标用户的头部的距离,包括:确定头部图像的大小;基于预设的、头部图像的大小和距离的对应关系,确定目标声源与目标用户的头部的距离。
在一些实施例中,在得到处理后左声道音频信号和处理后右声道音频信号之后,该方法还包括:获取预先确定的、初始左声道音频信号和初始右声道音频信号的响度差作为初始响度差;分别调整处理后左声道音频信号和处理后右声道音频信号的响度,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与初始响度差的差值处于第一预设范围内。
在一些实施例中,该方法还包括:获取预先确定的、初始左声道音频信号和初始右声道音频信号的双耳时间差作为初始双耳时间差;调整处理后左声道音频信号和处理后右声道音频信号的双耳时间差,以使调整双耳时间差后的处理后左声道音频信号和处理后右声道音频信号的双耳时间差与初始双耳时间差的差值处于第二预设范围内。
第二方面,本公开的实施例提供了一种用于处理音频信号的装置,该装置包括:第一获取单元,被配置成获取目标用户的头部图像和待处理音频信号;确定单元,被配置成基于头部图像,确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离;处理单元,被配置成将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,其中,头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。
在一些实施例中,确定单元包括:识别模块,被配置成将头部图像输入预先训练的头部姿态识别模型,得到目标用户的头部姿态角,其中,头部姿态识别模型用于表征头部图像与头部图像所表征的用户的头部姿态角的对应关系。
在一些实施例中,头部姿态识别模型预先按照如下步骤训练得到:获取多个样本头部图像和多个样本头部图像中的样本头部图像对应的样本头部姿态角;利用机器学习方法,将多个样本头部图像中的样本头部图像作为输入,将输入的样本头部图像对应的样本头部姿态角作为期望输出,训练得到头部姿态识别模型。
在一些实施例中,确定单元包括:第一确定模块,被配置成确定头部图像的大小;第二确定模块,被配置成基于预设的、头部图像的大小和距离的对应关系,确定目标声源与目标用户的头部的距离。
在一些实施例中,该装置还包括:第二获取单元,被配置成获取预先确定的、初始左声道音频信号和初始右声道音频信号的响度差作为初始响度差;第一调整单元,被配置成分别调整处理后左声道音频信号和处理后右声道音频信号的响度,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与初始响度差的差值处于第一预设范围内。
在一些实施例中,该装置还包括:第三获取单元,被配置成获取预先确定的、初始左声道音频信号和初始右声道音频信号的双耳时间差作为初始双耳时间差;第二调整单元,被配置成调整处理后左声道音频信号和处理后右声道音频信号的双耳时间差,以使调整双耳时间差后的处理后左声道音频信号和处理后右声道音频信号的双耳时间差与初始双耳时间差的差值处于第二预设范围内。
第三方面,本公开的实施例提供了一种终端设备,该终端设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开的实施例提供的用于处理音频信号的方法和装置,通过获取目标用户的头部图像和待处理音频信号,然后利用头部图像,确定目标用户的头部姿态角和目标声源与目标用户的头部的距离,最后将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,从而利用头部图像和头相关传输函数调整音频信号,提高了处理音频信号的灵活性,有助于模拟出接近真实的音频播放效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性***架构图;
图2是根据本公开的实施例的用于处理音频信号的方法的一个实施例的流程图;
图3是根据本公开的实施例的用于处理音频信号的方法的头部姿态角的示例性示意图;
图4是根据本公开的实施例的用于处理音频信号的方法的头部姿态角的另一示例性示意图;
图5是根据本公开的实施例的用于处理音频信号的方法的一个应用场景的示意图;
图6是根据本公开的实施例的用于处理音频信号的方法的又一个实施例的流程图;
图7是根据本公开的实施例的用于处理音频信号的装置的一个实施例的结构示意图;
图8是适于用来实现本公开的实施例的终端设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的实施例的用于处理音频信号的方法或用于处理音频信号的装置的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如音频播放类应用、视频播放类应用、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是支持音频播放且包括摄像头的各种电子设备。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上播放的音频提供支持的后台音频服务器。后台音频服务器可以向终端设备发送音频,以在终端设备上播放。
需要说明的是,本公开的实施例所提供的用于处理音频信号的方法一般由终端设备101、102、103执行,相应地,用于处理音频信号的装置可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在需要处理的头部图像和音频信号不需要从远程获取的情况下,上述***架构可以不包括网络和服务器。
继续参考图2,示出了根据本公开的用于处理音频信号的方法的一个实施例的流程200。该用于处理音频信号的方法,包括以下步骤:
步骤201,获取目标用户的头部图像和待处理音频信号。
在本实施例中,用于处理音频信号的方法的执行主体(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式从远程或从本地获取目标用户的头部图像以及左声道待处理音频信号和右声道待处理音频信号。其中,目标用户可以是如图1所示的终端设备上的摄像头的拍摄范围内的用户(例如使用如图1所示的终端设备的用户)。上述待处理音频信号可以是预先存储在上述执行主体中的、待对其进行处理的音频信号。作为示例,上述待处理音频信号可以是当前正在上述执行主体上播放的音频包括的、尚未播放的音频片段。该音频片段的时长可以是预设时长,例如5秒、10秒等。
步骤202,基于头部图像,确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离。
在本实施例中,基于步骤201中获取的头部图像,上述执行主体可以确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离。其中,头部姿态角可以用于表征目标用户的脸部的正面朝向相对于用于拍摄得到目标用户的头部图像的摄像头的偏转程度。
实践中,头部姿态角可以包括俯仰角(pitch)、偏航角(yaw)、翻滚角(roll)三种角度,分别代表上下翻转,左右翻转,水平面内旋转的角度。如图3所示,x轴、y轴、z轴是直角坐标系的三个轴。其中,z轴可以为终端设备301上的摄像头的光轴,y轴可以为在人的头部不发生侧转的状态下、通过人的头顶轮廓的中心点且与水平面垂直的直线。俯仰角可以为人脸绕x轴旋转的角度,偏航角可以为人脸绕y轴旋转的角度,翻滚角可以为人脸绕z轴旋转的角度。在图3中的直角坐标系中,当人的头部转动时,确定以该直角坐标系的原点为端点、且通过人的两个眼球中心点的连线的中点的射线,该射线分别与x轴、y轴、z轴的角度可以确定为头部姿态角。
需要说明的是,在本实施例中,所确定的头部姿态角可以不包括上述翻滚角。如图4所示,图中的点A为目标声源,目标声源与摄像头的位置相同,所确定的头部姿态角包括θ(偏航角)和φ(俯仰角)。
还需要说明的是,上述执行主体可以按照各种现有的头部姿态估计的方法对二维头部图像进行头部姿态估计。其中,头部姿态估计的方法可以包括但不限于以下方法:基于机器学习模型的方法,基于人脸关键点的坐标变换方法等。
在本实施例的一些可选的实现方式中,上述执行主体可以基于头部图像,按照如下步骤确定目标用户的头部姿态角:
将头部图像输入预先训练的头部姿态识别模型,得到目标用户的头部姿态角。其中,头部姿态识别模型用于表征头部图像与头部图像所表征的用户的头部姿态角的对应关系。
作为示例,上述头部姿态识别模型可以包括特征提取部分和对应关系表。其中,特征提取部分可以用于从头部图像中提取特征生成特征向量。例如,特征提取部分可以为卷积神经网络、深度神经网络等等。对应关系表可以是技术人员基于对大量的特征向量和头部姿态角的统计而预先制定的、存储有多个特征向量与头部姿态角的对应关系的对应关系表。这样,上述头部姿态识别模型可以首先使用特征提取部分提取头部图像的特征,从而生成目标特征向量。之后,将该目标特征向量与对应关系表中的多个特征向量依次进行比较,若对应关系表中的某一个特征向量与目标特征向量相同或相似,则将对应关系表中的该特征向量对应的头部姿态角作为目标用户的头部姿态角。
在本实施例的一些可选的实现方式中,上述头部姿态识别模型可以由上述执行主体或其他电子设备预先通过如下步骤训练得到:首先,获取多个样本头部图像和多个样本头部图像中的样本头部图像对应的样本头部姿态角。其中,样本头部姿态角是预先对样本头部图像进行标注的、样本头部图像指示的人物的头部的头部姿态角。然后,利用机器学习方法,将多个样本头部图像中的样本头部图像作为输入,将输入的样本头部图像对应的样本头部姿态角作为期望输出,训练得到头部姿态识别模型。
上述头部姿态识别模型可以是对初始化的人工神经网络进行训练得到的模型。初始化的人工神经网络可以是未经训练的人工神经网络或未训练完成的人工神经网络。初始化的人工神经网络的各层可以设置有初始参数,参数在人工神经网络的训练过程中可以被不断地调整(例如利用反向传播算法调整参数)。初始化的人工神经网络可以是各种类型的未经训练或未训练完成的人工神经网络。例如,初始化的人工神经网络可以是卷积神经网络(例如可以包括卷积层、池化层、全连接层等)。
通过利用目标用户的头部图像确定头部姿态角,可以实现实时地监测目标用户的头部姿态,并且可以避免使用诸如头戴设备等硬件,达到简化硬件结构、降低硬件成本的目的。
在本实施例中,上述执行主体可以基于头部图像确定目标声源与目标用户的头部的距离。
作为一个示例,上述执行主体可以按照如下步骤确定目标声源与目标用户的头部的距离:
首先,确定头部图像的大小。作为示例,头部图像的大小可以是上述执行主体利用现有的目标检测模型(例如SSD(Single Shot MultiBox Detector)、DPM(Deformable PartModel)等),从头部图像中识别出的头部图像区域的大小。其中,大小可以由各种方式表征。例如,可以是包括头部图像区域的最小矩形的长度或宽度,也可以是包括头部图像区域的最小圆形的半径等。
然后,基于预设的、头部图像的大小和距离的对应关系,确定目标声源与目标用户的头部的距离。具体地,作为示例,上述对应关系可以由预设的对应关系表来表征,在该对应关系表中,可以存储有头部图像的大小和对应的距离,上述执行主体可以根据所确定的头部图像的大小,从该对应关系表中查找与所确定的头部图像的大小对应的距离。作为另一示例,上述对应关系可以根据预设的转换公式表征,上述执行主体可以利用上述转换公式,根据所确定的头部图像的大小,计算得到目标声源与目标用户的头部的距离。例如,上述转换公式可以为y=kx,其中,k为预设的比例值,x为头部图像的大小,y为目标声源与头部图像所表征的用户的头部的距离。
作为另一个示例,上述执行主体可以利用现有的确定人脸关键点的方法,确定头部图像中的人脸关键点,以及确定包括所确定的人脸关键点的图像区域的大小。其中,图像区域的大小的表征方式可以与上述示例相同。然后,上述执行主体可以基于预设的、图像区域的大小和距离的对应关系,确定目标声源与目标用户的头部的距离。其中,本示例中的对应关系的表征方式可以与上述示例相同,这里不再赘述。
需要说明的是,目标声源可以是实际的、输出音频信号的电子设备,通常,输出音频信号的电子设备即为上述包括摄像头的终端设备,也可以是由上述执行主体确定的、处于目标位置的虚拟声源。相应地,目标声源与目标用户的头部的距离可以是按照上述示例确定出的、输出音频信号的电子设备与目标用户的头部之间的距离;或者,目标声源与目标用户的头部的距离可以是对所确定的距离进行计算(例如乘以预设的系数,或加上预设的距离等),得到目标声源(即虚拟声源)与目标用户的头部之间的距离。
步骤203,将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号。
在本实施例中,上述执行主体可以将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数(Head Related Transfer Function,HRTF),得到处理后左声道音频信号和处理后右声道音频信号。其中,头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。
具体地,头相关传输函数(也称为双耳传输函数)描述了声波从声源到双耳的传输过程。它是人的生理结构(如头、耳廓以及躯干等)对声波进行综合滤波的结果。因为头相关传输函数包含了有关声源定位的信息,所以它对于双耳听觉和心理声学的研究具有非常重要的意义。在实际应用中,利用耳机或扬声器输出用头相关传输函数处理过的信号,可以模拟出各种不同的空间听觉效果。
通常,HRTF可以包括两部分,分别为左HRTF和右HRTF,上述执行主体可以将头部姿态角、所确定出的距离和待处理音频信号分别输入左HRTF和右HRTF,左HRTF输出处理后左声道音频信号,右HRTF输出处理后右声道音频信号。实践中,处理后左声道音频信号和处理后右声道音频信号可以具有响度差(Interaural Level Differences,ILD)和双耳时间差(ITD,Interaural Time Difference)。其中,响度又称音量,描述的是声音的响亮程度,表示人耳对声音的主观感受,其计量单位是宋(sone),定义1kHz,声压级为40dB纯音的响度为1宋。双耳时间差指的是声源到达听者两耳的时间差。通过上述各步骤的处理,可以使得处理后左声道音频信号和处理后右声道音频信号之间的响度差和双耳时间差接近真实的场景,有助于模拟出接近真实的音频播放效果。
可选地,在得到处理后左声道音频信号和处理后右声道音频信号后,上述执行主体可以将处理后左声道音频信号和处理后右声道音频信号以各种方式输出。例如可以利用耳机、扬声器等设备播放处理后左声道音频信号和处理后右声道音频信号;或者,可以将处理后左声道音频信号和处理后右声道音频信号输出至预设的存储区中存储。
继续参见图5,图5是根据本实施例的用于处理音频信号的方法的应用场景的一个示意图。在图5的应用场景中,终端设备501上正在播放音乐,终端设备501首先拍摄到目标用户502的头部图像503,终端设备501又获取到待处理音频信号504。其中,待处理音频信号504是当前播放的音频中、尚未播放的音频片段。然后,终端设备501基于头部图像503,确定目标用户的头部姿态角505(例如使用预先训练的头部姿态识别模型识别出头部姿态角),以及确定目标声源与目标用户502的头部的距离506(例如根据头部图像的大小和距离的对应关系确定出目标声源与目标用户的头部的距离)。其中,目标声源即为终端设备501。最后,终端设备501将头部姿态角505、距离506和待处理音频信号504输入预设的头相关传输函数507,得到处理后左声道音频信号508和处理后右声道音频信号509。
本公开的上述实施例提供的方法,通过获取目标用户的头部图像和待处理音频信号,然后利用头部图像,确定目标用户的头部姿态角和目标声源与目标用户的头部的距离,最后将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,从而利用头部图像和头相关传输函数调整音频信号,提高了处理音频信号的灵活性,有助于模拟出接近真实的音频播放效果。
进一步参考图6,其示出了用于处理音频信号的方法的又一个实施例的流程600。该用于处理音频信号的方法的流程600,包括以下步骤:
步骤601,获取目标用户的头部图像和待处理音频信号。
在本实施例中,步骤601与图2对应实施例中的步骤201基本一致,这里不再赘述。
步骤602,基于头部图像,确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离。
在本实施例中,步骤602与图2对应实施例中的步骤202基本一致,这里不再赘述。
步骤603,将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号。
在本实施例中,步骤603与图2对应实施例中的步骤203基本一致,这里不再赘述。
步骤604,获取预先确定的、初始左声道音频信号和初始右声道音频信号的响度差作为初始响度差。
在本实施例中,用于处理音频信号的方法的执行主体(例如图1所示的终端设备)可以获取预先确定的、初始左声道音频信号和初始右声道音频信号的响度差。其中,初始左声道音频信号和初始右声道音频信号可以是预先存储在上述执行主体中的、未进行处理的音频信号。未进行处理的音频信号和上述待处理音频信号可以是基于相同的音频文件生成的。例如,初始左声道音频信号和初始右声道音频信号可以是从某音频文件中提取的音频信号,待处理音频信号可以是从正在播放的该音频文件中提取的、尚未播放的音频片段。
在本实施例中,上述执行主体可以预先分别确定初始左声道音频信号和初始右声道音频信号的响度,将所确定的两个响度的差值确定为初始左声道音频信号和初始右声道音频信号的响度差。需要说明的是,确定音频信号的响度的方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤605,分别调整处理后左声道音频信号和处理后右声道音频信号的响度,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与初始响度差的差值处于第一预设范围内。
在本实施例中,上述执行主体分别调整处理后左声道音频信号和处理后右声道音频信号的响度,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与初始响度差的差值处于第一预设范围内。其中,第一预设范围可以是预设的响度差范围,例如0宋、±1宋等。
作为示例,假设初始左声道音频信号的响度为A,初始右声道音频信号的响度为B,则将处理后左声道音频信号的响度调整为接近A,将处理后右声道音频信号的响度调整为接近B,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与初始响度差的差值处于第一预设范围内。
通过调整处理后左声道音频信号和处理后右声道音频信号的响度,可以使处理后左声道音频信号和处理后右声道音频信号的响度差还原为初始的响度差,从而有助于在播放音频时,避免音频信号响度的突变。
在本实施例的一些可选的实现方式中,在上述步骤603之后,上述执行主体还可以执行如下步骤:
首先,获取预先确定的、初始左声道音频信号和初始右声道音频信号的双耳时间差作为初始双耳时间差。具体地,初始左声道音频信号和初始右声道音频信号与步骤604中描述的初始左声道音频信号和初始右声道音频信号相同,这里不再赘述。上述执行主体可以预先按照现有的确定左右声道的双耳时间差的方法,确定初始左声道音频信号和初始右声道音频信号的双耳时间差。需要说明的是,确定左右声道的双耳时间差的方法是目前广泛研究和应用的公知技术,在此不再赘述。
然后,调整处理后左声道音频信号和处理后右声道音频信号的双耳时间差,以使调整双耳时间差后的处理后左声道音频信号和处理后右声道音频信号的双耳时间差与初始双耳时间差的差值处于第二预设范围内。其中,第二预设范围可以是预设的双耳时间差范围,例如0秒、±0.1秒等。
作为示例,可以通过调整处理后左声道音频信号和处理后右声道音频信号的起始播放时间,来达到调整左声道音频信号和处理后右声道音频信号的双耳时间差的目的。通过调整双耳时间差,可以使处理后左声道音频信号和处理后右声道音频信号的双耳时间差还原为初始的双耳时间差,从而有助于在播放音频时,避免音频信号的双耳时间差突变,有助于更好地模拟真实的声场。从图6中可以看出,与图2对应的实施例相比,本实施例中的用于处理音频信号的方法的流程600突出了调整处理后左声道音频信号和处理后右声道音频信号的响度的步骤。由此,本实施例描述的方案可以使处理后左声道音频信号和处理后右声道音频信号的响度还原为初始的响度,从而有助于在播放音频时,避免音频信号响度的突变。
进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种用于处理音频信号的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的用于处理音频信号的装置700包括:第一获取单元701,被配置成获取目标用户的头部图像和待处理音频信号;确定单元702,被配置成基于头部图像,确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离;处理单元703,被配置成将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,其中,头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。
在本实施例中,第一获取单元701可以通过有线连接方式或者无线连接方式从远程或从本地获取目标用户的头部图像以及左声道待处理音频信号和右声道待处理音频信号。其中,目标用户可以是如图1所示的终端设备上的摄像头的拍摄范围内的用户(例如使用如图1所示的终端设备的用户)。上述待处理音频信号可以是预先存储在上述装置700中的、待对其进行处理的音频信号。作为示例,上述待处理音频信号可以是当前正在上述装置700上播放的音频包括的、尚未播放的音频片段。该音频片段的时长可以是预设时长,例如5秒、10秒等。
在本实施例中,确定单元702可以确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离。其中,头部姿态角可以用于表征目标用户的脸部的正面朝向相对于拍摄得到目标用户的头部图像的摄像头的偏转程度。
需要说明的是,上述确定单元702可以按照各种现有的头部姿态估计的方法对二维头部图像进行头部姿态估计。其中,头部姿态估计的方法可以包括但不限于以下方法:基于机器学习模型的方法,基于人脸关键点的坐标变换方法等。
在本实施例中,上述确定单元702可以基于头部图像确定目标声源与目标用户的头部的距离。作为示例,上述确定单元702可以利用现有的确定人脸关键点的方法,确定头部图像中的人脸关键点,以及确定包括所确定的人脸关键点的图像区域的大小。然后,上述确定单元702可以基于预设的、图像区域的大小和距离的对应关系,确定目标声源与目标用户的头部的距离。
需要说明的是,目标声源可以是实际的、输出音频信号的电子设备,通常,输出音频信号的电子设备即为上述包括摄像头的终端设备,也可以是由上述执行主体确定的、处于目标位置的虚拟声源。相应地,目标声源与目标用户的头部的距离可以是按照上述示例确定出的、输出音频信号的电子设备与目标用户的头部之间的距离;或者,目标声源与目标用户的头部的距离可以是对所确定的距离进行计算(例如乘以预设的系数,或加上预设的距离等),得到目标声源(即虚拟声源)与目标用户的头部之间的距离。
在本实施例中,处理单元703将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数(Head Related Transfer Function,HRTF),得到处理后左声道音频信号和处理后右声道音频信号。其中,头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。
具体地,头相关传输函数(也称为双耳传输函数)描述了声波从声源到双耳的传输过程。它是人的生理结构(如头、耳廓以及躯干等)对声波进行综合滤波的结果。因为头相关传输函数包含了有关声源定位的信息,所以它对于双耳听觉和心理声学的研究具有非常重要的意义。在实际应用中,利用耳机或扬声器输出用头相关传输函数处理过的信号,可以模拟出各种不同的空间听觉效果。
通常,HRTF可以包括两部分,分别为左HRTF和右HRTF,上述处理单元703可以将头部姿态角、所确定出的距离和待处理音频信号分别输入左HRTF和右HRTF,左HRTF输出处理后左声道音频信号,右HRTF输出处理后右声道音频信号。实践中,处理后左声道音频信号和处理后右声道音频信号可以具有响度差(Interaural Level Differences,ILD)和双耳时间差(ITD,Interaural Time Difference)。其中,响度又称音量,描述的是声音的响亮程度,表示人耳对声音的主观感受,其计量单位是宋(sone),定义1kHz,声压级为40dB纯音的响度为1宋。双耳时间差指的是声源到达听者两耳的时间差。通过上述各步骤的处理,可以使得处理后左声道音频信号和处理后右声道音频信号之间的响度差和双耳时间差接近真实的场景,有助于模拟出接近真实的音频播放效果。
在本实施例的一些可选的实现方式中,确定单元702可以包括:识别模块(图中未示出),被配置成将头部图像输入预先训练的头部姿态识别模型,得到目标用户的头部姿态角,其中,头部姿态识别模型用于表征头部图像与头部图像所表征的用户的头部姿态角的对应关系。
在本实施例的一些可选的实现方式中,头部姿态识别模型预先按照如下步骤训练得到:获取多个样本头部图像和多个样本头部图像中的样本头部图像对应的样本头部姿态角;利用机器学习方法,将多个样本头部图像中的样本头部图像作为输入,将输入的样本头部图像对应的样本头部姿态角作为期望输出,训练得到头部姿态识别模型。
在本实施例的一些可选的实现方式中,确定单元702可以包括:第一确定模块(图中未示出),被配置成确定头部图像的大小;第二确定模块(图中未示出),被配置成基于预设的、头部图像的大小和距离的对应关系,确定目标声源与目标用户的头部的距离。
在本实施例的一些可选的实现方式中,该装置700还可以包括:第二获取单元(图中未示出),被配置成获取预先确定的、初始左声道音频信号和初始右声道音频信号的响度差作为初始响度差;第一调整单元(图中未示出),被配置成分别调整处理后左声道音频信号和处理后右声道音频信号的响度,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与初始响度差的差值处于第一预设范围内。
在本实施例的一些可选的实现方式中,该装置700还可以包括:第三获取单元(图中未示出),被配置成获取预先确定的、初始左声道音频信号和初始右声道音频信号的双耳时间差作为初始双耳时间差;第二调整单元(图中未示出),被配置成调整处理后左声道音频信号和处理后右声道音频信号的双耳时间差,以使调整双耳时间差后的处理后左声道音频信号和处理后右声道音频信号的双耳时间差与初始双耳时间差的差值处于第二预设范围内。
本公开的上述实施例提供的装置,通过获取目标用户的头部图像和待处理音频信号,然后利用头部图像,确定目标用户的头部姿态角和目标声源与目标用户的头部的距离,最后将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,从而利用头部图像和头相关传输函数调整音频信号,提高了处理音频信号的灵活性,有助于模拟出接近真实的音频播放效果。
下面参考图8,其示出了适于用来实现本公开的实施例的终端设备800的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的终端设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图8所示,终端设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有终端设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许终端设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的终端设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述终端设备中所包含的;也可以是单独存在,而未装配入该终端设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该终端设备执行时,使得该终端设备:获取目标用户的头部图像和待处理音频信号;基于头部图像,确定目标用户的头部姿态角,以及确定目标声源与目标用户的头部的距离;将头部姿态角、距离和待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,其中,头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取目标用户的头部图像和待处理音频信号的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种用于处理音频信号的方法,包括:
获取目标用户的头部图像和待处理音频信号;
基于所述头部图像,确定所述目标用户的头部姿态角,以及确定目标声源与所述目标用户的头部的距离,包括:确定所述头部图像的大小;基于预设的、头部图像的大小和距离的对应关系,确定所述目标声源与所述目标用户的头部的距离;
将所述头部姿态角、所述距离和所述待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,其中,所述头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系。
2.根据权利要求1所述的方法,其中,所述基于所述头部图像,确定所述目标用户的头部姿态角,包括:
将所述头部图像输入预先训练的头部姿态识别模型,得到所述目标用户的头部姿态角,其中,所述头部姿态识别模型用于表征头部图像与头部图像所表征的用户的头部姿态角的对应关系。
3.根据权利要求2所述的方法,其中,所述头部姿态识别模型预先按照如下步骤训练得到:
获取多个样本头部图像和所述多个样本头部图像中的样本头部图像对应的样本头部姿态角;
利用机器学习方法,将所述多个样本头部图像中的样本头部图像作为输入,将输入的样本头部图像对应的样本头部姿态角作为期望输出,训练得到头部姿态识别模型。
4.根据权利要求1-3之一所述的方法,其中,在所述得到处理后左声道音频信号和处理后右声道音频信号之后,所述方法还包括:
获取预先确定的、初始左声道音频信号和初始右声道音频信号的响度差作为初始响度差;
分别调整所述处理后左声道音频信号和所述处理后右声道音频信号的响度,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与所述初始响度差的差值处于第一预设范围内。
5.根据权利要求4所述的方法,其中,所述方法还包括:
获取预先确定的、初始左声道音频信号和初始右声道音频信号的双耳时间差作为初始双耳时间差;
调整所述处理后左声道音频信号和所述处理后右声道音频信号的双耳时间差,以使调整双耳时间差后的处理后左声道音频信号和处理后右声道音频信号的双耳时间差与所述初始双耳时间差的差值处于第二预设范围内。
6.一种用于处理音频信号的装置,包括:
第一获取单元,被配置成获取目标用户的头部图像和待处理音频信号;
确定单元,被配置成基于所述头部图像,确定所述目标用户的头部姿态角,以及确定目标声源与所述目标用户的头部的距离;
处理单元,被配置成将所述头部姿态角、所述距离和所述待处理音频信号输入预设的头相关传输函数,得到处理后左声道音频信号和处理后右声道音频信号,其中,所述头相关传输函数用于表征头部姿态角、距离、待处理音频信号与处理后左声道音频信号和处理后右声道音频信号的对应关系;
其中,所述确定单元包括:
第一确定模块,被配置成确定所述头部图像的大小;
第二确定模块,被配置成基于预设的、头部图像的大小和距离的对应关系,确定所述目标声源与所述目标用户的头部的距离。
7.根据权利要求6所述的装置,其中,所述确定单元包括:
识别模块,被配置成将所述头部图像输入预先训练的头部姿态识别模型,得到所述目标用户的头部姿态角,其中,所述头部姿态识别模型用于表征头部图像与头部图像所表征的用户的头部姿态角的对应关系。
8.根据权利要求7所述的装置,其中,所述头部姿态识别模型预先按照如下步骤训练得到:
获取多个样本头部图像和所述多个样本头部图像中的样本头部图像对应的样本头部姿态角;
利用机器学习方法,将所述多个样本头部图像中的样本头部图像作为输入,将输入的样本头部图像对应的样本头部姿态角作为期望输出,训练得到头部姿态识别模型。
9.根据权利要求6-8之一所述的装置,其中,所述装置还包括:
第二获取单元,被配置成获取预先确定的、初始左声道音频信号和初始右声道音频信号的响度差作为初始响度差;
第一调整单元,被配置成分别调整所述处理后左声道音频信号和所述处理后右声道音频信号的响度,以使调整响度后的处理后左声道音频信号和处理后右声道音频信号的响度差与所述初始响度差的差值处于第一预设范围内。
10.根据权利要求9所述的装置,其中,所述装置还包括:
第三获取单元,被配置成获取预先确定的、初始左声道音频信号和初始右声道音频信号的双耳时间差作为初始双耳时间差;
第二调整单元,被配置成调整所述处理后左声道音频信号和所述处理后右声道音频信号的双耳时间差,以使调整双耳时间差后的处理后左声道音频信号和处理后右声道音频信号的双耳时间差与所述初始双耳时间差的差值处于第二预设范围内。
11.一种终端设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811190415.4A CN111050271B (zh) | 2018-10-12 | 2018-10-12 | 用于处理音频信号的方法和装置 |
GB2100831.3A GB2590256B (en) | 2018-10-12 | 2019-01-24 | Method and device for processing audio signal |
US16/980,119 US11425524B2 (en) | 2018-10-12 | 2019-01-24 | Method and device for processing audio signal |
PCT/CN2019/072948 WO2020073563A1 (zh) | 2018-10-12 | 2019-01-24 | 用于处理音频信号的方法和装置 |
JP2020545268A JP7210602B2 (ja) | 2018-10-12 | 2019-01-24 | オーディオ信号の処理用の方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811190415.4A CN111050271B (zh) | 2018-10-12 | 2018-10-12 | 用于处理音频信号的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111050271A CN111050271A (zh) | 2020-04-21 |
CN111050271B true CN111050271B (zh) | 2021-01-29 |
Family
ID=70164992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811190415.4A Active CN111050271B (zh) | 2018-10-12 | 2018-10-12 | 用于处理音频信号的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11425524B2 (zh) |
JP (1) | JP7210602B2 (zh) |
CN (1) | CN111050271B (zh) |
GB (1) | GB2590256B (zh) |
WO (1) | WO2020073563A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200049020A (ko) * | 2018-10-31 | 2020-05-08 | 삼성전자주식회사 | 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치 |
US20220191638A1 (en) * | 2020-12-16 | 2022-06-16 | Nvidia Corporation | Visually tracked spatial audio |
CN112637755A (zh) * | 2020-12-22 | 2021-04-09 | 广州番禺巨大汽车音响设备有限公司 | 一种基于无线连接的音频播放控制方法、装置及播放*** |
CN113099373B (zh) * | 2021-03-29 | 2022-09-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 声场宽度扩展的方法、装置、终端及存储介质 |
WO2023058466A1 (ja) * | 2021-10-06 | 2023-04-13 | ソニーグループ株式会社 | 情報処理装置およびデータ構造 |
CN114501297B (zh) * | 2022-04-02 | 2022-09-02 | 北京荣耀终端有限公司 | 一种音频处理方法以及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1424685A1 (en) * | 2002-11-28 | 2004-06-02 | Sony International (Europe) GmbH | Method for generating speech data corpus |
CN101938686A (zh) * | 2010-06-24 | 2011-01-05 | 中国科学院声学研究所 | 一种普通环境中头相关传递函数的测量***及测量方法 |
CN105760824A (zh) * | 2016-02-02 | 2016-07-13 | 北京进化者机器人科技有限公司 | 一种运动人体跟踪方法和*** |
JP2016199124A (ja) * | 2015-04-09 | 2016-12-01 | 之彦 須崎 | 音場制御装置及び適用方法 |
EP3136713A1 (en) * | 2014-04-22 | 2017-03-01 | Sony Corporation | Information reproduction device, information reproduction method, information recording device, and information recording method |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ896000A0 (en) | 2000-07-24 | 2000-08-17 | Seeing Machines Pty Ltd | Facial image processing system |
US20030007648A1 (en) * | 2001-04-27 | 2003-01-09 | Christopher Currell | Virtual audio system and techniques |
WO2011135283A2 (en) * | 2010-04-26 | 2011-11-03 | Cambridge Mechatronics Limited | Loudspeakers with position tracking |
KR101227932B1 (ko) | 2011-01-14 | 2013-01-30 | 전자부품연구원 | 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법 |
JP2014131140A (ja) | 2012-12-28 | 2014-07-10 | Yamaha Corp | 通信システム、avレシーバ、および通信アダプタ装置 |
CN104010265A (zh) * | 2013-02-22 | 2014-08-27 | 杜比实验室特许公司 | 音频空间渲染设备及方法 |
JP6147603B2 (ja) | 2013-07-31 | 2017-06-14 | Kddi株式会社 | 音声伝達装置、音声伝達方法 |
CN104392241B (zh) * | 2014-11-05 | 2017-10-17 | 电子科技大学 | 一种基于混合回归的头部姿态估计方法 |
EP3402223B1 (en) | 2016-01-08 | 2020-10-07 | Sony Corporation | Audio processing device and method, and program |
WO2017120767A1 (zh) * | 2016-01-12 | 2017-07-20 | 深圳多哚新技术有限责任公司 | 一种头部姿态预测方法和装置 |
US9591427B1 (en) * | 2016-02-20 | 2017-03-07 | Philip Scott Lyren | Capturing audio impulse responses of a person with a smartphone |
CN107168518B (zh) * | 2017-04-05 | 2020-06-23 | 北京小鸟看看科技有限公司 | 一种用于头戴显示器的同步方法、装置及头戴显示器 |
CN107182011B (zh) | 2017-07-21 | 2024-04-05 | 深圳市泰衡诺科技有限公司上海分公司 | 音频播放方法及***、移动终端、WiFi耳机 |
CN108038474B (zh) * | 2017-12-28 | 2020-04-14 | 深圳励飞科技有限公司 | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 |
WO2019246044A1 (en) * | 2018-06-18 | 2019-12-26 | Magic Leap, Inc. | Head-mounted display systems with power saving functionality |
-
2018
- 2018-10-12 CN CN201811190415.4A patent/CN111050271B/zh active Active
-
2019
- 2019-01-24 JP JP2020545268A patent/JP7210602B2/ja active Active
- 2019-01-24 US US16/980,119 patent/US11425524B2/en active Active
- 2019-01-24 GB GB2100831.3A patent/GB2590256B/en active Active
- 2019-01-24 WO PCT/CN2019/072948 patent/WO2020073563A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1424685A1 (en) * | 2002-11-28 | 2004-06-02 | Sony International (Europe) GmbH | Method for generating speech data corpus |
CN101938686A (zh) * | 2010-06-24 | 2011-01-05 | 中国科学院声学研究所 | 一种普通环境中头相关传递函数的测量***及测量方法 |
EP3136713A1 (en) * | 2014-04-22 | 2017-03-01 | Sony Corporation | Information reproduction device, information reproduction method, information recording device, and information recording method |
JP2016199124A (ja) * | 2015-04-09 | 2016-12-01 | 之彦 須崎 | 音場制御装置及び適用方法 |
CN105760824A (zh) * | 2016-02-02 | 2016-07-13 | 北京进化者机器人科技有限公司 | 一种运动人体跟踪方法和*** |
Non-Patent Citations (2)
Title |
---|
Comparison of spherical harmonics based 3D-HRTF functional models;R. A. Kennedy, W. Zhang and T. D. Abhayapala;《2013, 7th International Conference on Signal Processing and Communication Systems (ICSPCS)》;20140127;第1-7页 * |
基于声源定位的头部姿态检测***研究与实现;康雁,宁国琛;《东北大学学报(自然科学版)》;20180123;第26-30,49页 * |
Also Published As
Publication number | Publication date |
---|---|
GB202100831D0 (en) | 2021-03-10 |
WO2020073563A1 (zh) | 2020-04-16 |
CN111050271A (zh) | 2020-04-21 |
US11425524B2 (en) | 2022-08-23 |
JP2021535632A (ja) | 2021-12-16 |
US20210029486A1 (en) | 2021-01-28 |
JP7210602B2 (ja) | 2023-01-23 |
GB2590256A (en) | 2021-06-23 |
GB2590256B (en) | 2023-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111050271B (zh) | 用于处理音频信号的方法和装置 | |
EP3440538B1 (en) | Spatialized audio output based on predicted position data | |
US10126823B2 (en) | In-vehicle gesture interactive spatial audio system | |
WO2019128629A1 (zh) | 音频信号的处理方法、装置、终端及存储介质 | |
GB2543276A (en) | Distributed audio capture and mixing | |
JP7473676B2 (ja) | オーディオ処理方法、装置、可読媒体及び電子機器 | |
CN107105384B (zh) | 一种中垂面上近场虚拟声像的合成方法 | |
US20240205634A1 (en) | Audio signal playing method and apparatus, and electronic device | |
CN109754464A (zh) | 用于生成信息的方法和装置 | |
CN114038486A (zh) | 音频数据处理方法、装置、电子设备及计算机存储介质 | |
WO2020155908A1 (zh) | 用于生成信息的方法和装置 | |
CN114339582B (zh) | 双通道音频处理、方向感滤波器生成方法、装置以及介质 | |
CN112133319A (zh) | 音频生成的方法、装置、设备及存储介质 | |
US10390167B2 (en) | Ear shape analysis device and ear shape analysis method | |
CN112927718B (zh) | 感知周围环境的方法、装置、终端和存储介质 | |
CN111246345B (zh) | 一种远程声场实时虚拟重现的方法与装置 | |
US11172319B2 (en) | System and method for volumetric sound generation | |
Tashev | Audio challenges in virtual and augmented reality devices | |
CN114630240B (zh) | 方向滤波器的生成方法、音频处理方法、装置及存储介质 | |
CN115623156B (zh) | 音频处理方法和相关装置 | |
US11792581B2 (en) | Using Bluetooth / wireless hearing aids for personalized HRTF creation | |
CN118135090A (zh) | 网格对齐方法、装置和电子设备 | |
CN116825128A (zh) | 音频处理方法及装置、计算机可读存储介质及电子设备 | |
WO2024044113A2 (en) | Rendering audio captured with multiple devices | |
CN117793611A (zh) | 生成立体声的方法、播放立体声的方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230105 Address after: Room 1445A, No. 55 Xili Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 200120 Patentee after: Honey Grapefruit Network Technology (Shanghai) Co.,Ltd. Address before: 100080 408, 4th floor, 51 Zhichun Road, Haidian District, Beijing Patentee before: BEIJING MICROLIVE VISION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |