CN114120950B - 一种人声屏蔽方法和电子设备 - Google Patents

一种人声屏蔽方法和电子设备 Download PDF

Info

Publication number
CN114120950B
CN114120950B CN202210097399.4A CN202210097399A CN114120950B CN 114120950 B CN114120950 B CN 114120950B CN 202210097399 A CN202210097399 A CN 202210097399A CN 114120950 B CN114120950 B CN 114120950B
Authority
CN
China
Prior art keywords
target person
sound
target
sound data
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210097399.4A
Other languages
English (en)
Other versions
CN114120950A (zh
Inventor
杨昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202210097399.4A priority Critical patent/CN114120950B/zh
Publication of CN114120950A publication Critical patent/CN114120950A/zh
Application granted granted Critical
Publication of CN114120950B publication Critical patent/CN114120950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17837Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by retaining part of the ambient acoustic environment, e.g. speech or alarm signals that the user needs to hear
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3025Determination of spectrum characteristics, e.g. FFT

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例提供的一种人声屏蔽方法和电子设备的技术方案中,根据采集的多个声音数据,确定当前场景中讲话人与声音数据的对应关系;响应于用户的操作,从当前场景中讲话人中确定目标人和目标人相对用户的初始相对方位信息;从目标人对应的声音数据中提取出目标声谱信息,同时根据初始相对方位信息得到空间差异补偿滤波系数;根据目标声谱信息、空间差异补偿滤波系数屏蔽目标人的声音。本发明实施例能够只屏蔽特定人员的声音,而保留其他人员声音和环境音。

Description

一种人声屏蔽方法和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种人声屏蔽方法和电子设备。
背景技术
目前TWS耳机以及AR/VR相关音频技术蓬勃发展,当用户身处一个多人、多声源的环境场景中时,有时会有只想屏蔽特定人员的声音,而保留其他人员声音和环境音的需求,而传统屏蔽声音信号的技术存在一刀切的问题,无法实现只屏蔽特定人员的声音,而保留其他人员声音和环境音。
发明内容
有鉴于此,本发明实施例提供了一种人声屏蔽方法和电子设备,能够只屏蔽特定人员的声音,而保留其他人员声音和环境音。
第一方面,本发明实施例提供了一种人声屏蔽方法,所述方法包括:
根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系;
响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息;
从所述目标人对应的所述声音数据中提取出目标声谱信息,同时根据所述初始相对方位信息得到空间差异补偿滤波系数;
根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音。
结合第一方面,在第一方面的某些实现方式中,所述从所述目标人对应的所述声音数据中提取出目标声谱信息,包括:
通过对所述目标人对应的所述声音数据进行离散时间傅立叶变换得到离散傅立叶系数;
通过对所述离散傅立叶系数进行语音信号增强处理得到所述目标声谱信息。
结合第一方面,在第一方面的某些实现方式中,所述根据所述初始相对方位信息得到空间差异补偿滤波系数,包括:
获取所述目标人相对所述用户的实时相对方位信息;
根据所述初始相对方位信息和所述实时相对方位信息得到所述目标人相对所述用户的实时方位差异;
从空间线索库中获取与所述实时方位差异对应的所述空间差异补偿滤波系数。
结合第一方面,在第一方面的某些实现方式中,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音,包括:
根据所述目标声谱信息和所述空间差异补偿滤波系数得到待屏蔽信号;
根据所述待屏蔽信号生成与所述待屏蔽信号反相位且幅度相等的屏蔽信号;
通过所述屏蔽信号屏蔽所述待屏蔽信号,以消除所述目标人的声音。
结合第一方面,在第一方面的某些实现方式中,所述根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系,包括:
根据所述多个声音数据,通过说话人分割聚类算法确定当前场景中讲话人与所述声音数据的对应关系。
结合第一方面,在第一方面的某些实现方式中,所述响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息之前,还包括:
从所述声音数据中提取出对应的所述讲话人的声纹特征。
结合第一方面,在第一方面的某些实现方式中,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音之前,还包括:
判断当前接收的声音数据是否包括所述目标人的声纹特征;
若判断出所述当前接收的声音数据包括所述目标人的声纹特征,继续执行所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音的步骤;
若判断出所述当前接收的声音数据不包括所述目标人的声纹特征,继续执行所述判断当前接收的声音数据是否包括所述目标人的声纹特征的步骤。
结合第一方面,在第一方面的某些实现方式中,所述声纹特征包括声谱图、基频轨迹和长时间平均谱。
结合第一方面,在第一方面的某些实现方式中,所述获取所述目标人相对所述用户的实时相对方位信息,包括:
根据双耳幅度差、双耳幅度差和双耳互相关系数得到所述实时相对方位信息。
第二方面,本发明实施例提供了一种电子设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,当所述处理器运行所述程序指令时,使所述电子设备执行以下步骤:
根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系;
响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息;
从所述目标人对应的所述声音数据中提取出目标声谱信息,同时根据所述初始相对方位信息得到空间差异补偿滤波系数;
根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音。
结合第二方面,在第二方面的某些实现方式中,所述从所述目标人对应的所述声音数据中提取出目标声谱信息,包括:
通过对所述目标人对应的所述声音数据进行离散时间傅立叶变换得到离散傅立叶系数;
通过对所述离散傅立叶系数进行语音信号增强处理得到所述目标声谱信息。
结合第二方面,在第二方面的某些实现方式中,所述根据所述初始相对方位信息得到空间差异补偿滤波系数,包括:
获取所述目标人相对所述用户的实时相对方位信息;
根据所述初始相对方位信息和所述实时相对方位信息得到所述目标人相对所述用户的实时方位差异;
从空间线索库中获取与所述实时方位差异对应的所述空间差异补偿滤波系数。
结合第二方面,在第二方面的某些实现方式中,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音,包括:
根据所述目标声谱信息和所述空间差异补偿滤波系数得到待屏蔽信号;
根据所述待屏蔽信号生成与所述待屏蔽信号反相位且幅度相等的屏蔽信号;
通过所述屏蔽信号屏蔽所述待屏蔽信号,以消除所述目标人的声音。
结合第二方面,在第二方面的某些实现方式中,所述根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系,包括:
根据所述多个声音数据,通过说话人分割聚类算法确定出当前场景中讲话人与所述声音数据的对应关系。
结合第二方面,在第二方面的某些实现方式中,所述响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息之前,还包括:
从所述声音数据中提取出对应的所述讲话人的声纹特征。
结合第二方面,在第二方面的某些实现方式中,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音之前,还包括:
判断当前接收的声音数据是否包括所述目标人的声纹特征;
若判断出所述当前接收的声音数据包括所述目标人的声纹特征,继续执行所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音的步骤;
若判断出所述当前接收的声音数据不包括所述目标人的声纹特征,继续执行所述判断当前接收的声音数据是否包括所述目标人的声纹特征的步骤。
结合第二方面,在第二方面的某些实现方式中,所述声纹特征包括声谱图、基频轨迹和长时间平均谱。
结合第二方面,在第二方面的某些实现方式中,所述获取所述目标人相对所述用户的实时相对方位信息,包括:
根据双耳幅度差、双耳幅度差和双耳互相关系数得到所述实时相对方位信息。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述程序请求被计算机运行时使所述计算机执行如上述所述的方法。
本发明实施例提供的人声屏蔽方法和电子设备的技术方案中,根据采集的多个声音数据,确定当前场景中讲话人与声音数据的对应关系;响应于用户的操作,从当前场景中讲话人中确定目标人和目标人相对用户的初始相对方位信息;从目标人对应的声音数据中提取出目标声谱信息,同时根据初始相对方位信息得到空间差异补偿滤波系数;根据目标声谱信息、空间差异补偿滤波系数屏蔽目标人的声音。本发明实施例能够只屏蔽特定人员的声音,而保留其他人员声音和环境音。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施例提供的一种人声屏蔽方法的流程图;
图2为第一界面的示意图;
图3为通过说话人分割聚类算法分隔出不同讲话人的时域语音信息的示意图;
图4为声纹特征的示意图;
图5为图1中从目标人对应的声音数据中提取出目标声谱信息的流程图;
图6为提取目标声谱信息和生成待屏蔽信号的示意图;
图7为本发明实施例提供的一种人声屏蔽方法的总流程图;
图8为图1中获取与目标人对应的空间差异补偿滤波系数的流程图;
图9为空间差异双耳补偿的示意图;
图10为ITD计算的示意图;
图11为生成空间线索库的示意图;
图12为图1中根据目标声谱信息、空间差异补偿滤波系数屏蔽目标人的声音的流程图;
图13为人声屏蔽原理的示意图;
图14为标准Hybrid ANC算法框架的示意图;
图15为本发明一实施例提供的一种电子设备的结构示意图;
图16为本发明又一实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明实施例提供的人声屏蔽方法应用于多人、多声源的环境场景中,用户使用电子设备时,通过电子设备屏蔽特定人员的声音。本发明实施例中,电子设备包括支持主动降噪技术的耳机、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备或者其他类似的小型电子终端。
例如,多人、多声源的环境场景包括一个现场会议,某参会人在讲一些与会议主题无关的话,会对用户和其他人沟通产生影响,或者用户就是单纯的不想在当前场景听到该参会人的声音,但是同时又想和会议中其他人沟通,此时就可以通过电子设备实时在物理声信号中剔除该参会人的声音。
例如:多人、多声源的环境场景包括AR/VR场景,同时有现实环境中存在的人以及通过AR/VR技术融入当前环境中的其他人,当出现由于位置重叠或者其他人耳听觉区分困难的声音同时出现时,可以通过电子设备把相对不关注的人的声音暂时的屏蔽。
在上述多人、多声源的环境场景中采用本发明实施例提供的人声屏蔽方法,能够只屏蔽特定人员的声音,而保留其他人员声音和环境音。
具体的,电子设备通过麦克风采集当前场景所有讲话人的声音数据,根据采集的多个声音数据,确定当前场景中讲话人与声音数据的对应关系。用户从电子设备的第一界面展示的多个讲话人的多个标识中选择出目标人的标识,并且用户面向目标人时,用户点击校准控件。电子设备响应于用户的操作,从当前场景中讲话人中确定目标人和目标人相对用户的初始相对方位信息;从目标人对应的声音数据中提取出目标声谱信息,同时根据初始相对方位信息得到空间差异补偿滤波系数;根据目标声谱信息、空间差异补偿滤波系数得到待屏蔽信号,根据待屏蔽信号生成与待屏蔽信号反相且幅度相等的屏蔽信号,并将屏蔽信号发送至电子设备的听筒,以屏蔽目标人的声音。
图1为本发明一实施例提供的一种人声屏蔽方法的流程图。如图1所示,该方法包括:
步骤102、根据采集的多个声音数据,确定当前场景中讲话人与声音数据的对应关系。
本发明实施例中,各步骤由电子设备执行。电子设备包括支持主动降噪技术的耳机、AR/ VR设备或者其他类似的小型电子终端。
该步骤之前,用户需要在电子设备的第一界面输出当前场景中讲话人的个数,如图2所示,比如当前场景中讲话人为7个(包括用户)时,用户在第一界面中输入8(比实际讲话人个数大1),第一界面中会显示“目标人选择”小窗口,“目标人选择”小窗口中包括A、B、C、D、E、F、G和Other。其中,A、B、C、D、E、F、G表示当前场中的8个讲话人,Other用来规避或者优化多人同时出声的情况。然后,电子设备通过麦克风开始采集当前场景中所有讲话人的声音数据,采集声音数据的过程是连续的,但是当每采集到一个新的讲话人的声音数据时,需要用户点击一下采集进度条右侧的按钮,相应的采集完成度会增加,当采集完所有的7个人的声音数据后,按钮状态置灰并提示“已完成”,如图2所示。
本发明实施例中,步骤102具体包括:根据多个声音数据,通过说话人分割聚类算法确定当前场景中讲话人与声音数据的对应关系。
该步骤中,当前场景中所有讲话人的声音数据均采集完成后,通过说话人分割聚类算法对采集的多个声音数据进行处理,确定出当前场景中讲话人与声音数据的对应关系。如图3所示,说话人分割聚类算法可以分隔出不同讲话人的时域语音信息。
步骤104、从声音数据中提取出对应的讲话人的声纹特征。
该步骤主要是对各个讲话人的声纹特征进行提取。如图4所示,声纹特征包括声谱图(Spectrogram)、基频轨迹(Pitch contour)和长时间平均谱(Long time averagespectrum,Ltas)。需要说明的是,根据实际需要,声纹特征可能还会包括其它的特征。
步骤106、响应于用户的操作,从当前场景中讲话人中确定目标人和目标人相对用户的初始相对方位信息。
其中,用户的操作包括用户从第一界面展示的多个讲话人的多个标识中选择出目标人的标识,并且用户面向目标人时,用户点击校准控件输入的操作。
该步骤中,如图2所示,第一页面还包括“校准”小窗口,“校准”小窗口中包括指南针、校准控件和文字“注:面向目标说话人后,点击‘校准’”。用户从当前场景的讲话人中确定出目标人(即用户想要屏蔽声音的讲话人)后,面向目标人,然后点击校准控件。电子设备接收用户的操作,通过响应于用户的操作,从当前场景中讲话人中确定目标人和目标人相对用户的初始相对方位信息。初始相对方位信息为用户面向目标人时,目标人相对用户的相对方位信息。
步骤108、从目标人对应的声音数据中提取出目标声谱信息,并继续执行步骤112。
本发明实施例中,如图5所示,步骤108包括:
步骤1082、通过对目标人对应的声音数据进行离散时间傅立叶变换得到离散傅立叶系数。
如图6所示,首先对目标人对应的声音数据进行了离散时间傅立叶变换(DTFT)后,得到帧级的离散傅立叶(DFT)系数,DFT系数包括混合谱实部和混合谱虚部。
步骤1084、通过对离散傅立叶系数进行语音信号增强处理得到目标声谱信息,并继续执行步骤112。
本发明实施例中,目标人对应的声音数据中除了目标人语音之外,可能还包含着环境噪声以及其他的一些非线性干扰。因此还要对DFT系数做背景噪声消除、非线性处理等语音信号增强,得到置信度较高的目标声谱信息,目标声谱信息包括目标声谱实部和目标声谱虚部,如图6所示。
传统的透传技术以及语音增强只是无差别的目标语音增强,本发明实施例对期待屏蔽的目标人的语音也有增强效果。
步骤110、根据初始相对方位信息得到空间差异补偿滤波系数,并继续执行步骤114。
图7为本发明实施例提供的一种人声屏蔽方法的总流程图,如图7所示,得到空间差异补偿滤波系数之前,还需要依次得到实时相对方位信息、实时方位差异,然后根据实时方位差异得到空间差异补偿滤波系数。
具体的,如图8所示,步骤110包括:
步骤1102、获取目标人相对用户的实时相对方位信息。
本发明实施例中,由于用户和目标人之间的相对方位信息可能随着时间的变化而变化,因此需获取目标人相对用户的实时相对方位信息。
具体的,根据双耳时间差(ITD)、双耳幅度差(ILD)和双耳互相关系数(IACC)得到实时相对方位信息。
人耳听觉区分空间方位,主要依靠双耳线索和单耳线索。双耳线索和单耳线索分别有所侧重,也相互辅助支撑。双耳线索主要是ITD和ILD,主要影响的是声音在水平面上的方位感知。单耳线索主要是身体、躯干、耳廓及外耳对不同方位过来的信号的反射导致的频谱变化,然后大脑会根据单耳频谱的变化去解码出来听觉在垂直方向上的变化。当然,双耳线索和单耳线索的工作都不是完全独立的,彼此间也有协作的部分,可以通过IACC来简单描述这种“协作”。
如图9所示,本发明实施例通过上述ITD、ILD和IACC来推断出实时相对方位信息,然后与初始相对方位信息计算出实时方位差异。ITD的计算公式如下:
Figure 12982DEST_PATH_IMAGE001
(1)
式(1)中,a一般为常数0.0875m, c为声速,正前方的入射角为0°,ITD也为0。以图 10为例,声源在左前方,若计算出
Figure 258018DEST_PATH_IMAGE002
,则方位变化后
Figure 631231DEST_PATH_IMAGE003
的左、右耳信号为:
Figure 229702DEST_PATH_IMAGE004
(2)
Figure 870506DEST_PATH_IMAGE005
(3)
式(2)和式(3)中,
Figure 20864DEST_PATH_IMAGE006
为调制频率,
Figure 756739DEST_PATH_IMAGE007
为信号频率,m为调制指数。因此,当知道左、右 耳信号的延时信息时,也就可以知道对应的角度变化了多少度。
ILD和方位的关系就更加直接一些,如当ILD(θs)=xdB时,计算左、右耳信号的幅度差,然后反推出对应的方位θs:
Figure 283535DEST_PATH_IMAGE008
(4)
步骤1104、根据初始相对方位信息和实时相对方位信息得到目标人相对用户的实时方位差异。
如图9所示,通过实时空间方位差异模块对实时相对方位信息与初始相对方位信息进行计算得到实时方位差异。
步骤1106、从空间线索库中获取与实时方位差异对应的空间差异补偿滤波系数,并继续执行步骤114。
当计算出实时方位差异后,即可从空间线索库中查得对应的空间差异补偿滤波系数,如表1所示。空间差异补偿滤波系数包括双通道有限长单位冲激响应滤波器(FiniteImpulse Response,FIR)滤波系数后,用于分别对左、右耳两个通道进行滤波补偿。
Figure 280310DEST_PATH_IMAGE009
不同的讲话人的生理信息不同,因此空间线索库中的数据初步可以使用先通过测试Brüel & Kjær公司的头和躯干模拟器(Head and Torso Simulator,HATS)、HEADAcoustics公司的人工头测试***(artificial Head Measurement System,HMS)和GRAS公司的人工头数据(Knowles Electronics Manikin for Acoustic Research,KEMAR),如图11所示,因为这些人工头的标准,是经过对大量真人数据统计优化形成的,因此对上述三家公司人工头测出来的数据取一个平均值,应该可以覆盖大部分人实际情况。由于这些人工头的标准主要是针对欧美人的生物特征,因此还可以针对不同地区的人的统计生物特征差异对平均后的数据进行个性化补偿。最后把测量得到的方位与线索的关系建立为一个空间线索库,使用该空间线索库的时候,只要输入相对方位信息,即可得到对应的实时双耳线索和单耳线索。
步骤112、判断当前接收的声音数据是否包括目标人的声纹特征,若是,执行步骤114;若否,继续执行步骤112。
每个讲话人的时、频特征可以使用一个时、频特征矩阵来表述:
Figure 742516DEST_PATH_IMAGE010
(5)
式(5)中,i包括第i个讲话人,M包括第几个特征, N包括频点数,P包括总帧数,每 个
Figure 326206DEST_PATH_IMAGE011
相当于是各个特征经过特定编码后的时频模型。该时频模型的建立,目的是为了判断 当前声音数据是否是目标人的声音数据。
步骤114、根据目标声谱信息、空间差异补偿滤波系数屏蔽目标人的声音。
本发明实施例中,如图12所示,步骤114包括:
步骤1142、根据目标声谱信息和空间差异补偿滤波系数得到待屏蔽信号。
再结合空间差异补偿滤波后,对由于方位变化导致的感知语谱变化进行补偿。此时生成的信号即是需要消除的目标信号。
步骤1144、根据待屏蔽信号生成与待屏蔽信号反相且幅度相等的屏蔽信号。
由于本发明实施例的最终目的是屏蔽目标人的声音,只要有目标人声音的幅频信息和相频信息即可,因此和传统的主动降噪技术(Active Noise Cancellation,ANC)类似,只需要向电子设备的听筒发送一个与目标人的待屏蔽信号反相位且幅度相等的信号,就可以完成对待屏蔽信号的消除,如图13所示。
步骤1146、通过屏蔽信号屏蔽待屏蔽信号,以消除目标人的声音。
通过上个步骤得到要在电子设备的听筒处产生什么样的反相信号(即屏蔽信号),从而对目标人的声音实现屏蔽效果。该步骤中,采用和传统ANC类似的算法框架,不同的是把传统ANC里的噪声(Noise)替换成了目标人的待屏蔽信号。具体的算法如图14所示,由于本发明实施例的目的是消除目标人的待屏蔽信号x(n),因此算法的输入变成了目标人的待屏蔽信号的谱信息,待屏蔽信号经过初级通路P(z)(初级通路表示目标人的声音从目标人传输到用户鼓膜处的声学全链路)后的语音d(n),与算法预估出来的反相的屏蔽信号y’(n)叠加,从而实现目标人声消除。上图中,e(n)为算法迭代的残差信号,S(z)为次级通路(即电子设备的扬声器到鼓膜处的声学路径近似,在算法实际工程实现中,指扬声器到反馈Mic的传递函数),S ̂(z)为自适应滤波器估计出来的次级通路响应。至此,本发明实施例完成对目标人声音的消除。
本发明实施例提供的人声屏蔽方法的技术方案中,根据采集的多个声音数据,确定当前场景中讲话人与声音数据的对应关系;响应于用户的操作,从当前场景中讲话人中确定目标人和目标人相对用户的初始相对方位信息;从目标人对应的声音数据中提取出目标声谱信息,同时根据初始相对方位信息得到空间差异补偿滤波系数;根据目标声谱信息、空间差异补偿滤波系数屏蔽目标人的声音。本发明实施例能够只屏蔽特定人员的声音,而保留其他人员声音和环境音。
图15是本发明一实施例提供的一种电子设备的结构示意图,应理解,电子设备200能够执行上述人声屏蔽方法中的各个步骤,为了避免重复,此处不再详述。电子设备200包括:处理单元201和接收单元202。
处理单元201用于根据采集的多个声音数据,确定当前场景中讲话人与声音数据的对应关系。具体的,处理单元201用于根据多个声音数据,通过说话人分割聚类算法确定当前场景中讲话人与声音数据的对应关系。
处理单元201还用于从声音数据中提取出对应的讲话人的声纹特征。声纹特征包括声谱图、基频轨迹和长时间平均谱。
接收单元202用于接收用户的操作。
其中,用户的操作包括用户从第一界面展示的多个讲话人的多个标识中选择出目标人的标识,并且用户面向目标人时,用户点击校准控件输入的操作。
处理单元201还用于响应于用户的操作,从当前场景中讲话人中确定目标人和目标人相对用户的初始相对方位信息。
处理单元201还用于从目标人对应的声音数据中提取出目标声谱信息,并继续执行判断当前接收的声音数据是否包括目标人的声纹特征的操作。具体的,处理单元201用于通过对目标人对应的声音数据进行离散时间傅立叶变换得到离散傅立叶系数,通过对离散傅立叶系数进行语音信号增强处理得到目标声谱信息,并继续执行判断当前接收的声音数据是否包括目标人的声纹特征的操作。
处理单元201还用于根据初始相对方位信息得到空间差异补偿滤波系数,并继续执行判断当前接收的声音数据是否包括目标人的声纹特征的操作。具体的,处理单元201用于获取目标人相对用户的实时相对方位信息,根据初始相对方位信息和实时相对方位信息得到目标人相对用户的实时方位差异,从空间线索库中获取与实时方位差异对应的空间差异补偿滤波系数,并继续执行判断当前接收的声音数据是否包括目标人的声纹特征的操作。具体的,处理单元201用于根据双耳幅度差、双耳幅度差和双耳互相关系数得到实时相对方位信息。
处理单元201还用于判断当前接收的声音数据是否包括目标人的声纹特征。
处理单元201还用于若处理单元201判断出当前接收的声音数据不包括目标人的声纹特征,继续执行判断当前接收的声音数据是否包括目标人的声纹特征。
处理单元201还用于若处理单元201判断出当前接收的声音数据包括目标人的声纹特征,根据目标声谱信息、空间差异补偿滤波系数屏蔽目标人的声音。具体的,处理单元201用于根据目标声谱信息和空间差异补偿滤波系数得到待屏蔽信号,根据待屏蔽信号生成与待屏蔽信号反相位且幅度相等的屏蔽信号,通过屏蔽信号屏蔽待屏蔽信号,以消除目标人的声音。
应理解,这里的电子设备200以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(applicationspecific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本发明的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请实施例提供一种电子设备,该电子设备可以是终端设备也可以是内置于所述终端设备的电路设备。该电子设备可以用于执行上述方法实施例中的功能/步骤。
图16为本发明又一实施例提供的一种电子设备300的结构示意图。电子设备300可以包括处理器310,外部存储器接口320,内部存储器321,通用串行总线(universal serialbus,USB)接口330,充电管理模块340,电源管理模块341,电池342,天线1,天线2,移动通信模块350,无线通信模块360,音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,传感器模块380,按键390,马达391,指示器392,摄像头393,显示屏394,以及用户标识模块(subscriber identification module,SIM)卡接口395等。其中传感器模块380可以包括压力传感器380A,陀螺仪传感器380B,气压传感器380C,磁传感器380D,加速度传感器380E,距离传感器380F,接近光传感器380G,指纹传感器380H,温度传感器380J,触摸传感器380K,环境光传感器380L,骨传导传感器380M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备300的具体限定。在本申请另一些实施例中,电子设备300可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器310可以包括一个或多个处理单元,例如:处理器310可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器310中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器310中的存储器为高速缓冲存储器。该存储器可以保存处理器310刚用过或循环使用的指令或数据。如果处理器310需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器310的等待时间,因而提高了***的效率。
在一些实施例中,处理器310可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器310可以包含多组I2C总线。处理器310可以通过不同的I2C总线接口分别耦合触摸传感器380K,充电器,闪光灯,摄像头393等。例如:处理器310可以通过I2C接口耦合触摸传感器380K,使处理器310与触摸传感器380K通过I2C总线接口通信,实现电子设备300的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器310可以包含多组I2S总线。处理器310可以通过I2S总线与音频模块370耦合,实现处理器310与音频模块370之间的通信。在一些实施例中,音频模块370可以通过I2S接口向无线通信模块360传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块370与无线通信模块360可以通过PCM总线接口耦合。在一些实施例中,音频模块370也可以通过PCM接口向无线通信模块360传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器310与无线通信模块360。例如:处理器310通过UART接口与无线通信模块360中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块370可以通过UART接口向无线通信模块360传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器310与显示屏394,摄像头393等***器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器310和摄像头393通过CSI接口通信,实现电子设备300的拍摄功能。处理器310和显示屏394通过DSI接口通信,实现电子设备300的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器310与摄像头393,显示屏394,无线通信模块360,音频模块370,传感器模块380等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口330是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口330可以用于连接充电器为电子设备300充电,也可以用于电子设备300与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备300的结构限定。在本申请另一些实施例中,电子设备300也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块340用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块340可以通过USB接口330接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块340可以通过电子设备300的无线充电线圈接收无线充电输入。充电管理模块340为电池342充电的同时,还可以通过电源管理模块341为电子设备供电。
电源管理模块341用于连接电池342,充电管理模块340与处理器310。电源管理模块341接收电池342和/或充电管理模块340的输入,为处理器310,内部存储器321,显示屏394,摄像头393,和无线通信模块360等供电。电源管理模块341还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块341也可以设置于处理器310中。在另一些实施例中,电源管理模块341和充电管理模块340也可以设置于同一个器件中。
电子设备300的无线通信功能可以通过天线1,天线2,移动通信模块350,无线通信模块360,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备300中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块350可以提供应用在电子设备300上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块350可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块350可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块350还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块350的至少部分功能模块可以被设置于处理器310中。在一些实施例中,移动通信模块350的至少部分功能模块可以与处理器310的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器370A,受话器370B等)输出声音信号,或通过显示屏394显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器310,与移动通信模块350或其他功能模块设置在同一个器件中。
无线通信模块360可以提供应用在电子设备300上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块360可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块360经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器310。无线通信模块360还可以从处理器310接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备300的天线1和移动通信模块350耦合,天线2和无线通信模块360耦合,使得电子设备300可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC ,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system ,GPS),全球导航卫星***(global navigation satellite system,GLONASS),北斗卫星导航***(beidounavigation satellite system,BDS),准天顶卫星***(quasi-zenith satellitesystem,QZSS)和/或星基增强***(satellite based augmentation systems,SBAS)。
电子设备300通过GPU,显示屏394,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏394和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器310可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏394用于显示图像,视频等。显示屏394包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备300可以包括1个或N个显示屏394,N为大于1的正整数。
电子设备300可以通过ISP,摄像头393,视频编解码器,GPU,显示屏394以及应用处理器等实现拍摄功能。
ISP 用于处理摄像头393反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头393中。
摄像头393用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备300可以包括1个或N个摄像头393,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备300在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备300可以支持一种或多种视频编解码器。这样,电子设备300可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network ,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备300的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口320可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备300的存储能力。外部存储卡通过外部存储器接口320与处理器310通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器321可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器321可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备300使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器321可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器310通过运行存储在内部存储器321的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备300的各种功能应用以及数据处理。
电子设备300可以通过音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块370用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块370还可以用于对音频信号编码和解码。在一些实施例中,音频模块370可以设置于处理器310中,或将音频模块370的部分功能模块设置于处理器310中。
扬声器370A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备300可以通过扬声器370A收听音乐,或收听免提通话。
受话器370B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备300接听电话或语音信息时,可以通过将受话器370B靠近人耳接听语音。
麦克风370C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风370C发声,将声音信号输入到麦克风370C。电子设备300可以设置至少一个麦克风370C。在另一些实施例中,电子设备300可以设置两个麦克风370C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备300还可以设置三个,四个或更多麦克风370C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口370D用于连接有线耳机。耳机接口370D可以是USB接口330,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器380A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器380A可以设置于显示屏394。压力传感器380A。
的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器380A,电极之间的电容改变。电子设备300根据电容的变化确定压力的强度。当有触摸操作作用于显示屏394,电子设备300根据压力传感器380A检测所述触摸操作强度。电子设备300也可以根据压力传感器380A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器380B可以用于确定电子设备300的运动姿态。在一些实施例中,可以通过陀螺仪传感器380B确定电子设备300围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器380B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器380B检测电子设备300抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备300的抖动,实现防抖。陀螺仪传感器380B还可以用于导航,体感游戏场景。
气压传感器380C用于测量气压。在一些实施例中,电子设备300通过气压传感器380C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器380D包括霍尔传感器。电子设备300可以利用磁传感器380D检测翻盖皮套的开合。在一些实施例中,当电子设备300是翻盖机时,电子设备300可以根据磁传感器380D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器380E可检测电子设备300在各个方向上(一般为三轴)加速度的大小。当电子设备300静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器380F,用于测量距离。电子设备300可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备300可以利用距离传感器380F测距以实现快速对焦。
接近光传感器380G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备300通过发光二极管向外发射红外光。电子设备300使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备300附近有物体。当检测到不充分的反射光时,电子设备300可以确定电子设备300附近没有物体。电子设备300可以利用接近光传感器380G检测用户手持电子设备300贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器380G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器380L用于感知环境光亮度。电子设备300可以根据感知的环境光亮度自适应调节显示屏394亮度。环境光传感器380L也可用于拍照时自动调节白平衡。环境光传感器380L还可以与接近光传感器380G配合,检测电子设备300是否在口袋里,以防误触。
指纹传感器380H用于采集指纹。电子设备300可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器380J用于检测温度。在一些实施例中,电子设备300利用温度传感器380J检测的温度,执行温度处理策略。例如,当温度传感器380J上报的温度超过阈值,电子设备300执行降低位于温度传感器380J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备300对电池342加热,以避免低温导致电子设备300异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备300对电池342的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器380K,也称“触控器件”。触摸传感器380K可以设置于显示屏394,由触摸传感器380K与显示屏394组成触摸屏,也称“触控屏”。触摸传感器380K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏394提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器380K也可以设置于电子设备300的表面,与显示屏394所处的位置不同。
骨传导传感器380M可以获取振动信号。在一些实施例中,骨传导传感器380M可以获取人体声部振动骨块的振动信号。骨传导传感器380M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器380M也可以设置于耳机中,结合成骨传导耳机。音频模块370可以基于所述骨传导传感器380M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器380M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键390包括开机键,音量键等。按键390可以是机械按键。也可以是触摸式按键。电子设备300可以接收按键输入,产生与电子设备300的用户设置以及功能控制有关的键信号输入。
马达391可以产生振动提示。马达391可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,人声屏蔽等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏394不同区域的触摸操作,马达391也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器392可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口395用于连接SIM卡。SIM卡可以通过***SIM卡接口395,或从SIM卡接口395拔出,实现和电子设备300的接触和分离。电子设备300可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口395可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口395可以同时***多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口395也可以兼容不同类型的SIM卡。SIM卡接口395也可以兼容外部存储卡。电子设备300通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备300采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备300中,不能和电子设备300分离。
本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令在终端设备上运行时,使得终端设备执行如上述方法实施例中的功能/步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机或任一至少一种处理器上运行时,使得计算机执行如上述方法实施例中的功能/步骤。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a, b, c, a-b,a-c, b-c,或a-b-c,其中a, b, c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种人声屏蔽方法,其特征在于,所述方法包括:
根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系;
响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息;
从所述目标人对应的所述声音数据中提取出目标声谱信息,同时根据所述初始相对方位信息得到空间差异补偿滤波系数;
根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音;
所述根据所述初始相对方位信息得到空间差异补偿滤波系数,包括:
获取所述目标人相对所述用户的实时相对方位信息;
根据所述初始相对方位信息和所述实时相对方位信息得到所述目标人相对所述用户的实时方位差异;
从空间线索库中获取与所述实时方位差异对应的所述空间差异补偿滤波系数。
2.根据权利要求1所述的方法,其特征在于,所述从所述目标人对应的所述声音数据中提取出目标声谱信息,包括:
通过对所述目标人对应的所述声音数据进行离散时间傅立叶变换得到离散傅立叶系数;
通过对所述离散傅立叶系数进行语音信号增强处理得到所述目标声谱信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音,包括:
根据所述目标声谱信息和所述空间差异补偿滤波系数得到待屏蔽信号;
根据所述待屏蔽信号生成与所述待屏蔽信号反相位且幅度相等的屏蔽信号;
通过所述屏蔽信号屏蔽所述待屏蔽信号,以消除所述目标人的声音。
4.根据权利要求1所述的方法,其特征在于,所述根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系,包括:
根据所述多个声音数据,通过说话人分割聚类算法确定当前场景中讲话人与所述声音数据的对应关系。
5.根据权利要求1所述的方法,其特征在于,所述响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息之前,还包括:
从所述声音数据中提取出对应的所述讲话人的声纹特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音之前,还包括:
判断当前接收的声音数据是否包括所述目标人的声纹特征;
若判断出所述当前接收的声音数据包括所述目标人的声纹特征,继续执行所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音的步骤;
若判断出所述当前接收的声音数据不包括所述目标人的声纹特征,继续执行所述判断当前接收的声音数据是否包括所述目标人的声纹特征的步骤。
7.根据权利要求6所述的方法,其特征在于,所述声纹特征包括声谱图、基频轨迹和长时间平均谱。
8.根据权利要求1所述的方法,其特征在于,所述获取所述目标人相对所述用户的实时相对方位信息,包括:
根据双耳幅度差、双耳幅度差和双耳互相关系数得到所述实时相对方位信息。
9.一种电子设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,当所述处理器运行所述程序指令时,使所述电子设备执行以下步骤:
根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系;
响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息;
从所述目标人对应的所述声音数据中提取出目标声谱信息,同时根据所述初始相对方位信息得到空间差异补偿滤波系数;
根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音;
所述根据所述初始相对方位信息得到空间差异补偿滤波系数,包括:
获取所述目标人相对所述用户的实时相对方位信息;
根据所述初始相对方位信息和所述实时相对方位信息得到所述目标人相对所述用户的实时方位差异;
从空间线索库中获取与所述实时方位差异对应的所述空间差异补偿滤波系数。
10.根据权利要求9所述的电子设备,其特征在于,所述从所述目标人对应的所述声音数据中提取出目标声谱信息,包括:
通过对所述目标人对应的所述声音数据进行离散时间傅立叶变换得到离散傅立叶系数;
通过对所述离散傅立叶系数进行语音信号增强处理得到所述目标声谱信息。
11.根据权利要求9所述的电子设备,其特征在于,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音,包括:
根据所述目标声谱信息和所述空间差异补偿滤波系数得到待屏蔽信号;
根据所述待屏蔽信号生成与所述待屏蔽信号反相位且幅度相等的屏蔽信号;
通过所述屏蔽信号屏蔽所述待屏蔽信号,以消除所述目标人的声音。
12.根据权利要求9所述的电子设备,其特征在于,所述根据采集的多个声音数据,确定当前场景中讲话人与所述声音数据的对应关系,包括:
根据所述多个声音数据,通过说话人分割聚类算法确定当前场景中讲话人与所述声音数据的对应关系。
13.根据权利要求9所述的电子设备,其特征在于,所述响应于用户的操作,从所述当前场景中讲话人中确定目标人和所述目标人相对所述用户的初始相对方位信息之前,还包括:
从所述声音数据中提取出对应的所述讲话人的声纹特征。
14.根据权利要求13所述的电子设备,其特征在于,所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音之前,还包括:
判断当前接收的声音数据是否包括所述目标人的声纹特征;
若判断出所述当前接收的声音数据包括所述目标人的声纹特征,继续执行所述根据所述目标声谱信息、所述空间差异补偿滤波系数屏蔽所述目标人的声音的步骤;
若判断出所述当前接收的声音数据不包括所述目标人的声纹特征,继续执行所述判断当前接收的声音数据是否包括所述目标人的声纹特征的步骤。
15.根据权利要求14所述的电子设备,其特征在于,所述声纹特征包括声谱图、基频轨迹和长时间平均谱。
16.根据权利要求9所述的电子设备,其特征在于,所述获取所述目标人相对所述用户的实时相对方位信息,包括:
根据双耳幅度差、双耳幅度差和双耳互相关系数得到所述实时相对方位信息。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述程序请求被计算机运行时使所述计算机执行如权利要求1-8任一项所述的方法。
CN202210097399.4A 2022-01-27 2022-01-27 一种人声屏蔽方法和电子设备 Active CN114120950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210097399.4A CN114120950B (zh) 2022-01-27 2022-01-27 一种人声屏蔽方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210097399.4A CN114120950B (zh) 2022-01-27 2022-01-27 一种人声屏蔽方法和电子设备

Publications (2)

Publication Number Publication Date
CN114120950A CN114120950A (zh) 2022-03-01
CN114120950B true CN114120950B (zh) 2022-06-10

Family

ID=80361843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210097399.4A Active CN114120950B (zh) 2022-01-27 2022-01-27 一种人声屏蔽方法和电子设备

Country Status (1)

Country Link
CN (1) CN114120950B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668892B (zh) * 2022-11-14 2024-04-12 荣耀终端有限公司 音频信号的处理方法、电子设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682810A (zh) * 2007-05-16 2010-03-24 雅马哈株式会社 一种视频会议装置
CN102568468A (zh) * 2010-10-20 2012-07-11 雅马哈株式会社 驻波衰减装置
CN104508738A (zh) * 2012-07-24 2015-04-08 皇家飞利浦有限公司 方向性声音掩蔽
CN105933558A (zh) * 2016-04-25 2016-09-07 四川联友电讯技术有限公司 一种电话会议高噪声与会人员的智能屏蔽及解除方法
CN107154256A (zh) * 2017-06-27 2017-09-12 山东省计算中心(国家超级计算济南中心) 基于声源定位的声掩蔽***及自适应调整方法
CN108806711A (zh) * 2018-08-07 2018-11-13 吴思 一种提取方法及装置
CN110517677A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 语音处理***、方法、设备、语音识别***及存储介质
CN113707183A (zh) * 2021-09-02 2021-11-26 北京奇艺世纪科技有限公司 一种视频中的音频处理方法及装置
CN113825076A (zh) * 2020-06-18 2021-12-21 西万拓私人有限公司 用于包括听力装置的听力***的与方向相关抑制噪声的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682810A (zh) * 2007-05-16 2010-03-24 雅马哈株式会社 一种视频会议装置
CN102568468A (zh) * 2010-10-20 2012-07-11 雅马哈株式会社 驻波衰减装置
CN104508738A (zh) * 2012-07-24 2015-04-08 皇家飞利浦有限公司 方向性声音掩蔽
CN105933558A (zh) * 2016-04-25 2016-09-07 四川联友电讯技术有限公司 一种电话会议高噪声与会人员的智能屏蔽及解除方法
CN107154256A (zh) * 2017-06-27 2017-09-12 山东省计算中心(国家超级计算济南中心) 基于声源定位的声掩蔽***及自适应调整方法
CN108806711A (zh) * 2018-08-07 2018-11-13 吴思 一种提取方法及装置
CN110517677A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 语音处理***、方法、设备、语音识别***及存储介质
CN113825076A (zh) * 2020-06-18 2021-12-21 西万拓私人有限公司 用于包括听力装置的听力***的与方向相关抑制噪声的方法
CN113707183A (zh) * 2021-09-02 2021-11-26 北京奇艺世纪科技有限公司 一种视频中的音频处理方法及装置

Also Published As

Publication number Publication date
CN114120950A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN113496708B (zh) 拾音方法、装置和电子设备
CN110458902B (zh) 3d光照估计方法及电子设备
CN113393856B (zh) 拾音方法、装置和电子设备
CN114727212B (zh) 音频的处理方法及电子设备
CN114157945B (zh) 一种数据处理方法及相关装置
CN114422340A (zh) 日志上报方法、电子设备及存储介质
CN114257920B (zh) 一种音频播放方法、***和电子设备
CN114339429A (zh) 音视频播放控制方法、电子设备和存储介质
WO2022206825A1 (zh) 一种调节音量的方法、***及电子设备
CN114120950B (zh) 一种人声屏蔽方法和电子设备
CN112188094B (zh) 图像处理方法及装置、计算机可读介质及终端设备
CN113518189B (zh) 拍摄方法、***、电子设备及存储介质
CN115514844A (zh) 一种音量调节的方法,电子设备和***
CN113225661A (zh) 扬声器识别方法、装置和电子设备
CN113129916B (zh) 一种音频采集方法、***及相关装置
CN109285563B (zh) 在线翻译过程中的语音数据处理方法及装置
CN115412678A (zh) 曝光处理方法、装置及电子设备
CN114449393B (zh) 一种声音增强方法、耳机控制方法、装置及耳机
CN114390406B (zh) 一种控制扬声器振膜位移的方法及装置
CN115706755A (zh) 回声消除方法、电子设备及存储介质
CN115393676A (zh) 手势控制优化方法、装置、终端和存储介质
CN113923351A (zh) 多路视频拍摄的退出方法、设备、存储介质和程序产品
CN113963712A (zh) 滤除回声的方法、电子设备和计算机可读存储介质
CN113436635A (zh) 分布式麦克风阵列的自校准方法、装置和电子设备
CN111245551A (zh) 信号处理方法、信号处理装置、移动终端与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220601

Address after: 100080 floors 2-14, building 3, yard 5, honeysuckle Road, Haidian District, Beijing

Applicant after: Beijing Honor Device Co.,Ltd.

Address before: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040

Applicant before: Honor Device Co.,Ltd.