CN108476072A - 用于声音识别的众包数据库 - Google Patents

用于声音识别的众包数据库 Download PDF

Info

Publication number
CN108476072A
CN108476072A CN201680077120.9A CN201680077120A CN108476072A CN 108476072 A CN108476072 A CN 108476072A CN 201680077120 A CN201680077120 A CN 201680077120A CN 108476072 A CN108476072 A CN 108476072A
Authority
CN
China
Prior art keywords
audio
sound
computing device
group
sound type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680077120.9A
Other languages
English (en)
Other versions
CN108476072B (zh
Inventor
D.J.巴茨
B.斯泰西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Crown Audio Inc
Original Assignee
Crown Audio Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crown Audio Inc filed Critical Crown Audio Inc
Publication of CN108476072A publication Critical patent/CN108476072A/zh
Application granted granted Critical
Publication of CN108476072B publication Critical patent/CN108476072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B15/00Suppression or limitation of noise or interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1008Earpieces of the supra-aural or circum-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/41Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/552Binaural
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/554Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明的一个实施方案陈述一种用于确定与声音类型相关联的一组声音参数的技术。所述技术包括经由网络并且从第一多个远程计算装置中的每一者接收第一声音类型的音频记录和与所述第一声音类型相关联的描述符。所述技术进一步包括经由处理器处理所述音频记录以确定与所述第一声音类型相关联的第一组声音参数。所述技术进一步包括从至少一个远程计算装置接收与所述描述符相关联的请求,并且作为响应,将与所述第一声音类型相关联的所述第一组声音参数传输到所述至少一个远程计算装置。

Description

用于声音识别的众包数据库
相关申请的交叉参考
本申请要求2015年12月31日提交的美国专利申请序列号14/986,523的权益,所述美国专利申请特此以引用的方式并入本文中。
发明领域
各种实施方案大体上涉及音频信号处理,并且更具体地说,涉及一种用于声音识别的众包数据库。
背景技术
消费型电子器件行业中的最近技术进步已经增大了诸如计算机、移动电话和MP3播放器等各种类型的媒体播放器的可携带性和可购性。因而,越来越多的消费者正将这些类型的装置融入其日常生活中。例如,人们可使用计算机来在工作时听音乐或者使用移动电话来在上下班途中听音乐或看视频节目。
为了避免干扰他人,许多用户使用收听装置(诸如一对耳机)听媒体播放器。然而,使用耳机可减小用户听到周围环境中的声音或与用户周围的人们交流的能力。此外,许多耳机提供被设计为减小用户能够听到环境声音的程度的噪声隔离和/或噪声消除功能。因而,用户可能不能够听到周围环境中的重要声音,诸如车辆噪声、汽笛声或正尝试引起用户注意的某人的话音。
由于这些问题,已经开发出各种用于检测周围环境中的声音并且响应于检测到声音而经由一对耳机或计算装置执行特定动作的技术。例如,一些技术使得周围环境内的声音能够选择性地由耳机阻断(例如,经由噪声消除)或传递到用户,这取决于用户所选择的偏好。另外,一些技术使得音频重放能够在检测到周围环境中的特定声音后即刻暂停。
虽然实施此类技术的***能够以可接受的准确度检测周围环境内的一般声音,但这些***通常对于检测特定类型的声音不太有效。例如,虽然常规***可被预编程为辨识一般交通噪声,但所述***可能无法准确地识别用户所遇到的特定车辆的声音特性。另外,此类***无法合理地被预编程为检测用户可能遇到的所有潜在声音类型。例如,正在建筑工地上工作的用户可能希望阻断由特定类型和品牌的电动工具所产生的噪声。然而,常规***无法合理地被预编程为识别用户能够遇到的所有可能类型的电动工具。
如前文说明,用于使得用户能够在操作收听装置(诸如一对耳机)时与其周围事物交互的更有效技术将为有用的。
发明内容
本公开的实施方案陈述一种用于确定与声音类型相关联的一组声音参数的方法。所述方法包括经由网络并且从第一多个远程计算装置中的每一者接收第一声音类型的音频记录和与所述第一声音类型相关联的描述符。所述方法进一步包括经由处理器处理所述音频记录以确定与所述第一声音类型相关联的第一组声音参数。所述方法进一步包括从至少一个远程计算装置接收与所述描述符相关联的请求,并且作为响应,将与所述第一声音类型相关联的第一组声音参数传输到所述至少一个远程计算装置。
除了别的之外,另外的实施方案还提供一种被配置为实施上文陈述的方法的***和非暂时性计算机可读介质。
有利地,所公开的技术使得特定声音类型的音频记录能够被众包以生成大数据集,从而使得能够更准确地确定一组声音参数以识别所述特定声音类型。因此,计算装置的用户能够检索若干组声音参数以识别不被预编程到计算装置中并且原本无法在没有引发显著硬件和处理成本的情况下生成的特定声音类型。
附图说明
为了能够详细理解上文所陈述的一个或多个实施方案的叙述特征,可参考某些特定实施方案进行上文简要概述的一个或多个实施方案的更具体描述,其中一些特定实施方案在附图中示出。然而,应注意,附图仅示出典型实施方案并且因此不应被视为以任何方式限制其范围,因为各种实施方案的范围还将其它实施方案纳入在内。
图1示出根据各种实施方案的用于基于一组声音参数来识别声音类型的收听装置;
图2示出根据各种实施方案的可结合图1的收听装置来实施的计算装置;
图3A示出根据各种实施方案的用于经由网络从多个计算装置众包音频记录的技术;
图3B示出存储在图3A的数据库内的音频记录群组;以及
图4是根据各种实施方案的用于确定与声音类型相关联的一组声音参数的方法步骤的流程图。
具体实施方式
在以下描述中,陈述许多特定细节以提供对本公开的实施方案的更透彻理解。然而,本领域的技术人员将明白,可在没有这些特定细节中的一者或多者的情况下实践本公开的实施方案。
***综述
图1示出根据各种实施方案的用于基于一组声音参数来识别声音类型的收听装置100。收听装置100可包括但不限于一个或多个麦克风110和一个或多个扬声器115。
麦克风110被配置为从周围环境获取声音并且将与所述声音相关联的信号传输到计算装置以用于处理。因而,麦克风110可位于收听装置100的远离用户向外面向的一部分中。另选地,麦克风110可在物理上与收听装置100分开,并且经由有线连接或无线连接耦接到收听装置100。
扬声器115被配置为基于由计算装置生成的信号和/或传输到扬声器115的其它信号来产生声音。举例来说,并且不作限制,扬声器115可被配置为产生由麦克风110获取、由计算装置处理并且传输到扬声器115的环境声音。在一些实施方案中,扬声器115可被配置用于高保真声音再现。在其它实施方案中,为了减小扬声器115的大小和/或成本,扬声器115可被配置用于较不准确的声音再现。举例来说,并且不作限制,扬声器115可被配置为仅产生正常人类听觉范围内的频率子集。
在各种实施方案中,收听装置100可包括一对耳机,诸如图1所示的耳罩式耳机。然而,任何类型的有线或无线耳机,包括罩耳式耳机、压耳式耳机和入耳式耳机,可用于执行本文所述的技术。另外,收听装置100可包括噪声隔离特性和/或噪声消除功能。在其它实施方案中,收听装置100可为能够为用户放大并再现声音的任何声学装置,包括辅助医疗装置(诸如助听器)或移动通信装置(诸如头戴式耳机)。
图2示出根据各种实施方案的可结合图1的收听装置100来实施的计算装置200。如图所示,计算装置200包括处理器202、输入/输出(I/O)装置204以及存储器210。存储器210包括被配置为与数据库214交互的声音识别应用程序212。
处理器202可为被配置为处理数据并且执行程序代码的任何技术可行形式的处理装置。处理器202可为例如但不限于中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等等。
存储器210可包括存储器模块或存储器模块集合。存储器210内的声音识别应用程序212由处理器202执行以实施计算装置200的全部功能性,并且因此,作为一个整体协调收听装置100的操作。举例来说,并且不作限制,经由麦克风110获取的音频样本可由声音识别应用程序212处理以生成传输到扬声器115的处理信号。声音识别应用程序212所执行的处理可包括例如但不限于滤波、模式辨识、放大、衰减和/或其它类型的听觉增强。
在各种实施方案中,声音识别应用程序212可被配置为阻断或准许麦克风110所获取的某些声音。举例来说,并且不作限制,声音识别应用程序212可分析从麦克风110接收的信号以确定麦克风110所获取的一个或多个声音是否大致匹配一组声音参数。所述一组声音参数可包括例如但不限于一个或多个频率范围、响度值、签名和/或使得声音识别应用程序212能够识别麦克风110所获取的特定声音的其它特性。
在一些实施方案中,所述一组声音参数存储在与收听装置100相关联的存储器210中。存储器210可包括一个或多个数据库214。在此类实施方案中,如果从麦克风110接收的一个或多个信号大致匹配数据库214中所存储的一组声音参数,则声音识别应用程序212可处理所述信号以阻断、传递或增强所述信号与之相关联的声音。另外,在一些实施方案中,如果从麦克风110接收的一个或多个信号匹配一组声音参数,则声音识别应用程序212可经由计算装置200触发动作,诸如暂停介质重放或为用户生成警报。
可例如但不限于经由有源噪声消除、无源噪声隔离且/或仅仅通过不经由扬声器115向用户再现声音来阻断声音。可通过将信号传输到扬声器115以致使由扬声器115产生声音来准许声音。声音可由扬声器115以麦克风110获取所述声音所在的大致相同听觉特性(例如,响度、音高、节奏、频率范围等)产生。也就是说,可经由处理器202将声音从麦克风110传递到扬声器115。另外,声音识别应用程序212可通过增强声音(诸如通过修改声音的一个或多个听觉特性)并且为用户产生声音来准许声音。举例来说,并且不作限制,声音识别应用程序212可增大声音的响度(例如,相对于麦克风110获取声音所在的响度)并且将信号传输到扬声器115以致使扬声器115以增大的响度值产生声音。
声音识别应用程序212可通过分析从麦克风110接收的信号并且生成一个或多个消除信号来执行噪声消除。消除信号接着被传输到扬声器115并且产生以便消除周围环境中的一个或多个声音。举例来说,并且不作限制,声音识别应用程序212可确定从麦克风110接收的信号大致匹配阻断声音数据库中所包括的一组声音参数。作为响应,声音识别应用程序212可生成一个或多个消除信号(例如,反相信号)并且将消除信号传输到扬声器115。扬声器115可接着产生所述消除信号以便阻断周围环境中的一个或多个声音。
I/O装置204可包括输入装置、输出装置以及能够接收输入并且提供输出的装置。举例来说,并且不作限制,I/O装置204可包括有线和/或无线通信装置,其向收听装置100中所包括的麦克风110和/或扬声器115发送数据且/或从其接收数据。
一般来说,计算装置200被配置为协调收听装置100的全部操作。在其它实施方案中,计算装置200可耦接到收听装置100的其它部件但与其分开。在此类实施方案中,收听装置100可包括接收从周围环境获取的音频样本并且将数据(例如,音频记录)传输到计算装置200的单独处理器,所述单独处理器可包括在单独装置(诸如个人计算机、可穿戴装置、智能电话、便携式媒体播放器等)中。然而,本文所公开的实施方案预期被配置为实施收听装置100的功能性的任何技术可行***。
用于声音识别的众包数据库
如上文论述,已经开发出各种用于检测周围环境中的声音并且响应于检测到声音而执行特定动作的技术。然而,常规***通常能够仅检测一般类型的声音(例如,一般交通噪声)并且通常对于准确地检测并隔离特定类型的声音(例如,特定车辆牌子和型号所产生的噪声)无效。另外,虽然存在用于“教示”***辨识特定类型的声音的各种技术,但记录周围环境中的那种特定类型的声音较为困难,因为所述声音经常被麦克风所记录的较响噪声遮蔽。
为了改进声音辨识算法,可经由多个麦克风记录声音。接着,使用源分离算法,可移除环境噪声以提取所关注的声音。然而,源分离算法通常需要使用比周围环境中的噪声源的数目大的数目的麦克风记录声音。明确地说,如果周围环境中的噪声源的数目超过用于记录所述声音的麦克风的数目,则源分离算法所产生的结果可为含糊的。
遗憾的是,在许多真实世界应用中,周围环境中的噪声源的数目大大超过用于记录特定声音的麦克风的数目(例如,归因于空间、处理和/或成本约束)。在此类情况下,源分离算法必须实施特定针对于麦克风记录中所存在的噪声源的模型。因为构造此类模型需要预先知道所有噪声源,所以此类技术太复杂而不能由消费型装置(诸如移动电话、耳机、媒体播放器等)的典型用户实施。因而,归于常规技术的这些复杂性和硬件要求,大多数用户不能够教示***有效地辨识周围环境内的特定类型的声音。
因此,在各种实施方案中,为了更有效地训练源分离算法,从多个用户众包特定声音类型的大音频记录数据集。接着处理数据集中的音频记录以构建可用于将所述声音类型与音频记录中的每一者中所包括的噪声隔离的一个或多个模型。接着确定与所述声音类型相关联的一组声音参数并且将其传输到用户装置,从而使得用户装置能够准确地检测所述声音类型。有利地,增大用于特定声音类型的数据集中所包括的音频记录的数目使得能够更精确地确定与所述声音类型相关联的所述一组声音参数,从而导致更准确地在周围环境内识别所述声音类型。下文中结合图3A、3B和4进一步详细描述用于众包声音类型的音频记录以生成大数据集并且从其生成一组声音参数的各种技术。
图3A示出根据各种实施方案的用于经由网络301从多个计算装置200众包音频记录的技术。如图所示,多个计算装置200(诸如图2所示的计算装置200)获取特定声音类型的音频记录并且将所述音频记录传输到服务器装置300。众包应用程序312接着接收所述音频记录,将所述音频记录存储在数据库314中,并且处理所述音频记录以确定与所述声音类型相关联的一组声音参数。接着将与特定声音类型相关联的所述一组声音参数从服务器装置300传输到一个或多个远程装置(例如,计算装置200)以使得每个远程装置中的声音识别应用程序212能够识别所述声音类型。
处理器302可为被配置为处理数据并且执行程序代码的任何技术可行形式的处理装置。存储器310可包括存储器模块或存储器模块集合。存储器310内的众包应用程序312由处理器302执行以实施服务器装置300的全部功能性。在一些实施方案中,为了满足与存储大音频记录数据集相关联的存储器要求,可经由云存储服务实施存储器310和/或数据库314。
I/O装置304可包括输入装置、输出装置以及能够接收输入并且提供输出的装置。举例来说,并且不作限制,I/O装置304可包括有线和/或无线通信装置,其经由网络301向计算装置200发送数据且/或从其接收数据。
在一些实施方案中,每个计算装置200结合每个音频记录传输描述符,其中所述描述符指示所述音频记录中所包括的声音类型。接着,在接收到每个音频记录后,众包应用程序312即刻基于所述描述符来对所述音频记录进行分类。举例来说,并且不作限制,众包应用程序312可基于与每个音频记录一起接收的描述符来对所述音频记录分组,如图3B所示,图3B示出与第一描述符(例如,描述符A)相关联的第一音频记录群组315-1和与第二描述符(例如,描述符B)相关联的第二音频记录群组315-2。众包应用程序312可接着单独地处理每个音频记录群组315以确定与每个声音类型相关联的一组声音参数。举例来说,并且不作限制,众包应用程序312可确定与特定品牌和型号的家用电器的声音或特定牌子和型号的车辆的声音相关联的一组声音参数。可接着例如但不限于响应于来自计算装置200的对与声音类型相关联的一组声音参数的请求而将与特定声音类型相关联的所述一组声音参数传输到一个或多个计算装置200。可存储在数据库314中的声音类型的其它示例包括但不限于特定人员的话音、特定动物所产生的声音、特定类型的电器所产生的声音和特定类型的喇叭声或汽笛声。
在一些实施方案中,每个声音类型可进一步与车辆、电器、人员、动物等的特定功能或动作相关联。举例来说,并且不作限制,参考图3B所示的第一音频记录群组315-1,声音类型可为特定品牌和型号的洗衣机的脱水周期功能。另选地,声音类型可为所述品牌和型号的洗衣机的漂洗周期功能或洗涤周期功能。在另一个非限制性示例中,参考图3B所示的第二音频记录群组315-2,声音类型可为特定牌子和型号的车辆的加速功能。另选地,声音类型可为所述牌子和型号的车辆的发动机空转功能或喇叭功能。在另外其它示例中,声音类型可为特定人员的打喷嚏动作或特定狗的狗叫动作。因此,每个描述符可向众包应用程序312提供对音频记录的详细描述,从而使得众包应用程序312能够精确地对音频记录分组并且因此更准确地确定与每个声音类型相关联的一组声音参数。
在各种实施方案中,众包应用程序312通过将所述记录中的每一者中所包括的声音类型与所述记录中所包括的噪声分开来处理特定群组315中所包括的音频记录。众包应用程序312接着基于所处理的音频记录来确定与所述声音类型相关联的一组声音参数(例如,一个或多个频率范围、响度值、数字签名等)。举例来说,并且不作限制,众包应用程序312可通过向音频记录应用一个或多个源分离算法(诸如独立分量分析(ICA))来处理所述音频记录。另外,为了跨广泛范围的音频记录和/或声音类型应用源分离算法,众包应用程序312可通过训练一个或多个监督式人工智能(例如,机器学习)模型来处理音频记录。
举例来说,并且不作限制,众包应用程序312可对音频记录执行时频域分析以在时域或频域中分开不重叠的声音类型。另外,使用监督式机器学习方法的统计域ICA分析可应用于非高斯数据集,其迭代地通过成本函数使多元函数最小化(例如,梯度下降)。这种特定方法将使得众包应用程序312能够训练源分离算法来提取所需声音类型并且确定能够接着用于收听装置100实时识别声音类型的一组声音参数。举例来说,并且不作限制,在收听装置100上执行的声音识别应用程序212可结合源分离算法实施与所述声音类型相关联的所述一组声音参数以识别所述声音类型在周围环境中的出现。
为了确定准确地表示特定声音类型的一组声音参数,众包应用程序312可处理包括所述声音类型的二十条或更多条不同音频记录。另外,对于相对于所述记录中的每一者中的环境噪声较少相异的声音类型,众包应用程序312可接收并处理一百条以上不同众包音频记录以确定准确地表示所述声音类型的一组声音参数。然而,一般来说,众包应用程序312可接收并处理任何数目的音频记录以确定与特定声音类型相关联的一组声音参数。
一旦众包应用程序312已经确定与特定声音类型相关联的一组声音参数,众包应用程序312便将所述一组声音参数存储在数据库314中。接着,在从计算装置200接收到对与所述声音类型相关联的一组声音参数的请求后,众包应用程序312即刻经由网络301将所述一组声音参数传输到计算装置200。另外,在从一个或多个计算装置200的用户接收到额外音频记录后,众包应用程序312可处理所述额外音频记录以更新所述一组声音参数。
在一些实施方案中,用户可通过将声音类型输入到与计算装置200相关联的图形用户界面(GUI)(诸如智能电话GUI)中并且将请求传输到众包应用程序312来从服务器装置300下载与特定声音类型相关联的一组声音参数。例如,计算装置200的用户可查询数据库314以查找特定声音类型,并且如果众包应用程序312已经确定用于所述声音类型的一组声音参数,则可经由网络301将所述一组声音参数传输到用户的计算装置200。另外,如果声音类型尚未存储在数据库314中或者用户想要改进与所述声音类型相关联的所述一组声音参数的准确度,则用户可经由麦克风110生成所述声音类型的音频记录并且将所述音频记录传输到众包应用程序312。因此,用户可经由网络301访问大声音类型数据库,本地存储(例如,在数据库214中)与所请求的声音类型相关联的若干组声音参数,并且促进生成与新声音类型相关联的若干组声音参数。
图4是根据各种实施方案的用于确定与声音类型相关联的一组声音参数的方法步骤的流程图。虽然结合图1至3B的***来描述方法步骤,但本领域的技术人员将理解,被配置为以任何次序执行所述方法步骤的任何***属于各种实施方案的范围内。
如图所示,方法400在步骤410处开始,在该处众包应用程序312经由网络301从多个计算装置200接收与特定声音类型相关联的音频记录。如上所述,不同计算装置200的用户可在不同时间处生成特定类型的声音的单独记录并且将所述记录传输到众包应用程序312。在步骤420处,一旦已经接收到充足数目的音频记录并且将其存储在数据库314中,众包应用程序312便处理所述音频记录以将所述声音类型与所述音频记录中的每一者中所包括的噪声分开。接着,在步骤430处,众包应用程序312确定与已经处理的音频记录相关联的一组声音参数。
接下来,在步骤440处,众包应用程序312确定是否已经从计算装置200接收到对与所述声音类型相关联的所述一组声音参数的请求。如果已经接收到请求,则所述方法400前进到步骤450,在该处众包应用程序312将所述一组声音参数传输到所述计算装置200。在接收到所述一组声音参数后,计算装置200中所包括的声音识别应用程序212可实施所述一组声音参数以在环境噪声中识别所述声音类型并且任选地基于识别到所述声音类型来执行一个或多个动作。另一方面,如果众包应用程序312尚未接收到对所述一组声音参数的请求,则所述方法400前进到步骤460。
在步骤460处,众包应用程序312确定是否已经从一个或多个计算装置200接收到所述声音类型的一个或多个额外音频记录。如果已经接收到一个或多个额外音频记录,则所述方法400返回到步骤420,在该处众包应用程序312处理所述额外音频记录以将所述声音类型与所述额外音频记录中所包括的噪声分开。在步骤430处,众包应用程序312可接着基于所述额外音频记录来确定一组更新的声音参数。如果尚未接收到额外音频记录,则方法400返回到步骤440,在该处众包应用程序312确定是否已经从计算装置200接收到对所述一组声音参数的请求。
虽然结合单个声音类型来描述图4的方法400,但本文所述的技术可与任何数目的声音类型一起以并行或串行方式实施。另外,虽然已经结合单个众包应用程序312来描述所述技术,但在任何数目的服务器装置300上执行的任何数目的众包应用程序312可用于实施所述技术。
总而言之,由多个远程计算装置获取特定声音类型的音频记录并且将其传输到服务器装置。在服务器装置上执行的众包应用程序接着处理所述音频记录以确定与所述声音类型相关联的一组声音参数。接下来,众包应用程序响应于来自远程计算装置的请求而传输所述一组声音参数,从而使得远程计算装置能够在周围环境中识别所述声音类型。
本文所述的技术的一个优点是可众包特定声音类型的音频记录以生成大数据集,从而使得能够更准确地针对那个特定声音类型确定一组声音参数。因此,计算装置的用户能够检索若干组声音参数以识别未被预编程到计算装置中的特定声音类型,所述特定声音类型原本无法在没有引发显著硬件和处理成本的情况下生成。
已经出于说明的目的呈现了对各种实施方案的描述,但其不希望为详尽的或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变型对于本领域的普通技术人员而言将是显而易见的。
本发明实施方案的各方面可被体现为***、方法或计算机程序产品。因此,本公开的各方面可采用完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施方案的形式,其全部可通常在本文中称为“电路”、“模块”或“***”。此外,本公开的各方面可采用在上面体现有计算机可读程序代码的一个或多个计算机可读介质中体现的计算机程序产品的形式。
可利用一个或多个计算机可读介质的任何组合。所述计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可为例如但不限于电子、磁性、光学、电磁、红外或半导体***、设备或装置,或者前述介质的任何合适组合。计算机可读存储介质的较特定示例(非详尽列表)将包括以下各项:具有一个或多个电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、光纤、便携式压缩光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述介质的任何合适组合。在本文件的上下文中,计算机可读存储介质可为能够含有或存储用于由指令执行***、设备或装置使用或者结合其使用的程序的任何有形介质。
上文参考根据本公开的实施方案的方法、设备(***)和计算机程序产品的流程图图示和/或框图来描述本公开的各方面。将理解,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可由计算机程序指令实施。这些计算机程序指令可被提供到通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器,使得经由计算机或其它可编程数据处理设备的处理器执行的指令使得能够实施流程图和/或框图框中所指定的功能/动作。此类处理器可为但不限于通用处理器、专用处理器、应用特定处理器或者现场可编程处理器或门阵列。
附图中的流程图和框图示出根据本公开的各种实施方案的***、方法和计算机程序产品的可能具体实施的架构、功能性和操作。在这一点上,流程图或框图中的每个框可表示包括用于实施指定逻辑功能的一个或多个可执行指令的代码模块、片段或部分。还应注意,在一些另选具体实施中,在框中所提到的功能可不按图中所提到的次序来发生。例如,接连示出的两个框可实际上大致同时执行,或者所述框可有时以相反次序来执行,这取决于所涉及的功能性。还将注意到,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可由执行指定功能或动作的基于专用硬件的***或者专用硬件与计算机指令的组合实施。
尽管前述内容是针对于本公开的实施方案,但可在不脱离本公开的基本范围的情况下构想出本公开的其它和另外实施方案,并且本公开的范围由所附权利要求书确定。

Claims (20)

1.一种非暂时性计算机可读存储介质,其包括在由处理器执行时配置所述处理器以通过执行以下步骤来确定与声音类型相关联的一组声音参数的指令:
经由网络从第一多个远程计算装置中所包括的每个远程计算装置接收第一声音类型的不同音频记录;
经由处理器处理所述音频记录以确定与所述第一声音类型相关联的第一组声音参数;以及
将与所述第一声音类型相关联的所述第一组声音参数传输到至少一个远程计算装置。
2.根据权利要求1所述的非暂时性计算机可读存储介质,其中所述指令进一步配置所述处理器以从所述至少一个远程计算装置接收对所述第一组声音参数的请求,其中所述第一组声音参数配置所述至少一个远程计算装置以在环境声音内识别所述第一声音类型。
3.根据权利要求1所述的非暂时性计算机可读存储介质,其中处理所述音频记录包括将机器学习算法应用于所述第一声音类型的所述音频记录以将所述第一声音类型与所述音频记录中的每一者中所包括的噪声分开。
4.根据权利要求3所述的非暂时性计算机可读存储介质,其中所述机器学习算法包括独立分量分析(ICA)。
5.根据权利要求1所述的非暂时性计算机可读存储介质,其中处理所述第一声音类型的所述音频记录包括使成本函数最小化以训练源分离算法。
6.根据权利要求1所述的非暂时性计算机可读存储介质,其中所述指令进一步配置所述处理器以:
经由所述网络从第二多个远程计算装置中所包括的每个远程计算装置接收第二声音类型的不同音频记录;
经由所述处理器处理所述第二声音类型的音频记录以确定与所述第二声音类型相关联的第二组声音参数;以及
将与所述第二声音类型相关联的所述第二组声音参数传输到至少一个远程计算装置。
7.根据权利要求6所述的非暂时性计算机可读存储介质,其中所述指令进一步配置所述处理器以:
从所述第一多个远程计算装置中所包括的每个远程计算装置接收与所述第一声音类型相关联的第一描述符;
从所述第二多个远程计算装置中所包括的每个远程计算装置接收与所述第二声音类型相关联的第二描述符;
基于所述第一描述符和所述第二描述符来将从所述第一多个远程计算装置和所述第二多个远程计算装置接收的所述音频记录分类为与所述第一声音类型相关联的第一音频记录群组和与所述第二声音类型相关联的第二音频记录群组;
使所述第一组声音参数与所述第一描述符相关联;以及
使所述第二组声音参数与所述第二描述符相关联。
8.根据权利要求7所述的非暂时性计算机可读存储介质,其中所述第一描述符和所述第二描述符中的每一者包括产品品牌和产品型号中的至少一者。
9.根据权利要求1所述的非暂时性计算机可读存储介质,其中所述第一多个远程计算装置中所包括的所述远程计算装置包括移动计算机、无线耳机和媒体播放器中的至少一者。
10.一种用于确定与声音类型相关联的一组声音参数的方法,所述方法包括:
经由网络并且从第一多个远程计算装置中所包括的每个远程计算装置接收第一声音类型的音频记录和与所述第一声音类型相关联的描述符;
经由处理器处理所述音频记录以确定与所述第一声音类型相关联的第一组声音参数;
从至少一个远程计算装置接收与所述描述符相关联的请求;以及
作为响应,将与所述第一声音类型相关联的所述第一组声音参数传输到所述至少一个远程计算装置。
11.根据权利要求10所述的方法,其中所述第一组声音参数配置所述至少一个远程计算装置以在环境声音内识别所述第一声音类型。
12.根据权利要求10所述的方法,其进一步包括:
经由所述网络并且从第二多个远程计算装置中所包括的每个远程计算装置接收第一声音类型的额外音频记录和与所述第一声音类型相关联的所述描述符;以及
经由所述处理器处理所述额外音频记录以确定与所述第一声音类型相关联的一组更新的声音参数。
13.根据权利要求12所述的方法,其进一步包括将与所述第一声音类型相关联的所述一组更新的声音参数传输到所述至少一个远程计算装置。
14.根据权利要求10所述的方法,其中处理所述音频记录包括训练源分离算法以将所述第一声音类型与所述音频记录中的每一者中所包括的噪声分开。
15.根据权利要求10所述的方法,其中所述第一多个远程计算装置包括移动计算机、一对耳机和媒体播放器中的至少一者。
16.根据权利要求16所述的方法,其中所述第一描述符包括车辆型号、电器型号、人员姓名和动物中的至少一者。
17.根据权利要求10所述的方法,其进一步包括在接收所述第一声音类型的所述音频记录之后将所述音频记录存储在云存储装置中,其中响应于接收到与所述描述符相关联的所述请求而将所述第一组声音参数从所述云存储装置传输到所述远程计算装置。
18.根据权利要求10所述的方法,其中接收所述第一声音类型的所述音频记录包括接收至少一百条不同音频记录。
19.一种用于确定与声音类型相关联的一组声音参数的***,所述***包括:
存储器,其存储众包应用程序;以及
处理器,其耦接到所述存储器并且在执行所述众包应用程序时被配置为:
经由网络从第一多个远程计算装置中所包括的每个远程计算装置接收第一声音类型的不同音频记录;
处理所述音频记录以将所述第一声音类型与所述音频记录中的每一者中所包括的噪声分开;
基于已经处理的所述音频记录来确定与所述第一声音类型相关联的第一组声音参数;以及
将与所述第一声音类型相关联的所述第一组声音参数传输到至少一个远程计算装置。
20.根据权利要求19所述的***,其中所述众包应用程序进一步配置所述处理器以将所述第一声音类型的所述音频记录和所述第一组声音参数存储在云存储装置中,并且其中将所述第一组声音参数从所述云存储装置传输到所述至少一个远程计算装置。
CN201680077120.9A 2015-12-31 2016-12-09 用于确定与声音类型相关联的声音参数的方法及*** Active CN108476072B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/986,523 US9830931B2 (en) 2015-12-31 2015-12-31 Crowdsourced database for sound identification
US14/986,523 2015-12-31
PCT/IB2016/057516 WO2017115192A1 (en) 2015-12-31 2016-12-09 Crowdsourced database for sound identification

Publications (2)

Publication Number Publication Date
CN108476072A true CN108476072A (zh) 2018-08-31
CN108476072B CN108476072B (zh) 2021-02-09

Family

ID=57590748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680077120.9A Active CN108476072B (zh) 2015-12-31 2016-12-09 用于确定与声音类型相关联的声音参数的方法及***

Country Status (5)

Country Link
US (1) US9830931B2 (zh)
EP (1) EP3398269A1 (zh)
KR (1) KR102648345B1 (zh)
CN (1) CN108476072B (zh)
WO (1) WO2017115192A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10045110B2 (en) * 2016-07-06 2018-08-07 Bragi GmbH Selective sound field environment processing system and method
US10553238B2 (en) * 2016-11-18 2020-02-04 Microroyalties, LLC Crowdsourced noise monitoring systems and methods
CN107526568A (zh) * 2017-08-18 2017-12-29 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
US11481181B2 (en) 2018-12-03 2022-10-25 At&T Intellectual Property I, L.P. Service for targeted crowd sourced audio for virtual interaction
CN112312280B (zh) * 2019-07-31 2022-03-01 北京地平线机器人技术研发有限公司 一种车内声音播放方法及装置
US11750671B2 (en) * 2021-02-24 2023-09-05 Kyndryl, Inc. Cognitive encapsulation of group meetings

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101740038A (zh) * 2008-11-04 2010-06-16 索尼株式会社 声音处理装置、声音处理方法及程序
CN102750952A (zh) * 2011-04-18 2012-10-24 索尼公司 声音信号处理装置、方法和程序
CN103208284A (zh) * 2012-01-17 2013-07-17 通用汽车环球科技运作有限责任公司 使用声音相关的车辆信息以增强语音识别的方法和***
US20150025664A1 (en) * 2013-07-22 2015-01-22 Dolby Laboratories Licensing Corporation Interactive Audio Content Generation, Delivery, Playback and Sharing
US8965051B2 (en) * 2010-10-18 2015-02-24 Nokia Corporation Method and apparatus for providing hand detection

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US9183845B1 (en) 2012-06-12 2015-11-10 Amazon Technologies, Inc. Adjusting audio signals based on a specific frequency range associated with environmental noise characteristics
US8965005B1 (en) 2012-06-12 2015-02-24 Amazon Technologies, Inc. Transmission of noise compensation information between devices
US10140372B2 (en) * 2012-09-12 2018-11-27 Gracenote, Inc. User profile based on clustering tiered descriptors
US9414964B2 (en) 2014-01-03 2016-08-16 Harman International Industries, Inc. Earplug for selectively providing sound to a user
IN2014CH00466A (zh) * 2014-02-03 2015-08-07 Inmobi Pte Ltd
US9630324B2 (en) * 2014-03-28 2017-04-25 SKUR, Inc. Enhanced system and method for control of robotic devices
US9866954B2 (en) * 2014-07-07 2018-01-09 Adobe Systems Incorporated Performance metric based stopping criteria for iterative algorithms
US20160249132A1 (en) * 2015-02-23 2016-08-25 Invensense, Inc. Sound source localization using sensor fusion

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101740038A (zh) * 2008-11-04 2010-06-16 索尼株式会社 声音处理装置、声音处理方法及程序
US8965051B2 (en) * 2010-10-18 2015-02-24 Nokia Corporation Method and apparatus for providing hand detection
CN102750952A (zh) * 2011-04-18 2012-10-24 索尼公司 声音信号处理装置、方法和程序
CN103208284A (zh) * 2012-01-17 2013-07-17 通用汽车环球科技运作有限责任公司 使用声音相关的车辆信息以增强语音识别的方法和***
US20150025664A1 (en) * 2013-07-22 2015-01-22 Dolby Laboratories Licensing Corporation Interactive Audio Content Generation, Delivery, Playback and Sharing

Also Published As

Publication number Publication date
KR102648345B1 (ko) 2024-03-15
KR20180099721A (ko) 2018-09-05
EP3398269A1 (en) 2018-11-07
CN108476072B (zh) 2021-02-09
US20170194021A1 (en) 2017-07-06
WO2017115192A1 (en) 2017-07-06
US9830931B2 (en) 2017-11-28

Similar Documents

Publication Publication Date Title
CN108476072A (zh) 用于声音识别的众包数据库
US20220159403A1 (en) System and method for assisting selective hearing
US11941968B2 (en) Systems and methods for identifying an acoustic source based on observed sound
CN109196879A (zh) 确定在用户的耳朵处的耳机存在
US10275210B2 (en) Privacy protection in collective feedforward
JP2019191558A (ja) 音声を増幅する方法及び装置
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
US11818523B2 (en) System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures
CN109313249B (zh) 音频增强现实***
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
Kim et al. Acoustic Event Detection in Multichannel Audio Using Gated Recurrent Neural Networks with High‐Resolution Spectral Features
CN110232909A (zh) 一种音频处理方法、装置、设备及可读存储介质
US20230162750A1 (en) Near-field audio source detection for electronic devices
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
Diaconita et al. Do you hear what i hear? using acoustic probing to detect smartphone locations
Veluri et al. Semantic hearing: Programming acoustic scenes with binaural hearables
US11503406B2 (en) Processor, out-of-head localization filter generation method, and program
WO2022074990A1 (ja) 学習データ生成装置、学習データ生成方法、学習装置、学習方法、データ構造、情報処理装置、および、音響処理装置
KR20210056183A (ko) 음성의 선택적 증폭 방법, 컴퓨터 프로그램 및 시스템
Jayaram et al. HRTF Estimation in the Wild
El-Mohandes et al. DeepBSL: 3-D Personalized Deep Binaural Sound Localization on Earable Devices
Zhang et al. Speaker Orientation-Aware Privacy Control to Thwart Misactivation of Voice Assistants
WO2022178852A1 (zh) 一种辅助聆听方法及装置
Piazza et al. Digital Signal Processing for Audio Applications: Then, Now and the Future
Rosenthal et al. Nui for an artificial simulation of an interactive sound source enhancement to restore spatial listening experience

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant