CN116324984A - 用于生成音频信号的元数据的***和方法 - Google Patents

用于生成音频信号的元数据的***和方法 Download PDF

Info

Publication number
CN116324984A
CN116324984A CN202180067206.4A CN202180067206A CN116324984A CN 116324984 A CN116324984 A CN 116324984A CN 202180067206 A CN202180067206 A CN 202180067206A CN 116324984 A CN116324984 A CN 116324984A
Authority
CN
China
Prior art keywords
audio
neural network
attributes
processing system
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180067206.4A
Other languages
English (en)
Inventor
N·莫里茨
G·维切恩
堀贵明
J·勒鲁克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN116324984A publication Critical patent/CN116324984A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4184Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by fault tolerance, reliability of production system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/37Measurements
    • G05B2219/37337Noise, acoustic emission, sound

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种音频处理***。该音频处理***包括输入接口,其被配置为接受音频信号。此外,该音频处理***包括存储器,其被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,属性的类型包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性。此外,该音频处理***包括处理器,其被配置为利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性。

Description

用于生成音频信号的元数据的***和方法
技术领域
本公开总体上涉及音频处理,更具体地,涉及一种用于使用神经网络生成音频信号的元数据的***。
背景技术
语音(speech)识别***已进展到人可依靠语音与计算装置交互的地步。这些***采用基于所接收的音频输入的各种参数来识别用户所说的词语的技术。语音识别与自然语言理解处理技术组合实现了计算装置的基于语音的用户控制,以基于用户的口头命令执行任务。语音识别和自然语言理解处理技术的组合通常被称为语音处理。语音处理还可将用户的语音转换为文本数据,文本数据然后可被提供给各种基于文本的软件应用。与语音关联的音频数据向代表该语音的文本的转换被称为自动语音识别(ASR)。
此外,声学事件检测(AED)技术可用于检测某些声音事件,例如常规住户声音(关门、水槽流水等)、语音声音(但不是语音转写)、机械声音或其它声音事件以及对应定时信息,使得各个声音事件与活动开始时间和结束时间关联。例如,在汽车维修车间中,AED可被配置为从音频输入检测钻头的声音以及钻头声音的对应开始时间和结束时间。另外,音频标记(AT)技术可用于检测声音事件的存在(例如,标识标签为“钻头”的事件)而不管定时,使得不检测开始时间和结束时间。另外地或另选地,AT可包括音频加字幕,其中生成描述声学场景的自然语言语句。例如,在汽车维修车间中,可生成诸如“一个人一边说话一边操作钻头”的音频字幕。
然而,音频标记(AT)、声学事件检测(AED)和自动语音识别(ASR)被当作单独的问题。另外,任务特定神经网络架构用于执行ASR、AED和AT任务中的每一个。一些方法使用基于注意力的编码器-解码器神经网络架构,其中编码器提取声学线索,注意力机制充当中继,解码器执行感知、检测和识别音频事件。然而,对于事件分类,编码器-解码器神经网络架构的使用被限于非基于注意力的递归神经网络(RNN)解决方案,其中编码器将声学信号压缩为单个嵌入向量,解码器检测以这种向量表示编码的音频事件。
因此,需要一种用于统一ASR、AED和AT的***和方法。
发明内容
一些实施方式的目的是通过针对不同的转写任务联合训练神经网络在对音频场景的音频信号执行不同的转写任务时实现协同。另选地,一些实施方式的目的是提供一种***,其被配置为使用神经网络来执行诸如自动语音识别(ASR)、声学事件检测(AED)和音频标记(AT)的不同转写任务以生成音频信号的元数据。元数据包括音频信号中的多个并发音频事件的不同类型的属性。根据一些实施方式,神经网络包括变换器模型和基于联结时间分类(CTC)的模型,并且可被训练以对音频信号执行ASR、AED和AT转写任务。另外,一些实施方式的目的是针对ASR和AED任务与基于CTC的模型联合地训练变换器模型。另外地或另选地,一些实施方式的目的是针对AT任务使用基于注意力的变换器模型。
一些实施方式旨在分析音频场景以识别(例如,检测并分类)形成音频场景的音频事件。音频事件的检测和分类包括确定音频场景的音频信号承载的音频事件的不同类型的属性。音频信号可承载多个音频事件。音频事件的示例包括:语音事件,包括用户所说的词语;非语音事件,包括各种感叹以及非人声声音,例如常规住户声音(关门、水槽流水等)、工业加工声音或其它声音。此外,音频场景可包括同时(即,时间上交叠)或依次(即,时间上不交叠)发生的不同类型的音频事件。
音频事件的不同类型的属性定义形成音频场景的音频事件的元数据。换言之,元数据包括音频信号中的音频事件的属性。例如,在汽车维修车间中,音频场景可包括钻头声音,并且钻头声音的属性可以是标识标签“钻头”。另外地或另选地,汽车维修车间中的音频场景可包括对人声(voice)启用诊断工具的人声命令。因此,同一音频场景还可包括语音事件,并且对应属性可以是将语音事件标识为人声命令、人声命令的转写和/或说话者的标识。另外地或另选地,汽车维修车间中的音频场景可包括修理工和客户之间的对话,并且对话的属性可以是对话(即,非命令人声话语)的转写。另外地或另选地,音频事件的属性可以是描述场景的自然语言语句,例如“修理工在使用钻头之前与顾客交谈”。
因此,音频事件的属性可为时间相关的(例如,自动语音识别或声学事件检测)和/或时间不可知的(例如,用于标识声学场景的音频标记(“汽车维修车间”)、音频场景的音频字幕或声学场景中的其它声音事件(例如,钻头声音、说话者或任何其它语音/非语音声音))。因此,音频信号可承载包括语音事件和非语音事件的多个音频事件。时间相关属性包括语音的转写、语音的翻译和音频事件的检测之一或组合及其时间位置。时间不可知属性包括音频事件的标签或字幕。另外,属性可具有多个复杂度级别,使得音频事件可被不同地标记。例如,发动机声音可被粗略标记为发动机或机械噪声,或者以更详细的方式标记为汽车发动机、公共汽车发动机、大型发动机、小型发动机、柴油发动机、电动发动机、加速发动机、怠速发动机、爆震发动机等,其中多个标签/属性可同时有效。同样,语音事件可被标记为语音/无语音、女性/男性人声、说话者ID、唱歌、尖叫、喊叫、愤怒、快乐、悲伤等。另外地或另选地,自动语音识别(ASR)转写可被视为语音事件的属性。
一些实施方式基于这样的认识:音频场景的复杂度会消除诸如自动语音识别(ASR)、声学事件检测(AED)和音频标记(AT)的不同转写任务之间的边界。ASR是人工智能和语言学领域,涉及将与语音关联的音频数据变换为代表该语音的文本。AED涉及检测包括语音和非语音声音的音频事件,例如常规住户声音、汽车维修车间中的声音或存在于音频场景中的其它声音。另外,AED涉及检测这些音频事件的时间位置。此外,AT为音频事件提供标签标记,其中在音频信号中仅检测音频事件的存在。一些实施方式基于这样的认识:ASR、AED和AT任务可分别使用任务特定神经网络来执行。一些实施方式基于这样的认识:这些任务特定神经网络可被组合以统一ASR、AED和AT以在执行ASR、AED和AT时实现协同。
然而,在这种方法中,存在各个转写任务中的训练数据稀疏问题,因为这些任务特定神经网络无法利用其它任务的声音事件可能具有相似的声音事件特性的事实。一些实施方式基于这样的认识:将转写任务视为音频事件的不同类型的属性的估计允许设计单个机制,其旨在对音频场景的音频信号执行转写任务,而不管音频场景的复杂度如何。
一些实施方式基于这样的认识:单个神经网络可被联合训练以执行一个或更多个转写任务。换言之,通过针对ASR、AED和AT联合训练神经网络(NN),可在对音频信号执行ASR、AED和AT时实现协同。根据实施方式,神经网络包括变换器模型和基于联结时间分类(CTC)的模型,其中基于CTC的模型与变换器模型共享至少一些模型参数。这种神经网络可用于联合地执行ASR、AED和AT,即,神经网络可同时转写语音,识别发生在音频场景中的音频事件,并且为音频场景生成音频字幕。为此,可利用神经网络处理音频信号以确定音频事件的不同类型的属性,以生成音频信号的元数据。另外,使用这种神经网络(或实现协同)消除了各个转写任务中的训练数据稀疏问题,另外提供了更准确的结果。此外,实现协同允许生成定制的音频输出,即,允许从音频信号生成期望的声学信息。
根据实施方式,神经网络的模型共享至少一些参数以用于确定语音事件和非语音音频事件的时间相关属性和时间不可知属性。神经网络的模型包括编码器和解码器。在实施方式中,为确定不同类型的属性而共享的参数是编码器的参数。在替代实施方式中,为确定不同类型的属性而共享的参数是解码器的参数。在针对转写任务联合训练神经网络的同时,一些参数(例如,神经网络的权重)被重用于执行转写任务。重用神经网络的一些参数对神经网络的这种联合训练需要较少的训练数据来训练各个转写任务,允许使用弱标记的训练数据,并且在各个任务中即使利用少量的训练数据也产生准确的结果。
一些实施方式基于这样的认识:神经网络可被配置为选择性地执行ASR、AED和AT转写任务中的一个或更多个,以输出音频事件的期望属性。根据实施方式,变换器模型的输出取决于变换器模型的解码器的初始状态。换言之,解码器的初始状态决定解码器是否将根据ASR、AT或AED任务输出。为此,一些实施方式基于这样的认识:解码器的初始状态可基于要执行以生成期望属性的期望任务而变化。
一些实施方式基于这样的认识:基于具有编码器-解码器架构的变换器模型的神经网络可用于执行AED和AT任务。基于编码器-解码器架构的神经网络提供决定性优势。例如,在AED和AT任务中,编码器-解码器架构的解码器直接输出符号(即,标签)。因此,利用编码器-解码器架构消除了在推理期间为各个类别设定检测阈值的繁琐过程,AED和AT***常常使用该过程。另外,基于编码器-解码器架构的神经网络不需要标签的单调排序,因此可容易地利用弱标记的音频记录(没有以时间或顺序信息注释)来训练神经网络。然而,AED和ASR任务需要音频信号的时间信息。一些实施方式基于这样的认识:变换器模型可利用基于联结时间分类(CTC)的模型增强,其中在两个模型之间共享一些神经网络参数,以利用音频信号的时间信息。此外,具有变换器模型和基于CTC的模型的神经网络强制执行单调排序并学习时间对准。为此,具有变换器模型输出和基于CTC的模型输出的神经网络可用于联合执行ASR、AED和AT转写任务以用于生成音频信号的元数据。
根据实施方式,神经网络的模型包括变换器模型和基于CTC的模型。变换器模型包括编码器和解码器。编码器被配置为对音频信号进行编码并将编码的音频信号提供给解码器。基于CTC模型被配置为处理编码器的编码的音频信号以生成CTC输出。由于ASR和AED任务是时间信息相关任务,所以变换器模型和基于CTC的模型联合用于执行ASR和AED任务。为此,为了联合执行ASR和AED任务,利用解码器处理编码的音频信号以执行ASR解码和AED解码。此外,利用基于CTC的模型处理编码的音频信号以生成CTC输出。CTC输出与ASR解码的输出组合以生成语音事件的转写。类似地,CTC输出与AED解码的输出组合以生成音频事件的标签。
神经网络还被配置为执行时间相关的AT任务,即,音频事件的时间信息没有明确地确定。对于AT任务,解码器被配置为执行AT解码。此外,基于AT解码来标记音频信号。为此,神经网络可执行时间相关(ASR和AED)和时间无关任务(AT)二者。
一些实施方式基于这样的认识:为了执行时间相关任务(ASR和AED),变换器模型与基于CTC的模型被联合训练,以利用CTC的单调对准性质。因此,ASR和AED任务利用基于CTC的模型联合训练和解码,而AT任务仅利用变换器模型训练。
在一些实施方式中,CTC输出还用于针对AED解码(例如,使用基于CTC的强制对准)计算检测到的声学事件的时间位置,使得估计音频事件的开始时间和结束时间。
在神经网络的训练期间,使用权重因子来平衡变换器模型的损失和基于CTC的模型的损失。分别向ASR、AED和AT的训练样本指派权重因子。根据实施方式,使用包括权重因子的多目标损失函数来训练神经网络以用于联合执行ASR、AED和AT任务。因此,实施方式公开了一种音频处理***。该音频处理***包括被配置为接受音频信号的输入接口。此外,音频处理***包括存储器,其被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,属性的类型包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性,其中,神经网络的模型共享至少一些参数以用于确定两种类型的属性。此外,音频处理***包括处理器,其被配置为利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性。此外,音频处理***包括输出接口,其被配置为输出音频信号的元数据。
因此,另一实施方式公开了一种音频处理方法。该音频处理方法包括:经由输入接口接受音频信号;经由神经网络确定音频信号中的不同起因的多个并发音频事件的不同类型的属性,其中,不同类型的属性包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性,并且其中,神经网络的模型共享至少一些参数以用于确定两种类型的属性;经由处理器利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性;以及经由输出接口输出音频信号的元数据。
当前公开的实施方式将参照附图进一步说明。所示的附图未必按比例,而是重点通常放在示出当前公开的实施方式的原理。
附图说明
[图1A]图1A示出根据一些实施方式的汽车维修车间的音频场景。
[图1B]图1B示出一些实施方式所使用的音频场景分析变换的原理的示意图。
[图2A]图2A示出根据一些实施方式的可由神经网络执行以生成不同类型的属性的不同转写任务的组合的示意图。
[图2B]图2B示出根据一些实施方式的可由神经网络执行以生成不同类型的属性的自动语音识别(ASR)和声学事件检测(AED)转写任务的组合的示意图。
[图2C]图2C示出根据一些实施方式的可由神经网络执行以生成不同类型的属性的自动语音识别(ASR)和音频标记(AT)转写任务的组合的示意图。
[图3]图3示出根据一些实施方式的包括编码器-解码器架构的神经网络的模型的示意图。
[图4]图4示出根据一些实施方式的基于具有编码器-解码器架构的变换器模型的神经网络的模型的示意图。
[图5]图5示出根据一些实施方式的包括变换器模型和基于联结时间分类(CTC)的模型的神经网络的模型的示意图。
[图6]图6示出根据一些实施方式的具有状态切换器的神经网络的模型的示意图。
[图7]图7示出根据一些实施方式的用于对音频信号执行ASR、AED或AT的神经网络的训练的示意图。
[图8]图8示出根据一些实施方式的生成音频信号的元数据的音频处理***的框图。
[图9]图9示出根据一些实施方式的用于生成音频信号的元数据的音频处理方法的流程图。
[图10]图10示出根据一些实施方式利用音频处理***来分析场景。
[图11]图11示出根据示例实施方式的音频处理***的异常检测。
[图12]图12示出根据一些实施方式的使用音频处理***的协作操作***。
具体实施方式
在以下描述中,为了说明,阐述了众多具体细节以便提供本公开的彻底理解。然而,对于本领域技术人员而言将显而易见的是,本公开可在没有这些具体细节的情况下实践。在其它情况下,设备和方法仅以框图形式示出,以避免使本公开模糊。
如本说明书和权利要求中使用的,术语“例如”和“诸如”以及动词“包括”、“具有”、“包含”及其其它动词形式在结合一个或更多个组件或其它项目的列表使用时各自应被解释为开放式,意味着列表不应被视为排除其它附加组件或项目。术语“基于”意指至少部分地基于。此外,将理解,本文所采用的措辞和术语是为了描述目的,不应被视为限制。此描述内利用的任何标题仅是为了方便,不具有法律或限制作用。
计算机听觉(CA)或机器监听是用于机器的音频理解的算法和***的一般研究领域。由于机器“倾听”意味着什么的概念非常宽泛并且有些模糊,所以计算机听觉尝试将最初应对特定问题或心中已有具体应用的多个学科放在一起。
与计算机视觉类似,计算机听觉旨在分析音频场景以识别(例如,检测和分类)形成音频场景的音频对象。在机器监听的上下文中,这种检测和分类包括确定由“监听”音频场景的传感器测量的音频信号所承载的音频事件的属性。这些属性定义形成音频场景的音频事件的元数据。
图1A示出根据一些实施方式的汽车维修车间100的音频场景。图1B示出一些实施方式所使用的音频场景分析变换的原理的示意图。图1A和图1B彼此结合描述。
汽车维修车间100的音频场景可包括不同起因的多个并发音频事件,例如修理工102操作的钻头的声音、修理工104对人声启用诊断工具的人声命令、人106跑动的声音、修理工108与客户110之间的对话、发动机112的声音等。另外地或另选地,音频场景可包括依次发生(即,时间上不交叠)的不同类型的音频事件。一些实施方式旨在分析音频场景以识别(例如,检测和分类)形成音频场景的音频事件。音频事件的检测和分类包括确定音频事件的不同类型的属性。
例如,汽车维修车间100的音频场景可包括非语音事件,例如钻头操作的声音,并且钻头声音的属性可以是标识标签“钻头”、“液压钻头”、“电动钻头”、“振动钻头”等。另外地或另选地,汽车维修车间100的音频场景可包括语音事件,例如对人声启用诊断工具的人声命令,并且对应属性可以是将语音事件标识为人声命令、人声命令的转写和/或说话者的标识。另外地或另选地,对于修理工108和客户110之间的对话的音频事件,对话的属性可以是对话的转写,即,非命令人声话语。另外地或另选地,音频事件的属性可以是描述音频场景的自然语言语句。例如,描述音频场景的音频字幕“修理工在使用钻头之前与顾客交谈”可以是音频事件的属性。
因此,音频事件的不同类型的属性包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性。时间相关属性的示例包括语音的转写和音频事件的时间位置的检测之一或组合。时间不可知属性的示例包括音频事件的标签和/或音频场景的音频字幕。另外,属性可具有多个复杂度级别,使得音频事件可被不同地标记。例如,发动机112的声音可被粗略地标记为发动机或机械噪声,或者更详细地标记为汽车发动机、公共汽车发动机、大型发动机、小型发动机、柴油发动机、电动发动机、加速发动机、怠速发动机、爆震发动机等,其中多个标签/属性可同时有效。同样,语音事件可被标记为语音/非语音、女性/男性人声、说话者ID、唱歌、尖叫、喊叫等。
一些实施方式基于这样的理解:可执行音频场景的碎片化分析114以确定音频事件122的不同类型的属性。在音频场景的碎片化分析114中,单独地考虑不同类型的音频事件116中的每一个。因此,各个音频事件的属性的确定被当作单独的问题。例如,确定修理工108的语音转写被当作单独的问题,并且确定发动机112的声音的属性被当作单独的问题。此外,音频事件的不同类型的属性中的每一个的确定被当作单独的问题。例如,确定修理工108的语音转写被当作单独的问题,并且确定修理工108的标签(例如,说话者ID)被当作单独的问题。为此,在确定音频事件122的不同类型的属性时存在不同的音频问题118。
一些实施方式基于这样的认识:可针对不同的音频问题118利用不同的属性特定音频解120来确定音频事件122的不同类型的属性。例如,仅针对自动语音转写训练的神经网络可用于确定修理工108的语音转写,并且仅针对音频事件检测训练的神经网络可用于检测音频事件,例如发动机112的声音、人106跑动的声音等。另外,可单独地使用音频标记技术来确定所检测到的音频事件的标签。一些实施方式基于这样的认识:这些任务特定神经网络可被组合以统一转写任务(例如,自动语音转写、音频事件检测等)以用于执行不同类型的转写任务(例如,自动语音转写、音频事件检测等)。然而,在这种方法中,可存在各个转写任务中的训练数据稀疏问题,因为这些任务特定神经网络无法利用其它任务的音频事件可能具有相似音频事件特性的事实。
此外,一些实施方式基于这样的理解:针对一种类型的转写任务训练的神经网络也可有利于另一转写任务的执行。例如,仅针对自动语音转写训练的神经网络可用于不同的语音事件。例如,仅针对自动语音转写训练的神经网络可用于转写人声命令和修理工108与客户110之间的对话。一些实施方式还基于这样的理解:可对音频事件应用不同的属性特定音频解,以确定音频事件的不同属性。例如,自动语音转写技术和音频事件技术可应用于对人声启用诊断工具的人声命令以确定对应属性,例如将语音事件标识为人声命令、人声命令的转写和说话者的标识。为此,属性特定音频解可用于相似的音频事件以确定相同类型的属性,并且不同的属性特定音频解120可用于音频事件以确定音频事件的不同类型的属性。然而,不同的属性特定音频解120无法用于不同类型的音频事件116以确定音频事件122的不同属性。
一些实施方式基于这样的认识:不管音频事件的类型和音频事件的属性的类型如何,在不同的转写任务确定音频事件的元数据的假设下,不同类型的音频事件可被统一处理(或作为相似的音频事件)。元数据包括描述音频事件的属性。属性可具有不同的类型,例如时间相关属性和时间不可知属性,但不管其类型如何,属性仅是形成音频事件的元数据的描述。以这种方式,音频事件的不同类型的属性的确定可被视为单个音频问题。由于仅考虑单个音频问题,所以不管音频场景的复杂度如何,可制定单个解以用于确定音频事件的不同类型的属性。这种认识允许将碎片化分析114变换为音频场景的均匀分析124。根据实施方式,单个解可对应于被训练以确定不同起因的多个并发和/或顺序音频事件的不同类型的属性的神经网络。
为此,在根据一些实施方式的音频场景的均匀分析124中,承载多个并发音频事件126的音频信号126被输入到神经网络128,神经网络128被训练以确定多个并发音频事件126的不同类型的属性。神经网络128输出不同类型的属性,例如时间相关属性130和时间不可知属性132。音频信号126中的一个或多个音频事件的一个或多个属性被称为音频信号126的元数据。因此,可利用神经网络128处理音频信号126以确定音频事件的不同类型的属性以生成音频信号126的元数据。
与场景114的碎片化分析中被训练以执行不同转写任务的多个神经网络相比,被训练以执行均匀分析124的单个神经网络128具有共享至少一些参数的模型以用于确定不同类型的属性130和132以转写不同的音频事件126。以这种方式,单个解(神经网络128)的训练和执行被协同。换言之,与使用不同的属性特定音频解来生成不同类型的属性相反,单个神经网络(即,神经网络128)可用于生成不同类型的属性,并且可利用训练执行相同任务的转写的单独神经网络所需的较少数据来训练。为此,可在确定音频事件的不同类型的属性时实现协同。另外,实现协同减少了各个转写任务中的训练数据稀疏问题,另外提供了更准确的结果。此外,实现协同允许生成定制的音频输出,即,允许从音频信号126生成期望的声学信息。
图2A示出根据一些实施方式的可由神经网络128执行以生成不同类型的属性204的不同转写任务的组合的示意图。根据实施方式,神经网络128可执行诸如自动语音识别(ASR)、声学事件检测(AED)和/或音频标记(AT)的不同转写任务之一或组合。ASR是人工智能和语言学领域,涉及将与语音关联的音频数据变换为代表该语音的文本。AED涉及检测音频事件与对应定时信息,例如检测常规住户声音、办公室环境中的声音或存在于音频场景中的其它声音,以及各个检测到的音频事件的时间开始和结束位置。此外,AT为音频场景的各个音频事件或音频事件集合提供标签标记,而无需检测音频信号中的音频事件的明确开始和结束位置或时间排序。另外地或另选地,AT可包括音频加字幕,其中确定描述音频场景的自然语言语句。这种音频字幕可以是音频事件的属性。例如,描述音频场景的音频字幕“修理工在使用钻头之前与顾客交谈”可以是音频事件的属性。音频加字幕属性的另一示例可以是“修理工一边操作钻头,一边询问客户想要用***还是现金支付”,其中识别音频场景的语音内容和音频事件需要ASR和AT转写任务之间的协同。
音频场景的音频信号200被输入到神经网络128。音频信号200可承载包括语音事件和非语音事件的多个音频事件。神经网络128可执行ASR 200a、AED 200b和AT 200c转写任务的组合202。根据一些实施方式,神经网络128可联合执行ASR 200a、AED 200b和AT200c转写任务以确定多个音频事件的不同类型的属性204。不同类型的属性204包括语音事件的语音属性和非语音事件的非语音属性。语音属性是时间相关属性并且包括语音事件中的语音转写,非语音属性是时间不可知属性并且包括非语音事件的标签。
在替代实施方式中,神经网络128可联合执行ASR 200a、AED 200b和AT 200c转写任务以确定包括多个音频事件的时间相关属性和时间不可知属性的不同类型的属性204。时间相关属性包括语音的转写和多个音频事件的时间位置的检测之一或组合,时间不可知属性包括利用使用自然语言语句描述音频场景的标签或音频字幕中的一个或更多个来标记音频信号。
图2B示出根据一些实施方式的可由神经网络128执行以生成不同类型的属性208的ASR和AED转写任务的组合206的示意图。根据一些实施方式,神经网络128可联合执行ASR200a和AED 200b转写任务以确定多个音频事件的不同类型的属性208。不同类型的属性208包括语音事件中的语音转写和多个音频事件的时间位置的检测。换言之,神经网络128可同时转写语音并识别多个音频事件与对应定时信息,即,多个音频事件中的每一个的时间开始和结束位置。
图2C示出根据一些实施方式的可由神经网络128执行以生成不同类型的属性212的ASR和AT转写任务的组合210的示意图。根据一些实施方式,神经网络128可联合执行ASR200a和AT 200c转写任务以确定多个音频事件的不同类型的属性212。不同类型的属性212包括语音事件的检测、语音事件中的语音转写、音频信号的标签和使用自然语言语句描述音频场景的音频字幕之一或组合。
根据一些实施方式,神经网络128的模型共享至少一些参数以用于确定不同类型的属性。换言之,神经网络128共享至少一些参数以用于执行不同转写任务以确定不同类型属性。一些实施方式基于这样的认识:共享一些参数以用于执行不同转写任务以确定不同类型属性的神经网络128可与单个人类听觉***更好地对准。具体地,在听觉通路中,音频信号经过多个处理阶段,由此早期阶段提取和分析不同的声学线索,而听觉皮层中的最终阶段负责感知。这种处理在许多方面类似于编码器-解码器神经网络架构,其中编码器提取给定转写任务的重要声学线索,注意力机制充当中继,解码器执行感知,检测和识别音频信号中的音频事件。为此,神经网络的模型包括编码器-解码器架构。
图3示出根据一些实施方式的包括编码器-解码器架构302的神经网络的模型的示意图。编码器-解码器架构302包括编码器304和解码器306。承载不同起因的多个音频事件的音频信号300被输入到编码器304。包括编码器-解码器架构302的神经网络共享一些参数以用于执行不同转写任务以确定不同类型的属性308。在实施方式中,为确定不同类型的属性而共享的参数是编码器304的参数。在替代实施方式中,为确定不同类型的属性而共享的参数是解码器306的参数。在一些其它实施方式中,为确定不同类型的属性而共享的参数是编码器304和解码器306的参数。根据实施方式,共享的参数对应于神经网络的权重。
在针对不同的转写任务联合训练神经网络的同时,一些参数(例如,神经网络的权重)重用于执行转写任务。重用神经网络的一些参数对神经网络的这种联合训练需要较少训练数据来训练各个转写任务,允许使用弱标记的训练数据,并且在各个任务中即使利用少量训练数据也产生准确的结果。
一些实施方式基于这样的认识:基于具有编码器-解码器架构的变换器模型的神经网络可用于执行AED和AT转写任务。图4示出根据一些实施方式的基于具有编码器-解码器架构的变换器模型400的神经网络128的模型的示意图。音频信号402被输入到特征提取404。特征提取404被配置为从音频信号402获得不同的声学特征,例如谱能量、功率、音高和声道信息。
变换器模型400包括编码器406和解码器408。变换器模型400的编码器406被配置为对音频信号402进行编码并将编码的音频信号提供给解码器408。此外,对于AED转写任务,解码器408被配置为处理编码的音频信号以执行AED解码,以检测和识别存在于音频信号402中的多个音频事件,而无需确定检测到的音频事件的时间信息。此外,对于AT任务,解码器408被配置为执行AT解码。基于AT解码以标签来标记音频信号402。另外,解码器408可向音频信号402提供音频字幕。
基于编码器-解码器架构的神经网络128提供决定性优势。例如,在AED和AT任务中,编码器-解码器架构的解码器408直接输出符号(即,标签)。因此,编码器-解码器架构的利用消除了在推理期间为各个类别设定检测阈值的繁琐过程,否则AED和AT***将使用该过程。另外,基于编码器-解码器架构的神经网络不需要标签的单调排序,因此可容易地利用弱标记的音频记录(没有以时间或顺序信息注释)来训练神经网络128。
然而,AED和ASR转写任务需要音频信号的时间信息。一些实施方式基于这样的认识:变换器模型400可利用基于联结时间分类(CTC)的模型增强以利用音频信号300的时间信息。
图5示出根据一些实施方式的包括变换器模型400和基于CTC的模型504的神经网络128的模型的示意图。根据实施方式,基于CTC的模型504对应于添加有利用CTC目标函数训练的编码器406的一个或更多个附加层。此外,具有变换器模型400和基于CTC的模型504的神经网络128强制执行单调排序并学习时间对准。为此,具有变换器模型400和基于CTC的模型504的神经网络128可用于联合执行ASR、AED和AT任务。具有变换器模型400和基于CTC的模型504的神经网络128的模型可被称为多合一(AIO)变换器。
音频场景的音频信号500被输入到特征提取502。特征提取502被配置为从音频信号500获得不同的声学特征,例如谱能量、功率、音高和/或声道信息。变换器模型400的编码器406对音频信号500进行编码并将编码的音频信号提供给解码器。基于CTC的模型504被配置为处理编码的音频信号以生成CTC输出。由于ASR和AED是时间信息相关任务,所以变换器模型400和基于CTC的模型504联合用于执行ASR和AED。为此,为了联合执行ASR和AED任务,利用解码器408处理编码的音频信号以执行ASR解码和AED解码。此外,利用基于CTC的模型504处理编码的音频信号以生成CTC输出。CTC输出与ASR解码的输出组合以生成语音事件的转写。类似地,CTC输出与AED解码的输出组合以生成声音事件的转写,即,音频事件的标签。在一些实施方式中,CTC输出还用于针对AED解码(例如,使用基于CTC的强制对准)计算检测到的音频事件的时间位置,使得估计音频事件的开始时间和结束时间。
神经网络128还被配置为执行时间无关的AT任务,即,没有明确地确定音频事件的时间信息。对于AT任务,解码器408被配置为执行AT解码。此外,基于AT解码来对音频信号进行标记。具体地,与音频对象关联的声学元素(声音事件)被标记和/或描述音频场景的音频字幕。为此,神经网络128可执行时间相关(ASR和AED)和时间无关任务(AT)二者。
为此,一些实施方式基于这样的认识:神经网络128可被配置为执行ASR任务以生成音频信号500中的语音事件的转写。另外,一些实施方式基于这样的认识:神经网络128可被配置为联合执行ASR和AED以生成音频事件的标签和转写。根据实施方式,神经网络128可被配置为联合执行ASR、AED和AT转写事件以生成音频信号500的元数据。
一些实施方式基于这样的认识:神经网络128可被配置为选择性地执行ASR、AED和AT转写任务中的一个或更多个以输出音频事件的期望属性。根据实施方式,变换器模型400的输出取决于变换器模型400的解码器408的初始状态。换言之,解码器408的初始状态决定解码器408是否将根据ASR、AT或AED输出。为此,一些实施方式基于这样的认识:解码器408的初始状态可基于要执行以生成期望属性的期望转写任务而变化。因此,神经网络128的模型设置有状态切换器。
图6示出根据一些实施方式的具有状态切换器600的神经网络128的模型的示意图。提供初始状态和不同转写任务之间的映射。当用户输入指示期望转写任务的输入符号时,状态切换器600被配置为切换与期望转写任务对应的初始状态以执行期望转写任务。因此,可通过网络128的模型输出音频事件的期望属性。
此外,图6示出通过向解码器408初始馈送任务开始而切换的示例输出,示出于尖括号(<asr>、<aed>、<at1>、…<at7>)中。</s>表示用于解码的停止符号,标签后缀S、E和C表示开始边界和结束边界以及声音事件的延续。ASR和AED与基于CTC的模型联合执行,而AT仅使用解码器输出。
图7示出根据一些实施方式的用于对音频信号执行ASR、AED或AT的神经网络128的训练的示意图。在方框700,校准AIO变换器的参数设置。例如,AIO变换器的参数设置为dmodel=256、dff=2048、dh=4、E=12和D=6。使用25000个热身步骤应用β1=0.9、β2=0.98和∈=10-9的Adam优化器进行训练。另外,初始学习率被设定为5.0,训练历元的数量达到80。
此外,在方框702,分别向ASR样本集合和AED样本集合指派权重因子,以在训练的同时平衡变换器模型的损失和基于CTC的模型的损失。例如,对于ASR样本集合,CTC/解码器权重因子被设定为0.3/0.7,对于AED样本集合,设定为0.4/0.6,否则设定为0.0/1.0。相同的权重因子也用于解码。另外,在替代实施方式中,向AT样本集合指派权重因子。权重因子用于控制变换器目标函数和CTC目标函数之间的加权。换言之,权重因子用于在训练期间平衡变换器目标函数和CTC目标函数。指派有相应权重因子的这些样本用于训练神经网络128。对于ASR推理,使用LM权重1.0经由浅层融合应用基于神经网络的语言模型(LM)。对于AED任务,使用基于CTC的强制对准获得所识别的声音事件序列的时间信息。
在方框704,变换器模型与基于CTC的模型联合训练,以执行ASR、AED和AT转写任务。ASR样本集合、AED样本集合和AT样本集合与变换器模型和基于CTC的模型一起用于训练神经网络以联合执行ASR、AED或AT转写任务。诸如AT任务的时间无关任务不需要时间信息。因此,AT样本集合仅与变换器模型一起用于学习AT转写任务。一些实施方式基于这样的认识:为了执行时间相关任务(ASR和AED),变换器模型与基于CTC的模型联合训练以利用CTC的单调对准性质。因此,变换器模型使用ASR样本集合、AED样本集合与基于CTC的模型联合训练,以执行ASR和AED转写任务。
AIO变换器利用两个不同的注意力类型,即,编码器-解码器注意力和自注意力。编码器-解码器注意力使用解码器状态作为查询向量来控制对输入值序列和编码器状态序列的注意力。在自注意力(SA)中,从相同的输入序列计算查询、值和密钥,这得到长度与输入相同的输出序列。AIO变换器的两个注意力类型基于缩放点积注意力机制
Figure BDA0004153362790000151
其中
Figure BDA0004153362790000152
和/>
Figure BDA0004153362790000153
是查询、密钥和值,其中d*表示维度,n*表示序列长度,dq=dk,并且nk=nv。代替使用单个注意力头,AIO变换器模型的各个层使用多个注意力头,其中
Figure BDA0004153362790000154
Figure BDA0004153362790000155
其中
Figure BDA0004153362790000156
和/>
Figure BDA0004153362790000157
是多头注意力(MHA)层的输入,Headi表示总共dh个头中的第i注意力头的输出,/>
Figure BDA0004153362790000158
以及
Figure BDA0004153362790000159
是满足dk=dv=dmodel/dh的可训练权重矩阵。
AIO变换器的编码器包括两层CNN模块ENCCNN和E个变换器编码器层与自注意力的层叠ENCSA:
X0=ENCCNN(X), (4)
XE=ENCSA(X0), (5)
其中X=(x1,...,xT)表示声学输入特征序列,其是80维对数梅尔谱能量(LMSE)加上音高信息的三个额外特征。ENCCNN的两个CNN层使用大小2的步长、3×3的内核大小和ReLU激活函数,其按照因子4减小输出序列X0的帧频。ENCSA模块(5)由E个层组成,其中对于e=1,…,E,第e层是多头自注意力层与内维dff和外维dmodel的两个ReLU分离前馈神经网络的组合:
X′e=Xe-1+MHAe(Xe-1,Xe-1,Xe-1), (6)
Xe=X′e+FFe(X′e), (7)
Figure BDA0004153362790000161
其中
Figure BDA0004153362790000162
和/>
Figure BDA0004153362790000163
是可训练权重矩阵和偏置向量。
变换器目标函数被定义为
Figure BDA0004153362790000164
其中标签序列Y=(y1,…,yL),标签子序列y1:l-1=(y1,…,yl-1),编码器输出序列XE。项p(yl|y1:l-1,XE)表示变换器解码器模型,可写成
p(yl|y1:l-1,XE)=DEC(XE,y1:l-1), (10)
其中
Figure BDA0004153362790000165
Figure BDA0004153362790000166
Figure BDA0004153362790000167
Figure BDA0004153362790000168
对于d=1,…,D,其中D表示解码器层数。函数EMBED将输入标签序列(<s>θ,y1,…,yl-1)转换为可训练嵌入向量序列
Figure BDA0004153362790000169
其中<s>θ∈Θ表示使用θ对序列Θ=(<asr>,<aed>,<at1>,……<at7>)进行索引的任务特定起始符号(或输入符号),如图3所示。函数DEC通过对
Figure BDA00041533627900001610
和该输出上的softmax分布应用全连接神经网络128来最终预测标签yl的后验概率。正弦位置编码被添加到序列X0和Z0
对于ASR和AED任务,变换器模型与CTC目标函数联合训练
Figure BDA0004153362790000171
其中B表示使用CTC转移规则将标签序列Y扩展至所有可能帧级标签序列的集合的一对多映射。π表示帧级标签序列。多目标损失函数
Figure BDA0004153362790000172
用于训练神经网络128,其中超参数γ用于控制两个目标函数pctc和patt之间的加权。
对于联合解码,一些实现方式使用基于CTC的模型pctc(Y|XE)和基于注意力的解码器模型patt(Y|XE)的序列概率来定义解码目标,以寻找最可能的标签序列
Figure BDA0004153362790000173
其中λ表示平衡CTC和基于注意力的解码器概率的权重因子,并且其中pctc(Y|XE)可使用CTC前缀解码算法来计算。
图8示出根据一些实施方式的用于生成音频信号的元数据的音频处理***800的框图。音频处理***800包括输入接口802。输入接口802被配置为接受音频信号。在替代实施方式中,输入接口802还被配置为接受指示期望转写任务的输入符号。
音频处理***800可具有将音频处理***800与其它***和装置连接的多个接口。例如,网络接口控制器(NIC)814适于通过总线812将音频处理***800连接到网络816,网络816将音频处理***800与操作上连接的传感器集合连接。通过网络816,音频处理***800以无线方式或通过有线接收音频信号。
音频处理***800包括被配置为执行存储的指令的处理器804以及存储可由处理器804执行的指令的存储器806。处理器804可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。存储器806可包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器***。处理器804通过总线812连接到一个或更多个输入装置和输出装置。
根据一些实施方式,存储在存储器806中的指令实现用于生成关于经由输入接口802接收的音频信号的元数据的方法。为此,存储装置808可适于存储不同模块,其存储用于处理器804的可执行指令。存储装置808可使用硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合实现。
存储装置808被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络810的参数。不同类型的属性包括语音事件和非语音音频事件的时间相关属性和时间不可知属性。神经网络810的模型共享至少一些参数以用于确定两种类型的属性。神经网络810的模型包括变换器模型和基于联结时间分类(CTC)的模型。变换器模型包括被配置为对音频信号进行编码的编码器以及被配置为针对编码的音频信号执行ASR解码、AED解码和AT解码的解码器。基于CTC的模型被配置为针对编码的音频信号执行ASR解码和AED解码,以生成CTC输出。根据实施方式,变换器模型与CTC模型联合训练以执行ASR和AED转写任务。存储装置808还被配置为存储状态切换器824,其被配置为根据输入符号切换解码器的初始状态以执行期望的转写任务。
在一些实施方式中,音频处理***800的处理器804被配置为利用神经网络810处理音频信号以生成音频信号的元数据。处理器804还被配置为利用神经网络810的编码器处理音频信号以生成编码,并且利用初始化为与不同类型的属性对应的不同状态的解码器多次处理该编码以生成不同音频事件的属性的不同解码。另外,在替代实施方式中,处理器804还被配置为根据输入符号切换解码器状态以执行期望的转写任务,并且使用神经网络810生成期望任务的输出。生成的输出是多级信息的一部分。
此外,音频处理***800包括输出接口820。在一些实施方式中,音频处理***800还被配置为经由输出接口820将音频信号的元数据提交给显示装置822。显示装置822的示例包括计算机监视器、相机、电视、投影仪或移动装置等。在实施方式中,音频处理***800还可连接到适于将音频处理***800连接到用于执行各种任务的外部装置的应用接口。
图9示出根据本公开的一些实施方式的用于生成音频信号的元数据的音频处理方法900的流程图。在方框902,音频处理方法900包括接受音频信号。在实施方式中,经由输入接口802接受音频信号。
此外,在方框904,音频处理方法900包括利用神经网络810处理音频信号以生成音频信号的元数据。元数据包括音频信号中的一个或多个音频事件的一个或多个属性。一个或更多个属性包括语音事件和非语音音频事件的时间相关属性和时间不可知属性。
此外,在方框906,音频处理方法900包括输出音频信号的元数据。在实施方式中,经由输出接口820输出多级信息。
图10示出根据一些实施方式的利用音频处理***800进行场景1000的听觉分析。场景1000包括一个或更多个音频事件。例如,场景1000包括音频事件,例如在轮椅1004上移动的人1002的语音、猫1006的声音、播放音乐的娱乐装置1008和第二个人1012的脚步声。经由一个或更多个麦克风(图中未示出)捕获场景1000的音频信号1010。一个或更多个麦克风可被放置在场景1000中的一个或更多个合适的地方,使得它们捕获包括存在于场景1000中的音频事件的音频信号。
音频处理***800被配置为接受音频信号1010。音频处理***800还被配置为使用神经网络128对音频信号1010执行ASR、AED或AT任务,以生成与音频信号中的音频事件关联的属性。例如,音频处理***800可生成人1002的语音转写。此外,音频处理***800可识别场景1000中的声音事件,例如移动的轮椅1004、人1002的语音、猫1006的声音、娱乐装置1008中播放的音乐、第二个人1012的脚步声等。
另外,根据实施方式,音频处理***800可为人1002的语音提供标签,例如男性/女性人声、唱歌和说话者ID。由音频处理***800生成的这些不同类型的属性可被称为音频信号1010的元数据。音频信号1010的元数据可进一步用于分析场景1000。例如,属性可用于确定场景1000中发生的各种活动。类似地,属性可用于确定场景1000中发生的各种音频事件。
另外地或另选地,根据本公开的实施方式,音频处理***800可用在包括人声搜索接口和免提电话的车载信息娱乐***、电梯的人声接口、服务机器人和工厂自动化中的一个或更多个中。
图11示出根据示例实施方式的音频处理***800的异常检测。在图11中,示出包括制造生产线1102、训练数据池1104、机器学习模型1106和音频处理***800的情景1100。制造生产线1102包括一起工作以制造产品的多个发动机。此外,生产线1102使用传感器来收集数据。传感器可以是数字传感器、模拟传感器及其组合。收集的数据用于两个目的,一些数据被存储在训练数据池1104中并用作训练机器学习模型1106的训练数据,一些数据用作音频处理***800检测异常的操作时间数据。机器学习模型1106和音频处理***800二者可使用相同的数据。
为了检测制造生产线1102中的异常,收集训练数据。机器学习模型1106使用训练数据池1104中的训练数据来训练神经网络810。训练数据池1104可包括标记数据或未标记数据。标记数据利用标签来标记(例如,异常或正常),未标记数据没有标签。基于训练数据的类型,机器学习模型1106应用不同的训练方法来检测异常。对于标记训练数据,通常使用监督学习,对于未标记训练数据,应用无监督学习。以这种方式,不同实施方式可处理不同类型的数据。此外,检测制造生产线1102中的异常包括检测制造生产线1102所包括的多个发动机中的各个发动机中的异常。
机器学习模型1106学习训练数据的特征和图案,其包括与音频事件关联的正常数据图案和异常数据图案。音频处理***800使用训练的神经网络810和收集的操作时间数据1108来执行异常检测,其中操作时间数据1108可包括与多个发动机关联的多个并发音频事件。
在接收到操作时间数据1108时,音频处理***800可使用神经网络810确定与各个发动机关联的各个音频事件的元数据。与发动机关联的音频事件的元数据可包括诸如加速发动机、怠速发动机、爆震发动机、敲击发动机等的属性。这些属性可使得用户能够分析多个发动机中的各个发动机的声音,从而使得用户能够在粒度级别分析制造生产线1102。此外,操作时间数据1108可被标识为正常或异常。例如,使用正常数据图案1110和1112,训练的神经网络810可将操作时间数据分类为正常数据1114和异常数据1116。例如,操作时间数据X1 1118和X2 1120被分类为正常,操作时间数据X3 1122被分类为异常。一旦检测到异常,就采取必要的行动1124。
特别是,音频处理***800使用神经网络810确定与多个音频源中的音频源(例如,发动机)关联的音频事件的至少一个属性。此外,音频处理***800将音频源所关联的音频事件的至少一个属性与音频源所关联的音频事件的至少一个预定属性进行比较。此外,音频处理***800基于比较结果来确定音频源中的异常。
图12示出根据一些实施方式的使用音频处理***800的协作操作***1200。协作操作***1200可布置在产品组装/制造线的一部分中。协作操作***1200包括音频处理***800,其具有经由网络连接到显示器1202、相机、扬声器和输入装置(麦克风/指点装置)的NIC 814。在这种情况下,网络可以是有线网络或无线网络。
音频处理***800的NIC 814可被配置为经由网络与诸如机器人1206的机械手通信。机器人1206可包括机械手控制器1208和连接到机械手状态检测器1212的子机械手1210,其中子机械手1210被配置为组装工件1214以用于制造产品零件或完成产品。此外,NIC 814可经由网络连接到对象检测器1216。对象检测器1216可被布置为检测工件1214、子机械手1210和连接到布置在机器人1206中的机械手控制器1208的机械手状态检测器1212的状态。机械手状态检测器1212检测并向机械手控制器1208发送机械手状态信号。然后,机械手控制器1208基于机械手状态信号提供工艺流程或指令。
显示器1202可显示表示基于(预先设计的)制造方法组装产品的工艺步骤的工艺流程或指令。制造方法可经由网络接收并存储到存储器806或存储装置808中。例如,当操作者1204检查组装的产品零件或组装的产品的状况(同时根据诸如工艺记录格式的格式执行质量控制处理)时,可经由协作操作***1200的麦克风提供音频输入以记录质量检查。可基于显示器1202上可指示的产品制造工艺和产品规格来执行质量检查。操作者1204还可向机器人1206提供指令以针对产品组装线执行操作。音频处理***800可对音频输入执行ASR转写任务以生成操作者1204的语音转写。另选地,音频处理***800可联合执行ASR和AED转写任务以生成操作者1204的语音转写并确定诸如说话者ID和操作者1204的性别的属性。
协作操作***1200可使用语音到文本程序将操作者1204所确认的结果和对应转写作为文本数据存储到存储器806或存储装置808中。另外,协作操作***1200可存储确定的属性。此外,结果可连同指派给各个组装的零件或组装的产品的物品编号一起与时间戳存储用于制造产品记录。此外,协作操作***1200可经由网络将记录发送到制造中心计算机(图12中未示出),使得组装线的整个工艺数据被集成以维持/记录操作者和产品的质量。
以下描述仅提供示例性实施方式,并非旨在限制本公开的范围、适用性或配置。相反,示例性实施方式的以下描述将向本领域技术人员提供用于实现一个或更多个示例性实施方式的可行描述。在不脱离所附权利要求中阐述的公开的主题的精神和范围的情况下,可以想到可对元件的功能和布置进行各种改变。
在以下描述中给出具体细节以提供实施方式的彻底理解。然而,本领域普通技术人员可理解,实施方式可在没有这些具体细节的情况下实践。例如,所公开的主题中的***、过程和其它元件可作为组件以框图形式示出,以免在不必要的细节方面使实施方式模糊。在其它情况下,熟知过程、结构和技术可在没有不必要的细节的情况下示出,以避免使实施方式模糊。此外,各种附图中的相似标号和指代指示相似的元件。
另外,各个实施方式可作为过程描述,其被描绘为流程图、数据流程图、结构图或框图。尽管流程图可将操作描述为顺序过程,但许多操作可并行或同时执行。另外,操作次序可重新布置。过程在其操作完成时可终止,但是可具有未讨论或附图中未包括的附加步骤。此外,并非任何具体描述的过程中的所有操作可出现在所有实施方式中。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时,函数的终止可对应于函数返回到调用函数或主函数。
此外,所公开的主题的实施方式可至少部分地手动或自动实现。可通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微码实现时,执行所需任务的程序代码或代码段可被存储在机器可读介质中。处理器可执行所需任务。
本文中概述的各种方法或处理可被编码为可在采用各种操作***或平台中的任一种的一个或更多个处理器上执行的软件。另外,这种软件可使用多种合适的编程语言和/或编程或脚本工具中的任一种来编写,并且也可被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常,在各种实施方式中,程序模块的功能可根据需要组合或分布。
本公开的实施方式可被具体实现为一种方法,已提供其示例。作为该方法的一部分执行的动作可按照任何合适的方式排序。因此,即使在例示性实施方式中作为顺序动作示出,可构造以与所示不同的次序执行动作的实施方式,其可包括同时执行一些动作。尽管参考特定优选实施方式描述了本公开,但是将理解,在本公开的精神和范围内可进行各种其它调整和修改。因此,所附权利要求的方面涵盖落在本公开的真实精神和范围内的所有这些变化和修改。

Claims (20)

1.一种音频处理***,该音频处理***包括:
输入接口,该输入接口被配置为接收音频信号;
存储器,该存储器被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,所述不同类型的属性包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性,其中,所述神经网络的模型共享至少一些参数以用于确定两种类型的所述属性;
处理器,该处理器被配置为利用所述神经网络处理所述音频信号以生成所述音频信号的元数据,所述元数据包括所述音频信号中的一个或多个音频事件的一个或多个属性;以及
输出接口,该输出接口被配置为输出所述音频信号的所述元数据。
2.根据权利要求1所述的音频处理***,其中,所述音频信号承载包括语音事件和非语音事件的多个音频事件,并且其中,所述处理器使用所述神经网络来确定所述语音事件的语音属性和所述非语音事件的非语音属性以生成所述元数据。
3.根据权利要求1所述的音频处理***,其中,音频信号承载具有至少一个时间相关属性和至少一个时间不可知属性的多个音频事件,其中,所述时间相关属性包括语音事件的检测和所述语音事件的语音的转写之一或组合,其中,所述时间不可知属性包括利用标签或利用使用自然语言语句描述音频场景的音频字幕来标记所述音频信号。
4.根据权利要求1所述的音频处理***,其中,音频信号承载具有至少一个时间相关属性和至少一个时间不可知属性的多个音频事件,其中,所述时间相关属性包括语音的转写和所述多个音频事件的时间位置的检测之一或组合,并且其中,所述时间不可知属性包括利用标签或使用自然语言语句描述音频场景的音频字幕中的一个或更多个来标记所述音频信号。
5.根据权利要求1所述的音频处理***,其中,所述神经网络的所述模型包括编码器和解码器,并且其中,为确定不同类型的所述属性而共享的所述参数包括所述编码器的参数。
6.根据权利要求5所述的音频处理***,其中,为确定不同类型的所述属性而共享的所述参数包括所述解码器的参数。
7.根据权利要求5所述的音频处理***,其中,为确定不同类型的所述属性而共享的所述参数包括所述编码器的参数和所述解码器的参数。
8.根据权利要求5所述的音频处理***,其中,所述处理器被配置为利用所述神经网络的所述编码器处理所述音频信号以生成编码,并且利用被初始化为与所述不同类型的所述属性对应的不同状态的所述解码器多次处理所述编码,以生成不同音频事件的所述属性的不同解码。
9.根据权利要求1所述的音频处理***,其中,所述神经网络被联合训练以使用共享的所述参数执行各个转写任务来执行多个不同的转写任务。
10.根据权利要求9所述的音频处理***,其中,所述转写任务包括自动语音识别(ASR)任务和声学事件检测(AED)任务。
11.根据权利要求9所述的音频处理***,其中,所述转写任务包括自动语音识别(ASR)和音频标记(AT)。
12.根据权利要求9所述的音频处理***,其中,所述转写任务包括自动语音识别(ASR)、声学事件检测(AED)和音频标记(AT)中的一个或更多个。
13.根据权利要求10所述的音频处理***,
其中,神经网络的所述模型包括变换器模型和基于联结时间分类(CTC)的模型,
其中,所述变换器模型包括被配置为对所述音频信号进行编码的编码器以及被配置为执行ASR解码、AED解码和AT解码以针对所编码的音频信号生成解码器输出的解码器,并且
其中,所述基于CTC的模型被配置为针对所编码的音频信号执行所述ASR解码和所述AED解码,以针对所编码的音频信号生成CTC输出,并且
其中,所述解码器输出以及所述ASR解码和所述AED解码的所述CTC输出被联合评分以生成联合解码输出。
14.根据权利要求13所述的音频处理***,其中,所述基于CTC的模型被配置为生成ASR转写任务或AED转写任务中的一个或更多个的时间信息。
15.根据权利要求13所述的音频处理***,
其中,所述输入接口还被配置为接受指示期望转写任务的输入符号;并且
其中,所述处理器还被配置为:
根据所述输入符号切换所述解码器的初始状态以使用所述神经网络执行所述期望转写任务。
16.根据权利要求13所述的音频处理***,其中,所述变换器模型与所述基于CTC的模型联合训练以执行ASR转写任务和AED转写任务。
17.根据权利要求12所述的音频处理***,其中,所述神经网络利用包括权重因子的多目标成本函数来进行训练,以控制变换器目标函数和CTC目标函数之间的加权,以用于联合执行ASR转写任务、AED转写任务和AT转写任务。
18.根据权利要求17所述的音频处理***,其中,所述神经网络使用ASR样本集合、AED样本集合和AT样本集合来进行训练。
19.根据权利要求1所述的音频处理***,其中,所述音频信号包括与多个音频源关联的多个音频事件,并且其中,所述处理器还被配置为:
使用所述神经网络确定所述多个音频源的至少一个音频事件的至少一个属性;
对所述至少一个音频事件的所述至少一个属性与所述至少一个音频事件的预定的至少一个属性进行比较;以及
基于比较的结果确定所述音频源中的异常。
20.一种音频处理方法,该音频处理方法包括以下步骤:
经由输入接口接受音频信号;
经由神经网络确定所述音频信号中的不同起因的多个并发音频事件的不同类型的属性,其中,所述不同类型的属性包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性,并且其中,所述神经网络的模型共享至少一些参数以用于确定两种类型的所述属性;
经由所述处理器利用所述神经网络处理所述音频信号以生成所述音频信号的元数据,所述元数据包括所述音频信号中的一个或多个音频事件的一个或多个属性;以及
经由输出接口输出所述音频信号的所述元数据。
CN202180067206.4A 2020-10-07 2021-04-27 用于生成音频信号的元数据的***和方法 Pending CN116324984A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/064,986 2020-10-07
US17/064,986 US11756551B2 (en) 2020-10-07 2020-10-07 System and method for producing metadata of an audio signal
PCT/JP2021/017609 WO2022074869A1 (en) 2020-10-07 2021-04-27 System and method for producing metadata of an audio signal

Publications (1)

Publication Number Publication Date
CN116324984A true CN116324984A (zh) 2023-06-23

Family

ID=76502785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180067206.4A Pending CN116324984A (zh) 2020-10-07 2021-04-27 用于生成音频信号的元数据的***和方法

Country Status (5)

Country Link
US (1) US11756551B2 (zh)
EP (1) EP4226364A1 (zh)
JP (1) JP7490145B2 (zh)
CN (1) CN116324984A (zh)
WO (1) WO2022074869A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362854B (zh) * 2021-06-03 2022-11-15 哈尔滨工业大学 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备
WO2024123310A1 (en) * 2022-12-06 2024-06-13 Google Llc Universal sound event detector using multi-layered conditioning
CN116230015B (zh) * 2023-03-14 2023-08-08 哈尔滨工程大学 一种基于音频时序信息加权的频域特征表示异音检测方法
CN116631379B (zh) * 2023-07-20 2023-09-26 中邮消费金融有限公司 语音识别方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US10871548B2 (en) * 2015-12-04 2020-12-22 Fazecast, Inc. Systems and methods for transient acoustic event detection, classification, and localization
US10923137B2 (en) * 2016-05-06 2021-02-16 Robert Bosch Gmbh Speech enhancement and audio event detection for an environment with non-stationary noise
US11043218B1 (en) * 2019-06-26 2021-06-22 Amazon Technologies, Inc. Wakeword and acoustic event detection
US11861674B1 (en) * 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US11302329B1 (en) * 2020-06-29 2022-04-12 Amazon Technologies, Inc. Acoustic event detection
US11798534B2 (en) * 2020-10-02 2023-10-24 Salesforce.Com, Inc. Systems and methods for a multilingual speech recognition framework

Also Published As

Publication number Publication date
JP2023539947A (ja) 2023-09-20
JP7490145B2 (ja) 2024-05-24
US11756551B2 (en) 2023-09-12
WO2022074869A1 (en) 2022-04-14
EP4226364A1 (en) 2023-08-16
US20220108698A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
JP7490145B2 (ja) 音声信号のメタデータを生成するためのシステムおよび方法
Yeh et al. An interaction-aware attention network for speech emotion recognition in spoken dialogs
US8843372B1 (en) Natural conversational technology system and method
Khare et al. Self-supervised learning with cross-modal transformers for emotion recognition
Masumura et al. Online end-of-turn detection from speech based on stacked time-asynchronous sequential networks.
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
JP2024502946A (ja) 音声認識トランスクリプトの句読点付け及び大文字化
CN113239147A (zh) 基于图神经网络的智能会话方法、***及介质
Braunschweiler et al. Factors in emotion recognition with deep learning models using speech and text on multiple corpora
CN110265008A (zh) 智能回访方法、装置、计算机设备及存储介质
CN115563290B (zh) 一种基于语境建模的智能情感识别方法
CN111968645A (zh) 一种个性化的语音控制***
US11438283B1 (en) Intelligent conversational systems
JPWO2020044543A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN117149977A (zh) 一种基于机器人流程自动化的智能催收机器人
CN116108856B (zh) 基于长短回路认知与显隐情感交互的情感识别方法及***
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
US11250853B2 (en) Sarcasm-sensitive spoken dialog system
CN116959417A (zh) 对话回合的检测方法、装置、设备、介质、程序产品
CN116013257A (zh) 语音识别、语音识别模型训练方法、装置、介质及设备
Jiang et al. Target Speech Diarization with Multimodal Prompts
CN114328867A (zh) 一种人机对话中智能打断的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination