CN110827799B - 用于处理语音信号的方法、装置、设备和介质 - Google Patents

用于处理语音信号的方法、装置、设备和介质 Download PDF

Info

Publication number
CN110827799B
CN110827799B CN201911146748.1A CN201911146748A CN110827799B CN 110827799 B CN110827799 B CN 110827799B CN 201911146748 A CN201911146748 A CN 201911146748A CN 110827799 B CN110827799 B CN 110827799B
Authority
CN
China
Prior art keywords
speech
text
feature representations
representations
text feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911146748.1A
Other languages
English (en)
Other versions
CN110827799A (zh
Inventor
翟传磊
陈旭
白锦峰
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201911146748.1A priority Critical patent/CN110827799B/zh
Publication of CN110827799A publication Critical patent/CN110827799A/zh
Priority to US16/907,936 priority patent/US11322151B2/en
Priority to JP2020185936A priority patent/JP7178394B2/ja
Application granted granted Critical
Publication of CN110827799B publication Critical patent/CN110827799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

根据本公开的实施例,提供了用于处理语音信号的方法、装置、设备和计算机可读存储介质。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。通过该方法,可以使得语音判定结果更准确,同时使得人机之间的交互更加顺畅,提升了人机交互的体验。

Description

用于处理语音信号的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及人工智能领域,并且更具体地,涉及用于处理语音信号的方法、装置、设备和计算机可读存储介质。
背景技术
语音交互技术是人与机器用语音进行交互的一种技术,实现了类似自然对话的语音交互体验。人机交互从计算机时代的鼠标键盘配合屏幕方式交互,到智能手机时代的触屏直接交互。人机交互的方式越来越简单,交互门槛越来越低。随着人工智能和移动互联网的蓬勃发展,类似人与人之间的自然语音交互逐渐成为人机交互的一种新型的方式。语音交互同时兼备输入带宽大、准确性高、可移动性好、使用门槛低等优点,是人机交互的首选交互方式之一。
通过语音交互实现人机交互,提高了信息的处理效率。同时这种方式也使得用户和机器的交互更简便。然而,在处理语音信号的过程中还存在着许多需要解决的问题。
发明内容
根据本公开的示例实施例,提供了一种用于处理语音信号的方案。
在本公开的第一方面中,提供了一种用于处理语音信号的方法。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。
在本公开的第二方面中,提供了一种用于处理语音信号的装置。该装置包括获取模块,被配置为获取所接收的语音信号的语音特征表示集合。该装置还包括源文本特征表示集合生成模块,被配置为基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。该装置还包括目标文本特征表示集合生成模块,被配置为基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。该装置还包括第一匹配程度确定模块,被配置为确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图;
图2示出了根据本公开的一些实施例的用于处理语音信号的方法200的流程图;
图3示出了根据本公开的一些实施例的用于生成目标文本特征表示集合的方法300的流程图;
图4根据本公开的一些实施例的用于处理语音信号的装置400的框图;以及
图5示出了能够实施本公开的多个实施例的设备500的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
声学置信度技术是一种衡量自动语音识别(ASR)***的识别结果可信赖程度的技术。通过声学置信度技术,可以区分识别结果对应的音频为语音或者非语音以及语音与文本是否存在严格的对应关系。在语音的交互过程中,ASR***对环境噪声等非语音输入并没有有效的机制进行判别,从而发生一些误识别的情况,而声学置信度技术就是一个二次确认过程,通过对音频和识别结果的匹配程度给出置信的打分,从而可以对音频进行很好的分类。
计算语音置信度的方案通常有两种。一种方案是基于整句音频进行二分类的方案。这种方案不依赖于语音的识别结果,通过对音频提取某种形式的特征,从而对音频进行分类。然而,在基于整句的音频分类方案中,以整句为单位,颗粒度太大,无法给出细节信息。另外,这种技术由于无法利用文本信息,在计算结果上还是不能满足需要。
另一种方案是基于对齐和VGG两级模型的声学置信度技术。这种技术首先通过对音频和识别结果给出一个声学上的强制对齐,从而找出识别结果中每个建模单元对应的片段。然后对该片段通过VGG网络给出一个打分,通过对应建模单元的得分来判断该片段和该建模单元的匹配程度。最后通过某种决策方式来判断当前音频是否需要接受。然而,基于对齐和VGG两级模型的置信度技术由于需要对音频和识别结果进行一个强制对齐,才可以进一步地通过VGG模型进行置信打分。对于这样一种级联的模式,训练阶段无法对二者进行一个很好的联合训练。另外这种技术并不能很好的利用音频和识别结果的完整信息,且由于对音频和文本进行的是一个强制对齐的过程,因此这种技术对整句的音频和文本信息并不能进行充分地利用。
根据本公开的实施例,提出一种语音交互的改进方案。在该方案中,首先获取所接收的语音信号的语音特征表示集合,并得到与从语音信号识别的文本对应的源文本特征表示集合。基于语音特征表示集合和源文本特征表示集合,可以生成目标文本特征表示集合,以用于确定与针对该文本预定义的参考文本特征表示集合之间的匹配程度。由此,可以确定从语音信号识别文本的正确性。通过该方法,可以使得对语音信号的判断结果更准确,同时使得人机之间的交互更加顺畅,提升了人机交互的体验。
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在该示例环境100中,在进行人机交互时,可以获得语音信号110。从语音信号110可以获得语音特征表示集合120。在一些实施例中,语音特征表示集合120中的语音特征表示为一个语音特征帧,诸如声学特征帧。语音特征帧是从预定时长的音频获得的向量。
在图1中,文本130为从语音信号110获得的文本信息。例如,文本130是通过自动语音识别***对语音信号110进行识别而得到的。备选地或附加地,文本130也可以由自动语音识别***从语音特征表示集合120生成。
语音信号110可以通过执行用户交互的任何语音交互设备获得。在一些实施例中,用户向语音交互设备说话,则可以获得语音信号110。在一些实施例中,如果语音交互设备存在于用户周围,在用户与其他人交互时,语音交互设备可以获得语音信号110。在一些实施例中,语音信号110还可以是由语音交互设备接收的其他声音信号,例如电视机内的说话声。在一些实施例中,语音信号110是通过执行一次唤醒多次交互的语音交互设备获得的。上述示例仅是描述本公开,而非对本公开的具体限定。
语音交互设备可以具有相关联的声音采集器(例如,一个或多个麦克风)来采集用户的语音指令。语音交互设备还可以具有相关联的声音播放器(例如,一个或多个扬声器)来向播放声音。
语音交互设备可以是任何能够通过语音信号110进行控制和/或交互的任何电子设备。语音交互设备的一些示例可以包括但不限于:智能音箱、语音交互电视盒、智能家电设备、语音家教机、智能机器人、地图导航设备、智能穿戴设备等。语音交互设备也可以是安装有语音交互应用的任何其他电子设备,语音交互应用诸如是语音助手应用、智能车机***、信息搜索应用、地图应用、社交平台应用、音视频播放应用、智能助手应用等,可安装这样的语音交互应用的电子设备的示例可以但不限于智能手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电子书设备、游戏设备或者前述各项的任意组合。
在图1中,语音特征表示集合120和文本130被传送到管理设备140中进行处理。备选地或附加地,管理设备140可以接收语音信号110,然后管理设备140基于语音信号110生成语音特征表示集合120和文本130。
管理设备140基于语音特征表示集合120来计算从语音信号110所识别的文本130的置信度,以确定识别结果的正确性。
在图1所示的实施例中,管理设备140可以是位于网络(例如云端)上的计算设备,其可以直接处理由语音交互设备上传的语音信号110,以得到语音特征表示集合120和文本130,从而执行根据本公开的实施例的进一步处理。此外,如果语音交互设备向管理设备140上传的是语音特征表示集合120和文本130,则管理设备140也可以对语音特征表示集合120和文本130直接执行进一步处理。
在一些实施列中,管理设备140包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器***、消费电子产品、小型计算机、大型计算机、包括上述***或设备中的任意一个的分布式计算环境等。
应当理解,图1示出的环境仅是示例性的,而非对本公开的具体限定。在一些实施例中,管理设备140并不一定位于网络处,而是例如可以实现为与用户进行交互的语音交互设备。在此情况下,管理设备140可以从用户接收语音信号110并处理该语音信号110,以得到语音特征表示集合120和文本130,然后对其执行进一步处理。
上面图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。下面结合图2描述根据本公开的一些实施例的用于处理语音信号的方法200的流程图。方法200可以由图1中的管理设备140或其它任意合适的设备来实现。
在框202处,管理设备140获取所接收的语音信号110的语音特征表示集合120。在确定语音信号110的识别结果的置信度时,管理设备140需要获得语音信号110的语音特征表示集合120。
在一些实施例中,语音特征表示集合120中的语音特征表示为一个语音特征帧,诸如声学特征帧。语音特征帧是从预定时长的音频获得的向量。例如,语音信号110时长1秒,每10毫秒的语音信号110生成一个语音特征帧,则针对该语音信号110会具有100个语音特征帧。
在一些实施例中,管理设备140接收语音信号110,并从语音信号110中生成语音特征表示集合120。在一些实施例中,语音特征表示集合120是由其他计算设备从接收到的语音信号110生成的。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,管理设备140可以对语音特征表示集合120中的语音特征表示执行非线性变换。然后管理设备140利用经变换的语音特征表示来替换语音特征表示集合120中的语音特征表示。
例如,管理设备140将语音特征表示集合120发送到由神经网络模型构成的语音识别结果置信度模型中,通过对语音特征表示集合120在神经网络模型中进行非线性变换来获得更新的语音特征表示集合120。在语音识别结果置信度模型为encoder-decoder模型的情况下,将语音特征表示集合120输入encoder来生成更新的语音特征表示集合120。具体地,针对语音特征表示集合120中的一个语音特征表示,利用该一个语音特征表示与语音特征表示集合120中其他语音特征表示来生成更新的语音特征表示。然后用更新的每个语音特征表示替换语音特征表示集合120中的每个语音特征表示。
在一些实施例中,encoder过程为双向encoder过程,包括但不限于self-attention、双向LSTM、双向GRU等。
在框204处,管理设备140基于从语音信号110识别的文本130,生成源文本特征表示集合,每个源文本特征表示与文本130中的一个元素相对应。
在一些实施例中,管理设备140直接从其他计算设备或语音处理设备收从语音信号110识别的文本130。在一些实施例中,管理设备140接收语音信号110,并从语音信号110识别出文本130。在一些实施例中,通过利用自动语音识别***从语音信号110中识别出文本130。在一些实施例中,文本130是从语音特征表示集合120确定的。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,文本130被送入由神经网络形成的语音识别结果置信度模型中来生成。例如在语音识别结果置信度模型为encoder-decoder模型的情况下,将文本130送入decoder,来生成与文本130相对应的源文本特征表示集合。每个源文本特征表示与文本130中的一个元素相对应。
在一些实施例中,一个元素为一个文字。在一些实施例中,一个元素为一个音节。在一些实施例中,一个元素为一个字母。上述示例仅是用于描述本公开,而非对本公开的具体限定。本领域技术人员可以依据需要设置元素的内容。
在一些实施例中,decoder过程也为双向decoder过程,包括但不限于self-attention、双向LSTM、双向GRU等。双向的decoder过程也可以通过适当的处理变为单向的decoder过程。
在框206处,管理设备140基于语音特征表示集合120和源文本特征表示集合,生成目标文本特征表示集合。管理设备140利用语音特征表示集合120和源文本特征表示集合来生成目标文本特征表示集合的过程将在下面结合图3进行详细描述。
在框208处,管理设备140确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。管理设备140确定匹配程度的过程如下面的示例所示。
在一些实施例中,管理设备140确定目标文本特征表示集合的多个目标文本特征表示和参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度。
然后,管理设备140可以基于这些相似度的平均值,确定匹配程度。在一些实施例中,管理设备140对这些相似度进行加权求平来确定匹配程度。上述示例仅是用于描述本公开,而非对本公开的具体限定。本领域技术人员可以依据需要以任意合适的方式从多个相似度来确定匹配程度。
在一些实施例中,管理设备140在获得目标文本特征表示集合之后,在运行的语音识别结果置信度模型中继续确定多个目标文本特征表示中的每个目标文本特征表示与其对应的参考文本特征表示的相似度。在语音识别结果置信度模型的神经网络中,通过将目标文本特征表示和文本130中对应的元素输入神经网络模型,神经网络模型基于与元素对应的参考文本特征表示来确定目标文本特征表示与参考文本特征表示之间的相似度。
在一些实施例中,管理设备140将匹配程度与阈值程度进行比较。在管理设备140根据确定匹配程度高于阈值程度,执行文本130所指示的操作。如果确定匹配程序低于阈值程度,则不执行的述文130本所指示的操作。
在一些实施例中,语音识别结果置信度模型(例如encoder-decoder模型)根据输入的语音特征表示集合120和文本130,确定出与文本130中的每个元素相对应的相似度,从而得到多个相似度。语音识别结果置信度模型由模型训练数据来训练。在训练样本中负例有两个来源。一个是环境噪声数据,其整句都作为负例。另一个是训练样本中识别错误的建模单元(如***错误、替代错误和删除错误),其也作为负例样本。而训练样本中识别正确的单元,当作置信度模型的正例样本。
通过上述方法,例如可以同时利用整句音频以及识别结果信息进行判定,由此可以使语音判定结果更准确,同时使得人机之间的交互更加顺畅,改善了人机交互的体验。
上面结合图2描述了根据本公开的一些实施例的用于处理语音信号的方法200的流程图。下面结合图3详细描述图2中的框260处的生成目标文本特征表示集合的过程。图3示出了根据本公开的一些实施例的用于生成目标文本特征表示集合的方法300的流程图。图3中的方法300可以图1中的管理设备140或其它任意合适的设备来执行。
在框302处,管理设备140确定源文本特征表示集合中的一个源文本特征表示与语音特征表示集合120中的多个语音特征表示之间的多个相似度。
在生成目标文本特征表示集合时,管理设备140针对源文本特征表示集合中的每个源文本特征表示计算出其与语音特征表示集合120中的多个语音特征中的每个语音特征之间的相似度。因此,可以确定出每个源文本特征表示与多个语音特征表示之间的多个相似度。
在框304处,管理设备140通过将上述多个相似度应用于多个语音特征表示,生成多个中间语音特征表示。在一些实施例中,管理设备140将该多个相似度作为权重应于其对应的语音特征以生成多个中音语音特征表示。
在框306处,管理设备140通过组合多个中间语音特征表示,生成与源文本特征表示相对应的目标文本特征表示。在一些实施例中,管理设备140将经过加权处理的多个中间语音特征表示求和来生成与源文本特征表示相对应的目标文本特征表示。
在一些实施例中,上述过程可以在语音识别结果置信度模型中实现。
通过该方法,可以快速确定出与源文本特征表示相对应的目标文本特征表示,使得可以根据语音特征表示集合整体确定出识别结果的置信度值,从而能正确定的执行语音命令,提升用户体验。
图4示出了根据本公开实施例的用于处理语音信号的装置400的示意性框图。如图4所示,装置400可以包括获取模块402,其被配置为获取所接收的语音信号的语音特征表示集合。装置400还包括源文本特征表示集合生成模块404,其被配置为基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。装置400还包括目标文本特征表示集合生成模块406,其被配置为基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。装置400还包括第一匹配程度确定模块408,其被配置为确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。
在一些实施例中,装置400还包括非线性变换模块,其被配置为对语音特征表示集合中的语音特征表示执行非线性变换;以及替换模块,其被配置为利用经变换的语音特征表示来替换语音特征表示集合中的语音特征表示。
在一些实施例中,目标文本特征表示集合生成模块406包括第一相似度确定模块,其被配置为确定源文本特征表示集合中的一个源文本特征表示与语音特征表示集合中的多个语音特征表示之间的多个相似度;中间语音特征表示生成模块,其被配置为通过将多个相似度应用于多个语音特征表示,生成多个中间语音特征表示;以及组合模块,其被配置为通过组合多个中间语音特征表示,生成与源文本特征表示相对应的目标文本特征表示。
在一些实施例中,第一匹配程度确定模块408包括第二相似度确定模块,其被配置为确定目标文本特征表示集合的多个目标文本特征表示和参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度;以及第二匹配程度确定模块,被配置为基于多个相似度的平均值,确定匹配程度。
在一些实施例中,装置400还包括比校模块,其被配置为将匹配程度与阈值程度进行比较;以及执行模块,其被配置为根据确定匹配程度高于阈值程度,执行文本所指示的操作。
图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。设备500可以用于实现图1中的管理设备140。如图所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如方法200和300。例如,在一些实施例中,方法200和300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的方法200和300的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法500。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种用于处理语音信号的方法,包括:
获取所接收的语音信号的语音特征表示集合;
基于从所述语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与所述文本中的一个元素相对应;
基于所述语音特征表示集合和所述源文本特征表示集合,生成目标文本特征表示集合;以及
确定所述目标文本特征表示集合与针对所述文本预定义的参考文本特征表示集合的匹配程度,所述匹配程度指示对所述文本的识别的正确性;
其中生成目标文本特征表示集合包括:
确定所述源文本特征表示集合中的一个源文本特征表示与所述语音特征表示集合中的多个语音特征表示之间的多个相似度;
通过将所述多个相似度应用于所述多个语音特征表示,生成多个中间语音特征表示;以及
通过组合所述多个中间语音特征表示,生成与所述源文本特征表示相对应的所述目标文本特征表示。
2.根据权利要求1所述的方法,还包括:
对所述语音特征表示集合中的语音特征表示执行非线性变换;以及
利用经变换的所述语音特征表示来替换所述语音特征表示集合中的所述语音特征表示。
3.根据权利要求1所述的方法,其中确定所述匹配程度包括:
确定所述目标文本特征表示集合的多个目标文本特征表示和所述参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度;以及
基于所述多个相似度的平均值,确定所述匹配程度。
4.根据权利要求1所述的方法,还包括:
将所述匹配程度与阈值程度进行比较;以及
根据确定所述匹配程度高于所述阈值程度,执行所述文本所指示的操作。
5.一种用于处理语音信号的装置,包括:
获取模块,被配置为获取所接收的语音信号的语音特征表示集合;
源文本特征表示集合生成模块,被配置为基于从所述语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与所述文本中的一个元素相对应;
目标文本特征表示集合生成模块,被配置为基于所述语音特征表示集合和所述源文本特征表示集合,生成目标文本特征表示集合;以及
第一匹配程度确定模块,被配置为确定所述目标文本特征表示集合与针对所述文本预定义的参考文本特征表示集合的匹配程度,所述匹配程度指示对所述文本的识别的正确性;
其中所述目标文本特征表示集合生成模块包括:
第一相似度确定模块,被配置为确定所述源文本特征表示集合中的一个源文本特征表示与所述语音特征表示集合中的多个语音特征表示之间的多个相似度;
中间语音特征表示生成模块,被配置为通过将所述多个相似度应用于所述多个语音特征表示,生成多个中间语音特征表示;以及
组合模块,被配置为通过组合所述多个中间语音特征表示,生成与所述源文本特征表示相对应的所述目标文本特征表示。
6.根据权利要求5所述的装置,还包括:
非线性变换模块,被配置为对所述语音特征表示集合中的语音特征表示执行非线性变换;以及
替换模块,被配置为利用经变换的所述语音特征表示来替换所述语音特征表示集合中的所述语音特征表示。
7.根据权利要求5所述的装置,其中所述第一匹配程度确定模块包括:
第二相似度确定模块,被配置为确定所述目标文本特征表示集合的多个目标文本特征表示和所述参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度;以及
第二匹配程度确定模块,被配置为基于所述多个相似度的平均值,确定所述匹配程度。
8.根据权利要求5所述的装置,还包括:
比校模块,被配置为将所述匹配程度与阈值程度进行比较;以及
执行模块,被配置为根据确定所述匹配程度高于所述阈值程度,执行所述文本所指示的操作。
9.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法。
CN201911146748.1A 2019-11-21 2019-11-21 用于处理语音信号的方法、装置、设备和介质 Active CN110827799B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911146748.1A CN110827799B (zh) 2019-11-21 2019-11-21 用于处理语音信号的方法、装置、设备和介质
US16/907,936 US11322151B2 (en) 2019-11-21 2020-06-22 Method, apparatus, and medium for processing speech signal
JP2020185936A JP7178394B2 (ja) 2019-11-21 2020-11-06 音声信号を処理するための方法、装置、機器、および媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911146748.1A CN110827799B (zh) 2019-11-21 2019-11-21 用于处理语音信号的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN110827799A CN110827799A (zh) 2020-02-21
CN110827799B true CN110827799B (zh) 2022-06-10

Family

ID=69557598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911146748.1A Active CN110827799B (zh) 2019-11-21 2019-11-21 用于处理语音信号的方法、装置、设备和介质

Country Status (3)

Country Link
US (1) US11322151B2 (zh)
JP (1) JP7178394B2 (zh)
CN (1) CN110827799B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质
CN113053366B (zh) * 2021-03-12 2023-11-21 中国电子科技集团公司第二十八研究所 一种基于多模态融合的管制话音复述一致性校验方法
CN113707148B (zh) * 2021-08-05 2024-04-19 中移(杭州)信息技术有限公司 语音识别准确率的确定方法、装置、设备以及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105845130A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 用于语音识别的声学模型训练方法及装置
CN107844470A (zh) * 2016-09-18 2018-03-27 腾讯科技(深圳)有限公司 一种语音数据处理方法及其设备
CA2984787A1 (en) * 2016-11-04 2018-05-04 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
CN108305633A (zh) * 2018-01-16 2018-07-20 平安科技(深圳)有限公司 语音验证方法、装置、计算机设备和计算机可读存储介质
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2019001458A1 (zh) * 2017-06-30 2019-01-03 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN109461446A (zh) * 2018-12-24 2019-03-12 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、***及存储介质
CN110136747A (zh) * 2019-05-16 2019-08-16 上海流利说信息技术有限公司 一种评价语音音素正确性的方法、装置、设备及存储介质
WO2019196306A1 (zh) * 2018-04-12 2019-10-17 平安科技(深圳)有限公司 基于语音的口型动画合成装置、方法及可读存储介质

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US7676364B2 (en) * 2004-03-25 2010-03-09 Ashwin Rao System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
WO2007034478A2 (en) * 2005-09-20 2007-03-29 Gadi Rechlis System and method for correcting speech
US8234494B1 (en) * 2005-12-21 2012-07-31 At&T Intellectual Property Ii, L.P. Speaker-verification digital signatures
US8352261B2 (en) * 2008-03-07 2013-01-08 Canyon IP Holdings, LLC Use of intermediate speech transcription results in editing final speech transcription results
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US20100094622A1 (en) * 2008-10-10 2010-04-15 Nexidia Inc. Feature normalization for speech and audio processing
JP4922377B2 (ja) * 2009-10-01 2012-04-25 日本電信電話株式会社 音声認識装置とその方法と、プログラム
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
CN103226950A (zh) * 2012-01-29 2013-07-31 特克特朗尼克公司 电信网络中的语音处理
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
JP6148150B2 (ja) * 2013-10-23 2017-06-14 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
JP2016521383A (ja) * 2014-04-22 2016-07-21 キューキー インコーポレイテッドKeukey Inc. 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
US9564123B1 (en) * 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN104299612B (zh) * 2014-11-10 2017-11-07 科大讯飞股份有限公司 模仿音相似度的检测方法和装置
US20160147765A1 (en) * 2014-11-25 2016-05-26 Quixey, Inc. Techniques for Using Similarity to Enhance Relevance in Search Results
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN105260416A (zh) * 2015-09-25 2016-01-20 百度在线网络技术(北京)有限公司 一种基于语音识别的搜索方法及装置
US11011160B1 (en) * 2017-01-17 2021-05-18 Open Water Development Llc Computerized system for transforming recorded speech into a derived expression of intent from the recorded speech
US10170134B2 (en) * 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
CN106971709B (zh) * 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
CN108305642B (zh) * 2017-06-30 2019-07-19 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN107564517A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及***、云端服务器与可读介质
CN109817220A (zh) * 2017-11-17 2019-05-28 阿里巴巴集团控股有限公司 语音识别方法、装置及***
US10565229B2 (en) * 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record
US20200023157A1 (en) * 2018-07-17 2020-01-23 Limbix Health, Inc. Dynamic digital content delivery in a virtual environment
US10923111B1 (en) * 2019-03-28 2021-02-16 Amazon Technologies, Inc. Speech detection and speech recognition
US11715485B2 (en) * 2019-05-17 2023-08-01 Lg Electronics Inc. Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same
KR20190087353A (ko) * 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
KR102223736B1 (ko) * 2019-07-22 2021-03-05 엘지전자 주식회사 인공지능 장치를 이용한 음성 처리 방법
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105845130A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 用于语音识别的声学模型训练方法及装置
CN107844470A (zh) * 2016-09-18 2018-03-27 腾讯科技(深圳)有限公司 一种语音数据处理方法及其设备
CA2984787A1 (en) * 2016-11-04 2018-05-04 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
WO2019001458A1 (zh) * 2017-06-30 2019-01-03 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN108305633A (zh) * 2018-01-16 2018-07-20 平安科技(深圳)有限公司 语音验证方法、装置、计算机设备和计算机可读存储介质
WO2019196306A1 (zh) * 2018-04-12 2019-10-17 平安科技(深圳)有限公司 基于语音的口型动画合成装置、方法及可读存储介质
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109461446A (zh) * 2018-12-24 2019-03-12 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、***及存储介质
CN110136747A (zh) * 2019-05-16 2019-08-16 上海流利说信息技术有限公司 一种评价语音音素正确性的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US11322151B2 (en) 2022-05-03
CN110827799A (zh) 2020-02-21
US20210158823A1 (en) 2021-05-27
JP2021081713A (ja) 2021-05-27
JP7178394B2 (ja) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110718223B (zh) 用于语音交互控制的方法、装置、设备和介质
CN108694940B (zh) 一种语音识别方法、装置及电子设备
CN111933129A (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
CN110827799B (zh) 用于处理语音信号的方法、装置、设备和介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN111161724B (zh) 中文视听结合语音识别方法、***、设备及介质
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN111444321A (zh) 问答方法、装置、电子设备和存储介质
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN111090769A (zh) 一种歌曲推荐的方法、装置、设备和计算机存储介质
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备
CN112259089B (zh) 语音识别方法及装置
CN115273849B (zh) 一种关于音频数据的意图识别方法及装置
CN114049883A (zh) 语音识别方法及装置、计算机可读存储介质
CN112884340A (zh) 演讲效果评估方法、装置、评估设备以及可读存储介质
CN117012200A (zh) 语音识别方法、装置、电子设备及存储介质
CN118116386A (zh) 语音识别方法、装置及电子设备
CN116564314A (zh) 中粤混合语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant