CN110827799B

CN110827799B - 用于处理语音信号的方法、装置、设备和介质

Info

Publication number: CN110827799B
Application number: CN201911146748.1A
Authority: CN
Inventors: 翟传磊; 陈旭; 白锦峰; 贾磊
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2022-06-10
Anticipated expiration: 2039-11-21
Also published as: US11322151B2; CN110827799A; US20210158823A1; JP2021081713A; JP7178394B2

Abstract

根据本公开的实施例，提供了用于处理语音信号的方法、装置、设备和计算机可读存储介质。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本，生成源文本特征表示集合，每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合，生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度，匹配程度指示对文本的识别的正确性。通过该方法，可以使得语音判定结果更准确，同时使得人机之间的交互更加顺畅，提升了人机交互的体验。

Description

用于处理语音信号的方法、装置、设备和介质

技术领域

本公开的实施例主要涉及人工智能领域，并且更具体地，涉及用于处理语音信号的方法、装置、设备和计算机可读存储介质。

背景技术

语音交互技术是人与机器用语音进行交互的一种技术，实现了类似自然对话的语音交互体验。人机交互从计算机时代的鼠标键盘配合屏幕方式交互，到智能手机时代的触屏直接交互。人机交互的方式越来越简单，交互门槛越来越低。随着人工智能和移动互联网的蓬勃发展，类似人与人之间的自然语音交互逐渐成为人机交互的一种新型的方式。语音交互同时兼备输入带宽大、准确性高、可移动性好、使用门槛低等优点，是人机交互的首选交互方式之一。

通过语音交互实现人机交互，提高了信息的处理效率。同时这种方式也使得用户和机器的交互更简便。然而，在处理语音信号的过程中还存在着许多需要解决的问题。

发明内容

根据本公开的示例实施例，提供了一种用于处理语音信号的方案。

在本公开的第一方面中，提供了一种用于处理语音信号的方法。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本，生成源文本特征表示集合，每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合，生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度，匹配程度指示对文本的识别的正确性。

在本公开的第二方面中，提供了一种用于处理语音信号的装置。该装置包括获取模块，被配置为获取所接收的语音信号的语音特征表示集合。该装置还包括源文本特征表示集合生成模块，被配置为基于从语音信号识别的文本，生成源文本特征表示集合，每个源文本特征表示与文本中的一个元素相对应。该装置还包括目标文本特征表示集合生成模块，被配置为基于语音特征表示集合和源文本特征表示集合，生成目标文本特征表示集合。该装置还包括第一匹配程度确定模块，被配置为确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度，匹配程度指示对文本的识别的正确性。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的用于处理语音信号的方法200的流程图；

图3示出了根据本公开的一些实施例的用于生成目标文本特征表示集合的方法300的流程图；

图4根据本公开的一些实施例的用于处理语音信号的装置400的框图；以及

图5示出了能够实施本公开的多个实施例的设备500的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

声学置信度技术是一种衡量自动语音识别(ASR)***的识别结果可信赖程度的技术。通过声学置信度技术，可以区分识别结果对应的音频为语音或者非语音以及语音与文本是否存在严格的对应关系。在语音的交互过程中，ASR***对环境噪声等非语音输入并没有有效的机制进行判别，从而发生一些误识别的情况，而声学置信度技术就是一个二次确认过程，通过对音频和识别结果的匹配程度给出置信的打分，从而可以对音频进行很好的分类。

计算语音置信度的方案通常有两种。一种方案是基于整句音频进行二分类的方案。这种方案不依赖于语音的识别结果，通过对音频提取某种形式的特征，从而对音频进行分类。然而，在基于整句的音频分类方案中，以整句为单位，颗粒度太大，无法给出细节信息。另外，这种技术由于无法利用文本信息，在计算结果上还是不能满足需要。

另一种方案是基于对齐和VGG两级模型的声学置信度技术。这种技术首先通过对音频和识别结果给出一个声学上的强制对齐，从而找出识别结果中每个建模单元对应的片段。然后对该片段通过VGG网络给出一个打分，通过对应建模单元的得分来判断该片段和该建模单元的匹配程度。最后通过某种决策方式来判断当前音频是否需要接受。然而，基于对齐和VGG两级模型的置信度技术由于需要对音频和识别结果进行一个强制对齐，才可以进一步地通过VGG模型进行置信打分。对于这样一种级联的模式，训练阶段无法对二者进行一个很好的联合训练。另外这种技术并不能很好的利用音频和识别结果的完整信息，且由于对音频和文本进行的是一个强制对齐的过程，因此这种技术对整句的音频和文本信息并不能进行充分地利用。

根据本公开的实施例，提出一种语音交互的改进方案。在该方案中，首先获取所接收的语音信号的语音特征表示集合，并得到与从语音信号识别的文本对应的源文本特征表示集合。基于语音特征表示集合和源文本特征表示集合，可以生成目标文本特征表示集合，以用于确定与针对该文本预定义的参考文本特征表示集合之间的匹配程度。由此，可以确定从语音信号识别文本的正确性。通过该方法，可以使得对语音信号的判断结果更准确，同时使得人机之间的交互更加顺畅，提升了人机交互的体验。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在该示例环境100中，在进行人机交互时，可以获得语音信号110。从语音信号110可以获得语音特征表示集合120。在一些实施例中，语音特征表示集合120中的语音特征表示为一个语音特征帧，诸如声学特征帧。语音特征帧是从预定时长的音频获得的向量。

在图1中，文本130为从语音信号110获得的文本信息。例如，文本130是通过自动语音识别***对语音信号110进行识别而得到的。备选地或附加地，文本130也可以由自动语音识别***从语音特征表示集合120生成。

语音信号110可以通过执行用户交互的任何语音交互设备获得。在一些实施例中，用户向语音交互设备说话，则可以获得语音信号110。在一些实施例中，如果语音交互设备存在于用户周围，在用户与其他人交互时，语音交互设备可以获得语音信号110。在一些实施例中，语音信号110还可以是由语音交互设备接收的其他声音信号，例如电视机内的说话声。在一些实施例中，语音信号110是通过执行一次唤醒多次交互的语音交互设备获得的。上述示例仅是描述本公开，而非对本公开的具体限定。

语音交互设备可以具有相关联的声音采集器(例如，一个或多个麦克风)来采集用户的语音指令。语音交互设备还可以具有相关联的声音播放器(例如，一个或多个扬声器)来向播放声音。

语音交互设备可以是任何能够通过语音信号110进行控制和/或交互的任何电子设备。语音交互设备的一些示例可以包括但不限于：智能音箱、语音交互电视盒、智能家电设备、语音家教机、智能机器人、地图导航设备、智能穿戴设备等。语音交互设备也可以是安装有语音交互应用的任何其他电子设备，语音交互应用诸如是语音助手应用、智能车机***、信息搜索应用、地图应用、社交平台应用、音视频播放应用、智能助手应用等，可安装这样的语音交互应用的电子设备的示例可以但不限于智能手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电子书设备、游戏设备或者前述各项的任意组合。

在图1中，语音特征表示集合120和文本130被传送到管理设备140中进行处理。备选地或附加地，管理设备140可以接收语音信号110，然后管理设备140基于语音信号110生成语音特征表示集合120和文本130。

管理设备140基于语音特征表示集合120来计算从语音信号110所识别的文本130的置信度，以确定识别结果的正确性。

在图1所示的实施例中，管理设备140可以是位于网络(例如云端)上的计算设备，其可以直接处理由语音交互设备上传的语音信号110，以得到语音特征表示集合120和文本130，从而执行根据本公开的实施例的进一步处理。此外，如果语音交互设备向管理设备140上传的是语音特征表示集合120和文本130，则管理设备140也可以对语音特征表示集合120和文本130直接执行进一步处理。

在一些实施列中，管理设备140包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器***、消费电子产品、小型计算机、大型计算机、包括上述***或设备中的任意一个的分布式计算环境等。

应当理解，图1示出的环境仅是示例性的，而非对本公开的具体限定。在一些实施例中，管理设备140并不一定位于网络处，而是例如可以实现为与用户进行交互的语音交互设备。在此情况下，管理设备140可以从用户接收语音信号110并处理该语音信号110，以得到语音特征表示集合120和文本130，然后对其执行进一步处理。

上面图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。下面结合图2描述根据本公开的一些实施例的用于处理语音信号的方法200的流程图。方法200可以由图1中的管理设备140或其它任意合适的设备来实现。

在框202处，管理设备140获取所接收的语音信号110的语音特征表示集合120。在确定语音信号110的识别结果的置信度时，管理设备140需要获得语音信号110的语音特征表示集合120。

在一些实施例中，语音特征表示集合120中的语音特征表示为一个语音特征帧，诸如声学特征帧。语音特征帧是从预定时长的音频获得的向量。例如，语音信号110时长1秒，每10毫秒的语音信号110生成一个语音特征帧，则针对该语音信号110会具有100个语音特征帧。

在一些实施例中，管理设备140接收语音信号110，并从语音信号110中生成语音特征表示集合120。在一些实施例中，语音特征表示集合120是由其他计算设备从接收到的语音信号110生成的。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，管理设备140可以对语音特征表示集合120中的语音特征表示执行非线性变换。然后管理设备140利用经变换的语音特征表示来替换语音特征表示集合120中的语音特征表示。

例如，管理设备140将语音特征表示集合120发送到由神经网络模型构成的语音识别结果置信度模型中，通过对语音特征表示集合120在神经网络模型中进行非线性变换来获得更新的语音特征表示集合120。在语音识别结果置信度模型为encoder-decoder模型的情况下，将语音特征表示集合120输入encoder来生成更新的语音特征表示集合120。具体地，针对语音特征表示集合120中的一个语音特征表示，利用该一个语音特征表示与语音特征表示集合120中其他语音特征表示来生成更新的语音特征表示。然后用更新的每个语音特征表示替换语音特征表示集合120中的每个语音特征表示。

在一些实施例中，encoder过程为双向encoder过程，包括但不限于self-attention、双向LSTM、双向GRU等。

在框204处，管理设备140基于从语音信号110识别的文本130，生成源文本特征表示集合，每个源文本特征表示与文本130中的一个元素相对应。

在一些实施例中，管理设备140直接从其他计算设备或语音处理设备收从语音信号110识别的文本130。在一些实施例中，管理设备140接收语音信号110，并从语音信号110识别出文本130。在一些实施例中，通过利用自动语音识别***从语音信号110中识别出文本130。在一些实施例中，文本130是从语音特征表示集合120确定的。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，文本130被送入由神经网络形成的语音识别结果置信度模型中来生成。例如在语音识别结果置信度模型为encoder-decoder模型的情况下，将文本130送入decoder，来生成与文本130相对应的源文本特征表示集合。每个源文本特征表示与文本130中的一个元素相对应。

在一些实施例中，一个元素为一个文字。在一些实施例中，一个元素为一个音节。在一些实施例中，一个元素为一个字母。上述示例仅是用于描述本公开，而非对本公开的具体限定。本领域技术人员可以依据需要设置元素的内容。

在一些实施例中，decoder过程也为双向decoder过程，包括但不限于self-attention、双向LSTM、双向GRU等。双向的decoder过程也可以通过适当的处理变为单向的decoder过程。

在框206处，管理设备140基于语音特征表示集合120和源文本特征表示集合，生成目标文本特征表示集合。管理设备140利用语音特征表示集合120和源文本特征表示集合来生成目标文本特征表示集合的过程将在下面结合图3进行详细描述。

在框208处，管理设备140确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度，匹配程度指示对文本的识别的正确性。管理设备140确定匹配程度的过程如下面的示例所示。

在一些实施例中，管理设备140确定目标文本特征表示集合的多个目标文本特征表示和参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度。

然后，管理设备140可以基于这些相似度的平均值，确定匹配程度。在一些实施例中，管理设备140对这些相似度进行加权求平来确定匹配程度。上述示例仅是用于描述本公开，而非对本公开的具体限定。本领域技术人员可以依据需要以任意合适的方式从多个相似度来确定匹配程度。

在一些实施例中，管理设备140在获得目标文本特征表示集合之后，在运行的语音识别结果置信度模型中继续确定多个目标文本特征表示中的每个目标文本特征表示与其对应的参考文本特征表示的相似度。在语音识别结果置信度模型的神经网络中，通过将目标文本特征表示和文本130中对应的元素输入神经网络模型，神经网络模型基于与元素对应的参考文本特征表示来确定目标文本特征表示与参考文本特征表示之间的相似度。

在一些实施例中，管理设备140将匹配程度与阈值程度进行比较。在管理设备140根据确定匹配程度高于阈值程度，执行文本130所指示的操作。如果确定匹配程序低于阈值程度，则不执行的述文130本所指示的操作。

在一些实施例中，语音识别结果置信度模型(例如encoder-decoder模型)根据输入的语音特征表示集合120和文本130，确定出与文本130中的每个元素相对应的相似度，从而得到多个相似度。语音识别结果置信度模型由模型训练数据来训练。在训练样本中负例有两个来源。一个是环境噪声数据，其整句都作为负例。另一个是训练样本中识别错误的建模单元(如***错误、替代错误和删除错误)，其也作为负例样本。而训练样本中识别正确的单元，当作置信度模型的正例样本。

通过上述方法，例如可以同时利用整句音频以及识别结果信息进行判定，由此可以使语音判定结果更准确，同时使得人机之间的交互更加顺畅，改善了人机交互的体验。

上面结合图2描述了根据本公开的一些实施例的用于处理语音信号的方法200的流程图。下面结合图3详细描述图2中的框260处的生成目标文本特征表示集合的过程。图3示出了根据本公开的一些实施例的用于生成目标文本特征表示集合的方法300的流程图。图3中的方法300可以图1中的管理设备140或其它任意合适的设备来执行。

在框302处，管理设备140确定源文本特征表示集合中的一个源文本特征表示与语音特征表示集合120中的多个语音特征表示之间的多个相似度。

在生成目标文本特征表示集合时，管理设备140针对源文本特征表示集合中的每个源文本特征表示计算出其与语音特征表示集合120中的多个语音特征中的每个语音特征之间的相似度。因此，可以确定出每个源文本特征表示与多个语音特征表示之间的多个相似度。

在框304处，管理设备140通过将上述多个相似度应用于多个语音特征表示，生成多个中间语音特征表示。在一些实施例中，管理设备140将该多个相似度作为权重应于其对应的语音特征以生成多个中音语音特征表示。

在框306处，管理设备140通过组合多个中间语音特征表示，生成与源文本特征表示相对应的目标文本特征表示。在一些实施例中，管理设备140将经过加权处理的多个中间语音特征表示求和来生成与源文本特征表示相对应的目标文本特征表示。

在一些实施例中，上述过程可以在语音识别结果置信度模型中实现。

通过该方法，可以快速确定出与源文本特征表示相对应的目标文本特征表示，使得可以根据语音特征表示集合整体确定出识别结果的置信度值，从而能正确定的执行语音命令，提升用户体验。

图4示出了根据本公开实施例的用于处理语音信号的装置400的示意性框图。如图4所示，装置400可以包括获取模块402，其被配置为获取所接收的语音信号的语音特征表示集合。装置400还包括源文本特征表示集合生成模块404，其被配置为基于从语音信号识别的文本，生成源文本特征表示集合，每个源文本特征表示与文本中的一个元素相对应。装置400还包括目标文本特征表示集合生成模块406，其被配置为基于语音特征表示集合和源文本特征表示集合，生成目标文本特征表示集合。装置400还包括第一匹配程度确定模块408，其被配置为确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度，匹配程度指示对文本的识别的正确性。

在一些实施例中，装置400还包括非线性变换模块，其被配置为对语音特征表示集合中的语音特征表示执行非线性变换；以及替换模块，其被配置为利用经变换的语音特征表示来替换语音特征表示集合中的语音特征表示。

在一些实施例中，目标文本特征表示集合生成模块406包括第一相似度确定模块，其被配置为确定源文本特征表示集合中的一个源文本特征表示与语音特征表示集合中的多个语音特征表示之间的多个相似度；中间语音特征表示生成模块，其被配置为通过将多个相似度应用于多个语音特征表示，生成多个中间语音特征表示；以及组合模块，其被配置为通过组合多个中间语音特征表示，生成与源文本特征表示相对应的目标文本特征表示。

在一些实施例中，第一匹配程度确定模块408包括第二相似度确定模块，其被配置为确定目标文本特征表示集合的多个目标文本特征表示和参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度；以及第二匹配程度确定模块，被配置为基于多个相似度的平均值，确定匹配程度。

在一些实施例中，装置400还包括比校模块，其被配置为将匹配程度与阈值程度进行比较；以及执行模块，其被配置为根据确定匹配程度高于阈值程度，执行文本所指示的操作。

图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。设备500可以用于实现图1中的管理设备140。如图所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如方法200和300。例如，在一些实施例中，方法200和300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的方法200和300的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于处理语音信号的方法，包括：

获取所接收的语音信号的语音特征表示集合；

基于从所述语音信号识别的文本，生成源文本特征表示集合，每个源文本特征表示与所述文本中的一个元素相对应；

基于所述语音特征表示集合和所述源文本特征表示集合，生成目标文本特征表示集合；以及

确定所述目标文本特征表示集合与针对所述文本预定义的参考文本特征表示集合的匹配程度，所述匹配程度指示对所述文本的识别的正确性；

其中生成目标文本特征表示集合包括：

确定所述源文本特征表示集合中的一个源文本特征表示与所述语音特征表示集合中的多个语音特征表示之间的多个相似度；

通过将所述多个相似度应用于所述多个语音特征表示，生成多个中间语音特征表示；以及

通过组合所述多个中间语音特征表示，生成与所述源文本特征表示相对应的所述目标文本特征表示。

2.根据权利要求1所述的方法，还包括：

对所述语音特征表示集合中的语音特征表示执行非线性变换；以及

利用经变换的所述语音特征表示来替换所述语音特征表示集合中的所述语音特征表示。

3.根据权利要求1所述的方法，其中确定所述匹配程度包括：

确定所述目标文本特征表示集合的多个目标文本特征表示和所述参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度；以及

基于所述多个相似度的平均值，确定所述匹配程度。

4.根据权利要求1所述的方法，还包括：

将所述匹配程度与阈值程度进行比较；以及

根据确定所述匹配程度高于所述阈值程度，执行所述文本所指示的操作。

5.一种用于处理语音信号的装置，包括：

获取模块，被配置为获取所接收的语音信号的语音特征表示集合；

源文本特征表示集合生成模块，被配置为基于从所述语音信号识别的文本，生成源文本特征表示集合，每个源文本特征表示与所述文本中的一个元素相对应；

目标文本特征表示集合生成模块，被配置为基于所述语音特征表示集合和所述源文本特征表示集合，生成目标文本特征表示集合；以及

第一匹配程度确定模块，被配置为确定所述目标文本特征表示集合与针对所述文本预定义的参考文本特征表示集合的匹配程度，所述匹配程度指示对所述文本的识别的正确性；

其中所述目标文本特征表示集合生成模块包括：

第一相似度确定模块，被配置为确定所述源文本特征表示集合中的一个源文本特征表示与所述语音特征表示集合中的多个语音特征表示之间的多个相似度；

中间语音特征表示生成模块，被配置为通过将所述多个相似度应用于所述多个语音特征表示，生成多个中间语音特征表示；以及

组合模块，被配置为通过组合所述多个中间语音特征表示，生成与所述源文本特征表示相对应的所述目标文本特征表示。

6.根据权利要求5所述的装置，还包括：

非线性变换模块，被配置为对所述语音特征表示集合中的语音特征表示执行非线性变换；以及

替换模块，被配置为利用经变换的所述语音特征表示来替换所述语音特征表示集合中的所述语音特征表示。

7.根据权利要求5所述的装置，其中所述第一匹配程度确定模块包括：

第二相似度确定模块，被配置为确定所述目标文本特征表示集合的多个目标文本特征表示和所述参考文本特征表示集合中、与多个目标文本特征表示相对应的多个参考文本特征表示之间的多个相似度；以及

第二匹配程度确定模块，被配置为基于所述多个相似度的平均值，确定所述匹配程度。

8.根据权利要求5所述的装置，还包括：

比校模块，被配置为将所述匹配程度与阈值程度进行比较；以及

执行模块，被配置为根据确定所述匹配程度高于所述阈值程度，执行所述文本所指示的操作。

9.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法。