CN1714390B - 语音识别设备和方法 - Google Patents

语音识别设备和方法 Download PDF

Info

Publication number
CN1714390B
CN1714390B CN2003801037287A CN200380103728A CN1714390B CN 1714390 B CN1714390 B CN 1714390B CN 2003801037287 A CN2003801037287 A CN 2003801037287A CN 200380103728 A CN200380103728 A CN 200380103728A CN 1714390 B CN1714390 B CN 1714390B
Authority
CN
China
Prior art keywords
information
station
language
voice messaging
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2003801037287A
Other languages
English (en)
Other versions
CN1714390A (zh
Inventor
Z·萨菲尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1714390A publication Critical patent/CN1714390A/zh
Application granted granted Critical
Publication of CN1714390B publication Critical patent/CN1714390B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

在用于识别对应于语音信息(SI)的文本信息(TI)的语音识别设备(1)中,其中语音信息(SI)可以相对于语言属性来描述特征,首先提供了至少两个语言属性识别装置(20,21,22,23),通过使用所述语音信息(SI),每个语言属性识别装置(20,21,22,23)被设置为识别分配给所述装置的语言属性并且生成表示识别出的语言属性的属性信息(ASI,LI,SGI,CI),并且其次提供了语音识别装置(24),在继续考虑至少两项属性信息(ASI,LI,SGI,CI)的同时被设置为识别对应于所述语音信息(SI)的文本信息(TI)。

Description

语音识别设备和方法
本发明涉及一种语音识别设备,用于识别对应于语音信息的文本信息。
本发明还涉及一种语音识别方法,用于识别对应于语音信息的文本信息。
本发明还涉及一种计算机程序产品,所述计算机程序产品被设置为识别对应于语音信息的文本信息。
本发明还涉及一种计算机,其用于运行在前一段落说明的计算机程序产品。
在上面第一段具体说明的此类语音识别设备,在上面第二段具体说明的此类语音识别方法,在上面第三段具体说明的此类计算机程序产品以及在上面第四段具体说明的此类计算机都可以从WO 98/08215号专利中获知。
在已知的语音识别设备中提供了语音识别装置,把语音信息经由麦克风馈送到所述语音识别装置。所述语音识别装置被设置为识别语音信息中的文本信息,同时继续顾及属性信息,所述属性信息表示在识别文本信息时将使用的上下文关系。为了生成所述属性信息,所述语音识别装置具有语言属性识别装置,将其设置为接收来自于所述语音识别装置的语音信息的表示,并且通过使用所述语音信息的这种表示来识别当时作为描述所述语音信息特征的语言属性而存在的上下文关系,并且生成表示所述当前上下文关系的属性信息。
在已知的语音识别设备中,存在这样的问题,即:虽然对描述语音信息特征的单个语言属性的识别、也就是当时存在的上下文关系的识别做出了规定,但是在识别所述文本信息的期间,描述所述语音信息特征的其他语言属性、诸如语音分段或者当时正被使用的语言、或者当时应用的扬声器组合,都没有予以考虑。因此,这些没有被考虑的语言属性需要在已知的语音识别设备使用之前被预先获知,如果实际上它们得到允许,那么必须被预先配置,这可能意味着必须把它们预置为固定值,即,预置为不变的,由此,对于已知的语音识别设备来说,不可能用于如下的应用,即没能考虑的这些语言属性在操作期间、即当正在识别所述文本信息时发生改变。
本发明的一个目的在于克服上面第一段具体说明的该类语音识别设备中、在上面第二段具体说明的该类语音识别方法中、在上面第三段具体说明的该类计算机程序产品合中、在上面第四段具体说明的此类计算机中存在的上述问题,并且提供了一种改进的语音识别设备、改进的语音识别方法、改进的计算机程序产品和改进的计算机。
为了实现上述的目的,在依照本发明的语音识别设备中提供了依照本发明的特征,由此使依照本发明的语音识别设备能够表现如下说明的特征,所述特征为:
一种用于识别对应于语音信息的文本信息的语音识别设备,其中语音信息可以根据语言属性来描述特征,其中第一语言属性识别装置被提供,将其设置为通过使用所述语音信息来识别第一语言属性并且生成第一属性信息,所述第一属性信息表示被识别出的第一语言属性,其中至少第二语音属性识别装置被提供,将其设置为通过使用所述语音信息来识别所述语音信息的第二语言属性并且生成第二属性信息,所述第二属性信息表示被识别的第二语言属性,并且其中语音识别装置被提供,所述语音识别装置被设置为在继续考虑至少第一属性信息和第二属性信息的同时,识别对应于所述语音信息的文本信息。
为了实现上述的目的,在依照本发明的语音识别方法中提供了依照本发明的特征,由此使依照本发明的语音识别方法能够表现如下说明的特征,所述特征为:
一种用于识别对应于语音信息的文本信息的语音生成方法,其中语音信息可以根据语言属性来描述特征,其中通过使用所述语音信息,第一语言属性被识别,其中表示被识别出的第一语言属性的第一属性信息被生成,其中通过使用所述语音信息来识别至少一个第二语音属性,其中表示被识别出的第二语言属性的第二属性信息被生成,并且其中当继续考虑至少第一属性信息和第二属性信息的同时来识别对应于所述语音信息的文本信息。
为了实现上述的目的,在依照本发明的计算机程序产品中做出规定,以便使计算机程序产品将能够直接被加载到计算机的存储器中,并且包括软件代码区,以便当在计算机上运行所述计算机程序产品时,能够由计算机来执行依照本发明设备的语音识别方法。
为了实现上述的目的,在依照本发明的计算机中做出规定,以便使所述计算机具有处理单元和内部存储器,并且可以运行在前一段落中具体说明的计算机程序产品。
通过依照本发明做出的规定,可以获得这样的优势,即:即使当多个语言属性在识别所述文本信息期间发生改变时,也能确保可靠地识别语音信息中的文本信息。本发明还给出了其他优势,即:由于这样的实事、即:在任何一个语言属性中的任意变化可以由与此语言属性相关联的属性信息项来立即表示,并且因此在识别的同时可以考虑这些变化,故而通过生成和考虑至少两项属性信息来可靠地避免因无法考虑语言属性中的变化而导致对文本信息的错误识别,因此极大地改善了识别的准确性。由此,还可以获得其他的优势,即:借助于可利用的属性信息的多个项目,可以利用语言的更加精确的模式来识别所述文本信息,由此对识别语言属性的准确性并且因此对文本信息的识别都做出了积极的影响,并且对识别文本信息的速度也做出了积极的影响。以这种方式还可以获得其他的优势,即:对于依照本发明的所述语音识别设备来说,能够用于这样的应用领域,其中对识别文本信息的灵活性有最严格要求的应用,诸如在会议期间进行自动转录语音信息的会议转录***之类的应用。在此应用领域中,即使以不同的语言通过不同的扬声器来产生存在的语音信息时,也能够近似实时地获得所述文本信息的识别。
在依照本发明的解决方案中,另外,如果提供的话,那么分别在权利要求2和权利要求7中描述的特征也被证明是有益的。其给出了如下优势,即:在识别属性信息和/或在识别文本信息的过程中,可以考虑用于接收语音信息的音频信号的带宽,其中所述音频信号的带宽取决于特定的接收信道。
在依照本发明的解决方案中,另外,如果提供的话,那么分别在权利要求3和权利要求8中描述的特征也被证明是有益的。其给出了如下优势,即:如果对于部分语音信息而言,存在有效的属性信息,即如果已经为该部分确定了所述语言属性,那么所述语音识别装置只处理该部分语音信息,由此能够可靠地避免任何不必要的浪费和识别文本信息所需的计算能力、即所谓的***资源的占用。
在依照本发明的方案中,另外,如果提供的话,那么分别在权利要求4和权利要求9中描述的特征也被证明是有益的。其给出了这样的优势,即:至少两个语言属性识别装置能够彼此影响。这还给出了如下的优势,即:所述单个语言属性能够依照次序被顺序地识别,这有助于识别所述语言属性,由此对识别文本信息的速度和准确性做出了积极的影响,并且改善了对计算能力的使用。
在依照本发明的方案中,另外,如果提供的话,那么分别在权利要求5和权利要求10中描述的特征也被证明是有益的。其给出了如下的优势,即:给定的语言属性能够依照尽可能可靠的方式被识别为另一个语言属性的函数,这是因为可用于识别给定语言属性的另一个语言属性只有在对应于另一个语言属性、即需要考虑的语言属性的属性信息实际可利用时才会被使用。
在依照本发明的计算机程序产品中,另外,如果提供的话,那么在权利要求11中描述的特征也被证明是有益的。其给出了这样的优势,即:所述计算机程序产品可以尽可能容易地被投放市场、出售或者被出租。
将参照下文所描述的实施例来阐明本发明,并且本发明的这些以及其他方面将更加显而易见,然而这些实施例并非对本发明的限制。
在所述附图中:
图1是以依照本发明一个实施例的语音识别设备的方框电路图的形式示出的示意图,
图2以类似于图1的方式示出了图1中所示的语音识别设备的预处理器装置,
图3以类似于图1的方式示出了图1中所示的语音识别设备的特征向量提取装置,
图4以类似于图1的方式示出了图1中所示的语音识别设备的接收通道识别装置,
图5以类似于图1的方式示出了图1中所示的语音识别设备的第一语言属性识别装置,
图6以类似于图1的方式示出了图1中所示的语音识别设备的第二语言属性识别装置,
图7以类似于图1的方式示出了图1中所示的语音识别设备的第三语言属性识别装置,
图8以类似于图1的方式示出了图1中所示的语音识别设备的第四语言属性识别装置,
图9以类似于图1的方式示出了图1中所示的语音识别设备的语音识别装置,
图10以类似于柱状图形式的图解法示出了图1中所示的语音识别设备的多个识别装置的活动的时序图,
图11以类似于图1的方式示出了图1中所示的音频预处理器装置的细节,
图12以类似于图1的方式示出了图3中所示的特征向量提取装置的对数滤波器组,
图13以类似于图1的方式示出了图5中所示的第一语言属性识别装置的音乐识别站,
图14以类似于图1的方式示出了图6中所示的第二语言属性识别装置的第二训练站,
图15以类似于图1的方式示出了图7中所示的第三语言属性识别装置的第四训练站,
图16以类似于图1的方式示出了图8中所示的第四语言属性识别装置的第六训练站,
图1中示出了语音识别设备1,将其被设置为识别对应于语音信息SI的文本信息TI,并且形成会议转录设备,借助于所述会议转录设备,在会议时发生的并且当会议参与者讲话时由他们产生的语音信息SI可以被转录为文本信息TI。
所述语音识别设备1是以计算机1A的形式来实现的,图1中示出了与所述语音识别设备1有关的功能组件。所述计算机1A具有图1中未示出的处理单元和内部存储器1B,不过下面将结合图1来详细说明与所述语音识别设备1有关的内部存储器1B的功能。所述语音识别设备1使用内部存储器1B来识别对应于语音信息SI的文本信息1B。计算机运行计算机程序产品,所述计算机程序产品可以直接被加载到计算机1A的存储器1B中并且具有软件代码区。
所述语音识别设备1具有接收装置2,其被设置为接收语音信息SI并且生成和发出表示语音信息SI的音频信号AS,影响语音信息SI的识别的音频信号AS带宽依赖于用于接收所述语音信息SI的接收通道或者传输通道。所述接收装置2具有第一接收站3,用于形成第一接收通道,并且借助于第一接收通道,可以经由多个麦克风4来接收所述语音信息SI,每个麦克风4均被分配给出现于会议室中的其中一个会议参与者,所述语音信息SI可以通过这些参与者来生成。与所述麦克风4相关联的是属于计算机1A的所谓的声卡(图1中未示出),借助于所述声卡,可以把所述模拟声频信号AS转换为数字音频信号AS。所述接收装置2还具有第二接收站5,用于形成第二接收通道并且借助于所述第二接收通道,可以经由多个模拟电话线路来接收所述语音信息SI。所述接收装置2还具有第三接收站6,用于形成第三接收通道并且借助于所述第三接收通道,可以经由多个ISDN电话线来接收所述语音信息SI。所述接收装置2还具有第四接收站7,用于形成第四接收通道并且借助于所述第四接收通道,可以借助于所谓的“IP语音”数据流、经由计算机数据网络来接收所述语音信息SI。所述接收装置2还被设置为以数据流的形式发出所接收的音频信号AS的数字表示,所述音频信号AS的数字表示具有音频信号格式,其对应于给定的接收通道和具有所谓的音频块以及所述音频块中包含的所谓的音频头部的数据流,其中所述音频首部规定了特定音频信号格式。
所述语音识别设备1还具有音频预处理器装置8,被设置为接收由所述接收装置2发出的所述音频信号AS。所述音频预处理器装置8还被设置为把所接收的音频信号AS转换为音频信号PAS,所述音频信号PAS依照标准格式被格式化,也就是标准的PCM格式,以便进一步被处理,并且用于发出所述音频信号PAS。为此目的,图2中所示的所述音频预处理器装置8具有代码识别站9、第一数据流控制站10、解码站11、解码算法选择站12、解码算法存储站13和高通滤波站14。所接收的音频信号AS可以被直接馈送至第一数据流控制站10。所述音频首部可以被馈送到代码识别站9。参考所述音频头部,所述代码识别站9被设置为识别由音频块表示的音频信号AS的合理编码,并且当存在编码时,用于把代码识别信息COI传输至解码算法选择站12。当存在编码时,所述代码识别站9还被设置为把数据流影响信息DCSI传输至第一数据流控制站10,以便允许被馈送到第一数据流控制站10的所述音频信号AS将被传输到所述解码站11。如果没有发现所述音频信号AS具有代码,那么借助于所述数据流影响信息DCSI,以这样一种方式,即:可以把所述音频信号AS直接从所述数据流控制站10传输到所述高通滤波站14,所述代码识别站9可以控制数据流控制站10。
所述解码算法存储站13被设置为存储多个解码算法。作为代码识别信息COI的一个函数,以软件对象的形式来实现的所述解码算法选择站12,被设置为选择其中一个所存储的解码算法,并且通过使用所选择的解码算法来实现所述解码站11。把所述解码站11设置为解码与所选解码算法有关的音频信号AS,并且把代码空闲音频信号AS传输至所述高通滤波站14。所述高通滤波站14被设置为把高通滤波应用于所述音频信号AS,由此使所述音频信号AS的干扰低频分量得以去除,而低频分量可能会对音频信号AS的进一步处理产生不利影响。
所述音频预处理器装置8还具有站15,用于生成PCM格式转换参数,其被设置为接收所述高通滤波音频信号AS并且处理属于所述高通滤波音频信号AS的PCM格式信息PCMF,所述PCM格式信息PCMF由所述特定音频首部来表示。用于生成PCM格式转换参数的所述站15还被设置为通过使用为所述音频信号AS产生的用于规定标准PCM格式的所述PCM格式信息PCMF和可定义的PCM格式配置信息PCMC(图2中未示出)来生成并且发出PCM格式转换参数PCP。
所述音频预处理器装置8还具有转换站实现站16,以软件对象的形式存在并且被设置为接收和处理所述PCM格式转换参数PCP,并且通过使用这些参数PCP来实现PCM格式转换站17。所述PCH格式转换站17被设置为接收所述高通滤波音频信号AS并且用于将其转换为音频信号PAS,并且用于从所述音频预处理器装置8发出所述音频信号PAS。所述PCM格式转换站17具有(图2中未示出)多个转换站,其可以被投入与所述PCM格式转换参数PCP有关的动作,以便实现所述PMC格式转换站17。
用于生成PCM格式转换参数的所述站15(在图11中详细示出)在其输入端具有解析站15A,通过使用所述PCM格式配置信息PCMC和所述PCM格式信息PCMF,所述解析站15A被设置为在格式转换站17设置转换站的数目以及逐一分配给它们的输入/输出PCM格式的数目,这由可以通过对象说明信息OSI来表示,所述OSI可以通过其来发出。在该情况下,所述PCM格式信息PCMF定义所述站15的输入音频信号格式,用于生成PCM格式转换参数,并且所述PCM格式配置信息PCMC定义来自于所述站15的输出音频信号格式。用于生成PCM格式转换参数的所述站15具有滤波设计站15B,通过使用所述对象说明信息OSI,所述滤波计划站15B被设置为对每个转换站设计进一步的属性,其中所述进一步的属性和对象说明信息OSI由PCM格式转换参数PCP来表示,所述PCM格式转换参数PCP可以通过所述站15来生成和发出。
图1中所示的所述语音识别设备1还具有接收通道识别装置18,其被设置为接收通过所述音频预处理器装置8预处理的音频信号PAS,以便识别在接收所述语音信息SI时正在使用的接收通道,从而生成表示所识别的接收通道的通道信息CHI,并且发出此信道信息CHI。
所述语音识别设备1还具有特征向量提取装置19,其被设置为依照与所述接收通道识别装置18类似的方式来接收通过所述音频预处理器装置8预处理的音频信号PAS以及所述通道信息CHI,并且在考虑所述通道信息CHI的同时,生成并且发出所谓的特征向量FV,这部分内容将结合图3在适当的点详细说明。
所述语音识别设备1还具有第一语言属性识别装置20,其被设置为接收表示所述语音信息SI的特征向量FV,并且用于接收所述通道信息CHI。通过使用所述特征向量FV并且通过继续考虑所述通道信息CHI,还可以把所述第一语言属性识别装置设置为识别第一语言属性——也就是声学分割——并且用于生成和发出第一属性信息,所述第一属性信息用于表示所识别的声学分割——也就是分割信息ASI。
所述语音识别设备1还具有第二语言属性识别装置21,其被设置为接收表示所述语音信息SI的特征向量FV,以便接收所述通道状态信息CHI,并且接收所述分割信息ASI。通过使用所述特征向量FV并且通过继续考虑所述通道信息CHI和所述分割信息ASI,所述第二语言属性识别装置21还被设置为识别第二语言属性——也就是涉及的语言是什么,即,例如是英语、法语或者西班牙语——并且用于生成和发出第二属性信息,所述第二属性信息用于表示所识别的语言,也就是语言信息LI。
所述语音识别设备1还具有第三语言属性识别装置22,其被设置为接收表示所述语音信息SI、通道信息CHI、分割信息ASI和语言信息LI的特征向量FV。通过使用所述特征向量FV并且通过继续考虑所述信息CHI、ASI和LI各项,还可以把所述第三语言属性识别装置22设置为识别第三语言属性,也就是讲话者组合,并且用于生成和发出第三属性信息,所述第三属性信息用于表示所识别的讲话者组合,也就是讲话者组合信息SGI。
所述语音识别设备1还具有第四语言属性识别装置23,其被设置为接收表示所述语音信息SI的特征向量FV,并且用于接收所述通道信息CHI、分割信息ASI,语言信息LI和讲话者组合信息SGI。通过使用所述特征向量FV并且通过继续考虑所述信息CHI、ASI、LI和SGI各项,还可以把所述第四语言属性识别装置23设置为识别第四语言属性,也就是上下文关系,并且用于生成和发出第四属性信息,所述第四属性信息用于表示所识别的上下文关系,也就是上下文关系信息CI。
所述语音识别设备1还具有语音识别装置24,当继续考虑通道信息CHI、属性信息ASI的第一项、属性信息LI的第二项、属性信息SGI的第三项以及属性信息CI的第四项时,将其设置为通过使用所述特征向量FV来识别所述文本信息TI并且发出所述文本信息TI,所述特征向量FV表示语音信息SI。
所述语音识别设备1还具有文本信息存储装置25、文本信息编辑装置26和文本信息发出装置27,其中所述装置25和27被设置为接收来自于所述语音识别装置24的文本信息TI。所述文本信息存储装置25被设置为存储所述文本信息TI,并且使得所述文本信息TI可供装置26和27利用以便进一步处理。
所述文本信息编辑装置26被设置为访问存储在文本信息存储装置25中的文本信息TI,并且用于使可以由语音识别装置24根据所述语音信息SI自动生成的文本信息TI能被编辑。为此目的,所述文本信息编辑装置26具有显示/输入装置(图1中未示出),以允许用户(诸如审校人之类的)编辑所述文本信息TI,以便可以人工地校正不清楚的点和错误,其中这些不清楚点和错误是在自动转录的过程中,这些不清楚的点和错误是因会议参与者不清楚或不正确的发音或者在传输音频信号AS中的问题而引起的并且出现在文本信息TI中的。
所述文本信息发出装置27被设置为发出所述文本信息TI,所述文本信息TI被存储在所述文本信息存储装置25中,并且如果需要的话,由用户来编辑,所述文本信息发出装置27具有接口装置(图1中未示出)以便把文本信息TI以数字数据流的形式传输至计算机网络并且传输至显示设备。
在下文中,在参考图10中所示的识别装置18、20、21、22、23和24的活动的图表时,将解释所述识别装置18、20、21、22、23和24如何合作。为此目的,图10中以柱状图的形式示出了单个的活动,其中第一活动条28表示所述接收通道识别装置18的活动,第二活动条29表示第一语言属性识别装置20的活动,第三活动条30表示所述第二语言属性识别装置21的活动,第四活动条31表示所述第三语言属性识别装置22的活动,第五活动条32表示第四语言属性识别装置23的活动而第六活动条33表示语音识别装置24的活动。
第一活动条28从第一开始时间点T1B向第一结束时间点T1E延伸。所述第二活动条29从第二开始时间点T2B向第一结束时间点T2E延伸。所述第三活动条30从第三开始时间点T3B向第三结束时间点T3E延伸。所述第四活动条31从第四开始时间点T4B向第四结束时间点T4E延伸。第五活动条32从第五开始时间点T5B向第五结束时间点T5E延伸。所述第六活动条33从第六开始时间点T6B向第六结束时间点T6E延伸。在给定的识别装置18、20、21、22、23或者24的活动期间,给定的识别装置完全处理整个的语音信息SI,每个识别装置18、20、21、22、23或者24在语音信息开始时并且在分配给它的特定开始时间点T1B、T2B、T3B、T4B、T5B、或者T6B开始处理所述语音信息SI,并且在分配给它的特定结束时间点T1E、T2E、T3E、T4E、T5E或者T6E完成所述处理。通常,在开始时间点T1B、T2B、T3B、T4B、T5B和T6B与结束时间点T1E、T2E、T3E、T4E、T5E和T6E之间存在的总体处理时间间隔之间几乎没有差异。然而,如果装置18、20、21、22、23和24的各个处理速度彼此不同,那么在单个总体处理时间间隔中会出现差异,如果使所述语音信息SI在离线时可利用,那么这将具有影响。在该情况下,离线的含义例如在于:所述语音信息SI被预先记录在记录介质上,并且此介质随后可以由所述语音识别设备1来访问。
所述图中还示出了对应于各个识别装置18、20、21、22、23和24的起动延迟d1至d6,在目前的情况下,因为时间轴T上的零点经选择在时间上与所述接收通道识别装置18的第一开始时间点T1B重合,所以d1=0。然而,应该提及的是,所述的零点还可以选择位于其他位置的时间点,从而使d1不等于零。
图中还记入了对应于所述识别装置18、20、21、22、23和24的相应初始处理延迟D1至D6,其中延迟D1至D6是当特定的识别装置19、20、21、22、23和24第一次生成它们各自的信息项CHI、ASI、LI、SGI、CI和TI时,由它们所引起的。di和Di之间的关系可以依照如下等式来叠加,其中根据定义,d0=0并且D0=0:
di=di-1+Di-1 i=1...6并且,由此:
d i = Σ i = 0 i - 1 D i + d 0 i = 1 . . , 6 .
在第一开始时间点T1B,所述接收通道识别装置18开始识别所述接收通道3、5、6或者7,这些通道是当接收所述语音信息SI时正在使用的。给定接收通道3、5、6或者7的识别在这样的情况下发生,在第一初始处理延迟D1期间,对于语音信息SI的第一部分的子区域而言,其中第一部分可以在音频预处理器装置8的处理延迟D1期间依照预处理的形式被传输至接收通道识别装置18,并且其中在所述接收通道识别装置18的处理延迟D1期间,可以使用第一部分以便允许所述接收通道3、5、6或者7正用于第一次被识别。在目前的情况下,所述处理延迟D1近似是一百(100)毫秒,并且语音信息SI的第一部分包括近似十个(10)所谓的帧,每个帧表示处于音频信号电平的近似10毫秒的时间段中的语音信息SI。在所述处理延迟D1结束时,所述接收通道识别装置18为所述语音信息SI的第一部分的第一帧第一次生成通道信息CHI,所述通道信息CHI表示接收通道3、5、6或者7已经被识别,并且将此通道信息CHI传输至四个语言属性识别装置20至23并且传输至所述语音识别装置24。这些在图中由成群箭头34表明。
随着时间持续至结束时间点T1E,所述接收通道识别装置18连续地生成或者产生通道信息CHI,所述通道信息被逐帧的更新,并且可供四个语言属性识别装置20至23以及所述语音识别装置24来利用,由此使得所述通道信息CHI可以由识别装置20至24逐帧的连续考虑。在此过程中,并且从所述语音信息SI的第二帧开始,每次处理语音信息SI的另一个部分,其中该部分包含与所述环境相配的多个帧,并且应用于每个第一帧的、即应用于语音信息SI给定部分的第一子区域的通道信息CHI可以被生成或者可加以利用。在该情况下,由于所述第二部分具有作为最后帧的帧(该帧与第一部分相邻但是不包含在第一部分中),并且由于所述第二部分的第一帧是通过从第一部分的第一帧继续下去的第一部分的第二帧而形成的,所以所述语音信息SI的相邻部分、诸如第一部分和第二部分彼此不同。
此时应该提及的是,在第一次生成它后,在进一步、即继续生成通道信息CHI的过程中,还可以出现不同于第一初始处理延迟D1的时间间隔,这与所述接收通道3、5、6和7的其中一个上的音频信号AS的出现有关,并且由此,当为给定数目帧的第一帧、即为语音信息SI的其他部分的第一帧生成通道信息CHI时,能够涵盖不同数目的帧。此时还应该提及的是,所述语音信息SI的相邻部分还可以相差两个帧以上。应该提及的另一点是,为其生成通道信息CHI的语音信息SI一部分的子区域还可以包括各种帧,在这种情况下,这些帧最好位于语音信息SI的一部分的起始处。应该提及的又一点是,为其生成通道信息CHI的语音信息SI一部分的此特定子区域还可以包括所述语音信息SI中包含的总体数目的帧,由此使得所述特定子区域和所述部分相同。应该提及的最后一点是,为其生成通道信息CHI的语音信息SI一部分的特定子区域不必是第一帧,而是可以是第二帧,或者是所述语音信息SI的该部分的任意其他帧。在该情况下理解一个帧具有分配给它的通道信息CHI的准确的一个单项是十分重要的。
此时预期应该说明的是,上面就为其生成相应的信息项ASI、LI、SGI、CI和TI的语音信息SI一部分和就语音信息SI的给定部分的子区域做出的说明也同样适用于装置20、21、22、23和24。
起始于时间点T2B,第一语言属性识别装置20开始对第一帧的声学分割的第一次识别,即对语音信息SI第一部分的第一子区域的第一次识别,该过程是这样来进行的,即:延迟等于起动延迟d2,并且通过使用表示语音信息SI第一部分的特征向量FV并且同时考虑所述通道信息CHI来实现,其中所述通道信息CHI是在所有情况下已经被分配给语音信息SI第一部分的每一帧的。在该情况下,所述起动延迟d2对应于由接收通道识别装置18引起的初始处理延迟D1。因此,第一语言属性识别装置20被设置为以至少为一定时间间隔的延迟来第一次识别第一帧的声学分割,其中所述时间间隔是接收通道识别装置18用于为第一帧生成通道信息CHI所需要的时间。第一语言属性识别装置20还具有属于自己的第二初始处理延迟,在这种情况下,在此处理延迟D2已经过去并且可以被传输到所述识别装置21至24之后,可以第一次为所述语音信息SI第一部分的第一帧生成分割信息ASI,此过程由单个箭头35来表明,所述单个箭头代替图10中未示出的其他箭头群。
跟随所述处理延迟D2,为所述语音信息SI的第一帧之后出现的其他帧、也就是所述语音信息SI各个部分的每个第一帧连续地生成已更新的分割信息ASI或者使其可供第一语言属性识别装置20利用,其中在上述处理的执行过程中,同时还要继续考虑对应于语音信息SI给定部分的每个帧的通道信息CHI。
起始于时间点T3B,所述第二语言属性识别装置21开始对所述第一帧的语言作第一次识别,即对语音信息SI第一部分的第一子区域的第一次识别,该过程是这样来进行的,即:延迟等于起动延迟d3,并且通过使用表示语音信息SI所述第一部分的特征向量FV,同时考虑所述通道信息CHI来实现,其中所述通道信息CHI是在所有情况下已经被分配给语音信息SI第一部分的每一帧的。在该情况下,所述起动延迟d3对应于初始处理延迟D1和D2的和,其中所述D1和D2是由接收通道识别装置18和第一语言属性识别装置20引起的。因此,所述第二语言属性识别装置21被设置为以至少为一定时间间隔的延迟来第一次识别所述第一帧的语言,其中所述时间间隔是接收通道识别装置18和语言属性识别装置20用于第一次为所述第一帧生成通道信息CHI和分割信息ASI所需要的。所述第二语言属性识别装置21还具有属于自己的第三初始处理延迟,在这种情况下,在此处理延迟D3已经完成并且可以被传输到所述识别装置22至24之后,可以第一次为所述语音信息SI的所述第一帧生成语言信息LI,此过程由单个箭头36来表明,所述单个箭头代替图10中未示出的其他箭头群。
跟随所述处理延迟D3,为所述语音信息SI的第一帧之后出现的其他帧、也就是所述语音信息SI各个部分的每个第一帧连续生成已更新的语言信息LI或者使其可供所述第二语言属性识别装置21利用,其中在上述处理的执行过程中,同时还要继续考虑对应于语音信息SI给定部分的每个帧的信息项CHI和ASI。
起始于时间点T4B,所述第三语言属性识别装置22开始对所述第一帧的讲话者组作第一次识别,即对语音信息SI第一部分的第一子区域的第一次识别,该过程是这样来进行的,即:延迟等于起动延迟d4,并且通过使用表示语音信息SI第一部分的特征向量FV并且同时考虑所述通道信息CHI、分割信息ASI和语言信息LI来实现,其中上述信息项是在所有情况下已经被分配给语音信息SI第一部分的每一帧的。在该情况下,所述起动延迟d4对应于由接收通道识别装置18、第一语言属性识别装置20和第二语言属性识别装置21引起的初始处理延迟D1、D2和D3之和。因此,所述第三语言属性识别装置22被设置为以至少为一定时间间隔的延迟来第一次识别所述第一帧的讲话者组合,其中所述时间间隔是装置18、20和21用于第一次为所述第一帧生成通道信息CHI、分割信息ASI和语音信息LI所需要的。所述第三语言属性识别装置22还具有属于自己的第四初始处理延迟D4,在这种情况下,在此处理延迟D4已经过去并且可以被传输到所述识别装置23和24之后,可以第一次为所述第一帧生成讲话者组合信息SGI,此过程由单个箭头37来表明,所述单个箭头代替图10中未示出的其他箭头群。
跟随所述处理延迟D4,为所述语音信息SI的第一帧之后出现的其他帧、也就是所述语音信息SI各个部分的每个第一帧连续生成已更新的讲话者组合信息SGI或者使其可供所述第三语言属性识别装置23利用,其中在上述处理的执行过程中,同时还要继续考虑对应于语音信息SI给定部分的每个帧的信息项CHI、ASI和LI。
起始于时间点T5B,所述第四语言属性识别装置23开始对所述第一帧的上下文关系作第一次识别,即对语音信息SI第一部分的第一子区域的第一次识别,该过程是这样来进行的,即:延迟等于起动延迟d5,并且通过使用表示语音信息SI第一部分的特征向量FV,并且同时考虑所述通道信息CHI、分割信息ASI、语言信息LI和讲话者组合信息SGI来实现,其中上述信息项是在所有情况下已经被分配给语音信息SI第一部分的每一帧的。在该情况下,所述起动延迟d5对应于由装置18、20、21和22引起的初始处理延迟D1、D2、D3和D4的和。因此,所述第四语言属性识别装置23被设置为以至少为一定时间间隔的延迟来识别所述第一帧的上下文关系,其中所述时间间隔是装置18、20、21和22用于第一次为所述第一帧生成信息项CHI、ASI、LI和SGI所需要的。所述语言属性识别装置23还具有属于自己的第五初始处理延迟D5,在这种情况下,在此处理延迟D5已经完成并且可以被传输到语音识别装置24之后,可以第一次为所述语音信息SI第一帧生成上下文关系或者主题信息CI,这通过箭头38表明。
跟随所述处理延迟D5,为所述语音信息SI的第一帧之后出现的其他帧、也就是所述语音信息SI各个部分的每个第一帧连续生成已更新的上下文关系或者主题信息CI,或者使其可供所述第四语言属性识别装置23利用,其中在上述处理的执行过程中,同时还要继续考虑对应于语音信息SI给定部分的每个帧的信息项CHI、ASI、LI和SGI。
起始于时间点T6B,所述语音识别装置24开始对所述第一帧的文本信息TI作第一次识别,即对语音信息SI第一部分的第一子区域的第一次识别,该过程是这样来进行的,即:延迟等于起动延迟d6,并且通过使用表示语音信息SI第一部分的特征向量FV,并且同时考虑所述通道信息CHI、分割信息ASI、语言信息LI、讲话者组合信息SGI和上下文关系或者主题信息CI,其中上述信息项是在所有情况下已经被分配给语音信息SI第一部分的每一帧的。在该情况下,所述起动延迟d6对应于由装置18、20、21、22和23引起的初始处理延迟D1、D2、D3、D4和D5的和。因此,所述识别装置24被设置为以至少为一定时间间隔的延迟来识别语音信息SI的第一帧的文本信息TI,其中所述时间间隔是装置18、20、21、22和23用于第一次为所述第一帧生成信息项CHI、ASI、LI、SGI和CI所需要的。所述语音识别装置24还具有属于自己的初始处理延迟D6,在这种情况下,在此处理延迟D6已经过去并且可以被传输到装置25、26和27之后,可以第一次为所述语音信息SI的第一帧生成文本信息TI。
跟随所述处理延迟D6,为所述语音信息SI的第一帧之后出现的其他帧、也就是所述语音信息SI各个部分的每个第一帧连续生成已更新的文本信息TI,或者使其可供所述语音识别装置24利用,其中在上述处理的执行过程中,同时还要继续考虑对应于语音信息SI给定部分的每个帧的信息项CHI、ASI、LI、SGI和CI。
对其的概括可以结合随时间进行的所述活动来说明,其中每当所述给定识别站20、21、22、23或者24需要用来处理给定帧的所有信息项CHI、ASI、LI、SGI或者CI在给定的识别站20、21、22、23或者24可以利用时,通过识别站20、21、22、23或者24的其中一个来处理帧。
根据上述说明,所述语音识别设备1被设置为执行一种语音识别方法以便识别对应于语音信息SI的文本信息TI,所述语音信息SI能够相对于其语言属性、也就是声学分割、语言、讲话者组合以及上下文关系或主题来描述特征。所述语音识别方法具有下列的方法步骤,也就是通过使用所述语音信息SI识别声学分割,生成表示识别出的声学分割的分割信息ASI,通过使用所述语音信息SI识别所述语言,生成表示被识别出的语言的语言信息LI,通过使用所述语音信息SI识别讲话者组合,生成表示识别出的讲话者组合的讲话者组合信息SGI,通过使用所述语音信息SI识别上下文关系或主题,生成表示识别出的上下文关系或主题的上下文关系或主题信息CI,并且在继续考虑分割信息ASI、语言信息LI、讲话者组合信息SGI以及上下文关系信息CI的同时来识别对应于所述语音信息SI的文本信息TI,生成所述信息项ASI、LI、SGI以及CI,并且下面将详细说明特定的方法,其中考虑在各个情况下为此用途而所需的信息项CHI、ASI、LI和SGI。
在所述语音识别方法中还执行的步骤是:接收所述语音信息SI,并且通过使用描述四个接收通道3、5、6和7其中一个的特征的所述音频信号AS,来识别在接收所述语音信息SI时正在使用的接收通道,生成表示识别出的接收通道3、5、6或7的通道信息CHI项,并且在识别声学分割、语言、讲话者组合、上下文关系和文本信息TI的过程中考虑所述通道信息CHI,在所有情况下,为语音信息SI给定部分的第一帧连续地进行、也就是说这个帧地识别接收通道3、5、6或7,并且此外相应地连续更新、即再生所述通道信息,并且继续考虑。
在所述语音识别方法中还进行的步骤是:在考虑对应于语音信息SI各个部分的每个帧的通道信息CHI的同时,执行声学分割的识别。在该情况下,以至少为一定时间间隔的延迟来进行语音信息SI给定部分的第一帧的声学分割识别,其中所述时间间隔是生成所述通道信息CHI所需的,在所述时间间隔期间,所述语音信息SI的给定部分可用于为给定部分第一帧生成通道信息CHI。此外的延迟是通过由第一语言属性识别装置20引起的第二处理延迟D2产生的。跟随于此,所述声学分割被逐帧的更新。
在所述语音识别方法中还进行的步骤是:在另外考虑对应于语音信息SI给定部分的每个帧的分割信息ASI的同时,执行语言的识别。在该情况下,以至少为一定时间间隔的延迟来进行语音信息SI给定部分的第一帧的语言识别,其中所述时间间隔是生成所述通道信息CHI和分割信息ASI所需的,在所述时间间隔期间,所述语音信息SI的给定部分可用于为给定部分第一帧生成两个信息项CHI和ASI。此外的延迟是通过由第二语言属性识别装置21引起的第三处理延迟D3产生的。跟随于此,所述语言被逐帧的更新。
在所述语音识别方法中还进行的步骤是:在另外考虑对应于语音信息SI给定部分的每个帧的分割信息ASI和语言信息LI的同时,执行讲话者组合的识别。在该情况下,以至少为一定时间间隔的延迟来进行语音信息SI给定部分的第一帧的讲话者组合识别,其中所述时间间隔是生成所述通道信息CHI、分割信息ASI和语言信息LI所需的,在所述时间间隔期间,所述语音信息SI的给定部分可用于为给定部分第一帧生成信息项CHI、ASI和LI。此外的延迟是通过由所述第三语言属性识别装置22引起的第四处理延迟D4产生的。跟随于此,所述讲话者组合被逐帧的更新。
在所述语音识别方法中还进行的步骤是:在另外考虑对应于语音信息SI给定部分的每个帧的分割信息ASI、语言信息LI和讲话者组合信息SGI的同时,执行上下文关系或主题的识别。在该情况下,以至少为一定时间间隔的延迟来进行语音信息SI给定部分的第一帧的上下文关系或主题识别,其中所述时间间隔是生成CHI、ASI、LI和SGI信息所需的,在所述时间间隔期间,所述语音信息SI的给定部分可用于为给定部分的子区域生成信息项CHI、ASI、LI和SGI。此外的延迟是通过由所述第四语言属性识别装置23引起的第五处理延迟D5产生的。跟随于此,所述上下文关系或主题被逐帧的更新。
在所述语音识别方法中还进行的步骤是:在考虑对应于语音信息SI给定部分的每个帧的所述CHI、ASI、LI、SGI和CI信息的同时,以至少为一定时间间隔的延迟来为语音信息SI给定部分的第一帧执行对应于所述语音信息TI的文本信息TI的识别,其中所述时间间隔是生成通道信息CHI、分割信息ASI、语言信息LI、讲话者组合信息ASI和上下文关系或主题信息CI所需的,在所述时间间隔期间,所述语音信息SI的给定部分可用于为给定部分第一帧生成信息项CHI、ASI、LI、SGI和CI。此外的延迟是通过由所述语音识别装置24引起的第六处理延迟D6产生的。跟随于此,所述文本信息TI被逐帧的更新。
当在计算机1A上运行所述计算机程序产品时,例如计算机1A来执行所述语音识别方法。把所述计算机程序产品存储在计算机可读介质(图1中未示出)上,其中所述介质在目前的情况下可以通过光盘(CD)来形成。此时应该提及的是,也可以提供DVD、类似磁带的数据载体或硬盘来作为所述介质。在目前的情况下,计算机把单个微处理器作为其处理单元。然而应该提及的是,为了性能,还可以提供多个微处理器,诸如作为每个识别装置18、20、21、22、23和24的专用微处理器。在目前的情况下,所述计算机1A的内部存储器1B可通过硬盘(图1中未示出)和暂时存储器39的组合来实现,所述暂时存储器39通过所谓的RAM来构成,这就意味着所述计算机程序产品可以首先从计算机可读介质被存储到硬盘上,并且可以被载入暂时存储器39,以便由所述处理单元运行,正如本领域技术人员所熟知的那样。所述存储器1B还被设置为存储预处理音频信号PAS和信息项CHI、ASI、LI、SGI和CI,并且存储时间相关数据项目(图1中未示出)。所述时间相关数据项表示语音信息SI的子区域和分别对应于这些子区域的信息项CHI、ASI、LI、SGI以及CI之间的时间相关性,以便能够以正确的瞬态同步来为所述语音信息SI的给定子区域识别声学分割、语言、讲话者组合、上下文关系或主题以及文本信息TI。
通过规定依照本发明的特征、以有益方式获得的效果在于:在表示语音信息SI特征的多个语言属性被同时经受基本上在随机时间点出现的改变的应用中,可以第一次使用所述语音识别设备1或所述语音识别方法。此类应用例如在会议转录***的实例中存在,其中由任意会议参与者产生的语音信息SI必须被连续地并且近似实时地转换为文本信息TI,在这种情况下,会议室中的会议参与者把所述语音信息SI经由第一接收通道3、借助于所述音频信号AS提供至语音识别设备1。在该情况下,所述会议参与者可以使用不同的语言,并且可以属于不同的讲话者组合。此外,会议期间会出现诸如背景噪声的环境,这会影响声学分割。同时,当时正使用的上下文关系或主题可能在会议期间改变。对于不在会议室的会议参与者来说,能够把与他们相关的语音信息SI经由其他接收通道5、6和7提供至语音识别设备1,也是十分有益的。甚至在该情况下,也可以保证语音识别设备1将可靠地识别所述文本信息TI,这是因为在给定情况中正使用的接收通道3、5、6或7被识别,并且在识别所述语言属性、即在生成和更新信息项CHI、ASI、LI、SCI和CI的过程中,还要继续考虑它。
例如在呼叫中心,当持续记录由正使用不同语言的任意人员的呼叫时,也存在此类应用。
例如在自动电话信息服务的情况下,当任意需求类别的呼叫者需要被服务时,也存在此类应用。此时应该清楚表明的是,这里已经被引证的应用不表示全部的并且彻底的枚举。
图3中所示的所述特征向量提取装置19具有预加强站40,其被设置为接收所述音频信号AS并且发出修改的音频信号AS”,所述AS”表示所述音频信号AS在修改的音频信号AS”中被加强的更高频率,以便使所述频率响应变平。此外还提供了帧模块化站41,其被设置为接收所述经修改的音频信号AS”,并且发出被嵌入帧F中的修改的部分音频信号AS”。在此情况下,音频信号AS”的相邻帧F在它们的边缘区域具有瞬态重叠。此外还提供了视窗站42,其被设置为接收所述帧F,并且生成表示所述帧F的修改的帧F′,其中修改的帧F′受到由帧F表示的音频信号的带宽限制,以便在后续转换至频谱电平时避免不期望的影响。在目前的情况下,把所谓的Hemming视窗用于所述视窗站。然而,应该提及的是,其他类型的视窗也可使用。此外还提供了快速傅里叶变换站43,其被设置为接收所述修改的帧F,并且在所述频谱电平上对应于修改的帧F中包含的受带宽限制的音频信号AS”的向量V1,在目前的情况下使用了所谓的“补零法”方法。此外还提供了对数滤波器组站44,其被设置为接收第一向量V1和通道信息CHI,并且使用第一向量V1并且同时考虑所述通道信息CHI来生成并且发出第二向量V2,所述第二向量V2表示可以由滤波器组方法根据第一向量V1生成的中间向量的对数映射。
图12中所示的所述对数滤波器组站44具有滤波器组参数库站44A,用于存储滤波器组参数库。此外还提供了滤波器参数选择站44B,其被设置为接收所述通道信息CHI,并且选择对应于所述通道信息CHI的滤波器组参数FP。此外还提供了所谓的对数滤波器组核心44C,其被设置为处理第一向量V1,并且生成第二向量V2,所述第二向量V2与可从所述滤波器参数选择站44B接收的滤波器组参数FP有关。
图3中所示的所述特征向量提取装置19还具有第一正规化站45,其被设置为接收第二向量V2,并且用于生成和发出第三向量V3,所述第三向量V3相对于第二向量V2的幅度没有意义。这样确保能够进一步处理,而不管所涉及的特定接收通道如何。此外还提供了第二正规化站46,其被设置为接收所述第三向量V3,并且在考虑适用于第三向量V3的每个分量的瞬态差异的同时,来生成第四向量V4,所述第四向量V4相对于第三向量V3的瞬态差异而被正规化。此外还提供了离散余弦变换站47,其被设置为接收所述第四向量V4,并且用于把所述第四向量V4转换为所谓的“cepstral”电平,并且发出对应于第四向量V4的第五向量V5。此外还提供了特征向量生成站48,其被设置为接收所述第五向量V5,并且生成第五向量V5的第一和第二时间导数,这意味着具有特征向量FV的形式的所述音频信号AS的矢量表示在所述“cepstral”电平上具有所述第五向量V5以及对应于此的时间导数,其中所述矢量表示可以由所述特征向量生成站48发出。
图4中所示的接收通道识别装置18的输入端具有频谱向量提取站49,其被设置为接收所述音频信号AS,并且提取和发出频谱向量V6,其中频谱向量V6表示所述频谱电平上的所述音频信号AS。所述接收通道识别装置18还具有带宽受限识别站50,其被设置为接收所述频谱向量V6,并且通过使用所述频谱向量V6来识别所述音频信号AS的频带限制,在特别情况中找到的带宽限制是四个接收通道的其中一个的表示。所述带宽受限识别站50还被设置为发出带宽受限信息BWI项,其表示识别出的带宽限制。所述接收通道识别装置18还具有通道归类站51,其被设置为接收所述带宽受限信息BWI,并且通过使用此信息BWI来归类当时存在的所述接收通道,并且生成对应于其的所述通道信息CHI。
图5中所示的第一语言属性识别装置20具有语音暂停识别站52、非语音识别站53和音乐识别站53,可以把所述特征向量馈送到每个识别站52、53和54。所述语音暂停识别站52被设置为识别表示语音暂停的特征向量FV,并且发出表示识别结果的语音暂停信息SI项。所述非语音识别站53被设置为接收所述通道信息CHI,并且在考虑通道信息CHI的同时来识别表示非语音的特征向量FV,并且发出表示非语音的非语音信息NSI项。所述音乐识别站54被设置为接收所述通道信息CHI,并且在考虑通道信息CHI的同时来识别音乐的特征向量FV,并且生成表示识别出音乐的音乐信息MI项。第一语言属性识别装置20还具有信息分析站55,其被设置为接收所述语音暂停信息SI、非语音信息NSI和音乐信息MI。所述信息分析站55还被设置为分析所述信息项SI、NSI和MI,并且通过所述分析来生成和发出分割信息ASI,所述分割信息ASI说明当时由特征向量FV表示的音频信号AS的帧是与语音暂停、非语音还是音乐相关联,并且,如果所述给定帧不与语音暂停、非语音或者音乐相关联,那么说明所述特定帧与语音相关联。
图13中详细示出的所述音乐识别站54被设置为以一种可训练的方式来识别音乐,并且为此目的,将其设置为接收分割训练信息STI。所述音乐识别站54具有归类站56,借助于两组所谓的“高斯混合模型”被设置为把所述特征向量FV归类为表示音乐的特征向量FV和表示非音乐的特征向量FV。属于第一组的第一高斯混合模型GMM1的每个均被分配给音乐类别,并且属于第二组的第二高斯混合模型GMM2的每个均被分配给非音乐类别。所述归类站56还被设置为发出作为归类结果的音乐信息MI。所述音乐识别站54还具有第一模型选择站57和第一模型存储站58。对于每个接收通道而言,所述第一模型存储站58被设置为存储分配给音乐类别的高斯混合模型GMM1以及分配给非音乐类别的高斯混合模型GMM2。所述第一模型选择站57被设置为接收所述通道信息CHI,并且借助于通道信息CHI来选择一对高斯混合模型GMM1和GMM2,该对模型对应于在给定的情况下说明的接收通道,并且依照此特定通道的方式来把所选的高斯混合模型GMM1和GMM2传输至归类站56。
所述音乐识别站54还被设置为训练所述高斯混合模型,并且为此目的,它具有第一训练站59以及第一数据流控制站60。在训练的过程中,均属于单个类、也就是音乐或非音乐的特征向量FV以预定方式借助于数据流控制站60被送到所述第一训练站59。所述训练站59还被设置为训练所述特定通道的高斯混合模型GMM1和GMM2对。所述第一模型选择站57被设置为把所述高斯混合模型GMM1和GMM2借助于通道信息CHI和分割训练信息STI传输至第一模型存储站58中意欲供它们使用的存储位置。
图6中所示的所述第二语言属性识别装置21在输入端具有第一语音滤波器站61,其被设置为接收所述特征向量FV和所述分割信息ASI,并且通过使用所述特征向量FV和分割信息ASI来滤出表示语音的特征向量FV,并且发出表示语音的特征向量FV。所述第二语言属性识别装置21还具有第二模型存储站62,其被设置并且意欲存储四个接收通道的每个的多语言第一音素模型PM1。所述识别装置21还具有第二模型选择站63,其被设置为接收所述通道信息CHI,并且在第二模型存储站62中通过使用所述通道信息CHI来访问多语言音素模型PM1,其对应于通道信息CHI说明的接收通道,并且发出以此方式被选择的特定通道的多语言音素模型PM1。所述识别装置21还具有音素识别站64,其被设置为接收表示语音和音素模型PM1的特征向量FV,并且通过使用所述特征向量FV和音素模型PM1来生成并且发出由特征向量FV表示的语言的标音PT。所述识别装置21还具有第三模型存储站65,其被设置并且意欲为每种语言存储音位结构模型PTM。所述识别装置21还具有第二归类站66,其被设置为访问第三模型存储站65,并且借助于所述音位结构模型PTM来根据音位结构来归类所述标音PT,提供语言的概率是可为每种可利用语言确定的。所述第二归类站66被设置为生成并且发出作为确定对应于每种语言的概率结果的所述语言信息LI,所述语言信息LI给出了得到最高概率的语言。
在识别语言方面,所述识别装置21可以依照可训练的方式来起作用,并且为此目的,其具有第二数据流控制站67、第三数据流控制站68、第二训练站69和第三训练站70。如果进行训练,可以把表示语音的所述特征向量FV借助于所述第二数据流控制站67送到所述第二训练站69。所述第二训练站69被设置为接收这些特征向量FV,接收训练文本信息TTI并且接收通道信息CHI,在这种情况下,由所述训练文本信息TTI构成的标音对应于由所述特征向量FV表示的语言。因此,通过使用所述特征向量FV和训练文本信息TTI,所述第二训练站69被设置为训练所述音素模型PM1,并且把训练了的音素模型PM1传输至模型选择站63。所述模型选择站63还借助于所述通道信息CHI被设置为把训练了的音素模型PM1传输至所述第二模型存储站62,其中可以将其存储在所述第二模型存储站62中对应于所述通道信息CHI的存储位置。
在训练过程中,能够通过所述音素识别站64产生的所述标音PT还可以借助于所述第三数据流控制站68被送到第三训练站70。所述第三训练站70被设置为接收所述标音PT,以便训练分配给给定训练语言信息TLI的音位结构模型PTM,并且把它传输至所述第三模型存储站65。所述第三模型存储站65被设置为把属于一种语言的音位结构模型PTM存储在对应于所述训练语言信息TLI的存储位置。此时应该提及的是,存储在所述第二模型存储站62和第三模型存储站65中的模型PM1和PM2在专业术语中被称为可训练的资源。
在图14详细示出的是第二训练站69,并且其具有第四模型存储站71,第三模型选择站72、模型组合站73、模型定位站74和模型估计站75。所述第四模型存储站71被设置并且意欲为每个通道和每种语言存储特定通道和特定语言的初始音素模型IPM。所述第三模型选择站72被设置为访问所述第四模型存储站71,并且接收所述通道信息CHI,并且为所有语言、通过使用所述通道信息CHI来读出对应于所述通道信息CHI的初始音素模型IPM。所述第三模型选择站72还被设置为把对应于给定通道的多种特定语言音素模型IPM传输至所述模型组合站73。所述模型组合站73被设置为集合彼此类似并且属于不同语言的特定语言音素模型IPM,并且生成初始多语言音素模型IMPM并且把它传输至所述模型定位站74。所述模型定位站74被设置为接收表示语音的特征向量FV以及对应于其的训练文本信息TTI,并且借助于所述初始多语言音素模型IMPM来生成定位信息RE项,所述定位信息RE意欲把所述特征向量FV与所述训练文本信息TTI表示的文本段对准,所述定位信息RE项在专业术语中也被称为“路径”。定位信息RE以及特征向量FV的项可以通过所述模型定位站74传输到所述模型估计站75。通过使用定位信息RE以及所述特征向量FV项,所述模型估计站75被设置为基于所述初始多语言音素模型IMPM来生成多语言音素模型PM1,并且把它传输至图7中所示的所述第二模型存储站62。为此目的,并且使用所述特征向量FV以及所述定位信息RE,生成临时多语言音素模型TMPM,并且传输到所述模型估计站74,所述多语言音素模型PM1在多个迭代站被生成,即通过所述站74和75的重复合作来生成。
图7中所示的所述第三语言属性识别装置22在输入端具有第二语音滤波器站76,其被设置为接收所述特征向量FV和所述分割信息ASI,并且通过使用分割信息ASI来滤出并且发出表示语音的特征向量FV。所述识别装置22还具有第五模型存储站77,其被设置并且意欲为每个通道和每种语言存储讲话者组合模型SGM。所述识别装置22还具有第四模型选择站78,其被设置为接收所述通道信息CHI和语言信息LI,并且通过使用所述通道信息CHI和语言信息LI来访问给定讲话者组合模型SGM,所述给定讲话者组合模型SGM对应于给定通道信息CHI和给定语言信息LI。所述第四模型选择站78还被设置为传输所述讲话者组合模型SGM,所述SGM可以作为访问第五模型存储站77的结果被读出。所述识别装置22还具有第三归类站79,其被设置为接收通过所述第四模型选择站78选择的与信息项CHI和LI有关的讲话者组合模型SGM,并且接收表示语音的特征向量FV,并且借助于所选的讲话者组合模型SGM来归类所述讲话者组合,其中可以把所述特征向量FV分配给所述讲话者组合。所述第三归类站79还被设置为生成并且发出作为归类结果的讲话者组合信息SGI。
借助于所述第五模型存储站77,实现了进一步可训练的资源,存储在其中的讲话者组合模型SGM可以依照可训练的方式来改变。为此目的,所述识别装置22具有第四训练站80和第四数据流控制站81。如果进行训练,可以把表示语言的所述特征向量FV借助于所述第四数据流控制站81送到所述第四训练站80。对于多个讲话者而言,所述第四训练站80被设置为接收分配给相应一个讲话者的特征向量FV和对应于每个特征向量FV的训练文本信息TTI,训练所述给定讲话者组合模型SGM,并且把给定的已训练讲话者组合模型SGM传输至第四模型选择站78。
图15中详细示出的所述第四训练站80具有第六模型存储站82、第五模型选择站83、模型适应站84、缓冲存储器站85和模型组合站86。所述第六模型存储站82被设置并且意欲为每个通道和每种语言存储单个讲话者音素模型SIPM。所述第五模型选择站83被设置为接收所述通道信息CHI和所述语言信息LI,并且通过使用这些信息CHI和LI项来访问所述第六模型存储站82,或者,对应于给定信息项CHI和LI的初始单个讲话者音素模型SIPM,并且发出所述单个讲话者音素模型SIPM,其中所述SIPM已经被选择并且现在是特定通道和特定语言。
所述模型适应站84被设置为接收所述初始单个讲话者音素模型SIPM,所述SIPM是依照所述通道信息CHI和所述语言信息LI来选择的,并且由此是特定通道并且特定语言、表示所述语言的特征向量FV以及对应于这些的训练文本信息TTI。对于其语音信息SI通过所述特征向量FV表示的多个讲话者而言,所述模型适应站84还被设置为生成一个讲话者模型SM,并且把它传输至所述缓冲存储器站85,其中可存储给定的讲话者模型。所述讲话者模型SM是通过使用适当处理、基于单个讲话者音素模型SIPM来生成的。一旦已经为总体数目的讲话者存储了讲话者模型SM,那么可以借助于模型组合站86根据类似讲话者的属性来把多个讲话者模型集合到单个讲话者组合模型SGM中。所述单个讲话者组合模型SGM可以被传输到所述模型选择站78,并且可以使用信息项CHI和LI、并通过所述模型选择站78来存储在所述模型存储站77中。
图8中所示的所述第四语言属性识别装置23具有用于识别关键字音素顺序的站88、关键字识别站89和用于为上下文关系或主题分配关键字的站90。所述站88被设置为接收所述特征向量FV,以便接收第二音素模型PM2,所述第二音素模型PM2是特定通道、特定语言并且特定讲话者组合的,并且接收关键字词典信息KLI。通过使用所述第二音素模型PM2和所述关键字词典信息KLI,所述站88被进一步设置为识别由所述特征向量FV表示的关键字顺序,并且生成和发出关键字评级信息KSI,其表示已经识别出的关键字和识别出它的概率。所述关键字识别站89被设置为接收所述关键字评级信息KSI,并且接收关键字判断阈值KWDT,其依赖于所述接收通道、语言、讲话者组合和关键字。借助于所述关键字判断阈值KWDT,所述站89被进一步设置为识别借助于所述关键字评级信息KSI接收到的哪些关键字已被识别出。所述关键字识别站89被设置为生成作为此识别结果的关键字信息KWI,并且把所述关键字信息KWI传输至所述站90,所述站90用于为上下文关系或主题分配关键字。用于为主题分配关键字的所述站90被设置为把借助于关键字信息KWI接收到的关键字分配给上下文关系,在专业术语中还将所述上下文关系称为主题。用于为上下文关系或主题分配关键字的所述站90被设置为生成作为此分配结果的上下文关系信息CI。所述第四语言属性识别装置23还具有第七模型存储站91,其被设置并且意欲为每个接收通道、每种语言并且每个讲话者组合存储所述第二音素模型PM2。所述识别装置23还具有第六模型选择站92,其被设置为接收通道信息CHI、语言信息LI和讲话者组合信息SGI。借助于所述通道信息CHI、语言信息LI和讲话者组合信息SGI,所述第六模型选择站92被进一步设置为选择存储在所述第七模型存储站91中的第二音素模型PM2,并且把所选的第二音素模型PM2传输至用于识别关键字音素顺序的所述站88。
所述识别装置23还具有关键字词典存储站93以及语言选择站94。所述关键字词典存储站93被设置并且意欲为每种可利用的语言存储关键字。所述语言选择站94被设置为接收所述语言信息LI,并且在这种情况下,借助于所述语言信息LI来访问所述关键字词典存储站93,对应于所述语言信息LI并且表示语言中的关键字的关键字词典信息KLI可以被传输到用于识别关键字音素顺序的所述站88。所述识别装置23还具有阈值存储站95,其被设置并且意欲存储关键字判断阈值KWDT,所述KWDT取决于给定的接收通道、语言、讲话者组合以及关键字。所述识别装置23还具有阈值选择站96,其被设置为接收通道信息CHI、语言信息LI和讲话者组合信息SGI。所述阈值选择站96还被设置为访问对应于信息项CHI、LI和SGI的所述关键字判断阈值KWDT,其是存储在阈值存储站95中的。所述阈值选择站96还被设置为把已经选择的关键字判断阈值KWDT以这种方式传输至所述关键字识别站89。
所述识别装置23还被设置为以可训练的方式来识别上下文关系或主题信息CI,两个可训练的资源是由第七模型存储站91和阈值存储站95而形成的。所述识别装置23还具有第五训练站97、第六训练站98、第五数据流控制站99和第六数据流控制站100。当将要训练所述识别装置23时,可以把所述特征向量FV借助于所述第六数据流控制站100送到所述第五训练站97。所述第五训练站97还被设置为接收所述特征向量FV和对应于其的训练文本信息TTI,并且借助于所谓的维特比算法来生成其中一个第二音素模型PM2,并且把它作为为每个通道、每种语言和每个讲话者组合生成的第二音素模型PM2的结果传输至所述第六模型选择站92。借助于所述模型选择站92,可以把第二音素模型PM2存储在所述模型存储站91中,并且存储在可借助于信息项CHI、LI和SGI确定的存储位置处。借助于所述第五数据流控制站99,还可以把所述关键字词典信息KLI送到第六训练站98。在训练过程中,用于识别关键字音素顺序的所述站88被设置为识别表示所述语言的特征向量FV中的音素顺序,并且生成表示已经识别出的音素顺序的音素评级信息PSI,并且将其传输至所述第六训练站98,所述音素评级信息PSI表示已经为它们中的每个识别出的音素以及识别它们所依照的概率。
所述第六训练站98被设置为接收所述音素评级信息PSI和关键字词典信息KLI,并且通过使用这两项信息PSI和KLI来生成、即训练对应于所述信息项CHI、LI和SGI的关键字判断阈值KWDT,并且将其传输至所述阈值选择站96。通过使用所述信息项CHI、LI和SGI,所述阈值选择站96还被设置为把所述关键字判断阈值KWDT传输至阈值存储装置95。借助于所述阈值选择站96,所述关键字判断阈值KWDT可以被存储在借助于信息项CHI、LI和SGI确定的存储位置处。
图16中详细示出的第六训练站98具有用于评估音素分布概率的站101,将其设置为接收所述音素评级信息PSI,并且基于在所有情况下应用的高斯分布的假定来评估所讲音素和未讲音素的统计分布。由此把站101设置为生成并且发出作为此评估处理结果的评估信息EI的第一项。所述第六训练站98还具有用于评估关键字概率分布的站102,其被设置为接收评估信息EI的第一项和关键字词典信息KLI。通过使用两个信息项KLI和EI,站102还被设置为:为已讲关键字和未讲关键字评估统计分布。所述站102还被设置为生成并且发出作为此评估处理结果的评估信息E2的第二项。所述第六训练站98还具有用于评估关键字判断阈值的站103,通过使用评估信息E2的第二项,所述站103被设置为评估特定的关键字判断阈值KWDT,并且发出作为此评估处理结果的关键字判断阈值KWDT。
图9中详细示出的所述语音识别装置24在输入端具有第三语音滤波器站104,其被设置为接收所述特征向量FV,并且接收所述分割信息ASI,通过使用分割信息ASI来滤出所接收的滤波向量FV并且发出表示语音的特征向量FV。
所述识别装置24还具有语音模式识别站105,其被设置为接收表示语音的滤波向量FV,接收第三音素模型PM3并且接收上下文关系或主题数据CD。通过使用所述第三音素模型PM3以及上下文关系数据CD,所述语音模式识别站105还被设置为识别表示语音的所述特征向量FV中的模式,并且作为识别此类模式的结果,生成并且发出单词图表信息WGI。所述单词图表信息WGI表示单词顺序以及它们相关联的概率信息项的图表,所述概率信息说明单词顺序能够出现在特定已讲语言中的概率。
所述识别装置24还具有图表评级站106,其被设置为接收所述单词图表信息WGI,并且找出图表中就文本信息TI的识别而言、哪一路径具有最好的单词顺序。所述图表评级站106还被设置为发出对应于作为得到此最佳单词顺序结果的最佳单词顺序的重新格式化文本信息TI′。
所述识别装置24还具有格式化存储站107和格式化站108。所述格式化存储站107被设置为存储格式化信息FI,借助于所述FI,可以表示出说明将要如何格式化所述重新格式化文本信息TI′的规则。所述格式化站108被设置为接收所述重新格式化文本信息TI′,并且访问所述格式化存储站107并且读出所述格式化信息FI。通过使用所述格式化信息FI,所述格式化108还设置为格式化所述重新格式化文本信息TI′,并且生成和发出作为格式化结果的文本信息TI。
所述识别装置24还具有第七模型存储站109,其被设置并且意欲为每个接收通道、每种语言并且每个讲话者组合存储第三音素模型PM3。此外还提供了第七模型选择站110,其被设置为接收所述通道信息CHI、语言信息LI和讲话者组合信息SGI。通过使用所述信息项CHI、LI和SGI,所述第七模型选择站110还被设置为访问所述第七模型存储站109中对应于信息项CHI、LI和SGI的第三音素模型PM3,并且读出此特定通道、特定语言和特定讲话者组合的第三音素模型PM3将其读入所述语音模式识别站105。所述识别装置24还具有上下文关系或主题存储站111。所述上下文关系或主题存储站111意在存储上下文关系或主题数据CD,其中为上下文关系或主题信息CI的每项和每种语言,上下文关系数据CD表示词典信息LXI以及对应于所述词典信息LXI的语言模型LM。所述上下文关系存储站111具有词典存储区113,其中可以存储特殊的词典信息LXI,其中词典信息LXI包括单词和单词的音素转录。所述上下文关系或主题存储站111具有语言模型存储站112,其中可以存储对应于给定词典信息LXI的语言模型LM。所述识别装置24还具有上下文关系或主题选择站114,其被设置为接收所述上下文关系或主题信息CI。
此时应该提及的是,不把所述语言信息明确地送到所述上下文关系选择站114,因为所述上下文关系信息隐含地表示语言。
通过使用所述上下文关系或主题信息CI和有关隐含表示的给定语言的信息,所述上下文关系或主题选择站114还被设置为访问所述语言模型LM,在所述上下文关系存储站111中,其对应于给定的上下文关系或主题信息CI和所述词典信息LXI,并且把所选语言模型LM和所选词典信息LXI以上下文关系数据CD的形式传输至语音模式识别站105。
所述语音识别装置24还被设置为以可训练方式来生成所述第三音素模型PM3、所述词典信息LXI和对应于一组词典信息LXI的每种语言模型LM。就此而论,所述第七模型存储站109和上下文关系存储器站111构成了所述识别装置24的可训练资源。
为了训练所述可训练的资源,所述识别装置24具有第七数据流控制站115和第七训练站116。在训练过程中,所述第七数据流控制站115被设置为不把表示语音的特征向量FV传输至语音模式识别站105,而是传输至所述第七训练站116。所述第七训练站116被设置为接收表示语音的特征向量FV以及对应于其的训练文本信息TTI。通过使用所述特征向量FV以及所述训练文本信息TTI并且借助于维特比算法,所述第七训练站116还被设置为生成给定的第三音素模型PM3,并且将其传输至所述第七模型选择站110,由此使对应于通道信息CHI、语言信息LI或讲话者组合信息SGI(视情况而定)的第三已训练音素模型PM3能够借助于所述第七模型选择站110存储在第七模型存储站109中,并且存储在由信息项CHI、SGI以及LI定义的存储位置。
所述识别装置24还具有语言模型训练站117,其被设置为接收相对较大的训练文本,所述文本在专用术语中被称为全集,并且通过全集信息COR表示。通过使用所述全集信息COR并且借助于通过信息CI说明的主题和通过信息CI隐含说明的语言所确定的词典信息LXI,所述语言模型训练站117被设置为训练或生成对应于上下文关系或主题信息CI的每一项以及由此隐含表示的语言的语言模型LM,以这种方式确定的所述词典信息LXI能够借助于上下文关系选择站114从所述词典存储站113被读出,并且将被传输到所述语言模型训练站117。所述语言模型训练站117被设置为把已经训练的语言模型LM传输至上下文关系选择站114,此后,借助于所述上下文关系选择站114并且通过使用所述信息CI来存储所述语言模型LM,并且将其存储在语音模型存储区112中意欲供它使用的存储位置。
所述识别装置24还具有词典生成站118,其被同样设置为接收全集信息COR,并且通过使用所述全集信息COR来生成对应于上下文关系信息每一项以及由此隐含表示的语言的词典信息LXI,并且将其传输至上下文关系选择站114,此后,借助于所述上下文关系选择站114并且通过使用所述信息CI,把所述词典信息LXI存储在语音模型存储区112中意欲供它使用的存储位置。为了生成所述词典信息LXI,所述识别装置24具有后站词典存储站119,其被设置为存储后站词典,其中后站词典包含单词以及单词的关联语言学转录的基本库存,如由后站转录信息BTI来表示,并且可以被发出。所述识别装置24还具有统计转录站120,基于统计转录处理,其被设置为生成所述全集中包含的单词的标音,所述标音可以依照统计转录信息STI表示的形式被发出。
所述识别装置24还具有标音站121,其被设置为接收包含全集的所述全集文本信息CTI中每一单个单词,通过考虑上下文关系或主题信息CI以及有关其中隐含的语言的信息,可以使全集文本信息CTI的每一单词的语言学转录依照全集标音信息CPTI的形式可供词典生成站118所利用,并且可以被传输至所述词典生成站118。为此目的,所述语言学转录站121被设置为检验适当的标音是否对后站词典存储站119中的给定单词有效。如果是这样的话,那么所述信息BTI形成所述信息CPTI。如果适当的转录不可利用,那么所述标音站121被设置为使表示给定单词的信息STI可以用于形成所述信息CTI。
此时应该提及的是,所述第三音素模型PM3也称为声学基准,这意味着所述可训练的资源包括所述声学基准以及上下文关系或主题。
此时还应该提及的是,在每个站69、80、97和116采用了所谓的训练词典,借助于此,给定训练操作所需的标音可以根据训练文本或全集信息TTI来生成。
在所述语音识别装置24中,可以依照多级方式生成并且均表示语言属性的信息项ASI、LI、SGI和CI产生三个主要的影响。第一影响在于:借助于第三语音滤波器站104的分割信息ASI来控制特征向量FV的过滤。这给出了如下优势,可以精确地快速地并且可以自律地执行文本信息TI的识别,而且无论先前方式如何都可执行,其中表示所述语音信息SI的特征向量FV也许已受到例如背景噪声的影响。第二影响在于:借助于所述通道信息CHI、语言信息LI和讲话者组合信息SGI,在所述资源处控制对应于这些信息项的声学基准的选择。这给出了如下的优势,因为所述声学基准以很大的准确性来为语言的声学语言属性建模,所以给文本信息TI的精确识别带来了相当大的作用。第三影响在于:借助于所述上下文关系或主题信息在所述资源处控制上下文关系或主题的选择。这给出了如下的优势,对文本信息TI的精确和快速使用带来了积极的作用。就精确识别而言,因为可选择的主题为实际主题建模,在该情况下存在的主题比存在被严格预置的相对宽的主题的情况的精确性更高,故而可以获得优势。就快速识别而言,因为对应于上下文关系或主题信息CI的其中一项的特定词汇只覆盖语言中的一些单词,并且因此可以相对小,并且能够以相对高的速度来处理,故而可以获得优势。
在目前的情况下,所述识别站21、22和24均具有各自的语音滤波器站61、76和104已经被证实是十分有益的。由于其功能,所以所述识别站23隐含地包含语音滤波器机构。应该提及的是,代替三个语音滤波器站61、76和104,还可以提供如图1所示的单个语音滤波器站122,将其连接至所述识别站21、22、23和24的上行端,这样做不会对识别站23的操作产生任何不良影响。这样往往给出如下的优势,其中所述三个语音滤波器站61、76和104往往变得不必要,并且在某种情况下,所述特征向量FV的处理因此可以被更快地执行。
应该提及的是,代替连接装置20至24上行端的所述特征向量提取装置19,每个装置20至24可以具有分配给它的个体特征向量提取装置,可以把预处理的音频信号PAS馈送到其中。这使个体特征向量提取装置的每个可以最佳地并且逐一地适应其相应装置20至24的操作。这给出了如下的优势,其中可以依照逐个适应的方式在不同于cepstral电平的电平上进行预处理音频信号PAS的矢量表示。
应该提及的是,借助于存储介质或者借助于计算机网络,可以使所述语音信息SI为所述语音识别设备1来利用。
应该提及的是,所述站12还可以通过硬件来实现。
应该提及的是,所述转换站实现站16还可以作为硬件方案来实现。
应该提及的是,所述音频信号PAS的子区域以及对应于其的信息项CHI、ASI、LI、SGI和CI还可以依照所谓的软件对象形式来存储,并且识别装置18、20、21、22、23和24可以被设置为生成、改变和处理这种软件对象。所述音频信号PAS的子区域的存储、以及与它们分别相关联的信息项CHI、ASI、LI、SGI和CI的存储或管理,可以通过装置18、20、21、22、23、24和25来独立地执行。还应该提及的是:装置8、19以及所述站122可以通过软件对象来实现。所述识别装置18、20、21、22、23、24和25的情况也是一样的。还应该提及的是:所述装置8、18、19、20、21、22、23、24和25可以以硬件的形式来实现。
在如上所述的实施例中,所述装置24形成所谓的“大型词汇连续语音识别器”。然而应该提及的是,所述装置24还可以形成所谓的“命令和控制识别器”,在这种情况下,所述上下文关系或主题只包括词典而不包括语言模型。该做出了允许管理至少一个语法模型的附加规定。
为了装置23和24的目的,还可以做出把信息项CHI、LI和SGI合并成所谓的音素模型信息的规定,这是因为所述三个信息项确定特定的音素模型,尽管所述LI信息独立于并且除装置23情况下的所述音素典型信息之外被使用。这给出了简化语音识别设备1的体系结构的优势。
还可以做出进一步的规定,以便使在装置20中可以识别所谓的“口吃”。

Claims (6)

1.一种语音识别设备,用于识别对应于语音信息的文本信息,所述语音识别设备包括:
多个接收站,用于通过相应多个传输通道接收语音信息;
通道识别器,耦合到多个接收站,用于接收语音信息,所述通道识别器识别多个接收站之中哪一个接收站正在接收语音信息,以识别多个传输通道之中的正在使用通道并提供所述正在使用通道的通道信息;
特征向量提取器,用于基于通道信息从语音信息中提取至少一个特征向量;
分割识别器,用于执行语音信息的声学分割,以便基于通道信息和至少一个特征向量来提供指示在语音信息中识别的至少一个分段的声学分割信息,用于所述语音信息的所述至少一个分段的声学分割信息指示:是否所述至少一个分段与语音暂停、非语音、音乐或语音相关联;
语言识别器,用于通过分析语音信息和基于通道信息、至少一个特征向量与声学分割信息来确定语音信息的语言;和
语音识别器,用于基于通道信息、至少一个特征向量、声学分割信息和语言来提供对应于在语音信息中识别的字的文本信息。
2.如权利要求1所述的语音识别设备,其中多个接收站包括以下之中的至少两个:
安装在计算机中的声卡,所述声卡连接到话筒;
用于接收模拟电话线路的连接;
用于接收综合业务数字网(ISDN)电话线路的连接;和
用于接收网际协议话音(VoIP)数据流的连接。
3.如权利要求2所述的语音识别设备,还包括主题识别器,用于基于特征向量、通道信息、声学分割信息、语言信息和讲话者组合信息来识别语音信息中的至少一个关键字,且其中所述语音识别器进一步基于所述至少一个关键字来提供文本信息。
4.一种用于识别对应于语音信息的文本信息的语音识别方法,所述语音识别方法包括:
通过多个传输通道,接收语音信息;
识别多个传输通道之中哪一个传输通道正在接收语音信息,以识别多个传输通道中的正在使用通道;
提供所述正在使用通道的通道信息;
基于通道信息,从语音信息中提取至少一个特征向量;
执行语音信息的声学分割,以便基于通道信息和至少一个特征向量来提供指示在语音信息中识别的至少一个分段的声学分割信息,用于所述语音信息的所述至少一个分段的声学分割信息指示:是否所述至少一个分段与语音暂停、非语音、音乐或语音相关联;
通过分析语音信息和基于通道信息、至少一个特征向量与声学分割信息,确定语音信息的语言;和
基于通道信息、至少一个特征向量、声学分割信息和语音信息的语言,提供对应于在语音信息中识别的字的文本信息。
5.如权利要求4所述的语音识别方法,其中通过多个传输通道接收语音信息包括通过以下之中的至少两个来接收语音信息:
安装在计算机中的声卡,所述声卡连接到话筒;
模拟电话线路;
综合业务数字网(ISDN)电话线路;和
网际协议话音(VoIP)数据流。
6.如权利要求4所述的语音识别方法,还包括:
基于特征向量、通道信息、声学分割信息、语言信息和讲话者组合信息,识别语音信息中的至少一个关键字;和
进一步基于所述至少一个关键字,提供文本信息。
CN2003801037287A 2002-11-22 2003-10-31 语音识别设备和方法 Expired - Fee Related CN1714390B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02102626.5 2002-11-22
EP02102626 2002-11-22
PCT/IB2003/004920 WO2004049308A1 (en) 2002-11-22 2003-10-31 Speech recognition device and method

Publications (2)

Publication Number Publication Date
CN1714390A CN1714390A (zh) 2005-12-28
CN1714390B true CN1714390B (zh) 2010-12-22

Family

ID=32338146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2003801037287A Expired - Fee Related CN1714390B (zh) 2002-11-22 2003-10-31 语音识别设备和方法

Country Status (6)

Country Link
US (1) US7689414B2 (zh)
EP (1) EP1565906A1 (zh)
JP (1) JP2006507530A (zh)
CN (1) CN1714390B (zh)
AU (1) AU2003278431A1 (zh)
WO (1) WO2004049308A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI585757B (zh) * 2015-07-06 2017-06-01 國立屏東大學 口吃偵測方法與裝置、電腦程式產品
TWI585756B (zh) * 2015-07-30 2017-06-01 國立屏東大學 口吃偵測方法與裝置、電腦程式產品

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
US9653070B2 (en) 2012-12-31 2017-05-16 Intel Corporation Flexible architecture for acoustic signal processing engine
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
CN103500579B (zh) * 2013-10-10 2015-12-23 中国联合网络通信集团有限公司 语音识别方法、装置及***
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
GB2549117B (en) * 2016-04-05 2021-01-06 Intelligent Voice Ltd A searchable media player
CN107437416B (zh) * 2017-05-23 2020-11-17 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN111369978B (zh) * 2018-12-26 2024-05-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
WO2021035067A1 (en) * 2019-08-20 2021-02-25 The Trustees Of Columbia University In The City Of New York Measuring language proficiency from electroencephelography data
JP2021177598A (ja) * 2020-05-08 2021-11-11 シャープ株式会社 音声処理システム、音声処理方法、及び音声処理プログラム
US20240184859A1 (en) * 2022-12-01 2024-06-06 Bank Of America Corporation Auto-segmentation of non-fungible tokens using machine learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6125198A (ja) * 1984-07-13 1986-02-04 株式会社日立製作所 音声認識装置
JPS6295610A (ja) * 1985-10-21 1987-05-02 Sumitomo Heavy Ind Ltd 係船機の多チヤンネルボイスコントロ−ル装置
JPS62235998A (ja) * 1986-04-05 1987-10-16 シャープ株式会社 音節識別方式
US5867817A (en) 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager
JP3444108B2 (ja) * 1996-09-24 2003-09-08 三菱電機株式会社 音声認識装置
JP2000206985A (ja) * 1999-01-13 2000-07-28 Olympus Optical Co Ltd 音声認識装置
JP2000206987A (ja) * 1999-01-13 2000-07-28 Olympus Optical Co Ltd 音声認識装置
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
US6345254B1 (en) * 1999-05-29 2002-02-05 International Business Machines Corp. Method and apparatus for improving speech command recognition accuracy using event-based constraints
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
JP2001067593A (ja) * 1999-08-30 2001-03-16 Honda Motor Co Ltd 道路交通情報報知システム
DE60122257T2 (de) * 2000-02-25 2007-06-28 Koninklijke Philips Electronics N.V. Vorrichtung zur spracherkennung mit referenztransformationsmitteln
JP4600706B2 (ja) * 2000-02-28 2010-12-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
DE60231617D1 (de) * 2001-06-19 2009-04-30 Speech Sentinel Ltd Sprecherverifikation
EP1456837B1 (de) * 2001-12-21 2006-03-22 Telefonaktiebolaget LM Ericsson (publ) Verfahren und vorrichtung zur spracherkennung
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI585757B (zh) * 2015-07-06 2017-06-01 國立屏東大學 口吃偵測方法與裝置、電腦程式產品
TWI585756B (zh) * 2015-07-30 2017-06-01 國立屏東大學 口吃偵測方法與裝置、電腦程式產品

Also Published As

Publication number Publication date
US7689414B2 (en) 2010-03-30
US20060074667A1 (en) 2006-04-06
EP1565906A1 (en) 2005-08-24
WO2004049308A1 (en) 2004-06-10
AU2003278431A1 (en) 2004-06-18
CN1714390A (zh) 2005-12-28
JP2006507530A (ja) 2006-03-02

Similar Documents

Publication Publication Date Title
CN1714390B (zh) 语音识别设备和方法
CN110853649A (zh) 基于智能语音技术的标签提取方法、***、设备及介质
Ince Digital Speech Processing: Speech Coding, Synthesis and Recognition
EP2523442A1 (en) A mass-scale, user-independent, device-independent, voice message to text conversion system
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及***
KR101131278B1 (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
CN109977202A (zh) 一种智能客服***及其控制方法
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN111489743B (zh) 一种基于智能语音技术的运营管理分析***
CN108062212A (zh) 一种基于场景的语音操作方法及装置
CN111489754B (zh) 一种基于智能语音技术的话务数据分析方法
CN107910004A (zh) 语音翻译处理方法及装置
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
EP1317749B1 (en) Method of and system for improving accuracy in a speech recognition system
CN113724718A (zh) 目标音频的输出方法及装置、***
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
US20030120490A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recorgnition system
CN107886940A (zh) 语音翻译处理方法及装置
CN102196100A (zh) 通话即时翻译***及方法
CN111414748A (zh) 话务数据处理方法及装置
US7853451B1 (en) System and method of exploiting human-human data for spoken language understanding systems
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
JP2005520194A (ja) テキストメッセージの生成

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: DIFFERENTIAL COMMUNICATION AUSTRIA ROMPLAST-14

Free format text: FORMER OWNER: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Effective date: 20090731

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090731

Address after: Austria Vienna

Applicant after: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Address before: Holland Ian Deho Finn

Applicant before: Koninklijke Philips Electronics N.V.

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATION INC.

Free format text: FORMER OWNER: NUANCE COMMUNICATION AUSTRIA CO., LTD.

Effective date: 20131023

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20131023

Address after: Massachusetts, USA

Patentee after: Nuance Communications, Inc.

Address before: Austria Vienna

Patentee before: KONINKLIJKE PHILIPS ELECTRONICS N.V.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101222

CF01 Termination of patent right due to non-payment of annual fee