CN108417222A - 加权有限状态变换器解码***以及语音识别*** - Google Patents
加权有限状态变换器解码***以及语音识别*** Download PDFInfo
- Publication number
- CN108417222A CN108417222A CN201810090016.4A CN201810090016A CN108417222A CN 108417222 A CN108417222 A CN 108417222A CN 201810090016 A CN201810090016 A CN 201810090016A CN 108417222 A CN108417222 A CN 108417222A
- Authority
- CN
- China
- Prior art keywords
- data
- finite state
- weighted finite
- arc
- arcs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006835 compression Effects 0.000 claims abstract description 62
- 238000007906 compression Methods 0.000 claims abstract description 62
- 230000015654 memory Effects 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 12
- 238000013075 data extraction Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000006837 decompression Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 239000002699 waste material Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 101100537937 Caenorhabditis elegans arc-1 gene Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供加权有限状态变换器解码***及语音识别***。加权有限状态变换器解码***包括:存储器,存储加权有限状态变换器数据;以及加权有限状态变换器解码器,包括数据提取逻辑。加权有限状态变换器数据具有包括状态及弧的结构,弧具有方向性地连接各状态。加权有限状态变换器数据被压缩在存储器中。加权有限状态变换器数据包括主体数据及报头数据,报头数据包括不连续地对齐的每一个状态的状态信息。主体数据包括连续地对齐的弧的弧信息。状态信息包括弧的弧索引、弧的数目及弧的压缩信息,且数据提取逻辑使用压缩信息对加权有限状态变换器数据进行解压缩,并从存储器撷取加权有限状态变换器数据。本发明可减小存储器所需的容量以及减小带宽。
Description
[相关申请的交叉参考]
本申请主张2017年2月10日在韩国知识产权局提出申请的韩国专利申请第10-2017-0018455号的优先权以及从所述韩国专利申请衍生出的所有权利,所述韩国专利申请的内容全文并入本申请供参考。
技术领域
根据本发明的***、设备及方法涉及一种加权有限状态变换器(weightedfinite-state transducer,WFST)解码***和包括该解码***的语音识别***以及存储加权有限状态变换器数据的方法。
背景技术
近来,加权有限状态变换器(WFST)被广泛用于语音识别的解码器阶段。加权有限状态变换器是指网络形式的数据结构,在所述数据结构中收集并优化在语音识别中使用的例如语法、发音等信息。
由于大小的原因,加权有限状态变换器必须存储在例如动态随机存取存储器等外部存储器中,以允许例如移动接入点(access point,AP)等硬件对该加权有限状态变换器进行存取。同时,由于在移动环境中外部存储器具有有限的大小,因此对加权有限状态变换器进行压缩及存储是有利的,这是因为压缩可减少所需的存储器大小并且可同时减小带宽。
发明内容
本发明一方面提供一种加权有限状态变换器解码***,所述加权有限状态变换器解码***用于对被压缩成小容量的加权有限状态变换器数据进行解码。
本发明另一方面提供一种语音识别***,所述语音识别***使用被压缩成小容量的加权有限状态变换器数据。
本发明再一方面提供一种存储被压缩成小容量的加权有限状态变换器数据的方法。
本发明并非仅限于上述那些方面,且通过阅读以下说明,所属领域中的技术人员将清楚地理解除了本文所述示例性实施例之外的其他示例性实施例。
根据示例性实施例的一方面,提供一种加权有限状态变换器(WFST)解码***,所述加权有限状态变换器解码***包括:存储器,其被配置成存储加权有限状态变换器数据;和加权有限状态变换器解码器,其包括数据提取逻辑,其中所述加权有限状态变换器数据具有包括一个或多个状态以及一个或多个弧的结构,所述一个或多个弧具有方向性地连接所述一个或多个状态,所述加权有限状态变换器数据被压缩在所述存储器中,所述加权有限状态变换器数据包括主体数据以及报头数据,所述报头数据包括不连续地对齐的所述一个或多个状态中的每一者的状态信息,所述主体数据包括连续地对齐的所述一个或多个弧的弧信息,所述状态信息包括所述一个或多个弧的弧索引、所述一个或多个弧的数目以及所述一个或多个弧的压缩信息,并且所述数据提取逻辑被配置成使用所述压缩信息对所述加权有限状态变换器数据进行解压缩,并从所述存储器撷取所述加权有限状态变换器数据。
根据示例性实施例的另一方面,提供一种语音识别***,所述语音识别***包括:话音采样模块,其被配置成将语音采样成数字数据;和语音识别模块,其被配置成抽取所述数字数据的特征向量、对所述特征向量进行评分以形成被评分数据并通过引用加权有限状态变换器(WFST)数据来从所述被评分数据导出语句数据,其中所述语音识别模块包括加权有限状态变换器解码器,所述加权有限状态变换器解码器被配置成对所述加权有限状态变换器数据进行解压缩并从外部存储器撷取所述加权有限状态变换器数据,且所述加权有限状态变换器数据具有包括一个或多个状态以及一个或多个弧的结构,所述一个或多个弧具有方向性地连接所述一个或多个状态,所述加权有限状态变换器数据被压缩,所述加权有限状态变换器数据包括报头数据及主体数据,所述报头数据包括不连续地对齐的所述一个或多个状态中的每一者的状态信息,所述主体数据包括连续地对齐的所述一个或多个弧的弧信息,且所述状态信息包括所述一个或多个弧的弧索引、所述一个或多个弧的数目以及所述一个或多个弧的压缩信息。
根据示例性实施例的另一方面,提供一种语音识别***,所述语音识别***包括:数据提取逻辑,其被配置成撷取加权有限状态变换器(WFST)数据,所述加权有限状态变换器数据具有包括一个或多个状态以及一个或多个弧的结构,所述一个或多个弧具有方向性地连接所述一个或多个状态,其中所述加权有限状态变换器数据包括报头数据及主体数据,所述报头数据包括不连续地对齐的所述一个或多个状态中的每一者的状态信息,所述主体数据包括连续地对齐的所述一个或多个弧的弧信息,其中所述状态信息包括所述一个或多个弧的弧索引、所述一个或多个弧的数目以及所述一个或多个弧的压缩信息,并且其中所述数据提取逻辑包括加权有限状态变换器解压缩器及地址控制逻辑,所述加权有限状态变换器解压缩器被配置成使用所述压缩信息对所述主体数据进行解压缩,所述地址控制逻辑被配置成使用所述弧索引、所述一个或多个弧的所述数目以及所述一个或多个弧的所述压缩信息来导出所述主体数据的地址;以及数据处理器,其被配置成接收被评分数据并使用从所述数据提取逻辑传送的所述加权有限状态变换器数据来形成被重新评分数据。
根据示例性实施例的再一方面,提供一种存储加权有限状态变换器(WFST)数据的方法,所述加权有限状态变换器数据具有包括一个或多个状态以及一个或多个弧的结构,所述一个或多个弧具有方向性地连接所述一个或多个状态。单独地存储报头数据与主体数据。所述报头数据包括不连续地对齐的所述一个或多个状态的状态信息。所述状态信息包括使用所述状态作为起始点的所述一个或多个弧的弧索引、所述一个或多个弧的数目以及所述一个或多个弧的压缩信息。所述主体数据包括连续地对齐的所述一个或多个弧的弧信息。所述弧信息包括一个或多个要素,所述一个或多个要素包括关于下一状态、输入标签、输出标签、图表成本以及其他信息中的任意者的信息。在压缩信息中所包含的任何要素不包含在所述主体数据中。
附图说明
通过参照附图详细阐述本发明的示例性实施例,对所属领域中的普通技术人员来说,以上及其他方面将变得更显而易见,在附图中:
图1是根据一些示例性实施例的语音识别***的示例性方块图。
图2是为解释图1所示语音识别***的语音识别电路的详细配置而提供的方块图。
图3是为解释图2所示语音识别电路的加权有限状态变换器解码器的详细配置而提供的方块图。
图4是为解释根据一些示例性实施例的语音识别***的加权有限状态变换器数据结构而提供的示例图。
图5是为解释根据一些示例性实施例的语音识别***及加权有限状态变换器解码***的弧信息而提供的示例图。
图6是为解释根据一些示例性实施例的语音识别***及加权有限状态变换器解码***中的以相同状态作为起始点的一组弧信息而提供的示例图。
图7及图8是为解释根据一些示例性实施例的存储语音识别***及加权有限状态变换器解码***的弧信息的方法而提供的示例图。
图9是为解释根据一些示例性实施例的加载语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
图10是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
图11是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
图12是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
图13是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
图14是为解释根据一些示例性实施例的语音识别***及加权有限状态变换器解码***的弧信息的压缩信息而提供的概念图。
图15是为解释根据一些示例性实施例的加载语音识别***及加权有限状态变换器解码***的弧信息的方法而提供的概念图。
[符号的说明]
0、1、2、3、4、5、6:状态
100:移动核心
110:话音采样电路
120:语音识别电路
121:特征提取器
122:声学模型
123:加权有限状态变换器解码器
124:顺序解码器
130:数据处理逻辑
140:数据提取逻辑
150:地址控制逻辑
160:加权有限状态变换器解压缩器
200:服务器
210:较高层服务
300:外部存储器
a1、Arc 0:第一弧/弧
a2、a3、a4、a5、a6、a7:弧
a8:第八弧/弧
Arc 1、Arc n:弧/第二弧、第(n+1)弧
i0:弧信息/下一状态
i1:弧信息/输入标签
i2:弧信息/输出标签
i3:弧信息/图表成本
i4:弧信息/其他信息
Rw:浪费区
S1:第一群组
S1':第一压缩群组
具体实施方式
在下文中,将参照图1至图3阐述语音识别***的示例性实施例。
图1是为解释根据一些示例性实施例的语音识别***而提供的示例性方块图。图2是为解释图1所示语音识别***的语音识别电路的详细配置而提供的方块图。图3是为解释图2所示语音识别电路的加权有限状态变换器解码器的详细配置而提供的方块图。
参照图1至图3,根据一些示例性实施例的语音识别***可包括移动核心100及服务器200。
移动核心100可表示移动装置的核心部分。移动核心100可以是便携式装置,例如手机、平板个人计算机(tablet personal computer,tablet PC)、等等。然而,示例性实施例并非仅限于以上给出的实例。移动核心100可包括微处理器、存储器以及对这些元件进行连接的总线。
移动核心100可与服务器200间隔开。移动核心100可通过网络链接连接到服务器200。
移动核心100可包括话音采样电路110及语音识别电路120。
话音采样电路110可将人类话音(即,语音)采样成数字数据。也就是说,话音采样电路110可使用外部装置(例如,麦克风)接收人类语言作出输入,并输出数字信号。话音采样电路110可将数字数据传送到语音识别电路120。
语音识别电路120可从话音采样电路110接收数字数据。语音识别电路120可在接收到数字数据时执行语音识别。结果,可输出经语音识别的数据,例如语句数据。语句数据可经由上述网络链接传送到服务器。
语句数据可为从由人类讲述的内容转化成的数字数据的形式。也就是说,语句数据可指代作为完成语音识别之后的结果的数据形式。
服务器200可在完成语音识别之后接收数据。也就是说,服务器200可通过有线方式或无线方式从移动核心100接收语句数据。语句数据可用于较高层服务210。
较高层服务210可指较高层次的服务,例如对经语音识别的内容进行转译,例如根据经语音识别的内容来驱动另一个装置及执行特定功能。举例来说,在普适计算(ubiquitous computing)等远程条件下,语音识别可向网络上的或近距离的另一个装置发送命令,经语音识别的内容可通过数据形式被记录或者被显示给用户。
较高层服务210可不仅限于特定形式的服务。也就是说,可利用语句数据来提供的每一种服务类型均可包含在较高层服务210中。
参照图2,语音识别电路120可包括特征提取器121、声学模型122、加权有限状态变换器解码器123及顺序解码器124。
首先,特征提取器121可从话音采样电路110接收数字数据(语音信号)。特征提取器121可从数字数据提取特征向量。特征向量可根据语言来指代每个构成要素。在一些示例性实施例中,可为多个构成要素中的每一个提供特征向量。
构成要素可为由作为语句的构成要素中的一者的词间距界定的短语,或者构成要素可为单词、构成单词的音节或构成音节的音素(例如辅音及/或元音)形式。
也就是说,在所读语句“I'm going home”中,“I'm”、“going”及“home”中的每一者可既是构成要素也是特征向量,或者单词“I”、“am”、“going”及“home”可分别为构成要素。作为另外一种选择,可将构成要素划分成音节,例如“go”及“ing”。作为另外一种选择,可将构成要素划分成音素,例如“g”及“o”。
可根据语音识别的准确度、难度、目的及性能来通过预定层次及方法执行特征向量的提取。
声学模型122可对被提取为各个特征向量的构成要素进行评分。也就是说,由于每一个人都具有其自身的话音及口音,因此声学模型122可利用概率或评分来表示语句的各特征向量中的每一者的声音。
举例来说,发音是“I'm”的向量可被评分为:所述发音为“I'm”的可能性是0.8,而所述发音为“Am”的可能性是0.2。结果,可通过对可根据每一个说话者的特性而变化的发音进行补偿来执行准确的语音识别。
声学模型122的评分方法可为高斯混合模型(Gaussian Mixture Model,GMM)或长短期存储器(Long Short Term Memory,LSTM),但并不仅限于此。
加权有限状态变换器解码器123可对被评分数据进行重新评分并形成被重新评分数据。加权有限状态变换器解码器可使用之前所存储的加权有限状态变换器数据(例如,一种数据库(library))来对被评分数据进行重新评分。
也就是说,加权有限状态变换器数据可使用一条或多条规则(例如,语法规则及/或发音规则)来检查语句的准确度。也就是说,加权有限状态变换器数据可提供“I'mgoing”之后接的是“home”还是“eat”的可能性。
举例来说,可将可能性或评分提供成为“home”提供1.0而为“eat”提供“0”。结果,可将利用现有声学模型指定的评分重新指定并记录为更准确的评分。
顺序解码器124可接收被重新评分数据作为输入并输出语句数据。顺序解码器124可通过检查语句的次序等方式来完成完整的语句。然而,根据一些示例性实施例,可省略顺序解码器124,且可由加权有限状态变换器解码器123来输出完成的语句。
参照图3,加权有限状态变换器解码器123可包括数据处理逻辑130及数据提取逻辑140。
数据处理逻辑130可从声学模型122接收被评分数据作为输入。可向数据处理逻辑130提供来自数据提取逻辑140的加权有限状态变换器数据。数据处理逻辑130可使用被评分数据及加权有限状态变换器数据来输出被重新评分数据。
在实例中,被重新评分数据可使用被评分数据的成本(即,评分)以及加权有限状态变换器数据的成本(即,评分)导出新评分。在实例中,导出新评分的方法可使用各种方法,例如平均值、加权平均值、中值、等等。这种方法可通过适合于总体***性能及用途的方式来进行预先设定。
数据提取逻辑140可从外部存储器300撷取加权有限状态变换器数据。在实例中,外部存储器300可为易失性存储器(例如,动态随机存取存储器),但并非仅限于此。
数据提取逻辑140可包括地址控制逻辑150及加权有限状态变换器解压缩器160。
地址控制逻辑150可使用记录在加权有限状态变换器数据的报头上的地址信息查找主体的地址。以下将对此进行详细解释。
加权有限状态变换器解压缩器160可将压缩形式的加权有限状态变换器数据恢复到原始形式。也就是说,考虑到加权有限状态变换器的大小较大,可能需要对加权有限状态变换器数据进行压缩及存储。因此,加权有限状态变换器数据可被划分成报头数据及主体数据,并被存储。以下将对此进行详细解释。
另外,可通过对可被压缩的一部分进行压缩来使加权有限状态变换器数据的数据大小最小化,这样可减小存储器所需容量的以及减小带宽。
加权有限状态变换器解压缩器160可将加权有限状态变换器数据从压缩状态恢复到原始形式。结果,数据处理逻辑130可有助于促进重新评分操作。
尽管以上阐述了加权有限状态变换器解码器123是语音识别***的子结构,然而示例性实施例并非仅限于此。也就是说,除了用于语音识别***之外,加权有限状态变换器解码器123还可用于将被压缩的加权有限状态变换器恢复到原始状态的加权有限状态变换器解码***。在以上情形中,数据处理逻辑130可无需执行重新评分,而是使用加权有限状态变换器数据执行其他操作。
在下文中,将参照图4至图6阐述根据一些示例性实施例的数据提取逻辑140的操作或语音识别***的操作或加权有限状态变换器解码***的操作。
图4是为解释根据一些示例性实施例的语音识别***的加权有限状态变换器数据结构而提供的示例图。
加权有限状态变换器数据结构可包括一个或多个状态以及连接所述各个状态的弧。
所述一个或多个状态在图4中被表示为0至6。状态0可响应于某一输入而移动到状态1或状态2。具有方向性地连接各个状态的箭头由弧a1至a8来界定。
一个状态可为起始点。可存在单个弧或多个弧a1至a8。本文所述“起始点”可指弧a1至a8起始的状态,且本文中“终点”可指弧a1至a8到达的状态。举例来说,第一弧a1的起始点可为状态0且第一弧a1的终点可为状态1。
在一些情形中,弧可仅与一个状态相关。也就是说,弧可返回到其起始的状态。举例来说,弧a1至a8中的弧可具有与终点相同的起始点。举例来说,图4中的第八弧a8在状态5处具有与终点相同的起始点。
图5是为解释根据一些示例性实施例的语音识别***及加权有限状态变换器解码***的弧信息而提供的示例图。
参照图4及图5,弧a1至a8中的每一者可包括弧信息i0至i4。弧信息i0至i4可包括多个要素。
也就是说,弧信息i0至i4可包括以下要素:下一状态(nextID)i0、输入标签(iLabel)i1、输出标签(oLabel)i2、图表成本(graphCost)i3以及其他信息(other)i4。
下一状态i0可指代弧a1至a8的终点。也就是说,第一弧a1的下一状态i0可为状态1。在一些情形中,下一状态i0可与当前状态相同,如上所述。
输入标签il可指代预先输入的特征向量。输出标签i2可为可位于输入标签il之后的下一构成要素,且输出标签i2可被预先记录在加权有限状态变换器数据中。在图4中,对于第一弧a1来说,“b”可为输入标签i1,且“bill”可为输出标签i2。
重新参照上述实例,“I”、“am”、“going”、“home”可分别为每一个状态的输入标签i1,且“I'm going home”可被认为是各状态中的一者的输出标签i2。
图表成本i3可表示上述可能性、评分或成本。也就是说,对于状态0,输入标签i1“b”进入状态0且经由第一弧a1退出到下一状态1的可能性、评分或成本可为0.5。
图4所示“<eps>”可指示具体数目(例如“0”或“-1”)。由于“<eps>”通常用于表示没有值,因此“<eps>”在加权有限状态变换器结构中可出现地非常频繁。在上述实例中,“I'mgoing home”是几个状态中的一个状态的输出标签,且因此,其他状态不具有所述输出标签且被表示为“<eps>”。在根据一些示例性实施例的语音识别***或加权有限状态变换器解码***中,“<eps>”可根据***的用途及性能由例如“0”、“-1”等数字来表示。
其他信息i4可为除了上述信息之外的附加信息。举例来说,其他信息i4可包括语句是否结束的信息。尽管在图5中其他信息i4由一个项组成,然而示例性实施例并非仅限于此。也就是说,其他信息i4可包括各种项。
图6是为解释根据一些示例性实施例的语音识别***及加权有限状态变换器解码***中的以相同状态作为起始点的一组弧信息而提供的示例图。
弧Arc 0至Arc n可形成一组。也就是说,以相同状态作为起始点的弧Arc 0至Arcn可被界定成属于同一群组。图6示出基于以下假设的第一群组S1的实例:有(n+1)个弧Arc0至Arc n以状态0作为起始点。
弧Arc 0至Arc n中的每一者可分别包括五个要素,如图5所示。应注意,为便于说明,在图6中在第一弧Arc 0中示出五个要素,而未示出第二弧Arc 1至第(n+1)弧Arc n中的五个要素。
图7及图8是为解释根据一些示例性实施例的存储语音识别***及加权有限状态变换器解码***的弧信息的方法而提供的示例图。
首先,参照图7,由于第一群组S1的弧Arc 0至Arc n是具有状态0的弧Arc 0至Arcn,因此可将弧Arc 0至Arc n对齐并存储在状态0中,且可不连续地对齐并存储从状态1到状态i的弧的群组。
本文所用表达“不连续地”指示下一数据不紧接在前一数据的末尾之后,从而意味着数据是按状态进行分类并存储的。
在以上情形中,由于每一个弧的大小可为固定的且弧的数目可因状态而有所变化,因此可形成浪费区(waste region,Rw)。也就是说,由于每一个数据均是不连续地而非连续地存储,因此可形成浪费区,并且会因此而进一步增大存储器的大小。结果,总体***的速度可劣化,且可需要存储器具有更大容量。
因此,根据一些示例性实施例的加权有限状态变换器解码***或语音识别***可利用不同的方法存储加权有限状态变换器数据。
参照图8,加权有限状态变换器数据可包括报头数据及主体数据。
报头数据按状态分别对齐。报头数据可存储包括弧索引及弧的数目在内的状态信息,在所述状态信息中,弧是对应于每一状态的弧(即,以所述状态作为起始点的弧)。在实例中,弧的弧索引可指代存储器的地址,或更精确地说,第一弧的地址。由于弧的大小是固定的且弧的数目也包含在状态信息中,因此可容易地获得每一个弧的位置。也就是说,可由图3所示地址控制逻辑150使用弧索引及弧的数目来计算每一个弧的位置。
主体数据可将每一状态的弧的弧信息连续地存储在其中。本文所用用语“连续”指示与其中弧信息按状态对齐的实例相比,下一弧信息无缝地紧接在前一弧信息之后存储。当然,同一群组的弧可相邻地存储,从而使图3所示地址控制逻辑150能够计算弧的位置。
图9是为解释根据一些示例性实施例的加载语音识别***及加权有限状态变换器解码***的弧信息的方法而提供的概念图。
参照图8及图9,尽管报头数据可不连续地存储,然而由于报头数据中所包含的弧的弧索引及弧的数目分别以同一大小存储,因此报头数据中没有区被浪费。另外,由于主体数据是连续地存储,因此主体数据中没有区被浪费。因此,可高效地存储总体加权有限状态变换器数据。换句话说,在示例性实施例中,可消除图7所示的浪费区Rw。
图3所示地址控制逻辑可使用每一状态的第一弧的地址(例如,弧索引)来获得第一弧信息的地址,且可使用之前固定的弧信息的位宽度及弧的数目来获得其他弧的弧信息的地址。
在下文中,以下将参照图10阐述根据一些示例性实施例的加权有限状态变换器解码***或语音识别***的压缩方法。
图10是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
参照图10,当第一群组S1中的弧信息的输出标签(oLabel)在所有的弧Arc 0至Arcn中具有相同值时,可从主体数据省略输出标签(oLabel)。
也就是说,在第一压缩群组S1'中,所有弧Arc 0至Arc n的弧信息可仅表达下一状态(next ID)、输入标签(iLabel)、图表成本(graphCost)及其他信息(other)。也就是说,这样一来,可减小弧信息的大小,且因此可减小主体数据的大小。因此,可执行全部加权有限状态变换器数据的压缩。
当从主体数据移除输出标签(oLabel)时,可将压缩历史记录在报头数据的压缩信息中。因此,图3所示的加权有限状态变换器解压缩器160稍后可使用报头数据中的压缩信息来恢复主体数据的输出标签(oLabel)。
尽管图10例示了输出标签(oLabel),然而示例性实施例并非仅限于此。也就是说,当要素满足上述条件(即,同一群组内的所有弧的相同要素具有相同的值)时,可移除输入标签(iLabel)、图表成本(graphCost)及其他信息(other)中的任意者。
具体来说,由于在像在语音识别中使用的加权有限状态变换器数据一样的结构中频繁使用非正值(例如“0”或“-1”)(例如如以上针对图4中的″eps″所阐述),因此压缩可频繁出现且可获得高效率。
在下文中,以下将参照图11阐述根据一些示例性实施例的加权有限状态变换器解码***或语音识别***的压缩方法。
图11是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
参照图11,当第一群组S1内的弧信息的输入标签(iLabel)、输出标签(oLabel)及其他信息(other)在所有弧Arc 0至Arc n中分别具有相同值时,可从主体数据移除这些信息。
也就是说,在第一压缩群组S1'中,所有弧Arc 0至Arc n的弧信息可仅表达下一状态(nextID)及图表成本(graphCost)。也就是说,这样一来,可减小弧信息的大小,且因此可减小主体数据的大小。因此,可执行全部加权有限状态变换器数据的压缩。
当从主体数据移除输出标签(oLabel)时,可将压缩历史记录在报头数据的压缩信息中。因此,图3所示的加权有限状态变换器解压缩器160稍后可使用报头数据中的压缩信息来恢复主体数据的输出标签(oLabel)。
图11示出移除三个要素,但示例性实施例并非仅限于此。也就是说,可压缩多个要素,且要素的数目并无限制。
尽管图11示出移除输入标签(iLabel)、输出标签(oLabel)及其他信息(other),然而示例性实施例并非仅限于此。
在下文中,以下将参照图12阐述根据一些示例性实施例的加权有限状态变换器解码***或语音识别***的压缩方法。
图12是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
参照图12,当第一群组S1的所有弧Arc 0至Arc n中的下一状态(nextID)与当前状态相同时,可从主体数据移除下一状态(nextID)。
也就是说,所有弧Arc 0至Arc n中的弧信息可仅表达输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other),即不包括下一状态(nextID)。也就是说,这样一来,可减小弧信息的大小,且因此可减小主体数据的大小。因此,可执行全部加权有限状态变换器数据的压缩。
在这种情形中,由于下一状态(nextID)在所有弧Arc 0至Arc n中具有当前状态的值,因此可考虑所有弧均具有相同的值,如图10所示实例中所示。当然,这种情形中的值可不为“0”或“-1”。
当从主体数据移除下一状态(nextID)时,可将压缩历史记录在报头数据的压缩信息中。因此,图3所示的加权有限状态变换器解压缩器160稍后可使用报头数据中的压缩信息来恢复主体数据的输出标签(oLabel)。
在下文中,以下将参照图13阐述根据一些示例性实施例的加权有限状态变换器解码***或语音识别***的压缩方法。
图13是为解释根据一些示例性实施例的压缩语音识别***及加权有限状态变换器解码***中的弧信息的方法而提供的概念图。
参照图13,当第一群组S1的所有弧Arc 0至Arc n中的下一状态(nextID)与当前状态相同时,且当输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other)彼此相同时,可从主体数据移除所有要素。
在这种情形中,主体数据可完全为空,且所有的信息均可被记录在报头数据中。
也就是说,弧信息可能根本不记录在任何弧Arc 0至Arc n中。结果,可对明显大量的数据进行压缩。
在下文中,以下将参照图10至图14阐述根据一些示例性实施例的加权有限状态变换器解码***或语音识别***的压缩信息。
图14是为解释根据一些示例性实施例的语音识别***及加权有限状态变换器解码***的弧信息的压缩信息而提供的概念图。
参照图10及图14,报头数据可包括压缩信息(Enc Info)。举例来说,压缩信息可由对应于下一状态(nextID)、输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other)的5个位组成。然而,当弧信息的配置变化时,压缩信息(Enc Info)的配置可变化。
当如图10中一样仅压缩输出标签(oLabel)时,压缩信息(Enc Info)可被记录为“00100”。这一值可指示仅输出标签(oLabel)被压缩,而其他要素保持不被压缩。当然,在主体数据中可不存储对应的输出标签(oLabel)。
参照图11及图14,当如图11中一样压缩输入标签(iLabel)、输出标签(oLabel)及其他信息(other)时,压缩信息(Enc Info)可被记录为“01101”。这一值可指示输入标签(iLabel)、输出标签(oLabel)及其他信息(other)被压缩,而其他要素保持不被压缩。当然,在主体数据中可不存储对应的输入标签(iLabel)、输出标签(oLabel)及其他信息(other)。
参照图12及图14,当如图12中一样压缩下一状态(nextID)时,压缩信息(EncInfo)可被记录为“10000”。这一值可指示下一状态(nextID)被压缩,而其他要素保持不被压缩。当然,在主体数据中可不存储对应的下一状态(nextID)。
参照图13及图14,当如图13中一样压缩下一状态(nextID)、输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other)所有这些要素时,压缩信息(Enc Info)可被记录为“11111”。这一值可指示所有的要素均被压缩。结果,在主体数据中可不存储对应的下一状态(nextID)、输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other)所有这些要素。
在下文中,以下将参照图15阐述根据一些示例性实施例的加权有限状态变换器解码***或语音识别***的压缩方法。
图15是为解释根据一些示例性实施例的加载语音识别***及加权有限状态变换器解码***的弧信息的方法而提供的概念图。
参照图15,尽管报头数据可不连续地存储,然而由于弧的索引(即,弧索引)及弧的数目分别以同一大小存储,因此没有区被浪费。另外,由于主体数据是连续地存储,因此没有区被浪费。因此,可高效地存储总体加权有限状态变换器数据。
因此,由于数据是分别按状态压缩,因此可大大减小主体数据的总体大小。在实例中,由于每一压缩是按状态执行的,因此每一状态的弧信息的位宽度可各不相同。
在下文中,以下将参照图1至图6及图10至图15阐述根据一些示例性实施例的存储加权有限状态变换器数据的方法。
首先,将参照图1至图3阐述语音识别方法。本发明的用于存储加权有限状态变换器数据的方法可包含在语音识别方法中,或者可单独地提供。
首先,参照图1,话音采样电路110可将人类声音(例如,语音)采样成数字数据。也就是说,话音采样电路110可使用外部装置(例如,麦克风)接收人类语言作为输入,并输出数字信号。话音采样电路110可将数字数据传送到语音识别电路120。
接着,语音识别电路120可从话音采样电路110接收数字数据。语音识别电路120可在接收到数字数据时执行语音识别。结果,可输出经语音识别的语句数据。
具体来说,参照图2,特征提取器121可从话音采样电路110接收数字数据(语音信号)。特征提取器121可从数字数据提取特征向量。特征向量可根据语言来指代每个构成要素。
接下来,声学模型122可对作为每一个特征向量被提取的构成要素进行评分。也就是说,由于每一个人都具有其自身的话音及口音,因此声学模型122可利用概率或评分来表示语句的每一特征向量的声音。
接下来,加权有限状态变换器解码器123可对被评分数据进行重新评分并形成被重新评分数据。加权有限状态变换器解码器可使用之前所存储的加权有限状态变换器数据(例如,一种数据库)来对被评分数据进行重新评分。
根据上述语音识别方法,加权有限状态变换器解码器123可对被压缩并存储在外部存储器300中的加权有限状态变换器数据进行解码。在下文中,以下将阐述将加权有限状态变换器数据压缩及存储在外部存储器300中的方法。
首先,参照图10至图14,所述方法可包括判断所有弧Arc 0至Arc n中的相同要素在以相同状态作为起始点的弧的群组中是否具有相同的值,且如果具有相同的值,则形成所述要素的各自的压缩信息(Enc Info)。
在实例中,当下一状态(nextID)与当前状态具有相同值时,可形成压缩信息(EncInfo)。
具体来说,参照图10及图14,报头数据可包括压缩信息(Enc Info)。举例来说,压缩信息可由对应于下一状态(nextID)、输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other)的5个位组成。然而,当弧信息的配置变化时,压缩信息(Enc Info)的配置可变化。
当如图10中一样仅压缩输出标签(oLabel)时,压缩信息(Enc Info)可被记录为“00100”。这一值可指示仅输出标签(oLabel)被压缩,而其他要素保持不被压缩。当然,在主体数据中可不存储对应的输出标签(oLabel)。
参照图11及图14,当如图11中一样压缩输入标签(iLabel)、输出标签(oLabel)及其他信息(other)时,压缩信息(Enc Info)可被记录为“01101”。这一值可指示输入标签(iLabel)、输出标签(oLabel)及其他信息(other)被压缩,而其他要素保持不被压缩。当然,在主体数据中可不存储对应的输入标签(iLabel)、输出标签(oLabel)及其他信息(other)。
参照图12及图14,当如图12中一样压缩下一状态(nextID)时,压缩信息(EncInfo)可被记录为“10000”。这一值可指示下一状态(nextID)被压缩,而其他要素保持不被压缩。当然,在主体数据中可不存储对应的下一状态(nextID)。
参照图13及图14,当如图13中一样压缩下一状态(nextID)、输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other)所有这些要素时,压缩信息(Enc Info)可被记录为“11111”。这一值可指示所有的要素均被压缩。结果,在主体数据中可不存储对应的下一状态(nextID)、输入标签(iLabel)、输出标签(oLabel)、图表成本(graphCost)及其他信息(other)所有这些要素。
可由加权有限状态变换器解码器123加载被压缩的加权有限状态变换器数据。
具体来说,参照图3,数据提取逻辑140可从外部存储器300撷取加权有限状态变换器数据。加权有限状态变换器解压缩器160可将加权有限状态变换器数据从压缩状态恢复回原始形式。结果,数据处理逻辑130可有助于促进重新评分操作。
在实例中,地址控制逻辑150可使用记录在加权有限状态变换器数据的报头中的地址信息查找主体的地址。
接下来,数据处理逻辑130可从声学模型122接收被评分数据作为输入。可向数据处理逻辑130提供来自数据提取逻辑140的加权有限状态变换器数据。数据处理逻辑130可使用被评分数据及加权有限状态变换器数据来输出被重新评分数据。
接着,顺序解码器124可接收被重新评分数据作为输入并输出语句数据。顺序解码器124可通过检查语句的次序等方式来完成完整的语句。然而,根据一些示例性实施例,可省略顺序解码器124,且可由加权有限状态变换器解码器123来输出完成的语句。
接着,服务器200可在完成语音识别之后接收数据。也就是说,服务器200可通过有线方式或无线方式从移动核心100接收语句数据。语句数据可用于较高层服务。
较高层服务210可为较高层次的服务,所述较高层次的服务可指对经语音识别的内容进行转译,例如,根据经语音识别的内容来驱动另一个装置及执行特定功能。举例来说,在普适计算等远程条件下,语音识别可向网络上的或近距离的另一个装置发送命令,经语音识别的内容可通过数据形式被记录或者被显示给用户。
尽管已参照本发明概念的示例性实施例具体示出并阐述了本发明概念,然而所属技术领域中的一般技术人员应理解,在不背离由以上权利要求所界定的本发明概念的精神及范围的条件下,在本文中可作出形式及细节上的各种变化。因此,期望这些示例性实施例在所有方面均被视为例示性的而非限制性的,并应参照随附权利要求而非上述说明来指示本发明的范围。
Claims (20)
1.一种加权有限状态变换器解码***,其特征在于,包括:
存储器,其被配置成存储加权有限状态变换器数据;以及
加权有限状态变换器解码器,其包括数据提取逻辑,
其中所述加权有限状态变换器数据具有包括一个或多个状态以及一个或多个弧的结构,所述一个或多个弧具有方向性地连接所述一个或多个状态,
所述加权有限状态变换器数据被压缩在所述存储器中,
所述加权有限状态变换器数据包括主体数据以及报头数据,所述报头数据包括不连续地对齐的所述一个或多个状态中的每一者的状态信息,
所述主体数据包括连续地对齐的所述一个或多个弧的弧信息,
所述状态信息包括所述一个或多个弧的弧索引、所述一个或多个弧的数目以及所述一个或多个弧的压缩信息,并且
所述数据提取逻辑被配置成使用所述压缩信息对所述加权有限状态变换器数据进行解压缩,并从所述存储器撷取所述加权有限状态变换器数据。
2.根据权利要求1所述的加权有限状态变换器解码***,其特征在于,所述弧信息对于所述一个或多个弧中的每一者都包括一个或多个要素,并且
所述一个或多个要素包括关于下一状态、输入标签、输出标签及图表成本的信息。
3.根据权利要求2所述的加权有限状态变换器解码***,其特征在于,所述压缩信息指示所述一个或多个要素中的其中一个要素将被压缩,并且
所述主体数据在被压缩时省略了由所述压缩信息指示的任何要素。
4.根据权利要求2所述的加权有限状态变换器解码***,其特征在于,对于相同的状态是起始点的一个或多个弧,当所述一个或多个弧的以下要素中的至少一个要素具有相同的值时,所述至少一个要素被压缩:所述输入标签、所述输出标签和所述图表成本。
5.根据权利要求2所述的加权有限状态变换器解码***,其特征在于,对于相同的状态是起始点的一个或多个弧,当所述一个或多个弧中的所有弧的当前状态与下一状态相同时,所述下一状态被压缩。
6.根据权利要求1所述的加权有限状态变换器解码***,其特征在于,对于不同的状态是起始点的第一弧与第二弧,所述第一弧的位宽度的大小与所述第二弧的位宽度的大小彼此不同。
7.根据权利要求1所述的加权有限状态变换器解码***,其特征在于,对于相同的状态是起始点的一个或多个弧,位宽度的大小彼此相同。
8.根据权利要求1所述的加权有限状态变换器解码***,其特征在于,所述数据提取逻辑包括:
加权有限状态变换器解压缩器,其被配置成对所述加权有限状态变换器数据进行解压缩;以及
地址控制逻辑,其被配置成基于所述报头数据来计算所述主体数据的地址。
9.根据权利要求1所述的加权有限状态变换器解码***,其特征在于,所述加权有限状态变换器解码器还包括数据处理逻辑,所述数据处理逻辑被配置成接收由所述数据提取逻辑撷取的所述加权有限状态变换器数据,且被配置成使用输入数据导出输出数据。
10.根据权利要求9所述的加权有限状态变换器解码***,其特征在于,所述输入数据包括语音识别数据。
11.一种语音识别***,包括:
话音采样模块,其被配置成将语音采样成数字数据;以及
语音识别模块,其被配置成抽取所述数字数据的特征向量、对所述特征向量进行评分以形成被评分数据并通过引用加权有限状态变换器数据来从所述被评分数据导出语句数据,
其中所述语音识别模块包括加权有限状态变换器解码器,所述加权有限状态变换器解码器被配置成对所述加权有限状态变换器数据进行解压缩并从外部存储器撷取所述加权有限状态变换器数据,并且
所述加权有限状态变换器数据具有包括一个或多个状态以及一个或多个弧的结构,所述一个或多个弧具有方向性地连接所述一个或多个状态,
所述加权有限状态变换器数据被压缩,
所述加权有限状态变换器数据包括报头数据及主体数据,所述报头数据包括不连续地对齐的所述一个或多个状态中的每一者的状态信息,所述主体数据包括连续地对齐的所述一个或多个弧的弧信息,且
所述状态信息包括所述一个或多个弧的弧索引、所述一个或多个弧的数目和所述一个或多个弧的压缩信息。
12.根据权利要求11所述的语音识别***,其特征在于,所述语音识别模块包括:
特征抽取电路,其被配置成接收所述数字数据并抽取所述特征向量,
声音模型,其被配置成对所述特征向量进行评分以导出所述被评分数据,以及
所述加权有限状态变换器解码器,其被配置成参照所述加权有限状态变换器数据对所述被评分数据进行重新评分以形成被重新评分数据。
13.根据权利要求12所述的语音识别***,其特征在于,还包括顺序解码器,所述顺序解码器被配置成接收所述被重新评分数据以及导出语句数据。
14.根据权利要求11所述的语音识别***,其特征在于,还包括服务器,所述服务器被配置成从所述语音识别模块接收所述语句数据。
15.根据权利要求14所述的语音识别***,其特征在于,所述服务器与所述话音采样模块及所述语音识别模块间隔开,并通过网络进行连接。
16.一种语音识别***,其特征在于,包括:
数据提取逻辑,其被配置成撷取加权有限状态变换器数据,所述加权有限状态变换器数据具有包括一个或多个状态以及一个或多个弧的结构,所述一个或多个弧具有方向性地连接所述一个或多个状态,
其中所述加权有限状态变换器数据包括报头数据及主体数据,所述报头数据包括不连续地对齐的所述一个或多个状态中的每一者的状态信息,所述主体数据包括连续地对齐的所述一个或多个弧的弧信息,
其中所述状态信息包括所述一个或多个弧的弧索引、所述一个或多个弧的数目以及所述一个或多个弧的压缩信息,并且
其中所述数据提取逻辑包括加权有限状态变换器解压缩器及地址控制逻辑,所述加权有限状态变换器解压缩器被配置成使用所述压缩信息对所述主体数据进行解压缩,所述地址控制逻辑被配置成使用所述弧索引、所述一个或多个弧的所述数目以及所述一个或多个弧的所述压缩信息来导出所述主体数据的地址;以及
数据处理器,其被配置成接收被评分数据并使用从所述数据提取逻辑传送的所述加权有限状态变换器数据来形成被重新评分数据。
17.根据权利要求16所述的语音识别***,其特征在于,所述被评分数据包括根据发音的评分。
18.根据权利要求16所述的语音识别***,其特征在于,所述被重新评分数据包括根据发音及语法的评分。
19.根据权利要求16所述的语音识别***,其特征在于,所述弧信息包括一个或多个要素,并且
所述一个或多个要素包括关于下一状态、输入标签、输出标签及图表成本的信息。
20.根据权利要求19所述的语音识别***,其特征在于,所述压缩信息对应于所述一个或多个要素中不包含在所述主体数据中的要素。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0018455 | 2017-02-10 | ||
KR1020170018455A KR102687184B1 (ko) | 2017-02-10 | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108417222A true CN108417222A (zh) | 2018-08-17 |
CN108417222B CN108417222B (zh) | 2024-01-02 |
Family
ID=63104795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810090016.4A Active CN108417222B (zh) | 2017-02-10 | 2018-01-30 | 加权有限状态变换器解码***以及语音识别*** |
Country Status (3)
Country | Link |
---|---|
US (1) | US10714080B2 (zh) |
CN (1) | CN108417222B (zh) |
TW (1) | TWI757357B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111884659A (zh) * | 2020-07-28 | 2020-11-03 | 广州智品网络科技有限公司 | 一种fst数据的压缩方法和装置 |
CN112783874A (zh) * | 2019-11-08 | 2021-05-11 | 北京沃东天骏信息技术有限公司 | 一种数据分析方法、装置和*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402851A (zh) * | 2000-09-30 | 2003-03-12 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别***中的方向、装置和*** |
US20070192104A1 (en) * | 2006-02-16 | 2007-08-16 | At&T Corp. | A system and method for providing large vocabulary speech processing based on fixed-point arithmetic |
JP2008289028A (ja) * | 2007-05-21 | 2008-11-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識・蓄積システムおよびその方法 |
WO2012076895A1 (en) * | 2010-12-08 | 2012-06-14 | The Queen's University Of Belfast | Pattern recognition |
JP2013171214A (ja) * | 2012-02-22 | 2013-09-02 | National Institute Of Information & Communication Technology | 情報処理装置、およびプログラム |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
US20160093297A1 (en) * | 2014-09-26 | 2016-03-31 | Michael E. Deisher | Method and apparatus for efficient, low power finite state transducer decoding |
TW201636998A (zh) * | 2015-04-13 | 2016-10-16 | 英特爾公司 | 用於自動言語辨識解碼的傳感器資料之隨機存取壓縮的方法及系統 |
US20160379629A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319393A (ja) | 1996-05-24 | 1997-12-12 | Hitachi Ltd | 音声認識翻訳システム |
GB0420464D0 (en) | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
ES2340608T3 (es) * | 2005-04-01 | 2010-06-07 | Qualcomm Incorporated | Aparato y procedimiento para codificar mediante banda dividida una señal de voz. |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
JP2008250992A (ja) | 2007-03-07 | 2008-10-16 | Sanyo Electric Co Ltd | 音データ処理装置 |
US9973450B2 (en) * | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8983995B2 (en) * | 2011-04-15 | 2015-03-17 | Microsoft Corporation | Interactive semantic query suggestion for content search |
US8972243B1 (en) | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
JP5877823B2 (ja) | 2013-08-27 | 2016-03-08 | ヤフー株式会社 | 音声認識装置、音声認識方法、およびプログラム |
US9613619B2 (en) * | 2013-10-30 | 2017-04-04 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
JP5875569B2 (ja) | 2013-10-31 | 2016-03-02 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラムとその記録媒体 |
US9971765B2 (en) * | 2014-05-13 | 2018-05-15 | Nuance Communications, Inc. | Revising language model scores based on semantic class hypotheses |
US9672810B2 (en) * | 2014-09-26 | 2017-06-06 | Intel Corporation | Optimizations to decoding of WFST models for automatic speech recognition |
US9607616B2 (en) * | 2015-08-17 | 2017-03-28 | Mitsubishi Electric Research Laboratories, Inc. | Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
-
2017
- 2017-09-08 US US15/699,487 patent/US10714080B2/en active Active
- 2017-11-01 TW TW106137765A patent/TWI757357B/zh active
-
2018
- 2018-01-30 CN CN201810090016.4A patent/CN108417222B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402851A (zh) * | 2000-09-30 | 2003-03-12 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别***中的方向、装置和*** |
US20070192104A1 (en) * | 2006-02-16 | 2007-08-16 | At&T Corp. | A system and method for providing large vocabulary speech processing based on fixed-point arithmetic |
JP2008289028A (ja) * | 2007-05-21 | 2008-11-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識・蓄積システムおよびその方法 |
WO2012076895A1 (en) * | 2010-12-08 | 2012-06-14 | The Queen's University Of Belfast | Pattern recognition |
JP2013171214A (ja) * | 2012-02-22 | 2013-09-02 | National Institute Of Information & Communication Technology | 情報処理装置、およびプログラム |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
US20160093297A1 (en) * | 2014-09-26 | 2016-03-31 | Michael E. Deisher | Method and apparatus for efficient, low power finite state transducer decoding |
TW201636998A (zh) * | 2015-04-13 | 2016-10-16 | 英特爾公司 | 用於自動言語辨識解碼的傳感器資料之隨機存取壓縮的方法及系統 |
US20160379629A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112783874A (zh) * | 2019-11-08 | 2021-05-11 | 北京沃东天骏信息技术有限公司 | 一种数据分析方法、装置和*** |
CN111884659A (zh) * | 2020-07-28 | 2020-11-03 | 广州智品网络科技有限公司 | 一种fst数据的压缩方法和装置 |
CN111884659B (zh) * | 2020-07-28 | 2021-09-10 | 广州智品网络科技有限公司 | 一种fst数据的压缩方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108417222B (zh) | 2024-01-02 |
US20180233134A1 (en) | 2018-08-16 |
KR20180092582A (ko) | 2018-08-20 |
TWI757357B (zh) | 2022-03-11 |
US10714080B2 (en) | 2020-07-14 |
TW201841149A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11275728B2 (en) | Processing method and device of the user input information | |
EP3051782B1 (en) | Method and system for sending contact information in call process | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN104050966A (zh) | 终端设备的语音交互方法和使用该方法的终端设备 | |
JP2012103554A (ja) | 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム | |
CN101334997A (zh) | 与扬声器无关的语音识别装置 | |
JP5558284B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
CN111445903A (zh) | 企业名称识别方法及装置 | |
CN108417222A (zh) | 加权有限状态变换器解码***以及语音识别*** | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
JP2005012377A (ja) | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 | |
JP5050175B2 (ja) | 音声認識機能付情報処理端末 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
CN111046145B (zh) | 交互意图路径的挖掘方法以及装置 | |
CN108595141A (zh) | 语音输入方法及装置、计算机装置和计算机可读存储介质 | |
JP2011064913A (ja) | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 | |
CN112749550A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN113724698A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN112818098B (zh) | 基于知识库的对话生成方法、装置、终端及存储介质 | |
CN114283786A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
CN113676527A (zh) | 信息推送方法、装置、设备及存储介质 | |
CN114595314A (zh) | 融合情绪的对话应答方法、装置、终端及存储装置 | |
KR102687184B1 (ko) | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 | |
KR101543024B1 (ko) | 발음 기반의 번역 방법 및 그 장치 | |
WO2009020272A1 (en) | Method and apparatus for distributed speech recognition using phonemic symbol |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |