JP2019525233A - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP2019525233A JP2019525233A JP2019501963A JP2019501963A JP2019525233A JP 2019525233 A JP2019525233 A JP 2019525233A JP 2019501963 A JP2019501963 A JP 2019501963A JP 2019501963 A JP2019501963 A JP 2019501963A JP 2019525233 A JP2019525233 A JP 2019525233A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- acoustic
- speech recognition
- parameters
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本出願は、バイドォウオンラインネットテクノロジー(ベイジン)カンパニーリミテッドによって2016年7月22日付けに提出された、発明の名称が「音声認識方法及び装置」で、中国特許出願番号が「201610586698.9」である特許出願の優先権を主張するものである。
音声認識の重要な部分は音響モデルであり、現在、生成された音響モデルは比較的大きい。したがって、サーバが使用する音響モデルをスマート端末に直接適用することはできず、埋め込み音声認識に適用する解決策が必要である。
ここで、既存の又は将来に現れる音響特徴抽出プロセスを採用して音響特徴を抽出してもよい。音響特性は、例えば、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient,MFCC)などを含む。
ここで、音響モデルは訓練段階で生成することができ、認識段階では、訓練して生成された音響モデルを直接取得する。
ここで、音響モデルは、音声と音響状態確率との関係を示すことができるため、音響特徴が取得された後、音響モデルに基づいて音響状態確率を取得することができる。なお、音声認識を行う時に、他のプロセスを含んでもよく、例えば、音響状態概念が取得された後、言語モデルや発音辞書などに基づいてテキストに変換して最終的な音声認識を完成させてもよい。本出願は、主に音響モデルに関連する内容を説明し、音声認識の残りのプロセスは、従来の技術又は将来の技術によって実現することができる。
当該ステップは上記の実施例の関連する内容を参照することができ、ここでは詳しく説明しない。
ここで、全体が2値化数値の演算になるために、音響モデルのパラメータとして2値化数値を採用できるだけでなく、他のパラメータも2値化数値を採用することができる。
Y=a*X+b (1)
ただし、Xは出力値の最初値であり、Yは線形変換後の出力値であり、a及びbは2つの一定のパラメータであり、予め設定することができる。
従って、上記の2値化パラメータ、線形変換及び2値化活性化関数を経て、音声認識する時に、図4に示す2値化ネットワークを含むことができる。
例えば、aとbは演算する2つの数値を示し、aとbはいずれも2値化数値である場合、表1に示すように、XORでaとb(a*b)の乗算を置き換えることができる。ビット演算では、1つの値を0にコードし、もう1つの値を1にコードし、例えば、+1を0にコードし、−1を1にコードすることができる。また、累積演算は、設定された(set)ビットの数と設定されていない(unset)ビットの数を計算することによって、完成することができる。ここで、設定されたビットと設定されていないビットはそれぞれ2値化数値のうちの1つを示し、例えば、1つは+1であり、もう1つは−1である。
取得モジュール52は、パラメータが2値化パラメータである音響モデルを取得する。
認識モジュール53は、前記音響特徴及び前記音響モデルに基づいて音声認識を行う。
前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とする。
出力値を線形変換して、変換された出力値を2値化する。
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む。
Claims (13)
- 入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、
パラメータが2値化パラメータである音響モデルを取得するステップと、
前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、
を含む、
ことを特徴とする音声認識方法。 - 前記方法は、訓練によって前記音響モデルを生成するステップを更に含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
ことを特徴とする請求項1に記載の方法。 - 前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップは、
前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップと、
次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とするステップと、を含む、
ことを特徴とする請求項1又は2に記載の方法。 - 前記方法は、出力値を線形変換して、変換された出力値を2値化するステップをさらに含む、
ことを特徴とする請求項3に記載の方法。 - 音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップは、
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得するステップを含む、
ことを特徴とする請求項3又は4に記載の方法。 - 入力された音声の音響特徴を抽出して、音響特徴を取得する特徴抽出モジュールと、
パラメータが2値化パラメータである音響モデルを取得する取得モジュールと、
前記音響特徴及び前記音響モデルに基づいて音声認識を行う認識モジュールと、
を含む、
ことを特徴とする音声認識装置。 - 前記装置は、訓練によって前記音響モデルを生成する訓練モジュールをさらに含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
ことを特徴とする請求項6に記載の装置。 - 前記認識モジュールは、具体的には、
前記音響モデルがDNNを含む場合、前記音響特徴を前記DNNの入力層とし、且つ前記DNNの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を2値化して、次の隠れ層の入力値とする、
ことを特徴とする請求項6又は7に記載の装置。 - 前記認識モジュールは、さらに、
出力値を線形変換して、変換された出力値を2値化する、
ことを特徴とする請求項8に記載の装置。 - 前記認識モジュールが、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得することは、
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む、
ことを特徴とする請求項8又は9に記載の装置。 - プロセッサと、
プロセッサによって実行可能な命令を記憶するためのメモリとを含む機器であって、
前記プロセッサは、請求項1〜5のいずれかに記載の方法を実行するように構成される、
ことを特徴とする機器。 - 非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、請求項1〜5のいずれかに記載の方法を実行可能である、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラム製品であって、
前記コンピュータプログラム製品における命令がプロセッサによって実行される場合、プロセッサが、請求項1〜5のいずれかに記載の方法を実行可能である、
ことを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610586698.9A CN106228976B (zh) | 2016-07-22 | 2016-07-22 | 语音识别方法和装置 |
CN201610586698.9 | 2016-07-22 | ||
PCT/CN2017/072641 WO2018014537A1 (zh) | 2016-07-22 | 2017-01-25 | 语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019525233A true JP2019525233A (ja) | 2019-09-05 |
JP6778811B2 JP6778811B2 (ja) | 2020-11-04 |
Family
ID=57532426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019501963A Active JP6778811B2 (ja) | 2016-07-22 | 2017-01-25 | 音声認識方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10997966B2 (ja) |
JP (1) | JP6778811B2 (ja) |
CN (1) | CN106228976B (ja) |
WO (1) | WO2018014537A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN108510976B (zh) * | 2017-02-24 | 2021-03-19 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
CN109409308A (zh) * | 2018-11-05 | 2019-03-01 | 中国科学院声学研究所 | 一种基于鸟类鸣声的鸟类物种识别的方法 |
CN116884398B (zh) * | 2023-09-06 | 2024-01-12 | 深圳市友杰智新科技有限公司 | 语音识别方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01204099A (ja) * | 1988-02-09 | 1989-08-16 | Nec Corp | 音声認識装置 |
JP2015102806A (ja) * | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1013525B (zh) * | 1988-11-16 | 1991-08-14 | 中国科学院声学研究所 | 认人与不认人实时语音识别的方法和装置 |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
JP2007513376A (ja) * | 2003-12-04 | 2007-05-24 | キングズ カレッジ ロンドン | 音声処理装置及び方法 |
WO2007148493A1 (ja) * | 2006-06-23 | 2007-12-27 | Panasonic Corporation | 感情認識装置 |
US8856049B2 (en) * | 2008-03-26 | 2014-10-07 | Nokia Corporation | Audio signal classification by shape parameter estimation for a plurality of audio signal samples |
CN102013253B (zh) * | 2009-09-07 | 2012-06-06 | 株式会社东芝 | 基于语音单元语速的差异的语音识别方法及语音识别*** |
US8972253B2 (en) * | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
CN102201236B (zh) * | 2011-04-06 | 2012-12-19 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
JP5732994B2 (ja) * | 2011-04-19 | 2015-06-10 | ソニー株式会社 | 楽曲検索装置および方法、プログラム、並びに記録媒体 |
CN102499815B (zh) * | 2011-10-28 | 2013-07-24 | 东北大学 | 一种辅助聋人感知环境声音的方法 |
US9672811B2 (en) * | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
CN102982809B (zh) * | 2012-12-11 | 2014-12-10 | 中国科学技术大学 | 一种说话人声音转换方法 |
US9099083B2 (en) * | 2013-03-13 | 2015-08-04 | Microsoft Technology Licensing, Llc | Kernel deep convex networks and end-to-end learning |
US9373324B2 (en) * | 2013-12-06 | 2016-06-21 | International Business Machines Corporation | Applying speaker adaption techniques to correlated features |
US9400955B2 (en) * | 2013-12-13 | 2016-07-26 | Amazon Technologies, Inc. | Reducing dynamic range of low-rank decomposition matrices |
CN104123934A (zh) * | 2014-07-23 | 2014-10-29 | 泰亿格电子(上海)有限公司 | 一种构音识别方法及其*** |
US10229356B1 (en) * | 2014-12-23 | 2019-03-12 | Amazon Technologies, Inc. | Error tolerant neural network model compression |
CN105161092B (zh) * | 2015-09-17 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
KR102295161B1 (ko) * | 2016-06-01 | 2021-08-27 | 메사추세츠 인스티튜트 오브 테크놀로지 | 저전력 자동 음성 인식 장치 |
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10170110B2 (en) * | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
US20180350351A1 (en) * | 2017-05-31 | 2018-12-06 | Intel Corporation | Feature extraction using neural network accelerator |
KR102622357B1 (ko) * | 2018-07-13 | 2024-01-08 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
US10720151B2 (en) * | 2018-07-27 | 2020-07-21 | Deepgram, Inc. | End-to-end neural networks for speech recognition and classification |
-
2016
- 2016-07-22 CN CN201610586698.9A patent/CN106228976B/zh active Active
-
2017
- 2017-01-25 US US16/319,335 patent/US10997966B2/en active Active
- 2017-01-25 WO PCT/CN2017/072641 patent/WO2018014537A1/zh active Application Filing
- 2017-01-25 JP JP2019501963A patent/JP6778811B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01204099A (ja) * | 1988-02-09 | 1989-08-16 | Nec Corp | 音声認識装置 |
JP2015102806A (ja) * | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20190287514A1 (en) | 2019-09-19 |
US10997966B2 (en) | 2021-05-04 |
CN106228976A (zh) | 2016-12-14 |
CN106228976B (zh) | 2019-05-31 |
WO2018014537A1 (zh) | 2018-01-25 |
JP6778811B2 (ja) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020253060A1 (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
CN103077714B (zh) | 信息的识别方法和装置 | |
WO2018133761A1 (zh) | 一种人机对话的方法和装置 | |
US10115389B2 (en) | Speech synthesis method and apparatus | |
JP2021086154A (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
JP2019525233A (ja) | 音声認識方法及び装置 | |
JP2022172362A (ja) | 画像処理方法、顔認識モデルトのレーニング方法、装置及び機器 | |
US20170011736A1 (en) | Method and device for recognizing voice | |
CN111341299B (zh) | 一种语音处理方法及装置 | |
CN114333852A (zh) | 一种多说话人语音人声分离方法、终端设备及存储介质 | |
KR20210106397A (ko) | 음성 전환 방법, 장치 및 전자 기기 | |
CN105469789A (zh) | 一种语音信息的处理方法及终端 | |
CN103514882A (zh) | 一种语音识别方法及*** | |
KR20150105847A (ko) | 음성구간 검출 방법 및 장치 | |
CN113689868B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN104679733A (zh) | 一种语音对话翻译方法、装置及*** | |
CN104751856A (zh) | 一种语音语句识别方法及装置 | |
CN114495977A (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
JP2022031854A (ja) | 返信内容の生成方法、装置、機器及び記憶媒体 | |
WO2021228084A1 (zh) | 语音数据识别方法、设备及介质 | |
JP2019526070A (ja) | 音声認識のための方法及び装置 | |
CN113689866B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN114187892A (zh) | 一种风格迁移合成方法、装置及电子设备 | |
CN113553413A (zh) | 对话状态的生成方法、装置、电子设备和存储介质 | |
WO2021108130A1 (en) | Speech to project framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6778811 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |