JP2017191166A - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents
音声認識装置、音声認識方法および音声認識プログラム Download PDFInfo
- Publication number
- JP2017191166A JP2017191166A JP2016079481A JP2016079481A JP2017191166A JP 2017191166 A JP2017191166 A JP 2017191166A JP 2016079481 A JP2016079481 A JP 2016079481A JP 2016079481 A JP2016079481 A JP 2016079481A JP 2017191166 A JP2017191166 A JP 2017191166A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- unit
- speech
- information
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 146
- 238000012937 correction Methods 0.000 claims description 44
- 230000005540 biological transmission Effects 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 86
- 238000001514 detection method Methods 0.000 description 105
- 238000007476 Maximum Likelihood Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 22
- 238000000605 extraction Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100533533 Salmonella typhimurium silB gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定する照合部と、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付けるマッチング部と、
対応付けた結果を基にして、繰り返し発声か否かを判定する判定部と
を有することを特徴とする音声認識装置。
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行することを特徴とする音声認識方法。
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行させることを特徴とする音声認識プログラム。
60 ネットワーク
70 サーバ
80 オペレータ端末
100,200,300,400,500 音声認識装置
101 音声区間検出部
102 特徴量抽出部
103 最尤音素系列探索部
104 単語照合部
105 キーワード検出部
106 記憶部
106a リファレンスデータ
106b 音素グループデータ
107 補正部
108 登録部
109 マッチング部
110 判定部
210 記憶部
210a ガイダンステーブル
310,520 送信部
320,530 受信部
410,540 接続部
510 選択部
Claims (10)
- 音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換する変換部と、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定する照合部と、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付けるマッチング部と、
対応付けた結果を基にして、繰り返し発声か否かを判定する判定部と
を有することを特徴とする音声認識装置。 - 類似する複数の音素をまとめた音素グループと代表音素の文字とを対応付けたテーブルを基にして、前記音素系列に含まれる音素を代表音素の文字に補正する補正部を更に有することを特徴とする請求項1に記載の音声認識装置。
- 前記補正部は、前記音素系列に含まれる音素のうち、無音を示す音素の文字を削除する補正を更に実行することを特徴とする請求項2に記載の音声認識装置。
- 前記マッチング部は、DP(Dynamic Programming)マッチングを実行することで、前記音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、対応付けられた音素と一致する音素の数と、対応する音素が存在しない音素の数と、対応付けられた音素と異なる音素の数とを基にして、一致率を算出し、前記判定部は、前記一致率が閾値を超えた場合に、繰り返し発声であると判定することを特徴とする請求項1、2または3に記載の音声認識装置。
- 前記判定部が、繰り返し発声であると判定した場合に、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する出力部を更に有することを特徴とする請求項1〜4のいずれか一つに記載の音声認識装置。
- 前記判定部が、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、前記音声情報をサーバに送信する送信部を更に有することを特徴とする請求項1〜5のいずれか一つに記載の音声認識装置。
- 前記判定部が、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する接続部を更に有することを特徴とする請求項1〜6のいずれか一つに記載の音声認識装置。
- 前記判定部が、繰り返し発声であると連続して判定した回数を基にして、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する処理、前記音声情報をサーバに送信する処理、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する処理のいずれかを選択する選択部を有することを特徴とする請求項1〜7のいずれか一つに記載の音声認識装置。
- コンピュータが実行する音声認識方法であって、
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行することを特徴とする音声認識方法。 - コンピュータに、
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行させることを特徴とする音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016079481A JP6724511B2 (ja) | 2016-04-12 | 2016-04-12 | 音声認識装置、音声認識方法および音声認識プログラム |
US15/466,995 US10733986B2 (en) | 2016-04-12 | 2017-03-23 | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016079481A JP6724511B2 (ja) | 2016-04-12 | 2016-04-12 | 音声認識装置、音声認識方法および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017191166A true JP2017191166A (ja) | 2017-10-19 |
JP6724511B2 JP6724511B2 (ja) | 2020-07-15 |
Family
ID=59998294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016079481A Active JP6724511B2 (ja) | 2016-04-12 | 2016-04-12 | 音声認識装置、音声認識方法および音声認識プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10733986B2 (ja) |
JP (1) | JP6724511B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018216748A1 (de) | 2017-09-29 | 2019-04-04 | Nidec Elesys Corporation | Schaltungsplatine und Steuervorrichtung |
JP2020012855A (ja) * | 2018-07-13 | 2020-01-23 | 株式会社ソケッツ | テキスト表示用同期情報生成装置および方法 |
JP7479711B2 (ja) | 2019-03-12 | 2024-05-09 | コルディオ メディカル リミテッド | 音声サンプルのアライメントに基づく診断手法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US10043521B2 (en) * | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
CN108711437A (zh) * | 2018-03-06 | 2018-10-26 | 深圳市沃特沃德股份有限公司 | 语音处理方法和装置 |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US10332367B1 (en) * | 2018-10-17 | 2019-06-25 | Capital One Services, Llc | Systems and methods for using haptic vibration for inter device communication |
KR102613210B1 (ko) * | 2018-11-08 | 2023-12-14 | 현대자동차주식회사 | 차량 및 그 제어방법 |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175087A (ja) * | 1997-12-10 | 1999-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 単語音声認識の文字列マッチング法 |
JP2004177551A (ja) * | 2002-11-26 | 2004-06-24 | Matsushita Electric Ind Co Ltd | 音声認識用未知発話検出装置及び音声認識装置 |
JP2007041319A (ja) * | 2005-08-03 | 2007-02-15 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
JP2012093422A (ja) * | 2010-10-25 | 2012-05-17 | Denso Corp | 音声認識装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62173498A (ja) | 1986-01-27 | 1987-07-30 | 松下電器産業株式会社 | 音声認識装置 |
JP3461789B2 (ja) | 2000-06-22 | 2003-10-27 | シャープ株式会社 | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20070276691A1 (en) * | 2006-05-12 | 2007-11-29 | Ordercatcher, Llc | System and method for processing orders from a menu |
US20120215528A1 (en) * | 2009-10-28 | 2012-08-23 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
JP5633042B2 (ja) * | 2010-01-28 | 2014-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識ロボット |
DE102014017384B4 (de) * | 2014-11-24 | 2018-10-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung |
-
2016
- 2016-04-12 JP JP2016079481A patent/JP6724511B2/ja active Active
-
2017
- 2017-03-23 US US15/466,995 patent/US10733986B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175087A (ja) * | 1997-12-10 | 1999-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 単語音声認識の文字列マッチング法 |
JP2004177551A (ja) * | 2002-11-26 | 2004-06-24 | Matsushita Electric Ind Co Ltd | 音声認識用未知発話検出装置及び音声認識装置 |
JP2007041319A (ja) * | 2005-08-03 | 2007-02-15 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
JP2012093422A (ja) * | 2010-10-25 | 2012-05-17 | Denso Corp | 音声認識装置 |
Non-Patent Citations (1)
Title |
---|
渡辺 隆夫、外1名: "音節認識を用いたゆう度補正による未知発話のリジェクション", 電子情報通信学会論文誌, vol. 第12号, JPN6019042651, 25 December 1992 (1992-12-25), pages 2002 - 2009, ISSN: 0004147764 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018216748A1 (de) | 2017-09-29 | 2019-04-04 | Nidec Elesys Corporation | Schaltungsplatine und Steuervorrichtung |
JP2020012855A (ja) * | 2018-07-13 | 2020-01-23 | 株式会社ソケッツ | テキスト表示用同期情報生成装置および方法 |
JP7479711B2 (ja) | 2019-03-12 | 2024-05-09 | コルディオ メディカル リミテッド | 音声サンプルのアライメントに基づく診断手法 |
Also Published As
Publication number | Publication date |
---|---|
JP6724511B2 (ja) | 2020-07-15 |
US10733986B2 (en) | 2020-08-04 |
US20170294188A1 (en) | 2017-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6724511B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US10755709B1 (en) | User recognition for speech processing systems | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US8543399B2 (en) | Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms | |
US9159319B1 (en) | Keyword spotting with competitor models | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
US9406299B2 (en) | Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
CN110706714B (zh) | 说话者模型制作*** | |
US20080201147A1 (en) | Distributed speech recognition system and method and terminal and server for distributed speech recognition | |
US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
US10199037B1 (en) | Adaptive beam pruning for automatic speech recognition | |
EP1734509A1 (en) | Method and system for speech recognition | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2019101385A (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
US20180012602A1 (en) | System and methods for pronunciation analysis-based speaker verification | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
CN117378006A (zh) | 混合多语种的文本相关和文本无关说话者确认 | |
CN108806691B (zh) | 语音识别方法及*** | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
KR101840363B1 (ko) | 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6724511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |