JP6811865B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP6811865B2 JP6811865B2 JP2019535463A JP2019535463A JP6811865B2 JP 6811865 B2 JP6811865 B2 JP 6811865B2 JP 2019535463 A JP2019535463 A JP 2019535463A JP 2019535463 A JP2019535463 A JP 2019535463A JP 6811865 B2 JP6811865 B2 JP 6811865B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- vocabulary
- likelihood
- voice recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000015654 memory Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 239000000203 mixture Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Description
<構成>
図1は、本発明の実施の形態1による音声認識装置1の構成の一例を示すブロック図である。なお、図1では、本実施の形態1による音声認識装置を構成する必要最小限の構成を示している。
図4は、音声認識装置6の動作の一例を示すフローチャートである。
上記では、例えば「show se」のように、音声区間特定部4が単語の途中で区切った音声区間を特定する場合について説明したが、これに限るものではない。音声区間特定部4は、音声区間を単語単位で特定してもよい。
<構成>
図7は、本発明の実施の形態2による音声認識装置12の構成の一例を示すブロック図である。なお、図7では、本実施の形態2による音声認識装置を構成する必要最小限の構成を示している。
図10は、音声認識装置17の動作の一例を示すフローチャートである。なお、図10のステップS21およびステップS22は、図4のステップS11およびステップS12に対応しているため、ここでは説明を省略する。以下では、ステップS23およびステップS24について説明する。
上記では、例えば「show se」のように、文字列特定部15が単語の途中で区切った文字列を特定する場合について説明したが、これに限るものではない。文字列特定部15は、文字列を単語単位で特定してもよい。
Claims (6)
- ユーザの音声を取得する音声取得部と、
前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、
前記音声区間特定部が特定した前記音声区間に対応する前記音声を出力する制御を行う音声出力制御部と、
を備える、音声認識装置。 - 前記音声区間特定部は、前記音声区間を単語単位で特定することを特徴とする、請求項1に記載の音声認識装置。
- ユーザの音声を取得する音声取得部と、
前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、
前記文字列特定部が特定した前記文字列を表示する制御を行う表示制御部と、
を備える、音声認識装置。 - 前記文字列特定部は、前記文字列を単語単位で特定することを特徴とする、請求項3に記載の音声認識装置。
- ユーザの音声を取得し、
前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、
前記特定した前記音声区間に対応する前記音声を出力する制御を行う、音声認識方法。 - ユーザの音声を取得し、
前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、
前記特定した前記文字列を表示する制御を行う、音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/028694 WO2019030810A1 (ja) | 2017-08-08 | 2017-08-08 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019030810A1 JPWO2019030810A1 (ja) | 2019-11-14 |
JP6811865B2 true JP6811865B2 (ja) | 2021-01-13 |
Family
ID=65272226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535463A Active JP6811865B2 (ja) | 2017-08-08 | 2017-08-08 | 音声認識装置および音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200168221A1 (ja) |
JP (1) | JP6811865B2 (ja) |
WO (1) | WO2019030810A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7151606B2 (ja) * | 2019-04-17 | 2022-10-12 | 日本電信電話株式会社 | コマンド解析装置、コマンド解析方法、プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314320A (ja) * | 1992-05-08 | 1993-11-26 | Fujitsu Ltd | 認識距離の差と候補順を利用した認識結果の評価方式 |
JPH10207486A (ja) * | 1997-01-20 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 対話型音声認識方法およびこの方法を実施する装置 |
JP3819896B2 (ja) * | 2003-11-14 | 2006-09-13 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP5406797B2 (ja) * | 2010-07-13 | 2014-02-05 | 日本電信電話株式会社 | 音声認識方法とその装置とプログラム |
JP6131537B2 (ja) * | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
JP6222970B2 (ja) * | 2013-04-15 | 2017-11-01 | 株式会社アドバンスト・メディア | 音声認識装置および音声認識結果確定方法 |
JP6351440B2 (ja) * | 2014-08-28 | 2018-07-04 | アルパイン株式会社 | 音声認識装置及びコンピュータプログラム |
-
2017
- 2017-08-08 WO PCT/JP2017/028694 patent/WO2019030810A1/ja active Application Filing
- 2017-08-08 US US16/617,408 patent/US20200168221A1/en not_active Abandoned
- 2017-08-08 JP JP2019535463A patent/JP6811865B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2019030810A1 (ja) | 2019-11-14 |
US20200168221A1 (en) | 2020-05-28 |
WO2019030810A1 (ja) | 2019-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106233374B (zh) | 用于检测用户定义的关键字的关键字模型生成 | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US9837068B2 (en) | Sound sample verification for generating sound detection model | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US9940926B2 (en) | Rapid speech recognition adaptation using acoustic input | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
KR20080018622A (ko) | 휴대용 단말기의 음성 인식 시스템 | |
US20210210109A1 (en) | Adaptive decoder for highly compressed grapheme model | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
US20240265908A1 (en) | Methods for real-time accent conversion and systems thereof | |
KR102417899B1 (ko) | 차량의 음성인식 시스템 및 방법 | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
CN110580901A (zh) | 语音识别设备、包括该设备的车辆及该车辆控制方法 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
US11699438B2 (en) | Open smart speaker | |
US20090254335A1 (en) | Multilingual weighted codebooks | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN111696530B (zh) | 一种目标声学模型获取方法及装置 | |
KR102221236B1 (ko) | 음성을 제공하는 방법 및 장치 | |
KR20230141251A (ko) | 성도 및 여기 신호 정보를 이용한 자동 음성 인식 방법 및 장치 | |
JP2006337963A (ja) | 音声対話装置及び訂正発話認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6811865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |