JP6708035B2 - 発話内容認識装置 - Google Patents
発話内容認識装置 Download PDFInfo
- Publication number
- JP6708035B2 JP6708035B2 JP2016141645A JP2016141645A JP6708035B2 JP 6708035 B2 JP6708035 B2 JP 6708035B2 JP 2016141645 A JP2016141645 A JP 2016141645A JP 2016141645 A JP2016141645 A JP 2016141645A JP 6708035 B2 JP6708035 B2 JP 6708035B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- user
- voice
- tone
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 89
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
音声認識装置1は、CPUが上述の発話内容特定プログラムを実行することによって、図1に示す種々の機能ブロックに対応する機能を提供する。具体的には、音声認識装置1は、機能ブロックとして、着座判定部F1、操作受付部F2、音声取得部F3、音声認識部F4、ノイズレベル判定部F5、画像取得部F6、読唇処理部F7、学習処理部F8、中間言語化部F9、及び認識媒体設定部F10を備える。
次に、図3に示すフローチャートを用いて、音声認識装置1がスタンバイモードで動作している場合に実行する処理(以降、スタンバイモード処理)について説明する。図3に示すフローチャートは、運転席へのユーザが着座したことを検出した場合に開始される。また、後述する発話内容認識処理が完了した場合にも開始される。つまり、スリープモードや認識実行モードから、スタンバイモードへと移行した場合に開始されれば良い。
次に、図4に示すフローチャートを用いて、学習処理部F8が実施するパターン学習処理について述べる。このフローチャートは、図3に示すスタンバイモード処理のステップS103に移った時に開始されれば良い。
次に、図7に示すフローチャートを用いて、学習処理部F8が実施する発話内容認識処理について述べる。発話内容認識処理は、マイク4が集音した音声又はカメラ5の撮像画像に基づいて(換言すれば音声認識と読唇処理の何れか一方を用いて)、ユーザが発話した内容を特定する処理である。発話内容認識処理は、トークSW3が押下された場合に開始されれば良い。つまり、動作モードが認識実行モードへと移行した時に開始される。
次に、図8に示すフローチャートを用いて、中間言語化部F9が実施する中間言語データ生成処理について述べる。このフローチャートは、図8に示す発話内容認識処理のステップS322に移った時に開始されれば良い。
以上の構成では、スタンバイモードで動作している間にユーザの発話を検出した場合には、そのユーザが発話した音声データ及びその際の画像データを元に、連結唇動データと声調パターンデータとを生成し、声調DB1cに保存する(ステップS103)。
以上では、生成した中間言語データを、発話内容の特定(換言すれば認識)に利用する態様を開示したが、これに限らない。中間言語データは、音声合成処理に利用されても良い。その場合、音声認識装置1は、中間言語化部F9が生成した中間言語データを、音声合成処理を実行するアプリケーションソフトウェアに提供する。
上述した実施形態では、ユーザの離席時にマイク4をオフする態様を開示したが、これに限らない。マイク4は走行用電源がオンとなっている間は常にオン状態が維持されても良い。
車両を利用する人物(つまりユーザ)が複数存在する場合には、上述した種々の処理は、ユーザを識別して実施することが好ましい。つまり、顔画像や声紋、指紋等によってユーザを識別し、ユーザ毎に音節文字毎の唇動パターンや、連結唇動データ、声調データを生成することが好ましい。
以上では、ユーザの発話音声を音節の概念で区切って処理を実施する態様を開示したが、これに限らない。ユーザの発話音声をモーラの概念で区切って処理してもよい。
Claims (4)
- 所定のユーザ操作をトリガとしてユーザの発話内容を特定する処理を実行する発話内容認識装置であって、
前記ユーザ操作を受け付ける操作受付部(F2)と、
マイクを介して前記ユーザの発話音声を発話音声データとして取得する音声取得部(F3)と、
前記ユーザの顔部を撮影するように配置されたカメラが撮影した画像であるユーザ画像を逐次取得する画像取得部(F6)と、
前記画像取得部が取得した前記ユーザ画像から前記ユーザの***形状の変化パターンである唇動パターンを検出し、さらに、その検出した唇動パターンに基づいて前記ユーザの発話音声に対応する文字列である発話文字列を生成する読唇処理部(F7)と、
前記音声取得部が取得した前記発話音声データに基づいて、2つの音節を連続して発声する際の声調パターンを特定する声調パターン特定部(F81)と、
前記画像取得部が取得した前記ユーザ画像から、前記ユーザが2つの音節を連続して発声する際の***形状の変化パターンである連結唇動パターンを特定する連結唇動パターン特定部(F82)と、
前記ユーザが続けて発声した2音節に対して、前記連結唇動パターン特定部が特定した前記連結唇動パターンと、前記声調パターン特定部が特定した前記声調パターンを対応付けて声調データベースに保存する処理であるパターン学習処理を実行する学習処理部(F8)と、
前記声調データベースに保存されているデータと、前記発話文字列の生成に用いられた前記ユーザ画像とを用いて、前記発話文字列を構成する各音節文字に対して声調情報を付加した中間言語データを生成する中間言語データ生成部(F9)と、を備え、
前記学習処理部は、前記操作受付部が前記ユーザ操作を受け付けていない場合に、前記声調パターン特定部及び前記連結唇動パターン特定部と協働して前記パターン学習処理を逐次実行し、
前記中間言語データ生成部は、前記操作受付部が前記ユーザ操作を受け付けたことに基づいて前記読唇処理部が前記発話文字列を生成した場合に、前記中間言語データを生成するものであって、
前記中間言語データ生成部は、
前記発話文字列を構成する或る1つの音節文字である対象文字についての声調を決定する場合には、前記声調データベースに格納されている複数の前記連結唇動パターンの中から、前記対象文字の1つ前に位置する音節文字と前記対象文字とを連続して発声した時の前記ユーザの***形状の変化パターンと類似度が高い前記連結唇動パターンを特定し、
その特定された前記連結唇動パターンに対応付けられている前記声調パターンを用いて前記対象文字についての声調を決定することを特徴とする発話内容認識装置。 - 請求項1において、
前記音声取得部が取得した前記発話音声データに基づいて音声認識処理を実行する音声認識部(F4)と、
前記マイクから出力される音声信号の振幅に基づいて、騒音のレベルであるノイズレベルを判定するノイズレベル判定部(F5)と、を備え、
前記操作受付部が前記ユーザ操作を受け付けた時点において前記ノイズレベル判定部によって前記ノイズレベルは高レベルであると判定されている場合に、前記読唇処理部が前記ユーザ画像に基づいて前記発話文字列を生成する一方、
前記操作受付部が前記ユーザ操作を受け付けた時点において前記ノイズレベル判定部によって前記ノイズレベルは低レベルであると判定されている場合には前記音声認識部が前記音声認識処理を実行することで前記ユーザの発話内容を特定することを特徴とする発話内容認識装置。 - 請求項2において、
前記操作受付部が前記ユーザ操作を受け付けた時点において前記ノイズレベル判定部によって前記ノイズレベルは高レベルであると判定されている場合に、
前記読唇処理部が前記発話文字列を生成した後に、前記音声認識部は、前記中間言語データ生成部が生成した前記中間言語データを用いて音声認識処理を実施することで、前記ユーザの発話内容を特定することを特徴とする発話内容認識装置。 - 請求項1から3の何れか1項において、
前記中間言語データ生成部が生成した前記中間言語データは、音声合成処理を実行するアプリケーションソフトウェアに提供されることを特徴とする発話内容認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016141645A JP6708035B2 (ja) | 2016-07-19 | 2016-07-19 | 発話内容認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016141645A JP6708035B2 (ja) | 2016-07-19 | 2016-07-19 | 発話内容認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018013549A JP2018013549A (ja) | 2018-01-25 |
JP6708035B2 true JP6708035B2 (ja) | 2020-06-10 |
Family
ID=61020671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016141645A Active JP6708035B2 (ja) | 2016-07-19 | 2016-07-19 | 発話内容認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6708035B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6964044B2 (ja) * | 2018-05-21 | 2021-11-10 | 株式会社デンソーアイティーラボラトリ | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 |
JP2019208138A (ja) * | 2018-05-29 | 2019-12-05 | 住友電気工業株式会社 | 発話認識装置、及びコンピュータプログラム |
CN109087651B (zh) * | 2018-09-05 | 2021-01-19 | 广州势必可赢网络科技有限公司 | 一种基于视频与语谱图的声纹鉴定方法、***及设备 |
CN111462760B (zh) * | 2019-01-21 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 声纹识别***、方法、装置及电子设备 |
JP7400364B2 (ja) * | 2019-11-08 | 2023-12-19 | 株式会社リコー | 音声認識システム及び情報処理方法 |
CN112767923B (zh) * | 2021-01-05 | 2022-12-23 | 上海微盟企业发展有限公司 | 一种语音识别方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003195883A (ja) * | 2001-12-26 | 2003-07-09 | Toshiba Corp | 雑音除去装置およびその装置を備えた通信端末 |
JP4775961B2 (ja) * | 2006-12-08 | 2011-09-21 | 公立大学法人大阪府立大学 | 映像を用いた発音の推定方法 |
JP5040778B2 (ja) * | 2008-04-04 | 2012-10-03 | 沖電気工業株式会社 | 音声合成装置、方法及びプログラム |
JP5609431B2 (ja) * | 2010-08-25 | 2014-10-22 | 富士通株式会社 | 音量制御装置、音量制御方法およびプログラム |
-
2016
- 2016-07-19 JP JP2016141645A patent/JP6708035B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018013549A (ja) | 2018-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6708035B2 (ja) | 発話内容認識装置 | |
US6553342B1 (en) | Tone based speech recognition | |
JP3762327B2 (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
EP1701338B1 (en) | Speech recognition method | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
JPWO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP2005266349A (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP5040778B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2003114696A (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
CN113488022B (zh) | 一种语音合成方法和装置 | |
Grewal et al. | Isolated word recognition system for English language | |
JP5201053B2 (ja) | 合成音声判別装置、方法及びプログラム | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
JP4230142B2 (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JPH07230294A (ja) | 言語識別装置 | |
KR20100111544A (ko) | 음성인식을 이용한 발음 교정 시스템 및 그 방법 | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP4449380B2 (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 | |
JP2705061B2 (ja) | 音声認識方法 | |
JP3808732B2 (ja) | 音声認識方法及びそのシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180831 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200504 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6708035 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |