JP2018091954A - 音声認識装置、及び音声認識方法 - Google Patents
音声認識装置、及び音声認識方法 Download PDFInfo
- Publication number
- JP2018091954A JP2018091954A JP2016234118A JP2016234118A JP2018091954A JP 2018091954 A JP2018091954 A JP 2018091954A JP 2016234118 A JP2016234118 A JP 2016234118A JP 2016234118 A JP2016234118 A JP 2016234118A JP 2018091954 A JP2018091954 A JP 2018091954A
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- item
- cpu
- person
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 149
- 230000008859 change Effects 0.000 claims description 56
- 238000003384 imaging method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 description 138
- 238000012545 processing Methods 0.000 description 47
- 230000015654 memory Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 206010044565 Tremor Diseases 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000003703 image analysis method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001678 irradiating effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 210000005182 tip of the tongue Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000037303 wrinkles Effects 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 238000007665 sagging Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】 簡易に高い精度で音声を認識することができる音声認識装置、及び音声認識方法を提供する。
【解決手段】 一実施形態に係る音声認識装置は、人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部と、前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識する音声認識部と、前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定する子音推定部と、前記子音推定部により推定した子音と、前記音声認識部による認識した子音とに基づいて子音を特定する子音特定部と、を具備する。
【選択図】図1
【解決手段】 一実施形態に係る音声認識装置は、人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部と、前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識する音声認識部と、前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定する子音推定部と、前記子音推定部により推定した子音と、前記音声認識部による認識した子音とに基づいて子音を特定する子音特定部と、を具備する。
【選択図】図1
Description
本発明は、音声認識装置、及び音声認識方法に関する。
近年、音声を認識してテキストデータを生成する音声認識装置が実用化されている。音声認識装置は、音声を認識してテキストデータを生成する場合、誤認識が生じる可能性がある。例えば、特表2005−507536号公報(以下、特許文献1と称する)に記載のように、認識されたテキストを修正する技術が開示されている。
特許文献1に記載の技術によると、誤認識により生じたテキストを修正する修正員は、テキストファイルを読むとともに音声を聞くことによって、欠陥があるまたは不適当であると推定されるテキスト節を修正する。即ち、手作業でテキストを修正する必要がある為、手間であるという課題がある。
本発明は、簡易に高い精度で音声を認識することができる音声認識装置、及び音声認識方法を提供することを目的とする。
一実施形態に係る音声認識装置は、人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部と、前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識する音声認識部と、前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定する子音推定部と、前記子音推定部により推定した子音と、前記音声認識部による認識した子音とに基づいて子音を特定する子音特定部と、を具備する。
本発明によれば、簡易に高い精度で音声を認識することができる音声認識装置、及び音声認識方法を提供することができる。
以下、図を参照しながら、一実施形態に係る音声認識装置及び音声認識方法について詳細に説明する。
図1は、一実施形態に係る音声認識装置1の例を示す説明図である。音声認識装置1は、音声の録音、映像の録画、及び音声の認識を行う端末である。なお、図1では、音声の録音、映像の録画、及び音声の認識を行う構成が一体になった例を示すが、音声の録音及び映像の録画を行う構成と、音声の認識を行う構成とは別体であってもよい。即ち、音声認識装置の音声の録音及び映像の録画を行う構成は、音声の録音及び映像の録画を行いファイルを生成するレコーダ(例えばICレコーダなど)であってもよい。また、音声認識装置の音声の認識を行う構成は、クラウド上に置かれ、取得したファイルに基づいて音声認識を行うプログラムとして構成されていてもよい。
音声認識装置1は、音声の録音を行うことにより、音声ストリームを生成する。音声ストリームは、時間的に連続した音声を示すデータである。また、音声認識装置1は、映像の録画を行うことにより、映像ストリームを生成する。映像ストリームは、時間的に連続した映像(画像)を示すデータである。音声認識装置1は、音声ストリームと映像ストリームとを同期させて動画ファイルを生成する。さらに、音声認識装置1は、上記の動画ファイルに基づいて音声認識を行い、人物が発声した言葉に応じたテキストデータを生成する。
図1に示されるように、音声認識装置1は、CPU11、ROM12、RAM13、不揮発性メモリ14、通信部15、撮像部16、収音部17、表示部18、音声再生部19、時計部20、姿勢センサ21、及び操作部22を備える。
CPU11は、演算処理を実行する演算素子(たとえば、プロセッサ)である。CPU11は、ROM12に記憶されているプログラムなどのデータに基づいて種々の処理を行う。CPU11は、ROM12に格納されているプログラムを実行することにより、種々の動作を実行可能な制御部として機能する。例えば、CPU11は、各部を制御することによって、音声の録音、映像の録画、及び音声の認識を行わせる。
ROM12は、読み出し専用の不揮発性メモリである。ROM12は、プログラム及びプログラムで用いられるデータなどを記憶する。
RAM13は、ワーキングメモリとして機能する揮発性のメモリである。RAM13は、CPU11の処理中のデータなどを一時的に格納する。また、RAM13は、CPU11が実行するプログラムを一時的に格納する。
不揮発性メモリ14は、種々の情報を記憶可能な記憶媒体である。不揮発性メモリ14は、プログラム及びプログラムで用いられるデータなどを記憶する。不揮発性メモリ14は、例えば、ソリッドステイトドライブ(SSD)、ハードディスクドライブ(HDD)、または他の記憶装置である。なお、不揮発性メモリ14の代わりに、メモリカードなどの記憶媒体を挿入可能なカードスロットなどのメモリI/Fが設けられていてもよい。
通信部15は、他の機器と通信する為のインタフェースである。通信部15は、他の機器と電気的に接続する為の端子、または、他の機器と無線通信する為の通信回路を備える。端子は、例えば、USB端子、LANコネクタ、または他の何らかの有線接続用の端子である。通信回路は、例えばBluetooth(登録商標)、またはWi−Fi(登録商標)などの規格に応じて他の機器と無線通信を行う為のアンテナ及び信号処理回路を備えるものである。通信部15は、音声認識装置1を制御する為の制御信号を他の機器から受け取り、CPU11に供給する構成であってもよい。
撮像部16は、ディジタルの画像データを取得(撮像)するカメラを有する。また、撮像部16は、画像データを連続して取得することにより、画像データが時間的に連続した映像ストリームを取得する。映像ストリームは、1枚の画像を1フレームとした複数のフレームを有する。撮像部16は、撮像素子と、撮像素子に光を結像させる光学系とを備える。
撮像素子は、光を光電変換し電荷を蓄える画素が複数配列されて構成された撮像面を備える。画素は、入射する光の光量に応じた電気信号を生成する。撮像素子は、例えば、Charge Coupled Devices(CCD)イメージセンサ、Complementary Metal Oxide Semiconductor(CMOS)イメージセンサ、または他の撮像素子により構成される。撮像面に配列された複数の画素の光が入射する面にはカラーフィルタが設けられている。撮像素子は、異なる色のカラーフィルタが設けられた複数の画素によってカラーの画像信号を生成する。
光学系は、複数のレンズが組み合わされた合成レンズである。光学系は、合成レンズの焦点距離に応じた撮像画角内の被写体からの光を撮像素子の撮像面に結像させる。光学系は、例えば焦点調節用のレンズ(フォーカスレンズ)を備えていてもよい。また、光学系は、例えば焦点距離調節用のレンズ(ズームレンズ)を備えていてもよい。
撮像部16は、撮像素子の複数の画素により生成された電気信号を読み出し、電気信号をディジタル信号に変換することにより、ディジタルの画像データを取得する。また、撮像部16は、撮像素子の複数の画素により生成された電気信号を連続して読み出し、電気信号をディジタル信号に変換することにより、映像ストリームを生成する。
収音部17は、音声を取得(録音)するマイクを有する。また、収音部17は、音声を連続して取得することにより、音声が時間的に連続した音声ストリームを取得する。収音部17は、音声をアナログの電気信号に変換し、電気信号をディジタル信号に変換することにより、ディジタルの音声データを取得する。収音部17は、取得した音声データに基づいて音声ストリームを生成する。即ち、撮像部16及び収音部17は、映像ストリーム及び音声ストリームを取得する取得部として機能する。
表示部18は、画面を表示する表示装置を有する。表示部18は、CPU11、または図示されないグラフィックコントローラなどの表示制御部から入力される映像信号に応じて画面を表示装置に表示する。
音声再生部19は、音声を再生するスピーカを有する。音声再生部19は、CPU11、または図示されないサウンドコントローラなどの音声制御部から入力される音声信号に応じて音声をスピーカから出力する。
時計部20は、時刻を計るものである。時計部20は、現在時刻、または経過時間などの時間に関する情報をCPU11に供給する。
姿勢センサ21は、音声認識装置1の図示されない筐体の姿勢を検出するセンサである。姿勢センサ21は、筐体の姿勢の検出結果をCPU11に供給する。例えば、姿勢センサ21は、筐体の回転運動を検出する角速度センサである。また例えば、姿勢センサ21は、筐体の重力方向に対する向き、及び筐体の変位を検出する加速度センサであってもよい。
操作部22は、操作部材の操作に基づいて、操作信号を生成する。操作部材は、例えば操作キー、またはタッチセンサなどである。タッチセンサは、ある領域内において指定された位置を示す情報を取得する。タッチセンサは、上記の表示部18と一体にタッチパネルとして構成されることにより、表示部18に表示された画面上のタッチされた位置を示す信号をCPU11に入力する。
CPU11は、ROM12または不揮発性メモリ14などに記憶されているプログラムを実行することによって、録音処理、音声認識処理、項目別音声認識処理、及び辞書更新処理などを音声認識装置1に実行させる。項目別音声認識処理の項目については後述する。
録音処理は、音声認識装置1が音声ストリームと映像ストリームとを取得する処理である。録音処理を行う場合、CPU11は、収音部17により音声ストリームを生成し、撮像部16により映像ストリームを生成し、音声ストリーム及び映像ストリームに基づいて動画ファイルを生成し、動画ファイルを不揮発性メモリ14に記録する。なお、動画ファイルの映像ストリームは、開始から終了までの間音声ストリームに同期したものでなくてもよい。動画ファイルの映像ストリームは、少なくとも人物が発声している間に録画されたものであればよい。例えば、CPU11は、通信部15などの取得部によって外部から映像ストリーム及び音声ストリームを取得する構成であってもよい。
さらに、CPU11は、音声認識装置1が音声ストリームと映像ストリームとを取得する場合、口を写すように促す構成であってもよい。例えば、CPU11は、撮像部16のレンズを口に向けることを促す情報を表示部18または音声再生部19から出力する構成であってもよい。またさらに、CPU11は、映像ストリームに基づいて人物の少なくとも口が写っているか否か判定し、人物の口が写っていない場合に口を映すように促す構成であってもよい。
例えば、図2に示されるように、撮像部16のレンズ及び収音部17のマイクは、音声認識装置1の筐体の同じ面に設けられている。人物が音声認識装置1を手に持った状態で声を発声する場合、収音部17のマイクを口に向けることが想定される。撮像部16のレンズが収音部17のマイクと同じ面に設けられていることにより、収音部17のマイクを口に向けた場合に撮像部16のレンズも人物の口に向くことになる。即ち、図2に示されるように、音声認識装置1の撮像部16のレンズが人物の口に向けられている場合、撮像部16の撮像画角に人物の口が写る。CPU11は、映像ストリームのフレームに人物の口が写っているか否かを画像認識を行うことによって判断する。また、CPU11は、姿勢センサ21の検出結果に応じて人物の口が写っているか否か判断してもよい。例えば、姿勢センサ21により音声認識装置1の撮像部16のレンズの光軸が水平よりも下方に向けられていることが検出された場合、CPU11は、人物の口が写っていないと判断してもよい。また、例えば、姿勢センサ21により音声認識装置1の撮像部16のレンズの光軸が鉛直に向けられている場合、CPU11は、人物の口が写っていないと判断してもよい。
音声認識処理は、音声ストリームと、映像ストリームとに基づいて人物が発声した言葉に応じたテキストデータを生成する処理である。音声認識処理を行う場合、CPU11は、音声ストリームの音の波形と、予め記憶された音響モデルとを比較し、母音及び子音などを認識する。即ち、CPU11は、音声ストリームに基づいて人物が発声した子音を含む音声を認識する音声認識部として機能する。
音響モデルは、例えば、母音及び子音などの音の要素毎に予め生成された音の波形である。音響モデルは、不揮発性メモリ14またはROM12などに予め記憶される。例えば、CPU11は、音声ストリームの音の波形と音響モデルの波形とを比較し、類似度が高い音響モデルに対応した母音及び子音などを認識する。なお、音声認識装置1は、例えば言語または項目毎に異なる複数の音響モデルを不揮発性メモリ14に予め記憶する構成であってもよい。
さらに、CPU11は、映像ストリームに基づいて、発声を行う場合の人物の口の形状の変化を認識する。CPU11は、認識した口の形状の変化に基づいて、人物が発声している子音を推定する。例えば、CPU11は、認識した口の形状の変化と、予め記憶された口形モデルとを比較し、人物が発声している子音を推定する。即ち、CPU11は、映像ストリームの人物の口の形状に基づいて人物が発声した子音を推定する子音推定部として機能する。CPU11は、子音の推定結果を用いて、音声ストリームに基づく子音の認識結果を修正する。即ち、CPU11は、子音の推定結果と音声ストリームに基づく子音の認識結果とに基づいて子音を特定する子音特定部として機能する。
口形モデルは、例えば、子音毎の口の形状の変化を示すものである。口形モデルは、不揮発性メモリ14に予め記憶される。例えば、CPU11は、認識した口の形状の変化と、口形モデルが示す口の形状の変化とを比較し、類似度が高い口形モデルに対応した子音を、人物が発声している子音として推定する。なお、音声認識装置1は、例えば言語または項目毎に異なる複数の口形モデルを不揮発性メモリ14に予め記憶する構成であってもよい。また、口形モデルは、例えば、母音毎の口の形状の変化を示すものをさらに含んでいてもよい。この場合、CPU11は、認識した口の形状の変化と、口形モデルが示す口の形状の変化とを比較し、類似度が高い口形モデルに対応した母音を、人物が発声している母音として推定してもよい。例えば、外国語のように、普段、使っていない言語の教材などには、ビデオや写真、イラストなどを使って説明しているものがあるが、こうした画像データなどは、そのまま推定時の教師画像のように利用することが出来る。こうした教師画像で深層学習した結果で、上記推定時の判断を行っても良い。
さらに、CPU11は、母音及び子音の認識結果と、予め記憶された辞書(単語認識辞書)とに基づいて単語を認識し、単語の認識結果に基づいてテキストデータを生成する。
単語認識辞書は、単語と子音及び母音の組み合わせとが対応付けられたものである。単語認識辞書は、不揮発性メモリ14に予め記憶される。CPU11は、単語認識辞書を参照することにより、子音及び母音の組み合わせから単語を認識することができる。即ち、CPU11は、単語認識辞書を参照することにより、母音及び子音の認識結果に応じた単語を単語認識辞書から取得する。なお、音声認識装置1は、言語または項目毎に異なる複数の単語認識辞書を不揮発性メモリ14に予め記憶する構成であってもよい。例えば、音声認識装置1は、項目ごとに複数の異なる単語認識辞書を不揮発性メモリ14に予め記憶する構成であってもよい。
項目別音声認識処理は、予め設定された項目毎に録音処理及び音声認識処理を行う処理である。項目は、認識対象の音声の種類を示すものである。項目は、音声認識装置1が適用される分野に応じて適宜設定される。例えば、音声認識装置1が医療分野のディクテーションに用いられる場合、項目は、名前、年齢、性別、患部、診察結果、及び日付などである。これらの項目は、予め記憶されたものであってもよいし、操作部22による操作に応じて生成されたものであってもよい。これらの項目は、項目リストとして音声認識装置1に記憶される。項目リストについては後述する。また、項目によって発声される子音、母音、単語などに偏りが存在する。この為、上記のように、単語認識辞書、口形モデル、及び音響モデルが項目ごとに予め記憶されていてもよい。
項目別音声認識処理を行う場合、CPU11は、予め設定された項目毎に発声を促し、項目毎に音声認識装置1により音声ストリーム及び映像ストリームを取得する。CPU11は、音声ストリームと、映像ストリームと、項目に応じた辞書とに基づいて、人物が発声した単語を認識する。
具体的には、CPU11は、予め設定された複数の項目のうちの1つを選択する。CPU11は、撮像部16のレンズを口に向けることを促す情報及び選択した項目を示す情報を、表示部18または音声再生部19から出力し、撮像部16及び収音部17により音声ストリーム及び映像ストリームを取得する。
CPU11は、音声ストリームの音の波形と、予め記憶された音響モデルとを比較し、母音及び子音などを認識する。CPU11は、映像ストリームに基づいて、発声を行う場合の人物の口の形状の変化を認識する。CPU11は、認識した口の形状の変化と口形モデルとに基づいて、人物が発声している子音を推定する。CPU11は、子音の推定結果を用いて、音声ストリームに基づく子音の認識結果を修正する。
CPU11は、母音及び子音の認識結果と、単語認識辞書とに基づいて単語を認識し、単語の認識結果に基づいてテキストデータを生成する。この場合、CPU11は、選択した項目に応じた単語認識辞書を参照し、母音及び子音の認識結果に応じた単語を認識し、単語の認識結果に基づいてテキストデータを生成する。
辞書更新処理は、上記の単語認識辞書、音響モデル、及び口形モデルなどの更新を行う処理である。CPU11は、例えば、通信部15を介して他の機器から単語認識辞書、音響モデル、及び口形モデルを受信した場合、受信した単語認識辞書、音響モデル、及び口形モデルを不揮発性メモリ14に記憶されている単語認識辞書、音響モデル、及び口形モデルに上書きする。なお、単語認識辞書、音響モデル、及び口形モデルは、個別に更新されてもよい。また、単語認識辞書、音響モデル、及び口形モデルの更新が不要である場合、単語認識辞書、音響モデル、及び口形モデルは、不揮発性メモリ14ではなくROM12に記憶されていてもよい。
図3は、音声認識装置1の動作の例を示すフローチャートである。音声認識装置1のCPU11は、操作部22による操作、または通信部15を介して入力される制御信号に応じて種々の動作を実行する。
まず、CPU11は、録音処理を実行するか否か判断する(ステップS11)。CPU11は、録音処理を実行する操作が操作部22によって入力された場合、または通信部15により録音処理を実行することを指示する情報が入力された場合、録音処理を実行すると判断する。CPU11は、録音処理を実行すると判断した場合(ステップS11、YES)、撮像部16及び収音部17により音声ストリーム及び映像ストリームを取得する録音処理を実行する(ステップS12)。
次に、CPU11は、音声認識処理を実行するか否か判断する(ステップS13)。CPU11は、音声認識処理を実行する操作が操作部22によって入力された場合、または通信部15により音声認識処理を実行することを指示する情報が入力された場合、音声認識処理を実行すると判断する。CPU11は、音声認識処理を実行すると判断した場合(ステップS13、YES)、取得した音声ストリーム及び映像ストリームに基づいて音声認識処理を実行する(ステップS14)。
次に、CPU11は、項目別音声認識処理を実行するか否か判断する(ステップS15)。CPU11は、項目別音声認識処理を実行する操作が操作部22によって入力された場合、または通信部15により項目別音声認識処理を実行することを指示する情報が入力された場合、項目別音声認識処理を実行すると判断する。CPU11は、項目別音声認識処理を実行すると判断した場合(ステップS15、YES)、撮像部16及び収音部17により項目ごとに音声ストリーム及び映像ストリームを取得し、取得した音声ストリーム及び映像ストリームに基づいて項目ごとに音声を解析する項目別音声認識処理を実行する(ステップS16)。
次に、CPU11は、辞書更新処理を実行するか否か判断する(ステップS17)。CPU11は、辞書更新処理を実行すると判断した場合(ステップS17、YES)、通信部15を介して取得した単語認識辞書、音響モデル、及び口形モデルなどにより辞書更新処理を実行する(ステップS18)。
CPU11は、録音処理を実行した場合、音声認識処理を実行した場合、項目別音声認識処理を実行した場合、またはステップS17で辞書更新処理を実行しないと判断した場合(ステップS17、NO)、処理を終了する。また、CPU11は、録音処理を実行した場合、音声認識処理を実行した場合、項目別音声認識処理を実行した場合、またはステップS17で辞書更新処理を実行しないと判断した場合(ステップS17、NO)、ステップS11の処理に戻ってもよい。
図4は、音声認識装置1が実行する音声認識処理の例を示すフローチャートである。なお、ここでは、録音処理によって既に生成された動画ファイルの音声ストリーム及び映像ストリームに基づいて、音声認識装置1が音声認識を行う例を示す。しかし、録音処理と音声認識は同時に行われてもよい。即ち、音声認識装置1は、録音処理によって逐次生成される音声ストリーム及び映像ストリームに基づいて、音声認識処理を行う構成であってもよい。
まず、音声認識装置1のCPU11は、音声ストリームを取得する(ステップS21)。例えば、CPU11は、動画ファイルを再生することにより音声ストリームを取得する。
CPU11は、映像ストリームを取得する(ステップS22)。例えば、CPU11は、動画ファイルを再生することにより映像ストリームを取得する。
CPU11は、取得した音声ストリームに基づいて音声認識を行う(ステップS23)。例えば、CPU11は、音声ストリームの音の波形と、音響モデルとを比較し、母音及び子音などを認識する。
CPU11は、音声ストリームに基づく母音及び子音の認識結果と、映像ストリームとに基づいて、子音を特定する子音特定処理を行う(ステップS24)。これにより、CPU11は、音声ストリーム及び映像ストリームから母音及び子音を認識する。
以下、子音特定処理について説明する。
母音及び子音は、舌の形、唇の形、及び顎の開閉度などによって変化する。母音は、声帯の震動を伴って一定時間継続可能な有声音である。子音は、口の中で空気の流れが妨害されることによって発声される音である。例えば、日本語は、無声破裂音、無声破擦音、無声摩擦音、鼻音、半母音、または流音などの子音と、母音と、により音韻が成り立っている。
母音及び子音は、舌の形、唇の形、及び顎の開閉度などによって変化する。母音は、声帯の震動を伴って一定時間継続可能な有声音である。子音は、口の中で空気の流れが妨害されることによって発声される音である。例えば、日本語は、無声破裂音、無声破擦音、無声摩擦音、鼻音、半母音、または流音などの子音と、母音と、により音韻が成り立っている。
母音は、舌の形、唇の形、及び顎の開閉度などによって決まる。これに対し、子音は、口の中での空気の流れを変える為の舌の動き及び形状、顎の動き及び形状、並びに息の制御などの時間的な変化によって決まる。この為、母音を母音の発声時の唇の形状から特定することは、子音の特定に比べて容易である。
また、息の制御によって区別される子音の例として、持続時間の長短によって区別される長子音、及び短子音などがある。また、息の制御によって区別される子音の例として、瞬間的に勢いのある息によって生じる破裂音及び濁音がある。このような息の制御は、言語、地域差、及び個人差などによって異なる場合がある。この為、人物が正確に息の制御を行うことができていない可能性がある。例えば、同じ日本人でも、地方によっては、「h」と「c」、「l」と「r」などの子音が正確に区別されていない場合がある。また、例えば、ある人物が母国語では区別されていない子音を発音する場合、ネイティブの舌の動き及び形状、顎の動き及び形状、並びに息の制御を真似ることが難しい場合がある。この為、人物が、子音の違いを強調しようとして発声する場合、人物の表情に変化(こわばるなど)が生じる可能性がある。つまり、空気の流れを舌や顎や息の経時変化を制御することによって、口の形状のみならず、顔全体の表情、ひいては姿勢の変化も引き起こしやすく、このような画像の変化情報を考慮して、発話者の意図を読み取る事は、非常に重要かつ効果的であるので、母音の判定以上に画像を考慮した判定は効果を奏する。
上記のような理由によって、音声のみで子音及び母音を正確に認識することは困難である。この為、音声認識装置1は、頭子音から母音に到るまでの過程を解析することによって、子音の認識の正確性を向上させる。
例えば、ある人物が母国語では区別されていない子音(例えば「l」と「r」)を発音する場合に、口をリラックスさせた状態で「l」を発声し、唇を突き出した状態で「r」を発声するとする。このような場合、音声では「l」と「r」との違いを区別することが難しい場合がある。しかしながら、上記のように、「l」と「r」では舌の形、唇の形、及び顎の開閉度などが異なることが推定される。この為、音声認識装置1は、子音の発声から母音の発声に到るまでの子音発声フレームを用いて、人物の口の形状の変化を解析することによって、子音の認識の正確性を向上させる。もちろん、口形状の変化とした部分は、一瞬の口の形の離散的な時系列変化のみならず、連続した変化、特定の口の形状になるまでの画像変化の過程、口の変化であってもよく、顔の下半分の変化であってもよく、顔をこわばらせているかどうかなど、顔全体の変化、表情の変化のような画像変化であってもよい。前述のように、口などの発話に重要な部位の基本的な変化のみならず、口の近傍や、連携して動く人体部位の画像を利用してもよい。口の特定部分の陰影やコントラストが不足してその変化画像が判定しきれない場合は、顎の部分の画像、口の周りの皺やたるみ具合、顔のこわばりの陰影変化などを併用、代用してもよい。形状変化は母音など特定の形状への収束過程である場合が多いが、振幅や振動を伴うものがある。さらに様々なファクターや数値を合わせて採用したり、特定の状況に応じて、別の画像解析方法を代用したりしてもよい。また、特定のパターン光を顔の特定部位に照射して、その変化を見ても良い。日本語のように、子音の後に母音が来る事が多い言語では、母音に到る過程を重視してもよいが、子音で終わる言葉も多い。この場合は、母音に依存せず、声帯を振動や上下唇の開き方、形状を検出して類推してもよい。この場合、話者は、舌先を、上前歯の裏歯茎や上前歯の先端に付ける、舌先端のみで空気の流れを制御するなどを試みるので、口の隙間等から舌の位置の画像が検出できれば確実だが、表情から推測してもよい。
図5は、子音発声フレームを特定する処理について説明する為の説明図である。図5の(a)及び(b)の横軸は時間を示す。ここでは、上述の変化のうち、基本的な部位の基本的な考え方を単純化して説明するために、口の開口面積のような観点で説明をしているが、もっと様々なファクターや数値を合わせて採用したり、特定の状況に応じて、別の画像解析方法を代用してもよい。こうした画像部位や変数が多くなれば、人工知能の深層学習などを利用する方法もあるが、フローチャートや遷移図等を利用して説明できるようにあえて単純化した説明を行う。図5の(a)の縦軸は、人物の口の開口面積を示す。即ち、図5のグラフ41は、ある音韻を人物が「ra」と発声した場合の人物の口の開口面積の変化を示す。図5の(b)の縦軸は、ある音韻を人物が「ra」と発声した場合の人物の口の横幅と縦幅との比を示す。例えば、図5の(b)の縦軸は、人物の口の横幅に対する縦幅の比を示す。即ち、図5のグラフ42は、人物の口の横幅と縦幅との比の変化を示す。即ち、図5のグラフ41及びグラフ42は、人物の口の形状の変化を示す。また、図5の(c)は、少なくとも発声している人物の口が写ったフレームが連続した映像ストリームの例を示す。
まず、CPU11は、母音を検出する。CPU11は、例えば、音声ストリームと音響モデルとに基づいて母音を検出する。また、CPU11は、映像ストリームと口形モデルとに基づいて母音を検出する構成であってもよい。また、CPU11は、映像ストリームに基づいて、発声を行っている人物の喉の震えを検出し、検出した喉の震えに基づいて母音を検出する構成であってもよい。前述のように、口などの発話に重要な部位の基本的な変化のみならず、口の近傍や、連携して動く人体部位の画像を利用してもよく、ここでは喉を利用している。ただ、喉はコントラストがない場合があり、変化も小さいので、その震え画像が判定しきれない場合は、顎の部分の画像、口の周りの皺やたるみ具合、頬の変化や、顔のこわばりの陰影変化などで代用してもよい。ここで振動という観点で説明をしているが、必ずしも振幅が何度も起こる必要もなく、1回の振幅変化なども含まれる。この振幅や振動以外にも、様々なファクターや数値を合わせて採用したり、特定の状況に応じて、別の画像解析方法を代用したりしてもよい。また、特定のパターン光を喉や口元、頬などに照射して、その変化を見ても良い。このように、音の情報のみならず、画像情報を併用して母音を判定してもよい。
例えば、タイミングt2において母音(本例では「a」)が検出されたとする。この場合、CPU11は、タイミングt2より前のタイミングt1からタイミングt2までの間の映像ストリームから子音発声フレームを特定する。CPU11は、タイミングt1からタイミングt2までのフレームの中から少なくとも1つ以上のフレームを子音(本例では「r」)が発声された子音発声フレームとして特定する。なお、CPU11は、タイミングt1からタイミングt2までの全てのフレームを子音発声フレームとして特定する構成であってもよい。
タイミングt1は、例えば、タイミングt2より所定時間前のタイミングである。タイミングt1は、映像ストリームに基づいてCPU11が決定したタイミングであってもよい。例えば、CPU11は、タイミングt2より所定時間以内であって、開口面積が所定の値以上になったタイミングをタイミングt1として決定する。また、例えば、CPU11は、タイミングt2より所定時間以内であって、口の横幅と縦幅との比が所定の値以上になったタイミングをタイミングt1として決定してもよい。また、例えば、CPU11は、タイミングt2より所定時間以内であって、所定の音量以上の音が録音されたタイミングを音声ストリームから検出し、検出したタイミングをタイミングt1として決定してもよい。また、例えば、CPU11は、タイミングt2より所定時間以内であって、且つ開口面積が所定の値以上になったタイミング、口の横幅と縦幅との比が所定の値以上になったタイミング、及び所定の音量以上の音が録音されたタイミングのうちのいずれかのタイミングより所定時間前のタイミングをタイミングt1として決定してもよい。開口面積が所定の値以上になったタイミング、口の横幅と縦幅との比が所定の値以上になったタイミング、及び所定の音量以上の音が録音されたタイミングは、それぞれ人物が発声を開始したタイミングに近いことが推測される。この為、上記のようにタイミングt1を決定することにより、人物が発声を始めるタイミングを子音発声フレームの先頭にすることができる。
図6は、図4のステップS26に対応する子音特定処理について説明する為の説明図である。
CPU11は、音声ストリームに基づく音声認識の結果から、母音に対応するタイミングを検出する(ステップS41)。
CPU11は、検出された母音に対応するタイミングに基づいて、子音が発声されていることが推定される映像ストリーム中のフレームである子音発声フレームを特定する(ステップS42)。
CPU11は、特定した子音発声フレームにおける人物の口の形状の変化を認識し、認識した人物の口の形状の変化と、口形モデルとに基づいて、子音を推定する(ステップS43)。CPU11は、認識した口の形状の変化と、口形モデルが示す口の形状の変化とを比較し、類似度が高い口形モデルに対応した子音を、人物が発声している子音として推定する。
口の形状の変化は、1つの子音発声フレームにおける開口面積であってもよいし、1つの子音発声フレームにおける口の横幅と縦幅との比であってもよいし、1つの子音発声フレームにおける開口面積と、口の横幅と縦幅との比と、を組み合わせて数値化したものであってもよい。
また、口の形状の変化は、複数の子音発声フレームにおける開口面積の変化を示すものであってもよいし、複数の子音発声フレームにおける口の横幅と縦幅との比の変化を示すものであってもよいし、複数の子音発声フレームにおける開口面積の変化と、口の横幅と縦幅との比の変化と、を組み合わせて数値化したものであってもよい。
CPU11は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果とを比較する(ステップS44)。
CPU11は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果が一致するか否か判断する。(ステップS45)。
CPU11は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果が一致すると判断した場合(ステップS45、YES)、一致した比較結果に基づいて子音を特定する(ステップS46)。即ち、CPU11は、口の形状の変化に基づく子音の推定結果及び音声認識による子音の認識結果を採用し、子音を特定し、子音特定処理を終了する。
CPU11は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果が一致しないと判断した場合(ステップS45、NO)、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果とのいずれかを採用して子音を特定し(ステップS47)、子音特定処理を終了する。なお、CPU11は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果とで予め設定された方を採用する。また、CPU11は、口の形状の変化に基づく子音の推定と、音声認識による子音の認識と、を行う際に子音毎にスコアを算出し、算出されたスコアを子音毎に加算し、加算されたスコアに応じて子音を特定する構成であってもよい。
また、音声認識装置1が言語または項目毎に異なる複数の口形モデルを記憶する構成である場合、CPU11は、認識対象の音声の言語または項目を判断し、判断した言語または項目に対応した口形モデルを用いてステップS43の処理を実行する構成であってもよい。
なお、CPU11は、操作部22による操作入力、または通信部15を介して他の機器から供給される情報などに基づいて、認識対象の音声の言語または項目を判断する。
CPU11は、上記の子音特定処理を完了すると、図4のステップS25の処理に移行する。即ち、CPU11は、音声認識によって認識した母音及び子音特定処理により特定した子音に基づいて、単語を認識可能か否か判断する(ステップS25)。例えば、CPU11は、音声認識によって認識した母音及び子音特定処理により特定した子音と、単語認識辞書とに基づいて単語を認識可能か否か判断する。具体的には、CPU11は、単語認識辞書を参照し、音声認識によって認識した母音及び子音特定処理により特定した子音の組み合わせに応じた単語が単語認識辞書から取得可能か否か判断する。
CPU11は、音声認識によって認識した母音及び子音特定処理により特定した子音に基づいて単語を認識可能ではないと判断した場合(ステップS25、NO)、ステップS21の処理に移行し、再度ステップS21乃至ステップS25を実行する。
また、CPU11は、音声認識によって認識した母音及び子音特定処理により特定した子音に基づいて単語を認識可能であると判断した場合(ステップS25、YES)、音声認識によって認識した母音及び子音特定処理により特定した子音に応じた単語を単語認識辞書から取得することにより、単語を認識する(ステップS26)。
CPU11は、単語の認識結果に基づいてテキストデータを生成する(ステップS27)。
CPU11は、音声認識処理を終了するか否か判断する(ステップS28)。CPU11は、音声認識処理を終了しないと判断した場合(ステップS28、NO)、ステップS21の処理に移行し、再度ステップS21乃至ステップS27を実行する。
CPU11は、音声認識処理を終了すると判断した場合(ステップS28、YES)、図4の音声認識処理を終了する。例えば、CPU11は、音声ストリーム及び映像ストリームの終端まで音声認識処理を行った場合、音声認識処理を終了すると判断する。また、CPU11は、音声認識処理を終了する操作が入力された場合、音声認識処理を終了すると判断する。
なお、音声認識装置1が言語または項目毎に異なる複数の音響モデルを記憶する構成である場合、CPU11は、認識対象の音声の言語または項目を判断し、判断した言語または項目に対応した音響モデルを用いてステップS23の処理を実行する構成であってもよい。
また、音声認識装置1が言語または項目毎に異なる複数の単語認識辞書を記憶する構成である場合、CPU11は、認識対象の音声の言語または項目を判断し、判断した言語または項目に対応した単語認識辞書を用いてステップS27及びステップS26の処理を実行する構成であってもよい。
なお、CPU11は、操作部22による操作入力、または通信部15を介して他の機器から供給される情報などに基づいて、認識対象の音声の言語または項目を判断する。
上記した構成によると、音声認識装置1は、音声ストリームから子音及び母音を認識し、音声ストリームに同期した映像ストリームにおいて子音を発声している子音発声フレームを音声ストリームに基づく母音の認識結果に応じて特定する。さらに、音声認識装置1は、子音発声フレームにおける人物の口の形状の変化に基づいて、人物が発声している子音を推定する。これにより、音声認識装置1は、音声ストリームに基づく子音の認識結果と、映像ストリームに基づく子音の推定結果と、に基づいて子音を特定することができる。この結果、音声認識装置1は、音声認識の精度を向上させることができる。
次に、項目別音声認識処理について説明する。
音声認識装置1は、逐次生成される音声ストリーム及び映像ストリームに基づいて、項目別音声認識処理を行う構成であるとして説明する。この為に、音声認識装置1は、項目別音声認識処理を行う項目を示す項目リストを予め記憶する。項目は、上記したように認識対象の音声の種類を示すものである。項目リストは、認識対象の音声の種類の一覧、即ち、項目の一覧を示すものである。項目リストは、予め記憶されたものであってもよいし、操作部22による操作に応じて生成されたものであってもよい。また、項目リストは、操作部22による操作に応じて修正可能に構成されている。
音声認識装置1は、逐次生成される音声ストリーム及び映像ストリームに基づいて、項目別音声認識処理を行う構成であるとして説明する。この為に、音声認識装置1は、項目別音声認識処理を行う項目を示す項目リストを予め記憶する。項目は、上記したように認識対象の音声の種類を示すものである。項目リストは、認識対象の音声の種類の一覧、即ち、項目の一覧を示すものである。項目リストは、予め記憶されたものであってもよいし、操作部22による操作に応じて生成されたものであってもよい。また、項目リストは、操作部22による操作に応じて修正可能に構成されている。
図7は、項目リストの例を示す。本例では、音声認識装置1が医療分野のディクテーションに用いられる例について説明する。図7に示されるように、項目は、例えば、名前、年齢、性別、患部、診察結果、及び日付などである。
また、例えば、項目リストの中の項目には、優先度が設定されている。図7の例では、名前、年齢、性別、患部、診察結果、日付の順に高い優先度が設定されている。例えば、CPU11は、優先度が高い順に音声認識処理を行う。
また、例えば、項目リストの中の各項目には、種々の特徴が対応付けられている。例えば、項目リストの中の各項目に対応付けられる特徴は、その項目がどのような項目であるのかを示す情報(第1の特徴)である。例えば、第1の特徴は、認識結果の単語が適正な単語であるか否かをCPU11に判断させる為の情報である。CPU11は、認識結果の単語が第1の特徴の設定に応じたものであると判断した場合、認識結果の単語が適正であると判断する。例えば、項目が「名前」である場合、単語が適正な単語であるのか否かをCPU11に判断させることができない為、第1の特徴は、ブランクとして設定される。また、例えば、項目が「年齢」である場合、第1の特徴として年齢を示す数字などが設定される。また、例えば、項目が「性別」である場合、第1の特徴として性別を示す単語が設定される。また、例えば、項目が「患部」である場合、第1の特徴として患部を示す特定単語(即ち患部のリストを示す患部辞書)が設定される。また、例えば、項目が「診察結果」である場合、第1の特徴として診察結果を示す特定単語(即ち診察結果のリストが科別に設定された科別辞書)が設定される。また、例えば、項目が「日付」である場合、第1の特徴として日付を示す単語が設定される。
また、例えば、項目リストの中の各項目に対応付けられる特徴は、その項目について録音処理を行う時間を示す情報(第2の特徴)である。CPU11は、ある項目について録音処理を行う場合に、その項目に対応した第2の特徴が示す時間だけ録音処理を行う。例えば、項目が「名前」である場合、第2の特徴として「最大5秒」が設定される。また、例えば、項目が「年齢」である場合、第2の特徴として「最大1秒」が設定される。また、例えば、項目が「性別」である場合、第2の特徴として「最大1秒」が設定される。また、例えば、項目が「患部」である場合、第2の特徴として「最大2秒」が設定される。また、例えば、項目が「診察結果」である場合、第2の特徴として「最大数分」が設定される。また、例えば、項目が「日付」である場合、第2の特徴として「最大1秒」が設定される。
また、例えば、項目リストの中の各項目に対応付けられる特徴は、その項目の単語数、及び音節数などを示す情報(第3の特徴)である。例えば、第3の特徴は、認識結果の単語が適正な単語であるか否かをCPU11に判断させる為の情報である。CPU11は、認識結果の単語数及び音節数が第3の特徴の設定に応じたものであると判断した場合、認識結果の単語が適正であると判断する。例えば、項目が「名前」である場合、第3の特徴として「単語数個、音節数個まで」が設定される。また、例えば、項目が「年齢」である場合、第3の特徴として「単語3個、音節3個まで」が設定される。また、例えば、項目が「性別」である場合、第3の特徴として「単語1個、音節2個まで」が設定される。また、例えば、項目が「患部」である場合、第3の特徴として「単語数個、各単語の音節が数個まで」が設定される。また、例えば、項目が「診察結果」または「日付」である場合、単語数及び音節数で認識結果が適正であるか否かを判断することが難しい為、第3の特徴としてブランク(限定なし)が設定される。
CPU11は、項目別音声認識処理を実行する場合、上記の項目リストに応じて、項目別音声認識処理を実行する為の画面(項目別音声認識画面)51を表示部18に表示する。
図8は、項目別音声認識画面51の例を示す。項目別音声認識画面51は、第1の表示欄52、第2の表示欄53、第3の表示欄54、第4の表示欄55、第5の表示欄56、第6の表示欄57、第7の表示欄58、第8の表示欄59、スタートボタン60、第1のインジケータ61、第2のインジケータ62、第3のインジケータ63、第4のインジケータ64、第5のインジケータ65、第6のインジケータ66、アップロードボタン67、及び終了ボタン68などの表示を有する。第1の表示欄52、第2の表示欄53、第3の表示欄54、第4の表示欄55、第5の表示欄56、第6の表示欄57、第7の表示欄58、第8の表示欄59、スタートボタン60、第1のインジケータ61、第2のインジケータ62、第3のインジケータ63、第4のインジケータ64第4の第4のインジケータ64、第5のインジケータ65、第6のインジケータ66、アップロードボタン67、及び終了ボタン68は、それぞれ操作部22によって選択操作が可能な状態で項目別音声認識画面51に表示される。
CPU11は、項目リストに含まれる項目に応じて、第1の表示欄52、第2の表示欄53、第3の表示欄54、第4の表示欄55、第5の表示欄56、及び第6の表示欄57を項目別音声認識画面51に表示する。なお、ここでは、CPU11が図7に示される項目リストに基づいて項目別音声認識画面51を表示する例について説明する。
第1の表示欄52は、「名前」の項目の音声認識の結果であるテキストデータが表示される領域である。第1の表示欄52が選択されている状態で操作部22により文字列の入力操作が行われた場合、CPU11は、操作部22による操作入力に応じて、「名前」の項目の音声認識を編集する。
第2の表示欄53は、「年齢」の項目の音声認識の結果であるテキストデータが表示される領域である。第2の表示欄53が選択されている状態で操作部22により文字列の入力操作が行われた場合、CPU11は、操作部22による操作入力に応じて、「年齢」の項目の音声認識を編集する。
第3の表示欄54は、「性別」の項目の音声認識の結果であるテキストデータが表示される領域である。第3の表示欄54が選択されている状態で操作部22により文字列の入力操作が行われた場合、CPU11は、操作部22による操作入力に応じて、「性別」の項目の音声認識を編集する。
第4の表示欄55は、「患部」の項目の音声認識の結果であるテキストデータが表示される領域である。第4の表示欄55が選択されている状態で操作部22により文字列の入力操作が行われた場合、CPU11は、操作部22による操作入力に応じて、「患部」の項目の音声認識を編集する。
第5の表示欄56は、「診察結果」の項目の音声認識の結果であるテキストデータが表示される領域である。第5の表示欄56が選択されている状態で操作部22により文字列の入力操作が行われた場合、CPU11は、操作部22による操作入力に応じて、「診察結果」の項目の音声認識を編集する。
第6の表示欄57は、「日付」の項目の音声認識の結果であるテキストデータが表示される領域である。第6の表示欄57が選択されている状態で操作部22により文字列の入力操作が行われた場合、CPU11は、操作部22による操作入力に応じて、「日付」の項目の音声認識を編集する。
第7の表示欄58は、項目別音声認識処理の結果を含むファイルの送信先を示す情報が表示される領域である。第7の表示欄58が選択されている状態で操作部22により文字列の入力操作が行われた場合、CPU11は、操作部22による操作入力に応じて、ファイルの送信先を編集する。送信先は、通信部15を介して通信可能な他の機器である。例えば、送信先は、通信部15を介して通信可能なネットワーク上に設置されたサーバである。
第8の表示欄59は、項目別音声認識処理の結果を含むファイルであって、第7の表示欄58に示された送信先に送信するファイルのファイル名が表示される領域である。第8の表示欄59が選択された場合、CPU11は、送信可能なファイルのリストを表示部18に表示する。CPU11は、操作部22による操作に応じて、第7の表示欄58に表示された送信先に送信するファイルを選択する。CPU11は、選択されたファイルのファイル名を第8の表示欄59に表示する。
スタートボタン60は、操作部22による操作に応じて選択可能なボタンである。CPU11は、スタートボタン60が選択された場合、項目別音声認識処理を実行する。例えば、CPU11は、スタートボタン60が選択された場合、項目リストに含まれる全ての項目の項目別音声認識処理を逐次実行する。より具体的には、CPU11は、スタートボタン60が選択された場合、優先順位の高い順、即ち、「名前」、「年齢」、「性別」、「患部」、「診察結果」、「日付」の順に項目別音声認識処理を実行する。
まず、CPU11は、「名前」について項目別音声認識処理を実行する場合、項目別音声認識処理を実行する項目が「名前」である旨を表示部18に表示する。さらに、CPU11は、第2の特徴が示す時間の間、音声ストリーム及び映像ストリームの取得、及び音声ストリームに基づく音声認識を行い、子音及び母音の認識結果を取得する。CPU11は、子音及び母音の認識結果に基づいて単語を認識し、単語の認識結果が「名前」に対応した第1の特徴及び第3の特徴の設定に応じたものであるか否か判断する。CPU11は、単語の認識結果が「名前」に対応した第1の特徴及び第3の特徴の設定に応じたものではないと判断した場合、映像ストリームに基づいて人物が発声した子音を推定して母音及び子音の認識結果を修正する。CPU11は、修正された母音及び子音の認識結果に基づいて、再度単語を認識し、単語の認識結果が「名前」に対応した第1の特徴及び第3の特徴の設定に応じたものであるか否かを再度判断する。CPU11は、単語の認識結果が「名前」に対応した第1の特徴及び第3の特徴の設定に応じたものであると判断した場合、単語の認識結果からテキストデータを生成し、次の項目の項目別音声認識処理に移行する。
CPU11は、この一連の項目別音声認識処理を項目リストの項目毎に実行する。CPU11は、項目リストの全項目について項目別音声認識処理を行った場合、項目別音声認識処理の結果を含むファイルを生成する。さらに、CPU11は、項目別音声認識処理の結果を含むファイルを生成した場合、生成したファイルを第8の表示欄59に表示させる。
第1のインジケータ61乃至第6のインジケータ66は、各項目の項目別音声認識処理の状態を示す表示である。CPU11は、項目別音声認識処理が未実行であることを示す表示、項目別音声認識処理が実行中であることを示す表示、及び項目別音声認識処理が完了したことを示す表示のうちのいずれかを第1のインジケータ61乃至第6のインジケータ66として表示させる。
第1のインジケータ61は、「名前」の項目別音声認識処理の状態を示す表示である。第2のインジケータ62は、「年齢」の項目別音声認識処理の状態を示す表示である。第3のインジケータ63は、「性別」の項目別音声認識処理の状態を示す表示である。第4のインジケータ64は、「患部」の項目別音声認識処理の状態を示す表示である。第5のインジケータ65は、「診察結果」の項目別音声認識処理の状態を示す表示である。第6のインジケータ66は、「日付」の項目別音声認識処理の状態を示す表示である。
図8は、「名前」、「年齢」、及び「性別」について項目別音声認識処理が完了し、「患部」について項目別音声認識処理が実行中であり、「診察結果」及び「日付」について項目別音声認識処理が未実行である例を示している。この場合、CPU11は、項目別音声認識処理が未実行であることを示す表示を第1のインジケータ61乃至第3のインジケータ63として表示させる。また、CPU11は、項目別音声認識処理が実行中であることを示す表示を第4のインジケータ64として表示させる。また、CPU11は、項目別音声認識処理が完了したことを示す表示を第5のインジケータ65及び第6のインジケータ66として表示させる。また、CPU11は、第1のインジケータ61乃至第6のインジケータ66のいずれかが選択された場合、選択されたインジケータに対応する項目の項目別音声認識処理を再度実行する構成であってもよい。
アップロードボタン67は、操作部22による操作に応じて選択可能なボタンである。CPU11は、アップロードボタン67が選択された場合、第8の表示欄59に表示されたファイルを第7の表示欄58に表示された送信先に通信部15によって送信するアップロードを行う。
終了ボタン68は、操作部22による操作に応じて選択可能なボタンである。CPU11は、終了ボタン68が選択された場合、項目別音声認識処理を終了する。また、CPU11は、項目別音声認識処理が行われて認識結果が存在する状態で終了ボタン68が選択された場合、認識結果を破棄するか否かをユーザに選択させるボタンを項目別音声認識画面51に表示してもよい。
上記した項目別音声認識画面51を表示部18に表示することにより、CPU11は、録音処理を行っている旨、項目の一覧、項目別音声認識処理が未実行である項目、項目別音声認識処理を実行中の項目、項目別音声認識処理が完了した項目、ファイルの送信先、及び送信するファイルなどを音声認識装置1のユーザに確認させることができる。さらに、CPU11は、項目別音声認識画面51上での操作に応じて、項目別音声認識処理の結果の修正、ファイルの送信先の設定、及び送信するファイルの選択などを行うことができる。この結果、音声認識装置1は、ユーザの利便性を向上させることができる。
図9は、音声認識装置1が実行する項目別音声認識処理の具体例を示すフローチャートである。
CPU11は、項目別音声認識処理を実行する場合、まず音声認識を行う項目のリストである項目リストを認識する(ステップS51)。
CPU11は、認識した項目リストに基づいて、図8のような項目別音声認識画面51を表示部18に表示させる(ステップS52)。
CPU11は、項目別音声認識画面51を表示させると、項目別音声認識処理における各項目の録音処理及び音声認識処理を開始する(ステップS53)。例えば、CPU11は、項目別音声認識画面51において、スタートボタン60が選択された場合、各項目の録音処理及び音声認識処理を開始する。また、例えば、CPU11は、項目別音声認識画面51において、第1のインジケータ61乃至第6のインジケータ66のうちのいずれかが選択された場合、選択されたインジケータに対応した項目の録音処理及び音声認識処理を開始する構成であってもよい。なお、CPU11は、図8のような項目別音声認識画面51を表示せず、自動的に各項目の録音処理及び音声認識処理を開始する構成であってもよい。
CPU11は、項目リストの中に未入力項目があるか否か判断する(ステップS54)。例えば、CPU11は、音声認識が行われていない項目が項目リストの中にある場合、未入力項目があると判断する。
CPU11は、未入力項目があると判断した場合(ステップS54、YES)、未入力項目のうちの1つを音声認識の対象の項目として選択し、収音部17により音声ストリームを取得する(ステップS55)。さらに、CPU11は、選択した項目が何の項目であるのかを示す情報を表示部18に表示してもよい。
また、CPU11は、撮像部16により映像ストリームを取得する(ステップS56)。即ち、CPU11は、撮像部16により発声を行っている人物の口元を撮影し、映像ストリームを取得する。CPU11は、映像ストリームに基づいて人物の少なくとも口が写っているか否か判定し、人物の口が写っていない場合に口を映すように促してもよい。
CPU11は、取得した音声ストリームに基づいて音声認識を行う(ステップS57)。例えば、CPU11は、選択した項目に応じた音響モデルと、音声ストリームの音の波形とを比較し、母音及び子音などを認識する。また、CPU11は、不揮発性メモリ14に記憶された複数の音響モデルと、音声ストリームの音の波形とを比較し、母音及び子音などを認識する構成であってもよい。
CPU11は、ステップS55において録音処理を開始してからの経過時間に基づいて、選択した項目に応じた所定時間(録音処理を行う時間)が経過したか否か判断する(ステップS58)。即ち、CPU11は、ステップS55において選択した項目に対応付られている第2の特徴が示す時間だけ録音処理を行ったか否か判断する。
CPU11は、項目に応じた所定時間が経過していないと判断した場合(ステップS58、NO)、とまどいの有無を判定する(ステップS59)。CPU11は、発声をしている人物が言葉に詰まっている場合にとまどい(例えば音声の途切れ)を検出する。例えば、CPU11は、所定の音量以上の声が所定時間検出されなかった場合、とまどいを検出する。
CPU11は、とまどいが検出された場合(ステップS59、YES)、録音処理を行っている項目を示す情報を表示部18に表示する案内表示を行う(ステップS60)。図10は、案内表示の例について説明する為の説明図である。CPU11は、例えば、録音処理を行っている項目を示す案内表示69を項目別音声認識画面51に重畳させて表示する。これにより、音声認識装置1は、発声をしている人物が項目を忘れてしまった場合などに、発声をしている人物に録音処理を行っている項目を認識させることができる。なお、CPU11は、とまどいが検出された場合、録音処理を行っている項目を示す音声を音声再生部19から出力する構成であってもよい。CPU11は、ステップS59でとまどいが検出されなかった場合(ステップS59、NO)、またはステップS60で案内表示を行った場合、ステップS55に移行し、ステップS55乃至ステップS60の処理を繰り返す。またさらに、CPU11は、項目別音声認識処理における項目毎の録音処理を開始する度に、項目を示す案内表示69を表示部18に表示する構成であってもよい。
また、音声認識装置1のCPU11は、項目別音声認識処理のうちの録音処理を行っている場合、録音処理の実行中であることを示す表示を表示部18に表示させてもよい。具体的には、CPU11は、ステップS55及びステップS56の実行中に録音処理の実行中であることを項目別音声認識画面51上の第1のインジケータ61乃至第6のインジケータ66によって示してもよい。これにより、音声認識装置1は、録音処理の実行中であることを、発声を行っている人物に確認させることができる。
またさらに、CPU11は、とまどいが検出された場合に人物の口の画像を撮像部16により撮像する構成であってもよい。音声の途切れるタイミングでは、人物が子音及び母音の発声を行っていないことが推定される。この為、音声の途切れるタイミングにおける人物の口は、発声の為に変形していない基準の口の形状であることが推定される。CPU11は、音声の途切れが検出された場合に撮像部16により撮像した人物の口の画像を基準顔画像として取得する。CPU11は、この基準顔画像を用いて、図5における人物の口の開口面積を正規化してもよい。例えば、CPU11は、基準顔画像における人物の口の開口面積に対する、映像ストリームにおける各フレームにおける人物の口の開口面積の比を算出し、図5のグラフ41を算出された比に置き換えてもよい。
また、CPU11は、項目別音声認識処理における録音処理を行っている間、音声認識装置1の撮像部16のレンズが発声を行っている人物に向けられた姿勢から、表示部18が発声を行っている人物に向けられた姿勢への変化を姿勢センサ21の検出結果に基づいて検出してもよい。即ち、CPU11は、発声を行っている人物が表示部18を覗き込むことを検出してもよい。具体的には、CPU11は、図9のステップS55乃至ステップS58までの間に、発声を行っている人物が表示部18を覗き込んでいるか否か判断する。さらに、CPU11は、発声を行っている人物が表示部18を覗き込むことが検出された場合、案内表示69を表示部18に表示させる構成であってもよい。これにより、音声認識装置1は、項目別音声認識処理を行っている項目を、発声を行っている人物に確認させることができる。
CPU11は、ステップS58で項目に応じた所定時間が経過したと判断した場合(ステップS58、YES)、選択した項目に応じた単語認識辞書から子音及び母音の認識結果に応じた単語を取得することにより、単語を認識する(ステップS61)。
CPU11は、単語の認識結果が妥当であるか否か判断する(ステップS62)。上記のように、CPU11は、ステップS61における単語の認識結果が、ステップS55で選択した項目に応じた単語であるか否か判断する。即ち、CPU11は、ステップS61における単語の認識結果が、ステップS55で選択した項目に対応付けられている第1の特徴に応じた単語であるか否か、第3の特徴に応じた単語数及び文節数であるか否かなどを判断する。
CPU11は、単語の認識結果が妥当ではないと判断した場合(ステップS62、NO)、図4のステップS24と同様の子音特定処理を行い(ステップS63)、ステップS61の処理に移行する。即ち、CPU11は、図6の子音特定処理を行い、再度単語の認識を行う。これにより、CPU11は、映像ストリームに基づく子音の推定結果を用いて、音声ストリームに基づく子音の認識結果を修正し、修正した子音及び母音の認識結果に基づいて、単語の認識を行う。
CPU11は、単語の認識結果が妥当であると判断した場合(ステップS61、YES)、単語の認識結果に基づいてテキストデータを生成し(ステップS64)、ステップS54の処理に移行する。CPU11は、ステップS54の処理に移行すると、項目リストの中に未入力項目があるか否かを再度判断する。また、CPU11は、1つの項目について項目別音声認識処理が完了した場合、第1のインジケータ61乃至第6のインジケータ66のうち項目別音声認識処理が完了した項目に対応するインジケータを、項目別音声認識処理が完了した旨を示す表示に切り替える。さらに、CPU11は、未入力項目があると判断した場合、第1のインジケータ61乃至第6のインジケータ66のうち次に項目別音声認識処理を行う項目に対応するインジケータを、項目別音声認識処理が実行中である旨を示す表示に切り替える。これにより、音声認識装置1は、次に項目別音声認識処理を行う項目を、発声を行う人物に確認させることができる。
CPU11は、ステップS54で、未入力項目がないと判断した場合(ステップS54、NO)、項目別音声認識処理の結果を含むファイルを生成する(ステップS65)。このファイルは、例えば、音声ストリーム、及びテキストデータを含むものである。また、このファイルは、映像ストリームをさらに含んでいてもよい。
CPU11は、生成したファイルを不揮発性メモリ14に保存し(ステップS66)、項目別音声認識処理を終了する。
さらに、CPU11は、項目別音声認識画面51上での操作に応じて、生成したファイルをアップロードしてもよい。即ち、CPU11は、項目別音声認識処理によってファイルが生成された後に、項目別音声認識画面51においてアップロードボタン67が選択された場合、第8の表示欄59に表示されたファイルを第7の表示欄58に表示された送信先に通信部15によって送信するアップロードを行う。
上記した構成によると、音声認識装置1は、項目毎に録音処理を行うことによって、音声ストリーム及び映像ストリームを取得する。音声認識装置1は、音声ストリームから子音及び母音を認識し、子音及び母音の認識結果から単語を認識する。音声認識装置1は、単語の認識結果が項目に適したものであるか否かを判断する。音声認識装置1は、単語の認識結果が項目に適したものではないと判断した場合、映像ストリームに基づいて子音を推定し、子音の推定結果を用いて音声ストリームに基づく子音及び母音の認識結果を修正する。音声認識装置1は、修正した子音及び母音の認識結果に基づいて、再度単語を認識する。これにより、音声認識装置1は、単語の認識結果が項目に適したものではない場合に、映像ストリームに基づく子音の推定結果を用いて、単語を再度認識することができる。この結果、音声認識装置1は、音声認識の精度を向上させることができる。
なお、上記のように、音声認識装置1は、音声認識を行う項目を選択した上で録音処理及び音声認識を行うことによって、項目に応じた単語認識辞書、音響モデル、及び口形モデルなどを選択することができる。これにより、音声認識装置1は、音声認識の精度を向上させることができる。
また、音声認識装置1は、音声認識を項目毎に行うことによって、発声の始まりの検出を容易にすることができる。これにより、音声認識装置1は、発声の始まりの子音の認識の精度を向上させることができる。また、音声認識装置1は、最初の子音に応じて、後続の母音及び子音、並びに単語などを予め設定された学習パターンに応じて推測してもよい。これにより、音声認識装置1は、効率的に音声認識を行うことができる。
また、音声認識装置1は、予め項目を選択するのではなく、録音処理及び音声認識を行い、これらの結果に応じて項目を選択し、選択した項目に応じた口形モデルを用いて子音特定処理を行う構成であってもよい。例えば、音声認識装置1のCPU11は、音声認識によって認識した子音及び母音の組み合わせに応じて複数の項目に応じた単語認識辞書と突き合せを行うことによって単語を認識し、認識した単語が収録されている単語認識辞書に応じた項目を選択する。さらに、音声認識装置1のCPU11は、認識した単語に応じて項目を選択し、選択した項目に応じた口形モデルを用いて子音特定処理を行う。これにより、音声認識装置1は、項目を予め設定しない状態であっても、音声認識の精度を向上させることができる。
なお、上記の実施形態では、音響モデルは、母音及び子音などの音の要素毎に予め生成された音の波形であると説明したが、この構成に限定されない。音響モデルは、単語毎に予め生成された音の波形であってもよい。音響モデルが単語毎に予め生成された音の波形である場合、CPU11は、音声ストリームから抽出した波形と、音響モデルの波形とを比較することにより、単語を認識することができる。
なお、上述の各実施の形態で説明した機能は、プログラムをコンピュータに読み込ませることによって実現されたものであってもよいし、ハードウエアによって実現されたものであってもよい。もちろん、文脈などを考慮せず、限られた音の情報だけで高精度の音声認識は困難であるので、その時に入力した音声以外の文脈や発話の背景などを考慮してもよい。このような場合は、画像や音声の入力情報の拡大や、その他の情報を含め、様々な情報や変数を総合的に判断した方が良い場合が生ずる。このような場合、人工知能に有用な判断の根拠となる情報(ディクテーション結果をフィードバックできるようにして、結果の良好な場合に有効だった情報を入力するようにしたり、失敗した時の情報を参考にさせたりすれば教師情報となる)を多く深層学習させてもよい。このような学習であれば、口の形状なども厳密な数値化やパターン化を意識しないでも同様の効果の音声認識が可能となる。ただし、そのような機械学習であっても、本願の技術的特徴が含まれたものであれば、本願のカバー範囲である事は言うまでもない。
以上、本発明を上述の各実施の形態を参照して説明したが、本発明は上述の各実施の形態に限定されるものではなく、各実施の形態の構成を適宜組み合わせたものや置換したものについても本発明に含まれるものである。また、当業者の知識に基づいて各実施の形態における組合せや処理の順番を適宜組み替えることや各種の設計変更等の変形を実施の形態に対して加えることも可能であり、そのような変形が加えられた実施の形態も本発明の範囲に含まれ得る。
1…音声認識装置、11…CPU、12…ROM、13…RAM、14…不揮発性メモリ、15…通信部、16…撮像部、17…収音部、18…表示部、19…音声再生部、20…時計部、21…姿勢センサ、22…操作部。
Claims (15)
- 人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部と、
前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識する音声認識部と、
前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定する子音推定部と、
前記子音推定部により推定した子音と、前記音声認識部による認識した子音とに基づいて子音を特定する子音特定部と、
を具備する音声認識装置。 - 前記子音推定部は、母音が検出されたタイミングに基づいて、母音の前であり且つ前記映像ストリーム中の前記人物が子音を発声したことが推定されるフレームである子音発声フレームを特定し、前記子音発声フレームにおける前記人物の口の形状に基づいて前記人物が発声した子音を推定する請求項1に記載の音声認識装置。
- 前記子音発声フレームは、母音が検出されるまでの複数のフレームであり、
前記子音推定部は、複数の前記子音発声フレームにおける前記人物の口の形状の変化に基づいて、前記人物が発声した子音を推定する請求項2に記載の音声認識装置。 - 前記子音推定部は、母音が検出されたタイミングより所定時間前のタイミングを前記子音発声フレームの先頭として決定する請求項3に記載の音声認識装置。
- 前記子音推定部は、開口面積が所定の値以上になったタイミングを前記子音発声フレームの先頭として決定する請求項3に記載の音声認識装置。
- 前記子音推定部は、口の横幅と縦幅との比が所定の値以上になったタイミングを前記子音発声フレームの先頭として決定する請求項3に記載の音声認識装置。
- 前記子音推定部は、所定の音量以上の音が検出されたタイミングを前記子音発声フレームの先頭として決定する請求項3に記載の音声認識装置。
- 前記子音推定部は、所定の音量以上の音が検出されたタイミングより所定時間前のタイミングを前記子音発声フレームの先頭として決定する請求項3に記載の音声認識装置。
- 前記子音推定部は、前記音声ストリームに基づいて前記人物が母音を発声したタイミングを検出する請求項2乃至8のいずれか1項に記載の音声認識装置。
- 前記子音推定部は、前記映像ストリームに基づいて前記人物が母音を発声したタイミングを検出する請求項2乃至8のいずれか1項に記載の音声認識装置。
- 前記音声認識部により認識された母音と、前記子音特定部により特定された子音と、予め設定された単語認識辞書とに基づいて単語を認識する単語認識部をさらに具備する請求項1に記載の音声認識装置。
- 認識対象の音声の種類を示す項目を選択する項目選択部をさらに具備し、
前記単語認識部は、前記音声認識部により認識された母音と、前記子音特定部により特定された子音と、前記項目選択部により選択された項目に対応した単語を有する単語認識辞書とに基づいて単語を認識する、
をさらに具備する請求項11に記載の音声認識装置。 - 前記取得部により前記音声ストリーム及び前記映像ストリームの取得を行っている旨を表示する表示部をさらに具備する請求項12に記載の音声認識装置。
- 前記表示部は、前記項目選択部により選択された項目を前記音声ストリーム及び前記映像ストリームの取得時に表示する請求項13に記載の音声認識装置。
- 人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部を備える音声認識装置における音声認識方法であって、
前記音声認識装置が、
前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識し、
前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定し、
前記映像ストリームに基づいて推定された子音と、前記音声ストリームに基づいて認識された子音とに基づいて子音を特定する音声認識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016234118A JP2018091954A (ja) | 2016-12-01 | 2016-12-01 | 音声認識装置、及び音声認識方法 |
US15/825,087 US10482872B2 (en) | 2016-12-01 | 2017-11-28 | Speech recognition apparatus and speech recognition method |
CN201711236753.2A CN108133709B (zh) | 2016-12-01 | 2017-11-30 | 语音识别装置和语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016234118A JP2018091954A (ja) | 2016-12-01 | 2016-12-01 | 音声認識装置、及び音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018091954A true JP2018091954A (ja) | 2018-06-14 |
Family
ID=62243017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016234118A Pending JP2018091954A (ja) | 2016-12-01 | 2016-12-01 | 音声認識装置、及び音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10482872B2 (ja) |
JP (1) | JP2018091954A (ja) |
CN (1) | CN108133709B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111986674A (zh) * | 2020-08-13 | 2020-11-24 | 广州仿真机器人有限公司 | 基于三级特征采集的智能语音识别方法 |
JPWO2021024869A1 (ja) * | 2019-08-02 | 2021-02-11 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839825B2 (en) * | 2017-03-03 | 2020-11-17 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
CN108156326B (zh) * | 2018-01-02 | 2021-02-02 | 京东方科技集团股份有限公司 | 一种自动启动录音的方法、***及装置 |
CN112041924B (zh) * | 2018-05-18 | 2024-07-02 | 渊慧科技有限公司 | 通过音素预测进行视觉语音识别 |
JP7143665B2 (ja) * | 2018-07-27 | 2022-09-29 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
CN109326160A (zh) * | 2018-11-07 | 2019-02-12 | 吕梁学院 | 一种英语口语发音校对*** |
GB2578766B (en) * | 2018-11-07 | 2021-03-03 | Jaguar Land Rover Ltd | Apparatus and method for controlling vehicle system operation |
CN113129893B (zh) * | 2019-12-30 | 2022-09-02 | Oppo(重庆)智能科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
US12023146B2 (en) * | 2020-10-08 | 2024-07-02 | International Business Machines Corporation | Multi-modal lung capacity measurement for respiratory illness prediction |
CN112617755A (zh) * | 2020-12-28 | 2021-04-09 | 深圳市艾利特医疗科技有限公司 | 言语功能障碍检测方法、装置、设备、存储介质及*** |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5430826A (en) * | 1992-10-13 | 1995-07-04 | Harris Corporation | Voice-activated switch |
JP4037455B2 (ja) * | 1996-03-26 | 2008-01-23 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 画像合成 |
JP2002162998A (ja) * | 2000-11-28 | 2002-06-07 | Fujitsu Ltd | パケット修復処理を伴なう音声符号化方法 |
US6729882B2 (en) * | 2001-08-09 | 2004-05-04 | Thomas F. Noble | Phonetic instructional database computer device for teaching the sound patterns of English |
DE60211197T2 (de) | 2001-10-31 | 2007-05-03 | Koninklijke Philips Electronics N.V. | Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte |
US7047200B2 (en) * | 2002-05-24 | 2006-05-16 | Microsoft, Corporation | Voice recognition status display |
US7587318B2 (en) * | 2002-09-12 | 2009-09-08 | Broadcom Corporation | Correlating video images of lip movements with audio signals to improve speech recognition |
CN101872616B (zh) * | 2009-04-22 | 2013-02-06 | 索尼株式会社 | 端点检测方法以及使用该方法的*** |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
JP5902632B2 (ja) * | 2013-01-07 | 2016-04-13 | 日立マクセル株式会社 | 携帯端末装置及び情報処理システム |
KR101492816B1 (ko) * | 2013-05-09 | 2015-02-13 | 중앙대학교기술지주 주식회사 | 애니메이션 립싱크 자동화 장치 및 방법 |
US20140379346A1 (en) * | 2013-06-21 | 2014-12-25 | Google Inc. | Video analysis based language model adaptation |
US10741182B2 (en) * | 2014-02-18 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Voice input correction using non-audio based input |
US9338493B2 (en) * | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
-
2016
- 2016-12-01 JP JP2016234118A patent/JP2018091954A/ja active Pending
-
2017
- 2017-11-28 US US15/825,087 patent/US10482872B2/en not_active Expired - Fee Related
- 2017-11-30 CN CN201711236753.2A patent/CN108133709B/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021024869A1 (ja) * | 2019-08-02 | 2021-02-11 | ||
WO2021024869A1 (ja) * | 2019-08-02 | 2021-02-11 | 日本電気株式会社 | 音声処理装置、音声処理方法、および記録媒体 |
JP7347511B2 (ja) | 2019-08-02 | 2023-09-20 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111986674A (zh) * | 2020-08-13 | 2020-11-24 | 广州仿真机器人有限公司 | 基于三级特征采集的智能语音识别方法 |
CN111986674B (zh) * | 2020-08-13 | 2021-04-09 | 广州仿真机器人有限公司 | 基于三级特征采集的智能语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US10482872B2 (en) | 2019-11-19 |
US20180158450A1 (en) | 2018-06-07 |
CN108133709B (zh) | 2021-09-14 |
CN108133709A (zh) | 2018-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133709B (zh) | 语音识别装置和语音识别方法 | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
JP6751536B2 (ja) | 装置、ロボット、方法、及びプログラム | |
JP4599244B2 (ja) | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 | |
JP7063779B2 (ja) | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 | |
JP2010256391A (ja) | 音声情報処理装置 | |
US10275021B2 (en) | Display apparatus of front-of-the-eye mounted type | |
JP5308598B1 (ja) | 撮像装置及び情報処理装置 | |
JP2002182680A (ja) | 操作指示装置 | |
CN111475206B (zh) | 用于唤醒可穿戴设备的方法及装置 | |
JP2015175983A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2007199552A (ja) | 音声認識装置と音声認識方法 | |
WO2019171780A1 (ja) | 個人識別装置および特徴収集装置 | |
CN112037788A (zh) | 一种语音纠正融合技术 | |
JP2006268563A (ja) | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
JP5987473B2 (ja) | 非言語情報収集装置および非言語情報収集プログラム | |
Karpov et al. | A framework for recording audio-visual speech corpora with a microphone and a high-speed camera | |
JPWO2014087571A1 (ja) | 情報処理装置および情報処理方法 | |
US20210158834A1 (en) | Diagnosing and treatment of speech pathologies using analysis by synthesis technology | |
JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
KR20170029390A (ko) | 음성 명령 모드 진입 방법 | |
CN110033790B (zh) | 声音认识装置、机器人、声音认识方法以及记录介质 | |
JP2020091559A (ja) | 表情認識装置、表情認識方法、およびプログラム | |
Tao | Advances in Audiovisual Speech Processing for Robust Voice Activity Detection and Automatic Speech Recognition |