JP5951161B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP5951161B2
JP5951161B2 JP2016514180A JP2016514180A JP5951161B2 JP 5951161 B2 JP5951161 B2 JP 5951161B2 JP 2016514180 A JP2016514180 A JP 2016514180A JP 2016514180 A JP2016514180 A JP 2016514180A JP 5951161 B2 JP5951161 B2 JP 5951161B2
Authority
JP
Japan
Prior art keywords
speech recognition
unit
recognition result
voice
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016514180A
Other languages
English (en)
Other versions
JPWO2016013503A1 (ja
Inventor
裕介 伊谷
裕介 伊谷
勇 小川
勇 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5951161B2 publication Critical patent/JP5951161B2/ja
Publication of JPWO2016013503A1 publication Critical patent/JPWO2016013503A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、発話された音声データの認識処理を行なう音声認識装置及び音声認識方法に関する。
クライアントとサーバで音声認識を行なう従来の音声認識装置は、例えば特許文献1に開示されるように、最初にクライアントで音声認識を行ない、クライアントの音声認識結果の認識スコアが低く、認識精度が悪いと判定した場合に、サーバで音声認識を行なってサーバの音声認識結果を採用するようにしていた。
また、クライアントの音声認識とサーバの音声認識を同時並列的に行ない、クライアントの音声認識結果の認識スコアとサーバの音声認識結果の認識スコアを比較して、認識スコアが良好な方を認識結果として採用する方法も特許文献1で開示されている。
また、クライアントとサーバで音声認識を行なう他の従来例として、サーバが音声認識結果に加えて、一般名詞、助詞などの品詞情報を送信するようにし、クライアントが受信した品詞情報を用いて認識結果の修正を行なう方法として、例えば、一般名詞を固有名詞に置き換える方法が特許文献2に開示されている。
特開2009−237439号公報 特許第4902617号
従来のサーバ―クライアント型音声認識装置では、サーバ、クライアントのどちらか一方の音声認識結果が返ってこない場合、利用者に音声認識結果が通知できなかったり、通知できても片側のみの結果であった。この場合、音声認識装置は再度発話を促すことが可能であるが、従来の音声認識装置では、利用者が一から発話する必要があるため、利用者の負担が大きいという課題があった。
本発明は上記のような課題を解決するためになされたもので、サーバ、クライアントのどちらか一方の音声認識結果が返ってこない場合であっても、利用者の負担が少ないように、発話の一部に対して再発話を促すことのできる音声認識装置を提供するものである。
上記で述べた課題を解決するため、本発明の音声認識装置は、入力音声をサーバに送信する送信部と、送信部により送信された入力音声をサーバで音声認識した結果である第1の音声認識結果を受信する受信部と、入力音声の音声認識を行ない、第2の音声認識結果を得る音声認識部と、入力音声の発話要素の構成を表現する発話規則を記憶する発話規則記憶部と、発話規則を参照し、第2の音声認識結果に合致する発話規則を判定する発話規則判定部と、第1の音声認識結果の有無及び第2の音声認識結果の有無と、発話規則を構成する発話要素の有無との対応関係を記憶しており、対応関係により、音声認識結果が得られていない発話要素を示す音声認識状態を決定する状態決定部と、状態決定部により決定された音声認識状態に対応し、音声認識結果が得られていない発話要素を問い合わせる応答文を生成する応答文生成部と、応答文を出力する出力部とを備える。
本発明は、サーバもしくはクライアントのどちらか一方から音声認識結果が得られない場合でも、音声認識結果が得られない部分を判定して、その部分を再度利用者に発話させることで、利用者の負担を少なくすることができる効果を奏する。
本発明の実施の形態1に係る音声認識装置を用いた音声認識システムの一構成例を示す構成図である。 本発明の実施の形態1に係る音声認識装置の処理の流れを示すフローチャート(前半)である。 本発明の実施の形態1に係る音声認識装置の処理の流れを示すフローチャート(後半)である。 本発明の実施の形態1に係る音声認識装置の発話規則記憶部が記憶する発話規則の一例である。 サーバの音声認識結果とクライアントの音声認識結果の統合を説明する説明図である。 音声認識状態と、クライアントの音声認識結果の有無と、サーバ音声認識結果の有無と、発話規則との対応関係を示す図である。 音声認識状態と、生成される応答文との関係を示す図である。 発話規則の発話要素の確定状態と音声認識状態との対応関係を示す図である。
実施の形態1.
図1は、本発明の実施の形態1に係る音声認識装置を用いた音声認識システムの一構成例を示す構成図である。
音声認識システムは、音声認識サーバ101およびクライアントの音声認識装置102によって構成される。
音声認識サーバ101は、受信部103、音声認識部104、送信部105を備える。
受信部103は、音声認識装置102から音声データを受信する。サーバの音声認識部104は、受信した音声データを音声認識して第1の音声認識結果を出力する。送信部105は、音声認識部104から出力された第1の音声認識結果を音声認識装置102へ送信する。
一方、クライアントの音声認識装置102は、音声入力部106、音声認識部107、送信部108、受信部109、認識結果統合部110、状態決定部111、応答文生成部112、出力部113、発話規則判定部114、発話規則記憶部115を備える。
音声入力部106は、利用者が発話した音声をデータ信号、いわゆる音声データに変換するマイク等を有するデバイスである。なお、音声データには、収音機器が取得した音信号をデジタル化したPCM(Pulse Code Modulation)データなどが用いられる。音声認識部107は、音声入力部106から入力された音声データを音声認識し、第2の音声認識結果を出力する。音声認識装置102は、例えばマイクロプロセッサやDSP(Digital Signal Processor)によって構成される。音声認識装置102は、発話規則判定部114、認識結果統合部110、状態決定部111、応答文生成部112などの機能を持つことができる。送信部108は、入力された音声データを音声認識サーバ101へ送信する送信機である。受信部109は、音声認識サーバ101の送信部105から送信された第1の音声認識結果を受信する受信機である。送信部108や受信部109は、例えば無線送受信機や有線送受信機が用いられる。発話規則判定部114は、音声認識部107が出力した第2の音声認識結果からキーワードを抽出して入力音声の発話規則を判定する。発話規則記憶部115は、入力音声の発話規則のパターンを格納したデータベースである。
認識結果統合部110は、発話規則判定部114により判定された発話規則と、受信部109が音声認識サーバ101から受信した第1の音声認識結果と、音声認識部107からの第2の音声認識結果とから、後述する音声認識結果の統合を行なう。そして、認識結果統合部110は、音声認識結果の統合結果を出力する。統合結果には、第1の音声認識結果の有無と第2の音声認識結果の有無の情報が含まれる。
状態決定部111は、認識結果統合部110から出力される統合結果に含まれるクライアント及びサーバの音声認識結果の有無の情報に基づき、システムへのコマンドを確定できるか否かを判定する。システムへのコマンドが確定しない場合には、状態決定部111は、統合結果が該当する音声認識状態を決定する。そして、状態決定部111は、決定した音声認識状態を応答文生成部112に出力する。また、システムへのコマンドが確定した場合には、システムに確定したコマンドを出力する。
応答文生成部112は、状態決定部111が出力した音声認識状態に対応する応答文を生成し、出力部113に応答文を出力する。出力部113は、入力された応答文をディスプレイ等に出力するディスプレイ駆動装置、応答文を音声として出力するスピーカ又はインターフェースデバイスである。
次に、実施の形態1に係る音声認識装置102の動作について、図2及び図3を参照して説明する。
図2及び図3は、実施の形態1に係る音声認識装置の処理の流れを示すフローチャートである。
まず、ステップS101において、音声入力部106は、利用者が発話した音声をマイク等により音声データに変換した後、音声認識部107および送信部108へ音声データを出力する。
次に、ステップS102において、送信部108は、音声入力部106から入力された音声データを音声認識サーバ101へ送信する。
以下、ステップS201からステップS203は、音声認識サーバ101の処理である。
まず、ステップS201において、音声認識サーバ101は、受信部103がクライアントの音声認識装置102から送信された音声データを受信すると、受信した音声データをサーバの音声認識部104へ出力する。
次に、ステップS202において、サーバの音声認識部104は、受信部103から入力された音声データに対して任意の文章を認識対象とする自由文の音声認識を行ない、その結果得られた認識結果のテキスト情報を送信部105へ出力する。自由文の音声認識方法は、例えば、N−gram連続音声認識によるディクテーション技術を用いる。具体的には、サーバの音声認識部104は、クライアントの音声認識装置102から受信した音声データ「健児さんにメール、今から帰る」に対して音声認識を行なった後、音声認識結果候補として、例えば「検事さんに滅入る、今から帰る」を含む音声認識結果リストを出力する。なお、この音声認識結果候補で示したように、サーバの音声認識結果は、音声データに人名やコマンド名などが含まれる場合、音声認識が難しいため、認識誤りを含むことがある。
最後に、ステップS203において、送信部105は、サーバ音声認識部104が出力した音声認識結果を第1の音声認識結果としてクライアント音声認識装置102へ送信し、処理を終了する。
次に、音声認識装置102の動作の説明に戻る。
ステップS103において、クライアントの音声認識部107は、音声入力部106から入力された音声データに対して、音声操作用コマンドや人名などのキーワードを認識する音声認識を行ない、その結果得られた認識結果のテキスト情報を第2の音声認識結果として、認識結果統合部110へ出力する。キーワードの音声認識方法は、例えば、助詞も含めたフレーズを抽出するフレーズスポッティング技術を用いる。クライアントの音声認識部107は、音声操作用コマンドと人名情報が登録されてリスト化した認識辞書を記憶している。音声認識部107は、サーバのもつ大語彙の認識辞書では認識が難しい音声操作用コマンドと人名情報を認識対象とし、利用者が「健児さんにメール、今から帰る」と音声入力した場合に、音声認識部107は音声操作用コマンドの「メール」および人名情報である「健児」を認識し、音声認識結果候補として「健児さんにメール」を含む音声認識結果を出力する。
次に、ステップS104において、発話規則判定部114は、音声認識部107から入力された音声認識結果と発話規則記憶部115に格納されている発話規則を照合して、音声認識結果に合致する発話規則を判定する。
図4は、本発明の実施の形態1に係る音声認識装置102の発話規則記憶部115が記憶する発話規則の一例である。
図4には、音声操作用コマンドに対応する発話規則が示されている。発話規則は、人名情報を含む固有名詞とコマンドと自由文、及びその組み合わせパターンにより構成される。発話規則判定部114は、音声認識部107から入力された音声認識結果候補「健児さんにメール」と、発話規則記憶部115に格納されている発話規則のパターンとを比較して、一致する音声操作用コマンド「さんにメール」が見つかった場合は、その音声操作用コマンドに対応する入力音声の発話規則として「固有名詞+コマンド+自由文」の情報を取得する。そして、発話規則判定部114は、取得した発話規則の情報を認識結果統合部110へ出力するとともに、状態決定部111へ出力する。
次に、ステップS105において、受信部109はサーバ101から送信された第1の音声認識結果を受信すると、第1の音声認識結果を認識結果統合部110へ出力する。
次に、ステップS106において、認識結果統合部110は、クライアントの音声認識結果とサーバの音声認識結果が存在するかを確認する。両方の結果がそろっている場合、以下の処理を行なう。
次に、ステップS107において、認識結果統合部110は、発話規則判定部114から入力された発話規則を参照して、受信部109から入力された音声認識サーバ101の第1の音声認識結果と音声認識部107から入力された第2の音声認識結果との統合が可能か否かを判定する。統合可能か否かの判定は、発話規則を埋めるコマンドが第1の音声認識結果と第2の音声認識結果に共通に含まれている場合に統合可能と判定し、どちらか一方にコマンドが含まれていない場合に統合不可能と判定する。統合可能な場合は、YESの分岐によりステップS108に進み、統合不可の場合は、Noの分岐によりステップS110に進む。
統合可否の判定は、具体的には、以下のように行なう。認識結果統合部110は、発話規則判定部114が出力した発話規則から文字列の中に「メール」というコマンドが存在することを確認する。そして、サーバの音声認識結果のテキスト中の「メール」の位置を検索し、テキスト中に「メール」が含まれていない場合、統合は不可能と判断する。
例えば、音声認識部107の音声認識結果として「メール」が入力され、サーバの音声認識結果
として「滅入る」が入力された場合は、サーバの音声認識結果テキストに「メール」が含まれておらず、発話規則判定部114から入力された発話規則に合致しない。そのため、音声認識結果統合部110は、統合不可能と判定する。
認識結果統合部110は、統合が不可能と判定した場合、サーバからの認識結果が得られなかったものとして扱う。したがって、音声認識部107から入力された音声認識結果と、サーバからの情報が得られなかった旨を状態決定部111へ送信する。例えば、音声認識部107から入力された音声認識結果「メール」、クライアント音声認識結果:あり、サーバ音声認識結果:なしを状態決定部111へ送信する。
次に、ステップS108において、認識結果統合部110は、統合が可能と判定した場合、受信部109から入力された音声認識サーバ101の第1の音声認識結果と、音声認識部107から入力された第2の音声認識結果との統合の前処理として、コマンドの位置を特定する。まず、発話規則判定部114が出力した発話規則から文字列の中に「メール」というコマンドが存在することを確認し、サーバの音声認識結果のテキスト中の「メール」を検索して、「メール」の位置を特定する。そして、発話規則である「固有名詞+コマンド+自由文」に基づき、コマンドの「メール」の位置より後の文字列が自由文であると判断する。
次に、ステップS109において、認識結果統合部110は、サーバの音声認識結果とクライアントの音声認識結果を統合する。認識結果統合部110は、まず、発話規則に対して、クライアントの音声認識結果から固有名詞とコマンドを採用し、サーバの音声認識結果から自由文を採用する。次に、発話規則の各発話要素に固有名詞、コマンド、自由文をあてはめる。ここでは、上記の処理を統合するという。
図5は、サーバの音声認識結果とクライアントの音声認識結果の統合を説明する説明図である。
認識結果統合部110は、クライアントの音声認識結果が「健児さんにメール」であり、サーバの音声認識結果が「検事さんにメール、今から帰る」であったときに、クライアントの音声認識結果から固有名詞として「健児」を、コマンドとして「メール」を採用し、サーバの音声認識結果から自由文として「今から帰る」を採用する。そして、発話規則の発話要素である固有名詞、コマンド、自由文に採用した文字列をあてはめ、統合結果「健児さんにメール、今から帰る」を得る。
そして、認識結果統合部110は、統合結果とクライアント、サーバ両方の認識結果が得られたという情報を状態決定部111に出力する。例えば、統合結果「健児さんにメール、今から帰る」、クライアント音声認識結果:あり、サーバ音声認識結果:ありと状態決定部111へ送信する。
次に、ステップS110において、状態決定部111は、認識結果統合部110が出力したクライアントの音声認識結果の有無、サーバ音声認識結果の有無及び発話規則に基づいて、音声認識状態を決定できるかを判定する。
図6は、音声認識状態と、クライアントの音声認識結果の有無と、サーバ音声認識結果の有無と、発話規則との対応関係を示す図である。
音声認識状態は、発話規則の発話要素に対して、音声認識結果が得られているか否かを示している。状態決定部111は、サーバの音声認識結果の有無、クライアントの音声認識結果の有無及び発話規則から一意に音声認識状態が決まる対応関係を図6のような対応表により記憶している。言い換えれば、サーバからの音声認識結果がない場合で、発話規則に自由文が含まれている場合、サーバからの音声認識結果なしの場合は、自由文なしの場合に該当するというように、予めサーバの音声認識結果の有無と発話規則における各発話要素の有無との対応を定めておく。そのため、サーバとクライアントの音声認識結果の有無の情報から、音声認識結果が得られていない発話要素を特定できる。
例えば、状態決定部111は、発話規則:固有名詞+コマンド+自由文、クライアント音声認識結果:あり、サーバ音声認識結果:ありという情報を得た場合、記憶している対応関係に基づき、音声認識状態はS1と判断する。なお、図6において音声認識状態S4は、音声認識状態が決定できなかったことに対応する。
次に、ステップS111において、状態決定部111は、システムへのコマンドを確定できるかを判定する。例えば、音声認識状態がS1である場合、統合結果「健児さんにメール、今から帰る」をシステムのコマンドとして確定し、YESの分岐によりステップS112へ処理を進める。
次に、ステップS112において、状態決定部111は、システムのコマンド「健児さんにメール、今から帰る」をシステムへ出力する。
次に、クライアントの音声認識結果は得られるが、サーバからの音声認識結果が得られない場合の動作について説明する。
ステップS106において、サーバからの認識結果が得られない場合、例えばサーバからの応答が一定時間T秒以上ない場合、受信部109は、サーバの音声認識結果なしという情報を認識結果統合部110へ送る。
認識結果統合部110は、クライアントからの音声認識結果とサーバからの音声認識結果がそろっているかを確認し、サーバからの音声認識がない場合は、ステップS107からS109の処理を行わず、ステップS115に進む。
次に、ステップS115において、認識結果統合部110は、クライアントの音声認識結果が存在するか否かを確認し、クライアントの音声認識結果が存在する場合、統合結果を状態決定部111に出力して、YESの分岐によりステップS110に進む。ここでは、サーバからの音声認識結果はないため、統合結果はクライアントの音声認識結果となる。例えば、統合結果:「健児さんにメール」、クライアントの音声認識結果:あり、サーバの音声認識結果:なし、を状態決定部111に出力する。
次に、ステップS110において、状態決定部111は、認識結果統合部110が出力したクライアントの音声認識結果及びサーバの音声認識結果と、発話規則判定部114が出力した発話規則を用いて音声認識状態を決定する。ここでは、クライアントの音声認識状態:あり、サーバの音声認識状態:なし、発話規則:固有名詞+コマンド+自由文であるから、図6を参照して、音声認識状態はS2と決定される。
次に、ステップS111において、状態決定部111は、システムへのコマンドを確定できるか否かを判断する。具体的には、状態決定部111は、音声認識状態がS1のとき、システムへのコマンドが確定していると判断する。ここでは、ステップS110で得られた音声認識状態はS2であるので、状態決定部111は、システムへのコマンドが確定していないと判断し、音声認識状態S2を応答文生成部112に出力する。
また、状態決定部111は、システムへのコマンドが確定できない場合、音声認識状態S2を音声入力部106に出力して、Noの分岐によりステップS113へ進む。これは、音声入力部106に、次の入力音声は自由文であり、サーバに音声データを送信するということを指示するためである。
次に、ステップS113において、応答文生成部112は、状態決定部111が出力した音声認識状態に基づき、利用者の返答を促す応答文を作成する。
図7は、音声認識状態と、生成される応答文との関係を示す図である。
応答文は、音声認識結果が得られた発話要素を利用者に示し、音声認識結果が得られていない発話要素について発話を促す内容になっている。音声認識状態S2の場合は、固有名詞とコマンドは確定しており、自由文の音声認識結果がないため、自由文のみ発話を促す応答文を出力部113へ出力する。例えば、図7のS2で示すように「健児さんへメールします。本文をもう一度発話ください」という応答文を応答文生成部112は、出力部113へ出力する。
ステップS114において、出力部113は、応答文生成部111が出力した応答文、「健児さんへメールします。本文をもう一度発話ください」を、ディスプレイやスピーカなどから出力する。
応答文を受けて、利用者がもう一度「今から帰る」と発話した場合、前述したステップS101の処理を行なう。ただし、音声入力部106は、状態決定部111が出力した音声認識状態S2を受け取っており、次に来る音声データは自由文であると分かっている。このため、音声入力部106は、音声データを送信部108に出力し、クライアントの音声認識部107には出力しない。したがって、ステップS103,S104の処理は行われない。
サーバにおけるステップS201からS203の処理は、前述と同様であるため、説明を省略する。
ステップS105において、受信部109はサーバ101から送信された音声認識結果を受信し、その音声認識結果を認識結果統合部110へ出力する。
ステップS106において、認識結果統合部110は、サーバからの音声認識結果は存在するが、クライアントからの音声認識結果は存在しないと判断し、Noの分岐によりステップS115へ進む。
次に、ステップS115において、認識結果統合部110は、クライアントの音声認識結果は存在しないので、発話規則判定部114にサーバの音声認識結果を出力し、Noの分岐によりステップS116へ進む。
次に、ステップS116において、発話規則判定部114は、前述の発話規則の判定を行ない、判定した発話規則を認識結果統合部110に出力する。次に、認識結果統合部110は、サーバの音声認識結果:あり、と統合結果「今から帰る」を状態決定部111に出力する。ここでは、クライアントの音声認識結果がないため、サーバの音声認識結果がそのまま統合結果になる。
次に、ステップS110において、状態決定部111は、再発話以前の音声認識状態を記憶しており、認識結果統合部110が出力した統合結果と、サーバからの音声認識結果:ありという情報から、音声認識状態を更新する。以前の音声認識状態がS2に対して、サーバからの音声認識結果:ありという情報が加えると、クライアントの音声認識結果とサーバの音声認識結果が両方ありとなるので、図6から、音声認識状態はS2からS1に更新される。そして、今回の統合結果「今から帰る」を自由文のところにあてはめて、「健児さんにメール、今から帰る」というシステムへのコマンドが確定される。
次に、ステップS111において、状態決定部111は、音声認識状態がS1であるため、システムへのコマンドが確定でき、システムへのコマンド出力が可能と判断する。
次に、ステップS112において、状態決定部111は、システムへのコマンド「健児さんにメール、今から帰る」をシステムへ送信する。
なお、ステップS106において、N回繰り返しても一定時間T秒内でサーバの音声認識結果が得られない場合、状態決定部111は、ステップS110において状態を決定できないため、音声認識状態をS2からS4に更新する。状態決定部111は、応答文生成部112に音声認識状態S4を出力するとともに、音声認識状態、統合結果を棄却する。応答文生成部112は、図7を参照して、認識結果統合部110が出力した音声認識状態S4に対応する応答文「音声認識できません。」を生成し、出力部113に出力する。
次に、ステップS117において、出力部113は、応答文を通知する。例えば、「音声認識できません。」と利用者に通知する。
次に、サーバからの音声認識結果は得られるが、クライアントでの音声認識結果が得られない場合について説明する。
S101〜S104、S201〜S203は、クライアントの音声認識結果は得られるが、サーバからの音声認識結果が得られない場合と同じであるので、説明を省略する。
まず、ステップS106において、状態決定部111は、サーバからの音声認識結果とクライアントの音声認識結果がそろっているかを確認する。ここでは、サーバの音声認識結果は存在するが、クライアントの音声認識結果は存在しないため、認識結果統合部110は統合処理を行わない。
次に、ステップS115において、認識結果統合部110はクライアントの音声認識結果があるかを確認する。クライアントの音声認識結果がない場合、認識結果統合部110は、サーバの音声認識結果を発話規則判定部114に出力し、Noの分岐によりステップS116に進む。
次に、ステップS116において、発話規則判定部114は、サーバの音声認識結果に対して発話規則を判定する。例えば、「検事さんに滅入る、今から帰る」に対して、発話規則判定部114は、発話規則記憶部115に記憶されている音声操作用コマンドと一致するものがないか、もしくは、サーバの音声認識結果リストに対して音声操作用コマンドを検索し、音声操作用コマンドが含まれる確率が高い部分が存在するかを調べ、発話規則を判定する。ここでは、発話規則判定部114は、「検事さんに滅入る」「検事さんにメール」などを含む音声認識結果リストから、音声操作用コマンド「さんにメール」である確率が高いとして、発話規則が固有名詞+コマンド+自由文であると判定する。
発話規則判定部114は、判定した発話規則を認識結果統合部110と状態決定部111に出力する。認識結果統合部110は、クライアントの音声認識結果:なし、サーバからの音声認識結果:あり、統合結果:「検事さんに滅入る、今から帰る。」を状態決定部111に出力する。ここで、クライアントの音声認識結果がないため、統合結果は、サーバの音声認識結果そのものである。
次に、ステップS110において、状態決定部111は、発話規則判定部114が出力した発話規則と、認識結果統合部110が出力したクライアントの音声認識結果の有無、サーバの音声認識結果の有無、統合結果から、音声認識状態を決定できるか判断する。状態決定部111は、図6を参照して、音声認識状態を決定する。ここでは、発話規則が固有名詞+コマンド+自由文であり、サーバのみ音声認識結果があることから、状態決定部111は、音声認識状態をS3と決定するとともに記憶する。
次に、ステップS111において、状態決定部111は、システムへのコマンドを確定できるかを判断する。状態決定部111は、音声認識状態がS1でないため、システムへのコマンドを確定できないとして、音声認識状態を決定して、決定した音声認識状態を応答文生成部112に出力する。また、状態決定部111は、決定した音声認識状態を音声入力部106に出力する。これは、次に入力された音声は、サーバに送信せず、クライアントの音声認識部107に出力するようにするためである。
次に、ステップS113において、応答文生成部112は、得られた音声認識状態に対して、図7を参照して応答文を生成する。そして、応答文生成部112は、応答文を出力部113に出力する。例えば、音声認識状態がS3の場合、「今から帰るをどうしますか?」という応答文を作成し、出力部113に出力する。
次に、ステップS114において、出力部113は、応答文をディスプレイやスピーカなどから出力し、利用者に音声認識結果が得られていない発話要素の再発話を促す。
利用者に再発話を促して、利用者が「健児さんにメール」と再発話した場合、S101〜S104の処理は前述の通りであるから説明を省略する。なお、音声入力部106は、状態決定部111が出力した音声認識状態に対応して、再発話の音声をどこに送るかを決定している。S2の場合は、サーバに送信するために送信部108のみに音声データを出力し、S3の場合はクライアントの音声認識部107に音声データを出力する。
次に、ステップS106において、認識結果統合部110は、クライアントの音声認識結果と発話規則判定部114が出力した発話規則判定結果を受け取り、クライアントの音声認識結果とサーバの音声認識結果がそろっているかを確認する。
次に、ステップS115において、認識結果統合部110は、クライアントの音声結果が存在するかを確認し、存在する場合、クライアントの音声認識結果:あり、サーバの音声認識結果:なし、統合結果:「健児さんにメール」を状態決定部111に出力する。ここで、認識結果統合部110は、サーバの音声認識結果がないため、クライアントの音声認識結果を統合結果としている。
次に、ステップS110において、状態決定部111は、記憶していた再発話前の音声認識状態、認識結果統合部110が出力したクライアントの音声認識結果、サーバの音声認識結果及び統合結果から、音声認識状態を更新する。再発話前の音声認識状態はS3であり、クライアントの音声認識結果はなしであった。しかし、再発話により、クライアントの音声認識結果はありになるため、状態決定部111は、音声認識状態をS3からS1に変更する。また、認識結果統合部111が出力した統合結果「健児さんにメール」を、記憶していた発話規則の固有名詞+コマンドの発話要素にあてはめて、システムへのコマンド「健児さんにメール、今から帰る」を確定する。
以下のステップS111〜S112は、前述と同様であるため、説明を省略する。
以上のように、実施の形態1の発明によれば、サーバの音声認識結果の有無及びクライアントの音声認識結果の有無と、発話規則の各発話要素との対応関係を決めておき、その対応関係を記憶している。したがって、サーバもしくはクライアントのどちらか一方からの音声認識結果が得られない場合でも、発話規則とその対応関係から音声認識結果が得られていない部分を特定でき、その部分を利用者に再発話を促すことができる。その結果、利用者に一から発話を促す必要がなく、利用者の負担を小さくできるという効果がある。
なお、クライアントからの音声認識結果が得られない場合、応答文生成部112は、「今から帰るをどうしますか。」という応答文を作成するとしたが、以下のように、状態決定部111が、認識結果の得られた自由文を解析し、コマンドを推定し、推定したコマンド候補を利用者に選択させても良い。状態決定部111は、自由文に対して、予め登録してあるコマンドとの親和度が高い文章が含まれているかを検索し、親和度が高い順にコマンドの候補を決定する。親和度は、例えば、過去の発話文の事例を蓄積しておき、事例中に出現するコマンドと、自由文中の各単語との共起確率により定義される。「今から帰る」という文章であれば、「メール」や「電話」との親和度が高いとして、その候補をディスプレイ又はスピーカから出力する。そして「1:メール、2:電話のどちらですか?」などと通知し、利用者に「1」と発話させることが考えられる。選択方法は番号でもよいし、利用者が「メール」もしくは「電話」と再度発話してもよい。このようにすることにより、利用者が再発話する負担をさらに減らすことができる。
また、サーバからの音声認識結果が得られない場合、応答文生成部112は「健児さんにメールします。本文をもう一度発話ください」という応答文を作成するとしたが、「健児さんにメールしますか?」という応答文を作成しても良い。出力部113は応答文をディスプレイ又はスピーカから出力し、利用者の「はい」という結果を受けた後で、状態決定部111において音声認識状態を決定しても良い。
なお、「いいえ」と利用者が発話した時は、状態決定部111は音声認識状態が決定できなかったと判断し、音声認識状態S4を応答文生成部112に出力する。その後はステップS117で示したように、出力部113を通して、利用者に音声認識できなかったことを通知する。このように、固有名詞+コマンドの発話要素を確定して良いかを利用者に問い合わせることで、固有名詞やコマンドの認識間違いを減らすことができる。
実施の形態2
次に、実施の形態2に係る音声認識装置を説明する。実施の形態1では、サーバ及びクライアントのどちらかの音声認識結果がない場合について述べたが、実施の形態2は、サーバ及びクライアントのどちらかの音声認識結果はあるが、音声認識結果にあいまいさがあるため、音声認識結果の一部が確定しない場合について述べる。
実施に形態2に係る音声認識装置の構成は、図1に示す実施の形態1と同じであるため、各部の説明は省略する。
次に、動作について説明する。
音声認識部107は、利用者が「健児さんにメール」と発話した音声データに対して、音声認識を行なうが、発話状況により、「健児さんにメール」「健一さんにメール」と複数の音声認識候補がリストアップされ、かつどの音声認識候補も認識スコアが近い可能性がある。認識結果統合部110は、複数の音声認識候補がある場合、あいまいな固有名詞部分を利用者に問い合わせるために、音声認識結果として、例えば「??さんにメール」を生成する。
認識結果統合部110は、サーバの音声認識結果:あり、クライアントの音声認識結果:あり、統合結果「??さんにメール、今から帰る」を状態決定部111に出力する。
状態決定部111は、発話規則と統合結果から、発話規則のどの発話要素が確定しているかを判断する。そして、状態決定部111は、発話規則の各発話要素が確定しているか、未確定なのか、あるいは発話要素がないのかに基づき、音声認識状態を決定する。
図8は、発話規則の発話要素の状態と音声認識状態の対応関係を示す図である。例えば、「??さんにメール、今から帰る」の場合は、固有名詞の部分が未確定であり、コマンドと自由文は確定しているので、音声認識状態はS2と決定される。状態決定部111は、音声認識状態S2を応答文生成部112に出力する。
応答文生成部112は、音声認識状態S2に対応して、利用者に固有名詞の再度発話を促す「どなたにメールしますか?」という応答文を作成し、応答文を出力部113に出力する。利用者に再発話を促す方法は、クライアントの音声認識結果リストを元に選択肢を示してもよい。例えば、「1:健児さん、2:健一さん、3:健吾さんのうちどなたにメールしますか?」などと通知し、番号を発話させる構成が考えられる。利用者の再発話内容を受け、認識スコアが信頼できるものになった場合、「健児さん」を確定させ、音声操作用コマンドと合わせ「健児さんにメール」という文を確定させ、音声認識結果を出力させる。
以上のように、実施の形態2の発明によれば、サーバもしくはクライアントからの音声認識結果はあるが、認識結果の一部が確定しない場合であっても、利用者にすべてを発話させる必要がなくなり、利用者の負担を減らす効果がある。
101 音声認識サーバ、102 クライアントの音声認識装置、103 サーバの受信部、104 サーバの音声認識部、105 サーバの送信部、106 音声入力部、107 クライアントの音声認識部、108 クライアントの送信部、109 クライアントの受信部、110 認識結果統合部、111 状態決定部、112 応答文生成部、113 出力部、114 発話規則判定部,115 発話規則記憶部。

Claims (6)

  1. 入力音声をサーバに送信する送信部と、
    前記送信部により送信された前記入力音声を前記サーバで音声認識した結果である第1の音声認識結果を受信する受信部と、
    前記入力音声の音声認識を行ない、第2の音声認識結果を得る音声認識部と、
    前記入力音声の発話要素の構成を表現する発話規則を記憶する発話規則記憶部と、
    前記発話規則を参照し、前記第2の音声認識結果に合致する前記発話規則を判定する発話規則判定部と、
    前記第1の音声認識結果の有無及び前記第2の音声認識結果の有無と、前記発話規則を構成する前記発話要素の有無との対応関係を記憶しており、前記対応関係により、音声認識結果が得られていない前記発話要素を示す音声認識状態を決定する状態決定部と、
    前記状態決定部により決定された前記音声認識状態に対応し、音声認識結果が得られていない前記発話要素を問い合わせる応答文を生成する応答文生成部と、
    前記応答文を出力する出力部と、
    を備える音声認識装置。
  2. 前記発話規則を用いて、前記第1の音声認識結果と前記第2の音声認識結果とを統合して統合結果を出力する統合結果認識部を備え、
    前記状態決定部は、前記統合結果に対する前記音声認識状態を決定する請求項1に記載の音声認識装置。
  3. 前記発話規則は、固有名詞とコマンドと自由文とを備えることを特徴とする請求項1または請求項2に記載の音声認識装置。
  4. 前記受信部は、前記サーバで自由文を音声認識した前記第1の音声認識結果を受信し、
    前記状態決定部は、前記第1の音声認識結果に対してコマンドの推定を行ない、前記音声認識状態を決定する請求項3に記載の音声認識装置。
  5. 前記音声認識部は、複数の前記第2の音声認識結果を出力し、
    前記応答文生成部は、複数の前記第2の音声認識結果のうちいずれかを利用者に選択させる前記応答文を生成する請求項1から請求項4のいずれか1項に記載の音声認識装置。
  6. 送信部と、受信部と、音声認識部と、発話規則判定部と、状態決定部と、応答文生成部と、出力部とを備え、発話要素の構成を表現する発話規則をメモリに記憶する音声認識装置の音声認識方法であって、
    前記送信部が、入力音声をサーバに送信する送信ステップと、
    前記受信部が、前記送信ステップにより送信された前記入力音声を前記サーバで音声認識した結果である第1の音声認識結果を受信する受信ステップと、
    前記音声認識部が、前記入力音声の音声認識を行ない、第2の音声認識結果を得る音声認識ステップと、
    前記発話規則判定部が、前記発話規則を参照し、前記第2の音声認識結果に合致する前記発話規則を判定する発話規則判定ステップと、
    前記状態決定部が、前記第1の音声認識結果の有無及び前記第2の音声認識結果の有無と、前記発話規則を構成する前記発話要素の有無との対応関係を記憶しており、前記対応関係により、音声認識結果が得られていない前記発話要素を示す音声認識状態を決定する状態決定ステップと、
    前記応答文生成部が、前記状態決定ステップにより決定された前記音声認識状態に対応し、音声認識結果が得られていない前記発話要素を問い合わせる応答文を生成する応答文生成ステップと、
    前記出力部が、前記応答文を出力するステップと、
    を備える音声認識方法。
JP2016514180A 2014-07-23 2015-07-17 音声認識装置及び音声認識方法 Expired - Fee Related JP5951161B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014149739 2014-07-23
JP2014149739 2014-07-23
PCT/JP2015/070490 WO2016013503A1 (ja) 2014-07-23 2015-07-17 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP5951161B2 true JP5951161B2 (ja) 2016-07-13
JPWO2016013503A1 JPWO2016013503A1 (ja) 2017-04-27

Family

ID=55163029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016514180A Expired - Fee Related JP5951161B2 (ja) 2014-07-23 2015-07-17 音声認識装置及び音声認識方法

Country Status (5)

Country Link
US (1) US20170194000A1 (ja)
JP (1) JP5951161B2 (ja)
CN (1) CN106537494B (ja)
DE (1) DE112015003382B4 (ja)
WO (1) WO2016013503A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015083741A1 (ja) * 2013-12-03 2017-03-16 株式会社リコー 中継装置、表示装置および通信システム
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
EP3511931A4 (en) * 2016-09-09 2019-08-21 Sony Corporation SPEECH PROCESSING DEVICE, INFORMATION PROCESSING DEVICE, SPEECH PROCESSING METHOD, AND INFORMATION PROCESSING METHOD
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
EP3573051A4 (en) * 2017-01-18 2020-01-22 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
EP3742301A4 (en) * 2018-01-17 2020-11-25 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROCESS
CN108320752B (zh) * 2018-01-26 2020-12-15 青岛易方德物联科技有限公司 应用于社区门禁的云声纹识别***及其方法
CN108520760B (zh) * 2018-03-27 2020-07-24 维沃移动通信有限公司 一种语音信号处理方法及终端
JP2019200393A (ja) * 2018-05-18 2019-11-21 シャープ株式会社 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
US20220148574A1 (en) * 2019-02-25 2022-05-12 Faurecia Clarion Electronics Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011066A (ja) * 2004-06-25 2006-01-12 Nec Corp 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2355833B (en) * 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
JP5042799B2 (ja) * 2007-04-16 2012-10-03 ソニー株式会社 音声チャットシステム、情報処理装置およびプログラム
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9384736B2 (en) 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011066A (ja) * 2004-06-25 2006-01-12 Nec Corp 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム

Also Published As

Publication number Publication date
US20170194000A1 (en) 2017-07-06
CN106537494B (zh) 2018-01-23
DE112015003382T5 (de) 2017-04-20
CN106537494A (zh) 2017-03-22
JPWO2016013503A1 (ja) 2017-04-27
WO2016013503A1 (ja) 2016-01-28
DE112015003382B4 (de) 2018-09-13

Similar Documents

Publication Publication Date Title
JP5951161B2 (ja) 音声認識装置及び音声認識方法
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
CN106663424B (zh) 意图理解装置以及方法
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP6574169B2 (ja) 多方向の復号をする音声認識
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
JP5089955B2 (ja) 音声対話装置
US10506088B1 (en) Phone number verification
US20060122837A1 (en) Voice interface system and speech recognition method
JP2018081298A (ja) 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置
WO2018092786A1 (ja) 音声認識装置、音声認識システム
JP2010048953A (ja) 対話文生成装置
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP2006189730A (ja) 音声対話方法および音声対話装置
JP2019015950A (ja) 音声認識方法、プログラム、音声認識装置、及びロボット
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
KR101283271B1 (ko) 어학 학습 장치 및 어학 학습 방법
US10832675B2 (en) Speech recognition system with interactive spelling function
EP1039395A2 (en) Document retrieving apparatus and document retrieving method
KR100952974B1 (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
JP2007264229A (ja) 対話装置
US11978445B1 (en) Confidence scoring for selecting tones and text of voice browsing conversations
AU2018101475B4 (en) Improving automatic speech recognition based on user feedback
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160607

R150 Certificate of patent or registration of utility model

Ref document number: 5951161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees