JP6494879B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP6494879B2
JP6494879B2 JP2018546083A JP2018546083A JP6494879B2 JP 6494879 B2 JP6494879 B2 JP 6494879B2 JP 2018546083 A JP2018546083 A JP 2018546083A JP 2018546083 A JP2018546083 A JP 2018546083A JP 6494879 B2 JP6494879 B2 JP 6494879B2
Authority
JP
Japan
Prior art keywords
search function
estimated
execution
unit
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018546083A
Other languages
English (en)
Other versions
JPWO2018073907A1 (ja
Inventor
慶太 山室
慶太 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2018073907A1 publication Critical patent/JPWO2018073907A1/ja
Application granted granted Critical
Publication of JP6494879B2 publication Critical patent/JP6494879B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声について認識処理を行う音声認識装置及び音声認識方法に関する。
近年、カーナビゲーション装置及びスマートフォンなどにおける音声認識装置について様々な技術が提案されている。例えば特許文献1に開示された技術では、音声認識結果のスコアを用いることによって、音声の認識精度を高めることが可能となっている。
また、このような技術だけでなく、音声の内容からユーザの意図を推定する音声認識装置が提案されている。この音声認識装置では、1回の音声認識によって、経路検索機能、音楽検索機能及び施設検索機能などの複数の検索機能から1つを選択するとともに、選択した1つの検索機能の実行により所望の対象を検索する。例えば、ユーザから「X野球場に行きたい」という音声を取得した場合、上述の音声認識装置は、「行きたい」という音声から「経路検索機能」が要求されていると推定するとともに、「X野球場」を経路検索機能における目的地であると判定する。
特開2003−15688号公報
上述のような、ユーザの意図を推定する音声認識装置によれば、ユーザが音声認識装置と対話する回数を低減することができる。しかしながら、このような音声認識装置では、ユーザからの数回の音声だけに基づいて、音声の認識、ユーザの意図推定、認識結果及び意図推定結果に基づく情報検索、といった複雑な処理を要するので、ユーザが意図しない検索機能が誤って実行されてしまうことが多い。例えば、日本語の「行きたい(ローマ字表記:ikitai)」と、日本語の「聞きたい(ローマ字表記:kikitai)」とは、音声が似ている。このため、ユーザの音声が「X野球場に行きたい」である場合、上述の音声認識装置によれば、X野球場について経路検索機能を実行した検索結果と、X野球場について音楽検索機能を実行した検索結果とが得られてしまうことがあり、ユーザが意図しない検索機能も実行されてしまうことになる。なお、音声認識結果のスコアによって、検索機能の実行時における検索結果の誤りを抑制することは可能であるが、どの検索機能を実行すべきかを決定することに用いるものではない。
そこで、本発明は、上記のような問題点を鑑みてなされたものであり、ユーザが意図しない検索機能が誤って実行されてしまうことを抑制可能な技術を提供することを目的とする。
本発明に係る音声認識装置は、音声を取得する取得部と、取得部で取得された音声に認識処理を行うことによって、実行すべき検索機能を推定する推定部と、検索機能の実行頻度を蓄積する実行頻度蓄積部と、推定部で推定された検索機能である推定検索機能の実行頻度を参照して、推定検索機能の実行を制御する制御部とを備える。実行頻度は複数の実行頻度レベルに区分され、制御部は、推定検索機能の実行頻度が属する実行頻度レベルを参照して、推定検索機能の実行を制御する。

本発明によれば、推定検索機能の実行頻度を参照して、推定検索機能の実行を制御する。これにより、ユーザが意図しない検索機能が誤って実行されてしまうことを抑制することができる。
本発明の目的、特徴、態様及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の処理を示すフローチャートである。 実施の形態3に係る音声認識装置の構成を示すブロック図である。 実施の形態3に係る音声認識装置の処理を示すフローチャートである。 実施の形態3に係る音声認識装置の処理を示すフローチャートである。 実施の形態4に係る音声認識装置の表示例を示す図である。 実施の形態4に係る音声認識装置の表示例を示す図である。 実施の形態4に係る音声認識装置の処理を示すフローチャートである。 その他の変形例に係る音声認識装置のハードウェア構成を示すブロック図である。 その他の変形例に係る音声認識装置のハードウェア構成を示すブロック図である。 その他の変形例に係るサーバの構成を示すブロック図である。 その他の変形例に係る通信端末の構成を示すブロック図である。
<実施の形態1>
図1は、本発明の実施の形態1に係る音声認識装置1の構成を示すブロック図である。図1の音声認識装置1は、実行部18における検索機能の実行を制御することが可能となっている。なお、実行部18は、音声認識装置1の外部に設けられてもよいし、音声認識装置1の内部に設けられてもよい。
以下の説明で明らかとなるように、本実施の形態1に係る音声認識装置1によれば、ユーザが意図しない検索機能が、実行部18によって誤って実行されることを抑制することが可能となっている。なお、検索機能とは、予め定められた項目について指示された対象を検索する機能である。この検索機能には、例えば、指示された目的地までの経路を検索する経路検索機能、指示された音楽を検索する音楽検索機能、指示された施設を検索する施設検索機能、ウェブから指示された項目を検索するウェブ検索機能などが用いられる。
さて、図1の音声認識装置1は、取得部11と、推定部12と、実行頻度蓄積部13と、制御部14とを備える。以下、図1の音声認識装置1の各構成要素について詳細に説明する。
取得部11は、音声を取得する。
推定部12は、取得部11で取得された音声に認識処理を行うことによって、予め定められた複数の検索機能の中から、実行すべき検索機能を推定する。
なお、推定部12は、取得部11で取得された音声の内容に、検索機能が文字通りに含まれていない場合に、ユーザが意図する検索機能を当該音声の内容から推定する意図推定処理が可能であってもよい。このように構成された推定部12によれば、例えば、取得部11で取得された音声の内容が「X野球場に行きたい」であった場合に、「経路検索機能」を実行すべき検索機能として推定するとともに、「X野球場」を当該経路検索機能にて指示された目的地として推定することが可能となる。
実行頻度蓄積部13は、各検索機能の実行頻度を蓄積する。つまり、実行頻度蓄積部13は、各検索機能の実行頻度を学習する。
制御部14は、推定部12で推定された検索機能である推定検索機能について、実行頻度蓄積部13で蓄積されている実行頻度を参照して、実行部18における推定検索機能の実行を制御する。
<実施の形態1のまとめ>
以上のような本実施の形態1に係る音声認識装置1によれば、例えば、推定検索機能の実行頻度が比較的高い場合には、当該推定検索機能をすぐに実行し、推定検索機能の実行頻度が比較的低い場合には、当該推定検索機能をすぐに実行しないように制御することができる。ここで、実行頻度が比較的高い推定検索機能は、ユーザが意図する検索機能である可能性が高く、実行頻度が比較的低い推定検索機能は、ユーザが意図しない検索機能である可能性が高い。このため、以上の構成によれば、ユーザが意図しない検索機能が、実行部18によって実行されてしまうことを抑制することができる。
<実施の形態2>
図2は、本発明の実施の形態2に係る音声認識装置1の構成を示すブロック図である。以下、本実施の形態2で説明する構成要素のうち、実施の形態1と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。
図2の音声認識装置1は、マイク21と、音声取得部22と、音声認識及び意図推定処理部23と、使用頻度学習部24と、検索機能通知部25と、検索機能決定部26と、検索機能実行部27と、通知制御部28と、検索結果通知部29とを備える。
なお、マイク21及び音声取得部22は、実施の形態1で説明した図1の取得部11に対応する。音声認識及び意図推定処理部23、並びに、使用頻度学習部24は、実施の形態1で説明した図1の推定部12、及び、実行頻度蓄積部13にそれぞれ対応する。検索機能決定部26及び通知制御部28は、実施の形態1で説明した図1の制御部14に対応する。検索機能実行部27は、実施の形態1で説明した図1の実行部18に対応する。以下、図2の音声認識装置1の各構成要素について詳細に説明する。
マイク21は、ユーザの音声を受け付け、当該音声を音声信号に変換する。
音声取得部22は、マイク21から音声信号を取得し、当該音声信号を音声データに変換する。音声信号がアナログ信号である場合には、音声取得部22は、音声信号にA/D変換を行うことによって、デジタルデータである音声データを取得する。この際、デジタルデータの変換処理、例えばPCM(Pulse Code Modulation)形式などの処理における精度を高めるために、音声取得部22は、ノイズリダクション及びビームフォーミングなどの処理も行ってもよい。
音声認識及び意図推定処理部23は、音声取得部22で取得された音声データから音声区間を検出して特徴量を抽出する。音声認識及び意図推定処理部23は、抽出した特徴量に基づいて音声認識処理を行うことによって、音声データに対応する文字列データなどを取得する。音声認識及び意図推定処理部23は、取得した文字列データに対して実施の形態1で説明した意図推定処理を行うことによって、実行すべき検索機能を推定する。これにより、音声認識及び意図推定処理部23によって推定検索機能が取得される。この際、音声認識及び意図推定処理部23は、音声認識処理及び意図推定処理のいずれかの際に推定検索機能の推定スコアも取得する。推定スコアは、推定検索機能がユーザにより意図された検索機能である可能性を示すスコアである。この推定スコアは、例えば、音声認識処理の対象となる特徴量が予め定められた特徴量と一致するほど高くなってもよいし、例えば、意図推定処理の対象となる文字列データが予め定められた文字列データと一致するほど高くなってもよい。以下、本実施の形態2において音声認識及び意図推定処理部23で取得された推定検索機能とは、複数の推定検索機能のうち推定スコアが最も高い一の推定検索機能であるものとして説明する。
なお、本実施の形態2では、音声認識処理及び意図推定処理が、音声認識及び意図推定処理部23のような単一の機能ブロックで行われているが、これに限ったものではない。例えば、音声認識処理及び意図推定処理は、例えばサーバ及び携帯端末などを含む複数の装置において別々に行われてもよい。
詳細は後述するが、音声認識及び意図推定処理部23で取得された推定検索機能は、検索機能実行部27によって実行されることもあれば、実行されないこともある。検索機能実行部27によって推定検索機能が実行された場合には、当該推定検索機能によって検索された検索結果が得られる。例えば、音楽検索機能27bが実行された場合には、上述の文字列データに含まれる音楽名、及び、それに類似する音楽名などが検索結果として得られる。
使用頻度学習部24は、各検索機能の実行頻度を蓄積する。ここでは、使用頻度学習部24は、推定検索機能の実行により得られた検索結果が使用されたか否かに基づいて、当該推定検索機能の実行頻度を変更する学習を行う。例えば、使用頻度学習部24は、推定検索機能の実行により得られた検索結果が、ユーザの選択によって使用された場合には当該推定検索機能の実行頻度を増やし、推定検索機能の実行により得られた検索結果が使用されなかった場合には当該推定検索機能の実行頻度を減らす。このような本実施の形態2の構成においては、検索機能の実行頻度は検索機能の使用頻度、実行回数、使用回数と呼ぶことができる。このため、以下の説明では、実行頻度、使用頻度、実行回数及び使用回数を区別せずに用いる。
検索機能通知部25は、検索機能決定部26の制御によって各種情報をユーザに通知する。ここでは、検索機能通知部25は、音声認識及び意図推定処理部23で推定された検索機能、つまり推定検索機能をユーザに通知する。検索機能通知部25には、例えば、液晶表示装置などの表示装置、及び、スピーカなどの音声出力装置が用いられる。検索機能通知部25として表示装置が用いられた場合には、検索機能通知部25の通知として表示装置の表示が用いられ、検索機能通知部25として音声出力装置が用いられた場合には、検索機能通知部25の通知として音声出力装置の音声ガイダンスが用いられる。
検索機能決定部26は、使用頻度学習部24で蓄積されている使用頻度のうち推定検索機能の使用頻度を参照して、検索機能実行部27における推定検索機能の実行を制御する。
ここで本実施の形態2では、検索機能の使用頻度は、複数の実行頻度レベルである複数の使用頻度レベルに区分されている。検索機能決定部26は、推定検索機能の使用頻度が属する使用頻度レベルを参照して、推定検索機能の実行を制御するとともに、推定検索機能を検索機能通知部25に通知させる制御を行うように構成されている。
以下、複数の使用頻度レベルは、低頻度、中頻度、高頻度レベルからなる3つのレベルである構成を例にして説明する。この構成では、推定検索機能の使用頻度が、予め定められた第1閾値よりも低い場合には、推定検索機能の使用頻度には、第1レベルである低頻度レベルが割り当てられる。推定検索機能の使用頻度が、予め定められた第1閾値以上であり、かつ予め定められた第2閾値よりも低い場合には、推定検索機能の使用頻度には、第2レベルである中頻度レベルが割り当てられる。推定検索機能の使用頻度が、予め定められた第2閾値以上である場合には、推定検索機能の使用頻度には、第3レベルである高頻度レベルが割り当てられる。
これにより、低頻度レベルに属する使用頻度は、中頻度レベルに属する使用頻度よりも低く、中頻度レベルに属する使用頻度は、高頻度レベルに属する使用頻度よりも低くなっている。なお、複数の使用頻度レベルは、上述の例に限ったものではなく、2つのレベルであってもよいし、4つ以上のレベルであってもよい。検索機能決定部26の使用頻度レベルに基づく制御については、後で詳細に説明する。
検索機能実行部27は、検索機能決定部26の制御によって推定検索機能を実行する。図2では、推定検索機能として、施設検索機能27a、音楽検索機能27b、これら以外の項目について検索を行うXX検索機能27cを実行することが可能な検索機能実行部27が示されている。例えば、検索機能実行部27が、推定検索機能として施設検索機能27aを実行した場合には、上述の文字列データに含まれる施設などについて検索した検索結果が得られることになる。
通知制御部28は、検索機能実行部27が推定検索機能を実行したことにより得られた検索結果を検索結果通知部29に通知させる制御を行う。
検索結果通知部29は、通知制御部28の制御により上述の検索結果をユーザに通知する。なお、検索結果通知部29には、例えば、液晶表示装置などの表示装置、及び、スピーカなどの音声出力装置が用いられる。検索機能通知部25及び検索結果通知部29には、一の装置が共用されてもよいし、複数の装置が個別に用いられてもよい。
<動作>
図3は、本実施の形態2に係る音声認識装置1の処理を示すフローチャートである。
ステップS1にて、音声取得部22は、マイク21から音声信号を取得して、音声データに変換する。ステップS2にて、音声認識及び意図推定処理部23は、音声取得部22からの音声データに対して、音声認識処理及び意図推定処理を順に行うことによって検索機能を推定する。ステップS3にて、検索機能決定部26は、音声認識及び意図推定処理部23で推定された検索機能である推定検索機能の使用頻度を、使用頻度学習部24から取得する。
ステップS4にて、検索機能決定部26は、推定検索機能が良く使用される機能であるか否かを判定する。ここでは、推定検索機能の使用頻度が属する使用頻度レベルが高頻度レベルである場合には、検索機能決定部26は、推定検索機能が良く使用される機能であると判定して、ステップS9に処理が進む。一方、推定検索機能の使用頻度が属する使用頻度レベルが高頻度レベルでない場合には、検索機能決定部26は、推定検索機能が良く使用される機能ではないと判定して、ステップS5に処理が進む。
ステップS5にて、検索機能決定部26は、推定検索機能があまり使用されない機能であるか否かを判定する。ここでは、推定検索機能の使用頻度が属する使用頻度レベルが中頻度レベルである場合には、検索機能決定部26は、推定検索機能があまり使用されない機能ではないと判定して、ステップS6に処理が進む。一方、推定検索機能の使用頻度が属する使用頻度レベルが低頻度レベルである場合には、検索機能決定部26は、推定検索機能があまり使用されない機能であると判定して、ステップS7に処理が進む。
ステップS6にて、検索機能決定部26は、推定検索機能を検索機能通知部25に通知させる制御を行う。これにより、推定検索機能が検索機能通知部25によって通知される。その後、ステップS9に処理が進む。
ステップS5からステップS7に処理が進んだ場合、検索機能決定部26は、推定検索機能を実行するか否かについての確認、つまり推定検索機能の実行確認を、検索機能通知部25に通知させる制御を行う。これにより、例えば推定検索機能が施設検索機能27aであった場合には、「施設検索を実行します。よろしいですか?」という内容が検索機能通知部25によってユーザに通知される。
ステップS7の後、ステップS8にて、検索機能決定部26は、外部からの指示が、ステップS7で通知された推定検索機能を実行する実行指示であるか否かを判定する。外部からの指示は、マイク21でユーザの音声を別途受け付けることによって行われてもよいし、図示しない入力装置でユーザの手動操作を別途受け付けることによって行われてもよい。外部からの指示が実行指示であると判定された場合にはステップS9に処理が進み、外部からの指示が推定検索機能を実行しない非実行指示であると判定された場合には図3の処理が終了する。
ステップS9にて、検索機能決定部26は推定検索機能を実行する制御を行う。この制御により、検索機能実行部27は推定検索機能を実行する。
ここでステップS4〜S9を小括すると、使用頻度レベルが低頻度レベルである場合には、検索機能決定部26は、推定検索機能を検索機能通知部25に通知させる制御(ステップS7)と、外部からの指示に応じて推定検索機能を実行する制御とを行う。使用頻度レベルが中頻度レベルである場合には、検索機能決定部26は、推定検索機能を検索機能通知部25に通知させる制御(ステップS6)と、外部からの指示に関わらず推定検索機能を実行する制御とを行う。使用頻度レベルが高頻度レベルである場合には、検索機能決定部26は、推定検索機能を検索機能通知部25に通知させる制御を行わずに、外部からの指示に関わらず推定検索機能を実行する制御を行う。
ステップS9の後、ステップS10にて、通知制御部28は、検索機能実行部27が推定検索機能を実行したことにより得られた検索結果のリストを検索結果通知部29に通知させる。
ステップS11にて、音声認識装置1は、通知された検索結果のいずれかについて、ユーザから選択を受け付ける。この選択は、マイク21でユーザの音声を別途受け付けることによって行われてもよいし、図示しない入力装置でユーザの手動操作を別途受け付けることによって行われてもよい。
ステップS12にて、使用頻度学習部24は、ユーザからの選択によって検索結果が使用されたか否かに基づいて、ステップS9で実行された推定検索機能の使用頻度を変更する学習を行う。
ステップS13にて、音声認識装置1と接続された図示しないシステムは、ステップS11で選択された検索結果に対応する処理を実施する。例えば、音楽検索機能27bの実行によって検索された複数の音楽の中から、ステップS11で一の音楽が選択された場合には、システムは選択された一の音楽を再生する。その後、図3の処理が終了する。
<実施の形態2のまとめ>
以上のような本実施の形態2に係る音声認識装置1によれば、推定検索機能の使用頻度が属する使用頻度レベルを参照して、推定検索機能の実行を制御する。これにより、適切な数のレベルで、推定検索機能の実行を制御することができる。
また本実施の形態2によれば、推定検索機能の使用頻度が属する使用頻度レベルを参照して、推定検索機能の実行を制御するとともに、推定検索機能を検索機能通知部25に通知させる制御を行う。これにより、ユーザが意図しない検索機能が誤って実行されてしまうことをさらに抑制することができる。
また本実施の形態2によれば、推定検索機能の実行により得られた検索結果が使用されたか否かに基づいて、当該推定検索機能の使用頻度を変更する。これにより、検索機能決定部26で用いられる使用頻度を適切化することができる。なお、使用頻度学習部24による使用頻度の学習は、これに限ったものではない。例えば、使用頻度学習部24は、検索機能実行部27によって推定検索機能が実行されたか否かに基づいて、当該推定検索機能の使用頻度を変更してもよい。
<実施の形態2の変形例>
実施の形態2に係る音声認識装置1において、使用頻度学習部24で蓄積される使用頻度の初期値は、ユーザなどによって予め登録されてもよい。このような構成によれば、使用頻度学習部24において、所望の検索機能の使用頻度を、通常の低頻度レベルから学習させるのではなく、中頻度レベル、高頻度レベルから学習させることが可能となる。なお、この変形例は、後述する実施の形態3以降においても適用可能である。
<実施の形態3>
図4は、本発明の実施の形態3に係る音声認識装置1の構成を示すブロック図である。以下、本実施の形態3で説明する構成要素のうち、実施の形態2と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。
図4の音声認識装置1は、図2の構成要素に加えて、検索機能切替部30をさらに備える。なお、検索機能決定部26、通知制御部28及び検索機能切替部30は、実施の形態1で説明した図1の制御部14に対応する。
音声認識及び意図推定処理部23の推定によって複数の推定検索機能が得られた場合、検索機能決定部26は、複数の推定検索機能の中から一の推定検索機能を実行する制御を行う。これにより、検索機能実行部27は、一の推定検索機能を実行する。本実施の形態3では、一の推定検索機能の推定スコアは、当該一の推定検索機能を除く複数の推定検索機能の推定スコアよりも高いものとする。つまり本実施の形態3では、検索機能実行部27は、複数の推定検索機能の中から、推定スコアが最も高い一の推定検索機能を実行するものとする。以下の説明では、複数の推定検索機能のうち推定スコアが最も高い一の推定検索機能を、「最高スコア検索機能」と記すこともある。
検索機能切替部30は、一の推定検索機能の実行開始から実行終了までの期間内に、一の推定検索機能の実行から別の推定検索機能の実行に切り替える制御が可能となっている。本実施の形態3に係る検索機能切替部30は、検索機能決定部26と協働して、上述の期間うちの一定期間内において、一以上の推定検索機能を検索機能通知部25に通知させる制御を行う。そして、検索機能切替部30は、上述の一定期間内における外部からの指示に応じて、一の推定検索機能の実行から別の推定検索機能の実行に切り替える制御を行う。このような構成として、以下の第1例及び第2例の構成が適用可能である。
第1例の構成では、検索機能切替部30は、一の推定検索機能が実行されている一定期間内において、当該一の推定検索機能を除く複数の推定検索機能を、使用頻度の順に検索機能通知部25に通知させる制御を行う。例えば、検索機能切替部30は、上記一定期間内において、複数の推定検索機能のうち、実行されている一の推定検索機能を検索機能通知部25に通知させる。その後、外部からの指示が「違う」という指示であった場合には、検索機能切替部30は、一の推定検索機能を除く複数の推定検索機能のうち使用頻度が最も高い別の推定検索機能を検索機能通知部25に通知させるとともに、一の推定検索機能から当該別の推定検索機能に実行を切り替える制御を行う。
第2例の構成では、検索機能切替部30は、一の推定検索機能が実行されている一定期間内において、全ての推定検索機能を検索機能通知部25に通知させる。その後、外部からの指示が「別の推定検索機能の実行」という指示であった場合には、検索機能切替部30は、一の推定検索機能から指示された別の推定検索機能に実行を切り替える制御を行う。
なお、図4の例では、外部からの指示は、マイク21で別途受け付けたユーザからの音声であるとして、当該音声の音声データが検索機能切替部30に入力されている。しかしこれに限ったものではなく、外部からの指示は、図示しない入力装置で別途受け付けたユーザからの手動操作であってもよい。
<動作>
図5及び図6は、本実施の形態3に係る音声認識装置1の処理を示すフローチャートである。具体的には、図5及び図6には、上述した第2例の構成の処理が示されている。以下、図5及び図6の処理の説明において、図3の処理と異なる処理について主に説明する。
図5のステップS1〜S5にて、実施の形態2の図3のステップS1〜S5と同様の処理が行われる。
同様に、図5のステップS7〜S13にて、実施の形態2の図3のステップS7〜S13と同様の処理が行われる。
図5のステップS5にて、音声認識及び意図推定処理部23で取得された推定検索機能、つまり最高スコア検索機能があまり使用されない機能でないと判定された場合、図6のステップS21に処理が進む。
ステップS21にて、検索機能決定部26は、音声認識及び意図推定処理部23で取得された推定検索機能、つまり最高スコア検索機能を実行する制御を行う。この制御により、検索機能実行部27は最高スコア検索機能を実行する。
ステップS22にて、検索機能切替部30は、最高スコア検索機能を含む複数の推定検索機能を検索機能通知部25に通知させる。
ステップS23にて、検索機能切替部30は、外部からの指示が、複数の推定検索機能のうち最高スコア検索機能とは別の推定検索機能の実行指示であるか否かを判定する。外部からの指示が別の推定検索機能の実行指示であると判定された場合には、ステップS24に処理が進み、外部からの指示が別の推定検索機能の実行指示でないと判定された場合には、図5のステップS10に処理が進む。また、外部からの指示がないまま、ステップS22の通知から一定期間経過した場合にも、図5のステップS10に処理が進む。
ステップS24にて、検索機能切替部30は、指示された別の推定検索機能に実行を切り替える制御を行う。この制御により、検索機能実行部27は、指示された別の推定検索機能を実行する。その後、図5のステップS10に処理が進む。
<実施の形態3のまとめ>
複数の推定検索機能が音声認識及び意図推定処理部23で推定された場合、複数の推定検索機能を実行する方式としては、一つずつ推定検索機能を順に実行する方式、及び、複数の推定検索機能を並列的に実行する方式が想定される。しかしながら、いずれの方式であっても検索結果が得られるまでには多少時間がかかることが想定される。
これに対して、本実施の形態3に係る音声認識装置1によれば、一の推定検索機能の実行開始から実行終了までの期間内に、一の推定検索機能の実行から別の推定検索機能の実行に切り替える制御を行う。このような構成によれば、ユーザは、意図しない検索機能の実行中に、意図する検索機能の実行に切り替えることができる。よって、意図する検索機能の実行によって検索結果が得られるまでの時間を短くすることができる。
なお本実施の形態3では、複数の推定検索機能のうち最初に実行される一の推定検索機能に、推定スコアが最も高い一の推定検索機能を用いる。これにより、ユーザが意図する検索機能である可能性が高い検索機能を最初に実行することができる。
<実施の形態4>
本発明の実施の形態4に係る音声認識装置1のブロック構成は、実施の形態3に係る音声認識装置1のブロック構成(図4)と同じである。以下、本実施の形態4で説明する構成要素のうち、実施の形態2,3と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。
音声認識及び意図推定処理部23の推定によって複数の推定検索機能が得られた場合、検索機能決定部26は、複数の推定検索機能を並列的に実行する制御を行う。これにより、検索機能実行部27は、複数の推定検索機能を並列的に実行する。通知制御部28は、当該実行により得られた複数の推定検索機能の検索結果を、推定検索機能ごとに検索結果通知部29に通知させる制御を行う。
図7及び図8は、検索結果通知部29の通知例としての表示例を示す図である。具体的には、図7及び図8には、複数の推定検索機能のうち施設検索機能の使用頻度が最も高く、音楽検索機能の使用頻度が施設検索機能の使用頻度の次に高い場合の表示例が示されている。図7に示されるように、本実施の形態4では、施設検索機能の検索結果、つまり複数の推定検索機能のうち使用頻度が最も高い推定検索機能の検索結果が最初に表示される。そして、図7及び図8に示されるように、検索結果通知部29における、複数の推定検索機能の検索結果のリスト表示は、推定検索機能のタブ29a,29bごとに切り替えられる。つまり、図7のように施設検索機能の検索結果が表示されている際にタブ29bが選択されると、図8のように音楽検索機能の検索結果の表示に切り替えられ、図8のように音楽検索機能の検索結果が表示されている際にタブ29aが選択されると、図7のように施設検索機能の検索結果の表示に切り替えられる。
なお、複数の推定検索機能の検索結果を、推定検索機能ごとに検索結果通知部29に通知させる方式は、図7及び図8のように表示を切り替える方式に限ったものではない。例えば、複数の推定検索機能の検索結果を推定検索機能ごとに枠などで分けた状態で、一画面に表示する方式であってもよい。
<動作>
図9は、本実施の形態4に係る音声認識装置1の処理を示すフローチャートである。以下、図9の処理の説明において図5の処理と異なる処理について主に説明する。
図9のステップS4にて最高スコア検索機能が良く使用される機能であると判定された場合、ステップS9aに処理が進む。一方、図9のステップS4にて最高スコア検索機能が良く使用される機能ではないと判定された場合、実施の形態3で説明した図5のステップS5以降の処理と同様の処理が行われる。
ステップS9aにて、検索機能決定部26は、複数の推定検索機能を並列的に実行する制御を行う。これにより、検索機能実行部27は、複数の推定検索機能を並列的に実行する。
ステップS10aにて、通知制御部28は、複数の推定検索機能の検索結果を、推定検索機能ごとに検索結果通知部29に通知させる。この際、検索結果通知部29は、通知制御部28の制御により、使用頻度が最も高い推定検索機能の検索結果を最初に通知する。
それからステップS31にて、音声認識装置1は、別の推定検索機能の検索結果に通知を切り替える指示があるか否かを判定する。ユーザなどから切り替える指示があったと判定された場合にはステップS32に処理が進み、切り替える指示がなかったと判定された場合にはステップS11に処理が進む。
ステップS32にて、検索結果通知部29は、通知制御部28の制御により、ステップS31で指示された推定検索機能の検索結果に通知を切り替える。その後、ステップS31に処理が戻る。
ステップS11にて、音声認識装置1は、通知された検索結果のいずれかについて、ユーザから選択を受け付ける。
ステップS12にて、使用頻度学習部24は、ユーザからの選択によって検索結果が使用されたか否かに基づいて、ステップS9aで実行された複数の推定検索機能の使用頻度を変更する学習を行う。例えばステップS32などを経てステップS12が行われた場合には、使用頻度学習部24は、最高スコア検索機能の使用頻度を減らし、ステップS31にて指示された推定検索機能の使用頻度を増やす。
ステップS13にて、音声認識装置1と接続された図示しないシステムは、ステップS11で選択された検索結果に対応する処理を実施する。その後、図9の処理が終了する。
<実施の形態4のまとめ>
以上のような本実施の形態4に係る音声認識装置1によれば、音声認識及び意図推定処理部23の推定によって複数の推定検索機能が得られた場合、複数の推定検索機能を並列的に実行する制御を行い、当該実行により得られた検索結果を、推定検索機能ごとに検索結果通知部29に通知させる。このような構成によれば、最初に通知される推定検索機能が、ユーザが意図する検索機能でなくても、再度の音声入力、音声認識及び意図推定処理などをやり直す必要がなくなるので、ユーザが意図する検索結果を即座に使用することができる。
<変形例>
実施の形態4に係る音声認識装置1において、複数の推定検索機能を並列的に実行する制御が行われた後、通知制御部28は、使用頻度が最も高い推定検索機能の検索結果が得られた時点で、当該時点までに複数の推定検索機能について得られている検索結果を検索結果通知部29に通知させる制御を行ってもよい。加えて、タブの選択などによって、使用頻度が最も高い推定検索機能の検索結果の通知から、実効が完了していない推定検索機能の検索結果の通知に切り替えられた場合には、検索中である旨を通知してもよい。
このような構成によれば、使用頻度が最も高い推定検索機能の検索結果を、他の検索機能の実行が完了していなくても通知することができる。したがって、使用頻度が最も高い推定検索機能の実行による検索結果、つまりユーザが意図している可能性が高い検索機能の実行による検索結果が得られるまでの時間を短くすることができる。
また、実施の形態4に係る音声認識装置1において、複数の推定検索機能のうちの一以上の推定検索機能は、音声認識装置1の外部装置によって実行されてもよい。例えば、複数の推定検索機能のうちのいくつかの推定検索機能が、音声認識装置1と通信可能なサーバによって実行されてもよいし、残りの推定検索機能の少なくとも一部が、音声認識装置1と通信可能な携帯端末によって実行されてもよい。このような構成によれば、複数の推定検索機能の実行が分散されるので、複数の推定検索機能の検索結果が得られるまでの時間を短くすることができる。
<その他の変形例>
上述した音声認識装置1における図1の取得部11、推定部12、実行頻度蓄積部13及び制御部14を、以下「取得部11等」と記す。取得部11等は、図10に示す処理回路81により実現される。すなわち、処理回路81は、音声を取得する取得部11と、取得部11で取得された音声に認識処理を行うことによって、実行すべき検索機能を推定する推定部12と、検索機能の実行頻度を蓄積する実行頻度蓄積部13と、推定部12で推定された検索機能である推定検索機能の実行頻度を参照して、推定検索機能の実行を制御する制御部14と、を備える。処理回路81には、専用のハードウェアが適用されてもよいし、メモリに格納されるプログラムを実行するプロセッサが適用されてもよい。プロセッサには、例えば、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)などが該当する。
処理回路81が専用のハードウェアである場合、処理回路81は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、またはこれらを組み合わせたものが該当する。取得部11等の各部の機能それぞれは、処理回路を分散させた回路で実現されてもよいし、各部の機能をまとめて一つの処理回路で実現されてもよい。
処理回路81がプロセッサである場合、取得部11等の機能は、ソフトウェア等との組み合わせにより実現される。なお、ソフトウェア等には、例えば、ソフトウェア、ファームウェア、または、ソフトウェア及びファームウェアが該当する。ソフトウェア等はプログラムとして記述され、メモリに格納される。図11に示すように、処理回路81に適用されるプロセッサ82は、メモリ83に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置1は、処理回路81により実行されるときに、音声を取得するステップと、取得された音声に認識処理を行うことによって、実行すべき検索機能を推定するステップと、検索機能の実行頻度を蓄積するステップと、推定された検索機能である推定検索機能の実行頻度を参照して、推定検索機能の実行を制御するステップと、が結果的に実行されることになるプログラムを格納するためのメモリ83を備える。換言すれば、このプログラムは、取得部11等の手順や方法をコンピュータに実行させるものであるともいえる。ここで、メモリ83には、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリー、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)及びそのドライブ装置等が該当する。
以上、取得部11等の各機能が、ハードウェア及びソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、取得部11等の一部を専用のハードウェアで実現し、別の一部をソフトウェア等で実現する構成であってもよい。例えば、取得部11については専用のハードウェアとしての処理回路でその機能を実現し、それ以外についてはプロセッサ82としての処理回路81がメモリ83に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
以上のように、処理回路81は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
また、以上で説明した音声認識装置は、PND(Portable Navigation Device)などのナビゲーション装置と、携帯電話、スマートフォン及びタブレットなどの携帯端末を含む通信端末と、これらにインストールされるアプリケーションの機能と、サーバとを適宜に組み合わせてシステムとして構築される音声認識システムにも適用することができる。この場合、以上で説明した音声認識装置の各機能あるいは各構成要素は、前記システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。
図12は、本変形例に係るサーバ51の構成を示すブロック図である。図12のサーバ51は、通信部51aと、推定部51bと、実行頻度蓄積部51cと、制御部51dとを備えており、車両52のナビゲーション装置53と無線通信を行うことが可能となっている。
取得部である通信部51aは、ナビゲーション装置53と無線通信を行うことにより、ナビゲーション装置53で取得された音声を受信する。
推定部51b、実行頻度蓄積部51c及び制御部51dは、サーバ51の図示しないプロセッサなどが、サーバ51の図示しない記憶装置に記憶されたプログラムを実行することにより、図1の推定部12、実行頻度蓄積部13及び制御部14と同様の機能を有している。つまり、制御部51dは、推定部51bで推定された検索機能である推定検索機能の実行頻度を参照して、推定検索機能の実行を制御する。そして、通信部51aは、制御部51dの制御結果、または、推定検索機能の実行により得られた検索結果などをナビゲーション装置53に送信する。
このように構成されたサーバ51によれば、実施の形態1で説明した音声認識装置1と同様の効果を得ることができる。
図13は、本変形例に係る通信端末56の構成を示すブロック図である。図13の通信端末56は、図12の通信部51a、推定部51b、実行頻度蓄積部51c及び制御部51dと同様の通信部56a、推定部56b、実行頻度蓄積部56c及び制御部56dとを備えており、車両57のナビゲーション装置58と無線通信を行うことが可能となっている。なお、通信端末56には、例えば車両57の運転者が携帯する携帯電話機、スマートフォン、及びタブレットなどの携帯端末が適用される。このように構成された通信端末56によれば、実施の形態1で説明した音声認識装置1と同様の効果を得ることができる。
なお、本発明は、その発明の範囲内において、各実施の形態及び各変形例を自由に組み合わせたり、各実施の形態及び各変形例を適宜、変形、省略したりすることが可能である。
本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得るものと解される。
1 音声認識装置、11 取得部、12 推定部、13 実行頻度蓄積部、14 制御部、25 検索機能通知部、29 検索結果通知部。

Claims (15)

  1. 音声を取得する取得部と、
    前記取得部で取得された前記音声に認識処理を行うことによって、実行すべき検索機能を推定する推定部と、
    前記検索機能の実行頻度を蓄積する実行頻度蓄積部と、
    前記推定部で推定された前記検索機能である推定検索機能の前記実行頻度を参照して、前記推定検索機能の実行を制御する制御部と
    を備え
    前記実行頻度は複数の実行頻度レベルに区分され、
    前記制御部は、
    前記推定検索機能の前記実行頻度が属する前記実行頻度レベルを参照して、前記推定検索機能の実行を制御する、音声認識装置。
  2. 請求項に記載の音声認識装置であって、
    前記制御部は、
    前記推定検索機能の前記実行頻度が属する前記実行頻度レベルを参照して、前記推定検索機能の実行を制御するとともに、前記推定検索機能を通知部に通知させる制御を行う、音声認識装置。
  3. 請求項に記載の音声認識装置であって、
    前記制御部は、
    前記実行頻度レベルが第1レベルである場合には、前記推定検索機能を前記通知部に通知させる制御と、外部からの指示に応じて前記推定検索機能を実行する制御とを行い、
    前記実行頻度レベルが前記第1レベルよりも高い第2レベルである場合には、前記推定検索機能を前記通知部に通知させる制御と、外部からの指示に関わらず前記推定検索機能を実行する制御とを行い、
    前記実行頻度レベルが前記第2レベルよりも高い第3レベルである場合には、前記推定検索機能を前記通知部に通知させる制御を行わずに、外部からの指示に関わらず前記推定検索機能を実行する制御を行う、音声認識装置。
  4. 音声を取得する取得部と、
    前記取得部で取得された前記音声に認識処理を行うことによって、実行すべき検索機能を推定する推定部と、
    前記検索機能の実行頻度を蓄積する実行頻度蓄積部と、
    前記推定部で推定された前記検索機能である推定検索機能の前記実行頻度を参照して、前記推定検索機能の実行を制御する制御部と
    を備え、
    前記制御部は、
    前記推定検索機能の実行により得られた検索結果を通知部に通知させる制御を行い、
    前記制御部は、
    前記推定部の推定によって複数の前記推定検索機能が得られた場合、前記複数の推定検索機能のうち最初に実行される一の前記推定検索機能の実行開始から実行終了までの期間内に、前記一の推定検索機能の実行から別の前記推定検索機能の実行に切り替える制御が可能である、音声認識装置。
  5. 請求項に記載の音声認識装置であって、
    前記制御部は、
    前記期間内において、前記複数の推定検索機能を前記実行頻度の順に前記通知部に通知させる制御を行う、音声認識装置。
  6. 請求項に記載の音声認識装置であって、
    前記制御部は、
    前記期間内において、一以上の前記推定検索機能を前記通知部に通知させる制御を行うとともに、外部からの指示に応じて、前記一の推定検索機能の実行から前記別の推定検索機能の実行に切り替える制御を行う、音声認識装置。
  7. 音声を取得する取得部と、
    前記取得部で取得された前記音声に認識処理を行うことによって、実行すべき検索機能を推定する推定部と、
    前記検索機能の実行頻度を蓄積する実行頻度蓄積部と、
    前記推定部で推定された前記検索機能である推定検索機能の前記実行頻度を参照して、前記推定検索機能の実行を制御する制御部と
    を備え、
    前記制御部は、
    前記推定部の推定によって複数の前記推定検索機能が得られた場合、前記複数の推定検索機能を並列的に実行する制御を行い、当該実行により得られた検索結果を、前記推定検索機能ごとに通知部に通知させる制御を行う、音声認識装置。
  8. 請求項に記載の音声認識装置であって、
    前記通知部における、前記複数の推定検索機能の前記検索結果の通知は、前記推定検索機能ごとに切り替えられ、
    前記複数の推定検索機能のうち前記実行頻度が最も高い推定検索機能の前記検索結果が最初に通知される、音声認識装置。
  9. 請求項に記載の音声認識装置であって、
    前記制御部は、
    前記複数の推定検索機能を並列的に実行する制御が行われた後、前記複数の推定検索機能のうち前記実行頻度が最も高い推定検索機能の前記検索結果が得られた時点で、当該時点までに前記複数の推定検索機能について得られている検索結果を前記通知部に通知させる制御を行う、音声認識装置。
  10. 請求項に記載の音声認識装置であって、
    前記複数の推定検索機能のうちの一以上の推定検索機能は、前記音声認識装置の外部装置によって実行される、音声認識装置。
  11. 請求項1,4または7に記載の音声認識装置であって、
    前記実行頻度蓄積部で蓄積される前記実行頻度の初期値を予め登録可能な、音声認識装置。
  12. 請求項1,4または7に記載の音声認識装置であって、
    前記実行頻度蓄積部は、
    前記推定検索機能の実行により得られた検索結果が使用されたか否かに基づいて、当該推定検索機能の前記実行頻度を変更する、音声認識装置。
  13. 音声を取得し、
    取得された前記音声に認識処理を行うことによって、実行すべき検索機能を推定し、
    前記検索機能の実行頻度を蓄積し、
    推定された前記検索機能である推定検索機能の前記実行頻度を参照して、前記推定検索機能の実行を制御し、
    前記実行頻度は複数の実行頻度レベルに区分され、
    前記推定検索機能の前記実行頻度が属する前記実行頻度レベルを参照して、前記推定検索機能の実行を制御する、音声認識方法。
  14. 音声を取得し、
    取得された前記音声に認識処理を行うことによって、実行すべき検索機能を推定し、
    前記検索機能の実行頻度を蓄積し、
    推定された前記検索機能である推定検索機能の前記実行頻度を参照して、前記推定検索機能の実行を制御し、
    前記推定検索機能の実行により得られた検索結果を通知部に通知させる制御を行い、
    推定によって複数の前記推定検索機能が得られた場合、前記複数の推定検索機能のうち最初に実行される一の前記推定検索機能の実行開始から実行終了までの期間内に、前記一の推定検索機能の実行から別の前記推定検索機能の実行に切り替える制御が可能である、音声認識方法。
  15. 音声を取得し、
    取得された前記音声に認識処理を行うことによって、実行すべき検索機能を推定し、
    前記検索機能の実行頻度を蓄積し、
    推定された前記検索機能である推定検索機能の前記実行頻度を参照して、前記推定検索機能の実行を制御し、
    推定によって複数の前記推定検索機能が得られた場合、前記複数の推定検索機能を並列的に実行する制御を行い、当該実行により得られた検索結果を、前記推定検索機能ごとに通知部に通知させる制御を行う、音声認識方法。
JP2018546083A 2016-10-19 2016-10-19 音声認識装置及び音声認識方法 Active JP6494879B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/080919 WO2018073907A1 (ja) 2016-10-19 2016-10-19 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2018073907A1 JPWO2018073907A1 (ja) 2019-03-28
JP6494879B2 true JP6494879B2 (ja) 2019-04-03

Family

ID=62018899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018546083A Active JP6494879B2 (ja) 2016-10-19 2016-10-19 音声認識装置及び音声認識方法

Country Status (5)

Country Link
US (1) US11126661B2 (ja)
JP (1) JP6494879B2 (ja)
CN (1) CN109891499B (ja)
DE (1) DE112016007158B4 (ja)
WO (1) WO2018073907A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356275B (zh) * 2021-12-06 2023-12-29 上海小度技术有限公司 交互控制方法、装置、智能语音设备及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366906B1 (en) * 1999-07-15 2002-04-02 International Business Machines Corporation Method and apparatus for implementing a search selection tool on a browser
KR20020008848A (ko) * 2000-03-31 2002-01-31 이데이 노부유끼 로봇 장치, 로봇 장치의 행동 제어 방법, 외력 검출 장치및 외력 검출 방법
JP2001306089A (ja) * 2000-04-24 2001-11-02 Alpine Electronics Inc 音声処理装置およびナビゲーション装置
JP2002055871A (ja) * 2000-08-11 2002-02-20 Sony Corp 情報閲覧装置および情報閲覧方法
JP4155383B2 (ja) * 2001-03-05 2008-09-24 アルパイン株式会社 音声認識機器操作装置
JP2003015688A (ja) 2001-07-03 2003-01-17 Matsushita Electric Ind Co Ltd 音声認識方法および装置
US20030172082A1 (en) * 2002-03-06 2003-09-11 Jeffrey Benoit Method and system for accessing action item information
JP3724461B2 (ja) * 2002-07-25 2005-12-07 株式会社デンソー 音声制御装置
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US7685254B2 (en) * 2003-06-10 2010-03-23 Pandya Ashish A Runtime adaptable search processor
US20140019542A1 (en) * 2003-08-20 2014-01-16 Ip Holdings, Inc. Social Networking System and Behavioral Web
US9202220B2 (en) * 2003-10-06 2015-12-01 Yellowpages.Com Llc Methods and apparatuses to provide application programming interface for retrieving pay per call advertisements
US20120158695A1 (en) * 2004-09-07 2012-06-21 Mr. Scott P. Stuart More efficient search algorithm (MESA) using: integrated system optimizer
CN101243380A (zh) * 2005-08-15 2008-08-13 皇家飞利浦电子股份有限公司 用于个人卫生保健环境的用户界面***
WO2008011454A2 (en) * 2006-07-18 2008-01-24 Chacha Search, Inc. Anonymous search system using human searchers
US10394771B2 (en) * 2007-02-28 2019-08-27 International Business Machines Corporation Use of search templates to identify slow information server search patterns
JP4436894B2 (ja) * 2007-08-09 2010-03-24 パナソニック株式会社 コンテンツ検索装置
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
US8209349B2 (en) * 2010-02-01 2012-06-26 Rockmelt, Inc. Integrated saved search results
US9252900B2 (en) * 2012-06-01 2016-02-02 Blackberry Limited Universal synchronization engine based on probabilistic methods for guarantee of lock in multiformat audio systems
US8990176B2 (en) * 2012-09-10 2015-03-24 Microsoft Technology Licensing, Llc Managing a search index
KR20140055302A (ko) * 2012-10-31 2014-05-09 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US9886507B2 (en) * 2014-04-30 2018-02-06 International Business Machines Corporation Reranking search results using download time tolerance
US9293132B2 (en) * 2014-08-06 2016-03-22 Honda Motor Co., Ltd. Dynamic geo-fencing for voice recognition dictionary

Also Published As

Publication number Publication date
CN109891499A (zh) 2019-06-14
CN109891499B (zh) 2022-12-09
US20200380040A1 (en) 2020-12-03
DE112016007158T5 (de) 2019-05-09
DE112016007158B4 (de) 2020-12-03
US11126661B2 (en) 2021-09-21
JPWO2018073907A1 (ja) 2019-03-28
WO2018073907A1 (ja) 2018-04-26

Similar Documents

Publication Publication Date Title
JP6052610B2 (ja) 情報通信端末、およびその対話方法
KR20200035413A (ko) 선택 시스템 및 방법
JP6844608B2 (ja) 音声処理装置および音声処理方法
US10665242B2 (en) Creating modular conversations using implicit routing
JP5408810B2 (ja) 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム
JP6284104B2 (ja) 情報通信端末、対話提供方法
US20170206059A1 (en) Apparatus and method for voice recognition device in vehicle
JP6494879B2 (ja) 音声認識装置及び音声認識方法
JP5300276B2 (ja) データ処理装置及び論理ドライブのマウント方法
JPWO2015162639A1 (ja) ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム
JP4905522B2 (ja) 機器制御装置、機器制御方法及びプログラム
US20150100317A1 (en) Speech recognition device
JP2010107614A (ja) 音声案内応答方法
KR102236228B1 (ko) 차량용 avn 시스템의 음성 제어방법 및 그 장치
JPWO2018116456A1 (ja) ナビゲーション装置、および、ナビゲーション方法
JP6851491B2 (ja) 音声対話制御装置および音声対話制御方法
JP6987447B2 (ja) 音声認識装置
JP2021085952A (ja) 音楽再生装置、音楽再生方法、及び、音楽再生プログラム
US20200168221A1 (en) Voice recognition apparatus and method of voice recognition
WO2005062295A1 (ja) 機器制御装置、音声認識装置、エージェント装置及び機器制御方法
KR102313062B1 (ko) 차량용 디스플레이 장치에서의 서비스 프로그램 제공 방법
US20200111477A1 (en) Identifying and configuring custom voice triggers
WO2018100705A1 (ja) 音声認識装置及び音声認識方法
JP2015206909A (ja) 音声認識装置
JP6303686B2 (ja) 音声入出力装置、音声入出力方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181025

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181025

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181025

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190305

R150 Certificate of patent or registration of utility model

Ref document number: 6494879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250