JP7173049B2 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents
情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDFInfo
- Publication number
- JP7173049B2 JP7173049B2 JP2019564305A JP2019564305A JP7173049B2 JP 7173049 B2 JP7173049 B2 JP 7173049B2 JP 2019564305 A JP2019564305 A JP 2019564305A JP 2019564305 A JP2019564305 A JP 2019564305A JP 7173049 B2 JP7173049 B2 JP 7173049B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- information processing
- processing
- barge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 214
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000012545 processing Methods 0.000 claims description 260
- 238000000034 method Methods 0.000 claims description 94
- 230000008569 process Effects 0.000 claims description 88
- 230000004044 response Effects 0.000 claims description 53
- 238000005562 fading Methods 0.000 claims description 44
- 238000004458 analytical method Methods 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 29
- 230000009471 action Effects 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000008094 contradictory effect Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Description
この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。例えば、
システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
このようなシステム発話を出力する。
システム発話中に割り込むユーザ発話を「バージイン発話」と呼ぶ。
システムがユーザ発話を検出した時点で、即時、システム発話を停止してしまうと、以下のような問題が発生する。
(a)ユーザ発話の開始時点でシステム発話を停止する。
(b)システム側でユーザ発話の意図の解釈が完了した時点で、システム発話を停止する。
しかし、上記(a),(b)いずれの処理においても、以下のような問題点が発生する。
システム発話音声が突然無音になることで、ユーザの聴感に違和感を発生させる。
また、システム発話音のレベルの大きな状態から無音になる際にシステムからノイズを発生しやすくなる、
このような問題が発生する。
特許文献1(特許第6066471号公報)は、ユーザ発話の長さやタイミング、さらに、システム状態等の情報を取得して、これらの取得情報に基づいて、ユーザ発話がシステムに向けた発話であるか否かを判定して判定結果に基づいてシステム発話の停止制御を行う構成を開示している。
従って、システム発話とユーザ発話の重複期間が発生する。
この結果、これらの従来技術に開示された構成ではバージイン発話によって生じる根本的な問題、すなわち、システム側はユーザ発話を聞き取りにく、ユーザ側は話しづらい状態になるという問題を解決することはできない。
本開示は、例えば、上記問題点に鑑みてなされたものであり、バージイン発話に対する迅速、かつ最適な処理を実現する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御部を有する情報処理装置にある。
ユーザ端末と、データ処理サーバを有する情報処理システムであり、
前記ユーザ端末は、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御部を有し、
前記データ処理サーバは、
前記ユーザ端末から受信する前記バージイン発話の意図を解析する発話意図解析部を有し、
前記ユーザ端末の出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止し、
停止不要と判定した場合、前記フェード処理後のシステム発話中の重要語の有無に応じて、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う情報処理システムにある。
情報処理装置において実行する情報処理方法であり、
出力制御部が、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行する情報処理方法にある。
ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
前記ユーザ端末が、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行し、
前記データ処理サーバが、
前記ユーザ端末から受信する前記バージイン発話の意図を解析する発話意図解析を実行し、
前記ユーザ端末の出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止し、
停止不要と判定した場合、前記フェード処理後のシステム発話中の重要語の有無に応じて、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う情報処理方法にある。
情報処理装置において情報処理を実行させるプログラムであり、
出力制御部に、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行させるプログラムにある。
具体的には、例えば、ステム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点からシステム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する。フェード処理完了後もフェード処理完了時点の出力状態を維持する。フェード処理中にシステム発話レベルが規定しきい値以下になった場合、システム発話を表示部に表示する。さらに、バージイン発話の意図や、システム発話内の重要語の有無に基づいて、システム発話の停止、継続、言い直しのいずれかを実行する。
本構成により、バージイン発話の発生時にシステム発話の出力制御を行い、ユーザとシステム間のスムーズな対話を可能とした装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
1.情報処理装置の構成例について
2.本開示の情報処理装置の実行するユーザの割り込み発話(ハージイン発話)に対する処理の概要について
3.情報処理装置の構成例について
4.情報処理装置の実行する処理のシーケンスについて
5.出力(音声、画像)制御部の実行する具体的な処理例について
6.その他の構成例について
7.本開示の情報処理装置の実行する処理の効果について
8.情報処理装置、および情報処理システムの構成例について
9.情報処理装置のハードウェア構成例について
10.本開示の構成のまとめ
まず、図1以下を参照して、本開示の一実施例の情報処理装置の構成例について説明する。
情報処理装置10は、ユーザの発話、例えば、
ユーザ発話=「大阪の明日、午後の天気を教えて」
このユーザ発話の音声認識処理を実行する。
図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー14を介して出力する。
図1に示す例では、情報処理装置10は、以下のシステム応答を行っている。
システム応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
情報処理装置10は、音声合成処理(TTS:Text To Speech)を実行して上記のシステム応答を生成して出力する。
図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等のような様々な装置形態とすることが可能である。
例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
次に、本開示の情報処理装置の実行するユーザの割り込み発話(ハージイン発話)に対する処理の概要について説明する。
(1)ユーザ発話の開始時点でシステム発話を停止する
(2)システム側でユーザ発話の意図の解釈が完了した時点で、システム発話を停止する
図3に示すように、
(1)ユーザ発話の開始時点でシステム発話を停止する場合のメリットとデメリットは以下の通りである。
メリット
システム発話音声が即時停止し、ユーザは話しやすい。
デメリット
ユーザ発話がシステムに向けられたものではない場合や、ユーザからのシステムに対する情報表示依頼のためのユーザ発話時にも、システム発話が中断することになり、不要なシステム発話中断が発生する。
突然、システム発話が停止すると、ユーザに違和感を生じさせる。
メリット
ユーザ発話の意図が、停止不要な意図であると理解した場合に、システム発話の継続が可能
デメリット
突然、システム発話が停止すると、ユーザに違和感を生じさせる。
システム発話音声が、ユーザ発話を邪魔して話しにくい。
(1)ユーザ発話の開始時点でシステム発話を停止する
(2)システム側でユーザ発話の意図の解釈が完了した時点で、システム発話を停止する
これらのいずれの場合も、デメリットがある。
図4を参照して、本開示の情報処理装置の実行するユーザの割り込み発話(ハージイン発話)に対する処理の概要について説明する。
図4に示すグラフは、横軸に時間(T)、縦軸にシステム発話の特性指標値(Sv)を設定したグラフである。
システム発話の特性指標値(Sv)とは、システム発話の音量、話速、ピッチの少なくともいずれかの値に基づく指標値であり、以下の特性を持つ指標値である。
システム発話の音量が大きいほど、指標値が大、
システム発話の話速が速いほど、指標値が大、
システム発話のピッチ(声の高さ)が高いほど、指標値が大、
これらの特性を持つ指標値である。
時間t0~t1の期間のシステム発話は、
システム発話の音量が大きい、
システム発話の話速が速い、
システム発話のピッチ(声の高さ)が高い、
これらの特性の少なくともいずれかを有するシステム発話である。
システム発話の音量が小さい、
システム発話の話速が遅い、
システム発話のピッチ(声の高さ)が低い、
これらの特性の少なくともいずれかを有するシステム発話である。
システム発話=山田さんからメッセージです。今日、オンラインゲームしない? 少し仕事が遅くなるかもしれないんで・・・
このシステム発話を開始する。
ユーザ発話(バージイン発話)=もう出るから、今日の天気を教えて
システム発話の音量を徐々に小さくする。
システム発話の話速を徐々に遅くする。
システム発話のピッチ(声の高さ)を徐々に低くする。
少なくともこれらのいずれかの処理を実行する。なお、上記3つの処理、またはいずれか2つの処理を組み合わせて実行してもよい。
なお、以下では、この処理をフェード処理と呼ぶ。
情報処理装置10は、一般的なユーザ発話の1~2文節+αの発話時間(例えば約1秒強~2秒程度)かけてフェード処理を実行する。
図に示す例では、時間t1~t2にかけてフェード処理を実行する。
情報処理装置10は、このフェード処理期間(t1~t2)において、例えば、システム発話の音量を徐々に小さくする制御を行う。
この処理は、図4に示すステップS22の処理である。
これは、ユーザが聞き取りにくいレベルになったシステム発話の内容をユーザに対して、表示データとして通知するための処理である。
ただし、フェード処理の終了後のシステム発話は、フェード処理完了時点の特性を維持した状態(Ducking状態)で実行される。
すなわち、
システム発話の音量が小さい。
システム発話の話速が遅い。
システム発話のピッチ(声の高さ)が低い。
少なくとも上記のいずれかの特性、すなわちフェード処理完了時点の特性を維持(Ducking状態)してシステム発話が実行される。
この処理は、図4に示すステップS23の処理である。
ユーザ発話(バージイン発話)=もう出るから、今日の天気を教えて
このユーザ発話(バージイン発話)の意図解釈処理を完了すると、図4に示すステップS24の処理を実行する。すなわち、
ユーザ発話(バージイン発話)の意図理解後、必要に応じてシステム発話を停止して、ユーザ発話に対する応答処理を実行する。
ユーザ発話(バージイン発話)=もう出るから、今日の天気を教えて
このユーザ発話に対するシステム応答、例えば、
システム応答=今日の天気は晴れです。ただし夕方には雷雨があるかもしれません
このようなシステム応答の生成、出力処理を実行する。
システム発話の音量を徐々に小さくする。
システム発話の話速を徐々に遅くする。
システム発話のピッチ(声の高さ)を徐々に低くする。
少なくともこれらのいずれかの処理を実行する。
ユーザからの1~2文節程度で終わる短い依頼やシステムへ向けたものではない発話の場合は、システム発話のフェードが完了する前にユーザ発話意図の解釈が可能となる。
このフェード処理の継続時間(図4に示す時間t1~t2)は、ユーザによって設定可能な構成としてもよい。
ユーザ調整可能な構成とすることで、例えばゆっくり話すことの多いユーザは、フェード処理の継続時間を長め(2~4秒)に設定するといった処理が可能となる。
さらに、フェード処理完了後に、システム発話の音量、ピッチ(声の高さ)、発話速度が、ユーザが聞き取り困難なレベルになった後も、ユーザ発話の意図の解釈ができていない場合は、フェード完了後の状態でシステム発話を継続する。
従って、ユーザ発話が長い(1~2文節をこえる)発話である場合は、フェード完了後の状態でシステム発話が継続されることになる。
また、ユーザ発話がシステムに対するシステム発話内容の表示処理依頼等、システム発話に関する依頼等の場合にも、システム発話の中断の必要がないと判断し、システム発話は継続する。
このユーザ発話の意図解釈後のシステム発話は、元の標準の出力特性に戻して実行する。
次に、図5を参照して、情報処理装置の具体的な構成例について説明する。
図5は、ユーザ発話を認識して応答を行う情報処理装置100の一構成例を示す図である。
なお、これらの構成要素は、全てを1つの情報処理装置100内部に構成することも可能であるが、一部の構成や機能を他の情報処理装置や外部サーバに備える構成としてもよい。
音声入力部(マイク)101は、入力したユーザ発話音声を、音声発話区間検出部102に入力する。
音声発話区間検出部102は、入力したユーザ発話音声に対する音声発話区間検出処理を実行する。音声発話区間検出部102は、例えば、VAD(Voice Activity Detection)機能を有し、ユーザが音声発話を行っているか否かの検出処理を高レスポンスで実行し、ユーザ発話の開始と終了のタイミングを低遅延で特定する。
音声発話区間検出部102の検出した音声発話区間情報は、音声データと共に音声認識部103に入力される。さらに、音声発話区間情報は、出力(音声、画像)出力制御部110にも入力される。
音声認識部103において生成されたテキストデータは、発話意味解析部104に入力される。
発話意味解析部104は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
ユーザ発話=明日の大阪の午後の天気を教えて
このユーザ発話の、
意図(インテント)は、天気を知りたいであり、
実体情報(エンティティ)は、大阪、明日、午後、これらのワードである。
例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。
応答音声を出力する場合は、音声合成部122が音声合成処理(TTS:Text To Speech)により生成した音声情報を、スピーカー等の音声出力部123を介して出力する。
応答画像を出力する場合は、表示画像合成部124において生成した表示画像情報を、ディスプレイ等の画像出力部125を介して出力する。
画像出力部125は、例えばLCD、有機ELディスプレイ等のディスプレイ、あるいはプロジェクション表示を行うプロジェクタ等によって構成される。
なお、情報処理装置100は、外部接続機器、例えばテレビ、スマートフォン、PC、タブレット、AR(Argumented Reality)機器、VR(Virtual Reality)機器、その他の家電製品に画像を出力して表示することも可能である。
(1)音声発話区間検出部102が、ユーザ発話に基づいて検出したユーザ音声発話区間情報、
(2)発話意味解析部104が、テキストデータに対する自然言語理解(NLU)を実行して生成したユーザ発話の意図(インテント)と実体情報(エンティティ)、
(3)カメラなどの画像入力部105が取得した発話ユーザおよびその周囲の画像に対する画像認識部106の画像認識結果情報、
(4)センサー107が取得した発話ユーザおよびその周囲の状態の検出情報に基づいて、センサー情報解析部108が解析したセンサー解析情報、
音声合成部122において生成されスピーカー等の音声出力部123を介して出力する音声情報、
表示画像合成部124において生成され、ディスプレイ等の画像出力部125を介して出力される画像情報、
これらの出力情報の制御を行う。
すなわち、システム発話途中にユーザの割り込み発話、すなわちバージイン発話を検出した場合、システム発話のフェード処理を実行する。具体的には、
システム発話の音量を徐々に小さくする。
システム発話の話速を徐々に遅くする。
システム発話のピッチ(声の高さ)を徐々に低くする。
少なくともこれらのいずれかの処理を実行する。
さらに、システム発話の画像表示制御も実行する。
最初に、ユーザ発話の開始タイミング情報が入力される。
その後、ユーザ発話期間の完了後に、発話意味解析部104において推定されたユーザ発話意図が入力される。
また、カメラなどの画像入力部105が取得した発話ユーザおよびその周囲の画像に対する画像認識部106の画像認識結果情報、センサー107が取得した発話ユーザおよびその周囲の状態の検出情報に基づいて、センサー情報解析部108が解析したセンサー解析情報が入力される。
出力(音声、画像)制御部110は、ユーザ発話期間に入力するこれらの情報に基づいて、例えば、先に図4を参照して説明した処理を行う。
具体的な処理例については、後段で説明する。
次に、図6、図7に示すフローチャートを参照して、情報処理装置100の実行する処理のシーケンスについて説明する。
図6、図7に示すフローチャートに従った処理は、例えば情報処理装置100の記憶部に格納されたプログラムに従って実行することが可能である。
情報処理装置100における処理は、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
以下、図6、図7に示すフローの各ステップの処理について説明する。
(ステップS101)
まず、ステップS101において、情報処理装置100が検出したユーザ発話が、システム発話の実行中に行われたユーザ発話、すなわちバージイン発話であるか否かを判定する。
ユーザ発話がバージイン発話である場合は、ステップS121に進む。
一方、ユーザ発話がバージイン発話でない場合、すなわちユーザ発話が、システム発話の実行中でない期間の発話である場合は、ステップS111に進む。
まず、ステップS101において、ユーザ発話がバージイン発話でない場合、すなわちユーザ発話が、システム発話の実行中でない期間の発話である場合の処理について説明する。
前述したように、発話意味解析部104は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
システム応答は、音声出力、画像出力の少なくともいずれかの出力処理によって実行する。音声を出力する場合は、音声合成部122が音声合成処理(TTS:Text To Speech)により生成した音声情報を、スピーカー等の音声出力部123を介して出力する。
応答画像を出力する場合は、表示画像合成部124において生成した表示画像情報が、ディスプレイ等の画像出力部125を介して出力する。
次に、ステップS101において、ユーザ発話がバージイン発話であると判定した場合、すなわちユーザ発話が、システム発話の実行中に行われた発話であると判定した場合の処理について説明する。
(a)システム発話の音量を徐々に小さくする。
(b)システム発話の話速を徐々に遅くする。
(c)システム発話のピッチ(声の高さ)を徐々に低くする。
少なくともこれら(a)~(c)のいずれかの処理を開始する。
人は話をする時に、最初の意味の塊となる1~2文節程度は発話をする前に何を話すかを決めているが、長めの発話をする際には話しながら次の意味の塊となる1~2文節程度に何と言うかを考えながら発話を継続していると考えられる。この考えに基づくと、最初の1~2文節程度のユーザ発話時間において、フェード処理を行い、システム発話をユーザの耳に入りにくくすることで、ユーザは長めの発話を行いやすくなる。
なお、システム発話の継続処理や、言い直し処理の詳細については後述する。
システム発話の言い直しを実行すると、ユーザに冗長性を感じさせ情報提示の時間もかかってしまうため極力避け、システム発話をそのまま継続することが望ましいが、システム発話の速度を低下させて、システム発話の進行を遅らせることにより言い直しが発生しにくくなる効果がある。
ステップS122~S125では、一定時間、フェード処理を継続する。
先に図4を参照して説明したように、一般的なユーザ発話の1~2文節+αの発話時間(例えば約1秒強~2秒程度)かけてフェード処理を継続的に実行する。
フェード時間を1~2文節の発話を行う時間+αとすることで、ユーザ発話が短い場合にはシステム発話のレベルが下がりきらずに継続できる。なお、この処理によって、後述するステップS153における判定処理において、システム発話言い直し不要の判定がなされる可能性を高める効果が発生する。
なお、フェード処理は、先に図4を参照して説明したようにシステム発話の特性(音量、話速、ピッチ)をリニアに下降させる設定としても良いし、人の聴覚特性に基づいてlog曲線を使用して下降してもよい。
この音量、ピッチ(声の高さ)、速度の状態が維持されたままシステム発話は少なくともユーザ発話の完了を検知するまで継続される。
このフェード完了状態(Ducking状態)を維持することにより、ユーザは自分の発話を邪魔されないレベルでシステム発話にどの程度の後続発話があったのかを知ることができる。
テレビ・スマートフォン・PC・タブレット・その他家電製品のモニター画面など、連携機器の画面をユーザが見ている時は、ユーザが見ている連携機器の画面にテキスト表示する。
また、ユーザがAR(Argumented Reality)機器や、VR(Virtual Reality)機器を装着している場合は、それらの機器のユーザ視野内にシステム発話のテキスト表示を行う。
また、図8に示す例のように、どこまでシステム発話完了部分で、どこからがシステム発話が完了していない部分であるかを明示して表示してもよい。
また、表示場所の領域がどれだけあるかに応じて、全体表示か、システム未発話部分のみの表示とするかを切り替える制御を行ってもよい。
また、ユーザ発話(バージイン発話)が完了する前に規定のフェード処理実行期間(例えば約1秒強~2秒程度)が終了すると、ステップS126に進む。
ステップS126において、出力(音声、画像)制御部110は、システム発話のフェード処理を終了する。ただし、システム発話は、フェード処理終了時点の特性を維持して継続する。
システム発話の音量が小さい。
システム発話の話速が遅い。
システム発話のピッチ(声の高さ)が低い。
少なくとも上記のいずれかの特性、すなわちフェード処理完了時点の特性を維持してシステム発話を継続して実行する。
ステップS127において、ユーザ発話(ハージイン発話)の完了判定がなされる。
これは、音声発話区間検出部102の検出する音声発話区間情報に基づいて判定される。
ユーザ発話(ハージイン発話)が完了したと判定すると、ステップS151に進む。
ステップS151では、発話意味解析部104が、音声認識部103の生成したユーザ発話対応のテキストを解析して、ユーザ発話の意図を取得する。
前述したように、発話意味解析部104は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
ステップS152において、出力(音声、画像)制御部110は、システム発話の停止判定を行う。
出力(音声、画像)制御部110は、例えば、発話意味解析部104から入力するユーザ発話の意図(インテント)に基づいて、システム発話の停止判定を行う。
ユーザ発話意図に応じたシステム機能のアクション実行時に、ユーザへの応答に音声出力が伴う場合は、現在出力中のシステム発話の停止が必要と判定する。
ユーザへの応答に音声出力が伴わない場合は現在出力中のシステム発話の停止は不要と判定する。
(システム発話停止不要と判定する例1)
(1a)ユーザ発話がシステム(情報処理装置100)以外の第三者に実行されている場合、
(1b)ユーザ意図の解釈ができなかった場合、
(1c)ユーザ発話意図に沿ったアクション機能をシステム(情報処理装置100)が持っていない(実行できない)場合、
このような場合は、ユーザ発話(バージイン発話)に対して、システム(情報処理装置100)からの音声応答ができないのでシステム発話の停止は不要と判定する。
ユーザ発話が、例えば、
「添付の写真見せて」、「電気付けて」、「エアコン/テレビつけて」、「写真撮って」、「次の曲にして」、「音量上げて/下げて」、
これらのように、ユーザ発話意図が理解でき、かつ、ユーザ発話意図に沿ったアクションをシステム(情報処理装置100)が、応答音声を出力することなく実行できる場合、
このような場合は、システム(情報処理装置100)がユーザ発話意図に基づくアクションを実行すればよく、音声応答は不要であるので、システム発話の停止は不要と判定する。
ユーザ発話が、例えば、
「天気教えて」「このメールに~~~って返信しておいて」、「いま何時」、「次のニュース/メッセージを読み上げて」、「~~について検索して」、
これらのように、ユーザ発話意図が理解でき、かつ、ユーザ発話意図に沿ったアクションをシステム(情報処理装置100)が、応答音声を出力しなければ実行できない場合、
このような場合は、システム(情報処理装置100)がユーザ発話意図に基づくアクションとして音声応答が必要となるので、システム発話の停止を必要と判定する。
システム発話の停止不要と判定した場合は、ステップS153に進む。
一方、システム発話の停止必要と判定した場合は、ステップS171に進む。
(ステップS171~S172)
ステップS152において、システム発話の停止必要と判定した場合、出力(音声、画像)制御部110は、ステップS171において、現在出力中のシステム発話音声を即時停止する処理を行う。
システム応答は、音声出力、画像出力の少なくともいずれかの出力処理によって実行する。音声を出力する場合は、音声合成部122が音声合成処理(TTS:Text To Speech)により生成した音声情報を、スピーカー等の音声出力部123を介して出力する。
応答画像を出力する場合は、表示画像合成部124において生成した表示画像情報が、ディスプレイ等の画像出力部125を介して出力する。
ステップS152において、現在出力中のシステム発話の停止が不要と判定されると、次に、出力(音声、画像)制御部110は、ステップS153において、
(a)現在出力中のシステム発話を継続するか、または、
(b)現在出力中のシステム発話の発話済みの特定位置まで戻って、システム発話のいい直しを実行するか、
上記(a)システム発話継続,(b)システム発話言い直し、これらのいずれを実行するかを判定する。
重要語が含まれている場合は、(b)システム発話言い直しと判定し、
重要語が含まれていない場合は、(a)システム発話継続と判定する。
まず、出力(音声、画像)制御部110は、ユーザ発話(バージイン発話)の開始(フェード開始)から、ユーザ発話(バージイン発話)の終了までの期間(=システム発話のフェード処理開始~フェード完了状態維持継続期間(Ducking)内)に実行されたシステム発話のテキストを自然言語解析し、発話の中で聞き逃すとユーザにシステム発話に基づく情報が正しく伝わらなくなる重要語を抽出する。
固有名詞、日にち、時間、場所、金額の情報、数字、目的語、対象格等の語を重要語として判定する。
なお、上記例以外にも、システム(情報処理装置100)側で、予めユーザに伝えるべき文言を重要語として発話テキスト内にタグで定義しておいてもよい。
重要語が発話されていない場合には、(a)システム発話継続と判定する。
一方、重要語が発話されている場合には、(b)システム発話言い直しと判定する。
一方、(b)システム発話言い直しと判定した場合には、ステップS155に進む。
ステップS153において、システム発話継続と判定した場合には、ステップS154に進む。
出力(音声、画像)制御部110は、ステップS154において、現在出力中のシステム発話の音量、ピッチ、話速をフェード前のレベルに戻してそのまま発話を継続する。
一方、ステップS153において、システム発話言い直しと判定した場合には、ステップS155に進む。
出力(音声、画像)制御部110は、ステップS155において、現在出力中のシステム発話の音量、ピッチ、話速をフェード前のレベルに戻し、上述した重要語検索期間、すなわち、フェード処理開始後の重要語検索期間の最初の重要語を含む文節の発話位置まで戻ってシステム発話を再開する。
例えば、ユーザ発話が短い場合は、システム発話のフェード実行期間が短くなり、その中に重要語が含まれる確率も小さくなる。
従って、例えばユーザ発話(バージイン発話)が、システム(情報処理装置100)からの音声応答を伴わない機器操作依頼系の短いユーザ発話である場合は、システム発話のフェード実行期間が短くなり、その中に重要語が含まれる確率も小さく、システム発話は継続されやすくなる。
また、その中に重要語が含まれ、言い直しが必要となった場合でも、言い直し区間は最低限の短い区間を言い直し区間に設定してシステム発話を再開することが可能であり、ユーザによる重要語の聞き逃しを防止することが可能となる。
ステップS154におけるシステム発話の継続、またはステップS155のシステム発話の言い直しの実行後は、ステップS156に進む。
ステップS156において、情報処理装置100は、ユーザ発話(バージイン発話)に応じた処理を実行する。
ユーザ発話=「電気つけて」
この発話であった場合、例えば、情報処理装置100は制御信号(Wi-fi,赤外線等)を外部機器(照明機器)に出力して電気をつける処理を実行する。
次に、図9以下を参照して、出力(音声、画像)制御部110の実行する具体的な処理例について説明する。
以下の具体的処理例について、順次、説明する。
(処理例1)長いユーザ発話(バージイン発話)により、システム発話の停止が必要となる処理例
(処理例2)短いユーザ発話(バージイン発話)により、システム発話の継続が可能となる処理例
(処理例3)ユーザ発話(バージイン発話)により、システム発話の言い直しが必要となる処理例
まず、図9を参照して処理例1、すなわち、長いユーザ発話(バージイン発話)により、システム発話の停止が必要となる処理例について説明する。
まず、ステップS201において、時間t0から、情報処理装置100が、以下のシステム発話を開始する。
システム発話=山田さんからメッセージです。今日、オンラインゲームしない? 少し仕事が遅くなるかもしれないんで、・・
次に、ステップS202において、時間t1から、ユーザが以下のユーザ発話(バージイン発話)を開始する。
ユーザ発話(バージイン発話)=いいね、やろう。10時でOKって返信して
ユーザ発話(バージイン発話)を開始された時間t1から、システム発話のフェード処理を開始する。
図9に示すステップS203の処理である。
出力(音声、画像)制御部110は、ユーザ発話意図に沿ったアクションは、システム(情報処理装置100)が、応答音声を出力しなければ実行できないと判定し、この判定に応じて、実行中のシステム発話を停止する。
図9に示すステップS204の処理である。
すなわち、以下のシステム応答を出力する。
システム応答=返信内容は・・・
このシステム応答は、フェード処理の無い標準の出力レベルで実行する。
この処理例におけるメリットには以下のものがある。
(1)ユーザはメッセージ内容のシステム発話を最後まで聞く前に返信を話し始めたが、画面表示から10時スタート提案であることを知ることができたので、ユーザ発話として「10時でOK」とするシステム発話に応じた時間情報を含めたユーザ発話を行うことができる。
(2)ユーザ発話の後半期間にシステム発話音声はフェード完了状態(出力低下等)が維持されているため、ユーザはシステム発話を気にすることなく長めの発話を邪魔されずに話しやすくなる。
次に、図10を参照して処理例2、すなわち、短いユーザ発話(バージイン発話)により、システム発話の継続が可能となる処理例について説明する。
まず、ステップS221において、時間t0から、情報処理装置100が、以下のシステム発話を開始する。
システム発話=佐藤さんからメールです。先日の旅行の写真を添付します。とてもたのしかったので、またみんなで・・・
次に、ステップS222において、時間t1から、ユーザが以下のユーザ発話(バージイン発話)を開始する。
ユーザ発話(バージイン発話)=写真見せて
ユーザ発話(バージイン発話)を開始された時間t1から、システム発話のフェード処理を開始する。
ステップS223において、出力(音声、画像)制御部110は、ユーザ発話意図に沿ったアクションが、システム(情報処理装置100)による応答音声を出力することなく実行可能であると判定し、この判定に応じて、ユーザ発話意図に沿ったアクションを実行し、さらに、実行中のシステム発話を継続する。
継続処理に際して、出力(音声、画像)制御部110は、実行中のシステム発話をフェード処理前のレベルに戻す処理を行う。
すなわち、フェード処理前のシステム発話の音量、話速、ピッチ(声の高さ)に戻して、システム発話を継続する。
この処理例におけるメリットには以下のものがある。
(1)システム発話の不要な中断や言い直しが発生しないためユーザはメッセージ内容を聞くのに余計な時間がかからず、システム発話の言い直しによる冗長性も感じにくくなる。
(2)ユーザは目では添付の写真を見ながら、同時に耳ではメッセージの内容を継続して聞くことができる。
次に、図11を参照して処理例3、すなわち、ユーザ発話(バージイン発話)により、システム発話の言い直しが必要となる処理例について説明する。
まず、ステップS241において、時間t0から、情報処理装置100が、以下のシステム発話を開始する。
システム発話=鈴木さんからメールです。昨日の飲み会の写真を添付します。会費は4000円・・・・・・
次に、ステップS242において、時間t1から、ユーザが以下のユーザ発話(バージイン発話)を開始する。
ユーザ発話(バージイン発話)=写真見せて
ユーザ発話(バージイン発話)を開始された時間t1から、システム発話のフェード処理を開始する。
ステップS243aにおいて、出力(音声、画像)制御部110は、ユーザ発話意図に沿ったアクションは、システム(情報処理装置100)が、応答音声を出力することなく実行可能であると判定し、この判定に応じて、ユーザ発話意図に沿ったアクションを実行する。
情報処理装置100が実行するユーザ発話意図に沿ったアクションは、情報処理装置100の画像出力部(表示部)125に写真を表示する処理である。
この言い直し処理は、フェード処理開始後の重要語=4000円を含む文節から開始する。
また、このシステム発話の言い直し処理に際して、出力(音声、画像)制御部110は、システム発話をフェード処理前のレベルに戻す処理を行う。
すなわち、フェード処理前のシステム発話の音量、話速、ピッチ(声の高さ)に戻して、システム発話の言い直しを行う。
この処理例におけるメリットには以下のものがある。
(1)ユーザは言い直しにより会費が4,000円である事を知ることができ、かつ添付の写真を見ながらメッセージの内容を最低限の言い直しで聞くことができる。
次に上述した実施例とは異なるその他の構成例について説明する。
以下、(1)~(6)の6つの構成例について、順次、説明する。
(1)ユーザのシステム発話に対する割り込み発話であるバージイン発話を邪魔せずに、システム発話の続きを、情報処理装置の表示部に表示する構成
例えば、情報処理装置の表示部の表示領域が狭い場合などには、システム発話のテキストを、表示部にすべて表示するのではなく、抽出した重要語のみをキーワードとして表示してもよい。
システム発話のフェード開始条件として、ユーザ発話音声の検出(ユーザ発話開始の検出)に加えて、発話ユーザの視線や顔がシステム(情報処理装置100)を見ているかどうかを画像入力部105の入力画像や、センサー107による検出情報を利用して検出する。
さらに、システム(情報処理装置100)と通信可能な外部機器の使用状況に基づくユーザ発話(バージイン発話)の開始判定を行ってもよい。
一方、ユーザ発話音声が検出されたが、ユーザがシステム(情報処理装置100)方向ではなく、他の人に向いている時はフェード処理を開始しない。
また、ユーザ発話音声が検出されたが、ユーザがシステム(情報処理装置100)ではなく、他の対話機器と会話中や電話中の場合はフェード処理を開始しない。
さらに、フェード処理完了後のフェード完了状態維持状態(Ducking状態)において、ユーザ発話が継続していてもシステム発話を文の終端やイントネーション句の終端で停止してもよい。
情報処理装置100の音声出力部123は、ユーザの耳に装着するヘッドホンやイヤホンとする構成も可能である。
例えば、ユーザ発話(バージイン発話)が発生した場合、ノイズキャンセルの機能を徐々に弱める処理を行う。
この制御を行うと、システム発話の音像が正面ではなくなるためユーザは発話をしやすくなる。
なお、転送する発話内容は、先に8を参照して説明したしように、システム発話の音声出力完了部分と、未完了部分が判別可能な設定とすることが好ましい。
例えば、リッチテキストのタグによる色分けなどで識別可能とすることが可能である。
すなわち、図12に示すステップS261~S264aの処理は、以下の処理である。
まず、ステップS261において、時間t0から、情報処理装置100が、以下のシステム発話を開始する。
システム発話=山田さんからメッセージです。今日、オンラインゲームしない? 少し仕事が遅くなるかもしれないんで、10時スタートでどうでしょう?
次に、ステップS262において、時間t1から、ユーザが以下のユーザ発話(バージイン発話)を開始する。
ユーザ発話(バージイン発話)=いいね、やろう。9時になったら始めよう
ユーザ発話(バージイン発話)を開始された時間t1から、システム発話のフェード処理を開始する。
図12に示すステップS263の処理である。
出力(音声、画像)制御部110は、ユーザ発話意図に沿ったアクションは、システム(情報処理装置100)が、応答音声を出力しなければ実行できないと判定し、この判定に応じて、実行中のシステム発話を停止する。
図12に示すステップS264aの処理である。
図12に示す例では、
システム発話中の「10時」、
ユーザ発話(バージイン発話)中の「9時」、
これらが、システム発話とユーザ発話(バージイン発話)の不一致部分(矛盾部分)に相当し、これらを強調表示する。
この結果、必要に応じて言い直しをしやすくなる。
例えば、10時のお誘いのメッセージ(未発話部分)に対して、ユーザが9時に行くと回答している場合は、以下のシステム発話を出力する。
システム発話=「10時のお誘いですが9時の回答でよいですか?」
このようなシステム発話を行って、ユーザの再確認を求める構成としてもよい。
次に、本開示の情報処理装置の実行する処理の効果について説明する。
本開示の情報処理装置100の実行する処理による効果には、例えば以下の効果がある。
(1)ユーザ発話が開始されると、即時システム発話に対するフェード処理、すなわち、
システム発話の音量を徐々に小さくする。
システム発話の話速を徐々に遅くする。
システム発話のピッチ(声の高さ)を徐々に低くする。
少なくともこれらのいずれかの処理が開始されるため、ユーザはシステム(情報処理装置100)が、ユーザの発話を受け付けていることを早期に知ることができる。
複数の実施例について説明したが、これらの実施例において説明した様々な処理機能、例えば、図5に示す情報処理装置100の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
図13(1)情報処理システム構成例1は、図5に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部アプリを利用する場合にのみ、アプリ実行サーバ420と通信を実行する。
ユーザ端末に、システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御部を構成する。
一方、データ処理サーバは、ユーザ端末から受信するバージイン発話の意図を解析する発話意図解析部を有する。
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定を行い、判定結果に基づく処理を実行する。
例えば、このような構成が可能である。
次に、図14を参照して、情報処理装置のハードウェア構成例について説明する。
図14を参照して説明するハードウェアは、先に図5を参照して説明した情報処理装置のハードウェア構成例であり、また、図13を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
(1) システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御部を有する情報処理装置。
VAD(Voice Activity Detection)機能を有する音声発話区間検出部を有し、
前記出力制御部は、
音声発話区間検出部の検出情報に基づいて決定されるバージイン発話の開始時点から、前記フェード処理を開始する(1)に記載の情報処理装置。
前記フェード処理を所定の規定時間、継続し、前記規定時間後はフェード処理完了時点の前記システム発話の出力状態を維持する(1)または(2)に記載の情報処理装置。
前記フェード処理の実行中に、前記システム発話の特性指標値が、予め規定したしきい値以下になった場合、システム発話を表示部に表示する(1)~(3)いずれかに記載の情報処理装置。
表示部に表示するシステム発話を、システム発話完了部分と、未完了部分を識別可能とした態様で表示する(4)または(5)に記載の情報処理装置。
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止する(1)~(6)いずれかに記載の情報処理装置。
前記バージイン発話の意図に対応したシステムアクションとしてシステム応答音声出力が必要であると判定した場合、
前記システム発話を停止する(1)~(7)いずれかに記載の情報処理装置。
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止不要と判定した場合、前記システム発話を、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う(1)~(8)いずれかに記載の情報処理装置。
前記バージイン発話の開始から終了までの期間内のフェード処理開始後のシステム発話中に重要語が含まれるか否かを判定し、
重要語が含まれない場合は、
(a)フェード処理前の状態に戻して出力継続し、
重要語が含まれる場合は、
(b)フェード処理前の状態に戻して言い直し処理を実行する、
(9)に記載の情報処理装置。
(b)フェード処理前の状態に戻して言い直し処理を実行する場合、
前記言い直し処理を、フェード処理開始後のシステム発話の最初の重要語を含む文節の発話位置から開始する(10)に記載の情報処理装置。
前記フェード処理の実行中に、前記システム発話の特性指標値が、予め規定したしきい値以下になった場合、システム発話を表示部に表示するとともに、
前記バージイン発話を併せて前記表示部に表示する(1)~(12)いずれかに記載の情報処理装置。
前記システム発話と、バージイン発話の矛盾点の強調表示処理を実行する(13)に記載の情報処理装置。
前記ユーザ端末は、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御部を有し、
前記データ処理サーバは、
前記ユーザ端末から受信する前記バージイン発話の意図を解析する発話意図解析部を有し、
前記ユーザ端末の出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止し、
停止不要と判定した場合、前記フェード処理後のシステム発話中の重要語の有無に応じて、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う情報処理システム。
前記バージイン発話の開始から終了までの期間内のフェード処理開始後のシステム発話中に重要語が含まれるか否かを判定し、
重要語が含まれない場合は、
(a)フェード処理前の状態に戻して出力継続し、
重要語が含まれる場合は、
(b)フェード処理前の状態に戻して言い直し処理を実行する、
(15)に記載の情報処理システム。
出力制御部が、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行する情報処理方法。
前記ユーザ端末が、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行し、
前記データ処理サーバが、
前記ユーザ端末から受信する前記バージイン発話の意図を解析する発話意図解析を実行し、
前記ユーザ端末の出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止し、
停止不要と判定した場合、前記フェード処理後のシステム発話中の重要語の有無に応じて、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う情報処理方法。
出力制御部に、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行させるプログラム。
具体的には、例えば、ステム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点からシステム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する。フェード処理完了後もフェード処理完了時点の出力状態を維持する。フェード処理中にシステム発話レベルが規定しきい値以下になった場合、システム発話を表示部に表示する。さらに、バージイン発話の意図や、システム発話内の重要語の有無に基づいて、システム発話の停止、継続、言い直しのいずれかを実行する。
本構成により、バージイン発話の発生時にシステム発話の出力制御を行い、ユーザとシステム間のスムーズな対話を可能とした装置、方法が実現される。
11 カメラ
12 マイク
13 表示部
14 スピーカー
20 サーバ
30 外部機器
100 情報処理装置
101 音声入力部
102 音声発話区間検出部
103 音声認識部
104 発話意味解析部
105 画像入力部
106 画像認識部
107 センサー
108 センサー情報解析部
110 出力(音声、画像)制御部
121 応答生成部
122 音声合成部
123 音声出力部
124 表示画像生成部
125 画像出力部
410 情報処理装置
420 アプリ実行サーサーバ
460 データ処理サーバ
501 CPU
502 ROM
503 RAM
504 バス
505 入出力インタフェース
506 入力部
507 出力部
508 記憶部
509 通信部
510 ドライブ
511 リムーバブルメディア
Claims (18)
- システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御部を有し、
前記出力制御部は、
前記フェード処理の実行中に、前記システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかの値に基づく算出指標値が、予め規定したしきい値以下になった場合、システム発話を表示部に表示する請求項1に記載の情報処理装置。 - 前記情報処理装置は、
VAD(Voice Activity Detection)機能を有する音声発話区間検出部を有し、
前記出力制御部は、
音声発話区間検出部の検出情報に基づいて決定されるバージイン発話の開始時点から、前記フェード処理を開始する請求項1に記載の情報処理装置。 - 前記出力制御部は、
前記フェード処理を所定の規定時間、継続し、前記規定時間後はフェード処理完了時点の前記システム発話の出力状態を維持する請求項1に記載の情報処理装置。 - 前記しきい値は、前記システム発話がユーザによる聞き取り困難なレベルに相当する請求項1に記載の情報処理装置。
- 前記出力制御部は、
表示部に表示するシステム発話を、システム発話完了部分と、未完了部分を識別可能とした態様で表示する請求項1に記載の情報処理装置。 - 前記出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止する請求項1に記載の情報処理装置。 - 前記出力制御部は、
前記バージイン発話の意図に対応したシステムアクションとしてシステム応答音声出力が必要であると判定した場合、
前記システム発話を停止する請求項1に記載の情報処理装置。 - 前記出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止不要と判定した場合、前記システム発話を、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う請求項1に記載の情報処理装置。 - 前記出力制御部は、
前記バージイン発話の開始から終了までの期間内のフェード処理開始後のシステム発話中に重要語が含まれるか否かを判定し、
重要語が含まれない場合は、
(a)フェード処理前の状態に戻して出力継続し、
重要語が含まれる場合は、
(b)フェード処理前の状態に戻して言い直し処理を実行する、
請求項8に記載の情報処理装置。 - 前記出力制御部は、
(b)フェード処理前の状態に戻して言い直し処理を実行する場合、
前記言い直し処理を、フェード処理開始後のシステム発話の最初の重要語を含む文節の発話位置から開始する請求項9に記載の情報処理装置。 - 前記重要語は、固有名詞、日にち、時間、場所、金額情報、数字、目的語、対象格を示す語のいずれかである請求項9に記載の情報処理装置。
- 前記出力制御部は、
前記フェード処理の実行中に、前記システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかの値に基づく算出指標値が、予め規定したしきい値以下になった場合、システム発話を表示部に表示するとともに、
前記バージイン発話を併せて前記表示部に表示する請求項1に記載の情報処理装置。 - 前記出力制御部は、
前記システム発話と、バージイン発話の矛盾点の強調表示処理を実行する請求項12に記載の情報処理装置。 - ユーザ端末と、データ処理サーバを有する情報処理システムであり、
前記ユーザ端末は、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御部を有し、
前記データ処理サーバは、
前記ユーザ端末から受信する前記バージイン発話の意図を解析する発話意図解析部を有し、
前記ユーザ端末の出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止し、
停止不要と判定した場合、前記フェード処理後のシステム発話中の重要語の有無に応じて、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う情報処理システム。 - 前記ユーザ端末の出力制御部は、
前記バージイン発話の開始から終了までの期間内のフェード処理開始後のシステム発話中に重要語が含まれるか否かを判定し、
重要語が含まれない場合は、
(a)フェード処理前の状態に戻して出力継続し、
重要語が含まれる場合は、
(b)フェード処理前の状態に戻して言い直し処理を実行する、
請求項14に記載の情報処理システム。 - 情報処理装置において実行する情報処理方法であり、
出力制御部が、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行し、さらに、
前記フェード処理の実行中に、前記システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかの値に基づく算出指標値が、予め規定したしきい値以下になった場合、システム発話を表示部に表示する出力制御を実行する情報処理方法。 - ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
前記ユーザ端末が、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行し、
前記データ処理サーバが、
前記ユーザ端末から受信する前記バージイン発話の意図を解析する発話意図解析を実行し、
前記ユーザ端末の出力制御部は、
前記バージイン発話の意図に基づいて、前記システム発話の停止が必要か否かを判定し、停止が必要であると判定した場合に、前記システム発話を停止し、
停止不要と判定した場合、前記フェード処理後のシステム発話中の重要語の有無に応じて、
(a)フェード処理前の状態に戻して出力継続するか、
(b)フェード処理前の状態に戻して言い直し処理を実行するか、
上記(a),(b)のいずれを実行するかの判定処理を行う情報処理方法。 - 情報処理装置において情報処理を実行させるプログラムであり、
出力制御部に、
システム発話実行中の割り込みユーザ発話であるバージイン発話の開始時点から、システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかを低下させるフェード処理を開始する出力制御を実行させ、さらに、
前記フェード処理の実行中に、前記システム発話の音量、または話速、またはピッチ(声の高さ)の少なくともいずれかの値に基づく算出指標値が、予め規定したしきい値以下になった場合、システム発話を表示部に表示する出力制御を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018002162 | 2018-01-10 | ||
JP2018002162 | 2018-01-10 | ||
PCT/JP2018/039825 WO2019138651A1 (ja) | 2018-01-10 | 2018-10-26 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019138651A1 JPWO2019138651A1 (ja) | 2021-01-14 |
JP7173049B2 true JP7173049B2 (ja) | 2022-11-16 |
Family
ID=67219542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019564305A Active JP7173049B2 (ja) | 2018-01-10 | 2018-10-26 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11373635B2 (ja) |
JP (1) | JP7173049B2 (ja) |
WO (1) | WO2019138651A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210042520A (ko) | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN111292729B (zh) * | 2020-02-06 | 2021-01-15 | 北京声智科技有限公司 | 音频数据流的处理方法和装置 |
US11551685B2 (en) * | 2020-03-18 | 2023-01-10 | Amazon Technologies, Inc. | Device-directed utterance detection |
WO2021251107A1 (ja) * | 2020-06-11 | 2021-12-16 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
US12039975B2 (en) | 2020-09-21 | 2024-07-16 | Amazon Technologies, Inc. | Dialog management for multiple users |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169750A (ja) | 2000-11-30 | 2002-06-14 | Nec Corp | ブラウザ搭載装置 |
JP2004325848A (ja) | 2003-04-25 | 2004-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話制御方法、音声対話制御装置、音声対話制御プログラム |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3398401B2 (ja) | 1992-03-16 | 2003-04-21 | 株式会社東芝 | 音声認識方法及び音声対話装置 |
US5576955A (en) * | 1993-04-08 | 1996-11-19 | Oracle Corporation | Method and apparatus for proofreading in a computer system |
JPH08146991A (ja) | 1994-11-17 | 1996-06-07 | Canon Inc | 情報処理装置及びその制御方法 |
US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
ATE311650T1 (de) * | 2001-09-17 | 2005-12-15 | Koninkl Philips Electronics Nv | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes |
EP1428354A2 (en) * | 2001-09-20 | 2004-06-16 | Honeywell International, Inc. | Digital audio system |
US7069221B2 (en) * | 2001-10-26 | 2006-06-27 | Speechworks International, Inc. | Non-target barge-in detection |
JP4304952B2 (ja) * | 2002-10-07 | 2009-07-29 | 三菱電機株式会社 | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム |
ATE338424T1 (de) * | 2002-10-24 | 2006-09-15 | Hewlett Packard Co | Erkennung von ereignissen bei der kommunikation mit mehreren sprachkanälen |
US7346151B2 (en) * | 2003-06-24 | 2008-03-18 | Avaya Technology Corp. | Method and apparatus for validating agreement between textual and spoken representations of words |
US7499969B1 (en) * | 2004-06-25 | 2009-03-03 | Apple Inc. | User interface for multiway audio conferencing |
US8526940B1 (en) * | 2004-08-17 | 2013-09-03 | Palm, Inc. | Centralized rules repository for smart phone customer care |
US7684990B2 (en) * | 2005-04-29 | 2010-03-23 | Nuance Communications, Inc. | Method and apparatus for multiple value confirmation and correction in spoken dialog systems |
US7684821B2 (en) * | 2005-09-27 | 2010-03-23 | Research In Motion Limited | Multi-tap keyboard user interface |
KR20080107376A (ko) * | 2006-02-14 | 2008-12-10 | 인텔렉츄얼 벤처스 펀드 21 엘엘씨 | 화자 독립 음성 인식을 구비한 통신 장치 |
US20080005656A1 (en) * | 2006-06-28 | 2008-01-03 | Shu Fan Stephen Pang | Apparatus, method, and file format for text with synchronized audio |
US8065146B2 (en) * | 2006-07-12 | 2011-11-22 | Microsoft Corporation | Detecting an answering machine using speech recognition |
US8000969B2 (en) * | 2006-12-19 | 2011-08-16 | Nuance Communications, Inc. | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges |
US8046221B2 (en) * | 2007-10-31 | 2011-10-25 | At&T Intellectual Property Ii, L.P. | Multi-state barge-in models for spoken dialog systems |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
JP4519934B2 (ja) * | 2008-12-26 | 2010-08-04 | 株式会社東芝 | 音声再生装置 |
US8755921B2 (en) * | 2010-06-03 | 2014-06-17 | Google Inc. | Continuous audio interaction with interruptive audio |
US20120117185A1 (en) * | 2010-06-10 | 2012-05-10 | Cricket Communications, Inc. | Direct navigation to a remote media archive on a mobile communications device |
KR101560954B1 (ko) * | 2010-08-09 | 2015-10-15 | 나이키 이노베이트 씨.브이. | 모바일 장치를 이용한 피트니스 모니터링 |
US20120166188A1 (en) * | 2010-12-28 | 2012-06-28 | International Business Machines Corporation | Selective noise filtering on voice communications |
US9087048B2 (en) * | 2011-06-10 | 2015-07-21 | Linkedin Corporation | Method of and system for validating a fact checking system |
US8768782B1 (en) * | 2011-06-10 | 2014-07-01 | Linkedin Corporation | Optimized cloud computing fact checking |
US9201859B2 (en) * | 2011-12-15 | 2015-12-01 | Microsoft Technology Licensing, Llc | Suggesting intent frame(s) for user request(s) |
US9514109B2 (en) * | 2012-01-12 | 2016-12-06 | Educational Testing Service | Computer-implemented systems and methods for scoring of spoken responses based on part of speech patterns |
US20130202097A1 (en) * | 2012-02-06 | 2013-08-08 | Microsoft Corporation | Priority telephonic communications |
US9268858B1 (en) * | 2012-06-27 | 2016-02-23 | Amazon Technologies, Inc. | Previewing content based on detected customer activities |
US20140156539A1 (en) * | 2012-08-17 | 2014-06-05 | CrowdCare Corporation | Device Profile-Based Rule Making for Customer Care |
WO2014039828A2 (en) * | 2012-09-06 | 2014-03-13 | Simmons Aaron M | A method and system for reading fluency training |
JP5638051B2 (ja) * | 2012-09-28 | 2014-12-10 | 富士フイルム株式会社 | 情報提供システム、情報提供装置、情報提供方法およびプログラム |
US20140120502A1 (en) * | 2012-11-01 | 2014-05-01 | Clayton Prince | Language learning using electronic book |
US8898063B1 (en) * | 2013-03-15 | 2014-11-25 | Mark Sykes | Method for converting speech to text, performing natural language processing on the text output, extracting data values and matching to an electronic ticket form |
US20140287779A1 (en) * | 2013-03-22 | 2014-09-25 | aDesignedPath for UsabilitySolutions, LLC | System, method and device for providing personalized mobile experiences at multiple locations |
CN105051734B (zh) * | 2013-04-04 | 2019-06-11 | 索尼公司 | 信息处理设备、数据输入辅助方法以及程序 |
KR20140132171A (ko) * | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 터치용 펜을 이용하는 휴대 단말기 및 이를 이용한 필기 입력 방법 |
DE202013007367U1 (de) * | 2013-08-14 | 2014-11-17 | GM Global Technology Operations LLC (n. d. Ges. d. Staates Delaware) | Audiosystem für ein Fahrzeug |
KR102183413B1 (ko) * | 2013-08-30 | 2020-11-26 | 삼성전자주식회사 | 콘텐트 표현 방법 및 시스템 |
US20160155435A1 (en) * | 2013-11-14 | 2016-06-02 | Honeywell International Inc. | Aircraft systems and methods for reducing and detecting read-back and hear-back errors |
US9584871B2 (en) * | 2013-12-19 | 2017-02-28 | Echostar Technologies L.L.C. | Smartphone bluetooth headset receiver |
US10389876B2 (en) * | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US9749584B2 (en) * | 2014-04-28 | 2017-08-29 | Hewlett-Packard Development Company, L.P. | Muting a videoconference |
KR101547938B1 (ko) * | 2014-04-29 | 2015-08-28 | 대성전기공업주식회사 | 친환경 차량의 작동 사운드 발생 장치 및 이의 제어 방법 |
KR20160055337A (ko) * | 2014-11-07 | 2016-05-18 | 삼성전자주식회사 | 텍스트 표시 방법 및 그 전자 장치 |
KR102304305B1 (ko) * | 2015-01-21 | 2021-09-23 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
US9947313B2 (en) * | 2015-01-26 | 2018-04-17 | William Drewes | Method for substantial ongoing cumulative voice recognition error reduction |
US10146789B1 (en) * | 2015-06-30 | 2018-12-04 | Amazon Technologies, Inc. | Identifying and utilizing synchronized content |
US9854098B2 (en) * | 2015-11-24 | 2017-12-26 | Avaya Inc. | Electronic communication routing based data accuracy |
US20170154637A1 (en) * | 2015-11-29 | 2017-06-01 | International Business Machines Corporation | Communication pattern monitoring and behavioral cues |
US20170243582A1 (en) * | 2016-02-19 | 2017-08-24 | Microsoft Technology Licensing, Llc | Hearing assistance with automated speech transcription |
US10140988B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US10140986B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US20170277257A1 (en) * | 2016-03-23 | 2017-09-28 | Jeffrey Ota | Gaze-based sound selection |
CN107273106B (zh) * | 2016-04-08 | 2021-07-06 | 北京三星通信技术研究有限公司 | 物体信息翻译、以及衍生信息获取方法和装置 |
US20180067641A1 (en) * | 2016-09-01 | 2018-03-08 | PIQPIQ, Inc. | Social networking application for real-time selection and sorting of photo and video content |
CN106445461B (zh) * | 2016-10-25 | 2022-02-15 | 北京小米移动软件有限公司 | 文字信息处理方法及装置 |
US20180150276A1 (en) * | 2016-11-29 | 2018-05-31 | Spotify Ab | System and method for enabling communication of ambient sound as an audio stream |
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
US10417349B2 (en) * | 2017-06-14 | 2019-09-17 | Microsoft Technology Licensing, Llc | Customized multi-device translated and transcribed conversations |
US11178280B2 (en) * | 2017-06-20 | 2021-11-16 | Lenovo (Singapore) Pte. Ltd. | Input during conversational session |
US10127731B1 (en) * | 2017-08-30 | 2018-11-13 | Daqri, Llc | Directional augmented reality warning system |
US10898999B1 (en) * | 2017-09-18 | 2021-01-26 | X Development Llc | Selective human-robot interaction |
-
2018
- 2018-10-26 WO PCT/JP2018/039825 patent/WO2019138651A1/ja active Application Filing
- 2018-10-26 JP JP2019564305A patent/JP7173049B2/ja active Active
- 2018-10-26 US US16/959,680 patent/US11373635B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169750A (ja) | 2000-11-30 | 2002-06-14 | Nec Corp | ブラウザ搭載装置 |
JP2004325848A (ja) | 2003-04-25 | 2004-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話制御方法、音声対話制御装置、音声対話制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019138651A1 (ja) | 2021-01-14 |
US11373635B2 (en) | 2022-06-28 |
WO2019138651A1 (ja) | 2019-07-18 |
US20210035554A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7173049B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US11756563B1 (en) | Multi-path calculations for device energy levels | |
US20230367546A1 (en) | Audio output control | |
US11138977B1 (en) | Determining device groups | |
KR102523982B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 | |
US11810557B2 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
US11062703B2 (en) | Automatic speech recognition with filler model processing | |
US11763819B1 (en) | Audio encryption | |
US11687526B1 (en) | Identifying user content | |
US10079021B1 (en) | Low latency audio interface | |
KR20220088926A (ko) | 온-디바이스 기계 학습 모델 트레이닝을 위한 자동화된 어시스턴트 기능의 수정 사용 | |
JPWO2019031268A1 (ja) | 情報処理装置、及び情報処理方法 | |
KR20200025226A (ko) | 전자 장치 및 그 제어 방법 | |
JPWO2020003851A1 (ja) | 音声処理装置、音声処理方法及び記録媒体 | |
KR20210005200A (ko) | 디지털 어시스턴트를 이용한 오디오 정보 제공 | |
US10923122B1 (en) | Pausing automatic speech recognition | |
US20240055003A1 (en) | Automated assistant interaction prediction using fusion of visual and audio input | |
KR20230062612A (ko) | 자동화된 어시스턴트를 위한 자연스러운 대화 활성화 | |
WO2019138652A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
KR20210042520A (ko) | 전자 장치 및 이의 제어 방법 | |
US20220366903A1 (en) | Contextual suppression of assistant command(s) | |
CN114327348A (zh) | 可穿戴计算设备音频接口 | |
KR20230007502A (ko) | 자동화된 어시스턴트 응답 제시의 핫워드 프리 선점 | |
US20230230578A1 (en) | Personalized speech query endpointing based on prior interaction(s) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220916 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7173049 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |