JP2018045192A - 音声対話装置および発話音量調整方法 - Google Patents

音声対話装置および発話音量調整方法 Download PDF

Info

Publication number
JP2018045192A
JP2018045192A JP2016181914A JP2016181914A JP2018045192A JP 2018045192 A JP2018045192 A JP 2018045192A JP 2016181914 A JP2016181914 A JP 2016181914A JP 2016181914 A JP2016181914 A JP 2016181914A JP 2018045192 A JP2018045192 A JP 2018045192A
Authority
JP
Japan
Prior art keywords
volume
distance
user
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016181914A
Other languages
English (en)
Inventor
池野 篤司
Tokuji Ikeno
篤司 池野
宗明 島田
Muneaki Shimada
宗明 島田
浩太 畠中
Kota HATANAKA
浩太 畠中
西島 敏文
Toshifumi Nishijima
敏文 西島
史憲 片岡
Fuminori Kataoka
史憲 片岡
刀根川 浩巳
Hiromi Tonegawa
浩巳 刀根川
倫秀 梅山
Norihide Umeyama
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016181914A priority Critical patent/JP2018045192A/ja
Publication of JP2018045192A publication Critical patent/JP2018045192A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】状況に応じて適切な音量で応答が可能な音声対話装置を提供する。【解決手段】音声対話装置は、ユーザから入力された音声の入力音量を取得する音量取得手段と、前記ユーザとのあいだの距離を取得する距離取得手段と、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定手段と、を備える。前記出力音量決定手段は、基準入力音量と基準出力音量を距離ごとに対応付けたテーブルを記憶しており、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した距離に対応する基準入力音量とを比較し、前記距離取得手段が取得した距離に対応する基準出力音量を前記比較結果に応じて調整した音量を、前記出力音量として決定することができる。【選択図】図5

Description

本発明は、音声対話装置に関し、特に、音声対話装置において発話音量を決定する技術に関する。
音声対話装置は、状況に応じて適切な音量で発話を行うことが求められる。特許文献1は、ステレオカメラによりユーザまでの距離を計測し、距離を加味して発話音量を調整することを開示する。具体的には、ユーザが閾値距離よりも遠くにいる場合は発話音量を大きくし、ユーザが閾値距離よりも近くにいる場合は発話音量を小さくしている。
特許文献2は、入力された発話音量(発話音圧)から音源の距離を求められることを開示する。具体的には発話音量が小さいほど音源が遠くに位置すると考えられるので、解像度の高い画像処理を行い、発話音量が小さいほど音源が近くに位置するので解像度の低い画像処理を行うことを開示する。
特開2008−254122号公報 特開2009−136968号公報
特許文献1はユーザとの距離のみに応じて音声対話装置の発話音量を決定しているが、ユーザとの距離だけでなくユーザの発話音量に応じた音量で応答することが好ましい。したがって、特許文献1の手法に特許文献2の手法を組み合わせることが考えられる。
しかしながら、ユーザが音声対話装置に対して発話する場合、装置の近くで発話する場合は小さな声で、遠くから発話する場合は大きな声で発話するのが自然である。したがって、音声対話装置が受けるユーザ発話の音量は同程度となり、音声対話装置の発話音量は一定になり不自然である。ユーザが遠くにいる場合に応答がユーザまで届かなかったり、ユーザが極めて近くにいる場合に過大な音量で応答してしまったりという不都合が生じる。
本発明は、状況に応じて適切な音量で応答が可能な音声対話装置を提供することを目的とする。
本発明にかかる音声対話装置は、ユーザから入力された音声の入力音量を取得する音量取得手段と、前記ユーザとのあいだの距離を取得する距離取得手段と、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定手段と、を備える。
本発明における前記出力音量決定手段は、基準入力音量と基準出力音量を距離に応じて定義したテーブルを記憶しており、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した距離に対応する基準入力音量とを比較し、前記距離取得手段が取得した距離に対応する基準出力音量を前記比較結果に応じて調整した音量を、前記出力音量として決定することができる。ここで、前記テーブルに含まれる基準入力音量と基準出力音
量は、前記距離が大きいほど、基準入力音量の大きさが小さく(広義単調減少)、かつ、基準出力音量の大きさが大きい(広義単調増加)ことが好ましい。
一般に、ユーザとの距離が遠いほど大きな音量で応答し、ユーザとの距離が近いほど小さな音量で応答することが好ましい。また、ユーザの発話音量に応じた音量に応じた音量で応答することが好ましい。上記の構成によれば、ユーザとのあいだの距離とユーザから受け取る音声の入力音量の両方を考慮に入れて応答の音量(音圧)を決定しているので、適切な音量での応答が可能となる。
本発明における前記距離取得手段は、ユーザの画像を取得する画像取得手段と、前記画像からユーザの顔または身体を検出する検出手段と、前記検出手段によって検出されたユーザの顔または身体からユーザとのあいだの距離を求める距離検出手段と、を備えてもよい。本発明における前記距離取得手段は、また、距離センサであってもよい。距離センサは、レーザ、超音波、赤外線などを用いたものであってもよいし、ステレオ方式やDFD(Depth from Defocus)方式を用いたものであってもよい。
なお、本発明は、上記手段の少なくとも一部を備える音声対話装置として捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法あるいは発話音量調整方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、音声対話装置において状況に応じて適切な音量で応答できる。
図1は、実施形態に係る音声対話システムのシステム構成を示す図である。 図2は、実施形態に係る音声対話システムの機能構成を示す図である。 図3は、実施形態に係る音声対話システムにおける対話処理の流れの例を示す図である。 図4は、実施形態に係る音声対話システムにおける対話処理の流れの別の例を示す図である。 図5(A)は距離と基準入力音量の関係、図5(B)は距離と基準出力音量の関係、図5(C)は発話音量の制御処理の流れを示すフローチャートである。
以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は音声対話ロボットをローカルの音声対話端末として用いたシステムであるが、ローカルの音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。
<システム構成>
図1は本実施形態に係る音声対話システムのシステム構成を示す図であり、図2は機能構成を示す図である。本実施形態に係る音声対話システムは、図1、図2に示すように、ロボット100、スマートフォン110、音声認識サーバ200、対話サーバ300から構成される。
ロボット(音声対話ロボット)100は、音声入力部(マイク)101、画像入力部(カメラ)102、音声出力部(スピーカー)103、通信部(BT:Bluetooth(登録商
標))、コマンド送受信部104を含む。図示は省略しているが、ロボット100は、可動関節(顔、腕、足等)、当該可動関節の駆動制御部、各種のライト、当該ライトの点灯・消灯などの制御部などを有している。
ロボット100は、音声入力部101によってユーザからの音声を取得し、画像入力部102によってユーザを写した画像を取得する。ロボット100は、通信部105を介して入力音声と入力画像をスマートフォン110に送信する。ロボット100は、スマートフォン110からコマンドを取得すると、それに応じて音声出力部103から音声を出力したり、可動関節部を駆動したりする。
スマートフォン110は、マイクロプロセッサなどの演算装置、メモリなどの記憶部、タッチスクリーンなどの入出力装置、通信装置などを含むコンピュータである。スマートフォン100は、マイクロプロセッサがプログラムを実行することにより、入力音声処理部111、音声合成処理部112、コマンド送受信部113、位置情報処理部114、簡易応答作成部115、制御部116、通信部(BT)117、通信部(TCP/IP)118を備える。
入力音声処理部111は、ロボット100からの音声データを受け取り、通信部118を介して音声認識サーバ200に送信して音声認識処理を依頼する。なお、入力音声処理部111が一部の前処理を行ってから、音声認識サーバ200へ音声認識処理を依頼してもよい。入力音声処理部111は、音声認識サーバ200による音声認識結果を通信部118を介して対話サーバへ送信し、ユーザ発話に応答する応答文のテキスト(ロボット100に発話させる文章)の生成を依頼する。
音声合成処理部112は、応答文のテキストを取得して、音声合成処理を行ってロボット100に発話させる音声データを生成する。
位置情報処理部114は、GPSにより測位した位置情報や日時情報を履歴として保持する。
簡易応答作成部115は、ユーザ発話をロボット100から受け取って、音声認識サーバ200および対話サーバ300による応答を返すまでのあいだに、相づちや返事あるいは入力された音声データの繰り返しのような簡易的な応答を作成して、ロボット100から出力させる。
制御部116は、スマートフォン110の全体的な処理を司る。通信部117は、Bluetooth(登録商標)規格にしたがって、ロボット100とのあいだで通信を行う。通信部118は、TCP/IP規格にしたがって音声認識サーバ200や対話サーバ300とのあいだで通信を行う。
音声認識サーバ200は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、通信部201および音声認識処理部202を備える。音声認識サーバ200は、豊富な資源を有しており、高精度な音声認識が可能である。
対話サーバ300は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、通信部301、応答作成部302、情報記憶部303を備える。情報記憶部303には、応答作成のための対話シナリオが格納される。応答作成部302は、情報記憶部303の対話シナリオを参照して、ユーザ発話に対する応答を作成する。対話サーバ300は、豊富な資源(高速な演算部や、大容量の対話シナリオDBなど)を有しており、高度な応答を生成可能である。
<全体処理>
図3を参照して、本実施形態に係る音声対話システムにおける全体的な処理の流れを説明する。
ステップS11において、ロボット100が音声入力部101からユーザの発話の音声の入力を受けると、ロボット110は通信部105を介して入力音声データをスマートフォン110の入力音声処理部111に送信し、入力音声処理部111が当該入力音声データを音声認識サーバ200へ送信する。
ステップS12において、音声認識サーバ200の音声認識処理部202が音声認識処理を実施する。
ステップS13において、スマートフォン110の入力音声処理部111が音声認識サーバ200による認識結果を取得するとともに、位置情報処理部114がGPSから位置情報を取得する。入力音声処理部111は、音声認識結果および位置情報を対話サーバ300へ送信して、応答文の作成を依頼する。なお、ここでは音声認識結果をスマートフォン110を介して音声認識サーバ200から対話サーバ300へ送っているが、音声認識結果は音声認識サーバ200から対話サーバ300へ直接送られてもよい。
ステップS14において、対話サーバ300の応答作成部302は、音声認識結果に対する応答のテキストを生成する。この際、情報記憶部303に記憶されている対話シナリオを参照する。対話サーバ300によって生成された応答文テキストはスマートフォン110に送信される。
ステップS15において、対話サーバ300は、受け取ったユーザ発話の内容を情報記憶部303に記憶し、ステップS16において、受け取った位置情報を情報記憶部303に記憶する。どこでどのような発話がなされたのかをユーザごとに情報記憶部303に記憶しておくことで、将来の応答文作成に活用できる。
ステップS17において、スマートフォン110が対話サーバ300から応答文テキストを受信すると、音声合成処理部112が音声合成処理により応答文テキストの音声データを生成する。コマンド送受信部113は、当該音声データを出力するように、ロボット100に対してコマンドを送信する。
ステップS18において、ロボット100のコマンド送受信部104がスマートフォン110からのコマンドを受信して、音声出力部103から応答の音声データを出力する。
なお、上記の処理にはある程度の時間が必要であり、そのあいだロボット100が応答発話しないでいると、ユーザとの対話が不自然に間延びしてしまう。そこで、スマート110は上記の処理を行っているあいだに、簡易応答作成部115からロボット100に対して、相づちや返事、入力された音声データの繰り返しなどの簡易的な応答のための音声データを作成し、ロボット100に送信して応答の発話を行わせる。また、スマートフォン110の位置情報を対話に利用して対話の幅を拡げることもできる。
<発話音量調整方法>
図4は、本実施形態に係る音声対話システムにおいてロボット100が応答する際に行う発話音量調整(決定)方法を説明するフローチャートである。
ユーザがロボット100に向かって発話すると、音声入力部(マイク)101がユーザ
の音声を取得する(S21)とともに、画像入力部(カメラ)102がユーザの画像を取得する。ユーザの存在する方向は、マイクアレイへの音波到来時間の差によって把握してもよいし、また、その他の技術によって把握してもよい。
ユーザ発話の音声データはスマートフォン110に送られ、スマートフォン110は、音声データに対する音声認識処理と応答作成処理を実施する(S22)。この処理は、図3を用いて説明したので繰り返さない。
ステップS23において、ロボット100の音声入力部101は、ユーザ音声の音量(音圧)を検出する。
ロボット100の画像入力部102は、ステップS25において画像からユーザの顔を検出し、ステップS26において顔画像のサイズを取得する。ここでは撮影画像から顔を抽出しているが、身体を抽出してもよい。
ステップS23において取得されたユーザ発話の音量およびステップS26において取得された顔画像の大きさは、ロボット100からスマートフォン110に送信される。ステップS27において、スマートフォン110の制御部116は、音量および顔サイズに基づいてユーザの位置、すなわちロボット100とユーザとのあいだの距離が算出される。
ステップS28において、制御部116は、ユーザ発話の音量およびユーザとのあいだの距離に基づいて、ロボット100がユーザ発話に応答する際の発話音量を決定する。この決定処理の詳細について、図5(A)〜図5(C)を参照して説明する。
図5(A)は、スマートフォン110があらかじめ格納している、ユーザとロボットのあいだの距離と基準入力音量との関係を表すテーブルである。基準入力音量は、ユーザが通常程度の音量で発話した際に、ロボット100に入力されると想定される音量である。ユーザは一般にロボットから離れるほど大きな声で発話する傾向にあるが、やはり距離が大きいほど入力音量は小さくなることが想定される。したがって、基準入力音量は、ユーザとロボットのあいだの距離が大きくなるほど小さいように設定される。
図5(B)は、スマートフォン110があらかじめ格納している、ユーザとロボットのあいだの距離と基準出力音量との関係を表すテーブルである。基準出力音量は、ロボット100が発話する際の音量の基準となる音量である。ユーザとロボットのあいだの距離が離れるほど、ロボット100は大きな音量で発話する必要がある。したがって、基準出力音量は、ユーザとロボットのあいだの距離が大きくなるほど大きいように設定される。
なお、図5(A),5(B)では、基準入力音量や基準出力音量が距離に応じて線形に変化するように示しているが、これらの図は距離と音量の関係を例示的に説明するものに過ぎず、必ずしも音量と距離が線形の関係でなくても構わない。また、これらの図では基準の音量が距離に応じた狭義の単調減少/増加関数で表されているが、広義の単調減少/増加関数であってもよい。例えば、階段関数などを採用してもよい。
図5(C)は、ステップS28の発話音量制御処理の詳細な流れを示すフローチャートである。ステップS31において、制御部116は、ユーザとのあいだの距離を取得する。ステップS32において、制御部116は、図5(A)(B)のテーブルを参照して、距離に応じた基準入力音量と基準出力音量を取得する。
ステップS32において、制御部116は、入力音量と基準入力音量を比較する。入力
音量が基準入力音量よりも小さければ、ステップS34に進んで、制御部116は、出力音量を基準出力音量よりも小さな音量として決定する。入力音量が基準入力音量と同程度であれば、ステップS35に進んで、制御部116は、基準出力音量を出力音量とする。入力音量が基準入力音量よりも大きければ、ステップS36に進んで、制御部116は、出力音量を基準出力音量よりも大きな音量として決定する。
ステップS34やS36において、入力音量と基準入力音量の比較結果に基づいて出力音量を決定する方法はいくつかの方法が考えられる。例えば、入力音量と基準入力音量の差あるいは比に応じて基準出力音量を増減させた値を出力音量とすることができる。あるいは、入力音量と基準入力音量の差あるいは比を所定の基準でレベル分けし、当該レベルに応じて基準出力音量を増減させた値を出力音量とすることができる。
図4の説明に戻る。スマートフォン110は、発話音量の決定と応答文の取得が完了したら、音声合成処理部112によって音声データを生成して、ロボット100に対して、決定された発話音量で当該音声データを出力するようにコマンドを送信する。このコマンドを受けて、ロボット100は、指定された出力音量で指定された応答を音声出力部(スピーカー)103から出力する。
なお、ここではユーザとのあいだの距離および発話音量に基づいて、ロボットからの応答出力の音量を調整しているが、ユーザ発話に対するロボット100の動作量(頭や腕などの動作量)を調整するようにしてもよい。例えば、出力音量を決定するのと同様に、ユーザとの距離が大きいほど、またはユーザ発話音量が大きいほど、ロボット100の動作量を大きく決定することが考えられる。
<本実施形態の有利な効果>
本実施形態に係る音声対話システムでは、ユーザとの距離およびユーザ発話の音量を考慮してロボットからの応答の音量を決定しているので、いずれか一方のみに基づいて応答の音量を決定するよりも状況に即した決定が行える。
<変形例>
上記の説明では、ロボット100とユーザとのあいだの距離を、撮影画像中のユーザの顔または身体の大きさに基づいて求めているが、当該距離の求め方はこれに限られず、任意の距離センサによって求めて構わない。距離センサとして、レーザ、超音波、赤外線などを用いたものを採用可能である。また、画像を元に距離検出する方法として、ステレオ測距やDFD測距なども採用可能である。
また、上記の説明では、ユーザとのインタフェースとなるロボットと、音声認識や応答作成などの処理を行うスマートフォン110、音声認識サーバ200、対話サーバ300を異なる装置で構成する例を示したが、本システムの構成はこれに限られない。例えば、ロボット100とスマートフォン110の機能を1つに装置に搭載してもよいし、さらに、音声認識サーバ200や対話サーバ300の機能もまとめて搭載してもよい。あるいは、音声認識サーバ200および対話サーバ300が、ロボットあるいはスマートフォントとは異なる1つのサーバで実現されてもよい。
<その他>
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
100:ロボット
101:音声入力部
102:画像入力部
103:音声出力部
104:コマンド送受信部
105:通信部(BT)
110:スマートフォン
111:入力音声処理部
112:音声合成処理部
113:コマンド送受信部
114:位置情報処理部
115:簡易応答作成部
116:制御部
117:通信部(BT)
118:通信部(TCP/IP)
200:音声認識サーバ
201:通信部(TCP/IP)
202:音声認識処理部
300:対話サーバ
301:通信部(TCP/IP)
302:応答作成部
303:情報記憶部

Claims (6)

  1. ユーザから入力された音声の入力音量を取得する音量取得手段と、
    前記ユーザとのあいだの距離を取得する距離取得手段と、
    前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定手段と、
    を備える音声対話装置。
  2. 前記出力音量決定手段は、基準入力音量と基準出力音量を距離に応じて定義したテーブルを記憶しており、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した距離に対応する基準入力音量とを比較し、前記距離取得手段が取得した距離に対応する基準出力音量を前記比較結果に応じて調整した音量を、前記出力音量として決定するものであり、
    前記距離が大きいほど、基準入力音量の大きさが小さく、かつ、基準出力音量の大きさが大きい、
    請求項1に記載の音声対話装置。
  3. 前記距離取得手段は、
    ユーザの画像を取得する画像取得手段と、
    前記画像からユーザの顔または身体を検出する検出手段と、
    前記検出手段によって検出されたユーザの顔または身体からユーザとのあいだの距離を求める距離検出手段と、
    を備える、請求項1または2に記載の音声対話装置。
  4. 前記距離取得手段は、距離センサである、
    請求項1または2に記載の音声対話装置。
  5. 音声対話装置が行う発話音量調整方法であって、
    ユーザから入力された音声の入力音量を取得する音量取得ステップと、
    前記ユーザとのあいだの距離を取得する距離取得ステップと、
    前記音量取得ステップにおいて取得した前記入力音量と前記距離取得ステップにおいて取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定ステップと、
    を含む発話音量調整方法。
  6. 請求項5に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2016181914A 2016-09-16 2016-09-16 音声対話装置および発話音量調整方法 Pending JP2018045192A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016181914A JP2018045192A (ja) 2016-09-16 2016-09-16 音声対話装置および発話音量調整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016181914A JP2018045192A (ja) 2016-09-16 2016-09-16 音声対話装置および発話音量調整方法

Publications (1)

Publication Number Publication Date
JP2018045192A true JP2018045192A (ja) 2018-03-22

Family

ID=61693283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016181914A Pending JP2018045192A (ja) 2016-09-16 2016-09-16 音声対話装置および発話音量調整方法

Country Status (1)

Country Link
JP (1) JP2018045192A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766460A (zh) * 2018-05-15 2018-11-06 浙江口碑网络技术有限公司 基于语音的交互方法及***
CN110399114A (zh) * 2018-04-24 2019-11-01 深圳市优必选科技有限公司 控制机器人进行视频监控的方法、装置及终端设备
WO2020021861A1 (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399114A (zh) * 2018-04-24 2019-11-01 深圳市优必选科技有限公司 控制机器人进行视频监控的方法、装置及终端设备
CN110399114B (zh) * 2018-04-24 2023-08-04 深圳市优必选科技有限公司 控制机器人进行视频监控的方法、装置及终端设备
CN108766460A (zh) * 2018-05-15 2018-11-06 浙江口碑网络技术有限公司 基于语音的交互方法及***
WO2020021861A1 (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JPWO2020021861A1 (ja) * 2018-07-26 2021-08-19 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US20210264915A1 (en) * 2018-07-26 2021-08-26 Sony Corporation Information processing apparatus, information processing system, information processing method, and information processing program
US11657821B2 (en) 2018-07-26 2023-05-23 Sony Corporation Information processing apparatus, information processing system, and information processing method to execute voice response corresponding to a situation of a user

Similar Documents

Publication Publication Date Title
CN108351872B (zh) 用于响应用户语音的方法和***
US9293134B1 (en) Source-specific speech interactions
US10152967B2 (en) Determination of an operational directive based at least in part on a spatial audio property
JP6397158B1 (ja) 協調的なオーディオ処理
JP2018054790A (ja) 音声対話システムおよび音声対話方法
US10923101B2 (en) Pausing synthesized speech output from a voice-controlled device
JPWO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11443730B2 (en) Initiating synthesized speech output from a voice-controlled device
TWI638352B (zh) 可調整輸出聲音之電子裝置及調整輸出聲音之方法
KR20150026754A (ko) 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
US10461712B1 (en) Automatic volume leveling
KR102592769B1 (ko) 전자 장치 및 그의 동작 방법
KR102438671B1 (ko) 텍스트 독립 화자 인식
KR102115222B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
KR101151571B1 (ko) 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
JP2018045192A (ja) 音声対話装置および発話音量調整方法
KR101322394B1 (ko) 음성인식 정보검색 시스템 및 그 방법
US10657951B2 (en) Controlling synthesized speech output from a voice-controlled device
KR20200082137A (ko) 전자 장치 및 그의 제어 방법
US20230223014A1 (en) Adapting Automated Speech Recognition Parameters Based on Hotword Properties
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2020079918A1 (ja) 情報処理装置及び情報処理方法
KR20210029354A (ko) 전자장치 및 그 제어방법
KR102168812B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법