JP7133969B2 - 音声入力装置、及び遠隔対話システム - Google Patents

音声入力装置、及び遠隔対話システム Download PDF

Info

Publication number
JP7133969B2
JP7133969B2 JP2018087018A JP2018087018A JP7133969B2 JP 7133969 B2 JP7133969 B2 JP 7133969B2 JP 2018087018 A JP2018087018 A JP 2018087018A JP 2018087018 A JP2018087018 A JP 2018087018A JP 7133969 B2 JP7133969 B2 JP 7133969B2
Authority
JP
Japan
Prior art keywords
audio
data
voice
unit
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018087018A
Other languages
English (en)
Other versions
JP2019192121A (ja
Inventor
幸司 粂谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018087018A priority Critical patent/JP7133969B2/ja
Priority to US16/387,453 priority patent/US10971150B2/en
Priority to CN201910344992.2A priority patent/CN110413249B/zh
Publication of JP2019192121A publication Critical patent/JP2019192121A/ja
Application granted granted Critical
Publication of JP7133969B2 publication Critical patent/JP7133969B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声入力装置、及び遠隔対話システムに関する。
スマートスピーカのような音声入力装置が知られている。音声入力装置には特定の起動コマンドが設定されており、ユーザは、起動コマンドを発声してから一定期間が経過するまでの間に、音声入力装置を利用することができる(例えば、特許文献1参照。)。詳しくは、ユーザが、起動コマンドを発声した後に、特定の処理の実行を指令する処理コマンドを発声すると、サーバから音声入力装置へ、特定の処理の実行結果を示す音声データが送信される。
特開2016-024212号公報
しかしながら、例えばA地点とB地点とでウエブ会議又はテレビ会議のような遠隔対話を実行中に、A地点に設置された音声入力装置Aに対してユーザが起動コマンド及び処理コマンドを発声した場合、B地点のユーザが意図しない処理コマンドが、B地点に設置された音声入力装置Bからサーバへ送信されるおそれがある。具体的には、音声入力装置Aに対してユーザが起動コマンド及び処理コマンドを発声した場合、ウエブ会議システム又はテレビ会議システムのような遠隔対話システムによって、起動コマンドを示す音声及び処理コマンドを示す音声がB地点において出力される。この結果、音声入力装置Bが、遠隔対話システムによって出力された処理コマンドをサーバに送信するおそれがある。
本発明は、上記課題に鑑み、ユーザが意図しない処理コマンドがサーバに送信されることを抑制できる音声入力装置、及び遠隔対話システムを提供することを目的とする。
本発明の音声入力装置は、音声入力部と、第1通信部と、第2通信部と、音声出力部と、制御部とを備える。前記音声入力部は、第1音声を入力する。前記第1通信部は、前記第1音声に対応する第1音声データを外部装置へ送信する。前記第2通信部は、音声送受信装置から第2音声データを受信する。前記音声出力部は、前記第2音声データに対応する第2音声を出力する。前記制御部は、前記第1音声から前記第1音声データを生成し、前記第2音声データから前記第2音声を生成する。前記制御部は、前記第2音声データが起動コマンドを示すか否かを判定する。前記制御部は、前記第2音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第1音声データの送信を禁止する。
本発明の遠隔対話システムは、音声入力装置と、音声送受信装置とを備える。前記音声入力装置は、音声入力部と、第1通信部と、第2通信部と、音声出力部と、制御部とを備える。前記音声入力部は、第1音声を入力する。前記第1通信部は、前記第1音声に対応する第1音声データを外部装置へ送信する。前記第2通信部は、前記音声送受信装置から第2音声データを受信する。前記音声出力部は、前記第2音声データに対応する第2音声を出力する。前記制御部は、前記第1音声から前記第1音声データを生成し、前記第2音声データから前記第2音声を生成する。前記制御部は、前記第2音声データが起動コマンドを示すか否かを判定する。前記制御部は、前記第2音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第1音声データの送信を禁止する。前記音声送受信装置は、受信部と、送信部とを備える。前記受信部は、他の音声送受信装置から前記第2音声データを受信する。前記送信部は、前記他の音声送受信装置から受信した前記第2音声データを前記第2通信部へ送信する。
本発明によれば、ユーザが意図しない処理コマンドがサーバに送信されることを抑制することができる。
本発明の実施形態に係る遠隔対話システムの構成を示す図である。 本発明の実施形態に係る第1スマートスピーカの構成を示す図である。 本発明の実施形態に係る第1端末の構成を示す図である。 本発明の実施形態に係る第1スマートスピーカの第1動作を示すフローチャートである。 本発明の実施形態に係る第1スマートスピーカの第2動作を示すフローチャートである。 第1スマートスピーカから第1サーバへの音声データの送信を禁止する処理を示す図である。 第1スマートスピーカから第1サーバへ音声データを送信する処理を示す図である。
以下、図面を参照して本発明の実施形態を説明する。ただし、本発明は以下の実施形態に限定されない。なお、説明が重複する箇所については、適宜説明を省略する場合がある。また、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。
まず図1を参照して、遠隔対話システム1の構成を説明する。図1は、本実施形態に係る遠隔対話システム1の構成を示す図である。図1に示すように、遠隔対話システム1は、第1処理ユニット2a~第3処理ユニット2cと、第1サーバ3と、第2サーバ4とを備える。第1サーバ3は、外部装置の一例である。本実施形態において、遠隔対話システム1は、ウエブ会議システムである。
第1処理ユニット2aは、第1スマートスピーカ21aと、第1端末22aと、第1表示装置23aとを含む。第2処理ユニット2bは、第2スマートスピーカ21bと、第2端末22bと、第2表示装置23bとを含む。第3処理ユニット2cは、第3スマートスピーカ21cと、第3端末22cと、第3表示装置23cとを含む。第1スマートスピーカ21a~第3スマートスピーカ21cはそれぞれ音声入力装置の一例である。また、第1端末22a~第3端末22cはそれぞれ音声送受信装置の一例である。
本実施形態において、第1端末22a~第3端末22cは、例えばノート型PC(パーソナルコンピュータ)又はデスクトップ型PCのような情報処理装置である。あるいは、第1端末22a~第3端末22cは、例えばタブレットPC又はスマートフォンのような携帯型の情報処理装置である。第1スマートスピーカ21a及び第1表示装置23aは、第1端末22aの周辺装置であり、第2スマートスピーカ21b及び第2表示装置23bは、第2端末22bの周辺装置であり、第3スマートスピーカ21c及び第3表示装置23cは、第3端末22cの周辺装置である。
第1サーバ3は、例えばインターネット回線を介して、第1スマートスピーカ21a~第3スマートスピーカ21cの各々との間で通信を行う。具体的には、第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cから音声データを受信する。また、第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cへ音声データを送信する。
詳しくは、第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cのいずれか1つから音声データを受信すると、受信した音声データから処理コマンドを認識できるか否かを判定する。具体的には、第1サーバ3は、受信した音声データを音声認識処理によってテキスト情報に変換し、テキスト情報から処理コマンドを認識できるか否かを判定する。処理コマンドは、特定の処理の実行を指令するコマンドである。
第1サーバ3は、音声データから処理コマンドを認識できた場合、処理コマンドに対応する処理の実行結果を示す処理結果データを取得する。処理結果データは音声データである。第1サーバ3は、音声データを送信したスマートスピーカに、処理結果データを送信する。例えば、処理コマンドは、検索キーワードと、検索処理の実行を促すキーワードとを示す。この場合、第1サーバ3は、検索キーワードに基づいて検索処理を実行し、検索結果を示すデータを取得する。なお、第1サーバ3は、他のサーバに、処理コマンドに対応する処理の実行を要求してもよい。この場合、第1サーバ3は、他のサーバから処理結果データを取得(受信)する。
第2サーバ4は、例えばインターネット回線を介して、第1端末22a~第3端末22cの各々との間で通信を行うことにより、第1端末22a~第3端末22cの間でウエブ会議を実行させる。具体的には、第2サーバ4は、第1端末22aから受信した音声データ及び撮像データを、第2端末22b及び第3端末22cへ送信する。同様に、第2サーバ4は、第2端末22bから受信した音声データ及び撮像データを、第1端末22a及び第3端末22cへ送信する。また、第2サーバ4は、第3端末22cから受信した音声データ及び撮像データを、第1端末22a及び第2端末22bへ送信する。
続いて図1を参照して、第1処理ユニット2aの動作について説明する。具体的には、第1処理ユニット2aに含まれる第1スマートスピーカ21a、第1端末22a、及び第1表示装置23aの動作について説明する。
第1スマートスピーカ21aは、音声を入力する。第1スマートスピーカ21aは、入力した音声を音声データ(デジタルデータ)に変換して、第1端末22aへ送信する。また、第1スマートスピーカ21aは、第1端末22aから音声データを受信する。第1スマートスピーカ21aは、第1端末22aから受信した音声データに対応する音声を出力する。更に、第1スマートスピーカ21aは撮像部を備え、撮像データを第1端末22aへ送信する。
また、第1スマートスピーカ21aは、起動コマンドを示すデータを記憶している。第1スマートスピーカ21aは、起動コマンドを示す音声を入力した場合、第1所定期間が経過するまでレディ状態となる。第1スマートスピーカ21aは、レディ状態となってから第1所定期間が経過する前に音声を入力すると、その入力した音声を音声データに変換して第1サーバ3及び第1端末22aへ送信する。
本実施形態において、第1スマートスピーカ21aは、第1端末22aから受信した音声データが起動コマンドを示す場合、第2所定期間が経過するまで禁止処理を実行する。禁止処理は、第1スマートスピーカ21aから第1サーバ3への音声データの送信を禁止する処理である。
第1端末22aは、第1スマートスピーカ21aから受信した音声データ及び撮像データを第2サーバ4へ送信する。また、第1端末22aは、第2サーバ4から音声データ及び撮像データを受信する。第1端末22aは、第2サーバ4から受信した音声データを第1スマートスピーカ21aへ送信する。第1端末22aは、第2サーバ4から受信した撮像データを第1表示装置23aに出力する。第1表示装置23aは、第1端末22aから出力された撮像データに対応する映像を表示する。
以上、図1を参照して、第1処理ユニット2aの動作について説明した。なお、第2処理ユニット2b及び第3処理ユニット2cは、第1処理ユニット2aと同様に動作するため、その説明は省略する。
続いて図1及び図2を参照して、第1スマートスピーカ21aの構成を説明する。図2は、本実施形態に係る第1スマートスピーカ21aの構成を示す図である。
図2に示すように、第1スマートスピーカ21aは、音声入力部211と、音声出力部212と、撮像部213と、第1通信部214と、第2通信部215と、記憶部216と、制御部217とを備える。
音声入力部211は、音声を入力する。具体的には、音声入力部211は、音声を集音して、アナログ電気信号に変換する。アナログ電気信号は、制御部217に入力される。音声入力部211は、例えば、マイクロフォンである。なお、以下の説明において、音声入力部211が入力する音声を「入力音声」と記載する場合がある。
音声出力部212は、第1端末22aから受信した音声データに対応する音声を出力する。また、音声出力部212は、第1サーバ3から受信した音声データに対応する音声を出力する。音声出力部212は、例えば、スピーカである。なお、以下の説明において、音声出力部212が出力する音声を「出力音声」と記載する場合がある。
撮像部213は、第1スマートスピーカ21aの周辺環境を撮像して画像信号(アナログ電気信号)を出力する。例えば、撮像部213は、CCD(Charge-Coupled Device)のような撮像素子を備える。
第1通信部214は、第1サーバ3との間の通信を制御する。第1通信部214は、例えば、LAN(Local Area Network)ボード又は無線LANボードを備える。具体的には、第1通信部214は、入力音声に対応する音声データを第1サーバ3に送信する。また、第1通信部214は、第1サーバ3から音声データを受信する。なお、以下の説明において、入力音声に対応する音声データを「入力音声データ」と記載する場合がある。
第2通信部215は、第1端末22aとの間の通信を制御する。第2通信部215は、例えば、Bluetooth(登録商標)のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第2通信部215は、USB(Universal Serial Bus)端子を備えるUSBインターフェースであり得る。
第2通信部215は、入力音声データを第1端末22aへ送信する。また、第2通信部215は、撮像部213から出力された画像信号に対応する撮像データを第1端末22aへ送信する。更に、第2通信部215は、第1端末22aから音声データを受信する。なお、以下の説明において、第2通信部215が受信する音声データを「受信音声データ」と記載する場合がある。
記憶部216は、例えばRAM(Random Access Memory)及びROM(Read Only Memory)のような半導体メモリーを備える。記憶部216は更に、HDD(Hard Disk Drive)のようなストレージデバイスを備えてもよい。記憶部216は、制御部217が実行する制御プログラムを記憶する。記憶部216は更に、図1を参照して説明した起動コマンドを示すデータを記憶する。
制御部217は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、又はDSP(Digital Signal Processor)のようなプロセッサを備える。制御部217は、記憶部216に記憶された制御プログラムに基づいて、第1スマートスピーカ21aの動作を制御する。
具体的には、制御部217は、音声入力部211から入力されたアナログ電気信号(入力音声)をデジタル信号(入力音声データ)に変換して、第2通信部215にデジタル信号(入力音声データ)を送信させる。換言すると、制御部217は、音声入力部211が入力した音声(入力音声)から音声データ(入力音声データ)を生成する。
また、制御部217は、撮像部213から入力された画像信号(アナログ電気信号)をデジタル信号(撮像データ)に変換して、第2通信部215にデジタル信号(撮像データ)を送信させる。
また、制御部217は、第2通信部215が受信したデジタル信号(受信音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。換言すると、制御部217は、第2通信部215が受信した音声データ(受信音声データ)から出力音声を生成する。
また、制御部217は、レディ状態になると、第2通信部215に加えて、第1通信部214にも入力音声データを送信させる。更に、制御部217は、第1通信部214が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。換言すると、制御部217は、第1通信部214が受信した音声データから出力音声を生成する。
詳しくは、制御部217は、入力音声データを生成すると、記憶部216に記憶された起動コマンドを示すデータを参照して、入力音声データが起動コマンドを示すか否かを判定する。具体的には、制御部217は、起動コマンドを示すデータを参照して、起動コマンドを示す音声データが入力音声データに含まれるか否かを判定する。入力音声データが起動コマンドを示す場合、制御部217は、第1所定期間が経過するまでレディ状態となる。制御部217は、レディ状態となってから第1所定期間が経過する前に入力音声データを生成すると、第1通信部214を介して第1サーバ3へ入力音声データを送信するとともに、第2通信部215を介して第1端末22aへ入力音声データを送信する。なお、記憶部216は、第1所定期間を示すデータを記憶している。第1所定期間は、例えば8秒間である。
図1を参照して説明したように、第1サーバ3は、第1スマートスピーカ21aから処理コマンドを示す入力音声データを受信すると、処理結果データ(音声データ)を第1スマートスピーカ21aへ送信する。この結果、第1通信部214が第1サーバ3からデジタル信号(音声データ)を受信する。制御部217は、第1通信部214が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。
本実施形態において、制御部217は、第2通信部215が音声データを受信すると、第2通信部215が受信した音声データ(受信音声データ)を解析する。そして、制御部217は、解析した結果から、受信音声データが起動コマンドを示すか否かを判定する。詳しくは、制御部217は、記憶部216に記憶された起動コマンドを示すデータを参照して、受信音声データが起動コマンドを示すか否かを判定する。具体的には、制御部217は、起動コマンドを示すデータを参照して、受信音声データが起動コマンドを示す音声データを含むか否かを判定する。
制御部217は、受信音声データが起動コマンドを示すと判定すると、図1を参照して説明した禁止処理を実行する。具体的には、制御部217は、受信音声データが起動コマンドを示すと判定してから第2所定時間が経過するまで、第1通信部214による第1サーバ3への音声データの送信を禁止する。
第2所定期間の長さは、第1所定期間以上でもよいし、第1所定期間以下でもよい。但し、第2所定期間が第1所定期間と比べて長すぎる場合、第1処理ユニット2aのユーザが意図的に発声した処理コマンドを、第1スマートスピーカ21aが第1サーバ3へ送信しない可能性がある。一方、第2所定期間が第1所定期間と比べて短すぎる場合、第1処理ユニット2aのユーザが意図しない処理コマンドを、第1スマートスピーカ21aが第1サーバ3へ送信する可能性がある。したがって、第2所定期間の長さは、第1所定期間と略等しいことが好ましい。第2所定期間は、例えば8秒間である。第2所定期間を示すデータは、記憶部216に記憶されている。
以上、図1及び図2を参照して、第1スマートスピーカ21aの構成を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cの構成は、第1スマートスピーカ21aの構成と同様であるため、その説明は割愛する。
続いて図1及び図3を参照して、第1端末22aの構成を説明する。図3は、本実施形態に係る第1端末22aの構成を示す図である。図3に示すように、第1端末22aは、第1通信部221、第2通信部222、出力部223、記憶部224、及び制御部225を備える。
第1通信部221は、第2サーバ4との間の通信を制御する。第1通信部221は、例えば、LANボード又は無線LANボードを備える。第1通信部221は、音声データ及び撮像データを第2サーバ4に送信する。換言すると、第1通信部221は、第2端末22b及び第3端末22cへ音声データ及び撮像データを送信する。また、第1通信部221は、音声データ及び撮像データを第2サーバ4から受信する。換言すると、第1通信部221は、第2端末22b及び第3端末22cから、音声データ及び撮像データを受信する。第1通信部221は、受信部の一例である。
第2通信部222は、第1スマートスピーカ21aとの間の通信を制御する。第2通信部222は、例えば、Bluetooth(登録商標)のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第2通信部222は、USB端子を備えるUSBインターフェースであり得る。
第2通信部222は、第1スマートスピーカ21aから音声データ及び撮像データを受信する。また、第2通信部222は、第1スマートスピーカ21aへ音声データを送信する。第2通信部222は、送信部の一例である。
出力部223は、撮像データを第1表示装置23aに出力する。出力部223は、例えば、HDMI(登録商標)端子又はDisplayportのようなデジタル映像インターフェースである。なお、出力部223は、D-SUB端子のようなアナログ映像インターフェースであってもよい。
記憶部224は、例えばRAM及びROMのような半導体メモリーを備える。更に、記憶部224は、HDDのようなストレージデバイスを備える。記憶部224は、制御部225が実行する制御プログラムを記憶する。また、記憶部224は、ウエブ会議用アプリケーションソフトウエアを記憶する。
制御部225は、例えばCPU又はMPUのようなプロセッサを備える。また、制御部225は、記憶部224に記憶された制御プログラムに基づいて、第1端末22aの動作を制御する。
以下、制御部225がウエブ会議用アプリケーションソフトウエアに基づいて実行する処理について説明する。制御部225が、ウエブ会議用アプリケーションソフトウエアを実行することにより、第1処理ユニット2aの第1端末22aが、第2処理ユニット2bの第2端末22bと第3処理ユニット2cの第3端末22cとの間でウエブ会議を実行する。
具体的には、制御部225は、第2通信部222を介して第1スマートスピーカ21aから受信した音声データ及び撮像データを、第1通信部221を介して第2サーバ4へ送信する。この結果、第1スマートスピーカ21aに入力された音声が、第2処理ユニット2bの第2スマートスピーカ21b、及び第3処理ユニット2cの第3スマートスピーカ21cから出力される。また、第2処理ユニット2bの第2表示装置23b、及び第3処理ユニット2cの第3表示装置23cに、第1スマートスピーカ21aによって撮像された映像が表示すされる。
また、制御部225は、第1通信部221を介して第2サーバ4から受信した音声データを、第2通信部222を介して第1スマートスピーカ21aに送信する。この結果、第1スマートスピーカ21aが、第2処理ユニット2bの第2スマートスピーカ21bに入力された音声と、第3処理ユニット2cの第3スマートスピーカ21cに入力された音声とを出力する。
また、制御部225は、第1通信部221を介して第2サーバ4から受信した撮像データを、出力部223を介して第1表示装置23aに出力する。この結果、第1表示装置23aが、第2処理ユニット2bの第2スマートスピーカ21bによって撮像された映像と、第3処理ユニット2cの第3スマートスピーカ21cによって撮像された映像とを表示する。
以上、図1及び図3を参照して、第1端末22aの構成を説明した。なお、第2端末22b及び第3端末22cの構成は第1端末22aの構成と同様であるため、その説明は省略する。
続いて図1、図2及び図4を参照して、第1スマートスピーカ21aの第1動作を説明する。図4は、本実施形態に係る第1スマートスピーカ21aの第1動作を示すフローチャートである。図4に示す動作は、第1スマートスピーカ21aの第2通信部215が第1端末22aから音声データを受信するとスタートする。
図4に示すように、第2通信部215が第1端末22aから音声データを受信すると、制御部217は、受信音声データが起動コマンドを示すか否かを判定する(ステップS1)。具体的には、制御部217は、記憶部216に記憶されている起動コマンドを示すデータを参照して、受信音声データが起動コマンドを示すか否かを判定する。
制御部217は、受信音声データが起動コマンドを示すと判定した場合(ステップS1のYes)、第2所定期間が経過するまで禁止フラグをON状態にする(ステップS2)。禁止フラグは、記憶部216に記憶されている。禁止フラグがON状態になると、第1サーバ3への音声データの送信が禁止される。なお、禁止フラグがOFF状態である場合、第1サーバ3への音声データの送信が許可される。
制御部217は、禁止フラグをON状態にした後、受信音声データから出力音声を生成する(ステップS3)。あるいは、制御部217は、受信音声データが起動コマンドを示さないと判定した場合(ステップS1のNo)、受信音声データから出力音声を生成する(ステップS3)。具体的には、制御部217は、受信音声データをアナログ電気信号に変換して、音声出力部212に、受信音声データに対応する音声を出力させる。制御部217が出力音声を生成すると、第1スマートスピーカ21aは、図4に示す動作を終了する。
続いて図1、図2及び図5を参照して、第1スマートスピーカ21aの第2動作を説明する。図5は、本実施形態に係る第1スマートスピーカ21aの第2動作を示すフローチャートである。図5に示す動作は、第1スマートスピーカ21aの音声入力部211が音声を入力するとスタートする。
図5に示すように、音声入力部211が音声を入力すると、制御部217は、入力音声データを生成する(ステップS11)。制御部217は、入力音声データを生成すると、記憶部216に記憶されている禁止フラグがON状態であるか否かを判定する(ステップS12)。
制御部217は、禁止フラグがON状態であると判定した場合(ステップS12のYes)、入力音声データから出力音声を生成する。具体的には、入力音声データをアナログ電気信号に変換して、音声出力部212に、入力音声データに対応する音声を出力させる。制御部217が出力音声を生成すると、第1スマートスピーカ21aは、図5に示す動作を終了する。
制御部217は、禁止フラグがON状態でないと判定した場合(ステップS12のNo)、換言すると、禁止フラグがOFF状態である場合、記憶部216に記憶されている起動コマンドを示すデータを参照して、入力音声データが起動コマンドを示すか否かを判定する(ステップS13)。
制御部217は、入力音声データが起動コマンドを示さないと判定した場合(ステップS13のNo)、入力音声データから出力音声を生成する。制御部217が出力音声を生成すると、第1スマートスピーカ21aは、図5に示す動作を終了する。
制御部217は、入力音声データが起動コマンドを示すと判定した場合(ステップS13のYes)、入力音声データから出力音声を生成する。更に、制御部217は、第1所定期間が経過するまでレディ状態となる。換言すると、制御部217は、第1所定期間が経過するまで、第1サーバ3への音声データの送信を許可する。
制御部217は、レディ状態になると、音声入力部211が音声を入力したか否かを判定する(ステップS14)。制御部217は、音声入力部211が音声を入力したと判定した場合(ステップS14のYes)、入力音声データを生成し(ステップS15)、第1通信部214を介して第1サーバ3に入力音声データを送信するとともに、第2通信部215を介して第1端末22aに入力音声データを送信する(ステップS16)。制御部217は、入力音声データを送信すると、再度、音声入力部211が音声を入力したか否かを判定する(ステップS14)。
制御部217は、音声入力部211が音声を入力していないと判定した場合(ステップS14のNo)、制御部217がレディ状態となってから第1所定期間が経過したか否かを判定する(ステップS17)。
制御部217は、第1所定期間が経過していないと判定した場合(ステップS17のNo)、再度、音声入力部211が音声を入力したか否かを判定する(ステップS14)。
第1所定期間が経過したと制御部217が判定すると(ステップS17のYes)、第1スマートスピーカ21aは、図5に示す動作を終了する。
以上、図1、図2、図4及び図5を参照して、第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図4及び図5に示す動作を実行する。
続いて図1~図3、図6及び図7を参照して、本実施形態に係る禁止処理について説明する。図6は、第1スマートスピーカ21aから第1サーバ3への音声データの送信を禁止する処理を示す図である。図7は、第1スマートスピーカ21aから第1サーバ3へ音声データを送信する処理を示す図である。
詳しくは、図6は、第1スマートスピーカ21aが第1端末22aから受信する音声データ(受信音声データ)、第1スマートスピーカ21aが記憶する禁止フラグ、第1スマートスピーカ21aが出力する音声(出力音声)、第1スマートスピーカ21aが入力する音声(入力音声)、第1スマートスピーカ21aが入力音声に対応して生成する音声データ(入力音声データ)、及び、第1スマートスピーカ21aが第1サーバ3へ送信する音声データを示す。図7は、第1スマートスピーカ21aが記憶する禁止フラグ、第1スマートスピーカ21aが入力する音声(入力音声)、第1スマートスピーカ21aが入力音声に対応して生成する音声データ(入力音声データ)、及び、第1スマートスピーカ21aが第1サーバ3へ送信する音声データを示す。なお、図6及び図7において、横軸は時間軸である。
図6に示すように、第1スマートスピーカ21aが、第1端末22aから、起動コマンドを示す第1音声データ61を受信すると、第2所定期間が経過するまで禁止フラグがON状態となる。また、第1スマートスピーカ21aが、第1端末22aから第1音声データ61を受信すると、第1音声データ61に対応する第1出力音声61aが生成される。第1出力音声61aは第1スマートスピーカ21aに入力される。その結果、第1出力音声61aに対応する第1入力音声データ61bが生成される。換言すると、起動コマンドを示す入力音声データが生成される。
第1音声データ61の受信後、第2所定期間が経過する前に、第1スマートスピーカ21aが、第1端末22aから第2音声データ62を受信すると、第2音声データ62に対応する第2出力音声62aが生成される。第2出力音声62aは第1スマートスピーカ21aに入力され、その結果、第2出力音声62aに対応する第2入力音声データ62bが生成される。
本実施形態では、禁止フラグがON状態である場合、起動コマンドを示す入力音声データ(第1入力音声データ61b)が生成されても、第1サーバ3へ音声データ(第2入力音声データ62b)は送信されない。
一方、図7に示すように、禁止フラグがOFF状態である場合、第1スマートスピーカ21aが、起動コマンドを示す第1音声71を入力して、第1音声71に対応する入力音声データ71aを生成すると、第1スマートスピーカ21aはレディ状態となる。したがって、第1音声71の入力後、第1所定期間が経過する前に、第1スマートスピーカ21aが第2音声72を入力すると、第2音声72に対応する入力音声データ72aが第1サーバ3へ送信される。
以上、図1~図7を参照して本発明の実施形態について説明した。本実施形態によれば、第1処理ユニット2a~第3処理ユニット2cのユーザが意図しない処理コマンドが、第1スマートスピーカ21a~第3スマートスピーカ21cから第1サーバ3に送信されることを抑制できる。
例えば、第1スマートスピーカ21aに対してユーザが起動コマンドを発声した後に処理コマンドを発声して、遠隔対話システム1により、第2スマートスピーカ21b及び第3スマートスピーカ21cから、起動コマンドを示す音声と処理コマンドを示す音声とが出力されても、第2スマートスピーカ21b及び第3スマートスピーカ21cは、処理コマンドを示す音声データを第1サーバ3へ送信しない。したがって、第2処理ユニット2bのユーザ及び第3処理ユニット2cのユーザが意図しない処理コマンドが、第2スマートスピーカ21b及び第3スマートスピーカ21cから第1サーバ3に送信されることを抑制することができる。
更に、本実施形態によれば、第1処理ユニット2a~第3処理ユニット2c間における音声の送受信が中断されない。したがって、ウエブ会議において音声出力が中断されないため、効率よく会議を進めることができる。
なお、本発明は、上記の実施形態に限られず、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。
例えば、本発明による実施形態において、第1スマートスピーカ21a~第3スマートスピーカ21cが撮像部213を備える構成を説明したが、第1端末22a~第3端末22cが撮像部を備えてもよい。あるいは、第1端末22a~第3端末22cに周辺装置としてカメラ装置が接続されてもよい。
また、本発明による実施形態において、遠隔対話システム1はウエブ会議システムであったが、遠隔対話システム1はテレビ会議システム又は電話会議システムであってもよい。この場合、第1端末22a~第3端末22cは、LANを介して接続される。
遠隔対話システム1がテレビ会議システム又は電話会議システムである場合、第2サーバ4は省略され得る。また、遠隔対話システム1が電話会議システムである場合、第1端末22a~第3端末22cは、電話会議専用のマイク/スピーカ装置であり得る。また、遠隔対話システム1が電話会議システムである場合、第1表示装置23a~第3表示装置23cは省略され得る。
また、本発明による実施形態において、第1処理ユニット2a~第3処理ユニット2cが第1端末22a~第3端末22cを含む構成について説明したが、第1スマートスピーカ21a~第3スマートスピーカ21cが第1端末22a~第3端末22cの機能を有してもよい。この場合、第1端末22a~第3端末22cは省略され得る。第1端末22a~第3端末22cが省略される場合、第1スマートスピーカ21a~第3スマートスピーカ21cは、第2サーバ4から音声データを受信する。
また、本発明による実施形態において、遠隔対話システム1は3つの処理ユニットを備えたが、遠隔対話システム1は、2つの処理ユニット又は4つ以上の処理ユニットを備えてもよい。
本発明は、スマートスピーカのような音声入力装置を使用するシステムに有用である。
1 遠隔対話システム
2a 第1処理ユニット
2b 第2処理ユニット
2c 第3処理ユニット
3 第1サーバ
4 第2サーバ
21a 第1スマートスピーカ
21b 第2スマートスピーカ
21c 第3スマートスピーカ
22a 第1端末
22b 第2端末
22c 第3端末
211 音声入力部
212 音声出力部
214 第1通信部
215 第2通信部
216 記憶部
217 制御部
221 第1通信部
222 第2通信部

Claims (4)

  1. 第1音声を入力する音声入力部と、
    前記第1音声に対応する第1音声データを外部装置へ送信する第1通信部と、
    音声送受信装置から第2音声データを受信するとともに、前記音声送受信装置へ前記第1音声データを送信する第2通信部と、
    前記第2音声データに対応する第2音声を出力する音声出力部と、
    前記第1音声から前記第1音声データを生成し、前記第2音声データから前記第2音声を生成する制御部と
    を備え、
    前記制御部は、前記第2音声データが起動コマンドを示すか否かを判定し、
    前記制御部は、前記第2音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第1音声データの送信を禁止する、音声入力装置。
  2. 前記制御部は、前記第2音声データが前記起動コマンドを示さないと判定した場合、前記第1音声データが前記起動コマンドを示す否かを判定し、
    前記制御部は、前記第1音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第1音声データの送信を許可する、請求項1に記載の音声入力装置。
  3. 前記外部装置へ送信された前記第1音声データが、特定の処理の実行を指令する処理コマンドを示す場合、前記第1通信部は、前記特定の処理を実行した結果を示す音声データを受信する、請求項2に記載の音声入力装置。
  4. 音声入力装置と、音声送受信装置とを備える遠隔対話システムであって、
    前記音声入力装置は、
    第1音声を入力する音声入力部と、
    前記第1音声に対応する第1音声データを外部装置へ送信する第1通信部と、
    前記音声送受信装置から第2音声データを受信するとともに、前記音声送受信装置へ前記第1音声データを送信する第2通信部と、
    前記第2音声データに対応する第2音声を出力する音声出力部と、
    前記第1音声から前記第1音声データを生成し、前記第2音声データから前記第2音声を生成する制御部と
    を備え、
    前記制御部は、前記第2音声データが起動コマンドを示すか否かを判定し、
    前記制御部は、前記第2音声データが前記起動コマンドを示すと判定した場合、所定の期間、前記外部装置への前記第1音声データの送信を禁止し、
    前記音声送受信装置は、
    他の音声送受信装置から前記第2音声データを受信する受信部と、
    前記他の音声送受信装置から受信した前記第2音声データを前記第2通信部へ送信する送信部と
    を備える、遠隔対話システム。
JP2018087018A 2018-04-27 2018-04-27 音声入力装置、及び遠隔対話システム Active JP7133969B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018087018A JP7133969B2 (ja) 2018-04-27 2018-04-27 音声入力装置、及び遠隔対話システム
US16/387,453 US10971150B2 (en) 2018-04-27 2019-04-17 Speech input device and remote interaction system
CN201910344992.2A CN110413249B (zh) 2018-04-27 2019-04-26 远程交互***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018087018A JP7133969B2 (ja) 2018-04-27 2018-04-27 音声入力装置、及び遠隔対話システム

Publications (2)

Publication Number Publication Date
JP2019192121A JP2019192121A (ja) 2019-10-31
JP7133969B2 true JP7133969B2 (ja) 2022-09-09

Family

ID=68292826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018087018A Active JP7133969B2 (ja) 2018-04-27 2018-04-27 音声入力装置、及び遠隔対話システム

Country Status (3)

Country Link
US (1) US10971150B2 (ja)
JP (1) JP7133969B2 (ja)
CN (1) CN110413249B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908318A (zh) * 2019-11-18 2021-06-04 百度在线网络技术(北京)有限公司 智能音箱的唤醒方法、装置、智能音箱及存储介质
US11308958B2 (en) * 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11539915B2 (en) * 2021-03-20 2022-12-27 International Business Machines Corporation Transmission confirmation in a remote conference

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000310999A (ja) 1999-04-26 2000-11-07 Asahi Chem Ind Co Ltd 設備制御システム
JP2003032388A (ja) 2001-07-12 2003-01-31 Denso Corp 通信端末装置及び処理システム
JP2009296049A (ja) 2008-06-02 2009-12-17 Funai Electric Co Ltd テレビ会議システム
JP2012208218A (ja) 2011-03-29 2012-10-25 Yamaha Corp 電子機器
JP2014096153A (ja) 2012-11-09 2014-05-22 Samsung Electronics Co Ltd ディスプレイ装置、音声取得装置およびその音声認識方法
JP2016533690A (ja) 2013-09-25 2016-10-27 アマゾン テクノロジーズ インコーポレイテッド 通話中のバーチャルアシスタント
WO2017163496A1 (ja) 2016-03-23 2017-09-28 日本電気株式会社 情報処理端末、腕時計型端末、それらの制御方法、それらの制御プログラムおよび情報処理システム
US20190206395A1 (en) 2017-12-28 2019-07-04 Paypal, Inc. Voice Activated Assistant Activation Prevention System

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2602342Y2 (ja) * 1993-09-30 2000-01-11 日本コロムビア株式会社 オーディオ装置
JPH0969038A (ja) * 1995-08-31 1997-03-11 Canon Inc 音声出力装置
US9147054B1 (en) * 2012-12-19 2015-09-29 Amazon Technolgies, Inc. Dialogue-driven user security levels
EP3012833B1 (en) * 2013-06-19 2022-08-10 Panasonic Intellectual Property Corporation of America Voice interaction method, and device
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
US9462112B2 (en) * 2014-06-19 2016-10-04 Microsoft Technology Licensing, Llc Use of a digital assistant in communications
JP2016024212A (ja) 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000310999A (ja) 1999-04-26 2000-11-07 Asahi Chem Ind Co Ltd 設備制御システム
JP2003032388A (ja) 2001-07-12 2003-01-31 Denso Corp 通信端末装置及び処理システム
JP2009296049A (ja) 2008-06-02 2009-12-17 Funai Electric Co Ltd テレビ会議システム
JP2012208218A (ja) 2011-03-29 2012-10-25 Yamaha Corp 電子機器
JP2014096153A (ja) 2012-11-09 2014-05-22 Samsung Electronics Co Ltd ディスプレイ装置、音声取得装置およびその音声認識方法
US20170337937A1 (en) 2012-11-09 2017-11-23 Samsung Electronics Co., Ltd. Display apparatus, voice acquiring apparatus and voice recognition method thereof
JP2016533690A (ja) 2013-09-25 2016-10-27 アマゾン テクノロジーズ インコーポレイテッド 通話中のバーチャルアシスタント
WO2017163496A1 (ja) 2016-03-23 2017-09-28 日本電気株式会社 情報処理端末、腕時計型端末、それらの制御方法、それらの制御プログラムおよび情報処理システム
US20190206395A1 (en) 2017-12-28 2019-07-04 Paypal, Inc. Voice Activated Assistant Activation Prevention System

Also Published As

Publication number Publication date
JP2019192121A (ja) 2019-10-31
US20190333503A1 (en) 2019-10-31
CN110413249B (zh) 2023-03-28
CN110413249A (zh) 2019-11-05
US10971150B2 (en) 2021-04-06

Similar Documents

Publication Publication Date Title
JP7133969B2 (ja) 音声入力装置、及び遠隔対話システム
KR102458342B1 (ko) 오디오 처리 장치 및 오디오 처리 방법
KR20190051368A (ko) 전자 장치 및 전자 장치 간 음성으로 기능을 실행하는 방법
KR102265931B1 (ko) 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말
KR102447381B1 (ko) 통화 중 인공지능 서비스를 제공하기 위한 방법 및 그 전자 장치
CN110875993A (zh) 带交互代理功能的图像形成***及其控制方法和存储介质
CN110177186B (zh) 显示控制装置、显示控制***及显示控制方法
JP6973380B2 (ja) 情報処理装置、および情報処理方法
JP2015126524A (ja) 遠隔会議プログラム、端末装置および遠隔会議方法
KR20200024068A (ko) 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템
JP7141226B2 (ja) 音声入力装置、及び遠隔対話システム
WO2020087336A1 (zh) 一种移动平台的控制方法及控制设备
CN112399638B (zh) 一种通信连接建立方法、存储介质及设备
KR20080013541A (ko) 휴대용 단말기의 음성 제어 장치 및 방법
JP7349533B2 (ja) 情報処理システム、及び情報処理方法
US8965760B2 (en) Communication device, method, non-transitory computer readable medium, and system of a remote conference
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
JP6905115B2 (ja) 通信装置、制御方法、およびプログラム
US20120300126A1 (en) Electronic apparatus and tv phone method
TWI468983B (zh) 服務啟動方法及系統
US12022187B2 (en) Image capturing apparatus including plurality of sound input units, control method, and recording medium
US20220272253A1 (en) Image capturing apparatus including plurality of sound input units, control method, and recording medium
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102507745B1 (ko) 외부 장치와의 연결을 위한 방법 및 그 전자 장치
WO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220830

R150 Certificate of patent or registration of utility model

Ref document number: 7133969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150