JP6610610B2 - 音声入出力装置、無線接続方法、音声対話システム - Google Patents

音声入出力装置、無線接続方法、音声対話システム Download PDF

Info

Publication number
JP6610610B2
JP6610610B2 JP2017088784A JP2017088784A JP6610610B2 JP 6610610 B2 JP6610610 B2 JP 6610610B2 JP 2017088784 A JP2017088784 A JP 2017088784A JP 2017088784 A JP2017088784 A JP 2017088784A JP 6610610 B2 JP6610610 B2 JP 6610610B2
Authority
JP
Japan
Prior art keywords
voice
connection
control device
audio
data channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017088784A
Other languages
English (en)
Other versions
JP2018186469A (ja
Inventor
快矢統 坂本
篤司 池野
博士 山口
勇太 山本
敏文 西島
悟 佐々木
浩巳 刀根川
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017088784A priority Critical patent/JP6610610B2/ja
Priority to US15/957,707 priority patent/US10292194B2/en
Priority to CN201810364089.8A priority patent/CN108806675B/zh
Publication of JP2018186469A publication Critical patent/JP2018186469A/ja
Application granted granted Critical
Publication of JP6610610B2 publication Critical patent/JP6610610B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/10Connection setup
    • H04W76/14Direct-mode setup
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/10Connection setup
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/10Connection setup
    • H04W76/18Management of setup rejection or failure
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • H04W88/04Terminal devices adapted for relaying to or from another terminal or user

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Manipulator (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声によって人と対話する装置に関する。
近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献1には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。
特許文献1に記載のシステムでは、対話サーバが音声を生成すると同時に、ロボットの動作を決定し、音声と、ロボットの動きを表すデータ(モーションデータ)を当該ロボットに送信している。これにより、ロボットに対して、関節などの可動部を動かしてアクションをさせることができる。
特開2015−013351号公報 特開2012−038102号公報 特開2014−160910号公報 特開2014−192791号公報 特開2015−177511号公報
コミュニケーションロボットの分野では、コストを削減するため、インタフェースであるロボットが、制御装置(例えば、スマートフォンなどの携帯型コンピュータ)と無線通信を行い、制御装置側において音声の認識や応答の生成を行うという構成が一般的となっている。ロボットと制御装置との接続には、Bluetooth(登録商標)などの近距離無線規格が多く利用される。
一方、ロボットと制御装置との接続に汎用的な無線接続規格を利用した場合、当該規格を利用する無関係な機器がロボットに接続を試みてしまうという問題が発生する。
本発明は上記の課題を考慮してなされたものであり、ロボットと制御装置が無線によって接続する音声対話システムにおいて、無用な接続を抑制することを目的とする。
本発明に係る音声入出力装置は、ユーザとの音声対話に用いる装置である。
具体的には、前記ユーザが発した音声を取得する音声入力手段と、前記音声に対する応答を生成する制御装置との間の接続を制御する接続制御手段と、取得された前記音声を前記制御装置に送信し、前記音声に対する応答を前記制御装置から受信して出力する対話制御手段と、を有し、前記接続制御手段は、前記制御装置との間で、音声を伝送する音声チャネルの接続と、前記音声以外のデータを伝送するデータチャネルの接続をそれぞれ確立し、前記データチャネルの接続が確立してから所定の時間以内に前記音声チャネルによる接続が完了しない場合に、前記データチャネルを切断することを特徴とする。
本発明に係る音声入出力装置は、音声入出力機能を有し、制御装置と通信を行うことでユーザとの対話を行うインタフェース装置である。本発明に係る音声入出力装置は、取得した音声を制御装置に送信し、制御装置から、当該音声に対する応答(例えば、応答とな
る音声データ)を取得して出力する。
接続制御手段は、音声を伝送する音声チャネルと、音声以外の他のデータを伝送するデータチャネルの二つのチャネルによって、音声入出力装置と制御装置との間の接続を確立する。音声チャネルは、音声の伝送に特化したチャネルであり、データチャネルは、音声以外のデータの伝送に特化したチャネルである。音声以外のデータとは、例えば、音声入出力装置を制御するデータである。例えば、音声入出力装置が可動部を有するロボットである場合、当該可動部を動作させるための命令がデータチャネルによって伝送される。
また、接続制御手段は、データチャネルの接続が確立してから所定の時間以内に音声チャネルによる接続が完了しない場合に、制御装置が正当な通信相手ではないと判定し、データチャネルを切断する。すなわち、接続相手である制御装置が、データチャネルと音声チャネルを同時に接続するという正当な手続きを踏まない限り、接続を行うことができない。
かかる構成によると、同じ無線通信規格を利用する無関係な装置からの接続があった場合に、当該無用な接続を解消することができる。
また、前記音声チャネルおよび前記データチャネルは、Bluetooth(登録商標)規格によって接続され、かつ、前記音声チャネルは、音声プロファイルを利用して接続されることを特徴としてもよい。
音声入出力装置と制御装置は、互いにペアリングされた状態で近距離通信を行うため、Bluetoothによる接続が適している。また、制御装置にスマートフォンなどを用いることができ、かつ、消費電力を抑えることができるという利点がある。また、音声プロファイルを利用することで、遅延の少ない発話をさせることができる。
また、前記データチャネルは、BluetoothLowEnergy(BLE)規格によって接続されることを特徴としてもよい。
データ通信用のチャネルとしてBLEを利用することで、消費電力を抑え、装置の連続動作時間を長くすることができる。
また、前記音声チャネルによる接続は、前記音声プロファイルによる接続と、前記音声プロファイルを介したオーディオ接続の二種類の接続からなり、前記接続制御手段は、前記音声プロファイルによる接続と、前記BLEによる接続の双方が完了したのちに、前記制御装置からの前記オーディオ接続を受け入れ、前記BLEによる接続が確立してから所定の時間以内に前記オーディオ接続が完了しない場合に、前記BLEによる接続を切断することを特徴としてもよい。
音声プロファイルによって事前に接続された機器が存在する場合、BLEによる接続とは無関係なタイミングで自動的にオーディオ接続が行われてしまう場合がある。
そこで、タイミングを一致させるため、BLEによる接続が確立してからオーディオ接続を待ち受ける。これにより、同一の機器が確実にデータチャネルと音声チャネルを設けることができるようになる。
また、前記音声プロファイルは、ハンズフリープロファイル(HFP)であることを特徴としてもよい。
ハンズフリープロファイル(HFP)は、携帯電話やヘッドセット間などで用いられる、電話の発着信や通話を行うためのプロファイルである。当該プロファイルを利用するこ
とで、双方向の音声通信を行うことができる。
また、本発明に係る無線接続方法は、
ユーザが発した音声を取得し、前記音声に対する応答を音声によって出力する音声入出力装置が、前記応答の生成を行う制御装置に対して行う無線接続方法であって、前記制御装置から要求があった場合に、前記制御装置との間で、音声を伝送する音声チャネルの接続と、前記音声以外のデータを伝送するデータチャネルの接続をそれぞれ確立し、かつ、前記データチャネルの接続が確立してから所定の時間以内に前記音声チャネルによる接続が完了しない場合に、前記データチャネルを切断することを特徴とする。
また、本発明に係る音声対話システムは、
オーディオインタフェースと、制御装置と、からなる音声対話システムであって、前記オーディオインタフェースは、ユーザが発した音声を取得して前記制御装置に送信し、前記音声に対する応答を前記制御装置から受信して出力する第一の制御手段を有し、前記制御装置は、前記オーディオインタフェースから受信した音声に基づいて前記応答を生成し、前記オーディオインタフェースに送信する第二の制御手段を有し、前記オーディオインタフェースおよび前記制御装置の間は、音声を伝送する音声チャネルと、前記音声以外のデータを伝送するデータチャネルによって接続され、前記オーディオインタフェースは、前記データチャネルの接続が確立してから所定の時間以内に前記音声チャネルによる接続が完了しない場合に、前記データチャネルを切断することを特徴とする。
なお、本発明は、上記手段の少なくとも一部を含む音声入出力装置または音声対話システムとして特定することができる。また、前記音声入出力装置が行う無線接続方法、音声対話システムが行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、ロボットと制御装置が無線によって接続する音声対話システムにおいて、無用な接続を抑制することができる。
第一の実施形態に係る音声対話システムのシステム構成図である。 ロボット10を説明する図である。 ロボット10と制御装置20との接続を説明する図である。 制御装置20に対する不正な接続を説明する図である。 第一の実施形態による接続フローを説明する図である。 ロボット10、制御装置20、サーバ装置30間のデータフロー図である。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
(システム構成)
図1は、実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
ロボット10は、スピーカやマイク、カメラ等を有しており、ユーザとのインタフェースを担う手段である。ロボット10は、人型やキャラクター型であってもよいし、他の形
状であってもよい。
制御装置20は、ロボット10を用いてユーザとの対話を行う装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、ユーザに提供する応答(応答文)を生成する装置である。
本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理は制御装置20およびサーバ装置30が行う。
まず、ロボット10について説明する。
ロボット10は、音声入力部11、近距離通信部12、音声出力部13、動作制御部14から構成される。
音声入力部11は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、後述する近距離通信部12を介して制御装置20へ送信される。
近距離通信部12は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部12は、Bluetooth(登録商標)規格を利用して通信を行う。近距離通信部12は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Bluetooth規格は、IEEE802.15.1とも呼ばれる。
音声出力部13は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置20から送信された音声データを音声に変換する。
動作制御部14は、ロボット10が有する複数の可動部に内蔵されたアクチュエータを駆動させることで、ロボット10の動作を制御する手段である。具体的には、制御装置20から送信された命令に基づいて、例えば手、肩、肘、足などの関節に配置されたアクチュエータを駆動させることで、ロボット10に所定のリアクションをさせる。
また、動作制御部14は、アクチュエータの動作定義(どのような命令に対して、どのアクチュエータをどのように動かすか)を記憶しており、制御装置20から送信された命令に基づいてアクチュエータを駆動させる。
なお、可動部は、例えば図2で示したように、関節ごとに設けられてもよいし、車輪など、関節以外の箇所に設けられてもよい。
また、ロボット10が行うリアクションは、可動部以外を用いたものであってもよい。例えば、光(ライト)の明滅などによって行ってもよい。
次に、制御装置20について説明する。制御装置20は、ロボット10の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、制御部22、通信部23から構成される。
近距離通信部21が有する機能は、前述した近距離通信部12と同様であるため、詳細な説明は省略する。
制御部22は、ロボット10から音声を取得し、当該取得した音声に対する応答を取得
する手段である。具体的には、ロボット10から取得した音声を、通信部23を介してサーバ装置30(いずれも後述)に送信し、対応する応答文をサーバ装置30から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット10に送信する。また、ロボット10に送信された音声は、音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
また、制御部22は、取得した応答文に基づいてロボットの駆動命令を生成し、ロボット10に送信する。これにより、発話に合わせてロボットがリアクションを行えるようになる。駆動命令の生成は、例えば、応答文を分類した結果に基づいて行うことができる。例えば、サーバ装置30が応答文を生成する際に、応答の種別を表すデータを付加し、当該種別に基づいて駆動命令を生成してもよい。また、応答の種別は、制御部22が応答文を解析することで取得してもよい。
応答の種別は、例えば、喜怒哀楽などの擬似的な感情別に設けられたものであってもよいし、「出会い」「別れ」「回答」「共感」「質問」など、会話のシーンや発話の種別ごとに分類されたものであってもよい。応答の種別に対応する駆動命令は、制御部22が予め記憶している。
通信部23は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、サーバ装置30との通信を行う手段である。
サーバ装置30は、送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部31、音声認識部32、応答生成部33からなる。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
音声認識部32は、ロボットが有する音声入力部11が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部32には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部33へ送信される。
応答生成部33は、音声認識部32から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。詳細な処理内容については後述する。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
サーバ装置30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
(ロボットと制御装置間の通信)
次に、ロボット10と制御装置20との間における情報の送受信方法について説明する。
ロボット10と制御装置20との間では、(1)ロボットから制御装置へ送信される音声データ、(2)制御装置からロボットへ送信される音声データ、(3)制御装置からロボットへ送信される駆動命令の三種類のデータが送受信される。
本実施形態では、ロボット10と制御装置20との間でBluetooth接続による二つのコネクションを張り、音声と駆動命令を同時に送信する。
図3は、ロボット10と制御装置20との接続シーケンスの一例である。なお、本例では、ロボット10は、接続先として制御装置20の情報を有しているものとする。すなわち、ペアリングが完了しているものとする。
両者が未接続状態にある場合、ロボット10は、周期的に(例えば1秒周期で)制御装置20を検索し、制御装置20を発見すると、HFP(Hands-Free Profile)による接続を開始する。HFPとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット10がHFPにおけるハンズフリーユニットに対応し、制御装置20がオーディオゲートウェイに対応する。
接続リクエストが制御装置20によって受け入れられると、各種初期化処理が実行される。ここでは、ノイズリダクション機能の設定(NREC)、スピーカ音量の設定(VGS)、マイクゲイン設定(VGM)などが行われる。なお、HFPによる初期化処理には若干の時間がかかるため、ロボット10や制御装置20が、平行して他の処理を行うようにしてもよい。HFPによる接続が完了すると、実際に音声を伝送するチャネルを設けるためのオーディオ接続を行い、これにより、ロボット10と制御装置20との間で音声チャネルが開通した状態となる。
次に、BLE(Bluetooth Low Energy)によってデータチャネルを設ける処理を行う。
BLEでは、サービスを提供するデバイスが、周囲に存在を知らせる処理(アドバタイズ)を行い、これを検知したデバイスが接続を行うという特徴を有している。
本実施形態では、HFPによる接続が完了した後、ロボット10がアドバタイズ動作(アドバタイズパケットの送信)を開始する。また、制御装置20が、BLE接続を行うためのスキャン動作を開始する。
制御装置20が、ロボット10から送信されたアドバタイズパケットを検知すると、接続要求を発行する。
音声チャネルとデータチャネルの双方を設ける場合、このように、HFPによる接続をまず行い、接続が完了したタイミングでBLEによる接続処理に移行するという方法がある。このようにすることで、音声チャネルおよびデータチャネルの二本のコネクションを自動的に張ることができるようになる。
ここで問題となるのが、ロボット10から送信されたアドバタイズパケットを検知した他の装置(制御装置20以外の装置)が、ロボット10に対して接続要求を発行してしまうおそれがあるという点である。
例えば、図4に示したように、制御装置20以外の他のデバイスがアドバタイズパケットを検知し、接続を試みてしまう場合がある。このような場合、ロボット10は、HFP接続を行っている相手と、BLE接続を行っている相手が異なることを認識することができないため、制御装置20とロボット10との間のデータ通信ができなくなり、正常な動作ができなくなる。
そこで、本実施形態では、図3に示した処理を図5のように変更する。変更点は以下の通りである。なお、図5における点線は、図3に示した処理と同一であることを表す。
(1)制御装置20は、HFPによるオーディオ接続を、BLEによる接続が完了した後で開始する
一般的な手法では、HFPによる接続と同時にオーディオ接続が行われるが、本実施形態では、BLEによる接続の完了を待ってからオーディオ接続を行う。
(2)ロボット10は、BLEによる接続が完了した後で、HFPによるオーディオ接続の有無を監視し、所定の時間以内にオーディオ接続が完了した場合にのみ、BLEによる接続を維持する
すなわち、所定の時間以内にオーディオ接続が完了しない場合は当該BLE接続を切断する。
このように、本実施形態に係るロボット10は、相手方のデバイスからBLE接続があり、かつ、所定の時間を経過してもオーディオ接続が確立されない場合に、不正な接続がなされたとみなし、当該デバイスとの接続を切断する。
制御装置20以外の他のBluetoothデバイスは、BLEによる接続と、HFPを介したオーディオ接続の双方が必要であることを認識していないため、仮にアドバタイズパケットに反応して接続を試みたとしても、短時間で当該接続が破棄される。すなわち、正当な手続きによって接続を試みる装置以外からの接続を拒否し、正当な装置からの要求のみを受け入れることができるようになる。
(音声対話処理)
次に、接続が確立したあとの音声対話処理について、処理内容およびデータの流れを説明するフロー図である図6を参照しながら説明する。
まず、ステップS11で、ロボット10が有する音声入力部11が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、HFPによるオーディオ接続を介して、制御装置20が有する制御部22へ送信される。また、制御部22は、取得した音声データを、サーバ装置30が有する音声認識部32へ送信する。
次に、音声認識部32が、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS12)。音声認識の結果得られたテキストは、応答生成部33へ送信される。次に、応答生成部33が、ユーザから得られた発話の内容に基づいて応答を生成する(ステップS13)。
前述したように、応答文は、自装置が有する対話辞書(対話シナリオ)を用いて生成してもよいし、外部にある情報ソース(データベースサーバやウェブサーバ)を用いて生成してもよい。生成された応答文は、制御装置20へ送信され、制御部22によって音声データに変換される(ステップS14)。
ステップS15では、制御部22が、取得した応答文に基づいて、駆動命令を生成する。音声データと駆動命令は、それぞれ、HFPによるオーディオ接続と、BLEによる接続を介して、同一のタイミングでロボット10へ送信され、音声データの再生と駆動が同時に行われる(ステップS16)。
以上説明したように、本実施形態に係る音声対話システムは、HFPによる接続を用いて音声の伝送を行い、同時に、BLEによる接続を用いて駆動命令の伝送を行う。
これにより、双方向での音声の伝送をリアルタイムに行うことができ、かつ、通信速度が要求されないデータ通信にBLEを用いることで、消費電力を抑えることができる。
また、BLEによる接続があった後で、所定の時間以内にHFPによるオーディオコネクションが確立しない場合に、当該BLEによる接続を切断するため、BLEを利用する他の機器からの無用な接続を解消することができる。
なお、本実施形態では、BLEを用いて駆動命令を伝送したが、データ通信用のプロファイルを利用してもよい。例えば、SPP(Serial Port Profile)などを利用すること
も可能である。また、HFPの代わりにHSP(Head Set Profile)などを利用してもよ
い。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、サーバ装置30が音声認識を行ったが、音声認識を行う手段を制御装置20に持たせてもよい。また、実施形態の説明では、応答文の生成を対話サーバ20で行ったが、応答文の生成を制御装置20が行うようにしてもよい。また、実施形態の説明では、応答文に基づいて制御装置20が駆動命令を生成したが、駆動命令の生成をサーバ装置30が行うようにしてもよい。
また、実施形態の説明では、近距離通信部12および21が、HFPによる接続と、BLEによる接続の双方を行ったが、プロファイルごとにハードウェアを分けてもよい。
10・・・ロボット
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・動作制御部
20・・・制御装置
22・・・制御部
23,31・・・通信部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部

Claims (9)

  1. ユーザとの音声対話に用いられる音声入出力装置であって、
    前記ユーザが発した音声を取得する音声入力手段と、
    前記音声に対する応答を生成する制御装置との間の接続を制御する接続制御手段と、
    取得された前記音声を前記制御装置に送信し、前記音声に対する応答を前記制御装置から受信して出力する対話制御手段と、
    を有し、
    前記接続制御手段は、前記制御装置との間で、音声プロファイルによる接続と前記音声プロファイルを介したオーディオ接続とを含む音声チャネル接続と、前記音声以外のデータを伝送するデータチャネル接続をそれぞれ確立し、
    前記音声プロファイルによる接続と、前記データチャネル接続の双方が完了したのちに、前記制御装置からの前記オーディオ接続を受け入れ、
    前記データチャネル接続が確立してから所定の時間以内に前記オーディオ接続が完了しない場合に、前記データチャネル接続を切断する、
    音声入出力装置。
  2. 前記音声チャネル接続および前記データチャネル接続は、Bluetooth(登録商標)規格を利用した接続である、
    請求項1に記載の音声入出力装置。
  3. 前記データチャネル接続は、BluetoothLowEnergy(BLE)規格を利用した接続である
    請求項2に記載の音声入出力装置。
  4. 前記音声プロファイルは、ハンズフリープロファイル(HFP)である、
    請求項1から3のいずれかに記載の音声入出力装置。
  5. ユーザが発した音声を取得し、前記音声に対する応答を音声によって出力する音声入出力装置が、前記応答の生成を行う制御装置に対して行う無線接続方法であって、
    前記制御装置から要求があった場合に、前記制御装置との間で、音声プロファイルによ
    る接続と前記音声プロファイルを介したオーディオ接続とを含む音声チャネル接続と、前記音声以外のデータを伝送するデータチャネル接続をそれぞれ確立し、かつ、
    前記音声プロファイルによる接続と、前記データチャネル接続の双方が完了したのちに、前記制御装置からの前記オーディオ接続を受け入れ、
    前記データチャネル接続が確立してから所定の時間以内に前記オーディオ接続が完了しない場合に、前記データチャネル接続を切断する、
    無線接続方法。
  6. オーディオインタフェースと、制御装置と、からなる音声対話システムであって、
    前記オーディオインタフェースは、
    ユーザが発した音声を取得して前記制御装置に送信し、前記音声に対する応答を前記制御装置から受信して出力する第一の制御手段を有し、
    前記制御装置は、
    前記オーディオインタフェースから受信した音声に基づいて前記応答を生成し、前記オーディオインタフェースに送信する第二の制御手段を有し、
    前記オーディオインタフェースおよび前記制御装置の間は、音声プロファイルによる接続と前記音声プロファイルを介したオーディオ接続とを含む音声チャネル接続と、前記音声以外のデータを伝送するデータチャネル接続によって接続され、
    前記制御装置は、前記音声プロファイルによる接続と、前記データチャネル接続の双方が完了したのちに前記オーディオ接続を開始し、
    前記オーディオインタフェースは、前記データチャネル接続が確立してから所定の時間以内に前記オーディオ接続が完了しない場合に、前記データチャネル接続を切断する、
    音声対話システム。
  7. 前記音声チャネル接続および前記データチャネル接続は、Bluetooth(登録商標)規格を利用した接続である、
    請求項に記載の音声対話システム。
  8. 前記データチャネル接続は、BluetoothLowEnergy(BLE)規格を利用した接続である、
    請求項に記載の音声対話システム。
  9. 前記音声プロファイルは、ハンズフリープロファイル(HFP)である、
    請求項7または8に記載の音声対話システム。
JP2017088784A 2017-04-27 2017-04-27 音声入出力装置、無線接続方法、音声対話システム Active JP6610610B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017088784A JP6610610B2 (ja) 2017-04-27 2017-04-27 音声入出力装置、無線接続方法、音声対話システム
US15/957,707 US10292194B2 (en) 2017-04-27 2018-04-19 Voice input/output apparatus, wireless connection method, and voice interaction system
CN201810364089.8A CN108806675B (zh) 2017-04-27 2018-04-23 语音输入输出装置、无线连接方法、语音对话***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017088784A JP6610610B2 (ja) 2017-04-27 2017-04-27 音声入出力装置、無線接続方法、音声対話システム

Publications (2)

Publication Number Publication Date
JP2018186469A JP2018186469A (ja) 2018-11-22
JP6610610B2 true JP6610610B2 (ja) 2019-11-27

Family

ID=63917031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017088784A Active JP6610610B2 (ja) 2017-04-27 2017-04-27 音声入出力装置、無線接続方法、音声対話システム

Country Status (3)

Country Link
US (1) US10292194B2 (ja)
JP (1) JP6610610B2 (ja)
CN (1) CN108806675B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109262617A (zh) * 2018-11-29 2019-01-25 北京猎户星空科技有限公司 机器人控制方法、装置、设备及存储介质
CN109545231A (zh) * 2019-01-08 2019-03-29 深圳市高觉科技有限公司 一种便携式控制智能设备的方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3816475B2 (ja) * 2003-09-30 2006-08-30 株式会社東芝 携帯無線通信装置
JP4439476B2 (ja) * 2006-02-08 2010-03-24 株式会社東芝 データ転送装置および携帯電話
US8792940B2 (en) * 2008-02-27 2014-07-29 Mediatek Inc. Methods for handling hands-free device by audio gateway device with subscriber identity cards and systems utilizing the same
US8175621B2 (en) * 2008-02-27 2012-05-08 Mediatek Inc. Methods for providing multiple wireless communication services with reduced paging collisions and communication apparatuses utilizing the same
KR20130010911A (ko) * 2008-12-05 2013-01-29 소우셜 커뮤니케이션즈 컴퍼니 실시간 커널
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
JP2012038102A (ja) 2010-08-06 2012-02-23 Fujitsu Toshiba Mobile Communications Ltd 通信端末
JP2014160910A (ja) 2013-02-19 2014-09-04 Denso Corp 近距離無線通信装置
JP5987747B2 (ja) 2013-03-28 2016-09-07 トヨタ自動車株式会社 移動体、移動体制御システム及び移動体制御方法
US9483115B2 (en) * 2013-05-31 2016-11-01 Disney Enterprises, Inc. Triggering control of audio for walk-around characters
JP5975947B2 (ja) * 2013-07-08 2016-08-23 ユニロボット株式会社 ロボットを制御するためのプログラム、及びロボットシステム
JP5996603B2 (ja) * 2013-10-31 2016-09-21 シャープ株式会社 サーバ、発話制御方法、発話装置、発話システムおよびプログラム
JP6154481B2 (ja) * 2013-11-06 2017-06-28 アルプス電気株式会社 車載ナビゲーション装置
JP5824097B2 (ja) 2014-03-18 2015-11-25 株式会社インフォシティ 通信装置およびサービス管理システム
CN104290097B (zh) * 2014-08-19 2016-03-30 白劲实 一种学习型智能家庭社交机器人***和方法
CN106485897B (zh) * 2015-08-31 2019-09-17 无锡小天鹅电器有限公司 智能机器人***
CN105120373B (zh) * 2015-09-06 2018-07-13 上海智臻智能网络科技股份有限公司 语音传输控制方法及***
CN105206272A (zh) * 2015-09-06 2015-12-30 上海智臻智能网络科技股份有限公司 语音传输控制方法及***
EP3163831B1 (en) * 2015-10-26 2019-04-10 GN Audio A/S Secure pairing with help of challenge-response-test image
CN106335058A (zh) * 2016-10-12 2017-01-18 北京光年无限科技有限公司 应用于智能机器人***的多模态交互方法及智能机器人

Also Published As

Publication number Publication date
JP2018186469A (ja) 2018-11-22
US10292194B2 (en) 2019-05-14
US20180317270A1 (en) 2018-11-01
CN108806675B (zh) 2023-06-23
CN108806675A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
JP6447578B2 (ja) 音声対話装置および音声対話方法
US9484017B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
US9009033B2 (en) Real-time voice recognition on a handheld device
US20150081274A1 (en) System and method for translating speech, and non-transitory computer readable medium thereof
US8527258B2 (en) Simultaneous interpretation system
JP6402748B2 (ja) 音声対話装置および発話制御方法
CN105393302A (zh) 多级语音识别
JP2006154926A (ja) キャラクタ表示を利用した電子機器操作システム及び電子機器
KR102326272B1 (ko) 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법
TW202022560A (zh) 用於聊天機器人與人類通話的可編程智能代理機
JP6610610B2 (ja) 音声入出力装置、無線接続方法、音声対話システム
US10817674B2 (en) Multifunction simultaneous interpretation device
JP2017138536A (ja) 音声処理装置
JP2004214895A (ja) 通信補助装置
JP2004351533A (ja) ロボットシステム
WO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
CN108810244B (zh) 语音对话***以及信息处理装置
JP6583193B2 (ja) 音声対話システムおよび音声対話方法
JP2014149644A (ja) 電子会議システム
JP6805663B2 (ja) 通信装置、通信システム、通信方法及びプログラム
JP6680125B2 (ja) ロボットおよび音声対話方法
Goyal et al. Design of Language Translator Headphone: The Future of Sustainable Communication
KR20220041447A (ko) 언어발달을 돕는 대화가 가능한 스마트 토이
JP2020161971A (ja) 通信代替装置、通信代替システム、通信代替方法、および通信代替プログラム
JP2013162209A (ja) 遠隔通訳システムおよび遠隔通訳方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191014

R151 Written notification of patent or utility model registration

Ref document number: 6610610

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151