WO2012063415A1

WO2012063415A1 - 音声制御装置および音声制御方法

Info

Publication number: WO2012063415A1
Application number: PCT/JP2011/005966
Authority: WO
Inventors: 信裕神戸
Original assignee: パナソニック株式会社
Priority date: 2010-11-09
Filing date: 2011-10-26
Publication date: 2012-05-18
Also published as: JP2012103845A

Abstract

　ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置。この装置（１００）は、発話音声を含む音声データを受信する受信部（１１０）と、取得された音声データに基づいて発話音声を出力する音声出力部（１４０）と、出力中の発話音声の発話者情報を保持する発話者情報保持部（１３０）と、所定の操作を任意のタイミングで受け付ける操作入力部（１２０）とを有し、音声出力部（１４０）は、所定の操作が行われたとき、出力中の発話音声の発話者情報を音声で出力する。

Description

音声制御装置および音声制御方法

　本発明は、発話音声を含む音声データを出力する音声制御装置および音声制御方法に関する。

　近年、情報の入出力が音声によって行われる、携帯電話機等の音声コミュニケーションツールが、日常に不可欠なものとなっている。

　電話に代表される音声コミュニケーションツールは、目視することなく情報をやりとりすることが可能なツールである。一方で、インターネット通信の高速化および大容量化により、高品質な音声通信環境を提供する各種インフラが整ってきている。したがって、音声コミュニケーションツールは、このようなインフラを利用することにより、臨場感のある音声コミュニケーションが可能となっている。すなわち、音声コミュニケーションツールは、関連技術の品質向上により、各種分野への適用の可能性が広がっている。

　最も期待されている適用分野の１つは、テレビ会議システム、多人数間での通話、および音声チャット等の、不特定多数の多地点音声コミュニケーションシステムである。ところが、このようなシステムでは、出力されている発話音声が誰のものであるか、すなわち誰が発言しているかが、分かり辛いことがある。

　そこで、発言者名を文字表示する技術（例えば特許文献１参照）を用いることが考えられる。特許文献１記載の技術は、座談会や会議のように多数の人の発言を文字に変換して文書を作成して画面に表示する際に、各発言区分に発言者名を付加的に文字表示する。また、発話音声の発話者を示す発話者情報を、視覚インジケータにより視覚的に表示する技術（例えば特許文献２参照）を用いることが考えられる。これらの従来技術を音声コミュニケーションツールに適用することにより、ユーザは、聞こえてくる発話音声が誰のものであるかをより確実に特定することができる。

特開平１０－３２０３８５号公報特開２００５－１００４２０号公報

　ところで、多数の発言者が同時に発言している状況において、ユーザがある出力中の発話音声に興味を持ち、その発言者が誰であるのかを知りたいと望むことがある。このような状況は、例えば、複数の会話グループが存在している場合や、会議が白熱している場合等に起こり得る。

　しかしながら、上述の従来技術では、このような場合において、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに確実に通知することができないという課題がある。なぜなら、従来技術では、複数の発話者情報が一度に提示され、ユーザは、その複数の情報の中から、興味を持った発話音声に対応する情報を自ら探し出さなければならないからである。

　本発明の目的は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置および音声制御方法を提供することである。

　本発明の音声制御装置は、発話音声を含む音声データを受信する受信部と、取得された前記音声データに基づいて前記発話音声を出力する音声出力部と、出力中の前記発話音声の発話者情報を保持する発話者情報保持部と、所定の操作を任意のタイミングで受け付ける操作入力部とを有し、前記音声出力部は、前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力する。

　本発明の音声制御方法は、発話音声を含む音声データを受信するステップと、取得された前記音声データに基づいて前記発話音声を出力するステップと、出力中の前記発話音声の発話者情報を保持するステップと、所定の操作を任意のタイミングで受け付けるステップと、前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力するステップとを有する。

　本発明によれば、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる。

本発明の実施の形態１に係る音声制御装置の構成を示すシステム構成図本実施の形態１における配置情報を説明するための模式図本実施の形態１に係る音声制御装置の動作の一例を示すフローチャート本実施の形態１に係る配置情報の設定内容の一例を示す図本発明の実施の形態２に係る音声制御装置の構成の一例を示すブロック図本実施の形態２に係る音声制御装置の動作の一例を示すフローチャート

　以下、本発明の各実施の形態について、図面を参照して詳細に説明する。

　（実施の形態１）
　本発明の実施の形態１は、本発明に係る音声制御装置を、デジタルラジオの受信装置に適用した場合の例である。

　図１は、本発明の実施の形態１に係る音声制御装置の構成を示すシステム構成図である。

　図１において、音声制御装置１００は、受信部１１０、操作入力部１２０、発話者情報保持部１３０、および音声出力部１４０を有する。

　受信部１１０は、例えばアンテナおよびチューナを有し、音声提供装置２００からデジタルラジオ信号により放送される音声データを受信して、音声出力部１４０へ出力する。このとき、受信部１１０は、後述の配置情報から音声データの識別情報を取得し、音声データに識別情報を付加する。また、受信部１１０は、音声データの時刻に対応付けて放送される発話者情報を、音声提供装置２００から受信し、発話者情報保持部１３０へ出力する。このとき、受信部１１０は、識別情報を発話者情報に付加する。

　本実施の形態における音声提供装置２００は、例えば、デジタルラジオの放送局の通信設備である。また、音声提供装置２００は、話者毎に生成された同時に出力されるべき複数の音声データを、チャネル多重化して放送する。また、本実施の形態における発話者情報は、発話者の名前（以下「発話者名」という）の仮名のテキストデータを含むものであり、音声提供装置２００が放送する音声データに付加されている。また、識別情報は、チャネルの識別情報等に基づいて受信部１１０が設定する情報であり、ユーザに対して発話者の発話音声が聴こえる方向を示す配置情報である。

　図２は、配置情報を説明するための模式図である。

　受信部１１０は、ユーザ４００の基本姿勢を基準として、ユーザ４００の周囲に想定した仮想的な空間に、各発話者５００（音声データの送信元）を仮想配置する。そして、受信部１１０は、各発話者５００に対して、その配置場所を示す情報を、配置情報として設定する。

　例えば、ある発話者５００_１は、ユーザ４００の基本姿勢における正面方向が、配置情報として設定されたとする。この場合、後述の通り、ユーザ４００の基本姿勢における正面方向から発話者５００_１の発話音声が聞こえるように、音声の配置が制御される。これにより、音声制御装置１００は、発話者５００_１があたかも目の前に位置しているような感覚を、ユーザに与える事ができる。

　図１の操作入力部１２０は、例えばモーションセンサを有し、所定の操作による配置情報の指定を、任意のタイミングでユーザから受け付ける。そして、操作入力部１２０は、所定の操作が行われたとき、その旨を示す発話者情報要求を、指定された配置情報（以下「指定配置情報」という）とともに発話者情報保持部１３０へ出力する。なお、操作入力部１２０は、キーボタン、スイッチ、ダイヤル等でもよい。また操作入力部１２０は、音声制御装置１００から分離したリモートコントローラと、このリモートコントローラから操作信号を受信するコントローラ受信部とから構成されてもよい。

　本実施の形態では、所定の操作は、ユーザが頷く動作であるものとする。すなわち、指定配置情報とは、ユーザが頷く動作を行ったときのユーザの顔の向き（以下「顔方向」という）に関する情報である。

　図２で説明すると、ユーザ４００が発話者５００_１の方を向いて頷く動作を行ったとき、正面方向を示す配置情報が指定されることになる。

　図１の発話者情報保持部１３０は、配置情報に付加された発話者名が受信部１１０から入力されると、これを格納する。但し、発話者情報保持部１３０は、同一の配置情報の発話者名については最新の発話者名のみを保持し、かつ、入力されてから所定の時間が経過した発話者名については削除する。

　また、発話者情報保持部１３０は、操作入力部１２０から発話者情報要求と指定配置情報とを受け取り、指定配置情報に該当する発話者名を抽出する。そして、発話者情報保持部１３０は、発話者情報要求を入力される毎に、発話者名を、指定配置情報とともに音声出力部１４０に出力する。

　音声出力部１４０は、受信部１１０から入力される音声データから、配置情報が示す仮想位置に出力音声データを生成し、音声出力装置３００へ送信する。音声出力装置３００は、例えばステレオスピーカやステレオヘッドフォンであり、受信した出力音声データに基づいてステレオ音声を出力する。なお、音声制御装置１００における音声データの受信から音声出力装置３００における音声出力までの処理遅延は、非常に短いものとする。また、音声出力部１４０は、発話音声を含む音声データが複数入力されている場合、複数の音声データに基づく複数の発話音声を、音声出力装置３００を介して出力することになる。

　また、音声出力部１４０は、指定配置情報および発話者名を発話者情報保持部１３０から受け取ると、発話者名の読み上げ音声のデータを生成する。そして、音声出力部１４０は、生成した発話者名の音声データを、生成中の出力音声データに重畳する。このとき、音声出力部１４０は、指定配置情報に対応する方向から発話者名が聞こえるように、音声データの重畳を行う。すなわち、発話者情報要求が発せられる毎に、発話者名の音声を、指定配置情報に対応する方向から出力させる。なお、音声出力部１４０は、発話者情報の音声を、指定配置情報が示す方向（発話者が配置された方向）とは少し異なる方向（例えば少し下の方向）に配置することが望ましい。これにより、ユーザは、発話音声と発話者情報とを、互いに関連付けて認識しつつ、区別して聞き取る事が容易となる。

　このような音声制御装置１００は、発話者毎に異なる方向で、発話音声をユーザに聞かせることができる。また、ユーザがいずれかの方向に顔を向けて頷く動作を行ったとき、音声制御装置１００は、その方向に設定された発話者の発話者名を、音声でユーザに通知することができる。

　図２で説明すると、ユーザ４００が正面方向から聞こえてくる発話内容に興味を持ち、誰の発話であるのかを知りたくなり、正面方向を向いて頷く動作を行ったとする。この場合、発話者５００_１の発話者名が、発話者５００_１の配置されている正面方向から、音声によってユーザ４００に通知されることになる。

　すなわち、音声制御装置１００は、ユーザの任意の操作タイミングで、ユーザが指定した方向から聞こえる発話音声の発話者情報を音声で出力する。したがって、音声制御装置１００は、ユーザが知りたいと望む出力中の発話音声の発話者名を、ユーザに対してより確実に通知することができる。

　次に、音声制御装置１００の動作について説明する。

　図３は、音声制御装置１００の動作の一例を示すフローチャートである。

　まず、ステップＳ１０００において、受信部１１０は、ユーザ操作等による動作の終了の要求があったか否かを判断する。受信部１１０は、終了の要求が無い場合（Ｓ１０００：ＮＯ）、ステップＳ２０００へ進む。

　ステップＳ２０００において、受信部１１０は、音声提供装置２００から放送される１つまたは複数の音声データを受信したか否かを判断する。音声データには、上述の通り、受信部１１０により発話者情報が付加されている。受信部１１０は、音声データを受信していない場合（Ｓ２０００：ＮＯ）、ステップＳ１０００へ戻る。また、受信部１１０は、音声データを受信した場合（Ｓ２０００：ＹＥＳ）、ステップＳ３０００へ進む。

　そして、ステップＳ３０００において、受信部１１０は、受信した音声データに配置情報が設定されていない音声データ（送信元、チャネル）があるか否かを判断する。受信部１１０は、配置情報が未設定の音声データがある場合（Ｓ３０００：ＹＥＳ）、ステップＳ４０００へ進む。また、受信部１１０は、受信した音声データの全てに配置情報が設定されている場合（Ｓ３０００：ＮＯ）、ステップＳ５０００へ進む。

　ステップＳ４０００において、受信部１１０は、配置情報が未設定の音声データに対して、空いている方向の配置情報を設定して、ステップＳ５０００へ進む。

　図４は、配置情報の設定内容の一例を示す図である。

　図４に示すように、受信部１１０は、方向７１０毎に、音声データ７２０を割り当てる。そして、受信部１１０は、その割り当て先の方向７１０を示す情報を、その音声データ７２０に対して、配置情報として設定する。例えば、図４に示すように、正面方向に、山田さんの発話音声を含む音声データ１が割り当てられたとする。この場合、ユーザが正面方向を向いて頷いたとき、後続の処理により、正面方向から「山田さん」という音声が聞こえてくることになる。また、例えば、図４に示すように、左方向にはどの音声データも割り当てられていないとする。この場合において、配置情報が未設定の音声データを受信したとき、受信部１１０は、左方向にその音声データを割り当て、その音声データに左方向の配置情報を設定する。

　図３のステップＳ５０００において、受信部１１０は、配置情報が付加された音声データを音声出力部１４０へ出力し、配置情報が付加された発話者情報を発話者情報保持部１３０へ出力する。この結果、発話者情報保持部１３０は、受信中の音声データに対応する発話者情報を保持した状態となる。

　ステップＳ６０００において、音声出力部１４０は、音声データに付加された配置情報の位置からユーザ４００に聞こえるように、音声データから出力音声データを生成し、音声出力装置３００へ出力する。

　そして、ステップＳ７０００において、操作入力部１２０は、音声出力部１４０が音声を出力している間、所定の操作、つまり、発話者情報の提示に対する要求が入力されるのを待ち受ける。操作入力部１２０は、所定の操作が行われた場合（Ｓ７０００：ＹＥＳ）、ステップＳ８０００へ進む。また、操作入力部１２０は、所定の操作が行われていない場合（Ｓ７０００：ＮＯ）、ステップＳ９５００へ進む。

　ステップＳ８０００において、発話者情報保持部１３０は、発話者情報要求に付加された指定配置情報に対応する発話者名を特定し、発話者名と指定配置情報とを音声出力部１４０に出力する。

　そして、ステップＳ９０００において、音声出力部１４０は、発話者情報要求に付加された指定配置情報の位置からユーザ４００に聞こえるように、発話者名の読み上げ音声の出力音声データを生成する。そして、音声出力部１４０は、受信部１１０から入力された音声データに生成した音声データを重畳して、音声出力装置３００へ出力する。そして、処理は、ステップＳ９５００へ進む。

　ステップＳ９５００において、音声制御装置１００は、継続して音声を出力中であるか否かを判断する。音声制御装置１００は、音声を出力中である場合（Ｓ９５００：ＹＥＳ）、ステップＳ７０００へ戻り、音声出力と所定の操作の監視とを継続する。なお、音声データに対してストリーム処理を行う場合、音声制御装置１００は、ステップＳ６０００へ戻ってもよい。また、音声制御装置１００は、音声の出力が終了した場合（Ｓ９５００：ＮＯ）、ステップＳ１０００へ戻り、新たな音声データの受信の監視を継続する。

　そして、受信部１１０は、終了の要求があると（Ｓ１０００：ＹＥＳ）、一連の動作を終了する。

　このような動作により、音声制御装置１００は、ユーザがいずれかの方向に顔を向けて頷く動作を行ったとき、その方向に設定された発話者の発話者名を、音声でユーザに聞かせることができる。また、この発話者名の音声は、本来の音声に重畳された状態となる。

　なお、受信した発話者情報の保持と受信した音声データの出力とを行う処理、操作入力を受け付ける処理、および発話者名の音声出力の処理は、別のスレッドで同時に実行されてもよい。また、発話者情報の保持と受信した音声データの出力を行う処理は、同時に複数存在してもよく、これら複数の処理は、同時並行で実行されてもよい。

　以上のように、本実施の形態に係る音声制御装置１００は、出力中の発話音声の発話者情報を保持し、発話音声の出力中に所定の操作が行われたとき、保持している発話者情報を音声で出力する。これにより、音声制御装置１００は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる。

　例えば、ラジオのスイッチを入れて発話者の発言を途中から聞き始めたときや、複数の発話者が同時に発言しているときなど、声だけでは発話者が誰であるか認識できない場合がある。このような場合でも、音声制御装置１００を用いることにより、ユーザは、文字による視覚情報を用いることなく、つまり、視覚を用いる事なく、発話者の情報を取得することができる。したがって、音声制御装置１００は、車両の運転中のラジオ放送視聴や、家事を行っている間の音声コミュニケーション等に好適である。

　なお、所定の操作は、上述の例に限定されるものではなく、例えば、所定のボタンの押下操作としてもよい。また、配置情報を指定する操作は、上述の例に限定されるものではなく、例えば、１つのボタンが押下される毎に、配置情報が所定の順番で切り替わる前提で、ボタンの最終的な押下回数により行われてもよい。

　また、発話者情報保持部１３０は、必ずしも所定の時間が経過した発話者情報を削除しなくてもよい。また、発話者情報保持部１３０は、削除を行う場合、同一チャネルの音声データの話者が変更されるタイミングよりも前に該当する発話者情報の削除を行う事が望ましい。このために、発話者情報保持部１３０は、音声データが終了する毎に対応する発話者情報を削除してもよい。また、発話者情報保持部１３０は、発話者の発話頻度が少ない順に各発話者情報を適宜削除してもよいし、一定時間発話していない発話者の発話者情報を削除するようにしてもよい。

　また、配置情報は、音声提供装置２００により設定されてもよい。この場合、音声提供装置２００は、例えば、各チャネルの音声データに配置情報を付加する。そして、音声制御装置１００の受信部１１０は、音声データに付加された配置情報を用いる。また、配置情報は、音声制御装置１００のユーザにより手動で設定または変更されてもよい。

　（実施の形態２）
　本発明の実施の形態２は、本発明に係る音声制御装置を、多地点会議システム用の音声コミュニケーションツールに適用した例である。

　図５は、本実施の形態に係る音声制御装置の構成の一例を示すブロック図である。

　図５に示すように、本実施の形態に係る音声制御装置１００ａは、図１の構成に加えて音声入力部１５０ａおよび送信部１６０ａを有している。また、本実施の形態に係る音声制御装置１００ａは、実施の形態１とは異なる操作入力部１２０ａ、発話者情報保持部１３０ａを有している。

　音声入力部１５０ａは、ユーザの発話音声を入力する音声入力装置６００ａと有線または無線により接続し、音声入力装置６００ａから、ユーザの発話音声を含む音声の電気信号を受信する。そして、音声入力部１５０ａは、受信した電気信号を、Ａ／Ｄコンバータにより、デジタル信号の音声データ（以下「ユーザ音声データ」という）へと変換する。音声入力装置６００ａは、例えば、ヘッドセットのマイクロフォンであり、入力した音声を電気信号に変換する装置である。音声入力部１５０ａは、操作入力部１２０ａから入力されるモード切替操作情報を受けて、発話者情報入力モードと会話モードとを切り替える。発話者情報入力モードのとき、音声入力部１５０ａは、受信したユーザ音声データを、発話者情報保持部１３０ａへ出力する。会話モードのとき、音声入力部１５０ａは、ユーザ音声データを、送信部１６０ａへ出力する。

　なお、音声入力部１５０ａは、音声認識機能により、予め設定された音声コマンドがユーザ音声データに含まれているかを逐次判断してもよい。そして、音声入力部１５０ａは、音声コマンドが検出されたとき、その内容を示すコマンド情報を、操作入力部１２０ａに出力してもよい。または、この音声コマンドを検出する機能は、操作入力部１２０ａに搭載されていてもよい。

　なお、会話モードにおけるユーザ音声データは、以下「会話音声データ」という。会話音声データは、実施の形態１において音声提供装置２００から放送される「音声データ」に相当する。

　操作入力部１２０ａは、実施の形態１の操作入力部１２０の機能に加え、モード切替の操作を受け付け、モード切替操作情報を音声入力部１５０ａへ出力する機能を有する。モード切替操作情報は、例えば、録音開始と録音終了のタイミングを指定する情報である。なお、モード切替が音声コマンドによって行われる場合、必ずしもこの機能は必要ではない。

　発話者情報保持部１３０ａは、実施の形態１の発話者情報保持部１３０の機能に加え、音声入力部１５０ａから入力された発話者情報を保持する機能を有する。本実施の形態における発話者情報は、発話者名をユーザが読み上げた音声データ（以下「発話者情報音声データ」という）であるものとする。

　送信部１６０ａは、例えばインターネットに接続するためのネットワークデバイスを有し、音声入力部１５０ａから入力される会話音声データを、音声提供装置２００ａへ送信する。このとき、送信部１６０ａは、会話音声データに、発話者情報保持部１３０ａに保持された発話者情報音声データを付加する。なお、本実施の形態に係る受信部１１０は、インターネットに接続するためのネットワークデバイスを有するものとする。

　音声提供装置２００ａは、例えば、インターネット上に配置された、ファイルシステムおよびデータベース等を備えたコミュニケーションサーバである。音声提供装置２００ａは、ある多地点会議において、ある音声制御装置１００ａから会話音声データを受信したとき、その会話音声データを、多地点会議に参加する他の全ての音声制御装置１００ａへと転送する機能を有する。

　このような音声制御装置１００ａは、発話者情報音声データを付加した会話音声データを、音声提供装置２００ａを介して、他の音声制御装置１００ａへ送信することができる。これにより、特に音声提供装置２００ａに発話者情報を会話音声データに付与する機能を用意する必要がなくなる。また、ユーザが自ら発話者情報を簡単に設定することができる。また、発話者情報を音声データとしたため、テキスト読み上げ機能を不要とすることができると共に、ユーザ本人の声を情報として付加することができる。

　次に、音声制御装置１００ａの動作について説明する。

　図６は、音声制御装置１００ａの動作の一例を示すフローチャートであり、実施の形態１の図３に対応するものである。図３と同一部分には同一符号を付し、これについての説明を省略する。

　まず、音声入力部１５０ａは、終了要求が無い場合（Ｓ１０００：ＮＯ）、ステップＳ１１００ａにおいて、発話者情報入力モードであるか否かを判断する。音声入力部１５０ａは、発話者情報入力モードである場合（Ｓ１１００ａ：ＹＥＳ）、ユーザ音声データ（つまり発話者情報音声データ）を発話者情報保持部１３０ａへ出力して、ステップＳ１２００ａへ進む。また、音声入力部１５０ａは、発話者情報入力モードではない場合（Ｓ１１００ａ：ＮＯ）、ユーザ音声データ（ここでは会話音声データとする）を送信部１６０ａへ出力してステップＳ１３００ａへ進む。

　ステップＳ１２００ａにおいて、発話者情報保持部１３０ａは、入力された発話者情報音声データを保持して、ステップＳ１３００ａへ進む。発話者情報保持部１３０ａは、過去の発話者情報音声データを新たに入力された発話者情報により上書きしてもよいし、複数種類の発話者情報音声データを保持してもよい。

　ステップＳ１３００ａにおいて、送信部１６０ａは、会話音声データが音声入力部１５０ａから入力されたか否かを判断する。送信部１６０ａは、会話音声データが入力された場合（Ｓ１３００ａ：ＹＥＳ）、ステップＳ１４００ａへ進む。また、送信部１６０ａは、会話音声データが入力されていない場合（Ｓ１３００ａ：ＮＯ）、ステップＳ２０００へ進む。

　ステップＳ１４００ａにおいて、送信部１６０ａは、入力された会話音声データに、発話者情報保持部１３０ａに保持された発話者情報音声データを付加して音声提供装置２００ａへ送信し、ステップＳ２０００へ進む。複数種類の発話者情報音声データが発話者情報保持部１３０ａに保持されている場合、送信部１６０ａは、ユーザ操作や送信先に応じて、使用する発話者情報音声データを切り替えてもよい。

　ステップＳ２０００以降の動作は実施の形態１と同様である。但し、音声制御装置１００ａは、音声提供装置２００ａから取得した発話者情報が発話者情報音声データであるため、読み上げ音声を生成せずに発話者情報から直接音声出力を行う。

　このような動作により、音声制御装置１００ａは、発話者情報音声データを付加した会話音声データを送信することができる。

　以上のように、本実施の形態に係る音声制御装置１００ａは、発話者情報を付加した会話音声データを送信するので、音声データが交換されるシステムに好適である。また、本実施の形態では、発話者音声データを用いるので、テキスト読み上げの機能を不要とすることができる。また、発話者情報音声データは、ユーザ自身の声の録音により作成されるので、ユーザが発話者をより直感的に認識することが可能となる。

　なお、発話者情報は、必ずしも会話音声データを送信する毎に送信される必要はなく、例えば、会議の開始時に１回のみ送信されるようにしてもよい。発話者情報が毎回送信される場合、受信側で会話音声データの送信元と配置との対応付けを厳格に管理する必要がなくなるというメリットがあるが、受信側で一旦受信した各送信元の発話者情報を記憶しておく必要がある。また、発話者情報の送信回数を抑えた場合、通信負荷が軽減されるというメリットがある。

　また、発話者情報は、送信側の音声制御装置１００ａではなく、音声提供装置２００ａにおいて管理されていてもよい。また、音声制御装置１００ａは、会話音声データを送信する毎に発話者情報を送信しない場合、発話者情報と会話音声データとを一意に対応付ける識別子を使用する必要がある。この識別子は、例えば、シリアル番号やＭＡＣ（media access control）アドレス等の音声制御装置１００ａが固有に保持している情報でもよい。あるいは、この識別子は、音声制御装置１００ａまたは音声提供装置２００ａによって設定された値であってもよい。

　また、音声提供装置２００ａの機能は、１つまたは複数の音声制御装置１００ａに搭載されていてもよい。この場合、アドホックネットワーク環境が形成される。

　また、以上説明した各実施の形態では、受信した音声データの音声出力がほぼリアルタイムに行われる場合について説明したが、必ずしもリアルタイムに行われなくてもよい。音声データを録音しておいて後で再生する場合等、受信時刻と音声出力時刻とが大きくずれる場合でも発話者情報を出力するために、受信部は、音声データの時刻に対応付けて、発話者情報を受信して発話者情報保持部に保持させればよい。そして、音声出力部は、出力中の音声データの時刻に対応する発話者情報を出力するようにすればよい。

　また、以上説明した各実施の形態では、発話者情報は、発話者名等の発話者が誰であるかを特定することができる情報としたが、必ずしもこれに限定されない。同一の話者による発言であることを識別することのみが目的である場合、発話者情報は、番号やビープ音や音楽等の音声情報とすることができる。また、識別の対象となる音声は、必ずしも発言や会話の発話音声でなくてもよく、例えば、楽器演奏の音や歌声でもよい。また、識別の対象となる音声の出力元は、必ずしも人でなくてもよく、例えば、動物や車両でもよい。

　２０１０年１１月９日出願の特願２０１０－２５０８９２の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

　本発明は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置および音声制御方法として有用である。

　１００、１００ａ　音声制御装置
　１１０　受信部
　１２０、１２０ａ　操作入力部
　１３０、１３０ａ　発話者情報保持部
　１４０　音声出力部
　１５０ａ　音声入力部
　１６０ａ　送信部
　２００、２００ａ　音声提供装置
　３００　音声出力装置
　６００ａ　音声入力装置

Claims

　発話音声を含む音声データを受信する受信部と、
　取得された前記音声データに基づいて前記発話音声を出力する音声出力部と、
　出力中の前記発話音声の発話者情報を保持する発話者情報保持部と、
　所定の操作を任意のタイミングで受け付ける操作入力部と、を有し、
　前記音声出力部は、
　前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力する、
　音声制御装置。
　前記受信部は、
　前記音声データの時刻に対応付けて、前記発話者情報を受信して前記発話者情報保持部に保持させ、
　前記音声出力部は、
　出力中の音声データの時刻に対応する前記発話者情報を、前記発話者情報保持部から取得して音声で出力する、
　請求項１記載の音声制御装置。
　前記受信部は、
　前記発話者情報に対応付けて、前記音声データの識別情報を取得して前記発話者情報保持部に保持させ、
　前記操作入力部は、
　前記識別情報を指定する操作を受け付け、
　前記音声出力部は、
　前記所定の操作が行われ、かつ、前記識別情報を指定する操作が行われたとき、出力中の前記発話音声の前記発話者情報のうち、指定された前記識別情報に対応する前記発話者情報を音声で出力する、
　請求項２記載の音声制御装置。
　前記音声出力部は、
　前記受信部が複数の音声データを受信するとき、前記複数の音声データに基づく複数の前記発話音声を出力する、
　請求項３記載の音声制御装置。
　前記識別情報は、方向に関する情報である、
　請求項４記載の音声制御装置。
　前記操作入力部は、
　前記所定の操作が行われたとき、ユーザの顔の方向に関する情報を、前記指定された識別情報として取得する、
　請求項５記載の音声制御装置。
　前記受信部は、
　前記複数の音声データの送信元を識別し、送信元毎に、前記ユーザに対する方向を示す配置情報を、前記識別情報として設定する、
　請求項６記載の音声制御装置。
　前記ユーザの発話音声を含む音声データを取得する音声入力部と、
　取得された前記音声データを他の装置へ送信する送信部と、を有し、
　前記送信部は、
　前記音声データの時刻に対応付けて、前記ユーザを示す発話者情報を前記他の装置へ送信する、
　請求項１記載の音声制御装置。
　前記操作入力部は、
　取得された前記音声データに含まれる特定の音声を、前記所定の操作とする、
　請求項８記載の音声制御装置。
　発話音声を含む音声データを受信するステップと、
　取得された前記音声データに基づいて前記発話音声を出力するステップと、
　出力中の前記発話音声の発話者情報を保持するステップと、
　所定の操作を任意のタイミングで受け付けるステップと、
　前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力するステップと、を有する、
　音声制御方法。