JPWO2014199596A1

JPWO2014199596A1 - 話者識別方法、話者識別装置及び話者識別システム

Info

Publication number: JPWO2014199596A1
Application number: JP2015522523A
Authority: JP
Inventors: 智美松岡
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2013-06-10
Filing date: 2014-06-04
Publication date: 2017-02-23
Anticipated expiration: 2034-06-04
Also published as: US20150205568A1; JP6534926B2; US9710219B2; WO2014199596A1

Abstract

本開示は、話者識別システムにおける話者識別方法である。システムは、複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、複数の登録音声信号にそれぞれ対応付けられ複数の話者をそれぞれ表す複数の話者画像とを保存する。方法は、表示部の周辺に位置する話者の音声を取得し、話者の音声から話者音声信号を生成し、保存されている複数の登録音声信号のうち、話者音声信号に対応する登録音声信号を識別し、識別された登録音声信号に対応付けられている話者画像を、少なくとも話者音声信号を生成する元となった話者の音声が取得されている間、表示部に表示させる。

Description

本開示は、話者を識別して表示部に識別した話者を表す話者画像を表示する話者識別方法、話者識別装置及び話者識別システムに関するものである。

従来、話者識別および音声認識装置として、音声信号中に含まれる情報を用いて話者を識別する方法が提案されている。特許文献１では、会話内容を音声認識により文字データで記録する際に、一文字毎にタイムスタンプと音声から抽出する音声特徴を合わせて記録し、同一話者の発言内容を色や表示位置で区分して表示する方法が開示されている。これにより話者別に識別可能な会議システムを実現している。

また、特許文献２では、音声データを文字画像データに変換し、発声順に連なって移動する文字列からなる表示方法について開示されている。これにより画像と文字により情報が重層的に理解できる表示方法を実現している。

しかしながら、従来の構成において、更なる改善が必要であった。

特開平１０−１９８３９３号公報特開２００２−３４１８９０号公報

上記課題を解決するため、本開示の一態様は、表示部の周辺に位置する話者の音声を識別し識別結果を前記表示部に表示する話者識別システムにおける話者識別方法であって、
前記話者識別システムは、複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、前記複数の登録音声信号にそれぞれ対応付けられ前記複数の話者をそれぞれ表す複数の話者画像とを保存するデータベースを含み、
前記表示部の周辺に位置する話者の音声を取得し、
前記取得された話者の音声から話者音声信号を生成し、
前記データベースに保存されている複数の登録音声信号のうち、前記生成された話者音声信号に対応する登録音声信号を識別し、
前記識別された登録音声信号に対応付けて前記データベースに保存されている前記話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声が取得されている間、前記表示部に表示させるものである。

本態様によれば、更なる改善を図ることができる。

実施の形態１における話者識別システムを構成する話者識別装置の構成例を示すブロック図である。図１に示される話者識別装置の制御部の機能を示すブロック図である。音声ＤＢに蓄積されている音声情報の一例を示す図である。音声ＤＢに蓄積されている音声情報の別の例を示す図である。実施の形態１の話者識別システムの図１に示される話者識別装置における処理を示すフローチャートである。実施の形態１における話者識別システムの別の構成例を示すブロック図である。図６の話者識別システムにおける動作の一例を示すシーケンス図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。図１又は図６の話者識別システムにおいて、表示部に表示される登録アイコンの具体的な表示例を示す図である。実施の形態２における図１の話者識別装置の制御部の機能を示すブロック図である。実施の形態２の図１の話者識別システムにおける処理を示すフローチャートである。ユーザが修正指示に用いる入力受付部の一例を示す図である。ユーザが修正指示に用いる入力受付部の一例を示す図である。実施の形態２の図６の話者識別システムにおける動作の一例を示すシーケンス図である。実施の形態における話者識別システムの全体像を示す図である。データセンタ運営会社の一例を示す図である。データセンタ運営会社の一例を示す図である。実施の形態におけるサービスの類型（自社データセンタ型）を示す図である。実施の形態におけるサービスの類型（ＩａａＳ利用型）を示す図である。実施の形態におけるサービスの類型（ＰａａＳ利用型）を示す図である。実施の形態におけるサービスの類型（ＳａａＳ利用型）を示す図である。

（本開示の基礎となった知見）
家庭内の機器から使用状況、又はその機器を使用しているユーザの音声情報等を取得し、この取得した情報に基づいてユーザにサービスを提供するシステムが検討されている。しかし、ユーザにとって機器の使用状況又は音声情報は、個人情報に類する情報としての側面がある。よって、もし取得した機器の使用状況又は音声情報が可視化されないまま利用されると、どのように取得した情報が利用されているのかが不明確であり、ユーザにとって抵抗があると考えられる。よって、ユーザの抵抗を軽減するために、取得した情報を可視化して表示するシステムを開発する必要がある。

更に、機器が取得した情報に誤検出がある場合は、誤検出の情報を可視化すると、ユーザに対してさらに不快感を与えてしまう。よって、取得した情報を可視化して表示しつつ、誤検出があった場合には、誤検出に基づき可視化された情報をユーザの操作で簡易に修正可能であることが好ましい。

また、ユーザから取得した情報を表示する装置として、わざわざ取得した情報を表示するためだけの専用表示機器を家庭内に配置することは、コストがかかる点及び設置場所を要してしまう点で、好ましくない。そこで例えば家庭内におけるテレビ受像機（以下、「テレビ」という）などの、本来、取得した情報の結果を表示することが目的ではない表示装置上に表示することが考えられる。テレビのような表示装置の場合、受信したテレビ放送の映像を表示画面に表示する必要がある。したがって、テレビ放送以外の取得した情報をテレビの表示画面上に表示する方法に関しては検討が必要である。一方で、上記したようにユーザにとっての抵抗感を減らすため、音声認識の結果は簡単に、かつ即座に確認できることが好ましい。

さらに、例えばテレビの表示画面上に取得した音声情報を表示する場合、テレビの周辺には不特定多数の人が存在する可能性が高い。それら複数の人の音声情報をテレビの表示画面上に、即座に明確かつ簡潔に表示し、修正まで可能なシステムに関しては、従来より検討がされていない。

特許文献１，２に記載の技術のように、話者識別および音声認識の結果を文字で表示する際には、複数の人が会話している場合又は話者が連続して複数回にわたり発声した場合において、文字列の表示画像が複雑になり、誰が識別されて表示されているのか明確にわかりづらい。また、まれに話者識別の結果が異なって表示された場合に、簡易な修正方法がないという問題点があった。

また、特許文献１，２に記載の技術では、例えばテレビなど、本来、音声認識の結果を表示することが目的ではない表示装置上に、音声認識の結果を表示する際の、表示方法に関しては、十分な検討がされていない。

例えば特許文献１による技術では、単に、会議等の内容を記録する会話記録装置であって、音声認識結果を一文字毎にタイムスタンプおよび音声から抽出する特徴量を合わせて記録し、記録後にクラスタリング処理を行い、会話に参加していた人数と、各話者の音声特徴を求め、各話者の音声特徴と記録データを比較して話者を判別し、同一話者の発言内容を色や表示位置で区分して表示するものである。そのため、特許文献１に記載の技術では、複数話者が発声した場合、表示内容を簡易に且つ間違えなく確認して内容を修正することは困難であると考えられる。また、取得した音声情報を表示する例が示されているが、画面全体に音声情報を表示する例しか示されていない。よって、特許文献１に記載の技術には、テレビなど、本来音声認識の結果を表示することが目的ではない表示装置上に、音声情報を表示することに関しては課題の認識すらない。

また、特許文献２による技術は、音声信号に含まれる言語情報と音声特性情報との双方を迅速かつ簡便に理解できる音声認識文字表示装置に関するものである。この技術では、単に文字画像データに変換し、発声順に連なって移動する文字列からなる表示方法について開示されている。特許文献２に記載の技術では、画像と文字により情報が重層的に理解できる表示方法を実現しているため、表示に誤りがあった際に、簡便に変更することは困難であると考えられる。

本開示は、以上のような従来の話者識別および音声認識表示装置の課題を解決するものである。本開示の一態様により、複数の話者の音声情報を取得し、例えばテレビのような表示装置において、本来表示すべきコンテンツを表示しつつ、取得した音声情報を即座に明確かつ簡潔に表示することができる装置が提供される。さらには、本開示の一態様により、取得した情報に誤検出があった際等に、表示されている情報を簡易にユーザが修正可能な装置が提供される。

本開示の一態様は、
表示部の周辺に位置する話者の音声を識別し識別結果を前記表示部に表示する話者識別システムにおける話者識別方法であって、
前記話者識別システムは、複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、前記複数の登録音声信号にそれぞれ対応付けられ前記複数の話者をそれぞれ表す複数の話者画像とを保存するデータベースを含み、
前記表示部の周辺に位置する話者の音声を取得し、
前記取得された話者の音声から話者音声信号を生成し、
前記データベースに保存されている複数の登録音声信号のうち、前記生成された話者音声信号に対応する登録音声信号を識別し、
前記識別された登録音声信号に対応付けて前記データベースに保存されている前記話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声が取得されている間、前記表示部に表示させるものである。

本態様によれば、表示部に話者を表す話者画像が表示されるため、ユーザに、話者の識別結果を明確に表示することができる。また、表示部に話者画像が表示されるのは、少なくとも話者音声信号を生成する元となった話者の音声が取得されている間である。このため、表示部により本来表示したいコンテンツ（例えば表示部がテレビ受像機の表示画面であればテレビ放送番組）の表示の過度の妨げになることが抑制される。

上記態様において、例えば、
前記話者音声信号を生成する元となった前記話者の音声が取得されなくなった時点から所定時間が経過すると、前記表示されている前記話者画像を前記表示部から消去してもよい。

本態様によれば、話者音声信号を生成する元となった話者の音声が取得されなくなった時点から所定時間が経過すると、表示されている話者画像が表示部から消去される。このため、表示部により本来表示したいコンテンツの表示の過度の妨げになるのが防止される。

上記態様において、例えば、
前記データベースは、前記複数の音声登録信号として、第１話者の音声に基づき生成された第１登録音声信号と、第２話者の音声に基づき生成された第２登録音声信号とを保存し、かつ、前記第１登録音声信号に対応付けられ前記第１話者を表す第１話者画像と、前記第２登録音声信号に対応付けられ前記第２話者を表す第２話者画像とを保存し、
前記第１話者の音声が取得されると、第１話者音声信号が生成され、
前記生成された第１話者音声信号が前記第１登録音声信号に対応すると識別されると、少なくとも前記第１話者の音声が取得されている間、前記第１話者画像が前記表示部に表示され、
前記第１話者画像が前記表示部に表示されているときに、前記第２話者の音声が取得されると、第２話者音声信号が生成され、
前記生成された第２話者音声信号が前記第２登録音声信号に対応すると識別されると、少なくとも前記第２話者の音声が取得されている間、前記第１話者画像に加えて、前記第２話者画像が前記表示部に表示されてもよい。

本態様によれば、少なくとも第１話者の音声が取得されている間、表示部には第１話者画像が表示され、少なくとも第２話者の音声が取得されている間、表示部には第２話者画像が表示される。このため、表示部に表示される話者画像によって、現在の話者を確認することができる。

上記態様において、例えば、
前記第１話者の音声と前記第２話者の音声とが取得された順に、前記第１話者画像と前記第２話者画像とが、前記表示部に並べられて表示されてもよい。

本態様によれば、第１話者と第２話者との間で話者が交替する度に、表示部に表示される第１話者画像と第２話者画像との並び順が入れ替えられる。その結果、話者に対して発話が促されることとなる。

上記態様において、例えば、
前記第１話者画像と前記第２話者画像とのうち、前記データベースに後で登録された方の話者画像は、前記データベースに先に登録された方の話者画像とは異なる態様で前記表示部に表示されてもよい。

本態様によれば、第１話者画像と第２話者画像とのうち、データベースに後で登録された方の話者画像は、先に登録された方の話者画像とは異なる態様で表示部に表示される。このため、後から発話した話者を容易に確認することができる。

上記態様において、例えば、
前記第１話者の発話回数と、前記第２話者の発話回数とがカウントされ、
前記第１話者画像と前記第２話者画像とは、前記カウントされた発話回数の多い順に、前記表示部に並べられて表示されてもよい。

本態様によれば、第１話者画像と第２話者画像とは、発話回数の多い順に、表示部に並べられて表示される。このため、第１話者と第２話者とに発話が促されることとなる。

上記態様において、例えば、
前記話者画像についての話者からの修正指示が受け付けられると、前記修正を指示した話者の音声を新たに取得し、
前記新たに取得された話者の音声から新たに話者音声信号を生成し、
前記データベースに保存されている、前記修正指示が行われた前記話者画像に対応付けられている前記登録音声信号を、前記新たに生成された話者音声信号に書き換えてもよい。

本態様によれば、話者画像についての話者からの修正指示が受け付けられると、データベースに保存されている、修正指示が行われた話者画像に対応付けられている登録音声信号が、新たに生成された話者音声信号に書き換えられる。その結果、登録音声信号が誤っていたために、誤った話者画像が表示部に表示されても、修正が容易に行われる。

上記態様において、例えば、
前記話者からの修正指示は、前記表示部に表示されている前記話者画像について受け付けられ、前記表示部に表示されていない前記話者画像については受け付けられないようにしてもよい。

本態様によれば、話者からの修正指示は、表示部に表示されていない話者画像については受け付けられないため、例えば話者による誤った修正指示を受け付けるような事態が避けられる。

上記態様において、例えば、
前記生成された話者音声信号から前記話者の属性を判別し、
前記判別された前記話者の属性に基づき前記話者画像を作成し、
前記生成された話者音声信号と前記判別された前記話者の属性と前記作成された前記話者画像とを、互いに対応付けて前記データベースに保存し、前記データベースには、前記生成された話者音声信号は、前記登録音声信号として保存されるようにしてもよい。

本態様によれば、話者の音声が取得されると、登録音声信号と話者の属性と話者画像とが、互いに対応付けられてデータベースに保存される。したがって、ユーザによる登録のための操作数を低減することができる。話者の属性は、例えば話者の性別でもよい。話者の属性は、例えば話者の概略の年齢でもよい。

本開示の他の態様は、
表示部と、
前記表示部の周辺に位置する話者の音声を取得する音声取得部と、
前記取得された話者の音声から話者音声信号を生成する音声処理部と、
複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、前記複数の登録音声信号にそれぞれ対応付けられ前記複数の話者をそれぞれ表す複数の話者画像とを記憶するデータベースと、
前記データベースに記憶されている前記複数の登録音声信号のうち、前記生成された前記話者音声信号に対応する登録音声信号を識別する識別処理部と、
前記識別された前記登録音声信号に対応付けて前記データベースに記憶されている前記話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声を前記音声取得部が取得している間、前記表示部に表示する表示制御部とを備えるものである。

本開示のさらに他の態様は、
表示部と、
前記表示部の周辺に位置する話者の音声を取得する音声取得部と、
前記取得された話者の音声から話者音声信号を生成する音声処理部と、
ネットワークを介して外部のサーバ装置と通信を行う通信部と、
前記表示部を制御する表示制御部と、
を備え、
前記通信部は、前記生成された話者音声信号を前記サーバ装置に送信し、かつ、前記サーバ装置から、前記話者音声信号を基に識別された前記話者を表す話者画像を受信し、
前記表示制御部は、前記受信された話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声を前記音声取得部が取得している間、前記表示部に表示させるものである。

本態様によれば、サーバ装置において、話者音声信号を基に話者を表す話者画像が識別される。サーバ装置から話者画像が通信部により受信される。受信された話者画像が、表示部に表示される。このため、ユーザに、話者の識別結果を明確に表示することができる。また、表示部に話者画像が表示されるのは、少なくとも話者音声信号を生成する元となった話者の音声が取得されている間である。このため、表示部により本来表示したいコンテンツ（例えば表示部がテレビ受像機の表示画面であればテレビ放送番組）の表示の過度の妨げになることが抑制される。

本開示のさらに他の態様は、
表示部の周辺に位置する話者の音声を取得する音声取得部と、
前記取得された話者の音声から話者音声信号を生成する音声処理部と、
複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、前記複数の登録音声信号にそれぞれ対応付けられ前記複数の話者をそれぞれ表す複数の話者画像とを記憶する記憶部と、
前記複数の登録音声信号のうち前記生成された話者音声信号に対応する登録音声信号を識別する識別処理部と、
前記識別された前記登録音声信号に対応付けて前記記憶部に記憶されている前記話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声を前記音声取得部が取得している間、前記表示部に表示させる表示制御部と、を備えるものである。

以下、実施の形態について、図面を参照しながら説明する。

なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
図１は、実施の形態１における話者識別システムを構成する話者識別装置２００の構成例を示すブロック図である。図２は、図１に示される話者識別装置２００の制御部２０５の機能を示すブロック図である。

話者識別装置２００は、図１に示されるように、音声取得部２０１、音声データベース（ＤＢ）２０３、表示部２０４、及び制御部２０５を備える。また、話者識別装置２００は、通信部２０２、入力受付部２０６をさらに備えていてもよい。話者識別装置２００の制御部２０５は、図２に示されるように、音声処理部１０１、データベース管理部１０２、識別処理部１０３、及び表示制御部１０４を含む。

ここで、話者識別装置２００は、例えば一般家庭用のテレビ、パーソナルコンピュータ（ＰＣ）におけるモニタなどでもよい。ここでは、話者識別装置２００として、特に、上記の「本開示の基礎となった知見」にて説明した通り、話者識別結果を表示するためだけの専用表示装置というよりは、別のコンテンツ等を表示することのできる装置を想定している。ただし、表示機能を有する装置に上記の各構成が備えられていれば、いかなる装置を採用してもよい。

また、各構成は、必ずしも、話者識別装置２００の筐体の内部に配置されていなくてもよい。例えば音声取得部２０１が、話者識別装置２００の筐体の外部に接続されていても、その音声取得部２０１は、話者識別装置２００に含まれる。話者識別装置２００は、一の家庭に一台のみ配置されているとは限らず、一の家庭に複数台配置されている場合もある。話者識別装置２００は、この実施の形態１では、一般家庭用のテレビである。

音声取得部２０１は、例えばマイクロフォンなどである。音声取得部２０１は、話者識別装置２００を視聴している視聴者が発話した音声を取得する。ここで、音声取得部２０１には、指向性を制御する機器が備わっていてもよい。この場合には、視聴者の存在する方向に指向性を持たせることにより、視聴者が発話した音声を取得する精度を向上させることができる。また、話者が位置する方向を検出することができる。

また、音声取得部２０１は、人の発話に関する音声以外の音を、取得しない機能（もしくは除去する機能）を有していてもよい。この実施の形態１のように、例えば話者識別装置２００がテレビの場合、音声取得部２０１は、取得した音声からテレビの音声信号を除去する機能を有していてもよい。これによって、視聴者が発話した音声を取得する精度を向上させることができる。

音声ＤＢ２０３は、情報を蓄積（記録）することが可能な記録媒体等で構成される。音声ＤＢ２０３は、話者識別装置２００の筐体の内部に設けられていなくてもよい。音声ＤＢ２０３が例えば外付けの記録媒体等で構成されて、話者識別装置２００の筐体の外部に接続されていても、音声ＤＢ２０３は、話者識別装置２００に含まれる。

音声ＤＢ２０３には、話者識別装置２００を保持している家族の音声、家族の動作音または家族の音声以外の音声、さらに家族の構成員（ユーザ）の年齢及び性別等の情報が蓄積されて管理されている。音声ＤＢ２０３に蓄積されている情報の詳細については特に限定しないが、音声取得部２０１が取得した話者識別装置２００周辺の音声から、ユーザを特定できる情報が蓄積されていればよい。

この実施の形態１では、例えば、音声ＤＢ２０３には、登録音声信号（音声信号のスペクトル又は周波数等から生成された情報）と、ユーザ情報（年齢、性別又はニックネーム等の情報）とが、互いに対応付けられて蓄積されている。また、この実施の形態１では、音声ＤＢ２０３には、各ユーザに対応する話者画像が対応付けられて蓄積されている。

図３は、音声ＤＢ２０３に蓄積されている音声情報８００の一例を示す図である。音声情報８００は、互いに対応付けられた、登録音声信号８０１と、ユーザ情報８０２と、登録アイコン８０３（話者画像の一例）とを含む。

図３では、登録音声信号８０１は、音声信号のスペクトル又は周波数等の情報を基に生成された予め設定された次元数の特徴ベクトルを表す信号である。登録音声信号８０１は、この実施の形態１では、「．ｗａｖ」形式のファイルとして登録されている。なお、登録音声信号８０１は、「．ｗａｖ」形式のファイルでなくてもよい。例えば、登録音声信号８０１は、ＭＰＥＧ−１ＡｕｄｉｏＬａｙｅｒ３、ＡｕｄｉｏＩｎｔｅｒｃｈａｎｇｅＦｉｌｅＦｏｒｍａｔ等の音声圧縮されたデータで生成されてもよい。また、登録音声信号８０１は、例えば自動的に圧縮ファイルにエンコードされ、音声ＤＢ２０３に格納されてもよい。

ユーザ情報８０２は、ユーザ（話者）の属性を表す情報である。この実施の形態１では、図３に示されるように、ユーザ情報８０２は、ユーザの属性として、「年齢」、「性別」、「ニックネーム」を含む。図３のユーザ情報８０２の例では、登録音声信号８０１が「０００１．ｗａｖ」のユーザに対応付けて、「年齢」が「４０代」に、「性別」が「男性」に、「ニックネーム」が「パパ」に、それぞれ設定されている。「年齢」及び「性別」については、データベース管理部１０２等が自動的に登録してもよく、ユーザが入力受付部２０６を用いて登録してもよい。「ニックネーム」については、ユーザが入力受付部２０６を用いて登録すればよい。

登録アイコン８０３は、ユーザ（話者）を表す話者画像である。図３の登録アイコン８０３の例では、登録音声信号８０１が「０００１．ｗａｖ」のユーザに対応付けて、「アイコンＡ０１」が設定され、登録音声信号８０１が「０００３．ｗａｖ」のユーザに対応付けて、「アイコンＢ０５」が設定されている。登録アイコン８０３は、後述の図８Ａに示されるように、○、□、△のような記号のアイコンでもよい。あるいは、登録アイコン８０３は、後述の図８Ｂに示されるように、人の顔を模式的に表したアイコンでもよい。

登録アイコン８０３に関しては、制御部２０５は、予め作成された複数のアイコンのなかからユーザが選択したアイコン、またはユーザが自ら作成した画像を、登録アイコン８０３として音声情報８００に登録してもよい。また、ユーザによってアイコンが音声情報８００に登録されていない場合でも、制御部２０５が、ユーザ情報８０２を基に、ユーザ情報８０２に適合するアイコンを選択して、又は作成して、音声情報８００に登録するようにしてもよい。

音声ＤＢ２０３に蓄積される音声情報８００の構築方法についても特に限定しない。例えば予めユーザが初期登録することで音声情報８００を構築できる。例えば、初期登録では、話者識別装置２００の前にいるユーザが発話をするたびに、音声取得部２０１が音声を取得する。音声処理部１０１は、取得された話者の音声から特徴ベクトルを生成し、生成した特徴ベクトルを表す話者音声信号を生成する。データベース管理部１０２は、生成された話者音声信号を、登録音声信号８０１として自動的に音声ＤＢ２０３の音声情報８００に登録する。このようにして、音声ＤＢ２０３が完成されてもよい。

また、その初期登録の際に、入力受付部２０６は、ユーザが発話したタイミングでユーザ情報８０２を入力させるようなユーザインタフェースを表示部２０４に表示させてもよい。データベース管理部１０２は、ユーザの入力受付部２０６に対するユーザ情報８０２の入力内容を用いて、音声ＤＢ２０３の音声情報８００を更新してもよい。

なお、音声情報８００に関して、上述のように初期登録によって音声ＤＢ２０３に予め登録しておかなくても、ある程度の話者の情報を識別することもできる。一般的に、年齢差や性別によって、話者の音声の基本周波数が異なることが知られている。例えば、男性が発話する音声の基本周波数の平均は１５０Ｈｚ〜５５０Ｈｚ、女性が発話する音声の基本周波数の平均は４００Ｈｚ〜７００Ｈｚと言われている。よって、初期登録に代えて、話者識別装置２００の識別処理部１０３は、音声処理部１０１で生成された音声を表す信号の周波数などの情報を基に、ある程度の年齢及び性別を判断してもよい。データベース管理部１０２は、識別処理部１０３の判断結果に基づき、自動で音声ＤＢ２０３の音声情報８００に、登録音声信号８０１及びユーザ情報８０２を登録するようにしてもよい。

また、ユーザ情報８０２に関しては、図３に記載のものに限られない。制御部２０５は、各ユーザごとに視聴履歴の多い番組などの嗜好情報を、ユーザ情報８０２として音声ＤＢ２０３に蓄積するようにしてもよい。また、ユーザ情報８０２の取得方法に関しても限定しない。ユーザが、話者識別装置２００を最初に使用するときに入力受付部２０６を用いてユーザ情報８０２の初期設定をするようにしてもよい。あるいは、最初に、ユーザの音声が取得されたタイミングで、ユーザが入力受付部２０６を用いてユーザ情報８０２を登録するようにしてもよい。

図４は、音声ＤＢ２０３に蓄積される音声情報８１０の別の例を示す図である。図４に示される音声情報８１０は、互いに対応付けられた、登録音声信号８０１と音声データ８０４とを含む。音声データ８０４は、音声取得部２０１によって取得された話者の音声から、音声処理部１０１によって生成された発話内容を表すデータである。図４に示されるような音声情報８１０が、音声ＤＢ２０３に蓄積されていくようにしてもよい。

この場合には、音声処理部１０１は、話者の音声の特徴ベクトルを表す話者音声信号に加えて、発話内容を表すデータを生成する。音声処理部１０１は、例えば音響モデル及び言語モデルを用いる音声認識技術によって、発話内容を表すデータを生成する。データベース管理部１０２は、音声処理部１０１によって生成された発話内容を表すデータを、音声ＤＢ２０３に音声データ８０４として蓄積する。

識別処理部１０３は、さらに、音声処理部１０１から出力された発話内容を表すデータと、音声ＤＢ２０３に蓄積されている音声データ８０４（発話内容）とを比較する。これによって、話者の特定精度を向上させることができる。

図４の例では、登録音声信号８０１が「０００２．ｗａｖ」のユーザが、あるタイミングで「料理番組を見ながら夕食を作りましょう」と発話していたことが記録されている。これにより、登録音声信号８０１が「０００２．ｗａｖ」に対応する話者が、別のタイミングで例えば「料理番組」等の同様の単語を発話した場合には、登録音声信号８０１が「０００２．ｗａｖ」に対応する話者の発話である可能性が高いと、識別処理部１０３が判断できる。

図１に戻って、表示部２０４は、一般的なモニタなどであり、特に限定しない。この実施の形態１では、表示部２０４は、テレビの表示画面である。表示部２０４は、制御部２０５の表示制御部１０４により制御されて、画像または情報を表示する。本実施の形態１の話者識別システムでは、表示部２０４は、取得された話者の音声に対応付けられた登録アイコン８０３を表示する。これにより、ユーザは、話者識別表示システムにより、誰が、または複数の人数が識別されているのかが明確に分かるようになる。

また、後述の実施の形態２の話者識別システムでは、話者識別装置２００の周辺に複数のユーザが存在する場合などに、話者識別が誤っていたことにより異なる登録アイコン８０３が表示された際には、簡易に修正が可能な構成にしている。表示部２０４に表示される登録アイコン８０３等の具体例は、図８Ａ〜８Ｆを参照して後述する。

制御部２０５は、例えばＣＰＵ又はマイクロコンピュータ、及びメモリなどを含む。制御部２０５は、音声取得部２０１、音声ＤＢ２０３、及び表示部２０４などの各構成の動作を制御する。例えばメモリに格納されたプログラムにしたがってＣＰＵ又はマイクロコンピュータが動作することにより、制御部２０５は、図２に示される音声処理部１０１、データベース管理部１０２、識別処理部１０３、及び表示制御部１０４として機能する。図２に示される制御部２０５の各機能は、図５を参照して後述される。

ここで、上記したように、話者識別装置２００は通信部２０２を備えていてもよい。通信部２０２は、インターネット等と接続することで他の機器やサーバ装置と通信し、情報のやりとりを行う。

また、話者識別装置２００は、入力受付部２０６を備えていてもよい。入力受付部２０６は、ユーザからの入力を受け付ける。ユーザからの入力を受け付ける方法としては特に限定しない。入力受付部２０６をテレビのリモートコントローラで構成してもよい。あるいは、入力受付部２０６は、表示部２０４に操作のためのユーザインタフェースを表示してもよい。ユーザは、それらの入力受付部２０６によって、情報又は指示を入力することができる。

図５は、本実施の形態１の話者識別システムの図１に示される話者識別装置２００における処理を示すフローチャートである。

まず、ステップＳ３０１では、音声取得部２０１は、話者の発した音声を取得する。音声処理部１０１は、取得された話者の音声から、予め設定された次元数の特徴ベクトルを生成し、生成した特徴ベクトルを表す話者音声信号を生成する。

続いて、ステップＳ３０２では、データベース管理部１０２は、音声ＤＢ２０３に蓄積されている音声情報８００（図３）から、登録音声信号８０１を抽出して、識別処理部１０３に出力する。識別処理部１０３は、音声処理部１０１により生成された話者音声信号と、データベース管理部１０２から出力された登録音声信号８０１とを比較し、話者音声信号に対応する登録音声信号８０１を特定する。

識別処理部１０３は、例えば話者音声信号と、音声ＤＢ２０３に蓄積されている各登録音声信号８０１との類似度をそれぞれ算出する。識別処理部１０３は、算出した類似度のうちで、最も高い類似度を抽出する。識別処理部１０３は、この最も高い類似度が予め設定された閾値以上のときに、その最も高い類似度に対応する登録音声信号８０１を、話者音声信号に対応すると判断する。具体的には例えば、識別処理部１０３は、話者音声信号の特徴ベクトルと登録音声信号８０１の特徴ベクトルとの距離をそれぞれ算出する。識別処理部１０３は、算出した距離が最も短い登録音声信号８０１と話者音声信号との類似度が最も高いと判断する。

続いて、ステップＳ３０３では、識別処理部１０３は、特定した登録音声信号８０１をデータベース管理部１０２に出力する。データベース管理部１０２は、音声ＤＢ２０３に蓄積されている音声情報８００（図３）を参照して、出力された登録音声信号８０１に対応付けられている登録アイコン８０３を抽出する。データベース管理部１０２は、抽出した登録アイコン８０３を識別処理部１０３に出力する。

識別処理部１０３は、出力された登録アイコン８０３を表示制御部１０４に出力する。音声処理部１０１は、音声取得部２０１により話者の音声が取得されている間だけ、その旨を表す取得信号を、話者ごとに表示制御部１０４に出力する。

表示制御部１０４は、識別処理部１０３から出力された登録アイコン８０３を、音声処理部１０１から取得信号が入力されている間、表示部２０４に表示する。表示制御部１０４は、音声取得部２０１が取得している話者の音声から、特定された話者を示す音声が所定時間途絶えたとき、つまり音声処理部１０１から特定された話者の取得信号が入力されなくなった時点から所定時間（この実施の形態１では、例えば１０秒）が経過したときに、表示制御部１０４は、表示部２０４に表示されているアイコンを消去する。この場合、表示制御部１０４は、表示されているアイコンの透明度を徐々に増大させて、アイコンを表示部２０４からフェードアウトさせるようにしてもよい。

図６は、本実施の形態１における話者識別システムの別の構成例を示すブロック図である。図６では、図１と同一要素については同一符号が付されている。以下、図１の話者識別システムとの相違点を中心に、図６の話者識別システムが説明される。

図６の話者識別システムは、話者識別装置２００と、サーバ装置２１０とを備える。図６の話者識別システムでは、音声ＤＢ２０３は、図１の話者識別システムと異なり、サーバ装置２１０に含まれている。すなわち、話者識別装置２００は、音声取得部２０１、通信部２０２、表示部２０４、及び制御部２０５を備え、音声ＤＢを備えない。図６の話者識別システムでも、話者識別装置２００は、上記したように、一般家庭用のテレビ、またはパーソナルコンピュータ（ＰＣ）におけるモニタなどでもよい。図１と同様に、話者識別装置２００は、一般家庭用のテレビである。

また、サーバ装置２１０は、制御部２１１、通信部２１２、及び音声ＤＢ２０３を備える。サーバ装置２１０が置かれている場所に関しては、特に限定しない。ビッグデータを取り扱うデータセンターを管理又は運営する会社が保有するデータセンターに配置されていてもよく、各家庭に配置されていてもよい。

話者識別装置２００の通信部２０２は、インターネットなどのネットワーク２２０を介して、サーバ装置２１０の通信部２１２と通信する。これにより、話者識別装置２００の制御部２０５は、例えば生成した話者音声信号を、通信部２０２を介してサーバ装置２１０に送信することができる。サーバ装置２１０は、通信部２１２を介して、複数の話者識別装置２００と接続されていてもよい。

図６の話者識別システムでは、図２に示される各機能は、サーバ装置２１０の制御部２１１と、話者識別装置２００の制御部２０５との、いずれかに含まれていればよい。例えば音声処理部１０１は、音声取得部２０１が取得した話者の音声を処理するため、話者識別装置２００の制御部２０５に含まれていてもよい。例えばデータベース管理部１０２は、音声ＤＢ２０３を管理するため、サーバ装置２１０の制御部２１１に含まれていてもよい。例えば表示制御部１０４は、表示部２０４を制御するため、話者識別装置２００の制御部２０５に含まれていてもよい。

音声ＤＢ２０３は、サーバ装置２１０が複数の話者識別装置２００と接続されている場合には、複数の話者識別装置２００の各々に対応する音声情報８００（図３）をそれぞれ保存して管理してもよい。

図７は、図６の話者識別システムにおける動作の一例を示すシーケンス図である。なお、図７では、図２に示される各機能のうち、データベース管理部１０２及び識別処理部１０３は、サーバ装置２１０の制御部２１１に含まれ、音声処理部１０１及び表示制御部１０４は、話者識別装置２００の制御部２０５に含まれている。また、ここでは、図６に示したサーバ装置２１０と話者識別装置２００とを含む話者識別システムの動作の例を示すが、あくまで一例であり、本実施の形態を限定するものではない。

まず、ステップＳ４０１にて、話者識別装置２００における音声取得部２０１が、話者の音声を取得する。音声処理部１０１は、取得された話者の音声から特徴量を抽出し、抽出した特徴量を表す話者音声信号を生成する。本ステップＳ４０１は、図５に示すステップＳ３０１に相当する。

ステップＳ４０１において、音声取得部２０１により取得された話者の音声に対して音声処理部１０１が特徴量抽出などの処理を行うタイミングに関しては限定しない。話者識別装置２００であるテレビの電源がＯＮになっている間、常に、音声取得部２０１が音声を取得して、音声処理部１０１が特徴量抽出などの処理を行ってもよい。また、音声処理部１０１がマジックワード（所定の単語）を検出した時に、その検出時点以降に音声取得部２０１が取得した音声に対して音声処理部１０１が特徴量抽出などの処理を開始してもよい。また、人が発声した音声と、話者の音声以外の環境音とを音声処理部１０１が識別して、人が発声した音声のみに対して、音声処理部１０１が特徴量抽出などの処理を行うようにしてもよい。

続いて、ステップＳ４０２にて、話者識別装置２００における通信部２０２は、ネットワーク２２０を介して、音声処理部１０１により生成された話者音声信号をサーバ装置２１０に送信する。この時、一つのサーバ装置２１０に対して複数の話者識別装置２００が接続されている場合、話者音声信号とともに、話者識別装置２００を特定する識別情報を送信するようにしてもよい。

続いて、ステップＳ４０３にて、サーバ装置２１０の制御部２１１の識別処理部１０３は、データベース管理部１０２を介して、音声ＤＢ２０３に蓄積されている登録音声信号８０１を取得する。そして、識別処理部１０３は、取得した登録音声信号８０１と、ステップＳ４０２にて通信部２１２を介して話者識別装置２００から取得した話者音声信号とを比較して、話者音声信号と一致する登録音声信号８０１（話者）を特定する。本ステップＳ４０３は、図５に示すステップＳ３０２に相当する。

続いて、ステップＳ４０４にて、制御部２１１の識別処理部１０３は、データベース管理部１０２を介して、特定された登録音声信号８０１に対応する登録アイコン８０３を抽出する。例えば図３において、登録音声信号８０１が「０００１．ｗａｖ」及び「０００３．ｗａｖ」の話者に対しては、それぞれアイコンＡ０１、Ｂ０５が登録アイコン８０３として登録されている。そこで、これらの話者については、識別処理部１０３は、各々の登録アイコン８０３を抽出すればよい。

また、図３の例では、登録音声信号８０１が「０００２．ｗａｖ」の話者には登録アイコン８０３が登録されていない。この場合は、制御部２１１の識別処理部１０３は、予め作成された複数のアイコンから自動的に抽出してもよい。また、話者識別装置２００から取得した話者音声信号が、登録音声信号８０１のいずれとも対応しない場合にも、同様に、制御部２１１の識別処理部１０３は、取得した話者音声信号から類推される適切なアイコンを予め作成された複数のアイコンから抽出してもよい。あるいは、識別処理部１０３は、話者識別装置２００から取得した話者音声信号に対応する登録アイコン８０３が音声情報８００に登録されていない場合には、話者音声信号から類推される適切なアイコンを作成してもよい。この点については、図１に示される構成の話者識別システムの場合でも同様である。

続いて、ステップＳ４０５にて、サーバ装置２１０の通信部２１２は、ネットワーク２２０を介して、ステップＳ４０４にて識別処理部１０３により抽出されたアイコンを話者識別装置２００へ送信する。

続いて、ステップＳ４０６にて、話者識別装置２００の制御部２０５の表示制御部１０４は、ステップＳ４０５にて送信されたアイコンを表示部２０４に表示させる。本ステップＳ４０６は、図５に示すステップＳ３０３に相当する。

このとき、上述のように、音声処理部１０１は、音声取得部２０１により話者の音声が取得されている間だけ、その旨を表す取得信号を、話者ごとに表示制御部１０４に出力する。表示制御部１０４は、音声処理部１０１から取得信号が入力されている間、つまり特定された話者の音声を認識している間、アイコンを表示部２０４に表示させる。

表示制御部１０４は、音声取得部２０１が取得している話者の音声から、特定された話者を示す音声が所定時間途絶えたとき、つまり音声処理部１０１から取得信号が入力されなくなった時点から所定時間（この実施の形態１では、例えば１０秒）が経過したときに、表示制御部１０４は、表示部２０４に表示されているアイコンを消去する。この場合、表示制御部１０４は、表示されているアイコンの透明度を徐々に増大させて、アイコンを表示部２０４からフェードアウトさせるようにしてもよい。

図８Ａ〜８Ｈは、それぞれ、図１又は図６に示される話者識別システムにおいて、表示制御部１０４によって表示部２０４に表示される登録アイコン８０３の具体的な表示例を示す図である。なお、あくまで、図８Ａ〜８Ｈに記載の表示構成は一例であり、図８Ａ〜８Ｈに示されている表示構成以外の表示構成を備えていてもよく、また一部の表示構成が欠けていてもよい。

図８Ａでは、ステップＳ４０３にて特定された話者に対応する記号をアイコンとして、それぞれ色分けして話者識別装置２００の表示部２０４の右下隅に表示している。図８Ａの例では、アイコン９１１は丸の記号であり、アイコン９１２は四角の記号であり、アイコン９１３は三角の記号である。上記したように、ステップＳ４０６にて、表示制御部１０４は、これらの記号で表示されたアイコンを、話者が発話している間及びその後の所定時間だけ表示部２０４に表示する。このように表示することで、ユーザは、テレビ放送の表示が過度に邪魔されることなく、話者識別の結果を確認できる。

ここで、図８Ａにて表示されているタイミングでは、アイコン９１１、アイコン９１２、アイコン９１３の３人の話者が同時に発話していることになる。例えば、あるタイミングで、アイコン９１２に対応する話者の発話が止まった時点から所定時間（この実施の形態１では、例えば１０秒）が経過すると、表示制御部１０４は、アイコン９１２だけを消去する。その結果、表示部２０４には、アイコン９１１及びアイコン９１３のみが表示されている状態になる。

その際、表示制御部１０４は、アイコン９１１が表示される位置を右にスライドさせ、アイコン９１１をアイコン９１３の直ぐ隣に表示するようにしてもよい。これにより、常に表示部２０４の右下隅にアイコンが集まることになり、テレビ放送の表示が過度に妨げられるのを抑制できる。

なお、発話が止まった際に、表示制御部１０４は、アイコンを消去するのに代えて、アイコンの色を半透明にしてもよい。あるいは、発話が止まった際に、表示制御部１０４は、アイコンの大きさを小さく変化させてもよい。これらによっても、同様の効果が得られる。

また、認識された話者に対応する複数のアイコンを一定時間表示するようにして、右もしくは左から複数の話者が発声した順に並べて表示してもよい。図８Ａの例では、アイコン９１１，９１２，９１３の順で、もしくはアイコン９１３，９１２，９１１の順で、対応する話者が発声していることが示される。もちろん、上もしくは下から順に表示してもよい。これにより、発話のたびにアイコンの表示の順序が入れ替わる。したがって、ユーザへ発話を促すことができる。

また、図８Ａに示されるように、表示制御部１０４は、認識されている話者のうち、発話をしている話者を示すアイコンに対して、発話をしている間だけ、補足アイコン９１４を表示してもよい。図８Ａの例では、補足アイコン９１４として、発話中の話者を示すアイコンを丸の形状で囲むアイコンが採用されており、現在、アイコン９１１に対応する話者が発話をしていることが示されている。

この場合、表示制御部１０４は、音声処理部１０１から話者ごとに出力される取得信号に基づき、補足アイコン９１４を表示する対象のアイコンを決定する。これにより、話者識別装置２００の付近にいることが認識されている話者を示すアイコン９１２，９１３と、現在発話をしている話者を示すアイコン９１１とを、明確に区別して表示できる。

図８Ｂに示されるように、表示制御部１０４は、表示部２０４に表示するアイコンを、図８Ａのような記号ではなくて、人の形を概略的に表したアイコン９１５〜９１８としてもよい。上記したように、このアイコン９１５〜９１８を、ユーザが選択してもよく、ユーザが作成してもよく、サーバ装置２１０の制御部２１１もしくは話者識別装置２００の制御部２０５が選択するようにしてもよい。この場合でも、図８Ａと同様に、表示制御部１０４は、補足アイコン９１４を表示部２０４に表示してもよい。

また、表示制御部１０４は、アイコン付近またはアイコンの上に話者が発話した内容を都度表示するようにしてもよい。この場合には、表示制御部１０４は、アイコンを例えば半透明にして常に表示しておき、発話内容を話者が発話している間だけ表示するようにしてもよい。

なお、図８Ｂでは、音声取得部２０１または音声処理部１０１は、指向性を制御する機能を有している。これにより、制御部２０５は、表示部２０４の前に位置する話者の存在する方向に指向性を持たせ、話者が位置する方向を検出することができる。そこで、表示制御部１０４は、図８Ｂに示されるように、検出した発話者の位置する方向に合わせてアイコンを表示させる位置を変化させてもよい。図８Ｂの例では、アイコン９１５，９１６に対応する話者は、表示部２０４の中心線から左側に位置し、アイコン９１７，９１８に対応する話者は、表示部２０４の中心線から右側に位置することが分かる。このように表示することで、ユーザは、話者識別の結果を確認しやすくなる。

図８Ｃに示されるように、複数の話者が一斉に発声した場合に、表示制御部１０４は、音声ＤＢ２０３に新規に登録された話者に対して、仮で設定したアイコン９２１を大きく表示してもよい。

ここで、「新規に登録」は以下のように行われる。この話者が発話した時点では、この話者の登録音声信号８０１は、音声情報８００に登録されていない。そこで、識別処理部１０３は、音声処理部１０１により生成された話者音声信号を、データベース管理部１０２を介して、登録音声信号８０１として、音声情報８００に登録する。識別処理部１０３は、話者音声信号から話者の属性を判断する。識別処理部１０３は、その判断結果に基づき、アイコンを仮に設定して、データベース管理部１０２を介して、音声情報８００に登録アイコン８０３として登録する。このようにして、未登録の話者は、音声ＤＢ２０３に新規に登録される。

これにより、ユーザは、新規の話者を確認することができる。また、新規の話者に対して、アイコンの選択または作成によって、仮に設定されたアイコンを好みのアイコンに変更するのを促すことができる。

図８Ｄに示されるように、複数の話者が発話した場合に、表示制御部１０４は、発話時間または発話回数が最も多い話者に対応するアイコンを、大きく表示してもよい。この場合には、識別処理部１０３は、話者ごとに発話時間または発話回数をカウントし、データベース管理部１０２を介して、カウント値を音声ＤＢ２０３に蓄積する。表示制御部１０４は、データベース管理部１０２を介して、蓄積されたカウント値を音声ＤＢ２０３から取得する。

図８Ｄの例では、アイコン９２２に対応する話者の発話時間または発話回数が最も多いことが分かる。これにより、話者の発話を促すことができる。話者の発話を促すことで、音声ＤＢ２０３に蓄積される音声情報８００の量を増加することができる。その結果、より精度の高い話者認識が可能となる。

図８Ｄのようにアイコン９２２を拡大表示するだけではなくて、表示制御部１０４は、図８Ｅに示されるように、発話量表示部９３１，９３２を表示部２０４に表示してもよい。発話量表示部９３１，９３２は、発話時間または発話回数に基づく発話量をバーで表示したものである。発話量は、発話時間が長くなると、または発話回数が多くなると、増大する。

発話量表示部９３１は、例えば話者識別装置２００を所有する家族単位での発話量を表す。発話量表示部９３２は、例えばサーバ装置２１０に接続されている全ての話者識別装置２００における発話量の平均値を表す。なお、発話量表示部９３２は、サーバ装置２１０に接続されている全ての話者識別装置２００のうちで、同一のテレビ放送番組が視聴されている話者識別装置２００における発話量の平均値を表すようにしてもよい、
図８Ｅの場合には、例えば、発話量表示部９３１のレベルが発話量表示部９３２のレベルに比べて低い場合には、話者の発話が促されることとなる。また、サーバ装置２１０の制御部２１１は、発話量表示部９３１のレベルによって、現在視聴しているテレビ放送番組またはコマーシャルをユーザが熱心に視聴しているか否かのデータを収集することができる。

なお、図１の話者識別システムの場合には、表示制御部１０４は、発話量表示部９３１の表示のみを行うことができる。表示制御部１０４による発話量表示部９３２の表示は、図６の話者識別システムによって実現される。

図８Ｆに示されるように、表示制御部１０４は、アイコン９１１〜９１４を表示部２０４に表示する際に、テレビ放送番組を表示するメイン表示領域９４１を表示部２０４の表示画面全体から縮小してもよい。表示制御部１０４は、メイン表示領域９４１の外側に、サブ表示領域９４２を設けて、このサブ表示領域９４２にアイコン９１１〜９１４を表示してもよい。これによって、アイコン９１１〜９１４の表示によりテレビ放送番組の視聴が過度に妨げられる事態を抑制することができる。

図８Ａ〜８Ｆでは、複数のアイコンが表示部２０４に表示されているが、図８Ｇ，８Ｈに示されるように、１個のアイコンが表示部２０４に表示される場合もある。例えば図８Ａにおいて、アイコン９１３に対応する話者のみが発話を続け、アイコン９１１，９１２に対応する話者の発話が停止した場合、その停止時点から所定時間（この実施の形態１では、例えば１０秒）が経過すると、表示制御部１０４は、図８Ｇに示されるように、アイコン９１３のみを表示部２０４に表示し、他のアイコンを消去する。

例えば図８Ｂにおいて、アイコン９１５に対応する話者のみが発話を続け、アイコン９１６〜９１８に対応する話者の発話が停止した場合、その停止時点から所定時間（この実施の形態１では、例えば１０秒）が経過すると、表示制御部１０４は、図８Ｈに示されるように、アイコン９１５のみを表示部２０４に表示し、他のアイコンを消去する。

以上説明されたように、本実施の形態１における話者識別システムによれば、表示部２０４が本来表示したいコンテンツ（例えば表示部２０４がテレビの表示画面であれば、テレビ放送番組）の表示の妨げになることを抑制しつつも、ユーザへ話者の識別結果を明確に表示することができる。

なお、あくまで、図１、図６に記載の構成は、本実施の形態１の話者識別システムの一例であり、図１、図６に示されている構成以外の構成を備えていてもよく、また一部の構成が欠けていてもよい。また、図１、図６のいずれを採用してもよいし、図示した以外の装置を本実施の形態１の話者識別システムに採用することもできる。

（実施の形態２）
以下、実施の形態２における話者識別システムを説明する。なお、本実施の形態２では一部、実施の形態１と同様の説明は省略している。また、実施の形態２の技術を実施の形態１に記載の技術と組み合わせることも可能である。

本実施の形態２における話者識別システムの構成は、図１または図６に示される実施の形態１の話者識別システムと同様であるので、詳細な説明を省略する。実施の形態２では、実施の形態１と同一構成については、同じ符号を用いて説明する。ただし、本実施の形態２においては、図１または図６に示される入力受付部２０６が必須の構成となる。

図９は、実施の形態２における、図１に示される話者識別装置２００の制御部２０５の機能を示すブロック図である。図２に示される実施の形態１と異なるのは、修正制御部１０５を備えていることである。この修正制御部１０５により、識別処理部１０３が抽出したアイコンが誤っている場合に、ユーザが修正を行い、音声ＤＢ２０３の情報を更新することが可能となる。このような構成により、実施の形態２では、識別処理部１０３により識別された情報を修正することが簡易に行えるようになる。修正制御部１０５の具体的な動作については、図１０を参照して、次に説明する。

図１０は、実施の形態２の話者識別システムの図１に示される話者識別装置２００における処理を示すフローチャートである。ステップＳ３０１〜Ｓ３０３は、図５のステップＳ３０１〜Ｓ３０３と同様である。

ステップＳ３０３に続いて、ステップＳ３０４では、修正制御部１０５は、話者に対応するアイコンについて、ユーザからの修正指示を受け付ける。ユーザは、入力受付部２０６を用いて、修正指示を行う。修正制御部１０５は、ユーザの修正指示の内容にしたがって、データベース管理部１０２を介して、音声ＤＢ２０３の内容を更新する。

ここで、ステップＳ３０４にて、修正制御部１０５は、ステップＳ３０３にてアイコンが表示されている間のみ、ユーザからの修正指示を受け付けるよう制御してもよい。これにより、修正を意図していないタイミングで誤って修正指示を受け付けてしまうことを低減できる。また、この場合、修正制御部１０５は、表示制御部１０４を通じて、アイコンが表示されている間に、ユーザからの修正指示を受け付けることが可能である旨の表示を表示部２０４に表示させてもよい。これにより、ユーザは修正機能があることを把握できる。

図１１Ａ，１１Ｂは、図１０のステップＳ３０４における修正指示にユーザが用いる入力受付部２０６の一例を示す図である。図１１Ａ，１１Ｂを参照して、図１０のステップＳ３０４において、ユーザが入力受付部２０６を用いて、アイコンについての修正指示を行う方法が説明される。図１１Ａは、入力受付部２０６の一例であるリモートコントローラ（以下、「リモコン」という）１００１を示す。図１１Ｂは、入力受付部２０６の別の例であるリモコン１００２を示す。

図１０のステップＳ３０３において、アイコンが誤って表示部２０４に表示された場合、ユーザは、例えばリモコン１００１を使用して修正指示を送る（図１０のステップＳ３０４）。アイコンが誤って表示部２０４に表示された場合とは、例えば、図８Ｂに示すような表示例では、アイコン９１５に対応する話者の発話中に、補足アイコン９１４が、誤って図８Ｂのように別の話者を示すアイコン９１６上に表示されていることなどである。

ここで、図１１Ａのリモコン１００１において、カラーボタン１００３の各ボタンは、予め各アイコンと対応付けられている。例えば図８Ｂにおいて、アイコン９１５は「青」ボタンと、アイコン９１６は「赤」ボタンと、アイコン９１７は「緑」ボタンと、アイコン９１８は「黄」ボタンと、それぞれ対応付けられているとする。この場合において、各アイコン９１５〜９１８には、それぞれ対応付けられている色が、ユーザに分かるように重畳されて表示されていることが望ましい。

なお、あらかじめ話者とリモコンのカラーボタン１００３の各ボタンとを対応付けておかなくてもよい。例えば、カラーボタン１００３のうち任意のカラーボタンを押して修正することでもよい。また、アイコンが表示されている位置における左から順に、「青」、「赤」、「緑」、「黄」のボタンが対応付けられてもよい。

図１０のステップＳ３０４における修正指示として、アイコン９１５に対応する話者が、リモコン１００１の「青」ボタンを押しながら発話する。すると補足アイコン９１４がアイコン９１５上に移動し、登録されているアイコンに対して正しい話者画像を表示することができる。これにより、誤って識別結果が表示された場合であっても、話者に対応付けられたリモコン１００１のカラーボタン１００３を選択し、修正指示を送ることで簡易に修正可能となる。

また、図１１Ａに示されるリモコン１００１に代えて、図１１Ｂに示されるリモコン１００２を用いてもよい。図１１Ｂに示されるリモコン１００２では、同様に、各アイコンと、リモコン１００２の数字ボタンとが対応付けられていればよい。この場合には、ユーザは、リモコン１００２の対応する数字ボタンを押しながら発話をすることで、修正指示を送ることができる。

なお、ユーザが修正指示を送る方法は、上記に限られない。例えば、対応するリモコンのボタンを押したときに、表示制御部１０４は、修正可能な設定ページに表示部２０４の表示を切り替えるようにしてもよい。

図１０に戻って、ステップＳ３０４で行われる音声ＤＢ２０３の内容の更新が説明される。アイコン９１５に対応する話者の発話中に、補足アイコン９１４が、誤って図８Ｂのように別の話者を示すアイコン９１６上に表示された原因は、アイコン９１５に対応する話者の登録音声信号８０１（図３）が、特徴ベクトルを正確に表していないことにある可能性が高い。

そこで、アイコン９１５に対応する話者が、リモコン１００１の「青」ボタンを押しながら発話すると、音声処理部１０１は、音声取得部２０１により取得された音声から特徴ベクトルを生成し、生成した特徴ベクトルを表す話者音声信号を生成する。データベース管理部１０２は、識別処理部１０３を介して生成された話者音声信号を受け取り、音声ＤＢ２０３のアイコン９１５に対応する話者の登録音声信号８０１を、生成された話者音声信号に書き換える。

ステップＳ３０４で行われる音声ＤＢ２０３の内容の更新の別の例が、図３、図８Ｂ及び図８Ｈを参照して説明される。

リモコン１００１のカラーボタン１００３が、図３の３人の話者に対応付けられている。例えば、登録音声信号８０１が「０００１．ｗａｖ」の話者は「青」ボタンに対応付けられ、登録音声信号８０１が「０００２．ｗａｖ」の話者は「赤」ボタンに対応付けられ、登録音声信号８０１が「０００３．ｗａｖ」の話者は「緑」ボタンに対応付けられている。また、図３の登録アイコン「Ａ０１」は、図８Ｂのアイコン９１６である。また、図３の登録アイコン「Ｂ０５」は、図８Ｂ，８Ｈのアイコン９１５である。

この場合において、登録音声信号８０１が「０００１．ｗａｖ」の話者が発話中であるのに、図８Ｈに示されるように、アイコン９１５が表示部２０４に表示される。この原因は、図３の登録音声信号「０００１．ｗａｖ」が、特徴ベクトルを正確に表していないことにある可能性が高い。

そこで、登録音声信号８０１が「０００１．ｗａｖ」の話者（つまりアイコン９１６に対応する話者）が、リモコン１００１の「青」ボタンを押しながら発話する。音声処理部１０１は、音声取得部２０１により取得された音声から特徴ベクトルを生成し、生成した特徴ベクトルを表す話者音声信号を生成する。データベース管理部１０２は、識別処理部１０３を介して生成された話者音声信号を受け取り、音声ＤＢ２０３の登録音声信号「０００１．ｗａｖ」を、生成された話者音声信号に書き換える。

図１２は、実施の形態２の図６に示される話者識別システムにおける動作の一例を示すシーケンス図である。なお、図１２では、図９に示される各機能のうち、データベース管理部１０２及び識別処理部１０３は、サーバ装置２１０の制御部２１１に含まれ、音声処理部１０１、表示制御部１０４、及び修正制御部１０５は、話者識別装置２００の制御部２０５に含まれている。また、ここでは、図６に示したサーバ装置２１０と話者識別装置２００とを含む話者識別システムの動作の例を示すが、あくまで一例であり、本実施の形態を限定するものではない。

ステップＳ４０１〜Ｓ４０６は、図７に示すステップＳ４０１〜Ｓ４０６と同様なので、詳細な説明を省略する。

ステップＳ４０６に続いて、ステップＳ４０７にて、修正制御部１０５は、入力受付部２０６を用いて行われるアイコンについてのユーザからの修正指示を、受け付ける。本ステップＳ４０７は、図１０に示すステップＳ３０４の一部に相当する。すなわち、ユーザによる修正指示は、図１０のステップＳ３０４と同様に行われる。

ステップＳ４０７に続いて、ステップＳ４０８にて、話者識別装置２００の通信部２０２は、修正制御部１０５が受け付けたユーザからの修正指示を、サーバ装置２１０へ送信する。

続いて、ステップＳ４０９において、サーバ装置２１０のデータベース管理部１０２は、ユーザの修正指示に基づき、音声ＤＢ２０３の内容を更新する。本ステップＳ４０９は、図１０に示すステップＳ３０４の一部に相当する。すなわち、音声ＤＢ２０３の更新は、図１０のステップＳ３０４と同様に行われる。

以上説明されたように、本実施の形態２の話者識別システムによれば、話者の識別結果として表示部２０４に表示されたアイコンが、誤った識別により異なるアイコンであった際にも、ユーザが煩わしい操作をすることなく、修正を指示することができる。もし、話者識別の結果に誤検出があり、その結果がそのまま表示されていると、ユーザにとって不快感が生じると考えられる。しかし、本実施の形態２では、そのようなユーザの不快感を解消できる。さらに、ユーザによる音声ＤＢ２０３の修正を促進することにもなる。したがって、より高精度で、家族の音声ＤＢ２０３を構築することができる。

（その他）
（１）上記実施の形態２において、図９の修正制御部１０５は、ユーザによる入力受付部２０６を用いた修正指示を、誤ったアイコンが表示部２０４に表示されている間のみ、受け付けるようにしてもよい。例えば図１０のステップＳ３０４において図８Ｂを用いて説明した例では、補足アイコン９１４が誤って表示部２０４に表示されている間のみ、修正制御部１０５は、ユーザによるリモコン１００１を用いた修正指示を受け付ける。例えば図１０のステップＳ３０４において図３を用いて説明した例では、アイコン「Ｂ０５」が誤って表示部２０４に表示されている間のみ、修正制御部１０５は、ユーザによるリモコン１００１を用いた修正指示を受け付ける。

この場合、表示制御部１０４は、表示部２０４に表示中のアイコンに関する情報を、修正制御部１０５に出力するようにしてもよい。修正制御部１０５は、表示制御部１０４から入力される、表示部２０４に表示中のアイコンに関する情報に基づき、ユーザによる入力受付部２０６を用いた修正指示が、表示部２０４に表示中のアイコンの修正指示であるか否かを判断してもよい。修正制御部１０５は、ユーザによる入力受付部２０６を用いた修正指示が、表示部２０４に表示中のアイコンの修正指示である場合にのみ、修正指示を受け付けるようにしてもよい。

このように、ユーザによる入力受付部２０６を用いた修正指示の受付可能な期間を限定することによって、表示部２０４に表示されていないアイコンに関する修正指示、又はユーザによる誤った修正指示を受け付けるような事態を避けることができる。

（２）上記実施の形態１，２では、図８Ａ〜図８Ｆに示されるように、アイコンを表示する表示部２０４は、話者識別装置２００であるテレビの表示画面としている。しかし、本開示は、これに限られない。例えば、表示部２０４は、タブレット端末又はいわゆるスマートフォンなどの携帯装置の表示画面としてもよい。表示制御部１０４は、通信部２０２を介して、携帯装置の表示画面にアイコンを表示してもよい。

（３）上記実施の形態１，２において、連続して音声処理部１０１から入力される２つの話者音声信号が、図３の音声情報８００の登録音声信号８０１が「０００１．ｗａｖ」及び「０００３．ｗａｖ」の話者に一致すると識別処理部１０３が判断すると、識別処理部１０３は、図３のユーザ情報８０２に基づき、父親と子供が一緒にテレビ放送番組を視聴していると判断できる。

あるいは、連続して音声処理部１０１から入力される２つの話者音声信号が、図３の音声情報８００の登録音声信号８０１が「０００１．ｗａｖ」及び「０００２．ｗａｖ」の話者に一致すると識別処理部１０３が判断すると、識別処理部１０３は、図３のユーザ情報８０２に基づき、大人のみがテレビ放送番組を視聴していると判断できる。

そこで、表示制御部１０４は、表示部２０４を用いて、識別処理部１０３による視聴者の判断結果に基づき、視聴者に適合するコンテンツ（例えばテレビ放送番組）を、視聴者に対して推奨するようにしてもよい。

（提供するサービスの全体像）
図１３Ａは、上記実施の形態１，２における図６に示される話者識別システムの全体像を示す図である。

グループ１１００は、例えば企業、団体、家庭等であり、その規模を問わない。グループ１１００には、複数の機器１１０１（例えば機器Ａ、機器Ｂ）およびホームゲートウェイ１１０２が存在する。複数の機器１１０１は、インターネットに接続可能な機器（例えば、スマートフォン、パーソナルコンピュータ、テレビ等）を含む。また、複数の機器１１０１は、それ自身ではインターネットに接続不可能な機器（例えば、照明機器、洗濯機、冷蔵庫等）を含む。複数の機器１１０１は、それ自身ではインターネットに接続不可能な機器であっても、ホームゲートウェイ１１０２を介してインターネットに接続可能となる機器を含んでもよい。また、グループ１１００には、複数の機器１１０１を使用するユーザ１０１０が存在する。

データセンタ運営会社１１１０には、クラウドサーバ１１１１が存在する。クラウドサーバ１１１１は、インターネットを介して様々な機器と連携する仮想化サーバである。クラウドサーバ１１１１は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ（ビッグデータ）等を管理する。データセンタ運営会社１１１０は、データ管理及びクラウドサーバ１１１１の管理を行うデータセンタの運営等を行っている。データセンタ運営会社１１１０が行っている役務については詳細を後述する。

ここで、データセンタ運営会社１１１０は、データ管理及びクラウドサーバ１１１１の管理を行うデータセンタの運営等のみを行っている会社に限らない。

図１３Ｂ、図１３Ｃは、データセンタ運営会社１１１０の一例を示す図である。例えば複数の機器１１０１のうちの一つの機器を開発又は製造している機器メーカが、併せてデータ管理及びクラウドサーバ１１１１の管理等を行っている場合は、機器メーカがデータセンタ運営会社１１１０に該当する（図１３Ｂ）。また、データセンタ運営会社１１１０は、一つの会社に限らない。例えば機器メーカ及び他の管理会社が共同もしくは分担してデータ管理及びクラウドサーバ１１１１の管理等を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社１１１０に該当するものとする（図１３Ｃ）。

サービスプロバイダ１１２０は、サーバ１１２１を保有している。ここで言うサーバ１１２１とは、その規模は問わず例えば、個人用パーソナルコンピュータ内のメモリ等も含む。また、サービスプロバイダ１１２０がサーバ１１２１を保有していない場合もある。この場合、サービスプロバイダ１１２０は、サーバ１１２１の機能を果たす別の装置を保有する。

なお、上記話者識別システムにおいて、ホームゲートウェイ１１０２は必須ではない。ホームゲートウェイ１１０２は、機器１１０１をインターネットに接続可能にするための装置である。そこで、例えば、グループ１１００内のあらゆる機器１１０１がインターネットに接続されている場合のように、それ自身ではインターネットに接続不可能な機器が存在しない場合は、ホームゲートウェイ１１０２は不要となる。

次に、図１３Ａを用いて上記話者識別システムにおける情報の流れを説明する。

まず、グループ１１００の機器１１０１、例えば機器Ａ又は機器Ｂは、各操作ログ情報をデータセンタ運営会社１１１０のクラウドサーバ１１１１に送信する。クラウドサーバ１１１１は、機器Ａ又は機器Ｂの操作ログ情報を集積する（図１３Ａの矢印（ａ））。ここで、操作ログ情報とは複数の機器１１０１の、例えば運転状況や動作日時等を示す情報である。例えば、テレビの視聴履歴、レコーダの録画予約情報、洗濯機の運転日時及び洗濯物の量、冷蔵庫の開閉日時及び開閉回数などである。操作ログ情報は、これらのものに限らずあらゆる機器１１０１から取得が可能なすべての情報をいう。

操作ログ情報は、インターネットを介して複数の機器１１０１自体から直接クラウドサーバ１１１１に提供される場合もある。また、複数の機器１１０１から一旦ホームゲートウェイ１１０２に操作ログ情報が集積され、ホームゲートウェイ１１０２からクラウドサーバ１１１１に提供されてもよい。

次に、データセンタ運営会社１１１０のクラウドサーバ１１１１は、集積した操作ログ情報を一定の単位でサービスプロバイダ１１２０に提供する。ここで、「一定の単位」は、データセンタ運営会社１１１０が集積した情報を整理してサービスプロバイダ１１２０に提供することのできる単位でもよく、サービスプロバイダ１１２０が要求した単位でもよい。「一定の単位」と記載したが、情報量は一定でなくてもよい。例えば、状況に応じて提供する情報量が変化する場合もある。前記操作ログ情報は、必要に応じてサービスプロバイダ１１２０が保有するサーバ１１２１に保存される（図１３Ａの矢印（ｂ））。

そして、サービスプロバイダ１１２０は、操作ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。提供対象のユーザは、複数の機器１１０１を使用するユーザ１０１０でもよく、外部のユーザ１０２０でもよい。ユーザへのサービス提供方法は、例えば、サービスプロバイダ１１２０から直接ユーザ１０１０，１０２０へ提供されてもよい（図１３Ａの矢印（ｆ）、（ｅ））。また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社１１１０のクラウドサーバ１１１１を再度経由して、ユーザ１０１０に提供されてもよい（図１３Ａの矢印（ｃ）、（ｄ））。また、データセンタ運営会社１１１０のクラウドサーバ１１１１が操作ログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ１１２０に提供してもよい。

なお、ユーザ１０１０とユーザ１０２０とは、別でも同一でもよい。

上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現される類型はこれに限られるものでない。

（サービスの類型１：自社データセンタ型）
図１４は、サービスの類型１（自社データセンタ型）を示す。本類型は、サービスプロバイダ１１２０がグループ１１００から情報を取得し、ユーザに対してサービスを提供する類型である。本類型では、サービスプロバイダ１１２０が、データセンタ運営会社の機能を有している。即ち、サービスプロバイダ１１２０が、ビッグデータの管理をするクラウドサーバ１１１１を保有している。従って、データセンタ運営会社は存在しない。

本類型では、サービスプロバイダ１１２０は、データセンタ（クラウドサーバ１１１１）を運営、管理している（１２０３）。また、サービスプロバイダ１１２０は、ＯＳ（１２０２）及びアプリケーション（１２０１）を管理する。サービスプロバイダ１１２０は、サービスプロバイダ１１２０が管理するＯＳ（１２０２）及びアプリケーション（１２０１）を用いてサービス提供を行う（１２０４）。

（サービスの類型２：ＩａａＳ利用型）
図１５は、サービスの類型２（ＩａａＳ利用型）を示す。ここでＩａａＳとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１１０がデータセンタ（クラウドサーバ１１１１）を運営、管理している（１２０３）。また、サービスプロバイダ１１２０は、ＯＳ（１２０２）及びアプリケーション（１２０１）を管理する。サービスプロバイダ１１２０は、サービスプロバイダ１１２０が管理するＯＳ（１２０２）及びアプリケーション（１２０１）を用いてサービス提供を行う（１２０４）。

（サービスの類型３：ＰａａＳ利用型）
図１６は、サービスの類型３（ＰａａＳ利用型）を示す。ここでＰａａＳとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１１０は、ＯＳ（１２０２）を管理し、データセンタ（クラウドサーバ１１１１）を運営、管理している（１２０３）。また、サービスプロバイダ１１２０は、アプリケーション（１２０１）を管理する。サービスプロバイダ１１２０は、データセンタ運営会社１１１０が管理するＯＳ（１２０２）及びサービスプロバイダ１１２０が管理するアプリケーション（１２０１）を用いてサービス提供を行う（１２０４）。

（サービスの類型４：ＳａａＳ利用型）
図１７は、サービスの類型４（ＳａａＳ利用型）を示す。ここでＳａａＳとはソフトウェア・アズ・ア・サービスの略である。例えばデータセンタ（クラウドサーバ）を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ（クラウドサーバ）を保有していない会社・個人（利用者）がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１１０は、アプリケーション（１２０１）を管理し、ＯＳ（１２０２）を管理し、データセンタ（クラウドサーバ１１１１）を運営、管理している（１２０３）。また、サービスプロバイダ１１２０は、データセンタ運営会社１１１０が管理するＯＳ（１２０２）及びアプリケーション（１２０１）を用いてサービス提供を行う（１２０４）。

以上いずれの類型においても、サービスプロバイダ１１２０がサービス提供行為を行ったものとする。また例えば、サービスプロバイダ１１２０若しくはデータセンタ運営会社１１１０は、ＯＳ、アプリケーション若しくはビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注して開発させてもよい。

本開示にかかる話者識別方法、話者識別装置及び話者識別システムは、不特定多数の発話者がいる環境において、話者識別を使用する際に、識別されている話者を表す話者画像を容易に表示する方法、装置及びシステムとして有用である。

Claims

表示部の周辺に位置する話者の音声を識別し識別結果を前記表示部に表示する話者識別システムにおける話者識別方法であって、
前記話者識別システムは、複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、前記複数の登録音声信号にそれぞれ対応付けられ前記複数の話者をそれぞれ表す複数の話者画像とを保存するデータベースを含み、
前記表示部の周辺に位置する話者の音声を取得し、
前記取得された話者の音声から話者音声信号を生成し、
前記データベースに保存されている複数の登録音声信号のうち、前記生成された話者音声信号に対応する登録音声信号を識別し、
前記識別された登録音声信号に対応付けて前記データベースに保存されている前記話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声が取得されている間、前記表示部に表示させる、
話者識別方法。
前記話者音声信号を生成する元となった前記話者の音声が取得されなくなった時点から所定時間が経過すると、前記表示されている前記話者画像を前記表示部から消去する、
請求項１に記載の話者識別方法。
前記データベースは、前記複数の音声登録信号として、第１話者の音声に基づき生成された第１登録音声信号と、第２話者の音声に基づき生成された第２登録音声信号とを保存し、かつ、前記第１登録音声信号に対応付けられ前記第１話者を表す第１話者画像と、前記第２登録音声信号に対応付けられ前記第２話者を表す第２話者画像とを保存し、
前記第１話者の音声が取得されると、第１話者音声信号が生成され、
前記生成された第１話者音声信号が前記第１登録音声信号に対応すると識別されると、少なくとも前記第１話者の音声が取得されている間、前記第１話者画像が前記表示部に表示され、
前記第１話者画像が前記表示部に表示されているときに、前記第２話者の音声が取得されると、第２話者音声信号が生成され、
前記生成された第２話者音声信号が前記第２登録音声信号に対応すると識別されると、少なくとも前記第２話者の音声が取得されている間、前記第１話者画像に加えて、前記第２話者画像が前記表示部に表示される、
請求項１または２に記載の話者識別方法。
前記第１話者の音声と前記第２話者の音声とが取得された順に、前記第１話者画像と前記第２話者画像とが、前記表示部に並べられて表示される、
請求項３に記載の話者識別方法。
前記第１話者画像と前記第２話者画像とのうち、前記データベースに後で登録された方の話者画像は、前記データベースに先に登録された方の話者画像とは異なる態様で前記表示部に表示される、
請求項３に記載の話者識別方法。
前記第１話者の発話回数と、前記第２話者の発話回数とがカウントされ、
前記第１話者画像と前記第２話者画像とは、前記カウントされた発話回数の多い順に、前記表示部に並べられて表示される、
請求項３に記載の話者識別方法。
前記話者画像についての話者からの修正指示が受け付けられると、前記修正を指示した話者の音声を新たに取得し、
前記新たに取得された話者の音声から新たに話者音声信号を生成し、
前記データベースに保存されている、前記修正指示が行われた前記話者画像に対応付けられている前記登録音声信号を、前記新たに生成された話者音声信号に書き換える、
請求項１〜６のいずれか１項に記載の話者識別方法。
前記話者からの修正指示は、前記表示部に表示されている前記話者画像について受け付けられ、前記表示部に表示されていない前記話者画像については受け付けられない、
請求項７に記載の話者識別方法。
前記生成された話者音声信号から前記話者の属性を判別し、
前記判別された前記話者の属性に基づき前記話者画像を作成し、
前記生成された話者音声信号と前記判別された前記話者の属性と前記作成された前記話者画像とを、互いに対応付けて前記データベースに保存し、前記データベースには、前記生成された話者音声信号は、前記登録音声信号として保存される、
請求項１〜８のいずれか１項に記載の話者識別方法。
表示部と、
前記表示部の周辺に位置する話者の音声を取得する音声取得部と、
前記取得された話者の音声から話者音声信号を生成する音声処理部と、
複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、前記複数の登録音声信号にそれぞれ対応付けられ前記複数の話者をそれぞれ表す複数の話者画像とを記憶するデータベースと、
前記データベースに記憶されている前記複数の登録音声信号のうち、前記生成された前記話者音声信号に対応する登録音声信号を識別する識別処理部と、
前記識別された前記登録音声信号に対応付けて前記データベースに記憶されている前記話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声を前記音声取得部が取得している間、前記表示部に表示する表示制御部と、
を備える話者識別装置。
表示部と、
前記表示部の周辺に位置する話者の音声を取得する音声取得部と、
前記取得された話者の音声から話者音声信号を生成する音声処理部と、
ネットワークを介して外部のサーバ装置と通信を行う通信部と、
前記表示部を制御する表示制御部と、
を備え、
前記通信部は、前記生成された話者音声信号を前記サーバ装置に送信し、かつ、前記サーバ装置から、前記話者音声信号を基に識別された前記話者を表す話者画像を受信し、
前記表示制御部は、前記受信された話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声を前記音声取得部が取得している間、前記表示部に表示させる、
話者識別装置。
表示部の周辺に位置する話者の音声を取得する音声取得部と、
前記取得された話者の音声から話者音声信号を生成する音声処理部と、
複数の話者の音声に基づきそれぞれ生成された複数の登録音声信号と、前記複数の登録音声信号にそれぞれ対応付けられ前記複数の話者をそれぞれ表す複数の話者画像とを記憶する記憶部と、
前記複数の登録音声信号のうち前記生成された話者音声信号に対応する登録音声信号を識別する識別処理部と、
前記識別された前記登録音声信号に対応付けて前記記憶部に記憶されている前記話者画像を、少なくとも前記話者音声信号を生成する元となった前記話者の音声を前記音声取得部が取得している間、前記表示部に表示させる表示制御部と、
を備える話者識別システム。