JP6543047B2

JP6543047B2 - 情報処理装置、制御プログラム、記録媒体

Info

Publication number: JP6543047B2
Application number: JP2015035326A
Authority: JP
Inventors: 史彦鈴木; 誠悟伊藤
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-02-25
Filing date: 2015-02-25
Publication date: 2019-07-10
Anticipated expiration: 2035-02-25
Also published as: JP2016156993A

Description

本発明は、対象者が特定の動作をするように、対象者に対して指示を提示する情報処理装置、情報処理装置の制御方法、プログラム、記録媒体に関する。

人間との対話機能を用いて、対話の相手を認識対象として、その人物名と顔とを登録することができるロボット装置などが従来技術として知られている。

例えば、特許文献１は、顔写真と人物名と音声の特徴とでデータを検索し、発話者の音声が新規であれば、この発話者は認識対象となり、その人物名と顔とを登録し、認識対象に対して音声を発して名前を名乗らせた後に、好きな食べ物を発言させる、などの特定の動作をするように指示するロボット装置が記載されている。

特開２００３−２５５９８９号公報（２００３年９月１０日公開）

しかしながら、特許文献１に記載のロボット装置は、発話者の音声が新規か否かに基づいて、その発話者が新規の認識対象か否かを判断するため、発話者の音声が新規ではない場合、その音声に他の人物の人物名が含まれていても、その人物は認識対象とならない、という問題がある。

例えば、新規ではない（すなわち、認識済みの）発話者が、新規の認識対象を紹介したり、該認識対象に話しかけたりする場合、特許文献１に記載の技術では、発話者の音声が新規ではないため、発話者によって紹介されたり、話しかけられたりした人物が新規の認識対象なのか、または認識済みの人物なのかを正しく判断できない虞がある。そして、この判断を誤った場合、新規の認識対象の人物名を認識することができない。

本発明は、上記の点を鑑みてなされたものであり、その目的は、対象者の人物名を含む音声を検知したときに、対象者が所定の動作をするように対象者に指示することができる情報処理装置、情報処理装置の制御方法などを実現することである。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声の入力を受付ける音声入力部を備える情報処理装置であって、上記音声入力部から入力された、対象者の識別情報を含む音声の音声データから上記対象者の識別情報を抽出する識別情報抽出部と、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出部が抽出した上記識別情報を含めて生成する指示生成部と、上記動作指示を上記対象者に対して提示する指示提示部と、を備える。

また、上記の課題を解決するために、本発明の一態様に係る情報処理装置の制御方法は、音声の入力を受付ける音声入力部を備える情報処理装置の制御方法であって、上記音声入力部から、対象者の識別情報を含む音声の入力を受付ける音声入力ステップと、上記音声入力ステップにて受付けた上記音声の音声データから上記対象者の識別情報を抽出する識別情報抽出ステップと、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出ステップにて抽出した上記識別情報を含めて生成する指示生成ステップと、上記指示生成ステップにて生成した上記動作指示を上記対象者に対して提示する指示提示ステップと、を含む。

本発明の一態様によれば、対象者の人物名を含む音声を検知したときに、対象者が特定の動作をするように対象者に指示できるという効果を奏する。

本発明に係る情報処理装置の概略構成の一例を示すブロック図である。情報処理装置のハードウェア構成の一例を示すブロック図である。情報処理装置が登録対象者の人物名と特徴データとを対応付けて登録する処理を説明する図である。情報処理装置が、テキストデータから人物名のテキストを抽出する処理の一例を示す図である。情報処理装置が出力する音声のテンプレートの一例を示す図である。情報処理装置が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れの一例を説明するフローチャートである。

〔実施形態１〕
以下、本発明の実施の形態について、詳細に説明する。

（情報処理装置１が登録対象者を登録する処理）
はじめに、本発明の一実施形態において、情報処理装置１が登録する対象である登録対象者（対象者）の人物名（識別情報）と特徴データ（固有情報）とを対応付けて登録する処理について図３を用いて説明する。図３は、情報処理装置１が登録対象者の人物名と特徴データとを対応付けて登録する処理を説明する図である。

情報処理装置１は、登録対象者の人物名（姓、名前など）を含む音声の入力を受付けて、この音声に含まれる登録対象者の人物名を抽出し、該登録対象者の人物名を含んだ音声指示を発して、該登録対象者が所定の動作をするように指示する。

登録対象者の人物名の抽出は、登録対象者本人が発する音声の入力を受付けたときであってもよいし、登録対象者と異なる人物（ユーザＵなど）が発する音声の入力を受付けたときであってもよい。ここで、登録対象者が発する音声の例としては、登録対象者が自己紹介をしたり、他の人物に自分の名を名乗って挨拶をしたりする場合の音声が挙げられる。一方、登録対象者と異なる人物が発する音声の例としては、ユーザＵが登録対象者を他の人物に紹介するときの音声、ユーザＵが情報処理装置１に対して登録対象者を紹介するときの音声、およびユーザＵが登録対象者に問いかけたり、話しかけたりするときの音声が挙げられる。なお、登録対象者本人が発する音声や、登録対象者と異なる人物が発する音声に、登録対象者の人物名が含まれる場合、このような音声は所定の形式の文型を有している。また、情報処理装置１が抽出する登録対象者の人物名は、登録対象者が自分のことを指す呼称として認識している名称であれば、姓、名前などの人物名に限定されず、ニックネーム（通称）、別称、芸名などであってもよい。

以下では、指示に従って所定の動作をした登録対象者の顔を撮像して、登録対象者の顔を撮像した顔画像Ｆから特徴データを抽出して、該登録対象者の特徴データと人物名とを対応付けた登録データを生成して管理する情報処理装置１を例に挙げて説明する。ここで、登録対象者の「特徴データ」とは、登録対象者の顔画像Ｆから抽出される特徴データに限定されず、指紋情報、網膜情報、声紋情報などから抽出される特徴データであってもよい。

なお、以下では、「所定の動作」が、登録対象者の顔を撮像した顔画像Ｆを取得するために、登録対象者に対して、顔を近づけさせる指示である場合を例に挙げて説明するが、これに限定されない。すなわち、情報処理装置１は、所定の動作をするように登録対象者に対して指示するが、「所定の動作」は、上記登録対象者に固有の固有情報を情報処理装置１が取得するための動作に限定されず、如何なる動作であってもよい。例えば、情報処理装置１が登録対象者の指紋情報を取得するための指示の場合、「指をスキャナ面に密着させる」ことを「所定の動作」として指示してもよい。あるいは、「情報処理装置１に対して登録対象者が所定の操作入力を行わせる」ことや、「所定の位置に移動させる」ことを「所定の動作」として指示してもよい。このような場合、「登録対象者」とは、情報処理装置１に登録される対象の人物に限定されず、情報処理装置１が発する指示に従って所定の動作をする、指示対象の人物（対象者）であってもよい。

例えば、図３の（ａ）に示すように、情報処理装置１は、音声の入力を受付ける音声入力部３１および音声出力部３２（指示提示部）を備えており、鈴木さんおよび佐藤さんと一緒にいるユーザＵが発した「こちらは鈴木さんです。」という音声を取得する。そして、情報処理装置１は、このユーザＵが発した音声に含まれる登録対象者の人物名である「鈴木」を用いて、鈴木さんが顔を近づけるように指示する音声指示「鈴木さん、お顔を近づけてください。」を音声出力部３２から出力する。

情報処理装置１は撮像装置３３をさらに備えており、音声指示を出力した後に近づけられた顔を撮像する。例えば、図３の（ｂ）に示すように、音声指示を聞いた鈴木さんが情報処理装置１に近づいて顔を近づけると、情報処理装置１は、顔を撮像して、図３の（ｃ）に示すような顔画像Ｆを取得する。

このように、情報処理装置１は、このユーザＵが発した音声に含まれる登録対象者の人物名（例えば、「鈴木」）を含む音声指示を発することにより、この人物名の登録対象者に顔を近づけさせる等の、所定の動作をさせる。図３の（ａ）に示した例では、情報処理装置１からの音声指示を、複数の人物（すなわち、ユーザＵ、鈴木さん、および佐藤さん）が聞いているが、音声指示に登録対象者の人物名を含めて呼び掛けることによって、所定の動作を特定の登録対象者にさせることができる。音声指示に含まれる人物名（例えば、「鈴木」さん）の人物に、顔を近づけさせることにより、登録対象者の顔を、他の人物と取り違えることなく、正しく撮像することができる。

情報処理装置１は、音声指示に従って顔を近づけた鈴木さんの顔を撮像した顔画像Ｆから、１または複数の特徴データを抽出して、該抽出した特徴データと、登録対象者の人物名「鈴木」さんと、を対応付けて登録データを生成し、この登録データを登録データベース２４（図１参照）に格納する。顔画像Ｆからの特徴データの抽出は、例えば、顔画像Ｆの目に対応する点Ｐ１および点Ｐ２の位置、鼻に対応する点Ｐ３の位置、および口に対応する点Ｐ４（口の中央）、点Ｐ５（口の右端）、点Ｐ６（口の左端）の各位置の位置座標、および各点の間の距離などを算出することによって行われる。ここで、位置座標とは、顔画像Ｆの所定の位置（例えば左下の端の位置）を原点とする座標系における、各点の位置に対応する座標である。なお、抽出する特徴データは、これらに限定されず、顔画像Ｆの画像データそのもの、顔の色、耳の形状など、任意の特徴データを登録データとして用いてもよい。また、顔画像Ｆは平面画像に限定されず、立体画像であってもよい。

なお、情報処理装置１が撮像装置３３を備え、登録対象者の顔の撮像をするために、指示音声（動作指示）を発して顔を近づけさせる場合を例に挙げて説明したが、指示音声はこれに限定されない。例えば、鈴木さんの顔を撮像した後に、「鈴木さん、お耳を見せてください。」という音声指示をさらに発して、鈴木さんの耳も撮像して、耳の形状を特徴データに追加してもよい。また、情報処理装置１が指紋センサを備える場合、「鈴木さん、指をスキャナ面に密着させてください。」という音声指示を発して、鈴木さんの指紋情報を特徴データとして取得してもよい。

また、登録対象者の顔の撮像をするための動作指示を、音声として発する例を説明したが、動作指示の出力は音声出力であることに限定されず、登録対象者に所定の動作をするように提示できる出力方法であれば如何なる方法であってもよい。例えば、動作指示を表示装置（図示せず）に文字列として表示してもよい。

（情報処理装置１のハードウェア構成）
まず、情報処理装置１のハードウェア構成について、図２を用いて説明する。図２は、情報処理装置１のハードウェア構成の一例を示すブロック図である。なお、説明の便宜上、姿勢などを制御する動作制御部、データ通信を行う通信部など、情報処理装置１が備え得る他の機能については、その説明を省略する。

情報処理装置１は、音声入力部３１、音声出力部３２、撮像装置３３、制御部１０、および記憶部２０を備えている。制御部１０は、情報処理装置１が備える各機能の処理を実行するように制御するものであり、音声入力部３１から入力した音声、および撮像装置３３が撮像した撮像画像Ｒを取得する。また、制御部１０、記憶部２０に格納されている認識辞書２１、形態素解析辞書２２、および指示テンプレートデータベース２３（図１参照）などを適宜参照して、所定の処理を実行する。さらに制御部１０は、登録データベース２４に生成した登録データを格納する。

（情報処理装置１の構成）
次に、情報処理装置１の構成について図１を用いて説明する。図１は、情報処理装置１の概略構成の一例を示すブロック図である。情報処理装置１は、図２において既に説明したように、音声入力部３１、音声出力部３２、撮像装置３３、制御部１０、および記憶部２０を備えている。情報処理装置１が備える各機能を制御する制御部１０は、さらに、テキスト化部１１、形態素解析部１２、紹介文抽出部１３、人物名抽出部１４（識別情報抽出部）、音声指示生成部１５（指示生成部）、撮像装置制御部１６、特徴データ抽出部１７（固有情報抽出部）、および登録データ管理部１８を備えている。記憶部２０は、認識辞書２１、形態素解析辞書２２、指示テンプレートデータベース２３、および登録データベース２４（記憶部）を備えている。

音声入力部３１は、音声の入力を受付けるマイクロフォンであり、音声入力部３１から入力した音声の音声データは、テキスト化部１１に送られる。

音声出力部３２は、音声データを音声として出力するスピーカである。音声出力部３２は、音声指示生成部１５から取得した、音声指示の音声データを出力する。

撮像装置３３は、画像データを取得するデジタルカメラであり、例えば、ＣＣＤセンサ、ＣＭＯＳセンサなどを用いて、撮像対象物の撮像を行うカメラモジュールである。なお、撮像装置３３が撮像する画像は２次元画像に限定されず、３次元画像であってもよい。

テキスト化部１１は、音声入力部３１から入力した音声の音声データの音響特徴量を算出し、認識辞書２１を参照しながら、音声データをテキストデータへと変換する。認識辞書２１には、音響モデルと言語モデルとが規定されており、テキスト化部１１は、音響特徴量毎に対応するテキストを割当てて、音声データのテキストデータ化を行う。具体的には、認識辞書２１は、音声データに含まれる音声がどのような周波数特性を有しているかを表したものであり、多数の音声の波形のサンプルと、対応するテキストデータとの対応関係が規定されている。テキスト化部１１は、認識辞書２１を検索して、算出した音響特徴量に一致する音声に対応するテキストを特定する。テキスト化部１１は、テキストデータを形態素解析部１２に送る。

形態素解析部１２は、テキスト化部１１から取得したテキストデータを形態素に分解する。形態素とは、意味を持つ最小の言語単位であり、文法関係を示す構成要素である。形態素解析部１２は、テキストデータを、形態素解析辞書２２を参照して文法上の各構成要素に分解し、それぞれの構成要素の文法関係を特定する。形態素解析部１２は、解析結果を、解析対象のテキストデータと共に、紹介文抽出部１３に出力する。なお、形態素解析部１２が、ユーザＵが登録対象者を紹介する音声をテキスト化したテキストデータにおける形態素解析の具体例については、後に説明する。

紹介文抽出部１３は、形態素解析の結果に基づいて、音声認識して生成されたテキストデータ（テキスト）の中から、登録対象者の人物名を含む文を抽出する。紹介文抽出部１３は、登録対象者が登録対象者と異なる人物に自己紹介したり、登録対象者と異なる人物が登録対象者を第三者もしくは情報処理装置１に対して紹介したりするときの音声から紹介文などを抽出してもよい。例えば、「私は鈴木です。」のような登録対象者本人が自己紹介する紹介文や、「こちらは鈴木さんです」のような登録対象者と異なる人物（例えば、ユーザＵ）が登録対象者を紹介する紹介文は、一人称または三人称の代名詞（私、僕、彼、こちらなど）の後に、人物名「鈴木」が配置される、といった、紹介文に特徴的な所定の形式を有している。登録対象者の人物名を含む紹介文の形式としては、これに限定されない。例えば、登録対象者である鈴木さんが、ユーザＵや佐藤さんに対して自己紹介するときに一人称の代名詞を省略して発する、「鈴木です。皆さん、よろしく。」や「佐藤さん、はじめまして。鈴木といいます。」などの音声から生成されたテキストデータも、登録対象者の人物名を含む所定の形式の文型を有しており、紹介文として抽出してもよい。紹介文抽出部１３は、登録対象者の人物名を含む所定の形式の文型を有するテキストデータを抽出する。

人物名抽出部１４は、紹介文抽出部１３によって紹介文であることが確認されたテキストデータにおいて、形態素解析部１２が「名詞、固有名詞、人物名、姓」であると特定した名詞を、人物名のテキストデータとして抽出する。抽出された人物名のテキストデータは、音声指示生成部１５および登録データ管理部１８に出力される。

音声指示生成部１５は、人物名抽出部１４が抽出した人物名（例えば、「鈴木」）のテキストを取得して、指示テンプレートデータベース２３に格納されている指示テンプレートの所定の位置に該人物名を挿入して、人物名を含む音声指示を生成する。なお、音声指示生成部１５が、ユーザＵが紹介した登録対象者の人物名を含む音声指示を生成する処理の具体例については、後に説明する。

撮像装置制御部１６は、音声出力部３２から出力した音声指示を聞いた登録対象者が、該音声指示で指示した所定の動作を行ったときに、撮像装置３３が撮像するように制御する。なお、人物名抽出部１４が抽出した人物名のテキストデータが、人物名抽出部１４から音声指示生成部１５へ出力されるときに、撮像装置３３による撮像を開始するように撮像装置制御部１６に指示してもよい。あるいは、音声指示生成部１５が音声出力部３２に、生成した音声指示を出力するときに、撮像装置３３による撮像を開始するように撮像装置制御部１６に指示してもよい。

また、撮像装置制御部１６は、撮像装置３３が撮像した撮像画像Ｒが、特徴データを抽出するために満たすべき条件を満たしているか否かを判断し、この条件が満たされていない場合には、同じ音声指示、または関連する動作を指示する音声指示（関連音声指示）を出力するように、音声指示生成部１５に指示してもよい。特徴データを抽出するために満たすべき条件とは、例えば、撮像画像Ｒにおける、顔画像Ｆの面積が一定以上のサイズであることや、撮像した顔画像Ｆで目・鼻・口の各位置（図３の（ｃ）の点Ｐ１〜Ｐ６参照）の位置座標が決定可能であることなどである。

特徴データ抽出部１７は、顔画像Ｆの目に対応する点Ｐ１および点Ｐ２の位置、鼻に対応する点Ｐ３の位置、および口に対応する点Ｐ４（口の中央）、点Ｐ５（口の右端）、点Ｐ６（口の左端）の各位置の位置座標、および各点の間の距離などを特徴データとして抽出する。

登録データ管理部１８は、特徴データ抽出部１７が抽出した特徴データと人物名とを対応付けて登録データを生成し、この登録データを登録データベース２４に格納する。

このように、情報処理装置１は、登録する登録対象者を紹介するユーザＵの音声の入力を受付けると、該登録対象者が所定の動作をするように、該登録対象者の人物名を含む音声指示を発する。これにより、他の人物と取り違えることなく登録対象者の顔を撮像することができるため、該登録対象者に関する登録データを正確に管理することができる。

なお、登録対象者の人物名を抽出する対象となる音声は、ユーザＵが登録対象者を第三者または情報処理装置１に紹介する音声や、登録対象者が他の人物に対して自己紹介する音声に限定されず、ユーザＵが登録対象者に対して話しかけたり、問いかけたりするときの音声であってもよい。例えば、図３に示す場合において、ユーザＵが鈴木さんや佐藤さんに対して、「鈴木さん、お元気ですか。」と問いかける音声や、「佐藤さん、こちらへどうぞ。」と話しかける音声などであってもよい。このような場合、紹介文抽出部１３（対象文抽出部）は、形態素解析の結果に基づいて、音声認識して生成されたテキストデータの中から、自分以外の人物に対して発する所定の形式の文型を有する音声のテキストデータ（対象文）を抽出する。次に、人物名抽出部１４は、紹介文抽出部１３によって所定の形式の文型を有することが確認されたテキストデータにおいて、形態素解析部１２が「名詞、固有名詞、人物名、姓」であると特定した名詞を、人物名のテキストデータとして抽出することができる。

（テキストデータからの人物名の抽出）
次に、人物名抽出部１４が、形態素解析部１２によるテキストデータの形態素解析に基づいて、テキストデータに含まれる人物名を抽出する処理について、図４を用いて説明する。図４は、テキストデータから人物名のテキストを抽出する処理の一例を示す図である。図４の（ａ）は「こちらは鈴木さんです。」というテキストデータの形態素解析および人物名の抽出を説明するものであり、（ｂ）は「こちらは鈴木さんと佐藤さんです。」というテキストデータの形態素解析および人物名の抽出を説明するものである。

図４の（ａ）に示すように、「こちらは鈴木さんです。」というテキストデータは、「こちら」、「は」、「鈴木」、「さん」、および「です」という形態素に分解される。「こちら」は、「名詞、代名詞、一般（名詞）」であると帰属され、「は」は、「助詞、係助詞」であると帰属され、「鈴木」は、「名詞、固有名詞、人物名、姓」であると帰属され、「さん」は、「名詞、接尾、人物名」であると帰属され、「です」は、「助動詞」であると帰属される。人物名抽出部１４は、「名詞、固有名詞、人物名、姓」として形態素解析部１２が帰属した「鈴木」というテキストデータを、人物名であるとして抽出する。

図４の（ｂ）に示すように、「こちらは鈴木さんと佐藤さんです。」というテキストデータは、「こちら」、「は」、「鈴木」、「さん」、「と」、「佐藤」、「さん」、および「です」という形態素に分解される。そして、「鈴木」および「佐藤」が「名詞、固有名詞、人物名、姓」であると帰属される。人物名抽出部１４は、「名詞、固有名詞、人物名、姓」として形態素解析部１２が帰属した「鈴木」というテキストデータを、人物名であるとして抽出する。

このように、人物名抽出部１４は、各テキストデータから、１または複数の人物名のテキストデータを抽出してもよい。これにより、ユーザＵから複数の人物を紹介する音声が入力した場合においても、人物名抽出部１４は、該音声によって紹介されている登録対象者の人物名をすべて抽出することができる。

（出力する音声の生成）
続いて、登録対象者が所定の動作を行うように、登録対象者に対して指示する音声指示の例について、図５を用いて説明する。図５は、情報処理装置１が出力する音声のテンプレートの一例を示す図である。音声指示生成部１５は、指示テンプレートデータベース２３から指示テンプレートを読み出して、各指示テンプレートに人物名抽出部１４から取得した人物名を挿入して、音声指示を生成する。

図３の（ａ）に示した、情報処理装置１から出力された音声指示「鈴木さん、お顔を近づけてください。」は、音声指示Ａ１の指示テンプレート「（人物名）さん、お顔を近づけてください。」の「（人物名）」の箇所に、人物名抽出部１４から取得した人物名である「鈴木」を挿入することにより生成することができる。

なお、撮像装置制御部１６が、撮像装置３３が撮像した撮像画像Ｒが、特徴データを抽出するために満たすべき条件を満たしているか否かを判断し、この条件が満たされていない場合には、同じ音声指示、または関連する動作を指示する音声指示（関連音声指示）を出力するように、音声指示生成部１５に指示して、顔画像の撮像をやり直してもよい。

例えば、撮像装置制御部１６が、撮像画像Ｒにおける、顔画像Ｆの面積が一定以上のサイズでないため、特徴データを抽出するための条件を満たしていないと判定した場合には、音声指示Ａ２の指示テンプレート「（人物名）さん、もう少し、お顔を近づけてください。」の「（人物名）」の箇所に、人物名抽出部１４から取得した登録対象者の人物名を挿入することにより、登録対象者に、さらに顔を近づけさせる音声指示を生成してもよい。同様に、音声指示Ａ３の指示テンプレート「（人物名）さん、お顔をこちらに向けてください。」の「（人物名）」の箇所に、人物名抽出部１４から取得した登録対象者の人物名を挿入することにより、登録対象者に、さらに顔を近づけさせる音声指示を生成してもよい。

音声指示を生成する前に、図５の（ｂ）に示すような補助フレーズ音声を生成して、出力してもよい。補助フレーズ音声は、例えば、補助フレーズＸ１テンプレート「（人物名）さん、はじめまして。」の「（人物名）」の箇所に、人物名抽出部１４から取得した登録対象者の人物名を挿入することにより生成される。このような音声を出力することにより、登録対象者に対して音声指示を聞く準備を促し、この後に出力する音声指示への関心を高めることができる。

さらに、顔の撮像に成功したときに、図５の（ｂ）に示すような補助フレーズ音声を生成して、出力してもよい。補助フレーズ音声は、例えば、補助フレーズＸ２テンプレート「（人物名）さん、お疲れ様でした。」、補助フレーズＸ３テンプレート「（人物名）さん、ありがとう。」の「（人物名）」の箇所に、人物名抽出部１４から取得した登録対象者の人物名を挿入することにより生成される。このような音声を出力することにより、登録対象者の顔の撮像が完了したこと、すなわち、特徴データを抽出して登録データを生成する処理に進んだことを、登録対象者を紹介したユーザＵおよび登録対象者に対して知らせることができる。

（情報処理装置１が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れ）
ここでは、情報処理装置１が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れについて図６を用いて説明する。図６は、情報処理装置１が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れの一例を説明するフローチャートである。

まず、情報処理装置１は、音声入力部３１からの音声入力の受付けを開始して、ユーザＵからの登録対象者を紹介する音声の入力を受付ける（音声入力ステップ）。テキスト化部１１は、入力された音声の音声データの音響特徴量を算出する（Ｓ１）。次に、テキスト化部１１は、認識辞書２１に規定されている、音響特徴量とテキストとの対応関係に基づいて、入力した音声の音声データをテキストデータへと変換する（Ｓ２）。続いて、形態素解析部１２は、テキストデータを文法上の各構成要素に分解し、形態素解析辞書２２を参照して、それぞれの構成要素の文法関係を特定する（Ｓ３）。テキストデータの形態素解析の結果から、紹介文抽出部１３によって登録対象者を紹介する紹介文であることが確認されると（Ｓ４）、人物名抽出部１４は、紹介文であることが確認されたテキストデータにおいて、形態素解析部１２が、例えば「名詞、固有名詞、人物名、姓」として帰属した単語（名詞）を人物名としてテキストデータから抽出する（Ｓ５：識別情報抽出ステップ）。また人物名抽出部１４は、抽出した人物名を音声指示生成部１５および登録データ管理部１８に送る。

人物名のテキストを取得した音声指示生成部１５は、指示テンプレートデータベース２３から指示テンプレートを読み出して、各指示テンプレートに人物名抽出部１４から取得した人物名を挿入して、登録対象者が所定の動作をするように指示する音声指示を生成する（Ｓ６：指示生成ステップ）。ここで音声指示生成部１５は、音声指示を生成する前に、または音声指示を生成した直後に、撮像装置３３での撮像を開始するように、撮像装置制御部１６に指示が送られ、撮像装置３３での撮像が開始する（Ｓ７）。その後、音声指示を音声出力部３２から出力する（Ｓ８：指示提示ステップ）。なお、Ｓ６〜Ｓ８の処理の順序は一例であり、これに限定されない。例えば、音声指示を音声出力部３２から出力した後に直ちに撮像装置３３での撮像を開始してもよい。

情報処理装置１が出力する音声指示は、登録対象者の人物名を含んでいるため、登録対象者が所定の動作をするように、登録対象者のみに呼びかけて指示する。例えば、図３の（ａ）に示すように、「鈴木さん、お顔を近づけてください」という音声指示を聞いた登録対象者である鈴木さんは、情報処理装置１に顔を近づけるが、ユーザＵおよび佐藤さんは指示を受けていないので、情報処理装置１に顔を近づけない。情報処理装置１は、近づけられた顔を撮像した撮像画像Ｒを、登録対象者である鈴木さんの顔画像Ｆとして取得する。

撮像装置制御部１６は、撮像画像Ｒから顔画像Ｆを検出して（Ｓ９）、特徴データを抽出するために満たすべき条件を満たしているか否かを判断する（Ｓ１０）。図６では、特徴データを抽出するために満たすべき条件が、撮像画像Ｒにおける顔画像Ｆの面積が閾値以上のサイズであること、である場合を例に挙げて図示している。この条件が満たされていない場合（Ｓ１０にてＮＯ）、Ｓ８に戻り、同じ音声指示、または関連する動作を指示する音声指示（関連音声指示）を出力するように、音声指示生成部１５に指示する。一方、特徴データを抽出可能である場合（Ｓ１０においてＹＥＳ）、撮像画像Ｒは撮像装置制御部１６から特徴データ抽出部１７に送られ、特徴データ抽出部１７は顔画像Ｆの特徴データを抽出する（Ｓ１１）。

最後に、登録データ管理部１８は、特徴データ抽出部１７から取得した特徴データと、人物名抽出部１４から取得した人物名とを対応付けた、登録対象者の登録データを登録データベース２４に格納する（Ｓ１２：登録データ管理ステップ）。

このように、情報処理装置１は、登録する登録対象者を紹介する音声の入力を受付けると、該登録対象者が所定の動作をするように、該登録対象者の人物名を含む音声指示を発する。これにより、他の人物と取り違えることなく登録対象者の顔を撮像することができるため、該登録対象者に関する登録データを正確に管理することができる。

〔実施形態２〕
上述の例では、情報処理装置１が音声入力部３１、音声出力部３２、および撮像装置３３を備え、ユーザＵによって紹介された登録対象者に関する登録データを生成して管理する例について説明したが、これに限定されない。例えば、情報処理装置１と、音声入力部３１、音声出力部３２、および撮像装置３３との間のデータ送受信が可能であれば、情報処理装置１と、音声入力部３１、音声出力部３２、および撮像装置３３とは、別体として構成されていてもよい。

この場合、音声入力部３１に入力された音声の音声データは、情報処理装置１へ送信される。情報処理装置１は、受信した音声データをテキストデータに変換して、該テキストデータの形態素解析を行い、該テキストデータに含まれている登録対象者の人物名を抽出する。情報処理装置１は、その人物名を用いて生成した音声指示の音声データを音声出力部３２に送信すると共に、撮像装置３３に対して、撮像開始の指示を送信する。

撮像装置３３が撮像した撮像画像Ｒは情報処理装置１に送信され、情報処理装置１は、撮像画像Ｒの顔画像Ｆから、登録対象者の特徴データを抽出して、該登録対象者の人物名と対応付けて登録データを生成し、記憶部２０に格納する。

このように、音声入力部３１、音声出力部３２、および撮像装置３３は、情報処理装置１の制御部１０が設置されている位置と離れた位置に設置することも可能である。

〔実施形態３〕
情報処理装置１の制御ブロック（特に、テキスト化部１１、形態素解析部１２、紹介文抽出部１３、人物名抽出部１４、音声指示生成部１５、撮像装置制御部１６、特徴データ抽出部１７、および登録データ管理部１８）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、情報処理装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る情報処理装置１は、音声の入力を受付ける音声入力部３１を備える情報処理装置であって、上記音声入力部から入力された、対象者の識別情報を含む音声の音声データから上記対象者の識別情報を抽出する識別情報抽出部（人物名抽出部１４）と、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出部が抽出した上記識別情報を含めて生成する指示生成部（音声指示生成部１５）と、上記動作指示を上記対象者に対して提示する指示提示部（音声出力部３２）と、を備える。

上記の構成によれば、対象者の識別情報を含む音声から上記対象者の識別情報を抽出し、上記対象者が所定の動作を行うように、上記対象者の識別情報を含む動作指示を、上記対象者に提示する。これにより、他の人物と取り違えることなく、正しい対象者に、所定の動作をさせることができる。

本発明の態様２に係る情報処理装置は、上記態様１において、上記対象者の識別情報を含む音声は、上記対象者と異なる人物が発した音声であってもよい。

これにより、上記対象者の識別情報を含む、対象者と異なる人物が発した音声から、対象者の識別情報を抽出することができる。よって、対象者と異なる人物が対象者に対して話しかける音声や問いかける音声、および対象者を紹介する音声などから対象者の識別情報を抽出することができる。

本発明の態様３に係る情報処理装置は、上記態様２において、上記音声入力部から入力された音声データを音声認識して生成されたテキストから、上記対象者を当該対象者と異なる人物が紹介する紹介文を抽出し、上記識別情報抽出部へ出力する紹介文抽出部１３をさらに備えてもよい。

上記の構成によれば、上記対象者と異なる人物が、当該対象者を紹介する紹介文から当該対象者の識別情報を抽出する。これにより、例えば、対象者と異なる人物が対象者を第三者や情報処理装置に紹介するときの音声から紹介文を抽出することができる。なお、対象者と異なる人物が当該対象者を紹介する紹介文は、対象者の識別情報を含む所定の形式の文型を有する文であるため、音声から紹介文を選択的に抽出することにより、対象者の識別情報を効率よく抽出することができる。

本発明の態様４に係る情報処理装置は、上記態様１から３のいずれかにおいて、上記識別情報は、上記対象者を示す人物名であり、上記指示生成部は、上記識別情報抽出部が上記識別情報として抽出した上記人物名を含む上記動作指示を生成してもよい。

上記の構成によれば、対象者の人物名を含む指示を生成する。これにより、動作指示が誰に向けた指示であるかを明確にして出力することができる。

本発明の態様５に係る情報処理装置は、上記態様１から４のいずれかにおいて、上記対象者の顔を撮像した顔画像から、上記対象者に固有の固有情報を抽出する固有情報抽出部（特徴データ抽出部１７）をさらに備え、上記所定の動作を行った上記対象者の上記識別情報と、上記固有情報抽出部が抽出した当該対象者の上記固有情報とを対応付けた、上記対象者に関する登録データを記憶部（記憶部２０、登録データベース２４）に記憶してもよい。

上記の構成によれば、上記対象者の顔を撮像した顔画像から、対象者に固有の固有情報を抽出して、対象者の識別情報と固有情報とを対応付けて記憶する。一般に、顔は対象者毎に異なるので、対象者毎に固有の固有情報を、撮像した顔画像から抽出することができる。これにより、他の人物と取り違えることなく、対象者の顔を撮像することができるため、当該対象者に関する登録データを正確に管理することができる。

本発明の態様６に係る情報処理装置１の制御方法は、音声の入力を受付ける音声入力部３１を備える情報処理装置の制御方法であって、上記音声入力部から、対象者の識別情報を含む音声の入力を受付ける音声入力ステップ（Ｓ１）と、上記音声入力ステップにて受付けた上記音声の音声データから上記対象者の識別情報を抽出する識別情報抽出ステップ（Ｓ５）と、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出ステップにて抽出した上記識別情報を含めて生成する指示生成ステップ（Ｓ６）と、上記指示生成ステップにて生成した上記動作指示を上記対象者に対して提示する指示提示ステップ（Ｓ８）と、を含む。上記の構成によれば、上記態様１と同様の効果を奏する。

本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部（ソフトウェア要素）として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、人間とのコミュニケーション機能を備える電子機器やロボット等に利用することができる。

１情報処理装置
１３紹介文抽出部
１４人物名抽出部（識別情報抽出部）
１５音声指示生成部（指示生成部）
１７特徴データ抽出部（固有情報抽出部）
１８登録データ管理部
２０記憶部
２４登録データベース（記憶部）
３１音声入力部
３２音声出力部（指示提示部）
３３撮像装置

Claims

音声の入力を受付ける音声入力部を備える情報処理装置であって、
上記音声入力部から入力された、対象者の識別情報を含む音声の音声データから上記対象者の識別情報を抽出する識別情報抽出部と、
上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出部が抽出した上記識別情報を含めて生成する指示生成部と、
上記動作指示を上記対象者に対して提示する指示提示部と、を備えており、
上記音声入力部から入力された音声データを音声認識して生成されたテキストから、上記対象者を当該対象者と異なる人物が紹介する紹介文を抽出し、上記識別情報抽出部へ出力する紹介文抽出部をさらに備えることを特徴とする情報処理装置。
上記識別情報は、上記対象者を示す人物名であり、
上記指示生成部は、上記識別情報抽出部が上記識別情報として抽出した上記人物名を含む上記動作指示を生成することを特徴とする請求項１に記載の情報処理装置。
上記対象者の顔を撮像した顔画像から、上記対象者に固有の固有情報を抽出する固有情報抽出部をさらに備え、
上記所定の動作を行った上記対象者の上記識別情報と、上記固有情報抽出部が抽出した当該対象者の上記固有情報とを対応付けた、上記対象者に関する登録データを記憶部に記憶することを特徴とする請求項１または２に記載の情報処理装置。
請求項１に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記識別情報抽出部、上記指示生成部、および上記紹介文抽出部としてコンピュータを機能させるための制御プログラム。
請求項４に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。