JP6543047B2 - 情報処理装置、制御プログラム、記録媒体 - Google Patents

情報処理装置、制御プログラム、記録媒体 Download PDF

Info

Publication number
JP6543047B2
JP6543047B2 JP2015035326A JP2015035326A JP6543047B2 JP 6543047 B2 JP6543047 B2 JP 6543047B2 JP 2015035326 A JP2015035326 A JP 2015035326A JP 2015035326 A JP2015035326 A JP 2015035326A JP 6543047 B2 JP6543047 B2 JP 6543047B2
Authority
JP
Japan
Prior art keywords
person
voice
unit
processing apparatus
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015035326A
Other languages
English (en)
Other versions
JP2016156993A (ja
Inventor
史彦 鈴木
史彦 鈴木
誠悟 伊藤
誠悟 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2015035326A priority Critical patent/JP6543047B2/ja
Publication of JP2016156993A publication Critical patent/JP2016156993A/ja
Application granted granted Critical
Publication of JP6543047B2 publication Critical patent/JP6543047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)

Description

本発明は、対象者が特定の動作をするように、対象者に対して指示を提示する情報処理装置、情報処理装置の制御方法、プログラム、記録媒体に関する。
人間との対話機能を用いて、対話の相手を認識対象として、その人物名と顔とを登録することができるロボット装置などが従来技術として知られている。
例えば、特許文献1は、顔写真と人物名と音声の特徴とでデータを検索し、発話者の音声が新規であれば、この発話者は認識対象となり、その人物名と顔とを登録し、認識対象に対して音声を発して名前を名乗らせた後に、好きな食べ物を発言させる、などの特定の動作をするように指示するロボット装置が記載されている。
特開2003−255989号公報(2003年 9月10日公開)
しかしながら、特許文献1に記載のロボット装置は、発話者の音声が新規か否かに基づいて、その発話者が新規の認識対象か否かを判断するため、発話者の音声が新規ではない場合、その音声に他の人物の人物名が含まれていても、その人物は認識対象とならない、という問題がある。
例えば、新規ではない(すなわち、認識済みの)発話者が、新規の認識対象を紹介したり、該認識対象に話しかけたりする場合、特許文献1に記載の技術では、発話者の音声が新規ではないため、発話者によって紹介されたり、話しかけられたりした人物が新規の認識対象なのか、または認識済みの人物なのかを正しく判断できない虞がある。そして、この判断を誤った場合、新規の認識対象の人物名を認識することができない。
本発明は、上記の点を鑑みてなされたものであり、その目的は、対象者の人物名を含む音声を検知したときに、対象者が所定の動作をするように対象者に指示することができる情報処理装置、情報処理装置の制御方法などを実現することである。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声の入力を受付ける音声入力部を備える情報処理装置であって、上記音声入力部から入力された、対象者の識別情報を含む音声の音声データから上記対象者の識別情報を抽出する識別情報抽出部と、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出部が抽出した上記識別情報を含めて生成する指示生成部と、上記動作指示を上記対象者に対して提示する指示提示部と、を備える。
また、上記の課題を解決するために、本発明の一態様に係る情報処理装置の制御方法は、音声の入力を受付ける音声入力部を備える情報処理装置の制御方法であって、上記音声入力部から、対象者の識別情報を含む音声の入力を受付ける音声入力ステップと、上記音声入力ステップにて受付けた上記音声の音声データから上記対象者の識別情報を抽出する識別情報抽出ステップと、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出ステップにて抽出した上記識別情報を含めて生成する指示生成ステップと、上記指示生成ステップにて生成した上記動作指示を上記対象者に対して提示する指示提示ステップと、を含む。
本発明の一態様によれば、対象者の人物名を含む音声を検知したときに、対象者が特定の動作をするように対象者に指示できるという効果を奏する。
本発明に係る情報処理装置の概略構成の一例を示すブロック図である。 情報処理装置のハードウェア構成の一例を示すブロック図である。 情報処理装置が登録対象者の人物名と特徴データとを対応付けて登録する処理を説明する図である。 情報処理装置が、テキストデータから人物名のテキストを抽出する処理の一例を示す図である。 情報処理装置が出力する音声のテンプレートの一例を示す図である。 情報処理装置が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れの一例を説明するフローチャートである。
〔実施形態1〕
以下、本発明の実施の形態について、詳細に説明する。
(情報処理装置1が登録対象者を登録する処理)
はじめに、本発明の一実施形態において、情報処理装置1が登録する対象である登録対象者(対象者)の人物名(識別情報)と特徴データ(固有情報)とを対応付けて登録する処理について図3を用いて説明する。図3は、情報処理装置1が登録対象者の人物名と特徴データとを対応付けて登録する処理を説明する図である。
情報処理装置1は、登録対象者の人物名(姓、名前など)を含む音声の入力を受付けて、この音声に含まれる登録対象者の人物名を抽出し、該登録対象者の人物名を含んだ音声指示を発して、該登録対象者が所定の動作をするように指示する。
登録対象者の人物名の抽出は、登録対象者本人が発する音声の入力を受付けたときであってもよいし、登録対象者と異なる人物(ユーザUなど)が発する音声の入力を受付けたときであってもよい。ここで、登録対象者が発する音声の例としては、登録対象者が自己紹介をしたり、他の人物に自分の名を名乗って挨拶をしたりする場合の音声が挙げられる。一方、登録対象者と異なる人物が発する音声の例としては、ユーザUが登録対象者を他の人物に紹介するときの音声、ユーザUが情報処理装置1に対して登録対象者を紹介するときの音声、およびユーザUが登録対象者に問いかけたり、話しかけたりするときの音声が挙げられる。なお、登録対象者本人が発する音声や、登録対象者と異なる人物が発する音声に、登録対象者の人物名が含まれる場合、このような音声は所定の形式の文型を有している。また、情報処理装置1が抽出する登録対象者の人物名は、登録対象者が自分のことを指す呼称として認識している名称であれば、姓、名前などの人物名に限定されず、ニックネーム(通称)、別称、芸名などであってもよい。
以下では、指示に従って所定の動作をした登録対象者の顔を撮像して、登録対象者の顔を撮像した顔画像Fから特徴データを抽出して、該登録対象者の特徴データと人物名とを対応付けた登録データを生成して管理する情報処理装置1を例に挙げて説明する。ここで、登録対象者の「特徴データ」とは、登録対象者の顔画像Fから抽出される特徴データに限定されず、指紋情報、網膜情報、声紋情報などから抽出される特徴データであってもよい。
なお、以下では、「所定の動作」が、登録対象者の顔を撮像した顔画像Fを取得するために、登録対象者に対して、顔を近づけさせる指示である場合を例に挙げて説明するが、これに限定されない。すなわち、情報処理装置1は、所定の動作をするように登録対象者に対して指示するが、「所定の動作」は、上記登録対象者に固有の固有情報を情報処理装置1が取得するための動作に限定されず、如何なる動作であってもよい。例えば、情報処理装置1が登録対象者の指紋情報を取得するための指示の場合、「指をスキャナ面に密着させる」ことを「所定の動作」として指示してもよい。あるいは、「情報処理装置1に対して登録対象者が所定の操作入力を行わせる」ことや、「所定の位置に移動させる」ことを「所定の動作」として指示してもよい。このような場合、「登録対象者」とは、情報処理装置1に登録される対象の人物に限定されず、情報処理装置1が発する指示に従って所定の動作をする、指示対象の人物(対象者)であってもよい。
例えば、図3の(a)に示すように、情報処理装置1は、音声の入力を受付ける音声入力部31および音声出力部32(指示提示部)を備えており、鈴木さんおよび佐藤さんと一緒にいるユーザUが発した「こちらは鈴木さんです。」という音声を取得する。そして、情報処理装置1は、このユーザUが発した音声に含まれる登録対象者の人物名である「鈴木」を用いて、鈴木さんが顔を近づけるように指示する音声指示「鈴木さん、お顔を近づけてください。」を音声出力部32から出力する。
情報処理装置1は撮像装置33をさらに備えており、音声指示を出力した後に近づけられた顔を撮像する。例えば、図3の(b)に示すように、音声指示を聞いた鈴木さんが情報処理装置1に近づいて顔を近づけると、情報処理装置1は、顔を撮像して、図3の(c)に示すような顔画像Fを取得する。
このように、情報処理装置1は、このユーザUが発した音声に含まれる登録対象者の人物名(例えば、「鈴木」)を含む音声指示を発することにより、この人物名の登録対象者に顔を近づけさせる等の、所定の動作をさせる。図3の(a)に示した例では、情報処理装置1からの音声指示を、複数の人物(すなわち、ユーザU、鈴木さん、および佐藤さん)が聞いているが、音声指示に登録対象者の人物名を含めて呼び掛けることによって、所定の動作を特定の登録対象者にさせることができる。音声指示に含まれる人物名(例えば、「鈴木」さん)の人物に、顔を近づけさせることにより、登録対象者の顔を、他の人物と取り違えることなく、正しく撮像することができる。
情報処理装置1は、音声指示に従って顔を近づけた鈴木さんの顔を撮像した顔画像Fから、1または複数の特徴データを抽出して、該抽出した特徴データと、登録対象者の人物名「鈴木」さんと、を対応付けて登録データを生成し、この登録データを登録データベース24(図1参照)に格納する。顔画像Fからの特徴データの抽出は、例えば、顔画像Fの目に対応する点P1および点P2の位置、鼻に対応する点P3の位置、および口に対応する点P4(口の中央)、点P5(口の右端)、点P6(口の左端)の各位置の位置座標、および各点の間の距離などを算出することによって行われる。ここで、位置座標とは、顔画像Fの所定の位置(例えば左下の端の位置)を原点とする座標系における、各点の位置に対応する座標である。なお、抽出する特徴データは、これらに限定されず、顔画像Fの画像データそのもの、顔の色、耳の形状など、任意の特徴データを登録データとして用いてもよい。また、顔画像Fは平面画像に限定されず、立体画像であってもよい。
なお、情報処理装置1が撮像装置33を備え、登録対象者の顔の撮像をするために、指示音声(動作指示)を発して顔を近づけさせる場合を例に挙げて説明したが、指示音声はこれに限定されない。例えば、鈴木さんの顔を撮像した後に、「鈴木さん、お耳を見せてください。」という音声指示をさらに発して、鈴木さんの耳も撮像して、耳の形状を特徴データに追加してもよい。また、情報処理装置1が指紋センサを備える場合、「鈴木さん、指をスキャナ面に密着させてください。」という音声指示を発して、鈴木さんの指紋情報を特徴データとして取得してもよい。
また、登録対象者の顔の撮像をするための動作指示を、音声として発する例を説明したが、動作指示の出力は音声出力であることに限定されず、登録対象者に所定の動作をするように提示できる出力方法であれば如何なる方法であってもよい。例えば、動作指示を表示装置(図示せず)に文字列として表示してもよい。
(情報処理装置1のハードウェア構成)
まず、情報処理装置1のハードウェア構成について、図2を用いて説明する。図2は、情報処理装置1のハードウェア構成の一例を示すブロック図である。なお、説明の便宜上、姿勢などを制御する動作制御部、データ通信を行う通信部など、情報処理装置1が備え得る他の機能については、その説明を省略する。
情報処理装置1は、音声入力部31、音声出力部32、撮像装置33、制御部10、および記憶部20を備えている。制御部10は、情報処理装置1が備える各機能の処理を実行するように制御するものであり、音声入力部31から入力した音声、および撮像装置33が撮像した撮像画像Rを取得する。また、制御部10、記憶部20に格納されている認識辞書21、形態素解析辞書22、および指示テンプレートデータベース23(図1参照)などを適宜参照して、所定の処理を実行する。さらに制御部10は、登録データベース24に生成した登録データを格納する。
(情報処理装置1の構成)
次に、情報処理装置1の構成について図1を用いて説明する。図1は、情報処理装置1の概略構成の一例を示すブロック図である。情報処理装置1は、図2において既に説明したように、音声入力部31、音声出力部32、撮像装置33、制御部10、および記憶部20を備えている。情報処理装置1が備える各機能を制御する制御部10は、さらに、テキスト化部11、形態素解析部12、紹介文抽出部13、人物名抽出部14(識別情報抽出部)、音声指示生成部15(指示生成部)、撮像装置制御部16、特徴データ抽出部17(固有情報抽出部)、および登録データ管理部18を備えている。記憶部20は、認識辞書21、形態素解析辞書22、指示テンプレートデータベース23、および登録データベース24(記憶部)を備えている。
音声入力部31は、音声の入力を受付けるマイクロフォンであり、音声入力部31から入力した音声の音声データは、テキスト化部11に送られる。
音声出力部32は、音声データを音声として出力するスピーカである。音声出力部32は、音声指示生成部15から取得した、音声指示の音声データを出力する。
撮像装置33は、画像データを取得するデジタルカメラであり、例えば、CCDセンサ、CMOSセンサなどを用いて、撮像対象物の撮像を行うカメラモジュールである。なお、撮像装置33が撮像する画像は2次元画像に限定されず、3次元画像であってもよい。
テキスト化部11は、音声入力部31から入力した音声の音声データの音響特徴量を算出し、認識辞書21を参照しながら、音声データをテキストデータへと変換する。認識辞書21には、音響モデルと言語モデルとが規定されており、テキスト化部11は、音響特徴量毎に対応するテキストを割当てて、音声データのテキストデータ化を行う。具体的には、認識辞書21は、音声データに含まれる音声がどのような周波数特性を有しているかを表したものであり、多数の音声の波形のサンプルと、対応するテキストデータとの対応関係が規定されている。テキスト化部11は、認識辞書21を検索して、算出した音響特徴量に一致する音声に対応するテキストを特定する。テキスト化部11は、テキストデータを形態素解析部12に送る。
形態素解析部12は、テキスト化部11から取得したテキストデータを形態素に分解する。形態素とは、意味を持つ最小の言語単位であり、文法関係を示す構成要素である。形態素解析部12は、テキストデータを、形態素解析辞書22を参照して文法上の各構成要素に分解し、それぞれの構成要素の文法関係を特定する。形態素解析部12は、解析結果を、解析対象のテキストデータと共に、紹介文抽出部13に出力する。なお、形態素解析部12が、ユーザUが登録対象者を紹介する音声をテキスト化したテキストデータにおける形態素解析の具体例については、後に説明する。
紹介文抽出部13は、形態素解析の結果に基づいて、音声認識して生成されたテキストデータ(テキスト)の中から、登録対象者の人物名を含む文を抽出する。紹介文抽出部13は、登録対象者が登録対象者と異なる人物に自己紹介したり、登録対象者と異なる人物が登録対象者を第三者もしくは情報処理装置1に対して紹介したりするときの音声から紹介文などを抽出してもよい。例えば、「私は鈴木です。」のような登録対象者本人が自己紹介する紹介文や、「こちらは鈴木さんです」のような登録対象者と異なる人物(例えば、ユーザU)が登録対象者を紹介する紹介文は、一人称または三人称の代名詞(私、僕、彼、こちらなど)の後に、人物名「鈴木」が配置される、といった、紹介文に特徴的な所定の形式を有している。登録対象者の人物名を含む紹介文の形式としては、これに限定されない。例えば、登録対象者である鈴木さんが、ユーザUや佐藤さんに対して自己紹介するときに一人称の代名詞を省略して発する、「鈴木です。皆さん、よろしく。」や「佐藤さん、はじめまして。鈴木といいます。」などの音声から生成されたテキストデータも、登録対象者の人物名を含む所定の形式の文型を有しており、紹介文として抽出してもよい。紹介文抽出部13は、登録対象者の人物名を含む所定の形式の文型を有するテキストデータを抽出する。
人物名抽出部14は、紹介文抽出部13によって紹介文であることが確認されたテキストデータにおいて、形態素解析部12が「名詞、固有名詞、人物名、姓」であると特定した名詞を、人物名のテキストデータとして抽出する。抽出された人物名のテキストデータは、音声指示生成部15および登録データ管理部18に出力される。
音声指示生成部15は、人物名抽出部14が抽出した人物名(例えば、「鈴木」)のテキストを取得して、指示テンプレートデータベース23に格納されている指示テンプレートの所定の位置に該人物名を挿入して、人物名を含む音声指示を生成する。なお、音声指示生成部15が、ユーザUが紹介した登録対象者の人物名を含む音声指示を生成する処理の具体例については、後に説明する。
撮像装置制御部16は、音声出力部32から出力した音声指示を聞いた登録対象者が、該音声指示で指示した所定の動作を行ったときに、撮像装置33が撮像するように制御する。なお、人物名抽出部14が抽出した人物名のテキストデータが、人物名抽出部14から音声指示生成部15へ出力されるときに、撮像装置33による撮像を開始するように撮像装置制御部16に指示してもよい。あるいは、音声指示生成部15が音声出力部32に、生成した音声指示を出力するときに、撮像装置33による撮像を開始するように撮像装置制御部16に指示してもよい。
また、撮像装置制御部16は、撮像装置33が撮像した撮像画像Rが、特徴データを抽出するために満たすべき条件を満たしているか否かを判断し、この条件が満たされていない場合には、同じ音声指示、または関連する動作を指示する音声指示(関連音声指示)を出力するように、音声指示生成部15に指示してもよい。特徴データを抽出するために満たすべき条件とは、例えば、撮像画像Rにおける、顔画像Fの面積が一定以上のサイズであることや、撮像した顔画像Fで目・鼻・口の各位置(図3の(c)の点P1〜P6参照)の位置座標が決定可能であることなどである。
特徴データ抽出部17は、顔画像Fの目に対応する点P1および点P2の位置、鼻に対応する点P3の位置、および口に対応する点P4(口の中央)、点P5(口の右端)、点P6(口の左端)の各位置の位置座標、および各点の間の距離などを特徴データとして抽出する。
登録データ管理部18は、特徴データ抽出部17が抽出した特徴データと人物名とを対応付けて登録データを生成し、この登録データを登録データベース24に格納する。
このように、情報処理装置1は、登録する登録対象者を紹介するユーザUの音声の入力を受付けると、該登録対象者が所定の動作をするように、該登録対象者の人物名を含む音声指示を発する。これにより、他の人物と取り違えることなく登録対象者の顔を撮像することができるため、該登録対象者に関する登録データを正確に管理することができる。
なお、登録対象者の人物名を抽出する対象となる音声は、ユーザUが登録対象者を第三者または情報処理装置1に紹介する音声や、登録対象者が他の人物に対して自己紹介する音声に限定されず、ユーザUが登録対象者に対して話しかけたり、問いかけたりするときの音声であってもよい。例えば、図3に示す場合において、ユーザUが鈴木さんや佐藤さんに対して、「鈴木さん、お元気ですか。」と問いかける音声や、「佐藤さん、こちらへどうぞ。」と話しかける音声などであってもよい。このような場合、紹介文抽出部13(対象文抽出部)は、形態素解析の結果に基づいて、音声認識して生成されたテキストデータの中から、自分以外の人物に対して発する所定の形式の文型を有する音声のテキストデータ(対象文)を抽出する。次に、人物名抽出部14は、紹介文抽出部13によって所定の形式の文型を有することが確認されたテキストデータにおいて、形態素解析部12が「名詞、固有名詞、人物名、姓」であると特定した名詞を、人物名のテキストデータとして抽出することができる。
(テキストデータからの人物名の抽出)
次に、人物名抽出部14が、形態素解析部12によるテキストデータの形態素解析に基づいて、テキストデータに含まれる人物名を抽出する処理について、図4を用いて説明する。図4は、テキストデータから人物名のテキストを抽出する処理の一例を示す図である。図4の(a)は「こちらは鈴木さんです。」というテキストデータの形態素解析および人物名の抽出を説明するものであり、(b)は「こちらは鈴木さんと佐藤さんです。」というテキストデータの形態素解析および人物名の抽出を説明するものである。
図4の(a)に示すように、「こちらは鈴木さんです。」というテキストデータは、「こちら」、「は」、「鈴木」、「さん」、および「です」という形態素に分解される。「こちら」は、「名詞、代名詞、一般(名詞)」であると帰属され、「は」は、「助詞、係助詞」であると帰属され、「鈴木」は、「名詞、固有名詞、人物名、姓」であると帰属され、「さん」は、「名詞、接尾、人物名」であると帰属され、「です」は、「助動詞」であると帰属される。人物名抽出部14は、「名詞、固有名詞、人物名、姓」として形態素解析部12が帰属した「鈴木」というテキストデータを、人物名であるとして抽出する。
図4の(b)に示すように、「こちらは鈴木さんと佐藤さんです。」というテキストデータは、「こちら」、「は」、「鈴木」、「さん」、「と」、「佐藤」、「さん」、および「です」という形態素に分解される。そして、「鈴木」および「佐藤」が「名詞、固有名詞、人物名、姓」であると帰属される。人物名抽出部14は、「名詞、固有名詞、人物名、姓」として形態素解析部12が帰属した「鈴木」というテキストデータを、人物名であるとして抽出する。
このように、人物名抽出部14は、各テキストデータから、1または複数の人物名のテキストデータを抽出してもよい。これにより、ユーザUから複数の人物を紹介する音声が入力した場合においても、人物名抽出部14は、該音声によって紹介されている登録対象者の人物名をすべて抽出することができる。
(出力する音声の生成)
続いて、登録対象者が所定の動作を行うように、登録対象者に対して指示する音声指示の例について、図5を用いて説明する。図5は、情報処理装置1が出力する音声のテンプレートの一例を示す図である。音声指示生成部15は、指示テンプレートデータベース23から指示テンプレートを読み出して、各指示テンプレートに人物名抽出部14から取得した人物名を挿入して、音声指示を生成する。
図3の(a)に示した、情報処理装置1から出力された音声指示「鈴木さん、お顔を近づけてください。」は、音声指示A1の指示テンプレート「(人物名)さん、お顔を近づけてください。」の「(人物名)」の箇所に、人物名抽出部14から取得した人物名である「鈴木」を挿入することにより生成することができる。
なお、撮像装置制御部16が、撮像装置33が撮像した撮像画像Rが、特徴データを抽出するために満たすべき条件を満たしているか否かを判断し、この条件が満たされていない場合には、同じ音声指示、または関連する動作を指示する音声指示(関連音声指示)を出力するように、音声指示生成部15に指示して、顔画像の撮像をやり直してもよい。
例えば、撮像装置制御部16が、撮像画像Rにおける、顔画像Fの面積が一定以上のサイズでないため、特徴データを抽出するための条件を満たしていないと判定した場合には、音声指示A2の指示テンプレート「(人物名)さん、もう少し、お顔を近づけてください。」の「(人物名)」の箇所に、人物名抽出部14から取得した登録対象者の人物名を挿入することにより、登録対象者に、さらに顔を近づけさせる音声指示を生成してもよい。同様に、音声指示A3の指示テンプレート「(人物名)さん、お顔をこちらに向けてください。」の「(人物名)」の箇所に、人物名抽出部14から取得した登録対象者の人物名を挿入することにより、登録対象者に、さらに顔を近づけさせる音声指示を生成してもよい。
音声指示を生成する前に、図5の(b)に示すような補助フレーズ音声を生成して、出力してもよい。補助フレーズ音声は、例えば、補助フレーズX1テンプレート「(人物名)さん、はじめまして。」の「(人物名)」の箇所に、人物名抽出部14から取得した登録対象者の人物名を挿入することにより生成される。このような音声を出力することにより、登録対象者に対して音声指示を聞く準備を促し、この後に出力する音声指示への関心を高めることができる。
さらに、顔の撮像に成功したときに、図5の(b)に示すような補助フレーズ音声を生成して、出力してもよい。補助フレーズ音声は、例えば、補助フレーズX2テンプレート「(人物名)さん、お疲れ様でした。」、補助フレーズX3テンプレート「(人物名)さん、ありがとう。」の「(人物名)」の箇所に、人物名抽出部14から取得した登録対象者の人物名を挿入することにより生成される。このような音声を出力することにより、登録対象者の顔の撮像が完了したこと、すなわち、特徴データを抽出して登録データを生成する処理に進んだことを、登録対象者を紹介したユーザUおよび登録対象者に対して知らせることができる。
(情報処理装置1が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れ)
ここでは、情報処理装置1が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れについて図6を用いて説明する。図6は、情報処理装置1が登録対象者の人物名と特徴データとを対応付けて登録する処理の流れの一例を説明するフローチャートである。
まず、情報処理装置1は、音声入力部31からの音声入力の受付けを開始して、ユーザUからの登録対象者を紹介する音声の入力を受付ける(音声入力ステップ)。テキスト化部11は、入力された音声の音声データの音響特徴量を算出する(S1)。次に、テキスト化部11は、認識辞書21に規定されている、音響特徴量とテキストとの対応関係に基づいて、入力した音声の音声データをテキストデータへと変換する(S2)。続いて、形態素解析部12は、テキストデータを文法上の各構成要素に分解し、形態素解析辞書22を参照して、それぞれの構成要素の文法関係を特定する(S3)。テキストデータの形態素解析の結果から、紹介文抽出部13によって登録対象者を紹介する紹介文であることが確認されると(S4)、人物名抽出部14は、紹介文であることが確認されたテキストデータにおいて、形態素解析部12が、例えば「名詞、固有名詞、人物名、姓」として帰属した単語(名詞)を人物名としてテキストデータから抽出する(S5:識別情報抽出ステップ)。また人物名抽出部14は、抽出した人物名を音声指示生成部15および登録データ管理部18に送る。
人物名のテキストを取得した音声指示生成部15は、指示テンプレートデータベース23から指示テンプレートを読み出して、各指示テンプレートに人物名抽出部14から取得した人物名を挿入して、登録対象者が所定の動作をするように指示する音声指示を生成する(S6:指示生成ステップ)。ここで音声指示生成部15は、音声指示を生成する前に、または音声指示を生成した直後に、撮像装置33での撮像を開始するように、撮像装置制御部16に指示が送られ、撮像装置33での撮像が開始する(S7)。その後、音声指示を音声出力部32から出力する(S8:指示提示ステップ)。なお、S6〜S8の処理の順序は一例であり、これに限定されない。例えば、音声指示を音声出力部32から出力した後に直ちに撮像装置33での撮像を開始してもよい。
情報処理装置1が出力する音声指示は、登録対象者の人物名を含んでいるため、登録対象者が所定の動作をするように、登録対象者のみに呼びかけて指示する。例えば、図3の(a)に示すように、「鈴木さん、お顔を近づけてください」という音声指示を聞いた登録対象者である鈴木さんは、情報処理装置1に顔を近づけるが、ユーザUおよび佐藤さんは指示を受けていないので、情報処理装置1に顔を近づけない。情報処理装置1は、近づけられた顔を撮像した撮像画像Rを、登録対象者である鈴木さんの顔画像Fとして取得する。
撮像装置制御部16は、撮像画像Rから顔画像Fを検出して(S9)、特徴データを抽出するために満たすべき条件を満たしているか否かを判断する(S10)。図6では、特徴データを抽出するために満たすべき条件が、撮像画像Rにおける顔画像Fの面積が閾値以上のサイズであること、である場合を例に挙げて図示している。この条件が満たされていない場合(S10にてNO)、S8に戻り、同じ音声指示、または関連する動作を指示する音声指示(関連音声指示)を出力するように、音声指示生成部15に指示する。一方、特徴データを抽出可能である場合(S10においてYES)、撮像画像Rは撮像装置制御部16から特徴データ抽出部17に送られ、特徴データ抽出部17は顔画像Fの特徴データを抽出する(S11)。
最後に、登録データ管理部18は、特徴データ抽出部17から取得した特徴データと、人物名抽出部14から取得した人物名とを対応付けた、登録対象者の登録データを登録データベース24に格納する(S12:登録データ管理ステップ)。
このように、情報処理装置1は、登録する登録対象者を紹介する音声の入力を受付けると、該登録対象者が所定の動作をするように、該登録対象者の人物名を含む音声指示を発する。これにより、他の人物と取り違えることなく登録対象者の顔を撮像することができるため、該登録対象者に関する登録データを正確に管理することができる。
〔実施形態2〕
上述の例では、情報処理装置1が音声入力部31、音声出力部32、および撮像装置33を備え、ユーザUによって紹介された登録対象者に関する登録データを生成して管理する例について説明したが、これに限定されない。例えば、情報処理装置1と、音声入力部31、音声出力部32、および撮像装置33との間のデータ送受信が可能であれば、情報処理装置1と、音声入力部31、音声出力部32、および撮像装置33とは、別体として構成されていてもよい。
この場合、音声入力部31に入力された音声の音声データは、情報処理装置1へ送信される。情報処理装置1は、受信した音声データをテキストデータに変換して、該テキストデータの形態素解析を行い、該テキストデータに含まれている登録対象者の人物名を抽出する。情報処理装置1は、その人物名を用いて生成した音声指示の音声データを音声出力部32に送信すると共に、撮像装置33に対して、撮像開始の指示を送信する。
撮像装置33が撮像した撮像画像Rは情報処理装置1に送信され、情報処理装置1は、撮像画像Rの顔画像Fから、登録対象者の特徴データを抽出して、該登録対象者の人物名と対応付けて登録データを生成し、記憶部20に格納する。
このように、音声入力部31、音声出力部32、および撮像装置33は、情報処理装置1の制御部10が設置されている位置と離れた位置に設置することも可能である。
〔実施形態3〕
情報処理装置1の制御ブロック(特に、テキスト化部11、形態素解析部12、紹介文抽出部13、人物名抽出部14、音声指示生成部15、撮像装置制御部16、特徴データ抽出部17、および登録データ管理部18)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、情報処理装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る情報処理装置1は、音声の入力を受付ける音声入力部31を備える情報処理装置であって、上記音声入力部から入力された、対象者の識別情報を含む音声の音声データから上記対象者の識別情報を抽出する識別情報抽出部(人物名抽出部14)と、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出部が抽出した上記識別情報を含めて生成する指示生成部(音声指示生成部15)と、上記動作指示を上記対象者に対して提示する指示提示部(音声出力部32)と、を備える。
上記の構成によれば、対象者の識別情報を含む音声から上記対象者の識別情報を抽出し、上記対象者が所定の動作を行うように、上記対象者の識別情報を含む動作指示を、上記対象者に提示する。これにより、他の人物と取り違えることなく、正しい対象者に、所定の動作をさせることができる。
本発明の態様2に係る情報処理装置は、上記態様1において、上記対象者の識別情報を含む音声は、上記対象者と異なる人物が発した音声であってもよい。
これにより、上記対象者の識別情報を含む、対象者と異なる人物が発した音声から、対象者の識別情報を抽出することができる。よって、対象者と異なる人物が対象者に対して話しかける音声や問いかける音声、および対象者を紹介する音声などから対象者の識別情報を抽出することができる。
本発明の態様3に係る情報処理装置は、上記態様2において、上記音声入力部から入力された音声データを音声認識して生成されたテキストから、上記対象者を当該対象者と異なる人物が紹介する紹介文を抽出し、上記識別情報抽出部へ出力する紹介文抽出部13をさらに備えてもよい。
上記の構成によれば、上記対象者と異なる人物が、当該対象者を紹介する紹介文から当該対象者の識別情報を抽出する。これにより、例えば、対象者と異なる人物が対象者を第三者や情報処理装置に紹介するときの音声から紹介文を抽出することができる。なお、対象者と異なる人物が当該対象者を紹介する紹介文は、対象者の識別情報を含む所定の形式の文型を有する文であるため、音声から紹介文を選択的に抽出することにより、対象者の識別情報を効率よく抽出することができる。
本発明の態様4に係る情報処理装置は、上記態様1から3のいずれかにおいて、上記識別情報は、上記対象者を示す人物名であり、上記指示生成部は、上記識別情報抽出部が上記識別情報として抽出した上記人物名を含む上記動作指示を生成してもよい。
上記の構成によれば、対象者の人物名を含む指示を生成する。これにより、動作指示が誰に向けた指示であるかを明確にして出力することができる。
本発明の態様5に係る情報処理装置は、上記態様1から4のいずれかにおいて、上記対象者の顔を撮像した顔画像から、上記対象者に固有の固有情報を抽出する固有情報抽出部(特徴データ抽出部17)をさらに備え、上記所定の動作を行った上記対象者の上記識別情報と、上記固有情報抽出部が抽出した当該対象者の上記固有情報とを対応付けた、上記対象者に関する登録データを記憶部(記憶部20、登録データベース24)に記憶してもよい。
上記の構成によれば、上記対象者の顔を撮像した顔画像から、対象者に固有の固有情報を抽出して、対象者の識別情報と固有情報とを対応付けて記憶する。一般に、顔は対象者毎に異なるので、対象者毎に固有の固有情報を、撮像した顔画像から抽出することができる。これにより、他の人物と取り違えることなく、対象者の顔を撮像することができるため、当該対象者に関する登録データを正確に管理することができる。
本発明の態様6に係る情報処理装置1の制御方法は、音声の入力を受付ける音声入力部31を備える情報処理装置の制御方法であって、上記音声入力部から、対象者の識別情報を含む音声の入力を受付ける音声入力ステップ(S1)と、上記音声入力ステップにて受付けた上記音声の音声データから上記対象者の識別情報を抽出する識別情報抽出ステップ(S5)と、上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出ステップにて抽出した上記識別情報を含めて生成する指示生成ステップ(S6)と、上記指示生成ステップにて生成した上記動作指示を上記対象者に対して提示する指示提示ステップ(S8)と、を含む。上記の構成によれば、上記態様1と同様の効果を奏する。
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、人間とのコミュニケーション機能を備える電子機器やロボット等に利用することができる。
1 情報処理装置
13 紹介文抽出部
14 人物名抽出部(識別情報抽出部)
15 音声指示生成部(指示生成部)
17 特徴データ抽出部(固有情報抽出部)
18 登録データ管理部
20 記憶部
24 登録データベース(記憶部)
31 音声入力部
32 音声出力部(指示提示部)
33 撮像装置

Claims (5)

  1. 音声の入力を受付ける音声入力部を備える情報処理装置であって、
    上記音声入力部から入力された、対象者の識別情報を含む音声の音声データから上記対象者の識別情報を抽出する識別情報抽出部と、
    上記対象者に対して所定の動作を行うよう指示する動作指示を、上記識別情報抽出部が抽出した上記識別情報を含めて生成する指示生成部と、
    上記動作指示を上記対象者に対して提示する指示提示部と、を備えており、
    上記音声入力部から入力された音声データを音声認識して生成されたテキストから、上記対象者を当該対象者と異なる人物が紹介する紹介文を抽出し、上記識別情報抽出部へ出力する紹介文抽出部をさらに備えることを特徴とする情報処理装置。
  2. 上記識別情報は、上記対象者を示す人物名であり、
    上記指示生成部は、上記識別情報抽出部が上記識別情報として抽出した上記人物名を含む上記動作指示を生成することを特徴とする請求項1に記載の情報処理装置。
  3. 上記対象者の顔を撮像した顔画像から、上記対象者に固有の固有情報を抽出する固有情報抽出部をさらに備え、
    上記所定の動作を行った上記対象者の上記識別情報と、上記固有情報抽出部が抽出した当該対象者の上記固有情報とを対応付けた、上記対象者に関する登録データを記憶部に記憶することを特徴とする請求項1または2に記載の情報処理装置。
  4. 請求項1に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記識別情報抽出部、上記指示生成部、および上記紹介文抽出部としてコンピュータを機能させるための制御プログラム。
  5. 請求項に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2015035326A 2015-02-25 2015-02-25 情報処理装置、制御プログラム、記録媒体 Active JP6543047B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015035326A JP6543047B2 (ja) 2015-02-25 2015-02-25 情報処理装置、制御プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015035326A JP6543047B2 (ja) 2015-02-25 2015-02-25 情報処理装置、制御プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2016156993A JP2016156993A (ja) 2016-09-01
JP6543047B2 true JP6543047B2 (ja) 2019-07-10

Family

ID=56825960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015035326A Active JP6543047B2 (ja) 2015-02-25 2015-02-25 情報処理装置、制御プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP6543047B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7172299B2 (ja) * 2018-08-31 2022-11-16 沖電気工業株式会社 情報処理装置、情報処理方法、プログラムおよび情報処理システム
CN110689894B (zh) * 2019-08-15 2022-03-29 深圳市声扬科技有限公司 自动注册方法及装置、智能设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331801A (ja) * 2000-03-15 2001-11-30 Cai Kk 個人認証装置および個人認証方法および記録媒体
JP4303602B2 (ja) * 2004-01-09 2009-07-29 本田技研工業株式会社 顔面像取得システム
US8566097B2 (en) * 2009-06-02 2013-10-22 Honda Motor Co., Ltd. Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
JP5767962B2 (ja) * 2011-12-28 2015-08-26 株式会社ゼンリンデータコム アドレス情報登録更新装置、アドレス情報登録更新方法およびアドレス情報登録更新プログラム

Also Published As

Publication number Publication date
JP2016156993A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
CN108231070B (zh) 语音对话装置、语音对话方法、记录介质以及机器人
JP6465077B2 (ja) 音声対話装置および音声対話方法
US10056073B2 (en) Method and apparatus to synthesize voice based on facial structures
CN104731767B (zh) 交流支援装置以及交流支援方法
CN107428006B (zh) 机器人、机器人控制方法以及机器人***
JP6129134B2 (ja) 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム
US8521525B2 (en) Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data
WO2017195775A1 (ja) 手話会話支援システム
JP2021022351A (ja) データベースに顔情報を入力する方法及び装置
JP6543047B2 (ja) 情報処理装置、制御プログラム、記録媒体
US10269349B2 (en) Voice interactive device and voice interaction method
CN113299309A (zh) 语音翻译方法及装置、计算机可读介质和电子设备
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
US10963548B2 (en) Information acquisition device, information acquisition system, and information acquisition method
JP2021076715A (ja) 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム
Khan et al. Sign language translation in urdu/hindi through microsoft kinect
KR101865251B1 (ko) 지능형 점자 번역장치
KR101410321B1 (ko) 무성음성인식 및 발성장치 및 방법
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム
JP6491808B1 (ja) ゲームプログラムおよびゲーム装置
CN114745349B (zh) 一种点评方法、电子设备及计算机可读存储介质
JP2019191339A (ja) 電子機器、制御プログラム、制御装置および制御方法
KR20210080764A (ko) 넥밴드형 음향 변환 장치를 이용한 학습 시스템
JPH1026999A (ja) 手話翻訳装置
JP2020086977A (ja) 翻訳装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190614

R150 Certificate of patent or registration of utility model

Ref document number: 6543047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150