JP2005110726A

JP2005110726A - 学習装置及びその方法

Info

Publication number: JP2005110726A
Application number: JP2003345071A
Authority: JP
Inventors: Kenichi Maeda; 賢一前田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-10-02
Filing date: 2003-10-02
Publication date: 2005-04-28
Anticipated expiration: 2023-10-02
Also published as: JP3919726B2

Abstract

【課題】レベルの低い知的な動作を実現することによって、成人や老人でも楽しめる学習装置を提供する。
【解決手段】赤ちゃんロボット１００に内蔵した学習装置１０は、音声認識部１２、物体認識部１４、登録記憶部１６、音声合成部１８、モード切り替えスイッチ２０とから構成される。赤ちゃんロボット１００が、人間の顔と名前を学習して、同じ顔を見た際に学習した名前を発声するという動作を真似ることが可能となる。
【選択図】図１

Description

本発明は、ロボットや人形の玩具に内蔵して利用できる学習装置に関するものである。

従来の玩具ロボットは、主として機械的な動きを実現するためのものである。従って、単純な動きのパターンを繰り返すという、小さな子供向けの玩具として利用されるに止まっている。

これからは、子供より成人や老人の人口が多くなるため、玩具としても成人や老人が楽しめるロボットが必要とされている。しかし、人工的に知的な動作をさせたり複雑な行動を実現するためには、まだまだ将来の技術開発を待たなくてはならない。

また、ロボットには、ユーザーの顔を識別するものが提案されている（例えば、特許文献１参照）。
特開２００２−１５７５９６公報

しかし、上記のようにロボットに顔識別装置を内蔵しても、その識別した情報をどのように有効に使用するかは開示されていない。

そこで、本発明では、ロボットや人形の玩具などに内蔵する学習装置において、顔識別情報を用いて赤ちゃんやアニメの主人公をモチーフとしたレベルの低い知的な動作を実現することによって、成人や老人でも楽しめるものを提供することを目的とする。

請求項１に係る発明は、画像入力手段から入力した画像から物体を認識する物体認識手段と、前記登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識手段と、前記物体を登録させる登録モードにおいて、前記音声認識手段によって認識された名詞に関する記号列を含む音声データと、前記物体認識手段によって認識された物体に関する画像データを対応付けて記憶する登録記憶手段と、前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識手段によって認識された物体が、前記登録記憶手段に記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成手段と、を有することを特徴とする学習装置である。

請求項２に係る発明は、前記物体認識手段は、人間の顔を認識する顔認識手段であることを特徴とする請求項１記載の学習装置である。

請求項３に係る発明は、前記音声認識手段は、指示代名詞、助詞、助動詞の少なくともいずれかに属するキーワードを認識するキーワード認識手段を有し、前記音声認識手段は、入力された音声の中で前記キーワード認識手段によって認識されたキーワードを除く文字列を名詞として認識することを特徴とする請求項１記載の学習装置である。

請求項４に係る発明は、前記音声認識手段によって認識された音声データには、抑揚の調子を表すピッチ情報を含み、前記音声合成手段は、前記名詞の文字列と前記ピッチ情報と前記素片事書の素片から音声を合成することを特徴とする請求項１記載の学習装置である。

請求項５に係る発明は、前記学習装置は、ロボット、人形、または、玩具に内蔵され、前記音声合成手段は、前記素片辞書が、前記学習装置を内蔵したロボット、または、人形、または、玩具の外観に合わせた素片から構成されていることを特徴とする請求項１記載の学習装置である。

請求項６に係る発明は、画像入力手段から入力した画像から物体を認識する物体認識ステップと、前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識ステップと、前記登録モードにおいて、前記音声認識ステップによって認識された名詞に関する記号列を含む音声データと、前記物体認識ステップによって認識された物体に関する画像データを対応付けて記憶する登録記憶ステップと、前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識ステップで認識された物体が、前記登録記憶ステップで記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成ステップと、を有することを特徴とする学習方法である。

請求項７に係る発明は、画像入力手段から入力した画像から物体を認識する物体認識機能と、前記登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識機能と、前記物体を登録させる登録モードにおいて、前記音声認識機能で認識された名詞に関する記号列を含む音声データと、前記物体認識機能で認識された物体に関する画像データを対応付けて記憶する登録記憶機能と、前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識機能で認識された物体が、前記登録記憶機能で記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成機能と、をコンピュータによって実現することを特徴とする学習方法のプログラムである。

請求項１、２、６、７に係る発明の学習装置について説明する。

登録モードにおいて、画像入力手段から入力した画像から顔などの所定の物体を認識すると共に、音声入力装置から入力した音声から名詞を認識する。そして、認識された名詞に関する記号列を含む音声データと、認識された物体に関する画像データを対応付けて記憶する。

認識モードにおいて、認識された物体が、前記記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する。

請求項３に係る発明の学習装置では、指示代名詞、助詞、助動詞などに属する言葉であるキーワードが認識された場合には、登録する記号列から、そのキーワードを除いて、キーワードとの位置関係により名詞らしい部分のみを取り出すことができる。

請求項４に係る発明の学習装置では、ピッチ情報から抑揚を再現することにより本当に人間が発声するように聞くことできる。

請求項５に係る発明の学習装置では、ロボット、人形、または、玩具が本当に発声するように聞くことできる。

本発明によれば、レベルの低い知的な動作を実現することによって、成人や老人でも楽しめる学習装置を提供することを可能とし、本発明を内蔵したものは、将来のおもちゃ的なロボットの範囲を超えることが可能となり、実用上多大な効果が得られる
例えば、赤ちゃんが人や物体を覚えていく様子を模倣することになり、子供が大きくなって独立したり子供のない成人や、寂しい思いをしている老人のなぐさめとなることが期待できる。

あるいは、アニメの主人公が飼い主である所有者の名前などを覚えていくという様子を模倣することにより、従来のユーザである子供に対しても魅力的なものとなることが期待できる。

以下に図１〜図１１を参照して、本発明の一実施形態について説明する。

（１）赤ちゃんロボット１００の構成
本実施形態は、赤ちゃんが母親の顔を学習するという動作をモチーフとして実施した本発明の典型的な実施形態である。

図４は、本実施形態の学習装置１０を内蔵した赤ちゃんロボット１００の外観である。この赤ちゃんロボットには、マイク１０２とビデオカメラやデジタルカメラなどのカメラ１０４が内蔵されている。但し、カメラ１０４とマイク１０２は、実物の赤ちゃんと同じように目や耳の位置にある必要はないため、目立ちにくい髪の毛の中や衣類の一部であって良い。好ましくは、衣類のボタンに似せて作れば良い。

（２）学習装置１０の構成
図１は、本実施形態の学習装置１０を示すブロック図である。

学習装置１０は、音声認識部１２、物体認識部１４、登録記憶部１６、音声合成部１８、モード切り替えスイッチ２０とから構成される。

この学習装置１０は、音声認識と物体認識を組み合わせることにより、赤ちゃんロボット１００が見ている顔と聞いている音声とを対応付けて登録することにより、簡単な学習過程を模擬する。

まず、図２のフローチャートに示すように、「登録モード」において、ユーザーは自分の顔を赤ちゃんロボット１００に見せながら、自分の名前を赤ちゃんロボット１００に聞かせる。最も典型的な例としては、女性が赤ちゃんロボット１００に自分の顔を見せて「ママ」というように名前を聞かせる。これにより、赤ちゃんロボット１００は、その音声を認識して文字列のような記号列に変換して記憶すると共に、物体認識の学習により顔の辞書をその記号列と関連付けて登録する。

次に、図３のフローチャートに示すように、「認識モード」において、赤ちゃんロボット１００は、以前見せられた顔を再度見た場合に、その顔と同時に聞いた音声の記号を自分の音声で発声する。最も典型的な例としては、赤ちゃんらしい声で「ママ」と発声する。

このようにして赤ちゃんロボット１００が、人間の顔と名前を学習して、同じ顔を見た際に学習した名前を発声するという動作を真似ることが可能となる。

以下、各部１２〜１６の構成をそれぞれ説明する。なお、これら構成１２〜１６の各機能は、コンピュータに記憶されたプログラムによって実現する。

（２−１）モード切り替えスイッチ２０
モード切り替えスイッチ２０は、学習装置１０の機能を登録モードと認識モードを切り替えるものであり、赤ちゃんロボット１００の背中などに設ける。

（２−２）音声認識部１２
（２−２−１）第１の実施形態の音声認識部１２
音声認識部１２は、登録モードで機能するものであり、マイク１０２と、マイク１０２からの信号を適当なレベルに増幅する増幅器、不必要な帯域をカットするフィルター、増幅されたアナログ信号をディジタル化するＡ／Ｄ変換器、ディジタル化された信号をＨＭＭのような既知のアルゴリズムによって認識する認識部からなる。

そして、登録モードにおいて登録記憶部１６にユーザーが発声した名前を音声辞書に記憶させる。

（２−２−２）第２の実施形態の音声認識部１２
ユーザーが対象物の名前のみを発声するという約束事に従って使えば、以上の第１の実施形態の音声認識部１２を実現することができる。

しかし、一般には、「ママですよ」とか「これが犬ですよ」というように、対象物の名称以外に「ですよ」とか「これが」というような不要の言葉が入ることがある。これに対応するために、図５に示すように、音声認識部１２にキーワード認識部１３をさらに設ける。

キーワード認識部１３は、指示代名詞、助詞、助動詞などに属する言葉であるキーワードが認識された場合には、登録する記号列から、そのキーワードを除いて、キーワードとの位置関係により名詞らしい部分のみを取り出す。そして、登録記憶部１６にキーワードを取り除いた名前の記号列の音声データを音声辞書に記憶させる。

図６に、最後が「ですよ」というキーワードである場合を想定した場合の動作をフローチャートで示す。

なお、最初に「これが」とか、「私が」とかいうキーワードを想定する場合も、ほぼ同じような動作で対応することが可能である。この場合は、キーワードの位置が最初なので、フローチャート中「前」とある部分を「後」にする必要がある。

（２−３）物体認識部１４と登録記憶部１６の構成
次に、物体認識部１４と登録記憶部１６の構成について説明する。

この物体認識部１４と登録記憶部１６については、顔認識の登録モードと認識モードに分けて説明する。

（２−３−１）登録モード
顔認識の登録モードのフローチャートを図８に示す。

登録モードにおいては、人物の顔が写った顔画像をＭ′枚取り込み、Ｍ′より少ないＭ個の主成分を抽出して画像データとして登録記憶部１６の画像辞書に記憶する。これには、よく知られた主成分分析の方法を応用することができる。

そして、図１１に示すように、登録記憶部１６において、画像辞書と音声辞書を対応させて記憶させる。この場合には、同じ時刻に発声された音声辞書と認識した顔の画像辞書を、認識した時刻を基準に対応させて記憶させる。

なお、前に登録された名前と同じ名前が登録される場合の動作に関しては、全く独立に２個の名前と画像データを登録しても良いし、前のものを置き換えても良い。

また、前に登録された画像データを新しいデータで更新しても良い。その際には、画像データのみでなく、前記主成分分析に使われた相関行列を同時に記録しておくようにすれば良い。この処理のフローチャートを図１０に示す。

図１０でｆは入力画像をメッシュで表現した際に、各メッシュの濃度値を並べたベクトルである。記号＜・，・＞はシャッテン積と呼ばれ、ベクトルとその転置を掛けて行列を作る演算である。Ｋ、Ｋ′は、この演算結果を重み付きで加えたもので特性核と呼ばれる、一種の相関行列である。ここでは、Ｋは一つしか書いていないが、一般には、登録された複数のカテゴリ毎に、そのカテゴリと同じ数だけある。Ｋ′は、新しく登録されるカテゴリに対するもので、登録後はＫと同じ扱いとなる。

（２−３−２）認識モード
認識モードにおいては、顔画像をＮ′枚取り込み、Ｎ′より少ないＮ個の主成分を抽出し、Ｎ次元の部分空間を構成し、登録記憶部１６においてこの部分空間と画像データのＭ次元の部分空間との間の角度を計算する。

部分空間を校正するには、登録モードと同様の主成分分析を利用することができる。また、部分空間の間の角度を測るには、相互部分空間法と呼ばれる方法を用いる。

具体的には、Ｍ個の主成分を｛φ_ｍ｝、Ｎ個の主成分を｛ψ_ｎ｝としたとき、Ｘ＝（ｘ_ｉｊ）
但し

または

なる行列Ｘの最大固有値として、最も小さい角度を計算することができることが知られている。角度をθ_１とすると、最大固有値λ_１との関係は、λ_１＝ｃｏｓ^２θ_１である。この技術に関しては、特許文献２（特開平１１−２６５４５２号公報参照、前田賢一，山口修，福井和広：“物体認識装置および物体認識方法”）。

（２−４）音声合成部１８の構成
認識モードにおいて、登録記憶部１６で画像認識の結果が記憶されたものと一致すると、それと関連付けて記憶されていた音声辞書から音声データを呼び出し、その音声データの記号列を使って音声合成を行う。

音声合成は、記号列から音声を合成するという処理を行うが、そのためには、記号列以外に、音声の素片（個々の音素を合成する音の材料）と、抑揚の情報が必要である。

音素の素片は、予め登録されたものを用いる。例えば、赤ちゃんの声から収集した素片を使うと、赤ちゃんの声で合成が可能となる。なお、素片としては、上記したように赤ちゃんを模倣する場合には赤ちゃんの素片を予め収集しておいたものを利用するが、アニメの主人公の場合には、声優に発声してもらった音声から素片を収集して利用する。

しかし、登録したままの記号列を音声合成にかけると、まさにロボット的な抑揚のない音声が発生されることになる。この問題を解決するためには、音声認識部１２で抑揚も学習させることが有効である。これは音声のピッチを抽出して記号と対応付けながらピッチ情報として記憶するようにすればよい。そして、音声合成部１８において、このピッチ情報から抑揚を再現することにより本当にその人間が発声するように聞くことできる。その登録の状態のフローチャートを図７に示す。

（変更例）
本発明は、上記実施形態に限定されるものではなく、その主旨を変更することなく、いろいろな変更例が考えられる。

例えば、漫画の主人公のロボットが、飼い主の名前を覚えるようにしても良い。

また、上記実施形態では、ユーザーの顔を認識させていたが、これに代えてボールなどの物体を認識させてもよい。例えば、犬型のロボットにボールや骨を覚えさせるようにすることもできる。

本発明は、ロボット、または、人間や赤ちゃんの人形、動物の人形、アニメや漫画のキャラクターの人形やロボット、その他の玩具に内蔵して使用するものである。

本発明の一実施形態の学習装置のブロック図である。本実施形態の学習装置の登録モードのフローチャートである。本実施形態の学習装置の認識モードのフローチャートである。本実施形態の赤ちゃんロボットの外観図である。第２の実施形態の音声認識部を有した学習装置のブロック図である。キーワード認識部１４を有した音声認識のフローチャートである。抑揚を含めた学習のフローチャートである。登録モード中の顔認識のフローチャートである。認識モード中の顔認識のフローチャートである。更新登録のフローチャートである。登録記憶部１６の記憶状態を示す構成図である。

符号の説明

１０学習装置
１２音声認識部
１４物体認識部
１６登録記憶部
１８音声合成部
１００赤ちゃんロボット
１０２マイク
１０４カメラ

Claims

画像入力手段から入力した画像から物体を認識する物体認識手段と、
前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識手段と、
前記登録モードにおいて、前記音声認識手段によって認識された名詞に関する記号列を含む音声データと、前記物体認識手段によって認識された物体に関する画像データを対応付けて記憶する登録記憶手段と、
前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識手段によって認識された物体が、前記登録記憶手段に記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成手段と、
を有する
ことを特徴とする学習装置。
前記物体認識手段は、人間の顔を認識する顔認識手段である
ことを特徴とする請求項１記載の学習装置。
前記音声認識手段は、指示代名詞、助詞、助動詞の少なくともいずれかに属するキーワードを認識するキーワード認識手段を有し、
前記音声認識手段は、入力された音声の中で前記キーワード認識手段によって認識されたキーワードを除く文字列を名詞として認識する
ことを特徴とする請求項１記載の学習装置。
前記音声認識手段によって認識された音声データには、抑揚の調子を表すピッチ情報を含み、
前記音声合成手段は、前記名詞の文字列と前記ピッチ情報と前記素片事書の素片から音声を合成する
ことを特徴とする請求項１記載の学習装置。
前記学習装置は、ロボット、人形、または、玩具に内蔵され、
前記音声合成手段は、
前記素片辞書が、前記学習装置を内蔵したロボット、または、人形、または、玩具の外観に合わせた素片から構成されている
ことを特徴とする請求項１記載の学習装置。
画像入力手段から入力した画像から物体を認識する物体認識ステップと、
前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識ステップと、
前記登録モードにおいて、前記音声認識ステップによって認識された名詞に関する記号列を含む音声データと、前記物体認識ステップによって認識された物体に関する画像データを対応付けて記憶する登録記憶ステップと、
前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識ステップで認識された物体が、前記登録記憶ステップで記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成ステップと、
を有する
ことを特徴とする学習方法。
画像入力手段から入力した画像から物体を認識する物体認識機能と、
前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識機能と、
前記登録モードにおいて、前記音声認識機能で認識された名詞に関する記号列を含む音声データと、前記物体認識機能で認識された物体に関する画像データを対応付けて記憶する登録記憶機能と、
前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識機能で認識された物体が、前記登録記憶機能で記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成機能と、
をコンピュータによって実現する
ことを特徴とする学習方法のプログラム。