JP4843987B2

JP4843987B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP4843987B2
Application number: JP2005108185A
Authority: JP
Inventors: 一美青山; 活樹南野; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-04-05
Filing date: 2005-04-05
Publication date: 2011-12-21
Anticipated expiration: 2025-04-05
Also published as: CN1855224B; US20060230140A1; US7499892B2; KR20060107329A; JP2006285882A; CN1855224A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、ロボットなどが、自己の行動を能動的に変更し、かつ、自己の行動を、他から与えられる刺激に適応させるために必要な情報をより一段と適切に生成することができるようにする情報処理装置、情報処理方法、およびプログラムに関するものである。

例えば、人間と音声でコミュニケーションするロボットには、ユーザがロボットを観察したときに、ロボットが、そのユーザと同一の音韻構造を有するように見えることが要求される。従って、ロボットが、ユーザが発声する音韻を聞き取ることと、ユーザと同様の音韻による発話を行うこと、つまり、ユーザが使用する言語と同一の言語による音声を認識（音声認識）することと、その言語による音声を発する（音声合成をする）こととが要求される。

従来の音声認識技術や音声合成技術では、ユーザが使用する言語に応じて、あらかじめ用意された音韻や単語の辞書を用いて、ユーザが使用する言語と同一の言語による音声の音声認識や、その言語による音声の音声合成（合成音の生成）が行われる。

ところで、人間の社会には、国や地域ごとに異なる音韻や言語が存在する。従って、あらかじめ用意された辞書を用いて音声認識や音声合成を行うのでは、国や地域ごとに、別々の辞書を作成する必要がある。

しかしながら、辞書の作成には膨大なコストがかかる。そこで、近年においては、人間と音声でコミュニケーションするロボットについては、辞書なしに、外部とのインタラクション、即ち、例えば、ユーザとの対話を通じて、そのユーザが有するのと同様の音韻構造を獲得することが要請されている。

例えば、非特許文献１には、調音器官と聴覚器官を備え、ケアギバー(caregiver)とのインタラクションを通じて、社会と同じ音韻を自己組織的に獲得する学習を行うロボットが開示されている。

非特許文献１に記載のロボットは、調音器官において、音を発するためのパラメータ（モータコマンド）をランダムに生成し、そのパラメータにしたがって音を発する。

そして、ケアギバーと呼ばれるユーザは、ロボットが発した音を聴き、社会に存在する音として認識することができた場合は、その音を発話して、ロボットに学習を行わせることを繰り返すことによって、ロボットに、社会に存在する音韻を獲得させる。

即ち、ロボットは、聴覚器官に対応する自己組織化マップ（以下、適宜、聴覚SOM(Self Organization Map)という）と、調音器官に対応する自己組織化マップ（以下、適宜、調音SOMという）とを有する。

ここで、自己組織化マップ(SOM)には、複数のノードが配置され、各ノードは、パラメータを有する。自己組織化マップに対して、入力データ（パラメータ）が与えられた場合、その入力データに対して最も類似するパラメータを有するノードが、勝者ノード(winner)として決定され、その勝者ノードが有するパラメータが、入力データに近づくように更新される。さらに、自己組織化マップにおいて、勝者ノードの近傍のノードが有するパラメータも、入力データに少しだけ近づくように更新される。

従って、自己組織化マップに対して、多数の入力データを与えていくと、パラメータが類似したノードどうしは近くなるように、類似しないノードは遠くなるように、自己組織化マップ上に配置されていく。従って、自己組織化マップには、あたかも入力データに含まれるパターンに応じた地図が構成されていくことになる。このように、入力データを与えていくと、パラメータが類似するノードどうしが近い位置に配置され、入力データに含まれるパターンに応じた地図が構成が構成されていく学習（パラメータの更新）の様（態様）は、自己組織的または自己組織化（self-organization）と呼ばれる。

非特許文献１に記載のロボットは、調音SOMにおけるあるノードに注目し、その注目ノードが有するパラメータをランダムに変更して、その変更後のパラメータにしたがって音を発する。

ケアギバーは、ロボットが発する音を聴き、その音を、社会に存在する音として認識することができた場合は、その音を発話する。このように、ロボットが発した音を聴いたケアギバーが発話した場合には、ロボットは、ケアギバーの発話した音を、入力データとして、聴覚SOMの勝者ノードが決定され、さらに、聴覚SOM（のノードが有するパラメータ）が更新される。そして、調音SOMの注目ノードと、聴覚SOMの勝者ノードとの結合が強められる。

以上の処理が繰り返されることにより、ロボットにおいては、調音SOMのノードと、そのノードが有するパラメータにしたがって発せられた音を聴いたケアギバーが発声した音に対して勝者ノードとなる聴覚SOMのノードとの結合、つまり、ロボットが音を発するのに用いたパラメータを有する調音SOMのノードと、その音と同一の音としてケアギバーが発声した音に対して勝者ノードとなる聴覚SOMのノードとの結合が、他のノードどうしの結合よりも強められていく。これにより、ロボットは、社会に存在する音韻を獲得し、外部から入力された音声と同様の音を出力することができるようになる。

即ち、ロボットは、外部から音声が入力されると、その音声に対して勝者ノードとなる聴覚SOMのノードとの結合が最も強い調音SOMのノードを探索し、そのノードが有するパラメータにしたがって音を発する。

非特許文献１に記載のロボットが行う学習は、ロボットが発した音が社会に存在する音であるという「正解」を、ケアギバーが同一の音を発話することによってロボットに与える、いわゆる教師あり学習である。従って、ロボットは、自身（調音器官）が発した音と同一の音を発話して「正解」を与えてくれるケアギバーが存在しなければ、音韻を獲得することができない。即ち、「正解」が与えられない、いわゆる教師なし学習を行うことはできない。

一方、例えば、非特許文献２には、できるだけ少ない仮定の下で、連続的な音から音韻を発生することができるように、音韻を獲得する学習を行う学習方法が開示されている。

即ち、非特許文献２に記載の学習方法では、聴覚器官に対応する聴覚SOM、および調音器官に対応する調音SOM、並びに聴覚SOMのノードと調音SOMのノードとの間の写像（結合）を有する複数のエージェントそれぞれに対し、調音SOMのノードが有するパラメータの初期値として、そのパラメータのパラメータ空間（調音空間）に一様にかつランダムに分布する値が与えられる。

なお、学習の開始前においては、複数のエージェントそれぞれにおいて、調音SOMのノードが有するパラメータは異なっている。

学習においては、各エージェントは、外部から、自身が発した音以外の音、つまり、他のエージェントが発した音の入力があった場合には、その音に対して、聴覚SOMの勝者ノードを決定し、さらに、聴覚SOM（のノードが有するパラメータ）を更新する。そして、エージェントは、聴覚SOMの勝者ノードとの結合が最も強い調音SOMのノードを探索し、そのノードが有するパラメータをリファレンスとして、調音SOMを更新する。即ち、調音SOMの各ノードのパラメータが、聴覚SOMの勝者ノードとの結合が最も強い調音SOMのノードが有するパラメータに近づくように更新される。

また、各エージェントは、自身が有する調音SOMのあるノードに注目して、その注目ノードが有するパラメータにしたがって音を発する。エージェントは、自身が発した音の入力があった場合には、その音に対して、聴覚SOMの勝者ノードを決定し、さらに、調音SOMの注目ノードと、聴覚SOMの勝者ノードとの結合を強める。

以上の処理が繰り返されることにより、複数のエージェントのそれぞれにおいて、同一の音（の集合）が、自身が発することができる音として残り、その結果、複数のエージェントは、すべて、同一の音韻（の集合）を獲得する。

非特許文献２では、以上のような学習を行うことにより、複数のエージェントが獲得する音韻が幾つかの音韻に収束することが報告されている。

非特許文献２に記載の学習は、「正解」が与えられない教師なし学習ではあるが、人間の社会に存在する音韻の獲得を目的とするものではなく、実際、非特許文献２に記載の学習によって、エージェントが、人間の社会に存在する音韻を獲得することができるとは限らない。このことは、各エージェントに対して、自身が発した音以外の音として、他のエ
ージェントが発した音に代えて、人間が発話した音声を入力しても同様である。

即ち、非特許文献２に記載の学習によれば、調音SOMの更新は、その調音SOMのいずれかのノードが有するパラメータをリファレンス（入力）として行われるため、調音SOMのノードが有するパラメータは、その初期値が分布していた空間内でしか変化しない（更新されない）。従って、エージェントが、人間の社会に存在する音韻を獲得することができるようにするためには、調音SOMのノードが有するパラメータの初期値として、人間の社会に存在する音韻すべてを包含する空間の全体に亘って一様に分布する値を与える必要があるが、そのような値を与えることは困難である。

ユーザとの対話を通じて、そのユーザが有する音韻構造を獲得することが要請されるロボットに対して、ユーザが、意識して「正解」を与えることは、ユーザにとって面倒である。

従って、ユーザとの対話を通じて、そのユーザが有する音韻構造を獲得することが要請されるロボットには、ユーザが「正解」であるか否かを意識せずに行った発話から、そのユーザが有する音韻構造を獲得することが必要とされる。

ロボットにおいて、そのような音韻構造の獲得を行うためには、ロボットの自己の行動としての発話を、他から与えられる刺激としての、ユーザから与えられる発話に適応させる必要があり、そのためには、ロボットが、自己の行動としての発話を能動的に変更し、さらに、その行動としての発話を自己評価する、つまり、自己の行動としての発話が、他から与えられた刺激としての、ユーザから与えられた発話に近いかどうかを評価（判定）する必要がある。
Y. Yoshikawa, J. Koga, M. Asada, and K. Hosoda(2003), "A Constructive Model of Mother-Infant Interaction towardsInfant's Vowel Articulation", Proc. of the 3rd International Workshop on Epigenetic Robotics, pp.139-146, 2003. Oudeyer, P-Y. (2003), "From Analogous to Digital Speech Sounds", Tallerman M., editor, Evolutionary Pre-Requisites for Language. Oxford University Press

そこで、このような状況に鑑みて、例えば、ロボットなどが、自己の行動を能動的に変更し、その行動を自己評価することにより、自己の行動を、他から与えられる刺激に適応させることができる情報処理装置、情報処理方法、およびプログラムが、特願２００５−０１５５３３（以下、先願と称する）として本出願人により既に出願されている。

先願によれば、HMMとSOMを組み合わせた自己組織化アルゴリズムを聴覚と調音の自己組織化マップ（聴覚SOMおよび調音SOM）として使用し、聴覚SOM上の各ノードと調音SOM上の各ノードとの間の写像（聴覚SOMと調音SOMとのノードどうしの結合の度合いを表す結合重み）を用いるフレームワークを使用して、いわゆる「聞きまね」を通じてロボットが自己組織的に社会の音韻を獲得し、聞きまねが上手くなっていくメカニズムを実現できる。

即ち、先願によれば、外界から音を聞いたときに、その音をロボット自身が発声できるように試み、その音とより近い音を出力することが可能なモータコマンドが探索できた場合における結合重みを獲得する。このような結合重みの獲得の更新（学習）を繰り返すことによって、ロボットは、外界の音とほぼ同じ音を発声できるようになる。換言すると、先願では、このようなロボット自身の自己評価に基づく結合重みの学習手法、即ち、いわゆる教師なし結合重みの学習手法が開示されている。

このような先願の学習手法を適用することで、ロボット自身の自己評価のみで、ほぼ適切な写像の構成が可能となる。

ただし、ロボットの自己評価のみで構成された写像は、ほぼ適切なものであるが、完全とは言いがたい。即ち、ロボットは、仮に自己評価が間違っているとすると、その間違いに気づくことができないので、その結果、完全ではない（正確ではない）写像が構成されることになる。

具体的には例えば、ロボットの自己評価により十分に学習された聴覚と調音の自己組織化マップ（聴覚SOMおよび調音SOM）および両者の間の写像（両者間の結合重み）が存在するとする。この場合、人が「あ」といった音韻に対して、自己評価による写像を用いてロボットが選択した調音SOM上のノードから生成される音韻が「エ」になってしまっていたときには、この間違った写像を自己評価のみで訂正することは非常に困難である（実質上不可能に近い）。

また例えば、人が「う」と言った音韻に対して、調音SOM上のノードから生成される音韻が「ヴ」というような、人の社会には存在しない音が割り当てられる写像が構成されてしまう可能性もあり、このような間違った写像もまた自己評価のみで訂正することは非常に困難である（実質上不可能に近い）。

以上の内容をまとめると、先願の学習手法をただ単に適用した場合には、次の第１の間違いと２の間違いとが生じる可能性がある。

第１の間違いとは、ロボットの調音パラメータから発声された音韻が人の社会に存在する音韻ではあるが、人と同じ音韻とマッピングされていないという間違いである。

第２の間違いとは、ロボットの調音パラメータから発声された音韻が人の社会に存在せず、その音韻と人の持つ音韻がマッピングされてしまっているという間違いである。

本発明は、このような状況に鑑みてなされたものであり、このような第１の間違いと第２の間違いとの発生頻度を可能な限り抑制すること、即ち、より正確な写像（結合重み）を適切に生成することで、例えばロボットなどが、自己の行動を能動的に変更し、かつ、自己の行動を他から与えられる刺激に適応させることがより一段と正確にできるようにするものである。

換言すると、本発明は、例えば、ロボットなどが、自己の行動を能動的に変更し、かつ、自己の行動を、他から与えられる刺激に適応させるために必要な情報（例えば写像、即ち結合重み）をより一段と適切に生成することができるようにするものである。

本発明の情報処理装置は、複数のノードで構成される第１および第２の自己組織化マップ、並びに第１の自己組織化マップのノードと第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段と、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、第１の自己組織化マップの学習を行う第１の学習手段と、第１の自己組織化マップにおいて、第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定手段と、第２の自己組織化マップにおいて、勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索手段と、生成ノードから、第２のパラメータを生成するパラメータ生成手段と、生成ノードから生成される第２のパラメータを変更させる変更手段と、第２のパラメータにしたがって駆動する駆動手段が、第２のパラメータにしたがって駆動した場合に、観測手段において観測される観測値に対して決定される勝者ノードに基づき、第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定手段と、終了条件が満たされた場合に、結合重みを更新する第１の結合重み更新手段と、駆動手段の駆動の結果に対するユーザの評価がユーザから報酬として与えられた場合に、結合重みを更新する第２の結合重み更新手段と、終了条件が満たされた場合の第２のパラメータに基づき、第２の自己組織化マップの学習を行う第２の学習手段とを備えることを特徴とする。

本発明の情報処理方法は、第１および第２の学習手段、勝者ノード決定手段、探索手段、パラメータ生成手段、変更手段、判定手段、第１の結合重み更新手段、並びに、第２の結合重み更新手段とを備える情報処理装置の、前記第１の学習手段が、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに第１の自己組織化マップのノードと第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段に記憶された第１の自己組織化マップの学習を行う第１の学習ステップと、前記勝者ノード決定手段が、第１の自己組織化マップにおいて、第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップと、前記探索手段が、第２の自己組織化マップにおいて、勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップと、前記パラメータ生成手段が、生成ノードから、第２のパラメータを生成するパラメータ生成ステップと、前記変更手段が、生成ノードから生成される第２のパラメータを変更させる変更ステップと、前記判定手段が、第２のパラメータにしたがって駆動する駆動手段が、第２のパラメータにしたがって駆動した場合に観測手段において観測される観測値に対して決定される勝者ノードに基づき、第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップと、前記第１の結合重み更新手段が、終了条件が満たされた場合に、結合重みを更新する第１の結合重み更新ステップと、前記第２の結合重み更新手段が、駆動手段の駆動の結果に対するユーザの評価がユーザから報酬として与えられた場合に、結合重みを更新する第２の結合重み更新ステップと、前記第２の学習手段が、終了条件が満たされた場合の第２のパラメータに基づき、第２の自己組織化マップの学習を行う第２の学習ステップとを含むことを特徴とする。

本発明のプログラムは、コンピュータに、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに第１の自己組織化マップのノードと第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段に記憶された第１の自己組織化マップの学習を行う第１の学習ステップと、第１の自己組織化マップにおいて、第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップと、第２の自己組織化マップにおいて、勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップと、生成ノードから、第２のパラメータを生成するパラメータ生成ステップと、生成ノードから生成される第２のパラメータを変更させる変更ステップと、第２のパラメータにしたがって駆動する駆動手段が、第２のパラメータにしたがって駆動した場合に観測手段において観測される観測値に対して決定される勝者ノードに基づき、第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップと、終了条件が満たされた場合に、結合重みを更新する第１の結合重み更新ステップと、駆動手段の駆動の結果に対するユーザの評価がユーザから報酬として与えられた場合に、結合重みを更新する第２の結合重み更新ステップと、終了条件が満たされた場合の第２のパラメータに基づき、第２の自己組織化マップの学習を行う第２の学習ステップとを含む処理を実行させることを特徴とする。

本発明においては、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに第１の自己組織化マップのノードと第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークにおける第１の自己組織化マップの学習が行われる。また、第１の自己組織化マップにおいて、第１のパラメータが観測される尤度が最も高いノードである勝者ノードが決定され、第２の自己組織化マップにおいて、勝者ノードとの結合の度合いが最も高いノードである生成ノードが探索される。さらに、生成ノードから生成される第２のパラメータが変更され、その第２のパラメータにしたがって駆動手段が駆動した場合に観測手段において観測される観測値に対して決定される勝者ノードに基づき、第２のパラメータの変更を終了する終了条件が満たされるかどうかが判定される。そして、終了条件が満たされた場合に、結合重みが更新される。さらに、駆動手段の駆動の結果に対するユーザの評価がユーザから報酬として与えられた場合にも、結合重みが更新される。また、終了条件が満たされた場合の第２のパラメータに基づき、第２の自己組織化マップの学習が行われる。

本発明によれば、例えば、ロボットなどが、自己の行動を能動的に変更し、その行動を自己評価することにより、自己の行動を、他から与えられる刺激に適応させることができる。特に、例えば、ロボットなどが、自己の行動を能動的に変更し、かつ、自己の行動を、他から与えられる刺激に適応させるために必要な情報として、結合重みをより一段と適切に生成する（更新していく）ことができる。

以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。

請求項１に記載の情報処理装置は、
複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段（例えば、図１の記憶部４）と、
外部を観測し、観測値を出力する観測手段（例えば、図１の観測部１）が出力する観測値から抽出される第１のパラメータ（例えば、音響パラメータ）に基づき、前記第１の自己組織化マップの学習を行う第１の学習手段（例えば、図１の学習部３）と、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定手段（例えば、図１２の勝者ノード決定部５２）と、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索手段（例えば、図１４の生成ノード決定部６１）と、
前記生成ノードから、第２のパラメータ（例えば、調音パラメータ）を生成するパラメータ生成手段（例えば、図１４の時系列生成部６３）と、
前記生成ノードから生成される第２のパラメータを変更させる変更手段（例えば、図１４のモデルパラメータ変更部６２）と、
前記第２のパラメータにしたがって駆動する駆動手段（例えば、図１の駆動部８）が、前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対して決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定手段（例えば、図１の制御部９）と、
前記終了条件が満たされた場合に、前記結合重みを更新する第１の結合重み更新手段（例えば、図１６の自己学習用結合重み更新部７６）と、
前記駆動手段の駆動の結果に対するユーザの評価が前記ユーザから報酬として与えられた場合に、前記結合重みを更新する第２の結合重み更新手段（例えば、図１６の教示学習用結合重み更新部７７）と、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習手段（例えば、図１の学習部７）と
を備えることを特徴とする。

請求項５に記載の情報処理方法は、
第１および第２の学習手段、勝者ノード決定手段、探索手段、パラメータ生成手段、変更手段、判定手段、第１の結合重み更新手段、並びに、第２の結合重み更新手段とを備える情報処理装置の、
前記第１の学習手段が、外部を観測し、観測値を出力する観測手段（例えば、図１の観測部１）が出力する観測値から抽出される第１のパラメータ（例えば、音響パラメータ）に基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段（例えば、図１の記憶部４）に記憶された前記第１の自己組織化マップの学習を行う第１の学習ステップと（例えば、図１８のステップＳ１０５）、
前記勝者ノード決定手段が、前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップ（例えば、図１８のステップＳ１０４）と、
前記探索手段が、前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップ（例えば、図１８のステップＳ１０６）と、
前記パラメータ生成手段が、前記生成ノードから、第２のパラメータ（例えば、調音パラメータ）を生成するパラメータ生成ステップ（例えば、図１８のステップＳ１０９）と、
前記変更手段が、前記生成ノードから生成される第２のパラメータを変更させる変更ステップ（例えば、図１８のステップＳ１０８）と、
前記判定手段が、前記第２のパラメータにしたがって駆動する駆動手段（例えば、図１の駆動部８）が、前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対して決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップ（例えば、図１８のステップＳ１１４）と、
前記第１の結合重み更新手段が、前記終了条件が満たされた場合に、前記結合重みを更新する第１の結合重み更新ステップ（例えば、図１８のステップＳ１１５で行われる図１７のステップＳ４７）と、
前記第２の結合重み更新手段が、前記駆動手段の駆動の結果に対するユーザの評価が前記ユーザから報酬として与えられた場合に、前記結合重みを更新する第２の結合重み更新ステップ（例えば、図１８のステップＳ１１５で行われる図１７のステップＳ４８）と、
前記第２の学習手段が、前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習ステップ（例えば、図１８のステップＳ１１５で行われる図１７のステップＳ４５）と
を含むことを特徴とする。

請求項６に記載のプログラムは、
コンピュータに、
外部を観測し、観測値を出力する観測手段（例えば、図１の観測部１）が出力する観測値から抽出される第１のパラメータ（例えば、音響パラメータ）に基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段（例えば、図１の記憶部４）に記憶された前記第１の自己組織化マップの学習を行う第１の学習ステップと（例えば、図１８のステップＳ１０５）、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップ（例えば、図１８のステップＳ１０４）と、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップ（例えば、図１８のステップＳ１０６）と、
前記生成ノードから、第２のパラメータ（例えば、調音パラメータ）を生成するパラメータ生成ステップ（例えば、図１８のステップＳ１０９）と、
前記生成ノードから生成される第２のパラメータを変更させる変更ステップ（例えば、図１８のステップＳ１０８）と、
前記第２のパラメータにしたがって駆動する駆動手段（例えば、図１の駆動部８）が、前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対して決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップ（例えば、図１８のステップＳ１１４）と、
前記終了条件が満たされた場合に、前記結合重みを更新する第１の結合重み更新ステップ（例えば、図１８のステップＳ１１５で行われる図１７のステップＳ４７）と、
前記駆動手段の駆動の結果に対するユーザの評価が前記ユーザから報酬として与えられた場合に、前記結合重みを更新する第２の結合重み更新ステップ（例えば、図１８のステップＳ１１５で行われる図１７のステップＳ４８）と、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習ステップ（例えば、図１８のステップＳ１１５で行われる図１７のステップＳ４５）と
を含む処理を実行させる。

以下、図面を参照して、本発明の実施の形態について説明する。

図１は、本発明を適用した情報処理装置の一実施の形態の構成例を示している。

この情報処理装置は、例えば、２足歩行型または４足歩行型のロボットの、音声に関係する処理を行う部分に適用することができる。

観測部１は、外部を観測し、観測値を出力する。即ち、観測部１は、例えば、音声（音）を観測するセンサとしての、例えば、マイク（マイクロフォン）、さらには、アンプ、A/D(Analog/Digital)変換器などで構成され、ユーザが発話した音声その他の音を観測し、観測値としての音声データを得て、特徴抽出部２に供給する。

なお、観測部１は、さらに、外部からの音声（音）の音声区間を検出し、その音声区間の単位で、音声データを、特徴抽出部２に供給する。但し、観測部１から特徴抽出部２に供給される音声データの単位（長さ）は、音声区間である必要はなく、適切な長さに区切られていればよい。即ち、観測部１から特徴抽出部２に対して供給される音声データは、例えば、音素や音韻の単位であっても良いし、単語や文、ある句読点から次の句読点までであっても良い。また、観測部１から特徴抽出部２に対して供給される音声データ（の区間）は、一定であっても良いし、一定でなくても（可変であっても）良い。

さらに、ここでは、観測部１は、上述のように、ユーザの音声等の外部からの音声を観測し、観測値としての音声データを出力するものとするが、その他、観測部１は、例えば、光を観測するセンサとしてのカメラ等で構成し、外部からの光を観測して、観測値としての画像データを出力するようにすることもできる。また、観測部１は、外部の温度や、外部から加えられる圧力、その他の物理量を観測するセンサで構成することができる。

ここで、観測部１が観測する外部からの音声には、ユーザが発声した音声と、後述する駆動部８が出力する音声（合成）とがある。さらに、駆動部８が出力する音声（合成）は、後述するユーザからの報酬が与えられる音声と、その報酬が与えられない音声とに区別される。このため、図１の例では、報酬取得部９により取得された報酬は、後述する学習部７に加えて、観測部１にも供給されるようになされている。即ち、観測部１は、必要に応じて、報酬の取得の有無を示す情報を音声データに付加して、特徴抽出部２に供給することもできる。

特徴抽出部２は、観測部１の出力から特徴量（第１のパラメータ）を抽出し、学習部３と認識部５に供給する。即ち、特徴抽出部２は、観測部１からの音声データから、その特徴量としての音響パラメータを抽出し、学習部３と認識部５に供給する。具体的には、特徴抽出部２は、観測部１からの音声データに対して一定時間間隔で周波数分析などの処理を施し、例えば、メルケプストラム（MFCC（Mel Frequency Cepstrum Coefficient））などの、音声認識に適した音響パラメータを抽出して、学習部３と認識部５に供給する。

ここで、観測部１から特徴抽出部２に供給される音声データは、時系列のデータ（時系列データ）であり、特徴抽出部２では、そのような音声データに対して、一定時間間隔で処理を施すことにより、音響パラメータを得て出力するから、特徴抽出部２が出力する音響パラメータも、観測部１から特徴抽出部２に供給される音声データと同様に、時系列データである。

なお、以下、適宜、時系列データである音響パラメータ（時系列の音響パラメータ）を、特に、音響パラメータ系列という。

学習部３は、特徴抽出部２からの音響パラメータ系列に基づき、記憶部４に記憶された、後述する結合ネットワークを構成する自己組織化マップである聴覚SOMの学習（更新）を行う。

即ち、学習部３には、特徴抽出部２から多数の音響パラメータ系列が与えられるが、学習部３は、その多数の音響パラメータ系列の代表的または特徴的なパターン（時系列パターン）を自己組織的に獲得していく教師なし学習を実行する。その結果、記憶部４に記憶された結合ネットワークを構成する聴覚SOMには、特徴抽出部２から学習部３に与えられる多数の音響パラメータ系列の代表的（特徴的）なパターンが、効率的に記憶される。即ち、特徴抽出部２が学習部３と認識部５に供給する音響パラメータ系列は、幾つかの代表的なパターン（時系列パターン）に分類することができ、学習部３では、聴覚SOMに、音響パラメータ系列の代表的な時系列パターンを記憶させるための学習が行われる。

記憶部４は、結合ネットワークを記憶している。結合ネットワークは、複数のノードで構成される自己組織化マップである聴覚SOMおよび調音SOM、並びに、聴覚SOMのノードと調音SOMのノードとの結合の度合いを表す結合重みからなる。なお、結合ネットワークの詳細については、後述する。

認識部５は、記憶部４に記憶された結合ネットワークを構成する聴覚SOMに基づき、特徴抽出部２から供給される音響パラメータ系列を用いて、観測部１で観測された音声を認識（音声認識）する認識処理を行い、その音声の認識結果を、生成部６に供給する。

生成部６は、認識部５から供給される認識結果に基づき、記憶部４に記憶された結合ネットワークを構成する調音SOMの所定のノードを探索する。さらに、生成部６は、その所定ノードを用いて、後段の駆動部８を駆動するパラメータ（第２のパラメータ）としての調音パラメータを生成し、学習部７と駆動部８に供給する。

なお、生成部６が出力する調音パラメータも、上述の特徴抽出部２が出力する音響パラメータと同様に、時系列データである。以下、適宜、時系列データである調音パラメータ（時系列の調音パラメータ）を、特に、調音パラメータ系列という。

ここで、生成部６が生成するパラメータは、駆動部８を駆動するパラメータであり、駆動部８が受け付けて駆動するパラメータであれば、その種類は問わない。駆動部８が、例えば、回転角度や回転速度等を指定するコマンドを受け付けて回転するモータなどで構成される場合には、そのコマンドを、生成部６が生成するパラメータとすることができる。また、駆動部８が、例えば、音声波形を生成するのに用いる音素片や、アクセント、ピッチ周波数などを表す情報を要素とするベクトルを受け付けて音声合成を行う音声合成装置などで構成される場合には、そのベクトルを、生成部６が生成するパラメータとすることができる。

学習部７は、生成部６からの調音パラメータ系列に基づき、記憶部４に記憶された結合ネットワークを構成する自己組織化マップである調音SOMの学習（更新）を、上述の学習部３が聴覚SOMの学習を行う場合と同様にして行う。

さらに、学習部７は、記憶部４に記憶された統合ネットワークを構成する結合重みの学習（更新）も行う。詳細については後述するが、この結合重みの学習（更新）には、情報処理装置自身が出力した音声（合成音）に基づく自己評価による学習、即ち、いわゆる教師なし学習と、情報処理装置自身が出力した音声（合成音）に対するユーザからの報酬（後述する報酬取得部９により取得される報酬）に基づく学習、即ち、この報酬を教師信号とするいわゆる教師あり学習とが存在する。

駆動部８は、生成部６からの調音パラメータにしたがって駆動する。即ち、駆動部８は、例えば、調音パラメータにしたがって音声合成を行う音声合成装置や、アンプ、D/A(Digital/Analog)変換器、スピーカなどで構成され、調音パラメータにしたがって音声合成を行う。そして、駆動部８は、その音声合成によって得られる音声（合成音）を出力する。

ここで、駆動部８を構成する音声合成装置としては、例えば、テキストを入力として音声合成を行うTTS(Text To Speech)の一部、即ち、例えば、テキストの解析結果に基づいて得られるベクトルを入力として音声合成を行うモジュールを利用することができる。この場合、調音パラメータ系列は、テキストの解析結果に基づいて得られる時系列のベクトルである。

なお、ここでは、駆動部８の駆動の形態として、音声合成装置による音声合成を採用し、駆動部８が駆動することにより合成音が生成されることとしているが、その他、駆動部８は、アクチュエータ（モータ）で構成し、そのアクチュエータが駆動することにより、ロボットの手や足に相当する部分が動かされるようにすることも可能である。この場合、生成部６では、アクチュエータを駆動するパラメータが生成され、学習部７と駆動部８に供給される。

報酬取得部９は、情報処理装置自身が出力した音声（合成音）に対するユーザの評価を報酬という形でユーザから取得し、観測部１と学習部７とに供給する。詳細については後述するが、この報酬には、情報処理装置自身が出力した合成音と外界の実際の音声とがほぼ一致していると評価した場合にユーザが与える報酬（以下、正報酬と称する）、および、その合成音と外界の実際の音声とが一致していないと評価した場合にユーザが与える報酬（以下、負報酬と称する）が存在する。

制御部１０は、観測部１乃至報酬取得部９それぞれから必要なデータ（情報）の供給を受け、そのデータ等に基づいて、観測部１乃至報酬取得部９それぞれを制御する。なお、制御部１０と、観測部１乃至報酬取得部９それぞれとの間は、データ等をやりとりするための接続線によって接続されているが、図１では、図が煩雑になるのを避けるため、その接続線の図示を省略してある。

次に、図２は、図１の記憶部４に記憶された結合ネットワークの構成例を模式的に示している。

結合ネットワークは、上述したように、聴覚SOMおよび調音SOM、並びに、結合重みからなる。

聴覚SOMおよび調音SOMは、複数のノードで構成される自己組織化マップである。但し、従来の自己組織化マップは、その自己組織化マップを構成するノードがパラメータを有し、そのパラメータが、要素の数が一定のベクトル（要素の数が１つのベクトルとみることができるスカラ量を含む）であるのに対して、結合ネットワークを構成する聴覚SOMおよび調音SOMである自己組織化マップは、その自己組織化マップを構成するノードが、時系列パターンを表現する時系列パターンモデルを有する点で、従来の自己組織化マップとは、異なる。結合ネットワークを構成する聴覚SOMおよび調音SOMである自己組織化マップの詳細については後述する。

結合ネットワークを構成する聴覚SOMおよび調音SOMにおいては、図３に示すように、聴覚SOMを構成する各ノードが、調音SOMを構成するノードのすべてと結合されている。そして、結合ネットワークにおいては、聴覚SOMを構成するノードと、調音SOMを構成するノードとの結合に対して、その結合の度合いを表す結合重みが定義されている。

次に、結合ネットワークを構成する聴覚SOMおよび調音SOMである自己組織化マップは、時系列パターンを表現する時系列パターンモデルを有する複数のノードの、いわばネットワークであり、従って、時系列パターンを記憶する時系列パターン記憶ネットワークであるということができる。時系列パターン記憶ネットワークは、その時系列パターン記憶ネットワークを構成するノードの数だけの（クラスタリングを行う）時系列パターンを記憶する。

図４は、時系列パターン記憶ネットワークの例を模式的に示している。

図４においては、時系列パターン記憶ネットワークは、ノードN1乃至N6の６つのノードから構成されている。

時系列パターン記憶ネットワークを構成する各ノードNi（図４では、ｉ＝１，２，・・・，６）は、時系列パターンを表現する時系列パターンモデルを有する。また、ノードNiは、他のノードNj（図４では、ｊ＝１，２，・・・，６）と結合関係を持つことができる。この結合関係をリンクと呼ぶ。図４では、例えば、ノードN1は、ノードN2，N3と直接の結合関係を有している。また、例えば、ノードN3は、ノードN1，N2，N5，N6と直接の結合関係を有しており、従って、ノードN5とN6は、ノードN3を介して、ノードN1と間接的な結合関係を有している。なお、２つのノードNiとNjとの結合関係としては、その２つのノードNiとNjとの最短の結合関係（パス）を考えるものとする。

時系列パターン記憶ネットワークの学習は、時系列データを、学習に用いる学習データとして行われるが、その学習データが、どのようなカテゴリ（クラス）に属する時系列データであるかを表す「正解」は与えられない。従って、時系列パターン記憶ネットワークの学習は、教師なし学習である。

次に、図５は、時系列パターン記憶ネットワークのノードNiの構成例を模式的に示している。

ノードNiは、時系列パターンを表現する時系列パターンモデル２１と、その時系列パターンモデル２１の学習に用いる時系列データである学習データを記憶する学習データ記憶部２２とから構成される。

ここで、図５では、時系列パターンモデル２１として、状態確率遷移モデルの１つであるHMM（連続HMM）が採用されている。また、図５では、HMMは、自己ループと次状態（右隣の状態）への状態遷移だけを有するleft-to-right型の３状態S1，S2，S3を有するものとなっている。図５の時系列パターンモデル２１における○印は状態を表し、矢印は状態遷移を表している。なお、時系列パターンモデル２１としてのHMMは、left-to-right型や、３状態のもの等に限定されない。

時系列パターンモデル２１が、図５に示したようなHMMである場合、その時系列パターンモデル２１としてのHMMは、状態遷移確率と出力確率密度関数（HMMが離散HMMである場合には、スカラ量である離散的なシンボルが出力される確率）とで定義される。

状態遷移確率は、HMMにおいて、状態が遷移する確率で、図５の時系列パターンモデル２１における矢印で示した状態遷移それぞれに対して与えられる。出力確率密度関数は、状態遷移時に、HMMから観測される値の確率密度を表す。出力確率密度関数としては、例えば、混合正規分布などが採用される。これらのHMMのパラメータ（状態遷移確率と出力確率密度関数）は、例えば、Baum-Welch 法によって学習（推定）することができる。

ノードNiでは、学習データ記憶部２２に記憶された学習データの統計的な特性、即ち、学習データ記憶部２２に記憶された学習データの時系列パターンが、時系列パターンモデル２１において学習され、これにより、時系列パターンモデル２１と、学習データ記憶部２２に記憶された学習データとが、対応関係を持つことになる。

なお、聴覚SOMとしての時系列パターン記憶ネットワークのノードNiにおいては、学習データ記憶部２２は、学習データとして、音響パラメータ系列を記憶する。また、調音SOMとしての時系列パターン記憶ネットワークのノードNiにおいては、学習データ記憶部２２は、学習データとして、調音パラメータ系列を記憶する。

次に、図６は、時系列パターン記憶ネットワークの他の例を模式的に示している。

図６では、時系列パターン記憶ネットワークは、９個のノードN1乃至N9で構成されており、この９個のノードN1乃至N9は、２次元的に配置されている。即ち、図６では、９個のノードN1乃至N9は、２次元平面上に、横×縦が３×３となるように配置されている。

さらに、図６では、２次元的に配置された９個のノードN1乃至N9の、横方向に隣接するノードどうしと、縦方向に隣接するノードどうしに対して、リンク（結合関係）が与えられている。なお、このようなリンクを与えることによって、時系列パターン記憶ネットワークを構成するノードには、空間的に、２次元的に配置される配置構造が与えられているということもできる。

時系列パターン記憶ネットワークでは、リンクによって与えられる空間的なノードの配置構造に基づき、その空間上でのある２つのノードどうしの距離を定義することができ、この２つのノードどうしの距離は、その２つのノードそれぞれが有する時系列パターンモデル２１が表現する時系列パターンのパターン間距離（時系列パターンどうしの類似性）として用いることができる。

なお、２つのノードどうしの距離によって表される時系列パターンのパターン間距離は、２つのノードの結合関係（リンク）に基づくパターン間距離ということができる。

２つのノードどうしの距離としては、例えば、その２つのノードどうしを結ぶ最短のパスを構成するリンクの数を採用することができる。この場合、あるノードに注目すると、その注目ノードとの直接のリンクを有するノード（図６では、注目ノードの横方向や縦方向に隣接するノード）は、注目ノードとの距離が最も近く、注目ノードとの直接のリンクを有するノードから先のリンクを辿っていくことで到達することができるノードは、到達するのに辿るリンクの数が多いほど、注目ノードとの距離が遠くなっていく。

なお、ノードに与えるリンクは、図４や図６に示したものに限定されるものではない。また、図４や図６に示したリンクは、ノードに対して、２次元的な配置構造を与えるが、リンクは、その他、１次元的な配置構造や３次元的な配置構造等を与えるリンクであっても良い。さらに、ノードには、必ずしもリンクを与える必要はない。

即ち、図７は、時系列パターン記憶ネットワークのさらに他の例を模式的に示している。

図７では、時系列パターン記憶ネットワークは、図４における場合と同様に、６個のノードN1乃至N6で構成されているが、これらの６個のノードN1乃至N6は、いずれもリンクを有していない。従って、図７の時系列パターン記憶ネットワークを構成するノードN1乃至N6は、リンクによって与えられる空間的な配置構造は有していない。なお、空間的な配置構造は有していないということは、空間的な制約がない配置構造が与えられているということもできる。

ここで、ある２つのノードにリンクがない場合には、空間上でのその２つのノードどうしの距離を定義することはできないから、その２つのノードそれぞれが（有する時系列パターンモデル２１が）表現する時系列パターンのパターン間距離として、結合関係（リンク）に基づくパターン間距離は用いることができない。そこで、この場合には、例えば、ノードが、ある時系列データ（の観測値）に適合する度合いに基づく順位（以下、適宜、適合順位という）に対応する値を、パターン間距離として用いることができる。

即ち、ある時系列データが与えられた場合には、その時系列データに対して、ノードが表現する時系列パターンとの類似性を、そのノードが適合する度合いとして求めることができる。いま、時系列パターン記憶ネットワークを構成するノードのうち、ある時系列データに最も適合するノードを、勝者ノードということとすると、勝者ノードと、時系列パターン記憶ネットワークのあるノードのそれぞれが表現する時系列パターンのパターン間距離としては、そのノードが時系列データに適合する順位（適合順位）に対応する値を採用することができる。

具体的には、時系列パターン記憶ネットワークを構成するノードのうち、勝者ノードとなっているノードの適合順位は第１位であり、このノード（勝者ノード）と勝者ノードとの（それぞれが表現する時系列パターンの）パターン間距離は、例えば、その適合順位から１を減算した０とすることができる。

また、時系列パターン記憶ネットワークを構成するノードのうち、適合順位が第２位のノードと勝者ノードとのパターン間距離は、例えば、その適合順位から１を減算した１とすることができる。以下、同様に、ノードの適合順位から１を減算して得られる値を、そのノードと、勝者ノード（となっているノード）とのパターン間距離とすることができる。

なお、ノードがある時系列データに適合する度合いに基づく順位（適合順位）に対応する値によって表されるパターン間距離は、ノードが時系列データに適合する度合いに基づくパターン間距離ということができる。

次に、図８は、図１の学習部３の構成例を示している。

学習部３には、特徴抽出部２（図１）から、新たな時系列データとしての（例えば、観測部１で検出された音声区間の）音響パラメータ系列が供給される。学習部３は、記憶部４に記憶された結合ネットワークを構成する聴覚SOMとしての時系列パターン記憶ネットワークを、特徴抽出部２からの新たな時系列データに基づいて、自己組織的に更新する。

即ち、スコア計算部４１は、記憶部４に記憶された時系列パターン記憶ネットワークである聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２から供給される新たな時系列データとしての音響パラメータ系列に適合する度合いをスコアとして求め、勝者ノード決定部４２に供給する。即ち、ノードが有する時系列パターンモデル２１が、例えば、図５に示したようにHMMである場合には、スコア計算部４１は、ノードが有する時系列パターンモデル２１としてのHMMから、特徴抽出部２から供給された新たな音響パラメータ系列が観測される尤度を求め、そのノードのスコアとして、勝者ノード決定部４２に供給する。

勝者ノード決定部４２は、記憶部４に記憶された時系列パターン記憶ネットワークである聴覚SOMにおいて、特徴抽出部２からの新たな音響パラメータ系列に最も適合するノードを求め、そのノードを、勝者ノードとして決定する。

即ち、勝者ノード決定部４２は、記憶部４に記憶された時系列パターン記憶ネットワークである聴覚SOMを構成するノードのうちの、スコア計算部４１からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部４２は、勝者ノードを表す情報を、更新重み決定部４３に供給する。

ここで、時系列パターン記憶ネットワークを構成するノードには、各ノードを識別するためのラベルであるノードラベルを付しておき、勝者ノードを表す情報、その他のノード表す情報としては、そのノードラベルを採用することができる。なお、ノードラベルは、ノード自体を識別するラベルであり、「正解」を表すものではない。

更新重み決定部４３は、勝者ノード決定部４２から供給されるノードラベルが表す勝者ノードに基づき、記憶部４に記憶された聴覚SOMを構成する各ノードについて、後述する更新重みを決定し、学習データ更新部４４に供給する。

即ち、更新重み決定部４３は、記憶部４に記憶された聴覚SOMを構成する各ノード（勝者ノードを含む）の更新重みを、そのノードと、勝者ノードとのパターン間距離に基づいて決定し、学習データ更新部４４に供給する。

ここで、ノードが有する時系列パターンモデル２１（図５）は、特徴抽出部２からの新たな音響パラメータ系列を用いて更新されるが、ノードの更新重みとは、そのノードが有する時系列パターンモデル２１の更新によって、その時系列パターンモデル２１が受ける新たな音響パラメータ系列の影響の度合いを表す。従って、ノードの更新重みが、例えば０であれば、そのノードが有する時系列パターンモデル２１は、新たな音響パラメータ系列の影響を受けない（更新されない）。

なお、更新重み決定部４３において、記憶部４に記憶された聴覚SOMを構成する各ノードの更新重みを決定する際のパターン間距離としては、聴覚SOMのノードが、図４や図６に示したように、リンクを有する場合には、そのノードと勝者ノードとの結合関係に基づくパターン間距離を採用し、また、聴覚SOMのノードが、図７に示したように、リンクを有しない場合には、聴覚SOMの各ノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いに基づくパターン間距離を採用することができる。

即ち、更新重み決定部４３は、記憶部４に記憶された聴覚SOMを参照し、聴覚SOMのノードそれぞれと、勝者ノード決定部４２からのノードラベルが表す勝者ノードとの結合関係に基づくパターン間距離を求め、そのパターン間距離に基づいて、聴覚SOMのノードそれぞれの更新重みを決定する。

あるいは、更新重み決定部４３は、記憶部４に記憶された聴覚SOMを参照し、聴覚SOMのノードそれぞれについて、ノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いとして、例えば、スコア計算部４１が求めるのと同様のスコアを求める。さらに、更新重み決定部４３は、聴覚SOMのノードそれぞれについて、ノードのスコアに基づく順位（適合順位）に対応する値を、新たな音響パラメータ系列に適合する度合いに基づくパターン間距離として求め、そのパターン間距離に基づいて、聴覚SOMのノードそれぞれの更新重みを決定する。

なお、ノードのスコアは、更新重み決定部４３で求めても良いが、スコア計算部４１から更新重み決定部４３に供給するようにしても良い。

学習データ更新部４４は、記憶部４に記憶された聴覚SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを更新する。

即ち、学習データ更新部４４は、ノードが有する学習データ記憶部２２に既に記憶されている学習データと、特徴抽出部２からの新たな音響パラメータ系列とを、更新重み決定部４３からの、対応するノードの更新重みにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部２２に記憶させることで、その学習データ記憶部２２の記憶内容を更新する。

学習データ更新部４４は、以上のように、学習データ記憶部２２（図５）に記憶された学習データを、更新重みにしたがって更新すると、その更新が終了した旨の終了通知を、モデル学習部４５に供給する。

モデル学習部４５は、学習データ更新部４４から終了通知を受けると、その学習データ更新部４４による更新後の学習データ記憶部２２（図５）に記憶された学習データを用いて、記憶部４に記憶された聴覚SOMの各ノードが有する時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１を更新する。

従って、モデル学習部４５による、ノードが有する時系列パターンモデル２１の更新は、そのノードが有する学習データ記憶部２２（図５）に記憶されていた学習データ（の一部）と、特徴抽出部２から供給された新たな音響パラメータ系列とに基づいて行われる。なお、学習データ記憶部２２の記憶内容は、更新重みにしたがって更新されるから、モデル学習部４５による、時系列パターンモデル２１の更新は、更新重みに基づいて行われるということもできる。

次に、図９は、図８の更新重み決定部４３において更新重みを決定する決定方法を示している。

更新重み決定部４３は、例えば、図９に示すような、勝者ノードとのパターン間距離dの増加に対して更新重みαが減少する関係を表す曲線（以下、距離／重み曲線という）にしたがって、ノードに対する更新重み（ノードの更新重み）を決定する。距離／重み曲線によれば、勝者ノードとのパターン間距離dが近いノードほど、大きな更新重みαが決定され、パターン間距離dが遠いノードほど、小さな更新重みαが決定される。

図９の距離／重み曲線において、横軸（左から右方向）は、更新重みαを示しており、縦軸（上から下方向）は、パターン間距離dを示している。

図９では、パターン間距離dとして、例えば、ノードとの結合関係に基づくパターン間距離、即ち、勝者ノードからの距離が採用されており、縦軸に沿って、聴覚SOMを構成する６つのノードN1乃至N6が、各ノードNiと勝者ノードとの距離に対応する位置（縦軸の位置）に記載されている。

図９では、聴覚SOMを構成する６つのノードN1乃至N6が、その順で、勝者ノードとの距離が近くなっている。聴覚SOMを構成する６つのノードN1乃至N6のうち、勝者ノードとの距離が最も近いノード、即ち、勝者ノードとの距離が０のノードであるノードN1は、勝者ノード（となっているノード）である。

ここで、聴覚SOMが、例えば、図６に示したような２次元的な配置構造を有し、勝者ノードが、例えば、ノードN6であった場合には、勝者ノードN6とノードN6との距離は最も（１番）近い０であり、ノードN6と勝者ノードN6とのパターン間距離dも０となる。また、勝者ノードN6と、ノードN3，N5、またはN9それぞれとの距離は２番目に近い１であり、ノードN3，N5、またはN9それぞれと勝者ノードN6とのパターン間距離dも１となる。さらに、勝者ノードN6と、ノードN2，N4、またはN8それぞれとの距離は３番目に近い２であり、ノードN2，N4、またはN8それぞれと勝者ノードN6とのパターン間距離dも２となる。また、勝者ノードN6と、ノードN1またはN7それぞれとの距離は最も遠い（４番目に近い）３であり、ノードN1またはN7それぞれと勝者ノードN6とのパターン間距離dも３となる。

一方、ノードがリンクを有しない、例えば、図７に示した聴覚SOMについては、ノードが新たな時系列データとしての音響パラメータ系列に適合する度合いに基づくパターン間距離、即ち、ノードが新たな音響パラメータ系列に適合する度合いに基づく順位（適合順位）に対応する値が、そのノードと勝者ノードとのパターン間距離dとして求められる。即ち、この場合、スコアが最も高い（一番目に高い）ノード（勝者ノード）と勝者ノードとのパターン間距離dは０とされ、スコアが２番目に高いノードと勝者ノードとのパターン間距離dは１とされる。以下、同様に、スコアがk番目に高いノードと勝者ノードとのパターン間距離dはk-1とされる。

なお、以上のような、聴覚SOMの各ノードと勝者ノードとのパターン間距離dの与え方は、コホーネン(T.Kohonen)のSOMやNeural-Gas algorithmで利用されている距離の与え方と同様の方法である。

次に、更新重みαとパターン間距離dとの関係を表す、例えば、図９に示したような距離／重み曲線は、例えば、式（１）によって与えられる。

・・・（１）

なお、式（１）において、定数Gは、勝者ノードの更新重みを表す定数であり、γは、減衰係数で、０＜γ＜１の範囲の定数である。また、変数Δは、聴覚SOMを更新する更新方法として、SMA(soft-max adaptation)を採用した場合の、勝者ノードの近傍のノード（勝者ノードとのパターン間距離dが近いノード）の更新重みαを調整するための変数である。

ここで、SMAとは、複数の要素（例えば、複数のノード）からなる更新の対象（例えば、聴覚SOM）を、新たな入力に基づいて更新する場合に、新たな入力に最も距離が近い要素（スコアが最も高い要素）だけでなく、その要素との、ある距離が近い要素も更新する方法であり、新たな入力に最も距離が近い要素だけを更新する方法であるWTA(winner-take-all)に比較して、局所解に陥る問題を改善することができることが知られている。

上述したように、勝者ノードとなっているノードのパターン間距離dとして、０が与えられ、以下、他のノードのパターン間距離dとして、勝者ノードとの距離、または適合順位にしたがって、１，２，・・・が与えられる場合、式（１）において、例えば、G=8，γ=0.5，Δ=1であれば、勝者ノードとなっているノードの更新重みαとして、８(=G)が求められる。以下、勝者ノードとの距離、または適合順位が大になるにしたがって、ノードの更新重みαとしては、４，２，１，・・・と小さくなる値が求められる。

ここで、式（１）における減衰係数Δが大きな値である場合には、パターン間距離dの変化に対する更新重みαの変化は緩やかになり、逆に、減衰係数Δが０に近い値である場合には、パターン間距離dの変化に対する更新重みαの変化は急峻になる。

従って、減衰係数Δを、例えば、上述した１から少しずつ０に近づけていくように調整すると、パターン間距離dの変化に対する更新重みαの変化は急峻になっていき、更新重みαは、パターン間距離dが大きくなるにしたがって、より小さい値となる。そして、減衰係数Δが０に近くなると、勝者ノード（となっているノード）以外のノードの更新重みαは、ほとんど０となり、この場合、聴覚SOMを更新する更新方法として、前述したWTAを採用した場合と（ほぼ）等価となる。

このように、減衰係数Δを調整することによって、聴覚SOMを更新する更新方法としてSMAを採用した場合の、勝者ノードの近傍のノードの更新重みαを調整することができる。

減衰係数△は、例えば、聴覚SOMの更新（学習）の開始時は大きな値にし、時間の経過とともに、即ち、更新の回数が増加するにしたがって小さな値になるようにすることができる。この場合、聴覚SOMの更新の開始時は、パターン間距離dの変化に対する更新重みαの変化が緩やかな距離／重み曲線にしたがって、聴覚SOMの各ノードの更新重みαが決定され、更新（学習）が進む（進行する）につれ、パターン間距離dの変化に対する更新重みαの変化が急峻になっていく距離／重み曲線にしたがって、聴覚SOMの各ノードの更新重みαが決定される。

即ち、この場合、勝者ノードの更新は、学習（更新）の進行にかかわらず、特徴抽出部２からの新たな時系列データとしての音響パラメータ系列の影響を強く受けるように行われる。一方、勝者ノード以外のノードの更新は、学習の開始時は、比較的広い範囲のノード（勝者ノードとのパターン間距離dが小のノードから、ある程度大のノード）に亘って、新たな音響パラメータ系列の影響を受けるように行われる。そして、学習が進行するにつれ、勝者ノード以外のノードの更新は、徐々に狭い範囲のノードについてのみ、新たな音響パラメータ系列の影響を受けるように行われる。

図８の更新重み決定部４３は、以上のようにして、聴覚SOMの各ノードの更新重みαを決定し、学習データ更新部４４では、各ノードが有する学習データ記憶部２２に記憶される学習データが、そのノードの更新重みαに基づいて更新される。

次に、図１０を参照して、ノードが有する学習データ記憶部２２に記憶される学習データを更新する更新方法について説明する。

いま、あるノードNiが有する学習データ記憶部２２には、学習データが既に記憶されており、ノードNiの時系列パターンモデル２１は、学習データ記憶部２２に既に記憶されている学習データを用いて学習が行われたものであるとする。

学習データ更新部４４は、上述したように、ノードNiが有する学習データ記憶部２２に既に記憶されている学習データ（以下、適宜、旧学習データという）と、特徴抽出部２からの新たな時系列データとしての音響パラメータ系列とを、更新重み決定部４３からのノードNiの更新重みαにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部２２に記憶させることで、その学習データ記憶部２２の記憶内容を、新たな学習データに更新する。

即ち、学習データ更新部４４は、旧学習データに対して、新たな時系列データとしての音響パラメータ系列を追加することで、旧学習データと新たな音響パラメータ系列とを混合した新たな学習データとするが、旧学習データに対する新たな音響パラメータ系列の追加（旧学習データと新たな音響パラメータ系列との混合）は、ノードNiの更新重みαに対応する比にしたがって行われる。

ここで、新たな音響パラメータ系列と旧学習データとを、１：０の比率で混合すると、その混合によって得られる新たな学習データは、新たな音響パラメータ系列だけとなる。逆に、新たな音響パラメータ系列と旧学習データとを、０：１の比率で混合すると、その混合によって得られる新たな学習データは、旧学習データだけとなる。ノードNiの時系列パターンモデル２１（図５）の更新は、新たな学習データを用いた学習によって行われるため、新たな音響パラメータ系列と旧学習データとを混合する比率を変えることによって、更新により時系列パターンモデル２１が受ける新たな音響パラメータ系列の影響の度合い（強さ）を変えることができる。

ノードNiにおいて、新たな音響パラメータ系列と旧学習データとを混合する比率としては、ノードNiの更新重みαに対応した値が採用され、例えば、更新重みαが大であるほど、新たな音響パラメータ系列の比率が大となる（旧学習データの比率が小となる）ような値とされる。

具体的には、ノードNiの学習データ記憶部２２には、一定の数の時系列データである音響パラメータ系列（学習データ）が記憶されるものとし、その一定の数をHとする。この場合、ノードNiの時系列パターンモデル２１の学習は、常に、H個の学習データ（時系列データである音響パラメータ系列）を用いて行われる。

学習データ記憶部２２に、常に、一定の数Hの学習データが記憶される場合、新たな音響パラメータ系列と旧学習データとの混合によって得られる新たな学習データの個数は、H個である必要があり、そのような、新たな音響パラメータ系列と旧学習データとの混合を、ノードNiの更新重みαに対応した比率で行う方法としては、新たな音響パラメータ系列と旧学習データとを、比率α:H-αで混合する方法がある。

新たな音響パラメータ系列と旧学習データとを、比率α:H-αで混合する具体的な方法としては、図１０に示すように、H個の旧学習データのうちのH-α個の旧学習データに対して、α個の新たな音響パラメータ系列を追加することにより、H個の新たな学習データを得る方法がある。

この場合、学習データ記憶部２２に記憶される学習データとしての時系列データの数Hが、例えば、１００であり、ノードNiの更新重みαが、例えば、８であれば、学習データ記憶部２２の記憶内容は、１００個の旧学習データのうちの９２個の旧学習データに対して、８個の新たな音響パラメータ系列を追加することによって得られる１００個の新たな学習データに更新される。

H個の旧学習データのうちのH-α個の旧学習データに対する、α個の新たな音響パラメータ系列の追加は、α個の新たな音響パラメータ系列が得られるのを待って行う方法があるが、この方法では、１個の新たな音響パラメータ系列が得られるごとに、学習データ記憶部２２の記憶内容を更新することができない。

そこで、学習データ記憶部２２の記憶内容の更新は、１個の新たな音響パラメータ系列（例えば、音声区間の音響パラメータ系列）が得られるごとに、その新たな音響パラメータ系列をα個だけ、H-α個の旧学習データに追加することにより行うことができる。即ち、１個の新たな音響パラメータ系列をコピーしてα個の新たな音響パラメータ系列とし、そのα個の新たな音響パラメータ系列を、H個の旧学習データから古い順にα個を除外して残ったH-α個の旧学習データに追加することにより、学習データ記憶部２２の記憶内容の更新を行う。これにより、１個の新たな音響パラメータ系列が得られるごとに、学習データ記憶部２２の記憶内容を更新することができる。

以上のように、学習データ記憶部２２の記憶内容の更新を行うことにより、学習データ記憶部２２には、常に、新しい順のＨ個の時系列データ（音響パラメータ系列）だけが、学習データとして保持されることになり、その学習データに占める新たな音響パラメータ系列の割合（比率）は、更新重みαによって調整されることになる。

次に、図１１のフローチャートを参照して、図８の学習部３が行う、聴覚SOMを学習（更新）する学習処理について説明する。

学習部３は、特徴抽出部２から、新たな時系列データとしての音響パラメータ系列が供給されると、記憶部４に記憶された聴覚SOMを更新する学習処理を開始する。

即ち、学習部３（図８）では、ステップＳ１において、スコア計算部４１が、記憶部４に記憶された聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いを表すスコアを求める。

具体的には、ノードが有する時系列パターンモデル２１（図５）が、例えばHMMである場合には、そのHMMから、新たな音響パラメータ系列が観測される対数尤度が、スコアとして求められる。ここで、対数尤度の計算方法としては、例えば、ビタビアルゴリズム(Viterbi algorithm)を採用することができる。

スコア計算部４１は、聴覚SOMが有するすべてのノードについて、新たな音響パラメータ系列に対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部４２に供給して、ステップＳ１からステップＳ２に進む。

ステップＳ２では、勝者ノード決定部４２は、聴覚SOMを構成するノードのうちの、スコア計算部４１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部４２は、勝者ノードを表す情報としてのノードラベルを、更新重み決定部４３に供給して、ステップＳ２からステップＳ３に進む。

ステップＳ３では、更新重み決定部４３は、勝者ノード決定部４２からのノードラベルが表す勝者ノードを、いわば基準として、聴覚SOMを構成する各ノードの更新重みを決定する。

即ち、更新重み決定部４３は、図９で説明したように、聴覚SOMの更新（学習）が進むにつれ、パターン間距離dの変化に対する更新重みαの変化が急峻になっていく、式（１）で表される距離／重み曲線にしたがって、聴覚SOMの各ノードの更新重みαを決定し、学習データ更新部４４に供給する。

そして、ステップＳ３からステップＳ４に進み、学習データ更新部４４は、聴覚SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを、更新重み決定部４３からの、対応するノードの更新重みにしたがって更新する。即ち、学習データ更新部４４は、図１０で説明したように、特徴抽出部２から供給された新たな音響パラメータ系列と、ノードの学習データ記憶部２２に記憶されている旧学習データとを、そのノードの更新重みαに対応した比率α:H-αで混合することにより、H個の新たな学習データを得て、そのH個の新たな学習データによって、学習データ記憶部２２の記憶内容を更新する。

学習データ更新部４４は、聴覚SOMのノードすべての学習データ記憶部２２（図５）の記憶内容を更新すると、その更新が終了した旨の終了通知を、モデル学習部４５に供給する。

モデル学習部４５は、学習データ更新部４４から終了通知を受けると、ステップＳ４からステップＳ５に進み、聴覚SOMのパラメータ（聴覚SOMとしての時系列パターン記憶ネットワークのノードが有する時系列パターンモデル２１（図５）のパラメータ（以下、適宜、モデルパラメータともいう））を更新して、学習処理を終了する。

即ち、モデル学習部４５は、聴覚SOMの各ノードについて、学習データ更新部４４による更新後の学習データ記憶部２２に記憶された新たな学習データを用いて、時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１を更新する。

具体的には、ノードが有する時系列パターンモデル２１が、例えばHMMである場合には、そのノードが有する学習データ記憶部２２に記憶された新たな学習データを用いて、HMMの学習が行われる。この学習では、例えば、HMMの現在の状態遷移確率と出力確率密度関数を初期値とし、新たな学習データを用いて、Baum-Welch法により、新たな状態遷移確率と出力確率密度関数がそれぞれ求められる。そして、その新たな状態遷移確率と出力確率密度関数によって、聴覚SOMのモデルパラメータとしてのHMMの状態遷移確率と出力確率密度関数（を定義する、例えば、平均ベクトルや共分散行列）がそれぞれ更新される。

図１１の学習処理によれば、１個の新たな時系列データとしての音響パラメータ系列が得られると、その新たな音響パラメータ系列に対して、聴覚SOMを構成するノードの中から、勝者ノードが決定される。さらに、その勝者ノードを基準として、聴覚SOMを構成する各ノードの更新重みが決定される。そして、更新重みに基づいて、聴覚SOMを構成する各ノードが有する時系列パターンモデル２１（図５）のモデルパラメータ（ここでは、例えば、HMMの状態遷移確率と出力確率密度関数）が更新される。

即ち、図１１の学習処理では、１個の新たな音響パラメータ系列に対して、聴覚SOMを構成するノードのモデルパラメータの更新が１回行われ、以下、同様に、新たな音響パラメータ系列が得られるたびに、ノードのモデルパラメータの更新が繰り返されることにより、自己組織的に学習が行われる。

そして、学習が十分に行われることにより、聴覚SOMの各ノードが有する時系列パターンモデル２１は、ある時系列パターンを学習（獲得）する。聴覚SOM全体において学習される時系列パターンの数（種類）は、聴覚SOMが有するノードの数と一致する。従って、聴覚SOMが有するノードの数が、例えば１００である場合は、１００種類の時系列パターンが学習されることになる。

次に、図１２は、図１の認識部５の構成例を示している。

認識部５には、図１で説明したように、特徴抽出部２から、新たな時系列データとしての音響パラメータ系列が供給され、この新たな音響パラメータ系列は、スコア計算部５１に供給される。

スコア計算部５１は、学習部３（図８）のスコア計算部４１と同様に、記憶部４に記憶された聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いを表すスコアを求め、勝者ノード決定部５２に供給する。即ち、ノードが有する時系列パターンモデル２１が、例えば、図５に示したようにHMMである場合には、スコア計算部５１は、ノードが有する時系列パターンモデル２１としてのHMMから、特徴抽出部２からの新たな音響パラメータ系列が観測される対数尤度を求め、そのノードのスコアとして、勝者ノード決定部５２に供給する。

勝者ノード決定部５２は、学習部３（図８）の勝者ノード決定部４２と同様に、記憶部４に記憶された聴覚SOMにおいて、特徴抽出部２からの新たな音響パラメータ系列に最も適合するノードを求め、そのノードを、勝者ノードとして決定する。

即ち、勝者ノード決定部５２は、記憶部４に記憶された聴覚SOMを構成するノードのうちの、スコア計算部５１からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部５２は、勝者ノードを表す情報としてのノードラベルを、特徴抽出部２からの新たな音響パラメータ系列、ひいては、その新たな音響パラメータ系列が抽出された、観測部１で観測された音声の認識結果として出力する。

なお、認識部５のスコア計算部５１と、学習部３（図８）のスコア計算部４１とは、いずれか一方のスコア計算部で兼用することが可能である。認識部５の勝者ノード決定部５２と、学習部３（図８）の勝者ノード決定部４２についても、同様である。従って、学習部３のスコア計算部４１を、認識部５のスコア計算部５１と兼用とするとともに、勝者ノード決定部４２を、認識部５１の勝者ノード決定部５２と兼用することにより、認識部５は、学習部３の一部（スコア計算部４１および勝者ノード決定部４２）として構成することができる。

次に、図１３のフローチャートを参照して、図１２の認識部５が行う、特徴抽出部２からの新たな音響パラメータ系列が抽出された音声を認識する認識処理について説明する。

認識部５は、特徴抽出部２から、新たな時系列データとしての音響パラメータ系列が供給されると、記憶部４に記憶された聴覚SOMを用い、その新たな音響パラメータ系列が抽出された音声（観測部１で観測された音声）を認識する認識処理を開始する。

即ち、認識部５（図１３）では、ステップＳ２１において、スコア計算部５１が、記憶部４に記憶された聴覚SOMを構成する各ノードについて、そのノードが、特徴抽出部２からの新たな音響パラメータ系列に適合する度合いを表すスコアを求める。

具体的には、ノードが有する時系列パターンモデル２１（図５）が、上述したように、例えばHMMである場合には、そのHMMから、新たな音響パラメータ系列が観測される対数尤度が、スコアとして求められる。

スコア計算部５１は、聴覚SOMが有するすべてのノードについて、新たな音響パラメータ系列に対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部５２に供給して、ステップＳ２１からステップＳ２２に進む。

ステップＳ２２では、勝者ノード決定部５２は、聴覚SOMを構成するノードのうちの、スコア計算部５１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部５２は、ステップＳ２２からステップＳ２３に進み、勝者ノードを表す情報としてのノードラベルを、音声の認識結果として、生成部６に供給して、認識処理を終了する。

以上のような、聴覚SOMを用いた認識処理によれば、その聴覚SOMのノードの数に応じた細かさの認識結果を得ることができる。

次に、図１４は、図１の生成部６の構成例を示している。

生成部６には、認識部５から、記憶部４に記憶された聴覚SOMのノードのうちの勝者ノードを表す情報としてのノードラベルが、音声の認識結果として供給され、このノードラベルは、生成ノード決定部６１に供給される。

生成ノード決定部６１は、記憶部４に記憶された結合ネットワークを参照し、認識部５からのノードラベルが表す、聴覚SOMの勝者ノードとの結合の度合いが最も高いノード、即ち、その勝者ノードとの結合重みが最大のノードを探索する。そして、生成ノード決定部６１は、認識部５からのノードラベルが表す聴覚SOMの勝者ノードとの結合重みが最大の調音SOMのノードを、調音パラメータの生成に用いる生成ノードとして決定し、その生成ノードを表すノードラベルを、モデルパラメータ変更部６２に供給する。

モデルパラメータ変更部６２は、記憶部４に記憶された調音SOMのノードのうちの、生成ノード決定部６１からのノードラベルが表す生成ノードを認識し、その生成ノードから生成される調音パラメータ系列を変更させる変更制御処理を行う。

即ち、調音SOMのノードは、図５で説明したように、時系列パターンモデル２１を有し、調音SOMのノードが有する時系列パターンモデル２１の学習（更新）は、後述するように、学習部７によって、駆動部８を駆動する調音パラメータ系列を用いて行われるため、調音SOMのノードが有する時系列パターンモデル２１は、調音パラメータ系列を生成することができる。

具体的には、時系列パターンモデル２１が、例えば、HMMである場合には、HMMにおいて調音パラメータ系列が観測される尤度を表す出力確率を最大にする調音パラメータ系列を生成することができる。

ここで、HMMを用いて、調音パラメータ系列を含む時系列データを生成する生成方法としては、動的特徴量を利用することで滑らかに変化する時系列データを生成する方法がある。このような時系列データの生成方法は、例えば、K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura, "SPEECH PARAMETER GENERATION ALGORITHMS FOR HMM-BASED SPEECH SYNTHESIS", Proc. of ICASSP 2000, vol.3, pp.1315-1318, June 2000に記載されている。

また、HMMを用いて時系列データを生成する生成方法としては、その他、例えば、HMMのパラメータを用いた確率的試行に基づく時系列データの生成を繰り返し行い、その平均をとることで、HMMから時系列データを生成する方法などがある。このような時系列データの生成方法は、例えば、稲邑哲也、谷江博昭、中村仁彦、「連続分布型隠れマルコフモデルを用いた時系列データのキーフレーム抽出とその復元」、日本機械学会ロボティクス・メカトロニクス講演会2003講演論文集、2P1-3F-C6，2003に記載されている。

時系列パターンモデル２１が、例えばHMMである場合には、そのモデルパラメータは、HMMの状態遷移確率と出力確率密度関数（を規定する、例えば平均ベクトルと共分散行列）である。そして、このモデルパラメータとしての状態遷移確率や出力確率密度関数を変更すれば、HMMを用いて生成される時系列データを変更することができる。

そこで、モデルパラメータ変更部６２は、調音SOMの生成ノードのモデルパラメータを変更し、その変更後のモデルパラメータを用いて時系列データ、つまり、調音パラメータ系列を生成するように、後段の時系列生成部６３を制御する変更制御処理を行う。即ち、モデルパラメータ変更部６２は、モデルパラメータが変更された生成ノード（の、変更後のモデルパラメータ）を、時系列生成部６３に供給し、その生成ノードを用いて調音パラメータ系列を生成するように、時系列生成部６３を制御する。この変更制御処理により、時系列生成部６３は、変更後の生成ノード（モデルパラメータが変更された生成ノード）を用いて、調音パラメータを生成するので、生成ノードから生成される調音パラメータ系列が変更されることになる。

なお、モデルパラメータ変更部６２は、制御部１０の制御にしたがって、調音SOMの生成ノードのモデルパラメータを変更する。

時系列生成部６３は、モデルパラメータ変更部６２から供給される生成ノード（が有する時系列パターンモデル２１（図５））から、上述したようにして調音パラメータ系列を生成し、学習部７（図１）と駆動部８に供給する。

次に、図１５のフローチャートを参照して、図１４の生成部６が行う、調音パラメータ系列を生成する生成処理について説明する。

生成部６は、認識部５から認識結果としての、聴覚SOMの勝者ノードを表すノードラベルが供給されると、生成処理を開始する。

即ち、生成部６（図１４）では、ステップＳ３１において、生成ノード決定部６１が、記憶部４に記憶された聴覚SOMを構成するノードのうちの、認識部５からのノードラベルが表す勝者ノードとの結合重みが最大のノードを、記憶部４に記憶された調音SOMのノードから探索して、そのノードを生成ノードとして決定する。さらに、生成ノード決定部６１は、生成ノードを表すノードラベルを、モデルパラメータ変更部６２に供給して、ステップＳ３１からＳ３２に進む。

ステップＳ３２では、モデルパラメータ変更部６２は、記憶部４に記憶された調音SOMのノードのうちの、生成ノード決定部６１からのノードラベルが表す生成ノードを認識し、その生成ノード（が有する時系列パターンモデル２１（図５）のモデルパラメータ）を、記憶部４から読み出す。さらに、モデルパラメータ変更部６２は、制御部１０（図１）からの制御にしたがい、生成ノード（が有する時系列パターンモデル２１のモデルパラメータ）を変更し、または変更せずにそのまま、時系列生成部６３に供給して、ステップＳ３２からステップＳ３３に進む。

ステップＳ３３では、時系列生成部６３は、モデルパラメータ変更部６２から供給される生成ノード（が有する時系列パターンモデル２１のモデルパラメータ）から、調音パラメータ系列を生成し、学習部７（図１）と駆動部８に供給して、生成処理を終了する。

次に、図１６は、図１の学習部７の構成例を示している。

学習部７には、生成部６（図１）から、時系列データとしての調音パラメータ系列が供給される。学習部７は、制御部１０（図１）の制御にしたがい、記憶部４に記憶された結合ネットワークを構成する調音SOMとしての時系列パターン記憶ネットワークを、生成部６から供給される新たな調音パラメータ系列に基づいて、自己組織的に更新する。

即ち、スコア計算部７１は、記憶部４に記憶された時系列パターン記憶ネットワークである調音SOMを構成する各ノードについて、そのノードが、生成部６から供給される新たな時系列データとしての調音パラメータ系列に適合する度合いとしてのスコアを、図８のスコア計算部４１と同様にして求め、勝者ノード決定部７２に供給する。従って、調音SOMのノードが有する時系列パターンモデル２１が、例えば、図５に示したようにHMMである場合には、スコア計算部７１は、ノードが有する時系列パターンモデル２１としてのHMMから、生成部６から供給された新たな調音パラメータ系列が観測される尤度を求め、そのノードのスコアとして、勝者ノード決定部７２と自己学習用結合重み更新部７６に供給する。

勝者ノード決定部７２は、記憶部４に記憶された時系列パターン記憶ネットワークとしての調音SOMにおいて、生成部６からの新たな調音パラメータ系列に最も適合するノードを求め、そのノードを、勝者ノードとして決定する。

即ち、勝者ノード決定部７２は、記憶部４に記憶された調音SOMを構成するノードのうちの、スコア計算部７１からのスコアが最も高いノードを勝者ノードとして決定する。そして、勝者ノード決定部７２は、勝者ノードを表すノードラベルを、更新重み決定部７３に供給する。

更新重み決定部７３は、勝者ノード決定部７２から供給されるノードラベルが表す勝者ノードに基づき、記憶部４に記憶された調音SOMを構成する各ノードについて、図８の更新重み決定部４３と同様にして、更新重みを決定し、学習データ更新部７４に供給する。

即ち、更新重み決定部７３は、記憶部４に記憶された調音SOMを構成する各ノード（勝者ノードを含む）の更新重みを、そのノードと、勝者ノードとのパターン間距離に基づいて決定し、学習データ更新部７４に供給する。

なお、調音SOMのノードのスコアは、更新重み決定部７３で求めても良いが、スコア計算部７１から更新重み決定部７３に供給するようにしても良い。

学習データ更新部７４は、記憶部４に記憶された調音SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを、図８の学習データ更新部４４と同様にして更新する。

即ち、学習データ更新部７４は、調音SOMのノードが有する学習データ記憶部２２に既に記憶されている学習データと、生成部６から供給される新たな調音パラメータ系列とを、更新重み決定部７３からの、対応するノードの更新重みにしたがって混合し、その混合結果を、新たな学習データとして、学習データ記憶部２２に記憶させることで、その学習データ記憶部２２の記憶内容を更新する。

また、学習データ更新部７４は、学習データ記憶部２２（図５）に記憶された学習データを、更新重みにしたがって更新すると、その更新が終了した旨の終了通知を、モデル学習部７５に供給する。

モデル学習部７５は、学習データ更新部７４から終了通知を受けると、その学習データ更新部７４による更新後の学習データ記憶部２２（図５）に記憶された学習データを用いて、記憶部４に記憶された調音SOMの各ノードが有する時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１（のモデルパラメータ）を更新する。

従って、モデル学習部７５による、調音SOMのノードが有する時系列パターンモデル２１の更新は、そのノードが有する学習データ記憶部２２（図５）に記憶されていた学習データ（の一部）と、生成部６から供給された新たな調音パラメータ系列とに基づいて行われる。

自己学習用結合重み更新部７６は、報酬取得部９（図１）から報酬が供給されてこなかった場合、スコア計算部７１から供給される調音SOMの各ノードの、生成部６から供給された新たな調音パラメータ系列に対するスコアに基づいて、記憶部４に記憶された結合ネットワークの結合重み（聴覚SOMのノードと調音SOMのノードとの結合の度合い）を更新する。これに対して、自己学習用結合重み更新部７６は、報酬取得部９から報酬が供給されてきた場合、その更新の処理を禁止する。

教示学習用結合重み更新部７７は、報酬取得部９から報酬が供給されてきた場合、その報酬を教師信号として、その教師信号に基づいて、記憶部４に記憶された結合ネットワークの結合重み（聴覚SOMのノードと調音SOMのノードとの結合の度合い）を更新する。これに対して、教示学習用結合重み更新部７７は、報酬取得部９から報酬が供給されてきこなかった場合、その更新の処理を禁止する。

次に、図１７のフローチャートを参照して、図１６の学習部７が、調音SOMの学習（更新）と、結合重みの更新とを行う学習処理について説明する。

学習部７は、生成部６から、新たな時系列データとしての調音パラメータ系列が供給され、制御部１０から、その新たな調音パラメータ系列を用いた学習の指示があると、記憶部４に記憶された調音SOMと結合重みを更新する学習処理を開始する。

即ち、学習部７（図１６）では、ステップＳ４１において、スコア計算部７１が、記憶部４に記憶された調音SOMを構成する各ノードについて、そのノードが、生成部６からの新たな調音パラメータ系列に適合する度合いを表すスコアを求める。

具体的には、調音SOMのノードが有する時系列パターンモデル２１（図５）が、例えばHMMである場合には、そのHMMから、新たな調音パラメータ系列が観測される対数尤度が、例えば、ビタビアルゴリズムにより計算され、調音SOMを構成するノードの、生成部６からの新たな調音パラメータ系列に対するスコアとして求められる。

スコア計算部７１は、調音SOMが有するすべてのノードについて、新たな調音パラメータ系列に対するスコアを計算すると、その各ノードについてのスコアを、勝者ノード決定部７２と自己学習用結合重み更新部７６に供給して、ステップＳ４１からステップＳ４２に進む。

ステップＳ４２では、勝者ノード決定部７２は、調音SOMを構成するノードのうちの、スコア計算部７１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定する。そして、勝者ノード決定部７２は、勝者ノードを表すノードラベルを、更新重み決定部７３に供給して、ステップＳ４２からステップＳ４３に進む。

ステップＳ４３では、更新重み決定部７３は、勝者ノード決定部７２からのノードラベルが表す勝者ノードを、いわば基準として、調音SOMを構成する各ノードの更新重みを決定する。

即ち、更新重み決定部７３は、図９で説明したように、調音SOMの更新（学習）が進むにつれ、パターン間距離dの変化に対する更新重みαの変化が急峻になっていく、式（１）で表される距離／重み曲線にしたがって、調音SOMの各ノードの更新重みαを決定し、学習データ更新部７４に供給する。

そして、ステップＳ４３からステップＳ４４に進み、学習データ更新部７４は、調音SOMの各ノードが有する学習データ記憶部２２（図５）に記憶された学習データを、更新重み決定部７３からの、対応するノードの更新重みにしたがって更新する。即ち、学習データ更新部７４は、図１０で説明したように、生成部６から供給された新たな調音パラメータ系列と、調音SOMのノードの学習データ記憶部２２に記憶されている旧学習データとを、そのノードの更新重みαに対応した比率α:H-αで混合することにより、H個の新たな学習データを得て、そのH個の新たな学習データによって、学習データ記憶部２２の記憶内容を更新する。

学習データ更新部７４は、調音SOMのノードすべての学習データ記憶部２２（図５）の記憶内容を更新すると、その更新が終了した旨の終了通知を、モデル学習部７５に供給する。

モデル学習部７５は、学習データ更新部７４から終了通知を受けると、ステップＳ４４からステップＳ４５に進み、調音SOMのモデルパラメータを更新する。

即ち、モデル学習部７５は、調音SOMの各ノードについて、学習データ更新部７４による更新後の学習データ記憶部２２に記憶された新たな学習データを用いて、時系列パターンモデル２１の学習を行うことにより、その時系列パターンモデル２１のモデルパラメータを更新する。

具体的には、調音SOMのノードが有する時系列パターンモデル２１が、例えばHMMである場合には、そのノードが有する学習データ記憶部２２に記憶された新たな学習データを用いて、HMMの学習が行われる。この学習では、例えば、HMMの現在のモデルパラメータとしての状態遷移確率と出力確率密度関数を初期値とし、新たな学習データを用いて、Baum-Welch法により、新たなモデルパラメータとしての状態遷移確率と出力確率密度関数がそれぞれ求められる。そして、その新たな状態遷移確率と出力確率密度関数によって、調音SOMのモデルパラメータとしてのHMMの状態遷移確率と出力確率密度関数（を定義する、例えば、平均ベクトルや共分散行列）がそれぞれ更新される。

その後、ステップＳ４５からＳ４６に進み、自己学習用結合重み更新部７６と教示学習用結合重み更新部７７とは、報酬取得部９から報酬が与えられたか否かを判定する。

ステップＳ４６において報酬が与えられなかったと判定された場合、処理はステップＳ４７に進み、自己学習用結合重み更新部７６は、ステップＳ４１の処理でスコア計算部７１から供給された調音SOMの各ノードの、生成部６から供給された新たな調音パラメータ系列に対するスコアに基づいて、記憶部４に記憶された結合ネットワークの結合重みを更新し（以下、このような更新の処理を、自己学習用結合重みの更新と称する）、学習処理を終了する。

これに対して、ステップＳ４６において報酬が与えられたと判定された場合、処理はステップＳ４８に進み、教示学習用結合重み更新部７７は、ステップＳ４６の処理で報酬取得部９から供給された報酬に基づいて（その報酬を教師信号として）、記憶部４に記憶された結合ネットワークの結合重みを更新し（以下、このような更新の処理を、教示学習用結合重みの更新と称する）、学習処理を終了する。

次に、図１８のフローチャートを参照して、図１の情報処理装置の動作について説明する。なお、以下では、聴覚SOMおよび調音SOMのノードが有する時系列パターンモデル２１（図５）が、例えば、HMMであるとする。

まず最初に、ステップＳ１０１において、制御部１０は、記憶部４に記憶された結合ネットワークを初期化して、ステップＳ１０２に進む。

即ち、制御部１０は、記憶部４に記憶された結合ネットワークを構成する聴覚SOMおよび調音SOMのノードが有するHMMのモデルパラメータとして、適当な（例えば、ランダムな）値を与えるとともに、聴覚SOMのノードと調音SOMのノードとの結合重みとして、適当な（例えば、ランダムな）値を与える。

ステップＳ１０２では、観測部１において、例えば、ユーザの発話を待って、音声区間の検出が行われ、その音声区間の音声データが、特徴抽出部２に供給されて、ステップＳ１０２からＳ１０３に進む。

ステップＳ１０３では、特徴抽出部２が、観測部１からの音声データから音響パラメータを抽出し、時系列の音響パラメータ、即ち、音響パラメータ系列を、学習部３と認識部５に供給して、ステップＳ１０４に進む。

ステップＳ１０４では、認識部５が、特徴抽出部２からの音響パラメータ系列、即ち、ユーザの発話の音響パラメータ系列を用いて、図１３で説明した認識処理を行い、ユーザの発話の認識結果としての、聴覚SOMの勝者ノードを表すノードラベルを、生成部６と制御部１０に供給して、ステップＳ１０５に進む。

ここで、ユーザの発話に対して得られる聴覚SOMの勝者ノードを、以下、適宜、発話勝者ノードという。

ステップＳ１０５では、学習部３が、特徴抽出部２からの音響パラメータ系列、即ち、ユーザの発話の音響パラメータ系列を用いて、図１１で説明した学習処理を行い、これにより、記憶部４に記憶された聴覚SOMを更新して、ステップＳ１０６に進む。

ステップＳ１０６乃至ステップＳ１０９では、生成部６が、図１５で説明した生成処理を行う。

即ち、ステップＳ１０６では、生成部６（図１４）の生成ノード決定部６１が、図１５のステップＳ３１で説明したように、記憶部４に記憶された聴覚SOMを構成するノードのうちの、認識部５が直前のステップＳ１０４において供給するノードラベルが表す発話勝者ノードとの結合重みが最大のノードを、記憶部４に記憶された調音SOMのノードから探索して、生成ノードとして決定する。そして、生成ノード決定部６１は、生成ノードを表すノードラベルを、モデルパラメータ変更部６２に供給して、ステップＳ１０６からＳ１０７に進む。

ステップＳ１０７では、生成部６（図１４）のモデルパラメータ変更部６２が、図１５のステップＳ３２で説明したように、記憶部４に記憶された調音SOMのノードのうちの、生成ノード決定部６１からのノードラベルが表す生成ノードを認識し、その生成ノード（が有する時系列パターンモデル２１（図５）のモデルパラメータ）を、記憶部４から読み出す。

そして、ステップＳ１０７からステップＳ１０８に進み、モデルパラメータ変更部６２は、図１５のステップＳ３２で説明したように、制御部１０からの制御にしたがい、記憶部４から読み出した生成ノードが有する時系列パターンモデル２１のモデルパラメータ（以下、適宜、単に、生成ノードのモデルパラメータともいう）を変更し、または変更せずにそのまま、時系列生成部６３に供給して、ステップＳ１０９に進む。

ここで、ステップＳ１０８乃至Ｓ１１４の処理は、ユーザの発話によって得られる１の音声区間の音声データについて、１回以上行われるループ処理であり、制御部１０は、例えば、ユーザの発話によって得られる１の音声区間の音声データについて最初に行われる（１回目の）ステップＳ１０８の処理では、生成ノードのモデルパラメータを変更せずにそのまま時系列生成部６３に供給するように、モデルパラメータ変更部６２を制御し、２回目以降のステップＳ１０８の処理では、生成ノードのモデルパラメータを変更して時系列生成部６３に供給するように、モデルパラメータ変更部６２を制御する。

ステップＳ１０９では、生成部６（図１４）の時系列生成部６３が、図１５のステップＳ３３で説明したように、モデルパラメータ変更部６２から供給される生成ノードのモデルパラメータ（で定義される時系列パターンモデル２１としてのHMM）から、調音パラメータ系列を生成し、学習部７と駆動部８に供給して、ステップＳ１１０に進む。

ここで、時系列生成部６３は、上述したように、モデルパラメータ変更部６２から供給される生成ノードのモデルパラメータから、調音パラメータ系列を生成する。従って、モデルパラメータ変更部６２から時系列生成部６３に供給される生成ノードのモデルパラメータが、ステップＳ１０８で変更されている場合、ステップＳ１０９において、そのモデルパラメータから生成される調音パラメータ系列も変更されることになる。

ステップＳ１１０では、駆動部８が、生成部６から供給される調音パラメータ系列にしたがって駆動し、即ち、生成部６から供給される調音パラメータ系列を用いて音声合成を行う。これにより、駆動部８は、合成音を生成して出力し、ステップＳ１１０からステップＳ１１１に進む。

駆動部８が直前のステップＳ１１０で出力した合成音は、観測部１において観測される。ステップＳ１１１において、観測部１は、その観測値に基づき、合成音の音声区間を検出し、その音声区間の音声データを、特徴抽出部２に供給して、ステップＳ１１２に進む。

ステップＳ１１２では、特徴抽出部２が、ステップＳ１０３における場合と同様に、観測部１からの音声データから音響パラメータを抽出し、時系列の音響パラメータ、即ち、音響パラメータ系列を、認識部５に供給して、ステップＳ１１３に進む。

ステップＳ１１３では、認識部５が、ステップＳ１０４における場合と同様に、特徴抽出部２からの音響パラメータ系列、即ち、駆動部８が出力した合成音の音響パラメータ系列を用いて、図１３で説明した認識処理を行い、駆動部８が出力した合成音の認識結果としての、聴覚SOMの勝者ノードを表すノードラベルを、制御部１０に供給して、ステップＳ１１４に進む。

ここで、駆動部８が出力した合成音に対して得られる聴覚SOMの勝者ノードを、以下、適宜、合成音勝者ノードという。

ステップＳ１１４では、制御部１０が、例えば、ステップＳ１０４において認識部５から供給されたノードラベルが表す発話勝者ノードと、ステップＳ１１３において認識部５から供給されたノードラベルが表す合成音勝者ノードとに基づき、生成部６がステップＳ１０９で生成する調音パラメータ系列の変更、ひいては、ステップＳ１０８での生成ノードのモデルパラメータの変更を終了する終了条件が満たされるかどうかを判定する。

ここで、終了条件としては、例えば、聴覚SOMの、ユーザの発話の認識結果としての発話勝者ノードと、駆動部８が出力した合成音の認識結果としての合成音勝者ノードとが一致しているという条件を採用することができる。かかる終了条件が満たされる場合には、駆動部８が出力した合成音の認識結果（としての聴覚SOMの勝者ノード）が、ユーザの発話の認識結果（としての聴覚SOMの勝者ノード）に一致することになるから、駆動部８が出力した合成音は、聴覚SOMによって認識することができるレベルでは、ユーザの発話に一致することになる。なお、駆動部８が出力した合成音とユーザの発話とが、ユーザの聴覚レベルで実際に一致しているのか否かについては、ユーザからの報酬（正報酬または負報酬）として与えられることになる。従って、終了条件が一致したという判定とは、ユーザの聴覚レベルで実際に一致したか否かには特に依存せず、情報処理装置側（ロボット側）の自己評価で、駆動部８が出力した合成音とユーザの発話とが一致したと判定したことを意味している。

なお、終了条件としては、その他、例えば、聴覚SOMの、ユーザの発話の認識結果としての発話勝者ノードと、駆動部８が出力した合成音の認識結果としての合成音勝者ノードとのパターン間距離が、所定の閾値（例えば、１）以下であるという条件を採用することができる。

さらに、ステップＳ１０８乃至Ｓ１１４のループ処理において、２回目以降に行われるステップＳ１１４では、発話勝者ノードと合成音勝者ノードとのパターン間距離が、前回のパターン間距離以上であるという条件（発話勝者ノードと合成音勝者ノードとのパターン間距離が極小値となったという条件）を、終了条件として採用することができる。

ステップＳ１１４において、生成ノードのモデルパラメータの変更を終了する終了条件が満たされないと判定された場合、即ち、例えば、発話勝者ノードと合成音勝者ノードとのパターン間距離が所定の閾値よりも大であり、従って、駆動部８が出力した合成音が、ユーザの発話に似ていないと情報処理装置側で判断された場合、ステップＳ１０８に戻り、以下、同様の処理が繰り返される。

即ち、この場合、ステップＳ１０８の処理は、ユーザの発話によって得られる１の音声区間の音声データについて行われる２回目（以降）の処理であるから、制御部１０は、生成ノードのモデルパラメータを変更して時系列生成部６３に供給するように、モデルパラメータ変更部６２を制御する。

従って、モデルパラメータ変更部６２は、制御部１０からの制御にしたがい、ステップＳ１０７で記憶部４から読み出した生成ノードのモデルパラメータを変更し、その変更後のモデルパラメータを、時系列生成部６３に供給する。

ここで、生成ノードのモデルパラメータ、即ち、例えば、生成ノードが有するHMMのモデルパラメータの変更の方法としては、例えば、第１乃至第３の変更方法がある。

第１の変更方法では、調音SOMのノードのうちの例えば、発話勝者ノードとの結合重みが２番目に大きい調音SOMのノードが有するHMMのモデルパラメータと、生成ノードが有するHMMのモデルパラメータとの内分点が求められ、その内分点によって表されるHMMのモデルパラメータが、変更後の生成ノードのモデルパラメータとされる。なお、HMMのモデルパラメータどうしの内分点を求める方法については、例えば、Tetsunari Inamura, Hiroaki Tanie and Yoshihiko Nakamura, "From Stochastic Motion Generation and Recognition to Geometric Symbol Development and Manipulation".In the Proc. of Int'l Conf. on Humanoid Robots (Humanoids 2003)、稲邑哲也，谷江博昭，中村仁彦．"隠れマルコフモデルによって抽象化された運動間の関係を記述する原始シンボル空間の構成"、日本機械学会ロボティクス・メカトロニクス講演会2003講演論文集，p. 2P2-3F-B2, 2003などに記載されている。

第２の変更方法では、調音SOMの生成ノード以外の任意のノードが有するHMMのモデルパラメータと、生成ノードが有するHMMのモデルパラメータとの外分点が求められ、その外分点によって表されるHMMのモデルパラメータが、変更後の生成ノードのモデルパラメータとされる。なお、HMMのモデルパラメータどうしの外分点は、内分点を求める場合と同様にして求めることができる。

第３の変更方法では、生成ノードが有するHMMのモデルパラメータがランダムに変更される。

なお、生成ノードが有するHMMのモデルパラメータの変更の方法は、上述した第１乃至第３の変更方法に限定されるものではない。また、生成ノードが有するHMMのモデルパラメータの変更の方法は、第１乃至第３の変更方法のうちのいずれか１つに固定しなければならないわけではない。即ち、生成ノードが有するHMMのモデルパラメータは、場合によって、第１乃至第３の変更方法のいずれかを選択して変更することができる。

具体的には、例えば、直前のステップＳ１１３において（駆動部８が出力した）合成音の認識結果としての合成音勝者ノードと、発話勝者ノードとのパターン間距離がある程度短い場合（あまりに長い場合でない場合）には、第１の変更方法によってモデルパラメータを変更し、パターン間距離があまりに長い場合には、第２または第３の変更方法によってモデルパラメータを変更することができる。

ステップＳ１０８において、モデルパラメータ変更部６２が、上述のように、生成ノードのモデルパラメータを変更し、その変更後のモデルパラメータを、時系列生成部６３に供給すると、ステップＳ１０９に進み、生成部６（図１４）の時系列生成部６３が、モデルパラメータ変更部６２から供給される生成ノードのモデルパラメータ（で定義される時系列パターンモデル２１としてのHMM）から、調音パラメータ系列を生成し、学習部７と駆動部８に供給して、ステップＳ１１０に進む。ステップＳ１１０では、駆動部８が、生成部６から供給された調音パラメータ系列を用いた音声合成により合成音を生成して出力し、ステップＳ１１０からステップＳ１１１に進む。

ここで、いまの場合、モデルパラメータ変更部６２から時系列生成部６３に供給される生成ノードのモデルパラメータは、ステップＳ１０８で変更されているので、今回のステップＳ１０９において、そのモデルパラメータから生成される調音パラメータ系列は、前回のステップＳ１０９で生成されたものから変更されている。従って、今回のステップＳ１１０において、その調音パラメータ系列から生成される合成音も、前回のステップＳ１１０で生成されたものとは異なっている。

以下、ステップＳ１１１乃至Ｓ１１３に順次進み、上述した場合と同様の処理が行われ、直前のステップＳ１１０で生成された合成音に対して図１３の認識処理が行われることにより得られる、その合成音の認識結果としての、聴覚SOMの勝者ノードを表すノードラベルが、認識部５から制御部１０に供給され、ステップＳ１１４に進む。

そして、ステップＳ１１４において、生成ノードのモデルパラメータの変更を終了する終了条件が満たされると判定された場合、即ち、例えば、ステップＳ１０８乃至Ｓ１１４のループ処理が何度か繰り返され、ステップＳ１０８で変更されたモデルパラメータのHMMから生成される調音パラメータ系列によって生成される合成音の認識結果としての合成音勝者ノードが発話勝者ノードに一致し、あるいは、合成音勝者ノードと発話勝者ノードとのパターン間距離が所定の閾値以下になり、従って、駆動部８が出力した合成音が、ユーザの発話に似ていると情報処理装置側で判断された場合、ステップＳ１１５に進み、制御部１０は、学習部７を制御して、記憶部４に記憶された結合ネットワークの調音SOMと結合重みを更新させ、ステップＳ１０２に戻り、ユーザの次の発話を待って、以下、同様の処理が繰り返される。

即ち、この場合、報酬が与えられていないときには（図１７のステップＳ４６でＮＯであると判定されたときには）、学習部７は、制御部１０の制御にしたがい、自己学習用結合重みの更新を行う（図１７のステップＳ４７の処理を実行する）。即ち、学習部７は、直前のステップＳ１０９で生成部６から供給された調音パラメータ系列、つまり、終了条件が満たされた場合の調音パラメータ系列に基づき、記憶部４に記憶された結合ネットワークの調音SOMの更新（学習）と結合重みの更新を、図１７で説明したようにして行う。

これに対して、報酬が与えられているときには（図１７のステップＳ４６でＹＥＳであると判定されたときには）、学習部７は、制御部１０の制御にしたがい、教示学習用結合重みの更新を行う（図１７のステップＳ４８の処理を実行する）。即ち、学習部７は、直前のステップＳ１０９で生成部６から供給された調音パラメータ系列、つまり、終了条件が満たされた場合の調音パラメータ系列に基づき、記憶部４に記憶された結合ネットワークの調音SOMの更新（学習）とともに、直前のステップＳ１１０で駆動部８から発声された音韻に対する報酬に基づき（この報酬を教師信号として）、記憶部４に記憶された結合ネットワークの結合重みの更新を、図１７で説明したようにして行う。

以下、自己学習用結合重みの更新と、教示学習用結合重みの更新とのそれぞれの詳細について、その順番に個別に説明する。

はじめに、自己学習用結合重みの更新の詳細について説明する。

即ち、学習部７（図１６）では、図１７のステップＳ４１で説明したように、スコア計算部７１が、記憶部４に記憶された調音SOMを構成する各ノードについて、そのノードが、直前のステップＳ１０９で生成部６から供給された新たな調音パラメータ系列に適合する度合いを表すスコアを求め、勝者ノード決定部７２と自己学習用結合重み更新部７６に供給する。

勝者ノード決定部７２は、図１７のステップＳ４２で説明したように、調音SOMを構成するノードのうちの、スコア計算部７１からのスコアが最も高いノードを求め、そのノードを勝者ノードとして決定して、勝者ノードを表すノードラベルを、更新重み決定部７３に供給する。更新重み決定部７３は、図１７のステップＳ４３で説明したように、調音SOMの各ノードについて、勝者ノード決定部７２からのノードラベルが表す勝者ノードとのパターン間距離に応じて、更新重みを決定し、学習データ更新部７４に供給する。

学習データ更新部７４は、図１７のステップＳ４４で説明したように、生成部６から供給された新たな調音パラメータ系列と、調音SOMのノードの学習データ記憶部２２に記憶されている旧学習データとを、そのノードの更新重みに対応した比率で混合することにより、新たな学習データを得て、その新たな学習データによって、学習データ記憶部２２の記憶内容を更新する。

そして、モデル学習部７５は、図１７のステップＳ４５で説明したように、調音SOMの各ノードについて、学習データ更新部７４による更新後の学習データ記憶部２２に記憶された新たな学習データを用いて、時系列パターンモデル２１（ここでは、HMM）の学習を行うことにより、その時系列パターンモデル２１のモデルパラメータを更新する。

その後、自己学習用結合重み更新部７６は、図１７のステップＳ４６とＳ４７で説明したように、報酬が与えられていないときには、スコア計算部７１から供給された調音SOMの各ノードの、生成部６から供給された新たな調音パラメータ系列に対するスコアに基づいて、記憶部４に記憶された結合ネットワークの結合重みを更新する。

即ち、自己学習用結合重み更新部７６は、例えば、調音SOMにおいて、終了条件が満たされた場合の調音パラメータ系列（直前のステップＳ１０９で生成部６から供給された調音パラメータ系列）が観測される尤度が最も高いノード、つまり、スコア計算部７１からのスコアが最も高いノードである勝者ノードと、聴覚SOMの各ノードとの結合重みを、聴覚SOMの発話勝者ノードとの結合重みが最も増大するように（強めるように）更新する。

具体的には、自己学習用結合重み更新部７６は、例えば、次式にしたがって、結合重みを更新する。

cwnew(W,j)=cwold(W,j)＋βscore_in(j)score_out(W)
・・・（２）

但し、式（２）において、Wは、調音SOMにおいて、終了条件が満たされた場合の調音パラメータ系列が観測される尤度が最も高いノード（スコア計算部７１からのスコアが最も高いノードである勝者ノード）を表すインデックスであり、jは、聴覚SOMを構成する各ノードを表すインデックスである。例えば、聴覚SOMを構成するノードの総数がN個であるとすると、インデックスjは、１，２，・・・，Ｎの値をとる。

また、いま、調音SOMのインデックスWで表されるノード（終了条件が満たされた場合の調音パラメータ系列が観測される尤度が最も高いノード）を、ノード#Wと表すとともに、聴覚SOMのインデックスjで表されるノードを、ノード#jと表すこととすると、式（２）において、cwnew(W,j)は、調音SOMのノード#Wと、聴覚SOMのノード#jとの更新後の結合重みを表し、cwold(W,j)は、調音SOMのノード#Wと、聴覚SOMのノード#jとの、更新直前の更新重みを表す。

さらに、式（２）において、βは所定の定数であり、score_in(j)は、ユーザの発話に対して求められた聴覚SOMのノード#jのスコアを表す。また、score_out(W)は、終了条件が満たされた場合の調音パラメータ系列に対して求められた調音SOMのノード#Wのスコア、つまり、終了条件が満たされた場合の調音パラメータ系列に対して勝者ノードとなった調音SOMのノード#Wのスコアを表す。

ここで、自己学習用結合重み更新部７６は、調音SOMのノード#Wのスコアscore_out(W)を、スコア計算部７１から供給されるスコアの中から取得して、式（２）を計算する。また、自己学習用結合重み更新部７６は、聴覚SOMの各ノード#jのスコアscore_in(j)を、制御部１０から取得して、式（２）を計算する。即ち、制御部１０は、ユーザの発話に対して求められる聴覚SOMの各ノード#jのスコアscore_in(j)を、認識部５から取得し、自己学習用結合重み更新部７６に供給するようになっており、自己学習用結合重み更新部７６は、このようにして制御部５から供給されるスコアscore_in(j)を用いて、式（２）を計算する。

なお、自己学習用結合重み更新部７６では、ステップＳ１１５において、その他、例えば、次のようにして、記憶部４に記憶された結合ネットワークの結合重みを更新することができる。

即ち、自己学習用結合重み更新部７６では、例えば、調音SOMにおいて、終了条件が満たされた場合の調音パラメータ系列（直前のステップＳ１０９で生成部６から供給された調音パラメータ系列）が観測される尤度が最も高いノード、つまり、スコア計算部７１からのスコアが最も高いノードである勝者ノードと、その勝者ノードから生成される調音パラメータにしたがって駆動部８が駆動した場合に観測部１において観測される観測値としての合成音に対して決定される聴覚SOMの勝者ノードとの結合重みが最も増大するように（強めるように）、スコア計算部７１からのスコアが最も高い調音SOMのノードである勝者ノードと、聴覚SOMの各ノードとの結合重みを更新する。

cwnew(W,j)=cwold(W,j)＋βscore_in'(j)score_out(W)
・・・（３）

式（３）において、W，j，cwnew(W,j)，cwold(W,j)，β，score_out(W)は、式（２）における場合と同様である。また、式（３）において、score_in'(j)は、調音SOMのノード#Wから生成される調音パラメータ系列にしたがって駆動部８が駆動することにより生成される合成音に対して求められる聴覚SOMのノード#jのスコアを表す。

ここで、式（３）にしたがって結合重みを更新する場合には、調音SOMのノード#Wから生成される調音パラメータ系列にしたがって駆動部８が駆動することにより生成される合成音に対して求められる聴覚SOMのノード#jのスコアscore_in'(j)が必要である。

そのため、制御部１０は、生成部６を制御して、学習部７によって更新された調音SOMのノード#Wから調音パラメータ系列を生成させる。この場合、生成部６（図１４）では、制御部１０の制御にしたがい、モデルパラメータ変更部６２が、記憶部４に記憶された調音SOMのノード#Wのモデルパラメータを読み出し、そのまま、時系列生成部６３に供給する。

そして、時系列生成部６３は、モデルパラメータ変更部６２からのノード#Wのモデルパラメータ（で定義される時系列パターンモデル２１としてのHMM）から、調音パラメータ系列を生成し、駆動部８に供給する。

さらに、制御部１０は、駆動部８を制御し、生成部６から供給される調音パラメータ系列を用いて、合成音を生成させる。駆動部８が生成した合成音は、観測部１において観測される。観測部１は、その観測値に基づき、合成音の音声区間を検出し、その音声区間の音声データを、特徴抽出部２に供給する。特徴抽出部２では、観測部１からの音声データから音響パラメータが抽出され、時系列の音響パラメータ、即ち、音響パラメータ系列が、学習部３と認識部５に供給される。認識部５では、特徴抽出部２からの音響パラメータ系列、即ち、駆動部８が出力した合成音の音響パラメータ系列を用いて、図１３で説明した認識処理が行われる。

そして、制御部１０は、認識部５を制御することにより、合成音の音響パラメータ系列を用いて行われた認識処理において得られた、その合成音の音響パラメータ系列に対する聴覚SOMの各ノード#jのスコアscore_in'(j)を取得し、自己学習用結合重み更新部７６に供給する。自己学習用結合重み更新部７６は、このようにして制御部５から供給されるスコアscore_in'(j)を用いて、式（３）を計算する。

なお、ステップＳ１１５において、式（３）を計算することによって、結合重みを更新する場合には、その結合重みの更新後、図１８に点線で示すステップＳ１１６に進み、制御部１０が、学習部３を制御することにより、調音SOMのノード#Wから生成された調音パラメータ系列にしたがって駆動部８が駆動することにより生成された合成音の音響パラメータ系列を用いて、記憶部４に記憶された聴覚SOMを更新させる。

即ち、上述したように、駆動部８が調音SOMのノード#Wから生成された調音パラメータ系列にしたがって駆動することにより生成した合成音の音響パラメータ系列が、特徴抽出部２から学習部３と認識部５に供給されるので、学習部３は、制御部１０の制御にしたがい、その合成音の音響パラメータ系列を用い、図１１で説明した学習処理を行って、記憶部４に記憶された聴覚SOMを更新する。

以上、自己学習用結合重みの更新の詳細について説明した。

次に、教示学習用結合重みの更新の詳細について説明する。

即ち、教示学習用結合重み更新部７７は、例えば、調音SOMにおいて、終了条件が満たされた場合の調音パラメータ系列（直前のステップＳ１０９で生成部６から供給された調音パラメータ系列）が観測される尤度が最も高いノード、つまり、スコア計算部７１からのスコアが最も高いノードである勝者ノードと、聴覚SOMの各ノードとの結合重みを、正報酬が与えられたときには、聴覚SOMの発話勝者ノードとの結合重みが最も増大するように（強めるように）更新する一方、負報酬が与えられたときには、聴覚SOMの発話勝者ノードとの結合重みが最も減少するように（弱めるように）更新する。

具体的には、教示学習用結合重み更新部７７は、正報酬が与えられたときには、例えば、次式にしたがって、結合重みを更新する。

cwnew(W,j)=(1＋Ge)cwold(W,j)
・・・（４）

また、教示学習用結合重み更新部７７は、負報酬が与えられたときには、例えば、次式にしたがって、結合重みを更新する。

cwnew(W,j)=（１−Ge）cwold(W,j)
・・・（５）

但し、式（４），（５）において、Geは、結合重みcwold(W,j)に対するゲイン項であり、
このゲイン項Geは、0から1までを範囲とする可変値である。このゲイン項Geの値が大きいほど、更新の強化または弱化の度合いが強くなる。

ゲインGeの値の決定手法は、特に限定されず、例えば次のような決定手法を採用することができる。即ち、終了条件が満たされた場合の調音パラメータ系列（直前のステップＳ１０９で生成部６から供給された調音パラメータ系列）が観測される尤度が最も高いノード、つまり、スコア計算部７１からのスコアが最も高いノードである勝者ノードと、ステップＳ１０６における聴覚SOMの勝者ノードとが一番強く学習され、かつ、調音SOMのノードと聴覚SOMのノードとのパターン間距離に応じてその影響度が低くなっていくような関数によって、その値が決定されるという決定手法を、ゲインGeの値の決定手法として採用することができる。

具体的には例えば、HMM+SOMの学習のときにおける更新重みの決定手法として、上述した図９の例ではガウシアンのカーブ（それが示す関数）に応じて更新重みを決定する手法が採用されているが、この手法と同様の手法を、ゲインGeの値の決定手法として採用することができる。即ち、ガウシアンのカーブ（それが示す関数）に応じてゲインGeの値を決定するという決定手法を、ゲインGeの値の決定手法として採用することができる。この決定手法が採用された場合には、調音SOMのノードと聴覚SOMのノードとのパターン間距離が長くなるに連れ、ゲインGeの値が徐々に小さくなっていく（０に近づいていく）ことになる。

さらに、これらの決定手法に加えて、報酬に基づく教示による学習（教示学習用結合重みの更新）の影響の度合いを考慮した手法、具体的には例えば図１９に示される手法を、ゲインGeの値の決定手法として採用することもできる。即ち、図１９は、教示による学習の影響度合いを考慮したゲインGeの値の決定手法の一例を説明する図である。以下、この図１９の例のゲインGeの値の決定手法について説明する。

即ち、教示学習用結合重みの更新は、上述したように、報酬といった外界からの評価によって正解が与えられる。従って、聴覚SOMと調音SOMが収束している状態で、その更新の強化または弱化の度合いが強くなるように学習（更新）していくことで、より一段と早く正確な写像関係（聴覚SOMの各ノードと調音SOMの各ノードとの各結合重みの関係）を得ることができる。

なお、ここで言う収束とは、聴覚SOMと調音SOMとのそれぞれにおいて（それぞれの自己組織化マップにおいて）、とある部分は特定の音韻を表し、別のとある部分は別の音韻を表現するような構造ができあがることをいう。

一方、教示学習用結合重みの更新（学習）の初期段階では、聴覚SOMと調音SOMとのそれぞれはまだ収束していない。このような収束していない状態で、教示学習用結合重みの更新（学習）の強化または弱化の度合いを強めるようにその学習を進めていくと、聴覚SOM上のノードと調音SOM上のノードとは、その学習が進むに連れて、違うカテゴリを表現するようになってしまう場合もでてくる。そうなってしまった場合に、聴覚SOM上のノードと調音SOM上のノードとの結合が強まっていると、返って正確な学習ができなくなる場合がでてくるという問題が発生してしまう。

そこで、この問題を解決すべく、図１９の例のゲインGeの値の決定手法では、上述した式（４）と式（５）におけるゲイン項Geを例えば次の式（６）のように定義し、教示学習用結合重みの更新（学習）の回数（以下、結合重み更新回数）がｎ回目までの初期段階では、図１９に示されるように、式（６）の右辺の値gを0で固定しおき、結合重み更新回数がn+1回目を超えてからその値gを所定の値（例えば1.0等）に変化させるようにしている。

Ge = g * C
・・・（６）

但し、式（６）において、gは、上述したように、結合重み更新回数により決定される値である。また、Cは、教示学習用結合重み更新部７７によりコントロールされる可変値であって、調音SOMのノードと聴覚SOMのノードとのパターン間距離や、必要に応じてその他の情報に応じた値を取る。

これにより、結合重み更新回数がｎ回目までの初期段階では、即ち、聴覚SOMと調音SOMとのそれぞれがまだ収束していない状態では、上述した式（４）,（５）に示されるように、たとえ報酬（教示）が与えられたとしても、教示学習用結合重みの更新が実質上行われないことになる。即ち、報酬（教示）の影響を受けないことになる。

そして、その後、結合重み更新回数がn+1回目を超えると、即ち、聴覚SOMと調音SOMとのそれぞれがある程度収束してくると、教示学習用結合重みの更新が実質上開始される。即ち、結合重み更新回数がn+1回目以降では、報酬（教示）の影響を受けることになる。この場合、教示学習用結合重み更新部７７は、式（６）の値Cを適切に変動して、その強化または弱化の度合いを適切に変更していくことで、報酬（教示）の影響の度合いを適切に調整することもできる。具体的には例えば、結合重み更新回数がn+1回目を超えた時点が実質上の学習の開始となるので、その学習の初期段階（結合重み更新回数がn+1回に近い段階）では、その強化または弱化の度合いが小さくなるようにし、学習が進むに従って（結合重み更新回数がn+1回よりも多くなるに従って）、即ち、聴覚SOMと調音SOMとのそれぞれ（それぞれの自己組織化マップ）が収束するに従って、その強化または弱化の度合いを大きくしていくように、教示学習用結合重み更新部７７は式（６）の右辺の値Cをコントロールしていけばよい。なお、その強化または弱化の度合いを大きくしていくとは、結局、正報酬が与えられたときにはcwnew(W,j)の値を大きくしていき、負報酬が与えられたときにはcwnew(W,j)の値を小さくしていくことに他ならない。このようにすることで、写像関係（聴覚SOMの各ノードと調音SOMの各ノードとの各結合重みの関係）の学習を、より早くかつより正確にできるようなる。

なお、結合重み更新回数は、上述した例では、教示学習用結合重みの更新の回数とされたが、教示学習用結合重みの更新と自己評価用結合重みの更新とのそれぞれ回数の総計回数としてもよい。

以上、自己学習用結合重みの更新の詳細について説明し、引き続き、教示学習用結合重みの更新の詳細について説明した。

なお、ユーザからの報酬（教示）の影響をより一段と高めたい場合には、教示学習用結合重みの更新による強化（または弱化）の度合いを、自己学習用結合重みの更新による強化の度合いに比較して大きくなるようにすればよい。

また、教示学習用結合重みの更新の処理タイミングは、図１８の例では、ステップＳ１１４の処理でＹＥＳであると判定された後のステップＳ１１５の時点とされたが、図１８の例に限定されず、ステップＳ１１４の判定処理の結果によらず報酬が与えられた時点であれば任意の時点でよい。

以上のように、図１の情報処理装置では、ユーザの発話の音響パラメータ系列に基づき、聴覚SOMの学習（更新）を行う一方、聴覚SOMにおいて、ユーザの発話の音響パラメータに対するスコアが最も高いノードである勝者ノードを決定し、調音SOMにおいて、聴覚SOMの勝者ノードとの結合重みが最大のノードである生成ノードを探索する。さらに、図１の情報処理装置では、生成ノードのモデルパラメータを変更することによって、その生成ノードから生成される調音パラメータ系列を変更し、その調音パラメータ系列にしたがって合成音を生成する。そして、図１の情報処理装置では、その合成音に対して決定される聴覚SOMの勝者ノード（合成音勝者ノード）と、ユーザの発話に対して決定された聴覚SOMの勝者ノード（発話勝者ノード）とに基づき、終了条件が満たされるかどうかを判定し、終了条件が満たされた場合に、結合重みを更新するとともに、終了条件が満たされた場合の調音パラメータ系列に基づき、調音SOMの学習（更新）を行う。

従って、図１の情報処理装置が適用されたロボットなどでは、自己の行動を能動的に変更し、その行動を自己評価して、自己の行動を、他から与えられる刺激に適応させることができる。即ち、例えば、自己の行動としての発話（合成音）を能動的に変更し、その合成音を自己評価して、自己の合成音を、他から与えられる刺激としてのユーザの発話に適応させることができる。

つまり、図１の情報処理装置（以下、それが適用されたロボットとして説明する）は、ユーザとの間で、図２０に示されるプロトコルＰ２０１に従って、その処理を実行することができる。

具体的には、プロトコルＰ２０１は、次のステップＳ２０１−１，Ｓ２０２−２からなる。

即ち、ステップＳ２０１−１において、ユーザは、自身の発話（社会に存在する音）、即ち、お手本となる音韻をロボットに与える。すると、ロボットは、ユーザの発話を聴覚SOMによって認識し、その発話を真似た合成音を出力するために、調音SOMから得られる調音パラメータを変更し、その変更後の調音パラメータにしたがって音声合成を行うことにより、実際に、合成音を出力する。

さらに、ステップＳ２０１−２において、ロボットは、ユーザの発話のまねによる探索と自己評価を行う。即ち、ロボットは、自身から出力した合成音を、聴覚SOMによって認識し、その合成音がユーザの発話に近いかどうかを、終了条件を満たすかどうかを判定することによって自己評価する。そして、合成音がユーザの発話に近くなったという自己評価結果が得られた場合（終了条件を満たす場合）に、調音SOMと聴覚SOMのノードどうしのマッピングをとることで、つまり、ユーザの発話に近い合成音を生成することができる調音SOMのノードと、その合成音またはユーザの発話の認識結果としての聴覚SOMのノードとの結合を強めることで、調音SOMと聴覚SOMのノードどうしの適切な結合（写像）を、教師なし学習で獲得する。

かかるメカニズムによれば、ユーザが発話すると、ロボット（図１の情報処理装置）では、その発話と同様の発話としての合成音の生成を行う調音パラメータ（系列）を得るという目標（調音目標）を達成すべく、調音SOMのノードが有する時系列パターンモデル２１（図５）のモデルパラメータを変更することにより、調音パラメータが変更される。さらに、図１の情報処理装置では、駆動部８が、変更後の調音パラメータにしたがって駆動、つまり合成音を生成し、その合成音を、聴覚SOMを用いて認識することにより、ユーザの発話に近づいたかどうかを、終了条件を判定することにより自己評価する。そして、図１の情報処理装置では、ユーザの発話に近い合成音を生成することができる調音SOMのノードと、その合成音、またはユーザの発話の認識結果としての聴覚SOMのノードとの結合を強めるように、調音SOMと聴覚SOMとのマッピング（結合重み）を更新する。

従って、図１の情報処理装置を、例えば上述したように、ロボットに適用することにより、ユーザが発話すると、合成音の出力を繰り返し、ユーザの発話（の音韻）の真似をする、いわゆるオウム返しのような聞き真似を行うロボットを実現することができる。

なお、ユーザの発話のオウム返しを行う方法としては、例えば、ユーザの発話を、辞書を用いて音声認識し、その音声認識結果にしたがって合成音を生成する第１の方法や、ユーザの発話を録音して再生する第２の方法がある。

第１の方法では、音声認識が辞書を用いて行われるため、辞書に登録されていない単語を音声認識することはできず、その結果、そのような単語の合成音を生成することもできない。即ち、第１の方法では、辞書に登録されている単語の範囲でしか、オウム返しを行うことができない。

また、第２の方法では、ユーザの発話を録音して再生するだけなので、再生（出力）される音（音声）に個性がなく、面白みにかける。なお、第２の方法については、ユーザの発話の再生時に、フィルタをかけることで、再生時の音声を変換（音声変換）し、これにより、ユーザの発話とは周波数成分が異なる音（音声）を出力する方法がある。

ここで、オウム返しをする方法、さらには、オウム返しに適用することができる音声変換を行う方法については、例えば、特開平11-9847号公報や、特許第1758551号、特表2001-522471号公報、特開平09-179572、特開2000-122699号公報などに記載されている。

第１や第２の方法をロボットに適用した場合、第１や第２の方法のいずれを適用した場合であっても、ロボットがするオウム返しは、変化がない固定のオウム返しであり、オウム返しをすることができなかったロボットが、オウム返しをすることができるようになるような成長を、ユーザに感じさせることはできない。

一方、図１の情報処理装置をロボットに適用した場合には、ユーザが、ロボットに教えるように発話をすることにより、その発話を徐々に真似してオウム返しをするロボットを実現することができる。さらに、ロボットにおいて生成される合成音は、調音器官としての調音SOMによる制約（例えば、調音SOMのノードの総数や、ノードの配置構造、調音パラメータとして採用するパラメータ、時系列パターンモデル２１（図５）として採用するモデルなど）を受ける。従って、ロボットが、ユーザの発話を真似するのには限界があり、ロボットは、その限界の範囲内において、ユーザの発話を最大限真似した合成音を出力する。このため、ロボットでは、個性があるオウム返しが可能になる。さらに、最初は稚拙なオウム返ししか出来ないが、学習を追うごとに上手になっていく様子を、ユーザは観察することが出来る。

以上のように、図１の情報処理装置によれば、聴覚SOMと調音SOMとの間の写像（聴覚SOMと調音SOMとのノードどうしの結合重み）を、自己評価により、教師なしで獲得することができ、その結果、ユーザの発話（音声）を認識し、その発話を真似た合成音を生成することができるようになる。

また、図１の情報処理装置によれば、聴覚SOMの学習（更新）によって、自己組織的に音韻の区別をすることが出来るようになるので、どのような音韻でも獲得（認識）することが可能となる。すなわち、あらかじめ定義されたある特有の音韻の辞書なしで、任意の音韻の特徴のまとまり（パターン）を真似することができるようになる。つまり、ユーザの発話に応じた音韻を獲得し、その真似をすることができる。

さらに、図１の情報処理装置によれば、ユーザの発話がされると、合成音を実際に出力（することを繰り返）し、ユーザの発話により近い合成音を（出力しようと）探索するので、結果として、ユーザには、そのユーザの発話を真似しているように見える。そして、結合ネットワーク、即ち、聴覚SOMおよび調音SOM、並びに結合重みの学習（更新）が進むほど、ユーザには、上手に真似をすることが出来るようになるように見える。

また、図１の情報処理装置によれば、合成音の生成は、基本的には、ランダムではなく、ユーザの発話に音に近づけようとするように行われるので、ユーザが、外界から観察したときに意味づけができる。即ち、ユーザの発話を真似しようとしていることを、ユーザに感じさせることができる。

さらに、図１の情報処理装置によれば、結合ネットワークの学習（更新）の過程が、ユーザにとっては、オウム返し（聞きまね）をするゲームをしているように見えるので、ユーザが楽しむことができる。

また、図１の情報処理装置によれば、調音器官としての調音SOMによる制約の範囲内において、ユーザの発話を最大限真似した合成音を出力するので、ユーザの発話を録音して再生する場合のような個性がないオウム返しではなく、情報処理装置固有の個性があるオウム返しを行うことができる。

さらに、図１の情報処理装置によれば、ユーザの発話があるごとに、結合ネットワークの学習（更新）を行う、いわゆるオンライン学習が行われるので、ユーザは、オウム返しが徐々に上手になっていく様子を観察することができる。

ただし、［発明が解決しようとする課題］で上述したように、聴覚SOMと調音SOMとの間の写像（聴覚SOMと調音SOMとのノードどうしの結合重み）が、図１の情報処理装置の自己評価だけで獲得されても、即ち、いわゆる教師なし学習だけで獲得されても、その自己評価が仮に間違っていた場合には、獲得された写像もまた間違った写像となってしまうという問題が発生してしまう。

即ち、「ロボットの調音パラメータから発声された音韻が人の社会に存在する音韻ではあるが、ユーザと同じ音韻とマッピングされていない」という第１の間違い、または、「ロボットの調音パラメータから発声された音韻が人の社会に存在せず、その音韻と人の持つ音韻がマッピングされてしまっている」という第２の間違いが生じてしまうという問題が発生してしまう。

そこで、この問題を解決すべく、上述したように、図１の情報処理装置では、さらに、ユーザからの報酬を受け、これを外界からの教師信号として使用することで、より一段と正確な写像を生成するようにしている。具体的には例えば、図１の情報処理装置（以下、それが適用されたロボットとして説明する）は、ユーザとの間で、図２１に示されるプロトコルＰ２０２や図２２に示されるプロトコルＰ２０３に従って、この問題を解決可能な処理を実行することができる。

より具体的には例えば、大人（人間）が子供（人間）に音韻を教える一般的な手順と同様に、はじめに、ユーザ（大人に相当）は、プロトコルＰ２０２に従った処理をロボット（子供に相当）に実行させる。即ち、ユーザは、お手本となる様々な音韻をロボットに与えることで、聴覚SOMと調音SOMとの間の写像（聴覚SOMと調音SOMとのノードどうしの結合重み）の関係をロボットに学習させていく。その後、ロボットが写像の関係をある程度習熟してきた段階で、ユーザは、プロトコルＰ２０３に従った処理をロボットに実行させる。即ち、ユーザは、ロボットにランダムに発声させて（ランダムに合成音を出力させて）、ランダムに出力された合成音（音韻）に対して報酬を与えていくことで、その合成音に対応する写像の関係をさらにロボットに学習させていく。これにより、より一段と正確な写像の獲得が可能になる。

以下、かかるプロトコルＰ２０２，Ｐ２０３のそれぞれについて、その順番に個別に説明していく。

はじめに、図２１を参照して、プロトコルＰ２０２について説明する。

このプロトコルＰ２０２は、ステップＳ２０２−１，Ｓ２０２−２，Ｓ２０２−３からなる。

ただし、ステップＳ２０２−１，Ｓ２０２−２のそれぞれは、上述した図２０のプロトコルＰ２０１のステップＳ２０１−１，Ｓ２０１−２のそれぞれと基本的に同様の処理であるので、それらの説明については省略する。そこで、以下、ステップＳ２０２−３についてのみ説明する。

例えば、ユーザは、ステップＳ２０２−２の処理の結果としてロボットが発声した音韻が、ステップＳ２０２−１の処理でのお手本となる音韻（ユーザが発声した音声）と同じカテゴリの音であると評価した場合、ステップＳ２０２−３において、正報酬を与えることになる。すると、ロボットは、ステップＳ２０２−１の処理でのお手本となる音韻を認識した聴覚SOM上のHMMのノードと、ステップＳ２０２の処理の結果としてロボット自身が発声した音韻に対応する調音SOM上のHMMのノードとの結合重みに対して、正報酬を受けたときの学習を行う。即ち、ロボットは、その結合重みを強化するように更新する。

これに対して例えば、ユーザは、ステップＳ２０２−２の処理の結果としてロボットが発声した音韻が、ステップＳ２０２−１の処理でのお手本となる音韻（ユーザが発声した音声）とは異なるカテゴリの音であると評価した場合、ステップＳ２０２−３において、負報酬を与えることになる。すると、ロボットは、ステップＳ２０２−１の処理でのお手本となる音韻を認識した聴覚SOM上のHMMのノードと、ステップＳ２０２の処理の結果としてロボット自身が発声した音韻に対応する調音SOM上のHMMのノードとの結合重みに対して、負報酬を受けたときの学習を行う。即ち、ロボットは、その結合重みを弱化するように更新する。その結果、ステップＳ２０２−２の処理の結果としてロボットより発声されたその音韻は、それ以降、だんだんと発声されないようになっていく。

次に、図２２を参照して、プロトコルＰ２０３について説明する。

ロボットは、自由なタイミングで、上述したように、自身の発声器官（図１の情報処理装置）を利用して調音SOM上のHMMのノードから調音パラメータ（調音パラメータ系列）を生成し、それに対応する合成音（音韻）を発声することが可能である。このようなロボットの自発的な発声に対しても、ユーザは報酬を与えることが可能であり、そのことを実現するプロトコルの一例が図２２のプロトコルＰ２０３とされている。

プロトコルＰ２０３は、次のステップＳ２０３−１，Ｓ２０３−２からなる。

即ち、ステップＳ２０３−１において、ロボットは、上述したように、ランダムに調音SOM上のノードから発生する。

例えば、ステップＳ２０３−１の処理でロボットが発声した合成音が、ユーザも通常に発声可能である場合、即ち社会に存在する音声である場合、ステップＳ２０３−２において、ユーザは、正報酬を与えることになる。すると、ロボットは、ステップＳ２０３−１の処理で自身が発声した合成音（音韻）を聴覚SOM上で認識したときのその聴覚SOM上のノードを、聴覚SOMの発話勝者ノードとして決定する。また、ロボットは、ステップＳ２０３−１の処理で自身が発声した音韻の出力元となる調音SOM上のノードを、調音SOMの勝者ノードとして決定する。そして、ロボットは、この調音SOMの勝者ノードと、聴覚SOMの各ノードとの結合重みを、聴覚SOMの発話勝者ノードとの結合重みが最も増大するように（強めるように）更新する。

これに対して、例えば、ステップＳ２０３−１の処理でロボットが発声した合成音が、ユーザにとって発声が困難である場合、すなわち社会に存在しない音声である場合、ステップＳ２０３−２において、ユーザは、負報酬を与えることになる。すると、ロボットは、ステップＳ２０３−１の処理で自身が発声した合成音（音韻）を聴覚SOM上で認識したときのその聴覚SOM上のノードを、聴覚SOMの発話勝者ノードとして決定する。また、ロボットは、ステップＳ２０３−１の処理で自身が発声した音韻の出力元となる調音SOM上のノードを、調音SOMの勝者ノードとして決定する。そして、ロボットは、この調音SOMの勝者ノードと、聴覚SOMの各ノードとの結合重みを、この聴覚SOMの発話勝者ノードとの結合重みが最も減少するように（弱めるように）更新する。その結果、ステップＳ２０３−１の処理でロボットにより発声された音韻は、それ以降、だんだんと発声されないようになっていく。

なお、図２１のプロトコルＰ２０２と図２２のプロトコルＰ２０３とのそれぞれは、上述した例では組み合わされて用いられたが、それぞれ単独で用いることもできる。

特に、図２２のプロトコルＰ２０３を単独で用いることで、ロボットが発生し得る音韻の中から、社会に存在しない音韻を的確に排除することが可能になる。

以上、聴覚SOMと調音SOMとの間の写像（聴覚SOMと調音SOMとのノードどうしの結合重み）の関係の学習のためのプロトコルの一例として、図２１のプロトコル２０２と図２２のプロトコル２０３とについて説明した。

なお、プロトコルＰ２０２，Ｐ２０３におけるユーザの報酬の与え方の手法は、特に限定されないが、プロトコルＰ２０２，Ｐ２０３の例では図１の情報処理装置がロボットに適用されているので、例えば、次の第１の手法や第２の手法を採用することが可能である。

即ち、報酬の与え方の第１の手法とは、ユーザが、正報酬を与える場合には、ロボットの頭部に供えられているタッチセンサ（図示せず）をなでる（いわゆる頭をなでている）という信号を、また、負報酬を与える場合には、そのタッチセンサをたたく（いわゆる頭をたたく）という信号を、それぞれロボットに与える、といった手法である。

また、報酬の与え方の第２の手法とは、ユーザが、正報酬を与える場合には、ロボットの発声をやさしくまねる（低い音圧でまねる）行動を取り、また、負報酬を与える場合には、そのロボットの発声を無視する（フィードバックを何も返さない）行動を取る、といった手法である。ただし、この第２の手法が適用される場合、報酬取得部９は、それ自体で音声入力機能を有する構成とするか、或いは、観測部（音声入力部）１内に設けられて、その観測部１の音声入力機能を利用するようにすると良い。

以上説明したように、図１の情報処理装置は、聴覚SOMと調音SOMとの間の写像（聴覚SOMと調音SOMとのノードどうしの結合重み）の関係の学習として、図２０のプロトコルＰ２０１のような自己評価による学習（即ち、上述した自己学習用結合重みの更新）に加えてさらに、図２１のプロトコルＰ２０２や図２２のプロトコルＰ２０３のような報酬（正/負）による教示に基づく学習（即ち、上述した教示学習用結合重みの更新）を実行することができる。その結果、より一段と正確な写像の関係を得ることが可能になる。また、図１の情報処理装置が社会には存在しない音韻（合成音）を出力した場合であっても、教示に基づく学習により、その音韻に対応する写像の関係は段々と弱められていくので、その結果、社会には存在しない音韻の発声頻度も段々と下がっていき、最終的には（理想的には）、その発声自体が無くなるようにすることができる。

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図２３は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やＲＯＭ１０３に予め記録しておくことができる。

あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、図１の情報処理装置は、実際のロボットの他、例えば、仮想的なロボット、即ち、例えば、ディスプレイ上に表示されるキャラクタなどにも適用することができる。

また、本実施の形態では、聴覚SOMおよび調音SOMのノードが有する時系列パターンモデル２１（図５）として、状態遷移確率モデルの１つであるHMMを採用することとしたが、時系列パターンモデル２１としては、他の状態遷移確率モデルを採用することが可能である。

時系列パターンモデル２１として採用することができる他の状態遷移確率モデルとしては、例えば、ベイジアンネットワークがある。

ベイジアンネットワークでは、変数間の依存関係をグラフ構造で表し、各ノードに条件付き確率を割り当てることでモデル化が行われるが、特に、時間軸に沿った状態遷移モデルを構築することで、時系列データをモデル化することが可能となる。

なお、ベイジアンネットワークのグラフ構造の決定は、例えば、学習データの尤度とグラフ構造の複雑さとを考慮したモデルを選択することにより行われ、条件付き確率の推定には、例えば、最尤推定法やEM(Expectation Maximaization)アルゴリズムなどが利用される。ここで、ベイジアンネットワークの詳細については、例えば、本村陽一、「不確実性モデリングのための情報表現：ベイジアンネット」、２００１年、ベイジアンネットチュートリアルなどに記載されている。

さらに、時系列パターンモデル２１（図５）としては、上述のように、HMMやベイジアンネットワークなどのような状態遷移確率モデルを採用することができる他、関数を近似するモデル（以下、適宜、関数近似モデルという）を採用することもできる。

関数近似モデルは、時系列パターンを、関数f()を用い、例えば、微分方程式{x(t)}'=f(x(t))や、差分方程式x(t+1)=f(x(t))などで表現するモデルで、関数f()が、時系列パターンを特徴づける。なお、tは時間（時刻）（サンプル点）を表し、x(t)は、時刻tの時系列データのサンプル値、または時刻（０から）tまでに観測された時系列データを表す。また、{x(t)}'は、時系列データx(t)の時間tに関する１次微分を表す。

学習データ（時系列データ）から、ある時系列パターンを表す（に対応する）関数f()を求めることを、関数近似と呼ぶと、関数近似の方法としては、例えば、多項式などを用いて関数 f() を表現し、その多項式の係数を、学習データから決定する方法や、ニューラルネットワークによって関数 f() を表現し、そのニューラルネットワークのパラメータを、学習データから決定する方法などがある。

多項式で表現された関数f()の関数近似において、その多項式の係数の決定（推定）は、例えば、最急降下法などによって行うことができる。また、ニューラルネットワークによって表現された関数f()の関数近似において、そのニューラルネットワークのパラメータの決定は、例えば、バックプロパゲーション法によって行うことができる。ここで、バックプロパゲーション法では、ニューラルネットワークに入力と出力のデータを与え、その入力と出力のデータの関係を満たすように、ニューラルネットワークのパラメータの学習が行われる。

例えば、時系列パターンモデル２１として、関数f()を用いた差分方程式x(t+1)=f(x(t))で時系列パターンを表現する関数近似モデルを採用する場合、入力層x(t)と出力層x(t+1)をつなぐ重み（中間層）が、ニューラルネットワークのパラメータであり、このパラメータが、学習データ（時系列データ）を用いて学習される。ニューラルネットワークのパラメータの学習は、初期値を適当に与えて、バックプロパゲーション法により行われる。なお、ニューラルネットワークとしては、例えば、リカレントニューラルネットワークを採用することができる。

関数f()がニューラルネットワークによって表現される時系列パターンモデル２１を有するノードで構成される聴覚SOMおよび調音SOMの学習等でも、上述のHMMを時系列パターンモデル２１として採用した場合と同様に、勝者ノードを決定する必要があり、勝者ノードの決定のためには、聴覚SOMまたは調音SOMの各ノードの、新たな時系列データとしての音響パラメータ系列または調音パラメータ系列に対するスコアを計算する必要がある。

このスコアとしては、例えば、新たな時系列データの観測値（実際の値）と、関数f()がニューラルネットワークによって表現される時系列パターンモデル２１から求められる、新たな時系列データの理論値との差の二乗和などを採用することができる。この場合、スコアの値が最も小さいノードが、新たな時系列データに最も適合するノードである勝者ノードとして決定される。

勝者ノードの決定後は、各ノードの更新重みを決定し、以下、上述のHMMを時系列パターンモデル２１として採用した場合と同様の手順で、各ノード（が有するニューラルネットワーク）のパラメータを更新することができる。

なお、聴覚SOMと調音SOMのノードそれぞれは、必ずしも、同一の時系列パターンモデル２１を有していなければならないわけではない。即ち、聴覚SOMのノードが有する時系列パターンモデル２１としては、例えば、HMMを採用し、調音SOMのノードが有する時系列パターンモデル２１としては、例えば、ニューラルネットワークを採用することができる。

また、本実施の形態では、聴覚SOMのノードを、図５で説明したように、時系列パターンを表現する時系列パターンモデル２１と、その時系列パターンモデル２１の学習に用いる時系列データである学習データを記憶する学習データ記憶部２２とから構成するようにしたが、聴覚SOMのノードは、必ずしも、時系列パターンモデル２１と学習データ記憶部２２で構成する必要はない。即ち、聴覚SOMのノードは、前述の非特許文献１等に記載されている、従来の自己組織化マップと同様に、単に、パラメータ（音響パラメータ）を有するものであっても良い。但し、聴覚SOMのノードを、時系列パターンモデル２１で構成する場合には、時系列データの入力に対して勝者ノードを決定（時系列データを認識）すること、およびノードラベルの入力に対して時系列データを生成することができるが、聴覚SOMのノードが、従来の自己組織化マップと同様に、単に、パラメータ（音響パラメータ）を有するだけである場合には、その聴覚SOMによれば、長さが固定長のデータの入力に対して勝者ノードを決定すること、および長さが固定のデータを生成することしかできず、従って、長さが可変の時系列データの入力に対して勝者ノードを決定すること、および長さが可変の時系列データを生成することは、困難となる。調音SOMについても同様である。

さらに、本実施の形態では、音声（合成音）の認識に用いる聴覚SOMと、合成音の生成に用いる調音SOMとを用意し、ユーザの発話を聴覚SOMを用いて認識する一方、調音SOMを用いて合成音を生成し、その合成音を聴覚SOMを用いて認識することで、聴覚SOMを用いて認識したユーザの発話を真似した合成音を聴覚SOMを用いて生成することができるように、聴覚SOMおよび調音SOMのノードどうしの結合重みの更新、即ち、聴覚SOMと調音SOMとのマッピングを行うようにしたが、その他の複数の自己組織化マップどうしのマッピングを行うことも可能である。

具体的には、例えば、アクチュエータを駆動することによって動くことができるロボットにおいて、画像の認識に用いる自己組織化マップ（以下、適宜、視覚SOMという）と、アクチュエータを駆動する（パラメータを生成する）のに用いる自己組織化マップ（以下、適宜、運動SOMという）とを用意し、ユーザの動きを視覚SOMを用いて認識する一方、運動SOMを用いてアクチュエータを駆動し、その結果動くロボットの動きを視覚SOMを用いて認識することで、視覚SOMを用いて認識したユーザの動きを真似した動きをするアクチュエータの駆動を運動SOMを用いてすることができるように、視覚SOMと運動SOMとのマッピングを行うことができる。なお、ロボットの動きは、例えば、鏡を配置しておき、その鏡に映るロボットの姿を観測することにより、ロボット自身が、視覚SOMを用いて認識することができる。

また、例えば、アクチュエータを駆動することによって動くことができるロボットにおいて、聴覚SOMと運動SOMとを用意し、ユーザが楽器を演奏することにより奏でたメロディを聴覚SOMを用いて認識する一方、運動SOMを用いてアクチュエータを駆動し、その結果動くロボットによる楽器の演奏により奏でられるメロディを聴覚SOMを用いて認識することで、聴覚SOMを用いて認識したユーザが奏でるメロディを真似したメロディを奏でる動きをするアクチュエータの駆動を運動SOMを用いてすることができるように、聴覚SOMと運動SOMとのマッピングを行うことができる。

さらに、この場合、聴覚SOMと運動SOMの他に、視覚SOMも用意し、ユーザが楽器を演奏する動きを視覚SOMを用いて認識する一方、運動SOMを用いてアクチュエータを駆動し、その結果動くロボットの動きを視覚SOMを用いて認識することで、視覚SOMを用いて認識したユーザの演奏の動きを真似した動きをするアクチュエータの駆動を運動SOMを用いてすることができるように、視覚SOMと運動SOMとのマッピングをも行うようにすることができる。なお、この場合、聴覚SOMの勝者ノードとの結合重みが最大の運動SOMのノードと、視覚SOMの勝者ノードとの結合重みが最大の運動SOMのノードとが一致するとは限らないため、運動SOMのいずれのノードを、アクチュエータの駆動に用いるパラメータ（第２のパラメータ）の生成に用いる生成ノードとするかが問題となるが、例えば、運動SOMのノードのうちの、聴覚SOMの勝者ノードとの結合重みと、視覚SOMの勝者ノードとの結合重みとの和が最大のノードを生成ノードとすることができる。

本発明を適用した情報処理装置の一実施の形態の構成例を示すブロック図である。結合ネットワークの構成例を示す図である。聴覚SOMを構成する各ノードが、調音SOMを構成するノードのすべてと結合されている様子を示す図である。聴覚SOM（調音SOM）の第１の構成例を示す図である。ノードの構成例を示す図である。聴覚SOM（調音SOM）の第２の構成例を示す図である。聴覚SOM（調音SOM）の第３の構成例を示す図である。学習部３の構成例を示すブロック図である。更新重みを決定する決定方法を説明するための図である。学習データ記憶部２２に記憶させる学習データを更新する更新方法を説明するための図である。学習部３による学習処理を説明するフローチャートである。認識部５の構成例を示すブロック図である。認識部５による認識処理を説明するフローチャートである。生成部６の構成例を示すブロック図である。生成部６による生成処理を説明するフローチャートである。学習部７の構成例を示すブロック図である。学習部７による学習処理を説明するフローチャートである。情報処理装置の動作を説明するフローチャートである。学習部７による、報酬に基づく教示を利用した結合重みの学習の手法の一例を説明する図である。学習部７による、自己評価による結合重みの学習を行うためのプロトコルの一例を説明する図である。学習部７による、報酬に基づく教示を利用した結合重みの学習を行うためのプロトコルの一例を説明する図である。学習部７による、報酬に基づく教示を利用した結合重みの学習を行うためのプロトコルの他の例を説明する図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

符号の説明

１観測部，２特徴抽出部，３学習部，４記憶部，５認識部，６生成部，７学習部，８駆動部，９報酬取得部，１０制御部，２１時系列パターンモデル，２２学習データ記憶部，４１スコア計算部，４２勝者ノード決定部，４３更新重み決定部，４４学習データ更新部，４５モデル学習部，５１スコア計算部，５２勝者ノード決定部，６１生成ノード決定部，６２モデルパラメータ変更部，６３時系列生成部，７１スコア計算部，７２勝者ノード決定部，７３更新重み決定部，７４学習データ更新部，７５モデル学習部，７６自己学習用結合重み更新部，７７教示学習用結合重み更新部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段と、
外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、前記第１の自己組織化マップの学習を行う第１の学習手段と、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定手段と、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索手段と、
前記生成ノードから、第２のパラメータを生成するパラメータ生成手段と、
前記生成ノードから生成される第２のパラメータを変更させる変更手段と、
前記第２のパラメータにしたがって駆動する駆動手段が、前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対して決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定手段と、
前記終了条件が満たされた場合に、前記結合重みを更新する第１の結合重み更新手段と、
前記駆動手段の駆動の結果に対するユーザの評価が前記ユーザから報酬として与えられた場合に、前記結合重みを更新する第２の結合重み更新手段と、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習手段と
を備えることを特徴とする情報処理装置。
前記報酬には、正報酬と負報酬とが存在し、
前記第２の結合重み更新手段は、前記正報酬が前記ユーザから与えられた場合には、前記結合重みを強化するように更新し、前記負報酬が前記ユーザから与えられた場合には、前記結合重みを弱化するように更新する
ことを特徴とする請求項１に記載の情報処理装置。
前記第２の結合重み更新手段は、前記結合重みの強化または弱化の度合いを、前記第１の結合重み更新手段による前記結合重みの強化または弱化の度合いに比較して大きくするように、前記結合重みを更新する
ことを特徴とする請求項２に記載の情報処理装置。
前記第２の結合重み更新手段は、前記結合重みの強化または弱化の度合いをその更新回数に応じて可変させて、前記結合重みを更新する
ことを特徴とする請求項２に記載の情報処理装置。
第１および第２の学習手段、勝者ノード決定手段、探索手段、パラメータ生成手段、変更手段、判定手段、第１の結合重み更新手段、並びに、第２の結合重み更新手段とを備える情報処理装置の、
前記第１の学習手段が、外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段に記憶された前記第１の自己組織化マップの学習を行う第１の学習ステップと、
前記勝者ノード決定手段が、前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップと、
前記探索手段が、前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップと、
前記パラメータ生成手段が、前記生成ノードから、第２のパラメータを生成するパラメータ生成ステップと、
前記変更手段が、前記生成ノードから生成される第２のパラメータを変更させる変更ステップと、
前記判定手段が、前記第２のパラメータにしたがって駆動する駆動手段が、前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対して決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップと、
前記第１の結合重み更新手段が、前記終了条件が満たされた場合に、前記結合重みを更新する第１の結合重み更新ステップと、
前記第２の結合重み更新手段が、前記駆動手段の駆動の結果に対するユーザの評価が前記ユーザから報酬として与えられた場合に、前記結合重みを更新する第２の結合重み更新ステップと、
前記第２の学習手段が、前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習ステップと
を含むことを特徴とする情報処理方法。
コンピュータに、
外部を観測し、観測値を出力する観測手段が出力する観測値から抽出される第１のパラメータに基づき、複数のノードで構成される第１および第２の自己組織化マップ、並びに前記第１の自己組織化マップのノードと前記第２の自己組織化マップのノードとの結合の度合いを表す結合重みからなる結合ネットワークを記憶する結合ネットワーク記憶手段に記憶された前記第１の自己組織化マップの学習を行う第１の学習ステップと、
前記第１の自己組織化マップにおいて、前記第１のパラメータが観測される尤度が最も高いノードである勝者ノードを決定する勝者ノード決定ステップと、
前記第２の自己組織化マップにおいて、前記勝者ノードとの結合の度合いが最も高いノードである生成ノードを探索する探索ステップと、
前記生成ノードから、第２のパラメータを生成するパラメータ生成ステップと、
前記生成ノードから生成される第２のパラメータを変更させる変更ステップと、
前記第２のパラメータにしたがって駆動する駆動手段が、前記第２のパラメータにしたがって駆動した場合に前記観測手段において観測される観測値に対して決定される前記勝者ノードに基づき、前記第２のパラメータの変更を終了する終了条件が満たされるかどうかを判定する判定ステップと、
前記終了条件が満たされた場合に、前記結合重みを更新する第１の結合重み更新ステップと、
前記終了条件が満たされた場合に、前記結合重みを更新する第２の結合重み更新ステップと、
前記終了条件が満たされた場合の前記第２のパラメータに基づき、前記第２の自己組織化マップの学習を行う第２の学習ステップと
を含む処理を実行させるプログラム。