JPWO2020045658A1

JPWO2020045658A1 - ロボット及び音声生成プログラム

Info

Publication number: JPWO2020045658A1
Application number: JP2020539648A
Authority: JP
Inventors: 要林; ベルモンテジョン; 敦也小瀬; 雅也松浦; 秀哉南地; 泰士深谷; 拓馬宮本
Original assignee: Groove X Inc
Current assignee: Groove X Inc
Priority date: 2018-08-30
Filing date: 2019-08-30
Publication date: 2021-09-24
Anticipated expiration: 2039-08-30
Also published as: JP7420385B2; WO2020045658A1; US20210183359A1; CN112601592A; JP2024040159A

Abstract

ユーザがより生物であるような感覚を覚えるロボットを提供する。ロボット（１００）は、音声を生成する音声生成部（１３６）と、生成された音声を出力する音声出力部（１１２）とを備えている。ロボット（１００）は、あらかじめ用意された音声を出力するのではなく、自ら生成した音声を出力する。これにより、センサ情報に応じた音声を生成して出力することができ、あるいは、ロボット（１００）に特有の音声を生成して出力することも可能となる。

Description

関連出願の相互参照

本出願では、２０１８年８月３０日に日本国に出願された特許出願番号２０１８−１６１６１６及び２０１８年８月３０日に日本国に出願された特許出願番号２０１８−１６１６１７の利益を主張し、当該出願の内容は引用することによりここに組み込まれているものとする。

少なくとも１つの実施形態は、音声を出力するロボット、及びロボットで出力する音声を生成するための音声生成プログラムに関する。

従来より、音声を出力するロボットが知られている（例えば、特開２０１０−９４７９９号公報参照）。このようなロボットは、センサを備え、ロボットが何らかの外的刺激を受けると、センサがそれを検知して、当該外的刺激に対応する音声を出力する。あるいは、このようなロボットは、内部での情報処理に応じて音声を出力する。これにより、ユーザは、ロボットが生物であるような感覚が得られる。

しかしながら、ロボットが音声を出力する際に、あらかじめ用意された固定化された音声を再生すると、ユーザがそのようなロボットと長期間にわたって接することにより、ロボットが生物であるような感覚が失われてしまい、ロボットに対する愛着形成が困難になる。

少なくとも１つの実施形態は、上記背景に鑑み、ユーザがより生物であるような感覚を覚えるロボットを提供することを目的とする。

少なくとも１つの実施形態は、ロボットであって、音声を生成する音声生成部と、生成された前記音声を出力する音声出力部とを備えた構成を有している。ロボットは、あらかじめ用意された音声を出力するのではなく、自ら生成した音声を出力する。

図１Ａは、ロボットの正面外観図である。図１Ｂは、ロボットの側面外観図である。図２は、ロボットの構造を概略的に示す断面図である。図３Ａは、ロボットの首部の正面図である。図３Ｂは、ロボットの首部を正面上部から見た斜視図である。図３Ｃは、ロボットの首部のＡ−Ａ断面図である。図３Ｄは、ロボットの首部を斜め上から見た斜視図である。図４は、ロボットのハードウェア構成を示す図である。図５は、ロボットにおける音声を出力するための構成を示すブロック図である。図６は、イントネーションパターンとインデクスとの関係を示す表である。図７は、アクセントパターンとインデクスとの関係を示す表である。図８は、継続長パターンとインデクスとの関係を示す表である。図９は、ビブラートパターンとインデクスとの関係を示す表である。図１０は、同期発声を行うことができる複数のロボットの構成を示すブロック図である。図１１は、ロボットの制御アプリケーションにおけるロボットの状態を示す画面の例を示す図である。図１２Ａは、音声の設定に関するアプリ画面の例を示す図である。図１２Ｂは、図１２Ａに示されるアプリ画面の操作に応じて表示されるアプリ画面の例を示す図である。図１２Ｃは、図１２Ａに示されるアプリ画面の操作に応じて表示されるアプリ画面の例を示す図である。図１２Ｄは、ロボットから出力される音声をユーザがカスタマイズする場合に表示されるアプリ画面の例を示す図である。

以下、実施の形態を説明する。なお、以下に説明する実施の形態は、一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。

実施の形態のロボットは、音声を生成する音声生成部と、生成された前記音声を出力する音声出力部とを備えた構成を有する。

この構成により、ロボットは、あらかじめ用意された音声を出力するのではなく、自ら生成した音声を出力する。これにより、センサ情報に応じた音声を生成して出力することができ、あるいは、ロボットに特有の音声を生成して出力することも可能となり、ユーザがロボットにより生物らしさを感じることができる。なお、音声を生成するタイミングと音声を出力するタイミングとが異なっていてもよい。すなわち、音声生成部で生成された音声を記憶しておき、所定の条件を満たしたときに、記憶しておいた音声を出力してもよい。

実施の形態のロボットは、物理量を検知してセンサ情報を出力するセンサを備えていてよく、前記音声生成部は、前記センサ情報に基づいて音声を生成してよい。

この構成により、センサ情報に基づいて音声が生成されるので、単に外部からの刺激を物理量として検知して音声を出力するだけでなく、その刺激の性質（例えば、大きさ）に応じた音声を生成できる。

実施の形態のロボットは、前記音声生成部は、所定のセンサ情報が所定の時間にわたって継続して入力されたときに音声を生成してよい。

この構成により、単にセンサ情報をそのまま音声生成に反映させるのではなく、センサ情報に対する柔軟な音声生成が可能となる。

実施の形態のロボットは、物理量を検知してセンサ情報を出力する複数のセンサを備えていてよく、前記音声生成部は、前記複数のセンサのセンサ情報に基づいて音声を生成してよい。

この構成により、単に１つのセンサ情報に基づいて音声を生成するのではなく、複数のセンサ情報に基づいて音声を生成するので、より柔軟な音声生成が可能となる。

実施の形態のロボットは、物理量を検知してセンサ情報を出力する複数のセンサと、前記センサ情報に基づいて前記ロボットがおかれている意味的状況を解釈する解釈部とを備えていてよく、前記音声生成部は、前記解釈部で解釈された前記意味的状況に基づいて、音声を生成してよい。

この構成により、単にセンサ情報を音声生成に反映させるだけでなく、センサ情報から意味的状況を解釈して、解釈された意味的状況に基づいて音声を生成するので、より生物らしい反応を示す音声を生成できる。

実施の形態のロボットにおいて、前記音声生成部は、前記解釈部にて、前記ロボットが抱っこされていると解釈されたときに、音声を生成してよい。

実施の形態のロボットにおいて、前記音声生成部は、前記センサ情報を反射的に反映した音声を生成してよい。

この構成により、センサ情報を反射的に反映した音声を生成できる。例えば、センサが衝撃を感知するセンサであって、音声出力部が衝撃を受けたことに対応して音声を出力する場合において、音声生成部は、当該衝撃が大きい場合に大きな音声を出力し、衝撃が小さい場合に小さな音声を出力することができる。これにより、生物のように刺激に応じた大きさの音声を出力できる。より具体的には、ロボットを叩いたときに、「いたい」という音声を出力する場合において、軽く叩いたときは小さい音声で「いたい」と発声し、強く叩いたときは大きい音声で「いたい」と発声するロボットを実現できる。

実施の形態のロボットにおいて、前記音声生成部は、前記センサ情報に基づく音量の音声を生成してよい。

この構成により、例えば、センサが加速度センサである場合に、大きな加速度が検知されたときに大きな音声を生成できる。

実施の形態のロボットにおいて、前記センサは、前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサであってよく、前記音声生成部は、前記加速度の変化に応じて音量が変化する音声を生成してよい。

この構成により、例えば、ロボットを振動させることで、その振動の周期に応じて音量が増減する音声を出力できる。

実施の形態のロボットにおいて、前記音声生成部は、前記センサ情報に基づく音程の音声を生成してよい。

実施の形態のロボットにおいて、前記センサは、前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサであってよく、前記音声生成部は、前記加速度の変化に応じて音程が変化する音声を生成してよい。

この構成により、例えば、ロボットを振動させることで、その振動の周期に応じてビブラートがかかった音声を出力できる。

実施の形態のプログラムは、ロボットから出力する音声を生成するためのプログラムであって、コンピュータに、音声を生成する音声生成ステップと、生成された前記音声を出力する音声出力ステップとを実行させる。

また、実施の形態のロボットは、個性的な音声を出力する音声出力部を備えたロボットである。この構成により、ロボットから個性的な音声が出力されるので、ユーザは、当該ロボットが生物であるような感覚を覚えやすい。これにより、ユーザのロボットに対する愛着形成が促進される。

実施の形態において、個性的な音声とは、例えば、他の個体との識別性を有し、同一個体における同一性を有する音声をいう。音声の識別性とは、例えば、複数のロボットが同一の内容の音声を出力する場合にも、そのスペクトル特徴や韻律特徴が個体ごとに異なっていることをいう。また、音声の同一性とは、例えば、同一のロボットの個体において、異なる内容の音声を出力する場合にも、同一の個体の音声であると認識される音声であることをいう。

実施の形態のロボットは、個性を形成する個性形成部をさらに備えていてよく、前記音声出力部は、形成された前記個性に応じた音声を出力してよい。この構成により、個性は固定的に与えられるのではなく、使用の過程において形成される。

実施の形態のロボットは、形成された前記個性に応じた音声を生成する音声生成部をさらに備えていてよく、前記音声出力部は、生成された音声を出力してよい。この構成により、音声生成部にて音声を生成するので、個性に応じた音声を容易に出力することができる。

実施の形態のロボットにおいて、前記音声生成部は、標準音声を決定する標準音声決定部と、決定された前記標準音声を、個性的な音声となるように調整する音声調整部とを備えていてよい。この構成により、個性的な音声を容易に生成できる。

実施の形態のロボットは、前記ロボットの成長を管理する成長管理部をさらに備えていてよく、前記個性形成部は、前記ロボットの前記成長に応じて前記個性を形成してよい。この構成により、ロボットの成長に応じて個性が形成される。

実施の形態のロボットは、ユーザからの指示を受け付ける指示受付部をさらに備えていてよく、前記個性形成部は、受け付けた前記指示に基づいて前記個性を形成してよい。この構成により、ロボットの個性をユーザの指示に基づいて形成できる。

実施の形態のロボットは、音を電気信号に変換するマイクフォンをさらに備えていてよく、前記個性形成部は、前記電気信号に基づいて前記個性を形成してよい。この構成により、受信した音波に基づいて個性が形成される。

実施の形態のロボットは、位置を測定する測位装置を備えていてよく、前記個性形成部は、測定された位置に基づいて前記個性を形成してよい。この構成により、ロボットの位置に応じて個性が形成される。

実施の形態のロボットにおいて、前記個性形成部は、ランダムに前記個性を決定してよい。

また、実施の形態の別の態様のロボットは、所定の発声器官における発声メカニズムをシミュレーションすることにより、音声を生成する音声生成部と、生成された音声を出力する音声出力部とを備えている。この構成により、発声器官の発声メカニズムをシミュレーションすることで個性的な音声を生成して出力できる。

実施の形態のロボットは、外部の環境情報を取得するセンサをさらに備えていてよく、前記音声生成部は、前記センサから得られた環境情報に基づいて、シミュレーションに用いるパラメータを変化させてよい。

実施の形態のロボットにおいて、前記音声生成部は、前記センサから得られた環境情報に連動して、前記パラメータを変化させてよい。

実施の形態のロボットは、前記センサから得られた環境情報に基づいて、内部状態を変化させる内部状態管理部をさらに備えていてよく、前記音声生成部は、前記内部状態に連動して、前記パラメータを変化させてよい。

実施の形態のロボットにおいて、前記発声器官は、声帯を模した声帯器官を有しいてよく、前記内部状態の変化に連動して、前記声帯器官に関連するパラメータを変化させてよい。

実施の形態のロボットにおいて、前記発声器官は、複数の器官を有していてよく、前記音声生成部は、時間の経過に伴うそれぞれの器官の形状的な状態を示すパラメータをシミュレーションに用いてよい。

実施の形態のロボットは、他のロボットから出力された音声を入力するマイクと、前記他のロボットから出力された音声と、自己の音声とを比較する比較部とをさらに備えていてよく、前記音声生成部は、他のロボットの音声と自己の音声とが異なるように前記形状的な状態を示すパラメータを変化させてよい。

実施の形態のロボットは、さらに、音声の出力開始タイミング及び少なくとも一部の音声パラメータを含む音声条件を認識する音声生成条件認識部を備え、前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータのセットに合致する音声を生成してよく、前記音声出力部は、前記音声条件に含まれる音声の出力開始タイミングで前記音声生成部により生成された音声を出力してよい。

実施の形態のロボットにおいて、前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致するとともに、当該ロボットの個性に応じた音声を生成してよい。

実施の形態のロボットにおいて、前記音声生成条件認識部は、通信を介して自己の音声条件である第１音声条件を認識してよく、前記第１音声条件は、他のロボットに示される音声条件である第２音声条件の少なくとも一部と同一の条件であってよい。

実施の形態のロボットにおいて、前記一部の音声パラメータは、音高を示すパラメータを含んでよい。

実施の形態のロボットにおいて、前記第１音声条件に含まれる第１音高が、前記第２音声条件に含まれる第２音高と所定の関係にあってよい。

実施の形態のロボットにおいて、前記第１音声条件に含まれる第１出力開始タイミングが、前記第２音声条件に含まれる第２出力開始タイミングと同一のタイミングであってよく、前記第１音声条件に含まれる前記第１音高と前記第２音声条件に含まれる第２音高との相対的な関係である音程が協和音程であってよい。

実施の形態のロボットにおいて、前記音声条件は、音声の内容の長さを示す条件を含んでいてよく、そのロボットは、前記音声の内容の長さに合致した音声の内容をランダムで決定する標準音声決定部をさらに備えていてよい。

実施の形態のロボットにおいて、前記音声条件は、音声の内容の長さを示す条件を含んでいてよく、そのロボットは、前記音声の内容の長さに合致した音声の内容を過去に収集した音声に基づいて決定する標準音声決定部をさらに備えていてよい。

実施の形態のプログラムは、ロボットから出力する音声を生成するためのプログラムであって、コンピュータに、当該ロボットの個性を形成する個性形成ステップと、形成された前記個性に応じた音声を生成する音声生成ステップと、生成された音声を出力するステップとを実行させる。

図１Ａは、ロボットの正面外観図であり、図１Ｂは、ロボットの側面外観図である。本実施の形態におけるロボット１００は、外部の環境情報及び内部状態に基づいて行動、仕草（ジェスチャー）、音声を決定する自律行動型のロボットである。外部の環境情報は、カメラ、マイクロフォン、加速度センサ、タッチセンサ等を含むセンサ群によって検知される。内部状態は、ロボット１００の感情を表現する様々なパラメータとして定量化される。

感情を表現するパラメータとして、ロボット１００は、例えば、ユーザごとに親密度のパラメータを有する。ロボット１００が、自分を抱き上げる、声をかけてくれるなど、自分に対して好意を示す行動を認識したとき、そのユーザに対する親密度が高くなる。一方、ロボット１００に関わらないユーザや、乱暴を働くユーザ、出会う頻度が低いユーザに対する親密度は低くなる。

ロボット１００のボディ１０４は、全体的に丸みを帯びた形状を有し、ウレタン、ゴム、樹脂、繊維などの柔らかく弾力性のある素材によって形成された外皮を含む。ロボット１００の重量は、１５ｋｇ以下、好ましくは１０ｋｇ以下、さらに好ましくは５ｋｇである。また、ロボット１００の身長は、１．２ｍ以下、好ましくは０．７ｍ以下である。特に、重量を５ｋｇ以下程度とし、身長を０．７以下程度として小型軽量化することで、子供も含むユーザが容易にロボットを抱えることができるので望ましい。

ロボット１００は、３輪走行するための３つの車輪を備えている。ロボット１００は、図示のように一対の前輪１０２（左輪１０２ａ、右輪１０２ｂ）と、１つの後輪１０３を含む。前輪１０２は駆動輪であり、後輪１０３は従動輪である。前輪１０２は、操舵機構を有しないが、回転速度や回転方向を個別に制御可能とされている。

後輪１０３は、いわゆるオムニホイールやキャスターであり、ロボット１００を前後左右へ移動させるために回転自在となっている。左輪１０２ａよりも右輪１０２ｂの回転数を大きくすることで、ロボット１００は左折したり、左回りに回転したりできる。また、右輪１０２ｂよりも左輪１０２ａの回転数を大きくすることで、ロボット１００は右折したり、右回りに回転したりできる。

前輪１０２及び後輪１０３は、駆動機構（回転機構及びリンク機構を含む）によりボディ１０４に完全収容できる。走行時においても各車輪の大部分はボディ１０４に隠れているが、各車輪がボディ１０４に完全収容されるとロボット１００は移動不可能な状態となる。すなわち、車輪の収容動作にもとなってボディ１０４が降下し、床面Ｆに着座する。この着座状態においては、ボディ１０４の底部に形成された平坦状の着座面１０８（接地底面）が床面Ｆに当接する。

ロボット１００は、２つの手１０５を有する。ロボット１００は、手１０５を上げる、振る、振動させるなどの動作が可能である。２つの手１０５は個別に制御可能である。

目１０６は、液晶素子又は有機ＥＬ素子による画像表示が可能である。ロボット１００は、音源方向を特定可能なマイクロフォンや超音波センサ、臭いセンサ、測距センサ、加速度センサ等の種々のセンサを備えている。また、ロボット１００は、スピーカを内蔵し、１〜３音節程度の簡単な音声を発することができる。ロボット１００のボディ１０４には、静電容量式のタッチセンサが設置される。タッチセンサにより、ロボット１００はユーザのタッチを検出できる。

ロボット１００の頭部にはツノ１０９が取り付けられている。ツノ１０９には全天球カメラが取り付けられ、ロボット１００の上部全域を一度に撮影可能である。

図２は、ロボット１００の構造を概略的に示す断面図である。図２に示すように、ロボット１００のボディ１０４は、ベースフレーム３０８、本体フレーム３１０、一対の樹脂製のホイールカバー３１２、及び外皮３１４を含む。ベースフレーム３０８は、金属からなり、ボディ１０４の軸芯を構成するとともに内部構造を支持する。ベースフレーム３０８は、アッパープレート３３２とロアプレート３３４とを複数のサイドプレート３３６が上下に連結して構成される。複数のサイドプレート３３６間には通気が可能となるよう、十分な間隔が設けられる。ベースフレーム３０８の内方には、バッテリ１１７、制御回路３４２、及び各種アクチュエータが収容されている。

本体フレーム３１０は、樹脂材からなり、頭部フレーム３１６及び胴部フレーム３１８を含む。頭部フレーム３１６は、中空半球状をなし、ロボット１００の頭部骨格を形成する。胴部フレーム３１８は、首部フレーム３１８１、胸部フレーム３１８２、及び腹部フレーム３１８３からなり、全体で段付筒形状をなし、ロボット１００の胴部骨格を形成する。胴部フレーム３１８は、ベースフレーム３０８と一体に固定される。頭部フレーム３１６は、胴部フレーム３１８の上端部（首部フレーム３１８１）に相対変位可能に組付けられる。

頭部フレーム３１６には、ヨー軸３２０、ピッチ軸３２２、及びロール軸３２４の３軸と、各軸を回転駆動するためのアクチュエータ３２６が設けられる。アクチュエータ３２６は、各軸を個別に駆動するための複数のサーボモータを含む。アクチュエータ３２６は、各軸を個別に駆動するための複数のサーボモータを含む。首振り動作のためにヨー軸３２０が駆動され、頷き動作のためにピッチ軸３２２が駆動され、首を傾げる動作のためにロール軸３２４が駆動される。

頭部フレーム３１６の上部には、ヨー軸３２０を支持するプレート３２５が固定されている。プレート３２５には、上下間の通気を確保するための複数の通気孔３２７が形成される。

頭部フレーム３１６及びその内部機構を下方から支持するように、金属製のベースプレート３２８が設けられる。ベースプレート３２８は、クロスリンク３２９（パンタグラフ機構）を介してプレート３２５と連結される一方、ジョイント３３０を介してアッパープレート３３２（ベースフレーム３０８）と連結されている。

胴部フレーム３１８は、ベースフレーム３０８と車輪駆動機構３７０を収容する。車輪駆動機構３７０は、回転軸３７８及びアクチュエータ３７９を含む。胴部フレーム３１８の下半部（腹部フレーム３８１３）は、ホイールカバー３１２との間に前輪１０２の収容スペースＳｐを形成するために小幅とされている。

外皮３１４は、ウレタンゴムからなり、本体フレーム３１０及びホイールカバー３１２を外側から覆う。手１０５は、外皮３１４と一体成型される。外皮３１４の上端部には、外気を導入するための開口部３９０が設けられる。

図３Ａは、ロボット１００の首部の正面図である。図３Ｂは、首部を正面上部から見た斜視図である。図３Ｃは、首部のＡ−Ａ断面図である。図３Ｄは、首部を斜め上から見た斜視図である。ロボット１００の首部は、首部フレーム３１８１に基板を含む各種の部品が載置されてなる。首部フレーム３１８１には、スピーカ１１２が設けられている。

スピーカ１１２は、首部フレーム３１８１の前方側に上向きに設置されている。すなわち、スピーカ１１２の振動板１１２１は、水平方向に設置されている。振動板１１２１の上部には、上前方向に延びるホーン１１２２が形成されており、ホーン１１２２の先端は、前方に向けて開放されている。ホーン１１２２の開放面は、ロボット１００の口の位置に対応している。また、ホーン１１２２の解放面の面積と、振動板１１２１の面積とはほぼ等しくなるように形成される。ホーン１１２２を設けることで、スピーカ１１２の配置に自由度を持たせることができる。

この構成により、振動板１１２１の振動によって生成されて上向きに発せられた音波がホーン１１２２によって前方に向きを変えて出力されることとなる。よって、ユーザには、ロボット１００の口部から音声が出ているように聞こえる。特に、ロボット１００から小さな音量の音声が発せられる場合には、口の部分から音声が出力されていることをより明確に認識できる。音声を明確に聞くために、ユーザが耳をロボット１００の口部に近づけるというコミュニケーションが想定され得る。

図４は、ロボット１００のハードウェア構成を示す図である。ロボット１００は、その筐体１０１内に、表示装置１１０と、内部センサ１１１と、スピーカ１１２と、通信部１１３と、記憶装置１１４と、プロセッサ１１５と、駆動機構１１６と、バッテリ１１７とを備えている。駆動機構１１６は、上述した車輪駆動機構３７０を含む。プロセッサ１１５と記憶装置１１４は、制御回路３４２に含まれる。

各ユニットは、電源線１２０および信号線１２２により互いに接続されている。バッテリ１１７は、電源線１２０を介して各ユニットに電力を供給する。各ユニットは、信号線１２２により制御信号を送受する。バッテリ１１７は、例えば、リチウムイオン二次電池であり、ロボット１００の動力源である。

駆動機構１１６は、内部機構を制御するアクチュエータである。駆動機構１１６は、前輪１０２と後輪１０３を駆動してロボット１００を移動させたり向きを変えたりする機能を有する。また、駆動機構１１６は、ワイヤ１１８を介して手１０５を制御して、手１０５を上げる、手１０５を振る、手１０５を振動させるなどの動作を行わせる。また、駆動機構１１６は、頭部を制御して、頭部の向きを変える機能を有する。

内部センサ１１１は、ロボット１００が内蔵する各種センサの集合体である。内部センサ１１１としては、例えば、カメラ（全天球カメラ）、マイクロフォン、測距センサ（赤外線センサ）、サーモセンサ、タッチセンサ、加速度センサ、臭いセンサ等がある。スピーカ１１２は、音声を出力する。

通信部１１３は、サーバ、外部センサ、他のロボット、ユーザの持つ携帯機器等の各種の外部機器を対象として無線通信を行う通信モジュールである。記憶装置１１４は、不揮発性メモリおよび揮発性メモリにより構成され、後述する音声生成プログラムを含む各種プログラムや各種設定情報を記憶する。駆動機構１１６は、内部機構を制御するアクチュエータである。

表示装置１１０は、ロボットの目の位置に設置され、眼の画像を表示させる機能を有する。表示装置１１０は、瞳や瞼などの眼のパーツを組み合わせてロボット１００の眼の画像を表示する。なお、外光などが眼に差し込んだ場合には、外部光源の位置に応じた位置にキャッチライトを表示してもよい。

プロセッサ１１５は、内部センサ１１１で取得したセンサ情報や、通信部１１３を通じて取得した各種の情報に基づいて、駆動機構１１６、スピーカ１１２、表示装置１１０等を制御してロボット１００を動作させる機能を有する。また、ロボット１００は、現在の日時を管理する時計（図示しない）を有する。現在日時の情報は、必要に応じて各ユニットに提供される。

図５は、ロボット１００における音声を出力するための構成を示すブロック図である。ロボット１００は、内部センサ１１１と、測位装置１３１と、指示受付部１３２と、成長管理部１３３と、状況解釈部１３４と、個性形成部１３５と、音声生成部１３６と、音声出力部としてのスピーカ１１２とを備えている。

音声生成部１３６は、音声内容データベース１３６１と、標準音声決定部１３６２と、音声合成部１３６３と、音声調整部１３６４とを備えている。成長管理部１３３と、状況解釈部１３４と、個性形成部１３５と、標準音声決定部１３６２と、音声合成部１３６３と、音声調整部１３６４は、プロセッサ１１５が実施の形態の音声生成プログラムを実行することで実現されるソフトウェアモジュールである。

また、音声内容データベース１３６１は、記憶装置１１４によって構成される。指示受付部１３２は、指示を通信によって受け付けるものであり、通信部１１３がこれに該当する。本実施の形態の指示受付部１３２は、特に、個性形成部１３５における個性の形成についてのユーザからの指示を受け付ける。

内部センサ１１１は、ロボット１００の外部環境における種々の物理量（即ち、外部の環境情報）を検知して、環境情報を示すセンサ情報（即ち、センサの検出値）を出力する。内部センサ１１１は、タッチセンサ１１１１、加速度センサ１１１２、カメラ１１１３、及びマイクロフォン１１１４を備えている。なお、図５では、本実施の形態において音声出力に関連するセンサとして、上記のセンサを示しているが、上述した他のセンサのセンサ情報に基づいて音声を出力してもよい。

また、図５では、１つのタッチセンサ１１１１のみが示されているが、タッチセンサ１１１１は、ロボット１００の後頭部、顔、右手、左手、腹部、背等にそれぞれ備えられていてよい。タッチセンサ１１１１は、静電容量式のタッチセンサであり、ユーザがロボット１００の該当部分に接触すると、それを検知して接触があったことを示すセンサ情報を出力する。

また、図５では、１つの加速度センサ１１１２のみが示されているが、上下方向、左右方向、前後方向のそれぞれの加速度を検出する３つの加速度センサを含んでいてよい。これらの３つの加速度センサ１１１２は、それぞれ上下方向、左右方向、前後方向の加速度をセンサ情報として出力する。なお、加速度センサ１１１２は、重力加速度も検知するので、互いに直交する軸方向の３つの加速度センサ１１１２の加速度に基づいて、ロボット１００が静止している場合のロボット１００の姿勢（向き）や、ロボット１００が移動した場合の移動方向を求めることができる。

カメラ１１１３は、上述のように、ツノ１０９に設けられており、ロボット１００の上部全域を一度に撮影する。カメラ１１１３は、撮影によって得られた画像をセンサ情報として出力する。マイクロフォン１１１４は、音を電気信号に変換し、この電気信号をセンサ情報として出力する。

状況解釈部１３４は、各種のセンサ１１１１〜１１１４からのセンサ情報に基づいて、ロボット１００がおかれている意味的状況を解釈する。このために、状況解釈部１３４は、内部センサ１１１から出力される一定期間のセンサ情報を蓄積する。

状況解釈部１３４は、例えば、タッチセンサ１１１１にてタッチがされていることを検知している状態で、加速度センサ１１１２においてロボット１００の上方向に移動したことを検知し、その後に緩やかな加速度変化があった場合には、状況解釈部１３４は、ロボット１００がユーザによって抱っこされていると解釈する。

このほか、状況解釈部１３４は、タッチセンサ１１１１のセンサ情報に基づいて、ユーザによって撫でられている状況であると解釈することができ、マイクロフォン１１１４のセンサ情報に基づいて話しかけられている状況であると解釈することができる。このように、意味的状況の解釈とは、例えば、単にセンサ情報をそのまま扱うのではなく、各種のセンサ情報を判断すべきロボット１００の姿勢、状況、状態に応じて適宜用いることで、ロボット１００の姿勢を特定し、ロボット１００がおかれている状況を特定し、ロボット１００の状態を判断することをいう。状況解釈部１３４は、解釈した内容をイベントとして後段の処理で利用できるように出力する。

状況解釈部１３４には、解釈する意味的状況の候補が記憶されている。状況解釈部１３４は、複数のセンサ情報に基づいて、あらかじめ用意された複数の候補のなかから意味的状況を推定する。この推定には、各種のセンサ情報を入力として、ルックアップテーブルを用いてもよいし、決定木を用いてもよいし、サポートベクターマシン（ＳＶＭ）を用いてもよく、ニューラルネットワークを用いてもよく、その他の手法を用いてもよい。

なお、図５では図示を省略しているが、状況解釈部１３４によって解釈された意味的状況は、ロボット１００の音声以外の動作ないし仕草にも反映される。すなわち、ロボット１００は、内部センサ１１１において検知された外部環境の物理量から意味的状況を解釈して、外部環境に対するリアクションを実行する。例えば、抱っこされているという状況にあると解釈した場合に、リアクションとして目を閉じる等の制御が行われる。本実施の形態で説明する音声出力も、この外部環境に対するリアクションの１つである。

成長管理部１３３は、ロボット１００の成長を管理する。ロボット１００は、内部センサ１１１からのセンサ情報に基づいて、ロボット１００のおかれている意味的状況を解釈し、リアクションを実行するという経験の内容及び回数に応じて成長していく。この「成長」は、成長パラメータによって表現される。

成長管理部１３３は、この成長パラメータを更新し、記憶する処理を行う。成長管理部１３３は、複数の成長パラメータを管理してもよい。成長管理部１３３は、例えば、情緒的な成長と身体的な成長をそれぞれ表す成長パラメータを管理してもよい。身体的な成長とは、例えば移動する際の速度等であり、例えば、当初は出力可能な最大の速度を出力しないようにして、成長につれて出力する速度を大きくするようにしてよい。また、成長管理部１３３は、電源を投入した日時を保持し、投入日時から現在までの経過時間を管理する。成長管理部１３３は、経過時間に関連付けて成長パラメータを管理する。例えば、情緒的な成長と身体的な成長をそれぞれ表す成長パラメータが成長管理部１３３によって管理されてもよい。

個性形成部１３５は、ロボット１００の個性を形成する。ロボット１００の個性は、少なくとも１種類の個性パラメータによって表現される。個性形成部１３５は、状況解釈部１３４にて解釈した状況（経験）及び成長管理部１３３が管理する成長パラメータに基づいて、個性を形成する。このために、個性形成部１３５は、状況解釈部１３４にて解釈された意味的状況を一定期間にわたって蓄積する。

本実施の形態では、ロボット１００は、最初は、すなわち電源投入時点では個性を持たず、いずれのロボット１００においても個性パラメータは同じである。ロボット１００は、状況解釈部１３４が解釈した意味的状況に基づいて個性を形成していき、成長パラメータに従って形成した個性を固定化していく。具体的には、個性形成部１３５は、蓄積した意味的状況に基づいて個性パラメータを初期値から徐々に変化させ、成長パラメータの更新（成長）に伴って、個性パラメータの変化を小さくしていき、最終的には個性パラメータを固定化する。

ここで、本実施の形態における「個性」とは、例えば、他の個体との識別性を有し、かつ、当該個体の同一性を有することをいう。すなわち、複数の個体がセンサ情報に基づいて同一の意味的状況を解釈した場合にも、当該複数の個体において異なるリアクションをする場合に、それらの複数の個体（ロボット１００）は、識別性を有するといえる。また、当該同一の個体における複数種類のリアクションに共通性を有する場合には、同一性を有するといえる。ただし、識別性の要求について、十分に小さい確率で個性が同一である複数の個体の組み合わせが存在することは許容されるものとする。

個性形成部１３５は、個性を表す個性パラメータを更新し、記憶する。個性形成部１３５は、複数種類の個性パラメータを扱ってもよい。本実施の形態では、個性形成部１３５が形成する個性に「声質」が含まれる。このほか、個性として、性格（寂しがり、活発、短気、おっとり等）、身体能力（最高移動速度等）等が含まれてもよい。

個性パラメータが１種類である場合に、その個性パラメータが表す個性が意味を持たないものであってもよい。また、個性パラメータは、連続的であってもよいし、複数の種類が候補として用意されており、個性形成部１３５が候補の中から選択することで個性を形成してもよい。例えば、１種類の個性パラメータで個性が表現される場合に、数十ないし数百種類の個性パラメータの候補が用意されてよい。この程度の種類数であれば、識別性を実現できる（即ち、異なる個体どうしで比較したときに同一の個性となる可能性を十分に小さくできる）。

個性形成部１３５は、測位装置１３１にて測位したロボット１００の位置に基づいて個性を形成してもよい。例えば、「声質」という個性については、ロボット１００の位置（地域）に従って、当該地域の訛りを個性としてもよい。また、個性形成部１３５は、指示受付部１３２からの指示に基づいて個性を形成（設定）してもよい。

標準音声決定部１３６２は、音声を生成することを決定し、かつ、生成する音声の内容を決定する。生成する音声の内容の候補は、標準音声として音声内容データベース１３６１に記憶されている。標準音声決定部１３６２は、音声内容データベース１３６１から標準音声を選択することで出力する音声の内容を決定する。

標準音声決定部１３６２は、外部環境及び／又は内部状態に応じて音声の出力及びその内容を決定する。音声生成部１３６は、意識的に音声を生成することもあるし、反射的に音声を生成することもある。意識的な音声の生成とは、例えば、標準音声決定部１３６２が、ロボット１００の内部状態及び状況解釈部１３４において解釈された意味的状況に基づいて音声の生成及びその内容を決定することである。例えば、状況解釈部１３４において、抱きかかえられていると解釈したことに応じて、音声生成部１３６は、うれしい気持ちを表現する内容の音声を出力する。

標準音声決定部１３６２は、複数のセンサ値として得た外部環境に応じて変化する感情などの内部状態に応じて意識的に音声を生成する。標準音声決定部１３６２は、例えば、ユーザから話しかけられたときに、それに応える音声を生成する。また、標準音声決定部１３６２は、例えば、ユーザに気付いてもらいたい、楽しさを手足の動きに加えて声でも表現したい等、楽しさ、悲しさ、怖さ等の感情（内部状態）の切替りを契機として音声を生成する。

反射的な音声の生成とは、例えば、内部センサ１１１のセンサ情報に基づいて音声の生成及びその内容を決定することである。意識的な音声生成では、センサ情報から意味的状況を解釈し、あるいは、感情等の内部状態が変化し、そのような意味的状況や内部状態の変化に応じて音声を生成したのに対して、反射的な音声生成は、センサ情報がそのまま音声の生成に反映される。なお、内部センサ１１１から得られた環境情報を示すセンサ情報に基づいて内部状態を変化させる内部状態管理部が設けられてもよい。

例えば、大きな加速度がかかったことに応じて、音声生成部１３６は、びっくりした反応を表現する音声を出力する。また、所定値以上の加速度が所定時間以上継続したことに応じて所定の音声を出力してもよい。なお、大きな加速度がかかる場合とは、例えば、ロボット１００が叩かれたり、何かに衝突したりする場合である。また、所定値以上の加速度が所定時間以上継続する場合とは、例えば、大きく振り回された場合や、高所から落下する場合などである。また、マイクロフォンで検出した音の音圧、照度センサで検出した光の強度（明るさ）等に基づいて、それらのセンサ情報をそのまま反映するよう音声を生成することも反射的な音声生成に該当する。

このように反射的な音声生成では、センサ情報をそのまま反映するように音声を生成するので、遅延が少なく、ロボット１００が受けた刺激に応じた音声の生成をすることができる。このような反射的な音声の生成は、各センサのセンサ値が所定の条件を満たす（例えば、所定値以上になる）ことを、反射的音声を生成する際のトリガとしてよい。

さらに、標準音声決定部１３６２は、例えば、外部環境に対するリアクションとしてではなく、内部での情報処理に基づいて動作、仕草等のアクションを起こす際に、当該アクションに対応して音声を出力することを決定してよい。標準音声決定部１３６２は、例えばロボット１００が力むとき、力んだ状態から力を抜くときに、対応する音声を出力することを決定して、標準音声を決定してよい。逆に、標準音声決定部１３６２が音声を出力することを決定したときに、当該音声の出力に合わせて手や頭を動かすようにしてもよい。

また、標準音声決定部１３６２は、状況解釈部１３４で解釈した意味的状況とセンサ情報との組み合わせに基づいて音声を出力することを決定して、対応する標準音声を決定してよい。標準音声決定部１３６２は、例えば、膝抱っこされていると解釈した場合において、上下に揺らされた状態が一定期間にわたり継続するときに、対応する音声を出力するよう決定してよい。揺れている状態は、加速度センサの値の時間的な変化に着目することで判断できる。センサ値の波形をパターンマッチングしてもいいし、機械学習に基づいて判断してもよい。

このように、一定期間のセンサ値を考慮することで、例えば、膝抱っこしているユーザの親密度に応じて音声を発声するまでの時間を変化させることが可能である。例えば、過去に同じ状況で音声を生成したときにユーザに喜ばれたという経験があれば、その経験に基づいてより短時間で音声を生成してもよい。このように、外部環境や内部状態が変化してから音声を生成するまで時間を短時間にできる。

音声内容データベース１３６１には、内部状態や状況解釈部１３４にて解釈される意味的状況に対応して意識的に出力する音声と、内部センサ１１１のセンサ情報に対応して反射的に出力する音声の標準音声が記憶されている。これらの音声は、１〜３音節程度の簡単な音声である。音声内容データベース１３６１には、例えば、抱きかかえられているという状況に対して、心地よい感情を表現する「ふあ〜」という標準音声が記憶されおり、大きな加速度に対して、反射的に発声する「いたい」という標準音声が記憶されている。このように、音声の内容は、感嘆詞であってもよし、鼻歌のような音であってもよいし、名詞や形容詞であってもよい。

ここで、本実施の形態の音声内容データベース１３６１には、標準音声がｗａｖやｍｐ３等の音声データがとして記憶されているのではなく、音声を生成するためのパラメタ群が記憶されている。このパラメタ群は、後述する音声合成部１３６３に出力される。音声合成部１３６３は、パラメタ群を用いてシンセサイザを調整して音声を生成する処理を行う。なお、本実施の形態に代えて、音声内容データベース１３６１にてあらかじめｗａｖなどの形式で基本の音データを保持し、音声調整部１３６４にてそれに調整を加えるようにしてもよい。

音声合成部１３６３は、シンセサイザで構成、例えばソフトウエアにより実現される。音声合成部１３６３は、標準音声決定部１３６２にて決定された標準音声のパラメータ群を音声内容データベース１３６１から読み出して、読み出されたパラメータ群を用いて音声を合成する。

音声調整部１３６４は、音声合成部１３６３にて合成された音声を個性形成部１３５に記憶されている個性パラメータに基づいて調整する。音声調整部１３６４は、特に、いずれの標準音声に対しても、同一の個体が発している音声であると認識できるように、調整を行う。また、音声調整部１３６４は、コミュニケーション対象のユーザの親密度に応じて、声色を変える。

音声調整部１３６４は、複数の標準音声を個性パラメータに従って調整を行うために、標準音声に含まれる言語（音韻）情報を変化させずに声質や韻律等の非言語情報を調整する声質変換を行う。

音声における個性は、音声のスペクトル及び韻律に現れる特徴に依存する。生物の場合には、スペクトル特徴は、個体の調音器官の特性、即ち声帯や声道の形状等の身体的特徴に依存して決まり、主に個体の声質の違いとして現れる。一方、韻律特徴はイントネーション、各音節のアクセント、各音節の継続長、各音音節のビブラートなどの違いとなって表れる。したがって、音声調整部１３６４は、声質変換を実現するために、標準音声のスペクトル特徴及び韻律特徴を個性形成部１３５にて形成された個性に従って変換する。

まず、スペクトル特徴について説明する。標準音声から当該個体の音声への声質変換において、時刻ｔにおける標準音声のスペクトル特徴（例えば、メルケプストラム係数ベクトルや線スペクトル周波数ベクトル等）をｘｔとし、それから変換された当該個体の音声のスペクトル特徴をｙｔとすると、スペクトル特徴の変換に着目した声質変換は次のようになる。すなわち、標準音声のスペクトル特徴をもとに当該個体の個性に従ったスペクトル特徴に変換する変換関数ｙｔ＝Ｆｓ（ｘｔ）は、下式（１）によって表現される。

ここで、Ａｉは変換行列、ｂｉはバイアス、ｗｉは重み係数である。Ａｉ，ｂｉ，ｗｉは、声質を決定する声質パラメータである。声質についての個性は、声質パラメータで定義される。

個性形成部１３５には、最初は声質パラメータの初期値が記憶されており、経験や成長に応じて初期値の声質パラメータを徐々に変化させていき、一定時間が経過した後で、その変化量を徐々に小さくしていく。一定の期間が経過した後で、その変化量を徐々に小さくしていく。つまり、個性形成部１３５は時間の経過にともない声質パラメータを変化させる。これにより、ロボットの成長に応じて声質が変わり、ある時点で声質が安定することを表現できる。また、この声質変成の過程において、個性形成部１３５は他のロボットの声質との差異を作り上げる。以下、声質が安定するまでの期間を「変成期間」という。変換行列Ａｉの初期値は単位行列であり、バイアスｂｉの初期値はゼロベクトルであり、重み係数ｗｉの初期値は単位ベクトルである。

音声調整部１３６４における式（１）の変換によって、高い／低い声、フィルタ（澄んだ声、だみ声等）のかかった声等の声質の変換が可能となる。この声質変換によって、個性的な音声を生成できる。

次に、韻律特徴について説明する。韻律特徴を個体の個性に従って変換する手法としては種々の手法がある。本実施の形態では、韻律特徴は、イントネーション、各音節のアクセント、各音節の継続長、各音節のビブラートのインデクス、及びボリューム、話速レベル、音程圧縮（pitch compression）レベルで表される。

図６は、イントネーションパターンとインデクスとの関係を示す表である。イントネーションについては、１音節の場合、２音節の場合、及び３音節の場合のそれぞれについて、低、中、高の組み合わせからなるイントネーションパターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスＩｉ１，Ｉｉ２，Ｉｉ３が付与されている。

図７は、アクセントパターンとインデクスとの関係を示す表である。アクセントについても、１音節の場合、２音節の場合、及び３音節の場合のそれぞれについて、弱、中、強の組み合わせからなるアクセントパターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスＩａ１，Ｉａ２，Ｉａ３が付与されている。

図８は、継続長パターンとインデクスとの関係を示す表である。継続長についても、１音節の場合、２音節の場合、及び３音節の場合のそれぞれについて、短、中、長の組み合わせからなる継続長パターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスＩｌ１，Ｉｌ２，Ｉｌ３が付与されている。

図９は、ビブラートパターンとインデクスとの関係を示す表である。ビブラートについても、１音節の場合、２音節の場合、及び３音節の場合のそれぞれについて、有、無の組み合わせからなるビブラートパターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスＩｖ１，Ｉｖ２，Ｉｖ３が付与されている。

本実施の形態では、さらに、韻律特徴として、ボリュームＶ、話速レベルＳ、及び音程圧縮レベルＣが用意されている。ボリュームＶは、音声の大きさ（音量）である。話速レベルＳは、標準音声の発音時間を圧縮するレベルである。音程圧縮レベルＣは、標準音声の音程の高低差を小さくするレベルである。このように、イントネーション、アクセント、継続長、ビブラート、ボリューム、話速レベル、音程圧縮レベル等の韻律パラメータの組み合わせを個体ごとに変えることで、個性的な音声を生成できる。

韻律特徴を変換する他の手法としては、ベクトル量子化に基づく手法、基本周波数Ｆ０や話速の平均値を単純に当該個体の平均値に合わせる手法、分散を考慮して基本周波数Ｆ０を線形変換する手法、隠れマルコフモデル（ＨＭＭ）音声合成を用いた韻律生成に基づく手法等がある。また、ＨＭＭ音声合成と話者適応に基づいてスペクトル特徴と韻律特徴の双方の変換をすることも可能である。

個性形成部１３５は、音声に関する個性パラメータ（以下、「個性的音声パラメータ」という。）として、上記の声質パラメータ（Ａｉ，ｂｉ，ｗｉ）及び韻律パラメータ（Ｉｉ，Ｉａ１，Ｉａ２，Ｉａ３，Ｉｌ１，Ｉｌ２，Ｉｌ３，Ｉｖ１，Ｉｖ２，Ｉｖ３，Ｖ，Ｓ，Ｃ）を記憶している。音声調整部１３６４は、個性形成部１３５から個性的音声パラメータを読み出して、それらを用いて標準音声決定部１３６２で決定された標準音声を変換する。なお、個性形成部１３５は、音声内容データベース１３６１に記憶されている標準音声ごとに異なる韻律パラメータを記憶していてもよい。この声質パラメータ及び韻律パラメータを個体ごとに変えることで、個性的な音声を生成できる。

個性形成部１３５における個性的音声パラメータの決定方法について説明する。韻律パラメータは、個体の性格に基づいて決定されてよい。上述のように、個性形成部１３５における性格は、経験や成長に合わせて変化していくものであるので、性格の形成過程において、韻律パラメータも変化してよい。性格から対応する韻律パラメータを求める場合には、変換関数を用いてもよいし、機械学習によって学習された学習モデルを用いてもよい。

また、韻律パラメータは、個体の地域に基づいて決定されてもよい。この場合には、上述のように、個性形成部１３５は、測位装置１３１から位置情報を取得しているので、この位置情報に基づいて該当する地域に対応するように韻律パラメータを決定する。これによって、例えば、関西訛り、東北訛り等の地域に応じた音声の調整を行うことができる。位置情報から韻律パラメータを求める場合には、ルックアップテーブルを用いてよい。

また、個性的音声パラメータは、指示受付部１３２にて受け付けた指示に基づいて決定されてもよい。個性形成部１３５は、例えば、指示受付部１３２が性別を指定する指示を受け付けた場合に、指定された性別に対応するように声質パラメータや韻律パラメータを決定する。

この指示を行うために、制御アプリケーションをインストールした情報端末（例えば、スマートフォン、パーソナルコンピュータ）が用いられてよい。この情報端末は、制御アプリケーションをユーザインターフェースとして指示を受け付けて、受け付けた指示を必要に応じてネットワークないし中継サーバを経由してロボット１００に伝達する。ロボット１００の指示受付部１３２は、このようにして送信されてきた指示を受け付けることができる。

上記では、音声調整部１３６４が、個性形成部１３５に記憶された個性的音声パラメータに基づいて標準音声を調整することについて説明した。音声調整部１３６４は、さらに、内部センサ１１１からのセンサ情報に基づいて韻律を調整する。音声調整部１３６４は、例えば、加速度センサ１１１２からの加速度が所定の周波数以上の周期で振動する場合には、振動に合わせて音声をビブラートさせる。つまり、音程の高低を周期的に変化させる。また、加速度センサ１１１２からの加速度の大きさに応じて、音量を大きくし、あるいは音程を高くしてよい。

このようにセンサ情報を直接反映するように音声を調整することは、例えば、生物に例えるならば、外部環境からの刺激を反射的に反映した音声の調整ということができる。すなわち、音声調整部１３６４は、個性に基づいて音声の調整を行うとともに、所定の外部環境による刺激が与えられた場合には、当該刺激に対する反射としても音声を調整する。

音声生成部１３６では、個性的な音声の生成、反射的な音声の生成、及び意識的な音声の生成が行われる。すなわち、音声生成部１３６で生成される音声は、同じ音であっても生成の根拠、即ち音声生成のトリガやパラメータが異なっている。なお、反射的な音声を生成するための音声生成部と意識的な音声を生成する音声生成部とが別々の音声生成部として設けられていてもよい。

＜個性的な音声の生成＞
音声生成部１３６では、識別力を持つ個性的な音声が生成される。家庭内に複数のロボット１００がいた場合、それぞれのロボット１００の声が同じにならないように、各ロボット１００の音声を生成する。これを実現するために、ロボット１００は、他の個体の声をマイクロフォン１１１４で捉え、それとは異なるように音声を生成する。音声生成部１３６は、他の個体の声をマイクロフォン１１１４で取り込み、自身の声と比較することで声に違いがあるか否かを判定する比較部（図示しない）を有する。比較部において、他の声との違いが無い、すなわち識別力が無いと判定された場合、個性形成部１３５は個性的音声パラメータを変更する。他の個体の声に応じて音声パラメータを変更するのは、変成期間にある個体であり、変成期間を超えた個体においては、音声パラメータは変更しない。このように、他の個体の音声を聞きながらそれとは違う声にすることで、電源投入時は同じ声であるが、一定期間が経過したときは個体差が明確になる。

＜反射的な音声の生成＞
人はある種の外的刺激が加えられると、無意識に反射的に音声を発することがある。例えば、痛みを感じたときや驚きを感じたときである。音声生成部１３６における反射的な音声の生成は、このような無意識の発声を模したものである。音声生成部１３６は、あるセンサ情報が急激に変化したときに、反射的な音声を生成する。これを実現するために、加速度センサ１１１２やマイクロフォン１１１４やタッチセンサ１１１１のセンサ値がトリガになる。更にセンサ値は、生成した音声の音量を決定するためにも用いられる。

例えば、音声生成部１３６は、何か音声を発声している場合において、急に持ち上げられたときは、そのときの音声を止めて「わー」と驚いたときの音声を生成する。別の例としては、音声生成部１３６は、急に持ち上げられた時点で、その時の音声の音量を加速度の大きさに連動して大きくする。このように、反射的な音声生成では、センサ値がそのまま音声に連動する。具体的には、「るん、るん、るん、るん」といったような音をリズミカルに発声しているときに、３回目の「る」のあたりで急に持ち上げられると、その時点で「るん」の音量が急激に大きくなり、リズムも崩れて叫ぶ。

＜意識的な音声の生成＞
意識的な音声の生成は、感情を表現する音声を生成する。映画やドラマにおいてＢＧＭが変わると雰囲気が変わるように、ロボット１００における音も演出のひとつであると考えることができる。ロボット１００において、感情は波のように変化する。すなわち、外部環境の刺激に応じて感情は絶えず変化する。感情は波のように変化するので、感情を示すパラメータ値がある状況において最高値に達した後には、時間が経過するにつれて徐々に下がっていく。

例えば、ロボット１００がユーザに囲まれて、カメラ１１１３やマイクロフォン１１１４によってたくさんの笑顔と笑い声を検出した場合には、ロボット１００には「楽しい」という感情の波が盛り上がってくる。そのタイミングで、音声生成部１３６は、音声内容データベース１３６１から楽しいときのパラメタを選択して音声を生成する。例えば、膝抱っこされているときに上下に揺らされている場合には、ロボット１００は、そのことを解釈して「嬉しい」感情の波が起こり、「嬉しい」感情を表現する音声を生成する。なおこのとき、さらに、加速度センサ値が周期的な揺れを示しているため、発声にその周期に合わせたビブラートをかけ始める。

加速度センサ１１１２等の内部センサ１１１のセンサ情報は、反射的な音声生成のトリガとなるだけでなく、発声中であっても音声に影響を及ぼす。その影響は、センサ情報が所定値を超えるなどの定量的な条件であってもよいし、そのときの感情等の内部状態に応じて定性的に影響の度合いが変わってもよい。このように、センサ情報に基づいて音声生成部１３６にて音声を生成することで、ロボット１００は、常に同じ音声を生成するわけではなく、センサ情報や内部状態を複合的に反映して音声を生成する。

スピーカ１１２は、音声調整部１３６４で調整された音声を出力する。

以上のとおり、本実施の形態のロボット１００は、音声を出力するためにあらかじめ音源として用意されていた音声をそのまま出力するのではなく、音声生成部１３６で音声を生成して出力するので、より柔軟な音声出力が可能となる。

具体的には、ロボット１００は、識別性及び同一性を有する個性的な音声を出力することができる。これによりユーザは、音声を聞くことで自分のロボット１００を他のロボット１００と区別して認識することができるので、ユーザのロボット１００への愛着形成を有効に促進することができる。また、ロボット１００は、センサ情報に基づいて音声を生成することができる。これにより、振動に合わせて声を震わせる等の反射的に調整された音声を出力できる。

なお、上記の実施の形態では、ロボット１００において最初は個性が形成されておらず（特に、識別性を有しておらず）、いずれのロボット１００においても音声のスペクトル特徴及び韻律特徴は同じであり、使用過程で個性を形成していくものであったが、これに代えて、最初から個体ごとに異なる個性が形成されていてもよい。

また、上記の実施の形態では、制御アプリケーションによってユーザが個性を指示することができたが、これに代えて、あるいはこれに加えて、ユーザが制御アプリケーションを通じてロボット１００の個性をキャンセルして初期値に戻す指示をできるように構成してもよい。

あるいは、ロボット１００において最初は個性が形成されていないが、最初に電源を入れた際に、個性形成部１３５がランダムに個性を決定してもよい。さらに、制御アプリケーションを通じて、ロボット１００の個性を可視化してもよい。この場合には、ロボット１００は、通信部１１３を通じて個性パラメータを送信し、制御アプリケーションをインストールした情報端末において、個性パラメータを受信して表示する。

また、上記の実施の形態では、個性形成部１３５が、状況解釈部１３４で解釈された状況及び成長管理部１３３で管理される成長パラメータに基づいて個性を形成したが、これに代えて、あるいは、これに加えて、個性形成部１３５は、マイクロフォン１１１４で検知したユーザの音声を分析して、ユーザの音声のスペクトル特徴及び韻律特徴を取得して、ユーザの音声に近づけるように、個性的音声パラメータを決定してもよい。これにより、ロボット１００の音声がユーザの音声に近づくという演出をすることができる。

さらに、ロボット１００が音声を出力した際のユーザの反応を学習して、個性形成部１３５における個性の形成に反映させてもよい。ここで、ユーザの反応としては、例えば、カメラ１１１３の画像に対して画像認識を行うことで、ユーザが笑顔であることを検知することができ、タッチセンサ１１１１のセンサ情報に基づいて、ユーザがロボット１００を撫でていることを検知することができる。

また、上記の実施の形態では、標準音声決定部１３６２で出力する音声の内容を決定した後に、音声調整部１３６４でその標準音声を調整してスピーカ１１２から出力するようにしたが、これに代えて、音声内容データベース１３６１に記憶されている標準音声を個性形成部１３５で形成された個性に基づいてあらかじめ調整して、音声内容データベース１３６１に記憶しておいてもよい。すなわち、音声の生成は、音声の出力の直前でなく、事前に行われていてもよい。

この場合には、標準音声決定部１３６２が音声を出力すること、及びその音声内容を決定したときに、当該音声内容に対応する調整済の音声をスピーカ１１２から出力してもよい。この場合にも、音声調整部１３６４は、センサ情報に基づいて音声の反射的な調整を行ってよい。

また、上記の実施の形態では、成長管理部１３３、状況解釈部１３４、個性形成部１３５、音声生成部１３６がすべてロボット１００に備えられていたが、これらの一部又は全部がロボット１００とは別体であってロボット１００と通信可能な装置に備えられてもよい。このような装置が、ロボット１００とＷｉ−Ｆｉ（登録商標）等の近距離通信を行ってもよく、インターネット等の広域ネットワークを介して通信を行ってもよい。

＜仮想発声器官を有するロボット＞
一般に、発声器官を有する生物の発声プロセスは共通している。例えば、人の発声プロセスは、肺や腹部から気管をとおして導かれた空気が声帯で振動することで音が鳴り、口腔や鼻腔などで共鳴し大きな音になる。そして、口や舌の形が変わることで様々な声が生まれる。声の個人差は、身体の大きさ、肺活量、声帯、気管の長さ、口腔の大きさ、鼻腔の大きさ、歯並び、舌の動かし方などの様々な違いで生まれる。また、同一人物でも、体調に応じて気管や声帯などの状態が変わり、声が変わる。こうした発声プロセスにより、人ごとに声質が異なり、体調や感情などの内面的な状態に応じても声が変わる。

別の実施の形態における音声合成部１３６３は、こうした発声プロセスに基づき、仮想的な発声器官における発声プロセスをシミュレーションすることで音声を生成する。つまり、音声合成部１３６３は、仮想的な発声器官（以下、「仮想発声器官」という。）であり、ソフトウエア的に実現される仮想発声器官で声を生成する。例えば、仮想発声器官は、人の発声器官を模した構造でも良いし、犬や猫などの動物の発声器官を模した構造でも良い。仮想発声器官を有することで、個体毎に、仮想発声器官における気管のサイズを変えたり、声帯の緊張度合いを調整したり、口腔の大きさを変えたりすることで、基本的な発声器官の構造は同じでも、個体特有の音声を生成できる。音声内容データベース１３６１に保持されている音声を生成するためのパラメータ群には、単にシンセサイザで音を生成するための直接的なパラメータが含まれているのでは無く、仮想発声器官における各器官の構造的な特徴を指定する値がパラメータ（以下、「静的パラメータ」という。）として含まれている。これらの静的パラメータを用いて、発声プロセスがシミュレーションされ、声が生成される。

例えば、人は様々な声を出すことができる。高い声、低い声、メロディに合わせて歌ったり、笑ったり、叫んだり、発声器官の構造が許す限りあらゆる声を出すことができる。これは、発声器官を構成する各器官の形状や状態が変化するからであり、人が意識的に変化させることもできるし、感情や刺激に応じて無意識に変化してしまうこともある。音声合成部１３６３は、こうした、外部環境や内部状態に連動して変化する器官の状態についてもパラメータ（以下、「動的パラメータ」という。）を有し、それらの動的パラメータを外部環境や内部状態に連動して変化させてシミュレーションをおこなう。

一般に声帯を引っ張ることで声帯が延びて高音になり、声帯を緩めることで声帯が縮んで低音になる。例えば、声帯を模した器官は、静的パラメータとして声帯の引っ張り度合い（以下、「緊張度」という。）を有し、緊張度を調整することにより、高い声や低い声を出すことができる。これにより、高い声のロボット１００や低い声のロボット１００を実現できる。また、人は緊張することで声がうわずることがあるが、同様にロボット１００の緊張状態に連動して、動的パラメータとしての声帯の緊張度を変化させることで、ロボット１００が緊張していたら声が高くなるようにできる。例えば、ロボット１００が知らない人を認識したときや、抱っこの状態から急に下げられたとき等、緊張状態を示す内部パラメータが緊張している値に振れたときに、それに連動して声帯の緊張度を高くすることで、高い声を発声できる。このように、ロボット１００の内部状態と、発声プロセスにおける器官とを関連付けておき、内部状態に応じて、関連する器官のパラメータを調整することで、内部状態に応じて声を変えることができる。

ここで、静的パラメータ及び動的パラメータは、時間の経過に伴うそれぞれの器官の形状的な状態を示すパラメータである。仮想発声器官は、このパラメータに基づいてシミュレーションを行う。

また、シミュレーションに基づき音声を生成することにより、発声器官の構造的な制約に基づいた音声だけが生成される。つまり、生物としてあり得ない声が生成されないので、生物感のある声を生成できる。

＜複数のロボットによる同期発声＞
図１０は、同期発声を行うことができる複数のロボットの構成を示すブロック図である。図１０の例では、ロボット１００Ａとロボット１００Ｂとが同期発声を行う。ロボット１００Ａ及びロボット１００Ｂは、同じ構成を有している。ロボット１００Ａ及びロボット１００Ｂは、上記の実施の形態と同様に、指示受付部１３２Ａ、１３２Ｂ、個性形成部１３５Ａ、１３５Ｂ、音声生成部１３６Ａ、１３６Ｂ、スピーカ１１２Ａ、１１２Ｂを備えている。なお、ロボット１００Ａ、１００Ｂは、いずれも上記の実施の形態と同様に、さらに、内部センサ１１１、測位装置１３１、成長管理部１３３、状況解釈部１３４を備えているか、図１０では図示を省略している。

上述のように、指示受付部１３２Ａ、１３２Ｂは、無線通信を行う通信部１１３（図４参照）に相当する。本実施の形態では、指示受付部１３２Ａ、１３２Ｂは互いに無線通信を行うことができる。本実施の形態では、２つのロボット１００Ａ、１００Ｂで同期発声を実現するために、一方のロボットにおいて、標準音声決定部１３６２が生成する音声の内容を決定するとともに、自己及び他方のロボットの音声の出力開始タイミングと少なくとも一部の音声パラメータとのセットからなる音声条件を決定し、当該他方のロボットは、一方のロボットが決定した音声条件に従って音声を出力する。本実施の形態では、ロボット１００Ａで音声条件を決定し、ロボット１００Ｂが当該音声条件に従って音声を出力する例を説明する。

ロボット１００Ａの標準音声決定部１３６２Ａは、ロボット１００Ａが生成する音声の内容を決定するとともに、自己及びロボット１００Ｂのそれぞれの音声の出力開始タイミングと少なくとも一部の音声パラメータとを含む音声条件を決定する。すなわち、ロボット１００Ａは、ロボット１００Ａのための出力開始タイミング（第２出力開始タイミング）を含む音声条件（第２音声条件）とロボットＢのための出力開始タイミング（第１出力開始タイミング）を含む音声条件（第１音声条件）を決定する。ロボット１００Ａの指示受付部１３２Ａは、第１音声条件をロボット１００Ｂに向けて送信する。

ロボット１００Ｂの指示受付部１３２Ｂは、ロボット１００Ａから第１音声条件を受信し、ロボット１００Ｂの標準音声決定部１３６２Ｂは、受信した第１音声条件に含まれる少なくとも一部の音声パラメータを認識する。また、ロボット１００Ｂの同期制御部１３６５Ｂは、受信した第１音声条件に含まれる第１出力開始タイミングを認識する。この標準音声決定部１３６２Ｂ及び同期制御部１３６５Ｂは、音声生成条件認識部に相当する。

ロボット１００Ａの音声調整部１３６４Ａは、標準音声決定部１３６２Ａで決定された第２音声条件に含まれる少なくとも一部の音声パラメータに合致する音声を生成する。ロボット１００Ｂの音声調整部１３６４Ｂは、標準音声決定部１３６２Ｂで認識された第１音声条件に含まれる少なくとも一部の音声パラメータのセットに合致する音声を生成する。

ロボット１００Ａの同期制御部１３６５Ａは、標準音声決定部１３６２Ａで決定された第２音声条件に含まれる第２出力開始タイミングに従って音声調整部１３６４で生成された音声をスピーカ１１２Ａに出力する。ロボット１００Ｂの同期制御部１３６５Ｂは、第１音声条件に含まれる第１出力開始タイミングに従って音声調整部１３６４で生成された音声をスピーカ１１２Ｂに出力する。

標準音声決定部１３６２Ａで決定される音声条件としての一部の音声パラメータは、例えば、ＢＰＭで表されるテンポ、リズム、音高、音声の内容の長さ（例えば、音節数）、音色、音量、又はこれらの要素の少なくとも１種類の要素の時系列変化パターンである。音声調整部１３６４Ａ、１３６４Ｂは、それぞれ、上記の実施の形態と同様に、標準音声のスペクトル特徴及び韻律特徴を個性形成部１３５にて形成された個性に従って変換することで、標準音声決定部１３６２Ａ、１３６２Ｂで決定された標準音声を個性形成部１３５Ａ、１３５Ｂで形成された個性パラメータに従って調整して、標準音声に含まれる言語（音韻）情報を変化させずに声質や韻律等の非言語情報を調整する声質変換を行う。このとき、音声調整部１３６４Ａ、１３６４Ｂは、音声条件で指定された音声パラメータ（例えば、テンポ、リズム、音高、音節数、音色、音量、又はこれらの時系列変化パターン等）については、音声条件に従い、それ以外の音声パラメータを個性パラメータに従って調整する。

標準音声決定部１３６２Ａは、具体的には、例えば、ロボット１００Ａとロボット１００Ｂとで同じタイミングで音声を出力するように、ロボット１００Ａとロボット１００Ｂのそれぞれの出力開始タイミングを決定することができる。これにより、ロボット１００Ａとロボット１００Ｂとを同じタイミングで発声させることができる。

あるいは、標準音声決定部１３６２Ａは、ロボット１００Ａとロボット１００Ｂとが所定の時間だけずれたタイミングで音声を出力するように、ロボット１００Ａとロボット１００Ｂのそれぞれの出力開始タイミング（第１出力開始タイミング及び第２出力開始タイミング）を決定するようにしてもよい。例えば、一方のロボットの音声出力が終わるときに他方のロボットが音声を出力するように、それぞれのロボットの音声の出力開始タイミングを決定してよい。

また、標準音声決定部１３６２Ａは、具体的には、例えば、ロボット１００ＡとロボットＢとで同じ音高の音声を出力するように、ロボット１００Ａの一部の音声パラメータとしての音高（第２音高）とロボット１００Ｂの一部の音声パラメータとしての音高（第１音高）とをそれぞれ決定することができる。あるいは、標準音声決定部１３６２Ａは、ロボット１００Ａとロボット１００Ｂとが異なる音高の音声を出力するように、第１音高及び第２音高を決定してもよい。この場合に、第１音高と第２音高とが、所定の関係を有していてもよい。

例えば、第２音高（周波数）と第１音高（周波数）との比が所定の範囲に含まれるように音声パラメータを決定してもよい。例えば、音程（音高の比）が協和音程となる関係を有していてもよい。同じタイミングで協和音程の２つの音声を出力することで、ハーモニーを作り出すことができる。なお、協和音程は、不完全協和音程、完全協和音程又は絶対協和音程であってよい。また、ロボット１００Ａ、ロボット１００Ｂの未熟さを表現したい場合には、不協和音程にしてもよい。

例えば、第２音高（周波数）が第１音高（周波数）より所定の音程（例えば３度）又は所定の周波数以上高く又は低くなるように、音声パラメータを決定してもよい。

また、音声パラメータでは音高を指定せず、ロボット１００Ａ及びロボット１００Ｂがそれぞれ音高を決定して音声を生成してもよい。この場合、例えば以下のような処理を行ってもよい。例えば、音声パラメータにより、同一のテンポを指定したとする。音声の出力前に、ロボット１００Ａが指定されたテンポに合致するように音声を生成する。ロボット１００Ａは、通信を介して音声を出力しようとする音高の時系列変化をロボット１００Ｂに送信する。ロボット１００Ｂは、ロボット１００Ａが生成した音声の音高に対して同一のタイミングで出力する音高の比（音程）が所定の範囲に含まれるように、かつ、指定されたテンポに合致するように、自己が出力する音声を生成してもよい。この場合、ロボット１００Ｂは、ロボット１００Ａが生成した音声の音高の時系列変化に基づいて、同一のタイミングで出力される音高の比が所定の範囲に含まれるように、当該タイミングで出力する音高のリストを生成し、当該リストから当該タイミングで出力する音高を選択するようにしてもよい。

また、ロボット１００Ａとロボット１００Ｂとが、それぞれ独立して音声パラメータに合致するように音声を生成し、音声の出力前に通信を介して生成した音声を共有し、音声の時系列変化について、それぞれのタイミングにおいて、音声の音高の比が所定の範囲に含まれるかどうかを判定し、所定の範囲に含まれない場合には、音高の比が所定の範囲に含まれるように一方の音高を所定の音程（例えば１オクターブ）又は所定の周波数だけ高く又は低くなるように補正してもよい。音高の比が所定の範囲に含まれるという条件を、周波数の差が所定の範囲に含まれるかという条件として、同様の処理を行ってもよい。所定の範囲は、例えば、下限値と上限値との両方で特定される範囲であってもよいし、下限値又は上限値のみで特定される範囲であってもよいし、連続的な範囲であってもよいし、断続的な範囲であってもよい。

また、ロボット１００Ａの標準音声決定部１３６２Ａで決定される一部の音声パラメータが音節数であるときは、ロボット１００Ａの音節数とロボット１００Ｂの音節数とを同じとしてよい。また、一部の音声パラメータが音節数であるときは、音声の内容は、当該音節数に従ってランダムに決定されてよい。

標準音声決定部１３６２Ａは、少なくともロボット１００Ａで発声する音声の内容を決定する。標準音声決定部１３６２Ａは、ロボット１００Ｂで発声する音声の内容についても、一部の音声パラメータとして決定してもよい。このとき、ロボット１００Ａの音声の内容とロボット１００Ｂの音声の内容とを同じとしてもよい。このとき、ロボット１００Ａは、音声の内容をランダムに決定してもよい。また、ロボット１００Ｂが音声の内容を決定する場合にも、ロボット１００Ｂはランダムに音声の内容を決定してよい。

また、ロボット１００Ａとロボット１００Ｂとが互いにずれたタイミングで音声を出力するとともに、その音声の内容を特定の内容とすることで、ロボット１００Ａとロボット１００Ｂとがタイミングを計って所定の作業を行ってもよい。例えば、ロボット１００Ａが「ジャンケン」という音声を出力し、その音声の出力が終了したタイミングで、ロボット１００Ｂが「ポン」という音声を出力するように、音声条件を決定することで、ロボット１００Ａとロボット１００Ｂとがジャンケンの掛け声を完成させてよい。

標準音声決定部１３６２Ａにてロボット１００Ｂの音声の内容が決定されない場合には、ロボット１００Ｂの標準音声決定部１３６２Ｂは自ら音声の内容を決定する。このとき、一部の音声パラメータとして音節数が含まれている場合には、標準音声決定部１３６２Ｂは、当該音節数に合致した音声の内容を過去に収集した音声（例えば、ユーザの音声）に従って音声の内容を決定してよい。すなわち、音声の内容は、ユーザがよく使う音声の内容、又はその一部を再現するように、マイクで収音された音声から学習したものであってもよい。また、ユーザの音声が所定の条件を充足する場合（音高が一定の範囲に含まれているなど、歌を歌っている蓋然性が高いような場合）に収集された音声の内容、またはその一部を再現するように、標準音声決定部１３６２Ａ又は標準音声決定部１３６２Ｂにおいて音声の内容が決定されてもよい。

音声の内容の再現のみならず、収集されたユーザの音声の音高や音程に基づいて個性形成部１３５が当該音高や音程を再現するように個性を形成し、当該個性に従って音声の生成又は補正を行ってもよい。

なお、上記の説明では、ロボット１００Ａで音声条件を決定して、ロボット１００Ｂは、ロボット１００Ａで決定された音声条件に従って音声を生成して出力したが、ロボット１００Ｂで音声条件を決定することも可能であり、この場合には、ロボット１００Ａはロボット１００Ｂで決定された音声条件に従って音声を生成して出力する。

なお、上記の例では、複数のロボットがある場合に、そのうちの１つのロボットが音声条件を決定して、他のロボットに伝達したが、これに代えて、複数のロボットが通信可能な制御装置において、各ロボットの音声条件を決定して、各ロボットに送信してもよい。この場合に、制御装置は、複数のロボットについて、共通の音声条件を決定して送信してもよいし、各ロボットについてそれぞれ異なる音声条件を決定して、個別に音声条件を送信してもよい。

＜ユーザによる個性の設定＞
上述のように、個性形成部１３５は、指示受付部１３２からの指示に基づいて音声についての個性を形成（設定）してもよいものであり、以下では、ユーザの指示に基づいて個性パラメータを設定する例を説明する。この場合には、指示受付部１３２に対して指示をする装置として、制御アプリケーションをインストールした情報端末（例えば、スマートフォン、パーソナルコンピュータ）が用いられてよい。この情報端末は、制御アプリケーションをユーザインターフェースとして指示を受け付けて、受け付けた指示を必要に応じてネットワークないし中継サーバを経由してロボット１００に伝達する。ロボット１００の指示受付部１３２は、このようにして送信されてきた指示を受け付けることができる。

図１１、図１２Ａ〜図１２Ｃ、及び図１３は、本実施形態の端末装置２０４に表示される音声の設定に関する制御アプリケーションの画面（以下、「アプリ画面」という。）の一例である。なお、図１１、図１２Ａ〜図１２Ｃ、及び図１３に示されるアプリ画像の構成およびアプリ画面を用いた音声の設定方法は一例であり、これに限定されない。

図１１は、ロボットの制御アプリケーションにおけるロボットの状態を示す画面の例を示す図である。この制御アプリケーションは、タグを選択することでロボットＡとロボットＢの状態を示すことができる。タグで選択されたロボット１００の各種の状態は、アイコンで示される。アプリ画面２８０で示されるロボット１００の状態には、ロボットの声が含まれる。アイコン２９１は、ロボット１００の声の状態を示しており、図１１の例では、ロボット１００の声として「やさしい声」が選択されていることが示されている。アイコン２９１をユーザが押すことで音声の設定を行うことができる。

図１２Ａは、音声の設定を行う場合のアプリ画面の例である。「声を選ぶ」と表記されているボタン２８１をユーザが押すと、ランダムで複数種類（本実施形態では４種類）の個性的な音声を生成するための個性パラメータが自動生成される。生成される個性パラメータは、全て他のロボット１００で設定中の個性パラメータとは重複しない個性パラメータである。ユーザによってボタン２８１が押され、複数種類（本実施形態では４種類）の音声が生成されると、アプリ画面２８０Ａは図１０Ｂに示されるアプリ画面２８０Ｂへ変化する。なお、個性パラメータについては、後述する。

また、アプリ画面２８０Ａに表示されている「今の声」と表記されているボタン２８２をユーザが押すと、ユーザはロボット１００に現在設定中の個性パラメータに基づいて生成された音声を確認することができる。この確認用の音声は、ユーザが知覚可能な出力装置であるロボット１００のスピーカ１１２から出力される。

図１２Ｂに示されるアプリ画面２８０Ｂには、生成された複数の個性パラメータのうちの１つをユーザが選択可能な音声選択ボタン２８３Ａから２８３Ｄが表示される。ユーザによって音声選択ボタン２８３Ａから２８３Ｄのいずれかが押されて選択されると、これに対応する音声が出力される。これにより、ユーザは、自身が好む音声を確認できる。音声選択ボタン２８３Ａから２８３Ｄのいずれかが選択された状態で、「決定」と表記されたボタン２８４をユーザが押すと、ユーザの選択した個性パラメータがロボットに設定される。

なお、アプリ画面２８０Ｂには、個性パラメータを再生成するためのボタン（以下「再生成ボタン」という。）が表示されてもよい。ユーザが再生成ボタンを押す場合とは、ユーザが好む音声を生成する個性パラメータが生成されなかった場合である。ユーザによって再生成ボタンが押されると、個性パラメータの生成が新たに行われ、生成された新たな個性パラメータが音声選択ボタン２８３Ａから２８３Ｄに対応付けられる。

音声選択ボタン２８３Ａから２８３Ｄには、それぞれの個性パラメータである音の要素を反映した動きをする複数の縦棒オブジェクトが並列している。これらの縦棒オブジェクトは、動的に長さを連続的に変化させる。縦棒オブジェクトの長さの変化は、隣の縦棒オブジェクトの長さの変化との連続性（時間差での同様の変化など）有しており、これにより、複数の並列する縦棒オブジェクトによって音(波形)らしさが表現される。

各縦棒オブジェクトの波が通り過ぎる速さ、即ち、１つの変化が隣の縦棒オブジェクトに反映されるまでの時間は音声のスピードを表している。また、縦棒オブジェクトのベースの長さ、即ち、変化していないときの縦棒オブジェクトの長さは、音声のピッチを表している。また、縦棒オブジェクトの波のばらつき、即ち、縦棒オブジェクトの変化量は、音声のピッチ幅を表している。また、縦棒オブジェクトの色は、音声のブライトネスを表している。また、縦棒オブジェクトの減衰・バウンスは、音声のリップリフレクションを表している。すなわち、縦棒オブジェクトの変化量の減衰量は、減衰が大きいと、表示的には、ある波が発生した後、その波が収まるまでの時間が短くなり、減衰が小さいと、表示的には、ある波が発生した後、その波が収まるまでの時間が長くなる。また、縦棒オブジェクトの線の太さは、音声のトラクトレングスを表している。

図１２Ｃは、アプリ画面２８０Ａの履歴ボタン２８５が押された場合に表示されるアプリ画面２８０Ｃである。アプリ画面２８０Ｃには、ユーザが過去に設定した複数の個性パラメータを選択するための音声選択ボタン２８６が一覧表示される。すなわち、制御アプリケーションをインストールした情報端末には、ユーザが過去に設定した個性パラメータの履歴が記憶されている。なお、一例として、選択可能な過去の個性パラメータは、最大数が予め決定されている。また、このような個性パラメータの履歴はクラウドに保存されていてもよい。

音声選択ボタン２８６には、個性パラメータがロボット１００に設定された日付が表記される。これにより、ユーザは、音声選択ボタン２８６に対応する音声の違いを認識できる。また、ユーザが情報端末の画面に対してスクロール操作を行うことで、それまで表示されていなかった過去に設定した個性パラメータに対応する音声選択ボタン２８６が表示される。そして、「決定」と表記されたボタン２８７をユーザが押すと、ユーザが選択した音声選択ボタン２８６に対応する個性パラメータがロボット１００に設定される。

なお、アプリ画面２８０Ｃを介してユーザが選択した個性パラメータは、当該ロボット１００が含まれるロボット群の他のロボットに設定中でない音声特徴データであるか否かが判定される。すなわち、記憶されている個性パラメータであっても他のロボットによって設定中の個性パラメータは、当該ロボット１００に設定できない。

図１２Ｄは、ロボットから出力される音声をユーザがカスタマイズする場合に情報端末に表示されるアプリ画面２８０Ｄである。アプリ画面２８０Ｄには、音声を生成するための個性パラメータ（複数のパラメータの値の組み合わせ）をユーザが選択可能なように表示されている。一例として、ユーザは、各パラメータに対応するスライドバー２８８Ａから２８８Ｆを左右に動かすことで、パラメータの値を選択する。すなわち、ユーザは、ロボット１００に設定する音声を自動生成するのではなく、自身の好みに応じて手動で生成する。

図１２Ｄの例では、ユーザが選択可能なパラメータとして、スピード、ピッチ、ピッチの幅、ブライトネス、唇の振動、声帯の長さが設定されている。これら複数のパラメータは、一つのパラメータセットとして扱われ、他のロボットに設定中でない音声のパラメータセットが当該ロボット１００の音声として設定可能となる。なお、このパラメータセットは、上述したアプリ画面２８０Ａのボタン２８１をユーザが押すことで生成される個性パラメータのパラメータと同じである。

スピードは、音の単位あたりの発話スピードである。音の単位とは、言語では、音節である。この値が大きいほど発話スピードが速くなる。ピッチは、平均的な音高の高さである。この値が大きいほど音高が高くなる。ピッチの幅は、発音できる音高の幅である。この値が大きいほど音高の幅が大きくなる。ブライトネスは、声（音）の明るさを示すパラメータである。発音される音の周波数成分の一部（例えば、倍音成分）を変更することで、音の明るさが変更されうる。この値が大きいほど声（音）が明るいという印象がもたれやすくなる。唇の振動は、人の発声構造（口）を模した発音構造における唇の振動具合である。この値が大きいほど人の発声構造内における音の反射率が大きくなる。声帯の長さは、人の発声構造（口）を模した発音構造における声帯の長さを示すパラメータである。この値が大きいほど音の低い周波数成分が多くなり、大人っぽい声になる。

また、「ロボットで聴いてみる」と表記されたボタン２８９をユーザが押すと、選択された個性パラメータ（パラメータセット）で生成された音声がロボット１００が備えるスピーカ１１２から出力される。そして、決定ボタン２９０の押圧操作が検知されると、選択されたパラメータセットが該当するロボット１００に設定される。なお、手動により生成される個性パラメータも、他のロボット１００で設定中の個性パラメータとは重複しない音声とされる。具体的には、情報端末は、音声の設定を管理するサーバに対して、ユーザによって選択された個性パラメータ（パラメータセット）を送信し、サーバは、当該個性パラメータが他のロボット１００に設定されている個性パラメータと重複するか否かを判定し、判定結果を上方端末に送信する。そして、他のロボット１００と重複する個性パラメータ（パラメータセット）が選択された状態では、情報端末は、決定ボタン２９０を無効化するとともに、他のロボットで使用中である旨の表示がタッチパネルディスプレイ２１０に出力される。この場合、ユーザが選択した個性パラメータに類似する個性パラメータをサーバ又は情報端末が生成し、生成された個性パラメータを再生させるためのボタンがタッチパネルディスプレイに表示されてもよい。

また、アプリ画面２８０Ｄを用いた音声のカスタマイズは、所定の条件を満たしたユーザが可能とされてもよい。所定の条件とは、例えば、ロボット１００の使用期間が予め定められた所定期間を超えたユーザや、所定のポイントを獲得したユーザ、所定の金額を課金したユーザである。

少なくとも１つの実施形態は、ロボットから個性的な音声が出力されるので、ユーザは、当該ロボットが生物であるような感覚を覚えやすいという効果を有し、音声を出力するロボットとして有用である。

１００ロボット
１０２車輪
１０４ボディ
１０５手
１０６目
１０８着座面
１０９ツノ
１１０表示装置
１１１内部センサ
１１１１タッチセンサ
１１１２加速度センサ
１１１３カメラ
１１１４マイクロフォン
１１２スピーカ
１１３通信部
１１４記憶装置
１１５プロセッサ
１１６駆動部
１１７バッテリ
１１８ワイヤ
１２０電源線
１２２信号線
１３１測位装置
１３２指示受付部
１３３成長管理部
１３４状況解釈部
１３５個性形成部
１３６音声生成部
１３６１音声内容データベース
１３６２標準音声決定部
１３６３音声合成部
１３６４音声調整部

Claims

音声を生成する音声生成部と、
生成された前記音声を出力する音声出力部と、
を備えたロボット。
物理量を検知してセンサ情報を出力するセンサを備え、
前記音声生成部は、前記センサ情報に基づいて音声を生成する、請求項１に記載のロボット。
前記音声生成部は、所定のセンサ情報が所定の時間にわたって継続して入力されたときに音声を生成する、請求項２に記載のロボット。
物理量を検知してセンサ情報を出力する複数のセンサを備え、
前記音声生成部は、前記複数のセンサのセンサ情報に基づいて音声を生成する、請求項１に記載のロボット。
物理量を検知してセンサ情報を出力する複数のセンサと、
前記センサ情報に基づいて前記ロボットがおかれている意味的状況を解釈する解釈部と、
を備え、
前記音声生成部は、前記解釈部で解釈された前記意味的状況に基づいて、音声を生成する、請求項１に記載のロボット。
前記音声生成部は、前記解釈部にて、前記ロボットが抱っこされていると解釈されたときに、音声を生成する、請求項５に記載のロボット。
前記音声生成部は、前記センサ情報を反射的に反映した音声を生成する、請求項２に記載のロボット。
前記音声生成部は、前記センサ情報に基づく音量の音声を生成する、請求項７に記載のロボット。
前記センサは、前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサであり、
前記音声生成部は、前記加速度の変化に応じて音量が変化する音声を生成する、請求項７に記載のロボット。
前記音声生成部は、前記センサ情報に基づく音程の音声を生成する、請求項７に記載のロボット。
前記センサは、前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサであり、
前記音声生成部は、前記加速度の変化に応じて音程が変化する音声を生成する、請求項７に記載のロボット。
個性を形成する個性形成部をさらに備え、
前記音声出力部は、形成された前記個性に応じた音声を出力し、
前記ロボットは、形成された前記個性に応じた音声を生成する音声生成部をさらに備え、
前記音声出力部は、生成された音声を出力する、請求項１に記載のロボット。
前記音声生成部は、
標準音声を決定する標準音声決定部と、
決定された前記標準音声を、個性的な音声となるように調整する音声調整部と、
を備えた、請求項１２に記載のロボット。
前記ロボットの成長を管理する成長管理部をさらに備え、
前記個性形成部は、前記ロボットの前記成長に応じて前記個性を形成する、請求項１２又は１３に記載のロボット。
ユーザからの指示を受け付ける指示受付部をさらに備え、
前記個性形成部は、受け付けた前記指示に基づいて前記個性を形成する、請求項１２又は１３に記載のロボット。
音を電気信号に変換するマイクフォンをさらに備え、
前記個性形成部は、前記電気信号に基づいて前記個性を形成する、請求項１２又は１３に記載のロボット。
位置を測定する測位装置を備え、
前記個性形成部は、測定された位置に基づいて前記個性を形成する、請求項１２又は１３に記載のロボット。
前記音声生成部は、内部センサの出力値に対応した音声を生成する第１音声生成部と、内部センサの出力値の意味解釈を行い、当該意味解釈に応じた音声を生成する第２音声生成部とを備える、請求項１から１７のいずれかに記載のロボット。
音声の出力開始タイミング及び少なくとも一部の音声パラメータを含む音声条件を認識する音声生成条件認識部を備え、
前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致する音声を生成し、
前記音声出力部は、前記音声条件に含まれる音声の出力開始タイミングで前記音声生成部により生成された音声を出力する、請求項１から１７のいずれかに記載のロボット。
前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致するとともに、当該ロボットの個性に応じた音声を生成する、請求項１９に記載のロボット。
前記音声生成条件認識部は、通信を介して自己の音声条件である第１音声条件を認識し、
前記第１音声条件は、他のロボットに示される音声条件である第２音声条件の少なくとも一部と同一の条件である、請求項１９又は２０に記載のロボット。
前記一部の音声パラメータは、音高を示すパラメータを含む、請求項２１に記載のロボット。
前記第１音声条件に含まれる第１音高が、前記第２音声条件に含まれる第２音高と所定の関係にある、請求項２２に記載のロボット。
前記第１音声条件に含まれる第１出力開始タイミングが、前記第２音声条件に含まれる第２出力開始タイミングと同一のタイミングであり、前記第１音声条件に含まれる前記第１音高と前記第２音声条件に含まれる第２音高との相対的な関係である音程が協和音程である、請求項２３に記載のロボット。
前記音声条件は、音声の内容の長さを示す条件を含み、
前記音声の内容の長さに合致した音声の内容をランダムで決定する標準音声決定部をさらに備えた、請求項１９から２４のいずれかに記載のロボット。
前記音声条件は、音声の内容の長さを示す条件を含み、
前記音声の内容の長さに合致した音声の内容を過去に収集した音声に基づいて決定する標準音声決定部をさらに備えた、請求項１９から２４のいずれかに記載のロボット。
ロボットから出力する音声を生成するための音声生成プログラムであって、コンピュータに、
音声を生成する音声生成ステップと、
生成された前記音声を出力する音声出力ステップと、
を実行させる音声生成プログラム。