JP7218143B2

JP7218143B2 - 再生システムおよびプログラム

Info

Publication number: JP7218143B2
Application number: JP2018195184A
Authority: JP
Inventors: 遥香松本; 智治町田; 登宮本
Original assignee: Tokyo Gas Co Ltd
Current assignee: Tokyo Gas Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2023-02-06
Anticipated expiration: 2038-10-16
Also published as: JP2020064151A

Description

本発明は、再生システム、プログラムに関する。

音声を録音し、録音した音声を別の人物が再生することでコミュニケーションを図る装置が存在する。

特許文献１に記載の音声処理装置では、記憶装置は、発声者の発声音を示す素片データを音声素片毎に記憶する。声質変換部は、発声者の音声の特徴量情報と発声者の音声の特徴量情報との確率分布を示す混合分布モデルから生成されて発声者の音声を発声者の音声に変換する変換関数を、合成対象の発音文字に対応した素片データに適用することで、発声者の音声に対応する素片データを順次生成する。音声合成部は、声質変換部が生成した各素片データから音声信号を生成する。

また、特許文献２に記載の音声変換装置は、セレクタで選択されたいずれかの音声信号が音声信号分析部にディジタル信号で入力する。音声信号分析部で音声認識され、同音声認識されたデータをテキストデータ変換部でテキストデータに変換する。同テキストデータを、構文解析部で節に分割し、節単位で標準語から特定地域の方言への変換、又はこの逆の変換の必要性につき判定する。同判定に従い、制御部の制御のもとに変換部で標準語から特定地域の方言への変換、又はこの逆の変換を行う。標準語及び方言のデータは第１のメモリ部に格納されている。また、変換の形態については入力部で設定する。変換されたテキストデータを第２のメモリ部の声質データに従い音声合成部で音声信号に変換する。

特開２０１２－６３５０１号公報特開２０００－１１２４８８号公報

録音された音声は、通常は、メッセージがそのまま再生される。ところが、再生を行う人物に合わせ、声質等の変更を行った方が、メッセージの内容が伝わりやすい場合がある。
本発明の目的は、送信情報の再生を行う際に、再生を行う人物に合わせ送信情報を変更することができる再生システム等を提供することを目的とする。

かくして本発明によれば、所有する人物の住居に置かれ、人物とは異なる他の人物により送信された送信情報を受信するロボットが、送信情報の再生を行う再生システムであり、送信情報の再生を行う再生手段と、再生手段で再生を行う再生操作を実行する人物の特徴情報を、人物がロボットに向かって話しかけた情報から把握する把握手段と、再生手段における送信情報の再生の設定を、人物の特徴情報に基づき決定する設定手段と、送信情報に含まれる文言のうち変換を行う文言として、変換前の文言と変換後の文言とを予め登録する手段と、送信情報を設定手段で設定された設定に変更するとともに、再生手段で再生が行われる送信情報に含まれる文言のうち予め登録されている変換前の文言に該当する部分を、人物に合わせて、変換後の文言に変更する変更手段と、を有する再生システムが提供される。

ここで、人物の音声を取得する取得手段をさらに有し、把握手段は、取得手段が取得した音声を基に特徴情報を把握するようにすることができる。この場合、特徴情報をより把握しやすくなる。
また、変更手段は、送信情報として送られた音声の文言を人物に合わせ変更するようにすることができる。この場合、再生操作を実行する人物に適した文言で音声の再生を行うことができる。
さらに、変更手段は、送信情報として送られた音声の声質を人物に合わせ変更するようにすることができる。この場合、再生操作を実行する人物に適した声質で音声の再生を行うことができる。
またさらに、把握手段は、人物の特徴情報として、人物が居住する地域を把握し、変更手段は、地域で使用される方言に基づき、送信情報に含まれる文言のうち該当する部分を変更するようにすることができる。この場合、再生操作を実行する人物に適した方言で音声の再生を行うことができる。
また、変更手段は、設定により、人物に合わせて、テキスト、人の音声および機械的な合成音声について相互に変更するようにすることができる。この場合、送信情報を、再生操作を実行する人物に適した形式とすることができる。
さらに、設定手段は、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行うようにすることができる。この場合、自装置の周辺の状況に合わせて音声の再生を行うことができる。

さらに、本発明によれば、所有する人物の住居に置かれ、人物とは異なる他の人物により送信された送信情報を受信するロボットが、送信情報の再生を行うプログラムであり、コンピュータに、送信情報の再生を行う再生機能と、再生機能で再生を行う再生操作を実行する人物の特徴情報を、人物がロボットに向かって話しかけた情報から把握する把握機能と、再生機能における送信情報の再生の設定を、人物の特徴情報に基づき決定する設定機能と、送信情報に含まれる文言のうち変換を行う文言として、変換前の文言と変換後の文言とを予め登録する機能と、送信情報を設定機能で設定された設定に変更するとともに、再生機能で再生が行われる送信情報に含まれる文言のうち予め登録されている変換前の文言に該当する部分を、人物に合わせて、変換後の文言に変更する変更機能と、を実現させるためのプログラムが提供される。

本発明によれば、ロボットが再生操作を実行する人物とは異なる他の人物により送信された送信情報の再生を行う際に、再生操作を実行する人物に合わせて送信情報に含まれる文言を変更することができる再生システム等を提供することができる。

本実施の形態における再生システムの構成例を示す図である。端末装置をロボットとした場合について説明した図である。再生システムの概略動作の例について示した図である。再生システムの機能構成例を示したブロック図である。本実施形態の再生システムの動作の例について説明したフローチャートである。ユーザの年齢を推定する方法の一例を示した図である。（ａ）～（ｃ）は、ユーザの性別を推定する方法の一例を示した図である。特徴情報と設定を変更する方法とについて示した図である。スペクトル包絡の例について示した図である。（ａ）～（ｂ）は、音声の周波数変換について示した図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。

＜再生システム１全体の説明＞
図１は、本実施の形態における再生システム１の構成例を示す図である。
図示するように本実施の形態の再生システム１は、携帯端末２０と、端末装置３０とが、ネットワーク７０およびアクセスポイント９０を介して接続されることにより構成されている。図１では、携帯端末２０は、１つのみ示したが、個数はいくつでもよい。

携帯端末２０は、例えば、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のモバイル端末である。携帯端末２０は、無線通信を行うためにアクセスポイント９０に接続する。そして、携帯端末２０は、アクセスポイント９０を介して、有線で通信を行うネットワーク７０に接続する。

携帯端末２０は、演算手段であるＣＰＵ（Central Processing Unit）と、記憶手段であるメインメモリを備える。ここで、ＣＰＵは、ＯＳ（基本ソフトウェア）やアプリ（応用ソフトウェア）等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域である。さらに、携帯端末２０は、外部との通信を行うための通信インタフェース（以下、「通信Ｉ／Ｆ」と表記する）と、ビデオメモリやディスプレイ等からなる表示機構と、入力ボタン、タッチパネル、キーボード等の入力機構とを備える。そして、携帯端末２０は、音声の出力を行うスピーカと、音声の入力を行うマイクロフォンとを備える。

端末装置３０は、例えば、ロボットとすることができる。このロボットは、ロボットを所有するユーザの住居に置かれる。
図２は、端末装置３０をロボットとした場合について説明した図である。
図２に示した、ロボットとしての端末装置３０は、歩行等を行うことで移動する機能を有する移動式としてもよいが、移動しない非移動式としてもよい。
端末装置３０は、送信情報の送信および受信を行う通信アンテナ３０１と、音声を取得するマイクロフォン３０２と、音声等の音を出力するスピーカ３０３と、画像を表示するディスプレイ３０４と、ユーザが操作を行う操作ボタン３０５と、端末装置３０の全体の制御を行う制御部３０６とを備える。また、操作ボタン３０５は、録音を行う録音ボタン３０５ａと、送られた送信情報を再生する再生ボタン３０５ｂと、端末装置３０の設定などを行うためのメニューボタン３０５ｃとを備える。

ネットワーク７０は、携帯端末２０および端末装置３０の情報通信に用いられる通信手段であり、例えば、インターネットである。

アクセスポイント９０は、有線で通信を行うネットワーク７０に対して、無線通信回線を利用して無線通信を行う機器である。アクセスポイント９０は、携帯端末２０や端末装置３０とネットワーク７０との間の情報の送受信を媒介する。
無線通信回線の種類としては、携帯電話回線、ＰＨＳ（Personal Handy-phone System）回線、Ｗｉ－Ｆｉ（Wireless Fidelity）、Bluetooth（登録商標）、ZigBee、ＵＷＢ（Ultra Wideband）等の各回線が使用可能である。

＜再生システム１の動作の概略説明＞
図３は、再生システム１の概略動作の例について示した図である。
まず、端末装置３０を所有するユーザＡが、送信情報を作成する（１Ａ）。送信情報は、端末装置３０と携帯端末２０との間で、やりとりを行う際に用いられる電子情報である。送信情報は、詳しくは後述するが、例えば、音声やテキストの情報である。ユーザＡは、携帯端末２０を所有するユーザＢへのメッセージを、音声やテキストにより作成する。なお、ユーザＡとユーザＢとは、予め定められた人物であり、所定の交友関係がある。例えば、親子の関係であったり、友人同士の関係である。

音声の情報は、ユーザＡが、端末装置３０に向かって話しかけ、この際に、マイクロフォン３０２により音声を取得し、録音を行うことで、作成することができる。具体的には、ユーザＡは、例えば、端末装置３０に対し相対する位置に自らの顔を向ける。そして、ユーザＡが、操作ボタン３０５の録音ボタン３０５ａを押下すると、押下している間だけマイクロフォン３０２により、録音が行われる。録音を停止したい場合は、録音ボタン３０５ａから手を離せばよい。そして、ユーザＡは、録音ボタン３０５ａを押下している間に、自らの音声によりユーザＢに対し伝えたい内容を話す。録音した音声の情報は、制御部３０６のメモリに保存される。
また、テキストの情報は、端末装置３０に接続するキーボード等から入力してもよいが、例えば、ディスプレイ３０４をタッチパネルとし、タッチパネルにより入力を行ってもよい。さらに、上述したように音声を入力し、これを音声認識することで、テキストに変換する方法でもよい。

そして、制御部３０６は、この音声やテキストの情報を送信情報として、携帯端末２０に対し送信する。送信情報は、通信アンテナ３０１、アクセスポイント９０、ネットワーク７０を介し、携帯端末２０に送られる（１Ｂ）。
携帯端末２０では、再生システム１を実現するための専用のアプリが動作しており、この送信情報を、通信Ｉ／Ｆが取得する。ＣＰＵは、この送信情報をメモリに保存する（１Ｃ）。またこのとき、携帯端末２０にＬＥＤなどからなる発光源を別途設け、この発光源を点滅等させることで、ユーザＡから送信情報が到着した旨を、ユーザＢに対し知らせてもよい。また、ユーザＡから送信情報が到着した旨の案内を、着信音や音声等で出力してもよい。

ユーザＢは、送信情報の再生を行うことができる。具体的には、ユーザＢが、携帯端末２０のタッチパネル等の入力機構において、再生ボタン等を押下する。これにより、ユーザＡから送信された音声が、メモリから読み出され、スピーカから出力される（１Ｄ）。これにより、ユーザＢは、ユーザＡから送信されたメッセージを聞くことができる。また、送信情報が、テキストの情報であったときは、タッチパネル等の表示機構にテキストを表示することができる。

そして、ユーザＢは、ユーザＡへ返信を行うための送信情報を作成する（１Ｅ）。この送信情報の作成方法は、上述したユーザＡの場合で説明した方法と同様である。

そして、携帯端末２０のＣＰＵは、この音声の情報を送信情報として、端末装置３０に対し送信する（１Ｆ）。送信情報は、通信Ｉ／Ｆ、アクセスポイント９０、ネットワーク７０を介し、端末装置３０に送られる。
端末装置３０では、この送信情報を、通信アンテナ３０１で受け、制御部３０６が取得して、メモリに記憶する（１Ｇ）。ユーザＡの操作により、ユーザＢから送られた送信情報をメモリから読み出し、再生を行う（１Ｈ）。
そして以下、同様の動作が繰り返される。即ち、ユーザＡとユーザＢとの間で、送信情報のやりとりが行われる。

次に、本実施の形態の再生システム１の詳細な機能構成および動作について説明する。

＜再生システム１の機能構成の説明＞
図４は、再生システム１の機能構成例を示したブロック図である。
なおここでは、再生システム１が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
再生システム１において、携帯端末２０は、情報の送受信を行う送受信部２１と、画像の表示を行う表示部２２と、情報を入力する入力部２３と、音声を出力する音声出力部２４とを備える。

送受信部２１は、例えば、通信Ｉ／Ｆであり、アクセスポイント９０およびネットワーク７０を介し、端末装置３０と情報の送受信を行う。

表示部２２は、各種情報が表示される表示機構であり、例えば、タッチパネル等のディスプレイである。
入力部２３は、テキストや音声等の入力を行う入力機構であり、例えば、上述したタッチパネルや、入力ボタン・キーボード等である。また、入力部２３は、ユーザＢの音声を入力する入力機構であり、例えば、マイクロフォンである。
音声出力部２４は、音声の出力を行うスピーカである。

端末装置３０は、送信情報の送受信を行う送受信部３１と、送信情報を記憶する記憶部３２と、音声の取得を行う取得部３３と、音声を再生する再生部３４と、画像の表示を行う表示部３５と、再生操作を行う人物の特徴情報を把握する把握部３６と、音声の声質を決定する設定部３７と、ユーザＡの操作を受け付ける操作部３８と、音声の声質を変更する変更部３９と、音声の再生の制御を行う再生制御部４０とを備える。

送受信部３１は、携帯端末２０を所有するユーザＢからの送信情報を受信する。また、送受信部３１は、ユーザＡからユーザＢへの送信情報を送信する。送受信部３１は、例えば、通信Ｉ／Ｆであり、制御部３０６に含まれる。また、通信アンテナ３０１もこれに含まれる。送受信部３１は、アクセスポイント９０およびネットワーク７０を介し、端末装置３０および携帯端末２０の間で送信情報の送受信を行う。

記憶部３２は、受信された送信情報を記憶する。また、記憶部３２は、必要な場合にこれを出力する。記憶部３２は、例えば、メモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）などであり、制御部３０６に含まれる。

取得部３３は、取得手段の一例であり、ユーザＡの音声等の音を取得する。取得部３３は、マイクロフォン３０２に対応する。マイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いてよい。また、マイクロフォンとして、無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンであることが好ましい。
再生部３４は、再生手段の一例であり、ユーザＢから送信された送信情報として、音声の再生を行う。再生部３４は、音声の再生を行うスピーカ３０３に対応する。
表示部３５も、再生手段の一例であり、ユーザＢから送信された送信情報として、テキストの再生を行う。表示部３５は、例えば、上述したように、タッチパネルである。この場合、表示部３５は、各種情報が表示されるディスプレイと、指やスタイラスペン等で接触された位置を検出する位置検出シートとを備える。接触された位置を検出する手段としては、接触による圧力をもとに検出する抵抗膜方式や、接触した物の静電気をもとに検出する静電容量方式など、どのようなものが用いられてもよい。

把握部３６は、把握手段の一例であり、再生部３４や表示部３５で再生を行う再生操作を実行する人物の特徴情報を把握する。この場合、再生操作を実行する人物は、ユーザＡであり、ユーザＢの音声の聞き手である。ここで、「特徴情報」とは、聞き手であるユーザＡの話し方を特徴付ける情報である。特徴情報は、例えば、ユーザＡの年齢である。年齢により使用する言葉に違いが生ずるため、年齢は、ユーザＡの話し方を特徴付ける情報となる。また、特徴情報は、例えば、ユーザＡの性別である。男女の違いにより、使用する言葉に違いが生ずるため、性別は、ユーザＡの話し方を特徴付ける情報となる。さらに、特徴情報は、例えば、ユーザＡの居住地域である。居住地域の違いにより、使用する言葉が標準語であるか、その居住地域で用いられる方言であるかなどの違いが生ずるため、居住地域は、ユーザＡの話し方を特徴付ける情報となる。
設定部３７は、設定手段の一例であり、再生部３４や表示部３５における送信情報の再生の設定を、特徴情報に基づき決定する。例えば、設定部３７は、再生部３４で再生する音声の声質を聞き手であるユーザＡに合わせ設定する。この設定は、把握部３６により把握したユーザＡの特徴情報により決めることができる。また、ユーザＡが自ら設定を決定し、端末装置３０に入力してもよい。これは、例えば、次に説明する操作部３８を操作することで行うことができる。
把握部３６および設定部３７は、例えば、ＣＰＵであり、制御部３０６に含まれる。

操作部３８は、録音や再生を行うためのユーザＡによる操作を受け付ける。操作部３８は、操作ボタン３０５に対応する。また、操作部３８は、キーボードやマウス等で構成されていてもよい。
変更部３９は、変更手段の一例であり、送信情報を設定部３７で設定された設定に変更する。変更部３９は、送信情報として送られた音声の声質をユーザＡに合わせ変更する。また、音声とテキストとの変換を行う。
再生制御部４０は、音声やテキストの再生の制御を行う。再生制御部４０は、例えば、ＣＰＵであり、制御部３０６に含まれる。

＜再生システム１の動作の説明＞
次に、本実施の形態の再生システム１の動作について、より詳細に説明を行う。
図５は、本実施形態の再生システム１の動作の例について説明したフローチャートである。
まず、ユーザＡが、端末装置３０の操作部３８を操作し、取得部３３を使用して、音声の録音を行う（ステップ１０１）。音声の情報は、送信情報として記憶部３２に記憶される（ステップ１０２）。さらに、送受信部３１が、送信情報を携帯端末２０に向け、送信する（ステップ１０３）。なお、送信情報には、送信情報を作成した際の日時の情報等を含めてもよい。

一方、端末装置３０では、把握部３６が、取得部３３が取得した音声を基にユーザＡの特徴情報を把握する（ステップ１０４）。
以下、特徴情報として、ユーザＡの年齢、ユーザＡの性別、およびユーザＡの居住地域を推定する方法について説明する。

（ユーザＡの年齢の推定）
図６は、ユーザＡの年齢を推定する方法の一例を示した図である。
図６は、音声の周波数スペクトルについて示している。ここで、横軸は、周波数を表し、縦軸は、スペクトル強度を表す。即ち、周波数スペクトルは、音声に含まれる周波数成分について、周波数とその強度との関係を示している。
ここでは、音声について、４０歳、５０歳、６０歳、７０歳の人物の周波数スペクトルの一例を示している。図示するように、年齢が上昇するに従い、４ｋＨｚ以上のスペクトル強度が増加することがわかる。実際には、４ｋＨｚ以上のスペクトル強度が増加することで、音声が、よりかれた状態となる嗄声（させい）となる。
よって、把握部３６は、周波数スペクトルのうち、４ｋＨｚ以上のスペクトル強度を見ることで、ユーザＡの年齢を推定することができる。

（ユーザＡの性別の推定）
図７（ａ）～（ｃ）は、ユーザＡの性別を推定する方法の一例を示した図である。
図７（ａ）で示す音声の信号は、図７（ｂ）で示す基本周波数と、図７（ｃ）で示す非周期成分の２つに分けることができる。基本周波数は、声の高さを表す。例えば、男声の基本周波数は、１００Ｈｚ～２００Ｈｚであり、女声の基本周波数は、２５０Ｈｚ～５００Ｈｚである。なお、非周期成分は、声色を表す。よって、基本周波数により、ユーザＡの性別を推定することができる。

（ユーザＡの居住地域の推定）
この場合、把握部３６に、ＧＰＳ（Global Positioning System）機能を付与することで、端末装置３０の位置を求め、これによりユーザＡの居住地域を推定することができる。また、ＧＰＳ機能の代わりに、またはＧＰＳ機能と併用して、Ｗｉ－Ｆｉアクセスポイントの位置情報を利用して端末装置３０の位置を求めてもよい。

図５に戻り、端末装置３０では、設定部３７は、再生部３４で再生する送信情報の設定を特徴情報に基づき決定する。（ステップ１０５）。
図８は、特徴情報と設定を変更する方法とについて示した図である。
図８は、把握部３６により、特徴情報として、ユーザＡの年齢、ユーザＡの性別、およびユーザＡの居住地域が推定されたときに、設定部３７が設定する内容についてまとめた表である。
まず、特徴情報としてユーザＡの年齢により、送信情報の設定をする場合、音声の声質をユーザＡに合わせ変更することができる。ユーザＡの年齢が、未成年や幼児などの若年者である場合、例えば、音声の声質を親の声、機械的な合成音声等に変更する。幼児の場合、親の音声にした場合、安心感を得ることができる。また、子供の場合、親の声より機械音声の方が、言いつけに従いやすいなどの研究結果もあることから、機械音声に声質を変更するようにしてもよい。また、音声の文言をユーザＡに合わせ変更するようにしてもよい。例えば、音声の文言を、通常の「～してください。」から、「～しなさい。」などの命令調に変更してもよい。さらに、若年者の場合、音声よりもテキストの方が、送信情報の内容を速く理解しやすいことがあるため、送信情報を、音声からテキストに変換してもよい。

一方、ユーザＡの年齢が、例えば、６０歳以上など高齢者である場合、音声の文言を丁寧語に変換するようにしてもよい。例えば、「おかえり。」を「おかえりなさい。」に変更する。また、若者言葉など高齢者では理解が容易ではない言葉を、高齢者でも理解しやすい文言に変換するようにしてもよい。さらに、高齢者の場合、テキストよりも音声の方が、送信情報の内容を理解しやすいことがあるため、送信情報を、テキストから音声に変換してもよい。

また、特徴情報としてユーザＡの性別により、送信情報の設定をする場合、音声の文言をユーザＡに合わせ変更することができる。例えば、ユーザＡの性別に合わせ、ユーザＡが男性であった場合は、女性語を男性語に変換し、ユーザＡが女性であった場合は、男性語を女性語に変換することが考えられる。

さらに、特徴情報としてユーザＡの居住地域により、送信情報の設定をする場合、音声の文言をユーザＡが居住する地域で使用される方言に変換することができる。例えば、ユーザＢからユーザＡに送られる音声を標準語から方言に変換したり、方言から標準語に変換することができる。

以上述べた特徴情報は、１回の音声の取得だけで設定をすることもできるが、これに限られるものではない。即ち、複数回の音声の取得を行い、これにより設定を順次変更する方法でもよい。これにより、設定の精度をより向上させることができる。例えば、親の音声の設定を行うには、対象となる人物の音声を複数回取得することで、声のライブラリを作成し、これにより対象となる人物の声質により近い音声にしていくことができる。

また、特徴情報は、取得した音声により設定されるため、例えば、送信情報をテキストだけで作成するようなときは、この設定は行われない。この場合、例えば、端末装置３０から、設定がされていない旨を音声案内等で通知し、設定を行うための音声を入力するように、促してもよい。

再び図５に戻り、端末装置３０から送信された送信情報は、アクセスポイント９０およびネットワーク７０を介して、携帯端末２０に送られる。携帯端末２０では、送信情報を、送受信部２１が取得する（ステップ１０６）。そして、携帯端末２０のＣＰＵは、この送信情報をメモリに保存する（ステップ１０７）。

一方、ユーザＢは、携帯端末２０の表示部２２および入力部２３に対応する等の入力機構において、専用アプリから再生ボタン等を押下する。その結果、携帯端末２０の音声出力部２４であるスピーカにより、ユーザＡから送信された音声が、再生される（ステップ１０８）。

そして、ユーザＢは、ユーザＡへ返信を行うための送信情報を作成する（ステップ１０９）。この送信情報の作成方法は、ユーザＡの場合で上述した方法と同様であり、入力部２３に対応するマイクロフォンを使用して、ユーザＢの音声を録音することで行う。録音した音声は、メモリに保存される（ステップ１１０）。なおこのとき、入力部２３を利用して送信情報をテキストで作成することもできる。

そして、携帯端末２０の送受信部２１は、この送信情報を、端末装置３０に対し送信する（ステップ１１１）。送信情報は、携帯端末２０の送受信部２１、アクセスポイント９０、ネットワーク７０を介し、端末装置３０に送られる。
端末装置３０では、送受信部３１が、送信情報を受信する（ステップ１１２）。そして、送られた送信情報は、記憶部３２が記憶する（ステップ１１３）。

さらに、端末装置３０では、ユーザＡが、操作部３８を操作し、再生部３４によりユーザＢから返信された送信情報の再生を行う。このとき、送信情報の再生の制御は、再生制御部４０が行う。またこのとき、送信情報は、設定部３７が決定した設定に従い、変更部３９が変換を行い、変換後の送信情報が再生される（ステップ１１４）。つまり、声質や文言の変更が行われる。またこのとき、変更部３９は、設定により、テキスト、人の音声および機械的な合成音声について相互に変更することがある。

変更部３９が、文言の変更を行うには、例えば、変換を行う文言として、予め変換前の文言と変換後の文言とを登録しておき、音声認識により、変換前の文言が登場したときに、この部分を変換後の文言に置き換える。
また、変更部３９が、音声をテキストに変換するには、音声を音声認識し、テキストに変換する。さらに、テキストを音声に変換するには、テキストを基に音声合成を行う方法が使用できる。
そして、変更部３９が、声質の変換を行うには、例えば、音声を、まず、図７で説明したような基本周波数と非周期成分とに分ける。また、音声の信号をフーリエ変換し、周波数スペクトルを求め、これからスペクトル包絡を抽出する。スペクトル包絡は、周波数スペクトルの対数をさらにフーリエ変換したものであり、いわば、スペクトルのスペクトルである。

図９は、スペクトル包絡の例について示した図である。
図９は、横軸は、周波数を表し、縦軸は、スペクトル強度を表す。図中、Ｓｓで表わす線は、周波数スペクトルである。一方、Ｓｈで表わす線は、スペクトル包絡である。このスペクトル包絡Ｓｈは、周波数スペクトルＳｓのなだらかな変動を表したものであり、周波数スペクトルＳｓから、周波数スペクトルＳｓの細かな変動（スペクトル微細構造）を分離したものである。そして、このスペクトル包絡Ｓｈは、人間の声道の特性を表している。よって、このスペクトル包絡Ｓｈを変換することで、異なる声道のスペクトル包絡Ｓｈを再現することができる。つまり、元とは異なる声質とすることができる。また、基本周波数を異なる周波数とすることで、声の高さを変更することができる。さらに、非周期成分の大きさを変化させることでも声質が変化する。例えば、非周期成分が小さいほど、声のかすれが小さくなり、大きいほど声のかすれが大きくなる。そして、変換後の波形を再合成すると、声質を変更できる。

また、変更部３９は、音声の周波数変換を行ってもよい。つまり、高齢者の場合は、低音域および中音域は聞こえるが、高音域が聞こえにくくなることが多い。そのため高音域の音について、中音域への周波数変換を行い、音声に高音域の音が含まれていても、聞こえるようにする。

図１０（ａ）～（ｂ）は、音声の周波数変換について示した図である。
ここで、横軸は、周波数を示し、縦軸は、音圧を示す。
このうち、図１０（ａ）は、音声の周波数変換として、周波数の圧縮を行った場合を示している。この場合、実線で示した音声の波形について、高音域として、４０００Ｈｚ以上の周波数領域について、圧縮し、点線で示す波形にしている。
また、図１０（ｂ）は、音声の周波数変換として、周波数の移行を行った場合を示している。この場合、実線で示した音声の波形について、高音域として、４０００Ｈｚ以上の周波数領域について、中音域にスライド（移行）させ、点線で示す波形にしている。
このような音声の周波数変換を行うことで、本来聞こえない領域の音も聞こえるようになり、音声をより聞きやすくなる。

＜変形例＞
本実施の形態では、設定部３７は、取得部３３が取得した音声に基づき、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行う。
例えば、設定部３７は、時間帯に合わせ、音声を再生する際の音量を設定する。例えば、夜間には、音量を小さくする。
また、設定部３７は、取得部３３が取得した音声に基づき、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行ってもよい。例えば、自装置の周辺が騒がしいときは、音量を大きくする。

以上詳述した再生システム１によれば、送信情報の再生を行う際に、再生を行う人物に合わせ送信情報を変更することができる再生システム１を提供することができる。

また、以上詳述した形態では、設定部３７は、いわば自動的に設定を行ったが、手動で設定を変更できるようにしてもよい。この場合、図２で示したメニューボタン３０５ｃを押下し、表示部３５に表示されるメニューから設定の変更を行う。
また、以上詳述した形態では、再生システム１は、携帯端末２０および端末装置３０が、ネットワーク７０、アクセスポイント９０を介して接続されることにより構成されていたが、端末装置３０だけでも再生システムであるとして捉えることができる。また、端末装置３０で行う処理は、携帯端末２０でも同様のことができる。よって、携帯端末２０を再生システムとして捉えることもできる。

さらに、上述した例では、端末装置３０は、ロボットである例を示したが、これに限られるものではない。例えば、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のモバイル端末であってもよく、デスクトップコンピュータであってもよい。
さらに、上述した例では、端末装置３０と携帯端末２０とは、ネットワーク７０、アクセスポイント９０を介してピアツーピア接続していたが、これに限られるものではなく、サーバを介して接続していてもよい。なおこの場合、端末装置３０で行う処理は、サーバでも同様のことができる。よって、このサーバを再生システムとして捉えることもできる。

＜プログラムの説明＞
ここで、以上説明を行った本実施の形態における端末装置３０が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。そして、この処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置３０に設けられたコンピュータ内部の図示しないＣＰＵが、上述した各機能を実現するプログラムを実行し、これらの各機能を実現させる。

よって、本実施の形態で、端末装置３０が行う処理は、コンピュータに、送信された送信情報の再生を行う再生機能と、再生機能で再生を行う再生操作を実行する人物の特徴情報を把握する把握機能と、再生機能における送信情報の再生の設定を、特徴情報に基づき決定する設定機能と、送信情報を設定機能で設定された設定に変更する変更機能と、を実現させるためのプログラムとして捉えることもできる。

なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろんＣＤ－ＲＯＭ等の記録媒体に格納して提供することも可能である。

以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

１…再生システム、２０…携帯端末、３０…端末装置、３１…送受信部、３２…記憶部、３３…取得部、３４…再生部、３５…表示部、３６…把握部、３７…設定部、３８…操作部、３９…変更部、４０…再生制御部

Claims

所有する人物の住居に置かれ、当該人物とは異なる他の人物により送信された送信情報を受信するロボットが、当該送信情報の再生を行う再生システムであり、
前記送信情報の再生を行う再生手段と、
前記再生手段で再生を行う再生操作を実行する人物の特徴情報を、当該人物が前記ロボットに向かって話しかけた情報から把握する把握手段と、
前記再生手段における前記送信情報の再生の設定を、前記人物の前記特徴情報に基づき決定する設定手段と、
前記送信情報に含まれる文言のうち変換を行う文言として、変換前の文言と変換後の文言とを予め登録する手段と、
前記送信情報を前記設定手段で設定された設定に変更するとともに、前記再生手段で再生が行われる当該送信情報に含まれる文言のうち予め登録されている前記変換前の文言に該当する部分を、前記人物に合わせて、前記変換後の文言に変更する変更手段と、
を有する再生システム。
前記人物の音声を取得する取得手段をさらに有し、
前記把握手段は、前記取得手段が取得した音声を基に前記特徴情報を把握することを特徴とする請求項１に記載の再生システム。
前記変更手段は、前記送信情報として送られた音声の文言を前記人物に合わせ変更することを特徴とする請求項２に記載の再生システム。
前記変更手段は、前記送信情報として送られた音声の声質を前記人物に合わせ変更することを特徴とする請求項２又は３に記載の再生システム。
前記把握手段は、前記人物の前記特徴情報として、前記人物が居住する地域を把握し、
前記変更手段は、前記地域で使用される方言に基づき、前記送信情報に含まれる文言のうち前記該当する部分を変更することを特徴とする請求項２又は３に記載の再生システム。
前記変更手段は、前記設定により、前記人物に合わせて、テキスト、人の音声および機械的な合成音声について相互に変更することを特徴とする請求項１又は２に記載の再生システム。
前記設定手段は、自装置の周辺の状況を把握し、把握した状況に基づき、設定を行うことを特徴とする請求項１に記載の再生システム。
所有する人物の住居に置かれ、当該人物とは異なる他の人物により送信された送信情報を受信するロボットが、当該送信情報の再生を行うプログラムであり、
コンピュータに、
前記送信情報の再生を行う再生機能と、
前記再生機能で再生を行う再生操作を実行する人物の特徴情報を、当該人物が前記ロボットに向かって話しかけた情報から把握する把握機能と、
前記再生機能における前記送信情報の再生の設定を、前記人物の前記特徴情報に基づき決定する設定機能と、
前記送信情報に含まれる文言のうち変換を行う文言として、変換前の文言と変換後の文言とを予め登録する機能と、
前記送信情報を前記設定機能で設定された設定に変更するとともに、前記再生機能で再生が行われる当該送信情報に含まれる文言のうち予め登録されている前記変換前の文言に該当する部分を、前記人物に合わせて、前記変換後の文言に変更する変更機能と、
を実現させるためのプログラム。