JP2008085421A - テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ - Google Patents

テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ Download PDF

Info

Publication number
JP2008085421A
JP2008085421A JP2006260054A JP2006260054A JP2008085421A JP 2008085421 A JP2008085421 A JP 2008085421A JP 2006260054 A JP2006260054 A JP 2006260054A JP 2006260054 A JP2006260054 A JP 2006260054A JP 2008085421 A JP2008085421 A JP 2008085421A
Authority
JP
Japan
Prior art keywords
speaker
voice quality
unit
voice
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006260054A
Other languages
English (en)
Inventor
Akihiro Okamoto
明浩 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2006260054A priority Critical patent/JP2008085421A/ja
Publication of JP2008085421A publication Critical patent/JP2008085421A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】 声質変換を利用して他人の音声で通話する所謂ものまねを行う際に、目標話者の音声と連動して目標話者に関連する画像も送信する。
【解決手段】 本発明によるテレビ電話機は、目標話者に関連する画像192と、声質変換フィルタ194とを記憶する電話機データ記憶部148と、目標話者を選択する話者選択部154と、目標話者関連画像と声質変換フィルタとを、電話機データ記憶部から選択するデータ選択部156と、撮像部160と、撮像部の画像を目標話者関連画像に基づいて編集する画像編集部162と、音声入力部164と、発話者の音声の声質を声質変換フィルタを用いて目標話者の声質に変換する声質変換部166と、画像編集部が編集した画像と、声質変換部が変換した音声とを通話相手に送信する電話機送信部168と、を備えることを特徴としている。
【選択図】 図2

Description

本発明は、テレビ電話における声質変換と共に画像を変化させるテレビ電話機、プログラム、通話方法、声質変換・画像編集サービス提供システム、および、サーバに関する。
現在、携帯電話等の携帯型移動端末において、利用者の顔画像を撮像するカメラと、通話相手の顔画像を表示するディスプレイとが装備され、互いに通話相手の現在の通話状態を確認しながら会話する、所謂テレビ電話が実施されるようになってきた。
このようなテレビ電話の応用として、自身の代理となるキャラクタ(アバター:Avatar)を選択し、通話中に自身の画像の代わりにそのアバターの画像を送信したり、通話相手側において任意にアバターを選択し、送信者の画像の代わりにそのアバターを表示したりする技術も開示されている(例えば、特許文献1)。
また、このような携帯型移動端末を利用し、自身が発した音声を他の音声に置き換えて通話相手に伝えることもできる。しかし、自身の画像を送信しないで通話のみを行う場合、即ち、通話相手が自身を特定できない場合は、声質変換を行った声で他人になりすますといった不適切行為が生じ得る。そこで、発話者の画像を送信しない音声のみのモードでは声質変換を制限し、このような不適切行為を誘発しない技術も検討されている(例えば、特許文献2)。
特開2003−248841号公報 特開2002−314638号公報
しかしながら、上述した技術においては、選択されるアバターと声質変換後の音声との間に関連性が無く、アバターは、仮想的な通信空間における単なる疑似表示としての利用に留まり、通話の娯楽性を高める選択手段の一つでしかなかった。
また、テレビ電話における発話者(自身)の声質を目標話者(通話相手ではない他人)の声質に変換する声質変換では、その発話者の音声が目標話者の音声に変換され、別人の音声になって通話相手に伝わるが、音声のみでは臨場感に欠け、その目標話者が誰であるかを発話者が明示的に知らせない限り、通話相手が誰の音声であるかを把握することは困難であった。
本発明は、従来の携帯型移動端末が有する上記問題点に鑑みてなされたものであり、本発明の目的は、声質変換を利用して他人の音声で通話する所謂ものまねを行う際に、目標話者の音声と連動して目標話者に関連する画像も送信することにより、通話相手が、その目標話者が誰であるかを聴覚および視覚で直感的に判断することが可能な、新規かつ改良されたテレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバを提供することである。
上記課題を解決するために、本発明に係る請求項1に記載のテレビ電話機は、発話者の画像を入力する撮像部と該発話者の音声を入力する音声入力部とを備え、該発話者の音声の声質を目標話者の声質に変換するテレビ電話機であって、目標話者に関連する画像と発話者の声質を該目標話者の声質に変換する声質変換フィルタとを予め記憶する電話機データ記憶部と、目標話者を選択する話者選択部と、話者選択部で選択された目標話者に関連する画像である目標話者関連画像と目標話者に対応する声質変換フィルタとを電話機データ記憶部から選択するデータ選択部と、撮像部から入力された画像を、目標話者関連画像に基づいて編集する画像編集部と、音声入力部から入力された発話者の音声の声質を、選択された声質変換フィルタを用いて目標話者の声質に変換する声質変換部と、画像編集部が編集した画像と声質変換部が変換した音声とを通話相手に送信する電話機送信部と、を備えることを特徴とする。ここで、目標話者は、人物もしくはアニメのキャラクタであってもよい。また、目標話者に関連する画像は、目標話者自身の画像でもよく、目標話者を連想可能な画像でもよい。
テレビ電話機同士の通話においては、発話者の音声と同時に発話者の画像も伝送される。当該テレビ電話を利用して、発話者が発した音声を俳優等の目標話者の音声に自動的に変換し、自身の声の代わりに目標話者の声を通話相手に送信する所謂「ものまね」を行う。このような構成であれば、かかる「ものまね」において、目標話者の音声だけでなく、目標話者に関連する画像に基づいて画像編集部で編集された画像、例えば目標話者の顔写真も通話相手のテレビ電話機に送信されるので、通話相手は、発話者が誰のものまねをしているのかを聴覚および視覚で直感的に把握することが可能となる。
請求項2に記載の発明は、請求項1に記載のテレビ電話機において、ものまねスイッチをさらに備え、前記画像編集部および前記声質変換部は、前記ものまねスイッチが有効な間機能することを特徴とする。
上記ものまねスイッチの構成により、発話者は、ものまねを行うタイミングを、自己の意志に基づいて決めることができる。従って、発話者は、ものまねしたい発話に対してのみ、ものまねを実行することができ、その部分を通話相手に強調して伝えることができる。
請求項3に記載の発明は、請求項1または2のいずれかに記載のテレビ電話機において、前記発話者の状態に係る情報である発話者状態情報を生成する発話者状態情報生成部をさらに備え、前記画像編集部は、前記発話者状態情報に応じて、編集に用いる前記目標話者関連画像を変化させることを特徴とする。
目標話者関連画像を、発話者状態情報を通じて画一的に編集する上記の構成により、画像編集部は、発話者状態情報のみを解読することで撮像部から入力された画像を編集することが可能となる。
請求項4に記載の発明は、請求項3に記載のテレビ電話機において、前記音声入力部から入力された発話者の音声の有無を検知する音声検知部をさらに備え、前記発話者状態情報生成部は、前記検知した音声の有無に係る情報である音声有無情報を含めて前記発話者状態情報を生成することを特徴とする。
かかる構成により、画像編集部は、発話者の音声の有無に応じて、編集に用いる目標話者関連画像を変化させることが可能となる。このように音声の有無に応じて画像を変化させることで、音声が有るとき、即ち発話者がものまねしているとき、目標話者に関連する画像の変化によってものまねを実行していることを強調することができる。また、音声が無いときでも、目標話者に関連する他の画像を表示することによって通話相手を飽きさせることなく、通話相手の興味を維持することができる。
請求項5に記載の発明は、請求項3または4のいずれかに記載のテレビ電話機において、前記音声入力部から入力された発話者の音声の発話内容を認識する音声認識部をさらに備え、前記発話者状態情報生成部は、前記認識した発話内容に係る情報である発話内容情報を含めて前記発話者状態情報を生成することを特徴とする。
電話機データ記憶部に記憶された、目標話者に関連する画像は、予め任意の発話内容情報と関連付けられており、音声認識部がこの発話内容を認識すると、画像編集部は、その発話内容に関連付けられた画像を、通話相手に送信する画像に重ねる。かかる構成により、発話者の発話の内容に適した画像を通話相手に送信することができ、動的にものまねを表現することが可能となる。
請求項6に記載の発明は、請求項3乃至5のいずれかに記載のテレビ電話機において、前記音声入力部から入力された発話者の音声の音素を認識する音素認識部をさらに備え、前記発話者状態情報生成部は、前記認識された音素の種類に係る情報である音素情報を含めて前記発話者状態情報を生成し、前記画像編集部は、前記音素情報に応じて、前記目標話者関連画像の口の開閉度合いを調整することを特徴とする。
電話機データ記憶部に記憶された、目標話者に関連する画像は、予め音素情報と関連付けられており、音素認識部が音声の音素を認識すると、画像編集部は、その音素情報に関連付けられた画像を、通話相手に送信する画像に重ねる。このような音素により表しうる発話者の口元の動きを目標話者の画像に反映する構成により、目標話者が実際に話しているかのような画像を通話相手に送信することができ、より動的にものまねを表現することが可能となる。
請求項7に記載の発明は、請求項3乃至6のいずれかに記載のテレビ電話機において、前記撮像部から入力された発話者の画像の状態を認識する画像認識部をさらに備え、前記発話者状態情報生成部は、前記認識された画像の状態を含めて前記発話者状態情報を生成することを特徴とする。
かかる構成により、画像編集部は、発話者の動き、特に実際の顔の動きに連動して、目標話者関連画像を変化させることが可能となる。従って、発話者は、自ら、視覚的かつ動的に目標話者のものまねを実行することができ、目標話者のものまねをしていることをより強調して通話相手に伝えることが可能となる。
請求項8に記載の発明は、請求項7に記載のテレビ電話機において、前記画像認識部は、発話者の顔があると認識した場合に、該顔の位置を検出し、前記発話者状態情報生成部は、前記検出した顔の位置に係る情報である顔位置情報を含めて前記発話者状態情報を生成し、前記画像編集部は、前記顔位置情報に対応する顔の位置に、前記目標話者関連画像を重ねることを特徴とする。
かかる構成により、発話者は、自己の顔を移動させることによって、通話相手に送信する目標話者関連画像の位置を変化させることができる。
請求項9に記載の発明は、請求項8に記載のテレビ電話機において、前記画像認識部は、発話者の顔があると認識した場合に、該顔の傾きを検出し、前記発話者状態情報生成部は、前記検出した顔の傾きに係る情報である顔傾き情報を含めて前記発話者状態情報を生成し、前記画像編集部は、前記顔傾き情報に応じて、前記目標話者関連画像を回転させて重ねることを特徴とする。
かかる構成により、発話者は、自己の顔の傾きを変えることによって、通話相手に送信する目標話者関連画像を回転させることができる。
請求項10に記載の発明は、請求項8または9のいずれかに記載のテレビ電話機において、前記画像認識部は、発話者の顔があると認識した場合に、該顔の大きさを検出し、前記発話者状態情報生成部は、前記検出した顔の大きさに係る情報である顔サイズ情報を含めて前記発話者状態情報を生成し、前記画像編集部は、前記顔サイズ情報に応じて、前記目標話者関連画像を拡大もしくは縮小することを特徴とする。
かかる構成により、発話者は、自己の顔の大きさ、即ち、撮像部との距離を変えることによって、通話相手に送信する目標話者関連画像の大きさを変化させることができる。
請求項11に記載の発明は、請求項8乃至10のいずれかに記載のテレビ電話機において、前記画像認識部は、発話者の顔があると認識した場合に、該発話者の目の開閉を検出し、前記発話者状態情報生成部は、前記検出した目の開閉に係る情報である目開閉情報を含めて前記発話者状態情報を生成し、前記画像編集部は、前記目開閉情報に応じて、前記目標話者関連画像における目を開閉させることを特徴とする。
このような発話者の目の開閉動作を目標話者の画像に反映する構成により、目標話者が実際に瞬きしているかのような画像を通話相手に送信することができ、より動的にものまねを表現することが可能となる。
請求項12に記載の発明は、請求項8乃至11のいずれかに記載のテレビ電話機において、前記画像認識部は、発話者の顔があると認識した場合に、該発話者の口の開閉を検出し、前記発話者状態情報生成部は、前記検出した口の開閉に係る情報である口開閉情報を含めて前記発話者状態情報を生成し、前記画像編集部は、前記口開閉情報に応じて、前記目標話者関連画像における口を開閉させることを特徴とする。
このような発話者の口元の開閉動作を目標話者の画像に反映する構成により、目標話者が実際に話しているかのような画像を通話相手に送信することができ、より動的にものまねを表現することが可能となる。
請求項13に記載の発明は、請求項1乃至12のいずれかに記載のテレビ電話機において、前記声質変換フィルタは、個々の発話者の声質を共通の中間話者の声質に変換するための第1声質変換フィルタと、該中間話者の声質を個々の目標話者の声質に変換するための第2声質変換フィルタとからなり、前記データ選択部は、前記声質変換フィルタとして、前記第1声質変換フィルタと前記第2声質変換フィルタとを選択し、前記声質変換部は、前記音声入力部から入力された発話者の音声の声質を、前記選択された第1声質変換フィルタを用いて中間話者の声質に変換し、さらに該中間話者の声質を、前記選択された第2声質変換フィルタを用いて目標話者の声質に変換することを特徴とする。
かかる中間話者を介した2段階のフィルタ構成により、発話者は、一度、第1声質変換フィルタを準備するだけで、目標話者を変更する度に声質変換フィルタを生成する必要がなくなる。また、目標話者への声質変換フィルタを提供するサービス提供者側では、一度、第2声質変換フィルタを生成すると、複数の発話者にその共通の第2声質変換フィルタを提供できるので、低コストで効率の良いシステムを築くことができ、少ない負荷で、発話者と目標話者の多数のパターンを生成することが可能となる。
請求項14に記載の発明は、請求項13に記載のテレビ電話機において、前記画像編集部で利用される目標話者に関連する画像と、前記声質変換部で利用される第2声質変換フィルタとを外部の電子機器から受信する受信部をさらに備えることを特徴とする。
上述したように、目標話者への声質変換フィルタを提供するサービス提供者側は、利用者に共通の第2声質変換フィルタを提供できるので、当該テレビ電話機能を遂行するための目標話者に関連する画像とその第2声質変換フィルタとを組み合わせ、パッケージデータとして提供することもできる。発話者側では、かかるパッケージデータを取得するだけで、直ぐにかつ容易に任意の目標話者のものまねをすることが可能になる。
請求項15に記載の発明は、請求項13または14のいずれかに記載のテレビ電話機において、明瞭な発話か密やかな発話かを発話者に選択させる発話種類選択部をさらに備え、前記データ選択部は、前記選択された発話種類に応じて、発話者の明瞭な声質を中間話者の声質に変換する第1声質変換フィルタ、または、発話者の密やかな声質を中間話者の声質に変換する第1声質変換フィルタのいずれかを選択することを特徴とする。
かかる2種類の発話種類に対応した第1声質変換フィルタを設ける構成により、発話者は、自己のおかれている状況に応じて適切な第1声質変換フィルタを選択することが可能になる。
請求項16に記載の発明は、請求項15に記載のテレビ電話機において、前記発話種類選択部において密やかな発話種類が選択された場合、前記データ選択部は、前記中間話者の声質を発話者の明瞭な声質に変換する第2声質変換フィルタを選択することを特徴とする。
かかる構成により、発話者が自己のおかれている状況に制約されて、密やかな発話を行っている場合であっても、発話者の密やかな声質を中間話者の声質に変換する第1声質変換フィルタと、中間話者の声質から発話者本人の明瞭な声質に変換する第2声質変換フィルタとを介すことにより、通話相手は、発話者が発する音声を確実に把握することが可能となる。
請求項17に記載の発明は、請求項15または16のいずれかに記載のテレビ電話機において、前記発話種類選択部において密やかな発話種類が選択された場合、前記画像編集部は、発話者が密やかに発話していることを示す表示画像を重ねることを特徴とする。
発話者が密やかな発話を行っている場合であっても、発話者の密やかな声質を中間話者の声質に変換する第1声質変換フィルタと、中間話者の声質から発話者本人の明瞭な声質に変換する第2声質変換フィルタとを介すことにより、通話相手は、発話者の明瞭な声質を聞くことができる。しかし、通話相手からすれば、その通話がどのような状況で行われているかを把握することができない。上記密やかに発話していることを示す画像を重ねる構成により、通話相手は、発話者の状況を把握することが可能となる。
請求項18に記載の発明は、請求項13乃至17のいずれかに記載のテレビ電話機において、前記第1声質変換フィルタと、前記第2声質変換フィルタとを合成して、発話者の声質を目標話者の声質に直接変換する合成フィルタを生成する声質変換フィルタ合成部をさらに備えることを特徴とする。
上記2段階のフィルタをテレビ電話の通話準備の段階で取り込んでしまった後は、声質変換フィルタを2段階のまま維持する必要はない。上述したように2段階の声質変換フィルタを合成すると、発話の度に2段階の声質変換フィルタを介す必要がなくなり、声質変換にかかる処理負荷や消費電力を軽減することが可能となる。
請求項19に記載の発明は、請求項1乃至18のいずれかに記載のテレビ電話機において、自己のテレビ電話機を特定可能な識別子が通話相手のテレビ電話機に送信されている場合に限り、前記画像編集部および前記声質変換部が機能することを許可する機能許可部をさらに備えることを特徴とする。
かかる構成により、目標話者へのなりすましや、発話者を特定できないことに基づく障害を回避することができる。ここで、送信される識別子は、自己のテレビ電話機の電話番号であってもよい。
ここでは、上記各構成要素をテレビ電話機に設ける構成としているが、かかる構成要素を、通話相手のテレビ電話機までの経路にあるサーバや、通話相手のテレビ電話機に設け、連動して動作させる構成とすることもできる。
上記テレビ電話機は、複数の構成要素の集合体で表されるが、各構成要素が単体の装置に属す必要はない。また、上記構成要素は、電気回路もしくはコンピュータ上の機能モジュールとして機能するとしてもよい。
上記課題を解決するために、請求項20に記載の通話方法は、発話者の音声の声質を目標話者の声質に変換させるテレビ電話機を用いて通話を行う通話方法であって、目標話者に関連する画像と発話者の声質を該目標話者の声質に変換する声質変換フィルタとを電話機データ記憶部に記憶させる電話機データ記憶ステップと、目標話者を選択する話者選択ステップと、話者選択ステップで選択された目標話者に関連する画像である目標話者関連画像と目標話者に対応する声質変換フィルタとを、電話機データ記憶部から選択するデータ選択ステップと、発話者の画像を入力する撮像ステップと、撮像ステップで入力された画像を、目標話者関連画像に基づいて編集する画像編集ステップと、発話者の音声を入力する音声入力ステップと、音声入力ステップで入力された発話者の音声の声質を、選択された声質変換フィルタを用いて目標話者の声質に変換する声質変換ステップと、画像編集ステップで編集された画像と声質変換ステップで変換された音声とを通話相手に送信する電話機送信ステップと、を含むことを特徴とする。
上記課題を解決するために、請求項21に記載のプログラムは、目標話者に関連する画像と発話者の声質を該目標話者の声質に変換する声質変換フィルタとを電話機データ記憶部に記憶させる電話機データ記憶ステップと、目標話者を選択する話者選択ステップと、話者選択ステップで選択された目標話者に関連する画像である目標話者関連画像と目標話者に対応する声質変換フィルタとを、電話機データ記憶部から選択するデータ選択ステップと、発話者の画像を入力する撮像ステップと、撮像ステップで入力された画像を、目標話者関連画像に基づいて編集する画像編集ステップと、発話者の音声を入力する音声入力ステップと、音声入力ステップで入力された発話者の音声の声質を、選択された声質変換フィルタを用いて目標話者の声質に変換する声質変換ステップと、画像編集ステップで編集された画像と声質変換ステップで変換された音声とを通話相手に送信する電話機送信ステップと、をコンピュータに実行させることを特徴とする。
上記課題を解決するために、請求項22に記載の声質変換・画像編集サービス提供システムは、本発明のさらに他の観点によれば、サーバと、該サーバと通信可能に接続されるテレビ電話機とから構成され、発話者の音声の声質を目標話者の声質に変換すると共に発話者の画像を編集する声質変換・画像編集サービスを提供する声質変換・画像編集サービス提供システムであって、サーバは、目標話者に関連する画像と、発話者の声質を該目標話者の声質に変換する声質変換フィルタとを記憶するサーバデータ記憶部と、サーバデータ記憶部に記憶された、目標話者に関連する画像と声質変換フィルタとをテレビ電話機に送信するサーバ送信部と、を備え、テレビ電話機は、目標話者に関連する画像と、声質変換フィルタとを受信する受信部と、受信部で受信した、目標話者に関連する画像と声質変換フィルタとを記憶する電話機データ記憶部と、目標話者を選択する話者選択部と、話者選択部で選択された目標話者に関連する画像である目標話者関連画像と、目標話者に対応する声質変換フィルタとを、電話機データ記憶部から選択するデータ選択部と、発話者の画像を入力する撮像部と、撮像部から入力された画像を、目標話者関連画像に基づいて編集する画像編集部と、発話者の音声を入力する音声入力部と、音声入力部から入力された発話者の音声の声質を、選択された声質変換フィルタを用いて目標話者の声質に変換する声質変換部と、画像編集部が編集した画像と、声質変換部が変換した音声とを通話相手に送信する電話機送信部と、を備えることを特徴とする。
このような構成であれば、サーバはサーバデータ記憶部によって、目標話者に関連する画像と、発話者の声質を該目標話者の声質に変換する声質変換フィルタとを記憶することが可能であり、サーバ送信部によって、目標話者に関連する画像と声質変換フィルタとをテレビ電話機に送信することが可能となる。
また、テレビ電話機は、所謂「ものまね」において、目標話者の音声だけでなく、目標話者に関連する画像に基づいて画像編集部で編集された画像、例えば目標話者の顔写真も通話相手のテレビ電話機に送信されるので、通話相手は、発話者が誰のものまねをしているのかを聴覚および視覚で直感的に把握することが可能となる。
請求項23に記載の発明は、請求項22に記載の声質変換・画像編集サービス提供システムにおいて、前記声質変換フィルタは、個々の発話者の声質を共通の中間話者の声質に変換するための第1声質変換フィルタと、該中間話者の声質を個々の目標話者の声質に変換するための第2声質変換フィルタとからなり、前記サーバ送信部は、前記第1声質変換フィルタまたは第2声質変換フィルタのいずれか一方または両方を送信することができ、前記受信部は、前記第1声質変換フィルタまたは第2声質変換フィルタのいずれか一方または両方を受信することができ、前記電話機データ記憶部は、前記受信部で受信された第1声質変換フィルタまたは第2声質変換フィルタのいずれか一方または両方を含む、第1声質変換フィルタおよび第2声質変換フィルタを記憶し、前記データ選択部は、前期第1声質変換フィルタが予め指定されている場合には、第2声質変換フィルタを前記電話機データ記憶部から選択し、前期第1声質変換フィルタが予め指定されていない場合には、前記声質変換フィルタとして、前記第1声質変換フィルタと第2声質変換フィルタとを前記電話機データ記憶部から選択し、前記声質変換部は、前期第1声質変換フィルタが予め指定されている場合には、前記指定された第1声質変換フィルタを用いて中間話者の声質に変換し、前期第1声質変換フィルタが予め指定されていない場合には、前記音声入力部から入力された前記発話者の音声の声質を、前記選択された第1声質変換フィルタを用いて中間話者の声質に変換し、さらに該中間話者の声質を、前記選択された第2声質変換フィルタを用いて前記目標話者の声質に変換することを特徴とする。
このような構成であれば、かかる中間話者を介した2段階のフィルタ構成により、発話者は、一度、第1声質変換フィルタを準備するだけで、目標話者を変更する度に声質変換フィルタを生成する必要がなくなる。また、目標話者への声質変換フィルタを提供するサービス提供者側のサーバでは、一度、第2声質変換フィルタを生成すると、複数の発話者にその共通の第2声質変換フィルタを提供できるので、低コストで効率の良いシステムを築くことができ、少ない負荷で、発話者と目標話者の多数のパターンを生成することが可能となる。
請求項24に記載の発明は、請求項22または23に記載の声質変換・画像編集サービス提供システムに用いられるサーバであって、前記サーバデータ記憶部およびサーバ送信部を備えることを特徴とする。
このような構成であれば、請求項22または23に記載の声質変換・画像編集サービス提供システムにおけるサーバと同等の作用及び効果が得られる。
請求項25に記載の発明は、請求項22または23に記載の声質変換・画像編集サービス提供システムに用いられるテレビ電話機であって、前記受信部、電話機データ記憶部、話者選択部、データ選択部、撮像部、画像編集部、音声入力部、声質変換部、および電話機送信部を備えることを特徴とする。
このような構成であれば、請求項22または23に記載の声質変換・画像編集サービス提供システムにおけるテレビ電話機と同等の作用及び効果が得られる。
また、上述したテレビ電話機における従属項に対応する構成要素やその説明は、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバにも適用可能である。
以上説明したように本発明のテレビ電話機によれば、所謂ものまねを行う際に、声質変換された目標話者の音声と、目標話者に関連する画像とを連動して通話相手に送信することができ、通話相手は、発話者が誰のものまねをしているのかを聴覚および視覚を通じて直感的に把握することが可能となる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
携帯電話等の携帯型移動端末には、利用者の顔画像を撮像するカメラと、通話相手の顔画像を表示するディスプレイとが装備されている。かかる構成を利用して、通話相手の現在の通話状態を確認しながら会話する、所謂テレビ電話が可能となる。
このようなテレビ電話では、画像や音声を加工してより通話を楽しむ工夫がなされ、娯楽性が高められている。例えば、自身の分身としてのキャラクタであるアバターを選択し、通話中に自身の画像の代わりにそのアバターの画像を送信したり、自身の音声を他の音声に変換して通話相手に伝えたりすることができる。
しかし、アバターが自身の分身、もしくは通話相手の分身であることと、声質変換との関連性を見いだすことはできない。従って、発話者の音声を周知の目標話者の音声に変換する所謂「ものまね」を行ったとしても、臨場感に欠けてしまう。さらには、テレビ電話機を介すことによる音質の劣化が生じ、そのものまねしている目標話者が誰であるかを発話者が明示的に示さない限り、誰のものまね音声であるかを通話相手が把握するのは困難である。
本発明の実施形態においては、発話者から通話相手に画像および音声を送信する際に、発話者から目標話者への声質変換が行われた場合、それと連動して発話者の画像も目標話者に関連する画像に変化させることを特徴としている。この画像が変化するタイミングとしては、1.発話者が操作したとき、2.発話者の発話が変化したとき、3.発話者が視覚的に動いたとき、が挙げられる。以下、上記3つのタイミングに関して、3つの実施形態に分けて説明する。また、発話者と目標話者との間の声質の変換に関するさらなる特徴を第4および第5の実施形態として詳述する。
(第1の実施形態)
(声質変換・画像編集サービス提供システム)
図1は、テレビ電話機100を利用した声質変換・画像編集サービス提供システムを説明するための説明図である。上記声質変換・画像編集サービス提供システムの一つの実施形態を説明すると、発信側の発話者110や対話先の通話相手120がテレビ電話機100としての携帯電話を有し、互いが基地局130を介して通信網132により接続されている。ここで、テレビ電話機100は、携帯電話機、PHS(Personal Handy phone System)端末、家庭用電話機、PDA(Personal Digital Assistant)、モバイルパーソナルコンピュータ、パーソナルコンピュータ等の情報通信端末から形成される。
かかるテレビ電話機100は、テレビ電話を使う発話者110が発した画像と音声とをリアルタイムに通話相手120に送信し、同時に通話相手120の画像と音声とをリアルタイムに受信する。従って、発話者110は、通話相手120の現在の顔色を窺いながら、あたかも目の前で対話するが如く通話を楽しむことができる。ここで、音声とは、人間が発声器官を通じて発したり、電子機器で再生される言語音であり、1または2以上の基本周波数を合成した波形で表される発音の集合を言い、声質とは音声の音色や音程のことを言う。
また、通信網132には、サーバ140も接続されている。かかるサーバ140は、当該テレビ電話機100で利用される目標話者に関連する画像や目標話者に対応する声質変換フィルタを組み合わせたパッケージデータを保持し、テレビ電話機100からの要求に応じてこのパッケージデータを提供(配信)することができる。以下、テレビ電話機100やサーバ140に関して詳述する。
(テレビ電話機100)
図2は、テレビ電話機100の概略的な構成を示した機能ブロック図である。かかるテレビ電話機100は、中央制御部146と、電話機データ記憶部148と、表示部150と、話者選択スイッチ152と、話者選択部154と、データ選択部156と、撮像部160と、画像編集部162と、音声入力部164と、声質変換部166と、電話機送信部168と、変調送信部170と、アンテナ部172と、ものまねスイッチ174と、受信復調部176と、受信部180と、画像表示部182と、音声出力部184と、スピーカ186と、機能許可部188とを含んで構成される。また、ここでは、テレビ電話機100で発話するユーザ110を発話者、その発話を聞くユーザ120を通話相手と呼ぶ。
上記中央制御部146は、中央処理装置(CPU)を含む半導体集積回路により、当該テレビ電話機100全体を管理および制御する。また点線で囲まれた領域190内の各構成要素は、この中央制御部146の管理下にあり、電気回路またはプログラムモジュールとして機能する。従って、領域190内の各構成要素は、通常記憶媒体に保持され、中央処理装置に読み込まれて各機能を遂行する。
上記電話機データ記憶部148は、RAM、EPROM、不揮発性RAM、フラッシュメモリ、カードメモリ、USBメモリ、HDD(Hard Disk Drive)等の記憶媒体から構成され、少なくとも、ものまね対象である目標話者に関連する目標話者データとして、目標話者に関連する1または2以上の画像192と、発話者の声質から目標話者の声質への声質変換を可能にする声質変換フィルタ194とを記憶している。
また、目標話者データは、上記目標話者に関連する画像192と後述する第2声質変換フィルタとの組み合わせであってもよく、かかる組み合わせによるパッケージデータとしてサーバ140からテレビ電話機100にダウンロードされるとしてもよい。
上記表示部150は、液晶表示器等からなり、当該テレビ電話機100で利用されるアプリケーション等の選択画面出力もしくは結果出力を行う。図2では、ものまね対象となる目標話者を選択するための目標話者リスト196が表示されている。この目標話者リスト196は、後述する話者選択部154によって生成される。また、表示部150は、テレビ電話の際、通話相手のテレビ電話機から受信した通話相手の画像も表示する。
上記話者選択スイッチ152は、十字キー、ジョグダイヤル、キーボード等から形成され、その押圧により、表示部150に表示された目標話者リスト196から特定の目標話者を選択する。また、通話相手への発信や他のアプリケーションの操作等にも利用される。
上記話者選択部154は、まず、データ選択部156を介して電話機データ記憶部148に記憶されている目標話者に関連する画像192または声質変換フィルタ194を参照し、目標話者として選択することが可能な話者のリストである目標話者リスト196を生成し、表示部150に送信する。ここで、発話者が、表示部150に表示された目標話者リスト196中から、話者選択スイッチ152を通じて目標話者を選択した場合、話者選択部154は、その選択された目標話者をものまね対象の目標話者として認識し、データ選択部156に伝達する。
上記データ選択部156は、話者選択部154で選択された目標話者に関連する画像192である目標話者関連画像と、目標話者に対応する声質変換フィルタ194とを、電話機データ記憶部148から選択する。
上記撮像部160は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を含んで形成され、この撮像素子により入力(撮像)された画像を取り込んで、画像編集部162に送信する。
上記画像編集部162は、撮像部160から入力された発話者やその周辺を含む画像を、データ選択部156が選択した目標話者関連画像に基づいて編集する。この編集は、入力された画像の一部や全部に、目標話者に関連する画像を重ねることを含む。重ねる画像は、生写真等、目標話者そのものであってもよいし、目標話者に関連する、例えば、目標話者を連想可能な画像であってもよい。
ここで、目標話者に関連する画像192に基づいて編集するとは、後述するように入力された画像に連動して目標話者関連画像を変化させることでもあるが、入力された画像に拘わらず、目標話者関連画像をアバターのように送信画像として利用する等、単に目標話者関連画像に置き換えることも含んでいる。
画像編集部162が撮像部160から入力された画像に目標話者を上書きする場合、目標話者関連画像に座標指定が関連付けられていれば、かかる目標話者関連画像毎の座標指定に従って、その座標位置に目標話者関連画像を表示してもよく、発話者の顔画像にお面をかぶせる要領で発話者の顔画像の位置に表示してもよい。
上記音声入力部164は、マイクロフォン等音声入力可能な装置で構成され、発話者の発する音声を電気信号に変換して声質変換部166に送信する。
上記声質変換部166は、データ選択部156が選択した声質変換フィルタ194を用いて、音声入力部164から入力された発話者の音声の声質を、話者選択部154で選択されている目標話者の声質に変換する。本実施形態においては、声質変換部166が音色のみ変換しているので、発話者は、目標話者の言い回しを真似る必要はあるものの、ピッチを自動調整したり地声と裏声のそれぞれのフィルタを用意するなどの工夫を施して、ものまねの質を上げることも可能である。
声質変換部166は、例えば、混合正規分布モデル(GMM:Gaussian Mixture Model)に基づいて、スペクトル系列等の特徴量を変換する特徴量変換法(例えば、A. Kain and M.W.Macon," Spectral voice conversion for text-to-speech synthesis," Proc.ICASSP,pp.285-288,Seattle,U.S.A.May,1998.参照)で実現でき、その他にもあらゆる公知の手法を用いることが可能である。
上記電話機送信部168は、通常通話において、発話者自身の画像と音声を変調送信部170に送信し、画像編集部162が編集した画像と、声質変換部166が変換した音声とを変調送信部170に送信する。
上記変調送信部170は、電話機送信部168から受信した電気信号の周波数を送信周波数に変調して変調信号を生成し、この変調信号をアンテナ部172に送出する。
上記アンテナ部172は、変調送信部170の出力を送信電波に変えて送信し、通話相手のテレビ電話機にその内容を伝達する。また、通話相手のテレビ電話機からの受信電波を受信し、後述する受信復調部176に出力する。
上記ものまねスイッチ174は、発話者により所望のタイミングで押圧され、このものまねスイッチ174が有効な間、画像編集部162および声質変換部166を含むものまね機能が実行される。このものまねスイッチ174は、初期状態を、ものまね、即ち、画像編集部162および声質変換部166を機能させる状態とし、押圧毎にものまね解除とものまね処理開始とが切り替わるとしてもよく、押圧し続けている期間のみものまね処理が実行されるとしてもよい。また、ものまねスイッチ174は、物理的なボタンでもよいし、その都度メニュー画面からものまねを行うかどうかを設定するソフト入力であってもよい。このようにして、発話者は、ものまねスイッチ174の操作により、ものまねを行うタイミングを、自己の意志に基づいて決めることができる。従って、発話者は、ものまねしたい発話に対してのみ、ものまねを実行することができ、その部分を通話相手に強調して伝えることができる。
上記受信復調部176は、受信電波の増幅と周波数同調検波を行い、さらに復調処理を経て得られた電気信号を受信部180に送信する。
上記受信部180は、受信復調部176からの電気信号を受信して、通話相手の画像と音声とを画像表示部182および音声出力部184とに送信する。また、画像編集部162で利用される目標話者に関連する画像や、声質変換部166で利用される声質変換フィルタを外部の電子機器、例えば、サーバ140から受信することもできる。また、声質変換フィルタ194として、後述する第1声質変換フィルタもしくは第2声質変換フィルタのいずれか一方または両方を受信することもできる。
上記画像表示部182は、受信部180で受信された通話相手の画像を、表示部150にリアルタイムに表示する。
上記音声出力部184は、受信部180で受信された通話相手の音声を、スピーカ186にリアルタイムに出力する。
上記スピーカ186は、音声出力部184からの音声信号を受けて、通話相手の音声を発話者に伝達する。
上記機能許可部188は、自己のテレビ電話機100を特定することが可能な識別子、例えば、自己のテレビ電話機100の電話番号(ナンバーディスプレイ)や、声質変換に用いる固有の声質変換フィルタの識別情報、後述する固有の第1声質変換フィルタの識別情報等が、通話相手のテレビ電話機に送信されている場合に限り、画像編集部162および声質変換部166が機能することを許可する。かかる構成により、通話相手は、電話をかけてきた発話者を特定することが可能となり、目標話者へのなりすましや、発話者を特定できないことに基づく障害を回避することができる。
図3は、上述したテレビ電話機100における発話者とのインターフェース配置例を示した外観図である。発話者は、表示部150およびスピーカ186により通話相手の画像と音声を取得し、撮像部160および音声入力部164により通話相手に自己の画像と音声を伝達する。そして、ものまね対象となる目標話者を話者選択スイッチ152で選択し、実際にものまねを行う際にはものまねスイッチ174を押圧する。
本実施形態において、ものまねスイッチ174は、表示部150の下側に設けられているが、かかる配置に限られず、撮像部160による入力を遮るものでなければ、テレビ電話機100本体の前面、側面もしくは背面のいずれに配置されてもよい。また、ものまねスイッチ174の機能を、既存の話者選択スイッチ152に統合することで、話者選択スイッチ152が通話中にものまねスイッチ174としても機能してもよい。さらには、ものまねスイッチ174を、既存のポインティングデバイスで実現することもできる。
また、ものまねスイッチ174を複数設けるか、ジョグダイヤル形式で複数の選択をさせるか、話者選択スイッチ152もしくはポインティングデバイスを通じて複数の選択をさせて、同一目標話者の喜怒哀楽等複数の表情、または複数の目標話者(Aさん、Bさん等)を随時選択することもできる。従って、発話者は、ものまねを行う際、そのタイミングと、どの表情もしくはどの目標話者でものまねするかを同時に決めることができ、より明確に発話者の意図するものまねを通話相手に強調して伝えることが可能となる。
本実施形態では、このようなテレビ電話機100を利用して発話者の声質を目標話者の声質に変換し、「ものまね」を行う。かかる「ものまね」において、目標話者の音声だけでなく、目標話者に関連する画像も通話相手のテレビ電話機に送信することで、通話相手は、その目標話者が誰であるかを聴覚および視覚で直感的に判断することが可能となる。
(通話方法)
また、上述したテレビ電話機100を利用し、発話者の音声および画像を目標話者の音声および画像に変換して通話相手に伝達する通話方法も提供される。
図4は、通話方法の処理の流れを示したフローチャートである。かかる通話方法では、目標話者に関連する画像192と、声質変換フィルタ194とが予め電話機データ記憶部148に記憶されている。
テレビ電話機100の話者選択部154は、発話者の選択行為に基づいて、目標話者を選択し、データ選択部156は、電話機データ記憶部148から、話者選択部154で選択された目標話者に関連する画像192である目標話者関連画像と、目標話者に対応する声質変換フィルタ194とを選択する(S200)。その後、通話相手の電話番号を入力して通話相手との通話回線を開き、通話を開始する(S202)。
次に、テレビ電話機100の中央制御部146は、発話者によってものまねスイッチ174が押され、ものまねスイッチ174が有効であるかどうか判断し(S204)、ものまねスイッチ174が有効であると判断された場合、ものまね処理を動作させる。
上記ものまね処理として、まず、画像編集部162は、撮像部160から入力された画像を、目標話者に関連する画像192に基づいて編集する(S206)。
図5、図6、図7は、上記画像編集ステップ(S206)による表示部150の変化を説明した説明図である。テレビ電話機100の画像編集部162は、電話機データ記憶部148から目標話者関連画像を読み込んで、入力された画像の任意の位置に重ねる。
例えば、図5では、ものまねスイッチ174が有効である間、画像全体に、目標話者の画像が上書きされ、表示部150全体に目標話者の画像が表現される。また、図6では、発話者の顔にあたる部分250に目標話者の顔画像252が上書きされている。さらに、図7では、発話者の画像を残したまま、発話者の認識に支障を来さない領域、例えば、発話者の背景画像に目標話者260を表示している。
ここで利用される目標話者に関連する画像の形式は、静止画像であっても動画像であってもよく、画像の内容は、俳優や声優等実在する人物や他界した人物等の実写画像、アニメーション等のキャラクタ、コンピュータグラフィックであってもよい。
続いて、声質変換部166は、音声入力部164から入力された発話者の声質を、声質変換フィルタ194を用いて目標話者の声質に変換する(S208)。ものまねスイッチ174が無効であると判断された場合、画像編集部162および声質変換部166は機能せず、送信される画像および音声は発話者の画像および音声のままとなる。
最後に、電話機送信部168は、画像編集ステップ(S206)および声質変換ステップ(S208)で生成された画像および音声を通話相手に送信する(S210)。ここで、通話の継続が判断され(S212)、通話が終了されなかった場合、その通話の終了が検知されるまで、ものまねスイッチ174の有効判断ステップ(S204)からの処理が繰り返される。
かかる通話方法により、発話者は、ものまねを行うタイミングを意図的に操作することができるので、ものまねしたい発話に対してのみ、ものまねを実行することができ、その部分を通話相手に強調して伝えることができる。
また、コンピュータに上述した通信方法を実行させるプログラムや、そのプログラムを記憶した、コンピュータで読み取り可能な記憶媒体も提供される。
(第2の実施形態)
第1の実施形態では、発話者が意図的に操作したタイミングで発話者の画像を目標話者の画像に変換する動作を説明したが、第2の実施形態においては、それに加えてもしくは独立して、発話者の発話の変化に応じて画像を変換する動作について詳述する。
(テレビ電話機300)
図8は、第2の実施形態におけるテレビ電話機300の概略的な構成を示した機能ブロック図である。かかるテレビ電話機300は、中央制御部146と、電話機データ記憶部148と、表示部150と、話者選択スイッチ152と、話者選択部154と、データ選択部156と、撮像部160と、画像編集部162と、音声入力部164と、発話者状態情報生成部310と、音声検知部312と、音声認識部314と、音素認識部316と、声質変換部166と、電話機送信部168と、変調送信部170と、アンテナ部172と、ものまねスイッチ174と、受信復調部176と、受信部180と、画像表示部182と、音声出力部184と、スピーカ186と、機能許可部188とを含んで構成される。
第1の実施形態における構成要素として既に述べた中央制御部146と、電話機データ記憶部148と、表示部150と、話者選択スイッチ152と、話者選択部154と、データ選択部156と、撮像部160と、音声入力部164と、声質変換部166と、電話機送信部168と、変調送信部170と、アンテナ部172と、ものまねスイッチ174と、受信復調部176と、受信部180と、画像表示部182と、音声出力部184と、スピーカ186と、機能許可部188とは、実質的に機能が同一なので重複説明を省略し、ここでは、構成が相違する発話者状態情報生成部310と、音声検知部312と、音声認識部314と、音素認識部316と、画像編集部162とを主に説明する。
上記発話者状態情報生成部310は、発話者の状態に係る情報である発話者状態情報を生成する。かかる発話者状態情報は、音声入力部164から入力された発話者の音声の状態を示す情報、例えば、後述する、音声有無情報、発話内容情報、音素情報であってもよいし、他の実施形態において説明する撮像部160から入力された発話者の画像の状態を示す情報、例えば、顔位置情報、顔傾き情報、顔サイズ情報、目開閉情報、口開閉情報であってもよい。画像編集部162は、この発話者状態情報に応じて、編集に用いる目標話者関連画像を変化させることができる。このように目標話者関連画像を、発話者状態情報を通じて画一的に編集することで、画像編集部162は、発話者状態情報のみを解読することで撮像部160から入力された画像を編集することが可能となる。
特に本実施形態では、発話者の発話の変化に関する発話者状態情報が生成され、画像編集部162は、発話者の発話の変化に応じて画像を編集する。以下、発話者状態情報の具体的な例を挙げて、当該テレビ電話機300の動作を説明する。
上記音声検知部312は、発話者の音声の有無を判断し、所定レベル(閾値)以上の音声が検出されたことを発話者状態情報生成部310に伝達する。かかる所定レベルは複数設けられるとしてもよく、音声の有無を段階的に、即ち、音声の大雑把な音量も検出することができる。発話者状態情報生成部310は、検知した音声の有無に係る情報、例えば、音声の有無をフラグで示したものや音声の振幅の大きさを所定段階の数値で示した音声有無情報を含めて発話者状態情報を生成し、画像編集部162は、発話者状態情報の音声有無情報から発話者の音声の有無を把握し、編集に用いる目標話者関連画像を変化させる。
このように音声の有無に応じて画像を変化させることで、音声が有るとき、即ち発話者がものまねしているとき、目標話者に関連する画像の変化によってものまねを実行していることを強調することができる。また、音声が無いときでも、目標話者に関連する他の画像を表示することによって通話相手を飽きさせることなく、通話相手の興味を維持することができる。
例えば、画像編集部162は、音声有無情報に応じて、音声が無いときは発話者の画像を、音声が有るときは入力された画像に目標話者に関連する画像を重ねるとしてもよいし、音声が無いときは目標話者の静止画像を、音声が有るときは目標話者の動画像、例えば、口を開閉している動画像(口パク画像)を画像に重ねるとしてもよい。
図9は、上記口の開閉による表示部150の変化を説明した説明図である。ここでは、発話者全体に目標話者が上書きされ、その目標話者の口の開閉を調整している。例えば、画像編集部162は、口を完全に閉じた状態330、半開きの状態332、開けた状態334等を発話者の発話の有無に応じて変更する。かかる口の開閉画像は、口の開閉度合いが相異する目標話者の静止画像が任意の数だけ準備されるとしてもよいし、目標話者の全体画像は固定にして、口の開閉部分だけを任意の数準備し、目標話者に上書きして作られるとしてもよい。
図10は、音声検知部312による音声の有無の判断を説明するためのタイミングチャート図である。図10では、音声の振幅が所定のレベルを超えているかどうかが検知され、音声の振幅が所定レベル以下の領域350では「音声無し」と、所定レベル以上の領域352では「音声有り」と判断される。また、判断基準は、音声の振幅のみならず、その音声の波形から人の声であるかどうかも検知し、人の声である場合のみ「音声有り」の判断がなされるとしてもよい。
ここで、音声の振幅が所定レベル以上かどうかを厳密に判断するとした場合、表示部150に映し出される目標話者の表示がその振幅の変動に応じて頻繁に変化することとなる。このような現象を回避するため、音声検知部312において、画像変更の最低実行時間を設けたり、ヒステリシス特性を設けてもよい。例えば、音声の振幅が一度所定のレベル以上になったら、振幅の変動に拘わらず所定時間「音声有り」を維持し、その間に再度所定のレベルを超えた場合、その時点から所定時間をカウントし直すことが考えられる。こうして、表示部150における画像が煩雑に変化する問題を解消できる。
また、このような音声検知部312の音声の有無の判断は、ものまねスイッチ174が有効な間のみ動作するとしてもよい。即ち、発話者は、ものまねスイッチ174を押すことによって声質変換を開始し、所定レベル以上の音声を発したときだけ、画像を目標話者に変化させる。これに対して、ものまねスイッチ174が無効のときは、画像および音声のいずれの変換も行わない。こうして発話者は、発話の度にものまねスイッチ174を押す手間を省くことができる。
また、画像編集部162は、「音声有り」の場合のみ画像を編集するとは限らず、「音声無し」の場合においても画像の編集を行ってもよい。例えば、「音声有り」の場合、発話者の顔の位置に目標話者の顔の画像を重ね、「音声無し」の場合、発話者の顔の周りに目標話者をうろつかせたり、手を振らせたりして愛想良くさせるといった実施が考えられる。即ち、「音声無し」の場合においても、ものまね対象の音声に連動した画像を表現することができる。
このように、音声が無いときでも他の画像を重ねることによって通話相手を飽きさせず、通話相手の興味を維持することができ、また、今から行われるものまねが誰のものまねであるかを通話相手に予告することができ、音声が有るとき、即ち発話者がものまねしているときの目標話者に関連する画像を強調することが可能となる。
上記音声認識部314は、音声入力部164から入力された発話者の音声(音声波形)に含まれる意味内容に関する情報(言語情報)を抽出し、その意味内容を認識し、例えば、予め設定されているキーワード等の単語もしくは文章と発話者の発話内容とを比較し、一致した場合、その旨発話者状態情報生成部310に伝える。発話者状態情報生成部310は、認識した発話内容に係る情報、例えば、発話された音声を文字列に置き換えたキーワードやキーワードに対応付けた識別子といった発話内容情報を含めて発話者状態情報を生成し、画像編集部162は、発話者状態情報の発話内容情報からキーワードが一致したのを認識し、そのキーワードと連動した目標話者に関連する画像を重ねる。例えば、目標話者が所定の決めポーズとともにキーワードを利用している場合、そのキーワードに連動して上記所定の決めポーズを表す画像を重ねるといった具合である。
さらに、音声認識部314は、発話者の動作に関連する音声、例えば、くしゃみ、笑い声、あくび、舌打ち、歯ぎしり、口笛等のその意味内容を認識し、その情報を発話者状態情報生成部310に伝えるとしてもよい。この場合、画像編集部162は、その発話者の動作に対応した目標話者に関連する画像、例えば、くしゃみをしている動画像等を重ねることによって、ものまねの状態を維持しつつ、発話者の状態を通話相手にリアルタイムで伝達することが可能になる。
上記音素認識部316は、音声入力部164から入力された発話者の音声に関して音声認識を行い音声の音素を把握し、例えば、その音声の単音の種類、即ち子音か母音かを判断して、その旨発話者状態情報生成部310に伝える。発話者状態情報生成部310は、認識した発話内容に係る情報、例えば、子音かどうかのフラグや音素を文字に置き換えたもの等の発話内容情報を含めて発話者状態情報を生成する。画像編集部162は、発話者状態情報の発話内容情報から、今行われている発話が子音か母音か、またその子音および母音が何かによって目標話者に関連する画像の口の開閉度合いを調整することができ、その音声の大きさに応じて口の開閉度合いを調整することもできる。口の開閉度合いの画像に関しては、既に図9を用いて説明したのでここでは省略する。
このような発話者の口元の動きを目標話者の画像に反映する構成により、目標話者が実際に話しているかのような画像を通話相手に送信することができ、より動的にものまねを表現することが可能となる。
上述したように画像編集部162は、任意の音声と画像とを予め関連付け、この任意の音声が音声検知部312、音声認識部314、または音素認識部316によって検知された場合、この関連付けられた画像を用いて編集する。かかる構成により、発話者の発話に適した画像を通話相手に送信することができ、動的にものまねを表現することが可能となる。
(第3の実施形態)
第3の実施形態では、第1の実施形態の動作および/または第2の実施形態の動作に加えてもしくは独立して、発話者が視覚的に動いたとき画像を変換する動作について詳述する。
(テレビ電話機400)
図11は、第3の実施形態におけるテレビ電話機400の概略的な構成を示した機能ブロック図である。かかるテレビ電話機400は、中央制御部146と、電話機データ記憶部148と、表示部150と、話者選択スイッチ152と、話者選択部154と、データ選択部156と、撮像部160と、発話者状態情報生成部310と、画像認識部410と、画像編集部162と、音声入力部164と、声質変換部166と、電話機送信部168と、変調送信部170と、アンテナ部172と、ものまねスイッチ174と、受信復調部176と、受信部180と、画像表示部182と、音声出力部184と、スピーカ186と、機能許可部188とを含んで構成される。
第1の実施形態における構成要素として既に述べた中央制御部146と、電話機データ記憶部148と、表示部150と、話者選択スイッチ152と、話者選択部154と、データ選択部156と、撮像部160と、発話者状態情報生成部310と、音声入力部164と、声質変換部166と、電話機送信部168と、変調送信部170と、アンテナ部172と、ものまねスイッチ174と、受信復調部176と、受信部180と、画像表示部182と、音声出力部184と、スピーカ186と、機能許可部188とは、実質的に機能が同一なので重複説明を省略し、ここでは、構成が相違する画像認識部410と、画像編集部162とを主に説明する。
上記画像認識部410は、撮像部160から入力された発話者の画像の状態を画像認識して発話者状態情報生成部310に伝える。発話者状態情報生成部310は、認識された画像の状態を含めて発話者状態情報を生成する。そして画像編集部162は、この発話者状態情報に応じて、編集に用いる目標話者関連画像を変化させる。ここで、画像認識は、撮像部160から入力された画像に対して認識処理を行い、その画像の意味や内容を認識するシステムである。ここでは、既存の画像認識技術を利用して、発話者の顔やその中の目、口といった特徴的な部分の撮像画像における座標を認識し、左右上下への移動や、瞬き、口の開閉といった変化を把握することができる。
かかる構成により、画像編集部162は、発話者の動き、特に実際の顔の動きに連動して、目標話者関連画像を変化させることが可能となる。従って、発話者は、自ら、視覚的かつ動的に目標話者のものまねを実行することができ、目標話者のものまねをしていることをより強調して通話相手に伝えることが可能となる。以下、発話者状態情報の具体的な例を挙げて、当該テレビ電話機400の動作を説明する。
また、画像認識部410は、発話者の顔があると認識した場合に、該顔の位置を検出し、発話者状態情報生成部310は、検出した顔の位置に係る情報、例えば、表示部150中の絶対もしくは相対座標や発話者の画像に対する絶対もしくは相対座標といった顔位置情報を含めて発話者状態情報を生成し、画像編集部162は、顔位置情報に対応する顔の位置に、目標話者関連画像を重ねることができる。かかる構成により、発話者は、自己の顔を移動することによって、通話相手に送信する目標話者関連画像の位置を変化させることができる。
また、画像認識部410は、発話者の顔があると認識した場合に、該顔の傾きを検出し、発話者状態情報生成部310は、検出した顔の傾きに係る情報、例えば、表示部150に対する絶対角度や発話者に対する相対角度といった顔傾き情報を含めて発話者状態情報を生成し、画像編集部162は、顔傾き情報に応じて、目標話者関連画像を回転させて重ねるとしてもよい。ここで、上記顔の傾きは、発話者の両目の配置から計算されるとしてもよい。さらに目の向いている方向や瞬きも連動して変化させてもよい。かかる構成により、発話者は、自己の顔の傾きを変えることによって、通話相手に送信する目標話者関連画像を回転させることができる。
画像認識部410は、発話者の顔があると認識した場合に、該顔の大きさを検出し、発話者状態情報生成部310は、検出した顔の大きさに係る情報、例えば、表示部150に対して発話者の顔が占める面積や表示部150全体に対する面積比といった顔サイズ情報を含めて発話者状態情報を生成し、画像編集部162は、顔サイズ情報に応じて、目標話者関連画像を拡大もしくは縮小するとしてもよい。かかる構成により、発話者は、自己の顔の大きさ、即ち、撮像部160との距離を変えることによって、通話相手に送信する目標話者関連画像の大きさを変化させることができる。
画像認識部410は、発話者の顔があると認識した場合に、該発話者の目の開閉を検出し、発話者状態情報生成部310は、検出した目の開閉に係る情報、例えば、目の開閉をフラグで示したものや目の開閉度合いを所定段階の数値で示した目開閉情報を含めて発話者状態情報を生成し、画像編集部162は、目開閉情報に応じて、目標話者関連画像における目を開閉させるとしてもよい。このような発話者の目の開閉動作を目標話者の画像に反映する構成により、目標話者が実際に瞬きしているかのような画像を通話相手に送信することができ、より動的にものまねを表現することが可能となる。
画像認識部410は、発話者の顔があると認識した場合に、該発話者の口の開閉を検出し、発話者状態情報生成部310は、検出した口の開閉に係る情報、例えば、口の開閉をフラグで示したものや口の開閉度合いを所定段階の数値で示した口開閉情報を含めて発話者状態情報を生成し、画像編集部162は、口開閉情報に応じて、目標話者関連画像における口を開閉させるとしてもよい。このような発話者の口元の開閉動作を目標話者の画像に反映する構成により、目標話者が実際に話しているかのような画像を通話相手に送信することができ、より動的にものまねを表現することが可能となる。
かかる構成により、発話者の顔の細かい動作まで目標話者に対応させて通話相手に送信することができ、より動的にものまねを表現することが可能となる。
(第4の実施形態)
第4の実施形態では、発話者と目標話者との間の声質の変換に関するさらなる特徴を述べる。
(声質変換部166)
発話者の声質を目標話者の声質に変換する場合、通常、特定の発話者から特定の目標話者に変換する変換関数として声質変換フィルタ194が利用される。ここで、声質変換フィルタ194は、発話者および目標話者の音声を収録、蓄積し、発話者および目標話者の音声の対応関係をこの蓄積された音声から学習する学習機能を伴って、更新されるとしてもよい。
図12は、声質の変換に利用される声質変換フィルタ194を説明するための説明図である。図12においては、M人(Mは整数)の発話者110A、110B、110Cの声質をN人(Nは整数)の目標話者450A、450B、450Cの声質に変化させる声質変換フィルタ452が記されている。かかる図を参照して分かるように、全ての声質変換を網羅するためには、M×Nの声質変換フィルタfAA、fAB、fAC、fBA、fBB、fBC、fCA、fCB、fCCが必要となる。
また、このような声質変換を実現しようとした場合、発話者の声質と目標話者の声質との組み合わせによる固有の変換関数を上述したM×N分生成しなくてはならない。従って、その準備には時間がかかり、任意の目標話者を気軽に選択することができない。
本実施形態における声質変換部166は、上記のような発話者の声質から目標話者の声質への直接的な声質変換フィルタ194ではなく、その間に、共通に設けられた話者である中間話者の音声を中継した2段階の声質変換フィルタの構成をとることができる。即ち、声質変換部166は、個々の発話者の声質を共通の中間話者の声質に変換するための第1声質変換フィルタと、中間話者の声質を個々の目標話者の声質に変換するための第2声質変換フィルタとを用いて声質を変換する。
また、データ選択部156は、声質変換フィルタ194として、第1声質変換フィルタと第2声質変換フィルタとを選択し、声質変換部166は、音声入力部から入力された発話者の音声の声質を、選択された第1声質変換フィルタを用いて中間話者の声質に変換し、さらに中間話者の声質を、選択された第2声質変換フィルタを用いて目標話者の声質に変換することができる。
ここで、中間話者は、人もしくはTTS(Text−to−Speech)とすることができ、第2声質変換フィルタを生成、提供するサービス提供者によって構築される。かかる技術の基本的な概念は、本件出願人による特願2005―349754号の技術内容を参酌することができる。
図13は、第1声質変換フィルタ462と第2声質変換フィルタ464による声質変換を説明するための説明図である。図13においては、M人(Mは整数)の発話者110A、110B、110CとN人(Nは整数)の目標話者450A、450B、450Cとの間に、中間話者460を設け、発話者110A、110B、110Cの声質は、一旦中間話者460の声質に変換された後、目標話者450A、450B、450Cの声質に変換される。
従って、声質変換を実現するために、発話者110A、110B、110Cの声質から中間話者の声質へのM個の第1声質変換フィルタfAM、fBM、fCMと、中間話者の声質から目標話者450A、450B、450Cの声質へのN個の第2声質変換フィルタfMA、fMB、fMCとを準備するだけで済み、全ての声質変換を網羅するために、M+N個の声質変換フィルタのみで足りる。従って、低制作コスト化や記憶容量の最小化を図ることが可能となる。また、当該第1、第2声質変換フィルタが学習機能を伴う場合、発話者の所持するテレビ電話機では、第1声質変換フィルタの学習機能を担保すればよく、学習負担も軽減される。
かかる中間話者を介した2段階の声質変換フィルタ構成により、発話者は、一度、第1声質変換フィルタ462を準備すると、目標話者を変更する度に声質変換フィルタを生成する必要がなくなる。これは、共通な中間話者460を声質変換元とした多数の第2声質変換フィルタ464を利用することができるからである。従って、任意の目標話者の第2声質変換フィルタ464さえダウンロードすれば、第1声質変換フィルタ462と合わせて直ぐにものまねに適用することが可能となる。
また、このような発話者に第2声質変換フィルタ464を提供するサービス提供者は、発話者毎に声質変換フィルタを準備する必要がなくなり、目標話者毎に少なくとも1つの第2声質変換フィルタ464を準備するだけで、その第2声質変換フィルタ464を複数の発話者のものまねに適用することができる。従って、低コストで効率の良いシステムを築くことができ、少ない負荷で、発話者と目標話者の多数のパターンを形成することが可能となる。
上記第1声質変換フィルタ462は、発話者110自身の音声を事前に登録し、素片単位で中間話者460の音声と対応付けて作成されるとしてもよい。このフィルタ作成機能は、テレビ電話機自体に設けられてもよいし、サーバ140等別体の装置に設けられてもよく、サーバ140で生成される場合、インターネット等の通信網、無線通信、赤外線通信、記録媒体を介してテレビ電話機にダウンロードされるとしてもよい。
(サーバ140)
また、第1声質変換フィルタ462または第2声質変換フィルタ464は、目標話者に関連する画像192と共に、上述した声質変換・画像編集サービス提供システムに用いられるサーバ140から自由にダウンロードすることができる。
図14は、第4の実施形態におけるサーバ140の概略的な構成を示した機能ブロック図である。かかるサーバ140は、サーバデータ記憶部480と、サーバ送信部482とを含んで構成される。
上記サーバデータ記憶部480は、目標話者に関連する画像192と、発話者の声質を目標話者の声質に変換する声質変換フィルタ194とを記憶している。かかる目標話者に関連する画像192および声質変換フィルタ194はパッケージデータとして一体に記憶されてもよい。
また、声質変換フィルタ194が、上述したように、中間話者を含んだ2段階の声質変換フィルタとしての第1声質変換フィルタ462と、第2声質変換フィルタ464とからなる場合、サーバデータ記憶部480は、第1声質変換フィルタ462または第2声質変換フィルタ464のいずれか一方または両方を記憶するとしてもよい。
上記サーバ送信部482は、発話者の要求に応じて、サーバデータ記憶部480に記憶された、発話者が所望する目標話者に関連する画像192と、声質変換フィルタ194とをテレビ電話機100に送信する。ここで、サーバ送信部482は、上述したパッケージデータ単位でテレビ電話機100に送信するとしてもよい。
また、声質変換フィルタ194が、第1声質変換フィルタ462と、第2声質変換フィルタ464とからなる場合、サーバ送信部482は、第1声質変換フィルタ462または第2声質変換フィルタ464のいずれか一方または両方をサーバデータ記憶部480から読み出して、テレビ電話100に送信する。
テレビ電話100において、例えば、発話者が固定されており、電話機データ記憶部148に記憶された第1声質変換フィルタ462が予め指定されている場合は、この指定された第1声質変換フィルタ462を使用し、データ選択部156は、第2声質変換フィルタ464をデータ記憶部148から選択する。声質変換部166は、指定された第1声質変換フィルタ462と、第2声質変換フィルタ464を用いて、発話者の音声の声質を、話者選択部154で選択されている目標話者の声質に変換する。
このようなパッケージデータ等のダウンロードは、上記声質変換・画像編集サービス提供システムを利用した場合に限られず、インターネット等の通信網、無線通信、赤外線通信、記録媒体を介して実行することもでき、さらに、テレビ電話機内において、自由に追加、更新、削除が可能である。ダウンロードしたパッケージデータが複数ある場合は、話者選択部154によって選択された目標話者がものまねの対象となる。
また、同一の目標話者に対して、音声(声質)は共通だが、画像が異なる複数のパッケージデータが準備されるとしてもよい。例えば、発話者が「おはよう」と発声したとき、一方のパッケージの目標話者に関連する画像は、口を開閉(口パク)し、他方のパッケージでは、お辞儀するといった実施が考えられる。その他にも、目標話者は同じだが、服装、髪型等外観の違う画像が含まれる等、様々な変形例が考えられる。
(第5の実施形態)
第5の実施形態では、第4の実施形態における声質変換部166に基づく、発話者と目標話者との間の声質の変換に関するさらなる特徴を述べる。
(声質変換部166)
図15は、第5の実施形態におけるテレビ電話機500の概略的な構成を示した機能ブロック図である。かかるテレビ電話機500は、中央制御部146と、電話機データ記憶部148と、表示部150と、話者選択スイッチ152と、話者選択部154とデータ選択部156と、、撮像部160と、画像編集部162と、音声入力部164と、発話種類選択部510と、声質変換部166と、電話機送信部168と、変調送信部170と、アンテナ部172と、ものまねスイッチ174と、受信復調部176と、受信部180と、画像表示部182と、音声出力部184と、スピーカ186と、機能許可部188と、声質変換フィルタ合成部512とを含んで構成される。
第1の実施形態における構成要素として既に述べた中央制御部146と、表示部150と、話者選択スイッチ152と、話者選択部154と、撮像部160と、画像編集部162と、音声入力部164と、電話機送信部168と、変調送信部170と、アンテナ部172と、ものまねスイッチ174と、受信復調部176と、受信部180と、画像表示部182と、音声出力部184と、スピーカ186と、機能許可部188とは、実質的に機能が同一なので重複説明を省略し、ここでは、構成が相違する電話機データ記憶部148と、発話種類選択部510と、声質変換部166と、画像編集部162と、声質変換フィルタ合成部512とを主に説明する。
上記電話機データ記憶部148には、発話者の明瞭な声質と、密やかな声質(ささやき声:NAM)とからそれぞれ中間話者の声質に変換する2つの第1声質変換フィルタ514が記憶されている。ここで、密やかな声質として定義されるNAM(Non−Audible Murmur)は、周囲の人に内容が聴取不能な発話や発話器官のフィルタ特性により調音された声帯振動を伴わない軟部組織伝達の無声呼気音を言う。
上記発話種類選択部510は、まず、データ選択部156を介して、電話機データ記憶部148に記憶されている、発話種類が相異する第1声質変換フィルタ514を参照し、発話者の声質として選択することが可能な、第1声質変換フィルタ514の発話種類リスト516を作成し、表示部150に送信する。ここで、発話者が、表示部150に表示された発話種類リスト516中から、話者選択スイッチ152を通じて明瞭な声質か密やかな声質かを選択した場合、話者選択部154は、その選択された発話種類をデータ選択部156に伝達する。
上記データ選択部156は、発話種類選択部510によって選択された発話種類(発話者の発話状況)に応じて、データ選択部156が、発話者の明瞭な声質を中間話者の声質に変換する第1声質変換フィルタ514、または、発話者の密やかな声質を中間話者の声質に変換する第1声質変換フィルタ514のいずれかを選択し、声質変換部166は、その選択された第1声質変換フィルタ514を用いて、発話者の音声の声質を目標話者の声質に変換する。
上述したように発話種類選択部510において密やかな発話種類が選択された場合、データ選択部156は、第2声質変換フィルタ464として、中間話者の声質から発話者本人の明瞭な声質に変換するフィルタが自動的に選択されるとしてもよい。この場合は、発話者も目標話者も自分自身ということになる。
かかる構成により、通話相手は、発話者のおかれている状況や発話者の発話の大きさに拘わらず、発話者の意図する音声を確実に把握することができ、通話が制限された、例えば、電車の中における発話も通話相手に伝達することが可能となる。
上記画像編集部162は、発話種類選択部510において密やかな発話種類が選択された場合、発話者が密やかに発話していることを示す表示画像を重ねることができる。
図16は、上記画像編集部162の画像の上書きを示した外観図である。ここでは、発話者の画像を残したまま、表示部150中の発話者の認識に支障を来さない領域、例えば、発話者の背景画像に、発話者が密やかに発話していることを示す画像、例えば、ロに人差し指をあてた内緒話を意味するシンボル520を表示している。
発話者が密やかな発話を行っている場合であっても、発話者の密やかな声質を中間話者の声質に変換する第1声質変換フィルタ462と、中間話者の声質から発話者の明瞭な声質に変換する第2声質変換フィルタ464とを介すことにより、通話相手は、発話者の明瞭な音声を聞くことになる。従って、発話者が発話環境により密やかな声質で発話しているのに、通話相手は、それを把握することができないが、上述したようにシンボル520を表示することで、通話相手は、発話者の状況を把握することが可能となる。
上記声質変換フィルタ合成部512は、第1声質変換フィルタ462と、第2声質変換フィルタ464とを合成して、発話者の声質を目標話者の声質に直接変換する合成フィルタを生成する。そして、かかる合成完了後、声質変換部166は、その合成された合成フィルタを利用して声質変換を行う。
テレビ電話機500では、第1声質変換フィルタ462と第2声質変換フィルタ464とを個別にダウンロードしている。しかし、その後は、声質変換フィルタを2段階のまま維持する必要はない。従って、発話の度に2段階の声質変換フィルタを介さず、合成した合成フィルタのみを介すことによって、声質変換にかかる負荷や消費電力を軽減し、声質変換を高速化することが可能となる。かかる声質変換フィルタ合成部512は、当然にして第4の実施形態の第1声質変換フィルタ462、第2声質変換フィルタ464にも適用できる。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、上述した実施形態において、発話者のテレビ電話機に全ての構成要素を設けているが、かかる場合に限らず、通信網を介してアクセスすることが可能なサーバ内にこの構成要素の一部を配置し、通話中このサーバによる音声および画像の変換を通じて、通話相手に伝達されるとしてもよく、また、通話相手のテレビ電話機に上記構成要素を設け、発話者からの音声および画像を通話相手のテレビ電話機において変換することも可能である。
また、上述した実施形態においては、機能許可部を当該発話者側のテレビ電話機に設けているが、通話相手側のテレビ電話機に配して、発話者のものまねを通話相手側で制限することも可能である。
また、上述した実施形態においては、発話者の画像および音声によって、目標話者に関連する画像を変更する例を示したが、かかる場合に限らず、例えば、目標話者の特徴的な話し方をキーワードとして検知したとき、その検知に応じて、目標話者に関連する画像を表示し、再度その特徴的な話し方を目標話者の音声で表す、ピンポイントものまねが実施されるとしてもよい。
さらに、上述した実施形態においては、目標話者として俳優や声優等人間の音声を挙げて説明しているが、かかる場合に限られず、動物の鳴き声や、無生物から発せられる音等様々な音に適応することも可能である。また、テレビ電話機は無線に限らず、有線の回線を介して通信網に接続されていてもよい。
なお、本明細書の通話方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むとしても良い。
本発明は、テレビ電話における声質変換と共に画像を変化させるテレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバに適用可能である。
第1の実施形態におけるテレビ電話機を使用した声質変換・画像編集サービス提供システムを説明するための説明図である。 テレビ電話機の概略的な構成を示した機能ブロック図である。 テレビ電話機における発話者とのインターフェース配置例を示した外観図である。 通話方法の処理の流れを示したフローチャートである。 画像編集ステップ)による表示部の変化を説明した説明図である。 画像編集ステップ)による表示部の変化を説明した説明図である。 画像編集ステップ)による表示部の変化を説明した説明図である。 第2の実施形態におけるテレビ電話機の概略的な構成を示した機能ブロック図である。 口パクによる表示部の変化を説明した説明図である。 音声認識部による音声の判断を説明するためのタイミングチャート図である。 第3の実施形態におけるテレビ電話機の概略的な構成を示した機能ブロック図である。 声質の変換に利用される声質変換フィルタを説明するための説明図である。 第4の実施形態における第1声質変換フィルタと第2声質変換フィルタによる声質変換を説明するための説明図である。 第4の実施形態におけるサーバの概略的な構成を示した機能ブロック図である。 第5の実施形態におけるテレビ電話機の概略的な構成を示した機能ブロック図である。 上記画像編集部の画像の上書きを示した外観図である。
符号の説明
100、300、400、500 テレビ電話機
148 電話機データ記憶部
152 話者選択スイッチ
154 話者選択部
156 データ選択部
160 撮像部
162 画像編集部
164 音声入力部
166 声質変換部
168 電話機送信部
170 変調送信部
174 ものまねスイッチ
176 受信復調部
180 受信部
188 機能許可部
192 目標話者に関連する画像
194、452 声質変換フィルタ
310 発話者状態情報生成部
312 音声検知部
314 音声認識部
316 音素認識部
410 画像認識部
460 中間話者
480 サーバデータ記憶部
482 サーバ送信部
462、514 第1声質変換フィルタ
464 第2声質変換フィルタ
510 発話種類選択部
512 声質変換フィルタ合成部

Claims (25)

  1. 発話者の画像を入力する撮像部と該発話者の音声を入力する音声入力部とを備え、該発話者の音声の声質を目標話者の声質に変換するテレビ電話機であって、
    目標話者に関連する画像と、前記発話者の声質を該目標話者の声質に変換する声質変換フィルタとを予め記憶する電話機データ記憶部と、
    前記目標話者を選択する話者選択部と、
    前記話者選択部で選択された目標話者に関連する画像である目標話者関連画像と、目標話者に対応する声質変換フィルタとを、前記電話機データ記憶部から選択するデータ選択部と、
    前記撮像部から入力された画像を、前記目標話者関連画像に基づいて編集する画像編集部と、
    前記音声入力部から入力された発話者の音声の声質を、前記選択された声質変換フィルタを用いて前記目標話者の声質に変換する声質変換部と、
    前記画像編集部が編集した画像と、前記声質変換部が変換した音声とを通話相手に送信する電話機送信部と、
    を備えることを特徴とする、テレビ電話機。
  2. ものまねスイッチをさらに備え、
    前記画像編集部および声質変換部は、前記ものまねスイッチが有効な間機能することを特徴とする、請求項1に記載のテレビ電話機。
  3. 前記発話者の状態に係る情報である発話者状態情報を生成する発話者状態情報生成部をさらに備え、
    前記画像編集部は、前記発話者状態情報に応じて、編集に用いる前記目標話者関連画像を変化させることを特徴とする、請求項1または2のいずれかに記載のテレビ電話機。
  4. 前記音声入力部から入力された発話者の音声の有無を検知する音声検知部をさらに備え、
    前記発話者状態情報生成部は、前記検知した音声の有無に係る情報である音声有無情報を含めて前記発話者状態情報を生成することを特徴とする、請求項3に記載のテレビ電話機。
  5. 前記音声入力部から入力された発話者の音声の発話内容を認識する音声認識部をさらに備え、
    前記発話者状態情報生成部は、前記認識した発話内容に係る情報である発話内容情報を含めて前記発話者状態情報を生成することを特徴とする、請求項3または4のいずれかに記載のテレビ電話機。
  6. 前記音声入力部から入力された発話者の音声の音素を認識する音素認識部をさらに備え、
    前記発話者状態情報生成部は、前記認識された音素の種類に係る情報である音素情報を含めて前記発話者状態情報を生成し、
    前記画像編集部は、前記音素情報に応じて、前記目標話者関連画像の口の開閉度合いを調整することを特徴とする、請求項3乃至5のいずれかに記載のテレビ電話機。
  7. 前記撮像部から入力された発話者の画像の状態を認識する画像認識部をさらに備え、
    前記発話者状態情報生成部は、前記認識された画像の状態を含めて前記発話者状態情報を生成することを特徴とする、請求項3乃至6のいずれかに記載のテレビ電話機。
  8. 前記画像認識部は、発話者の顔があると認識した場合に、該顔の位置を検出し、
    前記発話者状態情報生成部は、前記検出した顔の位置に係る情報である顔位置情報を含めて前記発話者状態情報を生成し、
    前記画像編集部は、前記顔位置情報に対応する顔の位置に、前記目標話者関連画像を重ねることを特徴とする、請求項7に記載のテレビ電話機。
  9. 前記画像認識部は、発話者の顔があると認識した場合に、該顔の傾きを検出し、
    前記発話者状態情報生成部は、前記検出した顔の傾きに係る情報である顔傾き情報を含めて前記発話者状態情報を生成し、
    前記画像編集部は、前記顔傾き情報に応じて、前記目標話者関連画像を回転させて重ねることを特徴とする、請求項8に記載のテレビ電話機。
  10. 前記画像認識部は、発話者の顔があると認識した場合に、該顔の大きさを検出し、
    前記発話者状態情報生成部は、前記検出した顔の大きさに係る情報である顔サイズ情報を含めて前記発話者状態情報を生成し、
    前記画像編集部は、前記顔サイズ情報に応じて、前記目標話者関連画像を拡大もしくは縮小することを特徴とする、請求項8または9のいずれかに記載のテレビ電話機。
  11. 前記画像認識部は、発話者の顔があると認識した場合に、該発話者の目の開閉を検出し、
    前記発話者状態情報生成部は、前記検出した目の開閉に係る情報である目開閉情報を含めて前記発話者状態情報を生成し、
    前記画像編集部は、前記目開閉情報に応じて、前記目標話者関連画像における目を開閉させることを特徴とする、請求項8乃至10のいずれかに記載のテレビ電話機。
  12. 前記画像認識部は、発話者の顔があると認識した場合に、該発話者の口の開閉を検出し、
    前記発話者状態情報生成部は、前記検出した口の開閉に係る情報である口開閉情報を含めて前記発話者状態情報を生成し、
    前記画像編集部は、前記口開閉情報に応じて、前記目標話者関連画像における口を開閉させることを特徴とする、請求項8乃至11のいずれかに記載のテレビ電話機。
  13. 前記声質変換フィルタは、個々の発話者の声質を共通の中間話者の声質に変換するための第1声質変換フィルタと、該中間話者の声質を個々の目標話者の声質に変換するための第2声質変換フィルタとからなり、
    前記データ選択部は、前記声質変換フィルタとして、前記第1声質変換フィルタと前記第2声質変換フィルタとを選択し、
    前記声質変換部は、前記音声入力部から入力された前記発話者の音声の声質を、前記選択された第1声質変換フィルタを用いて中間話者の声質に変換し、さらに該中間話者の声質を、前記選択された第2声質変換フィルタを用いて前記目標話者の声質に変換することを特徴とする、請求項1乃至12のいずれかに記載のテレビ電話機。
  14. 前記画像編集部で利用される目標話者に関連する画像と、前記声質変換部で利用される第2声質変換フィルタとを外部の電子機器から受信する受信部をさらに備えることを特徴とする、請求項13に記載のテレビ電話機。
  15. 明瞭な発話か密やかな発話かを発話者に選択させる発話種類選択部をさらに備え、
    前記データ選択部は、前記選択された発話種類に応じて、発話者の明瞭な声質を中間話者の声質に変換する第1声質変換フィルタ、または、発話者の密やかな声質を中間話者の声質に変換する第1声質変換フィルタのいずれかを選択することを特徴とする、請求項13または14のいずれかに記載のテレビ電話機。
  16. 前記発話種類選択部において密やかな発話種類が選択された場合、
    前記データ選択部は、前記中間話者の声質を発話者の明瞭な声質に変換する第2声質変換フィルタを選択することを特徴とする、請求項15に記載のテレビ電話機。
  17. 前記発話種類選択部において密やかな発話種類が選択された場合、
    前記画像編集部は、発話者が密やかに発話していることを示す表示画像を重ねることを特徴とする、請求項15または16のいずれかに記載のテレビ電話機。
  18. 前記第1声質変換フィルタと、前記第2声質変換フィルタとを合成して、発話者の声質を目標話者の声質に直接変換する合成フィルタを生成する声質変換フィルタ合成部をさらに備えることを特徴とする、請求項13乃至17のいずれかに記載のテレビ電話機。
  19. 自己のテレビ電話機を特定可能な識別子が前記通話相手のテレビ電話機に送信されている場合に限り、前記画像編集部および前記声質変換部が機能することを許可する機能許可部をさらに備えることを特徴とする、請求項1乃至18のいずれかに記載のテレビ電話機。
  20. 発話者の音声の声質を目標話者の声質に変換させるテレビ電話機を用いて通話を行う通話方法であって、
    目標話者に関連する画像と、前記発話者の声質を該目標話者の声質に変換する声質変換フィルタとを電話機データ記憶部に記憶させる電話機データ記憶ステップと、
    前記目標話者を選択する話者選択ステップと、
    前記話者選択ステップで選択された目標話者に関連する画像である目標話者関連画像と、目標話者に対応する声質変換フィルタとを、前記電話機データ記憶部から選択するデータ選択ステップと、
    前記発話者の画像を入力する撮像ステップと、
    前記撮像ステップで入力された画像を、前記目標話者関連画像に基づいて編集する画像編集ステップと、
    前記発話者の音声を入力する音声入力ステップと、
    前記音声入力ステップで入力された発話者の音声の声質を、前記選択された声質変換フィルタを用いて前記目標話者の声質に変換する声質変換ステップと、
    前記画像編集ステップで編集された画像と、前記声質変換ステップで変換された音声とを通話相手に送信する電話機送信ステップと、
    を含むことを特徴とする、通話方法。
  21. 目標話者に関連する画像と、前記発話者の声質を該目標話者の声質に変換する声質変換フィルタとを電話機データ記憶部に記憶させる電話機データ記憶ステップと、
    前記目標話者を選択する話者選択ステップと、
    前記話者選択ステップで選択された目標話者に関連する画像である目標話者関連画像と、目標話者に対応する声質変換フィルタとを、前記電話機データ記憶部から選択するデータ選択ステップと、
    前記発話者の画像を入力する撮像ステップと、
    前記撮像ステップで入力された画像を、前記目標話者関連画像に基づいて編集する画像編集ステップと、
    前記発話者の音声を入力する音声入力ステップと、
    前記音声入力ステップで入力された発話者の音声の声質を、前記選択された声質変換フィルタを用いて前記目標話者の声質に変換する声質変換ステップと、
    前記画像編集ステップで編集された画像と、前記声質変換ステップで変換された音声とを通話相手に送信する電話機送信ステップと、
    をコンピュータに実行させるためのプログラム。
  22. サーバと、該サーバと通信可能に接続されるテレビ電話機とから構成され、発話者の音声の声質を目標話者の声質に変換すると共に発話者の画像を編集する声質変換・画像編集サービスを提供する声質変換・画像編集サービス提供システムであって、
    前記サーバは、
    目標話者に関連する画像と、前記発話者の声質を該目標話者の声質に変換する声質変換フィルタとを記憶するサーバデータ記憶部と、
    前記サーバデータ記憶部に記憶された、前記目標話者に関連する画像と声質変換フィルタとを前記テレビ電話機に送信するサーバ送信部と、
    を備え、
    前記テレビ電話機は、
    前記目標話者に関連する画像と、声質変換フィルタとを受信する受信部と、
    前記受信部で受信した、目標話者に関連する画像と声質変換フィルタとを記憶する電話機データ記憶部と、
    前記目標話者を選択する話者選択部と、
    前記話者選択部で選択された目標話者に関連する画像である目標話者関連画像と、目標話者に対応する声質変換フィルタとを、前記電話機データ記憶部から選択するデータ選択部と、
    前記発話者の画像を入力する撮像部と、
    前記撮像部から入力された画像を、前記目標話者関連画像に基づいて編集する画像編集部と、
    前記発話者の音声を入力する音声入力部と、
    前記音声入力部から入力された発話者の音声の声質を、前記選択された声質変換フィルタを用いて前記目標話者の声質に変換する声質変換部と、
    前記画像編集部が編集した画像と、前記声質変換部が変換した音声とを通話相手に送信する電話機送信部と、
    を備えることを特徴とする、声質変換・画像編集サービス提供システム。
  23. 前記声質変換フィルタは、個々の発話者の声質を共通の中間話者の声質に変換するための第1声質変換フィルタと、該中間話者の声質を個々の目標話者の声質に変換するための第2声質変換フィルタとからなり、
    前記サーバ送信部は、前記第1声質変換フィルタまたは第2声質変換フィルタのいずれか一方または両方を送信することができ、
    前記受信部は、前記第1声質変換フィルタまたは第2声質変換フィルタのいずれか一方または両方を受信することができ、
    前記電話機データ記憶部は、前記受信部で受信された第1声質変換フィルタまたは第2声質変換フィルタのいずれか一方または両方を含む、第1声質変換フィルタおよび第2声質変換フィルタを記憶し、
    前記データ選択部は、
    前期第1声質変換フィルタが予め指定されている場合には、第2声質変換フィルタを前記電話機データ記憶部から選択し、
    前期第1声質変換フィルタが予め指定されていない場合には、前記声質変換フィルタとして、前記第1声質変換フィルタと第2声質変換フィルタとを前記電話機データ記憶部から選択し、
    前記声質変換部は、
    前期第1声質変換フィルタが予め指定されている場合には、前記指定された第1声質変換フィルタを用いて中間話者の声質に変換し、
    前期第1声質変換フィルタが予め指定されていない場合には、前記音声入力部から入力された前記発話者の音声の声質を、前記選択された第1声質変換フィルタを用いて中間話者の声質に変換し、
    さらに該中間話者の声質を、前記選択された第2声質変換フィルタを用いて前記目標話者の声質に変換することを特徴とする、請求項22に記載の声質変換・画像編集サービス提供システム。
  24. 請求項22または23に記載の声質変換・画像編集サービス提供システムに用いられるサーバであって、
    前記サーバデータ記憶部およびサーバ送信部を備えることを特徴とする、サーバ。
  25. 請求項22または23に記載の声質変換・画像編集サービス提供システムに用いられるテレビ電話機であって、
    前記受信部、電話機データ記憶部、話者選択部、データ選択部、撮像部、画像編集部、音声入力部、声質変換部、および電話機送信部を備えることを特徴とするテレビ電話機。
JP2006260054A 2006-09-26 2006-09-26 テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ Pending JP2008085421A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006260054A JP2008085421A (ja) 2006-09-26 2006-09-26 テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006260054A JP2008085421A (ja) 2006-09-26 2006-09-26 テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ

Publications (1)

Publication Number Publication Date
JP2008085421A true JP2008085421A (ja) 2008-04-10

Family

ID=39355858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006260054A Pending JP2008085421A (ja) 2006-09-26 2006-09-26 テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ

Country Status (1)

Country Link
JP (1) JP2008085421A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123501A (ja) * 2010-12-28 2011-06-23 Sony Ericsson Mobilecommunications Japan Inc 表示装置、表示制御方法および表示制御プログラム
JP2014165807A (ja) * 2013-02-27 2014-09-08 Doshisha 在宅支援システム
EP3086278A4 (en) * 2013-12-20 2017-07-05 Re&Do Co., Ltd. Service-provision management system
JP2018005048A (ja) * 2016-07-05 2018-01-11 クリムゾンテクノロジー株式会社 声質変換システム
JP2019122037A (ja) * 2017-12-27 2019-07-22 ハイパーコネクト インコーポレイテッド 映像通話サービスを提供する端末及びそのサーバ
WO2020145353A1 (ja) * 2019-01-10 2020-07-16 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP2020161121A (ja) * 2019-03-27 2020-10-01 ダイコク電機株式会社 動画出力システム
JP2020160341A (ja) * 2019-03-27 2020-10-01 ダイコク電機株式会社 動画出力システム
WO2023166850A1 (ja) * 2022-03-04 2023-09-07 ソニーグループ株式会社 音声処理装置及び音声処理方法、情報端末、情報処理装置、並びにコンピュータプログラム
US12010457B2 (en) 2021-04-16 2024-06-11 Hyperconnect Inc. Methods, systems, and computer program products for providing video call service

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10271470A (ja) * 1997-03-24 1998-10-09 Olympus Optical Co Ltd 画像音声通信システムおよびテレビ電話送受信方法
JP2002314638A (ja) * 2001-04-16 2002-10-25 Nec Corp Tv電話の音声変換システム、及び、その音声変換方法
JP2003037826A (ja) * 2001-07-23 2003-02-07 Alpine Electronics Inc 代理画像表示装置およびテレビ電話装置
JP2003181136A (ja) * 2001-12-14 2003-07-02 Sega Corp 音声制御方法
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2005173772A (ja) * 2003-12-09 2005-06-30 Oki Electric Ind Co Ltd 画像通信システムおよび画像生成方法
JP2005277884A (ja) * 2004-03-25 2005-10-06 Oki Electric Ind Co Ltd 通信端末装置
JP2006119647A (ja) * 2005-09-16 2006-05-11 Yasuto Takeuchi ささやき声を通常の有声音声に擬似的に変換する装置
JP2006185393A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10271470A (ja) * 1997-03-24 1998-10-09 Olympus Optical Co Ltd 画像音声通信システムおよびテレビ電話送受信方法
JP2002314638A (ja) * 2001-04-16 2002-10-25 Nec Corp Tv電話の音声変換システム、及び、その音声変換方法
JP2003037826A (ja) * 2001-07-23 2003-02-07 Alpine Electronics Inc 代理画像表示装置およびテレビ電話装置
JP2003181136A (ja) * 2001-12-14 2003-07-02 Sega Corp 音声制御方法
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2005173772A (ja) * 2003-12-09 2005-06-30 Oki Electric Ind Co Ltd 画像通信システムおよび画像生成方法
JP2005277884A (ja) * 2004-03-25 2005-10-06 Oki Electric Ind Co Ltd 通信端末装置
JP2006185393A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2006119647A (ja) * 2005-09-16 2006-05-11 Yasuto Takeuchi ささやき声を通常の有声音声に擬似的に変換する装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123501A (ja) * 2010-12-28 2011-06-23 Sony Ericsson Mobilecommunications Japan Inc 表示装置、表示制御方法および表示制御プログラム
JP2014165807A (ja) * 2013-02-27 2014-09-08 Doshisha 在宅支援システム
US10820950B2 (en) 2013-12-20 2020-11-03 Re & Do Co., Ltd Service-provision management system
EP3086278A4 (en) * 2013-12-20 2017-07-05 Re&Do Co., Ltd. Service-provision management system
JP2018005048A (ja) * 2016-07-05 2018-01-11 クリムゾンテクノロジー株式会社 声質変換システム
US10531042B2 (en) 2017-12-27 2020-01-07 Hyperconnect, Inc. Terminal and server for providing video call service
JP2019122037A (ja) * 2017-12-27 2019-07-22 ハイパーコネクト インコーポレイテッド 映像通話サービスを提供する端末及びそのサーバ
WO2020145353A1 (ja) * 2019-01-10 2020-07-16 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JPWO2020145353A1 (ja) * 2019-01-10 2021-12-23 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP7309155B2 (ja) 2019-01-10 2023-07-18 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP2020161121A (ja) * 2019-03-27 2020-10-01 ダイコク電機株式会社 動画出力システム
JP2020160341A (ja) * 2019-03-27 2020-10-01 ダイコク電機株式会社 動画出力システム
US12010457B2 (en) 2021-04-16 2024-06-11 Hyperconnect Inc. Methods, systems, and computer program products for providing video call service
WO2023166850A1 (ja) * 2022-03-04 2023-09-07 ソニーグループ株式会社 音声処理装置及び音声処理方法、情報端末、情報処理装置、並びにコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP2008085421A (ja) テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ
CN106464939B (zh) 播放音效的方法及装置
JP4439740B2 (ja) 音声変換装置及び方法
JP5225847B2 (ja) 情報処理端末、音楽情報生成方法、およびプログラム
JP2004289254A (ja) テレビ電話端末
JP3670180B2 (ja) 補聴器
JP2004349851A (ja) 携帯端末、画像通信プログラム、及び画像通信方法
CN107992485A (zh) 一种同声传译方法及装置
JPH0983630A (ja) 電話装置
WO2022089224A1 (zh) 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
WO2011122521A1 (ja) 情報表示システム、情報表示方法及びプログラム
JP2018191145A (ja) 収音装置、収音方法、収音プログラム及びディクテーション方法
CN112512649A (zh) 用于提供音频和视频效果的技术
JP5498341B2 (ja) カラオケシステム
CN111696566B (zh) 语音处理方法、装置和介质
JP2002297199A (ja) 合成音声判別方法と装置及び音声合成装置
JP4504216B2 (ja) 画像処理装置および画像処理プログラム
JP2005057431A (ja) テレビ電話端末装置
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
JP2006140595A (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
WO2018211750A1 (ja) 情報処理装置および情報処理方法
JP2007251581A (ja) 音声送信端末および音声再生端末
JP2005038160A (ja) 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体
JP2006048352A (ja) キャラクタ映像表示機能付き通信端末およびその制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120626