JP3830200B2 - 人物画像合成装置 - Google Patents

人物画像合成装置 Download PDF

Info

Publication number
JP3830200B2
JP3830200B2 JP08217996A JP8217996A JP3830200B2 JP 3830200 B2 JP3830200 B2 JP 3830200B2 JP 08217996 A JP08217996 A JP 08217996A JP 8217996 A JP8217996 A JP 8217996A JP 3830200 B2 JP3830200 B2 JP 3830200B2
Authority
JP
Japan
Prior art keywords
image
mouth shape
buffer
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08217996A
Other languages
English (en)
Other versions
JPH09274666A (ja
Inventor
憲治 坂本
晴夫 日出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP08217996A priority Critical patent/JP3830200B2/ja
Publication of JPH09274666A publication Critical patent/JPH09274666A/ja
Application granted granted Critical
Publication of JP3830200B2 publication Critical patent/JP3830200B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Digital Computer Display Output (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、デジタル処理による画像合成装置に関するもので、特に、発声に伴う口形状やうなずき動作を表現する人物画像を合成する人物画像合成装置に関する。
【0002】
【従来の技術】
此の種の技術における従来例として、次のようなものを示すことができる。
特開平2−234285号公報は、文字列として表現される文章を入力し、これに対応した口形状変化を有する顔動画像を生成する画像合成方法に関するものである。
ここでは、前記文字列を音素列に分割し、各音素毎に音声特徴および持続時間を出力することが可能な音声合成手法を利用し、音声特徴に基づいて各音素に対応する口形特徴を決定し、さらに該口形特徴に従って具体的な口形状を表現するための口形状パラメータの値を決定する。
そして、各音素ごとの該口形状パラメータの値に対して、前記各音素ごとの持続時間に基づいて動画の各フレームごとに与えられる口形状パラメータの値を制御し、音声出力に適合した口形状変化を呈する顔動画像の表示を行うことが開示されている。
【0003】
また、音声を入力として対応する口形状変化を推定する方法に関するものが、森島繁生,相沢清晴,原島博:「音声情報に基づく表情の自動合成の研究」第4回 NICOGRAPH 論文コンテスト論文集,pp.139〜146,日本コンピュータ・グラフィック協会(1988年11月)に示されている。ここでは、入力された音声情報に対して、対数平均パワーを計算して口の開き具合を制御する方法と、声道のホルマント特徴に対応する線形予測係数を計算して口形状を推定する方法の2通りが提案されている。
【0004】
【発明が解決しようとする課題】
従来技術における文章(文字列)を入力して、これに対応した口形状変化を決定する方法では、出力される音声のデータは、あらかじめ文章(文字列)として用意されているものを音声データ化するもので、入力は文字列である必要があり、音声データが直接入力される場合や、文字列の情報がない音声データに対して、口形状を決定することができない。
また、上記森島らの方法では、口形状を決定することはできるが、顔の動き等の制御については開示されていない。
本発明は、上記従来技術の問題点に鑑みてなされたものであり、文字列以外の入力データに応じて発声時の顔の表情が合成でき、さらに、音声出力との対応付けが的確になされた口形状と顔画像のうなずき動作を表現することが可能な画像合成装置を提供することをその解決すべき課題とする。
【0005】
【課題を解決するための手段】
請求項1の発明は、音声データを入力し、該音声データに対応する口形の変化や顔の動きを有する顔動画像を生成して出力する人物画像合成装置において、前記音声データを入力する音声入力手段と、前記音声入力手段で入力した音声データを一時保持するバッファと、前記バッファから読み出した音声データに対応する口形を判定して、該口形に対応する口形画像を決定する口形判定手段と、前記バッファから読み出した音声データの無音部分を判定し、該無音部分にうなずき動作があったと決定するうなずき動作判定手段と、前記うなずき動作判定手段で判定した無音部分に同期して、前記口形判定手段で決定した口形画像とうなずき顔動画像とを合成して顔動画像を生成する画像合成手段と、前記画像合成手段で生成された顔動画像を出力する画像表示手段とを有するようにし、音声データが順次入力されるバッファ上の読み込み位置を選ぶことにより、読み込んだ音声データに基づいて口形を決定し、また、音声データの無音部分からうなずき動作の位置を決定し、これらの結果により人物画像の発話に伴う表情変化が表示されることを可能にするものである。
【0006】
請求項2の発明は、請求項1の発明において、前記うなずき動作判定手段は、前記音声データの対数パワーの時間変化を用いて、前記無音部分を判定するようにし、有効な具体化手段を提供するものである。
【0007】
請求項3の発明は、請求項1の発明において、前記バッファへの音声データ入力位置と前記うなずき動作判定手段に用いる音声データの該バッファからの読み出し位置を一致させるようにし、リアルタイムの動作を可能としたものである。
【0008】
【発明の実施の形態】
本発明の実施形態を図面を参照しながら以下に説明する。
図1は、本発明の人物画像合成装置の一実施形態のブロック図である。
図1において、音声入力部1は、マイクなどで音声を入力し、AD変換を行って音声データを作成するか、あるいは、予め音声データが格納されている記録媒体からデータを読み込む。
バッファ2は、音声入力部1から入力された音声データを一時的に記憶する。格納の形式はFIFO(First In First Out:最初に入力したデータが最初に出力される)で、音声入力部1から順次音声データが入力され、音声出力部3に順次音声データが出力される。音声出力部3は、DA変換で音声データから音声信号に変換し、音声を出力する。
【0009】
図2は、本発明に用いられるバッファの一例の動作を説明するための概念図で、図3は、本発明に用いられるバッファの他の例の動作を説明するための概念図である。
バッファ2は、図2に示すように、データが“Ps”から1つ入力される度にデータが右に1つシフトし、最も右側の“Pe”から1つずつデータが出力されるFIFOでも良いし、図3に示すように、リング状になったバッファで、それぞれのポインタがデータが入力される毎に1つずつ進む形式でも良い。
口形判定部4は、バッファ2上のある決められた位置“P2”からデータを読み込み、フレーム毎に音声データの特徴量を抽出する。
音声の特徴量から口形を決定する方法として、特平5−135755号(特開平6−348811号公報で開示されている手法などを用いる。すなわち、音声の低域および高域の周波数成分に応じて口形を決定する。
例では、1フレームは10(ms)で、1フレームのサンプル数をNとしている。
バッファ上の位置“P2”を、
P2=Pe−β×N
にとると、口形の判定は、実際その音声の出力が出力される時点よりβフレーム以前に行うことができる。
このβの値は、口形を決定するのに要する処理時間から決められる値で、実際音声が出力されているのに対応する口形が同期して表示されるように調整して決定する。この例では、β=5としている。
【0010】
うなずき動作判定部5は、バッファ上のある決められた位置“P1”からデータを読み込み、フレーム毎に音声データの特徴量を抽出する。
うなずき動作は、文の区切りや強調したい単語を発声するときなどに多く見られる。
以下では、文の区切りを検出し、うなずき動作をする例について説明する。
特徴量として対数パワーを用いる場合の例を図4に示す。
実線が「わたくし、シャープの坂本と申します」と発声した時の対数パワーの時間変化である。縦軸が対数パワー、横軸が時間である。
閾(しきい)値は、音声の入力があるか、ないかを判定できる値に設定する。
音声の入力が開始されてから(閾値を越えた時点“Ts”)、音声の対数パワーが閾値以下で連続してFsフレーム以上続いた時点“Te+10×Fs”で、音声の入力が終了したと判定する。そして、音声が終了したと判断した時点でうなずき動作を開始する。
例では、1フレームを10(ms)にしている。
Fsの値は、文中の無音部分(破裂音の前のクロージャの時間長)よりも長く設定し、例では、Fs=30としている。
図4の例で、発話内容を続けて発音した場合、すなわち、
T1′−T1<10×Fs
T2′−T2<10×Fs
の場合、区間[T1,T1′]や区間[T2,T2′]では、うなずき動作は生成されないが、「私」や「シャープの」のところで区切って発声する場合、すなわち、
T1′−T1>10×Fs
T2′−T2>10×Fs
の場合、区間[T1,T1′]や区間[T2,T2′]では、うなずき動作が生成される。
1フレームのサンプル数をNとすると、バッファ上の位置“P1”を、
P1=Pe−(Fs+α)×N
にとると、うなずき動作は、音声の出力が終了する時点“Te”よりαフレーム以前にうなずき動作の判定を行うことができる。
このαの値は、文の区切りで、発声が終了する直前にうなずきの動作が行われるように調整して決定される。
この例では、α=20としている。
音声入力部1からの出力は、バッファ2を通して音声出力部3に入力されるため、リアルタイムに音声を入力する場合は、音声入力と音声出力にずれが生じる。このずれをできるだけ少なくするため、“Ps”と“P1”は一致させるのが良い。
画像合成部6は、前記うなずき動作判定部5で判定したうなずき動作に同期して、前記口形判定部4で決定した口形の画像とうなずき顔動画像とを合成し画像を生成している。
具体的には、うなずき動作は、図5に示すような、うなずき動作のアニメーションを複数枚用意しておき、それを連続的に再生することでうなずき動作を表現している。
【0011】
【発明の効果】
本発明によると、通信を介してリアルタイムに送られてくる音声データや蓄積された音声データに対して、人物画像があたかも喋っているかのように、音声と同期してその表情を画像として表示することができる。
【図面の簡単な説明】
【図1】本発明の人物画像合成装置の一実施形態のブロック図である。
【図2】本発明に用いられるバッファの一例の動作を説明するための概念図である。
【図3】本発明に用いられるバッファの他の例の動作を説明するための概念図である。
【図4】うなずき動作の特徴量として対数パワーを用いる場合の例を説明するための図である。
【図5】うなずき動作を行う人物画像の作成画面の一例を示す図である。
【符号の説明】
1…音声入力部、2…バッファ、3…音声出力部、4…口形判定部、5…うなずき動作判定部、6…画像合成部、7…画像表示部。

Claims (3)

  1. 音声データを入力し、該音声データに対応する口形の変化や顔の動きを有する顔動画像を生成して出力する人物画像合成装置において、前記音声データを入力する音声入力手段と、前記音声入力手段で入力した音声データを一時保持するバッファと、前記バッファから読み出した音声データに対応する口形を判定して、該口形に対応する口形画像を決定する口形判定手段と、前記バッファから読み出した音声データの無音部分を判定し、該無音部分にうなずき動作があったと決定するうなずき動作判定手段と、前記うなずき動作判定手段で判定した無音部分に同期して、前記口形判定手段で決定した口形画像とうなずき顔動画像とを合成して顔動画像を生成する画像合成手段と、前記画像合成手段で生成された顔動画像を出力する画像表示手段とを有することを特徴とする人物画像合成装置。
  2. 前記うなずき動作判定手段は、前記音声データの対数パワーの時間変化を用いて、前記無音部分を判定するようにしたことを特徴とする請求項1記載の人物画像合成装置。
  3. 前記バッファへの音声データ入力位置と前記うなずき動作判定手段に用いる音声データの該バッファからの読み出し位置を一致させるようにしたことを特徴とする請求項1記載の人物画像合成装置。
JP08217996A 1996-04-04 1996-04-04 人物画像合成装置 Expired - Fee Related JP3830200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08217996A JP3830200B2 (ja) 1996-04-04 1996-04-04 人物画像合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08217996A JP3830200B2 (ja) 1996-04-04 1996-04-04 人物画像合成装置

Publications (2)

Publication Number Publication Date
JPH09274666A JPH09274666A (ja) 1997-10-21
JP3830200B2 true JP3830200B2 (ja) 2006-10-04

Family

ID=13767219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08217996A Expired - Fee Related JP3830200B2 (ja) 1996-04-04 1996-04-04 人物画像合成装置

Country Status (1)

Country Link
JP (1) JP3830200B2 (ja)

Also Published As

Publication number Publication date
JPH09274666A (ja) 1997-10-21

Similar Documents

Publication Publication Date Title
US5943648A (en) Speech signal distribution system providing supplemental parameter associated data
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US5930755A (en) Utilization of a recorded sound sample as a voice source in a speech synthesizer
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
KR101153736B1 (ko) 발음기관 애니메이션 생성 장치 및 방법
JP5148026B1 (ja) 音声合成装置および音声合成方法
KR20000005183A (ko) 이미지 합성방법 및 장치
JP2002108382A (ja) リップシンクを行うアニメーション方法および装置
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2005215888A (ja) テキスト文の表示装置
JPH0756494A (ja) 発音訓練装置
JP3830200B2 (ja) 人物画像合成装置
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP3785892B2 (ja) 音声合成装置及び記録媒体
JPH08248993A (ja) 音韻時間長制御方法
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
JPH11161297A (ja) 音声合成方法及び装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JPH064090A (ja) テキスト音声変換方法および装置
JPS5914752B2 (ja) 音声合成方式
JP2006162760A (ja) 語学学習装置
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
JP5481957B2 (ja) 音声合成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060711

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100721

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130721

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees