JP4792703B2

JP4792703B2 - 音声解析装置、音声解析方法及び音声解析プログラム

Info

Publication number: JP4792703B2
Application number: JP2004051998A
Authority: JP
Inventors: 裕一工藤
Original assignee: Sega Corp; Sega Games Co Ltd
Current assignee: Sega Corp
Priority date: 2004-02-26
Filing date: 2004-02-26
Publication date: 2011-10-12
Anticipated expiration: 2024-02-26
Also published as: CN1319042C; JP2005241997A; DE602005000896T2; CN1661675A; EP1569201A1; EP1569201B1; ES2284133T3; DE602005000896D1; US7680660B2; US20050192805A1

Description

本発明は、音声解析装置、音声解析プログラム及び音声解析方法に関する。更に、本発明の音声解析方法を使用する画像生成装置に関し、特に、音声に合わせて口の形状が変化するアニメーション（リップシンクアニメーション）を作成するリップシンクアニメーション画像生成装置に関する。

現在さまざまな場面で音声解析技術が使用される。例えば、音声から話者を照合したり、音声を文字に変換したり、音声に合わせて口の形状が変化するリップシンクアニメーションを作成する際等である。音声解析技術においては、言葉の意味の区別を表すのに用いられる単位である音素が音声から抽出され、話者照合に対しては予め登録された標準パターンと抽出された音素との類似度により話者を照合し、文字変換に対しては抽出された音素に対応する文字をディスプレイ等に表示し、リップシンクアニメーション作成に対しては抽出された音素に対応する画像をディスプレイ等に表示する、といった処理がそれぞれ行われる。

従来技術として、音声から音素を抽出する方法には、次のようなものがある。例えば、特許文献１の話者照合方式においては、予め入力された標準パターンと話者の音声との距離が所定値以下となる区間を母音毎に決定し、その区間を母音に対応させることで音素が抽出される。
このように音素を抽出するための区間をセグメントと呼ぶ。特許文献２のアニメーション画像生成装置においては、複合正弦波モデル(CSM)等に基づくフォルマント分析を行い、母音を特徴付けるフォルマント情報に基づき音素が抽出される。
特公平６−３２００７号公報特開２００３−２３３３８９号公報

しかしながら、セグメントの決定を標準パターンとの距離により行うには、話者毎に標準パターンを登録したデータベースを用意しなければならない。これは、話者数に応じてデータ量も膨大となり、音声解析処理にかかる時間を遅らせる原因になりかねない。従って、リアルタイムによる処理を必要とする場面（例えば、リップシンクアニメーション作成等）への適用が難しい。また、新たな話者が加入する場合データベースへその新たな話者の標準パターンを追加する作業が発生するため、データベースの管理作業が負担となり、かつ、不特定多数の話者を対象とすることが難しい。

また、フォルマント情報に基づく音素の抽出は、実際はその処理に要する時間のため、リアルタイムによる処理を必要とする場面への適用が難しいという実状がある。これらの他にも、例えばLPC（Linear Planning Coefficient）ケプストラム分析を利用した音素の抽出法が知られているが、この方法による音素の抽出精度は、回数を重ねると上昇する学習効果があることが認められている。逆にいうと、抽出精度を高めるには、予め大量の学習信号に対する分析結果を用意しておく必要があり、不特定多数の話者を対象とすることが難しい。

加えて、スペクトル包絡の性質は次数の決定や繰り返し数など表現法や抽出法によって大きく異なることが知られており、分析者のスキルを要求される。

従って、本発明の目的は、標準パターンを話者毎に用意することなく、リアルタイムによる音声解析処理を可能にし、また不特定多数の話者を対象として適用が可能な音声解析装置及び音声解析方法を提供することにある。また、その音声解析方法を適用し、リアルタイムによる処理を可能とするアニメーション画像生成装置を提供することにある。

上記目的は、本発明の第一の側面によれば、入力される音声から音素の区切りを検出する、コンピュータで実行可能な音声解析方法であって、前記コンピュータにより、周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求めるステップと、変化度算出部として、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求めるステップと、セグメント決定部として、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するステップを実行することを特徴とする音声解析方法により達成される。

また上記目的は、本発明の第二の側面によれば、第一の側面において、更に、前記コンピュータにより、音素抽出部として、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと前記算出された特徴量を比較して音素を抽出するステップを実行することを特徴とする音声解析方法により達成される。

また上記目的は、本発明の第三の側面によれば、第一又は第二の側面において、更に、前記周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割する際の前記時間単位を、互いに重複部分を有するようにずらすことを特徴とする音声解析方法により達成される。

また上記目的は、本発明の第四の側面によれば、第一又は第二の側面において、前記周波数分解部として、前記複数のページ毎の周波数成分を、前記音声のデジタル信号をフーリエ変換して求めることを特徴とする音声解析方法により達成される。

また上記目的は、本発明の第五の側面によれば、第二の側面において、前記セグメントに含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅を前記音素抽出部としてセグメント毎に算出する特徴量とすることを特徴とする音声解析方法により達成される。

また上記目的は、本発明の第六の側面によれば、入力される音声から音素の区切りに対応して画像を表示する画像生成装置におけるアニメーション画像生成方法であって、コンピュータにより、周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求めるステップと、変化度算出部として、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求めるステップと、セグメント決定部として、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するステップと、音素抽出部として、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出するステップを実行し、更に、画像生成手段として、前記抽出される音素に対応する画像を前記セグメント区間に合わせて切り替えて表示するステップを実行することを特徴とするアニメーション画像生成方法により達成される。

また上記目的は、本発明の第七の側面によれば、入力される音声から音素の区切りを検出する、コンピュータで実行可能な音声解析プログラムであって、前記コンピュータを、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部として、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部として、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部として、機能させることを特徴とする音声解析プログラムにより達成される。

また上記目的は、本発明の第八の側面によれば、第七の側面において、更に、前記コンピュータに、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出する音素抽出部として、機能させることを特徴とする音声解析プログラムにより達成される。

また上記目的は、本発明の第九の側面によれば、第七又は第八の側面において、前記周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割する際の前記時間単位は、互いに重複部分を有するようにずらすことを特徴とする音声解析プログラムにより達成される。

また上記目的は、本発明の第十の側面によれば、第七又は第八の側面において、前記周波数分解部として、前記複数のページ毎の周波数成分を、前記音声のデジタル信号をフーリエ変換して求めることを特徴とする音声解析プログラムにより達成される。

また上記目的は、本発明の第十一の側面によれば、第八の側面において、前記セグメントに含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅を前記音素抽出部としてセグメント毎に算出する特徴量とすることを特徴とする音声解析プログラムにより達成される。

また上記目的は、本発明の第十二の側面によれば、入力される音声から音素の区切りに対応して画像を表示する画像生成装置におけるアニメーション画像生成プログラムであって、コンピュータに、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部として、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部として、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部として、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出する音素抽出部として、更に、前記抽出される音素に対応する画像を前記セグメント区間に合わせて切り替えて表示する画像表示部として機能させることを特徴とするアニメーション画像生成プログラムにより達成される。

また上記目的は、本発明の第十三の側面によれば、入力される音声から音素の区切りを検出する音声解析装置であって、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部と、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部と、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部を有することを特徴とする音声解析装置により達成される。

また上記目的は、本発明の第十四の側面によれば、入力される音声から音素の区切りに対応して画像を表示する画像生成装置におけるアニメーション画像生成装置であって、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部と、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部と、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部と、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出するステップを実行し音素抽出部と、更に、前記抽出される音素に対応する画像を前記セグメント区間に合わせて切り替えて表示する画像表示手段を有することを特徴とするアニメーション画像生成装置により達成される。

本発明を使用すれば、標準パターンを話者毎に用意することなく、予め複数の被験者の入力音声を解析した結果を基準データとして用意するだけで、軽快な音声解析処理をリアルタイムに実現することができる。また、話者毎の標準パターンの登録作業を要せず、基準データを一度用意すれば済むため、不特定多数の話者を対象とすることが可能である。さらに、話者毎の標準パターンを格納するデータベースを必要としないため、記憶容量の小さな機器に対しても実装が可能である。

以下、本発明の実施の形態について図面に従って説明する。しかしながら、本発明の技術的範囲はかかる実施の形態に限定されるものではなく、特許請求の範囲に記載された発明とその均等物にまで及ぶものである。

図１は、本発明の実施形態の画像生成装置の構成ブロック図であり、入力された音声に対応するアニメーションを生成するリップシンクアニメーション生成装置である。本実施形態の画像生成装置は、本発明の音声解析装置を音声解析部１として含み、他に、CPU２、ワークRAM３、ジオメトリ演算部４、レンダラー５、テクスチャ生成部６、テクスチャRAM７、表示部８、フレームバッファ９を有する。各機能ブロックはプログラムで実現され、画像生成装置に備えられたCPU(Central Processing Unit)２にてそのプログラムが実行されるが、ハードウェアで構成することも可能である。

CPU２は、画像を生成するプログラムを制御する。ワークRAM３には、CPU２で使用するプログラムやデータを格納する。音声解析部１は、入力された音声を解析し、入力された音声に含まれる音素を抽出すると共に、各音素に対応する画像を表示する時間を決定するためのタイミング情報を出力する。

ジオメトリ演算部４には、CPU２の制御の下に、ワークRAM３からワールド座標系の３次元オブジェクトデータとしてのポリゴンデータが読み出されて入力される。次いで、視点を原点とする視点座標系のデータに座標変換を行う。ジオメトリ演算部４で処理されたポリゴンデータはレンダラー５に入力され、レンダラー５において、ポリゴン単位のデータがピクセル単位のデータに変換される。

ピクセル単位のデータは、テクスチャ生成部６に入力され、テクスチャRAM７に格納されるテクスチャデータに基づき、ピクセル単位にテキスチャカラーを生成する。表示部８は、テクスチャ生成部６からの画像データを、必要に応じて陰面除去処理や陰影付けを行い、次いで、２次元座標に変換しながらフレームバッファ９に書き込む。フレームバッファ９に書き込まれたデータは、繰り返し読み出され、ビデオ信号に変換され出力される。こうして、タイミング情報を基に各音素に対応する画像が切り替えられ図示省略されたディスプレイ等に表示される。
図１において音声解析部１以外の機能ブロックは、アニメーションを表示させるためのアニメーション表示部である。

図２は、本発明の音声解析部（音声解析装置）の構成ブロック図である。音声解析部１は、入力部１１、AD変換部１２、周波数分解部１３、変化度算出部１４、セグメント決定部１５、音素抽出部１６、記憶部１７を有する。各機能ブロックはプログラムで実現され、CPU(Central Processing Unit)にてそのプログラムが実行されるが、ハードウェアで構成することもできる。またCPUに関しては、音声解析部１に含まれる場合その音声解析部１に含まれる図示省略されたCPUが利用されてもよいし、外部のCPU（例えば図１のCPU２）が利用されてもよい。

入力部１１は、音声が入力されるインターフェースである。音声解析部１への音声は、マイクからの入力信号やオーディオケーブルで接続されたオーディオ機器の出力信号等により入力される。この場合、マイクやオーディオケーブル接続用の入力端子がそれぞれ入力部１１である。また、waveファイルやmp3 (MPEG-1 Audio Layer 3)ファイル等のデジタルデータにより音声が入力されてもよい。この場合、データ転送用の接続インタフェース（USB(Universal Serial Bus)インタフェース、パラレルインタフェース、IEEE(Institute of Electrical and Electronic Engineers)1394インタフェース、内部バス等）が入力部１１である。

入力された音声データがアナログ信号の場合、アナログデジタル(AD)変換部１２によりデジタルデータに変換される。こうしてデジタル変換された音声データは、ある時間における振幅が対応付けられた時系列データであり、周波数分解部１３に入力される。そして、周波数分解部１３にて、所定長の時間範囲（これをページと呼ぶ）をずらしながら切り取ることで音声データは複数のページに分割され、ページ毎に周波数成分に分解される（例えば、離散フーリエ変換される）。なお、ページは、別名フレームあるいは音声フレームとも呼ばれるものである。

ページ毎の周波数成分データは変化度算出部１４に入力され、隣接ページ間の相関度（算出方法は後述する）に基づき変化度が算出される。算出された変化度はセグメント決定部１５に入力され、その相関度に基づき音素を抽出するための区間であるセグメントが特定される。これは、セグメントの境界（より具体的には開始位置）が隣接するページの組として特定される。そして、決定されたセグメント毎に音素抽出部１６は、記憶部１７に格納された基準データとマッチングを行って音素を抽出する。セグメントの境界はページ数として特定されるため、セグメントが決定されると、音素が切り替わるタイミング情報、言い換えると、各音素に対応する画像を表示する時間を決定するためのタイミング情報が得られる。

記憶部１７に格納される基準データは、予め複数の被験者の音声を、入力音声が解析される手順に従って解析された結果を平均したデータである。こうして、音声解析部１は、入力された音声に含まれる音素を抽出すると共に、各音素に対応する画像を表示する時間を決定するためのタイミング情報を出力する。

図３は、本発明の実施形態の画像生成装置における処理を説明するフローチャートである。また図４から図１０は、図３のフローチャートにおけるステップを説明するための図であり、適宜これらを参照して図３を説明する。

まず、入力された音声のアナログデジタル(AD)変換が行われる（Ｓ１）。これは入力部１１を介して入力された音声がAD変換部１２に入力されることで行われ、例えば、マイク等から入力されるアナログ信号がデジタルデータに変換される。ただし、入力された音声がデジタルデータの場合、ステップＳ１は省略される。

次に、周波数分解部１３にて、所定長の時間範囲（これをページと呼ぶ）をずらしながら切り取ることで音声データは複数のページに分割され、ページ毎に周波数成分に分解される（Ｓ２）。所定長は、最も短い音素（１／１０秒程度）より短くする。経験上、最も短い音素の１０分の１（１／１００秒程度）あれば十分な精度が得られる。それ以上所定長を短くしても処理量が増大するのみであり効果がない。従って、所定長は１／１０〜１／１００秒程度にすることが好ましい。

図４は、図３ステップＳ２のページ分割を説明する図である。横軸に時間、縦軸に振幅が取られたグラフは、入力音声の波形を示すものである。この波形を、開始時刻Ｄ（音声の入力開始時刻）から始めて所定長の時間範囲（ここでは１０２４ポイント、１ポイントは（１／４４１００）秒）を１ページとし、それを４４１ポイントずつすらしながら、複数のページに分割する。

なお、ここでは所定長を１０２４ポイントに設定したが、音声信号のサンプリング周波数、話者の発話スピードなどを勘案し、適宜変更してよい。また、ここでは、ずらす時間が所定長の時間範囲より短いため、各時間範囲に重複部分が存在するが、重複部分が存在しないように所定長の時間範囲をとってもよい。

図５は、図３ステップＳ２の周波数成分への分解を行ったときの周波数と振幅の関係を示す図である。これは、図４の各ページに含まれる波形をＮ点離散フーリエ変換を施すことにより得られる図である。すなわち、ページmでのN点の振幅を｛x(m,k)|k=0…N-1｝と表すと、離散フーリエ変換は次式(A)で表される。

ただし、

である。ここでは、振幅軸を中心に対称であるため（図５参照）、周波数が正の領域のみを使用すれば十分である。

図６は、複数のページについて周波数分解を行った結果を示す図である。図６では簡単化のため、同じ形状の周波数成分グラフが並んでいるが、実際は、時間の経過により入力音声の波形が異なるためページ毎の周波数成分グラフは変化することとなる。

そして、変化度算出部１４は、まず隣接ページ間の相関度を次式(B)により算出する（Ｓ３）。

相関度の算出の様子及び式(B)の意味について図７を用いて説明する。

図７は、隣接ページ間の相関度の算出を行う様子を説明する図である。図７は、図６に示される隣接ページのうち、例えば、mページと、(m+1)ページの相関度を算出する例である（つまり、式(B)においてx = mの場合）。各ページで同一周波数成分に対応する振幅を掛け合わせた値をN点分総和を取ったものである。図７でいうと、同一周波数成分kに対応するmページの振幅A(m,k)と(m+1)ページの振幅A(m+1,k)がまず掛け合わされる。kを0からN-1まで変化させながら総和をとることにより、mページと(m+1)ページの相関度が算出される。

そして、変化度算出部１４は、ノイズを除去する為に、次式(C)により式(B)により求められた相関度を平均化する（Ｓ４）。

式(C)により求まる相関度Q(x)は、ページが変化したとき周波数成分のグラフ形状に変化がないほど、値の変化が小さく、逆に、周波数成分のグラフ形状に変化があるとその前後の隣接ページの相関度と比べて値の変化が大きい。そして周波数成分のグラフが変化するページは、新たな音素の境界位置（セグメントの境界）と捉えることができる。従って、相関度の差分を変化度とし、変化度を前後２つの変化度と比較して、両者より大きいという条件を満たす隣接ページを特定し、セグメントを決定する（Ｓ５）。ステップＳ５は、セグメント決定部１５が、相関度の差分関数から、前述した条件を満たす隣接ページを特定する。ここでは、ノイズ除去された相関度Q(x)を用いる。次図８を用いて説明する。なお、相関度の差分である変化度を、S(y)=Q(y+1)-Q(y)で表すとする。

図８は、ページ関連パラメータyと変化度S(y)との関係を示す図である。ページ関連パラメータy = 1に対応するS(1)の意味するところは、隣接する２ページと３ページの相関度(Q(2))から隣接する１ページと２ページの相関度(Q(1))を減算した値である。ページ関連パラメータにより直接ページが特定されることはないが、セグメントの境界となる隣接ページの組が特定される。

そして、この変化度S(y)が S(y-1) < S(y) かつ S(y+1) < S(y) なる自然数yに対応する隣接ページの組が新たな音素の開始位置として特定される。先にも述べたように、音素の切り替わりにおいては、入力音声の波形が大きく変化し、その変化が顕著な位置は、新たな音素の開始位置を意味している。図８の場合、S(y-1) < S(y) かつ S(y+1) < S(y) なる自然数yを満たす箇所が４箇所あり（それぞれページ関連パラメータｙ₁、ｙ₂、ｙ₃、ｙ₄とする）、第１セグメントから第４セグメントまで４音素が抽出されることになる。

ページ関連パラメータｙ₁により、セグメントの開始ページがｙ₁ページとｙ₁＋１ページに絞られるが、どちらを使用しても構わないが、解析対象となる音声信号においては統一しておく。各セグメントの開始位置となる他のページ関連パラメータに関しても同様である。次いで、音素抽出部１６はステップＳ５で決定されたセグメント毎に、特徴量を算出する（Ｓ６）。例えば、一般的な特徴量の算出方法として、セグメント毎に入力音声を周波数成分へ分解した後、逆フーリエ変換を施し、更にケプストラム分析を行う、といった手法がある。ここでは一例として、セグメント毎に入力音声を周波数成分へ分解し、各周波数成分の振幅を特徴量として使用する。セグメントとページが一致すれば、ステップＳ２で求めたページ毎の周波数分解の結果を援用してもよい。

図９は、セグメント毎の周波数分解を説明する図である。セグメント毎にＮ点離散フーリエ変換によって周波数成分が算出される様子が描かれている。図９では簡単化のため、同じ形状の周波数成分グラフが並んでいるが、実際は、時間の経過により入力音声の波形が異なるためページ毎の周波数成分グラフは変化することとなる。

そして、次に基準データとのマッチングを行い音素を抽出する（Ｓ７）。基準データには、予め複数の被験者に対して上記ステップＳ１からＳ６までの手順を施した結果を平均化したデータを用いる。このような基準データを一度作成し、記憶部１７に格納しておけば、その後の利用者の変動に左右されることなく安定した音素の抽出が可能であり、特に、不特定多数の話者を対象とすることができる。マッチングの方法は、DPマッチング等の周知な手法を適用すればよい。

以上のステップＳ１からＳ７までの処理により、入力音声に含まれるセグメント及び音素、セグメントの境界のページが特定される。またセグメント境界のページが特定されると、本実施形態においては、｛開始時刻Ｄ＋４４１ポイント×（セグメント境界のページ−１）｝により時刻に変換できるため、タイミング情報の取得も完了する。そして、音声解析部１より出力される音素及びタイミング情報に基づき、図１に説明した構成に従って音素に対応するアニメーションが表示される（Ｓ８）。

図１０は、音素に対応するアニメーションを説明する図である。例えば、抽出する音素として母音を選択し、母音毎の基準データを記憶部１７に格納しておき、図１０に示される各母音のアニメーションに対応するデータをワークRAM３に格納しておけば、図１の画像生成装置を使用して、入力音声に含まれる各母音に対応して、アニメーションを表示させることが可能となる。例えば、母音「ア」に、図１０の画像アを対応させ、母音「イ」に、図１０の画像イを対応させ、という具合に各母音に対応するアニメーション画像が表示される。

以上に説明したように本発明の実施形態によれば、標準パターンを話者毎に用意することなく、予め複数の被験者の入力音声を解析した結果を基準データとして用意するだけで、軽快な音声解析処理をリアルタイムに実現することができる。また、話者毎の標準パターンの登録作業を要せず、基準データを一度用意すれば済むため、不特定多数の話者を対象とすることが可能である。さらに、話者毎の標準パターンを格納するデータベースを必要としないため、記憶容量の小さな機器に対しても実装が可能である。

適用対象としては、オンラインチャット時のアニメーション、ビデオゲームにおけるアニメーション（特に対話形式でゲームが行われるものやロールプレイングゲーム）、病院や金融機関等での無人受付システム等が挙げられる。

なお本実施形態においては、画像生成装置として実現する方法を説明したが、図３に示されるフローチャートに従って処理される方法又はプログラムとして実現することも可能である。また、本実施形態においては、画像生成装置として実現する方法を説明したが、例えば、音素に対応する文字を表示させる音声文字変換装置等に適用することもできる。その場合、図１の構成においてアニメーションを表示させる機能ブロック（図１の音声解析部１以外の機能ブロック）が文字を表示する機能ブロックに置き換えられ、アニメーションを表示させるステップＳ８（図３のフローチャート）が文字を表示するステップとなるような構成とすれば済む。また、本実施形態においては、音声解析部１を含む画像生成装置として実現する方法を説明したが、音声解析部を単独の装置（音声解析装置）として実現することも可能である。その場合、図３に示されるフローチャートのステップＳ８が削除され、音声解析装置から出力される音素やタイミング情報は、その接続先の別の装置にて加工処理される。

本発明の実施形態の画像生成装置の構成ブロック図である。本発明の音声解析部（音声解析装置）の構成ブロック図である。本発明の実施形態の画像生成装置における処理を説明するフローチャートである。図３ステップＳ２のページ分割を説明する図である。図３ステップＳ２の周波数成分への分解を行ったときの周波数と振幅の関係を示す図である。複数のページについて周波数分解を行った結果を示す図である。隣接ページ間の相関度の算出を行う様子を説明する図である。ページ関連パラメータyと相関度の差分S(y)との関係を示す図である。セグメント毎の周波数分解を説明する図である。音素に対応するアニメーションを説明する図である。

符号の説明

１音声解析部、２ CPU、３ワークRAM、４ジオメトリ演算部、５レンダラー、６テクスチャ生成部、７テクスチャRAM、８表示部、９フレームバッファ、１１入力部、１２アナログデジタル変換部、１３周波数分解部、１４変化度算出部、１５セグメント決定部、１６音素抽出部、１７記憶部

Claims

入力される音声から音素の区切りを検出する、コンピュータで実行可能な音声解析方法であって、
前記コンピュータにより、
周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求めるステップと、
変化度算出部として、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求めるステップと、
セグメント決定部として、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するステップを実行する、
ことを特徴とする音声解析方法。
請求項１において、
更に、前記コンピュータにより、音素抽出部として、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと前記算出された特徴量を比較して音素を抽出するステップを実行することを特徴とする音声解析方法。
請求項１又は２において、
前記周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割する際の前記時間単位を、互いに重複部分を有するようにずらすことを特徴とする音声解析方法。
請求項１又は２において、
前記周波数分解部として、前記複数のページ毎の周波数成分を、前記音声のデジタル信号をフーリエ変換して求めることを特徴とする音声解析方法。
請求項２において、
前記セグメントに含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅を前記音素抽出部としてセグメント毎に算出する特徴量とすることを特徴とする音声解析方法。
入力される音声から音素の区切りに対応して画像を表示する画像生成装置におけるアニメーション画像生成方法であって、
コンピュータにより、
周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求めるステップと、
変化度算出部として、前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求めるステップと、
セグメント決定部として、前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するステップと、
音素抽出部として、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出するステップを実行し、
更に、画像生成手段として、前記抽出される音素に対応する画像を前記セグメント区間に合わせて切り替えて表示するステップを実行する、
ことを特徴とするアニメーション画像生成方法。
入力される音声から音素の区切りを検出する、コンピュータで実行可能な音声解析プログラムであって、
前記コンピュータを、
前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部として、
前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部として、
前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部として、
機能させることを特徴とする音声解析プログラム。
請求項７において、
更に、前記コンピュータに、前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出する音素抽出部として、
機能させることを特徴とする音声解析プログラム。
請求項７又は８において、
前記周波数分解部として、前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割する際の前記時間単位は、互いに重複部分を有するようにずらすことを特徴とする音声解析プログラム。
請求項７又は８において、
前記周波数分解部として、前記複数のページ毎の周波数成分を、前記音声のデジタル信号をフーリエ変換して求めることを特徴とする音声解析プログラム。
請求項８において、
前記セグメントに含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅を前記音素抽出部としてセグメント毎に算出する特徴量とすることを特徴とする音声解析プログラム。
入力される音声から音素の区切りに対応して画像を表示する画像生成装置におけるアニメーション画像生成プログラムであって、
コンピュータに、
前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部として、
前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部として、
前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部として、
前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出する音素抽出部として、
更に、前記抽出される音素に対応する画像を前記セグメント区間に合わせて切り替えて表示する画像表示部として機能させる、
ことを特徴とするアニメーション画像生成プログラム。
入力される音声から音素の区切りを検出する音声解析装置であって、
前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部と、
前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部と、
前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部を、
有することを特徴とする音声解析装置。
入力される音声から音素の区切りに対応して画像を表示する画像生成装置におけるアニメーション画像生成装置であって、
前記入力される音声のデジタル信号の所定長の時間範囲を、最も短い音素より短い時間単位でずらしながら複数のページに分割し、前記複数のページ毎の周波数成分を求める周波数分解部と、
前記複数のページにおいて、隣接するページ間の同一周波数成分に対応する振幅同士の積を総和した値である相関度を求める変化度算出部と、
前記相関度の差分を変化度として、前後２つの変化度と比較して前記２つの変化度より大きい変化度を有する２つの相関度に対応する隣接するページの組を特定し、前記特定された隣接するページの組を新たな音素の開始位置とするセグメントを抽出するセグメント決定部と、
前記セグメント決定部として実行されるステップにおいて抽出されるセグメント毎に特徴量を算出し、記憶部に格納されている基準データと比較して音素を抽出するステップを実行し音素抽出部と、
更に、前記抽出される音素に対応する画像を前記セグメント区間に合わせて切り替えて表示する画像表示手段を、
有することを特徴とするアニメーション画像生成装置。