JP6017591B2 - 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム - Google Patents

音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム Download PDF

Info

Publication number
JP6017591B2
JP6017591B2 JP2014557293A JP2014557293A JP6017591B2 JP 6017591 B2 JP6017591 B2 JP 6017591B2 JP 2014557293 A JP2014557293 A JP 2014557293A JP 2014557293 A JP2014557293 A JP 2014557293A JP 6017591 B2 JP6017591 B2 JP 6017591B2
Authority
JP
Japan
Prior art keywords
phase
sound source
unit
watermark information
digital watermark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014557293A
Other languages
English (en)
Other versions
JPWO2014112110A1 (ja
Inventor
橘 健太郎
健太郎 橘
籠嶋 岳彦
岳彦 籠嶋
正統 田村
正統 田村
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Application granted granted Critical
Publication of JP6017591B2 publication Critical patent/JP6017591B2/ja
Publication of JPWO2014112110A1 publication Critical patent/JPWO2014112110A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明の実施形態は、音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラムに関する。
声帯の振動を示す音源信号に対し、声道特性を示すフィルタリングを行って音声を合成することは公知である。また、合成音声の品質が向上しており、悪用される危険性がある。そのため、合成音声に透かし情報を挿入することにより、悪用の防止、抑制をすることができると考えられている。
特開2003−295878号公報
しかしながら、合成音声に電子透かしを組込むと、音質劣化が生じる場合があった。本発明が解決しようとする課題は、合成音声の音質を劣化させることなく電子透かしを挿入することができる音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラムを提供することである。
実施形態の情報処理装置は、音源生成部と、位相変調部と、声道フィルタ部と、を有する。音源生成部は、音声の基本周波数系列及びパルス信号を用いて音源信号を生成する。位相変調部は、音源生成部が生成した音源信号に対し、電子透かし情報に基づいてピッチマーク毎にパルス信号の位相を変調する。声道フィルタ部は、位相変調部がパルス信号の位相を変調した音源信号に対し、スペクトルパラメータ系列を用いて音声信号を生成する。
実施形態にかかる音声合成装置の構成を例示するブロック図。 音源部の構成を例示するブロック図。 実施形態にかかる音声合成装置が行う処理を例示するフローチャート。 電子透かしの無い音声波形と、音声合成装置が電子透かしを挿入した音声波形とを対比する図。 音源部の第1変形例及びその周辺の構成を例示するブロック図。 音声波形、基本周波数系列、ピッチマーク、及び帯域雑音強度系列の一例を示す図。 図5に示した音源部を有する音声合成装置が行う処理を例示するフローチャート。 音源部の第2変形例及びその周辺の構成を例示するブロック図。 実施形態にかかる電子透かし情報検出装置の構成を例示するブロック図。 判定部が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う処理を示す図。 実施形態にかかる電子透かし情報検出装置の動作を例示するフローチャート。 判定部が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う他の処理の第1例を示す図。 判定部が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う他の処理の第2例を示す図。
(音声合成装置)
以下に添付図面を参照して、実施形態にかかる音声合成装置について説明する。図1は、実施形態にかかる音声合成装置1の構成を例示するブロック図である。なお、音声合成装置1は、例えば、汎用のコンピュータなどによって実現される。即ち、音声合成装置1は、例えばCPU、記憶装置、入出力装置及び通信インターフェイスなどを備えたコンピュータとしての機能を有する。
図1に示すように、音声合成装置1は、入力部10、音源部2a、声道フィルタ部12、出力部14及び第1記憶部16を有する。入力部10、音源部2a、声道フィルタ部12及び出力部14は、それぞれハードウェア回路、又はCPUにより実行するソフトウェアのいずれで構成されてもよい。第1記憶部16は、例えばHDD(Hard Disk Drive)又はメモリなどによって構成される。つまり、音声合成装置1は、音声合成プログラムを実行することによって機能を実現するように構成されてもよい。
入力部10は、基本周波数又は基本周期の情報を表す系列(以降、基本周波数系列と記載する)と、スペクトルパラメータの系列と、電子透かし情報とを少なくとも含む特徴パラメータの系列を音源部2aに対して入力する。
基本周波数系列は、例えば有声音のフレームにおける基本周波数(F)の値などと、無声音のフレームであることを示す値との系列とする。ここで、無声音のフレームは、例えば0に固定するなど予め定めた値の系列とする。また、有声音のフレームは、周期信号のフレーム毎のピッチ周期、又は対数Fなどの値を含むものであってもよい。
本実施形態において、フレームとは、音声信号の区間を示すものとする。音声合成装置1が固定のフレームレートによって分析を行う場合、特徴パラメータは、例えば5ms毎の値となる。
スペクトルパラメータは、音声のスペクトル情報をパラメータとして表現したものである。音声合成装置1が基本周波数系列と同様に固定のフレームレートによって分析を行う場合、スペクトルパラメータは、例えば5ms毎の区間に対応する値となる。また、スペクトルパラメータには、例えばケプストラム、メルケプストラム、線形予測係数、スペクトル包絡又はメルLSPなどの様々なパラメータが用いられる。
音源部2aは、入力部10から入力された基本周波数系列、及び後述するパルス信号等を用いて、位相を変調した音源信号を生成(図2等を用いて詳述)し、声道フィルタ部12に対して出力する。
声道フィルタ部12は、音源部2aが位相を変調した音源信号に対し、例えば音源部2aを介して受入れたスペクトルパラメータ系列を用いて畳み込み演算を行って音声信号を生成する。即ち、声道フィルタ部12は、音声波形を生成する。
出力部14は、声道フィルタ部12が生成した音声信号を出力する。例えば、出力部14は、音声信号(音声波形)を波形出力として表示したり、音声ファイル(例えばWAVEファイルなど)として出力する。
第1記憶部16は、音声合成に用いる複数種類のパルス信号を記憶しており、音源部2aからのアクセスに応じていずれかのパルス信号を音源部2aに対して出力する。
図2は、音源部2aの構成を例示するブロック図である。図2に示すように、音源部2aは、例えば音源生成部20及び位相変調部22を有する。音源生成部20は、第1記憶部16から受入れたパルス信号に対し、入力部10から受入れた特徴パラメータの系列を用いて変形を行うことにより、有声音のフレームに対する(パルス)音源信号を生成する。即ち、音源生成部20は、パルス列(又はピッチマーク列)を作成することとなる。ピッチマーク列は、ピッチパルスを配置する時刻の列を表す情報である。
例えば、音源生成部20は、基準時刻を定め、当該基準時刻におけるピッチ周期を基本周波数系列内の該当するフレームの値から算出する。また、音源生成部20は、基準時刻に対して、算出したピッチ周期の長さ分進めた時刻にマークを付与する処理を繰り返すことにより、ピッチマークを作成する。また、音源生成部20は、基本周波数の逆数を求めることによってピッチ周期を算出する。
位相変調部22は、音源生成部20が生成した(パルス)音源信号を受入れて位相変調を行う。例えば、位相変調部22は、音源生成部20が生成した音源信号に対し、特徴パラメータに含まれる電子透かし情報を用いた位相変調ルールに基づいてピッチマーク毎にパルス信号の位相を変調する。即ち、位相変調部22は、パルス信号の位相を変調して位相変調パルス列を生成する。
位相変調ルールは、時系列的な変調であってもよいし、周波数系列的な変調であってもよい。例えば、位相変調部22は、下式1又は下式2に示すように、周波数ビン毎に時系列で位相を変調させたり、時間系列及び周波数系列の少なくともいずれかをランダムに変調させる全域通過フィルタを用いて時間的に変調させる。
例えば、位相変調部22が時系列で位相を変調させる場合、時系列毎(予め定められた時刻毎)に変化する位相変調ルール群を示すテーブルを電子透かし情報に用いられる鍵情報として、入力部10が位相変調部22に対してあらかじめ入力するように構成されてもよい。この場合、位相変調部22は、電子透かし情報に用いられた鍵情報に基づいて、予め定められた時刻毎に位相変調ルールを変更する。また、電子透かし情報を検出する電子透かし情報検出装置(後述)において、位相変調部22が位相変調ルールの変更に用いたテーブルを使用することにより、電子透かしの秘匿性を高めることが可能となる。
なお、aは位相変調強度(傾き)、fは周波数ビン又はバンド、tは時間、ph(t,f)は時刻tにおける周波数fの位相を示す。位相変調強度aは、例えば、複数の周波数ビンからなる2つのバンドの位相値から算出した2つの代表位相値間の比率、又は差分が所定値となるように変化させる値とする。そして、音声合成装置1は、位相変調強度aを電子透かし情報のビット情報として利用する。また、音声合成装置1は、位相変調強度a(傾き)を複数の値とすることにより、電子透かし情報のビット情報を多ビット化してもよい。また、位相変調ルールにおいては、予め定められた複数の周波数ビンの中央値、平均値、又は重みづけ平均値などが用いられてもよい。
次に、図1に示した音声合成装置1が行う処理について説明する。図3は、音声合成装置1が行う処理を例示するフローチャートである。図3に示すように、ステップ100(S100)において、音源生成部20は、第1記憶部16から受入れたパルス信号に対し、入力部10から受入れた特徴パラメータの系列を用いて変形を行うことにより、有声音のフレームに対する(パルス)音源信号を生成する。即ち、音源生成部20は、パルス列を出力する。
ステップ102(S102)において、位相変調部22は、音源生成部20が生成した音源信号に対し、特徴パラメータに含まれる電子透かし情報を用いた位相変調ルールに基づいてピッチマーク毎にパルス信号の位相を変調する。即ち、位相変調部22は、位相変調パルス列を出力する。
ステップ104(S104)において、声道フィルタ部12は、音源部2aが位相を変調した音源信号に対し、音源部2aを介して受入れたスペクトルパラメータ系列を用いて畳み込み演算を行って音声信号を生成する。即ち、声道フィルタ部12は、音声波形を出力する。
図4は、電子透かしの無い音声波形と、音声合成装置1が電子透かしを挿入した音声波形とを対比する図である。図4(a)は、電子透かしの無い「Donate to the neediest cases today!」という音声の音声波形の例を示している。また、図4(b)は、音声合成装置1が上式1を用いて電子透かしを挿入した「Donate to the neediest cases today!」という音声の音声波形の例を示している。図4(a)に示した音声波形に対し、図4(b)に示した音声波形は、電子透かしが挿入されたことにより、位相がずらされている(変調されている)。例えば、図4(b)に示した音声波形は、電子透かしが挿入されていても、人の聴覚における音質劣化を生じさせない。
(音源部2aの第1変形例:音源部2b)
次に、音源部2aの第1変形例(音源部2b)について説明する。図5は、音源部2aの第1変形例(音源部2b)及びその周辺の構成を例示するブロック図である。図5に示すように、音源部2bは、例えば判断部24、音源生成部20、位相変調部22、雑音音源生成部26及び加算部28を有する。第2記憶部18は、音声合成に用いる白色性及びガウス性の雑音信号を記憶しており、音源部2bからのアクセスに応じて雑音信号を音源部2bに対して出力する。なお、図5に示した音源部2bにおいて、図2に示した音源部2aを構成する部分と実質的に同一の部分には同一の符号が付してある。
判断部24は、入力部10から受入れた特徴パラメータに含まれる基本周波数系列の着目しているフレームが無声音のフレームであるか、有声音のフレームであるかを判断する。また、判断部24は、無声音のフレームに関する情報を雑音音源生成部26に対して出力し、有声音のフレームに関する情報を音源生成部20に対して出力する。例えば、判断部24は、基本周波数系列において無声音のフレームの値を0としている場合には、当該フレームの値が0であるか否かを判定することにより、着目しているフレームが無声音のフレームであるか、有声音のフレームであるかを判断する。
ここで、入力部10は、音源部2a(図1,2)に対して入力する特徴パラメータの系列と同じ特徴パラメータを音源部2bに対して入力してもよいが、さらに他のパラメータの系列を加えた特徴パラメータを音源部2bに対して入力するものとする。例えば、入力部10は、第1記憶部16が記憶しているパルス信号及び第2記憶部18が記憶している雑音信号に対してn個(nは2以上の整数)の通過帯域に対応するn個の帯域通過フィルタを適用する場合の強度を表す帯域雑音強度系列を、特徴パラメータの系列に加える。
図6は、音声波形、基本周波数系列、ピッチマーク、及び帯域雑音強度系列の一例を示す図である。図6において、(b)は、(a)に示した音声波形の基本周波数系列を表す。また、図6において、(d)に示した帯域雑音強度は、(c)に示したピッチマーク毎に、例えば5つの帯域に分割したそれぞれの帯域(band1〜band5)の雑音成分の強さを、スペクトルに対する割合で示したパラメータであり、0から1の間の値になっている。帯域雑音強度系列は、ピッチマーク毎(又は分析フレーム毎)に帯域雑音強度を並べたものである。
無声音のフレームは全帯域が雑音成分であるとみなされるため、帯域雑音強度の値は1となる。一方、有声音のフレームは、帯域雑音強度が1未満の値となる。一般的に、高い帯域において雑音成分は強くなる。また、有声摩擦音の高域成分では、帯域雑音強度は1に近い高い値になる。なお、基本周波数系列は対数基本周波数であってもよく、帯域雑音強度はデシベル単位であってもよい。
そして、音源部2bの音源生成部20は、基本周波数系列から開始点を設定し、現在の位置での基本周波数からピッチ周期を算出する。また、音源生成部20は、算出したピッチ周期を現在の位置に対して加えた時刻を次のピッチマークとする処理を繰り返すことによりピッチマークを作成する。
また、音源生成部20は、n個の帯域通過フィルタをパルス信号に適用してn個の帯域に分割したパルス音源信号を生成するように構成されてもよい。
音源部2bの位相変調部22は、音源部2aにおける場合と同様に、パルス信号の位相のみを変調する。
雑音音源生成部26は、第2記憶部18が記憶している白色性及びガウス性の雑音信号と、入力部10から受入れた特徴パラメータの系列とを用いて、無声音の基本周波数系列からなるフレームに対する雑音音源信号を生成する。
また、雑音音源生成部26は、n個の帯域通過フィルタを適用してn個の帯域に分割した雑音音源信号を生成するように構成されてもよい。
加算部28は、位相変調部22が位相変調を行ったパルス信号(位相変調パルス列)と雑音音源生成部26が生成した雑音音源信号の振幅を既定の比率に制御した後に重畳することにより、混合音源(雑音音源信号を加算した音源信号)を生成する。
また、加算部28は、帯域毎に帯域雑音強度系列に応じて雑音音源信号とパルス音源信号の振幅を調整した後に重畳し、すべての帯域に対して重畳を行うことによって混合音源(雑音音源信号を加算した音源信号)を生成するように構成されてもよい。
次に、音源部2bを有する音声合成装置1が行う処理について説明する。図7は、図5に示した音源部2bを有する音声合成装置1が行う処理を例示するフローチャートである。図7に示すように、ステップ200(S200)において、音源生成部20は、第1記憶部16から受入れたパルス信号に対し、入力部10から受入れた特徴パラメータの系列を用いて変形を行うことにより、有声音のフレームに対する(パルス)音源信号を生成する。即ち、音源生成部20は、パルス列を出力する。
ステップ202(S202)において、位相変調部22は、音源生成部20が生成した音源信号に対し、特徴パラメータに含まれる電子透かし情報を用いた位相変調ルールに基づいてピッチマーク毎にパルス信号の位相を変調する。即ち、位相変調部22は、位相変調パルス列を出力する。
ステップ204(S204)において、加算部28は、位相変調部22が位相変調を行ったパルス信号(位相変調パルス列)と雑音音源生成部26が生成した雑音音源信号の振幅を既定の比率に制御した後に重畳することにより、雑音音源信号(ノイズ)を加算した音源信号を生成する。
ステップ206(S206)において、声道フィルタ部12は、音源部2bが位相を変調した音源信号(ノイズ加算)に対し、音源部2bを介して受入れたスペクトルパラメータ系列を用いて畳み込み演算を行って音声信号を生成する。即ち、声道フィルタ部12は、音声波形を出力する。
(音源部2aの第2変形例:音源部2c)
次に、音源部2aの第2変形例(音源部2c)について説明する。図8は、音源部2aの第2変形例(音源部2c)及びその周辺の構成を例示するブロック図である。図8に示すように、音源部2cは、例えば判断部24、音源生成部20、フィルタ部3a、位相変調部22、雑音音源生成部26、フィルタ部3b、及び加算部28を有する。なお、図8に示した音源部2cにおいて、図5に示した音源部2bを構成する部分と実質的に同一の部分には同一の符号が付してある。
フィルタ部3aは、異なる帯域の信号を通過させ、帯域と強度を制御する帯域通過フィルタ30,32を有する。フィルタ部3aは、音源生成部20が生成した音源信号のパルス信号に対し、例えば2個の帯域通過フィルタ30,32を適用することにより、2個の帯域に分割した音源信号を生成する。また、フィルタ部3bは、異なる帯域の信号を通過させ、帯域と強度を制御する帯域通過フィルタ34,36を有する。フィルタ部3bは、雑音音源生成部26が生成した雑音音源信号に対し、例えば2個の帯域通過フィルタ34,36を適用することにより、2個の帯域に分割した雑音音源信号を生成する。このように、音源部2cにおいては、フィルタ部3aが音源生成部20とは別に設けられ、フィルタ部3bが雑音音源生成部26とは別に設けられている。
そして、音源部2cの加算部28は、帯域毎に帯域雑音強度系列に応じて雑音音源信号とパルス音源信号の振幅を調整して重畳し、すべての帯域に対して重畳を行うことによって混合音源(雑音音源信号を加算した音源信号)を生成する。
なお、上述した音源部2b及び音源部2cは、それぞれハードウェア回路、又はCPUにより実行するソフトウェアのいずれで構成されてもよい。第2記憶部18は、例えばHDD又はメモリなどによって構成される。また、CPUにより実行するソフトウェア(プログラム)は、磁気ディスク、光ディスク又は半導体メモリなどの記録媒体に格納して、もしくはネットワークを介して頒布することも可能である。
このように、音声合成装置1は、位相変調部22が電子透かし情報に基づいてパルス信号の、つまり有声部のみの位相を変調するだけであるため、合成音声の音質を劣化させることなく電子透かしを挿入することができる。
(電子透かし情報検出装置)
次に、電子透かしを挿入された合成音声から電子透かし情報を検出する電子透かし情報検出装置について説明する。図9は、実施形態にかかる電子透かし情報検出装置4の構成を例示するブロック図である。なお、電子透かし情報検出装置4は、例えば、汎用のコンピュータなどによって実現される。即ち、電子透かし情報検出装置4は、例えばCPU、記憶装置、入出力装置及び通信インターフェイスなどを備えたコンピュータとしての機能を有する。
図9に示すように、電子透かし情報検出装置4は、ピッチマーク推定部40、位相抽出部42、代表位相算出部44及び判定部46を有する。ピッチマーク推定部40、位相抽出部42、代表位相算出部44及び判定部46は、それぞれハードウェア回路、又はCPUにより実行するソフトウェアのいずれで構成されてもよい。つまり、電子透かし情報検出装置4は、電子透かし情報検出プログラムを実行することによって機能を実現するように構成されてもよい。
ピッチマーク推定部40は、入力された音声信号のピッチマーク系列を推定する。具体的には、ピッチマーク推定部40は、例えばLPC分析などによって入力信号又は入力信号の残差信号(推定した音源信号)から周期的なパルスを推定することによりピッチマークの系列を推定し、推定したピッチマークの系列を位相抽出部42に対して出力する。即ち、ピッチマーク推定部40は、残差信号抽出(音声切り出し)を行っている。
位相抽出部42は、例えば推定されたピッチマーク毎に、前後のピッチ幅の短い方の2倍を窓長として切り出しを行い、各周波数ビンにおけるピッチマーク毎の位相を抽出する。位相抽出部42は、抽出した位相の系列を代表位相算出部44に対して出力する。
代表位相算出部44は、上述した位相変調ルールに基づいて、位相抽出部42が抽出した位相から例えば複数の周波数ビンの代表となる代表位相を算出し、代表位相の系列を判定部46に対して出力する。
判定部46は、ピッチマーク毎に算出された代表位相値に基づいて、電子透かし情報の有無を判定する。判定部46が行う処理については、図10を用いて詳述する。
図10は、判定部46が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う処理を示す図である。図10(a)は、時間の経過に伴って変化するピッチマーク毎の代表位相値を示すグラフである。判定部46は、図10(a)における予め定められた期間である分析フレーム(フレーム)毎に代表位相が形成する直線の傾きを算出する。図10(a)において、周波数強度aは、直線の傾きとなって現れる。
そして、判定部46は、この傾きから電子透かし情報の有無を判定する。具体的には、判定部46は、まず傾きのヒストグラムを作成し、最頻となる傾きを代表傾き(傾き最頻値)とする。次に、判定部46は、図10(b)に示すように、傾き最頻値が第1閾値と第2閾値との間にあるか否かを判定する。判定部46は、傾き最頻値が第1閾値と第2閾値との間にある場合には、電子透かし情報が有ると判定する。また、判定部46は、傾き最頻値が第1閾値と第2閾値との間にない場合には、電子透かし情報が無いと判定する。
次に、電子透かし情報検出装置4の動作について説明する。図11は、電子透かし情報検出装置4の動作を例示するフローチャートである。図11に示すように、ステップ300(S300)において、ピッチマーク推定部40は、残差信号抽出(音声切り出し)を行う。
ステップ302(S302)において、位相抽出部42は、ピッチマーク毎に、前後のピッチ幅の短い方の2倍を窓長として切り出しを行い、位相を抽出する。
ステップ304(S304)において、代表位相算出部44は、位相変調ルールに基づいて、位相抽出部42が抽出した位相から複数の周波数ビンの代表となる代表位相を算出する。
ステップ306(S306)において、CPUは、フレームの全てのピッチマークを処理したか否かを判定する。CPUは、フレームの全てのピッチマークを処理したと判定した場合(S306:Yes)には、S308の処理に進む。また、CPUは、フレームの全てのピッチマークを処理していないと判定した場合(S306:No)には、S302の処理に進む。
ステップ308(S308)において、判定部46は、フレーム毎に代表位相が形成する直線の傾き(代表位相の傾き)を算出する。
ステップ310(S310)において、CPUは、全てのフレームを処理したか否かを判定する。CPUは、全てのフレームを処理したと判定した場合(S310:Yes)には、S312の処理に進む。また、CPUは、全てのフレームを処理していないと判定した場合(S310:No)には、S302の処理に進む。
ステップ312(S312)において、判定部46は、S308の処理において算出した傾きのヒストグラムを作成する。
ステップ314(S314)において、判定部46は、S312の処理において作成したヒストグラムの最頻値(傾き最頻値)を算出する。
ステップ316(S316)において、判定部46は、S314の処理において算出した傾き最頻値に基づいて、電子透かし情報の有無を判定する。
このように、電子透かし情報検出装置4は、ピッチマーク毎に位相を抽出し、代表位相が形成する直線の傾きの頻度に基づいて、電子透かし情報の有無を判定する。なお、判定部46は、図10に示した処理を行うことによって電子透かし情報の有無を判定することに限定されず、他の処理を行うことによって電子透かし情報の有無を判定するように構成されてもよい。
(判定部46が行う他の処理例)
図12は、判定部46が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う他の処理の第1例を示す図である。図12(a)は、時間の経過に伴って変化するピッチマーク毎の代表位相値を示すグラフである。図12(b)において、一点鎖線は、予め定められた期間である分析フレーム(フレーム)における時間の変化に対する代表位相の変化の理想値とみなす参照直線を示している。また、図12(b)において、破線は、分析フレームにおける各代表位相値(例えば4つの代表位相値)から推定した傾きを示す推定直線である。
判定部46は、分析フレーム毎に参照直線を前後にシフトさせて、代表位相との相関係数を算出し、図12(c)に例示するように、分析フレームの相関係数の頻度がヒストグラムにおける予め定められた閾値を超えた場合に電子透かし情報が有ると判定する。また、判定部46は、分析フレームの相関係数の頻度がヒストグラムにおける閾値を超えない場合には電子透かし情報が無いと判定する。
図13は、判定部46が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う他の処理の第2例を示す図である。判定部46は、図13に示した閾値を用いて、電子透かし情報の有無を判定してもよい。なお、図13に示した閾値は、電子透かし情報を含む合成音と電子透かし情報を含まない合成音(又は肉声)との2つに対し、代表位相が形成する直線の傾きのヒストグラムをそれぞれ作成して、2つのヒストグラムを最も分離できる点としている。
また、判定部46は、電子透かし情報を含む合成音の代表位相が形成する直線の傾きを特徴量として統計的にモデルを学習し、尤度を閾値として、電子透かし情報の有無を判定してもよい。また、判定部46は、電子透かし情報を含む合成音と電子透かし情報を含まない合成音の代表位相が形成する直線の傾きそれぞれを特徴量として統計的にモデルを学習し、尤度値を比較して電子透かし情報の有無を判定してもよい。
本実施形態の音声合成装置1及び電子透かし情報検出装置4で実行される各プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の各プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
1 音声合成装置
10 入力部
12 声道フィルタ部
14 出力部
16 第1記憶部
18 第2記憶部
2a,2b,2c 音源部
20 音源生成部
22 位相変調部
24 判断部
26 雑音音源生成部
28 加算部
3a,3b フィルタ部
30,32,34,36 帯域通過フィルタ
4 電子透かし情報検出装置
40 ピッチマーク推定部
42 位相抽出部
44 代表位相算出部
46 判定部



Claims (15)

  1. 音声の基本周波数系列及びパルス信号を用いて音源信号を生成する音源生成部と、
    前記音源生成部が生成した前記音源信号に対し、電子透かし情報に基づいてピッチマーク毎に前記パルス信号の位相を変調する位相変調部と、
    前記位相変調部が前記パルス信号の位相を変調した前記音源信号に対し、スペクトルパラメータ系列を用いて音声信号を生成する声道フィルタ部と、
    を有する音声合成装置。
  2. 無声音の基本周波数系列からなるフレームと雑音信号とを用いて雑音音源信号を生成する雑音音源生成部と、
    前記位相変調部が前記パルス信号の位相を変調した前記音源信号に対して前記雑音音源信号を加算する加算部と、
    をさらに有し、
    前記音源生成部は、
    有声音の基本周波数系列からなるフレームに対して前記音源信号を生成し、
    前記声道フィルタ部は、
    前記加算部が前記雑音音源信号を加算した前記音源信号に対する音声信号を生成する
    請求項1に記載の音声合成装置。
  3. 前記音源生成部が生成した前記音源信号、及び前記雑音音源生成部が生成した前記雑音音源信号それぞれに対し、帯域と強度を制御する複数の異なる帯域通過フィルタをさらに有し、
    前記位相変調部は、
    前記複数の異なる帯域通過フィルタが帯域と強度を制御した前記音源信号に対して前記パルス信号の位相を変調し、
    前記加算部は、
    前記位相変調部が前記パルス信号の位相を変調した前記音源信号に対し、前記複数の異なる帯域通過フィルタが帯域と強度を制御した前記雑音音源信号を加算する
    請求項2に記載の音声合成装置。
  4. 前記位相変調部は、
    前記電子透かし情報に用いられた鍵情報に基づいて、予め定められた時刻毎に位相変調ルールを変更する
    請求項1に記載の音声合成装置。
  5. 前記位相変調部は、
    前記音源信号における複数の周波数ビン又はバンドの位相値を変化させる位相変調ルールによって前記パルス信号の位相を変調する
    請求項1に記載の音声合成装置。
  6. 前記位相変調部は、
    前記音源信号における複数の周波数ビンからなる2つのバンドの位相値から算出する2つの代表位相値間の比率を所定値にするように変化させる位相変調ルールによって前記パルス信号の位相を変調する
    請求項1に記載の音声合成装置。
  7. 前記位相変調部は、
    前記音源信号における複数の周波数ビンからなる2つのバンドの位相値から算出する2つの代表位相値間の差分を所定値にするように変化させる位相変調ルールによって前記パルス信号の位相を変調する
    請求項1に記載の音声合成装置。
  8. 前記鍵情報は、
    予め定められた時刻毎に位相変調ルールが規定されたテーブルから構成されている
    請求項4に記載の音声合成装置。
  9. 電子透かし情報が埋め込まれた合成音声のピッチマークを推定し、推定したピッチマーク毎に音声を切り出すピッチマーク推定部と、
    前記ピッチマーク推定部が切り出した音声の位相を抽出する位相抽出部と、
    前記位相抽出部が抽出した位相から複数の周波数ビンの代表となる代表位相を算出する代表位相算出部と、
    前記代表位相に基づいて前記電子透かし情報の有無を判定する判定部と、
    を有する電子透かし情報検出装置。
  10. 前記判定部は、
    予め定められた期間であるフレーム毎に、時間の変化に対する前記代表位相の変化を示す傾きを算出し、前記傾きの頻度に基づいて前記電子透かし情報の有無を判定する
    請求項9に記載の電子透かし情報検出装置。
  11. 前記判定部は、
    予め定められた期間であるフレーム毎に、時間の変化に対する前記代表位相の変化の理想値とみなす参照直線と、前記代表位相との相関係数を算出し、前記相関係数が予め定められた閾値を超えた場合に、前記電子透かし情報が有ると判定する
    請求項9に記載の電子透かし情報検出装置。
  12. 音声の基本周波数系列及びパルス信号を用いて音源信号を生成する工程と、
    生成した前記音源信号に対し、電子透かし情報に基づいてピッチマーク毎に前記パルス信号の位相を変調する工程と、
    前記パルス信号の位相を変調した前記音源信号に対し、スペクトルパラメータ系列を用いて音声信号を生成する工程と、
    を含む音声合成方法。
  13. 電子透かし情報が埋め込まれた合成音声のピッチマークを推定し、推定したピッチマーク毎に音声を切り出す工程と、
    切り出した音声の位相を抽出する工程と、
    抽出した位相から複数の周波数ビンの代表となる代表位相を算出する工程と、
    前記代表位相に基づいて前記電子透かし情報の有無を判定する工程と、
    を含む電子透かし情報検出方法。
  14. 音声の基本周波数系列及びパルス信号を用いて音源信号を生成するステップと、
    生成した前記音源信号に対し、電子透かし情報に基づいてピッチマーク毎に前記パルス信号の位相を変調するステップと、
    前記パルス信号の位相を変調した前記音源信号に対し、スペクトルパラメータ系列を用いて音声信号を生成するステップと、
    をコンピュータに実行させるための音声合成プログラム。
  15. 電子透かし情報が埋め込まれた合成音声のピッチマークを推定し、推定したピッチマーク毎に音声を切り出すステップと、
    切り出した音声の位相を抽出するステップと、
    抽出した位相から複数の周波数ビンの代表となる代表位相を算出するステップと、
    前記代表位相に基づいて前記電子透かし情報の有無を判定するステップと、
    をコンピュータに実行させるための電子透かし情報検出プログラム。
JP2014557293A 2013-01-18 2013-01-18 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム Active JP6017591B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/050990 WO2014112110A1 (ja) 2013-01-18 2013-01-18 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム

Publications (2)

Publication Number Publication Date
JP6017591B2 true JP6017591B2 (ja) 2016-11-02
JPWO2014112110A1 JPWO2014112110A1 (ja) 2017-01-19

Family

ID=51209230

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014557293A Active JP6017591B2 (ja) 2013-01-18 2013-01-18 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム

Country Status (5)

Country Link
US (2) US9870779B2 (ja)
EP (1) EP2947650A1 (ja)
JP (1) JP6017591B2 (ja)
CN (2) CN108417199B (ja)
WO (1) WO2014112110A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
JP6193395B2 (ja) 2013-11-11 2017-09-06 株式会社東芝 電子透かし検出装置、方法及びプログラム
JP6353402B2 (ja) * 2015-05-12 2018-07-04 日本電信電話株式会社 音響電子透かしシステム、電子透かし埋め込み装置、電子透かし読み取り装置、その方法及びプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US10755694B2 (en) * 2018-03-15 2020-08-25 Motorola Mobility Llc Electronic device with voice-synthesis and acoustic watermark capabilities
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
JP2021157128A (ja) * 2020-03-30 2021-10-07 Kddi株式会社 音声波形合成装置、方法及びプログラム
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295878A (ja) * 2002-03-29 2003-10-15 Toshiba Corp 電子透かし入り音声合成システム、合成音声の透かし情報検出システム及び電子透かし入り音声合成方法
JP2006251676A (ja) * 2005-03-14 2006-09-21 Akira Nishimura 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置
JP2009210828A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 電子透かし埋込装置及び電子透かし検出装置、並びに電子透かし埋込方法及び電子透かし検出方法
JP2010169766A (ja) * 2009-01-20 2010-08-05 Yamaha Corp 電子透かし情報の埋め込みおよび抽出を行うための装置およびプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
CN1291324A (zh) * 1997-01-31 2001-04-11 T-内提克斯公司 检测录制声音的***和方法
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
EP1393315B1 (en) * 2001-05-08 2006-11-15 Koninklijke Philips Electronics N.V. Generation and detection of a watermark robust against resampling of a signal
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
US20060229878A1 (en) * 2003-05-27 2006-10-12 Eric Scheirer Waveform recognition method and apparatus
EP1594122A1 (en) * 2004-05-06 2005-11-09 Deutsche Thomson-Brandt Gmbh Spread spectrum watermarking
US7555432B1 (en) * 2005-02-10 2009-06-30 Purdue Research Foundation Audio steganography method and apparatus using cepstrum modification
US20060227968A1 (en) * 2005-04-08 2006-10-12 Chen Oscal T Speech watermark system
JP4896455B2 (ja) * 2005-07-11 2012-03-14 株式会社エヌ・ティ・ティ・ドコモ データ埋込装置、データ埋込方法、データ抽出装置、及び、データ抽出方法
EP1764780A1 (en) * 2005-09-16 2007-03-21 Deutsche Thomson-Brandt Gmbh Blind watermarking of audio signals by using phase modifications
WO2007109531A2 (en) * 2006-03-17 2007-09-27 University Of Rochester Watermark synchronization system and method for embedding in features tolerant to errors in feature estimates at receiver
US8898062B2 (en) * 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
CN101101754B (zh) * 2007-06-25 2011-09-21 中山大学 一种基于傅立叶离散对数坐标变换的稳健音频水印方法
EP2175443A1 (en) * 2008-10-10 2010-04-14 Thomson Licensing Method and apparatus for for regaining watermark data that were embedded in an original signal by modifying sections of said original signal in relation to at least two different reference data sequences
FR2952263B1 (fr) * 2009-10-29 2012-01-06 Univ Paris Descartes Procede et dispositif d'annulation d'echo acoustique par tatouage audio
CN102203853B (zh) 2010-01-04 2013-02-27 株式会社东芝 合成语音的方法和装置
EP2362387A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Watermark generator, watermark decoder, method for providing a watermark signal in dependence on binary message data, method for providing binary message data in dependence on a watermarked signal and computer program using a differential encoding
US8527268B2 (en) * 2010-06-30 2013-09-03 Rovi Technologies Corporation Method and apparatus for improving speech recognition and identifying video program material or content
JP5085700B2 (ja) 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
EP2439735A1 (en) * 2010-10-06 2012-04-11 Thomson Licensing Method and Apparatus for generating reference phase patterns
US20130254159A1 (en) * 2011-10-25 2013-09-26 Clip Interactive, Llc Apparatus, system, and method for digital audio services
EP2784775B1 (en) * 2013-03-27 2016-09-14 Binauric SE Speech signal encoding/decoding method and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295878A (ja) * 2002-03-29 2003-10-15 Toshiba Corp 電子透かし入り音声合成システム、合成音声の透かし情報検出システム及び電子透かし入り音声合成方法
JP2006251676A (ja) * 2005-03-14 2006-09-21 Akira Nishimura 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置
JP2009210828A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 電子透かし埋込装置及び電子透かし検出装置、並びに電子透かし埋込方法及び電子透かし検出方法
JP2010169766A (ja) * 2009-01-20 2010-08-05 Yamaha Corp 電子透かし情報の埋め込みおよび抽出を行うための装置およびプログラム

Also Published As

Publication number Publication date
US10109286B2 (en) 2018-10-23
US20150325232A1 (en) 2015-11-12
US20180005637A1 (en) 2018-01-04
CN108417199A (zh) 2018-08-17
CN105122351A (zh) 2015-12-02
CN108417199B (zh) 2022-11-22
CN105122351B (zh) 2018-11-13
US9870779B2 (en) 2018-01-16
JPWO2014112110A1 (ja) 2017-01-19
WO2014112110A1 (ja) 2014-07-24
EP2947650A1 (en) 2015-11-25

Similar Documents

Publication Publication Date Title
JP6017591B2 (ja) 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム
RU2487426C2 (ru) Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
KR101344435B1 (ko) 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법
JP4350690B2 (ja) 音声品質向上方法及び装置
JP2001100773A5 (ja)
JP2007171954A (ja) 狭帯域音声の帯域幅拡張
JP2010079275A (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP6203258B2 (ja) 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2010145593A (ja) 情報符号化装置
US8073687B2 (en) Audio regeneration method
JP6193395B2 (ja) 電子透かし検出装置、方法及びプログラム
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP5051051B2 (ja) 電子透かし情報の埋め込みおよび抽出を行う装置、方法およびプログラム
JP2020190606A (ja) 音声雑音除去装置及びプログラム
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム
US11978461B1 (en) Transient audio watermarks resistant to reverberation effects
JP5353206B2 (ja) 復調装置及び変復調システム
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product
Bartkowiak et al. Hybrid sinusoidal modeling of music with near transparent audio quality
JP2019184867A (ja) 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置
EP2980790A1 (en) Apparatus and method for comfort noise generation mode selection
JP2008262140A (ja) 音程変換装置及び音程変換方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160928

R151 Written notification of patent or utility model registration

Ref document number: 6017591

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350