JP6032832B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP6032832B2
JP6032832B2 JP2012053799A JP2012053799A JP6032832B2 JP 6032832 B2 JP6032832 B2 JP 6032832B2 JP 2012053799 A JP2012053799 A JP 2012053799A JP 2012053799 A JP2012053799 A JP 2012053799A JP 6032832 B2 JP6032832 B2 JP 6032832B2
Authority
JP
Japan
Prior art keywords
speech
announcement
data
speech synthesis
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012053799A
Other languages
English (en)
Other versions
JP2013186428A (ja
Inventor
稔 木幡
稔 木幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chiba Institute of Technology
Original Assignee
Chiba Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chiba Institute of Technology filed Critical Chiba Institute of Technology
Priority to JP2012053799A priority Critical patent/JP6032832B2/ja
Publication of JP2013186428A publication Critical patent/JP2013186428A/ja
Application granted granted Critical
Publication of JP6032832B2 publication Critical patent/JP6032832B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、様々な環境下でも明瞭に音声を聞き取ることが可能な音声合成方式に関する。
トンネルやホール等の公共施設において、非常時や災害時に拡声されたアナウンスを行うことが必要である。このようなアナウンス音声は確実に聞き取ることができるように明瞭である事が必須である。しかしながら残響の影響により、明瞭さを欠いた非常に聞き取りにくい音声となる場合が多い。これは、先行する音声の残響が、後続する音素をマスクしてしまうことに起因する。この問題に対し、アナウンス音声に予め処理を施して、残響の影響を受けにくい音声とする加工技術が存在する。
非特許文献1には次のような技術が開示されている。該技術は、母音などの音声定常部は、パワーが大きいため、残響を起こしやすい点に着目している。図13は非特許文献1における、母音および子音の判定アルゴリズムを説明するための概略図である。この図にあるように、時間軸上に窓を設け、前後の窓のパワーを測定することにより、音声が母音であるか、子音であるか、を認識するといったアルゴリズムを用いる。図13において、W1<W2のときは、W1を母音と判定し処理を行わないが、W1>W2の時はW1を子音と判定し、子音を強調する処理を行う。これにより、子音が母音の残響に埋もれてしまわないように音声を伝えることが可能となる。
非特許文献2には次のような技術が開示されている。該技術では、入力のテキストを形態素解析により品詞に分解する。次に、分解した品詞を結合するか、分離するかのルールを作成する。このルールに基づいて品詞を結合し文節を生成する。次に生成した文節の間にポーズを挿入していくが、この時のポーズ長は文節のモーラ数に応じて決定される。このように文節の間にポーズを付加したテキストを音声合成により発声する。これにより、残響下においても聞き取りやすい音声の生成が可能である。
信学技報 IEICE Technical Report HIP2005−94 (2005−12) 日本音響学会講演論文集 2011年9月 1−R−33
しかしながら、これらの方法では、アナウンス音声に予め処理を行っているため、残響が発生する環境が変化すると適応ができない。環境が変化すると逐一、子音の強調量や、文節間のポーズ時間等を再調整する必要がある。また、アナウンス音声の内容により、残響は変化するが、アナウンス内容を考慮して残響の影響を回避するような制御をすることができない。そこで、環境の変化やアナウンス内容等に柔軟に適応することのできるアナウンス明瞭化装置およびその方法の開発が課題として生ずる。
以上の課題を解決するために、第一に本発明は以下のようなアナウンス明瞭化装置を提供する。本発明のアナウンス明瞭化装置は音声合成装置を採用することにより、話速やピッチ周波数、ポーズ挿入、パワーの調整などのパラメータの制御が可能である。パラメータの制御は、インパルス応答波形を予め取得しておき、これを畳み込むことにより残響の影響を予測し、予測の結果をフィードバックすることにより、前記パラメータの調整を行う。
具体的には、アナウンス内容を示すテキスト形式のデータを含むアナウンスデータを取得するアナウンスデータ取得部と、取得したアナウンスデータからアナウンス音声を合成する音声合成部と、スピーカの配置される空間での残響特性値であるインパルス応答波形を取得するインパルス応答波形取得部と、取得したインパルス応答波形を用いて合成されたアナウンス音声によって生じる残響付音声を生成する残響付音声生成部と、生成された残響付音声と合成されたアナウンス音声を比較する比較部と、合成されたアナウンス音声と生成された残響付音声との比較結果が所定の範囲内に収まったか判断する判断部と、判断結果が所定の範囲内に収まらない場合に、比較部での比較結果に応じて音声合成部を制御する制御部と、を有する音声合成装置である。
第二は、上記第一の音声合成装置を基本として、音声のスペクトルを制御することが可能な音声合成装置を提供する。具体的には、音声合成部は、音声スペクトル制御手段を有する請求項1に記載の音声合成装置である。
第三は、上記第一または第二の音声合成装置を基本として、調整が完了したアナウンス音声をスピーカにより出力可能な音声合成装置である。具体的には、判断結果が所定の範囲内に収まった場合に、合成されたアナウンス音声をスピーカに対して出力する出力部を有する請求項1又は2に記載の音声合成装置を提供する。
第四は、上記第一から第三の音声合成装置を基本として、音声を入力し、これを認識してテキスト形式に変換して処理を行うことが可能な音声合成装置である。具体的には、肉声をテキスト形式のデータに変換しアナウンスデータ取得部に対して出力するデータ変換出力部をさらに有する請求項1から3のいずれか一に記載の音声合成装置を提供する。
第五は、上記第一から第四の音声合成装置を基本として、入力されるアナウンスデータに関する音韻情報を取得し、これを用いて音声合成を制御可能な音声合成装置である。具体的には、アナウンスデータには、さらに音声合成の際のパラメータが含まれる請求項1から4のいずれか一に記載の音声合成装置を提供する。
以上のような構成をとる第一の本発明によって、音声合成による各種のパラメータ(ポーズ、話速、ピッチ、パワー等)を、予測される残響信号の分析により、フィードバックすることが可能となる。これにより、環境により適応的な耐残響性を有する音声の生成が可能である。
第二の本発明によって、音声スペクトル構造を適応的に加工するフィルタの適用が可能となる。これにより、より環境に適応的なフィルタの特性制御が可能となる。
第三の本発明によって、耐残響性の高い合成音声を様々な環境で生成することが可能である。
第四の本発明によって、入力音声を肉声で入力し、これを認識することにより、音声合成することが可能となり、より即時性の高いアナウンスが可能となる。
第五の本発明によって、生成するアナウンスデータの音韻情報に基づいて音声合成が可能であるので、テキストの内容に適応的な各種パラメータを元に音声の生成が可能である。さらに、これを端緒として残響付音声を評価し、フィードバックを得ることにより、環境にも適応的なアナウンスをすることが可能となる。
実施例1のアナウンス明瞭化装置の処理の一例を説明するための図 実施例1のアナウンス明瞭化装置の機能ブロックの一例を表す図 実施例1のアナウンス明瞭化装置における処理の流れの一例を表すフローチャート 実施例1のアナウンス明瞭化装置におけるハードウエア構成の一例を表す概略図 実施例2のアナウンス明瞭化装置による処理の概要を説明するための図 実施例2のアナウンス明瞭化装置の機能ブロックの一例を表す図 実施例2のアナウンス明瞭化装置における処理の流れの一例を表すフローチャート 実施例2のアナウンス明瞭化装置におけるハードウエア構成の一例を表す概略図 実施例3のアナウンス明瞭化装置による処理の概要を説明するための図 実施例3のアナウンス明瞭化装置の機能ブロックの一例を表す図 実施例3のアナウンス明瞭化装置における処理の流れの一例を表すフローチャート 実施例3のアナウンス明瞭化装置におけるハードウエア構成の一例を表す概略図 従来技術による処理の概要を説明するための図
以下に、図を用いて本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。なお、実施例1は、主に請求項1、2、5、6、及び請求項8、9、10、13、14について説明する。実施例2は、主に請求項3、11について説明する。また、実施例3は、主に請求項4、7、12、15について説明する。
≪実施例1≫
<概要>
実施例1では、次のようなアナウンス明瞭化装置について記載する。まず、アナウンスデータを入力として受け付け、合成音声と、インパルス応答波形とを畳み込むことにより予測残響信号を生成する。予測残響信号は元の合成音声と残響レベルや周波数特性について比較される。比較の結果、所定の範囲であると評価された場合には、スピーカ等のデバイスから出力を行う。一方、所定の範囲に収まらない場合には、これをフィードバックし、音声合成を制御する各種パラメータ(ピッチ、ポーズ、話速、パワー等)の調整を行い、再度合成音声を生成して、評価を行う。
図1は本実施例における処理の概要の一例を示す図である。図に示すように、ある環境下における2つの連なる音の波形を示している。上の波形(図1(A))は前の音が後の音にオーバーラップしてしまい、後の音をマスクしてしまう。これを回避するために下の波形(図1(B))のように一定時間ポーズを与える処理を行う。この処理を、音声合成を利用することにより、音声を生成する環境に適応的に行うことが本実施例のアナウンス明瞭化装置では可能である。
<機能的構成>
図2は、本実施例のアナウンス明瞭化装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「アナウンス明瞭化装置」(0200)は、「アナウンスデータ取得部」(0201)と、「音声合成部」(0202)と、「インパルス応答波形取得部」(0203)と、「残響付音声生成部」(0204)と、「比較部」(0205)と、「判断部」(0206)と、「制御部」(0207)と、を有する。なお、本実施例のアナウンス明瞭化装置は「データ変換出力部」(0208)と、「出力部」(0209)を有していても良い。「音声合成部」(0202)は「話速、ポーズ、ピッチ、パワー制御手段」(0210)を有していてもよい。
「アナウンスデータ取得部」(0201)は、アナウンス内容を示すテキスト形式のデータを含むアナウンスデータを取得する機能を有する。具体的には、テキスト形式の入力をメモリに読み込むことにより、音声合成部(0202)に対して出力を行う。「テキスト形式」とは、最終的にテキストデータが取得出来るものであればよく、プレーンテキストのデータに限られない。
ここでアナウンスデータ取得部(0201)は、「データ変換出力部」(0208)よりテキストデータを取得してよい。「データ変換出力部」(0208)は、肉声をテキスト形式のデータに変換しアナウンスデータ取得部に対して出力する機能を有する。具体的には、音声認識により音声をテキストデータに変換する処理を行い、アナウンスデータ取得部に出力を行う。音声認識の方法については種々の技術があるが、テキストデータが出力可能なものであればいかなる技術でも適用可能である。
「音声合成部」(0202)は、取得したテキスト形式のデータをアナウンス音声に合成する機能を有する。具体的にはアナウンスデータ取得部からテキスト形式のデータを取得し、音声データに変換を行う。変換の後、残響付音声生成部(0204)に対し出力を行う。音声合成の方法についても種々の技術が採用可能であるが、少なくともピッチ、ポーズ、話速、パワー等の一つ以上をパラメータにより操作可能な話速,ポーズ,ピッチ,パワー制御手段(0210)を含む態様で構わない。
「インパルス応答波形取得部」(0203)は、スピーカの配置される空間での残響特性値であるインパルス応答波形を取得する機能を有する。具体的には、予めアナウンスを行う環境において、インパルス応答波形を取得しておき残響付音声生成部(0204)に対して出力可能とする。インパルス応答波形の取得では種々の方法が考えられるが、残響付音声生成部(0204)が取得可能な形式であればあらゆる方法で適用可能である。
「残響付音声生成部」(0204)は、取得したインパルス応答波形を用いて合成されたアナウンス音声によって生じる残響付音声を生成する機能を有する。具体的には、インパルス応答波形取得部(0203)において取得したインパルス応答波形を、音声合成部(0202)より取得したアナウンス音声の波形に畳み込み演算により残響を組み込んでいき、残響付音声を取得する処理を行う。畳み込みの方法であるが、FIRフィルタを用いるものや、サンプリング・リバーブ、等の技術が適用可能である。
「比較部」(0205)は、生成された残響付音声と合成されたアナウンス音声を比較する機能を有する。具体的には、合成された残響を付与しないアナウンス音声と、残響付音声とを、時間軸上のひずみや、周波数軸上のひずみなどの側面等から比較を行い、残響の聞き取りへの影響を反映した誤差を取得する。取得された誤差は比較結果として判断部に出力される。
合成されたアナウンス音声の評価指標は、上記のひずみの評価の他、MTF(Modulation Transfer Function)やSTI(Speech Transmission Index)のように、残響空間に対して計算される音声の聞き取りやすさといった指標を応用したものを採用することが可能である。
誤差の算出法については、上記の他、種々の態様の評価関数が考えられる。例えば、ポーズ長については、耐残響性の側面ではポーズが長ければ長いほどよいが、そうなるとかえってアナウンスの自然性が損なわれる。従って、ポーズが長くなるとペナルティを加えるような関数の形態が考えられる。この関数を採用すると、誤差については極小値が一つの下に凸な形態の関数になる。
「判断部」(0206)は、合成されたアナウンス音声と生成された残響付音声との比較結果が所定の範囲内に収まったか判断する機能を有する。具体的には、比較部(0205)による比較結果を取得し、その結果を所定のしきい値との大小比較により判断を行う。判断結果がしきい値より小さい場合には、出力部に信号を送り、合成されたアナウンス音声をスピーカに対して出力を行う。一方、しきい値より大きい場合には、判断結果は制御部(0207)に対し出力される。
「制御部」(0207)は、判断結果が所定の範囲内に収まらない場合に、比較部での比較結果に応じて音声合成部を制御する機能を有する。具体的には、判断部(0206)より判断結果を取得し、判断結果が所定の範囲内でなければ、音声合成部(0202)に対して、パラメータを調節するための制御信号を送る。
「出力部」(0209)は、判断結果が所定の範囲内に収まった場合に、判断部(0206)からの信号を元に、合成されたアナウンス音声をスピーカに対して出力する機能を有する。出力されたアナウンス音声はスピーカにより出力される。
「話速、ポーズ、ピッチ、パワー制御手段」(0210)は、音声合成部(0202)における音声合成のパラメータのうち、話速、ポーズ、ピッチ、パワーを制御する機能を有する。制御部(0207)より制御信号を受け、各パラメータの調節を行う。
<処理の流れ>
図3は、本実施例のアナウンス明瞭化装置における処理の流れの一例を表すフローチャートである。まず、テキストの取得を行う(ステップS0302)。肉声が入力される場合にはテキストの取得前に肉声をテキスト形式のデータに変換する処理(ステップS0301)を実行する。次に音声合成が実行される(ステップS0303)。ここまでに別途インパルス応答の波形の取得(ステップS0304)を行っておく。次に残響付音声の生成(ステップS0305)を行う。その後、残響付音声と合成されたアナウンス音声を比較する(ステップS0306)。その結果、比較の結果が所定の範囲内か否かの判断を行う(ステップS0307)。範囲内でない場合には、比較結果に応じて音声合成ステップを制御する(ステップS0308)。比較結果が所定の範囲内であった場合には、アナウンス音声をスピーカに対して出力することができる(ステップS0309)。
<ハードウエア的構成>
図4は、上記機能的な各構成要件をハードウエアとして実現した際の、アナウンス明瞭化装置における構成の一例を表す概略図である。この図を利用して本発明の処理におけるそれぞれのハードウエア構成部の働きについて説明する。この図にあるように、本実施例のアナウンス明瞭化装置は、各種演算処理を行う「CPU(中央演算装置)」(0401)と、「揮発性メモリ」(0402)と、「不揮発性メモリ」(0403)と、「D/Aコンバータ」(0404)と、「A/Dコンバータ」(0405)を有している。D/Aコンバータには、「スピーカ」(0406)が接続されている。また、A/Dコンバータには、「マイク」(0407)が接続されている。そしてそれらが「システムバス」(0408)などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。
また、「揮発性メモリ」(0402)は、各種処理を行うプログラムを「CPU」(0401)に実行させるために「不揮発性メモリ」(0403)から読み出すと同時にそのプログラムの作業領域でもあるワーク領域を提供する。
ここで、装置が起動するとまず、インパルス応答波形の取得を行う。揮発性メモリ(0402)または不揮発性メモリに(0403)保持されている音源をD/Aコンバータ(0404)を介してスピーカ(0406)より出力する。その音声をマイク(0407)で取得し、A/Dコンバータ(0405)を介して、CPU(0401)に送る。CPU上ではノイズの除去等の各種処理を行い、インパルス応答波形として揮発性メモリ(0402)あるいは不揮発性メモリ(0403)で保持される。
次に、揮発性メモリ(0402)より音声合成プログラムがCPU(0401)にロードされる。当プログラムは、揮発性メモリ(0402)、あるいは不揮発性メモリ(0403)上に取得されたテキストデータを入力とし、音声合成を行う。音声合成は不揮発性メモリ内の音声素片を使用してよい。
入力がテキストデータでなく、肉声であった場合には、揮発性メモリ(0402)上の、音声認識プログラムをCPU(0401)にロードする。次にマイク(0407)より肉声を入力し、「A/Dコンバータ」(0405)によりデジタルデータに変換する。このデータを音声認識プログラムに対し入力すると、認識処理を行い、テキストデータの形式で揮発性メモリ(0402)または不揮発性メモリ(0403)に対して出力される。出力されたデータは、音声合成プログラムにより取得される。
音声合成プログラムにより合成された音声波形は、CPU(0401)の演算によってインパルス応答波形を畳み込まれる。演算の結果、残響付音声波形が生成される。この残響付音声波形と、音声合成プログラムで出力された音声波形と、をCPU(0401)上により比較を行う。比較の結果誤差XがA:しきい値以下であれば、音声合成で出力された音声波形をCPU(0401)にて再生し、D/Aコンバータ(0404)を介し、スピーカ(0406)により出力を行う。A:しきい値以上であれば、音声合成プログラムのパラメータ(ピッチ・ポーズ・話速、パワー等)を調整する。調整後、CPU(0401)上で再び音声合成プログラムにより音声合成を行い、再度比較を行う。
上記比較の方法は、例えば原音と比較して音声部分にかかっている残響レベルや、残響付加前の音声からのスペクトルの歪について評価を行い、誤差XがA:しきい値以下となるように音声合成プログラムのパラメータを調整するような処理が挙げられる。
<効果の簡単な説明>
以上のように本実施例のアナウンス明瞭化装置によって、合成音声波形にインパルス応答波形を畳み込み、残響付音声を生成可能である。残響付音声と元の合成音声とを比較することで、音声合成の各種パラメータの調整を行うことが可能である。これにより、アナウンスされる環境により適応的なアナウンスを実行可能である。
≪実施例2≫
<概要>
図5は、本実施例のアナウンス明瞭化装置の処理の一例について説明するための概念図である。図5(A)は、ある環境下における音声の周波数スペクトルを示している。図5(B)では、周波数スペクトルの一部を調整し、後続音声をマスクしてしまう周波数帯域の音声を抑制している。このように本実施例のアナウンス明瞭化装置は、周波数スペクトルにおける一定の周波数帯域を抑制または強調することで、残響による影響を低減する処理が可能である。そして、この処理を残響付音声波形に適用し、フィードバックによる最適化を行うことで、アナウンスされる環境に適応的に残響の低減を行うことが可能である。
<機能的構成>
図6は、本実施例のアナウンス明瞭化装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「アナウンス明瞭化装置」(0600)は、「アナウンスデータ取得部」(0601)と、「音声合成部」(0602)と、「インパルス応答波形取得部」(0603)と、「残響付音声生成部」(0604)と、「比較部」(0605)と、「判断部」(0606)と、「制御部」(0607)と、を有する。なお、本実施例のアナウンス明瞭化装置は「データ変換出力部」(0608)と、「出力部」(0609)と、を有していてもよい。また、図示していないが、「音声合成部」(0602)は、「話速、ポーズ、ピッチ、パワー制御手段」を有していても良い。本実施例のアナウンス明瞭化装置の特徴は、「音声合成部」(0602)が、「音声スペクトル制御手段」(0611)を新たに有する点である。
「音声スペクトル制御手段」(0611)は、音声スペクトルを制御する機能を有する。具体的には、制御部からの信号を受信し、音声合成部が有する適応フィルタのパラメータを制御する。例えば、ある一定周波数領域の要素のみを強調または抑制することが可能である。これにより残響の影響が少ない、明瞭な音声アナウンスが可能となる。
フィルタ調整の手法は種々の態様が考えられる。例えば音声符号化用のポストフィルタを用いることが可能である。これによりフォルマント強調や平坦化、有声音の調波構造を強調する等の処理が可能である。
<処理の流れ>
図7は、本実施例のアナウンス明瞭化装置における処理の流れの一例を表すフローチャートである。まず、テキストの取得を行う(ステップS0702)。肉声が入力される場合にはテキストの取得前に肉声をテキスト形式のデータに変換する処理(ステップS0701)を実行する。次に音声合成の実行がされる(ステップS0703)。ここまでに別途インパルス応答の波形の取得(ステップS0704)を行っておく。次に残響付音声の生成(ステップS0705)を行う。その後、残響付音声と合成されたアナウンス音声を比較する(ステップS0706)。その結果、比較の結果が所定の範囲内か否かの判断を行う(ステップS0707)。範囲内でない場合には、比較結果に応じて音声合成ステップを制御する(ステップS0708)。また、比較結果に応じて音声スペクトルを制御する(ステップS0709)。比較結果が所定の範囲内であった場合には、アナウンス音声をスピーカに対して出力することができる(ステップS0710)。
<ハードウエア的構成>
図8は、上記機能的な各構成要件をハードウエアとして実現した際の、アナウンス明瞭化装置における構成の一例を表す概略図である。この図を利用して本発明の処理におけるそれぞれのハードウエア構成部の働きについて説明する。この図にあるように、本実施例のアナウンス明瞭化装置は、各種演算処理を行う「CPU(中央演算装置)」(0801)と、「揮発性メモリ」(0802)と、「不揮発性メモリ」(0803)と、「D/Aコンバータ」(0804)と、「A/Dコンバータ」(0805)を有している。D/Aコンバータには、「スピーカ」(0806)が接続されている。また、A/Dコンバータには、「マイク」(0807)が接続されている。そしてそれらが「システムバス」(0808)などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。
装置が起動すると、インパルス応答波形の取得と、音声合成が行われる。この処理のハードウエアの動作に関しては上記実施例にて記載済みであるので省略する。
音声合成プログラムにより合成された音声波形は、CPU(0801)の演算によってインパルス応答波形を畳み込まれる。演算の結果、残響付音声波形が生成される。この残響付音声波形と、音声合成プログラムで出力された音声波形と、をCPU(0801)上により比較を行う。比較の結果誤差XがA:しきい値以下であれば、音声合成で出力された音声波形をCPU(0801)にて再生し、D/Aコンバータ(0804)を介し、スピーカ(0806)により出力を行う。A:しきい値以上であれば、音声合成プログラムのフィルタのパラメータ(周波数別のパワー等)を調整する。調整後、CPU(0801)上で再び音声合成プログラムにより音声合成を行い、再度比較を行う。
<効果の簡単な説明>
このように、本実施例のアナウンス明瞭化装置は、適応的に音声スペクトルの制御が可能である。これによりアナウンスする環境に合わせ、残響等の影響が少ないアナウンス音声の生成が可能である。
≪実施例3≫
<概要>
図9は本実施例のアナウンス明瞭化装置における処理の一例を表す図である。この図にあるように、音声合成を行う際に、音声素片データベースより素片を選択し、この素片により音声の生成を行う。この素片にはラベルデータが付属しており、種々の条件を記載することが可能である。例えば、「た」の素片に対して、定常部のaを抑制したり、ポーズの指定を行ったり、ピッチ、話速の増減の値を加えたり、後続する素片により制御をするか否かの条件を記載したり、等の種々の情報を付加することができる。このデータに基づき音声素片毎に音声合成のパラメータを調整することにより、明瞭な音声の生成を行うことが可能である。
<機能的構成>
図10は、本実施例のアナウンス明瞭化装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「アナウンス明瞭化装置」(1000)は、「アナウンスデータ取得部」(1001)と、「音声合成部」(1002)と、「インパルス応答波形取得部」(1003)と、「残響付音声生成部」(1004)と、「比較部」(1005)と、「判断部」(1006)と、「制御部」(1007)と、を有する。なお、本実施例のアナウンス明瞭化装置は「データ変換出力部」(1008)と、「出力部」(1009)を有していても良い。また、図示していないが、「音声合成部」(1002)は、「話速、ポーズ、ピッチ、パワー制御手段」と、「音声スペクトル制御手段」と、を有していてもよい。本実施例のアナウンス明瞭化装置の特徴は、「制御部」(1002)が取得するアナウンスデータには、さらに音声合成の際のパラメータが含まれる点と、「音声合成部」(1002)が「素片パラメータ制御手段」(1012)を有する点である。
本実施例の「制御部」(1007)は、アナウンスデータ取得部が取得したアナウンスデータを用いて音声合成部を制御する機能をさらに有する。「アナウンスデータ」には、音声合成の際のパラメータ等が含まれる。例えば、音声合成に使用する音声素片等もアナウンスデータに含まれる。このアナウンスデータに含まれる音韻情報を元に、音声合成部を制御する。具体的には、アナウンスデータ取得部よりアナウンスデータを取得し、音声素片に付属するラベルデータを取得する。取得したラベルデータを用いて音声合成のパラメータ制御を行う。
ここで「ラベルデータ」とは、その素片の母音/子音の別や、上記のように音素を抑制する程度、適用する周波数帯等が記載できる他、ポーズの長さ、ピッチの変化量、話速の変化量等も記載可能である。また、後続条件や先行条件を記述して、他のどの音素に接続するかで処理を変化させるといった条件についても記載可能である。
「素片パラメータ制御手段」(1012)は、音声素片に付属するパラメータに基づいて音声合成を制御する機能を有する。具体的には、「制御部」(1007)が取得したアナウンスデータに含まれる、音声素片に付属のラベルデータより生成された制御信号を受け取る。これに基づいて、特定周波数帯のパワーを抑制したり、ポーズの長さ、ピッチ、話速の変更を行ったりする処理を実行する。
<処理の流れ>
図11は、本実施例のアナウンス明瞭化装置における処理の流れの一例を表すフローチャートである。まず、テキストの取得を行う(ステップS1102)。肉声が入力される場合にはテキストの取得前に肉声をテキスト形式のデータに変換する処理(ステップS1101)を実行する。次に音声合成の実行がされる(ステップS1103)。ここまでに別途インパルス応答の波形の取得(ステップS1104)を行っておく。次に残響付音声の生成(ステップS1105)を行う。その後、残響付音声と合成されたアナウンス音声を比較する(ステップS1106)。その結果、比較の結果が所定の範囲内か否かの判断を行う(ステップS1107)。範囲内でない場合には、比較結果に応じて音声合成ステップを制御(ステップS1108)し、比較結果に応じて音声スペクトルを制御する(ステップS1109)。また、次にアナウンスデータを用いて音声合成ステップを制御する(ステップS1110)。比較結果が所定の範囲内であった場合には、アナウンス音声をスピーカに対して出力することができる(ステップS1111)。
<ハードウエア的構成>
図12は、上記機能的な各構成要件をハードウエアとして実現した際の、アナウンス明瞭化装置における構成の一例を表す概略図である。この図を利用して本発明の処理におけるそれぞれのハードウエア構成部の働きについて説明する。この図にあるように、本実施例のアナウンス明瞭化装置は、各種演算処理を行う「CPU(中央演算装置)」(1201)と、「揮発性メモリ」(1202)と、「不揮発性メモリ」(1203)と、「D/Aコンバータ」(1204)と、「A/Dコンバータ」(1205)を有している。D/Aコンバータには、「スピーカ」(1206)が接続されている。また、A/Dコンバータには、「マイク」(1207)が接続されている。そしてそれらが「システムバス」(1208)などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。
装置が起動すると、インパルス応答波形の取得と、音声合成が行われる。この処理のハードウエアの動作に関しては上記実施例にて記載済みであるので省略する。
音声合成プログラムにより合成された音声波形は、CPU(1201)の演算によってインパルス応答波形を畳み込まれる。演算の結果、残響付音声波形が生成される。この残響付音声波形と、音声合成プログラムで出力された音声波形と、をCPU(1201)上により比較を行う。比較の結果誤差XがA:しきい値以下であれば、音声合成で出力された音声波形をCPU(1201)にて再生し、D/Aコンバータ(1204)を介し、スピーカ(1206)により出力を行う。A:しきい値以上であれば、音声合成プログラムのフィルタのパラメータ(周波数別のパワー等)を調整する。
この時、入力するテキストに対応する音声素片を不揮発性メモリ(1203)より揮発性メモリ(1202)に読み出す。音声合成プログラムは音声素片データに付属のラベルデータにアクセスし、情報を取得する。ここでの情報は母音/子音の別等の情報の他、ポーズ、ピッチ、話速の規定値や、パラメータ調整の際の調整量、音声スペクトルを調整する適応フィルタの規定値や調整量などが含まれる。これに基づいて、音声合成プログラムのパラメータの調整が行われる。調整後、CPU(1201)上で再び音声合成プログラムにより音声合成を行い、再度比較を行う。
<効果の簡単な説明>
このように、本実施例のアナウンス明瞭化装置は、アナウンスデータを取得した際に、対応する音声素片に付属のラベルデータにアクセスが可能である。これにより、生成するアナウンス内容および生成する環境に最適な、音声合成部のパラメータの調節が可能である。
0200 アナウンス明瞭化装置
0201 アナウンスデータ取得部
0202 音声合成部
0203 インパルス応答波形取得部
0204 残響付音声生成部
0205 比較部
0206 判断部
0207 制御部

Claims (15)

  1. アナウンス内容を示すテキスト形式のデータを含むアナウンスデータを取得するアナウンスデータ取得部と、
    取得したアナウンスデータからアナウンス音声を合成する音声合成部と、
    スピーカの配置される空間での残響特性値であるインパルス応答波形を取得するインパルス応答波形取得部と、
    取得したインパルス応答波形を用いて合成されたアナウンス音声によって生じる残響付音声を生成する残響付音声生成部と、
    生成された残響付音声と合成されたアナウンス音声を比較する比較部と、
    合成されたアナウンス音声と生成された残響付音声との比較結果が所定の範囲内に収まったか判断する判断部と、
    判断結果が所定の範囲内に収まらない場合に、比較部での比較結果に応じて音声合成部を制御する制御部と、
    を有する音声合成装置。
  2. 音声合成部は、話速、ポーズ、ピッチ、パワー制御手段を有する請求項1に記載の音声合成装置。
  3. 音声合成部は、音声スペクトル制御手段を有する請求項1又は2に記載の音声合成装置。
  4. 音声合成部は、音声素片に付属するパラメータに基づいて音声合成を制御する素片パラメータ制御手段を有する請求項1から3のいずれか一に記載の音声合成装置。
  5. 判断結果が所定の範囲内に収まった場合に、合成されたアナウンス音声をスピーカに対して出力する出力部を有する請求項1から4のいずれか一に記載の音声合成装置。
  6. 肉声をテキスト形式のデータに変換しアナウンスデータ取得部に対して出力するデータ変換出力部をさらに有する請求項1から5のいずれか一に記載の音声合成装置。
  7. アナウンスデータには、さらに音声合成の際のパラメータが含まれる請求項1から6のいずれか一に記載の音声合成装置。
  8. 音声合成装置に、アナウンス内容を示すテキスト形式のデータを含むアナウンスデータを取得するアナウンスデータ取得ステップと、
    取得したアナウンスデータからアナウンス音声を合成する音声合成ステップと、
    スピーカの配置される空間での残響特性値であるインパルス応答波形を取得するインパルス応答波形取得ステップと、
    取得したインパルス応答波形を用いて合成されたアナウンス音声によって生じる残響付音声を生成する残響付音声生成ステップと、
    生成された残響付音声と合成されたアナウンス音声を比較する比較ステップと、
    合成されたアナウンス音声と生成された残響付音声との比較結果が所定の範囲内に収まったか判断する判断ステップと、
    判断結果が所定の範囲内に収まらない場合に、比較ステップでの比較結果に応じて音声合成ステップを制御する制御ステップと、
    実行させるための音声合成プログラム。


  9. アナウンス内容を示すテキスト形式のデータを含むアナウンスデータを取得するアナウンスデータ取得ステップと、
    取得したアナウンスデータからアナウンス音声を合成する音声合成ステップと、
    スピーカの配置される空間での残響特性値であるインパルス応答波形を取得するインパルス応答波形取得ステップと、
    取得したインパルス応答波形を用いて合成されたアナウンス音声によって生じる残響付音声を生成する残響付音声生成ステップと、
    生成された残響付音声と合成されたアナウンス音声を比較する比較ステップと、
    合成されたアナウンス音声と生成された残響付音声との比較結果が所定の範囲内に収まったか判断する判断ステップと、
    判断結果が所定の範囲内に収まらない場合に、比較ステップでの比較結果に応じて音声合成ステップを制御する制御ステップと、
    を有する音声合成方法。
  10. 音声合成ステップは、話速,ポーズ,ピッチ,パワー制御サブステップを有する請求項9に記載の音声合成方法。
  11. 音声合成ステップは、音声スペクトル制御サブステップを有する請求項9又は10に記載の音声合成方法。
  12. 音声合成ステップは、音声素片に付属するパラメータに基づいて音声合成を制御する素片パラメータ制御サブステップを有する請求項9から11のいずれか一に記載の音声合成方法。
  13. 判断結果が所定の範囲内に収まった場合に、合成されたアナウンス音声をスピーカに対して出力する出力ステップを有する請求項9から12のいずれか一に記載の音声合成方法。
  14. 肉声をテキスト形式のデータに変換しアナウンスデータ取得ステップに対して出力するデータ変換出力ステップをさらに有する請求項9から13のいずれか一に記載の音声合成方法。
  15. アナウンスデータには、さらに音声合成の際のパラメータが含まれ、制御ステップは前記パラメータを用いて音声合成ステップを制御するテキスト制御サブステップを有する請求項9から14のいずれか一に記載の音声合成方法。
JP2012053799A 2012-03-09 2012-03-09 音声合成装置 Expired - Fee Related JP6032832B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012053799A JP6032832B2 (ja) 2012-03-09 2012-03-09 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012053799A JP6032832B2 (ja) 2012-03-09 2012-03-09 音声合成装置

Publications (2)

Publication Number Publication Date
JP2013186428A JP2013186428A (ja) 2013-09-19
JP6032832B2 true JP6032832B2 (ja) 2016-11-30

Family

ID=49387868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012053799A Expired - Fee Related JP6032832B2 (ja) 2012-03-09 2012-03-09 音声合成装置

Country Status (1)

Country Link
JP (1) JP6032832B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2551499B (en) * 2016-06-17 2021-05-12 Toshiba Kk A speech processing system and speech processing method
CN107134276A (zh) * 2017-07-06 2017-09-05 大连华锐重工集团股份有限公司 一种可编程式智能语音播报***及方法
CN116645954B (zh) * 2023-07-27 2023-11-17 广东保伦电子股份有限公司 一种采用ai拟声的ip广播***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4774255B2 (ja) * 2005-08-31 2011-09-14 隆行 荒井 音声信号処理方法、装置及びプログラム
JP5627241B2 (ja) * 2008-01-21 2014-11-19 パナソニック株式会社 音声信号処理装置および方法

Also Published As

Publication number Publication date
JP2013186428A (ja) 2013-09-19

Similar Documents

Publication Publication Date Title
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
KR100915733B1 (ko) 음성 신호들의 대역폭의 인공 확장을 위한 방법 및 장치
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
CN101578657B (zh) 一种衰减因子的获取方法和获取装置
KR101668401B1 (ko) 오디오 신호를 인코딩하기 위한 방법 및 장치
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
KR100905585B1 (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
EP1252621A1 (en) System and method for modifying speech signals
JPWO2011004579A1 (ja) 声質変換装置、音高変換装置および声質変換方法
KR20190117725A (ko) 잡음 환경에 적응적인 음성 신호 처리방법 및 장치
JPWO2005106850A1 (ja) 階層符号化装置および階層符号化方法
JP2017161917A (ja) 平均符号化レートを制御するためのシステムおよび方法
US20230178084A1 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
JPS60107700A (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
JP6032832B2 (ja) 音声合成装置
US20100153099A1 (en) Speech encoding apparatus and speech encoding method
JP3360423B2 (ja) 音声強調装置
JP4433668B2 (ja) 帯域拡張装置及び方法
JP6333043B2 (ja) 音声信号処理装置
GB2336978A (en) Improving speech intelligibility in presence of noise
EP1944761A1 (en) Disturbance reduction in digital signal processing
JPH02293900A (ja) 音声合成装置
JP3869823B2 (ja) 音声の周波数特性の等化装置
KR20030076596A (ko) 저비트율 씨이엘피용 펄스여기에 고주파 노이즈를도입하는 시스템 및 방법
CN116110424A (zh) 一种语音带宽扩展方法及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161024

R150 Certificate of patent or registration of utility model

Ref document number: 6032832

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees