JP4856560B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP4856560B2
JP4856560B2 JP2007021048A JP2007021048A JP4856560B2 JP 4856560 B2 JP4856560 B2 JP 4856560B2 JP 2007021048 A JP2007021048 A JP 2007021048A JP 2007021048 A JP2007021048 A JP 2007021048A JP 4856560 B2 JP4856560 B2 JP 4856560B2
Authority
JP
Japan
Prior art keywords
information
speech
synthesized speech
character string
accent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007021048A
Other languages
English (en)
Other versions
JP2008185911A (ja
Inventor
成一 天白
康雄 傍島
高明 森山
泰宏 藤井
睦明 三木
育子 八田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ARCADIA, INC.
Original Assignee
ARCADIA, INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ARCADIA, INC. filed Critical ARCADIA, INC.
Priority to JP2007021048A priority Critical patent/JP4856560B2/ja
Publication of JP2008185911A publication Critical patent/JP2008185911A/ja
Application granted granted Critical
Publication of JP4856560B2 publication Critical patent/JP4856560B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成装置であって、特に、ユーザが音声合成に必要なパラメータの値を設定せずとも所望の合成音声を得ることができるものに関する。
従来の音声合成装置を説明する。従来の音声合成装置の一つである音声合成装置100では、音声合成エンジンに適切なパラメータを与えて、所望の音声合成データを得る作業を容易に行うことができる。
音声合成装置100は、ユーザからキーボードを介して漢字仮名まじり文字列を獲得すると、獲得した漢字まじり文字列から音声合成に必要なパラメータの値を自動的に決定し、決定したパラメータの値に基づいて合成音声を生成する。ここで、パラメータには、アクセントの高低やアクセント位置などがある。
また、音声合成装置100では、生成した合成音声に対する修正が可能となっている。音声合成装置100は、生成した合成音声のパラメータをユーザが修正しやすいように、図16に示すように、現在のパラメータの設定値をディスプレイ上に視覚的に表示する。図16では、パラメータの一つであるアクセントの設定値がディスプレイ上に視覚的に表示されている。仮名文字列「あらしまちょーの」を構成する各仮名文字「あ」、「ら」、「し」、「ま」、「ちょ」「−」、「の」に対して与えられたアクセントに対応して、各仮名文字が上下位置に配置されている。この図では、仮名文字「あ」以外の仮名文字に対しては、仮名文字「あ」よりも相対的に高いアクセントが与えられている。
ここで、仮名文字「ま」についてアクセントを低くしたければ、マウスを操作して、仮名文字枠72を下方向にドラッグする。これを受けて、音声合成装置100は、仮名文字「ま」のアクセントを低くするようにパラメータの値を変更する。そして、図17に示すように、音声合成装置100は、仮名文字「ま」のかな文字枠72を下方向に移動して表示する。このようにして、パラメータの一つであるアクセントの高低をユーザは容易に編集することができる。
特開2004−246129
前述の音声合成装置100には、次のような問題点がある。音声合成装置100では、ユーザは、パラメータの値を変更することによって、合成音声を修正することができる。つまり、ユーザが適切なパラメータを与えれば、音声合成装置100は、ユーザが所望する合成音声を提供することができる。逆に言えば、ユーザが適切なパラメータの値を与えることができなければ、音声合成装置100は、ユーザが所望する合成音声を提供することはない。
そして、一般的に、ユーザは、自らが所望する合成音声の具体的イメージは持っていても、どのパラメータをどの程度の値に変更すれば所望する合成音声となるのかを把握していない場合が多い。つまり、ユーザはパラメータの値の設定変更を行っては、合成音声を確認するという作業を繰り返さなければならない、という問題が生ずる。
例えば、ユーザがキーボードを介して「中山」と入力すると、音声合成装置100は、「中山」を構成する仮名文字列「な」、「か」、「や」、「ま」に対して、パラメータの一つとしてアクセント「低」、「高」、「高」、「高」の値を自動的に決定し、「中山」の合成音声を生成する。この例において音声合成装置100が各仮名文字「な」、「か」、「や」、「ま」に対して与えたアクセント「低」、「高」、「高」、「高」の値は、一般的に人名の「中山」が有するアクセントである。
ここで、ユーザは近畿のある地方における地名を想定して「中山」と入力していた場合を考える。この場合、各仮名文字「な」、「か」、「や」、「ま」に対してアクセント「低」、「高」、「低」、「低」の値が設定されていなければ、ユーザは所望する合成音声を得ることができない。つまり、ユーザは、各仮名文字「な」、「か」、「や」、「ま」に対するアクセントの値が「低」、「高」、「高」、「高」ではなく、「低」、「高」、「低」、「低」であることを認識した上で、アクセントの値を修正する必要がある。
しかし、音声学の専門家でないユーザが、単語やフレーズといった文字列のアクセントの位置やアクセントの大きさを把握することは容易ではない。よって、ユーザは、アクセントの位置、値の設定変更を行っては、合成音声を確認するという作業を、自らが想定する合成音声が得られるまで繰り返さなければならない。
そこで、本発明は、ユーザがパラメータの値を設定・変更せずとも所望の合成音声を容易に得ることができる音声合成装置の提供を目的とする。
本発明に関する課題を解決するための手段及び発明の効果を以下に示す。
本発明に係る音声合成装置、音声合成プログラム、及び音声合成方法では、ある文字列を表す文字列情報を取得し、ある音声を音声情報として取得し、取得した音声情報から、当該音声情報が有するアクセントをアクセント情報として抽出し、前記アクセント情報及び前記文字列情報に基づいて、前記文字列に対応する合成音声であって、前記アクセントを有するものを生成する。
これにより、ユーザが音声により入力したアクセントに基づいて、文字列に対応する合成音声を生成することができる。よって、ユーザは、自らが想定するアクセントを有する合成音声を容易に得ることができる。
本発明に係る音声合成装置又は音声合成プログラムでは、さらに、取得した音声情報の基本周波数の時間的変化を表す基本周波数関数を用いて、前記アクセント情報を抽出する。これにより、アクセントを容易に判断することができる。
本発明に係る音声合成装置又は音声合成プログラムでは、取得した文字列情報が表す文字列と前記音声情報とを対応付けて、当該文字列を構成する音節のうち、どの音節にアクセントが存在するのかを判断し、アクセントが存在すると判断した音節を前記アクセント情報として抽出し、前記文字列情報における文字列に対応した合成音声であって、アクセントが存在すると判断した音節にアクセントを有するものを生成する。これにより、アクセントが存在する音節を容易に特定することができる。
本発明に係る音声合成装置又は音声合成プログラムでは、生成した合成音声の特徴量を変更し、変更した特徴量を有する合成音声を生成し、前記特徴量を変更した合成音声及び当該変更をする前の合成音声とを、合成音声候補として表示手段に表示し、表示した合成音声候補は入力手段によって選択可能なように構成されており、前記表示手段に表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を合成音声と決定する。
これにより、複数の合成音声候補を提供することができる。よって、ユーザは、提供された合成音声候補から選択するという容易な操作で合成音声を得ることができる。
本発明に係る音声合成装置又は音声合成プログラムでは、前記特徴量は、音の高低若しくは速度のいずれか一方を少なくとも含む。これにより、音の高低又は/及び速度を変更した、合成音声候補を容易に得ることができる。
本発明に係る音声合成装置又は音声合成プログラムでは、前記特徴量が、音の高低及び速度により構成されている場合、前記合成音声候補を音の高低及び速度を2軸とした平面上に配置する。
これにより、ユーザは、提供される合成音声候補の相関関係を容易に把握することができる。よって、ユーザは、容易に合成音声候補から所望のもの選択することができる。
本発明に係る音声合成装置又は音声合成プログラムでは、前記表示手段に表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を再生し、再生した前記合成音声候補に対して合成音声情報として確定する確定情報を獲得すると、前記合成音声候補を合成音声と決定する。
これにより、ユーザは、合成音声候補の再生音を確認した上で、合成音声候補の選択を行うことができる。
ここで、請求項に記載されている要素と実施例における要素との対応関係を示す。音声合成装置は音声合成装置21に対応する。音声情報取得手段はCPU211、サウンド回路218、マイクロフォン218mに、アクセント情報抽出手段はCPU211及びメモリ212に、音声合成手段はCPU211及びメモリ212に、文字列情報取得手段はCPU211、メモリ212、キーボード214及びマウス215に、変更合成音声生成手段はCPU211及びメモリ212に、合成音声候補表示手段はCPU211及びメモリ212に、合成音声決定手段はCPU211及びメモリ212に、それぞれ該当する。
音声情報取得手段はステップS501、S503、及びS513の処理を、アクセント情報抽出手段はステップS515、S517、S801〜S815、S901〜S913の処理を、音声合成手段はステップS519、S1101〜S1105の処理を、文字列情報取得手段はステップS501、S503、及びS511の処理を、変更合成音声生成手段はステップS1001〜S1005、S1201〜S1205の処理を、合成音声候補表示手段はステップS1207の処理を、合成音声決定手段はステップS1209〜S1215の処理を、それぞれ実行する。
アクセント情報は、アクセント位置情報に対応する。
「特徴量」とは、音声を特徴付ける情報をいい、音声の高・低、音声の速度の早い・遅い等を含む概念である。
「音声」とは、直接的、間接的を問わず発せられる音をいい、音を発する主体は人間のみに限定されない概念である。また、アクセントを有するものであればよく、発せられた音声の意味内容が理解できないようなもの、例えばハミング等も含む概念である。
本発明における音声合成装置の実施例を以下において説明する。
1. 概要
本発明に係る音声合成装置の概要を図1に基づいて説明する。
1.ユーザは、音声合成装置に対して、ある文字列のテキストデータである文字列情報を与える。
2.ユーザは、自らが想定するアクセントで文字列を発声した音声情報を音声合成装置に与える。
3.音声合成装置は、取得した音声情報からアクセントを抽出する。
4.音声合成装置は、音声情報のアクセントに基づいて、文字列に対応する合成音声情報を生成する。
これにより、ユーザが音声により入力したアクセントに基づいて、文字列に対応する合成音声を生成することができる。よって、ユーザは、自らが想定するアクセントを有する合成音声を容易に得ることができる。
2. 機能ブロック図
本発明に係る音声合成装置M1を図2に示す機能ブロック図に基づいて説明する。音声合成装置M1は、音声情報取得手段M11、アクセント情報抽出手段M13、音声合成手段M15、及び文字列情報取得手段M17を有している。
音声情報取得手段M11は、ある音声を音声情報として取得する。
アクセント情報抽出手段M13は、取得した音声情報から、当該音声情報が有するアクセントをアクセント情報として抽出する。また、アクセント情報抽出手段M13は、取得した音声情報の基本周波数の時間的変化を表す基本周波数関数を用いて、前記アクセント情報を抽出する。さらに、アクセント情報抽出手段M13は、取得した文字列情報が表す文字列と前記音声情報とを対応付けて、当該文字列を構成する音節のうち、どの音節にアクセントが存在するのかを判断し、アクセントが存在すると判断した音節を前記アクセント情報として抽出する。
音声合成手段M15は、前記アクセント情報及び前記文字列情報に基づいて、前記文字列に対応する合成音声であって、前記アクセントを有するものを生成する。また、音声合成手段M15は、前記文字列情報における文字列に対応した合成音声であって、アクセントが存在すると判断した音節にアクセントを有するものを生成する。
文字列情報取得手段M17は、ある文字列を表す文字列情報を取得する。
これにより、ユーザが音声により入力したアクセントに基づいて、文字列に対応する合成音声を生成することができる。よって、ユーザは、自らが想定するアクセントを有する合成音声を容易に得ることができる。また、アクセントを容易に判断することができる。さらに、アクセントが存在する音節を容易に特定することができる。
3. 音声合成装置21のハードウェア構成
本発明に係る音声合成装置である音声合成装置21のハードウェア構成を図3を用いて説明する。音声合成装置21は、CPU211、メモリ212、ハードディスク213、キーボード214、マウス215、ディスプレイ216、CD−ROMドライブ217、サウンド回路218、スピーカ218s、及びマイクロフォン218mを備えている。
CPU211は、ハードディスク213に記録されているオペレーティング・システム(OS)、音声合成プログラム等その他のアプリケーションに基づいた処理を行う。メモリ212は、CPU211に対して作業領域を提供する。ハードディスク213は、オペレーティング・システム(OS)、音声合成プログラム等その他のアプリケーション及び各種データを記録保持する。なお、ハードディスク213に記録されているデータについては後述する。
キーボード214、マウス215は、外部からの命令を受け付ける。ディスプレイ216は、ユーザーインターフェイス等の画像を表示する。CD−ROMドライブ217は、音声合成プログラムが記録されているCD−ROM210から音声合成プログラム及び他のCD−ROMからその他のアプリケーションのプログラムを読み取る等、CD−ROMからのデータの読み取りを行う。サウンド回路218は、与えられた音声合成データをアナログ波形に変換してスピーカ218sへ出力する。また、サウンド回路218は、マイクロフォン218mを介して取得したアナログ波形をデジタル波形に変換する。
4. データ
音声合成装置21がハードディスク213に記録する音節持続時間データベース(以下、音節持続時間DBとする。)について図4に基づいて説明する。音節持続時間DBは、音節と当該音節を発声したときの標準的な持続時間とを関連付けたデータベースである。
音節持続時間DBは、[音節]列C401及び[持続時間]列C405を有している。[音節]列C401には、日本語において一般的に用いられている音節の種類が記述される。[持続時間]列C405には、[音節]列C401に記述された音節が標準的な速度で発声されたときの発声時間が持続時間として記述される。
5. 音声合成装置21の動作
音声合成装置21のCPU211の動作の概要を図5を用いて説明する。CPU211は、文字列情報若しくは音声情報を取得するための文字列・音声情報取得画面D1を表示する(S501)。
音声合成装置21のディスプレイ216に表示される文字列・音声情報取得画面D1の一例を図6に示す。文字列・音声情報取得画面D1は、文字列入力領域A601、音声情報取得開始ボタンB601を有している。文字列入力領域A601は、ユーザが音声合成しようとする仮名文字列を表す文字列情報をキーボード214等の入力手段を用いて入力するための領域である。音声情報取得開始ボタンB601は、ユーザが文字列に与えるアクセントを音声で入力しようとする際にマウス215等で選択するボタンである。
図5に戻って、CPU211は、音声情報取得開始ボタンB601(図6参照)が選択されたと判断すると(S503)、文字列・音声情報取得画面D1の文字列入力領域A601に入力された文字列を文字列情報として取得し、メモリ212へ記憶する(S511)。また、CPU211は、マイクロフォン218mを介して音声情報を取得する(S513)。ユーザは、マイクロフォンに向かって、文字列・音声情報取得画面D1の文字列入力領域A601に入力された文字列に対応する音声であって、自らが想定するアクセントを有する音声を入力する。CPU211は、音声情報を獲得したと判断すると、音節アライメント処理(S515)及びアクセント位置判断処理(S517)、及び音声合成処理を実行する(S519)を実行する。CPU211は、生成した合成音声情報をスピーカ218sを介して再生する(S521)。
以降において、音節アライメント処理(S515)、及びアクセント位置判断処理(S517)、及び音声合成処理(S519)を説明する。
5.1. 音節アライメント処理
CPU211が実行する音節アライメント処理(図5:S515参照)は、取得した音声情報のどの位置に文字列情報を構成する各仮名文字の音節区切りがあるのかを判断するために実行する処理である。CPU211が実行する音節アライメント処理を図7に示すフローチャートを用いて説明する。
CPU211は、ステップS511(図5参照)で取得した文字列情報を構成する仮名文字に対応する持続時間を音節持続時間DB(図4参照)の[持続時間]列C405から取得する(S801)。CPU211は、取得した[持続時間]列C405の値を合計した合計持続時間を算出する(S803)。CPU211は、文字列情報を構成する仮名文字について、算出した合計持続時間と各仮名文字の持続時間との比を算出する(S805)。
また、CPU211は、ステップS513(図5参照)で取得した音声情報の発声時間を計測する(S811)。CPU211は、ステップS805で算出した合計持続時間と各仮名文字の持続時間との比と、ステップS811で計測した発声時間とに基づいて、文字列情報を構成する仮名文字と音声情報との対応関係を判断し(S813)、文字−音声対応テーブルとしてメモリ212へ記憶する(S815)。
ここで、文字−音声対応テーブルを図8を用いて説明する。文字−音声対応テーブルは、[文字]列C1401、[対応時間]列C1403を有している。[文字]列C1401には、文字列情報を構成する仮名文字が記述される。[対応時間]列C1403には、音声情報において、[文字]列C1401に記述された仮名文字に対応する時間が記述される。
例えば、文字列情報「なかやま」を構成する仮名文字「な」について、音声情報の0秒00から0秒30までが対応する場合、[文字]列C1401の「な」に対応する[対応時間]列C1403には、値「0’00”−0’30”」が記述される。
これにより、マイクロフォン218mから取得した音声情報のどの時間からどの時間までが文字列情報を構成する各仮名文字に対応するのか、という音声情報と文字列情報を構成する各仮名文字との対応関係を把握することが可能となる。
5.2. アクセント位置判断処理
CPU211が実行するアクセント位置判断処理(図5:S517参照)を図9に示すフローチャートを用いて説明する。CPU211は、ステップS513(図5参照)で取得した音声情報に対する基本周波数関数を算出する(S901)。なお、基本周波数関数における基本周波数の算出は、取得した音声情報の自己相関関数を算出し、相関値が一定のしきい値以上である周期を求めることによって行う。
CPU211は、算出した基本周波数関数の一次微分関数を算出する(S903)。そして、CPU211は、算出した基本周波数関数の一次微分関数の値が正から負に変わる位置にアクセント位置があると判断し(S905)、アクセント位置に対応する時間をアクセント位置情報としてメモリ212へ一時的に記憶する(S907)。CPU211は、メモリ212から文字−音声対応テーブルを取得し(S909)、アクセント位置情報の時間が文字列情報を構成する仮名文字のうちどの仮名文字に対応するのかを判断する(S911)。CPU211は、アクセント位置が存在する仮名文字をアクセント文字情報としてメモリ212へ一時的に記憶する(S913)。
音節アライメント処理によって、音声情報と文字列情報を構成する仮名文字との対応付けが終了しており、どの時間からどの時間までの音声情報がどの仮名文字に対応しているのかを把握することが可能となっている。よって、アクセント位置情報に対応する時間がどの仮名文字に対応するのかも判断することができる。
5.3. 音声合成処理
CPU211が実行する音声合成処理(図5:S519参照)を図10に示すフローチャートを用いて説明する。CPU211は、ステップS511で取得した文字列情報をメモリ212から取得する(S1101)。また、CPU211は、アクセント位置判断処理(図5:S517参照)で得られたアクセント文字情報をメモリ212から取得する(S1103)。
CPU211は、文字列情報及びアクセント文字情報に基づいて、合成音声情報を生成し(S1105)、合成音声情報としてメモリ212へ記憶する(S1107参照)。なお、合成音声の生成については、従来から一般的に用いられている音声合成技術を用いる。
このように、音声合成装置21は、合成音声を生成しようとする文字列に与えるアクセントについては、ユーザが発声した音声情報から取得する。つまり、ユーザは、仮名文字列に与えるアクセントを有する音声を、自らが発声することによって、音声合成装置21へ提供することができる。よって、ユーザは、自らが発声したアクセントを有する文字列の合成音声を容易に得ることができる。
6. 具体例
これまで説明してきた音声合成装置21のCPU211の動作を具体的な例を示しながら説明する。
ユーザは、文字列情報若しくは音声情報を取得するための文字列・音声情報取得画面D1を表示する(図5:S501参照)。音声合成装置21のディスプレイ216に表示される文字列・音声情報取得画面D1(図6参照)の文字列入力領域A601に、キーボード214を用いて、仮名文字列「なかやま」を入力し、音声情報取得開始ボタンB601をマウス215で選択したとする。なお、ユーザは、近畿のある地方における地名「中山」に対する合成音声を生成することを目的としているとする。
CPU211は、音声情報取得開始ボタンB601が選択されたと判断すると(図5:S503参照)、文字列入力領域A601に入力された仮名文字列「なかやま」を文字列情報として取得しメモリ212へ記憶する(図5:S511参照)。
また、CPU211は、マイクロフォン218mを介して音声情報を取得する(図5:S513参照)。ユーザは、マイクロフォンに向かって地名としての文字列「なかやま」(各仮名文字「な」、「か」、「や」、「ま」に対するアクセントが「低」、「高」、「低」、「低」)を発音し、音声情報として入力する。CPU211は、音声情報を獲得したと判断すると、取得した文字列情報「なかやま」を構成する各仮名文字「な」、「か」、「や」、「ま」に対応する持続時間を音節持続時間DBの[持続時間]列C405から取得する(図7:S801参照)。CPU211は、取得した[持続時間]列C405の値を合計した合計持続時間を算出する(図7:S803参照)。CPU211は、文字列情報を構成する仮名文字について、算出した合計持続時間と各仮名文字の持続時間との比を算出する(図7:S805参照)。
また、CPU211は、マイクロフォン218mから取得した音声情報の発音時間を計測する(図7:S811参照)。CPU211は、合計持続時間と各仮名文字の持続時間との比と、計測した発音時間とに基づいて、文字列情報を構成する各仮名文字と音声情報との対応関係を判断し(図7:S813参照)、文字−音声対応テーブル(図8参照)を生成しメモリ212へ記憶する(図7:S815参照)。
CPU211は、取得した音声情報に対する基本周波数関数を算出する(図9:S901参照)。CPU211は、算出した基本周波数関数の一次微分関数を算出し(図9:S903参照)、一次微分関数の値が正から負に変わる位置にアクセント位置があると判断する(図9:S905参照)。CPU211は、アクセント位置に対応する時間をアクセント位置情報としてメモリ212へ一時的に記憶する(図9:S907参照)。CPU211は、文字−音声対応テーブルを取得し(図9:S909参照)、アクセント位置情報の時間が文字列情報を構成する仮名文字「な」、「か」、「や」、「ま」のうちどの仮名文字に対応するのかを判断する(図9:S911参照)。CPU211は、アクセント位置が存在する仮名文字が仮名文字「か」であると判断すると、アクセント文字情報としてメモリ212へ一時的に記憶する(図9:S913参照)。
そして、CPU211は、文字列情報「なかやま」をメモリ212から取得する(図10:S1101参照)。CPU211は、アクセント文字情報である仮名文字「か」をメモリ212から取得する(図10:S1103参照)。
CPU211は、文字列情報及びアクセント文字情報に基づいて、合成音声情報を生成し(図10:S1105参照)、合成音声情報としてメモリ212へ記憶する(図10:S1107参照)。
CPU211は、生成した合成音声情報をスピーカ218sを介して再生する(図5:S521参照)。
これにより、ユーザは、自らが発声したアクセントを有する文字列「なかやま」の合成音声を容易に得ることができる。
1. 概要
本発明に係る音声合成装置の実施例2の概要を説明する。前述の実施例1においては、音声合成装置21は、文字列に与えるアクセントを、当該アクセントを有する音声をユーザが自ら発声した音声情報から抽出することによって、当該アクセントを有する文字列の合成音声を生成した。これにより、ユーザは、自らが発声したアクセントを有する文字列の合成音声を容易に得ることができた。
その一方、音声合成装置21は、各音節の標準的な音の高さ、速さ等を有する音節音声データを用いて合成音声を生成していた。ユーザによっては、標準的な音の高さや速さではなく、「もう少し高い音色で」や「もう少し遅いスピードで」等の要求があることもある。
本実施例における音声合成装置は、合成音声に対して変更を容易に加えたいユーザの要求を満たすために、合成音声に対して所定のパラメータを変更した合成音声を幾つか提供することによって、ユーザが、自らが望む合成音声を容易に取得できるようにするものである。
なお、本実施例においては、実施例1と同様の構成・動作については、実施例1で与えた番号と同じ番号を与えている。
2. 機能ブロック図
本発明に係る音声合成装置M51を図11に示す機能ブロック図に基づいて説明する。音声合成装置M51は、音声情報取得手段M11、アクセント情報抽出手段M13、音声合成手段M15、文字列情報取得手段M17、変更合成音声生成手段M21、合成音声候補表示手段M23、及び合成音声決定手段M25を有している。音声情報取得手段M11、アクセント情報抽出手段M13、音声合成手段M15、文字列情報取得手段M17については、実施例1と同様の構成であるため、以下での記載は省略する。
変更合成音声生成手段M21は、生成した合成音声の特徴量を変更し、変更した特徴量を有する合成音声を生成する。
合成音声候補表示手段M23は、前記特徴量を変更した合成音声及び当該変更をする前の合成音声とを、合成音声候補として表示手段に表示する。また、合成音声候補表示手段M23は、表示した合成音声候補は入力手段によって選択可能なように構成する。合成音声候補表示手段M23は、前記特徴量が、音の高低及び速度により構成されている場合、前記合成音声候補を音の高低及び速度を2軸とした平面上に配置する。
合成音声決定手段M25は、前記表示手段に表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を合成音声と決定する。合成音声決定手段M25は、さらに、前記表示手段に表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を再生し、再生した前記合成音声候補に対して合成音声情報として確定する確定情報を獲得すると、前記合成音声候補を合成音声と決定する。
これにより、複数の合成音声候補を提供することができる。よって、ユーザは、提供された合成音声候補から選択するという容易な操作で合成音声を得ることができる。また、音の高低又は/及び速度を変更した、合成音声候補を容易に得ることができる。さらに、ユーザは、提供される合成音声候補の相関関係を容易に把握することができる。よって、ユーザは、容易に合成音声候補から所望のもの選択することができる。さらに、ユーザは、合成音声候補の再生音を確認した上で、合成音声候補の選択を行うことができる。
3. 音声合成装置51のハードウェア構成
本発明に係る音声合成装置である音声合成装置51のハードウェア構成は、実施例1におけるハードウェア構成(図3参照)と同様である。
4. データ
本発明に係る音声合成装置である音声合成装置51のデータは、実施例1におけるデータ(図4参照)と同様である。
5. 音声合成装置51の動作
音声合成装置51のCPU211の動作の概要を図12を用いて説明する。図12におけるステップS501〜S519及びS521の処理については、実施例1の音声合成装置21のCPU211の動作と同様である。従って、以下においては、ステップS551、S553の処理を説明する。
また、CPU211は、ステップS519の音声合成処理が終了すると、高さ・速度抽出処理(S551)を実行する。CPU211は、高さ・速度抽出処理(S551)が終了すると、合成音声候補提供処理(S553)を実行する。
以降において、高さ・速度抽出処理(S551)及び合成音声候補提供処理(S553)を説明する。
5.1. 高さ・速度抽出処理
CPU211が実行する高さ・速度抽出処理(図12:S551参照)を図13に示すフローチャートを用いて説明する。CPU211は、ステップS513で取得した音声情報における音節特徴量の一つである音の高低を高さ情報として取得する(S1001)。さらに、CPU211は、ステップS513で取得した音声情報における音節特徴量の一つである音声情報の速さを速度情報として算出する(S1003)。CPU211、算出した高さ情報及び速度情報を、メモリ212へ一時的に記憶保持する(S1005)。なお、高さ情報、速度情報を取得する際には、音声情報の周波数成分における音響に関する情報(音響情報)、韻律に関する情報(韻律情報)等を用いればよい。
5.2. 合成音声候補提供処理
CPU211が実行する合成音声候補提供処理(図12:S553参照)を図14に示すフローチャートを用いて説明する。CPU211は、高さ・速度抽出処理S551(図12参照)より抽出した速度情報及び高さ情報をメモリ212から取得する(S1201)。CPU211は、合成音声情報の速度情報及び高さ情報の値を変更し、変更した特徴量を有する合成音声情報を生成する(S1203)。具体的には、予め合成音声を特徴付けるパラメータを設定しておき、また、当該パラメータの値に基づいたコスト値を基準コスト値として算出しておく。一方、ステップS1203で合成した合成音声情報の前記パラメータに対応する値に基づいたコスト値を合成コスト値として算出する。そして、基準コスト値と合成コスト値とを比較して、所定の条件に合致する合成コスト値を有する合成音声情報を生成する。なお、CPU211は、できるかぎり、複数の合成音声情報を生成する。
CPU211は、ステップS1203で生成した合成音声情報にステップS1105(図10参照)で生成した合成音声情報を加えて、合成音声候補情報とする(S1204)。そして、CPU211は、合成音声候補情報のそれぞれの速度情報の値及び高さ情報の値に基づいて、速度及び音の高さを2軸とした合成音声選択図に、各合成音声候補情報を配置する(S1205)。CPU211は、生成した合成音声選択図をディスプレイ216に表示する(S1207)。
ディスプレイ216に表示される合成音声選択図を図15に示す。合成音声選択図には、音の高さを表す縦軸、音の速さを表す横軸によって構成される平面図が表示される。速度情報の値及び高さ情報の値に基づいて合成音声候補情報が特定され、合成音声選択図の平面図上に表示される。なお、縦軸と横軸との交点(原点)には、ステップS1105(図10参照)で合成された合成音声情報が配置される。合成音声選択図上に表示されている合成音声候補情報は、ユーザがマウス215等を用いて選択できるように構成されている。
図14に戻って、CPU211は、決定ボタンB1301(図15参照)が選択されたか否かを判断する(S1209)。CPU211は、決定ボタンB1301が選択されておらず、一の合成音声候補情報が選択されたと判断すると(S1211)、選択された合成音声候補情報に対する音声をサウンド回路218を介してスピーカ218sから出力する(S1213)。
CPU211は、決定ボタンB1301が選択されたと判断すると、その時点で選択されている合成音声候補情報を合成音声情報と判断して、ハードディスク213へ記録する(S1215)。
[その他の実施例]
(1)音節アライメント処理
前述の実施例1においては、取得した音声情報のどの位置に音節の区切りがあるのかを判断する音節アライメント処理において、音節配列を構成する音節の標準的な継続時間を加算し、音声情報の継続時間との相関関係から、アクセント位置を判断した。しかし、音声情報のどの位置に音節の区切りがあるのかを判断できるのであれば例示のものに限定されない。例えば、隠れマルコフモデルを用いる音声認識技術等を利用して、音声情報のどの位置に音節の区切りがあるのかを判断するようにしてもよい。
(2)音節持続時間DB
前述の実施例1においては、[音節]列及び[持続時間]列からなる単純な音節持続時間DBを用いて、文字列情報を構成する仮名文字に対応する持続時間を取得した。しかし、実際には同じ音節であっても、先行、後続する音節や当該音節の発話フレーズ内での位置、発声の強弱によって持続時間は変化する。そのため、それらの条件を含むより複雑なデータベースであっても良い。さらに、データベースから当該音節の持続時間を取得するために単純なテーブル検索を用いるのではなく、確率モデルや決定木などを用いても良い。
(3)音声情報
前述の実施例1においては、音声情報をサウンド回路218及びマイクロフォン218mにより取得するとしたが、音声情報を得られるものであれば例示のものに限定されない。例えば、CD−ROM等の記録媒体を介して音声情報を取得するようにしてもよい。また、通信回線を介して音声情報を取得するようにしてもよい。
(4)文字列情報
前述の実施例1においては、文字列情報として日本語の仮名文字を例示したが、文字列であれば例示のものに限定されない。例えば、英語等の外国語であってもよい。
(5)特徴量
前述の実施例2においては、合成音声候補情報を生成するにあたって、音の高さ及び速度を特徴量としたが、合成音声候補情報を生成できるものであれば、例示のものに限定されない。例えば、明るい、暗い等の音声の主観的な特徴を表現する情報であってもよい。
(6)合成音声候補情報
前述の実施例2においては、合成音声候補情報として合成を生成するにあたり、音声情報及び合成音声情報の音の高さ及び速度の値をパラメータの値として算出した基準コスト値、合成コスト値を用いることとしたが、合成音声候補情報を生成できるものであれば、例示の方法に限定されない。
また、基準コスト値を算出するにあたり、音声情報から取得した音の高さ及び速度を用いたが、例示のものに限定されない。例えば、予め設定されたパラメータの値を用いて、基準コスト値を算出するようにしてもよい。この場合、音声情報から音の高さ及び速度を抽出せずともよい。
(7)候補の表示
前述の実施例2においては、音の高さ及び速度を特徴量として、音の高さ及び速度を2軸とした合成音声選択図を生成したが、2種類の特徴量に限定されない。例えば、3種類、4種類の特徴量を選択するようにしてもよい。
また、合成音声選択図は、合成音声候補情報を選択できるものであれば、例示の2軸表示のものに限定されない。例えば、3軸、4軸表示等であってもよい。
さらに、合成音声選択図の縦軸と横軸との交点(原点)には、ステップS1105(図10参照)で合成された合成音声情報が配置されるとしたが、ユーザからステップS513で取得した音声情報を原点に表示するようにしてもよい。
(8)フローチャートにおける処理の順番
前述の実施例1及び実施例2においては、図に示した各フローチャートに基づいて、各処理を実現するようにした。しかし、各処理を実現できるものであれば、各フローチャート内における処理の順番は例示のものに限定されない。
本発明における音声合成装置の概要を示した図である。 実施例1における音声合成装置の機能ブロック図を示した図である。 音声合成装置21のハードウェア構成を示した図である。 音節持続時間DBのデータ構造を示した図である。 音声合成装置21の動作を示したフローチャートである。 文字列・音声情報取得画面D1を示した図である。 音節アライメント処理を表したフローチャートである。 文字−音声対応テーブルを示した図である。 アクセント位置判断処理を示したフローチャートである。 音声合成処理を示したフローチャートである。 実施例2における音声合成装置の機能ブロック図を示した図である。 音声合成装置51の動作を示したフローチャートである。 高さ・速度抽出処理を示したフローチャートである。 合成音声候補提供処理を示したフローチャートである。 合成音声選択図を示した図である。 従来の音声合成装置を説明するための図である。 従来の音声合成装置を説明するための図である。
符号の説明
21・・・・・音声合成装置
51・・・・・音声合成装置
M11・・・・・音声情報取得手段
M13・・・・・アクセント情報抽出手段
M15・・・・・音声合成手段
M17・・・・・文字列情報取得手段
M21・・・・・変更合成音声生成手段
M23・・・・・合成音声候補表示手段
M25・・・・・合成音声決定手段

Claims (6)

  1. 文字列に対応した合成音声を生成する音声合成装置であって、
    前記音声合成装置は、
    ある文字列を表す文字列情報を取得する文字列情報取得手段、
    ある音声を音声情報として取得する音声情報取得手段、
    取得した音声情報から、当該音声情報が有するアクセントをアクセント情報として抽出するアクセント情報抽出手段、
    前記アクセント情報及び前記文字列情報に基づいて、前記文字列に対応する合成音声であって、前記アクセントを有するものを生成する音声合成手段、
    音の高低情報及び速度情報により構成される合成音声の特徴量を変更し、変更した特徴量を有する少なくとも1つの合成音声を生成する変更合成音声生成手段、
    前記特徴量を変更した合成音声と当該変更をする前の合成音声とを、前記特徴量に基づいて、合成音声候補として音の高低及び速度を2軸とした平面上に配置して表示手段に表示する合成音声候補表示手段、
    前記表示手段に表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を合成音声と決定する合成音声決定手段、
    を有する音声合成装置。
  2. 文字列に対応した合成音声を生成する音声合成プログラムであって、
    前記音声合成プログラムは、
    コンピュータを、
    ある文字列を表す文字列情報を取得する文字列情報取得手段、
    ある音声を音声情報として取得する音声情報取得手段、
    取得した音声情報から、当該音声情報が有するアクセントをアクセント情報として抽出するアクセント情報抽出手段、
    前記アクセント情報及び前記文字列情報に基づいて、前記文字列に対応する合成音声であって、前記アクセントを有するものを生成する音声合成手段、
    音の高低情報及び速度情報により構成される合成音声の特徴量を変更し、変更した特徴量を有する少なくとも1つの合成音声を生成する変更合成音声生成手段、
    前記特徴量を変更した合成音声と当該変更をする前の合成音声とを、前記特徴量に基づいて、合成音声候補として音の高低及び速度を2軸とした平面上に配置して表示手段に表示する合成音声候補表示手段、
    前記表示手段に表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を合成音声と決定する合成音声決定手段、
    として機能させる音声合成プログラム。
  3. 請求項1に係る音声合成装置又は請求項2に係る音声合成プログラムにおいて、
    前記アクセント情報抽出手段は、さらに、
    取得した音声情報の基本周波数の時間的変化を表す基本周波数関数を用いて、前記アクセント情報を抽出すること、
    を特徴とするもの。
  4. 請求項3に係る音声合成装置又は音声合成プログラムのいずれかにおいて、さらに、
    前記アクセント情報抽出手段は、さらに、
    取得した文字列情報が表す文字列と前記音声情報とを対応付けて、当該文字列を構成する音節のうち、どの音節にアクセントが存在するのかを判断し、アクセントが存在すると判断した音節を前記アクセント情報として抽出し、
    前記音声合成手段は、さらに、
    前記文字列情報における文字列に対応した合成音声であって、アクセントが存在すると判断した音節にアクセントを有するものを生成すること、
    を特徴とするもの。
  5. 請求項1〜請求項4に係る音声合成装置又は音声合成プログラムのいずれかにおいて、
    前記合成音声決定手段は、さらに、
    前記表示手段に表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を再生し、再生した前記合成音声候補に対して合成音声情報として確定する確定情報を獲得すると、前記合成音声候補を合成音声と決定すること、
    を特徴とするもの。
  6. 文字列に対応した合成音声をコンピュータを用いて生成する合成音声生成方法であって、
    コンピュータが、ある文字列を表す文字列情報を取得し、
    コンピュータが、ある音声を音声情報として取得し、
    コンピュータが、取得した音声情報から、当該音声情報が有するアクセントをアクセント情報として抽出し、
    コンピュータが、前記アクセント情報及び前記文字列情報に基づいて、前記文字列に対応する合成音声であって、前記アクセントを有するものを生成し、
    コンピュータが、音の高低情報及び速度情報により構成される合成音声の特徴量を変更し、変更した特徴量を有する少なくとも1つの合成音声を生成し、
    コンピュータが、前記特徴量を変更した合成音声と当該変更をする前の合成音声とを、前記特徴量に基づいて、合成音声候補として音の高低及び速度を2軸とした平面上に配置して表示し、
    コンピュータが、表示した合成音声候補のいずれかが選択されたと判断すると、当該合成音声候補を合成音声と決定する合成音声生成方法。
JP2007021048A 2007-01-31 2007-01-31 音声合成装置 Active JP4856560B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007021048A JP4856560B2 (ja) 2007-01-31 2007-01-31 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007021048A JP4856560B2 (ja) 2007-01-31 2007-01-31 音声合成装置

Publications (2)

Publication Number Publication Date
JP2008185911A JP2008185911A (ja) 2008-08-14
JP4856560B2 true JP4856560B2 (ja) 2012-01-18

Family

ID=39728986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007021048A Active JP4856560B2 (ja) 2007-01-31 2007-01-31 音声合成装置

Country Status (1)

Country Link
JP (1) JP4856560B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010048959A (ja) * 2008-08-20 2010-03-04 Denso Corp 音声出力システム及び車載装置
JP5166369B2 (ja) * 2009-07-22 2013-03-21 株式会社東芝 アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム
JP5328703B2 (ja) * 2010-03-23 2013-10-30 三菱電機株式会社 韻律パターン生成装置
JP5754141B2 (ja) * 2011-01-13 2015-07-29 富士通株式会社 音声合成装置および音声合成プログラム
JP6263868B2 (ja) 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2015132777A (ja) * 2014-01-15 2015-07-23 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05100692A (ja) * 1991-05-31 1993-04-23 Oki Electric Ind Co Ltd 音声合成装置
JPH0756589A (ja) * 1993-08-23 1995-03-03 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JPH11259094A (ja) * 1998-03-10 1999-09-24 Hitachi Ltd 規則音声合成装置
JP4462658B2 (ja) * 1998-06-08 2010-05-12 ブラザー工業株式会社 音声合成装置および記憶媒体
JP2000267687A (ja) * 1999-03-19 2000-09-29 Mitsubishi Electric Corp 音声応答装置
JP2002258885A (ja) * 2001-02-27 2002-09-11 Sharp Corp テキスト音声合成装置およびプログラム記録媒体
JP2004246219A (ja) * 2003-02-17 2004-09-02 Yokogawa Electric Corp 光変調器
JP2005037423A (ja) * 2003-07-15 2005-02-10 Alpine Electronics Inc 音声出力装置
JP2005241789A (ja) * 2004-02-25 2005-09-08 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP4114888B2 (ja) * 2005-07-20 2008-07-09 松下電器産業株式会社 声質変化箇所特定装置

Also Published As

Publication number Publication date
JP2008185911A (ja) 2008-08-14

Similar Documents

Publication Publication Date Title
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US8504368B2 (en) Synthetic speech text-input device and program
JP2001034283A (ja) 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP4856560B2 (ja) 音声合成装置
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP2006227589A (ja) 音声合成装置および音声合成方法
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4639932B2 (ja) 音声合成装置
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP2007212884A (ja) 音声合成装置、音声合成方法、及びコンピュータプログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2009133890A (ja) 音声合成装置及びその方法
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP2006349787A (ja) 音声合成方法および装置
JP2009042509A (ja) アクセント情報抽出装置及びその方法
JP5098932B2 (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP4622356B2 (ja) 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
JP7186476B1 (ja) 音声合成装置
JP2005181998A (ja) 音声合成装置および音声合成方法
JP2011191528A (ja) 韻律作成装置及び韻律作成方法
JP2004258561A (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111017

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4856560

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350