JP6340839B2 - 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム - Google Patents

音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム Download PDF

Info

Publication number
JP6340839B2
JP6340839B2 JP2014047871A JP2014047871A JP6340839B2 JP 6340839 B2 JP6340839 B2 JP 6340839B2 JP 2014047871 A JP2014047871 A JP 2014047871A JP 2014047871 A JP2014047871 A JP 2014047871A JP 6340839 B2 JP6340839 B2 JP 6340839B2
Authority
JP
Japan
Prior art keywords
accent
candidate
speech
word
correction target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014047871A
Other languages
English (en)
Other versions
JP2015172625A (ja
Inventor
野田 拓也
拓也 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014047871A priority Critical patent/JP6340839B2/ja
Publication of JP2015172625A publication Critical patent/JP2015172625A/ja
Application granted granted Critical
Publication of JP6340839B2 publication Critical patent/JP6340839B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、例えば、テキストデータから音声信号を合成する音声合成装置及びその音声合成装置で利用される合成音声編集方法及び合成音声編集用コンピュータプログラムに関する。
近年、音声を自動合成する音声合成技術が開発されている。音声合成技術は、短時間で所望の音声を作成できるというメリットを有するため、これまで予め録音されたプロのナレータによる音声を用いていたアプリケーションの中には、このような音声合成技術を採用したものもある。特に、商業施設における案内放送、ハイウェイラジオ、ハイウェイテレホンまたは天気予報の放送など、短い時間間隔で提供する情報が更新されるアプリケーションでは、上記のメリットを持つ音声合成技術が有用である。
合成したい音声信号を生成するために、音声合成装置には、例えば、キーボードなどを介して漢字仮名交じりのテキストデータが入力される。そして音声合成装置は、そのテキストデータに対して、単語を漢字と仮名で表した漢字仮名表記とその単語の発音を表す表音文字列などを登録した単語辞書を利用して、形態素解析または係り受け解析といった言語処理を行う。そして音声合成装置は、その言語処理によって、テキストデータの表音文字列と、その表音文字列にアクセント位置、アクセントの強弱あるいは抑揚の大小といった韻律を表す韻律記号を付した中間表記を生成する。そして音声合成装置は、その中間表記に基づいて、合成音声信号を生成する。
展示会またはe-Learning用のナレーションとして使用される合成音声などでは、より自然な発声に近い、高品質な音声とするために、合成音声の韻律をユーザが調整することがある。そこで、アクセント句などの区切り位置を編集するためのユーザインターフェースを備え、単語列のアクセント句などを表す発話区分が編集されると、その編集された発話区分に基づいて発音記号列を再生成する技術が提案されている(例えば、特許文献1を参照)。
特開平5−11797号公報
特許文献1に開示された技術では、全てのアクセント句の境界が提示されるので、ユーザが、全てのアクセント句の境界の正誤と編集の有無を判定することになる。しかし、合成音声のアクセントが不自然とならないように、アクセント句の境界を変更するには、ユーザ自身がアクセントに関する知識を有していることが求められる。もし、アクセントに関する知識が十分でないユーザが、アクセント句の境界を無くしたり、あるいは追加したりといった編集作業を行うと、アクセント句の境界の有無によって適切なアクセントの位置が異なるために、アクセントが誤ったものになることがある。
そこで本明細書は、一つの側面として、合成音声のアクセント句の境界の編集によるアクセントの誤りを防止できる音声合成装置を提供することを目的とする。
一つの実施形態によれば、音声合成装置が提供される。この音声合成装置は、合成音声の原文となるデータ及びその原文の読みを表すデータを取得する入力部と、単語ごとの品詞及びアクセント位置が登録された単語辞書を記憶する記憶部と、単語辞書を参照して原文及びその原文の読みに言語処理を行うことにより、原文に含まれる各単語の品詞を特定し、かつ、その原文をアクセント句単位で分割して、各アクセント句のアクセント及びアクセント結合が生じた位置を表す中間表記を生成する言語処理部と、原文に含まれる各単語の品詞を参照して自立語である単語を特定し、自立語とその自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とするアクセント句境界候補抽出部と、アクセント句の境界の候補のうち、その候補の前のアクセント句のアクセント及びその候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、その候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定する修正対象候補決定部と、修正対象候補を表示部に表示させる表示制御部と、を有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声合成装置は、合成音声のアクセント句の境界の編集によるアクセントの誤りを防止できる。
音声合成装置の概略構成図である。 音声合成装置が有する処理部の機能ブロック図である。 アクセント句境界の候補の一例を示す図である。 アクセント句境界の候補と、修正対象候補の関係の一例を示す図である。 修正対象候補を表示する、表示部の表示画面の一例を示す図である。 合成音声編集部により実行される、合成音声編集処理の動作フローチャートである。 第2の実施形態による合成音声編集部の機能ブロック図である。 アクセント結合の有無によるアクセント位置の違いの一例を示す図である。 アクセント結合の有無、前置アクセント句のアクセント種別及びアクセント位置変化の有無の組み合わせと、編集属性、境界属性及び変化属性の関係を示すテーブルである。 (a)は、第2の実施形態による、修正対象候補を表示する表示部の表示画面の一例を示す図であり、(b)は、(a)に示された原文の読みとアクセントを示す。 第2の実施形態による合成音声編集部により実行される、合成音声編集処理の動作フローチャートである。
以下、図を参照しつつ、音声合成装置について説明する。
この音声合成装置は、合成音声のアクセント句の境界をユーザに編集させる際、アクセント句の境界の候補のうち、アクセント句の境界か否かが変更されてもアクセントが正しい候補を編集可能に表示する。一方、この音声合成装置は、アクセント句の境界の候補のうち、アクセント句の境界か否かが変更されると、アクセントが不適切となる候補を非表示とすることで、アクセント句の境界の編集によるアクセント誤りを防止する。
図1は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置1は、操作部2と、表示部3と、通信インターフェース部4と、出力部5と、記憶部6と、処理部7とを有する。
操作部2は、例えば、キーボードと、マウスといったポインティングデバイスとを有する。そして操作部2は、合成音声の原文であり、漢字仮名交じり文であるテキストデータと、その読みを表すテキストデータとを取得する入力部の一例である。操作部2は、ユーザにより入力されたテキストデータを処理部7へ渡す。
表示部3は、液晶ディスプレイといった表示装置を有する。そして表示部3は、入力された合成音声の原文のテキストデータと、その原文中に設定される、編集可能なアクセント句の境界の候補などを表示する。なお、操作部2と表示部3とは、タッチパネルディスプレイとして一体的に形成されてもよい。
通信インターフェース部4は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有し、通信ネットワークを介して様々な情報を取得する。また通信インターフェース部4は、入力部の他の一例であり、合成音声の原文であり、漢字仮名交じり文であるテキストデータと、その読みを表すテキストデータとを通信ネットワークを介して音声合成装置1と接続された他の機器から取得してもよい。
また、通信インターフェース部4は、処理部7から受け取った合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の装置へ出力してもよい。
出力部5は、処理部7から受け取った合成音声信号をスピーカ8へ出力する。そのために、出力部5は、例えば、スピーカ8を音声合成装置1と接続するためのオーディオインターフェース回路を有する。
記憶部6は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部6は、処理部7で用いられる各種コンピュータプログラム、音声合成処理または合成音声編集処理に用いられる各種のデータを記憶する。
記憶部6は、音声合成処理に用いられるデータとして、例えば、韻律モデルと、音声波形辞書を記憶する。さらに記憶部6は、単語辞書を記憶する。単語辞書には、様々な単語について、その単語の表記、表音文字列、その単語固有のアクセント及びアクセント結合のし易さを表すポイントが登録される。単語のアクセント結合のし易さを表すポイントは、その単語が他の単語の前に位置する場合と、他の単語の後に位置する場合とで異なっていてもよい。また、単語辞書には、登録された各単語の品詞情報及び活用形などがさらに登録されてもよい。
処理部7は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部7は、入力されたテキストデータに基づいて、合成音声信号を作成する。
図2は、処理部7の機能ブロック図である。処理部7は、言語処理部10と、音声合成部11と、合成音声編集部12とを有する。
処理部7が有するこれらの各部は、例えば、処理部7が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部7が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置1に実装されてもよい。
言語処理部10は、入力された、漢字仮名交じり文である原文のテキストデータに対応する表音文字列を生成し、さらにその表音文字列に基づいて中間表記を生成する。ここで、中間表記とは、表音文字列に、韻律を表す韻律記号が追加されたものである。韻律記号には、例えば、「アクセント位置」、「アクセント強弱」、「音程高低」、「抑揚大小」、「話速緩急」、「音量大小」及び「区切り」を表現する記号が含まれる。したがって、中間表記から韻律記号を除いたものは、表音文字列と一致する。
言語処理部10は、入力された原文のテキストデータ及び読みを表すテキストデータから中間表記を生成するために、記憶部6に記憶されている単語辞書を読み込む。言語処理部10は、例えば、その単語辞書を用いて、それらのテキストデータに対して形態素解析及び係り受け解析を行って、原文中に出現する各単語の順序及び読み、アクセントの位置及びアクセント句の境界及び呼気段落境界などの区切りの位置を決定する。さらに、言語処理部10は、単語辞書を参照して、連続するアクセント句同士を結合させたときの結合のし易さのポイントの合計を算出し、その合計値が所定の閾値以上となる場合、それらアクセント句同士を結合する。
言語処理部10は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。また言語処理部10は、係り受け解析として、例えば、先読みLRパーザまたはLL法といった構文解析の手法を利用できる。そして言語処理部10は、各単語の順序、読み、アクセントの位置及びアクセント句の境界を含む区切りの位置に応じて中間表記を作成する。
言語処理部10は、生成した中間表記を記憶部6に記憶する。
音声合成部11は、入力されたテキストデータの中間表記に基づいて合成音声信号を作成する。
音声合成部11は、中間表記に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部11は、記憶部6から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部11は、複数の韻律モデルのうち、中間表記に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部11は、選択した韻律モデル及び合成パラメータに従って、中間表記に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。
音声合成部11は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部11は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部11は、記憶部6から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
さらに、音声合成部11は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部11は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。
音声合成部11は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部6から読み込む。そして音声合成部11は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部11は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
音声合成部11は、合成音声信号を出力部5へ出力する。
合成音声編集部12は、アクセント句の境界となり得る、単語間の境界(以下、便宜上、アクセント句境界の候補と呼ぶ)のうち、ユーザが修正しても、アクセントが不適切とならないものを表示部3に表示させる。また合成音声編集部12は、操作部2を介して、アクセント句境界の候補について、アクセント句境界か否かが変更されたときに、その変更内容に応じて中間表記を修正する。そのために、合成音声編集部12は、アクセント句境界候補抽出部21と、修正対象候補決定部22と、表示制御部23と、修正部24とを有する。
処理部7は、操作部2から中間表記の編集を行うことを示す操作信号を受け取ると、合成音声編集部12を起動する。合成音声編集部12は、起動されると、記憶部6から、合成音声の原文のテキストデータと、そのテキストデータに対応する各単語の品詞情報及び中間表記とを読み込む。
アクセント句境界候補抽出部21は、各単語の品詞情報に基づいて、合成音声の原文に含まれる、名詞、代名詞または連体詞といった自立語を特定する。そしてアクセント句境界候補抽出部21は、各自立語とその直前の単語間の境界をアクセント句境界の候補として抽出する。
図3は、アクセント句境界の候補の一例を示す図である。図3において、合成音声の原文300は、言語処理部10によって単語ごとに分解され、各単語の品詞が特定されている。このうち、二重線301で示されるように、単語『時代』(名詞)、『音声』(名詞)、『合成』(名詞)、『進歩』(名詞)のそれぞれとその直前の単語間の境界が、アクセント句境界の候補となる。
修正対象候補決定部22は、アクセント句境界の候補のうち、ユーザがアクセント句境界か否かを変更しても、アクセントが不適切とならない候補を、修正対象候補として特定する。本実施形態では、修正対象候補決定部22は、ユーザがアクセント句境界か否かを変更しても、その前後のアクセント句のアクセントの位置が変化しないアクセント句境界の候補を修正対象候補とする。
アクセント句境界か否かを変更しても、その前後のアクセント句のアクセントの位置が変化しない条件は以下の2通りである。
(1)アクセント結合が生じているために、一つのアクセント句の途中に位置する候補(すなわち、中間表記では、アクセント句境界となっていない候補)
(2)中間表記でも二つのアクセント句の境界となっており、かつ、直前のアクセント句が平板なアクセントとなっている候補
そこで、修正対象候補決定部22は、中間表記を参照して、上記の二つの条件のうちの何れかの条件を満たすアクセント句境界の候補を修正対象候補とする。
図4は、アクセント句境界の候補と、修正対象候補の関係の一例を示す図である。図4において、合成音声の原文400は、言語処理部10によって単語ごとに分解され、各単語の品詞が特定されている。また、原文400において、『この時代の』、『音声合成の』、『進歩は』が、それぞれ、一つのアクセント句401となる。それぞれのアクセント句401のアクセントは、原文400の読みを表す表記402において、個々の音ごとの高低を表す折れ線403により示される。さらに、アクセント句境界候補抽出部21により抽出されたアクセント句境界の候補404−1〜404−4は、二重線で示される。
各アクセント句境界の候補のうち、候補404−1及び404−3は、一つのアクセント句の途中に位置するので、上記の条件(1)を満たす。
したがって、候補404−1及び404−3は、修正対象候補となる。
また、候補404−2の直前のアクセント句『この時代の』のアクセントは平板となっているので、上記の条件(2)を満たす。
したがって、候補404−2は、修正対象候補となる。
一方、候補404−4は、アクセント句の途中に位置しておらず、かつ、直前のアクセント句『音声合成の』のアクセントは平板でない。
したがって、候補404−4は、修正対象候補とならない。
修正対象候補決定部22は、各アクセント句境界の候補の位置、及び、各アクセント句境界の候補が修正対象候補となるか否かを表す情報を、表示制御部23へ通知する。
表示制御部23は、修正対象候補となるアクセント句境界の候補を、ユーザがアクセント句の境界とするか否かを変更可能であることが分かるように表示部3に表示させる。
図5は、修正対象候補を表示する、表示部3の表示画面の一例を示す図である。
表示画面500には、原文510と、修正対象候補501〜503が表示されている。このうち、修正対象候補501及び503は、アクセント結合のために、一つのアクセント句の途中に位置するので、修正前の状態では、アクセント句境界ではない。そのため、この例では、修正対象候補501及び503は、点線で示されている。一方、修正対象候補502は、言語処理部10により生成された中間表記においてアクセント句境界となっている。そのため、この例では、修正対象候補502は、実線で示されている。
なお、表示制御部23は、修正対象候補でないアクセント句境界の候補を、ユーザがアクセント句の境界とするか否かを変更できないことが分かるようにして、表示部3に表示させてもよい。例えば、表示制御部23は、修正対象候補でないアクセント句境界の候補を、修正対象候補を表す線と異なる色または異なる輝度の線として、原文の対応する位置に表示させてもよい。
ユーザは、例えば、操作部2を介して、表示された修正対象候補にカーソルを合わせてクリックすることで、修正対象候補がアクセント句境界か否かを変更できる。そしてその操作に応じた信号を、処理部7へ出力する。
修正部24は、修正対象候補をアクセント句境界とする操作部2を介した操作に応じて、中間表記における、その修正対象候補の位置に、アクセント句境界であることを示す記号を追加する。逆に、修正部24は、修正対象候補をアクセント句境界でないようにする操作部2を介した操作に応じて、中間表記から、その修正対象候補の位置にある、アクセント句境界であることを示す記号を削除する。
なお、本実施形態では、修正部24は、修正対象候補が修正されても、その修正対象候補に後続するアクセント句のアクセントを修正しない。本実施形態では、修正対象候補が修正されても、修正対象候補に後続するアクセント句のアクセントの位置はそのままでも不自然な発声とならないことが想定されているためである。
図6は、合成音声編集部12により実行される、合成音声編集処理の動作フローチャートである。合成音声編集処理は、例えば、中間表記が既に生成されている合成音声の原文に対して、操作部2を介して、合成音声編集処理を実行する操作が行われることにより開始される。
アクセント句境界候補抽出部21は、原文に含まれる各単語の品詞を参照して、自立語とその直前の単語間の境界をアクセント句境界の候補に設定する(ステップS101)。
修正対象候補決定部22は、中間表記を参照して、アクセント句境界の候補のうち、上記の(1)及び(2)の条件の一方を満たすアクセント句境界の候補を修正対象候補に設定する(ステップS102)。
表示制御部23は、修正対象候補を編集可能であることが分かるように表示部3に表示させる(ステップS103)。
修正部24は、操作部2を介した操作に応じて、中間表記における、アクセント句境界か否かが変更された修正対象候補に相当する位置のアクセント句境界の表記を修正する(ステップS104)。そして修正部24は、修正した中間表記を記憶部6に記憶する。そして合成音声編集部12は、合成音声編集処理を終了する。
以上に説明してきたように、この音声合成装置は、アクセント句境界の候補のうち、修正に伴って前後のアクセント句のアクセントを変更しなくても不適切な発声とならないものをユーザに提示する。そのため、この音声合成装置は、合成音声のアクセント句の境界の編集によるアクセントの誤りを防止できる。
次に、第2の実施形態による音声合成装置について説明する。第2の実施形態による音声合成装置は、アクセント句境界か否かが修正されるとアクセントの位置も変化可能な修正対象候補の表示を、他の修正対象候補可能の表示と異ならせる。
図7は、第2の実施形態による音声合成装置が有する合成音声編集部の機能ブロック図である。第2の実施形態による合成音声編集部12は、アクセント句境界候補抽出部21と、修正対象候補決定部22と、複合語判定部25と、アクセント位置変化判定部26と、表示制御部23と、修正部24とを有する。
第2の実施形態による合成音声編集部12は、第1の実施形態による合成音声編集部と比較して、複合語判定部25及びアクセント位置変化判定部26を有する点、及び、表示制御部23の処理が異なる。そこで以下では、表示制御部23、複合語判定部25及びアクセント位置変化判定部26とその関連部分について説明する。第2の実施形態による音声合成装置のその他の構成要素については、第1の実施形態の対応する構成要素の説明を参照されたい。
複合語、特に、連続した複数の名詞が結合することで生成される複合語では、名詞間の結合位置の前後のアクセント句に含まれる単語のアクセントの位置が、元の名詞のアクセントの位置から変わることがある。また、名詞は自立語なので、複合語に含まれる、名詞同士が結合する位置、すなわち、名詞間の境界はアクセント句境界の候補となる。したがって、複合語に含まれる名詞同士の結合位置にあるアクセント句境界の候補がアクセント句境界となるか否かを変更すると、アクセントの位置を変えた方が自然な発声となる可能性がある。
そこで、複合語判定部25は、各アクセント句境界の候補について、複数の名詞が連続する複合語中の名詞の結合位置にあるか否かを判定する。そのために、複合語判定部25は、原文に含まれる各単語の品詞情報を参照して、各アクセント句境界の候補の前後の単語の品詞を確認する。そして複合語判定部25は、各アクセント句境界の候補のうち、前後の単語がともに名詞である候補が、複合語の結合位置にあると判定する。
複合語判定部25は、各アクセント句境界の候補について、複合語の結合位置にあるか否かを表す情報を記憶部6に記憶する。
なお、変形例によれば、修正対象候補でないアクセント句境界の候補は、原則として編集を許可されないので、複合語判定部25は、アクセント句境界の候補のうちの修正対象候補についてのみ、複合語中の結合位置にあるか否かを判定してもよい。
アクセント位置変化判定部26は、複合語のアクセント結合のルールを参照して、アクセント句境界の候補のそれぞれについて、アクセント結合により、アクセントの位置が変化するか否か判定する。そしてアクセント位置変化判定部26は、アクセント句境界とするか否かでアクセントの位置が変化するアクセント句境界の候補と、アクセントの位置が変化しないアクセント句境界の候補とに、異なる属性を割り当てる。なお、この属性をアクセント位置変化属性と呼ぶ。
複合語のアクセント結合ルールは、結合位置よりも前のアクセント句については、アクセントを平板とし、かつ、結合位置よりも後のアクセント句については、アクセントが平板でない場合にアクセントの位置を変化させないというものである。なお、以下では、説明の便宜上、結合位置よりも前のアクセント句を前置アクセント句と呼び、結合位置よりも後のアクセント句を後置アクセント句と呼ぶ。
上記のアクセント結合ルールにより、前置アクセント句に含まれる名詞の固有アクセントが平板以外であるか、または、後置アクセント句に含まれる名詞の固有アクセントが平板であれば、アクセント結合の有無によってアクセントの位置が変化する。なお、固有アクセントは、その名詞を単独で発声する場合のアクセントである。
したがって、アクセント位置変化判定部26は、複合語の途中に位置しないアクセント句境界の候補について、前置アクセント句のアクセントが平板であれば、アクセント位置変化属性を「無し」とする。一方、アクセント位置変化判定部26は、複合語の途中に位置しないアクセント句境界の候補について、前置アクセント句のアクセントが平板以外であれば、原則としてアクセント句の境界の変更は認められないので、アクセント位置変化属性を「不定」とする。
また、アクセント位置変化判定部26は、複合語の途中に位置するアクセント句境界の候補について、その複合語に含まれる各名詞の固有アクセントを、単語辞書を参照して特定する。そしてアクセント位置変化判定部26は、前置アクセント句に含まれる名詞の固有アクセントが平板であり、かつ、後置アクセント句に含まれる名詞の固有アクセントが平板以外であれば、アクセント位置変化属性を「無し」とする。一方、アクセント位置変化判定部26は、前置アクセント句に含まれる名詞の固有アクセントが平板以外であるか、あるいは、後置アクセント句に含まれる名詞の固有アクセントが平板であれば、アクセント位置変化属性を「有り」とする。
アクセント結合によりアクセント位置の変化が生じた複合語については、アクセント結合の解消に伴って、アクセントの位置を個々の名詞の固有アクセントに一致させるよう変化させても、あるいは、アクセントの位置を維持しても、自然な発声となることがある。
図8は、アクセント結合の有無によるアクセント位置の違いの一例を示す図である。図8において、丸印及び三角形は、それぞれ、一つの音を表す。アクセント結合が生じた複合語800では、音の高低を表す折れ線801に示されるように、前置アクセント句の802のアクセントは平板となり、後置アクセント句803のアクセントは、いわゆる頭高あるいは中高となる。
ここで、前置アクセント句802と後置アクセント句803の間のアクセント句境界の候補804をアクセント句境界に修正したとする。この場合、折れ線811に示されるように、前置アクセント句802及び後置アクセント句803のアクセント位置は、アクセント結合がされている場合のまま維持されてもよい。あるいは、折れ線812に示されるように、前置アクセント句802に含まれる名詞及び後置アクセント句803に含まれる名詞の固有アクセントに合わせて、アクセントの位置が修正されてもよい。
このように、アクセント位置を修正するか否かは、ユーザの選択によって決定できる。
そこで、アクセント位置変化判定部26は、複合語中の名詞同士の結合位置に有り、アクセント結合がなされており、かつ、アクセント位置変化属性が「有り」と判定されたアクセント句境界の候補については、アクセント位置変化属性を「選択」としてもよい。アクセント位置変化属性が「選択」であるアクセント句境界の候補については、アクセント句境界か否かが変更される際に、ユーザの選択によって、前後のアクセント句のアクセントの位置の変更または維持が決定される。
アクセント位置変化判定部26は、各アクセント句境界の候補についてのアクセント位置変化属性を記憶部6に記憶する。
なお、変形例によれば、アクセント位置変化判定部26は、修正対象候補についてのみ、アクセント句境界か否かでアクセント位置が変化するか否かを判定し、アクセント位置変化属性を設定してもよい。原則として、修正対象候補でないアクセント句境界の候補は、ユーザによってアクセント句境界か否かが変更されることはないためである。
表示制御部23は、各修正対象候補の表示を、その修正対象候補のアクセント位置変化属性に応じて異ならせる。
図9は、アクセント結合の有無、前置アクセント句のアクセント種別及びアクセント位置変化の有無の組み合わせと、編集属性、境界属性及びアクセント位置変化属性の関係を示すテーブルである。なお、編集属性は、修正対象候補であるか否かを表す。また、境界属性は、言語処理の結果として得られた中間表記においてアクセント句境界に設定されているか否かを表す。
テーブル900において、一つの行に一つのカテゴリが示され、カテゴリごとにアクセント結合の有無、前置アクセント句のアクセント種別及びアクセント位置変化の有無の組み合わせが規定される。なお、記号「−」は、その記号が示された項目は参照されないことを示す。なお、カテゴリ1〜5は、アクセント句境界の候補が複合語の途中に位置する場合に対応し、カテゴリ6及び7は、アクセント句境界の候補の位置が複合語の途中でない場合に対応する。
カテゴリ1に示されるように、アクセント句境界の候補がアクセント結合位置に有る場合、アクセント句境界の候補は、アクセント句境界には設定されていない。また、アクセント句境界の候補は編集可能(すなわち、修正対象候補)である。またカテゴリ1では、アクセント結合によりアクセント位置が変化しないので、アクセント位置変化属性は「無し」となる。なお、この場合、アクセント結合ルールから、前置アクセント句の固有アクセントは、必ず平板である。
カテゴリ2に示されるように、アクセント句境界の候補がアクセント結合位置ではなく、かつ、アクセント結合によりアクセント位置が変化しない場合も、アクセント結合ルールから、前置アクセント句の固有アクセントは、必ず平板である。したがって、アクセント句境界の候補は編集可能であり、アクセント位置変化属性は「無し」である。またこの場合、アクセント句境界の候補はアクセント結合位置ではないので、アクセント句境界の候補はアクセント句境界である。
また、カテゴリ3に示されるように、アクセント句境界の候補がアクセント結合位置に有り、かつ、アクセント結合によりアクセント位置が変化する場合、アクセント句境界の候補は編集可能であり、アクセント位置変化属性は「選択」となる。またこの場合、アクセント句境界の候補は、アクセント句の途中に位置するので、アクセント句境界には設定されていない。
さらに、カテゴリ4に示されるように、アクセント句境界の候補がアクセント結合位置ではなく、かつ、前置アクセント句の固有アクセントが平板である場合も、アクセント句境界の候補は編集可能である。そしてアクセント結合によりアクセント位置が変化するので、アクセント位置変化属性は「選択」である。またこの場合、アクセント句境界の候補はアクセント結合位置ではないので、アクセント句境界の候補はアクセント句境界である。
また、カテゴリ5に示されるように、アクセント句境界の候補がアクセント結合位置ではなく、かつ、前置アクセント句の固有アクセントが平板以外である場合、原則として、アクセント句境界の候補は編集不可能(すなわち、修正対象候補でない)である。しかし、このカテゴリに属するアクセント句境界の候補は、結合語内の名詞同士の結合位置にある。そこで例外的に、アクセント句境界の候補を編集可能とする。またこのカテゴリでは、アクセント結合の有無によって、少なくとも前置アクセント句のアクセントは変化する。そのため、アクセント位置変化属性は「有り」となる。アクセント句境界の候補をアクセント句の境界に設定することで、少なくとも前置アクセント句のアクセントの位置を変化させる必要が有る。そのため、この場合には、アクセント位置変化判定部26は、アクセント位置変化属性を「選択」にしないことが好ましい。
さらに、カテゴリ6に示されるように、アクセント句境界の候補の位置が複合語の途中でなければ、アクセント結合の有無によってアクセント位置は変化しない。そのため、アクセント位置変化属性は「無し」となる。また、前置アクセント句の固有アクセントが平板であるので、アクセント句境界の候補は編集可能である。またこの場合、アクセント句境界の候補は、アクセント結合位置ではないので、アクセント句境界の候補は、アクセント句境界である。
最後に、カテゴリ7に示されるように、アクセント句境界の候補の位置が複合語の途中でなく、アクセント句境界の候補がアクセント結合の位置でなく、かつ、前置アクセント句の固有アクセントが平板以外である場合、アクセント句境界の候補は編集不可能である。したがって、アクセント位置変化属性は「不定」となる。なお、この場合も、アクセント句境界の候補は、アクセント結合の位置ではないので、アクセント句境界の候補は、アクセント句境界である。
図10(a)は、第2の実施形態による、修正対象候補を表示する表示部3の表示画面の一例を示す図である。
表示画面1000には、原文1010と、修正対象候補1001〜1003が表示されている。このうち、修正対象候補1001及び1003は、アクセント結合のために、一つのアクセント句の途中に位置するので、修正前の状態では、アクセント句境界ではない。そのため、この例では、修正対象候補1001及び1003は、点線で示されている。一方、修正対象候補1002は、修正前の状態において、アクセント句境界となっている。そのため、この例では、修正対象候補1002は、実線で示されている。
さらに、修正対象候補1003は、複合語『音声合成』の結合位置に有り、かつ、アクセント結合によってアクセント位置が変化している。したがって、修正対象候補1003については、アクセント句境界に変更してアクセント結合を解消した場合に、アクセント結合時のアクセント位置を維持するか、各名詞の固有アクセントに変更するかを選択可能となっている。そこで、修正対象候補1003は、アクセント位置の変更の有無を選択可能であることを示すために、修正対象候補1001と異なる表示になっている。この例では、修正対象候補1001は一本の線で示され、修正対象候補1003は、二重線で表示される。
この実施形態においても、ユーザは、例えば、操作部2を介して、表示された修正対象候補にカーソルを合わせてクリックすることで、修正対象候補をアクセント句境界か否かを変更できる。また、アクセント位置の変更が選択可能な修正対象候補については、例えば、操作部2がクリックされるごとに、アクセント位置を維持、アクセント位置を変更、アクセント句境界の変更無しが切り替えられる。そして操作部2は、その操作に応じた信号を、処理部7へ出力する。
修正部24は、修正対象候補をアクセント句境界とするか否かが変更される際に、その前後のアクセント句においてアクセントの位置も変更される場合、言語処理部10に、その前後のアクセント句を入力することで、アクセントの位置を修正する。
図10(b)は、図10(a)に示された原文の読みとアクセントを示す。片仮名で表記された原文の読み『コノジダイノオンセーゴーセーノシンポワ』と重ねて表示された折れ線1101は、アクセント句境界の修正がされていないときのアクセントを表す。また折れ線1102は、修正対象候補1001及び1002について、アクセント句境界か否かを変更したときのアクセントを表す。折れ線1103は、修正対象候補1003について、アクセント位置を維持したまま、アクセント句境界に変更したときのアクセントを表す。一方、折れ線1104は、修正対象候補1003について、その前後の名詞のアクセント位置が固有アクセントに応じた位置となるよう変更しつつ、アクセント句境界に変更したときのアクセントを表す。
図11は、第2の実施形態による合成音声編集部12により実行される、合成音声編集処理の動作フローチャートである。
アクセント句境界候補抽出部21は、原文に含まれる各単語の品詞を参照して、自立語とその直前の単語間の境界をアクセント句境界の候補に設定する(ステップS201)。
修正対象候補決定部22は、中間表記を参照して、アクセント句境界の候補のうち、上記の(1)及び(2)の条件の一方を満たすアクセント句境界の候補を修正対象候補に設定する(ステップS202)。
複合語判定部25は、各アクセント句境界の候補について、複数の名詞が連続する複合語中の名詞の結合位置にあるか否かを判定し、結合位置にあるアクセント句境界の候補を特定する(ステップS203)。そしてアクセント位置変化判定部26は、複合語のアクセント結合ルールに従って、結合位置にあるアクセント句境界の候補がアクセント句境界か否かを変更するとアクセント位置が変化するか否か判定する。その結果に応じて、アクセント位置変化判定部26は、各アクセント句境界の候補にアクセント位置変化属性を設定する(ステップS204)。
表示制御部23は、修正対象候補を編集可能であることが分かるように表示部3に表示させる。その際、表示制御部23は、修正対象候補のうち、アクセント句境界か否かを変更することでアクセントの位置が変化する修正対象候補とアクセントの位置が変化しない修正対象候補とが異なる表示となるように、各修正対象候補を表示させる(ステップS205)。
修正部24は、操作部2を介した操作に応じて、中間表記のうち、変更された修正対象候補に相当する位置のアクセント句境界の表記を修正する(ステップS206)。そして修正部24は、修正した中間表記を記憶部6に記憶する。そして合成音声編集部12は、合成音声編集処理を終了する。
以上に説明してきたように、第2の実施形態による音声合成装置は、複合語中の結合位置にある、アクセント句境界とするか否かでアクセントの位置が変化する修正対象候補を、アクセントの位置が変化しない修正対象候補と区別して表示部に表示させる。またこの音声合成装置は、ユーザの操作に応じて、アクセント句境界とするか否かでアクセントの位置が変化する修正対象候補が変更される際、アクセント位置を維持するか、変更するかをユーザが選択可能とする。そのため、この音声合成装置は、アクセント句境界を変更することで、より自然な発声の合成音声を得ることができる。
さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
1 音声合成装置
2 操作部
3 表示部
4 通信インターフェース部
5 出力部
6 記憶部
7 処理部
8 スピーカ
10 言語処理部
11 音声合成部
12 合成音声編集部
21 アクセント句境界候補抽出部
22 修正対象候補決定部
23 表示制御部
24 修正部
25 複合語判定部
26 アクセント位置変化判定部

Claims (10)

  1. 合成音声の原文となるデータ及び前記原文の読みを表すデータを取得する入力部と、
    単語ごとの品詞及びアクセント位置が登録された単語辞書を記憶する記憶部と、
    前記単語辞書を参照して前記原文及び前記原文の読みに言語処理を行うことにより、前記原文に含まれる各単語の品詞を特定し、かつ、前記原文をアクセント句単位で分割して、各アクセント句のアクセント及びアクセント結合が生じた位置を表す中間表記を生成する言語処理部と、
    前記原文に含まれる各単語の品詞を参照して自立語である単語を特定し、当該自立語と当該自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とするアクセント句境界候補抽出部と、
    前記アクセント句の境界の候補のうち、当該候補の前のアクセント句のアクセント及び当該候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、当該候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定する修正対象候補決定部と、
    前記修正対象候補を表示部に表示させる表示制御部と、
    を有する音声合成装置。
  2. 前記修正対象候補決定部は、前記アクセント句の境界の候補のうち、アクセント句の境界か否かを変更しても、該候補の前後のアクセント句のアクセントの位置が変化しない候補を前記修正対象候補とする、請求項1に記載の音声合成装置。
  3. 前記修正対象候補決定部は、前記アクセント句の境界の候補のうち、アクセント結合された位置にある候補を前記修正対象候補とする、請求項2に記載の音声合成装置。
  4. 前記修正対象候補決定部は、前記アクセント句の境界の候補のうち、アクセント結合されていない位置にあり、かつ、当該候補の直前のアクセント句のアクセントが平板である候補を前記修正対象候補とする、請求項2または3に記載の音声合成装置。
  5. 操作部を介した操作に応じて、前記中間表記における、選択された前記修正対象候補がアクセント句の境界か否かを修正する修正部をさらに有する、請求項1〜4の何れか一項に記載の音声合成装置。
  6. 前記修正対象候補のそれぞれについて、複数の名詞が連続する複合語中の名詞の結合位置にあるか否かを判定する複合語判定部と、
    前記複合語のアクセント結合ルールに基づいて、前記結合位置にある前記修正対象候補のうち、アクセント句の境界か否かを変更すると、当該修正対象候補の前後のアクセント句の少なくとも一方のアクセントの位置が変化する修正対象候補に、アクセント位置が変化することを表す第1の属性を割り当て、一方、アクセント句の境界か否かを変更しても、当該修正対象候補の前後のアクセント句のアクセントの位置が変化しない修正対象候補に、アクセント位置が変化しないことを表す第2の属性を割り当てるアクセント位置変化判定部と、をさらに有し、
    前記表示制御部は、前記第1の属性を持つ前記修正対象候補の前記表示部における表示を、前記第2の属性を持つ前記修正対象候補の前記表示部における表示と異ならせる、請求項1〜4の何れか一項に記載の音声合成装置。
  7. 前記アクセント結合ルールは、前記結合位置の直前の名詞のアクセントが平板となり、かつ、前記結合位置の直後の名詞のアクセントが平板以外の場合に前記複合語となっても変化しないことであり、
    前記アクセント位置変化判定部は、前記結合位置にある前記修正対象候補の直前のアクセント句に含まれる名詞のアクセントが平板以外であるか、または、前記結合位置にある前記修正対象候補の直後のアクセント句に含まれる名詞のアクセントが平板である場合、当該修正対象候補に前記第1の属性を割り当てる、請求項に記載の音声合成装置。
  8. 操作部を介した操作に応じて、前記中間表記における、選択された前記第1の属性を持つ前記修正対象候補がアクセント句の境界か否かが修正されたときに、前記第1の属性を持つ前記修正対象候補の前後のアクセント句のアクセントの位置を修正するか否かを決定する修正部をさらに有する、請求項6または7に記載の音声合成装置。
  9. 単語ごとの品詞及びアクセント位置が登録された単語辞書を参照して、合成音声の原文及び当該原文の読みに対して言語処理を行うことにより、前記原文に含まれる各単語の品詞を特定し、かつ、前記原文をアクセント句単位で分割して、各アクセント句のアクセント及びアクセント結合が生じた位置を表す中間表記を生成し、
    前記原文に含まれる各単語の品詞を参照して自立語である単語を特定し、当該自立語と当該自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とし、
    前記アクセント句の境界の候補のうち、当該候補の前のアクセント句のアクセント及び当該候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、当該候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定し、
    前記修正対象候補を表示部に表示させる、
    ことを含む合成音声編集方法。
  10. 単語ごとの品詞及びアクセント位置が登録された単語辞書を参照して、合成音声の原文及び当該原文の読みに対して言語処理を行うことにより、前記原文に含まれる各単語の品詞を特定し、かつ、前記原文をアクセント句単位で分割して、各アクセント句のアクセント及びアクセント結合が生じた位置を表す中間表記を生成し、
    前記原文に含まれる各単語の品詞を参照して自立語である単語を特定し、当該自立語と当該自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とし、
    前記アクセント句の境界の候補のうち、当該候補の前のアクセント句のアクセント及び当該候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、当該候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定し、
    前記修正対象候補を表示部に表示させる、
    ことをコンピュータに実行させるための合成音声編集用コンピュータプログラム。
JP2014047871A 2014-03-11 2014-03-11 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム Active JP6340839B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014047871A JP6340839B2 (ja) 2014-03-11 2014-03-11 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014047871A JP6340839B2 (ja) 2014-03-11 2014-03-11 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015172625A JP2015172625A (ja) 2015-10-01
JP6340839B2 true JP6340839B2 (ja) 2018-06-13

Family

ID=54260002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014047871A Active JP6340839B2 (ja) 2014-03-11 2014-03-11 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6340839B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7467314B2 (ja) * 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2785628B2 (ja) * 1991-12-20 1998-08-13 日本電気株式会社 ピッチパタン生成装置
JP3268171B2 (ja) * 1995-08-02 2002-03-25 日本電信電話株式会社 アクセント付与方法
JPH0981173A (ja) * 1995-09-12 1997-03-28 Canon Inc 音声規則合成方法とその装置
JP3721101B2 (ja) * 2001-05-30 2005-11-30 株式会社東芝 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム
JP5870686B2 (ja) * 2011-12-27 2016-03-01 富士通株式会社 合成音声修正装置,方法,及びプログラム

Also Published As

Publication number Publication date
JP2015172625A (ja) 2015-10-01

Similar Documents

Publication Publication Date Title
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US7890330B2 (en) Voice recording tool for creating database used in text to speech synthesis system
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
EP1096472B1 (en) Audio playback of a multi-source written document
US20080195391A1 (en) Hybrid Speech Synthesizer, Method and Use
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
US20070203706A1 (en) Voice analysis tool for creating database used in text to speech synthesis system
JP2009020264A (ja) 音声合成装置及び音声合成方法並びにプログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP2005031150A (ja) 音声処理装置および方法
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
US20070203705A1 (en) Database storing syllables and sound units for use in text to speech synthesis system
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2004258561A (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP4208819B2 (ja) 音声合成辞書登録方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180430

R150 Certificate of patent or registration of utility model

Ref document number: 6340839

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150