JP2005309164A - 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム - Google Patents

読み上げ用データ符号化装置および読み上げ用データ符号化プログラム Download PDF

Info

Publication number
JP2005309164A
JP2005309164A JP2004127475A JP2004127475A JP2005309164A JP 2005309164 A JP2005309164 A JP 2005309164A JP 2004127475 A JP2004127475 A JP 2004127475A JP 2004127475 A JP2004127475 A JP 2004127475A JP 2005309164 A JP2005309164 A JP 2005309164A
Authority
JP
Japan
Prior art keywords
stream
phoneme
kanji
audio stream
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004127475A
Other languages
English (en)
Inventor
Tomoyasu Komori
智康 小森
Hiroyuki Segi
寛之 世木
Yoshiaki Shishikui
善明 鹿喰
Kazuhisa Iguchi
和久 井口
Shuichi Aoki
秀一 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2004127475A priority Critical patent/JP2005309164A/ja
Publication of JP2005309164A publication Critical patent/JP2005309164A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】 デコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、デコード用の辞書ファイルのデータ量を抑制し、当該辞書ファイルを変更可能にして、漢字仮名混じり文(テキストデータ)を符号化することができる読み上げ用データ符号化装置および読み上げ用データ符号化プログラムを提供する。
【解決手段】 読み上げ用データ符号化装置1は、漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化するものであって、単語辞書蓄積手段7と、形態素解析手段5と、韻律予測手段9と、音素列選択手段11と、ストリーム整形手段13と、ストリーム接続手段15と、を備えた。
【選択図】 図1

Description

本発明は、読み上げ用データとして入力した漢字仮名混じり文を、音声ストリームに符号化する読み上げ用データ符号化装置および読み上げ用データ符号化プログラムに関する。
近年、漢字仮名混じり文等のテキストデータが発話された場合の音声を、大量の音声データ(例えば、多数の話者が様々な文章について発話したデータ)を利用することによって、合成音声として再現する場合に、様々な手法(例えば、非特許文献1,2、特許文献1を参照)を用いることによって、当該合成音声の高品質化を図ろうとする試みが盛んに行われている。
例えば、アナウンサが読み上げたニュースの音声を収録して、音声波形データベースを構築し、この音声波形データベース(大量の音声データ)を利用した音声合成が行われている(例えば、特願2003−296584 音声合成方法、音声合成装置および音声合成プログラム)。
松本裕治、北内啓、山下達雄、平野善隆、今一修、今村友明 "日本語形態素解析システム「茶筌」 version 1.5 使用説明書"、1997 全頁 「基本周波数パターン生成過程モデルに基づく文章音声の合成」(電子情報通信学会論文誌A Vol.J72−A,No.1 pp32−40,1989.1) 特開2003−271199号公報(段落0029〜0033、図1)
しかしながら、近年試みられている音声合成の手法は、いずれも漢字仮名混じり文を、直接、音声信号に変換するもの(方法、装置またはプログラム)であり、当該音声信号を送信した場合に、当該音声信号を受信した受信側では、音声信号をデコード(復号)するのに特別な単体機器が必要となるという問題がある。つまり、音声信号がTTS(Text To−speech Synthesis;テキスト合成方式)符号化された音声ストリームを受信して再生する場合、専用のデコード装置が無い限り、元の音声信号に変換して再生させることができなかった。
また、高品質に符号化された音声ストリームを受信した側(受信側)でデコード(復号)する際には、当該受信側で用意しておかなくてはならないデコード用の辞書ファイルのデータ量が膨大になるという問題がある。
さらに、専用のデコード装置が単体機器である場合、デコード用の辞書ファイルが内蔵されており、変更(更新)することが想定されていないので、別の辞書ファイルに変更することが困難であるという問題がある。
そこで、本発明では、前記した問題を解決し、デコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、デコード用の辞書ファイルのデータ量を抑制し、当該辞書ファイルを変更可能にして、漢字仮名混じり文(テキストデータ)を符号化することができる読み上げ用データ符号化装置および読み上げ用データ符号化プログラムを提供することを目的とする。
前記課題を解決するため、請求項1記載の読み上げ用データ符号化装置は、漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、音素列選択手段と、ストリーム整形手段と、ストリーム接続手段と、を備える構成とした。
かかる構成によれば、読み上げ用データ符号化装置は、音素列選択手段によって、音素列を蓄積し、当該音素列を音声ストリームに符号化する外部の装置である音声符号化装置に対して、漢字仮名混じり文、漢字仮名混じり文を形態素解析した解析結果および漢字仮名混じり文を音素表記した音素記号に基づき、符号化する音素列を選択する音素列選択信号を出力する。漢字仮名混じり文は、日本語の文章であり、いわゆるテキストデータである。これら漢字仮名混じり文、解析結果および音素記号は、当該装置で符号化して接続した音声ストリーム(接続音声ストリーム)が、受信側で音声合成用に利用されるものであるため、音声合成用に特化したデータと言えるものである。また、音素列選択手段からは、音声符号化装置によって符号化された音声ストリームを、どのように接続するのかを制御する制御信号を出力する。この音声符号化装置は、音素列を、音声ストリーム(音声符号化情報;例えば、AAC音声ストリーム)に符号化して出力するものである。
そして、読み上げ用データ符号化装置は、ストリーム整形手段によって、音声符号化装置から出力された音声ストリームから必要な部分を切り出(抽出)して、当該音声ストリームを整形し、この整形した音声ストリームを、ストリーム接続手段によって、音素列選択手段から出力された制御信号に基づいて接続して、接続音声ストリームとして出力する。ストリーム整形手段で整形される必要な部分とは、ストリーム接続手段で使用する部分であり、ストリーム接続手段に入力される制御信号に従って決定されるものである。つまり、ストリーム整形手段で必要な部分が切り出される際には、音素列選択手段から直接、または、ストリーム接続手段を介して制御信号が当該ストリーム整形手段に入力されることになる。
請求項2記載の読み上げ用データ符号化装置は、漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、単語辞書蓄積手段と、形態素解析手段と、韻律予測手段と、音素列選択手段と、ストリーム整形手段と、ストリーム接続手段と、を備える構成とした。
かかる構成によれば、読み上げ用データ符号化装置は、形態素解析手段によって、単語辞書蓄積手段に蓄積されている単語辞書を参照して、漢字仮名混じり文を形態素解析すると共に、漢字仮名混じり文を音素表記した音素記号にして出力する。単語辞書は、単語の読みに関するデータを少なくとも含むものであり、この単語の読みに関するデータ以外には、例えば、単語の品詞、アクセント型、単語間の接続確率および品詞間の接続確率に関するデータを含むものである。続いて、読み上げ用データ符号化装置は、韻律予測手段によって、形態素解析手段で形態素解析された解析結果および漢字仮名混じり文字を音素表記した音素記号に基づいて、漢字仮名混じり文の韻律を示す韻律記号を予測する。韻律記号は、アクセントやイントネーションに関する情報を指すものである。
そして、この読み上げ用データ符号化装置は、音素列選択手段によって、音素列を蓄積し、当該音素列を音声ストリームに符号化する外部の装置である音声符号化装置に対して、漢字仮名混じり文、解析結果、音素記号および韻律記号に基づき、符号化する音素列を選択する音素列選択信号を出力する。また、音素列選択手段からは、音声符号化装置によって符号化された音声ストリームを、どのように接続するのかを制御する制御信号を出力する。この音声符号化装置は、音素列を、音声ストリーム(音声符号化情報;例えば、AAC音声ストリーム)に符号化して出力するものである。
そして、読み上げ用データ符号化装置は、ストリーム整形手段によって、音声符号化装置から出力された音声ストリームから必要な部分を切り出(抽出)して、当該音声ストリームを整形し、この整形した音声ストリームを、ストリーム接続手段によって、音素列選択手段から出力された制御信号に基づいて接続して、接続音声ストリームとして出力する。
請求項3記載の読み上げ用データ符号化装置は、漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、音素列符号化データ辞書蓄積手段と、音素列選択手段と、音声ストリーム出力手段と、ストリーム整形手段と、ストリーム接続手段と、を備える構成とした。
かかる構成によれば、読み上げ用データ符号化装置は、音素列選択手段によって、漢字仮名混じり文、漢字仮名混じり文を形態素解析した解析結果および漢字仮名混じり文を音素表記した音素記号に基づいて、音素列符号化データ辞書蓄積手段に蓄積されている音素列を選択する。音素列符号化データ辞書蓄積手段は、漢字仮名混じり文を構成している単語を音素に分解し、この分解した音素が連続した音素列を符号化した音素列符号化データに関する辞書を蓄積するものである。また、この音素列選択手段からは、音素列符号化データ(音声ストリーム)をどのように接続するのかを制御する制御信号を出力する。
そして、読み上げ用データ符号化装置は、音声ストリーム出力手段によって、音素列選択手段で選択された音素列に対応する音素列符号化データを、音声ストリームとして出力し、この出力された音声ストリームから必要な部分を、ストリーム整形手段によって切り出して、当該音声ストリームを整形する。
その後、読み上げ用データ符号化装置は、ストリーム接続手段によって、ストリーム整形手段で整形された音声ストリームを、音素列選択手段から出力された制御信号に基づいて接続し、接続音声ストリームとして出力する。
請求項4記載の読み上げ用データ符号化装置は、漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、単語辞書蓄積手段と、形態素解析手段と、韻律予測手段と、音素列符号化データ辞書蓄積手段と、音素列選択手段と、音声ストリーム出力手段と、ストリーム整形手段と、ストリーム接続手段と、を備える構成とした。
かかる構成によれば、読み上げ用データ符号化装置は、形態素解析手段によって、単語辞書蓄積手段に蓄積されている単語辞書を参照して、漢字仮名混じり文を形態素解析すると共に、漢字仮名混じり文を音素表記した音素記号として出力する。続いて、読み上げ用データ符号化装置は、韻律予測手段によって、形態素解析手段で形態素解析された解析結果および漢字仮名混じり文を音素表記した音素記号に基づいて、漢字仮名混じり文の韻律を示す韻律記号を予測する。
そして、読み上げ用データ符号化装置は、音素列選択手段によって、漢字仮名混じり文、解析結果、音素記号および韻律記号に基づいて、音素列符号化データ辞書蓄積手段に蓄積されている音素列を選択する。音素列符号化データ辞書蓄積手段は、漢字仮名混じり文を構成している単語を音素に分解し、この分解した音素が連続した音素列を符号化した音素列符号化データに関する辞書を蓄積するものである。また、この音素列選択手段からは、音素列符号化データ(音声ストリーム)をどのように接続するのかを制御する制御信号を出力する。
そして、読み上げ用データ符号化装置は、音声ストリーム出力手段によって、音素列選択手段で選択された音素列に対応する音素列符号化データを、音声ストリームとして出力し、この出力された音声ストリームから必要な部分を、ストリーム整形手段によって切り出して、当該音声ストリームを整形する。
その後、読み上げ用データ符号化装置は、ストリーム接続手段によって、ストリーム整形手段で整形された音声ストリームを、音素列選択手段から出力された制御信号に基づいて接続し、接続音声ストリームとして出力する。
請求項5記載の読み上げ用データ符号化装置は、請求項3または請求項4に記載の読み上げ用データ符号化装置において、前記音素列符号化データ辞書蓄積手段が、話者と話速との少なくとも一方が異なる複数の音素列符号化データ辞書を蓄積し、前記音声ストリーム出力手段は、前記複数の音素列符号化データ辞書に収められている音素列符号化データを切り替えて出力する出力切替手段を備えたことを特徴とする。
かかる構成によれば、読み上げ用データ符号化装置は、音素列符号化データ辞書蓄積手段に話者と話速との少なくとも一方の異なる複数の音素列符号化データ辞書を蓄積しておいて、出力切替手段で、切り替えることで、漢字仮名混じり文に最も適切な音素列符号化データを出力することができる。
請求項6記載の読み上げ用データ符号化装置は、請求項1から請求項5のいずれか一項に記載の読み上げ用データ符号化装置において、前記ストリーム整形手段が、前記音声ストリームを、復号する際の復号可能な最小の単体単位に整形し、前記ストリーム接続手段は、前記単体単位を接続して、前記接続音声ストリームとすることを特徴とする。
かかる構成によれば、読み上げ用データ符号化装置は、ストリーム整形手段によって、復号可能な最小の単体単位に整形し、ストリーム接続手段によって、単体単位の音声ストリームを容易に接続することができ、この単体単位の音声ストリームが接続された接続音声ストリームが送信され、受信された後に、当該接続音声ストリームを復号することで、漢字仮名混じり文を音声信号として再生することができる。
請求項7記載の読み上げ用データ符号化装置は、請求項1から請求項6のいずれか一項に記載の読み上げ用データ符号化装置において、前記ストリーム接続手段が、時間軸上で予め設定した時間分を重複させて前記音声ストリームを接続することを特徴とする。
かかる構成によれば、読み上げ用データ符号化装置は、ストリーム接続手段によって、音声ストリームが時間軸上で、予め設定した時間分重複(オーバラップ)させて当該音声ストリーム同士を接続し、接続音声ストリームとしている。予め設定した時間分とは、例えば、音声ストリームの単体単位の50%の長さの時間である。
請求項8記載の読み上げ用データ符号化装置は、請求項1から請求項7のいずれか一項に記載の読み上げ用データ符号化装置において、前記ストリーム接続手段が、前記音声ストリームを接続する際に、接続点近傍の量子化精度を変更する量子化精度変更手段を備えていることを特徴とする。
かかる構成によれば、読み上げ用データ符号化装置は、量子化精度変更手段によって、音声ストリーム同士を接続する際の接続点近傍の量子化精度が変更されることで、異なる量子化精度情報を持つ音声ストリームを接続することができる。
請求項9記載の読み上げ用データ符号化プログラムは、漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化するために、コンピュータを、音素列選択手段、ストリーム整形手段、ストリーム接続手段、として機能させる構成とした。
かかる構成によれば、読み上げ用データ符号化プログラムは、音素列選択手段で、漢字仮名混じり文、漢字仮名混じり文を形態素解析した解析結果および漢字仮名混じり文を音素表記した音素記号に基づいて、符号化する音素列を選択する。そして、読み上げ用データ符号化プログラムは、ストリーム整形手段で、音声符号化装置から出力された音声ストリームから必要な部分を切り出して、ストリーム接続手段で、音声ストリーム同士を接続して接続音声ストリームとして出力する。
請求項1、9に記載の発明によれば、漢字仮名混じり文、漢字仮名混じり文を形態素解析した解析結果および漢字仮名混じり文を音素表記した音素記号に基づいて、符号化する音素列を選択する。そして、音声符号化装置から出力された音声ストリームから必要な部分を切り出し、音声ストリーム同士を接続して接続音声ストリームとして出力する。このため、接続音声ストリームをデコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、既存のデコード装置を利用して、漢字仮名混じり文を発話した際の音声を再現可能に、当該漢字仮名混じり文を符号化することができる。
請求項2に記載の発明によれば、単語辞書を参照して、入力された漢字仮名混じり文に形態素解析を施して得た解析結果および漢字仮名混じり文字を音素表記した音素記号に基づいて、漢字仮名混じり文が発話された際の韻律を示す韻律記号を予測し、漢字仮名混じり文、解析結果、音素記号および韻律記号に基づいて、符号化する音素列を選択する。そして、音声符号化装置から出力された音声ストリームから必要な部分を切り出し、音声ストリーム同士を接続して接続音声ストリームとして出力する。このため、接続音声ストリームをデコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、既存のデコード装置を利用して、漢字仮名混じり文を発話した際の音声を再現可能に、当該漢字仮名混じり文を符号化することができる。
請求項3に記載の発明によれば、漢字仮名混じり文、漢字仮名混じり文を形態素解析した解析結果および漢字仮名混じり文を音素表記した音素記号に基づいて、音素列符号化データ辞書に含まれている音素列を選択し、この音素列に対応する音素列符号化データを、音声ストリームとして出力し、この出力された音声ストリームから必要な部分を切り出して、当該音声ストリームを整形する。その後、整形された音声ストリームを、制御信号に基づいて接続し、接続音声ストリームとして出力する。このため、接続音声ストリームをデコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、既存のデコード装置を利用して、漢字仮名混じり文を発話した際の音声を再現可能に、当該漢字仮名混じり文を符号化することができる。また、音素列符号化データ辞書を備えることで、デコードする際に用いられるデコード用の辞書ファイルのデータ量を抑制し、漢字仮名混じり文(テキストデータ)を符号化することができる。
請求項4に記載の発明によれば、単語辞書を参照して、漢字仮名混じり文を形態素解析し、形態素解析された解析結果および漢字仮名混じり文を音素表記した音素記号に基づいて、漢字仮名混じり文の韻律を示す韻律記号を予測する。そして、漢字仮名混じり文、解析結果、音素記号および韻律記号に基づいて、音素列符号化データ辞書に含まれている音素列を選択し、この音素列に対応する音素列符号化データを、音声ストリームとして出力し、この出力された音声ストリームから必要な部分を切り出して、当該音声ストリームを整形する。その後、整形された音声ストリームを、制御信号に基づいて接続し、接続音声ストリームとして出力する。このため、接続音声ストリームをデコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、既存のデコード装置を利用して、漢字仮名混じり文を発話した際の音声を再現可能に、当該漢字仮名混じり文を符号化することができる。また、音素列符号化データ辞書を備えることで、デコードする際に用いられるデコード用の辞書ファイルのデータ量を抑制し、漢字仮名混じり文(テキストデータ)を符号化することができる。
請求項5に記載の発明によれば、話者と話速との少なくとも一方の異なる複数の音素列符号化データ辞書を蓄積しておいて、切り替えることで、当該話者または話速、或いは双方を変更可能にして、漢字仮名混じり文に最も適切な音素列符号化データを出力することができる。
請求項6に記載の発明によれば、音声ストリームを、復号可能な最小の単体単位に整形し、当該単体単位を容易に接続することができる。
請求項7に記載の発明によれば、ストリーム接続手段によって、音声ストリームが時間軸上で、予め設定した時間分重複(オーバラップ)させることで、例えば、AACの場合、タイム・ドメイン・エイリアジング・キャンセレーションを行い、音声ストリーム同士の接続点におけるエイリアジングノイズを減少させることができる。また、複数の単体単位の音声ストリームを重複させることで、当該単体単位の音声ストリームを接続した接続音声ストリームを復号した音声信号も重ね合わせることになるので、急激な音声信号の変化を緩和することができる。また、この急激な音声信号の変化を緩和することで、音声信号の品質改善を容易に行うことができる。
請求項8に記載の発明によれば、音声ストリーム同士を接続する際の接続点近傍の量子化精度が変更されることで、異なった量子化情報をもつ音声ストリームを接続することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
ここでは、2つの実施形態(第一実施形態、第二実施形態)の読み上げ用データ符号化装置について、まず、当該装置の構成の説明を行って、次に、当該装置の動作の説明を行うこととする。
〈読み上げ用データ符号化装置[第一実施形態]の構成〉
図1は、読み上げ用データ符号化装置(第一実施形態)のブロック図である。この図1に示すように、読み上げ用データ符号化装置1は、漢字仮名混じり文等のテキストデータを、読み上げ用データとして入力し、当該読み上げ用データを符号化するもので、形態素解析手段5と、単語辞書蓄積手段7と、韻律予測手段9と、音素列選択手段11と、ストリーム整形手段13と、ストリーム接続手段15とを備えている。
また、この読み上げ用データ符号化装置1には、音声符号化装置3と、ストリーム配信装置2とが接続されている。読み上げ用データ符号化装置1の構成の説明に先立ち、これらの装置3,2の説明を行う。
音声符号化装置3は、読み上げ用データ符号化装置1から出力された音素列選択信号に基づいて、選択された音素列を逐次符号化して、当該装置1に出力するもので、音素列蓄積手段17と、音声符号化手段19とを備えている。
音素列蓄積手段17は、ハードディスク等の記憶媒体とデータの入出力を制御する制御機能とによって構成されており、予め特定の話者が発話した音声(音声列)と、当該音声を形態素解析した解析データ(音素列を含む)とを組み合わせた音声・解析データを蓄積するものである。この音声・解析データは、読み上げ用データ符号化装置1に入力される漢字仮名混じり文から、復号側で高品質な合成音声として再現することが可能な音声ストリームを作成するためのもので、多数の単語や、様々な言い回し等を収めた辞書データと言えるものである。
この音素列蓄積手段17は、読み上げ用データ符号化装置1から出力される音素列選択信号に基づいて、当該音素列蓄積手段17の制御機能が機能し、該当する音素列を含む音声・解析データを音声符号化手段19に逐次出力するものである。
この実施形態では、音素列蓄積手段17が蓄積している音素列に、特願2003−296584(音声合成方法、音声合成装置および音声合成プログラム)において記述されている、アナウンサが読み上げたニュースの音声を収録した音声波形データベースを利用している。
音声符号化手段19は、音素列蓄積手段17から出力された音声・解析データを逐次符号化(音声符号化)して、音声ストリームとして、読み上げ用データ符号化装置1に出力するものである。
なお、この音声符号化装置3は、この実施形態では、読み上げ用データ符号化装置1と別体に構成されているが、読み上げ用データ符号化装置1に組み込まれていてもよい。
ストリーム配信装置2は、読み上げ用データ符号化装置1から出力された接続音声ストリームを、通信回線(ネットワーク)等を通じて、受信側(復号側)の単体機器または多数の機器に配信するものである。
この実施形態では、読み上げ用データ符号化装置1から出力される音声ストリームがAAC(Advanced Audio Coding;MPEG−2の変換符号化方式)の音声ストリーム(以下、AAC音声ストリームという)であり、ストリーム配信装置2が、AAC対応の受信装置(図示せず)に接続する場合、光ケーブルを用いて、ストリーム配信装置2と受信装置とを接続し、当該光ケーブルで伝送可能な帯域に当該AAC音声ストリームを多重化して配信している(詳しくは、JEITA CPX−4141 AACデジタルインターフェース参照)。
また、読み上げ用データ符号化装置1から出力される音声ストリームがMP3の音声ストリームであり、ストリーム配信装置4が、MP3対応の受信装置(図示せず)に接続する場合、既知(既存)の方法(例えば、RTP等を使用した方法)で配信している。
ちなみに、RTPは、(Real−time Transport Protocol;リアルタイム・データ転送プロトコル)は、映像信号と音声信号とをリアルタイムに適した形式で転送することを目的に設計されたデータ通信の通信規約であり、時間単位でデータ(映像信号、音声信号)をパケットに分割して、当該パケットにデータの時間情報を付加して転送するものである。
これより、読み上げ用データ符号化装置1の各構成の説明を行う。
形態素解析手段5は、入力された漢字仮名混じり文(通常の日本語表記テキスト文、いわゆるテキストデータ)を、単語辞書蓄積手段7に蓄積されている単語辞書を参照して、形態素解析するものである。この形態素解析には、様々な手法が提案されており、この実施形態では非特許文献1に記載した“日本語形態素解析システム「茶筌」”のversion1.5の使用説明書に示されている手法を利用している。
なお、この形態素解析手段5によって、形態素解析された解析結果は、漢字仮名混じり文に含まれている各単語の品詞、アクセント型、読み、係り受け等の少なくとも1つの情報が含まれているものである。係り受けとは、漢字仮名混じり文(一般的な日本語)において、ある文節が他の文節に係る(依存する)という形式で文の構造が成立しており、係る文節と、受ける文節との関係を定義した係り受け文法(依存文法)を指すものである。
また、形態素解析手段5は、入力された漢字仮名混じり文を音素表記した音素記号(音素記号列)を生成するものである。
これら解析結果(各単語の品詞、アクセント型、読み、係り受け等に関する情報)および音素記号は、韻律予測手段9と音素列選択手段11とに出力される。
単語辞書蓄積手段7は、ハードディスク等の記憶媒体から構成されており、形態素解析手段5で形態素解析をする際に参照する単語辞書を蓄積するものである。この単語辞書は、読み上げ用データ符号化装置1に入力される漢字仮名混じり文で使われている単語の読みに関するデータを少なくとも含むもので、この実施形態では、さらに、単語の品詞、アクセント型、単語同士の接続確率および品詞の接続確率に関するデータを含んでいる。
「単語の品詞」は、名詞、動詞、副詞、形容詞等であり、これらの品詞を示す識別情報が単語毎に付されている。
「アクセント型」は、アクセント核の有無と、当該アクセント核の個数とによって、単語を分類するものである。通常、日本語のアクセントは、感覚的に、アクセントの高い箇所とアクセントの低い箇所との2つのレベルがあり、アクセントのあるモーラ(仮名文字単位に相当)の直後にレベルが高い箇所から低い箇所に移行する。この移行する箇所をアクセント核という。nモーラの単語には、アクセント核が存在しないか、アクセント核の位置によって、n個(nパターン)のアクセント型が存在することになる(nは自然数)。つまり、kモーラ目にアクセントがある場合、k型といい、アクセント核が存在しない場合、0型という。
「読み」は、単語の読み方をローマ字表記したものである。「単語同士の接続確率」は、単語同士が接続する確率を表したものである。「品詞の接続確率」は、品詞同士が接続する確率を表したものである。
韻律予測手段9は、形態素解析手段5によって、形態素解析された解析結果と、漢字仮名混じり文を音素表記した音素記号列(発音記号列)とに基づいて、各音素の継続時間長、基本周波数パターン、ポーズ長(無音時間長)、イントネーション等を予測して生成した韻律記号を音素列選択手段11に出力するものである。
この韻律予測手段9では、「基本周波数パターン生成過程モデルに基づく文章音声の合成」(電子情報通信学会論文誌A Vol.J72−A,No.1 pp32−40,1989.1参照)に開示されている、韻律を予測する(韻律記号を出力する)手法を採用している。
音素列選択手段11は、入力された漢字仮名混じり文と、形態素解析手段5から出力された解析結果および音素記号と、韻律予測手段9から出力された韻律記号とに基づいて、符号化する音素列を選択する音素列選択制御信号を音声符号化装置3の音素列蓄積手段17に出力するものである。
音素列選択制御信号は、漢字仮名混じり文が区分された複数のモーラからなる音素列それぞれを、音声符号化装置3の音素列蓄積手段17から選択するものである。例えば、漢字仮名混じり文が「今日はいい天気です。」の場合、「今日」、「は」、「いい」、「天気」および「です」に区分された際に、「今日」(kyou)という音素列、「は」(ha)という音素列、「いい」(ii)という音素列、「天気」(tennki)という音素列および「です」(desu)という音素列がそれぞれ選択されることとなる。
また、この音素列選択手段11は、音声ストリーム同士を接続を制御するストリーム接続制御信号(請求項に記載した制御信号に該当する)を、ストリーム接続手段15に出力する。
ストリーム接続制御信号は、適切な発話休止の長さ(時間)、接続する時刻(タイミング)および接続方法の指示に関する情報を含んで成り、ストリーム接続手段15で接続される音声ストリームの接続タイミング、接続方法を制御するものである。
なお、接続方法の指示とは、例えば、ADTSのフレームの周波数係数(DCT成分)に関して、スケールファクター値Sの値が大きい方のゲインGに合わせて、再量子化を行って、両窓の音声ストリームを、例えば、周波数係数1/2倍して足し合わせた上で、ハフマン符号化を行い、所定のビットレートで、音声ストリームに変換して接続する場合、接続する音声ストリームの接続点のフレーム番号、当該接続点でのゲインを指示することである。
例えば、フレーム毎の周波数係数が256本である場合、接続方法の指示に関する情報は、接続する一方の音声ストリームAの接続点でのゲインをGainAと、接続する他方の音声ストリームBの接続点でのゲインをGainBとが予め与えられているとすると、音声ストリームAのフレーム番号kと、音声ストリームBのフレーム番号tだけを指示するだけで、ストリーム接続手段15において、音声ストリームAと音声ストリームBとを接続させることが可能である。
なお、このストリーム接続制御信号を音素列選択手段11からストリーム接続手段15に出力する代わりに、無音の音素およびこの音素の時間(発話休止の長さに相当する時間)に適合する音素列を選択する音素列選択制御信号を音声符号化装置3に出力することも可能である。
ストリーム整形手段13は、音声符号化装置3から出力された音声ストリームから必要な部分を切り出して整形した音声ストリームをストリーム接続手段15に出力するものである。なお、このストリーム整形手段13で整形される必要な部分とは、ストリーム接続手段15で使用する部分であり、ストリーム接続手段15に入力されるストリーム接続制御信号に従って決定されるものである。つまり、ストリーム整形手段13で必要な部分が切り出される際には、音素列選択手段11から直接、または、ストリーム接続手段15を介してストリーム接続制御信号が当該ストリーム整形手段13に入力されることになる。
この実施形態では、ストリーム整形手段13は、8bitのADPCM(Adaptive Differential Pluse Code Modulation;適応型差分パルス符号変調)を採用している。この音声ストリームのADPCMの出力が零クロスして零になった時点で、入力された音声ストリームを切断して、ストリーム接続手段15に出力することで、このストリーム接続手段15で特殊な処理を施さなくても音声ストリーム同士の違和感のない接続(スムーズな音素のつながり)を実現することができる。
なお、ADPCMは、リニアPCMデータ(ストリーム化する前の音声信号)に対して、1サンプルの振幅情報を圧縮する方式であり、音声ストリームのADPCMの出力が零クロスして零になった時点とは、ADPCMの出力波形が、時間軸(横軸)と交わった時点、つまり、振幅情報が0になった時を指すものである。
また、このストリーム整形手段13は、音声符号化装置3から出力された音声ストリームを、復号する際の復号可能な最小の単体単位に整形するものである。この復号可能な最小の単体単位とは、音声ストリームとして意味のある単位であり、この意味のある単位とは、例えば、AACのAudio_Data_Transport_Stream frame(フレーム) ADTS(ISO/IEC13818−7:2003 6章 Syntax参照)単位が挙げられる。このADTSのフレーム単位単体だけであってもデコード装置(デコーダ、復号装置)等で解釈できるものである。
ADTSのフレームのヘッダ部であるAdts_fixed_headerには、syncword“1111 1111 1111 1111”が含まれている。このsyncwordの前で音声ストリームを切断することで、ADTSのフレームとして意味のある単位に分割することができる。
但し、AACの音声ストリームは、ストリーム接続手段15において、当該音声ストリーム同士を接続するためには、profile等の情報が同じである必要がある。逆に、前に同じプロファイルであれば、例えば、音声データを格納するraw_data_blockのchannel_pair_elementに収められているADTSのフレームの一部のデータに、ヘッダ部等を付加しADTSフレームとすることで、デコーダ等で解釈可能になる。すなわち、ストリーム整形手段13では、ADTSのフレームを意味のある単位とみなして、整形している。
ストリーム接続手段15は、音素列選択手段11から出力されたストリーム接続制御信号に基づいて、ストリーム整形手段13で整形された音声ストリームを一旦周波数領域の周波数係数に変換して接続点位置で加算することによって、当該音声ストリーム同士を接続するもので、量子化精度変更手段15aを備えている。
ストリーム接続制御信号として、適切な発話休止の長さ(時間)、接続する時刻(タイミング)および接続方法の指示がストリーム接続手段15に入力された場合、ADPCMでは、発話休止の長さに応じたNullデータと、ストリーム整形手段13で整形された音声ストリームとを接続することで、音声ストリームの接続(接続音声ストリーム)を実行することができる。
量子化精度変更手段15aは、音声ストリーム同士を接続する場合、当該音声ストリームが変換された周波数係数(DCT係数)を加算する際に、量子化値の精度を変更するものである。周波数係数は、量子化値とゲインとの積によって表すことができ、ゲインはスケールファクター値を指数に持つ値である。周波数係数をK、量子化値をR、ゲインをGスケールファクター値をSとすると、K=R×GSで表すことができる。
すなわち、量子化値の精度を変更するとは、スケールファクター値Sを変更(調整)することで、量子化値Rの値を変更することである。
また、音素列選択手段11から音声符号化装置3に、無音の音素およびこの音素の時間(発話休止の長さに相当する時間)に適合する音素列を選択する音素列選択制御信号が出力されていた場合、ストリーム接続制御信号は必要なく、音声符号化装置3では、音素列選択制御信号に基づいて、音声ストリーム同士が接続される時間を鑑みた音素列が検索・選択されることになる。
また、ストリーム接続手段15は、ストリーム整形手段13で整形された音声ストリームを接続する際に、時間軸上で予め設定した時間(設定時間)分を重複させて接続するものである。この実施形態では、設定時間は、1つの音声ストリームの約半分(50%)の時間である。
この場合のストリーム接続手段15からの出力を図5に示す。図5は、音声ストリームを時間軸上で重複接続していく方法を、AACの音声ストリームを例として説明した図である。
この図5に示すように、ストリーム接続手段15からの出力は、時間軸上(時間領域)の音声信号に窓関数(ここでは、sine窓[2048/256sample])をかけて、DCT変換およびハフマン符号化を行って、AACの音声ストリームを連続的に半分ずつ重複して列べた形式で模式的に表すことができる。
このストリーム接続手段15における音声ストリーム同士の接続方法について、256sampleの窓で、複数の音素を接続する場合を例にして説明する(この接続方法についての詳細は、「音声符号化情報処理装置、音声符号化情報処理プログラムおよび音声符号化情報処理方法」特願2004−118361を参照)。
各音素の両端のADTSのフレームの周波数係数(DCT成分)に関して、スケールファクター値Sの値が大きい方のゲインGに合わせて、再量子化を行って、両窓の音声ストリームを、例えば、周波数係数1/2倍して足し合わせた上で、ハフマン符号化を行い、所定のビットレートで、音声ストリームに変換して接続する。
この場合、周波数係数をそれぞれ1/2倍して足し合わせているが、数フレームに亘り適切な比でゲインをかけ、足し合わせることで、高品質な接続音声ストリームを作成することができる。前記したように、このストリーム接続手段15において、音声ストリームを接続する接続点(接続点近傍)の位置の制御および足し合わせる周波数係数については、音素列選択手段11から出力されるストリーム接続制御信号によって決定される。
例えば、ストリーム接続手段15は、複数の音声ストリームが入力され、これらの音声ストリームを、周波数領域で、ゲインGを乗算してから加算する際に、量子化精度を制御しながら処理するもので、周波数係数変換手段(図示せず)と、ゲイン乗算手段(図示せず)と、周波数係数加算手段(図示せず)と、音声符号化情報変換手段(図示せず)とを備えている。
このストリーム接続手段15は、入力された音声ストリームを、周波数係数変換手段(図示せず)によって、周波数係数に変換し、周波数係数乗算手段(図示せず)によって、周波数係数にゲインGを乗算する。そして、ストリーム接続手段15は、周波数係数加算手段(図示せず)によって、量子化精度を制御しつつ、周波数係数を加算する。
そして、ストリーム接続手段15Cは、音声符号化情報変換手段(図示せず)の量子化部(図示せず)によって、加算した周波数係数を量子化値に変換し、音声符号化情報変換手段(図示せずのノイズレスコーディング部(図示せず)によって、量子化値をハフマン符号語にコーディング(符号化)し、レート歪みコントローラ部(図示せず)によって、ビットレートが所定の値以下であるか否かを判断する。
ここで、ストリーム接続手段15は、レート歪みコントローラ部(図示せず)によって、ビットレートが所定の値以下であると判断しなかった場合、ビットレートを所定の値以下にするために、量子化値の大きさを制御して、ハフマン符号語を変換し、変換後のビットレートが所定の値以下になるまで量子化値の制御を繰り返して行う。また、ストリーム接続手段15は、レート歪みコントローラ部(図示せず)によって、ビットレートが所定の値以下であると判断した場合、音声符号化情報変換手段(図示せず)のビットストリームマルチプレクサ部(図示せず)によって、ハフマン符号語を並べ替えて、ストリーム化した音声ストリームに変換して出力する。
図1に戻って、読み上げ用データ符号化装置1の構成の説明を続ける。
この読み上げ用データ符号化装置1によれば、形態素解析手段5によって、単語辞書蓄積手段7に蓄積されている単語辞書が参照されて、漢字仮名混じり文が形態素解析され、韻律予測手段9によって、形態素解析手段5で形態素解析された解析結果および漢字仮名混じり文字が音素表記された音素記号に基づいて、漢字仮名混じり文の韻律を示す韻律記号が予測される。そして、音素列選択手段11によって、音素列を蓄積し当該音素列を音声ストリームに符号化する外部の装置である音声符号化装置3に対して、漢字仮名混じり文、解析結果、音素記号および韻律記号に基づき、符号化する音素列を選択する音素列選択信号が出力される。また、音素列選択手段11からは、音声符号化装置3によって符号化された音声ストリームを、どのように接続するのかを制御するストリーム接続制御信号が出力される。そして、ストリーム整形手段13によって、音声符号化装置3から出力された音声ストリームから必要な部分が切り出されて、当該音声ストリームが整形され、この整形された音声ストリームが、ストリーム接続手段15によって、音素列選択手段11から出力されたストリーム接続制御信号に基づいて接続されて、接続音声ストリームとして出力される。このため、接続音声ストリームを受信してデコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、既存のデコード装置を利用して、漢字仮名混じり文を発話した際の音声を再現可能に、当該漢字仮名混じり文を符号化することができる。
また、この読み上げ用データ符号化装置1によれば、ストリーム整形手段13によって、最小の単体単位(意味のある単位)に音声ストリームを整形することで、ストリーム接続手段15によって、当該単体単位を容易に接続することができる。
さらに、この読み上げ用データ符号化装置1によれば、ストリーム接続手段15によって、音声ストリームが時間軸上で、予め設定した時間分重複(オーバラップ)させて当該音声ストリーム同士を接続し、接続音声ストリームとしている。このため、音声ストリームを単に連続させて接続する場合に比べ、復号する際に接続箇所に生じる違和感がなくなり、音声の品質劣化を防止することができる。
さらにまた、この読み上げ用データ符号化装置1によれば、ストリーム接続手段15が、音声ストリームを接続する際に、量子化精度変更手段15aによって、接続点近傍の量子化精度を変更しているので、異なる量子化精度を持つ音声ストリームを接続することができる。
なお、この読み上げ用データ符号化装置1では、漢字仮名混じり文のみを読み上げ用データ(読み上げ用テキスト)として入力しているが、直接、漢字仮名混じり文、音素記号解析結果および韻律記号を音素列選択手段11に入力することで、形態素解析手段5、単語辞書蓄積手段7および韻律予測手段9を省略することも可能である。
すなわち、読み上げ用データとして、漢字仮名混じり文等のテキストデータと、音素記号や韻律記号等の音声合成用の補助情報とを含む場合や、漢字仮名混じり文等のテキストデータを含まずに、音声合成用に特化したデータのみである場合が想定可能である。
〈読み上げ用データ符号化装置[第一実施形態]の動作〉
次に、図3に示すフローチャートを参照して、読み上げ用データ符号化装置1(第一実施形態)の動作(音声符号化装置3およびストリーム配信装置2の動作も含む)について説明する(適宜、図1参照)。
まず、読み上げ用データ符号化装置1は、形態素解析手段5によって、入力された漢字仮名混じり文(テキストデータ)を、単語辞書蓄積手段7に蓄積されている単語辞書を参照して形態素解析し(ステップS1)、解析した解析結果と音素記号とを、韻律予測手段9と音素列選択手段11に出力する。
続いて、読み上げ用データ符号化装置1は、韻律予測手段9によって、形態素解析手段5で解析された解析結果および音素記号に基づいて、韻律記号を生成し、音素列選択手段11に出力する(ステップS2)。すると、読み上げ用データ符号化装置1は、音素列選択手段11によって、符号化する音素を選択する音素列選択制御信号を音声符号化装置3の音素列蓄積手段17に出力すると共に、音声ストリーム同士の接続を制御するストリーム接続制御信号(制御信号)をストリーム接続手段15に出力する(ステップS3)。
すると、音声符号化装置3は、音素列選択制御信号に基づいて、音素列蓄積手段17から出力された音素列を、音声符号化手段19によって、符号化し、この音素列を符号化した音声ストリームを読み上げ用データ符号化装置1に出力する(ステップS4)。
そして、読み上げ用データ符号化装置1は、ストリーム整形手段13によって、音声ストリームから必要な部分を切り出して(ステップS5)、当該音声ストリームを整形し、ストリーム接続手段15に出力する。そして、読み上げ用データ符号化装置1は、ストリーム接続手段15によって、ストリーム整形手段13から出力された音声ストリーム同士を接続して(ステップS6)、接続音声ストリームとしてストリーム配信装置2に出力する。
すると、ストリーム配信装置2は、接続音声ストリームを、ネットワーク(図示せず)等を介して、配信する(ステップS7)。
〈読み上げ用データ符号化装置[第二実施形態]の構成〉
図2は、読み上げ用データ符号化装置(第二実施形態)のブロック図である。この図2に示すように、読み上げ用データ符号化装置1Aは、漢字仮名混じり文等のテキストデータを、読み上げ用データとして入力し、当該読み上げ用データを符号化する際に参照する符号化辞書を切替可能としたもので、形態素解析手段5と、単語辞書蓄積手段7と、韻律予測手段9と、音素列選択手段11Aと、ストリーム整形手段13と、ストリーム接続手段15と、符号化辞書蓄積手段(音素列符号化データ辞書蓄積手段)21と、音声ストリーム出力手段23とを備えている。なお、図1に示した読み上げ用データ符号化装置1の構成と同様の構成については、同一の符号を付して、その説明を省略する。
音素列選択手段11Aは、音声ストリーム出力手段23に、音素列(符号化されている音素列[音素列符号化データ])を選択する符号化音素列選択制御信号を出力すると共に、漢字仮名混じり文を符号化して接続した接続音声ストリームを復号する際の話速によって、符号化辞書蓄積手段21に蓄積されている符号化辞書の切替および切り替える時刻を指定する辞書切替制御信号を出力するものである。また、この音素列選択手段11Aは、音素列選択手段11と同様に、音声ストリーム接続制御信号をストリーム接続手段15に出力するものである。
なお、符号化音素列選択制御信号は、当該装置1Aに入力された漢字仮名混じり文と、形態素解析手段5から出力された音素記号と、韻律予測手段9から出力された解析結果および韻律記号とを含むものである。
つまり、この音素列選択手段11Aは、切り替えた符号化辞書から最適な音素列符号化データを選択するものである。
なお、辞書切替制御信号は、話速を変換する話速変換速度パラメータを含んでいる。この話速変換速度パラメータは、任意に入力することや、従来の話速変換研究で報告されたパラメータ等を使用することが可能である。
符号化辞書蓄積手段21は、大容量のハードディスク等の記憶媒体から構成されており、複数の話者が、様々な話速で発話した音声を、予め符号化した複数の符号化辞書(音素列符号化データ辞書)を蓄積するものである。この実施形態では、3個の符号化辞書(A、B、C)を蓄積している。例えば、この3個の符号化辞書(A、B、C)の中で、符号化辞書Aの話速が最も速く、次いで、符号化辞書Bの話速が速く、符号化辞書Cの話速が最も遅くなるように、予め設定されている。
この符号化辞書蓄積手段21は、音声ストリーム出力手段23から出力された辞書切替制御信号および符号化音素列選択制御信号に基づいて、音素列符号化データを音声ストリーム出力手段23に出力する。
音声ストリーム出力手段23は、音素列選択手段11Aから辞書切替制御信号および符号化音素列選択制御信号を受信して、これらの信号を符号化辞書蓄積手段21に出力し、符号化辞書蓄積手段21から出力される音素列符号化データを切り替えてストリーム整形手段13に出力するもので、出力切替手段23aを備えている。
出力切替手段23aは、符号化辞書蓄積手段21から出力される音素列符号化データを、辞書切替制御信号に含まれている切替時刻に従って切り替えて、ストリーム整形手段13に出力させるためのものである。
この読み上げ用データ符号化装置1Aによれば、形態素解析手段5によって、単語辞書蓄積手段7に蓄積されている単語辞書が参照されて、漢字仮名混じり文が形態素解析され、韻律予測手段9によって、形態素解析手段5で形態素解析された解析結果および漢字仮名混じり文を音素表記した音素記号に基づいて、漢字仮名混じり文の韻律を示す韻律記号が予測(生成)される。そして、音素列選択手段11Aによって、符号化音素列選択制御信号(漢字仮名混じり文、解析結果、音素記号および韻律記号を含む)および辞書切替制御信号に基づいて、符号化辞書蓄積手段21に蓄積されている符号化辞書に収められている音素列符号化データが選択される。そして、音声ストリーム出力手段23によって、音素列選択手段11Aで選択された音素列に対応する音素列符号化データが、音声ストリームとして出力され、この出力された音声ストリームから必要な部分が、ストリーム整形手段13によって切り出されて、当該音声ストリームが整形される。その後、ストリーム接続手段15によって、ストリーム整形手段13で整形された音声ストリームが、音素列選択手段11Aから出力された音声ストリーム接続制御信号に基づいて接続され、接続音声ストリームとして出力される。このため、接続音声ストリームを受信してデコード(復号)する際に、専用のデコード装置(復号装置)を必要とせず、既存のデコード装置を利用して、漢字仮名混じり文を発話した際の音声を再現可能に、当該漢字仮名混じり文を符号化することができる。
また、この読み上げ用データ符号化装置1Aによれば、符号化辞書蓄積手段21に話者と話速との少なくとも一方の異なる複数の符号化辞書A、B、Cを蓄積しておいて、出力切替手段23aで、切り替えることで、入力された漢字仮名混じり文に最も適切な音素列符号化データを出力することができる。
〈読み上げ用データ符号化装置[第二実施形態]の動作〉
次に、図4に示すフローチャートを参照して、読み上げ用データ符号化装置1A(第二実施形態)の動作について説明する(適宜、図2参照)。
まず、読み上げ用データ符号化装置1Aは、形態素解析手段5によって、入力された漢字仮名混じり文(テキストデータ)を、単語辞書蓄積手段7に蓄積されている単語辞書を参照して形態素解析し(ステップS11)、解析した解析結果と音素記号とを、韻律予測手段9と音素列選択手段11Aに出力する。
続いて、読み上げ用データ符号化装置1Aは、韻律予測手段9によって、形態素解析手段5で解析された解析結果および音素記号に基づいて、韻律記号を生成し、音素列選択手段11Aに出力する(ステップS12)。すると、読み上げ用データ符号化装置1Aは、音素列選択手段11Aによって、符号化する音素を選択する符号化音素列選択制御信号および符号化辞書を切り替える辞書切替制御信号を音声ストリーム出力手段23に出力すると共に、音声ストリーム同士の接続を制御するストリーム接続制御信号(制御信号)をストリーム接続手段15に出力する(ステップS13)。
すると、読み上げ用データ符号化装置1Aは、音声ストリーム出力手段23によって、符号化音素列選択制御信号および辞書切替制御信号を符号化辞書蓄積手段21に出力し、この符号化辞書蓄積手段21の符号化辞書A〜Cのいずれかから出力された音素列符号化データを、出力切替手段23aで切り替えてストリーム整形手段13に出力する(ステップS14)。
そして、読み上げ用データ符号化装置1Aは、ストリーム整形手段13によって、音素列符号化データ(音声ストリーム)から必要な部分を切り出して(ステップS15)、当該音声ストリームを整形し、ストリーム接続手段15に出力する。そして、読み上げ用データ符号化装置1Aは、ストリーム接続手段15によって、ストリーム整形手段13から出力された音素列符号化データ(音声ストリーム)同士を接続して(ステップS16)、接続音声ストリームとしてストリーム配信装置2に出力する。
すると、ストリーム配信装置2は、接続音声ストリームを、ネットワーク(図示せず)等を介して、配信する(ステップS17)。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、読み上げ用データ符号化装置1として説明したが、当該装置1(1A)の各構成の処理を、汎用的または特殊なコンピュータ言語によって記述した読み上げ用データ符号化プログラムとみなすことも可能であるし、当該装置1(1A)の各構成の処理を、漢字仮名混じり文から接続音声ストリームを生成(符号化)する各過程ととらえた読み上げ用データ符号化方法とみなすことも可能である。これらの場合、読み上げ用データ符号化装置1(1A)と同様の効果を得ることができる。
本発明の実施形態に係る読み上げ用データ符号化装置(第一実施形態)のブロック図である。 本発明の実施形態に係る読み上げ用データ符号化装置(第二実施形態)のブロック図である。 図1に示した読み上げ用データ符号化装置(第一実施形態)の動作を説明したフローチャートである。 図2に示した読み上げ用データ符号化装置(第二実施形態)の動作を説明したフローチャートである。 音声ストリームを時間軸上で重複接続していく方法を、AACの音声ストリームを例として説明した図である。
符号の説明
1、1A 読み上げ用データ符号化装置
2 ストリーム配信装置
3 音声符号化装置
5 形態素解析手段
7 単語辞書蓄積手段
9 韻律予測手段
11 音素列選択手段
13 ストリーム整形手段
15 ストリーム接続手段
15a 量子化精度変更手段
17 音素列蓄積手段
19 音声符号化手段
21 符号化辞書蓄積手段(音素列符号化データ辞書蓄積手段)
23 音声ストリーム出力手段
23a 出力切替手段

Claims (9)

  1. 漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、
    音素列を蓄積し、当該音素列を音声ストリームに符号化する音声符号化装置に対して、前記漢字仮名混じり文、前記漢字仮名混じり文を形態素解析した解析結果および前記漢字仮名混じり文を音素表記した音素記号に基づき、符号化する音素列を選択する音素列選択信号を出力すると共に、前記音声ストリーム同士の接続を制御する制御信号を出力する音素列選択手段と、
    前記音声符号化装置から出力された音声ストリームから必要な部分を切り出して、当該音声ストリームを整形するストリーム整形手段と、
    このストリーム整形手段によって切り出された音声ストリームを、前記制御信号に基づいて接続した接続音声ストリームとして出力するストリーム接続手段と、
    を備えることを特徴とする読み上げ用データ符号化装置。
  2. 漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、
    前記漢字仮名混じり文に含まれている単語の読みに関するデータを少なくとも含む単語辞書を蓄積する単語辞書蓄積手段と、
    この単語辞書蓄積手段に蓄積されている単語辞書を参照して、前記漢字仮名混じり文を形態素解析すると共に、前記漢字仮名混じり文を音素表記した音素記号を出力する形態素解析手段と、
    この形態素解析手段によって形態素解析された解析結果および前記漢字仮名混じり文を音素表記した音素記号に基づいて、前記漢字仮名混じり文の韻律を示す韻律記号を予測する韻律予測手段と、
    音素列を蓄積し、当該音素列を音声ストリームに符号化する音声符号化装置に対して、前記漢字仮名混じり文、前記解析結果、前記音素記号および前記韻律記号に基づき、符号化する音素列を選択する音素列選択信号を出力すると共に、前記音声ストリーム同士の接続を制御する制御信号を出力する音素列選択手段と、
    前記音声符号化装置から出力された音声ストリームから必要な部分を切り出して、当該音声ストリームを整形するストリーム整形手段と、
    このストリーム整形手段によって切り出された音声ストリームを、前記制御信号に基づいて接続した接続音声ストリームとして出力するストリーム接続手段と、
    を備えることを特徴とする読み上げ用データ符号化装置。
  3. 漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、
    前記漢字仮名混じり文を音素に分解した音素列とし、この音素列を符号化した音素列符号化データに関する辞書である音素列符号化データ辞書を蓄積する音素列符号化データ辞書蓄積手段と、
    前記漢字仮名混じり文、前記漢字仮名混じり文を形態素解析した解析結果および前記漢字仮名混じり文を音素表記した音素記号に基づいて、前記音素列符号化データ辞書蓄積手段に蓄積されている音素列を選択すると共に、前記音素列符号化データ同士の接続を制御する制御信号を出力する音素列選択手段と、
    この音素列選択手段によって選択された音素列に対応する音素列符号化データを、音声ストリームとして出力する音声ストリーム出力手段と、
    この音声ストリーム出力手段から出力された音声ストリームから必要な部分を切り出して、当該音声ストリームを整形するストリーム整形手段と、
    このストリーム整形手段によって切り出された音声ストリームを、前記制御信号に基づいて接続した接続音声ストリームとして出力するストリーム接続手段と、
    を備えることを特徴とする読み上げ用データ符号化装置。
  4. 漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化する読み上げ用データ符号化装置であって、
    前記漢字仮名混じり文に含まれている単語の読みに関するデータを少なくとも含む単語辞書を蓄積する単語辞書蓄積手段と、
    この単語辞書蓄積手段に蓄積されている単語辞書を参照して、前記漢字仮名混じり文を形態素解析すると共に、前記漢字仮名混じり文を音素表記した音素記号を出力する形態素解析手段と、
    この形態素解析手段によって形態素解析された解析結果および前記漢字仮名混じり文を音素表記した音素記号に基づいて、前記漢字仮名混じり文の韻律を示す韻律記号を予測する韻律予測手段と、
    前記漢字仮名混じり文を音素に分解した音素列とし、この音素列を符号化した音素列符号化データに関する辞書である音素列符号化データ辞書を蓄積する音素列符号化データ辞書蓄積手段と、
    前記漢字仮名混じり文、前記解析結果、前記音素記号および前記韻律記号に基づいて、前記音素列符号化データ辞書蓄積手段に蓄積されている音素列を選択すると共に、前記音素列符号化データ同士の接続を制御する制御信号を出力する音素列選択手段と、
    この音素列選択手段によって選択された音素列に対応する音素列符号化データを、音声ストリームとして出力する音声ストリーム出力手段と、
    この音声ストリーム出力手段から出力された音声ストリームから必要な部分を切り出して、当該音声ストリームを整形するストリーム整形手段と、
    このストリーム整形手段によって切り出された音声ストリームを、前記制御信号に基づいて接続した接続音声ストリームとして出力するストリーム接続手段と、
    を備えることを特徴とする読み上げ用データ符号化装置。
  5. 前記音素列符号化データ辞書蓄積手段は、話者と話速との少なくとも一方が異なる複数の音素列符号化データ辞書を蓄積し、
    前記音声ストリーム出力手段は、前記複数の音素列符号化データ辞書に収められている音素列符号化データを切り替えて出力する出力切替手段を備えたことを特徴とする請求項3または請求項4に記載の読み上げ用データ符号化装置。
  6. 前記ストリーム整形手段は、前記音声ストリームを、復号する際の復号可能な最小の単体単位に整形し、
    前記ストリーム接続手段は、前記単体単位を接続して、前記接続音声ストリームとすることを特徴とする請求項1から請求項5のいずれか一項に記載の読み上げ用データ符号化装置。
  7. 前記ストリーム接続手段は、時間軸上で予め設定した時間分を重複させて前記音声ストリームを接続することを特徴とする請求項1から請求項6のいずれか一項に記載の読み上げ用データ符号化装置。
  8. 前記ストリーム接続手段は、前記音声ストリームを接続する際に、接続点近傍の量子化精度を変更する量子化精度変更手段を備えていることを特徴とする請求項1から請求項7のいずれか一項に記載の読み上げ用データ符号化装置。
  9. 漢字仮名混じり文を読み上げ用データとして入力して、当該読み上げ用データを音声ストリームに符号化するために、コンピュータを、
    音素列を蓄積し、当該音素列を音声ストリームに符号化する音声符号化装置に対して、前記漢字仮名混じり文、前記漢字仮名混じり文を形態素解析した解析結果および前記漢字仮名混じり文を音素表記した音素記号に基づき、符号化する音素列を選択する音素列選択信号を出力すると共に、前記音声ストリーム同士の接続を制御する制御信号を出力する音素列選択手段、
    前記音声符号化装置から出力された音声ストリームから必要な部分を切り出して、当該音声ストリームを整形するストリーム整形手段、
    このストリーム整形手段で切り出された音声ストリームを、前記制御信号に基づいて接続した接続音声ストリームとして出力するストリーム接続手段、
    として機能させることを特徴とする読み上げ用データ符号化プログラム。
JP2004127475A 2004-04-23 2004-04-23 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム Pending JP2005309164A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004127475A JP2005309164A (ja) 2004-04-23 2004-04-23 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004127475A JP2005309164A (ja) 2004-04-23 2004-04-23 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム

Publications (1)

Publication Number Publication Date
JP2005309164A true JP2005309164A (ja) 2005-11-04

Family

ID=35438008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004127475A Pending JP2005309164A (ja) 2004-04-23 2004-04-23 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム

Country Status (1)

Country Link
JP (1) JP2005309164A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007163667A (ja) * 2005-12-12 2007-06-28 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2007322758A (ja) * 2006-06-01 2007-12-13 Nissan Motor Co Ltd キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置
JP2016201643A (ja) * 2015-04-08 2016-12-01 ソニー株式会社 送信装置、送信方法、受信装置、及び、受信方法
CN109086257A (zh) * 2017-06-14 2018-12-25 佛山辞荟源信息科技有限公司 基于汉语含义的汉语编码处理方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233565A (ja) * 1991-11-12 1993-09-10 Fujitsu Ltd 音声合成システム
JPH11219196A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 音声合成方法
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2003521750A (ja) * 2000-02-02 2003-07-15 ファモイス・テクノロジー・ピーティーワイ・リミテッド スピーチシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233565A (ja) * 1991-11-12 1993-09-10 Fujitsu Ltd 音声合成システム
JPH11219196A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 音声合成方法
JP2003521750A (ja) * 2000-02-02 2003-07-15 ファモイス・テクノロジー・ピーティーワイ・リミテッド スピーチシステム
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007163667A (ja) * 2005-12-12 2007-06-28 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2007322758A (ja) * 2006-06-01 2007-12-13 Nissan Motor Co Ltd キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置
JP2016201643A (ja) * 2015-04-08 2016-12-01 ソニー株式会社 送信装置、送信方法、受信装置、及び、受信方法
CN109086257A (zh) * 2017-06-14 2018-12-25 佛山辞荟源信息科技有限公司 基于汉语含义的汉语编码处理方法及***

Similar Documents

Publication Publication Date Title
US4912768A (en) Speech encoding process combining written and spoken message codes
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
US4975957A (en) Character voice communication system
TW519616B (en) Method and apparatus for predictively quantizing voiced speech
US20070233472A1 (en) Voice modifier for speech processing systems
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
MX2011000362A (es) Esquema de codificacion/decodificacion de audio a baja velocidad binaria y conmutadores en cascada.
JP3446764B2 (ja) 音声合成システム及び音声合成サーバ
JPS6156400A (ja) 音声処理装置
KR100480341B1 (ko) 광대역 저전송률 음성 신호의 부호화기
JP2005309164A (ja) 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム
JP2000356995A (ja) 音声通信システム
JP3268750B2 (ja) 音声合成方法及びシステム
JP3050978B2 (ja) 音声符号化方法
Dong-jian Two stage concatenation speech synthesis for embedded devices
JP2010224419A (ja) 音声合成装置、方法およびプログラム
US6134519A (en) Voice encoder for generating natural background noise
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
KR0144157B1 (ko) 휴지기 길이 조절을 이용한 발음속도 조절 방법
KR920003934B1 (ko) 음성합성기의 복합코딩방법
JPH05165497A (ja) コード励振線形予測符号化器及び復号化器
Sarathy et al. Text to speech synthesis system for mobile applications
JPH03288898A (ja) 音声合成装置
JP3271966B2 (ja) 符号化装置及び符号化方法
Sairam et al. Design of speech codec for VoIP applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100601