JP4392383B2 - Speech synthesis system, client device, speech segment database server device, speech synthesis method and program - Google Patents
Speech synthesis system, client device, speech segment database server device, speech synthesis method and program Download PDFInfo
- Publication number
- JP4392383B2 JP4392383B2 JP2005143581A JP2005143581A JP4392383B2 JP 4392383 B2 JP4392383 B2 JP 4392383B2 JP 2005143581 A JP2005143581 A JP 2005143581A JP 2005143581 A JP2005143581 A JP 2005143581A JP 4392383 B2 JP4392383 B2 JP 4392383B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- data
- information
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、テキストデータから合成音声を生成する技術に関する。 The present invention relates to a technique for generating synthesized speech from text data.
近年では大容量な記憶装置の使用コストの低下に伴って、数十分以上の大容量の音声データをそのまま大容量の記憶装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている(例えば、特許文献1及び非特許文献1参照。)。
このような方法によって、原理的には肉声同等の高品質な合成音声を生成することが可能になってきている。具体的には、まず、音声データベースから、合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片を、バイナリ−ツリー等で構成された音声素片辞書を用いて検索する。次に、音声素片の類似度を評価するための評価尺度(複数のパラメータの組み合わせからなる)に従ってコスト付けされた多数の音声素片の中から、DP等の方法によって適切な音声素片の組み合わせを選択する。そして、これらの選択された音声素片を順に接続することで音声合成を行っている(非特許文献2)。しかし、このような音声合成方式においては、そもそも適切な音声素片が音声データベースに存在しない場合、高品質な合成音声を生成不可能である。
In recent years, along with a decrease in the cost of using large-capacity storage devices, a large volume of speech data of several tens of minutes or more is stored as it is in a large-capacity storage device, and speech segments are generated according to input text and prosodic information. A waveform-connected corpus-based speech synthesis method that synthesizes high-quality speech by appropriately selecting, connecting and transforming is proposed (for example, see
In principle, it has become possible to generate high-quality synthesized speech equivalent to real voice. Specifically, first, a speech unit that partially or completely matches a phoneme sequence corresponding to a character string to be synthesized is searched from a speech database using a speech unit dictionary composed of a binary tree or the like. . Next, an appropriate speech unit is determined by a method such as DP from among a large number of speech units costed according to an evaluation measure (consisting of a combination of parameters) for evaluating the similarity of speech units. Select a combination. Then, speech synthesis is performed by sequentially connecting these selected speech segments (Non-Patent Document 2). However, in such a speech synthesis method, a high-quality synthesized speech cannot be generated unless an appropriate speech segment exists in the speech database.
従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須である。そして、そのため近年では音声素片のバリエーションを増やし合成音声を高品質化するために、音声データベースの容量をより一層増加させる方向で開発が進んでいる。
このような音声データベースの大容量化により合成音声の品質は向上してきたが、同時に実用面でそのような大規模な音声データベースを必要とするソフトウェアの配布方法について問題が生じてきた。
現在では、ADSLやFTTH等によるインターネットへのアクセス手段の高速化に伴って、ソフトウェアの配布方法も従来のようにCD-ROM等の物理的な媒体を用いて配布するのではなく、インターネットを用いオンラインでダウンロードさせることにより配布する方法も、配布手段のコストダウンに繋がるものとして普及しつつある。
Although the quality of synthesized speech has been improved by increasing the capacity of such a speech database, there has also been a problem in software distribution methods that require such a large-scale speech database.
At present, with the speed of access to the Internet by ADSL, FTTH, etc., the software distribution method is not using physical media such as CD-ROM as in the past, but using the Internet. The method of distributing by downloading online is also becoming popular as it leads to cost reduction of the distribution means.
しかし、大規模なデータベースは、最近の高速化したアクセス手段を用いても、ダウンロードには非常に長時間必要であり、オンラインでの配布は事実上不可能という課題がある。
また、携帯端末や携帯電話等の携帯型機器分野では、より一層の機器の普及や差別化に繋げるため、ユーザにとって使いやすい様々なソフトウェアの開発が行われている。音声合成技術も人にとってわかりやすい音声での情報伝達が可能であるという点からこれらの分野で必要な技術と考えられる。しかし、大規模なデータベースが必要な波形接続型コーパスベース音声合成方法は、そういった携帯電話等で動作させることが不可能である。
However, there is a problem that a large-scale database requires a very long time to download even if a recent high-speed access means is used, and online distribution is virtually impossible.
Also, in the field of portable devices such as mobile terminals and mobile phones, various software that is easy to use for users has been developed in order to lead to further spread and differentiation of devices. Speech synthesis technology is also considered a necessary technology in these fields because it is possible to transmit information in speech that is easy for humans to understand. However, the waveform-connected corpus-based speech synthesis method that requires a large-scale database cannot be operated on such a mobile phone or the like.
このような技術的な問題は、インターネット等のネットワーク上にサーバ装置を用意し、そこで音声合成ソフトウェアを動作させれば解決可能である。すなわち、携帯電話等のクライアント装置からサーバ装置へテキストデータを送信し、このサーバ装置で合成音声を生成し、それをクライアント装置に返送することとすれば、クライアント装置で大規模なデータベースを保持する必要はなくなる。しかし、その場合、クライアント装置から大量のアクセスがあった場合に備えて大規模なサーバ設備が必要となる。よって、この方法は、サーバ設備に莫大なコストが掛かる等の問題を有し、現実的な方法とはいえない。 Such technical problems can be solved by preparing a server device on a network such as the Internet and operating speech synthesis software there. That is, if text data is transmitted from a client device such as a mobile phone to a server device, synthesized speech is generated by the server device, and the synthesized speech is returned to the client device, the client device holds a large database. There is no need. However, in that case, a large-scale server facility is required in preparation for a large amount of access from the client device. Therefore, this method has problems such as enormous costs for server equipment, and is not a realistic method.
そのため、「音声合成方法、音声合成装置および音声合成プログラム」(特開2003-233386)のように、合成音声の生成はクライアント装置で行うが、音声素片データの一部をネットワーク上のサーバ装置に置き、音声素片の適合率に応じてクライアント装置が保持する音声素片とネットワーク上の音声素片とを適切に使い分ける方法も提案されている。ここで、音声素片の適合率に応じてクライアント装置が保持する音声素片とネットワーク上の音声素片を適切に使い分けるためには、適切な適合率の閾値の設定が必要である。しかし、実際は適切な閾値の設定は困難である。また、この方法では、サーバ装置からダウンロードした音声素片が適切でない場合、再度音声素片をダウンロードしなければならないため、入力したテキストから合成音声が得られるまでのスループットの変動が非常に大きいという問題もあった。 Therefore, as in “speech synthesizer, speech synthesizer, and speech synthesizer program” (Japanese Patent Laid-Open No. 2003-233386), the synthesized speech is generated by the client device. In addition, a method has been proposed in which a speech unit held by a client device and a speech unit on a network are properly used according to the matching rate of speech units. Here, in order to properly use the speech unit held by the client apparatus and the speech unit on the network according to the speech unit adaptation rate, it is necessary to set an appropriate adaptation rate threshold value. However, in practice, it is difficult to set an appropriate threshold value. Also, with this method, if the speech unit downloaded from the server device is not appropriate, the speech unit must be downloaded again, so the throughput variation until the synthesized speech is obtained from the input text is very large. There was also a problem.
また、サーバ装置での負担を減らすため、テキストデータのテキスト解析等はクラインと装置で行い、音声素片データを必要とする処理のみをサーバ装置で実行することによって上記の問題を解決する方法も容易に考えられる。しかし、その場合、クライアント装置が音声合成に必要な読み情報や韻律パラメータをサーバ装置に送信し、サーバ装置がそれらに対応する合成音声を生成・送信し、それをクライアント装置が受信するまでの間は全く音声を出力することができない。その結果、ネットワークの混雑状況によっては、音声が出力されるまでの応答時間が非常に掛かるなどの問題が生じる。 In addition, in order to reduce the burden on the server device, text analysis of text data is performed by Klein and the device, and only the processing that requires speech segment data is executed by the server device. Easy to think. However, in that case, until the client device transmits the reading information and prosodic parameters necessary for speech synthesis to the server device, the server device generates and transmits the corresponding synthesized speech, and the client device receives it. Can not output audio at all. As a result, depending on the network congestion situation, there arises a problem that it takes a very long response time until voice is output.
本発明はこのような点に鑑みてなされたものであり、クライアント装置に大規模なデータベースを設けることなく、容易に高い品質の合成音声を短い応答期間で出力することが可能な技術を提供することを目的とする。 The present invention has been made in view of these points, and provides a technique capable of easily outputting high-quality synthesized speech in a short response period without providing a large-scale database in the client device. For the purpose.
上記課題を解決するために、第1の本発明では、音声素片データベースサーバ装置の最適音声素片データベース格納部に、最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)を格納しておく。
また、クライアント装置のローカル音声素片データベース格納部に、ローカル音声素片データ(「クライアント装置に格納される音声素片データ」を意味する)を格納し、クライアント装置のローカル音声素片インデックス格納部に、ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報を格納し、クライアント装置の最適音声素片インデックス格納部に、最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納しておく。
In order to solve the above-described problem, in the first aspect of the present invention, the optimum speech element database storage unit of the speech element database server apparatus stores the optimum speech element data ("the speech element stored in the speech element database server apparatus"). Means "one piece of data").
Further, local speech unit data (meaning “speech unit data stored in the client device”) is stored in the local speech unit database storage unit of the client device, and the local speech unit index storage unit of the client device is stored. To store local speech unit sequence information in which local speech unit storage information specifying local speech unit data and reading information and prosodic parameters corresponding to the local speech unit data are associated with each other. The speech unit index storage unit stores optimum speech unit storage information in which optimum speech unit storage information for designating optimum speech unit data, reading information corresponding to the optimum speech unit data, and prosodic parameters are associated with each other. Keep it.
そして、まず、音声化すべきテキストデータがクライアント装置のテキスト解析部に入力され、当該テキスト解析部において、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力する。次に、テキスト解析部から出力された韻律情報がクライアント装置の韻律パラメータ取得部に入力され、当該韻律パラメータ取得部において、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力する。そして、テキスト解析部から出力された読み情報及び韻律パラメータ取得部から出力された韻律パラメータがクライアント装置のローカル音声素片探索部に入力され、当該ローカル音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとしてローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力する。また、ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が、クライアント装置のローカル音声素片データ読み出し部に入力され、当該ローカル音声素片データ読み出し部において、当該ローカル音声素片格納情報が指定するローカル音声素片データを、ローカル音声素片データベース格納部から読み出す。そして、ローカル音声素片データ読み出し部が読み出したローカル音声素片データがクライアント装置の音声素片接続部に入力され、当該音声素片接続部において、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力する。 First, text data to be voiced is input to the text analysis unit of the client device, and the text analysis unit performs text analysis on the text data to generate reading information and prosodic information. Prosodic information is output. Next, the prosody information output from the text analysis unit is input to the prosody parameter acquisition unit of the client device, and the prosody parameter acquisition unit generates physical prosody parameters necessary for speech synthesis using the prosodic information. , Output the prosodic parameters. Then, the reading information output from the text analysis unit and the prosodic parameters output from the prosody parameter acquisition unit are input to the local speech unit search unit of the client device, and the input input reading is performed in the local speech unit search unit. The local speech unit index storage unit is searched using the information and the prosodic parameters as keys, and the input speech information and the local speech unit sequence information corresponding to the prosodic parameters belonging to the similar range of the prosodic parameters are extracted, The extracted local speech unit sequence information is output. The local speech unit storage information of the local speech unit sequence information output from the local speech unit search unit is input to the local speech unit data reading unit of the client device, and the local speech unit data reading unit The local speech unit data specified by the local speech unit storage information is read from the local speech unit database storage unit. Then, the local speech unit data read by the local speech unit data reading unit is input to the speech unit connection unit of the client device, and the speech unit connection unit uses the local speech unit data to synthesize synthesized speech data. And the synthesized speech data is output.
また、テキスト解析部から出力された読み情報及び韻律パラメータ取得部から出力された韻律パラメータがクライアント装置の最適音声素片探索部に入力され、当該最適音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとして最適音声素片インデックス格納部を検索し、入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する。さらに、ローカル音声素片探索部及び最適音声素片探索部からそれぞれ出力されたローカル音声素片系列情報及び最適音声素片系列情報がクライアント装置の要求音声素片決定部に入力され、当該要求音声素片決定部において、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した要求音声素片系列情報を生成し、当該要求音声素片系列情報を出力する。そして、クライアント装置の音声素片情報送信部において、要求音声素片系列情報の最適音声素片格納情報を、ネットワークを通じ、音声素片データベースサーバ装置に送信する。 Also, the reading information output from the text analysis unit and the prosodic parameters output from the prosody parameter acquisition unit are input to the optimal speech unit search unit of the client device, and the input of the input reading is performed in the optimal speech unit search unit. Search the optimal speech segment index storage using the information and prosodic parameters as keys, and extract and extract the optimal speech segment sequence information corresponding to the input reading information and prosodic parameters that belong to the similar range of prosodic parameters The optimal speech segment sequence information is output. Further, the local speech unit sequence information and the optimum speech unit sequence information output from the local speech unit search unit and the optimum speech unit search unit, respectively, are input to the requested speech unit determination unit of the client device, and the requested speech The unit determination unit generates requested speech unit sequence information in which the local speech unit sequence information, the reading information, and the prosodic parameters in common are excluded from the optimal speech unit sequence information, and the requested speech unit sequence information Is output. Then, the speech unit information transmitting unit of the client device transmits the optimal speech unit storage information of the requested speech unit sequence information to the speech unit database server device through the network.
次に、音声素片データベースサーバ装置の音声素片情報受信部において、要求音声素片系列情報の最適音声素片格納情報を受信する。そして、受信された最適音声素片格納情報が音声素片データベースサーバ装置の最適音声素片データ読み出し部に入力され、当該最適音声素片データ読み出し部において、当該最適音声素片格納情報が指定する最適音声素片データを、最適音声素片データベース格納部から読み出す。その後、読み出された最適音声素片データを、音声素片データベースサーバ装置の音声素片データ送信部において、ネットワークを通じ、クライアント装置に返信する。 Next, the speech unit information receiving unit of the speech unit database server apparatus receives the optimum speech unit storage information of the requested speech unit sequence information. Then, the received optimum speech unit storage information is input to the optimum speech unit data reading unit of the speech unit database server apparatus, and the optimum speech unit storage information specifies the optimum speech unit data reading unit. The optimum speech element data is read from the optimum speech element database storage unit. Thereafter, the read optimum speech unit data is returned to the client device via the network in the speech unit data transmission unit of the speech unit database server device.
そして、クライアント装置の音声素片データ受信部において、最適音声素片データを受信し、受信された最適音声素片データを、クライアント装置の音声素片データベース追加部において、新たなローカル音声素片データとしてローカル音声素片データベース格納部に追加格納する。また、新たなローカル音声素片データに対応するローカル音声素片系列情報を、クライアント装置の音声素片インデックス追加部において、ローカル音声素片インデックス格納部に追加格納する。
ここで、クライアント装置における合成音声データの生成処理は、音声素片データベースサーバ装置へのアクセスが必要なローカル音声素片データベース格納部への最適音声素片データの追加処理と独立に行われる。その場合、テキストデータの入力から合成音声が出力されるまでの時間は、クライアント装置の処理性能のみに依存し、ネットワークの品質や構成に全く依存しない。
Then, the speech unit data reception unit of the client device receives the optimum speech unit data, and the received optimum speech unit data is converted into new local speech unit data by the speech unit database addition unit of the client device. Are additionally stored in the local speech unit database storage. Further, the local speech unit sequence information corresponding to the new local speech unit data is additionally stored in the local speech unit index storage unit in the speech unit index addition unit of the client device.
Here, the generation process of the synthesized voice data in the client device is performed independently of the process of adding the optimum voice unit data to the local voice unit database storage unit that requires access to the voice unit database server device. In that case, the time from the input of the text data to the output of the synthesized speech depends only on the processing performance of the client device, and does not depend on the quality or configuration of the network at all.
また、ローカル音声素片データベース格納部へ最適音声素片データが新たなローカル音声素片データとして追加されることにより、その後生成される合成音声データの品質が向上する。
さらに、クライアント装置は、最適音声素片系列情報からローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した要求音声素片系列情報をもとに、音声素片データベースサーバ装置に最適音声素片データを要求する最適音声素片データを決定する。すなわち、クライアント装置は、音声素片データベースサーバ装置に最適音声素片データを要求するか否かの判断を、ローカル音声素片データベース格納部に最適な音声素片データが存在するか否かによって行う。そのため、本発明では、適切な設定が困難な閾値等のパラメータを設定する必要はない。
Moreover, the quality of synthesized speech data generated thereafter is improved by adding the optimum speech unit data as new local speech unit data to the local speech unit database storage unit.
Furthermore, the client device is optimal for the speech unit database server device based on the requested speech unit sequence information obtained by excluding the local speech unit sequence information and the common reading information and prosodic parameters from the optimal speech unit sequence information. The optimum speech segment data requesting speech segment data is determined. In other words, the client device determines whether or not to request the optimal speech segment data from the speech segment database server device depending on whether or not the optimal speech segment data exists in the local speech segment database storage unit. . Therefore, in the present invention, it is not necessary to set parameters such as a threshold that are difficult to set appropriately.
上記課題を解決するために、第2の本発明では、音声素片データベースサーバ装置の最適音声素片データベース格納部に、最適音声素片データを格納し、音声素片データベースサーバ装置の最適音声素片インデックス格納部に、最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納しておく。
また、クライアント装置のローカル音声素片データベース格納部に、ローカル音声素片データを格納しておき、クライアント装置のローカル音声素片インデックス格納部に、ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報を格納しておく。
In order to solve the above-described problem, in the second aspect of the present invention, optimal speech element data is stored in the optimal speech element database storage unit of the speech element database server device, and the optimal speech element of the speech segment database server device is stored. In the segment index storage unit, the optimum speech unit storage information for specifying the optimum speech unit data, the optimum speech unit sequence information associated with the reading information and the prosodic parameters corresponding to the optimum speech unit data are stored. deep.
In addition, local speech unit data is stored in the local speech unit database storage unit of the client device, and the local speech unit data is specified in the local speech unit index storage unit of the client device. The local speech unit sequence information in which the information and the reading information corresponding to the local speech unit data and the prosodic parameters are associated is stored.
そして、まず、音声化すべきテキストデータがクライアント装置のテキスト解析部に入力され、当該テキスト解析部において、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力する。次に、テキスト解析部から出力された韻律情報がクライアント装置の韻律パラメータ取得部に入力され、当該韻律パラメータ取得部において、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力する。そして、テキスト解析部から出力された読み情報及び韻律パラメータ取得部から出力された韻律パラメータが、クライアント装置のローカル音声素片探索部に入力され、当該ローカル音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとしてローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力する。また、ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報がクライアント装置のローカル音声素片データ読み出し部に入力され、当該ローカル音声素片データ読み出し部において、当該ローカル音声素片格納情報が指定するローカル音声素片データを、ローカル音声素片データベース格納部から読み出す。そして、ローカル音声素片データ読み出し部が読み出したローカル音声素片データがクライアント装置の音声素片接続部に入力され、当該音声素片接続部において、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力する。また、テキスト解析部から出力された読み情報及び韻律パラメータ取得部から出力された韻律パラメータを、クライアント装置の音声素片情報送信部において、ネットワークを通じ、音声素片データベースサーバ装置に送信する。 First, text data to be voiced is input to the text analysis unit of the client device, and the text analysis unit performs text analysis on the text data to generate reading information and prosodic information. Prosodic information is output. Next, the prosody information output from the text analysis unit is input to the prosody parameter acquisition unit of the client device, and the prosody parameter acquisition unit generates physical prosody parameters necessary for speech synthesis using the prosodic information. , Output the prosodic parameters. Then, the reading information output from the text analysis unit and the prosodic parameters output from the prosody parameter acquisition unit are input to the local speech unit search unit of the client device, and the input is performed in the local speech unit search unit The local speech unit index storage unit is searched using the reading information and prosodic parameters as keys, and the local speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the input reading information and prosodic parameters is extracted. The extracted local speech unit sequence information is output. The local speech unit storage information of the local speech unit sequence information output from the local speech unit search unit is input to the local speech unit data reading unit of the client device, and in the local speech unit data reading unit, The local speech unit data specified by the local speech unit storage information is read from the local speech unit database storage unit. Then, the local speech unit data read by the local speech unit data reading unit is input to the speech unit connection unit of the client device, and the speech unit connection unit uses the local speech unit data to synthesize synthesized speech data. And the synthesized speech data is output. Also, the reading information output from the text analysis unit and the prosodic parameters output from the prosody parameter acquisition unit are transmitted to the speech unit database server device through the network in the speech unit information transmission unit of the client device.
音声素片データベースサーバ装置の音声素片情報受信部は、これらの読み情報及び韻律パラメータを受信する。そして、受信された読み情報及び韻律パラメータをキーとして、音声素片データベースサーバ装置の最適音声素片探索部において、最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する。また、最適音声素片探索部から出力された最適音声素片系列情報の最適音声素片格納情報が、音声素片データベースサーバ装置の最適音声素片データ読み出し部に入力され、当該最適音声素片データ読み出し部において、当該最適音声素片格納情報が指定する最適音声素片データを、最適音声素片データベース格納部から読み出す。そして、読み出された最適音声素片データを、音声素片データベースサーバ装置の音声素片データ送信部において、ネットワークを通じ、クライアント装置に返信する。 The speech unit information receiving unit of the speech unit database server apparatus receives the reading information and the prosodic parameters. Then, using the received reading information and prosodic parameters as keys, the optimal speech segment searching unit of the speech unit database server device searches the optimal speech unit index storage unit, and the received reading information and prosody parameters are similar. The optimal speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the range is extracted, and the extracted optimal speech unit sequence information is output. Further, the optimum speech unit storage information of the optimum speech unit sequence information output from the optimum speech unit search unit is input to the optimum speech unit data reading unit of the speech unit database server device, and the optimum speech unit The data reading unit reads the optimum speech unit data specified by the optimum speech unit storage information from the optimum speech unit database storage unit. Then, the read optimal speech unit data is returned to the client device through the network in the speech unit data transmission unit of the speech unit database server device.
クライアント装置の音声素片データ受信部は、最適音声素片データを受信する。そして、受信された最適音声素片データの少なくとも一部を、クライアント装置の音声素片データベース追加部において、新たなローカル音声素片データとしてローカル音声素片データベース格納部に追加格納する。また、クライアント装置の音声素片インデックス追加部において、新たなローカル音声素片データに対応するローカル音声素片系列情報を、ローカル音声素片インデックス格納部に追加格納する。
ここで、クライアント装置における合成音声データの生成処理は、音声素片データベースサーバ装置へのアクセスが必要なローカル音声素片データベース格納部への最適音声素片データの追加処理と独立に行われる。その場合、テキストデータの入力から合成音声が出力されるまでの時間は、クライアント装置の処理性能のみに依存し、ネットワークの品質や構成に全く依存しない。
The speech unit data receiving unit of the client device receives the optimal speech unit data. Then, at least a part of the received optimal speech unit data is additionally stored in the local speech unit database storage unit as new local speech unit data in the speech unit database addition unit of the client device. Further, the speech unit index adding unit of the client device additionally stores the local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit.
Here, the generation process of the synthesized voice data in the client device is performed independently of the process of adding the optimum voice unit data to the local voice unit database storage unit that requires access to the voice unit database server device. In that case, the time from the input of the text data to the output of the synthesized speech depends only on the processing performance of the client device, and does not depend on the quality or configuration of the network at all.
また、ローカル音声素片データベース格納部へ最適音声素片データが新たなローカル音声素片データとして追加されることにより、その後生成される合成音声データの品質が向上する。
さらに、クライアント装置は、テキスト解析部から出力された読み情報及び韻律パラメータ取得部から出力された韻律パラメータを音声素片データベースサーバ装置に送信し、対応する最適音声素片データの送信を要求する。そのため、本発明では、適切な設定が困難な閾値等のパラメータを設定する必要はない。
Moreover, the quality of synthesized speech data generated thereafter is improved by adding the optimum speech unit data as new local speech unit data to the local speech unit database storage unit.
Further, the client device transmits the reading information output from the text analysis unit and the prosodic parameters output from the prosody parameter acquisition unit to the speech unit database server device, and requests transmission of the corresponding optimal speech unit data. Therefore, in the present invention, it is not necessary to set parameters such as a threshold that are difficult to set appropriately.
上記課題を解決するために、第3の本発明では、音声素片データベースサーバ装置の最適音声素片データベース格納部に、最適音声素片データを格納し、音声素片データベースサーバ装置の最適音声素片インデックス格納部に、最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報が格納しておく。
また、クライアント装置のローカル音声素片データベース格納部に、ローカル音声素片データに格納し、クライアント装置のローカル音声素片インデックス格納部に、ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報が格納しておく。
In order to solve the above-mentioned problem, in the third aspect of the present invention, optimal speech element data is stored in the optimal speech element database storage unit of the speech element database server device, and the optimal speech element of the speech segment database server device is stored. Optimal speech unit sequence information in which optimal speech unit storage information for designating optimal speech unit data, reading information corresponding to the optimal speech unit data and prosodic parameters are associated is stored in the segment index storage unit. deep.
Further, local speech unit storage information for storing local speech unit data in the local speech unit database storage unit of the client device, and specifying local speech unit data in the local speech unit index storage unit of the client device; The local speech unit sequence information associated with the reading information and prosodic parameters corresponding to the local speech unit data is stored.
そして、まず、音声化すべきテキストデータがクライアント装置のテキスト解析部に入力され、当該テキスト解析部において、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力する。次に、テキスト解析部から出力された韻律情報がクライアント装置の韻律パラメータ取得部に入力され、当該韻律パラメータ取得部において、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力する。そして、テキスト解析部から出力された読み情報及び韻律パラメータ取得部から出力された韻律パラメータがクライアント装置のローカル音声素片探索部に入力され、当該ローカル音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとしてローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力する。また、ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報がクライアント装置のローカル音声素片データ読み出し部に入力され、当該ローカル音声素片データ読み出し部において、当該ローカル音声素片格納情報が指定するローカル音声素片データを、ローカル音声素片データベース格納部から読み出す。そして、ローカル音声素片データ読み出し部が読み出したローカル音声素片データが、クライアント装置の音声素片接続部に入力され、当該音声素片接続部において、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力する。また、クライアント装置の音声素片情報送信部において、ローカル音声素片探索部から出力されたローカル音声素片系列情報、テキスト解析部から出力された読み情報及び韻律パラメータ取得部から出力された韻律パラメータを、ネットワークを通じ、音声素片データベースサーバ装置に送信する。 First, text data to be voiced is input to the text analysis unit of the client device, and the text analysis unit performs text analysis on the text data to generate reading information and prosodic information. Prosodic information is output. Next, the prosody information output from the text analysis unit is input to the prosody parameter acquisition unit of the client device, and the prosody parameter acquisition unit generates physical prosody parameters necessary for speech synthesis using the prosodic information. , Output the prosodic parameters. Then, the reading information output from the text analysis unit and the prosodic parameters output from the prosody parameter acquisition unit are input to the local speech unit search unit of the client device, and the input input reading is performed in the local speech unit search unit. The local speech unit index storage unit is searched using the information and the prosodic parameters as keys, and the input speech information and the local speech unit sequence information corresponding to the prosodic parameters belonging to the similar range of the prosodic parameters are extracted, The extracted local speech unit sequence information is output. The local speech unit storage information of the local speech unit sequence information output from the local speech unit search unit is input to the local speech unit data reading unit of the client device, and in the local speech unit data reading unit, The local speech unit data specified by the local speech unit storage information is read from the local speech unit database storage unit. The local speech unit data read by the local speech unit data reading unit is input to the speech unit connection unit of the client device, and the speech unit connection unit uses the local speech unit data to synthesize speech. Data is generated and the synthesized speech data is output. In the speech unit information transmission unit of the client device, local speech unit sequence information output from the local speech unit search unit, reading information output from the text analysis unit, and prosodic parameters output from the prosody parameter acquisition unit Is transmitted to the speech unit database server apparatus through the network.
音声素片データベースサーバ装置の音声素片情報受信部は、ローカル音声素片系列情報、読み情報及び韻律パラメータを受信する。そして、受信された読み情報及び韻律パラメータをキーとして、音声素片データベースサーバ装置の最適音声素片探索部において、最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する。また、音声素片情報受信部において受信されたローカル音声素片系列情報及び最適音声素片探索部から出力された最適音声素片系列情報が、音声素片データベースサーバ装置の送信音声素片決定部に入力され、当該送信音声素片決定部において、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した送信音声素片系列情報を生成し、当該送信音声素片系列情報を出力する。そして、送信音声素片系列情報の最適音声素片格納情報が、音声素片データベースサーバ装置の最適音声素片データ読み出し部に入力され、当該最適音声素片データ読み出し部において、当該最適音声素片格納情報が指定する最適音声素片データを、最適音声素片データベース格納部から読み出す。その後、読み出された最適音声素片データを、音声素片データベースサーバ装置の音声素片データ送信部において、ネットワークを通じ、クライアント装置に返信する。 The speech unit information receiving unit of the speech unit database server device receives local speech unit sequence information, reading information, and prosodic parameters. Then, using the received reading information and prosodic parameters as keys, the optimal speech segment searching unit of the speech unit database server device searches the optimal speech unit index storage unit, and the received reading information and prosody parameters are similar. The optimal speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the range is extracted, and the extracted optimal speech unit sequence information is output. In addition, the local speech unit sequence information received by the speech unit information receiving unit and the optimal speech unit sequence information output from the optimal speech unit search unit are the transmission speech unit determination unit of the speech unit database server device. In the transmission speech unit determination unit, the transmission speech unit sequence information excluding those that are common to the local speech unit sequence information and reading information and prosodic parameters from the optimal speech unit sequence information, The transmission speech unit sequence information is output. Then, the optimum speech unit storage information of the transmitted speech unit sequence information is input to the optimum speech unit data reading unit of the speech unit database server device, and the optimum speech unit data reading unit includes the optimum speech unit data reading unit. The optimum speech unit data designated by the storage information is read from the optimum speech unit database storage unit. Thereafter, the read optimum speech unit data is returned to the client device via the network in the speech unit data transmission unit of the speech unit database server device.
クライアント装置の音声素片データ受信部は、最適音声素片データを受信する。そして、受信された最適音声素片データを、クライアント装置の音声素片データベース追加部において、新たなローカル音声素片データとしてローカル音声素片データベース格納部に追加格納する。また、クライアント装置の音声素片インデックス追加部において、新たなローカル音声素片データに対応するローカル音声素片系列情報を、ローカル音声素片インデックス格納部に追加格納する。
ここで、クライアント装置における合成音声データの生成処理は、音声素片データベースサーバ装置へのアクセスが必要なローカル音声素片データベース格納部への最適音声素片データの追加処理と独立に行われる。その場合、テキストデータの入力から合成音声が出力されるまでの時間は、クライアント装置の処理性能のみに依存し、ネットワークの品質や構成に全く依存しない。
The speech unit data receiving unit of the client device receives the optimal speech unit data. Then, the received optimum speech unit data is additionally stored in the local speech unit database storage unit as new local speech unit data in the speech unit database addition unit of the client device. Further, the speech unit index adding unit of the client device additionally stores the local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit.
Here, the generation process of the synthesized voice data in the client device is performed independently of the process of adding the optimum voice unit data to the local voice unit database storage unit that requires access to the voice unit database server device. In that case, the time from the input of the text data to the output of the synthesized speech depends only on the processing performance of the client device, and does not depend on the quality or configuration of the network at all.
また、ローカル音声素片データベース格納部へ最適音声素片データが新たなローカル音声素片データとして追加されることにより、その後生成される合成音声データの品質が向上する。
さらに、音声素片データベースサーバ装置は、最適音声素片系列情報からローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した送信音声素片系列情報をもとに、クライアント装置に送信する最適音声素片データを決定する。すなわち、音声素片データベースサーバ装置は、クライアント装置へ最適音声素片データを送信するか否かの判断を、ローカル音声素片データベース格納部に最適な音声素片データが存在するか否かによって行う。そのため、本発明では、適切な設定が困難な閾値等のパラメータを設定する必要はない。
Moreover, the quality of synthesized speech data generated thereafter is improved by adding the optimum speech unit data as new local speech unit data to the local speech unit database storage unit.
Furthermore, the speech unit database server device transmits to the client device based on the transmitted speech unit sequence information obtained by excluding the local speech unit sequence information, the reading information, and the prosodic parameters that are common from the optimal speech unit sequence information. The optimum speech segment data to be determined is determined. That is, the speech unit database server device determines whether or not to transmit the optimal speech unit data to the client device, depending on whether or not the optimal speech unit data exists in the local speech unit database storage unit. . Therefore, in the present invention, it is not necessary to set parameters such as a threshold that are difficult to set appropriately.
また、第1から第3の本発明において好ましくは、クライアント装置の音声素片データ削除部において、ローカル音声素片データベース格納部に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下であるか否かを判定し、ローカル音声素片データベース格納部に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下でない場合、所定の優先順位に従って、当該ローカル音声素片データベース格納部に格納されたローカル音声素片データの一部を削除する。そして、クライアント装置の音声素片系列情報削除部において、音声素片データ削除部において削除されたローカル音声素片データに対応するローカル音声素片系列情報をローカル音声素片インデックス格納部から削除する。これにより、ローカル音声素片データベース格納部に格納可能なデータ量に制限がある環境においても本発明を適用することが可能となる。 Preferably, in the first to third aspects of the present invention, the total size of the local speech unit data stored in the local speech unit database storage unit in the speech unit data deletion unit of the client device is a predetermined size. If the total size of the local speech unit data stored in the local speech unit database storage unit is not less than a predetermined size, the local speech according to a predetermined priority is determined. A part of the local speech segment data stored in the segment database storage unit is deleted. Then, the speech unit sequence information deletion unit of the client device deletes the local speech unit sequence information corresponding to the local speech unit data deleted by the speech unit data deletion unit from the local speech unit index storage unit. As a result, the present invention can be applied even in an environment where the amount of data that can be stored in the local speech unit database storage unit is limited.
以上のように、本発明では、クライアント装置における合成音声データの生成処理が、音声素片データベースサーバ装置へのアクセスが必要なローカル音声素片データベース格納部への最適音声素片データの追加処理と独立に行われる。よって、テキストデータの入力から合成音声が出力されるまでの時間は、クライアント装置の処理性能のみに依存し、ネットワークの品質や構成に全く依存しない。その結果、高速な音声合成が可能となる。
また、本発明では、ローカル音声素片データベース格納部へ最適音声素片データが新たなローカル音声素片データとして追加されることにより、その後生成される合成音声データの品質が向上する。
As described above, in the present invention, the synthesized speech data generation processing in the client device includes the processing for adding the optimum speech segment data to the local speech segment database storage unit that requires access to the speech segment database server device. Done independently. Therefore, the time from the input of text data to the output of synthesized speech depends only on the processing performance of the client device, and does not depend on the quality or configuration of the network at all. As a result, high speed speech synthesis is possible.
In the present invention, the optimum speech unit data is added as new local speech unit data to the local speech unit database storage unit, thereby improving the quality of synthesized speech data generated thereafter.
さらに、本発明では、音声素片データの適合性を判定するために、適切な設定が困難な閾値等のパラメータを設定する必要はない。よって、閾値等のパラメータの調整に時間が掛かったり、最適なパラメータの設定ができないため性能が十分でなかったり等の問題が生じる事が無い。
以上より、本発明では、クライアント装置に大規模なデータベースを設けることなく、容易に高い品質の合成音声を短い応答期間で出力することができる。
Furthermore, in the present invention, it is not necessary to set parameters such as a threshold that are difficult to set appropriately in order to determine the suitability of speech segment data. Therefore, there is no problem that adjustment of parameters such as a threshold value takes time, and optimal parameters cannot be set, so that performance is not sufficient.
As described above, according to the present invention, high-quality synthesized speech can be easily output in a short response period without providing a large-scale database in the client device.
以下、本発明の実施の形態を図面を参照して説明する。
〔第1の実施の形態〕
初めに本発明の第1の実施の形態を述べる。
<構成>
図1(a)は、本形態の音声合成システム1の概念図である。
図1(a)に例示するように、本形態の音声合成システム1は、少なくとも1つのクライアント装置100と、当該クライアント装置100とネットワーク200を通じて接続される少なくとも1つの音声素片データベースサーバ装置300とを具備する。なお、説明の簡略化のため、以下では1つのクライアント装置100と1つの音声素片データベースサーバ装置300とのみについて説明を行うが、これ以上の数のクライアント装置100及び音声素片データベースサーバ装置300を設ける構成としてもよい。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
First, a first embodiment of the present invention will be described.
<Configuration>
FIG. 1A is a conceptual diagram of the
As illustrated in FIG. 1A, the
この例のクライアント装置100は、ユーザ2が利用する音声合成装置であり、例えばPDA(personal digital assistance)、携帯電話、パーソナルコンピュータ等のハードウェアに所定のプログラムを実行させることにより構成されるものである。また、この例の音声素片データベースサーバ装置300は、大容量の音声素片データベースを保持するサーバ装置であり、公知のコンピュータに所定のプログラムを実行させることにより構成されるものである。なお、この例の音声素片データベースサーバ装置300は、センタ3が管理運用する。また、ネットワーク200としては、例えば、携帯電話のパケット通信網、電話線を利用したADSL(asymmetric digital subscriber line)通信網、光ファイバー通信網等を例示できるが、特にこれらに限定されるものではない。
The
[クライアント装置100のハードウェア構成]
図1(b)は、図1(a)におけるクライアント装置100のハードウェア構成を例示した概念図である。
この図に例示するように、本形態のクライアント装置100は、プログラム及び演算結果等を格納するワークメモリ101、プログラムに基づき演算等を行うとともにクライアント装置の各構成要素を制御するMPU(Micro Processing Unit)102、音声素片データ及びその他のファイルを格納する蓄積メモリ103、ネットワーク200を通じてデータを送受信するためのデータ送受信部104、テキストデータ等が入力される入力部106及び合成音声データを出力する出力部107を具備する。なお、必要に応じ、クライアント装置100がさらに書き換え可能メモリ105を具備することとしてもよい。また、ワークメモリ101としては、RAM(Random Access Memory)等の半導体メモリを例示でき、書き換え可能メモリ105としては、EEPRROM(Electronically Erasable and Programmable Read Only Memory)等の半導体メモリを例示できる。また、蓄積メモリ103としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等を例示できる。さらに、入力部106としては、キー入力を受け付ける入力装置やデータ入力を受け付ける入力インタフェース等を例示できる。また、出力部107としては、合成音声を出力するスピーカやそのデータを出力するインタフェース等を例示できる。
[Hardware Configuration of Client Device 100]
FIG. 1B is a conceptual diagram illustrating the hardware configuration of the
As illustrated in this figure, a
なお、図1(b)の代わりに、例えばCPU(Central Processing Unit)、RAM、ハードディスク装置等から構成される公知のコンピュータによって本形態のクライアント装置100を構成することとしてもよい。
[音声素片データベースサーバ装置300のハードウェア構成]
図1(c)は、図1(a)における音声素片データベースサーバ装置300のハードウェア構成を例示した概念図である。
この図に例示するように、本形態の音声素片データベースサーバ装置300は、レジスタ301aを持ち音声素片データベースサーバ装置300全体を制御するCPU301、プログラム、音声素片データ及びその他のファイルを格納する補助記憶装置302、ROM(Read Only Memory)303、プログラム及び演算結果等を格納するRAM304、及びデータ送受信部305を有している。なお、補助記憶装置302としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等を例示できる。また、データ送受信部305としては、LAN(Local Area Network)カード、モデム、ルータ、ハブ等の通信装置を例示できる。
Instead of FIG. 1B, the
[Hardware Configuration of Speech Segment Database Server 300]
FIG. 1C is a conceptual diagram illustrating the hardware configuration of the speech unit
As illustrated in this figure, the speech unit
[クライアント装置100の機能構成]
本形態のクライアント装置100は、例えば、図1(b)に例示したMPU102や公知のコンピュータのCPUに所定のプログラムが読み込まれ、実行されることにより構成されるものである。
図2は、このクライアント装置100の機能構成を例示したブロック図である。
この図に例示するように、本形態のクライアント装置100は、ローカル音声素片データベース格納部111、ローカル音声素片インデックス格納部112、最適音声素片インデックス格納部113、一時記憶部114、テキストデータ入力部121、テキスト解析部122、韻律パラメータ取得部123、ローカル音声素片探索部124、ローカル音声素片データ読み出し部125、音声素片接続部126、音声出力部127、最適音声素片探索部131、要求音声素片決定部132、音声素片情報送信部133、音声素片データ受信部134、音声素片インデックス追加部136、音声素片データベース追加部137及び制御部140を有しており、音声素片情報送信部133及び音声素片データ受信部134を通じてネットワーク200に接続可能に構成されている。
[Functional Configuration of Client Device 100]
The
FIG. 2 is a block diagram illustrating a functional configuration of the
As illustrated in this figure, the
なお、ローカル音声素片データベース格納部111、ローカル音声素片インデックス格納部112及び最適音声素片インデックス格納部113は、例えば、図1(b)の蓄積メモリ103やワークメモリ101等によって構成される。また、一時記憶部114は、例えば、図1(b)のワークメモリ101や書き換え可能メモリ105等によって構成される。また、テキストデータ入力部121は、例えば、図1(b)の入力部106等によって構成され、音声出力部127は、例えば、出力部107等によって構成される。さらに、テキスト解析部122、韻律パラメータ取得部123、ローカル音声素片探索部124、ローカル音声素片データ読み出し部125、音声素片接続部126、音声出力部127、最適音声素片探索部131、要求音声素片決定部132、音声素片インデックス追加部136、音声素片データベース追加部137及び制御部140は、例えば、図1(b)のMPU102にワークメモリ101からプログラムが読み込まれ、さらにMPU102がこのプログラムを実行することにより構成されるものである。また、音声素片情報送信部133及び音声素片データ受信部134は、例えば、図1(b)のデータ送受信部104等によって構成される。また、クライアント装置100は、制御部140の制御のもと各処理を実行する。
Note that the local speech unit
[音声素片データベースサーバ装置300の機能構成]
本形態の音声素片データベースサーバ装置300は、例えば、図1(c)に例示したCPU304に所定のプログラムが読み込まれ、実行されることにより構成されるものである。
図3は、本形態における音声素片データベースサーバ装置300の機能構成を例示したブロック図である。
この図に例示するように、本形態の音声素片データベースサーバ装置300は、一時記憶部311、最適音声素片データベース格納部312、音声素片情報受信部321、最適音声素片データ読み出し部323、音声素片データ送信部322及び制御部330を有し、音声素片情報受信部321及び音声素片データ送信部322を通じ、ネットワーク200に接続可能に構成されている。
[Functional Configuration of Speech Segment Database Server 300]
The speech segment
FIG. 3 is a block diagram illustrating a functional configuration of the speech segment
As illustrated in this figure, the speech unit
なお、一時記憶部311は、例えば、図1(c)のレジスタ301aやRAM304等によって構成される。また、最適音声素片データベース格納部312は、例えば、図1(c)の補助記憶装置302やRAM304等によって構成される。さらに、最適音声素片データ読み出し部323及び制御部330は、例えば、図1(c)のCPU301に所定のプログラムが読み込まれ、さらにCPU301がこのプログラムを実行することにより構成されるものである。また、音声素片情報受信部321及び音声素片データ送信部322は、例えば、図1(c)のデータ送受信部305等によって構成されるものである。また、音声素片データベースサーバ装置300は、制御部330の制御のもと各処理を実行する。
The
[ローカル音声素片データベース格納部111及び最適音声素片データベース格納部312のデータ構成]
ローカル音声素片データベース格納部111(図2)には、ローカル音声素片データが格納され、最適音声素片データベース格納部312(図3)には、最適音声素片データが格納される。ここで、ローカル音声素片データベース格納部111に格納されるローカル音声素片データと、最適音声素片データベース格納部312に格納される最適音声素片データとの概念的な構成は同一であるが、格納される内容が異なっている。以下、これについて説明する。
[Data structure of local speech unit
The local speech unit database storage unit 111 (FIG. 2) stores local speech unit data, and the optimal speech unit database storage unit 312 (FIG. 3) stores optimal speech unit data. Here, the conceptual configuration of the local speech unit data stored in the local speech unit
図4は、ローカル音声素片データベース格納部111に格納されるローカル音声素片データの構成を説明するための概念図である。
この図に例示するように、この例のローカル音声素片データベース格納部111には、時間情報に対応付けられた複数の音声素片データが格納され、それらによって1つのファイルを構成している。そして、各ファイルにはファイル番号が対応付けられ、ファイル番号と時間とを指定することにより各音声素片データを特定できる構成となっている。例えば、ファイル番号8のファイルには、音韻系列「A」「R」「E」「S」「U」「R」「A」・・・に対応する複数の音声素片データが、ファイル番号23のファイルには、音韻系列「D」「A」「R」「A」・・・に対応する複数の音声素片データが、それぞれ時間情報に対応付けられて格納されている。そして、例えば、ファイル番号8、始点位置10、時間長110と指定することにより、これらに対応する音韻系列「A」の音声素片データを特定できる構成となっている。
FIG. 4 is a conceptual diagram for explaining the configuration of local speech unit data stored in the local speech unit
As illustrated in this figure, the local speech unit
また、最適音声素片データベース格納部312に格納される最適音声素片データも構造的にはローカル音声素片データベース格納部111に格納されるローカル音声素片データと同様である。ローカル音声素片データベース格納部111に格納されるローカル音声素片データと、最適音声素片データベース格納部312に格納される最適音声素片データとの相違は、そのデータの種類や量である。即ち、最適音声素片データベース格納部312には、大量の音声素片データが格納されるのに対し、初期段階のローカル音声素片データベース格納部111には、最低限の音声素片データのみが格納される。例えば、最適音声素片データベース格納部312には、任意のテキストに対して高品質な合成音声を生成することが可能な非常に多くの音声素片データを格納する。これに対し、初期段階のローカル音声素片データベース格納部111には、例えば、任意のテキストに対応する合成音声を生成可能な最低限の音声素片データのみを格納する。なお、合成音声を生成可能な最低限の音声素片データとしては、例えば、日本語の全ての音素、全ての音節、全ての三つ組み音素等に対応する音声素片データを例示できる。しかし、実際にどのような音声素片データを初期段階のローカル音声素片データベース格納部111に格納するかはクライアント装置100の構成や初期時点で配布可能なデータ量や最低限求められる合成音声の品質等に対応して決めればよい。例えば、最低限の音声素片データに加え、合成音声の品質を部分的に向上させることが可能な音声素片データを初期段階のローカル音声素片データベース格納部111に格納することとしてもよい。
The optimum speech unit data stored in the optimum speech unit
[ローカル音声素片インデックス格納部112及び最適音声素片インデックス格納部113のデータ構成]
この例のローカル音声素片インデックス格納部112(図2)には、ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報が格納される。また、最適音声素片インデックス格納部113には、最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報が格納される。
[Data structure of local speech unit
In this example, the local speech unit index storage unit 112 (FIG. 2) associates local speech unit storage information for designating local speech unit data with reading information and prosodic parameters corresponding to the local speech unit data. Stored local speech unit sequence information is stored. The optimal speech element
図5(a)は、図2のローカル音声素片インデックス格納部112に格納されるローカル音声素片インデックス112aのデータ構成を例示した概念図であり、図5(b)は、図3の最適音声素片インデックス格納部113に格納される最適音声素片インデックス113aの構成を例示した概念図である。
図5(a)に例示するように、この例のローカル音声素片インデックス112aは、ローカル音声素片データベース格納部111に格納される複数のローカル音声素片データに対応する複数のローカル音声素片系列情報112aa〜112afを有している。ここで、各ローカル音声素片系列情報112aa〜112afは、対応するローカル音声素片データの「音韻列」「前音韻環境」「後音韻環境」「平均F0(基準周波数)」「F0の傾斜」「パワー」及び「ローカル音声素片格納情報」が関連付けられた情報である。ここで、この例の「ローカル音声素片格納情報」は、対応するローカル音声素片データの格納位置を特定する「ファイル番号」「時間長」「始点位置」からなる情報である。なお、これらの「音韻列」「前音韻環境」「後音韻環境」が「読み情報」に相当し、「平均F0(基準周波数)」「F0の傾斜」「パワー」「時間長」が「韻律パラメータ」に相当する。また、「前音韻環境」とは、対応する「音韻列」に対し時系列的に前の音韻を示す情報であり、「後音韻環境」とは、対応する「音韻列」に対し時系列的に後の音韻を示す情報である。また「#」はポーズ(無音状態)を示している。
FIG. 5A is a conceptual diagram illustrating the data structure of the local
As illustrated in FIG. 5A, the local
また、図5(b)に例示するように、この例の最適音声素片インデックス113aは、最適音声素片データベース格納部312に格納される複数の最適音声素片データに対応する複数の最適音声素片系列情報113aa〜113ahを有している。ここで、各最適音声素片系列情報113aa〜113ahは、対応する最適音声素片データの「音韻列」「前音韻環境」「後音韻環境」「平均F0(基準周波数)」「F0の傾斜」「パワー」及び「最適音声素片格納情報」が関連付けられた情報である。ここで、この例の「最適音声素片格納情報」は、対応する最適音声素片データの格納場所を特定する「ファイル番号」「時間長」「始点位置」からなる情報である。
Further, as illustrated in FIG. 5B, the optimum
また、前述のようにローカル音声素片データベース格納部111に格納されるローカル音声素片データの数は、最適音声素片データベース格納部312に格納される最適音声素片データの数よりも少ないため、当然ローカル音声素片インデックス112aが有するローカル音声素片系列情報の数も、最適音声素片インデックス113aが有する最適音声素片系列情報の数よりも少ない。なお、音声素片インデックスの構成は、例えば、特許3515406号公報「音声合成方法及び装置」などで開示されている。
<クライアント装置100の処理>
次に、クライアント装置100の処理について説明する。
Further, as described above, the number of local speech unit data stored in the local speech unit
<Processing of
Next, processing of the
図6(a)は、本形態のクライアント装置100における音声合成処理を説明するための流れ図である。以下、この図に従って、本形態の音声合成処理の詳細を説明する。
テキストデータ入力部121は、音声化すべきテキストデータの入力を受け付け、入力されたテキストデータは一時記憶部114に格納される。これをトリガにテキスト解析部122は、一時記憶部114からテキストデータを読み込む。そして、このテキスト解析部122は、読み込んだテキストデータに対してテキスト解析処理を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を一時記憶部114に出力し、そこに格納させる(ステップS10)。なお、ここでいうテキスト解析処理は、主に形態素解析処理と読み・アクセント付与処理からなる。これらの処理方法については従来から様々な方法が存在し、例えば、特許3379643号公報「形態素解析方法および形態素解析プログラムを記録した記録媒体」で開示された方法や、特許3518340号公報「読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体 」で開示された方法を用いることができる。
FIG. 6A is a flowchart for explaining speech synthesis processing in the
The text
次に、韻律パラメータ取得部123において、一時記憶部114から上述の韻律情報を読み込み、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを算出し、当該韻律パラメータを一時記憶部114に出力し、そこに格納させる(ステップS11)。ここで韻律パラメータとしてはピッチ(基本周波数F0)や時間長(音素継続時間長)などがあるが、それらを求める方式も従来から存在する。例えば、特許3240691号公報「ピッチパタン生成方法、その装置及びプログラム記録媒体」や特許3344487号公報「音声基本周波数パターン生成装置」で開示された方法によってピッチ(基本周波数F0)を求めることが可能である。また、例えば、”海木ら、「言語情報を利用した母音継続時間長の制御」vol.75, No.3 pp.467-473、信学論,1992”や”M.D. Riley. “Tree-based modeling for speech synthesis.” In G. Bailly, C. Benoit, and T.R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.”で開示された方法により時間長を求めることもできる。なお、ステップS11の処理は、上述のテキストデータに対応する全ての韻律情報に対して実行される。
Next, in the prosodic
次に、ローカル音声素片探索部124において、一時記憶部114から読み情報と韻律パラメータとを読み込む。そして、ローカル音声素片探索部124は、読み込んだ読み情報及び韻律パラメータをキーとしてローカル音声素片インデックス格納部112を検索する。そして、この例のローカル音声素片探索部124は、読み込んだ読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報をローカル音声素片インデックス格納部112に格納されたローカル音声素片インデックス112a(図5(a))から抽出し、抽出したローカル音声素片系列情報を一時記憶部114に出力し、そこに格納させる(ステップS12)。すなわち、この例のローカル音声素片探索部124は、ローカル音声素片インデックス112aから、テキスト解析によって得られた読み情報と韻律パラメータに最適なローカル音声素片系列情報を決定する。なお、ローカル音声素片系列情報の決定方法としては、例えば、特許3515406号公報「音声合成方法及び装置」などで開示されている。また、ここでいう類似範囲とは、例えば読み情報及び韻律パラメータが完全に一致するもの、一部一致するもの、コストによって特定される類似度が高いものなどを含む概念である。例えば、読み情報として、音韻「ア」、前音素環境”#”が与えられ、韻律パラメータとして、平均F0=200±10Hzという条件が与えられた場合、図5(a)のローカル音声素片系列情報112aa,112ab,112acの3つが適合することとなる。また、コストによって類似範囲を特定する方法としては、例えば、テキスト解析によって得られた読み情報及び韻律パラメータと、ローカル音声素片インデックスのローカル音声素片系列情報の読み情報及び韻律パラメータとから総合コスト値を計算し、この総合コストを最少にするローカル音声素片系列情報を最適なものとする方法等を例示できる。ここで、総合コストの計算方法であるが、例えば、下記のようにサブコスト関数を用いて総合コストPnewを求めることができる(例えば「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10、pp.239-240、1990/9参照。)
[サブコスト関数を用いた総合コストPnewの算出]
まず、ローカル音声素片探索部124において、一時記憶部114から読み情報と韻律パラメータと、ローカル音声素片インデックス格納部112に格納されたローカル音声素片インデックス112aとを用い、以下のサブコスト関数を算出し、各サブコスト関数を一時記憶部114に格納する。
Next, the local speech
[Calculation of total cost Pnew using sub-cost function]
First, the local speech
(1)読み情報に対応するサブコスト関数
C1(n)=1/en
ただし、テキストデータをテキスト解析して得られた読み情報からなる音韻列と、ローカル音声素片系列情報の音韻列との間で一致する音韻数をnとする。
(2)平均ピッチに対するサブコスト関数
C2(Vp,Vs)=|Vp−Vs|2
ただし、テキストデータをテキスト解析して得られたの平均ピッチをVpとし、ローカル音声素片系列情報の平均ピッチ(平均F0)をVsとする。
(1) sub-cost function C 1 corresponding to the reading information (n) = 1 / e n
Here, n is the number of phonemes that match between the phoneme sequence formed by reading information obtained by text analysis of the text data and the phoneme sequence of the local speech segment sequence information.
(2) Sub-cost function for average pitch C 2 (Vp, Vs) = | Vp−Vs | 2
However, an average pitch obtained by text analysis of text data is Vp, and an average pitch (average F0) of local speech segment sequence information is Vs.
(3)ピッチ傾きに対するサブコスト関数
C3(Fp,Fs)=|Fp−Fs|2
ただし、テキストデータをテキスト解析して得られたピッチの傾きをFpとし、ローカル音声素片系列情報のピッチの傾き(F0の傾斜)をFsとする。
(4)時間長に対するサブコスト関数
C4(Tp,Ts)=|Tp−Ts|2
ただし、テキストデータをテキスト解析して得られた時間長をTpとし、ローカル音声素片系列情報の時間長をTsとする。
(3) Sub-cost function for pitch inclination C 3 (Fp, Fs) = | Fp−Fs | 2
However, the pitch gradient obtained by text analysis of the text data is Fp, and the pitch gradient (F0 gradient) of the local speech segment sequence information is Fs.
(4) Sub cost function for time length C 4 (Tp, Ts) = | Tp−Ts | 2
However, the time length obtained by text analysis of the text data is Tp, and the time length of the local speech unit sequence information is Ts.
(5)振幅に対するサブコスト関数
C5(Ap,As)=|Ap−As|2
ただし、テキストデータをテキスト解析して得られた振幅をApとし、ローカル音声素片系列情報の振幅(パワー)をAsとする。
そして、ローカル音声素片探索部124は、一時記憶部114から各サブコスト関数を読み込み、以下のように総合コストPnewを算出し、算出した総合コストPnewを一時記憶部114に格納する。
(5) Sub cost function for amplitude C 5 (Ap, As) = | Ap−As | 2
However, the amplitude obtained by text analysis of the text data is Ap, and the amplitude (power) of the local speech unit sequence information is As.
Then, the local speech
(6)Ω=ω2C2(Vp,Vs)+ω3C3(Fp,Fs)+ω4C4(Tp,Ts)+ω5C5(Ap,As)を算出する。
(7)P=ω1 C1(n)+(1−ω1)Ωを算出する。
(8)Pnew=(1+G)Pを算出する。
なお、ω1,ω2,ω3,ω4,ω5は、各サブコスト関数に対するサブコスト重みを示す定数であり、予めプログラムに設定されているものとする。さらにGは音響的な定数を示し、これも予めプログラムに設定されているものとする。
(6) Ω = ω 2 C 2 (Vp, Vs) + ω 3 C 3 (Fp, Fs) + ω 4 C 4 (Tp, Ts) + ω 5 C 5 (Ap, As) is calculated.
(7) P = ω 1 C 1 (n) + (1−ω 1 ) Ω is calculated.
(8) Pnew = (1 + G) P is calculated.
Note that ω 1 , ω 2 , ω 3 , ω 4 , and ω 5 are constants indicating sub-cost weights for the respective sub-cost functions, and are set in advance in the program. Further, G represents an acoustic constant, which is also set in advance in the program.
以上のような総合コストPnewの算出は、各ローカル音声素片系列情報に対して行われ、算出された各総合コストPnewは、対応する各ローカル音声素片系列情報に関連付けて一時記憶部114に格納される。そして、ローカル音声素片探索部124は、一時記憶部114に格納された各総合コストPnewに対し、一般的なDP(Dynamic Programing)法を適用し、最小の総合コストPnewを求め、それに関連付けられているローカル音声素片系列情報を最適なもの(テキスト解析によって得られた読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報)として選択する(「サブコスト関数を用いた総合コストPnewの算出」の説明終わり)。なお、ステップS12の処理は、上述のテキストデータに対応する全ての読み情報及び韻律パラメータの組に対して実行される。
The calculation of the total cost Pnew as described above is performed for each local speech unit sequence information, and each calculated total cost Pnew is associated with each corresponding local speech unit sequence information in the
次に、ローカル音声素片データ読み出し部125において、ステップS12で抽出された各ローカル音声素片系列情報に対応するローカル音声素片データを順次ローカル音声素片データベース格納部111から読み出す(ステップS13)。すなわち、ローカル音声素片データ読み出し部125において、一時記憶部114からステップS12で抽出されたローカル音声素片系列情報のローカル音声素片格納情報を順次読み出し、当該ローカル音声素片格納情報が指定するローカル音声素片データを、ローカル音声素片データベース格納部111から順次読み出す。例えば、ステップS12でローカル音声素片系列情報112ab,112ad,112af(図5(a))が抽出された場合、ローカル音声素片データ読み出し部125は、ローカル音声素片系列情報112abのローカル音声素片格納情報「ファイル番号8、始点10msec、時間長110msec」、ローカル音声素片系列情報112adのローカル音声素片格納情報「ファイル番号23、始点5225msec、時間長15msec」及びローカル音声素片系列情報112afのローカル音声素片格納情報「ファイル番号23、始点5240msec、時間長95msec」が示す各ローカル音声素片データを、ローカル音声素片データベース格納部111から順次読み出す。なお、このように読み出された各ローカル音声素片データは、一時記憶部114に格納される。
Next, the local speech unit
次に、音声素片接続部126において、一時記憶部114から各ローカル音声素片データを順次読み出し、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを一時記憶部114に出力し、そこに格納させる(ステップS14)。ここで、合成音声データの生成は、例えば、読み出された各ローカル音声素片データを時間的な順に単に接続して行ってもよいが、異なるローカル音声素片データ間を時間的又は周波数的に補間して合成音声データを生成してもよい(例えば、特開平07−072897号公報参照。)。また、一時記憶部114に格納された韻律パラメータに基づいてローカル音声素片データに所定の信号処理を施した後に、これらを接続して合成音声データを生成してもよい(例えば、「Y. Stylianou, “Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis.” IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 9, NO. 1, pp.21-29 JANUARY 2001」参照。)。
Next, in the speech
最後に音声出力部127において、一時記憶部114から上述のように生成された合成音声データを読み込み、それを音声やデータとして出力する(ステップS15)。
次に、クライアント装置100において、より高品質な合成音声を生成するために、前述のステップS10〜S15の処理と独立(例えばこれらの処理と同時平行或いはこれらの処理の後)に、以下に述べる処理も行う。
図6(b)は、このステップS10〜S15の処理と独立に行われる処理を説明するための流れ図である。以下、この流れ図に沿って、この処理を説明する。
Finally, the
Next, in order to generate higher-quality synthesized speech in the
FIG. 6B is a flowchart for explaining processing performed independently of the processing in steps S10 to S15. Hereinafter, this process will be described with reference to this flowchart.
まず、最適音声素片探索部131おいて、一時記憶部114から、テキスト解析部122から出力された読み情報及び韻律パラメータ取得部123から出力された韻律パラメータを読み込む。そして、最適音声素片探索部131は、これらの読み情報及び韻律パラメータをキーとして最適音声素片インデックス格納部113を検索し、これらの読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を最適音声素片インデックスから抽出する。抽出された最適音声素片系列情報は一時記憶部114に出力され、そこに格納される(ステップS16)。前述のとおり最適音声素片インデックスの構成は、ローカル音声素片インデックスと同様であり(図5参照)、最適音声素片系列の決定方法も、前述のローカル音声素片探索部124における決定方法(ステップS12参照)と同様に行うことができる。
First, the optimum speech
次に、要求音声素片決定部132において、最適音声素片探索部131によって決定された最適音声素片系列情報から、前述のローカル音声素片探索部124で決定されたローカル音声素片系列情報に含まれる音声素片系列情報を除外して、音声素片データベースサーバ装置300に対して送信を要求すべき最適要求音声データを決定する(ステップS17)。すなわち、要求音声素片決定部132は、まず一時記憶部114から、ローカル音声素片系列情報及び最適音声素片系列情報を読み込む。次に要求音声素片決定部132は、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した要求音声素片系列情報を生成し、当該要求音声素片系列情報を一時記憶部114に出力し、そこに格納させる。
Next, in the requested speech
例えば、ローカル音声素片探索部124によって決定されたローカル音声素片系列情報が{ローカル音声素片系列112ab,112ac,112ad,112ae}であり、最適音声素片探索部131によって決定された最適音声素片系列情報が{最適音声素片系列113ab,113ac,113ad,113ag,113ae}であるとする(図5参照)。この例の場合、要求音声素片系列情は、ローカル音声素片系列情報と最適音声素片系列情報とで読み情報及び韻律パラメータが共通するものを除いた{最適音声素片系列情報113ag}になる。
For example, the local speech unit sequence information determined by the local speech
なお、最適音声素片系列情報とローカル音声素片系列情報とで読み情報及び韻律パラメータが共通するか否かの判断は、例えば、読み情報及び韻律パラメータが同一の最適音声素片系列情報及びローカル音声素片系列情報に対して同一のファイル番号を付与することとし、最適音声素片系列情報とローカル音声素片系列情報との最適音声素片格納情報とローカル音声素片格納情報とが同一か否かによって行う。また、最適音声素片系列情報とローカル音声素片系列情報との読み情報及び韻律パラメータを直接比較してこの判断を行うこととしてもよい。 Note that whether or not the optimal speech unit sequence information and the local speech unit sequence information have the same reading information and prosodic parameters is determined by, for example, the optimal speech unit sequence information and the local speech unit information having the same reading information and prosodic parameters. Whether the same file number is assigned to the speech unit sequence information, and whether the optimal speech unit storage information and the local speech unit storage information of the optimal speech unit sequence information and the local speech unit sequence information are the same Depending on whether or not. Further, this determination may be made by directly comparing the reading information and prosodic parameters of the optimum speech unit sequence information and the local speech unit sequence information.
次に、音声素片情報送信部133に、一時記憶部114に格納されている最適音声素片系列情報の最適音声素片格納情報を、順次ネットワーク200を通して音声素片データベースサーバ装置300に対して送信する(ステップS18)。
これに対し、音声素片データベースサーバ装置300は、上述の最適音声素片格納情報に対応する最適音声素片データをクライアント装置100に返信する(詳細は後述)。
クライアント装置100は、音声素片データ受信部134において、音声素片データベースサーバ装置300から最適音声素片データが順次送られてくるのを待ち受け、当該最適音声素片データを受信する(ステップS19)。なお、受信された最適音声素片データは、まず一時記憶部114に格納される。
Next, the optimal speech element storage information of the optimal speech element sequence information stored in the
In response to this, the speech unit
In the speech unit
その後、受信された最適音声素片データは、音声素片データベース追加部137によって、ローカル音声素片データベース格納部111のローカル音声素片データベースに追加される(ステップS20)。そして、これに伴い、音声素片インデックス追加部136によって、ローカル音声素片インデックス格納部112のローカル音声素片インデックスが書き換えられ、ローカル音声素片探索部124において前述の受信した最適音声素片データを参照可能にする(ステップS21)。
すなわちまず、音声素片データベース追加部137において、一時記憶部114から音声素片データ受信部134において受信された最適音声素片データを読み出し、それを新たなローカル音声素片データとしてローカル音声素片データベース格納部111に追加格納する。
Thereafter, the received optimal speech unit data is added to the local speech unit database of the local speech unit
That is, first, the speech unit
例えば、要求音声素片系列情報として{最適音声素片系列情報113ag}が得られている場合(図5(b)参照)、音声素片データベース追加部137は、次のように新たなローカル音声素片データをローカル音声素片データベース格納部111に格納する。
まず、音声素片データベース追加部137は、一時記憶部114から{最適音声素片系列情報113ag}を読み出し、ローカル音声素片データベース格納部111に{最適音声素片系列情報113ag}のローカル音声素片格納情報が具備するファイル番号「243」に対応するローカル音声素片データが存在するか否かを検索する。ここで、ローカル音声素片データベース格納部111にファイル番号「243」に対応するローカル音声素片データが存在した場合、音声素片データベース追加部137は、このファイル番号「243」に対応するローカル音声素片データの43msecの始点位置から時間長112msecの最適音声素片データ(音声素片データ受信部134において受信された最適音声素片データ)を追加し、それを新たなファイル番号「243」に対応するローカル音声素片データとしてローカル音声素片データベース格納部111に格納する。一方、ローカル音声素片データベース格納部111にファイル番号「243」に対応するローカル音声素片データが存在しない場合、音声素片データベース追加部137は、上述の音声素片データ受信部134において受信された最適音声素片データを始点位置43msecから時間長112msecで配置したローカル音声素片データを生成し、それをファイル番号「243」に関連付けてローカル音声素片データベース格納部111に格納する。
For example, when {optimum speech unit sequence information 113ag} is obtained as the requested speech unit sequence information (see FIG. 5B), the speech unit
First, the speech unit
なお、要求音声素片決定部132において生成された最適音声素片系列情報と、音声素片データ受信部134において受信された最適音声素片データとの対応付けは、例えば、最適音声素片格納情報の音声素片データベースサーバ装置300への送信順序(ステップS18参照)の情報を一時記憶部114に格納しておき、当該送信順序と各最適音声素片データの受信順序(ステップS19参照)との情報を用いて行う。ただし、特にこれに限定されるわけではなく、例えば、音声素片データベースサーバ装置300が、各最適音声素片データとともに最適音声素片系列情報との対応付けを示す情報(ファイル番号等)をクライアント装置100に送信することとしてもよい。
The correspondence between the optimum speech element sequence information generated by the requested speech
上述のローカル音声素片データベース格納部111への新たなローカル音声素片データの格納に伴い、音声素片インデックス追加部136は、当該新たなローカル音声素片データに対応するローカル音声素片系列情報を、ローカル音声素片インデックス格納部112に追加格納する。すなわち、音声素片インデックス追加部136は、新たなローカル音声素片データ(最適音声素片データ)に対応する最適音声素片系列情報を一時記憶部114から読み込み、これを新たなローカル音声素片系列情報としてローカル音声素片インデックス格納部112に格納する。
Along with the storage of new local speech unit data in the local speech unit
ここで、新たなローカル音声素片系列情報の追加方法であるが、単にローカル音声素片インデックス112aの最後の列に追加することとしてもよいし、同一の音韻列に対応するローカル音声素片情報の最後に追加することとしてもよい。また、例えば図7(a)のように、ローカル音声素片系列情報探索における効率性を考慮し、音韻列や前後の音素環境の類似性を考慮したローカル音声素片インデックスの位置に新たなローカル音声素片系列情報112agを追加してもよい。さらに、平均F0等の韻律パラメータの類似性を考慮して新たなローカル音声素片系列情報の挿入位置を決定してもよい。
Here, although it is a method for adding new local speech unit sequence information, it may be simply added to the last column of the local
<音声素片データベースサーバ装置300の処理>
次に、音声素片データベースサーバ装置300の処理について説明する。
図7(b)は、本形態の音声素片データベースサーバ装置300における最適音声素片データの送信処理を説明するための流れ図である。以下、この図に従って、本形態の音声素片データベースサーバ装置300における最適音声素片データの送信処理の詳細を説明する。
前述のステップS18において、ネットワークを通して、クライアント装置100から送信された最適音声素片格納情報は、順次、音声素片データベースサーバ装置300の音声素片情報受信部321で受信され、一時記憶部311に格納される(ステップS30)。
<Processing of Speech
Next, processing of the speech unit
FIG. 7B is a flowchart for explaining the optimal speech segment data transmission processing in the speech segment
In step S18 described above, the optimum speech unit storage information transmitted from the
次に、最適音声素片データ読み出し部323において、一時記憶部311に格納された最適音声素片格納情報が読み込まれ、当該最適音声素片格納情報が指定する最適音声素片データを、最適音声素片データベース格納部312から読み出して、一時記憶部311に格納する(ステップS31)。ここで、最適音声素片データベース格納部312から最適音声素片格納情報が指定する最適音声素片データを読み出す処理は、前述のローカル音声素片データ読み出し部125におけるローカル音声素片データの読み出し処理(ステップS13)と同様にして行うことができる。
Next, the optimum speech unit
最後に、一時記憶部311に格納された最適音声素片データが、順次音声素片データ送信部322に入力され、音声素片データ送信部322は、当該最適音声素片データを、順次ネットワークを通してクライアント装置100に送信する(ステップS32)。
<本形態の特徴>
以上のように、本形態では、クライアント装置100において入力されたテキストデータに最も適した音声素片データを、音声素片データベースサーバ装置300からネットワーク200を通してクライアント装置100に送信し、それをローカル音声素片データベース格納部111に蓄積し、またその音声素片データを探索できるようにローカル音声素片インデックス112aを書き換える。これにより、クライアント装置100で次に同様なテキストデータの合成音声を生成する場合に、今回ローカル音声素片データベース格納部111に蓄積した音声素片データを使用することが可能となる。その結果、高品質な合成音声が生成可能となる。
Finally, the optimal speech unit data stored in the
<Features of this embodiment>
As described above, in this embodiment, the speech unit data most suitable for the text data input in the
また、本形態では、テキスト解析処理(ステップS10)から音声出力(ステップS15)までの処理と同時平行又はその処理が終了した後に、最適音声素片系列情報の探索(ステップS16)からローカル音声素片インデックスの更新(ステップS21)までの処理を実行することとした。これにより、テキスト解析処理(ステップS10)から音声出力(ステップS15)までの処理時間は、クライアント装置100のハードウェア構成によってほぼ決定され、ネットワーク200を用いたデータの送受信やデータベースへのデータ追加等の処理に必要な時間にほとんど依存しない。その結果、クライアント装置100は、ネットワーク200の回線速度、品質、混雑状況等に関わり無く常に高速に合成音声を生成できる。
Further, in this embodiment, the parallel speech processing from the text analysis processing (step S10) to the speech output (step S15) or after the processing is completed, the search from the optimal speech segment sequence information (step S16) to the local speech element. The process up to the updating of the one index (step S21) is executed. Thereby, the processing time from the text analysis process (step S10) to the voice output (step S15) is almost determined by the hardware configuration of the
さらに、本形態では、クライアント装置100においてテキストデータから合成音声が生成されるたびに、クライアント装置100内のローカル音声素片データが、そのテキストデータに適したものに更新されていく。そのため、クライアント装置100の使用を繰り返していくことにより、その利用者が合成音声を生成するテキストに適したローカル音声素片データがクライアント装置100に蓄積されていく。その結果、使用回数を重ねれば重ねるほど、その利用者にとって最適な合成音声が生成可能となる。また、長期間の使用により、その利用者に適したローカル音声素片データがクライアント装置100に蓄積されていけば、クライアント装置100から音声素片データベースサーバ装置300への最適音声素片データの送信要求数も減少し、ネットワーク200や音声素片データベースサーバ装置300に対する処理負担も減少していく。
Furthermore, in this embodiment, every time a synthesized speech is generated from text data in the
〔第2の実施の形態〕
次に、本発明における第2の実施の形態について説明する。
本形態は第1の実施の形態の変形例であり、クライアント装置が最適音声素片インデックスを具備せず、代わりに音声素片データベースサーバ装置が最適音声素片インデックスを具備する例である。以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項については説明を省略する。
<構成>
本形態の音声合成システムは、第1の実施の形態のクライアント装置100の代わりにクライアント装置400を設け、音声素片データベースサーバ装置300の代わりに音声素片データベースサーバ装置500を設けた構成となる。また、本形態のクライアント装置400及び音声素片データベースサーバ装置500も、第1の実施の形態と同様、例えば、図1(b)に例示したMPU102や公知のコンピュータのCPUに所定のプログラムが読み込まれ、実行されることにより構成されるものである。
[Second Embodiment]
Next, a second embodiment of the present invention will be described.
This embodiment is a modification of the first embodiment, in which the client device does not have the optimum speech unit index, and instead the speech unit database server device has the optimum speech unit index. Below, it demonstrates centering around difference with 1st Embodiment, and abbreviate | omits description about the matter which is common in 1st Embodiment.
<Configuration>
The speech synthesis system according to this embodiment has a configuration in which a
[クライアント装置400の機能構成]
図8は、本形態におけるクライアント装置400の機能構成を例示したブロック図である。なお、図8において図2と共通する部分については、図2と同じ符号を付した。
この図に例示するように、本形態のクライアント装置400は、ローカル音声素片データベース格納部111、ローカル音声素片インデックス格納部112、一時記憶部114、テキストデータ入力部121、テキスト解析部122、韻律パラメータ取得部123、ローカル音声素片探索部124、ローカル音声素片データ読み出し部125、音声素片接続部126、音声出力部127、音声素片情報送信部133、音声素片データ受信部134、音声素片インデックス追加部136、音声素片データベース追加部137及び制御部140を有しており、音声素片情報送信部133及び音声素片データ受信部134を通じてネットワーク200に接続可能に構成されている。すなわち、第1の実施の形態と異なり、本形態のクライアント装置400は、最適音声素片インデックス格納部113、最適音声素片探索部131及び要求音声素片決定部132を具備していない。
[Functional Configuration of Client Device 400]
FIG. 8 is a block diagram illustrating a functional configuration of the
As illustrated in this figure, the
[音声素片データベースサーバ装置500の機能構成]
図9は、本形態における音声素片データベースサーバ装置500の機能構成を例示したブロック図である。なお、図9において図3と共通する部分については、図3と同じ符号を付した。
この図に例示するように、本形態の音声素片データベースサーバ装置500は、一時記憶部311、最適音声素片データベース格納部312、音声素片情報受信部321、最適音声素片データ読み出し部323、音声素片データ送信部322、制御部330、最適音声素片探索部531及び最適音声素片インデックス格納部532を有し、音声素片情報受信部321及び音声素片データ送信部322を通じ、ネットワーク200に接続可能に構成されている。なお、最適音声素片インデックス格納部532の構成は、第1の実施の形態における最適音声素片インデックス格納部113と同じである。
[Functional Configuration of Speech Segment Database Server Device 500]
FIG. 9 is a block diagram illustrating a functional configuration of the speech unit
As illustrated in this figure, the speech unit
<クライアント装置400の処理>
次に、本形態におけるクライアント装置400の処理について説明する。
本形態のクライアント装置400も、第1の実施の形態のクライアント装置100と同様な音声合成処理(ステップS10〜S15)を実行するが、ここでは説明の簡略化のためその説明を省略する。
また本形態でも、クライアント装置400がより高品質な合成音声を生成できるように、音声合成処理(ステップS10〜S15)と独立(並行或いはその処理の後)に、以下に述べる処理を行う。
<Processing of
Next, processing of the
The
Also in this embodiment, the following processing is performed independently of (in parallel with or after the speech synthesis processing) the speech synthesis processing (steps S10 to S15) so that the
図10(a)は、この音声合成処理と独立に行われるクライアント装置400での処理を説明するための流れ図である。以下、この図に従って、この処理を説明する。
まず、音声素片情報送信部133に、一時記憶部114に格納されている読み情報及び韻律パラメータ(テキスト解析部122から出力された読み情報及び韻律パラメータ取得部123から出力された韻律パラメータ)が入力される。そして、音声素片情報送信部133は、これらの読み情報及び韻律パラメータを、ネットワーク200を通して音声素片データベースサーバ装置500に送信する(ステップS50)。
FIG. 10A is a flowchart for explaining processing in the
First, reading information and prosodic parameters stored in the temporary storage unit 114 (reading information output from the
これに対し、音声素片データベースサーバ装置500は、上述の読み情報及び韻律パラメータに対応する最適音声素片データ及び最適音声素片系列情報をクライアント装置400に返信する(詳細は後述)。
次に、クライアント装置400の音声素片データ受信部134において、上記の最適音声素片データ及び最適音声素片系列情報を受信し、一時記憶部114に格納する(ステップS51)。
次に、第1の実施の形態と同様に(図6(b):ステップS20参照)、音声素片データベース追加部137において、一時記憶部114から音声素片データ受信部134において受信された最適音声素片データを読み出し、それを新たなローカル音声素片データとしてローカル音声素片データベース格納部111に追加格納する(ステップS52)。また、これに伴い、音声素片インデックス追加部136において、ステップS51で受信された最適音声素片系列情報(新たなローカル音声素片データに対応するローカル音声素片系列情報)を一時記憶部114から読み込み、これをローカル音声素片インデックス格納部112に追加格納する(ステップS53)。なお、新たなローカル音声素片データの追加方法は、例えば、第1の実施の形態と同様に行う(図6(b):ステップS21参照)。その他、音声素片データ受信部134において受信された全ての最適音声素片データを新たなローカル音声素片データとするのではなく、その一部のみ(例えば、既にローカル音声素片データベース格納部111に格納されているローカル音声素片データと重複するものを除いたもの)を新たなローカル音声素片データとしてローカル音声素片データベース格納部111に格納することとしてもよい。
In response to this, the speech element
Next, the speech unit
Next, as in the first embodiment (see FIG. 6B: Step S20), the speech unit
<音声素片データベースサーバ装置500の処理>
次に、本形態における音声素片データベースサーバ装置500の処理について説明する。
図10(b)は、本形態における音声素片データベースサーバ装置500における最適音声素片データの送信処理を説明するための流れ図である。以下、この図に従って、本形態における最適音声素片データの送信処理の詳細を説明する。
まず、ネットワーク200を通して、クライアント装置400から送信された読み情報及び韻律パラメータが音声素片情報受信部321で受信され、一時記憶部311に格納される(ステップS60)。
<Processing of Speech Segment
Next, processing of the speech unit
FIG. 10B is a flowchart for explaining the optimal speech unit data transmission processing in the speech unit
First, reading information and prosodic parameters transmitted from the
次に、最適音声素片探索部531において、一時記憶部311から、受信された読み情報及び韻律パラメータを読み込み、これらの読み情報及び韻律パラメータをキーとして、最適音声素片インデックス格納部532を検索する。そして、最適音声素片探索部531は、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を最適音声素片インデックス格納部532から抽出し、抽出した最適音声素片系列情報を一時記憶部311に格納する(ステップS61)。前述のとおり、最適音声素片インデックス格納部532に格納されている最適音声素片インデックスの構成は、ローカル音声素片インデックスと同様であり、音声素片系列情報の決定方法も、前述のローカル音声素片探索部124における決定方法(図6(a):ステップS12参照。)と同様に行うことができる。
Next, the optimum speech
次に、この最適音声素片格納情報が、最適音声素片データ読み出し部323に読み込まれ、最適音声素片データ読み出し部323は、当該最適音声素片格納情報が指定する最適音声素片データを、最適音声素片データベース格納部312から読み出して一時記憶部311に格納する(ステップS62)。ここで、最適音声素片データベース格納部312から最適音声素片データを読み出すための処理も、ローカル音声素片データ読み出し部125におけるローカル音声素片データの読み出し処理(図6(a):ステップS13参照。)と同様にして行うことができる。
Next, the optimum speech element storage information is read by the optimum speech element
最後に、一時記憶部311に格納された最適音声素片データとそれに対応する最適音声素片系列情報とが、音声素片データ送信部322に入力され、順次ネットワーク200を通してクライアント装置400に送信される(ステップS63)。
<本形態の特徴>
以上のような構成としても第1の実施の形態と同様な効果を得ることができる。さらに、本形態では、最適音声素片探索部531及び最適音声素片インデックス格納部532を音声素片データベースサーバ装置300に配置することとしたため、クライアント装置400に要求されるデータ格納容量や計算量を低減させることができる。
Finally, the optimum speech unit data stored in the
<Features of this embodiment>
Even if it is the above structures, the effect similar to 1st Embodiment can be acquired. Furthermore, in this embodiment, since the optimum speech
〔第3の実施の形態〕
次に、本発明における第3の実施の形態について説明する。
本形態は第1,2の実施の形態の変形例であり、クライアント装置が最適音声素片インデックスを具備せず、代わりに音声素片データベースサーバ装置が最適音声素片インデックスを具備する点、及びクライアント装置が要求最適音声素片系列情報を生成する代わりに、音声素片データベースサーバ装置が送信最適音声素片系列情報を生成する点が、第1の実施の形態との主な相違点である。以下では、第1,2の実施の形態との相違点を中心に説明し、第1,2の実施の形態と共通する事項については説明を省略する。
[Third Embodiment]
Next, a third embodiment of the present invention will be described.
This embodiment is a modification of the first and second embodiments, in which the client device does not have the optimal speech unit index, and instead the speech unit database server device has the optimal speech unit index, and The main difference from the first embodiment is that the speech unit database server device generates the transmission optimal speech unit sequence information instead of the client device generating the required optimal speech unit sequence information. . Below, it demonstrates centering on difference with 1st, 2nd embodiment, and abbreviate | omits description about the matter which is common in 1st, 2nd embodiment.
<構成>
本形態の音声合成システムは、第1の実施の形態のクライアント装置100の代わりにクライアント装置600を設け、音声素片データベースサーバ装置300の代わりに音声素片データベースサーバ装置700を設けた構成となる。また、本形態のクライアント装置600及び音声素片データベースサーバ装置700も、第1の実施の形態と同様、例えば、図1(b)に例示したMPU102や公知のコンピュータのCPUに所定のプログラムが読み込まれ、実行されることにより構成されるものである。
<Configuration>
The speech synthesis system according to this embodiment has a configuration in which a
[クライアント装置600の機能構成]
図11は、本形態におけるクライアント装置600の機能構成を例示したブロック図である。なお、図11において図2と共通する部分については、図2と同じ符号を付した。
この図に例示するように、本形態のクライアント装置600の構成は、第2の実施の形態のクライアント装置400の構成と同様である。すなわち、クライアント装置600の構成は、ローカル音声素片データベース格納部111、ローカル音声素片インデックス格納部112、一時記憶部114、テキストデータ入力部121、テキスト解析部122、韻律パラメータ取得部123、ローカル音声素片探索部124、ローカル音声素片データ読み出し部125、音声素片接続部126、音声出力部127、音声素片情報送信部133、音声素片データ受信部134、音声素片インデックス追加部136、音声素片データベース追加部137及び制御部140を有しており、音声素片情報送信部133及び音声素片データ受信部134を通じてネットワーク200に接続可能に構成されている。
[Functional Configuration of Client Device 600]
FIG. 11 is a block diagram illustrating a functional configuration of the
As illustrated in this figure, the configuration of the
[音声素片データベースサーバ装置700の機能構成]
図12は、本形態における音声素片データベースサーバ装置700の機能構成を例示したブロック図である。なお、図12において図3或いは図9と共通する部分については、図3或いは図9と同じ符号を付した。
この図に例示するように、本形態の音声素片データベースサーバ装置700は、一時記憶部311、最適音声素片データベース格納部312、音声素片情報受信部321、最適音声素片データ読み出し部323、音声素片データ送信部322、制御部330、最適音声素片探索部531、最適音声素片インデックス格納部532及び送信音声素片決定部711を有し、音声素片情報受信部321及び音声素片データ送信部322を通じ、ネットワーク200に接続可能に構成されている。なお、最適音声素片インデックス格納部532の構成は、第1の実施の形態における最適音声素片インデックス格納部113と同じである。
[Functional Configuration of Speech Segment Database Server 700]
FIG. 12 is a block diagram illustrating a functional configuration of the speech unit
As illustrated in this figure, the speech unit
<クライアント装置600の処理>
次に、本形態におけるクライアント装置600の処理について説明する。
本形態のクライアント装置600も、第1の実施の形態のクライアント装置100と同様な音声合成処理(ステップS10〜S15)を実行するが、ここでは説明の簡略化のためその説明を省略する。
また本形態でも、クライアント装置600がより高品質な合成音声を生成できるように、音声合成処理(ステップS10〜S15)と独立(並行或いはその処理の後)に、以下に述べる処理を行う。
<Processing of
Next, processing of the
The
Also in this embodiment, the following processing is performed independently of (in parallel with or after the speech synthesis processing) the speech synthesis processing (steps S10 to S15) so that the
図13(a)は、この音声合成処理と独立に行われるクライアント装置600での処理を説明するための流れ図である。以下、この図に従って、この処理を説明する。
まず、音声素片情報送信部133に、一時記憶部114に格納されている、ローカル音声素片系列情報(ローカル音声素片探索部124から出力されたローカル音声素片系列情報)、読み情報及び韻律パラメータ(テキスト解析部122から出力された読み情報及び韻律パラメータ取得部123から出力された韻律パラメータ)が入力される。そして、音声素片情報送信部133は、これらのローカル音声素片系列情報、読み情報及び韻律パラメータを、ネットワーク200を通して音声素片データベースサーバ装置700に送信する(ステップS80)。
FIG. 13A is a flowchart for explaining processing in the
First, the local speech unit sequence information (local speech unit sequence information output from the local speech unit search unit 124), reading information, and stored in the
これに対し、音声素片データベースサーバ装置700は、上述のローカル音声素片系列情報、読み情報及び韻律パラメータから求めた送信音声素片系列情報に対応する最適音声素片データ及び最適音声素片系列情報をクライアント装置600に返信する(詳細は後述)。
これ以降、クライアント装置600で行われる処理は第2の実施の形態と同様である。すなわち、クライアント装置600は音声素片データ受信部134において、上記の最適音声素片データ及び最適音声素片系列情報を受信し、一時記憶部114に格納する(ステップS81)。
On the other hand, the speech unit
Thereafter, the processing performed by the
次に、第1の実施の形態と同様に(図6(b):ステップS20参照)、音声素片データベース追加部137において、一時記憶部114から音声素片データ受信部134において受信された最適音声素片データを読み出し、それを新たなローカル音声素片データとしてローカル音声素片データベース格納部111に追加格納する(ステップS82)。また、これに伴い、音声素片インデックス追加部136において、ステップS81で受信された最適音声素片系列情報(新たなローカル音声素片データに対応するローカル音声素片系列情報)を一時記憶部114から読み込み、これをローカル音声素片インデックス格納部112に追加格納する(ステップS83)。なお、新たなローカル音声素片データの追加方法は、例えば、第1の実施の形態と同様に行う(図6(b):ステップS21参照)。
Next, as in the first embodiment (see FIG. 6B: Step S20), the speech unit
<音声素片データベースサーバ装置700の処理>
次に、本形態における音声素片データベースサーバ装置700の処理について説明する。
図13(b)は、本形態における音声素片データベースサーバ装置700における最適音声素片データの送信処理を説明するための流れ図である。以下、この図に従って、本形態における最適音声素片データの送信処理の詳細を説明する。
まず、ネットワーク200を通して、クライアント装置400から送信されたローカル音声素片系列情報、読み情報及び韻律パラメータが音声素片情報受信部321で受信され、一時記憶部311に格納される(ステップS90)。
<Processing of Speech
Next, processing of the speech unit
FIG. 13B is a flowchart for explaining the optimal speech segment data transmission process in the speech segment
First, local speech unit sequence information, reading information, and prosodic parameters transmitted from the
次に、最適音声素片探索部531において、一時記憶部311から、受信された読み情報及び韻律パラメータを読み込み、これらの読み情報及び韻律パラメータをキーとして、最適音声素片インデックス格納部532を検索する。そして、最適音声素片探索部531は、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を最適音声素片インデックス格納部532から抽出し、抽出した最適音声素片系列情報を一時記憶部311に格納する(ステップS91)。前述のとおり、最適音声素片インデックス格納部532に格納されている最適音声素片インデックスの構成は、ローカル音声素片インデックスと同様であり、音声素片系列情報の決定方法も、前述のローカル音声素片探索部124における決定方法(図6(a):ステップS12参照。)と同様に行うことができる。
Next, the optimum speech
次に、送信音声素片決定部71において、一時記憶部311から音声素片情報受信部321において受信されたローカル音声素片系列情報及び最適音声素片探索部531から出力された最適音声素片系列情報を読み込む。そして、送信音声素片決定部71は、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した送信音声素片系列情報を生成し、当該送信音声素片系列情報を一時記憶部311に格納する(ステップS92)。なお、この送信音声素片系列情報の生成は、例えば、第1の実施の形態における要求音声素片系列情報の生成(ステップS17参照)と同様に行われる。
Next, in the transmission speech unit determination unit 71, the local speech unit sequence information received by the speech unit
次に、最適音声素片データ読み出し部323に、一時記憶部311から送信音声素片系列情報の最適音声素片格納情報が読み込まれる。そして、最適音声素片データ読み出し部323は、当該最適音声素片格納情報が指定する最適音声素片データを、最適音声素片データベース格納部から読み出し、一時記憶部311に格納する(ステップS93)。ここで、最適音声素片データベース格納部312から最適音声素片データを読み出すための処理も、ローカル音声素片データ読み出し部125におけるローカル音声素片データの読み出し処理(図6(a):ステップS13参照。)と同様にして行うことができる。
Next, the optimum speech unit
最後に、一時記憶部311に格納された最適音声素片データとそれに対応する最適音声素片系列情報とが、音声素片データ送信部322に入力され、順次ネットワーク200を通してクライアント装置600に送信される(ステップS94)。
<本形態の特徴>
以上のような構成としても第1の実施の形態と同様な効果を得ることができる。さらに、本形態では、最適音声素片探索部531及び最適音声素片インデックス格納部532を音声素片データベースサーバ装置700に配置することとしたため、クライアント装置600に要求されるデータ格納容量や計算量を低減させることができる。また、本形態では、音声素片データベースサーバ装置700からクライアント装置600に送信される最適音声素片データ及び最適音声素片系列情報は、送信音声素片決定部711が決定した送信音声素片系列情報に対応するもののみである。これにより、既にクライアント装置600に格納されている音声素片データと重複する最適音声素片データ等が送信されることを防止でき、ネットワークへの通信負担も軽減することができる。
Finally, the optimum speech unit data stored in the
<Features of this embodiment>
Even if it is the above structures, the effect similar to 1st Embodiment can be acquired. Furthermore, in this embodiment, since the optimum speech
〔第4の実施の形態〕
本形態は、第1の実施の形態の変形例であり、クライアント装置のハードウェア構成上、ローカル音声素片データベースのサイズが予め決められたサイズ以上大きくできないような場合に有効な例である。以下では、第1の実施の形態との相違点のみを説明し、第1の実施の形態と共通する事項については説明を省略する。
<構成>
図14は、本形態におけるクライアント装置800の機能構成を例示したブロック図である。なお、図14において図2と共通する部分については、図2と同じ符号を付した。また、音声合成システム全体及び音声素片データベースサーバ装置の構成については第1の実施の形態と同様である。
[Fourth Embodiment]
This embodiment is a modification of the first embodiment, and is effective when the size of the local speech segment database cannot be increased beyond a predetermined size due to the hardware configuration of the client device. In the following, only differences from the first embodiment will be described, and description of matters common to the first embodiment will be omitted.
<Configuration>
FIG. 14 is a block diagram illustrating a functional configuration of the
本形態におけるクライアント装置800と、第1の実施の形態におけるクライアント装置100との相違点は、クライアント装置800がさらに、ローカル音声素片データベース格納部111に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下になるように、所定の優先順位に従って、当該ローカル音声素片データベース格納部111に格納されたローカル音声素片データの一部を削除する音声素片データ削除部811と、音声素片データ削除部811において削除されたローカル音声素片データに対応するローカル音声素片系列情報をローカル音声素片インデックス格納部112から削除する音声素片系列情報削除部812と、をさらに具備する点である。
The difference between the
また、この例の場合、クライアント装置800のローカル音声素片インデックス格納部112に格納されるローカル音声素片インデックスの構成も第1実施の形態との相違する。図15(a)は、クライアント装置800のローカル音声素片インデックス格納部112に格納されるローカル音声素片インデックス812aのデータ構成を例示した図である。この図に例示するように、この例のローカル音声素片インデックス812aは、第1の実施の形態と同様なローカル音声素片系列情報812aaに、それらの読み出し回数や最後に読み出された時間等の「読み出し情報」が対応付けられた構成となっている。
In this example, the configuration of the local speech unit index stored in the local speech unit
<処理>
本形態では、第1の実施の形態で説明したステップS10〜S21,S30〜S32の処理と同様な処理が行われる。ただし、以下の点で第1の実施の形態の処理と相違する。
[ローカル音声素片系列情報の探索処理(ステップS12に対応)]
第1の実施の形態との相違点は、ローカル音声素片探索部124がローカル音声素片系列情報をローカル音声素片インデックス格納部112に格納されたローカル音声素片インデックス812a(図15(a))から読み出す際、その読み出し回数や最後に読み出された時間等の「読み出し情報」をローカル音声素片インデックス812aに書き込む点である。その他は、ステップS12と同じである。
<Processing>
In this embodiment, processing similar to the processing in steps S10 to S21 and S30 to S32 described in the first embodiment is performed. However, the following points are different from the processing of the first embodiment.
[Search processing of local speech unit sequence information (corresponding to step S12)]
The difference from the first embodiment is that the local speech
[ローカル音声素片データ削除処理]
ローカル音声素片データ削除処理は、ローカル音声素片データベース格納部111に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下になるように、所定の優先順位に従って、当該ローカル音声素片データベース格納部111に格納されたローカル音声素片データの一部を削除し、削除されたローカル音声素片データに対応するローカル音声素片系列情報をローカル音声素片インデックス格納部112から削除する処理である。このローカル音声素片データ削除処理は、例えば、ステップS19とステップS20との間で実行されてもよいし、ステップS21の後に実行されてもよいし、その他任意のタイミングで実行されてもよい。
[Local speech segment data deletion processing]
The local speech element data deletion processing is performed according to a predetermined priority order so that the total size of the local speech element data stored in the local speech element
図15(b)は、このローカル音声素片データ削除処理を説明するための流れ図である。以下、この図に従ってこのローカル音声素片データ削除処理を説明する。
まず、クライアント装置800の音声素片データ削除部811において、ローカル音声素片データベース格納部111に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下であるか否かを判定する(ステップS100)。ここで、ローカル音声素片データベース格納部に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下である場合には処理を終了する。一方、ローカル音声素片データベース格納部111に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下でない場合、音声素片データ削除部811において、所定の優先順位に従って、当該ローカル音声素片データベース格納部111に格納されたローカル音声素片データの一部を削除対象として選択し(ステップS101)、そのローカル音声素片データを削除する(ステップS102)。なお、このローカル音声素片データの削除は、例えば、ローカル音声素片データベースのサイズが予め決められた大きさになるように行われる。また、ここでの「所定の優先順位」とは、例えば、所定の期間において最も読み出された回数が少ないローカル音声素片データ、又は、一度も読み出されたことがないことを含めて最も時間的に長い間読み出されことがないローカル音声素片データから順に削除する順位等を意味する。
FIG. 15B is a flowchart for explaining the local speech segment data deletion process. Hereinafter, the local speech segment data deletion process will be described with reference to FIG.
First, the speech unit
そして、音声素片データ削除部811は、削除したローカル音声素片データを特定する情報(例えば、「ファイル番号」「時間長」「始点位置」等)を一時記憶部114に格納する。次に、音声素片系列情報削除部812において、一時記憶部114から、音声素片データ削除部811において削除されたローカル音声素片データを特定する情報を読み込み、これに対応するローカル音声素片系列情報をローカル音声素片インデックス格納部112から削除する(ステップS103)。
<本形態の特徴>
本形態の構成により、クライアント装置800のハードウェア構成上、ローカル音声素片データベースのサイズが予め決められたサイズ以上大きくできないような場合でも本発明を適用することができる。
Then, the speech unit
<Features of this embodiment>
With the configuration of the present embodiment, the present invention can be applied even when the size of the local speech unit database cannot be increased beyond a predetermined size due to the hardware configuration of the
なお、本形態では、第1の実施の形態において、上述のローカル音声素片データ削除処理を実行する例について説明したが、第2の実施の形態及び第3の実施の形態において、上述のローカル音声素片データ削除処理を実行することとしてもよい。その場合のクライアント装置の構成は、例えば、前述のクライアント装置400,600に、上述の音声素片データ削除部811及び音声素変系列情報削除部812を追加したものとなる。
なお、本発明は上述の各実施の形態に限定されるものではなく、その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
In the present embodiment, the example of executing the above-described local speech segment data deletion processing in the first embodiment has been described. However, in the second embodiment and the third embodiment, the above-described local speech unit data is deleted. The speech segment data deletion process may be executed. In this case, the configuration of the client device is, for example, the above-described
Note that the present invention is not limited to the above-described embodiments, and other modifications can be made without departing from the spirit of the present invention. In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
本発明の産業上の利用分野としては、例えば、携帯電話やパーソナルコンピュータにおける合成音声の作成や、自動音声応答システム等を例示できる。 As an industrial application field of the present invention, for example, creation of synthesized voice in a mobile phone or a personal computer, an automatic voice response system, and the like can be exemplified.
1 音声合成システム
100,400,600,800 クライアント装置
300,500,700 音声素片データベースサーバ装置
1
Claims (13)
前記音声素片データベースサーバ装置が、
最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)を格納する最適音声素片データベース格納部を具備し、
前記クライアント装置が、
ローカル音声素片データ(「クライアント装置に格納される音声素片データ」を意味する)を格納するローカル音声素片データベース格納部と、
ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報を格納するローカル音声素片インデックス格納部と、
最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納する最適音声素片インデックス格納部と、
音声化すべきテキストデータが入力され、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力するテキスト解析部と、
前記テキスト解析部から出力された韻律情報が入力され、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力する韻律パラメータ取得部と、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが入力され、当該入力された読み情報及び韻律パラメータをキーとして前記ローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力するローカル音声素片探索部と、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が入力され、当該ローカル音声素片格納情報が指定するローカル音声素片データを、前記ローカル音声素片データベース格納部から読み出すローカル音声素片データ読み出し部と、
前記ローカル音声素片データ読み出し部が読み出したローカル音声素片データが入力され、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力する音声素片接続部と、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが入力され、当該入力された読み情報及び韻律パラメータをキーとして前記最適音声素片インデックス格納部を検索し、入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する最適音声素片探索部と、
前記ローカル音声素片探索部及び前記最適音声素片探索部からそれぞれ出力されたローカル音声素片系列情報及び最適音声素片系列情報が入力され、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した要求音声素片系列を生成し、当該要求音声素片系列情報を出力する要求音声素片決定部と、
要求音声素片系列情報の最適音声素片格納情報を、ネットワークを通じ、音声素片データベースサーバ装置に送信する音声素片情報送信部と、を具備し、
前記音声素片データベースサーバ装置が、
要求音声素片系列情報の最適音声素片格納情報を受信する音声素片情報受信部と、
受信された最適音声素片格納情報が入力され、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出す最適音声素片データ読み出し部と、
読み出された最適音声素片データを、ネットワークを通じ、前記クライアント装置に返信する音声素片データ送信部と、をさらに具備し、
前記クライアント装置が、
最適音声素片データを受信する音声素片データ受信部と、
前記音声素片データ受信部において受信された最適音声素片データを、新たなローカル音声素片データとして前記ローカル音声素片データベース格納部に追加格納する音声素片データベース追加部と、
前記新たなローカル音声素片データに対応するローカル音声素片系列情報を、前記ローカル音声素片インデックス格納部に追加格納する音声素片インデックス追加部と、をさらに具備する、
ことを特徴とする音声合成システム。 A speech synthesis system comprising at least one client device and at least one speech segment database server device connected to the client device through a network,
The speech segment database server device is
An optimal speech segment database storage unit for storing optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”);
The client device is
A local speech segment database storage unit for storing local speech segment data (meaning “speech segment data stored in the client device”);
Local speech unit index storage unit for storing local speech unit sequence information in which local speech unit storage information for specifying local speech unit data and reading information and prosodic parameters corresponding to the local speech unit data are associated. When,
Optimal speech unit index storage unit for storing optimal speech unit storage information in which optimum speech unit storage information for designating optimal speech unit data and reading information and prosodic parameters corresponding to the optimal speech unit data are associated. When,
Text data to be uttered is input, text analysis is performed on the text data to generate reading information and prosodic information, and a text analysis unit that outputs the reading information and prosodic information;
Prosody information output from the text analysis unit is input, using the prosodic information to generate a physical prosody parameter necessary for speech synthesis, and a prosodic parameter acquisition unit that outputs the prosodic parameter;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input, and the local speech segment index storage unit is searched using the input reading information and prosodic parameters as keys, A local speech unit search unit for extracting local speech unit sequence information corresponding to reading information and prosodic parameters belonging to a similar range of the input reading information and prosodic parameters, and outputting the extracted local speech unit sequence information; ,
The local speech element storage information of the local speech element sequence information output from the local speech element search unit is input, and the local speech element data specified by the local speech element storage information is converted into the local speech element data. A local speech unit data reading unit that reads from the database storage unit;
A local speech unit data read by the local speech unit data reading unit, a synthesized speech data is generated using the local speech unit data, and a speech unit connection unit that outputs the synthesized speech data;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input, and the optimal speech segment index storage unit is searched using the input reading information and prosodic parameters as keys, An optimal speech segment search unit for extracting optimal speech segment sequence information corresponding to reading information and prosodic parameters belonging to a similar range of input reading information and prosodic parameters, and outputting the extracted optimal speech segment sequence information;
The local speech unit sequence information and the optimal speech unit sequence information respectively output from the local speech unit search unit and the optimal speech unit search unit are input, and the local speech unit is calculated from the optimal speech unit sequence information. Generating a requested speech unit sequence excluding those having common sequence information, reading information, and prosodic parameters, and outputting the requested speech unit sequence information;
A speech unit information transmitting unit that transmits the optimal speech unit storage information of the requested speech unit sequence information to the speech unit database server device through the network, and
The speech segment database server device is
A speech unit information receiving unit for receiving optimum speech unit storage information of the requested speech unit sequence information;
The received optimal speech unit storage information is input, and the optimal speech unit data reading unit that reads out the optimal speech unit data specified by the optimal speech unit storage information from the optimal speech unit database storage unit;
A speech unit data transmitting unit that returns the read optimal speech unit data to the client device via a network; and
The client device is
A speech unit data receiving unit for receiving optimal speech unit data;
A speech unit database adding unit for additionally storing the optimum speech unit data received by the speech unit data receiving unit in the local speech unit database storage unit as new local speech unit data;
A speech unit index adding unit that additionally stores local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit;
A speech synthesis system characterized by this.
前記音声素片データベースサーバ装置が、
最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)を格納する最適音声素片データベース格納部と、
最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納する最適音声素片インデックス格納部と、を具備し、
前記クライアント装置が、
ローカル音声素片データ(「クライアント装置に格納される音声素片データ」を意味する)を格納するローカル音声素片データベース格納部と、
ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報を格納するローカル音声素片インデックス格納部と、
音声化すべきテキストデータが入力され、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力するテキスト解析部と、
前記テキスト解析部から出力された韻律情報が入力され、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力する韻律パラメータ取得部と、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが入力され、当該入力された読み情報及び韻律パラメータをキーとして前記ローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力するローカル音声素片探索部と、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が入力され、当該ローカル音声素片格納情報が指定するローカル音声素片データを、前記ローカル音声素片データベース格納部から読み出すローカル音声素片データ読み出し部と、
前記ローカル音声素片データ読み出し部が読み出したローカル音声素片データが入力され、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力する音声素片接続部と、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータを、ネットワークを通じ、音声素片データベースサーバ装置に送信する音声素片情報送信部と、を具備し、
前記音声素片データベースサーバ装置が、
読み情報及び韻律パラメータを受信する音声素片情報受信部と、
受信された読み情報及び韻律パラメータをキーとして前記最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する最適音声素片探索部と、
前記最適音声素片探索部から出力された最適音声素片系列情報の最適音声素片格納情報が入力され、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出す最適音声素片データ読み出し部と、
読み出された最適音声素片データを、ネットワークを通じ、前記クライアント装置に返信する音声素片データ送信部と、をさらに具備し、
前記クライアント装置が、
最適音声素片データを受信する音声素片データ受信部と、
前記音声素片データ受信部において受信された最適音声素片データの少なくとも一部を、新たなローカル音声素片データとして前記ローカル音声素片データベース格納部に追加格納する音声素片データベース追加部と、
前記新たなローカル音声素片データに対応するローカル音声素片系列情報を、前記ローカル音声素片インデックス格納部に追加格納する音声素片インデックス追加部と、をさらに具備する、
ことを特徴とする音声合成システム。 A speech synthesis system comprising at least one client device and at least one speech segment database server device connected to the client device through a network,
The speech segment database server device is
An optimal speech segment database storage unit for storing optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”);
Optimal speech unit index storage unit for storing optimal speech unit storage information in which optimum speech unit storage information for designating optimal speech unit data and reading information and prosodic parameters corresponding to the optimal speech unit data are associated. And comprising
The client device is
A local speech segment database storage unit for storing local speech segment data (meaning “speech segment data stored in the client device”);
Local speech unit index storage unit for storing local speech unit sequence information in which local speech unit storage information for specifying local speech unit data and reading information and prosodic parameters corresponding to the local speech unit data are associated. When,
Text data to be uttered is input, text analysis is performed on the text data to generate reading information and prosodic information, and a text analysis unit that outputs the reading information and prosodic information;
Prosody information output from the text analysis unit is input, using the prosodic information to generate a physical prosody parameter necessary for speech synthesis, and a prosodic parameter acquisition unit that outputs the prosodic parameter;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input, and the local speech segment index storage unit is searched using the input reading information and prosodic parameters as keys, A local speech unit search unit for extracting local speech unit sequence information corresponding to reading information and prosodic parameters belonging to a similar range of the input reading information and prosodic parameters, and outputting the extracted local speech unit sequence information; ,
The local speech element storage information of the local speech element sequence information output from the local speech element search unit is input, and the local speech element data specified by the local speech element storage information is converted into the local speech element data. A local speech unit data reading unit that reads from the database storage unit;
A local speech unit data read by the local speech unit data reading unit, a synthesized speech data is generated using the local speech unit data, and a speech unit connection unit that outputs the synthesized speech data;
A speech unit information transmission unit that transmits the reading information output from the text analysis unit and the prosodic parameters output from the prosody parameter acquisition unit to a speech unit database server device via a network; and
The speech segment database server device is
A speech unit information receiving unit for receiving reading information and prosodic parameters;
The optimum speech unit index storage unit is searched using the received reading information and prosodic parameters as keys, and the optimum speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the received reading information and prosodic parameters , And an optimal speech segment search unit that outputs the extracted optimal speech segment sequence information,
The optimum speech element storage information of the optimum speech element sequence information output from the optimum speech element search unit is input, and the optimum speech element data specified by the optimum speech element storage information is converted into the optimum speech element data. An optimal speech segment data reading unit for reading from the database storage unit;
A speech unit data transmitting unit that returns the read optimal speech unit data to the client device via a network; and
The client device is
A speech unit data receiving unit for receiving optimal speech unit data;
A speech unit database addition unit for additionally storing at least a part of the optimum speech unit data received by the speech unit data reception unit in the local speech unit database storage unit as new local speech unit data;
A speech unit index adding unit that additionally stores local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit;
A speech synthesis system characterized by this.
前記音声素片データベースサーバ装置が、
最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)を格納する最適音声素片データベース格納部と、
最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納する最適音声素片インデックス格納部と、を具備し、
前記クライアント装置が、
ローカル音声素片データ(「クライアント装置に格納される音声素片データ」を意味する)を格納するローカル音声素片データベース格納部と、
ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報を格納するローカル音声素片インデックス格納部と、
音声化すべきテキストデータが入力され、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力するテキスト解析部と、
前記テキスト解析部から出力された韻律情報が入力され、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力する韻律パラメータ取得部と、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが入力され、当該入力された読み情報及び韻律パラメータをキーとして前記ローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力するローカル音声素片探索部と、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が入力され、当該ローカル音声素片格納情報が指定するローカル音声素片データを、前記ローカル音声素片データベース格納部から読み出すローカル音声素片データ読み出し部と、
前記ローカル音声素片データ読み出し部が読み出したローカル音声素片データが入力され、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力する音声素片接続部と、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報、前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータを、ネットワークを通じ、音声素片データベースサーバ装置に送信する音声素片情報送信部と、を具備し、
前記音声素片データベースサーバ装置が、
ローカル音声素片系列情報、読み情報及び韻律パラメータを受信する音声素片情報受信部と、
受信された読み情報及び韻律パラメータをキーとして前記最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する最適音声素片探索部と、
前記音声素片情報受信部において受信されたローカル音声素片系列情報及び最適音声素片探索部から出力された最適音声素片系列情報が入力され、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した送信音声素片系列情報を生成し、当該送信音声素片系列情報を出力する送信音声素片決定部と、
送信音声素片系列情報の最適音声素片格納情報が入力され、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出す最適音声素片データ読み出し部と、
読み出された最適音声素片データを、ネットワークを通じ、前記クライアント装置に返信する音声素片データ送信部と、をさらに具備し、
前記クライアント装置が、
最適音声素片データを受信する音声素片データ受信部と、
前記音声素片データ受信部において受信された最適音声素片データを、新たなローカル音声素片データとして前記ローカル音声素片データベース格納部に追加格納する音声素片データベース追加部と、
前記新たなローカル音声素片データに対応するローカル音声素片系列情報を、前記ローカル音声素片インデックス格納部に追加格納する音声素片インデックス追加部と、をさらに具備する、
ことを特徴とする音声合成システム。 A speech synthesis system comprising at least one client device and at least one speech segment database server device connected to the client device through a network,
The speech segment database server device is
An optimal speech segment database storage unit for storing optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”);
Optimal speech unit index storage unit for storing optimal speech unit storage information in which optimum speech unit storage information for designating optimal speech unit data and reading information and prosodic parameters corresponding to the optimal speech unit data are associated. And comprising
The client device is
A local speech segment database storage unit for storing local speech segment data (meaning “speech segment data stored in the client device”);
Local speech unit index storage unit for storing local speech unit sequence information in which local speech unit storage information for specifying local speech unit data and reading information and prosodic parameters corresponding to the local speech unit data are associated. When,
Text data to be uttered is input, text analysis is performed on the text data to generate reading information and prosodic information, and a text analysis unit that outputs the reading information and prosodic information;
Prosody information output from the text analysis unit is input, using the prosodic information to generate a physical prosody parameter necessary for speech synthesis, and a prosodic parameter acquisition unit that outputs the prosodic parameter;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input, and the local speech segment index storage unit is searched using the input reading information and prosodic parameters as keys, A local speech unit search unit for extracting local speech unit sequence information corresponding to reading information and prosodic parameters belonging to a similar range of the input reading information and prosodic parameters, and outputting the extracted local speech unit sequence information; ,
The local speech element storage information of the local speech element sequence information output from the local speech element search unit is input, and the local speech element data specified by the local speech element storage information is converted into the local speech element data. A local speech unit data reading unit that reads from the database storage unit;
A local speech unit data read by the local speech unit data reading unit, a synthesized speech data is generated using the local speech unit data, and a speech unit connection unit that outputs the synthesized speech data;
The local speech unit sequence information output from the local speech unit search unit, the reading information output from the text analysis unit, and the prosodic parameters output from the prosodic parameter acquisition unit, the speech unit database server via the network A speech unit information transmission unit to be transmitted to the device,
The speech segment database server device is
A speech unit information receiving unit for receiving local speech unit sequence information, reading information, and prosodic parameters;
The optimum speech unit index storage unit is searched using the received reading information and prosodic parameters as keys, and the optimum speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the received reading information and prosodic parameters , And an optimal speech segment search unit that outputs the extracted optimal speech segment sequence information,
The local speech unit sequence information received by the speech unit information receiving unit and the optimal speech unit sequence information output from the optimal speech unit search unit are input, and the local speech unit information is obtained from the optimal speech unit sequence information. A transmission speech unit determination unit for generating transmission speech unit sequence information excluding those having common sequence information and reading information and prosodic parameters, and outputting the transmission speech unit sequence information;
Optimum speech unit data reading that reads the optimum speech unit storage information of the transmission speech unit sequence information and reads the optimum speech unit data specified by the optimum speech unit storage information from the optimum speech unit database storage unit And
A speech unit data transmitting unit that returns the read optimal speech unit data to the client device via a network; and
The client device is
A speech unit data receiving unit for receiving optimal speech unit data;
A speech unit database adding unit for additionally storing the optimum speech unit data received by the speech unit data receiving unit in the local speech unit database storage unit as new local speech unit data;
A speech unit index adding unit that additionally stores local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit;
A speech synthesis system characterized by this.
前記クライアント装置が、
前記ローカル音声素片データベース格納部に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下になるように、所定の優先順位に従って、当該ローカル音声素片データベース格納部に格納されたローカル音声素片データの一部を削除する音声素片データ削除部と、
前記音声素片データ削除部において削除されたローカル音声素片データに対応するローカル音声素片系列情報を前記ローカル音声素片インデックス格納部から削除する音声素片系列情報削除部と、をさらに具備する
ことを特徴とする音声合成システム。 The speech synthesis system according to any one of claims 1 to 3,
The client device is
Stored in the local speech unit database storage unit according to a predetermined priority order so that the total size of the local speech unit data stored in the local speech unit database storage unit is less than or equal to a predetermined size. A speech segment data deletion unit for deleting a part of the local speech segment data;
A speech unit sequence information deletion unit that deletes local speech unit sequence information corresponding to the local speech unit data deleted in the speech unit data deletion unit from the local speech unit index storage unit. A speech synthesis system characterized by this.
ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報を格納するローカル音声素片インデックス格納部と、
最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)を指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納する最適音声素片インデックス格納部と、
音声化すべきテキストデータが入力され、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力するテキスト解析部と、
前記テキスト解析部から出力された韻律情報が入力され、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力する韻律パラメータ取得部と、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが入力され、当該入力された読み情報及び韻律パラメータをキーとして前記ローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力するローカル音声素片探索部と、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が入力され、当該ローカル音声素片格納情報が指定するローカル音声素片データを、前記ローカル音声素片データベース格納部から読み出すローカル音声素片データ読み出し部と、
前記ローカル音声素片データ読み出し部が読み出したローカル音声素片データが入力され、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力する音声素片接続部と、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが入力され、当該入力された読み情報及び韻律パラメータをキーとして前記最適音声素片インデックス格納部を検索し、入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する最適音声素片探索部と、
前記ローカル音声素片探索部及び前記最適音声素片探索部からそれぞれ出力されたローカル音声素片系列情報及び最適音声素片系列情報が入力され、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した要求音声素片系列情報を生成し、当該要求音声素片系列情報を出力する要求音声素片決定部と、
要求音声素片系列情報の最適音声素片格納情報を、ネットワークを通じ、音声素片データベースサーバ装置に送信する音声素片情報送信部と、
前記音声素片データベースサーバ装置からネットワークを通じて送信された最適音声素片データを受信する音声素片データ受信部と、
前記音声素片データ受信部において受信された最適音声素片データを、新たなローカル音声素片データとして前記ローカル音声素片データベース格納部に追加格納する音声素片データベース追加部と、
前記新たなローカル音声素片データに対応するローカル音声素片系列情報を、前記ローカル音声素片インデックス格納部に追加格納する音声素片インデックス追加部と、を具備する、
ことを特徴とするクライアント装置。 A local speech segment database storage unit for storing local speech segment data (meaning “speech segment data stored in the client device”);
Local speech unit index storage unit for storing local speech unit sequence information in which local speech unit storage information for specifying local speech unit data and reading information and prosodic parameters corresponding to the local speech unit data are associated. When,
Optimal speech segment storage information for specifying optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”), reading information and prosodic parameters corresponding to the optimal speech segment data An optimal speech unit index storage unit for storing optimal speech unit sequence information associated with
Text data to be uttered is input, text analysis is performed on the text data to generate reading information and prosodic information, and a text analysis unit that outputs the reading information and prosodic information;
Prosody information output from the text analysis unit is input, using the prosodic information to generate a physical prosody parameter necessary for speech synthesis, and a prosodic parameter acquisition unit that outputs the prosodic parameter;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input, and the local speech segment index storage unit is searched using the input reading information and prosodic parameters as keys, A local speech unit search unit for extracting local speech unit sequence information corresponding to reading information and prosodic parameters belonging to a similar range of the input reading information and prosodic parameters, and outputting the extracted local speech unit sequence information; ,
The local speech element storage information of the local speech element sequence information output from the local speech element search unit is input, and the local speech element data specified by the local speech element storage information is converted into the local speech element data. A local speech unit data reading unit that reads from the database storage unit;
A local speech unit data read by the local speech unit data reading unit, a synthesized speech data is generated using the local speech unit data, and a speech unit connection unit that outputs the synthesized speech data;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input, and the optimal speech segment index storage unit is searched using the input reading information and prosodic parameters as keys, An optimal speech segment search unit for extracting optimal speech segment sequence information corresponding to reading information and prosodic parameters belonging to a similar range of input reading information and prosodic parameters, and outputting the extracted optimal speech segment sequence information;
The local speech unit sequence information and the optimal speech unit sequence information respectively output from the local speech unit search unit and the optimal speech unit search unit are input, and the local speech unit is calculated from the optimal speech unit sequence information. Request speech unit sequence information excluding those that share sequence information and reading information and prosody parameters in common, and output the requested speech unit sequence information,
A speech unit information transmitting unit that transmits the optimal speech unit storage information of the requested speech unit sequence information to the speech unit database server device via the network;
A speech unit data receiving unit for receiving optimum speech unit data transmitted from the speech unit database server device through a network;
A speech unit database adding unit for additionally storing the optimum speech unit data received by the speech unit data receiving unit in the local speech unit database storage unit as new local speech unit data;
A speech unit index adding unit that additionally stores local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit;
A client device.
最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納する最適音声素片インデックス格納部と、
クライアント装置からネットワークを通じて送信された読み情報及び韻律パラメータを受信する音声素片情報受信部と、
受信された読み情報及び韻律パラメータをキーとして前記最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する最適音声素片探索部と、
前記最適音声素片探索部から出力された最適音声素片系列情報の最適音声素片格納情報が入力され、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出す最適音声素片データ読み出し部と、
読み出された最適音声素片データを、ネットワークを通じ、前記クライアント装置に返信する音声素片データ送信部と、を具備する、
ことを特徴とする音声素片データベースサーバ装置。 An optimal speech segment database storage unit for storing optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”);
Optimal speech unit index storage unit for storing optimal speech unit storage information in which optimum speech unit storage information for designating optimal speech unit data and reading information and prosodic parameters corresponding to the optimal speech unit data are associated. When,
A speech unit information receiving unit for receiving reading information and prosodic parameters transmitted from a client device through a network;
The optimum speech unit index storage unit is searched using the received reading information and prosodic parameters as keys, and the optimum speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the received reading information and prosodic parameters , And an optimal speech segment search unit that outputs the extracted optimal speech segment sequence information,
The optimum speech element storage information of the optimum speech element sequence information output from the optimum speech element search unit is input, and the optimum speech element data specified by the optimum speech element storage information is converted into the optimum speech element data. An optimal speech segment data reading unit for reading from the database storage unit;
A speech unit data transmission unit that returns the read optimal speech unit data to the client device via a network;
A speech segment database server device characterized by the above.
最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報を格納する最適音声素片インデックス格納部と、
クライアント装置からネットワークを通じて送信されたローカル音声素片系列情報、読み情報及び韻律パラメータを受信する音声素片情報受信部と、
受信された読み情報及び韻律パラメータをキーとして前記最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力する最適音声素片探索部と、
前記音声素片情報受信部において受信されたローカル音声素片系列情報及び最適音声素片探索部から出力された最適音声素片系列情報が入力され、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した送信音声素片系列情報を生成し、当該送信音声素片系列情報を出力する送信音声素片決定部と、
送信音声素片系列情報の最適音声素片格納情報が入力され、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出す最適音声素片データ読み出し部と、
読み出された最適音声素片データを、ネットワークを通じ、前記クライアント装置に返信する音声素片データ送信部と、を具備する、
ことを特徴とする音声素片データベースサーバ装置。 An optimal speech segment database storage unit for storing optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”);
Optimal speech unit index storage unit for storing optimal speech unit storage information in which optimum speech unit storage information for designating optimal speech unit data and reading information and prosodic parameters corresponding to the optimal speech unit data are associated. When,
A speech unit information receiving unit that receives local speech unit sequence information, reading information, and prosodic parameters transmitted from the client device through the network;
The optimum speech unit index storage unit is searched using the received reading information and prosodic parameters as keys, and the optimum speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the received reading information and prosodic parameters , And an optimal speech segment search unit that outputs the extracted optimal speech segment sequence information,
The local speech unit sequence information received by the speech unit information receiving unit and the optimal speech unit sequence information output from the optimal speech unit search unit are input, and the local speech unit information is obtained from the optimal speech unit sequence information. A transmission speech unit determination unit for generating transmission speech unit sequence information excluding those having common sequence information and reading information and prosodic parameters, and outputting the transmission speech unit sequence information;
Optimum speech unit data reading that reads the optimum speech unit storage information of the transmission speech unit sequence information and reads the optimum speech unit data specified by the optimum speech unit storage information from the optimum speech unit database storage unit And
A speech unit data transmission unit that returns the read optimal speech unit data to the client device via a network;
A speech segment database server device characterized by the above.
前記音声素片データベースサーバ装置の最適音声素片データベース格納部に、最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)が格納され、
前記クライアント装置のローカル音声素片データベース格納部に、ローカル音声素片データ(「クライアント装置に格納される音声素片データ」を意味する)が格納され、
前記クライアント装置のローカル音声素片インデックス格納部に、ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報が格納され、
前記クライアント装置の最適音声素片インデックス格納部に、最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報が格納された状態において、
音声化すべきテキストデータが前記クライアント装置のテキスト解析部に入力され、当該テキスト解析部において、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力するステップと、
前記テキスト解析部から出力された韻律情報が前記クライアント装置の韻律パラメータ取得部に入力され、当該韻律パラメータ取得部において、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力するステップと、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが前記クライアント装置のローカル音声素片探索部に入力され、当該ローカル音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとして前記ローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力するステップと、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が、前記クライアント装置のローカル音声素片データ読み出し部に入力され、当該ローカル音声素片データ読み出し部において、当該ローカル音声素片格納情報が指定するローカル音声素片データを、前記ローカル音声素片データベース格納部から読み出すステップと、
前記ローカル音声素片データ読み出し部が読み出したローカル音声素片データが前記クライアント装置の音声素片接続部に入力され、当該音声素片接続部において、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力するステップと、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが前記クライアント装置の最適音声素片探索部に入力され、当該最適音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとして前記最適音声素片インデックス格納部を検索し、入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力するステップと、
前記ローカル音声素片探索部及び前記最適音声素片探索部からそれぞれ出力されたローカル音声素片系列情報及び最適音声素片系列情報が前記クライアント装置の要求音声素片決定部に入力され、当該要求音声素片決定部において、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した要求音声素片系列情報を生成し、当該要求音声素片系列情報を出力するステップと、
前記クライアント装置の音声素片情報送信部において、要求音声素片系列情報の最適音声素片格納情報を、ネットワークを通じ、音声素片データベースサーバ装置に送信するステップと、
前記音声素片データベースサーバ装置の音声素片情報受信部において、要求音声素片系列情報の最適音声素片格納情報を受信するステップと、
受信された最適音声素片格納情報が前記音声素片データベースサーバ装置の最適音声素片データ読み出し部に入力され、当該最適音声素片データ読み出し部において、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出すステップと、
読み出された最適音声素片データを、前記音声素片データベースサーバ装置の音声素片データ送信部において、ネットワークを通じ、前記クライアント装置に返信するステップと、
前記クライアント装置の音声素片データ受信部において、最適音声素片データを受信するステップと、
前記音声素片データ受信部において受信された最適音声素片データを、前記クライアント装置の音声素片データベース追加部において、新たなローカル音声素片データとして前記ローカル音声素片データベース格納部に追加格納するステップと、
前記新たなローカル音声素片データに対応するローカル音声素片系列情報を、前記クライアント装置の音声素片インデックス追加部において、前記ローカル音声素片インデックス格納部に追加格納するステップと、
を実行することを特徴とする音声合成方法。 A speech synthesis method for a speech synthesis system comprising at least one client device and at least one speech segment database server device connected to the client device through a network,
Optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”) is stored in the optimal speech segment database storage unit of the speech segment database server device,
Local speech segment data (meaning “speech segment data stored in the client device”) is stored in the local speech segment database storage unit of the client device,
The local speech unit index storage unit of the client device associates local speech unit storage information for specifying local speech unit data with reading information and prosodic parameters corresponding to the local speech unit data. One series information is stored,
In the optimum speech element index storage unit of the client device, the optimum speech element storage information for designating optimum speech element data and the reading information and prosodic parameters corresponding to the optimum speech element data are associated. In the state where one-line information is stored,
Text data to be voiced is input to the text analysis unit of the client device, and the text analysis unit performs text analysis on the text data to generate reading information and prosodic information. Output step;
The prosodic information output from the text analysis unit is input to the prosodic parameter acquisition unit of the client device, and the prosodic parameter acquisition unit generates physical prosody parameters necessary for speech synthesis using the prosodic information, Outputting the prosodic parameters;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input to the local speech unit search unit of the client device, and the input is performed in the local speech unit search unit The local speech unit index storage unit is searched using the reading information and the prosodic parameters as keys, and the local speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the input reading information and prosodic parameters is extracted. And outputting the extracted local speech segment sequence information;
The local speech unit storage information of the local speech unit sequence information output from the local speech unit search unit is input to the local speech unit data reading unit of the client device, and the local speech unit data reading unit Reading out local speech unit data designated by the local speech unit storage information from the local speech unit database storage unit;
The local speech unit data read by the local speech unit data reading unit is input to the speech unit connection unit of the client device, and the speech unit connection unit uses the local speech unit data to synthesize speech data. Generating and outputting the synthesized speech data;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input to the optimal speech unit search unit of the client device, and the input is performed in the optimal speech unit search unit The optimal speech segment index storage unit is searched using the reading information and prosodic parameters as keys, and the optimal speech segment sequence information corresponding to the input reading information and prosodic parameters belonging to the similar range of the input reading information and prosodic parameters is extracted. Outputting the extracted optimum speech segment sequence information;
The local speech unit sequence information and the optimal speech unit sequence information output from the local speech unit search unit and the optimal speech unit search unit, respectively, are input to the requested speech unit determination unit of the client device, and the request The speech unit determination unit generates requested speech unit sequence information in which the local speech unit sequence information, reading information, and prosody parameters in common are excluded from the optimum speech unit sequence information, and the requested speech unit sequence Outputting information; and
In the speech unit information transmission unit of the client device, transmitting the optimal speech unit storage information of the requested speech unit sequence information to the speech unit database server device through the network;
In the speech unit information receiving unit of the speech unit database server device, receiving the optimum speech unit storage information of the requested speech unit sequence information;
The received optimum speech element storage information is input to the optimum speech element data reading unit of the speech element database server device, and the optimum speech element storage information specifies the optimum Reading out speech unit data from the optimal speech unit database storage unit;
Returning the read optimum speech unit data to the client device through a network in the speech unit data transmission unit of the speech unit database server device;
In the speech unit data receiving unit of the client device, receiving optimal speech unit data;
The optimum speech unit data received by the speech unit data receiving unit is additionally stored in the local speech unit database storage unit as new local speech unit data in the speech unit database addition unit of the client device. Steps,
Additionally storing local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit in the speech unit index addition unit of the client device;
A speech synthesis method characterized by executing
前記音声素片データベースサーバ装置の最適音声素片データベース格納部に、最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)が格納され、
前記音声素片データベースサーバ装置の最適音声素片インデックス格納部に、最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報が格納され、
前記クライアント装置のローカル音声素片データベース格納部に、ローカル音声素片データ(「クライアント装置に格納される音声素片データ」を意味する)が格納され、
前記クライアント装置のローカル音声素片インデックス格納部に、ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報が格納された状態において、
音声化すべきテキストデータが前記クライアント装置のテキスト解析部に入力され、当該テキスト解析部において、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力するステップと、
前記テキスト解析部から出力された韻律情報が前記クライアント装置の韻律パラメータ取得部に入力され、当該韻律パラメータ取得部において、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力するステップと、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが、前記クライアント装置のローカル音声素片探索部に入力され、当該ローカル音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとして前記ローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力するステップと、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が前記クライアント装置のローカル音声素片データ読み出し部に入力され、当該ローカル音声素片データ読み出し部において、当該ローカル音声素片格納情報が指定するローカル音声素片データを、前記ローカル音声素片データベース格納部から読み出すステップと、
前記ローカル音声素片データ読み出し部が読み出したローカル音声素片データが前記クライアント装置の音声素片接続部に入力され、当該音声素片接続部において、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力するステップと、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータを、前記クライアント装置の音声素片情報送信部において、ネットワークを通じ、音声素片データベースサーバ装置に送信するステップと、
前記音声素片データベースサーバ装置の音声素片情報受信部において、読み情報及び韻律パラメータを受信するステップと、
受信された読み情報及び韻律パラメータをキーとして、前記音声素片データベースサーバ装置の最適音声素片探索部において、前記最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力するステップと、
前記最適音声素片探索部から出力された最適音声素片系列情報の最適音声素片格納情報が、前記音声素片データベースサーバ装置の最適音声素片データ読み出し部に入力され、当該最適音声素片データ読み出し部において、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出すステップと、
読み出された最適音声素片データを、前記音声素片データベースサーバ装置の音声素片データ送信部において、ネットワークを通じ、前記クライアント装置に返信するステップと、
前記クライアント装置の音声素片データ受信部において、最適音声素片データを受信するステップと、
前記音声素片データ受信部において受信された最適音声素片データの少なくとも一部を、前記クライアント装置の音声素片データベース追加部において、新たなローカル音声素片データとして前記ローカル音声素片データベース格納部に追加格納するステップと、
前記クライアント装置の音声素片インデックス追加部において、前記新たなローカル音声素片データに対応するローカル音声素片系列情報を、前記ローカル音声素片インデックス格納部に追加格納するステップと、
を実行することを特徴とする音声合成方法。 A speech synthesis method for a speech synthesis system comprising at least one client device and at least one speech segment database server device connected to the client device through a network,
Optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”) is stored in the optimal speech segment database storage unit of the speech segment database server device,
The optimum speech element index storage unit of the speech element database server device is associated with optimum speech element storage information for designating optimum speech element data, and reading information and prosodic parameters corresponding to the optimum speech element data. Stored the optimal speech segment sequence information,
Local speech segment data (meaning “speech segment data stored in the client device”) is stored in the local speech segment database storage unit of the client device,
The local speech unit index storage unit of the client device associates local speech unit storage information for specifying local speech unit data with reading information and prosodic parameters corresponding to the local speech unit data. In the state where one-line information is stored,
Text data to be voiced is input to the text analysis unit of the client device, and the text analysis unit performs text analysis on the text data to generate reading information and prosodic information. Output step;
The prosodic information output from the text analysis unit is input to the prosodic parameter acquisition unit of the client device, and the prosodic parameter acquisition unit generates physical prosody parameters necessary for speech synthesis using the prosodic information, Outputting the prosodic parameters;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input to the local speech unit search unit of the client device, and the input is performed in the local speech unit search unit. The local speech unit index storage unit is searched using the reading information and prosodic parameters as keys, and the local speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the input reading information and prosodic parameters is obtained. Extracting and outputting the extracted local speech unit sequence information;
The local speech unit storage information of the local speech unit sequence information output from the local speech unit search unit is input to the local speech unit data reading unit of the client device, and in the local speech unit data reading unit, Reading local speech unit data designated by the local speech unit storage information from the local speech unit database storage unit;
The local speech unit data read by the local speech unit data reading unit is input to the speech unit connection unit of the client device, and the speech unit connection unit uses the local speech unit data to synthesize speech data. Generating and outputting the synthesized speech data;
Transmitting the reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit to the speech unit database server device through the network in the speech unit information transmission unit of the client device; ,
In the speech unit information receiving unit of the speech unit database server device, receiving reading information and prosodic parameters;
Using the received reading information and prosodic parameters as keys, the optimal speech unit search unit of the speech unit database server device searches the optimal speech unit index storage unit, and the similarity of the received reading information and prosodic parameters Extracting optimal speech segment sequence information corresponding to reading information and prosodic parameters belonging to the range, and outputting the extracted optimal speech segment sequence information;
The optimal speech element storage information of the optimal speech element sequence information output from the optimal speech element search unit is input to the optimal speech element data reading unit of the speech element database server device, and the optimal speech element data In the data reading unit, reading out the optimum speech unit data specified by the optimum speech unit storage information from the optimum speech unit database storage unit;
Returning the read optimum speech unit data to the client device through a network in the speech unit data transmission unit of the speech unit database server device;
In the speech unit data receiving unit of the client device, receiving optimal speech unit data;
The local speech unit database storage unit stores at least a part of the optimum speech unit data received by the speech unit data reception unit as new local speech unit data in the speech unit database addition unit of the client device. An additional storing step,
In the speech unit index addition unit of the client device, additionally storing local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit;
A speech synthesis method characterized by executing
前記音声素片データベースサーバ装置の最適音声素片データベース格納部に、最適音声素片データ(「音声素片データベースサーバ装置に格納される音声素片データ」を意味する)が格納され、
前記音声素片データベースサーバ装置の最適音声素片インデックス格納部に、最適音声素片データを指定する最適音声素片格納情報と当該最適音声素片データに対応する読み情報及び韻律パラメータとが関連付けられた最適音声素片系列情報が格納され、
前記クライアント装置のローカル音声素片データベース格納部に、ローカル音声素片データ(「クライアント装置に格納される音声素片データ」を意味する)が格納され、
前記クライアント装置のローカル音声素片インデックス格納部に、ローカル音声素片データを指定するローカル音声素片格納情報と当該ローカル音声素片データに対応する読み情報及び韻律パラメータとが関連付けられたローカル音声素片系列情報が格納された状態において、
音声化すべきテキストデータが前記クライアント装置のテキスト解析部に入力され、当該テキスト解析部において、当該テキストデータに対してテキスト解析を行って読み情報及び韻律情報を生成し、当該読み情報及び韻律情報を出力するステップと、
前記テキスト解析部から出力された韻律情報が前記クライアント装置の韻律パラメータ取得部に入力され、当該韻律パラメータ取得部において、当該韻律情報を用いて音声合成に必要な物理的な韻律パラメータを生成し、当該韻律パラメータを出力するステップと、
前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータが前記クライアント装置のローカル音声素片探索部に入力され、当該ローカル音声素片探索部において、当該入力された読み情報及び韻律パラメータをキーとして前記ローカル音声素片インデックス格納部を検索し、当該入力された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応するローカル音声素片系列情報を抽出し、抽出したローカル音声素片系列情報を出力するステップと、
前記ローカル音声素片探索部から出力されたローカル音声素片系列情報のローカル音声素片格納情報が前記クライアント装置のローカル音声素片データ読み出し部に入力され、当該ローカル音声素片データ読み出し部において、当該ローカル音声素片格納情報が指定するローカル音声素片データを、前記ローカル音声素片データベース格納部から読み出すステップと、
前記ローカル音声素片データ読み出し部が読み出したローカル音声素片データが、前記クライアント装置の音声素片接続部に入力され、当該音声素片接続部において、当該ローカル音声素片データを用いて合成音声データを生成し、当該合成音声データを出力するステップと、
前記クライアント装置の音声素片情報送信部において、前記ローカル音声素片探索部から出力されたローカル音声素片系列情報、前記テキスト解析部から出力された読み情報及び前記韻律パラメータ取得部から出力された韻律パラメータを、ネットワークを通じ、音声素片データベースサーバ装置に送信するステップと、
前記音声素片データベースサーバ装置の音声素片情報受信部において、ローカル音声素片系列情報、読み情報及び韻律パラメータを受信するステップと、
受信された読み情報及び韻律パラメータをキーとして、前記音声素片データベースサーバ装置の最適音声素片探索部において、前記最適音声素片インデックス格納部を検索し、受信された読み情報及び韻律パラメータの類似範囲に属する読み情報及び韻律パラメータに対応する最適音声素片系列情報を抽出し、抽出した最適音声素片系列情報を出力するステップと、
前記音声素片情報受信部において受信されたローカル音声素片系列情報及び最適音声素片探索部から出力された最適音声素片系列情報が、前記音声素片データベースサーバ装置の送信音声素片決定部に入力され、当該送信音声素片決定部において、当該最適音声素片系列情報から当該ローカル音声素片系列情報と読み情報及び韻律パラメータが共通するもの除外した送信音声素片系列情報を生成し、当該送信音声素片系列情報を出力するステップと、
送信音声素片系列情報の最適音声素片格納情報が、前記音声素片データベースサーバ装置の最適音声素片データ読み出し部に入力され、当該最適音声素片データ読み出し部において、当該最適音声素片格納情報が指定する最適音声素片データを、前記最適音声素片データベース格納部から読み出すステップと、
読み出された最適音声素片データを、前記音声素片データベースサーバ装置の音声素片データ送信部において、ネットワークを通じ、前記クライアント装置に返信するステップと、
前記クライアント装置の音声素片データ受信部において、最適音声素片データを受信するステップと、
前記音声素片データ受信部において受信された最適音声素片データを、前記クライアント装置の音声素片データベース追加部において、新たなローカル音声素片データとして前記ローカル音声素片データベース格納部に追加格納するステップと、
前記クライアント装置の音声素片インデックス追加部において、前記新たなローカル音声素片データに対応するローカル音声素片系列情報を、前記ローカル音声素片インデックス格納部に追加格納するステップと、
を実行することを特徴とする音声合成方法。 A speech synthesis method for a speech synthesis system comprising at least one client device and at least one speech segment database server device connected to the client device through a network,
Optimal speech segment data (meaning “speech segment data stored in the speech segment database server device”) is stored in the optimal speech segment database storage unit of the speech segment database server device,
The optimum speech element index storage unit of the speech element database server device is associated with optimum speech element storage information for designating optimum speech element data, and reading information and prosodic parameters corresponding to the optimum speech element data. Stored the optimal speech segment sequence information,
Local speech segment data (meaning “speech segment data stored in the client device”) is stored in the local speech segment database storage unit of the client device,
The local speech unit index storage unit of the client device associates local speech unit storage information for specifying local speech unit data with reading information and prosodic parameters corresponding to the local speech unit data. In the state where one-line information is stored,
Text data to be voiced is input to the text analysis unit of the client device, and the text analysis unit performs text analysis on the text data to generate reading information and prosodic information. Output step;
The prosodic information output from the text analysis unit is input to the prosodic parameter acquisition unit of the client device, and the prosodic parameter acquisition unit generates physical prosody parameters necessary for speech synthesis using the prosodic information, Outputting the prosodic parameters;
The reading information output from the text analysis unit and the prosodic parameters output from the prosodic parameter acquisition unit are input to the local speech unit search unit of the client device, and the input is performed in the local speech unit search unit The local speech unit index storage unit is searched using the reading information and the prosodic parameters as keys, and the local speech unit sequence information corresponding to the reading information and prosodic parameters belonging to the similar range of the input reading information and prosodic parameters is extracted. And outputting the extracted local speech segment sequence information;
The local speech unit storage information of the local speech unit sequence information output from the local speech unit search unit is input to the local speech unit data reading unit of the client device, and in the local speech unit data reading unit, Reading local speech unit data designated by the local speech unit storage information from the local speech unit database storage unit;
The local speech unit data read by the local speech unit data reading unit is input to the speech unit connection unit of the client device, and the speech unit connection unit uses the local speech unit data to synthesize speech. Generating data and outputting the synthesized speech data;
In the speech unit information transmitting unit of the client device, local speech unit sequence information output from the local speech unit search unit, reading information output from the text analysis unit, and output from the prosodic parameter acquisition unit Transmitting the prosodic parameters to the speech segment database server device over the network;
In the speech unit information receiving unit of the speech unit database server device, receiving local speech unit sequence information, reading information, and prosodic parameters;
Using the received reading information and prosodic parameters as keys, the optimal speech unit search unit of the speech unit database server device searches the optimal speech unit index storage unit, and the similarity of the received reading information and prosodic parameters Extracting optimal speech segment sequence information corresponding to reading information and prosodic parameters belonging to the range, and outputting the extracted optimal speech segment sequence information;
The local speech unit sequence information received by the speech unit information receiving unit and the optimal speech unit sequence information output from the optimal speech unit search unit are the transmission speech unit determination unit of the speech unit database server device. In the transmission speech unit determination unit, the transmission speech unit sequence information excluding the common speech unit sequence information and the reading information and prosodic parameters that are in common from the optimal speech unit sequence information, Outputting the transmission speech element sequence information;
Optimal speech element storage information of the transmitted speech element sequence information is input to the optimal speech element data reading unit of the speech element database server device, and the optimal speech element storage unit stores the optimal speech element storage information. Reading the optimal speech segment data designated by the information from the optimal speech segment database storage unit;
Returning the read optimum speech unit data to the client device through a network in the speech unit data transmission unit of the speech unit database server device;
In the speech unit data receiving unit of the client device, receiving optimal speech unit data;
The optimum speech unit data received by the speech unit data receiving unit is additionally stored in the local speech unit database storage unit as new local speech unit data in the speech unit database addition unit of the client device. Steps,
In the speech unit index addition unit of the client device, additionally storing local speech unit sequence information corresponding to the new local speech unit data in the local speech unit index storage unit;
A speech synthesis method characterized by executing
前記クライアント装置の音声素片データ削除部において、前記ローカル音声素片データベース格納部に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下であるか否かを判定するステップと、
前記ローカル音声素片データベース格納部に格納されたローカル音声素片データの合計サイズが予め決められた大きさ以下でない場合、前記音声素片データ削除部において、所定の優先順位に従って、当該ローカル音声素片データベース格納部に格納されたローカル音声素片データの一部を削除するステップと、
前記クライアント装置の音声素片系列情報削除部において、前記音声素片データ削除部において削除されたローカル音声素片データに対応するローカル音声素片系列情報を前記ローカル音声素片インデックス格納部から削除するステップと、をさらに具備する、
ことを特徴とする音声合成方法。 The speech synthesis method according to any one of claims 8 to 10 ,
A step of determining whether or not a total size of local speech unit data stored in the local speech unit database storage unit is equal to or less than a predetermined size in the speech unit data deletion unit of the client device; ,
If the total size of the local speech unit data stored in the local speech unit database storage unit is not less than a predetermined size, the speech unit data deletion unit executes the local speech unit data according to a predetermined priority. Deleting a part of the local speech segment data stored in the fragment database storage unit;
In the speech unit sequence information deletion unit of the client device, local speech unit sequence information corresponding to the local speech unit data deleted in the speech unit data deletion unit is deleted from the local speech unit index storage unit. And further comprising:
A speech synthesis method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005143581A JP4392383B2 (en) | 2005-05-17 | 2005-05-17 | Speech synthesis system, client device, speech segment database server device, speech synthesis method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005143581A JP4392383B2 (en) | 2005-05-17 | 2005-05-17 | Speech synthesis system, client device, speech segment database server device, speech synthesis method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006322962A JP2006322962A (en) | 2006-11-30 |
JP4392383B2 true JP4392383B2 (en) | 2009-12-24 |
Family
ID=37542722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005143581A Expired - Fee Related JP4392383B2 (en) | 2005-05-17 | 2005-05-17 | Speech synthesis system, client device, speech segment database server device, speech synthesis method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4392383B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5408133B2 (en) * | 2008-08-13 | 2014-02-05 | 日本電気株式会社 | Speech synthesis system |
WO2010018649A1 (en) * | 2008-08-13 | 2010-02-18 | 日本電気株式会社 | Voice synthesis system |
US11947593B2 (en) | 2018-09-28 | 2024-04-02 | Sony Interactive Entertainment Inc. | Sound categorization system |
-
2005
- 2005-05-17 JP JP2005143581A patent/JP4392383B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006322962A (en) | 2006-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4130190B2 (en) | Speech synthesis system | |
JP5471858B2 (en) | Database generating apparatus for singing synthesis and pitch curve generating apparatus | |
US8086457B2 (en) | System and method for client voice building | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
JP3867529B2 (en) | Electronic music apparatus and program | |
JP4392383B2 (en) | Speech synthesis system, client device, speech segment database server device, speech synthesis method and program | |
CN113327576B (en) | Speech synthesis method, device, equipment and storage medium | |
KR102072627B1 (en) | Speech synthesis apparatus and method thereof | |
JP4653572B2 (en) | Client terminal, speech synthesis information processing server, client terminal program, speech synthesis information processing program | |
JP2003233386A (en) | Voice synthesizing method, voice synthesizer and voice synthesizing program | |
CN112037757A (en) | Singing voice synthesis method and device and computer readable storage medium | |
JP2013164609A (en) | Singing synthesizing database generation device, and pitch curve generation device | |
JP4287785B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
WO2008056604A1 (en) | Sound collection system, sound collection method, and collection processing program | |
JP2001109470A (en) | Automatic performance device and automatic performance method | |
JP2005018036A (en) | Device and method for speech synthesis and program | |
JP4441380B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
CN116403564B (en) | Audio editing method and device, electronic equipment and storage medium | |
CN114822492B (en) | Speech synthesis method and device, electronic equipment and computer readable storage medium | |
JP4775546B2 (en) | Electronic music apparatus and program | |
JP4184157B2 (en) | Audio data management apparatus, audio data management method, and program | |
JP5049310B2 (en) | Speech learning / synthesis system and speech learning / synthesis method | |
JP2014106313A (en) | Spoken language analyzer and method and program for the same | |
JP2006178013A (en) | Device and method for creating database | |
WO2024174787A1 (en) | Voice editing method and apparatus, and related device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070323 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090929 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091009 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121016 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4392383 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121016 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131016 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |