JP2008185805A - 高品質の合成音声を生成する技術 - Google Patents
高品質の合成音声を生成する技術 Download PDFInfo
- Publication number
- JP2008185805A JP2008185805A JP2007019433A JP2007019433A JP2008185805A JP 2008185805 A JP2008185805 A JP 2008185805A JP 2007019433 A JP2007019433 A JP 2007019433A JP 2007019433 A JP2007019433 A JP 2007019433A JP 2008185805 A JP2008185805 A JP 2008185805A
- Authority
- JP
- Japan
- Prior art keywords
- notation
- phoneme
- text
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 51
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 claims description 20
- 230000010365 information processing Effects 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 1
- 240000008620 Fagopyrum esculentum Species 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】高品質の合成音声を効率的に生成する。
【解決手段】複数の音素片データを記憶する音素片記憶部と、入力したテキストの発音を示す各音素に対応する音素片データを音素片記憶部から読み出して接続し、テキストの合成音声を示す音声データを生成する合成部と、テキストの合成音声の不自然さを示す指標値を、音声データに基づいて算出する算出部と、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、テキストの中から何れかの第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する第2表記に置換する置換部と、算出した指標値が基準値より小さいことを条件に、生成された音声データを出力し、当該指標値が基準値以上であることを条件に、置換されたテキストについて音声データをさらに生成させるべく当該テキストを合成部に入力する判断部とを備えるシステムを提供する。
【選択図】図3
【解決手段】複数の音素片データを記憶する音素片記憶部と、入力したテキストの発音を示す各音素に対応する音素片データを音素片記憶部から読み出して接続し、テキストの合成音声を示す音声データを生成する合成部と、テキストの合成音声の不自然さを示す指標値を、音声データに基づいて算出する算出部と、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、テキストの中から何れかの第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する第2表記に置換する置換部と、算出した指標値が基準値より小さいことを条件に、生成された音声データを出力し、当該指標値が基準値以上であることを条件に、置換されたテキストについて音声データをさらに生成させるべく当該テキストを合成部に入力する判断部とを備えるシステムを提供する。
【選択図】図3
Description
本発明は、合成音声を生成する技術に関する。特に、本発明は、複数の音素片を接続して合成音声を生成する技術に関する。
聞き手にとって自然な合成音声を生成することを目標として、従来、波形編集合成方式を採用した音声合成技術が用いられている。この方式では、音声合成装置が、人間である話者の音声を予め収録して音声波形データとしてデータベースに保存しておく。そして、その音声合成装置は、入力されたテキストに基づいて複数の音声波形データを読み出して接続することにより、合成音声を生成する。このような合成音声が聞き手にとって自然に聞こえるようにするためには、音声の周波数や音色が連続的に変化することが望ましい。例えば、音声波形データの接続部分で音声の周波数や音色が大きく変化してしまうと、その合成音声は不自然に聞こえてしまう。
しかしながら、費用や時間の制約や、コンピュータの記憶容量や処理能力の制約のため、予め収録することのできる音声波形データの種類は限られている。このため、適切な音声波形データがデータベースに登録されておらず、代用の音声波形データを用いた結果接続部分で周波数等が大きく変化して、合成音声が不自然になってしまう場合がある。これは、入力されたテキストの表記内容が、音声波形データを生成するために予め収録した音声の内容と大きく異なっている場合に起こり易い。
参考技術文献として特許文献1および非特許文献1を挙げる。特許文献1に記載の音声出力装置は、書き言葉によって構成されたテキストを、話し言葉のテキストに変換したうえで読み上げることで、聞き手がその内容を理解し易くしている。しかしながら、この装置はテキストをその表現を変更するために変換するものであり、その変換は音声波形データの周波数変化などの情報とは無関係に行われる。従って、この変換によっては合成音声の品質を向上させることはできない。非特許文献1の技術は、表記が同一で発音の異なる音素片を予め記憶しておき、それらの中から、合成音声の品質が向上するように適切な音素片を選択するものである。しかしながら、そのような選択を試みてもなお適切な音素片が無ければ合成音声が不自然になってしまう。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、合成音声を生成するシステムであって、各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、テキストを入力し、入力したテキストの発音を示す各音素に対応する音素片データを音素片記憶部から読み出して接続し、テキストの合成音声を示す音声データを生成する合成部と、テキストの合成音声の不自然さを示す指標値を、音声データに基づいて算出する算出部と、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、テキストの中から何れかの第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する第2表記に置換する置換部と、算出した指標値が予め定められた基準値より小さいことを条件に、生成された音声データを出力し、当該指標値が基準値以上であることを条件に、置換されたテキストについて音声データをさらに生成させるべく当該テキストを合成部に入力する判断部とを備えるシステムを提供する。また、当該システムにより合成音声を生成する方法、および、当該システムとして情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、音声合成システム10およびそれに関連するデータの全体構成を示す。音声合成システム10は、複数の音素片データを記憶する音素片記憶部20を有する。これらの音素片データは、生成する目標とするべき合成音声を示す目標音声データから、そのデータを音素毎に分割することによって予め生成されるものである。この目標音声データは、例えばアナウンサーが原稿を読み上げた音声などを録音したものである。そして、音声合成システム10は、テキストを入力し、入力したこのテキストに対し、形態素解析や韻律モデルの適用などの処理を行って、そのテキストの読み上げ音声として生成するべき各音素の韻律や音色などのデータを生成する。そして、音声合成システム10は、生成したこれらの周波数などのデータに基づいて、音素片記憶部20から複数の音素片データを選択して読み出し、読み出したこれらの音素片データを接続する。接続された複数の音素片データは、利用者の承認を条件に、このテキストの合成音声を示す音声データとして出力される。
ここで、音素片記憶部20に記憶することのできる音素片データの種類は、費用や所要時間、あるいは、音声合成システム10の計算処理能力などの制約によって制限される。このため、音声合成システム10が、韻律モデルの適用などの処理の結果、各音素の発音として生成するべき周波数を求めても、その周波数の音素片データが音素片記憶部20に記憶されていない場合がある。この場合、音声合成システム10が不適切な音素片データを選択した結果、品質の低い合成音声が生成されてしまうおそれがある。これに対し本実施形態に係る音声合成システム10は、一旦生成した音声データが充分な品質を有していない場合には、テキストの表記をその意味を変更しない範囲内で変更することで、出力される合成音声の品質を向上することを目的とする。
図2は、音素片記憶部20のデータ構造の一例を示す。音素片記憶部20は、各々が互いに異なる音素の音声を示す複数の音素片データを記憶する。具体的には、音素片記憶部20は、各々の音素について、当該音素の表記と、当該音素の音声波形データと、当該音素の音色データとを記憶している。一例として、音素片記憶部20は、「あ」という表記を有するある音素について、時間の経過に応じた基本周波数の変化を示す情報を音声波形データとして記憶する。ここで、音素の基本周波数とは、音素を構成する各周波数成分のうち最も音の大きい周波数成分をいう。また、音素片記憶部20は、同じ「あ」という表記を有するある音素について、基本周波数を含む複数の周波数成分のそれぞれについて、音声の大きさ又は強さを要素として示したベクトルデータを音色データとして記憶する。図2では説明の都合上、各音素の先頭部分および末尾部分における音色データを例示したが、実際には、音素片記憶部20は各周波数成分についてその大きさ又は強さの時間変化を示すデータを記憶している。
このように、音素片記憶部20には各音素の音声波形データが記憶されているので、音声合成システム10はこれらの音声波形データを接続すれば、複数の音素を有する音声を生成することができる。なお、図2は音素片データの内容の一例を示したものであり、音素片記憶部20が記憶する音素片データのデータ構造やデータ形式はこの図に記載のものに限定されない。他の例として例えば、音素片記憶部20は、音素片データとして、音素の録音データ自体を記憶してもよいし、その録音データに対し所定の演算を行ったデータを記憶していてもよい。演算とは例えば離散コサイン変換などであり、これにより、録音データのうちの所望の周波数成分を参照できるので、基本周波数や音色の解析を可能とすることができる。
図3は、音声合成システム10の機能構成を示す。音声合成システム10は、音素片記憶部20と、合成部310と、算出部320と、判断部330と、表示部335と、換言記憶部340と、置換部350と、出力部370とを有する。まず、これらの各部材とハードウェア資源との関係を述べる。音素片記憶部20および換言記憶部340は、たとえば、後述のRAM1020およびハードディスクドライブ1040などの記憶装置によって実現される。合成部310、算出部320、判断部330および置換部350は、インストールされたプログラムの指令によって後述のCPU1000の動作により実現される。表示部335は、後述のグラフィックコントローラ1075および表示装置1080の他、利用者からの入力を受け付けるためのポインティングデバイスやキーボードにより実現される。そして、370は、スピーカや入出力チップ1070により実現される。
音素片記憶部20は、上述のように、複数の音素片データを記憶している。合成部310は、テキストを外部から入力し、入力したこのテキストの発音を示す各音素に対応する音素片データを音素片記憶部20から読み出して接続する。具体的には、まず、合成部310は、このテキストに対し形態素解析を行って、このテキストに含まれる語句の境界、および、各語句の品詞を検出する。そして、合成部310は、各語句の読み方について予め記憶しているデータに基づいて、このテキストを読み上げたときに各音素をどのような周波数の音声で、かつ、どのような音色で発音するべきかを求める。そして、合成部310は、この周波数および音色に近い音素片データをそれぞれ音素片記憶部20から読み出して接続し、このテキストの合成音声を示す音声データとして算出部320に出力する。
算出部320は、このテキストの合成音声の不自然さを示す指標値を、合成部310から受け取った音声データに基づいて算出する。この指標値は、例えば、音声データに含まれる第1の音素片データおよびこの第1の音素片データに接続する第2の音素片データの境界における、この第1の音素片データおよびこの第2の音素片データの間の発音の相違度を示すものである。そして発音の相違度とは、音色や基本周波数の相違度である。即ちこの相違度が大きいほど、音声の周波数などが突然に変化するので、合成音声は聞き手にとって不自然に感じられる。
判断部330は、算出したこの指標値が予め定められた基準値より小さいか否かを判断する。判断部330は、この指標値が基準値以上であることを条件に、テキスト中の表記を置換させて置換したそのテキストについて音声データをさらに生成させるべく、置換部350に指示する。一方、判断部330は、指標値が基準値より小さいことを条件に、表示部335は、この音声データを生成する対象となったテキストを利用者に表示して、このテキストに基づいて合成音声を生成してよいかどうかを利用者に問合せる表示を行う。このテキストは、外部から入力したテキストそのものである場合もあるし、置換部350によって何度かの置換処理が行われた結果として生成されたテキストである場合もある。
判断部330は、承認する入力を受けたことを条件として、生成されたこの音声データを出力部370に出力する。これを受けて、出力部370は、音声データに基づいて合成音声を生成し、利用者に出力する。一方、置換部350は、指標値が基準値以上の場合に判断部330から指示を受けて処理を開始する。換言記憶部340は、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶している。そして、置換部350は、判断部330から指示を受けると、まず、前回に音声合成の対象となったテキストを合成部310から取得する。次に、置換部350は、そのテキストの中から何れかの第1表記に一致する表記を検索する。検索されたことを条件に、置換部350は、検索された当該表記を当該第1表記に対応する第2表記に置換する。表記が置換されたテキストは、合成部310に入力されて、そのテキストに基づいてさらに音声データが生成される。
図4は、合成部310の機能構成を示す。合成部310は、語句記憶部400と、語句検索部410と、音素片検索部420とを有する。そして、合成部310は、n−gramモデルとして知られている手法によりテキストの読み方を生成したうえで、それに基づき音声データを生成する。具体的には、まず、語句記憶部400は、予め登録された複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する。表記とは、語句を構成する文字列であり、読み方とは、たとえば発音を示す記号、アクセントを示す記号またはアクセント型などである。語句記憶部400は、同一の表記について複数の互いに異なる読み方を対応付けて記憶してもよい。そしてその場合、語句記憶部400は、それぞれの読み方についてその読み方で読まれる確率値をさらに記憶している。
詳細には、語句記憶部400は、予め定められた数の語句の組合せ(たとえばbi−gramモデルでは2つの語句の組合せ)ごとに、その組合せの語句がそれぞれの読み方の組合せで読まれる確率値を記憶している。たとえば、「僕の」という単一の語句について第1音節にアクセントがある確率値と、第2音節にアクセントがある確率値とを記憶するだけではなく、「僕の」が「近くの」という語句と連続して表記されたときに、この連続する語句の組合せについて、第1音節にアクセントがある確率値、および、第2音節にアクセントがある確率値がそれぞれ記憶される。そしてこれとは別に、「僕の」という単語が「近くの」ではない他の語句と連続して表記されたときに、やはりこの連続する語句の組合せについて、各音節にアクセントがある確率値がそれぞれ記憶される。
ここに記憶される表記、読み方および確率値の情報は、予め録音された目標音声データを音声認識したうえで、語句の組合せ毎に読み方の組合せが出現する頻度をカウントすることによって生成される。即ち、目標音声データ中で高頻度に現れる語句および読み方の組合せについては高い確率値が記憶される。なお、音声合成の精度をさらに高めるべく、音素片記憶部20は、語句の品詞の情報をさらに記憶していることが望ましい。品詞の情報も、目標音声データを音声認識することによって生成されてもよいし、音声認識されたテキストデータに対し人手によって付与されてもよい。
語句検索部410は、入力したテキストに含まれる各々の語句と表記が一致する語句を語句記憶部400から検索し、検索したそれぞれの語句に対応する読み方を語句記憶部400から読み出して接続することにより、テキストの読み方を生成する。たとえばbi−gramモデルでは、語句検索部410は、入力したテキストを先頭から走査して、連続する2つの語句の組合せごとに、その組合せの語句と一致する語句の組合せを語句記憶部400から検索する。そして、語句検索部410は、検索された語句の組合せに対応する読み方の組合せをそれに対応する確率値と共に語句記憶部400から読み出す。このようにして、語句検索部410は、テキストの先頭から末尾に向かって語句の組合せ毎に複数の確率値を検索してゆく。
たとえば、テキストが語句A、BおよびCをこの順で含む場合、語句AおよびBの組合せについて、読み方として、a1およびb1の組合せ(確率値p1)、a2およびb1の組み合わせ(確率値p2)、a1およびb2の組合せ(確率値p3)、並びに、a2およびb2の組み合わせ(確率値p4)が検索される。同様に、語句BおよびCの組合せについて、読み方として、b1およびc1の組合せ(確率値p5)、b1およびc2の組合せ(確率値p6)、b2およびc1の組合せ(確率値p7)、ならびに、b2およびc2の組合せ(確率値p8)が検索される。そして、語句検索部410は、語句の各組合せについての確率値の積が最大となる読み方の組合せを選択して、テキストの読み方として音素片検索部420に出力する。この例では、p1×p5、p1×p7、p2×p5、p2×p7、p3×p6、p3×p8、p4×p6、および、p4×p8がそれぞれ算出されて、そのうちの最大値に対応する読み方の組合せが出力される。
次に、音素片検索部420は、生成した読み方に基づいて各音素について目標となる韻律および音色を求め、それに最も近い音素片データをそれぞれ音素片記憶部20から検索して読み出し、読み出した複数の音素片データを接続することにより音声データを生成して、算出部320に対し出力する。たとえば、音素片検索部420は、生成した読み方において、アクセントが、音節毎にLHHHLLHのように連続する場合において(Lはアクセントが低く、Hはアクセントが高いことを示す)、このようなアクセントの高低を滑らかに表現するように、各音素の韻律を算出する。韻律とは、たとえば、基本周波数の変化、音の長さ、および、音量によって表される。基本周波数の算出は、あらかじめアナウンサーが録音した音声データから統計的に学習しておいた基本周波数モデルを用いる。基本周波数モデルによって各音素の基本周波数の目標値が、アクセントの環境、品詞、文の長さなどに応じて求めることができる。ここではアクセントから基本周波数を求める処理の一例を述べたが、発音から音色や継続時間長や音量を求める処理も同様に、予め統計的に学習したルールに基づき求めることができる。このように、アクセントや発音に基づいて各音素の韻律および音色を定める技術については、韻律または音色を予測する技術として従来公知であるから更に詳細な説明を省略する。
図5は、換言記憶部340のデータ構造の一例を示す。換言記憶部340は、複数の第1表記のそれぞれに対応付けて、その第1表記の言い換えである第2表記を記憶している。さらに、換言記憶部340は、第1表記およびそれに対応する第2表記の組のそれぞれに対応付けて、その第1表記およびその第2表記の間の意味の近似度を記憶している。たとえば、換言記憶部340は、第1表記「僕の」をその言い換えである第2表記「私の」に対応付けて記憶し、これらの表記の組に対応付けてその近似度「65%」を更に記憶する。近似度とは、このようにたとえば百分率で表され、表記を換言記憶部340に登録した作業者によって入力されたものであってもよいし、この言い換えを用いた置換処理の結果として利用者にその置換が承認された確率に基づき算出されてもよい。
換言記憶部340に登録された表記の数が多くなると、互いに等しい複数の第1表記が、互いに異なる複数の第2表記に対応付けて記憶される場合がある。即ち、置換部350が、入力したテキストと換言記憶部340の第1表記とを比較した結果、そのテキスト中の表記が複数の第1表記のそれぞれに一致する場合がある。この場合、置換部350は、テキスト中のその表記を、当該複数の第1表記のうち近似度の最も高い第1表記に対応する第2表記により置換する。このように、表記に対応付けて記憶した近似度は、置換先とするべき表記を選択する指針として用いることができる。
さらに、換言記憶部340が記憶する第2表記は、目標音声データの内容を示すテキストに含まれる語句の表記であることが望ましい。目標音声データの内容を示すテキストとは、たとえば、目標音声データがテキストの読み上げ音声を示す場合におけるそのテキストである。また、目標音声データが自由発声に係るものである場合には、その目標音声データを音声認識した結果を示すテキストであってもよいし、その目標音声データの内容を人手でテキストに記録したものであってもよい。これにより、置換先の語句表記は目標音声データにおいて用いられたものとなり、置換後のテキストについて出力される合成音声をより一層自然なものとすることができる。
更にこれに加えて、置換部350は、テキスト中の第1表記に対応する複数の第2表記が検索される場合に、そのそれぞれについて、当該第2表記により置換したテキストと、目標音声データの内容を示すテキストとの間の距離を計算してもよい。距離とは、テキストの表現の傾向や内容の傾向が近いかどうかを示す指標値として知られている概念で、既存の手法により算出することができる。そしてこの場合、置換部350は、当該距離が最も短いテキストを置換後のテキストとして選択する。このような手法によっても、置換後のテキストに基づく音声をできるだけ目標音声に近づけることができる。
図6は、語句記憶部400のデータ構造の一例を示す。語句記憶部400は、語句データ600と、発音データ610と、アクセントデータ620と、品詞データ630とを相互に対応付けて記憶している。語句データ600は、複数の語句のそれぞれについてその語句の表記を示している。図6の例で語句データ600は、「大阪」、「府」、「在住」、「の」、「方」、「に」、「限」、「り」、「ま」および「す」のそれぞれを語句の表記として含む。また、発音データ610およびアクセントデータ620は、複数の語句のそれぞれについてその語句の読み方を示している。発音データ610は読み方のうち発音を示し、アクセントデータ620は読み方のうちアクセントを含む。発音は、たとえば、アルファベットなどを用いた表音記号によって表される。アクセントは、高い(H)または低い(L)という音声の相対的な高低関係を音素毎に配列したものである。また、アクセントデータ620は、音素毎の相対的な高低関係の組合せを番号により識別するアクセント型を含んでよい。また、語句記憶部400は、品詞データ630として示したように、各語句の品詞を記憶してもよい。品詞とは、文法上厳密な意味での品詞ではなく、音声合成や解析に適した拡張的な品詞を含む。たとえば、語句の末尾を構成する末尾詞などを含んでよい。
図6には、これらの各種のデータと対比して、これらのデータに基づき語句検索部410により生成される音声波形データを図中央に示した。即ち、語句検索部410は、「大阪府在住の方に限ります」というテキストを入力すると、上記n−gramモデルを用いた手法によって、各音素の相対的な高低関係(LまたはH)、および、各音素の発音(アルファベットを用いた表音記号)を求める。すると、音素片検索部420は、各音素の相対的な高低関係を反映しつつも、利用者にとって不自然に聞こえないように滑らかに変化する基本周波数を生成する。このようにして生成された基本周波数の一例を図6中央に示す。基本周波数がこのように変化すれば理想的であるが、周波数の値が全く一致するような音素片データを音素片記憶部20から検索できない場合もあり、その結果として合成音声が不自然に聞こえてしまう場合もある。これに対し、既に説明してきたように、音声合成システム10によれば、テキスト自体をその意味を変えない範囲で変更することで、検索可能な音素片データを有効に使用して、合成音声の品質を向上することができる。
図7は、音声合成システム10によって合成音声が生成される処理の流れを示す。合成部310は、テキストを外部から入力し、入力したこのテキストの発音を示す各音素に対応する音素片データを音素片記憶部20から読み出して接続する(S700)。具体的には、まず、合成部310は、このテキストに対し形態素解析を行って、このテキストに含まれる語句の境界、および、各語句の品詞を検出する。そして、合成部310は、各語句の読み方について語句記憶部400に予め記憶しているデータに基づいて、このテキストを読み上げたときに各音素をどのような周波数の音声で、かつ、どのような音色で発音するべきかを求める。そして、合成部310は、この周波数および音色に近い音素片データをそれぞれ音素片記憶部20から読み出して接続し、このテキストの合成音声を示す音声データとして算出部320に出力する。
算出部320は、このテキストの合成音声の不自然さを示す指標値を、合成部310から受け取った音声データに基づいて算出する(S710)。その一例を述べる。指標値は、音素片データの接続境界における音声の相違度と、テキストの読み方に基づく各音素の音声、および、音素片検索部420により検索された音素片データの間の音声の相違度とに基づき算出される。以下、順に説明する。
(1)接続境界における相違度
算出部320は、音声データに含まれる音素片データの接続境界のそれぞれについて、当該接続境界における基本周波数の相違度および音色の相違度を算出する。基本周波数の相違度とは基本周波数の差分値であってもよいし、基本周波数の変化の割合であってもよい。音色の相違度とは、境界前における音色を示すベクトルと、境界後における音色を示すベクトルとの間の距離である。たとえば、境界前における音声波形データを離散コサイン変換して得られるベクトルと、境界後における音声波形データを離散コサイン変換して得られるベクトルとの間の、ケプストラム空間におけるユークリッド距離であってよい。そして、算出部320は、各接続境界における相違度を合計する。
算出部320は、音声データに含まれる音素片データの接続境界のそれぞれについて、当該接続境界における基本周波数の相違度および音色の相違度を算出する。基本周波数の相違度とは基本周波数の差分値であってもよいし、基本周波数の変化の割合であってもよい。音色の相違度とは、境界前における音色を示すベクトルと、境界後における音色を示すベクトルとの間の距離である。たとえば、境界前における音声波形データを離散コサイン変換して得られるベクトルと、境界後における音声波形データを離散コサイン変換して得られるベクトルとの間の、ケプストラム空間におけるユークリッド距離であってよい。そして、算出部320は、各接続境界における相違度を合計する。
但し、算出部320は、音素片データの接続境界でpやtなどの無声子音が発音される場合には、その接続境界における相違度を0と判断する。これは、無声子音の前後では音色や基本周波数が大きく変化しても、聞き手は違和感を感じにくいからである。同様の理由で、算出部320は、音素片データの接続境界に読点が含まれる場合には、その接続境界における相違度を0と判断する。
(2)読み方に基づく音声と、音素片データの音声との相違度
算出部320は、音声データに含まれる音素片データのそれぞれについて、その音素片データの韻律、および、その音素の読み方に基づき定められた韻律を比較する。韻律は、基本周波数を示す音声波形データによって定められてもよい。たとえば、算出部320は、各音声波形データの周波数の合計又は平均を比較してもよい。そしてその差分値が相違度として算出される。これに代えて、又は、これに加えて、算出部320は、各音素片データの音色を示すベクトルデータ、および、各音素の読み方に基づき定められたベクトルデータを比較する。そして、算出部320は、音素の先頭又は末尾の音色について、ベクトルデータ間の距離を相違度として算出する。これに加えて、算出部320は、音素の発音の長さを用いてもよい。たとえば、語句検索部410は、読み方に基づいて各音素の発音の長さとして望ましい値を算出する。これに対し、音素片検索部420は、この長さに最も近い長さの発音を示す音素片データを検索する。この場合、算出部320は、これらの発音の長さの差分を相違度として算出する。
算出部320は、音声データに含まれる音素片データのそれぞれについて、その音素片データの韻律、および、その音素の読み方に基づき定められた韻律を比較する。韻律は、基本周波数を示す音声波形データによって定められてもよい。たとえば、算出部320は、各音声波形データの周波数の合計又は平均を比較してもよい。そしてその差分値が相違度として算出される。これに代えて、又は、これに加えて、算出部320は、各音素片データの音色を示すベクトルデータ、および、各音素の読み方に基づき定められたベクトルデータを比較する。そして、算出部320は、音素の先頭又は末尾の音色について、ベクトルデータ間の距離を相違度として算出する。これに加えて、算出部320は、音素の発音の長さを用いてもよい。たとえば、語句検索部410は、読み方に基づいて各音素の発音の長さとして望ましい値を算出する。これに対し、音素片検索部420は、この長さに最も近い長さの発音を示す音素片データを検索する。この場合、算出部320は、これらの発音の長さの差分を相違度として算出する。
算出部320は、以上のように算出した相違度をそのまま合計して指標値としてもよいし、重み付けして合計して指標値としてもよい。また、算出部320は、所定の評価関数に各相違度を入力したうえで、その出力を指標値としてもよい。即ち、この指標値は、接続境界における音声の相違と、読み方に基づく音声と音素片データに基づく音声との相違とを示すものであればよい。
判断部330は、このようにして算出した指標値が、予め定められた基準値以上かどうかを判断する(S720)。基準値以上であれば(S720:YES)、置換部350は、テキストと換言記憶部340とを比較して、テキストの中から何れかの第1表記に一致する表記を検索する(S730)。そして、置換部350は、検索された表記を、その第1表記に対応する第2表記により置換する。
判断部330は、このようにして算出した指標値が、予め定められた基準値以上かどうかを判断する(S720)。基準値以上であれば(S720:YES)、置換部350は、テキストと換言記憶部340とを比較して、テキストの中から何れかの第1表記に一致する表記を検索する(S730)。そして、置換部350は、検索された表記を、その第1表記に対応する第2表記により置換する。
置換部350は、テキスト中の全ての語句を置換の候補として第1表記と比較してもよいが、その一部を比較の対象としてもよい。好ましくは、置換部350は、テキスト中の一部の文については、第1表記が検索されても置換の対象としない。たとえば、置換部350は、固有名詞又は数詞の少なくとも何れか一方を含む文については、表記を置換せず、固有名詞および数詞の何れも含まない文について、第1表記と一致する表記を検索する。数詞や固有名詞を含む文は意味の厳密性が要求される場合が多いので、このような文を避けることで意味を大きく変更してしまうことを防ぐことができる。
置換部350は、処理を更に効率化するべく、テキストの中で置換の候補となる特定の部分のみを第1表記と比較してもよい。たとえば、置換部350は、テキストを先頭から順に順次走査して、そのテキストの中の、連続して表記される予め定められた数の語句の組合せを順次選択してゆく。テキストに語句A、B、C、DおよびEが含まれていて、当該予め定められた数が3であれば、置換部350は、ABC、BCDおよびCDEをこの順に選択する。そして、置換部350は、選択した当該組合せに対応する合成音声の不自然さを示す指標値を算出する。
具体的には、置換部350は、語句の組合せ毎に、当該組合せに含まれる音素の各接続境界における音声の相違度を合計する。そして、置換部350は、当該組合せに含まれる接続境界の数でその合計値を割り算することにより、接続境界あたりの相違度の平均値を求める。また、置換部350は、当該組合せに含まれる各音素における合成音声、および、読み方に基づく音声の相違度を合計して、当該組合せに含まれる音素の数で割り算することにより、音素あたりの相違度の平均値を求める。そして、置換部350は、接続境界あたりの相違度の平均値、および、音素あたりの相違度の平均値の合計を指標値として算出する。そして、置換部350は、算出した指標値が最も大きい組み合わせに含まれる語句について、当該語句の表記に一致する第1表記を換言記憶部340から検索する。たとえば、ABC、BCDおよびCDEのうちBCDの指標値が最も大きければ、置換部350はBCDを選択して、BCDの中から第1表記と一致する語句を検索する。
これにより、最も不自然な箇所の近傍を優先して置換の対象とすることができ、置換処理を全体として効率化できる。
これにより、最も不自然な箇所の近傍を優先して置換の対象とすることができ、置換処理を全体として効率化できる。
続いて、判断部330は、置換されたテキストについて音声データを更に生成させるべく、当該テキストを合成部310に入力してS700に処理を戻す。一方、指標値が基準値未満であることを条件に(S720:NO)、表示部335は、表記が置換されたこのテキストを利用者に表示する(S740)。そして、判断部330は、表示した当該テキストに対し置換を承認する入力を受けたかどうかを判断する(S750)。置換を承認する入力を受けたことを条件に(S750:YES)、判断部330は、表記が置換されたこのテキストに基づく音声データを出力する(S770)。一方、置換を承認しないことを示す入力を受けたことを条件に(S750:NO)、判断部330は、指標値の大きさに関わらず、置換前のテキストに基づく音声データを出力する(S760)。これを受けて出力部370は合成音声を出力する。
図8は、音声合成システム10によって合成音声が生成される過程で順次生成されるテキストの具体例を示す。テキスト1は「僕のそばの窓のデフロスタをつけてくれよ。」というテキストである。このテキストに基づき合成部310により音声データを生成しても、合成音声は不自然であり、指標値も基準値(たとえば0.55)より高い。「デフロスタ」を「デフロスター」に置換することにより、テキスト2が生成される。テキスト2でもなお指標値が基準値より高いので、「そば」が「近く」に置換されてテキスト3が生成される。以降同様に、「僕の」が「私の」に置換され、「くれよ」が「ちょうだい」に置換され、「ちょうだい」が「ください」に置換されて、テキスト6が生成される。最後の置換のように、一旦置換された語句が再度置換されてもよい。
テキスト6でもなお指標値が基準値より高いので、「窓の」が「窓の、」に置換される。このように、置換元又は置換先(即ち上記の第1表記又は第2表記)は読点を含んでもよい。また、「デフロスター」は「デフォッガー」に置換される。この結果生成されたテキスト8は、指標値が基準値未満となる。このため、出力部370はこのテキスト8に基づく合成音声を出力する。
図9は、音声合成システム10として機能する情報処理装置500のハードウェア構成の一例を示す。情報処理装置500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置500の起動時にCPU1000が実行するブートプログラムや、情報処理装置500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置500にインストールされて実行される。プログラムが情報処理装置500等に働きかけて行わせる動作は、図1から図8において説明した音声合成システム10における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置500に提供してもよい。
このように、本実施形態に係る音声合成システム10によれば、意味を大きく変えない範囲内でテキスト中の表記を順次変更してゆくことで、音素片の結合がより自然になるテキスト表記を探し出し、合成音声の品質を高めることができる。これにより、音素の結合や周波数の変更といった音響処理によっては品質に限界がある場合であっても、更に高品質な音声を生成することができる。音質は、音素の接続境界における音声の相違度などを用いることで、精度良く評価される。これにより、置換するべきか否かの判断や、置換するべき箇所の判断を正確に行うことができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることのできることが当業者にとって明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
10 音声合成システム
20 音素片記憶部
310 合成部
320 算出部
330 判断部
335 表示部
340 換言記憶部
350 置換部
370 出力部
400 語句記憶部
410 語句検索部
420 音素片検索部
500 情報処理装置
600 語句データ
610 発音データ
620 アクセントデータ
630 品詞データ
20 音素片記憶部
310 合成部
320 算出部
330 判断部
335 表示部
340 換言記憶部
350 置換部
370 出力部
400 語句記憶部
410 語句検索部
420 音素片検索部
500 情報処理装置
600 語句データ
610 発音データ
620 アクセントデータ
630 品詞データ
Claims (12)
- 合成音声を生成するシステムであって、
各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、
テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを前記音素片記憶部から読み出して接続し、前記テキストの合成音声を示す音声データを生成する合成部と、
前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出する算出部と、
複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、
前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換する置換部と、
算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストを前記合成部に入力する判断部と
を備えるシステム。 - 前記算出部は、前記音声データに含まれる第1の音素片データおよび前記第1の音素片データに接続する第2の音素片データの境界における、前記第1の音素片データおよび前記第2の音素片データの間の発音の相違度を前記指標値として算出する
請求項1に記載のシステム。 - 前記音素片記憶部は、各々の音素について、音声の基本周波数および音色を示すデータを前記音素片データとして記憶しており、
前記算出部は、前記第1の音素片データおよび前記第2の音素片データの境界における、前記第1の音素片データおよび前記第2の音素片データの間の基本周波数および音色の相違度を、前記指標値として算出する
請求項2に記載のシステム。 - 前記合成部は、
複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する語句記憶部と、
入力した前記テキストに含まれる各々の語句と表記が一致する語句を前記語句記憶部から検索し、検索したそれぞれの語句に対応する読み方を前記語句記憶部から読み出して接続することにより、前記テキストの読み方を生成する語句検索部と、
生成した前記読み方に基づいて定まる各音素の韻律に最も近い音素片データをそれぞれ前記音素片記憶部から検索して読み出し、読み出した複数の前記音素片データを接続することにより前記音声データを生成する音素片検索部と
を有し、
前記算出部は、生成した前記読み方に基づいて定まる各音素の韻律と、当該各音素に対応してそれぞれ検索した音素片データが示す韻律との差分を、前記指標値として算出する
請求項1に記載のシステム。 - 前記合成部は、
複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する語句記憶部と、
入力した前記テキストに含まれる各々の語句と表記が一致する語句を前記語句記憶部から検索し、検索したそれぞれの語句に対応する読み方を前記語句記憶部から読み出して接続することにより、前記テキストの読み方を生成する語句検索部と、
生成した前記読み方に基づいて定まる各音素の音色に最も近い音素片データをそれぞれ前記音素片記憶部から検索して読み出し、読み出した複数の前記音素片データを接続することにより前記音声データを生成する音素片検索部と
を有し、
前記算出部は、生成した前記読み方に基づいて定まる各音素の音色と、当該各音素に対応してそれぞれ検索した音素片データが示す音色との差分を、前記指標値として算出する
請求項1に記載のシステム。 - 前記音素片記憶部は、生成する目標とするべき合成音声を示す音声データである目標音声データを予め取得して、当該目標音声データに含まれる複数の音素の音声を示す複数の音素片データを予め生成して記憶しており、
前記換言記憶部は、複数の前記第2表記のそれぞれとして、前記目標音声データの内容を示すテキストに含まれる語句の表記を記憶しており、
前記置換部は、入力した前記テキストのうち第1表記に一致する表記を、前記目標音声データの内容を示す前記テキストに含まれる語句の表記である第2表記に置換する
請求項1に記載のシステム。 - 前記置換部は、入力した前記テキストの中の、連続して表記される予め定められた数の語句の組合せのそれぞれについて、当該組合せに対応する合成音声の不自然さを示す指標値を算出し、算出した前記指標値が最も大きい組合せに含まれる語句について、当該語句の表記に一致する前記第1表記を前記換言記憶部から検索して、当該語句の表記を第2表記に置換する
請求項1に記載のシステム。 - 前記換言記憶部は、第1表記および前記第1表記の言い換えである第2表記の組のそれぞれに対応付けて、さらに、前記第1表記および前記第2表記の間の意味の近似度を記憶しており、
前記置換部は、入力した前記テキストの中の表記が複数の第1表記のそれぞれに一致したことを条件に、一致した当該表記を、当該複数の第1表記のうち前記近似度の最も高い第1表記に対応する第2表記により置換する
請求項1に記載のシステム。 - 前記置換部は、入力した前記テキストのうち、固有名詞または数詞の少なくとも何れか一方を含む文については表記を置換せず、固有名詞および数詞の何れも含まない文について、前記第1表記と一致する表記を検索して、当該第1表記に対応する第2表記に置換する
請求項1に記載のシステム。 - 前記置換部により表記が置換されたことを条件に、表記が置換された前記テキストを利用者に表示する表示部をさらに備え、
前記判断部は、表示した当該テキストに対し置換を承認する入力を受けたことをさらに条件として、表記が置換された当該テキストに基づく音声データを出力し、当該置換を承認しない入力を受けたことを条件に、前記指標値に関わらず置換前の当該テキストに基づく音声データを出力する
請求項1に記載のシステム。 - 合成音声を生成する方法であって、
各々が互いに異なる音素の音声を示す複数の音素片データを記憶することと、
テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを記憶した音素片データの中から読み出して接続し、前記テキストの合成音声を示す音声データを生成することと、
前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出することと、
複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶することと、
前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換することと、
算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストの合成音声をさらに生成させることと
を備える方法。 - 合成音声を生成するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、
テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを前記音素片記憶部から読み出して接続し、前記テキストの合成音声を示す音声データを生成する合成部と、
前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出する算出部と、
複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、
前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換する置換部と、
算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストを前記合成部に入力する判断部と
して機能させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007019433A JP2008185805A (ja) | 2007-01-30 | 2007-01-30 | 高品質の合成音声を生成する技術 |
CN2008100037617A CN101236743B (zh) | 2007-01-30 | 2008-01-22 | 生成高质量话音的***和方法 |
US12/022,333 US8015011B2 (en) | 2007-01-30 | 2008-01-30 | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007019433A JP2008185805A (ja) | 2007-01-30 | 2007-01-30 | 高品質の合成音声を生成する技術 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008185805A true JP2008185805A (ja) | 2008-08-14 |
Family
ID=39668963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007019433A Pending JP2008185805A (ja) | 2007-01-30 | 2007-01-30 | 高品質の合成音声を生成する技術 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8015011B2 (ja) |
JP (1) | JP2008185805A (ja) |
CN (1) | CN101236743B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650034B2 (en) | 2009-02-16 | 2014-02-11 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product for speech processing |
Families Citing this family (215)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080167876A1 (en) * | 2007-01-04 | 2008-07-10 | International Business Machines Corporation | Methods and computer program products for providing paraphrasing in a text-to-speech system |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US8583438B2 (en) * | 2007-09-20 | 2013-11-12 | Microsoft Corporation | Unnatural prosody detection in speech synthesis |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
JP5269668B2 (ja) * | 2009-03-25 | 2013-08-21 | 株式会社東芝 | 音声合成装置、プログラム、及び方法 |
WO2010119534A1 (ja) * | 2009-04-15 | 2010-10-21 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5535241B2 (ja) * | 2009-12-28 | 2014-07-02 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
CN102203853B (zh) * | 2010-01-04 | 2013-02-27 | 株式会社东芝 | 合成语音的方法和装置 |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP5296029B2 (ja) * | 2010-09-15 | 2013-09-25 | 株式会社東芝 | 文章提示装置、文章提示方法及びプログラム |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
US8781836B2 (en) * | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9142220B2 (en) | 2011-03-25 | 2015-09-22 | The Intellisis Corporation | Systems and methods for reconstructing an audio signal from transformed audio information |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US8620646B2 (en) | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US8548803B2 (en) * | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9311913B2 (en) * | 2013-02-05 | 2016-04-12 | Nuance Communications, Inc. | Accuracy of text-to-speech synthesis |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9741339B2 (en) * | 2013-06-28 | 2017-08-22 | Google Inc. | Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
JP6391925B2 (ja) * | 2013-09-20 | 2018-09-19 | 株式会社東芝 | 音声対話装置、方法およびプログラム |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN106233373B (zh) * | 2014-04-15 | 2017-07-07 | 三菱电机株式会社 | 信息提供装置及信息提供方法 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9552810B2 (en) | 2015-03-31 | 2017-01-24 | International Business Machines Corporation | Customizable and individualized speech recognition settings interface for users with language accents |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
WO2017065266A1 (ja) * | 2015-10-15 | 2017-04-20 | ヤマハ株式会社 | 情報管理システムおよび情報管理方法 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9990916B2 (en) * | 2016-04-26 | 2018-06-05 | Adobe Systems Incorporated | Method to synthesize personalized phonetic transcription |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10600404B2 (en) * | 2017-11-29 | 2020-03-24 | Intel Corporation | Automatic speech imitation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10706347B2 (en) | 2018-09-17 | 2020-07-07 | Intel Corporation | Apparatus and methods for generating context-aware artificial intelligence characters |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
WO2020129422A1 (ja) * | 2018-12-20 | 2020-06-25 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN109599092B (zh) * | 2018-12-21 | 2022-06-10 | 秒针信息技术有限公司 | 一种音频合成方法及装置 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109947955A (zh) * | 2019-03-21 | 2019-06-28 | 深圳创维数字技术有限公司 | 语音搜索方法、用户设备、存储介质及装置 |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
KR102430020B1 (ko) * | 2019-08-09 | 2022-08-08 | 주식회사 하이퍼커넥트 | 단말기 및 그것의 동작 방법 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN111402857B (zh) * | 2020-05-09 | 2023-11-21 | 广州虎牙科技有限公司 | 语音合成模型训练方法和装置、电子设备及存储介质 |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11915714B2 (en) * | 2021-12-21 | 2024-02-27 | Adobe Inc. | Neural pitch-shifting and time-stretching |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0833744B2 (ja) * | 1986-01-09 | 1996-03-29 | 株式会社東芝 | 音声合成装置 |
WO1995015035A1 (en) * | 1993-11-25 | 1995-06-01 | British Telecommunications Public Limited Company | Method and apparatus for testing telecommunications equipment |
MX9800434A (es) * | 1995-07-27 | 1998-04-30 | British Telecomm | Evaluacion de calidad de señal. |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
CA2354871A1 (en) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
CN1328321A (zh) * | 2000-05-31 | 2001-12-26 | 松下电器产业株式会社 | 通过语音提供信息的装置和方法 |
JP3593563B2 (ja) | 2001-10-22 | 2004-11-24 | 独立行政法人情報通信研究機構 | 話し言葉による音声出力装置及びソフトウェア |
US7024362B2 (en) * | 2002-02-11 | 2006-04-04 | Microsoft Corporation | Objective measure for estimating mean opinion score of synthesized speech |
JP4264030B2 (ja) * | 2003-06-04 | 2009-05-13 | 株式会社ケンウッド | 音声データ選択装置、音声データ選択方法及びプログラム |
US7386451B2 (en) * | 2003-09-11 | 2008-06-10 | Microsoft Corporation | Optimization of an objective measure for estimating mean opinion score of synthesized speech |
DE602005026778D1 (de) * | 2004-01-16 | 2011-04-21 | Scansoft Inc | Corpus-gestützte sprachsynthese auf der basis von segmentrekombination |
JP2006018133A (ja) * | 2004-07-05 | 2006-01-19 | Hitachi Ltd | 分散型音声合成システム、端末装置及びコンピュータ・プログラム |
JP4551803B2 (ja) * | 2005-03-29 | 2010-09-29 | 株式会社東芝 | 音声合成装置及びそのプログラム |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
-
2007
- 2007-01-30 JP JP2007019433A patent/JP2008185805A/ja active Pending
-
2008
- 2008-01-22 CN CN2008100037617A patent/CN101236743B/zh not_active Expired - Fee Related
- 2008-01-30 US US12/022,333 patent/US8015011B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650034B2 (en) | 2009-02-16 | 2014-02-11 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product for speech processing |
Also Published As
Publication number | Publication date |
---|---|
US8015011B2 (en) | 2011-09-06 |
CN101236743A (zh) | 2008-08-06 |
CN101236743B (zh) | 2011-07-06 |
US20080183473A1 (en) | 2008-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008185805A (ja) | 高品質の合成音声を生成する技術 | |
US11450313B2 (en) | Determining phonetic relationships | |
JP4247564B2 (ja) | システム、プログラムおよび制御方法 | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US20160140953A1 (en) | Speech synthesis apparatus and control method thereof | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP5152588B2 (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP2020060642A (ja) | 音声合成システム、及び音声合成装置 | |
KR20220096129A (ko) | 감정톤을 자동조절하는 음성합성 시스템 | |
JP3854593B2 (ja) | 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム | |
Mahar et al. | WordNet based Sindhi text to speech synthesis system | |
US20210142784A1 (en) | Speech synthesis system, method and non-transitory computer readable medium | |
Tian et al. | Modular design for Mandarin text-to-speech synthesis | |
Iso-Sipilä | Design and Implementation of a Speaker-Independent Voice Dialing System: A Multi-lingual Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090930 |