JP2008185805A - 高品質の合成音声を生成する技術 - Google Patents

高品質の合成音声を生成する技術 Download PDF

Info

Publication number
JP2008185805A
JP2008185805A JP2007019433A JP2007019433A JP2008185805A JP 2008185805 A JP2008185805 A JP 2008185805A JP 2007019433 A JP2007019433 A JP 2007019433A JP 2007019433 A JP2007019433 A JP 2007019433A JP 2008185805 A JP2008185805 A JP 2008185805A
Authority
JP
Japan
Prior art keywords
notation
phoneme
text
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007019433A
Other languages
English (en)
Inventor
Takateru Tachibana
隆輝 立花
Toru Nagano
徹 長野
Masafumi Nishimura
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007019433A priority Critical patent/JP2008185805A/ja
Priority to CN2008100037617A priority patent/CN101236743B/zh
Priority to US12/022,333 priority patent/US8015011B2/en
Publication of JP2008185805A publication Critical patent/JP2008185805A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】高品質の合成音声を効率的に生成する。
【解決手段】複数の音素片データを記憶する音素片記憶部と、入力したテキストの発音を示す各音素に対応する音素片データを音素片記憶部から読み出して接続し、テキストの合成音声を示す音声データを生成する合成部と、テキストの合成音声の不自然さを示す指標値を、音声データに基づいて算出する算出部と、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、テキストの中から何れかの第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する第2表記に置換する置換部と、算出した指標値が基準値より小さいことを条件に、生成された音声データを出力し、当該指標値が基準値以上であることを条件に、置換されたテキストについて音声データをさらに生成させるべく当該テキストを合成部に入力する判断部とを備えるシステムを提供する。
【選択図】図3

Description

本発明は、合成音声を生成する技術に関する。特に、本発明は、複数の音素片を接続して合成音声を生成する技術に関する。
聞き手にとって自然な合成音声を生成することを目標として、従来、波形編集合成方式を採用した音声合成技術が用いられている。この方式では、音声合成装置が、人間である話者の音声を予め収録して音声波形データとしてデータベースに保存しておく。そして、その音声合成装置は、入力されたテキストに基づいて複数の音声波形データを読み出して接続することにより、合成音声を生成する。このような合成音声が聞き手にとって自然に聞こえるようにするためには、音声の周波数や音色が連続的に変化することが望ましい。例えば、音声波形データの接続部分で音声の周波数や音色が大きく変化してしまうと、その合成音声は不自然に聞こえてしまう。
特開2003−131679号公報 Wael Hamza, Raimo Bakis, and Ellen Eide, "RECONCILING PRONUNCIATION DIFFERENCES BETWEEN THE FRONTEND AND BACK-END IN THE IBM SPEECH SYNTHESIS SYSTEM", Proceedings of ICSLP, Jeju, South Korea, 2004, pp.2561-2564
しかしながら、費用や時間の制約や、コンピュータの記憶容量や処理能力の制約のため、予め収録することのできる音声波形データの種類は限られている。このため、適切な音声波形データがデータベースに登録されておらず、代用の音声波形データを用いた結果接続部分で周波数等が大きく変化して、合成音声が不自然になってしまう場合がある。これは、入力されたテキストの表記内容が、音声波形データを生成するために予め収録した音声の内容と大きく異なっている場合に起こり易い。
参考技術文献として特許文献1および非特許文献1を挙げる。特許文献1に記載の音声出力装置は、書き言葉によって構成されたテキストを、話し言葉のテキストに変換したうえで読み上げることで、聞き手がその内容を理解し易くしている。しかしながら、この装置はテキストをその表現を変更するために変換するものであり、その変換は音声波形データの周波数変化などの情報とは無関係に行われる。従って、この変換によっては合成音声の品質を向上させることはできない。非特許文献1の技術は、表記が同一で発音の異なる音素片を予め記憶しておき、それらの中から、合成音声の品質が向上するように適切な音素片を選択するものである。しかしながら、そのような選択を試みてもなお適切な音素片が無ければ合成音声が不自然になってしまう。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、合成音声を生成するシステムであって、各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、テキストを入力し、入力したテキストの発音を示す各音素に対応する音素片データを音素片記憶部から読み出して接続し、テキストの合成音声を示す音声データを生成する合成部と、テキストの合成音声の不自然さを示す指標値を、音声データに基づいて算出する算出部と、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、テキストの中から何れかの第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する第2表記に置換する置換部と、算出した指標値が予め定められた基準値より小さいことを条件に、生成された音声データを出力し、当該指標値が基準値以上であることを条件に、置換されたテキストについて音声データをさらに生成させるべく当該テキストを合成部に入力する判断部とを備えるシステムを提供する。また、当該システムにより合成音声を生成する方法、および、当該システムとして情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、音声合成システム10およびそれに関連するデータの全体構成を示す。音声合成システム10は、複数の音素片データを記憶する音素片記憶部20を有する。これらの音素片データは、生成する目標とするべき合成音声を示す目標音声データから、そのデータを音素毎に分割することによって予め生成されるものである。この目標音声データは、例えばアナウンサーが原稿を読み上げた音声などを録音したものである。そして、音声合成システム10は、テキストを入力し、入力したこのテキストに対し、形態素解析や韻律モデルの適用などの処理を行って、そのテキストの読み上げ音声として生成するべき各音素の韻律や音色などのデータを生成する。そして、音声合成システム10は、生成したこれらの周波数などのデータに基づいて、音素片記憶部20から複数の音素片データを選択して読み出し、読み出したこれらの音素片データを接続する。接続された複数の音素片データは、利用者の承認を条件に、このテキストの合成音声を示す音声データとして出力される。
ここで、音素片記憶部20に記憶することのできる音素片データの種類は、費用や所要時間、あるいは、音声合成システム10の計算処理能力などの制約によって制限される。このため、音声合成システム10が、韻律モデルの適用などの処理の結果、各音素の発音として生成するべき周波数を求めても、その周波数の音素片データが音素片記憶部20に記憶されていない場合がある。この場合、音声合成システム10が不適切な音素片データを選択した結果、品質の低い合成音声が生成されてしまうおそれがある。これに対し本実施形態に係る音声合成システム10は、一旦生成した音声データが充分な品質を有していない場合には、テキストの表記をその意味を変更しない範囲内で変更することで、出力される合成音声の品質を向上することを目的とする。
図2は、音素片記憶部20のデータ構造の一例を示す。音素片記憶部20は、各々が互いに異なる音素の音声を示す複数の音素片データを記憶する。具体的には、音素片記憶部20は、各々の音素について、当該音素の表記と、当該音素の音声波形データと、当該音素の音色データとを記憶している。一例として、音素片記憶部20は、「あ」という表記を有するある音素について、時間の経過に応じた基本周波数の変化を示す情報を音声波形データとして記憶する。ここで、音素の基本周波数とは、音素を構成する各周波数成分のうち最も音の大きい周波数成分をいう。また、音素片記憶部20は、同じ「あ」という表記を有するある音素について、基本周波数を含む複数の周波数成分のそれぞれについて、音声の大きさ又は強さを要素として示したベクトルデータを音色データとして記憶する。図2では説明の都合上、各音素の先頭部分および末尾部分における音色データを例示したが、実際には、音素片記憶部20は各周波数成分についてその大きさ又は強さの時間変化を示すデータを記憶している。
このように、音素片記憶部20には各音素の音声波形データが記憶されているので、音声合成システム10はこれらの音声波形データを接続すれば、複数の音素を有する音声を生成することができる。なお、図2は音素片データの内容の一例を示したものであり、音素片記憶部20が記憶する音素片データのデータ構造やデータ形式はこの図に記載のものに限定されない。他の例として例えば、音素片記憶部20は、音素片データとして、音素の録音データ自体を記憶してもよいし、その録音データに対し所定の演算を行ったデータを記憶していてもよい。演算とは例えば離散コサイン変換などであり、これにより、録音データのうちの所望の周波数成分を参照できるので、基本周波数や音色の解析を可能とすることができる。
図3は、音声合成システム10の機能構成を示す。音声合成システム10は、音素片記憶部20と、合成部310と、算出部320と、判断部330と、表示部335と、換言記憶部340と、置換部350と、出力部370とを有する。まず、これらの各部材とハードウェア資源との関係を述べる。音素片記憶部20および換言記憶部340は、たとえば、後述のRAM1020およびハードディスクドライブ1040などの記憶装置によって実現される。合成部310、算出部320、判断部330および置換部350は、インストールされたプログラムの指令によって後述のCPU1000の動作により実現される。表示部335は、後述のグラフィックコントローラ1075および表示装置1080の他、利用者からの入力を受け付けるためのポインティングデバイスやキーボードにより実現される。そして、370は、スピーカや入出力チップ1070により実現される。
音素片記憶部20は、上述のように、複数の音素片データを記憶している。合成部310は、テキストを外部から入力し、入力したこのテキストの発音を示す各音素に対応する音素片データを音素片記憶部20から読み出して接続する。具体的には、まず、合成部310は、このテキストに対し形態素解析を行って、このテキストに含まれる語句の境界、および、各語句の品詞を検出する。そして、合成部310は、各語句の読み方について予め記憶しているデータに基づいて、このテキストを読み上げたときに各音素をどのような周波数の音声で、かつ、どのような音色で発音するべきかを求める。そして、合成部310は、この周波数および音色に近い音素片データをそれぞれ音素片記憶部20から読み出して接続し、このテキストの合成音声を示す音声データとして算出部320に出力する。
算出部320は、このテキストの合成音声の不自然さを示す指標値を、合成部310から受け取った音声データに基づいて算出する。この指標値は、例えば、音声データに含まれる第1の音素片データおよびこの第1の音素片データに接続する第2の音素片データの境界における、この第1の音素片データおよびこの第2の音素片データの間の発音の相違度を示すものである。そして発音の相違度とは、音色や基本周波数の相違度である。即ちこの相違度が大きいほど、音声の周波数などが突然に変化するので、合成音声は聞き手にとって不自然に感じられる。
判断部330は、算出したこの指標値が予め定められた基準値より小さいか否かを判断する。判断部330は、この指標値が基準値以上であることを条件に、テキスト中の表記を置換させて置換したそのテキストについて音声データをさらに生成させるべく、置換部350に指示する。一方、判断部330は、指標値が基準値より小さいことを条件に、表示部335は、この音声データを生成する対象となったテキストを利用者に表示して、このテキストに基づいて合成音声を生成してよいかどうかを利用者に問合せる表示を行う。このテキストは、外部から入力したテキストそのものである場合もあるし、置換部350によって何度かの置換処理が行われた結果として生成されたテキストである場合もある。
判断部330は、承認する入力を受けたことを条件として、生成されたこの音声データを出力部370に出力する。これを受けて、出力部370は、音声データに基づいて合成音声を生成し、利用者に出力する。一方、置換部350は、指標値が基準値以上の場合に判断部330から指示を受けて処理を開始する。換言記憶部340は、複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶している。そして、置換部350は、判断部330から指示を受けると、まず、前回に音声合成の対象となったテキストを合成部310から取得する。次に、置換部350は、そのテキストの中から何れかの第1表記に一致する表記を検索する。検索されたことを条件に、置換部350は、検索された当該表記を当該第1表記に対応する第2表記に置換する。表記が置換されたテキストは、合成部310に入力されて、そのテキストに基づいてさらに音声データが生成される。
図4は、合成部310の機能構成を示す。合成部310は、語句記憶部400と、語句検索部410と、音素片検索部420とを有する。そして、合成部310は、n−gramモデルとして知られている手法によりテキストの読み方を生成したうえで、それに基づき音声データを生成する。具体的には、まず、語句記憶部400は、予め登録された複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する。表記とは、語句を構成する文字列であり、読み方とは、たとえば発音を示す記号、アクセントを示す記号またはアクセント型などである。語句記憶部400は、同一の表記について複数の互いに異なる読み方を対応付けて記憶してもよい。そしてその場合、語句記憶部400は、それぞれの読み方についてその読み方で読まれる確率値をさらに記憶している。
詳細には、語句記憶部400は、予め定められた数の語句の組合せ(たとえばbi−gramモデルでは2つの語句の組合せ)ごとに、その組合せの語句がそれぞれの読み方の組合せで読まれる確率値を記憶している。たとえば、「僕の」という単一の語句について第1音節にアクセントがある確率値と、第2音節にアクセントがある確率値とを記憶するだけではなく、「僕の」が「近くの」という語句と連続して表記されたときに、この連続する語句の組合せについて、第1音節にアクセントがある確率値、および、第2音節にアクセントがある確率値がそれぞれ記憶される。そしてこれとは別に、「僕の」という単語が「近くの」ではない他の語句と連続して表記されたときに、やはりこの連続する語句の組合せについて、各音節にアクセントがある確率値がそれぞれ記憶される。
ここに記憶される表記、読み方および確率値の情報は、予め録音された目標音声データを音声認識したうえで、語句の組合せ毎に読み方の組合せが出現する頻度をカウントすることによって生成される。即ち、目標音声データ中で高頻度に現れる語句および読み方の組合せについては高い確率値が記憶される。なお、音声合成の精度をさらに高めるべく、音素片記憶部20は、語句の品詞の情報をさらに記憶していることが望ましい。品詞の情報も、目標音声データを音声認識することによって生成されてもよいし、音声認識されたテキストデータに対し人手によって付与されてもよい。
語句検索部410は、入力したテキストに含まれる各々の語句と表記が一致する語句を語句記憶部400から検索し、検索したそれぞれの語句に対応する読み方を語句記憶部400から読み出して接続することにより、テキストの読み方を生成する。たとえばbi−gramモデルでは、語句検索部410は、入力したテキストを先頭から走査して、連続する2つの語句の組合せごとに、その組合せの語句と一致する語句の組合せを語句記憶部400から検索する。そして、語句検索部410は、検索された語句の組合せに対応する読み方の組合せをそれに対応する確率値と共に語句記憶部400から読み出す。このようにして、語句検索部410は、テキストの先頭から末尾に向かって語句の組合せ毎に複数の確率値を検索してゆく。
たとえば、テキストが語句A、BおよびCをこの順で含む場合、語句AおよびBの組合せについて、読み方として、a1およびb1の組合せ(確率値p1)、a2およびb1の組み合わせ(確率値p2)、a1およびb2の組合せ(確率値p3)、並びに、a2およびb2の組み合わせ(確率値p4)が検索される。同様に、語句BおよびCの組合せについて、読み方として、b1およびc1の組合せ(確率値p5)、b1およびc2の組合せ(確率値p6)、b2およびc1の組合せ(確率値p7)、ならびに、b2およびc2の組合せ(確率値p8)が検索される。そして、語句検索部410は、語句の各組合せについての確率値の積が最大となる読み方の組合せを選択して、テキストの読み方として音素片検索部420に出力する。この例では、p1×p5、p1×p7、p2×p5、p2×p7、p3×p6、p3×p8、p4×p6、および、p4×p8がそれぞれ算出されて、そのうちの最大値に対応する読み方の組合せが出力される。
次に、音素片検索部420は、生成した読み方に基づいて各音素について目標となる韻律および音色を求め、それに最も近い音素片データをそれぞれ音素片記憶部20から検索して読み出し、読み出した複数の音素片データを接続することにより音声データを生成して、算出部320に対し出力する。たとえば、音素片検索部420は、生成した読み方において、アクセントが、音節毎にLHHHLLHのように連続する場合において(Lはアクセントが低く、Hはアクセントが高いことを示す)、このようなアクセントの高低を滑らかに表現するように、各音素の韻律を算出する。韻律とは、たとえば、基本周波数の変化、音の長さ、および、音量によって表される。基本周波数の算出は、あらかじめアナウンサーが録音した音声データから統計的に学習しておいた基本周波数モデルを用いる。基本周波数モデルによって各音素の基本周波数の目標値が、アクセントの環境、品詞、文の長さなどに応じて求めることができる。ここではアクセントから基本周波数を求める処理の一例を述べたが、発音から音色や継続時間長や音量を求める処理も同様に、予め統計的に学習したルールに基づき求めることができる。このように、アクセントや発音に基づいて各音素の韻律および音色を定める技術については、韻律または音色を予測する技術として従来公知であるから更に詳細な説明を省略する。
図5は、換言記憶部340のデータ構造の一例を示す。換言記憶部340は、複数の第1表記のそれぞれに対応付けて、その第1表記の言い換えである第2表記を記憶している。さらに、換言記憶部340は、第1表記およびそれに対応する第2表記の組のそれぞれに対応付けて、その第1表記およびその第2表記の間の意味の近似度を記憶している。たとえば、換言記憶部340は、第1表記「僕の」をその言い換えである第2表記「私の」に対応付けて記憶し、これらの表記の組に対応付けてその近似度「65%」を更に記憶する。近似度とは、このようにたとえば百分率で表され、表記を換言記憶部340に登録した作業者によって入力されたものであってもよいし、この言い換えを用いた置換処理の結果として利用者にその置換が承認された確率に基づき算出されてもよい。
換言記憶部340に登録された表記の数が多くなると、互いに等しい複数の第1表記が、互いに異なる複数の第2表記に対応付けて記憶される場合がある。即ち、置換部350が、入力したテキストと換言記憶部340の第1表記とを比較した結果、そのテキスト中の表記が複数の第1表記のそれぞれに一致する場合がある。この場合、置換部350は、テキスト中のその表記を、当該複数の第1表記のうち近似度の最も高い第1表記に対応する第2表記により置換する。このように、表記に対応付けて記憶した近似度は、置換先とするべき表記を選択する指針として用いることができる。
さらに、換言記憶部340が記憶する第2表記は、目標音声データの内容を示すテキストに含まれる語句の表記であることが望ましい。目標音声データの内容を示すテキストとは、たとえば、目標音声データがテキストの読み上げ音声を示す場合におけるそのテキストである。また、目標音声データが自由発声に係るものである場合には、その目標音声データを音声認識した結果を示すテキストであってもよいし、その目標音声データの内容を人手でテキストに記録したものであってもよい。これにより、置換先の語句表記は目標音声データにおいて用いられたものとなり、置換後のテキストについて出力される合成音声をより一層自然なものとすることができる。
更にこれに加えて、置換部350は、テキスト中の第1表記に対応する複数の第2表記が検索される場合に、そのそれぞれについて、当該第2表記により置換したテキストと、目標音声データの内容を示すテキストとの間の距離を計算してもよい。距離とは、テキストの表現の傾向や内容の傾向が近いかどうかを示す指標値として知られている概念で、既存の手法により算出することができる。そしてこの場合、置換部350は、当該距離が最も短いテキストを置換後のテキストとして選択する。このような手法によっても、置換後のテキストに基づく音声をできるだけ目標音声に近づけることができる。
図6は、語句記憶部400のデータ構造の一例を示す。語句記憶部400は、語句データ600と、発音データ610と、アクセントデータ620と、品詞データ630とを相互に対応付けて記憶している。語句データ600は、複数の語句のそれぞれについてその語句の表記を示している。図6の例で語句データ600は、「大阪」、「府」、「在住」、「の」、「方」、「に」、「限」、「り」、「ま」および「す」のそれぞれを語句の表記として含む。また、発音データ610およびアクセントデータ620は、複数の語句のそれぞれについてその語句の読み方を示している。発音データ610は読み方のうち発音を示し、アクセントデータ620は読み方のうちアクセントを含む。発音は、たとえば、アルファベットなどを用いた表音記号によって表される。アクセントは、高い(H)または低い(L)という音声の相対的な高低関係を音素毎に配列したものである。また、アクセントデータ620は、音素毎の相対的な高低関係の組合せを番号により識別するアクセント型を含んでよい。また、語句記憶部400は、品詞データ630として示したように、各語句の品詞を記憶してもよい。品詞とは、文法上厳密な意味での品詞ではなく、音声合成や解析に適した拡張的な品詞を含む。たとえば、語句の末尾を構成する末尾詞などを含んでよい。
図6には、これらの各種のデータと対比して、これらのデータに基づき語句検索部410により生成される音声波形データを図中央に示した。即ち、語句検索部410は、「大阪府在住の方に限ります」というテキストを入力すると、上記n−gramモデルを用いた手法によって、各音素の相対的な高低関係(LまたはH)、および、各音素の発音(アルファベットを用いた表音記号)を求める。すると、音素片検索部420は、各音素の相対的な高低関係を反映しつつも、利用者にとって不自然に聞こえないように滑らかに変化する基本周波数を生成する。このようにして生成された基本周波数の一例を図6中央に示す。基本周波数がこのように変化すれば理想的であるが、周波数の値が全く一致するような音素片データを音素片記憶部20から検索できない場合もあり、その結果として合成音声が不自然に聞こえてしまう場合もある。これに対し、既に説明してきたように、音声合成システム10によれば、テキスト自体をその意味を変えない範囲で変更することで、検索可能な音素片データを有効に使用して、合成音声の品質を向上することができる。
図7は、音声合成システム10によって合成音声が生成される処理の流れを示す。合成部310は、テキストを外部から入力し、入力したこのテキストの発音を示す各音素に対応する音素片データを音素片記憶部20から読み出して接続する(S700)。具体的には、まず、合成部310は、このテキストに対し形態素解析を行って、このテキストに含まれる語句の境界、および、各語句の品詞を検出する。そして、合成部310は、各語句の読み方について語句記憶部400に予め記憶しているデータに基づいて、このテキストを読み上げたときに各音素をどのような周波数の音声で、かつ、どのような音色で発音するべきかを求める。そして、合成部310は、この周波数および音色に近い音素片データをそれぞれ音素片記憶部20から読み出して接続し、このテキストの合成音声を示す音声データとして算出部320に出力する。
算出部320は、このテキストの合成音声の不自然さを示す指標値を、合成部310から受け取った音声データに基づいて算出する(S710)。その一例を述べる。指標値は、音素片データの接続境界における音声の相違度と、テキストの読み方に基づく各音素の音声、および、音素片検索部420により検索された音素片データの間の音声の相違度とに基づき算出される。以下、順に説明する。
(1)接続境界における相違度
算出部320は、音声データに含まれる音素片データの接続境界のそれぞれについて、当該接続境界における基本周波数の相違度および音色の相違度を算出する。基本周波数の相違度とは基本周波数の差分値であってもよいし、基本周波数の変化の割合であってもよい。音色の相違度とは、境界前における音色を示すベクトルと、境界後における音色を示すベクトルとの間の距離である。たとえば、境界前における音声波形データを離散コサイン変換して得られるベクトルと、境界後における音声波形データを離散コサイン変換して得られるベクトルとの間の、ケプストラム空間におけるユークリッド距離であってよい。そして、算出部320は、各接続境界における相違度を合計する。
但し、算出部320は、音素片データの接続境界でpやtなどの無声子音が発音される場合には、その接続境界における相違度を0と判断する。これは、無声子音の前後では音色や基本周波数が大きく変化しても、聞き手は違和感を感じにくいからである。同様の理由で、算出部320は、音素片データの接続境界に読点が含まれる場合には、その接続境界における相違度を0と判断する。
(2)読み方に基づく音声と、音素片データの音声との相違度
算出部320は、音声データに含まれる音素片データのそれぞれについて、その音素片データの韻律、および、その音素の読み方に基づき定められた韻律を比較する。韻律は、基本周波数を示す音声波形データによって定められてもよい。たとえば、算出部320は、各音声波形データの周波数の合計又は平均を比較してもよい。そしてその差分値が相違度として算出される。これに代えて、又は、これに加えて、算出部320は、各音素片データの音色を示すベクトルデータ、および、各音素の読み方に基づき定められたベクトルデータを比較する。そして、算出部320は、音素の先頭又は末尾の音色について、ベクトルデータ間の距離を相違度として算出する。これに加えて、算出部320は、音素の発音の長さを用いてもよい。たとえば、語句検索部410は、読み方に基づいて各音素の発音の長さとして望ましい値を算出する。これに対し、音素片検索部420は、この長さに最も近い長さの発音を示す音素片データを検索する。この場合、算出部320は、これらの発音の長さの差分を相違度として算出する。
算出部320は、以上のように算出した相違度をそのまま合計して指標値としてもよいし、重み付けして合計して指標値としてもよい。また、算出部320は、所定の評価関数に各相違度を入力したうえで、その出力を指標値としてもよい。即ち、この指標値は、接続境界における音声の相違と、読み方に基づく音声と音素片データに基づく音声との相違とを示すものであればよい。
判断部330は、このようにして算出した指標値が、予め定められた基準値以上かどうかを判断する(S720)。基準値以上であれば(S720:YES)、置換部350は、テキストと換言記憶部340とを比較して、テキストの中から何れかの第1表記に一致する表記を検索する(S730)。そして、置換部350は、検索された表記を、その第1表記に対応する第2表記により置換する。
置換部350は、テキスト中の全ての語句を置換の候補として第1表記と比較してもよいが、その一部を比較の対象としてもよい。好ましくは、置換部350は、テキスト中の一部の文については、第1表記が検索されても置換の対象としない。たとえば、置換部350は、固有名詞又は数詞の少なくとも何れか一方を含む文については、表記を置換せず、固有名詞および数詞の何れも含まない文について、第1表記と一致する表記を検索する。数詞や固有名詞を含む文は意味の厳密性が要求される場合が多いので、このような文を避けることで意味を大きく変更してしまうことを防ぐことができる。
置換部350は、処理を更に効率化するべく、テキストの中で置換の候補となる特定の部分のみを第1表記と比較してもよい。たとえば、置換部350は、テキストを先頭から順に順次走査して、そのテキストの中の、連続して表記される予め定められた数の語句の組合せを順次選択してゆく。テキストに語句A、B、C、DおよびEが含まれていて、当該予め定められた数が3であれば、置換部350は、ABC、BCDおよびCDEをこの順に選択する。そして、置換部350は、選択した当該組合せに対応する合成音声の不自然さを示す指標値を算出する。
具体的には、置換部350は、語句の組合せ毎に、当該組合せに含まれる音素の各接続境界における音声の相違度を合計する。そして、置換部350は、当該組合せに含まれる接続境界の数でその合計値を割り算することにより、接続境界あたりの相違度の平均値を求める。また、置換部350は、当該組合せに含まれる各音素における合成音声、および、読み方に基づく音声の相違度を合計して、当該組合せに含まれる音素の数で割り算することにより、音素あたりの相違度の平均値を求める。そして、置換部350は、接続境界あたりの相違度の平均値、および、音素あたりの相違度の平均値の合計を指標値として算出する。そして、置換部350は、算出した指標値が最も大きい組み合わせに含まれる語句について、当該語句の表記に一致する第1表記を換言記憶部340から検索する。たとえば、ABC、BCDおよびCDEのうちBCDの指標値が最も大きければ、置換部350はBCDを選択して、BCDの中から第1表記と一致する語句を検索する。
これにより、最も不自然な箇所の近傍を優先して置換の対象とすることができ、置換処理を全体として効率化できる。
続いて、判断部330は、置換されたテキストについて音声データを更に生成させるべく、当該テキストを合成部310に入力してS700に処理を戻す。一方、指標値が基準値未満であることを条件に(S720:NO)、表示部335は、表記が置換されたこのテキストを利用者に表示する(S740)。そして、判断部330は、表示した当該テキストに対し置換を承認する入力を受けたかどうかを判断する(S750)。置換を承認する入力を受けたことを条件に(S750:YES)、判断部330は、表記が置換されたこのテキストに基づく音声データを出力する(S770)。一方、置換を承認しないことを示す入力を受けたことを条件に(S750:NO)、判断部330は、指標値の大きさに関わらず、置換前のテキストに基づく音声データを出力する(S760)。これを受けて出力部370は合成音声を出力する。
図8は、音声合成システム10によって合成音声が生成される過程で順次生成されるテキストの具体例を示す。テキスト1は「僕のそばの窓のデフロスタをつけてくれよ。」というテキストである。このテキストに基づき合成部310により音声データを生成しても、合成音声は不自然であり、指標値も基準値(たとえば0.55)より高い。「デフロスタ」を「デフロスター」に置換することにより、テキスト2が生成される。テキスト2でもなお指標値が基準値より高いので、「そば」が「近く」に置換されてテキスト3が生成される。以降同様に、「僕の」が「私の」に置換され、「くれよ」が「ちょうだい」に置換され、「ちょうだい」が「ください」に置換されて、テキスト6が生成される。最後の置換のように、一旦置換された語句が再度置換されてもよい。
テキスト6でもなお指標値が基準値より高いので、「窓の」が「窓の、」に置換される。このように、置換元又は置換先(即ち上記の第1表記又は第2表記)は読点を含んでもよい。また、「デフロスター」は「デフォッガー」に置換される。この結果生成されたテキスト8は、指標値が基準値未満となる。このため、出力部370はこのテキスト8に基づく合成音声を出力する。
図9は、音声合成システム10として機能する情報処理装置500のハードウェア構成の一例を示す。情報処理装置500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置500の起動時にCPU1000が実行するブートプログラムや、情報処理装置500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置500にインストールされて実行される。プログラムが情報処理装置500等に働きかけて行わせる動作は、図1から図8において説明した音声合成システム10における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置500に提供してもよい。
このように、本実施形態に係る音声合成システム10によれば、意味を大きく変えない範囲内でテキスト中の表記を順次変更してゆくことで、音素片の結合がより自然になるテキスト表記を探し出し、合成音声の品質を高めることができる。これにより、音素の結合や周波数の変更といった音響処理によっては品質に限界がある場合であっても、更に高品質な音声を生成することができる。音質は、音素の接続境界における音声の相違度などを用いることで、精度良く評価される。これにより、置換するべきか否かの判断や、置換するべき箇所の判断を正確に行うことができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることのできることが当業者にとって明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、音声合成システム10およびそれに関連するデータの全体構成を示す。 図2は、音素片記憶部20のデータ構造の一例を示す。 図3は、音声合成システム10の機能構成を示す。 図4は、合成部310の機能構成を示す。 図5は、換言記憶部340のデータ構造の一例を示す。 図6は、語句記憶部400のデータ構造の一例を示す。 図7は、音声合成システム10によって合成音声が生成される処理の流れを示す。 図8は、音声合成システム10によって合成音声が生成される過程で順次生成されるテキストの具体例を示す。 図9は、音声合成システム10として機能する情報処理装置500のハードウェア構成の一例を示す。
符号の説明
10 音声合成システム
20 音素片記憶部
310 合成部
320 算出部
330 判断部
335 表示部
340 換言記憶部
350 置換部
370 出力部
400 語句記憶部
410 語句検索部
420 音素片検索部
500 情報処理装置
600 語句データ
610 発音データ
620 アクセントデータ
630 品詞データ

Claims (12)

  1. 合成音声を生成するシステムであって、
    各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、
    テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを前記音素片記憶部から読み出して接続し、前記テキストの合成音声を示す音声データを生成する合成部と、
    前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出する算出部と、
    複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、
    前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換する置換部と、
    算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストを前記合成部に入力する判断部と
    を備えるシステム。
  2. 前記算出部は、前記音声データに含まれる第1の音素片データおよび前記第1の音素片データに接続する第2の音素片データの境界における、前記第1の音素片データおよび前記第2の音素片データの間の発音の相違度を前記指標値として算出する
    請求項1に記載のシステム。
  3. 前記音素片記憶部は、各々の音素について、音声の基本周波数および音色を示すデータを前記音素片データとして記憶しており、
    前記算出部は、前記第1の音素片データおよび前記第2の音素片データの境界における、前記第1の音素片データおよび前記第2の音素片データの間の基本周波数および音色の相違度を、前記指標値として算出する
    請求項2に記載のシステム。
  4. 前記合成部は、
    複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する語句記憶部と、
    入力した前記テキストに含まれる各々の語句と表記が一致する語句を前記語句記憶部から検索し、検索したそれぞれの語句に対応する読み方を前記語句記憶部から読み出して接続することにより、前記テキストの読み方を生成する語句検索部と、
    生成した前記読み方に基づいて定まる各音素の韻律に最も近い音素片データをそれぞれ前記音素片記憶部から検索して読み出し、読み出した複数の前記音素片データを接続することにより前記音声データを生成する音素片検索部と
    を有し、
    前記算出部は、生成した前記読み方に基づいて定まる各音素の韻律と、当該各音素に対応してそれぞれ検索した音素片データが示す韻律との差分を、前記指標値として算出する
    請求項1に記載のシステム。
  5. 前記合成部は、
    複数の語句のそれぞれについて、当該語句の読み方を当該語句の表記に対応付けて記憶する語句記憶部と、
    入力した前記テキストに含まれる各々の語句と表記が一致する語句を前記語句記憶部から検索し、検索したそれぞれの語句に対応する読み方を前記語句記憶部から読み出して接続することにより、前記テキストの読み方を生成する語句検索部と、
    生成した前記読み方に基づいて定まる各音素の音色に最も近い音素片データをそれぞれ前記音素片記憶部から検索して読み出し、読み出した複数の前記音素片データを接続することにより前記音声データを生成する音素片検索部と
    を有し、
    前記算出部は、生成した前記読み方に基づいて定まる各音素の音色と、当該各音素に対応してそれぞれ検索した音素片データが示す音色との差分を、前記指標値として算出する
    請求項1に記載のシステム。
  6. 前記音素片記憶部は、生成する目標とするべき合成音声を示す音声データである目標音声データを予め取得して、当該目標音声データに含まれる複数の音素の音声を示す複数の音素片データを予め生成して記憶しており、
    前記換言記憶部は、複数の前記第2表記のそれぞれとして、前記目標音声データの内容を示すテキストに含まれる語句の表記を記憶しており、
    前記置換部は、入力した前記テキストのうち第1表記に一致する表記を、前記目標音声データの内容を示す前記テキストに含まれる語句の表記である第2表記に置換する
    請求項1に記載のシステム。
  7. 前記置換部は、入力した前記テキストの中の、連続して表記される予め定められた数の語句の組合せのそれぞれについて、当該組合せに対応する合成音声の不自然さを示す指標値を算出し、算出した前記指標値が最も大きい組合せに含まれる語句について、当該語句の表記に一致する前記第1表記を前記換言記憶部から検索して、当該語句の表記を第2表記に置換する
    請求項1に記載のシステム。
  8. 前記換言記憶部は、第1表記および前記第1表記の言い換えである第2表記の組のそれぞれに対応付けて、さらに、前記第1表記および前記第2表記の間の意味の近似度を記憶しており、
    前記置換部は、入力した前記テキストの中の表記が複数の第1表記のそれぞれに一致したことを条件に、一致した当該表記を、当該複数の第1表記のうち前記近似度の最も高い第1表記に対応する第2表記により置換する
    請求項1に記載のシステム。
  9. 前記置換部は、入力した前記テキストのうち、固有名詞または数詞の少なくとも何れか一方を含む文については表記を置換せず、固有名詞および数詞の何れも含まない文について、前記第1表記と一致する表記を検索して、当該第1表記に対応する第2表記に置換する
    請求項1に記載のシステム。
  10. 前記置換部により表記が置換されたことを条件に、表記が置換された前記テキストを利用者に表示する表示部をさらに備え、
    前記判断部は、表示した当該テキストに対し置換を承認する入力を受けたことをさらに条件として、表記が置換された当該テキストに基づく音声データを出力し、当該置換を承認しない入力を受けたことを条件に、前記指標値に関わらず置換前の当該テキストに基づく音声データを出力する
    請求項1に記載のシステム。
  11. 合成音声を生成する方法であって、
    各々が互いに異なる音素の音声を示す複数の音素片データを記憶することと、
    テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを記憶した音素片データの中から読み出して接続し、前記テキストの合成音声を示す音声データを生成することと、
    前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出することと、
    複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶することと、
    前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換することと、
    算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストの合成音声をさらに生成させることと
    を備える方法。
  12. 合成音声を生成するシステムとして、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    各々が互いに異なる音素の音声を示す複数の音素片データを記憶する音素片記憶部と、
    テキストを入力し、入力した前記テキストの発音を示す各音素に対応する音素片データを前記音素片記憶部から読み出して接続し、前記テキストの合成音声を示す音声データを生成する合成部と、
    前記テキストの合成音声の不自然さを示す指標値を、前記音声データに基づいて算出する算出部と、
    複数の第1表記のそれぞれに対応付けて、当該第1表記の言い換えである第2表記を記憶する換言記憶部と、
    前記テキストの中から何れかの前記第1表記に一致する表記を検索して、検索された当該表記を当該第1表記に対応する前記第2表記に置換する置換部と、
    算出した前記指標値が予め定められた基準値より小さいことを条件に、生成された前記音声データを出力し、当該指標値が前記基準値以上であることを条件に、置換された前記テキストについて音声データをさらに生成させるべく当該テキストを前記合成部に入力する判断部と
    して機能させるプログラム。
JP2007019433A 2007-01-30 2007-01-30 高品質の合成音声を生成する技術 Pending JP2008185805A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007019433A JP2008185805A (ja) 2007-01-30 2007-01-30 高品質の合成音声を生成する技術
CN2008100037617A CN101236743B (zh) 2007-01-30 2008-01-22 生成高质量话音的***和方法
US12/022,333 US8015011B2 (en) 2007-01-30 2008-01-30 Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007019433A JP2008185805A (ja) 2007-01-30 2007-01-30 高品質の合成音声を生成する技術

Publications (1)

Publication Number Publication Date
JP2008185805A true JP2008185805A (ja) 2008-08-14

Family

ID=39668963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007019433A Pending JP2008185805A (ja) 2007-01-30 2007-01-30 高品質の合成音声を生成する技術

Country Status (3)

Country Link
US (1) US8015011B2 (ja)
JP (1) JP2008185805A (ja)
CN (1) CN101236743B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650034B2 (en) 2009-02-16 2014-02-11 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing

Families Citing this family (215)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080167876A1 (en) * 2007-01-04 2008-07-10 International Business Machines Corporation Methods and computer program products for providing paraphrasing in a text-to-speech system
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
JP5269668B2 (ja) * 2009-03-25 2013-08-21 株式会社東芝 音声合成装置、プログラム、及び方法
WO2010119534A1 (ja) * 2009-04-15 2010-10-21 株式会社東芝 音声合成装置、方法およびプログラム
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5535241B2 (ja) * 2009-12-28 2014-07-02 三菱電機株式会社 音声信号復元装置および音声信号復元方法
CN102203853B (zh) * 2010-01-04 2013-02-27 株式会社东芝 合成语音的方法和装置
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5296029B2 (ja) * 2010-09-15 2013-09-25 株式会社東芝 文章提示装置、文章提示方法及びプログラム
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US8781836B2 (en) * 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8548803B2 (en) * 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
JP6391925B2 (ja) * 2013-09-20 2018-09-19 株式会社東芝 音声対話装置、方法およびプログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN106233373B (zh) * 2014-04-15 2017-07-07 三菱电机株式会社 信息提供装置及信息提供方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
WO2017065266A1 (ja) * 2015-10-15 2017-04-20 ヤマハ株式会社 情報管理システムおよび情報管理方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9990916B2 (en) * 2016-04-26 2018-06-05 Adobe Systems Incorporated Method to synthesize personalized phonetic transcription
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
CN107452369B (zh) * 2017-09-28 2021-03-19 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10600404B2 (en) * 2017-11-29 2020-03-24 Intel Corporation Automatic speech imitation
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10706347B2 (en) 2018-09-17 2020-07-07 Intel Corporation Apparatus and methods for generating context-aware artificial intelligence characters
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020129422A1 (ja) * 2018-12-20 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN109599092B (zh) * 2018-12-21 2022-06-10 秒针信息技术有限公司 一种音频合成方法及装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109947955A (zh) * 2019-03-21 2019-06-28 深圳创维数字技术有限公司 语音搜索方法、用户设备、存储介质及装置
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR102430020B1 (ko) * 2019-08-09 2022-08-08 주식회사 하이퍼커넥트 단말기 및 그것의 동작 방법
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111402857B (zh) * 2020-05-09 2023-11-21 广州虎牙科技有限公司 语音合成模型训练方法和装置、电子设备及存储介质
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11915714B2 (en) * 2021-12-21 2024-02-27 Adobe Inc. Neural pitch-shifting and time-stretching

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0833744B2 (ja) * 1986-01-09 1996-03-29 株式会社東芝 音声合成装置
WO1995015035A1 (en) * 1993-11-25 1995-06-01 British Telecommunications Public Limited Company Method and apparatus for testing telecommunications equipment
MX9800434A (es) * 1995-07-27 1998-04-30 British Telecomm Evaluacion de calidad de señal.
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
CA2354871A1 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
JP3593563B2 (ja) 2001-10-22 2004-11-24 独立行政法人情報通信研究機構 話し言葉による音声出力装置及びソフトウェア
US7024362B2 (en) * 2002-02-11 2006-04-04 Microsoft Corporation Objective measure for estimating mean opinion score of synthesized speech
JP4264030B2 (ja) * 2003-06-04 2009-05-13 株式会社ケンウッド 音声データ選択装置、音声データ選択方法及びプログラム
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
DE602005026778D1 (de) * 2004-01-16 2011-04-21 Scansoft Inc Corpus-gestützte sprachsynthese auf der basis von segmentrekombination
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
JP4551803B2 (ja) * 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650034B2 (en) 2009-02-16 2014-02-11 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing

Also Published As

Publication number Publication date
US8015011B2 (en) 2011-09-06
CN101236743A (zh) 2008-08-06
CN101236743B (zh) 2011-07-06
US20080183473A1 (en) 2008-07-31

Similar Documents

Publication Publication Date Title
JP2008185805A (ja) 高品質の合成音声を生成する技術
US11450313B2 (en) Determining phonetic relationships
JP4247564B2 (ja) システム、プログラムおよび制御方法
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US20200410981A1 (en) Text-to-speech (tts) processing
US20160140953A1 (en) Speech synthesis apparatus and control method thereof
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US11763797B2 (en) Text-to-speech (TTS) processing
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US10699695B1 (en) Text-to-speech (TTS) processing
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP2020060642A (ja) 音声合成システム、及び音声合成装置
KR20220096129A (ko) 감정톤을 자동조절하는 음성합성 시스템
JP3854593B2 (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
Mahar et al. WordNet based Sindhi text to speech synthesis system
US20210142784A1 (en) Speech synthesis system, method and non-transitory computer readable medium
Tian et al. Modular design for Mandarin text-to-speech synthesis
Iso-Sipilä Design and Implementation of a Speaker-Independent Voice Dialing System: A Multi-lingual Approach

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090930