JP2004021207A - 音素認識方法、音素認識装置および音素認識プログラム - Google Patents
音素認識方法、音素認識装置および音素認識プログラム Download PDFInfo
- Publication number
- JP2004021207A JP2004021207A JP2002180146A JP2002180146A JP2004021207A JP 2004021207 A JP2004021207 A JP 2004021207A JP 2002180146 A JP2002180146 A JP 2002180146A JP 2002180146 A JP2002180146 A JP 2002180146A JP 2004021207 A JP2004021207 A JP 2004021207A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- recognition
- speech
- alignment
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識装置1であって、連続した音声信号を音声認識する音声認識部5と、音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント部7と、を備えた。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、音声信号を構成する音素を認識する音素認識方法、音素認識装置および音素認識プログラムに関する。
【0002】
【従来の技術】
従来、音声信号(音声データ)に含まれている音素を認識する方法として、代表的なものに以下に示す2つの方法がある。
(1)音素ネットワークを使用する方法
この方法は、音素ネットワークを用いて、直接、音素そのものを認識する方法であり、この音素ネットワークで接続が許容された音素のみが接続することができるとして、音声信号(音声データ)に含まれている音素を認識する方法である。なお、音素ネットワークは、発声のバリエーション(無声化、ポーズの挿入位置等)を含んで生成される音素から音素への遷移規則の一種である。
【0003】
(2)発音辞書を使用する方法
この方法は、発音辞書を用いて、この発音辞書に含まれている単語を認識する方法であり、言語モデルを考慮しないで音素認識を行い、発音辞書で接続が許容された音素のみが接続できるとして、音声信号(音声データ)に含まれている音素を認識する方法である。なお、発音辞書は、記載されている各単語に読み(発音)が付与されてなる辞書の一種である。
【0004】
【発明が解決しようとする課題】
しかしながら、従来の音素ネットワークを使用する方法では、ニュース等のある程度単語の並び方が拘束されている場合、すなわち、型どおりの文章が連続する場合、連続音声認識で得られた単語認識率と、音素ネットワークを使用した音素認識率とを比較した際に、型どおりの文章の連続であるので単語認識率はよくなるが、音素ネットワークを使用すると、音素列が正確ではなくなる場合が生じ、音素認識率の方がよくないという問題がある。それゆえ、型どおりの文章が連続する場合には、「音素ネットワークを使用する」よりも、連続音声認識を行った結果を音素に変換した方が、音素認識率がよくなる。しかし、連続音声認識を行う際に、音素の境界を示す区間情報を保持する必要が生じ、この区間情報を保持するために確保するメモリー量が膨大になるという問題がある。
【0005】
また、従来の発音辞書を使用する方法では、連続音声認識で得られた単語認識率と、発音辞書を使用した音素認識率とを比較した際に、言語モデルを考慮していないために、音素認識率がよくないという問題がある。
【0006】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音素の境界を示す区間情報を保持するためのメモリー量を増大させることなく、音素認識率を向上することができる音素認識方法、音素認識装置および音素認識プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1記載の音素認識方法は、音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識方法であって、前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識ステップと、この連続音声認識ステップにおける認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と前記音素毎に付されている音素ラベルとを得るアラインメントステップと、を含むことを特徴とする。
【0008】
この方法によれば、音声信号から音素認識を直接行うのではなく、まず、連続音声認識ステップにおいて、連続する音声信号が音声認識される。一旦音声認識されることで、はじめから音声信号を用いて音素認識する場合よりも、無意味な音素のつながりまで音素認識する(計算する)おそれが排除される。そして、アラインメントステップにおいて、この音声認識された音声認識結果が用いられ、音声波形と音素との対応付けであるアラインメントが行われ、音素の区間情報と音素ラベルとが得られる。つまり、このアラインメントステップにおいて、音素の境界を示す区間情報が連続音声認識した結果のみ対応付けられるだけなので余分な記憶容量(メモリー量)が抑えられ、音素の区間情報と音素ラベルとが得られる。
【0009】
請求項2記載の音素認識装置は、音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識装置であって、前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段と、この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段と、この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段と、を備えることを特徴とする。
【0010】
かかる構成によれば、連続音声認識手段で記憶手段に記憶されている音響モデル、言語モデル、発音辞書が用いられて、音声信号が音声認識される。一旦音声信号を音声認識することで、直接音声信号に基づいて音素認識する場合と比較した場合、文法上無意味な音素のつながりまで音素認識する無駄が排除される。そして、この音声認識結果が用いられ、アラインメント手段で音声波形と音素との対応付けがなされ、この対応付けた結果に基づいて、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。
【0011】
請求項3記載の音素認識プログラムは、音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段、この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段、この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段、である。
【0012】
かかる構成によれば、連続音声認識手段で記憶手段に記憶されている音響モデル、言語モデル、発音辞書が用いられて、音声信号が音声認識される。直接音声信号に基づいて音素認識する場合と比較した場合、一旦音声信号を音声認識することで、文法上無意味な音素のつながりまで音素認識する無駄が排除される。そして、この音声認識結果が用いられ、アラインメント手段で音声波形と音素との対応付けがなされ、この対応付けた結果に基づいて、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。
【0013】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
(音素認識装置の構成)
図1に示すように、音素認識装置1は、入力部3と、音声認識部5と、アラインメント部7と、出力部9と、記憶部11とを備えている。なお、この実施の形態では、音素認識装置1は、通常のパーソナルコンピュータで実現されており、図示を省略したCRTや液晶等のディスプレイによって構成される表示部や、キーボード、マウス等の入力部が備えられている。
【0014】
音素認識装置1は、入力した音声信号(音声データ)を、一旦、音声認識した後で、この音声信号を構成している音素を認識するものである。なお、この音素認識装置1に入力する音声データは、生の音声データでも、生の音声データから抽出された特徴量(以下、音声データ抽出特徴量)でもよく、また、音声認識した後に音声認識結果として、出力単語列が出力される。
【0015】
入力部3は、入力インターフェースに相当するもので、外部から入力される音声信号(音声データ:生の音声データまたは音声データ抽出特徴量)を、受信し、音声認識部5に出力するものである。この実施の形態では、生の音声データの入力に対処できるように、図示を省略したマイクロホンとA/D変換器とを備えている。そして、これらマイクロホンとA/D変換器によって、入力された生の音声データは、デジタル形態の音声データに変換される。
【0016】
音声認識部5は、入力部3から出力される音声データが続く限り、繰り返し仮説計算を実行して、出力単語列を出力するものである。繰り返し仮説計算とは、記憶部11に記憶されている音響モデル、言語モデルを考慮して大語彙連続音声認識を行うのため計算であり、仮説(音声認識結果として最も適切と仮定される単語列)の中で、音響スコア、言語スコアが最大となるもの(最大のスコアを持つ単語履歴を備える単語列)を計算することである。
【0017】
アラインメント部7は、音声認識部5で出力された出力単語列をアラインメントするものである。この実施の形態において、アラインメントとは、動的計画法を利用したマッチングを行って、音声波形と音素との対応付けを行うことで、このアラインメント部7では、一旦音声認識された出力単語列のみに対して、音声波形と音素との対応付け(マッチング)がなされ、その中でマッチングの度合いが最も高い対応付けが出力とされる。
【0018】
また、動的計画法とは、DP(dynamic programming)であり、認識手法の一つで、例えば、音響モデルとして隠れマルコフモデルが用いられ、言語モデル、発音辞書に基づいて、ネットワークが生成され、音声認識(音素認識)する場合において、ビタビ計算を適用するものである。
【0019】
アラインメント部7では、音素の境界を示す区間情報を保持するための記憶手段(図示せず)が含まれており、このアラインメント部7の記憶手段は、入力部3で入力された音声信号(音声データ)が一旦音声認識された後の音声認識結果である出力単語列をアラインメントするので、文法上無意味な音素のつながり(言語上存在しない音素)に係るデータまで保持しながら計算する必要がなくなり、直接、音素認識する場合に比較して、メモリー量(記憶容量)の少ないメモリー(記憶媒体)で構成することができる。なお、アラインメント部7が請求項に記載したアラインメント手段に相当するものである。
【0020】
また、音素ラベル(日本語の場合)とは、音素毎に付されている母音を示すローマ字「a、i、u、e、o」、子音を示すローマ字「k、s(sh)、t(ts)、n、h、m、y、r、w」のことである。区間情報とは、音素の境界を示す情報、すなわち、各音素の存在時間を示しており、この実施の形態では、音素の境界は数ミリ秒単位(例えば、ある音素の存在時間「70ms〜120ms」)で与えられている。
【0021】
出力部9は、アラインメント部7で認識された音素ラベルと区間情報とを外部に出力するものである。この実施の形態では、図示を省略した表示部やプリンタ等の外部出力装置によって、音素ラベルと音素の区間情報は可視出力される(目に見える形式、つまり、表示画面上に、或いは紙として出力される)。また、出力部11は、フレキシブルディスクや、CD−R等の光ディスクや、ICメモリ等の記憶媒体に記憶して出力可能なように構成されている。
【0022】
記憶部11は、大容量のハードディスク等によって構成されており、音素認識の対象となる音声信号の各音素の関係が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを記憶するものである。
【0023】
なお、この実施の形態では、音素認識装置1は、汎用のパーソナルコンピュータに、音声認識処理ブロック、アラインメントブロック等を含んでなる音素認識プログラムを実装することで実現することができる。なお、音声認識処理ブロックは音声認識部5の処理に相当し、アラインメントブロックはアラインメント部7の処理に相当し、各処理を実行するようにコンピュータ言語で記述されたものである。
【0024】
この音素認識装置1によれば、入力部3で入力された音声データ(生の音声データまたは音声データ抽出特徴量)が音声認識部5で、記憶部11に記憶されている音響モデル、言語モデルを用い、繰り返し仮説計算で音響スコア、言語スコアを計算し、最もスコアの高いものを出力単語列(音声認識結果)として出力する。つまり、音声信号が音声認識される。一旦音声信号を音声認識することで、直接音声信号に基づいて音素認識する場合と比較した場合、文法上無意味な音素のつながりまで音素認識する無駄が排除される。
【0025】
そして、この音声認識結果が用いられ、アラインメント部7で動的計画法が利用され、音声波形と音素との対応付けがなされ、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。その後、出力部9で音素ラベルと区間情報が付与された音素が出力される。このため、アラインメント部7において、音素の境界を示す区間情報を保持するためのメモリー量を増大させることなく、また、従来の音素ネットワーク、発音辞書に基づく音素認識と比較して、音素認識率を向上することができる。
【0026】
また、この音素認識装置1の応用例として、例えば、CGで作成されるキャラクターの声を声優が読み上げる場合、音素認識装置1に声優の音声信号(生の音声データ)を入力すると、この音声信号(生の音声データ)に応じた音素ラベルと音素の区間情報とが出力される。この音素ラベルと音素の区間情報とをCGの作画装置(図示せず)に入力し、この音声信号(生の音声データ)にあわせた口の動きをするCGキャラクタの顔面部を作画することができ、あたかも、CGキャラクタが実際に話しているような演出をすることができる。
【0027】
さらに、音声合成をする際に必要となる音声データベースには、音素ラベルと音素の区間情報とが必要であり、通常、これらの音素ラベルと音素の区間情報は、人手で書き起こした(テキストデータ化した)発声内容データを使ってアラインメントを取る。しかし、人手をかけられないほどの大容量の音声信号(音声データ)に対して、音素ラベルと音素の区間情報とを得たい場合に、音素認識装置1を利用すれば、自動的に、音素ラベル、音素の区間情報を得ることができる。
【0028】
(音素認識装置の動作)
次に、図2に示すフローチャートを参照して、音素認識装置1の動作を説明する。
まず、音素認識装置1の入力部3で生の音声データまたは音声データ抽出特徴量が入力される(受信される)(S1)。そして、この入力部3で受信された生の音声データまたは音声データ抽出特徴量が音声認識部5で、記憶部11に記憶されている音響モデルと、言語モデルと、発音辞書が参照され、繰り返し仮説計算が実行され、音響スコア、言語スコアが計算される。この音響スコア、言語スコアが高いもの(最大のスコアを持つ単語履歴)が音声認識結果として出力単語列として、アラインメント部7に出力される(S2)。
【0029】
すると、アラインメント部7で出力単語列が動的計画法によって、アラインメント、すなわち、出力単語列の音声波形と音素との対応付けが行われる。このアラインメント部7で対応付けられた音声波形と音素との対応付け(マッチング)の中でマッチングの度合いが最も高い対応付けが出力とされ、音素ラベルと、音素の区間情報とが付与され、出力部9に送出される(S3)。出力部9で、音素ラベルと、音素の区間情報とが付与されている音素が出力される(S4)。
【0030】
(音素認識の具体的な例)
次に、図3を参照して、音素認識の具体的な例について説明する。この例は、報道番組等で頻繁に使用される少数の単語を記憶部11に記憶させた場合に、音素認識装置1に音声信号(音声データ)を入力した場合の音素認識結果を示したものである。つまり、この音素認識の具体的な例では、入力する音声信号(音声データ)として、報道番組等で取り上げられる、単語の並び方が拘束されている文章(文法上正確な文章)を当該装置1の使用者が読み上げた際に、当該装置1で音素認識した場合の結果、音素ラベルと音素の区間情報とを示したものである。
【0031】
すなわち、単語の並び方が拘束されている文章(文法上正確な文章)として、報道番組等の冒頭で取り上げられる文章「次のニュースです」を当該装置1の使用者が読み上げた場合、音素認識結果を示したものである。この具体例において、音素認識装置1の記憶部11には、報道番組等の最初に発声される確率の高い文章(単語)の中から無作為抽出した単語であって、「次(ts u g i)、初めに(h a j i m e n i)、以上(i j o:)、の(no)、が(g a)、に(n i)、を(w o[o])、は(w a)、ニュース(ny u: s u)、スポーツ(s u p o: ts u)、です(d e s u)、でした(d e sh i t a)、ます(m a s u)」という単語の音響モデル、言語モデルの情報だけが記憶されている。
【0032】
つまり、これらを使用して、音素認識装置1で音素認識した場合の結果(「次のニュースです」の音素ラベル、音素の区間情報)を示したものである。なお、発音辞書には、これらの単語に読み(音声波形データを含む)が含まれている。
【0033】
つまり、この音素認識装置1に対し、当該装置1の利用者が入力部3に備えられているマイクロホン(図示せず)に生の音声データを発し、音声認識部5で音響モデル、言語モデルが参照されて、大語彙連続音声認識が実行される。
【0034】
すると、まず、音声認識結果として「次 の ニュース です」という単語列が出力されたとする。この音声認識結果には、音素列(この場合単語列と同義)がすぐに得られるが音素の区間情報が得られてない。
【0035】
続いて、音声認識結果である「次(ts u g i)、の(n o)、ニュース(ny u: s u)、です(d e s u)」がアラインメント部7に入力され、アラインメント、音素認識が実行されると、図3に示したような音素認識結果を得ることができる。つまり、従来の音素ネットワークまたは発音辞書を使用して音素認識した場合に比べ、アラインメントを行っているため、一旦音声認識された単語についてのみアラインメントがなされ、音素認識する際の無意味な計算を除去することができ、音素認識率を向上することができる。
【0036】
また、この図3では、例えば、ニュース(ny u: s u)の音素nyが何秒から何秒の間発声されたのか(音素の区間情報)を得ることができる。ちなみに、この具体的な例では音素nyの区間情報は、図3より610ms〜920msということになっている。
【0037】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音素認識装置1の各構成を一つずつの処理と捉えた音素認識方法とみなすことや、各構成の処理を汎用的なコンピュータ言語で記述した音素認識プログラムとみなすことも可能である。この場合、音素認識装置1と同様の効果が得られる。
【0038】
【発明の効果】
請求項1、2、3記載の発明によれば、入力された音声信号が、音響モデル、言語モデル、発音辞書が用いられて、音声認識され、この音声認識結果が用いられ、音声波形と音素とのアラインメントがなされる。さらに、この対応付けた結果に基づいて、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。このため、従来の音素ネットワークや発音辞書のみを用いた音素認識に比べて、単語の並び方が拘束されている文章の場合、一旦音声認識された後アラインメントして音素認識しているので、音素認識率を改善することができる。また、装置として実現した場合、一旦音声認識した後アラインメントしているので、音素の境界を示す区間情報を保持するためのメモリー量を音声認識した単語列の量だけ確保すればよく、増大させることなく、音素認識を実行することができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態である音素認識装置のブロック図である。
【図2】音素認識装置の動作を説明したフローチャートである。
【図3】音素認識装置の具体的な音素認識結果を説明した図である。
【符号の説明】
1 音素認識装置
3 入力部
5 音声認識部
7 アラインメント部
9 出力部
11 記憶部
Claims (3)
- 音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識方法であって、
前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識ステップと、
この連続音声認識ステップにおける音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメントステップと、
を含むことを特徴とする音素認識方法。 - 音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識装置であって、
前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段と、この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段と、
この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段と、
を備えることを特徴とする音素認識装置。 - 音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する装置を、
前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段、
この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段、
この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段、
として機能させることを特徴とする音素認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002180146A JP2004021207A (ja) | 2002-06-20 | 2002-06-20 | 音素認識方法、音素認識装置および音素認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002180146A JP2004021207A (ja) | 2002-06-20 | 2002-06-20 | 音素認識方法、音素認識装置および音素認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004021207A true JP2004021207A (ja) | 2004-01-22 |
Family
ID=31177362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002180146A Pending JP2004021207A (ja) | 2002-06-20 | 2002-06-20 | 音素認識方法、音素認識装置および音素認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004021207A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755677B1 (ko) | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
KR20160061071A (ko) * | 2014-11-21 | 2016-05-31 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
US9384730B2 (en) | 2013-05-30 | 2016-07-05 | International Business Machines Corporation | Pronunciation accuracy in speech recognition |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其*** |
KR20200121260A (ko) * | 2014-11-21 | 2020-10-23 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
CN112767919A (zh) * | 2021-01-22 | 2021-05-07 | 北京读我科技有限公司 | 一种语音测评方法及装置 |
CN112820281A (zh) * | 2020-12-31 | 2021-05-18 | 北京声智科技有限公司 | 一种语音识别方法、装置及设备 |
-
2002
- 2002-06-20 JP JP2002180146A patent/JP2004021207A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755677B1 (ko) | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US9384730B2 (en) | 2013-05-30 | 2016-07-05 | International Business Machines Corporation | Pronunciation accuracy in speech recognition |
US9978364B2 (en) | 2013-05-30 | 2018-05-22 | International Business Machines Corporation | Pronunciation accuracy in speech recognition |
KR20160061071A (ko) * | 2014-11-21 | 2016-05-31 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR102167157B1 (ko) * | 2014-11-21 | 2020-10-16 | 에스케이 텔레콤주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR20200121260A (ko) * | 2014-11-21 | 2020-10-23 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR102300303B1 (ko) | 2014-11-21 | 2021-09-08 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其*** |
CN112820281A (zh) * | 2020-12-31 | 2021-05-18 | 北京声智科技有限公司 | 一种语音识别方法、装置及设备 |
CN112820281B (zh) * | 2020-12-31 | 2022-09-23 | 北京声智科技有限公司 | 一种语音识别方法、装置及设备 |
CN112767919A (zh) * | 2021-01-22 | 2021-05-07 | 北京读我科技有限公司 | 一种语音测评方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10679606B2 (en) | Systems and methods for providing non-lexical cues in synthesized speech | |
TW546631B (en) | Disambiguation language model | |
US6535849B1 (en) | Method and system for generating semi-literal transcripts for speech recognition systems | |
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4657736B2 (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
JP4510953B2 (ja) | 音声認識におけるノンインタラクティブ方式のエンロールメント | |
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
Kumar et al. | Development of Indian language speech databases for large vocabulary speech recognition systems | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
JP2005258443A (ja) | 発音グラフを使用して新しい単語の発音学習を改善すること | |
TW201517018A (zh) | 語音辨識方法及其電子裝置 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
JP2001343992A (ja) | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004021207A (ja) | 音素認識方法、音素認識装置および音素認識プログラム | |
US7139708B1 (en) | System and method for speech recognition using an enhanced phone set | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
EP3718107B1 (en) | Speech signal processing and evaluation | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
JP2001100789A (ja) | 連続音声認識装置の音素認識性能測定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070523 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071003 |