JP3542026B2 - 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 - Google Patents

音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 Download PDF

Info

Publication number
JP3542026B2
JP3542026B2 JP2000133973A JP2000133973A JP3542026B2 JP 3542026 B2 JP3542026 B2 JP 3542026B2 JP 2000133973 A JP2000133973 A JP 2000133973A JP 2000133973 A JP2000133973 A JP 2000133973A JP 3542026 B2 JP3542026 B2 JP 3542026B2
Authority
JP
Japan
Prior art keywords
phoneme
recognition
recognized
words
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000133973A
Other languages
English (en)
Other versions
JP2001312296A (ja
Inventor
和郎 根本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2000133973A priority Critical patent/JP3542026B2/ja
Priority to US09/846,122 priority patent/US6968310B2/en
Publication of JP2001312296A publication Critical patent/JP2001312296A/ja
Application granted granted Critical
Publication of JP3542026B2 publication Critical patent/JP3542026B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識システムまたは音声認識方法に関する。特に、複数の読みがある文字、単語等の認識精度の向上に適用して有効なものである。
【0002】
【従来の技術】
たとえば、「ViaVoice(商標)」等の音声認識システムにおいては、マイクロフォン、ヘッドセット等の入力デバイスにより入力された音声を音素に分解し、この解析された音素とデータベースに蓄積された音素とを対比して入力音声に対応する文字、単語等を抽出して音声認識を行っている。ここで、データベースに蓄積されている音素は個別独立的に記録されるのではなく、一定の規則に則った文法に関連付けて記録される。すなわち、たとえば図9(a)に示すように、4桁の数字を認識する場合には、<digits>として4桁の<num1>を定義し、<num1>には0〜9のアラビア数字が入り得ることを規定する。このような文法定義の下に、図9(b)に示すように、音素表記表を定義する。つまり、「0」には「ree」(れえ)、「ree:」(れー)、「rei」(れい)、「zero」(ぜろ)の4つの音素が対応し、「1」には「ichi」(いち)の1つの音素を対応させる。その他同様に数字「2」には3音素が、「3」には1音素が、「4」には4音素が対応し、「5」以下の各数字も同様である。 図9(a)の文法に図9(b)の音素表記を適用した例を図9(c)に示す。 図9(c)の文法および音素表記が実用的なベースフォームとして用いられる。
【0003】
<digits>に対応した入力音声がたとえば「ぜろいちにーさん」であれば、この音声を音素列に分けて「ぜろ」(zero)、「いち」(ichi)、「にー」(nii:)、「さん」(sa_n)が得られ、各音素列に対応する数字「0」、「1」、「2」、「3」が音素対応表から得られる。各数字は文法定義に当てはめられ、認識結果の<digits>として「0123」の4文字が得られる。
【0004】
なお、「ViaVoice(商標)」等の音声認識システムでは、エンロールメントと称される処理で入力音声の個人的相違を検出し、その個人に適合した音響特性を学習して認識精度を向上する手法が適用されている。
【0005】
【発明が解決しようとする課題】
ところが、たとえば日本語数字の読み上げを考えた場合、数字音声認識の認識精度は必ずしも高いとはいえない。その原因として、以下のような事項が考えられる。
【0006】
まず、「いち」「に」「さん」等、日本語数字は概して単語長が短く、音の冗長性が少ないことが挙げられる。短い音の音素間にはその相違が少なく、認識における音素の取り違えが発生しやすい。日本語数字では「に」「し」「ご」「く」等の一音節のものもあり、音の冗長性の少なさは特に顕著である。
【0007】
次に、ひとつの数字に複数の読みが与えられていることが挙げられる。たとえば、「0」という数字には「ぜろ」「れい」「まる」等の読みが与えられ、「4」という数字には「し」「よん」等、「7」という数字には「なな」「しち」等、「9」という数字には「きゅう」「く」という読みが与えられる。複数の読みが与えられると認識すべき音素の候補が多くなり、誤認識を誘発する確率が高くなる。
【0008】
また、異なる数字との間に類似する音素のものが多い点が挙げられる。たとえば「しち」(7)という音素と「いち」(1)という音素と「はち」(8)という音素は互いに類似しており、「し」(4)という音素と「しち」(7)という音素が類似する。また、「に」(2)、「し」(4)とうい音素間も類似し、「さん」(3)、「よん」(4)間も類似する。これら互いに類似する音素間では、その音の類似性により音素の識別が難しくなり、音の取り違えによる誤認識を生ずる確率が高くなる。特に電話等を介した音声識別では、入力音の低周波成分が少なくなり、低周波成分での識別が必要となるイ段の音の聞き分けが困難になる状況が生じ、この問題が顕著になる。
【0009】
さらに、必ずしも長母音が付くとは限らない長母音付き一音節の発音では、繰り返しが識別し難くなる問題がある。たとえば「に」「にー」「にーにー」あるいは「ご」「ごー」「ごーごー」等である。特に通常は「ごー」と発音される「5」の文字が、「753」の場合には「しちごさん」と発音されたり、「358」の場合には「さんごっぱ」と発音されたりして「ごー」が「ご」あるいは「ごっ」と短母音化することがあり、かえって問題を複雑にしている。
【0010】
ところで、数字の音声認識は、たとえば電話による取引等のビジネスの場面を考えた場合、会員番号や商品選択等の入力に多用されることが想定され、ビジネスへの展開を考慮した場合には、特に数字の音声認識精度の向上が強く求められている。
【0011】
なお、前記エンロールメントでは、音響特性を個人に適合させて認識精度を向上することがある程度可能であるが、入力される音素自体が類似する場合や音素に冗長性がない前記のような場合には認識精度の更なる向上には自ずと限界がある。
【0012】
本発明の目的は、音声認識における認識精度をさらに向上することにある。特に複数の読みが与えられてる文字、単語等の認識精度を向上することにある。
【0013】
また、本発明の他の目的は、冗長性の少ない音たとえば日本語における数字や、異なる文字あるいは単語に類似の音が与えられている文字等の認識精度を向上することにある。
【0014】
本発明のさらに他の目的は、長母音付き一音節文字が短母音化されて繰り返される場合の認識精度を向上することにある。
【0015】
【課題を解決するための手段】
本願発明は、同一人物は一回の同一会話内で一定して同じ読みを維持するという本発明者らによる知見を活用するものである。つまり、たとえば「7」を「しち」と発音した人物は、その会話内で一貫して「しち」と発音し続ける傾向がある。この傾向を活用して、会話における1回目の応答においてその人物が使わない読みに対応する音素列を認識候補からはずす、またはその認識確率を下げ、2回目以降の認識を実行するものである。
【0016】
すなわち、本願発明の音声認識システムは、認識単語とそれを発音表記する音素列との対応が記録された対応情報を有し、入力された音声から生成される音素列と前記対応情報内の音素列との対比によって、前記音声から一以上の認識単語を認識する音声認識システムであって、同一人物の一定期間内の会話において、既に行われた認識処理で認識された音素列に対する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも1つの音素列の発声予想確率を低下させるものである。また、本願発明の音声認識方法は、同一人物の一定期間内の会話において、第1音声を入力し、前記第1音声から音素列を生成するステップと、認識単語とそれを発音表記する音素列との対応が記録された対応情報を検索し、前記第1音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップと、認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも1つの音素列の発声予想確率を低下させるステップと、第2音声を入力し、前記第2音声から音素列を生成するステップと、前記音素列の発声予想確率を低下させた対応情報を検索し、前記第2音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップとを含む。これにより2回目以降の誤認識の確率を低下して認識精度を向上できる。
【0017】
なお、前記認識単語には字、詞または単語を含めることができ、前記対応情報には、前記認識単語が所定の規則で配列される文法情報を含めることができる。また、前記認識単語は、日本語または英語の数字、数詞または数を表す単語とすることができる。このような数字の認識において本願発明の効果は特に著しい。
【0018】
なお、認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも1つの音素列の発声予想確率を低下させる態様については、前記認識された音素列と異なる音素列を前記対応情報から除外し、発声予想確率をゼロにする態様も含まれる。
【0019】
また、同一の前記認識単語を発音表記する異なる音素列について、予め測定された発声予想確率に適合する数の前記音素列とそれに対応する前記認識単語とを前記対応情報に含めることができる。これによりさらに認識精度を高めることができる。
【0020】
また、前記一定期間は、連続した会話内の期間または当日内の複数の会話を含む期間とすることができる。発音者の発音傾向は1日単位等の短時間特に同一会話内では維持される傾向が強い。しかし、逆に時間が経過した後には発音者の発音傾向が変化することもある。このような場合本願発明では長時間の同一発音者の発音傾向を維持することなく、前記一定期間が経過した後には認識に用いる前記情報を初期状態に戻すことができる。このような操作が可能なのは、本願発明がたとえば1会話内のその場限りの学習という手法を採用する効果に基づくものである。
【0021】
なお、前記一定期間内の会話が連続した会話でない場合には、パスワード、会員番号、発呼側電話番号、音声を解析して話者を特定する手法、またはこれらの組み合わせで、話者を特定する手法を用いることができる。
【0022】
また、認識された一以上の認識単語のうちの少なくとも一部を話者に照会して前記一以上の認識単語の認識に誤りがあるか否かを判断し、前記誤りが認められたときには、前記一以上の認識単語をそれが誤認識されやすい一以上の認識単語に置換することができる。このような手段または方法をとることによりたとえばチェックディジットつきの長い数字の連続発声の認識精度を向上できる。
【0023】
また、認識された前記一以上の認識単語の数が前記認識システムにおいて予め登録された数に一致しなかったときには、前記認識された一以上の認識単語のうち長母音一音節を有する音素に対応する認識単語を、前記長母音に対応する短母音音素に対応する認識単語の繰り返しに置換する、または、前記認識された一以上の単語のうち短母音一音節を有する音素に対応する認識単語の繰り返しを、前記短母音に対応する長母音音素に対応する認識単語に置換することができる。このような手段または方法を備えることにより長母音一音節で与えられる文字等が短母音化されて繰り返される場合、あるいは短母音の繰り返しで与えられる文字等が長母音一音節の文字等と誤認される場合の認識精度を向上できる。
【0024】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
【0025】
以下の実施の形態では、主に方法またはシステムについて説明するが、当業者であれば明らかなとおり、本発明は方法、システムの他、コンピュータで使用可能なプログラムコードが記録された媒体としても実施できる。したがって、本発明は、ハードウェアとしての実施形態、ソフトウェアとしての実施形態またはソフトウェアとハードウェアとの組合せの実施形態をとることができる。プログラムコードが記録された媒体としては、ハードディスク、CD−ROM、光記憶装置または磁気記憶装置を含む任意のコンピュータ可読媒体を例示できる。
【0026】
本実施の形態で利用できるコンピュータシステムには、中央演算処理装置(CPU)、主記憶装置(メインメモリ:RAM(Random Access Memory))、不揮発性記憶装置(ROM(Read Only Memory))等を有し、これらがバスで相互に接続される。バスには、その他コプロセッサ、画像アクセラレータ、キャッシュメモリ、入出力制御装置(I/O)等が接続される。バスには、適当なインターフェイスを介して外部記憶装置、データ入力デバイス、表示デバイス、通信制御装置等が接続されてもよい。その他、一般的にコンピュータシステムに備えられるハードウェア資源を備えることが可能なことは言うまでもない。外部記憶装置は代表的にはハードディスク装置が例示できるが、これに限られず、光磁気記憶装置、光記憶装置、フラッシュメモリ等半導体記憶装置も含まれる。なお、データの読み出しのみに利用できるCD−ROM等の読み出し専用記憶装置もデータあるいはプログラムの読み出しにのみ適用する場合には外部記憶装置に含まれる。データ入力デバイスには、キーボード等の入力装置、マウス等ポインティングデバイスを備えることができる。データ入力デバイスには音声入力装置も含む。表示装置としては、CRT、液晶表示装置、プラズマ表示装置が例示できる。本実施の形態のコンピュータシステムには、パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等各種のコンピュータが含まれる。
【0027】
各コンピュータシステムで利用されるプログラムは、他のコンピュータシステムに記録されていても良い。つまり、コンピュータシステムで利用する一部のプログラムをリモートコンピュータで分散的に処理または実行できる。なお、他のコンピュータシステムに記録されたプログラムをアドレスで参照する場合には、DNS、URL等を用ることができる。
【0028】
(実施の形態1)
図1は、本発明の一実施の形態である音声認識システムの概要を示したブロック図である。本実施の形態の音声認識システムは、ユーザ1の音声が入力される音声認識エンジン2と、音声認識エンジン2に適用される文法データ(グラマー)3と、文法データ3に適用される音素表記表4とを有する。
【0029】
ユーザ1からの音声信号は、たとえばマイクロフォン、ヘッドセット等の入力装置で電気信号に変換され、さらにA/D(アナログデジタル)変換等が行われて、ディジタルデータで表された波形データに変換される。この波形データは、音声認識エンジン2で音素に分解され、文法データ3と比較されて音声認識が行われる。
【0030】
音声認識エンジン2では、入力された音素に最も適合する文法データ3が選択される。 文法データ3には音素表記表4が適用されており、入力される音声が則る可能性のある文法、あるいは発声される可能性がある音素を含む形態で多数の文法データ3(音素表記表4に基づいた音素が配置されている)が用意され、この文法データ3のデータベースを参照して入力音素に適合する文法データ3が選択される。
【0031】
本実施の形態で用いる文法は図9(a)に示すものと同等のものである。しかし、本実施の形態で用いる音素表記表は図9(b)のものとは相違する。
【0032】
図2は、本実施の形態で用いる音素表記表の一例を示す表図である。従来、たとえば「0」の場合、文字「0」と4つの音素(「ree」「ree:」「rei」「zero」)を対応させていたのみであるが、本実施の形態では、文字「0」の読みとして「レイ」と「ゼロ」の2種類を考え、各音素に読み(「0」の場合「レイ」と「ゼロ」)の情報を付加している。なお、「0」にはほかに「マル」という読みも考えられるが、ここでは2種類の読みがあるとして例示している。
【0033】
また、「4」については「シ」と「ヨン」の読みを、「7」については「シチ」と「ナナ」の読みを、「9」については「ク」と「キュウ」の読みを考える。本実施の形態では、「0」「4」「7」「9」について上記のような複数の読みを考えているがあくまでも例示であり、その他の読みが考えられるときには音素表記表に加えても良いことは勿論である。また、上記以外の数字に複数の読みが考えられるときにはその複数の読みを加えても良いことは勿論である。さらに、本実施の形態では数字を例示するが、数字に限らず、その他漢字、英字等を適用できるし、その読みに複数の候補があるときには、前記同様にそれらを含めて音素表記表を作成しても良い。
【0034】
このような文法と音素表記を用いて音声認識する場合の手順を以下に説明する。図3は、本実施の形態の音声認識方法の一例を示したフローチャートである。ここでは、たとえば電話を介して取引データを音声により入力する場合を考える。
【0035】
まず、本実施の形態の音声認識システムにベースとなるベース文法データを導入する(ステップ10)。導入されるベース文法データは、図2に示すように、読みの情報が付加されている以外は図9(c)と同様である。
【0036】
次に、システム側の音声発声手段から「電話番号をどうぞ」というメッセージをユーザ側に流す(ステップ11)。仮に、ユーザ側の発声が「シチヨンゼロ」であるとすると、この音声入力に応答してベース文法データにより認識を行う(ステップ12)。ここで、システムが「740」を認識すれば、システム側から「740で正しいですか」というメッセージを発する(ステップ13)。ユーザが「はい」と応答すれば認識結果は「740」で確定する。仮に、認識結果が誤りであれば、ステップ11に戻って再度音声入力を行う。
【0037】
この1回目の音声認識の結果、「740」が確定すれば、ユーザは、「7」については「シチ」と読み、「4」については「ヨン」と読み、「0」については「ゼロ」と読むことがわかる。ここで、このユーザについては、少なくとも同一会話内あるいは短時間(たとえば1日内)の会話では、同一の読みをすると仮定することが可能になる。これは、同一人物は、同一会話内で同じ読み方を維持する傾向があるという本発明者らの知見に基づく。この傾向を利用し、このユーザが「7」について「ナナ」と発音する確率は少ないと考えることができる。同様に、「4」については「シ」と、「0」について「レイ」と発音する確率は小さいと考えることができる。よって、次ステップでは、減縮した文法データを挿入する(ステップ14)。
【0038】
図4は、減縮した文法データを示すリスト図面である。この文法データはBNF表記によるグラマーに相当する。すなわち、文字「7」については、「ナナ」に対応する音素「nana」を削除し、「シチ」に対応する音素「hichi」「shichi」に限定する(20)。同様に、「4」については、「シ」に対応する音素「shi」「shii」「shii:」を削除し、「ヨン」に対応する音素「yo_n」に限定する(21)。「0」については、「レイ」に対応する音素「ree」「ree:」「rei」を削除し、「ゼロ」に対応する音素「zero」に限定する(22)。このように、発声される確率の少ない音素を削除し、この削除した音素が適用された文法データを用いて認識を行えば、より認識率を向上することができる。
【0039】
その後、この減縮した文法データを適用して次ステップに進み、2回目の音声入力を促すメッセージを発し(ステップ15)、音声入力に応答して認識を行う(ステップ16)。音声入力が「ゼロサンのイチシチキュウ」とすれば、本来識別が困難な「イチ」と「シチ」のような発声でも、「シチ」が「7」に限定されているので、ベース文法データを用いる場合よりも認識の精度を向上することができる。
【0040】
さらに、2回目の認識でこのユーザは「9」を「キュウ」と発声してるので、音素「ku」を削除してさらに減縮した文法データを適用できる(ステップ18)。図5はさらに減縮した文法データを示すリスト図である。「9」について音素「ku」を削除している(23)。
【0041】
なお、音素対応表に関連付けた文法データは、1回目の認識の前に各読みの組み合わせの数だけ予め作成しておき、2回目の認識以降で不要な文法データを削除する方法をとることができる。
【0042】
本実施の形態によれば、同一人物による発声では、数字等の読み方が一貫しており、同一会話内では同じ読みが維持されるという傾向を利用し、2回目以降の認識では、読まれる可能性の低い音素を削除して認識を行える。これにより、2回目以降の認識率を向上することができる。なお、本発明は、発声者に固有な音響特性を学習するようなものではなく、その場限りの学習に止まり、他の発声者の場合や、同じ発声者でも日が異なるような場合では、再度ベース文法データを用いて最初のステップから認識が開始される。このため、発声者ごとのデータベースを作成する必要がなく、どのような発声者にも同じ構成のシステムを適用できる。このため、発声者ごとにカスタマイズする必要がなく、簡単に本発明を実施適用できる。
【0043】
(実施の形態2)
クレジットカードのように入力される数字の特定の桁にチェックディジットが含まれるような場合には、このチェックディジットを用いて、推定される誤りを入れ替えて誤り訂正を行い、訂正後の認識結果で次ステップに進めることができる。図6は実施の形態2の認識方法の一例を示したフローチャートである。
【0044】
まず、ベース文法データを導入し(ステップ30)、カード番号の入力を促すメッセージ(ステップ31)の後、ベース文法データを適用した認識を行う(ステップ32)。仮に入力音声が「イチニサンシコ゛ウロクシチハチクセ゛ロイチニサンシコ゛ロク」であったとき、「1234567890123456」と認識しない誤認識の確率は1回目の認識ゆえ低くはない。通常クレジットカードの場合は、チェックディジットは下2桁の「56」なので、このチェックディジットが合っているかどうかの照合を行う(ステップ33)。照合の結果が合わないときには誤認識の可能性のある数字を交換して(ステップ34)、再度照合を行う(ステップ33)。この結果、照合にパスすれば次ステップに進め、誤り訂正後の認識結果(数字)で確認を行う(ステップ35)。
【0045】
誤認識の可能性のある数字は、たとえば1「イチ」と7「シチ」と8「ハチ」(「7」が「シチ」と発声されているときあるいは「7」が認識されていないとき)、1「イチ」と8「ハチ」(「7」が「ナナ」と発声されているとき)、4「シ」と7「シチ」(「4」が「シ」と発声され、「7」が「シチ」と発声されているとき)、あるいは6「ロク」と9「ク」(「9」が「ク」と発声されているとき)、が挙げられる。これらを相互に置換することによりステップ34の交換が行える。
【0046】
最後に、1回目の認識結果と前記誤り訂正処理で確定した認識結果から、不要な音素を削除し、減縮した文法データを作成し、2回目以降の認識のためにこれを導入する(ステップ36)。
【0047】
本実施の形態の音声認識方法によれば、チェックディジットを用いて誤り訂正を行い、ユーザの入力回数を少なくしてユーザに対する利便性を向上し、トータルの処理時間も短くできる。
【0048】
(実施の形態3)
文法で5桁の数字が要求されているにもかかわらず、4桁の数字しか認識できない場合には、長母音一音節の音声(たとえば2「nii:」)が短母音化して2「ni」が繰り返されていた可能性がある。この場合の誤り訂正の方法が図7に示されている。図7(a)は、本実施の形態の音声認識方法の一例を示したフローチャートであり、図7(b)は適用される文法データである。 図7(b)に示すように、ここでは5桁の数字が文法として要求されている(40)。
【0049】
図7(a)に示すように、まず、ベース文法データを導入し(ステップ41)、番号の入力を促すメッセージ(ステップ42)の後、ベース文法データを適用した認識を行う(ステップ43)。ここで、音声入力として「イチニニサンシ」が入力されたとすると、「1234」と誤認識する可能性がある。ステップ44で5文字認識できたかどうかを判断し(ステップ44)、4文字しか認識できていないときには、長母音1音節の文字「2」が誤認識されたと推定する。よって、「2」を「22」に置換し(ステップ45)、確認ステップ(ステップ46)に進む。5桁の文字が正常に認識されていたときにはそのままステップ46に進む。その後、1回目の認識結果と前記誤り訂正処理で確定した認識結果から、不要な音素を削除し、減縮下文法データを作成し、2回目以降の認識のためにこれを導入する(ステップ47)。
【0050】
本実施の形態の音声認識方法によれば、長母音一音節の音に誤認識されやすい短母音の繰り返しを誤り訂正することができる。これにより、ユーザの入力回数を少なくしてユーザに対する利便性を向上し、トータルの処理時間も短くできる。なお、上記実施の形態では、短母音の繰り返しが長母音の一文字に誤認された例を示したが、長母音の一文字が短母音の繰り返しに誤認されて、本来の文字数より多く誤認識された場合についても、上記と同様に誤りの訂正ができることは勿論である。
【0051】
以上、本発明者によってなされた発明を発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
【0052】
たとえば、図8に示すように、文法に非一様な確率分布を適用できる。すなわち、「0」についていえば、「ゼロ」と発音される確率が「レイ」と発音される確率より経験的に大きいことが判明している。このようなとき、図8に示すように<0>に「zero」の音素を3つ割り当て、<rei>を1つ割り当てる。この場合、「セロ」と発声される確率が75%、「レイ」と発声される確率が25%と仮定している。なお、「レイ」の発声には「ree」[ree:」「rei」の音素が均等に割り当てられている。このような非一様確率分布を適用することにより、より認識精度を向上することができる。
【0053】
また、本発明は、英語に対しても適用が可能である。たとえば「1−800−1122」の読み方は、(1)「one eight hundred double one double two」、(2)「one eight oh oh eleven twelve」、(3)「one eight hundred one one two two」という各種の読み方がある。このような読み方についても同様に一会話内で維持されることが考えられる。このような1つの表記に対して複数の読みがある場合には、日本語に限られず、英語に対しても本発明を適用して2回目以降の認識精度を高めることができる。また、英語での文字についても同様である。たとえば「0」について、「zero」あるいは「oh」の複数の読みがある。このような場合も同様に本発明を適用できる。
【0054】
また、英語では、数字の並びに対して、(1)2桁づつ区切って桁読みする読み方、(2)続けて数字を読む読み方(べた読み)、(3)正式な桁読み、(4)同じ数字の連続をdouble−xx triple−xx と表現する読み方等がある。たとえば「1999」について、「nineteen ninety nine」、「one nine nine nine」、「one thousand nine hundred ninety nine」、「one triple nine」、「nineteen double nine」、等の読み方がある。このような複数の読み方に対してはそれに対応した文法データが各々必要になる。1回目の認識の際には全ての読み方を含む文法を用意する必要があるが、2回目以降の認識では、本発明を適用して、不要と思われる文法データを削除できる。これにより、英語においても2回目以降の認識率を高めることができる。
【0055】
また、数字に限らず、通常の単語に対しても本発明を適用できる。たとえば、「青/ブルー」、「 空飛ぶ円盤/ユーフォー/ユーエフオー」、「いりぐち/はいりくち」など、同じ意味を持っていても複数の表現が可能な単語がある。このような単語に対しても本発明を提供して、2回目以降の認識では1回目で表現されなかった単語を削除して2回目以降の認識率を高めることができる。
【0056】
また、たとえば助動詞に対しても本発明を適用できる。たとえば「**だ。」「**です。」のように通常何れかの表現が安定して用いられる。このような場合にも、1回目で用いられなかった表現を削除して、2回目以降の認識率を向上できる。
【0057】
さらに、本発明は、動詞、形容詞その他の品詞に対しても複数の読み、表現がある場合にこれを適用することができ、認識精度を向上できる。
【0058】
【発明の効果】
本願で開示される発明のうち、代表的なものによって得られる効果は、以下の通りである。
【0059】
すなわち、音声認識における認識精度、特に複数の読みが与えられている文字、単語等の認識精度を向上できる。また、冗長性の少ない音たとえば日本語における数字や、異なる文字あるいは単語に類似の音が与えられている文字等の認識精度を向上できる。また、長母音付き一音節文字が短母音化されて繰り返される場合の認識精度を向上できる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である音声認識システムの概要を示したブロック図である。
【図2】実施の形態1で用いる音素表記表の一例を示す表図である。
【図3】実施の形態の音声認識方法の一例を示したフローチャートである。
【図4】減縮した文法データを示すリスト図面である。
【図5】さらに減縮した文法データを示すリスト図である。
【図6】実施の形態2の認識方法の一例を示したフローチャートである。
【図7】(a)は、実施の形態3の音声認識方法の一例を示したフローチャートであり、(b)は適用される文法データである。
【図8】非一様な確率分布を適用した文法データの一例を示すリスト図である。
【図9】(a)は、4桁の数字を認識する場合の文法を示すリスト図であり、(b)は、実用的な音素表記を示す表図であり、(c)は、(b)の音素表記を適用した文法データの例を示すリスト図である。
【符号の説明】
1…ユーザ、2…音声認識エンジン、3…文法データ、4…音素表記表。

Claims (11)

  1. 認識単語とそれを発音表記する音素列との対応が記録された対応情報を有し、入力された音声から生成される音素列と前記対応情報内の音素列との対比によって、前記音声から一以上の認識単語を認識する音声認識システムであって、
    同一人物の一定期間内の会話において、既に行われた認識処理で認識された音素列に対する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも1つの音素列の発声予想確率を低下させることを特徴とする音声認識システム。
  2. 同一の前記認識単語を発音表記する異なる音素列について、予め測定された発声予想確率に適合する数の前記音素列とそれに対応する前記認識単語とを前記対応情報に含める請求項1記載の音声認識システム。
  3. 前記一定期間は、連続した会話内の期間または当日内の複数の会話を含む期間である請求項1または2記載の音声認識システム。
  4. 認識された一以上の認識単語のうちの少なくとも一部を話者に照会して前記一以上の認識単語の認識に誤りがあるか否かを判断する手段と、前記誤りが認められたときには、前記一以上の認識単語をそれが誤認識されやすい一以上の認識単語に置換する手段と、
    をさらに備えた請求項1〜3の何れか一項に記載の音声認識システム。
  5. 認識された前記一以上の認識単語の数が前記認識システムにおいて予め登録された数に一致しなかったときには、前記認識された一以上の単語のうち長母音一音節を有する音素に対応する認識単語を、前記長母音に対応する短母音音素に対応する認識単語の繰り返しに置換する手段、または、前記認識された一以上の単語のうち短母音一音節を有する音素に対応する認識単語の繰り返しを、前記短母音に対応する長母音音素に対応する認識単語に置換する手段をさらに備えた請求項1〜4の何れか一項に記載の音声認識システム。
  6. 同一人物の一定期間内の会話において、
    第1音声を入力し、前記第1音声から音素列を生成するステップと、
    認識単語とそれを発音表記する音素列との対応が記録された対応情報を検索し、前記第1音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップと、
    認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも1つの音素列の発声予想確率を低下させるステップと、
    第2音声を入力し、前記第2音声から音素列を生成するステップと、
    前記音素列の発声予想確率を低下させた対応情報を検索し、前記第2音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するステップと、
    を含む音声認識方法。
  7. 同一の前記認識単語を発音表記する異なる音素列について、予め測定された発声予想確率に適合する数の前記音素列とそれに対応する前記認識単語とを前記対応情報に含める請求項6記載の音声認識方法。
  8. 前記一定期間は、連続した会話内の期間または当日内の複数の会話を含む期間である請求項6または7記載の音声認識方法。
  9. 認識された一以上の認識単語のうち少なくとも一部を話者に照会して前記一以上の認識単語の認識に誤りがあるか否かを判断するステップと、
    前記誤りが認められたときには、前記一以上の認識単語をそれが誤認識されやすい一以上の認識単語に置換するステップと、
    をさらに含む請求項6〜8の何れか一項に記載の音声認識方法。
  10. 認識された前記一以上の認識単語の数が前記認識システムにおいて予め登録された数に一致しなかったときには、前記認識された一以上の認識単語のうち長母音一音節を有する音素に対応する認識単語を、前記長母音に対応する短母音音素に対応する認識単語の繰り返しに置換するステップ、または、前記認識された一以上の単語のうち短母音一音節を有する音素に対応する認識単語の繰り返しを、前記短母音に対応する長母音音素に対応する認識単語に置換するステップ、をさらに含む請求項6〜9の何れか一項に記載の音声認識方法。
  11. 音声を認識するプログラムコードが記録されたコンピュータ可読な記録媒体であって、前記プログラムコードには、
    音声を入力し、前記音声から音素列を生成するプログラムコードと、
    認識単語とそれを発音表記する音素列との対応が記録された対応情報を検索し、前記音声で生成された音素列と前記対応情報内の音素列との対比から一以上の認識単語を生成するプログラムコードと、
    認識された音素列に対応する認識単語に複数の音素列が対応付けられて記録されている場合、前記複数の音素列のうち前記認識された音素列と異なる少なくとも1つの音素列の発声予想確率を低下させるプログラムコードと、
    を含むコンピュータ可読な記録媒体。
JP2000133973A 2000-05-02 2000-05-02 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 Expired - Fee Related JP3542026B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000133973A JP3542026B2 (ja) 2000-05-02 2000-05-02 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
US09/846,122 US6968310B2 (en) 2000-05-02 2001-04-30 Method, system, and apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000133973A JP3542026B2 (ja) 2000-05-02 2000-05-02 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体

Publications (2)

Publication Number Publication Date
JP2001312296A JP2001312296A (ja) 2001-11-09
JP3542026B2 true JP3542026B2 (ja) 2004-07-14

Family

ID=18642340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000133973A Expired - Fee Related JP3542026B2 (ja) 2000-05-02 2000-05-02 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体

Country Status (2)

Country Link
US (1) US6968310B2 (ja)
JP (1) JP3542026B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3943983B2 (ja) * 2002-04-18 2007-07-11 キヤノン株式会社 音声認識装置及びその方法、プログラム
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
US20040236581A1 (en) * 2003-05-01 2004-11-25 Microsoft Corporation Dynamic pronunciation support for Japanese and Chinese speech recognition training
DE102004028724A1 (de) * 2004-06-14 2005-12-29 T-Mobile Deutschland Gmbh Verfahren zur natürlichsprachlichen Erkennung von Nummern
US8923838B1 (en) 2004-08-19 2014-12-30 Nuance Communications, Inc. System, method and computer program product for activating a cellular phone account
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9386154B2 (en) * 2007-12-21 2016-07-05 Nuance Communications, Inc. System, method and software program for enabling communications between customer service agents and users of communication devices
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8391464B1 (en) 2010-06-24 2013-03-05 Nuance Communications, Inc. Customer service system, method, and software program product for responding to queries using natural language understanding
US8762939B1 (en) 2010-07-02 2014-06-24 Nuance Communications, Inc. System and method for displaying key performance indicators in an application design tool
US9881609B2 (en) * 2014-04-18 2018-01-30 General Motors Llc Gesture-based cues for an automatic speech recognition system
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10013971B1 (en) 2016-12-29 2018-07-03 Google Llc Automated speech pronunciation attribution
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
CN111145756B (zh) * 2019-12-26 2022-06-14 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN112185361B (zh) * 2020-09-29 2024-05-10 腾讯科技(深圳)有限公司 一种语音识别模型训练方法、装置、电子设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59143200A (ja) * 1983-02-04 1984-08-16 株式会社日立製作所 連続音声認識装置
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
JPS60172100A (ja) * 1984-02-16 1985-09-05 電子計算機基本技術研究組合 音声認識装置
JPS61235900A (ja) * 1985-04-12 1986-10-21 株式会社日立製作所 音声認識方法
JP2559031B2 (ja) * 1986-09-01 1996-11-27 富士通株式会社 音声認識方式
JPH02150899A (ja) * 1988-12-02 1990-06-11 Toshiba Corp 音声認識方式
JPH02214990A (ja) * 1989-02-16 1990-08-27 Nippon Telegr & Teleph Corp <Ntt> パターン認識後処理方式
JPH0421897A (ja) * 1990-05-17 1992-01-24 Nec Corp 音声入力装置
JPH07104779A (ja) * 1993-10-01 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH07168592A (ja) * 1993-12-14 1995-07-04 Ricoh Co Ltd 音声認識装置
JP3192324B2 (ja) * 1994-08-04 2001-07-23 シャープ株式会社 特定話者用単語音声認識装置
WO1997012361A1 (en) * 1995-09-29 1997-04-03 At & T Corp. Telephone network service for converting speech to touch-tones
JP3580643B2 (ja) * 1996-07-24 2004-10-27 株式会社デンソー 音声認識方法及び音声認識装置
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US5937385A (en) * 1997-10-20 1999-08-10 International Business Machines Corporation Method and apparatus for creating speech recognition grammars constrained by counter examples
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
JP2000056794A (ja) * 1998-08-11 2000-02-25 Fujitsu Ltd 音声認識システム及び記録媒体

Also Published As

Publication number Publication date
US20010039492A1 (en) 2001-11-08
US6968310B2 (en) 2005-11-22
JP2001312296A (ja) 2001-11-09

Similar Documents

Publication Publication Date Title
JP3542026B2 (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
TW546631B (en) Disambiguation language model
JP4267385B2 (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US7181388B2 (en) Method for compressing dictionary data
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US8423351B2 (en) Speech correction for typed input
US7299179B2 (en) Three-stage individual word recognition
US7676364B2 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
TW202020854A (zh) 語音辨識系統及其方法、與電腦程式產品
JP2007041319A (ja) 音声認識装置および音声認識方法
CN116324974A (zh) 长语境端到端语音识别***
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
CN111898342A (zh) 一种基于编辑距离的中文发音校验方法
Mohanty et al. Speaker identification using SVM during Oriya speech recognition
JP2010164918A (ja) 音声翻訳装置、および方法
JP2002268680A (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP2001013992A (ja) 音声理解装置
WO2013035293A1 (ja) 音声認識装置
US11861521B2 (en) System and method for identification and verification
JP2001188556A (ja) 音声認識方法及び装置
KR102103186B1 (ko) 음성인식을 위한 텍스트 정규화 장치 및 그 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040317

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20040317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080409

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees