JP5231484B2 - 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 - Google Patents

音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 Download PDF

Info

Publication number
JP5231484B2
JP5231484B2 JP2010114848A JP2010114848A JP5231484B2 JP 5231484 B2 JP5231484 B2 JP 5231484B2 JP 2010114848 A JP2010114848 A JP 2010114848A JP 2010114848 A JP2010114848 A JP 2010114848A JP 5231484 B2 JP5231484 B2 JP 5231484B2
Authority
JP
Japan
Prior art keywords
speech
speech recognition
language model
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010114848A
Other languages
English (en)
Other versions
JP2011242613A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010114848A priority Critical patent/JP5231484B2/ja
Publication of JP2011242613A publication Critical patent/JP2011242613A/ja
Application granted granted Critical
Publication of JP5231484B2 publication Critical patent/JP5231484B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力された音声について、音声認識を行う音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置に関する。
従来、パーソナルコンピュータや、携帯通信端末等の情報処理端末では、変換候補となる単語に基づいて構成された言語モデルを記憶する記憶部を備え、入力された音声に基づく音声波形を認識し、テキストデータへ変換する音声認識装置が広く知られている。このような音声認識装置において、最適なテキストデータへ変換するために、記憶部に記憶され、変換候補となる単語の登録数を増加させた場合、音声認識装置では、音声認識の際の選択肢が過剰に増加し、かえって誤認識が増大する。
そこで、例えば、音声認識を行った後に、テキストデータに変換された認識結果に含まれる認識誤り区間を抽出し、認識誤り区間のテキストデータと、その前後のテキストデータとを、インターネット上で検索することにより、認識誤り区間の新たな候補を検索する音声認識装置が知られている(例えば、特許文献1)。このような音声認識装置によれば、認識誤り区間について、新たな候補を検索することにより、音声認識をした際の選択の幅を広げることができる。
特開2004−258531号公報
しかしながら、上述した従来の音声認識装置には、次のような問題があった。すなわち、上述した音声認識装置は、音声認識によりテキストデータに変換した内容に基づいて、検索を行うため、当初のテキストデータに誤りが含まれた場合、必ずしも欲しい結果を得ることができないという問題がある。
そこで、本発明は、このような状況に鑑みてなされたものであり、単語の登録数を増加させた場合においても、認識精度を向上できる音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置を提供することを目的とする。
上述した問題を解決するため、本発明は、次のような特徴を有している。まず、本発明の第1の特徴は、音声認識装置(音声認識装置100)が、汎用的な単語に基づいて構成された第1言語モデルを記憶する第1記憶手段(第1言語モデルDB107b)と、前記第1言語モデルよりも特定の表現に特化した単語に基づいて構成された第2言語モデルを記憶する第2記憶手段(第2言語モデルDB119b)と、前記第1言語モデルを用いて、入力された音声に基づく音声波形(音声波形131)を音声認識する第1音声認識手段(第1音声認識部105)と、前記第1音声認識手段の認識結果に基づいて、特定の表現(特定の表現137)を含む音声波形の区間を特定の区間(特定の区間139)として、抽出する抽出手段(再認識範囲抽出部111)と、前記第2言語モデルを用いて、前記抽出手段により抽出された特定の区間の音声波形を音声認識する第2音声認識手段(第2音声認識部117)と、を備えることを要旨とする。
このような、音声認識装置は、第1音声認識手段により、音声波形について、汎用的な単語について音声認識し、特定の表現を含む音声波形を抽出手段により特定の区間として、抽出し、第2音声認識手段により音声認識することができる。
音声認識装置は、音声波形において汎用的な表現と、特定の表現とが混在している場合でも、汎用的な表現については、第1音声認識手段により音声認識するため、第1言語モデルの登録単語を増大する必要が無く、誤認識の増大を防止できる。また、音声認識装置は、特定の区間のみを第2音声認識手段により音声認識を行うため、特定の表現について、認識精度を向上できる。すなわち、音声認識装置は、音声波形において汎用的な表現と、特定の表現とが混在している場合でも、第1音声認識手段と、第2音声認識手段とを組み合わせることにより、単語の登録数を増加させた場合においても、誤認識の増大を防止しつつ、認識精度を向上できる。
本発明の第2の特徴は、本発明の第1の特徴に係り、前記抽出手段は、前記第1音声認識手段の認識結果について、ユーザの指示に基づいて、前記特定の表現を含む前記特定の区間を抽出することを要旨とする。
本発明の第3の特徴は、本発明の第1又は第2の特徴に係り、前記抽出手段は、前記特定の区間の前後に連なるとともに、前記特定の表現に関連する単語を抽出することにより、前記特定の表現を含む前記特定の区間を抽出することを要旨とする。
本発明の第4の特徴は、本発明の第1乃至第3の特徴に係り、前記第2言語モデルは、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて、構成されることを要旨とする。
本発明の第5の特徴は、コンピュータが、汎用的な単語に基づいて構成された第1言語モデルを用いて、入力された音声に基づく音声波形を音声認識するステップ(ステップS120)と、コンピュータが、前記第1言語モデルを用いて認識した認識結果に基づいて、特定の表現を含む音声波形の区間を特定の区間として抽出するステップ(ステップS150、又は、ステップS130)と、コンピュータが、前記第1言語モデルよりも特定の表現に特化した単語に基づいて構成された第2言語モデルを用いて、前記特定の区間について、音声認識するステップ(ステップS170)と、を含む音声認識方法であることを要旨とする。
本発明の第6の特徴は、本発明の第5の特徴に記載の音声認識方法をコンピュータに実行させるためのプログラムであることを要旨とする。
本発明の第7の特徴は、本発明の第6の特徴に記載のプログラムを配信するための情報処理装置であることを要旨とする。
本発明によれば、単語の登録数を増加させた場合においても、認識精度を向上できる音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置を提供できる。
本発明の実施形態に係る音声認識装置100の機能ブロック図である。 本発明の実施形態に係る音声認識装置100の第1音声認識部105の動作を説明するための概念図である。 本発明の実施形態に係る音声認識装置100の再認識範囲抽出部111及び限定範囲音声抽出部115の動作を説明するための概念図である。 本発明の実施形態に係る音声認識装置100の第2音声認識部117の動作を説明するための概念図である。 本発明の実施形態に係る音声認識装置100の音声認識動作を示すフローチャートである。 本発明の実施形態に係る音声認識装置100の音声認識処理動作の詳細を示すフローチャートである。
次に、図面を参照して、本発明の実施形態について説明する。
なお、以下の図面の記載において、同一または類似の部分には、同一または類似の符号を付している。また、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる。
したがって、具体的な寸法などは以下の説明を参酌して判断すればよく、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれている。
以下の実施形態においては、(1)音声認識装置100の全体構成、(2)音声認識装置100の動作、(3)作用・効果、及び(4)その他の実施形態について説明する。
(1)音声認識装置100の全体構成
図1は、本実施形態に係る音声認識装置100の機能ブロック図である。
音声認識装置100は、ユーザにより入力された音声に基づいて、音声認識を行い対応する変換候補を出力する。以下の実施形態では、音声認識装置100は、ユーザにより「かぶしきがいしゃやほのあかださんとかいぎをしました」という音声に基づいて、「株式会社ヤホの赤田さんと会議をしました」というテキストデータを出力することを具体例として記載する。
音声認識装置100は、ユーザが使用するPC(Personal Computer)や携帯通信端末装置(携帯電話機やスマートフォン)、カーナビゲーションシステム等である。音声認識装置100は、下記のハードウェア資源に加えて、マイク等の音声入力装置、キーボード、タッチパネル、マウス等の入力装置、液晶ディスプレイ等の出力装置を備える。
音声認識装置100は、CPU等の制御装置、メモリやHDD等の記憶装置、通信ネットワークと通信する通信I/F等の通信装置といったハードウェア資源を有するコンピュータ(単一或いは複数)により構成される。音声認識装置100が備える下記の各ブロックは、前述したコンピュータの制御装置等のハードウェア資源を用いてコンピュータプログラムを実行することによって実現されるものである。なお、これらの各ブロック、手段は、単一のコンピュータ上に配置される必要はなく、必要に応じて分散される構成を採用しても良い。
図1に示すように、音声認識装置100は、音声取得部101、音声記憶部103、第1音声認識部105、第1音響モデルDB107a、第1言語モデルDB107b、提示部109、再認識範囲抽出部111、第3言語モデルDB113、限定範囲音声抽出部115、第2音声認識部117、第2音響モデルDB119a、第2言語モデルDB119b、判定部121、出力部123を備える。
これらの機能部は、いわゆるコンピュータにより構成され、演算/制御装置としてのCPU(Central Processing Unit)、記憶媒体としてのRAM(Random Access Memory)及びROM(Read Only Memory)、通信インターフェイス等が関連することで実現される。以下、各機能部について、説明する。
(1.1)音声取得部101
音声取得部101は、マイク等を介して、入力された音声を取得し、音声を音声波形131に変換する。
(1.2)音声記憶部103
音声記憶部103は、音声取得部101により取得された音声波形131を記憶する。
(1.3)第1音声認識部105
図2は、本実施形態に係る音声認識装置100の第1音声認識部105の動作を説明するための概念図である。具体的には、図2(a)は、第1音声認識部105で変換される音声波形131の概念図である。図2(b)は、第1音声認識部105で音声波形131に基づいて置き換えられる発音記号133の一例を示す図である。図2(c)は、第1音声認識部105で音声波形131に基づいて置き換えられる第1変換候補135の一例を示す図である。
第1音声認識部105は、入力された音声に基づく音声波形131について、第1言語モデルを用いて、音声認識をする。
図2に示すように、第1音声認識部105は、第1言語モデルを用いて、入力された音声に基づく音声波形131を音声認識する。第1音声認識部105は、第1音響モデルDB107aを用いて音声波形131を発音記号133に変換し、第1言語モデルを用いて、発音記号133を単語列からなる第1変換候補135に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。具体的には、図2(a)に示すように、第1音声認識部105は、音声記憶部103に記憶された音声波形131を分析して特徴量を抽出する。更に、第1音声認識部105は、音声波形131を分析して、前後の単語、文節のつながりを示す特徴量を抽出する。
図2(b)に示すように、第1音声認識部105は、音声波形131と、第1音響モデルDB107aとに基づいて、音声波形131を発音記号133に置き換える。具体的には、第1音声認識部105は、音声波形131の特徴量等に基づいて、音声波形131を単語又は文節等である音声区間131aに区切る。次に、第1音声認識部105は、第1音響モデルDB107aから音声波形131に対応する発音記号133を抽出することにより、音声波形131の所定の音声区間131aを複数の発音記号候補133aに置き換える。第1音声認識部105は、複数の発音記号候補133aに対して、第1音響モデルDB107aに基づいた確率を付与して記憶する。
例えば、第1音声認識部105は、音声波形131の特徴量に基づいて、音声区間131aを「あかだ」、「かかだ」、「さかだ」、「たかだ」等の複数の発音記号候補133aに置き換える。そして、第1音声認識部105は、複数の発音記号候補133aに対して、第1音響モデルDB107aに基づいた確率を付与して記憶する。
図2(c)に示すように、第1音声認識部105は、発音記号133について、第1言語モデルDB107bに記憶される単語を用いて、確率統計的な手法に基づいて、音声認識し、第1変換候補135を作成する。
第1音声認識部105は、発音記号候補133aに対応する単語を第1言語モデルから抽出し、第1言語モデルと、発音記号候補133aの確率とに基づいて、第1変換候補135を作成する。
これにより、例えば、第1音声認識部105は、発音記号133について、「株式会社ヤホの垢ださんと会議をしました」という第1変換候補135を作成する。
(1.4)第1音響モデルDB107a
第1音響モデルDB107aは、発音記号と、発音記号に対応する複数の音声波形又は音声波形の統計的な音声波形のモデルである音声波形モデルとを記憶する。例えば、第1音響モデルDB107aは、「あ」から「ん」までの平仮名の発音記号と、各発音記号に対応する複数又は統計的な音声波形モデルとを記憶する。
なお、第2音響モデルDB119aは、第1音響モデルDB107aと同様の発音記号と、発音記号に対応する複数の音声波形又は音声波形の統計的な音声波形のモデルである音声波形モデルとを記憶するため、その詳細の説明を省略する。
(1.5)第1言語モデルDB107b
第1言語モデルDB107bは、汎用的な単語に基づいて構成された第1言語モデルを記憶する。第1言語モデルは、辞書部と、n−gramとからなる。具体的には、第1言語モデルは、辞書部の機能として、汎用的な単語と、単語に対応する発音記号列とが含まれる。例えば、第1言語モデルは、「汎用的な単語」として、5万語程度の単語と、対応する発音記号列とからなる。
なお、「汎用的な単語」は、第1言語モデルDB107bに事前に登録される単語でもよく、音声認識装置100が、ユーザからの入力又はネットワークを介して、収集したテキストデータにおける各単語の使用頻度に基づいて、適宜更新されてもよい。また、「汎用的な単語」は、音声認識装置100の用途によって使い分けてもよい。例えば、音声認識装置100が、メール文を作成するために用いられる場合、「汎用的な単語」は、メール文に用いられる単語により構成される。
辞書部は、使用頻度に応じて各単語の出現確率をデータ化している。すなわち、辞書部の単語の確率の累積は、100%になる。例えば、辞書部は、基準となる文章として例えば、複数のメール文などから抽出される100万語の単語群において、「会社」という単語が2万回登場した場合、出現確率は、2%という確率のデータを有する。
n−gramは、文法記述部の機能として、単語の並び方を規定する。n−gramは、所定の文字列において、N個の文字列または単語の組み合わせの出現頻度を示したテーブルからなる、いわゆるn−gram文法に基づいて作成される。すなわち、n−gramは、直前のn−1単語を指定したときに、n単語目の単語の出現頻度を示すテーブルを有する。これにより、例えば、1−gramでは、「内閣」と「内角」とを、前後のテキストデータに基づいて、直前の単語が、人物名の場合は、「内角」よりも「内閣」である可能性が高いというデータを有し、直前の単語が、「キャッチャーが」である場合は、「内角」の確率が高いというデータを有する。
(1.6)提示部109
提示部109は、音声波形131について、対応する第1変換候補135を提示する。また、音声波形131について、対応する第2変換候補141が第2音声認識部117により作成されている場合、提示部109は、音声波形131について、対応する第1変換候補135及び第2変換候補141を提示する。すなわち、提示部109は、音声波形131について、対応する第1変換候補135及び第2変換候補141により統合された変換候補を提示する。具体的には、提示部109は、液晶ディスプレイ等の出力装置を介して、音声波形131に対応する第1変換候補135及び第2変換候補141を提示する。
(1.7)再認識範囲抽出部111
図3は、本実施形態に係る音声認識装置100の再認識範囲抽出部111及び限定範囲音声抽出部115の動作を説明するための概念図である。具体的には、図3(a)は、第1変換候補135において、再認識範囲抽出部111により抽出される特定の表現137の概念図である。図3(b)は、音声波形131において、再認識範囲抽出部111により抽出される特定の区間139の概念図である。
図3(a)に示すように、再認識範囲抽出部111は、第1音声認識部105の認識結果に基づいて、特定の表現137を含む音声波形131の区間を特定の区間139として抽出する。すなわち、再認識範囲抽出部111は、第1音声認識部105により認識された音声波形131、すなわち第1変換候補135について、特定の表現137を含む音声波形131の区間を特定の区間139として抽出する。なお、特定の表現137とは、単語又は文節からなる文字列である。
具体的には、再認識範囲抽出部111は、第1音声認識部105の認識結果に基づいて、ユーザの指示に基づいて、特定の表現137を抽出する。例えば、再認識範囲抽出部111は、第1変換候補135について、ユーザのキーボード又はマウス等の入力装置の操作からの指示に基づいて、特定の表現137である「垢だ」を抽出する。
或いは、再認識範囲抽出部111は、特定の区間139の前後に連なるとともに、特定の表現137に関連する単語を抽出することにより、特定の表現137を含む特定の区間139を抽出する。例えば、再認識範囲抽出部111は、周知の「固有名詞抽出技術」を用いることにより、特定の表現137を含む特定の区間139を抽出する。また、再認識範囲抽出部111は、第1音声認識部105の認識結果に基づいて、第3言語モデルに含まれる単語を抽出することにより、特定の表現137を含む特定の区間139を抽出することができる。例えば、再認識範囲抽出部111は、第1音声認識部105の認識結果から抽出された第3言語モデルに含まれる単語が接尾語の場合、接尾語の直前の単語又は文節を特定の表現137として抽出する。
再認識範囲抽出部111は、第1音声認識部105の認識結果から抽出された第3言語モデルに含まれる単語が接頭語の場合、接頭語の直後の単語、又は文節を特定の表現137として抽出する。また、再認識範囲抽出部111は、第1変換候補135について、第3言語モデルに含まれる単語が、接頭語である「株式会社」である場合、「株式会社」の直後の単語である「ヤホ」を特定の表現137として抽出する。同様にして、再認識範囲抽出部111は、第1変換候補135について、第3言語モデルに含まれる単語が接尾語である「さん」である場合、「さん」の直前の単語である「垢だ」を特定の表現137として抽出する。以下、本実施形態では、特定の表現137として「垢だ」についてのみ、記載し、「ヤホ」についての記載を省略する。
図3(b)に示すように、再認識範囲抽出部111は、第1音声認識部105の認識結果に基づいて、特定の表現137に対応する音声波形の区間を特定の区間139として、抽出する。
すなわち、再認識範囲抽出部111は、第1音声認識部105により認識された音声波形131について、特定の表現137に対応する音声波形の区間を特定の区間139として、抽出する。例えば、再認識範囲抽出部111は、音声波形131について、特定の表現137である「垢だ」に対応する音声波形の区間を特定の区間139として、抽出する。
(1.8)第3言語モデルDB113
第3言語モデルDB113は、接尾語又は接頭語により構成された第3言語モデルを記憶する。第3言語モデルには、辞書部と、n−gramとが含まれる。具体的には、第3言語モデルは、辞書部の機能として、接尾語又は接頭語からなる単語と、単語に対応する発音記号列とが含まれる。例えば、第3言語モデルは、「接尾語からなる単語」として、直前に人名を含む「さん」、「家」、「流」等、直前に地名を含む「行き」、「県」、「発」、「着」、「語」、「弁」、「製」等、直前の単語に専門の人や仕事を含む「屋」、「店」等、直前の単語に数値を含む「回」、「円」、「度」等を含む。また、第3言語モデルは、「接頭語からなる単語」として、直後の単語に企業名を含む「株式会社」等の単語を含む。
第3言語モデルの辞書部は、接尾語又は接頭語からなる単語と、接尾語又は接頭語の種別と、対応する発音記号列とからなってもよい。
また、接尾語又は接頭語は、第3言語モデルDB113に事前に登録される単語でもよく、音声認識装置100が、ユーザからの入力、又はネットワークを介して、収集したテキストデータにおける各単語の使用頻度に基づいて、適宜更新されてもよい。
なお、n−gramは、第1言語モデルDB107bのn−gramと同様であるため、その記載は、省略する。
(1.9)限定範囲音声抽出部115
限定範囲音声抽出部115は、再認識範囲抽出部111により抽出された特定の区間139の音声波形を抽出する。具体的には、限定範囲音声抽出部115は、音声記憶部103に記憶される音声波形131を取得し、再認識範囲抽出部111により抽出された特定の区間139の音声波形を抽出する。
(1.10)第2音声認識部117
図4は、本実施形態に係る音声認識装置100の第2音声認識部117の動作を説明するための概念図である。
図4に示すように、第2音声認識部117は、第2言語モデルを用いて、再認識範囲抽出部111により抽出された特定の区間139の音声波形を音声認識する。第2音声認識部117は、第2音響モデルDB119aを用いて特定の区間139を発音記号133に変換し、第2言語モデルDB119bに記憶される単語を用いて、発音記号133を単語列からなる第2変換候補141に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。
具体的には、第2音声認識部117は、特定の区間139と、第2音響モデルDB119aとに基づいて、特定の区間139を発音記号133に置き換える。第2音声認識部117は、第2音響モデルDB119aから特定の区間139に対応する発音記号133を抽出する。次に、第2音声認識部117は、発音記号133について、第2言語モデルDB119bに記憶される単語を用いて、確率統計的な手法に基づいて、音声認識し、第2変換候補141を作成する。
これにより、第2音声認識部117は、特定の表現137である「垢だ」ではなく、第2変換候補141として、「赤田」を作成する。
また、第2音声認識部117は、特定の区間139の前後の音声波形131からテキストデータのテーマを推測し、該テーマに関連する地名、人名、固有名の確率が高いと判定して、対応する第2変換候補141を作成してもよい。
また、第2音声認識部117は、特定の区間139の前後の音声波形について、第3言語モデルに含まれる接尾語又は接頭語からなる単語の有無に基づいて音声認識を行ってもよい。第2音声認識部117は、特定の区間139の前後に第3言語モデルに含まれる接尾語又は接頭語からなる単語を抽出した場合、第2言語モデルにおいて、接尾語又は接頭語に対応する地名、人名、固有名の確率が高いと判定して、対応する第2変換候補141を作成する。
例えば、第2音声認識部117は、特定の区間139の直後の音声波形から、第3言語モデルに含まれる「さん」を抽出することで、特定の区間139が、人名である確率が高いと判定する。この場合、第2音声認識部117は、第2変換候補141として、「赤田」を作成してもよい。
(1.11)第2言語モデルDB119b
第2言語モデルDB119bは、第1言語モデルよりも特定の表現に特化した単語に基づいて構成された第2言語モデルを記憶する。第2言語モデルは、辞書部と、n−gramとからなる。第2言語モデルの辞書部は、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて、構成される。例えば、固有名詞には、固有の人物を表す人名、会社名、固有の場所を表す地名、住所、駅名、新たに創造された物に対する固有物名等、100万語以上の単語が含まれる。第2言語モデルは、特定の表現として特定の分野の単語と、該特定の分野の種別と、対応する発音記号列とからなる。
例えば、第2言語モデルは、苗字、名前を構成する単語と、該単語に対応する「人名」という種別と、対応する発音記号列とを含む。
このような特定の表現は、第2言語モデルDB119bに事前に登録される単語でもよく、音声認識装置100が、ユーザからの入力、又はネットワークを介して、収集したテキストデータにおける各単語について、分野を判定し、各単語の使用頻度に基づいて、適宜更新されてもよい。
なお、n−gramは、第1言語モデルDB107bのn−gramと同様であるため、その記載は、省略する。
(1.12)判定部121
判定部121は、液晶ディスプレイ等の出力装置を介して、提示部109により、ユーザに提示された第1変換候補135及び第2変換候補141の少なくとも何れかが、ユーザの指示等により確定されたか否かを判定する。例えば、判定部121は、第1変換候補135及び第2変換候補141について、ユーザのキーボード又はマウス等の入力装置の操作からの指示に基づいて、「株式会社ヤホの赤田さんと会議をしました」という第1変換候補135が確定されたことを判定する。
また、判定部121は、第1変換候補135及び第2変換候補141について、ユーザのキーボード又はマウス等の入力装置の操作からの指示、又は所定時間以上、ユーザの入力が無い場合に、ユーザの要求を満たしていない、すなわち、第1変換候補135及び第2変換候補141が確定されていないことを判定する。
(1.13)出力部123
出力部123は、第1変換候補135又は、第2変換候補141の少なくとも何れかをユーザに出力する。具体的には、出力部123は、液晶ディスプレイ等の出力装置を介して、第1変換候補135又は、第2変換候補141の少なくとも何れかを出力する。また、出力部123は、判定部121に基づいて確定したと判定された第1変換候補135又は、第2変換候補141の少なくとも何れかをユーザに出力してもよい。出力部123は、ネットワーク等を介して、確定したと判定された第1変換候補135又は、第2変換候補141の少なくとも何れかをデータとして出力することもできる。
(2)音声認識装置100の動作
音声認識装置100の動作について、(2.1)全体概略動作、(2.2)第1音声認識部105の音声認識処理動作の順に説明する。
(2.1)全体概略動作
図5は、実施形態に係る音声認識装置100の音声認識動作を示すフローチャートである。
図5に示すように、ステップS110において、音声取得部101は、マイク等を介して、入力された音声を取得し、音声を音声波形131に変換する。また、音声記憶部103は、音声取得部101により形成された音声波形131を記憶する。
ステップS120において、第1音声認識部105は、入力された音声に基づく音声波形131について、第1言語モデルを用いて、音声認識を行い、第1変換候補135を作成する。
ステップS130において、再認識範囲抽出部111は、第1変換候補135に特定の表現137を含むか否かを、第3言語モデルに基づいて、判定する。具体的には、再認識範囲抽出部111は、特定の表現137を含むと判定した場合、再認識範囲抽出部111第1変換候補135から第3言語モデルに含まれる単語を抽出することにより、特定の表現137を含む音声波形の区間を特定の区間139として抽出し、処理をステップS160へ進める。また、再認識範囲抽出部111は、特定の表現137を含んでいないと判定した場合、処理をステップS140へ進める。
ステップS140において、提示部109は、音声波形131について、対応する第1変換候補135を液晶ディスプレイ等の出力装置を介して、提示する。
ステップS150において、再認識範囲抽出部111は、第1変換候補135について、特定の表現137を指定するユーザの指示の有無を、判定する。具体的には、特定の表現137を指定するユーザの指示が有る場合、再認識範囲抽出部111は、ユーザの指示に基づいて、特定の表現137を含む音声波形の区間を特定の区間139として抽出し、処理をステップS160へ進める。また、特定の表現137を指定するユーザの指示が無い場合、再認識範囲抽出部111は、処理をステップS200へ進める。
ステップS160において、限定範囲音声抽出部115は、再認識範囲抽出部111により抽出された特定の区間139の音声波形を抽出する。
ステップS170において、第2音声認識部117は、再認識範囲抽出部111により抽出された特定の区間139について、第2言語モデルを用いて音声認識をする。
ステップS180において、提示部109は、音声波形131について、対応する第1変換候補135及び第2変換候補141を提示する。すなわち、提示部109は、音声波形131について、対応する第1変換候補135及び第2変換候補141により統合された変換候補を提示する。
ステップS190において、判定部121は、提示部109により、ユーザに提示された第1変換候補135及び第2変換候補141の少なくとも何れかが、ユーザの指示等により確定したか否かを判定する。具体的には、第1変換候補135及び第2変換候補141の少なくとも何れかを確定するユーザの指示が有る場合、判定部121は、処理をステップS200へ進める。また、第1変換候補135及び第2変換候補141が確定していない場合、判定部121は、処理をステップS150へ戻す。
ステップS200において、出力部123は、判定部121により確定したと判定された第1変換候補135又は、第2変換候補141の少なくとも何れかをユーザに出力する。
以上の処理により、音声認識装置100は、入力された音声を第1変換候補135及び第2変換候補141に変換し、出力する。
(2.2)第1音声認識部105の音声認識処理動作
図6は、実施形態に係る第1音声認識部105の音声認識処理動作の詳細を示すフローチャートである。具体的には、図6は、図5のステップS120における第1音声認識部105が、音声認識を行う処理の詳細動作を示す。
ステップS121において、第1音声認識部105は、音声記憶部103に記憶された音声波形131を分析して特徴量を抽出した情報に変換する。更に、第1音声認識部105は、音声波形131と、第1音響モデルDB107aとに基づいて、音声波形131を発音記号133に置き換える。
ステップS123において、第1音声認識部105は、発音記号133について、第1言語モデルDB107bに記憶される単語を用いて音声認識する。具体的には、第1音声認識部105は、発音記号133について、第1変換候補135を作成する。
これにより、第1音声認識部105は、音声認識処理動作を終了する。
(3)作用・効果
以上説明したように、本実施形態によれば、音声認識装置100は、第1音声認識部105により、音声波形131について、汎用的な単語について音声認識し、特定の表現137を含む音声波形131を再認識範囲抽出部111により特定の区間139として、抽出し、第2音声認識部117により音声認識することができる。
音声認識装置100は、音声波形131において汎用的な表現と、特定の表現とが混在している場合でも、汎用的な表現については、第1音声認識部105により音声認識するため、第1言語モデルの登録単語を増大する必要が無く、誤認識の増大を防止できる。また、音声認識装置100は、特定の区間139のみを第2音声認識部117により音声認識を行うため、特定の表現137について、認識精度を向上できる。
すなわち、音声認識装置100は、音声波形131において汎用的な表現と、特定の表現とが混在している場合でも、第1音声認識部105と、第2音声認識部117とを組み合わせることにより、単語の登録数を増加させた場合においても、誤認識の増大を防止しつつ、認識精度を向上できる。
実施形態では、再認識範囲抽出部111は、第1音声認識部105により認識された音声波形131について、ユーザの指示に基づいて、特定の表現137を含む特定の区間139を抽出する。このため、音声認識装置100は、特定の区間139のみを確実に抽出し、第2音声認識部117により特定の区間139の音声認識を行うため、認識精度を向上できる。
実施形態では、再認識範囲抽出部111は、接尾語又は接頭語により構成された第3言語モデルを記憶する第3言語モデルDB113を更に備える。また、再認識範囲抽出部111は、第1音声認識部105により認識された音声波形131について、第3言語モデルに含まれる単語を抽出することにより、特定の表現137を含む特定の区間139を抽出する。
このため、音声認識装置100は、第3言語モデルに基づいて、特定の区間139を固有表現として、確実に抽出できる。また、音声認識装置100は、第2音声認識部117により特定の区間139の音声認識を行うため、固有表現の認識精度を更に向上できる。
実施形態では、第2言語モデルは、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて、構成される。このため、音声認識装置100は、特定の区間139を対象に応じて固有表現に変換し、認識精度を更に向上できる。
(4)その他の実施形態
上述した実施形態では、第1音声認識部105は、第1音響モデルDB107aを用いて音声波形131を発音記号133に変換し、第1言語モデルを用いて、発音記号133を単語列からなる第1変換候補135に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。
本発明は、これに限られず、第1音声認識部105は、第1言語モデルを用いて第1音声変換候補135を仮定し、第1言語モデルDB107bの辞書部を用いて発音記号133に変換し、第1音響モデルDB107aを用いて、発音記号133と、対応する音声波形131とを照合する、いわゆるトップダウン的な認識手法による音声認識をしてもよい。この場合、図6に示す音声認識を行う処理では、第1音声認識部105は、ステップS121、S123を同時に行い、音声波形131から第1音声変換候補140を作成する。
また、上述した実施形態では、第2音声認識部117も、第1音声認識部105と同様にボトムアップ的な認識手法による音声認識をするが、本発明は、これに限られず、トップタウン的な認識手法による音声認識をしてもよい。
上述した実施形態では、音声認識装置100は、マイク等の音声入力装置及びキーボタンやタッチパネル等のキー入力情報入力装置を備え、ユーザにより入力された音声に基づいて、変換候補を出力する。
本発明は、これに限られず、音声は、通信ネットワーク等を介して、クライアント端末から音声認識装置100に入力されてもよい。この場合、音声認識装置100は、ネットワーク等を介して、元のクライアント端末に変換候補を送信することにより、クライアント端末では、変換候補をユーザに提示することができる。
なお、上記のクライアント端末は、いわゆるPC(Personal Computer)や携帯通信端末装置(携帯電話機やスマートフォン)、カーナビゲーションシステム等である。
上述した実施形態では、音声認識装置100が備える各ブロックについて記載しているが、本発明これに限られず、例えば、上記の各ブロックの機能を実行することで、音声認識方法をコンピュータに実行させるプログラムとしてもよく、また、このコンピュータプログラムを配信する情報処理装置であってもよい。
上述した実施形態では、第2音声認識部117は、特定の区間139と、第2音響モデルDB119aとに基づいて、特定の区間139を発音記号133に置き換える。また、第2音声認識部117は、第2音響モデルDB119aから特定の区間139に対応する発音記号133を抽出する。本発明は、これに限定されず、例えば、第2音声認識部117は、特定の区間139と、第1音響モデルDB107aとに基づいて、特定の区間139を発音記号133に置き換えてもよい。すなわち、第2音声認識部117は、第1音声認識部105の第1音響モデルDB107aと共通する音響モデルを用いてもよい。
上述した実施形態では、音声認識装置100の音声認識動作を図5を用いて、説明した。本発明は、これに限定されず、例えば、再認識範囲抽出部111は、第1変換候補135に特定の表現137を含むか否かを、第3言語モデル又は特定の表現137を指定するユーザの指示の有無の何れかによって判定してもよい。
このように、本発明は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本発明の技術的範囲は、上述の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
例えば、各構成図、フローチャート、概念図の図などは例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。また、本発明において、各手段などの要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路で実現してもよい。
100 音声認識装置
101 音声取得部
103 音声記憶部
105 第1音声認識部
107a 第1音響モデルDB
107b 第1言語モデルDB
109 提示部
111 再認識範囲抽出部
113 第3言語モデルDB
115 限定範囲音声抽出部
117 第2音声認識部
119a 第2音響モデルDB
119b 第2言語モデルDB
121 判定部
123 出力部
131 音声波形
131a 音声区間
133 発音記号
133a 発音記号候補
135 第1変換候補
137 特定の表現
139 特定の区間
141 第2変換候補

Claims (3)

  1. 汎用的な単語に基づいて構成された第1言語モデルを記憶する第1記憶手段と、
    前記第1言語モデルよりも特定の表現に特化した、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて構成された第2言語モデルを記憶する第2記憶手段と、
    前記特定の表現の前後に連なるとともに、前記特定の表現に関連する接頭語または接尾語に基づいて構成された第3言語モデルを記憶する第3記憶手段と、
    前記第1言語モデルを用いて、入力された音声に基づく音声波形を音声認識する第1音声認識手段と、
    前記第3言語モデルを用いて、前記第1音声認識手段の認識結果から、前記接頭語または前記接尾語を抽出し、該接頭語の直後の区間または該接尾語の直前の区間を、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語含む特定の区間として抽出する抽出手段と、
    前記第2言語モデルを用いて、前記抽出手段により抽出された特定の区間の音声波形を音声認識する第2音声認識手段と、
    を備えることを特徴とする音声認識装置。
  2. コンピュータが、汎用的な単語に基づいて構成された第1言語モデルを用いて、入力された音声に基づく音声波形を音声認識するステップと、
    コンピュータが、前記特定の表現の前後に連なるとともに、前記特定の表現に関連する接頭語または接尾語に基づいて構成された第3言語モデルを用いて、前記第1言語モデルを用いて認識した認識結果から、前記接頭語または前記接尾語を抽出し、該接頭語の直後の区間または該接尾語の直前の区間を、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語含む特定の区間として抽出するステップと、
    コンピュータが、前記第1言語モデルよりも特定の表現に特化した、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて構成された第2言語モデルを用いて、前記特定の区間について、音声認識するステップと、
    を含むことを特徴とする音声認識方法。
  3. 請求項2に記載の音声認識方法をコンピュータに実行させるためのプログラム
JP2010114848A 2010-05-19 2010-05-19 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 Active JP5231484B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010114848A JP5231484B2 (ja) 2010-05-19 2010-05-19 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010114848A JP5231484B2 (ja) 2010-05-19 2010-05-19 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置

Publications (2)

Publication Number Publication Date
JP2011242613A JP2011242613A (ja) 2011-12-01
JP5231484B2 true JP5231484B2 (ja) 2013-07-10

Family

ID=45409317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010114848A Active JP5231484B2 (ja) 2010-05-19 2010-05-19 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置

Country Status (1)

Country Link
JP (1) JP5231484B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6150268B2 (ja) * 2012-08-31 2017-06-21 国立研究開発法人情報通信研究機構 単語登録装置及びそのためのコンピュータプログラム
CN103903619B (zh) * 2012-12-28 2016-12-28 科大讯飞股份有限公司 一种提高语音识别准确率的方法及***
CN106297797B (zh) 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
JP6763527B2 (ja) * 2018-08-24 2020-09-30 ソプラ株式会社 認識結果補正装置、認識結果補正方法、およびプログラム
JP7177348B2 (ja) * 2019-02-06 2022-11-24 日本電信電話株式会社 音声認識装置、音声認識方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056795A (ja) * 1998-08-03 2000-02-25 Fuji Xerox Co Ltd 音声認識装置
JP3976959B2 (ja) * 1999-09-24 2007-09-19 三菱電機株式会社 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP3639776B2 (ja) * 2000-07-28 2005-04-20 シャープ株式会社 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2008089625A (ja) * 2006-09-29 2008-04-17 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP5050175B2 (ja) * 2008-07-02 2012-10-17 株式会社国際電気通信基礎技術研究所 音声認識機能付情報処理端末

Also Published As

Publication number Publication date
JP2011242613A (ja) 2011-12-01

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US9754592B2 (en) Methods and systems for speech-enabling a human-to-machine interface
JP5362095B2 (ja) インプットメソッドエディタ
Han et al. Lexical normalisation of short text messages: Makn sens a# twitter
US10290299B2 (en) Speech recognition using a foreign word grammar
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
CN102122298A (zh) 一种中文相似性匹配方法
JP2006053906A (ja) コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
CN102214238B (zh) 一种汉语词语相近性匹配装置及方法
Ablimit et al. A multilingual language processing tool for Uyghur, Kazak and Kirghiz
JP2016102866A (ja) 誤認識修正装置およびプログラム
Prasad et al. Mining Training Data for Language Modeling Across the World's Languages.
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
JP5139499B2 (ja) 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置
JP2011065384A (ja) 誤字脱字対応テキスト解析装置及び方法及びプログラム
JP2010231149A (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2019095603A (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
Celikkaya et al. A mobile assistant for Turkish
JP2019159118A (ja) 出力プログラム、情報処理装置及び出力制御方法
JP2011243011A (ja) 入力支援装置、抽出方法、プログラム、及び情報処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5231484

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250