JP4171323B2 - 認識誤り訂正方法、装置、およびプログラム - Google Patents
認識誤り訂正方法、装置、およびプログラム Download PDFInfo
- Publication number
- JP4171323B2 JP4171323B2 JP2003051645A JP2003051645A JP4171323B2 JP 4171323 B2 JP4171323 B2 JP 4171323B2 JP 2003051645 A JP2003051645 A JP 2003051645A JP 2003051645 A JP2003051645 A JP 2003051645A JP 4171323 B2 JP4171323 B2 JP 4171323B2
- Authority
- JP
- Japan
- Prior art keywords
- error correction
- speech recognition
- proper noun
- proper
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、録画・録音された音声ドキュメントに対して音声認識を適用することにより文字化を行う音声認識装置に関する。
【0002】
【従来の技術】
増大するマルチメディアコンテンツの高度な利用を目的として、音声認識などのメディア認識技術の研究開発が行われている。音声認識装置はコンテンツ中の発声部分を文字化する装置であり、文字化が行われた後はさまざまな処理が可能となることから、重要な要素として位置づけられている。現在の音声認識装置においては、その性能を引き出すために、認識対象に対する適応が不可欠である。これには、認識辞書への単語の登録や、発話されやすい単語の組み合わせを言語モデルとして組み込むことが含まれる。しかしながら、これらをむやみに増やすことは、処理速度の低下だけではなく、認識精度の低下を招く。よって、認識辞書へ登録すべき単語は、認識対象と同等の性質を持つと思われる文書集合などから慎重に選択する必要がある。
【0003】
【非特許文献1】
“Dynamic Programming Algorithm (DPA) for edit-Distance”,
http://www.csse.monash.edu.au/-lloyd/tildeAlgDS/Dynamic/Edit/
【0004】
【発明が解決しようとする課題】
上記に述べたように、認識辞書へ登録すべき単語は慎重に選択する必要があり、実際の認識対象に含まれうる単語を100%カバーすることは不可能である。特に、新語や、人名、地名、製品名といった固有名詞については数多くの単語が出現する可能性があり、認識対象外となること(Out of Vocabulary問題:OOV問題)が起こる。現状の音声認識装置においては、認識辞書に登録されていない単語は絶対に認識されることはないため、認識精度の低下につながる。
【0005】
本発明の目的は、このようなOOV問題に起因する認識誤りのうち、固有名詞に関連する認識誤りを訂正することにより、音声認識の精度向上を図った認識誤り訂正方法、装置、およびプログラムを提供することである。
【0006】
【課題を解決するための手段】
上記の目的を達成するために、本発明の認識誤り訂正装置は、
音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識手段と、
前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加する手段と、
前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出する手段と、
品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出する手段と、
該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出する手段と、
それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行う手段と
を有する。
【0007】
通常の音声認識装置において認識精度低下の原因のひとつであるOOV問題(Out Of Vocabulary問題)のうち、例えば固有名詞に関わる認識誤りを訂正することにより、認識精度を向上させることが可能となる。
【0008】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0009】
図1に示すように、本発明の一実施形態の認識誤り訂正装置は入力部100と音声認識部200と音声認識誤り訂正部300と音声認識誤り訂正条件テーブル310と固有名詞区間同定部400と音声認識誤り訂正候補抽出部500と関連情報検索キー単語抽出条件テーブル510と関連情報検索部600と音声認識誤り訂正候補抽出条件テーブル610と出力部700から構成される。
【0010】
入力部100は音声ドキュメントを入力する。音声認識部200は入力された音声ドキュメントを音声認識し、その結果を信頼度とともに出力する。音声認識誤り訂正部300は音声認識結果を入力し、あらかじめ定められた音声認識誤り訂正条件にしたがって、音声認識誤りを訂正する。音声認識誤り訂正条件テーブル310は音声認識誤り訂正条件を予め格納している。固有名詞区間同定部400は入力された単語列から、そこに含まれる固有名詞区間の同定を行う。音声認識誤り訂正候補抽出部500は音声認識誤り訂正候補である固有名詞区間を関連情報より抽出する。関連情報検索キー単語抽出条件テーブル510は関連情報検索キー単語抽出条件を格納している。関連情報検索部600はあらかじめ定められた関連情報検索条件にしたがって外部データベースにおける関連文書を検索する。音声認識誤り訂正候補抽出条件テーブル610は、あらかじめ定められた音声認識誤り訂正候補抽出条件を格納している。
【0011】
なお、各処理部100、200、300、400、500、600、700はCPU等の制御手段で実行される。各テーブル310、510、610、は記憶装置に記憶される。また、各処理部からの出力を一時的に格納する記憶装置(不図示)も設けられている。
【0012】
以下、具体例を用いて、本実施形態の音声認識誤り訂正装置の動作を説明する。
【0013】
図2は、入力部100から入力され、音声認識部200により文字化された音声認識結果の一部を示している。ここで実際の発声は、「ITベンチャーの中谷製作所の田中祐市部長は、新プロジェクトのシリウス・ダッシュの概要を発表した。」であったとするが、音声認識の誤りのために、「ITベンチャーのなかったり製作所の田中唯一部長は、新プロジェクトのシリウス・ダッシュの概要を発表した。」のように文字化されたものとする。
【0014】
図2に例示する音声認識部200の出力は、XML(eXtensible Markup Language)言語によって構造化されている。すなわち、音声ドキュメントdocは、発声単位であるphraseの集合として表現される。各発話単位は、そこに含まれる単語wordの集合として表現される。各発話単位、および、そこに含まれる各単語に対しては、その開始時刻と終了時刻がそれぞれbegin、endという属性を用いて記録される。さらに、各単語に対しては、音声認識により文字化された単語表記がXML要素の内容部分に記録されるだけでなく、該単語の品詞情報、読み情報と音声認識の信頼度がそれぞれpos、reading、confという属性を用いて記録される。なお、図2に例示した音声認識結果は、本発明の説明に必要な概念を例示するためのものであり、XMLのタグ構造も含めて、このデータ形式に限る必要はない。また、音声認識部200としては、このような情報を出力可能な任意の音声認識装置を適用することが可能である。
【0015】
図3は、あらかじめ設定する音声認識誤り訂正条件を格納する音声認識誤り訂正条件テーブル310のエントリ例を示す。図3に示す例においては、音声認識の信頼度スコアと後述する固有名詞クラスに関する複合条件を記述している。条件の適用の仕方については後述する。なお、これらの条件は、音声認識部200に適用する音声認識装置に応じて経験的に設定する。
【0016】
音声認識誤り訂正部300は、図2に示すような音声認識部200からの出力を入力し、図3に示すような、あらかじめ定められた音声認識誤り訂正条件に基づいて、音声認識結果に含まれる音声認識誤りの訂正を行う。音声認識誤り訂正部300は、まず、入力された音声認識結果を固有名詞区間同定部400へと転送する。固有名詞区間同定部400は、図2に示すような入力された音声認識結果に対し、固有名詞が発声されたと判断される区間を同定し、図4に例示するようなデータ形式を持つ処理結果を音声認識誤り訂正部300へと返却する。
【0017】
図4は、図2の音声認識結果に対する固有名詞区間同定部400の処理結果を示す。図4のデータは、図2に例示する音声認識結果と同様のXML形式であるが、固有名詞区間同定の結果がwordタグ中のne−classという属性により付加されている。すなわち、ne−classという属性の属性値がnil以外のものは、固有名詞区間に含まれることを示しており、nil以外の属性値は、人名、地名といった固有名詞のクラスを示す。図4において、personという属性値は人名を、organizationという属性値は組織名を示すものとする。
【0018】
なお、本発明においては、固有名詞区間同定部400の具体的構成については規定しないが、図2に示すようなXML形式による構造化されたデータ、文字列としてのテキストデータを処理可能な入力インタフェースを備えており、固有名詞区間同定の処理は、例えば、特許文献1に示される方法・装置により実現されることを想定する。また、図4に例示した固有名詞区間同定結果は、本発明の説明に必要な概念を例示するためのものであり、XMLのタグ構造も含めて、このデータ形式に限る必要はない。
【0019】
図4に示すような固有名詞区間同定の結果が付加された音声認識結果は音声認識誤り訂正部300へ返却される。
【0020】
音声認識誤り訂正部300は、固有名詞区間同定の結果が付加された入力された音声認識結果と、音声認識誤り訂正条件テーブル310に格納された音声認識誤り訂正条件を照合し、音声認識の誤りが含まれている可能性がある区間(低い音声認識信頼度を持つ単語を含む)、かつ、それが訂正されうる区間(何らかの固有名詞クラスを有する固有名詞区間であると同定されている)を抽出する。ここで、抽出される区間は、「固有名詞クラスが音声認識誤り訂正条件に指定された条件を満たす単語」からなる最長の部分単語列であって、「該部分単語列中に含まれる単語に対する認識信頼度の中で最小のものが音声認識誤り訂正条件に指定されている条件を満たす」ものとする。
【0021】
図4の固有名詞区間同定の結果が付加された音声認識結果に対して、図3の音声認識誤り訂正条件を照合させると、音声認識誤りを訂正するべき区間として、次の二つを得る。ここで、/は単語境界を表し、カッコ内は該区間が持つ固有名詞クラスを示す。
・[訂正対象1] な/かったり/製作所(organization)
・[訂正対象2] 田中/唯一/部長(person)
音声認識誤り訂正部300は、次に、図4の固有名詞区間同定の結果が付加された音声認識結果を音声認識誤り訂正候補抽出部500へと送信する。
【0022】
音声認識誤り訂正候補抽出部500は、関連情報検索キー単語抽出条件テーブル510にあらかじめ格納された関連情報検索キー単語抽出条件にしたがって、図4に示すような固有名詞区間同定の結果が付加された音声認識結果から、関連情報検索部600によって外部データベースから関連文書検索を行うための検索条件となる単語集合を抽出する。次に、これらの単語集合を検索条件として、あらかじめ音声認識誤り訂正候補抽出条件テーブル610に格納された音声認識誤り訂正候補抽出条件にしたがって、関連情報検索部600により外部データベースから関連文書を検索し、音声認識誤り訂正候補の固有名詞区間を抽出する。ここで、検索結果の文書に含まれる固有名詞区間を同定するためには、固有名詞区間同定部400を呼び出す。抽出された音声認識誤り訂正候補は、音声認識誤り訂正候補抽出部500へと返却する。
【0023】
図5は、関連文書検索キー単語抽出条件テーブル510におけるエントリ例を示す。図5に示す例は、品詞と認識信頼度に関する三通りの条件が設定されている。図5の例に示すように、音声認識の信頼度を考慮することにより、正しく認識されている可能性の高い単語を抽出する。また、名詞や動詞などの品詞を有する単語を抽出することにより、関連情報検索部600によって、関連する文書を外部データベースから検索する際にキーワードとなりうる単語を抽出する。なお、これらの条件は、音声認識部200に適用する音声認識装置に応じて経験的に設定する。
【0024】
図5に示す関連情報検索キー単語抽出条件にしたがって、図4に示す固有名詞区間同定の結果が付加された音声認識結果から、関連情報検索部600によって外部データベースから関連文書検索を行うための検索条件となる単語集合を抽出すると、以下のような単語集合が得られる。
・[検索条件単語集合](ベンチャー、プロジェクト、シリウス、ダッシュ)
図6は、関連情報検索条件テーブル510におけるエントリ例を示す。図6に示すように関連情報検索条件は、3つのエントリからなる。第1のエントリは、関連情報検索部600が検索対象とすべき外部データベースの識別子である。図6の例では、インターネット上に存在するニュース検索サイトfoo−news.comが指定されている。第2のエントリは、音声認識誤り訂正候補を抽出する対象となる文書の最大数を指定する。通常のインターネットのサイト検索やデータベース検索においては、検索要求に対する適合度順に複数の文書が返却されるため、この上位から指定された数の文書を対象とする。図6の例では、上位の二件の文書のみを拡張単語の対象とすることが指定されている。第3のエントリは、実際に音声認識誤り訂正候補として抽出する固有名詞区間の最大数を指定する。図6の例では、最大5つの固有名詞区間を抽出することが指定されている。
【0025】
上記に抽出した単語集合を検索条件とし、図6に示す関連情報検索条件によって、関連情報検索部600による関連文書検索を行った結果、次に示すような内容を持つ関連文書1件が抽出されるものとする。
・[関連文書内容]
ベンチャー業界注目の新規プロジェクト「シリウス・ダッシュ」がいよいよスタートする。参加企業を代表する田中祐市部長(中谷製作所)、鈴木一朗取締役(株式会社ダッシュ)の両氏は、昨夜開いた記者会見の会場で、その計画の概要を公表した。
【0026】
この文書内容は、関連情報検索部600から音声認識誤り訂正候補抽出部500に返却される。
【0027】
音声認識誤り訂正候補抽出部500は、上記のような文書内容を固有名詞区間同定部400を起動することにより、文書中に含まれる固有名詞区間を得る。上記の例においては、以下の5つの固有名詞区間(/の後は読み、カッコ内は固有名詞クラス)が得られるものとする。
・[訂正候補a] シリウス/しりうす(organization)
・[訂正候補b] 田中祐市部長/たなか ゆういち ぶちょう(person)
・[訂正候補c] 中谷製作所/なかたに せいさくしょ(organization)
・[訂正候補d] 鈴木一朗取締役/すずき いちろう とりしまりやく(person)
・[訂正候補e] 株式会社シリウス/かぶしきがいしゃ しりうす(organization)
上記のごとく得られた音声認識誤り訂正候補は、音声認識誤り訂正候補抽出部500から音声認識誤り訂正部300へと送信される。音声認識誤り訂正部300は,[訂正対象1]、[訂正対象2]のような誤り訂正対象となる固有名詞区間と、[訂正候補a−e]のような誤り訂正候補群とのマッチングを行い、誤り訂正を試みる。
【0028】
各訂正対象に対する訂正候補群とのマッチング手順は、以下のように行う。
・[ステップ1] 該訂正対象と同じ固有名詞クラスを持つ訂正候補を訂正候補群から選択する
・[ステップ2] 該訂正対象と選択された訂正候補それぞれとのマッチ度を計算する
・[ステップ3] 該訂正対象に対して最大のマッチ度を与える訂正候補を選択する
上記の手順において、ステップ1とステップ3は自明であるので、ステップ2について説明する。
【0029】
訂正対象と訂正候補のマッチ度の計算としては、例えば、「読み」のひらがな文字列の類似度を用いることができる。本発明で対象とするのは音声認識の誤りであるので、訂正対象である音声認識の誤り箇所の読みは、本来発声されたであろう正解の読みと類似していることが想定されるため、この方法には妥当性がある。
【0030】
文字列間の類似度の計算方法としては様々なものが提案されているが、代表的な手法として「編集距離」を用いる方法があり、動的計画法を用いた効率のよい処理アルゴリズム(非特許文献1)も確立しているので、例えばこの手法を用いればよい。また、この方法においては、文字列を「編集」する際のコストを定義することができるが、あらかじめ音声認識誤りの傾向が分かっていれば、これをコストに反映させておくことにより、適切に類似度を計算することができる。
【0031】
上記の例においては、訂正対象1の「なかったり製作所」に対しては、固有名詞クラスがorganizationで一致していて、読みがこれと類似していると計算される「中谷製作所」が訂正候補として選択される。また、訂正対象2の「田中唯一部長」に対しては、同様にして「田中祐市部長」が訂正候補として選択される。
【0032】
このようにして求められた訂正候補は、図4に示すような音声認識結果へと反映される。
【0033】
図7は、図4に示す固有名詞区間同定結果を含む音声認識結果に対して、上記に示した誤り訂正候補により誤り訂正を行った後の音声認識結果の例を示す。なお、上記のごとく誤り訂正された部分については、必要に応じ、音声認識の信頼度を適当な定数(図7においては500としている)と置き換えればよい。また、誤りの訂正によって、上記の例のごとく単語の数が変わる場合があり、begin、endの属性によって記録されている発声時間の情報を調整する必要がある。この段階において、正確な発声時間を補うことは不可能であるが、訂正の対象となった区間の始まりと終了の時間が初期の音声認識結果の時間情報と矛盾しないような適当な時間をとるようにすればよい。例えば、図7における「中谷」「製作所」の例では、「中谷」の開始時間を初期の音声認識結果である「な」の開始時間とし、終了時間を初期の音声認識結果である「かったり」の終了時間としている。
【0034】
このような誤り訂正された音声認識結果は、音声認識誤り訂正部300から出力部700へと送信される。
【0035】
図8は特願2002-355284号に記載されている、固有名詞区間同定部400の処理を示す流れ図ある。音声データが入力されると(ステップ801)、大語彙連続音声認識を行い予め指定した個数の形態素の並びの候補を出力する(ステップ402)。始端と終端を含めて隣接する形態素の時刻が連続でない、つまりある形態素の終了時刻とつきの形態素の開始時刻が一致しない場合は、連続でない時間帯、つまりある形態素の終了時刻を開始時刻とし、次の形態素の開始時刻を終了時刻とする時刻情報を付加した読点等の形態素情報を挿入する(ステップ803、804)。また、信頼度スコアや形態素情報がある条件を満たす場合、形態素を元雄形態素情報を保持して別の形態素に置換変形する(ステップ805、806)。例えば、また、信頼度スコアが予め設定されている閾値より小さい場合に、表記、読み、品詞の先頭にそれぞれ「ε;」を付与する。複数候補の形態素の並びから、各形態素が有する時刻情報に基づいて単語グラフを作成する(ステップ807)。単語グラフは、各ノードが時刻情報を持つ形態素であり、ノード間のリンクはある時刻において形態素が隣接する形態素と接続可能であることを示す。単語グラフの時刻を先頭から進めていき、単語グラフの各時刻で終わる形態素候補が存在する限り(ステップ808)、後続の1形態素について想定されるすべての固有表現クラスが付与された場合を仮定して(ステップ809)、すでに学習された言語モデル、例えば固有表現付き単語bigramの出現頻度に基づいて各固有表現クラス付きの形態素が接続した場合の対数確率を計算する(ステップ810)。例えば、直前の固有表現クラスNC-1と直前の形態素w-1が与えられたときに現在の固有表現クラスNCが選択される確率P(NC|NC-1,w-1)と現在と直前の固有表現クラスが与えられたときに、現在の固有表現クラスの中で最初の単語wfirstが生成される確率P(wfirst|NC-1,w-1)と、直前の形態素と現在の固有表現クラスが与えられたときに2番目以降の形態素が生成される確率P(w|w-1,NC)を下記の計算式により固有表現付きの単語bigram頻度Cから計算する。文末まで以上のステップを繰り返す。
【0036】
【数1】
このとき置換変形されている形態素は表記、読み、品詞とも「ε」を用いて対数確率を計算する。その時刻において、それまでの累積の対数確率が最大となる固有表現クラス付き形態素を選択し、経路を保持する(ステップ811)。ここで、「経路を保持する」のは、後の処理で文末から後ろ向きに局所的に最大の対数確率を持つ経路をたどれるようにしておくためである。単語グラフのノードの時刻を進めて(ステップ812)、同様の処理を行う。文末に達したら、今度は文末から最大の対数確率(最尤)を持った経路を選択することにより、選択された経路の各形態素について固有表現クラスを出力する(ステップ213)。置換変形されている形態素は、例えば表記、読み、品詞に含まれる「ε;」を削除するなどして元の形態素に復元して出力する。
【0037】
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0038】
【発明の効果】
以上説明したように、本発明によれば、通常の音声認識装置において認識精度低下の原因のひとつであるOOV問題(Out Of Vocabulary問題)のうち、例えば固有名詞に関わる認識誤りを訂正することにより、認識精度を向上させることが可能となる。また、人名、地名、製品名などの固有名詞を正しく認識することは、例えば、音声認識を適用した音声ドキュメント検索システムの検索精度を向上させることにつながる。
【図面の簡単な説明】
【図1】本発明の一実施形態の音声認識装置のブロック図である。
【図2】音声認識部200により文字化された音声認識結果の一例を示す図である。
【図3】音声認識誤り訂正条件を格納する音声認識誤り訂正条件テーブル310のエントリ例を示す図である。
【図4】図2の音声認識結果に対する固有名詞区間同定部400の処理結果を示す図である。
【図5】関連文書検索キー単語抽出条件テーブル510におけるエントリ例を示す図である。
【図6】音声認識誤り訂正候補抽出条件テーブル610におけるエントリ例を示す図である。
【図7】図4に示す固有名詞区間同定結果を含む音声認識結果に対して誤り訂正候補により誤り訂正を行った後の音声認識結果の例を示す図である。
【図8】固有名詞区間同定部400の処理例のフローチャートである。
【符号の説明】
100 入力部
200 音声認識部
300 音声認識誤り訂正部
310 音声認識誤り訂正条件テーブル
400 固有名詞区間同定部
500 音声認識誤り訂正候補抽出部
510 関連情報検索キー単語抽出条件テーブル
600 関連情報検索部
610 音声認識誤り訂正候補抽出条件テーブル
700 関連情報検索キー単語抽出条件テーブル
801〜812 ステップ
Claims (3)
- 音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識ステップと、
前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加するステップと、
前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出するステップと、
品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出するステップと、
該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出するステップと、
それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行うステップと
を有する認識誤り訂正方法。 - 音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識手段と、
前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加する手段と、
前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出する手段と、
品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出する手段と、
該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出する手段と、
それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行う手段と
を有する認識誤り訂正装置。 - 請求項1に記載の認識誤り訂正方法の各ステップをコンピュータに実行させるための認識誤り訂正プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003051645A JP4171323B2 (ja) | 2003-02-27 | 2003-02-27 | 認識誤り訂正方法、装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003051645A JP4171323B2 (ja) | 2003-02-27 | 2003-02-27 | 認識誤り訂正方法、装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004258531A JP2004258531A (ja) | 2004-09-16 |
JP4171323B2 true JP4171323B2 (ja) | 2008-10-22 |
Family
ID=33116741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003051645A Expired - Fee Related JP4171323B2 (ja) | 2003-02-27 | 2003-02-27 | 認識誤り訂正方法、装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4171323B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606947B2 (en) | 2015-11-30 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7865356B2 (en) * | 2004-07-15 | 2011-01-04 | Robert Bosch Gmbh | Method and apparatus for providing proper or partial proper name recognition |
JP2008109263A (ja) * | 2006-10-24 | 2008-05-08 | Nec Corp | 携帯端末装置、アプリケーション起動方法、及びアプリケーション起動プログラム |
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP5538099B2 (ja) * | 2010-07-02 | 2014-07-02 | 三菱電機株式会社 | 音声入力インタフェース装置及び音声入力方法 |
CN105632499B (zh) | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
JP6763527B2 (ja) * | 2018-08-24 | 2020-09-30 | ソプラ株式会社 | 認識結果補正装置、認識結果補正方法、およびプログラム |
CN110442876B (zh) * | 2019-08-09 | 2023-09-05 | 深圳前海微众银行股份有限公司 | 文本挖掘方法、装置、终端及存储介质 |
KR102332565B1 (ko) * | 2019-12-13 | 2021-11-29 | 주식회사 소리자바 | 음성 인식 힌트 적용 장치 및 방법 |
CN112509581B (zh) * | 2020-11-20 | 2024-03-01 | 北京有竹居网络技术有限公司 | 语音识别后文本的纠错方法、装置、可读介质和电子设备 |
KR102517661B1 (ko) * | 2022-07-15 | 2023-04-04 | 주식회사 액션파워 | 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법 |
-
2003
- 2003-02-27 JP JP2003051645A patent/JP4171323B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606947B2 (en) | 2015-11-30 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
JP2004258531A (ja) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8086453B2 (en) | Automatic detection and application of editing patterns in draft documents | |
US7813929B2 (en) | Automatic editing using probabilistic word substitution models | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US20100332225A1 (en) | Transcript alignment | |
WO2017127296A1 (en) | Analyzing textual data | |
US20080270110A1 (en) | Automatic speech recognition with textual content input | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
JP4171323B2 (ja) | 認識誤り訂正方法、装置、およびプログラム | |
JPWO2011104754A1 (ja) | 検索装置及び検索プログラム | |
JP7107229B2 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
KR100704508B1 (ko) | N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법 | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
EP3005152A1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
Palmer et al. | Information extraction from broadcast news speech data | |
JP4008344B2 (ja) | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム | |
WO2008150003A1 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
JP2000259645A (ja) | 音声処理装置及び音声データ検索装置 | |
JP7107228B2 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
JP2004348552A (ja) | 音声文書検索装置および方法およびプログラム | |
JP2000259176A (ja) | 音声認識装置およびその記録媒体 | |
JPWO2012131822A1 (ja) | 音声認識結果整形装置、音声認識結果整形方法及びプログラム | |
JP4175093B2 (ja) | トピック境界決定方法及び装置及びトピック境界決定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050614 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080730 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080808 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110815 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130815 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |