JP4171323B2 - 認識誤り訂正方法、装置、およびプログラム - Google Patents

認識誤り訂正方法、装置、およびプログラム Download PDF

Info

Publication number
JP4171323B2
JP4171323B2 JP2003051645A JP2003051645A JP4171323B2 JP 4171323 B2 JP4171323 B2 JP 4171323B2 JP 2003051645 A JP2003051645 A JP 2003051645A JP 2003051645 A JP2003051645 A JP 2003051645A JP 4171323 B2 JP4171323 B2 JP 4171323B2
Authority
JP
Japan
Prior art keywords
error correction
speech recognition
proper noun
proper
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003051645A
Other languages
English (en)
Other versions
JP2004258531A (ja
Inventor
隆明 長谷川
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003051645A priority Critical patent/JP4171323B2/ja
Publication of JP2004258531A publication Critical patent/JP2004258531A/ja
Application granted granted Critical
Publication of JP4171323B2 publication Critical patent/JP4171323B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、録画・録音された音声ドキュメントに対して音声認識を適用することにより文字化を行う音声認識装置に関する。
【0002】
【従来の技術】
増大するマルチメディアコンテンツの高度な利用を目的として、音声認識などのメディア認識技術の研究開発が行われている。音声認識装置はコンテンツ中の発声部分を文字化する装置であり、文字化が行われた後はさまざまな処理が可能となることから、重要な要素として位置づけられている。現在の音声認識装置においては、その性能を引き出すために、認識対象に対する適応が不可欠である。これには、認識辞書への単語の登録や、発話されやすい単語の組み合わせを言語モデルとして組み込むことが含まれる。しかしながら、これらをむやみに増やすことは、処理速度の低下だけではなく、認識精度の低下を招く。よって、認識辞書へ登録すべき単語は、認識対象と同等の性質を持つと思われる文書集合などから慎重に選択する必要がある。
【0003】
【非特許文献1】
“Dynamic Programming Algorithm (DPA) for edit-Distance”,
http://www.csse.monash.edu.au/-lloyd/tildeAlgDS/Dynamic/Edit/
【0004】
【発明が解決しようとする課題】
上記に述べたように、認識辞書へ登録すべき単語は慎重に選択する必要があり、実際の認識対象に含まれうる単語を100%カバーすることは不可能である。特に、新語や、人名、地名、製品名といった固有名詞については数多くの単語が出現する可能性があり、認識対象外となること(Out of Vocabulary問題:OOV問題)が起こる。現状の音声認識装置においては、認識辞書に登録されていない単語は絶対に認識されることはないため、認識精度の低下につながる。
【0005】
本発明の目的は、このようなOOV問題に起因する認識誤りのうち、固有名詞に関連する認識誤りを訂正することにより、音声認識の精度向上を図った認識誤り訂正方法、装置、およびプログラムを提供することである。
【0006】
【課題を解決するための手段】
上記の目的を達成するために、本発明の認識誤り訂正装置は、
音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識手段と、
前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加する手段と、
前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出する手段と、
品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出する手段と、
該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出する手段と、
それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行う手段と
を有する。
【0007】
通常の音声認識装置において認識精度低下の原因のひとつであるOOV問題(Out Of Vocabulary問題)のうち、例えば固有名詞に関わる認識誤りを訂正することにより、認識精度を向上させることが可能となる。
【0008】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0009】
図1に示すように、本発明の一実施形態の認識誤り訂正装置は入力部100と音声認識部200と音声認識誤り訂正部300と音声認識誤り訂正条件テーブル310と固有名詞区間同定部400と音声認識誤り訂正候補抽出部500と関連情報検索キー単語抽出条件テーブル510と関連情報検索部600と音声認識誤り訂正候補抽出条件テーブル610と出力部700から構成される。
【0010】
入力部100は音声ドキュメントを入力する。音声認識部200は入力された音声ドキュメントを音声認識し、その結果を信頼度とともに出力する。音声認識誤り訂正部300は音声認識結果を入力し、あらかじめ定められた音声認識誤り訂正条件にしたがって、音声認識誤りを訂正する。音声認識誤り訂正条件テーブル310は音声認識誤り訂正条件を予め格納している。固有名詞区間同定部400は入力された単語列から、そこに含まれる固有名詞区間の同定を行う。音声認識誤り訂正候補抽出部500は音声認識誤り訂正候補である固有名詞区間を関連情報より抽出する。関連情報検索キー単語抽出条件テーブル510は関連情報検索キー単語抽出条件を格納している。関連情報検索部600はあらかじめ定められた関連情報検索条件にしたがって外部データベースにおける関連文書を検索する。音声認識誤り訂正候補抽出条件テーブル610は、あらかじめ定められた音声認識誤り訂正候補抽出条件を格納している。
【0011】
なお、各処理部100、200、300、400、500、600、700はCPU等の制御手段で実行される。各テーブル310、510、610、は記憶装置に記憶される。また、各処理部からの出力を一時的に格納する記憶装置(不図示)も設けられている。
【0012】
以下、具体例を用いて、本実施形態の音声認識誤り訂正装置の動作を説明する。
【0013】
図2は、入力部100から入力され、音声認識部200により文字化された音声認識結果の一部を示している。ここで実際の発声は、「ITベンチャーの中谷製作所の田中祐市部長は、新プロジェクトのシリウス・ダッシュの概要を発表した。」であったとするが、音声認識の誤りのために、「ITベンチャーのなかったり製作所の田中唯一部長は、新プロジェクトのシリウス・ダッシュの概要を発表した。」のように文字化されたものとする。
【0014】
図2に例示する音声認識部200の出力は、XML(eXtensible Markup Language)言語によって構造化されている。すなわち、音声ドキュメントdocは、発声単位であるphraseの集合として表現される。各発話単位は、そこに含まれる単語wordの集合として表現される。各発話単位、および、そこに含まれる各単語に対しては、その開始時刻と終了時刻がそれぞれbegin、endという属性を用いて記録される。さらに、各単語に対しては、音声認識により文字化された単語表記がXML要素の内容部分に記録されるだけでなく、該単語の品詞情報、読み情報と音声認識の信頼度がそれぞれpos、reading、confという属性を用いて記録される。なお、図2に例示した音声認識結果は、本発明の説明に必要な概念を例示するためのものであり、XMLのタグ構造も含めて、このデータ形式に限る必要はない。また、音声認識部200としては、このような情報を出力可能な任意の音声認識装置を適用することが可能である。
【0015】
図3は、あらかじめ設定する音声認識誤り訂正条件を格納する音声認識誤り訂正条件テーブル310のエントリ例を示す。図3に示す例においては、音声認識の信頼度スコアと後述する固有名詞クラスに関する複合条件を記述している。条件の適用の仕方については後述する。なお、これらの条件は、音声認識部200に適用する音声認識装置に応じて経験的に設定する。
【0016】
音声認識誤り訂正部300は、図2に示すような音声認識部200からの出力を入力し、図3に示すような、あらかじめ定められた音声認識誤り訂正条件に基づいて、音声認識結果に含まれる音声認識誤りの訂正を行う。音声認識誤り訂正部300は、まず、入力された音声認識結果を固有名詞区間同定部400へと転送する。固有名詞区間同定部400は、図2に示すような入力された音声認識結果に対し、固有名詞が発声されたと判断される区間を同定し、図4に例示するようなデータ形式を持つ処理結果を音声認識誤り訂正部300へと返却する。
【0017】
図4は、図2の音声認識結果に対する固有名詞区間同定部400の処理結果を示す。図4のデータは、図2に例示する音声認識結果と同様のXML形式であるが、固有名詞区間同定の結果がwordタグ中のne−classという属性により付加されている。すなわち、ne−classという属性の属性値がnil以外のものは、固有名詞区間に含まれることを示しており、nil以外の属性値は、人名、地名といった固有名詞のクラスを示す。図4において、personという属性値は人名を、organizationという属性値は組織名を示すものとする。
【0018】
なお、本発明においては、固有名詞区間同定部400の具体的構成については規定しないが、図2に示すようなXML形式による構造化されたデータ、文字列としてのテキストデータを処理可能な入力インタフェースを備えており、固有名詞区間同定の処理は、例えば、特許文献1に示される方法・装置により実現されることを想定する。また、図4に例示した固有名詞区間同定結果は、本発明の説明に必要な概念を例示するためのものであり、XMLのタグ構造も含めて、このデータ形式に限る必要はない。
【0019】
図4に示すような固有名詞区間同定の結果が付加された音声認識結果は音声認識誤り訂正部300へ返却される。
【0020】
音声認識誤り訂正部300は、固有名詞区間同定の結果が付加された入力された音声認識結果と、音声認識誤り訂正条件テーブル310に格納された音声認識誤り訂正条件を照合し、音声認識の誤りが含まれている可能性がある区間(低い音声認識信頼度を持つ単語を含む)、かつ、それが訂正されうる区間(何らかの固有名詞クラスを有する固有名詞区間であると同定されている)を抽出する。ここで、抽出される区間は、「固有名詞クラスが音声認識誤り訂正条件に指定された条件を満たす単語」からなる最長の部分単語列であって、「該部分単語列中に含まれる単語に対する認識信頼度の中で最小のものが音声認識誤り訂正条件に指定されている条件を満たす」ものとする。
【0021】
図4の固有名詞区間同定の結果が付加された音声認識結果に対して、図3の音声認識誤り訂正条件を照合させると、音声認識誤りを訂正するべき区間として、次の二つを得る。ここで、/は単語境界を表し、カッコ内は該区間が持つ固有名詞クラスを示す。
・[訂正対象1] な/かったり/製作所(organization)
・[訂正対象2] 田中/唯一/部長(person)
音声認識誤り訂正部300は、次に、図4の固有名詞区間同定の結果が付加された音声認識結果を音声認識誤り訂正候補抽出部500へと送信する。
【0022】
音声認識誤り訂正候補抽出部500は、関連情報検索キー単語抽出条件テーブル510にあらかじめ格納された関連情報検索キー単語抽出条件にしたがって、図4に示すような固有名詞区間同定の結果が付加された音声認識結果から、関連情報検索部600によって外部データベースから関連文書検索を行うための検索条件となる単語集合を抽出する。次に、これらの単語集合を検索条件として、あらかじめ音声認識誤り訂正候補抽出条件テーブル610に格納された音声認識誤り訂正候補抽出条件にしたがって、関連情報検索部600により外部データベースから関連文書を検索し、音声認識誤り訂正候補の固有名詞区間を抽出する。ここで、検索結果の文書に含まれる固有名詞区間を同定するためには、固有名詞区間同定部400を呼び出す。抽出された音声認識誤り訂正候補は、音声認識誤り訂正候補抽出部500へと返却する。
【0023】
図5は、関連文書検索キー単語抽出条件テーブル510におけるエントリ例を示す。図5に示す例は、品詞と認識信頼度に関する三通りの条件が設定されている。図5の例に示すように、音声認識の信頼度を考慮することにより、正しく認識されている可能性の高い単語を抽出する。また、名詞や動詞などの品詞を有する単語を抽出することにより、関連情報検索部600によって、関連する文書を外部データベースから検索する際にキーワードとなりうる単語を抽出する。なお、これらの条件は、音声認識部200に適用する音声認識装置に応じて経験的に設定する。
【0024】
図5に示す関連情報検索キー単語抽出条件にしたがって、図4に示す固有名詞区間同定の結果が付加された音声認識結果から、関連情報検索部600によって外部データベースから関連文書検索を行うための検索条件となる単語集合を抽出すると、以下のような単語集合が得られる。
・[検索条件単語集合](ベンチャー、プロジェクト、シリウス、ダッシュ)
図6は、関連情報検索条件テーブル510におけるエントリ例を示す。図6に示すように関連情報検索条件は、3つのエントリからなる。第1のエントリは、関連情報検索部600が検索対象とすべき外部データベースの識別子である。図6の例では、インターネット上に存在するニュース検索サイトfoo−news.comが指定されている。第2のエントリは、音声認識誤り訂正候補を抽出する対象となる文書の最大数を指定する。通常のインターネットのサイト検索やデータベース検索においては、検索要求に対する適合度順に複数の文書が返却されるため、この上位から指定された数の文書を対象とする。図6の例では、上位の二件の文書のみを拡張単語の対象とすることが指定されている。第3のエントリは、実際に音声認識誤り訂正候補として抽出する固有名詞区間の最大数を指定する。図6の例では、最大5つの固有名詞区間を抽出することが指定されている。
【0025】
上記に抽出した単語集合を検索条件とし、図6に示す関連情報検索条件によって、関連情報検索部600による関連文書検索を行った結果、次に示すような内容を持つ関連文書1件が抽出されるものとする。
・[関連文書内容]
ベンチャー業界注目の新規プロジェクト「シリウス・ダッシュ」がいよいよスタートする。参加企業を代表する田中祐市部長(中谷製作所)、鈴木一朗取締役(株式会社ダッシュ)の両氏は、昨夜開いた記者会見の会場で、その計画の概要を公表した。
【0026】
この文書内容は、関連情報検索部600から音声認識誤り訂正候補抽出部500に返却される。
【0027】
音声認識誤り訂正候補抽出部500は、上記のような文書内容を固有名詞区間同定部400を起動することにより、文書中に含まれる固有名詞区間を得る。上記の例においては、以下の5つの固有名詞区間(/の後は読み、カッコ内は固有名詞クラス)が得られるものとする。
・[訂正候補a] シリウス/しりうす(organization)
・[訂正候補b] 田中祐市部長/たなか ゆういち ぶちょう(person)
・[訂正候補c] 中谷製作所/なかたに せいさくしょ(organization)
・[訂正候補d] 鈴木一朗取締役/すずき いちろう とりしまりやく(person)
・[訂正候補e] 株式会社シリウス/かぶしきがいしゃ しりうす(organization)
上記のごとく得られた音声認識誤り訂正候補は、音声認識誤り訂正候補抽出部500から音声認識誤り訂正部300へと送信される。音声認識誤り訂正部300は,[訂正対象1]、[訂正対象2]のような誤り訂正対象となる固有名詞区間と、[訂正候補a−e]のような誤り訂正候補群とのマッチングを行い、誤り訂正を試みる。
【0028】
各訂正対象に対する訂正候補群とのマッチング手順は、以下のように行う。
・[ステップ1] 該訂正対象と同じ固有名詞クラスを持つ訂正候補を訂正候補群から選択する
・[ステップ2] 該訂正対象と選択された訂正候補それぞれとのマッチ度を計算する
・[ステップ3] 該訂正対象に対して最大のマッチ度を与える訂正候補を選択する
上記の手順において、ステップ1とステップ3は自明であるので、ステップ2について説明する。
【0029】
訂正対象と訂正候補のマッチ度の計算としては、例えば、「読み」のひらがな文字列の類似度を用いることができる。本発明で対象とするのは音声認識の誤りであるので、訂正対象である音声認識の誤り箇所の読みは、本来発声されたであろう正解の読みと類似していることが想定されるため、この方法には妥当性がある。
【0030】
文字列間の類似度の計算方法としては様々なものが提案されているが、代表的な手法として「編集距離」を用いる方法があり、動的計画法を用いた効率のよい処理アルゴリズム(非特許文献1)も確立しているので、例えばこの手法を用いればよい。また、この方法においては、文字列を「編集」する際のコストを定義することができるが、あらかじめ音声認識誤りの傾向が分かっていれば、これをコストに反映させておくことにより、適切に類似度を計算することができる。
【0031】
上記の例においては、訂正対象1の「なかったり製作所」に対しては、固有名詞クラスがorganizationで一致していて、読みがこれと類似していると計算される「中谷製作所」が訂正候補として選択される。また、訂正対象2の「田中唯一部長」に対しては、同様にして「田中祐市部長」が訂正候補として選択される。
【0032】
このようにして求められた訂正候補は、図4に示すような音声認識結果へと反映される。
【0033】
図7は、図4に示す固有名詞区間同定結果を含む音声認識結果に対して、上記に示した誤り訂正候補により誤り訂正を行った後の音声認識結果の例を示す。なお、上記のごとく誤り訂正された部分については、必要に応じ、音声認識の信頼度を適当な定数(図7においては500としている)と置き換えればよい。また、誤りの訂正によって、上記の例のごとく単語の数が変わる場合があり、begin、endの属性によって記録されている発声時間の情報を調整する必要がある。この段階において、正確な発声時間を補うことは不可能であるが、訂正の対象となった区間の始まりと終了の時間が初期の音声認識結果の時間情報と矛盾しないような適当な時間をとるようにすればよい。例えば、図7における「中谷」「製作所」の例では、「中谷」の開始時間を初期の音声認識結果である「な」の開始時間とし、終了時間を初期の音声認識結果である「かったり」の終了時間としている。
【0034】
このような誤り訂正された音声認識結果は、音声認識誤り訂正部300から出力部700へと送信される。
【0035】
図8は特願2002-355284号に記載されている、固有名詞区間同定部400の処理を示す流れ図ある。音声データが入力されると(ステップ801)、大語彙連続音声認識を行い予め指定した個数の形態素の並びの候補を出力する(ステップ402)。始端と終端を含めて隣接する形態素の時刻が連続でない、つまりある形態素の終了時刻とつきの形態素の開始時刻が一致しない場合は、連続でない時間帯、つまりある形態素の終了時刻を開始時刻とし、次の形態素の開始時刻を終了時刻とする時刻情報を付加した読点等の形態素情報を挿入する(ステップ803、804)。また、信頼度スコアや形態素情報がある条件を満たす場合、形態素を元雄形態素情報を保持して別の形態素に置換変形する(ステップ805、806)。例えば、また、信頼度スコアが予め設定されている閾値より小さい場合に、表記、読み、品詞の先頭にそれぞれ「ε;」を付与する。複数候補の形態素の並びから、各形態素が有する時刻情報に基づいて単語グラフを作成する(ステップ807)。単語グラフは、各ノードが時刻情報を持つ形態素であり、ノード間のリンクはある時刻において形態素が隣接する形態素と接続可能であることを示す。単語グラフの時刻を先頭から進めていき、単語グラフの各時刻で終わる形態素候補が存在する限り(ステップ808)、後続の1形態素について想定されるすべての固有表現クラスが付与された場合を仮定して(ステップ809)、すでに学習された言語モデル、例えば固有表現付き単語bigramの出現頻度に基づいて各固有表現クラス付きの形態素が接続した場合の対数確率を計算する(ステップ810)。例えば、直前の固有表現クラスNC-1と直前の形態素w-1が与えられたときに現在の固有表現クラスNCが選択される確率P(NC|NC-1,w-1)と現在と直前の固有表現クラスが与えられたときに、現在の固有表現クラスの中で最初の単語wfirstが生成される確率P(wfirst|NC-1,w-1)と、直前の形態素と現在の固有表現クラスが与えられたときに2番目以降の形態素が生成される確率P(w|w-1,NC)を下記の計算式により固有表現付きの単語bigram頻度Cから計算する。文末まで以上のステップを繰り返す。
【0036】
【数1】
Figure 0004171323
このとき置換変形されている形態素は表記、読み、品詞とも「ε」を用いて対数確率を計算する。その時刻において、それまでの累積の対数確率が最大となる固有表現クラス付き形態素を選択し、経路を保持する(ステップ811)。ここで、「経路を保持する」のは、後の処理で文末から後ろ向きに局所的に最大の対数確率を持つ経路をたどれるようにしておくためである。単語グラフのノードの時刻を進めて(ステップ812)、同様の処理を行う。文末に達したら、今度は文末から最大の対数確率(最尤)を持った経路を選択することにより、選択された経路の各形態素について固有表現クラスを出力する(ステップ213)。置換変形されている形態素は、例えば表記、読み、品詞に含まれる「ε;」を削除するなどして元の形態素に復元して出力する。
【0037】
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0038】
【発明の効果】
以上説明したように、本発明によれば、通常の音声認識装置において認識精度低下の原因のひとつであるOOV問題(Out Of Vocabulary問題)のうち、例えば固有名詞に関わる認識誤りを訂正することにより、認識精度を向上させることが可能となる。また、人名、地名、製品名などの固有名詞を正しく認識することは、例えば、音声認識を適用した音声ドキュメント検索システムの検索精度を向上させることにつながる。
【図面の簡単な説明】
【図1】本発明の一実施形態の音声認識装置のブロック図である。
【図2】音声認識部200により文字化された音声認識結果の一例を示す図である。
【図3】音声認識誤り訂正条件を格納する音声認識誤り訂正条件テーブル310のエントリ例を示す図である。
【図4】図2の音声認識結果に対する固有名詞区間同定部400の処理結果を示す図である。
【図5】関連文書検索キー単語抽出条件テーブル510におけるエントリ例を示す図である。
【図6】音声認識誤り訂正候補抽出条件テーブル610におけるエントリ例を示す図である。
【図7】図4に示す固有名詞区間同定結果を含む音声認識結果に対して誤り訂正候補により誤り訂正を行った後の音声認識結果の例を示す図である。
【図8】固有名詞区間同定部400の処理例のフローチャートである。
【符号の説明】
100 入力部
200 音声認識部
300 音声認識誤り訂正部
310 音声認識誤り訂正条件テーブル
400 固有名詞区間同定部
500 音声認識誤り訂正候補抽出部
510 関連情報検索キー単語抽出条件テーブル
600 関連情報検索部
610 音声認識誤り訂正候補抽出条件テーブル
700 関連情報検索キー単語抽出条件テーブル
801〜812 ステップ

Claims (3)

  1. 音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識ステップと、
    前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加するステップと、
    前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出するステップと、
    品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出するステップと、
    該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出するステップと、
    それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行うステップと
    を有する認識誤り訂正方法。
  2. 音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識手段と、
    前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加する手段と、
    前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出する手段と、
    品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出する手段と、
    該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出する手段と、
    それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行う手段と
    を有する認識誤り訂正装置。
  3. 請求項1に記載の認識誤り訂正方法の各ステップをコンピュータに実行させるための認識誤り訂正プログラム。
JP2003051645A 2003-02-27 2003-02-27 認識誤り訂正方法、装置、およびプログラム Expired - Fee Related JP4171323B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003051645A JP4171323B2 (ja) 2003-02-27 2003-02-27 認識誤り訂正方法、装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003051645A JP4171323B2 (ja) 2003-02-27 2003-02-27 認識誤り訂正方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2004258531A JP2004258531A (ja) 2004-09-16
JP4171323B2 true JP4171323B2 (ja) 2008-10-22

Family

ID=33116741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003051645A Expired - Fee Related JP4171323B2 (ja) 2003-02-27 2003-02-27 認識誤り訂正方法、装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4171323B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865356B2 (en) * 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
JP2008109263A (ja) * 2006-10-24 2008-05-08 Nec Corp 携帯端末装置、アプリケーション起動方法、及びアプリケーション起動プログラム
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP5538099B2 (ja) * 2010-07-02 2014-07-02 三菱電機株式会社 音声入力インタフェース装置及び音声入力方法
CN105632499B (zh) 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
JP6763527B2 (ja) * 2018-08-24 2020-09-30 ソプラ株式会社 認識結果補正装置、認識結果補正方法、およびプログラム
CN110442876B (zh) * 2019-08-09 2023-09-05 深圳前海微众银行股份有限公司 文本挖掘方法、装置、终端及存储介质
KR102332565B1 (ko) * 2019-12-13 2021-11-29 주식회사 소리자바 음성 인식 힌트 적용 장치 및 방법
CN112509581B (zh) * 2020-11-20 2024-03-01 北京有竹居网络技术有限公司 语音识别后文本的纠错方法、装置、可读介质和电子设备
KR102517661B1 (ko) * 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Also Published As

Publication number Publication date
JP2004258531A (ja) 2004-09-16

Similar Documents

Publication Publication Date Title
US8086453B2 (en) Automatic detection and application of editing patterns in draft documents
US7813929B2 (en) Automatic editing using probabilistic word substitution models
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US20100332225A1 (en) Transcript alignment
WO2017127296A1 (en) Analyzing textual data
US20080270110A1 (en) Automatic speech recognition with textual content input
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP4171323B2 (ja) 認識誤り訂正方法、装置、およびプログラム
JPWO2011104754A1 (ja) 検索装置及び検索プログラム
JP7107229B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
KR100704508B1 (ko) N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP4089861B2 (ja) 音声認識文章入力装置
EP3005152A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
Palmer et al. Information extraction from broadcast news speech data
JP4008344B2 (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
WO2008150003A1 (ja) キーワード抽出モデル学習システム、方法およびプログラム
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
JP7107228B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP2000259176A (ja) 音声認識装置およびその記録媒体
JPWO2012131822A1 (ja) 音声認識結果整形装置、音声認識結果整形方法及びプログラム
JP4175093B2 (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080730

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080808

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130815

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees