JP2000056793A - Speech recognition device - Google Patents

Speech recognition device

Info

Publication number
JP2000056793A
JP2000056793A JP10227938A JP22793898A JP2000056793A JP 2000056793 A JP2000056793 A JP 2000056793A JP 10227938 A JP10227938 A JP 10227938A JP 22793898 A JP22793898 A JP 22793898A JP 2000056793 A JP2000056793 A JP 2000056793A
Authority
JP
Japan
Prior art keywords
path
recognition
search
recognition result
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10227938A
Other languages
Japanese (ja)
Inventor
Takeshi Mizunashi
豪 水梨
Kazuhiko Sumiya
和彦 住谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP10227938A priority Critical patent/JP2000056793A/en
Publication of JP2000056793A publication Critical patent/JP2000056793A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To perform high-speed speech recognition by reducing a search space, and also to make it possible to recognize only necessary part with precision by detecting erroneous recognition. SOLUTION: A sound analysis part 11 converts an input speech into a symbol system. A phoneme collation/graph making part 12 collates an input symbol with a HMM, and generates a mora graph of a candidate of a phoneme row. A sound evaluation score is also described in the mora graph. A search part 14 refers to a small-scale dictionary and a small-scale language model and searches for a mora graph to decide a mora row of high likelihood. An erroneous recognition judging part 16 pays attention to acoustic likelihood and decides a range of possibility of the erroneous recognition. A re-searching part 17 searches again for a route judged to contain the erroneous recognition with a high possibility by using a large-scale dictionary and a large-scale language model.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力音声を認識処
理して、正しい文字列を効率よく出力するための音声認
識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition device for recognizing input speech and outputting a correct character string efficiently.

【0002】[0002]

【従来の技術】音韻認識の結果得られる音韻列の候補集
合をグラフで保持し、そのグラフを言語的な知識を用い
て探索して音声認識結果を出力する音声認識装置の従来
の構成方法としては、特開平8−314496と特開平
9−281989とが例としてあげられる。そこでは、
音響的尤度を示す値を持った音韻列候補の集合であるグ
ラフ(以降、モーラグラフと呼ぶ)を探索する際に、あ
る語彙規模の認識用辞書を1種類と、その語彙範囲の単
語トライ・グラム(tri−gram)などの言語モデ
ルを1種類用意し、モーラグラフの先頭から終端まで、
音韻列と認識用辞書とを照合しながら可能な単語列の仮
説を生成し、それらの仮説の言語的尤度を言語モデルを
用いて計算し、音響的尤度と言語的尤度を統合した尤度
に基づいて、最尤単語列やそれに準ずる尤度を持つ単語
列を決定していた。
2. Description of the Related Art As a conventional configuration method of a speech recognition apparatus, a candidate set of phoneme strings obtained as a result of phoneme recognition is held in a graph, the graph is searched using linguistic knowledge, and a speech recognition result is output. For example, JP-A-8-314496 and JP-A-9-281989 can be mentioned as examples. Where,
When searching for a graph (hereinafter referred to as a mora graph), which is a set of phonemic string candidates having a value indicating acoustic likelihood, one type of recognition dictionary of a certain vocabulary scale and a word trial of the vocabulary range are searched. -One type of language model such as tri-gram is prepared, and from the beginning to the end of the mora graph,
We generated hypotheses of possible word strings while collating the phonemic strings with the recognition dictionary, calculated the linguistic likelihood of those hypotheses using a language model, and integrated the acoustic and linguistic likelihoods. Based on the likelihood, a word string having a maximum likelihood word string or a likelihood similar thereto is determined.

【0003】[0003]

【発明が解決しようとする課題】上記従来法を用いて大
語彙の連続発声を処理する局面を考えると、まず、大語
彙辞書を用いるために単語検索の計算コストが大きく、
また、尤度を計算すべき単語列仮説の数も莫大になるこ
とによって、言語モデルを用いた言語的尤度の計算コス
トも非常に大きくなるという問題があった。つまり、従
来法では、大語彙を対象としたときに、その語彙範囲を
カバーするための唯一の大規模な辞書と言語モデルとを
用いて処理を行うため、常に膨大な言語空間を探索する
ことになり、そのために、モーラグラフを探索する際の
計算コストが大きく、結果的に認識速度が低下するとい
う問題があった。
Considering the aspect of processing large vocabulary continuous utterances using the above-described conventional method, first, the use of a large vocabulary dictionary requires a large calculation cost for word search.
In addition, the number of word string hypotheses for which likelihood is to be calculated is also enormous, so that there is a problem that the cost of calculating linguistic likelihood using a language model also becomes extremely large. In other words, in the conventional method, when a large vocabulary is targeted, processing is performed using only a large-scale dictionary and a language model to cover the vocabulary range. Therefore, there is a problem that the calculation cost for searching the mora graph is large, and the recognition speed is reduced as a result.

【0004】本発明は、こうした課題に対してなされた
もので、辞書に対する単語検索の回数や、生成する単語
列仮説の数を抑えることにより、計算コストを減少さ
せ、高速で応答する音声認識装置を実現することを目的
とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problems. A speech recognition apparatus which reduces the computational cost and responds at high speed by suppressing the number of word searches for a dictionary and the number of word string hypotheses to be generated. The purpose is to realize.

【0005】[0005]

【課題を解決するための手段】上記の問題を解決するた
めに、本発明では、音韻認識の結果得られる音韻列の候
補集合をグラフで保持し、そのグラフを言語的な知識を
用いて探索して音声認識結果を出力する音声認識装置に
おいて、小規模辞書と小規模言語モデルとを用いてグラ
フを探索して得られる認識結果を求める。そして、その
認識結果に対応したグラフ上の経路において、経路上の
あるノードに注目したとき、その認識結果の経路よりも
音響的に尤度が高い他の経路がその注目しているノード
に流入している場合、そこを合流ノードとし、合流ノー
ドからそれらの尤度が高い経路を溯ったときにそれらが
認識結果の経路と合流する分岐ノードを求め、それらの
分岐ノードから合流ノードまでの認識結果の経路上には
誤認識が含まれている可能性が高いと判定する。そのよ
うにして、認識結果の経路上で誤認識の可能性が高い区
間があると判定された場合、その区間に対する、認識結
果経路よりも音響的に尤度が高い経路を認識結果の経路
に加えて再探索範囲を決定する。そうして決定された再
探索範囲を、初回の探索時よりも大規模な辞書と大規模
な言語モデルとを用いて再探索する。
In order to solve the above-mentioned problems, the present invention holds a set of phoneme sequence candidates obtained as a result of phoneme recognition in a graph, and searches the graph using linguistic knowledge. In the speech recognition device that outputs the speech recognition result, a recognition result obtained by searching a graph using a small-scale dictionary and a small-scale language model is obtained. When attention is paid to a certain node on the path on the graph corresponding to the recognition result, another path acoustically more likely than the path of the recognition result flows into the node of interest. If there is a branch node, it is used as a merging node, and when the merging node traces a route with a high likelihood, a branch node that merges with the recognition result path is obtained, and recognition from those branch nodes to the merging node is performed. It is determined that there is a high possibility that erroneous recognition is included on the resulting route. In this way, if it is determined that there is a section on the path of the recognition result where the possibility of erroneous recognition is high, a path acoustically more likely than the recognition result path for that section is set as the path of the recognition result. In addition, the re-search range is determined. The re-search range determined in this way is re-searched using a dictionary and a language model that are larger than those at the time of the first search.

【0006】ここで、認識結果の経路上で誤認識の可能
性が高いと判定された区間に対して、音響的に尤度が高
い経路を認識結果の経路に加えて再探索範囲を決定する
とき、音響的に尤度が高い複数の経路のうち、上位所定
数の経路を選択することにより、認識精度に大きな影響
を与えることなく探索の空間を削減することができる。
Here, for a section where it is determined that the possibility of erroneous recognition is high on the path of the recognition result, a path having a high acoustic likelihood is added to the path of the recognition result to determine a re-search range. At this time, by selecting a predetermined number of high-order paths from among a plurality of paths having a high acoustic likelihood, the search space can be reduced without significantly affecting the recognition accuracy.

【0007】また、認識結果の経路上で誤認識の可能性
が高いと判定された区間に対して、音響的に尤度が高い
経路を認識結果の経路に加えて再探索範囲を決定すると
き、音響的に尤度が高い複数の経路のうち、モーラの連
鎖確率が所定の範囲内の経路を選択することにより、同
様に、認識精度に大きな影響を与えることなく探索の空
間を削減することができる。
In addition, for a section where it is determined that the possibility of erroneous recognition is high on the path of the recognition result, a path having a high acoustic likelihood is added to the path of the recognition result to determine a re-search range. Similarly, by selecting a path whose mora chain probability is within a predetermined range from a plurality of paths that have a high acoustic likelihood, the search space can be similarly reduced without significantly affecting recognition accuracy. Can be.

【0008】以上の構成を持つ音声認識装置では、音韻
認識を行った結果である音韻列の候補集合をグラフとし
て保持しているので、初回の探索の結果検出された、誤
認識の可能性が高い区間の音韻列候補を再探索する際に
は、計算コストが大きい音響的評価は実行せずに、計算
コストが小さい言語的な再評価のみを実行すればよく、
効率的な再探索を行うことができる。
In the speech recognition apparatus having the above configuration, a set of phoneme string candidates obtained as a result of phoneme recognition is held as a graph. Therefore, the possibility of erroneous recognition detected as a result of the first search is reduced. When re-searching the phoneme string candidates in a high section, only the linguistic re-evaluation with a small computation cost need be performed without performing the acoustic evaluation with a large computation cost.
An efficient re-search can be performed.

【0009】また、初回の探索においては比較的小規模
な辞書と言語モデルを用いるので処理が軽く、また、大
規模な辞書と言語モデルを用いた再探索の際には、初回
の探索の結果検出された、誤認識の可能性が高い区間の
みを探索するので、大規模な辞書と言語モデルを用いる
にも関わらず計算コストを非常に小さくすることがで
き、全体として高速に認識処理を実行することができ
る。
In the first search, a relatively small dictionary and a language model are used, so that the processing is light. In a re-search using a large dictionary and a language model, the result of the first search is used. Since only the detected sections that are likely to be misrecognized are searched, the computation cost can be extremely reduced despite the use of a large-scale dictionary and language model. can do.

【0010】さらに、再探索の際には、通常用いる認識
用辞書・言語モデルよりも大規模な認識用辞書・言語モ
デルを用いて認識処理を行うので、小規模辞書に含まれ
ない単語に起因していた初回探索結果中の誤認識も高速
かつ適切に訂正することができる。
Further, in the re-search, the recognition process is performed using a recognition dictionary / language model which is larger than a normally used recognition dictionary / language model. Erroneous recognition in the initial search result that has been performed can be corrected quickly and appropriately.

【0011】[0011]

【発明の実施の態様】以下、図面を参照して実施例を詳
細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0012】図1は、本発明の実施例の音声認識装置の
構成を示しており、この図において、音響分析部11
は、マイクなどから入力された音声を、一定の周期でフ
レームとして切り出し、フレームごとに特徴パラメータ
を計算する。音韻照合・グラフ作成部12は、フレーム
の特徴パラメータ系列を入力シンボルとして、HMM
(隠れマルコフモデル)を使った音韻の照合を行い、音
韻列の候補を有向グラフ化する。HMMは音響モデル記
憶部13に記憶されている。有向グラフ化によって生成
されたものを以下モーラグラフとよぶ。
FIG. 1 shows the configuration of a speech recognition apparatus according to an embodiment of the present invention.
Extracts a voice input from a microphone or the like as a frame at a fixed cycle, and calculates a characteristic parameter for each frame. The phoneme matching / graph creation unit 12 uses the HMM
The phoneme is collated using the (Hidden Markov Model), and the phoneme sequence candidates are converted into a directed graph. The HMM is stored in the acoustic model storage unit 13. What is generated by the directed graph is hereinafter referred to as a mora graph.

【0013】入力音声「面白い」から作成されるモーラ
グラフの例を図2に示す。グラフの各ノードはそれぞれ
ある時間に対応しており、次につながるアークのリスト
を保持している。ふたつのノードをつなぐアークには、
両端のノードの情報、認識結果であるモーラ、音韻認識
における音響的評価スコアが記述されている。モーラグ
ラフの詳細については特開平8−202384号公報を
参照されたい。
FIG. 2 shows an example of a mora graph created from the input speech "funny". Each node in the graph corresponds to a certain time, and holds a list of arcs connected to the next. An arc connecting two nodes has
Information of nodes at both ends, mora as a recognition result, and an acoustic evaluation score in phoneme recognition are described. For details of the mora graph, refer to JP-A-8-202384.

【0014】図1に戻る。探索部14は、小規模辞書・
小規模言語モデル記憶部15に記憶されている小規模辞
書・小規模言語モデルを参照して、モーラグラフを探索
して尤度の高いモーラ列を決定する。探索部14の詳細
については図3を参照して後述する。
Returning to FIG. The search unit 14 includes a small dictionary
The mora graph is searched with reference to the small dictionary / small language model stored in the small language model storage unit 15 to determine a mora sequence having a high likelihood. Details of the search unit 14 will be described later with reference to FIG.

【0015】誤認識判定部16は、音響的な尤度に着目
して誤認識の可能性のある範囲を決定するものである。
誤認識判定部16の詳細については図5を参照して後述
する。再探索部17は、探索部14と同様の構成からな
り、誤認識判定部16で誤認識が含まれている可能性が
高いと判定され、再探索の対象となった経路を、大規模
辞書・大規模言語モデル記憶部18に記憶されている大
規模辞書・大規模言語モデルを用いて再探索する。
The erroneous recognition judging section 16 determines a range in which erroneous recognition is possible by paying attention to acoustic likelihood.
The details of the erroneous recognition determination unit 16 will be described later with reference to FIG. The re-search unit 17 has a configuration similar to that of the search unit 14, and determines, by the erroneous recognition determination unit 16, that the possibility that erroneous recognition is included is high, Search again using the large-scale dictionary and large-scale language model stored in the large-scale language model storage unit 18.

【0016】認識結果表示部19では、再探索部17で
再探索が行われなかった場合は、探索部14により特定
された最も尤度が高い結果を音声認識結果としてディス
プレイ(図示しない)に出力し、また、再探索が行われ
た場合は、再探索部17により特定された最も尤度が高
い結果を、音声認識の結果としてディスプレイに表示す
る。
In the recognition result display unit 19, if the re-search is not performed by the re-search unit 17, the result with the highest likelihood specified by the search unit 14 is output to a display (not shown) as a speech recognition result. If the re-search is performed, the result with the highest likelihood specified by the re-search unit 17 is displayed on the display as the result of the speech recognition.

【0017】つぎに探索部14の詳細について説明す
る。探索部14は、図3に示すように、辞書検索部14
1、スコア計算部142、探索制御部143からなる。
Next, the details of the search section 14 will be described. The search unit 14 includes, as shown in FIG.
1, a score calculation unit 142 and a search control unit 143.

【0018】探索制御部143は、探索部全体の処理の
流れを制御する。モーラグラフ上のモーラ列に対して辞
書検索部141を用いて認識用辞書(小規模辞書記憶部
144に記憶されている辞書)の登録語彙項目を検索
し、次にそれらの語彙項目に対してスコア計算部142
を使ってスコア(語彙項目の連鎖の尤度)を計算させる
ということを繰り返して処理を進める。そして、正常に
処理を終了した認識結果を、モーラグラフ上で通った経
路の情報(ノード番号の連鎖)とともに、探索制御部1
43の認識結果記憶部145に尤度順に蓄える。なお、
探索制御部143は、探索中に認識候補スタック147
を用い、認識結果を認識結果記憶部145にストアす
る。
The search control unit 143 controls the flow of processing of the entire search unit. The registered vocabulary items of the recognition dictionary (the dictionary stored in the small dictionary storage unit 144) are searched for the mora sequence on the mora graph using the dictionary search unit 141, and then the vocabulary items are searched for. Score calculation unit 142
Is used to calculate a score (likelihood of a chain of vocabulary items). Then, the search control unit 1 determines the recognition result that has been processed normally together with the information of the route (chain of node numbers) passed on the mora graph.
43 in the recognition result storage unit 145 in order of likelihood. In addition,
The search control unit 143 sets the recognition candidate stack 147 during the search.
Is used to store the recognition result in the recognition result storage unit 145.

【0019】辞書検索部141は、モーラグラフ上のモ
ーラの並びと認識用辞書(小規模辞書記憶部144)を
照合し、登録語彙項目を検索する。認識用辞書内の各語
彙項目は、図4のように、読みのモーラ列と、かな漢字
表記、品詞の情報を持っている。検索対象の認識用辞書
としては、新聞などの大量のテキストに頻出する語彙を
頻度順に5,000項目集めた小規模辞書(小規模辞書
記憶部144)を使用する。
The dictionary search unit 141 checks the arrangement of mora on the mora graph against the recognition dictionary (small dictionary storage unit 144) to search for registered vocabulary items. As shown in FIG. 4, each vocabulary item in the recognition dictionary has a reading mora sequence, kana-kanji notation, and part-of-speech information. As a dictionary for recognition of a search target, a small dictionary (small dictionary storage unit 144) in which vocabulary words frequently appearing in a large amount of text such as newspapers are collected in 5,000 items in order of frequency is used.

【0020】スコア評価部142は、途中まで解析が進
んでいるモーラグラフ上のパスと、辞書検索部141に
よって検索された、それに接続する語彙項目の情報を渡
され、語彙項目を延長したときのスコアを、システムで
設定している知識源を参照して計算して返す。知識源と
しては、モーラレベル知識源、語彙項目レベル知識源な
どが考えられるが、本実施例では、モーラレベル知識源
として音響的評価スコアを、語彙項目レベル知識源とし
て単語トライ・グラムによるスコアを用いる。前者はモ
ーラグラフ作成の際に、グラフの各アークに対して付与
されている。後者のスコアは、あらかじめ新聞などの大
量のテキストから単語の三つ組みの出現頻度の統計をと
ることによって単語の発生確率を計算しておき、認識処
理時にその確率をもとに算出される。スコア評価部で
は、5,000語を対象とした小規模モデルの単語トラ
イ・グラムが使用される。この小規模言語モデルは小規
模言語モデル記憶部146に記憶されている。
The score evaluator 142 receives the path on the mora graph that has been analyzed halfway and the information of the vocabulary item connected to it, which has been searched by the dictionary search unit 141. The score is calculated and returned with reference to the knowledge source set in the system. As the knowledge source, a mora level knowledge source, a vocabulary item level knowledge source, and the like can be considered. In this embodiment, an acoustic evaluation score is used as the mora level knowledge source, and a score based on the word trigram is used as the vocabulary item level knowledge source. Used. The former is given to each arc of the graph when the mora graph is created. The score of the latter is calculated based on the probability of occurrence of a word by previously calculating the frequency of occurrence of a triple of words from a large amount of text such as newspapers, and calculating the probability at the time of recognition processing. The score evaluation unit uses a small-scale word trigram for 5,000 words. This small language model is stored in the small language model storage unit 146.

【0021】つぎに誤認識判定部16の詳細な構成につ
いて説明する。誤認識判定部16は、図5に示すよう
に、経路検査部161と再探索グラフ生成部162とか
らなる。経路検査部161は、探索部14の認識結果記
憶部145(図1、図3)に蓄えられている認識結果と
それに対応するグラフ上の認識結果経路の情報を取り込
み、その認識結果経路上のあるノードにおいて、そのノ
ードに入っている他の経路の中に、認識結果経路よりも
音響的に尤度の高い他の経路が存在するかどうかを検査
する。より尤度の高い経路が存在する場合、それらの経
路を溯って認識結果経路と合流するノードを求め、その
ノードから現在のノードまでの経路には誤認識が含まれ
ている可能性が高いと判定する。経路検査部161は高
尤度経路を高尤度経路記憶部163にストアする。再探
索グラフ生成部162は、高尤度経路記憶部163を参
照し高尤度経路を再探索の対象として、再探索すべきモ
ーラグラフを生成する。そのノードに入っている他の経
路の中に、認識結果経路よりも音響的に尤度の高い経路
が存在しなかった場合は、誤認識の可能性が認められな
かったと判定し、現在の認識結果を認識結果表示部19
(図1)に渡す。
Next, the detailed configuration of the erroneous recognition determination section 16 will be described. The erroneous recognition determination unit 16 includes a route inspection unit 161 and a re-search graph generation unit 162, as shown in FIG. The path inspection unit 161 fetches the recognition result stored in the recognition result storage unit 145 (FIGS. 1 and 3) of the search unit 14 and the information of the recognition result path on the graph corresponding to the recognition result. At a certain node, it is checked whether or not there is another route acoustically more likely than the recognition result route among other routes included in the node. If there are routes with higher likelihoods, search for those nodes that merge with the recognition result route by tracing those routes, and determine that there is a high possibility that the path from that node to the current node contains misrecognition. judge. The route inspection unit 161 stores the high likelihood route in the high likelihood route storage unit 163. The re-search graph generation unit 162 refers to the high-likelihood path storage unit 163 and generates a mora graph to be re-searched with the high-likelihood path as a target of the re-search. If there is no path that is acoustically more likely than the recognition result path among the other paths in the node, it is determined that there is no possibility of erroneous recognition, and the current recognition Recognition result display unit 19
(FIG. 1).

【0022】つぎに再探索部17について説明する。再
探索部17は、探索部14と同様の構成からなり、誤認
識判定部16で誤認識が含まれている可能性が高いと判
定され、再探索の対象となった経路を、探索部14で用
いた辞書と単語トライ・グラムよりも大規模な辞書と単
語トライ・グラムを用いて再探索する。本実施例では、
その大規模辞書は、50,000項目を集めたものとす
る。また、単語トライ・グラムも50,000語を対象
とした大規模モデルである。再探索の結果は、再探索結
果記憶部(図示しない。探索部14の認識結果記憶部1
45に対応する)に尤度順に蓄えられる。
Next, the re-search section 17 will be described. The re-search unit 17 has a configuration similar to that of the search unit 14. The re-search unit 14 determines that the erroneous recognition determination unit 16 determines that the possibility that erroneous recognition is included is high, Search again using a dictionary and word trigram larger than the dictionary and word trigram used in. In this embodiment,
The large dictionary is assumed to have 50,000 entries. The word trigram is also a large-scale model for 50,000 words. The result of the re-search is a re-search result storage unit (not shown; the recognition result storage unit 1 of the search unit 14).
45 (corresponding to 45).

【0023】認識結果表示部19では、再探索部17で
再探索が行われなかった場合は、探索部17中の認識結
果記憶部145に記憶された認識結果の中で最も尤度が
高い結果を、また、再探索が行われた場合は、再探索部
17中の再探索結果記憶部(図示しない)に記憶された
認識結果の中で最も尤度が高い結果を、音声認識の結果
としてディスプレイに表示する。
In the recognition result display section 19, when the re-search is not performed by the re-search section 17, the result having the highest likelihood among the recognition results stored in the recognition result storage section 145 in the search section 17 is displayed. If a re-search is performed, the result with the highest likelihood among the recognition results stored in the re-search result storage unit (not shown) in the re-search unit 17 is used as the speech recognition result. Display on the display.

【0024】次に、このように構成された音声認識装置
の動作について説明する。
Next, the operation of the speech recognition apparatus thus configured will be described.

【0025】音響分析部11では、マイクなどから入力
された音声を、サンプリング周波数16kHzでAD変
換した後、16msecずつ8msec周期でフレーム
として切り出し、高域強調・ハミング(Hammin
g)窓掛けを施して線形予測分析を行う。フレームごと
に計算される特徴パラメータはLPCケプストラム・デ
ルタ−クプストラム・デルタ−パワー(LPCceps
trum・delta−cepstrum・delta
−power)からなる33次元ベクトルであるが、こ
れをサイズ512の符号帳を用いてベクトル量子化して
特徴パラメータとする。
The sound analysis unit 11 converts the sound input from a microphone or the like into a frame at a sampling frequency of 16 kHz, and then cuts out the frame at intervals of 8 msec in 16 msec, and emphasizes high frequency and hamming (Hammin).
g) Perform linear prediction analysis with windowing. The feature parameter calculated for each frame is LPC cepstrum delta-cepstrum delta-power (LPC ceps
trum-delta-cepstrum-delta
−power), which is vector-quantized using a codebook of size 512 to obtain a feature parameter.

【0026】音韻照合・グラフ作成部12では、フレー
ムの特徴パラメータ系列を入力シンボルとして、HMM
を使った音韻の照合を行い、音韻列の候補をモーラグラ
フ化する。
The phoneme matching / graph creating unit 12 uses the HMM
Is performed, and the candidates of the phoneme sequence are converted into a mora graph.

【0027】モーラグラフを受け取った探索部での処理
の流れを以下に示す。ここで行われる基本的な処理内容
は、単語単位の最良優先探索である。すなわち、最も良
いスコアの候補を取り出し、単語一つ分探索を継続し
て、探索を継続する必要のある候補をスタックに戻す作
業の繰り返しとなる。探索を継続する候補を選ぶ時に利
用するスコアは、これまでに探索の済んだ部分の評価ス
コア(音響的評価スコアと単語トライ・グラムによるス
コアの線形和)、評価が済んでいない部分のヒューリス
ティックスコア(本実施例では、モーラグラフのアーク
上に記録されている音響的評価スコアとする)を合わせ
たトータルスコアである。なお、ここで使用される辞書
と単語トライ・グラムは、前述のように、小規模の辞書
と単語トライ・グラムである。
The flow of processing in the search unit that has received the mora graph will be described below. The basic processing content performed here is a best priority search in word units. In other words, the operation of taking out the candidate with the best score, continuing the search for one word, and returning the candidate that needs to continue the search to the stack is repeated. The score used when selecting candidates to continue the search is the evaluation score of the part that has been searched so far (linear sum of the acoustic evaluation score and the score by the word trigram), and the heuristic score of the part that has not been evaluated (In this embodiment, the total score is the total score combined with the acoustic evaluation score recorded on the arc of the mora graph). Note that the dictionary and the word trigram used here are a small-scale dictionary and a word trigram as described above.

【0028】つぎに探索処理について説明する。探索処
理全体の流れは、図6に示すフローチャートで表すこと
ができる。ここでは概略のみ述べるが、詳細については
特開平9−281989号公報を参照されたい。まず探
索開始時に、初期状態の候補として文頭記号を1個用意
する(S10)。そして、探索が終了するまで以降の処
理を繰り返す。
Next, the search processing will be described. The flow of the entire search process can be represented by a flowchart shown in FIG. Although only an outline is described here, refer to Japanese Patent Application Laid-Open No. 9-281989 for details. First, at the start of the search, one initial symbol is prepared as an initial state candidate (S10). Then, the subsequent processing is repeated until the search is completed.

【0029】[ステップS11〜S14]:評価スコア
とヒューリスティックスコアを合わせたトータルスコア
が最も良い探索中の候補を一つ取り出す(S12)。候
補が一つもない場合は探索を終了する(S11、S1
3、S14)。 [ステップS15〜S17]:取り出した候補が解とし
て認められる場合は、その候補と、その候補がたどった
モーラグラフ上の経路の情報を認識結果として認識結果
記憶部23へ出力する(S15、S16)。なお、解と
して認められる場合とは、モーラグラフ全体の探索の際
は、候補の探索がモーラグラフ上の終了ノードまで達し
ている場合を意味する。また、訂正指示を受けた後の部
分モーラグラフ探索の際には、指示された訂正範囲の終
了ノードまで探索が達した場合、解として認めることと
する。解として認められない場合は、候補の末尾に対応
するグラフのノードから辞書検索を行い、単語の照合を
行う(S17)。
[Steps S11 to S14]: One candidate under search having the best total score including the evaluation score and the heuristic score is extracted (S12). If there are no candidates, the search is terminated (S11, S1
3, S14). [Steps S15 to S17]: If the extracted candidate is recognized as a solution, the candidate and information on the path on the mora graph followed by the candidate are output to the recognition result storage unit 23 as a recognition result (S15, S16). ). Note that the case where the search is recognized as a solution means a case where the search for the candidate has reached the end node on the mora graph when searching the entire mora graph. Further, in the partial mora graph search after receiving the correction instruction, if the search reaches the end node of the specified correction range, it is recognized as a solution. If it is not recognized as a solution, a dictionary search is performed from the node of the graph corresponding to the end of the candidate, and word matching is performed (S17).

【0030】照合に成功した単語がない場合は、その候
補は解になる可能性がないので消去する。照合に成功し
た場合は、照合に成功した単語の数だけ新たな別の候補
が生成される。 [ステップS18]:照合に成功した単語の数だけ候補
を複写して、それぞれに照合に成功した単語を付け加え
る。
If there is no successfully matched word, the candidate is deleted since there is no possibility of becoming a solution. If the matching is successful, another new candidate is generated for the number of words that have been successfully matched. [Step S18]: The candidates are copied by the number of words that have been successfully collated, and the words that have been successfully collated are added to each.

【0031】各候補の単語照合が終了したモーラグラフ
上のノードを次の照合開始ノードとして記録する。
The node on the mora graph for which the word matching of each candidate has been completed is recorded as the next matching start node.

【0032】新たに発生した候補の評価スコアを計算
し、ヒューリスティックスコアをモーラグラフのノード
から読み出して、トータルスコアを算出する。 [ステップS19]:次に最良の候補を取り出しやすい
ように、別の探索中の候補と合わせて、候補を並べ替え
て保存する。この時に、決められた数(スタックサイ
ズ)より候補の数が多くなれば、トータルスコアの悪い
候補を削除して、スタックサイズと同じ数の候補だけ保
存する。
The evaluation score of the newly generated candidate is calculated, the heuristic score is read from the node of the mora graph, and the total score is calculated. [Step S19]: In order to easily retrieve the next best candidate, the candidate is sorted and stored together with another candidate being searched. At this time, if the number of candidates is larger than the determined number (stack size), candidates having a bad total score are deleted, and only the same number of candidates as the stack size are stored.

【0033】以上の操作中、探索中の候補がなくなるか
(S11)、照合に成功した解が決められた数に達する
か(S20)、のいずれかが起こった時点で、探索部1
4の処理は終了し、認識結果結果記憶部145にストア
されている解が認識結果表示部18に渡される(S1
3、S14)。
During the above operation, when either of the candidates being searched for disappears (S11) or the number of solutions that have been successfully collated reaches a predetermined number (S20), the search unit 1
4 is completed, and the solution stored in the recognition result result storage unit 145 is passed to the recognition result display unit 18 (S1).
3, S14).

【0034】以上で、探索部14の動作説明を終える。The operation of the search unit 14 has been described above.

【0035】つぎに、誤認識判定部16の動作について
説明する。誤認識判定部16中の経路検査部161は、
探索部14の認識結果記憶部145に蓄えられている、
認識結果とそれに対応する認識結果経路の情報(ノード
番号の連鎖)を取り込み、認識結果経路上のあるノード
Aにおいて、そのノードに入っている他の経路の中に、
認識結果経路よりも音響的に尤度の高い経路P1,…,
nが存在するかどうかを検査する。検査の際には、グ
ラフ上の各アークに記述されているモーラの音響的スコ
アを経路上で加算していくことによって音響的尤度を算
出し、尤度順に経路P1,…,Pnを抽出していく。それ
らの経路P1,…,Pnをモーラグラフの先頭(文頭)に
向かって溯り、認識結果経路と合流するノードN1
…,Nnを求める。この手順を各ノードに関して行い、
高尤度経路が見つかるたびごとにそれらの経路のノード
とアークの情報を高尤度経路記憶部163に格納してい
く。経路検査部161での処理内容を図7にフローチャ
ートで示す。
Next, the operation of the erroneous recognition determination section 16 will be described. The path inspection unit 161 in the erroneous recognition determination unit 16
The recognition result storage unit 145 of the search unit 14 stores
The information of the recognition result and the corresponding recognition result path (chain of the node number) are fetched, and a certain node A on the recognition result path includes,
Paths P 1 ,..., With a higher acoustic likelihood than the recognition result path
Check if P n is present. During inspection, it calculates an acoustic likelihood by going adding the acoustic score Mora described in each arc in the graph on the route, the route P 1 in the sequence of likelihood, ..., P n Is extracted. Their paths P 1, ..., node N 1 which dates back toward the P n at the beginning (beginning of a sentence) Mora graph, merges with the recognition result path,
.., N n are obtained. Do this for each node,
Each time a high likelihood path is found, information on the nodes and arcs of those paths is stored in the high likelihood path storage unit 163. FIG. 7 is a flowchart showing the processing performed by the route inspection unit 161.

【0036】図7のフローについて説明する。 [ステップS20]:認識結果経路の情報を入力して経
路検査部161の処理を開始する。 [ステップS21]:すべての認識結果経路について処
理が終了したかどうかを判定する。答えが肯定的であれ
ば経路検査部161の処理を終了する。答えが否定的で
あればステップS22へ進む。 [ステップS22]:残っている経路を1つ取出しステ
ップS23へ進む。 [ステップS23]:取出した経路中に未処理のノード
があるかどうかを判別し、残っていればステップS24
へ進む、残っていなければステップS21に戻る。 [ステップS24]:取出した経路からノードを1つ取
り込み、ステップS25に進む。 [ステップS25]:取り込んだノードに、当該経路よ
り音響的な尤度が高い別の経路が流入しているかを判別
し、尤度が高い別の経路が存在していなければステップ
S23に戻り、存在していれば当該取り込んだノードを
合流ノードとしてステップS26に進む。 [ステップS26]:音響的な尤度が高い別の経路につ
いてステップS27およびステップS28を実行してス
テップS23戻る。 [ステップS27]:音響的な尤度が高い別の経路が認
識結果経路と交わるノード(分岐ノード)まで溯る。 [ステップS28]:合流ノードから分岐ノードまでの
経路を高尤度経路記憶部163に記憶する。
The flow of FIG. 7 will be described. [Step S20]: The information of the recognition result route is input, and the process of the route inspection unit 161 is started. [Step S21]: It is determined whether the processing has been completed for all recognition result paths. If the answer is affirmative, the processing of the path inspection unit 161 ends. If the answer is negative, the process proceeds to step S22. [Step S22]: Take out one remaining route and proceed to step S23. [Step S23]: It is determined whether or not there is an unprocessed node in the extracted route.
The process returns to step S21 if there is no remaining. [Step S24]: One node is fetched from the extracted route, and the process proceeds to step S25. [Step S25]: It is determined whether another route having a higher acoustic likelihood is flowing into the fetched node. If another route with a higher likelihood does not exist, the process returns to step S23. If it exists, the fetched node is set as the joining node and the process proceeds to step S26. [Step S26]: Steps S27 and S28 are executed for another route having a high acoustic likelihood, and the process returns to step S23. [Step S27]: Another route having a high acoustic likelihood traces back to a node (branch node) that intersects the recognition result route. [Step S28]: The route from the junction node to the branch node is stored in the high likelihood route storage unit 163.

【0037】以上で、経路検査部161の動作説明を終
える。
The description of the operation of the route inspection unit 161 has been completed.

【0038】なお、本実施例では、認識結果経路よりも
音響的に尤度が高い経路をすべて抽出する方法をとって
いるが、音響的に尤度が高い経路を上位所定数だけ抽出
する方法や、経路上の音韻列の言語的尤度をモーラNグ
ラム(N−gram)などの言語モデルをもとに算出し
て、音響的に尤度が高い経路のうち、その言語的尤度が
所定の範囲内の経路のみを抽出する方法なども考えられ
る。この再探索グラフの生成は、初回の探索の結果の最
尤認識候補に対して行うだけでも十分であるが、任意の
個数の認識結果候補に対して行うことができる。つま
り、初回の認識結果における上位n個の認識結果経路の
それぞれに対して、上記の操作を行うことができ、その
ときのnを変更にすることにより、再探索の範囲を任意
に変えることができる。
Although the present embodiment employs a method of extracting all the paths that have a higher acoustic likelihood than the recognition result path, a method of extracting a predetermined number of upper paths that have a higher acoustic likelihood is used. Alternatively, the linguistic likelihood of a phoneme sequence on a route is calculated based on a language model such as a mora N-gram (N-gram), and the linguistic likelihood of a route having a high acoustic likelihood is calculated. A method of extracting only a route within a predetermined range may be considered. Although it is sufficient to generate this re-search graph only for the maximum likelihood recognition candidates as a result of the initial search, it can be generated for any number of recognition result candidates. That is, the above operation can be performed for each of the top n recognition result paths in the first recognition result, and by changing n at that time, the range of the re-search can be arbitrarily changed. it can.

【0039】図8は、ある認識結果経路上のノードAに
おいて、認識結果経路よりも音響的に尤度の高い経路が
3本発見された場合の高尤度経路P1,P2,P3と分岐
ノードN1,N2,N3をモーラグラフ上で示したもので
ある。この例では、入力音声「何を有権者に問うか」の
「有権者」の部分が、初回の認識では、「言うケース
(yu−u−ke−e−su)」と解釈されている(太
い直線)。これは、初回の認識で用いた小規模辞書に、
「有権者」という単語が登録されていないため、辞書に
登録されている単語の連鎖「言う−ケース」が、音響的
には尤度は比較的低いにもかかわらず採用されてしまっ
たことが原因である。
FIG. 8 shows high likelihood paths P 1 , P 2 , and P 3 when three paths having a higher acoustic likelihood than the recognition result path are found at node A on a certain recognition result path. And branch nodes N 1 , N 2 and N 3 on a mora graph. In this example, the “vote” part of the input voice “what to ask voters” is interpreted as “say case (yu-u-ke-e-su)” in the first recognition (thick straight line). ). This is the small dictionary used for the first recognition,
Because the word "vote" has not been registered, the chain "word-case" of words registered in the dictionary has been adopted although the likelihood is acoustically relatively low. It is.

【0040】経路検査部161は、認識結果経路よりも
音響的尤度が高い他の経路が存在することから、認識結
果経路上の分岐ノードNi(i=1,2,…)から合流
ノードAまでの経路に誤認識が含まれている可能性が高
いと判断し、認識結果経路に、高尤度経路記憶部163
に蓄えられた高尤度経路P1,…,Pnを加えた経路を、
再探索すべき経路として指定し、それらのノードとアー
クの情報を再探索グラフ生成部162へ渡す。
The path inspection unit 161 determines from the branch node Ni (i = 1, 2,...) On the recognition result path that the node A has the other node having higher acoustic likelihood than the recognition result path. Is determined to be highly likely to include erroneous recognition, and the high-likelihood path storage unit 163 is stored in the recognition result path.
The path obtained by adding the high likelihood paths P 1 ,..., P n stored in
The node is designated as a path to be re-searched, and information on those nodes and arcs is passed to the re-search graph generation unit 162.

【0041】認識結果経路上で、認識結果経路よりも音
響的に尤度の高い経路が流入しているノードが存在しな
い場合(誤認識の可能性がある部分経路が発見されなか
った場合)は、探索部14の認識結果記憶部145から
取り込んだ認識結果をそのまま認識結果表示部19に渡
す。
When there is no node on the recognition result path into which a path having a higher acoustic likelihood than the recognition result path flows (when a partial path that may cause erroneous recognition is not found) The recognition result fetched from the recognition result storage unit 145 of the search unit 14 is passed to the recognition result display unit 19 as it is.

【0042】再探索グラフ生成部162は、再探索すべ
き経路のノードとアークの情報をもとに、再探索すべき
経路を再探索モーラグラフとして作成し、再探索部17
へ渡す。なお、本実施例では、以上のように、ノードと
アークの情報をもとに再探索用のモーラグラフを再構成
する方法をとっているが、モーラグラフを再構成しない
で、音響的に高尤度な経路のノードとアークの情報をも
とに、もとのモーラグラフ上に再探索すべき経路として
マーキングする方法も考えられる。
The re-search graph generation unit 162 creates a route to be re-searched as a re-search mora graph based on the information of the node and the arc of the route to be re-searched, and
Pass to In this embodiment, as described above, the method of reconstructing the re-search moragraph based on the node and arc information is employed. A method is also conceivable in which, based on information on nodes and arcs of a likelihood path, marking is performed on the original mora graph as a path to be searched again.

【0043】再探索部17では、誤認識判定部16で再
探索の対象となった経路を、探索部で用いた辞書と単語
トライ・グラムよりも大規模な辞書と単語トライ・グラ
ムを用いて再探索する。再探索の手順は、探索部での処
理と同一で、再探索の対象となった経路を文頭から文末
まで探索することによって行う。図8の例では、「…y
u−u−ke−e−su…」(初回の認識結果経路)、
「…yu−u−ke−N−sya…」(P1)、「…y
u−u−ke−e−sa…」(P2)、「…ku−u−
te−sa…」(P3)が、大規模な辞書とモデルを用
いて再探索される。この場合大規模辞書に「有権者」と
いう単語が登録されているので、初回の認識結果経路よ
りも音響的に尤度が高い「…yu−u−ke−N−sy
a…」が解として採用されることになる。
The re-search unit 17 uses the dictionary and the word trigram larger than the dictionary and the word tri-gram used by the search unit to determine the route that has been searched again by the erroneous recognition determination unit 16. Search again. The procedure of the re-search is the same as the processing in the search unit, and is performed by searching the route targeted for the re-search from the beginning to the end of the sentence. In the example of FIG.
u-ke-e-su ... "(first recognition result route),
"... yu-u-ke-N -sya ... " (P 1), "... y
u-u-ke-e- sa ... "(P 2)," ... ku-u-
te-sa ... "it is (P 3), is re-searched using a large dictionary and model. In this case, since the word "vote" is registered in the large-scale dictionary, "... yu-u-ke-N-sy" has a higher acoustic likelihood than the first recognition result path.
a ... "is adopted as the solution.

【0044】以上の手順で再探索された結果は、再探索
部17の再探索結果記憶部(図示しない)に尤度順に蓄
えられる。なお、本実施例では、簡単のために、再探索
部をひとつの独立したモジュールとして構成している
が、探索部において、「小規模の辞書と言語モデル」と
「大規模の辞書と言語モデル」を、「初回の探索」か
「再探索」かによって使い分けて探索処理を行うことも
もちろん可能である。
The results re-searched in the above procedure are stored in a re-search result storage unit (not shown) of the re-search unit 17 in the order of likelihood. In the present embodiment, for simplicity, the re-search unit is configured as one independent module, but the search unit includes “small dictionary and language model” and “large dictionary and language model”. It is of course possible to perform the search process by properly using "" for the "first search" or "re-search".

【0045】認識結果表示部19では、再探索部17で
再探索が行われなかった場合は探索部14中の認識結果
記憶部145に記憶された認識結果の中で最も尤度が高
い結果を、また、再探索が行われた場合は、再探索部1
7中の再探索結果記憶部(図示しない)に記憶された認
識結果の中で最も尤度が高い結果を、音声認識の結果と
してディスプレイに表示する。
In the recognition result display section 19, if the re-search is not performed by the re-search section 17, the result having the highest likelihood among the recognition results stored in the recognition result storage section 145 of the search section 14 is displayed. When the re-search is performed, the re-search unit 1
7, the result having the highest likelihood among the recognition results stored in the re-search result storage unit (not shown) is displayed on the display as the result of speech recognition.

【0046】また、本実施例では、出現頻度の高い順に
5,000語の語彙項目を集めた第1の小規模辞書とそ
の次に出現頻度の高い順に50,000語の語彙項目を
集めた第2の大規模辞書を個別に用意する例で示した
が、構造的に、第1の辞書は、第2の辞書に含めること
ができる。例えば、登録される語彙項目の音韻をノード
とするトライ構造で辞書を構成するとき、全体を構成す
る第2の辞書の部分集合として第1の辞書を持つことが
できる。そして、ノードを結ぶアークに、そのアークを
たどった先に第1の辞書の語彙項目があるかどうかの情
報を関連付けておくことにより、部分集合である第1の
辞書の語彙項目の範囲で探索することができる。
Further, in this embodiment, the first small dictionary in which 5,000 vocabulary items are collected in descending order of appearance frequency, and the 50,000 vocabulary items in order of next highest appearance frequency are collected. Although the example in which the second large-scale dictionary is individually prepared has been described, the first dictionary can be structurally included in the second dictionary. For example, when a dictionary is configured in a trie structure in which phonemes of vocabulary items to be registered are nodes, the first dictionary can be a subset of the second dictionary that forms the whole. Then, by associating, with the arc connecting the nodes, information as to whether or not there is a lexical item of the first dictionary ahead of the arc, the search is performed within the range of the lexical item of the first dictionary which is a subset. can do.

【0047】さらに、本実施例では、単語トライ・グラ
ムに関しても、5,000語を対象とした小規模モデル
と、50,000語を対象にした大規模モデルの2種類
の単語トライ・グラムを用いる例で示したが、これも構
造的に、小規模モデルを、大規模モデルに含めることが
できる。
Further, in this embodiment, two types of word trigrams, a small model targeting 5,000 words and a large model targeting 50,000 words, are used for the word trigrams. Although shown in the example used, also structurally, a small model can be included in a large model.

【0048】なお、本実施例では、通常の認識の際に用
いる語彙項目の数を5,000、訂正処理の際に使用す
る語彙項目の数を50,000としたが、この数は、実
行するシステム環境、対象とするタスクの特性に合わせ
て任意に変えることができる。要は、通常の認識時に
は、比較的小規模の語彙を用いて高速に認識処理を実行
し、再探索の際には、非常に小さく絞り込まれたモーラ
グラフの探索空間を、大規模の辞書を用いて探索するこ
とを特徴としており、効果が得られる範囲で、語彙サイ
ズの組み合わせを変えることができる。
In the present embodiment, the number of vocabulary items used in normal recognition is 5,000, and the number of vocabulary items used in correction processing is 50,000. It can be arbitrarily changed according to the system environment to be performed and the characteristics of the target task. In short, at the time of normal recognition, the recognition process is performed at high speed using a relatively small vocabulary. It is characterized by using a search, and the combination of vocabulary sizes can be changed as long as the effect is obtained.

【0049】[0049]

【発明の効果】本発明を適用したシステムでは、通常の
認識時には、出現頻度の高い語彙項目からなる比較的小
さな辞書を用いているために、探索空間が小さく認識処
理を高速で行うことができる。また、誤認識として検出
された箇所に対する再探索処理は、初回の認識結果をも
とに非常に小さく絞り込まれた探索空間のみを対象とし
た処理であるため、大規模な辞書とモデルを用いても処
理が軽く、高速に再探索した認識結果を得ることができ
る。また、再探索処理の時に、初回の認識時よりも語彙
範囲を広げて探索するため、辞書に登録されていない単
語に起因する誤認識ということが起こり難いことも効果
としてあげることができる。
According to the system to which the present invention is applied, at the time of normal recognition, since a relatively small dictionary composed of vocabulary items having a high frequency of appearance is used, the search space is small and recognition processing can be performed at high speed. . In addition, the re-search processing for the part detected as incorrect recognition is processing only for a search space that is very small and narrow based on the first recognition result, so using a large-scale dictionary and model The processing is also light, and a re-searched recognition result can be obtained at high speed. Further, at the time of the re-search process, since the search is performed with a wider vocabulary range than at the time of the first recognition, it is possible to raise the effect that erroneous recognition caused by a word not registered in the dictionary is unlikely to occur.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の実施例における音声認識装置の構成
を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a speech recognition device according to an embodiment of the present invention.

【図2】 実施例における、音声入力「面白い」に対す
るモーラグラフの例を示す図である。
FIG. 2 is a diagram illustrating an example of a mora graph for a speech input “funny” in the embodiment.

【図3】 実施例における探索部14の構成例を示すブ
ロック図である。
FIG. 3 is a block diagram illustrating a configuration example of a search unit 14 according to the embodiment.

【図4】 実施例における認識用辞書の記述形式を説明
する図である。
FIG. 4 is a diagram illustrating a description format of a recognition dictionary according to the embodiment.

【図5】 実施例における誤認識判定部16の構成例を
示すブロック図である。
FIG. 5 is a block diagram illustrating a configuration example of an erroneous recognition determination unit 16 according to the embodiment.

【図6】 実施例における探索処理を示すフローチャー
トである。
FIG. 6 is a flowchart illustrating a search process according to the embodiment.

【図7】 実施例における経路検出を示すフローチャー
トである。
FIG. 7 is a flowchart illustrating route detection in the embodiment.

【図8】 実施例における、誤認識の可能性を含んだ認
識結果経路と、より音響的な尤度が高い経路とを説明す
る図である。
FIG. 8 is a diagram illustrating a recognition result path including a possibility of erroneous recognition and a path having higher acoustic likelihood in the embodiment.

【符号の説明】[Explanation of symbols]

11 音響分析部 12 音韻照合・グラフ作成部 13 音響モデル記憶部 14 探索部 15 小規模辞書・小規模言語モデル記憶部 16 誤認識判定部 17 再探索部 18 大規模辞書・大規模言語モデル記憶部 19 認識結果表示部 Reference Signs List 11 acoustic analysis unit 12 phonemic collation / graph creation unit 13 acoustic model storage unit 14 search unit 15 small dictionary / small language model storage unit 16 misrecognition determination unit 17 re-search unit 18 large dictionary / large language model storage unit 19 Recognition result display

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声に対して、音韻認識の結
果得られる音韻列の候補集合をグラフで保持し、そのグ
ラフを言語的な知識を用いて探索して音声認識結果を出
力する音声認識装置において、 第1の辞書と第1の言語モデルとを用いてグラフを探索
して認識結果を決定する探索手段と、 上記探索手段が決定した認識結果に対応するグラフ上の
経路に関して、上記経路上のあるノードに注目したと
き、上記認識結果の経路よりも音響的に尤度が高い、上
記グラフ上の他の経路が上記注目しているノードに流入
している場合、上記ノードを合流ノードとし、音響的な
尤度が高い上記他の経路を上記グラフ上で上記合流ノー
ドから溯ったときに上記他の経路が上記認識結果の経路
と合流する分岐ノードを求め、上記分岐ノードから上記
合流ノードまでの上記認識結果の経路上には誤認識が含
まれている可能性が高いと判定する誤認識判定手段と、 上記誤認識判定手段によって上記認識結果の経路上で誤
認識の可能性が高い区間があると判定された場合、上記
区間に対する、上記認識結果経路よりも音響的に尤度が
高い上記他の経路を認識結果の経路に加えて再探索範囲
を決定する再探索範囲決定手段と、 上記再探索範囲決定手段によって決定された再探索範囲
を、上記第1の辞書より大規模な第2の辞書と上記第1
の言語モデルより大規模な第2の言語モデルとを用いて
再探索し、最終的な認識結果を決定する再探索手段とを
備えたことを特徴とする音声認識装置。
1. A speech that holds a candidate set of phoneme strings obtained as a result of phoneme recognition for an input speech in a graph, searches the graph using linguistic knowledge, and outputs a speech recognition result. In the recognizing device, a search means for searching a graph using a first dictionary and a first language model to determine a recognition result; and a path on the graph corresponding to the recognition result determined by the search means, When focusing on a certain node on the route, if the other route on the graph is acoustically more likely than the route of the recognition result and flows into the node of interest, the node is merged. A node, when the other path having a high acoustic likelihood is traced back from the merging node on the graph, a branch node at which the other path merges with the path of the recognition result is obtained. Junction Error recognition determining means for determining that it is highly likely that erroneous recognition is included on the path of the recognition result up to the path, and the possibility of erroneous recognition on the path of the recognition result by the error recognition determining means. When it is determined that there is a high section, a re-search range determining means for determining a re-search range by adding the other path acoustically more likely than the above-mentioned recognition result path to the above-described section to the path of the recognition result. The re-search range determined by the re-search range determining means is stored in a second dictionary larger than the first dictionary and the first
Re-searching means for performing a re-search using a second language model larger than the language model of (a) and determining a final recognition result.
【請求項2】 上記再探索範囲決定手段において、上記
認識結果経路よりも音響的に尤度が高い上記他の経路を
上記認識結果の経路に加えて再探索範囲を決定するとき
に、上記認識結果経路よりも音響的に尤度が高い上記他
の経路のなかで音響的尤度が高い順に上位所定数の経路
を選択し、上記上位所定数の経路を上記認識結果の経路
に加えて再探索範囲を決定することを特徴とする請求項
1記載の音声認識装置。
2. The method according to claim 1, wherein the re-search range determining means adds the other path acoustically more likely than the recognition result path to the path of the recognition result to determine a re-search range. The upper predetermined number of paths are selected in descending order of the acoustic likelihood from the other paths having higher acoustic likelihood than the result path, and the upper predetermined number of paths are added to the path of the recognition result and re-selected. The speech recognition device according to claim 1, wherein a search range is determined.
【請求項3】 上記再探索範囲決定手段において、上記
認識結果経路よりも音響的に尤度が高い上記他の経路を
上記認識結果の経路に加えて再探索範囲を決定するとき
に、上記認識結果経路よりも音響的に尤度が高い上記他
の経路のなかでモーラの連鎖確率が所定の範囲内の経路
を選択し、上記所定の範囲内の経路を上記認識結果の経
路に加えて再探索範囲を決定することを特徴とする請求
項1記載の音声認識装置。
3. The method according to claim 1, wherein the re-search range determining means adds the other path having a higher acoustic likelihood than the recognition result path to the path of the recognition result to determine the re-search range. A path having a mora chain probability within a predetermined range is selected from among the other paths having a higher acoustic likelihood than the result path, and the path within the predetermined range is added to the path of the recognition result and re-processed. The speech recognition device according to claim 1, wherein a search range is determined.
JP10227938A 1998-08-12 1998-08-12 Speech recognition device Pending JP2000056793A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10227938A JP2000056793A (en) 1998-08-12 1998-08-12 Speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10227938A JP2000056793A (en) 1998-08-12 1998-08-12 Speech recognition device

Publications (1)

Publication Number Publication Date
JP2000056793A true JP2000056793A (en) 2000-02-25

Family

ID=16868646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10227938A Pending JP2000056793A (en) 1998-08-12 1998-08-12 Speech recognition device

Country Status (1)

Country Link
JP (1) JP2000056793A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249684A (en) * 2000-03-02 2001-09-14 Sony Corp Device and method for recognizing speech, and recording medium
US7785894B2 (en) 2003-05-16 2010-08-31 Upm Raflatac Oy Package for enclosing food
JP2012032538A (en) * 2010-07-29 2012-02-16 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice recognition device and voice recognition program
WO2012125146A1 (en) * 2011-03-14 2012-09-20 Galick Albert Method for uncovering hidden markov models

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249684A (en) * 2000-03-02 2001-09-14 Sony Corp Device and method for recognizing speech, and recording medium
US7785894B2 (en) 2003-05-16 2010-08-31 Upm Raflatac Oy Package for enclosing food
JP2012032538A (en) * 2010-07-29 2012-02-16 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, voice recognition device and voice recognition program
WO2012125146A1 (en) * 2011-03-14 2012-09-20 Galick Albert Method for uncovering hidden markov models

Similar Documents

Publication Publication Date Title
US9911413B1 (en) Neural latent variable model for spoken language understanding
JP5040909B2 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
US10388274B1 (en) Confidence checking for speech processing and query answering
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US10170107B1 (en) Extendable label recognition of linguistic input
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
JP4684409B2 (en) Speech recognition method and speech recognition apparatus
KR20130126570A (en) Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof
Wang et al. RNN-based prosodic modeling for mandarin speech and its application to speech-to-text conversion
JP4661239B2 (en) Voice dialogue apparatus and voice dialogue method
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
JP2004133003A (en) Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus
JP2000056795A (en) Speech recognition device
Seide et al. Towards an automated directory information system.
JP6599914B2 (en) Speech recognition apparatus, speech recognition method and program
JP2000056793A (en) Speech recognition device
JPH08248980A (en) Voice recognition device
JP4528540B2 (en) Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program
JP2011007862A (en) Voice recognition device, voice recognition program and voice recognition method
Švec et al. Semantic entity detection from multiple ASR hypotheses within the WFST framework
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
JP2003162524A (en) Language processor
Pranjol et al. Bengali speech recognition: An overview
JP3494338B2 (en) Voice recognition method