JP5046902B2 - Voice search device - Google Patents

Voice search device Download PDF

Info

Publication number
JP5046902B2
JP5046902B2 JP2007321885A JP2007321885A JP5046902B2 JP 5046902 B2 JP5046902 B2 JP 5046902B2 JP 2007321885 A JP2007321885 A JP 2007321885A JP 2007321885 A JP2007321885 A JP 2007321885A JP 5046902 B2 JP5046902 B2 JP 5046902B2
Authority
JP
Japan
Prior art keywords
dictionary
notation
search
recognition
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007321885A
Other languages
Japanese (ja)
Other versions
JP2009145548A (en
Inventor
利行 花沢
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007321885A priority Critical patent/JP5046902B2/en
Publication of JP2009145548A publication Critical patent/JP2009145548A/en
Application granted granted Critical
Publication of JP5046902B2 publication Critical patent/JP5046902B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は音声認識を用いて文書等の各種テキストを検索する装置に関するものである。   The present invention relates to an apparatus for searching various texts such as documents using voice recognition.

音声によって文書等の各種テキストを検索する技術は、ディクテーション型音声認識を用いて音声をテキストに変換し、テキスト上で全文検索を行う方法が一般的である。しかし、この方法では、演算量とメモリ量の制約から認識可能な語彙数が数千〜数万に限られる。
対策として特開2005-257954号公報においては、検索対象とする文書中で出現の頻度の高い単語は単語単位で、それ以外は音節単位で認識して認識結果をテキスト化し、テキスト上で照合・検索処理を行う。そして、認識結果には誤りが含まれていることが考えられるので、検索対象とするテキストデータも認識誤りを考慮したバターンを事前に作成しておくという技術を開示されている。
As a technique for searching various texts such as documents by voice, a method of converting a voice into text by using dictation type voice recognition and performing a full text search on the text is generally used. However, in this method, the number of vocabularies that can be recognized is limited to several thousand to several tens of thousands due to the restrictions on the calculation amount and the memory amount.
As a countermeasure, in Japanese Patent Laid-Open No. 2005-257954, words that appear frequently in a document to be searched are recognized in units of words, and other words are recognized in units of syllables, and the recognition results are converted into texts. Perform search processing. Since it is conceivable that the recognition result includes an error, a technique has been disclosed in which a pattern in consideration of the recognition error is created in advance for the text data to be searched.

特開2005-257954号公報JP 2005-257954 A

前記従来技術では、認識結果には言語尤度が含まれているので、音節数が少なく、かつ言語尤度が低い検索対象は、認識結果の第1位として認識されにくいという課題があった。
またあらゆる認識誤りを考慮して検索対象とするパターンを事前に作成しておくことは困難であるという課題があった。
さらに、前記の事前に作成するバターンの数を多くすると演算量と記憶容量が増大するという課題があった。
In the prior art, since the language likelihood is included in the recognition result, there is a problem that a search target with a small number of syllables and a low language likelihood is not easily recognized as the first recognition result.
In addition, there is a problem that it is difficult to previously create a pattern to be searched in consideration of all recognition errors.
Furthermore, when the number of patterns created in advance is increased, there is a problem that the amount of calculation and the storage capacity increase.

この発明は上記課題を解決するためになされたもので、言語尤度が低い検索対象に対する検索率向上を目的とする。
また認識誤りを考慮したバターンを事前に作成することなく、認識誤りやユーザの言い間違えに対処することを目的とする。
また、少ない演算量と記憶容量で検索可能とすることを目的とする。
The present invention has been made to solve the above-described problems, and aims to improve a search rate for a search object having a low language likelihood.
It is another object of the present invention to deal with recognition errors and user mistakes without creating a pattern that takes into account recognition errors in advance.
It is another object of the present invention to enable retrieval with a small amount of calculation and storage capacity.

この発明に係る音声検索装置は、
入力音声から、音響モデルと言語モデルを参照して音響尤度と言語尤度を算出し、この両者の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された表記を出力する音声認識手段と、
検索対象の表記とID番号を持つ検索対象辞書と、
検索対象正式呼称ではないが、頻繁に使用される通称や、頻繁に使用される部分表記を含む表記を持つキーワード辞書と、
前記検索対象辞書中から全ての表記を抽出して第2キーワード辞書として出力する第2キーワード作成手段と、
前記検索対象辞書中から利用者における検索対象の名称記憶が曖昧になる表記の音節数を考慮して予め定められた表記の音節数が所定の閾値以上の表記を抽出して曖昧検索辞書を作成する曖昧検索辞書作成手段と、
前記音声認識手段の音声認識結果が複数である場合、認識スコアが上位N個の表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記N個の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記の音節数が前記曖昧検索辞書を作成時の所定の閾値以上の場合には前記曖昧検索辞書を参照して検索を行い、前記表記の音節数が前記所定の閾値未満の場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備える。
The voice search device according to the present invention is:
From the input speech, the acoustic likelihood and the language likelihood are calculated by referring to the acoustic model and the language model, a recognition score is calculated as a weighted sum of the two, and the recognition result is set as the acoustic likelihood based on the recognition score. a speech recognition means for outputting a notation language likelihood and is assigned,
Search target dictionary with search target notation and ID number,
A keyword dictionary that is not the official name of the search target but has a notation that includes frequently used common names and frequently used partial notations,
Second keyword creating means for extracting all notations from the search target dictionary and outputting them as a second keyword dictionary;
Create an ambiguous search dictionary by extracting from the search target dictionary notations with a predetermined number of syllables greater than or equal to a predetermined threshold in consideration of the number of syllables of the notation in which the name storage of the search target for the user is ambiguous Fuzzy search dictionary creation means to
When there are a plurality of speech recognition results of the speech recognition means, the notation with the top N recognition scores is input, and the recognition order of the N speech recognition results is re-referenced with reference to the keyword dictionary and the second keyword dictionary. N best candidate reconstruction means for configuring and outputting;
The output of the N best candidate reconstruction means is used as an input, and when the number of syllables of the first candidate in the input is equal to or greater than a predetermined threshold at the time of creating the fuzzy search dictionary, the fuzzy search dictionary is referred to. And a search means for searching from the output of the N best candidate reconstructing means when the number of syllables is less than the predetermined threshold.

の発明に係る音声検索装置によれば、
音声認識手段が、入力音声から音響尤度と言語尤度の加重和として認識スコアを算出し、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力し 検索対象の表記とID番号を要素として持つ検索対象辞書から、第2キーワード作成手段が所定条件に合致する表記を抽出して第2キーワード辞書とし、また曖昧検索辞書作成手段が異なる所定条件に合致する要素を抽出して曖昧検索辞書を作成し、
検索対象を所定キーワード表記の要素として持つキーワード辞書と、
前記音声認識手段の音声認識結果である表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記がさらに異なる所定条件を満たす場合には前記曖昧検索辞書を参照して検索を行い、前記表記がさらに異なる所定条件を満たさない場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備えるので、
表記が異なる所定条件を満たす場合には、検索手段における検索処理は前記曖昧検索辞書を参照して行うので、さらに認識率が向上する
According to this invention in engagement Ruoto voice search device,
The speech recognition means calculates a recognition score from the input speech as a weighted sum of acoustic likelihood and language likelihood, and outputs one or more notations to which acoustic likelihood and language likelihood are assigned based on this recognition score From the search target dictionary having the search target notation and the ID number as elements, the second keyword creating means extracts the notation that matches the predetermined condition as the second keyword dictionary, and the ambiguous search dictionary creating means is set to different predetermined conditions. Create a fuzzy search dictionary by extracting matching elements,
A keyword dictionary having the search target as an element of a predetermined keyword notation,
Enter the speech recognition result der Ru notation of the speech recognition means, the keyword N best candidate reconstruction for reconstructing and outputting a recognition ranking before with reference to the dictionary and the second keyword dictionary Kion voice recognition result Means,
When the output of the N best candidate reconstructing means is an input, and the notation of the first candidate of this input satisfies further different predetermined conditions, a search is performed with reference to the fuzzy search dictionary, and the notation is further different If it does not satisfy the predetermined condition, since it comprises a search means for performing a search from the output of the N best candidate reconstruction means,
When predetermined conditions differing in notation are satisfied, the search process in the search means is performed with reference to the fuzzy search dictionary, so that the recognition rate is further improved .

実施の形態1.
本実施の形態では日本の全国の施設や観光スポットの名称(以後は簡単のため施設と観光スポットを総称して施設という)を、音声認識によって検索する場合を例にとり説明する。
幾つかの単語からなる施設や観光スポットの名称をテキスト文書とみなし、この施設や観光スポットの名称を音声認識によって検索する場合を例にとり説明する。なお施設名称検索を通常の単語音声認識ではなく、テキスト検索の枠組みで実施する利点は、ユーザが検索対象の施設名を正確に知らなくても一部分がマッチすれば検索可能になることである。
Embodiment 1 FIG.
In the present embodiment, the names of facilities and sightseeing spots in Japan (hereinafter referred to as facilities and sightseeing spots are collectively referred to as “facility” for the sake of simplicity) will be described as an example.
The name of the facility or sightseeing spot consisting of several words is regarded as a text document, and the case of searching for the name of the facility or sightseeing spot by voice recognition will be described as an example. Note that the facility name search is not based on normal word speech recognition but has an advantage in that it can be searched if a part matches even if the user does not know the name of the facility to be searched accurately.

図1はこの発明による音声検索装置の実施の形態1の構成を示すブロック図である。同図において、1は音声の入力端子、2は入力音声、3は音声認識手段、4はNベスト候補再構成手段、5は検索手段、6はキーワード辞書メモリ、7は検索対象辞書メモリ、8は第2キーワード作成手段、9は第2キーワード辞書メモリ、10は曖昧検索辞書作成手段、11は曖昧検索辞書メモリ、12は言語モデルメモリ、13は音響モデルメモリ、14は検索結果である。   FIG. 1 is a block diagram showing a configuration of a first embodiment of a voice search apparatus according to the present invention. In the figure, 1 is a voice input terminal, 2 is an input voice, 3 is a voice recognition means, 4 is an N best candidate reconstruction means, 5 is a search means, 6 is a keyword dictionary memory, 7 is a search target dictionary memory, 8 Is a second keyword creation means, 9 is a second keyword dictionary memory, 10 is an ambiguous search dictionary creation means, 11 is an ambiguous search dictionary memory, 12 is a language model memory, 13 is an acoustic model memory, and 14 is a search result.

言語モデルメモリ12には例えば日本全国の施設の表記の音節列を学習データとして、例えば音節を単位としたトライグラムを学習して格納しておく。なお音節を単位とすることの利点は、学習データとする施設数に関わらず、音節の種類数は数百個以下におさまるので、認識時の演算量増加を抑えた言語モデルを作成できることである。
音響モデルメモリ13には音声の特徴をモデル化した音響モデルが格納されている。本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。
The language model memory 12 learns and stores, for example, trigrams in units of syllables, for example, using syllable strings of facilities in Japan as learning data. The advantage of using syllables as a unit is that, regardless of the number of facilities used as learning data, the number of types of syllables is less than a few hundred, so a language model can be created that suppresses the increase in the amount of computation during recognition. .
The acoustic model memory 13 stores an acoustic model obtained by modeling a voice feature. In the present embodiment, the acoustic model is, for example, an HMM (Hidden Markov Model).

検索対象辞書メモリ7には、検索対象とする施設名称のID番号と表記から構成される検索対象辞書が格納されている。検索対象辞書メモリ7の1例を図2に示す。
またキーワード辞書メモリ6には、正式な施設名称ではないが、施設のよく言われる通称や、チェーン店のブランド名などの表記が格納されている。キーワード辞書メモリ6の内容を図3に示す。
音声認識・検索を行う前に、第2キーワード作成手段8によって、第2キーワード辞書を作成し第2キーワード辞書メモリ9に格納しておく。また曖昧検索辞書作成手段10によって曖昧検索辞書を作成し、曖昧検索辞書メモリ11に格納しておく。
The search target dictionary memory 7 stores a search target dictionary composed of an ID number and a notation of a facility name to be searched. An example of the search target dictionary memory 7 is shown in FIG.
The keyword dictionary memory 6 stores not only the official facility name but also a common name of the facility and a brand name of the chain store. The contents of the keyword dictionary memory 6 are shown in FIG.
Before performing voice recognition / search, a second keyword dictionary is created by the second keyword creating means 8 and stored in the second keyword dictionary memory 9. Further, the fuzzy search dictionary creating means 10 creates a fuzzy search dictionary and stores it in the fuzzy search dictionary memory 11.

まず第2キーワード作成手段8による第2キーワード辞書の作成方法を説明する。
第2キーワード作成手段8は、検索対象辞書メモリ7に格納されている施設名称の表記を入力とし、全ての施設の表記を第2キーワード辞書として第2キーワード辞書メモリ9に保存する。
次に曖昧検索辞書作成手段10による曖昧検索辞書の作成方法を説明する。曖昧検索辞書作成手段10は、検索対象辞書メモリ7に格納されている施設名称のID番号と表記を入力とし、表記の音節数がM文字以上のものを抽出する。本例ではM=5とする。
「えー」などの長音を含むものも1音節とみなすものとする。例えば検索対象メモリ7の内容が図2に示すものとすると、音節数が5以上のものはID番号が5,6,7,8,9,10などである。これらを抽出し、音節を索引語として例えば転置ファイルを作成し曖昧検索辞書として曖昧検索辞書メモリ11に保持しておく。作成した曖昧検索辞書メモリ11の例を図4に示す。
First, a method for creating a second keyword dictionary by the second keyword creating means 8 will be described.
The second keyword creating means 8 receives the facility name notations stored in the search target dictionary memory 7 as input, and stores all facility notations in the second keyword dictionary memory 9 as second keyword dictionaries.
Next, a method for creating an ambiguous search dictionary by the ambiguous search dictionary creating means 10 will be described. The ambiguous search dictionary creating means 10 receives the ID number and the notation of the facility name stored in the search target dictionary memory 7 and extracts those whose number of syllables is M characters or more. In this example, M = 5.
Anything that contains a long sound such as “Eh” shall be regarded as one syllable. For example, if the contents of the search target memory 7 are as shown in FIG. 2, the ID number is 5,6,7,8,9,10, etc. when the syllable number is 5 or more. These are extracted, and for example, a transposed file is created using the syllable as an index word, and stored in the fuzzy search dictionary memory 11 as a fuzzy search dictionary. An example of the created fuzzy search dictionary memory 11 is shown in FIG.

次に音声認識と検索の動作について説明する。
音声の入力端子1から音声2を入力すると音声認識手段3は言語モデルメモリ12に保存されている言語モデルと音響モデルメモリ13に保存されている音響モデルを用いて音声認識を行い、認識スコアの大きい順に上位N個の認識結果である音節列の表記、音響尤度、言語尤度、および前記認識スコアを出力する。なお前記認識スコアは前記音響尤度と言語尤度の和である。
Next, speech recognition and search operations will be described.
When the speech 2 is input from the speech input terminal 1, the speech recognition means 3 performs speech recognition using the language model stored in the language model memory 12 and the acoustic model stored in the acoustic model memory 13, and the recognition score The syllable string notation, acoustic likelihood, language likelihood, and the recognition score, which are the top N recognition results, are output in descending order. The recognition score is the sum of the acoustic likelihood and the language likelihood.

また本実施の形態では前記音節列の表記は、例えばひらがな表記とする。音声2の発話内容が「やか」である場合の出力例を図5に示す。この時点では正解である「やか」は音響尤度は一番高いものの、言語尤度が「やま」のほうが高いため認識スコアは第2位となっている。これは言語モデルメモリ12に格納されている言語モデルの学習データには音節連鎖「や」+「ま」のほうが「や」+「か」よりも頻度が高いからである。   In the present embodiment, the notation of the syllable string is, for example, hiragana notation. FIG. 5 shows an output example when the utterance content of the voice 2 is “Yaka”. At this time, the correct answer “Yaka” has the highest acoustic likelihood, but the language likelihood is “Yama”, so the recognition score is second. This is because the syllable chain “ya” + “ma” is more frequent than “ya” + “ka” in the language model learning data stored in the language model memory 12.

次にNベスト候補再構成手段4は、前記N個の候補を入力とし、キーワード辞書メモリ6および第2キーワード辞書メモリを参照して前記N個の候補の認識スコアを再計算する。そして、前記のN個の認識結果候補のそれぞれに対し、その表記がキーワード辞書メモリ6または第2キーワード辞書メモリに存在するか否かを調べ、存在の有無によって新スコアを異なる方法で算出し、前記新スコアの大きい順に出力する。 Next, the N best candidate reconstructing means 4 receives the N candidates as input, and recalculates the recognition scores of the N candidates with reference to the keyword dictionary memory 6 and the second keyword dictionary memory 9 . Then, for each of the N recognition result candidates, it is checked whether or not the notation exists in the keyword dictionary memory 6 or the second keyword dictionary memory 9 , and a new score is calculated by a different method depending on the presence or absence. , Output in descending order of the new score.

以下に図6を参照し、Nベスト候補再構成手段4の具体的な処理手順を述べる。
(手順1)
入力されたN個の候補に対し、1個づつ当該認識候補の表記がキーワード辞書メモリ6または第2キーワード辞書メモリに存在するか否か調べ、存在する場合には、当該候補に対する存在フラグを1にセットする。また音響尤度のみを用いて新スコアを計算する。すなわち1式によって新スコアを計算する。(図6におけるst101〜st105)
A specific processing procedure of the N best candidate reconstruction unit 4 will be described below with reference to FIG.
(Procedure 1)
For each of the N candidates input, it is checked whether or not the recognition candidate notation exists in the keyword dictionary memory 6 or the second keyword dictionary memory 9 one by one. Set to 1. A new score is calculated using only acoustic likelihood. That is, a new score is calculated by one formula. (St101 to st105 in FIG. 6)

S'(k) = Sa(k) ・・・ 1       S '(k) = Sa (k) ・ ・ ・ 1

1式中でS'(k)はk番目の認識候補の新スコア、Sa(k)は音響尤度である。
一方、前記当該認識候補の表記がキーワード辞書メモリ6と第2キーワード辞書メモリのどちらにも存在しない場合には、2式にしたがって音響尤度と言語尤度、およびペナルティ値を用いて新スコアを計算する。
In the equation (1), S ′ (k) is a new score of the kth recognition candidate, and Sa (k) is an acoustic likelihood.
On the other hand, when the notation of the recognition candidate does not exist in either the keyword dictionary memory 6 or the second keyword dictionary memory 9 , the new score is obtained using the acoustic likelihood, the language likelihood, and the penalty value according to the two formulas. Calculate

S'(k) = Sa(k) + w * Sl(k) + p ・・・ 2       S '(k) = Sa (k) + w * Sl (k) + p ... 2

2式中で、wは言語尤度に対する重み係数、pはペナルティ値である。これらはともに定数であり、事前に実験的に求めた値を用いるものとする。本例ではw=0.7, p=0.1とする。(図6におけるst106)   In the two equations, w is a weighting factor for language likelihood, and p is a penalty value. Both of these are constants, and values obtained experimentally in advance are used. In this example, w = 0.7 and p = 0.1. (St106 in FIG. 6)

(手順2)
N個の全て候補に対し、前記新スコアS'を算出後、前記新スコアの大きい順に前記認識候補を並べ換えて出力する。また各候補がキーワード辞書メモリ6または第2キーワード辞書メモリに存在するか否かを示す存在フラグ値も同時に出力する。(図6におけるst110)
(Procedure 2)
After calculating the new score S ′ for all N candidates, the recognition candidates are rearranged and output in descending order of the new score. In addition, a presence flag value indicating whether each candidate exists in the keyword dictionary memory 6 or the second keyword dictionary memory 9 is also output at the same time. (St110 in FIG. 6)

存在フラグ値1は、当該候補がキーワード辞書メモリ6または第2キーワード辞書メモリに存在することを示し、存在フラグ値0は、当該候補がキーワード辞書メモリ6と第2キーワード辞書メモリのどちらにも存在しないことを示すものとする。出力例を図7に示す。正解である発話「やか」が第1位になっていることが判る。以上がNベスト再構成手段4の動作である。 The presence flag value 1 indicates that the candidate exists in the keyword dictionary memory 6 or the second keyword dictionary memory 9 , and the presence flag value 0 indicates whether the candidate is in the keyword dictionary memory 6 or the second keyword dictionary memory 9 . Shall also indicate that it does not exist. An output example is shown in FIG. It can be seen that the correct answer “Yaka” is ranked first. The operation of the N best reconstruction unit 4 has been described above.

次に検索手段5は、Nベスト候補再構成手段4からの出力を受け取り、第1位の認識結果の表記の長さを参照して、まず検索方法を決定する。ここで表記の長さとは文字数や音節数等が考えられる。本実施の形態では、例えば音節数とする。検索手段5は前記音節数がL個未満の場合と、L個以上の場合で、異なる検索動作を行う。本実施の形態では、前記音節数L=5とする。
次に検索手段5は、決定した検索方法を用いて検索対象辞書メモリ7中の施設名称を検索し出力する。
Next, the search means 5 receives the output from the N best candidate reconstructing means 4, and first determines the search method with reference to the length of the first recognition result. Here, the notation length may be the number of characters, the number of syllables, or the like. In this embodiment, for example, the number of syllables. The search means 5 performs different search operations depending on whether the number of syllables is less than L or more than L. In the present embodiment, the syllable number L = 5.
Next, the search means 5 searches for and outputs the facility name in the search target dictionary memory 7 using the determined search method.

以下に図8を参照し検索手段5の具体的な処理内容を述べる。
(手順1)
Nベスト候補再構成手段4から出力された第1位の認識結果の表記の長さを、事前に決めた閾値L(本実施の形態では=5)と比較し、閾値L未満の場合と、L以上の場合で処理を分ける。(図8におけるstep202)
(手順2a)
前記音節数がL文字未満の場合、検索手段5は、入力されたN個の候補に対し、存在フラグが1の候補のみをM個を抽出する。(図8におけるstep203)ここでMは0以上N以下の整数である。前記抽出したM個の候補を検索結果として出力する。図の例では、存在フラグが1である「やか」と「やま」を出力する。
施設名などの名称の検索においては、利用者が正式名称以外を発話するのは正式名称の表記が長く名称の記憶が曖昧な場合であり、短い発話は短い施設名称の正式名称である場合がほとんであると考えられるので、Nベスト候補再構成手段4から出力された候補の第1位の表記が短い場合にはキーワード辞書に存在するものと表記が完全に一致するもののみを検索結果とすることにより、曖昧検索の問題点である過剰な検索結果生成を防ぐ効果を有する。
The specific processing contents of the search means 5 will be described below with reference to FIG.
(Procedure 1)
The length of the notation of the first recognition result output from the N best candidate reconstructing means 4 is compared with a predetermined threshold L (= 5 in the present embodiment). The process is divided in the case of L or more. (Step202 in FIG. 8)
(Step 2a)
When the number of syllables is less than L characters, the search means 5 extracts only M candidates having a presence flag of 1 from the input N candidates. (Step 203 in FIG. 8) Here, M is an integer of 0 or more and N or less. The extracted M candidates are output as search results. In the example shown in the figure, “Yaka” and “Yama” whose existence flag is 1 are output.
When searching for names such as facility names, users may utter anything other than the official name if the official name is long and the memory of the name is ambiguous, and the short utterance may be the official name of the short facility name. If the first-ranked notation of the candidate output from the N-best candidate reconstructing means 4 is short, only search results that are completely identical to those present in the keyword dictionary are used as search results. This has the effect of preventing excessive search result generation, which is a problem of ambiguous search.

(手順2b)
一方、前記音節数がL文字以上の場合には前記Nベスト候補再構成手段4の認識結果の第1位の表記を用いて、曖昧検索辞書メモリ11に格納されている曖昧検索辞書を用いて曖昧検索を行う。(図8におけるstep204)
この曖昧検索の方法を説明する。前述したとおり、曖昧検索辞書は検索対象の音節を索引語とした転置ファイルとして構成されている。
例えば本装置の利用者が「やたやまどーぶつえん」を検索しようとしたが、名称の記憶が正確でなく、入力音声の発話内容が「やたどーぶつえん」であり、Nベスト候補再構成手段4の出力の第1位の表記が「やまどーぶつえん」であった場合、まず前記表記を音節単位に分割する。すなわち「や」「ま」「どー」「ぶ」「つ」「え」「ん」と分割する。
(Procedure 2b)
On the other hand, when the number of syllables is greater than or equal to L characters, the first-order notation of the recognition result of the N best candidate reconstruction unit 4 is used, and the fuzzy search dictionary stored in the fuzzy search dictionary memory 11 is used. Perform fuzzy searches. (Step204 in FIG. 8)
The fuzzy search method will be described. As described above, the fuzzy search dictionary is configured as a transposed file with the search target syllable as an index word.
For example, the user of this device tried to search for “Yatayama Dobutsuen”, but the name was not stored correctly, and the utterance content of the input voice was “Yata Dobutsuen”. When the first rank notation of the output of the construction means 4 is “Yamadobutsuen”, the notation is first divided into syllable units. That is, it is divided into “YA”, “MA”, “DO”, “BU”, “TSU”, “E” and “N”.

そして先頭の音節から順に曖昧検索辞書メモリ11に格納している前記転置ファイルを参照し、当該音節を含む施設のスコアに1を加算する。上記処理を前記分割結果の最終音節まで行う。そしてスコアが所定の閾値S以上の施設を検索結果として出力する。
なお前記閾値Sは、例えば認識結果の音節数の0.8倍とする。すなわち本実施の形態の場合、前記音節数7の0.8倍、即ち7*0.8=5.6である。
Then, the transposed file stored in the fuzzy search dictionary memory 11 is sequentially referred to from the head syllable, and 1 is added to the score of the facility including the syllable. The above processing is performed up to the final syllable of the division result. Then, a facility whose score is a predetermined threshold value S or more is output as a search result.
The threshold value S is, for example, 0.8 times the number of syllables in the recognition result. That is, in the case of the present embodiment, 0.8 times the syllable number, that is, 7 * 0.8 = 5.6.

この結果、前記入力音節列「や」「ま」「どー」「ぶ」「つ」「え」「ん」は、利用者が検索を意図していた「やたやまどーぶつえん」を構成する音節とは7個の音節で一致するためスコアが7になる。上記のスコア算出処理の結果を図9に示す。利用者に意図した検索結果がスコア第位として検索されていることがわかる。
認識結果の表記の長さが長い場合には、表記に冗長性があるため以上述べたとおり曖昧検索を行うことによって利用者が正式名称を正確に記憶していなくても検索可能となる効果を有する。
As a result, the input syllable strings “ya”, “ma”, “do”, “bu”, “tsu”, “e”, and “n” constitute “Yatayama dobutsuen” that the user intended to search. Since the syllable coincides with 7 syllables, the score is 7. The result of the above score calculation process is shown in FIG. It can be seen that the search result intended by the user is searched with the first score.
When the length of the recognition result notation is long, the notation is redundant, so the fuzzy search as described above makes it possible to search even if the user does not accurately store the official name. Have.

また曖昧検索辞書メモリ11に格納している転置ファイルは、検索対象辞書メモリ7に格納されている施設名称のうち表記の音節数がM文字以上のものに限定して作成したので、前記転置ファイルのサイズが小さくなり、記憶領域を小さくできる効果を有する。
しかし曖昧検索辞書メモリ11の記憶容量に問題がなければ、検索対象辞書メモリ7に格納されている施設名称の全てを用いて転置ファイルを作成してもよく、前述した曖昧検索動作により同様の効果を得ることができる。
Further, the transposed file stored in the ambiguous search dictionary memory 11 is created only for the facility names stored in the search target dictionary memory 7 that have a number of syllables of not less than M characters. This reduces the size of the storage area and has the effect of reducing the storage area.
However, if there is no problem in the storage capacity of the fuzzy search dictionary memory 11, a transposed file may be created using all the facility names stored in the search target dictionary memory 7, and the same effect can be obtained by the fuzzy search operation described above. Can be obtained.

なお前記新スコアは、当該認識候補の表記がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在するか否か調べ、存在する場合には下記3式、存在しない場合には下記4式で計算することによっても、同様の効果を得ることが出来る。   The new score is calculated by checking whether or not the notation of the recognition candidate exists in the keyword dictionary memory 6 or the second keyword dictionary memory 7. By doing so, the same effect can be obtained.

S'(k) = Sa(k) + w2 * Sl(k) ・・・ 3       S '(k) = Sa (k) + w2 * Sl (k) ... 3

3式中でS'(k)はk番目の認識候補の新スコア、Sa(k)は音響尤度, Sl(k) は言語尤度である。
またw2は予め決めた定数であり、音声認識手段3での言語尤度の重みより小さい値とする。
In Equation 3, S ′ (k) is the new score of the kth recognition candidate, Sa (k) is the acoustic likelihood, and Sl (k) is the language likelihood.
W2 is a predetermined constant, and is a value smaller than the language likelihood weight in the speech recognition means 3.

一方、前記当該認識候補の表記がキーワード辞書メモリ6と第2キーワード辞書メモリ7のどちらにも存在しない場合には、前述のように4式にしたがって音響尤度と言語尤度、およびペナルティ値を用いて新スコアを計算する。   On the other hand, when the notation of the recognition candidate does not exist in either the keyword dictionary memory 6 or the second keyword dictionary memory 7, the acoustic likelihood, the language likelihood, and the penalty value are set according to the four formulas as described above. Use to calculate a new score.

S'(k) = Sa(k) + w3 * Sl(k) + p ・・・ 4       S '(k) = Sa (k) + w3 * Sl (k) + p ・ ・ ・ 4

ここで、w3は予め決めた定数でありw3≧w2を満たすものとする。 Here, w3 is a predetermined constant and satisfies w3 ≧ w2.

なお前記新スコアは、当該認識候補の表記がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在するか否か調べ、存在する場合には下記5式、存在しない場合には下記6式で計算することによっても、同様の効果を得ることが出来る。   Note that the new score is calculated by checking whether the recognition candidate notation exists in the keyword dictionary memory 6 or the second keyword dictionary memory 7, and if it exists, it is calculated by the following formula 5; By doing so, the same effect can be obtained.

S'(k) = Sa(k) + w4 * Slmax + p2 ・・・ 5       S '(k) = Sa (k) + w4 * Slmax + p2 ・ ・ ・ 5

S'(k) = Sa(k) + w5 * Sl(k) + p3 ・・・ 6       S '(k) = Sa (k) + w5 * Sl (k) + p3 ・ ・ ・ 6

5,6式中でS'(k)はk番目の認識候補の新スコア、Sa(k)は音響尤度, Sl(k) は言語尤度は、Slmaxは7式で示すとおり前記入力されたN個の候補中の言語尤度の最大値である。   In Equations 5 and 6, S '(k) is the new score for the kth recognition candidate, Sa (k) is the acoustic likelihood, Sl (k) is the language likelihood, and Slmax is input as shown in Equation 7. It is the maximum value of the language likelihood among the N candidates.

Slmax = MAX(i=1,N)Sl(k) ・・・ 7 Slmax = MAX (i = 1, N) Sl (k) ・ ・ ・ 7

また上記w4, w5は予め定めた0以上の定数であり、w4=w5でもw4≠w5でもよい。また前記p2,およびp3は予め定めた定数であり,p2=p3でもp2≠p3でもよい。   The above w4 and w5 are predetermined constants of 0 or more, and may be w4 = w5 or w4 ≠ w5. The p2 and p3 are predetermined constants, and may be p2 = p3 or p2 ≠ p3.

実施の形態2.
本実施の形態における音声検索装置と、実施の形態1における音声検索装置との違いは、第2キーワード作成手段8による第2キーワード辞書の作成方法であり、機能構成ブロック図は実施の形態1における音声検索装置と同一である。
本実施の形態では、第2キーワード作成手段8の動作は以下のとおりである。
第2キーワード作成手段8は、検索対象辞書メモリ7に格納されている施設名称の表記を入力とし、表記の音節数がP文字未満のものを抽出し、その表記を第2キーワード辞書として第2キーワード辞書メモリ9に保存する。例えばP=5とする。
例えば、検索対象辞書メモリ7の内容が図2である場合、P(=5)音節未満の表記を抽出した結果である第2キーワード辞書メモリ9の内容は図10のようになる。音声認識と検索の動作は、実施の形態1と同様なので説明は省略する。
Embodiment 2. FIG.
The difference between the voice search device in the present embodiment and the voice search device in the first embodiment is a method for creating a second keyword dictionary by the second keyword creating means 8, and the functional configuration block diagram is shown in the first embodiment. It is the same as the voice search device.
In the present embodiment, the operation of the second keyword creating means 8 is as follows.
The second keyword creating means 8 receives the facility name notation stored in the search target dictionary memory 7 as input, extracts those whose number of syllables is less than P characters, and uses the notation as the second keyword dictionary. Saved in the keyword dictionary memory 9. For example, P = 5.
For example, when the content of the search target dictionary memory 7 is FIG. 2, the content of the second keyword dictionary memory 9 as a result of extracting the notation of less than P (= 5) syllables is as shown in FIG. Since the voice recognition and search operations are the same as those in the first embodiment, a description thereof will be omitted.

以上述べたように本実施の形態2では、第2キーワード辞書メモリ9に格納される表記は音節数がP個以下のものだけなので検索対象辞書メモリ7に格納されている表記よりも数が少なくなっており、前記のN個の認識結果候補の表記が第2キーワード辞書メモリ9中に存在するか否かを調べる時間を短縮できる効果を有する。また第2キーワード辞書メモリ9中に存在する表記数が少なくなるので記憶領域を削減できる効果を有する。   As described above, in the second embodiment, the number of notations stored in the second keyword dictionary memory 9 is only P or less, so the number is less than the number of notations stored in the search target dictionary memory 7. Thus, there is an effect that it is possible to reduce the time for checking whether or not the notation of the N recognition result candidates exists in the second keyword dictionary memory 9. In addition, since the number of notations existing in the second keyword dictionary memory 9 is reduced, the storage area can be reduced.

なお、前記のN個の認識結果候補のうち、音節数がP以上の表記で検索対象辞書メモリ7に格納されているものは、実施の形態1では1式で新スコアが計算されるのに対し、本実施に形態では2式で計算されることになり、スコアの改善効果が低減される。しかしPを適切な値に設定すれば、表記に冗長性が生じ音響的にも区別しやすくなるため、スコアの改善効果が低減は、ほとんどの場合問題にならない。   Of the N recognition result candidates, those that are stored in the search target dictionary memory 7 with a syllable number of not less than P are calculated as one formula in the first embodiment. On the other hand, in this embodiment, the calculation is performed by two formulas, and the effect of improving the score is reduced. However, if P is set to an appropriate value, there will be redundancy in the notation and it will be easier to distinguish acoustically, so the reduction in the score improvement effect will not be a problem in most cases.

この発明は、音声により文書、例えば、ホテルや旅館、美術館や映画館などの施設或いは観光スポットなどを検索するカーナビゲータなどの音声検索装置の音声認識などで使用される。   The present invention is used for voice recognition of a voice search device such as a car navigator that searches a document, for example, a facility such as a hotel, inn, museum, movie theater, or sightseeing spot by voice.

この発明による音声検索装置の実施の形態1の構成を示すブロック図である。It is a block diagram which shows the structure of Embodiment 1 of the voice search device by this invention. 検索対象辞書メモリの内容例の説明図である。It is explanatory drawing of the example of the content of a search object dictionary memory. キーワード辞書メモリの転置ファイル例の説明図である。It is explanatory drawing of the example of the transposition file of a keyword dictionary memory. 曖昧検索辞書メモリの内容例の説明図である。It is explanatory drawing of the example of the content of the fuzzy search dictionary memory. 音声認識手段に夜認識結果例の説明図である。It is explanatory drawing of a night recognition result example to a voice recognition means. Nベスト候補再構成手段の処理手順フロー図である。It is a processing procedure flow figure of N best candidate reconstruction means. Nベスト候補再構成手段による新スコア計算結果例の説明図である。It is explanatory drawing of the example of a new score calculation result by N best candidate reconstruction means. 検索手段の処理手順フロー図である。It is a processing procedure flowchart of a search means. 検索手段による曖昧検索辞書を用いた曖昧検索結果例の説明図である。It is explanatory drawing of the fuzzy search result example using the fuzzy search dictionary by a search means. 実施の形態2による第2キーワード辞書メモリの内容例の説明図である。It is explanatory drawing of the example of the content of the 2nd keyword dictionary memory by Embodiment 2.

符号の説明Explanation of symbols

1は音声の入力端、2は入力音声、3は音声認識手段、4はNベスト候補再構成手段、5は検索手段、6はキーワード辞書メモリ、7は検索対象辞書メモリ、8は第2キーワード作成手段、9は第2キーワード辞書メモリ、10は曖昧検索辞書作成手段、11は曖昧検索辞書メモリ、12は言語モデルメモリ、13は音響モデルメモリ、14は検索結果である。   1 is an input terminal of speech, 2 is input speech, 3 is speech recognition means, 4 is N best candidate reconstruction means, 5 is search means, 6 is a keyword dictionary memory, 7 is a search target dictionary memory, and 8 is a second keyword. Creation means, 9 is a second keyword dictionary memory, 10 is an ambiguous search dictionary creation means, 11 is an ambiguous search dictionary memory, 12 is a language model memory, 13 is an acoustic model memory, and 14 is a search result.

Claims (5)

入力音声から、音響モデルと言語モデルを参照して音響尤度と言語尤度を算出し、この両者の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された表記を出力する音声認識手段と、
検索対象の表記とID番号を持つ検索対象辞書と、
検索対象の正式呼称ではないが、頻繁に使用される通称や、頻繁に使用される部分表記を含む表記を持つキーワード辞書と、
前記検索対象辞書中から全ての表記を抽出して第2キーワード辞書として出力する第2キーワード作成手段と、
前記検索対象辞書中から利用者における検索対象の名称記憶が曖昧になる表記の音節数を考慮して予め定められた表記の音節数が所定の閾値以上の表記を抽出して曖昧検索辞書を作成する曖昧検索辞書作成手段と、
前記音声認識手段の音声認識結果が複数である場合、認識スコアが上位N個の表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記N個の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記の音節数が前記曖昧検索辞書を作成時の所定の閾値以上の場合には前記曖昧検索辞書を参照して検索を行い、前記表記の音節数が前記所定の閾値未満の場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備えたことを特徴とする音声検索装置。
From the input speech, the acoustic likelihood and the language likelihood are calculated by referring to the acoustic model and the language model, a recognition score is calculated as a weighted sum of the two, and the recognition result is set as the acoustic likelihood based on the recognition score. Speech recognition means for outputting a notation with language likelihood;
Search target dictionary with search target notation and ID number,
A keyword dictionary that is not the official name of the search target but has a notation that includes frequently used common names and frequently used partial notations,
Second keyword creating means for extracting all notations from the search target dictionary and outputting them as a second keyword dictionary;
Create an ambiguous search dictionary by extracting from the search target dictionary notations with a predetermined number of syllables greater than or equal to a predetermined threshold in consideration of the number of syllables of the notation in which the name storage of the search target for the user is ambiguous Fuzzy search dictionary creation means to
When there are a plurality of speech recognition results of the speech recognition means, the notation with the top N recognition scores is input, and the recognition order of the N speech recognition results is re-referenced with reference to the keyword dictionary and the second keyword dictionary. N best candidate reconstruction means for configuring and outputting;
The output of the N best candidate reconstruction means is used as an input, and when the number of syllables of the first candidate in the input is equal to or greater than a predetermined threshold at the time of creating the fuzzy search dictionary, the fuzzy search dictionary is referred to. And a search means for searching from the output of the N best candidate reconstructing means when the number of syllables is less than the predetermined threshold.
前記Nベスト候補再構成手段は、前記音声認識手段の複数の認識結果を入力し、入力した各認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記音響尤度から算出し、存在しない場合には前記音響尤度と前記言語尤度および予め実験的に定められた所定の重み係数を前記言語尤度に加重し、さらに予め実験的に定められた所定のペナルティ値を加算し認識順位を再構成することを特徴とする請求項1記載の音声検索装置。   The N best candidate reconstructing means inputs a plurality of recognition results of the speech recognition means, and checks whether a notation exists in the keyword dictionary or the second keyword dictionary for each of the inputted recognition results. If present, the score of the notation is calculated from the acoustic likelihood; otherwise, the acoustic likelihood, the language likelihood, and a predetermined weight coefficient determined experimentally in advance are used as the language likelihood. 2. The speech search apparatus according to claim 1, wherein the recognition rank is reconstructed by weighting and adding a predetermined penalty value experimentally determined in advance. 前記Nベスト候補再構成手段は、前記音声認識手段の複数の認識結果を入力し、入力した各認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記言語尤度に予め定められた所定の重み係数を加重した値と前記音響尤度を加算した値とし、存在しない場合には
前記言語尤度に予めに定められ、表記が前記キーワード辞書中または前記第2キーワード辞書中に存在する場合の重み係数と等しいか、それよりも大きい所定の重み係数を加重した値と予めに定められた所定のペナルティ値を加算して算出し認識順位を再構成することを特徴とする請求項1記載の音声検索装置。
The N best candidate reconstructing means inputs a plurality of recognition results of the speech recognition means, and checks whether a notation exists in the keyword dictionary or the second keyword dictionary for each of the inputted recognition results. If present, the score of the notation is set to a value obtained by adding a predetermined weighting factor to the language likelihood and a value obtained by adding the acoustic likelihood. A value obtained by weighting a predetermined weighting factor equal to or greater than a weighting factor when the notation is present in the keyword dictionary or the second keyword dictionary, and a predetermined penalty value determined in advance. The speech search apparatus according to claim 1, wherein the recognition order is reconstructed by adding the values.
前記Nベスト候補再構成手段は、前記音声認識手段の複数の認識結果を入力し、入力した認識結果のうちで前記言語尤度の最大値を算出し、入力した各認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記言語尤度の最大値に予め定められた所定の重み係数で加重した値と前記音響尤度とさらに予め定められた所定のペナルティ値を加えたものとして算出し、表記が存在しない場合には前記音響尤度と前記言語尤度に予め定められ、表記が前記キーワード辞書中または前記第2キーワード辞書中に存在する場合の重み係数とは異なるまたは同じ所定の重み係数で加重した値とさら予め定められ、表記が前記キーワード辞書中または前記第2キーワード辞書中に存在する場合のペナルティ値とは異なるまたは同じ所定のペナルティ値を加えたものとして算出して、認識順位を再構成することを特徴とする請求項1記載の音声検索装置。   The N best candidate reconstructing means inputs a plurality of recognition results of the speech recognition means, calculates the maximum value of the language likelihood among the input recognition results, and describes each of the input recognition results Is present in the keyword dictionary or the second keyword dictionary, and if present, a value obtained by weighting the score of the notation to a maximum value of the language likelihood by a predetermined weighting factor and Calculated as acoustic likelihood and a predetermined penalty value added in advance, and when there is no notation, the acoustic likelihood and the language likelihood are determined in advance, and the notation is in the keyword dictionary or the A value weighted by a predetermined weighting factor different from or the same as the weighting factor when existing in the second keyword dictionary is further determined in advance, and the notation is in the keyword dictionary or the second key Different or was calculated as if the same by adding a predetermined penalty value, characterized by reconfiguring the recognition ranking claim 1 speech retrieval apparatus according to the penalty value when present in over de dictionary. 前記第2キーワード作成手段は、請求項1記載の第2キーワード作成手段に代え、前記検索対象辞書中の要素のうち、その表記音節数が標記の冗長性を考慮した所定の閾値未満の要素のみを抽出してその表記を全て前記第2キーワード辞書として作成することを特徴とする請求項1〜4の何れか1項に記載の音声検索装置。   The second keyword creating means replaces the second keyword creating means according to claim 1, and among elements in the search target dictionary, only elements whose notation syllable number is less than a predetermined threshold considering the redundancy of the mark are used. The voice search device according to claim 1, wherein all of the notations are extracted and created as the second keyword dictionary.
JP2007321885A 2007-12-13 2007-12-13 Voice search device Active JP5046902B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007321885A JP5046902B2 (en) 2007-12-13 2007-12-13 Voice search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007321885A JP5046902B2 (en) 2007-12-13 2007-12-13 Voice search device

Publications (2)

Publication Number Publication Date
JP2009145548A JP2009145548A (en) 2009-07-02
JP5046902B2 true JP5046902B2 (en) 2012-10-10

Family

ID=40916224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007321885A Active JP5046902B2 (en) 2007-12-13 2007-12-13 Voice search device

Country Status (1)

Country Link
JP (1) JP5046902B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102246226B (en) 2009-01-30 2013-11-13 三菱电机株式会社 Voice recognition apparatus

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61122781A (en) * 1984-11-20 1986-06-10 Fujitsu Ltd Speech word processor
JPH1049194A (en) * 1996-07-30 1998-02-20 Aqueous Res:Kk Voice recognition device
JP3949356B2 (en) * 2000-07-12 2007-07-25 三菱電機株式会社 Spoken dialogue system
JP4296290B2 (en) * 2003-10-22 2009-07-15 株式会社豊田中央研究所 Speech recognition apparatus, speech recognition method and program
JP2005257954A (en) * 2004-03-10 2005-09-22 Nec Corp Speech retrieval apparatus, speech retrieval method, and speech retrieval program
JP2006039954A (en) * 2004-07-27 2006-02-09 Denso Corp Database retrieval system, program, and navigation system
JP2007079122A (en) * 2005-09-14 2007-03-29 Advanced Telecommunication Research Institute International Speech processor and program

Also Published As

Publication number Publication date
JP2009145548A (en) 2009-07-02

Similar Documents

Publication Publication Date Title
JP5258959B2 (en) Voice recognition device
JP5072415B2 (en) Voice search device
US9966066B1 (en) System and methods for combining finite state transducer based speech recognizers
CN102725790B (en) Recognition dictionary creation device and speech recognition device
Sainath et al. No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models
US9978364B2 (en) Pronunciation accuracy in speech recognition
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
JP5274191B2 (en) Voice recognition device
US11869491B2 (en) Abstract generation device, method, program, and recording medium
JP5073024B2 (en) Spoken dialogue device
JP2006338261A (en) Translation device, translation method and translation program
JP2006012179A (en) Natural language processor and natural language processing method
Beaufays et al. Language model capitalization
JP4661239B2 (en) Voice dialogue apparatus and voice dialogue method
JP5046902B2 (en) Voice search device
JP2010277036A (en) Speech data retrieval device
JP2002091484A (en) Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program
JP2950823B1 (en) Speech recognition error correction device
JP5404563B2 (en) Search device
Réveil et al. Improving proper name recognition by means of automatically learned pronunciation variants
JP5137588B2 (en) Language model generation apparatus and speech recognition apparatus
Chiang et al. On jointly learning the parameters in a character-synchronous integrated speech and language model
JP2004309928A (en) Speech recognition device, electronic dictionary device, speech recognizing method, retrieving method, and program
Ljunglöf et al. Interactive correction of speech recognition errors: Implementation and evaluation for English and Swedish
KR100908444B1 (en) Continuous Speech Recognition Apparatus and Method Using Phoneme Recognition Based Search Space Limitation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120619

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120717

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5046902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111