JP2009003205A - Voice recognition device and voice recognition method - Google Patents

Voice recognition device and voice recognition method Download PDF

Info

Publication number
JP2009003205A
JP2009003205A JP2007164538A JP2007164538A JP2009003205A JP 2009003205 A JP2009003205 A JP 2009003205A JP 2007164538 A JP2007164538 A JP 2007164538A JP 2007164538 A JP2007164538 A JP 2007164538A JP 2009003205 A JP2009003205 A JP 2009003205A
Authority
JP
Japan
Prior art keywords
recognition
recognition result
user
target vocabulary
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007164538A
Other languages
Japanese (ja)
Other versions
JP4951422B2 (en
Inventor
Takeshi Ono
健 大野
Minoru Togashi
実 冨樫
Daisuke Saito
大介 斎藤
Keiko Katsuragawa
景子 桂川
Hisashi Takahashi
久 高橋
Osamu Yamashita
修 山下
Yoshiyuki Mizuno
佳幸 水野
Takeshi Honma
健 本間
Nobuo Hataoka
信夫 畑岡
Hiroaki Kokubo
浩明 小窪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Faurecia Clarion Electronics Co Ltd
Original Assignee
Xanavi Informatics Corp
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xanavi Informatics Corp, Nissan Motor Co Ltd filed Critical Xanavi Informatics Corp
Priority to JP2007164538A priority Critical patent/JP4951422B2/en
Publication of JP2009003205A publication Critical patent/JP2009003205A/en
Application granted granted Critical
Publication of JP4951422B2 publication Critical patent/JP4951422B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To perform voice recognition of spoken voice when a user speaks while changing the expression of a specified command. <P>SOLUTION: A CPU 1034a stores vocabulary shown by a plurality of language models differed in level of restriction for restricting a user's spoken content as recognition object words in execution of voice recognition, inputs spoken voice by the user, computes the matching degree of the input spoken voice with the stored recognition object words, extracts recognition result candidates from the recognition object words based on the computing result of matching degree, and specifies a recognition result from the recognition result candidates based on at least one of the matching degree of each extracted recognition result candidate and the level of restriction of the language model including this recognition result candidate. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、音声を認識するための音声認識装置、および音声認識方法に関する。   The present invention relates to a speech recognition apparatus and a speech recognition method for recognizing speech.

次のような音声認識装置が知られている。この音声認識装置は、音声認識エンジンと規定コマンド用辞書とを備え、音声認識エンジンは、使用者の発話音声を規定コマンド辞書と照合することによって、認識結果を出力する(例えば、特許文献1)。   The following voice recognition devices are known. This speech recognition apparatus includes a speech recognition engine and a prescribed command dictionary, and the speech recognition engine outputs a recognition result by collating the user's uttered speech with the prescribed command dictionary (for example, Patent Document 1). .

特開平06−095687号公報Japanese Patent Laid-Open No. 06-095687

しかしながら、従来の音声認識装置では、使用者が規定コマンドの表現を変更して発話した場合には、誤認識が生じる恐れがあった。   However, in the conventional speech recognition apparatus, when the user changes the expression of the specified command and speaks, there is a possibility that erroneous recognition occurs.

本発明は、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶し、使用者による発話音声を入力し、記憶した認識対象語彙と、入力した発話音声との一致度を演算し、一致度の演算結果に基づいて、認識対象語彙から認識結果候補を抽出し、抽出した認識結果候補に含まれる各認識対象語彙の一致度、および各認識対象語彙の言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、認識結果候補の中から認識結果を特定することを特徴とする。   The present invention stores vocabulary represented by a plurality of language models with different levels of restraint that restricts the utterance content of the user as recognition target vocabulary when executing speech recognition, and inputs utterance speech by the user, The degree of coincidence between the stored recognition target vocabulary and the input speech is calculated, and based on the result of the degree of coincidence, recognition result candidates are extracted from the recognition target vocabulary, and each recognition target included in the extracted recognition result candidates A recognition result is specified from recognition result candidates based on at least one of a vocabulary matching degree and a constraint level of a language model of each recognition target vocabulary.

本発明によれば、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を待ち受け語彙とすることで、使用者が規定コマンドの表現を変更して、拘束性の低い語彙を発話した場合でも、誤認識が生じる可能性を低減することができる。   According to the present invention, a vocabulary represented by a plurality of language models with different levels of restraint that restrains the user's utterance content is set as a standby vocabulary, so that the user can change the expression of the specified command and Even when a vocabulary with a low probability is spoken, the possibility of erroneous recognition can be reduced.

図1は、本実施の形態における音声認識装置の一実施の形態の構成を示すブロック図である。音声認識装置100は、マイク101と、スピーカ102と、信号処理ユニット103と、入力装置104と、ディスプレイ105とを備えている。   FIG. 1 is a block diagram showing a configuration of an embodiment of a speech recognition apparatus according to the present embodiment. The voice recognition device 100 includes a microphone 101, a speaker 102, a signal processing unit 103, an input device 104, and a display 105.

信号処理ユニット103は、A/Dコンバータ1031、D/Aコンバータ1032、出力アンプ1033、信号処理装置1034、および外部記憶装置1035を備えている。信号処理装置1034は、CPU1034a、メモリ1034b、およびその他周辺回路により構成されている。また、入力装置104は、発話スイッチ104aおよび訂正スイッチ104bを備えている。   The signal processing unit 103 includes an A / D converter 1031, a D / A converter 1032, an output amplifier 1033, a signal processing device 1034, and an external storage device 1035. The signal processing device 1034 includes a CPU 1034a, a memory 1034b, and other peripheral circuits. The input device 104 includes an utterance switch 104a and a correction switch 104b.

音声認識装置100においては、使用者は、発話スイッチ104aを押下することによって、音声認識の開始を指示することができる。使用者によって音声認識の開始が指示された場合、使用者による発話音声はマイク101を通して信号処理ユニット103へ入力される。信号処理ユニット103へ入力された音声信号(入力音声信号)は、A/Dコンバータ1031でデジタル信号に変換された後、信号処理装置1034へ入力される。   In the speech recognition apparatus 100, the user can instruct the start of speech recognition by pressing the speech switch 104a. When the user instructs the start of voice recognition, the voice spoken by the user is input to the signal processing unit 103 through the microphone 101. An audio signal (input audio signal) input to the signal processing unit 103 is converted into a digital signal by the A / D converter 1031 and then input to the signal processing device 1034.

信号処理装置1034では、CPU1034aは、図2により後述する処理を実行して、使用者による発話音声を音声認識する。また、音声認識の結果に基づいて、使用者への応答文を生成する。生成した応答文は、D/Aコンバータ1032でアナログ信号に変換され、出力アンプ1033で増幅された後、スピーカ102を介して出力される。使用者は、応答文の内容から音声認識結果が誤認識であると判断した場合には、訂正ボタン104bを押下して訂正指示をすることができる。また、使用者は、訂正ボタン104bを一定時間押下(長押し)することにより、音声認識を途中で中断することもできる。   In the signal processing device 1034, the CPU 1034a executes processing to be described later with reference to FIG. 2 and recognizes speech uttered by the user. Further, a response sentence to the user is generated based on the result of the speech recognition. The generated response sentence is converted into an analog signal by the D / A converter 1032, amplified by the output amplifier 1033, and then output through the speaker 102. When the user determines that the voice recognition result is erroneous recognition from the contents of the response sentence, the user can press the correction button 104b to give a correction instruction. In addition, the user can interrupt voice recognition in the middle by pressing the correction button 104b for a certain period of time (long pressing).

図2は、本実施の形態における音声認識装置100の処理を示すフローチャートである。図2に示す処理は、使用者によって発話スイッチ104aが押下されると起動するプログラムとして、CPU1034aによって実行される。   FIG. 2 is a flowchart showing processing of the speech recognition apparatus 100 according to the present embodiment. The processing shown in FIG. 2 is executed by the CPU 1034a as a program that is activated when the utterance switch 104a is pressed by the user.

ステップS10において、CPU1034aは、音声認識に使用する認識対象語彙を外部記憶装置1035からメモリ1034bに読み込んで、音声認識処理のための待ち受け設定を行う。ここで読み込む認識対象語彙は、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される。以下、言語モデルの具体例について、図3〜図8を用いて説明する。   In step S10, the CPU 1034a reads the recognition target vocabulary used for speech recognition from the external storage device 1035 to the memory 1034b, and performs standby setting for speech recognition processing. The recognition target vocabulary read here is represented by a plurality of language models with different levels of restraint that restrain the user's utterance content. Hereinafter, specific examples of language models will be described with reference to FIGS.

CPU1034aは、まず、外部記憶装置1035から拘束性の高レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の高レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない規定コマンド用の言語モデルであって、例えば、図3に示すように、第一階層A、第二階層B、および第三階層Cとで構成される階層構造になっている。なお、図3は、車両に搭載されるナビゲーション装置を音声操作するためのコマンドを待ち受けるための言語モデルを表しており、以下の説明では、使用者がナビゲーション装置を音声操作する場合の音声認識処理について説明する。   First, the CPU 1034a reads a recognition target vocabulary represented by a high-level language model with restraint from the external storage device 1035. A restrictive high-level language model is a language model for a prescribed command that does not allow the insertion of an arbitrary phoneme string in a word string constituting a recognition target vocabulary. For example, as shown in FIG. It has a hierarchical structure composed of a first hierarchy A, a second hierarchy B, and a third hierarchy C. FIG. 3 shows a language model for waiting for a command for voice-operating the navigation device mounted on the vehicle. In the following description, voice recognition processing when the user voice-operates the navigation device. Will be described.

図3において、第一階層Aは、「行き先設定」、「ルート設定」などのナビゲーション装置を操作するためのコマンドを保持している。第二階層Bは、第一階層Aのコマンドの下位コマンドを保持しており、例えば、第一階層Aに含まれる「行き先設定」の下位コマンドとして、「自宅設定」や「登録地表示」などのコマンドを保持している。第三階層Cは、第二階層Bの下位コマンドを保持しており、例えば、第二階層Bに含まれる「登録地表示」の下位コマンドとして、「○○さん」や「○○社」などの具体的な登録地の名称を保持している。   In FIG. 3, the first hierarchy A holds commands for operating navigation devices such as “destination setting” and “route setting”. The second layer B holds lower commands of the commands of the first layer A. For example, as a lower command of “destination setting” included in the first layer A, “home setting”, “registered place display”, etc. Holds the command. The third layer C holds the lower commands of the second layer B. For example, as a lower command of “Registered location display” included in the second layer B, “Mr. The name of a specific registered place is held.

ここでは、CPU1034aは、この図3に示す拘束性の高レベルの言語モデルの中から、第一階層Aに含まれる全てのコマンド、第二階層Bに含まれる一部のコマンド、および第三階層Cに含まれる一部のコマンドを抽出して読み込む。例えば、図3に示す枠3a内に含まれるコマンドを抽出して読み込む。この拘束性の高レベルの言語モデルとして、例えば、図4に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先設定」と発話した場合に、認識対象語彙4aによってこれを音声認識することができる。   Here, the CPU 1034a selects all the commands included in the first hierarchy A, some commands included in the second hierarchy B, and the third hierarchy from the high-level language model shown in FIG. Some commands included in C are extracted and read. For example, the commands included in the frame 3a shown in FIG. 3 are extracted and read. As this highly restrictive language model, for example, a vocabulary as shown in FIG. 4 can be awaited as a recognition target vocabulary. That is, when the user speaks “Destination setting” in an attempt to set a destination, the recognition target vocabulary 4a can recognize the voice.

次に、CPU1034aは、外部記憶装置1035から拘束性の中レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の中レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している言語モデルである。例えば図5に示すように、「行き先」、「目的地」など、ナビゲーション装置を操作する上での目的語5aと、「設定」、「決定」などナビゲーション装置を操作するための操作語5bとをガベージ5cを挟んで接続し、さらに目的語5aの前にもガベージ5dを挟んで操作語5eを接続することによって、目的語と操作語の倒置も許した言語モデルである。   Next, the CPU 1034a reads a recognition target vocabulary represented by a restrictive medium-level language model from the external storage device 1035. The restrictive medium-level language model is a language model in which an arbitrary phoneme string is allowed to be inserted into a word string constituting a recognition target vocabulary and a recognizable word string is fixed. For example, as shown in FIG. 5, a destination 5a for operating the navigation device such as “destination” and “destination”, and an operation word 5b for operating the navigation device such as “setting” and “decision” Are connected with the garbage 5c interposed therebetween, and the operation word 5e is connected with the garbage 5d in front of the object 5a, thereby allowing the object and the operation word to be inverted.

なお、ガベージは、操作語や目的語などのキーワード以外の部分を吸収する。この拘束性の中レベルの言語モデルで表される認識対象語彙を読み込むことによって、例えば、図6に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先を設定」と発話した場合でも、認識対象語彙6aにより、これを音声認識することができる。   Garbage absorbs parts other than keywords such as operation words and objects. By reading the recognition target vocabulary represented by this restrictive medium-level language model, for example, a vocabulary as shown in FIG. 6 can be awaited as the recognition target vocabulary. That is, even when the user utters “set destination” in an attempt to set a destination, the recognition target vocabulary 6a can recognize the voice.

最後に、CPU1034aは、外部記憶装置1035から拘束性の低レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の低レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない言語モデルである。例えば、図7に示すように、「行き先」、「目的地」などのナビゲーション装置を操作する上での目的語および「設定」、「決定」などナビゲーション装置を操作するための操作語からなる語彙7aをガベージ7bおよび7cを挟んで任意に接続することを許した言語モデルである。   Lastly, the CPU 1034a reads the recognition target vocabulary represented by the low-level language model with restraint from the external storage device 1035. A low-level language model with a restrictive property is a language model that allows an arbitrary phoneme string to be inserted into a word string constituting a recognition target vocabulary and in which a recognizable word string is not fixed. For example, as shown in FIG. 7, a vocabulary made up of objects for operating a navigation device such as “destination” and “destination” and operation words for operating the navigation device such as “setting” and “decision”. This is a language model that allows 7a to be arbitrarily connected with garbage 7b and 7c interposed therebetween.

この拘束性の低レベルの言語モデルで表される認識対象語彙を読み込むことによって、例えば、図8に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先、行き先設定」のように誤った発話した場合でも、認識対象語彙8aにより、これを音声認識することができる。   By reading the recognition target vocabulary represented by this low-level language model of restriction, for example, it is possible to wait for a vocabulary as shown in FIG. 8 as the recognition target vocabulary. That is, even when the user tries to set a destination and makes an erroneous utterance such as “destination, destination setting”, this can be recognized by the recognition target vocabulary 8a.

次に、ステップS20へ進み、CPU1034aは、例えば図9に示すような音声入力用のメニュー画面をディスプレイ105へ出力して表示する。図9(a)は、ステップS10で読み込んだ拘束性の高レベルの言語モデルの第一階層Aに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例である。また、図9(b)は、第二階層Bに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例であり、図9(c)は、第三階層Cに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例である。CPU1034aは、まず、図9(a)に示すメニュー画面を表示して、使用者に対して、第一階層Aに含まれるコマンドを発話するように促す。   Next, proceeding to step S20, the CPU 1034a outputs a menu screen for voice input as shown in FIG. FIG. 9A shows an example of a menu screen for prompting the user to speak by displaying commands included in the first hierarchy A of the restrictive high-level language model read in step S10. FIG. 9B shows an example of a menu screen for displaying commands included in the second level B and prompting the user to speak, and FIG. 9C is included in the third level C. It is an example of a menu screen for displaying a command and prompting a user to speak. First, the CPU 1034a displays a menu screen shown in FIG. 9A to prompt the user to speak a command included in the first hierarchy A.

このようなメニュー画面例を表示して、使用者に発話可能なコマンドを提示することによって、使用者は、どのようなコマンドを発話すればよいかを把握することができる。なお、ここでメニュー画面上に表示されるのは、第一階層Aに含まれるコマンドのうちの一部であるが、このメニュー画面に表示されているコマンドは、全て目的語と操作語の組み合わせとなっている。このため、使用者は、他のコマンドを発話しようとした場合であっても、このメニュー画面を見ることによって、目的語と操作語とからなるコマンドを発話すればよいことを把握することができる。   By displaying such a menu screen example and presenting commands that can be spoken to the user, the user can grasp what commands should be spoken. Here, what is displayed on the menu screen is a part of the commands included in the first hierarchy A, but all the commands displayed on this menu screen are combinations of the object word and the operation word. It has become. For this reason, the user can grasp that it is sufficient to speak a command composed of an object word and an operation word by looking at this menu screen even when trying to speak another command. .

次に、CPU1034aは、処理を開始した旨を使用者に通知するために、外部記憶装置1035に記憶されている音声メッセージ、例えば「処理を開始しました」や「発話を開始してください」などを出力する。すなわちCPU1034aは、音声メッセージの音声データを外部記憶装置1035から読み込み、D/Aコンバータ1032へ出力する。音声メッセージの音声データは、D/Aコンバータ1032でアナログデータに変換され、出力アンプ1033で増幅された後、スピーカ102を介して出力される。使用者は、音声メッセージを受けて発話を行う。   Next, the CPU 1034a notifies the user that processing has started, such as a voice message stored in the external storage device 1035, such as “processing has started” or “start to speak”. Is output. That is, the CPU 1034 a reads the voice data of the voice message from the external storage device 1035 and outputs it to the D / A converter 1032. The voice data of the voice message is converted into analog data by the D / A converter 1032, amplified by the output amplifier 1033, and then output through the speaker 102. The user speaks in response to the voice message.

CPU1034aは、マイク101を介した音声入力を監視して、使用者による発話音声の入力開始を検出する。具体的には、CPU1034aは、次のようにして発話音声の入力開始を検出する。CPU1034aは、使用者によって、発話スイッチ104aが押下されるまでの間は、マイク101およびA/Dコンバータ1031を介して入力されるデジタル信号の平均パワーを演算している。   The CPU 1034a monitors the voice input via the microphone 101 and detects the start of input of the spoken voice by the user. Specifically, the CPU 1034a detects the start of speech voice input as follows. The CPU 1034a calculates the average power of the digital signal input through the microphone 101 and the A / D converter 1031 until the user presses the speech switch 104a.

そして、使用者によって発話スイッチ104aが押下された後は、マイク101およびA/Dコンバータ1031を介して入力されるデジタル信号の瞬間パワーが、上記平均パワーを所定値以上大きくなったときに、使用者による発話音声の入力が開始されたと検出する。そして、発話音声の入力が開始されたことを検出した場合には、CPU1034aは、音声の取り込みを開始する。   After the utterance switch 104a is pressed by the user, the digital signal input via the microphone 101 and the A / D converter 1031 is used when the average power of the digital signal becomes greater than a predetermined value. It is detected that the input of the spoken voice by the person has started. When it is detected that the input of the speech voice has been started, the CPU 1034a starts to capture the voice.

その後、ステップS30へ進み、CPU1034aは、上述したステップS10でメモリ1034bに読み込んだ認識対象語彙(待ち受け単語)と、取り込んだ音声との一致度を演算する。一致度とは、認識対象語彙と取り込んだ音声とがどの程度似ているかを表す指標であって、本実施の形態では、一致度はスコアとして算出される。このスコアは、数値で表され、値が大きいほど認識対象語彙と取り込んだ音声とが似ていることを意味する。なお、CPU1034aがこの一致度を演算している間も、発話音声の取り込みは継続されている。   Thereafter, the process proceeds to step S30, and the CPU 1034a calculates the degree of coincidence between the recognition target vocabulary (standby word) read into the memory 1034b in step S10 and the captured voice. The degree of coincidence is an index that indicates how similar the recognition target vocabulary and the captured speech are, and in this embodiment, the degree of coincidence is calculated as a score. This score is represented by a numerical value. The larger the value, the more similar the recognition target vocabulary and the captured speech. It should be noted that while the CPU 1034a calculates the degree of coincidence, the utterance voice is continuously captured.

ステップS40では、CPU1034aは、入力されるデジタル信号の瞬間パワーが、所定時間以上継続して所定値以下である場合には、発話音声の入力は終了したと判断して、音声の取り込みを終了する。   In step S40, if the instantaneous power of the input digital signal is not more than a predetermined value for a predetermined time or longer, the CPU 1034a determines that the input of the uttered voice has been completed and ends the voice capturing. .

その後、ステップS50へ進み、CPU1034aは、ステップS30で開始した一致度の演算が終了したら、一致度の最も大きな認識対象語彙から順番にN個の認識対象語彙を認識結果N−bestとして出力する。図10は、使用者が、ナビゲーション装置を操作するための規定コマンドである「行き先設定」を発話した場合の認識結果N−bestを示す図である。なお、図10では、Nが5の場合、すなわち認識結果N−bestとして、一致度が上位の5個の認識対象語彙が出力された場合の具体例を示している。   Thereafter, the process proceeds to step S50, and when the coincidence calculation started in step S30 ends, the CPU 1034a outputs N recognition target vocabularies in order from the recognition target vocabulary having the largest coincidence as recognition results N-best. FIG. 10 is a diagram illustrating a recognition result N-best when the user utters “destination setting” which is a prescribed command for operating the navigation device. FIG. 10 shows a specific example in the case where N is 5, that is, when the five recognition target words having higher matching degrees are output as the recognition result N-best.

この図10に示す例では、使用者による実際の発話内容と一致する認識対象語彙「行き先設定」は、その一致度が第四位と低く算出されている。この場合、従来の一般的な音声認識方法と同様に一致度の最上位の認識対象語彙を最終的な認識結果として採用した場合には、誤認識が生じることになる。よって、本実施の形態では、次のようにして誤認識を防止する。   In the example shown in FIG. 10, the recognition target word “destination setting” that matches the actual utterance content by the user is calculated as low as the fourth rank. In this case, as in the conventional general speech recognition method, when the recognition target vocabulary having the highest matching score is adopted as the final recognition result, erroneous recognition occurs. Therefore, in this embodiment, erroneous recognition is prevented as follows.

CPU1034aは、認識結果N−bestの中で、最も拘束性のレベルが高い言語モデルから出力された認識対象語彙を選択する。例えば、図10に示す例では、第一位の認識結果である「(ガベージ)・(ガベージ)」は拘束性の低レベルの言語モデルから出力された認識対象語彙である。第二位の認識結果である「駅・(ガベージ)・探す」は、拘束性の中レベルの言語モデルから出力された認識対象語彙である。第三位の認識結果である「地図・見せて」は、拘束性の中レベルの言語モデルから出力された認識対象語彙である。第四位の認識結果である「行き先設定」は、拘束性の高レベルの言語モデルから出力された認識対象語彙である。第五位の認識結果である「(ガベージ)・設定」は、拘束性の低レベルの言語モデルから出力された認識対象語彙である。   The CPU 1034a selects the recognition target vocabulary output from the language model having the highest level of restraint among the recognition results N-best. For example, in the example shown in FIG. 10, “(garbage) · (garbage)”, which is the first recognition result, is a recognition target vocabulary output from a low-level language model with constraints. The second recognition result “station / (garbage) / search” is a recognition target vocabulary output from a middle-level language model of restraint. The third recognition result “Map / Show” is the recognition target vocabulary output from the middle-level language model of restraint. “Destination setting”, which is the fourth recognition result, is a recognition target vocabulary output from a highly restrictive language model. The fifth recognition result “(garbage) / setting” is a recognition target vocabulary output from a language model with a low level of restraint.

よって、この図10に示す例では、CPU1034aは、最も拘束性のレベルが高い第四位の認識結果である「行き先設定」を選択する。そして、CPU1034aは、この第四位の認識結果である「行き先設定」を最終的な認識結果として優先採用するか否かの判定を行う。本実施の形態では、CPU1034aは、(A)判定対象の認識結果の順位が所定の順位Nthより高く、かつ(B)第一位の認識機結果と判定対象の認識結果とのスコア差が所定値Lthより小さい場合には、判定対象の認識結果を上位の他の認識結果よりも優先して採用する。なお、判定時の閾値として用いるNthとLthは、それぞれ実験的に求められる値であって、ここでは、Nth=5、Lth=0.10とする。   Therefore, in the example shown in FIG. 10, the CPU 1034a selects “destination setting” which is the fourth recognition result with the highest level of restraint. Then, the CPU 1034a determines whether or not to preferentially adopt the “destination setting” that is the fourth recognition result as the final recognition result. In this embodiment, the CPU 1034a has (A) the recognition result rank of the determination target is higher than the predetermined rank Nth, and (B) the score difference between the first recognition machine result and the determination target recognition result is predetermined. When the value is smaller than the value Lth, the recognition result to be determined is adopted with priority over the other recognition results at the top. Note that Nth and Lth used as threshold values at the time of determination are values obtained experimentally, and here, Nth = 5 and Lth = 0.10.

ここで、判定対象の認識結果である第四位の認識結果についてみると、順位は第四位であるので閾値Nthより大きく条件(A)を満たす。また、第一位の認識結果のスコア(0.25)と第四位の認識結果のスコア(0.18)の差は0,07であって閾値Lthより小さく条件(B)も満たす。よって、CPU1034aは、図10に示す例では、第四位の認識結果を他の上位の認識結果よりも優先して採用すると判定し、第四位の認識結果である「行き先設定」を最終的な認識結果とする。そして、CPU1034aは、音声合成処理を行い、認識結果「行き先設定」を音声信号に変換した後、D/Aコンバータ1032、出力アンプ1033を介して、スピーカ102から音声出力する。   Here, regarding the recognition result of the fourth place, which is the recognition result of the determination target, the rank is the fourth place and satisfies the condition (A) larger than the threshold value Nth. The difference between the score of the first recognition result (0.25) and the score of the fourth recognition result (0.18) is 0.07, which is smaller than the threshold Lth and satisfies the condition (B). Therefore, in the example illustrated in FIG. 10, the CPU 1034a determines that the fourth recognition result is prioritized over the other higher recognition results, and finally sets the fourth destination “destination setting”. Recognition results. The CPU 1034a performs voice synthesis processing, converts the recognition result “destination setting” into a voice signal, and then outputs the voice from the speaker 102 via the D / A converter 1032 and the output amplifier 1033.

また、別の例として、使用者が、ナビゲーション装置を操作するための規定コマンドとは異なる「行き先をえーと探す」を発話した場合に、認識結果N−bestが図11に示すように出力された場合について説明する。この場合もCPU1034aは、認識結果N−bestの中で、最も拘束性のレベルが高い言語モデルから出力された認識対象語彙、すなわち第四位の「ルート設定」を選択する。そして、この第四位の認識結果である「行き先設定」が上述した(A)および(B)の条件を満たすか否かを判定して、最終的な認識結果として優先して採用するか否かを判定する。   As another example, when the user utters “search for a destination” which is different from the prescribed command for operating the navigation device, the recognition result N-best is output as shown in FIG. The case will be described. Also in this case, the CPU 1034a selects the recognition target vocabulary output from the language model having the highest level of restriction, that is, the fourth “route setting” from the recognition result N-best. Then, it is determined whether or not the “destination setting” that is the fourth recognition result satisfies the conditions (A) and (B) described above, and whether or not the final recognition result is preferentially adopted. Determine whether.

この場合には、順位は第四位であるので閾値Nthより大きく条件(A)を満たすが、第一位の認識結果のスコア(0.25)と第四位の認識結果のスコア(0.02)の差は0,12であって閾値Lthより大きいため条件(B)は満たさない。よって、CPU1034aは、この第四位の認識結果は優先して採用しない。   In this case, since the rank is fourth, the condition (A) is satisfied larger than the threshold value Nth, but the first recognition result score (0.25) and the fourth recognition result score (0. The difference of 02) is 0 and 12, which is larger than the threshold value Lth, so the condition (B) is not satisfied. Therefore, the CPU 1034a does not adopt the fourth recognition result with priority.

CPU1034aは、次に、認識結果N−bestの中から2番目に拘束性のレベルが高い言語モデルから出力された認識対象語彙を選択する。図11に示す例では、拘束性の中レベルの言語モデルから出力された第二位の認識結果である「行き先・(ガベージ)・探す」を選択する。そして、この第二位の認識結果が上述した(A)および(B)の条件を満たすか否かを判定して、最終的な認識結果として優先して採用するか否かを判定する。   Next, the CPU 1034a selects the recognition target vocabulary output from the language model having the second highest level of restriction from the recognition result N-best. In the example shown in FIG. 11, “destination / (garbage) / search”, which is the second recognition result output from the restrictive middle-level language model, is selected. Then, it is determined whether or not the second recognition result satisfies the conditions (A) and (B) described above, and it is determined whether or not the final recognition result is preferentially adopted.

この場合には、順位は第2位であるので閾値Nthより大きく条件(A)を満たす。また、第一位の認識結果のスコア(0.25)と第二位の認識結果のスコア(0.22)の差は0,03であって閾値Lthより小さいため条件(B)も満たす。よって、CPU1034aは、この第二位の認識結果を優先して採用する。   In this case, since the rank is second, the condition (A) is satisfied which is greater than the threshold value Nth. The difference between the score of the first recognition result (0.25) and the score of the second recognition result (0.22) is 0.03, which is smaller than the threshold Lth, so the condition (B) is also satisfied. Therefore, the CPU 1034a preferentially adopts the second recognition result.

以上より、CPU1034aは、図11に示す例では、第二位の認識結果を他の上位の認識結果よりも優先して採用すると判定し、第二位の認識結果である「行き先・(ガベージ)・探す」を最終的な認識結果とする。この場合、最終的な認識結果である「行き先・(ガベージ)・探す」をナビゲーション装置用の規定コマンドに変換する必要があるため、「行き先・(ガベージ)・探す」を対応する規定コマンド「行き先設定」に変換する。そして、CPU1034aは、音声合成処理を行い、認識結果「行き先設定」を音声信号に変換した後、D/Aコンバータ1032、出力アンプ1033を介して、スピーカ102から音声出力する。   As described above, in the example illustrated in FIG. 11, the CPU 1034a determines that the second recognition result is prioritized over other higher recognition results, and the second recognition result “destination / (garbage)”. “Find” is the final recognition result. In this case, since it is necessary to convert the final recognition result “destination / (garbage) / search” into a specified command for the navigation device, the corresponding specified command “destination / (garbage) / search” Convert to "setting". The CPU 1034a performs voice synthesis processing, converts the recognition result “destination setting” into a voice signal, and then outputs the voice from the speaker 102 via the D / A converter 1032 and the output amplifier 1033.

なお、この場合、認識結果である「行き先・(ガベージ)・探す」に基づいて、使用者の発話内容に近い「行き先を探す」を音声出力する方法も考えられる。しかしながら、本実施の形態では、使用者に規定コマンドの習得を促すために、規定コマンドに変換した後の「行き先設定」を音声出力するようにしている。   In this case, based on the recognition result “destination / (garbage) / search”, a method of outputting “search for destination” close to the utterance content of the user by voice is also conceivable. However, in this embodiment, in order to prompt the user to learn the specified command, the “destination setting” after being converted into the specified command is output as a voice.

ステップS60では、CPU1034aは、入力装置104からの出力に基づいて、使用者によって訂正スイッチ104bが操作されたか否かを判断する。例えば、使用者は、「行き先設定」と発話したのに対して、認識結果として異なる認識対象語彙、例えば「電話」が音声出力された場合には、誤認識が発生したと判断して訂正スイッチ104bを押下する。CPU1034aは、認識結果を音声出力した後、所定時間、使用者による訂正スイッチ104bの操作を受け付ける。   In step S60, the CPU 1034a determines whether the correction switch 104b has been operated by the user based on the output from the input device 104. For example, if the user utters “Destination setting” but a recognition target vocabulary different from the recognition result, for example, “telephone” is output as a voice, it is determined that a misrecognition has occurred and the correction switch Press 104b. The CPU 1034a receives the operation of the correction switch 104b by the user for a predetermined time after outputting the recognition result by voice.

CPU1034aは、所定時間以内に使用者によって訂正スイッチ104bが操作されたと判断した場合には、認識結果を取り消して、ステップS10へ戻り、使用者からの再発話を受け付ける。一方、CPU1034aは、所定時間以内に訂正スイッチ104bが操作されないと判断した場合には、使用者は認識結果を容認したものとして認識結果を確定し、ステップS70へ進む。   If the CPU 1034a determines that the correction switch 104b has been operated by the user within a predetermined time, the CPU 1034a cancels the recognition result, returns to step S10, and accepts a re-utterance from the user. On the other hand, if the CPU 1034a determines that the correction switch 104b is not operated within the predetermined time, the user confirms the recognition result as having accepted the recognition result, and proceeds to step S70.

ステップS70では、CPU1034aは、認識結果として確定した認識対象語彙に下位の階層があるか否かを判断する。下位の階層が存在すると判断した場合には、ステップS10へ戻って、下位階層を対象とした待ち受け設定を行う。例えば、確定した認識結果が「行き先設定」である場合には、当該認識結果は、図3に示したように、第一階層Aに含まれる認識対象語彙であることから、下位階層として第二階層と第三階層が存在すると判断する。そして、この場合には、CPU1034aは、図9(b)および図9(c)に示した音声入力用のメニュー画面をディスプレイ105へ出力して、使用者に下位階層に含まれるコマンドの発話を促す。   In step S70, the CPU 1034a determines whether or not the recognition target vocabulary determined as the recognition result has a lower hierarchy. If it is determined that there is a lower hierarchy, the process returns to step S10 to perform standby setting for the lower hierarchy. For example, when the confirmed recognition result is “destination setting”, the recognition result is the recognition target vocabulary included in the first hierarchy A as shown in FIG. It is determined that a hierarchy and a third hierarchy exist. In this case, the CPU 1034a outputs the voice input menu screen shown in FIG. 9B and FIG. 9C to the display 105, and utters the command included in the lower layer to the user. Prompt.

これに対して、下位階層がないと判断した場合、すなわち最も下の階層まで音声認識が完了したと判断した場合には、ステップS80へ進む。ステップS80では、CPU1034aは、下位階層まで音声認識したことによって特定される使用者からの操作指示に基づいて、処理を実行する。例えば、ナビゲーション装置上で目的地設定や経路探索を行う。   On the other hand, if it is determined that there is no lower hierarchy, that is, if it is determined that speech recognition has been completed up to the lowest hierarchy, the process proceeds to step S80. In step S80, the CPU 1034a executes processing based on an operation instruction from the user specified by performing voice recognition up to the lower layer. For example, destination setting and route search are performed on the navigation device.

図12は、本実施の形態における音声認識装置100を使用してナビゲーション装置を操作する場合の使用者による発話と音声認識装置100による応答の具体例を示した図である。この図12は、使用者が規定のコマンドを発話して、ナビゲーション装置を操作する場合を示している。   FIG. 12 is a diagram illustrating a specific example of the utterance by the user and the response by the voice recognition device 100 when the navigation device is operated using the voice recognition device 100 according to the present embodiment. FIG. 12 shows a case where the user speaks a prescribed command and operates the navigation device.

CPU1034aは、使用者に対してコマンドの発話を促すためのシステムメッセージAとして「コマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(a)に示した拘束性の高レベルの言語モデルの第一階層Aに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、ナビゲーション装置で行き先を設定するためのユーザ発話Bとして規定コマンドである「行き先設定」を発話する。   The CPU 1034a outputs “command please” from the speaker 102 as a system message A for prompting the user to speak a command, and waits for a speech from the user. At the same time, the CPU 1034a displays a menu screen displaying commands included in the first hierarchy A of the high-level language model shown in FIG. 9A on the display 105. In response to this, the user utters “destination setting”, which is a specified command, as user utterance B for setting the destination with the navigation device.

CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、図10で上述したように、認識結果N−bestの中から「行き先設定」を認識結果として特定する。そして、CPU1034aは、使用者に対して下位の階層のコマンドの発話を促すためのシステムメッセージCとして「行き先設定のコマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(b)に示した拘束性の高レベルの言語モデルの第二階層Bに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から行き先を選択するためのユーザ発話Dとして規定コマンドである「登録地表示」を発話する。   The CPU 1034a receives the speech from the user, executes the above-described speech recognition process, and identifies “destination setting” as the recognition result from the recognition result N-best as described above with reference to FIG. Then, the CPU 1034a outputs “Destination setting command please” from the speaker 102 as a system message C for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the second hierarchy B of the high-level language model shown in FIG. 9B are displayed. In response to this, the user utters “registration location display”, which is a specified command, as user utterance D for selecting a destination from the registration locations.

CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、
認識結果N−bestの中から「登録地表示」を認識結果として特定する。そして、CPU1034aは、使用者に対してさらに下位の階層のコマンドの発話を促すためのシステムメッセージEとして「登録地表示の番号をどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(c)に示した拘束性の高レベルの言語モデルの第三階層Cに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から登録地の番号を選択するためのユーザ発話Fとして「3番」を発話する。
CPU1034a receives the speech by a user, performs the speech recognition process mentioned above,
“Registered place display” is specified as the recognition result from the recognition result N-best. Then, the CPU 1034a outputs “Registered location display number please” from the speaker 102 as a system message E for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the third layer C of the high-level language model shown in FIG. In response to this, the user utters “No. 3” as the user utterance F for selecting a registration place number from the registration places.

CPU1034aは、以上の処理によって、「△△社」を行き先として設定するようにナビゲーション装置を制御する。これによって、使用者は音声操作によりナビゲーション装置を操作できる。   The CPU 1034a controls the navigation device so as to set “△△ Company” as the destination by the above processing. Thereby, the user can operate the navigation device by voice operation.

次に、図13により、使用者が規定のコマンドとは異なる内容を発話した場合の具体例について説明する。使用者に対してコマンドの発話を促すためのシステムメッセージAとして「コマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(a)に示した拘束性の高レベルの言語モデルの第一階層Aに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、ナビゲーション装置で行き先を設定するためのユーザ発話Bとして規定コマンドとは異なる内容の「行き先をえーと探す」を発話する。   Next, referring to FIG. 13, a specific example when the user utters content different from the prescribed command will be described. As a system message A for prompting the user to speak a command, “command please” is output from the speaker 102, and the user speaks for a speech. At the same time, the CPU 1034a displays a menu screen displaying commands included in the first hierarchy A of the high-level language model shown in FIG. 9A on the display 105. In response to this, the user utters “search for a destination”, which is different from the prescribed command, as user utterance B for setting the destination with the navigation device.

CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、図11で上述したように、認識結果N−bestの中から「行き先・(ガベージ)・探す」を認識結果として特定し、これを対応する規定コマンド「行き先設定」に変換する。そして、CPU1034aは、使用者に対して下位の階層のコマンドの発話を促すためのシステムメッセージCとして「行き先設定のコマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(b)に示した拘束性の高レベルの言語モデルの第二階層Bに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から行き先を選択するためのユーザ発話Dとして規定コマンドである「登録地表示」を発話する。   The CPU 1034a receives the utterance by the user, executes the above-described speech recognition process, and identifies “destination / (garbage) / search” as the recognition result from the recognition result N-best as described above with reference to FIG. Then, this is converted into a corresponding prescribed command “destination setting”. Then, the CPU 1034a outputs “Destination setting command please” from the speaker 102 as a system message C for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the second hierarchy B of the high-level language model shown in FIG. 9B are displayed. In response to this, the user utters “registration location display”, which is a specified command, as user utterance D for selecting a destination from the registration locations.

CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、
認識結果N−bestの中から「登録地表示」を認識結果として特定する。そして、CPU1034aは、使用者に対してさらに下位の階層のコマンドの発話を促すためのシステムメッセージEとして「登録地表示の番号をどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(c)に示した拘束性の高レベルの言語モデルの第三階層Cに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から登録地の番号を選択するためのユーザ発話Fとして「3番」を発話する。
CPU1034a receives the speech by a user, performs the speech recognition process mentioned above,
“Registered place display” is specified as the recognition result from the recognition result N-best. Then, the CPU 1034a outputs “Registered location display number please” from the speaker 102 as a system message E for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the third layer C of the high-level language model shown in FIG. In response to this, the user utters “No. 3” as the user utterance F for selecting a registration place number from the registration places.

以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
(1)使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を音声認識実行時の認識対象語彙として待ち受け、使用者による発話音声と認識対象語彙との一致度を演算して、認識結果候補として認識結果N−bestを抽出する。そして、認識結果N−bestに含まれる認識対象語彙の一致度、およびその認識結果候補を含む言語モデルの拘束性のレベルに基づいて、認識結果N−bestの中から認識結果を特定するようにした。これによって、使用者が規定コマンドを表現を変更して、拘束性の低い語彙を発話した場合でも、誤認識が生じる可能性を低減することができる。
According to the present embodiment described above, the following operational effects can be obtained.
(1) A vocabulary represented by a plurality of language models with different levels of restraint that restricts the utterance content of the user is awaited as a vocabulary to be recognized when executing speech recognition, and the utterance speech by the user matches the vocabulary to be recognized. The degree is calculated, and the recognition result N-best is extracted as a recognition result candidate. Then, the recognition result is identified from the recognition result N-best based on the matching degree of the recognition target vocabulary included in the recognition result N-best and the level of restriction of the language model including the recognition result candidate. did. Thereby, even when the user changes the expression of the specified command and utters a vocabulary with low restraint, the possibility of erroneous recognition can be reduced.

(2)拘束性のレベルが異なる複数の言語モデルは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない拘束性の高レベルの言語モデル、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している拘束性の中レベルの言語モデル、および認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない拘束性の低レベルの言語モデルを含むようにした。これによって、使用者による様々な態様の発話を待ち受けて、精度高く音声認識することができる。 (2) A plurality of language models having different levels of restrictiveness constitutes a recognition-target vocabulary and a high-level language model that does not allow insertion of an arbitrary phoneme string in a word string constituting the recognition-target vocabulary Arbitrary phoneme strings are allowed to be inserted into word strings, and a recognizable medium-level language model in which recognizable word strings are established, and arbitrary phonemes into word strings constituting recognition vocabulary Including a low-level language model that allows insertion of strings and has no recognizable word strings. As a result, it is possible to recognize speech with high accuracy while waiting for various modes of speech by the user.

(3)認識結果候補である認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙を優先して認識結果として特定するようにした。これによって、使用者が規定コマンドのような拘束性のレベルが高い言語モデルの発話を行った場合に、拘束性のレベルが低い言語モデルの認識対象語彙が誤って認識されることを防止することができる。 (3) From the recognition result N-best which is a recognition result candidate, the recognition target vocabulary of the language model having a higher level of restraint is preferentially specified as the recognition result. This prevents the recognition target vocabulary of a language model with a low level of restriction when the user utters a language model with a high level of restriction such as a specified command. Can do.

(4)認識結果候補である認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙の一致度との差(スコア差)が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。これによって、認識結果N−bestの中に、より拘束性のレベルが高い言語モデルの認識対象語彙が含まれている場合であっても、その一致度が低い場合には、それが優先的に採用されることを防いで、誤認識を防止することができる。 (4) A recognition target vocabulary of a language model having a higher level of restraint among the recognition results N-best which are recognition result candidates, and the recognition with the highest matching degree and the matching degree of the recognition target vocabulary When the difference (score difference) from the matching degree of the target vocabulary is smaller than a predetermined threshold, the recognition target vocabulary is specified with priority as a recognition result. As a result, even if the recognition result vocabulary of the language model having a higher level of restraint is included in the recognition result N-best, if the degree of coincidence is low, it is preferentially used. It is possible to prevent misrecognition by preventing the adoption.

(5)使用者が発話可能な認識対象語彙をディスプレイ105に表示して提示するようにした。これによって、使用者は、発話すべき語彙をあらかじめ把握することができる。 (5) The recognition target vocabulary that the user can utter is displayed on the display 105 and presented. As a result, the user can grasp in advance the vocabulary to be uttered.

(6)認識結果に基づいて、使用者に対する応答文を生成して出力するようにした。これによって、使用者は、直前の発話内容が正しく認識されたかを把握することができる。 (6) A response sentence for the user is generated and output based on the recognition result. As a result, the user can grasp whether or not the content of the immediately preceding utterance has been correctly recognized.

(7)一致度の演算によって得られる一致度が所定値以上となる所定数の認識対象語彙を認識結果N−bestとして抽出するようにした。これによって、使用者による発話内容と一致する可能性が高い語彙を認識結果の候補とすることができる。 (7) A predetermined number of recognition target vocabularies having a matching degree obtained by calculating the matching degree equal to or greater than a predetermined value are extracted as recognition results N-best. Thus, a vocabulary that is highly likely to match the content of the utterance by the user can be set as a recognition result candidate.

―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
(1)上述した実施の形態では、CPU1034aは、認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙とスコア差が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。しかしながら、CPU1034aは、認識結果N−bestに含まれる認識対象語彙の一致度、およびその認識対象語彙を含む言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、認識結果を特定するようにしてもよい。例えば、認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙を優先して認識結果として特定するようにしてもよい。
-Modification-
Note that the speech recognition apparatus of the above-described embodiment can be modified as follows.
(1) In the above-described embodiment, the CPU 1034a is the recognition target vocabulary of the language model having a higher level of restraint among the recognition results N-best, and the matching degree of the recognition target vocabulary is the highest. When the recognition target vocabulary having a high degree of coincidence and the score difference is smaller than a predetermined threshold, the recognition target vocabulary is preferentially specified as the recognition result. However, the CPU 1034a specifies the recognition result based on at least one of the matching degree of the recognition target vocabulary included in the recognition result N-best and the level of restriction of the language model including the recognition target vocabulary. May be. For example, the recognition target vocabulary of the language model having a higher level of restriction may be specified as the recognition result with priority from the recognition result N-best.

(2)上述した実施の形態では、CPU1034aは、認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙とスコア差が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。しかしながら、CPU1034aは、一致度演算に際して、拘束性のレベルが高い言語モデルの認識対象語彙のスコアに所定のスコアを加算する、あるいは所定の重み付け係数を乗算することにより、前記語彙を優先して認識結果として特定するようにしてもよい。 (2) In the above-described embodiment, the CPU 1034a is the recognition target vocabulary of the language model having a higher level of restraint among the recognition results N-best, and the matching degree of the recognition target vocabulary is the highest. When the recognition target vocabulary having a high degree of coincidence and the score difference is smaller than a predetermined threshold, the recognition target vocabulary is specified with priority as a recognition result. However, the CPU 1034a preferentially recognizes the vocabulary by adding a predetermined score or multiplying a predetermined weighting coefficient to the recognition target vocabulary score of the language model having a high level of restriction when calculating the degree of coincidence. It may be specified as a result.

(3)上述した実施の形態では、音声認識装置100を用いて音声操作が可能なナビゲーション装置を操作する例について説明した。しかしながら、音声認識装置100は、音声操作可能な他の機器に適用することも可能である。 (3) In the above-described embodiment, the example in which the navigation apparatus capable of voice operation is operated using the voice recognition apparatus 100 has been described. However, the speech recognition apparatus 100 can also be applied to other devices that can perform voice operations.

なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。   Note that the present invention is not limited to the configurations in the above-described embodiments as long as the characteristic functions of the present invention are not impaired.

音声認識装置の一実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of one Embodiment of a speech recognition apparatus. 音声認識装置100の処理を示すフローチャート図である。4 is a flowchart showing processing of the speech recognition apparatus 100. FIG. 拘束性の高レベルの言語モデルの具体例を示す図である。It is a figure which shows the specific example of a language model of a restraint high level. 拘束性の高レベルの言語モデルを読み込むことにより待ち受け可能な認識対象語彙の具体例を示す図である。It is a figure which shows the specific example of the recognition object vocabulary which can be awaited by reading the language model of a restraint high level. 拘束性の中レベルの言語モデルの具体例を示す図である。It is a figure which shows the specific example of a language model of a restraint medium level. 拘束性の中レベルの言語モデルを読み込むことにより待ち受け可能な認識対象語彙の具体例を示す図である。It is a figure which shows the specific example of the recognition object vocabulary which can be waited by reading the language model of a restraint medium level. 拘束性の低レベルの言語モデルの具体例を示す図である。It is a figure which shows the specific example of a language model of a restraining low level. 拘束性の低レベルの言語モデルを読み込むことにより待ち受け可能な認識対象語彙の具体例を示す図である。It is a figure which shows the specific example of the recognition object vocabulary which can be awaited by reading the language model of a restraining low level. 音声入力用のメニュー画面の具体例を示す図である。It is a figure which shows the specific example of the menu screen for audio | voice input. 認識結果N−bestの具体例を示す第1の図である。It is a 1st figure which shows the specific example of recognition result N-best. 認識結果N−bestの具体例を示す第2の図である。It is a 2nd figure which shows the specific example of recognition result N-best. 使用者による発話と音声認識装置100による応答の具体例を示した第1の図である。It is the 1st figure which showed the specific example of the speech by the user, and the response by the speech recognition apparatus. 使用者による発話と音声認識装置100による応答の具体例を示した第2の図である。It is the 2nd figure which showed the specific example of the speech by the user, and the response by the speech recognition apparatus.

符号の説明Explanation of symbols

100 音声認識装置、101 マイク、102 スピーカ、103 信号処理ユニット、1031 A/Dコンバータ、1032 D/Aコンバータ、1033 出力アンプ、1034 信号処理装置、1034a CPU、1034b メモリ、1035 外部記憶装置、104 入力装置、104a 発話スイッチ、104b 訂正スイッチ、105 ディスプレイ DESCRIPTION OF SYMBOLS 100 Speech recognition apparatus, 101 Microphone, 102 Speaker, 103 Signal processing unit, 1031 A / D converter, 1032 D / A converter, 1033 Output amplifier, 1034 Signal processing apparatus, 1034a CPU, 1034b Memory, 1035 External storage device, 104 input Device, 104a speech switch, 104b correction switch, 105 display

Claims (8)

使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶する記憶手段と、
使用者による発話音声を入力する音声入力手段と、
前記記憶手段に記憶した前記認識対象語彙と、前記音声入力手段で入力した前記発話音声との一致度を演算する一致度演算手段と、
前記一致度演算手段による演算結果に基づいて、前記認識対象語彙から認識結果候補を抽出する候補抽出手段と、
前記候補抽出手段で抽出した前記認識結果候補に含まれる各認識対象語彙の一致度、および各認識対象語彙の言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、前記認識結果候補の中から認識結果を特定する認識結果特定手段とを備えることを特徴とする音声認識装置。
Storage means for storing a vocabulary represented by a plurality of language models with different levels of restraint that restricts the user's utterance content as a recognition target vocabulary when executing speech recognition
A voice input means for inputting speech voice by the user;
A degree of coincidence calculating means for calculating a degree of coincidence between the recognition target vocabulary stored in the storage means and the uttered voice input by the voice input means;
Candidate extraction means for extracting a recognition result candidate from the recognition target vocabulary based on a calculation result by the matching degree calculation means;
Based on at least one of the matching level of each recognition target vocabulary included in the recognition result candidate extracted by the candidate extraction unit and the level of restriction of the language model of each recognition target vocabulary, A speech recognition apparatus comprising: a recognition result specifying means for specifying a recognition result from
請求項1に記載の音声認識装置において、
前記拘束性のレベルが異なる複数の言語モデルは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない拘束性の高レベルの言語モデル、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している拘束性の中レベルの言語モデル、および認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない拘束性の低レベルの言語モデルを含むことを特徴とする音声認識装置。
The speech recognition apparatus according to claim 1,
The plurality of language models having different levels of restriction are a high-level language model that does not allow insertion of an arbitrary phoneme string in a word string constituting a recognition target vocabulary, and a word string constituting a recognition target vocabulary An arbitrary phoneme string is allowed to be inserted, and a recognizable medium-level language model in which a recognizable word string is determined, and an arbitrary phoneme string is included in the word string constituting the recognition target vocabulary. A speech recognition apparatus characterized by including a low-level language model that allows insertion and has no definite recognizable word string.
請求項2に記載の音声認識装置において、
前記認識結果特定手段は、前記認識結果候補の中から、より拘束性のレベルが高い前記言語モデルの前記認識対象語彙を優先して前記認識結果として特定することを特徴とする音声認識装置。
The speech recognition device according to claim 2,
The speech recognition apparatus according to claim 1, wherein the recognition result specifying unit preferentially specifies the recognition target vocabulary of the language model having a higher level of restriction from the recognition result candidates as the recognition result.
請求項2に記載の音声認識装置において、
前記認識結果特定手段は、前記認識結果候補の中から、より拘束性のレベルが高い前記言語モデルの前記認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙との差が所定値より小さい前記認識対象語彙を優先して前記認識結果として特定することを特徴とする音声認識装置。
The speech recognition device according to claim 2,
The recognition result specifying unit recognizes the recognition target vocabulary of the language model having a higher level of restraint among the recognition result candidates, and the recognition degree having the highest coincidence with the recognition word vocabulary. A speech recognition apparatus characterized by preferentially specifying the recognition target vocabulary having a difference from the target vocabulary smaller than a predetermined value as the recognition result.
請求項1〜4のいずれか一項に記載の音声認識装置において、
使用者が発話可能な前記認識対象語彙を表示装置に表示する表示制御手段をさらに備えることを特徴とする音声認識装置。
In the voice recognition device according to any one of claims 1 to 4,
A speech recognition apparatus, further comprising display control means for displaying the recognition target vocabulary that a user can utter on a display device.
請求項1〜5のいずれか一項に記載の音声認識装置において、
前記認識結果特定手段で特定した前記認識結果に基づいて、使用者に対する応答文を生成して出力する応答文出力手段をさらに備えることを特徴とする音声認識装置。
In the voice recognition device according to any one of claims 1 to 5,
A speech recognition apparatus, further comprising: response sentence output means for generating and outputting a response sentence for a user based on the recognition result specified by the recognition result specifying means.
請求項1〜6のいずれか一項に記載の音声認識装置において、
前記候補抽出手段は、前記一致度演算手段による演算の結果、前記一致度が所定値以上となる所定数の前記認識対象語彙を前記認識結果候補として抽出することを特徴とする音声認識装置。
In the voice recognition device according to any one of claims 1 to 6,
The speech extraction apparatus according to claim 1, wherein the candidate extracting unit extracts a predetermined number of the recognition target vocabularies having the matching degree equal to or higher than a predetermined value as the recognition result candidates as a result of the calculation by the matching degree calculating unit.
使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶し、
使用者による発話音声を入力し、
記憶した前記認識対象語彙と、入力した前記発話音声との一致度を演算し、
前記一致度の演算結果に基づいて、前記認識対象語彙から認識結果候補を抽出し、
抽出した前記認識結果候補に含まれる各認識対象語彙の一致度、および各認識対象語彙の言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、前記認識結果候補の中から認識結果を特定することを特徴とする音声認識方法。
Vocabulary represented by a plurality of language models with different levels of restraint that restrict the user's utterance content is stored as a recognition target vocabulary when performing speech recognition,
Enter the voice spoken by the user,
The degree of coincidence between the stored vocabulary to be recognized and the input speech is calculated,
Based on the calculation result of the degree of coincidence, a recognition result candidate is extracted from the recognition target vocabulary,
A recognition result is identified from the recognition result candidates based on at least one of the matching level of each recognition target vocabulary included in the extracted recognition result candidates and the level of restriction of the language model of each recognition target vocabulary A speech recognition method characterized by:
JP2007164538A 2007-06-22 2007-06-22 Speech recognition apparatus and speech recognition method Expired - Fee Related JP4951422B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007164538A JP4951422B2 (en) 2007-06-22 2007-06-22 Speech recognition apparatus and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007164538A JP4951422B2 (en) 2007-06-22 2007-06-22 Speech recognition apparatus and speech recognition method

Publications (2)

Publication Number Publication Date
JP2009003205A true JP2009003205A (en) 2009-01-08
JP4951422B2 JP4951422B2 (en) 2012-06-13

Family

ID=40319653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007164538A Expired - Fee Related JP4951422B2 (en) 2007-06-22 2007-06-22 Speech recognition apparatus and speech recognition method

Country Status (1)

Country Link
JP (1) JP4951422B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009081895A1 (en) * 2007-12-25 2009-07-02 Nec Corporation Voice recognition system, voice recognition method, and voice recognition program
JP2019078463A (en) * 2017-10-25 2019-05-23 株式会社パロマ Heating cooker
JP7489928B2 (en) 2021-02-04 2024-05-24 Toa株式会社 Information processing device, system, device control device, and program for operating a device by voice

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08211893A (en) * 1994-12-08 1996-08-20 Toshiba Corp Speech recognition device
JPH117292A (en) * 1997-06-16 1999-01-12 Nec Corp Speech recognition device
JP2003345383A (en) * 2002-05-27 2003-12-03 Pioneer Electronic Corp Method, device, and program for voice recognition
JP2005208198A (en) * 2004-01-21 2005-08-04 Nissan Motor Co Ltd Voice recognition device and voice recognition method
JP2005534983A (en) * 2002-08-01 2005-11-17 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Automatic speech recognition method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08211893A (en) * 1994-12-08 1996-08-20 Toshiba Corp Speech recognition device
JPH117292A (en) * 1997-06-16 1999-01-12 Nec Corp Speech recognition device
JP2003345383A (en) * 2002-05-27 2003-12-03 Pioneer Electronic Corp Method, device, and program for voice recognition
JP2005534983A (en) * 2002-08-01 2005-11-17 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Automatic speech recognition method
JP2005208198A (en) * 2004-01-21 2005-08-04 Nissan Motor Co Ltd Voice recognition device and voice recognition method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009081895A1 (en) * 2007-12-25 2009-07-02 Nec Corporation Voice recognition system, voice recognition method, and voice recognition program
JP5310563B2 (en) * 2007-12-25 2013-10-09 日本電気株式会社 Speech recognition system, speech recognition method, and speech recognition program
US8639507B2 (en) 2007-12-25 2014-01-28 Nec Corporation Voice recognition system, voice recognition method, and program for voice recognition
JP2019078463A (en) * 2017-10-25 2019-05-23 株式会社パロマ Heating cooker
JP7489928B2 (en) 2021-02-04 2024-05-24 Toa株式会社 Information processing device, system, device control device, and program for operating a device by voice

Also Published As

Publication number Publication date
JP4951422B2 (en) 2012-06-13

Similar Documents

Publication Publication Date Title
WO2015151157A1 (en) Device and method for understanding user intent
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP4845118B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP4867622B2 (en) Speech recognition apparatus and speech recognition method
US8185400B1 (en) System and method for isolating and processing common dialog cues
JP2008009153A (en) Voice interactive system
JP2021105736A (en) Information processing device, method and program
WO2006083020A1 (en) Audio recognition system for generating response audio by using audio data extracted
JP5189858B2 (en) Voice recognition device
JP2008033198A (en) Voice interaction system, voice interaction method, voice input device and program
JP2006208486A (en) Voice inputting device
US20170270923A1 (en) Voice processing device and voice processing method
JP4951422B2 (en) Speech recognition apparatus and speech recognition method
KR101283271B1 (en) Apparatus for language learning and method thereof
JP4639094B2 (en) Speech recognition system, speech recognition apparatus, and speech recognition program
CN111145748A (en) Audio recognition confidence determining method, device, equipment and storage medium
JP4639990B2 (en) Spoken dialogue apparatus and speech understanding result generation method
JP4930014B2 (en) Speech recognition apparatus and speech recognition method
JP6966374B2 (en) Speech recognition system and computer program
JP2007183516A (en) Voice interactive apparatus and speech recognition method
JP2012255867A (en) Voice recognition device
WO2019142447A1 (en) Information processing device and information processing method
JP4736423B2 (en) Speech recognition apparatus and speech recognition method
JP2006172110A (en) Response data output device, and response data outputting method and program
JP5476760B2 (en) Command recognition device

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4951422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees