JP2009251470A - In-vehicle information system - Google Patents
In-vehicle information system Download PDFInfo
- Publication number
- JP2009251470A JP2009251470A JP2008101885A JP2008101885A JP2009251470A JP 2009251470 A JP2009251470 A JP 2009251470A JP 2008101885 A JP2008101885 A JP 2008101885A JP 2008101885 A JP2008101885 A JP 2008101885A JP 2009251470 A JP2009251470 A JP 2009251470A
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- content
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、ユーザの発話の特徴を学習することにより音声認識の精度を向上させた車載情報システムに関する。 The present invention relates to an in-vehicle information system in which the accuracy of speech recognition is improved by learning features of a user's utterance.
従来より、車載用のナビゲーション装置では音声入力における認識精度を向上させるために種々の工夫がなされている。 2. Description of the Related Art Conventionally, various ingenuity has been made in an in-vehicle navigation device in order to improve recognition accuracy in voice input.
例えば、音声認識を行う際に誤認識が発生した場合に、複数回のやり直しを行った後においても誤認識が発生するときは、認識用のテンプレートを他のテンプレートに入れ替えて音声認識を再実行するナビゲーション装置が提案されている(例えば、特許文献1参照)。
ところで、上述のような従来のナビゲーション装置では、音声認識に用いるテンプレートは不特定多数のユーザを想定して作製されているため、他のテンプレートに入れ替えても、精度の向上には限界があった。 By the way, in the conventional navigation apparatus as described above, since the template used for speech recognition is prepared assuming an unspecified number of users, there is a limit in improving accuracy even if it is replaced with another template. .
そこで、本発明は、個々のユーザの発話の特徴を学習することにより、音声認識精度の向上を図った車載情報システムを提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide an in-vehicle information system in which speech recognition accuracy is improved by learning features of individual users' utterances.
本発明の一局面の車載情報システムは、手動操作により指令を入力する第1入力手段と、音声を入力する第2入力手段と、前記第2入力手段に入力される音声を音声認識する音声認識手段と、前記第1入力手段に入力される指令の内容、又は前記音声認識手段によって音声認識される音声の意味内容に基づき、所定の情報を出力する情報処理手段と、前記第2入力手段に音声が入力された後の所定時間内に前記第1入力手段へ指令が入力されると、当該指令の内容を表すデータと、前記第2入力手段に入力される音声を表す音声データとに基づき、前記音声認識手段における認識手法を学習する学習手段とを含む。 An in-vehicle information system according to one aspect of the present invention includes a first input unit that inputs a command by manual operation, a second input unit that inputs a voice, and a voice recognition that recognizes a voice input to the second input unit. Means, information processing means for outputting predetermined information based on the content of the command input to the first input means, or the meaning content of the voice recognized by the voice recognition means, and the second input means When a command is input to the first input means within a predetermined time after the voice is input, based on data representing the content of the command and voice data representing the voice input to the second input means. Learning means for learning a recognition method in the voice recognition means.
また、前記学習手段は、前記第1入力手段に入力された指令の内容を表すデータと、前記音声データとの一致度合いに基づき、前記第2入力手段に入力される音声の特徴を学習することにより、前記音声認識手段における認識手法を学習してもよい。 Further, the learning means learns the characteristics of the voice input to the second input means based on the degree of coincidence between the data representing the content of the command input to the first input means and the voice data. Thus, the recognition method in the voice recognition means may be learned.
また、音声の特徴を評価するための基準値と、音声データの意味内容を特定するための閾値とを格納する音声認識辞書をさらに含み、前記音声認識手段は、前記第2入力手段に入力される音声の特徴の評価値と前記音声認識辞書に格納された基準値との類似度を前記閾値と比較することによって当該音声の意味内容を認識するように構成されており、前記学習手段は、前記第1入力手段に入力された指令の内容を表すデータと、前記音声データとの一致度合いに基づいて前記閾値を変更することにより、前記音声認識手段における認識手法を学習してもよい。 The voice recognition dictionary further stores a reference value for evaluating the feature of the voice and a threshold value for specifying the semantic content of the voice data, and the voice recognition means is input to the second input means. The speech content evaluation value and the reference value stored in the speech recognition dictionary are compared with the threshold value to recognize the semantic content of the speech, and the learning means The recognition method in the voice recognition unit may be learned by changing the threshold based on the degree of coincidence between the data representing the content of the command input to the first input unit and the voice data.
また、前記音声の特徴は、声紋、アクセント、ピッチ、又は発話内容の少なくともいずれか一つであってもよい。 The voice feature may be at least one of a voice print, an accent, a pitch, and an utterance content.
また、前記第1入力手段はタッチパネル式表示手段、又は遠隔操作装置であってもよい。 The first input means may be a touch panel display means or a remote operation device.
前記情報処理手段は、ナビゲーション装置の演算処理手段に含まれてもよい。 The information processing means may be included in arithmetic processing means of the navigation device.
本発明によれば、個々のユーザの発話の特徴を学習することにより、音声認識精度の向上を図った車載情報システムを提供できるという特有の効果が得られる。 According to the present invention, it is possible to provide a unique effect that an in-vehicle information system with improved voice recognition accuracy can be provided by learning the features of each user's utterance.
以下、本発明の車載情報システムを適用した実施の形態について説明する。 Embodiments to which the in-vehicle information system of the present invention is applied will be described below.
図1は、本実施の形態の車載情報システムの構成を示す図である。この車載情報システムはナビゲーション装置10であり、以下で説明する学習機能はナビゲーションECU(Electronic Control Unit)11によって実現される。
FIG. 1 is a diagram showing a configuration of an in-vehicle information system according to the present embodiment. This in-vehicle information system is a
このナビゲーション装置10は、ナビゲーションECU11に加えて、タッチパネル12、現在位置検出部13、方位検出部14、ルート検索部15、地図データベース16、マイク17、音声認識辞書18、受信部19、及び遠隔操作装置20を備える。
In addition to the
ナビゲーションECU11は、図示しないバスを介してCPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等からなるマイクロコンピュータを中心として構成される。 The navigation ECU 11 is configured around a microcomputer including a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like via a bus (not shown).
タッチパネル12には、電子地図と自車両の位置のほか、ナビゲーション装置10の所定の機能(例えば、ルート検索機能等)を実現するための入力スイッチが表示される。このタッチパネル12は、手動操作により指令を入力する入力手段であり、例えば、液晶モニタとマトリクススイッチとを組み合わせたものであればよく、パネルに表示した入力スイッチが利用者に押圧されることにより、操作可能に構成されていればよい。
In addition to the electronic map and the position of the host vehicle, the
現在位置検出部13は、衛星航法システム(GPS:Global Positioning System)を利用して車両の現在位置及び走行速度等を計算するGPS受信装置で構成される。
The current
方位検出部14は、ジャイロコンパスで構成される。
The
ルート検索部15は、利用者から指定された検索条件に重み付けを行うことにより、候補のルートの中から最適ルートを検索するように構成される。
The
また、地図データベース16は、ナビゲーション装置に必要な電子地図を格納できればよく、例えば、ハードディスクで構成される。
Moreover, the
マイク17は、音声を入力する入力手段であり、入力された音声は、音声データに変換されてナビゲーションECU11に入力される。ナビゲーションECU11は、後述する音声認識機能により、音声データの意味内容を認識する。
The
音声認識辞書18は、ナビゲーションECU11が音声認識機能を実行する際に利用される辞書であり、様々な音声の音声データの評価の基準となる基準値と、音声データを特定するための判定に用いる閾値と、その音声の意味内容を表す意味内容データとを関連付けて群データとして格納するデータベースであり、例えば、ハードディスクで構成される。なお、音声データを特定するための判定に用いる閾値については後述する。
The
受信部19は、遠隔操作装置20から送信される指令を受信する受信手段であり、遠隔操作装置20に手動操作によって入力される指令を受信し、ナビゲーションECU11に伝送するように構成されている。
The
ナビゲーション装置10は、利用者がタッチパネル12又は遠隔装置20を通じて手動操作による指令を入力できるとともに、マイク17を通じて音声による指令を入力できるように構成されており、上述の検出部等(13、14、15)によって検出される情報や地図データを用いて電子地図上における自車両の位置を表す位置データを導出することにより、利用者に所望の案内情報を提供できるように構成されていればよい。
The
本実施の形態では、ナビゲーションECU11は、利用者に所望の案内情報を提供するための案内機能に加えて、利用者の発話の特徴に基づいて音声認識機能における認識手法を学習する学習機能を有する。この学習機能については図2を用いて説明する。 In the present embodiment, the navigation ECU 11 has a learning function for learning a recognition method in the voice recognition function based on the features of the user's utterance, in addition to the guidance function for providing desired guidance information to the user. . This learning function will be described with reference to FIG.
図2は、本実施の形態の車載情報システムにおける音声認識手法の学習機能を示すブロック図である。 FIG. 2 is a block diagram showing the learning function of the speech recognition method in the in-vehicle information system of the present embodiment.
ナビゲーションECU11は、入力管理部21、入力解析制御部22、手動入力解析部23、音声認識部24、及び音声認識学習部25を含む。なお、この図2は、ナビゲーションECU11が含む機能のうち、音声認識機能と認識手法の学習機能を実現するために必要なブロックだけを示すが、ナビゲーションECU11は、利用者に所望の案内情報を提供するための案内機能を実現するための他のブロックを含むものである。
The
入力管理部21は、タッチパネル12、マイク17、又は遠隔操作装置20に入力される指令の管理を行う。入力された指令は、入力解析制御部22に伝送される。
The
入力解析制御部22は、入力される指令を解析する機能を有し、入力管理部21から入力される指令を手動入力解析部23又は音声認識部24に伝送する。タッチパネル12及び遠隔装置20から入力される指令は、手動入力解析部23に伝送され、マイク17から入力される指令は、音声データに変換されて音声認識部24に伝送される。
The input
また、この入力解析制御部22は、入力管理部21を介してマイク17から指令が入力された場合には、その後の経過時間をカウントする。この場合において、所定時間以内に入力管理部21を介してタッチパネル12又は遠隔操作装置20から指令が入力された場合には、その旨を表す信号を音声認識学習部25に伝送する。なお、この所定時間は、例えば5秒間に設定される。
In addition, when an instruction is input from the
手動入力解析部23は、タッチパネル12及び遠隔装置20から入力される指令を解析する。タッチパネル12及び遠隔装置20から入力される指令は、ナビゲーション装置10を操作するための指令である。例えば、現在地を入力するために、タッチパネル12又は遠隔装置20の「現在地」ボタンが押された場合は、現在地を入力するモードを選択するための指令となる。手動入力解析部23は、必要に応じてこの指令を音声認識学習部25に伝送する。
The manual
音声認識部24は、音声認識辞書18を用いて、入力解析制御部22から伝送される音声データの意味内容を認識する。この認識処理は、音声データに含まれる複数の認証子を評価することによって行われる。認証子は、声紋、アクセント、ピッチ、及び発話内容であり、これらのうち、声紋、アクセント、及びピッチは発話の特徴を表す。
The
また、この評価は、音声データの評価値(声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値)と、評価基準となるパラメータ(声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPd)との類似度を判定することによって行われる。これらのパラメータ(声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPd)の値(基準値)を表すデータは、音声認識辞書18に格納されている。
This evaluation is performed by evaluating voice data evaluation values (voice print evaluation value, accent evaluation value, pitch evaluation value, and utterance content evaluation value) and evaluation reference parameters (voice print parameter Pa, accent parameter Pb, pitch use). This is done by determining the similarity between the parameter Pc and the speech content parameter Pd). Data representing values (reference values) of these parameters (voice print parameter Pa, accent parameter Pb, pitch parameter Pc, and utterance content parameter Pd) are stored in the
声紋及び発話内容の評価は、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)を用いて、音声データに含まれる単語や音素の評価を行うことによって行われる。この評価には、評価基準として声紋用パラメータPa及び発話内容用パラメータPdが用いられる。 The evaluation of the voiceprint and the utterance content is performed, for example, by evaluating words and phonemes included in the voice data using a Hidden Markov Model (HMM). For this evaluation, a voiceprint parameter Pa and a speech content parameter Pd are used as evaluation criteria.
アクセントの評価は、音声データが表す声の高さの分布を用いて認証を行うことによって実現される。この評価には、評価基準としてアクセント用パラメータPbが用いられる。 Accent evaluation is realized by performing authentication using a voice pitch distribution represented by voice data. In this evaluation, an accent parameter Pb is used as an evaluation criterion.
また、ピッチの評価は、音声データが表す声の高さを用いて認証を行うことによって実現される。この評価には、評価基準としてピッチ用パラメータPcが用いられる。 The pitch evaluation is realized by performing authentication using the voice pitch represented by the voice data. In this evaluation, a pitch parameter Pc is used as an evaluation criterion.
類似度の判定は、各々の評価値(声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値)と、評価基準となるパラメータ(声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPd)の各々の値(基準値)との類似度が、声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、及び発話内容閾値Tdの各々の値以上であるか否かによって行われる。すべての類似度が閾値以上であれば類似していると判定され、いずれかの類似度が閾値未満であれば非類似と判定される。 The similarity is determined by evaluating each evaluation value (voice print evaluation value, accent evaluation value, pitch evaluation value, and utterance content evaluation value) and evaluation reference parameters (voice print parameter Pa, accent parameter Pb, pitch parameter). Whether the degree of similarity with each value (reference value) of Pc and utterance content parameter Pd) is equal to or greater than each of voice print threshold Ta, accent threshold Tb, pitch threshold Tc, and utterance content threshold Td Is done by. If all the similarities are greater than or equal to the threshold, it is determined that they are similar, and if any of the similarities is less than the threshold, it is determined that they are dissimilar.
図3は、本実施の形態の車載情報システムにおける音声認識辞書18のデータ構造を示す図である。このように、音声認識辞書内には、様々な言葉毎に識別ID(Identification)が割り振られ、識別ID毎に、声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、発話内容閾値Td、及び意味内容IDが関連付けられて格納されている。
FIG. 3 is a diagram showing a data structure of the
なお、図3に示すデータは音声認識辞書18に格納されているデータの一部であり、実際には様々な言葉のデータが格納されている。また、図3には示さないが識別ID毎に、その言葉についての平均的な評価基準となるパラメータ(声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPd)の値(基準値)を表すデータも格納されている。
Note that the data shown in FIG. 3 is a part of the data stored in the
例えば、識別ID「0001」の言葉は、声紋閾値Taが0.8、アクセント閾値Tbが0.9、ピッチ閾値Tcが0.7、及び発話内容閾値Tdが0.75で表される言葉であり、これらのパラメータを満たす言葉の意味は意味内容IDが「M00001」とされている。 For example, the word with the identification ID “0001” is a word represented by a voiceprint threshold Ta of 0.8, an accent threshold Tb of 0.9, a pitch threshold Tc of 0.7, and an utterance content threshold Td of 0.75. The meaning of the words satisfying these parameters is “M00001” as the semantic content ID.
ここで、意味内容ID「M00001」に対応する意味内容データは「現在地」を表すこととすると、認識手法は次の通りである。 Here, if the semantic content data corresponding to the semantic content ID “M00001” represents “current location”, the recognition method is as follows.
音声認識部24は、声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPdを用いて、音声データの評価値(声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値)との類似度を演算する。
The
音声認識部24は、演算した声紋の類似度、アクセントの類似度、ピッチの類似度、及び発話内容の類似度のすべてが声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、及び発話内容閾値Tdの値以上である場合に、音声データと識別ID「0001」の言葉が類似していると判定する。
The
音声認識部24は、識別ID「0001」に関連付けられた意味内容ID「M00001」によって特定される意味内容を音声認識辞書18から読み出す。これにより、音声データが表す意味内容が認識される。
The
具体的には、利用者がマイク17に「げんざいち」という音声を入力した場合に、音声データの評価値(声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値)が様々な識別IDの声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPdと照合され、類似度が評価されることにより、識別ID「0001」がヒットする。
Specifically, when the user inputs a voice “Genzaichi” to the
これにより、音声認識部24は、入力された音声データの意味内容は、意味内容ID「M00001」によって表されると判定し、タッチパネル12に「現在地」という言葉を表示する。このようにして、音声認識部24によって音声データが「現在地」という意味内容を表すと認識されることになる。
Thereby, the
ところが、声紋の類似度、アクセントの類似度、ピッチの類似度、又は発話内容の類似度のうちの少なくともいずれか一つが声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、又は発話内容閾値Tdに満たない場合は、音声データと類似する言葉は音声認識辞書18から見つからず、利用者によってタッチパネル12又は遠隔操作装置20に入力がなされる場合が想定される。このように、タッチパネル12又は遠隔操作装置20に入力がなされた場合には、音声認識学習部25によって次のように学習が行われる。
However, at least one of voiceprint similarity, accent similarity, pitch similarity, or speech content similarity satisfies voiceprint threshold Ta, accent threshold Tb, pitch threshold Tc, or speech content threshold Td. When there is no word, it is assumed that words similar to the voice data are not found in the
音声認識学習部25は、マイク17への音声の入力後の所定時間内にタッチパネル12又は遠隔操作装置20に入力があったことを表す信号が入力解析制御部22から入力された場合に、音声認識部24によって認識された意味内容と、タッチパネル12又は遠隔操作装置20に入力された指令の内容とに基づき、認識手法の学習を行う。
The voice
マイク17への音声の入力後の所定時間内(5秒以内)にタッチパネル12又は遠隔操作装置20に入力があったことを表す信号が入力解析制御部22から音声認識学習部25に入力される場合は、音声認識が正しく行われなかったためにタッチパネル12又は遠隔操作装置20が操作された場合と想定される。
A signal indicating that there is an input to the
このため、本実施の形態のナビゲーション装置10は、利用者の音声の特徴を学習することにより音声認識の精度の向上を図るべく、音声認識部24によって認識された意味内容と、タッチパネル12又は遠隔操作装置20に入力された指令の内容との類似度に基づき、利用者の音声の特徴に合わせて声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、又は発話内容閾値Tdの値を変更する。
For this reason, the
このように、利用者の音声の特徴に合わせていずれかの閾値を変更することにより、音声認識処理における評価基準が変更されるので、変更前は正しく音声認識されなかった利用者の発話が正しく音声認識されるようになり、音声認識の精度の向上を図ることができる。 In this way, by changing one of the thresholds according to the characteristics of the user's voice, the evaluation criteria in the voice recognition process are changed, so that the user's utterance that was not correctly recognized before the change is correct. Voice recognition is started, and the accuracy of voice recognition can be improved.
ここで、利用者が「げんざいち」という音声をマイク17に入力した場合に、音声データのアクセントを表す評価値が「現在地」という単語のアクセントパラメータPbと類似していると判定されずに音声認識が正しく行われなかった場合を具体例として説明する。
Here, when the user inputs the voice “Genzaichi” to the
この場合、音声の入力後5秒以内に利用者によってタッチパネル12の「現在地」ボタンが押されると、音声認識学習部25は、タッチパネル12に入力された指令が表す言葉を特定する声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、及び発話内容閾値Tdの値を音声認識辞書18から読み出す。
In this case, when the “current location” button on the
音声認識学習部25は、読み出した閾値(Ta〜Td)と類似度を比較し、どの類似度が閾値に満たなかったのかを特定する。
The speech
この場合は、声紋の類似度、ピッチの類似度、及び発話内容の類似度の各々が声紋閾値Ta、ピッチ閾値Tc、及び発話内容閾値Tdの各々の値以上であると判定したが、アクセントの類似度がアクセント閾値Tb未満であったため、アクセント閾値Tbの値を変更する。 In this case, it is determined that the similarity of the voiceprint, the similarity of the pitch, and the similarity of the utterance content are not less than the values of the voiceprint threshold Ta, the pitch threshold Tc, and the utterance content threshold Td. Since the similarity is less than the accent threshold value Tb, the value of the accent threshold value Tb is changed.
ここで、変更後のアクセント閾値Tb(変更後)、変更前のアクセント閾値Tb(変更前)、及び変更前のアクセント閾値Tbとアクセントの類似度との差ΔTbを用いると、Tb(変更後)は次のように表される。 Here, if the accent threshold value Tb after change (after change), the accent threshold value Tb before change (before change), and the difference ΔTb between the accent threshold value Tb before change and the similarity between accents are used, Tb (after change) Is expressed as:
Tb(変更後)=Tb(変更前)−ΔTb
ここで、ΔTb=Tb(変更前)−Kであり、Kは「音声認識が正しく行われなかった場合のアクセントの類似度」である。
Tb (after change) = Tb (before change) −ΔTb
Here, ΔTb = Tb (before change) −K, and K is “accent similarity when speech recognition is not performed correctly”.
すなわち、Tb(変更前)からΔTbを減算することになる。これにより、アクセント閾値Tb(変更後)は、「音声認識が正しく行われなかった場合のアクセントの類似度(K)」と同一の値に設定される。これが音声認識手法の学習である。 That is, ΔTb is subtracted from Tb (before change). Thereby, the accent threshold value Tb (after change) is set to the same value as “accent similarity (K) when speech recognition is not performed correctly”. This is learning of a speech recognition method.
これにより、次回、利用者が「げんざいち」という音声をマイク17に入力した場合は、声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値と、声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPdとは類似すると判定されるため、音声認識学習部25によって利用者の音声データの意味内容が「現在地」であると正しく認識されるようになる。
Thereby, when the user inputs the voice “Genzaichi” to the
これは、声紋評価値、ピッチ評価値、又は発話内容評価値のいずれかが声紋用パラメータPa、ピッチ用パラメータPc、又は発話内容用パラメータPdと類似しないと判定された場合においても同様であり、音声認識学習部25によって声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、又は発話内容閾値Tdが変更されることにより、次回からは音声認識が正しく行われることになる。
This is the same even when it is determined that any of the voiceprint evaluation value, the pitch evaluation value, or the speech content evaluation value is not similar to the voiceprint parameter Pa, the pitch parameter Pc, or the speech content parameter Pd. When the voice recognition threshold value Ta, the accent threshold value Tb, the pitch threshold value Tc, or the utterance content threshold value Td is changed by the voice
図4は、本実施の形態の車載情報システムにおける音声認識手法の学習処理の処理手順を示す図である。なお、図2に示す処理は、ナビゲーションECU11によって実行される。
FIG. 4 is a diagram showing a processing procedure of a learning process of a voice recognition method in the in-vehicle information system of the present embodiment. Note that the process shown in FIG. 2 is executed by the
ナビゲーション装置10の電源がオンにされると、ナビゲーションECU11は、本実施の形態の車載情報システムにおける認識手法の学習処理の処理手順を開始する(スタート)。
When the power of the
ナビゲーションECU11は、マイク17に入力された音声を音声データに変換する(ステップS1)。この処理は、ナビゲーションECU11の入力解析制御部22としての機能によって実行される処理であり、マイク17から出力される音声信号をデジタル変換することにより音声データが得られる。
The
ナビゲーションECU11は、音声データに対して音声認識処理を行う(ステップS2)。この音声認識処理は、ナビゲーションECU11の音声認識部24としての機能によって実行される処理であり、音声認識辞書18を用いて、入力解析制御部22から伝送される音声データの意味内容を認識する。
The
具体的には、音声データの評価値(声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値)を演算する。 Specifically, the voice data evaluation values (voice print evaluation value, accent evaluation value, pitch evaluation value, and speech content evaluation value) are calculated.
次いで、ナビゲーションECU11は、音声の特徴の評価結果を分析する(ステップS3)。この処理は、ナビゲーションECU11の音声認識部24としての機能によって実行される処理であり、具体的には、ステップS2における比較の結果、音声データの評価値(声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値)を用いて音声認識辞書18に格納されたデータと照合し、声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPdがすべて類似するデータが見つかった場合は、そのデータの識別IDに関連付けられた意味内容IDに対応する意味内容の文言を音声認識辞書18から抽出する。
Next, the
次いで、ナビゲーションECU11は、ステップS3で抽出した文言をタッチパネル12に表示する(ステップS4)。利用者の確認のためである。
Next, the
さらに、ナビゲーションECU11は、タッチパネル12又は遠隔操作装置20への手動操作の入力を監視する(ステップS5)。音声認識が正しく行われていない場合は、利用者によってタッチパネル12又は遠隔操作装置20への手動操作が行われる可能性が高いからである。
Furthermore, navigation ECU11 monitors the input of the manual operation to the
次いで、ナビゲーションECU11は、マイク17に音声が入力されてから5秒間の間にタッチパネル12又は遠隔操作装置20に手動操作が入力されたか否かを判定する(ステップS6)。音声認識が正しく行われていない場合は、認識手法の学習が必要になるからである。
Next, the
ナビゲーションECU11は、マイク17に音声が入力されてから5秒間の間にタッチパネル12又は遠隔操作装置20に手動操作が入力されたと判定した場合は、その手動操作を解析する(ステップS7)。例えば、タッチパネル12に表示されている「現在地」ボタンが押された場合は、「現在地」ボタンが押されたことがナビゲーションECU11によって解析される。
When the
ナビゲーションECU11は、ステップS7で解析した操作内容が表す言葉を特定するために必要な閾値(Ta〜Td)を音声認識辞書18から読み出し、ステップS1で取得した音声データについて演算された類似度と比較することにより、閾値(Ta〜Td)に満たない類似度が声紋、アクセント、ピッチ、又は発話内容のいずれの類似度であるかを特定する(ステップS8)。
The
ナビゲーションECU11は、ステップS8で類似度が閾値に満たないと判定されたアクセント閾値Tb(変更前)からΔTbを減じる(ステップS9)。これにより、アクセント閾値Tbの値は、ステップS8で特定されたアクセントの類似度(K)と同一の値になる。ここで、ΔTbはTb(変更前)と「音声認識が正しく行われなかった場合のアクセントの類似度(K)」の差分である。
The
これは、例えば、「げんざいち」という音声がマイク17に入力された場合に、音声データのアクセントを表す評価値が「現在地」という単語のアクセントパラメータPbと類似しないと判定されたために音声認識が正しく行われなかった場合に、次回の音声認識時には類似すると判定されるようにするために、アクセント閾値Tbの値を変更する処理である。
This is because, for example, when a voice “Genzaichi” is input to the
ナビゲーションECU11は、ステップS9で変更したアクセント閾値Tb(変更後)を音声認識辞書18に登録する(ステップS10)。
The
これにより、次回、利用者が「げんざいち」という音声をマイク17に入力した場合は、声紋評価値、アクセント評価値、ピッチ評価値、及び発話内容評価値と、声紋用パラメータPa、アクセント用パラメータPb、ピッチ用パラメータPc、及び発話内容用パラメータPdとがそれぞれ類似すると判定されるため、音声認識学習部25によって利用者の音声データの意味内容が「現在地」であると正しく認識されるようになる。
Thereby, when the user inputs the voice “Genzaichi” to the
また、ステップS6において、マイク17に音声が入力されてから5秒間の間にタッチパネル12又は遠隔操作装置20に手動操作が入力されなかったと判定した場合は、ナビゲーションECU11は、ステップS3で音声認識辞書18から抽出された意味内容の文言によって特定される指令を用いてナビゲーション装置10の処理を実行する(ステップS11)。
If it is determined in step S6 that no manual operation is input to the
この場合は、「現在地」という意味内容の文言が正しく音声認識された場合であるので、ナビゲーションECU11は、その文言によって特定される指令をナビゲーションECU11内の所定の機能部に伝送する。
In this case, since the phrase having the meaning of “current location” is correctly recognized by voice, the
このように、本実施の形態のナビゲーション装置10によれば、利用者の音声の特徴を学習することにより音声認識の精度の向上を図るべく、音声認識部24によって認識された意味内容と、タッチパネル12又は遠隔操作装置20に入力された指令の内容との一致性に基づき、利用者の音声の特徴に合わせて声紋閾値Ta、アクセント閾値Tb、ピッチ閾値Tc、又は発話内容閾値Tdの値を変更するので、変更前は正しく音声認識されなかった利用者の発話が正しく音声認識されるようになり、音声認識の精度の向上を図ることができる。
As described above, according to the
以上では、ナビゲーションECU11が音声認識手法の学習処理を実行する形態について説明したが、本実施の形態の車載情報システムを実現するための制御装置は、ナビゲーションECUとは別の専用のECUによって実現されてもよい。この専用ECUは、ナビゲーション装置10の内部又は外部のいずれに配設されてもよい。
In the above, the form in which the
また、以上では、液晶モニタとマトリクススイッチとを組み合わせたタッチパネル12を用いる場合について説明したが、パネルに表示した入力スイッチが利用者に押圧されることにより、操作可能に構成されるタッチパネル式表示手段であれば、上述のようなタッチパネル12に限られるものではない。
In the above description, the case where the
また、以上では、車載情報システムがナビゲーション装置10であり、このナビゲーション装置10の音声認識機能に学習機能を付加した形態について説明したが、車載情報システムはナビゲーション装置10に限定されるものではなく、オーディオやエアコン等の様々な車載装置が音声認識機能を有する場合は、その車載装置に本実施の形態の車載情報システムを適用することができる。
In the above description, the in-vehicle information system is the
以上、本発明の例示的な実施の形態の車載情報システムについて説明したが、本発明は、具体的に開示された実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 As mentioned above, although the vehicle-mounted information system of exemplary embodiment of this invention was demonstrated, this invention is not limited to embodiment disclosed specifically, and does not deviate from a claim. Various modifications and changes are possible.
10 ナビゲーション装置
11 ナビゲーションECU
12 タッチパネル
13 現在位置検出部
14 方位検出部
15 ルート検索部
16 地図データベース
17 マイク
18 音声認識辞書
19 受信部
20 遠隔操作装置
21 力管理部
22 入力解析制御部
23 手動入力解析部
24 音声認識部
25 音声認識学習部
10
DESCRIPTION OF
Claims (6)
音声を入力する第2入力手段と、
前記第2入力手段に入力される音声を音声認識する音声認識手段と、
前記第1入力手段に入力される指令の内容、又は前記音声認識手段によって音声認識される音声の意味内容に基づき、所定の情報を出力する情報処理手段と、
前記第2入力手段に音声が入力された後の所定時間内に前記第1入力手段へ指令が入力されると、当該指令の内容を表すデータと、前記第2入力手段に入力される音声を表す音声データとに基づき、前記音声認識手段における認識手法を学習する学習手段と
を含む、車載情報システム。 First input means for inputting a command by manual operation;
A second input means for inputting voice;
Speech recognition means for recognizing speech input to the second input means;
Information processing means for outputting predetermined information based on the content of the command input to the first input means or the meaning content of the voice recognized by the voice recognition means;
When a command is input to the first input unit within a predetermined time after the voice is input to the second input unit, the data representing the content of the command and the voice input to the second input unit are An in-vehicle information system comprising learning means for learning a recognition method in the voice recognition means based on voice data to be expressed.
前記音声認識手段は、前記第2入力手段に入力される音声の特徴の評価値と前記音声認識辞書に格納された基準値との類似度を前記閾値と比較することによって当該音声の意味内容を認識するように構成されており、
前記学習手段は、前記第1入力手段に入力された指令の内容を表すデータと、前記音声データとの一致度合いに基づいて前記閾値を変更することにより、前記音声認識手段における認識手法を学習する、請求項2に記載の車載情報システム。 A speech recognition dictionary that stores a reference value for evaluating the characteristics of the speech and a threshold value for specifying the semantic content of the speech data;
The voice recognition unit compares the similarity between the evaluation value of the voice feature input to the second input unit and the reference value stored in the voice recognition dictionary with the threshold value, thereby obtaining the semantic content of the voice. Configured to recognize,
The learning means learns a recognition method in the voice recognition means by changing the threshold based on the degree of coincidence between the data representing the content of the command input to the first input means and the voice data. The in-vehicle information system according to claim 2.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008101885A JP4938719B2 (en) | 2008-04-09 | 2008-04-09 | In-vehicle information system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008101885A JP4938719B2 (en) | 2008-04-09 | 2008-04-09 | In-vehicle information system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009251470A true JP2009251470A (en) | 2009-10-29 |
JP4938719B2 JP4938719B2 (en) | 2012-05-23 |
Family
ID=41312220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008101885A Expired - Fee Related JP4938719B2 (en) | 2008-04-09 | 2008-04-09 | In-vehicle information system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4938719B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112011101585T5 (en) | 2010-11-30 | 2013-05-16 | Tokai Rubber Industries, Ltd. | Electricity accumulation device |
CN103187051A (en) * | 2011-12-28 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | Vehicle-mounted interaction device |
JP2015028791A (en) * | 2014-08-15 | 2015-02-12 | 洋彰 宮崎 | Autonomous knowledge improvement device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6232500A (en) * | 1985-08-06 | 1987-02-12 | 日本電気株式会社 | Voice recognition equipment with rejecting function |
JPH04204700A (en) * | 1990-11-30 | 1992-07-27 | Fujitsu Ten Ltd | Speech recognition device |
JP2007041319A (en) * | 2005-08-03 | 2007-02-15 | Matsushita Electric Ind Co Ltd | Speech recognition device and speech recognition method |
-
2008
- 2008-04-09 JP JP2008101885A patent/JP4938719B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6232500A (en) * | 1985-08-06 | 1987-02-12 | 日本電気株式会社 | Voice recognition equipment with rejecting function |
JPH04204700A (en) * | 1990-11-30 | 1992-07-27 | Fujitsu Ten Ltd | Speech recognition device |
JP2007041319A (en) * | 2005-08-03 | 2007-02-15 | Matsushita Electric Ind Co Ltd | Speech recognition device and speech recognition method |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112011101585T5 (en) | 2010-11-30 | 2013-05-16 | Tokai Rubber Industries, Ltd. | Electricity accumulation device |
CN103187051A (en) * | 2011-12-28 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | Vehicle-mounted interaction device |
JP2015028791A (en) * | 2014-08-15 | 2015-02-12 | 洋彰 宮崎 | Autonomous knowledge improvement device |
WO2016024367A1 (en) * | 2014-08-15 | 2016-02-18 | 洋彰 宮崎 | Autonomous knowledge enhancement device |
Also Published As
Publication number | Publication date |
---|---|
JP4938719B2 (en) | 2012-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8005673B2 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
CN106796786B (en) | Speech recognition system | |
JP5315289B2 (en) | Operating system and operating method | |
JP4859982B2 (en) | Voice recognition device | |
EP1450349B1 (en) | Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus | |
JP2008058409A (en) | Speech recognizing method and speech recognizing device | |
CN108682419A (en) | Sound control method and equipment, computer readable storage medium and equipment | |
CN106537492B (en) | Vehicle operation device with the Correction Strategies for speech recognition | |
US10950233B2 (en) | Dialogue system, vehicle having the same and dialogue processing method | |
US9123327B2 (en) | Voice recognition apparatus for recognizing a command portion and a data portion of a voice input | |
JP2004325979A (en) | Speech recognition device, speech recognition method, speech recognition program, and information recording medium | |
CN106030697A (en) | In-vehicle control apparatus and in-vehicle control method | |
JP5181533B2 (en) | Spoken dialogue device | |
JP2009230068A (en) | Voice recognition device and navigation system | |
JP4938719B2 (en) | In-vehicle information system | |
JP4770374B2 (en) | Voice recognition device | |
JP4604377B2 (en) | Voice recognition device | |
JP2000338993A (en) | Voice recognition device and navigation system using this device | |
JP5074759B2 (en) | Dialog control apparatus, dialog control method, and dialog control program | |
JP4942406B2 (en) | Navigation device and voice output method thereof | |
JP3700533B2 (en) | Speech recognition apparatus and processing system | |
JP2008164809A (en) | Voice recognition device | |
US20110218809A1 (en) | Voice synthesis device, navigation device having the same, and method for synthesizing voice message | |
JPH11231892A (en) | Speech recognition device | |
JP2005215474A (en) | Speech recognition device, program, storage medium, and navigation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120223 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |