JP2007298592A - Speech processing apparatus - Google Patents

Speech processing apparatus Download PDF

Info

Publication number
JP2007298592A
JP2007298592A JP2006124780A JP2006124780A JP2007298592A JP 2007298592 A JP2007298592 A JP 2007298592A JP 2006124780 A JP2006124780 A JP 2006124780A JP 2006124780 A JP2006124780 A JP 2006124780A JP 2007298592 A JP2007298592 A JP 2007298592A
Authority
JP
Japan
Prior art keywords
state
speech
unit
vehicle
input means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006124780A
Other languages
Japanese (ja)
Inventor
Osamu Iwata
收 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2006124780A priority Critical patent/JP2007298592A/en
Publication of JP2007298592A publication Critical patent/JP2007298592A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To more improve the sensitivity of speech recognition than conventional technology in a vehicle on which a plurality of speech input means are mounted, without intervening user's operation work. <P>SOLUTION: The speech processing apparatus comprises: a plurality of speech input means 1 and 2 respectively installed on a plurality of places in the vehicle; a speech dictionary section 7 for holding language information to a speech signal; a speech recognition section 6 for performing speech recognition regarding the speech signal input through the speech input means 1 and 2 by referring to the speech dictionary; a state detection section 4 for detecting a state of crew in the vehicle or people outside the vehicle, or a state of the vehicle; and a switching control section 5 for switching either or both of an operation state of the plurality of speech input means 1 and 2, and a setting state of recognition candidate in the speech dictionary section 7. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、音声認識に基づいて車両設備における各種操作を行なう際に用いて好適の、音声処理装置に
関するものである。
The present invention relates to a speech processing apparatus suitable for performing various operations in vehicle equipment based on speech recognition.

近年、車両設備について操作を行なう場合に、操作者が発した音声を、操作についての言語命令として認識するとともに、認識した言語命令に応じた操作がなされるようにして、利用者の操作作業を削減するシステムについての開発が進められている。
たとえば、以下の特許文献1においては、マイクロフォンからの音声信号をもとにドアの施錠・解錠等のコマンドを認識して車両制御を行なう技術について記載されている。そして、この特許文献1にて記載された技術においては、利用者の使い勝手のため、車室内・外にそれぞれ1又は複数のマイクロフォンをそなえることで、使用者が車両の外からでも中からでも音声を入力できるようにしている。
特開2000−80828号公報
In recent years, when performing operations on vehicle equipment, the voice produced by the operator is recognized as a language command for the operation, and the operation according to the recognized language command is performed so that the user can perform the operation work. Development of systems to reduce is underway.
For example, Patent Document 1 below describes a technique for performing vehicle control by recognizing a command for locking / unlocking a door based on an audio signal from a microphone. In the technique described in Patent Document 1, for the convenience of the user, by providing one or a plurality of microphones inside and outside the vehicle, the user can hear voice from outside or inside the vehicle. Can be entered.
JP 2000-80828 A

しかしながら、上述の特許文献1に記載された技術においては、複数のマイクロフォンを同時使用する場合には、利用者がいる位置からの集音効率(又は集音の感度)の良好な位置に搭載されたマイクロフォンだけでなく、利用者の位置からの集音効率の比較的低い位置に搭載されたマイクロフォンからの音声信号を入力されるようになる。この場合においては音声認識を行なう機能部においては、入力される音声信号の信号対雑音比(S/N比)を向上させることに支障を来たし、結果として音声信号の認識性能の向上に支障を来すことになるという課題がある。   However, in the technique described in Patent Document 1 described above, when a plurality of microphones are used at the same time, the microphone is mounted at a position with good sound collection efficiency (or sound collection sensitivity) from the position where the user is present. In addition to the microphone, the sound signal from the microphone mounted on the position where the sound collection efficiency from the user's position is relatively low is input. In this case, the function unit that performs speech recognition has a problem in improving the signal-to-noise ratio (S / N ratio) of the input speech signal, and as a result, it has a problem in improving the speech signal recognition performance. There is a problem of coming.

また、この特許文献1には、スイッチ操作によりマイクロフォンを動作させる技術についても記載されているが、音声入力手段自身の動作のために操作が必要となるものであり、利用者の操作作業を増やしてしまうという課題もある。
本発明は、このような課題に鑑み創案されたもので、利用者の操作作業を介在させずに、複数の音声入力手段が搭載された車両において、音声認識の感度を従来技術よりも向上させることを目的とする。
In addition, this Patent Document 1 also describes a technique for operating a microphone by a switch operation. However, the operation is necessary for the operation of the voice input means itself, which increases the user's operation work. There is also a problem that it ends up.
The present invention has been devised in view of such problems, and improves the sensitivity of voice recognition over a conventional technique in a vehicle equipped with a plurality of voice input means without intervention by a user. For the purpose.

このため、本発明の音声処理装置は、車両における複数箇所にそれぞれ搭載される複数の音声入力手段と、音声信号に対する言語情報について保持する音声辞書部と、該音声入力手段を通じて入力された音声信号についての音声認識を、該音声辞書部を参照することにより行なう音声認識部と、上記車両内における乗員又は該車両外部の人員の状態、又は上記車両の状態について検出する状態検出部と、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちのいずれか一方又は双方を切り替える切り替え制御部と、をそなえて構成されたことを特徴としている。   For this reason, the speech processing apparatus of the present invention includes a plurality of speech input means respectively mounted at a plurality of locations in a vehicle, a speech dictionary unit that holds language information for speech signals, and a speech signal input through the speech input means. A speech recognition unit that performs speech recognition with reference to the speech dictionary unit, a state detection unit that detects a state of an occupant in the vehicle or a person outside the vehicle, or a state of the vehicle, and the state A switching control unit configured to switch one or both of an operation state of the plurality of voice input units and a recognition candidate setting state in the voice dictionary unit according to a detection result in the detection unit. It is characterized by that.

この場合においては、好ましくは、該複数の音声入力手段として、上記車両の外部における音声を集音する外部音声入力手段と、上記車両の室内における音声を集音する室内音声入力手段と、をそなえるとともに、該状態検出部が、上記車両のシートへの乗員の着座を検出する着座検出部をそなえ、かつ、該切り替え制御部が、該着座検出部からの検出結果に基づき、該着座検出部において上記乗員の着座を検出するまでは、該外部音声入力手段および該室内音声入力手段のうちで該外部音声入力手段からの音声信号を該音声認識部へ出力する一方、該着座検出部において上記乗員の着座を検出すると、該外部音声入力手段および該室内音声入力手段のうちで該室内音声入力手段からの音声信号を該音声認識部へ出力すべく、該複数の音声入力手段の動作状態を切り替えるとともに、該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることとしてもよい。   In this case, preferably, as the plurality of sound input means, an external sound input means for collecting sound outside the vehicle and an indoor sound input means for collecting sound inside the vehicle are provided. In addition, the state detection unit includes a seating detection unit that detects the seating of an occupant on the seat of the vehicle, and the switching control unit is configured to detect the seating detection unit based on a detection result from the seating detection unit. Until the seating of the occupant is detected, a voice signal from the external voice input means is output to the voice recognition unit among the external voice input means and the room voice input means, while the occupant is detected by the seating detection unit. Of the external voice input means and the room voice input means, the voice input from the room voice input means is output to the voice recognition unit. Switches the operating state of the unit, in conjunction with the switching control of the speech input means, it is also possible to change the setting state of the recognition candidates in the voice dictionary unit.

また、該状態検出部が、該車両の施錠および施錠解除の状態を検出する施錠状態検出部を更にそなえ、かつ、該切り替え制御部が、該施錠状態検出部での検出結果に基づいて、該車両の施錠状態においては、車両外部のいたずら検知用の言語群を優先して認識候補とする一方、該施錠状態検出部および該着座検出部での検出結果に基づいて、該車両の施錠解除状態であって該着座検出部において上記乗員の着座を検出するまでは、該音声辞書部における認識候補の設定状態を、乗車サポートのための言語群を優先して認識候補とし、該着座検出部において上記乗員の着座を検出すると、車載機器操作用の言語群を優先して認識候補とすべく、該音声辞書部における認識候補の設定状態を切り替えることもできる。   Further, the state detection unit further includes a lock state detection unit that detects the lock and unlock state of the vehicle, and the switching control unit is configured to detect the lock state detection unit based on the detection result of the lock state detection unit. In the locked state of the vehicle, the language group for detecting tampering outside the vehicle is given priority as a recognition candidate, while the unlocked state of the vehicle is determined based on the detection results of the locked state detection unit and the seating detection unit. Until the seating detection unit detects the seating of the occupant, the recognition candidate setting state in the speech dictionary unit is set as a recognition candidate with priority given to a language group for boarding support, and the seating detection unit When the seating of the occupant is detected, the setting state of the recognition candidate in the speech dictionary unit can be switched so that the language group for in-vehicle device operation is given priority as a recognition candidate.

さらに、該切り替え制御部は、上記車両内における乗員又は該車両外部の人員の状態、又は上記車両の状態に応じて、認識候補とすべき言語群に優先度の重み付けの付与により、該音声辞書部における認識候補の設定状態を切り替えることとしてもよい。
また、該音声辞書部は、上記車両内における乗員又は該車両外部の人員の状態、又は上記車両の状態に応じて、認識候補とすべき言語群をそれぞれ記憶する複数種類の辞書部をそなえ、該切り替え制御部は、該状態検出部での検出結果に基づいて、該複数種類の辞書部のうちで、該音声認識部での音声認識において参照すべき辞書部を切り替えることにより、該音声辞書部における認識候補の設定状態を切り替えることもできる。
Furthermore, the switching control unit is configured to assign a priority weight to a language group to be a recognition candidate in accordance with a state of an occupant in the vehicle, a person outside the vehicle, or a state of the vehicle. It is good also as switching the setting state of the recognition candidate in a part.
In addition, the speech dictionary unit includes a plurality of types of dictionary units that respectively store language groups to be recognized as recognition candidates according to the state of the passengers inside the vehicle or the personnel outside the vehicle, or the state of the vehicle. The switching control unit switches the dictionary to be referred to in speech recognition at the speech recognition unit among the plurality of types of dictionary units based on the detection result at the state detection unit. It is also possible to switch the setting state of recognition candidates in the section.

さらに、上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、該状態検出部が、上記車両のシートに着座した乗員の顔向きを検出する顔向き検出部をそなえ、かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、該顔向き検出部での検出結果に基づいて、該室内に複数箇所そなえられた音声入力手段の動作状態を切り替えるとともに、該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることとしてもよい。   Further, the voice input means is provided at a plurality of locations in the vehicle interior, and the state detection unit includes a face direction detection unit for detecting the face direction of an occupant seated on the vehicle seat, and the switching is performed. In response to the detection result in the state detection unit, the control unit switches the operation state of the plurality of voice input means and the recognition candidate setting state in the voice dictionary unit in the face direction detection unit. Based on the detection result, the operation state of the voice input means provided in a plurality of places in the room is switched, and the setting state of the recognition candidate in the voice dictionary unit is switched in conjunction with the switching control of the voice input means. Also good.

また、上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、該状態検出部が、上記車両のシートに着座した乗員の体重を検出する体重検出部をそなえ、かつ、該切り替え制御部が、該体重検出部での検出結果に基づいて、該音声入力手段の動作状態を切り替えるとともに、該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることもできる。   The voice input means is provided at a plurality of locations in the vehicle interior, and the state detection unit includes a weight detection unit for detecting the weight of an occupant seated on the vehicle seat, and the switching control unit. Switching the operation state of the voice input unit based on the detection result of the weight detection unit and switching the setting state of the recognition candidate in the voice dictionary unit in conjunction with the switching control of the voice input unit. You can also.

さらに、上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、該状態検出部が、上記車両の車速を検出する車速検出部をそなえ、かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、該車速検出部での検出結果に基づいて、該音声入力手段の動作状態を切り替えるとともに、該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることとしてもよい。   Further, the voice input means is provided at a plurality of locations in the vehicle interior, the state detection unit includes a vehicle speed detection unit that detects the vehicle speed of the vehicle, and the switching control unit includes the state detection unit. Based on the detection result in the vehicle speed detection unit, the voice input is performed so as to switch both the operation state of the plurality of voice input means and the recognition candidate setting state in the voice dictionary unit according to the detection result in The operation state of the means may be switched, and the setting state of the recognition candidate in the speech dictionary unit may be switched in conjunction with the switching control of the speech input means.

また、上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、該状態検出部が、上記乗員が着座しているシートの向きを検出するシート向き検出部をそなえ、かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、該シート向き検出部での検出結果に基づいて、該音声入力手段の動作状態を切り替えるとともに、該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることもできる。   The voice input means is provided at a plurality of locations in the vehicle interior, and the state detection unit includes a seat direction detection unit for detecting the direction of the seat on which the occupant is seated, and the switching control. Detection by the sheet orientation detection unit so as to switch both the operation state of the plurality of speech input means and the recognition candidate setting state in the speech dictionary unit according to the detection result in the state detection unit. Based on the result, the operating state of the voice input unit can be switched, and the recognition candidate setting state in the voice dictionary unit can be switched in conjunction with the switching control of the voice input unit.

さらに、上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、該状態検出部が、上記乗員の口が動いたことを検出する口動き検出部をそなえ、かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、該口動き検出部での検出結果に基づいて、該口が動いたことが検出された乗員の乗車位置に応じて、該室内に複数箇所にそなえられた音声入力手段の動作状態を切り替えるとともに、該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることとしてもよい。   Furthermore, the voice input means is provided at a plurality of locations in the vehicle interior, the state detection unit includes a mouth movement detection unit that detects that the passenger's mouth has moved, and the switching control unit includes In accordance with the detection result in the state detection unit, the detection result in the mouth movement detection unit is switched to switch between the operation state of the plurality of voice input units and the recognition candidate setting state in the voice dictionary unit. Based on the boarding position of the occupant who detected that the mouth has moved, the operation state of the voice input means provided in a plurality of locations in the room is switched and linked to the switching control of the voice input means. Thus, the recognition candidate setting state in the speech dictionary unit may be switched.

上述したように、本発明によれば、切り替え制御部により、センサ情報判定部における検出結果に応じて、マイクの動作状態および音声辞書部における認識候補の設定状態を切り替えることができるので、利用者の操作作業を介在させずに、複数のマイクが搭載された車両において、音声認識の感度を従来技術よりも向上させることができる利点がある。   As described above, according to the present invention, the switching control unit can switch the operation state of the microphone and the recognition candidate setting state in the speech dictionary unit according to the detection result in the sensor information determination unit. There is an advantage that the sensitivity of voice recognition can be improved compared to the prior art in a vehicle equipped with a plurality of microphones without interposing the above operation work.

以下、図面を参照することにより、本発明の実施の形態について説明する。
なお、上述の本願発明の目的のほか、他の技術的課題,その技術的課題を解決する手段及び作用効果についても、以下の実施の形態による開示によって明らかとなる。
〔A〕本発明の一実施形態の説明
図1は本発明の一実施形態にかかる音声処理装置10を示すブロック図である。この図1に示す音声処理装置10は、車両9に搭載されて、車両9の利用者の発した音声信号を取り込むとともに、この音声により、車両9の設備を操作するためのコマンドを認識することができるようになっている。即ち、認識された音声によるコマンド(音声コマンド)に応じて、車両9についての各種設備の制御を行なうことができるようになっている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
In addition to the above-described object of the present invention, other technical problems, means for solving the technical problems, and operational effects will become apparent from the disclosure of the following embodiments.
[A] Description of an Embodiment of the Present Invention FIG. 1 is a block diagram showing an audio processing apparatus 10 according to an embodiment of the present invention. The voice processing device 10 shown in FIG. 1 is mounted on the vehicle 9 and captures a voice signal issued by a user of the vehicle 9 and recognizes a command for operating the equipment of the vehicle 9 by this voice. Can be done. That is, various facilities for the vehicle 9 can be controlled in accordance with a recognized voice command (voice command).

ここで、この図1に示す音声処理装置10は、車両9における複数箇所にそれぞれ搭載される複数の(図1中では2個の)音声入力手段としてのマイク1,2とともに、センサ部3,センサ情報判定部4,切り替え制御部5,音声認識エンジン6および音声辞書部7をそなえている。
ここで、マイク1は、車両9の外部における音声を集音する外部音声入力手段としての車外用マイクであり、マイク2は、車両9の室内における音声を集音する室内音声入力手段としての車内用マイクである。図1中においては、これらのマイク1,2は1個ずつそなえられているが、本発明によれば、適宜複数箇所にそれぞれ搭載することとしてもよい。例えば、車内用のマイク1については、例えば図8に示すマイク1−1,1−2のように、座席位置ごとに設けることとしたり、図9に示すマイク11〜13のように、同一座席内でも高さ等が異なる位置に分けて配置したりして、乗員の座席位置、座高や顔の向き等によらずに音声認識に必要なレベルの音声を集音できるようにしてもよい。
Here, the voice processing device 10 shown in FIG. 1 includes a plurality of (two in FIG. 1) microphones 1 and 2 as voice input means mounted at a plurality of locations in the vehicle 9, and sensor units 3, A sensor information determination unit 4, a switching control unit 5, a speech recognition engine 6 and a speech dictionary unit 7 are provided.
Here, the microphone 1 is an external microphone as an external audio input unit that collects sound outside the vehicle 9, and the microphone 2 is an interior of the vehicle as an indoor audio input unit that collects sound inside the vehicle 9. Microphone. In FIG. 1, one of these microphones 1 and 2 is provided. However, according to the present invention, the microphones 1 and 2 may be mounted at a plurality of locations as appropriate. For example, for the in-car microphone 1, for example, microphones 1-1 and 1-2 shown in FIG. 8 are provided for each seat position, or the same seat as the microphones 11 to 13 shown in FIG. It is also possible to divide and arrange the positions at different heights, etc., so that the sound of a level necessary for speech recognition can be collected regardless of the seat position, seat height, face orientation, etc. of the occupant.

なお、本実施形態においては、車両9の外部におけるマイク1は、車両9内に人員が乗っていない状態においては、常時電源が供給されて、車両9の外部音声を集音することができるようになっている。
また、カメラ8は、車両9の室内における各座席に座っている乗員ごとに口の動きを監視するものであって、乗員の口が動いたことを検出する口動き検出部を構成する。例えば図8に示すように、車両9における各座席に対応して複数個設置することができるようになっている。尚、図8中、8−1は運転席用のカメラ、8−2は後部右側座席用のカメラ、1−1は運転席用のマイク、1−2は後部右側座席用のマイクである。
In the present embodiment, the microphone 1 outside the vehicle 9 is always supplied with power when no personnel are in the vehicle 9 so that the external sound of the vehicle 9 can be collected. It has become.
The camera 8 monitors the movement of the mouth for each occupant sitting in each seat in the vehicle 9 and constitutes a mouth movement detection unit that detects that the occupant's mouth has moved. For example, as shown in FIG. 8, a plurality of seats can be installed corresponding to each seat in the vehicle 9. In FIG. 8, 8-1 is a camera for the driver's seat, 8-2 is a camera for the rear right seat, 1-1 is a microphone for the driver's seat, and 1-2 is a microphone for the rear right seat.

また、センサ部3は、車両9にそなえられたシートごとに乗員の着座による荷重を検出するための信号を出力する荷重センサ3a,車両9における施錠状態および解錠状態を検出するための信号を出力する施錠/解錠センサ3b,車両9におけるドアの開状態および閉状態を検出するための信号を出力するドア開閉センサ3c,その他図示しないブレーキ、エンジンの作動状態や走行状態等を検出するための信号を出力するセンサをそなえている。特に、荷重センサ3aは、車両9のシートへの乗員の着座を検出する着座検出部であり、施錠/解錠センサ3cは、車両9の施錠および施錠解除の状態を検出する施錠状態検出部である。   In addition, the sensor unit 3 outputs a signal for detecting a load due to the seating of an occupant for each seat provided in the vehicle 9, and a signal for detecting a locked state and an unlocked state in the vehicle 9. To detect the locking / unlocking sensor 3b to be output, the door opening / closing sensor 3c to output a signal for detecting the open / closed state of the door in the vehicle 9, other brakes (not shown), the operating state of the engine, the running state, etc. The sensor which outputs the signal of is provided. In particular, the load sensor 3a is a seating detection unit that detects the seating of an occupant on the seat of the vehicle 9, and the locking / unlocking sensor 3c is a locking state detection unit that detects the locking and unlocking states of the vehicle 9. is there.

また、センサ情報判定部4は、人員が音声コマンドにより各種操作を行なう際の当該利用シチュエーション(利用シーン)を、センサ部3から入力される信号や、マイク1,2からの音声信号や、車両9の室内における座席ごとの乗員の口の動きを監視するカメラ8からの監視情報に基づいて判定するものである。
具体的には、センサ情報判定部4においては、荷重センサ3aで検出された各シートの荷重検出結果をもとに、着座している乗員位置について検出するようになっている。そして、上述の施錠/解錠センサ3bおよびドア開閉センサ3cからの各検出情報とともに、マイク1,2からの音声信号およびカメラ8からの監視情報についても入力されて、これらのセンサ3a〜3c,マイク1,2からの音声信号およびカメラ8からの監視情報をもとに、車両9の状態について検出する。
In addition, the sensor information determination unit 4 indicates the usage situations (usage scenes) when personnel perform various operations by voice commands, signals input from the sensor unit 3, audio signals from the microphones 1 and 2, The determination is made based on monitoring information from the camera 8 that monitors the movement of the passenger's mouth for each seat in the nine rooms.
Specifically, the sensor information determination unit 4 detects the seated occupant position based on the load detection result of each seat detected by the load sensor 3a. In addition to the detection information from the above-described locking / unlocking sensor 3b and door opening / closing sensor 3c, the audio signals from the microphones 1 and 2 and the monitoring information from the camera 8 are also input, and these sensors 3a to 3c, The state of the vehicle 9 is detected based on the audio signals from the microphones 1 and 2 and the monitoring information from the camera 8.

すなわち、センサ情報判定部4においては、施錠/解錠センサ3b,ドア開閉センサ3c,その他のセンサからの信号に基づいて、車両9の状態についても検出するようになっている。更に、荷重センサ3a,施錠/解錠センサ3bおよびドア開閉センサ3cからの検出信号に基づいて、車両9内に乗っている人員の有無について検出するとともに、車両9内に人員が乗っていない場合には、マイク1からの音声信号をもとに車両9外部の人員の状態を検出するようになっている。   That is, the sensor information determination unit 4 detects the state of the vehicle 9 based on signals from the locking / unlocking sensor 3b, the door opening / closing sensor 3c, and other sensors. Further, the presence / absence of a person riding in the vehicle 9 is detected based on detection signals from the load sensor 3a, the locking / unlocking sensor 3b, and the door opening / closing sensor 3c. In this case, the state of personnel outside the vehicle 9 is detected based on the audio signal from the microphone 1.

加えて、車両9に人員が乗っている場合には、荷重センサ3aからの検出信号をもとに乗員の着座位置状態について検出し、カメラ8の監視情報に基づいて各乗員の口の動き、即ち発声動作を検出することができる。
したがって、上述のセンサ情報判定部4により、車両9内における乗員又は車両9外部の人員の状態、又は上記車両の状態について検出する状態検出部を構成する。
In addition, when a person is on the vehicle 9, the seating position of the occupant is detected based on the detection signal from the load sensor 3a, and the movement of each occupant's mouth based on the monitoring information of the camera 8, That is, the voice operation can be detected.
Therefore, the above-described sensor information determination unit 4 constitutes a state detection unit that detects the state of an occupant in the vehicle 9 or a person outside the vehicle 9 or the state of the vehicle.

また、音声辞書部7は、音声コマンドの音声波形モデルに対するテキスト情報等の言語(語彙)データを保持するものであり、音声認識エンジン6は、マイク1,2を通じて入力された音声信号についての音声認識を、音声辞書部7の内容を参照することにより行なうものであり、音声認識部として機能する。換言すれば、音声辞書部7は、音声認識エンジン6において認識可能な語彙を蓄積するものである。   The voice dictionary unit 7 holds language (vocabulary) data such as text information for a voice waveform model of a voice command. The voice recognition engine 6 is a voice for a voice signal input through the microphones 1 and 2. The recognition is performed by referring to the contents of the voice dictionary unit 7 and functions as a voice recognition unit. In other words, the speech dictionary unit 7 accumulates vocabulary that can be recognized by the speech recognition engine 6.

たとえば、利用者により車外から「開け」等の言葉が発声された場合において、マイク1においてこれを集音した音声信号が音声認識エンジン6に入力される。そして、音声認識エンジン6では、音声辞書部7に入力されている語彙のうちで、利用者から発声された言葉「開け」をなす音声信号波形に最も近い音声信号波形を検索し、検索結果を音声認識結果として出力する。   For example, when a word such as “open” is uttered by the user from outside the vehicle, a voice signal collected by the microphone 1 is input to the voice recognition engine 6. The speech recognition engine 6 searches the speech signal waveform closest to the speech signal waveform that forms the word “open” uttered by the user from the vocabulary input to the speech dictionary unit 7, and obtains the search result. Output as voice recognition result.

すなわち、入力された音声信号波形と、音声辞書部7に記憶されている語彙についての音声波形モデルと、の近似度合いを距離として算出し、算出した距離が所定距離より小さいものについて認識結果として出力する。この音声認識処理においては、算出した距離が最小のものを認識結果として出力することとしてもよいし、算出した距離があらかじめ設定された所定距離よりも小さいいくつかの候補を出力するとともに、これらのうちのいずれかを操作コマンドとして利用者に選択させるようにしてもよい。   In other words, the degree of approximation between the input speech signal waveform and the speech waveform model for the vocabulary stored in the speech dictionary unit 7 is calculated as a distance, and the calculated distance is output as a recognition result when the distance is smaller than a predetermined distance. To do. In this voice recognition processing, the calculated distance may be output as a recognition result, or some candidates whose calculated distance is smaller than a predetermined distance set in advance are output. Any one of them may be selected by the user as an operation command.

さらに、切り替え制御部5は、状態検出部をなすセンサ情報判定部4における検出結果に応じて、複数のマイク1,2の動作状態および音声辞書部7における認識候補の設定状態のうちのいずれか一方又は双方を切り替えるものである。具体的には、荷重センサ3aからの検出結果に基づき、荷重センサ3aにおいて上記乗員の着座を検出するまでは、マイク1からの音声信号を音声認識エンジン6へ出力する一方、荷重センサ3aにおいて乗員の着座を検出すると、マイク2からの音声信号を音声認識エンジン6へ出力すべく、マイク1,2の動作状態を切り替えるようになっている。   Furthermore, the switching control unit 5 is either one of the operation states of the plurality of microphones 1 and 2 and the recognition candidate setting state in the speech dictionary unit 7 according to the detection result in the sensor information determination unit 4 forming the state detection unit. One or both are switched. Specifically, on the basis of the detection result from the load sensor 3a, the voice signal from the microphone 1 is output to the voice recognition engine 6 until the seating of the occupant is detected in the load sensor 3a, while the occupant in the load sensor 3a. Is detected, the operation state of the microphones 1 and 2 is switched in order to output a voice signal from the microphone 2 to the voice recognition engine 6.

すなわち、集音対象となる人員が存在する位置をセンサ情報判定部4において検出した上で、当該人員が存在する位置からの集音効率が良好なマイク1,2のみを動作状態とし、他のマイクについては動作停止状態とすることができる。即ち、利用シーンに合わせて自動で入力対象のマイク1,2を切り替えることで、使用するマイクを利用者に意識させることなく、音声認識エンジン6への音声信号のS/N比を向上させることができるので、音声認識エンジン6においては高い認識性能を確保することができる。   That is, after detecting the position where the person who is the target of sound collection exists in the sensor information determination unit 4, only the microphones 1 and 2 having good sound collection efficiency from the position where the person is present are set in an operating state. The microphone can be stopped. That is, by automatically switching the input microphones 1 and 2 according to the usage scene, the S / N ratio of the voice signal to the voice recognition engine 6 can be improved without making the user aware of the microphone to be used. Therefore, the speech recognition engine 6 can ensure high recognition performance.

さらに、切り替え制御部5においては、音声辞書部7における認識候補の設定状態について切り替え制御を行なう行なうことができるようになっている。即ち、切り替え制御部5において、音声辞書部7に記憶されている音声コマンドのうちで、センサ情報判定部4において検出した人員が存在する位置から、当該位置の人員が発する可能性の高い音声コマンドを、優先度の高い認識候補として設定すべく音声認識エンジン6を制御することができるようになっている。   Further, the switching control unit 5 can perform switching control for the recognition candidate setting state in the speech dictionary unit 7. That is, among the voice commands stored in the voice dictionary unit 7 in the switching control unit 5, a voice command that is likely to be issued by a person at that position from the position where the person detected by the sensor information determination unit 4 exists. Can be controlled as a recognition candidate with a high priority.

また、上述のマイク1,2の切り替え制御に連動して、音声辞書部7における認識候補の設定状態について切り替えることもできるようになっている。
前述したように、音声認識エンジン6においては、マイク1又はマイク2で集音された音声信号を切り替え制御部5を介して入力されると、この音声信号の波形と、音声辞書部7において記憶されている各音声信号波形モデルとの近似度を距離として算出し、最も近似度の高い言語データを認識結果として出力するようになっている。このとき、切り替え制御部5においては、センサ情報判定部4において検出される車両9の状態および人員の状態に応じて、音声認識エンジン6に切り替え制御信号を出力することにより、音声認識エンジン6において参照する音声辞書部7における語彙範囲の設定を切り替えることができるようになっている。
Further, in conjunction with the above-described switching control of the microphones 1 and 2, the setting of recognition candidates in the speech dictionary unit 7 can be switched.
As described above, in the voice recognition engine 6, when the voice signal collected by the microphone 1 or the microphone 2 is input via the switching control unit 5, the waveform of the voice signal is stored in the voice dictionary unit 7. The degree of approximation with each of the speech signal waveform models is calculated as a distance, and the language data with the highest degree of approximation is output as a recognition result. At this time, the switching control unit 5 outputs a switching control signal to the voice recognition engine 6 in accordance with the state of the vehicle 9 and the state of personnel detected by the sensor information determination unit 4, so that the voice recognition engine 6 The setting of the vocabulary range in the voice dictionary section 7 to be referred to can be switched.

すなわち、音声認識エンジン6においては、切り替え制御部5からの切り替え制御信号をもとに、(センサ情報判定部4において検出される)人員または車両9の状態に応じて、当該人員が発声する可能性の高い音声コマンドについては、算出される距離の値が少なくなる重みを付与しておくことができる。このような重み付けを付与しておくことで、当該状況において人員から発せられる可能性の高い音声コマンドに対する認識精度を向上させることができる。   That is, in the voice recognition engine 6, based on the switching control signal from the switching control unit 5, the person can speak according to the state of the person (detected by the sensor information determination unit 4) or the vehicle 9. For voice commands having high characteristics, a weight that reduces the calculated distance value can be given. By assigning such weights, it is possible to improve the recognition accuracy for voice commands that are likely to be issued from personnel in the situation.

この重み付けとしては、例えば、音声認識エンジン6において、上述の入力音声信号の波形と、当該人員が発する可能性の高い音声コマンドをあらわす音声信号波形モデルとの近似度を表す距離の算出に際して、あらかじめ算出結果となる距離を減らすような値を設定しておくことにより行なう。
たとえば、車両9の車内に人員が存在しないような場合には、車外の人員からの音声コマンドが認識対象に限定される場面であり、このような場合には、ドアを開けること等の、主として車両9への乗車サポートを目的とした音声コマンドが車外の人員から発せられる可能性が高い反面、車内のナビゲーション装置や、オーディオ機器等の、車内の機器の操作を目的とした音声コマンドについては発せられる可能性が低い。
As the weighting, for example, in the speech recognition engine 6, when calculating the distance representing the degree of approximation between the waveform of the input speech signal described above and the speech signal waveform model representing the speech command likely to be issued by the person, This is done by setting a value that reduces the distance that is the calculation result.
For example, when there is no person in the vehicle 9, the voice command from the person outside the car is limited to the recognition target. In such a case, the door is opened, etc. While there is a high possibility that voice commands for the purpose of boarding the vehicle 9 will be issued by personnel outside the vehicle, voice commands for the purpose of operating in-vehicle devices such as in-vehicle navigation devices and audio devices should be issued. Is less likely to be

したがって、このような場面においては、切り替え制御部5からの切り替え制御信号により、音声辞書部7に格納する語彙のうちで、車外の人員から発せられる可能性の高い乗車サポートを目的とした音声コマンドをあらわす語彙を検索対象となるように音声認識エンジン6が設定される。
また、車両9の車内に人員が存在し走行中にあるような場合には、乗車サポートを目的とした音声コマンドが発せられる可能性は低く、車内の機器の操作を目的とした音声コマンドが発せられる可能性が高い。このような場合には、切り替え制御部5からの切り替え制御信号により、音声辞書部7に格納する語彙のうちで、車内の人員から発せられる可能性の高い車内の機器の操作を目的とした音声コマンドをあらわす語彙を検索対象となるように音声認識エンジン6が設定される。
Therefore, in such a situation, a voice command for the purpose of boarding support, which is likely to be issued by a person outside the vehicle, out of the vocabulary stored in the voice dictionary unit 7 by a switching control signal from the switching control unit 5. The speech recognition engine 6 is set so that the vocabulary representing is a search target.
In addition, when there is a person in the vehicle 9 and the vehicle is traveling, it is unlikely that a voice command for boarding support will be issued, and a voice command for operating a device in the vehicle will be issued. Is likely to be. In such a case, in response to a switching control signal from the switching control unit 5, among the vocabulary stored in the voice dictionary unit 7, a voice intended for the operation of equipment in the vehicle that is likely to be emitted from the personnel in the vehicle. The speech recognition engine 6 is set so that a vocabulary representing a command is a search target.

さらに、車内に乗車している人員の位置によっても、上述の重み付け等により、検索対象となる語彙を切り替えて設定することも可能である。例えば、運転席に人員が乗車している場合には、ナビゲーション装置についての操作を目的とする音声コマンドを他のカテゴリのコマンドに優先して検索するようにしたり、助手席に人員が乗車している場合には、テレビジョンその他オーディオ機器についての操作を目的とした音声コマンドを表す語彙を他のカテゴリのコマンドに優先して検索するようにしたり、後部座席に人員が乗車している場合には、空調設備についての操作を目的とする音声コマンドを他のカテゴリのコマンドに優先して検索したりしてもよい。   Further, the vocabulary to be searched can be switched and set by the above-described weighting or the like depending on the position of the person in the vehicle. For example, if there are people in the driver's seat, search for voice commands intended for navigation device operations prior to other categories of commands, or people in the passenger seat If you are searching for a vocabulary that represents a voice command intended for operation on a television or other audio device, you can search for it prior to other categories of commands, or if there are people on the back seat. The voice command for the purpose of operating the air conditioning equipment may be searched in preference to the commands of other categories.

これにより、音声認識エンジン6においては、センサ情報判定部4において検出される利用シチュエーションに応じて、人員から発せられる可能性の高い音声コマンド群を音声辞書部7の検索対象言語群としてあらかじめ設定しておくことで、認識精度を格段に向上させることができるようになる。
なお、音声認識エンジン6においては、当該人員が発する可能性の高い音声コマンドについての辞書データ群を、センサ情報判定部4からの判定結果に応じてアドレスにより管理することで、切り替え制御部5からの切り替え制御信号に応じて検索対象の切り替えを行なうこととしてもよい。
Thereby, in the voice recognition engine 6, a voice command group that is likely to be issued by a person is set in advance as a search target language group of the voice dictionary unit 7 in accordance with the usage situation detected by the sensor information determination unit 4. By doing so, the recognition accuracy can be remarkably improved.
The voice recognition engine 6 manages the dictionary data group of voice commands that are likely to be issued by the personnel by the address according to the determination result from the sensor information determination unit 4. The search target may be switched according to the switching control signal.

この場合においては、音声辞書部7は、上記車両9内における乗員又は車両9外部の人員の状態、又は車両9の状態に応じて、認識候補とすべき言語群をそれぞれ記憶する複数種類の辞書部により構成されて、切り替え制御部5は、センサ情報判定部4での検出結果に基づいて、複数種類の辞書部のうちで、音声認識エンジン6での音声認識において参照すべき辞書部を切り替えることにより、音声辞書部7における認識候補の設定状態を切り替える。   In this case, the voice dictionary unit 7 is a plurality of types of dictionaries that respectively store language groups to be recognized as candidates according to the state of the passengers inside the vehicle 9 or the personnel outside the vehicle 9 or the state of the vehicle 9. The switching control unit 5 is configured to switch a dictionary unit to be referred to in speech recognition by the speech recognition engine 6 among a plurality of types of dictionary units based on the detection result of the sensor information determination unit 4. Thereby, the setting state of the recognition candidate in the voice dictionary unit 7 is switched.

上述のごとく構成された音声処理装置10の動作を、図2,図3および図5に示すフローチャートを用いて説明する。図2は、切り替え制御部5において、入力音声信号を音声認識エンジン6へ供給するためのマイク1,2の切り替えとともに、音声辞書部7における認識候補の設定状態を切り替える動作について説明するための図である。
まず、車両9が駐車状態にあり、内部において人員が乗車しておらず、施錠がされている場合においては(図7のシーン[1]参照)、切り替え制御部5により、車内用マイク2についてはオフとされる一方車外用マイク1についてはオンとされて必要最小限の電力消費とするとともに、音声認識エンジン6においては、車外において発生される音声についての音声認識を行なうようになっている。このとき、音声認識エンジン6においては、切り替え制御部5からの切り替え制御信号に基づいて、辞書データについての重み付け等の設定を切り替えることにより、音声辞書部7において記憶されるデータのうちで、前述のいたずら等の不正検知用の言語群である辞書データを検索対照として用いる(ステップA1)。
The operation of the speech processing apparatus 10 configured as described above will be described with reference to the flowcharts shown in FIGS. FIG. 2 is a diagram for explaining an operation in the switching control unit 5 for switching the setting state of the recognition candidate in the speech dictionary unit 7 together with the switching of the microphones 1 and 2 for supplying the input speech signal to the speech recognition engine 6. It is.
First, in the case where the vehicle 9 is in a parked state, no personnel are in the vehicle, and the vehicle 9 is locked (see scene [1] in FIG. 7), the switching control unit 5 controls the in-vehicle microphone 2. On the other hand, the external microphone 1 is turned on to minimize the necessary power consumption, and the voice recognition engine 6 performs voice recognition on the voice generated outside the car. . At this time, in the speech recognition engine 6, among the data stored in the speech dictionary unit 7 by switching the setting such as weighting for the dictionary data based on the switching control signal from the switching control unit 5. Dictionary data, which is a language group for detecting fraud such as mischief, is used as a search reference (step A1).

これにより、音声認識エンジン6においては、車両9に対してなされるいたずら等の不正が行われている場合に、これを車外マイク2の音声信号から認識することができるようになっている。そして、この音声認識エンジン6においていたずら等の不正が行われていることを認識した場合には(ステップA2のYESルート)、図示しない通信機能により車両9の所有者の携帯電話等に連絡をとることができる(ステップA3)。これにより、所有者不在時においても車両9の監視を行なうことができるので、車両のセキュリティの向上を図ることができる。   As a result, the voice recognition engine 6 can recognize from the voice signal of the microphone 2 outside the vehicle when an illegal act such as tampering with the vehicle 9 is performed. When the voice recognition engine 6 recognizes that a mischief such as mischief has been performed (YES route in step A2), it contacts the mobile phone of the owner of the vehicle 9 by a communication function (not shown). (Step A3). Thereby, since the vehicle 9 can be monitored even when the owner is absent, the security of the vehicle can be improved.

また、駐車状態にある車両9の施錠が解除されたことを施錠/解錠センサ3cからの信号を通じセンサ情報判定部4で検出すると(ステップA2のNOルートからステップA4のYESルート)、解錠操作を行なった人員からは続いて乗車サポート用の音声コマンドを表す言葉が発せられる可能性が高い。そこで、切り替え制御部5では、音声認識エンジン6に対して切り替え制御信号を出力することにより、音声認識エンジン6において検索を行なう対象となる辞書データを、乗車サポートを目的とするコマンドをあらわす語彙群のデータ、即ち乗車サポート用の辞書データを検索対象としている(ステップA5)。   If the sensor information determination unit 4 detects that the vehicle 9 in the parked state is unlocked through a signal from the locking / unlocking sensor 3c (NO route from step A2 to YES route from step A4), unlocking is performed. There is a high possibility that the person who performed the operation will subsequently issue a word representing a voice command for boarding support. Therefore, the switching control unit 5 outputs a switching control signal to the voice recognition engine 6, thereby converting the dictionary data to be searched in the voice recognition engine 6 into a vocabulary group representing a command for the purpose of boarding support. , I.e., dictionary data for boarding support is set as a search target (step A5).

そして、車外の人員から例えば言葉「ドアOPEN」等のドアを開けるための音声コマンドが発声された場合には、音声辞書部7における検索対象語彙が絞られているので、音声認識エンジン6においては高い認識精度で音声コマンドを認識することができる。これにより、図示しないドア開閉機構を通じて自動でドアを開けることができる(ステップA6のYESルートからステップA7)。   When a voice command for opening a door such as the word “door OPEN” is uttered from a person outside the vehicle, the search target vocabulary in the voice dictionary unit 7 is narrowed down. Voice commands can be recognized with high recognition accuracy. Accordingly, the door can be automatically opened through a door opening / closing mechanism (not shown) (from the YES route of Step A6 to Step A7).

また、上述のごとく音声コマンドによりドアを開けた場合、または車外の人員が音声コマンドによらずに手動でドアを開けた場合においては、センサ情報判定部4においては、荷重センサ3aからの検出信号に基づいて、座席に人員が着座したか否かを判定する(ステップA7から、またはステップA6のNOルートからステップA8)。そして、切り替え制御部5においては、センサ情報判定部4からの上述の判定結果を受けて、マイク1,2および音声辞書部7における検索対象となるデータを切り替えている。   When the door is opened by a voice command as described above, or when a person outside the vehicle manually opens the door without using a voice command, the sensor information determination unit 4 detects a detection signal from the load sensor 3a. Based on the above, it is determined whether or not a person is seated on the seat (from step A7 or from the NO route of step A6 to step A8). In the switching control unit 5, the data to be searched in the microphones 1 and 2 and the voice dictionary unit 7 are switched in response to the determination result from the sensor information determination unit 4.

すなわち、座席に人員が座るまでは、音声認識エンジン6では上述の乗車サポート用の辞書データを検索対象としているが(ステップA8のNOルート)、座席に人員が座ったあとは(図7のシーン[2]参照)、切り替え制御部5ではマイク1,2の状態を切り替えるとともに、音声認識エンジン6において検索を行なう対象となる辞書データを切り替える(ステップA8のYESルートからステップA9)。   That is, until the person is seated in the seat, the speech recognition engine 6 searches the dictionary data for the above-mentioned boarding support (NO route of step A8), but after the person is seated in the seat (scene in FIG. 7). [2]), the switching control unit 5 switches the state of the microphones 1 and 2 and switches the dictionary data to be searched in the speech recognition engine 6 (from the YES route of step A8 to step A9).

具体的には、切り替え制御部5では、車外用マイク1をオンとし車内用マイク2をオフとしている設定から、車外用マイク1をオフとし車内用マイク2をオンとする設定に切り替えるとともに、音声認識エンジン6に切り替え制御信号を出力することにより、ナビゲーション装置等の車載機器操作用のコマンドをあらわす語彙データを検索対象の辞書データに切り替える。   Specifically, the switching control unit 5 switches the setting from turning on the in-vehicle microphone 1 and turning off the in-vehicle microphone 2 to setting to turn off the in-vehicle microphone 1 and turning on the in-vehicle microphone 2. By outputting a switching control signal to the recognition engine 6, vocabulary data representing a command for operating an in-vehicle device such as a navigation device is switched to dictionary data to be searched.

換言すれば、施錠/解錠センサ3cおよび荷重センサ3aでの検出結果たる信号に基づいて、センサ情報判定部4で車両9の施錠解除状態であって乗員の着座を検出するまでは、音声辞書部7における認識候補の設定状態を、乗車サポートのための言語群を優先して認識候補とし、センサ情報判定部4で乗員の着座を検出すると、車載機器操作用の言語群を優先して認識候補とすべく、音声辞書部7における認識候補の設定状態を切り替える。   In other words, based on the signals that are the detection results of the lock / unlock sensor 3c and the load sensor 3a, the voice dictionary until the sensor information determination unit 4 detects the seating of the occupant in the unlocked state of the vehicle 9 The recognition candidate setting state in the unit 7 is given priority to the language group for boarding support, and when the occupant's seating is detected by the sensor information determination unit 4, the language group for in-vehicle device operation is recognized with priority. In order to make a candidate, the setting state of the recognition candidate in the speech dictionary unit 7 is switched.

上述したように、乗員が車外にいる場合と車内にいる場合とで、重み付けの付与により、音声辞書部7での検索対象の辞書データを切り替えているが、音声辞書部7に付与されているアドレス等によって切り替える構成とすれば、車内用と車外用とで独立した音声辞書部を構成することができ、このようにすれば、同一の語彙によっても操作の異なるコマンドとすることも可能になる。例えば、車外にいるときに「オープン」と発声した場合にはドアが開くようにする一方、車内にいるときに「オープン」と発声した場合には窓が開くようにすることができるようになる。   As described above, the dictionary data to be searched in the speech dictionary unit 7 is switched by weighting depending on whether the occupant is outside the vehicle or in the vehicle, but is assigned to the speech dictionary unit 7. If the configuration is switched according to the address or the like, it is possible to configure independent voice dictionary units for in-car use and out-of-car use, and in this way, it is also possible to use different commands for the same vocabulary. . For example, if you say "open" when you are outside the car, the door will open, but if you say "open" when you are inside the car, the window will open. .

ところで、音声コマンドを発声する乗員の着座位置に応じて、さらに図3に示すように検索対象の辞書データを切り替えることができる。即ち、カメラ8による車内の乗員の口の動きについての監視情報に基づいて、車内の座席のいずれかに座っている乗員が音声コマンドを発声した場合においては(ステップB1のYESルート)、センサ情報判定部4において音声コマンドを発した乗員の座席位置を特定するとともに、切り替え制御部5では、その乗員が座っている座席位置に応じて検索対象の辞書データを切り替える(ステップB2〜B6)。   By the way, according to the seating position of the occupant who utters the voice command, the dictionary data to be searched can be switched as shown in FIG. That is, when the occupant sitting in one of the seats in the vehicle utters a voice command based on the monitoring information on the movement of the occupant's mouth in the vehicle by the camera 8 (YES route of step B1), the sensor information The determination unit 4 specifies the seat position of the occupant who issued the voice command, and the switching control unit 5 switches the search target dictionary data according to the seat position where the occupant is sitting (steps B2 to B6).

このとき、センサ情報判定部4においては、発声を行なった乗員の座席位置の特定を行なうには、上述のカメラ8からの監視情報とともに、座席ごとに設置されているマイク1からの音圧レベルについても併用することもできる。このような乗員の口の動きがない場合においては、音声認識エンジン6では動作を止めておくこともできるので、リソース消費あるいは電力消費を抑制させることができる。   At this time, in order to specify the seat position of the occupant who made the utterance, the sensor information determination unit 4 together with the monitoring information from the camera 8 described above, the sound pressure level from the microphone 1 installed for each seat. Can also be used together. When there is no movement of the passenger's mouth, the speech recognition engine 6 can also stop the operation, so that resource consumption or power consumption can be suppressed.

ここで、発声した乗員の座席位置が運転席である場合には(ステップB2の“運手席”ルート)、切り替え制御部5では、マイク1をオンとしマイク2をオフとする。特に座席ごとにマイク1が設置されている場合には、運転席の乗員の発声を集音するために設置されたマイク1からの音声信号を音声認識エンジン6に供給する(ステップB3)。
そして、運転席からの音声コマンドとして可能性の高いカテゴリのものを優先して検索対象とすべく切り替え制御信号を音声認識エンジン6に出力する。このとき、例えば図4に示すように、「目的地設定」、「住所」あるいは「電話番号」などのナビゲーション装置の操作のためのコマンド等を、運転席優先とすべき認識語彙として重みを付与するため、パラメータを音声認識エンジン6に設定する(ステップB3)。これにより、音声認識エンジン6による認識結果としては(ステップB4)、重みが付与された認識語彙に検索対象を絞ることができるので、認識の確からしさを向上させている。
Here, when the seat position of the occupant who spoke is the driver's seat (the “driver's seat” route in step B2), the switching control unit 5 turns on the microphone 1 and turns off the microphone 2. In particular, when the microphone 1 is installed for each seat, an audio signal from the installed microphone 1 is collected to the voice recognition engine 6 in order to collect the utterances of the driver's occupant (step B3).
Then, a switching control signal is output to the voice recognition engine 6 so that a voice command from the driver's seat is likely to be a search target with priority. At this time, as shown in FIG. 4, for example, a command for navigation device operation such as “Destination setting”, “Address” or “Telephone number” is given a weight as a recognition vocabulary to be given priority to the driver's seat. Therefore, parameters are set in the speech recognition engine 6 (step B3). As a result of the recognition by the speech recognition engine 6 (step B4), the search target can be narrowed down to the recognition vocabulary to which the weight is given, so that the probability of recognition is improved.

同様に、発声した乗員の座席位置が助手席である場合には(ステップB2の“助手席”ルート)、切り替え制御部5では、マイク1をオンとしマイク2をオフとする。特に座席ごとにマイク1が設置されている場合には、助手席の乗員の発声を集音するために設置されたマイク1からの音声信号を音声認識エンジン6に供給する。
そして、助手席からの音声コマンドとして可能性の高いカテゴリのものを優先して検索対象とすべく切り替え制御信号を音声認識エンジン6に出力する。このとき、例えば図4に示すように、「4チャンネル」、「6チャンネル」あるいは「シークアップ」などのテレビジョン装置の操作のためのコマンド等を、助手席優先とすべき認識語彙として重みを付与するため、パラメータを音声認識エンジン6に設定する(ステップB5)。
Similarly, when the seat position of the occupant who spoke is the passenger seat (the “passenger seat” route in step B2), the switching control unit 5 turns on the microphone 1 and turns off the microphone 2. In particular, when a microphone 1 is installed for each seat, a voice signal from the installed microphone 1 is collected to the voice recognition engine 6 in order to collect voices of passengers in the passenger seat.
Then, a switching control signal is output to the voice recognition engine 6 so that a voice command from the passenger seat having a high possibility is preferentially selected as a search target. At this time, for example, as shown in FIG. 4, a command for operating a television device such as “4 channels”, “6 channels”, or “seek up” is weighted as a recognition vocabulary to be given priority to the passenger seat. In order to give it, parameters are set in the speech recognition engine 6 (step B5).

さらに、発声した乗員の座席位置が後部座席である場合には(ステップB2の“後部座席”ルート)、切り替え制御部5では、マイク1をオンとしマイク2をオフとする。特に座席ごとにマイク1が設置されている場合には、後部座席の乗員の発声を集音するために設置されたマイク1からの音声信号を音声認識エンジン6に供給する。
そして、後部座席からの音声コマンドとして可能性の高いカテゴリのものを優先して検索対象とすべく切り替え制御信号を音声認識エンジン6に出力する。このとき、例えば図4に示すように、「25度」、「28度」あるいは「風量アップ」などのテレビジョン装置の操作のためのコマンド等を、助手席優先とすべき認識語彙として重みを付与するため、パラメータを音声認識エンジン6に設定する(ステップB6)。
Furthermore, when the seat position of the occupant who spoke is the rear seat (the “rear seat” route of step B2), the switching control unit 5 turns on the microphone 1 and turns off the microphone 2. In particular, when the microphone 1 is installed for each seat, the voice signal from the microphone 1 installed to collect the utterance of the occupant in the rear seat is supplied to the speech recognition engine 6.
Then, a switching control signal is output to the voice recognition engine 6 so that a voice command from the rear seat that has a high possibility is preferentially selected as a search target. At this time, as shown in FIG. 4, for example, commands for operating the television device such as “25 degrees”, “28 degrees”, or “air volume up” are weighted as recognition vocabulary to be given priority to the passenger seat. In order to give it, parameters are set in the speech recognition engine 6 (step B6).

ここで、上述の音声認識エンジン6においては、優先度の高い音声コマンドに対して図5に示すように重み付けが付与される。即ち、マイク1を通じて入力された音声信号が切り替え制御部5から入力されて、このマイク1からの音声信号についての音声認識を行なう旨の指示を受けると(ステップC1のYESルート)、音声認識エンジン6での音声認識処理が行なわれる。   Here, in the voice recognition engine 6 described above, weighting is given to voice commands with high priority as shown in FIG. That is, when a voice signal input through the microphone 1 is input from the switching control unit 5 and an instruction to perform voice recognition on the voice signal from the microphone 1 is received (YES route of Step C1), the voice recognition engine. The voice recognition process at 6 is performed.

このとき、当該切り替え制御部5からの切り替え制御信号による重み付け設定指示がある場合には、その内容に応じて検索対象とする辞書データを切り替える(ステップC2のYESルートからステップC3)。即ち、切り替え制御部5からの切り替え制御信号には、重み付け設定指示をすべき辞書データを構成する認識語彙についてのID(Identifier)情報とともに、重みとなる値についての情報(例えば図6に示す「−100」等)を含めることができる。   At this time, when there is a weighting setting instruction by the switching control signal from the switching control unit 5, the dictionary data to be searched is switched according to the content (from the YES route of step C2 to step C3). That is, in the switching control signal from the switching control unit 5, ID (Identifier) information about the recognition vocabulary constituting the dictionary data to be instructed for weight setting, as well as information about the value to be weighted (for example, “ -100 "etc.).

この場合においては、切り替え制御部5では、図6に示すように、座席位置の乗員に対応して、優先すべき認識語彙群のIDおよび重みとなる値についての情報をパラメータ設定ファイルとして管理しておくことができる。そして、切り替え制御部5では、センサ情報判定部4からの信号により、音声コマンドを発した乗員の座席位置が特定された場合には、該当座席位置の乗員からの発声に対する音声認識処理のために、対応するパラメータ設定ファイルの情報を切り替え制御信号に含めて音声認識エンジン6に出力する。   In this case, the switching control unit 5 manages, as a parameter setting file, information on the IDs and weight values to be prioritized corresponding to the passengers at the seat position as shown in FIG. I can keep it. When the seat position of the occupant who issued the voice command is specified by the signal from the sensor information determination unit 4, the switching control unit 5 performs voice recognition processing for the utterance from the occupant at the corresponding seat position. The information of the corresponding parameter setting file is included in the switching control signal and output to the speech recognition engine 6.

そして、音声認識エンジン6においては、切り替え制御信号をパラメータ設定ファイルとして入力されて、このパラメータ設定ファイルに含まれる認識語彙についてのID情報および重みとなる値に従って、入力音声信号波形と検索対象語彙についての波形モデルとの近似度を示す距離の算出を行ない、近似度の高い(即ち距離の値の小さい)認識語彙を認識結果として出力するのである(ステップC4)。   Then, in the speech recognition engine 6, the switching control signal is input as a parameter setting file, and the input speech signal waveform and the search target vocabulary are determined according to the ID information and the weight value included in the parameter setting file. The distance indicating the degree of approximation with the waveform model is calculated, and a recognition vocabulary having a high degree of approximation (that is, a small distance) is output as a recognition result (step C4).

また、当該切り替え制御部5からの切り替え制御信号による重み付け設定指示がない場合には、音声認識エンジン6においては、音声辞書部7における辞書データには重み付けを付与せずに、辞書データをなす全ての検索対象語彙についての波形モデルと、入力音声信号波形との距離の算出を通じて、認識結果を出力する(ステップC2のNOルートからステップC4)。   Further, when there is no weighting setting instruction by the switching control signal from the switching control unit 5, the speech recognition engine 6 does not assign any weight to the dictionary data in the speech dictionary unit 7, and all the dictionary data is formed. The recognition result is output through the calculation of the distance between the waveform model for the search target vocabulary and the input speech signal waveform (from NO route of step C2 to step C4).

このように、本発明の一実施形態にかかる音声処理装置10によれば、切り替え制御部5により、センサ情報判定部4における検出結果に応じて、マイク1,2の動作状態および音声辞書部7における認識候補の設定状態を切り替えることができるので、利用者の操作作業を介在させずに、複数のマイク1,2が搭載された車両9において、音声認識の感度を従来技術よりも向上させることができる利点がある。   As described above, according to the speech processing apparatus 10 according to the embodiment of the present invention, the switching control unit 5 causes the operation state of the microphones 1 and 2 and the speech dictionary unit 7 according to the detection result in the sensor information determination unit 4. Since the setting state of recognition candidates in the vehicle can be switched, the sensitivity of voice recognition is improved in the vehicle 9 equipped with a plurality of microphones 1 and 2 without intervention of the user's operation as compared with the prior art. There is an advantage that can be.

〔B〕その他
上述した実施形態にかかわらず、本発明の趣旨を逸脱しない範囲において種々変形して実施することができる。
たとえば、図9に示すようにマイク11〜13のように、同一座席内でも高さ等が異なる位置に分けて配置する場合においても、カメラ8での監視情報を通じセンサ情報判定部4において乗員の顔向き判定することで、切り替え制御部5では、マイク11〜13のうちの動作状態とするのに最適なマイクを選択することができる。さらには、顔の向きに応じて、音声認識エンジン6での認識候補を切り替えることで、顔向きから注意が向けられている操作対象機器についての音声コマンドに検索対象を絞ることもできる。この場合においては、カメラ8は、車両9のシートに着座した乗員の顔向きを検出する顔向き検出部を構成する。
[B] Others Regardless of the embodiment described above, various modifications can be made without departing from the spirit of the present invention.
For example, as shown in FIG. 9, even when the microphones 11 to 13 are arranged separately at different heights in the same seat, the sensor information determination unit 4 uses the monitoring information from the camera 8 to monitor the occupant. By determining the face orientation, the switching control unit 5 can select the optimum microphone among the microphones 11 to 13 to be in the operating state. Furthermore, by switching the recognition candidates in the voice recognition engine 6 according to the face direction, the search target can be narrowed down to the voice command for the operation target device to which attention is directed from the face direction. In this case, the camera 8 constitutes a face direction detection unit that detects the face direction of an occupant seated on the seat of the vehicle 9.

また、この図9に示すようなマイク11〜13の配置とする場合において、センサ情報判定部4では、図10に示すように、荷重センサ3aで検出される荷重値に応じて、乗員の身長を推定することで、切り替え制御部5では、この荷重値に応じて動作状態とすべきマイク11〜13を選択的に切り替えることもできる。
さらに、センサ部3として上記車両の車速を検出する車速センサ(車速検出部)を備えることとし、切り替え制御部5において、車速センサでの検出信号に基づくセンサ情報判定部4からの検出結果に基づいて、マイク1,2の動作状態を切り替えるとともに、マイク1,2の切り替え制御に連動して、音声辞書部7における認識候補の設定状態を切り替えることとしてもよい。このようにすれば、走行中は車外のマイク2をオフとし車内のマイク1をオンとするとともに、停止中は車外のマイク2をオンとして、省電力化を図ることができる。
When the microphones 11 to 13 are arranged as shown in FIG. 9, the sensor information determination unit 4, as shown in FIG. 10, determines the height of the occupant according to the load value detected by the load sensor 3 a. Therefore, the switching control unit 5 can selectively switch the microphones 11 to 13 to be in the operating state according to the load value.
Further, the sensor unit 3 includes a vehicle speed sensor (vehicle speed detection unit) that detects the vehicle speed of the vehicle. Based on the detection result from the sensor information determination unit 4 based on the detection signal from the vehicle speed sensor in the switching control unit 5. Then, the operation state of the microphones 1 and 2 may be switched, and the recognition candidate setting state in the speech dictionary unit 7 may be switched in conjunction with the switching control of the microphones 1 and 2. In this way, the microphone 2 outside the vehicle is turned off and the microphone 1 inside the vehicle is turned on during traveling, and the microphone 2 outside the vehicle is turned on during stoppage, thereby saving power.

また、上記乗員が着座しているシートの向きを検出するシート向き検出部としてのセンサをそなえることとすれば、切り替え制御部5においては、シート向き検出部としてのセンサでの検出結果に基づいて、室内に複数備えられたマイク1の動作状態を切り替えるとともに、マイク1の切り替え制御に連動して、音声辞書部における認識候補の設定状態を切り替えることとしてもよい。   Further, if a sensor as a seat direction detecting unit for detecting the direction of the seat on which the occupant is seated is provided, the switching control unit 5 is based on the detection result of the sensor as the seat direction detecting unit. The operation state of the plurality of microphones 1 provided in the room may be switched, and the recognition candidate setting state in the speech dictionary unit may be switched in conjunction with the switching control of the microphones 1.

この場合においては、例えばシートがドアの向きを向いている場合には、乗員の注意はセンターコンソールにある車載機器、例えばナビゲーション装置等には向いていないと想定できるので、ナビゲーション装置の操作のための音声コマンドについては検索対象から除外し、シートやドアの制御のための音声コマンドについて優先的に検索対象とする。これにより検索対象の語彙を絞ることができるので、上述の本実施形態の場合と同様の利点がある。   In this case, for example, when the seat is facing the door, it can be assumed that the occupant's attention is not suitable for in-vehicle devices such as a navigation device in the center console. Are excluded from search targets, and voice commands for seat and door control are preferentially searched. As a result, the vocabulary to be searched can be narrowed down, and there is an advantage similar to that of the above-described embodiment.

さらに、上述の本実施形態においては、解錠するまでの音声認識エンジン6の処理は適宜省略することもできる。このようにすれば、リソースの消費、電力消費を抑制させることができる。
また、窓の開閉中を検出するセンサをそなえることとすれば、開閉中の任意の発生により窓の開閉動作を停止させることができ、乗員の保護を更に厚くすることができる。
Furthermore, in the above-described embodiment, the processing of the speech recognition engine 6 until unlocking can be omitted as appropriate. In this way, resource consumption and power consumption can be suppressed.
Further, if a sensor for detecting whether the window is opened or closed is provided, the window opening / closing operation can be stopped by any occurrence during opening and closing, thereby further protecting the passenger.

また、上述した実施形態の開示により、本発明の装置を製造することは可能である。   In addition, the device of the present invention can be manufactured based on the disclosure of the above-described embodiment.

本発明の一実施形態における音声処理装置を示す機能ブロック図である。It is a functional block diagram which shows the audio | voice processing apparatus in one Embodiment of this invention. 本発明の一実施形態における音声処理装置の動作を説明するためのフローチャートである。It is a flowchart for demonstrating operation | movement of the audio processing apparatus in one Embodiment of this invention. 本発明の一実施形態における音声処理装置の動作を説明するためのフローチャートである。It is a flowchart for demonstrating operation | movement of the audio processing apparatus in one Embodiment of this invention. 本発明の一実施形態における音声処理装置での認識語彙の切り替えについて説明するための図である。It is a figure for demonstrating switching of the recognition vocabulary in the audio | voice processing apparatus in one Embodiment of this invention. 本発明の一実施形態における音声処理装置の動作を説明するためのフローチャートである。It is a flowchart for demonstrating operation | movement of the audio processing apparatus in one Embodiment of this invention. 本発明の一実施形態における音声処理装置での認識語彙の切り替えについて説明するための図である。It is a figure for demonstrating switching of the recognition vocabulary in the audio | voice processing apparatus in one Embodiment of this invention. 本発明の一実施形態における音声処理装置の動作を説明するための図である。It is a figure for demonstrating operation | movement of the audio processing apparatus in one Embodiment of this invention. 本発明の一実施形態にかかる音声処理装置のカメラおよびマイクの配置例を示す図である。It is a figure which shows the example of arrangement | positioning of the camera of the audio | voice processing apparatus concerning one Embodiment of this invention, and a microphone. 本発明の一実施形態にかかる音声処理装置のカメラおよびマイクの配置例を示す図である。It is a figure which shows the example of arrangement | positioning of the camera of the audio | voice processing apparatus concerning one Embodiment of this invention, and a microphone. 本発明の一実施形態における音声処理装置の動作を説明するための図である。It is a figure for demonstrating operation | movement of the audio processing apparatus in one Embodiment of this invention.

符号の説明Explanation of symbols

1,1−1,1−2,2,11〜13 マイク(音声入力手段)
3 センサ部(状態検出部)
3a 荷重センサ
3b 施錠/解錠センサ
3c ドア開閉センサ
4 センサ情報判定部(状態検出部)
5 切り替え制御部
6 音声認識エンジン(音声認識部)
7 音声辞書部
8,8−1,8−2 カメラ
9 車両
10 音声処理装置
1,1-1,1-2,2,11-13 Microphone (voice input means)
3 Sensor unit (state detection unit)
3a Load sensor 3b Locking / unlocking sensor 3c Door open / close sensor 4 Sensor information determination unit (state detection unit)
5 Switching control unit 6 Voice recognition engine (voice recognition unit)
7 Voice dictionary part 8,8-1,8-2 Camera 9 Vehicle 10 Voice processing device

Claims (10)

車両における複数箇所にそれぞれ搭載される複数の音声入力手段と、
音声信号に対する言語情報について保持する音声辞書部と、
該音声入力手段を通じて入力された音声信号についての音声認識を、該音声辞書部を参照することにより行なう音声認識部と、
上記車両内における乗員又は該車両外部の人員の状態、又は上記車両の状態について検出する状態検出部と、
該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちのいずれか一方又は双方を切り替える切り替え制御部と、をそなえて構成されたことを特徴とする、音声処理装置。
A plurality of voice input means mounted respectively at a plurality of locations in the vehicle;
A speech dictionary part that holds language information for speech signals;
A voice recognition unit that performs voice recognition on a voice signal input through the voice input unit by referring to the voice dictionary unit;
A state detection unit for detecting the state of an occupant in the vehicle or a person outside the vehicle, or the state of the vehicle;
A switching control unit configured to switch one or both of an operation state of the plurality of voice input units and a recognition candidate setting state in the voice dictionary unit according to a detection result in the state detection unit. A speech processing apparatus, characterized in that
該複数の音声入力手段として、上記車両の外部における音声を集音する外部音声入力手段と、上記車両の室内における音声を集音する室内音声入力手段と、をそなえるとともに、
該状態検出部が、上記車両のシートへの乗員の着座を検出する着座検出部をそなえ、
かつ、該切り替え制御部が、
該着座検出部からの検出結果に基づき、該着座検出部において上記乗員の着座を検出するまでは、該外部音声入力手段および該室内音声入力手段のうちで該外部音声入力手段からの音声信号を該音声認識部へ出力する一方、該着座検出部において上記乗員の着座を検出すると、該外部音声入力手段および該室内音声入力手段のうちで該室内音声入力手段からの音声信号を該音声認識部へ出力すべく、該複数の音声入力手段の動作状態を切り替えるとともに、
該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1記載の音声処理装置。
As the plurality of sound input means, an external sound input means for collecting sound outside the vehicle and an indoor sound input means for collecting sound inside the vehicle are provided.
The state detection unit includes a seating detection unit that detects the seating of an occupant on the seat of the vehicle,
And the switching control unit
Based on the detection result from the seating detection unit, an audio signal from the external audio input unit is output from the external audio input unit and the room audio input unit until the seating detection unit detects the seating of the occupant. When the seating detection unit detects the seating of the occupant while outputting to the voice recognition unit, the voice recognition unit outputs a voice signal from the room voice input unit among the external voice input unit and the room voice input unit. To switch the operating state of the plurality of voice input means,
2. The speech processing apparatus according to claim 1, wherein the setting of recognition candidates in the speech dictionary unit is switched in conjunction with the switching control of the speech input means.
該状態検出部が、該車両の施錠および施錠解除の状態を検出する施錠状態検出部を更にそなえ、
かつ、該切り替え制御部が、
該施錠状態検出部での検出結果に基づいて、該車両の施錠状態においては、車両外部のいたずら検知用の言語群を優先して認識候補とする一方、
該施錠状態検出部および該着座検出部での検出結果に基づいて、該車両の施錠解除状態であって該着座検出部において上記乗員の着座を検出するまでは、該音声辞書部における認識候補の設定状態を、乗車サポートのための言語群を優先して認識候補とし、該着座検出部において上記乗員の着座を検出すると、車載機器操作用の言語群を優先して認識候補とすべく、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項2記載の音声処理装置。
The state detection unit further includes a locking state detection unit for detecting the locking and unlocking states of the vehicle;
And the switching control unit
Based on the detection result of the locking state detection unit, in the locking state of the vehicle, the language group for tampering detection outside the vehicle is given priority as a recognition candidate,
Based on the detection results of the locking state detection unit and the seating detection unit, recognition candidates in the speech dictionary unit are detected until the seating detection unit detects the seating of the occupant in the unlocking state of the vehicle. The set state is set as a recognition candidate by giving priority to a language group for boarding support, and when the seating detection unit detects the seating of the occupant, the language group for in-vehicle device operation is given a priority as a recognition candidate. The speech processing apparatus according to claim 2, wherein a setting state of recognition candidates in the speech dictionary unit is switched.
該切り替え制御部は、上記車両内における乗員又は該車両外部の人員の状態、又は上記車両の状態に応じて、認識候補とすべき言語群に優先度の重み付けの付与により、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1〜3のいずれか1項記載の音声処理装置。   The switching control unit assigns priority weights to the language groups to be recognized according to the state of passengers inside the vehicle, the number of personnel outside the vehicle, or the state of the vehicle. The speech processing apparatus according to claim 1, wherein a setting state of recognition candidates is switched. 該音声辞書部は、上記車両内における乗員又は該車両外部の人員の状態、又は上記車両の状態に応じて、認識候補とすべき言語群をそれぞれ記憶する複数種類の辞書部をそなえ、
該切り替え制御部は、該状態検出部での検出結果に基づいて、該複数種類の辞書部のうちで、該音声認識部での音声認識において参照すべき辞書部を切り替えることにより、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1〜3のいずれか1項記載の音声処理装置。
The speech dictionary unit includes a plurality of types of dictionary units for storing language groups to be recognized as recognition candidates in accordance with the state of passengers inside the vehicle or personnel outside the vehicle, or the state of the vehicle,
The switching control unit switches the dictionary to be referred to in speech recognition at the speech recognition unit among the plurality of types of dictionary units based on the detection result at the state detection unit. The speech processing apparatus according to any one of claims 1 to 3, wherein a setting state of recognition candidates in the unit is switched.
上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、
該状態検出部が、上記車両のシートに着座した乗員の顔向きを検出する顔向き検出部をそなえ、
かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、
該顔向き検出部での検出結果に基づいて、該室内に複数箇所そなえられた音声入力手段の動作状態を切り替えるとともに、
該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1〜5のいずれか1項記載の音声処理装置。
The voice input means is provided at a plurality of locations in the vehicle interior,
The state detection unit includes a face direction detection unit that detects a face direction of an occupant seated on the vehicle seat,
And the switching control unit switches between the operation state of the plurality of speech input means and the recognition candidate setting state in the speech dictionary unit according to the detection result in the state detection unit.
Based on the detection result in the face direction detection unit, the operation state of the voice input means provided in a plurality of locations in the room is switched,
The speech processing apparatus according to claim 1, wherein the setting state of recognition candidates in the speech dictionary unit is switched in conjunction with the switching control of the speech input means.
上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、
該状態検出部が、上記車両のシートに着座した乗員の体重を検出する体重検出部をそなえ、
かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、
該体重検出部での検出結果に基づいて、該音声入力手段の動作状態を切り替えるとともに、
該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1〜5のいずれか1項記載の音声処理装置。
The voice input means is provided at a plurality of locations in the vehicle interior,
The state detection unit includes a weight detection unit that detects the weight of an occupant seated on the vehicle seat,
And the switching control unit switches between the operation state of the plurality of speech input means and the recognition candidate setting state in the speech dictionary unit according to the detection result in the state detection unit.
Based on the detection result in the weight detection unit, the operation state of the voice input means is switched,
The speech processing apparatus according to claim 1, wherein the setting state of recognition candidates in the speech dictionary unit is switched in conjunction with the switching control of the speech input means.
上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、
該状態検出部が、上記車両の車速を検出する車速検出部をそなえ、
かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、
該車速検出部での検出結果に基づいて、該音声入力手段の動作状態を切り替えるとともに、
該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1〜5のいずれか1項記載の音声処理装置。
The voice input means is provided at a plurality of locations in the vehicle interior,
The state detection unit includes a vehicle speed detection unit that detects the vehicle speed of the vehicle,
And the switching control unit switches between the operation state of the plurality of speech input means and the recognition candidate setting state in the speech dictionary unit according to the detection result in the state detection unit.
Based on the detection result in the vehicle speed detector, the operation state of the voice input means is switched,
The speech processing apparatus according to claim 1, wherein the setting state of recognition candidates in the speech dictionary unit is switched in conjunction with the switching control of the speech input means.
上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、
該状態検出部が、上記乗員が着座しているシートの向きを検出するシート向き検出部をそなえ、
かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、
該シート向き検出部での検出結果に基づいて、該音声入力手段の動作状態を切り替えるとともに、
該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1〜5のいずれか1項記載の音声処理装置。
The voice input means is provided at a plurality of locations in the vehicle interior,
The state detection unit includes a seat direction detection unit that detects the direction of the seat on which the occupant is seated,
And the switching control unit switches between the operation state of the plurality of speech input means and the recognition candidate setting state in the speech dictionary unit according to the detection result in the state detection unit.
Based on the detection result in the sheet orientation detection unit, the operation state of the voice input means is switched,
The speech processing apparatus according to claim 1, wherein the setting state of recognition candidates in the speech dictionary unit is switched in conjunction with the switching control of the speech input means.
上記車両の室内の複数箇所に該音声入力手段がそなえられるとともに、
該状態検出部が、上記乗員の口が動いたことを検出する口動き検出部をそなえ、
かつ、該切り替え制御部が、該状態検出部における検出結果に応じて、該複数の音声入力手段の動作状態および該音声辞書部における認識候補の設定状態のうちの双方を切り替えるべく、
該口動き検出部での検出結果に基づいて、該口が動いたことが検出された乗員の乗車位置に応じて、該室内に複数箇所にそなえられた音声入力手段の動作状態を切り替えるとともに、
該音声入力手段の切り替え制御に連動して、該音声辞書部における認識候補の設定状態を切り替えることを特徴とする、請求項1〜5のいずれか1項記載の音声処理装置。
The voice input means is provided at a plurality of locations in the vehicle interior,
The state detection unit includes a mouth movement detection unit that detects that the passenger's mouth has moved,
And the switching control unit switches between the operation state of the plurality of speech input means and the recognition candidate setting state in the speech dictionary unit according to the detection result in the state detection unit.
Based on the detection result in the mouth movement detection unit, the operation state of the voice input means provided in a plurality of locations in the room is switched according to the boarding position of the occupant where the mouth has been detected, and
The speech processing apparatus according to claim 1, wherein the setting state of recognition candidates in the speech dictionary unit is switched in conjunction with the switching control of the speech input means.
JP2006124780A 2006-04-28 2006-04-28 Speech processing apparatus Withdrawn JP2007298592A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006124780A JP2007298592A (en) 2006-04-28 2006-04-28 Speech processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006124780A JP2007298592A (en) 2006-04-28 2006-04-28 Speech processing apparatus

Publications (1)

Publication Number Publication Date
JP2007298592A true JP2007298592A (en) 2007-11-15

Family

ID=38768154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006124780A Withdrawn JP2007298592A (en) 2006-04-28 2006-04-28 Speech processing apparatus

Country Status (1)

Country Link
JP (1) JP2007298592A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223170A (en) * 2008-03-18 2009-10-01 Advanced Telecommunication Research Institute International Speech recognition system
WO2017081960A1 (en) * 2015-11-09 2017-05-18 三菱自動車工業株式会社 Voice recognition control system
JP2017090612A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system
JP2017090615A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system
CN111033611A (en) * 2017-03-23 2020-04-17 乔伊森安全***收购有限责任公司 System and method for associating mouth images with input instructions
CN111559317A (en) * 2019-02-14 2020-08-21 本田技研工业株式会社 Agent device, control method for agent device, and storage medium
CN113393687A (en) * 2020-03-12 2021-09-14 奥迪股份公司 Driving assistance device, driving assistance method, vehicle, and medium

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223170A (en) * 2008-03-18 2009-10-01 Advanced Telecommunication Research Institute International Speech recognition system
WO2017081960A1 (en) * 2015-11-09 2017-05-18 三菱自動車工業株式会社 Voice recognition control system
JP2017090611A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system
JP2017090612A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system
JP2017090615A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system
CN111033611A (en) * 2017-03-23 2020-04-17 乔伊森安全***收购有限责任公司 System and method for associating mouth images with input instructions
JP2020518844A (en) * 2017-03-23 2020-06-25 ジョイソン セイフティ システムズ アクイジション エルエルシー System and method for correlating mouth images with input commands
JP7337699B2 (en) 2017-03-23 2023-09-04 ジョイソン セイフティ システムズ アクイジション エルエルシー Systems and methods for correlating mouth images with input commands
CN111559317A (en) * 2019-02-14 2020-08-21 本田技研工业株式会社 Agent device, control method for agent device, and storage medium
CN111559317B (en) * 2019-02-14 2024-03-19 本田技研工业株式会社 Agent device, method for controlling agent device, and storage medium
CN113393687A (en) * 2020-03-12 2021-09-14 奥迪股份公司 Driving assistance device, driving assistance method, vehicle, and medium

Similar Documents

Publication Publication Date Title
JP2007298592A (en) Speech processing apparatus
CN107656465A (en) Expansible Vehicular system
WO2017081960A1 (en) Voice recognition control system
US8005681B2 (en) Speech dialog control module
JP4859982B2 (en) Voice recognition device
JP6604151B2 (en) Speech recognition control system
JP2006030447A (en) Voice recognition system and moving body and vehicle having the system
CN112397065A (en) Voice interaction method and device, computer readable storage medium and electronic equipment
US10431221B2 (en) Apparatus for selecting at least one task based on voice command, vehicle including the same, and method thereof
JP2022028772A (en) In-vehicle device for analyzing voice production based on audio data and image data, method for processing voice production, and program
JP2007216920A (en) Seat controller for automobile, seat control program and on-vehicle navigation device
JP2008105608A (en) Voice responding control device for vehicle
JP2018027731A (en) On-vehicle device, control method of on-vehicle device, and content providing system
KR20180119929A (en) A voice detection apparatus, a method thereof and a vehicle including the same
JP2004354930A (en) Speech recognition system
JP2006039267A (en) Voice input device
JP2007147962A (en) On-vehicle use voice recognition device, open-close body control device, and voice recognition method
CN110211579A (en) A kind of voice instruction recognition method, apparatus and system
JP4561222B2 (en) Voice input device
JP2020157944A (en) Vehicle equipment controller, vehicle equipment control method, and program
US11580958B2 (en) Method and device for recognizing speech in vehicle
JP4649905B2 (en) Voice input device
CN113382892B (en) Space management system, mobile body, computer-readable storage medium, and space management method
WO2020240789A1 (en) Speech interaction control device and speech interaction control method
JP2006215418A (en) Voice input device and voice input method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090707