JP2009025714A - In-vehicle device and speech recognition method - Google Patents

In-vehicle device and speech recognition method Download PDF

Info

Publication number
JP2009025714A
JP2009025714A JP2007190865A JP2007190865A JP2009025714A JP 2009025714 A JP2009025714 A JP 2009025714A JP 2007190865 A JP2007190865 A JP 2007190865A JP 2007190865 A JP2007190865 A JP 2007190865A JP 2009025714 A JP2009025714 A JP 2009025714A
Authority
JP
Japan
Prior art keywords
voice
sound
vehicle
command
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007190865A
Other languages
Japanese (ja)
Other versions
JP4829184B2 (en
Inventor
Tsuguo Sumizawa
紹男 住沢
Hisashi Takahashi
久 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Xanavi Informatics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xanavi Informatics Corp filed Critical Xanavi Informatics Corp
Priority to JP2007190865A priority Critical patent/JP4829184B2/en
Publication of JP2009025714A publication Critical patent/JP2009025714A/en
Application granted granted Critical
Publication of JP4829184B2 publication Critical patent/JP4829184B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an in-vehicle system 10 in which the sound volume of speech output from a speaker is not made 0 as far as possible, when a command by speech is input. <P>SOLUTION: The in-vehicle system 10 of the invention performs speech recognition by separating a speech signal from a mixed signal including a plurality of speech signals collected via a plurality of microphones 11 for each speech generation position, and by removing the speech signal of the speech generated from a predetermined position. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、車両に搭載され、音声により入力されたコマンドに応じて処理を実行する装置に関する。   The present invention relates to an apparatus that is mounted on a vehicle and executes processing in accordance with a command input by voice.

特許文献1には、声によるコマンドの入力時に、車両内のスピーカから出力されている音楽の音量を0にすることにより、音声認識の精度を向上させる技術が開示されている。   Patent Document 1 discloses a technique for improving the accuracy of voice recognition by setting the volume of music output from a speaker in a vehicle to 0 when a voice command is input.

特開平11−15494号公報Japanese Patent Laid-Open No. 11-15494

ところで、車両内のスピーカを介して乗員が音楽を聴いている場合、声によるコマンドの入力が必要だからといって今まで流れていた音楽の音量を0にすると、乗員は不快に感じる場合がある。また、スピーカから流れている音声がラジオ等である場合、音量が0になってしまうと、乗員は、そのときに放送されていた情報を聞き逃すことになる。   By the way, when an occupant is listening to music through a speaker in a vehicle, the occupant may feel uncomfortable if the volume of the music that has been played so far is set to 0 just because a command input by voice is necessary. In addition, when the sound flowing from the speaker is a radio or the like, if the volume becomes zero, the occupant misses the information broadcast at that time.

本発明は上記事情を鑑みてなされたものであり、本発明の目的は、声によるコマンドの入力時にスピーカから出力される音声の音量を極力0にしないようにすることにある。   The present invention has been made in view of the above circumstances, and an object of the present invention is to prevent the sound volume output from the speaker from being reduced to 0 as much as possible when a voice command is input.

上記課題を解決するために、本発明の車載装置は、音声認識時に、複数のマイクロフォンを介して収集された複数の音声信号を含む混合信号から音声の発生位置毎に音声信号を分離し、予め定められた位置から発生する音声の音声信号を除外し、残った音声信号を用いて音声認識を行う。   In order to solve the above-described problem, the in-vehicle device of the present invention separates a voice signal for each voice generation position from a mixed signal including a plurality of voice signals collected via a plurality of microphones at the time of voice recognition. A voice signal generated from a predetermined position is excluded, and voice recognition is performed using the remaining voice signal.

例えば、本発明の第一の態様は、車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置であって、予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段と、コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付手段と、音声認識開始受付手段がコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離手段と、音声分離手段から出力された複数の音声信号の中から、位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を除外し、残った音声信号からコマンドを認識する音声認識手段と、音声認識手段によって認識されたコマンドに応じて処理を実行する処理手段とを備えることを特徴とする車載装置を提供する。   For example, a first aspect of the present invention is an in-vehicle device that is mounted on a vehicle and executes processing in accordance with a command input by voice, and stores position information indicating a predetermined position in the vehicle. Position information storage means, voice recognition start accepting means for receiving a command input start instruction from the user, and after the voice recognition start accepting means accepts a command input start instruction from the user, each via a plurality of microphones For each voice generation position corresponding to each voice signal, the voice signal generated from the position is separated from the collected mixed signal including the plurality of voice signals, and the separated voice signal is converted into the voice signal. A voice separation means for outputting together with information indicating a corresponding voice generation position, and a position information storage means from among a plurality of voice signals outputted from the voice separation means; The voice signal generated from the position indicated by the stored position information is excluded, the voice recognition means for recognizing the command from the remaining voice signal, and the process is executed according to the command recognized by the voice recognition means An in-vehicle device comprising a processing means is provided.

また、本発明の第二の態様は、車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置における音声認識方法であって、車載装置が、コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付ステップと、音声認識開始受付ステップにおいてコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離ステップと、音声分離ステップにおいて出力した複数の音声信号の中から、予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を除外し、残った音声信号からコマンドを認識する音声認識ステップと、音声認識ステップにおいて認識したコマンドに応じて処理を実行する処理ステップとを実行することを特徴とする音声認識方法を提供する。   According to a second aspect of the present invention, there is provided a voice recognition method in an in-vehicle device that is mounted on a vehicle and executes processing according to a command input by voice. The in-vehicle device issues an instruction to start inputting a command. From a mixed signal including a plurality of voice signals collected via each of a plurality of microphones after receiving a command input start instruction from the user in a voice recognition start receiving step received from the user and a voice recognition start receiving step, For each sound generation position corresponding to each sound signal, the sound signal generated from the position is separated, and the separated sound signal is output together with information indicating the sound generation position corresponding to the sound signal. A position indicating a predetermined position in the vehicle from among the plurality of sound signals output in the separation step and the sound separation step. A voice recognition step for recognizing a command from the remaining voice signal, and a voice recognition step for recognizing a command from the position indicated by the position information stored in the position information storage means for storing information. And a processing step of executing processing in response to the command.

また、本発明の第三の態様は、車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置であって、予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段と、コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付手段と、音声認識開始受付手段がコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離手段と、音声分離手段から出力された複数の音声信号の中から、位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を抽出し、抽出された音声信号からコマンドを認識する音声認識手段と、音声認識手段によって認識されたコマンドに応じて処理を実行する処理手段とを備えることを特徴とする車載装置を提供する。   A third aspect of the present invention is an in-vehicle device that is mounted on a vehicle and executes processing in response to a command input by voice, and stores position information indicating a predetermined position in the vehicle. Position information storage means, voice recognition start accepting means for receiving a command input start instruction from the user, and after the voice recognition start accepting means accepts a command input start instruction from the user, each via a plurality of microphones For each voice generation position corresponding to each voice signal, the voice signal generated from the position is separated from the collected mixed signal including the plurality of voice signals, and the separated voice signal is converted into the voice signal. A voice separation means for outputting together with information indicating a corresponding voice generation position, and a plurality of voice signals outputted from the voice separation means, in the position information storage means. Extracts the voice signal of the voice generated from the position indicated by the stored position information, executes the voice recognition means for recognizing the command from the extracted voice signal, and executes the process according to the command recognized by the voice recognition means An in-vehicle device is provided.

また、本発明の第四の態様は、車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置における音声認識方法であって、車載装置が、コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付ステップと、音声認識開始受付ステップにおいてコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離ステップと、音声分離ステップにおいて出力した複数の音声信号の中から、予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を抽出し、抽出した音声信号からコマンドを認識する音声認識ステップと、音声認識ステップにおいて認識したコマンドに応じて処理を実行する処理ステップとを実行することを特徴とする音声認識方法を提供する。   According to a fourth aspect of the present invention, there is provided a speech recognition method in an in-vehicle device that is mounted on a vehicle and executes processing in accordance with a command input by voice, wherein the in-vehicle device issues a command input start instruction. From a mixed signal including a plurality of voice signals collected via each of a plurality of microphones after receiving a command input start instruction from the user in a voice recognition start receiving step received from the user and a voice recognition start receiving step, For each sound generation position corresponding to each sound signal, the sound signal generated from the position is separated, and the separated sound signal is output together with information indicating the sound generation position corresponding to the sound signal. A position indicating a predetermined position in the vehicle from among the plurality of sound signals output in the separation step and the sound separation step. A voice recognition step for extracting a voice signal generated from a position indicated by the position information stored in the position information storage means for storing information, and recognizing a command from the extracted voice signal; And a processing step of executing processing in response to the command.

本発明の車載装置によれば、音声によるコマンドの入力時にスピーカから出力される音声の音量を極力0にしないようにすることができる。   According to the in-vehicle device of the present invention, it is possible to minimize the volume of the sound output from the speaker when inputting a voice command.

以下に、本発明の一実施形態について、図面を参照しながら説明する。   An embodiment of the present invention will be described below with reference to the drawings.

図1は、本発明の一実施形態に係る車載システム10の構成を示すシステム構成図である。車載システム10は、複数のマイクロフォン11、音声認識開始ボタン12、複数のスピーカ13、表示装置14、入力装置15、および車載装置20を備える。車載装置20は、音声分離部21、開始指示受付部22、音声再生部23、音声認識部24、処理部25、ノイズ位置情報格納部26、および座席位置情報格納部27を有する。   FIG. 1 is a system configuration diagram showing a configuration of an in-vehicle system 10 according to an embodiment of the present invention. The in-vehicle system 10 includes a plurality of microphones 11, a voice recognition start button 12, a plurality of speakers 13, a display device 14, an input device 15, and an in-vehicle device 20. The in-vehicle device 20 includes a voice separation unit 21, a start instruction reception unit 22, a voice reproduction unit 23, a voice recognition unit 24, a processing unit 25, a noise position information storage unit 26, and a seat position information storage unit 27.

音声再生部23は、タッチパネル等の入力装置15を介してユーザから音楽の再生を指示された場合に、車載装置20内の記憶装置内、または、CD(Compact Disc)やMD(MiniDisc)等の記憶媒体内に格納されている音楽データを再生してスピーカ13を介して出力する処理や、現在再生している音楽に関する情報等を表示装置14に表示する処理等を行う。また、音声再生部23は、音声認識部24からの指示に応じて、スピーカ13を介して出力している音声の音量を制御する。   When the user is instructed to play music via the input device 15 such as a touch panel, the audio playback unit 23 is in a storage device in the in-vehicle device 20 or a CD (Compact Disc) or MD (MiniDisc). A process of reproducing music data stored in the storage medium and outputting it through the speaker 13, a process of displaying information on the currently reproduced music, etc. on the display device 14 is performed. In addition, the voice reproduction unit 23 controls the volume of the voice output via the speaker 13 in accordance with an instruction from the voice recognition unit 24.

開始指示受付部22は、ユーザによって音声認識開始ボタン12が押下された場合に、音声信号の分離を音声分離部21に指示すると共に、音声認識の開始を音声認識部24に指示する。音声分離部21は、開始指示受付部22から音声認識の開始を指示された場合に、車両内に設けられた複数のマイクロフォン11のそれぞれから、複数の音声信号が混合された混合信号を取得し、取得した混合信号から、それぞれの音声信号の遅延量や振幅の差等に基づいて、音声の発生位置毎に、それぞれの音声信号を分離する。   When the user presses the voice recognition start button 12, the start instruction reception unit 22 instructs the voice separation unit 21 to separate the voice signal and instructs the voice recognition unit 24 to start voice recognition. When the voice separation unit 21 is instructed to start voice recognition from the start instruction receiving unit 22, the voice separation unit 21 obtains a mixed signal in which a plurality of voice signals are mixed from each of the plurality of microphones 11 provided in the vehicle. From the acquired mixed signal, each audio signal is separated for each audio generation position based on the delay amount and amplitude difference of each audio signal.

そして、音声分離部21は、例えば図2に示すように、車両内での音声信号に対応する音声の発生位置を示す音源位置41毎に、当該音源位置41から発生している音声の音声信号42および当該音声信号の分離精度を示す分離指標43を音声認識部24に出力する。本実施形態において、音源位置41には、車両内の所定の高さにおける水平面をxy平面とした場合のxy平面上の座標が格納される。また、他の例として、音源位置41には、車両内の位置を示す三次元座標が格納されていてもよい。   Then, for example, as shown in FIG. 2, the sound separation unit 21 generates a sound signal of a sound generated from the sound source position 41 for each sound source position 41 indicating a sound generation position corresponding to the sound signal in the vehicle. 42 and a separation index 43 indicating the separation accuracy of the voice signal are output to the voice recognition unit 24. In the present embodiment, the sound source position 41 stores coordinates on the xy plane when the horizontal plane at a predetermined height in the vehicle is the xy plane. As another example, the sound source position 41 may store three-dimensional coordinates indicating a position in the vehicle.

また、本実施形態において、分離指標43とは、例えば音声の発生位置の確からしさを示す指標であり、その確からしさに応じて0から100の間の数値で表される。音声信号の分離精度が高いほど、分離指標43には100に近い数値が格納される。   In the present embodiment, the separation index 43 is an index indicating the likelihood of the sound generation position, for example, and is represented by a numerical value between 0 and 100 according to the certainty. As the sound signal separation accuracy is higher, a value closer to 100 is stored in the separation index 43.

ノイズ位置情報格納部26には、例えば図3に示すように、音声認識時にノイズとなる音声を発生させる音源の位置が、車両内の所定の高さにおける水平面をxy平面とした場合のxy平面上の座標として格納される。本実施形態において、音声認識時にノイズとなる音声を発生させる音源とは、例えばスピーカ13の位置である。   In the noise position information storage unit 26, for example, as shown in FIG. 3, the position of the sound source that generates sound that becomes noise during speech recognition is the xy plane when the horizontal plane at a predetermined height in the vehicle is the xy plane. Stored as top coordinates. In the present embodiment, the sound source that generates sound that becomes noise during speech recognition is, for example, the position of the speaker 13.

ノイズ位置情報格納部26内の座標は、予めノイズ位置情報格納部26内に格納されていてもよく、入力装置15を介してユーザによって設定されてもよい。また、人が発声していない状況において、音声再生部23がスピーカ13を介して音声を出力し、音声分離部21が音源毎に音声の発生位置を特定し、特定した音源位置をノイズ位置情報格納部26に登録するようにしてもよい。   The coordinates in the noise position information storage unit 26 may be stored in the noise position information storage unit 26 in advance, or may be set by the user via the input device 15. Further, in a situation where a person is not speaking, the sound reproduction unit 23 outputs sound via the speaker 13, the sound separation unit 21 specifies the sound generation position for each sound source, and the specified sound source position is determined as noise position information. It may be registered in the storage unit 26.

座席位置情報格納部27には、例えば図4に示すように、座席に座った人の位置を含む領域270が、当該領域270で示された位置の座席に関する情報271、および、当該領域270から発生した音声を優先するか否かを示す優先フラグ272に対応付けて格納されている。本実施形態において、領域270には、例えば図5に示すように、車両内の所定の高さにおける水平面をxy平面とした場合のxy平面上の矩形領域(領域30、領域31、および領域32)内の対向する頂点の座標が格納される。   In the seat position information storage unit 27, for example, as shown in FIG. 4, an area 270 including the position of the person sitting on the seat includes information 271 relating to the seat at the position indicated by the area 270, and the area 270. Stored in association with a priority flag 272 indicating whether or not to give priority to the generated voice. In the present embodiment, as shown in FIG. 5, for example, the area 270 is a rectangular area (area 30, area 31, and area 32 on the xy plane when the horizontal plane at a predetermined height in the vehicle is the xy plane. The coordinates of the opposite vertices in) are stored.

図5は、車両の内部を上空から見た図を模式的に表したものであり、ハンドル16近傍の領域30は運転席を示し、領域31は助手席を示し、領域32は後部座席を示している。また、他の形態として、領域270には、座席に座った人の口の位置を含む三次元の領域を示す情報が格納されていてもよい。座席位置情報格納部27内の情報は、予め座席位置情報格納部27内に格納されていてもよく、入力装置15を介してユーザによって設定されてもよい。なお、声によるコマンドの入力を必要とするのは、通常、運転者である場合が多いため、初期状態では、運転席にいる人からの音声を優先するように設定されていることが好ましい。   FIG. 5 is a schematic view of the interior of the vehicle as viewed from above. An area 30 near the handle 16 indicates a driver seat, an area 31 indicates a passenger seat, and an area 32 indicates a rear seat. ing. As another form, the area 270 may store information indicating a three-dimensional area including the position of the mouth of a person sitting on the seat. Information in the seat position information storage unit 27 may be stored in the seat position information storage unit 27 in advance, or may be set by the user via the input device 15. Since it is usually the driver who needs to input a command by voice, in the initial state, it is preferable that the voice from the person in the driver's seat is set to be given priority.

音声認識部24は、音声分離部21から音源位置および分離指標を示す情報と共に複数の音声信号を受信した場合に、それぞれの分離指標を示す情報に基づいて、音源の分離精度が予め定められた精度以上か否かを判定する。本実施形態において、音声認識部24は、例えば複数の音声信号について算出された複数の分離指標の平均が、予め定められた値以上であるか否かを判定することにより、音源の分離精度が予め定められた精度以上か否かを判定する。   When the voice recognition unit 24 receives a plurality of audio signals together with information indicating the sound source position and the separation index from the voice separation unit 21, the sound source separation accuracy is predetermined based on the information indicating each separation index. It is determined whether or not the accuracy is exceeded. In the present embodiment, the voice recognition unit 24 determines whether the average of a plurality of separation indexes calculated for a plurality of voice signals is equal to or greater than a predetermined value, for example, thereby improving the sound source separation accuracy. It is determined whether or not the accuracy is higher than a predetermined accuracy.

なお、他の形態として、音声認識部24は、上位3つまでの分離指標の値の全てが予め定められた値以上であるか否かを判定することにより、音源の分離精度が予め定められた精度以上か否かを判定するようにしてもよい。ここで、予め定められた値とは、分離指標を示す数値が0から100までの間の数値として出力される場合に、例えば80を示す数値である。   As another form, the speech recognition unit 24 determines the sound source separation accuracy in advance by determining whether or not all of the top three separation index values are equal to or greater than a predetermined value. It may be determined whether or not the accuracy is higher. Here, the predetermined value is a numerical value indicating 80, for example, when a numerical value indicating the separation index is output as a numerical value between 0 and 100.

音源の分離精度が予め定められた精度以上である場合、音声認識部24は、音声分離部21から出力された音源の位置を参照して、音声分離部21から出力された音声信号の中から、ノイズ位置情報格納部26に格納されている位置の音声信号を除外し、残った音声信号を用いて音声信号からコマンドを抽出する音声認識処理を実行する。複数の音声信号が残った場合、音声認識部24は、座席位置情報格納部27を参照して、優先フラグがONになっている領域から発生した音声信号を優先して音声認識に用いる。   When the sound source separation accuracy is equal to or higher than a predetermined accuracy, the speech recognition unit 24 refers to the position of the sound source output from the sound separation unit 21 and selects from the sound signals output from the sound separation unit 21. Then, the voice signal at the position stored in the noise position information storage unit 26 is excluded, and voice recognition processing for extracting a command from the voice signal using the remaining voice signal is executed. When a plurality of audio signals remain, the audio recognition unit 24 refers to the seat position information storage unit 27 and prioritizes audio signals generated from the area where the priority flag is ON for use in audio recognition.

音声信号からコマンドを抽出できた場合、音声認識部24は、抽出したコマンドを音声再生部23または処理部25に供給する。音声再生部23は、音声認識部24から供給されたコマンドに応じて、再生中の音楽の停止や次の曲の再生等の音楽の再生に関する制御を行う。また、処理部25は、音声認識部24から供給されたコマンドに応じて、車両の現在位置を表示したり、目的地点までの経路を探索する等の処理を実行する。   When the command can be extracted from the voice signal, the voice recognition unit 24 supplies the extracted command to the voice reproduction unit 23 or the processing unit 25. In response to the command supplied from the voice recognition unit 24, the voice playback unit 23 performs control related to music playback such as stop of the music being played back or playback of the next song. In addition, the processing unit 25 performs processing such as displaying the current position of the vehicle and searching for a route to the destination point in accordance with the command supplied from the voice recognition unit 24.

一方、音源の分離精度が予め定められた精度未満である場合、音声認識部24は、声によるコマンドの再入力を表示装置14を介して指示する。そして、その後、音声認識開始ボタン12が押下された場合、音声認識部24は、スピーカ13から出力されている音声の音量を所定割合に減少させるよう音声再生部23に指示する。これにより、音声の分離精度を前回よりも高めることができる。   On the other hand, when the sound source separation accuracy is less than the predetermined accuracy, the voice recognition unit 24 instructs the re-input of the voice command via the display device 14. After that, when the voice recognition start button 12 is pressed, the voice recognition unit 24 instructs the voice reproduction unit 23 to reduce the volume of the voice output from the speaker 13 to a predetermined ratio. Thereby, the sound separation accuracy can be increased more than the previous time.

なお、声によるコマンドの再入力が行われる場合の、スピーカ13から出力されている音声の音量については、例えば図6に示すように、前回の分離指標が示す数値が低いほど、小さな音量になるように制御される。図6に示した例では、例えば、前回の分離指標が示す数値が80である場合、声によるコマンドの再入力が行われる場合の音量は、前回の80%に制御され、前回の分離指標が示す数値が20である場合、声によるコマンドの再入力が行われる場合の音量は、前回の20%に制御される。   As for the volume of the sound output from the speaker 13 when the voice command is re-input, as shown in FIG. 6, for example, the lower the numerical value indicated by the previous separation index, the lower the volume. To be controlled. In the example shown in FIG. 6, for example, when the numerical value indicated by the previous separation index is 80, the volume when the voice command is re-input is controlled to 80% of the previous time, and the previous separation index is When the numerical value shown is 20, the volume when the voice command is re-input is controlled to 20% of the previous time.

その後、音声認識部24は、音声分離部21から出力された音源の位置を参照して、音声分離部21から出力された音声信号の中から、ノイズ位置情報格納部26に格納されている位置の音声信号を除外し、残った音声信号を用いて音声信号からコマンドを抽出する音声認識処理を実行する。音声再生部23は、音声認識部24からの指示に応じてスピーカ13から出力されている音声の音量を減少させた後、所定時間(例えば3秒)経過後に、再び音量を元に戻す。   Thereafter, the voice recognition unit 24 refers to the position of the sound source output from the voice separation unit 21, and the position stored in the noise position information storage unit 26 among the voice signals output from the voice separation unit 21. Voice recognition processing is executed to extract a command from the voice signal using the remaining voice signal. The sound reproducing unit 23 reduces the sound volume output from the speaker 13 in accordance with an instruction from the sound recognizing unit 24, and then restores the sound volume again after a predetermined time (for example, 3 seconds).

なお、再度の声によるコマンドの入力においても音声の分離精度が予め定められた精度未満である場合、音声認識部24は、再び声によるコマンドの再入力を指示し、音声認識開始ボタン12が押下された場合に、スピーカ13から出力されている音声の音量をさらに所定割合減少させるよう音声再生部23に指示するようにしてもよい。   When the voice separation accuracy is less than a predetermined accuracy even when the voice command is input again, the voice recognition unit 24 instructs to input the voice command again and the voice recognition start button 12 is pressed. In such a case, the sound reproduction unit 23 may be instructed to further reduce the volume of the sound output from the speaker 13 by a predetermined rate.

図7は、車載装置20の動作の一例を示すフローチャートである。例えば車両のエンジンが起動する等の所定のタイミングで、車載装置20は、本フローチャートに示す動作を開始する。   FIG. 7 is a flowchart illustrating an example of the operation of the in-vehicle device 20. For example, the vehicle-mounted device 20 starts the operation shown in this flowchart at a predetermined timing such as when the vehicle engine is started.

まず、開始指示受付部22は、音声認識開始ボタン12が押下されたいか否かを判定する(S100)。音声認識開始ボタン12が押下されていない場合(S100:No)、開始指示受付部22は、音声認識開始ボタン12が押下されるまでステップS100に示した処理を繰り返す。   First, the start instruction receiving unit 22 determines whether or not the voice recognition start button 12 is desired to be pressed (S100). When the voice recognition start button 12 is not pressed (S100: No), the start instruction receiving unit 22 repeats the process shown in step S100 until the voice recognition start button 12 is pressed.

音声認識開始ボタン12が押下された場合(S100:Yes)、開始指示受付部22は、音声信号の分離を音声分離部21に指示する。音声分離部21は、車両内の複数のマイクロフォン11から混合信号を取得し、取得した混合信号から、音声の発生位置毎に、それぞれの音声信号を分離する(S101)。そして、音声分離部21は、分離した音声信号を、当該音声信号の発生位置を示す情報、当該音声信号の分離精度を示す分離指標と共に音声認識部24に出力する。   When the voice recognition start button 12 is pressed (S100: Yes), the start instruction receiving unit 22 instructs the voice separation unit 21 to separate the voice signal. The sound separation unit 21 acquires a mixed signal from the plurality of microphones 11 in the vehicle, and separates each sound signal for each sound generation position from the acquired mixed signal (S101). Then, the voice separation unit 21 outputs the separated voice signal to the voice recognition unit 24 together with information indicating the generation position of the voice signal and a separation index indicating the separation accuracy of the voice signal.

次に、音声認識部24は、音声分離部21から出力された分離指標を参照して、音声信号の分離精度が予め定められた精度以上か否かを判定する(S102)。分離精度が予め定められた精度以上である場合(S102:Yes)、音声認識部24は、音声分離部21から出力された音源の位置を参照して、音声分離部21から出力された音声信号の中から、ノイズ位置情報格納部26に格納されている位置の音声信号を除外する(S103)。そして、音声認識部24は、残った音声信号を用いて音声信号からコマンドを抽出する音声認識処理を実行し(S104)、開始指示受付部22は、再びステップS100に示した処理を実行する。   Next, the speech recognition unit 24 refers to the separation index output from the speech separation unit 21 and determines whether or not the separation accuracy of the speech signal is equal to or higher than a predetermined accuracy (S102). When the separation accuracy is equal to or higher than a predetermined accuracy (S102: Yes), the speech recognition unit 24 refers to the position of the sound source output from the speech separation unit 21, and the speech signal output from the speech separation unit 21 The audio signal at the position stored in the noise position information storage unit 26 is excluded from (S103). Then, the voice recognition unit 24 executes a voice recognition process for extracting a command from the voice signal using the remaining voice signal (S104), and the start instruction receiving unit 22 executes the process shown in step S100 again.

分離精度が予め定められた精度未満である場合(S102:No)、音声認識部24は、表示装置14を介して、声によるコマンドの再入力をユーザに指示する(S105)。そして、開始指示受付部22は、音声認識開始ボタン12が押下されたいか否かを判定する(S106)。   When the separation accuracy is less than a predetermined accuracy (S102: No), the voice recognition unit 24 instructs the user to re-input a command by voice via the display device 14 (S105). Then, the start instruction receiving unit 22 determines whether or not the voice recognition start button 12 is desired to be pressed (S106).

音声認識開始ボタン12が押下された場合(S106:Yes)、音声認識部24は、スピーカ13から出力されている音声の音量を所定割合に減少させるよう音声再生部23に指示する。音声再生部23は、音声認識部24からの指示に応じてスピーカ13から出力されている音声の音量を減少させる(S107)。   When the voice recognition start button 12 is pressed (S106: Yes), the voice recognition unit 24 instructs the voice reproduction unit 23 to reduce the volume of the voice output from the speaker 13 to a predetermined rate. The voice reproduction unit 23 reduces the volume of the voice output from the speaker 13 in accordance with the instruction from the voice recognition unit 24 (S107).

次に、音声分離部21は、複数のマイクロフォン11のそれぞれから混合信号を取得し、取得した混合信号から、音声の発生位置毎に、それぞれの音声信号を分離し(S108)、分離した音声信号を、当該音声信号の発生位置を示す情報、当該音声信号の分離精度を示す情報と共に音声認識部24に出力する。   Next, the sound separation unit 21 acquires a mixed signal from each of the plurality of microphones 11, separates each sound signal for each sound generation position from the acquired mixed signal (S108), and separates the sound signal. Are output to the voice recognition unit 24 together with information indicating the generation position of the voice signal and information indicating the separation accuracy of the voice signal.

次に、音声認識部24は、音声分離部21から出力された音源の位置を参照して、音声分離部21から出力された音声信号の中から、ノイズ位置情報格納部26に格納されている位置の音声信号を除外し(S109)、残った音声信号を用いて音声信号からコマンドを抽出する音声認識処理を実行し(S110)、開始指示受付部22は、再びステップS100に示した処理を実行する。   Next, the voice recognition unit 24 refers to the position of the sound source output from the voice separation unit 21 and is stored in the noise position information storage unit 26 from the voice signal output from the voice separation unit 21. The voice signal at the position is excluded (S109), a voice recognition process for extracting a command from the voice signal using the remaining voice signal is executed (S110), and the start instruction receiving unit 22 performs the process shown in step S100 again. Execute.

図8は、車載装置20の機能を実現するコンピュータ50のハードウェア構成の一例を示すハードウェア構成図である。コンピュータ50は、CPU(Central Processing Unit)51、RAM(Random Access Memory)52、ROM(Read Only Memory)53、HDD(Hard Disk Drive)54、入力インターフェイス(I/F)55、出力インターフェイス(I/F)56、およびメディアインターフェイス(I/F)57を備える。   FIG. 8 is a hardware configuration diagram illustrating an example of a hardware configuration of the computer 50 that realizes the functions of the in-vehicle device 20. The computer 50 includes a central processing unit (CPU) 51, a random access memory (RAM) 52, a read only memory (ROM) 53, a hard disk drive (HDD) 54, an input interface (I / F) 55, an output interface (I / F). F) 56 and a media interface (I / F) 57.

CPU51は、ROM53またはHDD54に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM53は、コンピュータ50の起動時にCPU51が実行するブートプログラムや、コンピュータ50のハードウェアに依存するプログラム等を格納する。HDD54は、CPU51によって実行されるプログラムを格納する。   The CPU 51 operates based on a program stored in the ROM 53 or the HDD 54 and controls each unit. The ROM 53 stores a boot program executed by the CPU 51 when the computer 50 is started up, a program depending on the hardware of the computer 50, and the like. The HDD 54 stores a program executed by the CPU 51.

入力インターフェイス55は、マイクロフォン11、音声認識開始ボタン12、または入力装置15からの信号を受信してCPU51へ送る。CPU51は、入力インターフェイス55を介して、マイクロフォン11、音声認識開始ボタン12、および入力装置15を制御し、入力インターフェイス55を介して、マイクロフォン11、音声認識開始ボタン12、または入力装置15から信号を取得する。   The input interface 55 receives a signal from the microphone 11, the voice recognition start button 12, or the input device 15 and sends it to the CPU 51. The CPU 51 controls the microphone 11, the voice recognition start button 12, and the input device 15 via the input interface 55, and receives signals from the microphone 11, the voice recognition start button 12, or the input device 15 via the input interface 55. get.

出力インターフェイス56は、CPU51から取得したデータを、スピーカ13または表示装置14へ送る。CPU51は、出力インターフェイス56を介して、スピーカ13および表示装置14を制御し、生成したデータを、出力インターフェイス56を介してスピーカ13または表示装置14へ出力する。   The output interface 56 sends the data acquired from the CPU 51 to the speaker 13 or the display device 14. The CPU 51 controls the speaker 13 and the display device 14 via the output interface 56 and outputs the generated data to the speaker 13 or the display device 14 via the output interface 56.

メディアインターフェイス57は、記録媒体58に格納されたプログラムまたはデータを読み取り、RAM52に提供する。RAM52を介してCPU51に提供されるプログラムは、記録媒体58に格納されている。当該プログラムは、記録媒体58から読み出されて、RAM52を介してコンピュータ50にインストールされ、CPU51によって実行される。記録媒体58は、例えばDVD(Digital Versatile Disk)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。   The media interface 57 reads a program or data stored in the recording medium 58 and provides it to the RAM 52. A program provided to the CPU 51 via the RAM 52 is stored in the recording medium 58. The program is read from the recording medium 58, installed in the computer 50 via the RAM 52, and executed by the CPU 51. The recording medium 58 is, for example, an optical recording medium such as a DVD (Digital Versatile Disk) or PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Etc.

コンピュータ50にインストールされて実行されるプログラムは、コンピュータ50を、音声分離部21、開始指示受付部22、音声再生部23、音声認識部24、処理部25、ノイズ位置情報格納部26、および座席位置情報格納部27として機能させる。コンピュータ50は、これらのプログラムを、記録媒体58から読み取って実行するが、他の例として、コンピュータ50に通信機能を設け、通信回線を介してこれらのプログラムを取得するようにしてもよい。   The programs installed on the computer 50 and executed by the computer 50 include a voice separation unit 21, a start instruction reception unit 22, a voice reproduction unit 23, a voice recognition unit 24, a processing unit 25, a noise position information storage unit 26, and a seat. It functions as the position information storage unit 27. The computer 50 reads these programs from the recording medium 58 and executes them. However, as another example, the computer 50 may be provided with a communication function to acquire these programs via a communication line.

以上、本発明の実施の形態について説明した。   The embodiment of the present invention has been described above.

上記説明から明らかなように、本発明の車載システム10によれば、音声によるコマンドの入力時にスピーカ13から出力される音声の音量を極力0にしないようにすることができる。   As is clear from the above description, according to the in-vehicle system 10 of the present invention, it is possible to minimize the volume of the sound output from the speaker 13 when a voice command is input.

なお、本発明は、上記した実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。   In addition, this invention is not limited to above-described embodiment, Many deformation | transformation are possible within the range of the summary.

例えば、本実施形態において、車載装置20は、音声再生部23を有するが、他の形態として、車載装置20は音声再生部23を有さなくてもよい。この場合、音声認識部24は、スピーカ13から出力されている音声の音量を所定割合に減少させる指示を、車載装置20が有する通信インターフェイスを介して、車載装置20の外部に設けられた、音声を再生する機能を有する音声再生装置に送るようにしてもよい。   For example, in the present embodiment, the in-vehicle device 20 includes the audio reproduction unit 23, but as another form, the in-vehicle device 20 may not include the audio reproduction unit 23. In this case, the voice recognizing unit 24 gives an instruction to decrease the volume of the voice output from the speaker 13 to a predetermined ratio, and the voice is provided outside the in-vehicle device 20 via the communication interface of the in-vehicle device 20. You may make it send to the audio | voice reproduction apparatus which has the function to reproduce | regenerate.

また、上記した実施形態において、タッチパネル等の入力装置15と音声認識開始ボタン12とは別体として説明したが、音声認識ボタン12は、入力装置15の一部のボタンとして実現されていてもよい。   In the above-described embodiment, the input device 15 such as a touch panel and the voice recognition start button 12 have been described as separate bodies. However, the voice recognition button 12 may be realized as a part of the buttons of the input device 15. .

上記した実施形態において、音声認識部24は、予めノイズ位置情報格納部26内に登録された位置から発生する音声信号を除外したが、他の形態として、音声認識部24は、予め設定された領域から発生する音声信号のみに基づいて音声認識を実行するようにしてもよい。   In the above-described embodiment, the voice recognition unit 24 excludes a voice signal generated from a position registered in the noise position information storage unit 26 in advance, but as another form, the voice recognition unit 24 is set in advance. Voice recognition may be executed based only on the voice signal generated from the area.

本発明の一実施形態に係る車載システム10の構成を示すシステム構成図である。1 is a system configuration diagram illustrating a configuration of an in-vehicle system 10 according to an embodiment of the present invention. 音声分離部21から出力される分離された音声信号40のデータ構造の一例を示す図である。It is a figure which shows an example of the data structure of the isolate | separated audio | voice signal 40 output from the audio | voice separation part 21. FIG. ノイズ位置情報格納部26に格納されるデータの構造の一例を示す図である。It is a figure which shows an example of the structure of the data stored in the noise position information storage part. 座席位置情報格納部27に格納されるデータの構造の一例を示す図である。It is a figure which shows an example of the structure of the data stored in the seat position information storage part. 車両内の領域の一例を説明するための概念図である。It is a conceptual diagram for demonstrating an example of the area | region in a vehicle. 音声分離部21から出力される分離指標と音量との関係を示す概念図である。It is a conceptual diagram which shows the relationship between the isolation | separation parameter | index output from the audio | voice separation part 21, and a sound volume. 車載装置20の動作の一例を示すフローチャートである。4 is a flowchart showing an example of the operation of the in-vehicle device 20. 車載装置20の機能を実現するコンピュータ50の構成の一例を示すハードウェア構成図である。It is a hardware block diagram which shows an example of a structure of the computer 50 which implement | achieves the function of the vehicle equipment.

符号の説明Explanation of symbols

10・・・車載システム、11・・・マイクロフォン、12・・・音声認識開始ボタン、13・・・スピーカ、14・・・表示装置、15・・・入力装置、16・・・ハンドル、20・・・車載装置、21・・・音声分離部、22・・・開始指示受付部、23・・・音声再生部、24・・・音声認識部、25・・・処理部、26・・・ノイズ位置情報格納部、27・・・座席位置情報格納部、30・・・領域、31・・・領域、32・・・領域、40・・・分離された音声信号、41・・・音源位置、42・・・音声信号、43・・・分離指標、50・・・コンピュータ、51・・・CPU、52・・・RAM、53・・・ROM、54・・・HDD、55・・・入力インターフェイス、56・・・出力インターフェイス、57・・・メディアインターフェイス、58・・・記録媒体 DESCRIPTION OF SYMBOLS 10 ... In-vehicle system, 11 ... Microphone, 12 ... Voice recognition start button, 13 ... Speaker, 14 ... Display device, 15 ... Input device, 16 ... Handle, 20. ..In-vehicle device, 21 ... voice separation unit, 22 ... start instruction receiving unit, 23 ... sound reproduction unit, 24 ... speech recognition unit, 25 ... processing unit, 26 ... noise Position information storage unit, 27 ... Seat position information storage unit, 30 ... Area, 31 ... Area, 32 ... Area, 40 ... Separated audio signal, 41 ... Sound source position, 42 ... Audio signal, 43 ... Separation index, 50 ... Computer, 51 ... CPU, 52 ... RAM, 53 ... ROM, 54 ... HDD, 55 ... Input interface 56 ... Output interface, 57 ... Medi Interface, 58 ... recording medium

Claims (10)

車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置であって、
予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段と、
コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付手段と、
前記音声認識開始受付手段がコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離手段と、
前記音声分離手段から出力された複数の音声信号の中から、前記位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を除外し、残った音声信号からコマンドを認識する音声認識手段と、
前記音声認識手段によって認識されたコマンドに応じて処理を実行する処理手段と
を備えることを特徴とする車載装置。
An in-vehicle device that is mounted on a vehicle and executes processing according to a command input by voice,
Position information storage means for storing position information indicating a predetermined position in the vehicle;
Voice recognition start accepting means for accepting a command input start instruction from the user;
After the voice recognition start accepting unit accepts a command input start instruction from the user, a voice corresponding to each voice signal is obtained from a mixed signal including a plurality of voice signals collected via each of the plurality of microphones. A sound separation means for separating a sound signal of a sound generated from the position for each generation position, and outputting the separated sound signal together with information indicating a sound generation position corresponding to the sound signal;
The voice signal generated from the position indicated by the position information stored in the position information storage means is excluded from the plurality of voice signals output from the voice separation means, and the command is used from the remaining voice signals. Voice recognition means for recognizing
An in-vehicle device comprising: processing means for executing processing according to a command recognized by the voice recognition means.
請求項1に記載の車載装置であって、
前記位置情報格納手段には、車両内に設けられたスピーカの位置を示す位置情報が格納されていることを特徴とする車載装置。
The in-vehicle device according to claim 1,
The in-vehicle apparatus characterized in that the position information storage means stores position information indicating a position of a speaker provided in the vehicle.
請求項1または2に記載の車載装置であって、
前記音声分離手段は、
分離した複数の音声信号およびそれぞれの音声信号に対応する音声の発生位置を示す情報と共に、音声信号の分離精度を示す指標であって、複数の音声信号の分離精度が良好であるほど高い数値を示す指標をさらに出力し、
前記音声認識手段は、
前記音声分離手段から出力された指標が予め定められた値未満である場合に、前記音声分離手段から出力された複数の音声信号の中からコマンドを認識する処理を実行せずに、コマンドを再度入力するようユーザに指示することを特徴とする車載装置。
The in-vehicle device according to claim 1 or 2,
The voice separation means is
Along with information indicating a plurality of separated audio signals and sound generation positions corresponding to the respective audio signals, it is an index indicating the separation accuracy of the audio signals, and the higher the better the separation accuracy of the plurality of audio signals, the higher the numerical value. Output more indicators to show,
The voice recognition means
If the index output from the speech separation means is less than a predetermined value, the command is executed again without executing processing for recognizing the command from the plurality of speech signals output from the speech separation means. A vehicle-mounted device that instructs a user to input.
請求項3に記載の車載装置であって、
前記音声認識手段は、
コマンドを再度入力するようユーザに指示した後に、前記音声認識開始受付手段がコマンドの入力開始の指示をユーザから受け付けた場合に、車両内のスピーカから出力される音量を小さくすることを特徴とする車載装置。
The in-vehicle device according to claim 3,
The voice recognition means
After the user is instructed to input the command again, the sound output from the speaker in the vehicle is reduced when the voice recognition start receiving unit receives an instruction to start inputting the command from the user. In-vehicle device.
請求項4に記載の車載装置であって、
前記音声認識手段は、
コマンドを再度入力するようユーザに指示した後に、前記音声認識開始受付手段がコマンドの入力開始の指示をユーザから受け付けた場合に、前記音声分離手段から出力された指標が示す値に応じて、当該指標が示す値が低いほど、車両内のスピーカから出力される音量を小さくすることを特徴とする車載装置。
The in-vehicle device according to claim 4,
The voice recognition means
After instructing the user to input the command again, when the voice recognition start accepting unit accepts an instruction to start inputting the command from the user, according to the value indicated by the index output from the voice separating unit, A vehicle-mounted device characterized in that the lower the value indicated by the index, the lower the volume output from a speaker in the vehicle.
請求項1から5のいずれか一項に記載の車載装置であって、
前記音声認識手段は、
前記音声分離手段から出力された複数の音声信号の中から、前記位置情報格納手段内に格納されている位置情報で示される位置から発生した音声に対応する音声信号を除外した場合に、車両内の異なる位置から発生した複数の音声に対応する音声信号が残ったならば、予め定められた座席に座っている人の位置から発生する音声に対応する音声信号をコマンドの認識対象の音声信号として優先的に用いることを特徴とする車載装置。
It is an in-vehicle device according to any one of claims 1 to 5,
The voice recognition means
When a sound signal corresponding to a sound generated from a position indicated by position information stored in the position information storage means is excluded from a plurality of sound signals output from the sound separation means, If audio signals corresponding to a plurality of sounds generated from different positions remain, an audio signal corresponding to a sound generated from the position of a person sitting in a predetermined seat is used as a command recognition target audio signal. A vehicle-mounted device that is used preferentially.
請求項6に記載の車載装置であって、
前記予め定められた位置とは、運転席であることを特徴とする車載装置。
The in-vehicle device according to claim 6,
The vehicle-mounted device, wherein the predetermined position is a driver's seat.
車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置における音声認識方法であって、
前記車載装置が、
コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付ステップと、
前記音声認識開始受付ステップにおいてコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離ステップと、
前記音声分離ステップにおいて出力した複数の音声信号の中から、予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を除外し、残った音声信号からコマンドを認識する音声認識ステップと、
前記音声認識ステップにおいて認識したコマンドに応じて処理を実行する処理ステップと
を実行することを特徴とする音声認識方法。
A speech recognition method in an in-vehicle device that is mounted on a vehicle and executes processing according to a command input by voice,
The in-vehicle device is
A voice recognition start reception step for receiving a command input start instruction from the user;
After receiving a command input start instruction from the user in the voice recognition start receiving step, from a mixed signal including a plurality of voice signals collected through each of the plurality of microphones, the voice corresponding to each voice signal is received. A sound separation step of separating a sound signal of a sound generated from the position for each generation position, and outputting the separated sound signal together with information indicating a sound generation position corresponding to the sound signal;
The sound generated from the position indicated by the position information stored in the position information storage means for storing the position information indicating the position in the vehicle determined in advance from among the plurality of sound signals output in the sound separation step. A voice recognition step of recognizing a command from the remaining voice signal,
And a processing step of executing processing in accordance with the command recognized in the speech recognition step.
車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置であって、
予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段と、
コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付手段と、
前記音声認識開始受付手段がコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離手段と、
前記音声分離手段から出力された複数の音声信号の中から、前記位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を抽出し、抽出された音声信号からコマンドを認識する音声認識手段と、
前記音声認識手段によって認識されたコマンドに応じて処理を実行する処理手段と
を備えることを特徴とする車載装置。
An in-vehicle device that is mounted on a vehicle and executes processing according to a command input by voice,
Position information storage means for storing position information indicating a predetermined position in the vehicle;
Voice recognition start accepting means for accepting a command input start instruction from the user;
After the voice recognition start accepting unit accepts a command input start instruction from the user, a voice corresponding to each voice signal is obtained from a mixed signal including a plurality of voice signals collected via each of the plurality of microphones. A sound separation means for separating a sound signal of a sound generated from the position for each generation position, and outputting the separated sound signal together with information indicating a sound generation position corresponding to the sound signal;
From the plurality of sound signals output from the sound separation means, a sound signal of the sound generated from the position indicated by the position information stored in the position information storage means is extracted, and the extracted sound signal is used. Voice recognition means for recognizing commands;
An in-vehicle device comprising: processing means for executing processing according to a command recognized by the voice recognition means.
車両に搭載され、音声により入力されたコマンドに応じて処理を実行する車載装置における音声認識方法であって、
前記車載装置が、
コマンドの入力開始の指示をユーザから受け付ける音声認識開始受付ステップと、
前記音声認識開始受付ステップにおいてコマンドの入力開始の指示をユーザから受け付けた後に、複数のマイクロフォンのそれぞれを介して収集された複数の音声信号を含む混合信号から、それぞれの音声信号に対応する音声の発生位置毎に、当該位置から発生する音声の音声信号を分離し、分離した音声信号を、当該音声信号に対応する音声の発生位置を示す情報と共に出力する音声分離ステップと、
前記音声分離ステップにおいて出力した複数の音声信号の中から、予め定められた車両内の位置を示す位置情報を格納する位置情報格納手段内に格納されている位置情報で示される位置から発生した音声の音声信号を抽出し、抽出した音声信号からコマンドを認識する音声認識ステップと、
前記音声認識ステップにおいて認識したコマンドに応じて処理を実行する処理ステップと
を実行することを特徴とする音声認識方法。
A speech recognition method in an in-vehicle device that is mounted on a vehicle and executes processing according to a command input by voice,
The in-vehicle device is
A voice recognition start reception step for receiving a command input start instruction from the user;
After receiving a command input start instruction from the user in the voice recognition start receiving step, from a mixed signal including a plurality of voice signals collected through each of the plurality of microphones, the voice corresponding to each voice signal is received. A sound separation step of separating a sound signal of a sound generated from the position for each generation position, and outputting the separated sound signal together with information indicating a sound generation position corresponding to the sound signal;
The sound generated from the position indicated by the position information stored in the position information storage means for storing the position information indicating the position in the vehicle determined in advance from among the plurality of sound signals output in the sound separation step. A voice recognition step of extracting a voice signal of and recognizing a command from the extracted voice signal;
And a processing step of executing processing in accordance with the command recognized in the speech recognition step.
JP2007190865A 2007-07-23 2007-07-23 In-vehicle device and voice recognition method Expired - Fee Related JP4829184B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007190865A JP4829184B2 (en) 2007-07-23 2007-07-23 In-vehicle device and voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007190865A JP4829184B2 (en) 2007-07-23 2007-07-23 In-vehicle device and voice recognition method

Publications (2)

Publication Number Publication Date
JP2009025714A true JP2009025714A (en) 2009-02-05
JP4829184B2 JP4829184B2 (en) 2011-12-07

Family

ID=40397546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007190865A Expired - Fee Related JP4829184B2 (en) 2007-07-23 2007-07-23 In-vehicle device and voice recognition method

Country Status (1)

Country Link
JP (1) JP4829184B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704487B2 (en) 2015-08-20 2017-07-11 Hyundai Motor Company Speech recognition solution based on comparison of multiple different speech inputs
JP2017171287A (en) * 2016-03-21 2017-09-28 ヴァレオ ビジョンValeo Vision Control device and method with voice and/or gestural recognition for interior lighting of vehicle
US10127910B2 (en) 2013-12-19 2018-11-13 Denso Corporation Speech recognition apparatus and computer program product for speech recognition
CN113986187A (en) * 2018-12-28 2022-01-28 阿波罗智联(北京)科技有限公司 Method and device for acquiring range amplitude, electronic equipment and storage medium

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126092A (en) * 1997-10-22 1999-05-11 Toyota Motor Corp Voice recognition device and on-vehicle voice recognition device
JP2001013994A (en) * 1999-06-30 2001-01-19 Toshiba Corp Device and method to voice control equipment for plural riders and vehicle
JP2002182679A (en) * 2000-12-18 2002-06-26 Seiko Epson Corp Apparatus control method using speech recognition and apparatus control system using speech recognition as well as recording medium recorded with apparatus control program using speech recognition
JP2002182691A (en) * 2000-12-14 2002-06-26 Matsushita Electric Ind Co Ltd Controller for controlling sound emitting device
JP2004029754A (en) * 2002-05-10 2004-01-29 Univ Kinki Method for restoring target sound based on division spectrum by using position information of sound source
JP2005250397A (en) * 2004-03-08 2005-09-15 Nec Corp Robot
JP2005308771A (en) * 2004-04-16 2005-11-04 Nec Corp Noise-filtering method, noise eliminator, system, and program for noise filtering
WO2006025106A1 (en) * 2004-09-01 2006-03-09 Hitachi, Ltd. Voice recognition system, voice recognizing method and its program
JP2006072163A (en) * 2004-09-06 2006-03-16 Hitachi Ltd Disturbing sound suppressing device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126092A (en) * 1997-10-22 1999-05-11 Toyota Motor Corp Voice recognition device and on-vehicle voice recognition device
JP2001013994A (en) * 1999-06-30 2001-01-19 Toshiba Corp Device and method to voice control equipment for plural riders and vehicle
JP2002182691A (en) * 2000-12-14 2002-06-26 Matsushita Electric Ind Co Ltd Controller for controlling sound emitting device
JP2002182679A (en) * 2000-12-18 2002-06-26 Seiko Epson Corp Apparatus control method using speech recognition and apparatus control system using speech recognition as well as recording medium recorded with apparatus control program using speech recognition
JP2004029754A (en) * 2002-05-10 2004-01-29 Univ Kinki Method for restoring target sound based on division spectrum by using position information of sound source
JP2005250397A (en) * 2004-03-08 2005-09-15 Nec Corp Robot
JP2005308771A (en) * 2004-04-16 2005-11-04 Nec Corp Noise-filtering method, noise eliminator, system, and program for noise filtering
WO2006025106A1 (en) * 2004-09-01 2006-03-09 Hitachi, Ltd. Voice recognition system, voice recognizing method and its program
JP2006072163A (en) * 2004-09-06 2006-03-16 Hitachi Ltd Disturbing sound suppressing device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127910B2 (en) 2013-12-19 2018-11-13 Denso Corporation Speech recognition apparatus and computer program product for speech recognition
US9704487B2 (en) 2015-08-20 2017-07-11 Hyundai Motor Company Speech recognition solution based on comparison of multiple different speech inputs
JP2017171287A (en) * 2016-03-21 2017-09-28 ヴァレオ ビジョンValeo Vision Control device and method with voice and/or gestural recognition for interior lighting of vehicle
CN113986187A (en) * 2018-12-28 2022-01-28 阿波罗智联(北京)科技有限公司 Method and device for acquiring range amplitude, electronic equipment and storage medium
CN113986187B (en) * 2018-12-28 2024-05-17 阿波罗智联(北京)科技有限公司 Audio region amplitude acquisition method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP4829184B2 (en) 2011-12-07

Similar Documents

Publication Publication Date Title
JP4269973B2 (en) Car audio system
EP1826900A1 (en) Vehicle-mounted sound control system
US10607625B2 (en) Estimating a voice signal heard by a user
JP2007286136A (en) In-vehicle voice recognition device and voice recognition method
JP4579215B2 (en) Audio apparatus and sound quality correction method for audio apparatus
JP4829184B2 (en) In-vehicle device and voice recognition method
JP2007208828A (en) Vehicular audio input controller
JP4916005B2 (en) Karaoke system
JP6691737B2 (en) Lyrics sound output device, lyrics sound output method, and program
JP2008071058A (en) Device, method and program for reproducing sound
JP2008042499A (en) Sound volume control device and voice data reproducing device using the same
JP2010225235A (en) On-vehicle sound reproducing apparatus and sound reproducing method
JP2006012257A (en) Composition selection device, composition selection system and composition selection method
JP2012098100A (en) Audio control device for outputting guide route voice guidance
JP2007311020A (en) Device and method for playing, and onboard player
JP7474548B2 (en) Controlling the playback of audio data
JP4657872B2 (en) REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM
JP4042112B2 (en) CONTENT REPRODUCTION DEVICE, CONTENT REPRODUCTION METHOD, AND AUDIO MAIN DEVICE
WO2016135921A1 (en) Vehicle-mounted music reproduction device, music reproduction method, and program
WO2016157377A1 (en) Communication system, playback system, terminal device, server, content communication method, and program
JP2009031922A (en) On-vehicle acoustic device, its control method and control program
JP6567985B2 (en) In-vehicle device
JP2016157082A (en) Reproduction device, reproduction method, and program
JP2016157088A (en) Music reproduction system, terminal device, music data providing method, and program
JP2016157084A (en) Reproduction device, reproduction method, and program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110915

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4829184

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees