JP2020052145A - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP2020052145A
JP2020052145A JP2018179407A JP2018179407A JP2020052145A JP 2020052145 A JP2020052145 A JP 2020052145A JP 2018179407 A JP2018179407 A JP 2018179407A JP 2018179407 A JP2018179407 A JP 2018179407A JP 2020052145 A JP2020052145 A JP 2020052145A
Authority
JP
Japan
Prior art keywords
user
voice recognition
voice
party
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018179407A
Other languages
English (en)
Inventor
嘉彦 菅原
Yoshihiko Sugawara
嘉彦 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Toyota Motor Corp
Original Assignee
Denso Corp
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, Toyota Motor Corp filed Critical Denso Corp
Priority to JP2018179407A priority Critical patent/JP2020052145A/ja
Priority to US16/567,301 priority patent/US11276404B2/en
Priority to CN201910864279.0A priority patent/CN110942770B/zh
Publication of JP2020052145A publication Critical patent/JP2020052145A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/02Secret communication by adding a second signal to make the desired signal unintelligible
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/86Jamming or countermeasure characterized by its function related to preventing deceptive jamming or unauthorized interrogation or access, e.g. WLAN access or RFID reading
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Electromagnetism (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】ユーザの発話内容が第三者に聞かれることを抑制可能な音声認識装置、音声認識方法、及び音声認識プログラムを提供すること。【解決手段】本発明に係る音声認識装置は、ユーザの発話音声を認識する音声認識装置であって、ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、ユーザの発話が終了したことに応じて妨害音の出力を停止する制御部を備える。これにより、ユーザの発話内容が第三者に聞かれることを抑制できる。【選択図】図1

Description

本発明は、ユーザの発話音声を認識する音声認識装置、音声認識方法、及び音声認識プログラムに関する。
特許文献1には、ユーザの発話音量を所望のレベルまで誘導すべく、音楽の出力を開始、又は、音楽出力状態を維持しつつ、ユーザの発話音量の算出結果に応じて音楽の音量を調整する音声対話装置が記載されている。
特開2013−019803号公報
音声認識装置を使用する場面において、ユーザが車両の同乗者等の第三者に発話内容を聞かれたくない場合がある。しかしながら、特許文献1に記載の音声対話装置は、第三者によるユーザの発話内容の聞き取りを妨害するレベルの音量で音楽を再生しないために、ユーザの発話内容が第三者によって聞かれてしまう可能性がある。
本発明は、上記課題に鑑みてなされたものであって、その目的は、ユーザの発話内容が第三者に聞かれることを抑制可能な音声認識装置、音声認識方法、及び音声認識プログラムを提供することにある。
本発明に係る音声認識装置は、ユーザの発話音声を認識する音声認識装置であって、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する制御部を備えることを特徴とする。
本発明に係る音声認識装置は、上記発明において、前記制御部は、音楽出力手段が音楽を出力している場合、該音楽の出力音量を前記発話内容の聞き取りを妨害するレベルに制御することを特徴とする。これにより、ユーザの発話内容が第三者に聞かれることを抑制できる。
本発明に係る音声認識装置は、上記発明において、前記制御部は、ユーザに発話を求める場面及び状況とユーザからの要求信号の有無に基づいて、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かを判別することを特徴とする。これにより、ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かを精度よく判別することができる。
本発明に係る音声認識装置は、上記発明において、前記制御部は、音声入力装置を介して取得した音声データから前記妨害音を除去することにより前記ユーザの発話音声を認識することを特徴とする。これにより、妨害音を出力している状態であってもユーザの発話音声を精度よく認識することができる。
本発明に係る音声認識方法は、ユーザの発話音声を認識する音声認識方法であって、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止するステップを含むことを特徴とする。
本発明に係る音声認識プログラムは、ユーザの発話音声を認識する音声認識プログラムであって、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する処理をコンピュータに実行させることを特徴とする。
本発明に係る音声認識装置、音声認識方法、及び音声認識プログラムによれば、ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御するので、ユーザの発話内容が第三者に聞かれることを抑制できる。
図1は、本発明の一実施形態である音声認識装置の構成を示すブロック図である。 図2は、本発明の一実施形態である音声認識処理に流れを示すフローチャートである。
以下、図面を参照して、本発明の一実施形態である音声認識装置の構成及びその動作について説明する。
〔音声認識装置の構成〕
まず、図1を参照して、本発明の一実施形態である音声認識装置の構成について説明する。
図1は、本発明の一実施形態である音声認識装置の構成を示すブロック図である。図1に示すように、本発明の一実施形態である音声認識装置1は、CPU(Central Processing Unit),DSP(Digital Signal Processor),FPGA(Field Programmable Gate Array)等のプロセッサ及びRAM(Random Access Memory),ROM(Read Only Memory)等の記憶部を含む、ワークステーション等の汎用の情報処理装置によって構成されており、音声認識処理部11、音データベース(音DB)12、音声再生部13、及び音量設定部14を備えている。音声認識処理部11、音声再生部13、及び音量設定部14の機能は、プロセッサが記憶部に記憶されているコンピュータプログラムを実行することによって実現される。
音声認識処理部11は、マイクロフォン等の音声入力装置2を介してユーザP1の発話音声を取得し、取得した発話音声の内容を認識する。詳しくは後述するが、本実施形態では、音声認識処理部11は、音声入力装置2を介して取得した音声(マイク音声)データから音楽や妨害音のデータを除去し、除去処理後の音声データを用いて音楽や妨害音を再生している環境下でのユーザP1の発話音声の内容を認識する。
音DB12は、音楽や妨害音のデータを記憶している。ここで、妨害音としては、ユーザP1の発話内容の聞き取りを妨害するのに適した専用音声(例えばノイズ音や不快にならず無音区間がないような音楽)やユーザが所有する音楽等を例示できる。
音声再生部13は、音DB12から音楽や妨害音のデータを取得し、取得したデータを再生出力する。
音量設定部14は、音声再生部13が再生している音楽や妨害音の音量を調整してユーザP1の近傍に設置されているスピーカ3AやユーザP1の周囲にいる第三者(例えば車両の同乗者)P2の近傍に設置されているスピーカ3Bから出力する。
なお、上述したコンピュータプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク、CD−R、DVD等のコンピュータが読み取り可能な記録媒体に記録して提供するように構成してもよい。また、上述したコンピュータプログラムは、電気通信回線に接続されたコンピュータ上に格納し、電気通信回線経由でダウンロードさせることによって提供するように構成してもよい。また、上述したコンピュータプログラムを電気通信回線を介して提供又は配布してもよい。
このような構成を有する音声認識装置1は、以下に示す音声認識処理を実行することにより、ユーザP1が第三者P2に発話内容を聞かれてしまうことを抑制する。以下、図2を参照して、音声認識処理を実行する際の音声認識装置1の動作について説明する。
〔音声認識処理〕
図2は、本発明の一実施形態である音声認識処理の流れを示すフローチャートである。図2に示すフローチャートは、音声認識装置1がユーザP1に対して発話を要求する度毎に開始となり、音声認識処理はステップS1の処理に進む。
ステップS1の処理では、音声認識処理部11が、ユーザP1に要求する発話内容が第三者P2に聞かれたくない内容であるか否かを判別する。具体的には、音声認識処理部11は、ユーザP1に発話を求める場面や状況(例えば車両の同乗者全員参加のクイズを実施している状況で他者に聞かれないように回答をすることをユーザP1に求めていることを認識している場合)及びユーザP1からの要求信号の有無に基づいて、ユーザP1に要求する発話内容が第三者P2に聞かれたくない内容であるか否かを判別する。判別の結果、ユーザP1に要求する発話内容が第三者P2に聞かれたくない内容である場合(ステップS1:Yes)、音声認識処理部11は、音声認識処理をステップS2の処理に進める。一方、ユーザP1に要求する発話内容が第三者P2に聞かれたくない内容でない場合には(ステップS1:No)、音声認識処理部11は、音声認識処理をステップS5の処理に進める。
なお、第三者P2に聞かれたくない発話内容は、音声認識処理部11がユーザP1に発言(回答)を求める内容に応じて予め定義されていてもよい。定義は、例えば設定する目的地はレベル1、名前はレベル1、住所はレベル2、電話番号はレベル2、銀行口座番号はレベル3、クイズの答えはレベル3といった具合に聞かれたくない程度を示すよう複数にレベル分けされていてもよいし、バイナリ(聞かれたくない/聞かれてもよい)でもよい。レベル分けされている場合、ユーザP1毎にどのレベル以上の場合聞かれたくないかを示す閾値を設定できるようにしてもよい。この場合、ユーザP1に閾値を超えたレベルの内容を発話させるときに、音声認識装置1は、発話内容の聞き取りと共に第三者に向けた妨害音の制御を行う。また、第三者P2がいない場合、自動的に閾値を無効(ゼロ)にするように音声認識装置1が判断するようにしてもよい。第三者P2がいない場合としては、着座センサで運転席以外の座席に乗員がいないと判断された場合や車室内カメラで運転者以外の乗員が検出されない場合等を例示できる。
ステップS2の処理では、音量設定部14が、音声再生部13が音楽を再生しているか否かを判別する。判別の結果、音声再生部13が音楽を再生している場合(ステップS2:Yes)、音量設定部14は、音声認識処理をステップS3の処理に進める。一方、音声再生部13が音楽を再生していない場合には(ステップS2:No)、音量設定部14は、音声認識処理をステップS4の処理に進める。
ステップS3の処理では、音量設定部14が、第三者P2の近傍に設けられたスピーカ3Bから出力する音楽の音量を第三者P2がユーザP1の発話音声を聞き取れない程度の音量まで増加させる(音楽再生継続)。なお、このとき、ユーザP1と第三者P2がいる車室等の空間内全体の音量やユーザP1の周辺のみの音量を増加するようにしてもよい。また、単なる音量調整だけでなく、ユーザP1の発話音声を聞きづらくするイコライザーを掛けてもよい。これにより、ステップS3の処理は完了し、音声認識処理はステップS5の処理に進む。
ステップS4の処理では、音量設定部14が、音DB12に格納さている妨害音を再生するように音声再生部13を制御する。そして、音量設定部14は、第三者P2の近傍に設けられたスピーカ3Bから出力される妨害音の音量を第三者P2がユーザP1の発話音声を聞き取れない程度の音量に制御する。これにより、ステップS4の処理は完了し、音声認識処理はステップS5の処理に進む。
ステップS5の処理では、音声認識処理部11が、音声入力装置2を介して取得した音声データから再生している音楽や妨害音を除去(キャンセル)する音声処理を行いながら音声認識を行ってユーザP1の発話を待ち受ける。これにより、ステップS5の処理は完了し、音声認識処理はステップS6の処理に進む。
ステップS6の処理では、音声認識処理部11が、音声認識結果に基づいてユーザP1の発話があったか否かを判別する。判別の結果、ユーザP1の発話があった場合(ステップS6:Yes)、音声認識処理部11は、音声認識処理をステップS7の処理に進める。一方、ユーザP1の発話がない場合には(ステップS6:No)、音声認識処理部11は、音声認識処理をステップS8の処理に進む。
ステップS7の処理では、音声認識処理部11が、ユーザP1の発話内容を音声認識する。これにより、ステップS7の処理は完了し、音声認識処理はステップS8の処理に進む。
ステップS8の処理では、音声認識処理部11が、ユーザP1の発話内容やユーザP1からの要求信号の有無等に基づいて音声認識を終了してもよいか否かを判別する。判別の結果、音声認識を終了してもよい場合(ステップS8:Yes)、音声認識処理部11は、音声認識処理をステップS9の処理に進める。一方、音声認識を終了してもよくない場合には(ステップS8:No)、音声認識処理部11は、音声認識処理をステップS5の処理に戻す。
ステップS9の処理では、音声認識処理部11が、ユーザP1の発話の待ち受け処理を終了する。これにより、ステップS9の処理は完了し、音声認識処理はステップS10の処理に進む。
ステップS10の処理では、音量設定部14が、ユーザP1の発話の待ち受け処理を開始する前に音声再生部13が音楽を再生していたか否かを判別する。判別の結果、音声再生部13が音楽を再生していた場合(ステップS10:Yes)、音量設定部14は、音声認識処理をステップS11の処理に進める。一方、音声再生部13が音楽を再生していなかった場合には(ステップS10:No)、音量設定部14は、音声認識処理をステップS12の処理に進める。
ステップS11の処理では、音量設定部14が、音声認識処理を開始する前の音量に音楽の再生音量を戻す。これにより、ステップS11の処理は完了し、一連の音声認識処理は終了する。
ステップS12の処理では、音量設定部14が、音声再生部13を制御することによって妨害音の再生を停止する。これにより、ステップS12の処理は完了し、一連の音声認識処理は終了する。
以上の説明から明らかなように、本発明の一実施形態である音声認識処理では、音声認識装置1が、ユーザP1に要求する発話内容が第三者P2に聞かれたくない内容であるか否かに応じて音楽や妨害音の出力を制御すると共に、ユーザP1の発話が終了したことに応じて妨害音の出力を停止するので、ユーザP1の発話内容が第三者P2に聞かれることを抑制できる。
また、本発明の一実施形態である音声認識処理では、音声認識装置1が、音楽を再生している場合、音楽の音量をユーザP1の発話内容の聞き取りを妨害するレベルに制御するので、ユーザP1の発話内容が第三者P2に聞かれることを抑制できる。
また、本発明の一実施形態である音声認識処理では、音声認識装置1が、ユーザP1に発話を求める場面及び状況とユーザからの要求信号の有無に基づいて、ユーザP1に要求する発話内容が第三者P2に聞かれたくない内容であるか否かを判別するので、ユーザP1に要求する発話内容が第三者P2に聞かれたくない内容であるか否かを精度よく判別することができる。
また、本発明の一実施形態である音声認識処理では、音声認識装置1が、音声入力装置2を介して取得した音声データから妨害音を除去することによりユーザP1の発話音声を認識するので、妨害音を出力している状態であってもユーザP1の発話音声を精度よく認識することができる。
以上、本発明者らによってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例、及び運用技術等は全て本発明の範疇に含まれる。
1 音声認識装置
2 音声入力装置
3A,3B スピーカ
11 音声認識処理部
12 音データベース(音DB)
13 音声再生部
14 音量設定部
P1 ユーザ
P2 第三者

Claims (6)

  1. ユーザの発話音声を認識する音声認識装置であって、
    前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する制御部を備える
    ことを特徴とする音声認識装置。
  2. 前記制御部は、音楽出力手段が音楽を出力している場合、該音楽の出力音量を前記発話内容の聞き取りを妨害するレベルに制御することを特徴とする請求項1に記載の音声認識装置。
  3. 前記制御部は、ユーザに発話を求める場面及び状況とユーザからの要求信号の有無に基づいて、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かを判別することを特徴とする請求項1又は2に記載の音声認識装置。
  4. 前記制御部は、音声入力装置を介して取得した音声データから前記妨害音を除去することにより前記ユーザの発話音声を認識することを特徴とする請求項1〜3のうち、いずれか1項に記載の音声認識装置。
  5. ユーザの発話音声を認識する音声認識方法であって、
    前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止するステップを含む
    ことを特徴とする音声認識方法。
  6. ユーザの発話音声を認識する音声認識プログラムであって、
    前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する処理をコンピュータに実行させる
    ことを特徴とする音声認識プログラム。
JP2018179407A 2018-09-25 2018-09-25 音声認識装置、音声認識方法、及び音声認識プログラム Pending JP2020052145A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018179407A JP2020052145A (ja) 2018-09-25 2018-09-25 音声認識装置、音声認識方法、及び音声認識プログラム
US16/567,301 US11276404B2 (en) 2018-09-25 2019-09-11 Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program
CN201910864279.0A CN110942770B (zh) 2018-09-25 2019-09-12 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018179407A JP2020052145A (ja) 2018-09-25 2018-09-25 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2020052145A true JP2020052145A (ja) 2020-04-02

Family

ID=69883292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018179407A Pending JP2020052145A (ja) 2018-09-25 2018-09-25 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (3)

Country Link
US (1) US11276404B2 (ja)
JP (1) JP2020052145A (ja)
CN (1) CN110942770B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020052145A (ja) * 2018-09-25 2020-04-02 トヨタ自動車株式会社 音声認識装置、音声認識方法、及び音声認識プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096664A (ja) * 2002-09-04 2004-03-25 Matsushita Electric Ind Co Ltd ハンズフリー通話装置および方法
JP2007006363A (ja) * 2005-06-27 2007-01-11 Fujitsu Ltd 電話機
JP2007256606A (ja) * 2006-03-23 2007-10-04 Aruze Corp 出音システム

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3138370B2 (ja) * 1993-09-09 2001-02-26 株式会社日立製作所 情報処理装置
US6963759B1 (en) * 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
US20010044786A1 (en) * 2000-03-14 2001-11-22 Yoshihito Ishibashi Content usage management system and method, and program providing medium therefor
CN1618203A (zh) * 2001-12-15 2005-05-18 汤姆森特许公司 视频会议带宽选择机制
US20040125922A1 (en) * 2002-09-12 2004-07-01 Specht Jeffrey L. Communications device with sound masking system
WO2006021943A1 (en) * 2004-08-09 2006-03-02 Nice Systems Ltd. Apparatus and method for multimedia content based
US20060109983A1 (en) * 2004-11-19 2006-05-25 Young Randall K Signal masking and method thereof
JP2006215206A (ja) * 2005-02-02 2006-08-17 Canon Inc 音声処理装置およびその制御方法
JP4765394B2 (ja) 2005-05-10 2011-09-07 トヨタ自動車株式会社 音声対話装置
KR100735557B1 (ko) * 2005-10-12 2007-07-04 삼성전자주식회사 음성 신호를 감쇄하고 마스킹하여 음성 신호를 교란시키는방법 및 장치
US20070208806A1 (en) * 2006-03-02 2007-09-06 Sun Microsystems, Inc. Network collaboration system with conference waiting room
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US7689421B2 (en) * 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
KR20110042315A (ko) * 2008-07-18 2011-04-26 코닌클리케 필립스 일렉트로닉스 엔.브이. 공공 장소들에서 사적 대화들을 엿듣는 것을 방지하기 위한 방법 및 시스템
US8983845B1 (en) * 2010-03-26 2015-03-17 Google Inc. Third-party audio subsystem enhancement
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP2012113130A (ja) * 2010-11-25 2012-06-14 Yamaha Corp サウンドマスキング装置
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
US8972251B2 (en) * 2011-06-07 2015-03-03 Qualcomm Incorporated Generating a masking signal on an electronic device
JP2013019803A (ja) 2011-07-12 2013-01-31 Mitsubishi Motors Corp 運転支援装置
US9230556B2 (en) * 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US8670986B2 (en) * 2012-10-04 2014-03-11 Medical Privacy Solutions, Llc Method and apparatus for masking speech in a private environment
KR102069863B1 (ko) * 2012-11-12 2020-01-23 삼성전자주식회사 입력 수단의 결제 기능을 제어하는 전자 장치 및 방법
JP2014130251A (ja) * 2012-12-28 2014-07-10 Glory Ltd 会話保護システム及び会話保護方法
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US20150117439A1 (en) * 2013-10-24 2015-04-30 Vonage Network, Llc Systems and methods for controlling telephony communications
US20150230022A1 (en) * 2014-02-07 2015-08-13 Samsung Electronics Co., Ltd. Wearable electronic system
WO2016051519A1 (ja) * 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
US9489172B2 (en) * 2015-02-26 2016-11-08 Motorola Mobility Llc Method and apparatus for voice control user interface with discreet operating mode
US9715283B2 (en) * 2015-02-26 2017-07-25 Motorola Mobility Llc Method and apparatus for gesture detection in an electronic device
JP2016177204A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 サウンドマスキング装置
JP2016177205A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 サウンドマスキング装置
CN106657552B (zh) * 2016-11-30 2019-08-06 Oppo广东移动通信有限公司 防止监听的方法、装置及终端
JP2020052145A (ja) * 2018-09-25 2020-04-02 トヨタ自動車株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US11915123B2 (en) * 2019-11-14 2024-02-27 International Business Machines Corporation Fusing multimodal data using recurrent neural networks
US11776557B2 (en) * 2020-04-03 2023-10-03 Electronics And Telecommunications Research Institute Automatic interpretation server and method thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096664A (ja) * 2002-09-04 2004-03-25 Matsushita Electric Ind Co Ltd ハンズフリー通話装置および方法
JP2007006363A (ja) * 2005-06-27 2007-01-11 Fujitsu Ltd 電話機
JP2007256606A (ja) * 2006-03-23 2007-10-04 Aruze Corp 出音システム

Also Published As

Publication number Publication date
CN110942770B (zh) 2023-07-28
US11276404B2 (en) 2022-03-15
CN110942770A (zh) 2020-03-31
US20200098371A1 (en) 2020-03-26

Similar Documents

Publication Publication Date Title
US11348595B2 (en) Voice interface and vocal entertainment system
CN109714663B (zh) 一种耳机的控制方法、耳机及存储介质
US8705753B2 (en) System for processing sound signals in a vehicle multimedia system
JP4260046B2 (ja) 音声明瞭度改善装置及び音声明瞭度改善方法
CN107995360B (zh) 通话处理方法及相关产品
US10140089B1 (en) Synthetic speech for in vehicle communication
JP4209247B2 (ja) 音声認識装置および方法
JP2010156826A (ja) 音響制御装置
JP2013531273A (ja) スピーカ及びマイクロホンを備える音声認識システムを調整する方法、及び音声認識システム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
CN110942770B (zh) 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质
JP5593759B2 (ja) 通話音声処理装置、通話音声制御装置および方法
JP2008167319A (ja) ヘッドホンシステム、ヘッドホン駆動制御装置およびヘッドホン
JP2004013084A (ja) 音量制御装置
CN111464902A (zh) 信息处理方法、装置及耳机和存储介质
JP6995254B2 (ja) 音場制御装置及び音場制御方法
JP4765394B2 (ja) 音声対話装置
JP7474548B2 (ja) オーディオデータの再生の制御
KR20220091151A (ko) 차량용 능동 소음 제어 장치 및 그 제어 방법
JP2007219122A (ja) 音響機器及びプログラム
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP4493557B2 (ja) 音声信号判断装置
WO2021245871A1 (ja) 通話環境生成方法、通話環境生成装置、プログラム
JP7105320B2 (ja) 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
Schmidt et al. Evaluation of in-car communication systems

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20181002

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220614