JP2013080015A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP2013080015A JP2013080015A JP2011218679A JP2011218679A JP2013080015A JP 2013080015 A JP2013080015 A JP 2013080015A JP 2011218679 A JP2011218679 A JP 2011218679A JP 2011218679 A JP2011218679 A JP 2011218679A JP 2013080015 A JP2013080015 A JP 2013080015A
- Authority
- JP
- Japan
- Prior art keywords
- trigger
- trigger detection
- detection means
- user
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000001514 detection method Methods 0.000 claims abstract description 117
- 238000009826 distribution Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 235000008429 bread Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】本実施形態の音声認識装置は、複数のトリガ検出手段とトリガ選択手段と認
識手段とを備える。トリガ検出手段は、機器を操作するためのコマンド発声の認識開始を
指示する開始トリガを検出する。トリガ選択手段は、前記機器に設置された1又は複数の
センサからの信号に基づいて、前記複数のトリガ検出手段から前記機器の使用環境に適し
たトリガ検出手段を選択する。認識手段は、前記トリガ選択手段で動作を有効にされた前
記トリガ検出手段が、前記開始トリガを検出した場合、前記コマンド発声の認識処理を開
始する。
【選択図】図1
Description
識装置が実用化されている。コマンド発声の認識を開始する指示(開始トリガ)として、
ユーザによる特定のキーワードの発声、ジェスチャ、拍手などが提案されている。これら
の開始トリガを用いた音声認識装置では、開始トリガを検出した後、コマンド発声の認識
処理を開始する。
一短があり、使用環境に適しない開始トリガを用いた場合、開始トリガの検出精度が低下
するという問題があった。例えば、機器の周囲が暗い場合、画像認識の精度が低下するた
め、ジェスチャによる開始トリガを正しく検出することができなかった。また、複数の開
始トリガを受理可能な音声認識装置において、使用環境に適した開始トリガをユーザが適
宜選択することは困難であった。
を実現することである。
備える。トリガ検出手段は、機器を操作するためのコマンド発声の認識開始を指示する開
始トリガを検出する。トリガ選択手段は、前記機器に設置された1又は複数のセンサから
の信号に基づいて、前記複数のトリガ検出手段から前記機器の使用環境に適したトリガ検
出手段を選択する。認識手段は、前記トリガ選択手段で動作を有効にされた前記トリガ検
出手段が、前記開始トリガを検出した場合、前記コマンド発声の認識処理を開始する。
第1の実施形態の音声認識装置は、ユーザのコマンド発声を認識して機器の操作を行う
装置である。音声認識装置はテレビ受像機に内蔵されており、ユーザはコマンド発声によ
り、テレビ受像機のチャンネルの切り替え、番組表の検索などを指示することができる。
話ボタン押下などの操作を必要とせず、ジェスチャトリガ、ボイストリガ、拍手トリガの
3種類の開始トリガの中から、テレビ受像機の使用環境に適した開始トリガを選択する。
ここで、ジェスチャトリガはユーザによる特定のジェスチャを、ボイストリガはユーザに
よる特定のキーワード発声を、拍手トリガはユーザの拍手をそれぞれ開始トリガとするも
のである。
形態の音声認識装置100は、マイク208で取得された音からユーザの特定のキーワー
ド発声による開始トリガを検出するボイストリガ検出部101と、カメラ209で撮像さ
れた映像からユーザの特定のジェスチャによる開始トリガを検出するジェスチャトリガ検
出部102と、マイク208で取得された音からユーザの拍手による開始トリガを検出す
る拍手トリガ検出部103と、テレビ受像機周囲の音量を測定する音量センサ210、テ
レビ受像機からユーザまでの距離を測定する距離センサ211、テレビ受像機周囲の光量
を測定する光量センサ212からの信号に基づいて、上記各トリガ検出部のうち、使用環
境に適した開始トリガを検出するトリガ検出部の動作を有効にするトリガ選択部104と
、トリガ選択部104で動作を有効にされた何れかのトリガ検出部が開始トリガを検出し
た場合、マイク208で取得されたコマンド発声の音声波形に対する認識処理を開始する
認識部105とを備える。
サからの信号に基づいて、機器の使用環境に適したトリガ検出部の動作を有効にする。こ
れにより、開始トリガを高い精度で検出することができ、結果としてユーザのコマンド発
声の認識精度を向上させることができる。
本実施形態の音声認識装置は、図2に示すような通常のコンピュータを利用したハード
ウェアで構成することができ、装置全体を制御するCPU(Central Processing Unit)
等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory
)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラム
を記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記
憶部203と、ユーザの指示入力を受け付ける操作部204と、外部装置との通信を制御
する通信部205と、ユーザのコマンド発声を取得するマイク208と、ユーザのジェス
チャを撮像するカメラ209と、テレビ受像機周囲の音量を測定する音量センサ210と
、テレビ受像機からユーザまでの距離を測定する距離センサ211と、テレビ受像機周囲
の光量を測定する光量センサ212と、これらを接続するバス206とを備えている。
記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される
。
トリガ選択部104は、音量センサ210、距離センサ211、光量センサ212から
の信号に基づいて、後述する各トリガ検出部のうちテレビ受像機の使用環境に適したトリ
ガ検出部を選択し、その動作を有効にする。
ク208で取得した周囲雑音の音量やテレビ受像機自体がスピーカから再生する音の音量
を測定する。なお、音量センサ210で音を時系列のディジタル信号として取得し、トリ
ガ選択部104でその信号から音量(例えば、所定区間における信号のパワー)を計算す
るようにしてもよい。この場合、音量センサ210はマイク208で代替することができ
る。
定の距離以内に人がいるかいないかを判別する人感センサで代替することもできる。
る。
ボイストリガ検出部101は、マイク208で取得された音からユーザのキーワード発
声による開始トリガを検出する。
、それに続くユーザのコマンド発声を認識する(特開2001−67091号公報)。例
えば、「ハロー」をキーワードとして使用する場合、ユーザの「ハロー」というキーワー
ド発声を検出すると、「ピッ」という音を出力してユーザにコマンド発声を促す。そして
、それに続く「8チャンネル」などのユーザのコマンド発声を認識する。
行い、得られた信頼度スコアが閾値Lを超えた場合に、特定のキーワードが発声されたと
判別する。閾値Lは、特定のキーワードを発声した場合の信頼度スコアの分布と、それ以
外を発声した場合の信頼度スコアの分布を予め実験的に求めておき、これら2つの分布を
適切に区別する値に設定することができる。
を行うが、認識語彙を特定のキーワードに絞ることができるため周囲雑音による誤認識の
危険性を減らすことができる。
場合は、キーワード発声のSNRが低下するため、キーワード発声による開始トリガの検
出精度が低下する。
ジェスチャトリガ検出部102は、カメラ209で撮像された映像からユーザの特定の
ジェスチャによる開始トリガを検出する。
て検出後、それに続くユーザのコマンド発声を認識する(特開2010−182014号
公報)。例えば、「手を左右に振る」という動作をジェスチャとして使用する場合、画像
認識により「手を左右に振る」動作を検出すると、「ピッ」という音を出力してユーザに
コマンド発声を促す。そして、それに続く「8チャンネル」などのユーザのコマンド発声
を認識する。
雑音の影響を受けないが、カメラで捉えることのできる範囲でユーザがジェスチャをする
必要がある等の制約がある。また、照明条件によりジェスチャの認識精度が変動する。さ
らに、高度な画像認識処理を常に動作させる必要があるため、他のトリガ検出部と比較し
て消費電力が大きくなる。
拍手トリガ検出部103は、マイク208で取得された音からユーザの拍手による開始
トリガを検出する。ここで、本実施形態における拍手は、「パン、パン」という2回連続
した拍手とする。
を出力してユーザにコマンド発声を促す。そして、それに続くユーザのコマンド発声を認
識する。
理では、図4に示すように、所定間隔(閾値T0)の間にパワーが閾値Sを2回超えるよ
うな音の波形を拍手として検出する。
求めておき、その分布が十分に包含される最小の値に設定することができる。また、閾値
Sは、拍手を行っていない時のパワーの分布と、拍手を行った時のパワーの分布を予め実
験的に求めておき、2つの分布を適切に区別するための最適値を用いて設定できる。
定する。ここで、tは、取得された音の波形をフレーム長25ms、間隔8msで分割し
た際のフレームの番号を表す。ステップS2では、tをt+1に更新する。ステップS3
では、t番目のフレームにおける波形のパワーを計算し、その値を予め設定した閾値Sと
比較する。パワーが閾値Sを超える場合はステップS4へ、超えない場合はステップS2
へ移行する。ステップS4では、T=0に設定する。ステップS5では、TをT+1に、
tをt+Tにそれぞれ更新する。ステップS6では、Tが予め設定した閾値T0より小さ
いか否かを判別する。TがT0より小さい場合はステップS7へ、それ以外の場合はステ
ップS2へ移行する。ステップS7では、t番目のフレームにおける波形のパワーを計算
し、その値を閾値Sと比較する。パワーが閾値Sを超える場合はステップS8へ移行し、
2回連続した拍手を検出したものと判別する。それ以外の場合はステップS2へ移行し、
処理を継続する。
特別な特徴を持つため、拍手トリガ検出部103は、周囲雑音がある程度大きい場合でも
拍手による開始トリガを検出することができる。
認識部105は、トリガ選択部104で有効とされた何れかのトリガ検出部が開始トリ
ガを検出した場合、コマンド発声の認識処理を開始する。具体的には、認識部105は、
何れかのトリガ検出部が開始トリガを検出した後に、マイク208で取得された音の取り
込みを開始し、この音に含まれるコマンド発声に対する認識処理を実行する。
て行い、開始トリガ検出後に生成された認識結果のみを認識部105が出力するようにし
てもよい。
図5のフローチャートを利用して、本実施形態にかかる音声認識装置の処理を説明する
。
光量センサ212からの信号に基づいて、ボイストリガ検出部101、ジェスチャトリガ
検出部102、拍手トリガ検出部103の中からテレビ受像機の使用環境に適したトリガ
検出部の動作を有効にする。
S21では、トリガ選択部104は、初期化のため全てのトリガ検出部(ボイストリガ検
出部101、ジェスチャトリガ検出部102、拍手トリガ検出部103)の動作を無効に
する。
像機からユーザまでの距離が予め設定された閾値Dを超えるか否かを判別する。閾値Dを
超える場合は、ユーザまでの距離が遠くジェスチャトリガ検出部102おけるジェスチャ
の認識精度が低下する可能性がある。したがって、この場合は、ジェスチャトリガ検出部
102はこの使用環境に適していないものとしてステップS25に移行する。ユーザまで
の距離が閾値Dを超えない場合は、ステップS23に移行する。
係に基づいて設定することができる。
た閾値Lを超えるか否かを判別する。閾値Lを超えない場合は、周囲が暗いためジェスチ
ャトリガ検出部102おけるジェスチャの認識精度が低下する可能性がある。したがって
、この場合は、ジェスチャトリガ検出部102はこの使用環境に適していないものとして
ステップS25に移行する。
光量の両条件がジェスチャトリガ検出部102おけるジェスチャの画像認識に適している
ものとして、ジェスチャトリガ検出部102の動作を有効にする。
設定することができる。
像機周囲の音量が予め設定された閾値Nを超えるか否かを判別する。閾値Nを超える場合
は、周囲の雑音が大きすぎるためボイストリガ検出部101におけるキーワード発声の検
出精度が低下する可能性がある。したがって、この場合は、ボイストリガ検出部101は
この使用環境に適していないものとしてステップS27に移行する。
イストリガ検出部101におけるキーワード発声の認識に適しているものとして、ボイス
トリガ検出部101の動作を有効にする。
いて設定することができる。
では、拍手トリガ検出部103の動作を常に有効にする。これは、拍手トリガ検出部10
3は、周囲の雑音が大きくても、ユーザまでの距離が遠くても比較的高い精度で開始トリ
ガを検出できるからである。
ステップS11で有効とされたトリガ検出部の動作を開始する。
リガを検出したか否かを判別する。開始トリガを検出した場合は、ステップS14へ移行
する。検出していない場合は、何れかのトリガ検出部が開始トリガを検出するまで待つ。
始する。
このように、本実施形態の音声認識装置は、操作対象となる機器に設置されたセンサか
らの信号に基づいて、機器の使用環境に適したトリガ検出部の動作を有効にする。これに
より、開始トリガを高い精度で検出することができ、結果としてユーザのコマンド発声の
認識精度を向上させることができる。
本実施形態のトリガ選択部104は、音量センサ210、距離センサ211、光量セン
サ212の計3つのセンサからの信号に基づいて、各トリガ検出部における動作の有効・
無効を選択したが、何れか1つのセンサを用いてトリガ検出部の動作を選択することも可
能である。例えば、音量センサ210があれば、図6のステップS25と同様な処理を用
いて、ボイストリガ検出部101の動作の有効・無効を選択することができる。
無効を選択することもできる。この場合、距離センサ211で測定された距離が閾値D以
下になったときに、ボイストリガ検出部101の動作を有効にする。これは、距離が小さ
い時は、テレビ受像機で受信されるユーザの音声が大きくなるため、ボイストリガ検出部
101での開始トリガの検出精度が高くなるからである。
おける動作の有効・無効を選択することもできる。センサ以外からの制御信号としては、
ユーザが指示した消費電力に関するモード(電力モード)がある。例えば、ユーザが、消
費電力が少ないモード(省電力モード)を選択した場合、トリガ選択部104は、常時動
作時に消費電力が大きくなるジェスチャトリガ検出部102の動作を無効にすることがで
きる。
である。このフローチャートのステップS31では、トリガ選択部104は、ユーザが指
示した電力モードを判別する。電力モードが通常のモード(通常モード)である場合は、
ステップS22に移行しジェスチャトリガ検出部102を含めた各トリガ検出部における
動作の有効・無効を選択する。一方、電力モードが省電力モードである場合は、ステップ
S25に移行し、消費電力が高いジェスチャトリガ検出部102の動作が有効にならない
ようにする。
づいて、トリガ検出部の動作の有効・無効を選択することができる。
本実施形態の音声認識装置は、トリガ選択部104における各トリガ検出部の動作の有
効・無効の選択結果を、提示部(図示なし)を介してユーザに提示することができる。提
示部としては、テレビ受像機のディスプレイなどが考えられる。
。例えば、図8のマーク401はボイストリガ検出部101、マーク402は拍手トリガ
検出部103、マーク403はジェスチャトリガ検出部102の動作がそれぞれ有効であ
ることを表している。すなわち、図8の状態では、ユーザは全ての開始トリガを用いてコ
マンド発声の認識開始を指示することができる。
3は表示されていない。すなわち、図9の状態では、ユーザはジェスチャを開始トリガと
して選択できないことを意味している。
ユーザは使用する開始トリガを迷うことなく選択することができる。
ガ検出部と同数のLEDを取りつけ、有効に動作しているトリガ検出部に対応したLED
を点灯させるようにしてもよい。
本実施形態におけるコマンド発声は、「8チャンネル」などのような孤立単語の発声だ
けでなく、「スポーツ番組を検索して」といった自然文の発声も含む。
して音声認識装置と接続している場合でも、音声認識装置は本実施形態と同様な処理を実
行することができる。
リガ検出部102、拍手トリガ検出部103の3種類であるが、トリガ検出部はこれに限
られない。他の種類の開始トリガを検出するトリガ検出部であってもよい。
動作を有効にしていたが、複数のトリガ検出部を常時動作させておき、トリガ選択部10
4で選択されたトリガ検出部が開始トリガを検出した場合にコマンド発声の認識処理を開
始するようにしてよい。
より実現可能である。
のであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その
他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の
省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や
要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる
。
102 ジェスチャトリガ検出部
103 拍手トリガ検出部
104 トリガ選択部
105 認識部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 バス
208 マイク
209 カメラ
210 音量センサ
211 距離センサ
212 光量センサ
400 テレビ受像機のディスプレイ
401 ボイストリガが有効であることを示すマーク
402 拍手トリガが有効であることを示すマーク
403 ジェスチャトリガが有効であることを示すマーク
Claims (7)
- 機器を操作するためのコマンド発声の認識開始を指示する開始トリガを検出する複数のト
リガ検出手段と、
前記機器に設置された1又は複数のセンサからの信号に基づいて、前記複数のトリガ検出
手段から前記機器の使用環境に適したトリガ検出手段を選択するトリガ選択手段と、
前記トリガ選択手段で選択された前記トリガ検出手段が、前記開始トリガを検出した場合
、前記コマンド発声の認識処理を開始する認識手段と、
を備える音声認識装置。 - 前記1又は複数のセンサのうちの少なくとも1つが、前記機器の周囲の音量を測定する音
量センサであり、前記複数のトリガ検出手段のうちの少なくとも1つが、ユーザの特定の
キーワード発声による開始トリガを検出するボイストリガ検出手段である場合において、
前記トリガ選択手段が、前記音量が予め決められた閾値以下となる場合に、前記ボイスト
リガ検出手段を選択する請求項1記載の音声認識装置。 - 前記1又は複数のセンサのうちの少なくとも1つが、前記機器の周囲の光量を測定する光
量センサであり、前記複数のトリガ検出手段のうちの少なくとも1つが、ユーザの特定の
ジェスチャによる開始トリガを検出するジェスチャトリガ検出手段である場合において、
前記トリガ選択手段が、前記光量が予め決められた閾値を超える場合に、前記ジェスチャ
トリガ検出手段を選択する請求項1記載の音声認識装置。 - 前記1又は複数のセンサのうちの少なくとも1つが、前記機器からユーザまでの距離を測
定する距離センサであり、前記複数のトリガ検出手段のうちの少なくとも1つが、ユーザ
の特定のジェスチャによる開始トリガを検出するジェスチャトリガ検出手段である場合に
おいて、
前記トリガ選択手段が、前記距離が予め決められた閾値以下となる場合に、前記ジェスチ
ャトリガ検出手段を選択する請求項1記載の音声認識装置。 - 前記1又は複数のセンサのうちの少なくとも1つが、前記機器からユーザまでの距離を測
定する距離センサであり、前記複数のトリガ検出手段のうちの少なくとも1つが、ユーザ
の特定のキーワード発声による開始トリガを検出するボイストリガ検出手段である場合に
おいて、
前記トリガ選択手段が、前記距離が予め決められた閾値以下となる場合に、前記ボイスト
リガ検出手段を選択する請求項1記載の音声認識装置。 - 前記トリガ選択手段が、前記センサからの信号以外の制御信号に基づいて、前記使用環境
に適した前記トリガ検出手段を選択する請求項1記載の音声認識装置。 - コマンド発声での操作対象となる機器に設置された1又は複数のセンサからの信号に基づ
いて、前記コマンド発声の認識開始を指示する開始トリガを検出する複数のトリガ検出手
段から、前記機器の使用環境に適したトリガ検出手段を選択するトリガ選択ステップと、
前記トリガ選択ステップで選択された前記トリガ検出手段が、前記開始トリガを検出した
場合、前記コマンド発声の認識処理を開始する認識ステップと、
を備える音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011218679A JP2013080015A (ja) | 2011-09-30 | 2011-09-30 | 音声認識装置および音声認識方法 |
US13/537,740 US20130085757A1 (en) | 2011-09-30 | 2012-06-29 | Apparatus and method for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011218679A JP2013080015A (ja) | 2011-09-30 | 2011-09-30 | 音声認識装置および音声認識方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015130102A Division JP2015194766A (ja) | 2015-06-29 | 2015-06-29 | 音声認識装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013080015A true JP2013080015A (ja) | 2013-05-02 |
Family
ID=47993413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011218679A Abandoned JP2013080015A (ja) | 2011-09-30 | 2011-09-30 | 音声認識装置および音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130085757A1 (ja) |
JP (1) | JP2013080015A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016071192A (ja) * | 2014-09-30 | 2016-05-09 | 株式会社Nttドコモ | 対話装置および対話方法 |
US9825773B2 (en) | 2015-06-18 | 2017-11-21 | Panasonic Intellectual Property Corporation Of America | Device control by speech commands with microphone and camera to acquire line-of-sight information |
DE112015006887T5 (de) | 2015-09-09 | 2018-05-24 | Mitsubishi Electric Corporation | Fahrzeug-Spracherkennungsvorrichtung und Fahrzeugausrüstung |
JP2018120627A (ja) * | 2013-10-04 | 2018-08-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 端末及び端末の制御方法 |
US10699718B2 (en) | 2015-03-13 | 2020-06-30 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
BR112015002920A2 (pt) * | 2012-08-10 | 2017-08-08 | Honda Access Kk | método e dispositivo de reconhecimento de fala |
US9323985B2 (en) * | 2012-08-16 | 2016-04-26 | Microchip Technology Incorporated | Automatic gesture recognition for a sensor system |
US9251787B1 (en) | 2012-09-26 | 2016-02-02 | Amazon Technologies, Inc. | Altering audio to improve automatic speech recognition |
JP5998861B2 (ja) * | 2012-11-08 | 2016-09-28 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
KR101994693B1 (ko) * | 2012-12-05 | 2019-07-01 | 엘지전자 주식회사 | 세탁기 및 세탁기 제어방법 |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9703350B2 (en) * | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US10163455B2 (en) * | 2013-12-03 | 2018-12-25 | Lenovo (Singapore) Pte. Ltd. | Detecting pause in audible input to device |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
CN104657072B (zh) * | 2015-01-15 | 2018-06-12 | 小米科技有限责任公司 | 一种触发执行操作指令的方法和装置 |
EP3264413B1 (en) * | 2015-02-23 | 2020-10-21 | Sony Corporation | Information processing system and method |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
KR20170111459A (ko) * | 2016-03-28 | 2017-10-12 | 삼성전자주식회사 | 다면 원격 제어 장치 및 그의 동작 제어 방법 |
WO2018013564A1 (en) * | 2016-07-12 | 2018-01-18 | Bose Corporation | Combining gesture and voice user interfaces |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US11003417B2 (en) | 2016-12-15 | 2021-05-11 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
CN107195304A (zh) * | 2017-06-30 | 2017-09-22 | 珠海格力电器股份有限公司 | 一种电器设备的语音控制电路和方法 |
JP2019086903A (ja) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
US10861463B2 (en) * | 2018-01-09 | 2020-12-08 | Sennheiser Electronic Gmbh & Co. Kg | Method for speech processing and speech processing device |
CN110096251B (zh) * | 2018-01-30 | 2024-02-27 | 钉钉控股(开曼)有限公司 | 交互方法及装置 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110097875B (zh) * | 2019-06-03 | 2022-09-02 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
US11437031B2 (en) | 2019-07-30 | 2022-09-06 | Qualcomm Incorporated | Activating speech recognition based on hand patterns detected using plurality of filters |
US11145315B2 (en) * | 2019-10-16 | 2021-10-12 | Motorola Mobility Llc | Electronic device with trigger phrase bypass and corresponding systems and methods |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
TWI756966B (zh) * | 2020-12-04 | 2022-03-01 | 緯創資通股份有限公司 | 視訊裝置與其操作方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001042894A (ja) * | 1999-08-04 | 2001-02-16 | Toshiba Corp | 音声認識装置及び方法 |
US20020007275A1 (en) * | 2000-07-13 | 2002-01-17 | Masataka Goto | Speech complementing apparatus, method and recording medium |
JP2003345390A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声処理装置及びリモートコントローラ装置 |
JP2004354722A (ja) * | 2003-05-29 | 2004-12-16 | Nissan Motor Co Ltd | 音声認識装置 |
JP2006133939A (ja) * | 2004-11-04 | 2006-05-25 | Matsushita Electric Ind Co Ltd | コンテンツデータ検索装置 |
JP2006337659A (ja) * | 2005-06-01 | 2006-12-14 | Nissan Motor Co Ltd | 音声入力装置および音声認識装置 |
JP2007121579A (ja) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | 操作装置 |
JP2011081541A (ja) * | 2009-10-06 | 2011-04-21 | Canon Inc | 入力装置及びその制御方法 |
US20120162540A1 (en) * | 2010-12-22 | 2012-06-28 | Kabushiki Kaisha Toshiba | Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4972490A (en) * | 1981-04-03 | 1990-11-20 | At&T Bell Laboratories | Distance measurement control of a multiple detector system |
US6157403A (en) * | 1996-08-05 | 2000-12-05 | Kabushiki Kaisha Toshiba | Apparatus for detecting position of object capable of simultaneously detecting plural objects and detection method therefor |
AU2002232928A1 (en) * | 2000-11-03 | 2002-05-15 | Zoesis, Inc. | Interactive character system |
US7395959B2 (en) * | 2005-10-27 | 2008-07-08 | International Business Machines Corporation | Hands free contact database information entry at a communication device |
CA2591808A1 (en) * | 2007-07-11 | 2009-01-11 | Hsien-Hsiang Chiu | Intelligent object tracking and gestures sensing input device |
JP4547721B2 (ja) * | 2008-05-21 | 2010-09-22 | 株式会社デンソー | 自動車用情報提供システム |
JP5374080B2 (ja) * | 2008-06-25 | 2013-12-25 | キヤノン株式会社 | 撮影装置、その制御方法及びコンピュータプログラム |
WO2010135837A1 (en) * | 2009-05-28 | 2010-12-02 | Intelligent Mechatronic Systems Inc | Communication system with personal information management and remote vehicle monitoring and control features |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20100315329A1 (en) * | 2009-06-12 | 2010-12-16 | Southwest Research Institute | Wearable workspace |
JP5316387B2 (ja) * | 2009-12-04 | 2013-10-16 | ソニー株式会社 | 情報処理装置、表示方法及びプログラム |
US20120072944A1 (en) * | 2010-09-16 | 2012-03-22 | Verizon New Jersey | Method and apparatus for providing seamless viewing |
CN102650528A (zh) * | 2011-02-25 | 2012-08-29 | 鸿富锦精密工业(深圳)有限公司 | 安全处理***及方法 |
-
2011
- 2011-09-30 JP JP2011218679A patent/JP2013080015A/ja not_active Abandoned
-
2012
- 2012-06-29 US US13/537,740 patent/US20130085757A1/en not_active Abandoned
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001042894A (ja) * | 1999-08-04 | 2001-02-16 | Toshiba Corp | 音声認識装置及び方法 |
US20020007275A1 (en) * | 2000-07-13 | 2002-01-17 | Masataka Goto | Speech complementing apparatus, method and recording medium |
JP2002091492A (ja) * | 2000-07-13 | 2002-03-27 | National Institute Of Advanced Industrial & Technology | 音声補完方法、装置および記録媒体 |
JP2003345390A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声処理装置及びリモートコントローラ装置 |
JP2004354722A (ja) * | 2003-05-29 | 2004-12-16 | Nissan Motor Co Ltd | 音声認識装置 |
JP2006133939A (ja) * | 2004-11-04 | 2006-05-25 | Matsushita Electric Ind Co Ltd | コンテンツデータ検索装置 |
JP2006337659A (ja) * | 2005-06-01 | 2006-12-14 | Nissan Motor Co Ltd | 音声入力装置および音声認識装置 |
JP2007121579A (ja) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | 操作装置 |
JP2011081541A (ja) * | 2009-10-06 | 2011-04-21 | Canon Inc | 入力装置及びその制御方法 |
US20120162540A1 (en) * | 2010-12-22 | 2012-06-28 | Kabushiki Kaisha Toshiba | Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition |
JP2012133243A (ja) * | 2010-12-22 | 2012-07-12 | Toshiba Corp | 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 |
Non-Patent Citations (1)
Title |
---|
後藤 真孝 MASATAKA GOTO: "音声スタータ:有声休止による発話開始の指定が可能な音声入力インタフェース Speech Starter: Speech Inp", 情報処理学会論文誌 第48巻 第5号 IPSJ JOURNAL, JPN6014044369, 15 May 2007 (2007-05-15), JP, pages 2001 - 2011, ISSN: 0002923809 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018120627A (ja) * | 2013-10-04 | 2018-08-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 端末及び端末の制御方法 |
JP2016071192A (ja) * | 2014-09-30 | 2016-05-09 | 株式会社Nttドコモ | 対話装置および対話方法 |
US10699718B2 (en) | 2015-03-13 | 2020-06-30 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US9825773B2 (en) | 2015-06-18 | 2017-11-21 | Panasonic Intellectual Property Corporation Of America | Device control by speech commands with microphone and camera to acquire line-of-sight information |
DE112015006887T5 (de) | 2015-09-09 | 2018-05-24 | Mitsubishi Electric Corporation | Fahrzeug-Spracherkennungsvorrichtung und Fahrzeugausrüstung |
Also Published As
Publication number | Publication date |
---|---|
US20130085757A1 (en) | 2013-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013080015A (ja) | 音声認識装置および音声認識方法 | |
WO2017134935A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN107103905B (zh) | 用于语音识别的方法和产品以及信息处理设备 | |
JP6028111B2 (ja) | ハイブリッド性能スケーリングまたは音声認識 | |
JP6143975B1 (ja) | 画像の取り込みを支援するためにハプティックフィードバックを提供するためのシステムおよび方法 | |
US9720644B2 (en) | Information processing apparatus, information processing method, and computer program | |
RU2534073C2 (ru) | Система, способ и аппарат для инструктирования устройству входить в активный режим | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
EP2994911B1 (en) | Adaptive audio frame processing for keyword detection | |
US9436287B2 (en) | Systems and methods for switching processing modes using gestures | |
EP3535754B1 (en) | Improved reception of audio commands | |
KR20150112337A (ko) | 디스플레이 장치 및 그 사용자 인터랙션 방법 | |
US20140304606A1 (en) | Information processing apparatus, information processing method and computer program | |
KR102505719B1 (ko) | 음성 인식이 가능한 디스플레이 장치 및 방법 | |
KR20170050908A (ko) | 음성 인식이 가능한 전자 장치 및 방법 | |
US20140303975A1 (en) | Information processing apparatus, information processing method and computer program | |
WO2016064556A1 (en) | Sound sample verification for generating sound detection model | |
KR20160060405A (ko) | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 | |
KR20180127065A (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
JPWO2018008227A1 (ja) | 翻訳装置および翻訳方法 | |
US20220165258A1 (en) | Voice processing method, electronic device, and storage medium | |
JP2015194766A (ja) | 音声認識装置および音声認識方法 | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141224 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150216 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150218 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150529 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20150629 |