JP2014149457A - 音声認識装置、電子機器、および音声認識装置の制御プログラム - Google Patents
音声認識装置、電子機器、および音声認識装置の制御プログラム Download PDFInfo
- Publication number
- JP2014149457A JP2014149457A JP2013018898A JP2013018898A JP2014149457A JP 2014149457 A JP2014149457 A JP 2014149457A JP 2013018898 A JP2013018898 A JP 2013018898A JP 2013018898 A JP2013018898 A JP 2013018898A JP 2014149457 A JP2014149457 A JP 2014149457A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- candidate
- word
- voice
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001771 impaired effect Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
Abstract
【解決手段】認識制御部(10)は、デジタルカメラ(100)の状態を示す情報を取得する機器状態取得部(11)と、上記情報に対応付けられた語句を候補語句として決定する候補語句決定部(12)と、音声データを取得する音声取得部(13)と、音声データから特定語句を検出する特定語句検出部(14)と、特定語句が候補語句のいずれかの語句であることを特定し、該語句を認識語句と決定する認識語句決定部(15)とを含む。
【選択図】図1
Description
本発明の第1の実施形態について説明すれば、以下の通りである。なお、本実施形態では、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。以下では、本実施形態について、図1〜4を用いて詳細に説明する。
まず初めに、デジタルカメラ100の要部構成を図1に基づいて説明する。図1は、デジタルカメラ100の要部構成を示すブロック図である。なお、本実施形態を説明するうえで、直接関係のない部分(例えば、外部機器との接続部分や写真撮影を行う部分など)についての説明は省略する。デジタルカメラ100(電子機器)は、図示の通り、音声認識装置としての認識制御部10と、センサ部20(センサ部、機器状態特定手段)と、機器状態特定部21と、音声検出部30(音声検出手段)と、語句テーブル40と、機器制御部50とを備えている。
次に、図2に基づき語句テーブル40の詳細なデータ構造について説明する。図2は、認識制御部10が音声認識のために利用する語句テーブル40のデータ構造の一例を示す図である。具体的には、図2ではデジタルカメラ100の撮影モード(状態)が「屋外」の場合の語句テーブル40のデータの例を示している。なお、図2において、語句テーブル40をテーブル形式のデータ構造にて示したことは一例であって、語句テーブル40のデータ構造をテーブル形式に限定する意図はない。以降、データ構造を説明するためのその他の図においても同様である。図示の通り、語句テーブル40は、「語句」列と、「候補」列と、「制御命令」列とを持つ。語句テーブル40は、「語句」列に、「候補」列および「制御命令」列が対応づけられた構成である。したがって、「語句」列の情報が決まれば、「候補」列および「制御命令」列の情報が一意に決まる。
次に、候補語句決定部12が行う候補語句の決定について、上述の図2を参照して詳述する。候補語句決定部12は、より具体的には、機器状態取得部11から受信した機器の状態を示す情報に基づいて、語句テーブル40中の当該語句の「候補」列の値を切替えるものである。
図3は、デジタルカメラ100にて行われる音声認識処理の流れを示した図である。まず初めに、デジタルカメラの状態を示す情報を取得する(S100)。具体的には、機器状態取得部11が、機器状態特定部21によって特定されたデジタルカメラ100の状態を示す情報を取得する。次に、S100で取得したデジタルカメラの状態を示す情報に応じ、語句テーブルの「候補」列を書き換える(S102)。具体的には、候補語句決定部12は、機器状態取得部11から上記状態を示す情報を受信すると、受信した情報が示すデジタルカメラ100の状態に応じて、語句テーブル40の「候補」列の情報を書き換える。これにより、語句テーブル40に含まれる語句のうち、どの語句を音声認識の対象の候補語句とするかが決定される。
続いて、図4に基づいて、本実施形態に係る音声認識装置を搭載したデジタルカメラ100の動作概要を説明する。図4の(a)および(b)は、具体的には、撮影モードが「屋外」であるデジタルカメラ100の動作を示している。ここでは、図2に示す語句テーブル40を用いて候補語句を決定する。すなわち、図2に示す通り、上記デジタルカメラ100の候補語句決定部12は、「ホワイトバランス晴天」という語句は候補語句とするが、「ホワイトバランス蛍光灯」という語句は候補語句としない。
本発明の第2の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態1と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。
次に、本実施形態に係るデジタルカメラ100の動作概要を、図5を用いて説明する。デジタルカメラ100の撮影モードが「自分撮り」以外の場合(図5の(a)および(b))は、デジタルカメラ100の候補語句決定部12は、「シャッター撮影」および「撮影」のどちらの語句も候補語句とする。一方、上記撮影モードが「自分撮り」の場合(図5の(c)および(d))は、「シャッター撮影」は候補語句とするが、「撮影」は候補語句としない。したがって、デジタルカメラ100の撮影モードが「自分撮り」以外の場合は、ユーザが「シャッター撮影」という語句を発しても(図5の(a))、「撮影」という語句を発しても(図5の(b))、該ユーザの音声は音声認識され、写真撮影が行われる。一方、デジタルカメラ100の撮影モードが「自分撮り」である場合は、ユーザが「シャッター撮影」という語句を発した際(図5の(c))は、ユーザの音声は音声認識されるが、「撮影」という語句を発した際(図5の(d))は、音声認識されない。
本発明の第3の実施形態について説明すれば、以下の通りである。なお、本実施形態では、前記実施形態1と同様に、本発明の音声認識装置を、電子機器の一種であるデジタルカメラに搭載した例について説明する。また、説明の便宜上、前記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記しその説明を省略する。
本発明に係る音声認識装置は上述したデジタルカメラに限らない。本発明に係る音声認識装置は、自機が音声および電子機器の状態を取得できるならば、あらゆる電子機器に搭載し、音声認識を行うことができる。例えば、上記音声認識装置を、テレビに搭載するようにしてもよい。この場合、現在放送中のチャンネルのみを認識対象にする。また、上記音声認識装置を、HDD(hard disc drive)レコーダに搭載してもよい。この場合、番組データにある録画番組のみ認識対象にする。
認識制御部10の制御ブロック(特に候補語句決定部12および認識語句決定部15)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、認識制御部10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明の態様1に係る音声認識装置(認識制御部10)は、ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、音声操作の対象となる電子機器(デジタルカメラ100)の状態を示す情報を取得する機器状態取得手段(機器状態取得部11)と、上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段(候補語句決定部12)と、上記ユーザの発話を音声データとして取得する音声データ取得手段(音声取得部13)と、上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段(特定語句検出部14)と、上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段(認識語句決定部15)と、を備えている。
Claims (5)
- ユーザの発話を音声として検出し、当該音声に含まれる語句を音声認識する音声認識装置であって、
音声操作の対象となる電子機器の状態を示す情報を取得する機器状態取得手段と、
上記機器状態取得手段によって取得された上記電子機器の状態を示す情報に対応付けられ、上記音声認識の対象となる候補語句を決定する候補語句決定手段と、
上記ユーザの発話を音声データとして取得する音声データ取得手段と、
上記音声データ取得手段によって取得された音声データから発話内容を特定する少なくとも一つの語句を特定語句として検出する特定語句検出手段と、
上記特定語句検出手段によって検出された特定語句が、上記候補語句決定手段によって決定された候補語句のいずれかの語句であることを特定し、特定した語句を認識語句として決定する認識語句決定手段と、
を備えていることを特徴とする音声認識装置。 - 上記候補語句決定手段は、上記電子機器の状態を示す情報に対応付けられた語句の文字数から当該語句を上記候補語句とするか否かを決定することを特徴とする請求項1に記載の音声認識装置。
- 上記機器状態取得手段は、上記電子機器の外部または内部環境を示す機器情報を測定するセンサ部から、上記電子機器の状態を示す情報として上記機器情報を取得することを特徴とする請求項1または2に記載の音声認識装置。
- 請求項1から3のいずれか1項に記載の音声認識装置を備えた電子機器であって、
上記ユーザの発話を検出する音声検出手段と、
自機の状態を特定する機器状態特定手段とを備えることを特徴とする電子機器。 - 請求項1から3の何れか1項に記載の音声認識装置を動作させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018898A JP2014149457A (ja) | 2013-02-01 | 2013-02-01 | 音声認識装置、電子機器、および音声認識装置の制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018898A JP2014149457A (ja) | 2013-02-01 | 2013-02-01 | 音声認識装置、電子機器、および音声認識装置の制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014149457A true JP2014149457A (ja) | 2014-08-21 |
Family
ID=51572464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013018898A Pending JP2014149457A (ja) | 2013-02-01 | 2013-02-01 | 音声認識装置、電子機器、および音声認識装置の制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014149457A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016119615A (ja) * | 2014-12-22 | 2016-06-30 | キヤノン株式会社 | 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58156998A (ja) * | 1982-03-12 | 1983-09-19 | 日本電気株式会社 | 情報入力装置 |
JPH0944604A (ja) * | 1995-08-02 | 1997-02-14 | Oki Electric Ind Co Ltd | 文字認識処理方法 |
JP2001034288A (ja) * | 1999-07-21 | 2001-02-09 | Nec Saitama Ltd | 携帯電話装置の音声認識システム及び方法 |
JP2002108389A (ja) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置 |
JP2002278591A (ja) * | 2001-03-22 | 2002-09-27 | Sharp Corp | 情報処理装置および情報処理方法、並びに、プログラム記録媒体 |
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
JP2010130487A (ja) * | 2008-11-28 | 2010-06-10 | Canon Inc | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
JP2010175921A (ja) * | 2009-01-30 | 2010-08-12 | Tokai Rika Co Ltd | 音声認識装置 |
JPWO2010113463A1 (ja) * | 2009-03-31 | 2012-10-04 | パナソニック株式会社 | 撮像装置、集積回路、撮像方法、プログラム及び記録媒体 |
JP2012211932A (ja) * | 2011-03-30 | 2012-11-01 | Toshiba Corp | 音声認識装置及び音声認識方法 |
-
2013
- 2013-02-01 JP JP2013018898A patent/JP2014149457A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58156998A (ja) * | 1982-03-12 | 1983-09-19 | 日本電気株式会社 | 情報入力装置 |
JPH0944604A (ja) * | 1995-08-02 | 1997-02-14 | Oki Electric Ind Co Ltd | 文字認識処理方法 |
JP2001034288A (ja) * | 1999-07-21 | 2001-02-09 | Nec Saitama Ltd | 携帯電話装置の音声認識システム及び方法 |
JP2002108389A (ja) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置 |
JP2002278591A (ja) * | 2001-03-22 | 2002-09-27 | Sharp Corp | 情報処理装置および情報処理方法、並びに、プログラム記録媒体 |
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
JP2010130487A (ja) * | 2008-11-28 | 2010-06-10 | Canon Inc | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
JP2010175921A (ja) * | 2009-01-30 | 2010-08-12 | Tokai Rika Co Ltd | 音声認識装置 |
JPWO2010113463A1 (ja) * | 2009-03-31 | 2012-10-04 | パナソニック株式会社 | 撮像装置、集積回路、撮像方法、プログラム及び記録媒体 |
JP2012211932A (ja) * | 2011-03-30 | 2012-11-01 | Toshiba Corp | 音声認識装置及び音声認識方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016119615A (ja) * | 2014-12-22 | 2016-06-30 | キヤノン株式会社 | 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210118463A1 (en) | Interactive server, control method thereof, and interactive system | |
EP3195310B1 (en) | Keyword detection using speaker-independent keyword models for user-designated keywords | |
US9778747B2 (en) | Method and system for multimodal and gestural control | |
KR102623272B1 (ko) | 전자 장치 및 이의 제어 방법 | |
JP6681011B2 (ja) | 画像の取り込みを制御するためのシステム及び方法 | |
EP3020040B1 (en) | Method and apparatus for assigning keyword model to voice operated function | |
US9948764B2 (en) | Artificial intelligence audio apparatus and operation method thereof | |
CN116364076A (zh) | 一种处理方法、控制方法、识别方法及其装置和电子设备 | |
US7792678B2 (en) | Method and device for enhancing accuracy of voice control with image characteristic | |
US11457061B2 (en) | Creating a cinematic storytelling experience using network-addressable devices | |
WO2018202073A1 (zh) | 语音控制智能设备的方法、装置和智能设备 | |
KR20140089863A (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
US20190012137A1 (en) | Remote controller and method for receiving a user's voice thereof | |
US11050828B2 (en) | Electronic device, server and method of controlling the same | |
WO2015062511A1 (zh) | 智能电视的光标控制方法和光标控制装置 | |
WO2018154900A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2016157782A1 (ja) | 音声認識システム、音声認識装置、音声認識方法、および制御プログラム | |
EP3788621A1 (en) | Adaptive diarization model and user interface | |
KR102517219B1 (ko) | 전자장치 및 그 제어방법 | |
US10691717B2 (en) | Method and apparatus for managing data | |
KR20180086032A (ko) | 전자장치, 전자장치의 제어방법 및 기록매체 | |
JP2020095702A (ja) | 情報処理装置、撮像装置、情報処理装置の制御方法、および、プログラム | |
JP2014149457A (ja) | 音声認識装置、電子機器、および音声認識装置の制御プログラム | |
US11818457B2 (en) | Image capturing apparatus, control method therefor, and storage medium | |
KR20190081653A (ko) | 디스플레이 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170712 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180109 |