JP6250297B2 - 音声入力装置、および画像表示装置 - Google Patents
音声入力装置、および画像表示装置 Download PDFInfo
- Publication number
- JP6250297B2 JP6250297B2 JP2013084503A JP2013084503A JP6250297B2 JP 6250297 B2 JP6250297 B2 JP 6250297B2 JP 2013084503 A JP2013084503 A JP 2013084503A JP 2013084503 A JP2013084503 A JP 2013084503A JP 6250297 B2 JP6250297 B2 JP 6250297B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- information
- microphone
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
例えば、特許文献1には、カメラにより撮影された撮影画像を用いて、発話者の体格や着座位置などにより変化する話者方向を特定し、マイクロフォンの指向性方向を適切に制御することで音声認識の精度を向上させる音声処理装置が開示されている。
ユーザが存在する方向と同一の方向に他の音源が存在している場合、ユーザからの音声情報と他の音源からの音声情報を分離して取得することができない。例えば、ユーザの背面に他の人物が存在する場合、撮像素子で撮影された画像からユーザの方向を特定するが、他の人物も同一方向にいるため、他の人物が発話した音声情報として取得してしまう。
また、複数のユーザが存在する場合、音声情報を取得する方向を適切に設定しないと、複数のユーザの音声情報がお互いにノイズとして含まれてしまい、各ユーザからの音声情報を取得することができない。
また、本発明の画像表示装置では、ノイズとなる音声情報を低減できる音声入力装置を備えることにより、認識率の高い音声入力が可能な画像表示装置を実現することできる。
図1は、本実施形態の構成を示す図である。本実施形態の音声入力装置100は、撮像素子101、ユーザ検出部102、カメラ基準ユーザ角度算出部103、カメラ基準ユーザ距離算出部104、マイクアレイ基準ユーザ角度算出部105、マイクアレイ106、ユーザ音声取得部107を備える。
撮像素子101は画像情報を取得するもので、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)センサといった固体撮像素子とレンズなどにより構成される。
マイクアレイ106は複数のマイクロフォンを備え、所定の間隔で配置される。例えば、一定間隔で一列に配置する。マイクロフォンは周囲の音声情報を取得し、各マイクロフォンで取得された音声情報はユーザ音声取得部107に伝達する。
ここで、ユーザ検出部102、カメラ基準ユーザ角度算出部103、カメラ基準ユーザ距離算出部104、マイクアレイ基準ユーザ角度算出部105、およびユーザ音声取得部107は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)によるソフトウエア処理、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)によるハードウエア処理によって実現することができる。
ここではカメラ基準軸10からユーザ方向にカメラ基準ユーザ角度θだけ傾いた方向をカメラ基準ユーザ方向11とし、マイクアレイ基準軸20からユーザ方向にマイクアレイ基準ユーザ角度φだけ傾いた方向をマイクアレイ基準ユーザ方向21とする。また、カメラ基準ユーザ方向11とマイクアレイ基準ユーザ方向21とのなす角度をαで表す。このときの角度αは、カメラ基準ユーザ方向11とマイクアレイ基準ユーザ方向21とのなす角度のうち、カメラ基準ユーザ方向11とマイクアレイ基準ユーザ方向21との交点、撮像素子101、及びマイクアレイ基準軸20を設定したマイクロフォンの3点を頂点とする3角形の内角側の角度を示すものとする。
特定の角度の音声取得は一般的な方法を使用することができ、例えば、マイクアレイ106の各マイクロフォンに到達する音声の時間差や音量差と、各マイクロフォンの音声取得特性と、各マイクロフォンの位置関係とから計算する。
また、ユーザ検出部102でのユーザの顔領域が小さい場合、ユーザ位置の検出精度が低下する可能性があるため、カメラ基準ユーザ距離Lが大きくなるほど音声情報を取得する角度幅を大きくすると、ユーザの音声情報が取得できないなどの不具合を低減することができ好適である。
撮像素子101からユーザ201の方向を見たとき、ユーザ201の背後領域にユーザ以外の人物が存在するかなどの情報は画像情報からは取得できない。つまり、ユーザ撮影範囲12内でユーザ201の背後領域にいる他の人物は、画像情報からは認識することができない。
このときに、ユーザ撮影範囲12内でユーザ201の背後の領域は、他のユーザが存在しているかもしれないため、この領域からは音声を取得しないようにすることが好ましい。このためには、ユーザ撮影範囲12内のユーザ201の背後の領域と、ユーザ音声取得範囲22とが重なる領域を最も小さくすることが好ましい。これにより、撮影画像からは認識できないユーザ201の背後のユーザからの音声取得をできる限り回避し、ノイズを低減させることができる。
図7および図8は、マイクロフォンの配列方向において撮像素子101とマイクアレイ106との間にユーザ201が検出された場合で、撮像素子101、検出されたユーザ201、マイクアレイ106の順で位置している。
ここでは初期設定としてマイクアレイ106の中央のマイクロフォンにマイクアレイ基準軸20を設定しておき、初期設定よりカメラ基準ユーザ方向11とマイクアレイ基準ユーザ方向21とがなす角αが大きくなるようにマイクアレイ基準軸20を設定することでノイズの低減を実現できる。
実施形態1では、ユーザ検出部102で検出されるユーザ201が1名である場合であったが、本実施形態2では複数人の人物が検出された場合の実施形態を説明する。本実施形態における音声入力装置100の構成は、実施形態1と同様で図1、図13、図14に示す構成を有するものであり、共通する各部の詳細な説明は省略する。
図15では、検出された第1のユーザ201に対してマイクアレイ基準軸20を撮像素子101から最も遠いマイクロフォンに設定している。このとき、カメラ基準ユーザ方向11とマイクアレイ基準ユーザ方向21とがなす角αが大きくなるようにマイクアレイ基準軸20を設定しているが、音声情報を取得する領域に第2のユーザ202が存在するため、第1のユーザ201から取得したい音声情報に、第2のユーザ202から発せられた音声情報が含まれてしまう可能性がある。
音声取得角度範囲23が重複すると、第1のユーザ201から取得される音声情報には第2のユーザ202が発した音声情報が含まれてしまい、第2のユーザ202から取得される音声情報には第1のユーザ201が発した音声情報が含まれてしまう可能性がある。
ここでは初期設定としてマイクアレイ106の中央のマイクロフォンにマイクアレイ基準軸20を設定しておき、初期設定よりカメラ基準ユーザ方向11とマイクアレイ基準ユーザ方向21とがなす角αが小さくなるようにマイクアレイ基準軸20を設定することでノイズの低減を実現できる。
実施形態3は、実施形態1および実施形態2で説明した音声入力装置を備える画像表示装置である。本実施形態における音声入力装置の構成は、実施形態1および実施形態2と同様であるため、共通する各部の詳細な説明は省略する。
実施形態4は、実施形態1および実施形態2で説明した音声入力装置を備える音声情報記録装置である。本実施形態における音声入力装置の構成は、実施形態1および実施形態2と同様であるため、共通する各部の詳細な説明は省略する。
図24は本実施形態の構成を示す図である。音声情報記録装置400は、音声入力装置100、音声認識部301、記録部401を備える。本実施形態の音声入力装置100は、ユーザ検出部102において、検出されたユーザが誰であるかの認識を行う。これは、人物画像と人物名とをあらかじめ登録しておくことで実現できる。音声入力装置100は、ユーザ情報と音声情報とを関連付けて音声認識部301に伝達する。音声認識結果はテキストデータとしてユーザ情報と関連付けて記録部401に伝達される。
Claims (5)
- 画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンとを備えた音声入力装置であって、
前記撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、
ユーザの方向の音声情報を取得するユーザ音声取得部とを備え、
前記ユーザ音声取得部は、検出されたユーザの位置に基づいて音声情報を取得する際の基準となるマイクロフォンを設定し、
前記ユーザ音声取得部は、任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が大きくなるように、前記基準となるマイクロフォンを設定することを特徴とする音声入力装置。 - 画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンとを備えた音声入力装置であって、
前記撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、
ユーザの方向の音声情報を取得するユーザ音声取得部とを備え、
前記ユーザ音声取得部は、検出されたユーザの位置に基づいて音声情報を取得する際の基準となるマイクロフォンを設定し、
前記ユーザ音声取得部は、任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が小さくなるように、前記基準となるマイクロフォンを設定することを特徴とする音声入力装置。 - 画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンとを備えた音声入力装置であって、
前記撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、
ユーザの方向の音声情報を取得するユーザ音声取得部とを備え、
前記ユーザ音声取得部は、検出されたユーザの位置に基づいて音声情報を取得する際の基準となるマイクロフォンを設定し、
前記ユーザ音声取得部は、
(i)任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が大きくなるように、前記基準となるマイクロフォンを設定する第一のモードと、
(ii)任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が小さくなるように、前記基準となるマイクロフォンを設定する第二のモードと、
を切り替える、ことを特徴とする音声入力装置。 - 前記ユーザ音声取得部は、前記第一のモードと前記第二のモードとを、前記ユーザ検出部で検出されたユーザの人数に基づいて切り換えることを特徴とする、請求項3に記載の音声入力装置。
- 請求項1〜4のいずれか1項に記載の音声入力装置と、該音声入力装置が出力する音声情報を認識する音声認識部と、前記音声認識部で認識された結果に基づいて出力音声の制御を行う制御部と、前記音声情報に関連付けられた画像を表示する表示部と、を備えることを特徴とする画像表示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084503A JP6250297B2 (ja) | 2013-04-15 | 2013-04-15 | 音声入力装置、および画像表示装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084503A JP6250297B2 (ja) | 2013-04-15 | 2013-04-15 | 音声入力装置、および画像表示装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014207589A JP2014207589A (ja) | 2014-10-30 |
JP2014207589A5 JP2014207589A5 (ja) | 2016-06-09 |
JP6250297B2 true JP6250297B2 (ja) | 2017-12-20 |
Family
ID=52120820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013084503A Expired - Fee Related JP6250297B2 (ja) | 2013-04-15 | 2013-04-15 | 音声入力装置、および画像表示装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6250297B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017138343A (ja) * | 2016-02-01 | 2017-08-10 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
CN117612539A (zh) | 2016-05-30 | 2024-02-27 | 索尼公司 | 视频音频处理设备、视频音频处理方法和存储介质 |
JP6686977B2 (ja) * | 2017-06-23 | 2020-04-22 | カシオ計算機株式会社 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
DE102017214919A1 (de) * | 2017-08-25 | 2019-02-28 | Siemens Healthcare Gmbh | Bildgebende medizinische Einrichtung und Verfahren zum Betrieb einer bildgebenden medizinischen Einrichtung |
US10524048B2 (en) * | 2018-04-13 | 2019-12-31 | Bose Corporation | Intelligent beam steering in microphone array |
JP7200772B2 (ja) * | 2019-03-18 | 2023-01-10 | コニカミノルタ株式会社 | 画像形成装置、画像形成装置の制御方法、および画像形成装置の制御プログラム |
CN111522074B (zh) * | 2020-05-29 | 2023-04-25 | 深圳市燕麦科技股份有限公司 | 麦克风检测设备及麦克风检测方法 |
CN111815958B (zh) * | 2020-06-18 | 2022-11-29 | 安徽超清科技股份有限公司 | 一种交通电子警察抓拍控制装置及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005159731A (ja) * | 2003-11-26 | 2005-06-16 | Canon Inc | 撮像装置 |
JP2007302155A (ja) * | 2006-05-12 | 2007-11-22 | Matsushita Electric Ind Co Ltd | 車載用マイクロホン装置及びその指向性制御方法 |
JP5564873B2 (ja) * | 2009-09-25 | 2014-08-06 | 富士通株式会社 | 収音処理装置、収音処理方法、及びプログラム |
JP5022461B2 (ja) * | 2010-03-12 | 2012-09-12 | 株式会社半導体理工学研究センター | マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法 |
JP2012186551A (ja) * | 2011-03-03 | 2012-09-27 | Hitachi Ltd | 制御装置、制御システムと制御方法 |
-
2013
- 2013-04-15 JP JP2013084503A patent/JP6250297B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2014207589A (ja) | 2014-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6250297B2 (ja) | 音声入力装置、および画像表示装置 | |
US9852339B2 (en) | Method for recognizing iris and electronic device thereof | |
JP6219017B2 (ja) | 光検出機能を備えるoledディスプレイ装置 | |
US9900500B2 (en) | Method and apparatus for auto-focusing of an photographing device | |
US20170061210A1 (en) | Infrared lamp control for use with iris recognition authentication | |
US20140223548A1 (en) | Adapting content and monitoring user behavior based on facial recognition | |
CN107439002B (zh) | 深度成像 | |
WO2015184724A1 (zh) | 一种选座的提示方法及装置 | |
CN106709954B (zh) | 在投影区域遮罩人脸的方法 | |
US20200137492A1 (en) | Sound pickup device, sound pickup system, sound pickup method, program, and calibration method | |
JPWO2018025458A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20140125183A (ko) | 프로젝터 장착 안경 및 그 제어 방법 | |
US20140204260A1 (en) | Apparatus and method for controlling display of mobile terminal | |
TW201801516A (zh) | 影像擷取裝置及其攝影構圖的方法 | |
KR20200101230A (ko) | 구도를 추천하기 위한 전자 장치 및 그의 동작 방법 | |
JP2013055424A (ja) | 撮影装置、パターン検出装置、および電子機器 | |
JP2015023512A (ja) | 撮影装置、撮影方法及び撮影装置の撮影プログラム | |
KR101982075B1 (ko) | Tv 장치 | |
KR20180023785A (ko) | 복수의 발광소자를 포함하는 전자 장치 및 전자 장치의 동작 방법 | |
US20200349714A1 (en) | Projection apparatus and operation method thereof | |
KR20140047620A (ko) | 입체적 효과 조정을 위한 상호적인 사용자 인터페이스 | |
TWI485505B (zh) | 數位相機及數位相機之影像擷取方法 | |
JP2015166854A (ja) | 投影装置の投影制御装置、投影装置の投影制御方法、投影システム、投影システムの投影制御方法及びプログラム | |
JP2015171116A (ja) | カメラの表示装置 | |
JP2018085579A (ja) | 撮像装置、制御方法、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150909 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150911 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150915 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160411 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6250297 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |