JP2019046482A - 音声映像追跡装置 - Google Patents

音声映像追跡装置 Download PDF

Info

Publication number
JP2019046482A
JP2019046482A JP2018190818A JP2018190818A JP2019046482A JP 2019046482 A JP2019046482 A JP 2019046482A JP 2018190818 A JP2018190818 A JP 2018190818A JP 2018190818 A JP2018190818 A JP 2018190818A JP 2019046482 A JP2019046482 A JP 2019046482A
Authority
JP
Japan
Prior art keywords
unit
video
user
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018190818A
Other languages
English (en)
Other versions
JP6628853B2 (ja
Inventor
翔一郎 齊藤
Shoichiro Saito
翔一郎 齊藤
尚 植松
Hisashi Uematsu
尚 植松
一成 森内
Kazunari Moriuchi
一成 森内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018190818A priority Critical patent/JP6628853B2/ja
Publication of JP2019046482A publication Critical patent/JP2019046482A/ja
Application granted granted Critical
Publication of JP6628853B2 publication Critical patent/JP6628853B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】高騒音環境やタッチ操作が困難な利用状況であっても円滑な操作を可能とする。【解決手段】音声認識部2は、収音部Mを用いて利用者の音声を含む周囲の音を取得した音響信号を音声認識して音声認識結果を生成する。映像取得部5は、撮影部Vを用いて利用者の視野に対応する領域を撮影した映像信号を取得する。音声生成部4は、出力音響信号を放音部Sへ出力する。映像生成部6は、映像信号を用いて生成した出力映像信号を映像表示部Gへ出力する。機能制御部3は、ダイヤル操作部Dからのダイヤル操作信号、ボタン操作部Bからのボタン操作信号、および音声認識結果に基づいて、映像取得部5、音声認識部2、音声生成部4、および映像生成部6の機能を制御する制御信号を生成する。【選択図】図2

Description

この発明は、音声コマンド入力による操作が可能な音声映像入出力装置である。
近年、困難な作業や熟練していない作業を行う工場作業員などに対し、音声や映像などのマルチメディア技術や情報通信技術を駆使して作業効率を上げるニーズが高まっている。しかしながら、作業に必要な用具と別にノートパソコンやタブレット端末などの情報通信機器を持ち歩くことは作業員にとって大きな負担となる。また、そのような機器ではキーボード操作や画面操作が主であるが、作業員は両手を自由に使える環境にあるとは限らず、直観的な操作性が不足していることが多い。そのため、音声や映像と連携して作業を行おうとしても、作業者の意図した作業を行うことが難しいという課題がある。また、そのような環境では騒音が大きいことが多く、コミュニケーションが円滑に行えない場合が多いという課題もある。
上述のようなニーズに対して、必要な情報を現実の視野に重畳して表示する眼鏡型ウェラブルデバイスが開発されている。例えば、非特許文献1、2などに記載されたGoogle Glass(登録商標)がある。Google Glassは、音声によるコマンド入力(例えば、「OK glass.」と発話するなど。詳しくは、非特許文献1参照。)と、ゼスチャーによるコマンド入力(例えば、指のタッチや本体の傾きの状態など。詳しくは、非特許文献2参照。)を利用して操作することが可能になっている。
Google, Inc.、"Google Glass - Help - Voice actions"、[online]、[平成27年4月3日検索]、インターネット<URL:https://support.***.com/glass/answer/3079305?hl=en> Google, Inc.、"Google Glass - Help - Glass gestures"、[online]、[平成27年4月3日検索]、インターネット<URL:https://support.***.com/glass/answer/3064184?hl=en>
しかしながら、従来の眼鏡型ウェラブルデバイスでは高騒音環境下での利用を想定しておらず、例えば工場内など周囲の騒音が大きい環境では音声が雑音に埋もれてしまい、音声によるコマンド入力が誤りやすい。また、工場内での作業者は分厚い手袋をして作業を行うことが多く、従来の眼鏡型ウェラブルデバイスが備えるようなタッチパッドでは静電式、圧電式にかかわらず細かな操作をすることが難しい。また、工場内ではヘルメットのような頭部への装着物が必要となる場合も多く、これらの装着物と物理的に干渉し、正規の着用方法ができない場合もある。さらに、落下事故を防ぐために落下防止ストラップなどを装着する必要もあり、装着準備に手間がかかる。
この発明の目的は、高騒音環境やタッチ操作が困難な利用状況であっても円滑な操作を可能とする音声映像入出力装置を提供することである。
上記の課題を解決するために、この発明の音声映像入出力装置は、利用者の音声を含む周囲の音を収音する複数の収音部と、利用者の視野に対応する領域を撮影する撮影部と、利用者の視野に入る位置に画面が配置された映像表示部と、回転操作に応じて回転方向および回転角度を示すダイヤル操作信号を出力するダイヤル操作部と、ダイヤル操作部の表面において回転軸の位置に配置され押下状態を示すボタン操作信号を出力するボタン操作部と、収音部を用いて取得した音響信号を音声認識して音声認識結果を生成する音声認識部と、撮影部を用いて映像信号を取得する映像取得部と、映像信号を用いて生成した出力映像信号を映像表示部へ出力する映像生成部と、ダイヤル操作信号、ボタン操作信号、および音声認識結果に基づいて、映像取得部、音声認識部、および映像生成部の機能を制御する制御信号を生成する機能制御部と、を含む。
この発明の音声映像入出力装置は、複数の収音部から収音した音響信号を用いて音声認識するため、高騒音環境であっても音声コマンド入力が安定的に動作する。また、ダイヤルとボタンによる物理的な操作が可能であるため、タッチ操作が困難な利用状況でも操作が容易である。したがって、高騒音環境やタッチ操作が困難な利用状況であっても円滑な操作が可能である。
図1は、第一実施形態に係る音声映像入出力装置の機能構成を例示する図である。 図2は、第一実施形態に係る音声映像入出力装置の機能構成を例示する図である。 図3は、環境設定機能の利用イメージを例示する図である。 図4は、音量設定機能の利用イメージを例示する図である。 図5は、映像ズーム機能の利用イメージを例示する図である。 図6は、映像追跡機能の利用イメージを例示する図である。 図7は、第二実施形態に係る音声映像入出力装置の機能構成を例示する図である。 図8は、第二実施形態に係る音声映像入出力装置の機能構成を例示する図である。 図9は、音声ズーム機能の利用イメージを例示する図である。 図10は、音声追跡機能の利用イメージを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
この発明の第一実施形態は、例えば工場内のような高騒音の作業現場において、利用者が頭部に装着して利用することを想定したヘルメット一体型の音声映像入出力装置である。本形態の音声映像入出力装置は、図1に例示するように、n(≧2)個の収音部M1,…,Mn、放音部S、撮影部V、映像表示部G、ダイヤル操作部D、ボタン操作部B、および通信記録部Cを含む。
収音部M1,…,Mnは、利用者が装着した際に利用者の周囲の音を収音するマイクロホンである。図1の例では、1個の収音部M1が利用者の口元に配置され、n-1個の収音部M2,…,Mnが後頭部に水平に配列される構成を示したが、利用者の発話を含む周囲の音を収音可能であればどのような配置でもよい。
放音部Sは、利用者が装着した際に利用者の耳に対応する位置に配置されたヘッドホンである。ヘッドホンは一般的に両耳に対して用意されるものであるが、本形態の放音部Sは、少なくとも片方の耳に対して用意されていればよく、通常どおり両耳に対して用意されていてもよい。
撮影部Vは、利用者が装着した際に利用者の視野に対応する領域に画角が設定され、利用者の視野に対応する領域を撮影するビデオカメラである。図1の例では、利用者の額の位置に配置される構成を示したが、利用者の視野に対応する領域が撮影可能であればどのような位置に配置されてもよい。ただし、撮影部Vは、利用者の視野を遮らない位置に配置されることが望ましい。
映像表示部Gは、利用者が装着した際に利用者の視野に入る位置に画面が配置された透過スクリーンを用いた小型ディスプレイである。映像表示部Gは透過型であるため、映像出力がない状態では利用者の視界を遮ることがなく、映像出力がある状態では利用者から見て前方の光景に対して映像が重畳して視認される。ここでは工場内などの作業現場における利用を想定しているため、粉塵等の飛来物から利用者の目を守る効果もある。映像表示部Gは、利用者の視野の範囲外に退避させることが可能な可動式となっている。例えば、正確な色彩を確認するなどで肉眼による確認が必要な場合には利便性が高い。退避させた際には、撮影部Vの画角に入らない位置に収納されることが望ましい。
ダイヤル操作部Dは、放音部Sの表面のうち利用者が装着した際に利用者の耳と反対側になる面に配置され、利用者の耳の位置を中心軸として回転自在な大型ダイヤルである。ダイヤル操作部Dは、円形のダイヤルの側面に複数の凸凹が形成されており、例えば利用者が厚い手袋などを装着している状況であっても指先で容易に操作が可能となるように形成される。ダイヤル操作部Dは、回転操作が行われた際に操作された回転方向および回転角度を示すダイヤル操作信号dを出力する。ダイヤル操作部Dの位置は必ずしも放音部Sの表面でなくともよく、利用者が操作可能な位置であればどのように配置してもよい。
ボタン操作部Bは、ダイヤル操作部Dの表面のうち回転軸の位置に配置され、回転ダイヤルの中心軸の方向へ押下可能なボタンである。ボタン操作部Bは、キャップ部分が無押下状態でもダイヤル操作部Dの表面からわずかにくぼんだ位置になるように設定することで、意図しないボタン押下により誤動作を起こすことを防止できる。ボタン操作部Bは、押下操作が行われた際に押下状態を示すボタン操作信号bを出力する。
通信記録部Cは、遠隔にいる通信相手と無線もしくは有線の通信経路を確立し、音声信号および映像信号の送受信を行う。また、送受信を行った音声信号および映像信号や、収音部M1,…,Mnを用いて取得した音声信号および撮影部Vを用いて取得した映像信号を記録媒体等に記録する。
図2を参照して、第一実施形態の音声映像入出力装置の動作を説明する。本形態の音声映像入出力装置は、収音部M1,…,Mn、放音部S、撮影部V、映像表示部G、ダイヤル操作部D、ボタン操作部B、および通信記録部Cに加えて、入力音声強調部1、音声認識部2、機能制御部3、音声生成部4、映像取得部5、および映像生成部6を含む。通信記録部Cは、図2に示すように、音声出力部C1、音声入力部C2、映像出力部C3、および映像入力部C4を含む。
入力音声強調部1は、収音部M1,…,Mnがそれぞれ収音した音響信号x1,…,xnに対して目的音強調処理を行い、音響信号x1,…,xnに含まれる音声が強調された音声強調信号aoを出力する。音声強調信号aoは音声認識部2、音声生成部4、および音声出力部C1へ送られる。利用者の口元にある収音部M1が収音した音響信号x1には利用者の音声と環境雑音が含まれており、利用者の音声が届きにくい位置に配置された収音部M2,…,Mnがそれぞれ収音した音響信号x2,…,xnには環境雑音のみが含まれていることが期待できる。したがって、音響信号x1において音響信号x2,…,xnに含まれる環境雑音を抑圧することで、利用者の音声を強調した音響信号を得ることができる。目的音強調処理は上記の方法に限定されず、公知のどのような方法を適用してもよい。例えば、下記参考文献1に記載の音響信号強調技術を利用することができる。
〔参考文献1〕特開2013−179388号公報
音声認識部2は、音声強調信号aoに対して音声認識を行い、音声認識結果opを出力する。音声認識処理は公知のどのような方法を適用してもよい。音声認識結果opは機能制御部3へ送られる。音声認識部2は音声認識処理を自ら実行するものでなくてもよく、遠隔に設置された音声認識装置に対して音声強調信号aoを送信し、その音声認識装置から返信される音声認識結果を音声認識結果opとして出力するものであってもよい。このとき、音声認識装置との通信は、通信記録部Cを用いて行えばよい。
機能制御部3は、ダイヤル操作部Dからのダイヤル操作信号d、ボタン操作部Bからのボタン操作信号b、および音声認識部2からの音声認識結果opに基づいて、音声映像入出力装置の機能を制御するための制御信号c1,…,c5を生成する。制御信号の内容は、利用者が映像表示部Gの表示に従ってダイヤル操作、ボタン操作、および音声コマンド入力により選択した内容により定まる。個別の機能に対する操作例は後述するが、ダイヤル操作、ボタン操作、および音声コマンド入力をどのように組み合わせて操作インターフェースを構成するかは任意である。例えば、基本的な操作として、音声コマンド入力により機能の呼び出しを行い、ダイヤル操作により選択肢の選択を行い、ボタン操作により選択を確定する流れが考えられる。また、音声コマンド入力により選択肢の指定から確定までを一括で行うことも可能である。制御信号は制御対象とする構成部に応じて個別に生成される。例えば、制御信号c1は入力音声強調部1に対する制御を行う信号である。制御信号c2は音声生成部4に対する制御を行う信号である。制御信号c3は映像取得部5に対する制御を行う信号である。制御信号c4は映像生成部6に対する制御を行う信号である。制御信号c5は音声認識部2に対する制御を行う信号である。
音声出力部C1は、入力音声強調部1の出力する音声強調信号aoを遠隔の通信相手へ向けて送信する。もしくは音声強調信号aoを図示していない記録媒体に記憶する。
音声入力部C2は、遠隔の通信相手から遠隔音声信号aiを受信する。受信した遠隔音声信号aiは音声生成部4へ送られる。遠隔音声信号aiは、例えば、遠隔の通信相手が利用者に対して行うべき作業内容を指示する音声などである。
音声生成部4は、入力音声強調部1の出力する音声強調信号aoと、音声入力部C2の出力する遠隔音声信号aiがあれば遠隔音声信号aiとを用いて出力音響信号asを生成し、その出力音響信号asを放音部Sへ出力する。音声強調信号aoは、例えば、高騒音環境で利用しており自分の話す声も自分で聞き取りづらい場合などに、利用者の音声をフィードバックするために利用される。また、あらかじめ録音した音声を通信記録部Cなどに記憶しておき、その音声を再生することで遠隔音声信号aiとして利用してもよい。
映像取得部5は、撮影部Vを用いて撮影した映像信号voを取得する。取得した映像信号voは映像出力部C3へ送られる。
映像出力部C3は、映像取得部5の出力する映像信号voを遠隔の通信相手へ向けて送信する。もしくは映像信号voを図示していない記録媒体に記憶する。
映像入力部C4は、遠隔の通信相手から遠隔映像信号viを受信する。受信した遠隔映像信号viは映像生成部6へ送られる。遠隔映像信号viは、例えば、利用者が行うべき作業において必要とされる参考情報などである。
映像生成部6は、映像取得部5の出力する映像信号voと、映像入力部C4が出力する遠隔映像信号viがあれば遠隔映像信号viとを用いて出力映像信号vsを生成し、その出力映像信号vsを映像表示部Gへ出力する。
図3は、本形態の音声映像入出力装置において環境設定を行う際の利用イメージである。まず、利用者は音声コマンド入力により「環境」と入力する。機能制御部3は「環境」という音声認識結果opに基づいて、環境設定機能を呼び出すための制御信号c4を映像生成部6へ送る。映像生成部6は現在の環境設定を映像表示部Gの透過スクリーンに表示する。図3の例では、現在の環境設定は「建設現場」であり、その他の設定候補として「トンネル」や「サーバ室」などが表示される。これらの選択肢とそれに紐づく動作パラメータはあらかじめ設定しておく。利用者がダイヤル操作部Dを回転させると、ダイヤル操作信号dが機能制御部3へ入力され、環境設定候補を変更するための制御信号c4が映像生成部6へ送られる。ダイヤル操作により所望の環境設定候補を選択した後にボタン操作部Bを押下すると、ボタン操作信号bが機能制御部3へ入力され、環境設定の変更を確定するための制御信号c1およびc5が入力音声強調部1および音声認識部2へ送られる。入力音声強調部1および音声認識部2は制御信号c1およびc5に従って動作パラメータを変更する。目的音強調処理や音声認識処理は環境により最適な動作パラメータが異なることが一般的であるため、利用環境を正しく設定することでより精度の高い処理結果が得られることが期待できる。
図4は、本形態の音声映像入出力装置において音量設定を行う際の利用イメージである。まず、利用者は音声コマンド入力により「音量」と入力する。機能制御部3は「音量」という音声認識結果opに基づいて、音量設定機能を呼び出すための制御信号c4を映像生成部6へ送る。映像生成部6は現在の音量設定を映像表示部Gの透過スクリーンに表示する。図4の例では、現在の音量設定は「50」である。利用者がダイヤル操作部Dを回転させると、ダイヤル操作信号dが機能制御部3へ入力され、音量設定を変更するための制御信号c2が音声生成部4へ、音量表示を変更するための制御信号c4が映像生成部6へ送られる。音声生成部4は制御信号c2に従って放音部Sへ出力する出力音響信号asの音量を上下させる。映像生成部6は制御信号c4に従って音量表示を上下させる。
図5は、本形態の音声映像入出力装置において映像ズームを行う際の利用イメージである。まず、利用者は音声コマンド入力により「映像ズーム」と入力する。機能制御部3は「映像ズーム」という音声認識結果opに基づいて、映像ズーム機能を呼び出すための制御信号c4を映像生成部6へ送る。映像生成部6は撮影部Vが現在撮影している映像を映像表示部Gの透過スクリーンに表示する。利用者がダイヤル操作部Dを回転させると、ダイヤル操作信号dが機能制御部3へ入力され、映像ズームの倍率を変更するための制御信号c3が映像取得部5へ送られる。映像取得部5は撮影部Vの倍率を変化させて映像信号voを取得する。ハンズフリーで映像撮影をするときには頭上等に取り付けられたカメラ単体では正確に被写体が撮影者にわからないという課題があり、また撮影部Vを直接触るような操作も行いづらい。上述のような操作により映像ズームを行うことが可能であれば、映像範囲の確認や映像のズーム操作をスムーズに行うことが可能である。
図6は、本形態の音声映像入出力装置において映像追跡を行う際の利用イメージである。まず、利用者は音声コマンド入力により「映像追跡」と入力する。機能制御部3は「映像追跡」という音声認識結果opに基づいて、映像追跡機能を呼び出すための制御信号c4を映像生成部6へ送る。映像生成部6は撮影部Vが現在撮影している映像において映像中の追跡対象候補をハイライトさせながら映像表示部Gの透過スクリーンに表示する。図6の例では、3個の物体が追跡対象候補として表示されており、透過スクリーン左上に位置する物体が追跡対象候補としてハイライト表示されている。ここで利用者がダイヤル操作部Dを回転させると、ダイヤル操作信号dが機能制御部3へ入力され、追跡対象候補を切り替えるための制御信号c4が映像生成部6へ送られる。利用者がダイヤル操作により所望の追跡対象候補を選択し、その状態でボタン操作部Bを押下すると、ボタン操作信号bが機能制御部3へ入力され、追跡対象を決定するための制御信号c3が映像取得部5へ送られる。映像取得部5は、制御信号c3に従って決定した追跡対象の映像追跡を開始する。以降、追跡対象が撮影部Vの画角に存在する限り、その追跡対象を中心とした映像信号voが撮影される。映像追跡と映像ズームを組み合わせることにより、視界内の任意の物体をズームしながら追跡することが可能である。この場合、撮影部Vはパン・チルト・ズーム機能に対応している必要がある。利用者がダイヤル操作を行うことが困難な状況を想定して音声コマンド入力による追跡対象の選択も可能である。利用者が「右」「左」などを音声コマンド入力することで追跡対象候補を切り替えたり、画面上の座標を直接音声コマンド入力することにより追跡対象候補を選択したりする方法が考えられる。音声コマンド入力による追跡対象の選択を行うことで完全にハンズフリーでの操作が可能となる。
[第二実施形態]
第二実施形態の音声映像入出力装置は、図7に例示するように、n(≧2)個の収音部M1,…,Mn、放音部S、撮影部V、映像表示部G、ダイヤル操作部D、ボタン操作部B、および通信記録部Cを第一実施形態と同様に含み、さらにm-n個(m≧4)の前方収音部Mn+1,…,Mmを含む。また、本形態の音声映像入出力装置は、図8に例示するように、第一実施形態の音声映像入出力装置の各構成部に加えて、目的音強調部7をさらに含む。
前方収音部Mn+1,…,Mmは、利用者が装着した際に利用者の視野に対応する方向から到来する音を収音するマイクロホンである。図7では、前方収音部Mn+1,…,Mmが前頭部の撮影部V近傍に水平に配列される例を示したが、利用者の視野に対応する方向から到来する音を収音可能であればどのような配置でもよい。
目的音強調部7は、前方収音部Mn+1,…,Mmがそれぞれ収音した前方音響信号xn+1,…,xmに対して目的音強調処理を行い、特定の音が強調された目的音強調信号ao2を出力する。目的音強調信号ao2は音声生成部4および音声出力部C1へ送られる。強調すべき音の特定は、利用者が音声コマンド入力、ダイヤル操作、およびボタン操作を用いて行う。具体的な特定の操作は後述する。目的音強調処理は公知のどのような方法を適用してもよく、例えば上記参考文献1に記載の音響信号強調技術を利用することができる。
図9は、本形態の音声映像入出力装置において音声ズームを行う際の利用イメージである。音声ズームとは、特定の音源から到来する音を集中的に収音する機能である。まず、利用者は音声コマンド入力により「音声ズーム」と入力する。機能制御部3は「音声ズーム」という音声認識結果opに基づいて、音声ズーム機能を呼び出すための制御信号c4を映像生成部6へ送る。映像生成部6は現在の音声ズームの設定(中心位置と倍率)を映像表示部Gの透過スクリーンに表示する。図9の例では、太線の円の中心がズーム位置を示し、円の半径がズーム倍率の大きさを示している。利用者はダイヤル操作とボタン操作により音声ズームの設定を変更する。まずダイヤル操作部Dを回転させると透過スクリーン上でズーム位置の横座標が移動する。所望の位置でボタン操作部Bを押下すると横座標が確定する。次にダイヤル操作部Dを回転させると透過スクリーン上でズーム位置の縦座標が移動する。所望の位置でボタン操作部Bを押下すると縦座標が確定する。その後ダイヤル操作部Dを回転させるとズームの倍率が変化する。最後にボタン操作部Bを押下すると、音声ズーム設定の変更を確定するための制御信号制御信号c1が目的音強調部7へ送られる。目的音強調部7は特定された方向から到来する音を指定の倍率で強調した目的音強調信号ao2を出力する。音声ズームは工事現場もしくは災害現場などで、装着者の視点からの映像と音声を記録する用途が考えられる。特に、騒音下で遠距離の人物や物体の音を選択的に聞き分ける際に、透過スクリーンと連動して音声ズーム設定が行えることにより、直観的かつ効率的に操作をすることができる。上述のような操作方法は、装着者の目の位置と前方収音部Mn+1,…,Mmの位置関係が近くかつ一定であるというヘルメット一体型の装置であるがゆえに実現できるものである。
図10は、本形態の音声映像入出力装置において音声追跡を行う際の利用イメージである。まず、利用者は音声コマンド入力により「音声追跡」と入力する。機能制御部3は「音声追跡」という音声認識結果opに基づいて、音声追跡機能を呼び出すための制御信号c4を映像生成部6へ送る。映像生成部6は撮影部Vが現在撮影している映像において映像中の追跡対象候補をハイライトさせながら映像表示部Gの透過スクリーンに表示する。図10の例では、3個の物体が追跡対象候補として表示されており、透過スクリーン左上に位置する物体が追跡対象候補としてハイライト表示されている。利用者がダイヤル操作部Dを回転させると、ダイヤル操作信号dが機能制御部3へ入力され、追跡対象候補を切り替えるための制御信号c4が映像生成部6へ送られる。利用者がダイヤル操作により所望の追跡対象候補を選択し、その状態でボタン操作部Bを押下すると、ボタン操作信号bが機能制御部3へ入力され、追跡対象を決定するための制御信号c1が目的音強調部7へ送られる。目的音強調部7は、制御信号c1に従って決定した追跡対象の音声追跡を開始する。以降、追跡対象が撮影部Vの画角に存在する限り、その追跡対象の方向から到来する音を強調した目的音強調信号ao2が出力される。音声追跡と音声ズームを組み合わせることにより、音声強調の倍率を指定することも可能である。利用者がダイヤル操作を行うことが困難な状況を想定して音声コマンド入力による追跡対象の選択も可能である。利用者が「右」「左」などを音声コマンド入力することで追跡対象候補を切り替えたり、画面上の座標を直接音声コマンド入力することにより追跡対象候補を選択したりする方法が考えられる。音声コマンド入力による追跡対象の選択を行うことで完全にハンズフリーでの操作が可能となる。
[第三実施形態]
第一実施形態および第二実施形態において、音声生成部4が外部雑音抑圧機能を備えるように構成してもよい。この場合、音声生成部4は、既存の収音部、前方収音部、もしくは専用の収音部を用いて放音部S周辺の環境雑音を取得し、その環境雑音を抑圧する信号を生成して出力音響信号asに加算することで環境雑音を抑圧する。このように構成することにより、騒音下で利用する場合に、放音部Sから出力される出力音響信号asが利用者にとってより聞き取りやすくなる効果がある。外部雑音抑圧処理は、公知のどのような方法を適用してもよく、例えば下記参考文献2に記載された雑音抑圧技術を用いることができる。
〔参考文献2〕特開平7−303135号公報
この発明の音声映像入出力装置のポイントは以下のとおりである。一点目は、一体型ヘルメットに目的音強調用の複数のマイクロホンを設置し、装着者の発話や周囲の音を容易に集音できるようにした点である。二点目は、装着されたカメラと複数のマイクロホンをコントロールする直観的なインターフェースとして透過スクリーンと、音声コマンド入力やダイヤル操作、ボタン操作の機能を備え、映像と音声のコントロールを直観的かつ効率的に行えるようにした点である。
この発明の音声映像入出力装置は、目的音強調機能を有しているため、高騒音環境下でも装着者の音声が明瞭に収音できる。その結果、装着者の意図を装置に伝える手段として音声コマンド入力を安定的に用いることができる。また、ダイヤルと透過スクリーンを具備したヘルメット一体型の装置とすることにより、マイクやカメラの撮影・収音について方向や強調率・倍率といったパラメータを直観的に操作することができるようになる。さらに、一体型とすることにより、装着者は両手をフリーにしながら、通信相手と現場の動画を共有しつつ、遠隔から指示を受けるなどの作業が可能となる。特に、高騒音の場所や工事現場など危険な場所で遠隔の指示者とやり取りをしながら、もしくは電子データを確認しながら作業を行う必要があるようなケースで、この発明の音声映像入出力装置を用いることで安全かつ正確、効率的に作業を行うことが可能となる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
M 収音部
S 放音部
V 撮影部
G 映像表示部
C 通信記録部
D ダイヤル操作部
B ボタン操作部
1 入力音声強調部
2 音声認識部
3 機能制御部
4 音声生成部
5 映像取得部
6 映像生成部
7 目的音強調部
C1 音声出力部
C2 音声入力部
C3 映像出力部
C4 映像入力部

Claims (2)

  1. 利用者の音声と環境雑音とを含む周囲の音を収音する複数の収音部と、
    上記利用者の視野に対応する領域を撮影する撮影部と、
    上記利用者の視野に入る位置に画面が配置された映像表示部と、
    回転操作に応じて回転方向および回転角度を示すダイヤル操作信号を出力するダイヤル操作部と、
    上記ダイヤル操作部の表面において回転軸の位置に配置され押下状態を示すボタン操作信号を出力するボタン操作部と、
    上記収音部を用いて取得した音響信号を音声認識して音声認識結果を生成する音声認識部と、
    上記撮影部を用いて映像信号を取得する映像取得部と、
    上記映像信号を用いて生成した出力映像信号を上記映像表示部へ出力する映像生成部と、
    上記ダイヤル操作信号、上記ボタン操作信号、および上記音声認識結果に基づいて、上記映像取得部、上記音声認識部、および上記映像生成部の機能を制御する制御信号を生成する機能制御部と、を含み、
    上記複数の収音部は、
    上記利用者の音声と上記環境雑音とを収音するために上記利用者の口元に配置された第一マイクロホンと、上記環境雑音のみを収音するために上記利用者の音声が届きにくい位置に配置された第二マイクロホンと、を含み、
    上記ダイヤル操作部と上記ボタン操作部とを交互に操作することで、上記映像表示部に表示された映像のうち音声ズームの対象とする座標および範囲を変更可能とし、さらに、
    上記機能制御部は、上記音声認識結果が音声追跡機能を呼び出すためのものであった場合、
    上記表示部に前記映像信号に含まれる複数の追跡対象候補をハイライト表示し、
    上記利用者の操作に基づく上記ダイヤル操作信号と上記ボタン操作信号若しくは上記利用者が発した音声コマンドに基づき上記追跡対象候補の選択を切り替え、選択された追跡対象候補を追跡対象とし、
    上記追跡対象が上記撮影部の画角に存在する限り、上記追跡対象として選択された方向から到来する音を、音声ズームの対象とし続ける
    音声映像入出力装置。
  2. 請求項1に記載の音声映像入出力装置であって、
    上記第二マイクロホンは、上記利用者を中心として上記利用者の視野に対応する方向と反対方向に配置され、
    上記複数の収音部は、上記利用者の視野に対応する方向から到来する音を収音するために上記撮影部の近傍に配置された第三マイクロホンをさらに含む、
    音声映像入出力装置。
JP2018190818A 2018-10-09 2018-10-09 音声映像追跡装置 Active JP6628853B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018190818A JP6628853B2 (ja) 2018-10-09 2018-10-09 音声映像追跡装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018190818A JP6628853B2 (ja) 2018-10-09 2018-10-09 音声映像追跡装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015088098A Division JP2016206960A (ja) 2015-04-23 2015-04-23 音声映像入出力装置

Publications (2)

Publication Number Publication Date
JP2019046482A true JP2019046482A (ja) 2019-03-22
JP6628853B2 JP6628853B2 (ja) 2020-01-15

Family

ID=65814522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018190818A Active JP6628853B2 (ja) 2018-10-09 2018-10-09 音声映像追跡装置

Country Status (1)

Country Link
JP (1) JP6628853B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696564A (zh) * 2020-06-05 2020-09-22 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN114040145A (zh) * 2021-11-20 2022-02-11 深圳市音络科技有限公司 一种视频会议人像显示方法、***、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005303574A (ja) * 2004-04-09 2005-10-27 Toshiba Corp 音声認識ヘッドセット
JP2006189730A (ja) * 2005-01-07 2006-07-20 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話装置
JP2007034942A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 情報処理装置及びそのプログラム
JP2009239349A (ja) * 2008-03-25 2009-10-15 Yamaha Corp 撮影装置
JP2011113179A (ja) * 2009-11-25 2011-06-09 Chugoku Electric Power Co Inc:The 検針用端末及び誤検針防止方法
JP2012029209A (ja) * 2010-07-27 2012-02-09 Hitachi Ltd 音処理システム
WO2014047402A1 (en) * 2012-09-20 2014-03-27 MUSC Foundation for Research and Development Head-mounted systems and methods for providing inspection, evaluation or assessment of an event or location

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005303574A (ja) * 2004-04-09 2005-10-27 Toshiba Corp 音声認識ヘッドセット
JP2006189730A (ja) * 2005-01-07 2006-07-20 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話装置
JP2007034942A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 情報処理装置及びそのプログラム
JP2009239349A (ja) * 2008-03-25 2009-10-15 Yamaha Corp 撮影装置
JP2011113179A (ja) * 2009-11-25 2011-06-09 Chugoku Electric Power Co Inc:The 検針用端末及び誤検針防止方法
JP2012029209A (ja) * 2010-07-27 2012-02-09 Hitachi Ltd 音処理システム
WO2014047402A1 (en) * 2012-09-20 2014-03-27 MUSC Foundation for Research and Development Head-mounted systems and methods for providing inspection, evaluation or assessment of an event or location

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696564A (zh) * 2020-06-05 2020-09-22 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN111696564B (zh) * 2020-06-05 2023-08-18 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN114040145A (zh) * 2021-11-20 2022-02-11 深圳市音络科技有限公司 一种视频会议人像显示方法、***、终端及存储介质
CN114040145B (zh) * 2021-11-20 2022-10-21 深圳市音络科技有限公司 一种视频会议人像显示方法、***、终端及存储介质

Also Published As

Publication number Publication date
JP6628853B2 (ja) 2020-01-15

Similar Documents

Publication Publication Date Title
US10318028B2 (en) Control device and storage medium
EP3163426B1 (en) System and method of controlling the same
US10217475B2 (en) Headset and method for controlling same
US11170580B2 (en) Information processing device, information processing method, and recording medium
US10757335B2 (en) Mobile terminal
KR20150133056A (ko) 이동 단말기 및 그것의 제어방법
KR20160006053A (ko) 글래스 타입 단말기 및 그것의 제어방법
KR20180040409A (ko) 이동 단말기 및 그 제어방법
CN109104662A (zh) 指令执行方法、操作响应方法、终端及耳机设备
KR20150131837A (ko) 이동 단말기 및 그것의 제어 방법
EP3617851A1 (en) Information processing device, information processing method, and recording medium
EP2950503A1 (en) Communication system, transfer control device, communication method, and computer program product
KR20160125674A (ko) 이동 단말기 및 그 제어 방법
JP6628853B2 (ja) 音声映像追跡装置
JP2012175136A (ja) カメラシステムおよびその制御方法
JP5929698B2 (ja) 通信システムおよびプログラム
KR20170055867A (ko) 이동단말기 및 그 제어방법
KR20160070529A (ko) 웨어러블 디바이스
KR20160019279A (ko) 이동단말기 및 그 제어방법
KR20160001229A (ko) 이동단말기 및 그 제어방법
CN111415421A (zh) 虚拟物体控制方法、装置、存储介质及增强现实设备
JP6308842B2 (ja) 表示システム及びプログラム
KR20160149066A (ko) 이동단말기 및 그 제어방법
US20210405686A1 (en) Information processing device and method for control thereof
WO2019138682A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191203

R150 Certificate of patent or registration of utility model

Ref document number: 6628853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150