JP7489928B2 - 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム - Google Patents

音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム Download PDF

Info

Publication number
JP7489928B2
JP7489928B2 JP2021016731A JP2021016731A JP7489928B2 JP 7489928 B2 JP7489928 B2 JP 7489928B2 JP 2021016731 A JP2021016731 A JP 2021016731A JP 2021016731 A JP2021016731 A JP 2021016731A JP 7489928 B2 JP7489928 B2 JP 7489928B2
Authority
JP
Japan
Prior art keywords
word
registered
information processing
processing device
operation command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021016731A
Other languages
English (en)
Other versions
JP2022119530A (ja
Inventor
亮太 池内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toa Corp
Original Assignee
Toa Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toa Corp filed Critical Toa Corp
Priority to JP2021016731A priority Critical patent/JP7489928B2/ja
Publication of JP2022119530A publication Critical patent/JP2022119530A/ja
Application granted granted Critical
Publication of JP7489928B2 publication Critical patent/JP7489928B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Selective Calling Equipment (AREA)

Description

本開示は、音声により機器の操作を実行するための情報処理装置、システム、機器制御装置、およびプログラムに関する。
施設内に設置された複数の監視カメラと、これらの監視カメラを遠隔操作する操作装置と、監視カメラによる映像信号を出力表示するモニター装置とを備えた監視システムが知られている(例えば、特許文献1を参照)。同監視システムでは、ユーザーが監視すべき撮像対象の設備の名称を音声情報入力部に言語情報として入力すると、音声認識部がその言語情報を認識する。制御部は、認識された言語情報に基づいて、撮像対象を特定して対応するカメラの操作を実行する。
特開平09-083997号公報
特許文献1における監視システムは、設備の名称と同設備を撮像する監視カメラの番号とが対応付けられたテーブルデータを保持し、ユーザーは設備名を音声で入力することにより、対応する監視カメラの操作を実行できる。
しかし、ユーザーは、言い間違いや失念等により操作対象機器の名称を正確に発話するとは限らない。また、音声認識エンジンが入力音声を誤認識する可能性もある。かかる場合、認識された音声から操作対象機器を特定できず、操作不良や誤操作をする可能性がある。
上述した観点に鑑み、本開示の目的は、音声による操作対象機器をより正確に特定するのに有効な情報処理装置、システム、機器制御装置、およびプログラムを提供することである。
上記課題を解決するため、本開示の一の観点によれば、情報処理装置は、一つ以上の機器に関する操作を実行する機器制御装置と通信可能な情報処理装置であって、音声入力を受け付ける音声入力部と、音声入力部により受け付けられた音声を認識して、認識した音声に基づき一つ以上の機器に関する操作を実行するための操作コマンドを生成する制御部と、操作コマンドを機器制御装置に送信する通信部と、制御部による制御に応じて情報を出力する出力部と、を備える。機器制御装置に操作コマンドを送信する前に、制御部は、予め機器制御装置から取得される一つ以上の機器を特定する登録ワードを、出力部に出力させる。
本開示の他の観点によれば、システムは、情報処理装置と機器制御装置とを含み、機器制御装置は、一つ以上の機器を個別に識別するための名称の入力を受け付ける入力部と、入力部により入力された名称を登録ワードとして記憶する記憶部と、情報処理装置から送信された操作コマンドと登録ワードに基づいて一つ以上の機器のうち操作すべき機器を特定し、特定した機器を操作する制御部とを備える。機器制御装置は、情報処理装置が操作コマンドを送信する前に、登録ワードを情報処理装置に送信し、情報処理装置は、受信した登録ワードを出力部に出力させる。
本開示の他の観点によれば、機器制御装置は、一つ以上の機器を個別に識別する名称を登録ワードとして記憶する記憶部と、音声入力部を有する情報処理装置と通信するための通信部と、情報処理装置から音声入力部を介して入力されて認識された音声に基づき生成された操作コマンドと登録ワードとに基づき、一つ以上の機器のうち操作すべき機器を特定し、特定した機器を操作する制御部とを備える。機器制御装置は、登録ワードが情報処理装置に出力されるように、登録ワードを情報処理装置に送信する。
本開示の他の観点によれば、コンピュータープログラムは、一つ以上の機器に関する操作を実行する機器制御装置と通信し、音声により機器を操作するためのコンピュータープログラムであって、音声入力を受け付け、受け付けられた音声を認識し、認識した音声に基づき一つ以上の機器に関する操作を実行するための操作コマンドを生成し、操作コマンドを機器制御装置に送信することを含み、機器制御装置に操作コマンドを送信する前に、予め機器制御装置から取得される一つ以上の機器を特定する登録ワードを出力部により出力させる。
本開示に係る情報処理装置、システム、機器制御装置、およびプログラムは、音声による操作対象機器をより正確に特定するのに有効である。
図1は、実施の形態に係る情報処理装置を含むシステムの構成を示す。 図2は、実施の形態に係る情報処理装置の構成を示す。 図3は、実施の形態に係る機器制御装置の構成を示す。 図4Aは、実施の形態における操作コマンドの構成例を示す。 図4Bは、実施の形態における定型命令語の例を示す。 図4Cは、実施の形態における登録ワードの例を示す。 図4Dは、実施の形態における辞書ワードの例を示す。 図5は、実施の形態に係る情報処理装置の動作を示すフローチャートである。 図6は、図5の辞書ワード更新処理を示すフローチャートである。 図7は、実施の形態に係る機器制御装置の動作を示すフローチャートである。 図8は、実施の形態に係る情報処理装置の出力画面の例を示す。 図9は、その他実施の形態に係る情報処理装置を含むシステムの構成を示す。
1.実施の形態
近年、音声認識エンジンやスマートスピーカーの開発により音声入力により機器の操作を行うことが増えつつある。しかし、施設内に複数配された機器を操作対象とする場合、次のような問題が生じる。
複数の機器を操作対象とするシステムでは、個々の機器を識別するためにユーザーが任意で各機器に名称を登録し、この名称を指定して機器の操作を行うことがある。例えば、複数の監視カメラが接続され、各カメラの映像を出力することが可能なレコーダーにおいて、ユーザーはレコーダーの入力手段(マウスやキーボード)を用いて接続された各カメラの名称を登録することができる。例えば、ユーザーは、施設内で各カメラが設置されている場所に応じて各カメラに名称を登録できる。ショッピングモール等の施設を想定すると、例えば、駐車場に設置されているカメラには「駐車場カメラ」と名称を登録し、複数あるエントランスのうち南側のエントランスに設定されているカメラに「南エントランスカメラ」と名称を登録する具合である。レコーダーは、このように登録された各カメラ固有の名称と対応するカメラとを関連付けて記憶しておくことで、ユーザーから設定されたカメラ名称を指定する入力操作を受けて、対応するカメラの操作を行うことができる。カメラの操作とは、例えば、レコーダーがカメラに対して映像送信の要求メッセージを送信し、当該カメラから撮像映像を受信して再生することを含む。
このように複数の機器を操作対象として個々の機器を識別する名称を任意に登録できるシステムに対し、音声入力による操作を実現しようした場合、登録された名称が正確に入力されず操作が正確に行えない恐れがある。すなわち、ユーザーは、複数の機器にそれぞれ登録される名称(登録ワード)を利用して操作対象機器を操作するための音声を入力する際、登録ワードを正確に覚えていないことがある。また、登録ワードを登録したユーザーと音声を入力して機器を操作するユーザーが同じとは限らないため、ユーザーがそもそも登録ワードを知らない場合もある。登録ワードが正確にわからないと正しい操作コマンドが生成できず、操作不良や誤操作が起きてしまう。そこで、本実施の形態においては、音声による操作対象機器をより正確に特定することができる情報処理装置およびプログラムを提供する。
図1は、本実施の形態に係るシステム1を示す。システム1は、情報処理装置10と機器制御装置30とを備える。ユーザーは、端末装置である情報処理装置10を操作して、複数の監視カメラ50のうち指定した監視カメラ50の映像(音声を含む)の表示や再生等の操作を実行する。
情報処理装置10は、無線または有線LAN、WAN、インターネット等を介して機器制御装置30と通信可能に接続される。施設に設置された機器制御装置30は、施設内の各箇所を撮影する複数の監視カメラ50に有線または無線のチャンネルを介して接続される。
以下、本実施の形態における各装置の構成について説明する。
1-1.構成
1-1-1.情報処理装置10の構成
図2は、情報処理装置10の主なハードウエア構成を示す。情報処理装置10は、例えばスマートフォンやタブレット端末等、ユーザーが操作可能な携帯端末である。情報処理装置10は、制御部11と、RAM12と、ROM13と、ストレージ14と、マイク15と、表示部16と、操作部17と、スピーカー18と、通信部19とを備える。各部は、バスラインBを介して相互に接続される。
制御部11(制御部の一例)は、CPU(Central Processing Unit)により構成され、ROM13やストレージ14に格納されたプログラムやデータをRAM12上に読み出し、処理を実行することにより、情報処理装置10の各機能を実現する。RAM12は、制御部11のワークエリア等として用いられる揮発性のメモリである。ROM13は、電源を切ってもプログラムやデータを保持することができる不揮発性のメモリである。
ストレージ14は、例えばフラッシュメモリである。ストレージ14は、例えば、後述するアプリ11aを含むアプリケーションプログラム、および各種データ等を記憶する。ストレージ14はまた、アプリ11aに関連付けて記憶される定型命令語61(図4B)を記憶すると共に、後述するように、辞書ワード63(図4D)を記憶する。ストレージ14は更に、後述するように、接続される機器制御装置30から取得される登録ワード62(図4C)を少なくとも一時的に記憶する。
定型命令語61は、図4Bに示すように、接続される機器制御装置30において定義された、動作に対応する命令語である。なお、一つの動作に対し複数の定型命令語61が定義されていてもよい。例えば、映像出力の停止を指令する定型命令語61として「止めて」および「停止して」の双方を登録してもよい。登録ワード62は、図4Cに示すように、接続される機器制御装置30に接続された各監視カメラ50を特定する名称であって、情報処理装置10を介すことなく(例えば、機器制御装置30に備わる入力手段を介して)ユーザーにより任意に登録される名称である。なお、一つの監視カメラ50に対し複数の名称が登録されていてもよい。辞書ワード63は、図4Dに示すように、ユーザーの音声入力によって認識されたワードであって登録ワードと一致しなかったワードを、登録ワードに対応させて記憶したものである。なお、後述するように、辞書ワードは、ユーザーの音声入力に応じて、一つの登録ワードに対し1つ以上登録され、更新される。
マイク15(音声入力部の一例)は、音声を入力する。表示部16(出力部の一例)は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等の表示装置である。操作部17は、例えば、タッチパネルおよび操作ボタンを備える。タッチパネルは、抵抗膜方式や静電容量方式等のタッチセンサを含み、表示部16のディスプレイに重ねて配置され、ユーザーが画面に表示されるボタンやアイコン、キーボードに触れることで各種操作を行うことができる。操作ボタンは、情報処理装置10の表面や側面等に配置され、操作により電源のON/OFFや画面の表示を行う。スピーカー18は、音声データを出力する。
通信部19は、データ通信するためのインターフェースであり、例えば、有線LANや無線LANの通信インターフェースである。通信部19は、有線LAN、3G(3rd Generation)、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation)、ミリ波無線通信の通信インターフェースを備えていてもよい。
情報処理装置10と所定の機器制御装置30との通信が遠隔で行われる場合、当該通信は、VPN機能等に対応した中継器を介することにより行われてもよい。この場合、例えば、アプリ11aを起動して通信を確立する際に、中継器がユーザー認証を実行し、所定の機器制御装置30への接続のみが許可されるようにしてもよい。
制御部11は、アプリ11a(プログラムの一例)を含むコンピュータープログラムを実行することにより、以下の機器操作のための情報処理を実行する。
制御部11は、アプリ11aを起動後、通信部19を介して機器制御装置30との通信を確立し、接続される機器制御装置30より、登録ワードのリスト(図4C)を取得する。
制御部11は、マイク15から入力された音声に対し音声認識を行う。音声認識は、公知の音声認識エンジンやその他音声認識機能を用いて行われる。音声認識は、入力された音声に対し所定の信号処理を行って音声信号を取得し、同音声信号における音素を特定し、特定した音素の配列と予め登録された単語とをマッチングし、マッチングが成功した単語をテキストに変換する。変換したテキストは、各属性(本実施の形態においては「命令語」と「目的語」)に応じて分類され、認識される。より具体的には、機器の動作に対応する命令語と、操作対象に対応する目的語(指定ワード)とに分類される。
制御部11は、後述するように、指定ワードと登録ワード(図4C)とを照合する。制御部11は、指定ワードと登録ワードとが一致した場合、図4Aの例に示すような構成を有する操作コマンド60を生成する。制御部11は、指定ワードと登録ワードとが一致しない場合、指定ワードと辞書ワードとを照合する。指定ワードと辞書ワードとが一致した場合、辞書ワードを対応する登録ワードに基づき操作コマンドを生成する。制御部11は、指定ワードが登録ワードおよび辞書ワードのいずれにも一致しない場合、後述する辞書ワード更新処理を実行する。
制御部11は、生成した操作コマンドを、接続される機器制御装置30に通信部19を介して送信する。これにより、機器制御装置30において、操作コマンドで指定された監視カメラ50に関する操作が実行される。
1-1-2.機器制御装置30の構成
図3に示す機器制御装置30は、制御部31と、RAM32と、ROM33と、ストレージ34と、機器接続部35と、入力部36と、表示部37と、通信部39とを備えるコンピューター装置である。各部は、バスラインBを介して相互に接続される。機器制御装置30は、監視カメラ50の撮像映像を出力したり記録したりするレコーダーとして機能する。
制御部31は、CPU(Central Processing Unit)により構成され、ROM33やストレージ34に格納されたプログラムやデータをRAM32上に読み出し、処理を実行することにより、機器制御装置30の各機能を実現する。RAM32は、制御部31のワークエリア等として用いられる揮発性のメモリである。ROM33は、電源を切ってもプログラムやデータを保持することができる不揮発性のメモリである。制御部31は、所定のプログラムに従って、情報処理装置10から受信する操作コマンド60(図4A)を解析し、目的語や命令語を解釈して、操作コマンド60に対応する操作を実行する。
入力部36は、ユーザーの入力操作を受け付ける。入力部36は、例えば操作ボタン等を含み、マウスやキーボードを含む。入力部36は、タッチパネルであってもよい。
表示部37は、LCDや有機ELディスプレイ等の表示装置である。表示部37は、接続端子を介して接続される外部モニターであってもよい。表示部37には、後述するように、操作コマンド60に応じてライブ映像や録画映像が表示される。
ストレージ34は、例えば、SSD(Solid State Drive)やSDメモリカード等のフラッシュメモリや、HDD等により構成される。なお、ストレージ34は、別体の機器として機器制御装置30に接続されていてもよい。ストレージ34は、例えば、プログラム、および各種データ等を記憶する。特に、ストレージ34は、各監視カメラ50から受信した映像を映像データ34aとして、監視カメラ50の識別情報毎に記録する。すなわち、映像データ34aは、監視カメラ50から受信した、監視カメラ50が過去に撮影した映像である。ストレージ34はまた、各監視カメラ50の名称である登録ワード34bを記憶する。登録ワード34bは、入力部36を介した入力操作によってユーザーが監視カメラ50に対して任意に登録したワードである。
機器接続部35は、監視カメラ50に接続する接続端子を含み、監視カメラ50とはケーブルを介して接続される。機器接続部35はまた、モニターやPC等との接続端子を備えていてもよい。
通信部39は、ネットワークを介して、データ通信するためのインターフェースであり、例えば、無線または有線LANの通信インターフェースである。
1-2.動作
1-2-1.情報処理装置10の動作
図5を参照しながら、本実施の形態に係る情報処理装置10(図2)の動作について説明する。以下の動作においては、ユーザーは、「1階北側駐車場」(登録ワード)として登録された監視カメラ50のライブ映像を見る操作を行う場合を例とする。
ユーザーによる操作部17の操作により、アプリ11aが起動され(S101)、所定の機器制御装置30との通信が確立される。通信確立後、接続される機器制御装置30より、登録ワードのリストを受信し(S102)、ストレージ14に記憶する。
アプリ11aはリモコンモードに移行し、制御部11は、図8の画面16aに示すように、音声入力を促すメッセージを表示部16に表示させる。更に、画面16aでは、操作の内容に応じて、ユーザーがどのように発話するかをガイドするメッセージが表示される。図8に示すように、制御部11は、画面16aに操作コマンドを構成する定型命令語61「見せて」「再生して」を表示させ、ユーザーの音声入力を助ける。ここで、ユーザーは、「北側1階駐車場を見せて」と発話し、マイク15より音声が入力される(S103)。
制御部11は、発話に対し音声が認識できた場合(S104のYes)、変換されたテキストから目的語と命令語とを抽出し、少なくとも一時的にRAM12又はストレージ14に記憶する。このとき、制御部11は、目的語を指定ワードとして記憶する。制御部11は、変換されたテキストにおいて定型命令語61(図4B)があるかどうか、すなわち、抽出した命令語と定型命令語61とが一致するか判定する(S105)。ここでは、「見せて」が含まれるため、定型命令語61があると判定される(S105のYes)。
制御部11は、変換されたテキストにおいて、登録ワードがあるかどうか、すなわち指定ワードと登録ワードが一致するか判定する(S106)。ここでは、指定ワード「北側1階駐車場」が含まれるが、一致する登録ワード62(図4C)がないため(S106のNo)、制御部11は、ステップS107に進む。なお、変換されたテキストにおいて指定ワードと一致する登録ワードがある場合(S106のYes)、制御部11は、ステップS105で判定した定型命令語61と、一致した登録ワードとに基づき、操作コマンド「1階北側駐車場を見せて」を生成し、接続される機器制御装置30に送信する(S109)。
ステップS107において、制御部11は、辞書ワード63(図4D)を参照して、指定ワードと一致するものがあるかどうか判定する。ここでは、指定ワード「北側1階駐車場」が辞書ワードにあり、これに対応する登録ワードが「1階北側駐車場」であるので(S107のYes)、ステップS109に進む。なお、指定ワードと一致する辞書ワードがない場合(S107のNo)、制御部11は、後述する辞書ワード更新処理(S108)に進む。
制御部11は、ステップS105で判定した定型命令語61と、ステップS107で判定した、指定ワードに対応する登録ワードとに基づき、操作コマンド「1階北側駐車場を見せて」を生成し、接続される機器制御装置30に送信する(S109)。これにより、機器制御装置30は、表示部37において、1階北側駐車場の映像を表示する。
ステップS104において音声が認識できなかった場合、あるいはステップS105において定型命令語61が判定できなかった場合、制御部11は表示部16にエラーを表示する(S110)。エラー表示は、音声が認識できなかった旨のメッセージに加え、ユーザーに対し音声入力のやり直しや、操作部17(タッチパネルのキーボード)によるテキスト入力を促す旨のメッセージを含んでいてもよい。
制御部11は、アプリ11aの終了や通信の終了等により処理を終了し、接続される機器制御装置30に関する操作が引き続き行われる場合はステップS103の音声入力に戻る(S111)。
なお、ユーザーが更に音声入力をした場合(S103)、例えば「止めて」と発話した場合、制御部11は、ステップS104~S105の処理を実行する。ステップS105において定型命令語61を判定すると、制御部11は、ステップS109に進み、操作コマンド「(1階北側駐車場を)止めて」を生成し、接続される機器制御装置30に送信し、表示部37における当該映像の表示を停止させる。同様に、ライブ映像を出力させている間に、監視カメラ50に対する駆動を指示する命令語(例えば、パン、チルト、ズーム等)を入力して、操作コマンドを生成し、実行してもよい。
<辞書ワード更新処理>
図5のステップS107において指定ワードと一致する辞書ワードがない場合、制御部11は、図6に示す辞書ワード更新処理を実行する。以下、上述した指定ワード「北側1階駐車場」が、辞書ワードと一致しない場合を例にして説明する。
制御部11は、接続される機器制御装置30より取得した登録ワードのリストを表示部16に表示させる(S1081)。このとき、制御部11は、図8の画面16bに示すように、指定ワード「北側1階駐車場」が一致しない旨のメッセージと、接続される機器制御装置30より取得した登録ワードを表示部16に表示させる。
制御部11は、登録ワードが複数ある場合は、その全てを表示部16に表示させる。あるいは、制御部11は、複数の登録ワードから、指定ワードと類似する登録ワードを選択して表示部16に表示させてもよい。ワード間の類似度は、例えば、公知のマッチング手法により、重複する単語の数や、各単語に対して設定される重みづけ等に基づいて判定される。制御部11は、指定ワードと所定レベル以上の類似度を有する登録ワードを選択する。例えば、「北側1階駐車場」の場合、「駐車場」を含む登録ワードを選択して表示してもよいし、図8の画面16bのように「北側」と「駐車場」とを含む登録ワードを表示してもよい。
表示された登録ワードの中から、ユーザーが操作部17を介した操作により登録ワードを選択入力すると(S1082のYes)、制御部11は、図8の画面16cに示すように、指定ワードを辞書ワードとして登録することの確認入力をユーザーに促すメッセージを表示部16に表示させる。ユーザーが確認入力すると、制御部11は、指定ワードを選択された登録ワードに対応づけた辞書ワードを記憶する(S1083)。
次いで、制御部11は、図5のステップS109に進み、操作コマンドを生成し、接続される機器制御装置30に送信する。この場合、制御部11は、ステップS105で判定した定型命令語61と、ステップS1082において選択された登録ワードとに基づき、操作コマンド「1階北側駐車場を見せて」を生成する。
なお、登録ワードが選択されなかった場合、制御部11は表示部16にエラーを表示する(S1084)。エラー表示は、操作対象の監視カメラ50が特定できなかった旨のメッセージに加え、ユーザーに対し音声入力のやり直しや、操作部17を介したテキスト入力を促すメッセージを含んでいてもよい。
1-2-2.機器制御装置30の動作
図7を参照しながら、本実施の形態に係る機器制御装置30(図3)の動作について説明する。
機器制御装置30は、適時、接続された監視カメラ50を識別するための登録ワードの入力を受け付ける。制御部31は、入力部36を介してテキスト入力を受け付け、入力されたテキストを登録ワード34bとして対応する監視カメラ50に関連付けてストレージ34に記憶する。登録ワード34bは、対応する監視カメラ50を操作するために監視カメラ50を指定するための識別子と対応付けて記憶される。識別子は例えば、IPアドレスを含む。
機器制御装置30は、情報処理装置10から送信される操作コマンドを受信し、受信した操作コマンドに対応して監視カメラ50を操作するよう構成されている。具体的には、例えば、操作コマンドに含まれる命令語と対応付けて所定の操作が定義されており、操作コマンドに含まれる目的語により操作対象となる監視カメラ50を特定するようになっている。例えば、命令語「見せて」に対応する操作としてライブ映像の出力が定義され、命令語「再生して」に対応する操作としてストレージ34に記憶されている過去の映像(映像データ34a)の出力が定義され、命令語「止めて」に対応する操作として現在実行中の映像出力を停止することが定義されている。また、受信した操作コマンドに含まれる目的語に一致する登録ワード34bを特定し、特定した登録ワード34bと対応付けられた監視カメラ50に対して操作を行う。例えば、操作コマンド「1階北側駐車場を見せて」を受信した場合、機器制御装置30は、目的語「1階北側駐車場」と一致する登録ワード34bと対応付けられた監視カメラ50に対し、撮像映像を要求する要求メッセージを送信し、これに応答して送信される撮像映像を受信して出力することで、この監視カメラ50のライブ映像の表示を実行する。また例えば、操作コマンド「2階北側駐車場を再生して」を受信した場合、機器制御装置30は、目的語「2階北側駐車場」と一致する登録ワード34bと対応付けられた監視カメラ50と対応付けられて記憶されている映像データ34aを読み出して出力することで、この監視カメラ50が過去撮影した映像の再生を実行する。また例えば、ライブ映像の表示中又は映像データ34aの再生中に、操作コマンド「止めて」を受信した場合、機器制御装置30は、実行中のライブ映像の表示又は映像データ34aの再生を停止する。機器制御装置30は、映像を、表示部37に表示させてもよいし、通信部39を介して情報処理装置10に送信して表示させてもよい。
図7に示すように、情報処理装置10からの通信開始要求に応じて、制御部31は、通信部39を介して情報処理装置10との通信を開始し、予めストレージ34に記憶した登録ワードのリストを情報処理装置10に送信する(S131)。情報処理装置10から操作コマンドを受信すると(S132のYes)、操作コマンド(例えば、「1階北側駐車場を見せて」)に含まれる命令語と目的語を解析する(S133)。制御部31は、解析した目的語と登録ワード62(図4C)とを照合し(S134)、対応する監視カメラ50を特定する。
制御部31は、特定された監視カメラ50に関する操作コマンドを実行する(S135)。その結果を通信部39を介して接続される情報処理装置10に送信する(S136)。
接続される情報処理装置10との通信の終了に応じて処理を終了する(S137)。接続される情報処理装置10より更に操作コマンドを受信した場合(S132のYes)、例えば「(1階北側駐車場を)止めて」とする停止コマンドを受信した場合、出力中の映像を停止する。同様に、ライブ映像を出力している間に、監視カメラ50に対する駆動を指示する命令語(例えば、パン、チルト、ズーム等)を含む操作コマンドを受信することにより、当該監視カメラ50に対する駆動を実行してもよい。
1-3.補足
機器制御装置30による登録ワードの送信(S131)と情報処理装置10による登録ワードの受信(S102)は、両者の通信確立後、登録ワードリストを表示する(S1081)ために種々のタイミング、態様で実行されうる。例えば、情報処理装置10が機器制御装置30に対して登録ワードの要求メッセージを送信し、これに応答して機器制御装置30が情報処理装置10に対して登録ワード34bのリストを含むメッセージを送信(S131)してもよい。また例えば、機器制御装置30は、情報処理装置10からの明示的な要求に依らず、自発的に登録ワード34bのリストを含むメッセージを送信(S131)してもよい。例えば、機器制御装置30と情報処理装置10とが通信を確立したことに応答して登録ワードの送受信(S131、S102)が実行されてもよい。また例えば、音声入力時(S103~S105)に登録ワードの送受信(S131、S102)が実行されてもよい。この場合、情報処理装置10は、マイク15から入力された音声を認識してテキストを抽出する間(S103~S105)に、機器制御装置30に登録ワードの要求メッセージを送信し、機器制御装置30は、この要求メッセージに応答して登録ワード34bのリストを含むメッセージを送信する。
情報処理装置10は、RAM12又はストレージ14に一時的に記憶した指定ワードを所定のタイミングで消去するようにしてもよい。例えば、情報処理装置10は、指定ワードと登録ワードが一致した場合(S106:YES)、又は指定ワードを辞書ワードに登録した場合(S1083)、指定ワードは不要となるため、これらに応答して指定ワードを消去するとよい。
1-4.特徴
本実施の形態に係る情報処理装置10またはアプリ11aは、機器制御装置30に操作コマンドを送信する前に、予め機器制御装置30から取得される登録ワードを表示部16に表示させる。このため、音声入力の補助を効果的に提供することができ、音声による操作対象機器をより正確に特定することができる。また、本実施の形態に係る情報処理装置10またはアプリ11aは、機器制御装置30を含む機器側において機能の追加や変更を最小限に留めつつ実現できる。
本実施の形態に係る情報処理装置10、システム1、機器制御装置30、またはアプリ11aによれば、認識した音声に含まれる監視カメラ50を指定する指定ワードと、登録ワードとが一致しなかった場合に、登録ワードを表示部16に表示させる。このため、音声入力を補助するための登録ワードの表示は、ユーザーが監視カメラ50の名称を言い間違えた場合や失念した場合等音声入力がうまくいかない場合に行われるため、ニーズに応じた音声入力の補助を提供することができる。
本実施の形態に係る情報処理装置10、システム1、機器制御装置30、またはアプリ11aによれば、登録ワードは、複数の監視カメラ50をそれぞれ特定する複数の登録ワードを含み、複数の登録ワードのうち、指定ワードと所定レベル以上の類似度を有する登録ワードを判定し、判定された登録ワードを表示部16に出力させる。このため、音声入力を補助するために表示される登録ワードは、ユーザーが操作対象とする可能性の高い監視カメラ50の登録ワードとなるため、操作対象機器の特定を迅速に行うことができる。
本実施の形態に係る情報処理装置10、システム1、機器制御装置30、またはアプリ11aによれば、指定ワードが登録ワードと一致しなかった場合、指定ワードと登録ワードとを対応づけて辞書ワードとしてストレージ14に記憶し、次にその指定ワードを含む音声が認識された場合は、指定ワードに対応する登録ワードに基づき操作コマンドを生成する。このため、ユーザーは、言い間違えや失念した場合であっても、言いやすい名称を監視カメラ50の登録ワードとして実質的に増やしていくことができ、情報処理装置10またはアプリ11aを使用しながら音声による操作対象機器の特定の精度を向上させることができる。
1-5.変形例
上記実施の形態において、一例として、ユーザーが所望する監視カメラ50のライブ映像の受信や停止を行う操作コマンドを例にしているが、これに限定されない。例えば、所望の監視カメラ50に関して、録画映像の再生、停止、早送り、巻き戻し等の操作を実行することもできる。この場合、操作コマンド(例えば、「1階北側駐車場を再生して」)を受信した機器制御装置30は、同様に操作コマンドを解析し、登録ワードを照合した後(図7のステップS131~S134)、特定された監視カメラ50のストレージ34に記憶された録画映像を情報処理装置10に送信することにより、操作コマンドを実行する。
2.その他実施の形態
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略等を行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。例えば、以下の実施の形態が考えられる。
(1)上記実施の形態における情報処理装置10は、図9に示すように、クライアント端末10aと、インターネット等のネットワークを介して接続されるサーバー10bとから構成され、機器制御装置30に接続されてもよい。サーバー10bは、CPU等の制御部、RAMやROM等のメモリ、ストレージを備えるコンピューター装置である。この場合、上述した情報処理装置10の機能をサーバー10bが実行してもよい。例えば、図5におけるステップS104~S109の処理を実行するアプリ11aの機能全てまたはその一部をサーバー10bで実行するようにしてもよい。また、サーバー10bは、上述した情報処理装置10のストレージ14に記憶する辞書ワードを、自身に接続されるストレージに記憶、保持してもよい。またサーバー10bは、機器制御装置30がストレージ34に記憶する各監視カメラ50の映像データ34aや登録ワード34bを、自身に接続されるストレージに記憶し、保持してもよい。
更に、サーバー10bは複数の施設の機器制御装置30および監視カメラ50を管理する装置であってもよい。この場合、サーバー10bは、接続されるクライアント端末10aに対し所定のユーザー認証を行い、所定の機器制御装置30に関する操作を許可する。
上述した情報処理装置10またはクライアント端末10a/サーバー10bまたは機器制御装置30の一部または全ては、一つの機能を有線または無線のネットワークを介して複数の装置で分担、共同して処理する構成をとることができる。また、クライアント端末10aおよびサーバー10bは、クラウドコンピューティングの構成をとることも可能である。
(2)機器制御装置30は、機器と別体で接続される形態であってもよいが、機器と同一筐体において接続されるものであってもよい。
(3)操作対象機器は監視カメラ50に限られず、様々な電子機器が操作対象機器となりうる。例えば、構内放送システムにおける複数のスピーカーが操作対象機器となりうる。この場合、機器制御装置30は、構内放送ステムにおいて放送先としてスピーカーを選択し、選択したスピーカーに放送用の音声信号を送信する操作を行うよう構成されているとよい。例えば、操作コマンドに含まれる命令語「放送して」に対応する操作として放送用の音声信号を送信する操作が定義され、操作コマンドに含まれる目的語により音声信号の送信先であるスピーカーを特定するようになっている。登録ワード34bは、各スピーカーの名称として登録された登録ワードである。
同様に、スピーカーの場合、音量の調整、音質の調整等の操作を定義した操作コマンドを情報処理装置10に入力して、特定されたスピーカーの操作を実行してもよい。また同様に、操作対象機器がマイクの場合、マイクで集音されるライブ音声を機器制御装置30または情報処理装置10から出力したり、マイクに接続されるレコーダーからの録音音声を再生したりすることができる。
(4)操作コマンドにより実行された操作結果の送信または出力は、表示部37または表示部16による表示に加えてまたは表示に代えて、スピーカー18(図2)や機器制御装置30に接続されるスピーカー(図示省略)などを介して音声で行ってもよい(出力部の一例)。
(5)情報処理装置10の制御部11および/または機器制御装置30の制御部31は、CPU以外の、MPU、GPU、DSP、FPGA、ASIC等の種々のプロセッサで実現してもよい。プロセッサは、一つまたは複数のプロセッサで構成してもよい。これらの制御部の一部または全ては、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。
(6)図5、図6および図7に示すフローチャートの処理の実行順序は、必ずしも、上記実施の形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えたり、並行して実行されたりすることができる。更に、一つのステップに複数の処理が含まれる場合には、その一つのステップに含まれる複数の処理は、一つの装置で実行する他、複数の装置で分担して実行することができる。
(7)上記実施の形態における機器の操作を実行する方法、および同方法を実行するアプリ11aを含むコンピュータープログラム、および同コンピュータープログラムを記録したコンピューター読み取り可能な記録媒体は、本開示の範囲に含まれる。コンピュータープログラムは電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して取得され、あるいは実行されるものであってもよい。
(8)情報処理装置10またはクライアント端末10aは、デスクトップ型、ラップトップ型、タブレット型等のコンピューター端末であってもよい。
(9)監視カメラ50等の操作対象機器は、施設に設置されるものに限定されず、電車、バス等の交通機関、道路等に設置される機器であってもよい。
本開示は、音声により機器を操作するための情報処理装置、システム、機器制御装置およびプログラムとして適用可能である。
1 :システム
10 :情報処理装置
10a :クライアント端末
10b :サーバー
11 :制御部
11a :アプリ
12 :RAM
13 :ROM
14 :ストレージ
15 :マイク
16 :表示部
17 :操作部
18 :スピーカー
19 :通信部
30 :機器制御装置
31 :制御部
32 :RAM
33 :ROM
34 :ストレージ
35 :機器接続部
39 :通信部
50 :監視カメラ

Claims (8)

  1. 一つ以上の機器に関する操作を実行する機器制御装置と通信可能な情報処理装置を含むシステムであって、
    前記情報処理装置は、音声入力を受け付ける音声入力部を備え、
    前記情報処理装置は、前記音声入力部により受け付けられた音声を認識して、認識した音声に基づき一つ以上の機器に関する操作を実行するための操作コマンドを生成する制御部を備え、
    前記情報処理装置は、前記操作コマンドを前記機器制御装置に送信する通信部を備え、
    前記情報処理装置は、前記制御部による制御に応じて情報を出力する出力部を備え、
    前記機器制御装置は、前記一つ以上の機器を個別に識別するための名称の入力を受け付ける入力部を備え、
    前記機器制御装置は、前記入力部により入力された名称を登録ワードとして記憶する記憶部を備え、
    前記機器制御装置は、前記情報処理装置から送信された前記操作コマンドと前記登録ワードに基づいて前記一つ以上の機器のうち操作すべき機器を特定し、特定した機器を操作する制御部を備え、
    前記機器制御装置は、前記情報処理装置が前記操作コマンドを送信する前に、前記登録ワードを前記情報処理装置に送信し、前記情報処理装置は、受信した前記登録ワードを前記出力部に出力させ
    前記情報処理装置は、前記登録ワードと対応付けられた辞書ワードを記憶する記憶部を備え、
    前記情報処理装置は、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードとが一致した場合は、前記指定ワードに基づき前記操作コマンドを生成し、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと前記登録ワードが一致しないが、前記指定ワードと前記辞書ワードとが一致する場合は、前記辞書ワードに対応付けられた登録ワードに基づき前記操作コマンドを生成し、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードおよび辞書ワードのいずれとも一致しない場合は、前記登録ワードを選択可能に前記出力部に出力させて、選択された前記登録ワードに基づき前記操作コマンドを生成するとともに、前記指定ワードと選択された前記登録ワードとを対応付けて前記辞書ワードを記憶する、
    システム。
  2. 一つ以上の機器に関する操作を実行する機器制御装置と通信可能な情報処理装置であって、
    音声入力を受け付ける音声入力部と、
    前記音声入力部により受け付けられた音声を認識して、認識した音声に基づき一つ以上の機器に関する操作を実行するための操作コマンドを生成する制御部と、
    前記操作コマンドを前記機器制御装置に送信する通信部と、
    前記制御部による制御に応じて情報を出力する出力部と、
    前記機器制御装置から取得される前記一つ以上の機器を特定する登録ワードと対応付けられた辞書ワードを記憶する記憶部と、
    を備え、
    前記機器制御装置に前記操作コマンドを送信する前に、前記制御部は、前記登録ワードを前記出力部に出力させ、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードとが一致した場合は、前記指定ワードに基づき前記操作コマンドを生成し、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと前記登録ワードが一致しないが、前記指定ワードと前記辞書ワードとが一致する場合は、前記辞書ワードに対応付けられた登録ワードに基づき前記操作コマンドを生成し、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードおよび辞書ワードのいずれとも一致しない場合は、前記登録ワードを選択可能に前記出力部に出力させて、選択された前記登録ワードに基づき前記操作コマンドを生成するとともに、前記指定ワードと選択された前記登録ワードとを対応付けて前記辞書ワードを記憶する、
    情報処理装置。
  3. 前記制御部は、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードとが一致しなかった場合に、前記登録ワードを前記出力部に出力させる、請求項2に記載の情報処理装置。
  4. 前記登録ワードは、複数の機器をそれぞれ特定する複数の登録ワードを含み、
    前記制御部は、前記複数の登録ワードのうち、前記指定ワードと所定レベル以上の類似度を有する登録ワードを判定し、判定された登録ワードを前記出力部に出力させる、請求項3に記載の情報処理装置。
  5. 前記制御部は、出力された前記登録ワードの選択入力に応じて前記操作コマンドを生成する、請求項3または4に記載の情報処理装置。
  6. 記制御部は、
    前記指定ワードが前記登録ワードと一致しなかった場合、前記指定ワードと前記登録ワードとを対応づけて前記記憶部に記憶し、
    次に前記指定ワードを含む音声が認識された場合は、前記指定ワードに対応する前記登録ワードに基づき前記操作コマンドを生成する、請求項3から5のいずれかに記載の情報処理装置。
  7. 認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードとが一致した場合は、前記指定ワードに基づき前記操作コマンドを生成し、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードとが一致しなかった場合は、前記登録ワードを選択可能に前記出力部に出力させて、選択された前記登録ワードに基づき前記操作コマンドを生成する、請求項2に記載の情報処理装置。
  8. 一つ以上の機器に関する操作を実行する機器制御装置と通信し、音声により機器を操作するためのコンピュータープログラムであって、
    コンピュータである情報処理装置が、音声入力を受け付け、
    前記情報処理装置が、受け付けられた音声を認識し、
    前記情報処理装置が、認識した音声に基づき一つ以上の機器に関する操作を実行するための操作コマンドを生成し、
    前記情報処理装置が、前記操作コマンドを前記機器制御装置に送信し、
    前記情報処理装置が、前記機器制御装置から取得される前記一つ以上の機器を特定する登録ワードと対応付けられた辞書ワードを記憶する、
    ことを含み、
    前記情報処理装置が、前記機器制御装置に前記操作コマンドを送信する前に、予め前記機器制御装置から取得される前記一つ以上の機器を特定する登録ワードを出力部により出力させ
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードとが一致した場合は、前記指定ワードに基づき前記操作コマンドを生成し、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと前記登録ワードが一致しないが、前記指定ワードと前記辞書ワードとが一致する場合は、前記辞書ワードに対応付けられた登録ワードに基づき前記操作コマンドを生成し、
    認識した音声に含まれる前記一つ以上の機器を指定する指定ワードと、前記登録ワードおよび辞書ワードのいずれとも一致しない場合は、前記登録ワードを選択可能に前記出力部に出力させて、選択された前記登録ワードに基づき前記操作コマンドを生成するとともに、前記指定ワードと選択された前記登録ワードとを対応付けて前記辞書ワードを記憶する、
    プログラム。
JP2021016731A 2021-02-04 2021-02-04 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム Active JP7489928B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021016731A JP7489928B2 (ja) 2021-02-04 2021-02-04 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021016731A JP7489928B2 (ja) 2021-02-04 2021-02-04 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2022119530A JP2022119530A (ja) 2022-08-17
JP7489928B2 true JP7489928B2 (ja) 2024-05-24

Family

ID=82848321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021016731A Active JP7489928B2 (ja) 2021-02-04 2021-02-04 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP7489928B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259114A (ja) 2001-03-05 2002-09-13 Nec Corp 音声認識コンピュータシステム
JP2004023676A (ja) 2002-06-20 2004-01-22 Hitachi Kokusai Electric Inc Cctv装置及びcctv装置の状態出力方法
JP2009003205A (ja) 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2010072098A (ja) 2008-09-16 2010-04-02 Internatl Business Mach Corp <Ibm> 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2020101778A (ja) 2018-12-25 2020-07-02 パナソニックIpマネジメント株式会社 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259114A (ja) 2001-03-05 2002-09-13 Nec Corp 音声認識コンピュータシステム
JP2004023676A (ja) 2002-06-20 2004-01-22 Hitachi Kokusai Electric Inc Cctv装置及びcctv装置の状態出力方法
JP2009003205A (ja) 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2010072098A (ja) 2008-09-16 2010-04-02 Internatl Business Mach Corp <Ibm> 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2020101778A (ja) 2018-12-25 2020-07-02 パナソニックIpマネジメント株式会社 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Also Published As

Publication number Publication date
JP2022119530A (ja) 2022-08-17

Similar Documents

Publication Publication Date Title
US20240046405A1 (en) Picture display device, and setting modification method and setting modification program therefor
US20160063894A1 (en) Electronic apparatus having a voice guidance function, a system having the same, and a corresponding voice guidance method
US10867603B2 (en) Audio-video reproduction device setup using interview-based voice control
US9491401B2 (en) Video call method and electronic device supporting the method
EP3971887A1 (en) Apparatus and method for recognizing a plurality of wake-up words
US20120242860A1 (en) Arrangement and method relating to audio recognition
JP6973380B2 (ja) 情報処理装置、および情報処理方法
AU2018432003B2 (en) Video processing method and device, and terminal and storage medium
JP7489928B2 (ja) 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム
KR20190128516A (ko) 전자 장치 및 그 동작방법
JP7263413B2 (ja) 映像表示装置
WO2021091063A1 (ko) 전자장치 및 그 제어방법
KR20220015306A (ko) 전자장치 및 그 제어방법
CN112203125A (zh) 语音播报方法、装置、视频播放设备及存储介质
JP6100328B2 (ja) 映像表示装置
US11568866B2 (en) Audio processing system, conferencing system, and audio processing method
US20240202231A1 (en) Display apparatus, display method, and recording medium with display program recorded thereon
CN114179083B (zh) 一种引领机器人语音信息的生成方法、装置和引领机器人
JP7349533B2 (ja) 情報処理システム、及び情報処理方法
JP2019135609A (ja) 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム
CN111210819B (zh) 信息处理方法、装置和电子设备
WO2022193735A1 (zh) 显示设备及语音交互方法
US20200195886A1 (en) Information processing system, information processing device, and information processing method
JP2017142500A (ja) 映像表示装置
CN117812422A (zh) 显示设备及语音搜索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240514

R150 Certificate of patent or registration of utility model

Ref document number: 7489928

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150