JP7251549B2

JP7251549B2 - 情報処理装置と情報処理方法およびプログラム

Info

Publication number: JP7251549B2
Application number: JP2020534071A
Authority: JP
Inventors: 裕二井手
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-07-31
Filing date: 2019-05-16
Publication date: 2023-04-04
Anticipated expiration: 2039-05-16
Also published as: WO2020026562A1; US20210320684A1; JPWO2020026562A1

Description

この技術は、情報処理装置と情報処理方法およびプログラムに関し、通信操作状態を容易に判別できるようにする。

従来の無線機では、特許文献１に示すように、ＰＴＴ（Push to Talk）機能を設けて、ＰＴＴスイッチがオン状態であるとき音声送信状態としている。また、ＰＴＴスイッチを操作できない場合でも音声送信状態とすることができるように、無線機には音声信号が検出されたときにＰＴＴスイッチをオン状態とするＶＯＸ（Voice Operation Transmission）機能が設けられている。

特開２０１２－０９９９９９号公報

ところで、ＰＴＴスイッチがオン状態とオフ状態のいずれであるかは、ＰＴＴスイッチに触れたり目視しなければ判別できない。また、ＶＯＸ機能が動作しているかについても、スイッチの状態や機能の設定状態を確認しなければ判別できない。

そこで、この技術では音声送信状態であるかを容易に判別できる情報処理装置と情報処理方法およびプログラムを提供することを目的とする。

この技術の第１の側面は、
入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置にある。

この技術において、発話検知部は、例えばヘッドセットのマイクで集音された音声を示す入力音声信号に基づき発話期間を検知される。背景音生成部は、発話検知部の発話期間検知結果に応じて背景音信号の生成を行い、発話期間中は発話背景音信号を生成して、非発話期間中は発話背景音信号と異なる非発話背景音信号を生成する。例えば発話背景音信号と非発話背景音信号は、異なるノイズ信号またはメロディ音信号、あるいは信号レベルが異なる信号である。また、発話背景音信号は入力音声信号を利用して生成してもよい。音声合成部は、背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する。例えば音声合成部は、入力音声信号の通信を行う通信部で受信した音声信号に背景音生成部で生成された背景音信号を合成して、ヘッドセットのスピーカへ出力する。制御部は、入力部でユーザ操作に応じて生成された操作信号またはヘッドセットに設けられた操作スイッチでユーザ操作に応じて生成された操作信号に基づき、発話検知部の検知期間の設定と入力音声信号の送信処理を行う。

制御部は、操作信号に基づきＰＴＴ（Push to Talk）機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間および通信部における送信動作期間とする。この場合、背景音生成部は、発話背景音信号を非発話背景音信号よりも小さい信号レベル、例えば信号レベルを最小とする。また、制御部は、操作信号に基づきＶＯＸ（Voice Operation Transmission）機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間として、発話検知部で検知された発話期間を通信部における送信動作期間とする。この場合、背景音生成部は、非発話背景音信号を発話背景音信号よりも小さい信号レベル、例えば信号レベルを最小とする。

この技術の第２の側面は、
入力音声信号に基づき発話期間を発話検知部で検知することと、
前記発話検知部の発話期間検知結果に応じて背景音信号を背景音生成部で生成することと、
前記背景音生成部で生成された背景音信号を用いた合成処理を音声合成部で行い出力音声信号を生成することと、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を制御部で行わせること
を含む情報処理方法にある。

この技術の第３の側面は、
入力音声信号の送信制御をコンピュータで実行させるプログラムであって、
前記入力音声信号に基づき発話期間を検知する手順と、
前記発話期間の検知結果に応じて背景音信号を生成する手順と、
前記生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する手順と、
ユーザ操作に応じた操作信号に基づき、前記発話期間を検知する検知期間の設定と、前記入力音声信号の送信処理を行う手順と
を前記コンピュータで実行させるプログラムにある。

なお、本技術のプログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。

この技術によれば、入力音声信号に基づき発話期間が検知されて、発話期間の検知結果に応じて背景音信号の生成が行われる。また、生成された背景音信号を用いた合成処理によって出力音声信号が生成される。さらに、ユーザ操作に応じた操作信号に基づき発話期間を検知する検知期間が設定されて、発話期間の入力音声信号が通信部から送信される。したがって、出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また付加的な効果があってもよい。

システムの構成を例示した図である。第１の形態の構成を例示した図である。第１の形態の動作を例示したフローチャートである。第１の実施の形態の動作例を示す図である。第２の形態の構成を例示した図である。第２の形態の動作を例示したフローチャートである。第２の実施の形態の動作例を示す図である。情報処理装置２０の表示画面を例示した図である。

以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
１．システムの構成
２．情報処理装置の第１の実施の形態の構成
３．情報処理装置の第１の実施の形態の動作
４．情報処理装置の第２の実施の形態の構成
５．情報処理装置の第２の実施の形態の動作
６．変形例

＜１．システムの構成＞
図１は、本技術の情報処理装置を用いたシステムの構成を例示している。システム１０は、情報処理装置２０とサーバ４０を用いて構成されており、情報処理装置２０とサーバ４０はネットワーク５０を介して接続されている。また、情報処理装置２０には、ヘッドセット３０が接続可能とされている。

ヘッドセット３０は、マイク３１とスピーカ３２および操作スイッチ３３が設けられている。マイク３１は、ヘッドセット３０を装着しているユーザが発した音声を集音して音声信号に変換して情報処理装置２０へ出力する。スピーカ３２は情報処理装置２０から供給された出力音声信号を音声に変換して出力する。操作スイッチ３３は、ユーザ操作に応じた操作信号を情報処理装置２０へ出力して、操作スイッチ３３に割り当てられた機能をオン状態またはオフ状態とする。例えば、操作スイッチ３３としてモーメンタリ動作を行うプッシュスイッチが用いられている場合、情報処理装置２０は、操作スイッチ３３が操作される毎に、割り当てられた機能をオフ状態からオン状態、またはオン状態からオフ状態に切り替える。

情報処理装置２０は例えばスマートフォンであり、通信部２１、撮像部２２、入力部２３、出力部２４、記憶部２５及び制御部２６を有している。

通信部２１は、無線ＬＡＮ規格に適合した通信を行う無線ＬＡＮ部、携帯電話回線を用いて通信を行う公衆網接続部等を有している。通信部２１は、サーバ４０と例えばインターネットプロトコルに準拠した通信を行う。通信部２１は、情報処理装置２０で生成した情報、例えばヘッドセット３０から供給された音声信号等をサーバ４０へ送信する。また、通信部２１は、サーバ４０から送信された情報を受信して出力部２４や記憶部２５に出力する。

撮像部２２は、撮像素子と撮像レンズを含む撮像光学系、および画像信号処理部等を含む。撮像素子としては、例えばＣＣＤ（Charge Coupled Device）イメージセンサやＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサが用いられる。撮像部２２で生成された画像信号は、出力部２４や記憶部２５あるいは通信部２１を介してサーバ４０等に出力される。

入力部２３は、タッチパネルやマイク等を用いて構成されている。入力部２３は、例えばタッチパネルに対するユーザ操作に応じた操作信号を生成して制御部２６へ出力する。また、入力部２３は、マイクでユーザからの音声を取得する。また、入力部２３は、ヘッドセット３０から供給された音声信号の受け入れ制御を行う。

出力部２４は、表示素子やスピーカ等を用いて構成されている。表示素子としては、例えばＬＣＤ（Liquid Crystal Display）またはＯＬＥＤ（Organic Light-Emitting Diode）等が用いられている。出力部２４は、制御部２６の制御のもとで、撮像部２２で取得された撮像画，映像コンテンツ，テキスト情報，メニュー画面，各種設定情報等の表示や、音声コンテンツや会話等の音声を出力する。また、出力部２４は、出力音声信号を生成してヘッドセット３０に出力する。

記憶部２５は、情報処理装置２０で各種動作を行うためのアプリケーションプログラムやコンテンツデータ等を記憶する。

制御部２６は、ＣＰＵ(Central Processing Unit)やＲＯＭ(Read Only Memory)，ＲＡＭ(Random Access Memory)等を有している。ＲＯＭ（Read Only Memory）は、ＣＰＵ(Central Processing Unit)により実行される各種プログラムを記憶する。ＲＡＭ（Random Access Memory）は、各種パラメータ等の情報を記憶する。ＣＰＵは、ＲＯＭあるいは記憶部２５に記憶されている各種プログラムを実行して、入力部２３で生成された操作信号に基づき、ユーザ操作等に応じて所望の動作が情報処理装置２０で行われるように各部を制御する。例えば、制御部２６は、操作信号に基づきＰＴＴ（Push to Talk）機能やＶＯＸ（Voice Operation Transmission）機能を用いて、例えば所望の情報処理装置２０-xと音声通信を行うように通信部２１と入力部２３と出力部２４を制御する。

サーバ４０は、情報処理装置２０とネットワーク５０を介して接続されている他の情報処理装置２０-xとの間での有線または無線による通信を仲介する。例えば、サーバ４０は、情報処理装置２０から送信された音声信号を、情報処理装置２０で指定された送信先の情報処理装置２０-xへ送信する。また、サーバ４０は、情報処理装置２０-xから送信された音声信号を、情報処理装置２０-xで指定された送信先である情報処理装置２０へ送信する。

＜２．情報処理装置の第１の形態の構成＞
図２は、情報処理装置の第１の形態の構成を示している。なお、図２では、情報処理装置２０におけるＰＴＴ（Push to Talk）機能を用いた音声通信に関する機能ブロックの構成を例示している。

通信部２１は、送信部２１１と受信部２１２を有しており、入力部２３は、マイク入力制御部２３１と発話検知部２３２を有している。また、出力部２４は、背景音生成部２４１と音声合成部２４２を有している。

通信部２１の送信部２１１は、入力部２３のマイク入力制御部２３１から供給された音声信号を、制御部２６からの制御信号によって指示された送信先を示してサーバ４０に送信する。受信部２１２は、受信音声信号を出力部２４の音声合成部２４２へ出力する。

入力部２３のマイク入力制御部２３１は、制御部２６からの制御信号に基づき、例えばヘッドセット３０のマイク３１から供給された音声信号の受け入れを制御する。マイク入力制御部２３１は、音声信号を受け入れる場合、マイク３１から供給された音声信号を発話検知部２３２と通信部２１の送信部２１１へ出力する。発話検知部２３２は、制御部２６からの制御信号に基づき発話検知動作を行い、マイク３１から供給された音声信号を用いて発話期間を検知して発話検知結果を出力部２４の背景音生成部２４１へ出力する。

出力部２４の背景音生成部２４１は、制御部２６からの制御信号に基づき背景音生成動作を行い、発話検知結果に応じて背景音を生成する。例えば背景音生成部２４１は、発話期間と非発話期間で異なる背景音信号を生成する。背景音信号は、会話音と区別が可能な背景音の信号あればよく、例えばノイズ音やメロディ音の信号等を用いる。また、発話期間と非発話期間で異なる背景音信号としては、異なる種類のノイズ音またはメロディ音の信号であってもよく、同じ種類の音であって信号レベルが異なる信号であってもよい。また、発話期間の背景音信号としてマイク３１から供給された音声信号を利用すれば、どのような音声が送信されているか確認できるようになる。また、発話期間の背景音信号としてマイク３１から供給された音声信号を利用する場合、発話期間背景音であることが明確となるように音声信号を加工して背景音信号を生成してもよい。なお、本技術における異なる背景音信号は、発話期間と非発話期間のいずれか一方の期間のみ信号レベルが「０」である場合を含む。背景音生成部２４１は、生成した背景音信号を音声合成部２４２へ出力する。音声合成部２４２は、受信部２１２から供給された受信音声信号と背景音生成部２４１で生成された背景音信号を合成して出力音声信号を生成する。音声合成部２４２は、生成した出力音声信号を、例えばヘッドセット３０のスピーカ３２へ出力する。

制御部２６は、例えばヘッドセット３０の操作スイッチ３３からの操作信号に基づき、ＰＴＴ（Push to Talk）機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間および通信部における送信動作期間とする。すなわち、制御部２６は、ＰＴＴがオン状態である期間中は、マイク３１から供給された音声信号をマイク入力制御部２３１で受け入れて送信部２１１へ供給させて、マイク入力制御部２３１で受け入れた音声信号の送信先を指定してサーバ４０へ送信させる。また、制御部２６は、ＰＴＴがオン状態である期間中は、発話検知部２３２と背景音生成部２４１を動作させて、発話期間と非発話期間で異なる背景音信号を生成して、スピーカ３２へ出力させる。

＜３．情報処理装置の第１の形態の動作＞
図３は、第１の実施の形態の動作を例示したフローチャートである。ステップＳＴ１で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置２０の制御部２６は、ヘッドセット３０の操作スイッチ３３からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップＳＴ２に進み、スイッチ操作が行われていないと判別した場合にはステップＳＴ１に戻る。

ステップＳＴ２で情報処理装置はＰＴＴ機能を開始する。情報処理装置２０の制御部２６は、マイク入力制御部２３１を制御してマイク３１から供給された音声信号の受け入れを開始する。また、制御部２６は発話検知部２３２の検知動作を開始する。さらに、制御部２６は、送信部２１１を制御して送信処理を開始させることで、マイク入力制御部２３１から供給される音声信号を所望の送信先を示してサーバ４０に送信するようにしてステップＳＴ３に進む。

ステップＳＴ３で情報処理装置は発話期間であるか判別する。情報処理装置２０の発話検知部２３２は、マイク入力制御部２３１から出力される音声信号を用いて発話期間であるか検出する、発話検知部２３２は、マイク入力制御部２３１から音声信号が出力されたことを検出したとき発話期間の開始とする。また、発話検知部２３２は、音声信号が出力されない期間が所定期間よりも長くなったとき発話期間の終了とする。発話検知部２３２は、発話期間であると判別したときステップＳＴ４に進み、発話期間でないと判別したときステップＳＴ５に進む。

ステップＳＴ４で情報処理装置は発話期間背景音を出力する。情報処理装置２０の背景音生成部２４１は、発話検知部２３２からの発話検知結果に基づき、発話期間であると判別したときは発話期間背景音信号を生成して音声合成部２４２へ出力する。音声合成部２４２は、発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット３０へ出力する。ヘッドセット３０のスピーカ３２は、出力音声信号に基づき発話期間背景音を出力してステップＳＴ６に進む。

ステップＳＴ５で情報処理装置は非発話期間背景音を出力する。情報処理装置２０の背景音生成部２４１は、発話検知部２３２からの発話検知結果に基づき、非発話期間であると判別したときは非発話期間背景音信号を生成して音声合成部２４２へ出力する。音声合成部２４２は、非発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット３０へ出力する。ヘッドセット３０のスピーカ３２は、出力音声信号に基づき非発話期間背景音を出力させてステップＳＴ６に進む。

ステップＳＴ６でスイッチ操作が行われたか判別する。情報処理装置２０の制御部２６は、ヘッドセット３０の操作スイッチ３３からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップＳＴ７に進み、スイッチ操作が行われていないと判別した場合にはステップＳＴ３に戻る。

ステップＳＴ７で情報処理装置はＰＴＴ機能を終了する。情報処理装置２０の制御部２６は、マイク入力制御部２３１を制御してマイク３１から供給された音声信号の受け入れを終了させる。また、制御部２６は発話検知部２３２を制御して検知動作を終了させる。また、制御部２６は背景音生成部２４１を制御して背景音生成動作を終了させる。さらに、制御部２６は、送信部２１１を制御して送信処理を終了させてステップＳＴ１に戻る。

図４は、第１の実施の形態の動作例を示している。なお、ヘッドセット３０の操作スイッチ３３は、上述のようにプッシュスイッチが用いられており、操作スイッチ３３が操作される毎に、ＰＴＴ機能がオフ状態からオン状態、またはオン状態からオフ状態に切り替えられる場合について例示している。

時点ｔ1で操作スイッチ３３が操作されるとＰＴＴ機能はオン状態とされて、入力部２３ではマイク３１から供給された音声信号の受け入れと発話検知動作が開始される。また、通信部２１では入力部２３で受け付けた音声信号を送信する送信動作が開始される。さらに、入力部２３で発話が検知されるまでは非発話期間であることから、背景音生成部２４１では非発話期間背景音信号が生成されて、出力部２４から出力音声信号が供給されるスピーカ３２では非発話期間背景音が出力される。したがって、ユーザは非発話期間背景音によってＰＴＴ機能がオン状態であることを判別できる。

その後、音声信号が入力部２３に入力されて、時点ｔ2で発話検知部２３２によって発話が検知されて発話期間の開始と判別されると、背景音生成部２４１では発話期間背景音信号が生成される。このため、出力部２４から出力音声信号が供給されるスピーカ３２の出力は非発話期間背景音から発話期間背景音に切り替えられる。したがって、ユーザは発話期間背景音によって、音声の送信が行われていることを判別できる。

音声信号が入力部２３に入力されなくなり時点ｔ3で発話検知部２３２によって終話が検知されて発話期間の終了と判別されると、背景音生成部２４１では非発話期間背景音信号が生成される。このため、出力部２４から出力音声信号が供給されるスピーカ３２の出力は発話期間背景音から非発話期間背景音に切り替えられる。したがって、ユーザは非発話期間背景音によって、音声の送信が終了したことを判別できる。

その後、音声信号が入力部２３に入力されて、時点ｔ4で発話検知部２３２によって発話が検知されて発話期間の開始と判別されると、スピーカ３２の出力は非発話期間背景音から発話期間背景音に切り替えられる。また、音声信号が入力部２３に入力されなくなり時点ｔ5で発話検知部２３２によって終話が検知されて発話期間の終了と判別されると、スピーカ３２の出力は発話期間背景音から非発話期間背景音に切り替えられる。

また、時点ｔ6で操作スイッチ３３が操作されるとＰＴＴ機能はオフ状態とされて、入力部２３ではマイク３１から供給された音声信号の受け入れと発話検知動作が終了される。また、通信部２１では入力部２３で受け付けた音声信号を送信する送信動作が終了される。さらに、背景音生成部２４１では背景音信号の生成が終了される。したがって、ユーザは発話期間背景音と非発話期間背景音のいずれも出力されないことからＰＴＴ機能がオフ状態であることを判別できる。

このように、第１の実施の形態によれば、ＰＴＴ機能がオン状態であるとき、発話期間背景音または非発話期間背景音が出力される。したがって、スイッチの操作位置や出力部２４の表示画面を確認しなくとも、ＰＴＴ機能がオン状態であることを背景音で容易に判別できるようになる。また、発話期間では、非発話期間背景音と異なる発話期間背景音が出力されるので、マイク３１から供給された音声信号が送信されていることを発話期間背景音によって容易に判別できる。さらに、発話背景音信号を非発話背景音信号よりも信号レベルを小さく、例えば発話背景音信号の信号レベルを最小とすれば、マイク３１から供給された音声信号が送信されているときに背景音が気にならないようにできる。

＜４．情報処理装置の第２の形態の構成＞
図５は、情報処理装置の第２の形態の構成を示している。なお、図５では、情報処理装置２０におけるＶＯＸ（（Voice Operation Transmission）機能を用いた音声通信に関する機能ブロックの構成を例示している。

通信部２１の送信部２１１は、入力部２３の発話検知部２３２で検出された発話期間に入力部２３のマイク入力制御部２３１から供給された音声信号を、制御部２６からの制御信号によって指示された送信先を示してサーバ４０に送信する。受信部２１２は、受信音声信号を出力部２４の音声合成部２４２へ出力する。

入力部２３のマイク入力制御部２３１は、制御部２６からの制御信号に基づき、例えばヘッドセット３０のマイク３１で生成された音声信号の受け入れを制御する。マイク入力制御部２３１は、音声信号を受け入れる場合、マイク３１から供給された音声信号を発話検知部２３２と通信部２１の送信部２１１へ出力する。発話検知部２３２は、制御部５２からの制御信号に基づき発話検知動作を行い、マイク３１から供給された音声信号を用いて発話期間を検知して発話検知結果を通信部２１の送信部２１１と出力部２４の背景音生成部２４１へ出力する。

出力部２４の背景音生成部２４１は、制御部２６からの制御信号に基づき背景音生成動作を行い、発話検知結果に応じて背景音を生成する。例えば背景音生成部２４１は、発話期間と非発話期間で異なる背景音信号を生成する。背景音信号は、会話音と区別が可能な背景音の信号あればよく、例えばノイズ音やメロディ音の信号等を用いる。また、発話期間と非発話期間で異なる背景音信号としては、異なる種類のノイズ音またはメロディ音の信号であってもよく、同じ種類の音であって信号レベルが異なる信号であってもよい。なお、本技術における異なる背景音信号は、信号レベルが「０」である場合を含む。背景音生成部２４１は、生成した背景音信号を音声合成部２４２へ出力する。音声合成部２４２は、受信部２１２から供給された受信音声信号と背景音生成部２４１で生成された背景音信号を合成して出力音声信号を生成する。音声合成部２４２は、生成した出力音声信号を、例えばヘッドセット３０のスピーカ３２へ出力する。

制御部２６は、例えばヘッドセット３０の操作スイッチ３３からの操作信号に基づき、ＶＯＸ（（Voice Operation Transmission）機能を用いた音声通信の制御動作を行う。制御部２６は、ＶＯＸがオン状態である期間中、マイク３１から供給された音声信号をマイク入力制御部２３１で受け入れて送信部２１１へ供給させる。また、制御部２６は、ＶＯＸがオン状態である期間中、発話検知部２３２と背景音生成部２４１を動作させて、発話期間と非発話期間で異なる背景音信号を生成して、スピーカ３２へ出力させる。また、制御部２６は、ＶＯＸがオン状態である期間は、発話検知部２３２で検知された発話期間を送信部２１１の送信動作期間として、発話期間にマイク入力制御部２３１で受け入れた音声信号の送信先を指定してサーバ４０へ送信させる。

＜５．情報処理装置の第２の形態の動作＞
図６は、第２の実施の形態の動作を示すフローチャートである。ステップＳＴ１１で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置２０の制御部２６は、ヘッドセット３０の操作スイッチ３３からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップＳＴ１２に進み、スイッチ操作が行われていないと判別した場合にはステップＳＴ１１に戻る。

ステップＳＴ１２で情報処理装置はＶＯＸ機能を開始する。情報処理装置２０の制御部２６は、マイク入力制御部２３１を制御してマイク３１から供給された音声信号の受け入れを開始する。また、制御部２６は発話検知部２３２の検知動作を開始してステップＳＴ１３に進む。

ステップＳＴ１３で情報処理装置は発話期間であるか判別する。情報処理装置２０の発話検知部２３２は、マイク入力制御部２３１から出力される音声信号を用いて発話期間であるか検出する。発話検知部２３２は、マイク入力制御部２３１から音声信号が出力されたことを検出したとき発話期間の開始として、音声信号が出力されない期間が所定期間よりも長くなったとき発話期間の終了として、発話期間であると判別したときステップＳＴ１４に進み、発話期間でないと判別したときステップＳＴ１６に進む。

ステップＳＴ１４で情報処理装置は音声信号を送信する。発話検知部２３２と制御部２６は、送信部２１１を制御して、発話期間は送信処理を行うようにして、マイク入力制御部２３１から供給される音声信号を所望の送信先に送信させてステップＳＴ１５に進む。

ステップＳＴ１５で情報処理装置は発話期間背景音を出力する。情報処理装置２０の背景音生成部２４１は、発話検知部２３２からの発話検知結果に基づき、発話期間であると判別したときは発話期間背景音信号を生成して音声合成部２４２へ出力する。音声合成部２４２は、発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット３０へ出力する。ヘッドセット３０のスピーカ３２は、出力音声信号に基づき発話期間背景音を出力してステップＳＴ１７に進む。

ステップＳＴ１６で情報処理装置は非発話期間背景音を出力する。情報処理装置２０の背景音生成部２４１は、発話検知部２３２からの発話検知結果に基づき、非発話期間であると判別したときは非発話期間背景音信号を生成して音声合成部２４２へ出力する。音声合成部２４２は、非発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット３０へ出力する。ヘッドセット３０のスピーカ３２は、出力音声信号に基づき非発話期間背景音を出力させてステップＳＴ１７に進む。

ステップＳＴ１７でスイッチ操作が行われたか判別する。情報処理装置２０の制御部２６は、ヘッドセット３０の操作スイッチ３３からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップＳＴ１８に進み、スイッチ操作が行われていないと判別した場合にはステップＳＴ１３に戻る。

ステップＳＴ１８で情報処理装置はＶＯＸ機能を終了する。情報処理装置２０の制御部２６は、マイク入力制御部２３１を制御してマイク３１から供給された音声信号の受け入れを終了させる。また、制御部２６は発話検知部２３２を制御して検知動作を終了させる。さらに、制御部２６は、背景音生成部２４１を制御して背景音生成動作を終了させてステップＳＴ１１に戻る。

図７は、第２の実施の形態の動作例を示している。なお、ヘッドセット３０の操作スイッチ３３は、上述のようにプッシュスイッチが用いられており、操作スイッチ３３が操作される毎に、ＶＯＸ機能がオフ状態からオン状態、またはオン状態からオフ状態に切り替えられる場合について例示している。

時点ｔ11で操作スイッチ３３が操作されるとＶＯＸ機能はオン状態とされて、入力部２３ではマイク３１から供給された音声信号の受け入れと発話検知動作が開始される。さらに、入力部２３で発話が検知されるまでは非発話期間であることから、背景音生成部２４１では非発話期間背景音信号が生成されて、出力部２４から出力音声信号が供給されるスピーカ３２では非発話期間背景音が出力される。したがって、ユーザは非発話期間背景音によってＶＯＸ機能がオン状態であることを判別できる。

その後、音声信号が入力部２３に入力されて、時点ｔ12で発話検知部２３２によって発話が検知されて発話期間の開始と判別されると、通信部２１では入力部２３で受け付けた音声信号を送信する送信動作が開始される。また、背景音生成部２４１では発話期間背景音信号が生成される。このため、出力部２４から出力音声信号が供給されるスピーカ３２の出力は非発話期間背景音から発話期間背景音に切り替えられる。したがって、ユーザは発話期間背景音によって、音声の送信が行われていることを判別できる。

音声信号が入力部２３に入力されなくなり時点ｔ13で発話検知部２３２によって終話が検知されて発話期間の終了と判別されると、通信部２１では送信動作が終了されて、背景音生成部２４１では非発話期間背景音信号が生成される。このため、出力部２４から出力音声信号が供給されるスピーカ３２の出力は発話期間背景音から非発話期間背景音に切り替えられる。したがって、ユーザは非発話期間背景音によって、音声の送信が終了したことを判別できる。

その後、音声信号が入力部２３に入力されて、時点ｔ14で発話検知部２３２によって発話が検知されて発話期間の開始と判別されると、通信部２１では音声信号の送信動作が開始されて、スピーカ３２の出力は非発話期間背景音から発話期間背景音に切り替えられる。また、音声信号が入力部２３に入力されなくなり時点ｔ15で発話検知部２３２によって終話が検知されて発話期間の終了と判別されると、通信部２１では送信動作が終了されて、スピーカ３２の出力は発話期間背景音から非発話期間背景音に切り替えられる。

また、時点ｔ16で操作スイッチ３３が操作されるとＶＯＸ機能はオフ状態とされて、入力部２３ではマイク３１から供給された音声信号の受け入れと発話検知動作が終了される。また、背景音生成部２４１では背景音信号の生成が終了される。したがって、ユーザは発話期間背景音と非発話期間背景音のいずれも出力されないことからＶＯＸ機能がオフ状態であることを判別できる。

このように、第２の実施の形態によれば、ＶＯＸ機能がオン状態であるとき、発話期間背景音または非発話期間背景音が出力されるので、スイッチの操作位置や出力部２４の表示画面を確認しなくとも、ＶＯＸ機能がオン状態であることを背景音で容易に判別できるようになる。また、発話期間では、非発話期間背景音と異なる発話期間背景音が出力されるので、マイク３１から供給された音声信号が送信されていることを発話期間背景音によって容易に判別できる。さらに、非発話背景音信号を発話背景音信号よりも信号レベルを小さく、例えば非発話背景音信号の信号レベルを最小とすれば、受信部２１２で受信した受信音声信号に背景音信号を重畳して出力音声信号を生成する場合、受信音声を聞き取る際に背景音の影響を少なくできる。

＜６．変形例＞
上述の第１の実施の形態ではＰＴＴ機能を用いる場合、第２の実施の形態ではＶＯＸ機能を用いる場合について説明したが、情報処理装置はＰＴＴ機能とＶＯＸ機能を有しており、いずれかを選択して利用可能としてもよい。この場合、非発話期間背景音は、ＰＴＴ機能とＶＯＸ機能とで異なる背景音とすることで、スピーカ３２から出力される音声でいずれの機能が利用されているかを容易に判別できるようになる。

発話検知部２３２では、発話と終話の検知動作を行い発話期間を検知したが、マイク入力制御部２３１で受け入れされたマイク３１からの音声信号に基づきユーザの周囲音レベルを検出して、背景音生成部２４１は、周囲音レベルに応じて非発話期間背景音信号の信号レベルを調整すれば、非発話期間背景音を聞き取りやすいレベルにできる。

また、上述の実施の形態では、ＰＴＴ機能あるいはＶＯＸ機能をヘッドセット３０に設けられた操作スイッチ３３のスイッチ操作に応じて動作させたが、情報処理装置２０の入力部２３のタッチパネル等の操作に応じて動作させてもよい。図８は、情報処理装置２０の表示画面を例示している。情報処理装置２０は、例えばアプリ画面上にＰＴＴボタン表示ＤＢが設けられている。また、ＰＴＴボタン表示ＤＢは、表示画面を見なくともＰＴＴボタン表示の位置をタッチできるように、例えば画面中央に大きく表示されている。制御部２６はＰＴＴボタン表示の位置がタッチされる毎に、ＰＴＴ機能をオフ状態からオン状態あるいはオン状態からオフ状態に切り替える。また、アプリ画面上にＶＯＸボタン表示を設けて、ＶＯＸボタン表示の位置がタッチされる毎に、ＶＯＸ機能をオフ状態からオン状態あるいはオン状態からオフ状態に切り替えてもよい。このように、情報処理装置２０で、ＰＴＴ機能の動作切り替えやＶＯＸ機能の動作切り替えを行うようにすれば、スイッチが設けられていないヘッドセットを使用しても上述の実施の形態の動作を行うことができる。

また、情報処理装置２０がスマートフォン等のようにアプリケーションプログラムの追加が可能である場合、上述の実施の形態の動作を行うアプリケーションプログラムが予めインストールされている場合に限らず、アプリケーションプログラムを追加して、上述の実施の形態の動作を行うことができるようにしてもよい。

さらに、情報処理装置２０の入力部２３にマイク２３５が設けられており、出力部２４にスピーカ２４５が設けられていれば、ヘッドセットを使用していない場合でも、情報処理装置２０のマイク２３５とスピーカ２４５を使用して、上述の実施の形態と同様な動作を行うことができる。また、情報処理装置２０はスマートフォンに限らず、フィーチャーフォンや無線通信装置等であってもよい。

明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは記録媒体としてのハードディスクやＳＳＤ（Solid State Drive）、ＲＯＭ（Read Only Memory）に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory），ＭＯ（Magneto optical）ディスク，ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-Ray Disc（登録商標））、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。

また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからＬＡＮ（Local Area Network）やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。

また、本技術の情報処理装置は以下のような構成も取ることができる。
（１）入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置。
（２）前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成する（１）に記載の情報処理装置。
（３）前記発話背景音信号と前記非発話背景音信号は、異なる背景音信号である（２）に記載の情報処理装置。
（４）前記異なる背景音信号は、異なるノイズ信号またはメロディ音信号である（３）に記載の情報処理装置。
（５）前記発話背景音信号と前記非発話背景音信号は、信号レベルが異なる（３）または（４）に記載の情報処理装置。
（６）前記発話背景音信号は、前記入力音声信号を利用して生成する（３）乃至（５）のいずれかに記載の情報処理装置。
（７）前記制御部は、前記操作信号に基づきＰＴＴ（Push to Talk）機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とする（２）乃至（６）のいずれかに記載の情報処理装置。
（８）前記背景音生成部は、前記発話背景音信号を前記非発話背景音信号よりも信号レベルを小さくする（７）に記載の情報処理装置。
（９）前記背景音生成部は、前記発話背景音信号の信号レベルを最小とする（８）に記載の情報処理装置。
（１０）前記制御部は、前記操作信号に基づきＶＯＸ（Voice Operation Transmission）機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とする（２）乃至（６）のいずれかに記載の情報処理装置。
（１１）前記背景音生成部は、前記非発話背景音信号を前記発話背景音信号よりも信号レベルを小さくする（１０）に記載の情報処理装置。
（１２）前記背景音生成部は、前記非発話背景音信号の信号レベルを最小とする（１１）に記載の情報処理装置。
（１３）前記音声合成部は、前記通信部で受信した音声信号に前記背景音生成部で生成された背景音信号を合成して出力音声信号を生成する（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）前記入力音声信号は、ヘッドセットのマイクで集音された音声を示す信号であり、
前記出力音声信号は、前記ヘッドセットのスピーカに供給される信号である（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）前記操作信号は、前記ユーザ操作を受け付ける入力部で前記ユーザ操作に応じて生成された信号または前記ヘッドセットに設けられた操作スイッチで前記ユーザ操作に応じて生成された信号である（１４）に記載の情報処理装置。

この技術の情報処理装置と情報処理方法およびプログラムによれば、入力音声信号に基づき発話期間が検知されて、発話期間の検知結果に応じて背景音信号の生成が行われる。また、生成された背景音信号を用いた合成処理によって出力音声信号が生成される。さらに、ユーザ操作に応じた操作信号に基づき発話期間を検知する検知期間が設定されて、発話期間の入力音声信号が通信部から送信される。このため、出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。したがって、スイッチの状態や機能の設定状態を目視で確認することが困難な状況下で使用されるＰＴＴ機能やＶＯＸ機能を有した機器に適している。

１０・・・システム
２０，２０-x・・・情報処理装置
２１・・・通信部
２２・・・撮像部
２３・・・入力部
２４・・・出力部
２５・・・記憶部
２６，５２・・・制御部
３０・・・ヘッドセット
３１，２３５・・・マイク
３２，２４５・・・スピーカ
３３・・・操作スイッチ
４０・・・サーバ
５０・・・ネットワーク
２１１・・・送信部
２１２・・・受信部
２３１・・・マイク入力制御部
２３２・・・発話検知部
２４１・・・背景音生成部
２４２・・・音声合成部

Claims

入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置。
前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成する
請求項１に記載の情報処理装置。
前記発話背景音信号と前記非発話背景音信号は、異なる背景音信号である
請求項２に記載の情報処理装置。
前記異なる背景音信号は、異なるノイズ信号またはメロディ音信号である
請求項３に記載の情報処理装置。
前記発話背景音信号と前記非発話背景音信号は、信号レベルが異なる
請求項３に記載の情報処理装置。
前記発話背景音信号は、前記入力音声信号を利用して生成する
請求項３に記載の情報処理装置。
前記制御部は、前記操作信号に基づきＰＴＴ（Push to Talk）機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とする
請求項２に記載の情報処理装置。
前記背景音生成部は、前記発話背景音信号を前記非発話背景音信号よりも信号レベルを小さくする
請求項７に記載の情報処理装置。
前記背景音生成部は、前記発話背景音信号の信号レベルを最小とする
請求項８に記載の情報処理装置。
前記制御部は、前記操作信号に基づきＶＯＸ（Voice Operation Transmission）機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とする
請求項２記載の情報処理装置。
前記背景音生成部は、前記非発話背景音信号を前記発話背景音信号よりも信号レベルを小さくする
請求項１０に記載の情報処理装置。
前記背景音生成部は、前記非発話背景音信号の信号レベルを最小とする
請求項１１に記載の情報処理装置。
前記音声合成部は、音声信号の通信を行う通信部で受信した音声信号に前記背景音生成部で生成された背景音信号を合成して出力音声信号を生成する
請求項１に記載の情報処理装置。
前記入力音声信号は、ヘッドセットのマイクで集音された音声を示す信号であり、
前記出力音声信号は、前記ヘッドセットのスピーカに供給される信号である
請求項１に記載の情報処理装置。
前記操作信号は、前記ユーザ操作を受け付ける入力部で前記ユーザ操作に応じて生成された信号または前記ヘッドセットに設けられた操作スイッチで前記ユーザ操作に応じて生成された信号である
請求項１４に記載の情報処理装置。
入力音声信号に基づき発話期間を発話検知部で検知することと、
前記発話検知部の発話期間検知結果に応じて背景音信号を背景音生成部で生成することと、
前記背景音生成部で生成された背景音信号を用いた合成処理を音声合成部で行い出力音声信号を生成することと、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を制御部で行わせること
を含む情報処理方法。
前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成することをさらに含む
請求項１６に記載の情報処理方法。
前記制御部は、前記操作信号に基づきＰＴＴ（Push to Talk）機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とすることをさらに含む
請求項１６に記載の情報処理方法。
前記制御部は、前記操作信号に基づきＶＯＸ（Voice Operation Transmission）機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とすることをさらに含む
請求項１６記載の情報処理方法。
入力音声信号の送信制御をコンピュータで実行させるプログラムであって、
前記入力音声信号に基づき発話期間を検知する手順と、
前記発話期間の検知結果に応じて背景音信号を生成する手順と、
前記生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する手順と、
ユーザ操作に応じた操作信号に基づき、前記発話期間を検知する検知期間の設定と、前記入力音声信号の送信処理を行う手順と
を前記コンピュータで実行させるプログラム。