WO2022254834A1

WO2022254834A1 - 信号処理装置、信号処理方法およびプログラム

Info

Publication number: WO2022254834A1
Application number: PCT/JP2022/008288
Authority: WO
Inventors: 佑司床爪
Original assignee: ソニーグループ株式会社
Priority date: 2021-05-31
Filing date: 2022-02-28
Publication date: 2022-12-08
Also published as: DE112022002887T5; EP4351165A1; CN117356107A

Abstract

振動再生装置から音声が出力されている状態であっても装着者の発話を検出することができる信号処理装置、信号処理方法およびプログラムを提供する。　振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して動作し、振動センサ信号に基づいて振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部を備える信号処理装置。

Description

信号処理装置、信号処理方法およびプログラム

　本技術は、信号処理装置、信号処理方法およびプログラムに関する。

　従来から発話者の発話を検出する技術が提案されている。例えば、音声通信システムにおいて加速度センサを用いて発話者の発話を検出する技術がある（特許文献１）。

特開２０１１－１８８４６２号公報

　この特許文献１の技術を、加速度センサを備えるヘッドホンに適用してヘッドホンを装着した者の発話を検出する場合を考える。ヘッドホンのスピーカから大音量の音声が出力されると、音声の出力によるヘッドホンの筐体の振動が加速度センサへと伝達し、発話者の発話の検出の性能が低下するおそれがある。例えば、出力する音楽に人の声が含まれていると、スピーカからの音声の出力による筐体の振動が加速度センサへと伝達した結果、加速度センサに装着者が発話したときと似た振動パターンが入ることになり、発話者が発話していないにもかかわらず発話していると誤検出してしまう、といったことが考えられる。

　本技術はこのような問題点に鑑みなされたものであり、振動再生装置から音声が出力されている状態であっても装着者の発話を検出することができる信号処理装置、信号処理方法およびプログラムを提供することを目的とする。

　上述した課題を解決するために、第１の技術は、振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して動作し、振動センサ信号に基づいて振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部を備える信号処理装置である。

　また、第２の技術は、振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して実行され、振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う信号処理方法である。

　さらに、第３の技術は、振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して実行され、振動センサ信号に基づいて振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う信号処理方法をコンピュータに実行させるプログラムである。

図１Ａはヘッドホン１００の外観構成を示す外観図、図１Ｂおよび図１Ｃはヘッドホン１００の内部構成を示す断面図である。第１の実施の形態における信号処理装置２００の構成を示すブロック図である。第１の実施の形態における信号処理装置２００の処理を示すフローチャートである。第１の実施の形態における信号処理装置２００の処理の説明図である。第２の実施の形態における信号処理装置２００の構成を示すブロック図である。第２の実施の形態における信号処理装置２００の処理を示すフローチャートである。第２の実施の形態における信号処理装置２００の処理の説明図である。通知の説明図である。第３の実施の形態における信号処理装置２００の構成を示すブロック図である。第３の実施の形態における信号処理装置２００の処理を示すフローチャートである。第４の実施の形態における信号処理装置２００の構成を示すブロック図である。第４の実施の形態における信号処理装置２００の処理を示すフローチャートである。第５の実施の形態における信号処理装置２００の構成を示すブロック図である。第５の実施の形態における信号処理装置２００の処理を示すフローチャートである。第６の実施の形態における信号処理装置２００の構成を示すブロック図である。第６の実施の形態における信号処理装置２００の処理を示すフローチャートである。本技術の応用例の説明図である。

　以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．第１の実施の形態＞
［１－１．振動再生装置の構成］
［１－２．信号処理装置２００の構成］
［１－３．信号処理装置２００による処理］
＜２．第２の実施の形態＞
［２－１．信号処理装置２００の構成］
［２－２．信号処理装置２００による処理］
＜３．第３の実施の形態＞
［３－１．信号処理装置２００の構成］
［３－２．信号処理装置２００による処理］
＜４．第４の実施の形態＞
［４－１．信号処理装置２００の構成］
［４－２．信号処理装置２００による処理］
＜５．第５の実施の形態＞
［５－１．信号処理装置２００の構成］
［５－２．信号処理装置２００による処理］
＜６．第６の実施の形態＞
［６－１．信号処理装置２００の構成］
［６－２．信号処理装置２００による処理］
＜７．応用例＞
＜８．変形例＞

＜１．第１の実施の形態＞
［１－１．振動再生装置の構成］
　図１を参照して、振動再生部１３０と振動センサ１４０を備える振動再生装置としてのヘッドホン１００の構成について説明する。ヘッドホン１００の構成は第１乃至第４の実施の形態で共通である。なお、ヘッドホン１００は一対の左側ヘッドホンと右側ヘッドホンとから構成されているが、説明は左側ヘッドホンを参照して行う。以下の説明ではヘッドホン１００を装着して使用する者を装着者と称する。

　なお、振動再生装置はウェアラブル、据え置き型どちらでもよく、ウェアラブルの振動再生装置としてはヘッドホン、イヤホン、ネックスピーカーなどがある。ヘッドホンにはオーバヘッド型ヘッドホン、ネックバンド型ヘッドホンなどがあり、イヤホンにはインナーイヤー型イヤホン、カナル型イヤホンなどがある。また、イヤホンには完全独立型のワイヤレス型イヤホンであるトゥルーワイヤレスイヤホン、フルワイヤレスイヤホンなどと称されるものがある。また、ワイヤレス型のヘッドホンやネックスピーカーもある。なお、振動再生装置はワイヤレス型に限られず、有線接続型でもよい。

　ヘッドホン１００は、筐体１１０、基板１２０、振動再生部１３０、振動センサ１４０、イヤピース１５０を備えて構成されている。ヘッドホン１００はいわゆるカナル型と呼ばれるワイヤレスヘッドホンである。なお、ヘッドホン１００はイヤホンと称される場合もある。ヘッドホン１００は、ヘッドホン１００と接続、同期、ペアリング等された電子機器にから送信された再生信号を音声として出力するものである。

　筐体１１０は、内部に基板１２０、振動再生部１３０、振動センサ１４０などを収容する収容部として機能するものである。筐体１１０は例えばプラスチックなどの合成樹脂を用いて形成されている。

　基板１２０は、プロセッサ、ＭＣＵ（Micro Controller Unit）、バッテリ充電用ＩＣなどが設けられている回路基板である。プロセッサの処理により再生信号処理部、信号出力部１２１、信号処理装置２００、通信部などが実現される。再生信号処理部、通信部の図示は省略する。

　再生信号処理部は例えば、振動再生部１３０から再生される再生信号に対して、信号増幅処理、イコライジング処理などの所定の音声信号処理を施すものである。

　信号出力部１２１は、再生信号処理部により処理が施された再生信号を振動再生部１３０に出力する。再生信号は例えば音声信号である。再生信号はアナログ信号でもよいし、デジタル信号でもよい。なお、再生信号により振動再生部１３０から出力される音声は音楽でもよいし、音楽以外の音や人物の声であってもよい。

　信号処理装置２００は本技術に係る信号処理を行う。信号処理装置２００の構成は後述する。

　通信部は無線通信により右側ヘッドホンおよび端末装置との通信を行う。通信方式としては例えば、Bluetooth（登録商標）、ＮＦＣ（Near Field Communication）、Wi－Fiなどがあるが、通信することができればどのような通信方式でもよい。

　振動再生部１３０は、再生信号に基づいて振動を再生する。振動再生部１３０は例えば、再生信号としての音声信号を音声として出力するドライバユニットまたはスピーカである。

　振動再生部１３０により再生される振動は音楽出力による振動でもよいし、音楽以外の音や声の出力による振動でもよい。また、ヘッドホン１００がノイズキャンセリング機能を備える場合、振動再生部１３０から再生する振動は再生信号としてのノイズキャンセリング用信号の出力による振動でもよいし、ノイズキャンセリング用信号を付加した音声信号の出力による振動でもよい。ヘッドホン１００が外音取り込み機能を備える場合、振動再生部１３０から再生する振動は再生信号としての外音取り込み用信号の出力による振動でもよいし、外音取り込み用信号を付加した音声信号の出力による振動でもよい。

　以下の第１乃至第４の実施の形態では、振動再生部１３０は再生信号としての音声信号を音声として出力するドライバユニットであるとして説明を行う。ドライバユニットである振動再生部１３０から音声が出力されることにより筐体１１０が振動して、その振動を振動センサ１４０がセンシングする。

　振動センサ１４０は、筐体１１０の振動をセンシングするものである。振動センサ１４０とは、装着者の発話による筐体１１０の振動と、振動再生部１３０からの音声出力による筐体１１０の振動をセンシングすることを目的としたものであり、空気の振動をセンシングすることを目的とするマイクロホンとは異なるものである。振動センサ１４０は筐体１１０の振動をセンシングするものであり、マイクロホンは空気の振動をセンシングするものであるため、振動の媒体が異なる。よって、本技術においては振動センサ１４０にはマイクロホンは含まれないものとする。振動センサ１４０は例えば加速度センサであり、この場合、振動センサ１４０はセンサ内部の部材の位置の変異をセンシングする構成となっており、マイクロホンとは構成が異なる。

　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。

　振動センサ１４０としては加速度センサの他にも、ＶＰＵ（Voice Pick Up）センサ、骨伝導センサ等を用いることができる。加速度センサは２軸の加速度センサでもよいし、２軸以上の加速度センサ(例えば３軸加速度センサ)であってよい。２軸以上の加速度センサの場合、複数方向における振動を計測できるため、振動再生部１３０の振動をより精度高くセンシングできる。

　図１Ｃ中の振動センサ１４０Ａ、振動センサ１４０Ｂ、振動センサ１４０Ｄに示すように、振動センサ１４０を振動再生部１３０の振動面と平行になるように配置してもよい。

　また、図１Ｃ中の振動センサ１４０Ｃ、振動センサ１４０Ｅ、振動センサ１４０Ｆに示すように、振動センサ１４０を振動再生部１３０の振動面に対して垂直や斜めになるように配置してもよい。これにより振動再生部１３０からの影響を受けにくくすることができる。

　また、図１Ｃ中の振動センサ１４０Ｃ、振動センサ１４０Ｄに示すように、振動センサ１４０を振動再生部１３０の振動面と同軸上に配置してもよい。

　また、図１Ｃ中の振動センサ１４０Ａ、振動センサ１４０Ｂ、振動センサ１４０Ｅ、振動センサ１４０Ｆに示すように、振動センサ１４０を振動再生部１３０の振動面と同軸上ではない場所に配置してもよい。これにより振動センサ１４０を振動再生部１３０の影響を受けにくくすることができる。

　また、図１Ｃ中の振動センサ１４０Ａ、振動センサ１４０Ｂ、振動センサ１４０Ｅ、振動センサ１４０Ｆに示すように、振動センサ１４０を振動再生部１３０とは異なる基板１２０上に配置してもよい。これにより振動再生部１３０から再生される振動の振動センサ１４０への伝達を物理的に小さくすることができる。

　また、図１Ｃ中の振動センサ１４０Ｄに示すように、振動センサ１４０を振動再生部１３０の表面に配置してもよい。これにより振動再生部１３０の振動をより精度高くセンシングできる。

　さらに、図１Ｃ中の振動センサ１４０Ｃに示すように、振動センサ１４０を筐体１１０の内側表面に配置してもよい。これにより振動再生部１３０から再生される振動の振動センサ１４０への伝達を物理的に小さくすることができる。さらに、装着者の皮膚により近い位置で振動をセンシングできるため、センシングの精度を高めることができる。

　イヤピース１５０は、筐体１１０における装着者の耳に対向する側に形成されている筒状の突起部に設けられている。イヤピース１５０は例えばカナル型と称され、装着者の外耳孔内に深く挿入するものである。イヤピース１５０はゴムなどの弾性体により弾力性を有するように構成されており、装着者の外耳孔の内面に密着することにより、ヘッドホン１００を耳に装着した状態を維持する役割を担う。また、イヤピース１５０は装着者の外耳孔の内面に密着することにより外部からの騒音を遮断して音声を聴取し易くする役割と、音声が外部に漏れることを防ぐ役割も担う。

　振動再生部１３０から出力された音声はイヤピース１５０内の放音孔から装着者の外耳孔に向けて放音される。これにより装着者はヘッドホン１００から再生された音声を聴取することができる。

　ヘッドホン１００は以上のようにして構成されている。なお、説明は左側ヘッドホンを参照して行ったが、右側ヘッドホンが上述のように構成されていてもよい。

［１－２．信号処理装置２００の構成］
　次に図２を参照して信号処理装置２００の構成について説明する。信号処理装置２００はノイズ生成部２０１、ノイズ付加部２０２、信号処理部２０３によって構成されている。

　ノイズ生成部２０１は、振動センサ１４０から信号処理部２０３に出力される振動センサ信号に付加するノイズを生成してノイズ付加部２０２に出力する。ノイズとしては例えばホワイトノイズ、狭帯域ノイズ、ピンクノイズなどを用いることができる。本技術は何らかのノイズに限定されるものではなく、検出対象の振動の特徴と異なる信号であればノイズの種類に限定はない。また、再生信号に応じてもノイズを使い分けてもよい。例えば、再生信号により振動再生部１３０から出力される音声が男性の声（音楽の場合には男性ボーカル）である場合と、女性の声（音楽の場合には女性ボーカル）である場合とでノイズを使い分ける、などである。

　ノイズ付加部２０２は、ノイズ生成部２０１が生成したノイズを振動センサ１４０から出力された振動センサ信号に付加する処理を行う。ノイズを付加することにより振動再生部１３０からの音声出力により再生される振動の振動センサ１４０への伝達成分をマスキングする。ノイズ付加部２０２は特許請求の範囲における処理部に相当するものである。
処理部であるノイズ付加部２０２は、信号処理部２０３による発話検出処理において発話が検出されづらくなるように振動センサ信号を変化させる。

　信号処理部２０３は、ノイズ付加部２０２によりノイズが付加された振動センサ信号に基づいて装着者の発話を検出する。信号処理部２０３は、例えば、機械学習技術を用いて構築したニューラルネットワークや、ディープラーニング技術を用いて構築したニューラルネットワークなどにより振動センサ信号から装着者の発話による筐体１１０の振動を検出することで装着者の発話を検出する。

　本技術では信号処理部２０３は装着者の発話を検出するものであるため、装着者の周囲の人の発話を検出するのは好ましくない。一般的に発話の検出はヘッドホン１００に設けられたマイクロホンで行うが、マイクロホンでは発話しているのが装着者であるのか他の人であるのかを識別するのは難しい。また、発話しているのが装着者であるのか他の人であるのかを識別するためには複数のマイクロホンが必要となる。筐体が大きいヘッドバンド型のヘッドホンでは複数のマイクロホンを設けることが可能であるが、筐体１１０が小さいカナル型のヘッドホンでは複数のマイクロホンを設けることは難しい。

　そこで、マイクロホンではなく振動センサ１４０を用いて装着者の発話による筐体１１０の振動をセンシングすることにより他の人ではなく装着者の発話を検出する。他の人が発話しても振動センサ１４０では他の人の発話による振動はセンシングされない、またはセンシングされてもわずかな振動であるため、他の人の発話を装着者の発話であると誤検出することを防止できる。

　信号処理装置２００は以上のように構成されている。なお、第１乃至第４の実施の形態のいずれにおいても、信号処理装置２００は単体の装置として構成されてもよいし、振動再生装置であるヘッドホン１００において動作するものでもよいし、ヘッドホン１００と接続、同期、ペアリング等された電子機器等において動作するものでもよい。信号処理装置２００がそのような電子機器等において動作する場合、信号処理装置２００はヘッドホン１００と対応して動作することになる。また、プログラムの実行によりヘッドホン１００や電子機器が信号処理装置２００の機能を有するように実現されてもよい。信号処理装置２００がプログラムにより実現される場合、プログラムは予めヘッドホン１００や電子機器内にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。

［１－３．信号処理装置２００による処理］
　次に図３と図４を参照して、第１の実施の形態における信号処理装置２００による処理について説明する。

　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。振動センサ１４０が振動センサ信号を出力すると、ステップＳ１０１でノイズ付加部２０２がその振動センサ信号を受信する。

　また、ステップＳ１０２でノイズ生成部２０１がノイズを生成してノイズ付加部２０２に出力する。なお、ステップＳ１０２は必ずしもステップＳ１０１の後に行う必要はなく、ステップＳ１０１の前に行ってもよいし、ステップＳ１０１とステップＳ１０２はほぼ同時に行ってもよい。

　次にステップＳ１０３で、ノイズ付加部２０２が振動センサ信号にノイズ生成部２０１が生成したノイズを付加し、ノイズが付加された振動センサ信号を信号処理部２０３に出力する。ノイズ付加部２０２による振動センサ信号に対するノイズの付加は振動センサ１４０が筐体１１０の振動をセンシングして振動センサ信号がノイズ付加部２０２に入力される間行われる。

　次にステップＳ１０４で、信号処理部２０３がノイズ付加部２０２によってノイズが付加された振動センサ信号に基づいて発話検出処理を行う。信号処理部２０３は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。

　図４Ａは、振動再生部１３０からの音声出力による筐体１１０の振動の振動センサ１４０への伝達成分を振動センサ信号から得られる時間と音圧の関係で表した例である。図４Ａでは振動センサ信号にノイズは付加されていないため、振動再生部１３０から出力される音声の中に人の声が含まれている場合、装着者が発話していないにも関わらず、振動センサ１４０には装着者が発話した場合と似た振動パターンが入力されることになる。その場合、振動再生部１３０から出力される音声内の声による筐体１１０の振動を振動センサ１４０がセンシングし、信号処理部２０３が誤って装着者が発話したと誤検出してしまうおそれがある。

　第１の実施の形態ではこの誤検出を防ぐために振動センサ信号にノイズを付加する。振動センサ信号にノイズを付加することで、筐体１１０の振動の振動センサ１４０への伝達成分は図４Ｂに示すようになり、ノイズでマスキングされる。これにより、振動再生部１３０から出力される音声に人の声が含まれていたとしても、振動再生部１３０からの音声による筐体１１０の振動をセンシングした場合の振動センサ信号が装着者の発話による筐体１１０の振動をセンシングした場合の振動センサ信号と似た振動パターンではなくなる。ノイズの付加により、振動センサ信号を人の声による振動をセンシングした場合の振動センサ信号とは異なるものとすることで信号処理部２０３が装着者の発話を誤検出してしまうことを防止できる。

　なお、装着者の発話の声の大きさが振動再生部１３０から出力される音声の大きさよりも十分大きい場合、装着者の発話による筐体１１０の振動を示す振動センサ信号にノイズが付加されてもマスキングされないため、信号処理部２０３はノイズが付加された振動センサ信号であってもそれに基づいて装着者の発話を検出することができる。

　第１の実施の形態における信号処理装置２００の処理は以上のようにして行われる。

＜２．第２の実施の形態＞
［２－１．信号処理装置２００の構成］
　次に図５を参照して、第２の実施の形態における信号処理装置２００の構成について説明する。ヘッドホン１００の構成は第１の実施の形態と同様である。

　信号処理装置２００は振動計算部２０４、ノイズ生成部２０１、ノイズ付加部２０２、信号処理部２０３によって構成されている。

　振動計算部２０４は、振動再生部１３０から音声を出力するための再生信号の瞬時的な大きさを計算する。振動計算部２０４は計算結果をノイズ生成部２０１に出力する。再生信号の大きさには瞬時的な大きさを含み、「瞬時的」とは例えばミリ秒単位であるが本技術はそれに限定されるものではない。再生信号の大きさは所定の時間内の振動のピークでもいいし、所定時間の平均でもよい。

　振動計算部２０４は、再生信号の瞬時的な大きさを計算する際は、振動再生部１３０で再生する再生信号のある時間区間を切り取り、ハイパスフィルタやローパスフィルタ、バンドパスフィルタ等のフィルタを必要に応じて適用し、その後の再生信号のエネルギー（二乗平均値など）を求めるようにしてよい。

　ノイズ生成部２０１は振動計算部２０４の計算結果に基づいて振動センサ信号に付加するノイズの大きさを決定してノイズを生成する。ノイズ生成部２０１は再生信号の大きさに比例するように、再生信号の大きさが大きければ生成するノイズを大きくし、再生信号が小さければ生成するノイズも小さくし、再生信号の瞬時的な大きさに応じてノイズの大きさを時間的に変化させる。

　また、予め振動再生部１３０から出力される音声の音圧がどのくらい振動センサ１４０に伝達するかを予測しておき、その予測値に基づいてノイズの大きさを決定することができる。例えば、振動再生部１３０から音声を出力するための再生信号の大きさに対して、振動再生部１３０からの音声出力による筐体１１０の振動の振動センサ１４０への伝達によって振動センサ１４０に記録される信号の大きさが０．１倍であるということが予めわかっている場合で振動再生部１３０から出力される音声の大きさがＡである場合、ノイズ生成部２０１が生成するノイズの大きさを０．１Ａにすればよい。

　このように第２の実施の形態では、振動センサ信号に付与するノイズの大きさを振動再生部１３０から音声出力するための再生信号の瞬時的な大きさに応じて時間的に変化させる。

　なお、第１の実施の形態と同様にノイズとしてはホワイトノイズ、狭帯域ノイズ、ピンクノイズなどを用いることができる。検出対象の振動の特徴と異なる信号であればノイズの種類に限定はないし、再生信号に応じてもノイズを使い分けてもよい。

　ノイズ付加部２０２は第１の実施の形態と同様に、振動センサ信号にノイズ生成部２０１が生成したノイズを付加して信号処理部２０３に出力する。

　信号処理部２０３は第１の実施の形態と同様に、ノイズ付加部２０２によりノイズが付加された振動センサ信号に基づいて装着者の発話を検出する。

　以上のようにして第２の実施の形態における信号処理装置２００が構成されている。

［２－２．信号処理装置２００による処理］
　次に図６と図７を参照して、第２の実施の形態における信号処理装置２００による処理について説明する。

　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。振動センサ１４０が振動センサ信号を出力すると、ステップＳ２０１でノイズ付加部２０２がその振動センサ信号を受信する。

　また、信号出力部１２１から再生信号が出力されると、ステップＳ２０２で振動計算部２０４が再生信号を受信する。

　次にステップＳ２０３で、振動計算部２０４は再生信号の瞬時的な大きさを計算する。振動計算部２０４は、計算結果をノイズ生成部２０１に出力する。なお、ステップＳ２０２およびステップＳ２０３は必ずしもステップＳ２０１の後に行う必要はなく、ステップＳ２０１の前に行ってもよいし、ステップＳ２０１とほぼ同時に行ってもよい。

　次にステップＳ２０４で、ノイズ生成部２０１が、振動計算部２０４が算出した再生信号の大きさに基づいて振動センサ信号に付加するノイズを生成し、ノイズ付加部２０２に出力する。

　次にステップＳ２０５で、ノイズ付加部２０２が振動センサ信号にノイズを付加し、ノイズが付加された振動センサ信号を信号処理部２０３に出力する。ノイズ付加部２０２による振動センサ信号に対するノイズの付加は振動再生部１３０からの音声出力によって発生した振動を振動センサ１４０がセンシングし、振動センサ信号がノイズ付加部２０２に入力される間行われる。

　次にステップＳ２０６で、信号処理部２０３がノイズ付加部２０２によってノイズが付加された振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第１の実施の形態と同様の方法で行われる。信号処理部２０３は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。

　図７Ａは、振動再生部１３０からの音声出力による筐体１１０の振動の振動センサ１４０への伝達成分を振動センサ信号から得られる時間と音圧の関係で表した例である。図７Ａでは振動センサ信号にノイズは付加されていないため、振動再生部１３０から出力される音声の中に人の声が含まれている場合、装着者が発話していないにも関わらず、振動センサ１４０には装着者が発話した場合と似た振動パターンが入力されることになる。その場合、振動再生部１３０から出力される音声内の声による筐体１１０の振動を振動センサ１４０がセンシングし、信号処理部２０３が誤って装着者が発話したと誤検出してしまうおそれがある。

　また、振動センサ信号にノイズを付加するということは装着者の発話による筐体１１０の振動をセンシングした場合の振動センサ信号にもノイズを付加することになる。これにより、信号処理部２０３による装着者の発話の検出の精度が低下するおそれがある。

　この誤検出と発話検出精度の低下を防ぐために、第２の実施の形態では振動再生部１３０からの音声出力するための再生信号の瞬時的な大きさに応じて時間的に変化させたノイズを振動センサ信号に付加する。再生信号の瞬時的な大きさに応じて時間的に変化させたノイズを振動センサ信号に付加することで、筐体１１０の振動の大きいほど振動センサ信号に付加するノイズも大きくなり、筐体１１０の振動が小さい場合には振動センサ信号に付加するノイズも小さくなり、振動再生部１３０からの音声出力による筐体１１０の振動の振動センサ１４０への伝達成分は図７Ｂに示すようになり、ノイズでマスキングされる。

　これにより、振動再生部１３０から出力される音声に人の声が含まれていたとしても、振動再生部１３０からの音声出力による筐体１１０の振動をセンシングした場合の振動センサ信号が装着者の発話による筐体１１０の振動をセンシングした場合の振動センサ信号と似た振動パターンではなくなる。よって、振動センサ信号を人の声による振動をセンシングした場合の振動センサ信号とは異なるものとすることで信号処理部２０３によって装着者の発話が誤検出されてしまうことを防止することができる。

　また、振動センサ信号に付加するノイズは再生信号の瞬時的な大きさに応じて時間的に変化させ、振動センサ１４０への伝達成分をマスキングするために必要最小限のノイズであるため、必要以上に振動センサ信号をマスキングしてしまうことがない。よって、振動センサ信号に基づく装着者の発話検出の成功率を最大限保つことができる。

　第２の実施の形態における信号処理装置２００の処理は以上のようにして行われる。

　なお、振動計算部２０４が算出した、再生信号の瞬時的な大きさが所定の閾値ｔｈ１以下の場合に、振動センサ信号にノイズを一切付加しないようにしてもよい。

　また、振動再生部１３０から再生する振動の周波数特性に応じて、付加するノイズの周波数特性を変えてもよい。例えば、振動再生部１３０から再生する振動の周波数特性に反比例するような周波数特性をノイズに持たせることで、ノイズを付加した後の振動センサ信号の周波数特性がフラットになるようにしてもよい。

　　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。第１および第２の実施の形態では、その振動センサ信号にノイズを付与した後に信号処理部２０３による発話検出を行う。装着者の発話の声の大きさが振動再生部１３０から出力される音声よりも十分に大きければ、振動再生部１３０からの音声出力による筐体１１０の振動の伝達成分がノイズでマスキングされても、装着者の声による筐体１１０の振動の伝達成分はノイズでマスキングされないので、信号処理部２０３は装着者の発話を検出することができる。

　第１および第２の実施の形態は、振動再生部１３０から音声出力するための再生信号と振動センサ信号の時間的な同期が厳密に取れていない場合でも実行可能である。例えば再生信号のクロックと振動センサ信号のクロックが異なる場合など、システム構成によっては再生信号と振動センサ信号の完全な同期を取ることが難しい、あるいは、不可能な場合にも第１および第２の実施の形態は有効である。

　なお、第２の実施の形態においては、振動再生部１３０により再生される振動が大きい場合、振動センサ信号に付加されるノイズも大きくなって振動センサ信号がマスキングされるため、装着者の発話の検出精度が下がる場合があり得る。これは、振動再生部１３０から出力される音声の大きさに対する装着者の声の相対的な大きさが小さいためである。よって、そのような場合には、装着者は振動再生部１３０から出力される音声の大きさよりも大きい声で発話する必要がある。

　そこで、ヘッドホン１００と接続、同期、ペアリングなどがされている電子機器３００、例えばスマートフォンにおいて、図８に示すようにその旨を装着者に通知するとよい。通知方法としては、図８Ａに示す、画面３０１におけるメッセージの表示やアイコンの表示、図８Ｂに示す、ＬＥＤ３０２の点灯や点滅などがある。電子機器３００はスマートフォン以外にもウェアラブルデバイス、パーソナルコンピュータ、タブレット端末、ヘッドマウントディスプレイ、携帯音楽再生装置などであってもよい。

　あるいは、装着者の発話が検出できなかった際に装着者がその理由を知ることができる入力操作を用意し、電子機器３００またはヘッドホン１００に対してその入力操作がなされたら、理由を装着者に通知するようにしてもよい。

＜３．第３の実施の形態＞
［３－１．信号処理装置２００の構成］
　次に図９を参照して、第３の実施の形態における信号処理装置２００の構成について説明する。ヘッドホン１００の構成は第１の実施の形態と同様である。

　信号処理装置２００は伝達成分予測部２０５、伝達成分減算部２０６、信号処理部２０３によって構成されている。

　伝達成分予測部２０５は、信号出力部１２１から振動再生部１３０に出力される再生信号に基づいて、振動再生部１３０からの音声出力による筐体１１０の振動の振動センサ１４０への伝達成分を予測する。伝達成分予測部２０５は予測した伝達成分を伝達成分減算部２０６に出力する。

　伝達成分の予測方法としては、例えば、振動再生部１３０から振動センサ１４０への伝達特性（インパルス応答）を事前（信号処理装置２００を備える製品の出荷前など）に測定しておき、振動再生部１３０から音声として出力される再生信号に事前に測定した伝達特性を畳み込む、という方法がある。

　伝達特性は再生信号の大きさや種類等の条件によって変わる可能性があるので、事前に複数の条件における伝達特性を測定しておき、再生信号の大きさ等の条件応じて適切な伝達特性を選択して畳み込んでもよい。

　また、ヘッドホン１００においては装着者の違いやイヤピース１５０のサイズや材質の違い、装着者の耳との接触状態の違いなどの各種条件によって伝達特性が変わる可能性がある。これに対応するために、装着者がヘッドホン１００を使用している状態において伝達特性を測定してもよい。その伝達特定の測定の際は、装着者によって意図したタイミングで測定開始指示がなされると、振動再生部１３０からスイープ信号などの規定の信号が再生され、その際の振動センサ１４０の信号を元に伝達特性が求められるようにしてもよい。

　上記の方法は、伝達成分減算部２０６において信号同士のサンプル単位での減算を行うため、振動センサ信号と、伝達成分予測部２０５で予測した伝達成分は、サンプリング周波数が同じで、サンプル単位で時間的な同期が取れている必要がある。振動再生部１３０で再生する再生信号の元のサンプリング周波数が振動センサ信号のサンプリング周波数と異なる場合は、サンプリング周波数変換を行ってから上述の予測方法を行えばよい。また、再生信号と振動センサ信号がソフトウェア処理上時間的にずれてしまう場合は、適切な同期補正処理を行えばよい。また、再生信号を振動センサ信号と同期するようにクロックを共通化してもよい。また、遅延回路を用いて振動センサ１４０と振動再生部１３０のクロックとサンプリングレートを同期させるようにしてもよい。

　伝達成分減算部２０６は、振動センサ信号から伝達成分予測部２０５が予測した伝達成分を減算して、減算処理後の振動センサ信号を信号処理部２０３に出力する。伝達成分減算部２０６は特許請求の範囲における処理部に相当するものである。処理部である伝達成分減算部２０６は、信号処理部２０３による発話検出処理において発話が検出されづらくなるように振動センサ信号を変化させる。

　信号処理部２０３は伝達成分減算部２０６により減算処理が施された振動センサ信号に基づいて装着者の発話を検出する。発話の検出方法は第１の実施の形態と同様である。

　以上のようにして第３の実施の形態における信号処理装置２００が構成されている。

［３－２．信号処理装置２００による処理］
　次に図１０を参照して、第３の実施の形態における信号処理装置２００による処理について説明する。

　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。振動センサ１４０が振動センサ信号を出力すると、ステップＳ３０１で伝達成分減算部２０６がその振動センサ信号を受信する。

　また、信号出力部１２１から再生信号が出力されると、ステップＳ３０２で伝達成分予測部２０５が再生信号を受信する。

　次にステップＳ３０３で、伝達成分予測部２０５が再生信号に基づいて伝達成分を予測し、予測結果を伝達成分減算部２０６に出力する。

　なお、ステップＳ３０２およびステップＳ３０３は必ずしもステップＳ３０１の後に行う必要はなく、ステップＳ３０１の前に行ってもよいし、ほぼ同時に行ってもよい。

　次にステップＳ３０４で、伝達成分減算部２０６が振動センサ信号から予測伝達成分を減算して、減算後の振動センサ信号を信号処理部２０３に出力する。伝達成分減算部２０６による振動センサ信号からの予測伝達成分の減算は、振動再生部１３０による振動を振動センサ１４０がセンシングし、振動センサ信号がノイズ付加部２０２に入力される間行われる。

　次にステップ３０５で、信号処理部２０３は減算処理が施された振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第１の実施の形態と同様の方法で行われる。信号処理部２０３は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。

　第３の実施の形態における信号処理装置２００の処理は以上のようにして行われる。第３の実施の形態では、振動再生部１３０からの音声出力による筐体１１０の振動が振動センサ信号に与える影響である伝達成分を予測し、それを振動センサ信号から減算するため、振動再生部１３０で再生される振動による発話検出性能の低下を防ぐことができる。

＜４．第４の実施の形態＞
［４－１．信号処理装置２００の構成］
　次に図１１を参照して、第４の実施の形態における信号処理装置２００の構成について説明する。ヘッドホン１００の構成は第１の実施の形態と同様である。

　信号処理装置２００は振動計算部２０４、信号処理制御部２０７、信号処理部２０３によって構成されている。

　振動計算部２０４は、第２の実施の形態と同様に、振動再生部１３０から音声を出力するための再生信号の瞬時的な大きさを計算する。振動計算部２０４は計算結果を信号処理制御部２０７に出力する。再生信号の大きさには瞬時的な大きさを含み、「瞬時的」とは例えばミリ秒単位であるが本技術はそれに限定されるものではない。再生信号の大きさは所定の時間内の振動のピークでもいいし、所定時間の平均でもよい。

　信号処理制御部２０７は、振動計算部２０４の計算結果に基づいて信号処理部２０３の動作のオンオフを切り替える制御を行う。信号処理制御部２０７は、信号処理部２０３の動作をオフにする処理を行うことで、発話が検出されづらくなるようにする。信号処理制御部２０７は、振動計算部２０４が算出した再生信号の大きさが予め設定してある閾値ｔｈ２以上である場合には信号処理部２０３が信号処理を行わないように信号処理部２０３をオフにする制御信号を出力する。一方、再生信号の大きさが閾値ｔｈ２以上ではない場合には信号処理部２０３が信号処理を行うように信号処理部２０３をオンにする制御信号を出力する。閾値ｔｈ２は再生信号の大きさが振動センサ信号を用いた信号処理に影響を与えると予想される値に設定する。信号処理制御部２０７は特許請求の範囲における処理部に相当するものである。

　信号処理部２０３は振動センサ信号に基づいて装着者の発話を検出する。発話の検出方法は第１の実施の形態と同様である。信号処理部２０３は信号処理制御部２０７から信号処理部２０３をオンにする制御信号を受信した場合にのみ動作する。

　第４の実施の形態における信号処理装置２００は以上のようにして構成されている。

［４－２．信号処理装置２００による処理］
　次に図１２を参照して、第４の実施の形態における信号処理装置２００の処理について説明する。

　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。振動センサ１４０が振動センサ信号を出力すると、ステップＳ４０１で信号処理部２０３がその振動センサ信号を受信する。

　またステップＳ４０２で、振動計算部２０４が信号出力部１２１から出力された再生信号を受信する。

　次にステップＳ４０３で、振動計算部２０４は再生信号の瞬時的な大きさを計算する。振動計算部２０４は、計算結果を信号処理部２０３に出力する。

　なお、ステップＳ４０３は必ずしもステップＳ４０１およびステップＳ４０２の後に行う必要はなく、ステップＳ４０１およびステップＳ４０２の前に行ってもよいし、ほぼ同時に行ってもよい。

　次にステップＳ４０４で、信号処理制御部２０７が再生信号の大きさと閾値ｔｈ２を比較し、再生信号の大きさが閾値ｔｈ２以上ではない場合、処理はステップＳ４０５に進む（ステップＳ４０４のＮｏ）。

　次にステップＳ４０５で、信号処理制御部２０７は信号処理部２０３が発話検出処理を実行するように信号処理部２０３をオンにする制御信号を出力する。

　そしてステップＳ４０６で信号処理部２０３が発話検出処理を行う。信号処理部２０３は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。

　一方、ステップＳ４０４で、再生信号の大きさが閾値ｔｈ２以上である場合、処理はステップＳ４０７に進む（ステップＳ４０４のＹｅｓ）。

　そしてステップＳ４０７で、信号処理制御部２０７は信号処理部２０３が発話検出処理を実行しないように信号処理部２０３をオフにする制御信号を出力する。これにより信号処理部２０３は発話検出処理を行わない。

　以上のようにして第４の実施の形態における処理が行われる。第４の実施の形態によれば、再生信号の大きさが閾値ｔｈ２以上である場合には信号処理部２０３により信号処理を行わないようにすることで信号処理による装着者への悪影響が生じないようにすることができる。

＜５．第５の実施の形態＞
［５－１．信号処理装置２００の構成］
　次に図１３を参照して、第５の実施の形態における信号処理装置２００の構成について説明する。ヘッドホン１００の構成は第１の実施の形態と同様である。

　信号処理装置２００は振動計算部２０４、ゲイン計算部２０８、ゲイン付加部２０９、信号処理部２０３によって構成されている。

　振動計算部２０４は、第２の実施の形態と同様に、振動再生部１３０から音声を出力するための再生信号の瞬時的な大きさを計算する。振動計算部２０４は計算結果をゲイン計算部２０８に出力する。再生信号の大きさには瞬時的な大きさを含み、「瞬時的」とは例えばミリ秒単位であるが本技術はそれに限定されるものではない。再生信号の大きさは所定の時間内の振動のピークでもいいし、所定時間の平均でもよい。

　ゲイン計算部２０８は、振動計算部２０４が算出した再生信号の大きさが予め設定してある閾値ｔｈ３以上である場合には、振動センサ信号が抑圧されるようにゲインを計算（０ｄＢよりも小さいゲインを計算）し、計算結果をゲイン付加部２０９に出力する。

　ゲイン付加部２０９は、ゲイン計算部２０８による計算結果に基づいて振動センサ信号にゲインを掛ける処理を行う。これにより振動センサ信号を抑圧する。ゲイン付加部２０９は特許請求の範囲における処理部に相当するものである。

　信号処理部２０３はゲイン付加部２０９によりゲインが掛けられた振動センサ信号に基づいて装着者の発話を検出する。発話検出処理は第１の実施の形態と同様の方法で行われる。信号処理部２０３は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。

　第５の実施の形態における信号処理装置２００は以上のようにして構成されている。

［５－２．信号処理装置２００による処理］
　次に図１４を参照して、第５の実施の形態における信号処理装置２００による処理について説明する。

　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。振動センサ１４０が振動センサ信号を出力すると、ステップＳ５０１でゲイン付加部２０９がその振動センサ信号を受信する。

　また、信号出力部１２１から再生信号が出力されると、ステップＳ５０２で振動計算部２０４が再生信号を受信する。

　次にステップＳ５０３で、振動計算部２０４は再生信号の瞬時的な大きさを計算する。振動計算部２０４は、計算結果をゲイン計算部２０８に出力する。なお、ステップＳ５０２およびステップＳ５０３は必ずしもステップＳ５０１の後に行う必要はなく、ステップＳ５０１の前に行ってもよいし、ステップＳ５０１とほぼ同時に行ってもよい。

　次にステップＳ５０４で、ゲイン計算部２０８が、振動計算部２０４が算出した再生信号の大きさが予め設定してある閾値ｔｈ３以上である場合には、振動センサ信号が抑圧されるようにゲインを計算し、計算結果をゲイン付加部２０９に出力する。

　次にステップＳ５０５で、ゲイン付加部２０９が振動センサ信号にゲインを掛け、ゲインが掛けられた振動センサ信号を信号処理部２０３に出力する。ゲイン付加部２０９は、振動再生部１３０からの音声出力によって発生した振動を振動センサ１４０がセンシングし、振動センサ信号がノイズ付加部２０２に入力される間、振動センサ信号にゲインを掛ける処理を行う。

　次にステップＳ５０６で、信号処理部２０３がゲイン付加部２０９によってゲインが掛けられた振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第１の実施の形態と同様の方法で行われる。信号処理部２０３は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。

　以上のようにして第５の実施の形態における処理が行われる。第５の実施の形態によれば、振動センサ信号にゲインを掛けて抑圧された振動センサ信号に基づいて信号処理部２０３が発話検出処理を行うため、装着者が発話していない場合に装着者の発話であると誤検出してしまうことを抑制できる。

　なお、振動計算部２０４が算出した再生信号の大きさが大きくなればなるほど、ゲイン付加部２０９で振動センサ信号にかけるゲインの量を下げることもできる。また、振動計算部２０４が算出した再生信号の大きさが所定値よりも小さい場合、ゲインを初期値（０ｄＢ）に戻すようにしてもよい。

＜６．第６の実施の形態＞
［６－１．信号処理装置２００の構成］
　次に図１５を参照して、第６の実施の形態における信号処理装置２００の構成について説明する。ヘッドホン１００の構成は第１の実施の形態と同様である。

　信号処理装置２００は振動計算部２０４および信号処理部２０３によって構成されている。

　信号処理部２０３は振動センサ信号に基づいて装着者の発話を検出する。信号処理部２０３は特許請求の範囲における処理部に相当するものである。

　第６の実施の形態における信号処理装置２００は以上のようにして構成されている。

［６－２．信号処理装置２００による処理］
　次に図１６を参照して、第６の実施の形態における信号処理装置２００による処理について説明する。

　振動センサ１４０は筐体１１０の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置２００に出力する。振動センサ１４０が振動センサ信号を出力すると、ステップＳ６０１で信号処理部２０３がその振動センサ信号を受信する。

　また、信号出力部１２１から再生信号が出力されると、ステップＳ６０２で振動計算部２０４が再生信号を受信する。

　次にステップＳ６０３で、振動計算部２０４は再生信号の瞬時的な大きさを計算する。振動計算部２０４は、計算結果を信号処理部２０３に出力する。なお、ステップＳ６０２およびステップＳ６０３は必ずしもステップＳ６０１の後に行う必要はなく、ステップＳ６０１の前に行ってもよいし、ステップＳ６０１とほぼ同時に行ってもよい。

　そしてステップＳ６０４で、信号処理部２０３が振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第１の実施の形態と同様の方法で行われる。信号処理部２０３は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。

　信号処理部２０３の内部処理では、振動センサ信号に人の声が含まれる可能性をニューラルネットワーク等を用いて計算し、０から１のパラメータを生成する。パラメータにおいては、０は人の声が含まれる確率が０％に相当し、１は１００％に相当する。信号処理部２０３は、このパラメータを所定の閾値ｔｈ４と比較して閾値ｔｈ４以上であれば、装着者が発話したと判断してその旨の検出結果を出力する。一方、パラメータが閾値ｔｈ４以上ではない場合、装着者は発話していないと判断してその旨の検出結果を出力する。

　この場合、振動計算部２０４が算出した再生信号の大きさが予め設定してある閾値ｔｈ５以上である場合には、信号処理部２０３は閾値ｔｈ４を所定量上げる（１に近づける）ことで、装着者の発話を検出しづらくすることができる。

　さらに、振動計算部２０４が算出した再生信号の大きさが大きくなればなるほど、閾値ｔｈ４を上げる量を大きくしてもよい。また、振動計算部２０４が算出した再生信号の大きさが所定量よりも下がった場合、閾値ｔｈ４を初期値に戻してもよい。

　以上のようにして第６の実施の形態における処理が行われる。第６の実施の形態によれば、パラメータと比較して装着者が発話したと判断する閾値を設定して発話検出をしづらくすることにより、装着者が発話していない場合に装着者の発話であると誤検出してしまうことを抑制できる。

＜７．応用例＞
　上述した第１乃至第４の実施の形態の信号処理部２０３は装着者の発話を検出した場合、検出結果を図１７に示すように信号処理装置２００外の外部処理部４００に出力する。そして、発話検出結果は外部処理部４００において種々の処理に応用することができる。

　外部処理部４００は、装着者がヘッドホン１００を装着して振動再生部１３０から出力される音声（音楽など）を聴いている状態で装着者が発話したという検出結果を信号処理装置２００から受信すると、振動再生部１３０による音声出力を停止する処理を行う。振動再生部１３０からの音声出力の停止は、例えば、再生信号を出力する電子機器に対して再生信号の出力を停止するよう指示する制御信号を生成し、その制御信号を、通信部を介して電子機器に送信することで行う事ができる。

　ヘッドホン１００を装着して音声を聴いている装着者が発話したことを検出して振動再生部１３０からの音声出力を停止することにより、装着者は人と会話をするためにヘッドホン１００を外したり、再生信号を出力している電子機器を操作して音声出力を停止する必要がない。

　本技術により信号処理部２０３の発話検出の精度を高めることにより、外部処理部４００が誤って振動再生部１３０からの音声出力を停止してしまうことを防止することができる。

　外部処理部４００が行う処理は、振動再生部１３０からの音声出力を停止する処理に限られない。他の処理としては例えばヘッドホン１００の動作モードの切り替え処理がある。

　動作モードの切り替え処理とは、具体的には、ヘッドホン１００がマイクロホンとそのマイクロホンで取り込んだ音声を振動再生部１３０から出力して装着者が聞き取りやすくする、いわゆる外音取り込みモードを備える場合に、ヘッドホン１００の動作モードをその外音取り込みモードに切り替える処理である。

　本技術で装着者の発話を検出してヘッドホン１００のモードを外音取り込みモードに切り替えることにより、装着者はヘッドホン１００を外すことなく、快適に人と会話をすることができる。これは、例えば、装着者が家族や友人との話す場合、装着者が飲食店などにおいて口頭で注文する場合、飛行機においてＣＡ（Cabin Attendant）と会話する場合などにおいて有用である。

　なお、外音取り込みモードへの切り替え前のヘッドホンの動作モードは通常モードでもよいし、ノイズキャンセリングモードでもよい。

　なお、外部処理部４００は、振動再生部１３０からの音声出力を停止する処理とヘッドホン１００の動作モードを切り替える処理の両方を行ってもよい。振動再生部１３０からの音声の出力を停止し、さらに、ヘッドホン１００の動作モードを外音取り込みモードに切り替えることにより、装着者はより快適に人と会話をすることができるようになる。なお、振動再生部１３０からの音声出力を停止する処理と、ヘッドホン１００の動作モードを切り替える処理を行う処理部は別々の処理部でもよい。

　なお、外部処理部４００はヘッドホン１００内部の基板１２０に設けられたプロセッサによる処理で実現してもよいし、ヘッドホン１００と接続、同期、ペアリングなどがされている電子機器の処理で実現してもよいし、信号処理装置２００に外部処理部４００が設けられていてもよい。

＜８．変形例＞
　以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。

　振動再生部１３０と振動センサ１４０を備える振動再生装置はイヤホンやヘッドマウントディスプレイでもよい。

　また、信号処理部２０３が行う「振動センサ信号を用いた信号処理」は、例えば、装着者の発話、歩行、タップ、脈拍などの特定の振動の検出処理であってよい。

　第１および第２の実施の形態においては、振動再生部１３０から再生される音声の音圧が所定の閾値ｔｈ３以下の場合には、振動再生部１３０から再生される音声による筐体１１０の振動が振動センサ１４０にセンシングされない、またはセンシングされても振動が小さいので、誤って信号処理が実行されることがないとして振動センサ信号にノイズを付加しない、としてもよい。

　ヘッドホン１００は振動再生部１３０と振動センサ１４０をそれぞれ２つ以上備えていてもよい。その場合、第１および第２の実施の形態においては、それぞれの振動再生部１３０から再生する振動に基づいて、それぞれの振動センサ１４０から出力される振動センサ信号に付与するノイズを決定するようにする。また、第３の実施の形態においては、それぞれの振動再生部１３０からそれぞれの振動センサ１４０への伝達特性を用いて処理を行う。

　本技術は以下のような構成も取ることができる。
（１）
　振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して動作し、
　前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部
を備える信号処理装置。
（２）
　前記処理部は、前記振動再生部から振動を再生するための再生信号に基づいて、前記処理を行う（１）に記載の信号処理装置。
（３）
　前記処理は、前記発話検出処理において前記発話が検出されづらくなるように前記振動センサ信号を変化させる（１）または（２）に記載の信号処理装置。
（４）
　前記振動センサが前記振動再生装置の筐体の振動をセンシングして出力した前記振動センサ信号に基づいて前記装着者の発話を検出する（１）から（３）のいずれかに記載の信号処理装置。
（５）
　前記処理部は、前記振動センサ信号にノイズを付加するノイズ付加部である（３）に信号処理装置。
（６）
　前記振動再生部から振動を再生するための再生信号の大きさを算出する振動計算部を備え、
　前記ノイズ付加部は、前記再生信号の大きさに応じたノイズを前記振動センサ信号に付加する（５）に記載の信号処理装置。
（７）
　前記処理部は、前記振動センサ信号から、前記振動再生部により再生される振動の振動センサへの伝達成分を減算する伝達成分減算部である（３）に記載の信号処理装置。
（８）
　前記振動再生部から振動を再生するための再生信号に基づいて前記伝達成分を予測し、予測した前記伝達成分を前記伝達成分減算部に出力する伝達成分予測部を備える（７）に記載の信号処理装置。
（９）
　前記処理部は、前記発話検出処理のオンオフを制御する信号処理制御部である（２）に記載の信号処理装置。
（１０）
　前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上である場合に前記発話検出処理をオフにするように制御する（９）に記載の信号処理装置。
（１１）
　前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上ではない場合に前記発話検出処理をオンにするように制御する（９）に記載の信号処理装置。
（１２）
　前記処理部は、前記振動センサ信号を抑圧するゲインを前記振動センサ信号に掛けるゲイン付加部である（３）に記載の信号処理装置。
（１３）
　前記処理部は、前記再生信号の大きさに基づいて前記装着者の発話を検出したと判断する閾値を調整する（２）に記載の信号処理装置。
（１４）
　前記振動再生部と前記振動センサを備える前記振動再生装置において動作する（１）から（１３）のいずれかに記載の信号処理装置
（１５）
　前記振動再生装置はヘッドホンである（１）から（１４）のいずれかに記載の信号処理装置。
（１６）
　前記振動センサは加速度センサである（１）から（１５）のいずれかに記載の信号処理装置。
（１７）
　前記再生信号は音声信号であり、前記振動再生部は、音声の出力により振動を再生する
（１）から（１６）のいずれかに記載の信号処理装置。
（１８）
　振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
　前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
信号処理方法。
（１９）
　振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
　前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
信号処理方法をコンピュータに実行させるプログラム。

１００・・・振動再生装置
１３０・・・振動再生部
１４０・・・ノイズ付加部
２００・・・信号処理装置
２０２・・・振動センサ
２０３・・・信号処理部
２０５・・・伝達成分予測部
２０６・・・伝達成分減算部
２０７・・・信号処理制御部
２０９・・・ゲイン付加部

Claims

　振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して動作し、
　前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部
を備える信号処理装置。
　前記処理部は、前記振動再生部から振動を再生するための再生信号に基づいて、前記処理を行う
　請求項１に記載の信号処理装置。
　前記処理は、前記発話検出処理において前記発話が検出されづらくなるように前記振動センサ信号を変化させる
請求項１に記載の信号処理装置。
　前記振動センサが前記振動再生装置の筐体の振動をセンシングして出力した前記振動センサ信号に基づいて前記装着者の発話を検出する
請求項１に記載の信号処理装置。
　前記処理部は、前記振動センサ信号にノイズを付加するノイズ付加部である
請求項３に信号処理装置。
　前記振動再生部から振動を再生するための再生信号の大きさを算出する振動計算部を備え、
　前記ノイズ付加部は、前記再生信号の大きさに応じたノイズを前記振動センサ信号に付加する
請求項５に記載の信号処理装置。
　前記処理部は、前記振動センサ信号から、前記振動再生部により再生される振動の振動センサへの伝達成分を減算する伝達成分減算部である
請求項３に記載の信号処理装置。
　前記振動再生部から振動を再生するための再生信号に基づいて前記伝達成分を予測し、予測した前記伝達成分を前記伝達成分減算部に出力する伝達成分予測部を備える
請求項７に記載の信号処理装置。
　前記処理部は、前記発話検出処理のオンオフを制御する信号処理制御部である
請求項２に記載の信号処理装置。
　前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上である場合に前記発話検出処理をオフにするように制御する
請求項９に記載の信号処理装置。
　前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上ではない場合に前記発話検出処理をオンにするように制御する
請求項９に記載の信号処理装置。
　前記処理部は、前記振動センサ信号を抑圧するゲインを前記振動センサ信号に掛けるゲイン付加部である
請求項３に記載の信号処理装置。
　前記処理部は、前記再生信号の大きさに基づいて前記装着者の発話を検出したと判断する閾値を調整する
請求項２に記載の信号処理装置。
　前記振動再生部と前記振動センサを備える前記振動再生装置において動作する
請求項１に記載の信号処理装置。
　前記振動再生装置はヘッドホンである
請求項１に記載の信号処理装置。
　前記振動センサは加速度センサである
請求項１に記載の信号処理装置。
　前記再生信号は音声信号であり、前記振動再生部は、音声の出力により振動を再生する
請求項１に記載の信号処理装置。
　振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
　前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
信号処理方法。
　振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
　前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
信号処理方法をコンピュータに実行させるプログラム。