JP2011027972A - 信号処理装置、信号処理方法、及び信号処理プログラム - Google Patents

信号処理装置、信号処理方法、及び信号処理プログラム Download PDF

Info

Publication number
JP2011027972A
JP2011027972A JP2009173113A JP2009173113A JP2011027972A JP 2011027972 A JP2011027972 A JP 2011027972A JP 2009173113 A JP2009173113 A JP 2009173113A JP 2009173113 A JP2009173113 A JP 2009173113A JP 2011027972 A JP2011027972 A JP 2011027972A
Authority
JP
Japan
Prior art keywords
sound
frequency
pitch
signal processing
pitch frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009173113A
Other languages
English (en)
Inventor
Mutsumi Saito
睦巳 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009173113A priority Critical patent/JP2011027972A/ja
Publication of JP2011027972A publication Critical patent/JP2011027972A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】どのような環境下であっても、音に含まれる電子音(ベル音、チャイム音、メロディ音等)の存在を正確に検出する信号処理装置等を提供する。
【解決手段】音の信号波形をフレームに分割するフレーム分割部202と、分割されたフレームごとに信号波形を周波数分析する周波数分析部203と、周波数分析結果に基づいて、分割されたフレームごとに、ピッチ周波数を検出するピッチ周波数検出部204と、ピッチ周波数が、予め設定された周波数の範囲内で複数フレーム以上連続しているか否かを解析する連続性解析部205と、連続性の解析結果に基づいて、音に電気的に生成された電子音が含まれているか否かを判定する電子音有無判定部206とを備える。
【選択図】図2

Description

本発明は、音の信号を解析する信号処理装置等に関する。
例えば、携帯端末や移動型ロボットのように、様々な環境で使用される装置は、環境に応じた動作を行うことでより高度なサービスを提供することが可能となる。特に、携帯電話においては、様々な騒音環境下で通話することも多いため、騒音環境下に応じた音声強調機能が実現されており、これらを装置内で調整する機能が実現されている。この自動調整の機能は、多くの場合、周囲の音の大きさによって制御されているが、同じ騒音レベルでも騒音源の種類によって通話音声への影響には差がある。
そのため、周囲の環境騒音を認識し、騒音の種類に応じて強調の程度、種類等を切換えることができれば、より効果的に音声処理を行うことができる。また、例えば、携帯電話のアプリケーションとして、周囲騒音からユーザの環境、移動状況を推定し、状況に応じたサービスを提供することも考えられる。特に、様々な環境において頻繁に発生している、電気回路により生成される音成分(以下、電子音とする)は、知覚的に高音であったり、音量が大きかったりと目立った特徴を示すことが多い。このような電子音は、携帯電話の通話において非常に耳障りになり通話が妨害されてしまう。
入力された音の種類を認識する技術として、入力音の特徴を解析し、その特徴を予め学習しておいたデータベースと比較し、入力音の種類を認識する技術が開示されている(例えば、特許文献1、2を参照)。
特開2001−142480号公報 特開2003−23668号公報
しかしながら、入力音の特徴をデータベースと比較する技術では、環境騒音等により入力音の特性が大きく変動するような場合(例えば、駅や繁華街等の場合)には、騒音の特性が決定されず、音についての認識性能が低下してしまうという課題を有する。特に、環境音の中で目立った特徴を示し、頻繁に発生している電子音が含まれる場合には、音を認識する性能の劣化が著しくなってしまう。
本願に開示する信号処理装置は、音の信号波形を複数のフレームに分割し、フレームごとに周波数分析を行い、成分の大きさが最大となる周波数をピッチ周波数として検出する。また、検出したピッチ周波数が予め設定された周波数の範囲内で連続している場合に、前記音に電子音が含まれていると判定する。
本願に開示する信号処理装置は、どのような環境下であっても、電子音の存在を正確に検出することができるという効果を奏する。
第1の実施形態に係る信号処理装置としての携帯電話機のハードウェア構成図である。 第1の実施形態に係る信号処理装置の機能ブロック図である。 第1の実施形態に係る信号処理装置の動作を示すフローチャートである。 第1の実施形態に係る信号処理装置において、ピッチ周波数を検出する処理を示す図である。 第1の実施形態に係る信号処理装置において、ピッチ列の連続性を解析する処理を示す図である。 第1の実施形態に係る信号処理装置において、連続性の解析結果の一例を示す第1の図である。 第1の実施形態に係る信号処理装置において、連続性の解析結果の一例を示す第2の図である。 第2の実施形態に係る信号処理装置の機能ブロック図である。 第2の実施形態に係る信号処理装置の動作を示すフローチャートである。 第2の実施形態に係る信号処理装置において、自己相関分析を行った結果の一例を示す図である。 第2の実施形態に係る信号処理装置において、ピッチ軌跡の周期性の開始点を検索する処理を示す図である。 第2の実施形態に係る信号処理装置において、ピッチ軌跡における周期ごとの周波数を決定する処理を示す図である。 第2の実施形態に係る信号処理装置において、ピッチ列をグループ化する処理を示す図である。 第2の実施形態に係る信号処理装置において、電子音を識別する処理を示すフローチャートである。 第3の実施形態に係る信号処理装置の機能ブロック図である。 第3の実施形態に係る信号処理装置の動作を示すフローチャートである。 第3の実施形態に係る信号処理装置において、入力音の特徴を抽出する場合の一例を示す図である。 第3の実施形態に係る信号処理装置において、入力音が各環境である確率を算出する処理を示す図である。 第4の実施形態に係る信号処理装置の機能ブロック図である。 第4の実施形態に係る信号処理装置の動作を示すフローチャートである。 第4の実施形態に係る信号処理装置において、ピッチ周波数を選別する処理を示す図である。
以下、本発明の実施の形態を説明する。本発明は多くの異なる形態で実施可能である。従って、本実施形態の記載内容のみで本発明を解釈すべきではない。また、本実施形態の全体を通して同じ要素には同じ符号を付けている。
以下の実施の形態では、主に装置について説明するが、所謂当業者であれば明らかな通り、本発明は方法、及び、コンピュータを動作させるためのプログラムとしても実施できる。また、本発明はハードウェア、ソフトウェア、または、ハードウェア及びソフトウェアの実施形態で実施可能である。プログラムは、ハードディスク、CD−ROM、DVD−ROM、光記憶装置、または、磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。
なお、以下の実施形態においては、信号処理装置の一態様として携帯電話機について説明するが、例えば、移動端末、移動型ロボット、自動車に設置されたカーナビゲーション等、移動に伴い音環境が変化する装置であれば、本願の技術を適用可能である。
また、以下の実施形態においては、音(以下、入力音とする)に電子音が含まれる場合に、その電子音の種類として、ベル音、チャイム音、メロディ音を識別する処理を説明する。しかし、その他の電子音(例えば、公共車が発するサイレン音、時報における1秒ごとのカウント音、災害時の警告音、障害者用のサイン音等)についても識別可能である。
(第1の実施形態)
実施形態の信号処理装置は、フレーム分割手段と周波数分析手段とピッチ周波数検出手段と連続性解析手段と音成有無判定手段を備える。フレーム分割手段は、音の信号波形をフレームに分割する。周波数分析手段は、フレーム分割手段が分割したフレームごとに信号波形を周波数分析する。ピッチ周波数検出手段は、周波数分析手段の処理結果に基づいて、分割されたフレームごとに、成分の大きさが最大となる周波数を検出する。連続性解析手段は、ピッチ周波数検出手段が検出したピッチ周波数の値が、複数フレーム以上連続しているか否かを解析する。音成分有無判定手段は、連続性解析手段が解析した結果に基づいて、音に、電気的に生成された音成分が含まれているか否かを判定する。
本実施形態に係る信号処理装置について、図1ないし図7を用いて説明する。
図1は、本実施形態に係る信号処理装置としての携帯電話機のハードウェア構成図である。携帯電話機100は、CPU101とROM102とRAM103とHD(ハードディスク)104とディスプレイ105とI/F(インターフェース)106と操作パネル107とマイク108とスピーカ109とを備え、各要素はバスによって接続されている。
CPU101は、携帯電話機におけるデータの計算、加工、様々な機能の制御等を行う。ROM102は、ブートプログラムや信号処理装置として機能させるための信号処理プログラム等を記憶している。RAM103は、CPU101のワーク用の領域として使用される。ROM102に記憶されたプログラムは、必要に応じてRAM103に読み出され、CPU101により実行される。
HD104は、携帯電話機100内で記憶する様々データ(例えば、アドレス情報やメール情報等)を保存する。
ディスプレイ105は、アイコン、文字、画像等、利用者が携帯電話機を機能させるのに必要な情報を表示する。このディスプレイ105には、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイ等を採用することができる。
I/F106は、他の外部端末の通信においてデータの入出力等を制御する。I/F106には、たとえばモデムやLANアダプタ等を採用することができる。操作パネル107は、文字、数字、各種指示情報等を入力するための操作ボタンを有し、利用者の操作に応じて情報の入力を行う。この操作パネルには、タッチパネル式の入力パッドやテンキー等を含んでもよい。
マイク108は、利用者の音声を入力する。このとき、利用者の音声以外にも周囲で発生している様々な音が、このマイク108を介して携帯電話機100に入力される。スピーカ109は、通話相手の音声、操作音、着信音等の音を出力する。このとき、通話相手の音声以外にも通話相手の周囲で発生している様々な音が、このスピーカ109を介して携帯電話機100から出力される。
図2は、本実施形態に係る信号処理装置の機能ブロック図である。信号処理装置200は、マイク108とA/D変換部201とフレーム分割部202と周波数分析部203とピッチ周波数検出部204と連続性解析部205と電子音有無判定部206とを備える。
マイク108から入力されたアナログの入力音は、A/D変換部201でデジタル信号に変換される。変換された信号について、フレーム分割部202が、予め設定された時間(例えば、20ms)単位でフレーム分割する。周波数分析部203は、分割されたフレームごとに周波数分析を行う。
ピッチ周波数検出部204は、フレームごとに周波数分析された結果から、周波数の成分(以下、レベルとする)がピーク(最大)となる周波数をピッチ周波数として検出する。このピッチ周波数は、音の高さの周波数を表す値である。ここで得られた各フレームのピッチ周波数は、所定の期間(例えば、2〜5秒程度)に亘って蓄積される。例えば、所定の期間を4秒間に設定した場合、1フレームが20msであれば、(1000/20)×4=200フレームのピッチ周波数を蓄積することになる。以下、この蓄積されたピッチ周波数の列をピッチ列とする。
連続性解析部205は、ピッチ列が、予め設定された周波数の範囲内で連続しているか否かを解析する。電子音有無判定部206は、連続性解析部205の解析結果に応じて、入力音に電子音が含まれているか否かを判定する。一般的に、ベル音やメロディ音は、ある時間ごとに一定の周波数が連続しており、この連続性を解析することで、ベル音やメロディ音が含まれているか否かを判定することができる。
電子音の有無の判定結果は処理結果210として出力され、入力音に電子音が含まれる場合には、その電子音を除去する等の調整を行うことが可能となる。
図3は、本実施形態に係る信号処理装置の動作を示すフローチャートである。まず、マイク108から入力されたアナログ信号の入力音を、A/D変換部201がデジタル信号に変換する(ステップS301)。デジタル信号に変換された入力音の時間波形を、フレーム分割部202が、予め設定された時間ごと(例えば、20msごと)にフレーム分割する(ステップS302)。周波数分析部203が、分割されたフレームごとに周波数分析し(ステップS303)、ピッチ周波数検出部204が、周波数分析された結果に基づいて、各フレームごとにピッチ周波数を検出する(ステップS304)。
このステップS302からステップS304までの処理について詳細に説明する。図4は、本実施形態に係る信号処理装置において、ピッチ周波数を検出する処理を示す図である。フレーム分割部202は、図4(A)に示すように、入力音の時間波形をある時間単位(ここでは、20ms)ごとにフレーム分割する。周波数分析部203が、図4(B)に示すように、分割された1フレームごとに周波数分析(例えば、FFT(高速フーリエ変換)、線形予測分析等)を行うことで、図4(C)の周波数分析結果が得られる。
ピッチ周波数検出部204は、図4(C)の周波数分析結果におけるレベルがピークとなる周波数(Fpeak)をピッチ周波数として検出する。また、このピッチ周波数は、図4(D)に示すように各フレームごとに検出される。
ピッチ周波数の算出式を式(1)に示す。
Figure 2011027972
式(1)において、fは周波数、Spe(f)は周波数fにおけるレベル、Fpeakはレベルが最大となる周波数(ピッチ周波数)である。ここで、レベルのピークを検索するfの範囲は、検出対象となる電子音の種類によって設定することができる。例えば、駅における電車の発車ベルの場合は、500Hz〜2kHzがピッチ周波数になることが多いため、式(1)におけるfの範囲を500Hz〜2kHzに限定することができる。
なお、ピッチ周波数の算出は、この方法以外に例えば、ケプストラム法、自己相関法等を用いてもよい。
図3に戻って、フレームごとにピッチ周波数が検出されると、連続性解析部205がピッチ列の連続性を解析する(ステップS305)。
ここで、ステップS305の連続性の解析について詳細に説明する。図5は、本実施形態に係る信号処理装置において、ピッチ列の連続性を解析する処理を示す図である。図5(A)は、蓄積されたピッチ列を示している。図5(B)は、任意の時刻tでピッチ列が連続しているか否かを判定する条件を示している。ここでは、2つの条件が設定されており、「所定の時間以上に亘って(条件A:ThA)、ピッチ列の変動が所定の範囲内である(条件B:ThB)」と設定されている。例えば、5フレーム(1フレームが20msであれば100msに相当)に亘って、1/12オクターブの範囲内であるかどうかが判定される。
図5(C)に、ThA=5とした場合の時刻tにおける連続性の判定処理の例を示す。時刻tでの連続性の判定は、tの前後のフレームにおけるピッチ周波数の値を用いて行う。図5(C)に示すように、tが最後のフレームになる場合から、tが最初のフレームになる場合までの各場合について連続性の判定を行う。つまり、ThAの場合についての連続性の判定は、
場合1:(t−ThA+1)〜t
場合2:(t−ThA+2)〜(t+1)
・・・
場合ThA−1:(t−1)〜(t+ThA−2)
場合ThA:t〜(t+ThA−1)となる。
図5(C)においては、ThA=5であるため、連続性の判定は、(1)〜(5)の5つの場合となる。それぞれの場合において、ThAフレーム中におけるピッチ周波数の最大値Pmaxと最小値Pminを求め、PmaxとPminの周波数差を次式により求める。
Figure 2011027972
式(2)において、Pdiffは対数周波数比であり、オクターブ値である。このPdiffの値が、予め設定した閾値ThB(例えば、1/12)以下であれば、ピッチ列の連続性が検出されたものとする。また、ThA個の場合のうち、1つでも連続性を検出する場合があれば、時刻tにおいて連続性が検出されたものとする。さらに、その際、時刻tにおけるピッチ周波数の値は、時刻tでのピッチ周波数の検出結果そのままの値としても良いし、条件Bの範囲内に含まれる全てのピッチ周波数の平均値としてもよい。例えば、図5(C)において、5個全てのピッチ列が条件Bの範囲内に含まれる場合には、5個のピッチ列の平均値を時刻tにおけるピッチ周波数とする。
なお、ピッチ列の連続性が検出されなかった場合の時刻tにおけるピッチ周波数は0とする。
また、条件Bについては、ThAフレーム中の1フレーム、場合によっては2フレームが条件Bの範囲外であっても検出されたと判定してもよい。つまり、ThAフレームにおけるピッチ周波数の最大値、又は最小値を除いたThA−1(場合によってはThA−2)フレームについて、検出を行ってもよい。図5(C)の例では、4個のピッチ列が条件Bを満たす(1)、(3)がこれに該当する。
図6は、本実施形態に係る信号処理装置において、連続性の解析結果の一例を示す第1の図である。図6においては、入力音にメロディ音が含まれているとする。図6(A)は、任意の区間のピッチ列を示している。ここでは、まだ連続性の解析処理が行われていない。図6(B)は、図6(A)の範囲で連続性を解析した結果である。図6(B)において、連続性がないと判断されたピッチ周波数については、周波数の値が「0」になっており、ピッチ周波数の変化が強調されている。さらに、数秒間(図6(B)の場合と比較して長い時間)の解析区間で連続性の解析を行った結果が図6(C)である。図6(C)に示すように、メロディ音の旋律に合わせたピッチ列の連続性の変化を確認することができる。
一方、図7は、本実施形態に係る信号処理装置において、連続性の解析結果の一例を示す第2の図である。ここでは、雑音を入力音とし、電子音が含まれていないものとする。図6の場合と同様に、図7(A)は、任意の区間のピッチ列を示しており、まだ連続性の解析処理は行われていない。図7(B)は、図7(A)の範囲で連続性を解析した結果である。図7(C)は、数秒間(図7(B)と比較して長い時間)の解析区間で連続性の解析を行った結果である。電子音が含まれない場合には、ピッチ列が一定せずに常時変動する。そのため、図7(C)に示すように、ほとんどの区間でピッチ列の連続性を検出することがなく、周波数の値が「0」となる。図7(C)に示すように、偶発的に連続性が検出される場合もあるが、長続きをせずに短時間で終わってしまう。
図3に戻って、ステップS305でピッチ列の連続性が解析されると、電子音有無判定部206が、連続性の有無に基づいて、入力音に電子音が含まれているか否かを判定する(ステップS306)。連続性の有無については、図6(C)や図7(C)において、周波数の値が「0」である区間が、解析区間に対して所定量以上(例えば、50%〜70%以上)である場合に、連続性がないと判定する。そして、連続性がある場合は、入力音に電子音が含まれていると判定し、連続性がない場合は、入力音に電子音が含まれていないと判定する。電子音が含まれていない場合は、ステップS301に戻って、他の入力音について処理を行う。電子音が含まれている場合は、処理結果210を出力して(ステップS307)、処理を終了する。電子音は、例えば携帯電話機で通話する場合において、耳障りな音になる場合もあり、電子音が含まれているか否かの処理結果を得ることで、その音を除去する等の処理を行い、通話環境を快適にすることが可能となる。
このように、本実施形態に係る信号処理装置によれば、ピッチ周波数の連続性に基づいて、電子音の存在を検出することで、どのような環境下であっても、電子音の存在を正確に検出することができるという効果を奏する。
また、電子音は耳障りになることもあり、存在を正確に検出することで、音の調整を行うことができ、特に携帯電話における通話においては、通話品質を改善することができるという効果を奏する。
(第2の実施形態)
本実施形態に係る信号処理装置について、図8ないし図14を用いて説明する。本実施形態に係る信号処理装置は、電子音が含まれていると判定した場合に、ピッチ周波数の値が複数フレーム以上連続している軌跡に基づいて、周期性を解析する。周波数を解析した結果に基づいて、電子の種類を識別する。
なお、本実施形態において、前記第1の実施形態と重複する説明については省略する。
図8は、本実施形態に係る信号処理装置の機能ブロック図である。図8において、前記第1の実施形態における図2と異なるのは、ピッチ周波数解析部207と電子音識別部208とを新たに備えることである。
ピッチ周波数解析部207は、電子音の種類に応じた固有の特徴に基づいて、連続するピッチ列の特徴を解析する。固有の特徴とは、例えば音価(音の長さ)の定規性(以下、周期性とする)や音調(音の高低、調子、旋律)の変化パターン等である。
電子音識別部208は、ピッチ周波数解析部207が解析した結果に基づいて、電子音の種類を識別し、処理結果210として出力する。
次に、本実施形態に係る信号処理装置の動作を説明する。図9は、本実施形態に係る信号処理装置の動作を示すフローチャートである。図9において、ステップS901からステップS906までの処理は、図3におけるステップS301からステップS306までの処理と同じであるため説明を省略する。
ステップS906で電子音が含まれると判定された場合は、ピッチ周波数解析部207が、ステップS905で解析された連続したピッチ列の周期性を検出する(ステップS907)。
ここで、ステップS907の連続したピッチ列の周期性の検出について詳細に説明する。一般的に、ベル音やメロディ音は、一定の周期でピッチ周波数が変化していることが多いため、周期性を検出することで、電子音がベル音やメロディ音であることを確認することができる。
ステップS905で解析された連続性の解析結果(以下、ピッチ軌跡とする)を入力情報とし、ピッチ周波数の蓄積区間全体について、次式に示す自己相関分析を行う。
Figure 2011027972
式(3)において、acP(τ)は自己相関値、Pc(t)はフレームtにおけるピッチ周波数の値、τは遅れ時間(フレーム数)、Lは蓄積区間全体の長さ(フレーム数)である。図10は、本実施形態に係る信号処理装置において、自己相関分析を行った結果の一例を示す図である。図10(A)は、連続性の解析結果であるピッチ軌跡であり、図10(B)、及び図10(C)は、ピッチ軌跡の自己相関分析を行った結果(自己相関関数)を示す。図10(B)、(C)において、横軸は遅れ時間τ、縦軸は相関値である。
ベル音やメロディ音が含まれる場合には、一般的に周期未満の時間内は、ピッチ軌跡が定常であるため、図10(B)に示すように、遅れ時間が小さい区間は、自己相関値が比較的大きな値となる。また、周期的にピッチ周波数の値が変化することから、その周期に相当する遅れ時間を越えると相関値が急激に減少する。そこで、相関値の変化を観測し、相関値が予め設定した閾値(ThS1)を下回った遅れ時間τをピッチ軌跡の周期Tとする。なお、閾値ThS1を用いなくても、相関値が急激に減少する遅れ時間τを検出し、ピッチ軌跡の周期Tとしてもよい。
一方、図10(C)に示すように、遅れ時間が小さい区間(τ≦τ1)(例えば、τ1=3〜5フレーム)の相関値が、予め設定した閾値(ThS2)以上の場合には、周期性があり、ピッチ軌跡が定常的であると判断し、ベル音やメロディ音が含まれていると判断する。
また、図示していないが、遅れが小さい区間(τ≦τ1)(例えばτ1=3〜5フレーム)の相関値が閾値(ThS2)よりも小さい場合には,ピッチが定常的ではないと判断し,入力音中にはベル音やメロディ音は含まれていないと判断する。
図9に戻って、ステップS907でピッチ軌跡の周期性が検出されると、ピッチ周波数解析部207は、後続のパターン解析処理を行うために、ピッチ軌跡を検出された周期性の周期Tで分割する。しかし、ピッチ軌跡における周波数の変化点と周期Tの開始点は必ずしも一致しない。そこで、ピッチ軌跡における周期性の開始点を検索する(ステップS908)。
なお、ピッチ軌跡が定常的ではなく、ベル音やメロディ音が含まれないと判断された場合は、処理を終了するか、又はステップS901に戻って、他の入力音について処理を行ってもよい。
ここで、ステップS908のピッチ軌跡における周期性の開始点の検索について詳細に説明する。図11は、本実施形態に係る信号処理装置において、ピッチ軌跡の周期性の開始点を検索する処理を示す図である。図11(A)は、ピッチ軌跡における周波数の変化点と周期Tの開始点が一致している場合の図である。仮に、蓄積区間の開始時点が少しでもずれると、図11(B)に示すように、正確にピッチ軌跡を周期Tで分割することはできない。そこで、以下のようにして周期の開始点を検索する。周期の開始点を仮にx(フレーム)とし、以下周期Tごとにピッチ軌跡を分割し、次式によりその変動量の総和を算出する。
Figure 2011027972
式(4)において、Fluc(x)はピッチ軌跡の変動量、Pc(t)はフレームtにおけるピッチ周波数、αは定係数(正の整数)、Tは周期、nは周期番号、Nは蓄積区間内の周期の数である。つまり、図11(C)に示すように、時刻x+nT、x+(n+1)T、・・・の前後における周波数の変動量を除外した範囲における周波数の変動量を算出する。
この方法によって周波数の変動量を算出すると、図11(C)に示すように、周期の開始点・終了点である時刻(x+nT)の前後は変動量の算出範囲外であり、周期の中央部の変動のみが集計される。
ここで、本発明で対象とする電子音のピッチ周波数は周期毎に階段状に変化していることが多い。そのため、仮に決めた周期の開始点xが本来の開始点とずれている場合には、図11(C)のように、周期の中央部でピッチが大きく変化することになり変動量の総和は大きな値となる。一方、ピッチ軌跡における周波数の変化点と周期の開始点が一致している場合には、ピッチが大きく変化する周期の開始点付近における変動量が除外されるため、周波数の変動量の総和が最小となる。従って、Fluc(x)が最小となるxが、周期の開始点となる。
図9に戻って、ステップS908で周期性の開始点が検索されると、ピッチ周波数解析部207は、ピッチ軌跡におけるピッチ周波数の変化パターンを解析し、グループ化を行う(ステップS909)。
ここで、ステップS909の変化パターンの解析、及びグループ化について詳細に説明する。変化パターンを解析するに当たって、まず、ピッチ軌跡における各周期単位で一の周波数を決定する。図12は、本実施形態に係る信号処理装置において、ピッチ軌跡における周期ごとの周波数を決定する処理を示す図である。図12(A)は、ピッチ軌跡を周期ごとに分割した図である。図12(A)の2番目と5番目以外の各周期については、一のピッチ周波数の値しか存在しないため、特に処理を行わない。2番目と5番目の周期については、二つのピッチ周波数が存在するため、一の周波数に決定する処理を行う必要がある。
ここで、一の周波数を決定する処理として、図12(C)に示すように、連続性を解析する処理で行った判定と同様の判定処理を行う。すなわち、ピッチ列の変化が条件D(ThDオクターブ)の範囲内である状態が、条件C(ThCフレーム数)以上継続した場合に、条件Dの範囲内のピッチ周波数の平均値を、その周期における一の周波数として決定する。条件を満たさない場合は、周波数を「0」とする。処理結果を図12(B)に示す。2番目の周期におけるピッチ列は、条件を満たしていないため「0」となり、5番目の周期におけるピッチ列は、図10(C)における条件を満たすピッチ周波数の平均値が一の周波数として決定されている。
ピッチ軌跡における各周期単位で一の周波数が決定されると、蓄積区間全体に亘って同じ周波数帯となるピッチ列をグループ化する。図13は、本実施形態に係る信号処理装置において、ピッチ列をグループ化する処理を示す図である。図13(A)は、同じ周波数帯となるピッチ列をグループ化した結果を示し、図13(B)は、グループ化の条件を示す。
図13(B)に示すように、各周期で決定された周波数を比較し、各周期における周波数の差が条件E(ThEオクターブ)以内である場合に同一のグループに属するものとする。ただし、周波数「0」については除外する。グループ化することにより、図13(A)に示すように、各周期におけるピッチ列を複数のグループに分けることができる。ここでは、(1)グループ〜(3)グループの3つのグループに分けることができる。
図9に戻って、ステップS909で変化パターンの解析、及びグループ化が行われると、電子音識別部208が、電子音の種類を識別する(ステップS910)。
ここで、電子音の種類を識別する処理について詳細に説明する。電子音の種類ごとの、ステップS907で算出した周期T、及びステップS909で行ったグループ化のグループ数を下記の表1に示す。
Figure 2011027972
表1において、例えば周期の値から、ベル音の場合は早いリズムであり、チャイム音は遅いリズムであることがわかる。また、ピッチグループ数から、ベル音は2つのピッチ周波数の音で単調な音調であるのに対して、メロディ音は多数のピッチ周波数の音で複雑な音調であることがわかる。
なお、ここでは、上記3種類の電子音しか記載していないが、上述したようにサイレン、時報、警告音、サイン音等の種類についても識別可能である。特に、時報やサイレンについては、周期が固定されており、不変的であるため、表1における周期の値を狭い範囲で限定することで、正確に識別することが可能である。
図14は、本実施形態に係る信号処理装置において、電子音を識別する処理を示すフローチャートである。ここでは、上記表1の情報に基づいて処理が行われるものとする。まず、連続性の有無(連続性が確認されたフレーム≧50%)を判定する(ステップS1201)。連続性がない場合は、入力音に電子音が含まれないと判定して(ステップS1208)、識別処理を終了する。
なお、このステップS1201の連続性の判定処理は、図9におけるステップS906にて既に行っているため、必ずしもここで実行しなくてもよい。逆に、図9におけるステップS906の処理を実行せずに、このステップS1201の処理を実行してもよい。
連続性がある場合は、ピッチ周波数の周期性の有無(遅れ時間τが小さい区間における相関値≧閾値)を判定する(ステップS1202)。周期性がない場合は、入力音に電子音が含まれないと判定して(ステップS1208)、識別処理を終了する。
周期性がある場合は、周期が長い(周期≧500ms)かどうかを判定する(ステップS1203)。周期が長い場合は、電子音がチャイム音であると判定して(ステップS1205)、処理を終了する。
周期が短い場合は、ピッチグループ数が多い(グループ数≧4)かどうかを判定する(ステップS1204)。ピッチグループ数が多い場合は、電子音がメロディ音であると判定して(ステップS1206)、処理を終了する。ピッチグループ数が少ない場合は、電子音がベル音であると判定して(ステップS1207)、処理を終了する。
図9に戻って、ステップS910で電子音の種類が識別されると、処理結果210を出力して(ステップS911)、処理を終了する。
このように、電子音の種類に応じた固有の特徴(例えば、周期やピッチグループ数等)に基づいて、ピッチ周波数の特徴を解析することで、電子音の種類を正確に識別することができるという効果を奏する。
さらにまた、電子音の種類を正確に識別することで、例えば電子音の種類に応じた制御等を行うことができ、より効果的な音声処理をすることができるという効果を奏する。
さらにまた、電子音は種類ごとに特定の場所で出力されることが多いため、電子音の種類が正確に識別されることで、入力音を検出した場所や環境を特定することが可能になり、さらに特定された環境に応じたサービスを提供することが可能となるという効果を奏する。
(第3の実施形態)
本実施形態に係る信号処理装置について、図15ないし図18を用いて説明する。本実施形態に係る信号処理装置は、前記第1、又は第2の実施形態に係る信号処理装置の機能を拡張したものであり、入力音の特徴、及び入力音に含まれる電子音の種類から、環境を認識するものである。
なお、本実施形態において、前記第1、又は第2の実施形態と重複する説明については省略する。
図15は、本実施形態に係る信号処理装置の機能ブロック図である。図8の第2の実施形態に係る信号処理装置と異なるのは、特徴抽出部211、特徴比較部212、環境認識部213、環境別特徴量情報214、及び確率調整係数情報215を備えることである。
周波数分析部203でフレームごとに周波数分析された結果は、ピッチ周波数検出部204でピッチ周波数の検出に利用されると共に、特徴抽出部211が周波数分析結果の特徴を抽出する。特徴比較部212は、特徴抽出部211で抽出された周波数の特徴と環境別特徴量情報214に記憶されている情報(様々な環境とそれらの環境下における周波数の特徴とが関連付いた情報)とを比較する。そして、各環境(例えば、道路、人ごみ、駅等)である確率を算出する。
ここで、確率を算出する処理について詳細に説明する。図18は、本実施形態に係る信号処理装置において、入力音が各環境である確率を算出する処理を示す図である。
例えば、3種類の環境(E1:人ごみ、E2:道路、E3:駅)を対象とした場合に、入力音がそれぞれの環境における音である確率を、それぞれPE1、PE2、PE3とし値を算出する。PE1〜PE3の算出は、入力音の特徴量ベクトルと各環境の平均的な特徴ベクトル(環境別特徴量情報214に予め格納)との差分を算出し、その差分に応じて確率を出力することで行うことができる。
図18において、3つの黒丸印は上記3種類のそれぞれの環境における平均的な特徴量を示している。星印は入力音の特徴量を示している。入力音の特徴量と各環境の特徴量との距離(差分:D1〜D3)を求め、その距離に応じた確率を出力する。
確率の算出は、距離が予め設定した閾値以下の場合に最大(値:1.0)とし、閾値を超えた場合には、距離の逆数に比例して確率を減少させることで行う。入力音の特徴ベクトルと環境x(x=1、2、3、・・・)の平均的な特徴量との距離をDxとし、環境xである確率をPExとすると、以下の(5)式により確率を算出できる。
Figure 2011027972
式(5)において、Th1、及びTh2は、環境ごと、特徴量ごとに設定される閾値である。これにより、入力音について環境xである確率が算出される。
図15に戻って、環境認識部213は、電子音識別部208で識別された電子音の種類、及び特徴比較部212で算出された確率に基づき、確率調整係数情報に記憶された確率調整係数にしたがって、前記算出された確率を調整する。確率調整係数とは、電子音の種類と環境との関連性に応じて設定される係数であり、例えば、駅では電車の発車ベルが検出される頻度が非常に高いため、ベル音が検出された場合には、環境が駅である確率を上昇させる係数が設定される。確率が調整された結果、最も高確率である環境を入力音の環境として、処理結果210に出力する。
例えば、信号処理装置200は、電子音識別部208で識別された電子音の種類が不明確であるような場合、電子音有無判定部206の判定結果に基づいて、確率の調整を行ってもよい。つまり、信号処理装置200は、入力音に種類が不明確な電子音が含まれている場合、電子音が頻繁に発生する環境ほど確率を上昇させる係数を設定してもよい。
図16は、本実施形態に係る信号処理装置の動作を示すフローチャートである。ステップS1401からステップS1403までの処理は、図9におけるステップS901からステップS903までの処理と同じであるため、説明は省略する。各フレームごとに周波数分析が行われると、特徴抽出部211が、周波数分析結果に基づいて、音の大きさ(例えば、波形を二乗平均した値であり、以下パワーとする)、パワーの変動量、スペクトルの傾き等の入力音の特徴を抽出する(ステップS1404)。
ここで、ステップS1404の入力音の特徴抽出について詳細に説明する。図17は、本実施形態に係る信号処理装置において、入力音の特徴を抽出する場合の一例を示す図である。ここでは、パワーの変動量、及びスペクトルの傾きを特徴量として抽出する。これらの特徴量については、所定の時間区間(例えば、4秒間)に亘って情報を蓄積し、各フレームの特徴量の平均値や変動量(分散)を求める。
図17(A)は、パワーの変動量を算出する場合の図である。各フレームの波形における振幅値の二乗平均によりパワーを算出し、その変動量として分散を求める。各フレームのパワーをP(t)とすると、パワーの変動量Pfは、以下の式(6)により算出される。
Figure 2011027972
式(6)において、Nは総フレーム数、aveは全区間のパワーの平均である。
図17(B)は、スペクトルの傾きを算出する場合の図である。周波数スペクトルに対して1次関数による近似を行う。近似の方法には、例えば最小二乗フィッティングを用いることができる。近似された1次関数の傾きをスペクトルの傾きとする。
なお、ここでは、特徴量を算出する例示としてパワーの変動量、及びスペクトルの傾きを示したが、パワーの値、周波数ごとのパワーの値等、他の特徴量を抽出してもよい。
図16に戻って、ステップS1404で特徴量が抽出されると、特徴比較部212が、抽出された特徴量と環境別特徴量情報214に記憶された情報との比較を行い、入力音の環境が各環境である確率を算出する(ステップS1405)。
ステップS1406からステップS1412までの処理は、図9におけるステップS904からステップS910までの処理と同じであるため、説明は省略する。
なお、ステップS1408の判定において、電子音がないと判定された場合は、ステップS1401に戻ってもよいし、ステップS1405で算出した確率を出力結果210として出力してもよい。
ステップS1412で電子音の種類が識別されると、環境認識部213が、電子音の種類に応じてステップS1405で算出した確率の調整を行う(ステップS1413)。調整は、PExに対して電子音の種類に応じて予め設定された調整係数(電子音の種類、及び環境に応じて確率調整係数情報215に予め格納済み)を乗算することにより行う。確率調整係数情報215に格納された調整係数の一例を表2に示す。
Figure 2011027972
表2において、例えば調整前の各環境である確率をPE1(人ごみである確率)、PE2(道路である確率)、PE3(駅である確率)とし、入力音にベル音が含まれている場合の調整後の各環境である確率をPE1’、PE2’、PE3’とする。PE1’、PE2’、PE3’はそれぞれ次式により算出される。
Figure 2011027972
式(7)の例では、駅である確率(PE3’)が増加し、人ごみ、道路の環境である確率が減少する。
ステップS1413で環境の確率が調整されると、調整された確率が最大となる環境を入力音の環境であると認識し(ステップS1414)、処理結果210を出力して(ステップS1415)、処理を終了する。
このように、入力音の特徴、及び識別された電子音の種類の双方の情報に基づいて環境を認識することで、入力音の特徴のみに基づいて環境を認識する場合と比較して、環境の認識性能を格段に向上させることができるという効果を奏する。
また、入力音の特徴に基づいて算出された各環境の確率を、電子音の種類に応じて調整することで、より正確に環境を認識することができるという効果を奏する。
(第4の実施形態)
本実施形態に係る信号処理装置について、図19ないし図21を用いて説明する。本実施形態に係る信号処理装置は、前記第1、第2、又は第3の実施形態に係る信号処理装置の機能を拡張したものである。具体的には、連続性があるピッチ列の周波数の範囲を予め設定し、その範囲外にあるピッチ周波数はゼロとすることで、ピッチ周波数を選別するものである。
なお、本実施形態において、前記第1、第2、又は第3の実施形態と重複する説明については省略する。
図19は、本実施形態に係る信号処理装置の機能ブロック図である。図15の第3の実施形態に係る信号処理装置と異なるのは、ピッチ周波数選別部220を備えることである。
ピッチ周波数選別部220は、連続性解析部205で解析された結果に基づいて、連続性を有するピッチ列の周波数の値が予め設定された範囲外である場合に、ピッチ周波数の値を「0」にする。電子音で使用される個々の音の高さは、電子音を合成する装置の多くが音楽の音階に基づいて音高を設定しているため、音楽の音階に一致している場合が多い。つまり、音階(平均律)の中心周波数に対して、例えば±1/48オクターブ程度の範囲を予め設定し、範囲外のピッチ周波数については、値を「0」とすることで、ピッチ周波数のパターン解析する対象を選別する。
図20は、本実施形態に係る信号処理装置の動作を示すフローチャートである。ステップS1801からステップS1807までの処理は、図16におけるステップS1401からステップS1407までの処理と同じであるため、説明は省略する。ステップS1807でピッチ列の連続性が解析されると、ピッチ周波数選別部220がパターン解析の対象となるピッチ周波数を選別する(ステップS1808)。
ここで、ステップS1808のピッチ周波数を選別する処理について詳細に説明する。図21は、本実施形態に係る信号処理装置において、ピッチ周波数を選別する処理を示す図である。図21(A)が選別前のピッチ列であり、図21(B)が選別後のピッチ列である。網掛けで示した範囲が予め設定された音階の範囲である。図21(A)において、音階の範囲に入っていないピッチ周波数については、図21(B)において強制的に「0」としている。つまり、音階の範囲に入っていないピッチ周波数は、電子音ではないとみなして、以降の処理を実施する。
図20に戻って、ステップS1809から終了するまでの処理は、図16におけるステップS1408から終了するまでの処理と同じであるため、説明は省略する。
このように、電子音で使用される音階が固定的であることを利用して、電子音で使用される可能性が低いピッチ周波数を解析の対象外とすることで、無駄な処理を省き処理効率を向上させることができるという効果を奏する。
なお、前記各実施形態において、ピッチ周波数検出部204が、携帯電話機の音声通話で用いられる音声符号化処理におけるピッチ検索部であってもよい。また、その場合、前記各実施形態における処理開始のタイミングを、携帯電話機の電源投入時、携帯電話機を開いたとき、通話ボタンが押下されたとき等にしてもよい。この場合、携帯電話機における音声符号化機能のピッチ検索手段を利用することで、携帯電話機の既存の機能を有効に活用できる共に、移動により通話環境が大きく変化する場合であっても、その環境を正確に認識することができるという効果を奏する。
以上の前記実施形態は、所謂当業者であれば明らかであるように、信号処理方法、及び信号処理プログラムとして捉えることもできる。また、本願に開示する信号処理装置の構成要素または構成要素の任意の組合せを、方法、装置、回路、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも、他の態様として有効である。
また、本願の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、このような変更又は改良を加えた実施の形態も本願の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からも明らかなことである。
前記各実施形態に関して次の付記を示す。
(付記1)音の信号波形をフレームに分割するフレーム分割手段と、当該フレーム分割手段が分割したフレームごとに前記信号波形を周波数分析する周波数分析手段と、当該周波数分析手段の処理結果に基づいて、前記分割されたフレームごとに、成分の大きさが最大となる周波数を検出するピッチ周波数検出手段と、当該ピッチ周波数検出手段が検出したピッチ周波数の値が、複数フレーム以上連続しているか否かを解析する連続性解析手段と、当該連続性解析手段が解析した結果に基づいて、前記音に、電気的に生成された音成分が含まれているか否かを判定する音成分有無判定手段とを備える信号処理装置。
(付記2)付記1に記載の信号処理装置において、前記音成分有無判定手段が前記音に電気的に生成された音成分が含まれていると判定した場合に、前記ピッチ周波数の値が複数フレーム以上連続している軌跡に基づいて、周期性を解析するピッチ周波数解析手段と、当該ピッチ周波数解析手段が解析した結果に基づいて、前記電気的に生成された音成分の種類を識別する音識別手段とを備える信号処理装置。
(付記3)付記2に記載の信号処理装置において、音階の周波数に基づいて、前記ピッチ周波数解析手段により解析される対象となるピッチ周波数を選別するピッチ周波数選別手段を備える信号処理装置。
(付記4)付記2又は3に記載の信号処理装置において、環境ごとに環境音の特徴量を記憶する環境音特徴記憶手段と、前記周波数分析手段が行った周波数分析結果に基づいて、前記音の特徴を抽出する音特徴抽出手段と、当該音特徴抽出手段が抽出した前記音の特徴、及び前記環境音特徴記憶手段が記憶する環境音の特徴量を比較する特徴比較手段と、当該特徴比較手段が比較した結果、及び前記音識別手段が識別した結果に基づいて、前記音の発生場所における環境を認識する環境認識手段とを備える信号処理装置。
(付記5)付記4に記載の信号処理装置において、前記特徴比較手段が比較した結果、前記音の発生場所が、前記環境音特徴記憶手段に記憶された各環境である確率が算出され、前記環境認識手段が、前記音識別手段にて識別された結果に基づいて、前記算出された確率を調整し、前記確率が最も高い環境を前記音の発生場所における環境として認識する信号処理装置。
(付記6)付記1ないし5のいずれかに記載の信号処理装置において、前記ピッチ周波数検出手段が、携帯電話機における音声符号化機能のピッチ検索手段である信号処理装置。
(付記7)音の信号波形をフレームに分割するフレーム分割ステップと、当該フレーム分割ステップが分割したフレームごとに前記信号波形を周波数分析する周波数分析ステップと、当該周波数分析ステップの処理結果に基づいて、成分の大きさが最大となる周波数を前記分割されたフレームごとに検出するピッチ周波数検出ステップと、当該ピッチ周波数検出ステップが検出したピッチ周波数の値が、複数フレーム以上連続しているか否かを解析する連続性解析ステップと、当該連続性解析ステップが解析した結果に基づいて、前記音に、電気的に生成された音成分が含まれているか否かを判定する音成分有無判定ステップとを含む信号処理方法。
(付記8)付記7に記載の信号処理方法において、前記音成分有無判定ステップが前記音に電気的に生成された音成分が含まれていると判定した場合に、前記ピッチ周波数の値が複数フレーム以上連続している軌跡に基づいて、周期性を解析するピッチ周波数解析ステップと、当該ピッチ周波数解析ステップが解析した結果に基づいて、前記電気的に生成された音成分の種類を識別する音識別ステップとを含む信号処理方法。
(付記9)付記8に記載の信号処理装置において、音階の周波数に基づいて、前記ピッチ周波数解析手段により解析される対象となるピッチ周波数を選別するピッチ周波数選別ステップを含む信号処理方法。
(付記10)付記8又は9に記載の信号処理方法において、前記周波数分析手段が行った周波数分析結果に基づいて、前記音の特徴を抽出する音特徴抽出ステップと、当該音特徴抽出ステップが抽出した前記音の特徴、及び予め記憶された環境ごとの環境音の特徴量を比較する特徴比較ステップと、当該特徴比較ステップが比較した結果、及び前記音識別ステップが識別した結果に基づいて、前記音の発生場所における環境を認識する環境認識ステップとを含む信号処理方法。
(付記11)付記10に記載の信号処理方法において、前記特徴比較ステップが比較した結果、前記音の発生場所が、前記予め記憶された各環境である確率が算出され、前記環境認識ステップが、前記音識別ステップにて識別された結果に基づいて、前記算出された確率を調整し、前記確率が最も高い環境を前記音の発生場所における環境として認識する信号処理方法。
(付記12)付記7ないし11のいずれかに記載の信号処理方法において、前記ピッチ周波数検出ステップが、携帯電話機における音声符号化機能のピッチ検索ステップである信号処理方法。
(付記13)音の信号波形をフレームに分割するフレーム分割手段、当該フレーム分割手段が分割したフレームごとに前記信号波形を周波数分析する周波数分析手段、当該周波数分析手段の処理結果に基づいて、成分の大きさが最大となる周波数を前記分割されたフレームごとに検出するピッチ周波数検出手段、当該ピッチ周波数検出手段が検出したピッチ周波数の値が、複数フレーム以上連続しているか否かを解析する連続性解析手段、当該連続性解析手段が解析した結果に基づいて、前記音に、電気的に生成された音成分が含まれているか否かを判定する音成分有無判定手段としてコンピュータを機能させる信号処理プログラム。
(付記14)付記13に記載の信号処理プログラムにおいて、前記音成分有無判定手段が前記音に電気的に生成された音成分が含まれていると判定した場合に、前記ピッチ周波数の値が複数フレーム以上連続している軌跡に基づいて、周期性を解析するピッチ周波数解析手段、当該ピッチ周波数解析手段が解析した結果に基づいて、前記電気的に生成された音成分の種類を識別する音識別手段としてコンピュータを機能させる信号処理プログラム。
(付記15)付記14に記載の信号処理プログラムにおいて、音階の周波数に基づいて、前記ピッチ周波数解析手段により解析される対象となるピッチ周波数を選別するピッチ周波数選別手段としてコンピュータを機能させる信号処理プログラム。
(付記16)付記14又は15に記載の信号処理プログラムにおいて、環境ごとに環境音の特徴量を記憶する環境音特徴記憶手段、前記周波数分析手段が行った周波数分析結果に基づいて、前記音の特徴を抽出する音特徴抽出手段、当該音特徴抽出手段が抽出した前記音の特徴、及び前記環境音特徴記憶手段が記憶する環境音の特徴量を比較する特徴比較手段、当該特徴比較手段が比較した結果、及び前記音識別手段が識別した結果に基づいて、前記音の発生場所における環境を認識する環境認識手段としてコンピュータを機能させる信号処理プログラム。
(付記17)付記16に記載の信号処理プログラムにおいて、前記特徴比較手段が比較した結果、前記音の発生場所が、前記環境音特徴記憶手段に記憶された各環境である確率が算出され、前記環境認識手段が、前記音識別手段にて識別された結果に基づいて、前記算出された確率を調整し、前記確率が最も高い環境を前記音の発生場所における環境として認識する信号処理プログラム。
(付記18)付記13ないし17のいずれかに記載の信号処理プログラムにおいて、前記ピッチ周波数検出手段が、携帯電話機における音声符号化機能のピッチ検索手段である信号処理プログラム。
100 携帯電話機
101 CPU
102 ROM
103 RAM
104 HD
105 ディスプレイ
106 I/F
107 操作パネル
108 マイク
109 スピーカ
200 信号処理装置
201 A/D変換部
202 フレーム分割部
203 周波数分析部
204 ピッチ周波数検出部
205 連続性解析部
206 電子音有無判定部
207 ピッチ周波数解析部
208 電子音識別部
210 処理結果
211 特徴抽出部
212 特徴比較部
213 環境認識部
214 環境別特徴量情報
215 確率調整係数情報
220 ピッチ周波数選別部

Claims (6)

  1. 音の信号波形をフレームに分割するフレーム分割手段と、
    当該フレーム分割手段が分割したフレームごとに前記信号波形を周波数分析する周波数分析手段と、
    当該周波数分析手段の処理結果に基づいて、前記分割されたフレームごとに、成分の大きさが最大となる周波数を検出するピッチ周波数検出手段と、
    当該ピッチ周波数検出手段が検出したピッチ周波数の値が、複数フレーム以上連続しているか否かを解析する連続性解析手段と、
    当該連続性解析手段が解析した結果に基づいて、前記音に、電気的に生成された音成分が含まれているか否かを判定する音成分有無判定手段とを備える信号処理装置。
  2. 請求項1に記載の信号処理装置において、
    前記音成分有無判定手段が前記音に電気的に生成された音成分が含まれていると判定した場合に、前記ピッチ周波数の値が複数フレーム以上連続している軌跡に基づいて、周期性を解析するピッチ周波数解析手段と、
    当該ピッチ周波数解析手段が解析した結果に基づいて、前記電気的に生成された音成分の種類を識別する音識別手段とを備える信号処理装置。
  3. 請求項2に記載の信号処理装置において、
    音階の周波数に基づいて、前記ピッチ周波数解析手段により解析される対象となるピッチ周波数を選別するピッチ周波数選別手段を備える信号処理装置。
  4. 請求項2又は3に記載の信号処理装置において、
    環境ごとに環境音の特徴量を記憶する環境音特徴記憶手段と、
    前記周波数分析手段が行った周波数分析結果に基づいて、前記音の特徴を抽出する音特徴抽出手段と、
    当該音特徴抽出手段が抽出した前記音の特徴、及び前記環境音特徴記憶手段が記憶する環境音の特徴量を比較する特徴比較手段と、
    当該特徴比較手段が比較した結果、及び前記音識別手段が識別した結果に基づいて、前記音の発生場所における環境を認識する環境認識手段とを備える信号処理装置。
  5. 音の信号波形をフレームに分割するフレーム分割ステップと、
    当該フレーム分割ステップが分割したフレームごとに前記信号波形を周波数分析する周波数分析ステップと、
    当該周波数分析ステップの処理結果に基づいて、成分の大きさが最大となる周波数を前記分割されたフレームごとに検出するピッチ周波数検出ステップと、
    当該ピッチ周波数検出ステップが検出したピッチ周波数の値が、複数フレーム以上連続しているか否かを解析する連続性解析ステップと、
    当該連続性解析ステップが解析した結果に基づいて、前記音に、電気的に生成された音成分が含まれているか否かを判定する音成分有無判定ステップとを含む信号処理方法。
  6. 音の信号波形をフレームに分割するフレーム分割手段、
    当該フレーム分割手段が分割したフレームごとに前記信号波形を周波数分析する周波数分析手段、
    当該周波数分析手段の処理結果に基づいて、成分の大きさが最大となる周波数を前記分割されたフレームごとに検出するピッチ周波数検出手段、
    当該ピッチ周波数検出手段が検出したピッチ周波数の値が、複数フレーム以上連続しているか否かを解析する連続性解析手段、
    当該連続性解析手段が解析した結果に基づいて、前記音に、電気的に生成された音成分が含まれているか否かを判定する音成分有無判定手段としてコンピュータを機能させる信号処理プログラム。
JP2009173113A 2009-07-24 2009-07-24 信号処理装置、信号処理方法、及び信号処理プログラム Pending JP2011027972A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009173113A JP2011027972A (ja) 2009-07-24 2009-07-24 信号処理装置、信号処理方法、及び信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009173113A JP2011027972A (ja) 2009-07-24 2009-07-24 信号処理装置、信号処理方法、及び信号処理プログラム

Publications (1)

Publication Number Publication Date
JP2011027972A true JP2011027972A (ja) 2011-02-10

Family

ID=43636798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009173113A Pending JP2011027972A (ja) 2009-07-24 2009-07-24 信号処理装置、信号処理方法、及び信号処理プログラム

Country Status (1)

Country Link
JP (1) JP2011027972A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015206974A (ja) * 2014-04-23 2015-11-19 日本電信電話株式会社 報知音感知装置、報知音感知方法及びプログラム
CN110648686A (zh) * 2018-06-27 2020-01-03 塞舌尔商元鼎音讯股份有限公司 调整语音频率的方法及其声音播放装置
JP2021002013A (ja) * 2019-06-24 2021-01-07 日本キャステム株式会社 報知音検出装置および報知音検出方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156361A (ja) * 2005-12-08 2007-06-21 Toshiba Tec Corp 音声処理装置及び音声処理用コンピュータプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156361A (ja) * 2005-12-08 2007-06-21 Toshiba Tec Corp 音声処理装置及び音声処理用コンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015206974A (ja) * 2014-04-23 2015-11-19 日本電信電話株式会社 報知音感知装置、報知音感知方法及びプログラム
CN110648686A (zh) * 2018-06-27 2020-01-03 塞舌尔商元鼎音讯股份有限公司 调整语音频率的方法及其声音播放装置
CN110648686B (zh) * 2018-06-27 2023-06-23 达发科技股份有限公司 调整语音频率的方法及其声音播放装置
JP2021002013A (ja) * 2019-06-24 2021-01-07 日本キャステム株式会社 報知音検出装置および報知音検出方法
JP7250329B2 (ja) 2019-06-24 2023-04-03 日本キャステム株式会社 報知音検出装置および報知音検出方法

Similar Documents

Publication Publication Date Title
US10026410B2 (en) Multi-mode audio recognition and auxiliary data encoding and decoding
JP5728888B2 (ja) 信号処理装置および方法、並びにプログラム
JP6178840B2 (ja) オーディオセグメントを識別するための方法
KR101137181B1 (ko) 이동 장치의 다감각 음성 개선을 위한 방법 및 장치
US20080069364A1 (en) Sound signal processing method, sound signal processing apparatus and computer program
US20100100376A1 (en) Visualization interface of continuous waveform multi-speaker identification
CN108962241B (zh) 位置提示方法、装置、存储介质及电子设备
CN108762494A (zh) 显示信息的方法、装置及存储介质
JP2013222113A (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
WO2011122521A1 (ja) 情報表示システム、情報表示方法及びプログラム
JP2005534983A (ja) 自動音声認識の方法
CN113271386B (zh) 啸叫检测方法及装置、存储介质、电子设备
CN109754808B (zh) 语音转换文字的方法、装置、计算机设备及存储介质
WO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
JP2011027972A (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP7000773B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
US20080147389A1 (en) Method and Apparatus for Robust Speech Activity Detection
CN110875043B (zh) 声纹识别方法、装置、移动终端及计算机可读存储介质
JP6891736B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
Stanek et al. Comparison of fundamental frequency detection methods and introducing simple self-repairing algorithm for musical applications
JP2021021749A (ja) 検出プログラム、検出方法、検出装置
Abu et al. Voice-based malay commands recognition by using audio fingerprint method for smart house applications
WO2016203753A1 (ja) 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
KR20240094414A (ko) 발화자를 식별하는 사운드 인식 장치의 동작하는 방법, 및 이를 포함하는 전자 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130611