JP6677136B2 - 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 - Google Patents

音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 Download PDF

Info

Publication number
JP6677136B2
JP6677136B2 JP2016181930A JP2016181930A JP6677136B2 JP 6677136 B2 JP6677136 B2 JP 6677136B2 JP 2016181930 A JP2016181930 A JP 2016181930A JP 2016181930 A JP2016181930 A JP 2016181930A JP 6677136 B2 JP6677136 B2 JP 6677136B2
Authority
JP
Japan
Prior art keywords
sound
existence
target sound
value
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016181930A
Other languages
English (en)
Other versions
JP2018045195A (ja
Inventor
智佳子 松本
智佳子 松本
松尾 直司
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016181930A priority Critical patent/JP6677136B2/ja
Priority to US15/681,777 priority patent/US10497380B2/en
Priority to EP17188111.3A priority patent/EP3296988B1/en
Publication of JP2018045195A publication Critical patent/JP2018045195A/ja
Application granted granted Critical
Publication of JP6677136B2 publication Critical patent/JP6677136B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声信号処理プログラム、音声信号処理方法及び音声信号処理装置に関する。
例えば、自動車の各種装置を運転者の音声で操作する場合、目的音である運転者の音声が、非目的音である車両内に流れるラジオの音声などと適切に区別されないと、各種装置を意図通りに操作することは困難である。このように、目的音と共に非目的音が存在し得る環境下において、目的音を取り出すために、複数のマイクロフォンで受け付けた音声信号の間の位相差を利用する技術が存在する。当該技術では、複数のマイクロフォンで受け付けた音声の間の位相差を算出し、算出した位相差に基づいて、目的音の存在位置が存在する確率を示す確率値を特定し、特定した確率値を使用して、非目的音を抑制する。
特開2007−318528号公報
しかしながら、自動車の車室などの狭所では、音声が反射し、この反射の影響で、位相差に基づいて、目的音と非目的音とを区別することが困難となる。
本発明は、1つの側面として、目的音と非目的音とが混在し得る環境下において、目的音を適切に判定することを目的とする。
1つの実施形態では、第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する。第1周波数信号と第2周波数信号との所定周波数毎の位相差、及び、目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。目的音は、検出対象となる音声である。前記第1音声または前記第2音声が目的音である確からしさを示す第1尤度、及び前記第1音声または前記第2音声が非目的音である確からしさを示す第2尤度に基づいて、第1音声及び第2音声に目的音が含まれているか否かを判定する。第1尤度は、存在係数に基づいた存在値、並びに第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、第2尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。
本発明は、1つの側面として、目的音と非目的音とが混在し得る環境下において、目的音を適切に判定することを可能とする。
第1及び第2実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。 第1及び第2実施形態に係る音声信号処理装置のハードウェアの構成の一例を示すブロック図である。 第1及び第2実施形態に係る音声信号処理の概要を説明するための概念図である。 目的音存在領域を例示する概念図である。 存在係数の設定を例示する概念図である。 第1実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 目的音存在領域を例示する概念図である。 存在係数の設定を例示する概念図である。 第2実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 第2実施形態に係る非目的音抑制処理の流れの一例を示すフローチャートである。 抑制係数を設定する処理を説明するための例示的な概念図である。 抑制係数を設定する処理を説明するための例示的な概念図である。 抑制係数を設定する処理を説明するための例示的な概念図である。 第3実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。 第3実施形態に係る音声信号処理装置のハードウェアの構成の一例を示すブロック図である。 第3実施形態に係る音声信号処理の概要を説明するための概念図である。 第3実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 本実施形態の検証を行う条件を例示する概念図である。 本実施形態の検証結果を例示する表である。 本実施形態の検証結果を例示する表である。
以下、図面を参照して第1実施形態の一例を詳細に説明する。
図1に示す音声信号処理装置10は、音声入力部21A及び21B、変換部22、設定部24、判定部25、抑制部26、及び認識部27を含む。第1音声入力部の一例である音声入力部21A及び第2音声入力部の一例である音声入力部21Bは、音声信号の入力を各々受け付ける。以下、音声入力部が2個である場合について説明するが、本実施形態はこれに限定されず、音声入力部が3個以上含まれていてもよい。
変換部22は、音声信号の各々を時間領域表現から周波数領域表現に時間周波数変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する周波数信号に変換する。設定部24は、所定周波数毎に、検出対象となる目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。存在係数及び非存在係数は、音声入力部21A及び21Bの各々で受け付けられた音声信号に対応する周波数信号の間の所定周波数毎の位相差、及び目的音の存在位置を示す目的音存在領域に基づいて、設定される。
判定部25は、音声が目的音である確からしさを示す第1尤度、及び、音声が非目的音である確からしさを示す第2尤度に基づいて、音声入力部21A及び21Bの各々で受け付けた音声信号に目的音が含まれているか否かを判定する。第1尤度は、存在係数に基づいた存在値、並びに、周波数信号の少なくとも一方に応じた代表値に基づいて定められ、第2尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。
抑制部26は、抑制係数を、音声入力部21A及び21Bの各々で受け付けた音声信号の少なくとも一方に適用することで、非目的音を抑制する。第1尤度が第2尤度以上である場合、音声は目的音であると判定され、抑制係数は音声信号を抑制しない係数に設定される。第1尤度が第2尤度よりも小さい場合、音声は非目的音であると判定され、抑制係数は、音声信号を抑制するように設定される。認識部27は、抑制係数を適用した音声信号に既存の音声認識技術を適用することで、音声入力部21A及び21Bの各々で受け付けた音声の少なくとも一方に含まれる、例えば、単語などの音声情報を認識する。
音声信号処理装置10は、一例として、図2に示すように、CPU(Central Processing Unit)31、一次記憶部32、二次記憶部33、外部インターフェイス34、及び、2個のマイクロフォン35A及び35Bを含む。CPU31は、ハードウェアであるプロセッサの一例である。CPU31、一次記憶部32、二次記憶部33、外部インターフェイス34、及び、マイクロフォン35A及び35Bは、バス39を介して相互に接続されている。
一次記憶部32は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部33は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部33は、プログラム格納領域33A及びデータ格納領域33Bを含む。プログラム格納領域33Aは、一例として、音声信号処理プログラムなどのプログラムを記憶している。データ格納領域33Bは、一例として、音声信号および音声信号処理プログラムを実行している間に生成される中間データなどを記憶する。
CPU31は、プログラム格納領域33Aから音声信号処理プログラムを読み出して一次記憶部32に展開する。CPU31は、音声信号処理プログラムを実行することで、図1の変換部22、設定部24、判定部25、抑制部26、及び認識部27として動作する。
なお、音声信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部32に展開されてもよい。また、音声信号処理プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部32に展開されてもよい。
マイクロフォン35A及び35Bは、音声入力部21A及び21Bの一例であり、目的音の一例であるユーザが発話した音声、及び、非目的音の一例であるラジオなどから出力される音声を収音し、音声信号に変換する。マイクロフォン35Aとマイクロフォン35Bとの間の距離は、マイクロフォン35A及び35Bで各々収音される音声が著しくは変わらない距離である。また、マイクロフォン35Aと音声の発生位置との間の距離と、マイクロフォン35Bと音声の発生位置との間の距離と、が異なる場合、マイクロフォン35Aで収音された音声とマイクロフォン35Bで取得された音声との間に位相差が生じる距離である。位相差が生じるとは、位相差が0ではないということであり、音声の発生位置は、目的音または非目的音の存在位置であってよい。
外部インターフェイス34には外部装置が接続され、外部インターフェイス34は、外部装置とCPU31との間の各種情報の送受信を司る。マイクロフォン35A及び35Bが音声信号処理装置10に含まれている例について説明したが、マイクロフォン35A及び35Bは、外部インターフェイス34を介して接続される外部装置であってもよい。
なお、音声信号処理装置10は、音声信号処理のための専用装置であってよいが、本実施形態は、これに限定されない。例えば、音声信号処理装置10は、パーソナルコンピュータ、スマートフォンなどの汎用装置であってよい。また、音声信号処理装置10の一部または全部は、マイクロフォン35A及び35Bなどと物理的に離隔して、例えば、ネットワークを介して配置されたコンピュータであってよい。
ネットワークを介して配置されたコンピュータを音声信号処理装置10とする場合、コンピュータに音声信号処理プログラムを格納する。マイクロフォン35A及び35Bの各々で音声信号を取得し、ネットワークを介して、取得した音声信号の各々をコンピュータに送信する。コンピュータは、ネットワークを介して受信した音声信号の各々を使用して音声信号処理を行う。
次に、音声信号処理の作用の概要について説明する。図3に例示するように、マイクロフォン35A及び35Bは、各々、周囲の音声を収音し、音声信号INTA及びINTBに変換する。CPU31は、時間周波数変換部41で、音声信号の各々を時間領域表現から周波数領域に時間周波数変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変換する周波数信号INFA及びINFBに変換する。
CPU31は、位相差算出部42で、所定周波数毎に、周波数信号INFAの位相成分とINFBの位相成分との差である位相差DP(f)を算出する。fは、周波数を表す。CPU31は、存在係数算出部43で、所定周波数毎に、周波数信号INFA及びINFBに目的音が存在する度合いを表す存在係数Sco(f)及び非目的音が存在する度合いを表す非存在係数Nco(f)を算出する。なお、所定周波数は、フーリエ変換によって変換された周波数信号INFA及びINFBの周波数分解能に基づいて定められてもよい。
以下、存在係数Sco(f)及び非存在係数Nco(f)の算出について説明する。図4Aに、周波数と、目的音を含む2つの周波数信号の間の位相差とで定まる目的音存在領域51を例示する。図4Aでは、縦軸が位相差DPを表し、横軸が周波数fを表す。目的音存在領域51は、目的音の存在位置及びマイクロフォン35A及びマイクロフォン35Bの位置から定められる。しかし、マイクロフォン35A及びマイクロフォン35Bで収音される音声には、目的音だけでなく、非目的音が混在し得る。したがって、目的音存在領域51は、図4Aに例示するように、位相差を表す縦軸方向に幅を有している。また、図4Aの例では、目的音の存在位置とマイクロフォン35Aとの距離と、目的音の存在位置とマイクロフォン35Bとの距離と、が異なり、目的音存在領域51は、位相差が0であることを表す横軸の上方に存在している。また、目的音の存在位置とマイクロフォン35A及び35Bを含むマイクロフォンアレーとを結ぶ第1線と、非目的音の存在位置とマイクロフォンアレーとを結ぶ第2線と、は交差する。第1線と第2線とが交差する角度は、例えば、30度または30度より大きい角度であってよい。
図4Bは、図4Aの周波数Fにおける存在係数の設定を例示する。即ち、周波数信号INFA及びINFBに基づいて算出された位相差DP(F)が、周波数Fにおける第1範囲の一例である位相差幅52内に存在する場合、下記(1)式に例示するように、存在係数Sco(F)は1.0に設定される。また、位相差DP(F)が第2範囲の一例である位相差幅52の外側に存在する場合、(2)式に例示するように、存在係数Sco(F)は0.0に設定される。
Sco(F)=1.0 (位相差幅52内) …(1)
Sco(F)=0.0 (位相差幅52の外側) …(2)
即ち、周波数信号INFA及びINFBに基づいて算出された位相差DP(F)が、目的音の存在位置を示す目的音存在領域51内に存在する場合、存在係数Sco(F)は1.0に設定される。また、位相差DP(F)が目的音存在領域51の外側に存在する場合、存在係数Sco(F)は0.0に設定される。
周波数Fにおける非存在係数Nco(F)は、(3)式に例示するように、1.0から存在係数Sco(F)の値を減算することで算出される。
Nco(F)=1.0−Sco(F) …(3)
CPU31は、尤度算出部44で、マイクロフォン35Aまたは35Bで収音された音声が目的音である確からしさを示す第1尤度Sli、及び、音声が非目的音である確からしさを示す第2尤度Nliを算出する。第1尤度Sliは、存在係数Sco(f)に基づいた存在値、並びに周波数信号INFA及びINFBの一方に応じた代表値に基づいて定められる。また、第2尤度Nliは、非存在係数Nco(f)に基づいた非存在値、並びに、第1尤度Sliを算出する場合と同じ代表値に基づいて定められる。ここでは、第1尤度Sli及び第2尤度Nliが、周波数信号INFAに応じた代表値に基づいて定められる場合、即ち、マイクロフォン35Aで収音された音声の第1尤度Sli及び第2尤度Nliを算出する例について説明する。
存在値が存在係数Sco(f)であり、代表値が周波数信号INFAの振幅スペクトルAmp(f)の二乗であるパワースペクトルPo(f)である場合、第1尤度Sliは、(4)式に例示するように、算出される。即ち、第1尤度Sliは、下限周波数fLから上限周波数fHまでの存在係数Sco(f)とパワースペクトルPo(f)との積の二乗和である。fLは、例えば、0.3kHz、fHは、例えば、3.4kHzであってよい。
存在値が存在係数Sco(f)である場合、非存在値は非存在係数Nco(f)であり、第2尤度Nliは、(5)式に例示するように、算出される。代表値は、第1尤度Sliを算出する場合と同様、周波数信号INFAのパワースペクトルPo(f)である。即ち、第2尤度Nliは、下限周波数fLから上限周波数fHまでの非存在係数Nco(f)とパワースペクトルPo(f)との積の二乗和である。
CPU31は、非目的音抑制部45で、非目的音を抑制する。CPU31は、第1尤度Sliが第2尤度Nli以上である場合、音声が目的音であると判定し、抑制係数SNcoに音声信号INTAを抑制しない値を設定する。一方、第1尤度Sliが第2尤度Nliよりも小さい場合、音声が非目的音であると判定し、抑制係数SNcoに音声信号INTAを抑制する値を設定する。音声信号を抑制しない値は、(6)式に例示するように、1.0であってよく、音声信号を抑制する値は、(7)式に例示するように、0.1であってよい。
SNco=1.0 (Sli≧Nli) …(6)
SNco=0.1 (Sli<Nli) …(7)
なお、音声信号を抑制する値として0.1を例示したが、本実施形態はこれに限定されない。音声信号を抑制する値は、例えば、0.2であってもよい。また、第2尤度Nliに対する第1尤度Sliの比が所定の値以上である場合に、SNcoに音声信号を抑制しない値を設定してもよい。この場合、第2尤度Nliに対する第1尤度Sliの比が所定の値より小さい場合に、SNcoに音声信号を抑制する値を設定する。
CPU31は、音声信号INTAに抑制係数SNcoを適用することで、音声信号INTAが目的音であれば抑制せず、非目的音であれば抑制する。抑制係数SNcoは、例えば、音声信号INTAのパワーに乗算されてもよい。CPU31は、音声認識部46で、抑制係数SNcoを適用された音声信号INTAに既存の音声認識技術を適用することで、音声信号INTAに対応する音声に含まれる情報を認識する。
次に、図5に例示する音声信号処理装置10の作用の流れについて説明する。例えば、ユーザが音声信号処理装置10の処理開始ボタンを押下すると、CPU31は、音声信号処理を開始する。CPU31は、ステップ101で、マイクロフォン35Aで収音された音声に対応する音声信号INTA及びマイクロフォン35Bで収音された音声に対応する音声信号INTBを読み込む。音声信号INTA及び音声信号INTBは、1フレームずつ読み込まれる。1フレームは、例えば、20m秒分の音声信号であってよい。
CPU31は、ステップ102で、時間領域表現の音声信号INTA及びINTBを周波数領域表現の周波数信号INFA及びINFBに時間周波数変換する。CPU31は、ステップ103で、周波数毎に、周波数信号INFA及びINFBの各々の位相成分から、周波数信号INFA及びINFBの間の位相差DP(f)を算出する。CPU31は、ステップ104で、周波数毎に、目的音が存在する度合いを表す存在係数Sco(f)及び非目的音が存在する度合いを表す非存在係数Nco(f)を、上記した目的音存在領域51及び位相差DP(f)に基づいて、算出する。
CPU31は、ステップ105で、音声が目的音である確からしさを示す第1尤度Sli、及び、音声が非目的音である確からしさを示す第2尤度Nliを算出する。CPU31は、ステップ106で、非目的音を抑制する。CPU31は、第1尤度が第2尤度以上である場合、音声が目的音であると判定し、抑制係数SNcoに音声信号を抑制しない値を設定する。一方、第1尤度が第2尤度よりも小さい場合、音声が非目的音であると判定し、抑制係数SNcoに音声信号を抑制する値を設定する。
CPU31は、音声信号INTAに抑制係数SNcoを適用することで、音声信号INTAが目的音であれば抑制せず、音声信号INTAが非目的音であれば抑制する。なお、抑制係数SNcoを周波数信号INFAに適用し、その後、周波数信号INFAを音声信号に変換してもよい。CPU31は、ステップ107で、抑制係数SNcoを適用された音声信号INTAに既存の音声認識技術を適用することで、音声信号INTAに対応する音声に含まれる、例えば、単語などの、音声情報を認識する。ここでは、音声認識を1フレームの音声信号毎に行う例について説明したが、本実施形態は、これに限定されない。例えば、複数フレームの音声信号に対して適用される既存の音声認識技術を使用してもよい。
CPU31は、ステップ108で、例えば、音声信号処理装置10の処理停止ボタンが押下されたか否か判定することで、音声信号処理が終了したか否か判定する。ステップ108の判定が否定された場合、CPU31は、ステップ101に戻り、ステップ108の判定が肯定された場合、CPU31は、音声信号処理を終了する。
本実施形態では、ステップ104以降で、音声信号INTAを使用する例について説明したが、本実施形態はこれに限定されない。ステップ104以降で、音声信号INTAに代えて、音声信号INTBを使用してもよいし、音声信号INTA及びINTBの双方を使用してもよい。なお、通常、2つのマイクロフォン35A及び35Bは、音声が目的音に対応する場合、双方とも目的音を検出し、音声が非目的音に対応する場合、双方とも非目的音を検出する。したがって、ステップ104以降では、音声信号INTAまたは音声信号INTBの何れか一方を使用すればよい。
本実施形態では、図4Bに例示するように、存在係数を設定する例について説明したが、本実施形態は、これに限定されない。図6Bに例示するように、存在係数を設定してもよい。即ち、図6Aに例示するように、位相差を表す縦軸に沿って、目的音の目的音存在領域51の上下に移行領域54−1及び54−2を設けてもよい。
図6Bは、図6Aの周波数Fにおける存在係数の設定を例示する。即ち、周波数信号INFA及び周波数信号INFBに基づいて算出された位相差DP(F)が、周波数Fにおける第1範囲の一例である位相差幅52内に存在する場合、(1)式に例示するように、存在係数Sco(F)は1.0に設定される。また、位相差DP(F)が第2範囲の一例である、位相差幅52及び位相差幅53−1及び53−2の外側に存在する場合、式(2)に例示するように、存在係数Sco(F)は0.0に設定される。位相差幅53−1及び53−2は、第3範囲の一例である。
また、位相差幅53−1または53−2内に位相差DP(F)が存在する場合、図6Bに例示するように、存在係数Sco(F)は、位相差幅52に近付くにしたがって、1.0に近付き、位相差幅52から遠ざかるにしたがって、0.0に近付く。なお、図6Bは一例であり、位相差幅53−1及び53−2において、存在係数Sco(F)は線形的に増減していなくてもよい。
即ち、本実施形態では、第1範囲と第2範囲との間に第3範囲を設け、第3範囲内では、第1範囲に近付くにしたがって、最大値に近付き、第1範囲から遠ざかるにしたがって、最小値に近付くように、存在係数を設定してもよい。
なお、本実施形態では、第1尤度を算出する際に(4)式を使用し、第2尤度を算出する際に(5)式を使用する例について説明したが、本実施形態は、これに限定されない。例えば、(8)式及び(9)式に例示するように、代表値として周波数信号INFAの振幅スペクトルAmp(f)を使用してもよい。
また、(10)式に例示するように、存在値として存在係数Sco(f)の二乗を使用し、周波数毎に、存在係数Sco(f)の二乗と振幅スペクトルAmp(f)とを乗算した値を加算した値を、第1尤度Sliとして算出してもよい。この場合、(11)式に例示するように、非存在値として非存在係数Nco(f)の二乗を使用し、周波数毎に、非存在係数Nco(f)の二乗と振幅スペクトルAmp(f)とを乗算した値を加算した値を、第2尤度Nliとして算出する。
また、(12)式に例示するように、周波数毎に、存在係数Sco(f)とパワースペクトルPo(f)とを乗算した値を二乗した値の内、最大値を第1尤度Sliとして算出してもよい。この場合、(13)式に例示するように、周波数毎に、非存在係数Nco(f)とパワースペクトルPo(f)とを乗算した値を二乗した値の内、最大値を第2尤度Nliとして算出する。即ち、存在値として存在係数、非存在値として非存在係数、代表値として周波数信号のパワースペクトルを使用してもよい。
また、(14)式に例示するように、周波数毎に、存在係数Sco(f)と振幅スペクトルAmp(f)とを乗算した値を二乗した値の内、最大値を第1尤度Sliとして算出してもよい。この場合、(15)式に例示するように、周波数毎に、非存在係数Nco(f)と振幅スペクトルAmp(f)とを乗算した値を二乗した値の内、最大値を第2尤度Nliとして算出する。即ち、存在値として存在係数、非存在値として非存在係数、代表値として周波数信号の振幅スペクトルを使用してもよい。
また、(16)式に例示するように、周波数毎に、存在係数Sco(f)の二乗と振幅スペクトルAmp(f)とを乗算した値の内、最大値を第1尤度Sliとして算出してもよい。この場合、(17)式に例示するように、周波数毎に、非存在係数Nco(f)の二乗と振幅スペクトルAmp(f)とを乗算した値の内、最大値を第2尤度Nliとして算出する。即ち、存在値として存在係数の二乗、非存在値として非存在係数の二乗、代表値として周波数信号の振幅スペクトルを使用してもよい。
即ち、本実施形態では、周波数信号の代表値は周波数信号のパワースペクトルまたは振幅スペクトルであり、存在値は存在係数で、かつ、非存在値は非存在係数であるか、あるいは、存在値は存在係数の二乗であり、かつ、非存在値は非存在係数の二乗であってよい。なお、(4)、(5)、(8)〜(17)式は例示であり、本実施形態は、これらに限定されない。
本実施形態では、第1尤度は、所定周波数毎の存在値と代表値との積の和または積の二乗和の一方で、かつ、第2尤度は、所定周波数毎の非存在値と代表値との積の和または積の二乗和の上記一方である。または、第1尤度は、所定周波数毎の存在値と代表値との積の最大値または積の二乗の最大値の一方で、かつ、第2尤度は、所定周波数毎の非存在値と代表値との積の最大値または積の二乗の最大値の上記一方である。
なお、本実施形態では、抑制係数SNcoを適用した音声信号INTAに対して音声認識を行う例について説明したが、本実施形態はこれに限定されない。例えば、独居高齢者の音声モニタに本実施形態を適用する場合などであれば、音声信号INTAに含まれる目的音の所定時間の音圧の合計が所定値を越えたか否か判定することで、目的音の存在の有無を確認するだけでよい場合もある。音声認識を行わないことで、モニタ対象のプライバシーを保護することも可能となる。また、本実施形態では、音声認識処理に代えて、音認識処理を行うことで、咳、ドアの開閉音、水道の流水音などを判定するようにしてもよい。したがって、本実施形態の音声信号処理は、音響信号処理を含む。
本実施形態では、第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する。第1周波数信号と第2周波数信号との所定周波数毎の位相差、及び目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。目的音は、検出対象となる音声である。第1音声または第2音声が目的音である確からしさを示す第1尤度、及び第1音声または第2音声が非目的音である確からしさを示す第2尤度に基づいて、第1音声及び第2音声に目的音が含まれているか否かを判定する。第1尤度は、存在係数に基づいた存在値、並びに第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、第2尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。
これにより、本実施形態では、目的音と非目的音とが混在し、音声の反射が生じやすい環境下であっても、目的音を適切に判定することができる。即ち、自動車の車室または独居用個室などの狭所であって、音声が容易に反射することで、2つの音声入力部で取得される音声の間の位相差が不安定となる傾向がある環境下であっても、目的音を適切に判定することができる。
本実施形態では、第1尤度及び第2尤度に基づいて、第1音声及び第2音声に非目的音が含まれるか否かを判定する。
本実施形態では、所定周波数毎に、目的音存在領域に対応する第1範囲の位相差で最大値となり、第1範囲外の第2範囲の位相差で最小値となるように、存在係数を設定し、最大値から存在係数を減算した値を非存在係数として設定する。
本実施形態では、第1尤度が第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、第1尤度が第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を第1音声信号及び第2音声信号の少なくとも一方に適用する。
本実施形態では、抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う。
[第2実施形態]
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。第2実施形態では、非目的音抑制処理における抑制係数の設定の手法が、第1実施形態と異なる。
図7に、第2実施形態の音声信号処理の一例を示す。第1実施形態の音声信号処理の一例である図5のステップ106がステップ114と置き替えられている。なお、本実施形態では、抑制係数を設定するために、複数フレーム分の第1尤度Sli及び第2尤度Nliを使用するため、ステップ111、ステップ112及びステップ113が追加されている。
CPU31は、ステップ111で、変数tに初期値1を設定する。変数tはフレーム数をカウントする変数である。ステップ101〜ステップ105については、上記したため、説明を省略する。CPU31は、ステップ112で、変数tに1を加算し、ステップ113で、変数tが所定のフレーム数Tを越えたか否か判定する。ステップ113の判定が否定された場合、CPU31は、ステップ101に戻り、ステップ113の判定が肯定された場合、CPU31は、ステップ114に進む。これにより、CPU31は、ステップ114に進む前に、所定のフレーム数T個分の第1尤度Sli及び第2尤度Nliを算出する。所定のフレーム数Tは、例えば、512であってよい。各々のフレームに対応する第1尤度SliをSli(t)、各々のフレームに対応する第2尤度NliをNli(t)で表す。
ステップ107の音声認識処理についても、ステップ115、ステップ116及びステップ117を追加することで、所定のフレーム数T個分の音声信号INTAの音声認識処理を行う。ステップ115、ステップ116及びステップ117は、ステップ111、ステップ112、及びステップ113と同様であるため、説明を省略する。また、ステップ107及びステップ108については、上記したため、説明を省略する。
図7のステップ114に例示する本実施形態の非目的音抑制処理の詳細を、図8に例示する。CPU31は、ステップ201で、フレーム数をカウントする変数tに1を設定する。CPU31は、ステップ202で、第1尤度Sli(t)が第2尤度Nli(t)以上であるか否か判定する。ステップ202の判定が肯定された場合は、第1尤度Sli(t)及び第2尤度Nli(t)に対応する音声は目的音である可能性が高いため、CPU31は、ステップ203で、目的音である可能性を表す変数SNRに1.0を設定する。
一方、ステップ202の判定が否定された場合は、第1尤度Sli(t)及び第2尤度Nli(t)に対応する音声が目的音ではない可能性があるため、CPU31は、ステップ205で、変数SNRに(18)式で例示する値を設定する。(18)式では、第2尤度Nli(t)に対する第1尤度Sli(t)の比を変数SNRに設定する。
SNR=Sli(t)/Nli(t) …(18)
図9Aに、フレーム毎の変数SNRの値を点で示す図を例示する。図9Aの縦軸は、変数SNRの値を表し、横軸は、フレーム数をカウントする変数tを表す。次に、ステップ204、及びステップ206〜ステップ210で、図9Aの第1閾値Th1と第2閾値Th2との間の変数SNRの値を、図9Bに例示するように、拡散最小値Sminと拡散最大値Smaxとの間に拡散させる。第2閾値Th2を越える変数SNRの値は変更せず、第1閾値Th1未満の変数SNRの値は、拡散最小値Sminに集束させる。図9Aの第1閾値Th1と第2閾値Th2との間の区間は、対応する音声が目的音であるか非目的音であるかを判定する際の緩衝区間として機能する。
CPU31は、ステップ204で、ステップ203で変数SNRに設定した値1.0を変数SNRP(t)に設定する。変数SNRに設定された値1.0は第2閾値Th2より大きいため、変更しない。なお、ステップ203及びステップ204は、説明のため、個別のステップとしたが、変数SNRP(t)に直接1.0を設定してもよい。
CPU31は、ステップ206で、変数SNRの値が第2閾値Th2より大きいか否か判定する。判定が肯定された場合、CPU31は、ステップ207で、変数SNRP(t)に変数SNRの値をそのまま設定する。変数SNRの値は第2閾値Th2より大きいため、変更しない。
ステップ206の判定が否定された場合、CPU31は、ステップ208で、変数SNRの値が第1閾値Th1より小さいか否か判定する。ステップ208の判定が肯定された場合、CPU31は、ステップ209で、変数SNRP(t)に拡散最小値Sminを設定する。
ステップ208の判定が否定された場合、即ち、変数SNRの値が緩衝区域に含まれる場合、CPU31は、ステップ210で、変数SNRP(t)に、例えば、(19)式で算出した値を設定することで、変数SNRを拡散させる。
SNRP(t)=(SNR−Th1)(Smax−Smin)/(Th2−Th1)
+Smin …(19)
図9Bに、フレーム毎の変数SNRPの値を点で示す図を例示する。図9Bの縦軸は、変数SNRPの値を表し、横軸は、フレーム数をカウントする変数tを表す。
第1閾値Th1、第2閾値Th2、拡散最小値Smin及び拡散最大値Smaxは、Th2−Th1がSmax−Sminより小さくなるように、適切な値に設定することが可能である。また、(19)式では、変数SNRの値を拡散最小値Sminと拡散最大値Smaxとの間で均一に分散する例について説明したが、本実施形態はこれに限定されない。
CPU31は、ステップ211で、変数tに1を加算し、ステップ212で、変数tの値が所定のフレーム数Tを越えたか否か判定する。ステップ212の判定が否定された場合、CPU31は、ステップ202に戻る。ステップ212の判定が肯定された場合、CPU31は、ステップ213で、変数SNRP(t)に設定された値の単位時間における変動を抑制することで、抑制係数SNc(t)を取得する。単位時間における変動を抑制するために、変数SNRP(t)に、例えば、ローパスフィルタを適用する。図9Cに、図9Bの変数SNRP(t)(t=1〜T)にローパスフィルタを適用した結果取得される抑制係数SNc(t)(t=1〜T)の線図を例示する。図9Cの縦軸は、抑制係数SNcを表し、横軸は、フレーム数をカウントする変数tを表す。
CPU31は、ステップ214で、フレーム数を表す変数tに値1を設定する。CPU31は、ステップ215で、対応するフレームの音声信号INTA(t)に抑制係数SNc(t)を適用する。CPU31は、例えば、対応するフレームの音声信号INTA(t)のパワーに抑制係数SNc(t)の値を乗算する。
CPU31は、ステップ216で、変数tに1を加算し、ステップ217で、変数tの値が所定のフレーム数Tを越えたか否か判定する。ステップ217の判定が否定された場合、CPU31は、ステップ215に戻る。ステップ217の判定が肯定された場合、CPU31は、非目的音抑制処理を終了する。
本実施形態では、第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する。第1周波数信号と第2周波数信号との所定周波数毎の位相差、及び目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。目的音は、検出対象となる音声である。第1音声または第2音声が目的音である確からしさを示す第1尤度、及び第1音声または第2音声が非目的音である確からしさを示す第2尤度に基づいて、第1音声及び第2音声に目的音が含まれるか否かを判定する。第1尤度は、存在係数に基づいた存在値、並びに第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、第2尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。
これにより、本実施形態では、目的音と非目的音とが混在し、音声の反射が生じやすい環境下であっても、目的音を適切に取り出すことができる。
本実施形態では、第1尤度が第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、第1尤度が第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を第1音声信号及び第2音声信号の少なくとも一方に適用する。
本実施形態では、抑制係数は、第2尤度に対する第1尤度の比に基づいて設定される。また、本実施形態では、抑制係数の単位時間における変動を抑制する。
これにより、本実施形態では、目的音と非目的音とが混在し、音声の反射が生じやすい環境下であっても、非目的音を適切に抑制する抑制係数を設定することができる。
[第3実施形態]
次に、第3実施形態の一例を説明する。第1実施形態または第2実施形態と同様の構成及び作用については、説明を省略する。第3実施形態では、図10に例示するように、認知部23が加えられている点で、第1実施形態及び第2実施形態と異なる。
第1実施形態では、目的音の存在位置が既知であり、目的音の存在位置とマイクロフォン35A及び35Bの位置とに基づいて、図4Aまたは図6Aに例示するように目的音存在領域51が定められている。これに対し、本実施形態では、目的音の存在位置が移動する可能性がある例について説明する。
認知部23は、図11に例示するように、例えば、カメラ36であってよい。図12に例示するように、CPU31は、カメラ36を使用して撮影することで画像を取得する。CPU31は、目的音存在位置特定部47で、取得した画像に既存の画像処理技術を適用することで、目的音の存在位置を特定し、特定した存在位置とマイクロフォン35A及び35Bの位置に基づいて、目的音存在領域51を定める。既存の画像処理技術は、例えば、顔認識技術などであってよく、ユーザの顔を認識することで、目的音の存在位置を特定してもよい。
次に、図13に例示する音声信号処理装置10の作用の流れについて説明する。図13に例示する音声信号処理は、ステップ211及びステップ212が追加されている点で、第1実施形態と異なる。CPU31は、ステップ211で、カメラ36を使用して画像を取得し、ステップ212で、取得した画像の認識を行うことで、目的音の存在位置を特定し、特定した存在位置を使用して、目的音存在領域51を定める。ステップ101〜ステップ108については、上記したため、説明を省略する。
なお、本実施形態では、認知部23としてカメラ36を使用する例について説明したが、本実施形態はこれに限定されない。認知部23は、例えば、赤外線センサまたは温度センサなどであってもよく、目的音の存在位置は、ユーザの発生する熱に基づいて特定されてもよい。また、認知部23は、所定の信号を検出するセンサであってもよく、例えば、ユーザが所定の信号を発生するウェアラブル端末を装着することで、目的音の存在位置が特定されてもよい。
本実施形態では、第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する。第1周波数信号と第2周波数信号との所定周波数毎の位相差、及び目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。目的音は、検出対象となる音声である。第1音声または第2音声が目的音である確からしさを示す第1尤度、及び第1音声または第2音声が非目的音である確からしさを示す第2尤度に基づいて、第1音声及び第2音声に目的音が含まれているか否かを判定する。第1尤度は、存在係数に基づいた存在値、並びに第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、第2尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。
これにより、本実施形態では、目的音と非目的音とが混在し、反射が生じやすい環境下であっても、目的音を適切に判定することができる。
本実施形態では、目的音の存在位置を認知し、認知した存在位置に基づいて目的音存在領域を定める。
これにより、本実施形態では、目的音と非目的音とが混在し、反射が生じやすい環境下において、目的音の存在位置が移動する場合であっても、存在係数を適切に設定することが可能となり、目的音を適切に判定することができる。即ち、ユーザが所定の位置、例えば、運転席に座っている場合、あるいは、居間のソファなどの定位置に座っている場合、認知部は必要ではない。しかしながら、例えば、ユーザが居室で家事を行いながら、ラジオまたはテレビを視聴している場合などは、目的音の存在位置を特定する認知部を備えることは有用である。
なお、図5、図7、図8、及び図13のフローチャートは、一例であり、処理の順序は適宜変更することができる。
[検証例]
図14Aに例示する条件で、本開示の音声信号処理と関連技術の音声信号処理とを各々適用して非目的音を抑制した音声信号に対して音声認識を行った際の検知率及び誤検知率を、図14B及び図14Cに例示する。図14Aでは、目的音の存在位置Tがマイクロフォン35A及び35Bを含むマイクロフォンアレーの正面前方1.5mの位置に存在し、非目的音の発声位置NTがマイクロフォンアレーの前方2.5mの位置に存在する。目的音の存在位置Tとマイクロフォンアレーとを結ぶ線と、非目的音の存在位置NTとマイクロフォンアレーとを結ぶ線と、は角度θ=40度で交差している。
検知率は、(20)式に例示するように、検知すべき単語数に対する正しく検知した単語数であり、誤検知率は、(21)式に例示するように、検知した単語数に対する誤って検知した単語数である。
検知率=正しく検知した単語数/検知すべき単語数 …(20)
誤検知率=誤って検知した単語数/検知した単語数 …(21)
図14Bに例示するように、関連技術RAの検知率は、音声が目的音のみを含む場合、本開示PAと同じ93.5%であるが、音声が目的音と非目的音とを含む場合、83.9%に低減する。一方、本開示PAでは、音声が目的音と非目的音とを含む場合であっても、検知率は91.5%であり、関連技術RAの検知率より高い検知率を維持することができる。
また、図14Cに例示するように、関連技術RA及び本開示の誤検知率は、音声が目的音のみを含む場合、共に、0.0%であるが、関連技術RAの誤検知率は、音声が目的音と非目的音とを含む場合、16.4%に上昇する。一方、本開示PAでは、目的音と非目的音とを含む場合でも、誤検知率は0.0%を維持する。また、音声が非目的音のみを含む場合、関連技術PAの誤検知率は、52.5%まで上昇するが、本開示PAの誤検知率は1.6%に留まる。即ち、本開示PAによれば、検知率を高い値に維持し、誤検知率を低い値に維持することができる。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
音声信号処理をコンピュータに実行させるためのプログラム。
(付記2)
前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
付記1のプログラム。
(付記3)
所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記1または付記2のプログラム。
(付記4)
前記第1範囲と前記第2範囲との間に第3範囲を設け、
前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記3のプログラム。
(付記5)
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記1〜付記4の何れかのプログラム。
(付記6)
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記5のプログラム。
(付記7)
前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
付記1〜付記6の何れかのプログラム。
(付記8)
前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
付記1〜付記7の何れかのプログラム。
(付記9)
前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する、
付記1〜付記8の何れかのプログラム。
(付記10)
前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
付記9のプログラム。
(付記11)
前記抑制係数の単位時間における変動を抑制する、
付記10のプログラム。
(付記12)
前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う、
付記9〜付記11の何れかのプログラム。
(付記13)
認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記1〜付記12の何れかのプログラム。
(付記14)
コンピュータが、
第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
音声信号処理方法。
(付記15)
前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
付記14の音声信号処理方法。
(付記16)
所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記14または付記15の音声信号処理方法。
(付記17)
前記第1範囲と前記第2範囲との間に第3範囲を設け、
前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記16の音声信号処理方法。
(付記18)
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記14〜付記17の何れかの音声信号処理方法。
(付記19)
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記18の音声信号処理方法。
(付記20)
前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
付記14〜付記19の何れかの音声信号処理方法。
(付記21)
前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
付記14〜付記20の何れかの音声信号処理方法。
(付記22)
前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する、
付記16〜付記21の何れかの音声信号処理方法。
(付記23)
前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
付記22の音声信号処理方法。
(付記24)
前記抑制係数の単位時間における変動を抑制する、
付記23の音声信号処理方法。
(付記25)
前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う、
付記22〜付記24の何れかの音声信号処理方法。
(付記26)
認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記14〜付記25の何れかの音声信号処理方法。
(付記27)
第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する変換部と、
前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定する設定部と、
前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する判定部と、
を含む、音声信号処理装置。
(付記28)
前記判定部は、前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
付記27の音声信号処理装置。
(付記29)
前記設定部は、
所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記27または付記28の音声信号処理装置。
(付記30)
前記設定部は、前記第1範囲と前記第2範囲との間に第3範囲を設け、
前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記29の音声信号処理装置。
(付記31)
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記27〜付記30の何れかの音声信号処理装置。
(付記32)
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記31の音声信号処理装置。
(付記33)
前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
付記27〜付記32の何れかの音声信号処理装置。
(付記34)
前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
付記27〜付記33の何れかの音声信号処理装置。
(付記35)
前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する抑制部、
をさらに含む、付記27〜付記34の何れかの音声信号処理装置。
(付記36)
前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
付記35の音声信号処理装置。
(付記37)
前記抑制係数の単位時間における変動を抑制する、
付記36の音声信号処理装置。
(付記38)
前記抑制部で、前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う認識部、
をさらに含む、付記35〜付記37の何れかの音声信号処理装置。
(付記39)
前記目的音の存在位置を認知する認知部、
をさらに含み、
前記設定部は、前記認知部で認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記27〜付記38の何れかの音声信号処理装置。
10 音声信号処理装置
21A、21B 音声入力部
22 変換部
23 認知部
24 設定部
25 判定部
26 抑制部
27 認識部
31 CPU
32 一次記憶部
33 二次記憶部
35A、35B マイクロフォン
36 カメラ

Claims (15)

  1. 第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
    前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、前記所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
    前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
    音声信号処理をコンピュータに実行させるためのプログラム。
  2. 前記第1尤度及び前記第2尤度に基づいて、前記第1音声及び前記第2音声に非目的音が含まれているか否かを判定する、
    請求項1に記載のプログラム。
  3. 所定周波数毎に、前記目的音存在領域に対応する第1範囲の位相差で最大値となり、前記第1範囲外の第2範囲の位相差で最小値となるように、前記存在係数を設定し、
    前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
    請求項1または請求項2に記載のプログラム。
  4. 前記第1範囲と前記第2範囲との間に第3範囲を設け、
    前記第3範囲内では、前記第1範囲に近付くにしたがって、前記最大値に近付き、前記第1範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
    請求項3に記載のプログラム。
  5. 前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
    前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
    前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
    請求項1〜請求項4の何れか1項に記載のプログラム。
  6. 前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
    前記第1尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第2尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
    請求項5に記載のプログラム。
  7. 前記所定周波数は、時間周波数変換された前記第1周波数信号及び前記第2周波数信号の周波数分解能に基づいて定まる、
    請求項1〜請求項6の何れか1項に記載のプログラム。
  8. 前記第1音声入力部と前記第2音声入力部との間の距離は、前記目的音の存在位置と前記第1音声入力部との間の距離と、前記目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第1音声入力部との間の距離と、前記非目的音の存在位置と前記第2音声入力部との間の距離と、が異なる場合、前記第1周波数信号と前記第2周波数信号との間に位相差が生じる距離である、
    請求項1〜請求項7の何れか1項に記載のプログラム。
  9. 前記第1尤度が前記第2尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第1尤度が前記第2尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第1音声信号及び前記第2音声信号の少なくとも一方に適用する、
    請求項1〜請求項8の何れか1項に記載のプログラム。
  10. 前記抑制係数は、前記第2尤度に対する前記第1尤度の比に基づいて設定される、
    請求項9に記載のプログラム。
  11. 前記抑制係数の単位時間における変動を抑制する、
    請求項10に記載のプログラム。
  12. 前記抑制係数を適用された第1音声信号及び第2音声信号の少なくとも一方に対して音声認識を行う、
    請求項9〜請求項11の何れか1項に記載のプログラム。
  13. 認知部で前記目的音の存在位置を認知し、
    認知された前記存在位置に基づいて、前記目的音存在領域を定める、
    請求項1〜請求項12の何れか1項に記載のプログラム。
  14. コンピュータが、
    第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換し、
    前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
    前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する、
    音声信号処理方法。
  15. 第1音声入力部から入力された第1音声に対応する第1音声信号を第1周波数信号に時間周波数変換すると共に、第2音声入力部から入力された第2音声に対応する第2音声信号を第2周波数信号に時間周波数変換する変換部と、
    前記第1周波数信号と前記第2周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定する設定部と、
    前記存在係数に基づいた存在値、並びに前記第1周波数信号及び第2周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記目的音である確からしさを示す第1尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第1音声または前記第2音声が前記非目的音である確からしさを示す第2尤度に基づいて、前記第1音声及び前記第2音声に前記目的音が含まれているか否かを判定する判定部と、
    を含む、音声信号処理装置。
JP2016181930A 2016-09-16 2016-09-16 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 Active JP6677136B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016181930A JP6677136B2 (ja) 2016-09-16 2016-09-16 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
US15/681,777 US10497380B2 (en) 2016-09-16 2017-08-21 Medium for voice signal processing program, voice signal processing method, and voice signal processing device
EP17188111.3A EP3296988B1 (en) 2016-09-16 2017-08-28 Medium for voice signal processing program, voice signal processing method, and voice signal processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016181930A JP6677136B2 (ja) 2016-09-16 2016-09-16 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置

Publications (2)

Publication Number Publication Date
JP2018045195A JP2018045195A (ja) 2018-03-22
JP6677136B2 true JP6677136B2 (ja) 2020-04-08

Family

ID=59745220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016181930A Active JP6677136B2 (ja) 2016-09-16 2016-09-16 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置

Country Status (3)

Country Link
US (1) US10497380B2 (ja)
EP (1) EP3296988B1 (ja)
JP (1) JP6677136B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7010136B2 (ja) * 2018-05-11 2022-01-26 富士通株式会社 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4912036B2 (ja) 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
KR20120080409A (ko) 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
JP5810903B2 (ja) 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP6156012B2 (ja) 2013-09-20 2017-07-05 富士通株式会社 音声処理装置及び音声処理用コンピュータプログラム

Also Published As

Publication number Publication date
EP3296988A1 (en) 2018-03-21
JP2018045195A (ja) 2018-03-22
EP3296988B1 (en) 2019-11-13
US10497380B2 (en) 2019-12-03
US20180082701A1 (en) 2018-03-22

Similar Documents

Publication Publication Date Title
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US9451362B2 (en) Adaptive beam forming devices, methods, and systems
KR101610161B1 (ko) 음성인식 시스템 및 그 방법
JP2017067862A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
KR20120080409A (ko) 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
EP3177040A2 (en) Information processing apparatus, information processing method, and program
JP6337519B2 (ja) 音声処理装置、雑音抑圧方法、およびプログラム
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2011059186A (ja) 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
US20200152215A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
KR102633176B1 (ko) 환경 잡음 보상 시스템에서 에러를 감소시키기 위한 방법
US20160027438A1 (en) Concurrent Segmentation of Multiple Similar Vocalizations
CN112824925A (zh) 使用两个麦克风进行轻型全360度音频源位置检测
JP6677136B2 (ja) 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
JPWO2018037643A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP5435221B2 (ja) 音源信号分離装置、音源信号分離方法及びプログラム
EP3240303B1 (en) Sound feedback detection method and device
US10531189B2 (en) Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program
Bratoszewski et al. Comparison of acoustic and visual voice activity detection for noisy speech recognition
JP6361360B2 (ja) 残響判定装置及びプログラム
JP2008060902A (ja) 単一指向性マイクロホン
KR101357381B1 (ko) 강인한 음성 검출을 위한 신호 처리 장치 및 방법
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
JP2020024310A (ja) 音声処理システム及び音声処理方法
JP7226107B2 (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200225

R150 Certificate of patent or registration of utility model

Ref document number: 6677136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150