JP2018005122A

JP2018005122A - 検出装置、検出方法及び検出プログラム

Info

Publication number: JP2018005122A
Application number: JP2016135403A
Authority: JP
Inventors: 悠哉藤田; Yuya Fujita; 健一磯; Kenichi Iso
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2016-07-07
Filing date: 2016-07-07
Publication date: 2018-01-11
Anticipated expiration: 2036-07-07
Also published as: JP6731802B2

Abstract

【課題】音声認識の精度を向上させること。【解決手段】本願に係る検出装置は、取得部と、識別部と、検出部とを備える。取得部は、所定の時間長の音響信号を取得する。識別部は、音響信号における音素の尤度を測定する音響モデルを用いて、取得部によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。検出部は、識別部によって識別された結果に基づいて、所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する。【選択図】図４

Description

本発明は、検出装置、検出方法及び検出プログラムに関する。

近年、自動音声認識（Automatic Speech Recognition）を利用した技術が普及している。例えば、従来ではテキストデータを入力することで行われていた情報処理が、音響信号の入力によって行われる場合がある。すなわち、入力された音響信号がテキストデータとして認識され、テキストデータに変換されて情報処理が行われる。また、認識精度の向上のため、音声認識の前段として、入力された音響信号のうちいずれの区間が音声であるかを検出する音声区間検出（Voice Activity Detection）といった技術が知られている。

音声区間検出に関する技術として、例えば、話者が３名以上であっても音声信号ストリーム中の複数の話者による対話状況の区切りや対話状況を推定する技術が知られている。

特開２００８−１３９６５４号公報

しかしながら、従来技術では、音声認識の精度を向上させることができない場合がある。例えば、入力される音響信号には、話者の特徴が明確でないテレビやラジオ等の背景発話（Background speech）が含まれる場合がある。従来技術では、背景発話についても音声として認識されてしまい、適切に音声区間検出が行われない場合がある。そして、音声区間検出が適切に行われない場合、音声ではない部分（ノイズ）や背景発話がテキストに変換されることがあるため、音声認識の精度が低下するという問題があった。

本願の開示する技術は、上記に鑑みてなされたものであって、音声認識の精度を向上させることができる検出装置、検出方法及び検出プログラムを提供することを目的とする。

本願に係る検出装置は、所定の時間長の音響信号を取得する取得部と、音響信号における音素の尤度を測定する音響モデルを用いて、前記取得部によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する識別部と、前記識別部によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出部と、を備えることを特徴とする。

実施形態の一態様によれば、音声認識の精度を向上させることができるという効果を奏する。

図１は、実施形態に係る検出処理の一例を示す図である。図２は、実施形態に係る検出処理の概要を説明する図である。図３は、実施形態に係る検出処理システムの構成例を示す図である。図４は、実施形態に係る検出装置の構成例を示す図である。図５は、実施形態に係る学習データ記憶部の一例を示す図である。図６は、実施形態に係る音響モデル記憶部の一例を示す図である。図７は、実施形態に係る処理手順を示すフローチャートである。図８は、検出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る検出装置、検出方法及び検出プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る検出装置、検出方法及び検出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．検出処理の一例〕
まず、図１を用いて、実施形態に係る検出処理の一例について説明する。図１は、実施形態に係る検出処理の一例を示す図である。図１では、本願に係る検出装置１００が、ユーザが利用する端末装置であるユーザ端末１０から音響信号を取得し、取得した音響信号から音声区間を検出する処理の一例を示している。

図１に示す検出装置１００は、音響信号を取得し、取得した音響信号から音声区間を検出する処理を行うサーバ装置である。具体的には、検出装置１００は、自動音声認識を利用したサービス（例えば、音声認識を利用して検索を行うウェブ検索サービス）をユーザが利用する場合に、自動音声認識の前段の処理として、ユーザ端末１０から送信される音響信号を取得する。そして、検出装置１００は、取得した所定の時間長の音響信号において、いずれの区間に音声（例えば、ユーザがユーザ端末１０に入力した音声）が含まれているかを識別する。さらに、検出装置１００は、音声と識別した区間を、音声検出区間として切り出す。そして、検出装置１００は、音声検出区間として切り出した音響信号を、自動音声認識の後段の処理を行う所定の情報処理装置に送信する。

図１に示すユーザ端末１０は、ユーザによって利用されるスマートフォン等の情報処理端末である。ユーザは、ユーザ端末１０を介して、ウェブサーバから提供される検索サービス等のサービスコンテンツを利用する。この場合、ユーザ端末１０は、ユーザから音声の入力を受け付ける。具体的には、ユーザ端末１０は、内蔵したマイクロフォン等の音声入力装置を利用して、ユーザが発する音声を取得する。そして、ユーザ端末１０は、取得した音声を含む音響信号を検出装置１００に送信する。なお、本明細書中においては、ユーザとユーザ端末１０とを同一視する場合がある。例えば、「ユーザが音響信号を送信する」とは、実際には、「ユーザが利用するユーザ端末１０が音響信号を送信する」ことを意味する場合がある。

検出装置１００は、検出処理にあたり、まずユーザ端末１０から取得した音響信号が音声であるか非音声であるかを判定する。取得した音響信号が音声でなく単なるノイズであれば、検出装置１００は、そのような音響信号に対して処理を行うことを要さない。すなわち、検出装置１００は、音響信号のうち音声のみを処理対象とすることで、後段の処理を行う装置等の処理負荷を軽減させることができる。

ところで、ユーザ端末１０がユーザの音声を取得する環境は様々であることが想定される。例えば、ユーザが自動車内でユーザ端末１０を利用する場合には、ユーザ端末１０は、ユーザの音声の他に、ユーザ端末１０に音声を入力しようとするユーザ以外の音声（例えば、同乗者の音声）を取得する場合がある。また、図１に示すように、テレビ２０やラジオ３０がユーザ端末１０の付近に存在する場合、ユーザ端末１０は、ユーザの音声の他に、テレビ２０やラジオ３０から発せられる音声を取得する場合がある。

ユーザの置かれた環境において、ユーザの音声のような処理の対象とすべき音声（以下、「目的音声」と表記する）以外の音声である背景発話が存在すると、ユーザ端末１０によって取得される音声は、目的音声と背景発話とが混在する音声となる。そして、これらの音声を含む音響信号から音声区間検出を行った場合、背景発話を含む音声を検出することになるため、本来の処理対象である目的音声を含む区間の検出精度が低下する場合がある。そして、音声区間検出の精度が低下することで、後段の音声認識処理等の精度も低下するおそれがある。

そこで、実施形態に係る検出装置１００は、下記に説明する処理によって、背景発話を含む音声であっても、目的音声を含む区間を精度よく検出する。これにより、検出装置１００は、音声認識の精度を向上させる。以下、図１を用いて、検出装置１００によって行われる検出処理の一例を流れに沿って説明する。

まず、音声認識を用いたサービスを利用しようとするユーザは、ユーザ端末１０に音声を入力する。ユーザ端末１０は、ユーザから発せられた音声の入力を受け付け、受け付けた音声を取得する（ステップＳ１１）。ユーザ端末１０は、所定時間（例えば、１０秒など）、ユーザから音声の入力を受け付けることで、音声を含んだ所定の時間長の音響信号を生成する。

このとき、ユーザ端末１０の付近には、テレビ２０やラジオ３０があり、音声を発しているものとする。このため、ユーザ端末１０は、目的音声であるユーザの音声のみならず、テレビ２０やラジオ３０から発せられる背景発話による音声も取得しているものとする。すなわち、ユーザ端末１０が生成する音響信号には、ユーザの発した音声のみならず、背景発話による音声も含まれる。

ユーザ端末１０は、生成した音響信号を検出装置１００に送信する（ステップＳ１２）。例えば、ユーザ端末１０は、音声検索サービスにおける検索クエリとして、入力された音声を含んだ音響信号を検出装置１００に送信する。

検出装置１００は、ユーザ端末１０から送信された音響信号を取得する。そして、検出装置１００は、音響信号のうち目的音声を含んだ音声区間を検出する（ステップＳ１３）。かかる処理について、図２を用いて説明する。

図２は、実施形態に係る検出処理の概要を説明する図である。図２では、検出装置１００によって行われる検出処理のダイアグラムを示している。

まず、検出装置１００は、取得した音響信号について、音響信号が音声を含むか否かを判定する処理を行う。例えば、検出装置１００は、所定の学習処理を経たＤＮＮ（Deep Neural Network）を利用して、音響信号に関して音声・非音声の判定を行う（ステップＳ１３Ａ）。具体的には、検出装置１００は、学習に充分な数の音声データをＤＮＮで学習させることで、音声・非音声を判定するモデルを生成しておく。より具体的には、検出装置１００は、例えば１０ミリ秒ごとに音声をフレーム処理し、音響信号における、ある時間のフレームが音声か非音声かを識別するようＤＮＮで学習を行うことで、音声・非音声を判定するモデルを生成する。そして、検出装置１００は、取得した音響信号をモデルに入力することによって、当該音響信号が音声を含むか否かを判定する。

検出装置１００は、ステップＳ１３Ａにおいて非音声と判定された音響信号については処理の対象から棄却する。一方、検出装置１００は、ステップＳ１３Ａにおいて音声と判定された音響信号については、さらに検出処理を進める。上述のように、音響信号が含む音声は、ユーザから発せられた目的音声と、テレビ２０やラジオ３０等から発せられた背景発話とを含む。このため、ステップＳ１３Ａを経た音響信号にも、目的音声の他に背景発話による音声が含まれる。

ここで、検出装置１００は、上記モデルとして、一般的には音声認識で用いられるモデルである音響モデル（Acoustic Model）を実施形態に係る検出処理において利用するものとする。音響モデルは、音響信号の所定の時間長（フレーム）において、どの音素が発話されているかを識別又は予測するモデルである。なお、音素とは、個別の言語において音声の基本となる要素であり、例えば日本語であれば、「/a/、/i/、/u/、/e/、/o/」の母音や、「/k/、/g/、/s/」等の子音が該当する。例えば、音響モデルは、入力された音響信号の所定のフレームがどのような音素で表されるかを識別して、音素の尤もらしさを示す尤度を出力する。

検出装置１００は、実施形態において、音響モデルの音素事後確率（所定のフレームにおいて音素を特定する確率、すなわち、音響信号に含まれる音声が音素であると識別される確率であり、どの音素が尤もらしいかを示す値）を算出する。そして、検出装置１００は、算出された音素事後確率に基づいて、目的音声と背景発話とを識別する。これは、目的音声と背景発話において、音響モデルの音素事後確率が異なる値をとると想定されることによる。一般に、背景発話は、マイクロフォン等の入力装置（図１の例では、ユーザ端末１０が該当する）に対して、目的音声を発した話者よりも遠くの位置から発せられた音声であることが多い。このため、背景発話は、目的音声と比較して、音声以外の音（ノイズ）による影響や、部屋の残響などの影響を受け易い。すると、音響モデルでは、どの音素が発話されているのか厳密に識別できないため、複数の音素の事後確率が大きな値をとる。言い換えれば、背景発話は、目的音声と比較して、音響モデルの音素事後確率にばらつきが生じやすい。検出装置１００は、このような音素事後確率を判定基準とすることにより、目的音声と背景発話とを識別する。

具体的には、検出装置１００は、処理対象とする音響信号において、音響モデルの音素事後確率のエントロピーを算出する（ステップＳ１３Ｂ）。音響モデルの音素事後確率のばらつきが生じるということは、すなわち、音素事後確率のエントロピーの値が大きくなることを意味する。このため、検出装置１００は、音響モデルの音素事後確率のエントロピーを算出し、算出した値を判定基準とすることで、目的音声と背景発話とを識別することができる。例えば、検出装置１００は、所定の閾値を設定し、算出したエントロピーの値が所定の閾値を超える場合には、当該区間の音声を背景発話であると推定する。言い換えれば、検出装置１００は、算出したエントロピーの値が所定の閾値を超えない場合には、当該区間の音声を目的音声であると推定する。

図２に示すように、検出装置１００は、ステップＳ１３Ｂで算出したエントロピーの値に基づいて、処理対象とする音響信号のうち、背景発話と推定した区間を棄却する。そして、検出装置１００は、背景発話と推定して棄却した区間を除いた区間を、目的音声を含む音声区間として検出する（ステップＳ１３Ｃ）。検出装置１００は、目的音声を含む音声区間を検出したのちに、検出結果を後段の情報処理装置（例えば、音声認識装置）に送信する。情報処理装置は、音声区間の検出処理が行われた音響信号を処理することにより処理負荷を軽減することができる。また、情報処理装置は、音声以外の音をテキストに変換するような処理を避けることができるため、音声認識の精度を向上させることができる。

このように、実施形態に係る検出装置１００は、所定の時間長の音響信号を取得する。続いて、検出装置１００は、音響信号における音素の尤度を測定する音響モデルを用いて、取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。そして、検出装置１００は、識別された結果に基づいて、所定の時間長の音響信号のうち、目的音声が含まれる音声区間を検出する。

これにより、実施形態に係る検出装置１００は、目的音声に背景発話が混在するような音声を含む音響信号からも、精度良く目的音声を含む音声区間検出を行うことができる。具体的には、検出装置１００は、音響モデルを用いて背景発話を識別し、背景発話と識別された区間を棄却することにより、頑健な音声区間検出を実現する。このため、検出装置１００は、音声認識の精度を向上させることができる。以下、このような処理を行う検出装置１００、及び、検出装置１００を含む検出処理システム１の構成等について、詳細に説明する。

〔２．検出処理システムの構成〕
図３を用いて、実施形態に係る検出装置１００が含まれる検出処理システム１の構成について説明する。図３は、実施形態に係る検出処理システム１の構成例を示す図である。図３に例示するように、実施形態に係る検出処理システム１には、ユーザ端末１０と、検出装置１００と、情報処理装置２００とが含まれる。これらの各種装置は、ネットワークＮ（例えば、インターネット）を介して、有線又は無線により通信可能に接続される。なお、図３に示した検出処理システム１に含まれる装置は、図３に示した台数に限られない。例えば、検出処理システム１は、複数台のユーザ端末１０を含んでもよい。

ユーザ端末１０は、例えば、スマートフォンや、デスクトップ型ＰＣ（Personal Computer）や、ノート型ＰＣや、タブレット型端末や、携帯電話機、ＰＤＡ（Personal Digital Assistant）、ウェアラブルデバイス（Wearable Device）等の情報処理装置である。

ユーザ端末１０は、ユーザによる操作に従って所定のウェブサーバにアクセスすることで、ウェブサーバから提供されるウェブページを取得する。そして、ユーザ端末１０は、取得したウェブページを表示装置（例えば、液晶ディスプレイ）に表示する。また、ユーザ端末１０は、ウェブページが音声入力によるサービス等を行うサービスページである場合、ユーザから入力された音声を含む音響信号をサービス側に送信する。この場合、ウェブサーバは、本願に係る検出装置１００と一体であってもよい。また、ウェブサーバと検出装置１００が別の装置である場合、ウェブサーバは、ユーザ端末１０から送信された音響信号を検出装置１００に送信するような構成であってもよい。

検出装置１００は、ユーザ端末１０から取得した音響信号から、目的音声を含む音声区間を検出するサーバ装置である。すなわち、検出装置１００は、後述する情報処理装置２００の処理の前段として、目的音声を含む音声区間を検出することで、音声認識等の処理の精度を向上させる。なお、検出装置１００は、情報処理装置２００と一体に構成されてもよい。

情報処理装置２００は、音響信号に関する情報処理を実行するサーバ装置である。情報処理装置２００は、検出装置１００によって音声区間の検出処理が施された音響信号を取得し、情報処理を実行する。例えば、情報処理装置２００は、音響信号に含まれる音声を認識し、テキストデータへ変換する。あるいは、情報処理装置２００は、音響信号を圧縮したり編集したりする処理を行ってもよい。

〔３．検出装置の構成〕
次に、図４を用いて、実施形態に係る検出装置１００の構成について説明する。図４は、実施形態に係る検出装置１００の構成例を示す図である。図４に示すように、検出装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、検出装置１００は、検出装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。かかる通信部１１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、ユーザ端末１０や、情報処理装置２００との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、学習データ記憶部１２１と、音響モデル記憶部１２２とを有する。

（学習データ記憶部１２１について）
学習データ記憶部１２１は、実施形態に係る処理に用いるモデルを学習するための学習データに関する情報を記憶する。図５に、実施形態に係る学習データ記憶部１２１の一例を示す。図５は、実施形態に係る学習データ記憶部１２１の一例を示す図である。図５に示した例では、学習データ記憶部１２１は、「学習データＩＤ」、「学習データ」といった項目を有する。

「学習データＩＤ」は、学習データを識別する識別情報を示す。「学習データ」は、モデルを学習するためのデータを示す。図５では、学習データの項目を「Ｅ０１」等の概念で示しているが、実際には、学習データの項目には、学習に用いるための多数のデータファイル等が記憶される。学習データは、例えば音声認識の場合では、多数の話者による多数の発話データ（例えば数千時間分）である。モデルは、学習するデータによって異なる判定基準を有することになるため、図５に示すように、複数の種別の学習データが学習データ記憶部１２１に記憶されてもよい。例えば、検出装置１００は、話者の言語別に学習データを有していてもよい。

すなわち、図５に示した例では、学習データＩＤ「Ｃ０１」で識別される学習データとして学習データ「Ｅ０１」というデータ群と、学習データＩＤ「Ｃ０２」で識別される学習データとして学習データ「Ｅ０２」というデータ群とが学習データ記憶部１２１に記憶されていることを示している。

（音響モデル記憶部１２２について）
音響モデル記憶部１２２は、識別処理に用いられるモデルに関する情報を記憶する。図６に、実施形態に係る音響モデル記憶部１２２の一例を示す。図６は、実施形態に係る音響モデル記憶部１２２の一例を示す図である。図６に示した例では、音響モデル記憶部１２２は、「音響モデルＩＤ」、「学習に用いるデータ」といった項目を有する。

「音響モデルＩＤ」は、音響信号の所定の時間長（フレーム）において、どの音素が発話されているかを識別又は予測する音響モデルを識別する識別情報である。図６に示すように、音響モデル記憶部１２２には、複数の音響モデルが記憶されてもよい。例えば、検出装置１００は、異なる判定基準（例えば、言語ごと）を有する音響モデルを複数有していてもよい。なお、音響モデルは、十分な数の学習データで学習された、音声・非音声を判定するモデルでもある。例えば、実施形態に係る音響モデルは、複数のニューロンによって形成される入力層と、複数のニューロンを含む多段のニューロン群の層によって形成される隠れ層（中間層ともいう）と、複数のニューロンによって形成される出力層によって構成される、ＤＮＮ等の階層型ニューラルネットワークである。

「学習に用いるデータ」は、図５に示した学習データに対応する。すなわち、学習に用いるデータは、モデルを学習する際に利用される学習データを示す。

すなわち、図６に示した例では、音響モデルＩＤ「Ａ０１」によって識別される音響モデルと、音響モデルＩＤ「Ａ０２」によって識別される音響モデルとが音響モデル記憶部１２２に記憶されていることを示している。また、音響モデルＩＤ「Ａ０１」によって識別される音響モデルは、学習データ「Ｅ０１」によって学習され、音響モデルＩＤ「Ａ０２」によって識別される音響モデルは、学習データ「Ｅ０２」によって学習されていることを示している。

（制御部１３０について）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、検出装置１００内部の記憶装置に記憶されている各種プログラム（検出プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図４に示すように、制御部１３０は、取得部１３１と、識別部１３２と、判定部１３３と、算出部１３４と、検出部１３５と、送信部１３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
取得部１３１は、各種情報を取得する。具体的には、取得部１３１は、ユーザ端末１０から、所定の時間長の音響信号を取得する。取得部１３１は、取得した音響信号を識別部１３２に送る。なお、音響信号は、音声認識の処理対象となる話者から発せられた音声（目的音声）、目的音声以外のノイズや、目的音声以外の音声である背景発話等を含む場合がある。また、音響信号は、ユーザ端末１０に音声が入力された際の音の大きさ（音圧）や、音の高さ（周波数）や、音の種類（波形）等の情報を含むものであってもよい。

（識別部１３２について）
識別部１３２は、取得部１３１によって取得された音響信号が示す情報が音声か非音声であるかを識別する。例えば、識別部１３２は、音響信号における音素の尤度を測定する音響モデルを用いて、取得部１３１によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。図４に示すように、実施形態に係る識別部１３２は、判定部１３３と、算出部１３４とが協働することにより、処理を実現する。すなわち、以下の説明において、判定部１３３や算出部１３４が実行する処理は、識別部１３２が実行する処理と読み替えてもよい。

（判定部１３３について）
判定部１３３は、音響信号が音声であるか否かを予め学習した音響モデルを用いて、取得部１３１によって取得された音響信号に音声が含まれるか否かを判定する。例えば、判定部１３３は、多数の話者の発話データを学習データとして学習されたＤＮＮを用いて、音響信号の所定の区間が音声を含むか否かを判定する。

判定部１３３は、モデルやＤＮＮに関する学習処理について、種々の既知の手法を利用するようにしてもよい。また、図２で示したように、判定部１３３は、後述する算出部１３４の前段として機能する。すなわち、算出部１３４は、取得部１３１によって取得された音響信号のうち、判定部１３３によって非音声と判定された区間は、処理対象から棄却してもよい。なお、判定部１３３は、所定のフレーム単位で音声・非音声を判定した場合、音声と判定したフレームに対応する区間のみを音声区間として算出部１３４に渡してもよいし、音声と判定したフレーム同士に挟まれた範囲の区間を音声区間として算出部１３４に渡してもよい。

（算出部１３４について）
算出部１３４は、音響モデルの音素事後確率を算出する。そして、算出部１３４は、音響信号の所定の区間において、算出された音素事後確率に基づいて、目的音声と背景発話とを識別する。

具体的には、算出部１３４は、音響信号における音響モデルの音素事後確率のエントロピーを算出する。上述のように、音響モデルの音素事後確率のエントロピーは、音素事後確率のばらつきを示す値となりうる。このため、算出部１３４は、算出されたエントロピーの値と所定の閾値とを比較することによって、当該区間における音声が、目的音声であるか背景発話であるかを識別することができる。

以下、判定部１３３及び算出部１３４を含む識別部１３２が音声を識別する処理に関して、処理の流れに沿って具体的に説明する。なお、以下で説明する数式等は、あくまで一例であり、他の算出手法を用いてもよい。

入力される音響信号のフレームｔにおける特徴量をｘ（ｔ）とし、Ｗ_mをＤＮＮにおける第ｍ層の重み行列（weight matrix）、ｂ_ｍを第ｍ層におけるバイアスベクトル（bias vector）とすると、音声・非音声を示す事後確率は、以下の流れによって算出される。

まず、ＤＮＮにおける第１の隠れ層（中間層）の出力は、下記式（１）および（２）で示される。

また、第ｍ層｛ｍ＝２、３、４、・・・、Ｍ｝の出力は、下記式（３）および（４）で示される。

ここで、上記式（２）および（４）のｇ_ｍは、第ｍ層における非線形活性化関数を示す。また、第ｍ層目の活性化関数は、例えば下記式（５）で定義されるシグモイド関数（sigmoid function）を用いる。なお、第ｍ層目の活性化関数は、下記式（５）以外にも、正規化線形関数（Rectified Linear）等であってもよい。そして、最後のＭ層目では恒等関数、すなわち、ｇ（ｙ）＝ｙという関数を用いる。

そして、最終的な第Ｍ層の出力は、ソフトマックス関数（softmax function）を用いて、下記式（６）で示すような事後確率へと変換される。

この場合、音声Ｈ_１と非音声Ｈ_０の事後確率は、下記式（７）及び（８）から算出される。

上記式（７）および（８）において、「Ｓ」は、音声（Speech）の状態に対応するインデックスの集合を示し、「Ｎ」は、非音声（Non-speech）の状態に対応するインデックスの集合を示す。ここで、下記式（９）で示す条件を満たす場合に、識別部１３２は、フレームｔにおける音声が音声フレームであると識別する。

そして、識別部１３２は、事後確率のエントロピーに関しても、上記判定基準（閾値）を利用して識別を行うことができる。事後確率のエントロピーは、例えば下記式（１０）によって算出される。

よって、下記式（１１）で示す条件を満たす場合に、識別部１３２は、フレームｔにおける音声が目的音声を含むフレームであると識別することができる（τは所定の閾値を示す）。

上記式（１１）で示すように、エントロピーの値（ｅ（ｔ））が所定の閾値を超えない場合、識別部１３２は、フレームｔにおける音声が目的音声を含むフレームであると識別する。上述のように、背景発話における音素の事後確率は、音声が入力される距離や部屋の残響等の影響から、目的音声と比較して一様になる（すなわち、どの音素かを特定し難い）傾向となる。言い換えれば、背景発話における事後確率のエントロピーの値は、目的音声と比較して高くなる傾向にある。このため、識別部１３２は、エントロピーの値が閾値以上の場合には、フレームｔにおける音声が背景発話による音声を含むフレームであると識別する。このように、識別部１３２は、エントロピーの値を閾値と比較することによって、目的音声と背景発話とを識別することができる。

（検出部１３５について）
検出部１３５は、識別部１３２によって識別された結果に基づいて、所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する。例えば、検出部１３５は、識別部１３２によって算出されたエントロピーが所定の閾値を超えない区間を、目的音声が含まれる音声区間として検出する。

なお、上述のように識別部１３２が所定のフレーム（１０ミリ秒など）の単位で音声を識別する処理を行う場合、検出部１３５は、目的音声が含まれると識別されたフレームに対応する区間のみを音声区間として検出してもよいし、目的音声が含まれると識別されたフレームに挟まれた範囲の区間を音声区間として検出してもよい。

（送信部１３６について）
送信部１３６は、各種情報を送信する。例えば、送信部１３６は、検出部１３５によって検出された音声区間に関する情報を情報処理装置２００に送信する。なお、音声区間に関する情報は、実際に音声区間として切り出された範囲の音響信号であってもよいし、音響信号のうち、いずれの範囲が目的音声を含む音声区間であるかを示す情報であってもよい。

〔４．処理手順〕
次に、図７を用いて、実施形態に係る検出装置１００による処理の手順について説明する。図７は、実施形態に係る処理手順を示すフローチャートである。

図７に示すように、検出装置１００は、ユーザ端末１０から音響信号を取得したか否かを判定する（ステップＳ１０１）。検出装置１００は、音響信号を取得していない場合（ステップＳ１０１；Ｎｏ）、取得するまで待機する。一方、検出装置１００は、音響信号を取得した場合（ステップＳ１０１；Ｙｅｓ）、取得した音響信号を、ＤＮＮを利用した音響モデルに音響信号を入力する（ステップＳ１０２）。そして、検出装置１００は、入力された音響信号における所定のフレームが音声であるか否かを判定する（ステップＳ１０３）。

検出装置１００は、処理対象とするフレームが音声でないと判定した場合（ステップＳ１０３；Ｎｏ）、すなわち非音声と判定した場合、当該フレームを処理の対象から棄却する（ステップＳ１０４）。そして、検出装置１００は、音響信号の全てのフレームを処理し終えたか否かを判定する（ステップＳ１０５）。

検出装置１００は、音響信号の全てのフレームを処理し終えた場合（ステップＳ１０５；Ｙｅｓ）、それまでの処理の結果に基づいて音声区間を検出する（ステップＳ１１１）。一方、検出装置１００は、音響信号の全てのフレームを処理し終えていない場合には（ステップＳ１０５；Ｎｏ）、次のフレームに処理を進めて（ステップＳ１０６）、識別処理を繰り返す。

ステップＳ１０３において、処理対象とするフレームが音声であると判定した場合（ステップＳ１０３；Ｙｅｓ）、検出装置１００は、音響モデルの音素事後確率のエントロピーを算出する（ステップＳ１０７）。

そして、検出装置１００は、エントロピーが閾値よりも大きいか否かを判定する（ステップＳ１０８）。所定のフレームにおけるエントロピーが閾値以上である場合（ステップＳ１０８；Ｙｅｓ）、検出装置１００は、そのフレームを背景発話と推定して棄却する（ステップＳ１０９）。

一方、検出装置１００は、所定のフレームにおけるエントロピーが閾値よりも小さい場合（ステップＳ１０８；Ｎｏ）、検出装置１００は、そのフレームが目的音声を含む区間であると推定する。そして、検出装置１００は、音響信号の全てのフレームを処理し終えたか否かを判定する（ステップＳ１１０）。

処理を終えていない場合（ステップＳ１１０；Ｎｏ）、検出装置１００は、音響信号の全てのフレームを処理し終えるまで、処理対象を次のフレームに進めたのち、ステップＳ１０３に処理を戻す。一方、検出装置１００は、音響信号の全てのフレームを処理し終えた場合には（ステップＳ１１０；Ｙｅｓ）、目的音声と背景発話との識別結果に基づいて、非音声や背景発話のフレームを除いた区間を、音響信号における目的音声を含む音声区間として検出する（ステップＳ１１１）。

〔５．変形例〕
上述した検出装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、検出装置１００の他の実施形態について説明する。

〔５−１．学習処理〕
上記実施形態では、エントロピーの値が所定の閾値を超えるか否かに基づいて、目的音声と背景発話とを識別する処理を説明した。ここで、所定の閾値は、予め定められた一定の値に限られず、種々の学習処理を経て最適化されるようにしてもよい。

例えば、検出装置１００は、目的音声と識別した結果について、正解データのフィードバックを取得する。例えば、検出装置１００は、目的音声と識別した結果が、真に目的音声であったか否かのフィードバックを取得する。そして、検出装置１００は、フィードバックの結果に基づいて、閾値の値を学習する。例えば、検出装置１００は、目的音声として出力する結果と、真に目的音声であったとするフィードバックとの一致率を上昇させるよう、閾値の値を学習する。これにより、検出装置１００は、処理を行う回数が増すにつれ、閾値として設定する値を最適化することができる。

〔５−２．モデル〕
上記実施形態では、音声か非音声かを判定するモデルと、目的音声と背景発話とを識別するモデルとを同じ音響モデルとして示した。しかし、これらの処理を実現する音響モデルは、別々のモデルであってもよい。例えば、実施形態に係る音響モデルは、音声と非音声を判定する判定モデルと、発話データによって発せられた音素を識別する識別モデルとで実現されてもよい。これらのモデルは、それぞれＤＮＮによって多数の発話者の発話データを学習する。そして、判定モデルは、発話データによって音声か非音声かを判定する処理を学習する。また、識別モデルは、発話データによって発せられた音素を学習する。このように、実施形態に係る処理は、ＤＮＮによって学習された別々のモデルによって実現されてもよい。

〔５−３．学習〕
上記実施形態では、ＤＮＮを利用して学習されたモデルを用いることを示した。しかし、検出装置１００は、ＤＮＮに限らず、他の学習処理を利用して学習されたモデルを利用してもよい。例えば、検出装置１００は、既知の機械学習によって学習されたモデルを利用してもよい。すなわち、検出装置１００は、上記のように音素の事後確率のエントロピーを算出可能なモデルであれば、任意のモデルを用いてもよい。

〔６．ハードウェア構成〕
上述してきた実施形態に係る検出装置１００や、ユーザ端末１０や、情報処理装置２００は、例えば図８に示すような構成のコンピュータ１０００によって実現される。以下、検出装置１００を例に挙げて説明する。図８は、検出装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に記憶されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を記憶する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス１５００は、通信網５００（図３に示したネットワークＮに対応）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５００を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して生成したデータを出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に記憶されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る検出装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが記憶される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から通信網５００を介してこれらのプログラムを取得してもよい。

〔７．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図４に示した識別部１３２と検出部１３５とは統合されてもよい。また、例えば、記憶部１２０に記憶される情報は、ネットワークＮを介して、外部に備えられた所定の記憶装置に記憶されてもよい。

また、上記実施形態では、検出装置１００が、音響信号を取得する取得処理と、音声区間を検出する検出処理と、検出した結果を送信する送信処理とを行う例を示した。しかし、上述した検出装置１００は、音響信号を取得する取得装置と、音声区間を検出する検出装置と、検出した結果を送信する送信装置とに分離されてもよい。この場合、取得装置は、少なくとも取得部１３１を有する。検出装置は、少なくとも検出部１３５を有する。また、送信装置は、少なくとも送信部１３６を有する。そして、上述してきた検出装置１００による処理は、取得装置と、検出装置と、送信装置との各装置を有する検出処理システム１によって実現される。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔８．効果〕
上述してきたように、実施形態に係る検出装置１００は、取得部１３１と、識別部１３２と、検出部１３５とを有する。取得部１３１は、所定の時間長の音響信号を取得する。識別部１３２は、音響信号における音素の尤度を測定する音響モデルを用いて、取得部１３１によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。検出部１３５は、識別部１３２によって識別された結果に基づいて、所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する。

このように、実施形態に係る検出装置１００は、音響モデルを用いて音声区間検出を行うことにより、目的音声に背景発話が混在するような音声を含む音響信号からも、精度良く目的音声を含む音声区間検出を行うことができる。具体的には、検出装置１００は、音響モデルを用いて背景発話を識別し、背景発話と識別された区間を棄却することにより、頑健な音声区間検出を実現する。これにより、検出装置１００は、後段の処理として音声認識を行う情報処理装置２００に、精度良く音声区間が検出された音響信号を送信することができるため、結果として、音声認識の精度を向上させることができる。

また、識別部１３２は、音響モデルの音素事後確率に基づいて、目的音声と背景発話とを識別する。

このように、実施形態に係る検出装置１００は、音響モデルによって識別される音素の事後確率を求めることによって、目的音声と比較して音素が不明瞭になる傾向にある背景発話を識別する。これにより、検出装置１００は、目的音声と背景発話とを高い精度で識別することができるため、音声区間の検出精度を向上させることができる。

また、識別部１３２は、音響信号における音響モデルの音素事後確率のエントロピーを算出する。検出部１３５は、識別部１３２によって算出されたエントロピーが所定の閾値を超えない区間を、目的音声が含まれる音声区間として検出する。

このように、実施形態に係る検出装置１００は、音響モデルの音素事後確率のエントロピーを算出し、算出した値に基づいて目的音声を含む区間を検出する。このように、検出装置１００は、エントロピーという指標値に基づいて目的音声と背景発話とを識別することができるため、より頑健な音声区間の検出処理を行うことができる。

また、識別部１３２は、音響信号が音声であるか否かを学習した音響モデルを用いて、取得部１３１によって取得された音響信号に音声が含まれるか否かを判定し、音声が含まれると判定された音響信号から、音響モデルを用いて目的音声と背景発話とを識別する。

このように、実施形態に係る検出装置１００は、予め音声か非音声かを判定するためのモデルを学習しておき、かかる処理を経て、目的音声と背景発話とを識別する処理を行う。すなわち、検出装置１００は、音声検出処理において多段的な処理を行うことにより、音声区間の検出処理の精度を向上させることができる。

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１検出処理システム
１０ユーザ端末
１００検出装置
１１０通信部
１２０記憶部
１２１学習データ記憶部
１２２音響モデル記憶部
１３０制御部
１３１取得部
１３２識別部
１３３判定部
１３４算出部
１３５検出部
１３６送信部
２００情報処理装置

Claims

所定の時間長の音響信号を取得する取得部と、
音響信号における音素の尤度を測定する音響モデルを用いて、前記取得部によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する識別部と、
前記識別部によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出部と、
を備えることを特徴とする検出装置。
前記識別部は、
前記音響モデルの音素事後確率に基づいて、前記目的音声と前記背景発話とを識別する、
ことを特徴とする請求項１に記載の検出装置。
前記識別部は、
前記音響信号における前記音響モデルの音素事後確率のエントロピーを算出し、
前記検出部は、
前記識別部によって算出されたエントロピーが所定の閾値を超えない区間を、前記目的音声が含まれる音声区間として検出する、
ことを特徴とする請求項１又は２に記載の検出装置。
前記識別部は、
音響信号が音声であるか否かを学習した前記音響モデルを用いて、前記取得部によって取得された音響信号に音声が含まれるか否かを判定し、音声が含まれると判定された音響信号から、前記音響モデルを用いて前記目的音声と前記背景発話とを識別する、
ことを特徴とする請求項１〜３のいずれか一つに記載の検出装置。
コンピュータが実行する検出方法であって、
所定の時間長の音響信号を取得する取得工程と、
音響信号における音素の尤度を測定する音響モデルを用いて、前記取得工程によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する識別工程と、
前記識別工程によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出工程と、
を含んだことを特徴とする検出方法。
所定の時間長の音響信号を取得する取得手順と、
音響信号における音素の尤度を測定する音響モデルを用いて、前記取得手順によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する識別手順と、
前記識別手順によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出手順と、
をコンピュータに実行させることを特徴とする検出プログラム。