JP6392950B1

JP6392950B1 - 検出装置、検出方法、および検出プログラム

Info

Publication number: JP6392950B1
Application number: JP2017151064A
Authority: JP
Inventors: 高史前角; 悠哉藤田; 健一磯
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2018-09-19
Anticipated expiration: 2037-08-03
Also published as: JP2019028405A

Abstract

【課題】音声区間の認識精度を容易に向上させること。
【解決手段】本願に係る検出装置は、音響信号を取得する取得部と、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出部とを有することを特徴とする。
【選択図】図１

Description

本発明は検出装置、検出方法、および検出プログラムに関する。

近年、自動音声認識（Automatic Speech Recognition）を利用した技術が知られている。このような自動音声認識の技術の一例として、利用者の発話をテキストデータに変換し、変換後のテキストデータを用いて各種の情報処理を実行する技術が知られている。また、認識精度を改善するため、入力された音響信号から、利用者の発話が含まれる音声区間を検出する音声区間検出（Voice Activity Detection）の技術が知られている。

特開２００８−１３９６５４号公報

しかしながら、従来技術では、認識精度の向上が難しい場合がある。

例えば、音声区間を検出する技術として、ステートマシンを用いた技術が考えられる。例えば、このような技術では、処理対象となるフレームが音声区間であるか、非音声区間であるか、音声区間の始端であるか、音声区間の終端であるかを示すステートマシンを準備する。また、このような技術では、ＤＮＮ（Deep Neural Network）等のモデルを用いて、音響信号から処理対象となるフレームの特徴を検出し、検出した特徴に基づいて、ステートマシンの状態を遷移させることで、音響信号から音声区間を検出する。

このようなステートマシンを用いた技術において、認識精度を向上させるには、ステートマシンの状態を遷移させる際の各種のパラメータをチューニングすることとなる。しかしながら、ステートマシンの最適化における目的関数は、パラメータに対して微分可能ではないため、手動で調整しなければならず、手間がかかる。

本願は、上記に鑑みてなされたものであって、音声区間の認識精度を容易に向上させることを目的とする。

本願に係る検出装置は、音響信号を取得する取得部と、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出部とを有することを特徴とする。

実施形態の一態様によれば、音声区間の認識精度を容易に向上させることができる。

図１は、実施形態に係る情報提供装置が実行する検出処理の一例を示す図である。図２は、実施形態に係る情報提供装置の構成例を示す図である。図３は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図４は、実施形態に係る学習モデルが出力する各タグの値の一例を説明する図である。図５は、実施形態に係る学習モデルのバリエーションの一例を説明する図である。図６は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。図７は、実施形態に係る情報提供装置が実行する検出処理の流れの一例を示すフローチャートである。図８は、ハードウェア構成の一例を示す図である。

以下に、本願に係る検出装置、検出方法、検出プログラム、モデルおよび学習用データを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る検出装置、検出方法、検出プログラム、モデルおよび学習用データが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．検出装置としての情報提供装置〕
まず、図１を用いて、情報提供装置１０が実行する検出処理の一例について説明する。図１は、実施形態に係る情報提供装置が実行する検出処理の一例を示す図である。図１では、情報提供装置１０によって、利用者の発話や背景となる音声等といった各種音響が含まれる音響信号を取得すると、取得した音響信号のうち利用者の発話が含まれる部分である音声区間を検出し、検出結果に応じた処理結果を利用者に対して提供する処理の一例について説明する。

図１に示す情報提供装置１０は、検出処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。また、情報提供装置１０は、発話を含む音響情報を受付けると、受付けた音響情報から音声区間を特定し、特定した音声区間に含まれる音の周波数特性から、利用者の発話をテキストデータに変換する。そして、情報提供装置１０は、変換後のテキストデータを用いて、各種の処理を実行し、実行結果を利用者に対して提供する。すなわち、情報提供装置１０は、音声認識を用いた各種の処理を実行する。

なお、情報提供装置１０は、テキストデータを用いた任意の処理を実行してよい。例えば、情報提供装置１０は、テキストデータを用いて、ウェブ検索、路線検索、天気予報の検索等といった各種の検索処理を実行してもよく、電子商店街への注文、家電装置の制御等、任意の処理を実行してもよい。また、情報提供装置１０は、各種処理を実行する外部サーバ（図示は、省略）に対してテキストデータを送信し、外部サーバがテキストデータに基づいて実行した処理の結果を利用者に対して提供してもよい。また、かかる処理の結果は、外部サーバから直接提供されてもよい。

〔１−１．検出処理について〕
ここで、利用者の発話に基づいて各種処理を実行する場合、発話が含まれる音響信号から音声区間を抽出し、抽出した音声区間から発話を認識し、認識結果に応じた処理を実行することとなる。このため、音響信号に含まれる音声区間を精度良く抽出できなかった場合、発話の認識精度が低下する恐れがある。例えば、利用者が発話を行う場合には、促音の前に現れるクロージャや言いよどみによる短い無音区間（ショートポーズ）が含まれる場合がある。しかしながら、かかるショートポーズを音声区間の始端や終端として検出した場合、利用者の発話が分断されてしまい、適切な処理を実行することができなくなる場合がある。また、音声認識を行う場合は、音声区間の検出における遅延を可能な限り低下させるのが望ましい。

そこで、情報提供装置１０は、以下の検出処理を実行する。まず、情報提供装置１０は、処理対象となる音響信号を取得する。そして、情報提供装置１０は、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から音声区間を検出する。

より具体的には、情報提供装置１０は、音声区間の始端の特徴として、音声区間のうち始端を含む所定の区間における音響信号の特徴を学習し、音声区間の終端の特徴として、音声区間のうち終端を含む所定の区間における音響信号の特徴を学習した学習モデルを用いて、取得された音響信号から音声区間を検出する。すなわち、情報提供装置１０は、音声区間の始端および終端といった音声区間に関する２つの情報のみならず、音声区間の始端から終端の間（すなわち、音声区間の途中の区間）における特徴といった３つ目の情報を学習した学習モデルを用いて、処理対象となる音響信号から音声区間の検出を行う。

〔１−２．情報提供装置が実行する処理の一例について〕
以下、図１を用いて、情報提供装置１０が実行する処理の一例について説明する。なお、以下の説明では、情報提供装置１０が実行する処理として、モデルＭ１の学習を行う学習処理と、学習を行ったモデルＭ１を用いて音声区間を検出する検出処理との一例について説明する。

〔１−２−１．情報提供装置が実行する学習処理の一例について〕
まず、情報提供装置１０は、学習モデルに音声区間の始端、終端、および途中の区間の特徴を学習させる学習処理を実行する。例えば、情報提供装置１０は、発話の始端を示す始端タグと、発話の終端を示す終端タグと、発話のうち始端および終端以外の区間を示すその他タグとが設定された音声データ（すなわち、音響信号）を学習データとし、学習データに含まれる音声データと各タグとの間の関係性を所定のモデルに学習させる（ステップＳ１）。より具体的には、情報提供装置１０は、音声区間の始端における周波数特性の特徴と、音声区間の終端における周波数特性の特徴と、音響信号のうち音声区間の始端または終端以外の区間における周波数特性の特徴とをモデルＭ１に学習させる。

例えば、図１に示す例では、情報提供装置１０は、学習データＬＤ１を有する。学習データＬＤ１には、複数のフレームからなる音声データと、各フレームが音声区間の始端であるか否かを示す始端タグ（すなわち、第１タグ）と、各フレームが音声区間の終端であるか否かを示す終端タグ（すなわち、第２タグ）とに加えて、各フレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグ（すなわち、第３タグ）とを有する。

より具体的な例を説明すると、音声データは、例えば、１０ミリセカンドのフレームに分割された音響信号であり、各フレームにおける音の周波数特性や音量を示す。また、音声データの各フレームには、始端タグ、終端タグ、およびその他タグが設定されている。例えば、あるフレームに含まれる音声データが、音声区間の始端から所定の範囲内（例えば、前後５フレーム）に収まれる場合には、始端タグの値が「１」となり、他のタグの値が「０」となる。また、あるフレームに含まれる音声データが、音声区間の終端から所定の範囲内に収まれる場合には、終端タグの値が「１」となり、他のタグの値が「０」となる。また、あるフレームに含まれる音声データが、音声区間の始端から所定の範囲内に含まれず、かつ、音声区間の終端から所定の範囲内に含まれない場合は、その他タグの値が「１」となり、他のタグの値が「０」となる。すなわち、その他タグは、音声区間のうち始端または終端となる区間のみならず、音声区間以外の区間も示す情報となる。なお、図１に示す例では、各タグの値が「１」となる期間のみを網掛けで示し、他の期間については、白抜きで記載した。

このように、情報提供装置１０は、各フレームが音声区間の始端であるか否か、終端であるか否かといった情報に加えて、各フレームが音声区間であるか否かといった計６値のラベルが付された音声データを学習データとする。そして、情報提供装置１０は、各フレームにおける音声データと、各フレームの値との間の関係性を学習する。より具体的には、情報提供装置１０は、各フレームにおける音声データが示す音声の周波数特性と、各タグの値との間の関係性を学習する。

例えば、情報提供装置１００は、複数のノードを多段に接続したニューラルネットワークをモデルＭ１として準備する。このようなモデルＭ１は、例えば、ＤＮＮ（Deep Neural Network）等により実現される。例えば、図１に示す例では、モデルＭ１は、音声データを入力する入力層を有する。また、情報提供装置１０は、入力層の出力をＬＳＴＭ（Long Short-Term Memory）の機能を有する中間層であるＬＳＴＭ層に入力する構造を有する。また、モデルＭ１は、ＬＳＴＭ層の出力に基づいて、入力された音声データが、始端を含む確度、終端を含む確度、始端または終端以外の期間を含む確度を出力する出力層を有する。ここで、確度とは、「状態の事後確率」又は「状態の尤度」等、対応する状態である確かさを示す各種の数値やスコアを含む概念である。

なお、ＬＳＴＭ層は、畳み込みニューラルネットワークや、再帰型ニューラルネットワークであってもよく、これら畳み込みニューラルネットワークや、再帰型ニューラルネットワークの機能をさらに有していてもよい。例えば、ＬＳＴＭ層は、ＬＳＴＭの機能を有さない単純な多層のニューラルネットワークにより実現されてもよい。また、図１に示すモデルＭ１の構造は、あくまで機能構成的な例を示すものであり、実際には、異なる構造を有していてもよい。

このようなモデルＭ１において、出力層は、ＬＳＴＭ層が出力した情報に基づいて、入力された音声データが音声区間の始端を含む確度である始端確度、入力された音声データが音声区間の終端を含む確度である終端確度および、入力された音声データが音声区間の始端または終端以外となる確度であるその他確度を算出し、算出した各確度を出力する。

情報提供装置１０は、このようなモデルＭ１に対して音声データを入力し、図１中（Ａ）に示すように、始端タグ、終端タグ、およびその他タグを出力層における損失関数を扱うための教師データとして用いることで、モデルＭ１の学習を行う。より具体的には、情報提供装置１０は、モデルＭ１に音声データを入力した際に、教師データが示す音声データの特徴を再現するように、モデルＭ１が有するノード間の接続係数（すなわち、ノード間の値を伝達する際の重み）をバックプロパゲーション等の手法によって修正する。例えば、情報提供装置１０は、中間層から出力されたデータと、教師データとを比較し、値が異なる場合には、図１中（Ｂ）に示すように、中間層から出力されたデータが教師データの値と近くなるように中間層の接続係数を補正する。

例えば、情報提供装置１０は、始端タグの値が「１」となり、終端タグおよびその他タグの値が「０」となる音声データをモデルＭ１に入力した場合は、始端確度の値が所定の閾値τ以上となり、終端確度およびその他確度の値が所定の閾値τ未満となるように、中間層が有する接続係数の再計算を行う。また、情報提供装置１０は、出力層における損失関数を扱う際に、教師データである各タグの値を用いる。

このような学習の結果、モデルＭ１は、音声区間の始端の特徴と、終端の特徴と、音声区間の始端および終端以外の区間の特徴とを学習することとなる。換言すると、モデルＭ１は、音声区間の始端の特徴と、終端の特徴と、音声区間の始端および終端以外の区間の特徴とに応じた接続係数の組として学習することとなる。

以下、モデルＭ１の学習の一例について説明する。例えば、図１に示す音声データには、音声区間の始端Ｓ１と終端Ｅ１とが存在する。このため、学習データＬＤ１においては、先頭フレームから始端Ｓ１よりも所定の数だけ前のフレームまでの期間ＴＷ１において、その他タグのみが「１」の値をとり、始端タグおよび終端タグは「０」の値を取る。また、学習データＬＤ１においては、期間ＴＷ１に続く期間であって、始端Ｓ１から所定の範囲内のフレームを含む期間ＴＷ２において、始端タグのみが「１」の値を取り、終端タグおよびその他タグは「０」の値を取る。

また、学習データＬＤ１においては、期間ＴＷ２に続く期間であって、終端Ｅ１よりも所定の数だけ前のフレームまでの期間ＴＷ３において、その他タグのみが「１」の値をとり、始端タグおよび終端タグは「０」の値を取る。また、学習データＬＤ１においては、期間ＴＷ３に続く期間であって、終端Ｅ１から所定の範囲内のフレームを含む期間ＴＷ４において、終端タグのみが「１」の値を取り、始端タグおよびその他タグは「０」の値を取る。また、また、学習データＬＤ１においては、期間ＴＷ４に続く期間であって、終端フレームまでの期間ＴＷ５において、その他タグのみが「１」の値をとり、始端タグおよび終端タグは「０」の値を取る。

このような学習データＬＤ１を用いて、情報提供装置１０は、以下の学習処理を実行する。まず、情報提供装置１０は、期間ＴＷ１に含まれるフレームの音声データを入力層から入力する。そして、情報提供装置１０は、モデルＭ１が出力する各確度の値が示す音声データの特徴が、教師データとなる各タグの値が示す特徴と一致するように、バックプロパゲーション等の学習手法を用いて、モデルＭ１の接続係数を修正する。例えば、情報提供装置１０は、学習データＬＤ１の先頭フレームから順番に各フレームの音声データを入力する。そして、情報提供装置１０は、期間ＴＷ１に含まれるフレームの各データを入力した場合には、始端確度および終端確度の値が所定の閾値τ未満となり、その他タグの値が所定の閾値τ以上となるように、モデルＭ１が有する接続係数を修正する。

同様に、情報提供装置１０は、期間ＴＷ２に含まれるフレームの音声データを入力した場合には、終端確度およびその他確度の値が所定の閾値τ未満となり、始端確度の値が所定の閾値τ以上となるように、モデルＭ１が有する接続係数を修正する。また、情報提供装置１０は、期間ＴＷ３に含まれるフレームの音声データを入力した場合には、始端確度および終端確度の値が所定の閾値τ未満となり、その他確度の値が所定の閾値τ以上となるように、モデルＭ１が有する接続係数を修正する。また、情報提供装置１０は、期間ＴＷ４に含まれるフレームの音声データを入力した場合には、始端確度およびその他確度の値が所定の閾値τ未満となり、終端確度の値が所定の閾値τ以上となるように、モデルＭ１が有する接続係数を修正する。また、情報提供装置１０は、期間ＴＷ５に含まれるフレームの音声データを入力した場合には、始端確度および終端確度の値が所定の閾値τ未満となり、その他確度の値が所定の閾値τ以上となるように、モデルＭ１が有する接続係数を修正する。

ここで、学習データＬＤ１は、音声区間の始端や終端の特徴のみならず、始端や終端ではない区間の特徴をも示す。より具体的には、学習データＬＤ１は、音声区間より前の区間や音声区間より後の区間、すなわち、無音の区間や背景音声のみの区間の特徴や、音声区間内における特徴をも含むこととなる。このような学習データＬＤ１の特徴を学習した場合、モデルＭ１は、音声区間の始端や終端の特徴のみならず、音声区間ではない区間の特徴や、音声区間のうち始端や終端以外の区間（以下、「音声区間内」と記載する。）の特徴をも学習する。

例えば、学習データＬＤ１の音声データを入力した際に、対応する教師データとなる始端タグ、終端タグ、およびその他タグを再現するよう学習を行った場合、モデルＭ１は、音声データの終端や始端のみならず、音声区間ではない区間の音声データの特徴や音声区間内の音声データの特徴をも学習することとなる。すると、モデルＭ１は、始端の特徴や終端の特徴のみならず、音声区間外の特徴や音声区間内の特徴をも考慮して、始端や終端を検出することとなる。この結果、情報提供装置１０は、始端や終端の特徴を学習させた従来のモデルよりも、精度よく始端や終端を検出するモデルを生成することができる。

例えば、上述した学習処理を実行した場合、モデルＭ１はその他確度の値が所定の閾値τ（以下、単に「τ」と記載する場合がある。）以上となるような場合には、始端確度や終端確度がτ未満となるように接続係数の補正が行われる。ここで、学習データＬＤ１においては、始端Ｓ１から終端Ｅ１の間にショートポーズ等の無音区間が含まれている場合であっても、その他タグの値が「１」となっている。このため、モデルＭ１は、ショートポーズ等の無音区間においても、その他確度の値をτ以上に保ち、始端タグや終端タグの値をτ未満とするようになる。すなわち、モデルＭ１は、音声区間に含まれるショートポーズ等の無音区間の特徴を、始端の特徴や終端の特徴とは異なる特徴として学習することとなる。

このように、情報提供装置１０は、始端タグと終端タグとに加えて、その他タグを含む学習データＬＤ１を用いてモデルＭ１を学習することで、モデルＭ１に対し、始端や終端とは異なるが、特徴が始端や終端と類似する音声の特徴を学習させることができる。この結果、情報提供装置１０は、モデルＭ１による始端および終端の検出精度を向上させることができる。

なお、情報提供装置１０は、ＬＳＴＭの機能を有するモデルＭ１の学習を行う。この結果、情報提供装置１０は、始端や終端の検出精度をより向上させることができる。すなわち、モデルＭ１は、過去に入力されたデータから、もっともらしいデータを予測して出力することができるので、発話等、次のデータが過去のデータから確率的に予測されうる情報の処理精度を考量させることができる。なお、以下の説明では、学習が行われたモデルＭ１を学習モデルＭ１と記載する。

〔１−２−２．情報提供装置が実行する検出処理の一例について〕
続いて、情報提供装置１０は、上述した学習処理により学習が行われた学習モデルＭ１を用いた測定処理、すなわち、音声区間の始端と終端とを検出する検出処理を実行する。まず、情報提供装置１０は、マイク等を用いて、利用者の発話Ａを含む音響信号を取得する（ステップＳ２）。そして、情報提供装置１０は、学習モデルに音声データを入力することで、利用者の発話の始端と終端とを検出する（ステップＳ３）。例えば、情報提供装置１０は、音響信号を複数のフレームに分割した音声データを生成する。そして、情報提供装置１０は、音声データを先頭フレームから順に学習モデルＭ１の入力層に入力する。

このような場合、情報提供装置１０は、学習モデルＭ１に音声データを入力し、始端確度、終端確度、およびその他確度を算出する。そして、情報提供装置１０は、始端確度が閾値τ以上となり、他の確度が閾値τに満たない場合は、始端タグの値「１」を出力し、他のタグの値「０」を出力する。また、情報提供装置１０は、終端確度が閾値τ以上となり、他の確度が閾値τに満たない場合は、終端タグの値「１」を出力し、他のタグの値「０」を出力する。

また、情報提供装置１０は、各フレームについて出力したタグの値から、音声区間の始端から終端を検出する。例えば、情報提供装置１０は、始端タグが「１」となった最初のフレームから、終端タグが「１」となった最後のフレームまでの区間を音声区間として検出する。なお、情報提供装置１０は、このような処理以外にも、始端タグや終端タグの値に基づいて音声区間を抽出するのであれば、任意のルールに基づいて、音声区間を抽出してもよい。例えば、情報提供装置１０は、始端タグが「１」となった最初のフレームから、終端タグが「１」となった最後のフレームまでのフレーム数が所定の閾値に満たなかった場合、さらにその後で終端タグが「１」となったフレームまでを音声区間として抽出してもよい。

そして、情報提供装置１０は、始端から終端までの範囲に含まれる音声、すなわち、音声区間に含まれる音声に応じた応答を出力する（ステップＳ４）。例えば、情報提供装置１０は、音声区間に含まれる音声をテキストデータに変換し、変換後のテキストデータに基づいて、路線検索等の各種の処理を実行し、実行結果を利用者に対して提供する。

〔１−３．音声区間について〕
ここで、上述した例では、情報提供装置１０は、音響信号のうち利用者の発話を含む音声区間の抽出を行った。ここで、情報提供装置１０は、任意の粒度で設定された音声区間を設定することができる。

例えば、情報提供装置１０は、音響信号のうち音声認識に関する所定の要件を満たす音声が含まれる区間の特徴を学習モデルＭ１に学習させてもよい。例えば、利用者の発話に基づいて処理を実行する場合、かかる発話には処理の実行に必要な情報（例えば、主語と目的語との組や検索に必要な各種のクエリを示す単語）が含まれる必要がある。そこで、情報提供装置１０は、学習データＬＤ１として、音響信号のうち、利用者の発話の音声が含まれる区間であって、音声認識結果を用いた処理において一つの単位として用いられる利用者による発話が含まれる区間を音声区間として示す学習データＬＤ１を準備し、かかる学習データＬＤ１を用いて、学習モデルＭ１の学習を行ってもよい。より具体的な例をを挙げると、情報提供装置１０は、音響信号に「横浜の」という発話に続いて所定期間以内の無音状態が続いた後に「天気は？」といった発話が含まれる場合、「横浜の」という音声の先頭部分から「天気は？」という音声の終端部分までを音声区間とする学習データＬＤ１を用いて学習を行ってもよい。

このような学習データＬＤ１を用いて学習が行われた学習モデルＭ１は、音声区間であって、音声認識結果を用いた処理において一つの単位として用いられる発話を含む音声区間の特徴を学習することとなる。例えば、学習モデルＭ１は、ある単語の末尾にその単語を目的語として示す「の」といった音声が含まれる場合は、その後に無音区間が含まれていたとしても、その無音区間の先に利用者の発話の続きがあると予測し、その無音区間が音声区間中の無音区間であると推定する。この結果、学習モデルＭ１は、処理に必要なひとかたまりの発話を含む区間を音声区間として抽出することができる。

なお、上述した処理は、あくまで一例であり、情報提供装置１０は、任意の粒度の発話を含む音声区間を抽出するように、学習モデルＭ１の学習を行ってよい。すなわち、情報提供装置１０は、音声認識結果を用いた処理を基準として条件のみならず、例えば、音声をテキストデータに変換する処理や、利用者が発話する言語の特性等に基づく条件で区切られた音声区間の始端、終端およびその他の特徴を学習させてもよい。例えば、情報提供装置１０は、利用者が発話する言語に応じた文節を音声区間とする学習データＬＤ１の学習を行わせることで、利用者が発話する言語に応じた文節に応じた音声区間の始端、終端、その他の特徴を学習モデルＭ１に学習させてもよい。

また、情報提供装置１０は、どれくらいの長さの区間を音声区間とするかを学習モデルＭ１に学習させてもよい。例えば、情報提供装置１０は、音声区間の長さが所定の閾値を超えないように、学習モデルＭ１のチューニングを行ってもよい。かかるチューニングは、学習データＬＤ１に設定する始端タグから終端タグまでの期間を所定の閾値以下とすることで、学習モデルＭ１に学習させてもよく、事後的に設定してもよい。例えば、情報提供装置１０は、始端から終端までの長さが所定の閾値を超え、かつ、出力層が算出した確度の値に応じて、事後的に音声区間を分割してもよい。

ここで、情報提供装置１０は、音声認識の対象としたい音声が含まれる範囲を音声区間とし、かかる音声区間の特徴、すなわち、音声認識の対象としたい音声の特徴を学習させてもよい。例えば、音響信号には、認識対象としたい利用者の発話以外にも、他の利用者の発話の音やテレビの音等といった背景音声が含まれる場合がある。ここで、認識対象としたい利用者の発話と、他の利用者の発話との間には、音量の違いがあると予測され、認識対象としたい利用者の発話とテレビの音との間には、周波数特性の違いがあると予測される。

そこで、情報提供装置１０は、音声認識の対象としたい音声が含まれる範囲を音声区間とする学習データＬＤ１を用いて学習モデルＭ１の学習を行うことで、上述した各種背景音声と音声認識の対象としたい音声との違いの特徴を学習モデルＭ１に学習させてもよい。すなわち、情報提供装置１０は、始端タグや終端タグに加え、その他タグを設定することで、各種背景音声が含まれる範囲の特徴、すなわち、音声認識の対象としたい音声とは異なる音声の特徴を学習モデルＭ１に学習させることができる。この結果、情報提供装置１０は、音声認識の精度をさらに向上させることができる。

〔１−４．始端と終端との学習について〕
ここで、学習モデルＭ１は、測定時にＬＳＴＭを用いて将来の予測を行うこととなる。そこで、情報提供装置１０は、学習時において、未来の情報を入力することで、予測精度を向上させてもよい。例えば、情報提供装置１０は、あるフレーム（以下、「学習対象フレーム」と記載する。）における音声データとともに、学習対象フレームにおける始端タグや終端タグを教師データとして学習モデルＭ１を学習するのではなく、学習対象フレームよりも先のフレームにおける始端タグや終端タグを教師データとして学習モデルＭ１の学習を行ってもよい。

すなわち、情報提供装置１０は、学習対象フレームよりも後のフレームの音響信号が音声区間の始端であるか否かを示す始端タグと、学習対象フレームよりも後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、学習対象フレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとの間の関係性を学習モデルＭ１に学習させてもよい。例えば、情報提供装置１０は、学習対象フレームよりも２０フレーム後の始端タグと終端タグとを教師データとして、学習モデルＭ１の学習を行ってもよい。

ここで、情報提供装置１０は、学習対象フレームよりも所定の第１フレーム数だけ後のフレームの音響信号が音声区間の始端であるか否かを示す始端タグと、学習対象フレームよりも所定の第２フレーム数だけ後のフレームであって、第１フレーム数よりも多い第２フレーム数だけ後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、学習対象フレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとの間の関係性を学習モデルＭ１に学習させてもよい。例えば、情報提供装置１０は、学習対象フレームよりも２０フレーム後の始端タグと、学習対象フレームよりも４０フレーム後の終端タグとを入力してもよい。

〔１−５．その他〕
なお、情報提供装置１０は、発話を行う利用者ごとに学習モデルＭ１を生成し、生成した学習モデルＭ１を用いて音声区間を検出してもよく、デモグラフィック属性やサイコグラフィック属性等といった発話を行う利用者の属性ごとに学習を行った学習モデルＭ１を用いて、音声区間を検出してもよい。また、情報提供装置１０は、言語ごとに学習モデルＭ１を生成してもよい。

また、情報提供装置１０は、ＤＮＮ等のニューラルネットワークを用いたモデル以外にも、例えば、ＳＶＭ（Support Vector Machine）等を用いたモデルを用いてもよい。すなわち、情報提供装置１０は、始端と終端とに加えて、始端と終端以外の特徴をモデルに学習させるのであれば、任意のモデルを採用可能である。

〔２．情報提供装置が有する機能構成の一例について〕
以下、上記した検出処理および配信処理を実現する情報提供装置１０が有する機能構成の一例について説明する。図２は、実施形態に係る情報提供装置の構成例を示す図である。図２に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、例えば、利用者が使用する利用者端末１００との間で情報の送受信を行う。このような利用者端末１００は、利用者の発話をマイク等で取得し、取得した発話を含む音響信号を情報提供装置１０へと送信する。また、情報提供装置１０は、上述した検出処理により、音響信号から音声区間を抽出し、抽出した音声区間の音声認識に基づく処理の結果を利用者端末１００へと出力する。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１およびモデルデータベース３２を記憶する。

学習データデータベース３１は、学習データが登録される。例えば、図３は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図３に示すように、学習データデータベース３１には、「学習データＩＤ（Identifier）」、「フレーム番号」、「音声データ」、「始端タグ」、「終端タグ」、および「その他タグ」といった項目を有する情報が登録される。

ここで、「学習データＩＤ」とは、学習データの識別子である。また、「フレーム番号」とは、対応付けられた音声データ、始端タグ、終端タグおよびその他タグと対応するフレームを識別する番号である。また、「音声データ」とは、対応付けられた「フレーム番号」が示すフレームの音声データ、すなわち音響信号である。また、「始端タグ」とは、対応付けられた「フレーム番号」が示すフレームの始端タグの値である。また、「終端タグ」とは、対応付けられた「フレーム番号」が示すフレームの終端タグの値である。また、「その他タグ」とは、対応付けられた「フレーム番号」が示すフレームのその他タグの値である。

例えば、図３に示す例では、学習データデータベース３１には学習データＩＤ「ＬＤ１」、フレーム番号「ｔ１」、音声データ「ＳＤ１」、始端タグ「０」、終端タグ「０」、およびその他タグ「１」が対応付けて登録されている。このような情報は、学習データＩＤ「ＬＤ１」が示す学習データのうち、フレーム番号「ｔ１」が示すフレームの音声データとして、音声データ「ＳＤ１」が登録されており、かかるフレームの各タグの値が始端タグ「０」、終端タグ「０」、その他タグ「１」である旨を示す。

なお、図３に示す例では、「ＳＤ１」といった概念的な値を記載したが、実際には、学習データデータベース３１には、音声データとして各フレームの音声の音量や周波数分布等を示す情報が登録されることとなる。また、図３に示す情報以外にも、学習データデータベース３１には、任意の情報が登録されていてよい。

図２に戻り、説明を続ける。モデルデータベース３２には、学習モデルが登録される。すなわち、モデルデータベース３２には、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルＭ１のデータが登録される。例えば、モデルデータベース３２には、学習モデルＭ１のデータとして、それぞれが１つ又は複数のノードを含む多段の層を構成するノードの情報と、各ノード間の接続関係を示す情報と、ノード間で情報を伝達する際の重みである接続係数とが登録される。

ここで、学習モデルＭ１は、学習データである音響信号が入力される入力層を有する。また、学習モデルＭ１は、音響信号のうち認識対象となる音声が含まれる音声区間の始端を示す情報と、音声区間の終端を示す情報とに加えて、音声区間の始端および終端以外の区間を示す情報とを出力する出力層を有する。

また、学習モデルＭ１は、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。

このような学習モデルＭ１は、例えば、学習時においては、入力層に音声データが入力された場合に、出力層から、始端確度と、終端確度と、その他確度とを出力するようコンピュータを機能させる。そして、情報提供装置１０は、学習モデルＭ１が出力する各確度が、入力された音声データと対応する教師データ、すなわち、音響信号のうち認識対象となる音声が含まれる音声区間の始端を示す情報（すなわち、始端タグ）と、音声区間の終端を示す情報（すなわち、終端タグ）とに加えて、音声区間の始端および終端以外の区間を示す情報（すなわち、その他タグ）を示すように、学習モデルＭ１の接続係数を修正する。

また、学習モデルＭ１は、測定時においては、入力層に音声データが入力された場合に、出力層から、始端タグと、終端タグと、その他タグとを示す情報を出力するようコンピュータを機能させる。すなわち、学習モデルＭ１は、入力層に入力された音響信号に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と、第１要素の重みであって、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを反映させた重みに基づく演算を行うことにより、入力された音響信号のうち音声区間に関する情報を出力層から出力するよう、コンピュータを機能させるためのモデルである。

ここで、学習モデルＭ１がＳＶＭや回帰モデルで実現される場合、学習モデルＭ１は、入力層と出力層とを有する単純パーセプトロンと見做すことができる。学習モデルＭ１を単純パーセプトロンと見做した場合、第１要素は、入力層が有するいずれかのノードに対応し、第２要素は、出力層が有するノードと見做すことができる。また、学習モデルＭ１をＤＮＮ等、１つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第１要素とは、入力層または中間層が有するいずれかのノードと見做すことができ、第２要素とは、第１要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第１要素の重みとは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。

ここで、情報提供装置１０は、学習データデータベース３１に登録される学習データを用いて、上述した検出処理を実行するための学習モデルＭ１を生成する。すなわち、学習データデータベース３１に登録される学習データは、音響信号と、音響信号が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された音響信号に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と、第１要素の重みであって、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを反映させた重みに基づく演算を行うことにより、入力された音響信号のうち音声区間に関する情報を出力層から出力するよう、コンピュータを機能させるためのデータである。

情報提供装置１０は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、検出処理を実行する。より具体的には、情報提供装置１０は、音響信号が入力された場合に、音響信号のうち音声区間の始端を示す情報と、終端を示す情報と共に、音響信号のうち音声区間の始端および終端以外の区間を示す情報とを出力するように接続係数が設定された学習モデルＭ１を用いて、音声区間を検出する。

制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

また、制御部４０は、記憶部３０に記憶される学習モデルＭ１に従った情報処理により、学習モデルＭ１の入力層に入力された音響信号に対し、学習モデルＭ１が有する係数（すなわち、学習モデルＭ１が学習した各特徴に対応する係数）に基づく演算を行い、入力された音響信号が音声区間の始端であるか、終端であるか、音声区間の始端または終端以外の区間であるかを定量的に示す値、すなわち、始端確度、終端確度、およびその他確度といった各種の確度（事後確率や状態確率、以下「確度」と記載する。）を算出し、学習モデルＭ１の出力層から出力する。

図２に示すように、制御部４０は、学習部４１、取得部４２、検出部４３、応答生成部４４、及び提供部４５を有する。

学習部４１は、学習データデータベース３１に登録される学習データを用いて、モデルデータベース３２に登録される学習モデルＭ１の学習を行う。例えば、学習部４１は、学習データＬＤ１の音声データの値を入力した際に、学習モデルＭ１が入力された音声データと対応する教師データである始端タグと、終端タグと、その他タグとを示す始端確度、終端確度およびその他確度の値を出力するように、学習モデルＭ１の接続係数を補正する。この結果、学習部４１は、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習モデルＭ１に学習させる。

より具体的には、学習部４１は、始端が含まれるフレームから所定の範囲のフレームの始端タグの値が「１」となり、終端が含まれるフレームから所定の範囲のフレームの終端タグの値が「１」となる学習データＬＤ１を用いて、学習モデルＭ１の学習を行う。この結果、学習部４１は、音声区間の始端の特徴として、音声区間のうち始端を含む所定の区間における音響信号の特徴を学習モデルＭ１に学習させ、音声区間の終端の特徴として、音声区間のうち終端を含む所定の区間における音響信号の特徴を学習モデルＭ１に学習させることとなる。

また、学習部４１は、音声区間として、音響信号のうち音声認識に関する所定の要件を満たす音声が含まれる区間の始端、終端、およびその区間以外の区間を示す学習データＬＤ１を用いて、音声区間として、音響信号のうち音声認識に関する所定の要件を満たす音声が含まれる区間の特徴を学習モデルＭ１に学習させる。例えば、学習部４１は、音声区間として、音響信号のうち、音声認識結果を用いた処理において一つの単位として用いられる利用者による発話が含まれる区間の始端、終端、およびその区間以外の区間を示す学習データＬＤ１を用いて、音声区間として、音声認識結果を用いた処理において一つの単位として用いられる利用者による発話が含まれる区間の特徴を学習モデルＭ１に学習させる。

また、学習部４１は、音響信号として、音の周波数特性を示す音声データを含む学習データＬＤ１を用いて学習モデルＭ１の学習を行うことで、音声区間の始端における周波数特性の特徴と、音声区間の終端における周波数特性の特徴と、音響信号のうち音声区間の始端または終端以外の区間における周波数特性の特徴とを学習モデルＭ１に学習させる。

なお、学習部４１は、学習モデルＭ１として、ＬＳＴＭの機能を有する学習モデルＭ１の学習を行う。また、学習部４１は、複数のフレームを含む音響信号と、各フレームが音声区間の始端であるか否かを示す始端タグ、各フレームが音声区間の終端であるか否かを示す終端タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとを有する学習データＬＤ１を用いて学習モデルＭ１の学習を行うことで、各フレームの音響信号と、始端タグと、終端タグと、その他タグとの間の関係性を学習モデルＭ１に学習させる。

なお、学習部４１は、対応するフレームよりも後のフレームの音響信号が音声区間の始端であるか否かを示す始端タグと、対応するフレームよりも後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとを有する学習データＬＤ１を用いて、学習モデルＭ１の学習を行うことで、各フレームの音響信号と、始端タグと、終端タグと、その他タグとの間の関係性を学習モデルＭ１に学習させてもよい。例えば、学習部４１は、対応するフレームよりも所定の第１フレーム数だけ後のフレームの音響信号が音声区間の始端であるか否かを示す始端タグと、対応するフレームよりも所定の第２フレーム数だけ後のフレームであって、第１フレーム数よりも多い第２フレーム数だけ後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとを有する学習データＬＤ１を用いて、学習モデルＭ１の学習を行うことで、各フレームの音響信号と、始端タグと、終端タグと、その他タグとの間の関係性を学習モデルＭ１に学習させてもよい。

また、学習部４１は、いかなる学習アルゴリズムを用いて各モデルを生成してもよい。例えば、学習部４１は、ニューラルネットワーク、サポートベクターマシン（support vector machine）、クラスタリング、強化学習等の学習アルゴリズムを用いて各モデルの学習や生成を行ってよい。一例として、学習部４１がニューラルネットワークを用いて楽手モデルＭ１を生成する場合、学習モデルＭ１は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。

取得部４２は、処理対象となる音響信号を取得する。例えば、取得部４２は、利用者端末１００から音響信号を取得する。

検出部４３は、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルＭ１を用いて、取得された音響信号から音声区間を検出する。例えば、検出部４２は、処理対象となる音響信号を所定の長さのフレームに分割する。また、検出部４３は、モデルデータベース３２に登録された学習モデルＭ１を読出し、読み出した学習モデルＭ１の入力層に各フレームの音響信号を入力する。

ここで、図４は、実施形態に係る学習モデルが出力する各確度の値の一例を説明する図である。なお、図４に示す例では、図１に示す学習データＬＤ１に含まれる音声データと同一の音声データを学習モデルＭ１に入力した際に、学習モデルＭ１が有する出力層が出力する確度の一例について記載した。また、図４に示す例では、音声データが音声区間の始端を含む確度ＳＴを短点線で示し、音声データが音声区間の終端を含む確度ＥＴを長点線で示し、音声データが音声区間の始端または終端以外となる確度ＯＴを実線で示した。

例えば、図４に示す例では、学習モデルＭ１に期間ＴＷ１に含まれる音声データが入力された場合は、確度ＯＴの値が閾値τを超えるとともに、確度ＳＴ、ＥＴの値が確度τの値を下回る。また、学習モデルＭ１に期間ＴＷ２に含まれる音声データが入力された場合は、確度ＳＴの値が閾値τを超えるとともに、確度ＯＴ、ＥＴの値が閾値τの値を下回る。また、学習モデルＭ１に期間ＴＷ３に含まれる音声データが入力された場合は、確度ＯＴの値が閾値τを超えるとともに、確度ＳＴ、ＥＴの値が確度τの値を下回る。また、学習モデルＭ１に期間ＴＷ４に含まれる音声データが入力された場合は、確度ＥＴの値が閾値τを超えるとともに、確度ＳＴ、ＯＴの値が確度τの値を下回る。

この結果、学習モデルＭ１は、期間ＴＷ１および期間ＴＷ３に含まれる音声データが入力された場合は、その他確度の値として「１」を出力し、他の確度の値として「０」を出力する。また、学習モデルＭ１は、期間ＴＷ２に含まれる音声データが入力された場合は、始端確度の値として「１」を出力し、他の確度の値として「０」を出力する。また、学習モデルＭ１は、期間ＴＷ４に含まれる音声データが入力された場合は、終端確度の値として「１」を出力し、他の確度の値として「０」を出力する。

このような場合、検出部４３は、始端確度の値がτを超えたフレーム（すなわち、始端タグの値が「１」となるフレーム）から終端確度の値がτを超えたフレーム（すなわち、終端タグの値が「０」となるフレーム）までの間の区間を音声区間として特定する。そして、検出部４３は、音響信号から特定した区間を抽出することで、音声区間のデータを生成する。

応答生成部４４は、抽出された音声区間を用いて、各種処理結果を応答として生成する。例えば、応答生成部４４は、抽出した音声区間に含まれる音からテキストデータを生成し、生成したテキストデータを各種外部サーバへと送信し、外部サーバからテキストデータに基づく処理結果を取得する。

提供部４５は、処理結果を応答として利用者端末１００に提供する。例えば、提供部４５は、応答生成部４４によって取得された処理結果の内容を読み上げた音声データを生成し、生成した音声データを利用者端末１００へと送信する。

〔３．学習モデルの他の例について〕
上述した例では、情報提供装置１０は、始端タグと終端タグとに加えて、その他タグを設定した学習データＬＤ１を用いた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、始端タグ、終端タグ、およびその他タグに加えて、１つまたは複数のタグをさらに設定した学習データＬＤ１を用いて、学習モデルＭ１の学習を行ってもよい。

例えば、情報提供装置１０は、発話のうち破裂音やブレス等の音が含まれる区間を示すタグを設定した学習モデルＭ１の学習を行ってもよい。すなわち、情報提供装置１０は、音声データのうち、発話の始端や終端と特徴が類似するが、始端や終端とは異なる区間の特徴をさらに学習モデルＭ１に学習させることで、音声認識の精度をさらに向上させてもよい。

例えば、図５は、実施形態に係る学習モデルのバリエーションの一例を説明する図である。例えば、図５に示す例では、学習データＬＤ２には、音声データとともに、教師データとなる始端タグ、終端タグ、その他タグに加えて、対応するフレームの音声がブレスであるか否かを示すブレスタグを含む。まが、学習モデルＭ２の出力層は、始端確度、終端確度、その他確度に加えて、ブレス確度やその他教師データに含まれるタグと対応する確度を出力する構成を有する。なお、学習データＬＤ２には、図５に示すタグ以外にも、対応するフレームの音声データの特徴を示す各種のタグが含まれていてもよい。

このような場合、情報提供装置１０は、図５中（Ａ）に示すように、始端タグ、終端タグ、その他タグ、ブレスタグ等の各種タグを含む教師データを出力層における損失関数を扱う際に利用するとともに、学習データＬＤ２の音声データを入力した場合に、出力層から各タグの値を示す確度を出力するように学習モデルＭ２の学習を行う。例えば、情報提供装置１０は、図５中（Ｂ）に示すように、中間層から出力される各データと、教師データとを比較し、中間層から出力される各データが教師データの値と近くなるように、接続係数の再計算を行う。このような処理の結果、情報提供装置１０は、音声データのうち、発話の始端や終端と特徴が類似するが、始端や終端とは異なる区間の特徴をさらに詳細に学習モデルＭ２に学習させることができるので、音声認識の精度をさらに向上させることができる。

なお、学習データＬＤ２において、始端確度の値もしくは終端確度の値がτ以上となる場合には、他のタグの値がτ未満となるのであれば、任意の学習が採用可能である。すなわち、学習データＬＤ２においては、始端確度および終端確度以外の確度のうち、複数の確度がτ以上となってもよい。

〔４．情報提供装置が実行する処理の流れについて〕
次に、図６、図７を用いて、情報提供装置１０が実行する処理の流れの一例について説明する。図６は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図７は、実施形態に係る情報提供装置が実行する検出処理の流れの一例を示すフローチャートである。

まず、図６を用いて、学習処理の流れの一例を説明する。まず、情報提供装置１０は、始端タグと、終端タグと、その他タグとが付与された学習データＬＤ１、ＬＤ２を読出し（ステップＳ１０１）、各タグと音声データとの間の関係性を学習モデルに学習させ（ステップＳ１０２）、処理を終了する。

続いて、図７を用いて、検出処理の流れの一例を説明する。まず、情報提供装置１０は、音響情報を受付けたか否かを判定し（ステップＳ２０１）、受付けていない場合は（ステップＳ２０１：Ｎｏ）、ステップＳ２０１を実行する。また、情報提供装置１０は、音響信号を受付けた場合は（ステップＳ２０１：Ｙｅｓ）、音響信号を学習モデルＭ１に入力し（ステップＳ２０２）、学習モデルＭ１が出力した各確度の値に基づいて、音声区間の始端と終端とを特定する（ステップＳ２０３）。そして、情報提供装置１０は、特定結果に応じた処理を実行し（ステップＳ２０４）、処理を終了する。

〔５．変形例〕
上記では、情報提供装置１０による学習処理や検出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０が実行する検出処理や配信処理のバリエーションについて説明する。

〔５−１．装置構成〕
記憶部３０に登録された各データベース３１、３２は、外部のストレージサーバに保持されていてもよい。また、情報提供装置１０は、学習処理を実行する学習サーバ、検出処理を実行する検出サーバ、および検出結果に応じて各種の処理を実行する実行サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部４１が配置されていればよく、検出サーバには、取得部４２、および検出部４３が配置されていればよく、実行サーバには、応答生成部４４および提供部４５が配置されていればよい。

〔５−２．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔５−３．プログラム〕
また、上述した実施形態に係る情報提供装置１０は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムまたはデータ（例えば、学習モデルＭ１）を実行することにより、制御部４０の機能を実現する。コンピュータ１０００の演算装置１０３０は、これらのプログラムまたはデータ（例えば、学習モデルＭ１）を一次記憶装置１０４０から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

〔６．効果〕
上述したように、情報提供装置１０は、音響信号を取得する。そして、情報提供装置１０は、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルＭ１、Ｍ２を用いて、取得された音響信号から音声区間を検出する。このため、情報提供装置１０は、音声区間の認識精度を容易に向上させることができる。すなわち、情報提供装置１０は、学習モデルＭ１、Ｍ２に対して、始端および終端に加えて、音声区間の始端および終端以外の区間の特徴を学習させるだけで、始端および終端と類似するが始端および終端ではない区間を、音声区間の始端および終端以外の区間として学習させることができるので、音声区間の認識精度を容易に向上させることができる。

また、情報提供装置１０は、音声区間の始端の特徴として、音声区間のうち始端を含む所定の区間における音響信号の特徴を学習し、音声区間の終端の特徴として、音声区間のうち終端を含む所定の区間における音響信号の特徴を学習した学習モデルＭ１、Ｍ２を用いて、取得された音響信号から音声区間を検出する。このため、情報提供装置１０は、適切に、音声区間の特徴を学習させることができる。

また、情報提供装置１０は、音声区間として、音響信号のうち音声認識に関する所定の要件を満たす音声が含まれる区間の特徴を学習した学習モデルＭ１、Ｍ２を用いる。例えば、情報提供装置１０は、音声区間として、音響信号のうち、音声認識結果を用いた処理において一つの単位として用いられる利用者による発話が含まれる区間の特徴を学習した学習モデルＭ１、Ｍ２を用いる。このため、情報提供装置１０は、音声認識の結果を用いた処理の実行精度を向上させることができる。

また、情報提供装置１０は、学習モデルＭ１、Ｍ２として、音声区間の始端における周波数特性の特徴と、音声区間の終端における周波数特性の特徴と、音響信号のうち音声区間の始端または終端以外の区間における周波数特性の特徴とを学習した学習モデルＭ１、Ｍ２を用いて、取得された音響信号から音声区間を検出する。このため、情報提供装置１０は、音声区間の特徴を適切に学習させることができる。

また、情報提供装置１０は、学習モデルＭ１、Ｍ２として、ＬＳＴＭの機能を有する学習モデルＭ１、Ｍ２を用いる。このため、情報提供装置１０は、入力された音響信号の全体を入力せずとも、取得された音響信号を先頭から順に学習モデルＭ１、Ｍ２に入力した場合にも、音声区間を適切に検出することができるので、処理をストリーミング形式で実行することができる結果、処理のリアルタイム性を担保することができる。

また、情報提供装置１０は、学習モデルＭ１、Ｍ２として、複数のフレームを含む音響信号と、各フレームが音声区間の始端であるか否かを示す始端タグ、各フレームが音声区間の終端であるか否かを示す終端タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとの間の関係性を学習した学習モデルＭ１、Ｍ２を用いる。このため、情報提供装置１０は、学習モデルＭ１、Ｍ２が音声区間の始端と終端とを検出する精度を向上させることができる。

また、情報提供装置１０は、学習モデルＭ１、Ｍ２として、対応するフレームよりも後のフレームの音響信号が音声区間の始端であるか否かを示す始端タグと、対応するフレームよりも後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとの間の関係性を学習した学習モデルＭ１、Ｍ２を用いる。例えば、情報提供装置１０は、学習モデルＭ１、Ｍ２として、対応するフレームよりも所定の第１フレーム数だけ後のフレームの音響信号が音声区間の始端であるか否かを示す始端タグと、対応するフレームよりも所定の第２フレーム数だけ後のフレームであって、第１フレーム数よりも多い第２フレーム数だけ後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとの間の関係性を学習した学習モデルＭ１、Ｍ２を用いる。このため、情報提供装置１０は、学習モデルＭ１、Ｍ２が音声区間の始端と終端とを検出する精度をさらに向上させることができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。

１０情報提供装置
２０通信部
３０記憶部
３１学習データデータベース
３２モデルデータベース
４０制御部
４１学習部
４２取得部
４３検出部
４４応答生成部
４５提供部
１００利用者端末

Claims

音響信号を取得する取得部と、
複数のフレームを含む音響信号と、各フレームが音響信号のうち認識対象となる音声が含まれる音声区間の始端であるか否かを示す第１タグ、各フレームが音声区間の終端であるか否かを示す第２タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示す第３タグとの間の関係性を学習することで、音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習したした学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出部と
を有することを特徴とする検出装置。
前記検出部は、前記音声区間の始端の特徴として、前記音声区間のうち始端を含む所定の区間における音響信号の特徴を学習し、前記音声区間の終端の特徴として、前記音声区間のうち終端を含む所定の区間における音響信号の特徴を学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する
ことを特徴とする請求項１に記載の検出装置。
前記検出部は、前記音声区間として、音響信号のうち音声認識に関する所定の要件を満たす音声が含まれる区間の特徴を学習した学習モデルを用いる
ことを特徴とする請求項１または２に記載の検出装置。
前記検出部は、前記音声区間として、音響信号のうち、音声認識結果を用いた処理において一つの単位として用いられる利用者による発話が含まれる区間の特徴を学習した学習モデルを用いる
ことを特徴とする請求項３に記載の検出装置。
前記検出部は、前記学習モデルとして、前記音声区間の始端における周波数特性の特徴と、当該音声区間の終端における周波数特性の特徴と、音響信号のうち前記音声区間の始端または終端以外の区間における周波数特性の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する
ことを特徴とする請求項１〜４のうちいずれか１つに記載の検出装置。
前記検出部は、前記学習モデルとして、ＬＳＴＭ（Long Short-Term Memory）の機能を有する学習モデルを用いる
ことを特徴とする請求項１〜５のうちいずれか１つに記載の検出装置。
前記検出部は、前記学習モデルとして、対応するフレームよりも後のフレームの音響信号が音声区間の始端であるか否かを示す第１タグと、対応するフレームよりも後のフレームの音響信号が音声区間の終端であるか否かを示す第２タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示す第３タグとの間の関係性を学習した学習モデルを用いる
ことを特徴とする請求項１〜６のうちいずれか１つに記載の検出装置。
前記検出部は、前記学習モデルとして、対応するフレームよりも所定の第１フレーム数だけ後のフレームの音響信号が音声区間の始端であるか否かを示す第１タグと、対応するフレームよりも所定の第２フレーム数だけ後のフレームであって、前記第１フレーム数よりも多い第２フレーム数だけ後のフレームの音響信号が音声区間の終端であるか否かを示す第２タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示す第３タグとの間の関係性を学習した学習モデルを用いる
ことを特徴とする請求項１〜７のうちいずれか１つに記載の検出装置。
検出装置が実行する検出方法であって、
音響信号を取得する取得工程と、
複数のフレームを含む音響信号と、各フレームが音響信号のうち認識対象となる音声が含まれる音声区間の始端であるか否かを示す第１タグ、各フレームが音声区間の終端であるか否かを示す第２タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示す第３タグとの間の関係性を学習することで、音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出工程と
を含むことを特徴とする検出方法。
音響信号を取得する取得手順と、
複数のフレームを含む音響信号と、各フレームが音響信号のうち認識対象となる音声が含まれる音声区間の始端であるか否かを示す第１タグ、各フレームが音声区間の終端であるか否かを示す第２タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示す第３タグとの間の関係性を学習することで、音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出手順と
をコンピュータに実行させるための検出プログラム。