JP2020086011A

JP2020086011A - 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム

Info

Publication number: JP2020086011A
Application number: JP2018216881A
Authority: JP
Inventors: 祐介木田; Yusuke Kida
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2020-06-04
Anticipated expiration: 2038-11-19
Also published as: JP6998289B2

Abstract

【課題】複数の利用者が同時に発話を行った場合に、特定の利用者の発話の認識精度が低下しないように、特定の利用者の発話の認識精度を改善する。【解決手段】端末装置１００は、キーワードの音声そのものが有する特徴に基づいて、入力音声からキーワード音声を抽出する（ステップＳ６）。続いて、キーワード音声が有する特徴と類似する特徴の音声を強調するように、それぞれ異なる複数の強調関数に対応する重みを推定する（ステップＳ７）。続いて、各強調関数と設定した重みとを用いて、後続音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する（ステップＳ８）。続いて、強調音声に含まれる音声と特徴が類似する音声を強調するためのマスクを生成する（ステップＳ９）。そして、後続音声にマスクを適用することで、音声認識の対象となる対象音声を生成し、対象音声の音声認識結果を得る（ステップＳ１０）。【選択図】図１

Description

本発明は、抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラムに関する。

近年、自動音声認識（Automatic Speech Recognition）を利用した技術が知られている。このような自動音声認識の技術の一例として、利用者の発話をテキストデータに変換し、変換後のテキストデータを用いて各種の情報処理を実行する技術が知られている。また、認識精度を改善するため、入力された音響信号から、利用者の発話が含まれる音声区間を検出する音声区間検出（Voice Activity Detection）の技術が知られている。

特開２００８−１３９６５４号公報

"世界初、声の特徴に基づき聞きたい人の声を抽出する技術を実現：NTT持株会社ニュースリリース：NTT HOME"＜インターネット＞http://www.ntt.co.jp/news2018/1805/180528c.html［平成３０年１０月３０日検索］

しかしながら、上述した技術では、複数の利用者が同時に発話を行った場合に、特定の利用者の発話の認識精度が低下する場合がある。

例えば、音声区間に複数の利用者の発話が混在する場合、発話を適切に認識するのが困難となる。そこで、特定の利用者が発話した音声の特徴をあらかじめ学習しておき、混在した発話のうち特定の利用者が発話した音声のみを強調する技術が考えられる。しかしながら、このような技術では、あらかじめ特定の利用者のみが発話を行った際に音声を取得し、取得した音声の特徴をあらかじめ学習する必要がある。

本願は、上記に鑑みてなされたものであって、利用者の発話の認識精度を改善することを目的とする。

本願に係る抽出装置は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出部と、前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出部とを有することを特徴とする。

実施形態の一態様によれば、利用者の発話の認識精度を改善することができる。

図１は、実施形態に係る情報提供装置と端末装置とが実行する処理の一例を示す図である。図２は、実施形態に係る情報提供装置が生成する第１モデルの一例を示す図である。図３は、実施形態に係る情報提供装置が生成する第２モデルの一例を示す図である。図４は、実施形態に係る情報提供装置が生成する第３モデルの一例を示す図である。図５は、実施形態に係る情報提供装置が生成する第４モデルの一例を示す図である。図６は、実施形態に係る情報提供装置が生成する第５モデルの一例を示す図である。図７は、実施形態に係る情報提供装置の構成例を示す図である。図８は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図９は、実施形態に係る端末装置の構成例を示す図である。図１０は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。図１１は、実施形態に係る端末装置が実行する検出処理の流れの一例を示すフローチャートである。図１２は、ハードウェア構成の一例を示す図である。

以下に、本願に係る抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報提供装置と端末装置とについて〕
まず、図１を用いて、学習処理を実行する学習装置の一例である情報提供装置１０が実行する学習処理の一例と、抽出処理を実行する検出装置の一例である端末装置１００が実行する検出処理の一例とについて説明する。図１は、実施形態に係る情報提供装置と端末装置とが実行する処理の一例を示す図である。

図１に示す情報提供装置１０は、学習処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、情報提供装置１０は、データサーバＤＳから提供される学習データを用いて、所定のキーワードを発話した音声であるキーワード音声を検出するとともに、キーワード音声と特徴が類似する音声を、キーワード音声に続く後続音声から抽出する際に用いるモデルの学習を実行する。

データサーバＤＳは、各種のデータを管理する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、データサーバＤＳは、情報提供装置１０が学習処理に用いる学習データの管理を行う。なお、データサーバＤＳが管理する学習データの詳細については、後述する。

端末装置１００は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。例えば、端末装置１００は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、端末装置１００は、音の入力を受付ける受付機能を有し、利用者が発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。なお、端末装置１００は、スマートスピーカー以外にも、スマートフォンやタブレット等といった各種の情報処理装置であってもよい。また、端末装置１００は、必ずしもスピーカー等の出力装置を有する必要はない。例えば、端末装置１００は、音声に代えて、文字列等の情報を表示することで各種の情報を利用者に対して出力してもよい。

例えば、端末装置１００は、利用者が所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークＮ（例えば、図７を参照）を介して、所定の外部サーバＯＳ（例えば、図７を参照）から取得する。そして、音声デバイスは、取得した楽曲を再生する。

なお、端末装置１００は、例えば、利用者Ｕが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、端末装置１００は、「今日の天気は？」といった利用者Ｕの音声を取得した場合は、外部サーバＯＳから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Ｕに天気の情報を提供する。また、端末装置１００は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能なスマートスピーカーである。

なお、端末装置１００は、外部サーバＯＳと連携することで、音声解析を行ってもよい。例えば、端末装置１００は、マイク等を用いて周囲の音声を取得し、取得した音声が所定の条件を満たした場合は、外部サーバＯＳに取得した音声を送信する。このような場合、外部サーバＯＳは、取得した音声の内容を各種の音声解析技術により特定し、特定結果を端末装置１００へと送信する。その後、端末装置１００は、特定結果に対応する各種の処理を実行してもよい。すなわち、端末装置１００は、スタンドアローン型のスマートスピーカーであってもよく、クラウド等の外部サーバと連携するスマートスピーカーであってもよい。

ここで、端末装置１００は、それぞれ異なる位置に取付けられた複数の取得装置（例えば、マイク等）を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行してもよい。また、端末装置１００は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、端末装置１００は、物理的に離間した位置に設置された複数の取得装置と無線ＬＡＮ（Local Area Network）やブルートゥース（登録商標）等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。

〔１−１．入力音声について〕
利用者は、スマートスピーカー等を操作する場合は、所定のキーワードを発話した後で、実行させる処理を示す発話（以下、「処理発話」と記載する。）を発話する。このような場合、端末装置１００は、取得した音声に所定のキーワードが含まれているか否かを判定する。そして、端末装置１００は、所定のキーワードが含まれていると判定される場合は、そのキーワードに続いて利用者が発話した処理発話が含まれる音声データの区間から、音声解析により利用者の発話内容を特定する。

しかしながら、端末装置１００に対して入力される音声には、キーワードを利用者が発話した音声であるキーワード発話や処理発話以外にも、各種の雑音が含まれる場合がある。例えば、図１に示す例では、利用者ＴＵによりキーワードと処理発話とが発声されているが、同時に、利用者ＴＵの近傍に位置する利用者Ｕ１によって雑音となる発話である雑音発話が発声されている。また、図１に示す例では利用者ＴＵの近傍に設置されたテレビジョンＴＶから雑音となる音声が出力されている。

このような場合においては、端末装置１００に対し、利用者ＴＵによる発話のみならず、利用者Ｕ１による雑音発話やテレビジョンＴＶが発する雑音等が混在した音声が入力音声として入力される。このように雑音が含まれる音声が入力された場合、後続音声から処理音声を適切に認識することができなくなる恐れがある。

そこで、予め特定の利用者が発声した音声の特徴を学習しておき、入力音声のうち学習済の特徴を有する音声を強調する技術が知られている。このような技術においては、例えば、雑音が無い状況で利用者ＴＵが発声した音声の特徴を学習し、入力音声に含まれる各種の音声のうち、利用者ＴＵが発声した音声と特徴が類似する音声を強調するといった処理が行われる。

〔１−２．抽出処理について〕
しかしながら、上述した技術では、あらかじめ利用者ＴＵが発声した音声の特徴を学習しておく必要がある。このため、特徴を学習していない利用者が発話した音声を強調することができず、特徴を学習していない利用者の処理発話等を適切に認識することができない。

そこで、端末装置１００は、以下の抽出処理を実行する。まず、端末装置１００は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。そして、端末装置１００は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。例えば、端末装置１００は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。

例えば、端末装置１００に対して何かしらの処理を実行させたい利用者は、所定のキーワードを発話した後で処理発話を発話することとなる。ここで、キーワードに含まれる音素は、利用者によらず一定なため、キーワード音声は、発話する利用者ごとの特徴だけではなく、発話する利用者によらない共通した特徴を有する。このため、端末装置１００は、キーワードに含まれる音素の特徴等、発話する利用者によらず、各利用者により発話されるキーワード音声に共通した特徴に基づいて、キーワード音声の検出を行う。

一方で、キーワード音声を発声した利用者は、キーワード音声に続けて処理発話を発話すると考えられるが、このように同一の利用者が発したキーワード音声と処理発話とは、特徴が共通する音声となる。そこで、端末装置１００は、検出したキーワード音声と特徴が類似する音声を後続音声から抽出する。すなわち、端末装置１００は、キーワードの音素が有する特徴に基づいてキーワード発話を検出し、音の高さや周波数成分等といった利用者の声の特徴がキーワード発話と類似する音声を後続音声から抽出する。換言すると、端末装置１００は、第１種別の特徴に基づいてキーワード音声を検出し、第１種別とは異なる第２種別の特徴がキーワード音声と類似する音声を後続音声から抽出する。

このような処理を実行した場合、端末装置１００は、キーワード音声を発声した利用者と同じ利用者が発した音声であって、キーワード音声に続けて発声した音声、すなわち、処理発話を後続音声から抽出することができる。この結果、端末装置１００は、雑音が含まれる入力音声から、処理発話を適切に抽出することができるので、処理発話の認識精度を向上させることができる。

〔１−３．抽出処理の一例について〕
以下、図１を用いて、端末装置１００が実行する抽出処理の一例について説明する。例えば、情報提供装置１０は、データサーバＤＳから学習データを取得する（ステップＳ１）。そして、情報提供装置１０は、端末装置１００が抽出処理を実行する際に用いるモデルの学習を行う。例えば、情報提供装置１０は、後続音声に含まれる音声のうちキーワード音声と類似する特徴の音声を抽出するモデルの学習を行う（ステップＳ２）。そして、情報提供装置１０は、学習済のモデルである学習モデルを端末装置１００に提供する（ステップＳ３）。なお、以下の説明では、端末装置１００が学習モデルを用いて実行する抽出処理の流れの一例について説明し、情報提供装置１０が学習データの特徴を学習させるモデルの構造や学習手法の具体的な内容については、後述する。

このような場合、端末装置１００は、入力音声を受付ける（ステップＳ４）。例えば、端末装置１００は、利用者Ｕ１の雑音発話、利用者ＴＵが発話したキーワード音声と処理発話、および、テレビジョンＴＶから発せられた雑音が混ざった音声を入力音声として受付ける。このような場合、端末装置１００は、学習モデルを用いて抽出処理を実行し、抽出した音声の音声認識を実行する（ステップＳ５）。

まず、端末装置１００は、キーワードの音声そのものが有する特徴に基づいて、入力音声からキーワード音声を抽出する（ステップＳ６）。すなわち、端末装置１００は、キーワードを発声した際の音素が有する特徴に基づいて、入力音声からキーワード音声を抽出する。例えば、端末装置１００は、利用者ＴＵが発話したキーワード音声が含まれる区間（以下、「キーワード区間」と記載する。）と、利用者ＴＵが発話した処理発話を含む後続音声が含まれる区間（以下、「後続区間」と記載する。）とを有する入力音声を受付ける。なお、図１に示す例では、利用者ＴＵにより発話されたキーワード音声や処理発話を黒色で示し、雑音を含む入力音声全体を灰色で示した。

このような入力音声から、端末装置１００は、キーワードの音声に含まれる音素の特徴に基づいて、キーワード音声を検出する。例えば、「ハローヤフー」という文言がキーワードとなる場合、端末装置１００は、「ハ」、「ロー」、「ヤ」、「フー」といった音素の特徴および音素が出現する順番の特徴等、キーワードの音声そのものが有する特徴に基づいて、キーワード音声を検出する。なお、このような検出については、各種任意の音声を検出する公知の音声検出技術を採用してもよい。

ここで、入力音声には、利用者ＴＵの発話以外にも、各種の雑音が含まれているが、利用者ＴＵの発話は、周波数特性等、共通する特徴が存在すると考えられる。換言すると、後続音声に含まれる音声のうち、キーワード音声として検出された「ハローヤフー」の発音が有する特徴と類似する特徴の音声は、利用者ＴＵが発話した音声、すなわち、処理発話の音声であると推定される。

そこで、端末装置１００は、このような利用者ＴＵが発した処理発話の音声を抽出するため、以下の処理を実行する。まず、端末装置１００は、キーワード音声が有する特徴と類似する特徴の音声を強調するように、それぞれ異なる複数の強調関数に対応する重みを推定する（ステップＳ７）。例えば、端末装置１００は、それぞれ異なる特徴を有する音声を強調する複数の強調関数Ｆ_１〜Ｆ_ｍを設定する。これらの強調関数Ｆ_１〜Ｆ_ｍは、例えば、それぞれ異なる周波数特性を有する音声を強調する関数である。端末装置１００は、このような強調関数Ｆ_１〜Ｆ_ｍのそれぞれについて、重みＷ_１〜Ｗ_ｍを設定することで、検出したキーワード音声と同じ特徴を有する音声を強調するような統合強調関数を設定する。

続いて、端末装置１００は、各強調関数と設定した重みとを用いて、後続音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する（ステップＳ８）。例えば、端末装置１００は、入力音声のうちキーワード音声を検出した区間よりも後の区間を後続区間とし、後続区間に含まれる音声を後続音声として抽出する。そして、端末装置１００は、各強調関数Ｆ_１〜Ｆ_ｍと重みＷ_１〜Ｗ_ｍと後続音声との積の和を強調音声とする。より具体的には、端末装置１００は、後続音声をＡＶとし、強調音声をＥＶとすると、ＥＶ＝ΣＷ_ｍ・Ｆ_ｍ・ＡＶで示される強調音声を算出する。

続いて、端末装置１００は、強調音声に含まれる音声と特徴が類似する音声を強調するためのマスクを生成する（ステップＳ９）。すなわち、端末装置１００は、強調された利用者ＴＵが発話した音声を優先的に強調し、他の音声をマスキングするような音声用のマスクを生成する。そして、端末装置１００は、後続音声にマスクを適用することで、音声認識の対象となる対象音声を生成し、対象音声の音声認識結果を得る（ステップＳ１０）。

例えば、端末装置１００は、後続音声に対してマスクを適用することで、利用者ＴＵが発話した音声、すなわち、処理発話の音声を強調した音声を対象音声として生成する。換言すると、端末装置１００は、後続音声から処理発話を抽出した音声を生成する。そして、端末装置１００は、生成した対象音声の音声認識を実行する。例えば、端末装置１００は、各種の音声認識技術を用いて、対象音声に含まれる発話をテキストに変換する。なお、このような音声認識は、端末装置１００により実現されてもよく、図示を省略した各種の外部サーバにより実現されてもよい。例えば、端末装置１００は、外部サーバに対して対象音声を送信し、音声認識結果を外部サーバから取得してもよい。

そして、端末装置１００は、音声認識結果に応じた処理を実行する（ステップＳ１１）。例えば、端末装置１００は、音声認識の結果が「今日の天気は？」といったものであった場合、外部サーバ等から天気予報の情報を取得する。そして、端末装置１００は、取得した情報の読み上げ等を行うことで、処理結果を利用者ＴＵに提供する（ステップＳ１２）。

〔１−４．モデルの一例および学習処理について〕
ここで、情報提供装置１０は、学習処理を実行することで、上述した抽出処理を端末装置１００に実行させるための学習モデルを生成し、生成した学習モデルを端末装置１００に提供する。ここで、情報提供装置１０は、端末装置１００に対してキーワード発話と同じ特徴を有する音声を後続音声から抽出させるのであれば、任意の構造を有する学習モデルの生成を行ってよい。以下の説明では、図２〜図６を用いて、情報提供装置１０が生成する学習モデルの構造および学習処理のバリエーションについて説明する。

〔１−４−１．第１モデルについて〕
まず、図２を用いて、情報提供装置１０が生成する学習モデルの第１のバリエーションである第１モデルＭ１について説明する。図２は、実施形態に係る情報提供装置が生成する第１モデルの一例を示す図である。なお、図２においては、第１モデルＭ１が有する構造の一例と、第１モデルＭ１の学習を行うための学習データの一例と、第１モデルＭ１の学習処理の一例とを示した。

例えば、第１モデルＭ１は、ＤＮＮ（Deep Neural Network）Ｕ１、抽出部Ｕ２、および、ＤＮＮＵ３を有する。なお、ＤＮＮＵ１およびＤＮＮＵ３は、ＲＮＮ（Recurrent Neural Networks）、ＬＳＴＭ（Long short-term memory）、ＣＮＮ（Convolutional Neural Network）等、任意の構造を有するＤＮＮにより実現される。

ＤＮＮＵ１は、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部として動作する。なお、ＤＮＮＵ１は、入力音声からキーワード発話を検出する検出部として動作してもよい。なお、ＤＮＮＵ１は、検出部として動作するモデルと、推定部として動作するモデルとが強調して動作することにより実現されてもよい。

また、ＤＮＮＵ１は、推定部としてのみ動作するモデルであってもよい。このような場合、端末装置１００は、任意の音声検出技術により、キーワード音声の検出を行えばよい。なお、ＤＮＮ１は、非負値行列因子分解（Non-negative Matrix Factorization）の技術を用いて、キーワード音声の分離を行うような各種のモデルと、分離したキーワード音声の特徴に基づいて、重みを推定するモデルとに基づいて実現されてもよい。

抽出部Ｕ２は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声の特徴量を抽出する。例えば、抽出部Ｕ２は、それぞれ異なる強調関数と、ＤＮＮＵ１によって強調関数ごとに推定された重みとを用いて、後続音声のうちキーワード音声と特徴が類似する音声を強調した強調音声の特徴量を生成する。なお、抽出部Ｕ２は、人間が視聴した際に認識できるような音声の抽出や強調音声の生成を行ってもよい。すなわち、抽出部Ｕ２は、ＤＮＮＵ１により推定された重みが適用された複数の強調関数を用いて、後続音声からキーワード音声と特徴が類似する音声を強調した強調音声を生成してもよい。

例えば、抽出部Ｕ２は、予め設定された強調関数Ｆ_１〜Ｆ_ｍを保持する。また、抽出部Ｕ２は、ＤＮＮＵ１により強調関数ごとに推定された重みＷ_１〜Ｗ_ｍを受付けると、後続発話に対して各強調関数Ｆ_１〜Ｆ_ｍを適用した音声に、推定された重みＷ_１〜Ｗ_ｍを適用する。そして、抽出部Ｕ２は、強調関数と重みとを適用した後続音声の総和を強調音声として生成する。ここで、抽出部Ｕ２により生成された強調音声においては、後続音声のうちキーワード音声と特徴が類似する音声、すなわち、処理発話が強調され、他の雑音が低減されている。このため、抽出部Ｕ２により生成された強調音声は、後続音声から処理発話を抽出した音声と見做すことができる。

ＤＮＮＵ３は、抽出部Ｕ２で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する第１マスク生成部として動作するモデルである。例えば、ＤＮＮＵ３は、音声が入力されると、入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われている。このため、ＤＮＮＵ３は、抽出部Ｕ２により生成された強調音声が入力されると、強調音声と同じ特徴を有する音声を強調するためのマスク、すなわち、キーワード音声と特徴が類似する処理発話を主に強調するマスクを生成することとなる。

このようなＤＮＮＵ１、抽出部Ｕ２、およびＤＮＮＵ３を有する第１モデルＭ１の配信を受付けた場合、端末装置１００は、第１モデルＭ１に入力音声を入力する。このような場合、ＤＮＮＵ１は、キーワード音声の検出を行うとともに、後続音声のうちキーワード音声と同じ特徴を有する音声を強調するための重みを生成する。また、抽出部Ｕ２は、ＤＮＮＵ１によって生成された重みと強調関数とを用いて、後続音声に含まれる音声のうちキーワード音声と特徴が類似する音声を強調した強調音声の特徴量を生成する。そして、ＤＮＮＵ３は、抽出部Ｕ２で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する。すなわち、ＤＮＮＵ３は、強調音声と特徴が類似する音声を強調するためのマスクを生成する。

また、端末装置１００は、音声データのうち後続音声に対し、第１モデルＭ１により生成されたマスクを適用することで、音声認識の対象となる対象音声を生成する。そして、端末装置１００は、対象音声に含まれる音声の音声認識を行うことで、処理発話の内容を得る。なお、端末装置１００は、自装置内で対象音声の音声認識を実行してもよく、外部サーバに対象音声を送信し、外部サーバから音声認識の結果を受付けてもよい。

ここで、このような第１モデルＭ１の学習を行う場合、情報提供装置１０は、以下の学習処理を実行する。まず、情報提供装置１０は、学習データとして、キーワード音声と後続音声とを含む音声データと、この音声データを第１モデルＭ１に入力した際に第１モデルＭ１に出力させたいマスクとの組を受付ける。すなわち、情報提供装置１０は、ある利用者により発話されたキーワードおよび処理発話を含む音声データと、この利用者の発話を強調するためのマスクとを学習データとして受付ける。

このような場合、情報提供装置１０は、音声データを第１モデルＭ１に入力した際に、第１モデルが学習データとして受付けたマスクと類似するマスクを出力するように、第１モデルＭ１の学習を行う。例えば、情報提供装置１０は、ＤＮＮＵ１にキーワード音声を入力し、抽出部Ｕ２に後続音声を入力した場合に、ＤＮＮＵ３が学習データとして受付けたマスクと類似するマスクを出力するように、第１モデルＭ１の学習を行う。

すなわち、情報提供装置１０は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声に続く音声である後続音声と、後続音声のうちキーワード音声と特徴が類似する音声を強調するためのマスクとを学習データとして取得する。そして、情報提供装置１０は、キーワード音声の入力を受付けると、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデル（すなわち、ＤＮＮＵ１）と、第１モデルにより推定された重みが適用された複数の前記強調関数を用いて後続音声からキーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスク（すなわち、抽出部Ｕ２で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスク）を生成する第２モデル（すなわち、ＤＮＮＵ３）とを有する第１モデルＭ１に対し、学習データとして取得されたキーワード音声と後続音声とを入力した場合に、学習データとして取得されたマスクを出力するように、第１モデルＭ１の学習を行う。

ここで、情報提供装置１０は、バックプロパゲーション等、各種任意の学習手法を用いて、第１モデルＭ１の学習を行ってよい。例えば、情報提供装置１０は、第１モデルＭ１が出力するマスクが学習データとマスクと類似するように、ＤＮＮＵ１やＤＮＮＵ３に含まれるノード間の接続係数を修正してもよく、検出部Ｕ２に含まれる各強調関数を修正してもよい。また、情報提供装置１０は、それぞれプレトレーニングを行ったＤＮＮＵ１やＤＮＮＵ３を採用してもよい。

〔１−４−２．第２モデルについて〕
図２に示す第１モデルＭ１は、入力音声からマスクを生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、入力音声に含まれる処理発話の音声認識を実行してもよい。例えば、情報提供装置１０は、入力音声に含まれる処理発話の音声認識を実行してもよい。あるいは、情報提供装置１０は、音素の事後確率である音響スコア計算を実行しても良い。そこで、以下の説明では、情報提供装置１０が生成するモデルのバリエーションとして、入力音声に含まれる処理発話の音声認識を行う第２モデルＭ２について図３を用いて説明する。

図３は、実施形態に係る情報提供装置が生成する第２モデルの一例を示す図である。なお、図３においては、第２モデルＭ２が有する構造の一例と、第２モデルＭ２の学習を行うための学習データの一例と、第２モデルＭ２の学習処理の一例とを示した。

図３に示すように、第２モデルＭ２は、第１モデルと同様のＤＮＮＵ１および抽出部Ｕ２と共に、音声認識を行うＤＮＮＵ４を有する。ＤＮＮＵ４は、例えば、ＤＮＮ−ＡＭ（Acoustic Mode）により実現され、入力された音声から音声認識を行うモデルである。例えば、ＤＮＮＵ４は、入力された音声に含まれる発話をテキストに変換する機能を有する。なお、ＤＮＮＵ４は、各種の音声認識を行うモデルにより実現されてよい。

ここで、第２モデルＭ２においては、ＤＮＮＵ４は、抽出部Ｕ２により抽出された音声、すなわち、抽出部Ｕ２により生成された強調音声の特徴量を受付けると、強調音声の特徴量から音声認識を行うように構成されている。すなわち、ＤＮＮＵ４は、強調音声に含まれる音声を認識する認識部として動作するモデルである。

このような第２モデルＭ２の配信を受付けた場合、端末装置１００は、第２モデルＭ２に入力音声を入力する。このような場合、ＤＮＮＵ１は、キーワード音声の検出を行うとともに、後続音声のうちキーワード音声と同じ特徴を有する音声を強調するための重みを生成する。また、抽出部Ｕ２は、ＤＮＮＵ１によって生成された重みと強調関数とを用いて、後続音声に含まれる音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する。すなわち、抽出部Ｕ２は、強調音声の特徴量を生成する。そして、ＤＮＮＵ４は、音声認識を実行する。

このような第２モデルＭ２の学習を行う場合、情報提供装置１０は、音声データとともに、音声データに含まれる処理発話の発話内容を含む学習データを受付ける。そして、情報提供装置１０は、第２モデルＭ２に音声データを入力した場合に、第２モデルＭ２が出力する音声認識結果と学習データの発話内容とが類似するように、第２モデルＭ２の学習を行う。

例えば、情報提供装置１０は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声（すなわち、処理発話）と、処理発話の発話内容とを学習データとして取得する。そして、情報提供装置１０は、第１モデル（すなわち、ＤＮＮＵ１）と、第１モデルにより推定された重みが適用された複数の強調関数を用いて、キーワード音声に続く後続音声からキーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第３モデル（すなわち、ＤＮＮＵ４）とを有する第２モデルＭ２に対し、学習データとして取得したキーワード音声と後続音声とを入力した場合に、学習データとして取得した発話内容を出力するように、第２モデルＭ２の学習を行う。なお、情報提供装置１０は、第１モデルＭ１と同様に、任意の学習手法を用いて、第２モデルＭ２の学習を行ってよい。

〔１−４−３．第３モデルについて〕
ここで、情報提供装置１０は、第１モデルＭ１に、対象音声を生成する機能と対象音声の音声認識を行う機能とを追加した第３モデルＭ３の学習を行ってもよい。例えば、図４は、実施形態に係る情報提供装置が生成する第３モデルの一例を示す図である。なお、図４においては、第３モデルＭ３が有する構造の一例と、第３モデルＭ３の学習を行うための学習データの一例と、第３モデルＭ３の学習処理の一例とを示した。

例えば、第３モデルＭ３は、第１モデルＭ１が有するＤＮＮＵ１、抽出部Ｕ２、ＤＮＮＵ３に加えて、ＤＮＮＵ３が出力したマスクを後続音声に適用することで対象音声を生成する対象音声生成部Ｕ５と、対象音声の音声認識を行うＤＮＮＵ６とを有する。なお、ＤＮＮＵ６は、第２モデルＭ２が有するＤＮＮＵ４と同様にＤＮＮ−ＡＭにより構成されてもよい。

このような第３モデルＭ３の配信を受付けた場合、端末装置１００は、第３モデルＭ３に入力音声を入力する。このような場合、ＤＮＮＵ１は、キーワード音声の検出を行うとともに、後続音声のうちキーワード音声と同じ特徴を有する音声を強調するための重みを生成する。また、抽出部Ｕ２は、ＤＮＮＵ１によって生成された重みと強調関数とを用いて、後続音声に含まれる音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する。そして、ＤＮＮＵ３は、強調音声と特徴が類似する音声を強調するためのマスクを生成する。例えば、抽出部Ｕ２は、強調音声の特徴量を生成し、ＤＮＮＵ３は、抽出部Ｕ２で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する。また、対象音声生成部Ｕ５は、後続音声に対してＤＮＮＵ３により生成されたマスクを適用することで、音声認識の対象となる対象音声を生成する。そして、ＤＮＮＵ６は、対象音声に含まれる音声の音声認識を行うことで、処理発話の内容を得る。

ここで、このような第３モデルＭ３の学習を行う場合、情報提供装置１０は、以下の学習処理を実行する。まず、情報提供装置１０は、学習データとして、音声データと、処理発話の発話内容とを学習データとして受付ける。そして、情報提供装置１０は、第３モデルＭ３に音声データを入力した場合に、第３モデルＭ３が出力する音声認識結果と学習データの発話内容とが類似するように、第３モデルＭ３の学習を行う。

例えば、情報提供装置１０は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である後続音声と、処理発話の発話内容とを取得する。そして、情報提供装置１０は、第１モデル（すなわち、ＤＮＮＵ１）と、第２モデル（すなわち、ＤＮＮＵ２）と、後続音声に対して当該第２モデルが生成したマスクを適用した音声の音声認識を行う第４モデル（すなわち、ＤＮＮＵ６）とを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、処理発話の発話内容を出力するように、第３モデルＭ３の学習を行う。

〔１−４−４．第４モデルおよび第５モデルについて〕
ここで、情報提供装置１０は、第１モデルＭ１〜第３モデルＭ３に加えて、キーワード区間に含まれる音声からキーワード音声を強調し、キーワード音声を強調した音声と特徴が類似する音声を強調する空間的なフィルタを生成し、生成したフィルタを適用した後続区間から処理発話等、キーワード音声と特徴が類似する音声の抽出を行ってもよい。すなわち、情報提供装置１０は、上述した第１モデルＭ１〜第３モデルＭ３を用いた抽出処理の前段において、キーワード音声が有する特徴を用いたビームフォーミング処理を実行し、実行結果となる音声を用いて、抽出処理を実行してもよい。

例えば、図５は、実施形態に係る情報提供装置が生成する第４モデルの一例を示す図である。なお、図５においては、第４モデルＭ４が有する構造の一例を示した。例えば、第４モデルＭ４は、第１モデルＭ１が有するＤＮＮＵ１、抽出部Ｕ２、ＤＮＮＵ３に加えて、マスク生成部Ｕ７、フィルタ生成部Ｕ８、およびフィルタ適用部Ｕ９を有する。

マスク生成部Ｕ７は、第２マスク生成部として動作し、キーワード音声が有する特徴を学習したモデルを用いて、キーワード区間に含まれる信号のうちキーワード音声と類似する特徴を有する音声を強調するマスクを生成する。例えば、マスク生成部Ｕ７は、キーワード音声の波形又は周波数特性を深層学習したモデルを用いて、キーワード区間に含まれる信号のうちキーワード音声と類似する特徴を有する類似信号を強調するマスクを生成する。

例えば、マスク生成部Ｕ７は、キーワード区間に含まれる音声を学習済モデルに入力する。そして、マスク生成部Ｕ７は、学習済モデルの出力を、キーワード音声を強調するマスクとして取得する。例えば、マスク生成部Ｕ７は、キーワード区間に含まれる音声のうち、キーワード音声であると推定される音声（すなわち、特徴を学習したキーワード音声と類似する特徴を有する信号）を強調するマスクを生成する。そして、マスク生成部Ｕ７は、生成したマスクを用いて、キーワード区間に含まれるキーワード音声を強調した音声、すなわち、マスクを適用した適用音声を生成する。例えば、マスク生成部Ｕ７は、キーワード区間の各領域に含まれる信号の振幅を、学習済モデルがキーワード区間の各領域ごとに算出した確度に従って増幅した適用音声を生成する。

フィルタ生成部Ｕ８は、複数の入力音声に対してマスク生成部Ｕ７により生成されたマスクを適用した適用音声から、キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成する。すなわち、フィルタ生成部Ｕ８は、適用音声に基づいて、後続区間に含まれる音声のうち適用音声と特徴が類似する音声を強調するためのフィルタを生成する。すなわち、フィルタ生成部Ｕ８は、キーワード信号と同様の特徴を有する信号を強調するための空間的なフィルタを生成する。

例えば、端末装置１００は、それぞれ設置位置が異なる複数のマイクを用いて取得された入力音声を取得する。このような場合、フィルタ生成部Ｕ８は、各マイクごとに取得された入力音声からマスク生成部Ｕ７が生成した適用音声を取得する。このような場合、フィルタ生成部Ｕ８は、各適用音声に含まれる信号のうちキーワード音声の可能性が高い音声を抽出する。そして、フィルタ生成部Ｕ８は、各適用信号から抽出した音声から、後続区間に含まれる音声のうち抽出した音声と同様の特徴を有する信号を強調するための空間的なフィルタを生成する。

例えば、フィルタ生成部Ｕ８は、各強調音声から抽出した音声が観測された時間と、各マイクの設置位置とに基づいて、抽出した音声の到来方向を推定する。そして、フィルタ生成部Ｕ８は、推定した到来方向から到来する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部Ｕ８は、キーワード音声と空間的な特徴が類似する音声を強調するためのフィルタ、すなわち、空間的なフィルタを生成する。例えば、フィルタ生成部Ｕ８は、複数のマイクがそれぞれ取得した音声を合成する際の重みづけ係数をフィルタとして生成する。

なお、フィルタ生成部Ｕ８は、キーワード音声と周波数特性が類似する信号を強調するための関数を生成してもよい。例えば、キーワードと指示発話とは、同じ利用者Ｕによって発話されるため、類似する周波数特性を有するとも考えられる。そこでフィルタ生成部Ｕ８は、強調されたキーワード音声の周波数特性を推定し、各マイクが取得した音声から推定した周波数特性を有する信号を強調するためのフィルタを生成してもよい。

フィルタ適用部Ｕ９は、後続音声に対してフィルタ生成部Ｕ８が生成したフィルタを適用した音声を生成する。そして、フィルタ適用部Ｕ９は、生成した音声を抽出部Ｕ２に提供する。この結果、抽出部Ｕ２は、後続区間に含まれる音声のうちキーワード音声と類似する音声を強調した音声から、強調関数に基づいて、キーワード音声と特徴が類似する音声をさらに強調した音声を生成する。そして、ＤＮＮＵ３は、抽出部Ｕ２により生成された音声からマスクの生成を行うこととなる。

なお、ＤＮＮＵ１は、マスク生成部Ｕ７により生成された発話音声から、強調関数の重みの推定を行ってもよい。例えば、図６は、実施形態に係る情報提供装置が生成する第５モデルの一例を示す図である。なお、図６においては、第５モデルＭ５が有する構造の一例を示した。

例えば、第５モデルＭ５においては、第４モデルＭ１が有するマスク生成部Ｕ７により生成された発話音声が、フィルタ生成部Ｕ８に加えて、ＤＮＮＵ１にも入力される。このような場合、ＤＮＮＵ１は、マスク生成部Ｕ７により生成されたマスクを適用した適用音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定することとなる。

なお、上述した第４モデルＭ４および第５モデルＭ５は、第１モデルＭ１と同様の学習データおよび学習処理により、学習を行うことが可能である。

〔１−４−５．各モデルの構成について〕
ここで、図２〜図６に示す各モデルＭ１〜Ｍ５の構成は、あくまで一例であり、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、第２モデルＭ２や第３モデルＭ３に対して、マスク生成部Ｕ７、フィルタ生成部Ｕ８およびフィルタ適用部Ｕ９（以下、「フィルタ構成」と記載する。）を適用したモデルの生成を行ってもよい。また、情報提供装置１０は、第２モデルＭ２や第３モデルＭ３に対して、フィルタ構成を適用する場合、第４モデルＭ４のような構成を有するフィルタ構成を適用してもよく、第５モデルＭ５のような構成を有するフィルタ構成を適用してもよい。また、各モデルは、キーワード区間に含まれる音声からキーワード音声を音素の特徴等に基づいて検出するための手段を有していなくともよい。

また、上述した説明では、抽出部Ｕ２は、予め設定された強調関数Ｆ_１〜Ｆ_ｍを保持し、ＤＮＮＵ１により強調関数ごとに推定された重みＷ_１〜Ｗ_ｍを受付けると、後続発話に対して各強調関数Ｆ_１〜Ｆ_ｍを適用した音声に、推定された重みＷ_１〜Ｗ_ｍを適用することで、強調音声の生成（若しくは、強調音声の特徴の生成）を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、各モデルＭ１〜Ｍ５の学習を行う際、各強調関数Ｆ_１〜Ｆ_ｍについても学習対象としてもよい。すなわち、情報提供装置１０は、各モデルＭ１〜Ｍ５に学習データを入力した際に、所望する出力データを出力するように、各強調関数Ｆ_１〜Ｆ_ｍの修正を行ってもよい。

なお、抽出部Ｕ２は、各強調関数Ｆ_１〜Ｆ_ｍとして動作する単一若しくは複数のモデル（すなわち、ＤＮＮ）を有していてもよく、単一若しくは複数のモデルにより実現されてもよい。また、各モデルＭ１〜Ｍ５は、図２〜図６に示すように、複数の機能構成（すなわち、モデル）により構成されていてもよく、全体として１つのモデルにより実現されてもよい。

なお、上述した説明における各種の音声（例えば、キーワード音声、後続音声、入力音声、若しくは強調音声等）は、人間が実際に認識可能な音声であってもよく、このような音声の特徴量であってもよい。すなわち、各モデルＭ１〜Ｍ５は、実際の音声そのものに対する各種の処理を実現してもよく、音声の特徴量を用いた処理を実現してもよい。すなわち、上述した各種の処理は、実際の音声の検出、抽出、生成等の処理に限定されるものではなく、音声の特徴量の検出、抽出、生成等の処理をも含む概念である。

〔１−４−６．学習データについて〕
上述した各モデルＭ１〜Ｍ５の学習を行う場合、情報提供装置１０は、キーワード音声と処理音声とを含む音声データを用いるのであれば、任意の音声データを用いてよい。ここで、各モデルＭ１〜Ｍ５を用いて雑音が多く含まれる入力音声から音声認識を精度良く実行する点を考慮すると、情報提供装置１０は、キーワード音声と処理音声とが同一の利用者により発話されており、かつ、任意の雑音が含まれる音声を音声データとして採用すればよい。

例えば、情報提供装置１０は、キーワード音声と処理音声とを所定の利用者が続けて発話した音声に対し、各種の音を雑音として合成した音声データを学習データに用いてもよい。ここで、雑音として合成される音声には、各種のノイズ音声のみならず、キーワード音声と処理音声とを発話した利用者以外の利用者による発話が含まれていてもよい。また、雑音として合成される音声には、テレビジョンＴＶ等から出力されるであろう音声が含まれていてもよい。また、学習モデルの精度を控除した場合、情報提供装置１０は、様々な種別の雑音を含む音声データを学習データとして採用するのが望ましい。

また、学習データにおいてキーワード音声と処理音声とを発話する利用者は、特定の利用者に限定されるものではない。すなわち、１つの学習データに含まれるキーワード音声と処理音声とが同一の利用者により発話されているのであれば、任意の数の任意の利用者により発話されたキーワード音声と処理音声とを含む音声を学習データとして採用してよい。ここで、各モデルＭ１〜Ｍ５が、キーワード音声と特徴が類似する音声を抽出することを考慮すると、学習データに含まれる音声は、単一の利用者により発話された音声であってもよく、複数の利用者により発話された音声であってもよい。

〔１−４−７．検出について〕
ここで、情報提供装置１０は、各モデルＭ１〜Ｍ５に、キーワード音声を検出する機能を含めてもよく、含めずともよい。すなわち、キーワード音声を音素の特徴等に基づいて検出するための手段は、端末装置１００に予め保持されていてもよく、各モデルとともに情報提供装置１０が学習および配信を行ってよい。例えば、情報提供装置１０は、所定のキーワードを発話した音声が有する特徴を学習したモデルを用いて、キーワード音声を検出するための機能を各モデルＭ１〜Ｍ５に含めてもよい。このような機能は、例えば、ＤＮＮＵ１やマスク生成部Ｕ７の前段に設定されることとなる。また、このようなキーワードの検出機能は、例えば、様々な利用者により発話されたキーワード音声の特徴を学習するように学習が行われたモデルにより実現されてもよい。また、このようなキーワードの検出機能は、キーワード音声に雑音を加えた学習データにより学習が行われたモデルにより実現されてもよい。

〔２．機能構成の一例〕
以下、上記した学習処理を実現する情報提供装置１０が有する機能構成の一例、および、上述した抽出処理を実現する端末装置１００が有する機能構成の一例について説明する。

〔２−１．情報提供装置の機能構成の一例について〕
まず、図７を用いて、情報提供装置１０が有する機能構成の一例を説明する。図７は、実施形態に係る情報提供装置の構成例を示す図である。図７に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、例えば、端末装置１００、データサーバＤＳおよび外部サーバＯＳとの間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１およびモデルデータベース３２を記憶する。

学習データデータベース３１は、学習データが登録される。例えば、図８は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図８に示すように、学習データデータベース３１には、「学習データＩＤ（Identifier）」、「音声データ」、「キーワード区間」、「後続区間」、「マスク」および「認識結果」といった項目を有する情報が登録される。

ここで、「学習データＩＤ」とは、学習データの識別子である。また、「音声データ」とは、学習データとなる音声データであり、キーワード発話を含むキーワード区間と、処理発話を含む後続区間とを含む音声データである。また、「キーワード区間」とは、音声データのうちキーワード区間を示す情報である。また、後続区間とは、音声データのうち後続区間を示す情報である。また、「マスク」とは、後続区間に含まれる音声のうち、キーワード区間に含まれるキーワード音声と周波数特性等といった特徴が類似する音声を強調するためのマスクを示す情報である。また、「認識結果」とは、後続区間に含まれる音声のうち、キーワード発話に続く処理発話の認識結果を示す情報である。

例えば、図８に示す例では、学習データデータベース３１には、学習データＩＤ「ＬＤ１」、音声データ「音声＃１」、キーワード区間「０：０５〜０：０７」、後続区間「０：０８〜０：１４」、マスク「マスク＃１」および認識結果「認識結果＃１」が対応付けて登録されている。このような情報は、学習データＩＤ「ＬＤ１」が示す音声データが音声データ「音声＃１」であり、この音声データ「音声＃１」のうちキーワード区間「０：０５〜０：０７」が示す区間にキーワード音声が含まれており、後続区間「０：０８〜０：１４」が示す区間に処理発話が含まれている旨を示す。また、このような情報は、キーワード音声と特徴が同じ音声を強調するためのマスクがマスク「マスク＃１」であり、処理発話の認識結果が認識結果「認識結果＃１」である旨を示す。

なお、図８に示す例では、「音声＃１」、「マスク＃１」、および「認識結果＃１」といった概念的な値を記載したが、実際には、学習データデータベース３１には、各種形式の音声データ、マスクを構成する各種の数値、および認識結果となる文字列等が登録されることとなる。また、図８に示す情報以外にも、学習データデータベース３１には、任意の情報が登録されていてよい。

図７に戻り、説明を続ける。モデルデータベース３２には、学習モデルが登録される。例えば、モデルデータベース３２には、図２〜図６に例示するような各種のモデルのデータが登録される。例えば、モデルデータベース３２には、学習モデルのデータとして、それぞれが１つ又は複数のノードを含む多段の層を構成するノードの情報と、各ノード間の接続関係を示す情報と、ノード間で情報を伝達する際の重みである接続係数とが登録される。

ここで、学習モデルは、学習データである音声データが入力される入力層を有する。また、学習モデルは、入力された音声データから検出されたキーワード音声と特徴が類似する音声を強調するように、所定の強調関数の重みを推定し、推定した重みと強調関数とを用いて後続区間に含まれる音声から強調音声を生成する中間層と、生成した強調音声と特徴が類似する音声を強調するマスク若しくは強調音声の認識結果を出力する出力層とを有する。

また、モデルＭ１は、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。

このような学習モデルは、例えば、学習時および測定時において、入力層に音声データが入力された場合に、出力層から、マスクや認識結果を出力するようコンピュータを機能させる。そして、情報提供装置１０は、学習時においては、学習モデルが出力するマスクや認識結果とが、入力された音声データと対応する学習データのマスクや認識結果と類似するように、学習モデルの接続係数を修正する。

ここで、情報提供装置１０は、学習データデータベース３１に登録される学習データを用いて、上述した抽出処理を実行するための学習モデルを生成する。すなわち、学習データデータベース３１に登録される学習データは、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させるためのデータである。

制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

図２に示すように、制御部４０は、データ取得部４１、学習部４２、および提供部４３を有する。データ取得部４１は、学習データとなる音声データを取得する。例えば、データ取得部４１は、データサーバＤＳから学習データとして、キーワード音声を含むキーワード区間と、キーワード音声に続けて利用者が発した処理発話を含む後続区間とを含む音声データを取得する。ここで、音声データには、各種の雑音が含まれていてもよい。また、データ取得部４１は、音声データに含まれるキーワード音声と特徴が類似する音声を強調するためのモデルや、処理発話の認識結果を取得する。そして、データ取得部４１は、取得した各種のデータを学習データとして学習データデータベース３１に登録する。

すなわち、データ取得部４１は、第１モデルＭ１、第４モデルＭ４、もしくは第５モデルＭ５の学習を行うため、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声に続く音声である後続音声と、後続音声のうちキーワード音声と特徴が類似する音声を強調するためのマスクとを取得する。また、データ取得部４１は、第２モデルＭ２や第３モデルＭ３の学習を行うため、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である発話音声と、発話音声の音声認識結果とを取得する。

学習部４２は、学習データデータベース３１に登録された学習データを用いて、各モデルＭ１〜Ｍ５の学習を行い、学習を行ったモデルを学習モデルとしてモデルデータベース３２に登録する。例えば、学習部４２は、図２に示した第１モデルＭ１、図５に示した第４モデルＭ４、若しくは図６に示した第５モデルＭ５を生成し、生成した各モデルの学習を行う。具体的には、学習部４２は、学習データを各モデルに入力した際に、学習データと対応するマスクを出力するように、各モデルの学習を行う。すなわち、学習部４２は、キーワード音声の入力を受付けると、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、第１モデルにより推定された重みが適用された複数の強調関数を用いて後続音声からキーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、対応するマスクを出力するように、モデルの学習を行う。すなわち、学習部４２は、抽出部Ｕ２で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成するように学習を行う。

また、学習部４２は、図３に示した第２モデルＭ２を生成し、生成した第２モデルＭ２の学習を行う。具体的には、学習部４２は、学習データを第２モデルＭ２に入力した際に、学習データと対応する認識結果を出力するように、第２モデルＭ２の学習を行う。すなわち、学習部４２は、第１モデルと、第１モデルにより推定された重みが適用された複数の強調関数を用いて、キーワード音声に続く後続音声からキーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第３モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。

また、学習部４２は、図４に示した第３モデルＭ３を生成し、生成した第３モデルＭ３の学習を行う。具体的には、学習部４２は、学習データを第３モデルＭ３に入力した際に、学習データと対応する認識結果を出力するように、第３モデルＭ３の学習を行う。すなわち、学習部４２は、第１モデルと、第２モデルと、後続音声に対して第２モデルが生成したマスクを適用した音声の音声認識を行う第４モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。

提供部４３は、学習モデルを端末装置１００に提供する。例えば、提供部４３は、端末装置１００からの要求に基づき、モデルデータベース３２から学習モデルＭを読出し、読み出した学習モデルＭを端末装置１００に送信する。

〔２−２．端末装置の機能構成の一例について〕
続いて、図９を用いて、端末装置１００が有する機能構成の一例を説明する。図９は、実施形態に係る端末装置の構成例を示す図である。図９に示すように、端末装置１００は、通信部１２０、記憶部１３０、制御部１４０、マイクＭＣおよびスピーカーＳＰを有する。

通信部１２０は、例えば、ＮＩＣ等によって実現される。そして、通信部１２０は、ネットワークＮと有線または無線で接続され、例えば、情報提供装置１０、データサーバＤＳおよび外部サーバＯＳとの間で情報の送受信を行う。

記憶部１３０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部１３０は、情報提供装置１０から配信される学習モデルＭを記憶する。

マイクＭＣは、利用者が発話した音声等、端末装置１００の周囲から発せられた音声を受付けるマイク、すなわち、入力装置である。また、スピーカーＳＰは、各種の音声を出力するためのスピーカー、すなわち、出力装置である。なお、端末装置１００は、複数のマイクＭＣを有していてもよく、複数のスピーカーＳＰを有していてもよい。

制御部１４０は、コントローラであり、例えば、ＣＰＵ、ＭＰＵ等のプロセッサによって、端末装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１４０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

制御部１４０は、検出部１４１、推定部１４２、抽出部１４３、生成部１４４、認識部１４５、強調部１４６、および処理部１４７を有する。ここで、検出部１４１は、学習モデルＭとは個別の各種プログラムを実行することにより実現されてもよい。また、学習モデルＭが図２に示す第１モデルＭ１の構成を有する場合、制御部１４０は、学習モデルを実行することで、推定部１４２、抽出部１４３、および生成部１４４の機能を有することとなる。

また、学習モデルが図３に示す第２モデルＭ２の構造を有する場合、制御部１４０は、学習モデルを実行することで、推定部１４２、抽出部１４３、および認識部１４５の機能を有することとなる。また、学習モデルが図４に示す第３モデルＭ３の構造を有する場合、制御部１４０は、学習モデルを実行することで、推定部１４２、抽出部１４３、生成部１４４、および認識部１４５の機能を有することとなる。また、学習モデルが図５に示す第４モデル、若しくは、図６に示す第５モデルの構造を有する場合、制御部１４０は、学習モデルを実行することで、推定部１４２、抽出部１４３、生成部１４４、認識部１４５および強調部１４６の機能を有することとなる。

検出部１４１は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。例えば、検出部１４１は、マイクＭＣにより取得された音声を入力音声として受付けると、受付けた入力音声からキーワード音声を検出する。より具体的な例を挙げると、検出部１４１は、入力音声に含まれる音声の波形や周波数特性から、キーワードを構成する各音素の特徴や各音素が出現する順番の特徴に基づいて、キーワード音声の検出を行う。換言すると、検出部１４１は、複数の利用者が発話したキーワード音声において共通する特徴に基づいて、キーワード音声を検出を行う。なお、このような検出は、例えば、複数の利用者が発話したキーワード音声の特徴を学習した各種のモデルにより実現されてもよく、非負値行列因子分解といった各種音声の切り分けを行う技術を用いて、キーワード音声の検出を行ってもよい。

推定部１４２は、検出されたキーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する。例えば、推定部１４２は、キーワード音声が入力されるとキーワード音声が有する特徴と特徴が類似する音声を強調するための各強調関数の重みを出力するように学習が行われたＤＮＮＵ１に対応する。そして、推定部１４２は、検出部１４１により検出されたキーワード音声を受付けると、受付けたキーワード音声と周波数特性等の特徴が類似する音声を強調するように、各強調関数の重みを推定する。すなわち、推定部１４２は、利用者ごとに異なる特徴であって、検出されたキーワード音声が有する特徴と類似する特徴を有する音声を強調するように、各強調関数の重みを推定する。

なお、各モデルにキーワード音声を検出する機能が含まれる場合、検出部１４１および推定部１４２は、ＤＮＮＵ１に対応することとなる。また、学習モデルが第４モデルＭ４や第５モデルＭ５の構成を有する場合、推定部１４２は、強調部１４６により生成された適用音声と特徴が類似する音声が強調されるように、各強調関数に対する重みの推定を行うこととなる。

抽出部１４３は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。例えば、抽出部１４３は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。より具体的な例を挙げると、抽出部１４３は、推定部１４２により推定された重みが適用された複数の強調関数を用いて、後続音声からキーワード音声と特徴が類似する音声を強調した強調音声を生成する。

例えば、抽出部１４３は、入力音声のうちキーワード音声が検出されたキーワード区間に続く後続区間に含まれる音声を後続音声として受付ける。このような場合、抽出部１４３は、後続音声に対し、各強調関数と、強調関数ごとに推定部１４２が推定した重みとを適用した音声を生成し、生成した音声の総和を強調音声として出力する。なお、抽出部１４３は、各モデルＭ１〜Ｍ５が有する抽出部Ｕ２に対応する。

なお、学習モデルが第４モデルＭ４および第５モデルＭ５の構成を有する場合、抽出部１４３は、単純な後続音声ではなく、強調部１４６によりフィルタが適用された後続音声を受付けることとなる。そして、抽出部１４３は、フィルタが適用された後続音声から、適用音声と特徴が類似する音声、すなわち、キーワード音声と特徴が類似する音声を抽出することとなる。

生成部１４４は、強調音声と特徴が類似する音声を強調するためのマスクを生成する。例えば、抽出部１４３により抽出された音声、すなわち、強調音声から、強調音声と特徴が類似する音声を強調するためのマスクを生成する。より具体的には、生成部１４４は、強調音声の特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する。例えば、抽出部１４３は、音声が入力されると入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われたモデルにより実現される。そして、抽出部１４３は、後続区間に含まれる後続音声に対して、生成したマスクを適用した音声を対象音声として生成する。

なお、生成部１４４は、第１モデルＭ１、第４モデルＭ４および第５モデルＭ５が有するＤＮＮＵ３に対応する。また、生成部１４４は、第３モデルＭ３におけるＤＮＮＵ３および対象音声生成部Ｕ５に対応する。

認識部１４５は、音声の音声認識を行う。例えば、認識部１４５は、学習モデルが第１モデルＭ１、第４モデルＭ４もしくは第５モデルＭ５の構成を有する場合、各種入力された音声の音声認識を行う公知の音声認識モデルにより実現される。また、認識部１４５は、例えば、各種の外部サーバが有する機能構成であってもよい。そして、認識部１４５は、生成部１４４により生成された対象音声の音声認識を行うこととなる。

また、例えば、認識部１４５は、学習モデルが第２モデルＭ２の構成を有する場合、ＤＮＮＵ４と対応し、抽出部１４３により生成された強調音声に含まれる音声の音声認識を行うこととなる。また、例えば、認識部１４５は、学習モデルが第３モデルＭ３の構成を有する場合、ＤＮＮＵ６と対応し、生成部１４４により生成された対象音声の音声認識を行うこととなる。

強調部１４６は、キーワード発話と同じ特徴を有する音声を強調した音声を生成する。例えば、強調部１４６は、第４モデルＭ４若しくは第５モデルＭ５が有するマスク生成部Ｕ７、フィルタ生成部Ｕ８、およびフィルタ適用部Ｕ９に対応する。そして、強調部１４６は、キーワード発話を強調するように学習が行われたモデルを用いて、入力音声のうちキーワード発話が含まれるキーワード領域の音声から、キーワード発話を強調するためのマスクを生成する。また、強調部１４６は、複数の入力音声に対して、生成されたマスクを適用した適用音声を生成し、生成した適用音声から、キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成する。そして、強調部１４６は、後続音声にフィルタを適用した音声を生成する。

すなわち、強調部１４６は、複数のマイクが取得した複数の入力音声から、キーワード音声の空間的な特徴を推定し、推定した特徴に基づいて、キーワード音声を強調するための空間的なフィルタを生成する。そして、強調部１４６は、後続音声に対して生成したフィルタを適用した音声、すなわち、キーワード音声と空間的な特徴が類似する音声を強調した音声を生成する。

処理部１４７は、認識部１４５による認識結果に応じた処理を実行する。例えば、処理部１４７は、認識結果が「今日の天気は？」で合った場合、外部サーバＯＳから天気予報の情報を取得する。そして、処理部１４７は、取得した情報を読み上げた音声をスピーカーＳＰから出力する。

〔３．情報提供装置および端末装置が実行する処理の流れについて〕
次に、図１０、図１１を用いて、情報提供装置１０および端末装置１００が実行する処理の流れの一例について説明する。図１０は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図１１は、実施形態に係る端末装置が実行する検出処理の流れの一例を示すフローチャートである。

まず、図１０を用いて、学習処理の流れの一例を説明する。まず、情報提供装置１０は、音声データを学習データとして取得する（ステップＳ１０１）。そして、情報提供装置１０は、検出されたキーワード音声と特徴が類似する音声を、キーワード音声に続く音声から抽出するモデルの学習を行う（ステップＳ１０２）。そして、情報提供装置１０は、学習モデルを端末装置１００に提供し（ステップＳ１０３）、処理を終了する。

続いて、図１１を用いて、検出処理の流れの一例を説明する。まず、端末装置１００は、入力音声を受付けたか否かを判定し（ステップＳ２０１）、受付けていない場合は（ステップＳ２０１：Ｎｏ）、ステップＳ２０１を実行する。また、端末装置１００は、入力音声を受付けた場合は（ステップＳ２０１：Ｙｅｓ）、キーワードの発音が有する特徴に基づいて、キーワード音声が検出されたか否かを判定する（ステップＳ２０２）。そして、端末装置１００は、キーワード音声が検出されなかったと判定した場合は（ステップＳ２０２：Ｎｏ）、ステップＳ２０１を実行する。一方、端末装置１００は、キーワード音声が検出された場合は（ステップＳ２０２：Ｙｅｓ）、キーワード音声に続く後続音声から、キーワード音声と特徴が類似する音声を抽出する（ステップＳ２０３）。そして、端末装置１００は、抽出した音声の音声認識を行い、認識結果に応じた処理を実行し（ステップＳ２０４）、処理を終了する。

〔４．変形例〕
上記では、学習処理や検出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０や端末装置１００が実行する学習処理や検出処理のバリエーションについて説明する。

〔４−１．モデルを用いた処理について〕
上述した説明では、端末装置１００は、情報提供装置１０により学習が行われた各種のモデルを用いて、抽出処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、端末装置１００は、図２〜図６に示す各種のモデルが実行する処理と同様の処理をコンピュータに実行させるプログラムを実行することにより、上述した抽出処理を実現してもよい。また、端末装置１００は、図２〜図６に示す各種のモデルが有する機能構成のそれぞれを実現する回路を有し、これらの回路を用いて、上述した抽出処理を実現してもよい。

〔４−２．装置構成〕
記憶部３０に登録された各データベース３１、３２は、外部のストレージサーバに保持されていてもよい。また、情報提供装置１０と端末装置１００とは、上述した学習処理および検出処理を連携して実現してもよく、いずれか一方の装置が単独で実行してもよい。

〔４−３．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔４−４．プログラム〕
また、上述した実施形態に係る情報提供装置１０は、例えば図１２に示すような構成のコンピュータ１０００によって実現される。図１２は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムまたはデータ（例えば、学習モデルＭ１）を実行することにより、制御部４０の機能を実現する。コンピュータ１０００の演算装置１０３０は、これらのプログラムまたはデータ（例えば、学習モデルＭ１）を一次記憶装置１０４０から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

〔５．効果〕
上述したように、端末装置１００は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。そして、端末装置１００は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。このような処理の結果、端末装置１００は、事前に特定の利用者の声が有する特徴を学習せずとも、キーワード音声を発話した利用者の音声を後続音声から抽出することができるので、キーワード音声を発話した利用者の処理発話を適切に抽出することができる結果、雑音が多く含まれるような状態においても、音声認識精度を向上させることができる。

また、端末装置１００は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。例えば、端末装置１００は、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する。そして、端末装置１００は、推定された重みが適用された複数の強調関数を用いて、後続音声からキーワード音声と特徴が類似する音声を強調した強調音声を生成する。また、端末装置１００は、キーワード音声が入力されると、キーワード音声が有する特徴と特徴が類似する音声を強調するための各強調関数の重みを出力するように学習が行われた第１モデルを用いて、キーワード音声と特徴が類似する音声を強調するための重みを推定する。この結果、端末装置１００は、キーワード音声を発話した利用者がキーワード音声に続けて発話した処理発話を強調した強調音声を生成することができる。

また、端末装置１００は、強調音声と特徴が類似する音声を強調するためのマスクを生成し、後続音声に対して生成されたマスクを適用した音声を音声認識の対象となる対象音声として生成する。例えば、端末装置１００は、音声が入力されると、入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われた第２モデルを用いて、強調音声と特徴が類似する音声を強調するためのマスクを生成する。このため、端末装置１００は、処理発話の認識精度を向上させることができる。

また、端末装置１００は、対象音声に含まれる音声の音声認識を行う。例えば、端末装置１００は、強調音声に含まれる音声を認識する。例えば、端末装置１００は、音声が入力されると、入力された音声の認識結果を出力するように学習が行われた第３モデルを用いて、強調音声に含まれる音声を認識する。このような処理の結果、端末装置１００は、処理発話の音声認識を行うことができる。

また、端末装置１００は、キーワード発話を強調するように学習が行われたモデルを用いて、入力音声のうちキーワード発話が含まれるキーワード領域の音声から、キーワード発話を強調するためのマスクを生成する。続いて、端末装置１００は、複数の入力音声に対してマスクを適用した適用音声から、キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成する。そして、端末装置１００は、後続音声にフィルタを適用した音声から、キーワード音声と特徴が類似する音声を抽出する。このような処理の結果、端末装置１００は、キーワード音声を発話した利用者と同一の利用者により発話された声を空間的に強調した音声から、認識対象となる音声を抽出することができるので、処理発話の認識精度をさらに向上させることができる。

また、端末装置１００は、生成されたマスクを適用した適用音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定し、推定された重みが適用された複数の強調関数を用いて、フィルタを適用した音声から適用音声と特徴が類似する音声を強調した強調音声を生成する。このため、端末装置１００は、処理発話の認識精度をさらに向上させることができる。

また、端末装置１００は、所定のキーワードを発話した音声が有する特徴を学習した第４モデルを用いて、キーワード音声を検出する。このため、端末装置１００は、適切にキーワード音声を検出することができる。

また、情報提供装置１０は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声に続く音声である後続音声と、後続音声のうちキーワード音声と特徴が類似する音声を強調するためのマスクとを取得する。そして、情報提供装置１０は、キーワード音声の入力を受付けると、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、第１モデルにより推定された重みが適用された複数の強調関数を用いて後続音声からキーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、マスクを出力するように、モデルの学習を行う。

また、情報提供装置１０は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である発話音声と、発話音声の音声認識結果とを取得する。そして、情報提供装置１０は、第１モデルと、第１モデルにより推定された重みが適用された複数の強調関数を用いて、キーワード音声に続く後続音声からキーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第３モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。

また、情報提供装置１０は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である発話音声と、発話音声の音声認識結果とを取得する。そして、情報提供装置１０は、第１モデルと、第２モデルと、後続音声に対して第２モデルが生成したマスクを適用した音声の音声認識を行う第４モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。

上述した各種の処理の結果、情報提供装置１０は、雑音が多く含まれるような状態においても、音声認識精度を向上させることができるモデルの学習を実現することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。

１０情報提供装置
２０、１２０通信部
３０、１３０記憶部
３１学習データデータベース
３２モデルデータベース
４０、１４０制御部
４１データ取得部
４２学習部
４３提供部
１００端末装置
１４１検出部
１４２推定部
１４３抽出部
１４４生成部
１４５認識部
１４６強調部
１４７処理部
Ｍ学習モデル
ＭＣマイク
ＳＰスピーカー
ＯＳ外部サーバ
ＤＳデータサーバ

Claims

入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出部と、
前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出部と
を有することを特徴とする抽出装置。
前記抽出部は、前記後続音声に含まれる音声のうち、前記キーワード音声と特徴が類似する音声を強調した強調音声を生成する
ことを特徴とする請求項１に記載の抽出装置。
前記検出部により検出されたキーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部
を有し、
前記抽出部は、前記推定部により推定された重みが適用された複数の前記強調関数を用いて、前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声を生成する
ことを特徴とする請求項２に記載の抽出装置。
前記推定部は、キーワード音声が入力されると、当該キーワード音声が有する特徴と特徴が類似する音声を強調するための各強調関数の重みを出力するように学習が行われた第１モデルを用いて、前記検出部により検出されたキーワード音声と特徴が類似する音声を強調するための重みを推定する
ことを特徴とする請求項３に記載の抽出装置。
前記強調音声と特徴が類似する音声を強調するためのマスクを生成する第１マスク生成部と、
前記後続音声に対して前記第１マスク生成部により生成されたマスクを適用した音声を音声認識の対象となる対象音声として生成する対象音声生成部と
を有することを特徴とする請求項２〜４のうちいずれか１つに記載の抽出装置。
前記第１マスク生成部は、音声が入力されると、入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われた第２モデルを用いて、前記強調音声と特徴が類似する音声を強調するためのマスクを生成する
ことを特徴とする請求項５に記載の抽出装置。
前記対象音声に含まれる音声の音声認識を行う第１認識部
を有することを特徴とする請求項５または６に記載の抽出装置。
前記強調音声に含まれる音声を認識する第２認識部
を有することを特徴とする請求項２〜４のうちいずれか１つに記載の抽出装置。
前記第２認識部は、音声が入力されると、入力された音声の認識結果を出力するように学習が行われた第３モデルを用いて、前記強調音声に含まれる音声を認識する
ことを特徴とする請求項８に記載の抽出装置。
キーワード発話を強調するように学習が行われたモデルを用いて、前記入力音声のうち前記キーワード発話が含まれるキーワード領域の音声から、当該キーワード発話を強調するためのマスクを生成する第２マスク生成部と、
複数の前記入力音声に対して前記第２マスク生成部により生成されたマスクを適用した適用音声から、前記キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成するフィルタ生成部と
を有し、
前記抽出部は、前記後続音声に前記フィルタ生成部により生成されたフィルタを適用した音声から、前記キーワード音声と特徴が類似する音声を抽出する
ことを特徴とする請求項１〜９のうちいずれか１つに記載の抽出装置。
前記第２マスク生成部により生成されたマスクを適用した適用音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部
を有し、
前記抽出部は、前記推定部により推定された重みが適用された複数の前記強調関数を用いて、前記フィルタを適用した音声から前記適用音声と特徴が類似する音声を強調した強調音声を生成する
ことを特徴とする請求項１０に記載の抽出装置。
前記検出部は、所定のキーワードを発話した音声が有する特徴を学習した第４モデルを用いて、前記キーワード音声を検出する
ことを特徴とする請求項１〜１１のうちいずれか１つに記載の抽出装置。
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得部と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声と、当該発話音声の音声認識結果とを取得する取得部と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて、前記キーワード音声に続く後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第３モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記発話音声の音声認識結果を出力するように、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声と、当該発話音声の音声認識結果とを取得する取得部と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記キーワード音声に続く後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルと、前記後続音声に対して当該第２モデルが生成したマスクを適用した音声の音声認識を行う第４モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記発話音声の音声認識結果を出力するように、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。
抽出装置が実行する抽出方法であって、
入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出工程と、
前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出工程と
を含むことを特徴とする抽出方法。
入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出手順と、
前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出手順と
をコンピュータに実行させるための抽出プログラム。
学習装置が実行する学習方法であって、
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得工程と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得手順と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。
学習装置が実行する学習方法であって、
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得工程と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第３モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得手順と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第３モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。
学習装置が実行する学習方法であって、
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得工程と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルと、前記後続音声に対して当該第２モデルが生成したマスクを適用した音声の音声認識を行う第３モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得手順と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第１モデルと、当該第１モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第２モデルと、前記後続音声に対して当該第２モデルが生成したマスクを適用した音声の音声認識を行う第３モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。