JP2020086011A - 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム - Google Patents

抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム Download PDF

Info

Publication number
JP2020086011A
JP2020086011A JP2018216881A JP2018216881A JP2020086011A JP 2020086011 A JP2020086011 A JP 2020086011A JP 2018216881 A JP2018216881 A JP 2018216881A JP 2018216881 A JP2018216881 A JP 2018216881A JP 2020086011 A JP2020086011 A JP 2020086011A
Authority
JP
Japan
Prior art keywords
voice
keyword
model
subsequent
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018216881A
Other languages
English (en)
Other versions
JP6998289B2 (ja
Inventor
祐介 木田
Yusuke Kida
祐介 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018216881A priority Critical patent/JP6998289B2/ja
Publication of JP2020086011A publication Critical patent/JP2020086011A/ja
Application granted granted Critical
Publication of JP6998289B2 publication Critical patent/JP6998289B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の利用者が同時に発話を行った場合に、特定の利用者の発話の認識精度が低下しないように、特定の利用者の発話の認識精度を改善する。【解決手段】端末装置100は、キーワードの音声そのものが有する特徴に基づいて、入力音声からキーワード音声を抽出する(ステップS6)。続いて、キーワード音声が有する特徴と類似する特徴の音声を強調するように、それぞれ異なる複数の強調関数に対応する重みを推定する(ステップS7)。続いて、各強調関数と設定した重みとを用いて、後続音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する(ステップS8)。続いて、強調音声に含まれる音声と特徴が類似する音声を強調するためのマスクを生成する(ステップS9)。そして、後続音声にマスクを適用することで、音声認識の対象となる対象音声を生成し、対象音声の音声認識結果を得る(ステップS10)。【選択図】図1

Description

本発明は、抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラムに関する。
近年、自動音声認識(Automatic Speech Recognition)を利用した技術が知られている。このような自動音声認識の技術の一例として、利用者の発話をテキストデータに変換し、変換後のテキストデータを用いて各種の情報処理を実行する技術が知られている。また、認識精度を改善するため、入力された音響信号から、利用者の発話が含まれる音声区間を検出する音声区間検出(Voice Activity Detection)の技術が知られている。
特開2008−139654号公報
"世界初、声の特徴に基づき聞きたい人の声を抽出する技術を実現:NTT持株会社ニュースリリース:NTT HOME"<インターネット>http://www.ntt.co.jp/news2018/1805/180528c.html[平成30年10月30日検索]
しかしながら、上述した技術では、複数の利用者が同時に発話を行った場合に、特定の利用者の発話の認識精度が低下する場合がある。
例えば、音声区間に複数の利用者の発話が混在する場合、発話を適切に認識するのが困難となる。そこで、特定の利用者が発話した音声の特徴をあらかじめ学習しておき、混在した発話のうち特定の利用者が発話した音声のみを強調する技術が考えられる。しかしながら、このような技術では、あらかじめ特定の利用者のみが発話を行った際に音声を取得し、取得した音声の特徴をあらかじめ学習する必要がある。
本願は、上記に鑑みてなされたものであって、利用者の発話の認識精度を改善することを目的とする。
本願に係る抽出装置は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出部と、前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出部とを有することを特徴とする。
実施形態の一態様によれば、利用者の発話の認識精度を改善することができる。
図1は、実施形態に係る情報提供装置と端末装置とが実行する処理の一例を示す図である。 図2は、実施形態に係る情報提供装置が生成する第1モデルの一例を示す図である。 図3は、実施形態に係る情報提供装置が生成する第2モデルの一例を示す図である。 図4は、実施形態に係る情報提供装置が生成する第3モデルの一例を示す図である。 図5は、実施形態に係る情報提供装置が生成する第4モデルの一例を示す図である。 図6は、実施形態に係る情報提供装置が生成する第5モデルの一例を示す図である。 図7は、実施形態に係る情報提供装置の構成例を示す図である。 図8は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図9は、実施形態に係る端末装置の構成例を示す図である。 図10は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。 図11は、実施形態に係る端末装置が実行する検出処理の流れの一例を示すフローチャートである。 図12は、ハードウェア構成の一例を示す図である。
以下に、本願に係る抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報提供装置と端末装置とについて〕
まず、図1を用いて、学習処理を実行する学習装置の一例である情報提供装置10が実行する学習処理の一例と、抽出処理を実行する検出装置の一例である端末装置100が実行する検出処理の一例とについて説明する。図1は、実施形態に係る情報提供装置と端末装置とが実行する処理の一例を示す図である。
図1に示す情報提供装置10は、学習処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、情報提供装置10は、データサーバDSから提供される学習データを用いて、所定のキーワードを発話した音声であるキーワード音声を検出するとともに、キーワード音声と特徴が類似する音声を、キーワード音声に続く後続音声から抽出する際に用いるモデルの学習を実行する。
データサーバDSは、各種のデータを管理する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、データサーバDSは、情報提供装置10が学習処理に用いる学習データの管理を行う。なお、データサーバDSが管理する学習データの詳細については、後述する。
端末装置100は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。例えば、端末装置100は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、端末装置100は、音の入力を受付ける受付機能を有し、利用者が発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。なお、端末装置100は、スマートスピーカー以外にも、スマートフォンやタブレット等といった各種の情報処理装置であってもよい。また、端末装置100は、必ずしもスピーカー等の出力装置を有する必要はない。例えば、端末装置100は、音声に代えて、文字列等の情報を表示することで各種の情報を利用者に対して出力してもよい。
例えば、端末装置100は、利用者が所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークN(例えば、図7を参照)を介して、所定の外部サーバOS(例えば、図7を参照)から取得する。そして、音声デバイスは、取得した楽曲を再生する。
なお、端末装置100は、例えば、利用者Uが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、端末装置100は、「今日の天気は?」といった利用者Uの音声を取得した場合は、外部サーバOSから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Uに天気の情報を提供する。また、端末装置100は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能なスマートスピーカーである。
なお、端末装置100は、外部サーバOSと連携することで、音声解析を行ってもよい。例えば、端末装置100は、マイク等を用いて周囲の音声を取得し、取得した音声が所定の条件を満たした場合は、外部サーバOSに取得した音声を送信する。このような場合、外部サーバOSは、取得した音声の内容を各種の音声解析技術により特定し、特定結果を端末装置100へと送信する。その後、端末装置100は、特定結果に対応する各種の処理を実行してもよい。すなわち、端末装置100は、スタンドアローン型のスマートスピーカーであってもよく、クラウド等の外部サーバと連携するスマートスピーカーであってもよい。
ここで、端末装置100は、それぞれ異なる位置に取付けられた複数の取得装置(例えば、マイク等)を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行してもよい。また、端末装置100は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、端末装置100は、物理的に離間した位置に設置された複数の取得装置と無線LAN(Local Area Network)やブルートゥース(登録商標)等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。
〔1−1.入力音声について〕
利用者は、スマートスピーカー等を操作する場合は、所定のキーワードを発話した後で、実行させる処理を示す発話(以下、「処理発話」と記載する。)を発話する。このような場合、端末装置100は、取得した音声に所定のキーワードが含まれているか否かを判定する。そして、端末装置100は、所定のキーワードが含まれていると判定される場合は、そのキーワードに続いて利用者が発話した処理発話が含まれる音声データの区間から、音声解析により利用者の発話内容を特定する。
しかしながら、端末装置100に対して入力される音声には、キーワードを利用者が発話した音声であるキーワード発話や処理発話以外にも、各種の雑音が含まれる場合がある。例えば、図1に示す例では、利用者TUによりキーワードと処理発話とが発声されているが、同時に、利用者TUの近傍に位置する利用者U1によって雑音となる発話である雑音発話が発声されている。また、図1に示す例では利用者TUの近傍に設置されたテレビジョンTVから雑音となる音声が出力されている。
このような場合においては、端末装置100に対し、利用者TUによる発話のみならず、利用者U1による雑音発話やテレビジョンTVが発する雑音等が混在した音声が入力音声として入力される。このように雑音が含まれる音声が入力された場合、後続音声から処理音声を適切に認識することができなくなる恐れがある。
そこで、予め特定の利用者が発声した音声の特徴を学習しておき、入力音声のうち学習済の特徴を有する音声を強調する技術が知られている。このような技術においては、例えば、雑音が無い状況で利用者TUが発声した音声の特徴を学習し、入力音声に含まれる各種の音声のうち、利用者TUが発声した音声と特徴が類似する音声を強調するといった処理が行われる。
〔1−2.抽出処理について〕
しかしながら、上述した技術では、あらかじめ利用者TUが発声した音声の特徴を学習しておく必要がある。このため、特徴を学習していない利用者が発話した音声を強調することができず、特徴を学習していない利用者の処理発話等を適切に認識することができない。
そこで、端末装置100は、以下の抽出処理を実行する。まず、端末装置100は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。そして、端末装置100は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。例えば、端末装置100は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。
例えば、端末装置100に対して何かしらの処理を実行させたい利用者は、所定のキーワードを発話した後で処理発話を発話することとなる。ここで、キーワードに含まれる音素は、利用者によらず一定なため、キーワード音声は、発話する利用者ごとの特徴だけではなく、発話する利用者によらない共通した特徴を有する。このため、端末装置100は、キーワードに含まれる音素の特徴等、発話する利用者によらず、各利用者により発話されるキーワード音声に共通した特徴に基づいて、キーワード音声の検出を行う。
一方で、キーワード音声を発声した利用者は、キーワード音声に続けて処理発話を発話すると考えられるが、このように同一の利用者が発したキーワード音声と処理発話とは、特徴が共通する音声となる。そこで、端末装置100は、検出したキーワード音声と特徴が類似する音声を後続音声から抽出する。すなわち、端末装置100は、キーワードの音素が有する特徴に基づいてキーワード発話を検出し、音の高さや周波数成分等といった利用者の声の特徴がキーワード発話と類似する音声を後続音声から抽出する。換言すると、端末装置100は、第1種別の特徴に基づいてキーワード音声を検出し、第1種別とは異なる第2種別の特徴がキーワード音声と類似する音声を後続音声から抽出する。
このような処理を実行した場合、端末装置100は、キーワード音声を発声した利用者と同じ利用者が発した音声であって、キーワード音声に続けて発声した音声、すなわち、処理発話を後続音声から抽出することができる。この結果、端末装置100は、雑音が含まれる入力音声から、処理発話を適切に抽出することができるので、処理発話の認識精度を向上させることができる。
〔1−3.抽出処理の一例について〕
以下、図1を用いて、端末装置100が実行する抽出処理の一例について説明する。例えば、情報提供装置10は、データサーバDSから学習データを取得する(ステップS1)。そして、情報提供装置10は、端末装置100が抽出処理を実行する際に用いるモデルの学習を行う。例えば、情報提供装置10は、後続音声に含まれる音声のうちキーワード音声と類似する特徴の音声を抽出するモデルの学習を行う(ステップS2)。そして、情報提供装置10は、学習済のモデルである学習モデルを端末装置100に提供する(ステップS3)。なお、以下の説明では、端末装置100が学習モデルを用いて実行する抽出処理の流れの一例について説明し、情報提供装置10が学習データの特徴を学習させるモデルの構造や学習手法の具体的な内容については、後述する。
このような場合、端末装置100は、入力音声を受付ける(ステップS4)。例えば、端末装置100は、利用者U1の雑音発話、利用者TUが発話したキーワード音声と処理発話、および、テレビジョンTVから発せられた雑音が混ざった音声を入力音声として受付ける。このような場合、端末装置100は、学習モデルを用いて抽出処理を実行し、抽出した音声の音声認識を実行する(ステップS5)。
まず、端末装置100は、キーワードの音声そのものが有する特徴に基づいて、入力音声からキーワード音声を抽出する(ステップS6)。すなわち、端末装置100は、キーワードを発声した際の音素が有する特徴に基づいて、入力音声からキーワード音声を抽出する。例えば、端末装置100は、利用者TUが発話したキーワード音声が含まれる区間(以下、「キーワード区間」と記載する。)と、利用者TUが発話した処理発話を含む後続音声が含まれる区間(以下、「後続区間」と記載する。)とを有する入力音声を受付ける。なお、図1に示す例では、利用者TUにより発話されたキーワード音声や処理発話を黒色で示し、雑音を含む入力音声全体を灰色で示した。
このような入力音声から、端末装置100は、キーワードの音声に含まれる音素の特徴に基づいて、キーワード音声を検出する。例えば、「ハローヤフー」という文言がキーワードとなる場合、端末装置100は、「ハ」、「ロー」、「ヤ」、「フー」といった音素の特徴および音素が出現する順番の特徴等、キーワードの音声そのものが有する特徴に基づいて、キーワード音声を検出する。なお、このような検出については、各種任意の音声を検出する公知の音声検出技術を採用してもよい。
ここで、入力音声には、利用者TUの発話以外にも、各種の雑音が含まれているが、利用者TUの発話は、周波数特性等、共通する特徴が存在すると考えられる。換言すると、後続音声に含まれる音声のうち、キーワード音声として検出された「ハローヤフー」の発音が有する特徴と類似する特徴の音声は、利用者TUが発話した音声、すなわち、処理発話の音声であると推定される。
そこで、端末装置100は、このような利用者TUが発した処理発話の音声を抽出するため、以下の処理を実行する。まず、端末装置100は、キーワード音声が有する特徴と類似する特徴の音声を強調するように、それぞれ異なる複数の強調関数に対応する重みを推定する(ステップS7)。例えば、端末装置100は、それぞれ異なる特徴を有する音声を強調する複数の強調関数F〜Fを設定する。これらの強調関数F〜Fは、例えば、それぞれ異なる周波数特性を有する音声を強調する関数である。端末装置100は、このような強調関数F〜Fのそれぞれについて、重みW〜Wを設定することで、検出したキーワード音声と同じ特徴を有する音声を強調するような統合強調関数を設定する。
続いて、端末装置100は、各強調関数と設定した重みとを用いて、後続音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する(ステップS8)。例えば、端末装置100は、入力音声のうちキーワード音声を検出した区間よりも後の区間を後続区間とし、後続区間に含まれる音声を後続音声として抽出する。そして、端末装置100は、各強調関数F〜Fと重みW〜Wと後続音声との積の和を強調音声とする。より具体的には、端末装置100は、後続音声をAVとし、強調音声をEVとすると、EV=ΣW・F・AVで示される強調音声を算出する。
続いて、端末装置100は、強調音声に含まれる音声と特徴が類似する音声を強調するためのマスクを生成する(ステップS9)。すなわち、端末装置100は、強調された利用者TUが発話した音声を優先的に強調し、他の音声をマスキングするような音声用のマスクを生成する。そして、端末装置100は、後続音声にマスクを適用することで、音声認識の対象となる対象音声を生成し、対象音声の音声認識結果を得る(ステップS10)。
例えば、端末装置100は、後続音声に対してマスクを適用することで、利用者TUが発話した音声、すなわち、処理発話の音声を強調した音声を対象音声として生成する。換言すると、端末装置100は、後続音声から処理発話を抽出した音声を生成する。そして、端末装置100は、生成した対象音声の音声認識を実行する。例えば、端末装置100は、各種の音声認識技術を用いて、対象音声に含まれる発話をテキストに変換する。なお、このような音声認識は、端末装置100により実現されてもよく、図示を省略した各種の外部サーバにより実現されてもよい。例えば、端末装置100は、外部サーバに対して対象音声を送信し、音声認識結果を外部サーバから取得してもよい。
そして、端末装置100は、音声認識結果に応じた処理を実行する(ステップS11)。例えば、端末装置100は、音声認識の結果が「今日の天気は?」といったものであった場合、外部サーバ等から天気予報の情報を取得する。そして、端末装置100は、取得した情報の読み上げ等を行うことで、処理結果を利用者TUに提供する(ステップS12)。
〔1−4.モデルの一例および学習処理について〕
ここで、情報提供装置10は、学習処理を実行することで、上述した抽出処理を端末装置100に実行させるための学習モデルを生成し、生成した学習モデルを端末装置100に提供する。ここで、情報提供装置10は、端末装置100に対してキーワード発話と同じ特徴を有する音声を後続音声から抽出させるのであれば、任意の構造を有する学習モデルの生成を行ってよい。以下の説明では、図2〜図6を用いて、情報提供装置10が生成する学習モデルの構造および学習処理のバリエーションについて説明する。
〔1−4−1.第1モデルについて〕
まず、図2を用いて、情報提供装置10が生成する学習モデルの第1のバリエーションである第1モデルM1について説明する。図2は、実施形態に係る情報提供装置が生成する第1モデルの一例を示す図である。なお、図2においては、第1モデルM1が有する構造の一例と、第1モデルM1の学習を行うための学習データの一例と、第1モデルM1の学習処理の一例とを示した。
例えば、第1モデルM1は、DNN(Deep Neural Network)U1、抽出部U2、および、DNNU3を有する。なお、DNNU1およびDNNU3は、RNN(Recurrent Neural Networks)、LSTM(Long short-term memory)、CNN(Convolutional Neural Network)等、任意の構造を有するDNNにより実現される。
DNNU1は、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部として動作する。なお、DNNU1は、入力音声からキーワード発話を検出する検出部として動作してもよい。なお、DNNU1は、検出部として動作するモデルと、推定部として動作するモデルとが強調して動作することにより実現されてもよい。
また、DNNU1は、推定部としてのみ動作するモデルであってもよい。このような場合、端末装置100は、任意の音声検出技術により、キーワード音声の検出を行えばよい。なお、DNN1は、非負値行列因子分解(Non-negative Matrix Factorization)の技術を用いて、キーワード音声の分離を行うような各種のモデルと、分離したキーワード音声の特徴に基づいて、重みを推定するモデルとに基づいて実現されてもよい。
抽出部U2は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声の特徴量を抽出する。例えば、抽出部U2は、それぞれ異なる強調関数と、DNNU1によって強調関数ごとに推定された重みとを用いて、後続音声のうちキーワード音声と特徴が類似する音声を強調した強調音声の特徴量を生成する。なお、抽出部U2は、人間が視聴した際に認識できるような音声の抽出や強調音声の生成を行ってもよい。すなわち、抽出部U2は、DNNU1により推定された重みが適用された複数の強調関数を用いて、後続音声からキーワード音声と特徴が類似する音声を強調した強調音声を生成してもよい。
例えば、抽出部U2は、予め設定された強調関数F〜Fを保持する。また、抽出部U2は、DNNU1により強調関数ごとに推定された重みW〜Wを受付けると、後続発話に対して各強調関数F〜Fを適用した音声に、推定された重みW〜Wを適用する。そして、抽出部U2は、強調関数と重みとを適用した後続音声の総和を強調音声として生成する。ここで、抽出部U2により生成された強調音声においては、後続音声のうちキーワード音声と特徴が類似する音声、すなわち、処理発話が強調され、他の雑音が低減されている。このため、抽出部U2により生成された強調音声は、後続音声から処理発話を抽出した音声と見做すことができる。
DNNU3は、抽出部U2で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する第1マスク生成部として動作するモデルである。例えば、DNNU3は、音声が入力されると、入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われている。このため、DNNU3は、抽出部U2により生成された強調音声が入力されると、強調音声と同じ特徴を有する音声を強調するためのマスク、すなわち、キーワード音声と特徴が類似する処理発話を主に強調するマスクを生成することとなる。
このようなDNNU1、抽出部U2、およびDNNU3を有する第1モデルM1の配信を受付けた場合、端末装置100は、第1モデルM1に入力音声を入力する。このような場合、DNNU1は、キーワード音声の検出を行うとともに、後続音声のうちキーワード音声と同じ特徴を有する音声を強調するための重みを生成する。また、抽出部U2は、DNNU1によって生成された重みと強調関数とを用いて、後続音声に含まれる音声のうちキーワード音声と特徴が類似する音声を強調した強調音声の特徴量を生成する。そして、DNNU3は、抽出部U2で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する。すなわち、DNNU3は、強調音声と特徴が類似する音声を強調するためのマスクを生成する。
また、端末装置100は、音声データのうち後続音声に対し、第1モデルM1により生成されたマスクを適用することで、音声認識の対象となる対象音声を生成する。そして、端末装置100は、対象音声に含まれる音声の音声認識を行うことで、処理発話の内容を得る。なお、端末装置100は、自装置内で対象音声の音声認識を実行してもよく、外部サーバに対象音声を送信し、外部サーバから音声認識の結果を受付けてもよい。
ここで、このような第1モデルM1の学習を行う場合、情報提供装置10は、以下の学習処理を実行する。まず、情報提供装置10は、学習データとして、キーワード音声と後続音声とを含む音声データと、この音声データを第1モデルM1に入力した際に第1モデルM1に出力させたいマスクとの組を受付ける。すなわち、情報提供装置10は、ある利用者により発話されたキーワードおよび処理発話を含む音声データと、この利用者の発話を強調するためのマスクとを学習データとして受付ける。
このような場合、情報提供装置10は、音声データを第1モデルM1に入力した際に、第1モデルが学習データとして受付けたマスクと類似するマスクを出力するように、第1モデルM1の学習を行う。例えば、情報提供装置10は、DNNU1にキーワード音声を入力し、抽出部U2に後続音声を入力した場合に、DNNU3が学習データとして受付けたマスクと類似するマスクを出力するように、第1モデルM1の学習を行う。
すなわち、情報提供装置10は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声に続く音声である後続音声と、後続音声のうちキーワード音声と特徴が類似する音声を強調するためのマスクとを学習データとして取得する。そして、情報提供装置10は、キーワード音声の入力を受付けると、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデル(すなわち、DNNU1)と、第1モデルにより推定された重みが適用された複数の前記強調関数を用いて後続音声からキーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスク(すなわち、抽出部U2で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスク)を生成する第2モデル(すなわち、DNNU3)とを有する第1モデルM1に対し、学習データとして取得されたキーワード音声と後続音声とを入力した場合に、学習データとして取得されたマスクを出力するように、第1モデルM1の学習を行う。
ここで、情報提供装置10は、バックプロパゲーション等、各種任意の学習手法を用いて、第1モデルM1の学習を行ってよい。例えば、情報提供装置10は、第1モデルM1が出力するマスクが学習データとマスクと類似するように、DNNU1やDNNU3に含まれるノード間の接続係数を修正してもよく、検出部U2に含まれる各強調関数を修正してもよい。また、情報提供装置10は、それぞれプレトレーニングを行ったDNNU1やDNNU3を採用してもよい。
〔1−4−2.第2モデルについて〕
図2に示す第1モデルM1は、入力音声からマスクを生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、入力音声に含まれる処理発話の音声認識を実行してもよい。例えば、情報提供装置10は、入力音声に含まれる処理発話の音声認識を実行してもよい。あるいは、情報提供装置10は、音素の事後確率である音響スコア計算を実行しても良い。そこで、以下の説明では、情報提供装置10が生成するモデルのバリエーションとして、入力音声に含まれる処理発話の音声認識を行う第2モデルM2について図3を用いて説明する。
図3は、実施形態に係る情報提供装置が生成する第2モデルの一例を示す図である。なお、図3においては、第2モデルM2が有する構造の一例と、第2モデルM2の学習を行うための学習データの一例と、第2モデルM2の学習処理の一例とを示した。
図3に示すように、第2モデルM2は、第1モデルと同様のDNNU1および抽出部U2と共に、音声認識を行うDNNU4を有する。DNNU4は、例えば、DNN−AM(Acoustic Mode)により実現され、入力された音声から音声認識を行うモデルである。例えば、DNNU4は、入力された音声に含まれる発話をテキストに変換する機能を有する。なお、DNNU4は、各種の音声認識を行うモデルにより実現されてよい。
ここで、第2モデルM2においては、DNNU4は、抽出部U2により抽出された音声、すなわち、抽出部U2により生成された強調音声の特徴量を受付けると、強調音声の特徴量から音声認識を行うように構成されている。すなわち、DNNU4は、強調音声に含まれる音声を認識する認識部として動作するモデルである。
このような第2モデルM2の配信を受付けた場合、端末装置100は、第2モデルM2に入力音声を入力する。このような場合、DNNU1は、キーワード音声の検出を行うとともに、後続音声のうちキーワード音声と同じ特徴を有する音声を強調するための重みを生成する。また、抽出部U2は、DNNU1によって生成された重みと強調関数とを用いて、後続音声に含まれる音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する。すなわち、抽出部U2は、強調音声の特徴量を生成する。そして、DNNU4は、音声認識を実行する。
このような第2モデルM2の学習を行う場合、情報提供装置10は、音声データとともに、音声データに含まれる処理発話の発話内容を含む学習データを受付ける。そして、情報提供装置10は、第2モデルM2に音声データを入力した場合に、第2モデルM2が出力する音声認識結果と学習データの発話内容とが類似するように、第2モデルM2の学習を行う。
例えば、情報提供装置10は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声(すなわち、処理発話)と、処理発話の発話内容とを学習データとして取得する。そして、情報提供装置10は、第1モデル(すなわち、DNNU1)と、第1モデルにより推定された重みが適用された複数の強調関数を用いて、キーワード音声に続く後続音声からキーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデル(すなわち、DNNU4)とを有する第2モデルM2に対し、学習データとして取得したキーワード音声と後続音声とを入力した場合に、学習データとして取得した発話内容を出力するように、第2モデルM2の学習を行う。なお、情報提供装置10は、第1モデルM1と同様に、任意の学習手法を用いて、第2モデルM2の学習を行ってよい。
〔1−4−3.第3モデルについて〕
ここで、情報提供装置10は、第1モデルM1に、対象音声を生成する機能と対象音声の音声認識を行う機能とを追加した第3モデルM3の学習を行ってもよい。例えば、図4は、実施形態に係る情報提供装置が生成する第3モデルの一例を示す図である。なお、図4においては、第3モデルM3が有する構造の一例と、第3モデルM3の学習を行うための学習データの一例と、第3モデルM3の学習処理の一例とを示した。
例えば、第3モデルM3は、第1モデルM1が有するDNNU1、抽出部U2、DNNU3に加えて、DNNU3が出力したマスクを後続音声に適用することで対象音声を生成する対象音声生成部U5と、対象音声の音声認識を行うDNNU6とを有する。なお、DNNU6は、第2モデルM2が有するDNNU4と同様にDNN−AMにより構成されてもよい。
このような第3モデルM3の配信を受付けた場合、端末装置100は、第3モデルM3に入力音声を入力する。このような場合、DNNU1は、キーワード音声の検出を行うとともに、後続音声のうちキーワード音声と同じ特徴を有する音声を強調するための重みを生成する。また、抽出部U2は、DNNU1によって生成された重みと強調関数とを用いて、後続音声に含まれる音声のうちキーワード音声と特徴が類似する音声を強調した強調音声を生成する。そして、DNNU3は、強調音声と特徴が類似する音声を強調するためのマスクを生成する。例えば、抽出部U2は、強調音声の特徴量を生成し、DNNU3は、抽出部U2で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する。また、対象音声生成部U5は、後続音声に対してDNNU3により生成されたマスクを適用することで、音声認識の対象となる対象音声を生成する。そして、DNNU6は、対象音声に含まれる音声の音声認識を行うことで、処理発話の内容を得る。
ここで、このような第3モデルM3の学習を行う場合、情報提供装置10は、以下の学習処理を実行する。まず、情報提供装置10は、学習データとして、音声データと、処理発話の発話内容とを学習データとして受付ける。そして、情報提供装置10は、第3モデルM3に音声データを入力した場合に、第3モデルM3が出力する音声認識結果と学習データの発話内容とが類似するように、第3モデルM3の学習を行う。
例えば、情報提供装置10は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である後続音声と、処理発話の発話内容とを取得する。そして、情報提供装置10は、第1モデル(すなわち、DNNU1)と、第2モデル(すなわち、DNNU2)と、後続音声に対して当該第2モデルが生成したマスクを適用した音声の音声認識を行う第4モデル(すなわち、DNNU6)とを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、処理発話の発話内容を出力するように、第3モデルM3の学習を行う。
〔1−4−4.第4モデルおよび第5モデルについて〕
ここで、情報提供装置10は、第1モデルM1〜第3モデルM3に加えて、キーワード区間に含まれる音声からキーワード音声を強調し、キーワード音声を強調した音声と特徴が類似する音声を強調する空間的なフィルタを生成し、生成したフィルタを適用した後続区間から処理発話等、キーワード音声と特徴が類似する音声の抽出を行ってもよい。すなわち、情報提供装置10は、上述した第1モデルM1〜第3モデルM3を用いた抽出処理の前段において、キーワード音声が有する特徴を用いたビームフォーミング処理を実行し、実行結果となる音声を用いて、抽出処理を実行してもよい。
例えば、図5は、実施形態に係る情報提供装置が生成する第4モデルの一例を示す図である。なお、図5においては、第4モデルM4が有する構造の一例を示した。例えば、第4モデルM4は、第1モデルM1が有するDNNU1、抽出部U2、DNNU3に加えて、マスク生成部U7、フィルタ生成部U8、およびフィルタ適用部U9を有する。
マスク生成部U7は、第2マスク生成部として動作し、キーワード音声が有する特徴を学習したモデルを用いて、キーワード区間に含まれる信号のうちキーワード音声と類似する特徴を有する音声を強調するマスクを生成する。例えば、マスク生成部U7は、キーワード音声の波形又は周波数特性を深層学習したモデルを用いて、キーワード区間に含まれる信号のうちキーワード音声と類似する特徴を有する類似信号を強調するマスクを生成する。
例えば、マスク生成部U7は、キーワード区間に含まれる音声を学習済モデルに入力する。そして、マスク生成部U7は、学習済モデルの出力を、キーワード音声を強調するマスクとして取得する。例えば、マスク生成部U7は、キーワード区間に含まれる音声のうち、キーワード音声であると推定される音声(すなわち、特徴を学習したキーワード音声と類似する特徴を有する信号)を強調するマスクを生成する。そして、マスク生成部U7は、生成したマスクを用いて、キーワード区間に含まれるキーワード音声を強調した音声、すなわち、マスクを適用した適用音声を生成する。例えば、マスク生成部U7は、キーワード区間の各領域に含まれる信号の振幅を、学習済モデルがキーワード区間の各領域ごとに算出した確度に従って増幅した適用音声を生成する。
フィルタ生成部U8は、複数の入力音声に対してマスク生成部U7により生成されたマスクを適用した適用音声から、キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成する。すなわち、フィルタ生成部U8は、適用音声に基づいて、後続区間に含まれる音声のうち適用音声と特徴が類似する音声を強調するためのフィルタを生成する。すなわち、フィルタ生成部U8は、キーワード信号と同様の特徴を有する信号を強調するための空間的なフィルタを生成する。
例えば、端末装置100は、それぞれ設置位置が異なる複数のマイクを用いて取得された入力音声を取得する。このような場合、フィルタ生成部U8は、各マイクごとに取得された入力音声からマスク生成部U7が生成した適用音声を取得する。このような場合、フィルタ生成部U8は、各適用音声に含まれる信号のうちキーワード音声の可能性が高い音声を抽出する。そして、フィルタ生成部U8は、各適用信号から抽出した音声から、後続区間に含まれる音声のうち抽出した音声と同様の特徴を有する信号を強調するための空間的なフィルタを生成する。
例えば、フィルタ生成部U8は、各強調音声から抽出した音声が観測された時間と、各マイクの設置位置とに基づいて、抽出した音声の到来方向を推定する。そして、フィルタ生成部U8は、推定した到来方向から到来する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部U8は、キーワード音声と空間的な特徴が類似する音声を強調するためのフィルタ、すなわち、空間的なフィルタを生成する。例えば、フィルタ生成部U8は、複数のマイクがそれぞれ取得した音声を合成する際の重みづけ係数をフィルタとして生成する。
なお、フィルタ生成部U8は、キーワード音声と周波数特性が類似する信号を強調するための関数を生成してもよい。例えば、キーワードと指示発話とは、同じ利用者Uによって発話されるため、類似する周波数特性を有するとも考えられる。そこでフィルタ生成部U8は、強調されたキーワード音声の周波数特性を推定し、各マイクが取得した音声から推定した周波数特性を有する信号を強調するためのフィルタを生成してもよい。
フィルタ適用部U9は、後続音声に対してフィルタ生成部U8が生成したフィルタを適用した音声を生成する。そして、フィルタ適用部U9は、生成した音声を抽出部U2に提供する。この結果、抽出部U2は、後続区間に含まれる音声のうちキーワード音声と類似する音声を強調した音声から、強調関数に基づいて、キーワード音声と特徴が類似する音声をさらに強調した音声を生成する。そして、DNNU3は、抽出部U2により生成された音声からマスクの生成を行うこととなる。
なお、DNNU1は、マスク生成部U7により生成された発話音声から、強調関数の重みの推定を行ってもよい。例えば、図6は、実施形態に係る情報提供装置が生成する第5モデルの一例を示す図である。なお、図6においては、第5モデルM5が有する構造の一例を示した。
例えば、第5モデルM5においては、第4モデルM1が有するマスク生成部U7により生成された発話音声が、フィルタ生成部U8に加えて、DNNU1にも入力される。このような場合、DNNU1は、マスク生成部U7により生成されたマスクを適用した適用音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定することとなる。
なお、上述した第4モデルM4および第5モデルM5は、第1モデルM1と同様の学習データおよび学習処理により、学習を行うことが可能である。
〔1−4−5.各モデルの構成について〕
ここで、図2〜図6に示す各モデルM1〜M5の構成は、あくまで一例であり、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、第2モデルM2や第3モデルM3に対して、マスク生成部U7、フィルタ生成部U8およびフィルタ適用部U9(以下、「フィルタ構成」と記載する。)を適用したモデルの生成を行ってもよい。また、情報提供装置10は、第2モデルM2や第3モデルM3に対して、フィルタ構成を適用する場合、第4モデルM4のような構成を有するフィルタ構成を適用してもよく、第5モデルM5のような構成を有するフィルタ構成を適用してもよい。また、各モデルは、キーワード区間に含まれる音声からキーワード音声を音素の特徴等に基づいて検出するための手段を有していなくともよい。
また、上述した説明では、抽出部U2は、予め設定された強調関数F〜Fを保持し、DNNU1により強調関数ごとに推定された重みW〜Wを受付けると、後続発話に対して各強調関数F〜Fを適用した音声に、推定された重みW〜Wを適用することで、強調音声の生成(若しくは、強調音声の特徴の生成)を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、各モデルM1〜M5の学習を行う際、各強調関数F〜Fについても学習対象としてもよい。すなわち、情報提供装置10は、各モデルM1〜M5に学習データを入力した際に、所望する出力データを出力するように、各強調関数F〜Fの修正を行ってもよい。
なお、抽出部U2は、各強調関数F〜Fとして動作する単一若しくは複数のモデル(すなわち、DNN)を有していてもよく、単一若しくは複数のモデルにより実現されてもよい。また、各モデルM1〜M5は、図2〜図6に示すように、複数の機能構成(すなわち、モデル)により構成されていてもよく、全体として1つのモデルにより実現されてもよい。
なお、上述した説明における各種の音声(例えば、キーワード音声、後続音声、入力音声、若しくは強調音声等)は、人間が実際に認識可能な音声であってもよく、このような音声の特徴量であってもよい。すなわち、各モデルM1〜M5は、実際の音声そのものに対する各種の処理を実現してもよく、音声の特徴量を用いた処理を実現してもよい。すなわち、上述した各種の処理は、実際の音声の検出、抽出、生成等の処理に限定されるものではなく、音声の特徴量の検出、抽出、生成等の処理をも含む概念である。
〔1−4−6.学習データについて〕
上述した各モデルM1〜M5の学習を行う場合、情報提供装置10は、キーワード音声と処理音声とを含む音声データを用いるのであれば、任意の音声データを用いてよい。ここで、各モデルM1〜M5を用いて雑音が多く含まれる入力音声から音声認識を精度良く実行する点を考慮すると、情報提供装置10は、キーワード音声と処理音声とが同一の利用者により発話されており、かつ、任意の雑音が含まれる音声を音声データとして採用すればよい。
例えば、情報提供装置10は、キーワード音声と処理音声とを所定の利用者が続けて発話した音声に対し、各種の音を雑音として合成した音声データを学習データに用いてもよい。ここで、雑音として合成される音声には、各種のノイズ音声のみならず、キーワード音声と処理音声とを発話した利用者以外の利用者による発話が含まれていてもよい。また、雑音として合成される音声には、テレビジョンTV等から出力されるであろう音声が含まれていてもよい。また、学習モデルの精度を控除した場合、情報提供装置10は、様々な種別の雑音を含む音声データを学習データとして採用するのが望ましい。
また、学習データにおいてキーワード音声と処理音声とを発話する利用者は、特定の利用者に限定されるものではない。すなわち、1つの学習データに含まれるキーワード音声と処理音声とが同一の利用者により発話されているのであれば、任意の数の任意の利用者により発話されたキーワード音声と処理音声とを含む音声を学習データとして採用してよい。ここで、各モデルM1〜M5が、キーワード音声と特徴が類似する音声を抽出することを考慮すると、学習データに含まれる音声は、単一の利用者により発話された音声であってもよく、複数の利用者により発話された音声であってもよい。
〔1−4−7.検出について〕
ここで、情報提供装置10は、各モデルM1〜M5に、キーワード音声を検出する機能を含めてもよく、含めずともよい。すなわち、キーワード音声を音素の特徴等に基づいて検出するための手段は、端末装置100に予め保持されていてもよく、各モデルとともに情報提供装置10が学習および配信を行ってよい。例えば、情報提供装置10は、所定のキーワードを発話した音声が有する特徴を学習したモデルを用いて、キーワード音声を検出するための機能を各モデルM1〜M5に含めてもよい。このような機能は、例えば、DNNU1やマスク生成部U7の前段に設定されることとなる。また、このようなキーワードの検出機能は、例えば、様々な利用者により発話されたキーワード音声の特徴を学習するように学習が行われたモデルにより実現されてもよい。また、このようなキーワードの検出機能は、キーワード音声に雑音を加えた学習データにより学習が行われたモデルにより実現されてもよい。
〔2.機能構成の一例〕
以下、上記した学習処理を実現する情報提供装置10が有する機能構成の一例、および、上述した抽出処理を実現する端末装置100が有する機能構成の一例について説明する。
〔2−1.情報提供装置の機能構成の一例について〕
まず、図7を用いて、情報提供装置10が有する機能構成の一例を説明する。図7は、実施形態に係る情報提供装置の構成例を示す図である。図7に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、例えば、端末装置100、データサーバDSおよび外部サーバOSとの間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、学習データデータベース31およびモデルデータベース32を記憶する。
学習データデータベース31は、学習データが登録される。例えば、図8は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図8に示すように、学習データデータベース31には、「学習データID(Identifier)」、「音声データ」、「キーワード区間」、「後続区間」、「マスク」および「認識結果」といった項目を有する情報が登録される。
ここで、「学習データID」とは、学習データの識別子である。また、「音声データ」とは、学習データとなる音声データであり、キーワード発話を含むキーワード区間と、処理発話を含む後続区間とを含む音声データである。また、「キーワード区間」とは、音声データのうちキーワード区間を示す情報である。また、後続区間とは、音声データのうち後続区間を示す情報である。また、「マスク」とは、後続区間に含まれる音声のうち、キーワード区間に含まれるキーワード音声と周波数特性等といった特徴が類似する音声を強調するためのマスクを示す情報である。また、「認識結果」とは、後続区間に含まれる音声のうち、キーワード発話に続く処理発話の認識結果を示す情報である。
例えば、図8に示す例では、学習データデータベース31には、学習データID「LD1」、音声データ「音声#1」、キーワード区間「0:05〜0:07」、後続区間「0:08〜0:14」、マスク「マスク#1」および認識結果「認識結果#1」が対応付けて登録されている。このような情報は、学習データID「LD1」が示す音声データが音声データ「音声#1」であり、この音声データ「音声#1」のうちキーワード区間「0:05〜0:07」が示す区間にキーワード音声が含まれており、後続区間「0:08〜0:14」が示す区間に処理発話が含まれている旨を示す。また、このような情報は、キーワード音声と特徴が同じ音声を強調するためのマスクがマスク「マスク#1」であり、処理発話の認識結果が認識結果「認識結果#1」である旨を示す。
なお、図8に示す例では、「音声#1」、「マスク#1」、および「認識結果#1」といった概念的な値を記載したが、実際には、学習データデータベース31には、各種形式の音声データ、マスクを構成する各種の数値、および認識結果となる文字列等が登録されることとなる。また、図8に示す情報以外にも、学習データデータベース31には、任意の情報が登録されていてよい。
図7に戻り、説明を続ける。モデルデータベース32には、学習モデルが登録される。例えば、モデルデータベース32には、図2〜図6に例示するような各種のモデルのデータが登録される。例えば、モデルデータベース32には、学習モデルのデータとして、それぞれが1つ又は複数のノードを含む多段の層を構成するノードの情報と、各ノード間の接続関係を示す情報と、ノード間で情報を伝達する際の重みである接続係数とが登録される。
ここで、学習モデルは、学習データである音声データが入力される入力層を有する。また、学習モデルは、入力された音声データから検出されたキーワード音声と特徴が類似する音声を強調するように、所定の強調関数の重みを推定し、推定した重みと強調関数とを用いて後続区間に含まれる音声から強調音声を生成する中間層と、生成した強調音声と特徴が類似する音声を強調するマスク若しくは強調音声の認識結果を出力する出力層とを有する。
また、モデルM1は、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。
このような学習モデルは、例えば、学習時および測定時において、入力層に音声データが入力された場合に、出力層から、マスクや認識結果を出力するようコンピュータを機能させる。そして、情報提供装置10は、学習時においては、学習モデルが出力するマスクや認識結果とが、入力された音声データと対応する学習データのマスクや認識結果と類似するように、学習モデルの接続係数を修正する。
ここで、情報提供装置10は、学習データデータベース31に登録される学習データを用いて、上述した抽出処理を実行するための学習モデルを生成する。すなわち、学習データデータベース31に登録される学習データは、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させるためのデータである。
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部40は、データ取得部41、学習部42、および提供部43を有する。データ取得部41は、学習データとなる音声データを取得する。例えば、データ取得部41は、データサーバDSから学習データとして、キーワード音声を含むキーワード区間と、キーワード音声に続けて利用者が発した処理発話を含む後続区間とを含む音声データを取得する。ここで、音声データには、各種の雑音が含まれていてもよい。また、データ取得部41は、音声データに含まれるキーワード音声と特徴が類似する音声を強調するためのモデルや、処理発話の認識結果を取得する。そして、データ取得部41は、取得した各種のデータを学習データとして学習データデータベース31に登録する。
すなわち、データ取得部41は、第1モデルM1、第4モデルM4、もしくは第5モデルM5の学習を行うため、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声に続く音声である後続音声と、後続音声のうちキーワード音声と特徴が類似する音声を強調するためのマスクとを取得する。また、データ取得部41は、第2モデルM2や第3モデルM3の学習を行うため、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である発話音声と、発話音声の音声認識結果とを取得する。
学習部42は、学習データデータベース31に登録された学習データを用いて、各モデルM1〜M5の学習を行い、学習を行ったモデルを学習モデルとしてモデルデータベース32に登録する。例えば、学習部42は、図2に示した第1モデルM1、図5に示した第4モデルM4、若しくは図6に示した第5モデルM5を生成し、生成した各モデルの学習を行う。具体的には、学習部42は、学習データを各モデルに入力した際に、学習データと対応するマスクを出力するように、各モデルの学習を行う。すなわち、学習部42は、キーワード音声の入力を受付けると、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、第1モデルにより推定された重みが適用された複数の強調関数を用いて後続音声からキーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、対応するマスクを出力するように、モデルの学習を行う。すなわち、学習部42は、抽出部U2で出力された特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成するように学習を行う。
また、学習部42は、図3に示した第2モデルM2を生成し、生成した第2モデルM2の学習を行う。具体的には、学習部42は、学習データを第2モデルM2に入力した際に、学習データと対応する認識結果を出力するように、第2モデルM2の学習を行う。すなわち、学習部42は、第1モデルと、第1モデルにより推定された重みが適用された複数の強調関数を用いて、キーワード音声に続く後続音声からキーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。
また、学習部42は、図4に示した第3モデルM3を生成し、生成した第3モデルM3の学習を行う。具体的には、学習部42は、学習データを第3モデルM3に入力した際に、学習データと対応する認識結果を出力するように、第3モデルM3の学習を行う。すなわち、学習部42は、第1モデルと、第2モデルと、後続音声に対して第2モデルが生成したマスクを適用した音声の音声認識を行う第4モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。
提供部43は、学習モデルを端末装置100に提供する。例えば、提供部43は、端末装置100からの要求に基づき、モデルデータベース32から学習モデルMを読出し、読み出した学習モデルMを端末装置100に送信する。
〔2−2.端末装置の機能構成の一例について〕
続いて、図9を用いて、端末装置100が有する機能構成の一例を説明する。図9は、実施形態に係る端末装置の構成例を示す図である。図9に示すように、端末装置100は、通信部120、記憶部130、制御部140、マイクMCおよびスピーカーSPを有する。
通信部120は、例えば、NIC等によって実現される。そして、通信部120は、ネットワークNと有線または無線で接続され、例えば、情報提供装置10、データサーバDSおよび外部サーバOSとの間で情報の送受信を行う。
記憶部130は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部130は、情報提供装置10から配信される学習モデルMを記憶する。
マイクMCは、利用者が発話した音声等、端末装置100の周囲から発せられた音声を受付けるマイク、すなわち、入力装置である。また、スピーカーSPは、各種の音声を出力するためのスピーカー、すなわち、出力装置である。なお、端末装置100は、複数のマイクMCを有していてもよく、複数のスピーカーSPを有していてもよい。
制御部140は、コントローラであり、例えば、CPU、MPU等のプロセッサによって、端末装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部140は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
制御部140は、検出部141、推定部142、抽出部143、生成部144、認識部145、強調部146、および処理部147を有する。ここで、検出部141は、学習モデルMとは個別の各種プログラムを実行することにより実現されてもよい。また、学習モデルMが図2に示す第1モデルM1の構成を有する場合、制御部140は、学習モデルを実行することで、推定部142、抽出部143、および生成部144の機能を有することとなる。
また、学習モデルが図3に示す第2モデルM2の構造を有する場合、制御部140は、学習モデルを実行することで、推定部142、抽出部143、および認識部145の機能を有することとなる。また、学習モデルが図4に示す第3モデルM3の構造を有する場合、制御部140は、学習モデルを実行することで、推定部142、抽出部143、生成部144、および認識部145の機能を有することとなる。また、学習モデルが図5に示す第4モデル、若しくは、図6に示す第5モデルの構造を有する場合、制御部140は、学習モデルを実行することで、推定部142、抽出部143、生成部144、認識部145および強調部146の機能を有することとなる。
検出部141は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。例えば、検出部141は、マイクMCにより取得された音声を入力音声として受付けると、受付けた入力音声からキーワード音声を検出する。より具体的な例を挙げると、検出部141は、入力音声に含まれる音声の波形や周波数特性から、キーワードを構成する各音素の特徴や各音素が出現する順番の特徴に基づいて、キーワード音声の検出を行う。換言すると、検出部141は、複数の利用者が発話したキーワード音声において共通する特徴に基づいて、キーワード音声を検出を行う。なお、このような検出は、例えば、複数の利用者が発話したキーワード音声の特徴を学習した各種のモデルにより実現されてもよく、非負値行列因子分解といった各種音声の切り分けを行う技術を用いて、キーワード音声の検出を行ってもよい。
推定部142は、検出されたキーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する。例えば、推定部142は、キーワード音声が入力されるとキーワード音声が有する特徴と特徴が類似する音声を強調するための各強調関数の重みを出力するように学習が行われたDNNU1に対応する。そして、推定部142は、検出部141により検出されたキーワード音声を受付けると、受付けたキーワード音声と周波数特性等の特徴が類似する音声を強調するように、各強調関数の重みを推定する。すなわち、推定部142は、利用者ごとに異なる特徴であって、検出されたキーワード音声が有する特徴と類似する特徴を有する音声を強調するように、各強調関数の重みを推定する。
なお、各モデルにキーワード音声を検出する機能が含まれる場合、検出部141および推定部142は、DNNU1に対応することとなる。また、学習モデルが第4モデルM4や第5モデルM5の構成を有する場合、推定部142は、強調部146により生成された適用音声と特徴が類似する音声が強調されるように、各強調関数に対する重みの推定を行うこととなる。
抽出部143は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。例えば、抽出部143は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。より具体的な例を挙げると、抽出部143は、推定部142により推定された重みが適用された複数の強調関数を用いて、後続音声からキーワード音声と特徴が類似する音声を強調した強調音声を生成する。
例えば、抽出部143は、入力音声のうちキーワード音声が検出されたキーワード区間に続く後続区間に含まれる音声を後続音声として受付ける。このような場合、抽出部143は、後続音声に対し、各強調関数と、強調関数ごとに推定部142が推定した重みとを適用した音声を生成し、生成した音声の総和を強調音声として出力する。なお、抽出部143は、各モデルM1〜M5が有する抽出部U2に対応する。
なお、学習モデルが第4モデルM4および第5モデルM5の構成を有する場合、抽出部143は、単純な後続音声ではなく、強調部146によりフィルタが適用された後続音声を受付けることとなる。そして、抽出部143は、フィルタが適用された後続音声から、適用音声と特徴が類似する音声、すなわち、キーワード音声と特徴が類似する音声を抽出することとなる。
生成部144は、強調音声と特徴が類似する音声を強調するためのマスクを生成する。例えば、抽出部143により抽出された音声、すなわち、強調音声から、強調音声と特徴が類似する音声を強調するためのマスクを生成する。より具体的には、生成部144は、強調音声の特徴量から、キーワード音声と特徴が類似する音声を強調するためのマスクを生成する。例えば、抽出部143は、音声が入力されると入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われたモデルにより実現される。そして、抽出部143は、後続区間に含まれる後続音声に対して、生成したマスクを適用した音声を対象音声として生成する。
なお、生成部144は、第1モデルM1、第4モデルM4および第5モデルM5が有するDNNU3に対応する。また、生成部144は、第3モデルM3におけるDNNU3および対象音声生成部U5に対応する。
認識部145は、音声の音声認識を行う。例えば、認識部145は、学習モデルが第1モデルM1、第4モデルM4もしくは第5モデルM5の構成を有する場合、各種入力された音声の音声認識を行う公知の音声認識モデルにより実現される。また、認識部145は、例えば、各種の外部サーバが有する機能構成であってもよい。そして、認識部145は、生成部144により生成された対象音声の音声認識を行うこととなる。
また、例えば、認識部145は、学習モデルが第2モデルM2の構成を有する場合、DNNU4と対応し、抽出部143により生成された強調音声に含まれる音声の音声認識を行うこととなる。また、例えば、認識部145は、学習モデルが第3モデルM3の構成を有する場合、DNNU6と対応し、生成部144により生成された対象音声の音声認識を行うこととなる。
強調部146は、キーワード発話と同じ特徴を有する音声を強調した音声を生成する。例えば、強調部146は、第4モデルM4若しくは第5モデルM5が有するマスク生成部U7、フィルタ生成部U8、およびフィルタ適用部U9に対応する。そして、強調部146は、キーワード発話を強調するように学習が行われたモデルを用いて、入力音声のうちキーワード発話が含まれるキーワード領域の音声から、キーワード発話を強調するためのマスクを生成する。また、強調部146は、複数の入力音声に対して、生成されたマスクを適用した適用音声を生成し、生成した適用音声から、キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成する。そして、強調部146は、後続音声にフィルタを適用した音声を生成する。
すなわち、強調部146は、複数のマイクが取得した複数の入力音声から、キーワード音声の空間的な特徴を推定し、推定した特徴に基づいて、キーワード音声を強調するための空間的なフィルタを生成する。そして、強調部146は、後続音声に対して生成したフィルタを適用した音声、すなわち、キーワード音声と空間的な特徴が類似する音声を強調した音声を生成する。
処理部147は、認識部145による認識結果に応じた処理を実行する。例えば、処理部147は、認識結果が「今日の天気は?」で合った場合、外部サーバOSから天気予報の情報を取得する。そして、処理部147は、取得した情報を読み上げた音声をスピーカーSPから出力する。
〔3.情報提供装置および端末装置が実行する処理の流れについて〕
次に、図10、図11を用いて、情報提供装置10および端末装置100が実行する処理の流れの一例について説明する。図10は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図11は、実施形態に係る端末装置が実行する検出処理の流れの一例を示すフローチャートである。
まず、図10を用いて、学習処理の流れの一例を説明する。まず、情報提供装置10は、音声データを学習データとして取得する(ステップS101)。そして、情報提供装置10は、検出されたキーワード音声と特徴が類似する音声を、キーワード音声に続く音声から抽出するモデルの学習を行う(ステップS102)。そして、情報提供装置10は、学習モデルを端末装置100に提供し(ステップS103)、処理を終了する。
続いて、図11を用いて、検出処理の流れの一例を説明する。まず、端末装置100は、入力音声を受付けたか否かを判定し(ステップS201)、受付けていない場合は(ステップS201:No)、ステップS201を実行する。また、端末装置100は、入力音声を受付けた場合は(ステップS201:Yes)、キーワードの発音が有する特徴に基づいて、キーワード音声が検出されたか否かを判定する(ステップS202)。そして、端末装置100は、キーワード音声が検出されなかったと判定した場合は(ステップS202:No)、ステップS201を実行する。一方、端末装置100は、キーワード音声が検出された場合は(ステップS202:Yes)、キーワード音声に続く後続音声から、キーワード音声と特徴が類似する音声を抽出する(ステップS203)。そして、端末装置100は、抽出した音声の音声認識を行い、認識結果に応じた処理を実行し(ステップS204)、処理を終了する。
〔4.変形例〕
上記では、学習処理や検出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10や端末装置100が実行する学習処理や検出処理のバリエーションについて説明する。
〔4−1.モデルを用いた処理について〕
上述した説明では、端末装置100は、情報提供装置10により学習が行われた各種のモデルを用いて、抽出処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、端末装置100は、図2〜図6に示す各種のモデルが実行する処理と同様の処理をコンピュータに実行させるプログラムを実行することにより、上述した抽出処理を実現してもよい。また、端末装置100は、図2〜図6に示す各種のモデルが有する機能構成のそれぞれを実現する回路を有し、これらの回路を用いて、上述した抽出処理を実現してもよい。
〔4−2.装置構成〕
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10と端末装置100とは、上述した学習処理および検出処理を連携して実現してもよく、いずれか一方の装置が単独で実行してもよい。
〔4−3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔4−4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図12に示すような構成のコンピュータ1000によって実現される。図12は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、学習モデルM1)を実行することにより、制御部40の機能を実現する。コンピュータ1000の演算装置1030は、これらのプログラムまたはデータ(例えば、学習モデルM1)を一次記憶装置1040から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
〔5.効果〕
上述したように、端末装置100は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。そして、端末装置100は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。このような処理の結果、端末装置100は、事前に特定の利用者の声が有する特徴を学習せずとも、キーワード音声を発話した利用者の音声を後続音声から抽出することができるので、キーワード音声を発話した利用者の処理発話を適切に抽出することができる結果、雑音が多く含まれるような状態においても、音声認識精度を向上させることができる。
また、端末装置100は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。例えば、端末装置100は、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する。そして、端末装置100は、推定された重みが適用された複数の強調関数を用いて、後続音声からキーワード音声と特徴が類似する音声を強調した強調音声を生成する。また、端末装置100は、キーワード音声が入力されると、キーワード音声が有する特徴と特徴が類似する音声を強調するための各強調関数の重みを出力するように学習が行われた第1モデルを用いて、キーワード音声と特徴が類似する音声を強調するための重みを推定する。この結果、端末装置100は、キーワード音声を発話した利用者がキーワード音声に続けて発話した処理発話を強調した強調音声を生成することができる。
また、端末装置100は、強調音声と特徴が類似する音声を強調するためのマスクを生成し、後続音声に対して生成されたマスクを適用した音声を音声認識の対象となる対象音声として生成する。例えば、端末装置100は、音声が入力されると、入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われた第2モデルを用いて、強調音声と特徴が類似する音声を強調するためのマスクを生成する。このため、端末装置100は、処理発話の認識精度を向上させることができる。
また、端末装置100は、対象音声に含まれる音声の音声認識を行う。例えば、端末装置100は、強調音声に含まれる音声を認識する。例えば、端末装置100は、音声が入力されると、入力された音声の認識結果を出力するように学習が行われた第3モデルを用いて、強調音声に含まれる音声を認識する。このような処理の結果、端末装置100は、処理発話の音声認識を行うことができる。
また、端末装置100は、キーワード発話を強調するように学習が行われたモデルを用いて、入力音声のうちキーワード発話が含まれるキーワード領域の音声から、キーワード発話を強調するためのマスクを生成する。続いて、端末装置100は、複数の入力音声に対してマスクを適用した適用音声から、キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成する。そして、端末装置100は、後続音声にフィルタを適用した音声から、キーワード音声と特徴が類似する音声を抽出する。このような処理の結果、端末装置100は、キーワード音声を発話した利用者と同一の利用者により発話された声を空間的に強調した音声から、認識対象となる音声を抽出することができるので、処理発話の認識精度をさらに向上させることができる。
また、端末装置100は、生成されたマスクを適用した適用音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定し、推定された重みが適用された複数の強調関数を用いて、フィルタを適用した音声から適用音声と特徴が類似する音声を強調した強調音声を生成する。このため、端末装置100は、処理発話の認識精度をさらに向上させることができる。
また、端末装置100は、所定のキーワードを発話した音声が有する特徴を学習した第4モデルを用いて、キーワード音声を検出する。このため、端末装置100は、適切にキーワード音声を検出することができる。
また、情報提供装置10は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声に続く音声である後続音声と、後続音声のうちキーワード音声と特徴が類似する音声を強調するためのマスクとを取得する。そして、情報提供装置10は、キーワード音声の入力を受付けると、キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、第1モデルにより推定された重みが適用された複数の強調関数を用いて後続音声からキーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、マスクを出力するように、モデルの学習を行う。
また、情報提供装置10は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である発話音声と、発話音声の音声認識結果とを取得する。そして、情報提供装置10は、第1モデルと、第1モデルにより推定された重みが適用された複数の強調関数を用いて、キーワード音声に続く後続音声からキーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。
また、情報提供装置10は、所定のキーワードを発話した音声であるキーワード音声と、キーワード音声と同じ利用者がキーワード音声に続けて発話した音声である発話音声と、発話音声の音声認識結果とを取得する。そして、情報提供装置10は、第1モデルと、第2モデルと、後続音声に対して第2モデルが生成したマスクを適用した音声の音声認識を行う第4モデルとを有するモデルに対し、キーワード音声と後続音声とを入力した場合に、発話音声の音声認識結果を出力するように、モデルの学習を行う。
上述した各種の処理の結果、情報提供装置10は、雑音が多く含まれるような状態においても、音声認識精度を向上させることができるモデルの学習を実現することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。
10 情報提供装置
20、120 通信部
30、130 記憶部
31 学習データデータベース
32 モデルデータベース
40、140 制御部
41 データ取得部
42 学習部
43 提供部
100 端末装置
141 検出部
142 推定部
143 抽出部
144 生成部
145 認識部
146 強調部
147 処理部
M 学習モデル
MC マイク
SP スピーカー
OS 外部サーバ
DS データサーバ

Claims (23)

  1. 入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出部と、
    前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出部と
    を有することを特徴とする抽出装置。
  2. 前記抽出部は、前記後続音声に含まれる音声のうち、前記キーワード音声と特徴が類似する音声を強調した強調音声を生成する
    ことを特徴とする請求項1に記載の抽出装置。
  3. 前記検出部により検出されたキーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部
    を有し、
    前記抽出部は、前記推定部により推定された重みが適用された複数の前記強調関数を用いて、前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声を生成する
    ことを特徴とする請求項2に記載の抽出装置。
  4. 前記推定部は、キーワード音声が入力されると、当該キーワード音声が有する特徴と特徴が類似する音声を強調するための各強調関数の重みを出力するように学習が行われた第1モデルを用いて、前記検出部により検出されたキーワード音声と特徴が類似する音声を強調するための重みを推定する
    ことを特徴とする請求項3に記載の抽出装置。
  5. 前記強調音声と特徴が類似する音声を強調するためのマスクを生成する第1マスク生成部と、
    前記後続音声に対して前記第1マスク生成部により生成されたマスクを適用した音声を音声認識の対象となる対象音声として生成する対象音声生成部と
    を有することを特徴とする請求項2〜4のうちいずれか1つに記載の抽出装置。
  6. 前記第1マスク生成部は、音声が入力されると、入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われた第2モデルを用いて、前記強調音声と特徴が類似する音声を強調するためのマスクを生成する
    ことを特徴とする請求項5に記載の抽出装置。
  7. 前記対象音声に含まれる音声の音声認識を行う第1認識部
    を有することを特徴とする請求項5または6に記載の抽出装置。
  8. 前記強調音声に含まれる音声を認識する第2認識部
    を有することを特徴とする請求項2〜4のうちいずれか1つに記載の抽出装置。
  9. 前記第2認識部は、音声が入力されると、入力された音声の認識結果を出力するように学習が行われた第3モデルを用いて、前記強調音声に含まれる音声を認識する
    ことを特徴とする請求項8に記載の抽出装置。
  10. キーワード発話を強調するように学習が行われたモデルを用いて、前記入力音声のうち前記キーワード発話が含まれるキーワード領域の音声から、当該キーワード発話を強調するためのマスクを生成する第2マスク生成部と、
    複数の前記入力音声に対して前記第2マスク生成部により生成されたマスクを適用した適用音声から、前記キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成するフィルタ生成部と
    を有し、
    前記抽出部は、前記後続音声に前記フィルタ生成部により生成されたフィルタを適用した音声から、前記キーワード音声と特徴が類似する音声を抽出する
    ことを特徴とする請求項1〜9のうちいずれか1つに記載の抽出装置。
  11. 前記第2マスク生成部により生成されたマスクを適用した適用音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部
    を有し、
    前記抽出部は、前記推定部により推定された重みが適用された複数の前記強調関数を用いて、前記フィルタを適用した音声から前記適用音声と特徴が類似する音声を強調した強調音声を生成する
    ことを特徴とする請求項10に記載の抽出装置。
  12. 前記検出部は、所定のキーワードを発話した音声が有する特徴を学習した第4モデルを用いて、前記キーワード音声を検出する
    ことを特徴とする請求項1〜11のうちいずれか1つに記載の抽出装置。
  13. 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得部と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習部と
    を有することを特徴とする学習装置。
  14. 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声と、当該発話音声の音声認識結果とを取得する取得部と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて、前記キーワード音声に続く後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記発話音声の音声認識結果を出力するように、前記モデルの学習を行う学習部と
    を有することを特徴とする学習装置。
  15. 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声と、当該発話音声の音声認識結果とを取得する取得部と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記キーワード音声に続く後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルと、前記後続音声に対して当該第2モデルが生成したマスクを適用した音声の音声認識を行う第4モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記発話音声の音声認識結果を出力するように、前記モデルの学習を行う学習部と
    を有することを特徴とする学習装置。
  16. 抽出装置が実行する抽出方法であって、
    入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出工程と、
    前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出工程と
    を含むことを特徴とする抽出方法。
  17. 入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出手順と、
    前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出手順と
    をコンピュータに実行させるための抽出プログラム。
  18. 学習装置が実行する学習方法であって、
    所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得工程と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習工程と
    を含むことを特徴とする学習方法。
  19. 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得手順と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習手順と
    をコンピュータに実行させるための学習プログラム。
  20. 学習装置が実行する学習方法であって、
    所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得工程と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習工程と
    を含むことを特徴とする学習方法。
  21. 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得手順と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習手順と
    をコンピュータに実行させるための学習プログラム。
  22. 学習装置が実行する学習方法であって、
    所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得工程と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルと、前記後続音声に対して当該第2モデルが生成したマスクを適用した音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習工程と
    を含むことを特徴とする学習方法。
  23. 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得手順と、
    キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルと、前記後続音声に対して当該第2モデルが生成したマスクを適用した音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習手順と
    をコンピュータに実行させるための学習プログラム。
JP2018216881A 2018-11-19 2018-11-19 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム Active JP6998289B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018216881A JP6998289B2 (ja) 2018-11-19 2018-11-19 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018216881A JP6998289B2 (ja) 2018-11-19 2018-11-19 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JP2020086011A true JP2020086011A (ja) 2020-06-04
JP6998289B2 JP6998289B2 (ja) 2022-01-18

Family

ID=70907748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018216881A Active JP6998289B2 (ja) 2018-11-19 2018-11-19 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム

Country Status (1)

Country Link
JP (1) JP6998289B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05128286A (ja) * 1991-11-05 1993-05-25 Ricoh Co Ltd ニユーラルネツトワークによるキーワードスポツテイング方式
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
JP2009145499A (ja) * 2007-12-12 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP2017090853A (ja) * 2015-11-17 2017-05-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05128286A (ja) * 1991-11-05 1993-05-25 Ricoh Co Ltd ニユーラルネツトワークによるキーワードスポツテイング方式
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
JP2009145499A (ja) * 2007-12-12 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP2017090853A (ja) * 2015-11-17 2017-05-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP6998289B2 (ja) 2022-01-18

Similar Documents

Publication Publication Date Title
US11138977B1 (en) Determining device groups
US12033632B2 (en) Context-based device arbitration
US11875820B1 (en) Context driven device arbitration
US11475881B2 (en) Deep multi-channel acoustic modeling
JP7212718B2 (ja) 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US10878812B1 (en) Determining devices to respond to user requests
JP2002014692A (ja) 音響モデル作成装置及びその方法
US20210287656A1 (en) Synthetic speech processing
JP2019095551A (ja) 生成装置、生成方法、および生成プログラム
JP2018040848A (ja) 音響処理装置および音響処理方法
WO2022218027A1 (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
JP6985221B2 (ja) 音声認識装置及び音声認識方法
US20240071408A1 (en) Acoustic event detection
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
JP6856697B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム
JP2019219468A (ja) 生成装置、生成方法及び生成プログラム
EP4120244A1 (en) Techniques for audio feature detection
JP6998289B2 (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
WO2020208972A1 (ja) 応答生成装置及び応答生成方法
JP2019015950A (ja) 音声認識方法、プログラム、音声認識装置、及びロボット
CN111862947A (zh) 用于控制智能设备的方法、装置、电子设备和计算机存储介质
US11887602B1 (en) Audio-based device locationing
JP6688820B2 (ja) 出力装置、出力方法、および出力プログラム
Rahim et al. Improving Speaker Diarization for Low-Resourced Sarawak Malay Language Conversational Speech Corpus

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 6998289

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350