JP7098587B2

JP7098587B2 - 情報処理装置、キーワード検出装置、情報処理方法およびプログラム

Info

Publication number: JP7098587B2
Application number: JP2019157158A
Authority: JP
Inventors: 寧丁; 浩司藤村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-07-11
Anticipated expiration: 2039-08-29
Also published as: US20210065684A1; CN112447176A; JP2021033228A; US11961510B2

Description

本発明の実施形態は、情報処理装置、キーワード検出装置、情報処理方法およびプログラムに関する。

近年、音声による操作に適応したスマートスピーカーが急速に普及している。スマートスピーカーは、例えば、「ウェイクワード」とも呼ばれる特定のキーワードを音声から検出することによって起動する。ユーザは、キーワードを発声するだけで、スマートスピーカーを起動させ、様々な操作を続けることができる。したがって、音声からキーワードを検出するキーワードモデルが必要とされる。

G. Chen, C. Parada, and G. Heigold, "Small-footprint keyword spotting using deep neural networks," in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014, pp. 4087-4091.

本発明が解決しようとする課題は、限られたデータから効率的にキーワードモデルを学習させることのできる技術を提供することである。

実施形態によれば、情報処理装置は、データ取得部と、学習部と、抽出部と、適応処理部とを備える。データ取得部は、音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第１の学習データを取得する。学習部は、上記第１の学習データを用いて、上記音声特徴量の入力に対して上記正解音素ラベルを出力するように音響モデルを学習させる。抽出部は、あらかじめ設定されたキーワード、上記キーワードに含まれるサブワード、上記キーワードに含まれる音節、および上記キーワードに含まれる音素のうちの少なくとも１つの音声特徴量を含む第２の学習データを、上記第１の学習データから抽出する。適応処理部は、上記第２の学習データを少なくとも用いて、学習済みの上記音響モデルを上記キーワードの検出に係るキーワードモデルに適応させる。

図１は、第１の実施形態に係る情報処理装置のシステム構成の例を示すブロック図である。図２は、第１の実施形態に係る情報処理装置の機能構成の例を示すブロック図である。図３は、第１の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。図４は、第２の実施形態に係る情報処理装置の機能構成の例を示すブロック図である。図５は、第２の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。図６は、第３の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。図７は、第４の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。図８は、第５の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。図９は、第６の実施形態に係る情報処理装置の機能構成の例を示すブロック図である。図１０は、第７の実施形態に係るキーワード検出装置の機能構成の例を示すブロック図である。図１１は、第７の実施形態に係るキーワード検出装置による処理手順と処理内容の一例を示す。図１２は、実施形態によって適応されたキーワード検出モデルを用いた実験の結果を示すグラフである。

以下、図面を参照してこの発明に係わる実施形態を説明する。
［第１の実施形態］
（１）キーワードモデル学習装置
（１－１）構成
図１は、第１の実施形態に係る情報処理装置としてのキーワードモデル学習装置１の一例を示すブロック図である。キーワードモデル学習装置１は、例えば、サーバコンピュータまたはパーソナルコンピュータであり、キーワードを検出するために使用されるキーワードモデルの学習に使用される。

キーワードモデル学習装置１は、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサ２０Ａを有する。そして、このハードウェアプロセッサに対し、プログラムメモリ２０Ｂ、データメモリ３０、およびインタフェース（Ｉ／Ｆ）ユニット１０を、バス４０を介して接続したものとなっている。

Ｉ／Ｆユニット１０は、外部機器から学習データを受け取り、制御ユニット２０に出力する機能を有する。またＩ／Ｆユニット１０は、制御ユニット２０から出力された学習済みモデルに関する情報を外部機器に出力する機能を有する。Ｉ／Ｆユニット１０は、通信インタフェースを含み得る。通信インタフェースは、例えば１つ以上の有線または無線の通信インタフェースを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線ＬＡＮが使用され、また無線インタフェースとしては、例えば無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）などの小電力無線データ通信規格を採用したインタフェースが使用される。

Ｉ／Ｆユニット１０には、また、マイクロホン２、入力デバイス３および出力デバイス４が接続され得る。例えば、Ｉ／Ｆユニット１０は、マイクロホン２によって集音された音声を音声信号として取り込み、制御ユニット２０に渡す機能を有する。Ｉ／Ｆユニット１０はまた、キーボード、タッチパネル、タッチパッド、マウス等の入力デバイス３を通じて入力されたデータを取り込み、制御ユニット２０に渡す機能を有する。Ｉ／Ｆユニット１０はまた、制御ユニット２０から出力された出力データを、液晶または有機ＥＬ（Electro Luminescence）等を用いた表示デバイスや音声を出力するスピーカを含む出力デバイス４へ出力する機能を有する。なお、マイクロホン２、入力デバイス３および出力デバイス４はキーワードモデル学習装置１に内蔵されたデバイスを使用してもよく、またネットワークを介して通信可能な他の情報端末のマイクロホン、入力デバイスおよび出力デバイスを使用してもよい。

プログラムメモリ２０Ｂは、記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリとを組み合わせて使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。

データメモリ３０は、記憶媒体として、例えば、ＨＤＤまたはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとを組み合わせて使用したもので、情報処理を行う過程で取得および作成された各種データを記憶するために用いられる。

キーワード検出を行うためのキーワードモデルの学習には、一般に大量の話者によるキーワード発話データが必要であり、その収録のための収録コストを要していた。例えば、特定のキーワードについてキーワードモデルを学習させるために、４万発話が必要との報告もある。

本実施形態は、限られたデータから効率的にキーワードモデルの学習を行うことができる技術を提供する。

図２は、第１の実施形態に係るキーワードモデル学習装置１の機能構成を示すブロック図である。
データメモリ３０の記憶領域には、学習データ記憶部３１と、キーワードモデル記憶部３２とが設けられている。

学習データ記憶部３１は、制御ユニット２０によって取得された学習データを記憶するために使用される。学習データは、音声特徴量とその正解音素ラベルの組合せを含む。

キーワードモデル記憶部３２は、学習済みのキーワードモデルを記憶するために使用される。学習済みのキーワードモデルとは、ここでは、特定のキーワードを検出するように学習されたモデルを言う。

制御ユニット２０は、上記ハードウェアプロセッサ２０Ａと、上記プログラムメモリ２０Ｂとを備え、処理機能部として、学習データ取得部２１と、モデル学習部２２と、データ抽出部２３と、キーワードモデル適応部２４と、出力制御部２５とを備える。これらの処理機能部は、いずれもプログラムメモリ２０Ｂに格納されたプログラムを、上記ハードウェアプロセッサ２０Ａに実行させることにより実現される。制御ユニット２０は、また、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式で実現されてもよい。また上記プログラムは、ネットワーク経由で提供されるものであってもよい。

学習データ取得部２１は、第１のデータ取得部として、音声特徴量とその正解音素ラベルの組合せを含む学習データ（第１の学習データ）を取得し、学習データ記憶部３１に記憶させる。

モデル学習部２２は、学習部として、学習データ記憶部３１から読み出した学習データを用いて、音声特徴量の入力に対して正解音素ラベルを出力するように音響モデルを学習させる処理を行う。音声特徴量は、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）でもよいし、メルフィルタバンクでもよい。あるいは、ピッチ特徴量、またはそれらのΔ成分もしくはΔΔ成分、またはこれら特徴量の組み合わせを用いてもよい。以下では、音声特徴量としてＭＦＣＣ特徴量を用いるものとして説明する。

データ抽出部２３は、抽出部として、学習データ記憶部３１から読み出した学習データから、あらかじめ設定されたキーワード、当該キーワードに含まれるサブワード、当該キーワードに含まれる音節、または当該キーワードに含まれる音素を含むデータを抽出する処理を行う。

キーワードモデル適応部２４は、適応処理部として、データ抽出部２３によって抽出されたデータ（第２の学習データ）を少なくとも用いて、学習済みの音響モデルをキーワードの検出に係るキーワードモデルに適応させる処理を行う。キーワードモデル適応部２４は、適応させたキーワードモデルをキーワードモデル記憶部３２に記憶させる。キーワードモデル適応部２４はまた、キーワードモデル記憶部３２に記憶されたキーワードモデルを読み出し、当該キーワードモデルを再学習させ、更新することもできる。

出力制御部２５は、制御ユニット２０による処理の結果を、Ｉ／Ｆユニット１０を介して外部機器に出力する処理を行う。例えば、出力制御部２５は、外部機器からの要求に応答して、キーワードモデル記憶部３２に記憶されたキーワードモデルに関する情報を読み出し、出力データを生成して、Ｉ／Ｆユニット１０を介して出力デバイス４または他の外部機器に出力する。

（２－２）動作
次に、以上のように構成されたキーワードモデル学習装置１による情報処理動作を説明する。図３はその処理手順と処理内容を示すフローチャートである。

ステップＳ１０１において、キーワードモデル学習装置１は、学習データ取得部２１の制御の下、学習データを取得する。学習データは、音声特徴量とその正解音素ラベルの組合せを含む。音声特徴量は、例えば以下のように抽出される。

はじめに、発話音声がマイクロホン等を用いて集音され、音声波形として出力される。この音声波形のアナログ波が、例えば１６ｋＨｚでサンプリングされ、デジタル波の１サンプルの振幅値が１６ビットで表される。そしてこのデジタル波が２５６点サンプルずつ、１２８点サンプルずらしながら切り出される。この２５６点サンプルを１フレームとし、１フレームからＭＦＣＣ特徴量１２次元が算出される。そして、３フレーム分のＭＦＣＣ特徴量を連結した３６次元が音声特徴量として使用される。

正解ラベルは、音声特徴量に対応する発音の情報である。ここでは、３６次元の音声特徴量に対応する音素の隠れマルコフモデル（Hidden Markov Model，ＨＭＭ）をラベルとして使用する。

次いでステップＳ１０２において、キーワードモデル学習装置１は、モデル学習部２２の制御の下、学習データ記憶部３１から上記学習データを読み出し、この学習データを用いて音響モデル（汎用モデル）の学習を行う。この音響モデルは、一般の発声を認識できる音響モデルである。以下、キーワードを検出するためのキーワードモデルと区別するために、モデル学習部２２によって学習される音響モデルを汎用モデルと呼ぶ。モデルの形式はＤＮＮ（Deep Neural Network、深層ニューラルネットワーク）でも良いし、ＣＮＮ（Convolution Neural Network）でも、ＲＮＮ（Recurrent Neural Network）でも、ＬＳＴＭ（Long Short-Term Memory）でもよい。ここでは、モデルの形式としてＤＮＮを使用する。

一方、ステップＳ１０３において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、学習データ記憶部３１から上記学習データを読み出し、この学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合（ＹＥＳ）、ステップＳ１０４に移行する。含まないと判定された場合（ＮＯ）、ステップＳ１０５に移行する。ここで、「キーワード」は、キーワード検出の対象であり、任意に設定されてよい。「キーワードの要素」は、キーワードに含まれる、当該キーワードの一部のサブワード、当該キーワードの一部の音節、または当該キーワードの一部の音素を含む。

ステップＳ１０４において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、学習データ記憶部３１から読み出した学習データから、キーワード、またはその一部のサブワード、またはその一部の音節、またはその一部の音素を含むデータを抽出する。例えば、キーワードが「でんきつけて」である場合、サブワードは「でんき」「つけて」であり、音節は「で」「ん」「き」「つ」「け」「て」であり、音素は「d」「e」「N」「kk」「i」「ts」「u」「kk」「e」「t」「e」である。

より詳細には、データ抽出部２３は、キーワードとして抽出する場合、学習データから「でんきつけて」を含むデータを抽出する。サブワードとして抽出する場合、学習データからサブワードの一部「でんき」または「つけて」を含むデータを抽出する。音節として抽出する場合、学習データから音節の一部「で」、または「ん」、または「き」、または「つ」、または「け」、または「て」を含むデータを抽出する。音素単位として抽出する場合、学習データから音素の一部、「d」、または「e」、または「N」、または「kk」、または「i」、または「ts」、または「u」、または「kk」、または「t」を含むデータを抽出する。重複しているサブワード、音節、または音素は、省略されてよい。この例では、音素「e」と「kk」は複数回重複しているため、重複している部分を省略し、重複のデータ抽出は行わない。

次にステップＳ１０５において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、すべての学習データについてキーワードまたはその要素の有無を確認したか否かを判定する。すべてのデータを確認したと判定された場合（ＹＥＳ）、ステップＳ１０６に移行する。すべてのデータを確認していないと判定された場合（ＮＯ）、ステップＳ１０３に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。

ステップＳ１０６において、キーワードモデル学習装置１は、キーワードモデル適応部２４の制御の下、学習済みの汎用モデルに対し、抽出されたデータを少なくとも含むデータを用いて、キーワードモデルに適応させる処理を行う。

キーワードモデル適応部２４は、適応させたキーワードモデルをキーワードモデル記憶部３２に記憶させる。その後、適時に、または例えば外部デバイスからの要求に応じて、出力制御部２５は、キーワードモデル記憶部３２に記憶された適応済みのキーワードモデルに関する情報を読み出し、必要な出力データを生成して、出力することができる。

（３）効果
以上説明したように、第１の実施形態では、キーワードモデル学習装置１は、音声特徴量とその正解音素ラベルの組合せを含む学習データを取得し、学習データを用いて、音声特徴量の入力に対して正解音素ラベルを出力するように汎用モデルを学習させる。また一方、学習データから、あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、または前記キーワードに含まれる音素を含むデータを抽出し、抽出したデータを少なくとも用いて、上記学習済みの汎用モデルを上記キーワードの検出に係るキーワードモデルに適応させる。

ここで、学習済みの汎用モデルを使用せず、適応ではなく、学習データから抽出したデータを用いて初期状態からキーワードモデルを学習させることも可能である。しかし、抽出したデータの量によっては、キーワードモデルを初期状態から正しく学習できない可能性がある。

第１の実施形態によれば、キーワードモデル適応部２４は、学習済みの汎用モデルに対し、学習データから抽出したデータを用いてキーワードモデルに適応させる。すなわち、学習済みの汎用モデルをベースにして、特定のキーワードに適したキーワードモデルを再学習させる。これにより、限られたデータからでもキーワードモデルの作成が保証される。また、学習データにはキーワード以外の音声も多く含まれるが、抽出したデータは、キーワードまたはキーワードの一部を含むデータのみであるため、より効率的に適切なキーワードモデルに適応させることができる。

［第２の実施形態］
（１）構成および動作
第２の実施形態に係る情報処理装置としてのキーワードモデル学習装置１は、キーワードの発話音声を含むキーワード発話データをさらに使用してキーワードモデルの適応を実施する。
第２の実施形態に係るキーワードモデル学習装置１は、図１に示した第１の実施形態に係るキーワードモデル学習装置１と同様のシステム構成を備えることができる。

図４は、第２の実施形態に係るキーワードモデル学習装置１の機能構成を示すブロック図である。図４において、図２に示した第１の実施形態に係るキーワードモデル学習装置１と同じ構成には同じ符号を付し、詳細な説明は省略する。

図４に示したように、第２の実施形態に係るキーワードモデル学習装置１は、第１の実施形態と同様に、制御ユニット２０内に、学習データ取得部２１と、モデル学習部２２と、データ抽出部２３と、キーワードモデル適応部２４と、出力制御部２５とを備え、さらにキーワード発話データ取得部２６を備える。また、データメモリ３０の記憶領域には、学習データ記憶部３１と、キーワードモデル記憶部３２に加え、さらにキーワード発話データ記憶部３３が設けられている。

キーワード発話データ取得部２６は、第２のデータ取得部として、利用可能なキーワード発話データを任意のタイミングで取得する。キーワード発話データ取得部２６は、マイクロホン２を通じて入力されたキーワード発話音声を取得し、これに基づいてキーワード発話データを生成してもよい。あるいはキーワード発話データ取得部２６は、あらかじめ用意されたキーワード発話データを外部機器から取得してもよい。

キーワード発話データ記憶部３３は、キーワード発話データ取得部２６によって取得されたキーワード発話データを記憶するために使用される。

キーワードモデル適応部２４は、モデル学習部２２から第１の実施形態と同様に学習された汎用モデルを受け取り、データ抽出部２３から第１の実施形態と同様に抽出されたデータを受け取り、そしてキーワード発話データ記憶部３３に格納されたキーワード発話データを読み出して、抽出されたデータとキーワード発話データとを用いて学習済みの汎用モデルをキーワードモデルに適応させる。

図５は、第２の実施形態に係るキーワードモデル学習装置１の処理内容と処理手順を示す。図５において、図３に示した第１の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

第１の実施形態と同様に、まずステップＳ１０１において、キーワードモデル学習装置１は、学習データ取得部２１の制御の下、学習データを取得する。ステップＳ１０２において、キーワードモデル学習装置１は、モデル学習部２２の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップＳ１０３において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、上記学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合（ＹＥＳ）、ステップＳ１０４に移行し、含まないと判定された場合（ＮＯ）、ステップＳ１０５に移行する。ステップＳ１０４において、データ抽出部２３は、学習データからキーワードまたはその要素を含むデータを抽出する。ステップＳ１０５において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合（ＹＥＳ）、ステップＳ１１６に移行し、すべてのデータを確認していないと判定された場合（ＮＯ）、ステップＳ１０３に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。

続いて、ステップＳ１１６において、キーワードモデル学習装置１は、キーワード発話データ取得部２６の制御の下、キーワード発話データを取得し、キーワード発話データ記憶部３３に記憶させる。なお、このステップは任意のタイミングで行われてよい。

ステップＳ１１７において、キーワードモデル学習装置１は、キーワードモデル適応部２４の制御の下、キーワード発話データ記憶部３３からキーワード発話データを読み出し、学習済みの汎用モデルに対し、抽出されたデータとキーワード発話データとを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部２４は、適応させたキーワードモデルをキーワードモデル記憶部３２に記憶させる。出力制御部２５は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。

（２）効果
以上のように、第２の実施形態では、キーワードモデル学習装置１は、さらに、特定のキーワードを発話させたキーワード発話データを取得してキーワードモデルの適応を実施する。

第１の実施形態では、キーワード発話データがない場合のキーワードモデルの学習方法を説明した。第２の実施形態では、キーワードモデル適応部２４は、学習済み汎用モデルに基づき、学習データから抽出したデータと、取得したキーワード発話データとを用いて、キーワードモデルに適応させる。抽出したデータを使用せず、キーワード発話データのみを用いてキーワードモデルに適応させることも可能であるが、大量話者のキーワード発話データが必要になる。

第２の実施形態によれば、学習データから抽出したデータとキーワード発話データの話者が異なるため、学習データから抽出したデータとキーワード発話データとを用いてキーワードモデルに適応させることで、少ないキーワード発話データでも適切にキーワードモデルの学習を行うことができる。

［第３の実施形態］
（１）構成および動作
第３の実施形態に係る情報処理装置としてのキーワードモデル学習装置１は、学習データから、キーワードの文字数、その一部のサブワードの文字数、その一部の音節の数、またはその一部の音素の数が含まれる比率が所定の値以上であるデータを抽出する。
第３の実施形態に係るキーワードモデル学習装置１は、図１および図２に示した第１の実施形態に係るキーワードモデル学習装置１と同様のシステム構成および機能構成を備えることができる。

図６は、第３の実施形態に係るキーワードモデル学習装置１の処理内容と処理手順を示す。図６において、図３に示した第１の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

第１の実施形態と同様に、まずステップＳ１０１において、キーワードモデル学習装置１は、学習データ取得部２１の制御の下、学習データを取得する。ステップＳ１０２において、キーワードモデル学習装置１は、モデル学習部２２の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップＳ１０３において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、上記学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合（ＹＥＳ）、ステップＳ１２４に移行し、含まないと判定された場合（ＮＯ）、ステップＳ１２６に移行する。

続いて、ステップＳ１２４において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、キーワードまたはその要素を含むと判定されたデータが、キーワードまたはその要素を所定の比率以上含むか否かをさらに判定する。含むと判定された場合（ＹＥＳ）、ステップＳ１２５に移行し、含まないと判定された場合（ＮＯ）、ステップＳ１２６に移行する。ステップＳ１２５において、データ抽出部２３は、当該データを抽出する。

より詳細には、データ抽出部２３は、キーワードの文字数、またはその一部のサブワードの文字数、またはその一部の音節の数、またはその一部の音素の数と、判定対象であるデータの文字数、または音節の数、または音素の数との比率が、所定の比率閾値以上であるか否かを判定する。そして、所定の比率閾値以上と判定された場合に、当該データを学習データから抽出する。

例えば、キーワードを用いて抽出する場合に、キーワードが「でんきつけて」であり、比率閾値が０．５と設定されたとする。この場合、キーワードの文字数は６である。学習データのうち、判定対象のデータの発話が「でんきつけてねる」であるとすると、その発話の文字数は８である。キーワードの文字数と対象データの文字数との比率は、６／８＝０．７５であり、比率閾値以上になる。したがって、データ抽出部２３は、学習データから「でんきつけてねる」の発話のデータを抽出する。一方、判定対象のデータの発話が「なんでくらいへやにいるのはやくでんきつけて」である場合、その文字数は２１である。キーワードの文字数と対象データの文字数との比率は、６／２１＝０．２９であり、比率閾値以下である。したがって、データ抽出部２３は、学習データから「なんでくらいへやにいるのはやくでんきつけて」の発話のデータを抽出しない。

サブワード、または音節、または音素を用いて抽出する場合も、キーワードを用いて抽出する場合と同様である。

続いてステップＳ１２６において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合（ＹＥＳ）、ステップＳ１２７に移行し、すべてのデータを確認していないと判定された場合（ＮＯ）、ステップＳ１０３に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。

ステップＳ１２７において、キーワードモデル学習装置１は、キーワードモデル適応部２４の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部２４は、適応させたキーワードモデルをキーワードモデル記憶部３２に記憶させる。出力制御部２５は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。

（２）効果
以上のように、第３の実施形態では、キーワードモデル学習装置１は、キーワードまたはキーワードの一部が所定の比率以上含まれるデータを抽出して、キーワードモデルの適応に用いる。これにより、キーワードまたはその要素以外のデータが抽出される比率を低く抑えることができる。

仮に学習データから抽出されるデータがキーワードまたはキーワードの一部以外の発話を多く含む場合、適応されたキーワードモデルによるキーワードの検出性能が低下するおそれがある。

しかし、第３の実施形態によれば、キーワードまたはキーワードの一部を一定の比率または一定の割合以上含むデータのみを抽出するため、キーワードモデルによるキーワードと非キーワードを区別する性能が向上し、キーワードの検出性能も向上させることができる。

［第４の実施形態］
（１）構成および動作
第４の実施形態に係る情報処理装置としてのキーワードモデル学習装置１は、学習データから抽出されるデータ数に上限値を設定する。
第４の実施形態に係るキーワードモデル学習装置１は、図１および図２に示した第１の実施形態に係るキーワードモデル学習装置１と同様のシステム構成および機能構成を備えることができる。

図７は、第４の実施形態に係るキーワードモデル学習装置１の処理内容と処理手順を示す。図７において、図３に示した第１の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

第１の実施形態と同様に、まずステップＳ１０１において、キーワードモデル学習装置１は、学習データ取得部２１の制御の下、学習データを取得する。ステップＳ１０２において、キーワードモデル学習装置１は、モデル学習部２２の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップＳ１０３において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合（ＹＥＳ）、ステップＳ１３４に移行し、含まないと判定された場合（ＮＯ）、ステップＳ１３６に移行する。

続いて、ステップＳ１３４において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、特定のキーワードまたはその要素を含むと判定されたデータの数が、データ数の上限値以下であるか否かをさらに判定する。上限値以下と判定された場合（ＹＥＳ）、ステップＳ１３５に移行し、含まないと判定された場合（ＮＯ）、ステップＳ１３６に移行する。ステップＳ１３５において、データ抽出部２３は、当該データを抽出する。

より詳細には、データ抽出部２３は、特定のキーワード、またはその一部のサブワード、またはその一部の音節、またはその一部の音素を含むデータ数が所定のデータ数閾値以下の場合、学習データからデータを抽出する。例えば、キーワードが「でんきつけて」と「こんにちは」の２つあり、データ数閾値が１００であるとする。この場合、データ抽出部２３は、「でんきつけて」を含むデータと「こんにちは」を含むデータをそれぞれ１００個抽出する。

ステップＳ１３６において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合（ＹＥＳ）、ステップＳ１３７に移行し、すべてのデータを確認していないと判定された場合（ＮＯ）、ステップＳ１０３に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。

ステップＳ１３７において、キーワードモデル学習装置１は、キーワードモデル適応部２４の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部２４は、適応させたキーワードモデルをキーワードモデル記憶部３２に記憶させる。出力制御部２５は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。

（２）効果
以上のように、第４の実施形態では、キーワードモデル学習装置１は、学習データから抽出されるデータ数に上限値を設定する。これにより、学習データから抽出されるデータ数にばらつきが生じるのを低減することができる。

仮に、抽出されるデータ数にキーワードによってばらつきがある場合、そのようなデータを用いて適応させたキーワードモデルは、一部のキーワードについて検出性能が低下するおそれがある。例えば、上記の例で、学習データ中に「でんきつけて」を含むデータ数が１００個あり、「こんにちは」を含むデータ数が９００個あるとする。これらの「でんきつけて」を含むデータと「こんにちは」を含むデータをすべて抽出して、キーワードモデル適応部２４でキーワードモデルに適応すると、「こんにちは」を含むデータ数が「でんきつけて」を含むデータ数の９倍であるため、「こんにちは」の検出性能が良好でも「でんきつけて」の検出性能は低下する。

第４の実施形態によれば、「でんきつけて」を含むデータと「こんにちは」を含むデータをそれぞれ１００個抽出されるので、２つのキーワードを含むデータ数をバランスよく抽出することができ、一部のキーワードの検出性能の低下を抑制することができる。

［第５の実施形態］
（１）構成および動作
第５の実施形態に係る情報処理装置としてのキーワードモデル学習装置１は、上記第３の実施形態で説明した比率閾値と、上記第４の実施形態で説明したデータ数閾値との両方を用いてデータを抽出する。
第５の実施形態に係るキーワードモデル学習装置１は、図１および図２に示した第１の実施形態に係るキーワードモデル学習装置１と同様のシステム構成および機能構成を備えることができる。

図８は、第５の実施形態に係るキーワードモデル学習装置１の処理内容と処理手順を示す。図８において、図３に示した第１の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

第１の実施形態と同様に、まずステップＳ１０１において、キーワードモデル学習装置１は、学習データ取得部２１の制御の下、学習データを取得する。ステップＳ１０２において、キーワードモデル学習装置１は、モデル学習部２２の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップＳ１０３において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合（ＹＥＳ）、ステップＳ１４４に移行し、含まないと判定された場合（ＮＯ）、ステップＳ１４７に移行する。

続いて、ステップＳ１４４において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、キーワードまたはその要素を含むと判定されたデータの数が所定の上限値以下であるか否かをさらに判定する。上限値以下と判定された場合（ＹＥＳ）、ステップＳ１４５に移行し、上限値を超えると判定された場合（ＮＯ）、ステップＳ１４６に移行する。

ステップＳ１４５では、データ抽出部２３は、ステップＳ１０３においてキーワードまたはその要素を含むと判定されたデータを抽出する。

一方、ステップＳ１４６では、データ抽出部２３は、ステップＳ１０３においてキーワードまたはその要素を含むと判定されたデータについて、第３の実施形態で説明したのと同様にキーワードまたはその要素の数の比率を計算し、データ数の上限値まで、キーワードまたはその要素の数の比率が高い順にデータを抽出する。このとき、データ抽出部２３はさらに、第３の実施形態で説明した比率閾値を用いてデータを抽出してもよい。

より詳細には、データ抽出部２３は、キーワードの文字数、またはその一部のサブワードの文字数、またはその一部の音節の数、またはその一部の音素の数と、判定対象であるデータの文字数、または音節の数、または音素の数との比率を計算し、その比率が高い順に、データ数閾値までデータを抽出する。あるいは、データ抽出部２３は、キーワードの文字数、またはその一部のサブワードの文字数、またはその一部の音節の数、またはその一部の音素の数と、判定対象であるデータの文字数、または音節の数、または音素の数との比率を計算し、その比率が所定の比率閾値以上であるデータのみ、比率が高い順に、データ数閾値までデータを抽出することができる。

例えば、キーワードを用いて抽出する場合に、比率閾値を０．５、データ数閾値を１００と設定したとする。キーワードが「でんきつけて」である場合、キーワードの文字数と対象データの文字数との比率が０．５以上であり、かつ、「でんきつけて」の発話を含むデータの数が１００以下の場合、データ抽出部２３は、学習データからそれらのデータを抽出する。キーワードの文字数と対象データの文字数との比率が０．５以上であるデータの数が１００以上である場合、データ抽出部２３は、上記比率が高い順に１００個までのデータを抽出する。

ステップＳ１４７において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合（ＹＥＳ）、ステップＳ１４８に移行し、すべてのデータを確認していないと判定された場合（ＮＯ）、ステップＳ１０３に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。

ステップＳ１４８において、キーワードモデル学習装置１は、キーワードモデル適応部２４の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部２４は、適応させたキーワードモデルをキーワードモデル記憶部３２に記憶させる。出力制御部２５は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。

（２）効果
以上のように、第５の実施形態では、キーワードモデル学習装置１は、学習データから抽出されるデータ数に上限値を設定し、上限値を超える場合にはデータに含まれるキーワードまたはその要素の数の比率が大きい順にデータを抽出する。またその際、比率が所定の値を超えるデータだけが抽出されるようにすることもできる。

このように第５の実施形態によれば、キーワードごとに抽出されるデータの数のばらつきを抑えつつ、キーワードまたはその要素が含まれる比率が高いデータを抽出するので、一部のキーワードの検出性能の低下を抑制しながら、キーワードモデルを効率的に適応させることができる。

［第６の実施形態］
（１）構成および動作
第６の実施形態に係る情報処理装置としてのキーワードモデル学習装置１は、ユーザからキーワードの設定を受け付けるキーワード設定部２７をさらに備える。
第６の実施形態に係るキーワードモデル学習装置１は、図１に示した第１の実施形態に係るキーワードモデル学習装置１と同様のシステム構成を備えることができる。

図９は、第６の実施形態に係るキーワードモデル学習装置１の機能構成を示すブロック図である。図９において、図２に示した第１の実施形態に係るキーワードモデル学習装置１と同じ構成には同じ符号を付し、詳細な説明は省略する。

図９に示したように、第６の実施形態に係るキーワードモデル学習装置１は、学習データ取得部２１と、モデル学習部２２と、データ抽出部２３と、キーワードモデル適応部２４と、出力制御部２５と、学習データ記憶部３１と、キーワードモデル記憶部３２とを備え、さらに、キーワード設定部２７を備える。

キーワード設定部２７は、Ｉ／Ｆユニット１０を介して、ユーザが設定したキーワードを受け取り、データ抽出部２３に渡す処理を行う。

第６の実施形態に係るキーワードモデル学習装置１は、図３に示した第１の実施形態と同じ処理フローを用いることができる。
第６の実施形態に係るキーワードモデル学習装置１は、まずステップＳ１０１において、学習データ取得部２１の制御の下、学習データを取得する。ステップＳ１０２において、キーワードモデル学習装置１は、モデル学習部２２の制御の下、上記学習データを用いて汎用モデルの学習を行う。

ユーザが設定したキーワードをキーワード設定部２７が受け取り、データ抽出部２３に渡す処理は、任意のタイミングで行われてよい。ステップＳ１０１よりも前であってもよいし、ステップＳ１０３の直前であってもよい。

ステップＳ１０３において、キーワードモデル学習装置１は、データ抽出部２３の制御の下、キーワード設定部２７から受け取ったユーザ指定のキーワードをもとに、上記学習データがそのキーワードまたはそのキーワードの要素を含むか否かを判定する。含むと判定された場合（ＹＥＳ）、ステップＳ１０４に移行し、含まないと判定された場合（ＮＯ）、ステップＳ１０５に移行する。ステップＳ１０４において、データ抽出部２３は当該データを抽出する。ステップＳ１０５において、データ抽出部２３は、すべての学習データを確認したか否かを判定し、すべてのデータを確認したと判定された場合（ＹＥＳ）、ステップＳ１０６に移行し、すべてのデータを確認していないと判定された場合（ＮＯ）、ステップＳ１０３に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。ステップＳ１０６において、キーワードモデル学習装置１は、キーワードモデル適応部２４の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。

より詳細には、例えばユーザがキーボードなどの入力デバイス３を介して「でんきつけて」をキーワードとして入力すると、キーワード設定部２７はこの入力を受け取り、「でんきつけて」をキーワードとして設定し、データ抽出部２３に渡す。データ抽出部２３は、このキーワード、またはその一部のサブワード、またはその一部の音節、またはその一部の音素を含むデータを学習データから抽出する。モデル適応部２４は、学習済みの汎用モデルに基づき、抽出したデータを少なくとも含むデータを用いてキーワードモデルに適応させる。適応されたキーワードモデルは「でんきつけて」のキーワードモデルになる。その後、キーワードモデル適応部２４は、適応させたキーワードモデルをキーワードモデル記憶部３２に記憶させる。出力制御部２５は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。

（２）効果
以上のように、第６の実施形態では、キーワードモデル学習装置１は、ユーザが任意に設定したキーワードに基づいて学習データからデータを抽出し、学習済みの汎用モデルを、ユーザが設定したキーワードを検出するキーワードモデルに適応させる。
このように第６の実施形態によれば、ユーザが設定したキーワードについて、新たに発話データを収録する必要なしに、キーワードモデルに適応させることができる。

［第７の実施形態］
（１）構成および動作
第７の実施形態は、上記実施形態にしたがって適応されたキーワードモデルを用いてキーワード検出を行うキーワード検出装置に関する。

図１０は、第７の実施形態に係るキーワード検出装置１００のシステム構成および機能構成を示す図である。
キーワード検出装置１００は、ハードウェアとして、Ｉ／Ｆユニット１１０と、制御ユニット１２０と、データメモリ１３０とを備える。

Ｉ／Ｆユニット１１０は、通信インタフェースを含み得る。通信インタフェースは、例えば１つ以上の有線または無線の通信インタフェースを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線ＬＡＮが使用され、また無線インタフェースとしては、例えば無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）などの小電力無線データ通信規格を採用したインタフェースが使用される。

Ｉ／Ｆユニット１１０には、マイクロホン１０１と、入力デバイス１０２と、出力デバイス１０３とが接続され得る。例えば、Ｉ／Ｆユニット１１０は、マイクロホン１０１によって集音された音声を音声信号として取り込み、制御ユニット１２０に渡す機能を有する。Ｉ／Ｆユニット１１０はまた、キーボード、タッチパネル、タッチパッド、マウス等の入力デバイス１０２を通じて入力されたデータを取り込み、制御ユニット１２０に渡す機能を有する。Ｉ／Ｆユニット１１０はまた、制御ユニット１２０から出力された出力データを、液晶または有機ＥＬ（Electro Luminescence）等を用いた表示デバイスや音声を出力するスピーカを含む出力デバイス４へ出力する機能も有する。なお、マイクロホン１０１、入力デバイス１０２および出力デバイス１０３はキーワード検出装置１００に内蔵されたデバイスを使用してもよく、またネットワークを介して通信可能な他の情報端末のマイクロホン、入力デバイスおよび出力デバイスを使用してもよい。

制御ユニット１２０は、ＣＰＵ等のハードウェアプロセッサと、プログラムメモリとを備える。プログラムメモリは、ＨＤＤやＳＳＤ等の不揮発性メモリと、ＲＯＭ等の不揮発性メモリとを組み合わせて使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。

データメモリ１３０は、ＨＤＤやＳＳＤ等の不揮発性メモリと、ＲＡＭ等の揮発性メモリとを組み合わせて使用したもので、情報処理を行う過程で取得および作成された各種データを記憶するために用いられる。

データメモリ１３０の記憶領域には、キーワードモデル記憶部１３１が設けられている。キーワードモデル記憶部１３１は、上記実施形態に係るキーワードモデル学習装置１によって適応されたキーワードモデルを記憶するために使用される。キーワード検出装置１００とキーワードモデル学習装置１は、一体の装置であってもよいし、別個の装置であってもよい。同様に、キーワード検出装置１００が備えるキーワードモデル記憶部１３１は、キーワードモデル学習装置１が備えるキーワードモデル記憶部３２と同じものであっても別個のものであってもよい。

制御ユニット１２０は、上記のようにハードウェアプロセッサとプログラムメモリとを備え、処理機能部として、音声取得部１２１と、キーワード検出部１２２とを備える。これらの処理機能部は、いずれもプログラムメモリに格納されたプログラムを、上記ハードウェアプロセッサに実行させることにより実現される。制御ユニット１２０は、また、ＡＳＩＣやＦＰＧＡなどの集積回路を含む他の多様な形式で実現されてもよい。また上記プログラムは、ネットワーク経由で提供されるものであってもよい。

音声取得部１２１は、マイクロホン１０１により集音された音声信号を、Ｉ／Ｆユニット１１０を介して取得する。音声取得部１２１はさらに、取得した音声データから音声特徴量を抽出し、キーワード検出部１２２に渡す処理を行う。

キーワード検出部１２２は、キーワードモデル記憶部１３１からキーワードモデルを読み出し、音声取得部１２１から受け取った音声特徴量を用いて、キーワードの検出を行う。キーワード検出部１２２はまた、Ｉ／Ｆユニット１１０を介して検出結果を出力することができる。

図１１は、第７の実施形態に係るキーワード検出装置１００による情報処理の処理手順と処理内容を示すフローチャートである。
キーワード検出装置１００は、マイクロホン１０１からの信号に基づきユーザの発話の有無を監視しており、発話が検出されたことをトリガとして以下の処理を開始する。

まずステップＳ２０１において、キーワード検出装置１００は、音声取得部１２１の制御の下、複数のフレームを含む音声データを取得する。音声取得部１２１は、マイクロホン１０１によって集音された発話の音声波形（音声データ）を、Ｉ／Ｆユニット１１０を介して取り込む。

次いでステップＳ２０２において、キーワード検出装置１００は、音声取得部１２１の制御の下、音声特徴量を抽出する。音声取得部１２１は、例えば、マイクロホン１０１から受け取った音声波形のアナログ波を１６ｋＨｚでサンプリングし、デジタル波を一定の時間ごとに切り出し、第１の実施形態で説明したのと同様に音声特徴量（ＭＦＣＣ特徴量３６次元）を抽出して出力する。

ステップＳ２０３において、キーワード検出装置１００は、キーワード検出部１２２の制御の下、キーワードモデル記憶部１３１からキーワードモデルを読み出す。例えば、「でんきつけて」がキーワードである場合、読み出されるキーワードモデルは、上記第１の実施形態、または第２の実施形態、または第３の実施形態、または第４の実施形態、または第５の実施形態、または第６の実施形態にしたがって適応された、「でんきつけて」に関するキーワードモデルである。

ステップＳ２０４において、キーワード検出装置１００は、キーワード検出部１２２の制御の下、読み出したキーワードモデルに上記特徴量を入力することによって、キーワードを検出する。キーワードの検出には様々な手法を用いてよいが、例えば、入力音声の特徴量とキーワードモデルを比較し、キーワードスコアを計算する手法が可能である。キーワードスコアが所定の閾値以上であれば、キーワード「でんきつけて」として検出する（例えば、特開２０１８－１５５９５７号公報参照）。

ステップＳ２０５において、キーワード検出装置１００は、キーワード検出部１２２の制御の下、検出結果を出力デバイス１０３に出力する。キーワードが検出された場合に限り、「でんきつけて」を示す情報を出力してもよい。キーワードが検出されない場合に、その旨の表示を出力するようにしてもよい。

（２）効果
以上のように、第７の実施形態では、上記第１の実施形態、第２の実施形態、第３の実施形態、第４の実施形態、第５の実施形態、または第６の実施形態にしたがって、キーワードモデルの適応を実施する。そして、適応させたキーワードモデルを用いて、キーワード検出を行う。
このように第７の実施形態によれば、大量話者のキーワード発話を使用せずに適応させたキーワードモデルを用いて、精度良くキーワード検出を行うことができる。

［実験結果］
図１２は、以上のような実施形態を用いて適応させたキーワードモデルを用いた実験結果の一例を示す。なお、上記のように、キーワードの検出にはキーワードスコアを使用した。すなわち、音声からキーワードスコアを計算し、あらかじめ設定された閾値と比較して、キーワードスコアが閾値以上になる場合にはキーワードとして判定し、それ以外の場合にはキーワードではないと判定する。

図１２において、縦軸は、認識精度（Accuracy）（％）を表し、値が高いほど認識精度が高いことを表す。ここでは認識精度とは、キーワード（例えば「でんきつけて」）の発話１００回に対して、何回正しく検出できたかを表す。

横軸は、２４時間あたりの誤検出数（False Acceptance per 24 hours）を表す。ここでは誤検出数とは、キーワードではない発話を誤ってキーワードとして検出した回数を示す。横軸の誤検出数「０」や「１」は、上記キーワードスコアの閾値が厳しく設定されているために誤検出が少ないことを表す。この場合、音声が実際にはキーワードであっても検出されないこともある（拒否されやすい）。横軸の誤検出数「１０」は、閾値がゆるく設定されているため、キーワードが認識されやすいが、非キーワードもスコアが閾値以上になって誤って受け入れてしまうおそれがあることを表す。

「ｂａｓｅｌｉｎｅ」は汎用モデルを用いた例を示す。汎用モデルでは、誤検出数が０回と１回の場合に認識精度がかなり低い値となった。
「ａｄａｐｔ＿ｓｐｋ６０」は、データ抽出を行わず、適応話者が６０名のキーワード発話データ（例えば、６０名が「でんきつけて」と発話したデータ）を用いて適応させた例である。汎用モデルに比べて精度が若干向上した。
「ａｄａｐｔ＿ｓｐｋ１３０」は、データ抽出を行わず、適応話者が１３０名のキーワード発話データを用いて適応させた例である。６０名の発話データを使用した場合に比べて精度が若干向上した。

「ａｄａｐｔ＿ｅｘｔｒａｃｔ＋ｓｐｋ６０」は、上記実施形態にしたがってデータ抽出を行い、さらに話者６０名のキーワード発話データと併せて適応を実施した例を示す。誤検出数０～１０のいずれについても、非常に高い認識精度を達成することができた。特に、１３０名の発話データを使用した場合よりも高い精度が得られたことがわかる。

［他の実施形態］
なお、この発明は上記実施形態に限定されるものではない。
例えば、上記実施形態に関して説明したキーワードモデル学習装置１が備える各機能部を、複数の装置（サーバ、エッジサーバ、他のクライアント端末など）に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。

さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてもよい。

例えば、図３，５，６，７，８に関して説明した処理フローにおいて、汎用モデルの学習処理と、学習データからの抽出処理は必ずしも順次に行われる必要はない。学習処理と抽出処理は並行して行われてもよい。
あるいは、モデル学習部２２は、汎用モデルの学習を行った後、学習済みの汎用モデルを記憶領域内に設けられた汎用モデル記憶部（図示せず）にいったん記憶させてもよい。同様に、データ抽出部２３は、データの抽出を行った後、抽出されたデータを記憶領域内に設けられた抽出データ記憶部（図示せず）にいったん記憶させてもよい。これにより、キーワードモデル学習装置１は、任意のタイミングで、キーワードモデル適応部２４の制御の下、各記憶部から学習済みの汎用モデルと抽出されたデータとを読み出し、キーワードモデルに適応させる処理を行うことができる。

上記各実施形態の処理の少なくとも一部は、例えば汎用のコンピュータに搭載されたプロセッサを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体（記憶媒体）に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

その他、音声データの取得やモデルの生成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…情報処理装置，キーワードモデル学習装置、２…マイクロホン、３…入力デバイス、４…出力デバイス、１０…Ｉ／Ｆユニット、２０…制御ユニット、２０Ａ…ハードウェアプロセッサ、２０Ｂ…プログラムメモリ、２１…学習データ取得部、２２…モデル学習部、２３…データ抽出部、２４…キーワードモデル適応部、２５…出力制御部、２６…キーワード発話データ取得部、２７…キーワード設定部、３０…データメモリ、３１…学習データ記憶部、３２…キーワードモデル記憶部、３３…キーワード発話データ記憶部、１００…キーワード検出装置、１０１…マイクロホン、１０２…入力デバイス、１０３…出力デバイス、１１０…Ｉ／Ｆユニット、１２０…制御ユニット、１２１…音声取得部、１２２…キーワード検出部、１３０…データメモリ、１３１…キーワードモデル記憶部。

Claims

音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第１の学習データを取得する、第１のデータ取得部と、
前記第１の学習データを用いて、前記音声特徴量の入力に対して前記正解音素ラベルを出力するように音響モデルを学習させる学習部と、
あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、および前記キーワードに含まれる音素のうちの少なくとも１つの音声特徴量を含む第２の学習データを、前記第１の学習データから抽出する抽出部と、
前記第２の学習データを用いて、学習済みの前記音響モデルを前記キーワードの検出に係るキーワードモデルに適応させる適応処理部と、
を備える情報処理装置。
前記キーワードの発話音声を含むキーワード発話データを取得する、第２のデータ取得部をさらに備え、
前記適応処理部は、前記第２の学習データと前記キーワード発話データとを用いて、前記音響モデルを前記キーワードモデルに適応させる、
請求項１に記載の情報処理装置。
前記抽出部は、前記第２の学習データとして、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が所定の値以上であるデータを抽出する、
請求項１に記載の情報処理装置。
前記抽出部は、所定のデータ数を上限として前記第２の学習データを抽出する、
請求項１に記載の情報処理装置。
前記抽出部は、所定のデータ数を上限として、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が高い順に、前記第２の学習データとして抽出する、
請求項１に記載の情報処理装置。
前記抽出部は、所定のデータ数を上限として、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が所定の値以上のデータを、前記比率が高い順に、前記第２の学習データとして抽出する、
請求項１に記載の情報処理装置。
ユーザから前記キーワードの設定を受け付けるキーワード設定部をさらに備える、請求項１に記載の情報処理装置。
請求項１乃至７のいずれかに記載の情報処理装置によって適応されたキーワードモデルを用いてキーワード検出を行う、キーワード検出装置。
情報処理装置が実行する情報処理方法であって、
音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第１の学習データを取得することと、
前記第１の学習データを用いて、前記音声特徴量の入力に対して前記正解音素ラベルを出力するように音響モデルを学習させることと、
あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、および前記キーワードに含まれる音素のうちの少なくとも１つの音声特徴量を含む第２の学習データを、前記第１の学習データから抽出することと、
前記第２の学習データを用いて、学習済みの前記音響モデルを前記キーワードの検出に係るキーワードモデルに適応させることと、
を備える情報処理方法。
請求項１乃至７のいずれかに記載の情報処理装置の各部による処理をプロセッサに実行させる命令を備えるプログラム。