JP7044856B2

JP7044856B2 - 増強された一貫性正規化を利用した音声認識モデル学習方法およびシステム

Info

Publication number: JP7044856B2
Application number: JP2020205566A
Authority: JP
Inventors: ヒスキム; ジファンバン; ヨンジュンユ; ジョンウハ
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-09-02
Filing date: 2020-12-11
Publication date: 2022-03-30
Anticipated expiration: 2040-12-11
Also published as: KR20220030120A; JP2022042460A; KR102409873B1

Description

特許法第３０条第２項適用令和２年６月１９日にホームページにおいて「ＥｆｆｉｃｉｅｎｔＡｃｔｉｖｅＬｅａｒｎｉｎｇｆｏｒＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｖｉａＡｕｇｍｅｎｔｅｄＣｏｎｓｉｓｔｅｎｃｙＲｅｇｕｌａｒｉｚａｔｉｏｎ」について公開

本開示は音声認識モデル学習方法およびシステムに関し、具体的には増強された一貫性正規化を利用した効率的な漸進的音声認識モデル学習方法およびシステムに関する。

人工知能技術およびＩｏＴ（ＩｎｔｅｒｎｅｔＯｖｅｒＴｈｉｎｇｓ）技術の急激な発展により、使用者の音声要請に対応する特定サービスを使用者に提供する知能型個人またはバーチャル秘書（ＩｎｔｅｌｌｉｇｅｎｔＰｅｒｓｏｎａｌＡｓｓｉｓｔａｎｔ）を搭載した人工知能スピーカー、スマートフォンなどのような端末が広く利用されている。このような知能型個人秘書は人工知能音声認識技術を利用して使用者の音声命令を認識し、音声命令に対応するサービスを提供している。例えば、人工知能スピーカーは使用者の音声命令を通じて電話をかけることができることは言うまでもなく、特定のアプリケーションを実行したり、天気情報を提供したり、インターネット検索を通じての情報を提供するなどのサービスを提供することができる。

このような音声認識サービスの品質を向上させるためには、数多くの学習データを利用して音声認識モデルをアップデートし続けなければならない。従来の技術では、音声認識モデルを学習するためにヒューマンアノテーター（ｈｕｍａｎａｎｎｏｔａｔｏｒ）が直接数多くの音声サンプルに対して正解ラベルを決定しなければならないため、多くの費用がかかるという問題がある。

韓国公開特許公報第１０－２０１６－００３２５３６号

本開示は前記のような問題を解決するための音声認識モデル学習方法、コンピュータプログラムおよび装置（システム）を提供する。

本開示は方法、装置（システム）またはコンピュータプログラムを含んだ多様な方式で具現化され得る。

本開示の一実施例によると、少なくとも一つのプロセッサによって遂行される音声認識モデル学習方法は、ラベルが割当されていない複数の音声サンプルを受信する段階、音声認識モデルを利用して複数の音声サンプルからヒューマンラベリング（ｈｕｍａｎｌａｂｅｌｉｎｇ）のための第１セットの音声サンプルを抽出する段階、第１セットの音声サンプルと対応する第１セットのラベルを受信する段階、音声認識モデルを利用して複数の音声サンプルからマシンラベリング（ｍａｃｈｉｎｅｌａｂｅｌｉｎｇ）のための第２セットの音声サンプルを抽出する段階、音声認識モデルを利用して第２セットの音声サンプルと対応する第２セットのラベルを決定する段階、第２セットの音声サンプルを増強（ａｕｇｍｅｎｔ）する段階および第１セットの音声サンプル、第１セットのラベル、増強された第２セットの音声サンプルおよび第２セットのラベルに基づいて半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行して音声認識モデルをアップデートする段階を含む。

本開示の一実施例に係る音声認識モデル学習方法をコンピュータで実行するためのコンピュータプログラムが提供される。

本開示の一実施例に係る音声認識モデル学習システムは、通信モジュール、メモリ、およびメモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含む。少なくとも一つのプログラムは、ラベリングされていない複数の音声サンプルを受信し、音声認識モデルを利用して複数の音声サンプルからヒューマンラベリングのための第１セットの音声サンプルを抽出し、第１セットの音声サンプルと対応する第１セットのラベルを受信し、音声認識モデルを利用して複数の音声サンプルからマシンラベリングのための第２セットの音声サンプルを抽出し、音声認識モデルを利用して第２セットの音声サンプルと対応する第２セットのラベルを決定し、第２セットの音声サンプルを増強し、第１セットの音声サンプル、第１セットのラベル、増強された第２セットの音声サンプル、および第２セットのラベルに基づいて半教師あり学習を遂行して音声認識モデルをアップデートするための命令語を含む。

本開示の多様な実施例で、音声認識モデルを学習するために人間が直接テキストシーケンスに転写しなければならない音声サンプルの数を減らして、費用は節減しつつ音声認識モデルの性能の低下が殆どないようにすることができる。具体的には、ラベリング費用を２／３ほど節減しつつ文字水準エラー率（ｃｈａｒａｃｔｅｒ－ｌｅｖｅｌｅｒｒｏｒｒａｔｅ；ＣＥＲ）は約０．２６％ｐだけ増加（すなわち、性能低下）し、ラベリング費用を約６／７ほど節減しつつＣＥＲは約１．０８％ｐだけ増加することが可能である。

本開示の多様な実施例で音声サンプルに対するテキストシーケンスの結合確率を考慮した不確実性スコアを算出することができ、不確実性スコアを基準として音声認識モデルの学習に有用なサンプル（ｉｎｆｏｒｍａｔｉｖｅｓａｍｐｌｅ）を抽出することができる。

本開示の多様な実施例で音声サンプルに含まれた言語情報を損傷させることなく音声サンプルを増強（ａｕｇｍｅｎｔ）することができ、このような音声サンプルの増強は音声認識モデル学習の効率性を向上させることができる。また、増強された音声サンプルを利用して音声認識モデルの強靭性を向上させることができる。

本開示の実施例は、以下で説明する添付図面を参照して説明され、ここで類似する参照番号は類似する要素を示すが、これに限定されない。
使用者が音声命令を通じて使用者端末からサービスを提供してもらう例示を示す図面である。本開示の一実施例に係る音声認識サービスを提供して音声認識モデルを学習するために、情報処理システムが複数の使用者端末と通信可能なように連結された構成を示す概要図である。本開示の一実施例に係る使用者端末および情報処理システムの内部構成を示すブロック図である。本開示の一実施例に係る音声サンプルに対するラベリング作業を通じてＨＬＳデータベース（ＤＢ）およびＭＬＳＤＢを構築する例示を示す図面である。本開示の一実施例に係る初期音声認識モデル生成方法を示すフローチャートである。本開示の一実施例に係る漸進的音声認識モデル学習方法を示すフローチャートである。本開示の一実施例に係る音声認識モデルを生成、アップデート、そして、テストするための音声サンプルの例示を示す図面である。ヒューマンラベリングのための音声サンプルを抽出する方式による音声認識モデルの性能差を示すグラフである。本開示の音声サンプル増強方式による音声認識モデルの性能の差を示すグラフである。本開示の一実施例により音声認識モデルを何回もアップデートする場合、学習回次と音声認識モデルの性能の関係を示すグラフである。

以下、本開示の実施のための具体的な内容を添付された図面を参照して詳細に説明する。ただし、以下の説明では本開示の要旨を不要に曖昧にさせ得る恐れがある場合、広く知られている機能や構成に関する具体的な説明は省略することにする。

添付された図面で、同一または対応する構成要素には同じ参照符号が付与されている。また、以下の実施例の説明において、同一または対応する構成要素を重複して記述することが省略され得る。しかし、構成要素に関する技術が省略されても、そのような構成要素がある実施例に含まれないものと意図しない。

開示された実施例の利点および特徴、そして、それらを達成する方法は添付される図面とともに後述されている実施例を参照すると明確になるであろう。しかし、本開示は以下で開示される実施例に限定されるものではなく互いに異なる多様な形態で具現化され得、ただし本実施例は本開示を完全なものとし、本開示が通常の技術者に発明の範疇を完全に知らせるために提供されるものに過ぎない。

本明細書で使われる用語について簡略に説明し、開示された実施例について具体的に説明する。本明細書で使われる用語は本開示での機能を考慮しつつ、可能な限り現在広く使われる一般的な用語を選択したが、これは関連分野に従事する技術者の意図または判例、新しい技術の出現などにより変わり得る。また、特定の場合には出願人が任意に選定した用語もあり、この場合、該当する発明の説明の部分で詳細にその意味を記載するであろう。したがって、本開示で使われる用語は単なる用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。

本明細書での単数の表現は文脈上明白に単数であると特定しない限り、複数の表現を含む。また、複数の表現は文脈上明白に複数であると特定しない限り、単数の表現を含む。明細書全体で、ある部分がある構成要素を含むとする場合に、これは特に反対の記載がない限り、他の構成要素を除くのではなく他の構成要素をさらに含む可能性があることを意味する。

また、明細書で使われる「モジュール」または「ユニット」という用語はソフトウェアまたはハードウェア構成要素を意味し、「モジュール」または「ユニット」はある役割を遂行する。しかし、「モジュール」または「ユニット」はソフトウェアまたはハードウェアに限定される意味ではない。「モジュール」または「ユニット」はアドレッシング（アドレス指定）できる保存媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「モジュール」または「ユニット」はソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイまたは変数のうち少なくとも一つを含むことができる。構成要素と「モジュール」または「ユニット」は中で提供される機能は、さらに小さい数の構成要素および「モジュール」または「ユニット」に結合されたり、追加的な構成要素と「モジュール」または「ユニット」にさらに分離されたりし得る。

本開示の一実施例によると、「モジュール」または「ユニット」はプロセッサおよびメモリで具現化され得る。「プロセッサ」は汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロ・プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境で、「プロセッサ」は特定用途向け半導体（ＡＳＩＣ）、プログラム可能ロジックデバイス（ＰＬＤ）、フィールドプログラム可能ゲートアレイ（ＦＰＧＡ）等を指称することもある。「プロセッサ」とは、例えば、ＤＳＰとマイクロ・プロセッサの組み合わせ、複数のマイクロ・プロセッサの組み合わせ、ＤＳＰコアと結合した一つ以上のマイクロ・プロセッサの組み合わせ、または任意の他のそのような構成の組み合わせと同じ処理デバイスの組み合わせを指称することもある。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は任意のアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、不揮発性の任意のアクセスメモリ（ＮＶＲＡＭ）、プログラム可能読み取り専用メモリ（ＰＲＯＭ）、消去可能なプログラム可能読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光学データ保存装置、レジスタなどのようなプロセッサ読み取り可能媒体の多様な類型を指称することもある。プロセッサがメモリから情報を読み取り／読み取ったメモリに情報を記録できるのであれば、メモリはプロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。

本開示で「音声認識モデル」はスピーチ（ｓｐｅｅｃｈ）データを入力すると、入力された音声に含まれた言語情報に対応するテキストデータを出力するモデルを指称し得る。すなわち、音声認識モデルはＳＴＴ（Ｓｐｅｅｃｈ－ｔｏ－Ｔｅｘｔ）技術を具現化することができる。本開示の一実施例において、音声認識モデルは学習データを利用して教師あり学習、教師なし学習または半教師あり学習を遂行することによって生成またはアップデートされる人工ニューラルネットワークモデルに該当し得る。例えば、音声認識モデルはＬｉｓｔｅｎ、ＡｔｔｅｎｄａｎｄＳｐｅｌｌ（ＬＡＳ）基盤のＥ２Ｅ－ＡＳＲ（Ｅｎｄ－ｔｏ－ＥｎｄＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）モデルであり得る。

本開示で「音声サンプル」は音声認識モデルを学習、アップデート、そして、テストするために収集した使用者のスピーチ（ｓｐｅｅｃｈ）データを指称し得る。音声サンプルは収集されたデータを前処理して一定のフォーマットで加工したものであり得る。例えば、音声サンプルは収集した使用者のスピーチデータから、２００ｍｓのウィンドウの長さ（ｗｉｎｄｏｗ－ｌｅｎｇｔｈ）と１００ｍｓのストライドの長さ（ｓｔｒｉｄｅ－ｌｅｎｇｔｈ）を有するハミングウインドウ（ｈａｍｍｉｎｇｗｉｎｄｏｗ）を利用して抽出したスペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍ）を含むことができる。

本開示で「ラベル」は音声サンプルに対応するテキストシーケンスを指称し得る。例えば、ラベルは音声サンプルに含まれた言語情報、言語学的意味をテキストに転写（ｔｒａｎｓｃｒｉｂｅ）したものであり得る。ラベルは音声サンプルが音声認識モデルに入力される時に出力される疑似ラベル（ｐｓｅｕｄｏｌａｂｅｌ）とヒューマンアノテーター（ｈｕｍａｎａｎｎｏｔａｔｏｒ）が音声サンプルに対して転写した正解ラベルを含むことができる。

図１は、使用者１１０が音声命令を通じて使用者端末１２０からサービスを提供してもらう例示を示す図面である。一実施例において、使用者端末１２０はマイクなどの入力装置を通じて使用者１１０から音声命令を受信することができる。この場合、使用者端末１２０は受信された音声命令を音声認識モデルを利用して認識し、認識された音声命令に対応する情報および／またはサービスを使用者１１０に提供することができる。図示された通り、使用者１１０が「今日の天気教えて」という音声命令を発話する場合、使用者端末１２０は該当音声命令を自動で認識し、今日の天気予報をスピーカーなどを通じて出力することができる。

使用者端末１２０は使用者１１０が発話する音声命令を認識し、音声命令に対応するサービス／情報を提供するように構成された任意の装置であり得る。例えば、使用者端末１２０は音声検索サービス、人工知能（ＡＩ、ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）秘書サービス、地図ナビゲーション（Ｎａｖｉｇａｔｉｏｎ）サービス、セットトップボックス（ｓｅｔ－ｔｏｐｂｏｘ）制御サービスなどのサービスを提供することができる。図１では使用者端末１２０が人工知能スピーカーとして図示されたが、これに限定されず、音声命令を認識しそれに対応するサービスを提供できる任意の装置であり得る。

使用者１１０の音声命令を認識するために、使用者端末１２０は機械学習などを通じて生成された音声認識モデルを利用することができる。このような音声認識モデルは音声認識の正確度を高めるために、反復的な／漸進的な学習を通じてアップデートされ得る。人が音声サンプルを聴取して直接正解ラベルを生成したヒューマンラベルドサンプル（ＨｕｍａｎＬａｂｅｌｅｄＳａｍｐｌｅ；ＨＬＳ）をできるだけ多く使うことによって音声認識モデル性能を最大化することができるが、ラベリング費用の限界によりＨＬＳのみを利用した音声認識モデル学習方法は現実的に困難である。特に、音声サンプルをラベリングする作業、すなわち、人が音声サンプルを聞いて転写する作業はイメージをラベリングする作業よりはるかに高い費用が要求されるため、ヒューマンラベリング費用を最小化しつつ音声認識性能を最大化できる機械学習方式が要求される。

一実施例において、ＨＬＳを最小化するために半教師あり学習（Ｓｅｍｉ－ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ；ＳＳＬ）と能動学習（ＡｃｔｉｖｅＬｅａｒｎｉｎｇ；ＡＬ）をつなぎ合わせ、ラベルが割当されていない音声サンプルを利用して学習効率性をさらに向上させるために一貫性正規化（ＣｏｎｓｉｓｔｅｎｃｙＲｅｇｕｌａｒｉｚａｔｉｏｎ；ＣＲ）技法を使うことができる。具体的には、ラベルが割当されていない音声サンプルプールから不確実性スコアが最も高い（すなわち、音声認識モデルの信頼度が最も低い）ｎ個の音声サンプルを抽出してヒューマンラベリング作業を遂行することによって、複数のＨＬＳを準備することができる。ここで、ｎは自然数であり、ヒューマンラベリング費用の予算に応じて決定され得る。また、ラベルが割当されていない音声サンプルプールに残っている音声サンプルのうち、不確実性スコアがあらかじめ定められた臨界値未満（すなわち、音声認識モデルの信頼度が臨界値超過）の音声サンプルを抽出してマシンラベリング作業を遂行し、音声サンプルを増強することによって複数のマシンラベルドサンプル（ＭａｃｈｉｎｅＬａｂｅｌｅｄＳａｍｐｌｅ；ＭＬＳ）を準備することができる。そして、音声認識モデルはＨＬＳとＭＬＳを共に使って学習／アップデートされ得る。ここで、ＭＬＳは音声認識モデルを学習／アップデートするのにＨＬＳを補助する役割を遂行することができる。

図２は、本開示の一実施例に係る音声認識サービスを提供して音声認識モデルを学習するために、情報処理システム２３０が複数の使用者端末２１０＿１、２１０＿２、２１０＿３と通信可能なように連結された構成を示す概要図である。情報処理システム２３０はネットワーク２２０を通じて音声認識基盤サービスを提供できるシステムおよび／または音声認識モデルを学習できるシステムを含むことができる。一実施例において、情報処理システム２３０は音声認識基盤サービスまたは音声認識モデル学習に関連したコンピュータ遂行可能なプログラム（例えば、ダウンロード可能なアプリケーション）およびデータを保存、提供および遂行できる一つ以上のサーバー装置および／またはデータベース、またはクラウドコンピューティングサービス基盤の一つ以上の分散コンピューティング装置および／または分散データベースを含むことができる。情報処理システム２３０により提供される音声認識基盤サービスは、複数の使用者端末２１０＿１、２１０＿２、２１０＿３のそれぞれに設置された音声検索アプリケーション、人工知能秘書アプリケーションなどを通じて使用者に提供され得る。例えば、情報処理システム２３０は音声検索アプリケーション、人工知能秘書アプリケーションなどを通じて使用者から入力される音声命令に対応する情報を提供したり対応する処理を遂行したりすることができる。追加的に、情報処理システム２３０は音声認識モデルを学習／アップデートするために、複数の使用者端末２１０＿１、２１０＿２、２１０＿３から音声サンプルを収集することができる。

複数の使用者端末２１０＿１、２１０＿２、２１０＿３はネットワーク２２０を通じて情報処理システム２３０と通信することができる。ネットワーク２２０は複数の使用者端末２１０＿１、２１０＿２、２１０＿３と情報処理システム２３０の間の通信が可能なように構成され得る。ネットワーク２２０は設置環境により、例えば、イーサネット（Ｅｔｈｅｒｎｅｔ）、有線ホームネットワーク（ＰｏｗｅｒＬｉｎｅＣｏｍｍｕｎｉｃａｔｉｏｎ）、電話線通信装置およびＲＳ－ｓｅｒｉａｌ通信などの有線ネットワーク、移動通信網、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）およびＺｉｇＢｅｅ（登録商標）などのような無線ネットワークまたはその組み合わせで構成され得る。通信方式は制限されず、ネットワーク２２０が含むことができる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を活用する通信方式だけでなく、使用者端末２１０＿１、２１０＿２、２１０＿３の間の近距離無線通信も含まれ得る。

図２で携帯電話端末２１０＿１、タブレット端末２１０＿２およびＰＣ端末２１０＿３が使用者端末の例として図示されたが、これに限定されず、使用者端末２１０＿１、２１０＿２、２１０＿３は有線および／または無線通信が可能で音声基盤サービスアプリケーション、検索アプリケーション、ウェブブラウザアプリケーションなどが設置されて遂行され得る任意のコンピューティング装置であり得る。例えば、使用者端末は、ＡＩスピーカー、スマートフォン、携帯電話、ナビゲーション、コンピュータ、ノートパソコン、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットＰＣ、ゲームコンソール（ｇａｍｅｃｏｎｓｏｌｅ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、ＩｏＴ（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ）デバイス、ＶＲ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ）デバイス、ＡＲ（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）デバイス、セットトップボックスなどを含むことができる。また、図２には３個の使用者端末２１０＿１、２１０＿２、２１０＿３がネットワーク２２０を通じて情報処理システム２３０と通信するものとして図示されているが、これに限定されず、異なる数の使用者端末がネットワーク２２０を通じて情報処理システム２３０と通信するように構成されてもよい。

図３は、本開示の一実施例に係る使用者端末２１０および情報処理システム２３０の内部構成を示すブロック図である。使用者端末２１０は音声基盤サービスアプリケーションなどが実行可能であり、有線／無線通信が可能な任意のコンピューティング装置を指称し得、例えば、図２の携帯電話端末２１０＿１、タブレット端末２１０＿２、ＰＣ端末２１０＿３等を含むことができる。図示された通り、使用者端末２１０はメモリ３１２、プロセッサ３１４、通信モジュール３１６および入出力インターフェース３１８を含むことができる。これと同様に、情報処理システム２３０はメモリ３３２、プロセッサ３３４、通信モジュール３３６および入出力インターフェース３３８を含むことができる。図３に図示された通り、使用者端末２１０および情報処理システム２３０は、それぞれの通信モジュール３１６、３３６を利用してネットワーク２２０を通じて情報および／またはデータを通信できるように構成され得る。また、入出力装置３２０は入出力インターフェース３１８を通じて使用者端末２１０に情報および／またはデータを入力したり、使用者端末２１０から生成された情報および／またはデータを出力したりするように構成され得る。

メモリ３１２、３３２は非一過性の任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によると、メモリ３１２、３３２は、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ディスクドライブ、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのような非消滅性大容量保存装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含むことができる。他の例として、ＲＯＭ、ＳＳＤ、フラッシュメモリ、ディスクドライブなどのような非消滅性大容量保存装置はメモリとは区分される別途の永久保存装置であって、使用者端末２１０または情報処理システム２３０に含まれ得る。また、メモリ３１２、３３２には運営体制（Operating System）と少なくとも一つのプログラムコード（例えば、使用者端末２１０に設置されて駆動される音声基盤サービスアプリケーションなどのためのコード）が保存され得る。

このようなソフトウェア構成要素はメモリ３１２、３３２とは別途のコンピュータで読み取り可能な記録媒体からローディングされ得る。このような別途のコンピュータで読み取り可能な記録媒体はこのような使用者端末２１０および情報処理システム２３０に直接連結可能な記録媒体を含むことができるが、例えば、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素はコンピュータで読み取り可能な記録媒体ではない通信モジュールを通じてメモリ３１２、３３２にローディングされ得る。例えば、少なくとも一つのプログラムは開発者またはアプリケーションの設置ファイルを配布するファイル配布システムがネットワーク２２０を通じて提供するファイルによって設置されるコンピュータプログラムに基づいてメモリ３１２、３３２にローディングされ得る。

プロセッサ３１４、３３４は基本的な算術、ロジックおよび入出力演算を遂行することによって、コンピュータプログラムの命令を処理するように構成され得る。命令はメモリ３１２、３３２または通信モジュール３１６、３３６によりプロセッサ３１４、３３４で提供され得る。例えば、プロセッサ３１４、３３４はメモリ３１２、３３２のような記録装置に保存されたプログラムコードにより受信される命令を遂行するように構成され得る。

通信モジュール３１６、３３６はネットワーク２２０を通じて使用者端末２１０と情報処理システム２３０が互いに通信するための構成または機能を提供することができ、使用者端末２１０および／または情報処理システム２３０が他の使用者端末または他のシステム（一例として別途のクラウドシステムなど）と通信するための構成または機能を提供することができる。一例として、使用者端末２１０のプロセッサ３１４がメモリ３１２などのような記録装置に保存されたプログラムコードにより生成した要請またはデータ（例えば、使用者の音声命令に対応するデータなど）は、通信モジュール３１６の制御によりネットワーク２２０を通じて情報処理システム２３０に伝達され得る。逆に、情報処理システム２３０のプロセッサ３３４の制御により提供される制御信号や命令が、通信モジュール３３６とネットワーク２２０を経て使用者端末２１０の通信モジュール３１６を通じて使用者端末２１０に受信され得る。例えば、使用者端末２１０は情報処理システム２３０から通信モジュール３１６を通じて音声命令と関連した情報などを受信することができる。

入出力インターフェース３１８は入出力装置３２０とのインターフェースのための手段であり得る。一例として、入力装置はオーディオセンサおよび／またはイメージセンサを含んだカメラ、キーボード、マイクロホン、マウスなどの装置を、そして、出力装置はディスプレイ、スピーカー、ハプティックフィードバックデバイス（ｈａｐｔｉｃｆｅｅｄｂａｃｋｄｅｖｉｃｅ）などのような装置を含むことができる。他の例において、入出力インターフェース３１８はタッチスクリーンなどのように入力と出力を遂行するための構成または機能が一つに統合された装置とのインターフェースのための手段であり得る。例えば、使用者端末２１０のプロセッサ３１４がメモリ３１２にローディングされたコンピュータプログラムの命令を処理する場合において、情報処理システム２３０や他の使用者端末が提供する情報および／またはデータを利用して構成されるサービス画面などが、入出力インターフェース３１８を通じてディスプレイに表示され得る。図３では入出力装置３２０が使用者端末２１０に含まれないように図示されているが、これに限定されず、使用者端末２１０と一つの装置で構成され得る。また、情報処理システム２３０の入出力インターフェース３３８は情報処理システム２３０と連結されたり、情報処理システム２３０が含むことができる入力または出力のための装置（図示されず）とのインターフェースのための手段であり得る。図３では入出力インターフェース３１８、３３８がプロセッサ３１４、３３４と別途に構成された要素として図示されたが、これに限定されず、入出力インターフェース３１８、３３８がプロセッサ３１４、３３４に含まれるように構成され得る。

使用者端末２１０および情報処理システム２３０は図３の構成要素より多くの構成要素を含むことができる。しかし、多くの従来技術的構成要素を明確に図示する必要はない。一実施例によると、使用者端末２１０は前述された入出力装置３２０のうち少なくとも一部を含むように具現化され得る。また、使用者端末２１０はトランシーバー（ｔｒａｎｓｃｅｉｖｅｒ）、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含むことができる。例えば、使用者端末２１０がスマートフォンである場合、一般的にスマートフォンが含んでいる構成要素を含むことができ、例えば、加速度センサ、ジャイロセンサ、カメラモジュール、各種物理的なボタン、タッチパネルを利用したボタン、入出力ポート、振動のための振動器などの多様な構成要素が使用者端末２１０にさらに含まれるように具現化され得る。

一実施例によると、使用者端末２１０のプロセッサ３１４は音声基盤サービスを提供するアプリケーションなどが動作するように構成され得る。この時、該当アプリケーションおよび／またはプログラムと関連したコードが使用者端末２１０のメモリ３１２にローディングされ得る。アプリケーションおよび／またはプログラムが動作する間に、使用者端末２１０のプロセッサ３１４は入出力装置３２０から提供された情報および／またはデータを入出力インターフェース３１８を通じて受信したり通信モジュール３１６を通じて情報処理システム２３０から情報および／またはデータを受信したりすることができ、受信された情報および／またはデータを処理してメモリ３１２に保存することができる。また、このような情報および／またはデータは通信モジュール３１６を通じて情報処理システム２３０に提供することができる。

音声基盤サービスアプリケーションなどのためのプログラムが動作する間に、プロセッサ３１４は入出力インターフェース３１８と連結されたタッチスクリーン、キーボード、オーディオセンサおよび／またはイメージセンサを含んだカメラ、マイクロホンなどの入力装置を通じて入力されたり選択されたテキスト、イメージ、映像、音声などを受信することができ、受信されたテキスト、イメージ、映像および／または音声などをメモリ３１２に保存したり通信モジュール３１６およびネットワーク２２０を通じて情報処理システム２３０に提供することができる。一実施例において、プロセッサ３１４は入力装置を通じて音声基盤サービスアプリケーション上で使用者によって入力された音声命令関連データをネットワーク２２０および通信モジュール３１６を通じて情報処理システム２３０に提供することができる。情報処理システム２３０のプロセッサ３３４は複数の使用者端末および／または複数の外部システムから受信された情報および／またはデータを管理、処理および／または保存するように構成され得る。一実施例において、情報処理システム２３０は使用者端末２１０から受信した音声命令関連データに対応する情報を使用者端末２１０に提供することができる。追加的に、情報処理システム２３０は使用者端末２１０からラベルが割当されていない音声サンプルを収集することができる。

図４は、本開示の一実施例に係る音声サンプル４１０に対するラベリング作業を通じてＨＬＳデータベース（ＤＢ）４６０およびＭＬＳＤＢ４７０を構築する例示を示す図面である。情報処理システムのプロセッサは使用者端末からラベルが割当されていない音声サンプル４１０を収集することができる。収集された音声サンプル４１０はラベルが割当されていない音声サンプルＤＢ４２０に保存され得る。収集されたすべての音声サンプルに対してヒューマンラベリングを遂行することは多くの費用が要求されるため、プロセッサは音声認識モデル４４０を利用して音声サンプル４１０からヒューマンラベリングを遂行するための音声サンプルを抽出することができる。

プロセッサは音声サンプル４１０のうち音声認識モデル４４０の学習に有用なサンプル（ｉｎｆｏｒｍａｔｉｖｅｓａｍｐｌｅ）を選択するために、不確実性基盤のＡＬ（ｕｎｃｅｒｔａｉｎｔｙ－ｂａｓｅｄＡＬ）を使うことができる。具体的には、プロセッサはそれぞれの音声サンプルの不確実性スコアに基づいてヒューマンラベリングのための音声サンプル４２２を抽出することができる。一実施例において、プロセッサはあらかじめ生成された音声認識モデル４４０を利用してラベルが割当されていない音声サンプルＤＢ４２０内の音声サンプルの不確実性スコアを算出し、最も高い不確実性スコアを有するｎ個の音声サンプル４２２を抽出することができる。ここで、ｎは自然数であり、ヒューマンラベリング費用の予算に応じて決定され得る。

一実施例において、音声サンプルの不確実性スコアは音声認識モデル４４０により出力されるテキストシーケンスの長さ正規化された結合確率（ｌｅｎｇｔｈ－ｎｏｒｍａｌｉｚｅｄｊｏｉｎｔｐｒｏｂａｂｉｌｉｔｙ）を示すことができる。例えば、音声サンプルの不確実性スコアと信頼度スコアは下記の数式（１）～（３）を利用して算出され得る。

ここで、

は音声サンプルＤＢ４２０内の音声サンプルを示し、

は音声認識モデル４４０により出力されるテキストシーケンス（すなわち、最も可能性が高いデコーディングされたテキスト）を示し、

は出力テキストシーケンスの結合確率を示し、Ｌは出力テキストシーケンスの長さを示し、

は長さ正規化されたログ結合確率を示し、ＮＰは音声サンプルの不確実性スコアを示し、δは音声サンプルの信頼度スコアを示すことができる。前記で確認できるように、長いテキストに対する結合確率が過小評価（ｕｎｄｅｒｅｓｔｉｍａｔｉｎｇ）されることを防止するために、プロセッサは出力テキストの長さに基づいて結合確率を正規化することができる。一実施例において、音声サンプルの不確実性スコアは音声認識モデル４４０が音声サンプルの出力テキストシーケンスをデコーディングする間、音声認識モデル４４０のデコーダの部分で算出され得る。

最も高い不確実性スコア（最も低い信頼度スコア）を有するｎ個の音声サンプル４２２はヒューマンラベリングのために、ヒューマンアノテーター（Ｈｕｍａｎａｎｎｏｔａｔｏｒ）４３０に提供され得る。ヒューマンアノテーター４３０は伝達されたｎ個の音声サンプル４２２を聴取して正解ラベル４３２を生成することができる。正解ラベル４３２は音声サンプル内に含まれたスピーチを転写したテキストシーケンスであり得る。プロセッサは不確実性が高いｎ個の音声サンプル４２２と対応するｎ個の正解ラベル４３２をＨＬＳＤＢ４６０にＨＬＳ（ＨｕｍａｎＬａｂｅｌｅｄＳａｍｐｌｅ）として保存することができる。この時、一つのＨＬＳは音声サンプルと正解ラベルの対で構成され得る。

追加的に、プロセッサはラベルが割当されていない音声サンプルＤＢ４２０からマシンラベリングのための音声サンプル４２４を抽出することができる。不確実性が高い音声サンプル（すなわち、音声認識モデル４４０の信頼度が低いサンプル）を利用してＭＬＳを準備する場合、ＭＬＳが音声認識モデル４４０に誤った情報を提供して音声認識モデル性能をかえって低下させる可能性がある。したがって、プロセッサは音声サンプルＤＢ４２０内の残っている音声サンプルのうち、あらかじめ決定された臨界値以下の不確実性スコア（臨界値以上の信頼度スコア）を有する少なくとも一つの音声サンプルをマシンラベリングのための不確実性が低い音声サンプル４２４として抽出することができる。

不確実性の低い音声サンプル４２４はマシンラベリングのために音声認識モデル４４０に提供され得る。音声認識モデル４４０は伝達された音声サンプル４２４それぞれに対応する疑似ラベル（ｐｓｅｕｄｏｌａｂｅｌ）４４２を予測することができる。疑似ラベルは音声サンプルが音声認識モデル４４０に入力される時、出力されるテキストシーケンスであり得る。

疑似ラベルはＨＬＳに比べて情報が少ないだけでなく雑音も多いことがあるため、ＨＬＳと同じ方式でＭＬＳを処理する場合、音声認識モデル４４０の学習／アップデートに役に立たないか、かえって誤った情報を提供して音声認識モデル４４０の性能を阻害し得る。これを防止するために、不確実性の低い音声サンプル４２４はデータ増強ユニット４５０に提供され得る。データ増強ユニット４５０は伝達された音声サンプル４２４を増強（ａｕｇｍｅｎｔ）して増強された音声サンプル４５２を生成することができる。音声サンプルの増強は音声サンプルに歪曲、ノイズなどを追加することを意味し得る。イメージサンプルの増強とは異なり、音声サンプルに含まれた言語情報は歪曲、ノイズなどに非常に脆弱であるため、音声サンプル内の言語情報は歪曲、ノイズなどによって容易に損傷され得る。したがって、音声サンプル増強プロセスは、歪曲、ノイズなどが追加されても音声サンプル内の言語学的意味が変更されないように慎重に設計されなければならない。

一実施例によると、データ増強ユニット４５０は音声サンプル４２４に対してピッチシフティング（ｐｉｔｃｈｓｈｉｆｔｉｎｇ）を遂行することができる。代案として、データ増強ユニット４５０は音声サンプル４２４に対してタイムスケーリング（ｔｉｍｅｓｃａｌｉｎｇ）を遂行することができる。代案として、データ増強ユニット４５０は音声サンプル４２４に加算性白色ガウシアンノイズ（ＡｄｄｉｔｉｖｅＷｈｉｔｅＧａｕｓｓｉａｎＮｏｉｓｅ）を追加することができる。プロセッサは増強された音声サンプル４５２と対応する疑似ラベル４４２をＭＬＳＤＢ４７０にＭＬＳ（ＭａｃｈｉｎｅＬａｂｅｌｅｄＳａｍｐｌｅ）として保存することができる。この時、一つのＭＬＳは増強された音声サンプルと疑似ラベルの対で構成され得る。

プロセッサはＨＬＳＤＢ４６０内のＨＬＳとＭＬＳＤＢ４７０内のＭＬＳを使って音声認識モデル４４０をアップデートすることができる。一実施例によると、プロセッサはＨＬＳＤＢ４６０に保存された音声サンプル－正解ラベル対と、ＭＬＳＤＢ４７０に保存された増強された音声サンプル－疑似ラベル対に基づいて半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行して音声認識モデル４４０をアップデートすることができる。ＨＬＳとＭＬＳをすべて利用して音声認識モデル４４０をアップデートすることによって、音声認識モデル４４０の強靭性（ｒｏｂｕｓｔｎｅｓｓ）を向上させることができる。

一実施例によると、プロセッサは音声認識モデル４４０により予測される音声サンプル４２２と対応する出力データ、そして、音声サンプル４２２の正解ラベル４３２の間の差が最小化されるように音声認識モデル４４０をアップデートすることができる。例えば、音声認識モデル４４０により予測される音声サンプル４２２と対応する出力データと正解ラベル４３２の間の差は、下記のような標準クロス－エントロピー損失関数（ｓｔａｎｄａｒｄｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓｆｕｎｃｔｉｏｎ）により算出され得る。

ここで

は指導損失（ｓｕｐｅｒｖｉｓｅｄｌｏｓｓ：教師あり損失）を示し、Ｂはミニバッチ（ｍｉｎｉ－ｂａｔｃｈ）の大きさを示し、Ｌ_ｎはｎ番目のＨＬＳサンプルの長さを示し、

は正解ラベル４３２を示し、

は音声認識モデル４４０により予測された出力データ（すなわち、音声認識モデル４４０により予測される音声サンプル４２２と対応するテキストシーケンス）を示し、Ｈはクロス－エントロピー（ｃｒｏｓｓ－ｅｎｔｒｏｐｙ）を示す。

また、プロセッサは音声認識モデル４４０により予測される増強された音声サンプル４５２と対応する出力データ、そして、音声サンプル４２４の疑似ラベル４４２の間の差が最小化されるように音声認識モデル４４０をアップデートすることができる。例えば、音声認識モデル４４０により予測される増強された音声サンプル４５２と対応する出力データと音声サンプル４２４の疑似ラベル４４２の間の差は、下記のような標準クロス－エントロピー損失関数によって算出され得る。

は非指導損失（ｕｎｓｕｐｅｒｖｉｓｅｄｌｏｓｓ：教師なし損失）を示し、Ｂはミニバッチ（ｍｉｎｉ－ｂａｔｃｈ）の大きさを示し、Ｌ_ｎはｎ番目のＭＬＳサンプルの長さを示し、Ａは増強関数を示し、

は音声認識モデル４４０により予測される増強された音声サンプル４５２と対応する出力データ（すなわち、音声認識モデル４４０により予測される増強された音声サンプル４５２と対応するテキストシーケンス）を示し、

は疑似ラベル４４２を示し、Ｈはクロス－エントロピー（ｃｒｏｓｓ－ｅｎｔｒｏｐｙ）を示す。

音声認識モデル４４０のアップデートに使われる総損失

は指導損失

と非指導損失

を統合して、下記の数式（６）のように定義され得る。

ここでλは非指導損失の係数値を示すことができる。例えば、λは０と１の間の定数値であり得る。λは半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行して音声認識モデル４４０をアップデートする過程で、信頼できるサンプルであるＨＬＳを使う指導損失に加重値を加えるために使われ得る。プロセッサは総損失

が最小化するように半教師あり学習を遂行することができる。

一実施例において、プロセッサは一定量の音声サンプル４１０がラベルが割当されていない音声サンプルＤＢ４２０に追加されるたびに、前述した流れに沿って新しいＨＬＳとＭＬＳをＨＬＳＤＢ４６０とＭＬＳＤＢ４７０に保存し、ＨＬＳＤＢ４６０内のＨＬＳとＭＬＳＤＢ４７０内のＭＬＳを使って音声認識モデル４４０をアップデートする過程を繰り返すことができる。

図５は、本開示の一実施例に係る初期音声認識モデル生成方法５００を示すフローチャートである。一実施例において、初期音声認識モデルを生成する方法５００はプロセッサ（例えば、情報処理システムの少なくとも一つのプロセッサ）により遂行され得る。図示された通り、初期音声認識モデルを生成する方法５００はプロセッサがラベルが割当されていない複数の音声サンプルを受信することによって開始され得る（Ｓ５１０）。その後、プロセッサはヒューマンアノテーターからラベルが割当されていない複数の音声サンプルそれぞれに対する正解ラベルを受信することができる（Ｓ５２０）。

その後、プロセッサは段階（Ｓ５１０）で受信した音声サンプルおよび段階（Ｓ５２０）で受信した正解ラベルのペアに基づいて、初期音声認識モデルを生成することができる（Ｓ５３０）。すなわち、プロセッサはＨＬＳを利用して人工ニューラルネットワークモデルの教師あり学習を遂行することによって初期音声認識モデルを生成することができる。ここで、一つのＨＬＳは音声サンプルと正解ラベルの対で構成され得る。

図６は、本開示の一実施例に係る漸進的音声認識モデル学習方法６００を示すフローチャートである。一実施例において、音声認識モデルを学習する方法６００はプロセッサ（例えば、情報処理システムの少なくとも一つのプロセッサ）により遂行され得る。図示された通り、音声認識モデルを学習する方法６００はプロセッサがラベルが割当されていない複数の音声サンプルを受信することによって開始され得る（Ｓ６１０）。複数の音声サンプルは音声認識サービスを提供する間に使用者端末から収集された音声サンプルであり得る。

複数の音声サンプルを受信することに応答して、プロセッサは音声認識モデルを利用して複数の音声サンプルからヒューマンラベリングのための第１セットの音声サンプルを抽出することができる（Ｓ６２０）。一実施例において、プロセッサは音声認識モデルを利用して複数の音声サンプルそれぞれの不確実性スコアを算出し、複数の音声サンプルのうち最も高い不確実性スコアを有するあらかじめ決定された個数の音声サンプルを第１セットの音声サンプルとして抽出することができる。ここで、不確実性スコアは音声認識モデルによって出力されるテキストシーケンスの長さ正規化された結合確率を示すことができる。

その後、プロセッサは第１セットの音声サンプルと対応する第１セットのラベルを受信することができる（Ｓ６３０）。ここで、第１セットのラベルは人によって生成された正解ラベルであり得る。プロセッサは第１セットの音声サンプルと第１セットのラベルをＨＬＳで保存することができる。

また、プロセッサは音声認識モデルを利用して複数の音声サンプルからマシンラベリングのための第２セットの音声サンプルを抽出することができる（Ｓ６４０）。一実施例において、プロセッサは複数の音声サンプルのうちあらかじめ決定された臨界値以下の不確実性スコアを有する少なくとも一つの音声サンプルを第２セットの音声サンプルとして抽出することができる。ヒューマンラベリングのための第１セットの音声サンプルの数はマシンラベリングのための第２セットの音声サンプルの数より少なくてもよい。

その後、プロセッサは音声認識モデルを利用して第２セットの音声サンプルと対応する第２セットのラベルを決定することができる（Ｓ６５０）。ここで、第２セットのラベルは音声認識モデルによって予測された疑似ラベルであり得る。

また、プロセッサは第２セットの音声サンプルを増強することができる（Ｓ６６０）。一実施例において、プロセッサは第２セットの音声サンプルに対してピッチシフティングを遂行することができる。他の実施例において、プロセッサは第２セットの音声サンプルに対してタイムスケーリングを遂行することができる。さらに他の実施例において、プロセッサは第２セットの音声サンプルに加算性白色ガウシアンノイズを追加することができる。プロセッサは増強された第２セットの音声サンプルと第２セットのラベルをＭＬＳで保存することができる。

その後、プロセッサは第１セットの音声サンプル、第１セットのラベル、増強された第２セットの音声サンプルおよび第２セットのラベルに基づいて半教師あり学習を遂行して音声認識モデルをアップデートすることができる（Ｓ６７０）。一実施例において、プロセッサは音声認識モデルによって予測される第１セットの音声サンプルと対応する第１セットの出力データ、そして、第１セットのラベルの間の差が最小化されるように音声認識モデルをアップデートすることができる。追加的に、プロセッサは音声認識モデルによって予測される増強された第２セットの音声サンプルと対応する第２セットの出力データ、そして、第２セットのラベルの間の差が最小化されるように音声認識モデルをアップデートすることができる。ここで、第１セットの出力データと第１セットのラベルの間の差、そして、第２セットの出力データと第２セットのラベルの間の差は、標準クロス－エントロピー損失関数によって算出され得る。図示された通り、プロセッサはＳ６１０～Ｓ６７０を繰り返し遂行することによって、音声認識モデルを漸進的に学習／アップデートすることができる。

図７は、本開示の一実施例に係る音声認識モデルを生成、アップデート、そして、テストするための音声サンプル７１０、７２０、７３０の例示を示す図面である。情報処理システムのプロセッサは使用者端末から音声サンプル７１０、７２０、７３０を受信することができる。受信された音声サンプルは初期音声サンプル７１０、後続音声サンプル７２０、そして、テスト用音声サンプル７３０に分類され得る。一実施例において、プロセッサは２００ｍｓのウィンドウの長さ（ｗｉｎｄｏｗ－ｌｅｎｇｔｈ）と１００ｍｓのストライドの長さ（ｓｔｒｉｄｅ－ｌｅｎｇｔｈ）を有するハミングウインドウ（ｈａｍｍｉｎｇｗｉｎｄｏｗ）を利用して、受信された音声サンプルからスペクトログラム（Ｓｐｅｃｔｒｏｇｒａｍ）を抽出することができる。

プロセッサは初期音声サンプル７１０を利用して初期音声認識モデルを生成することができる。一実施例において、プロセッサは初期音声サンプル７１０を利用して図５で前述した初期音声認識モデル生成方法を遂行することによって、初期音声認識モデルを生成することができる。その後、プロセッサは後続音声サンプル７２０を利用して音声認識モデルをアップデートすることができる。一実施例において、プロセッサは後続音声サンプル７２０を利用して図６で前述した音声認識モデル学習方法を遂行することによって、音声認識モデルをアップデートすることができる。例えば、プロセッサは後続音声サンプル７２０を複数の区間（例えば、３０個の区間）に分け、各区間の音声サンプルを利用して音声認識モデルアップデートを何回も（例えば、３０回）遂行することができる。

音声認識モデルの生成およびアップデートが完了した後、プロセッサはテスト用音声サンプル７３０を利用して音声認識モデル性能をテストすることができる。一実施例において、プロセッサはテスト用音声サンプル７３０それぞれをアップデート完了した音声認識モデルに入力し、出力データとヒューマンアノテーターが生成した正解ラベルを比較することによって、音声認識モデル性能をテストすることができる。音声認識モデルの性能は文字水準エラー率（Ｃｈａｒａｃｔｅｒ－ｌｅｖｅｌＥｒｒｏｒＲａｔｅ；ＣＥＲ）で評価され得る。ここで、ＣＥＲは出力データと正解ラベルの間の文字の差に基づいて決定され得る。

一実施例において、初期音声サンプル７１０の数は後続音声サンプル７２０の数より少なくてもよい。例えば、初期音声サンプル７１０は１１０時間の音声サンプルを含み、後続音声サンプル７２０は３８６時間の音声サンプルを含み、テスト用音声サンプル７３０は５６時間の音声サンプルを含むことができる。また、初期音声サンプル７１０は後続音声サンプル７２０より先に収集された音声サンプルであり、後続音声サンプル７２０はテスト用音声サンプル７３０より先に収集された音声サンプルであり得る。このような構成によって、本開示の実施例に係る音声認識モデル学習方法の性能を実際の状況と類似するように評価することができる。このような環境で遂行された本開示の実施例に係る音声認識モデル学習方法の性能評価は、以下で図８～図１０を参照して説明する。性能評価では音声サンプルの信頼度スコア（数式（３）のδ値）が臨界値（τ＝０．９）を超過する音声サンプルを抽出してマシンラベリングを遂行した。また、音声認識モデル学習でＭＬＳの影響を強調するために非指導損失の係数値（λ）を１として使った。

図８は、ヒューマンラベリングのための音声サンプルを抽出する方式による音声認識モデルの性能差を示すグラフである。前述したように、音声認識モデルを学習／アップデートするためにラベルが割当されていない音声サンプルからヒューマンラベリングを遂行するための音声サンプルを抽出することができる。グラフで「ＮＰ」は前述した数式（１）および（２）を利用して音声サンプルの不確実性スコアを算出した場合を示す。グラフで「ＲＮＤ」はヒューマンラベリングを遂行する音声サンプルをランダムに抽出した場合を示す。グラフで「Ｌｏｓｓ」と「ＣＥＲ」は数式（１）～（２）ではない他の方式で不確実性スコアを算出した場合を示す。

それぞれの基準により抽出されるヒューマンラベリングを遂行する音声サンプルの音声認識モデル学習に対する有用性を評価するために、複数の音声サンプルを前述した基準に沿って整列し、５個の音声サンプルセットに分割することができる。例えば、合計３８６．５時間の音声サンプルをそれぞれの基準に沿って整列し、７７．３時間の５個の音声サンプルセットに分割することができる。ここで、「ｓｅｔ１／５」は最も不確実性の高いサンプル（すなわち、音声認識モデル学習に有用なサンプル）を含むセットであり、「ｓｅｔ５／５」は最も不確実性の低いサンプル（すなわち、音声認識モデル学習に有用でないサンプル）を含むセットである。その後、各音声サンプルセットを利用してＨＬＳを準備し、準備されたＨＬＳを利用して教師あり学習を遂行して音声認識モデルを生成することができる。生成された音声認識モデルの性能はＣＥＲ（％）で示すことができる。ここで、ＣＥＲ（％）が低いほど音声認識モデルの性能がよいことを意味し得る。

図示された通り、「ＮＰ」、「Ｌｏｓｓ」、「ＣＥＲ」はそれぞれ「ｓｅｔ１／５」で最小のＣＥＲ（％）値を有し、「ｓｅｔ１／５」で「ＮＰ」が最も小さいＣＥＲ（％）値を有する。また、「ＮＰ」では不確実性スコアが低い（すなわち、信頼度スコアが高い）音声サンプルセットを使うほどＣＥＲ（％）がほぼ単調に（ｍｏｎｏｔｏｎｉｃａｌｌｙ）に増加することを確認することができる。反面「Ｌｏｓｓ」、「ＣＥＲ」では「ＮＰ」とは異なり、各音声サンプルセットに対するＣＥＲ（％）値に対して予想外の変化形態が表れることを確認することができる。これは、「Ｌｏｓｓ」または「ＣＥＲ」方式を利用して音声サンプルの不確実性スコアを算出する場合、音声認識モデルを通じて予測されるテキストシーケンス間の結合確率を考慮せず、正解ラベルと音声認識モデルによって予測されるラベル間の差を測定して不確実性スコアを決定するためである。したがって、ヒューマンラベリングを遂行する音声サンプルを抽出するために、音声サンプルのＮＰ値（前述した数式（１）および（２）を利用して音声サンプルの不確実性スコアを算出することが他の基準で不確実性スコアを算出することより正確で効果的である。

図９は、本開示の音声サンプル増強方式による音声認識モデルの性能の差を示すグラフである。グラフで「ＮｏＣＲ」はデータ増強を遂行していない場合を示し、「ＣＲ－Ｐ」はデータ増強として音声サンプルに対してピッチシフティングを遂行した場合を示し、「ＣＲ－Ａ」はデータ増強として音声サンプルに加算性白色ガウシアンノイズを追加した場合を示し、「ＣＲ－Ｓ」はデータ増強として音声サンプルに対してタイムスケーリングを遂行した場合を示す。例えば、「ＣＲ－Ｐ」は音声サンプルの音程を２．５段階（１段階は一オクターブを８個に分けたもの）シフトしたものを示し、「ＣＲ－Ａ」は音声サンプルにＳＮＲ（Ｓｉｇｎａｌ－ｔｏ－ＮｏｉｓｅＲａｔｉｏ）が５以下である加算性白色ガウシアンノイズを追加したものを示し、「ＣＲ－Ｓ」は音声サンプルの再生速度を１．５倍早くタイムスケーリングしたものを示す。

図９で、ｘ軸はＨＬＳの量（すなわち、音声サンプルの時間）を示し、ｘ軸の「（ＬＵｘｙ）」のｘｙはＨＬＳ（ｘ）とＭＬＳ（ｙ）の比率を示す。例えば、３８．６ｈ（ＬＵ１９）の場合、３８．６時間分量のＨＬＳとＨＬＳの９倍の量のＭＬＳに基づいて半教師あり学習を遂行して音声認識モデルアップデートを進めた場合を示す。図９のグラフは下記の表１と共に分析され得る。表１は各行および各列に対応する条件でアップデートされた音声認識モデルの性能（ＣＥＲ（％））を表す。ここで、ＣＥＲ（％）が低いほど音声認識モデルの性能がよいものと評価することができる。

表１で確認できるように、３８６時間のＨＬＳのみを利用して教師あり学習を通じて生成された音声認識モデルの性能がＣＥＲ＝１０．８９％であって、最も良い。また、表１と図９で確認できるように、ＨＬＳの量が減少し、ＭＬＳの量が増えるほど音声認識モデルの性能がますます悪くなることを確認することができる。追加的に、ＬＵ１６の場合を除いて「ＮｏＣＲ」のＣＥＲ（％）が「Ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ」のＣＥＲ（％）より高いことから、増強していない音声サンプルを含むＭＬＳはかえって音声認識モデルの学習に否定的な影響を与えることを確認することができる。特に、性能評価で比較的低い信頼度スコア臨界値（τ＝０．９）に基づいてマシンラベリングを遂行する音声サンプルを抽出し、高い非指導損失の係数値（λ＝１）を設定して音声認識モデルを半教師あり学習したため、ＭＬＳ内の不正確な疑似ラベルの音声認識モデルに対する否定的影響がよく示される。

表１と図９でＬＵ１２とＬＵ１４の「ＣＲ－Ｓ」を除いて、各行で、「ＮｏＣＲ」より増強された音声サンプルを利用した場合（「ＣＲ－Ｓ」、「ＣＲ－Ａ」、「ＣＲ－Ｐ」）のＣＥＲ（％）が低いことを確認することができる。また、「ＣＲ－Ｓ」、「ＣＲ－Ａ」、「ＣＲ－Ｐ」のうち「ＣＲ－Ｐ」が最も低いＣＥＲ（％）を有するため、データ増強として音声サンプルに対してピッチシフティングを遂行した場合、音声認識モデルの性能が最も良いことを確認することができる。

一方、音声認識モデル学習に利用されるＨＬＳの数が少ない時（例えば、ＬＵ１６またはＬＵ１９）、ＭＬＳに含まれた音声サンプルの増強の効果がさらに著しく表れることを確認することができる。例えば、ＬＵ１９で増強された音声サンプルを使う場合のＣＥＲ（％）が、「Ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ」と「ＮｏＣＲ」に比べてそれぞれ１．２６％ｐおよび１．６０％ｐ減少する。反面、十分な量のＨＬＳを利用して音声認識モデルを学習／アップデートした場合（例えば、ＬＵ１２）には音声サンプル増強の効果がわずかなものに見えるが、これは音声認識モデルに対するＨＬＳの学習効果が十分に大きく表れるためである。

図１０は、本開示の一実施例により音声認識モデルを何回もアップデートする場合、学習回次と音声認識モデルの性能の関係を示すグラフである。図１０のグラフは音声認識モデルを３０回目までアップデートし、それぞれの回次にアップデートされた音声認識モデルのＣＥＲ（％）を示す。ＬＵ１２、ＬＵ１６それぞれに対して「ＮｏＣＲ」のＣＥＲ（％）が「ＣＲ－Ｓ」、「ＣＲ－Ａ」、「ＣＲ－Ｐ」のＣＥＲ（％）よりも大きいことを確認することができる。すなわち、「ＮｏＣＲ」で不正確な疑似ラベル（すなわち、不正確なＭＬＳ）による音声認識モデルの性能低下が表れる。本開示の実施例によると、非指導損失

が音声認識モデルがよく分からない音声サンプルに高い信頼度スコアを付与することを制約するため、前述した問題を緩和して機械学習でＭＬＳを活用して優秀な音声認識モデル性能を提供することができる。

結論として、本開示の実施例により音声認識モデルを学習／アップデートする場合、０．２６％ｐのＣＥＲ増加（すなわち、性能低下）だけでラベリング費用を２／３ほど節減することができ、１．０８％ｐのＣＥＲ増加だけでラベリング費用を６／７ほど節減することができる。したがって、音声認識モデルの性能低下（例えば、不正確なＭＬＳによる性能低下）は殆どないようにしつつ、音声認識モデルをアップデートするためのヒューマンラベリング費用を顕著に低減することが可能である。

前述した音声認識モデル学習方法はコンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムで提供され得る。媒体はコンピュータで実行可能なプログラムを保存し続けたり、遂行またはダウンロードのために一時保存したりするものでもよい。また、媒体は単一または数個ハードウェアが結合された形態の多様な記録手段または保存手段でもよいが、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散的に存在するものでもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉｕｍ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含んでプログラム命令語が保存されるように構成されたものがあり得る。また、他の媒体の例示として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバーなどで管理する記録媒体乃至保存媒体が挙げられる。

本開示の方法、動作または技法は多様な手段によって具現化されてもよい。例えば、このような技法はハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせで具現化されてもよい。本願の開示と連係して説明された多様な例示的な論理的ブロック、モジュール、回路およびアルゴリズム段階は電子ハードウェア、コンピュータソフトウェア、または両者の組み合わせで具現化されてもよいことを通常の技術者は理解できるであろう。ハードウェアおよびソフトウェアの、このような相互間の代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路および段階がそれらの機能的観点で一般的に前述された。そのような機能がハードウェアで具現化されるかまたはソフトウェアで具現化されるかどうかは、特定のアプリケーションおよび全体システムに課される設計要求事項により変わる。通常の技術者はそれぞれの特定のアプリケーションのために多様な方式で説明された機能を具現化してもよいが、そのような具現化は本開示の範囲から逸脱させるものと解釈されてはならない。

ハードウェアの具現化において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号プロセッシングデバイス（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ；ＤＳＰＤ）、プログラム可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ；ＰＬＤ）、フィールドプログラム可能ゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ；ＦＰＧＡ）、プロセッサ、制御器、マイクロ制御器、マイクロ・プロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、またはこれらの組み合わせ内で具現化されてもよい。

したがって、本開示と連係して説明された多様な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡや他のプログラム可能論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、または本願に説明された機能を遂行するように設計されたものなどの任意の組み合わせで具現化されたり遂行されたりしてもよい。汎用プロセッサはマイクロ・プロセッサでもよいが、代案として、プロセッサは任意の従来のプロセッサ、制御器、マイクロ制御器、または状態マシンでもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、ＤＳＰとマイクロ・プロセッサ、複数のマイクロ・プロセッサ、ＤＳＰコアと連係した一つ以上のマイクロ・プロセッサ、または任意の他の構成の組み合わせで具現化されてもよい。

ファームウェアおよび／またはソフトウェアの具現化において、技法はランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ；ＲＡＭ）、読み取り専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ；ＲＯＭ）、不揮発性ＲＡＭ（ｎｏｎ－ｖｏｌａｔｉｌｅｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ；ＮＶＲＡＭ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＥＰＲＯＭ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅＰＲＯＭ）、フラッシュメモリ、コンパクトディスク（ｃｏｍｐａｃｔｄｉｓｃ；ＣＤ）、磁気または光学データストレージデバイスなどのようなコンピュータ読み取り可能媒体上に保存された命令で具現化されてもよい。命令は一つ以上のプロセッサによって実行可能でもよく、プロセッサに本開示に説明された機能の特定態様を遂行させてもよい。

以上で説明された実施例が一つ以上の独立型コンピュータシステムで現在開示された主題の態様を活用するものとして記述されたが、本開示はこれに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境と連係して具現化されてもよい。さらに、本開示で主題の様相は複数のプロセッシングチップや装置で具現化されてもよく、ストレージは複数の装置に亘って同様に影響を受けることもある。このような装置はＰＣ、ネットワークサーバーおよび携帯用装置を含んでもよい。

本明細書では本開示が一部の実施例と関連して説明されたが、本開示の発明が属する技術分野の通常の技術者が理解できる本開示の範囲を逸脱しない範囲で多様な変形および変更が行われ得る。また、そのような変形および変更は本明細書に添付された特許請求の範囲内に属するものと理解されるべきである。

１１０：使用者
１２０、２１０：使用者端末
２２０：ネットワーク
２３０：情報処理システム

Claims

少なくとも一つのプロセッサによって遂行される音声認識モデル学習方法において、
ラベルが割当されていない複数の音声サンプルを受信する段階と、音声認識モデルを利用して前記複数の音声サンプルからヒューマンラベリング（ｈｕｍａｎｌａｂｅｌｉｎｇ）のための第１セットの音声サンプルを抽出する段階と、前記第１セットの音声サンプルと対応する第１セットのラベルを受信する段階と、前記音声認識モデルを利用して前記複数の音声サンプルからマシンラベリング（ｍａｃｈｉｎｅｌａｂｅｌｉｎｇ）のための第２セットの音声サンプルを抽出する段階と、前記音声認識モデルを利用して前記第２セットの音声サンプルと対応する第２セットのラベルを決定する段階と、前記第２セットの音声サンプルを増強（ａｕｇｍｅｎｔ）する段階、および
前記第１セットの音声サンプル、前記第１セットのラベル、前記増強された第２セットの音声サンプル、および前記第２セットのラベルに基づいて半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行して前記音声認識モデルをアップデートする段階を含む、音声認識モデル学習方法。
前記第２セットの音声サンプルを増強する段階は、
前記第２セットの音声サンプルに対してピッチシフティング（ｐｉｔｃｈｓｈｉｆｔｉｎｇ）を遂行する段階を含む、請求項１に記載の音声認識モデル学習方法。
前記第２セットの音声サンプルを増強する段階は、
前記第２セットの音声サンプルに対してタイムスケーリング（ｔｉｍｅｓｃａｌｉｎｇ）を遂行する段階を含む、請求項１に記載の音声認識モデル学習方法。
前記第２セットの音声サンプルを増強する段階は、
前記第２セットの音声サンプルに加算性白色ガウシアンノイズ（ＡｄｄｉｔｉｖｅＷｈｉｔｅＧａｕｓｓｉａｎＮｏｉｓｅ）を追加する段階を含む、請求項１に記載の音声認識モデル学習方法。
前記音声認識モデルを利用して前記複数の音声サンプルからヒューマンラベリングのための第１セットの音声サンプルを抽出する段階は、
前記音声認識モデルを利用して前記複数の音声サンプルそれぞれの不確実性スコア（ｕｎｃｅｒｔａｉｎｔｙｓｃｏｒｅ）を算出する段階、および
前記複数の音声サンプルのうち最も高い不確実性スコアを有するあらかじめ決定された個数の音声サンプルを前記第１セットの音声サンプルとして抽出する段階を含む、請求項１～請求項４のいずれか一項に記載の音声認識モデル学習方法。
前記音声認識モデルを利用して前記複数の音声サンプルからマシンラベリングのための第２セットの音声サンプルを抽出する段階は、
前記複数の音声サンプルのうちあらかじめ決定された臨界値以下の不確実性スコアを有する少なくとも一つの音声サンプルを前記第２セットの音声サンプルとして抽出する段階を含む、請求項５に記載の音声認識モデル学習方法。
前記不確実性スコアは前記音声認識モデルによって出力されるテキストシーケンスの長さ正規化された結合確率（ｌｅｎｇｔｈ－ｎｏｒｍａｌｉｚｅｄｊｏｉｎｔｐｒｏｂａｂｉｌｉｔｙ）を示す、請求項５に記載の音声認識モデル学習方法。
前記音声認識モデルをアップデートする段階は、
前記音声認識モデルによって予測される前記第１セットの音声サンプルと対応する第１セットの出力データ、そして、前記第１セットのラベルの間の差が最小化されるように前記音声認識モデルをアップデートする段階を含む、請求項１～請求項７のいずれか一項に記載の音声認識モデル学習方法。
前記音声認識モデルをアップデートする段階は、
前記音声認識モデルによって予測される前記増強された第２セットの音声サンプルと対応する第２セットの出力データ、そして、前記第２セットのラベルの間の差が最小化されるように前記音声認識モデルをアップデートする段階をさらに含む、請求項８に記載の音声認識モデル学習方法。
前記第１セットの出力データと前記第１セットのラベルの間の差、そして、前記第２セットの出力データと前記第２セットのラベルの間の差は、標準クロス－エントロピー損失関数（ｓｔａｎｄａｒｄｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓｆｕｎｃｔｉｏｎ）により算出される、請求項９に記載の音声認識モデル学習方法。
前記音声認識モデルは教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行して生成された人工ニューラルネットワークモデルである、請求項１～請求項１０のいずれか一項に記載の音声認識モデル学習方法。
前記ヒューマンラベリングのための第１セットの音声サンプルの数が前記マシンラベリングのための第２セットの音声サンプルの数より少ない、請求項１～請求項１１のいずれか一項に記載の音声認識モデル学習方法。
前記第１セットのラベルは人によって生成された正解ラベルである、請求項１～請求項１２のいずれか一項に記載の音声認識モデル学習方法。
前記第２セットのラベルは前記音声認識モデルによって予測された疑似ラベル（ｐｓｅｕｄｏｌａｂｅｌ）である、請求項１～請求項１３のいずれか一項に記載の音声認識モデル学習方法。
請求項１～請求項１４のいずれか一項に記載された音声認識モデル学習方法をコンピュータで実行するための、コンピュータプログラム。
音声認識モデル学習システムであって、
通信モジュールと、
メモリ、および
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含み、
前記少なくとも一つのプログラムは、
ラベリングされていない複数の音声サンプルを受信し、
音声認識モデルを利用して前記複数の音声サンプルからヒューマンラベリングのための第１セットの音声サンプルを抽出し、
前記第１セットの音声サンプルと対応する第１セットのラベルを受信し、
前記音声認識モデルを利用して前記複数の音声サンプルからマシンラベリングのための第２セットの音声サンプルを抽出し、
前記音声認識モデルを利用して前記第２セットの音声サンプルと対応する第２セットのラベルを決定し、
前記第２セットの音声サンプルを増強し、
前記第１セットの音声サンプル、前記第１セットのラベル、前記増強された第２セットの音声サンプルおよび前記第２セットのラベルに基づいて半教師あり学習を遂行して前記音声認識モデルをアップデートするための命令語を含む、音声認識モデル学習システム。