JP7173758B2

JP7173758B2 - 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ

Info

Publication number: JP7173758B2
Application number: JP2018101565A
Authority: JP
Inventors: 昊潼李; 尚賢柳
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-08-14
Filing date: 2018-05-28
Publication date: 2022-11-16
Anticipated expiration: 2038-05-28
Also published as: EP3444809B1; JP2019035941A; CN109410916A; CN109410916B; KR20190018282A; KR102413282B1; EP3444809A1; US20190051288A1

Description

本発明は、個人化された音声認識方法及びこれを行うユーザ端末及びサーバに関する。

音声インタフェースは、タッチインタフェースよりも自然かつ直観的なインタフェースである。そのため、音声インタフェースは、タッチインタフェースの短所を補完できる次世代インタフェースとして注目を浴びている。音声インタフェースにおいて最も肝心なことは、音声認識技術の正確性である。そのため、音声認識技術の正確性を高めるための様々な方式が提案されることにより音声認識技術は次第に発展している。

本発明の目的は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ターゲット音声信号の認識時に特性パラメータを音声認識モデルと共に利用することによって、個人化された音声認識を行うことにある。

本発明の他の目的は、音声モデルを直接的に変更することなく、ユーザに個人化された音声認識を容易に実現することにある。

一実施形態に係るユーザ端末で実行される認識方法は、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定するステップと、ユーザから認識の対象となるターゲット音声信号が入力されるステップと、ターゲット音声信号の認識結果を出力するステップとを含み、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。

一実施形態に係る認識方法において、特性パラメータは、モデルに入力されるターゲット音声信号の特徴ベクトルに適用され、モデルから分類するためのクラス情報を含み得る。

一実施形態に係る認識方法において、特性パラメータは、ターゲット音声信号の特徴ベクトルを正規化するための正規化情報を含み、ターゲット音声信号の認識結果は、モデルに入力されるターゲット音声信号の特徴ベクトルを、正規化情報に基づいて正規化することによって決定され得る。

一実施形態に係る認識方法において、特性パラメータは、ユーザの音声的な特徴を示す識別情報を含み、ターゲット音声信号の認識結果は、モデルにターゲット音声信号の特徴ベクトルと共に識別情報を入力することにより決定され得る。

一実施形態に係る認識方法において、特性パラメータはモデルから分類するためのクラス情報を含み、ターゲット音声信号の認識結果は、モデルにおいてターゲット音声信号の特徴ベクトルから推定される値をクラス情報と比較することによって決定され得る。

一実施形態に係る認識方法において、特性パラメータを決定するステップは、基準音声信号がユーザ端末に入力されるときの環境情報に基づいて特性パラメータをタイプごとに決定し得る。

一実施形態に係る認識方法において、環境情報は、基準音声信号に含まれるノイズ情報と、ユーザ端末から基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含み得る。

一実施形態に係る認識方法において、ターゲット音声信号の認識結果は、基準音声信号が入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうちターゲット音声信号が入力されるときの環境情報に基づいて選択された特性パラメータを用いて決定され得る。

一実施形態に係る認識方法において、特性パラメータを決定するステップは、複数のユーザを基準として決定された基本パラメータに基準音声信号から取得した個人パラメータを反映することにより特性パラメータを決定し得る。

一実施形態に係る認識方法において、基準音声信号は、ターゲット音声信号がユーザ端末に入力される以前に、ユーザがユーザ端末を用いることでユーザ端末に入力された音声信号であり得る。

一実施形態に係る認識方法は、ターゲット音声信号と特性パラメータをサーバに送信するステップと、サーバからターゲット音声信号の認識結果を受信するステップとを更に含み、ターゲット音声信号の認識結果はサーバで生成され得る。

一実施形態に係る認識方法において、ターゲット音声信号の認識結果はユーザ端末で生成され得る。

一実施形態に係るユーザ端末に入力されたターゲット音声信号を認識するサーバの認識方法は、ユーザから入力された基準音声信号に基づいて決定されたユーザの音声に個人化された特性パラメータを、ユーザ端末から受信するステップと、認識の対象となるユーザのターゲット音声信号をユーザ端末から受信するステップと、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識するステップと、ターゲット音声信号の認識結果をユーザ端末に送信するステップとを含む。

一実施形態に係る認識方法において、特性パラメータは、ターゲット音声信号を正規化するための正規化情報、ユーザの音声的な特徴を示す識別情報、及びモデルから分類するためのクラス情報のうち少なくとも１つを含み得る。

一実施形態に係る認識方法において、特性パラメータは、基準音声信号がユーザ端末に入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうちターゲット音声信号がユーザ端末に入力されるときの環境情報に基づいて選択された特性パラメータであり得る。

一実施形態に係るユーザ端末は、プロセッサと、プロセッサによって実行可能な少なくとも１つの命令語を含むメモリとを含み、少なくとも１つの命令語がプロセッサで実行されると、プロセッサは、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ユーザから認識の対象となるターゲット音声信号が入力され、ターゲット音声信号の認識結果を出力し、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。

一実施形態に係る音声認識方法は、個別ユーザの基準音声信号に基づいて個別ユーザの音声に個人化された特性パラメータを決定するステップと、複数のユーザに対して決定された基本音声認識モデルに特性パラメータを適用して個別ユーザに個人化された音声認識モデルを取得するステップと、個人化された音声認識モデルに個別ユーザのターゲット音声信号を適用してターゲット音声信号の認識結果を取得するステップとを含む。

一実施形態に係る音声認識方法は、基準音声信号から個別ユーザに対して決定された個人パラメータを取得するステップと、個人パラメータに第１加重値を適用して加重された個人パラメータを取得するステップと、複数のユーザに対して決定された基本パラメータに第２加重値を適用して加重された基本パラメータを取得するステップと、加重された個人パラメータを加重された基本パラメータに追加して特性パラメータを取得するステップとを更に含み得る。

一実施形態に係る音声認識方法において、基準音声信号及びターゲット音声信号は、個別ユーザによってユーザ端末に入力され、特性パラメータを決定するステップは、個別ユーザによって基準音声信号がユーザ端末から入力されるごとに特性パラメータを累積して決定し得る。

一実施形態に係る音声認識方法は、ユーザ端末において、個別ユーザによってユーザ端末に入力された基準音声信号に基づいたパラメータを決定するステップと、基準音声信号に基づいたパラメータ及び認識の対象となる個別ユーザのターゲット音声信号をユーザ端末からサーバに送信するステップと、ユーザ端末において、ターゲット音声信号の認識結果をサーバから受信するステップとを含み、ターゲット音声信号の認識結果は、基準音声信号に基づいたパラメータ及び複数のユーザに対して決定された基本音声認識モデルに基づいてサーバで決定される。

一実施形態に係る音声認識方法において、基準音声信号に基づいたパラメータを決定するステップは、基準音声信号から個別ユーザに対して決定された個人パラメータを取得し、送信するステップは、個人パラメータ及びターゲット音声信号をユーザ端末からサーバに送信し、基準音声信号に基づいたパラメータは、サーバで個人パラメータに第１加重値を適用して加重された個人パラメータを取得し、基本パラメータに第２加重値を適用して加重された基本パラメータを取得し、加重された個人パラメータを加重された基本パラメータに追加して基準音声信号に基づいたパラメータを取得することにより取得され得る。

一実施形態によれば、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ターゲット音声信号の認識時に特性パラメータを音声認識モデルと共に利用することによって、個人化された音声認識を行うことができる。

一実施形態によれば、音声モデルを直接的に変更することなく、ユーザに個人化された音声認識を容易に実現することができる。

一実施形態に係るユーザ端末及びサーバ間の関係を示す図である。一実施形態に係るユーザ端末に入力された音声信号が認識される過程を示す図である。一実施形態に係るターゲット音声信号が特性パラメータ及びモデルに基づいて認識される過程を示す図である。他の一実施形態に係る環境情報を更に用いて音声信号を認識する過程を示す図である。一実施形態に係る環境情報を説明するための図である。更なる実施形態に係るユーザ端末の認識方法を示す図である。一実施形態に係るユーザ端末を示す図である。一実施形態に係るサーバを示す図である。

実施形態に対する特定な構造的又は機能的な説明は単なる例示の目的のために開示されており、様々な形態に変更され得る。したがって、実施形態は特定の開示される形態に限定されるものではなく、本発明の範囲は技術的な思想に含まれる変更、均等物又は代替物を含む。

第１又は第２等の用語が、複数の構成要素を説明するために用いられることがあるが、このような用語は単に１つの構成要素を他の構成要素から区別する目的として解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素とも命名することができる。

いずれかの構成要素が他の構成要素に「連結されて」いるとして言及される場合、その次の構成要素に直接的に連結されてもよく、あるいは中間に他の構成要素が存在することもあり得ると理解されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらの組合せが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品又はこれらの組合せ等の存在又は付加の可能性を予め排除しないものとして理解されなければならない。

別段の定義がない限り、技術的又は科学的な用語を含む、本明細書で用いられる全ての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されるべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を、添付の図面を参照しながら詳細に説明する。各図面に提示される同一の参照符号は同一の構成要素を示す。

図１は、一実施形態によりユーザ端末及びサーバ間の関係を示す図である。

図１を参照すると、一実施形態に係るユーザ端末１１０及びサーバ１２０が示されている。

一実施形態に係るユーザ端末１１０は、ユーザから音声信号が入力され、音声信号の認識結果を出力する装置として、下記で説明される少なくとも１つの動作のための命令語を格納するメモリ及びその命令語を実行するプロセッサを含む。例えば、ユーザ端末１１０は、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、モバイル機器、スマートスピーカ、スマートテレビ、スマート家電機器、知能型自動車、ウェアラブル装置などの様々な形態の製品として実現される。

一実施形態に係るユーザ端末１１０は、ユーザから入力された音声信号に基づいて、ユーザの音声に個人化された特性パラメータ１１１を決定する。特性パラメータ１１１は、音声認識の個人化に求められる付加的な情報であって、音声認識のためのモデルを直接的に変更することなく、ユーザ端末１１０を操作するユーザに個人化された音声認識を実行可能にする。例えば、特性パラメータ１１１は、ケプストラム平均分散正規化（ＣＭＶＮ：ＣｅｐｓｔｒａｌＭｅａｎａｎｄＶａｒｉａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎ）による正規化情報、ｉ－ベクトル（ｉ－ｖｅｃｔｏｒ）、確率密度関数（ＰＤＦ：Ｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎ）のうち少なくとも１つを含んでもよい。特性パラメータ１１１については、図３を参照して後述する。

ユーザ端末１１０は、音声認識が要求される前に特性パラメータ１１１を予め決定する。以下、説明の便宜のために特性パラメータ１１１の決定において考慮される音声信号を基準音声信号（ｒｅｆｅｒｅｎｃｅｓｐｅｅｃｈｓｉｇｎａｌ）に称し、認識の対象となる音声信号をターゲット音声信号（ｔａｒｇｅｔｓｐｅｅｃｈｓｉｇｎａｌ）と称する。

ユーザから認識対象となるターゲット音声信号が入力されると、ユーザ端末１１０は、ターゲット音声信号と特性パラメータ１１１をサーバ１２０に送信する。

一実施形態に係るサーバ１２０は、音声認識のためのモデルを含む装置であり、モデルを用いて、ユーザ端末１１０から受け取ったターゲット音声信号の音声認識を行うコンピューティング装置であり得る。サーバ１２０は、ユーザ端末１１０から受け取ったターゲット音声信号を音声認識し、その認識結果をユーザ端末１１０に送信する。

一実施形態に係るモデルは、ターゲット音声信号が入力されると、ターゲット音声信号の認識結果を出力するニューラルネットワークであり、特定の個人にカスタマイズされるのではなく、複数のユーザの音声認識のための汎用的なモデルとすることができる。

サーバ１２０は、ユーザの音声に個人化された特性パラメータ１１１を更に利用することによって、汎用的なモデルにより、ユーザに個人化された音声認識を行う。言い換えれば、一般的に個人ユーザは、特有のアクセント、トーン、語り口などを有するが、特性パラメータ１１１により、このような特有の個人的特性に適応的に音声認識を実行することができる。

サーバ１２０は、ターゲット音声信号の認識結果をユーザ端末１１０に送信し、ユーザ端末１１０は認識結果を出力する。

図２は、一実施形態によりユーザ端末に入力された音声信号が認識される過程を示す図である。

図２を参照すると、一実施形態によりユーザ端末１１０及びサーバ１２０で実行される認識方法が示されている。

ステップＳ２１０において、ユーザ端末１１０に、ユーザからの基準音声信号が入力される。基準音声信号は、認識すべきターゲット音声信号がユーザ端末１１０へ入力される前に、ユーザがユーザ端末１１０を用いることでユーザ端末１１０へ入力された音声信号であり得る。例えば、ユーザがユーザ端末１１０を介して通話したり音声を録音したりするとき、ユーザ端末１１０から入力される音声信号が基準音声信号に該当する。言い換えれば、基準音声信号は、音声認識のためではなく、音声認識以外のユーザ端末１１０の一般的な使用によってユーザ端末１１０に入力された音声信号であり得る。

ステップＳ２２０において、ユーザ端末１１０は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定する。特性パラメータは、音声認識のためのモデルを直接的に変更することなく、ユーザに個人化された音声認識を実行可能にするパラメータであり得る。

一実施形態に係るユーザ端末１１０は、基準音声信号が入力されるたびに、その基準音声信号に基づいて特性パラメータをアップデートする。ここで、ユーザ端末１１０は、入力される全ての基準音声信号を用いて特性パラメータをアップデートしてもよく、あるいは一定の条件（例えば、音声信号の大きさ、長さ等）を満たす基準音声信号を選択的に用いて特性パラメータをアップデートしてもよい。

例えば、ユーザ端末１１０は、複数のユーザを基準として決定された基本パラメータに、基準音声信号から取得した個人パラメータを反映することにより、特性パラメータを決定する。ここで、基本パラメータは、複数のユーザの音声信号に基づいて決定された初期パラメータとしてサーバ１２０から提供される。該当ユーザに関する個人パラメータに第１加重値を適用し、基本パラメータに第２加重値を適用した後、加重値が適用されたパラメータを合算することで特性パラメータが決定され得る。そして、次の基準音声信号が入力されると、最後に算出された特性パラメータに、次の基準音声信号から取得した個人パラメータを反映することによって、特性パラメータをアップデートすることができる。

基準音声信号がユーザ端末１１０に入力されるたびに、このように特性パラメータを決定することによって、ユーザの音声に個人化された特性パラメータが累積算出される。累積算出されるほど、ユーザについてより個人化された特性パラメータが取得される。

他の一実施形態によると、ユーザ端末１１０で基本パラメータに個人パラメータを反映して特性パラメータを決定する代わりに、ユーザ端末１１０では、個人パラメータのみを考慮して特性パラメータを累積算出してサーバ１２０に送信し、サーバ１２０が基本パラメータと特性パラメータとの間の加重値の合計によって最終的に特性パラメータを決定してもよい。

ステップＳ２３０において、ユーザ端末１１０に、ユーザから、認識の対象となるターゲット音声信号が入力される。例えば、ユーザ端末１１０は、音声認識命令と共に入力された音声信号をターゲット音声信号として識別する。

ステップＳ２４０において、ユーザ端末１１０は、ターゲット音声信号及び特性パラメータをサーバ１２０に送信する。例えば、ユーザ端末１１０は、ターゲット音声信号と特性パラメータを共にサーバ１２０に送信してもよい。

あるいは、ユーザ端末１１０は、ターゲット音声信号に先立って、特性パラメータをサーバ１２０に送信してもよい。この場合、ユーザ端末１１０は、一定の周期ごとに又は特性パラメータがアップデートされるたびにサーバ１２０に特性パラメータを予め送信し、特性パラメータは、サーバ１２０において、該当ユーザ又は該当ユーザ端末１１０にマッピングされて格納される。そして、ユーザ端末１１０は、ターゲット音声信号が入力されると、特性パラメータなしに、そのターゲット音声信号のみをサーバ１２０に送信し、サーバ１２０によってユーザ又はユーザ端末１１０にマッピングされて予め格納された特性パラメータを、検索することができる。

ユーザの個人情報ではなく、数値化された値である特性パラメータをサーバ１２０に送信することによって、サーバ１２０で音声認識が実行される間にユーザの個人情報が漏れることはなく、セキュリティー問題からも解放される。

ステップＳ２５０において、サーバ１２０は、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。サーバ１２０は、モデルに入力されるターゲット音声信号の特徴ベクトルに特性パラメータを適用するか、モデルから分類されるクラス情報で特性パラメータを用いることにより、モデルを直接的に変更することなく、ユーザに個人化された音声認識を行うことができる。特性パラメータ及びモデルに基づいた音声認識については、図３を参照して後述する。

ステップＳ２６０において、サーバ１２０は、ターゲット音声信号の認識結果をユーザ端末１１０に送信する。

ステップＳ２７０において、ユーザ端末１１０は、ターゲット音声信号の認識結果を出力する。一実施形態によると、ユーザ端末１１０は、ターゲット音声認識の認識結果を表示する。

あるいは、ユーザ端末１１０は、認識結果に関連する動作を行い、その動作結果を出力する。例えば、ユーザ端末１１０は、認識結果に応じて、ユーザ端末１１０にインストールされたアプリケーション（例えば、電話アプリケーション、連絡先アプリケーション、メッセンジャーアプリケーション、ウェブアプリケーション、スケジュール管理アプリケーション、天気アプリケーションなど）を実行し、そのアプリケーションにおける特定動作（例えば、通話、連絡先検索、メッセージ入力及び送信、ウェブ検索、スケジュール確認、天気照会など）を行ってその結果を出力することができる。

図３は、一実施形態に係る、ターゲット音声信号が特性パラメータ及びモデルに基づいて認識される過程を示す図である。

図３を参照すると、一実施形態に係るモデル３１０、ＣＭＶＮフィルタ３２０、ｉ－ベクトルフィルタ３３０、ＰＤＦ３４０が示されている。図３では、説明の便宜のためにＣＭＶＮフィルタ３２０、ｉ－ベクトルフィルタ３３０、ＰＤＦ３４０が全て示されているが、実施形態によってはＣＭＶＮフィルタ３２０、ｉ－ベクトルフィルタ３３０、ＰＤＦ３４０のうち少なくとも１つのみが適用されてもよい。

一実施形態に係るモデル３１０は、ターゲット音声信号が入力されることによって、そのターゲット音声信号の認識結果を出力するニューラルネットワークであり得る。ニューラルネットワークは複数のレイヤを含んでもよい。複数のレイヤの各々が複数のニューロンを含んでもよい。隣接するレイヤのニューロンは、シナプスに接続される。学習によってシナプスには加重値が付与され、パラメータはこのような加重値を含み得る。

一実施形態に係る特性パラメータは、ＣＭＶＮの正規化情報、ｉ－ベクトル、ＰＤＦのうち少なくとも１つを含む。このような特性パラメータは、ＣＭＶＮフィルタ３２０、ｉ－ベクトルフィルタ３３０、ＰＤＦ３４０に適用される。

ターゲット音声信号の特徴ベクトルは、メル周波数ケプストラム係数（ＭＦＣＣ：Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）、メル尺度フィルタバンク係数（Ｍｅｌ－ｓｃａｌｅｄＦｉｌｔｅｒｂａｎｋｃｏｅｆｆｉｃｉｅｎｔｓ）などによりターゲット音声信号から抽出され、ＣＭＶＮフィルタ３２０に入力され得る。

ＣＭＶＮフィルタ３２０は、音声認識を行う前に音声信号の特徴ベクトルを正規化するステップであって、正規化された特徴ベクトルに対して音声認識を行うことにより音声認識の正確性を向上させることができる。ＣＭＶＮフィルタ３２０は、音声信号に含まれるノイズや歪みに強い音声認識を実行可能にする。例えば、ＣＭＶＮフィルタ３２０は、音声信号の特徴ベクトルに含まれる各次元の平均が０に変換され、分散が基準分散（ｕｎｉｔｖａｒｉａｎｃｅ）に変換されるようにすることで、特徴ベクトルに対する正規化を行う。このような正規化のために正規化情報が使用され、正規化情報は、特徴ベクトルに含まれた次元の平均を０に変換し、分散を基準分散に変換するための平均値及び分散値を含んでもよい。例えば、基準分散は１であってもよい。

ＣＭＶＮフィルタ３２０で用いられる正規化情報は、ユーザ端末で累積されて算出され、累積されるほど、ＣＭＶＮフィルタ３２０で実行される正規化が精巧に実行され、音声認識の性能をより向上させることができる。

ｉ－ベクトルフィルタ３３０は、ターゲット音声信号の特徴ベクトルにｉ－ベクトルが適用されるステップである。ｉ－ベクトルは、ターゲット音声信号を発話したユーザを識別する情報をベクトルに表現した識別ベクトルであって、ユーザの個別的な特性を示す。一例として、識別ベクトルは、音声から抽出された音響パラメータの分布を混合ガウスモデル（ＧＭＭ：Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）にモデリングしたとき、各ガウスの平均値を連結して作ったＧＭＭスーパーベクトルが有している変移性を表現するベクトルである。

このようなｉ－ベクトルが、サーバでないユーザ端末で決定され、ユーザ端末で基準音声信号が入力されるたびに、あるいは一定条件が満たされる基準音声信号が入力されるたびに累積算出されることによって、ユーザの発音に対して精巧なｉ－ベクトルが決定され得る。

ユーザ端末で決定されたｉ－ベクトルが、ｉ－ベクトルフィルタ３３０を介してターゲット音声信号の特徴ベクトルに適用されてモデル３１０に入力される。言い換えれば、ターゲット音声信号の特徴ベクトルと共にｉ－ベクトルがモデル３１０に入力されることで、ｉ－ベクトルにより識別されたユーザの音声特徴を反映して音声認識が実行され、音声認識の正確性を向上させることができる。

この場合、モデル３１０も数人のｉ－ベクトルに基づいてトレーニングされたモデルである必要がある。音声認識時に共に入力されるｉ－ベクトルを用いて、トレーニング時に考慮した数人のうち今回のユーザの発話がいずれかの人の発話と特性が似ているかを判断し、このような判断結果に応じて音声認識が適応的に実行される。

ＰＤＦ３４０は、モデル３１０で分類されるクラス情報を含む。ＰＤＦ３４０は発音的特徴に対する分布値を示す情報として、モデル３１０で推定された値がＰＤＦ３４０と比較され、最終的にターゲット音声信号がどのような音素から構成されているかを判断する。このような判断に基づいて認識結果が決定される。

同じ単語を発音しても、ユーザごとにその単語を発音するアクセントやトーンが異なるが、ユーザに個人化されたＰＤＦ３４０を用いることで、ユーザに個人化された音声認識を行うことができる。音声認識を実行するとき、ＰＤＦ３４０は、ユーザに個人化されたＰＤＦに代替され得る。

一実施形態に係るＰＤＦ３４０は、サーバの外部で算出できる簡単なＧＭＭなどの方式をユーザ端末で行うことによってユーザ端末で算出され得る。算出初期には、複数のユーザを基準として決定されたクラス情報に、基準音声信号から取得された個人化されたクラス情報を反映させることで、ＰＤＦ３４０が累積算出される。

また、ＰＤＦカウント情報（ＰＤＦｃｏｕｎｔｉｎｆｏｒｍａｔｉｏｎ）も個人化されて音声認識の際に活用され得る。ＰＤＦカウント情報は、音素がどれ程頻繁に使用されたかを示すものであり、ユーザが頻繁に発話する音素を効率よく認識可能にする。ＰＤＦカウント情報も、算出初期には、複数のユーザを基準として決定されたＰＤＦカウント情報に、基準音声信号から取得された個人化されたＰＤＦカウント情報を反映させることで決定され得る。

図４は、他の一実施形態により環境情報を更に用いて音声信号を認識する過程を示す図である。

図４を参照すると、他の一実施形態によりユーザ端末１１０及びサーバ１２０で実行される認識方法が示されている。

ステップＳ４１０において、ユーザ端末１１０は、ユーザから基準音声信号が入力され、このときの基準環境情報を取得する。基準環境情報は、基準音声信号がユーザ端末１１０に入力されるときの状況に関する情報として、例えば、基準音声信号に含まれたノイズ情報と、ユーザ端末１１０から基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含む。

ここで、ノイズ情報は、基準音声信号が室内で入力されたか、室外で入力されたかを示し、距離情報は、ユーザ端末１１０とユーザとの間の距離が近距離であるか、遠距離であるかを示す。

例えば、基準環境情報は、ユーザ端末１１０に内蔵された別途のセンサによって取得され得る。

ステップＳ４２０において、ユーザ端末１１０は、基準環境情報に基づいて特性パラメータをタイプごとに決定する。例えば、室内で入力された基準音声信号に基づいて室内タイプの特性パラメータが決定され、室外で入力された基準音声信号に基づいて室外タイプの特性パラメータが決定される。同様に、近距離で入力された基準音声信号に基づいて近距離タイプの特性パラメータが決定され、遠距離で入力された基準音声信号に基づいて遠距離タイプの特性パラメータが決定される。

また、ユーザ端末１１０は、基準環境情報に基づいて特性パラメータをタイプごとにアップデートし得る。

ステップＳ４３０において、ユーザ端末１１０に、ユーザから認識すべきターゲット音声信号が入力され、このときのターゲット環境情報を取得する。例えば、ユーザ端末１１０は、音声認識命令と共に入力された音声信号をターゲット音声信号で識別し、ここで取得された環境情報をターゲット環境情報として識別する。

ステップＳ４４０において、ユーザ端末１１０は、ターゲット環境情報に基づいて特性パラメータを選択する。ユーザ端末１１０は、タイプごとに格納された特性パラメータのうちターゲット環境情報に対応する特性パラメータを選択する。例えば、ターゲット音声信号が室内で入力された場合、ターゲット環境情報に基づいて特性パラメータのうち室内タイプの特性パラメータが選択される。同様に、ターゲット音声信号が近距離で入力された場合、ターゲット環境情報に基づいて特性パラメータのうち近距離タイプの特性パラメータが選択される。

ステップＳ４５０において、ユーザ端末１１０は、ターゲット音声信号及び選択された特性パラメータをサーバ１２０に送信する。

ステップＳ４６０において、サーバ１２０は、選択された特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。

ステップＳ４７０において、サーバ１２０は、ターゲット音声信号の認識結果をユーザ端末１１０に送信する。

ステップＳ４８０において、ユーザ端末１１０は、ターゲット音声信号の認識結果を出力する。一実施形態に係るユーザ端末１１０は、ターゲット音声認識の認識結果を表示する。あるいは、ユーザ端末１１０は、認識結果に関連する動作を行い、その動作結果を出力する。

図４に示された各ステップには、図１～図３を参照して前述した事項がそのまま適用されるため、より詳細な説明は省略する。

図５は、一実施形態により環境情報を説明するための図である。

図５を参照すると、一実施形態に係る環境情報５１０は、ノイズ情報５２０及び距離情報５３０のうち少なくとも一方を含む。図５では、説明の便宜のために環境情報５１０の実施形態が図示されているが、その他にも、音声信号がユーザ端末に入力される状況を示す情報であれば制限されることなく含まれてもよい。

ノイズ情報５２０は、音声信号に含まれるノイズに関する情報を示す情報であり得る。一般的にユーザが位置する場所により音声信号に含まれるノイズの種類が変わるため、ノイズ情報５２０は、音声信号が室内又は室外で入力されているかを示す。さらに、ノイズ情報５２０は、室内の場合を細部的に分類して、その音声信号が家、図書館、カフェ、事務室、車などで入力されたことを示す。また、ノイズ情報５２０は、室外の場合を細部的に分類して、その音声信号が道路、公園、広場、浜辺などで入力されたことを示す。

距離情報５３０は、ユーザ端末から音声信号を発話したユーザまでの距離を示す情報である。距離情報５３０は、音声信号が近距離又は遠距離で入力されたことを示す。例えば、ユーザがユーザ端末を自分の口の近くに近接させて発話した場合、距離情報５３０は音声信号が近距離で入力されていることを示す。あるいは、室内に位置するユーザが一定の距離以上離れたユーザ端末（例えば、スマートスピーカ）に対して発話した場合、距離情報５３０は、音声信号が遠距離で入力されていることを示す。

あるいは、距離情報５３０は、単に近距離、遠距離に区分するのではなく、具体的な距離数値を含んでもよい。

図６は、更なる実施形態に係るユーザ端末の認識方法を示す図である。

図６を参照すると、更なる実施形態に係るユーザ端末で実行される認識方法が示されている。前述した説明は、音声認識のためのモデルがサーバに位置する場合を基準としたが、場合に応じて、モデルはユーザ端末内に位置してもよく、図６はこのような場合の認識方法を示す。

ステップＳ６１０において、ユーザ端末にユーザから基準音声信号が入力される。基準音声信号は、認識すべきターゲット音声信号がユーザ端末に入力される前に、ユーザがユーザ端末を用いることによってユーザ端末に入力された音声信号であり得る。

ステップＳ６２０において、ユーザ端末は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定する。特性パラメータは、音声認識のためのモデルを直接的に変更することなく、ユーザに個人化された音声認識を実行可能にするパラメータであり得る。

ステップＳ６３０において、ユーザ端末に、ユーザから認識すべきターゲット音声信号が入力される。例えば、ユーザ端末は、音声認識命令と共に入力された音声信号をターゲット音声信号として識別し得る。

ステップＳ６４０において、ユーザ端末は、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。ユーザ端末は、モデルに入力されるターゲット音声信号の特徴ベクトルに特性パラメータを適用し、あるいはモデルから分類されるクラス情報に特性パラメータを用いることにより、モデルを直接的に変更することなくユーザに個人化された音声認識を行うことができる。

ステップＳ６５０において、ユーザ端末は、ターゲット音声信号の認識結果を出力する。一実施形態に係るユーザ端末は、ターゲット音声認識の認識結果を表示する。あるいは、ユーザ端末は認識結果に関連する動作を行い、その動作結果を出力する。

図６に示された各ステップには図１～図３を参照して前述した事項が適用され得るため、より詳細な説明は省略する。また、図６では、環境情報を更に用いる場合については明らかに説明していないが、図４及び図５を参照して前述した事項は、図６においても同様に適用され得るため、より詳細な説明は省略する。

図７は、一実施形態に係るユーザ端末を示す図である。

図７を参照すると、ユーザ端末１１０は、メモリ７１０、プロセッサ７２０及びマイクロホン７３０を含む。ユーザ端末１１０は、トランシーバー７４０及びセンサ７５０を更に含む。メモリ７１０、プロセッサ７２０、マイクロホン７３０、トランシーバー７４０及びセンサ７５０は、バス７６０を介してデータをやり取りする。

メモリ７１０は、揮発性メモリ及び不揮発性メモリを含んでもよく、バス７６０を介して受信された情報を格納する。メモリ７１０は、プロセッサ７２０によって実行可能な少なくとも１つの命令語を含み得る。また、メモリ７１０は、先に説明した特性パラメータを格納する。

プロセッサ７２０は、メモリ７１０に格納された命令語、あるいはプログラムを実行する。プロセッサ７２０は、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ユーザから認識すべきターゲット音声信号が入力され、ターゲット音声信号の認識結果を出力する。ここで、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。

マイクロホン７３０は、ユーザ端末１１０に取り付けられてユーザから基準音声信号、ターゲット音声信号が入力される。

トランシーバー７４０は、特性パラメータとターゲット音声信号をサーバに送信し、サーバからターゲット音声信号の認識結果を受信する。図６を参照して説明したように、音声認識のためのモデルがユーザ端末１１０に存在する場合には、トランシーバー７４０が省略されてもよい。

センサ７５０は、音声信号が入力されるときの環境情報を検出する。例えば、センサ７５０は、ユーザ端末１１０からユーザまでの距離を測定するための装置として、例えば、イメージセンサ、赤外線センサ、ライダーセンサなどを含んでもよい。センサ７５０はユーザを撮影して映像を出力したり、ユーザに赤外線を放射してユーザにより反射して返ってくる赤外線の飛行時間を検出し得る。このようなセンサ７５０の出力データに基づいて、ユーザ端末１１０からユーザまでの距離が測定される。図２を参照して説明したように、環境情報が利用されない場合にはセンサ７５０が省略されてもよい。

その他に、ユーザ端末１１０には前述した事項が適用され得るため、より詳細な説明は省略する。

図８は、一実施形態に係るサーバを示す図である。

図８を参照すると、サーバ１２０は、メモリ８１０、プロセッサ８２０及びトランシーバー８３０を含む。メモリ８１０、プロセッサ８２０及びトランシーバー８３０は、バス８４０を介してデータをやり取りすることができる。

メモリ８１０は、揮発性メモリ及び不揮発性メモリを含んでもよく、バス８４０を介して受信された情報を格納する。メモリ８１０は、プロセッサ８２０によって実行可能な少なくとも１つの命令語を含んでもよい。また、メモリ８１０は、先に説明した音声認識のためのモデルを格納する。

プロセッサ８２０は、メモリ８１０に格納された命令語、あるいはプログラムを実行する。プロセッサ８２０は、ユーザから入力された基準音声信号に基づいて決定されたユーザの音声に個人化された特性パラメータをユーザ端末から受信し、認識の対象となるユーザのターゲット音声信号をユーザ端末から受信し、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識し、ターゲット音声信号の認識結果をユーザ端末に送信する。

トランシーバー８３０は、ユーザ端末から特性パラメータとターゲット音声信号を受信し、ユーザ端末にターゲット音声信号の認識結果を送信する。

その他に、サーバ１２０には前述した事項が適用され得るため、より詳細な説明は省略する。

上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素とソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、算術演算論理装置（ＡＬＵ：ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、プログラマブル論理装置（ＰＬＵ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの１つ以上の組合せを含み、所望の通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ記録媒体又は装置、あるいは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読取可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読取可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

以上のように、実施形態を限られた図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行され、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わされ、あるいは他の構成要素又は均等物によって代替又は置換される場合も適切な結果を達成することができる。

Claims

ユーザ端末で実行される認識方法において、
ユーザから入力された基準音声信号に基づいて前記ユーザの音声に個人化された特性パラメータを決定するステップと、
前記ユーザから認識の対象となるターゲット音声信号が入力されるステップと、
前記ターゲット音声信号の認識結果を出力するステップと、
を含み、
前記ターゲット音声信号の認識結果は、前記特性パラメータ及び前記の認識のためのモデルに基づいて決定され、
前記特性パラメータを決定するステップは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、前記特性パラメータをタイプごとに決定する、
認識方法。
前記特性パラメータは、前記モデルに入力される前記ターゲット音声信号の特徴ベクトルに適用され、前記モデルから分類するためのクラス情報を含む、請求項１に記載の認識方法。
前記特性パラメータは、前記ターゲット音声信号の特徴ベクトルを正規化するための正規化情報を含み、
前記ターゲット音声信号の認識結果は、前記モデルに入力される前記ターゲット音声信号の特徴ベクトルを、前記正規化情報に基づいて正規化することによって決定される、請求項１に記載の認識方法。
前記特性パラメータは、前記ユーザの音声的な特徴を示す識別情報を含み、
前記ターゲット音声信号の認識結果は、前記モデルに前記ターゲット音声信号の特徴ベクトルと共に識別情報を入力することにより決定される、請求項１に記載の認識方法。
前記特性パラメータは、前記モデルから分類するためのクラス情報を含み、
前記ターゲット音声信号の認識結果は、前記モデルにおいて前記ターゲット音声信号の特徴ベクトルから推定される値を前記クラス情報と比較することによって決定される、請求項１に記載の認識方法。
前記環境情報は、前記基準音声信号に含まれるノイズ情報と、前記ユーザ端末から前記基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含む、請求項１に記載の認識方法。
前記ターゲット音声信号の認識結果は、前記基準音声信号が入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうち前記ターゲット音声信号が入力されるときの環境情報に基づいて選択された特性パラメータを用いて決定される、請求項１に記載の認識方法。
前記特性パラメータを決定するステップは、複数のユーザを基準として決定された基本パラメータに前記基準音声信号から取得した個人パラメータを反映することにより前記特性パラメータを決定する、請求項１に記載の認識方法。
前記基準音声信号は、前記ターゲット音声信号が前記ユーザ端末に入力される以前に前記ユーザが前記ユーザ端末を用いることで前記ユーザ端末に入力された音声信号である、請求項１に記載の認識方法。
前記ターゲット音声信号と前記特性パラメータをサーバに送信するステップと、
前記サーバから前記ターゲット音声信号の認識結果を受信するステップと、
を更に含み、
前記ターゲット音声信号の認識結果は前記サーバで生成される、請求項１に記載の認識方法。
前記ターゲット音声信号の認識結果は前記ユーザ端末で生成される、請求項１に記載の認識方法。
ユーザ端末に入力されたターゲット音声信号を認識するサーバの認識方法において、
ユーザから入力された基準音声信号に基づいて決定された前記ユーザの音声に個人化された特性パラメータを、前記ユーザ端末から受信するステップと、
認識の対象となる前記ユーザのターゲット音声信号を前記ユーザ端末から受信するステップと、
前記特性パラメータ及び前記の認識のためのモデルに基づいて、前記ターゲット音声信号を認識するステップと、
前記ターゲット音声信号の認識結果を前記ユーザ端末に送信するステップと、
を含み、
前記特性パラメータは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、タイプごとに予め決定される、
認識方法。
前記特性パラメータは、前記ターゲット音声信号を正規化するための正規化情報、前記ユーザの音声的な特徴を示す識別情報、及び前記モデルから分類するためのクラス情報のうち少なくとも１つを含む、請求項１２に記載の認識方法。
前記特性パラメータは、前記ターゲット音声信号を正規化するための正規化情報を含み、
前記ターゲット音声信号を認識するステップは、前記ターゲット音声信号の特徴ベクトルを前記正規化情報に基づいて正規化し、前記モデルを用いて前記正規化された特徴ベクトルから前記認識結果を取得する、請求項１２に記載の認識方法。
前記特性パラメータは、前記ユーザの音声的な特徴を示す識別情報を含み、
前記ターゲット音声信号を認識するステップは、前記ターゲット音声信号の特徴ベクトルと共に前記識別情報を前記モデルに入力し、前記モデルから前記認識結果を取得する、請求項１２に記載の認識方法。
前記特性パラメータは、前記モデルから分類するためのクラス情報を含み、
前記ターゲット音声信号を認識するステップは、前記モデルにおいて前記ターゲット音声信号の特徴ベクトルから推定される値を前記クラス情報と比較することによって前記ターゲット音声信号を認識する、請求項１２に記載の認識方法。
前記特性パラメータは、前記タイプごとに予め決定された特性パラメータのうち、前記ターゲット音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて選択された特性パラメータである、請求項１２に記載の認識方法。
請求項１乃至請求項１７のいずれか一項に記載の方法を実行させるためのプログラムが記録されたコンピュータ読取可能な記録媒体。
プロセッサと、
前記プロセッサによって実行可能な少なくとも１つの命令語を含むメモリと、
を含む、ユーザ端末であって、
前記少なくとも１つの命令語が前記プロセッサで実行されると、前記プロセッサは、ユーザから入力された基準音声信号に基づいて前記ユーザの音声に個人化された特性パラメータを決定し、前記ユーザから認識の対象となるターゲット音声信号が入力され、前記ターゲット音声信号の認識結果を出力し、
前記ターゲット音声信号の認識結果は、前記特性パラメータ及び前記の認識のためのモデルに基づいて決定され、
前記特性パラメータを決定することは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、前記特性パラメータをタイプごとに決定する、
ユーザ端末。
個別ユーザの基準音声信号に基づいて前記個別ユーザの音声に個人化された特性パラメータを決定するステップと、
複数のユーザに対して決定された基本音声認識モデルに前記特性パラメータを適用して前記個別ユーザに個人化された音声認識モデルを取得するステップと、
前記個人化された音声認識モデルに前記個別ユーザのターゲット音声信号を適用して前記ターゲット音声信号の認識結果を取得するステップと、
を含み、
前記特性パラメータを決定するステップは、前記個別ユーザによって基準音声信号が入力されるごとに前記特性パラメータを累積して決定する、
音声認識方法。
前記基準音声信号から前記個別ユーザに対して決定された個人パラメータを取得するステップと、
前記個人パラメータに第１加重値を適用して加重された個人パラメータを取得するステップと、
複数のユーザに対して決定された基本パラメータに第２加重値を適用して加重された基本パラメータを取得するステップと、
前記加重された個人パラメータを前記加重された基本パラメータに追加して前記特性パラメータを取得するステップと、
を更に含む、請求項２０に記載の音声認識方法。
前記基準音声信号及び前記ターゲット音声信号は、前記個別ユーザによってユーザ端末に入力される、請求項２１に記載の音声認識方法。
ユーザ端末において、個別ユーザによって前記ユーザ端末に入力された基準音声信号に基づいたパラメータを決定するステップと、
前記基準音声信号に基づいたパラメータ及び認識の対象となる前記個別ユーザのターゲット音声信号を前記ユーザ端末からサーバに送信するステップと、
前記ユーザ端末において、前記ターゲット音声信号の認識結果を前記サーバから受信するステップと、
を含み、
前記ターゲット音声信号の認識結果は、前記基準音声信号に基づいた前記パラメータ及び複数のユーザに対して決定された基本音声認識モデルに基づいて前記サーバで決定される、音声認識方法。
前記基準音声信号に基づいたパラメータを決定するステップは、前記基準音声信号から前記個別ユーザに対して決定された個人パラメータを取得し、
前記送信するステップは、前記個人パラメータ及び前記ターゲット音声信号を前記ユーザ端末から前記サーバに送信し、
前記基準音声信号に基づいたパラメータは、前記サーバで前記個人パラメータに第１加重値を適用して加重された個人パラメータを取得し、基本パラメータに第２加重値を適用して加重された基本パラメータを取得し、前記加重された個人パラメータを前記加重された基本パラメータに追加して前記基準音声信号に基づいた前記パラメータを取得することにより取得される、請求項２３に記載の音声認識方法。