JP2020086437A

JP2020086437A - 音声認識方法及び音声認識装置

Info

Publication number: JP2020086437A
Application number: JP2019183896A
Authority: JP
Inventors: 知▲ひょん▼ 李; Jihyun Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-21
Filing date: 2019-10-04
Publication date: 2020-06-04
Anticipated expiration: 2039-10-04
Also published as: US11935516B2; EP3657501A1; US20200160838A1; EP3657501B1; CN111292728A; JP7452968B2; CN111292728B; US20210350792A1; US11100916B2; KR20200059703A

Abstract

【課題】音声認識方法及び音声認識装置において音声認識結果の正確度を改善すること。【解決手段】音声認識方法は、音声入力に基づいて候補テキストに対する第１スコアを決定するステップと、音声入力に基づいて言語モデルの出力に適用される加重値を決定するステップと、加重値が適用された第２スコアを取得するために、言語モデルから出力された前記候補テキストに対する第２スコアに加重値を適用するステップと、第１スコアと加重値が適用された第２スコアとに基づいて前記候補テキストのうちターゲット候補テキストを選択するステップと、選択されたターゲット候補テキストを音声入力の少なくとも一部に対応するターゲットテキストとして決定するステップとを含む。【選択図】図２

Description

本発明の実施形態は、音声認識技術に関する。

音声認識技術は、人がコミュニケーションするために話す音声をコンピュータが解釈して文字データに変換する技術であり、便利さを所望するユーザの要求に応じて急速に発展している。最近、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）を用いて音声認識を行う技術が盛んに研究されている。ニューラルネットワークは、人の生物学的な神経細胞の特性を数学的な表現によってモデリングしたモデルであり、人が有している学習という能力を模倣したアルゴリズムを用いる。ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して比較的に正しい出力を生成することのできる一般化能力を有し、このような一般化能力の長所により音声認識技術の分野でニューラルネットワークが幅広く利用されている。

本発明の目的は、音声認識技術を提供することにある。

一実施形態に係る音声認識方法は、音声入力に基づいて候補テキストに対する第１スコアを決定するステップと、前記音声入力に基づいて言語モデルの出力に適用される加重値を決定するステップと、加重値が適用された第２スコアを取得するために、前記言語モデルから出力された前記候補テキストに対する第２スコアに前記決定された加重値を適用するステップと、前記第１スコアと前記加重値が適用された第２スコアとに基づいて、前記候補テキストのうちターゲット候補テキストを選択するステップと、前記選択されたターゲット候補テキストを前記音声入力の少なくとも一部に対応するターゲットテキストとして決定するステップとを含む。

前記加重値を決定するステップは、前記音声入力と以前時点で決定されたターゲットテキストに基づいて、現在時点で前記言語モデルの出力に適用される加重値を決定するステップを含み得る。

前記以前時点で決定されたターゲットテキストは、音声認識の開始時点から前記現在時点のすぐ以前時点まで決定された１つ以上のターゲットテキストのうちの１つ又はいずれかの組合せを含み得る。

前記加重値を決定するステップは、前記音声入力及びコンテキスト情報に基づいて前記加重値を決定するステップを含み得る。

前記加重値を決定するステップは、前記音声入力、以前時点で決定されたターゲットテキスト及びコンテキスト情報に基づいて、現在時点で前記言語モデルの出力に適用される加重値を決定するステップを含み得る。

前記加重値を決定するステップは、前記音声入力から特徴値を抽出するステップと、前記加重値を決定するためにニューラルネットワーク基盤の加重値決定器に前記特徴値を提供するステップとを含み得る。

前記ターゲット候補テキストを選択するステップは、前記候補テキストのうち前記第１スコアと前記加重値が適用された第２スコアの合計が最も大きい候補テキストを前記ターゲット候補テキストとして選択するステップを含み得る。

前記第１スコアを決定するステップは、ニューラルネットワーク基盤のエンコーダを用いて前記音声入力から特徴値を抽出するステップと、ニューラルネットワーク基盤のデコーダを用いて前記抽出された特徴値から前記候補テキストそれぞれに対する第１スコアを決定するステップとを含み得る。

前記言語モデルは、複数の言語モデルを含み、前記加重値を決定するステップは、前記複数の言語モデルそれぞれの出力に適用される加重値を決定し得る。

前記複数の言語モデルは、第１言語モデル及び第２言語モデルを含み、前記第１言語モデルは、前記候補テキストに対する第２スコアを出力し、前記第２言語モデルは、前記候補テキストに対する第３スコアを出力し、前記加重値を決定するステップは、前記第２スコアに適用される第１加重値と前記第３スコアに適用される第２加重値とを決定し、前記ターゲット候補テキストを選択するステップは、前記第１スコア、前記第１加重値が適用された第２スコア及び前記第２加重値が適用された第３スコアに基づいて、前記候補テキストのうち前記ターゲット候補テキストを選択するステップを含み得る。

前記言語モデルは、複数の言語モデルを含み、前記加重値を決定するステップは、前記複数の言語モデルのうち前記加重値が適用される１つ以上の言語モデルを選択するステップと、前記選択された１つ以上の言語モデルの出力に適用される加重値を決定するステップとを含み得る。

前記言語モデルは、以前時点で決定されたターゲットテキストに基づいて前記以前時点で決定されたターゲットテキストに続く次のターゲットテキストを決定するための各候補テキストに対応する第２スコアを出力し得る。

前記第１スコアを決定するステップは、以前の時間区間におけるニューラルネットワーク基盤のデコーダの出力及び前記音声入力に基づいて前記第１スコアを決定するステップを含み得る。

前記言語モデルは、複数の言語モデルを含み、前記言語モデルそれぞれの加重値は、前記音声入力のタイプに基づいて動的に調整され得る。

前記音声入力のタイプは、前記音声入力のコンテキスト、前記音声認識が実行される環境、前記音声入力に含まれた単語のタイプ、前記音声認識が実行される装置のタイプ、及び前記音声入力が実行される音声のタイプのいずれか１つ又はいずれかの組合せあり得る。

一実施形態に係る音声認識装置は、ユーザから音声入力を受信する音声インタフェースと、前記音声入力に基づいて音声認識を行うプロセッサと、を含み、前記プロセッサは、前記音声入力に基づいて候補テキストに対する第１スコアを決定し、前記音声入力に基づいて言語モデルの出力に適用される加重値を決定し、加重値が適用された第２スコアを取得するために、前記言語モデルから出力された前記候補テキストに対する第２スコアに前記決定された加重値を適用し、前記第１スコアと前記加重値が適用された第２スコアとに基づいて、前記候補テキストのうちターゲット候補テキストを選択し、前記選択されたターゲット候補テキストを前記音声入力の少なくとも一部に対応するターゲットテキストとして決定する。

他の実施形態に係る音声認識装置は、音声を受信するセンサと、言語モデル及び命令を格納するメモリと、前記命令を実行するプロセッサと、を含み、前記プロセッサは、前記命令を行うことによって、前記音声を符号化することをエンコーダに実行させ、前記符号化された音声に基づいて候補テキストの第１スコアを決定することをデコーダに実行させ、前記エンコーダの出力に基づいて前記言語モデルそれぞれに対応する加重値を決定することを加重値決定器に実行させ、前記言語モデルそれぞれに基づいて前記候補テキストに対応する第２スコアを決定し、加重値が適用された第２スコアを取得するために、前記言語モデルそれぞれから出力された前記候補テキストに対する第２スコアに前記決定された加重値を適用し、前記候補テキストのうち、前記第１スコアの合計及び前記ターゲット候補テキストに対応する加重値が適用された第２スコアに基づいて前記音声の一部に対応するターゲット候補テキストを認識する。

前記エンコーダは前記音声から特徴値を抽出し、前記デコーダは、前記特徴値に基づいて前記第１スコアと前記候補テキストを出力し得る。

前記加重値決定器は、前記音声のうちユーザ名が検出されたことに応答して、前記音声認識装置を実行する装置に格納された連絡先情報に対応する言語モデルの加重値を増加させ得る。

前記加重値決定器は、以前に決定されたターゲットテキスト及び前記エンコーダの出力に基づいて前記加重値を決定し得る。

前記加重値決定器は、前記エンコーダの出力及びコンテキスト情報に基づいて前記加重値を決定し、前記コンテキスト情報は、前記音声を入力するユーザに対するユーザ情報、時間情報、位置情報、言語情報、音声認識ヒストリー情報、及び現在動作中であるアプリケーション情報のいずれか１つ又はいずれかの組合せを含み得る。

前記エンコーダ、前記デコーダ、及び前記加重値決定器のそれぞれは、ニューラルネットワークに基づいて実行される。

一実施形態によれば、音声認識が実行される状況やドメインにより１つ以上の言語モデルの出力に適用される加重値を動的に決定することによって音声認識結果の正確度を改善させることができる。

一実施形態によれば、状況により変わるユーザの発話タイプに応じて適切な言語モデルを選択したり、各言語モデルの影響を適切に調整することによって、音声認識結果の正確度を改善させることができる。

一実施形態に係る音声認識システムの概要（ｏｖｅｒｖｉｅｗ）を提供する図である。一実施形態に係る音声認識方法の動作を説明するためのフローチャートである。一実施形態に係る音声認識の過程を説明するための図である。一実施形態に係る音声認識の過程を説明するための図である。一実施形態に係る音声認識の過程を説明するための図である。他の実施形態に係る音声認識の過程を説明するための図である。他の実施形態に係る音声認識の過程を説明するための図である。更なる実施形態に係る音声認識の過程を説明するための図である。更なる実施形態に係る音声認識の過程を説明するための図である。更なる実施形態に係る音声認識の過程を説明するための図である。一実施形態に係る音声認識装置の構成を示す図である。

実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

本明細書で用いられる用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付の図面を参照して詳説する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素は同じ参照符号を付与し、これに関する重複説明は省略することにする。

図１は、一実施形態に係る音声認識システムの概要を提供する図である。

図１を参照すると、音声認識システム１００は、サーバを含む１つ以上のコンピュータ又はユーザ端末で実行される。一実施形態に係るユーザは、音声入力１２０を介して特定のコマンドを音声認識システム１００に指示し、音声認識システム１００は、ユーザの音声入力１２０を分析して音声入力１２０に対応するテキスト１４０、例えば「ＣａｌｌｔｏＪａｎｅ」を推定する。音声認識システム１００は、推定されたテキスト１４０からテキスト１４０に含まれているユーザのコマンドを抽出し、抽出されたコマンドを実行して実行結果をユーザに提供する。音声入力１２０は、単語シーケンスを含んでもよく、それぞれの単語シーケンスは単語（ｗｏｒｄ）、句（ｐｈｒａｓｅ）、又は、文章（ｓｅｎｔｅｎｃｅ）を含む。音声認識システム１００は、上記のようにユーザの音声入力１２０に含まれたコマンドを認識する他に、機械翻訳及び人−機械間の対話などの様々な応用で活用されることができる。

音声認識システム１００は、ユーザから音声入力１２０を受信し、音声入力１２０をテキスト１４０に変換するようにプログラムされた音声認識装置１１０を含む。音声認識装置１１０は音声入力を認識し、音声入力に対応するテキストデータを生成する。音声認識装置１１０は、音声入力に含まれた単語をテキストに変換するように構成されたソフトウェアモジュール、ハードウェアモジュール、又はその組合で実現される。一実施形態によれば、音声認識装置１１０は、モバイルフォン、セルラーフォン、スマートフォン、パーソナルコンピュータ、ラップトップ、ノート型パソコン、ネットブック、又はタブレット、携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ；ＰＤＡ）、デジタルカメラ、ゲームコンソール、ＭＰ３プレーヤー、パーソナルマルチメディアプレーヤー（ｐｅｒｓｏｎａｌｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ；ＰＭＰ）、電子ブック（Ｅ−Ｂｏｏｋ）、ナビゲーション、ディスクプレーヤー、セットトップボックス、家庭用電子機器（ｈｏｍｅａｐｐｌｉａｎｃｅ）、通信装置、ディスプレイ装置、又は、その他の電子機器に内蔵されたり、又はそれと相互動作する。また、音声認識装置１１０は、スマート家電機器、知能型車両、自律走行装置、スマートホーム環境、スマートビルディング環境、スマートオフィス環境、スマート電子セキュリティーシステムなどに内蔵されたり、又はそれと相互動作する。また、音声認識装置１１０は、ユーザの体に着用されるウェアラブル機器（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）に含まれて動作したり、これと相互作用する。ウェアラブル機器は、例えば、指輪、時計、メガネ、腕輪、ベルト、バンド、ネックレス、イヤリング、ヘルメット、又は服の形態を有する。

音声認識装置１１０は、音声認識結果の正確度を改善させるために言語モデルデータベース１３０に格納された言語モデルを用いる。言語モデルは、自然語処理エンジンを構成するコンポーネントとして、音声入力の認識結果が自然な自然語表現になるよう重要な役割を行う。言語モデルは、それぞれの部分単語（ｓｕｂｗｏｒｄ）、単語（ｗｏｒｄ）、句（ｐｈｒａｓｅ）及び／又は文章に関する確率値を提供し、音声認識装置１１０は、このような言語モデルが提供するテキスト表現と該当テキスト表現の確率値に基づいて音声認識結果を決定することができる。音声認識のために１つ又は数個の言語モデルが用いられる。音声認識に用いられる言語モデルとして、例えば、音声入力のドメインに独立的な一般言語モデル、各ドメインごとに主に用いられるスピーチ表現が含まれたコーパス（ｃｏｒｐｕｓ）で学習された言語モデル、及びユーザ情報やスマートフォンのようなユーザ端末に格納された情報（例、連絡先）に基づいた個人化された言語モデル（ｐｅｒｓｏｎａｌｉｚｅｄｌａｎｇｕａｇｅｍｏｄｅｌ；ＰＬＭ）があり得る。

音声認識が実行される状況やドメインに応じてユーザの発話（ｓｐｅｅｃｈ）タイプと音声入力に含まれる単語やスピーチパターンが異なることがある。例えば、ＴＶで用いられる音声認識の場合、音声入力は、主に「番組検索」、「チャネル選択」又は「ボリューム調整」のようなＴＶの機能に関する発話が多いのであろう。スマートフォンで用いられる音声認識の場合、音声入力は、主にスマートフォンの機能に関する発話が多いのであろう。また、ユーザが音声認識を介してスマートフォンでＳＭＳ（ｓｈｏｒｔｍｅｓｓａｇｅｓｅｒｖｉｃｅ）を利用したり、地図で特定の食堂の位置を検索したり、又は、友人に電話しようとしたりに応じて、音声入力に含まれる単語やスピーチパターンが変わり得る。したがって、音声認識では、音声認識が実行されるドメインで状況に応じて言語モデルを適切に使用する場合に音声認識の性能を保障することができる。

スマートフォン又は様々な家電機器を統合的に管理するスマートホームのように、ユーザの発話に対する様々なドメインを考慮して音声認識を行わなければならない場合、発話タイプに応じて、言語モデルの影響を調整することが求められる。例えば、ユーザが音声認識を介してスマートフォン上で特定の友人に電話しようとする場合、ユーザの音声入力により該当友人の名前をスムーズに区別するため、個人化された言語モデルの影響を高く設定することが好ましい。異なる例として、ユーザが音声認識によりスマートフォンで特定のアプリケーションを実行しようとする場合、音声認識結果を決定することにおいて、スマートフォンに関する言語モデルの影響を高く設定することが好ましい。

本明細書で説明される実施形態は、音声認識が実行される状況やドメインにより１つ以上の言語モデルの出力に適用される加重値を動的に決定することによって、より正確な音声認識結果が導き出されるようにする技術的手段を提供することができる。例えば、音声認識装置１１０は、音声入力に基づいて音声入力のドメインを分類し、分類されたドメインにより言語モデルの出力に適用される結合加重値を調整することで、音声入力のドメインでも状況に応じて音声認識結果に及ぼす言語モデルの影響を効率よく調整することができる。

図２は、一実施形態に係る音声認識方法の動作を説明するためのフローチャートである。音声認識方法は、本明細書で説明される音声認識装置によって実行される。

図２を参照すると、ステップＳ２１０において、音声認識装置は、音声入力を受信する。ユーザは、音声命令のためにマイクロホンのような音声インタフェースを介して音声を入力し、入力された音声の音声信号は音声認識装置に伝えられる。

ステップＳ２２０において、音声認識装置は、音声入力に基づいて候補テキストに対する第１スコアを決定する。例えば、音声認識装置は、現在の分析対象になる音声入力の部分が候補テキスト「ｃａｌｌ」に該当する第１スコア、及び候補テキスト「ｓｅｎｄ」に該当する第１スコアを決定する。音声認識装置は、「ｃａｌｌ」及び「ｓｅｎｄ」の他の候補テキストそれぞれに対応する第１スコアを決定する。候補テキストは、様々な部分単語、単語、句、及び／又は文章を含み、第１スコアは、各候補テキストに対応する確率値又は期待値を示す。例えば、候補テキスト「ｃａｌｌ」に対する第１スコアが０．７５であると仮定すれば、これは現在の認識対象となる音声入力の部分がテキスト「ｃａｌｌ」に該当する確率が０．７５（相対的な値）になることを意味する。

一実施形態に係る音声認識装置は、ニューラルネットワーク基盤のエンコーダ−デコーダ言語認識モデルを用いて候補テキストに対する第１スコアを決定することができる。音声認識装置は、以前の時間区間におけるニューラルネットワーク基盤のデコーダの出力及び音声入力に基づいて第１スコアを決定する。音声認識装置は、エンコーダを用いて音声入力から特徴値（例、特徴ベクトル）を抽出し、デコーダを用いて該当抽出された特徴値から候補テキストそれぞれに対する第１スコアを決定する。エンコーダは、音声入力を抽象化された特徴ベクトルに変換し、デコーダは、該当特徴ベクトルに基づいて候補テキストに対する確率値又は期待値を決定する。

以下では、説明の便宜のためにエンコーダ−デコーダ基盤の音声認識モデルを中心に実施形態について説明するが、実施形態の範囲がエンコーダ−デコーダ基盤の音声認識モデルを用いる実施形態に限定されることはない。例えば、音声認識装置は、音響モデルと基本言語モデルを含む言語認識モデルを用いて候補テキストに対する第１スコアを決定してもよい。音響モデルは、音声入力から抽出された特徴に基づいて音声入力を音素（ｐｈｏｎｅｍｅ）単位で認識した結果を出力し、基本言語モデルは、音素単位の認識結果に基づいて単語間の連結関係に基づいた確率情報を第１スコアとして提供する。

ステップＳ２３０において、音声認識装置は、音声入力に基づいて言語モデルの出力に適用される加重値を決定する。音声認識装置は、音声入力から特徴値を抽出し、抽出された特徴値に基づいて加重値を決定する。加重値によって言語モデルの出力が言語認識結果に及ぼす程度が調整される。例えば、言語モデルＬの出力に適用される加重値が大きいほど、言語モデルＬの比重又は依存度が大きくなる。

実施形態により、音声認識に複数の言語モデルが用いられ、この場合に音声認識装置は、言語モデルそれぞれの出力に適用される加重値を決定する。言語モデルそれぞれの加重値は、音声入力のタイプに基づいて動的に調整される。ここで、音声入力のタイプは、例えば、音声入力のコンテキスト、音声認識が実行される環境、音声入力に含まれた単語のタイプ、音声認識が実行される装置のタイプ、及び音声入力が実行される音声のタイプのいずれか１つ又はいずれかの組合せであってもよい。

一実施形態では、言語モデルが候補テキストに対する第２スコアを出力する第１言語モデル、及び候補テキストに対する第３スコアを出力する第２言語モデルを含む場合、音声認識装置は、第２スコアに適用される第１加重値と第３スコアに適用される第２加重値を決定する。他の実施形態において、音声認識装置は、複数の言語モデルのうち加重値が適用される１つ以上の言語モデルを選択し、選択された１つ以上の言語モデルの出力に適用される加重値を決定してもよい。そのため、複数の音声モデルのうち音声認識に必要な言語モデルのみを選択的に利用することで効率性が改善される。

一実施形態に係る音声認識装置は、ニューラルネットワーク基盤のエンコーダ−デコーダ言語認識モデルでエンコーダから出力された特徴値を入力にし、該当の特徴値に対応する加重値を出力するニューラルネットワーク基盤の加重値決定器を用いて加重値を決定することができる。加重値決定器は、エンコーダの出力、以前時点におけるデコーダの出力（すなわち、以前時点における認識結果）及びコンテキスト情報のうちの１つ以上が入力され、１つ以上の言語モデルそれぞれの出力に適用される加重値を提供する。一例として、加重値決定器は、各言語モデルに適用される確率を示すベクトル値を加重値として出力し、出力されたベクトル値は、各言語モデルの反映比率を決定するための結合加重値として用いられる。

一実施形態に係る音声認識装置は、音声入力と以前時点で決定されたターゲットテキストに基づいて、現在時点で言語モデルの出力に適用される加重値を決定する。この場合、加重値決定器には、エンコーダの出力と以前時点で決定されたターゲットテキストに関する情報が入力される。以前時点で決定されたターゲットテキストは、音声認識の開始時点から現在時点のすぐ以前時点まで決定された１つ以上のターゲットテキストのうちの１つ又はいずれかの組合せを含む。ターゲットテキストは、音声入力の少なくとも一部に対応するものとして、最終決定されたテキストを意味する。

他の実施形態において、音声認識装置は、音声入力及びコンテキスト情報に基づいて言語モデルの出力に適用される加重値を決定してもよい。この場合、加重値決定器には、エンコーダの出力と別途のコンテキスト情報が入力される。コンテキスト情報は、ユーザの音声入力に関する全ての情報が該当する。例えば、コンテキスト情報は、音声入力を入力するユーザに対するユーザ情報（例、性別、年齢、国籍、アドレス、職場、職業など）、時間情報、位置情報、言語情報、音声認識ヒストリー情報、及び現在動作中であるアプリケーション情報のいずれか１つ又はいずれかの組合せを含む。

更なる実施形態として、音声認識装置は、音声入力、以前時点で決定されたターゲットテキスト及びコンテキスト情報に基づいて、現在時点で言語モデルの出力に適用される加重値を決定してもよい。この場合、加重値決定器には、エンコーダの出力、以前時点で決定されたターゲットテキストに関する情報と別途のコンテキスト情報が入力される。

上記のような加重値決定器は、ユーザの音声入力に対応するレーベル（ｌａｂｅｌ）を出力値として有する学習データを用いて予め学習することができる。学習過程で、加重値決定器は、エンコーダの出力、又は、エンコーダの出力及びデコーダの出力の全てが入力され、入力に対応するレーベルを予測するように学習される。これとは相違して、予測するレーベルがない場合、音声認識モデルの性能点数（例、ＷＥＲ（ｗｏｒｄｅｒｒｏｒｒａｔｅ）、ＢＬＥＵ（ｂｉｌｉｎｇｕａｌｅｖａｌｕａｔｉｏｎｕｎｄｅｒｓｔｕｄｙ）など）が向上するように加重値決定器が学習され得る。

ステップＳ２４０において、音声認識装置は、言語モデルから出力された候補テキストに対する第２スコアに、ステップＳ２３０で決定された加重値を適用する。これによって、加重値が適用された第２スコアが取得される。候補テキストは、部分単語、単語、句、及び文章のいずれか１つであってもよく、第２スコアは、第１スコアと同様に、各候補テキストに対応する確率値又は期待値を示す。言語モデルが複数である場合、各言語モデルが提供する候補テキストは、相互間で同一であってもよい。実施形態により、言語モデルが提供する候補テキストの間には、一部に相違が存在することがある。各言語モデルは、以前時点で決定されたターゲットテキストに基づいて、以前時点で決定されたターゲットテキストに続く次のターゲットテキストを決定するための各候補テキストに対応するスコア（第２スコア、第３スコア、…）を出力する。その後、音声認識装置は、各言語モデルから出力された候補テキストに対するスコアに各言語モデルに対応する加重値を適用する。例えば、ステップＳ２３０で決定された加重値が言語モデルから出力された各候補テキストのスコアに乗算される。

ステップＳ２５０において、音声認識装置は、ステップＳ２２０で決定された第１スコアとステップＳ２４０で加重値が適用された第２スコアに基づいて、候補テキストのうちターゲット候補テキストを選択する。例えば、音声認識装置は、候補テキストのうち第１スコアと加重値が適用された第２スコア間の合計が最も大きい候補テキストをターゲット候補テキストとして選択する。このように、音声認識装置は、各スコアを統合した結果に基づいて１つのターゲット候補テキストを選択することができる。

一実施形態では、言語モデルが候補テキストに対する第２スコアを出力する第１言語モデル、及び該当候補テキストに対する第３スコアを出力する第２言語モデルを含む。第１言語モデル及び第２言語モデルは、同一の候補テキストセットに対して個別的にスコアを決定する。第２スコア及び第３スコアそれぞれに対応する第１加重値及び第２加重値が決定された場合、音声認識装置は、ステップＳ２２０で決定された第１スコア、第１加重値が適用された第２スコア、及び第２加重値が適用された第３スコアに基づいて、候補テキストのうちターゲット候補テキストを選択する。

ステップＳ２６０において、音声認識装置は、ステップＳ２５０で選択されたターゲット候補テキストを音声入力の少なくとも一部に対応するターゲットテキストとして決定する。一実施形態に係る音声認識装置は、ステップＳ２２０ないしステップＳ２６０の過程を繰り返し行って、音声入力の少なくとも一部に対応するターゲットテキストを順次決定し、決定されたターゲットテキストを互いに結合させることで音声入力全体に対応するテキストを決定することができる。

上記のように、音声認識装置は、音声入力に基づいて言語モデルの出力に適用される加重値を動的に調整することにより、状況により変わるユーザの発話タイプに応じて適切な言語モデルを選択したり、各言語モデルの影響を適切に調整し、音声認識結果の正確度を改善させることができる。そのため、音声認識装置は、スマートフォン及びスマートホームのように様々な応用が実行され得るドメインで自然語処理（ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ）を行わなければならない場合に効率よく活用されることができる。

図３は、エンコーダの出力に基づいて加重値を決定する実施形態を説明するための図である。図３を参照すると、言語認識モデルとしてニューラルネットワーク基盤のエンコーダ−デコーダ言語認識モデルが用いられる。エンコーダ−デコーダ言語認識モデルは、様々な復号化ステップにかけて音声入力３１０に対応する全体テキストを構成する単語を順次推定する。まず、エンコーダ３２０に音声入力３１０が入力される。エンコーダ３２０から抽象化された音声入力３１０の特徴値（例、特徴ベクトル）が出力され、該当特徴値は、デコーダ３３０とニューラルネットワーク基盤の加重値決定器３４０に入力される。音声認識装置は、加重値を決定するためにニューラルネットワーク基盤の加重値決定器３４０に特徴値を提供する。

デコーダ３３０は、エンコーダ３２０から受信した特徴値と以前時点で決定された以前ターゲットテキスト３５０に基づいて、候補テキストに対する第１スコアを決定する。もし、音声認識の開始ステップであるため、以前ターゲットテキスト３５０が存在しなれば、デコーダ３３０は、以前ターゲットテキスト３５０なしにエンコーダ３２０から受信した特徴値のみを用いて候補テキストに対する第１スコアを決定することができる。

エンコーダ３２０とデコーダ３３０は、オーディオ信号とオーディオ信号に対応するテキストから構成された学習データに基づいて予め学習している。この場合、学習過程で扱うことができない発話表現が存在することがあり、このような足りない発話表現を補完するために、音声認識の過程で１つ以上の言語モデル３６２，３６４，３６６を用いてもよい。音声認識装置は、様々なドメインにおけるユーザ発話を適切に認識するために複数の言語モデル３６２，３６４，３６６を用いることができる。言語モデル３６２，３６４，３６６は、例えば、ニューラルネットワーク、Ｎ−グラム（ｇｒａｍ）、又は単語／文字列リストなどに基づき、音声入力３１０として提示され得る様々な発話表現を提供することができる。

エンコーダ−デコーダ言語認識モデルでデコーダ３３０が言語モデルの役割を行うが、音声認識の性能をさらに向上させるためには、外部言語モデルとして１つ以上の言語モデル３６２，３６４，３６６が用いられる。一実施形態では、言語モデル３６２，３６４，３６６は、特定のドメインに特化した言語モデルを含む。例えば、言語認識モデルがＴＶでの音声認識のために利用されれば、言語モデル３６２，３６４，３６６は、ＴＶの機能実行に関する候補テキストを提供する言語モデルを含む。

言語モデル３６２，３６４，３６６が第１言語モデル３６２、第２言語モデル３６４及び第３言語モデル３６６を含むと仮定すれば、第１言語モデル３６２、第２言語モデル３６４及び第３言語モデル３６６は、それぞれ以前ターゲットテキスト３５０に基づいて、以前ターゲットテキスト３５０に続く次のターゲットテキストを決定するための候補テキストと該当候補テキストに対応する第２、第３及び第４スコアを提供することができる。例えば、以前ターゲットテキスト３５０として「ｅｖｅｒｙｂｏｄｙ」が決定された場合、第１言語モデル３６２は、「ｅｖｅｒｙｂｏｄｙ」の次に連結される可能性のある「ｎｅｅｄｔｏ」、「ｍｅｔａ」及び「ｎｅａｔ」などを候補テキストとして提供し、「ｅｖｅｒｙｂｏｄｙ」の次に「ｎｅｅｄｔｏ」、「ｍｅｔａ」及び「ｎｅａｔ」のそれぞれが連結される確率を第２スコアとして提供する。この場合、第２言語モデル３６４も「ｅｖｅｒｙｂｏｄｙ」の次に連結される可能性のある「ｎｅｅｄｔｏ」、「ｍｅｔａ」及び「ｎｅａｔ」などの候補テキストに対して、各候補テキストが「ｅｖｅｒｙｂｏｄｙ」の次に連結される確率を第３スコアとして提供する。第３言語モデル３６６の機能も第１言語モデル３６２及び第２言語モデル３６４の機能と同様である。一実施形態によれば、ｏｎ−ｔｈｅ−ｆｌｙｒｅｓｃｏｒｉｎｇ方式により、デコーダ３３０の復号化の各ステップごとに言語モデル３６２，３６４，３６６が提供している第２、第３及び第４スコアが反映される。

加重値決定器３４０は、エンコーダ３２０の出力（例、特徴ベクトル）に基づいて言語モデル３６２，３６４，３６６の出力に適用される加重値を決定する。加重値決定器３４０は、入力されたデータに基づいて各言語モデル３６２，３６４，３６６の出力に適用される加重値を出力するよう学習されたニューラルネットワークであってもよい。加重値決定器３４０は、例えば、第１言語モデル３６２から出力された第２スコアに適用される第１加重値、第２言語モデル３６４から出力された第３スコアに適用される第２加重値、及び第３言語モデル３６６から出力された第４スコアに適用される第３加重値を決定する。このような第１、第２及び第３加重値は、言語モデル３６２，３６４，３６６の出力に対する結合加重値の役割を果たす。一実施形態に係る第１、第２及び第３加重値は、加重値決定器３４０によって値が決定された後、各復号化ステップごとに同じ値に保持される。

他の実施形態において、加重値決定器３４０は、エンコーダ３２０の出力に基づいて言語モデル３６２，３６４，３６６のうち、加重値が適用される１つ以上の言語モデルを選択し、選択された１つ以上の言語モデルの出力に適用される加重値を決定してもよい。入力音声３１０のタイプに応じて、音声認識に適切な言語モデルが選択されて音声認識結果の正確度が改善される。実施形態により、加重値決定器３４０は、選択された言語モデルについてのみ加重値を決定するか、又は選択されていない言語モデルに適用される加重値を「０」に設定する。

エンコーダ３２０の出力に基づき、加重値決定器３４０が加重値を決定することにおいて、音声入力３１０から導き出された情報が考慮され、より正確な音声認識が可能になる。音声認識結果に影響を及ぼす言語モデル３６２，３６４，３６６間の寄与度は加重値決定器３４０によって決定された加重値に応じて相異なるため、音声入力３１０の各タイプに最適化された音声認識が可能となる。音声入力３１０のタイプに関する言語モデルの出力が音声認識結果にさらに多く反映されるよう言語モデル３６２，３６４，３６６に適用される加重値が調整される。音声入力３１０のタイプは多様に定義され得る。例えば、音声認識が駆動される環境（例、ＴＶ、冷蔵庫、スマートフォンなど）になり、スマートフォンにおける音声認識で主な発話の種類（例、電話通話、文字送信、アプリケーション実行、検索など）になり、音声入力３１０に含まれた単語の種類（例、人の名前、食堂／ホテルなどのような特定カテゴリーの単語など）になる。

音声認識装置は、加重値決定器３４０によって決定された加重値を言語モデル３６２，３６４，３６６の出力に適用する（３４５）。例えば、音声認識装置は、第１言語モデル３６２から出力された第２スコアに第１加重値を乗算し、第２言語モデル３６４から出力された第３スコアに第２加重値を乗算し、第３言語モデル３６６から出力された第４スコアに第３加重値を乗算することができる。

音声認識装置は、候補テキストのうち１つのターゲット候補テキストを選択する。例えば、音声認識装置は、第１スコア、第１加重値が乗算された第２スコア、第２加重値が乗算された第３スコア、及び第３加重値が乗算された第４スコアを合計（ｓｕｍ）３５５し、全体候補テキストのうちその合計が最も大きい候補テキストをターゲット候補テキストとして選択する。例えば、音声認識装置は、次の数式（１）により各候補テキストに対する最終スコアを決定することができる。

［数式（１）］
ｐ（ｓ）＝Ｄｅ（ｓ）＋ｗ_ａ×ＬＭ_ａ（ｓ）＋ｗ_ｂ×ＬＭ_ｂ（ｓ）＋ｗ_ｃ×ＬＭ_ｃ（ｓ）
数式（１）において、ｐ（ｓ）は特定の候補テキストｓに対する最終スコアであり、Ｄｅ（ｓ）はデコーダ３３０から出力された候補テキストｓに対する第１スコアを示す。ＬＭ_ａ（ｓ）、ＬＭ_ｂ（ｓ）及びＬＭ_ｃ（ｓ）は、それぞれ候補テキストｓに対する第１言語モデル３６２、第２言語モデル３６４、及び第３言語モデル３６６の第２、第３及び第４スコアを示す。ｗ_ａ、ｗ_ｂ及びｗ_ｃは、加重値決定器３４０によって決定された第１、第２、及び第３加重値を示す。音声入力３１０のタイプ、音声入力３１０が行われる環境及び／又は音声認識が実行される機器の種類などにより、ｗ_ａ、ｗ_ｂ及びｗ_ｃの値が調整される。例えば、音声入力３１０のタイプと関連度の高い言語モデルに適用される加重値が、関連度の低い異なる言語モデルに適用される加重値よりも大きく設定される。音声認識装置は、各候補テキストに対するｐ（ｓ）のうち、最も大きいｐ（ｓ）を示す候補テキストをターゲット候補テキストとして選択する。

音声認識装置は、上記のような過程により選択されたターゲット候補テキストを現在の復号化ステップにおける最終的な現在ターゲットテキスト３７０として決定する。各復号化ステップごとに、現在ターゲットテキスト３７０は１つの単語又は部分単語ずつ決定されることができる。

図４は、エンコーダの出力に基づいて加重値を決定する一実施形態を説明するためのフローチャートである。本実施形態については図２及び図３を参照して説明した内容が適用され、重なる内容に対する説明は省略する。

図４を参照すると、ステップＳ４１０において、音声認識装置は音声入力を受信する。ステップＳ４２０において、音声認識装置は、エンコーダ３２０を用いて音声入力を符号化する。符号化を介して音声入力の抽象化された特徴値が抽出される。ステップＳ４４０において、音声認識装置は、デコーダ３３０を用いて符号化された音声入力に対して復号化を行い、候補テキストに対する第１スコアを算出する。

ステップＳ４３０において、音声認識装置は、エンコーダ３２０の出力を入力にする加重値決定器３４０を用いて言語モデルの出力に適用される加重値を決定する。ここで、言語モデルは１つ以上の言語モデルを含んでもよく、加重値決定器３４０は各言語モデルの出力に適用される加重値を決定してもよい。ステップＳ４５０において、音声認識装置は、言語モデルから各候補テキストに対する第２スコアを取得する。言語モデルは、以前時点で決定された以前ターゲットテキストに基づいて、以前ターゲットテキストの次に続く現在ターゲットテキストを決定するための候補テキストそれぞれに対応する第２スコアを提供することができる。

ステップＳ４６０において、音声認識装置は、候補テキストの第２スコアにステップＳ４３０で決定された加重値を適用する。ステップＳ４７０において、音声認識装置は、ステップＳ４４０で決定された第１スコアと、ステップＳ４６０で加重値が適用された第２スコアに基づいて、候補テキストのうちターゲット候補テキストを選択し、選択されたターゲット候補テキストを現在時点におけるターゲットテキストとして決定する。音声認識装置は、例えば、同一の候補テキストそれぞれに対して、第１スコアと加重値が適用された第２スコアを合算し、合算された結果、スコア値の最も大きい候補テキストをターゲット候補テキストとして決定する。ステップＳ４８０において、音声認識装置は、ステップＳ４７０で決定されたターゲットテキストを出力する。ステップＳ４７０で決定されたターゲットテキストは、次の復号化ステップで言語モデルとデコーダ３３０の入力となり、次のターゲットテキストを決定するために、ステップＳ４４０，Ｓ４５０，Ｓ４６０，Ｓ４７０，Ｓ４８０の過程が繰り返し行われる。

図５は、音声認識装置がｎ−ベストリスコアリング（ｎ−ｂｅｓｔｒｅｓｃｏｒｉｎｇ）方式を用いて音声認識を行う実施形態を示す。エンコーダ５２０は、音声入力５１０から抽象化された特徴値を抽出する。デコーダ５３０は、エンコーダ５２０から出力された特徴値に基づいて復号化を行い、音声入力５１０に対応する候補単語シーケンス５５０を出力する。例えば、デコーダ５３０は、復号化が完了すると、第１スコア（例、確率）が高い順に、ｎ個の候補単語シーケンス５５０を出力する。

言語モデル５６０は、デコーダ５３０の出力に基づいて候補単語シーケンス５５０と候補単語シーケンス５５０それぞれに対応する第２スコアを提供する。言語モデル５６０は、１つ又は複数の言語モデルを含んでもよく、言語モデル５６０の複数の言語モデルを含む場合、各言語モデルは、各言語モデルごとに候補単語シーケンス５５０それぞれに対応するスコアを提供することができる。

ニューラルネットワーク基盤の加重値決定器５４０は、エンコーダ５２０の出力に基づいて言語モデル５６０の出力に適用される加重値を決定する。言語モデル５６０が複数である場合、加重値決定器５４０は、各言語モデルの出力に適用される加重値を決定する。音声認識装置は、加重値決定器５４０によって決定された加重値を言語モデル５６０から出力された第２スコアに適用５４５する。例えば、候補単語シーケンス５５０それぞれに対応する第２スコアに加重値が乗算される。

ターゲットテキスト決定器５７０は、デコーダ５３０から出力された候補単語シーケンス５５０の第１スコアと、候補単語シーケンス５５０の加重値が適用された第２スコアに基づいて、候補単語シーケンス５５０のうちターゲット単語シーケンスを選択する。例えば、ターゲットテキスト決定器５７０は、候補単語シーケンス５５０のうち、最終スコアの最も大きい候補単語シーケンスをターゲット単語シーケンスとして選択する。その後、ターゲットテキスト決定器５７０は、選択されたターゲット単語シーケンスをターゲットテキスト５８０として出力する。

図６は、エンコーダの出力及び以前ターゲットテキストに基づいて加重値を決定する実施形態を説明するための図である。本実施形態について、図３を参照して説明した内容が適用され、重なる内容に対する説明は省略する。

１つの音声入力６１０を認識する過程においても、各言語モデルに対する加重値が音声入力６１０を構成しているテキストによって別々に適用されなければならない場合がある。例えば、音声認識のための音声入力６１０として「ＣａｌｌｔｏＣｈａｅｗｏｎ」に対応する音声信号がスマートフォンに入力されたと仮定する。ここで、音声入力６１０の前の部分「Ｃａｌｌｔｏ」は、スマートフォンの音声認識において主に入力される発話表現であって、スマートフォンのドメインに関する言語モデルや一般言語モデルを用いて容易に認識することができる。ただし、後部分の「Ｃｈａｅｗｏｎ」はメッセージ送信者の名前であり、類似の発音の名前（例、Ｊａｅｗｏｎ、Ｃｈａｗｏｎ、Ｃｈａｅｏｎなど）との区別のためにスマートフォンに格納された連絡先のドメインに関する言語モデルの比重を高めることが正確な音声認識のために必要である。

図６を参照すると、デコーダ６３０は、エンコーダ６２０から出力された特徴値と以前時点で決定された以前ターゲットテキストに基づいて候補テキストに対する第１スコアを決定する。加重値決定器６４０は、各復号化ステップごとにユーザの発話である音声入力６１０と共に、以前の復号化ステップにおける音声認識結果を考慮して言語モデル６５０の出力に適用される加重値を決定することができる。例えば、加重値決定器６４０は、以前ターゲットテキストとエンコーダ６２０の出力に基づいて、言語モデル６５０から出力される第２スコアに適用される第１加重値を決定することができる。加重値決定器６４０には、現在時点まで決定された１つ以上のターゲットテキストのうち少なくとも１つが入力される。

一実施形態に係る加重値決定器６４０は、各復号化ステップごとに言語モデル６５０の出力に適用される加重値を決定する。加重値決定器６４０は、各復号化するごとにエンコーダ６２０の出力と以前に出力された以前ターゲットテキストが入力され、現在時点における加重値を決定する。この場合、上記の数式（１）において、ｗ_ａ、ｗ_ｂ及びｗ_ｃは、各復号化ステップごとに変わり得る。例えば、以前時点で決定されたｗ_ａと現在時点で決定されたｗ_ａはそれぞれ異なってもよい。上記で仮定した音声信号において、「Ｃａｌｌｔｏ」が出力される時点までは、加重値決定器６４０がスマートフォンのドメインに関する言語モデルの出力に適用される加重値を高く設定するのであろう。その次の時点で、加重値決定器６１０は、以前ターゲットテキスト（例、「Ｃａｌｌｔｏ」）に基づいて加重値を決定するため、「Ｃａｌｌｔｏ」の後にスマートフォンの連絡先上の「人の名前」が登場する確率が高いと判断し、連絡先のドメインに関する言語モデルの出力に適用される加重値を高く設定する。

音声認識装置は、各復号化ステップごとに決定された加重値を言語モデル６５０の出力に適用６４５し、適用結果に基づいて候補テキストのうち現在ターゲットテキスト６６０を選択する。復号化ステップごとに第２スコアに適用される加重値は変わり得る。音声認識装置は、例えば、それぞれの候補テキストに対応する第２スコアに加重値決定器６４０によって決定された加重値を乗算することができる。音声認識装置は、第１スコアと加重値が適用された第２スコアを同一の候補テキストそれぞれに対して合算６５５し、合算結果に基づいて候補テキストのうち、現在時点におけるターゲットテキスト６６０の「Ｃｈａｅｗｏｎ」を決定し得る。例えば、音声認識装置は、候補テキストのうち合算結果の最も大きい候補テキストをターゲットテキスト６６０として決定することができる。

図７は、エンコーダの出力及び以前ターゲットテキストに基づいて加重値を決定する実施形態を説明するためのフローチャートである。本実施形態については、図２及び図６を参照して説明した内容が適用され、重なる内容に対する説明は省略する。

図７を参照すると、ステップＳ７１０において、音声認識装置は、エンコーダ３２０の出力と以前に決定されたターゲットテキストに基づいて言語モデルの出力に適用される加重値を決定する。音声認識装置は、各復号化ステップごとに以前時点で決定されたターゲットテキストのうち少なくとも１つに基づいて加重値を決定する。ステップＳ４６０において、音声認識装置は、ステップＳ７１０で決定された加重値を言語モデルから取得した第２スコアに適用する。ステップＳ４７０において、音声認識装置は、ステップＳ４４０で決定された第１スコアとステップＳ４６０で加重値が適用された第２スコアに基づいて、候補テキストのうちターゲット候補テキストを選択し、選択されたターゲット候補テキストを現在時点におけるターゲットテキストとして決定する。このように決定されたターゲットテキストは、ステップＳ７１０により次の時点における加重値を決定するために用いられる。ステップＳ４８０において、音声認識装置が現在時点で決定されたターゲットテキストを出力し、ステップＳ４４０，Ｓ４５０，Ｓ４６０，Ｓ４７０，Ｓ４８０及びステップＳ７１０の過程を繰り返して再度行う。

図８は、エンコーダの出力及びコンテキスト情報に基づいて加重値を決定する実施形態を説明するための図である。本実施形態については図３を参照して説明した内容が適用され、重なる内容に対する説明は省略する。

図８を参照すると、加重値決定器８２０は、ユーザの発話である音声入力３１０と共にコンテキスト情報８１０を考慮して言語モデル３６２，３６４，３６６の出力に適用される加重値を決定する。例えば、加重値決定器８２０は、エンコーダ３２０の出力とコンテキスト情報８１０に基づいて各言語モデル３６２，３６４，３６６から出力される第２スコア、第３スコア、及び第４スコアにそれぞれ適用される第１加重値、第２加重値及び第３加重値を決定する。コンテキスト情報８１０は、音声入力３１０の入力状況やユーザに関連する情報を含む。例えば、コンテキスト情報８１０は、性別、年齢、国籍、及び職業プロファイルなどのようなユーザ情報、現在位置、現在時間、現在動作中のプログラム、音声認識ヒストリー、及び対話ヒストリーなどを含む。このように、加重値を決定するにおいて、コンテキスト情報８１０を考慮することで、音声入力３１０の入力状況やユーザ個々人の特性にさらに適する方向に音声認識が行われる。音声認識装置は、各復号化ステップごとに決定された加重値を言語モデル３６２，３６４，３６６の出力に適用し（３４５）、適用結果に基づいて、候補テキストのうち現在ターゲットテキスト３７０を選択する。

図９は、エンコーダの出力及びコンテキスト情報に基づいて加重値を決定する実施形態を説明するためのフローチャートである。本実施形態については、図２及び図８を参照して説明した内容が適用され、重なる内容に対する説明は省略する。

図９を参照すると、ステップＳ９１０において、音声認識装置は、コンテキスト情報を読み出す。ステップＳ９２０において、音声認識装置は、エンコーダ３２０の出力とコンテキスト情報に基づいて言語モデルの出力に適用される加重値を決定する。ステップＳ４６０において、音声認識装置は、ステップＳ９２０で決定された加重値を言語モデルから取得した第２スコアに適用する。ステップＳ４７０において、音声認識装置は、ステップＳ４４０で決定された第１スコアとステップＳ４６０で加重値が適用された第２スコアに基づいて、候補テキストのうちターゲット候補テキストを選択し、選択されたターゲット候補テキストを現在時点におけるターゲットテキストとして決定する。ステップＳ４８０において、音声認識装置は、現在時点で決定されたターゲットテキストを出力し、ステップＳ４４０，Ｓ４５０，Ｓ４６０，Ｓ４７０，Ｓ４８０、及びステップＳ７１０の過程が繰り返し再度行う。

図１０は、エンコーダの出力、以前ターゲットテキスト及びコンテキスト情報のうち１つ以上に基づいて加重値を決定する実施形態を説明するための図である。

図１０を参照すると、エンコーダ１０２０は、音声入力１０１０から特徴値を抽出する。デコーダ１０３０は、エンコーダ１０２０から出力された特徴値と以前時点で決定された以前ターゲットテキストに基づいて、候補テキストに対する第１スコアを決定する。言語モデル１０５０は、以前ターゲットテキストに基づいて以前ターゲットテキストに続く候補テキストと、各候補テキストに対応する第２スコアを出力する。加重値決定器１０４０は、エンコーダ１０２０の出力、以前ターゲットテキスト、及びコンテキスト情報１０６０のうちの１つ以上に基づいて、言語モデル１０５０の出力に適用される加重値を決定する。音声認識装置は、加重値決定器１０４０によって決定された加重値を言語モデル１０５０から出力された第２スコアに適用１０４５する。例えば、音声認識装置は、それぞれの候補テキストに対応する第２スコアに加重値決定器１０４０によって決定された加重値を乗算してもよい。音声認識装置は、第１スコアと加重値が適用された第２スコアを同一の候補テキストそれぞれに対して合算１０５５し、候補テキストのうち合算結果が最も大きい候補テキストをターゲットテキスト１０７０として決定することができる。

図１１は、一実施形態に係る音声認識装置の構成を示す図である。

図１１を参照すると、音声認識装置１１００は、プロセッサ１１１０、メモリ１１２０、及び入出力インタフェース１１３０を含む。実施形態により、音声認識装置１１００は、１つ以上の言語モデルを格納している言語モデルデータベース１１４０をさらに含む。

入出力インタフェース１１３０は、音声入力を受信するための音声インタフェース（例、マイクロホン）を含む。また、入出力インタフェース１１３０は、キーボード、タッチスクリーン、又はタッチパッドなどの入力インタフェースと、音声認識結果を出力するためのディスプレイなどの出力インタフェースを含んでもよい。

メモリ１１２０は、プロセッサ１１１０に接続され、プロセッサ１１１０によって実行可能な命令、プロセッサ１１１０が演算するデータ又はプロセッサ１１１０によって処理されたデータを格納する。メモリ１１２０は、例えば、非一時的なコンピュータで読み出し可能な記録媒体、例えば、高速ランダムアクセスメモリ及び／又は不揮発性コンピュータで読み出し可能な格納媒体（例えば、１つ以上のディスク格納装置、フラッシュメモリ装置、又は、その他の不揮発性固体メモリ装置）を含む。

プロセッサ１１１０は、音声認識装置１１００の全体的な動作を制御し、音声認識装置１１００内で実行するための機能及び／又は命令を実行する。プロセッサ１１１０は、音声入力に基づいて音声認識を行い、図１〜図１０に関連して前述した１つ以上の動作を行う。

例えば、プロセッサ１１１０は、音声入力に基づいて候補テキストに対する第１スコアを決定する。プロセッサ１１１０は、エンコーダ−デコーダ基盤の言語認識モデルや音響モデル−言語モデル基盤の言語認識モデルを用いて第１スコアを決定する。プロセッサ１１１０は、音声入力に音声入力から特徴値を抽出し、抽出された特徴値に対応する加重値を出力するニューラルネットワーク基盤の加重値決定器を用いて言語モデルの出力に適用される加重値を決定する。プロセッサ１１１０は、前述したような様々な実施形態により加重値を決定することができる。言語モデルは、複数の言語モデルを含んでもよく、この場合にプロセッサ１１１０は、言語モデルそれぞれの出力に適用される加重値を決定したり、又は言語モデルのうち加重値が適用される１つ以上の言語モデルを選択し、選択された１つ以上の言語モデルの出力に適用される加重値を決定する。言語モデルは、言語モデルデータベース１１４０に格納される。

プロセッサ１１１０は、言語モデルから出力された候補テキストに対する第２スコアに加重値を適用する。プロセッサ１１１０は、第１スコアと加重値が適用された第２スコアに基づいて、候補テキストのうちターゲット候補テキストを選択し、選択されたターゲット候補テキストを音声入力の少なくとも一部に対応するターゲットテキストとして決定する。プロセッサ１１１０は、上記のような過程に基づいて各復号化ステップごとにターゲットテキストを順次決定し、全体の音声入力に対応するテキストを決定することができる。

他の実施形態によれば、音声認識装置１１００は、音声（又は、音声入力）を受信するセンサ（図示せず）、言語モデル１１４０及び命令を格納するメモリ１１２０、及び該当命令を実行するプロセッサ１１１０を含む。プロセッサ１１１０は、メモリ１１２０に格納された命令を行うことで、センサにより受信された音声を符号化するエンコーダを実行し、符号化された音声に基づいて候補テキストの第１スコアを決定するデコーダを実行する。また、プロセッサ１１１０は、エンコーダの出力に基づいて言語モデルそれぞれに対応する加重値を決定する加重値決定器を実行し、言語モデルそれぞれに基づいて候補テキストに対応する第２スコアを決定する。プロセッサ１１１０は、加重値が適用された第２スコアを取得するために、言語モデルそれぞれから出力された候補テキストに対する第２スコアに決定された加重値を適用し、候補テキストのうち、第１スコアの合計及びターゲット候補テキストに対応する加重値が適用された第２スコアに基づいて、音声の一部に対応するターゲット候補テキストを認識する。ここで、エンコーダは音声から特徴値を抽出し、デコーダはエンコーダによって抽出された特徴値に基づいて第１スコアと候補テキストを出力する。

加重値決定器は、以前に決定されたターゲットテキスト及びエンコーダの出力に基づいて加重値を決定する。加重値決定器は、エンコーダの出力及びコンテキスト情報に基づいて加重値を決定する。ここで、コンテキスト情報は、例えば、音声を入力するユーザに対するユーザ情報、時間情報、位置情報、言語情報、音声認識ヒストリー情報、及び現在動作中であるアプリケーション情報のいずれか１つ又はいずれかの組合せを含む。一実施形態に係る加重値決定器は、音声のうちユーザ名が検出されたことに応答して、音声認識装置１１００を実行する装置に格納された連絡先情報に対応する言語モデルの加重値を増加させ得る。

前述のエンコーダ、デコーダ、及び加重値決定器のそれぞれは、ニューラルネットワークに基づいて実行される。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＹＩＪＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

１００：音声認識システム
１１０、１１００：音声認識装置
１３０、１１４０：言語モデルデータベース
３２０、５２０、６２０、１０２０：エンコーダ
３３０、５３０、６４０、１０３０：デコーダ
３４０、５４０、６４０、８２０、１０４０：加重値決定器
３６２：第１言語モデル
３６４：第２言語モデル
３６６：第３言語モデル
５６０、６５０、１０５０：言語モデル
５７０：ターゲットテキスト決定器
１１１０：プロセッサ
１１２０：メモリ
１１３０：入出力インタフェース

Claims

音声入力に基づいて候補テキストに対する第１スコアを決定するステップと、
前記音声入力に基づいて言語モデルの出力に適用される加重値を決定するステップと、
加重値が適用された第２スコアを取得するために、前記言語モデルから出力された前記候補テキストに対する第２スコアに前記決定された加重値を適用するステップと、
前記第１スコアと前記加重値が適用された第２スコアとに基づいて、前記候補テキストのうちターゲット候補テキストを選択するステップと、
前記選択されたターゲット候補テキストを前記音声入力の少なくとも一部に対応するターゲットテキストとして決定するステップと、
を含む音声認識方法。
前記加重値を決定するステップは、前記音声入力と以前時点で決定されたターゲットテキストに基づいて、現在時点で前記言語モデルの出力に適用される加重値を決定するステップを含む、請求項１に記載の音声認識方法。
前記以前時点で決定されたターゲットテキストは、音声認識の開始時点から前記現在時点のすぐ以前時点まで決定された１つ以上のターゲットテキストのうちの１つ又はいずれかの組合せを含む、請求項２に記載の音声認識方法。
前記加重値を決定するステップは、前記音声入力及びコンテキスト情報に基づいて前記加重値を決定するステップを含む、請求項１に記載の音声認識方法。
前記コンテキスト情報は、前記音声入力を入力するユーザに対するユーザ情報、時間情報、位置情報、言語情報、音声認識ヒストリー情報、及び現在動作中であるアプリケーション情報のうち１つ又はいずれかの組合せを含む、請求項４に記載の音声認識方法。
前記加重値を決定するステップは、前記音声入力、以前時点で決定されたターゲットテキスト及びコンテキスト情報に基づいて、現在時点で前記言語モデルの出力に適用される加重値を決定するステップを含む、請求項１に記載の音声認識方法。
前記ターゲット候補テキストを選択するステップは、前記候補テキストのうち前記第１スコアと前記加重値が適用された第２スコアの合計が最も大きい候補テキストを前記ターゲット候補テキストとして選択するステップを含む、請求項１−６のうちの何れか１項に記載の音声認識方法。
前記加重値を決定するステップは、
前記音声入力から特徴値を抽出するステップと、
前記加重値を決定するためにニューラルネットワーク基盤の加重値決定器に前記特徴値を提供するステップと、
を含む、請求項１に記載の音声認識方法。
前記第１スコアを決定するステップは、
ニューラルネットワーク基盤のエンコーダを用いて前記音声入力から特徴値を抽出するステップと、
ニューラルネットワーク基盤のデコーダを用いて前記抽出された特徴値から前記候補テキストそれぞれに対する第１スコアを決定するステップと、
を含む、請求項１−８のうちの何れか１項に記載の音声認識方法。
前記言語モデルは、複数の言語モデルを含み、
前記加重値を決定するステップは、前記複数の言語モデルそれぞれの出力に適用される加重値を決定する、請求項１−８のうちの何れか１項に記載の音声認識方法。
前記複数の言語モデルは、第１言語モデル及び第２言語モデルを含み、
前記第１言語モデルは、前記候補テキストに対する第２スコアを出力し、
前記第２言語モデルは、前記候補テキストに対する第３スコアを出力し、
前記加重値を決定するステップは、前記第２スコアに適用される第１加重値と前記第３スコアに適用される第２加重値とを決定し、
前記ターゲット候補テキストを選択するステップは、前記第１スコア、前記第１加重値が適用された第２スコア及び前記第２加重値が適用された第３スコアに基づいて、前記候補テキストのうち前記ターゲット候補テキストを選択するステップを含む、請求項１０に記載の音声認識方法。
前記言語モデルは、複数の言語モデルを含み、
前記加重値を決定するステップは、
前記複数の言語モデルのうち前記加重値が適用される１つ以上の言語モデルを選択するステップと、
前記選択された１つ以上の言語モデルの出力に適用される加重値を決定するステップと、
を含む、請求項１−９のうちの何れか１項に記載の音声認識方法。
前記言語モデルは、以前時点で決定されたターゲットテキストに基づいて前記以前時点で決定されたターゲットテキストに続く次のターゲットテキストを決定するための各候補テキストに対応する第２スコアを出力する、請求項１−９のうちの何れか１項に記載の音声認識方法。
前記候補テキストそれぞれは、単語、部分単語、句、及び文章のいずれか１つである、請求項１−１３のうちの何れか１項に記載の音声認識方法。
前記第１スコアを決定するステップは、以前の時間区間におけるニューラルネットワーク基盤のデコーダの出力及び前記音声入力に基づいて前記第１スコアを決定するステップを含む、請求項１−８のうちの何れか１項に記載の音声認識方法。
前記言語モデルは、複数の言語モデルを含み、
前記言語モデルそれぞれの加重値は、前記音声入力のタイプに基づいて動的に調整される、請求項１−９のうちの何れか１項に記載の音声認識方法。
前記音声入力のタイプは、前記音声入力のコンテキスト、音声認識が実行される環境、前記音声入力に含まれた単語のタイプ、前記音声認識が実行される装置のタイプ、及び前記音声入力が実行される音声のタイプのいずれか１つ又はいずれかの組合せある、請求項１６に記載の音声認識方法。
請求項１−１７のうちの何れか１項に記載の音声認識方法を音声認識装置のコンピュータに実行させるコンピュータプログラム。
ユーザから音声入力を受信する音声インタフェースと、
前記音声入力に基づいて音声認識を行うプロセッサと、を含み、
前記プロセッサは、
前記音声入力に基づいて候補テキストに対する第１スコアを決定し、
前記音声入力に基づいて言語モデルの出力に適用される加重値を決定し、
加重値が適用された第２スコアを取得するために、前記言語モデルから出力された前記候補テキストに対する第２スコアに前記決定された加重値を適用し、
前記第１スコアと前記加重値が適用された第２スコアとに基づいて、前記候補テキストのうちターゲット候補テキストを選択し、
前記選択されたターゲット候補テキストを前記音声入力の少なくとも一部に対応するターゲットテキストとして決定する、
音声認識装置。
前記プロセッサは、前記音声入力と以前時点で決定されたターゲットテキストに基づいて、現在時点で前記言語モデルの出力に適用される加重値を決定する、請求項１９に記載の音声認識装置。
前記プロセッサは、前記音声入力及びコンテキスト情報に基づいて前記加重値を決定する、請求項１９に記載の音声認識装置。
前記プロセッサは、
前記音声入力から特徴値を抽出し、
前記抽出された特徴値に対応する加重値を出力するニューラルネットワーク基盤の加重値決定器を用いて前記加重値を決定する、請求項１９に記載の音声認識装置。
前記言語モデルは、前記候補テキストに対する第２スコアを出力する第１言語モデル及び前記候補テキストに対する第３スコアを出力する第２言語モデルを含み、
前記プロセッサは、
前記第２スコアに適用される第１加重値と前記第３スコアに適用される第２加重値とを決定し、
前記第１スコア、前記第１加重値が適用された第２スコア、及び前記第２加重値が適用された第３スコアに基づいて、前記候補テキストのうち前記ターゲット候補テキストを選択する、請求項１９に記載の音声認識装置。
前記言語モデルは、複数の言語モデルを含み、
前記プロセッサは、
前記複数の言語モデルのうち前記加重値が適用される１つ以上の言語モデルを選択し、
前記選択された１つ以上の言語モデルの出力に適用される加重値を決定する、請求項１９に記載の音声認識装置。
音声を受信するセンサと、
言語モデル及び命令を格納するメモリと、
前記命令を実行するプロセッサと、を含み、
前記プロセッサは、前記命令を行うことによって、
前記音声を符号化することをエンコーダに実行させ、
前記符号化された音声に基づいて候補テキストの第１スコアを決定することをデコーダに実行させ、
前記エンコーダの出力に基づいて前記言語モデルそれぞれに対応する加重値を決定することを加重値決定器に実行させ、
前記言語モデルそれぞれに基づいて前記候補テキストに対応する第２スコアを決定し、
加重値が適用された第２スコアを取得するために、前記言語モデルそれぞれから出力された前記候補テキストに対する第２スコアに前記決定された加重値を適用し、
前記候補テキストのうち、前記第１スコアの合計及び前記候補テキストに対応する加重値が適用された第２スコアに基づいて前記音声の一部に対応するターゲット候補テキストを認識する、音声認識装置。
前記エンコーダは前記音声から特徴値を抽出し、
前記デコーダは、前記特徴値に基づいて前記第１スコアと前記候補テキストを出力する、請求項２５に記載の音声認識装置。
前記加重値決定器は、前記音声のうちユーザ名が検出されたことに応答して、前記音声認識装置を実行する装置に格納された連絡先情報に対応する言語モデルの加重値を増加させる、請求項２５又は２６に記載の音声認識装置。
前記加重値決定器は、以前に決定されたターゲットテキスト及び前記エンコーダの出力に基づいて前記加重値を決定する、請求項２５又は２６に記載の音声認識装置。
前記加重値決定器は、前記エンコーダの出力及びコンテキスト情報に基づいて前記加重値を決定し、
前記コンテキスト情報は、前記音声を入力するユーザに対するユーザ情報、時間情報、位置情報、言語情報、音声認識ヒストリー情報、及び現在動作中であるアプリケーション情報のいずれか１つ又はいずれかの組合せを含む、請求項２５又は２６に記載の音声認識装置。
前記エンコーダ、前記デコーダ、及び前記加重値決定器のそれぞれは、ニューラルネットワークに基づいて実行される、請求項２５−２９のうち何れか１項に記載の音声認識装置。