JP2012022053A

JP2012022053A - 音声認識装置

Info

Publication number: JP2012022053A
Application number: JP2010158219A
Authority: JP
Inventors: Jun Ohashi; 純大橋; Takeshi Nagai; 剛永井
Original assignee: Fujitsu Toshiba Mobile Communication Ltd
Current assignee: Fujitsu Mobile Communications Ltd
Priority date: 2010-07-12
Filing date: 2010-07-12
Publication date: 2012-02-02

Abstract

【課題】コンテンツのための音声認識パラメータを自動制御する。
【解決手段】音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部１０７と、コンテンツを提供するＷｅｂページを取得するＷｅｂページ取得部１０２を含む。この音声認識装置は、コンテンツを提供するＷｅｂページに基づく解析を行って、音声データの特徴を示すテキストを抽出するＷｅｂページ解析部１０３を含む。この音声認識装置は、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部１０６と、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部１１１とを含む。
【選択図】図１

Description

本発明の実施形態は、音声認識に関する。

ユーザは、放送波、記録媒体またはネットワーク（例えば、動画共有サイト）を介して様々なコンテンツを利用できる。また、コンテンツ再生装置も多様化している。具体的には、ＴＶ受信機に限らず携帯電話機、パーソナルコンピュータ、ビデオゲーム機などがコンテンツ再生機能を備えることがある。

コンテンツに含まれる音声データに対して音声認識を行い、音声認識結果を字幕などとして活用することが提案されている。音声認識は、音響モデル、言語モデル、単語辞書などの音声認識パラメータを用いて実現される。高精度な音声認識結果を得るためには、認識対象の音声データに対して音声認識パラメータを適切に制御することが重要である。例えば放送番組（主にニュース番組）の音声認識のために、手動による音声認識パラメータの制御（音響モデル及び言語モデルの学習など）が行われている。

特開２００４−３３３７３８号公報

コンテンツ毎に音声認識パラメータを手動で制御することは不便である。一方、音声認識パラメータを固定すれば、多様なコンテンツに対して高精度な音声認識を行うことは困難となる。

従って、本発明の実施形態は、コンテンツのための音声認識パラメータを自動制御することを目的とする。

一態様に係る音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部と、コンテンツを提供するＷｅｂページを取得するＷｅｂページ取得部とを含む。この音声認識装置は、コンテンツを提供するＷｅｂページに基づく解析を行って、音声データの特徴を示すテキストを抽出するＷｅｂページ解析部と、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部とを含む。この音声認識装置は、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部を含む。

他の態様に係る音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部を含む。この音声認識装置は、音声データの音声認識結果、コンテンツから分離された映像データの画像認識結果及びコンテンツから分離されたテキストデータのうち少なくとも一方に基づいてコンテンツに関連するＷｅｂページを取得するＷｅｂページ取得部を含む。この音声認識装置は、コンテンツに関連するＷｅｂページに基づく解析を行って、音声データの特徴を示すテキストを抽出するＷｅｂページ解析部と、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部とを含む。この音声認識装置は、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部を含む。

第１の実施形態に係る音声認識装置を示すブロック図。第２の実施形態に係る音声認識装置を示すブロック図。第３の実施形態に係る音声認識装置を示すブロック図。第４の実施形態に係る音声認識装置を示すブロック図。第５の実施形態に係る音声認識装置を示すブロック図。第６の実施形態に係る音声認識装置を示すブロック図。解析パラメータの説明図。制御パラメータの説明図。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように、第１の実施形態に係る音声認識装置は、認識対象入力部１０１、Ｗｅｂページ取得部１０２、Ｗｅｂページ解析部１０３、解析パラメータ記憶部１０４、抽出テキスト処理部１０５、音声認識パラメータ制御部１０６、コンテンツ取得部１０７、コンテンツ解析部１０８、コンテンツ分離部１０９、音声入力部１１０、音声認識部１１１及び認識結果出力部１１２を有する。

認識対象入力部１０１は、音声認識の対象となる音声データを含むコンテンツを提供するＷｅｂページの識別子をＷｅｂページ取得部１０２及びコンテンツ取得部１０７に入力する。Ｗｅｂページの識別子は、例えばＵＲＬ（Uniform Resource Locator）またはＵＲＩ（Uniform Resource Identifier）の形式で表現される。

Ｗｅｂページ取得部１０２は、認識対象入力部１０１からのＷｅｂページの識別子に従ってＷｅｂページを取得する。Ｗｅｂページ取得部１０２は、取得したＷｅｂページをＷｅｂページ解析部１０３に入力する。

Ｗｅｂページ解析部１０３は、Ｗｅｂページ取得部１０２からのＷｅｂページに基づいて解析を行う。具体的には、Ｗｅｂページ解析部１０３は、後述する解析パラメータを解析パラメータ記憶部１０４から取得し、この解析パラメータに従って解析を行う。Ｗｅｂページ解析部１０３は、この解析処理を通じて、音声認識の対象となる音声データの特徴（音響的特徴、言語的特徴など）を示すテキストを抽出する。Ｗｅｂページ解析部１０３は、抽出したテキストを抽出テキスト処理部１０５に入力する。

解析パラメータ記憶部１０４には、例えば図７に示す形式で解析パラメータが記憶される。図７の例では、解析パラメータ記憶部１０４は、Ｗｅｂページの識別子と、解析パラメータとを対応付けて記憶する。尚、図７の例では、特定のＷｅｂページの識別子に対して解析パラメータが対応付けられているが、全てのＷｅｂページの識別子または特定のＷｅｂページを除く全てのＷｅｂページの識別子に対して共通の解析パラメータが対応付けられてもよい。

図７の例では、解析パラメータは、絞り込み条件及びこの絞り込み条件の適用対象を含む。但し、一部または全部のＷｅｂページの識別子に関して、これらのパラメータが指定されなくてもよい。絞り込み条件とは、入力されたＷｅｂページに基づく解析を実施するか否かを判定するための条件である。絞り込み条件の適用対象とは、入力されたＷｅｂページにおいて絞り込み条件の充足の有無を判定するために参照される範囲である。例えば、Ｗｅｂページの識別子が「http://xxxx.ne.jp」であれば、Ｗｅｂページ解析部１０３はこのＷｅｂページのソースコードにおいて「<title>(.+)</title>」のカッコで示した範囲に文字列「ニュース」が含まれているか否かを判定する（７０１）。ここで、(.+)という記号は、ＵＮＩＸ（登録商標）または各種プログラミング言語で利用されているように、任意の文字の１個以上の出現（即ち、任意の文字列）を表す正規表現とする。Ｗｅｂページ解析部１０３は、絞り込み条件が充足されていればＷｅｂページに基づく解析を実施し、そうでなければ省略する。また、図７の例では、Ｗｅｂページの識別子「http://xxxx.ne.jp」に対して別の絞り込み条件も対応付けられている。従って、Ｗｅｂページ解析部１０３は、このＷｅｂページのソースコードにおいて「<genre>(.+)</genre)」のカッコで示した範囲に文字列「スポーツ」または文字列「バラエティ」が含まれているか否かを判定する（７０２）。更に、Ｗｅｂページの識別子が「http://yyyy.ne.jp」であれば、Ｗｅｂページ解析部１０３はこのＷｅｂページのソースコードにおいて「<title>(.+)</title>」のカッコで示した範囲に文字列「○○○○」が含まれているか否かを判定したり（７０３）、このＷｅｂページのソースコードにおいて「(.+)の番組です」のカッコで示した範囲に文字列「□□□□」が含まれているか否かを判定したり（７０４）する。尚、図７の例では、絞り込み条件適用対象は、ＨＴＭＬの要素の配置位置またはタグなどのＷｅｂページのデータ構造によって規定されたり、特定の文字列によって規定されたりしているが、これらに限られない。

Ｗｅｂページ解析部１０３は、絞り込み条件が充足されていれば、入力されたＷｅｂページに基づく解析を実施する。具体的には、Ｗｅｂページ解析部１０３は、Ｗｅｂページの識別子に対応するテキスト解析対象からＷｅｂページの識別子に対応する抽出方法に従ってテキストを抽出する。テキスト解析対象は、入力されたＷｅｂページのソースコード（７０１，７０３）、別のＷｅｂページのソースコード（７０２，７０４）などである。入力されたＷｅｂページでなく別のＷｅｂページのソースコードを解析対象とすることの技術的意義は、入力されたＷｅｂページが別のＷｅｂページにおいて提供されるコンテンツを引用している場合などに、より詳細な情報を期待できることが挙げられる。テキスト抽出方法は、全文抽出（７０１）、特定の文字列を含む部分の抽出（７０３）、Ｗｅｂページのデータ構造によって規定される特定部分の抽出（７０２，７０４）など様々である。Ｗｅｂページ解析部１０３は、１つに限らず複数のテキストを抽出してもよい。

抽出テキスト処理部１０５は、Ｗｅｂページ解析部１０３からの抽出テキストを制御パラメータに変換する。制御パラメータは、後述する音声認識パラメータ制御部１０６によって音声認識パラメータの制御に使用される。音声認識パラメータは、例えば音響モデル、単語辞書または言語モデルを含む。音響モデルは、音素または音節の周波数パターンなどの音響的特徴を表す。単語辞書は、認識可能な単語の情報（表記情報、品詞情報など）を列挙する。言語モデルは、単語間の接続関係などの言語的特徴を表す。後述する音声認識部１１１は、音声データの音響的特徴と、認識候補の言語的特徴とに基づく音声認識を行って認識結果を生成する。

具体的には、抽出テキスト処理部１０５は、抽出テキストとＷｅｂページ解析部１０３から指定される抽出テキスト処理方法に従って処理を行う。典型的には、抽出テキスト処理部１０５は、抽出テキストに対して形態素解析を行う。抽出テキスト処理部１０５は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部１０６に入力する。例えば、抽出テキスト処理部１０５は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うＷｅｂサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、抽出テキスト処理部１０５は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、この制御パラメータを適用する時間的な範囲を指定してもよい。例えばコンテンツを提供するＷｅｂページにおいてこのコンテンツの再生時間と対応付けられてコメントなどが記載されていることがある。また、抽出テキスト処理部１０５は、キーワードの一部または全部を辞書パラメータに変換してもよい。音声認識パラメータ制御部１０６は、辞書パラメータに対応する単語の情報（表記情報、品詞情報など）を単語辞書に登録したり、この単語の認識優先度を高く設定したりする。更に、抽出テキスト処理部１０５は、抽出テキストを言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新（学習）などに利用できる。尚、辞書パラメータ及び言語モデルパラメータは、制御パラメータの一部である。

制御パラメータを図８に例示する。制御パラメータは、例えば、発言者、ジャンル、言語、方言またはシチュエーションなどの様々な属性を含む。「制御パラメータ：発言者」は、「２０代男性」、「２０代女性」などの発言者の世代及び性別の一方または両方を示すものであってもよいし、特定の個人（アナウンサー、男優、女優など）を示すものであってもよい。「制御パラメータ：発言者」は、音響モデル、言語モデル、単語辞書などの選択に有効である。例えば、「制御パラメータ：発言者」が「女性」であれば、音声認識パラメータ制御部１０６は女性向けの音響モデルなどを選択することができる。また、「制御パラメータ：発言者」が特定の個人を示すものであれば、音声認識パラメータ制御部１０６がこの特定の個人に最適化された音響モデル、言語モデル、単語辞書などを選択することができる。

「制御パラメータ：ジャンル」は、「ニュース」、「ドラマ」、「バラエティ」などのコンテンツのジャンルを示す。「制御パラメータ：ジャンル」は、音響モデル、言語モデル、単語辞書などの選択に有効である。例えば、「制御パラメータ：ジャンル」が「ニュース」であれば、音声認識パラメータ制御部１０６はニュース向けの音響モデル、言語モデル及び単語辞書を選択することができる。

「制御パラメータ：言語」は、「日本語」、「英語」、「中国語」などの発言者の使用言語を示す。「制御パラメータ：言語」は、音響モデル、言語モデル、単語辞書などの選択に有効である。「制御パラメータ：方言」は、「標準語」、「関西弁」、「九州弁」など前述の「制御パラメータ：言語」のサブセットに相当する方言を示す。故に、通常、「制御パラメータ：方言」が判明すれば「制御パラメータ：言語」も判明するので、抽出テキスト処理部１０５は「制御パラメータ：方言」が判明すれば対応する制御「パラメータ：言語」を自動的に決定してもよい。

「制御パラメータ：シチュエーション」は、「電車内」、「静かな場所」、「自動車内」などの音声データの収録環境を示す。「制御パラメータ：シチュエーション」は、音響モデルの選択、ノイズキャンセリング処理の制御などに有効である。

図７にも例示されるように、テキスト解析対象、テキスト抽出方法及び抽出テキスト処理方法は、特定のＷｅｂページ識別子に対して１組に限らず複数組設けられてもよい（７０１）。例えば、抽出テキスト処理部１０５は先頭キーワードをＷｅｂページ解析部１０３に戻し、Ｗｅｂページ解析部１０３はこの先頭キーワードを含む検索式を生成してもよい。Ｗｅｂページ解析部１０３は、この検索式を所定の検索エンジンに送信し、検索された１つまたは複数のＷｅｂページに基づいてテキストを抽出してもよい。検索された複数のＷｅｂページに基づいてテキストを抽出する場合には、個別の優先度が抽出テキストに割り当てられてもよい。優先度は、各Ｗｅｂページの識別子によって決定されてもよいし、検索結果における各Ｗｅｂページのソート順序によって決定されてもよい。優先度は、制御パラメータの数が過剰である場合などに、有効とする制御パラメータの選定するために利用できる。また、図７に例示するように検索されたＷｅｂページの識別子に応じてテキスト抽出方法が更に切り替えられてもよい。また、先頭キーワードなどに基づいて検索されたＷｅｂページがＷｅｂページ解析部１０３に新たに入力されたＷｅｂページとして扱われてもよい。

音声認識パラメータ制御部１０６は、抽出テキスト処理部１０５からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部１０６は、「制御パラメータ：言語」または「制御パラメータ：方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ：発言者」または「制御パラメータ：ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部１０６は、「制御パラメータ：シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部１０６は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部１０６は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部１０６は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。即ち、音声認識パラメータ制御部１０６は、言語モデルまたは単語辞書の更新を、対応する音声認識処理の終了後に無効としてもよいし有効としてもよい。言語モデルまたは単語辞書の更新が一時的であるか継続的であるかは予め定められてもよいし、制御パラメータによって指定されてもよいし、各言語モデルまたは各単語辞書について個別に定められてもよい。

コンテンツ取得部１０７は、認識対象入力部１０１からのＷｅｂページの識別子に対応するコンテンツを取得する。コンテンツ取得部１０７は、取得したコンテンツをコンテンツ解析部１０８に入力する。

コンテンツ解析部１０８は、コンテンツ取得部１０７からのコンテンツを解析する。コンテンツ解析部１０８は、コンテンツからメタデータ及びメディアデータを抽出し、このコンテンツをコンテンツ分離部１０９に入力する。

コンテンツ分離部１０９は、コンテンツ解析部１０８からのメディアデータに含まれる音声データを分離する。コンテンツ分離部１０９は、分離した音声データを音声入力部１１０に入力する。

音声入力部１１０は、コンテンツ分離部１０９からの音声データを音声認識部１１１に適した形式に変換する。音声入力部１１０は、変換済みの音声データを音声認識部１１１に入力する。

音声認識部１１１は、認識対象となる音声データに関して前述の音声認識パラメータ制御部１０６の処理が完了してから、制御された音声認識パラメータに従って音声入力部１１０からの音声データに対して音声認識を行う。音声認識部１１１は、認識結果を認識結果出力部１１２に入力する。

認識結果出力部１１２は、認識結果を出力する。例えば、認識結果出力部１１２は、認識結果を字幕として図示しない表示部にコンテンツの再生と同期して表示させてもよいし、認識結果をコンテンツのメタデータとして図示しない記憶媒体に保存してもよいし、認識結果をコンテンツのシーン検出に利用してもよい。

以上説明したように、第１の実施形態に係る音声認識装置は、コンテンツを提供するＷｅｂページに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。

（第２の実施形態）
図２に示すように、第２の実施形態に係る音声認識装置は、図１の音声認識装置において音声認識パラメータ制御部１０６を音声認識パラメータ制御部２０６に、コンテンツ分離部１０９をコンテンツ分離部２０９に夫々置換し、映像入力部２１３及び画像認識部２１４を追加した構成に相当する。以下の説明では、図２において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

コンテンツ分離部２０９は、コンテンツ解析部１０８からのメディアデータに含まれる音声データ及び映像データを分離する。コンテンツ分離部２０９は、分離した音声データを音声入力部１１０に入力する。コンテンツ分離部２０９は、分離した映像データを映像入力部２１３に入力する。

映像入力部２１３は、コンテンツ分離部２０９からの映像データを画像認識部２１４に適した形式に変換する。映像入力部２１３は、変換済みの映像データを画像認識部２１４に入力する。尚、映像データ中の一部のフレームに対する画像認識を省略するために、映像入力部２１３は、コンテンツ分離部２０９からの映像データ中のフレームを間引いてもよい。

画像認識部２１４は、映像入力部２１３からの映像データに対して画像認識を行う。画像認識部２１４は、認識結果に基づいて前述の制御パラメータを生成し、音声認識パラメータ制御部２０６に入力する。具体的には、画像認識部２１４は映像中に表示されたテキスト（例えば、テロップ、番組出演者の名前など）を認識し、このテキストに形態素解析を行ってよい。画像認識部２１４は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部２０６に入力する。例えば、画像認識部２１４は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うＷｅｂサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、画像認識部２１４は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、制御パラメータを適用する時間的な範囲を指定してもよい。例えば、画像認識部２１４は、テキストが表示される再生時間をメタデータなどから取得できる。また、画像認識部２１４は、キーワードの一部または全部を辞書パラメータに変換してもよい。更に、画像認識部２１４は、認識結果を言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新（学習）などに利用できる。

画像認識部２１４は、文字のサイズ、形状（フォント）、画面内位置、表示間隔などに応じて各単語の制御パラメータへの変換方法を切り替えたり、優先度を割り当てたりしてもよい。優先度は、制御パラメータの数が過剰である場合などに、有効とする制御パラメータの選定するために利用できる。例えば、文字のサイズが大きいほど高い優先度を割り当てたり、文字の形状が太字などの強調表示に相当するものであれば高い優先度を割り当てたり、特定の画面内位置（例えば、番組出演者の名前が表示されやすい画面下部など）に高い優先度を割り当てたりしてもよい。また、画像認識部２１４は、文字に限らず特定の放送局、番組、人物、企業、団体、商品、サービスなどを表す特定のマーク（ロゴ）を認識し、制御パラメータに変換してもよい。例えば、画像認識部２１４が、特定の番組を示すマークを認識すれば、その番組に対応する「制御パラメータ：ジャンル」、「制御パラメータ：言語」などに変換してもよい。

音声認識パラメータ制御部２０６は、抽出テキスト処理部１０５及び画像認識部２１４からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部２０６は、「制御パラメータ：言語」または「制御パラメータ：方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ：発言者」または「制御パラメータ：ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部２０６は、「制御パラメータ：シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部２０６は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部２０６は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部２０６は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。

音声認識パラメータ制御部２０６は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部２０６は、抽出テキスト処理部１０５及び画像認識部２１４のいずれか一方からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部１０５及び画像認識部２１４を区別せずに（例えば各制御パラメータに割り当てられた優先度に従って）制御パラメータを選定してもよい。また、音声認識パラメータ制御部２０６は、抽出テキスト処理部１０５及び画像認識部２１４の両方から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。

以上説明したように、第２の実施形態に係る音声認識装置は、コンテンツを提供するＷｅｂページ及びコンテンツに含まれる映像データの画像認識結果に基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。

（第３の実施形態）
図３に示すように、第３の実施形態に係る音声認識装置は、図１の音声認識装置において音声認識パラメータ制御部１０６を音声認識パラメータ制御部３０６に、コンテンツ分離部１０９をコンテンツ分離部３０９に夫々置換し、分離テキスト入力部３１５及び分離テキスト処理部３１６を追加した構成に相当する。以下の説明では、図３において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

コンテンツ分離部３０９は、コンテンツ解析部１０８からのメディアデータに含まれる音声データ及びテキストデータを分離する。また、コンテンツ分離部３０９は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部３０９は、分離した音声データを音声入力部１１０に入力する。コンテンツ分離部３０９は、分離したテキストデータを分離テキスト入力部３１５に入力する。

分離テキスト入力部３１５は、コンテンツ分離部３０９からの分離テキストデータを分離テキスト処理部３１６に適した形式に変換する。分離テキスト入力部３１５は、変換済みの分離テキストデータを分離テキスト処理部３１６に入力する。

分離テキスト処理部３１６は、分離テキスト入力部３１５からの分離テキストに基づいて制御パラメータを生成し、音声認識パラメータ制御部３０６に入力する。具体的には、分離テキスト処理部３１６は、分離テキストに形態素解析を行ってよい。分離テキスト処理部３１６は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部３０６に入力する。例えば、分離テキスト処理部３１６は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うＷｅｂサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、分離テキスト処理部３１６は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、制御パラメータを適用する時間的な範囲を指定してもよい。また、分離テキスト処理部３１６は、キーワードの一部または全部を辞書パラメータに変換してもよい。更に、分離テキスト処理部３１６は、認識結果を言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新（学習）などに利用できる。

音声認識パラメータ制御部３０６は、抽出テキスト処理部１０５及び分離テキスト処理部３１６からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部３０６は、「制御パラメータ：言語」または「制御パラメータ：方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ：発言者」または「制御パラメータ：ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部３０６は、「制御パラメータ：シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部３０６は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部３０６は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部３０６は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。

音声認識パラメータ制御部３０６は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部３０６は、抽出テキスト処理部１０５及び分離テキスト処理部３１６のいずれか一方からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部１０５及び分離テキスト処理部３１６を区別せずに（例えば各制御パラメータに割り当てられた優先度に従って）制御パラメータを選定してもよい。また、音声認識パラメータ制御部３０６は、抽出テキスト処理部１０５及び分離テキスト処理部３１６の両方から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。

以上説明したように、第３の実施形態に係る音声認識装置は、コンテンツを提供するＷｅｂページ及びコンテンツに含まれるテキストデータに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。

（第４の実施形態）
図４に示すように、第４の実施形態に係る音声認識装置は、図１の音声認識装置において音声認識パラメータ制御部１０６を音声認識パラメータ制御部４０６に、コンテンツ分離部１０９をコンテンツ分離部４０９に夫々置換し、図２の映像入力部２１３及び画像認識部２１４と図３の分離テキスト入力部３１５及び分離テキスト処理部３１６とを追加した構成に相当する。以下の説明では、図４において図１、図２または図３と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

コンテンツ分離部４０９は、コンテンツ解析部１０８からのメディアデータに含まれる音声データ、映像データ及びテキストデータを分離する。また、コンテンツ分離部４０９は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部４０９は、分離した音声データを音声入力部１１０に入力する。コンテンツ分離部４０９は、分離した映像データを映像入力部２１３に入力する。コンテンツ分離部４０９は、分離したテキストデータを分離テキスト入力部３１５に入力する。

音声認識パラメータ制御部４０６は、抽出テキスト処理部１０５、画像認識部２１４及び分離テキスト処理部３１６からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部４０６は、「制御パラメータ：言語」または「制御パラメータ：方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ：発言者」または「制御パラメータ：ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部４０６は、「制御パラメータ：シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部４０６は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部４０６は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部４０６は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。

音声認識パラメータ制御部４０６は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部４０６は、抽出テキスト処理部１０５、画像認識部２１４及び分離テキスト処理部３１６のうちの一部からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部１０５、画像認識部２１４及び分離テキスト処理部３１６を区別せずに（例えば各制御パラメータに割り当てられた優先度に従って）制御パラメータを選定してもよい。また、音声認識パラメータ制御部４０６は、抽出テキスト処理部１０５、画像認識部２１４及び分離テキスト処理部３１６のうち複数から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。

以上説明したように、第４の実施形態に係る音声認識装置は、コンテンツを提供するＷｅｂページ、コンテンツに含まれる映像データの画像認識結果及びコンテンツに含まれるテキストデータに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。

（第５の実施形態）
図５に示すように、第５の実施形態に係る音声認識装置は、認識対象入力部５０１、コンテンツ取得部１０７、コンテンツ解析部１０８、コンテンツ分離部５０９、音声入力部５１０、第１の音声認識部５１７、映像入力部５１３、画像認識部５１４、分離テキスト入力部５１５、分離テキスト処理部５１６、Ｗｅｂページ取得部５０２、Ｗｅｂページ解析部１０３、解析パラメータ記憶部１０４、抽出テキスト処理部１０５、音声認識パラメータ制御部１０６、第２の音声認識部５１１及び認識結果出力部１１２を有する。以下の説明では、図５において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

認識対象入力部５０１は、音声認識の対象となる音声データを含むコンテンツを取得するための情報をコンテンツ取得部１０７に入力する。この情報は、コンテンツを提供するＷｅｂページの識別子に限らず、コンテンツが読み出される記憶媒体のアドレス情報、コンテンツが放送されるチャンネルなどであってもよい。

コンテンツ分離部５０９は、コンテンツ解析部１０８からのメディアデータに含まれる音声データ、映像データ及びテキストデータを分離する。また、コンテンツ分離部５０９は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部５０９は、分離した音声データを音声入力部５１０に入力する。コンテンツ分離部５０９は、分離した映像データを映像入力部５１３に入力する。コンテンツ分離部５０９は、分離したテキストデータを分離テキスト入力部５１５に入力する。

音声入力部５１０は、コンテンツ分離部５０９からの音声データを第１の音声認識部５１７及び第２の音声認識部５１１に適した形式に変換する。音声入力部５１０は、変換済みの音声データを第１の音声認識部５１７及び第２の音声認識部５１１に入力する。第１の音声認識部５１７は、音声入力部５１０からの音声データに対して音声認識を行う。第１の音声認識部５１７は、認識結果に含まれる単語またはＷｅｂページの識別子を抽出し、Ｗｅｂページ取得部５０２に入力する。

映像入力部５１３は、コンテンツ分離部５０９からの映像データを画像認識部５１４に適した形式に変換する。映像入力部５１３は、変換済みの映像データを画像認識部５１４に入力する。尚、映像データ中の一部のフレームに対して画像認識を省略するために、映像入力部５１３は、コンテンツ分離部５０９からの映像データ中のフレームを間引いてもよい。

画像認識部５１４は、映像入力部５１３からの映像データに対して画像認識を行う。画像認識部５１４は、認識結果から単語またはＷｅｂページの識別子を抽出し、Ｗｅｂページ取得部５０２に入力する。具体的には、画像認識部５１４は映像中に表示されたテキスト（例えば、テロップ、番組出演者の名前、コンテンツに関連するＷｅｂページのＵＲＬなど）を認識する。画像認識部５１４は、この認識結果に含まれる単語またはＷｅｂページの識別子をＷｅｂページ取得部５０２に入力する。

また、画像認識部５１４は、文字のサイズ、形状（フォント）、画面内位置、表示間隔などに応じて、単語またはＷｅｂページの識別子に優先度を割り当ててもよい。優先度は、単語またはＷｅｂページの識別子の数が過剰である場合などに、有効とする単語またはＷｅｂページの識別子の選定するために利用できる。例えば、文字のサイズが大きいほど高い優先度を割り当てたり、文字の形状が太字などの強調表示に相当するものであれば高い優先度を割り当てたり、特定の画面内位置（例えば、番組出演者の名前が表示されやすい画面下部など）に高い優先度を割り当てたりしてもよい。或いは、画像認識部５１４は、文字に限らず特定の放送局、番組、人物、企業、団体、商品、サービスなどを表す特定のマーク（ロゴ）を認識し、対応する単語または対応するＷｅｂページの識別子に変換してもよい。

分離テキスト入力部５１５は、コンテンツ分離部５０９からの分離テキストデータを分離テキスト処理部５１６に適した形式に変換する。分離テキスト入力部５１５は、変換済みの分離テキストデータを分離テキスト処理部５１６に入力する。

分離テキスト処理部５１６は、分離テキスト入力部５１５からの分離テキストから単語またはＷｅｂページの識別子を抽出し、Ｗｅｂページ取得部５０２に入力する。具体的には、分離テキスト処理部５１６は、分離テキストに含まれる単語またはＷｅｂページの識別子を抽出する。

Ｗｅｂページ取得部５０２は、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６からの単語またはＷｅｂページの識別子に基づいてコンテンツに関連するＷｅｂページを取得する。具体的には、Ｗｅｂページ取得部５０２は、単語が入力された場合には、この単語を使用して検索式を生成する。Ｗｅｂページ取得部５０２は、この検索式を所定の検索エンジンに送信し、検索結果からＷｅｂページを取得する。一方、Ｗｅｂページ取得部５０２は、Ｗｅｂページの識別子が入力された場合には、このＷｅｂページの識別子に従ってＷｅｂページを取得する。Ｗｅｂページ取得部５０２は、取得したＷｅｂページをＷｅｂページ解析部１０３に入力する。

また、Ｗｅｂページ取得部５０２は、検索式に含める単語の数、検索結果から取得するＷｅｂページの数、Ｗｅｂページの識別子に従って取得するＷｅｂページの数などを制限してもよい。例えば、Ｗｅｂページ取得部５０２は、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６のうち一部からの単語を優先的に検索式に含めてもよいし、これらのうち一部からのＷｅｂページの識別子を優先的に選択してＷｅｂページを取得してもよい。或いは、Ｗｅｂページ取得部５０２は、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６を区別せずに（例えば各単語に割り当てられた優先度に従って）各単語を重み付けして検索式を生成してもよい。ここで、重み付けすることとは、例えば、優先度の高い順に所定個数以下の単語を組み合わせること、優先度が所定値以上の単語を組み合わせることなどを意味する。また、Ｗｅｂページ取得部５０２は、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６のうち複数から同一の単語または同一のＷｅｂページの識別子が入力される場合に、この単語またはＷｅｂページの識別子を優先的に使用してもよい。

第２の音声認識部５１１は、認識対象となる音声データに関して前述の音声認識パラメータ制御部１０６の処理が完了してから、音声入力部５１０からの音声データに対して音声認識を行う。第２の音声認識部５１１は、認識結果を認識結果出力部１１２に入力する。尚、第１の音声認識部５１７及び第２の音声認識部５１１は、別個のモジュールであってもよいし、一体化されたモジュールであってもよい。

以上説明したように第５の実施形態に係る音声認識装置は、コンテンツから分離された音声データに対する音声認識結果、コンテンツから分離された映像データに対する画像認識結果、コンテンツから分離されたテキストなどに基づいてコンテンツに関連するＷｅｂページを取得し、この関連するＷｅｂページに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツを提供するＷｅｂページが存在しない場合、不明な場合などにも、コンテンツのための音声認識パラメータを自動制御できる。

本実施形態に係る音声認識装置は、コンテンツに含まれる音声データ、映像データ及びテキストデータを利用してコンテンツに関連するＷｅｂページを検索している。しかしながら、必ずしもこれら全てを利用しなくても、本実施形態に係る音声認識装置と類似の効果を得ることができる。音声データを利用しない場合には、図５において第１の音声認識部５１７は除去されてよい。映像データを利用しない場合には、図５において映像入力部５１３及び画像認識部５１４は除去されてよい。テキストデータを利用しない場合には分離テキスト入力部５１５及び分離テキスト処理部５１６は除去されてよい。

（第６の実施形態）
図６に示すように、第６の実施形態に係る音声認識装置は、図５の認識対象入力部５０１を認識対象入力部６０１に、Ｗｅｂページ取得部１０２をＷｅｂページ取得部６０２に夫々置換した構成に相当する。以下の説明では、図６において図５と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

認識対象入力部６０１は、音声認識の対象となる音声データを含むコンテンツを提供するＷｅｂページの識別子をＷｅｂページ取得部６０２及びコンテンツ取得部１０７に入力する。

Ｗｅｂページ取得部６０２は、認識対象入力部６０１からのＷｅｂページの識別子に従ってＷｅｂページを取得する。また、Ｗｅｂページ取得部６０２は、Ｗｅｂページ取得部５０２と同様に、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６からの単語またはＷｅｂページの識別子に基づいてコンテンツに関連するＷｅｂページを取得する。Ｗｅｂページ取得部６０２は、取得したＷｅｂページをＷｅｂページ解析部１０３に入力する。

一例として、Ｗｅｂページ取得部６０２は、最初に、認識対象入力部６０１からのＷｅｂページの識別子に従ってＷｅｂページを取得する。そして、Ｗｅｂページ取得部６０２は、このＷｅｂページに関して抽出テキスト処理部１０５が十分な制御パラメータを得られなければ、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６からの単語またはＷｅｂページの識別子に基づいてコンテンツに関連するＷｅｂページを追加的に取得してもよい。

別の例として、Ｗｅｂページ取得部６０２は、最初に、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６からの単語またはＷｅｂページの識別子に基づいてコンテンツに関連するＷｅｂページを取得する。そして、Ｗｅｂページ取得部６０２は、このＷｅｂページに関して抽出テキスト処理部１０５が十分な制御パラメータを得られなければ、認識対象入力部６０１からのＷｅｂページの識別子に従ってＷｅｂページを追加的に取得してもよい。

別の例として、Ｗｅｂページ取得部６０２は、認識対象入力部６０１からのＷｅｂページの識別子に従うＷｅｂページと、第１の音声認識部５１７、画像認識部５１４及び分離テキスト処理部５１６からの単語またはＷｅｂページの識別子に基づくコンテンツに関連するＷｅｂページとの両方を並列的に取得してもよい。

以上説明したように第６の実施形態に係る音声認識装置は、コンテンツを提供するＷｅｂページ及びコンテンツに関連するＷｅｂページの少なくとも一方に基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、音声認識パラメータを自動制御できる。

本実施形態に係る音声認識装置は、コンテンツに含まれる音声データ、映像データ及びテキストデータを利用してコンテンツに関連するＷｅｂページを検索している。しかしながら、必ずしもこれら全てを利用しなくても、本実施形態に係る音声認識装置と類似の効果を得ることができる。音声データを利用しない場合には、図６において第１の音声認識部５１７は除去されてよい。映像データを利用しない場合には、図６において映像入力部５１３及び画像認識部５１４は除去されてよい。テキストデータを利用しない場合には分離テキスト入力部５１５及び分離テキスト処理部５１６は除去されてよい。

尚、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

例えば、上記各実施形態の処理を実現するプログラムを、コンピュータで読み取り可能な記憶媒体に格納して提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなど、プログラムを記憶でき、かつ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。

また、上記各実施形態の処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

１０１・・・認識対象入力部
１０２・・・Ｗｅｂページ取得部
１０３・・・Ｗｅｂページ解析部
１０４・・・解析パラメータ記憶部
１０５・・・抽出テキスト処理部
１０６・・・音声認識パラメータ制御部
１０７・・・コンテンツ取得部
１０８・・・コンテンツ解析部
１０９・・・コンテンツ分離部
１１０・・・音声入力部
１１１・・・音声認識部
１１２・・・認識結果出力部
２０６・・・音声認識パラメータ制御部
２０９・・・コンテンツ分離部
２１３・・・映像入力部
２１４・・・画像認識部
３０６・・・音声認識パラメータ制御部
３０９・・・コンテンツ分離部
３１５・・・分離テキスト入力部
３１６・・・分離テキスト処理部
４０６・・・音声認識パラメータ制御部
４０９・・・コンテンツ分離部
５０１・・・認識対象入力部
５０２・・・Ｗｅｂページ取得部
５０９・・・コンテンツ分離部
５１０・・・音声入力部
５１１・・・第２の音声認識部
５１３・・・映像入力部
５１４・・・画像認識部
５１５・・・分離テキスト入力部
５１６・・・分離テキスト処理部
５１７・・・第１の音声認識部
６０１・・・認識対象入力部
６０２・・・Ｗｅｂページ取得部

Claims

音声データを含むコンテンツを取得するコンテンツ取得部と、
前記コンテンツを提供するＷｅｂページを取得するＷｅｂページ取得部と、
前記コンテンツを提供するＷｅｂページに基づく解析を行って、前記音声データの特徴を示すテキストを抽出するＷｅｂページ解析部と、
前記音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部と、
制御された音声認識パラメータに従って前記音声データに対して音声認識を行う音声認識部と
を具備する音声認識装置。
Ｗｅｂページの識別子と、前記テキストを抽出するための解析対象及び抽出方法とを対応付けて記憶する記憶部を更に具備し、
前記Ｗｅｂページ解析部は、前記コンテンツを提供するＷｅｂページの識別子に対応する解析対象から前記コンテンツを提供するＷｅｂページの識別子に対応する抽出方法に従って前記テキストを抽出する、
請求項１記載の音声認識装置。
Ｗｅｂページの識別子と、絞り込み条件及び当該絞り込み条件の適用対象とを対応付けて記憶する記憶部を更に具備し、
前記Ｗｅｂページ解析部は、前記コンテンツを提供するＷｅｂページの識別子に対応する絞り込み条件が前記コンテンツを提供するＷｅｂページの識別子に対応する絞り込み条件の適用対象において充足されていないならば前記テキストの抽出を省略する、
請求項１記載の音声認識装置。
前記記憶部は、抽出されたテキストを制御パラメータに変換するための処理方法を前記Ｗｅｂページの識別子と対応付けて更に記憶し、
前記制御部は、抽出されたテキストが前記コンテンツを提供するＷｅｂページの識別子に対応する処理方法に従って変換された制御パラメータに応じて前記音声認識パラメータを制御する、
請求項２記載の音声認識装置。
前記Ｗｅｂページ解析部は、前記コンテンツを提供するＷｅｂページが所定のＷｅｂページであるならば、抽出したテキストを用いて別のＷｅｂページを検索し、当該別のＷｅｂページの識別子に対応する所定の解析対象に対して所定の抽出方法に従って前記テキストを抽出する、請求項１記載の音声認識装置。
前記パラメータ制御部は、前記テキストの記述位置に基づいて前記音声認識パラメータを制御する、請求項１記載の音声認識装置。
前記パラメータ制御部は、前記テキストが所定のキーワードを含むならば、当該所定のキーワードに基づいて前記音声認識パラメータを制御する、請求項１記載の音声認識装置。
音声データを含むコンテンツを取得するコンテンツ取得部と、
前記音声データの音声認識結果、前記コンテンツから分離された映像データの画像認識結果及び前記コンテンツから分離されたテキストデータのうち少なくとも一方に基づいて前記コンテンツに関連するＷｅｂページを取得するＷｅｂページ取得部と、
前記コンテンツに関連するＷｅｂページに基づく解析を行って、前記音声データの特徴を示すテキストを抽出するＷｅｂページ解析部と、
前記音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部と、
制御された音声認識パラメータに従って前記音声データに対して音声認識を行う音声認識部と
を具備する音声認識装置。
前記Ｗｅｂページ取得部は、前記音声認識結果に含まれる第１の単語、前記画像認識結果に含まれる第２の単語及び前記テキストデータに含まれる第３の単語のうちの少なくとも１つを重み付けして前記コンテンツに関連するＷｅｂページを検索するための検索式を生成する、請求項８記載の音声認識装置。
前記Ｗｅｂページ取得部は、前記第２の単語に関して文字のサイズ、形状または画面内位置に基づいて重み付けを行う、請求項９記載の音声認識装置。
前記Ｗｅｂページ取得部は、前記画像認識結果が所定のマークに一致するならば、前記所定のマークに対応する所定の識別子に従って前記コンテンツに関連するＷｅｂページを取得する、請求項８記載の音声認識装置。