JP2012022053A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2012022053A
JP2012022053A JP2010158219A JP2010158219A JP2012022053A JP 2012022053 A JP2012022053 A JP 2012022053A JP 2010158219 A JP2010158219 A JP 2010158219A JP 2010158219 A JP2010158219 A JP 2010158219A JP 2012022053 A JP2012022053 A JP 2012022053A
Authority
JP
Japan
Prior art keywords
web page
unit
speech recognition
content
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010158219A
Other languages
English (en)
Inventor
Jun Ohashi
純 大橋
Takeshi Nagai
剛 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Mobile Communications Ltd
Original Assignee
Fujitsu Toshiba Mobile Communication Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Toshiba Mobile Communication Ltd filed Critical Fujitsu Toshiba Mobile Communication Ltd
Priority to JP2010158219A priority Critical patent/JP2012022053A/ja
Publication of JP2012022053A publication Critical patent/JP2012022053A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】コンテンツのための音声認識パラメータを自動制御する。
【解決手段】音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部107と、コンテンツを提供するWebページを取得するWebページ取得部102を含む。この音声認識装置は、コンテンツを提供するWebページに基づく解析を行って、音声データの特徴を示すテキストを抽出するWebページ解析部103を含む。この音声認識装置は、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部106と、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部111とを含む。
【選択図】図1

Description

本発明の実施形態は、音声認識に関する。
ユーザは、放送波、記録媒体またはネットワーク(例えば、動画共有サイト)を介して様々なコンテンツを利用できる。また、コンテンツ再生装置も多様化している。具体的には、TV受信機に限らず携帯電話機、パーソナルコンピュータ、ビデオゲーム機などがコンテンツ再生機能を備えることがある。
コンテンツに含まれる音声データに対して音声認識を行い、音声認識結果を字幕などとして活用することが提案されている。音声認識は、音響モデル、言語モデル、単語辞書などの音声認識パラメータを用いて実現される。高精度な音声認識結果を得るためには、認識対象の音声データに対して音声認識パラメータを適切に制御することが重要である。例えば放送番組(主にニュース番組)の音声認識のために、手動による音声認識パラメータの制御(音響モデル及び言語モデルの学習など)が行われている。
特開2004−333738号公報
コンテンツ毎に音声認識パラメータを手動で制御することは不便である。一方、音声認識パラメータを固定すれば、多様なコンテンツに対して高精度な音声認識を行うことは困難となる。
従って、本発明の実施形態は、コンテンツのための音声認識パラメータを自動制御することを目的とする。
一態様に係る音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部と、コンテンツを提供するWebページを取得するWebページ取得部とを含む。この音声認識装置は、コンテンツを提供するWebページに基づく解析を行って、音声データの特徴を示すテキストを抽出するWebページ解析部と、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部とを含む。この音声認識装置は、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部を含む。
他の態様に係る音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部を含む。この音声認識装置は、音声データの音声認識結果、コンテンツから分離された映像データの画像認識結果及びコンテンツから分離されたテキストデータのうち少なくとも一方に基づいてコンテンツに関連するWebページを取得するWebページ取得部を含む。この音声認識装置は、コンテンツに関連するWebページに基づく解析を行って、音声データの特徴を示すテキストを抽出するWebページ解析部と、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部とを含む。この音声認識装置は、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部を含む。
第1の実施形態に係る音声認識装置を示すブロック図。 第2の実施形態に係る音声認識装置を示すブロック図。 第3の実施形態に係る音声認識装置を示すブロック図。 第4の実施形態に係る音声認識装置を示すブロック図。 第5の実施形態に係る音声認識装置を示すブロック図。 第6の実施形態に係る音声認識装置を示すブロック図。 解析パラメータの説明図。 制御パラメータの説明図。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、第1の実施形態に係る音声認識装置は、認識対象入力部101、Webページ取得部102、Webページ解析部103、解析パラメータ記憶部104、抽出テキスト処理部105、音声認識パラメータ制御部106、コンテンツ取得部107、コンテンツ解析部108、コンテンツ分離部109、音声入力部110、音声認識部111及び認識結果出力部112を有する。
認識対象入力部101は、音声認識の対象となる音声データを含むコンテンツを提供するWebページの識別子をWebページ取得部102及びコンテンツ取得部107に入力する。Webページの識別子は、例えばURL(Uniform Resource Locator)またはURI(Uniform Resource Identifier)の形式で表現される。
Webページ取得部102は、認識対象入力部101からのWebページの識別子に従ってWebページを取得する。Webページ取得部102は、取得したWebページをWebページ解析部103に入力する。
Webページ解析部103は、Webページ取得部102からのWebページに基づいて解析を行う。具体的には、Webページ解析部103は、後述する解析パラメータを解析パラメータ記憶部104から取得し、この解析パラメータに従って解析を行う。Webページ解析部103は、この解析処理を通じて、音声認識の対象となる音声データの特徴(音響的特徴、言語的特徴など)を示すテキストを抽出する。Webページ解析部103は、抽出したテキストを抽出テキスト処理部105に入力する。
解析パラメータ記憶部104には、例えば図7に示す形式で解析パラメータが記憶される。図7の例では、解析パラメータ記憶部104は、Webページの識別子と、解析パラメータとを対応付けて記憶する。尚、図7の例では、特定のWebページの識別子に対して解析パラメータが対応付けられているが、全てのWebページの識別子または特定のWebページを除く全てのWebページの識別子に対して共通の解析パラメータが対応付けられてもよい。
図7の例では、解析パラメータは、絞り込み条件及びこの絞り込み条件の適用対象を含む。但し、一部または全部のWebページの識別子に関して、これらのパラメータが指定されなくてもよい。絞り込み条件とは、入力されたWebページに基づく解析を実施するか否かを判定するための条件である。絞り込み条件の適用対象とは、入力されたWebページにおいて絞り込み条件の充足の有無を判定するために参照される範囲である。例えば、Webページの識別子が「http://xxxx.ne.jp」であれば、Webページ解析部103はこのWebページのソースコードにおいて「<title>(.+)</title>」のカッコで示した範囲に文字列「ニュース」が含まれているか否かを判定する(701)。ここで、(.+)という記号は、UNIX(登録商標)または各種プログラミング言語で利用されているように、任意の文字の1個以上の出現(即ち、任意の文字列)を表す正規表現とする。Webページ解析部103は、絞り込み条件が充足されていればWebページに基づく解析を実施し、そうでなければ省略する。また、図7の例では、Webページの識別子「http://xxxx.ne.jp」に対して別の絞り込み条件も対応付けられている。従って、Webページ解析部103は、このWebページのソースコードにおいて「<genre>(.+)</genre)」のカッコで示した範囲に文字列「スポーツ」または文字列「バラエティ」が含まれているか否かを判定する(702)。更に、Webページの識別子が「http://yyyy.ne.jp」であれば、Webページ解析部103はこのWebページのソースコードにおいて「<title>(.+)</title>」のカッコで示した範囲に文字列「○○○○」が含まれているか否かを判定したり(703)、このWebページのソースコードにおいて「(.+)の番組です」のカッコで示した範囲に文字列「□□□□」が含まれているか否かを判定したり(704)する。尚、図7の例では、絞り込み条件適用対象は、HTMLの要素の配置位置またはタグなどのWebページのデータ構造によって規定されたり、特定の文字列によって規定されたりしているが、これらに限られない。
Webページ解析部103は、絞り込み条件が充足されていれば、入力されたWebページに基づく解析を実施する。具体的には、Webページ解析部103は、Webページの識別子に対応するテキスト解析対象からWebページの識別子に対応する抽出方法に従ってテキストを抽出する。テキスト解析対象は、入力されたWebページのソースコード(701,703)、別のWebページのソースコード(702,704)などである。入力されたWebページでなく別のWebページのソースコードを解析対象とすることの技術的意義は、入力されたWebページが別のWebページにおいて提供されるコンテンツを引用している場合などに、より詳細な情報を期待できることが挙げられる。テキスト抽出方法は、全文抽出(701)、特定の文字列を含む部分の抽出(703)、Webページのデータ構造によって規定される特定部分の抽出(702,704)など様々である。Webページ解析部103は、1つに限らず複数のテキストを抽出してもよい。
抽出テキスト処理部105は、Webページ解析部103からの抽出テキストを制御パラメータに変換する。制御パラメータは、後述する音声認識パラメータ制御部106によって音声認識パラメータの制御に使用される。音声認識パラメータは、例えば音響モデル、単語辞書または言語モデルを含む。音響モデルは、音素または音節の周波数パターンなどの音響的特徴を表す。単語辞書は、認識可能な単語の情報(表記情報、品詞情報など)を列挙する。言語モデルは、単語間の接続関係などの言語的特徴を表す。後述する音声認識部111は、音声データの音響的特徴と、認識候補の言語的特徴とに基づく音声認識を行って認識結果を生成する。
具体的には、抽出テキスト処理部105は、抽出テキストとWebページ解析部103から指定される抽出テキスト処理方法に従って処理を行う。典型的には、抽出テキスト処理部105は、抽出テキストに対して形態素解析を行う。抽出テキスト処理部105は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部106に入力する。例えば、抽出テキスト処理部105は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うWebサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、抽出テキスト処理部105は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、この制御パラメータを適用する時間的な範囲を指定してもよい。例えばコンテンツを提供するWebページにおいてこのコンテンツの再生時間と対応付けられてコメントなどが記載されていることがある。また、抽出テキスト処理部105は、キーワードの一部または全部を辞書パラメータに変換してもよい。音声認識パラメータ制御部106は、辞書パラメータに対応する単語の情報(表記情報、品詞情報など)を単語辞書に登録したり、この単語の認識優先度を高く設定したりする。更に、抽出テキスト処理部105は、抽出テキストを言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新(学習)などに利用できる。尚、辞書パラメータ及び言語モデルパラメータは、制御パラメータの一部である。
制御パラメータを図8に例示する。制御パラメータは、例えば、発言者、ジャンル、言語、方言またはシチュエーションなどの様々な属性を含む。「制御パラメータ:発言者」は、「20代男性」、「20代女性」などの発言者の世代及び性別の一方または両方を示すものであってもよいし、特定の個人(アナウンサー、男優、女優など)を示すものであってもよい。「制御パラメータ:発言者」は、音響モデル、言語モデル、単語辞書などの選択に有効である。例えば、「制御パラメータ:発言者」が「女性」であれば、音声認識パラメータ制御部106は女性向けの音響モデルなどを選択することができる。また、「制御パラメータ:発言者」が特定の個人を示すものであれば、音声認識パラメータ制御部106がこの特定の個人に最適化された音響モデル、言語モデル、単語辞書などを選択することができる。
「制御パラメータ:ジャンル」は、「ニュース」、「ドラマ」、「バラエティ」などのコンテンツのジャンルを示す。「制御パラメータ:ジャンル」は、音響モデル、言語モデル、単語辞書などの選択に有効である。例えば、「制御パラメータ:ジャンル」が「ニュース」であれば、音声認識パラメータ制御部106はニュース向けの音響モデル、言語モデル及び単語辞書を選択することができる。
「制御パラメータ:言語」は、「日本語」、「英語」、「中国語」などの発言者の使用言語を示す。「制御パラメータ:言語」は、音響モデル、言語モデル、単語辞書などの選択に有効である。「制御パラメータ:方言」は、「標準語」、「関西弁」、「九州弁」など前述の「制御パラメータ:言語」のサブセットに相当する方言を示す。故に、通常、「制御パラメータ:方言」が判明すれば「制御パラメータ:言語」も判明するので、抽出テキスト処理部105は「制御パラメータ:方言」が判明すれば対応する制御「パラメータ:言語」を自動的に決定してもよい。
「制御パラメータ:シチュエーション」は、「電車内」、「静かな場所」、「自動車内」などの音声データの収録環境を示す。「制御パラメータ:シチュエーション」は、音響モデルの選択、ノイズキャンセリング処理の制御などに有効である。
図7にも例示されるように、テキスト解析対象、テキスト抽出方法及び抽出テキスト処理方法は、特定のWebページ識別子に対して1組に限らず複数組設けられてもよい(701)。例えば、抽出テキスト処理部105は先頭キーワードをWebページ解析部103に戻し、Webページ解析部103はこの先頭キーワードを含む検索式を生成してもよい。Webページ解析部103は、この検索式を所定の検索エンジンに送信し、検索された1つまたは複数のWebページに基づいてテキストを抽出してもよい。検索された複数のWebページに基づいてテキストを抽出する場合には、個別の優先度が抽出テキストに割り当てられてもよい。優先度は、各Webページの識別子によって決定されてもよいし、検索結果における各Webページのソート順序によって決定されてもよい。優先度は、制御パラメータの数が過剰である場合などに、有効とする制御パラメータの選定するために利用できる。また、図7に例示するように検索されたWebページの識別子に応じてテキスト抽出方法が更に切り替えられてもよい。また、先頭キーワードなどに基づいて検索されたWebページがWebページ解析部103に新たに入力されたWebページとして扱われてもよい。
音声認識パラメータ制御部106は、抽出テキスト処理部105からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部106は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部106は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部106は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部106は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部106は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。即ち、音声認識パラメータ制御部106は、言語モデルまたは単語辞書の更新を、対応する音声認識処理の終了後に無効としてもよいし有効としてもよい。言語モデルまたは単語辞書の更新が一時的であるか継続的であるかは予め定められてもよいし、制御パラメータによって指定されてもよいし、各言語モデルまたは各単語辞書について個別に定められてもよい。
コンテンツ取得部107は、認識対象入力部101からのWebページの識別子に対応するコンテンツを取得する。コンテンツ取得部107は、取得したコンテンツをコンテンツ解析部108に入力する。
コンテンツ解析部108は、コンテンツ取得部107からのコンテンツを解析する。コンテンツ解析部108は、コンテンツからメタデータ及びメディアデータを抽出し、このコンテンツをコンテンツ分離部109に入力する。
コンテンツ分離部109は、コンテンツ解析部108からのメディアデータに含まれる音声データを分離する。コンテンツ分離部109は、分離した音声データを音声入力部110に入力する。
音声入力部110は、コンテンツ分離部109からの音声データを音声認識部111に適した形式に変換する。音声入力部110は、変換済みの音声データを音声認識部111に入力する。
音声認識部111は、認識対象となる音声データに関して前述の音声認識パラメータ制御部106の処理が完了してから、制御された音声認識パラメータに従って音声入力部110からの音声データに対して音声認識を行う。音声認識部111は、認識結果を認識結果出力部112に入力する。
認識結果出力部112は、認識結果を出力する。例えば、認識結果出力部112は、認識結果を字幕として図示しない表示部にコンテンツの再生と同期して表示させてもよいし、認識結果をコンテンツのメタデータとして図示しない記憶媒体に保存してもよいし、認識結果をコンテンツのシーン検出に利用してもよい。
以上説明したように、第1の実施形態に係る音声認識装置は、コンテンツを提供するWebページに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。
(第2の実施形態)
図2に示すように、第2の実施形態に係る音声認識装置は、図1の音声認識装置において音声認識パラメータ制御部106を音声認識パラメータ制御部206に、コンテンツ分離部109をコンテンツ分離部209に夫々置換し、映像入力部213及び画像認識部214を追加した構成に相当する。以下の説明では、図2において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
コンテンツ分離部209は、コンテンツ解析部108からのメディアデータに含まれる音声データ及び映像データを分離する。コンテンツ分離部209は、分離した音声データを音声入力部110に入力する。コンテンツ分離部209は、分離した映像データを映像入力部213に入力する。
映像入力部213は、コンテンツ分離部209からの映像データを画像認識部214に適した形式に変換する。映像入力部213は、変換済みの映像データを画像認識部214に入力する。尚、映像データ中の一部のフレームに対する画像認識を省略するために、映像入力部213は、コンテンツ分離部209からの映像データ中のフレームを間引いてもよい。
画像認識部214は、映像入力部213からの映像データに対して画像認識を行う。画像認識部214は、認識結果に基づいて前述の制御パラメータを生成し、音声認識パラメータ制御部206に入力する。具体的には、画像認識部214は映像中に表示されたテキスト(例えば、テロップ、番組出演者の名前など)を認識し、このテキストに形態素解析を行ってよい。画像認識部214は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部206に入力する。例えば、画像認識部214は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うWebサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、画像認識部214は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、制御パラメータを適用する時間的な範囲を指定してもよい。例えば、画像認識部214は、テキストが表示される再生時間をメタデータなどから取得できる。また、画像認識部214は、キーワードの一部または全部を辞書パラメータに変換してもよい。更に、画像認識部214は、認識結果を言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新(学習)などに利用できる。
画像認識部214は、文字のサイズ、形状(フォント)、画面内位置、表示間隔などに応じて各単語の制御パラメータへの変換方法を切り替えたり、優先度を割り当てたりしてもよい。優先度は、制御パラメータの数が過剰である場合などに、有効とする制御パラメータの選定するために利用できる。例えば、文字のサイズが大きいほど高い優先度を割り当てたり、文字の形状が太字などの強調表示に相当するものであれば高い優先度を割り当てたり、特定の画面内位置(例えば、番組出演者の名前が表示されやすい画面下部など)に高い優先度を割り当てたりしてもよい。また、画像認識部214は、文字に限らず特定の放送局、番組、人物、企業、団体、商品、サービスなどを表す特定のマーク(ロゴ)を認識し、制御パラメータに変換してもよい。例えば、画像認識部214が、特定の番組を示すマークを認識すれば、その番組に対応する「制御パラメータ:ジャンル」、「制御パラメータ:言語」などに変換してもよい。
音声認識パラメータ制御部206は、抽出テキスト処理部105及び画像認識部214からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部206は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部206は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部206は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部206は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部206は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。
音声認識パラメータ制御部206は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部206は、抽出テキスト処理部105及び画像認識部214のいずれか一方からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部105及び画像認識部214を区別せずに(例えば各制御パラメータに割り当てられた優先度に従って)制御パラメータを選定してもよい。また、音声認識パラメータ制御部206は、抽出テキスト処理部105及び画像認識部214の両方から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。
以上説明したように、第2の実施形態に係る音声認識装置は、コンテンツを提供するWebページ及びコンテンツに含まれる映像データの画像認識結果に基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。
(第3の実施形態)
図3に示すように、第3の実施形態に係る音声認識装置は、図1の音声認識装置において音声認識パラメータ制御部106を音声認識パラメータ制御部306に、コンテンツ分離部109をコンテンツ分離部309に夫々置換し、分離テキスト入力部315及び分離テキスト処理部316を追加した構成に相当する。以下の説明では、図3において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
コンテンツ分離部309は、コンテンツ解析部108からのメディアデータに含まれる音声データ及びテキストデータを分離する。また、コンテンツ分離部309は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部309は、分離した音声データを音声入力部110に入力する。コンテンツ分離部309は、分離したテキストデータを分離テキスト入力部315に入力する。
分離テキスト入力部315は、コンテンツ分離部309からの分離テキストデータを分離テキスト処理部316に適した形式に変換する。分離テキスト入力部315は、変換済みの分離テキストデータを分離テキスト処理部316に入力する。
分離テキスト処理部316は、分離テキスト入力部315からの分離テキストに基づいて制御パラメータを生成し、音声認識パラメータ制御部306に入力する。具体的には、分離テキスト処理部316は、分離テキストに形態素解析を行ってよい。分離テキスト処理部316は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部306に入力する。例えば、分離テキスト処理部316は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うWebサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、分離テキスト処理部316は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、制御パラメータを適用する時間的な範囲を指定してもよい。また、分離テキスト処理部316は、キーワードの一部または全部を辞書パラメータに変換してもよい。更に、分離テキスト処理部316は、認識結果を言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新(学習)などに利用できる。
音声認識パラメータ制御部306は、抽出テキスト処理部105及び分離テキスト処理部316からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部306は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部306は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部306は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部306は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部306は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。
音声認識パラメータ制御部306は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部306は、抽出テキスト処理部105及び分離テキスト処理部316のいずれか一方からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部105及び分離テキスト処理部316を区別せずに(例えば各制御パラメータに割り当てられた優先度に従って)制御パラメータを選定してもよい。また、音声認識パラメータ制御部306は、抽出テキスト処理部105及び分離テキスト処理部316の両方から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。
以上説明したように、第3の実施形態に係る音声認識装置は、コンテンツを提供するWebページ及びコンテンツに含まれるテキストデータに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。
(第4の実施形態)
図4に示すように、第4の実施形態に係る音声認識装置は、図1の音声認識装置において音声認識パラメータ制御部106を音声認識パラメータ制御部406に、コンテンツ分離部109をコンテンツ分離部409に夫々置換し、図2の映像入力部213及び画像認識部214と図3の分離テキスト入力部315及び分離テキスト処理部316とを追加した構成に相当する。以下の説明では、図4において図1、図2または図3と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
コンテンツ分離部409は、コンテンツ解析部108からのメディアデータに含まれる音声データ、映像データ及びテキストデータを分離する。また、コンテンツ分離部409は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部409は、分離した音声データを音声入力部110に入力する。コンテンツ分離部409は、分離した映像データを映像入力部213に入力する。コンテンツ分離部409は、分離したテキストデータを分離テキスト入力部315に入力する。
音声認識パラメータ制御部406は、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部406は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部406は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部406は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部406は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部406は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。
音声認識パラメータ制御部406は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部406は、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316のうちの一部からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316を区別せずに(例えば各制御パラメータに割り当てられた優先度に従って)制御パラメータを選定してもよい。また、音声認識パラメータ制御部406は、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316のうち複数から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。
以上説明したように、第4の実施形態に係る音声認識装置は、コンテンツを提供するWebページ、コンテンツに含まれる映像データの画像認識結果及びコンテンツに含まれるテキストデータに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。
(第5の実施形態)
図5に示すように、第5の実施形態に係る音声認識装置は、認識対象入力部501、コンテンツ取得部107、コンテンツ解析部108、コンテンツ分離部509、音声入力部510、第1の音声認識部517、映像入力部513、画像認識部514、分離テキスト入力部515、分離テキスト処理部516、Webページ取得部502、Webページ解析部103、解析パラメータ記憶部104、抽出テキスト処理部105、音声認識パラメータ制御部106、第2の音声認識部511及び認識結果出力部112を有する。以下の説明では、図5において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
認識対象入力部501は、音声認識の対象となる音声データを含むコンテンツを取得するための情報をコンテンツ取得部107に入力する。この情報は、コンテンツを提供するWebページの識別子に限らず、コンテンツが読み出される記憶媒体のアドレス情報、コンテンツが放送されるチャンネルなどであってもよい。
コンテンツ分離部509は、コンテンツ解析部108からのメディアデータに含まれる音声データ、映像データ及びテキストデータを分離する。また、コンテンツ分離部509は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部509は、分離した音声データを音声入力部510に入力する。コンテンツ分離部509は、分離した映像データを映像入力部513に入力する。コンテンツ分離部509は、分離したテキストデータを分離テキスト入力部515に入力する。
音声入力部510は、コンテンツ分離部509からの音声データを第1の音声認識部517及び第2の音声認識部511に適した形式に変換する。音声入力部510は、変換済みの音声データを第1の音声認識部517及び第2の音声認識部511に入力する。第1の音声認識部517は、音声入力部510からの音声データに対して音声認識を行う。第1の音声認識部517は、認識結果に含まれる単語またはWebページの識別子を抽出し、Webページ取得部502に入力する。
映像入力部513は、コンテンツ分離部509からの映像データを画像認識部514に適した形式に変換する。映像入力部513は、変換済みの映像データを画像認識部514に入力する。尚、映像データ中の一部のフレームに対して画像認識を省略するために、映像入力部513は、コンテンツ分離部509からの映像データ中のフレームを間引いてもよい。
画像認識部514は、映像入力部513からの映像データに対して画像認識を行う。画像認識部514は、認識結果から単語またはWebページの識別子を抽出し、Webページ取得部502に入力する。具体的には、画像認識部514は映像中に表示されたテキスト(例えば、テロップ、番組出演者の名前、コンテンツに関連するWebページのURLなど)を認識する。画像認識部514は、この認識結果に含まれる単語またはWebページの識別子をWebページ取得部502に入力する。
また、画像認識部514は、文字のサイズ、形状(フォント)、画面内位置、表示間隔などに応じて、単語またはWebページの識別子に優先度を割り当ててもよい。優先度は、単語またはWebページの識別子の数が過剰である場合などに、有効とする単語またはWebページの識別子の選定するために利用できる。例えば、文字のサイズが大きいほど高い優先度を割り当てたり、文字の形状が太字などの強調表示に相当するものであれば高い優先度を割り当てたり、特定の画面内位置(例えば、番組出演者の名前が表示されやすい画面下部など)に高い優先度を割り当てたりしてもよい。或いは、画像認識部514は、文字に限らず特定の放送局、番組、人物、企業、団体、商品、サービスなどを表す特定のマーク(ロゴ)を認識し、対応する単語または対応するWebページの識別子に変換してもよい。
分離テキスト入力部515は、コンテンツ分離部509からの分離テキストデータを分離テキスト処理部516に適した形式に変換する。分離テキスト入力部515は、変換済みの分離テキストデータを分離テキスト処理部516に入力する。
分離テキスト処理部516は、分離テキスト入力部515からの分離テキストから単語またはWebページの識別子を抽出し、Webページ取得部502に入力する。具体的には、分離テキスト処理部516は、分離テキストに含まれる単語またはWebページの識別子を抽出する。
Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを取得する。具体的には、Webページ取得部502は、単語が入力された場合には、この単語を使用して検索式を生成する。Webページ取得部502は、この検索式を所定の検索エンジンに送信し、検索結果からWebページを取得する。一方、Webページ取得部502は、Webページの識別子が入力された場合には、このWebページの識別子に従ってWebページを取得する。Webページ取得部502は、取得したWebページをWebページ解析部103に入力する。
また、Webページ取得部502は、検索式に含める単語の数、検索結果から取得するWebページの数、Webページの識別子に従って取得するWebページの数などを制限してもよい。例えば、Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516のうち一部からの単語を優先的に検索式に含めてもよいし、これらのうち一部からのWebページの識別子を優先的に選択してWebページを取得してもよい。或いは、Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516を区別せずに(例えば各単語に割り当てられた優先度に従って)各単語を重み付けして検索式を生成してもよい。ここで、重み付けすることとは、例えば、優先度の高い順に所定個数以下の単語を組み合わせること、優先度が所定値以上の単語を組み合わせることなどを意味する。また、Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516のうち複数から同一の単語または同一のWebページの識別子が入力される場合に、この単語またはWebページの識別子を優先的に使用してもよい。
第2の音声認識部511は、認識対象となる音声データに関して前述の音声認識パラメータ制御部106の処理が完了してから、音声入力部510からの音声データに対して音声認識を行う。第2の音声認識部511は、認識結果を認識結果出力部112に入力する。尚、第1の音声認識部517及び第2の音声認識部511は、別個のモジュールであってもよいし、一体化されたモジュールであってもよい。
以上説明したように第5の実施形態に係る音声認識装置は、コンテンツから分離された音声データに対する音声認識結果、コンテンツから分離された映像データに対する画像認識結果、コンテンツから分離されたテキストなどに基づいてコンテンツに関連するWebページを取得し、この関連するWebページに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツを提供するWebページが存在しない場合、不明な場合などにも、コンテンツのための音声認識パラメータを自動制御できる。
本実施形態に係る音声認識装置は、コンテンツに含まれる音声データ、映像データ及びテキストデータを利用してコンテンツに関連するWebページを検索している。しかしながら、必ずしもこれら全てを利用しなくても、本実施形態に係る音声認識装置と類似の効果を得ることができる。音声データを利用しない場合には、図5において第1の音声認識部517は除去されてよい。映像データを利用しない場合には、図5において映像入力部513及び画像認識部514は除去されてよい。テキストデータを利用しない場合には分離テキスト入力部515及び分離テキスト処理部516は除去されてよい。
(第6の実施形態)
図6に示すように、第6の実施形態に係る音声認識装置は、図5の認識対象入力部501を認識対象入力部601に、Webページ取得部102をWebページ取得部602に夫々置換した構成に相当する。以下の説明では、図6において図5と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
認識対象入力部601は、音声認識の対象となる音声データを含むコンテンツを提供するWebページの識別子をWebページ取得部602及びコンテンツ取得部107に入力する。
Webページ取得部602は、認識対象入力部601からのWebページの識別子に従ってWebページを取得する。また、Webページ取得部602は、Webページ取得部502と同様に、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを取得する。Webページ取得部602は、取得したWebページをWebページ解析部103に入力する。
一例として、Webページ取得部602は、最初に、認識対象入力部601からのWebページの識別子に従ってWebページを取得する。そして、Webページ取得部602は、このWebページに関して抽出テキスト処理部105が十分な制御パラメータを得られなければ、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを追加的に取得してもよい。
別の例として、Webページ取得部602は、最初に、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを取得する。そして、Webページ取得部602は、このWebページに関して抽出テキスト処理部105が十分な制御パラメータを得られなければ、認識対象入力部601からのWebページの識別子に従ってWebページを追加的に取得してもよい。
別の例として、Webページ取得部602は、認識対象入力部601からのWebページの識別子に従うWebページと、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づくコンテンツに関連するWebページとの両方を並列的に取得してもよい。
以上説明したように第6の実施形態に係る音声認識装置は、コンテンツを提供するWebページ及びコンテンツに関連するWebページの少なくとも一方に基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、音声認識パラメータを自動制御できる。
本実施形態に係る音声認識装置は、コンテンツに含まれる音声データ、映像データ及びテキストデータを利用してコンテンツに関連するWebページを検索している。しかしながら、必ずしもこれら全てを利用しなくても、本実施形態に係る音声認識装置と類似の効果を得ることができる。音声データを利用しない場合には、図6において第1の音声認識部517は除去されてよい。映像データを利用しない場合には、図6において映像入力部513及び画像認識部514は除去されてよい。テキストデータを利用しない場合には分離テキスト入力部515及び分離テキスト処理部516は除去されてよい。
尚、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
例えば、上記各実施形態の処理を実現するプログラムを、コンピュータで読み取り可能な記憶媒体に格納して提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなど、プログラムを記憶でき、かつ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
また、上記各実施形態の処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
101・・・認識対象入力部
102・・・Webページ取得部
103・・・Webページ解析部
104・・・解析パラメータ記憶部
105・・・抽出テキスト処理部
106・・・音声認識パラメータ制御部
107・・・コンテンツ取得部
108・・・コンテンツ解析部
109・・・コンテンツ分離部
110・・・音声入力部
111・・・音声認識部
112・・・認識結果出力部
206・・・音声認識パラメータ制御部
209・・・コンテンツ分離部
213・・・映像入力部
214・・・画像認識部
306・・・音声認識パラメータ制御部
309・・・コンテンツ分離部
315・・・分離テキスト入力部
316・・・分離テキスト処理部
406・・・音声認識パラメータ制御部
409・・・コンテンツ分離部
501・・・認識対象入力部
502・・・Webページ取得部
509・・・コンテンツ分離部
510・・・音声入力部
511・・・第2の音声認識部
513・・・映像入力部
514・・・画像認識部
515・・・分離テキスト入力部
516・・・分離テキスト処理部
517・・・第1の音声認識部
601・・・認識対象入力部
602・・・Webページ取得部

Claims (11)

  1. 音声データを含むコンテンツを取得するコンテンツ取得部と、
    前記コンテンツを提供するWebページを取得するWebページ取得部と、
    前記コンテンツを提供するWebページに基づく解析を行って、前記音声データの特徴を示すテキストを抽出するWebページ解析部と、
    前記音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部と、
    制御された音声認識パラメータに従って前記音声データに対して音声認識を行う音声認識部と
    を具備する音声認識装置。
  2. Webページの識別子と、前記テキストを抽出するための解析対象及び抽出方法とを対応付けて記憶する記憶部を更に具備し、
    前記Webページ解析部は、前記コンテンツを提供するWebページの識別子に対応する解析対象から前記コンテンツを提供するWebページの識別子に対応する抽出方法に従って前記テキストを抽出する、
    請求項1記載の音声認識装置。
  3. Webページの識別子と、絞り込み条件及び当該絞り込み条件の適用対象とを対応付けて記憶する記憶部を更に具備し、
    前記Webページ解析部は、前記コンテンツを提供するWebページの識別子に対応する絞り込み条件が前記コンテンツを提供するWebページの識別子に対応する絞り込み条件の適用対象において充足されていないならば前記テキストの抽出を省略する、
    請求項1記載の音声認識装置。
  4. 前記記憶部は、抽出されたテキストを制御パラメータに変換するための処理方法を前記Webページの識別子と対応付けて更に記憶し、
    前記制御部は、抽出されたテキストが前記コンテンツを提供するWebページの識別子に対応する処理方法に従って変換された制御パラメータに応じて前記音声認識パラメータを制御する、
    請求項2記載の音声認識装置。
  5. 前記Webページ解析部は、前記コンテンツを提供するWebページが所定のWebページであるならば、抽出したテキストを用いて別のWebページを検索し、当該別のWebページの識別子に対応する所定の解析対象に対して所定の抽出方法に従って前記テキストを抽出する、請求項1記載の音声認識装置。
  6. 前記パラメータ制御部は、前記テキストの記述位置に基づいて前記音声認識パラメータを制御する、請求項1記載の音声認識装置。
  7. 前記パラメータ制御部は、前記テキストが所定のキーワードを含むならば、当該所定のキーワードに基づいて前記音声認識パラメータを制御する、請求項1記載の音声認識装置。
  8. 音声データを含むコンテンツを取得するコンテンツ取得部と、
    前記音声データの音声認識結果、前記コンテンツから分離された映像データの画像認識結果及び前記コンテンツから分離されたテキストデータのうち少なくとも一方に基づいて前記コンテンツに関連するWebページを取得するWebページ取得部と、
    前記コンテンツに関連するWebページに基づく解析を行って、前記音声データの特徴を示すテキストを抽出するWebページ解析部と、
    前記音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部と、
    制御された音声認識パラメータに従って前記音声データに対して音声認識を行う音声認識部と
    を具備する音声認識装置。
  9. 前記Webページ取得部は、前記音声認識結果に含まれる第1の単語、前記画像認識結果に含まれる第2の単語及び前記テキストデータに含まれる第3の単語のうちの少なくとも1つを重み付けして前記コンテンツに関連するWebページを検索するための検索式を生成する、請求項8記載の音声認識装置。
  10. 前記Webページ取得部は、前記第2の単語に関して文字のサイズ、形状または画面内位置に基づいて重み付けを行う、請求項9記載の音声認識装置。
  11. 前記Webページ取得部は、前記画像認識結果が所定のマークに一致するならば、前記所定のマークに対応する所定の識別子に従って前記コンテンツに関連するWebページを取得する、請求項8記載の音声認識装置。
JP2010158219A 2010-07-12 2010-07-12 音声認識装置 Pending JP2012022053A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010158219A JP2012022053A (ja) 2010-07-12 2010-07-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010158219A JP2012022053A (ja) 2010-07-12 2010-07-12 音声認識装置

Publications (1)

Publication Number Publication Date
JP2012022053A true JP2012022053A (ja) 2012-02-02

Family

ID=45776398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010158219A Pending JP2012022053A (ja) 2010-07-12 2010-07-12 音声認識装置

Country Status (1)

Country Link
JP (1) JP2012022053A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004023641A (ja) * 2002-06-19 2004-01-22 Fujitsu Ltd ホームページ表示装置
JP2007256342A (ja) * 2006-03-20 2007-10-04 Fujitsu Ltd クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
JP2008158511A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声データ検索用webサイトシステム
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004023641A (ja) * 2002-06-19 2004-01-22 Fujitsu Ltd ホームページ表示装置
JP2007256342A (ja) * 2006-03-20 2007-10-04 Fujitsu Ltd クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
JP2008158511A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声データ検索用webサイトシステム
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013064487; 緒方淳,後藤真孝: 'PodCastle: 集合知を活用した音響モデル学習による音声認識の性能向上' 日本音響学会2009年春季研究発表会講演論文集 講演要旨・講演論文CD-ROM 2-5-1, 20090310, pp.39-42, 社団法人日本音響学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理
JP7242520B2 (ja) 2019-07-11 2023-03-20 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理

Similar Documents

Publication Publication Date Title
US11197036B2 (en) Multimedia stream analysis and retrieval
JP5178109B2 (ja) 検索装置、方法及びプログラム
KR101644789B1 (ko) 방송 프로그램 연관 정보 제공 장치 및 방법
KR101472931B1 (ko) 컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및장치
KR100877301B1 (ko) 트랜스크립트 정보 구문에 기초한, 프로그램 분류 장치 및방법
JP5588561B2 (ja) メディアコンテンツ提供方法、及び装置
KR101878488B1 (ko) 대화 연관 컨텐츠 제공 방법 및 장치
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
JP5296598B2 (ja) 音声情報抽出装置
JP4100243B2 (ja) 映像情報を用いた音声認識装置及び方法
CN114996506B (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
US20080016068A1 (en) Media-personality information search system, media-personality information acquiring apparatus, media-personality information search apparatus, and method and program therefor
JP6433045B2 (ja) キーワード抽出装置およびプログラム
JP2007199315A (ja) コンテンツ提供装置
JP2010003219A (ja) 関連クエリ導出装置、関連クエリ導出方法及びプログラム
CN105284121B (zh) 多媒体流和社交网络线程之间的同步
JP2012022053A (ja) 音声認識装置
JP2007257134A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP7202938B2 (ja) 番組名検索支援装置、及び、番組名検索支援方法
JP2005227545A (ja) 辞書作成装置、番組案内装置及び辞書作成方法
JP2007293602A (ja) 映像検索システム、映像検索方法およびプログラム
JP5284478B2 (ja) コンテンツ検索装置、方法およびプログラム
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
KR101606170B1 (ko) Iptv 방송 시스템, 서버 및 발성목록 생성 장치
JP2009239630A (ja) Epgデータ検索システムとepgデータ検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140408