JP5723711B2

JP5723711B2 - 音声認識装置および音声認識プログラム

Info

Publication number: JP5723711B2
Application number: JP2011165365A
Authority: JP
Inventors: 亨今井; 真一本間; 彰夫小林
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2011-07-28
Filing date: 2011-07-28
Publication date: 2015-05-27
Anticipated expiration: 2031-07-28
Also published as: JP2013029652A

Description

本発明は、音声認識装置および音声認識プログラムに関する。

異なるタスクの学習用テキストデータベースからそれぞれ作成された生起順序に関する統計的言語モデル群を予め用意しておき、発声するタスクのサンプルを用いて、発声タスクと類似した統計的言語モデルを統計的言語モデル群から選択し、この選択した統計的言語モデルを複数の音声認識候補の選出に使用する音声認識方法が知られている（例えば、特許文献１参照）。

特許第３２４０６９１号公報

しかしながら、上記の音声認識方法は、統計的言語モデルの切替えを静的に行う方法である。よって、上記の音声認識方法では、例えば、十分な長さの音声認識結果が得られていない場合や、話題が変わった直後においては、十分なサンプルが取得できていないため、話題に最適な言語モデルを精度よく選択することが難しい。
本発明は、上記問題点を解決するためになされたものであり、発話における話題に応じて、高精度な音声認識結果を得ることができる、音声認識装置および音声認識プログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様である音声認識装置は、言語表現ごとの統計的データを言語モデルとして記憶する言語モデル記憶部と、音素ごとの音響特徴量の統計的データを音響モデルとして記憶する音響モデル記憶部と、テキスト情報を時系列に含む話題情報を記憶する話題情報記憶部と、前記言語モデルに含まれる前記言語表現と前記言語表現に対応する音素の列を表す発音ネットワークと前記言語モデルに含まれる統計的データに基づく前記言語表現ごとの言語スコアとを記憶する発音ネットワーク・スコア情報記憶部と、取り込んだ音声データに基づいて音響特徴量を算出する音響分析部と、前記音響分析部が算出した前記音響特徴量と前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークにおける音素に対応する前記音響モデルとに基づき前記言語表現ごとの音響スコアを求め、前記発音ネットワーク・スコア情報記憶部から前記言語表現ごとの言語スコアを求め、前記音響スコアと前記言語スコアとに基づいて正解候補単語列を探索し、前記正解候補単語列を含む認識結果テキスト情報を生成する正解単語探索部と、前記正解単語探索部が生成した前記認識結果テキスト情報と前記話題情報記憶部に記憶された前記話題情報とを照合し、前記認識結果テキスト情報に対応するテキスト情報を、前記話題情報から発話対応テキストとして抽出する話題トラッキング部と、前記話題情報記憶部に記憶された前記話題情報から、前記話題トラッキング部が抽出した前記発話対応テキストを含む所定範囲のテキストを発話相当付近テキストとして抽出し、前記発話相当付近テキストに関連する関連テキスト情報を外部のテキスト情報源から取得し、前記言語モデル記憶部に記憶された前記言語モデルを前記関連テキスト情報に基づき適応化して前記言語モデル記憶部を更新する言語モデル適応化部と、前記言語モデル適応化部が前記言語モデル記憶部を更新した際に、適応化された言語モデルに基づいて前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークと前記言語スコアとを更新する更新部と、を備えることを特徴とする。
ここで、話題情報は、音声データが示す発話内容に対応する内容を有する情報である。例えば、話題情報は、話者による発話の内容に対応する、話題、話の概要、要約、あらすじ、ポイント等が示された話題テキストを含む情報である。具体的には、例えば、放送番組を制作する際に用いられる、制作番組の進行予定内容が記載された番組進行予定シート（構成予定シート）の情報や、講演の際に用いられる、スピーチ内容が記載された講演用メモの情報、講演後にまとめられた講演記録の情報や、会議の議事録の情報である。
また、テキスト情報源は、様々なテキスト情報を保有する情報源である。例えば、テキスト情報源は、当該音声認識装置がネットワークを介してアクセスし、所望のテキスト情報を検索して取得可能な多数のウェブサイトである。または、テキスト情報源は、例えば、様々な分野それぞれに関するテキスト情報を格納するデータベースである。
このように構成することにより、本発明の一態様である音声認識装置は、音声データが示す発話内容に対応する話題や要約等の概要的な内容を有する話題情報と、外部のテキスト情報源から取得する様々な関連テキスト情報の集合とを用いることにより、発話における話題の内容に対応して言語モデルを選択し且つ適応化することができる。

［２］上記［１］記載の音声認識装置において、前記音響分析部は、前記音声データに基づいて、前記音響特徴量を計算するとともに発話間ポーズ期間を検出し、前記正解単語探索部は、前記発話間ポーズ期間を除く期間において、前記音響分析部が算出した前記音響特徴量と前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークにおける音素に対応する前記音響モデルとに基づき前記言語表現ごとの音響スコアを求め、前記発音ネットワーク・スコア情報記憶部から前記言語表現ごとの言語スコアを求め、前記音響スコアと前記言語スコアとに基づいて正解候補単語列を探索し、前記正解候補単語列を含む認識結果テキスト情報を生成し、前記更新部は、前記言語モデル適応化部が前記言語モデル記憶部を更新後、前記発話間ポーズ期間において、適応化された言語モデルに基づいて前記発音ネットワーク・スコア情報記憶部に記憶された前記言語スコアを更新することを特徴とする。
このように構成することにより、本発明の一態様である音声認識装置は、発話における話題の変化に追従して言語モデルを選択し且つ適応化しながら、音声データを音声認識処理して認識結果テキスト情報を生成し出力することができる。
［３］上記［１］または［２］記載の音声認識装置において、前記話題情報は、前記音声データが示す発話内容に対応する内容が含まれる話題テキストと、前記話題テキストの先頭を起点とした発話進行の経過時間を示す経過時間情報とを有し、前記正解単語探索部は、前記正解候補単語列と前記正解候補単語列における各正解候補単語に対応したタイムスタンプ情報とを含む認識結果テキスト情報を生成し、前記話題トラッキング部は、前記正解候補単語列と前記話題テキストとの類似度を計算するとともに、前記経過時間情報が示す経過時間と前記タイムスタンプ情報が示す各時間とに基づく時間係数を計算し、前記時間係数を前記類似度に重み付けすることに基づいて前記発話対応テキストを抽出することを特徴とする。
例えば、話題トラッキング部は、経過時間情報が示す経過時間と各正解候補単語に対応付けられたタイムスタンプ情報が示す時間との差分の総和の逆数を計算し、この計算結果を時間係数とする。そして、話題トラッキング部は、時間係数を類似度に重み付け加算する。
このように構成することにより、時間に関する情報を類似度の一部としてみなすことができ、発話対応テキストの抽出精度を向上させることができる。
［４］上記［１］から［３］いずれか一項記載の音声認識装置において、前記言語モデル記憶部は、カテゴリ別の複数の言語モデルを記憶し、前記言語モデル適応化部は、前記発話相当付近テキストに基づいて、前記カテゴリ別の複数の言語モデルから単語列被覆率が最大値となる言語モデルを選択し、前記言語モデルを前記関連テキスト情報により適応化することを特徴とする。

［５］上記の課題を解決するため、本発明の一態様である音声認識プログラムは、言語表現ごとの統計的データを言語モデルとして記憶する言語モデル記憶部と、音素ごとの音響特徴量の統計的データを音響モデルとして記憶する音響モデル記憶部と、テキスト情報を時系列に含む話題情報を記憶する話題情報記憶部と、前記言語モデルに含まれる前記言語表現と前記言語表現に対応する音素の列を表す発音ネットワークと前記言語モデルに含まれる統計的データに基づく前記言語表現ごとの言語スコアとを記憶する発音ネットワーク・スコア情報記憶部とを備えるコンピュータを、取り込んだ音声データに基づいて音響特徴量を算出する音響分析部と、前記音響分析部が算出した前記音響特徴量と前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークにおける音素に対応する前記音響モデルとに基づき前記言語表現ごとの音響スコアを求め、前記発音ネットワーク・スコア情報記憶部から前記言語表現ごとの言語スコアを求め、前記音響スコアと前記言語スコアとに基づいて正解候補単語列を探索し、前記正解候補単語列を含む認識結果テキスト情報を生成する正解単語探索部と、前記正解単語探索部が生成した前記認識結果テキスト情報と前記話題情報記憶部に記憶された前記話題情報とを照合し、前記認識結果テキスト情報に対応するテキスト情報を、前記話題情報から発話対応テキストとして抽出する話題トラッキング部と、前記話題情報記憶部に記憶された前記話題情報から、前記話題トラッキング部が抽出した前記発話対応テキストを含む所定範囲のテキストを発話相当付近テキストとして抽出し、前記発話相当付近テキストに関連する関連テキスト情報を外部のテキスト情報源から取得し、前記言語モデル記憶部に記憶された前記言語モデルを前記関連テキスト情報に基づき適応化して前記言語モデル記憶部を更新する言語モデル適応化部と、前記言語モデル適応化部が前記言語モデル記憶部を更新した際に、適応化された言語モデルに基づいて前記発音ネットワーク・スコア情報記憶部に記憶された前記言語スコアを更新する更新部と、して機能させる。

本発明によれば、発話における話題に応じて、高精度に音声認識結果を得ることができる。

本発明の一実施形態である音声認識装置を適用した音声認識システムの全体構成を示すブロック図である。同実施形態における認識結果テキスト情報の例である。同実施形態における話題情報の例である。同実施形態において、正解単語探索部における、発音ネットワークおよび言語スコアメモリの一部分を概念的に示す図である。同実施形態において、音声認識装置が実行する音声認識処理の概略の処理手順を示すフローチャートである。同実施形態において、音声認識装置が実行する言語モデルの動的適応化処理の概略の処理手順を示すフローチャートである。

以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
［１構成］
図１は、本発明の一実施形態である音声認識装置を適用した音声認識システムの全体構成を示すブロック図である。同図に示すように、音声認識システム１００は、音声認識装置１と、テキスト情報源２とを、ネットワーク３を介して接続した構成を有する。

音声認識装置１は、外部から供給される音声データを取り込み、音響モデルと、動的に適応化された言語モデル（適応化言語モデル）とを適用してその音声データの音声認識処理を実行し、発話ごとの認識結果テキスト情報を逐次生成する。
音声認識装置１は、一発話分の認識結果テキスト情報と、音声認識処理を実行する前に設定された話題情報とに基づいて、発話の話題に関連性が最も高い言語モデルを複数の言語モデルから選択し、テキスト情報源２から取得する関連テキスト集合に基づいて、選択した言語モデルを適応化する。話題情報は、音声データが示す発話内容に対応する内容を有する情報である。この話題情報については、その詳細を後述する。
すなわち、音声認識装置１は、音声データが示す発話内容における話題の変化に追従して、動的に言語モデルを適応化するものである。

テキスト情報源２は、様々なテキスト情報を保有する情報源である。具体的には、例えば、テキスト情報源２は、音声認識装置１がネットワーク３を介してアクセスし、所望のテキスト情報を検索して取得可能な多数のウェブサイトである。または、テキスト情報源２は、例えば、様々な分野それぞれに関するテキスト情報を格納するデータベースである。テキスト情報源２は、物理的には、ネットワーク３に接続されるサーバ装置等の情報処理装置である。

ネットワーク３は、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のコンピュータネットワークである。

音声認識装置１の詳細な構成について説明する。音声認識装置１は、基本言語モデル記憶部１０と、適応化言語モデル記憶部２０と、音響モデル記憶部３０と、音声データ取得部４０と、音響分析部５０と、正解単語探索部６０と、話題情報記憶部７０と、話題トラッキング部８０と、言語モデル適応化部９０とを備える。
これらの構成のうち、基本言語モデル記憶部１０と、適応化言語モデル記憶部２０と、音響モデル記憶部３０と、話題情報記憶部７０とは、磁気ハードディスク装置および各種半導体記憶装置またはいずれかにより実現される。
なお、基本言語モデル記憶部１０と適応化言語モデル記憶部２０とを併せて言語モデル記憶部と呼ぶ。

基本言語モデル記憶部１０は、ｎ個（ｎは２以上の整数。以下同じ。）の言語モデル１１−１〜１１−ｎを記憶する。言語モデル１１−１〜１１−ｎそれぞれは、ｎ個のカテゴリそれぞれに対応する、言語表現ごとの統計的データである。この統計的データとは、例えば、言語表現の生起確率を表わすデータである。言語モデルは、例えば、単語Ｎグラムモデルである。この単語Ｎグラムモデルは、Ｎ単語連鎖（Ｎは、例えば１、２、または３である。）の統計に基づいて、（Ｎ−１）単語の履歴から次の単語の生起確率を与えるモデルである。

言語モデル１１−１〜１１−ｎは、音声認識システム１００の用途、使用目的等に適したカテゴリのものとしたり、発話において各種想定される話題に関係するカテゴリのものとしたりする。例えば、言語モデル１１−１〜１１−ｎとして、「ニュース」、「情報」、「スポーツ」、「音楽」等のカテゴリのものを用いたり、カテゴリ「スポーツ」をさらに細かく、「野球」、「サッカー」、「相撲」等に区分したものを用いたりする。または、言語モデル１１−１〜１１−ｎとして、発話において想定される話題に関係するカテゴリ、例えば、「健康」、「園芸」、「料理」等のカテゴリを用いる。
なお、以下の説明において、言語モデル１１−１〜１１−ｎのうちいずれか一の言語モデルを言語モデル１１と呼ぶことがある。

音声認識装置１は、所望のカテゴリに対応する言語モデルを、多種のカテゴリそれぞれに対応する多数の言語モデルを格納した、図示しない言語モデルサーバから取り込んで基本言語モデル記憶部１０に記憶させるようにしてもよい。例えば、音声認識装置１は、利用者によって指定されるカテゴリに対応する言語モデルを言語モデルサーバから取得して基本言語モデル記憶部１０に記憶させてもよい。または、音声認識装置１は、音声認識処理の実行結果である認識結果テキスト情報に基づいてカテゴリを決定し、このカテゴリに対応する言語モデルを言語モデルサーバから取り込んで基本言語モデル記憶部１０に記憶させてもよい。

適応化言語モデル記憶部２０は、適応化言語モデルを記憶する。適応化言語モデルは、発話ごとの音声認識処理の結果に基づいて、言語モデル適応化部９０が基本言語モデル記憶部１０から選択した言語モデル１１を適応化した言語モデルである。
音響モデル記憶部３０は、音響モデルを記憶する。音響モデルは、音素ごとの音響特徴量の統計的データである。この統計的データとは、音響特徴量と言語表現との統計的確率を表わすデータである。音響モデルは、例えば、混合正規分布を出力確率とした隠れマルコフモデルである。この音響モデルは、一般的な話者（例えば、標準語を話す成人）に共通のものであってもよいし、話者属性（例えば、性別、年齢層等）ごとのデータであってもよい。

音声データ取得部４０は、図示しない外部の装置から供給される音声データを取り込む。音声データは、例えば、録音装置が録音して生成した録音音声データや、集音マイクが集音して得た集音音声データである。音声データは、例えば、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）データ等のデジタルデータである。音声データ取得部４０は、取り込んだ音声データを音響分析部５０に供給する。

音響分析部５０は、音声データ取得部４０から供給される音声データを取り込み、この音声データを分析して音響特徴量を計算するとともに発話間ポーズ期間を検出する。音響特徴量は、パワースペクトル、周波数特性を表すケプストラム等を示すベクトルデータである。発話間ポーズ期間は、発話の終端（発話終端）から次の発話の始端（発話始端）までの期間、すなわち、発話に対する音響特徴量が正解単語探索部６０に供給されない期間である。発話間ポーズ期間を示す情報は、例えば、発話終端の時刻および発話始端の時刻を示すフラグである。音響分析部５０は、音響特徴量と発話間ポーズ期間を示す情報とを、正解単語探索部６０に逐次供給する。

正解単語探索部６０は、その機能構成として、発音ネットワーク・スコア情報記憶部６１と、更新部６２とを備える。
発音ネットワーク・スコア情報記憶部６１は、適応化言語モデル記憶部２０に記憶された適応化言語モデルに含まれる言語表現と、発音ネットワークと、言語スコアメモリとを記憶する。発音ネットワークは、適応化言語モデルに登録された言語表現に対応する音素の列を表す。つまり、発音ネットワークは、適応化言語モデルに登録された全単語についての音素の結合関係を示す。言語スコアメモリは、登録された言語表現ごとの言語スコアのデータ集合である。
更新部６２は、言語モデル適応化部９０が適応化言語モデル記憶部２０を更新した際に、適応化言語モデルに基づいて発音ネットワーク・スコア情報記憶部６１に記憶された発音ネットワークおよび言語スコアメモリを更新する

正解単語探索部６０は、音響分析部５０から逐次供給される音響特徴量と発話間ポーズ期間を示す情報とを取り込む。正解単語探索部６０は、発話間ポーズ期間を示す情報によって定まる発話間ポーズ期間を除く期間、つまり発話期間において、音響特徴量と発音ネットワーク・スコア情報記憶部６１に記憶された発音ネットワークにおける音素に対応する音響モデルとに基づいて言語表現ごとの音響スコアを計算する。そして、正解単語探索部６０は、発音ネットワーク・スコア情報記憶部６１に記憶された言語スコアメモリから言語表現ごとの言語スコアを求める。そして、正解単語探索部６０は、音響スコアと言語スコアとの和が最も高いペアとなる正解候補単語を逐次探索し、探索によって得られる正解候補単語と、例えば音声認識処理の開始時点から当該正解候補単語を取得するときまでの時間を示すタイムスタンプ情報とを対応付けた認識結果テキスト情報を生成する。正解単語探索部６０は、認識結果テキスト情報を、外部に出力するとともに話題トラッキング部６０に供給する。
一発話期間に含まれる一または複数の正解候補単語を時系列に配列して得られる正解候補単語列（テキスト）を、推定発話テキストと呼ぶ。認識結果テキスト情報の具体例については後述する。

更新部６２は、発話間ポーズ期間を示す情報によって定まる発話間ポーズ期間において、適応化言語モデル記憶部２０に記憶された適応化言語モデルに基づいて、発音ネットワーク・スコア情報記憶部６１に記憶された発音ネットワークおよび言語スコアメモリを変更（更新）する。発音ネットワークは、適応化言語モデルに登録された全単語についての音素の結合関係を示す。この発音ネットワークにおける各単語の終端音素には、当該単語の言語スコアが対応付けられている。言語スコアメモリは、登録された単語ごとの言語スコアのデータ集合である。
正解単語探索部６０は、発話間ポーズ期間内に発音ネットワークおよび言語スコアメモリを更新することにより、これら更新直後の発話期間において、最新の適応化言語モデルを適用した音声認識処理を実行することができる。
正解単語探索部６０による音声認識処理および更新処理の詳細については後述する。

話題情報記憶部７０は、外部から供給される話題情報を記憶する。例えば、話題情報記憶部７０は、図示しない外部のコンピュータ装置等の情報処理装置から供給される話題情報を取り込んで記憶する。または、話題情報記憶部７０は、話題情報を記憶したメモリカード等の記録媒体から話題情報を読み込んで記憶する。または、話題情報記憶部７０は、キーボードやタッチパネル等の入力装置の操作により入力された話題情報を記憶する。

話題情報は、音声データが示す発話内容に対応する内容を有する情報である。例えば、話題情報は、話者による発話の内容に対応する、話題、話の概要、要約、あらすじ、ポイント等が示された話題テキストを含む情報である。この話題テキストは、複数のテキスト（テキスト情報）を時系列に含むものである。話題情報は、話者による発話前にあらかじめ生成された情報（発話前の話題情報）であってもよいし、話者による発話後に生成された情報（発話後の話題情報）であってもよい。発話前の話題情報は、例えば、放送番組を制作する際に用いられる、制作番組の進行予定内容が記載された番組進行予定シート（構成予定シート）の情報や、講演の際に用いられる、スピーチ内容が記載された講演用メモの情報である。発話後の話題情報は、例えば、講演後にまとめられた講演記録の情報や、会議の議事録の情報である。つまり、話題情報は、発話内容に対応する内容を有するが、話者がその通りに読み上げるとは限らない情報である。

話題情報には、例えば、話題テキストに加えて、話題テキストにおける先頭の単語を起点とした発話進行の経過時間を示す経過時間情報が含まれていてもよい。このような話題情報は、発声開始後いつ頃にどのような内容を話すのかを示す情報である。
本実施形態では、番組の開始時点からの経過予定時間を示す経過予定時間情報と、制作番組の進行予定内容を示す話題テキストとを含む番組進行予定シートの情報を、話題情報とした例を用いて説明する。

話題トラッキング部８０は、正解単語探索部６０から供給される認識結果テキスト情報を逐次取り込む。話題トラッキング部８０は、認識結果テキスト情報に含まれる推定発話テキストおよび正解候補単語ごとのタイムスタンプ情報と、話題情報記憶部７０に記憶された話題情報に含まれる話題テキストおよび経過時間情報とを照合し、推定発話テキストに対応するテキストを話題テキストから発話対応テキストとして抽出する。話題トラッキング８０による発話対応テキストの抽出処理については後述する。話題トラッキング部８０は、話題情報から抽出した発話対応テキストを言語モデル適応化部９０に供給する。

言語モデル適応化部９０は、話題トラッキング部８０から供給される発話対応テキストを取り込む。言語モデル適応化部９０は、話題情報記憶部７０に記憶された話題情報を参照し、発話対応テキストを含む所定範囲のテキストを発話相当付近テキストとして話題テキストから抽出する。発話相当付近テキストは、例えば、発話対応テキストと、この発話対応テキストよりも前の所定数の発話分のテキスト、もしくは発話対応テキストよりも後の所定数の発話分のテキスト、または前後両方の発話分のテキストとを含む範囲のテキストである。または、発話相当付近テキストは、例えば、発話対応テキストと、この発話対応テキストよりも前の所定数の単語列、もしくは発話対応テキストよりも後の所定数の単語列、または前後両方の単語列とを含む範囲のテキストである。

言語モデル適応化部９０は、発話相当付近テキストを検索キーとして、テキスト情報源２を検索し、発話相当付近テキストの内容に関連する内容を有する一または複数の関連テキスト情報を、関連テキスト集合として取り込む。言語モデル適応化部９０による関連テキスト集合の取得処理については後述する。

また、言語モデル適応化部９０は、発話相当付近テキストに基づいて、基本言語モデル記憶部１０に記憶された言語モデル１１−１〜１１−ｎの中から、単語列被覆率または出現確率値が最大値となる言語モデル１１を選択する。単語列被覆率とは、言語モデル１１の言語スコアメモリが、関連テキスト集合における１〜３単語連鎖を含む割合である。
言語モデル適応化部９０は、選択した言語モデル１１を関連テキスト集合により適応化し、適応化言語モデルとして適応化言語モデル記憶部２０に記憶させる。言語モデル適応化部９０による言語モデルの動的適応化処理については後述する。

図２は、正解単語探索部６０が生成する認識結果テキスト情報の例である。正解単語探索部６０が、正解候補単語として、「美肌」、「効果」、「の」、「高い」、「呼吸法」、「が」、「ある」、および「んです」を逐次取得した場合、同図に示すように、音声認識処理の開始時点から各正解候補単語を取得したときまでの時間を示すタイムスタンプ情報と当該正解候補単語とを対応付けた認識結果テキスト情報を生成する。同図において、正解候補単語「美肌」に対応するタイムスタンプ情報「１：３８．０２」は、音声認識処理の開始時点からの経過時間である“１分３８秒２ミリ秒”を表わしている。

図３は、話題情報記憶部７０に記憶される話題情報の例である。同図に示す話題情報は、番組の開始時点からの経過予定時間を示す経過予定時間情報と、制作番組の進行予定内容を示す話題テキストとを含むものである。同図において、話題テキスト「オープニング、ゲスト紹介歌手の○○さん、料理研究家の△△さん」に対応する経過予定時間情報「０：３０」は、番組の開始時点からの経過予定時間である“０分３０秒”を表わしている。

［２処理］
［２．１音声認識処理および更新処理］
次に、正解単語探索部６０による音声認識処理および更新処理について説明する。
図４は、正解単語探索部６０における、発音ネットワークおよび言語スコアメモリの一部分を概念的に示す図である。同図に示すように、発音ネットワークは、適応化言語モデルに対応し、全単語についての音素の結合関係を示すものとなっている。具体的には、発音ネットワークは、／ａｉ／、／ａｕ／、／ａｋａ／、／ａｋｉ／等の発音となる音素列を示している。
また、各音素には、あらかじめ学習された各音素の音響特徴量のガウス分布に対応する音響モデル（平均および分散）が対応付けられている。

また、図４に示すように、言語スコアメモリは、単語ごとの、言語表現（例えば“合い”）と、生起確率（例えば“０．０２”）と、この生起確率の自然対数である言語スコア（例えば“−３．９”）とを対応付けたレコードを、当該単語の終端音素に対応付けたデータである。
なお、言語スコアメモリは、生起確率および言語スコアについて、いずれか一方だけを有していればよい。

正解単語探索部６０は、音声認識処理において、音響分析部５０が計算した音響特徴量と発音ネットワーク・スコア情報記憶部６１に記憶された発音ネットワークにおける音素に対応する音響モデルとに基づいて言語表現ごとの音響スコアを計算する。音響スコアは、ガウス分布における所定時刻での音響特徴量の対数確率密度である。そして、正解単語探索部６０は、各音響スコアと、各音素列の終端音素に対応付けられた言語スコアとの全ての組み合わせについて、音響スコア（対数確率密度）と言語スコア（対数確率）との和が最大となる単語列（正解候補単語列）を探索し、この単語列を認識結果テキスト情報として出力する。

正解単語探索部６０の更新部６２は、更新処理において、適応化言語モデル記憶部２０に記憶された適応化言語モデルに基づいて、発音ネットワーク・スコア情報記憶部６１に記憶された発音ネットワークおよび言語スコアメモリを変更する。例えば、更新部６２は、図４に示した発音ネットワークに、／ａｏ／を追加したり、不要となった／ａｋａ／を削除したりする。また、例えば、更新部６２は、同図に示した言語スコアメモリにおける単語「愛」に対応する確率を「０．１０」から「０．２０」に変更するとともに、言語スコアを「−２．３」から「−１．６」に変更する。

なお、図４では、直前単語に依存しないユニグラムの例を示したが、これ以外にも、直前１単語に依存するバイグラムや、および直前２単語に依存するトライグラムも適用可能である。

［２．２発話対応テキストの抽出処理］
次に、話題トラッキング部８０による発話対応テキストの抽出処理について説明する。
話題トラッキング部８０は、話題情報記憶部７０に記憶された話題情報に含まれる話題テキストにおける各テキストについて、テキストごとに、出現する各単語の頻度を要素とする単語頻度ベクトル（話題テキスト単語頻度ベクトル）を計算する。話題情報が話題情報記憶部７０に記憶された後、話題トラッキング部８０は、話題情報記憶部７０に記憶された話題テキストにおける各テキストの話題テキスト単語頻度ベクトルを計算し、これら話題テキスト単語頻度ベクトルを、内部の記憶部または話題情報記憶部７０に記憶させる。

具体的に、図３に示す話題情報が話題情報記憶部７０に記憶された場合、話題トラッキング部８０は、話題情報記憶部７０から、話題テキストにおけるテキスト「オープニング、ゲスト紹介歌手の○○さん、料理研究家の△△さん」を読み込み、このテキストに対する話題テキスト単語頻度ベクトルを計算する。そして、話題トラッキング部８０は、その話題テキスト単語頻度ベクトルを、内部の記憶部または話題情報記憶部７０に記憶させる。話題トラッキング部８０は、話題テキストの全てのテキストについて話題テキスト単語頻度ベクトルを計算し、これら話題テキスト単語頻度ベクトルを記憶させる。

なお、話題トラッキング部８０は、話題テキスト単語頻度ベクトルの計算処理を、オンライン処理として実行してもよいし、オフライン処理として実行してもよい。

話題トラッキング部８０は、正解単語探索部６０から供給される認識結果テキスト情報を取り込むと、認識結果テキスト情報に含まれる推定発話テキストに出現する各単語の頻度を要素とする単語頻度ベクトル（推定発話単語頻度ベクトル）を計算する。
具体的に、図２に示す認識結果テキスト情報が正解単語探索部６０から供給されると、話題トラッキング部８０は、推定発話テキストである「美肌効果の高い呼吸法があるんです」に対する推定発話単語頻度ベクトルを計算する。

次に、話題トラッキング部８０は、各話題テキスト単語頻度ベクトルと推定発話単語頻度ベクトルとの類似度をそれぞれ計算する。類似度は、例えばコサイン類似度である。コサイン類似度は、０（ゼロ）から１までの範囲内の値であり、１に近づくほど類似度が高いことを示す。

なお、話題情報の中に、話題テキストにおける文に対応して経過時間情報が含まれている場合、話題トラッキング部８０は、経過時間情報が示す経過時間と各正解候補単語に対応付けられたタイムスタンプ情報が示す時間との差分の総和の逆数を計算し、この計算結果を時間係数とする。
具体的に、図３に示す話題情報において、話題テキストにおけるテキスト「呼吸法、実践してる？美肌、冷え解消、リラックス」には、経過時間情報「１：３０」が対応付けられている。よって、話題トラッキング部８０は、経過時間である“１分３０秒”と、図２に示す各正解候補単語に対応付けられたタイムスタンプ情報が示す時間“１分３８秒２ミリ秒”、“１分３８秒５１ミリ秒”、・・・、“１分４１秒９０ミリ秒”それぞれとの差分の総和の逆数を計算して時間係数とする。

話題トラッキング部８０は、時間係数を計算した場合、この時間係数を類似度に重み付け加算する。これにより、時間に関する情報を類似度の一部としてみなすことができ、発話対応テキストの抽出精度を向上させることができる。
なお、経過時間情報が示す経過時間には、所定時間のマージンを設けるようにしてもよい。所定時間は、任意の一定時間でもよいし、経過時間に応じて変動する時間でもよい。

話題トラッキング部８０は、話題テキストの文それぞれの類似度の中で、最高の類似度となる話題テキスト単語頻度ベクトルに対応する文を、発話対応テキストとして抽出する。
具体的には、例えば、話題トラッキング部８０は、図３に示す話題情報と図２に示す認識結果テキスト情報との照合により、推定発話テキストである「美肌効果の高い呼吸法があるんです」に類似度が最も高いテキストとして、「呼吸法、実践してる？美肌、冷え解消、リラックス」を話題テキストから抽出する。

なお、話題トラッキング部８０は、直前の認識結果テキスト情報に基づいて話題テキストから抽出した発話対応テキストを含む所定範囲のテキストに、現時点での認識結果テキスト情報に基づく照合を絞り込むことにより、推定処理を効率化したり推定性能を向上させたりすることができる。

また、話題テキストおよび推定発話テキストにおける各単語について、付属語よりも自立語に重要度を設けることにより類似度の評価にメリハリをつけるようにしてもよい。具体的には、話題トラッキング部８０は、話題テキストにおける各テキストと推定発話テキストとの形態素解析処理を実行することによって、各単語の属性（付属語であるか自立語であるかを示す情報）を決定する。そして、話題トラッキング部８０は、属性に応じて自立語に重み付けをして話題テキストにおける各テキストと推定発話テキストとの照合を行う。

また、話題トラッキング部８０が、話題テキストにおける各テキストと推定発話テキストとが全て非類似であると判定した場合、現発話については、発話対応テキストを抽出しない。非類似とは、例えば、各話題テキスト単語頻度ベクトルと推定発話単語頻度ベクトルとのコサイン類似度が０（ゼロ）となる場合である。

［２．３関連テキスト集合の取得処理］
次に、言語モデル適応化部９０による関連テキスト集合の取得処理について説明する。
言語モデル適応化部９０は、話題情報から抽出した発話相当付近テキストに出現する各単語の頻度を要素とする単語頻度ベクトル（発話相当付近テキスト単語頻度ベクトル）を計算する。
言語モデル適応化部９０は、その発話相当付近テキスト単語頻度ベクトルに対するコサイン類似度があらかじめ決定された類似度閾値を超える値となる単語頻度ベクトルを有するテキストを、関連テキスト情報としてテキスト情報源２から検索する。そして、言語モデル適応化部９０は、検索した一または複数の関連テキスト情報を関連テキスト集合としてテキスト情報源２から取り込む。
なお、言語モデル適応化部９０は、発話相当付近テキスト単語頻度ベクトルの計算処理を、オンライン処理として実行してもよいし、オフライン処理として実行してもよい。

具体的に、図３に示した発話情報において、発話対応テキストが「呼吸法、実践してる？美肌、冷え解消、リラックス」であり、発話相当付近テキストが、発話対応テキストおよびその直後のテキストである「呼吸法、実践してる？美肌、冷え解消、リラックス最新科学で実証生活習慣病の予防に」である場合を例とする。言語モデル適応化部９０は、その発話相当付近テキストついての発話相当付近テキスト単語頻度ベクトルを計算する。そして、言語モデル適応化部９０は、発話相当付近テキストに含まれる単語を検索キーとしてテキスト情報源２を検索し、検索された上位の所定範囲のドキュメントを抽出する。次に、言語モデル適応化部９０は、それら抽出したドキュメントそれぞれについての単語頻度ベクトルを計算し、各単語頻度ベクトルと発話相当付近テキスト単語頻度ベクトルとのコサイン類似度を計算する。そして、言語モデル適応化部９０は、計算した全てのコサイン類似度において類似度閾値を超えるコサイン類似度に対応するドキュメントを関連テキスト情報として抽出する。そして、言語モデル適応化部９０は、抽出した一または複数の関連テキスト情報を関連テキスト集合としてテキスト情報源２から取り込む。

［２．４言語モデルの適応化処理］
次に、言語モデル適応化部９０による言語モデルの適応化処理について説明する。
言語モデル適応化部９０は、適応化処理の第１の例として、選択した言語モデル１１から得る各単語の出現頻度と、取得した関連テキスト集合から得る各単語の出現頻度とについて、関連テキスト集合から得る各単語の出現頻度に重み付けした線形重み和を計算する。つまり、言語モデル適応化部９０は、言語モデル１１から得る各単語の出現頻度Ｃ（ｈ，ｗ）と、関連テキスト集合から得る各単語の出現頻度Ｃ’（ｈ，ｗ）に所定の重み係数αによる重み付けをしたものとの和を、下記の式（１）により計算する。
ただし、式（１）において、ｗは、直前の単語履歴ｈに続く一単語を表わす。単語履歴ｈは、言語モデル１１がユ二グラムの場合はｎｕｌｌ（ヌル）、バイグラムの場合は一単語、トライグラムの場合は二単語である。

また、言語モデル適応化部９０は、適応化処理の第２の例として、言語モデル１１から得る各単語の確率値と、関連テキスト集合から得る各単語の確率値とについて、関連テキスト集合から得る各単語の確率値に重み付けした線形重み和を計算する。つまり、言語モデル適応化部９０は、言語モデル１１から得る各単語の確率値Ｐ（ｗ｜ｈ）と、関連テキスト集合から得る各単語の確率値Ｃ’（ｗ｜ｈ）との重み付け係数βを適用した重み付け和を、下記の式（２）により計算する。

言語モデル適応化部９０は、上記の第１の例または第２の例によって言語モデル１１を関連テキスト集合によって適応化し、確率値を逐次更新する。

［３動作］
次に、本実施形態である音声認識装置１の動作について説明する。
図５は、音声認識装置１が実行する音声認識処理の概略の処理手順を示すフローチャートである。外部から供給された話題情報が話題情報記憶部７０に記憶された後、その話題情報に対応する音声データが外部から供給されることにより、音声認識装置１は本フローチャートによる処理を実行する。

ステップＳ１０１において、音声データ取得部４０は、外部の装置から供給される音声データを取り込む。音声データ取得部４０は、音声データを音響分析部５０に供給する。

次に、ステップＳ１０２において、音響分析部５０は、音声データ取得部４０から供給される音声データを取り込み、この音声データを分析して音響特徴量を計算するとともに発話間ポーズ期間を検出する。次に、音響分析部５０は、音響特徴量と、発話間ポーズ期間を示す情報（例えば、発話終端の時刻および発話始端の時刻を示すフラグ）とを正解単語探索部６０に供給する。

次に、ステップＳ１０３において、正解単語探索部６０は、音響分析部５０から供給される音響特徴量と発話間ポーズ期間を示す情報とを取り込む。次に、正解単語探索部６０は、発話間ポーズ期間を示す情報に基づいて、現時点が発話間ポーズ期間内か否かを判定する。そして、正解単語探索部６０は、現時点が発話間ポーズ期間内であると判定した場合（Ｓ１０３：ＹＥＳ）はステップＳ１０４の処理に移し、現時点が発話間ポーズ期間外であると判定した場合（Ｓ１０３：ＮＯ）はステップＳ１０５の処理に移す。

ステップＳ１０４において、正解単語探索部６０の更新部６２は、適応化言語モデル記憶部２０に記憶された適応化言語モデルに基づいて、発音ネットワーク・スコア情報記憶部６１に記憶された発音ネットワークと言語スコアメモリとを更新する。

ステップＳ１０５において、正解単語探索部６０は、ステップＳ１０２の処理において計算した音響特徴量と、適応化言語モデル記憶部２０に記憶された適応化言語モデルと、音響モデル記憶部３０に記憶された音響モデルとに基づいて、音声認識処理を実行する。すなわち、正解単語探索部６０は、音響特徴量と発音ネットワーク・スコア情報記憶部６１に記憶された発音ネットワークにおける音素に対応する音響モデルとに基づいて、言語表現ごとの音響スコアを計算する。次に、正解単語探索部６０は、言語スコアメモリから言語表現ごとの言語スコアを求め、音響スコアと言語スコアメモリとに基づいて正解候補単語を逐次探索する。そして、正解単語探索部６０は、探索によって得られる正解候補単語列と、例えば音声認識処理の開始時点から当該正解候補単語を取得したときまでの時間を示すタイムスタンプ情報とを対応付けた認識結果テキスト情報を生成する。

次に、ステップＳ１０６において、正解単語探索部６０は、生成した認識結果テキスト情報を、外部に出力するとともに話題トラッキング部６０に供給する。
次に、音声認識装置１は、ステップＳ１０１の処理に戻す。

図６は、音声認識装置１が実行する言語モデルの動的適応化処理の概略の処理手順を示すフローチャートである。
ステップＳ２０１において、話題トラッキング部８０は、正解単語探索部６０から供給される認識結果テキスト情報を取り込む。
次に、話題トラッキング部８０は、認識結果テキスト情報に含まれる推定発話テキストおよび正解候補単語ごとのタイムスタンプ情報と、話題情報記憶部７０に記憶された話題情報に含まれる話題テキストおよび経過時間情報とを照合し、話題テキストにおいて推定発話テキストに対応するテキストを発話対応テキストとして抽出する。

次に、ステップＳ２０２において、話題トラッキング部８０は、発話対応テキストを抽出したか否かを判定し、発話対応テキストを抽出した場合（Ｓ２０２：ＹＥＳ）は、ステップＳ２０３の処理に移し、発話対応テキストを抽出しなかった場合（Ｓ２０２：ＮＯ）は、ステップＳ２０１の処理に戻す。

ステップＳ２０３において、言語モデル適応化部９０は、話題トラッキング部８０から供給される発話対応テキストを取り込む。言語モデル適応化部９０は、話題情報記憶部７０に記憶された話題情報を参照し、発話対応テキストを含む所定範囲のテキストを発話相当付近テキストとして話題テキストから抽出する。
次に、言語モデル適応化部９０は、発話相当付近テキストを検索キーとして、テキスト情報源２を検索し、発話相当付近テキストの内容に関連する内容を有する一または複数の関連テキスト情報を、関連テキスト集合として取り込む。

次に、ステップＳ２０４において、言語モデル適応化部９０は、発話相当付近テキストに基づいて、基本言語モデル記憶部１０に記憶された言語モデル１１−１〜１１−ｎの中から、単語列被覆率または出現確率値が最大値となる言語モデル１１を選択する。

次に、ステップＳ２０５において、言語モデル適応化部９０は、選択した言語モデル１１を関連テキスト集合で適応化し、適応化言語モデルとして適応化言語モデル記憶部２０に記憶させる。
次に、音声認識装置１は、ステップＳ２０１の処理に戻す。

以上説明したとおり、音声認識装置１は、オンライン処理として、外部から供給される音声データを取り込み、発話期間において、音響モデルと、動的に適応化される適応化言語モデルとを適用してその音声データの音声認識処理を実行することにより発話ごとの認識結果テキスト情報を生成し、この認識結果テキスト情報を出力する。
また、音声認識装置１は、認識結果テキスト情報と、音声データが示す発話内容に対応する内容を含む話題情報とを照合することにより、認識結果テキスト情報に対応する発話対応テキストを含む所定範囲の発話相当付近テキストを、話題情報から抽出する。音声認識装置１は、発話相当付近テキストに関連する内容を有する一または複数の関連テキスト情報をテキスト情報源２において検索し、テキスト情報源２から、その検索結果を関連テキスト集合として取り込む。音声認識装置１は、保有する複数の言語モデルの中から、発話相当付近テキストに関連性が最も高い言語モデルを選択し、関連テキスト集合を用いてその選択した言語モデルを適応化し、確率値を更新する。
また、音声認識装置１は、発話間ポーズ期間において、適応化された最新の適応化言語モデルにしたがって、発音ネットワークおよび言語スコアメモリを変更する。

このように構成したことにより、本実施形態である音声認識装置１は、音声データが示す発話内容に対応する話題や要約等の概要的な内容を有する話題情報と、外部のテキスト情報源２から取得する様々な関連テキスト情報の集合とを用いることにより、発話における話題の内容に対応して、また発話における話題の変化に追従して言語モデルを選択し且つ適応化しながら、音声データを音声認識処理して認識結果テキスト情報を生成し出力することができる。
よって、本実施形態によれば、従来のように複数の言語モデルから単に選択した言語モデルや、静的に適応化した言語モデルよりも、高精度に音声認識結果を得ることができる。

なお、上述した実施形態である音声認識装置１の一部の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するための音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された音声認識プログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ；ＯＳ）や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記の音声認識プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

１音声認識装置
２テキスト情報源
３ネットワーク
１０基本言語モデル記憶部
１１−１〜１１−ｎ言語モデル
２０適応化言語モデル記憶部
３０音響モデル記憶部
４０音声データ取得部
５０音響分析部
６０正解単語探索部
６１発音ネットワーク・スコア情報記憶部
６２更新部
７０話題情報記憶部
８０話題トラッキング部
９０言語モデル適応化部
１００音声認識システム

Claims

言語表現ごとの統計的データを言語モデルとして記憶する言語モデル記憶部と、
音素ごとの音響特徴量の統計的データを音響モデルとして記憶する音響モデル記憶部と、
テキスト情報を時系列に含む話題情報を記憶する話題情報記憶部と、
前記言語モデルに含まれる前記言語表現と前記言語表現に対応する音素の列を表す発音ネットワークと前記言語モデルに含まれる統計的データに基づく前記言語表現ごとの言語スコアとを記憶する発音ネットワーク・スコア情報記憶部と、
取り込んだ音声データに基づいて音響特徴量を算出する音響分析部と、
前記音響分析部が算出した前記音響特徴量と前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークにおける音素に対応する前記音響モデルとに基づき前記言語表現ごとの音響スコアを求め、前記発音ネットワーク・スコア情報記憶部から前記言語表現ごとの言語スコアを求め、前記音響スコアと前記言語スコアとに基づいて正解候補単語列を探索し、前記正解候補単語列を含む認識結果テキスト情報を生成する正解単語探索部と、
前記正解単語探索部が生成した前記認識結果テキスト情報と前記話題情報記憶部に記憶された前記話題情報とを照合し、前記認識結果テキスト情報に対応するテキスト情報を、前記話題情報から発話対応テキストとして抽出する話題トラッキング部と、
前記話題情報記憶部に記憶された前記話題情報から、前記話題トラッキング部が抽出した前記発話対応テキストを含む所定範囲のテキストを発話相当付近テキストとして抽出し、前記発話相当付近テキストに関連する関連テキスト情報を外部のテキスト情報源から取得し、前記言語モデル記憶部に記憶された前記言語モデルを前記関連テキスト情報に基づき適応化して前記言語モデル記憶部を更新する言語モデル適応化部と、
前記言語モデル適応化部が前記言語モデル記憶部を更新した際に、適応化された言語モデルに基づいて前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークと前記言語スコアとを更新する更新部と、
を備えることを特徴とする音声認識装置。
前記音響分析部は、前記音声データに基づいて、前記音響特徴量を計算するとともに発話間ポーズ期間を検出し、
前記正解単語探索部は、前記発話間ポーズ期間を除く期間において、前記音響分析部が算出した前記音響特徴量と前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークにおける音素に対応する前記音響モデルとに基づき前記言語表現ごとの音響スコアを求め、前記発音ネットワーク・スコア情報記憶部から前記言語表現ごとの言語スコアを求め、前記音響スコアと前記言語スコアとに基づいて正解候補単語列を探索し、前記正解候補単語列を含む認識結果テキスト情報を生成し、
前記更新部は、前記言語モデル適応化部が前記言語モデル記憶部を更新後、前記発話間ポーズ期間において、適応化された言語モデルに基づいて前記発音ネットワーク・スコア情報記憶部に記憶された前記言語スコアを更新する
ことを特徴とする請求項１記載の音声認識装置。
前記話題情報は、前記音声データが示す発話内容に対応する内容が含まれる話題テキストと、前記話題テキストの先頭を起点とした発話進行の経過時間を示す経過時間情報とを有し、
前記正解単語探索部は、前記正解候補単語列と前記正解候補単語列における各正解候補単語に対応したタイムスタンプ情報とを含む認識結果テキスト情報を生成し、
前記話題トラッキング部は、前記正解候補単語列と前記話題テキストとの類似度を計算するとともに、前記経過時間情報が示す経過時間と前記タイムスタンプ情報が示す各時間とに基づく時間係数を計算し、前記時間係数を前記類似度に重み付けすることに基づいて前記発話対応テキストを抽出する
ことを特徴とする請求項１または２記載の音声認識装置。
前記言語モデル記憶部は、カテゴリ別の複数の言語モデルを記憶し、
前記言語モデル適応化部は、前記発話相当付近テキストに基づいて、前記カテゴリ別の複数の言語モデルから単語列被覆率が最大値となる言語モデルを選択し、前記言語モデルを前記関連テキスト情報により適応化する
ことを特徴とする請求項１から３いずれか一項記載の音声認識装置。
言語表現ごとの統計的データを言語モデルとして記憶する言語モデル記憶部と、音素ごとの音響特徴量の統計的データを音響モデルとして記憶する音響モデル記憶部と、テキスト情報を時系列に含む話題情報を記憶する話題情報記憶部と、前記言語モデルに含まれる前記言語表現と前記言語表現に対応する音素の列を表す発音ネットワークと前記言語モデルに含まれる統計的データに基づく前記言語表現ごとの言語スコアとを記憶する発音ネットワーク・スコア情報記憶部とを備えるコンピュータを、
取り込んだ音声データに基づいて音響特徴量を算出する音響分析部と、
前記音響分析部が算出した前記音響特徴量と前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークにおける音素に対応する前記音響モデルとに基づき前記言語表現ごとの音響スコアを求め、前記発音ネットワーク・スコア情報記憶部から前記言語表現ごとの言語スコアを求め、前記音響スコアと前記言語スコアとに基づいて正解候補単語列を探索し、前記正解候補単語列を含む認識結果テキスト情報を生成する正解単語探索部と、
前記正解単語探索部が生成した前記認識結果テキスト情報と前記話題情報記憶部に記憶された前記話題情報とを照合し、前記認識結果テキスト情報に対応するテキスト情報を、前記話題情報から発話対応テキストとして抽出する話題トラッキング部と、
前記話題情報記憶部に記憶された前記話題情報から、前記話題トラッキング部が抽出した前記発話対応テキストを含む所定範囲のテキストを発話相当付近テキストとして抽出し、前記発話相当付近テキストに関連する関連テキスト情報を外部のテキスト情報源から取得し、前記言語モデル記憶部に記憶された前記言語モデルを前記関連テキスト情報に基づき適応化して前記言語モデル記憶部を更新する言語モデル適応化部と、
前記言語モデル適応化部が前記言語モデル記憶部を更新した際に、適応化された言語モデルに基づいて前記発音ネットワーク・スコア情報記憶部に記憶された前記発音ネットワークと前記言語スコアとを更新する更新部と、
して機能させるための音声認識プログラム。