JP4866334B2

JP4866334B2 - 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム

Info

Publication number: JP4866334B2
Application number: JP2007306101A
Authority: JP
Inventors: 哲郎甘粕
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-11-27
Filing date: 2007-11-27
Publication date: 2012-02-01
Anticipated expiration: 2027-11-27
Also published as: JP2009128797A

Description

この発明は、例えば音声認識した結果の文書の中に含まれる単語の出現頻度の情報を補正する方法とその装置と、その装置と方法を用いた情報抽出装置と情報抽出方法と、それらのプログラムに関する。

テキストからなる文書が大量にある場合に、その中から重要な情報を抽出するために、従来から、テキスト中に含まれる単語の出現頻度を用いた指標が用いられる。しかし、テキストとして音声認識技術を用いて音声から自動的に書き起こされたものを用いる場合、音声認識結果には、入力音声の発声が曖昧であったり、音声に雑音が重畳すること等が原因で誤認識が付きまとう。その結果、出現頻度に誤差が生じる。この誤認識を推定する方法の一例が特許文献１に開示されている。特許文献１の方法は、単語の出現頻度を数える際に、その単語の出現ケースに対する認識信頼度を、認識時の他の対立候補単語を用いて計算するものである。その認識信頼度の大小からその出現ケースを頻度数に加えるか否かを判定することができる。

また、情報検索の基本的な考えとして頻度を用いることは、例えば非特許文献１にＴＦ・ＩＤＦ重み付け（Term Frequency・Inverse Document Frequency weighting）として示されている。
特開２００５−１４８３４２号公報言語と計算５情報検索と言語処理、徳永健伸著、財団法人東京大学出版会発行、pp26−32

ＴＦ・ＩＤＦ重み付けは、情報検索の考え方であり、検索対象に誤認識情報が含まれることを前提としていない。よって、誤認識情報が含まれる例えば音声認識にそのまま適用すると、誤った重み付けの原因になる。また、特許文献１による認識信頼度は、同じ音声を音声認識した結果同士の認識スコアを比較した値を元に求めているため、原理的に、ある音声認識結果の正誤を直接反映する指標になっていない。このため、各単語の認識結果についてこの認識信頼度を用いて正誤判定しながら出現頻度を求めると、得られた結果が大きく間違っている恐れがある。

この発明は、このような点に鑑みてなされたものであり、出現頻度情報の正確性を高める頻度補正装置とその方法、その装置と方法を用いた情報抽出装置と情報抽出方法と、それらのプログラムを提供することを目的とする。

この発明による頻度補正装置は、データベースと、認識精度統計処理部と、認識精度統計情報記憶部と、頻度修正部を具備する。データベースは、認識した文書を蓄積する。認識精度統計処理部は、認識した文書の正しい文書を入力として、認識した文書を蓄積したデータベースから、認識した文書を構成する各単語の確からしさを表わす統計数値情報を生成する。認識精度統計情報記憶部は、上記各単語と統計数値情報とを記憶する。頻度修正部は、上記各単語の出現頻度を表わす頻度情報に、統計数値情報を乗じた修正頻度情報を出力する。そして、上記統計数値情報は、上記各単語が正しく認識された結果の回数を、上記各単語が認識結果に出現した回数で除した適合率である。

また、この発明による情報抽出装置は、上記した頻度補正装置と、関連単語抽出部と、頻度計数部と、頻度情報記憶部と、修正頻度情報記憶部と、情報抽出処理部を具備する。関連単語抽出部は、分析対象単語情報を入力として、認識した結果の文書を蓄積したデータベースから上記分析対象単語情報と関連する関連単語を抽出する。頻度計数部は、関連単語の出現頻度を数えて、関連単語と出現頻度を頻度情報記憶部に保存する。頻度情報記憶部は、保存した頻度情報を頻度補正装置に入力する。修正頻度情報記憶部は、頻度修正装置が出力する修正頻度情報を記憶する。情報抽出処理部は、上記修正頻度情報の中の各単語を頻度順に検索し、頻度の高い単語を抽出情報として出力する。

この発明の頻度補正装置は、認識した文書に対応する正しい文書を用いて、認識した文書を構成する各単語の確からしさを表わす統計数値情報を生成する。そして、その統計数値情報を用いて頻度情報を修正する。したがって、頻度情報の正確性を高めることが出来る。また、この方式によれば、頻度情報を修正するには予め求めた統計数値情報を乗ずる計算のみなので、従来あった、頻度情報を求める際、各単語の出現ケースごとに認識信頼度を求めて頻度に加えるか否かを判定する手続きの必要はなく、認識性能を勘案した頻度情報をより高速に求めることが出来る。また、この発明の情報抽出装置は、この発明の頻度補正装置を用いて情報抽出を行うので、正確性の高められた頻度情報に基づく情報抽出が出来る。その結果、抽出情報の正確性を高めることが出来る。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の頻度補正装置の実施例１の機能構成例を示す。頻度補正装置１００は、データベース２と、認識精度統計処理部４と、認識精度統計情報記憶部６と、頻度修正部８とを具備する。その動作フローを図２に示す。この例の頻度補正装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。
データベース２（以降、ＤＢと略す）は、例えばコールセンターにおける通話音声を音声認識した結果の文書を、大量に記憶している。認識精度統計処理部４は、正しい文書、例えば、音声認識した音声の一部を人手で正確に書き起こした文書を入力とする。そして、正しい文書とＤＢ２内の正しい文書に対応する認識結果の文書とを用いて、認識結果の文書を構成する各単語の確からしさを表わす統計数値情報を生成する（ステップＳ４、図２）。認識精度統計処理部４で生成された各単語の統計数値情報は、認識精度統計情報記憶部６に記憶される（ステップＳ６）。頻度修正部８は、各単語の出現頻度を表わす頻度情報を入力として、各単語の統計数値情報を認識精度統計情報記憶部６から検索し、頻度情報に統計数値情報を乗じた修正頻度情報を出力する（ステップＳ８）。

統計数値情報の一例を図３に示す。図３は認識精度統計情報記憶部６に記憶された各単語と統計数値情報とを概念的に示す図である。各単語に対応してその単語の適合率が記憶されている。適合率は、式（１）で表わせる。

実際に発声されている回数とは、各単語が正しく認識された回数とも言い換えられる。分母の認識結果に出現した全回数とは、認識された文書に誤りがある文も含めた各単語の全認識回数である。例えば、次のような正しい文書、「光サービスの料金を知りたい。」に対して、ＤＢ２に記憶された認識された文書には、発話者の声が不明瞭であったり雑音が混入することによって複数の文書が記憶される。正解の「光サービスの料金を知りたい。」の他に、例えば「光サービスの料理を知りたい。」や「光サービスの両人を知りたい」等である。そこで、例えば「料金」という単語に着目した場合、「光サービスの料金を知りたい。」と正しく認識された回数を分子に、認識文書中に出現する「料金」の全出現数を分母とすることで、式（１）の適合率を求めることが出来る。適合率は、認識結果に得られた単語が全て正しければ１である。１０％の誤りを含むのであれば０.９となる（図３参照）。この適合率を、入力される頻度情報に乗算することで、正確性を高めた修正頻度情報とすることが出来る。例えば、ある単語が認識結果の文書中によく誤って挿入されて出現する（以降、“湧き出し”と呼ぶ）場合にも、その単語が正確に認識される割合が適合率として推定されていれば、その湧き出しの影響を削減した修正頻度情報を求めることが出来る。

認識精度統計処理部４が、適合率を求める動作フローを図４に示す。最初に各変数を初期化する（ステップＳ４０）。式（１）の実際に発声されている回数をＡｉ、認識結果に出現した全回数をＢｉとする。認識精度統計処理部４は、入力される正しい入力文書の形態素解析処理を行い単語に区切る（ステップＳ４１）。正しい入力文書が、予め単語毎に分かち書きされていればこの処理は不要である。そして、正しい入力文書の元となった音声に対応する認識文書をＤＢ２より取り出す（ステップＳ４２）。音声を認識する際に、音声データにファイル名などのラベルを付けておき、それを認識文書のキーとすることでＤＢ２からの取り出しが可能である。

次に、正しい入力文書中の全ての単語列と、認識文書中の全ての単語列の単語同士の対応関係をとる（ステップＳ４３）。対応関係は、例えばＤＰ（Dynamic Programing）マッチングを用いて取ることができる。ＤＰマッチングによって、正しい入力文書と一致している箇所、認識結果から単語が脱落した箇所、認識結果に単語が挿入されてしまった箇所、認識結果では別の単語として認識されてしまった箇所（置換誤り）、が推定できる。その例を図５に示す。例（１）では、「どういうふうにしたらいいのかお聞きしたいんですが」の正しい入力文書に対して、認識結果には助詞の「たら」が助動詞の「た」に誤認識されたり、接頭語の「お」に脱落誤りなどが発生している。例（２）では、文頭に「あっ」が挿入誤りとして認識され、「また新た」が「問題など」と誤って置換されている。ＤＰマッチングにより正しい入力文書中の全ての単語列と、認識文書中の全ての単語列の単語同士の対応関係をとることで、このような誤認識を推定することができる。

認識精度統計処理部４は、適合率を求める対象の単語を特定して、その単語が正しく認識されたかを検証し、各単語の適合率を計算する（ステップＳ４４〜Ｓ５３）。適合率を求める対象の単語は、例えば、図示していない認識辞書に含まれる全ての単語としても良いし、その一部の名詞、動詞、形容詞など、抽出したい情報によって決定すれば良い。ここでは、ｉ番目の適合率を求める対象単語をＷｉと表現することとする。単語Ｗｉが認識文書内にある箇所数をＫ個とすると、認識結果に出現した全回数Ｂｉ＝Ｋである（ステップＳ４６）。Ｋ個ある単語Ｗｉのそれぞれが、正しい文書（正解文書）中のステップＳ４３で対応付けされた位置にあるか否かを検証する（ステップＳ４８）。正解文書中に単語Ｗｉがあれば、実際に発声されている回数Ａｉに１を加算する（ステップＳ４９）。つまりＡｉは、単語Ｗｉが正しく認識された回数となる。その単語Ｗｉが正しく認識された回数Ａｉを、認識結果に出現した全回数Ｂｉで除することで適合率が求められる。単語Ｗｉと適合率Ａｉ/Ｂｉは、認識精度統計情報記憶部６に保存される（ステップＳ５１）。そして、次の他の単語Ｗｉの適合率を求め、対象の単語の全ての適合率を求めるまで上記した動作を繰り返す（ステップＳ４４〜Ｓ５３）。このように、認識した文書に対応する正しい文書を用いて、認識した文書を記憶したＤＢ２から、認識した各単語の確からしさを表わす統計数値情報が生成され、認識精度統計情報記憶部６に記憶される。

頻度修正部８は、入力される頻度情報に対応する統計数値情報を、認識精度統計情報記憶部６から検索し、頻度情報に乗じて修正頻度情報を出力する。このように統計数値情報を用いて頻度情報を修正するので、頻度情報の正確性を高めることが出来る。また、この方法によれば、頻度情報を求める際に、各単語の出現ケースごとに認識信頼度を求めて頻度に加えるか否かを判定する手続きの必要がないので、認識性能を勘案した頻度情報をより高速に求めることができる。

なお、人手を用いて用意しなければならない正解文書は、現実的には認識文書に比べると極少量しか準備できないので、正解文書には頻度情報を求めようとする単語が含まれない場合がある。よって、上記したステップＳ４８で、単語Ｗｉが正解文書中に全くない場合の適合率は例えば１００％、つまり１にしておく。そうすれば、正しい文書に無かった単語Ｗｉが入力されても、頻度補正装置１００としてはその単語Ｗｉに影響を与えない。またはその場合、一律に任意の適合率にみなすようにしても良い。任意の適合率としては、例えば得られた統計数値情報の平均値を用いることが考えられる。平均値を用いることで、認識精度統計処理部４に入力する正しい文書の数が少なくても修正頻度情報を適当な値にすることができる。

以上、統計数値情報として適合率を説明したが、更に適合率を補正する考えもある。次に実施例２として適合率に各単語の再現率の逆数を乗算する方法を説明する。

実施例２の機能構成は図１と同じである。実施例２では、統計数値情報として実施例１の適合率に追加して再現率も求めるので、認識精度統計処理部４’と頻度修正部８’の動作が異なる。

実施例２の頻度修正部８’は、式（２）に示す再現率の逆数を適合率に乗算する。

再現率は、認識した結果の正解の回数を、認識して欲しい回数で除算したものである。認識して欲しい回数とは、正しい文書を構成する単語の数である。例えば、「料金」という単語に着目した場合、正しい文書中に含まれる「料金」の数である。したがって、再現率の逆数を、適合率に乗算することは、修正頻度情報を出現して欲しい数に近づけることを意味する。この再現率は、正しい文書の数が多ければ多いほど効果的である。

図６に認識精度統計処理部４’の再現率を求める動作フローを示す。ステップＳ４０〜Ｓ４３までの動作は上記した図４と同じである。適合率を求めた後に再現率を求めるようにすれば、ステップＳ４０〜Ｓ４３は省略が可能である。ステップＳ５４〜Ｓ６３の動作フローも、上記した図４とフローそのものは全く同じである。ただ、ステップＳ５５において正しい入力文書内にある単語Ｗｉの数を求めている点と、ステップＳ５８において認識文書中に単語Ｗｉが対応した位置にあるか否かを検証している点とが大きく異なる。ステップＳ５５では認識して欲しい回数Ｃｉが求められる。ステップＳ５８では、ステップＳ４３で正しい文書と対応が取られた認識文書中の単語Ｗｉの数を数えるので、正しく認識した回数Ｄｉが求められる。

正しく認識した回数Ｄｉを、認識して欲しい回数Ｃｉで除することで、単語Ｗｉの再現率を求めることができる（ステップＳ６１）。この動作を対象の単語の全ての再現率を求めるまで繰り返す（ステップＳ５４〜Ｓ６３）。再現率は認識精度統計情報記憶部６に記憶される。図３に破線で、認識精度統計情報記憶部６に記憶された再現率を概念的に示す。

このようにして求めた単語Ｗｉの再現率を例えば０.６だとする。そして頻度修正部８’に入力される頻度情報を４、適合率を０.９と仮定する。このときの修正頻度情報は４×０.９/０.６＝６になる。このように頻度情報に適合率を乗算した値に、さらに再現率の逆数を乗算することで、修正頻度情報を出現して欲しい数に近づけることができる。つまり、頻度補正装置１００をより高精度化することができる。

以上説明した頻度補正装置は、例えば情報抽出装置に応用することが可能である。次にこの発明の応用例として情報抽出装置を説明する。

〔情報抽出装置〕
情報抽出装置は、データベースから情報を抽出する目的で用いられる。その機能構成例を図７に、その動作フローを図８に示す。また、情報抽出装置２００の全体動作における各情報の一例を図９に示してその動作を説明する。情報抽出装置２００は、上記した頻度補正装置１００に、関連単語抽出部７０と、頻度計数部７２と、頻度情報記憶部７４と、修正頻度情報記憶部７６と、情報抽出処理部７８とを追加して備える。なお、頻度補正装置１００は、実施例１又は２の何れを用いても良い。

頻度修正装置１００内のＤＢ２には、例えばコールセンターにおける顧客との会話を音声認識した結果が記憶されている。その例を図９に示す。例えば、「光サービスの料金を知りたい…」、「光サービスの料理はいくら…」等の下線を付した誤認識を含む文書が記憶されている。関連単語抽出部７０には、分析対象単語情報が入力される（ステップＳ７０）。分析対象単語情報として、例えば「光サービス」が関連単語抽出部７０に入力される。関連単語抽出部７０は、「光サービス」に関連する単語を頻度補正装置１００のＤＢ２内の全認識結果の文書から抽出する（ステップＳ７１）。関連する単語の抽出には、例えば係り受け解析法が用いられる。分析対象単語が含まれる文節と係り受け関係にある文節中の単語が取り出される。この係り受け解析法による単語抽出は、従来技術であり、詳しい説明は省略する。この例の場合、関連単語としては、「料金」、「変」、「新しい」、「知りたい」、「料理」等が抽出される。

取り出された各単語の頻度情報は、頻度計数部７２で単語毎に数えられる（ステップＳ７２）。例えば、料金：４、料理：３、知りたい：１、変：１と数えられ、これが頻度情報になる。各単語と頻度情報は頻度情報記憶部７４に記憶される（ステップＳ７４）。新たに記憶された頻度情報は、頻度補正装置１００の頻度修正部８’に入力される。頻度修正部８’は、認識精度統計情報記憶部６に記憶された統計数値情報を、頻度情報に乗算して修正頻度情報を生成する（ステップＳ７５）。例えば、上記したように「料金」の頻度情報を４から、修正頻度情報を６に修正することができる。修正頻度情報は修正頻度情報記憶部７６に保存される（ステップＳ７６）。

情報抽出処理部７８は、修正頻度情報記憶部７６に新たに保存された修正頻度情報の頻度の高い単語から順に抽出情報として出力する（ステップＳ７８）。例えば、料金：６、新しい：１、変：１の順で抽出情報を出力する。このとき、抽出情報は別途利用者が指定する数または指定した頻度以上の単語を抽出情報として出力するようにしても良い。

このようにこの発明の頻度補正装置１００と情報抽出装置２００は、事前に正しい文書によって、認識対象音声での抽出対象とする単語の認識性能に関する知識を求め、その知識を用いて認識文書内の各単語の頻度を修正するので、従来の装置に対して事前知識を持った頻度補正装置、及び情報抽出装置と言うこともできる。なお、同義語辞書７８ａを備えて同義語同士の単語の頻度は合わせて一つの頻度として集約しても良い。また、禁止語辞書７８ｂを備え、禁止単語については抽出情報に含めないようにすることも考えられる。また、分析対象単語情報は分析対象単語入力部８０に入力するようにしても良い。分析対象単語入力部８０は、入力された分析対象単語情報の単語の頻度情報を頻度情報記憶部７４から検索して頻度修正部８’に入力する。この場合、頻度補正装置１００は分析対象単語入力部８０から入力された頻度情報の修正頻度情報を出力する。

また、この発明の装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、情報抽出装置２００のデータベースを頻度補正装置１００内のＤＢ２を用いる例で説明したが、必ずしもデータベースを共用する必要はない。情報抽出装置２００のデータベースは別に設けてもよい。また、上記した実施例では音声認識を例に説明を行ったが、文字認識や画像認識等にもこの発明の技術思想が適用でき、同様の効果を奏することができる。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の頻度補正装置１００の機能構成例を示す図。頻度補正装置１００の動作フローを示す図。認識精度統計情報記憶部６に記憶された各単語と統計数値情報とを概念的に示す図。認識精度統計処理部４の動作フローを示す図。ＤＰマッチングによる単語の対応取りの例を示す図。実施例２の認識精度統計処理部４’の動作フローを示す図。この発明の頻度補正装置１００を用いた情報抽出装置２００の機能構成例を示す図。情報抽出装置２００の動作フローを示す図。情報抽出装置２００の全体動作における各情報の一例を示す図。

Claims

認識した文書を蓄積したデータベースと、
上記認識した文書の正しい文書を用いて、上記認識した文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理部と、
上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶部と、
上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正部と、
を具備し、
上記統計数値情報は、上記各単語が正しく認識された結果の回数を、上記各単語が認識結果に出現した回数で除した適合率であることを特徴とする頻度補正装置。
認識した文書を蓄積したデータベースと、
上記認識した文書の正しい文書を用いて、上記認識した文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理部と、
上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶部と、
上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正部と、
を具備し、
上記統計数値情報は、上記各単語が正しく認識された結果の回数を上記各単語が認識結果に出現した回数で除した適合率に、上記各単語が正しく認識された回数を上記各単語が正しく出現する回数で除した再現率の逆数を、乗算した値であることを特徴とする頻度補正装置。
請求項１又は２に記載した頻度補正装置と、
分析対象単語情報を入力として、認識した結果の文書を蓄積したデータベースから上記分析対象単語情報と関連する関連単語を抽出する関連単語抽出部と、
上記関連単語の出現頻度を数えて、上記関連単語の頻度情報を生成する頻度計数部と、
上記頻度計数部が生成する上記関連単語と上記頻度情報とを保存すると共に上記頻度補正装置に入力する頻度情報記憶部と、
上記頻度補正装置が出力する修正頻度情報を記憶する修正頻度情報記憶部と、
上記修正頻度情報の中の各単語を頻度順に検索し、頻度の高い単語を抽出情報として出力する情報抽出処理部と、
を具備する情報抽出装置。
認識精度統計処理部が、認識した文書の正しい文書を用いて、データベースに記憶された認識された文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理過程と、
認識精度統計情報記憶部が、上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶過程と、
頻度修正部が、入力される上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正過程と、
を含み、
上記統計数値情報は、上記単語が正しく認識された結果の回数を、上記単語が認識結果に出現した回数で除した適合率であることを特徴とする頻度補正方法。
認識精度統計処理部が、認識した文書の正しい文書を用いて、データベースに記憶された認識された文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理過程と、
認識精度統計情報記憶部が、上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶過程と、
頻度修正部が、入力される上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正過程と、
を含み、
上記統計数値情報は、上記単語が正しく認識された結果の回数を上記単語が認識結果に出現した回数で除した適合率に、上記単語が正しく認識された回数を上記単語が正しく出現する回数で除した再現率の逆数を、乗算した値であることを特徴とする頻度補正方法。
請求項４又は５に記載した頻度補正方法による頻度修正過程を含み、
関連単語抽出部が、分析対象単語情報を入力として認識した結果の文書を蓄積したデータベースから上記分析対象単語情報と関連する関連単語を抽出する関連単語抽出過程と、
頻度計数部が、上記関連単語の出現頻度を数えて、上記関連単語と頻度情報を生成する頻度計数過程と、
頻度情報記憶部が、頻度計数部が生成する上記関連単語と上記頻度情報とを保存すると共に上記頻度修正部に入力する頻度情報記憶過程と、
修正頻度情報記憶部が、上記頻度修正過程が出力する修正頻度情報を記憶する修正頻度情報記憶過程と、
情報抽出処理部が、上記修正頻度情報の中の各単語を頻度順に検索し、頻度の高い単語の情報を出力する情報抽出処理過程と、
を含む情報抽出方法。
請求項１又は２の何れかに記載された頻度補正装置としてコンピュータを機能させるためのプログラム。
請求項３に記載された情報抽出装置としてコンピュータを機能させるためのプログラム。