JP6584795B2

JP6584795B2 - 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム

Info

Publication number: JP6584795B2
Application number: JP2015044661A
Authority: JP
Inventors: 恭子牧野; 後藤　和之; 和之後藤; 彰夫古畑; 篤弘吉田; 泰成宮部
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2015-03-06
Filing date: 2015-03-06
Publication date: 2019-10-02
Anticipated expiration: 2035-03-06
Also published as: JP2016164724A

Description

本発明は、音声認識などの用途に使用される辞書に新しい語彙を追加する際のユーザ作業を支援する語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラムに関する。

近年、人間が発した音を認識して文書に記録したり、画面に表示したりする音声認識システムが使用されている。音声認識システムで認識精度を向上させるためには、正しく認識できない語彙の読み、表記、品詞などを辞書に追加することが有効である。ここで、正しく音声認識をするとは、入力された音声信号に対して正しい読みと表記を割り付けることである。

正しく認識できない語彙は、音声認識をした結果を見て判断するばかりでなく、新しく音声認識システムを作成する時に、音声認識システムを使う場面に合わせて、音声認識用の構築済み辞書にない語彙でよく使うものを予想して予め音声認識辞書に追加する場合がある。

この場合、音声認識システムは、音声認識を使う場面に関係する書類や用語リストから、構築済み辞書にはない語彙、すなわち未知語の表記を選んで、品詞や読みの情報を付与して辞書に登録する。

従来では、未知語の表記に正しい読みの情報を付与するために、次のような未知語に対する読みを抽出する方法がある。例えば、事前に用意された読み判断用辞書やルールを参照し、読みを推定する技術がある。例えば、未知語に対して、未知語読み付け辞書を参照し、表記「ＡＢＣ」には登録されている表記「Ａ」「Ｂ」「Ｃ」に対応する読み「えー」「びー」「しー」を連結したものを読みとして付与する。また、読み確率記憶部に記録された二つのテーブルを参照して条件付き確率最大となる読み候補を生成し、表記と読みのセットでＷｅｂを検索した結果得られたヒット件数から読み候補の優劣を判断し、優先度の高い読み候補を選択する。

さらに、同義語の一種である略語と原語（正式名称）の組み合わせをＷｅｂ検索結果から探索する技術がある。この技術では、略語が入力された場合に、略語の部分のみが異なる構文を抽出し、略語と同じ位置で使われている表現を原語（正式名称）と推定する。

特許第４９４１４９５号公報特開２００９−２０４７３２号公報特許第５３５５５３７号公報

このように、従来の技術では、システムに設けられた情報（予め辞書等に登録された情報）に基づいて読みを推定しているため、システムが推定できない特殊な読みや、システムに設定されていない表記に対する読みを追加することができない。

また、略語と原語（正式名称）の組み合わせをＷｅｂ検索結果から探索する技術は、複数の原語候補が抽出された場合のみ、原語候補から略語を推定して絞り込みを行っている。従って、同じ構文の表現が少ない場合は、略語に対して、同義ではない類義語を唯一の原語候補として抽出するおそれがある。

本発明が解決しようとする課題は、辞書へ追加する表記に関する知識として、表記に対する読みの候補を予め設定された情報内に制限されることなく提示することが可能な語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラムを提供することである。

実施形態によれば、語彙知識獲得装置は、形態素解析手段、複合語抽出手段、未知語抽出手段、未知語関連情報付与手段、略称推定手段、正式表記候補付与手段、及び結果出力手段とを有する。形態素解析手段は、平文コーパスに含まれるテキストを単語に分割して、各単語に品詞と読みを付与する形態素解析をする。複合語抽出手段は、前記形態素解析の結果をもとに複合語を抽出する。未知語抽出手段は、前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する。未知語関連情報付与手段は、前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する。略称推定手段は、前記複合語抽出手段により抽出された前記複合語から略称を生成する。正式表記候補付与手段は、前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する。結果出力手段は、前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、前記未知語に対する指標とする、前記平文コーパスにおける出現頻度の高さ、名称の表記が登録された名称リストにおける出現頻度の高さ、前記構築済み辞書に登録された表記と同じ品詞の語彙の多さ、ネットワークを通じて外部から取得されたＷｅｂクローリングデータから抽出した読み情報と前記形態素解析の結果から推測される読みとの相違、前記平文コーパス中で表記の直前直後に現れる形態素の異なり数の多さ、特定の文書のみに高頻度で出現する表記に対して高い値を示す重み評価値の大きさ、文書における単語間の結合度を示す複合語の独立性を評価する値、のうちの少なくとも１つの指標をもとに判断される辞書追加登録効果の高い順に並べて語彙リストとして出力する。

本実施形態における語彙知識獲得装置を用いるシステムの構成を示すブロック図。本実施形態における語彙知識獲得プログラムに基づいて実現される機能を示すブロック図。本実施形態における構築済み辞書に登録されるデータの一例を示す図。本実施形態における語彙知識獲得装置の語彙知識獲得処理の動作について示すフローチャート。本実施形態における形態素解析結果の一例を示す図。本実施形態における未知語関連情報付与機能４４により出力される未知語関連情報の一例を示す図。本実施形態における結果出力機能から出力される語彙リストの一例を示す図。本実施形態における未知語関連情報付与処理を示すフローチャート。本実施形態における信頼性評価リストの一例を示す図。本実施形態における結果出力処理を示すフローチャート。本実施形態における複合語抽出処理を示すフローチャート。本実施形態における複合語抽出処理に用いられるリストの一例を示す図。

以下、実施形態について図面を参照して説明する。

図１は、本実施形態における語彙知識獲得装置１０を用いるシステムの構成を示すブロック図である。図１に示すシステムにおいて、語彙知識獲得装置１０は、インターネット等のネットワーク１２を通じて、Ｗｅｂサーバ１４−１，１４−２，…，１４−ｎや各種の電子機器と通信して、各種データを送受信することができる。

本実施形態における語彙知識獲得装置１０は、例えばパーソナルコンピュータ等のコンピュータによって実現される。図１に示すように、語彙知識獲得装置１０は、プロセッサ２０、メモリ２１、記憶装置２４、入力ユニット２５、表示ユニット２６、音声入力ユニット２７、音声出力ユニット２８、及び通信ユニット２９を有する。

プロセッサ２０は、記憶装置２４からメモリ２１に読み出された各種プログラム（ソフトウェア）を実行することにより各種の機能を実現する。例えば、プロセッサ２０は、メモリ２１に記憶されたＯＳ（Operating System）やアプリケーションプログラムなどの各種プログラム（ソフトウェア）を実行して、各種機能を実現する。例えば、プロセッサ２０は、語彙知識獲得プログラム２１ａを実行して、音声認識システムで使用される音声認識辞書（構築済み辞書２４ｅ）に新しい語彙を追加する際のユーザ作業を支援するための機能を実現する。語彙知識獲得プログラム２１ａに基づいて実現される機能については図２に示す。また、プロセッサ２０は、音声認識プログラム２１ｂを実行することにより音声認識システムを実現する。

メモリ２１は、プロセッサ２０により実行されるプログラムやデータを記憶する。

記憶装置２４は、ＯＳ（Operating System）やアプリケーションプログラムなどの各種プログラム（ソフトウェア）やプログラムの実行に必要なデータなどを、不揮発性の記憶媒体において記憶する。記憶装置２４に記憶されるデータは、例えば平文コーパス２４ａ、正式名称リスト２４ｂ、日英機械翻訳辞書２４ｃ、Ｗｅｂクローリングデータ２４ｄ、構築済み辞書２４ｅ、仮構築辞書２４ｆ、語彙リスト２４ｇ、及び音声ファイル２４ｈを含む。各データの詳細については後述する。

入力ユニット２５は、プロセッサ２０の制御のもとで、ユーザにより操作される入力デバイス（例えば、キーボード、マウス、タブレット等）からの入力を制御する。

表示ユニット２６は、プロセッサ２０の制御のもとで、ＬＣＤ（Liquid Crystal Display）等のディスプレイにおける表示を制御する。

音声入力ユニット２７は、プロセッサ２０の制御のもとで、マイクからの音声入力を制御する。

音声出力ユニット２８は、プロセッサ２０の制御のもとで、スピーカやヘッドホン等からの音声出力を制御する。

通信ユニット２９は、ネットワーク１２を通じて、Ｗｅｂサーバ１４や電子機器との通信を制御する。

なお、語彙知識獲得装置１０は、ハードウェア構成、又はハードウェア資源とソフトウェア（プログラム）との組合せ構成のいずれでも実施可能である。ソフトウェアは、予めネットワーク１２又は非一時的なコンピュータ読み取り可能な記憶媒体からコンピュータにインストールされ、当該コンピュータのプロセッサ２０に実行されることにより、各装置の機能を当該コンピュータに実行させる。

図２は、本実施形態における語彙知識獲得装置１０の機能構成を示すブロック図である。プロセッサ２０は、語彙知識獲得プログラム２１ａを実行することにより、機能部３０に含まれる各機能を実現する。機能部３０に含まれる各機能は、記憶部３２に含まれる各データに対する処理を実行する。

語彙知識獲得装置１０は、語彙知識獲得プログラム２１ａに基づいて、形態素解析機能４１、複合語抽出機能４２、未知語抽出機能４３、未知語関連情報付与機能４４、略称推定機能４５、正式表記候補付与機能４６、結果出力機能４７、及び辞書編集機能４８による処理を実行する。

なお、音声認識システム４９は、プロセッサ２０が音声認識プログラム２１ｂを実行することにより実現される機能である。音声認識システム４９は、語彙知識獲得装置１０の機能とは独立したシステムであり、辞書編集機能４８による処理において利用される。ただし、音声認識システム４９は、語彙知識獲得プログラム２１ａにより実現される機能の一部としても良い。

記憶部３２（記憶装置２４）には、機能部３０の各機能の処理に必要な資源である、平文コーパス２４ａ、正式名称リスト２４ｂ、日英機械翻訳辞書２４ｃ、Ｗｅｂクローリングデータ２４ｄ、構築済み辞書２４ｅ、仮構築辞書２４ｆ、音声ファイル２４ｈとが含まれる。また、記憶部３２には、各機能の処理結果とする語彙リスト２４ｇが記憶される。

構築済み辞書２４ｅは、例えば音声認識システム４９による音声認識処理に利用される辞書である。構築済み辞書２４ｅには、例えば図３に示すように、表記（見出し語）、品詞、読みを示すデータの組が、複数の見出し語毎に登録されている。構築済み辞書２４ｅには、語彙知識獲得装置１０による処理結果を利用して、ユーザ操作によって新たな語彙（品詞、表記、読み）を追加することができる。

平文コーパス２４ａは、構築済み辞書２４ｅに新しい語彙を追加するために使用される書類（例えば、テキストデータ）の集合である。例えば、平文コーパス２４ａから構築済み辞書２４ｅに登録されていない未知語が抽出され、この未知語が構築済み辞書２４ｅへ追加する語彙の候補となる。平文コーパス２４ａは、音声認識システム４９を使う分野についての音声認識の品質を向上するため、該当する分野に関係する書類が用いられる。例えば、医療・薬学分野であれば、薬剤の添付文書などが該当する。

正式名称リスト２４ｂは、音声認識システム４９を使う場面に関連する表記（用語等）が登録された用語リストである。例えば、医療・薬学分野であれば、病名などの正式名称リスト（医学用語辞書）、薬剤リストなどが該当する。なお、人名について音声認識処理をする場合には、人名リスト（一般的な人名だけでなく、芸名などを含んでも良い）が用いられる。同様にして、地名については地名リスト、商品名については商標リストを用いるなど、音声認識処理の対象とする分野に応じたリストが用いられる。

日英機械翻訳辞書２４ｃは、日本語の表記と、その表記に対する英語の対訳が登録されたリストである。例えば、日本語の表記「リンパ節」（読み：りんぱせつ、品詞：名詞−一般）に対して、英語の対訳である「ｌｙｍｐｈｎｏｄｅ」が登録されている。

Ｗｅｂクローリングデータ２４ｄは、Ｗｅｂクローリングによって、ネットワーク１２（インターネット）を通じて外部から取得されるデータである。Ｗｅｂクローリングデータ２４ｄは、Ｗｅｂサイト（Ｗｅｂサーバ１４）において公開されているＷｅｂページを静的なファイルとして保存したものである。Ｗｅｂクローリングデータ２４ｄは、平文コーパス２４ａから抽出された未知語（表記）に対する読みの情報を獲得するために利用される。Ｗｅｂクローリングデータ２４ｄのファイルの形式は、インターネット公開ページのソースであるＨＴＭＬ（Hyper Text Markup Language）形式であっても、ＨＴＭＬ形式を公開ページと同じ体裁の一般文書形式に変換したものであってもよい。Ｗｅｂクローリングデータ２４ｄは、語彙知識獲得装置１０の語彙知識獲得プログラム２１ａによる機能によって、ネットワーク１２を通じてＷｅｂサーバ１４から収集しても良いし、語彙知識獲得装置１０とは別の電子機器において作成したものを入力しても良い。Ｗｅｂクローリングデータ２４ｄは、語彙知識獲得装置１０に固定的に記録されたデータではなく、継続的に更新されるデータである。従って、インターネットを通じて公開されているＷｅｂページが更新されることで、Ｗｅｂクローリングデータ２４ｄから表記に対する新たな読みの情報を獲得することができる。

仮構築辞書２４ｆは、構築済み辞書２４ｅがコピーされた音声認識システム４９による音声認識処理に利用される辞書である。仮構築辞書２４ｆは、構築済み辞書２４ｅに追加する表記の候補を追加して、音声認識システム４９による音声認識処理を実行するために利用される。語彙知識獲得装置１０は、構築済み辞書２４ｅを用いた音声認識処理の結果と、仮構築辞書２４ｆを用いた音声認識処理結果（解析結果）との差分を抽出して、構築済み辞書２４ｅへ追加する表記に関する知識として抽出する。

語彙リスト２４ｇは、構築済み辞書２４ｅに新しい表記を追加する際のユーザ作業を支援するために、ユーザに提示されるデータである。語彙リスト２４ｇは、構築済み辞書２４ｅに追加する表記（未知語）の候補について、ユーザが構築済み辞書２４ｅに表記を追加するか否かを判断する際に参考となるデータ（知識）を提示する。詳細については後述する（図７参照）。

音声ファイル２４ｈは、音声認識システム４９により構築済み辞書２４ｅ及び仮構築辞書２４ｆを用いた音声認識処理を実行させるための、音声認識システム４９に対する入力音声とする音声データである。音声ファイル２４ｈは、例えば平文コーパス２４ａのテキストデータと１対１で対応づけられた音声データ、すなわち平文コーパス２４ａのテキストを読み上げた音声の音声データである。なお、音声ファイル２４ｈは、ユーザによりテスト用として用意された、平文コーパス２４ａのテキストとは別の内容の音声データのファイルとしても良い。

次に、本実施形態における語彙知識獲得装置１０の語彙知識獲得処理の動作について、図４に示すフローチャートを参照しながら説明する。
まず、形態素解析機能４１は、平文コーパス２４ａについて、形態素解析処理を実行する（ステップＡ１）。形態素解析機能４１は、形態素解析処理によって、平文コーパス２４ａに含まれる日本語のテキストデータを単語に分割し、各単語について品詞を付与する。

例えば、形態素解析機能４１は、平文コーパス２４ａ中の日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。ＬＮの腫れはありません。」のテキストデータについて形態素解析処理を実行した結果、図５に示すような形態素解析結果が得られる。

次に、複合語抽出機能４２は、形態素解析機能４１の出力（形態素解析結果）を入力し、形態素解析結果に基づいて複合語を抽出するための複合語抽出処理を実行する（ステップＡ２）。

複合語抽出機能４２は、隣接する形態素を連結して複合語を構成すると推定できる文字列を抽出して、複合語として出力する。複合語を構成する文字列の判断として、例えば、「『名詞−一般』の連続部分は複合語（複合名詞）と推測する」などのルールを用いる。

図５に示す形態素解析結果では、「初期」と「症状」がともに品詞「名詞−一般」であり連続して現れるため、「初期症状」を複合語（複合名詞）と推測できる。また、一つの形態素解析結果だけではなく、大量の形態素解析結果を元にして、隣接して現れる頻度の高い形態素のつながりを複合語と推測する技術を利用することもできる。ここで、「名詞−一般」に限定せず「名詞」の連続部分もしくはアルファベットの連続部分を複合語（複合名詞）と推測すると、図５に示す形態素解析結果からは「初期症状」と「葛根湯」と「ＬＮ」が、複合語（複合名詞）として抽出される。

次に、未知語抽出機能４３は、形態素解析機能４１の形態素解析結果、及び複合語抽出機能４２により抽出された複合語から、構築済み辞書２４ｅに登録されていない未知語（語彙）を抽出する未知語抽出処理を実行する（ステップＡ３）。

未知語抽出機能４３は、形態素解析機能４１から出力される形態素解析結果をもとに、自立語に相当する品詞が付与された基本形を抽出する。自立語とは、単独でも文節を構成することのできる単語を示す。自立語に相当する品詞は、名詞・代名詞・動詞・形容詞・形容動詞・副詞・連体詞・接続詞・感動詞が該当する。

図５に示す形態素解析結果から抽出される基本形（表記）は、「風邪（名詞−一般）」「初期（名詞−一般）」「症状（名詞−一般）」「訴え（名詞−一般）」「ある（動詞−自立）」「ため（名詞−非自立−副詞可能）」「葛根（名詞−固有名詞−地域−一般）」「湯（名詞−一般）」「処方（名詞−サ変接続）」「する（動詞−自立）」「腫れ（名詞−一般）」の１１語となる。

さらに、未知語抽出機能４３は、複合語抽出機能４２の出力（複合語）を、形態素解析機能４１の形態素解析結果から抽出した１１語に加える。ここで、加える表記（複合語）は、「初期症状（名詞）」「葛根湯（名詞）」「ＬＮ（名詞）」の３表記であり、抽出された表記は１４語（１４表記）となる。ここで、抽出された１４語の表記は、平文コーパス２４ａから抽出された未知語の候補となる。

次に、未知語抽出機能４３は、未知語の候補（表記）のリストと、構築済み辞書２４ｅとを比較して、構築済み辞書２４ｅに登録されていない未知語を抽出する。すなわち、未知語抽出機能４３は、未知語の候補のリストに含まれる表記と品詞の組のうち、構築済み辞書２４ｅに登録されていないものを抽出して出力する。

構築済み辞書２４ｅには、「風邪（名詞−一般）」「初期（名詞−一般）」「症状（名詞−一般）」「処方（名詞−サ変接続）」が登録されているため、未知語抽出機能４３は、「訴え（名詞−一般）」「ある（動詞−自立）」「ため（名詞−非自立−副詞可能）」「葛根（名詞−固有名詞−地域−一般）」「湯（名詞−一般）」「する（動詞−自立）」「腫れ（名詞−一般）」「初期症状（名詞）」「葛根湯（名詞）」「ＬＮ（名詞）」の１０表記を未知語として抽出する。

なお、未知語抽出機能４３は、未知語として抽出した表記に、重複する表記が含まれている場合には、一方を削除しても良い。例えば、前述した例では、複合語抽出機能４２により複合語として「葛根湯（名詞）」が抽出されている。一方、形態素解析機能４１の出力から「葛根湯」の構成要素となっている「葛根（名詞−固有名詞−地域−一般）」「湯（名詞−一般）」が抽出されている。この場合、未知語抽出機能４３は、形態素解析結果から抽出した「葛根（名詞−固有名詞−地域−一般）」「湯（名詞−一般）」を削除する。

この結果、未知語抽出機能４３は、「訴え（名詞−一般）」「ある（動詞−自立）」「ため（名詞−非自立−副詞可能）」「する（動詞−自立）」「腫れ（名詞−一般）」「初期症状（名詞）」「葛根湯（名詞）」「ＬＮ（名詞）」の８表記を出力する。

さらに、未知語抽出機能４３は、構築済み辞書２４ｅに登録する表記（語彙）の候補を、品詞に基づいて制限する。例えば、未知語抽出機能４３は、例えば名詞で非自立ではない品詞の表記のみを登録の候補とする。

この結果、未知語抽出機能４３は、「訴え（名詞−一般）」「初期症状（名詞）」「腫れ（名詞−一般）」「葛根湯（名詞）」「ＬＮ（名詞）」の５表記を出力する。以後の処理では、未知語抽出機能４３の出力を「訴え（名詞−一般）」「初期症状（名詞）」「腫れ（名詞−一般）」「葛根湯（名詞）」「ＬＮ（名詞）」の５表記として説明する。

次に、未知語関連情報付与機能４４は、未知語関連情報付与処理を実行し、未知語抽出機能４３から出力された表記（構築済み辞書２４ｅに登録する表記（未知語）の候補）のそれぞれについて、ユーザが構築済み辞書２４ｅに追加するか否かを判断する際に参考となるデータ（未知語関連情報）を求めて付与する（ステップＡ４）。

ここでは、未知語関連情報付与機能４４は、未知語抽出機能４３が出力した５表記それぞれについて、未知語関連情報を求めて付与する。

未知語関連情報は、例えば、推定される品詞（「推定品詞」）、平文コーパス２４ａ（テキストデータ）を処理した際の出現頻度（「出現頻度」）、Ｗｅｂクローリングデータ２４ｄから抽出した未知語に対する読み（「読み」）、未知語に対する読みを抽出したスニペット・情報源（「スニペット・情報源」）、未知語と読み・表記・品詞が類似する構築済み辞書２４ｅに登録済みの表記（類似登録語）とその使用頻度、辞書に対する表記（見出し語）の追加あるいは削除をする前後の音声認識処理結果（解析結果）の差分などの情報の少なくとも１つを含む。

図６は、本実施形態における未知語関連情報付与機能４４により出力される未知語関連情報の一例を示す図である。
ここでは、平文コーパス２４ａに、日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。ＬＮの腫れはありません。」を含み、この日本語テキスト以外の大量のテキストに「初期症状」「葛根湯」などの表記が、それぞれ複数回出現する場合の例を示している。

「推定品詞」は、未知語抽出機能４３により出力される表記に付された形態素解析により得られた品詞である。

「出現頻度」は、未知語抽出機能４３により出力される表記の平文コーパス２４ａ中の出現数をカウントした数である。

「読み」は、未知語抽出機能４３により出力される表記に付された形態素解析により得られた読み、あるいはＷｅｂクローリングデータ２４ｄから抽出した表記（未知語）に対する読みである。未知語関連情報付与機能４４は、未知語抽出機能４３が出力した表記（未知語）をもとに、Ｗｅｂクローリングデータ２４ｄから読みに相当する文字列を抽出する。

例えば、未知語関連情報付与機能４４は、Ｗｅｂクローリングデータ２４ｄからの未知語と読みの組み合わせが記述された部分を抽出する。例えば、未知語の直後に「（）」で囲まれた「ひらがな」もしくは「カタカナ」の記述がある場合に、未知語と読みの組み合わせが記述された部分として抽出する。

あるいは、未知語関連情報付与機能４４は、Ｗｅｂクローリングデータ２４ｄの表形式の記述部分において、ある列には未知語が記述され、他の列に「ひらがな」もしくは「カタカナ」による記述が未知語と対応づけられている場合に、未知語とその読みの組み合わせと判断して抽出する。

「スニペット・情報源」は、例えば、Ｗｅｂクローリングデータ２４ｄ中の未知語の読みを含むスニペット（一部でも良い）、及び未知語を含むＷｅｂサイト（Ｗｅｂページ）の例えばＵＲＬ（uniform resource locator）である。未知語の読みを含む「スニペット・情報源」の組が複数抽出された場合、未知語関連情報付与機能４４は、複数の組を全て抽出しても良いし、同じ読みが付与された回数が最も多いスニペットのみを採用しても良い。さらに未知語関連情報付与機能４４は、ユーザが予め付与したＷｅｂサイトの信頼度が高いものを優先的に採用するなどして、未知語関連情報とする情報を集約してもよい。

登録済みの表記とその使用頻度は、構築済み辞書２４ｅから抽出される未知語（表記）と読み・表記・品詞が類似（少なくとも読みが一致する）する登録済みの表記と、この登録済みの表記の平文コーパス２４ａ中の出現数をカウントした数である。

図６に示す未知語関連情報では、未知語「腫れ」に対して、「晴れ（はれ、品詞：名詞−一般、出現頻度：１）」の情報が追加されている。

「差分」は、未知語を仮構築辞書２４ｆに登録した場合の仮構築辞書２４ｆを用いた音声認識処理の結果と、未知語が登録されていない構築済み辞書２４ｅを用いた音声認識処理の結果との差分（音声認識結果の違い）についての情報である。未知語関連情報付与機能４４は、次のようにして「差分」の情報を求める。

未知語関連情報付与機能４４は、辞書編集機能４８によって未知語とする表記・品詞・読みの組み合わせを、構築済み辞書２４ｅのコピーである仮構築辞書２４ｆに追加させる。次に、未知語関連情報付与機能４４は、辞書編集機能４８に対して、仮構築辞書２４ｆと構築済み辞書２４ｅとを用いた音声認識処理の実行を指示する。辞書編集機能４８は、未知語関連情報付与機能４４からの指示に応じて、未知語が登録された仮構築辞書２４ｆと、構築済み辞書２４ｅを用いた音声認識処理を音声認識システム４９により実行させる。この際、辞書編集機能４８は、音声認識システム４９に対して、音声ファイル２４ｈを音声認識処理の対象とする音声データとして入力する。

辞書編集機能４８は、仮構築辞書２４ｆを用いた音声認識処理の結果と、構築済み辞書２４ｅを用いた音声認識処理の結果を、未知語関連情報付与機能４４に出力する。未知語関連情報付与機能４４は、仮構築辞書２４ｆと構築済み辞書２４ｅをそれぞれ用いた音声認識結果をもとに差分（音声認識結果の違い）についての情報を作成する。

なお、未知語関連情報付与機能４４は、未知語に対して「読み・表記・品詞が類似する登録語」が構築済み辞書２４ｅに存在する場合は、その登録語を仮構築辞書２４ｆから削除し、新しい解析結果として未知語関連情報に付与することもできる。

こうして、辞書に対する未知語の追加あるいは削除をする前後の音声認識処理結果の差分の情報を抽出することにより、ユーザが未知語を辞書へ登録した場合の有効性を確認して辞書編集を行うことができるため、辞書編集の効率が向上し、さらに辞書編集の弊害を予め確認して予防することができる。

図６に示す未知語関連情報では、未知語「腫れ」「葛根湯」について、「差分」の情報が追加されている（図中Ａ，Ｂに示す）。

なお、図６に示す未知語関連情報では、抽出できなかった情報については空欄としている。例えば、スニペット・情報源がＷｅｂクローリングデータ２４ｄから抽出されなかった場合や、読み・表記・品詞が類似する登録語が構築済み辞書２４ｅから抽出されなかった場合は、空欄としている。また、「差分」の情報は、形態素解析機能４１が付与した読みとは異なる場合のみ付与するようにしても良い。

次に、略称推定機能４５は、未知語関連情報に含まれる略称を表す未知語に対して正式表記を付与するため、未知語関連情報に含まれる可能性のある略称を推定するための略称推定処理を実行する（ステップＡ５）。

略称推定機能４５は、正式名称リスト２４ｂに登録された表記、形態素解析機能４１による形態素解析結果により得られた表記、及び複合語抽出機能４２によって正式名称の一部として抽出される表記をもとに略称を作成する。ここでは、略称推定機能４５は、英語の複数単語からなる表記、もしくは、日本語の複数の形態素から構成される表記に対して略称を生成する。

例えば、正式名称リスト２４ｂに日本語の表記「リンパ節」が登録されていて、日英機械翻訳辞書２４ｃに英語の対訳である「ｌｙｍｐｈｎｏｄｅ」が登録されている場合、略称推定機能４５は、「リンパ節」の略称として、英語の対訳の頭文字を大文字にして連結した「ＬＮ」を生成する。

また、略称推定機能４５は、例えば、日本語の正式名称「動脈注射」に対して、形態素解析結果「動脈（名詞−一般）注射（名詞−サ変接続）」の形態素の最初の文字を連結した略称「動注」を生成する。

次に、正式表記候補付与機能４６は、未知語関連情報に含まれる略称推定機能４５により生成された略称に相当する未知語に対して、正式表記候補と読みを付与する正式候補付与処理を実行する（ステップＡ６）。

まず、正式表記候補付与機能４６は、未知語関連情報付与機能４４が出力した未知語関連情報中の表記（未知語）と、略称推定機能４５が生成した略称とを比較する。

未知語関連情報中の表記（未知語）と一致する略称がある場合、正式表記候補付与機能４６は、未知語関連情報中の該当する表記（未知語）に対して、略称の元となった正式名称とその読み・品詞を付与する。

例えば、図６に示す未知語関連情報では、未知語「ＬＮ」が、略称推定機能４５により生成された正式表記「リンパ節」から推定した略称「ＬＮ」と一致する。この場合、正式表記候補付与機能４６は、未知語「ＬＮ」に対して、正式表記候補「リンパ節」と読み「りんぱせつ」と品詞「名詞−一般」を付与する。この正式表記候補の読みと品詞は、略称「ＬＮ」の読みと品詞の候補として扱う。

次に、結果出力機能４７は、正式表記候補付与機能４６から出力される未知語関連情報を、ユーザに提示する形式に編集して出力する結果出力処理を実行する（ステップＡ７）。結果出力機能４７は、未知語関連情報に含まれる複数の未知語を、辞書追加登録効果の高い順に並べて語彙リスト２４ｇとして生成し、表示ユニット２６において表示させる。

なお、結果出力機能４７は、語彙リスト２４ｇを一覧表示するだけでなく、未知語（表記）毎に未知語関連情報を順番に表示するようにしても良い。

図７は、本実施形態における結果出力機能４７から出力される語彙リスト２４ｇの一例を示す図である。図７に示す語彙リスト２４ｇは、図６に示す未知語関連に対して、未知語の並びを出現頻度の高い順に変更した例を示している。

なお、図７に示す語彙リスト２４ｇには、正式表記候補付与機能４６によって、表記「ＬＮ」に対して、正式表記候補「リンパ節（読み：りんぱせつ、品詞：名詞−一般）」（図中Ｄに示す）と、その読み「りんぱせつ」（図中Ｃに示す）が追加されている。

また、前述した説明では、未知語関連情報の未知語（表記）を出現頻度の高い順に並べ替えているが、その他の条件に基づいて編集することも可能である。
例えば、複合語として抽出された表記や、Ｗｅｂクローリングデータ２４ｄから抽出した読み情報が形態素解析機能４１の解析結果と異なる表記は、辞書追加登録効果が高いと判断して、語彙リスト２４ｇの上位に位置づけたりしても良い。また、出現頻度が多い、複合語である、Ｗｅｂクローリングデータ２４ｄから抽出した読み情報が形態素解析機能４１の解析結果と異なるなど、辞書追加登録効果の判断結果が同じ表記が複数ある場合は、さらに別の辞書追加登録効果の判断基準に基づいて表記を並べ替えても良い。

図７に示す語彙リスト２４ｇは、各表記について複数行からなる表形式の出力例を示しているが、他の形式にすることが可能である。例えば、１つの表記について、未知語関連情報を１行で示す表形式とすることもできる。また、「スニペット・情報源」に関する情報のように、テキストが長い情報については、該当情報へのリンク情報のみを語彙リスト２４ｇに提示するようにしても良い。

このようにして、本実施形態における語彙知識獲得装置１０は、Ｗｅｂクローリングデータ２４ｄから未知語に対応する読みを獲得することで、語彙知識獲得装置１０に予め設定された情報内に制限されることなく、構築済み辞書２４ｅには登録されていない未知語の読みを、形態素解析や推定ルールでは対応できない場合でも取得することができる。また、未知語に対して、略称と正式名称の対応を提示することで、正式名称の読みがそのまま適用される可能性も高い略称に対して適切な読みを付与できる。また、略称に対して正式名称との対応が提示されることで、認識した単語の意味を把握する必要のある音声対話にも対応が容易となる。平文コーパス２４ａからの構築済み辞書２４ｅへ登録する候補とする表記の抽出と読み推定が機械的に実施されることで、人手で実施する場合の作業時間を削減でき、また構築済み辞書２４ｅに登録されていない未知語の抽出漏れを削減できる。ユーザは、語彙リスト２４ｇによって提示された構築済み辞書２４ｅへの登録の候補とする表記（未知語）について、それぞれに付与された未知語関連情報をもとに、登録するか否かを判断することができる。

なお、未知語関連情報付与機能４４により抽出される未知語に対応する「差分」の情報は、語彙リスト２４ｇをユーザに提示した後、語彙リスト２４ｇからユーザ操作によって選択された表記（未知語）に対してのみ実行するようにしても良い。「差分」の情報の抽出方法は、前述と同様にして実行されるものとして詳細な説明を省略する。

ユーザによって選択された表記（未知語）に対してのみ「差分」の情報を生成することにより、語彙リスト２４ｇを提示するための処理負担を軽減して、短時間で語彙リスト２４ｇをユーザに対して提示することが可能となる。

次に、本実施形態における未知語関連情報付与機能４４による未知語関連情報付与処理の応用例について説明する。図８は、本実施形態における未知語関連情報付与処理を示すフローチャートである。

ここでは、未知語関連情報付与機能４４は、Ｗｅｂサイト（Ｗｅｂサーバ１４）により公開されている情報の信頼性を示す信頼性評価リストを利用して未知語関連情を作成する。

Ｗｅｂサイトには、専門家が編集した信頼できる情報を公開しているものと、非専門家が編集した信頼性が低い情報を公開しているものが混在している。

図９は、本実施形態における信頼性評価リストの一例を示す図である。図９に示す例では、信頼性評価リストは、Ｗｅｂサイト（ＵＲＬ）ごとに、信頼性を示す評価値、例えば「○」「△」「×」の３段階の評価値を記録できる。また、信頼性評価リストは、Ｗｅｂサイト（ＵＲＬ）ごとに、Ｗｅｂサイトから抽出した情報（未知語に対する読み）をユーザに提示した際に、ユーザがその情報を採用したか否かを「読み採用数」「読み不採用数」として記録できる。

未知語関連情報付与機能４４は、Ｗｅｂクローリングデータ２４ｄから「スニペット・情報源」の組を複数抽出した場合（ステップＢ１、Ｙｅｓ）、図９に示す信頼性評価リストを参照し、ユーザに提示する「スニペット・情報源」の情報を選択する（ステップＢ２）。

例えば、未知語関連情報付与機能４４は、信頼性が「○」で、読み採用数が多く、読み不採用数が少ないサイトの情報を優先して選択して、未知語関連情報として付与する。

また、未知語関連情報付与機能４４は、未知語関連情報に付与した情報が採用された場合（ステップＢ３、Ｙｅｓ）、すなわち語彙リスト２４ｇにおいて提示した読みが未知語と共に登録された場合、信頼性評価リスト中の該当する情報が抽出されたＷｅｂサイトの「読み採用数」をカウントアップする（ステップＢ４）。なお、信頼性評価リストの「読み不採用数」は、例えば、ユーザによって不採用として明示的に指定された場合や、１つの表記に対して複数の読みが提示されている時に選択されなかった場合にカウントアップする。

なお、信頼性の評価値は、ユーザがＷｅｂサイトの内容を確認した上でユーザ操作によって信頼性評価リストに設定しても良いし、「読み採用数」と「読み不採用数」に応じて予め設定されたルールに従って自動的に設定しても良い。例えば、「読み採用数」が基準値以上で「読み不採用数」が「０」の場合には信頼性を「○」に設定したり、「読み採用数」と「読み不採用数」との比率に基づいて設定したりしても良い。

なお、信頼性評価リストを利用する場合、信頼性が「○」のＷｅｂサイトのみを利用しても良いし、信頼性が「○」のＷｅｂサイトから必要な情報が抽出できない場合に信頼性が「△」のＷｅｂサイトを利用するようにしても良い。さらに、その他の利用方法を用いることも可能である。また、評価値は、３段階に限らず、任意の段数とすることができる。

このようにして、事前に評価されたＷｅｂサイトの信頼性を参照して情報を選択することで、ユーザに信頼性の高い情報を提示することができる。また、ユーザが提示された情報を採用したか否かの履歴を蓄積し、評価を更新することで、ユーザへの提示情報の信頼性をさらに向上できる。

次に、本実施形態における結果出力機能４７による結果出力処理の応用例について説明する。図１０は、本実施形態における結果出力処理を示すフローチャートである。

結果出力機能４７は、正式表記候補付与機能４６により作成された未知語関連情報（未知語のリスト）を、辞書追加登録効果の高い順に未知語を並べ変えてユーザに提示する。

結果出力機能４７は、辞書追加登録効果の高い順の判断指標として、例えば以下の７指標を用いることができる。
第１指標：平文コーパス２４ａにおける出現頻度が高いこと。
第２指標：正式名称リスト２４ｂにおける出現頻度が高いこと。
第３指標：構築済み辞書２４ｅに登録された表記と同じ品詞の語彙が多いこと。
第４指標：Ｗｅｂクローリングデータ２４ｄから抽出した読み情報が形態素解析結果から推測される読みと異なること。
第５指標：平文コーパス２４ａ中で表記の直前直後に現れる形態素の異なり数が多いこと。
第６指標：表記の重み評価値ｔｆ−ｉｄｆの値が大きいこと。
第７指標：複合語の独立性を評価する指標（Ｃ−ｖａｌｕｅ，ＭＣ−ｖａｌｕｅなど）が高いこと。

第１指標を用いることで、出現頻度が高い表記を優先して登録の候補として提示できる。第２指標を用いることで、平文コーパス２４ａが十分でないとき（例えばデータ量が少ない）であっても、対象分野での出現の可能性が高い、正式名称リスト２４ｂに含まれる正しい表記を優先して提示できる。第３指標を用いることで、構築済み辞書２４ｅにおいて必要とされる可能性の高い品詞（例えば音声認識に有効な形容詞、地名や人名などの認識に有効な固有名詞など）の表記を優先して提示できる。第４指標を用いることで、新しい表記（新語や芸能人名など）であり読みが難しい（一般的ではない）可能性が高く、登録しておくことが有効である可能性が高い表記を優先して提示できる。第５指標を用いることで、独立した単語を優先して提示することができる。第６指標を用いることで、特定分野の文書に偏って出てくる、その分野では重要な単語である可能性が高い表記を優先して提示できる。第７指標を用いることで、複合語に含まれる単語の独立性が低い（いつも複合語で用いられる）表記について、複合語での表記を優先して提示することができる。

なお、表記の重み評価値ｔｆ−ｉｄｆは、「ｔｆ」（単語の出現頻度）と、「ｉｄｆ」（逆文書頻度）の二つの指標を乗じて計算される指標である。「ｉｄｆ」は多くの文書に出現する語、すなわち一般的な語は値が下がり、特定の文書のみに出現する語は値が高くなる。すなわち、「ｉｄｆ」に「ｔｆ」を乗じた「ｔｆ−ｉｄｆ」は、特定の文書のみに高頻度で出現する表記に対して高い値となる。従って、ある専門分野に特有の重要単語を判断する指標とすることができる。

また、複合語の独立性を評価する指標Ｃ−ｖａｌｕｅは、文書における単語間の結合度を示す。

Ｃ−ｖａｌｕｅ(ｗ)＝(ｌｅｎｇｔｈ(ｗ)−１)(ｎ(ｗ)−(ｔ(ｗ)／ｃ(ｗ)))
ｗ：注目している単語
ｌｅｎｇｔｈ（ｗ）：ｗの長さ（ｗを構成する単語の数）
ｎ（ｗ）：ｗの出現回数
ｔ（ｗ）：ｗを含むより長い複合語の出現回数
ｃ（ｗ）：ｗを含むより長い複合語の異なり数
注目している単語がより長い複合語の一部としてしか使われていない場合は、Ｃ−ｖａｌｕｅは０に近い値となる。Ｃ−ｖａｌｕｅの値が大きい語は、独立性が高い。Ｃ−ｖａｌｕｅはｗが一つの単語のみから構成される場合は必ず０となってしまうため、一つの単語であっても０以外の評価値となるＭＣ−ｖａｌｕｅなどの修正式を使用することができる。

結果出力機能４７は、７指標のうちの一つもしくは複数の組み合わせを用いて、辞書追加登録効果の高さを判定し、結果を並べ変える。なお、何れの指標を用いるかは、ユーザが選択できるようにしても良いし、システムが自動的に設定しても良い。システムが自動的に設定する場合には、例えば処理対象とする平文コーパス２４ａの内容（長さ、分野）などに基づいて決定することができる。また、複数の指標を用いる場合には、指標に優先度を設定しても良い。

また、各指標に対して、さらに条件を設定することもできる。例えば、ユーザに提示する値の範囲の指定を受け付け、結果の出力範囲を限定することができる。例えば、「平文コーパスにおける出現頻度が１０以上」の指定により出力範囲を限定したり、「推定される品詞が名詞であること」の指定により名詞と推定される表記に限定したりすることができる。

結果出力機能４７は、正式表記候補付与機能４６から出力された未知語（登録の候補とする表記）のリストに対して、予め設定された指標をもとに辞書追加登録効果の高さを判定し（ステップＣ１）、この判定結果に応じて未知語の順番を並べ替える（ステップＣ２）。

結果出力機能４７は、指標に基づいて表記の順番を並べ替えた語彙リスト２４ｇを出力する（ステップＣ３）。

このようにして、複数の評価指標を設けて柔軟に組み合わせを選択でき、出力範囲を限定することで、出力される語彙リスト２４ｇの上位に、ユーザが求める内容が多く含まれるように精度を向上できる。

次に、本実施形態における複合語抽出機能４２による複合語抽出処理の応用例について説明する。図１１は、本実施形態における複合語抽出処理を示すフローチャートである。

一般に、複合語を構成するか否かの判断を、隣接する形態素の品詞から判断する技術がある。例えば、「名詞−一般」の連続は、複合名詞と判断することが知られている。他に「接頭語と名詞は接続する」「名詞と接尾語は接続する」「格助詞"の"で接続された名詞は、格助詞"の"を含めて接続する」などの適合率の高いルールのみを適用することが一般的である。このような技術では、句読点「、」「。」や「」（スペース）は区切り文字として扱い、複合語を構成する要素としないことが多い。

しかし、近年は、商品名、各種コンテンツ（書籍、映画、アニメーション等）の名称、芸名などの人物名などの固有名詞において、適合率の高いルールでは確実な単語区切りとされる文字等（句読点、スペース、記号など）や品詞を含むものが多分野で使われるようになっている。

そこで、本実施形態における複合語抽出機能４２は、形態素解析機能４１により出力される形態素解析結果から、図１１に示す手順により複合語を抽出することで、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する。

すなわち、複合語抽出機能４２は、形態素解析機能４１の出力（図５に示す）について、確実な単語区切りとして予め設定した文字・品詞を含むか判定する（ステップＤ１）。予め設定した文字・品詞を含まない場合（ステップＤ２、Ｎｏ）、複合語抽出機能４２は、形態素の連結結果であって、複合語の最初にならない文字・品詞で始まるか判定する（ステップＤ３）。該当する文字・品詞で始まらない場合（ステップＤ４、Ｎｏ）、複合語抽出機能４２は、複合語の最後にならない文字・品詞で終わるかを判定する（ステップＤ５）。該当する文字・品詞で終らない場合（ステップＤ６、Ｎｏ）、複合語抽出機能４２は、表記の全てを複合語候補に設定する（ステップＤ７）。

複合語抽出機能４２は、例えば、図１２に示すリストを参照して複合語抽出を実行することができる。図１２に示すリストの各行の指定は、「品詞」と「表現」がともに記載されている場合は、品詞と表現がともに一致する形態素を、一方のみが指定されている場合は他方は条件なしとして判断に使用する。なお、図１２のリストに該当しない最大長の文字列のみではなくて、その部分文字列も複合語候補とする。

複合語抽出機能４２は、図１２に示すリストをもとに複合語抽出をすると、図５に示す形態素解析結果からは「風邪、風邪の初期、風邪の初期症状、風邪の初期症状の訴え、初期症状、初期症状の訴え、葛根湯、葛根湯を処方」の複合語候補を抽出することができる。

図１２のリストから、句点、読点に関する指定を削除すれば、例えば原文「新チューハイ「○○○。」を発表した。」からは、複合語候補「新チューハイ」「○○○。」「発表」が抽出できる。

複合語抽出機能４２は、前提として形態素解析機能４１の出力から形態素の連結を作成するものに限定しない。例えば、平文コーパス２４ａのテキストもしくは正式名称リスト２４ｂの原文を入力としてＮ−ｇｒａｍにより語候補を切り出し、形態素解析結果と区切り位置が一致し、図６のリストに該当しない表記を複合語候補としてもよい。

このようにして、複合語候補を柔軟に抽出することで、従来の適合率の高いルールを適用して限定した候補を抽出する場合と比較して、複合語の抽出漏れを削減することができる。

なお、前述した説明では、音声認識システム４９に音声認識用の辞書（構築済み辞書２４ｅ）への語彙の追加を支援する場合を例にしているが、本実施形態における語彙知識獲得装置１０は、音声認識以外のシステムに用いられる辞書へ表記を追加する場合にも利用することができる。例えば、日本語入力システム（ワードプロセッサ）のかな漢字変換辞書や、インターネットで配信される情報（ブログ、マイクロブログ、企業発表情報）などを内容ごとに分類するための用語辞書を対象とすることもできる。

また、語彙知識獲得装置１０は、日本語の表記だけでなく、他の言語の表記を対象とすることも可能である。

また、前述した説明では、Ｗｅｂサイトから取得されるＷｅｂクローリングデータ２４ｄから未知語の読みを抽出しているが、その他の語彙知識獲得装置１０の外部から取得されるデータを対象とすることも可能である。例えば、継続的にデータが更新されるデータベースシステムや、特定の電子機器に記録されたデータなどを、記録媒体あるいはネットワーク１２を通じて取得して、語彙知識獲得処理に利用することが可能である。

なお、実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

また、記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行しても良い。

さらに、実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

なお、実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、実施形態における各処理を実行するものであって、パーソナルコンピュータ等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

また、実施形態におけるコンピュータとは、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…語彙知識獲得装置、１２…ネットワーク、１４…Ｗｅｂサーバ、２０…プロセッサ、２１…メモリ、２１ａ…語彙知識獲得プログラム、２１ｂ…音声認識プログラム、２４…記憶装置、２４ａ…平文コーパス、２４ｂ…正式名称リスト、２４ｃ…日英機械翻訳辞書、２４ｄ…Ｗｅｂクローリング、２４ｅ…構築済み辞書、２４ｆ…仮構築辞書、２４ｇ…語彙リスト、２５…入力ユニット、２６…表示ユニット、２７…音声入力ユニット、２８…音声出力ユニット、２９…通信ユニット、４１…形態素解析機能、４２…複合語抽出機能、４３…未知語抽出機能、４４…未知語関連情報付与機能、４５…略称推定機能、４６…正式表記候補付与機能、４７…結果出力機能、４８…辞書編集機能、４９…音声認識システム。

Claims

平文コーパスに含まれるテキストを単語に分割して、各単語に品詞と読みを付与する形態素解析をする形態素解析手段と、
前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、
前記複合語抽出手段により抽出された前記複合語から略称を生成する略称推定手段と、
前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、前記未知語に対する指標とする、前記平文コーパスにおける出現頻度の高さ、名称の表記が登録された名称リストにおける出現頻度の高さ、前記構築済み辞書に登録された表記と同じ品詞の語彙の多さ、ネットワークを通じて外部から取得されたＷｅｂクローリングデータから抽出した読み情報と前記形態素解析の結果から推測される読みとの相違、前記平文コーパス中で表記の直前直後に現れる形態素の異なり数の多さ、特定の文書のみに高頻度で出現する表記に対して高い値を示す重み評価値の大きさ、文書における単語間の結合度を示す複合語の独立性を評価する値、のうちの少なくとも１つの指標をもとに判断される辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段とを有する語彙知識獲得装置。
前記未知語関連情報付与手段は、
前記未知語関連情報として、前記未知語に対して、推定される品詞、出現頻度、前記Ｗｅｂクローリングデータから抽出した読み・スニペット・情報源、読み・表記・品詞が類似する構築済み辞書登録語、類似登録語の使用頻度、辞書の登録語の追加削除を行った場合の解析結果の差分の情報の少なくとも１つを抽出して付与する請求項１記載の語彙知識獲得装置。
前記未知語関連情報付与手段は、
前記Ｗｅｂクローリングデータの取得元とするＷｅｂサイトの信頼性評価リストを備え、
前記Ｗｅｂクローリングデータから抽出した読み・スニペットの情報を付与する際に、前記信頼性評価リストに設定されたＷｅｂサイトの評価値に基づいて情報を選択する請求項２記載の語彙知識獲得装置。
前記結果出力手段は、前記辞書追加登録効果の判断基準として、複数の指標のうち一つもしくは複数の組み合わせに基づいて並べ替えをする請求項１記載の語彙知識獲得装置。
前記複合語抽出手段は、
前記形態素解析の結果から、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する請求項１記載の語彙知識獲得装置。
前記語彙リストに含まれる未知語を前記構築済み辞書に追加する前後の前記構築済み辞書を用いた解析結果の差分の情報を取得する辞書編集手段をさらに有し、
前記未知語関連情報付与手段は、解析結果の差分の情報を前記未知語に付与する請求項１記載の語彙知識獲得装置。
装置により実行される語彙知識獲得方法であって、
平文コーパスに含まれるテキストを単語に分割して、各単語に品詞と読みを付与する形態素解析をし、
前記形態素解析の結果をもとに複合語を抽出し、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出し、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与し、
前記形態素解析の結果をもとに抽出された前記複合語から略称を生成し、
前記略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与し、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、前記未知語に対する指標とする、前記平文コーパスにおける出現頻度の高さ、名称の表記が登録された名称リストにおける出現頻度の高さ、前記構築済み辞書に登録された表記と同じ品詞の語彙の多さ、ネットワークを通じて外部から取得されたＷｅｂクローリングデータから抽出した読み情報と前記形態素解析の結果から推測される読みとの相違、前記平文コーパス中で表記の直前直後に現れる形態素の異なり数の多さ、特定の文書のみに高頻度で出現する表記に対して高い値を示す重み評価値の大きさ、文書における単語間の結合度を示す複合語の独立性を評価する値、のうちの少なくとも１つの指標をもとに判断される辞書追加登録効果の高い順に並べて語彙リストとして出力する語彙知識獲得方法。
コンピュータを、
平文コーパスに含まれるテキストを単語に分割して、各単語に品詞と読みを付与する形態素解析をする形態素解析手段と、
前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、
前記複合語抽出手段により抽出された前記複合語から略称を生成する略称推定手段と、
前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、前記未知語に対する指標とする、前記平文コーパスにおける出現頻度の高さ、名称の表記が登録された名称リストにおける出現頻度の高さ、前記構築済み辞書に登録された表記と同じ品詞の語彙の多さ、ネットワークを通じて外部から取得されたＷｅｂクローリングデータから抽出した読み情報と前記形態素解析の結果から推測される読みとの相違、前記平文コーパス中で表記の直前直後に現れる形態素の異なり数の多さ、特定の文書のみに高頻度で出現する表記に対して高い値を示す重み評価値の大きさ、文書における単語間の結合度を示す複合語の独立性を評価する値、のうちの少なくとも１つの指標をもとに判断される辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段として機能させるための語彙知識獲得プログラム。