JPH11175525A - 自然言語処理用データベース装置 - Google Patents

自然言語処理用データベース装置

Info

Publication number
JPH11175525A
JPH11175525A JP9339815A JP33981597A JPH11175525A JP H11175525 A JPH11175525 A JP H11175525A JP 9339815 A JP9339815 A JP 9339815A JP 33981597 A JP33981597 A JP 33981597A JP H11175525 A JPH11175525 A JP H11175525A
Authority
JP
Japan
Prior art keywords
natural language
character string
database
language processing
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9339815A
Other languages
English (en)
Inventor
Tokuji Ikeno
篤司 池野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9339815A priority Critical patent/JPH11175525A/ja
Publication of JPH11175525A publication Critical patent/JPH11175525A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザが自然言語処理用データベースに自分
の希望する文字列及びその頻度情報を追加・修正するこ
とができる。 【解決手段】 本発明装置は、自然言語文に現れる所定
文字数でなる部分文字列とその絶対的又は相対的な頻度
情報との組を複数組格納している自然言語処理用データ
ベースを有する。また、ユーザから入力された、自然言
語処理用データベースの格納内容に反映させたい文字列
及び重要度を受け取るユーザ入力手段と、入力文字列を
構成する、所定文字数でなる1又は複数の部分文字列の
項目が自然言語処理用データベースになければ、重要度
に応じた頻度情報とを組として追加させると共に、その
部分文字列の項目が自然言語処理用データベースにあれ
ば、その部分文字列の頻度情報を重要度に応じて更新さ
せるデータベース更新手段とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は自然言語処理用デー
タベース装置に関し、例えば、文の形態素を自動的に解
析する形態素解析装置に適用し得るものである。
【0002】
【従来の技術】[文献名]特開平7−271792 日本語文等の自然言語文を処理する装置(例えば機械翻
訳装置や質疑応答装置やコンピュータ援用の教育装置
等)においては、自然言語文に対して最初に形態素解析
を行う。
【0003】形態素解析装置は、一般に、形態素解析部
(形態素解析プログラム部)と、辞書(単語辞書)と、
活用語尾テーブルと、品詞別接続テーブルとから構成さ
れており、形態素解析部が、上述の各種記憶部が、入力
テキストに対して、辞書や、活用語尾テーブルや、品詞
別接続テーブル等を参照することで形態素解析を行うも
のである。
【0004】これに対して、近年、単語辞書を使用せ
ず、代わりにタグつき(=形態素境界や各形態素の品詞
情報等を保持した)コーパス(=大量のテキストデー
タ)から学習した、タグつき部分文字列の出現頻度情報
を格納している統計データベース(自然言語処理用デー
タベース)を用いた形態素解析装置が研究され始めてい
る(特開平7−271792号公報や、特願平9−68
300号明細書及び図面参照)。
【0005】この形態素解析方式では、開発者による発
見的な手法で構築されてきた接続テーブルの代わりに、
コーパスから求めた統計データに基づく連鎖確率(出現
頻度情報)を使用するという点で、従来方式よりも、形
態素境界の確定の根拠が明確である。また、未知語が存
在しても一定の基準で精度の高い解析を進めることがで
きるとされている。
【0006】
【発明が解決しようとする課題】ところが、上記の統計
データに基づく形態素解析装置では、辞書を用いないた
め、ユーザがある形態素を定義して形態素解析結果に反
映したいときに、そのことを実現する手段が(用意され
てい)ないという課題がある。すなわち、辞書に登録す
るという方法が使えないので、ユーザがある形態素を定
義して形態素解析結果に反映したいときに、それを実現
する手段がなかった。
【0007】そのため、ユーザ定義の形態素データの入
力を受けつけられるて自然言語処理用データベース装置
(統計データベース装置)が求められている。
【0008】
【課題を解決するための手段】かかる課題を解決するた
め、本発明は、自然言語文に現れる所定文字数でなる部
分文字列とその絶対的又は相対的な頻度情報との組を複
数組格納しており、自然言語処理装置本体に利用される
自然言語処理用データベースを有する自然言語処理用デ
ータベース装置において、(1)ユーザから入力され
た、上記自然言語処理用データベースの格納内容に反映
させたい文字列及び重要度を受け取るユーザ入力手段
と、(2)ユーザから入力された文字列を構成する、上
記所定文字数でなる1又は複数の部分文字列の項目が上
記自然言語処理用データベースになければ、上記重要度
に応じた頻度情報とを組として、上記自然言語処理用デ
ータベースに追加させると共に、ユーザから入力された
文字列を構成する、上記所定文字数でなる1又は複数の
部分文字列の項目が上記自然言語処理用データベースに
あれば、上記自然言語処理用データベースのその部分文
字列の頻度情報を上記重要度に応じて更新させるデータ
ベース更新手段とを備えたことを特徴とする。
【0009】
【発明の実施の形態】(A)第1の実施形態 (A−1)第1の実施形態の構成 以下、本発明による自然言語処理用データベース装置
(統計データベース装置)を形態素解析装置に適用した
第1の実施形態を図面を参照しながら詳述する。
【0010】この第1の実施形態の形態素解析装置は、
入出力装置や通信装置や外部記憶装置等を適宜有するワ
ークステーションやパソコン等の情報処理装置で実現さ
れるものであるが、機能的には、図1の機能ブロック図
で示すことができる。
【0011】図1において、第1の実施形態の形態素解
析装置は、入力部1と、形態素解析部2と、出力部3
と、タグつきコーパス(タグつきコーパス記憶部)4
と、連鎖確率計算部5と、統計データベース6と、統計
データベース重み変更部7と、ユーザ形態素入力部8と
からなる。
【0012】ここで、入力部1、形態素解析部2及び出
力部3は、形態素解析装置本体を構成しており、タグつ
きコーパス4、連鎖確率計算部5、統計データベース
6、統計データベース重み変更部7及びユーザ形態素入
力部8は、統計データベース装置を構成している。ま
た、タグつきコーパス4及び連鎖確率計算部5は、統計
データベース6を形成させるものであり、形態素解析
は、形成された統計データベース6を利用するものであ
るので、この第1の実施形態の場合には、これらタグつ
きコーパス4及び連鎖確率計算部5を省略することもで
きる。
【0013】入力部1は、文字列(自然言語テキスト)
を入力として受けとり、形態素解析部2にその入力文字
列を送るものである。入力部1は、例えば、キーボー
ド、マウス、OCR(光学式文字認識装置)、音声認識
装置等の任意の手段で構成されていても良く、また、ネ
ットワーク等の通信媒体を経て外部からの通信信号を受
信する手段として構成されていても良い。
【0014】形態素解析部2は、入力文字列に対して、
統計データベース6の情報を利用して形態素解析を行う
ものである。形態素解析部2は、詳細構成の図示は省略
していないが、以下のような機能を担う拡張文字列生成
部2a、スコアテーブル2b、スコア計算部2c及び最
適経路探索部2dを有する。
【0015】拡張文字列生成部2aは、統計データベー
ス6を参照して、入力文字列の拡張文字を生成し、入力
文字列の文頭から文末までについて、N文字でなる拡張
文字列(N−gram)の経路(組み合わせ)をスコア
テーブル2bに格納するものである。スコアテーブル2
bは、入力文字列の文頭から文末までの全ての拡張文字
列(N−gram)の経路と、統計データベース6に格
納されている部分連鎖確率情報とに基づき求めた拡張文
字列の経路に対応する拡張文字列の連鎖確率情報を格納
するものである。スコア計算部2cは、統計データベー
ス6に格納されている部分連鎖確率情報に基づき、スコ
アテーブル2bに格納されている拡張文字列の経路に対
する連鎖確率情報を計算するものである。最適経路探索
部2dは、スコア計算部2cにより計算された連鎖確率
情報の中から、最適な条件(例えば最大値の連鎖確率情
報を与えるなど)を満たす拡張文字列を、最適拡張文字
列(形態素解析結果)として選択するものである。
【0016】出力部3は、形態素解析部2から解析結果
の形態素列を受けとり、出力するものである。例えば、
種々の表示手段や印刷手段や通信手段等が該当する。
【0017】タグつきコーパス4は、形態素境界(や各
形態素の品詞情報)のタグを保持した大量のテキストデ
ータである。図2に、タグつきコーパス4のデータ例を
示す。この図2に示す例では形態素境界をスラッシュ
(/)で表示し、品詞・活用型・活用形の情報を四角括
弧内にカンマで列記するという形式で各情報を保持して
いる。なお、タグとして、形態素境界だけを含むタグつ
きコーパス4であっても良い。
【0018】連鎖確率計算部5は、タグつきコーパス4
が保持するテキストデータを処理し、統計データベース
6を作成するものである(特開平7−271792号公
報では、単語モデル推定手段あるいは品詞付けモデル推
定手段と呼ばれている)。具体的には、例えば、N−g
ram拡張文字列(形態素境界だけを含む拡張文字列、
又は、形態素境界や品詞を含む拡張文字列)の連鎖確率
情報を計算するものである。
【0019】統計データベース6は、基本的には、連鎖
確率計算部5で計算された結果のデータベースである。
なお、この第1の実施形態の場合、統計データベース6
の格納内容は、統計データベース重み変更部7によっ
て、変更できるようになされている。
【0020】統計データベース重み変更部7は、ユーザ
形態素入力部8から形態素解析結果に影響を与える形態
素情報(特定のN−gram拡張文字列のデータ)を受
けて、統計データベース6中のその形態素情報(N−g
ram拡張文字列)に関するデータに対して変更を加え
るものである。具体的には、例えば、指示されたN−g
ram拡張文字列の連鎖確率情報を変更するものであ
る。
【0021】ユーザ形態素入力部8は、ユーザから形態
素解析結果に影響を与える形態素情報の入力を受け付
け、その情報を整理して、統計データベース重み変更部
7にそれを送るものである。なお、この第1の実施形態
のユーザ形態素入力部8は、変更の重要度のデータを受
け付けて、そのデータも同時に送るものである。例え
ば、「確実にその形態素を解析結果に反映させたい」と
きはユーザは重要度0.99を入力し、「他の部分への
影響を極力少なくして反映させたい」ときは重要度0.
3を入力する。
【0022】(A−2)第1の実施形態の動作 入力文字列を入力部1が受け付け、形態素解析部2が統
計データベース6の格納内容を使用して形態素解析を行
い、出力部3を経て形態素列を出力する動作は、統計デ
ータベース6を利用する従来の形態素解析装置と同様で
あるので、その説明は省略する。
【0023】また、タグつきコーパス4に対して連鎖確
率計算部5が処理を行い、統計データベース6を作成す
る動作も、従来の装置と同様であるのでその説明は省略
する。
【0024】例えば、文献『長尾 眞、森 信介著、
「大規模日本語テキストのnグラム統計の作り方と語句
の自動抽出」、情報処理学会研究報告自然言語処理96
−1、1993年7月』に記載のものを適用できる。
【0025】そこで、以下では、ユーザからの形態素情
報の入力をユーザ形態素入力部8で受け付けて、統計デ
ータベース重み変更部7を通じて統計データベース6の
データを修正する動作を図3を参照しながら説明する。
【0026】なお、以下の説明においては、統計データ
ベース6は、N−gram文字の文字区切りに関するも
のとする。また、タグつきコーパス4のデータは情報と
して(品詞等の情報は持たず)形態素区切りだけを持っ
ているものとする。
【0027】まず、ユーザに形態素情報入力画面(図4
参照)を提示し、形態素情報の入力を受け付ける(ステ
ップ301)。
【0028】図4における画面中の四角括弧対[]で挟
まれた部分がユーザが入力する部分である。形態素情報
の入力は、一連の文字列に形態素区切り記号を挿入した
ものである。なお、マニュアル等によって入力方法をユ
ーザに予め知得させておく。形態素区切り記号で区切ら
れた各部分文字列が形態素である、という意味の入力で
ある。入力された文字列中に区切り記号がない場合は、
その文字列全体が一つの形態素であると判断する。重要
度は0.0から1.0の間の数値を入力するものとす
る。0.99(限りなく1に近い値)であれば、入力さ
れた各形態素は確実に反映されることを意味し、値が小
さくなるほど形態素の反映される可能性が減じる。これ
はある形態素を切り出すために生じる他の形態素への影
響をどの程度ユーザが容認するかを示す値である。
【0029】次に、ユーザ形態素入力部8から上記のユ
ーザが入力した形態素列と重要度を受けとった統計デー
タベース重み変更部7は、入力された形態素列を拡張文
字列に変換する(ステップ302)。図5に拡張文字列
の例を示す。図5において、拡張文字<こ,0>や<
こ,1>における文字「こ」は、形態素列を構成する文
字そのものであり、数字「0」、「1」はそれぞれ、そ
の文字の後側が形態素区切りになっていないかいるかを
表している。<#,1>は特殊拡張文字であり、統計デ
ータベース6がN−gram拡張文字列毎に連鎖確率情
報を構成するものであれば、入力された形態素列の先頭
側及び分割側にそれぞれ、N−1個ずつ付加されるもの
である。
【0030】次に、位置ポインタを拡張文字列の先頭に
設定し(ステップ303)、そこからN拡張文字(N−
gramの場合)の抽出可能かどうかを調べる(ステッ
プ304)。例えば、N=3の場合であって、図5の拡
張文字列の場合、ポインタが、先頭の<#,1>から<
ぐ,1>までの間にあるときは、3拡張文字の抽出が可
能であり、<ぐ,1>の直後の<#,1>にポインタが
あるときに初めて3文字の抽出が不可能となる。
【0031】ステップ304の判定において、抽出可能
であればステップ305に進み、抽出不可能であれば一
連の処理を終了する。
【0032】ステップ305においては、実際に、N拡
張文字を抽出し、抽出した拡張文字列が統計データベー
ス6の見出しに存在しているか否かを探索する(ステッ
プ306)。
【0033】統計データベース6をテーブル構成で構成
した一例を図6に示している。統計データベース6は、
図6に示すように、N−gram(3−gram)拡張
文字列でなる見出しと、それに対する連鎖確率情報の値
(確率値そのものでも良く、また、それを一律に所定倍
したものであっても良い;以下では重みの値と呼ぶ)と
でなる。見出しのN−gram拡張文字列には、重複す
るものは存在しない。
【0034】ここで、当該見出しが統計データベース6
に存在していない場合には(ステップ306で否定結
果)、形態素入力時に受け付けた重要度の数値を参考に
して、重みの値を作成する(ステップ310)。値の作
成方法にはいろいろ考えられるが、最も単純な方法とし
ては、重要度の数値をそのまま重みの値とする方法を挙
げることができる。その後、統計データベース6に当該
見出しを持ったデータを一行追加し、重み値を登録する
(ステップ311)。
【0035】一方、ステップ306の判定において、抽
出データが既に統計データベース6に存在したという結
果を得た場合には、統計データベース6から現在の重み
値を取得する(ステップ307)。そして、現在の重み
値と、形態素入力時に受け付けた重要度の数値を参考に
して新しい重み値を計算する(ステップ308)。そし
て、このようにして求めた新しい重み値に、当該見出し
(N−gram拡張文字列)の重み値を変更する(ステ
ップ309)。
【0036】新しい重み値の計算方法もいろいろ考えら
れるが、例えば、以下の(1)式に示す計算方法を挙げ
ることができる。
【0037】 (新しい重み値)=(現在の重み値)+{1.0−(現在の重み値)}*( 重要度) …(1) この(1)式の計算方法を適用した場合、重要度が最大
であればほとんど1.0に近い値になり、重要度が小さ
くても現在の重み値よりもわずかだが確実に値が増加す
るような新しい重み値が計算できる。
【0038】現在の位置ポインタで定まるN−gram
拡張文字列について、統計データベース6の格納内容の
追加、変更処理を終了すると、ポインタを一文字ずらし
て(ステップ312)、上述したステップ304に戻
る。
【0039】(A−3)第1の実施形態の効果 上記第1の実施形態によれば、ユーザが統計データベー
ス6に自分の希望する形態素(拡張文字列)及びその重
み値を追加・修正することができる。その結果、形態素
解析結果に希望の形態素列情報を反映することができ
る。すなわち、ユーザは簡単な入力操作によって、希望
する解析結果が得られるように、統計データベース6を
変更することができ、装置の使い勝手を従来より向上さ
せることができる。
【0040】(A−4)第1の実施形態の変形実施形態 統計データベース6は、項目の追加・修正に応じられる
構成であれば良く、構成がテーブル構成に限定されるも
のではない。また、その内容も、N−gram文字列に
限定されないので、特開平7−271792号公報に記
載のようにN個の品詞並びのデータであっても良い。
【0041】また、形態素情報の入力を、図2に示すよ
うな品詞情報をも有する形式で実行させるようにすれ
ば、形態素区切り情報だけでなく、品詞情報をも有する
N−gram拡張文字列を拡張している統計データベー
ス6に対しても、項目の追加・修正を行うことができ
る。
【0042】さらに、重要度にはマイナスの値を与えら
れるようにしても良い。その場合、統計データベース6
のテーブルの値は現状よりも減少することになるので、
当該形態素の分割を抑制させるように働くことになる。
【0043】さらにまた、第1の実施形態においては、
ユーザからは形態素列全体に対して重要度を付与する方
式で説明したが、重要度は各N−gram拡張文字の組
毎に指定するようにしても良い。さらに、重み値の計算
時に、ユーザにN−gram拡張文字の組毎に重要度を
問い合わせて対話的に処理する方式でも良い。
【0044】このようにN−gram拡張文字の組毎に
指定できるようにした場合においては、重要度ではな
く、重み値(連鎖確率情報)自体を指定できるようにし
ても良い。この場合、既存の重み値(連鎖確率情報)を
表示して修正指定させることが好ましい。重み値(連鎖
確率情報)自体を指定させる場合において、重み値とし
て0の指定も許容させることが好ましい。この場合、重
み値0のN−gram拡張文字列は、形態素解析結果に
反映されることが絶対ないものとなる。言い換えると、
積極的な禁止条件を付与したことになる。
【0045】また、第1の実施形態においては、重み値
(連鎖確率情報)の修正は、ユーザ入力に係る形態素情
報から得られたN−gram拡張文字列に対して行われ
るものであったが、この修正に合わせて、他のN−gr
am拡張文字列の重み値(連鎖確率情報)の修正も行う
ようにしても良い。例えば、一般的に、N−gram拡
張文字列についての情報を格納している統計データベー
ス6においては、先頭のN−1個の拡張文字が同じ複数
のN−gram拡張文字列の重み値(連鎖確率情報)の
総和が所定値(例えば1)になるようになされており、
この条件を守るように、他のN−gram拡張文字列の
重み値(連鎖確率情報)の修正も行うようにしても良
い。このような修正は、重み値(連鎖確率情報)を頻度
値に変えて修正し、再度重み値に変えることで実行する
ことができる。
【0046】なお、統計データベース6における重み値
を頻度で管理するものに対しても、上記第1の実施形態
の技術思想を適用することができる。
【0047】(B)第2の実施形態 (B−1)第2の実施形態の構成 以下、本発明による自然言語処理用データベース装置
(統計データベース装置)を形態素解析装置に適用した
第2の実施形態を図面を参照しながら詳述する。
【0048】この第2の実施形態の形態素解析装置も、
入出力装置や通信装置や外部記憶装置等を適宜有するワ
ークステーションやパソコン等の情報処理装置で実現さ
れるものであるが、機能的には、図7の機能ブロック図
で示すことができる。なお、図7において、上述した図
1との同一、対応部分には、同一符号を付して示してい
る。
【0049】図7において、第2の実施形態の形態素解
析装置は、入力部1と、形態素解析部2と、出力部3
と、タグつきコーパス4と、連鎖確率計算部5と、統計
データベース6と、ユーザ形態素入力部8と、コーパス
追加部9とからなる。この第2の実施形態の場合、連鎖
確率計算部5、統計データベース6、ユーザ形態素入力
部8及びコーパス追加部9が、統計データベース装置
(自然言語処理用データベース装置)を構成している。
【0050】図7において、入力部1、形態素解析部
2、出力部3、タグつきコーパス4、連鎖確率計算部
5、統計データベース6及びユーザ形態素入力部8は、
第1の実施形態と同じ機能を担うものであり、その機能
説明は省略する。
【0051】コーパス追加部9は、ユーザ形態素入力部
8から送られてくる形態素列情報を、重要度に応じた数
だけ、その複製を作成してタグつきコーパス4に追加す
るものである。コーパス追加部9は、タグつきコーパス
4のデータサイズ(例えば、文数、形態素数、文字数
等)の初期値を与えられており、タグつきコーパス4に
データを追加する際に保持しているサイズの値を変更す
る。また、コーパス追加部9は、タグつきコーパス4に
データを追加した後に、連鎖確率計算部5に対して再計
算を指令するものである。
【0052】(B−2)第2の実施形態の動作 従来装置の動作と異なるのは、ユーザ形態素入力部8と
コーパス追加部9の関連する部分だけである。そこで、
以下では、ユーザからの形態素情報の入力をユーザ形態
素入力部8で受け付けて、コーパス追加部9を通じてタ
グつきコーパス4にデータを追加し、連鎖確率計算部5
に再計算指令を与えるまでの動作を図8のフローチャー
トを参照しながら説明する。なお、この第2の実施形態
のタグつきコーパス4は、図2に示した形式のものでは
なく、それから品詞情報(活用型、活用形を含む)を除
いたものとする。
【0053】まず、ユーザに形態素入力画面(上記図4
参照)を提示し、形態素情報の入力を受け付ける(ステ
ップ801)。このステップに関しては、第1の実施形
態に同じである(図3のステップ301)。
【0054】次に、既存のコーパスサイズと重要度によ
り追加する分量(ここでは文数)を決める(ステップ8
02)。コーパスのサイズのデータはコーパス追加部9
が保持しているものとする。例えば、次の(2)式によ
り、追加分量を定める。なお、今までのコーパスサイズ
に応じて複数の式を選択適用するようにしても良い。
【0055】 追加分量(文数)=コーパスサイズ(文数)*0.01*重要度(但し、少 数点以下切り上げ) …(2) 次に、ステップ802で決められた追加文数だけ、入力
形態素列情報を複製し、タグつきコーパス4に追加する
(ステップ803)。このとき、追加した文数(場合に
よっては形態素数等その他のデータも)によりコーパス
サイズを更新しておく。
【0056】そして、タグつきコーパス4が更新された
ことを通知し、連鎖確率計算部5に対して再計算の指令
を送る(ステップ804)。これによって、連鎖確率計
算部5が更新されたタグつきコーパス4を用いて再計算
を行い、統計データベース6が更新される。
【0057】更新された統計データベース6を用いて形
態素解析を行うと、ユーザの入力が反映された解析結果
が得られる。
【0058】(B−3)第2の実施形態の効果 上記第2の実施形態によっても、ユーザが統計データベ
ース6に自分の希望する形態素(拡張文字列)及びその
重み値を追加・修正することができ、形態素解析結果に
希望の形態素列情報を反映することができる。すなわ
ち、ユーザは簡単な入力操作によって、希望する解析結
果が得られるように、統計データベース6を変更するこ
とができ、装置の使い勝手を従来より向上させることが
できる。
【0059】なお、第2の実施形態では、統計データベ
ース6の作成方法を利用して、ユーザの希望を統計デー
タベース6に反映する方法であり、他のN−garm拡
張文字列への悪影響が少なくて済むと考えられる。すな
わち、ユーザの入力した文(形態素列)がコーパス中に
何度も出現したという位置付けで考えるだけで良いの
で、恣意的な操作が少ない(=人為的なミスが入りにく
い)ため、ユーザ情報の反映によるリスクが小さく、統
計データベース6をゆるやかに操作することができる。
【0060】一方、ユーザ情報の反映度合が小さい、指
定した形態素に係るN−gram拡張文字列の連鎖確率
情報を小さくする方向には操作できないという面では、
第1の実施形態の方が良好である。
【0061】(B−4)第2の実施形態の変形実施形態 統計データベース6は、項目の追加・修正に応じられる
構成であれば良く、構成がテーブル構成に限定されるも
のではない。また、その内容も、N−gram文字列に
限定されないので、特開平7−271792号公報に記
載のようにN個の品詞並びのデータであっても良い。
【0062】また、形態素情報の入力を、図2に示すよ
うな品詞情報をも有する形式で実行させるようにすれ
ば、形態素区切り情報だけでなく、品詞情報をも有する
N−gram拡張文字列を拡張している統計データベー
ス6に対しても、項目の追加・修正を行うことができ
る。
【0063】さらに、統計データベース6における重み
値を頻度で管理するものに対しても、上記第2の実施形
態の技術思想を適用することができる。
【0064】(C)第3の実施形態 (C−1)第3の実施形態の構成 以下、本発明による自然言語処理用データベース装置
(統計データベース装置)を形態素解析装置に適用した
第3の実施形態を図面を参照しながら詳述する。
【0065】この第3の実施形態の形態素解析装置も、
入出力装置や通信装置や外部記憶装置等を適宜有するワ
ークステーションやパソコン等の情報処理装置で実現さ
れるものであるが、機能的には、図9の機能ブロック図
で示すことができる。なお、図9において、上述した図
1との同一、対応部分には、同一符号を付して示してい
る。
【0066】図9において、第3の実施形態の形態素解
析装置は、入力部1と、形態素解析部2と、出力部3
と、タグつきコーパス4と、連鎖確率計算部5と、統計
データベース6と、統計データベース重み変更部7と、
ユーザ形態素入力部8と、文例検索部10と、文例出力
部11と、タグつきコーパスのインデックス(インデッ
クス記憶部)12とからなる。この第3の実施形態の場
合、連鎖確率計算部5、統計データベース6、統計デー
タベース重み変更部7、ユーザ形態素入力部8、文例検
索部10、文例出力部11及びインデックス12が、統
計データベース装置(自然言語処理用データベース装
置)を構成している。
【0067】図9において、入力部1、形態素解析部
2、出力部3、タグつきコーパス4、連鎖確率計算部
5、統計データベース6及び統計データベース重み変更
部7は、第1の実施形態と同じ機能を担うものであり、
その機能説明は省略する。
【0068】タグつきコーパス4が、保持しているデー
タは第1の実施形態に同じであるが、その格納データの
インデックス12が別に用意されている。タグつきコー
パス4のインデックス12は、タグつきコーパス4が保
持しているデータのタグ(区切り記号、品詞・活用形等
の情報)を除去したデータ(プレーンデータ)を見出し
として保持する。各見出しには、その元となったタグつ
きコーパス4内のデータヘのポインタが付与されてい
る。
【0069】ユーザ形態素入力部8は、第1の実施形態
の動作の他に、文例検索部10に対しても、受け付けた
ユーザ形態素列を送るものである。
【0070】文例検索部10は、ユーザ形態素入力部8
からユーザ形態素列を受けとって区切り記号を取り除い
た文字列から、一定文字数(M文字)の部分文字列を
(複数個:可能な限り)作成するものである。また、そ
の各部分文字列をインデックス12に対して送り、イン
デックス12の見出し中(プレーンデータ)に当該部分
文字列を含むものがあれば、元データヘのポインタを取
得する。さらに、そのポインタのデータをタグつきコー
パス4に送り、当該データ(文例:タグつき形態素列)
を取得し、文例出力部11に送付するものである。
【0071】文例出力部11は、文例検索部10から送
られてきた形態素列(文例)を出力するものである。
【0072】(C−2)第3の実施形態の動作 以下では、この第3の実施形態における特徴動作を行う
ユーザ形態素入力部8、文例検索部10及び文例出力部
11の動作について、図10のフローチャートを参照し
ながら説明する。
【0073】まず、ユーザに形態素入力画面(図11参
照)を提示し、形態素入力を受け付け(ステップ100
1)、この受付時に押下されたボタンが、文例検索ボタ
ンか学習ボタンかを判定する(ステップ1002)。
【0074】図11に示すように、この第3の実施形態
の場合、形態素入力画面は、形態素入力及び重要度入力
を受け付ける入力フィールドだけでなく、「学習ボタ
ン」及び「文例検索ボタン」が表示され、動作モード
を、これら「学習ボタン」及び「文例検索ボタン」によ
って指示することを求めている。また、「文例検索ボタ
ン」の押下によって開始された文例検索動作によって得
られた文例を表示するための表示フィールドも予め用意
されている。
【0075】学習ボタンが押下された場合には、統計デ
ータベース重み変更部7がユーザ形態素列を受け取り、
第1の実施形態と同様の動作を行うため、図11に示す
処理を終了する。なお、図11の処理が終了したときに
は、上述した図3のステップ302以降の処理に進むよ
うになる。
【0076】一方、押下されたボタンが文例検索ボタン
であった場合には、文例検索部10がユーザ形態素列の
みを受け取り(重要度のデータは必要ない)、タグ(こ
こでは区切り記号のみ)を除去してプレーンデータ(文
字列)を作成する(ステップ1003)。例えば、入力
形態素列が、「ここ/では/きもの/を/ぬぐ」であっ
た場合には、区切り記号を全て除去した「ここではきも
のをぬぐ」が、プレーンデータとなる。
【0077】次に、当該プレーンデータから部分文字列
を作成する(ステップ1004)。この過程では、予め
この処理用の文字数が定められているものとして(ここ
では3文字とする;この文字数はN−gram拡張文字
列のN文字とは無関係であっても良い)、プレーンデー
タからその長さの部分文字列を全て切り出してくる。な
お、文字数はシステム起動時に指定する、あるいはユー
ザからの入力を受ける等の方法で変更可能であっても良
い。例えば、プレーンデータが上記の例であった場合に
は、「ここで」、「こでは」、「ではき」、「はき
も」、「きもの」、「ものを」、「のをぬ」、「をぬ
ぐ」という計8個の部分文字列が作成される。ここで、
プレーンデータの文字数が上記の定められた文字数に達
していない場合は、プレーンデータそのものを部分文字
列とする。
【0078】次に、未処理の中で最も先頭側の部分文字
列を処理対象にセットし(ステップ1005)、インデ
ックス内の見出しに当該部分文字列が含まれているもの
があるかどうかのマッチングをとり、マッチした見出し
の元データヘのポインタを全て文例検索部10が受け取
る(ステップ1006)。
【0079】そして、処理対象の部分文字列に処理済み
フラグを付与し(ステップ1007)、他に未処理の部
分文字列がないか調べる(ステップ1008)。
【0080】未処理の部分文字列があった場合には、上
述したステップ1005に戻る。このようなステップ1
005〜1008でなる処理ループを繰り返すことによ
り、やがて未処理の部分文字列がなくなる。このように
して全ての部分文字列の処理が完了した場合には、受け
取った元データヘのポインタの重複を削除して整理する
(ステップ1009)。これは、複数の部分文字列を含
むプレーンデータがあった場合、各々の部分文字列のマ
ッチング処理に対して元データが獲得されるためであ
る。
【0081】次に、ポインタでタグつきコーパス4のデ
ータ(文例)を参照して獲得する(ステップ101
0)。そして、文例出力部11に、それらの文例を送
り、画面に出力して(ステップ1011)、一連の処理
を終了する。
【0082】図12は、出力画面の例を示すものであ
る。この出力画面は、上述した図11に示すユーザ形態
素列入力画面に対応しており、「文例検索ボタン」の下
にこの検索結果が出力される。
【0083】このような出力画面を見て、ユーザは重要
度を変更して「学習ボタン」を押下して、第1の実施形
態のような統計データベース6の追加、変更動作に移行
させることができる。
【0084】すなわち、ユーザが統計データベース6に
自分の希望する形態素及びその重み値を追加・修正する
にあたって、同じ文字列を含む文例を検索・表示するこ
とにより、ユーザの入力が他のどのような文の解析に影
響を与えるか推定することができる。統計データベース
6であるので、絶対的に他への影響を避けることはでき
ないが、文例を見ることで入力形態素列を変更したり、
重要度を変更したりすることができる。
【0085】文例検索対象となるタグつきコーパス4
は、解析に使用する統計データベース6の元であるが故
に、得られる形態素解析結果を間接的に表現している。
例えば、仮に、それらの文のタグを除去して実際に解析
させれば、形態素区切り情報をタグとして保有するタグ
つきコーパス4の文に戻る。その意味で上記の推定が効
率的に行える。従って、全く別種のコーパス(タグつ
き、タグなし)を検索対象としても良いが、その場合、
参照することで推定はできるが、現状の解析に与える直
接的な影響を知ることはできないので、効果はやや薄れ
る。
【0086】(C−3)第3の実施形態の効果 上記第3の実施形態によっても、ユーザが統計データベ
ース6に自分の希望する形態素(拡張文字列)及びその
重み値を追加・修正することができ、形態素解析結果に
希望の形態素列情報を反映することができる。すなわ
ち、ユーザは簡単な入力操作によって、希望する解析結
果が得られるように、統計データベース6を変更するこ
とができ、装置の使い勝手を従来より向上させることが
できる。
【0087】また、第3の実施形態によれば、ユーザ入
力の形態素列と同じ部分文字列を含む文例を検索する文
例検索部を設けたので、ユーザは、統計データベースを
変更する前にその影響を推定して、入力内容を調整する
ことができる。
【0088】(C−4)第3の実施形態の変形実施形態 第3の実施形態は、第1の実施形態の構成を基本的に備
えているので、上述した第1の実施形態についての変形
実施形態を、この第3の実施形態の変形実施形態として
挙げることができる。
【0089】また、第3の実施形態は、第1の実施形態
の構成に文例検索部10及び文例出力部11を設けたも
のであるが、第2の実施形態の構成に文例検索部10及
び文例出力部11を設けて装置を構成しても良い。
【0090】さらに、第3の実施形態では、文例検索部
10がインデックス12をも利用して文例を検索するも
のを示したが、インデックス12を省略し、文例検索部
10がタグつきコーパス4に対して直接検索処理するも
のであっても良い。この場合、文例検索部10は、ユー
ザ入力の形態素列からタグを除去する必要はない。
【0091】(D)他の実施形態 上記各実施形態の説明においても、種々変形実施形態に
ついて言及したが、さらに、以下のような変形実施形態
を挙げることができる。
【0092】上記各実施形態は、ユーザが反映させよう
とする形態素列情報をその都度入力するものであった
が、出力部3から出力された形態素列情報をそのまま又
は一部修正して、ユーザ入力の形態素列情報として入力
できるようにしても良い。
【0093】また、上記各実施形態においては、対象と
する自然言語が日本語であるものを示したが、他の言語
に係る所定文字数の文字列を格納した統計データベース
装置(自然言語処理用データベース装置)に対しても、
本発明を適用することができる。
【0094】さらに、上記各実施形態においては、本発
明の統計データベース装置を形態素解析装置に適用した
ものを示したが、本発明の統計データベース装置を利用
する処理は、形態素解析に限定されるものではない。例
えば、通信手段で受信した自然言語テキストの一部がバ
ーストエラーによって未知語の場合に、その未知語部分
の正しい文字列を統計データベースの格納内容を利用し
て推定するような自然言語処理装置の統計データベース
装置に本発明の統計データベース装置を適用することが
できる。本発明の統計データベース装置の用途によって
は、統計データベースに、形態素区切り情報や品詞情報
等を保有しない文字列だけを格納していても良い。
【0095】なお、特許請求の範囲における文字列の
語、形態素区切り情報や品詞情報等を含むものも含まな
いものの双方を意味するものとする。
【0096】
【発明の効果】以上のように、本発明によれば、自然言
語文に現れる所定文字数でなる部分文字列とその絶対的
又は相対的な頻度情報との組を複数組格納しており、自
然言語処理装置本体に利用される自然言語処理用データ
ベースを有する自然言語処理用データベース装置が、ユ
ーザから入力された、自然言語処理用データベースの格
納内容に反映させたい文字列及び重要度を受け取るユー
ザ入力手段と、ユーザから入力された文字列を構成す
る、所定文字数でなる1又は複数の部分文字列の項目が
自然言語処理用データベースになければ、重要度に応じ
た頻度情報とを組として、自然言語処理用データベース
に追加させると共に、その部分文字列の項目が自然言語
処理用データベースにあれば、自然言語処理用データベ
ースのその部分文字列の頻度情報を重要度に応じて更新
させるデータベース更新手段とを有するので、ユーザが
自然言語処理用データベースに自分の希望する文字列及
びその頻度情報を追加・修正することができ、自然言語
処理結果に希望の文字列情報を反映することができ、装
置の使い勝手を従来より向上させることができる。
【図面の簡単な説明】
【図1】第1の実施形態の構成を示す機能ブロック図で
ある。
【図2】タグつきコーパスの例を示す説明図である。
【図3】第1の実施形態の特徴動作を示すフローチャー
トである。
【図4】第1の実施形態の形態素入力画面の一例を示す
説明図である。
【図5】拡張文字列の一例を示す説明図である。
【図6】統計データベースの一例を示す説明図である。
【図7】第2の実施形態の構成を示す機能ブロック図で
ある。
【図8】第2の実施形態の特徴動作を示すフローチャー
トである。
【図9】第3の実施形態の構成を示す機能ブロック図で
ある。
【図10】第3の実施形態の特徴動作を示すフローチャ
ートである。
【図11】第3の実施形態の形態素入力画面の一例を示
す説明図である。
【図12】第3の実施形態の検索文例出力画面の一例を
示す説明図である。
【符号の説明】
1…入力部、2…形態素解析部、3…出力部、4…タグ
つきコーパス、5…連鎖確率計算部、6…統計データベ
ース、7…統計データベース重み変更部、8…ユーザ形
態素入力部、9…コーパス追加部、10…文例検索部、
11…文例出力部、12…インデックス。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 自然言語文に現れる所定文字数でなる部
    分文字列とその絶対的又は相対的な頻度情報との組を複
    数組格納しており、自然言語処理装置本体に利用される
    自然言語処理用データベースを有する自然言語処理用デ
    ータベース装置において、 ユーザから入力された、上記自然言語処理用データベー
    スの格納内容に反映させたい文字列及び重要度を受け取
    るユーザ入力手段と、 ユーザから入力された文字列を構成する、上記所定文字
    数でなる1又は複数の部分文字列の項目が上記自然言語
    処理用データベースになければ、上記重要度に応じた頻
    度情報とを組として、上記自然言語処理用データベース
    に追加させると共に、ユーザから入力された文字列を構
    成する、上記所定文字数でなる1又は複数の部分文字列
    の項目が上記自然言語処理用データベースにあれば、上
    記自然言語処理用データベースのその部分文字列の頻度
    情報を上記重要度に応じて更新させるデータベース更新
    手段とを備えたことを特徴とする自然言語処理用データ
    ベース装置。
  2. 【請求項2】 上記データベース更新手段が、 ユーザから入力された文字列を、上記所定文字数でなる
    1又は複数の部分文字列に分離し、分離した部分文字列
    で上記自然言語処理用データベースを検索し、検索の結
    果、分離した部分文字列の項目がなければ、上記重要度
    に応じた頻度情報とを組として、上記自然言語処理用デ
    ータベースに追加させると共に、検索の結果、分離した
    部分文字列の項目があれば、上記自然言語処理用データ
    ベースのその部分文字列の頻度情報を上記重要度に応じ
    て更新させるものであることを特徴とする請求項1に記
    載の自然言語処理用データベース装置。
  3. 【請求項3】 上記データベース更新手段が、 上記自然言語処理用データベースの形成に利用した自然
    言語文や自然言語文字列を格納している文例記憶部と、 上記ユーザ入力手段が受け取った文字列を、少なくとも
    重要度に応じて定まる出現回数だけ、上記文例記憶部に
    追加する文例追加部と、 追加処理後の上記文例記憶部の格納内容に基づいて、上
    記自然言語処理用データベースを再構築させるデータベ
    ース再構築部とでなることを特徴とする請求項1に記載
    の自然言語処理用データベース装置。
  4. 【請求項4】 上記自然言語処理用データベースの形成
    に利用した自然言語文や自然言語文字列を格納している
    文例記憶部を有する請求項1〜3のいずれかに記載の自
    然言語処理用データベース装置において、 ユーザから入力された文例取出用の文字列を受け取る文
    例取出用文字列入力手段と、 文例取出用文字列の全体又はその部分文字列を有する、
    上記文例記憶部に格納されている自然言語文や自然言語
    文字列を取り出して出力する文例検索出力手段とをさら
    に有することを特徴とする自然言語処理用データベース
    装置。
JP9339815A 1997-12-10 1997-12-10 自然言語処理用データベース装置 Pending JPH11175525A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9339815A JPH11175525A (ja) 1997-12-10 1997-12-10 自然言語処理用データベース装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9339815A JPH11175525A (ja) 1997-12-10 1997-12-10 自然言語処理用データベース装置

Publications (1)

Publication Number Publication Date
JPH11175525A true JPH11175525A (ja) 1999-07-02

Family

ID=18331089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9339815A Pending JPH11175525A (ja) 1997-12-10 1997-12-10 自然言語処理用データベース装置

Country Status (1)

Country Link
JP (1) JPH11175525A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
JP2012027729A (ja) * 2010-07-23 2012-02-09 Ryusys Inc 検索装置、検索方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
JP2012027729A (ja) * 2010-07-23 2012-02-09 Ryusys Inc 検索装置、検索方法及びプログラム

Similar Documents

Publication Publication Date Title
US8612206B2 (en) Transliterating semitic languages including diacritics
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP3598211B2 (ja) 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
US5214583A (en) Machine language translation system which produces consistent translated words
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JPH11328166A (ja) 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11175525A (ja) 自然言語処理用データベース装置
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2002288175A (ja) 文書の標準化
JPH08339383A (ja) 文書検索装置及び辞書作成装置
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP3329476B2 (ja) かな漢字変換装置
JP3692711B2 (ja) 機械翻訳装置
JP3244286B2 (ja) 翻訳処理装置
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002183134A (ja) 翻訳装置
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JPH09185629A (ja) 機械翻訳方法
JP3447955B2 (ja) 機械翻訳システム及び機械翻訳方法
JPH0612453A (ja) 未知語抽出登録装置
JP3253311B2 (ja) 言語処理装置および言語処理方法
JP2020087212A (ja) 未知語抽出方法、未知語抽出プログラムおよび情報処理装置
JPH09160929A (ja) 文書処理装置及び方法