JP2000259627A - 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体 - Google Patents

自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体

Info

Publication number
JP2000259627A
JP2000259627A JP11060046A JP6004699A JP2000259627A JP 2000259627 A JP2000259627 A JP 2000259627A JP 11060046 A JP11060046 A JP 11060046A JP 6004699 A JP6004699 A JP 6004699A JP 2000259627 A JP2000259627 A JP 2000259627A
Authority
JP
Japan
Prior art keywords
word
sentence
relationship
value
expressions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11060046A
Other languages
English (en)
Inventor
Kimiaki Shudo
公昭 首藤
Yasuo Koyama
泰男 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI SOFT KK
Original Assignee
AI SOFT KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI SOFT KK filed Critical AI SOFT KK
Priority to JP11060046A priority Critical patent/JP2000259627A/ja
Publication of JP2000259627A publication Critical patent/JP2000259627A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文と文との間の類否を、文法レベルの処理に
よって適切に判定するとともに、この判定に基づいて文
の検索を行なう技術を提供する。 【解決手段】 単語a1から単語amまでm個の単語か
らなる入力文字列Aおよび単語b1から単語bnまでn
個の単語からなる対比文字列Bから、各単語を抽出し、
類義語辞書36の参照等により各単語間の距離t(a
i,bj)を求める。この各単語間の距離t(ai,b
j)の値と単語の脱落コストr,qの値を用いて演算処
理を行ない(ステップS515〜S525)、語順を保
つことを前提として考えられる全ての単語列につき、単
語列同士の距離d(ai,bj)を順次求める(ステッ
プS535)。全ての単語を含む単語列同士の距離d
(am,bn)の値を求めた後、この値を用いた演算処
理により文字列間の類似度s(am,bn)の値を求
め、この値に基づいて文字列間の類似度を判定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語を扱う手
法に関し、詳しくは自然言語文を対象として、二つの文
間の関係を判定する装置およびその判定方法ならびにそ
の判定を行なう機能を記録した記録媒体に関する。
【0002】
【従来の技術】人間がコミュニケーションに用いる言語
は、プログラミング用の人工的な言語に対して自然言語
と呼ばれるが、その形態は、言語を用いて行なわれるコ
ミュニケーションの総体と考えるべきであり、論理的な
少数の原則を組み合わせたものとし把握することはでき
ない。いわゆる文法も、各言語について存在するが、こ
れは自然言語に存在する膨大なルールの一部を、いくつ
かのわかりやすい規則により整理しようとする試みに過
ぎず、自然言語を完全に記述するものでないことは良く
知られている。
【0003】こうした自然言語を取り扱う技術は、日本
では、例えば、仮名漢字変換という形で独自の発達を遂
げている。入力された仮名文字に基づいて、入力者が期
待する仮名漢字混じり文を得るためには、文法的な解析
だけではなく、最近では用例変換や係り受けを用いた変
換などの手法が実現されている。このような手法を用い
ることで、「あつい」という仮名文字を、「夏が暑い」
の場合と「お茶が熱い」の場合との間で区別して変換す
ることを可能としている。
【0004】自然言語に関する他の大きな技術として
は、自然言語文の検索や機械翻訳、更に最近では要約文
の生成などが知られている。自然言語文の検索は、検索
対象文字列内に、検索しようとする語と完全一致の文字
列があるかを検索する手法を基本とし、更に複数の検索
語の検索結果の論理和、論理積による検索や、シソーラ
スを用いた概念類似語の検索などが実用化されている。
一例を挙げると、検索しようとする文(以下、「検索キ
ー文」と呼ぶ)として、「東京のうまい店」という語句
を入力して、インターネットのホームページを検索する
ケースでは、単純に概念表現である「東京」や「うまい
店」を検索キーとして用意し、複合語検索を行なったの
では、「東京」の類義語や上位,下位の概念を示す表現
と考えられる「首都圏」や「都内」などの用語を用いた
説明文を検索することはできない。同様に、「うまい
店」については、「名店」や「グルメ」といった言葉
を、検索キーとして用意することが必要になる。こうし
た自然言語文の検索は、例えば全世界に存在するインタ
ーネットのホームページの検索や、大量に蓄積された論
文などの検索において、極めて有用である。
【0005】かかる検索についての提案としては、「イ
ンデックス文の類似性に基づく映像検索」(山田一郎
他、第5回国立国語研究所国際シンポジウム第1専門部
会発表論文、1997年8月)や、「構文付きコーパス
の作成と類似用例検索システムへの応用」(兵藤安昭
他、「自然言語処理」Vol3,No.2、1997年
8月)などがある。これらの論文では、国立国語研究所
編纂の「分類語彙表」を用い、名詞や動詞を対象とし
て、単語間の類似度を考慮した検索を行なっている。ま
た、「○○が、△△を、□□する」といった構文パター
ンの一致を、前提として各単語間の類似度の判定と、文
全体の類似度の判定とを行なっている。
【0006】他方、機械翻訳では、言語間の類似度によ
りいくつかのアプローチが提案されている。例えば、ド
イツ語とフランス語間のように、文法の根本的な規則が
同一の語族に属する言語間では、文を構成する要素間の
置き換えを基本とする手法でも、ある程度の翻訳は可能
である。これに対して、屈折語に属する英語と膠着語の
一つである日本語との間の翻訳などは、語の置き換えに
よって翻訳することは困難であることが知られている。
そこで、構文解析過程を経て、構文対構文の翻訳が試み
られてきたが、解析結果の多様性を絞り込むことが容易
ではないなどの問題点が多く、十分な成果は得られてい
ない。このような状況から、近年では、翻訳者により翻
訳された大量の翻訳例を収集し、翻訳しようとする文が
与えられたとき、この文に類似した文を検索し、その訳
文を参照して単語の置き換えなどにより翻訳していくと
いった手法が注目されている。この場合には、大量の例
文から、翻訳しようとする文に近い構造の文(類似度の
高い文)を検索することが行なわれている。
【0007】こうした自然言語による文についての検索
や翻訳、更には要約文の作成などの処理を考えると、最
終的には、自然言語による文が表わしている意味につい
ての解析が必要になると考えられる。あるいは、意味に
至る手前の技術として、自然言語により表現された表現
例を大量に用意し、これらを参照する手法を考えること
ができる。前者については、意味規則の設定の難しさ等
もあり、ニューラルネットワークを用いた意味推論やエ
キスパートシステムなどが提案されている。また、後者
については、近年大規模な用例辞書あるいは係り受け辞
書が使用可能な状況になっており、例えば仮名漢字変換
において、「夏が暑い」と「お茶が熱い」とを正しく変
換しようとする提案がなされている。
【0008】
【発明が解決しようとする課題】しかしながら、従来の
自然言語の処理では、検索や翻訳について、未だ十分な
処理ができないという問題があった。自然言語による文
を処理する際、精度の高い検索などを行なうとすると、
最終的には、文が表わしている意味を扱う必要が生じる
と考えられるが、意味を簡易に扱う技術は未だ実用化さ
れておらず、現時点では検索や翻訳に直ちに適用するこ
とができない。かといって、従来の複合語検索程度の技
術では、大量の自然言語データを、精度良く扱うことが
できない。
【0009】単語間の類似度を考慮した検索手法も提案
されていることは、上述した通りだが、名詞や動詞とい
った概念表現しか検討しておらず、しかも構文が一致し
ないと類似の意味を示す文であっても検索の対象から漏
れてしまう可能性が高い。「東京のうまい店」という語
句を例にとると、「首都圏の名店」や「都内のグルメガ
イド」は検索することができるとしても、「東京23区
における名店」や「東京にだってうまい店」は、検索す
ることができない可能性が高い。他方、「東京以外のう
まい店」は検索してしまう可能性も高い。
【0010】本発明は、これらの問題点を解決し、意味
の認識という技術には深くは立ち入らず、主として文法
レベルの処理により、自然言語文同士の関係を適切に判
定したり、その判定に基づいて自然言語文の検索を行な
う技術を提案することを目的とする。
【0011】
【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決するために、次の一連の
発明がなされたが、これらの技術は、つまるところ、自
然言語文判定装置を基礎に置いている。即ち、本発明の
自然言語文関係判定装置は、一定のまとまりを持った内
容を表わす所定言語の文であり、判定対象となる第1の
文と、該第1の文との関係が判定される第2の文とを入
力し、前記言語による文を構成する構成単位であって、
まとまった意味を持つものとして類別された構成単位を
用いて、前記第1の文と前記第2の文との関係を判定す
る自然言語文関係判定装置であって、前記類別された構
成単位のうち、意味概念を表わす構成単位として類別さ
れた概念表現と、文構造の枠組を支える表現に対応した
構成単位として抽出された枠組み表現とについて、少な
くとも該概念表現同士および枠組み表現同士の関係を表
わす情報を記憶した関係情報記憶手段と、前記第1の文
および第2の文から、前記構成単位を抽出する構成単位
抽出手段と、前記関係情報記憶手段に記憶された前記情
報を参照して、該抽出された第1および第2の文を構成
する前記構成単位のうち前記概念表現同士および前記枠
組み表現同士の関係を、語順の対応関係を考慮しつつ判
断することにより、前記第1の文と前記第2の文との関
係を判定する関係判定手段とを備えることを要旨として
いる。
【0012】ここで、「文」とは、単語のまとまりによ
って何らかの意味内容を表わす言語表現をいい、主語,
述語を備える完結した表現のほか、言葉の一区切りであ
る句を単位とした表現や、一語文の組み合わせからなる
表現等を含む。例えば、「私は東京のうまい店を知りた
い。」という完結した文、「東京のうまい店」や「うま
い店」のような句,「先生、こんにちは」のような一語
文の組み合わせも、「文」に含まれる。
【0013】この装置によれば、第1の文と第2の文と
から、これらの文に含まれる概念表現と枠組み表現とを
抽出し、少なくとも概念表現同士および枠組み表現同士
の関係を表わす情報を参照して、両文に含まれる表現の
語順の対応関係を考慮して、第1の文と第2の文との関
係を判定する。
【0014】ここで、「第1の文と第2の文との関係」
とは、第1の文と第2の文との間に認められる関わり合
いを意味し、例えば、文の意味が同じである,似てい
る,異なる,反対である等の文の意味に関する類否や異
同のほか、文の用法に関する類否や異同などが含まれ
る。この文の用法としては、例えば、文語文と口語文,
常体文と敬体文という文法的に区別可能なもののほか、
標準語を用いた文と方言を用いた文,男性が作成した文
と女性が作成した文,20代の人が作成した文と50代
の人が作成した文という、文法規則のみによっては区別
できないものを含む。このような関わり合いとしての各
要素を複数組み合わせたものを、「第1の文と第2の文
との関係」としても差し支えない。また、この第1の文
と第2の文との関係については、予め特定の関係(例え
ば類似関係)を指定しておくものとしても良いし、判定
に先立って、判定しようとする関係を、使用者が与える
ものとしても良い。
【0015】概念表現とは、所定の言語による文を構成
する構成単位であって、まとまった意味を持つものとし
て類別された構成単位のうち、意味概念を表わす表現で
あり、名詞,動詞,形容詞などの概念語や、この概念語
同士の結合などが含まれる。また、枠組み表現とは、所
定言語による文を構成する構成単位であって、まとまっ
た意味を持つものとして類別された構成単位のうち、文
構造の枠組を支える表現に対応した構成単位として抽出
されたものである。発明者は、かかる枠組み表現を、膠
着語の一つである日本語について広く採取し、「日本語
の文構造のわく組を与える表現−機能カテゴリーと接続
ルール−」(福岡大学総合研究所報第63号、昭和58
年3月)および「日本語の文構造のわく組を与える表現
−構造的意味情報の整理−」(福岡大学総合研究所報第
63号、昭和58年3月)として公表している。枠組み
表現には、これらの論文で類別された関係表現(1の文
中において格関係,因果関係などの概念間関係を表わす
表現、日本語における格助詞、接続助詞、およびこれら
に相当する表現)や広義の様相情報(話し手や書き手の
判断や態度、時制、相、否定、態など)を与える日本語
における助述表現などが含まれる。
【0016】「枠組み表現同士の関係」とは、枠組み表
現と枠組み表現との間に認められる繋がりを意味し、こ
の関係の種類には、例えば、枠組み表現の意味が同じで
ある,似ている,異なる,反対である等の枠組み表現の
意味に関する類否や異同のほか、枠組み表現の属性に関
する異同や類否などが含まれる。この枠組み表現の属性
としては、例えば、枠組み表現の時制や態,推定の程
度,強調や限定の程度,肯定と否定の別,文語と口語の
別,常体と敬体の別などの文法的に区別可能なもののほ
か、標準語と方言の別、男言葉と女言葉の別,枠組み表
現を用いる年齢層のような文法規則のみによっては区別
できないものを考えることができる。勿論、上記した関
係の種類を複数組み合わせたものを、「枠組み表現同士
の関係」としてもよい。
【0017】かかる自然言語文関係判定装置において、
第1の文と前記第2の文との関係を判定する際、該構成
単位の語順の対応関係として、抽出した構成単位の出現
順の相違を許容するものとすることも望ましい。自然言
語文同士の判定では、各語の語順が同一でないことも多
いからである。なお、前記語順の対応関係において出現
順の相違を許容する際、構成単位間の2組以上の対応関
係の交差を禁止しておくことも、判定処理を簡素化する
上で望ましい。
【0018】また、こうした自然言語文関係判定装置に
おいて、第1,第2の文を構成する前記構成単位のう
ち、前記概念表現同士の関係と、前記枠組み表現同士の
関係とを、前記関係情報記憶手段に記憶された情報を参
照してそれぞれ判定し、概念表現同士についての判定結
果と枠組み表現同士についての判定結果を、前記語順の
対応関係をとりつつ利用することにより、前記第1およ
び第2の文同士の関係を判定するものとしても良い。か
かる構成によれば、概念表現同士の関係と枠組み表現同
士の関係とを、個別に判断できるので、処理を簡素化す
ることができる。
【0019】構成単位同士の関係を判定する際、第1ま
たは第2のいずれかの文から抽出された各構成単位に関
し、対応する構成単位が他方の文に必ず存在するとは限
らない。また、一方の文の一つの構成単位に対して、一
定の関係がある構成単位が他方の文に複数存在する場合
も考えられる。こうした場合に、対応する構成単位が脱
落していると判断した方が、全体として両文の関係を正
しく判定できることが考えられる。この判定は、対応す
る構成単位が存在しない場合の値を、脱落値として予め
設定しておき、語順の対応関係をとりながら、前記第
1,第2の文から抽出された構成単位同士のうち、所定
の関係にあるもの同士に、該関係に基づく値を、関係値
として付与し、該付与された関係値および前記設定され
た脱落値を評価することにより、行なうことができる。
この評価を行なうことで、第1および第2の文同士の関
係値を求め、この関係値の大小により、判定すればよ
い。
【0020】対応する構成単位が存在しない場合の脱落
値は、一律の値に設定しても良いが、関係を判定する文
の長さに応じて可変するものとしても良い。構成単位の
多い文は冗長度が高いと考えれば、脱落の影響を小さく
評価するよう設定することが望ましい。また、脱落値
を、構成単位の重要度に応じた値に設定する手段とする
ことも、文と文との関係をより実質的に判定できる点で
望ましい。さらに、他方の文に存在しない構成単位が、
概念表現であるか枠組み表現であるかによって、異なる
脱落値を設定するものとしてもよい。判定しようとする
関係が、例えば、文間の類似度の場合、概念表現の脱落
は類似度の判定に及ぼす影響が大きいと考えられるか
ら、概念表現が脱落している場合には、枠組み表現が脱
落している場合より大きく評価されるものとしておくこ
とが考えられる。また、意味内容ではなく、表現の構造
についての関係を判定するような場合には、枠組み表現
の脱落値の方を大きくしておくと言ったことも好適であ
る。
【0021】文を構成する構成単位間の関係を判定して
文間の関係を判定する場合には、通常概念表現同士、枠
組み表現同士の関係を検討すれば良く、概念表現と枠組
み表現との間の関係を予め規定しておく必要性は低いと
考えられる。しかし、意味概念を単独で表わす概念語同
士の関係に加えて、概念性接辞と概念語との関係を情報
として記憶しておくことは望ましい。例えば、概念性接
辞の「新」と概念語の「新しい」とは、類似関係がある
ものとして評価した方が望ましい。概念性接辞の「的」
と概念語の「スタイル」なども、同様である。
【0022】判定する文間の関係に種々のものを想定で
きることは既に述べたが、この関係が類似関係である場
合には、概念表現同士および枠組み表現同士の類似の程
度を表わす情報を記憶しておくことができる。この場合
には、記憶された概念表現同士および枠組み表現同士の
類似の程度を参照して、前記第1および第2の文同士の
類否を判定することになる。文同士の関係として類否を
判定する場合には、自然言語文の検索や翻訳のための例
文検索、あるいは文の変形、圧縮(要約)などの処理に
おいて、最も適用範囲が広い。
【0023】こうした類否の判定は、概念表現同士およ
び枠組み表現同士の対と、当該対にされた表現間の意味
上の類似度を数値によって表わした類似度数値データと
を、類否の程度を表わす情報として、記憶しておき、こ
の類似度数値データの大小を用いて、前記類否の判定を
行なうことが簡便である。
【0024】こうした類似度数値データとしては、値0
ないし1の範囲で、類似の程度が高いほど値1に近づく
値を用いることができ、この類似度数値データの値か
ら、概念表現同士および枠組み表現同士の距離を演算
し、この距離の総和が最も短くなる組み合わせを特定す
ることで、第1および第2の文同士の類似の程度を求め
るものとしてもよい。距離の総和を用いて類似の程度を
判定する手法は、二つの文間の類似を議論する上で、具
体的なイメージを提供し、理解を容易にする。また、従
来から知られたパターンマッチングなどの手法の適用を
容易にする。
【0025】かかる文間の類否を判定する自然言語文関
係判定装置を用いて、複数の検索対象文から、検索のた
めのキーとして与えられた検索キー文に類似した文を検
索する自然言語文検索装置を構成することができる。即
ち、この自然言語文検索装置は、上述した文間の類否の
判定を行なう自然言語文関係判定装置と、前記検索キー
文を、第1の文として特定する第1文特定手段と、前記
複数の検索対象文から、順次、一の文を選択して、第2
の文として特定する第2文特定手段と、前記特定された
第1の文および前記第2の文を、前記自然言語文関係判
定装置に付与して、前記類否判定を行なわせる判定実行
手段と、前記自然言語文関係判定装置の判定結果を、前
記付与された第2の文に応じて保存し、前記第1の文と
して与えられた検索キー文に最も類似する第2の文を、
前記複数の検索対象文中から選択する選択手段とを備え
たことを要旨としている。
【0026】かかる自然言語文検索装置は、複数の検索
対象文から一の文を順次選択し、この文と検索キー文と
の類似を自然言語文判定装置により判定し、この判定の
結果を保存し、複数の検索対象文の各文についての類否
の判定結果から、検索キー文に最も類似する文を選択す
ることができる。かかる構成をとれば、二つの文間の類
似を、語順の対応関係を考慮しつつ、かつ概念表現同士
および枠組み表現同士の類似に基づいて、判定すること
ができ、検索キー文に最も類似する文を、容易に検索す
ることができる。
【0027】自然言語文関係判定装置の文と文との関係
の判定するための構成を、語句と語句との関係を判定す
る語句関係判定装置に応用することも可能である。即
ち、本発明の語句関係判定装置は、意味概念を表わす表
現である概念表現につき、少なくとも該概念表現同士の
関係を表わす情報を記憶した辞書と、第1の語句と第2
の語句とを入力する入力手段と、該入力された第1の語
句および第2の語句から該語句を構成する単語を抽出す
る抽出手段と、該抽出された第1の語句を構成する単語
と該第2の語句を構成する単語との関係を、前記辞書を
参照して判断する判断手段と、該判断手段による判断結
果に基づいて前記第1の語句と前記第2の語句との関係
を判定する判定手段とを備えた装置であって、前記第1
の語句または第2の語句のうちの少なくとも一方には、
2以上の単語の結合により1のまとまった意味概念を表
わす表現である複合表現を含み、該複合表現と、該複合
表現に対応する表現との関係を評価する評価手段を備
え、前記判定手段は、該評価手段による評価結果を考慮
して、前記第1の語句と前記第2の語句との関係を判定
する手段であることを要旨としている。
【0028】このような構成を採れば、複合表現と複合
表現に対応する表現との関係を正確に判定することがで
きる。
【0029】更に、上記の各装置に対応した方法の発明
として、自然言語文関係判定方法自然言語文検索方
法などを請求項17ないし22に記載した通り、考える
ことができる。
【0030】同様に、上記の各方法に対応した記録媒体
の発明として、自然言語文の関係を判定するプログラ
ムを記録した記録媒体自然言語文を検索するプログラ
ムを記録した記録媒体などを請求項23ないし28に記
載した通り、考えることができる。
【0031】
【発明の他の態様】本願発明は、専用機として構成して
も良いし、汎用性の高いパーソナルコンピュータなどで
実現しても良い。また、記録媒体に記憶された各機能を
実現するプログラムは、ネットワークに接続されたサー
バなどに保存・記憶しておき、必要に応じて実行用のマ
シンにダウンロードして利用することも可能である。こ
うしたサーバの形態あるいはサーバからプログラムを公
衆送信する場合も、本願の媒体の一形態とみなすことが
できる。
【0032】
【発明の実施の形態】以上説明した本発明の構成および
作用を一層明らかにするために、以下本発明の実施の形
態を実施例に基づき説明する。図1は、本発明の自然言
語文関係判定装置の一例である文間類似度判定装置1A
のハードウェアの構成を示す。この第1実施例としての
文間類似度判定装置1Aは、類似度検索エンジン10A
と外部装置90とを備え、類似度検索エンジン10A
は、当該エンジン10Aに入力された、一定のまとまり
を持った内容を表わす第1の文と第2の文とが類似する
程度(以下、文字列間類似度という)を判定する。以
下、第1の文を文字で表わしたものを「入力文字列」
と、第2の文を文字で表わしたものを「対比文字列」と
読み替えて説明する。文字列間類似度の判定処理は、類
似度検索エンジン10A内部のコンピュータにより実行
される。
【0033】コンピュータは、各種演算処理を実行する
ためのCPU22を中心に、バス35により相互に接続
された次の各部を備えている。ROM24は、CPU2
2で各種演算処理を実行するのに必要なプログラムや参
照データなどを予め格納しているメモリであり、後述す
る文字列間類似度の判定の実行に関するプログラムを格
納する。RAM26は、CPU22で各種演算処理を実
行するのに必要な各種データを一時的に格納するための
メモリである。
【0034】ハードディスクコントローラ(HDC)3
0は、外部記憶装置としてのハードディスク10aへの
信号出力を制御する。ハードディスク10aには、必要
に応じてRAM26にロードされて実行される各種プロ
グラムや、デバイスドライバの形式やモジュールの形式
で提供されるプログラム、あるいは国語辞書や後述する
類義語辞書36等の各種辞書などが記憶されている。勿
論、ROM24やCD−ROM等(図示せず)に、上記
したと同様な各種プログラムや必要な参照データなどを
記憶しておき、これら各種プログラムや参照データをロ
ードすることにより、コンピュータに実行させることも
可能である。
【0035】入力インタフェース20は、外部装置90
からのデータや文字列の入力を司り、出力インタフェー
ス34は、外部装置90およびプリンタ92へのデータ
や文字列の出力を制御する。即ち、類似度検索エンジン
10Aは、図示しないケーブルを用いて外部装置90と
接続されており、外部装置90との間でデータや文字の
情報の入出力を行なう。勿論、入力インタフェース20
を介してキーボードや手書き文字認識ボード等を接続
し、所望の文字列を入力可能な構成としても差し支えな
い。
【0036】なお、入力インタフェース20は、文字や
データをコード情報の形で入力するが、これ以外の形態
で入力可能な構成としてもよい。例えば、音声情報や文
字の形状に関する情報を入力するためのインタフェース
を設け、入力された情報を、CPU22が判読可能なデ
ジタル情報に変換し、これを音声認識や文字認識により
文字列に変換してから入力する構成などを考えることが
できる。
【0037】ディスプレイコントローラ(DC)28
は、表示装置としての液晶ディスプレイ10bへの信号
出力を制御する。また、シリアル入出力インタフェース
(SIO)32は、モデム94を介して公衆電話回線P
TLに接続されており、この公衆電話回線PTLを介し
て、コンピュータ10cを外部のネットワークNWに接
続することができる。さらに、特定のサーバーSVにア
クセスして、必要なプログラムやデータをハードディス
ク10aにダウンロードすることも可能である。
【0038】本実施例では、外部装置90を、CPUや
ROM,RAM等からなるコンピュータ90cやハード
ディスク90a,ディスプレイ90b,キーボード90
d等を備えるデスクトップ型のパソコンとしている。従
って、外部装置90は、各種のアプリケーションプログ
ラムをインストールすることにより、種々の機能を実行
可能な装置となる。例えば、ワープロ機能を実現する文
書作成装置、電話回線を通じて文字情報を授受するデー
タ通信装置をはじめ、1の言語で作成された文章を他の
言語に翻訳する翻訳装置、入力された文字列と同一ない
し近似する文字列を有する情報を検索する情報検索装
置、作成した文書中からの特定の文字列の検索や保存さ
れているファイルからの所望のファイルの検索を実行す
る文字列検索装置、文章の要約文をコンピュータにより
作成する要約作成装置などを考えることができる。勿
論、パソコン以外の装置であっても、文字列を含むデー
タの情報を出力する機能を備えた装置であれば、外部装
置90とすることができる。なお、本実施例では、外部
装置90も、類似度検索エンジン10Aと同様に、図示
しないモデムを介して公衆電話回線PTLに接続されて
いる。
【0039】次に、このようなハードウェアを用いて実
行される文字列間類否判定処理の内容について説明す
る。図2は、文字列間類否判定処理が実行される際の、
類似度検索エンジン10Aと外部装置90との間の情報
の流れを示す説明図である。類似度検索エンジン10A
は、外部装置90から送出された文字列を入力し、この
入力文字列との類否判断の対象となる対比文字列を参照
する。本実施例では、対比文字列の情報を、外部装置9
0のハードディスク90a内に格納しているため、対比
文字列の参照先をハードディスク90aとしている。勿
論、対比文字列が読み取り可能に格納されている場所で
あれば、類似度検索エンジン10Aのハードディスク1
0aやサーバーSV等、どこを参照しても差し支えな
い。
【0040】類似度検索エンジン10Aは、ハードディ
スク10a内の類義語辞書36を参照して、入力文字列
と対比文字列との類似度を判定する。この類義語辞書3
6の内容については後述する。類似度検索エンジン10
Aは、入力文字列と対比文字列との類似度の判定結果を
外部装置90へ出力する。従って、外部装置90は、自
己が保持する2つの文字列につき、当該文字列間の類否
判定の結果を利用可能となる。
【0041】次に、文字列間類否判定処理の処理手順を
図3の文字列間類否判定ルーチンを参照しつつ説明す
る。文字列間類否判定ルーチンは、文字列が入力される
旨の信号を外部装置90から受領したときに起動する。
図3に示すように、本ルーチンが起動されると、まず、
外部装置90から送られてきた文字列の情報を入力し
(ステップS100)、文字列間の類似度を比較する対
象である対比文字列を参照する処理を行なう(ステップ
S120)。
【0042】次に、入力文字列と対比文字列のそれぞれ
につき、各文字列を構成する構成単位を文法情報ととも
に抽出する処理を行なう(ステップS130)。本実施
例では、まとまった意味を持つ表現、例えば、意味概念
を表わす概念表現や文構造の枠組を支える枠組み表現を
1の構成単位として抽出する。概念表現としての構成単
位には、概念語のほか、複数の単語の組み合わせにより
意味概念を表わすものも含む。枠組み表現としての構成
単位には、関係表現や助述表現等の機能的表現がある。
【0043】この概念表現や機能的表現の抽出処理は、
この表現に関する文法情報を格納した国語辞書を参照す
ることにより行なわれる。この国語辞書には、文法情報
として、各表現が概念語,接辞,関係表現や助述表現の
うちのいずれに該当するかが記憶されている。これらの
文法情報は、その読みをインデックスとして参照するこ
とができる。
【0044】ここで、概念語と機能的表現につき、図4
を参照しつつ説明する。概念語とは、それ自体で何らか
の意味概念を表わす語をいい、主として自立語がこれに
該当する。例えば、名詞の「バス」、動詞の「来る」、
形容詞の「美しい」等は、概念語の範疇に属する。一
方、機能的表現とは、それ自体では意味概念を表わさな
いが、概念語に付随して概念語が表わす概念の意味的役
割を限定する働きをする表現をいい、助詞や助動詞のよ
うな附属語の他、接頭語や接尾語のような接辞、および
これら以外の付随的表現、例えば、関係表現や助述表現
を表わす語等がこれに該当する。例えば、主体を表わす
助詞の「が」や場所や手段を表わす助詞の「で」、受け
身を表わす助動詞の「れる」や推量を表わす助動詞の
「らしい」、接頭語の「新」、接尾語の「難い(がた
い)」等は、機能的表現の範疇に属する。
【0045】関係表現とは、1の文中において、概念語
と概念語との間に用いられることにより、格関係,因果
関係などの概念語間の関係を表わす表現をいい、前述し
た助詞の「で」の他、「によって」のような原因や手段
を表わす連語や「において」のような場所を表わす連語
等がこれに該当する。助述表現とは、主として述語であ
る概念語の後に用いられて、述語がそれ自体で持ってい
る意味内容を変化させる表現をいう。例えば、「かもし
れない」や「なければならない」のような連語、推量を
表わす助動詞「べし」の連体形と断定を表わす助動詞
「だ」の終止形とが結合した「べきだ」のような語等が
これに該当する。
【0046】概念語と機能的表現との具体的関係を図4
に示す。図4(A)に示すように、文字列が概念語だけ
で構成されている場合には、それぞれの概念語の持つ意
味内容が別個独立に表象されるため、文字列全体が表わ
す意味内容は多義的となる。例えば、「バス」と「来
る」という2つの概念語で構成された「バス来る」とい
う文字列は、「バスが来る」や「バスも来る」,「バス
で来る」,「バスによって来る」等のいずれの意味内容
を示すのか明らかでない。
【0047】一方、図4(B)に示すように、2つの概
念語の間に機能的表現の1つである関係表現が存在する
場合には、関係表現は、直前の概念語の持つ意味上の働
きを特定する働きをする。例えば、「バス」という概念
語は、その後に「が」という機能的表現が置かれた場合
には「主体としてのバス」の意味を表わすこととなり、
「によって」という関係表現が置かれた場合には「交通
手段としてのバス」の意味を、「によって」という関係
表現が置かれた場合には「交通手段としてのバス」若し
くは「場所としてのバス」の意味を表わすこととなる。
即ち、概念語は、関係表現のような機能的表現と結びつ
いて初めて文の一構造となるのである。
【0048】このように機能的表現によって先の概念語
の意味が特定されることにより、先の概念語から後の概
念語へ概念の有機的結合が生じ、文全体としてまとまっ
た1つの意味内容を表わすことになる。例えば、「バス
が来る」という文は、文全体として「バスが動いて自分
の存在する場所にやって来る」ということを意味し、
「バスによって来る」という文は、文全体として「ある
人が、数ある交通手段のうちバスという交通手段を用い
て自分の存在する場所にやって来る」ことを意味する。
また、それ自体で「交通手段」および「場所」という2
つの意味内容を有していた「バスで」という文字列は、
その後に「来る」という概念語が用いられることによっ
て、「交通手段としてのバス」の意味に限定され、この
結果、「バスで来る」という文は、「バスによって来
る」という文と極めて近似した意味を表わすものとな
る。
【0049】また、図4(C)に示すように、述語であ
る概念語の後に機能的表現の1つである助述表現が存在
する場合には、助述表現は、直前の述語である概念語の
持つ意味内容を変化させる働きをする。例えば、「来
る」という概念語は、その後に「かもしれない」という
助述表現が置かれた場合には、「来る」という行為に関
する推定の意味を表わすこととなり、「べきだ」という
助述表現が置かれた場合には、「来る」という行為が義
務である旨の意味を表わすこととなる。
【0050】このように、2つの文が同じ概念語を用い
ていても、用いられている機能的表現が異なることによ
り、全く意味の違う文となることがある一方で、時には
近似した意味を持つ文となる場合もある。即ち、機能的
表現は、文の持つ意味を大きく左右する役割を果たして
いるのである。
【0051】図3に説明を戻す。ステップS130にお
いて入力文字列と対比文字列から各文字列を構成する構
成単位を概念語,関係表現,助述表現,接辞に分けて抽
出した後、これらの抽出された各構成単位同士の類似度
(以下、語間類似度という)を判定する単語間類似度判
定処理を行なう(ステップS140)。なお、以下の説
明では、文を構成する各構成単位を、説明の便宜上、広
義の「単語」と呼ぶものとする。次に、この判定結果に
基づいて、入力文字列を構成する各単語列と対比文字列
を構成する単語列との間の類似度(以下、単語列間類似
度という)を判定する単語列間類似度判定処理を行なう
(ステップS150)。これらの処理の詳細については
後述する。次に、判定された単語列間類似度を示す数値
を判定結果として外部装置90に出力する処理を行なっ
て(ステップS160)、本ルーチンを終了する。
【0052】次に、図3のステップS140の単語間類
似度判定処理の詳細につき、図5から図8を参照しつつ
説明する。図5および図6は、単語間類似度判定ルーチ
ンを示すフローチャートである。本ルーチンは、入力文
字列および対比文字列を構成する単語が、各文字列から
文法情報とともに抽出されたときに起動する。以後、説
明の便宜を図るため、入力文字列Aからは、「単語a1
/単語a2/単語a3/…/単語ai/…/単語am
(記号/は単語の区切りを、英字iは文字列A中におけ
る単語の序数を、英字jは文字列B中における単語の序
数を、それぞれ示す。以下同じ)」という総数m個の単
語を、対比文字列Bからは、「単語b1/単語b2/単
語b3/…/単語bj/…/単語bn」という総数n個
の単語を、それぞれ抽出したものとして説明する。
【0053】本ルーチンが起動されると、まず、入力文
字列Aについての単語の序数iを値1にセットするとと
もに(ステップS200)、対比文字列Bについての単
語の序数jを値1にセットする処理を行なう(ステップ
S210)。これによって、語間類似度の判定対象は、
単語a1と単語b1に特定される。
【0054】次に、単語a1と単語b1が、ともに接辞
であるか否かを判断し(ステップS220)、ともに接
辞でない場合には、ともに概念語であるか否かを判断す
る処理を行なう(ステップS225)。ともに概念語で
もない場合には、ともに関係表現であるか否かを判断し
(ステップS230)、ともに関係表現でもない場合に
は、ともに助述表現であるか否かを判断する処理を行な
う(ステップS235)。単語a1と単語b1が、とも
に接辞,ともに概念語,ともに関係表現,ともに助述表
現のいずれかである場合には、単語a1について類義語
辞書36を参照し(ステップS240)、類義語として
単語b1が登録されているか否かを判断する処理を行な
う(ステップS245)。
【0055】類義語辞書36の構造について図7および
図8を参照しつつ説明する。本実施例において、類義語
辞書36は、図7に示す概念語類義語辞書36aと図8
に示す機能的表現類義語辞書36bを備え、概念語類義
語辞書36aは、概念語とこの概念語に類似する意味を
持つ語(以下、概念類似語という)の情報を、機能的表
現類義語辞書36bは、機能的表現とこの機能的表現に
類似する意味を持つ語(以下、機能類似語という)の情
報を格納する。図7および図8に示すように、概念語類
義語辞書36aおよび機能的表現類義語辞書36bは、
検索用の見出しであるインデックスに対応して、各概念
語や各機能的表現に関する文字情報および品詞情報を五
十音順に格納するとともに、これらの各概念語や各機能
的表現に対応する概念類似語や機能類似語の文字情報,
品詞情報を格納する。なお、類義語辞書36は、概念語
と機能的表現に関する情報をまとめた1の辞書としても
よく、また、概念語,接辞,関係表現,機能表現という
格納される単語の種類ごとに別々の辞書を設ける構成と
しても差し支えない。
【0056】併せて、概念語類義語辞書36aおよび機
能的表現類義語辞書36bは、概念語と各概念類似語お
よび機能的表現と各機能類似語とが意味上類似する度合
いを示す語間類似度の数値データを格納する。本実施例
では、語間類似度を「0≦G≦1」の範囲の数値を用い
て表わし、数値が1に近づくほど意味の類似する程度が
高いものと定義している。例えば、前述した「バス」と
いう概念語については、概念類似語として「車」という
語の情報が、「0.3」という比較的低い語間類似度の
値とともに登録されており、「私」という概念語につい
ては、概念類似語として「僕」という語の情報が、
「0.9」という高い語間類似度の値とともに登録され
ている。
【0057】なお、概念語類義語辞書36aには、概念
語以外の語も概念類似語として登録されている。例え
ば、文中において概念語と同様の意味や用法で用いられ
る接辞(以下、概念語性接辞という)も登録されてい
る。この概念語性接辞には、例えば、「新」や「大」,
「実」という接頭語があり、これらは、「新しい」や
「大きな」,「実際の」という形容詞と同様に、直後の
名詞を修飾する形で用いられる(例えば、「新企画」と
「新しい企画」,「大発見」と「大きな発見」,「実
話」と「実際の話」)。このため、概念語類義語辞書3
6aには、「新しい」や「大きな」,「実際の」という
形容詞としての概念語に対応する概念類似語として、
「新」や「大」,「実」という接頭語が登録されてい
る。このことは、機能的表現類義語辞書36bについて
も同様であり、「新」や「大」,「実」という接辞とし
ての機能的表現に対応する機能類似語として、「新し
い」や「大きな」,「実際の」という概念語が登録され
ている。
【0058】このことに関連して、ステップS220で
は、単語aiと単語bjの双方が接辞でない場合であっ
ても、一方が概念語性接辞で一方が概念語である場合に
は、ともに接辞であるとみなして、類義語辞書36を参
照することとしている。勿論、ステップS225におい
て、単語aiと単語bjの双方が概念語ではないが、一
方が概念語で一方が概念語性接辞である場合に、ともに
概念語とみなして、類義語辞書36を参照することとし
てもよい。従って、概念語性接辞と概念語との間におい
ても、妥当性の高い語間類似度を求めることが可能とな
る。
【0059】図5に説明を戻す。ステップS245にお
いて、単語a1についての類義語として単語b1が登録
されていると判断した場合には、類義語辞書36に記憶
された語間類似度の値を単語a1と単語b1との間の語
間類似度として記憶する処理を行なう(ステップS25
0)。本実施例では、単語aiと単語bjとの語間類似
度をt(ai,bj)として表わす。従って、単語a1
と単語b1との間の語間類似度は、t(a1,b1)と
表わされる。
【0060】ステップS245において、単語a1につ
いての類義語として単語b1が登録されていないと判断
した場合、またはステップS235において、単語a1
と単語b1が、ともに概念語(一方が概念語性接辞であ
る場合を除く),ともに接辞,ともに関係表現,ともに
助述表現のいずれでもない場合には、語間類似度の値と
して0(ゼロ)を記憶する処理を行なう(ステップS2
55)。この語間類似度の値は、RAM26上の単語間
情報記録テーブルGTに記録される。
【0061】次に、ステップS250およびS255で
設定された語間類似度の値に基づいて、単語と単語との
間の距離(以下、語間距離という)を求める処理を行な
う(ステップS260)。本実施例では、単語aiと単
語bjとの語間距離を、単語aiと単語bjとの語間類
似度の値の補数の2倍値、即ち、2{1−t(ai,b
j)}として表わす。従って、単語a1と単語b1との
間の語間距離は、2{1−t(a1,b1)}と表わさ
れる。この語間距離の値は、RAM26上の単語間情報
記録テーブルGTに記録される。
【0062】この結果、語間距離は「0≦G≦2」とい
う数値範囲となり、この数値が0に近づくほど単語間の
距離が近いものとなる。例えば、前述した語間類似度の
値が「0.3」である「バス」という概念語と「車」と
いう語の場合、語間距離は「1.4」という比較的遠い
距離を示す値となり、語間類似度の値が「0.9」であ
る「私」という概念語と「僕」という語の場合、語間距
離は「0.2」という近い距離を示す値となる。
【0063】次に、対比文字列Bについての単語の序数
jに値1を加え(ステップS265)、序数jと対比文
字列Bの単語総数nとを比較し、序数jが総数nを超え
たと判断するまでステップS220に戻って上記の処理
を繰り返す(ステップS270)。序数jが総数nを超
えたと判断した場合には、入力文字列A中の単語a1に
ついては対比文字列Bの各単語との類似度の判定が完了
したものとして、入力文字列Aについての単語の序数i
に値1を加え(ステップS275)、序数iと入力文字
列Aの単語総数mとを比較する(ステップS280)。
序数jが総数nを超えていない場合には、ステップS2
10に戻って上記の処理を繰り返す。序数jが総数nを
超えている場合には、入力文字列A中の全ての単語と対
比文字列Bの全ての単語との間における類似度の判定が
完了したものとして、本ルーチンを終了する。
【0064】この単語間類似度判定処理が2つの文字列
について実際に行なわれた場合について説明する。図9
は、「新日米防衛協定締結のための指針については」と
いう入力文字列Aと「新しい日米の協力ガイドラインに
関して」という対比文字列Bについて、単語間類似度判
定処理が行なわれた後の単語間情報記録テーブルGTの
様子を示す。
【0065】入力文字列Aは、図3のステップS130
の単語抽出処理により、接頭辞である「新」,名詞であ
る「日米」,サ変名詞である「防衛」,名詞である「協
定」,サ変名詞である「締結」,関係表現である「のた
めの」,名詞である「指針」,関係表現である「につい
て」および関係表現である「は」という総数9個の単語
に区分される。以下、これらの各単語をそれぞれ単語a
1,単語a2,単語a3,単語a4,単語a5,単語a
6,単語a7,単語a8,単語a9として説明する。一
方、対比文字列Bは、形容詞である「新しい」,名詞で
ある「日米」,関係表現である「の」,サ変名詞である
「協力」,名詞である「ガイドライン」および関係表現
である「に関して」という総数6個の単語に区分され
る。以下、これらの各単語をそれぞれ単語b1,単語b
2,単語b3,単語b4,単語b5,単語b6として説
明する。
【0066】単語間情報記録テーブルGTには、これら
の9個の各単語と6個の各単語の全ての組み合わせにつ
いての語間類似度と語間距離が記録されている。例え
ば、入力文字列A中の「新しい」という単語a1と対比
文字列B中の「新」という単語b1との間のデータを記
録する欄(図9の表においてiの値が1でjの値が1の
場合)には、語間類似度の値として、概念語類義語辞書
36aへの登録値である「1.0」という値が、語間距
離の値として、「2×(1−1.0)」という計算式の
演算値である「0.0」という値が、それぞれ記録され
ている。
【0067】一方、入力文字列A中の「新しい」という
単語a1と対比文字列B中の「日米」という単語b2と
の間のデータを記録する欄(図9の表においてiの値が
1でjの値が2の場合)には、単語a1と単語b2とは
それぞれ接辞と名詞であり、類義語辞書36が参照され
ないので、語間類似度の値として「0.0」という最低
値が記録されている。この結果、語間距離の値として、
「2×(1−0.0)」という計算式の演算値である
「2.0」という最高値が、それぞれ記録されている。
【0068】次に、図3のステップS150の単語列間
類似度判定処理の詳細につき、図10から図26を参照
しつつ説明する。図10は、単語列間類似度判定ルーチ
ンAを示すフローチャートである。本ルーチンは、ステ
ップS140の単語間類似度判定処理において判定され
た文字列を構成する各単語の語間距離の値から単語列同
士の類似度の値を求めるルーチンであり、単語間類似度
判定処理の終了とともに起動する。
【0069】本ルーチンが起動されると、まず、一方の
単語列の単語と類似する単語が他方の文字列に存在しな
い場合における距離の加算値を設定する脱落コスト設定
処理を行ない(ステップS300)、次に、単語列間の
距離を演算する単語列間距離演算処理を行なう(ステッ
プS320)。最後に、単語列間の距離の値を用いて文
字列間の類似度を演算する演算処理を行なって(ステッ
プS340)、本ルーチンを終了し、次の判定結果出力
処理(図5のステップS160)に移る。以下、本ルー
チンの3つのステップを、それぞれ「脱落コスト設定処
理」,「単語列間距離演算処理」,「単語列間類似度の
演算処理」として、詳細に説明する。
【0070】まず、ステップS300の脱落コスト設定
処理について、図11および図12を参照しつつ説明す
る。図11は、脱落コスト設定ルーチンを示すフローチ
ャートであり、図12は、脱落コスト設定処理により座
標軸が設定された距離グラフYGを示す。距離グラフY
Gは、文字列間の類否を判断する前提として、相互に類
似しているとすべき単語とそうでない単語とを区別して
表わすためのグラフであり、その横軸には入力文字列A
を構成する各単語a1〜amが、縦軸には対比文字列B
を構成する各単語b1〜bmが割り付けられている。
【0071】図11の脱落コスト設定設定ルーチンは、
図10の単語列間類似度判定ルーチンAの起動に伴って
起動する。以後、入力文字列A中の単語a1から単語a
iまでの単語列と対比文字列B中の単語b1から単語b
jまでの単語列との間の距離を、d(ai,bj)とし
て説明する。
【0072】本ルーチンが起動されると、まず、入力文
字列A中における単語の序数iと入力文字列B中におけ
る単語の序数jの値を0(ゼロ)にセットし(ステップ
S400)、d(a0,b0)の値、即ち、入力文字列
Aと対比文字列Bとの対比前における入力文字列Aと対
比文字列Bとの間の距離の値を0(ゼロ)として設定す
る処理を行なう(ステップS410)。この処理によ
り、距離グラフYGにおける文字列間の距離を計測する
開始点が、距離グラフYG上の原点O(オー)として決
定される(図12のを参照)。
【0073】次に、入力文字列A中における単語aの序
数iの値を1にセットした後(ステップS420)、こ
のときのd(ai,bj)の値を、d{a(i−1),
bj}の値に単語aiの脱落コストrの値を加えたもの
に設定する処理を行なう(ステップS430)。この処
理は、「単語b1から単語bjまでの単語列の中に、単
語aiと意味の類似する単語が存在しなかった場合に
は、単語aiの直前の単語までの単語列と単語b1から
単語bjまでの単語列との距離に距離rを付加する」と
いうことを意味する。例えば、単語aの序数iの値が1
の場合には、d(a1,b0)の値として、d(a0,
b0)の値である0(ゼロ)に単語a1の脱落コストr
の値を加えた「r」という値が設定される。この処理に
より、距離グラフYG上において、原点O(オー)から
横軸上の単語a1までの距離が「r」として設定される
(図12のを参照)。
【0074】次に、入力文字列A中における単語aの序
数iの値に1を加え(ステップS435)、序数iの値
が、入力文字列Aの単語の総数mの値を超えているか否
かを判断し(ステップS440)、序数iの値が総数m
の値を超えていると判断されるまで、ステップS430
に戻って上記の処理を繰り返す。例えば、ステップS4
35で序数iの値が2とされた場合には、ステップS4
30の演算処理により、d(a2,b0)の値が、先に
求めたd(a1,b0)の値rに脱落コストの値rを付
加した2rという値に設定される。この結果、距離グラ
フYG上において、原点O(オー)から横軸上の単語a
2までの距離が「2r」として設定される(図12の
を参照)。
【0075】このような繰り返し処理により、d(a
1,b0)からd(am,b0)までの値が設定され
る。この結果、距離グラフYGの横軸の各単語は、入力
文字列Aの各単語の脱落コストrの値に等分されて割り
付けられる(図12のを参照)。
【0076】ステップS440で序数iの値が総数mの
値を超えていると判断した場合には、入力文字列A中に
おける単語の序数iの値を0(ゼロ)に、入力文字列B
中における単語の序数iの値を1にそれぞれセットした
後(ステップS450)、このときのd(ai,bj)
の値を、d{ai,b(j−1)}の値に単語bjの脱
落コストqの値を加えたものに設定する処理を行なう
(ステップS460)。この処理は、「単語a1から単
語aiまでの単語列の中に、単語bjと意味の類似する
単語が存在しなかった場合には、単語bjの直前の単語
までの単語列と単語a1から単語bjまでの単語列との
距離に距離qを付加する」ということを意味する。例え
ば、単語bの序数jの値が1の場合には、d(a0,b
1)の値として、d(a0,b0)の値である0(ゼ
ロ)に単語b1の脱落コストqの値を加えた「q」とい
う値が設定される。この処理により、距離グラフYG上
において、原点O(オー)から縦軸上の単語b1までの
距離が「q」として設定される(図12のを参照)。
【0077】次に、対比文字列B中における単語bの序
数jの値に1を加え(ステップS465)、序数jの値
が、対比文字列Bの単語の総数nの値を超えているか否
かを判断し(ステップS470)、序数jの値が総数n
の値を超えていると判断されるまで、ステップS460
に戻って上記の処理を繰り返す。例えば、ステップS4
65で序数jの値が2とされた場合には、ステップS4
60の演算処理により、d(a0,b2)の値が、先に
求めたd(a0,b1)の値qに脱落コストの値qを付
加した2qという値に設定される。この結果、距離グラ
フYG上において、原点O(オー)から縦軸上の単語b
2までの距離が「2q」として設定される(図12の
を参照)。
【0078】このような繰り返し処理により、d(a
0,b0)からd(a0,bn)までの値が設定され
る。この結果、距離グラフYGの縦軸の各単語は、対比
文字列Bの各単語の脱落コストqの値に等分されて割り
付けられる(図12のを参照)。
【0079】ステップS470で序数jの値が総数nの
値を超えていると判断した場合には、本ルーチンを終了
し、次の単語列間距離演算処理(図10のステップS3
20)へ移る。この結果、距離グラフYG上において各
単語a1〜amおよび各単語b1〜bnが横軸および縦
軸に割り付けられる位置が確定される。
【0080】なお、本実施例では、脱落コストr,qの
値を「1」とするが、比較される文中における単語の脱
落の頻度や重要性に応じ、これ以外の数値を採用するも
のとしても差し支えない。
【0081】以上のように各単語が割り付けられた距離
グラフYG上における、各単語列間の距離の表わし方に
つき、図13に基づいて説明する。入力文字列Aが総数
m個の単語から、対比文字列Bが総数n個の単語から構
成される場合には、始点である原点Oから終点である座
標点(am,bn)までの長さが入力文字列Aと対比文
字列Bとの文字列間の距離となる。この距離が最短とな
る場合を白色の矢印で、距離が最長となる場合を斜線付
きの矢印で示す。この「距離が最長となる場合」とは、
対比文字列B中に、入力文字列Aを構成する各単語と類
似する単語が全く存在しない場合である。この場合に
は、単語a1から単語amまでの各単語および単語b1
から単語bmまでの各単語が全て脱落していることにな
るので、入力文字列Aと対比文字列Bとの距離は、「脱
落コストr×m個+脱落コストq×n個」の値である
「mr+qn」となる。
【0082】次に、ステップS320の単語列間距離演
算処理Aについて、図14から図24までを参照しつつ
説明する。この単語列間距離演算処理Aでは、各単語間
の語間距離の値や各単語の脱落コストr,qの値のよう
な個々の単語に関する情報を用いて、入力文字列Aを構
成する各単語列と対比文字列Bを構成する各単語列との
距離を求める。この処理手順を、図14の単語列間距離
演算ルーチンAに示す。本ルーチンは、脱落コスト設定
処理の終了とともに起動する。
【0083】本ルーチンが起動されると、まず、入力文
字列A中における単語の序数iの値を1にセットし(ス
テップS500)、と入力文字列B中における単語の序
数jの値を1にセットする(ステップS510)。
【0084】次に、入力文字列A中の単語a1から単語
aiまでの単語列と対比文字列B中の単語b1から単語
bjまでの単語列との間の距離であるd(ai,bj)
の値を求める。この値は、以下の要領で求められる。ま
ず、3つの値X1,X2,X3を求める処理を行なう
(ステップS515,S520,S525)。値X1
は、単語aiの直前の単語までの単語列と単語bjの直
前の単語までの単語列との間の距離であるd{a(i−
1),b(j−1)}の値に、単語aiと単語bjとの
語間距離である2{1−t(ai,bj)}の値を加え
ることにより求める(以下、この値をX1値という)。
値X2は、単語aiの直前の単語までの単語列と単語b
jまでの単語列との間の距離であるd{a(i−1),
bj}の値に、単語aiの脱落コストrの値を加えるこ
とにより求める(以下、この値をX2値という)。値X
3は、単語aiまでの単語列と単語bjの直前の単語ま
での単語列との間の距離であるd{ai,b(j−
1)}の値に、単語bjの脱落コストqの値を加えるこ
とにより求める(以下、この値をX3値という)。
【0085】次に、これらのX1値からX3値までの値
のうちの最も小さい値をd(ai,bj)の値としてR
AM26上の単語列間距離記録テーブルDLに記憶し
(ステップS535,S540)、この値を、入力文字
列A中の単語a1から単語aiまでの単語列と対比文字
列B中の単語b1から単語bjまでの単語列との間の距
離として決定する。即ち、単語a1から単語aiまでの
単語列と対比文字列B中の単語b1から単語bjまでの
単語列との間の距離を求める際に、単語a1から「単語
aiの直前の単語」までの距離、または単語b1から
「単語bjの直前の単語」までの距離しか考慮しないの
で、入力文字列Aと対比文字列Bとの間において単語間
の類否関係が2組以上交差することは、必然的に禁止さ
れる。
【0086】次に、対比文字列B中における単語bの序
数jの値に1を加え(ステップS550)、序数jの値
が、対比文字列Bの単語の総数nの値を超えているか否
かを判断し(ステップS560)、序数jの値が総数n
の値を超えていると判断されるまで、ステップS515
に戻って上記の処理を繰り返す。これによって、入力文
字列A中の単語a1までの単語列と対比文字列B中の単
語b1から単語bjまでの各単語列との距離が順次求め
られる。
【0087】ステップS560で序数jの値が総数nの
値を超えていると判断した場合には、入力文字列A中に
おける単語の序数iの値に1を加え(ステップS57
0)、序数iの値が入力文字列A中における単語の総数
mの値を超えていると判断されるまで、ステップS51
0に戻って上記の処理を繰り返す。これによって、入力
文字列A中の単語a1から単語aiまでの各単語列と対
比文字列B中の単語b1から単語bjまでの各単語列と
の距離が順次求められ、最後に、単語a1から単語am
までの単語列と単語b1から単語bnまでの単語列との
間の距離d(am,bn)の値が求められる。
【0088】即ち、単語列間の距離d(ai,bj)
は、語順の対応関係を考慮して、全ての単語a1〜a
m,b1〜bnについて求められ、この際、図5のステ
ップS250で設定された単語a1〜am,b1〜bn
についての語間類似度t(ai,bj)の値が用いられ
る。例えば、単語a1までの単語列と単語b1から単語
b2までの単語列との距離であるd(a1,b2)や単
語a1から単語a2までの単語列と単語b1までの単語
列との距離であるd(a2,b1),単語a1から単語
a2までの単語列と単語b1から単語b2までの単語列
との距離であるd(a2,b2)を求める場合には、単
語a1と単語b1との語間類似度t(a1,b1)の値
が用いられる。また、単語a1から単語a7までの単語
列と単語b1から単語b3までの単語列との距離である
d(a7,b3)や単語a1から単語a6までの単語列
と単語b1から単語b4までの単語列との距離であるd
(a6,b4),単語a1から単語a7までの単語列と
単語b1から単語b4までの単語列との距離であるd
(a7,b4)を求める場合には、文字列中での出現順
が異なる単語同士である単語a6と単語b3との語間類
似度t(a6,b3)の値が用いられる。
【0089】ステップS570で序数iの値が総数mの
値を超えていると判断した場合には、入力文字列Aを構
成する単語列と対比文字列Bを構成する単語列との距離
d(am,bn)が求められたとして、本ルーチンを終
了し、次の文字列間類似度の演算処理(図10のステッ
プS340)へ移る。
【0090】以上の単語列間距離演算処理の内容を距離
グラフYGを用いつつ具体例に即して説明する。ここで
は、単語列間距離演算処理が、前述した「新/日米/防
衛/協定/締結/のための/指針/について/は」とい
う入力文字列Aと「新しい/日米/の/協力/ガイドラ
イン/に関して」という対比文字列Bに対して行なわれ
た場合を例にとって説明する。前述したように、入力文
字列Aは、単語a1から単語a9までの9個の単語を、
対比文字列Bは単語b1から単語b6までの6個の単語
をそれぞれ含む単語列とされている。
【0091】この2つの単語列について、ステップS5
00およびステップS510の処理により序数iの値と
序数jの値とがともに1にセットされた場合には、ステ
ップS515からステップS535までの演算処理によ
り、d(a1,b1)の値が求められる。この演算の過
程および結果を一時的に記憶した演算バッファETの様
子を図15に示す。即ち、ステップS515の演算処理
によりX1値として0(ゼロ)が、ステップS520の
演算処理によりX2値として2が、ステップS525の
演算処理によりX3値として2が、それぞれ求められ、
演算バッファETには、d(a1,b1)の値として、
このうちの最小の値であるX1値の0(ゼロ)が記憶さ
れている。
【0092】このd(a1,b1)の0(ゼロ)という
値が、「新」という単語a1からなる単語列と「新し
い」という単語b1からなる単語列との距離となる。こ
のことを図16の距離グラフYGを参照しつつ説明す
る。
【0093】距離グラフYG上において、「新」という
単語a1からなる単語列と「新しい」という単語b1か
らなる単語列との距離は、原点Oから座標(a1,b
1)に至るまでの到達経路として表わされる。図16に
示すように、この到達経路には、原点Oから直接に座標
(a1,b1)に至る第1の経路,座標(0,b1)を
経由して座標(a1,b1)に至る第2の経路,座標
(0,b1)を経由して座標(a1,b1)に至る第3
の経路がある。ステップS515の演算結果であるX1
値は、この3つの経路のうちの第1の経路を通る場合に
かかる距離の値を示し、ステップS520の演算結果で
あるX2値およびステップS525の演算結果であるX
3値は、それぞれ第2の経路および第3の経路を通る場
合にかかる距離の値を示している。
【0094】第1の経路を通って座標(a1,b1)へ
到達した場合にかかる距離の値は0(ゼロ)であり、こ
の距離の値は、第2の経路および第3の経路を通ったと
きに必要な距離の値である2(=r+q)よりも小さ
い。よって、第1の経路を通るときのX1値の0(ゼ
ロ)が、単語a1からなる単語列と単語b1からなる単
語列との距離d(a1,b1)の値となる。この値とな
るときの経路を、図16に斜線付きの矢印で示す。
【0095】次に、ステップS550の処理により、序
数jの値が2とされた場合の処理内容について説明す
る。ステップS515からステップS525までの演算
処理により、X1値として値3が、X2値として値3
が、X3値として値1がそれぞれ求められ、このうちの
最小の値であるX3値の値である1が、d(a1,b
2)の値として演算バッファETに一時的に記憶され
る。この様子を図17に示す。
【0096】このd(a1,b1)の0(ゼロ)という
値が、「新」という単語a1からなる単語列と「新しい
/日米」という単語b1および単語b2からなる単語列
との距離となる。このことを図18の距離グラフYGを
参照しつつ説明する。
【0097】図18に示すように、原点Oから座標(a
1,b2)に至るまでの到達経路には、原点Oから座標
(0,b1)を経由して座標(a1,b2)に至る第1
の経路,座標(0,b1)および座標(0,b2)を経
由して座標(a1,b2)に至る第2の経路,座標(a
1,b1)を経由して座標(a1,b2)に至る第3の
経路がある。ステップS515の演算結果であるX1値
は、この3つの経路のうちの第1の経路を通る場合にか
かる距離の値を示し、ステップS520の演算結果であ
るX2値およびステップS525の演算結果であるX3
値は、それぞれ第2の経路および第3の経路を通る場合
にかかる距離の値を示している。
【0098】即ち、第1の経路を通る場合とは、「新し
い/日米」という単語列のうち、「新しい」という単語
b1については、「新」という単語a1からなる単語列
から脱落している単語とし、一方、「日米」という単語
b2については、「新」という単語a1と類似関係にあ
るとみなして、双方の単語列間の距離を測定した場合を
意味する。第2の経路を通る場合とは、「新しい」およ
び「日米」という単語b1および単語b2とは、ともに
「新」という単語a1からなる単語列から脱落している
単語であり、また、単語b2「新」という単語a1も、
「新しい/日米」という単語b1および単語b2からな
る単語列から脱落した単語である、とみなして単語列間
の距離を測定した場合を意味する。また、第3の経路を
通る場合とは、「新」という単語a1と「新しい」とい
う単語b1とを相互に類似する単語であり、「日米」と
いう単語b2は、単語a1からなる単語列から脱落した
単語である、とみなして単語列間の距離を測定した場合
を意味する。
【0099】第3の経路を通って座標(a1,b2)へ
到達した場合にかかる距離の値は1であり、この距離の
値は、第1の経路を通ったときに必要な距離の値である
3(=q+2)や第2の経路を通ったときに必要な距離
の値である3(=2q+r)よりも小さい。よって、第
3の経路を通るときのX3値の1が、単語a1からなる
単語列と単語b1および単語b2からなる単語列との距
離d(a1,b2)の値となる。この値となるときの経
路を、図18に斜線付きの矢印で示す。
【0100】このような演算処理の繰り返しにより、
「新」という単語a1からなる単語列と、「新しい」と
いう単語b1からなる単語列,「新しい/日米」という
単語b1および単語b2からなる単語列,「新しい/日
米/の」という単語b1から単語b3までからなる単語
列,「新しい/日米/の/協力」という単語b1から単
語b4までからなる単語列,「新しい/日米/の/協力
/ガイドライン」という単語b1から単語b5までから
なる単語列,および「新しい/日米/の/協力/ガイド
ライン/に関して」という単語b1から単語b6までか
らなる単語列との距離が求められる。これらの場合にお
ける距離の値が単語列間距離記録テーブルDLに記憶さ
れたときの様子を図19に示す。
【0101】こうして、「新」という単語a1からなる
単語列と対比文字列Bにおける各単語列との距離が記憶
された後は、ステップS570,S580,S510の
処理により「新/日米」という単語a1および単語a2
からなる単語列と対比文字列Bにおける各単語列との距
離が演算される。まず、序数iの値が2、序数jの値が
1とされ、「新/日米」という単語a1および単語a2
からなる単語列と「新しい」という単語b1からなる単
語列との距離が演算される。
【0102】この場合には、X2値である値1を、即
ち、「新」という単語a1と「新しい」という単語b1
とを相互に類似する単語とし、「日米」という単語b1
は、単語b1からなる単語列から脱落した単語である、
とみなした場合の距離の値を、双方の単語列間の距離d
(a2,b1)としている。
【0103】続いて、ステップS550の処理により、
序数jの値が2とされた場合には、「新/日米」という
単語a1および単語a2からなる単語列と「新しい/日
米」という単語b1および単語b2からなる単語列との
距離が演算される。この演算処理の経過および結果を記
憶した演算バッファETの様子を図20に、この演算結
果に応じて採り得る距離グラフYT上の経路を、図21
にそれぞれ示す。
【0104】X1値を採用した場合の距離グラフ上の経
路は、図15,図16において求めた距離d(a1,b
1)の値0(ゼロ)を採用しつつ、「新/日米」からな
る単語列のうちの「日米」という単語a2と「新しい/
日米」からなる単語列のうちの「日米」という単語b2
とを類似する関係とみなした場合の経路である。一方、
X2値を採用した場合の距離グラフ上の経路は、図1
7,図18において求めた距離d(a1,b2)の値1
を採用しつつ、「新/日米」からなる単語列のうちの
「日米」という単語a2を「新しい/日米」という単語
列から脱落しているとみなした場合の経路であり、X3
値を採用した場合の距離グラフ上の経路は、以前に求め
た距離d(a2,b1)の値1を採用しつつ、「新しい
/日米」からなる単語列のうちの「日米」という単語b
2を「新/日米」という単語列から脱落しているとみな
した場合の経路である。
【0105】図21に斜線付きの矢印で示すように、座
標(a2,b2)へ到達した場合にかかる距離は、X1
値を採用した場合に最も短くなり、このX1値の値0
(ゼロ)が、単語a1および単語a2からなる単語列と
単語b1および単語b2からなる単語列との距離d(a
2,b2)の値となる。
【0106】以上の処理を繰り返すことにより、最終的
に、入力文字列Aおよび対比文字列Bに関する全ての単
語列同士の距離が求められる。図22は、求められた全
ての距離d(ai,bj)の値が単語列間距離記録テー
ブルDLに記憶されたときの様子を示している。なお、
距離の値に続けて記載された括弧内は、この値を算出し
た演算式を示し、「※」印は、2以上の演算式で同じ値
が算出されてともに最小値となった場合を示す。図22
の単語列間距離記録テーブルDL上のd(a9,b6)
の値である数値5.8が、入力文字列A中の全ての単語
a1〜a9を含む単語列と対比文字列B中の全ての単語
b1〜a6を含む単語列との距離の値、即ち、入力文字
列Aと対比文字列Bとの文字列間の距離の値となる。
【0107】d(a9,b6)の値である数値5.8
が、入力文字列Aと対比文字列Bとの文字列間の距離と
なるイメージを、図23および図24の距離グラフYG
を用いてより具体的に説明する。図23に示すように、
距離グラフYG上の各座標には、図22の単語列間距離
記録テーブルDLに記録された全ての単語列同士の距離
の値が、対比された単語列の組み合わせに対応して記さ
れている。
【0108】例えば、座標(a2,b1)に記された
「1」という値は、「新/日米」という単語列と「新し
い」という単語列との距離d(a2,b1)の値であ
る。また、入力文字列Aの最後尾の単語「は」が位置す
るa9と対比文字列Bの最後尾の単語「に関して」が位
置するb6との交点の座標(a9,b6)(以下、終点
座標という)には、d(a9,b6)の値である数値
5.8が記されている。
【0109】「入力文字列Aと対比文字列Bとの文字列
間の距離が値5.8である」ということは、「始点であ
る原点Oから、いずれかの経路を辿って終点座標(a
9,b6)に向かうためには、数値5.8に相当する距
離を移動しなければならない」ということを意味する。
この経路のうちの1つを図24に矢印のパスを用いて示
す。なお、始点から終点への到達までに移動することが
必要な距離を「全体移動距離」といい、1の座標から次
の座標への到達までに移動することが必要な距離を「区
間移動距離」という。
【0110】図24において、横向きの矢印は、矢印の
終端の座標に位置する単語aiが脱落したものとみなさ
れて、X2値が単語列間の距離の値とされた場合を、縦
向きの矢印は、矢印の終端の座標に位置する単語bjが
脱落したものとみなされて、X3値が単語列間の距離の
値とされた場合を、斜め向きの矢印は、矢印の終端の座
標に位置する単語aiと単語bjとが相互に類似するも
のと評価され、X1値が単語列間の距離の値とされた場
合を、それぞれ意味する。例えば、斜め向きの矢印の終
端の座標の1つである(a8,b6)に記された距離の
値4.8は、X1値、即ち、語間類似度を要素とした演
算式に基づく値である(図22を参照)。
【0111】即ち、図24に示した始点から終点座標ま
での経路は、「新」という単語a1と「新しい」とい
う単語b1、「日米」という単語a2と「日米」という
単語b2、「のための」という単語a6と「の」という
単語b3、「指針」という単語a7と「ガイドライン」
という単語b5、および「について」という単語a8と
「に関して」という単語b6とを、相互に類似する単語
と評価し、「防衛」という単語a3,「協定」という
単語a4,「締結」という単語a5,および「は」とい
う単語a9と類似する単語は、対比文字列Bに存在しな
いと評価し、「協力」という単語b4は、入力文字列
Aに存在しないと評価した場合の経路を表わしている。
このような経路を示すパスが意味する単語間の関係を図
25に示す。
【0112】図24および図25に示すように、この経
路では、始点から終点に至るまでの各座標間において、
区間移動距離として「0(ゼロ)」,「0(ゼロ)」,
「1」,「1」,「1」,「0.6」,「1」,
「0」,「0」,「1」という値を消費しており、この
消費された区間移動距離の値の合計値が全体移動距離の
値である数値5.8となる。
【0113】なお、図24に示した経路以外にも、終点
座標に到達するための経路があるが、語間類似度の値の
幅や脱落コストの値を変更することにより、1の経路に
絞り込むことも可能である。
【0114】以上、単語列間距離演算処理Aの内容につ
いて説明した。次に、この処理の終了とともに起動する
文字列間類似度の演算処理A(図10のステップS34
0)の内容につき、図26の文字列間類似度演算ルーチ
ンAを参照しつつ説明する。まず、入力文字列A中の単
語の総数m個分の脱落コストrに対比文字列B中の単語
bの総数n個分の脱落コストqを加えた値、即ち、入力
文字列Aと対比文字列Bとの距離の最大値を求め、この
値をUとする。次に、単語列間距離演算処理で求めた、
全ての単語を含んだ単語列同士の距離d(am,bn)
の値をUの値で除算し、この値をVとする。次に、Vの
値の補数を求め、この値を入力文字列Aと対比文字列B
との文字列間の類似度s(am,bn)として、本ルー
チンを終了し、次の処理へ移る。
【0115】前述の例では、15個の単語についての脱
落コストr,qの総計値は15であり、全ての単語を含
んだ単語列同士の距離d(a9,b6)の値は5.8で
あるため、文字列間の類似度は0.61という値とな
る。この値が1に近づくほど文字列間の意味上の類似度
が高いものと判定される。こうして数値を用いて判定さ
れた文字列間の類似度を、判定結果として出力し(図3
のステップS160)、文字列間の類否判定処理を終了
する。
【0116】以上説明した第1実施例の文間類似度判定
装置1Aは、入力文字列および対比文字列から抽出され
た単語につき、類義語辞書36を参照して概念語同士の
類似度および機能的表現同士の類似度を判定し、この類
似度の値を用いて、語順の対応関係を考慮しつつ文字列
間の類似度を判定する。従って、語順の異なる2つの文
の間において、意味の類似する度合いを正確に判定する
ことができる。
【0117】また、関係表現や助述表現同士の類似度の
値を用いて文字列間の類似度を判定するので、互いに同
じ意味概念を示す概念語と互いに異なる枠組みを表現す
る関係表現や助述表現から構成される文同士であって
も、類否判定を正確に行なうことができる。
【0118】さらに、本実施例では、文間における語順
の対応関係を考慮しつつも、単語間の類否関係が、文字
列間で2組以上交差することを禁止する。従って、文字
列間の類似度の判定に伴う処理を簡素化することができ
る。
【0119】また、単語列同士の類似度を判定する際に
脱落コストr,qを用いることにより、1の単語と類似
する単語が他の単語列になかった場合と存在する場合と
の両方を想定し、このうち類似度が高くなる場合の値を
単語列同士の類似度として決定する。従って、2つの文
の間の類似度を、文全体として正しく判定することがで
きる。
【0120】以上説明した文字列間の類否判定処理で
は、一方の文字列中の単語に類似する単語が他方の文字
列に存在しない場合に、当該単語の種類を問わず、全て
の単語に同じ脱落コストr,qを用いて、単語列間の距
離を演算した。これに対して、脱落しているとみなされ
る単語の種類や重要度に応じて、異なる値の脱落コスト
を設定する構成とすることも可能である。以下、このよ
うな構成につき、図27から図35を用いて説明する。
【0121】図27は、単語列間類似度判定ルーチンB
を示すフローチャートである。本ルーチンでは、図10
の単語列間類似度ルーチンAとほぼ同様の処理を行なう
が、本ルーチンが、単語重要度設定処理(ステップS6
00)を行なう点で、これを行なわない単語列間類似度
ルーチンAと異なる。この相違に対応して、次の処理で
ある単語列間距離演算処理B(ステップS620)およ
び文字列間類似度の演算処理Bも、演算に利用される脱
落コストr,qの値に関連する部分において、図14の
単語列間距離演算処理Aおよび図26の文字列間類似度
の演算処理Aと異なっている。
【0122】単語重要度設定処理の手順および内容を図
28の単語重要度設定ルーチンに示す。本ルーチンで
は、図11の脱落コスト設定ルーチンとほぼ同様の処理
を行なうため、対応するステップ番号の下二桁を図11
と同じ番号とした。
【0123】本ルーチンでは、入力文字列Aに関し、単
語aiの序数iが1から総数mまでのd(ai,0)の
値を、d{a(i−1),0}の値に単語aiの重要度
の値w(ai)を加えたものに設定する処理を行なう
(ステップS730)。この処理は、「単語b1から単
語bjまでの単語列の中に、単語aiと意味の類似する
単語が存在しなかった場合には、単語aiの直前の単語
までの単語列と単語b1から単語bjまでの単語列との
距離に、単語aiの重要度の値w(ai)を付加する」
ということを意味する。
【0124】例えば、単語aの序数iの値が1の場合に
は、d(a1,b0)の値として、d(a0,b0)の
値である0(ゼロ)に単語aiの重要度の値w(ai)
を加えた「w(ai)」という値が設定される。この処
理により、図29に示すように、距離グラフYG上にお
いて、原点O(オー)から横軸上の単語a1までの距離
が「w(ai)」として設定される。
【0125】また、対比文字列Bに関しても、単語bj
の序数jが1から総数nまでのd(0,bj)の値を、
d{0,b(j−1)}の値に単語bjの重要度の値w
(bj)を加えたものに設定する処理を行なう(ステッ
プS765)。よって、この処理により、距離グラフY
G上において、原点O(オー)から縦軸上の単語b1ま
での距離が「w(bj)」として設定される(図29を
参照)。
【0126】ステップS730およびステップS765
の処理を繰り返すことにより(ステップS740,S7
70)、d(a1,b0)からd(am,b0)までの
値およびd(a0,b0)からd(a0,bn)までの
値が設定される。この結果、距離グラフYGの横軸およ
び縦軸の各単語a1〜am,b1〜bnは、図29に示
すように、各単語の重要度の値w(ai),w(bj)
に応じた間隔を置いて割り付けられる。
【0127】各単語の重要度の値w(ai),w(b
j)は、前述した国語辞書内に格納されており、図3の
ステップS130における各文字列からの単語の抽出処
理の際に、その語の文字情報や文法情報とともに抽出さ
れる。各単語の重要度の値w(ai),w(bj)が国
語辞書に格納されている様子を図30に示す。
【0128】本実施例では、単語の重要度を「0≦w
(ai),w(bj)≦1」の範囲の数値を用いて表わ
し、数値が1に近づくほど文意を左右する度合いが高い
ものと定義している。また、名詞のような概念語の重要
度を、関係表現等の機能的表現の重要度よりも大きな値
に設定する一方、機能的表現の種類に応じて重要度に差
を設けている。例えば、主として助詞の後に接続される
係助詞の「は」や名詞と名詞の間に位置して同格を表わ
す格助詞の「の」等は、省略しても文の意味が大きく変
化しないので、重要度の値は、他の機能的表現よりも低
いものとなっている。
【0129】こうして、単語が欠落した場合に付加され
る重要度の値w(ai),w(bj)を設定して単語重
要度設定ルーチンを終了すると、続いて、図31に示す
単語列間距離演算ルーチンBを起動する。本ルーチンで
は、図14の単語列間距離演算ルーチンAとほぼ同様の
処理を行なうため、対応するステップ番号の下二桁を図
14と同じ番号とした。
【0130】本ルーチンでは、単語列間距離演算ルーチ
ンAとほぼ同様に、X1値,X2値,X3値のうちの最
も小さい値を単語列間の距離として決定するが、X2
値,X3値を演算する過程において、単語列間距離演算
ルーチンAで用いていた脱落コストrに替えて、単語の
重要度の値w(ai),w(bj)を用いる(ステップ
S820,S825)。よって、単語列間の距離d(a
i,bj)として決定される最小の値が3つの値のうち
のいずれの値となるかが、単語列間距離演算ルーチンA
における結果とは異なってくる。
【0131】図32は、前述した「新日米防衛協定締結
のための指針については」という入力文字列Aと「新し
い日米の協力ガイドラインに関して」という対比文字列
Bについて、単語列間類似度判定処理Bが行なわれた後
の単語列間距離記録テーブルDLの様子を示す。図22
に示した単語列間距離演算ルーチンAによる結果と比較
すると、入力文字列Aの「のための」という単語a6,
「について」という単語a8および「は」という単語a
9や対比文字列Bの「の」という単語b3,「に関し
て」という単語b6に関しては、これらに類似する単語
が他方の文字列に存在しないものとみなされた場合に、
脱落コストr,qとして設定されていた1よりもよりも
小さい値が、直前の単語までの単語列の距離に対して付
加される。従って、これらの単語が欠落している場合の
演算値であるX2値やX3値が、3つの値のうちの最小
値となりやすくなり、この結果、図22のテーブルと比
べて、X2値やX3値が単語列間の距離d(ai,b
j)として決定される頻度が多くなり、入力文字列A中
の全ての単語a1〜a9を含む単語列と対比文字列B中
の全ての単語b1〜a6を含む単語列との距離の値、即
ち、入力文字列Aと対比文字列Bとの文字列間の距離d
(a9,b6)の値も、値3.6というより小さい値と
なる。
【0132】この単語列間距離記録テーブルDLに記録
された全ての単語列同士の距離の値を記した距離グラフ
YWの様子を図33に示す。座標(a3,b2)から座
標(a3,b3)への移動を意味する「の」という単語
b3の欠落や、座標(a8,b6)から座標(a9,b
6)への移動を意味する「は」という単語a9の欠落に
よる「区間移動距離」がより小さくなっており、このこ
とが全体移動距離の減少に寄与していることがわかる。
【0133】距離グラフYW上に示した矢印のパスが意
味する単語間の関係を図34に示す。既述した脱落コス
トr,qが一律の場合を示す図25と比較すると、図3
4の場合には、図25で脱落とみなされていた「協定」
という単語a4と「協力」という単語b4とが相互に類
似関係があるものとみなされる一方、相互に類似関係が
あるものとみなされていた「のための」という単語a6
と「の」という単語b3とが、それぞれ他方の文字列か
ら脱落しているとみなされている。前者は、「の」とい
う単語b3が脱落した場合の加算値が値1から値0.2
に減ったことにより、d(a4,b4)の値においてX
1値が最も小さい値となったことに起因するものであ
る。後者は、「のための」という単語a6および「の」
という単語b3が脱落した場合の加算値が、それぞれ値
1から値0.4、値1から値0.2に減ったことによ
り、d(a6,b3)の値においてX3値が最も小さい
値となったことに起因するものである(図32を参
照)。
【0134】以上の単語列間距離演算処理Bの終了後に
続けて行なわれる、文字列間類似度の演算処理Bの内容
を、図35の文字列間類似度演算ルーチンBに示す。図
26の文字列間類似度演算ルーチンAでは、入力文字列
Aと対比文字列Bとの距離の最大値を、入力文字列A中
の単語の総数m個分の脱落コストr,qに対比文字列B
中の単語bの総数n個分の脱落コストqを加えた値と
し、この値で全ての単語を含んだ単語列同士の距離d
(am,bn)の値を除算して、当該文字列間で想定さ
れる最長距離に対して実際に求められた距離d(am,
bn)が占める割合を算出していた。この点、単語脱落
の場合のコストを単語の重要度に応じて設定する本構成
の場合には、入力文字列Aと対比文字列Bとの距離の最
大値は、入力文字列と対比文字列とを構成する個々の単
語についての重要度の値w(ai),w(bj)の合計
値となる。そこで、この値をUとし(ステップS121
0)、この値でd(am,bn)の値を除算した値につ
いての1の補数を求めることにより(ステップS123
0,S1250)、入力文字列Aと対比文字列Bとの文
字列間の類似度s(am,bn)を求めている。
【0135】前述の例では、15個の各単語についての
重要度の値w(ai),w(bj)の総計値は15であ
り、全ての単語を含んだ単語列同士の距離d(a9,b
6)の値は3.6であるため、文字列間の類似度は値
0.76となる。従って、脱落コストr,qを一律に設
定した場合と比べ、入力文字列Aと対比文字列Bとは、
より文字列間の意味上の類似度が高いものと判定されて
いる。
【0136】このように、単語の種類や重要度に応じ
て、脱落コストに異なる値を設定する構成を採ることに
より、類否判断の対象とされる文の性質に応じて、適切
な文間の類似度を判断することが可能となる。例えば、
日本語文字列同士の意味の類否を判断する場合には、概
念語の相違により文の意味が大きく異なるので、概念語
の脱落コストを高くすることが望ましい。一方、外部装
置90が和英翻訳する翻訳装置の場合には、文の構造が
文の意味を大きく左右するので、機能的表現の脱落コス
トを高くすることで、正確な翻訳を担保することができ
る。
【0137】なお、以上説明した文字列間類否判定処理
では、入力文字列および対比文字列内の機能的表現の有
無や類否に着目して、文字列間の類似度を判定するが、
この処理を、複合表現を含む文字列に関する類否の判定
に応用することも可能である。ここで、複合表現とは、
2以上の単語の結合により1のまとまった意味概念を表
わす表現をいい、例えば、「解析手法」や「新製品」等
の表現が複合表現に該当する。以下、この応用例につい
て説明する。
【0138】まず、入力文字列として「解析手法」とい
う複合表現からなる文字列が、対比文字列として「分析
の方法」という複合表現を含まない文字列が、それぞれ
類似度検索エンジン10Aに入力された場合について説
明する。概念語類義語辞書36aには、「解析」という
概念語と「分析」という概念語とが類似する旨の情報
が、語間類似度の値0.7とともに、「手法」という概
念語と「方法」という概念語とが類似する旨の情報が、
語間類似度の値0.7とともに、それぞれ記憶されてい
る。
【0139】この語間類似度の値に基づいて単語列間の
類似度が判定(図3のステップS150)されるが、本
応用例においては、文字列を構成する単語の連続が複合
表現に該当する場合には、単語同士の類似度に、入力文
字列中の複合表現と対比文字列中の複合表現に相当する
表現との間の類似度を加味して、入力文字列と対比文字
列との類似度を判定することとしている。例えば、上例
の場合には、「解析−分析」,「手法−方法」という対
応関係のみならず、「解析手法−分析の方法」という対
応関係について、表現間の類似度を判定する。
【0140】次に、対比文字列にのみ存在する「の」と
いう単語について、国語辞書に格納された文法情報を参
照する。国語辞書には、「の」という語の種類が「同格
を表わす助詞」である旨および所定の名詞と名詞の間に
用いられた場合には省略可能な旨が、文法情報として格
納されている。これらの情報を得ることにより、「解析
手法−分析の方法」という表現間の類似度は、「解析手
法−分析方法」という表現間の類似度と同じであると判
断する。この場合には、「の」という単語に類似する単
語が入力文字列に存在しないことを理由として、脱落コ
ストqを付加しない。従って、「解析手法」という単語
列と「分析の方法」という単語列との間の類似度は、
「解析手法」という単語列と「分析方法」という単語列
との間の類似度と同じ値となる。
【0141】なお、複合表現において省略されている単
語は、「の」や「のための」等のような機能的表現に限
るものではなく、例えば、「解析手法」と「解析する手
法」という場合における「する」という単語のような一
定の名詞に接続されて用いられるサ変動詞の語幹の一部
ないし活用語尾や、「新製品」と「新しい製品」という
場合における「しい」のような形容詞の語幹の一部ない
し活用語尾であってもよい。
【0142】このような構成を採れば、助詞,用言の語
幹の一部や活用語尾を省略せずに表現した文字列と、こ
れらを省略して同義に用いる複合表現との間の類似度を
正確に判定することができる。
【0143】なお、入力文字列や対比文字列は、「解析
手法」や「分析の方法」以外の他の表現を伴っても差し
支えない。例えば、「素材の解析手法」,「素材の分析
の方法」という文字列でもよい。また、対比文字列が
「解析の手法」である場合のように、入力文字列を構成
する概念語と対比文字列を構成する概念語とが一致する
場合でもよい。
【0144】また、入力文字列の複合表現に相当する対
比文字列中の表現が、他の複合表現である場合にも、上
記構成を適用することが可能である。例えば、入力文字
列として「解析手法」という複合表現が、対比文字列と
して「分析方法」という複合表現が、それぞれ入力され
た場合には、「解析−分析」,「手法−方法」という対
応関係のみならず、「解析手法−分析方法」という表現
間の類似度を判定し、「解析−分析」間の語間類似度の
値0.7,「手法−方法」間の語間類似度の値0.7
に、表現間の類似度の値として所定値を付加し、「単語
同士が類似する程度以上に両文字列が類似する」と判定
することも望ましい。
【0145】以上は、文字列として、語句、即ち、言葉
の一区切りを入力した場合を例にとって説明したが、入
力される文字列は、複合表現を含む文字列であればよ
く、主語や述語を備える完結した表現を文字列として入
力した場合にも、上記と同様の効果を得ることができ
る。こうすれば、一方の文に用いられた複合表現と、こ
の複合表現に対応する他方の文中の表現との類似度を、
正確に判定することができるので、文全体としての類似
度もより正確なものとなる。
【0146】次に、本発明の第2実施例について説明す
る。第2実施例は、データ検索装置1Bに関するもので
あり、第1実施例のハードウェア構成と同一の構成によ
り実現される。このデータ検索装置1Bの概要を図36
に示した。このデータ検索装置1Bは、文字列の類似度
を判定しながら検索を行なう検索エンジン10Bと文字
列を入力する外部装置90とから構成されている。検索
エンジン10Bと外部装置90の内部構成は、第1実施
例と同様である。
【0147】第1実施例の文間類似度判定装置1Aと比
べると、第1実施例の類似度判定エンジン10Aが、与
えられた2つの文の類似度を判定してこれを出力してい
たのに対して、第2実施例の検索エンジン10Bは、外
部装置90から与えられる自然言語の文(以下、検索キ
ー文という)を入力し、この文と類似度の高い文を、検
出してこれを出力する機能を有する点で異なっている。
また、検索の対象となる複数の検索対象文(以下、デー
タと呼ぶ)は、外部装置90のハードディスク90a内
に保存されているデータである。
【0148】第2実施例における処理の概要を図37に
示す。検索エンジン10Bは、このルーチンが起動され
ると、まず検索しようとしている検索キー文を構成する
文字列を入力する処理を行なう(ステップS900)。
この処理(ステップS900)は、第1実施例における
文字列入力処理(図3、ステップS100)と同一であ
る。こうして検索キー文を入力した後、外部装置90内
に保存されたデータから検索対象文を一つ取り出す処理
を行なう(ステップS930)。次に、取り出した一つ
の検索対象文と、検索キー文との類似度を判定し、類似
する文字列を検出する処理を行なう(ステップS94
0)。この処理は、第1実施例の単語間類似度判定処理
(図3、ステップS140),単語列間類似度判定処理
(図3、ステップS150)と同様である。即ち、概念
語同士の類似度や機能的表現同士の類似度から、各文字
列を構成する単語列間の距離を求め、全ての単語を含む
単語列同士の距離から文字列間の類似度を演算により算
出し、距離検索キー文と、取り出した一つの検索対象文
との類似度を数値として求めるのである。求めた類似度
の数値データは、RAM26上の所定領域に一時的に記
憶される。
【0149】以上の処理の後、検索対象文がまだハード
ディスク90aに残っているか否かを判断し(ステップ
S950)、残っていれば、上述したステップS730
に戻って検索対象文を取り出す処理から再度実行する。
もはや類似度を判定する検索対象文が残っていない場合
には、各検索対象文との類似度の数値データが記憶され
たRAM26上の所定領域を参照し、最も文間の類似度
が高いと判定された検索対象文を、検索結果として出力
する(ステップS960)。なお、類似度の判定は、数
値として表わされているので、一定の数値以上の類似度
を示した検索対象文をすべて出力するものとしても良
い。あるいは、類似度の高い方から所定数の検索対象文
を出力するものとしても良い。更に、総ての検索対象文
を、類似度の値の順に並べ替え、類似度の高いものから
順次に出力する構成としても良い。
【0150】かかる第2実施例のデータ検索装置1Bで
は、複数の検索対象文の一つ一つと、検索キー文との類
似度を判定して、類似度の高い文を検索の結果として出
力することができる。この検索キー文との類似度を判定
する際、概念語同士の類似度に、文の枠組みを与える表
現である機能的表現同士の類似度を加味した上で、文間
の語順の対応関係を考慮しつつ判定するので、自然言語
文の検索を精度良く行なうことができる。
【0151】なお、外部装置90は、検索エンジン10
Bによる検索結果を受けて、これを単に表示するものと
しても良いし、この検索結果を使って翻訳などの処理を
行なうものとしても良い。前者の構成では、例えば、多
数の論文の抄録の中から、検索しようとした検索キー文
に類似度の高い論文を表示する構成が考えられる。ある
いは、インターネット上の膨大な数のホームページの概
要を説明した多数の要約文の中から、検索しようとした
検索キー文と類似度の高いホームページを探して、これ
を表示する構成などにも適用することができる。後者、
即ち翻訳の場合は、翻訳しようとする文(検索キー文)
に対して、この文とよく似た文を、予め用意した翻訳文
の中から検索し、得られた翻訳文の中の概念語を置き換
えることにより訳文を得るという手法が知られている。
したがって、検索エンジン10Bにより、予め用意した
訳文の一つを検索し、その後、検索した訳文の概念語
を、翻訳しようとする文の概念語の訳語により置き換え
ることにより、翻訳を行なうものとすれば良い。予め用
意した訳文から一致度の高い訳文を検出する場合には、
概念語の類似度より枠組み表現である機能的表現の類似
度の方が重要と考えられるので、本実施例の検索エンジ
ン10Bは、この点で極めて有用である。尚、検索エン
ジン10Bが類似度を判断する際、概念語の類似度と機
能的表現の類似度とのいずれを重視するかは、アプリケ
ーションにより適宜調整すれば良い。論文やホームペー
ジの検索の場合には概念語の比重が重く、訳文の検索の
場合には機能的表現の比重を重くしておくことも好適で
ある。
【0152】以上、本発明の実施の形態を第1,第2実
施例を用いて説明した。なお、本実施例の単語間類似度
判定処理および単語列間類似度判定処理においては、文
字列間の構造に関する類似度を、文字列に含まれている
機能的表現同士の近似性を比較することにより判定する
が、この判定手法は、機能的表現の「概念語と結びつい
て文の一構造を形成する性質」と「文の持つ意味を大き
く左右する役割」に着目したことによるものである。従
って、単語間類似度判定処理および単語列間類似度判定
処理は、本実施例に記載された方法に限るものではな
く、機能的表現のような文構造の枠組みを支える表現に
着目した他の判定手法を採用することも可能である。例
えば、文字列中での機能的表現の有無,文字列に用いら
れている機能的表現の位置や種類等についても文字列間
の類似度判定の要素としてもよい。
【0153】また、本実施例では、類似度検索エンジン
10Aや検索エンジン10B等を外部装置90とは別の
装置として設けることにより文間類似度判定装置1Aを
構成するが、外部装置90と検索エンジン10Aや10
Bとを一体として文間類似度判定装置1Aやデータ検索
装置1Bを構成するものとしても差し支えない。例え
ば、文字列間類否判定処理や類似文字列検出処理を実行
するためのプログラムを外部装置90にインストールし
たり、公衆電話回線PTLを通じて外部装置90にダウ
ンロードすることにより、外部装置90自体で文間類似
度判定装置1Aと同じ機能を実現することが可能とな
る。
【0154】本実施例の類似度検索エンジン10Aや検
索エンジン10B等は、外部装置90から文字列を入力
し、入力文字列に関する類似度の判定結果を外部装置9
0に出力する構成としているが、キーボード等の入力手
段を検索エンジン10Aや検索エンジン10B自体に備
えることにより文字列を入力可能な構成としたり、ディ
スプレイ等の表示手段を用いて判定結果を表示可能な構
成としても差し支えない。
【0155】また、本発明を実施する他の形態として、
上述の文字列間類否判定プログラム等をコンピュータに
よる読み取り可能に記録した、FD,CD−ROMやR
OMチップ等の記録媒体を考えることができる。この記
録媒体に格納された情報をコンピュータ内にインストー
ルすることで、コンピュータは、CPUからの命令に基
づいて文字列間類否判定プログラム等を実行可能な状態
となり、上記した文間類似度判定装置1Aやデータ検索
装置1Bと同様の機能を実現する。従って、上記と同様
の効果を奏することができる。
【0156】これらの媒体は、例えば図1に示したフレ
キシブルディスク装置FDDにより読み取られて類似度
判定エンジン10A等に送信され、その内部の主記憶に
展開して実行される。なお、こうした媒体によらず、サ
ーバーSVに置かれたプログラムをネットワークNWを
介してモデムから読み込み、主記憶に展開して実行する
ものとしてもよい。
【0157】なお、本実施例では、文字列間の意味上の
類似度を判定するが、これ以外の文字列間の関係を判定
することも可能である。例えば、2つの文字列中におけ
る機能的表現の相違に着目することで、2つの文字列同
士の強調や限定,推定の程度の相違や,時制の相違等の
関係などを判定することができる。また、これらの関係
のうちのいくつかを使用者が任意に選択することによ
り、選択された関係についての判定を文間類似度判定装
置10が実行する構成としてもよい。
【0158】また、本実施例では、単語列と単語列との
間の類似度を判定する際、単語間の類否関係が文字列間
で交差することを禁止するが、この交差を許容する構成
を採ることも可能である。例えば、2個の単語幅の範囲
内で交差を許容する場合、図14に示した単語列間距離演
算処理において、注目単語ai、bjの2個前の単語
までの単語列間距離であるd{a(i−2),b(j−
2)}の値、単語aiと単語b(j−1)との語間距
離である2{1−t(ai,b(j−1))}の値、お
よび単語ai,単語b(j−1)と交差した関係に有
る単語 a(i−1)と単語bjとの語間距離である 2
{1−t(a(i−1),bj)}の値という3つの値
の和を X4値として求め、X1値、X2値、X3値お
よびX4値のうちの最小値を、単語aiまでの単語列と
単語bjまでの単語列との間の距離d(ai,bj)と
すればよい。同様の考え方で、4個の単語幅以内に交差
を許容する場合は、X1値からX72値までの72個の
候補の中から最小値を選べばよい。このように、本発明
を一定の幅のなかで交差を許容する構成に拡張すること
も好適である。
【0159】以上本発明の実施の形態を実施例に基づい
て説明したが、本発明はこうした実施例に何等限定され
るものではなく、本発明の要旨を逸脱しない範囲内にお
いて種々なる様態で実施し得ることは勿論である。
【図面の簡単な説明】
【図1】本発明の実施例である文間類似度判定装置のハ
ードウェアの構成を示す説明図である。
【図2】文字列間類否判定処理が実行される際の、類似
度検索エンジン10Aと外部装置90との間の情報の流
れを示す説明図である。
【図3】文字列間類否判定ルーチンを示すフローチャー
トである。
【図4】概念語と機能的表現の役割を説明するブロック
図である。
【図5】単語間類似度判定ルーチンを示すフローチャー
トである。
【図6】単語間類似度判定ルーチンを示すフローチャー
トである。
【図7】概念語類義語辞書36aの構造を示す説明図で
ある。
【図8】機能的表現類義語辞書36bの構造を示す説明
図である。
【図9】単語間情報記録テーブルGTに語間類似度およ
び語間距離が記録された様子を示す説明図である。
【図10】単語列間類似度判定ルーチンAを示すフロー
チャートである。
【図11】脱落コスト設定ルーチンを示すフローチャー
トである。
【図12】脱落コスト設定処理により座標軸が設定され
た距離グラフYGを示す説明図である。
【図13】距離グラフYG上における、各単語列間の距
離の表わし方を示す説明図である。
【図14】単語列間距離演算ルーチンAを示すフローチ
ャートである。
【図15】d(a1,b1)の値の演算の過程および結
果を記憶した演算バッファETの様子を示す説明図であ
る。
【図16】距離グラフYG上における原点Oから座標
(a1,b1)に至るまでの経路を示す説明図である。
【図17】d(a1,b2)の値の演算の過程および結
果を記憶した演算バッファETの様子を示す説明図であ
る。
【図18】距離グラフYG上における原点Oから座標
(a1,b2)に至るまでの経路を示す説明図である。
【図19】単語a1からなる単語列と対比文字列Bの各
単語列との距離の値を記憶した単語列間距離記録テーブ
ルDLの様子を示す説明図である。
【図20】d(a2,b2)の値の演算の過程および結
果を記憶した演算バッファETの様子を示す説明図であ
る。
【図21】距離グラフYG上における原点Oから座標
(a2,b2)に至るまでの経路を示す説明図である。
【図22】入力文字列Aの各単語列と対比文字列Bの各
単語列との距離の値を記憶した単語列間距離記録テーブ
ルDLの様子を示す説明図である。
【図23】距離グラフYGの各座標に、単語列間距離記
録テーブルDLに記録された全ての単語列同士の距離の
値を割り当てたときの様子を示す説明図である。
【図24】入力文字列Aと対比文字列Bとの文字列間の
距離を距離グラフYG上にパスを用いて示した説明図で
ある。
【図25】単語列間距離演算処理Aの結果、脱落とみな
された単語と類似関係にあるとみなされた単語の別を示
す説明図である。
【図26】文字列間類似度演算ルーチンAを示すフロー
チャートである。
【図27】単語列間類似度判定ルーチンBを示すフロー
チャートである。
【図28】単語重要度設定ルーチンを示すフローチャー
トである。
【図29】脱落コスト設定処理により座標軸が設定され
た距離グラフYWを示す説明図である。
【図30】国語辞書に格納された各単語の重要度の値を
示す説明図である。
【図31】単語列間距離演算ルーチンBを示すフローチ
ャートである。
【図32】入力文字列Aの各単語列と対比文字列Bの各
単語列との距離の値を記憶した単語列間距離記録テーブ
ルDWの様子を示す説明図である。
【図33】入力文字列Aと対比文字列Bとの文字列間の
距離を距離グラフYW上にパスを用いて示した説明図で
ある。
【図34】単語列間距離演算処理Bの結果、脱落とみな
された単語と類似関係にあるとみなされた単語の別を示
す説明図である。
【図35】文字列間類似度演算ルーチンBを示すフロー
チャートである。
【図36】第2実施例としてのデータ検索装置1Bを示
す説明図である。
【図37】データ検索ルーチンを示すフローチャートで
ある。
【符号の説明】
1A…文間類似度判定装置 1B…データ検索装置 10A…類似度検索エンジン 10B…検索エンジン 10a…ハードディスク 10b…液晶ディスプレイ 10c…コンピュータ 20…入力インタフェース 22…CPU 24…ROM 26…RAM 34…出力インタフェース 35…バス 36…類義語辞書 36a…概念語類義語辞書 36b…機能的表現類義語辞書 90…外部装置 90a…ハードディスク 90b…ディスプレイ 90c…コンピュータ 90d…キーボード 92…プリンタ 94…モデム FDD…フレキシブルディスク装置 NW…ネットワーク PTL…公衆電話回線 SV…サーバー

Claims (28)

    【特許請求の範囲】
  1. 【請求項1】 一定のまとまりを持った内容を表わす所
    定言語の文であり、判定対象となる第1の文と、該第1
    の文との関係が判定される第2の文とを入力し、前記言
    語による文を構成する構成単位であって、まとまった意
    味を持つものとして類別された構成単位を用いて、前記
    第1の文と前記第2の文との関係を判定する自然言語文
    関係判定装置であって、 前記類別された構成単位のうち、意味概念を表わす構成
    単位として類別された概念表現と、文構造の枠組を支え
    る表現に対応した構成単位として抽出された枠組み表現
    とについて、少なくとも該概念表現同士および枠組み表
    現同士の関係を表わす情報を記憶した関係情報記憶手段
    と、 前記第1の文および第2の文から、前記構成単位を抽出
    する構成単位抽出手段と、 前記関係情報記憶手段に記憶された前記情報を参照し
    て、該抽出された第1および第2の文を構成する前記構
    成単位のうち前記概念表現同士および前記枠組み表現同
    士の関係を、語順の対応関係を考慮しつつ判断すること
    により、前記第1の文と前記第2の文との関係を判定す
    る関係判定手段とを備えた自然言語文関係判定装置。
  2. 【請求項2】 前記関係情報記憶手段が前記関係を記憶
    している前記枠組み表現を、意味概念を表わす概念表現
    につき、格関係,因果関係などの概念間関係を表わす表
    現である関係表現とした請求項1記載の自然言語文関係
    判定装置。
  3. 【請求項3】 前記関係情報記憶手段が前記関係を記憶
    している前記枠組み表現は、前記文についての判断,態
    度,時制などの広義の様相情報を与える助述表現である
    請求項1記載の自然言語文関係判定装置。
  4. 【請求項4】 請求項1記載の自然言語文関係判定装置
    であって、 前記関係判定手段は、前記語順の対応関係として、前記
    抽出した構成単位の出現順の相違を許容しつつ、前記判
    定を行なう手段である自然言語文関係判定装置。
  5. 【請求項5】 請求項1記載の自然言語文関係判定装置
    であって、 前記関係判定手段は、前記語順の対応関係として、前記
    抽出した構成単位の出現順の相違を許容しつつ、かつ該
    構成単位間の2組以上の対応関係の交差を禁止して、前
    記判定を行なう手段である自然言語文関係判定装置。
  6. 【請求項6】 請求項1記載の自然言語文関係判定装置
    であって、 前記関係判定手段は、 前記第1,第2の文を構成する前記構成単位のうち、前
    記概念表現同士の関係を、前記関係情報記憶手段に記憶
    された情報を参照して判定する第1の判定手段と、 前記第1,第2の文を構成する前記構成単位のうち、前
    記枠組み表現同士の関係を、前記関係情報記憶手段に記
    憶された情報を参照して判定する第2の判定手段と、 該第1,第2の判定手段による判定結果を、前記語順の
    対応関係をとりつつ利用することにより、前記第1およ
    び第2の文同士の関係を判定する総合判定手段とを備え
    る自然言語文関係判定装置。
  7. 【請求項7】 請求項6記載の自然言語文関係判定装置
    であって、 前記総合判定手段は、 前記第1または第2のいずれかの文から抽出された各構
    成単位に関し、対応する構成単位が他方の文に存在しな
    い場合の値を、脱落値として予め設定する脱落値設定手
    段と、 前記語順の対応関係をとりながら、前記第1,第2の文
    から抽出された構成単位同士のうち、所定の関係にある
    もの同士に、該関係に基づく値を、関係値として付与す
    る関係値付与手段と、 該付与された関係値および前記設定された脱落値を評価
    し、前記第1および第2の文同士の関係値を求める文間
    関係値演算手段とを備える自然言語文関係判定装置。
  8. 【請求項8】 前記脱落値設定手段は、前記脱落値を、
    前記構成単位の重要度に応じた値に設定する手段である
    請求項7記載の自然言語文関係判定装置。
  9. 【請求項9】 前記脱落値設定手段は、前記他方の文に
    存在しない構成単位が、前記概念表現であるか枠組み表
    現であるかによって、異なる脱落値を設定する手段であ
    る請求項7または8に記載の自然言語文関係判定装置。
  10. 【請求項10】 請求項6記載の自然言語文関係判定装
    置であって、 前記関係情報記憶手段は、前記概念表現同士の関係とし
    て、意味概念を単独で表わす概念語同士の関係に加え
    て、概念性接辞と概念語との関係を前記情報として記憶
    しており、 前記第1の判定手段は、前記概念表現同士の関係とし
    て、前記概念語同士の関係に加えて、前記関係情報記憶
    手段に記憶された前記概念性接辞と概念語間の関係につ
    いても判定を行なう手段である自然言語文関係判定装
    置。
  11. 【請求項11】 請求項1記載の自然言語文関係判定装
    置であって、 前記関係情報記憶手段は、前記概念表現同士および前記
    枠組み表現同士の関係として、類似の程度を表わす情報
    を記憶した類否情報記憶手段であり、 前記関係判定手段は、該類否情報記憶手段に記憶された
    概念表現同士および枠組み表現同士の類似の程度を参照
    して、前記第1および第2の文同士の類否を判定する類
    否判定手段である自然言語文関係判定装置。
  12. 【請求項12】 請求項11記載の自然言語文関係判定
    装置であって、 前記類否情報記憶手段は、前記概念表現同士および枠組
    み表現同士の対と、当該対にされた表現間の意味上の類
    似度を数値によって表わした類似度数値データとを、前
    記類否の程度を表わす情報として、外部記憶装置に記憶
    しており、 前記類否判定手段は、前記類似度数値データの大小を用
    いて、前記類否の判定を行なう手段である自然言語文関
    係判定装置。
  13. 【請求項13】 請求項12記載の自然言語文関係判定
    装置であって、 前記類否情報記憶手段は、前記類似度数値データとし
    て、値0ないし1の範囲で、類似の程度が高いほど値1
    に近づく値を記憶しており、 前記類否判定手段は、 前記類似度数値データの値から、前記概念表現同士およ
    び前記枠組み表現同士の距離を演算する手段と、 該距離の総和が最も短くなる組み合わせを特定する手段
    と、 該特定された組み合わせにおける前記距離の総和を、前
    記第1および第2の文同士の相違の程度として求める手
    段とを備えた自然言語文関係判定装置。
  14. 【請求項14】 複数の検索対象文から、検索のための
    キーとして与えられた検索キー文に類似した文を検索す
    る自然言語文検索装置であって、 請求項11記載の自然言語文関係判定装置と、 前記検索キー文を、第1の文として特定する第1文特定
    手段と、 前記複数の検索対象文から、順次、一の文を選択して、
    第2の文として特定する第2文特定手段と、 前記特定された第1の文および前記第2の文を、前記自
    然言語文関係判定装置に付与して、前記類否判定を行な
    わせる判定実行手段と、 前記自然言語文関係判定装置の判定結果を、前記付与さ
    れた第2の文に応じて保存し、前記第1の文として与え
    られた検索キー文に最も類似する第2の文を、前記複数
    の検索対象文中から選択する選択手段とを備えた自然言
    語文検索装置。
  15. 【請求項15】 意味概念を表わす表現である概念表現
    につき、少なくとも該概念表現同士の関係を表わす情報
    を記憶した辞書と、 第1の語句と第2の語句とを入力する入力手段と、 該入力された第1の語句および第2の語句から該語句を
    構成する単語を抽出する抽出手段と、 該抽出された第1の語句を構成する単語と該第2の語句
    を構成する単語との関係を、前記辞書を参照して判断す
    る判断手段と、 該判断手段による判断結果に基づいて前記第1の語句と
    前記第2の語句との関係を判定する判定手段とを備えた
    語句関係判定装置であって、 前記第1の語句または第2の語句のうちの少なくとも一
    方には、2以上の単語の結合により1のまとまった意味
    概念を表わす表現である複合表現を含み、 該複合表現と、該複合表現に対応する表現との関係を評
    価する評価手段を備え、 前記判定手段は、該評価手段による評価結果を考慮し
    て、前記第1の語句と前記第2の語句との関係を判定す
    る手段である語句関係判定装置。
  16. 【請求項16】 請求項15に記載の語句関係判定装置
    であって、 単語に関する情報を予め記憶する記憶部と、 前記複合表現に対応する表現を構成する単語のうち、前
    記複合表現に存在しない単語を指定する単語指定手段
    と、 該特定された単語の種類を、前記記憶部を参照して特定
    する種類特定手段を備え、 前記評価手段は、該種類特定手段により特定された単語
    の種類が所定の種類である場合には、該単語に対応する
    単語が前記複合表現に存在する場合と同様に、前記複合
    表現と該複合表現に対応する表現との関係を評価する手
    段である語句関係判定装置。
  17. 【請求項17】 一定のまとまりを持った内容を表わす
    所定言語の文であり、判定対象となる第1の文と、該第
    1の文との関係が判定される第2の文とを入力し、前記
    言語による文を構成する構成単位であって、まとまった
    意味を持つものとして類別された構成単位を用いて、前
    記第1の文と前記第2の文との関係を判定する方法であ
    って、 前記類別された構成単位のうち、意味概念を表わす構成
    単位として類別された概念表現と、文構造の枠組を支え
    る表現に対応した構成単位として抽出された枠組み表現
    とについて、少なくとも該概念表現同士および枠組み表
    現同士の関係を表わす情報を記憶し、 前記第1の文および第2の文から、前記構成単位を抽出
    し、 前記記憶された前記情報を参照して、該抽出された第1
    および第2の文を構成する前記構成単位のうち前記概念
    表現同士および前記枠組み表現同士の関係を、語順の対
    応関係を考慮しつつ判断することにより、前記第1の文
    と前記第2の文との関係を判定する自然言語文関係判定
    方法。
  18. 【請求項18】 請求項17記載の自然言語文関係判定
    方法であって、 前記第1の文と第2の文との関係の判定は、 前記第1,第2の文を構成する前記構成単位のうち、前
    記概念表現同士の関係を、前記記憶された情報を参照し
    て判定する第1の処理、 前記第1,第2の文を構成する前記構成単位のうち、前
    記枠組み表現同士の関係を、前記記憶された情報を参照
    して判定する第2の処理、 該概念表現および枠組み表現についての判定結果を、前
    記語順の対応関係をとりながら総合することにより、前
    記第1および第2の文同士の関係を判定する第3の処理
    からなる自然言語文関係判定方法。
  19. 【請求項19】 請求項18記載の自然言語文関係判定
    方法であって、 前記第3の処理は、 前記第1または第2のいずれかの文から抽出された各構
    成単位に関し、対応する構成単位が他方の文に存在しな
    い場合の値を、脱落値として予め設定する脱落値設定処
    理と、 前記語順の対応関係をとりながら、前記第1,第2の文
    から抽出された構成単位同士のうち、所定の関係にある
    もの同士に、該関係に基づく値を、関係値として付与す
    る関係値付与処理と、 該付与された関係値および前記設定された脱落値を評価
    し、前記第1および第2の文同士の関係値を求める文間
    関係値演算処理ととを有する自然言語文関係判定方法。
  20. 【請求項20】 請求項17記載の自然言語文関係判定
    方法であって、 前記概念表現同士および前記枠組み表現同士の関係とし
    て、類似の程度を表わす情報を記憶し、 前記第1,第2の文の関係の判定は、前記記憶された概
    念表現同士および枠組み表現同士の類似の程度を参照し
    て、前記第1および第2の文同士の類否を判定するもの
    である自然言語文関係判定方法。
  21. 【請求項21】 複数の検索対象文から、検索のための
    キーとして与えられた検索キー文に類似した文を検索す
    る方法であって、 前記検索キー文を、第1の文として特定し、 前記複数の検索対象文から、順次、一の文を選択して、
    第2の文として特定し、 前記第1の文と前記第2の文とを用いて、請求項20記
    載の自然言語文関係判定方法を実行し、 前記自然言語文関係判定方法による判定結果を、前記付
    与された第2の文に応じて保存し、前記第1の文として
    与えられた検索キー文に最も類似する第2の文を、前記
    複数の検索対象文中から選択する自然言語文検索方法。
  22. 【請求項22】 一定のまとまりを持った内容を表わす
    語句である第1の語句と第2の語句とを入力し、該入力
    された第1の語句および第2の語句から該語句を構成す
    る単語を抽出し、該抽出された第1の語句を構成する単
    語と該第2の語句を構成する単語との関係を、意味概念
    を表わす表現である概念表現につき、少なくとも該概念
    表現同士の関係を表わす情報を記憶した辞書を参照して
    判断し、該判断の結果に基づいて前記第1の語句と前記
    第2の語句との関係を判定する語句関係判定方法であっ
    て、 前記第1の語句または第2の語句のうちの少なくとも一
    方には、2以上の名詞である単語の結合により1のまと
    まった意味概念を表わす表現である複合表現を含み、 該複合表現と、該複合表現に対応する表現との関係を評
    価し、この評価の結果を考慮して、前記第1の語句と前
    記第2の語句との関係を判定する語句関係判定方法。
  23. 【請求項23】 一定のまとまりを持った内容を表わす
    所定言語の文であり、判定対象となる第1の文と、該第
    1の文との関係が判定される第2の文とを入力し、前記
    言語による文を構成する構成単位であって、まとまった
    意味を持つものとして類別された構成単位を用いて、前
    記第1の文と前記第2の文との関係を判定するプログラ
    ムを、コンピュータに読み取り可能に記録した記録媒体
    であって、 前記類別された構成単位のうち、意味概念を表わす構成
    単位として類別された概念表現と、文構造の枠組を支え
    る表現に対応した構成単位として抽出された枠組み表現
    とについて、少なくとも該概念表現同士および枠組み表
    現同士の関係を表わす情報を記録すると共に、 前記第1の文および第2の文から、前記構成単位を抽出
    する機能と、 前記記憶された前記情報を参照して、該抽出された第1
    および第2の文を構成する前記構成単位のうち前記概念
    表現同士および前記枠組み表現同士の関係を、語順の対
    応関係を考慮しつつ判断することにより、前記第1の文
    と前記第2の文との関係を判定する機能とを記録した記
    録媒体。
  24. 【請求項24】 請求項23記載の記録媒体であって、 前記第1の文と第2の文との関係を判定する機能とし
    て、 前記第1,第2の文を構成する前記構成単位のうち、前
    記概念表現同士の関係を、前記記憶された情報を参照し
    て判定する第1の機能と、 前記第1,第2の文を構成する前記構成単位のうち、前
    記枠組み表現同士の関係を、前記記憶された情報を参照
    して判定する第2の機能と、 該概念表現および枠組み表現についての判定結果を、前
    記語順の対応関係をとりながら総合することにより、前
    記第1および第2の文同士の関係を判定する第3の機能
    とを記録した記録媒体。
  25. 【請求項25】 請求項24記載の記録媒体であって、 前記第3の機能として、 前記第1または第2のいずれかの文から抽出された各構
    成単位に関し、対応する構成単位が他方の文に存在しな
    い場合の値を、脱落値として予め設定する機能と、 前記語順の対応関係をとりながら、前記第1,第2の文
    から抽出された構成単位同士のうち、所定の関係にある
    もの同士に、該関係に基づく値を、関係値として付与す
    る機能と、 該付与された関係値および前記設定された脱落値を評価
    し、前記第1および第2の文同士の関係値を求める機能
    とを記録した記録媒体。
  26. 【請求項26】 請求項23記載の記録媒体であって、 前記概念表現同士および前記枠組み表現同士の関係とし
    て、類似の程度を表わす情報を記録しており、 前記第1,第2の文の関係を判定する機能として、前記
    記憶された概念表現同士および枠組み表現同士の類似の
    程度を参照して、前記第1および第2の文同士の類否を
    判定する機能を記録した記録媒体。
  27. 【請求項27】 一定のまとまりを持った内容を表わす
    所定言語の複数の検索対象文から、検索のためのキーと
    して与えられた検索キー文に類似した文を検索するプロ
    グラムを、コンピュータに読み取り可能に記録した記録
    媒体であって、 前記言語による文を構成する構成単位であって、まとま
    った意味を持つものとして類別された構成単位のうち、
    意味概念を表わす構成単位として類別された概念表現
    と、文構造の枠組を支える表現に対応した構成単位とし
    て抽出された枠組み表現とについて、少なくとも該概念
    表現同士および枠組み表現同士の関係を表わす情報を記
    録すると共に、 前記検索キー文を、第1の文として特定する機能と、 前記複数の検索対象文から、一の文を、順次、第2の文
    として特定する機能と、 前記第1の文および第2の文から、前記構成単位を抽出
    する機能と、 前記記憶された前記情報を参照して、該抽出された第1
    および第2の文を構成する前記構成単位のうち前記概念
    表現同士および前記枠組み表現同士の関係を、語順の対
    応関係を考慮しつつ判断することにより、前記第1の文
    と前記第2の文との関係を判定する機能と該判定結果
    を、前記特定された第2の文に応じて保存し、前記第1
    の文として特定された検索キー文に最も類似する第2の
    文を、前記複数の検索対象文中から選択する機能とを記
    録した記録媒体。
  28. 【請求項28】 一定のまとまりを持った内容を表わす
    語句である第1の語句と第2の語句とを入力し、該入力
    された第1の語句および第2の語句から該語句を構成す
    る単語を抽出し、該抽出された第1の語句を構成する単
    語と該第2の語句を構成する単語との関係を、意味概念
    を表わす表現である概念表現につき、少なくとも該概念
    表現同士の関係を表わす情報を記憶した辞書を参照して
    判断し、該判断の結果に基づいて前記第1の語句と前記
    第2の語句との関係を判定するプログラムを、コンピュ
    ータに読み取り可能に記録した記録媒体であって、 前記第1の語句または第2の語句のうちの少なくとも一
    方には、2以上の名詞である単語の結合により1のまと
    まった意味概念を表わす表現である複合表現を含み、 該複合表現と、該複合表現に対応する表現との関係を評
    価し、この評価の結果を考慮して、前記第1の語句と前
    記第2の語句との関係を判定する機能を記録した記録媒
    体。
JP11060046A 1999-03-08 1999-03-08 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体 Pending JP2000259627A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11060046A JP2000259627A (ja) 1999-03-08 1999-03-08 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11060046A JP2000259627A (ja) 1999-03-08 1999-03-08 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体

Publications (1)

Publication Number Publication Date
JP2000259627A true JP2000259627A (ja) 2000-09-22

Family

ID=13130758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11060046A Pending JP2000259627A (ja) 1999-03-08 1999-03-08 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体

Country Status (1)

Country Link
JP (1) JP2000259627A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160112248A (ko) * 2015-03-18 2016-09-28 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치
US10394961B2 (en) 2014-11-04 2019-08-27 Kabushiki Kaisha Toshiba Foreign language sentence creation support apparatus, method, and program
WO2020170804A1 (ja) * 2019-02-21 2020-08-27 日本電信電話株式会社 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
JPWO2021044519A1 (ja) * 2019-09-03 2021-03-11

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10394961B2 (en) 2014-11-04 2019-08-27 Kabushiki Kaisha Toshiba Foreign language sentence creation support apparatus, method, and program
US11132389B2 (en) 2015-03-18 2021-09-28 Research & Business Foundation Sungkyunkwan University Method and apparatus with latent keyword generation
KR101668725B1 (ko) * 2015-03-18 2016-10-24 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치
KR20160112248A (ko) * 2015-03-18 2016-09-28 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치
WO2020170804A1 (ja) * 2019-02-21 2020-08-27 日本電信電話株式会社 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
JP2020135567A (ja) * 2019-02-21 2020-08-31 日本電信電話株式会社 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
JP7147625B2 (ja) 2019-02-21 2022-10-05 日本電信電話株式会社 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
WO2021044519A1 (ja) * 2019-09-03 2021-03-11 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
KR20220027273A (ko) * 2019-09-03 2022-03-07 미쓰비시덴키 가부시키가이샤 정보 처리 장치, 컴퓨터 판독 가능한 기록 매체 및 정보 처리 방법
JP7058807B2 (ja) 2019-09-03 2022-04-22 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
TWI770477B (zh) * 2019-09-03 2022-07-11 日商三菱電機股份有限公司 資訊處理裝置、儲存媒體、程式產品及資訊處理方法
JPWO2021044519A1 (ja) * 2019-09-03 2021-03-11
KR102473788B1 (ko) 2019-09-03 2022-12-02 미쓰비시덴키 가부시키가이샤 정보 처리 장치, 컴퓨터 판독 가능한 기록 매체 및 정보 처리 방법

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN105512291B (zh) 用于扩展数据库搜索查询的方法和***
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
US20140039879A1 (en) Generic system for linguistic analysis and transformation
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2012095696A2 (en) Text segmentation with multiple granularity levels
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JP2008140359A (ja) 評価情報抽出装置、評価情報抽出方法およびそのプログラム
CN111209753B (zh) 一种实体命名识别方法及装置
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP3612769B2 (ja) 情報検索装置および情報検索方法
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP2000259627A (ja) 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
JP2000322449A (ja) 自然言語文関係判定装置、自然言語文検索装置、自然言語文生成装置およびこれらに用いる枠組み表現出力装置、ならびにそれらの方法および記録媒体
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP4953459B2 (ja) 文字ベクトルを用いた略語生成装置、方法及びプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH11154160A (ja) データ検索システム
Mahte et al. Emoticon Suggestion with Word Prediction using Natural Language Processing
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3386520B2 (ja) 仮名漢字変換装置および方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060117