JP2000259627A

JP2000259627A - 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体

Info

Publication number: JP2000259627A
Application number: JP11060046A
Authority: JP
Inventors: Kimiaki Shudo; 公昭首藤; Yasuo Koyama; 泰男小山
Original assignee: AI SOFT KK
Current assignee: AI SOFT KK
Priority date: 1999-03-08
Filing date: 1999-03-08
Publication date: 2000-09-22

Abstract

(57)【要約】【課題】文と文との間の類否を、文法レベルの処理に
よって適切に判定するとともに、この判定に基づいて文
の検索を行なう技術を提供する。【解決手段】単語ａ１から単語ａｍまでｍ個の単語か
らなる入力文字列Ａおよび単語ｂ１から単語ｂｎまでｎ
個の単語からなる対比文字列Ｂから、各単語を抽出し、
類義語辞書３６の参照等により各単語間の距離ｔ（ａ
ｉ，ｂｊ）を求める。この各単語間の距離ｔ（ａｉ，ｂ
ｊ）の値と単語の脱落コストｒ，ｑの値を用いて演算処
理を行ない（ステップＳ５１５〜Ｓ５２５）、語順を保
つことを前提として考えられる全ての単語列につき、単
語列同士の距離ｄ（ａｉ，ｂｊ）を順次求める（ステッ
プＳ５３５）。全ての単語を含む単語列同士の距離ｄ
（ａｍ，ｂｎ）の値を求めた後、この値を用いた演算処
理により文字列間の類似度ｓ（ａｍ，ｂｎ）の値を求
め、この値に基づいて文字列間の類似度を判定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語を扱う手
法に関し、詳しくは自然言語文を対象として、二つの文
間の関係を判定する装置およびその判定方法ならびにそ
の判定を行なう機能を記録した記録媒体に関する。

【０００２】

【従来の技術】人間がコミュニケーションに用いる言語
は、プログラミング用の人工的な言語に対して自然言語
と呼ばれるが、その形態は、言語を用いて行なわれるコ
ミュニケーションの総体と考えるべきであり、論理的な
少数の原則を組み合わせたものとし把握することはでき
ない。いわゆる文法も、各言語について存在するが、こ
れは自然言語に存在する膨大なルールの一部を、いくつ
かのわかりやすい規則により整理しようとする試みに過
ぎず、自然言語を完全に記述するものでないことは良く
知られている。

【０００３】こうした自然言語を取り扱う技術は、日本
では、例えば、仮名漢字変換という形で独自の発達を遂
げている。入力された仮名文字に基づいて、入力者が期
待する仮名漢字混じり文を得るためには、文法的な解析
だけではなく、最近では用例変換や係り受けを用いた変
換などの手法が実現されている。このような手法を用い
ることで、「あつい」という仮名文字を、「夏が暑い」
の場合と「お茶が熱い」の場合との間で区別して変換す
ることを可能としている。

【０００４】自然言語に関する他の大きな技術として
は、自然言語文の検索や機械翻訳、更に最近では要約文
の生成などが知られている。自然言語文の検索は、検索
対象文字列内に、検索しようとする語と完全一致の文字
列があるかを検索する手法を基本とし、更に複数の検索
語の検索結果の論理和、論理積による検索や、シソーラ
スを用いた概念類似語の検索などが実用化されている。
一例を挙げると、検索しようとする文（以下、「検索キ
ー文」と呼ぶ）として、「東京のうまい店」という語句
を入力して、インターネットのホームページを検索する
ケースでは、単純に概念表現である「東京」や「うまい
店」を検索キーとして用意し、複合語検索を行なったの
では、「東京」の類義語や上位，下位の概念を示す表現
と考えられる「首都圏」や「都内」などの用語を用いた
説明文を検索することはできない。同様に、「うまい
店」については、「名店」や「グルメ」といった言葉
を、検索キーとして用意することが必要になる。こうし
た自然言語文の検索は、例えば全世界に存在するインタ
ーネットのホームページの検索や、大量に蓄積された論
文などの検索において、極めて有用である。

【０００５】かかる検索についての提案としては、「イ
ンデックス文の類似性に基づく映像検索」（山田一郎
他、第５回国立国語研究所国際シンポジウム第１専門部
会発表論文、１９９７年８月）や、「構文付きコーパス
の作成と類似用例検索システムへの応用」（兵藤安昭
他、「自然言語処理」Ｖｏｌ３，Ｎｏ．２、１９９７年
８月）などがある。これらの論文では、国立国語研究所
編纂の「分類語彙表」を用い、名詞や動詞を対象とし
て、単語間の類似度を考慮した検索を行なっている。ま
た、「○○が、△△を、□□する」といった構文パター
ンの一致を、前提として各単語間の類似度の判定と、文
全体の類似度の判定とを行なっている。

【０００６】他方、機械翻訳では、言語間の類似度によ
りいくつかのアプローチが提案されている。例えば、ド
イツ語とフランス語間のように、文法の根本的な規則が
同一の語族に属する言語間では、文を構成する要素間の
置き換えを基本とする手法でも、ある程度の翻訳は可能
である。これに対して、屈折語に属する英語と膠着語の
一つである日本語との間の翻訳などは、語の置き換えに
よって翻訳することは困難であることが知られている。
そこで、構文解析過程を経て、構文対構文の翻訳が試み
られてきたが、解析結果の多様性を絞り込むことが容易
ではないなどの問題点が多く、十分な成果は得られてい
ない。このような状況から、近年では、翻訳者により翻
訳された大量の翻訳例を収集し、翻訳しようとする文が
与えられたとき、この文に類似した文を検索し、その訳
文を参照して単語の置き換えなどにより翻訳していくと
いった手法が注目されている。この場合には、大量の例
文から、翻訳しようとする文に近い構造の文（類似度の
高い文）を検索することが行なわれている。

【０００７】こうした自然言語による文についての検索
や翻訳、更には要約文の作成などの処理を考えると、最
終的には、自然言語による文が表わしている意味につい
ての解析が必要になると考えられる。あるいは、意味に
至る手前の技術として、自然言語により表現された表現
例を大量に用意し、これらを参照する手法を考えること
ができる。前者については、意味規則の設定の難しさ等
もあり、ニューラルネットワークを用いた意味推論やエ
キスパートシステムなどが提案されている。また、後者
については、近年大規模な用例辞書あるいは係り受け辞
書が使用可能な状況になっており、例えば仮名漢字変換
において、「夏が暑い」と「お茶が熱い」とを正しく変
換しようとする提案がなされている。

【０００８】

【発明が解決しようとする課題】しかしながら、従来の
自然言語の処理では、検索や翻訳について、未だ十分な
処理ができないという問題があった。自然言語による文
を処理する際、精度の高い検索などを行なうとすると、
最終的には、文が表わしている意味を扱う必要が生じる
と考えられるが、意味を簡易に扱う技術は未だ実用化さ
れておらず、現時点では検索や翻訳に直ちに適用するこ
とができない。かといって、従来の複合語検索程度の技
術では、大量の自然言語データを、精度良く扱うことが
できない。

【０００９】単語間の類似度を考慮した検索手法も提案
されていることは、上述した通りだが、名詞や動詞とい
った概念表現しか検討しておらず、しかも構文が一致し
ないと類似の意味を示す文であっても検索の対象から漏
れてしまう可能性が高い。「東京のうまい店」という語
句を例にとると、「首都圏の名店」や「都内のグルメガ
イド」は検索することができるとしても、「東京２３区
における名店」や「東京にだってうまい店」は、検索す
ることができない可能性が高い。他方、「東京以外のう
まい店」は検索してしまう可能性も高い。

【００１０】本発明は、これらの問題点を解決し、意味
の認識という技術には深くは立ち入らず、主として文法
レベルの処理により、自然言語文同士の関係を適切に判
定したり、その判定に基づいて自然言語文の検索を行な
う技術を提案することを目的とする。

【００１１】

【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決するために、次の一連の
発明がなされたが、これらの技術は、つまるところ、自
然言語文判定装置を基礎に置いている。即ち、本発明の
自然言語文関係判定装置は、一定のまとまりを持った内
容を表わす所定言語の文であり、判定対象となる第１の
文と、該第１の文との関係が判定される第２の文とを入
力し、前記言語による文を構成する構成単位であって、
まとまった意味を持つものとして類別された構成単位を
用いて、前記第１の文と前記第２の文との関係を判定す
る自然言語文関係判定装置であって、前記類別された構
成単位のうち、意味概念を表わす構成単位として類別さ
れた概念表現と、文構造の枠組を支える表現に対応した
構成単位として抽出された枠組み表現とについて、少な
くとも該概念表現同士および枠組み表現同士の関係を表
わす情報を記憶した関係情報記憶手段と、前記第１の文
および第２の文から、前記構成単位を抽出する構成単位
抽出手段と、前記関係情報記憶手段に記憶された前記情
報を参照して、該抽出された第１および第２の文を構成
する前記構成単位のうち前記概念表現同士および前記枠
組み表現同士の関係を、語順の対応関係を考慮しつつ判
断することにより、前記第１の文と前記第２の文との関
係を判定する関係判定手段とを備えることを要旨として
いる。

【００１２】ここで、「文」とは、単語のまとまりによ
って何らかの意味内容を表わす言語表現をいい、主語，
述語を備える完結した表現のほか、言葉の一区切りであ
る句を単位とした表現や、一語文の組み合わせからなる
表現等を含む。例えば、「私は東京のうまい店を知りた
い。」という完結した文、「東京のうまい店」や「うま
い店」のような句，「先生、こんにちは」のような一語
文の組み合わせも、「文」に含まれる。

【００１３】この装置によれば、第１の文と第２の文と
から、これらの文に含まれる概念表現と枠組み表現とを
抽出し、少なくとも概念表現同士および枠組み表現同士
の関係を表わす情報を参照して、両文に含まれる表現の
語順の対応関係を考慮して、第１の文と第２の文との関
係を判定する。

【００１４】ここで、「第１の文と第２の文との関係」
とは、第１の文と第２の文との間に認められる関わり合
いを意味し、例えば、文の意味が同じである，似てい
る，異なる，反対である等の文の意味に関する類否や異
同のほか、文の用法に関する類否や異同などが含まれ
る。この文の用法としては、例えば、文語文と口語文，
常体文と敬体文という文法的に区別可能なもののほか、
標準語を用いた文と方言を用いた文，男性が作成した文
と女性が作成した文，２０代の人が作成した文と５０代
の人が作成した文という、文法規則のみによっては区別
できないものを含む。このような関わり合いとしての各
要素を複数組み合わせたものを、「第１の文と第２の文
との関係」としても差し支えない。また、この第１の文
と第２の文との関係については、予め特定の関係（例え
ば類似関係）を指定しておくものとしても良いし、判定
に先立って、判定しようとする関係を、使用者が与える
ものとしても良い。

【００１５】概念表現とは、所定の言語による文を構成
する構成単位であって、まとまった意味を持つものとし
て類別された構成単位のうち、意味概念を表わす表現で
あり、名詞，動詞，形容詞などの概念語や、この概念語
同士の結合などが含まれる。また、枠組み表現とは、所
定言語による文を構成する構成単位であって、まとまっ
た意味を持つものとして類別された構成単位のうち、文
構造の枠組を支える表現に対応した構成単位として抽出
されたものである。発明者は、かかる枠組み表現を、膠
着語の一つである日本語について広く採取し、「日本語
の文構造のわく組を与える表現−機能カテゴリーと接続
ルール−」（福岡大学総合研究所報第６３号、昭和５８
年３月）および「日本語の文構造のわく組を与える表現
−構造的意味情報の整理−」（福岡大学総合研究所報第
６３号、昭和５８年３月）として公表している。枠組み
表現には、これらの論文で類別された関係表現（１の文
中において格関係，因果関係などの概念間関係を表わす
表現、日本語における格助詞、接続助詞、およびこれら
に相当する表現）や広義の様相情報（話し手や書き手の
判断や態度、時制、相、否定、態など）を与える日本語
における助述表現などが含まれる。

【００１６】「枠組み表現同士の関係」とは、枠組み表
現と枠組み表現との間に認められる繋がりを意味し、こ
の関係の種類には、例えば、枠組み表現の意味が同じで
ある，似ている，異なる，反対である等の枠組み表現の
意味に関する類否や異同のほか、枠組み表現の属性に関
する異同や類否などが含まれる。この枠組み表現の属性
としては、例えば、枠組み表現の時制や態，推定の程
度，強調や限定の程度，肯定と否定の別，文語と口語の
別，常体と敬体の別などの文法的に区別可能なもののほ
か、標準語と方言の別、男言葉と女言葉の別，枠組み表
現を用いる年齢層のような文法規則のみによっては区別
できないものを考えることができる。勿論、上記した関
係の種類を複数組み合わせたものを、「枠組み表現同士
の関係」としてもよい。

【００１７】かかる自然言語文関係判定装置において、
第１の文と前記第２の文との関係を判定する際、該構成
単位の語順の対応関係として、抽出した構成単位の出現
順の相違を許容するものとすることも望ましい。自然言
語文同士の判定では、各語の語順が同一でないことも多
いからである。なお、前記語順の対応関係において出現
順の相違を許容する際、構成単位間の２組以上の対応関
係の交差を禁止しておくことも、判定処理を簡素化する
上で望ましい。

【００１８】また、こうした自然言語文関係判定装置に
おいて、第１，第２の文を構成する前記構成単位のう
ち、前記概念表現同士の関係と、前記枠組み表現同士の
関係とを、前記関係情報記憶手段に記憶された情報を参
照してそれぞれ判定し、概念表現同士についての判定結
果と枠組み表現同士についての判定結果を、前記語順の
対応関係をとりつつ利用することにより、前記第１およ
び第２の文同士の関係を判定するものとしても良い。か
かる構成によれば、概念表現同士の関係と枠組み表現同
士の関係とを、個別に判断できるので、処理を簡素化す
ることができる。

【００１９】構成単位同士の関係を判定する際、第１ま
たは第２のいずれかの文から抽出された各構成単位に関
し、対応する構成単位が他方の文に必ず存在するとは限
らない。また、一方の文の一つの構成単位に対して、一
定の関係がある構成単位が他方の文に複数存在する場合
も考えられる。こうした場合に、対応する構成単位が脱
落していると判断した方が、全体として両文の関係を正
しく判定できることが考えられる。この判定は、対応す
る構成単位が存在しない場合の値を、脱落値として予め
設定しておき、語順の対応関係をとりながら、前記第
１，第２の文から抽出された構成単位同士のうち、所定
の関係にあるもの同士に、該関係に基づく値を、関係値
として付与し、該付与された関係値および前記設定され
た脱落値を評価することにより、行なうことができる。
この評価を行なうことで、第１および第２の文同士の関
係値を求め、この関係値の大小により、判定すればよ
い。

【００２０】対応する構成単位が存在しない場合の脱落
値は、一律の値に設定しても良いが、関係を判定する文
の長さに応じて可変するものとしても良い。構成単位の
多い文は冗長度が高いと考えれば、脱落の影響を小さく
評価するよう設定することが望ましい。また、脱落値
を、構成単位の重要度に応じた値に設定する手段とする
ことも、文と文との関係をより実質的に判定できる点で
望ましい。さらに、他方の文に存在しない構成単位が、
概念表現であるか枠組み表現であるかによって、異なる
脱落値を設定するものとしてもよい。判定しようとする
関係が、例えば、文間の類似度の場合、概念表現の脱落
は類似度の判定に及ぼす影響が大きいと考えられるか
ら、概念表現が脱落している場合には、枠組み表現が脱
落している場合より大きく評価されるものとしておくこ
とが考えられる。また、意味内容ではなく、表現の構造
についての関係を判定するような場合には、枠組み表現
の脱落値の方を大きくしておくと言ったことも好適であ
る。

【００２１】文を構成する構成単位間の関係を判定して
文間の関係を判定する場合には、通常概念表現同士、枠
組み表現同士の関係を検討すれば良く、概念表現と枠組
み表現との間の関係を予め規定しておく必要性は低いと
考えられる。しかし、意味概念を単独で表わす概念語同
士の関係に加えて、概念性接辞と概念語との関係を情報
として記憶しておくことは望ましい。例えば、概念性接
辞の「新」と概念語の「新しい」とは、類似関係がある
ものとして評価した方が望ましい。概念性接辞の「的」
と概念語の「スタイル」なども、同様である。

【００２２】判定する文間の関係に種々のものを想定で
きることは既に述べたが、この関係が類似関係である場
合には、概念表現同士および枠組み表現同士の類似の程
度を表わす情報を記憶しておくことができる。この場合
には、記憶された概念表現同士および枠組み表現同士の
類似の程度を参照して、前記第１および第２の文同士の
類否を判定することになる。文同士の関係として類否を
判定する場合には、自然言語文の検索や翻訳のための例
文検索、あるいは文の変形、圧縮（要約）などの処理に
おいて、最も適用範囲が広い。

【００２３】こうした類否の判定は、概念表現同士およ
び枠組み表現同士の対と、当該対にされた表現間の意味
上の類似度を数値によって表わした類似度数値データと
を、類否の程度を表わす情報として、記憶しておき、こ
の類似度数値データの大小を用いて、前記類否の判定を
行なうことが簡便である。

【００２４】こうした類似度数値データとしては、値０
ないし１の範囲で、類似の程度が高いほど値１に近づく
値を用いることができ、この類似度数値データの値か
ら、概念表現同士および枠組み表現同士の距離を演算
し、この距離の総和が最も短くなる組み合わせを特定す
ることで、第１および第２の文同士の類似の程度を求め
るものとしてもよい。距離の総和を用いて類似の程度を
判定する手法は、二つの文間の類似を議論する上で、具
体的なイメージを提供し、理解を容易にする。また、従
来から知られたパターンマッチングなどの手法の適用を
容易にする。

【００２５】かかる文間の類否を判定する自然言語文関
係判定装置を用いて、複数の検索対象文から、検索のた
めのキーとして与えられた検索キー文に類似した文を検
索する自然言語文検索装置を構成することができる。即
ち、この自然言語文検索装置は、上述した文間の類否の
判定を行なう自然言語文関係判定装置と、前記検索キー
文を、第１の文として特定する第１文特定手段と、前記
複数の検索対象文から、順次、一の文を選択して、第２
の文として特定する第２文特定手段と、前記特定された
第１の文および前記第２の文を、前記自然言語文関係判
定装置に付与して、前記類否判定を行なわせる判定実行
手段と、前記自然言語文関係判定装置の判定結果を、前
記付与された第２の文に応じて保存し、前記第１の文と
して与えられた検索キー文に最も類似する第２の文を、
前記複数の検索対象文中から選択する選択手段とを備え
たことを要旨としている。

【００２６】かかる自然言語文検索装置は、複数の検索
対象文から一の文を順次選択し、この文と検索キー文と
の類似を自然言語文判定装置により判定し、この判定の
結果を保存し、複数の検索対象文の各文についての類否
の判定結果から、検索キー文に最も類似する文を選択す
ることができる。かかる構成をとれば、二つの文間の類
似を、語順の対応関係を考慮しつつ、かつ概念表現同士
および枠組み表現同士の類似に基づいて、判定すること
ができ、検索キー文に最も類似する文を、容易に検索す
ることができる。

【００２７】自然言語文関係判定装置の文と文との関係
の判定するための構成を、語句と語句との関係を判定す
る語句関係判定装置に応用することも可能である。即
ち、本発明の語句関係判定装置は、意味概念を表わす表
現である概念表現につき、少なくとも該概念表現同士の
関係を表わす情報を記憶した辞書と、第１の語句と第２
の語句とを入力する入力手段と、該入力された第１の語
句および第２の語句から該語句を構成する単語を抽出す
る抽出手段と、該抽出された第１の語句を構成する単語
と該第２の語句を構成する単語との関係を、前記辞書を
参照して判断する判断手段と、該判断手段による判断結
果に基づいて前記第１の語句と前記第２の語句との関係
を判定する判定手段とを備えた装置であって、前記第１
の語句または第２の語句のうちの少なくとも一方には、
２以上の単語の結合により１のまとまった意味概念を表
わす表現である複合表現を含み、該複合表現と、該複合
表現に対応する表現との関係を評価する評価手段を備
え、前記判定手段は、該評価手段による評価結果を考慮
して、前記第１の語句と前記第２の語句との関係を判定
する手段であることを要旨としている。

【００２８】このような構成を採れば、複合表現と複合
表現に対応する表現との関係を正確に判定することがで
きる。

【００２９】更に、上記の各装置に対応した方法の発明
として、自然言語文関係判定方法自然言語文検索方
法などを請求項１７ないし２２に記載した通り、考える
ことができる。

【００３０】同様に、上記の各方法に対応した記録媒体
の発明として、自然言語文の関係を判定するプログラ
ムを記録した記録媒体自然言語文を検索するプログラ
ムを記録した記録媒体などを請求項２３ないし２８に記
載した通り、考えることができる。

【００３１】

【発明の他の態様】本願発明は、専用機として構成して
も良いし、汎用性の高いパーソナルコンピュータなどで
実現しても良い。また、記録媒体に記憶された各機能を
実現するプログラムは、ネットワークに接続されたサー
バなどに保存・記憶しておき、必要に応じて実行用のマ
シンにダウンロードして利用することも可能である。こ
うしたサーバの形態あるいはサーバからプログラムを公
衆送信する場合も、本願の媒体の一形態とみなすことが
できる。

【００３２】

【発明の実施の形態】以上説明した本発明の構成および
作用を一層明らかにするために、以下本発明の実施の形
態を実施例に基づき説明する。図１は、本発明の自然言
語文関係判定装置の一例である文間類似度判定装置１Ａ
のハードウェアの構成を示す。この第１実施例としての
文間類似度判定装置１Ａは、類似度検索エンジン１０Ａ
と外部装置９０とを備え、類似度検索エンジン１０Ａ
は、当該エンジン１０Ａに入力された、一定のまとまり
を持った内容を表わす第１の文と第２の文とが類似する
程度（以下、文字列間類似度という）を判定する。以
下、第１の文を文字で表わしたものを「入力文字列」
と、第２の文を文字で表わしたものを「対比文字列」と
読み替えて説明する。文字列間類似度の判定処理は、類
似度検索エンジン１０Ａ内部のコンピュータにより実行
される。

【００３３】コンピュータは、各種演算処理を実行する
ためのＣＰＵ２２を中心に、バス３５により相互に接続
された次の各部を備えている。ＲＯＭ２４は、ＣＰＵ２
２で各種演算処理を実行するのに必要なプログラムや参
照データなどを予め格納しているメモリであり、後述す
る文字列間類似度の判定の実行に関するプログラムを格
納する。ＲＡＭ２６は、ＣＰＵ２２で各種演算処理を実
行するのに必要な各種データを一時的に格納するための
メモリである。

【００３４】ハードディスクコントローラ（ＨＤＣ）３
０は、外部記憶装置としてのハードディスク１０ａへの
信号出力を制御する。ハードディスク１０ａには、必要
に応じてＲＡＭ２６にロードされて実行される各種プロ
グラムや、デバイスドライバの形式やモジュールの形式
で提供されるプログラム、あるいは国語辞書や後述する
類義語辞書３６等の各種辞書などが記憶されている。勿
論、ＲＯＭ２４やＣＤ−ＲＯＭ等（図示せず）に、上記
したと同様な各種プログラムや必要な参照データなどを
記憶しておき、これら各種プログラムや参照データをロ
ードすることにより、コンピュータに実行させることも
可能である。

【００３５】入力インタフェース２０は、外部装置９０
からのデータや文字列の入力を司り、出力インタフェー
ス３４は、外部装置９０およびプリンタ９２へのデータ
や文字列の出力を制御する。即ち、類似度検索エンジン
１０Ａは、図示しないケーブルを用いて外部装置９０と
接続されており、外部装置９０との間でデータや文字の
情報の入出力を行なう。勿論、入力インタフェース２０
を介してキーボードや手書き文字認識ボード等を接続
し、所望の文字列を入力可能な構成としても差し支えな
い。

【００３６】なお、入力インタフェース２０は、文字や
データをコード情報の形で入力するが、これ以外の形態
で入力可能な構成としてもよい。例えば、音声情報や文
字の形状に関する情報を入力するためのインタフェース
を設け、入力された情報を、ＣＰＵ２２が判読可能なデ
ジタル情報に変換し、これを音声認識や文字認識により
文字列に変換してから入力する構成などを考えることが
できる。

【００３７】ディスプレイコントローラ（ＤＣ）２８
は、表示装置としての液晶ディスプレイ１０ｂへの信号
出力を制御する。また、シリアル入出力インタフェース
（ＳＩＯ）３２は、モデム９４を介して公衆電話回線Ｐ
ＴＬに接続されており、この公衆電話回線ＰＴＬを介し
て、コンピュータ１０ｃを外部のネットワークＮＷに接
続することができる。さらに、特定のサーバーＳＶにア
クセスして、必要なプログラムやデータをハードディス
ク１０ａにダウンロードすることも可能である。

【００３８】本実施例では、外部装置９０を、ＣＰＵや
ＲＯＭ，ＲＡＭ等からなるコンピュータ９０ｃやハード
ディスク９０ａ，ディスプレイ９０ｂ，キーボード９０
ｄ等を備えるデスクトップ型のパソコンとしている。従
って、外部装置９０は、各種のアプリケーションプログ
ラムをインストールすることにより、種々の機能を実行
可能な装置となる。例えば、ワープロ機能を実現する文
書作成装置、電話回線を通じて文字情報を授受するデー
タ通信装置をはじめ、１の言語で作成された文章を他の
言語に翻訳する翻訳装置、入力された文字列と同一ない
し近似する文字列を有する情報を検索する情報検索装
置、作成した文書中からの特定の文字列の検索や保存さ
れているファイルからの所望のファイルの検索を実行す
る文字列検索装置、文章の要約文をコンピュータにより
作成する要約作成装置などを考えることができる。勿
論、パソコン以外の装置であっても、文字列を含むデー
タの情報を出力する機能を備えた装置であれば、外部装
置９０とすることができる。なお、本実施例では、外部
装置９０も、類似度検索エンジン１０Ａと同様に、図示
しないモデムを介して公衆電話回線ＰＴＬに接続されて
いる。

【００３９】次に、このようなハードウェアを用いて実
行される文字列間類否判定処理の内容について説明す
る。図２は、文字列間類否判定処理が実行される際の、
類似度検索エンジン１０Ａと外部装置９０との間の情報
の流れを示す説明図である。類似度検索エンジン１０Ａ
は、外部装置９０から送出された文字列を入力し、この
入力文字列との類否判断の対象となる対比文字列を参照
する。本実施例では、対比文字列の情報を、外部装置９
０のハードディスク９０ａ内に格納しているため、対比
文字列の参照先をハードディスク９０ａとしている。勿
論、対比文字列が読み取り可能に格納されている場所で
あれば、類似度検索エンジン１０Ａのハードディスク１
０ａやサーバーＳＶ等、どこを参照しても差し支えな
い。

【００４０】類似度検索エンジン１０Ａは、ハードディ
スク１０ａ内の類義語辞書３６を参照して、入力文字列
と対比文字列との類似度を判定する。この類義語辞書３
６の内容については後述する。類似度検索エンジン１０
Ａは、入力文字列と対比文字列との類似度の判定結果を
外部装置９０へ出力する。従って、外部装置９０は、自
己が保持する２つの文字列につき、当該文字列間の類否
判定の結果を利用可能となる。

【００４１】次に、文字列間類否判定処理の処理手順を
図３の文字列間類否判定ルーチンを参照しつつ説明す
る。文字列間類否判定ルーチンは、文字列が入力される
旨の信号を外部装置９０から受領したときに起動する。
図３に示すように、本ルーチンが起動されると、まず、
外部装置９０から送られてきた文字列の情報を入力し
（ステップＳ１００）、文字列間の類似度を比較する対
象である対比文字列を参照する処理を行なう（ステップ
Ｓ１２０）。

【００４２】次に、入力文字列と対比文字列のそれぞれ
につき、各文字列を構成する構成単位を文法情報ととも
に抽出する処理を行なう（ステップＳ１３０）。本実施
例では、まとまった意味を持つ表現、例えば、意味概念
を表わす概念表現や文構造の枠組を支える枠組み表現を
１の構成単位として抽出する。概念表現としての構成単
位には、概念語のほか、複数の単語の組み合わせにより
意味概念を表わすものも含む。枠組み表現としての構成
単位には、関係表現や助述表現等の機能的表現がある。

【００４３】この概念表現や機能的表現の抽出処理は、
この表現に関する文法情報を格納した国語辞書を参照す
ることにより行なわれる。この国語辞書には、文法情報
として、各表現が概念語，接辞，関係表現や助述表現の
うちのいずれに該当するかが記憶されている。これらの
文法情報は、その読みをインデックスとして参照するこ
とができる。

【００４４】ここで、概念語と機能的表現につき、図４
を参照しつつ説明する。概念語とは、それ自体で何らか
の意味概念を表わす語をいい、主として自立語がこれに
該当する。例えば、名詞の「バス」、動詞の「来る」、
形容詞の「美しい」等は、概念語の範疇に属する。一
方、機能的表現とは、それ自体では意味概念を表わさな
いが、概念語に付随して概念語が表わす概念の意味的役
割を限定する働きをする表現をいい、助詞や助動詞のよ
うな附属語の他、接頭語や接尾語のような接辞、および
これら以外の付随的表現、例えば、関係表現や助述表現
を表わす語等がこれに該当する。例えば、主体を表わす
助詞の「が」や場所や手段を表わす助詞の「で」、受け
身を表わす助動詞の「れる」や推量を表わす助動詞の
「らしい」、接頭語の「新」、接尾語の「難い（がた
い）」等は、機能的表現の範疇に属する。

【００４５】関係表現とは、１の文中において、概念語
と概念語との間に用いられることにより、格関係，因果
関係などの概念語間の関係を表わす表現をいい、前述し
た助詞の「で」の他、「によって」のような原因や手段
を表わす連語や「において」のような場所を表わす連語
等がこれに該当する。助述表現とは、主として述語であ
る概念語の後に用いられて、述語がそれ自体で持ってい
る意味内容を変化させる表現をいう。例えば、「かもし
れない」や「なければならない」のような連語、推量を
表わす助動詞「べし」の連体形と断定を表わす助動詞
「だ」の終止形とが結合した「べきだ」のような語等が
これに該当する。

【００４６】概念語と機能的表現との具体的関係を図４
に示す。図４（Ａ）に示すように、文字列が概念語だけ
で構成されている場合には、それぞれの概念語の持つ意
味内容が別個独立に表象されるため、文字列全体が表わ
す意味内容は多義的となる。例えば、「バス」と「来
る」という２つの概念語で構成された「バス来る」とい
う文字列は、「バスが来る」や「バスも来る」，「バス
で来る」，「バスによって来る」等のいずれの意味内容
を示すのか明らかでない。

【００４７】一方、図４（Ｂ）に示すように、２つの概
念語の間に機能的表現の１つである関係表現が存在する
場合には、関係表現は、直前の概念語の持つ意味上の働
きを特定する働きをする。例えば、「バス」という概念
語は、その後に「が」という機能的表現が置かれた場合
には「主体としてのバス」の意味を表わすこととなり、
「によって」という関係表現が置かれた場合には「交通
手段としてのバス」の意味を、「によって」という関係
表現が置かれた場合には「交通手段としてのバス」若し
くは「場所としてのバス」の意味を表わすこととなる。
即ち、概念語は、関係表現のような機能的表現と結びつ
いて初めて文の一構造となるのである。

【００４８】このように機能的表現によって先の概念語
の意味が特定されることにより、先の概念語から後の概
念語へ概念の有機的結合が生じ、文全体としてまとまっ
た１つの意味内容を表わすことになる。例えば、「バス
が来る」という文は、文全体として「バスが動いて自分
の存在する場所にやって来る」ということを意味し、
「バスによって来る」という文は、文全体として「ある
人が、数ある交通手段のうちバスという交通手段を用い
て自分の存在する場所にやって来る」ことを意味する。
また、それ自体で「交通手段」および「場所」という２
つの意味内容を有していた「バスで」という文字列は、
その後に「来る」という概念語が用いられることによっ
て、「交通手段としてのバス」の意味に限定され、この
結果、「バスで来る」という文は、「バスによって来
る」という文と極めて近似した意味を表わすものとな
る。

【００４９】また、図４（Ｃ）に示すように、述語であ
る概念語の後に機能的表現の１つである助述表現が存在
する場合には、助述表現は、直前の述語である概念語の
持つ意味内容を変化させる働きをする。例えば、「来
る」という概念語は、その後に「かもしれない」という
助述表現が置かれた場合には、「来る」という行為に関
する推定の意味を表わすこととなり、「べきだ」という
助述表現が置かれた場合には、「来る」という行為が義
務である旨の意味を表わすこととなる。

【００５０】このように、２つの文が同じ概念語を用い
ていても、用いられている機能的表現が異なることによ
り、全く意味の違う文となることがある一方で、時には
近似した意味を持つ文となる場合もある。即ち、機能的
表現は、文の持つ意味を大きく左右する役割を果たして
いるのである。

【００５１】図３に説明を戻す。ステップＳ１３０にお
いて入力文字列と対比文字列から各文字列を構成する構
成単位を概念語，関係表現，助述表現，接辞に分けて抽
出した後、これらの抽出された各構成単位同士の類似度
（以下、語間類似度という）を判定する単語間類似度判
定処理を行なう（ステップＳ１４０）。なお、以下の説
明では、文を構成する各構成単位を、説明の便宜上、広
義の「単語」と呼ぶものとする。次に、この判定結果に
基づいて、入力文字列を構成する各単語列と対比文字列
を構成する単語列との間の類似度（以下、単語列間類似
度という）を判定する単語列間類似度判定処理を行なう
（ステップＳ１５０）。これらの処理の詳細については
後述する。次に、判定された単語列間類似度を示す数値
を判定結果として外部装置９０に出力する処理を行なっ
て（ステップＳ１６０）、本ルーチンを終了する。

【００５２】次に、図３のステップＳ１４０の単語間類
似度判定処理の詳細につき、図５から図８を参照しつつ
説明する。図５および図６は、単語間類似度判定ルーチ
ンを示すフローチャートである。本ルーチンは、入力文
字列および対比文字列を構成する単語が、各文字列から
文法情報とともに抽出されたときに起動する。以後、説
明の便宜を図るため、入力文字列Ａからは、「単語ａ１
／単語ａ２／単語ａ３／…／単語ａｉ／…／単語ａｍ
（記号／は単語の区切りを、英字ｉは文字列Ａ中におけ
る単語の序数を、英字ｊは文字列Ｂ中における単語の序
数を、それぞれ示す。以下同じ）」という総数ｍ個の単
語を、対比文字列Ｂからは、「単語ｂ１／単語ｂ２／単
語ｂ３／…／単語ｂｊ／…／単語ｂｎ」という総数ｎ個
の単語を、それぞれ抽出したものとして説明する。

【００５３】本ルーチンが起動されると、まず、入力文
字列Ａについての単語の序数ｉを値１にセットするとと
もに（ステップＳ２００）、対比文字列Ｂについての単
語の序数ｊを値１にセットする処理を行なう（ステップ
Ｓ２１０）。これによって、語間類似度の判定対象は、
単語ａ１と単語ｂ１に特定される。

【００５４】次に、単語ａ１と単語ｂ１が、ともに接辞
であるか否かを判断し（ステップＳ２２０）、ともに接
辞でない場合には、ともに概念語であるか否かを判断す
る処理を行なう（ステップＳ２２５）。ともに概念語で
もない場合には、ともに関係表現であるか否かを判断し
（ステップＳ２３０）、ともに関係表現でもない場合に
は、ともに助述表現であるか否かを判断する処理を行な
う（ステップＳ２３５）。単語ａ１と単語ｂ１が、とも
に接辞，ともに概念語，ともに関係表現，ともに助述表
現のいずれかである場合には、単語ａ１について類義語
辞書３６を参照し（ステップＳ２４０）、類義語として
単語ｂ１が登録されているか否かを判断する処理を行な
う（ステップＳ２４５）。

【００５５】類義語辞書３６の構造について図７および
図８を参照しつつ説明する。本実施例において、類義語
辞書３６は、図７に示す概念語類義語辞書３６ａと図８
に示す機能的表現類義語辞書３６ｂを備え、概念語類義
語辞書３６ａは、概念語とこの概念語に類似する意味を
持つ語（以下、概念類似語という）の情報を、機能的表
現類義語辞書３６ｂは、機能的表現とこの機能的表現に
類似する意味を持つ語（以下、機能類似語という）の情
報を格納する。図７および図８に示すように、概念語類
義語辞書３６ａおよび機能的表現類義語辞書３６ｂは、
検索用の見出しであるインデックスに対応して、各概念
語や各機能的表現に関する文字情報および品詞情報を五
十音順に格納するとともに、これらの各概念語や各機能
的表現に対応する概念類似語や機能類似語の文字情報，
品詞情報を格納する。なお、類義語辞書３６は、概念語
と機能的表現に関する情報をまとめた１の辞書としても
よく、また、概念語，接辞，関係表現，機能表現という
格納される単語の種類ごとに別々の辞書を設ける構成と
しても差し支えない。

【００５６】併せて、概念語類義語辞書３６ａおよび機
能的表現類義語辞書３６ｂは、概念語と各概念類似語お
よび機能的表現と各機能類似語とが意味上類似する度合
いを示す語間類似度の数値データを格納する。本実施例
では、語間類似度を「０≦Ｇ≦１」の範囲の数値を用い
て表わし、数値が１に近づくほど意味の類似する程度が
高いものと定義している。例えば、前述した「バス」と
いう概念語については、概念類似語として「車」という
語の情報が、「０．３」という比較的低い語間類似度の
値とともに登録されており、「私」という概念語につい
ては、概念類似語として「僕」という語の情報が、
「０．９」という高い語間類似度の値とともに登録され
ている。

【００５７】なお、概念語類義語辞書３６ａには、概念
語以外の語も概念類似語として登録されている。例え
ば、文中において概念語と同様の意味や用法で用いられ
る接辞（以下、概念語性接辞という）も登録されてい
る。この概念語性接辞には、例えば、「新」や「大」，
「実」という接頭語があり、これらは、「新しい」や
「大きな」，「実際の」という形容詞と同様に、直後の
名詞を修飾する形で用いられる（例えば、「新企画」と
「新しい企画」，「大発見」と「大きな発見」，「実
話」と「実際の話」）。このため、概念語類義語辞書３
６ａには、「新しい」や「大きな」，「実際の」という
形容詞としての概念語に対応する概念類似語として、
「新」や「大」，「実」という接頭語が登録されてい
る。このことは、機能的表現類義語辞書３６ｂについて
も同様であり、「新」や「大」，「実」という接辞とし
ての機能的表現に対応する機能類似語として、「新し
い」や「大きな」，「実際の」という概念語が登録され
ている。

【００５８】このことに関連して、ステップＳ２２０で
は、単語ａｉと単語ｂｊの双方が接辞でない場合であっ
ても、一方が概念語性接辞で一方が概念語である場合に
は、ともに接辞であるとみなして、類義語辞書３６を参
照することとしている。勿論、ステップＳ２２５におい
て、単語ａｉと単語ｂｊの双方が概念語ではないが、一
方が概念語で一方が概念語性接辞である場合に、ともに
概念語とみなして、類義語辞書３６を参照することとし
てもよい。従って、概念語性接辞と概念語との間におい
ても、妥当性の高い語間類似度を求めることが可能とな
る。

【００５９】図５に説明を戻す。ステップＳ２４５にお
いて、単語ａ１についての類義語として単語ｂ１が登録
されていると判断した場合には、類義語辞書３６に記憶
された語間類似度の値を単語ａ１と単語ｂ１との間の語
間類似度として記憶する処理を行なう（ステップＳ２５
０）。本実施例では、単語ａｉと単語ｂｊとの語間類似
度をｔ（ａｉ，ｂｊ）として表わす。従って、単語ａ１
と単語ｂ１との間の語間類似度は、ｔ（ａ１，ｂ１）と
表わされる。

【００６０】ステップＳ２４５において、単語ａ１につ
いての類義語として単語ｂ１が登録されていないと判断
した場合、またはステップＳ２３５において、単語ａ１
と単語ｂ１が、ともに概念語（一方が概念語性接辞であ
る場合を除く），ともに接辞，ともに関係表現，ともに
助述表現のいずれでもない場合には、語間類似度の値と
して０（ゼロ）を記憶する処理を行なう（ステップＳ２
５５）。この語間類似度の値は、ＲＡＭ２６上の単語間
情報記録テーブルＧＴに記録される。

【００６１】次に、ステップＳ２５０およびＳ２５５で
設定された語間類似度の値に基づいて、単語と単語との
間の距離（以下、語間距離という）を求める処理を行な
う（ステップＳ２６０）。本実施例では、単語ａｉと単
語ｂｊとの語間距離を、単語ａｉと単語ｂｊとの語間類
似度の値の補数の２倍値、即ち、２｛１−ｔ（ａｉ，ｂ
ｊ）｝として表わす。従って、単語ａ１と単語ｂ１との
間の語間距離は、２｛１−ｔ（ａ１，ｂ１）｝と表わさ
れる。この語間距離の値は、ＲＡＭ２６上の単語間情報
記録テーブルＧＴに記録される。

【００６２】この結果、語間距離は「０≦Ｇ≦２」とい
う数値範囲となり、この数値が０に近づくほど単語間の
距離が近いものとなる。例えば、前述した語間類似度の
値が「０．３」である「バス」という概念語と「車」と
いう語の場合、語間距離は「１．４」という比較的遠い
距離を示す値となり、語間類似度の値が「０．９」であ
る「私」という概念語と「僕」という語の場合、語間距
離は「０．２」という近い距離を示す値となる。

【００６３】次に、対比文字列Ｂについての単語の序数
ｊに値１を加え（ステップＳ２６５）、序数ｊと対比文
字列Ｂの単語総数ｎとを比較し、序数ｊが総数ｎを超え
たと判断するまでステップＳ２２０に戻って上記の処理
を繰り返す（ステップＳ２７０）。序数ｊが総数ｎを超
えたと判断した場合には、入力文字列Ａ中の単語ａ１に
ついては対比文字列Ｂの各単語との類似度の判定が完了
したものとして、入力文字列Ａについての単語の序数ｉ
に値１を加え（ステップＳ２７５）、序数ｉと入力文字
列Ａの単語総数ｍとを比較する（ステップＳ２８０）。
序数ｊが総数ｎを超えていない場合には、ステップＳ２
１０に戻って上記の処理を繰り返す。序数ｊが総数ｎを
超えている場合には、入力文字列Ａ中の全ての単語と対
比文字列Ｂの全ての単語との間における類似度の判定が
完了したものとして、本ルーチンを終了する。

【００６４】この単語間類似度判定処理が２つの文字列
について実際に行なわれた場合について説明する。図９
は、「新日米防衛協定締結のための指針については」と
いう入力文字列Ａと「新しい日米の協力ガイドラインに
関して」という対比文字列Ｂについて、単語間類似度判
定処理が行なわれた後の単語間情報記録テーブルＧＴの
様子を示す。

【００６５】入力文字列Ａは、図３のステップＳ１３０
の単語抽出処理により、接頭辞である「新」，名詞であ
る「日米」，サ変名詞である「防衛」，名詞である「協
定」，サ変名詞である「締結」，関係表現である「のた
めの」，名詞である「指針」，関係表現である「につい
て」および関係表現である「は」という総数９個の単語
に区分される。以下、これらの各単語をそれぞれ単語ａ
１，単語ａ２，単語ａ３，単語ａ４，単語ａ５，単語ａ
６，単語ａ７，単語ａ８，単語ａ９として説明する。一
方、対比文字列Ｂは、形容詞である「新しい」，名詞で
ある「日米」，関係表現である「の」，サ変名詞である
「協力」，名詞である「ガイドライン」および関係表現
である「に関して」という総数６個の単語に区分され
る。以下、これらの各単語をそれぞれ単語ｂ１，単語ｂ
２，単語ｂ３，単語ｂ４，単語ｂ５，単語ｂ６として説
明する。

【００６６】単語間情報記録テーブルＧＴには、これら
の９個の各単語と６個の各単語の全ての組み合わせにつ
いての語間類似度と語間距離が記録されている。例え
ば、入力文字列Ａ中の「新しい」という単語ａ１と対比
文字列Ｂ中の「新」という単語ｂ１との間のデータを記
録する欄（図９の表においてｉの値が１でｊの値が１の
場合）には、語間類似度の値として、概念語類義語辞書
３６ａへの登録値である「１．０」という値が、語間距
離の値として、「２×（１−１．０）」という計算式の
演算値である「０．０」という値が、それぞれ記録され
ている。

【００６７】一方、入力文字列Ａ中の「新しい」という
単語ａ１と対比文字列Ｂ中の「日米」という単語ｂ２と
の間のデータを記録する欄（図９の表においてｉの値が
１でｊの値が２の場合）には、単語ａ１と単語ｂ２とは
それぞれ接辞と名詞であり、類義語辞書３６が参照され
ないので、語間類似度の値として「０．０」という最低
値が記録されている。この結果、語間距離の値として、
「２×（１−０．０）」という計算式の演算値である
「２．０」という最高値が、それぞれ記録されている。

【００６８】次に、図３のステップＳ１５０の単語列間
類似度判定処理の詳細につき、図１０から図２６を参照
しつつ説明する。図１０は、単語列間類似度判定ルーチ
ンＡを示すフローチャートである。本ルーチンは、ステ
ップＳ１４０の単語間類似度判定処理において判定され
た文字列を構成する各単語の語間距離の値から単語列同
士の類似度の値を求めるルーチンであり、単語間類似度
判定処理の終了とともに起動する。

【００６９】本ルーチンが起動されると、まず、一方の
単語列の単語と類似する単語が他方の文字列に存在しな
い場合における距離の加算値を設定する脱落コスト設定
処理を行ない（ステップＳ３００）、次に、単語列間の
距離を演算する単語列間距離演算処理を行なう（ステッ
プＳ３２０）。最後に、単語列間の距離の値を用いて文
字列間の類似度を演算する演算処理を行なって（ステッ
プＳ３４０）、本ルーチンを終了し、次の判定結果出力
処理（図５のステップＳ１６０）に移る。以下、本ルー
チンの３つのステップを、それぞれ「脱落コスト設定処
理」，「単語列間距離演算処理」，「単語列間類似度の
演算処理」として、詳細に説明する。

【００７０】まず、ステップＳ３００の脱落コスト設定
処理について、図１１および図１２を参照しつつ説明す
る。図１１は、脱落コスト設定ルーチンを示すフローチ
ャートであり、図１２は、脱落コスト設定処理により座
標軸が設定された距離グラフＹＧを示す。距離グラフＹ
Ｇは、文字列間の類否を判断する前提として、相互に類
似しているとすべき単語とそうでない単語とを区別して
表わすためのグラフであり、その横軸には入力文字列Ａ
を構成する各単語ａ１〜ａｍが、縦軸には対比文字列Ｂ
を構成する各単語ｂ１〜ｂｍが割り付けられている。

【００７１】図１１の脱落コスト設定設定ルーチンは、
図１０の単語列間類似度判定ルーチンＡの起動に伴って
起動する。以後、入力文字列Ａ中の単語ａ１から単語ａ
ｉまでの単語列と対比文字列Ｂ中の単語ｂ１から単語ｂ
ｊまでの単語列との間の距離を、ｄ（ａｉ，ｂｊ）とし
て説明する。

【００７２】本ルーチンが起動されると、まず、入力文
字列Ａ中における単語の序数ｉと入力文字列Ｂ中におけ
る単語の序数ｊの値を０（ゼロ）にセットし（ステップ
Ｓ４００）、ｄ（ａ０，ｂ０）の値、即ち、入力文字列
Ａと対比文字列Ｂとの対比前における入力文字列Ａと対
比文字列Ｂとの間の距離の値を０（ゼロ）として設定す
る処理を行なう（ステップＳ４１０）。この処理によ
り、距離グラフＹＧにおける文字列間の距離を計測する
開始点が、距離グラフＹＧ上の原点Ｏ（オー）として決
定される（図１２のを参照）。

【００７３】次に、入力文字列Ａ中における単語ａの序
数ｉの値を１にセットした後（ステップＳ４２０）、こ
のときのｄ（ａｉ，ｂｊ）の値を、ｄ｛ａ（ｉ−１），
ｂｊ｝の値に単語ａｉの脱落コストｒの値を加えたもの
に設定する処理を行なう（ステップＳ４３０）。この処
理は、「単語ｂ１から単語ｂｊまでの単語列の中に、単
語ａｉと意味の類似する単語が存在しなかった場合に
は、単語ａｉの直前の単語までの単語列と単語ｂ１から
単語ｂｊまでの単語列との距離に距離ｒを付加する」と
いうことを意味する。例えば、単語ａの序数ｉの値が１
の場合には、ｄ（ａ１，ｂ０）の値として、ｄ（ａ０，
ｂ０）の値である０（ゼロ）に単語ａ１の脱落コストｒ
の値を加えた「ｒ」という値が設定される。この処理に
より、距離グラフＹＧ上において、原点Ｏ（オー）から
横軸上の単語ａ１までの距離が「ｒ」として設定される
（図１２のを参照）。

【００７４】次に、入力文字列Ａ中における単語ａの序
数ｉの値に１を加え（ステップＳ４３５）、序数ｉの値
が、入力文字列Ａの単語の総数ｍの値を超えているか否
かを判断し（ステップＳ４４０）、序数ｉの値が総数ｍ
の値を超えていると判断されるまで、ステップＳ４３０
に戻って上記の処理を繰り返す。例えば、ステップＳ４
３５で序数ｉの値が２とされた場合には、ステップＳ４
３０の演算処理により、ｄ（ａ２，ｂ０）の値が、先に
求めたｄ（ａ１，ｂ０）の値ｒに脱落コストの値ｒを付
加した２ｒという値に設定される。この結果、距離グラ
フＹＧ上において、原点Ｏ（オー）から横軸上の単語ａ
２までの距離が「２ｒ」として設定される（図１２の
を参照）。

【００７５】このような繰り返し処理により、ｄ（ａ
１，ｂ０）からｄ（ａｍ，ｂ０）までの値が設定され
る。この結果、距離グラフＹＧの横軸の各単語は、入力
文字列Ａの各単語の脱落コストｒの値に等分されて割り
付けられる（図１２のを参照）。

【００７６】ステップＳ４４０で序数ｉの値が総数ｍの
値を超えていると判断した場合には、入力文字列Ａ中に
おける単語の序数ｉの値を０（ゼロ）に、入力文字列Ｂ
中における単語の序数ｉの値を１にそれぞれセットした
後（ステップＳ４５０）、このときのｄ（ａｉ，ｂｊ）
の値を、ｄ｛ａｉ，ｂ（ｊ−１）｝の値に単語ｂｊの脱
落コストｑの値を加えたものに設定する処理を行なう
（ステップＳ４６０）。この処理は、「単語ａ１から単
語ａｉまでの単語列の中に、単語ｂｊと意味の類似する
単語が存在しなかった場合には、単語ｂｊの直前の単語
までの単語列と単語ａ１から単語ｂｊまでの単語列との
距離に距離ｑを付加する」ということを意味する。例え
ば、単語ｂの序数ｊの値が１の場合には、ｄ（ａ０，ｂ
１）の値として、ｄ（ａ０，ｂ０）の値である０（ゼ
ロ）に単語ｂ１の脱落コストｑの値を加えた「ｑ」とい
う値が設定される。この処理により、距離グラフＹＧ上
において、原点Ｏ（オー）から縦軸上の単語ｂ１までの
距離が「ｑ」として設定される（図１２のを参照）。

【００７７】次に、対比文字列Ｂ中における単語ｂの序
数ｊの値に１を加え（ステップＳ４６５）、序数ｊの値
が、対比文字列Ｂの単語の総数ｎの値を超えているか否
かを判断し（ステップＳ４７０）、序数ｊの値が総数ｎ
の値を超えていると判断されるまで、ステップＳ４６０
に戻って上記の処理を繰り返す。例えば、ステップＳ４
６５で序数ｊの値が２とされた場合には、ステップＳ４
６０の演算処理により、ｄ（ａ０，ｂ２）の値が、先に
求めたｄ（ａ０，ｂ１）の値ｑに脱落コストの値ｑを付
加した２ｑという値に設定される。この結果、距離グラ
フＹＧ上において、原点Ｏ（オー）から縦軸上の単語ｂ
２までの距離が「２ｑ」として設定される（図１２の
を参照）。

【００７８】このような繰り返し処理により、ｄ（ａ
０，ｂ０）からｄ（ａ０，ｂｎ）までの値が設定され
る。この結果、距離グラフＹＧの縦軸の各単語は、対比
文字列Ｂの各単語の脱落コストｑの値に等分されて割り
付けられる（図１２のを参照）。

【００７９】ステップＳ４７０で序数ｊの値が総数ｎの
値を超えていると判断した場合には、本ルーチンを終了
し、次の単語列間距離演算処理（図１０のステップＳ３
２０）へ移る。この結果、距離グラフＹＧ上において各
単語ａ１〜ａｍおよび各単語ｂ１〜ｂｎが横軸および縦
軸に割り付けられる位置が確定される。

【００８０】なお、本実施例では、脱落コストｒ，ｑの
値を「１」とするが、比較される文中における単語の脱
落の頻度や重要性に応じ、これ以外の数値を採用するも
のとしても差し支えない。

【００８１】以上のように各単語が割り付けられた距離
グラフＹＧ上における、各単語列間の距離の表わし方に
つき、図１３に基づいて説明する。入力文字列Ａが総数
ｍ個の単語から、対比文字列Ｂが総数ｎ個の単語から構
成される場合には、始点である原点Ｏから終点である座
標点（ａｍ，ｂｎ）までの長さが入力文字列Ａと対比文
字列Ｂとの文字列間の距離となる。この距離が最短とな
る場合を白色の矢印で、距離が最長となる場合を斜線付
きの矢印で示す。この「距離が最長となる場合」とは、
対比文字列Ｂ中に、入力文字列Ａを構成する各単語と類
似する単語が全く存在しない場合である。この場合に
は、単語ａ１から単語ａｍまでの各単語および単語ｂ１
から単語ｂｍまでの各単語が全て脱落していることにな
るので、入力文字列Ａと対比文字列Ｂとの距離は、「脱
落コストｒ×ｍ個＋脱落コストｑ×ｎ個」の値である
「ｍｒ＋ｑｎ」となる。

【００８２】次に、ステップＳ３２０の単語列間距離演
算処理Ａについて、図１４から図２４までを参照しつつ
説明する。この単語列間距離演算処理Ａでは、各単語間
の語間距離の値や各単語の脱落コストｒ，ｑの値のよう
な個々の単語に関する情報を用いて、入力文字列Ａを構
成する各単語列と対比文字列Ｂを構成する各単語列との
距離を求める。この処理手順を、図１４の単語列間距離
演算ルーチンＡに示す。本ルーチンは、脱落コスト設定
処理の終了とともに起動する。

【００８３】本ルーチンが起動されると、まず、入力文
字列Ａ中における単語の序数ｉの値を１にセットし（ス
テップＳ５００）、と入力文字列Ｂ中における単語の序
数ｊの値を１にセットする（ステップＳ５１０）。

【００８４】次に、入力文字列Ａ中の単語ａ１から単語
ａｉまでの単語列と対比文字列Ｂ中の単語ｂ１から単語
ｂｊまでの単語列との間の距離であるｄ（ａｉ，ｂｊ）
の値を求める。この値は、以下の要領で求められる。ま
ず、３つの値Ｘ１，Ｘ２，Ｘ３を求める処理を行なう
（ステップＳ５１５，Ｓ５２０，Ｓ５２５）。値Ｘ１
は、単語ａｉの直前の単語までの単語列と単語ｂｊの直
前の単語までの単語列との間の距離であるｄ｛ａ（ｉ−
１），ｂ（ｊ−１）｝の値に、単語ａｉと単語ｂｊとの
語間距離である２｛１−ｔ（ａｉ，ｂｊ）｝の値を加え
ることにより求める（以下、この値をＸ１値という）。
値Ｘ２は、単語ａｉの直前の単語までの単語列と単語ｂ
ｊまでの単語列との間の距離であるｄ｛ａ（ｉ−１），
ｂｊ｝の値に、単語ａｉの脱落コストｒの値を加えるこ
とにより求める（以下、この値をＸ２値という）。値Ｘ
３は、単語ａｉまでの単語列と単語ｂｊの直前の単語ま
での単語列との間の距離であるｄ｛ａｉ，ｂ（ｊ−
１）｝の値に、単語ｂｊの脱落コストｑの値を加えるこ
とにより求める（以下、この値をＸ３値という）。

【００８５】次に、これらのＸ１値からＸ３値までの値
のうちの最も小さい値をｄ（ａｉ，ｂｊ）の値としてＲ
ＡＭ２６上の単語列間距離記録テーブルＤＬに記憶し
（ステップＳ５３５，Ｓ５４０）、この値を、入力文字
列Ａ中の単語ａ１から単語ａｉまでの単語列と対比文字
列Ｂ中の単語ｂ１から単語ｂｊまでの単語列との間の距
離として決定する。即ち、単語ａ１から単語ａｉまでの
単語列と対比文字列Ｂ中の単語ｂ１から単語ｂｊまでの
単語列との間の距離を求める際に、単語ａ１から「単語
ａｉの直前の単語」までの距離、または単語ｂ１から
「単語ｂｊの直前の単語」までの距離しか考慮しないの
で、入力文字列Ａと対比文字列Ｂとの間において単語間
の類否関係が２組以上交差することは、必然的に禁止さ
れる。

【００８６】次に、対比文字列Ｂ中における単語ｂの序
数ｊの値に１を加え（ステップＳ５５０）、序数ｊの値
が、対比文字列Ｂの単語の総数ｎの値を超えているか否
かを判断し（ステップＳ５６０）、序数ｊの値が総数ｎ
の値を超えていると判断されるまで、ステップＳ５１５
に戻って上記の処理を繰り返す。これによって、入力文
字列Ａ中の単語ａ１までの単語列と対比文字列Ｂ中の単
語ｂ１から単語ｂｊまでの各単語列との距離が順次求め
られる。

【００８７】ステップＳ５６０で序数ｊの値が総数ｎの
値を超えていると判断した場合には、入力文字列Ａ中に
おける単語の序数ｉの値に１を加え（ステップＳ５７
０）、序数ｉの値が入力文字列Ａ中における単語の総数
ｍの値を超えていると判断されるまで、ステップＳ５１
０に戻って上記の処理を繰り返す。これによって、入力
文字列Ａ中の単語ａ１から単語ａｉまでの各単語列と対
比文字列Ｂ中の単語ｂ１から単語ｂｊまでの各単語列と
の距離が順次求められ、最後に、単語ａ１から単語ａｍ
までの単語列と単語ｂ１から単語ｂｎまでの単語列との
間の距離ｄ（ａｍ，ｂｎ）の値が求められる。

【００８８】即ち、単語列間の距離ｄ（ａｉ，ｂｊ）
は、語順の対応関係を考慮して、全ての単語ａ１〜ａ
ｍ，ｂ１〜ｂｎについて求められ、この際、図５のステ
ップＳ２５０で設定された単語ａ１〜ａｍ，ｂ１〜ｂｎ
についての語間類似度ｔ（ａｉ，ｂｊ）の値が用いられ
る。例えば、単語ａ１までの単語列と単語ｂ１から単語
ｂ２までの単語列との距離であるｄ（ａ１，ｂ２）や単
語ａ１から単語ａ２までの単語列と単語ｂ１までの単語
列との距離であるｄ（ａ２，ｂ１），単語ａ１から単語
ａ２までの単語列と単語ｂ１から単語ｂ２までの単語列
との距離であるｄ（ａ２，ｂ２）を求める場合には、単
語ａ１と単語ｂ１との語間類似度ｔ（ａ１，ｂ１）の値
が用いられる。また、単語ａ１から単語ａ７までの単語
列と単語ｂ１から単語ｂ３までの単語列との距離である
ｄ（ａ７，ｂ３）や単語ａ１から単語ａ６までの単語列
と単語ｂ１から単語ｂ４までの単語列との距離であるｄ
（ａ６，ｂ４），単語ａ１から単語ａ７までの単語列と
単語ｂ１から単語ｂ４までの単語列との距離であるｄ
（ａ７，ｂ４）を求める場合には、文字列中での出現順
が異なる単語同士である単語ａ６と単語ｂ３との語間類
似度ｔ（ａ６，ｂ３）の値が用いられる。

【００８９】ステップＳ５７０で序数ｉの値が総数ｍの
値を超えていると判断した場合には、入力文字列Ａを構
成する単語列と対比文字列Ｂを構成する単語列との距離
ｄ（ａｍ，ｂｎ）が求められたとして、本ルーチンを終
了し、次の文字列間類似度の演算処理（図１０のステッ
プＳ３４０）へ移る。

【００９０】以上の単語列間距離演算処理の内容を距離
グラフＹＧを用いつつ具体例に即して説明する。ここで
は、単語列間距離演算処理が、前述した「新／日米／防
衛／協定／締結／のための／指針／について／は」とい
う入力文字列Ａと「新しい／日米／の／協力／ガイドラ
イン／に関して」という対比文字列Ｂに対して行なわれ
た場合を例にとって説明する。前述したように、入力文
字列Ａは、単語ａ１から単語ａ９までの９個の単語を、
対比文字列Ｂは単語ｂ１から単語ｂ６までの６個の単語
をそれぞれ含む単語列とされている。

【００９１】この２つの単語列について、ステップＳ５
００およびステップＳ５１０の処理により序数ｉの値と
序数ｊの値とがともに１にセットされた場合には、ステ
ップＳ５１５からステップＳ５３５までの演算処理によ
り、ｄ（ａ１，ｂ１）の値が求められる。この演算の過
程および結果を一時的に記憶した演算バッファＥＴの様
子を図１５に示す。即ち、ステップＳ５１５の演算処理
によりＸ１値として０（ゼロ）が、ステップＳ５２０の
演算処理によりＸ２値として２が、ステップＳ５２５の
演算処理によりＸ３値として２が、それぞれ求められ、
演算バッファＥＴには、ｄ（ａ１，ｂ１）の値として、
このうちの最小の値であるＸ１値の０（ゼロ）が記憶さ
れている。

【００９２】このｄ（ａ１，ｂ１）の０（ゼロ）という
値が、「新」という単語ａ１からなる単語列と「新し
い」という単語ｂ１からなる単語列との距離となる。こ
のことを図１６の距離グラフＹＧを参照しつつ説明す
る。

【００９３】距離グラフＹＧ上において、「新」という
単語ａ１からなる単語列と「新しい」という単語ｂ１か
らなる単語列との距離は、原点Ｏから座標（ａ１，ｂ
１）に至るまでの到達経路として表わされる。図１６に
示すように、この到達経路には、原点Ｏから直接に座標
（ａ１，ｂ１）に至る第１の経路，座標（０，ｂ１）を
経由して座標（ａ１，ｂ１）に至る第２の経路，座標
（０，ｂ１）を経由して座標（ａ１，ｂ１）に至る第３
の経路がある。ステップＳ５１５の演算結果であるＸ１
値は、この３つの経路のうちの第１の経路を通る場合に
かかる距離の値を示し、ステップＳ５２０の演算結果で
あるＸ２値およびステップＳ５２５の演算結果であるＸ
３値は、それぞれ第２の経路および第３の経路を通る場
合にかかる距離の値を示している。

【００９４】第１の経路を通って座標（ａ１，ｂ１）へ
到達した場合にかかる距離の値は０（ゼロ）であり、こ
の距離の値は、第２の経路および第３の経路を通ったと
きに必要な距離の値である２（＝ｒ＋ｑ）よりも小さ
い。よって、第１の経路を通るときのＸ１値の０（ゼ
ロ）が、単語ａ１からなる単語列と単語ｂ１からなる単
語列との距離ｄ（ａ１，ｂ１）の値となる。この値とな
るときの経路を、図１６に斜線付きの矢印で示す。

【００９５】次に、ステップＳ５５０の処理により、序
数ｊの値が２とされた場合の処理内容について説明す
る。ステップＳ５１５からステップＳ５２５までの演算
処理により、Ｘ１値として値３が、Ｘ２値として値３
が、Ｘ３値として値１がそれぞれ求められ、このうちの
最小の値であるＸ３値の値である１が、ｄ（ａ１，ｂ
２）の値として演算バッファＥＴに一時的に記憶され
る。この様子を図１７に示す。

【００９６】このｄ（ａ１，ｂ１）の０（ゼロ）という
値が、「新」という単語ａ１からなる単語列と「新しい
／日米」という単語ｂ１および単語ｂ２からなる単語列
との距離となる。このことを図１８の距離グラフＹＧを
参照しつつ説明する。

【００９７】図１８に示すように、原点Ｏから座標（ａ
１，ｂ２）に至るまでの到達経路には、原点Ｏから座標
（０，ｂ１）を経由して座標（ａ１，ｂ２）に至る第１
の経路，座標（０，ｂ１）および座標（０，ｂ２）を経
由して座標（ａ１，ｂ２）に至る第２の経路，座標（ａ
１，ｂ１）を経由して座標（ａ１，ｂ２）に至る第３の
経路がある。ステップＳ５１５の演算結果であるＸ１値
は、この３つの経路のうちの第１の経路を通る場合にか
かる距離の値を示し、ステップＳ５２０の演算結果であ
るＸ２値およびステップＳ５２５の演算結果であるＸ３
値は、それぞれ第２の経路および第３の経路を通る場合
にかかる距離の値を示している。

【００９８】即ち、第１の経路を通る場合とは、「新し
い／日米」という単語列のうち、「新しい」という単語
ｂ１については、「新」という単語ａ１からなる単語列
から脱落している単語とし、一方、「日米」という単語
ｂ２については、「新」という単語ａ１と類似関係にあ
るとみなして、双方の単語列間の距離を測定した場合を
意味する。第２の経路を通る場合とは、「新しい」およ
び「日米」という単語ｂ１および単語ｂ２とは、ともに
「新」という単語ａ１からなる単語列から脱落している
単語であり、また、単語ｂ２「新」という単語ａ１も、
「新しい／日米」という単語ｂ１および単語ｂ２からな
る単語列から脱落した単語である、とみなして単語列間
の距離を測定した場合を意味する。また、第３の経路を
通る場合とは、「新」という単語ａ１と「新しい」とい
う単語ｂ１とを相互に類似する単語であり、「日米」と
いう単語ｂ２は、単語ａ１からなる単語列から脱落した
単語である、とみなして単語列間の距離を測定した場合
を意味する。

【００９９】第３の経路を通って座標（ａ１，ｂ２）へ
到達した場合にかかる距離の値は１であり、この距離の
値は、第１の経路を通ったときに必要な距離の値である
３（＝ｑ＋２）や第２の経路を通ったときに必要な距離
の値である３（＝２ｑ＋ｒ）よりも小さい。よって、第
３の経路を通るときのＸ３値の１が、単語ａ１からなる
単語列と単語ｂ１および単語ｂ２からなる単語列との距
離ｄ（ａ１，ｂ２）の値となる。この値となるときの経
路を、図１８に斜線付きの矢印で示す。

【０１００】このような演算処理の繰り返しにより、
「新」という単語ａ１からなる単語列と、「新しい」と
いう単語ｂ１からなる単語列，「新しい／日米」という
単語ｂ１および単語ｂ２からなる単語列，「新しい／日
米／の」という単語ｂ１から単語ｂ３までからなる単語
列，「新しい／日米／の／協力」という単語ｂ１から単
語ｂ４までからなる単語列，「新しい／日米／の／協力
／ガイドライン」という単語ｂ１から単語ｂ５までから
なる単語列，および「新しい／日米／の／協力／ガイド
ライン／に関して」という単語ｂ１から単語ｂ６までか
らなる単語列との距離が求められる。これらの場合にお
ける距離の値が単語列間距離記録テーブルＤＬに記憶さ
れたときの様子を図１９に示す。

【０１０１】こうして、「新」という単語ａ１からなる
単語列と対比文字列Ｂにおける各単語列との距離が記憶
された後は、ステップＳ５７０，Ｓ５８０，Ｓ５１０の
処理により「新／日米」という単語ａ１および単語ａ２
からなる単語列と対比文字列Ｂにおける各単語列との距
離が演算される。まず、序数ｉの値が２、序数ｊの値が
１とされ、「新／日米」という単語ａ１および単語ａ２
からなる単語列と「新しい」という単語ｂ１からなる単
語列との距離が演算される。

【０１０２】この場合には、Ｘ２値である値１を、即
ち、「新」という単語ａ１と「新しい」という単語ｂ１
とを相互に類似する単語とし、「日米」という単語ｂ１
は、単語ｂ１からなる単語列から脱落した単語である、
とみなした場合の距離の値を、双方の単語列間の距離ｄ
（ａ２，ｂ１）としている。

【０１０３】続いて、ステップＳ５５０の処理により、
序数ｊの値が２とされた場合には、「新／日米」という
単語ａ１および単語ａ２からなる単語列と「新しい／日
米」という単語ｂ１および単語ｂ２からなる単語列との
距離が演算される。この演算処理の経過および結果を記
憶した演算バッファＥＴの様子を図２０に、この演算結
果に応じて採り得る距離グラフＹＴ上の経路を、図２１
にそれぞれ示す。

【０１０４】Ｘ１値を採用した場合の距離グラフ上の経
路は、図１５，図１６において求めた距離ｄ（ａ１，ｂ
１）の値０（ゼロ）を採用しつつ、「新／日米」からな
る単語列のうちの「日米」という単語ａ２と「新しい／
日米」からなる単語列のうちの「日米」という単語ｂ２
とを類似する関係とみなした場合の経路である。一方、
Ｘ２値を採用した場合の距離グラフ上の経路は、図１
７，図１８において求めた距離ｄ（ａ１，ｂ２）の値１
を採用しつつ、「新／日米」からなる単語列のうちの
「日米」という単語ａ２を「新しい／日米」という単語
列から脱落しているとみなした場合の経路であり、Ｘ３
値を採用した場合の距離グラフ上の経路は、以前に求め
た距離ｄ（ａ２，ｂ１）の値１を採用しつつ、「新しい
／日米」からなる単語列のうちの「日米」という単語ｂ
２を「新／日米」という単語列から脱落しているとみな
した場合の経路である。

【０１０５】図２１に斜線付きの矢印で示すように、座
標（ａ２，ｂ２）へ到達した場合にかかる距離は、Ｘ１
値を採用した場合に最も短くなり、このＸ１値の値０
（ゼロ）が、単語ａ１および単語ａ２からなる単語列と
単語ｂ１および単語ｂ２からなる単語列との距離ｄ（ａ
２，ｂ２）の値となる。

【０１０６】以上の処理を繰り返すことにより、最終的
に、入力文字列Ａおよび対比文字列Ｂに関する全ての単
語列同士の距離が求められる。図２２は、求められた全
ての距離ｄ（ａｉ，ｂｊ）の値が単語列間距離記録テー
ブルＤＬに記憶されたときの様子を示している。なお、
距離の値に続けて記載された括弧内は、この値を算出し
た演算式を示し、「※」印は、２以上の演算式で同じ値
が算出されてともに最小値となった場合を示す。図２２
の単語列間距離記録テーブルＤＬ上のｄ（ａ９，ｂ６）
の値である数値５．８が、入力文字列Ａ中の全ての単語
ａ１〜ａ９を含む単語列と対比文字列Ｂ中の全ての単語
ｂ１〜ａ６を含む単語列との距離の値、即ち、入力文字
列Ａと対比文字列Ｂとの文字列間の距離の値となる。

【０１０７】ｄ（ａ９，ｂ６）の値である数値５．８
が、入力文字列Ａと対比文字列Ｂとの文字列間の距離と
なるイメージを、図２３および図２４の距離グラフＹＧ
を用いてより具体的に説明する。図２３に示すように、
距離グラフＹＧ上の各座標には、図２２の単語列間距離
記録テーブルＤＬに記録された全ての単語列同士の距離
の値が、対比された単語列の組み合わせに対応して記さ
れている。

【０１０８】例えば、座標（ａ２，ｂ１）に記された
「１」という値は、「新／日米」という単語列と「新し
い」という単語列との距離ｄ（ａ２，ｂ１）の値であ
る。また、入力文字列Ａの最後尾の単語「は」が位置す
るａ９と対比文字列Ｂの最後尾の単語「に関して」が位
置するｂ６との交点の座標（ａ９，ｂ６）（以下、終点
座標という）には、ｄ（ａ９，ｂ６）の値である数値
５．８が記されている。

【０１０９】「入力文字列Ａと対比文字列Ｂとの文字列
間の距離が値５．８である」ということは、「始点であ
る原点Ｏから、いずれかの経路を辿って終点座標（ａ
９，ｂ６）に向かうためには、数値５．８に相当する距
離を移動しなければならない」ということを意味する。
この経路のうちの１つを図２４に矢印のパスを用いて示
す。なお、始点から終点への到達までに移動することが
必要な距離を「全体移動距離」といい、１の座標から次
の座標への到達までに移動することが必要な距離を「区
間移動距離」という。

【０１１０】図２４において、横向きの矢印は、矢印の
終端の座標に位置する単語ａｉが脱落したものとみなさ
れて、Ｘ２値が単語列間の距離の値とされた場合を、縦
向きの矢印は、矢印の終端の座標に位置する単語ｂｊが
脱落したものとみなされて、Ｘ３値が単語列間の距離の
値とされた場合を、斜め向きの矢印は、矢印の終端の座
標に位置する単語ａｉと単語ｂｊとが相互に類似するも
のと評価され、Ｘ１値が単語列間の距離の値とされた場
合を、それぞれ意味する。例えば、斜め向きの矢印の終
端の座標の１つである（ａ８，ｂ６）に記された距離の
値４．８は、Ｘ１値、即ち、語間類似度を要素とした演
算式に基づく値である（図２２を参照）。

【０１１１】即ち、図２４に示した始点から終点座標ま
での経路は、「新」という単語ａ１と「新しい」とい
う単語ｂ１、「日米」という単語ａ２と「日米」という
単語ｂ２、「のための」という単語ａ６と「の」という
単語ｂ３、「指針」という単語ａ７と「ガイドライン」
という単語ｂ５、および「について」という単語ａ８と
「に関して」という単語ｂ６とを、相互に類似する単語
と評価し、「防衛」という単語ａ３，「協定」という
単語ａ４，「締結」という単語ａ５，および「は」とい
う単語ａ９と類似する単語は、対比文字列Ｂに存在しな
いと評価し、「協力」という単語ｂ４は、入力文字列
Ａに存在しないと評価した場合の経路を表わしている。
このような経路を示すパスが意味する単語間の関係を図
２５に示す。

【０１１２】図２４および図２５に示すように、この経
路では、始点から終点に至るまでの各座標間において、
区間移動距離として「０（ゼロ）」，「０（ゼロ）」，
「１」，「１」，「１」，「０．６」，「１」，
「０」，「０」，「１」という値を消費しており、この
消費された区間移動距離の値の合計値が全体移動距離の
値である数値５．８となる。

【０１１３】なお、図２４に示した経路以外にも、終点
座標に到達するための経路があるが、語間類似度の値の
幅や脱落コストの値を変更することにより、１の経路に
絞り込むことも可能である。

【０１１４】以上、単語列間距離演算処理Ａの内容につ
いて説明した。次に、この処理の終了とともに起動する
文字列間類似度の演算処理Ａ（図１０のステップＳ３４
０）の内容につき、図２６の文字列間類似度演算ルーチ
ンＡを参照しつつ説明する。まず、入力文字列Ａ中の単
語の総数ｍ個分の脱落コストｒに対比文字列Ｂ中の単語
ｂの総数ｎ個分の脱落コストｑを加えた値、即ち、入力
文字列Ａと対比文字列Ｂとの距離の最大値を求め、この
値をＵとする。次に、単語列間距離演算処理で求めた、
全ての単語を含んだ単語列同士の距離ｄ（ａｍ，ｂｎ）
の値をＵの値で除算し、この値をＶとする。次に、Ｖの
値の補数を求め、この値を入力文字列Ａと対比文字列Ｂ
との文字列間の類似度ｓ（ａｍ，ｂｎ）として、本ルー
チンを終了し、次の処理へ移る。

【０１１５】前述の例では、１５個の単語についての脱
落コストｒ，ｑの総計値は１５であり、全ての単語を含
んだ単語列同士の距離ｄ（ａ９，ｂ６）の値は５．８で
あるため、文字列間の類似度は０．６１という値とな
る。この値が１に近づくほど文字列間の意味上の類似度
が高いものと判定される。こうして数値を用いて判定さ
れた文字列間の類似度を、判定結果として出力し（図３
のステップＳ１６０）、文字列間の類否判定処理を終了
する。

【０１１６】以上説明した第１実施例の文間類似度判定
装置１Ａは、入力文字列および対比文字列から抽出され
た単語につき、類義語辞書３６を参照して概念語同士の
類似度および機能的表現同士の類似度を判定し、この類
似度の値を用いて、語順の対応関係を考慮しつつ文字列
間の類似度を判定する。従って、語順の異なる２つの文
の間において、意味の類似する度合いを正確に判定する
ことができる。

【０１１７】また、関係表現や助述表現同士の類似度の
値を用いて文字列間の類似度を判定するので、互いに同
じ意味概念を示す概念語と互いに異なる枠組みを表現す
る関係表現や助述表現から構成される文同士であって
も、類否判定を正確に行なうことができる。

【０１１８】さらに、本実施例では、文間における語順
の対応関係を考慮しつつも、単語間の類否関係が、文字
列間で２組以上交差することを禁止する。従って、文字
列間の類似度の判定に伴う処理を簡素化することができ
る。

【０１１９】また、単語列同士の類似度を判定する際に
脱落コストｒ，ｑを用いることにより、１の単語と類似
する単語が他の単語列になかった場合と存在する場合と
の両方を想定し、このうち類似度が高くなる場合の値を
単語列同士の類似度として決定する。従って、２つの文
の間の類似度を、文全体として正しく判定することがで
きる。

【０１２０】以上説明した文字列間の類否判定処理で
は、一方の文字列中の単語に類似する単語が他方の文字
列に存在しない場合に、当該単語の種類を問わず、全て
の単語に同じ脱落コストｒ，ｑを用いて、単語列間の距
離を演算した。これに対して、脱落しているとみなされ
る単語の種類や重要度に応じて、異なる値の脱落コスト
を設定する構成とすることも可能である。以下、このよ
うな構成につき、図２７から図３５を用いて説明する。

【０１２１】図２７は、単語列間類似度判定ルーチンＢ
を示すフローチャートである。本ルーチンでは、図１０
の単語列間類似度ルーチンＡとほぼ同様の処理を行なう
が、本ルーチンが、単語重要度設定処理（ステップＳ６
００）を行なう点で、これを行なわない単語列間類似度
ルーチンＡと異なる。この相違に対応して、次の処理で
ある単語列間距離演算処理Ｂ（ステップＳ６２０）およ
び文字列間類似度の演算処理Ｂも、演算に利用される脱
落コストｒ，ｑの値に関連する部分において、図１４の
単語列間距離演算処理Ａおよび図２６の文字列間類似度
の演算処理Ａと異なっている。

【０１２２】単語重要度設定処理の手順および内容を図
２８の単語重要度設定ルーチンに示す。本ルーチンで
は、図１１の脱落コスト設定ルーチンとほぼ同様の処理
を行なうため、対応するステップ番号の下二桁を図１１
と同じ番号とした。

【０１２３】本ルーチンでは、入力文字列Ａに関し、単
語ａｉの序数ｉが１から総数ｍまでのｄ（ａｉ，０）の
値を、ｄ｛ａ（ｉ−１），０｝の値に単語ａｉの重要度
の値ｗ（ａｉ）を加えたものに設定する処理を行なう
（ステップＳ７３０）。この処理は、「単語ｂ１から単
語ｂｊまでの単語列の中に、単語ａｉと意味の類似する
単語が存在しなかった場合には、単語ａｉの直前の単語
までの単語列と単語ｂ１から単語ｂｊまでの単語列との
距離に、単語ａｉの重要度の値ｗ（ａｉ）を付加する」
ということを意味する。

【０１２４】例えば、単語ａの序数ｉの値が１の場合に
は、ｄ（ａ１，ｂ０）の値として、ｄ（ａ０，ｂ０）の
値である０（ゼロ）に単語ａｉの重要度の値ｗ（ａｉ）
を加えた「ｗ（ａｉ）」という値が設定される。この処
理により、図２９に示すように、距離グラフＹＧ上にお
いて、原点Ｏ（オー）から横軸上の単語ａ１までの距離
が「ｗ（ａｉ）」として設定される。

【０１２５】また、対比文字列Ｂに関しても、単語ｂｊ
の序数ｊが１から総数ｎまでのｄ（０，ｂｊ）の値を、
ｄ｛０，ｂ（ｊ−１）｝の値に単語ｂｊの重要度の値ｗ
（ｂｊ）を加えたものに設定する処理を行なう（ステッ
プＳ７６５）。よって、この処理により、距離グラフＹ
Ｇ上において、原点Ｏ（オー）から縦軸上の単語ｂ１ま
での距離が「ｗ（ｂｊ）」として設定される（図２９を
参照）。

【０１２６】ステップＳ７３０およびステップＳ７６５
の処理を繰り返すことにより（ステップＳ７４０，Ｓ７
７０）、ｄ（ａ１，ｂ０）からｄ（ａｍ，ｂ０）までの
値およびｄ（ａ０，ｂ０）からｄ（ａ０，ｂｎ）までの
値が設定される。この結果、距離グラフＹＧの横軸およ
び縦軸の各単語ａ１〜ａｍ，ｂ１〜ｂｎは、図２９に示
すように、各単語の重要度の値ｗ（ａｉ），ｗ（ｂｊ）
に応じた間隔を置いて割り付けられる。

【０１２７】各単語の重要度の値ｗ（ａｉ），ｗ（ｂ
ｊ）は、前述した国語辞書内に格納されており、図３の
ステップＳ１３０における各文字列からの単語の抽出処
理の際に、その語の文字情報や文法情報とともに抽出さ
れる。各単語の重要度の値ｗ（ａｉ），ｗ（ｂｊ）が国
語辞書に格納されている様子を図３０に示す。

【０１２８】本実施例では、単語の重要度を「０≦ｗ
（ａｉ），ｗ（ｂｊ）≦１」の範囲の数値を用いて表わ
し、数値が１に近づくほど文意を左右する度合いが高い
ものと定義している。また、名詞のような概念語の重要
度を、関係表現等の機能的表現の重要度よりも大きな値
に設定する一方、機能的表現の種類に応じて重要度に差
を設けている。例えば、主として助詞の後に接続される
係助詞の「は」や名詞と名詞の間に位置して同格を表わ
す格助詞の「の」等は、省略しても文の意味が大きく変
化しないので、重要度の値は、他の機能的表現よりも低
いものとなっている。

【０１２９】こうして、単語が欠落した場合に付加され
る重要度の値ｗ（ａｉ），ｗ（ｂｊ）を設定して単語重
要度設定ルーチンを終了すると、続いて、図３１に示す
単語列間距離演算ルーチンＢを起動する。本ルーチンで
は、図１４の単語列間距離演算ルーチンＡとほぼ同様の
処理を行なうため、対応するステップ番号の下二桁を図
１４と同じ番号とした。

【０１３０】本ルーチンでは、単語列間距離演算ルーチ
ンＡとほぼ同様に、Ｘ１値，Ｘ２値，Ｘ３値のうちの最
も小さい値を単語列間の距離として決定するが、Ｘ２
値，Ｘ３値を演算する過程において、単語列間距離演算
ルーチンＡで用いていた脱落コストｒに替えて、単語の
重要度の値ｗ（ａｉ），ｗ（ｂｊ）を用いる（ステップ
Ｓ８２０，Ｓ８２５）。よって、単語列間の距離ｄ（ａ
ｉ，ｂｊ）として決定される最小の値が３つの値のうち
のいずれの値となるかが、単語列間距離演算ルーチンＡ
における結果とは異なってくる。

【０１３１】図３２は、前述した「新日米防衛協定締結
のための指針については」という入力文字列Ａと「新し
い日米の協力ガイドラインに関して」という対比文字列
Ｂについて、単語列間類似度判定処理Ｂが行なわれた後
の単語列間距離記録テーブルＤＬの様子を示す。図２２
に示した単語列間距離演算ルーチンＡによる結果と比較
すると、入力文字列Ａの「のための」という単語ａ６，
「について」という単語ａ８および「は」という単語ａ
９や対比文字列Ｂの「の」という単語ｂ３，「に関し
て」という単語ｂ６に関しては、これらに類似する単語
が他方の文字列に存在しないものとみなされた場合に、
脱落コストｒ，ｑとして設定されていた１よりもよりも
小さい値が、直前の単語までの単語列の距離に対して付
加される。従って、これらの単語が欠落している場合の
演算値であるＸ２値やＸ３値が、３つの値のうちの最小
値となりやすくなり、この結果、図２２のテーブルと比
べて、Ｘ２値やＸ３値が単語列間の距離ｄ（ａｉ，ｂ
ｊ）として決定される頻度が多くなり、入力文字列Ａ中
の全ての単語ａ１〜ａ９を含む単語列と対比文字列Ｂ中
の全ての単語ｂ１〜ａ６を含む単語列との距離の値、即
ち、入力文字列Ａと対比文字列Ｂとの文字列間の距離ｄ
（ａ９，ｂ６）の値も、値３．６というより小さい値と
なる。

【０１３２】この単語列間距離記録テーブルＤＬに記録
された全ての単語列同士の距離の値を記した距離グラフ
ＹＷの様子を図３３に示す。座標（ａ３，ｂ２）から座
標（ａ３，ｂ３）への移動を意味する「の」という単語
ｂ３の欠落や、座標（ａ８，ｂ６）から座標（ａ９，ｂ
６）への移動を意味する「は」という単語ａ９の欠落に
よる「区間移動距離」がより小さくなっており、このこ
とが全体移動距離の減少に寄与していることがわかる。

【０１３３】距離グラフＹＷ上に示した矢印のパスが意
味する単語間の関係を図３４に示す。既述した脱落コス
トｒ，ｑが一律の場合を示す図２５と比較すると、図３
４の場合には、図２５で脱落とみなされていた「協定」
という単語ａ４と「協力」という単語ｂ４とが相互に類
似関係があるものとみなされる一方、相互に類似関係が
あるものとみなされていた「のための」という単語ａ６
と「の」という単語ｂ３とが、それぞれ他方の文字列か
ら脱落しているとみなされている。前者は、「の」とい
う単語ｂ３が脱落した場合の加算値が値１から値０．２
に減ったことにより、ｄ（ａ４，ｂ４）の値においてＸ
１値が最も小さい値となったことに起因するものであ
る。後者は、「のための」という単語ａ６および「の」
という単語ｂ３が脱落した場合の加算値が、それぞれ値
１から値０．４、値１から値０．２に減ったことによ
り、ｄ（ａ６，ｂ３）の値においてＸ３値が最も小さい
値となったことに起因するものである（図３２を参
照）。

【０１３４】以上の単語列間距離演算処理Ｂの終了後に
続けて行なわれる、文字列間類似度の演算処理Ｂの内容
を、図３５の文字列間類似度演算ルーチンＢに示す。図
２６の文字列間類似度演算ルーチンＡでは、入力文字列
Ａと対比文字列Ｂとの距離の最大値を、入力文字列Ａ中
の単語の総数ｍ個分の脱落コストｒ，ｑに対比文字列Ｂ
中の単語ｂの総数ｎ個分の脱落コストｑを加えた値と
し、この値で全ての単語を含んだ単語列同士の距離ｄ
（ａｍ，ｂｎ）の値を除算して、当該文字列間で想定さ
れる最長距離に対して実際に求められた距離ｄ（ａｍ，
ｂｎ）が占める割合を算出していた。この点、単語脱落
の場合のコストを単語の重要度に応じて設定する本構成
の場合には、入力文字列Ａと対比文字列Ｂとの距離の最
大値は、入力文字列と対比文字列とを構成する個々の単
語についての重要度の値ｗ（ａｉ），ｗ（ｂｊ）の合計
値となる。そこで、この値をＵとし（ステップＳ１２１
０）、この値でｄ（ａｍ，ｂｎ）の値を除算した値につ
いての１の補数を求めることにより（ステップＳ１２３
０，Ｓ１２５０）、入力文字列Ａと対比文字列Ｂとの文
字列間の類似度ｓ（ａｍ，ｂｎ）を求めている。

【０１３５】前述の例では、１５個の各単語についての
重要度の値ｗ（ａｉ），ｗ（ｂｊ）の総計値は１５であ
り、全ての単語を含んだ単語列同士の距離ｄ（ａ９，ｂ
６）の値は３．６であるため、文字列間の類似度は値
０．７６となる。従って、脱落コストｒ，ｑを一律に設
定した場合と比べ、入力文字列Ａと対比文字列Ｂとは、
より文字列間の意味上の類似度が高いものと判定されて
いる。

【０１３６】このように、単語の種類や重要度に応じ
て、脱落コストに異なる値を設定する構成を採ることに
より、類否判断の対象とされる文の性質に応じて、適切
な文間の類似度を判断することが可能となる。例えば、
日本語文字列同士の意味の類否を判断する場合には、概
念語の相違により文の意味が大きく異なるので、概念語
の脱落コストを高くすることが望ましい。一方、外部装
置９０が和英翻訳する翻訳装置の場合には、文の構造が
文の意味を大きく左右するので、機能的表現の脱落コス
トを高くすることで、正確な翻訳を担保することができ
る。

【０１３７】なお、以上説明した文字列間類否判定処理
では、入力文字列および対比文字列内の機能的表現の有
無や類否に着目して、文字列間の類似度を判定するが、
この処理を、複合表現を含む文字列に関する類否の判定
に応用することも可能である。ここで、複合表現とは、
２以上の単語の結合により１のまとまった意味概念を表
わす表現をいい、例えば、「解析手法」や「新製品」等
の表現が複合表現に該当する。以下、この応用例につい
て説明する。

【０１３８】まず、入力文字列として「解析手法」とい
う複合表現からなる文字列が、対比文字列として「分析
の方法」という複合表現を含まない文字列が、それぞれ
類似度検索エンジン１０Ａに入力された場合について説
明する。概念語類義語辞書３６ａには、「解析」という
概念語と「分析」という概念語とが類似する旨の情報
が、語間類似度の値０．７とともに、「手法」という概
念語と「方法」という概念語とが類似する旨の情報が、
語間類似度の値０．７とともに、それぞれ記憶されてい
る。

【０１３９】この語間類似度の値に基づいて単語列間の
類似度が判定（図３のステップＳ１５０）されるが、本
応用例においては、文字列を構成する単語の連続が複合
表現に該当する場合には、単語同士の類似度に、入力文
字列中の複合表現と対比文字列中の複合表現に相当する
表現との間の類似度を加味して、入力文字列と対比文字
列との類似度を判定することとしている。例えば、上例
の場合には、「解析−分析」，「手法−方法」という対
応関係のみならず、「解析手法−分析の方法」という対
応関係について、表現間の類似度を判定する。

【０１４０】次に、対比文字列にのみ存在する「の」と
いう単語について、国語辞書に格納された文法情報を参
照する。国語辞書には、「の」という語の種類が「同格
を表わす助詞」である旨および所定の名詞と名詞の間に
用いられた場合には省略可能な旨が、文法情報として格
納されている。これらの情報を得ることにより、「解析
手法−分析の方法」という表現間の類似度は、「解析手
法−分析方法」という表現間の類似度と同じであると判
断する。この場合には、「の」という単語に類似する単
語が入力文字列に存在しないことを理由として、脱落コ
ストｑを付加しない。従って、「解析手法」という単語
列と「分析の方法」という単語列との間の類似度は、
「解析手法」という単語列と「分析方法」という単語列
との間の類似度と同じ値となる。

【０１４１】なお、複合表現において省略されている単
語は、「の」や「のための」等のような機能的表現に限
るものではなく、例えば、「解析手法」と「解析する手
法」という場合における「する」という単語のような一
定の名詞に接続されて用いられるサ変動詞の語幹の一部
ないし活用語尾や、「新製品」と「新しい製品」という
場合における「しい」のような形容詞の語幹の一部ない
し活用語尾であってもよい。

【０１４２】このような構成を採れば、助詞，用言の語
幹の一部や活用語尾を省略せずに表現した文字列と、こ
れらを省略して同義に用いる複合表現との間の類似度を
正確に判定することができる。

【０１４３】なお、入力文字列や対比文字列は、「解析
手法」や「分析の方法」以外の他の表現を伴っても差し
支えない。例えば、「素材の解析手法」，「素材の分析
の方法」という文字列でもよい。また、対比文字列が
「解析の手法」である場合のように、入力文字列を構成
する概念語と対比文字列を構成する概念語とが一致する
場合でもよい。

【０１４４】また、入力文字列の複合表現に相当する対
比文字列中の表現が、他の複合表現である場合にも、上
記構成を適用することが可能である。例えば、入力文字
列として「解析手法」という複合表現が、対比文字列と
して「分析方法」という複合表現が、それぞれ入力され
た場合には、「解析−分析」，「手法−方法」という対
応関係のみならず、「解析手法−分析方法」という表現
間の類似度を判定し、「解析−分析」間の語間類似度の
値０．７，「手法−方法」間の語間類似度の値０．７
に、表現間の類似度の値として所定値を付加し、「単語
同士が類似する程度以上に両文字列が類似する」と判定
することも望ましい。

【０１４５】以上は、文字列として、語句、即ち、言葉
の一区切りを入力した場合を例にとって説明したが、入
力される文字列は、複合表現を含む文字列であればよ
く、主語や述語を備える完結した表現を文字列として入
力した場合にも、上記と同様の効果を得ることができ
る。こうすれば、一方の文に用いられた複合表現と、こ
の複合表現に対応する他方の文中の表現との類似度を、
正確に判定することができるので、文全体としての類似
度もより正確なものとなる。

【０１４６】次に、本発明の第２実施例について説明す
る。第２実施例は、データ検索装置１Ｂに関するもので
あり、第１実施例のハードウェア構成と同一の構成によ
り実現される。このデータ検索装置１Ｂの概要を図３６
に示した。このデータ検索装置１Ｂは、文字列の類似度
を判定しながら検索を行なう検索エンジン１０Ｂと文字
列を入力する外部装置９０とから構成されている。検索
エンジン１０Ｂと外部装置９０の内部構成は、第１実施
例と同様である。

【０１４７】第１実施例の文間類似度判定装置１Ａと比
べると、第１実施例の類似度判定エンジン１０Ａが、与
えられた２つの文の類似度を判定してこれを出力してい
たのに対して、第２実施例の検索エンジン１０Ｂは、外
部装置９０から与えられる自然言語の文（以下、検索キ
ー文という）を入力し、この文と類似度の高い文を、検
出してこれを出力する機能を有する点で異なっている。
また、検索の対象となる複数の検索対象文（以下、デー
タと呼ぶ）は、外部装置９０のハードディスク９０a内
に保存されているデータである。

【０１４８】第２実施例における処理の概要を図３７に
示す。検索エンジン１０Ｂは、このルーチンが起動され
ると、まず検索しようとしている検索キー文を構成する
文字列を入力する処理を行なう（ステップＳ９００）。
この処理（ステップＳ９００）は、第１実施例における
文字列入力処理（図３、ステップＳ１００）と同一であ
る。こうして検索キー文を入力した後、外部装置９０内
に保存されたデータから検索対象文を一つ取り出す処理
を行なう（ステップＳ９３０）。次に、取り出した一つ
の検索対象文と、検索キー文との類似度を判定し、類似
する文字列を検出する処理を行なう（ステップＳ９４
０）。この処理は、第１実施例の単語間類似度判定処理
（図３、ステップＳ１４０），単語列間類似度判定処理
（図３、ステップＳ１５０）と同様である。即ち、概念
語同士の類似度や機能的表現同士の類似度から、各文字
列を構成する単語列間の距離を求め、全ての単語を含む
単語列同士の距離から文字列間の類似度を演算により算
出し、距離検索キー文と、取り出した一つの検索対象文
との類似度を数値として求めるのである。求めた類似度
の数値データは、ＲＡＭ２６上の所定領域に一時的に記
憶される。

【０１４９】以上の処理の後、検索対象文がまだハード
ディスク９０ａに残っているか否かを判断し（ステップ
Ｓ９５０）、残っていれば、上述したステップＳ７３０
に戻って検索対象文を取り出す処理から再度実行する。
もはや類似度を判定する検索対象文が残っていない場合
には、各検索対象文との類似度の数値データが記憶され
たＲＡＭ２６上の所定領域を参照し、最も文間の類似度
が高いと判定された検索対象文を、検索結果として出力
する（ステップＳ９６０）。なお、類似度の判定は、数
値として表わされているので、一定の数値以上の類似度
を示した検索対象文をすべて出力するものとしても良
い。あるいは、類似度の高い方から所定数の検索対象文
を出力するものとしても良い。更に、総ての検索対象文
を、類似度の値の順に並べ替え、類似度の高いものから
順次に出力する構成としても良い。

【０１５０】かかる第２実施例のデータ検索装置１Ｂで
は、複数の検索対象文の一つ一つと、検索キー文との類
似度を判定して、類似度の高い文を検索の結果として出
力することができる。この検索キー文との類似度を判定
する際、概念語同士の類似度に、文の枠組みを与える表
現である機能的表現同士の類似度を加味した上で、文間
の語順の対応関係を考慮しつつ判定するので、自然言語
文の検索を精度良く行なうことができる。

【０１５１】なお、外部装置９０は、検索エンジン１０
Ｂによる検索結果を受けて、これを単に表示するものと
しても良いし、この検索結果を使って翻訳などの処理を
行なうものとしても良い。前者の構成では、例えば、多
数の論文の抄録の中から、検索しようとした検索キー文
に類似度の高い論文を表示する構成が考えられる。ある
いは、インターネット上の膨大な数のホームページの概
要を説明した多数の要約文の中から、検索しようとした
検索キー文と類似度の高いホームページを探して、これ
を表示する構成などにも適用することができる。後者、
即ち翻訳の場合は、翻訳しようとする文（検索キー文）
に対して、この文とよく似た文を、予め用意した翻訳文
の中から検索し、得られた翻訳文の中の概念語を置き換
えることにより訳文を得るという手法が知られている。
したがって、検索エンジン１０Ｂにより、予め用意した
訳文の一つを検索し、その後、検索した訳文の概念語
を、翻訳しようとする文の概念語の訳語により置き換え
ることにより、翻訳を行なうものとすれば良い。予め用
意した訳文から一致度の高い訳文を検出する場合には、
概念語の類似度より枠組み表現である機能的表現の類似
度の方が重要と考えられるので、本実施例の検索エンジ
ン１０Ｂは、この点で極めて有用である。尚、検索エン
ジン１０Ｂが類似度を判断する際、概念語の類似度と機
能的表現の類似度とのいずれを重視するかは、アプリケ
ーションにより適宜調整すれば良い。論文やホームペー
ジの検索の場合には概念語の比重が重く、訳文の検索の
場合には機能的表現の比重を重くしておくことも好適で
ある。

【０１５２】以上、本発明の実施の形態を第１，第２実
施例を用いて説明した。なお、本実施例の単語間類似度
判定処理および単語列間類似度判定処理においては、文
字列間の構造に関する類似度を、文字列に含まれている
機能的表現同士の近似性を比較することにより判定する
が、この判定手法は、機能的表現の「概念語と結びつい
て文の一構造を形成する性質」と「文の持つ意味を大き
く左右する役割」に着目したことによるものである。従
って、単語間類似度判定処理および単語列間類似度判定
処理は、本実施例に記載された方法に限るものではな
く、機能的表現のような文構造の枠組みを支える表現に
着目した他の判定手法を採用することも可能である。例
えば、文字列中での機能的表現の有無，文字列に用いら
れている機能的表現の位置や種類等についても文字列間
の類似度判定の要素としてもよい。

【０１５３】また、本実施例では、類似度検索エンジン
１０Ａや検索エンジン１０Ｂ等を外部装置９０とは別の
装置として設けることにより文間類似度判定装置１Ａを
構成するが、外部装置９０と検索エンジン１０Ａや１０
Ｂとを一体として文間類似度判定装置１Ａやデータ検索
装置１Ｂを構成するものとしても差し支えない。例え
ば、文字列間類否判定処理や類似文字列検出処理を実行
するためのプログラムを外部装置９０にインストールし
たり、公衆電話回線ＰＴＬを通じて外部装置９０にダウ
ンロードすることにより、外部装置９０自体で文間類似
度判定装置１Ａと同じ機能を実現することが可能とな
る。

【０１５４】本実施例の類似度検索エンジン１０Ａや検
索エンジン１０Ｂ等は、外部装置９０から文字列を入力
し、入力文字列に関する類似度の判定結果を外部装置９
０に出力する構成としているが、キーボード等の入力手
段を検索エンジン１０Ａや検索エンジン１０Ｂ自体に備
えることにより文字列を入力可能な構成としたり、ディ
スプレイ等の表示手段を用いて判定結果を表示可能な構
成としても差し支えない。

【０１５５】また、本発明を実施する他の形態として、
上述の文字列間類否判定プログラム等をコンピュータに
よる読み取り可能に記録した、ＦＤ，ＣＤ−ＲＯＭやＲ
ＯＭチップ等の記録媒体を考えることができる。この記
録媒体に格納された情報をコンピュータ内にインストー
ルすることで、コンピュータは、ＣＰＵからの命令に基
づいて文字列間類否判定プログラム等を実行可能な状態
となり、上記した文間類似度判定装置１Ａやデータ検索
装置１Ｂと同様の機能を実現する。従って、上記と同様
の効果を奏することができる。

【０１５６】これらの媒体は、例えば図１に示したフレ
キシブルディスク装置ＦＤＤにより読み取られて類似度
判定エンジン１０Ａ等に送信され、その内部の主記憶に
展開して実行される。なお、こうした媒体によらず、サ
ーバーＳＶに置かれたプログラムをネットワークＮＷを
介してモデムから読み込み、主記憶に展開して実行する
ものとしてもよい。

【０１５７】なお、本実施例では、文字列間の意味上の
類似度を判定するが、これ以外の文字列間の関係を判定
することも可能である。例えば、２つの文字列中におけ
る機能的表現の相違に着目することで、２つの文字列同
士の強調や限定，推定の程度の相違や，時制の相違等の
関係などを判定することができる。また、これらの関係
のうちのいくつかを使用者が任意に選択することによ
り、選択された関係についての判定を文間類似度判定装
置１０が実行する構成としてもよい。

【０１５８】また、本実施例では、単語列と単語列との
間の類似度を判定する際、単語間の類否関係が文字列間
で交差することを禁止するが、この交差を許容する構成
を採ることも可能である。例えば、２個の単語幅の範囲
内で交差を許容する場合、図14に示した単語列間距離演
算処理において、注目単語ａｉ、ｂｊの２個前の単語
までの単語列間距離であるｄ｛ａ（ｉ−２），ｂ（ｊ−
２）｝の値、単語ａｉと単語ｂ（ｊ−１）との語間距
離である２｛１−ｔ（ａｉ，ｂ（ｊ−１））｝の値、お
よび単語ａｉ，単語ｂ（ｊ−１）と交差した関係に有
る単語ａ（ｉ−１）と単語ｂｊとの語間距離である２
｛１−ｔ（ａ（ｉ−１），ｂｊ）｝の値という３つの値
の和をＸ４値として求め、Ｘ１値、Ｘ２値、Ｘ３値お
よびＸ４値のうちの最小値を、単語ａｉまでの単語列と
単語ｂｊまでの単語列との間の距離ｄ（ａｉ，ｂｊ）と
すればよい。同様の考え方で、４個の単語幅以内に交差
を許容する場合は、Ｘ１値からＸ７２値までの７２個の
候補の中から最小値を選べばよい。このように、本発明
を一定の幅のなかで交差を許容する構成に拡張すること
も好適である。

【０１５９】以上本発明の実施の形態を実施例に基づい
て説明したが、本発明はこうした実施例に何等限定され
るものではなく、本発明の要旨を逸脱しない範囲内にお
いて種々なる様態で実施し得ることは勿論である。

【図面の簡単な説明】

【図１】本発明の実施例である文間類似度判定装置のハ
ードウェアの構成を示す説明図である。

【図２】文字列間類否判定処理が実行される際の、類似
度検索エンジン１０Ａと外部装置９０との間の情報の流
れを示す説明図である。

【図３】文字列間類否判定ルーチンを示すフローチャー
トである。

【図４】概念語と機能的表現の役割を説明するブロック
図である。

【図５】単語間類似度判定ルーチンを示すフローチャー
トである。

【図６】単語間類似度判定ルーチンを示すフローチャー
トである。

【図７】概念語類義語辞書３６ａの構造を示す説明図で
ある。

【図８】機能的表現類義語辞書３６ｂの構造を示す説明
図である。

【図９】単語間情報記録テーブルＧＴに語間類似度およ
び語間距離が記録された様子を示す説明図である。

【図１０】単語列間類似度判定ルーチンＡを示すフロー
チャートである。

【図１１】脱落コスト設定ルーチンを示すフローチャー
トである。

【図１２】脱落コスト設定処理により座標軸が設定され
た距離グラフＹＧを示す説明図である。

【図１３】距離グラフＹＧ上における、各単語列間の距
離の表わし方を示す説明図である。

【図１４】単語列間距離演算ルーチンＡを示すフローチ
ャートである。

【図１５】ｄ（ａ１，ｂ１）の値の演算の過程および結
果を記憶した演算バッファＥＴの様子を示す説明図であ
る。

【図１６】距離グラフＹＧ上における原点Ｏから座標
（ａ１，ｂ１）に至るまでの経路を示す説明図である。

【図１７】ｄ（ａ１，ｂ２）の値の演算の過程および結
果を記憶した演算バッファＥＴの様子を示す説明図であ
る。

【図１８】距離グラフＹＧ上における原点Ｏから座標
（ａ１，ｂ２）に至るまでの経路を示す説明図である。

【図１９】単語ａ１からなる単語列と対比文字列Ｂの各
単語列との距離の値を記憶した単語列間距離記録テーブ
ルＤＬの様子を示す説明図である。

【図２０】ｄ（ａ２，ｂ２）の値の演算の過程および結
果を記憶した演算バッファＥＴの様子を示す説明図であ
る。

【図２１】距離グラフＹＧ上における原点Ｏから座標
（ａ２，ｂ２）に至るまでの経路を示す説明図である。

【図２２】入力文字列Ａの各単語列と対比文字列Ｂの各
単語列との距離の値を記憶した単語列間距離記録テーブ
ルＤＬの様子を示す説明図である。

【図２３】距離グラフＹＧの各座標に、単語列間距離記
録テーブルＤＬに記録された全ての単語列同士の距離の
値を割り当てたときの様子を示す説明図である。

【図２４】入力文字列Ａと対比文字列Ｂとの文字列間の
距離を距離グラフＹＧ上にパスを用いて示した説明図で
ある。

【図２５】単語列間距離演算処理Ａの結果、脱落とみな
された単語と類似関係にあるとみなされた単語の別を示
す説明図である。

【図２６】文字列間類似度演算ルーチンＡを示すフロー
チャートである。

【図２７】単語列間類似度判定ルーチンＢを示すフロー
チャートである。

【図２８】単語重要度設定ルーチンを示すフローチャー
トである。

【図２９】脱落コスト設定処理により座標軸が設定され
た距離グラフＹＷを示す説明図である。

【図３０】国語辞書に格納された各単語の重要度の値を
示す説明図である。

【図３１】単語列間距離演算ルーチンＢを示すフローチ
ャートである。

【図３２】入力文字列Ａの各単語列と対比文字列Ｂの各
単語列との距離の値を記憶した単語列間距離記録テーブ
ルＤＷの様子を示す説明図である。

【図３３】入力文字列Ａと対比文字列Ｂとの文字列間の
距離を距離グラフＹＷ上にパスを用いて示した説明図で
ある。

【図３４】単語列間距離演算処理Ｂの結果、脱落とみな
された単語と類似関係にあるとみなされた単語の別を示
す説明図である。

【図３５】文字列間類似度演算ルーチンＢを示すフロー
チャートである。

【図３６】第２実施例としてのデータ検索装置１Ｂを示
す説明図である。

【図３７】データ検索ルーチンを示すフローチャートで
ある。

【符号の説明】

１Ａ…文間類似度判定装置１Ｂ…データ検索装置１０Ａ…類似度検索エンジン１０Ｂ…検索エンジン１０ａ…ハードディスク１０ｂ…液晶ディスプレイ１０ｃ…コンピュータ２０…入力インタフェース２２…ＣＰＵ２４…ＲＯＭ２６…ＲＡＭ３４…出力インタフェース３５…バス３６…類義語辞書３６ａ…概念語類義語辞書３６ｂ…機能的表現類義語辞書９０…外部装置９０ａ…ハードディスク９０ｂ…ディスプレイ９０ｃ…コンピュータ９０ｄ…キーボード９２…プリンタ９４…モデムＦＤＤ…フレキシブルディスク装置ＮＷ…ネットワークＰＴＬ…公衆電話回線ＳＶ…サーバー

Claims

【特許請求の範囲】

【請求項１】一定のまとまりを持った内容を表わす所
定言語の文であり、判定対象となる第１の文と、該第１
の文との関係が判定される第２の文とを入力し、前記言
語による文を構成する構成単位であって、まとまった意
味を持つものとして類別された構成単位を用いて、前記
第１の文と前記第２の文との関係を判定する自然言語文
関係判定装置であって、前記類別された構成単位のうち、意味概念を表わす構成
単位として類別された概念表現と、文構造の枠組を支え
る表現に対応した構成単位として抽出された枠組み表現
とについて、少なくとも該概念表現同士および枠組み表
現同士の関係を表わす情報を記憶した関係情報記憶手段
と、前記第１の文および第２の文から、前記構成単位を抽出
する構成単位抽出手段と、前記関係情報記憶手段に記憶された前記情報を参照し
て、該抽出された第１および第２の文を構成する前記構
成単位のうち前記概念表現同士および前記枠組み表現同
士の関係を、語順の対応関係を考慮しつつ判断すること
により、前記第１の文と前記第２の文との関係を判定す
る関係判定手段とを備えた自然言語文関係判定装置。
【請求項２】前記関係情報記憶手段が前記関係を記憶
している前記枠組み表現を、意味概念を表わす概念表現
につき、格関係，因果関係などの概念間関係を表わす表
現である関係表現とした請求項１記載の自然言語文関係
判定装置。
【請求項３】前記関係情報記憶手段が前記関係を記憶
している前記枠組み表現は、前記文についての判断，態
度，時制などの広義の様相情報を与える助述表現である
請求項１記載の自然言語文関係判定装置。
【請求項４】請求項１記載の自然言語文関係判定装置
であって、前記関係判定手段は、前記語順の対応関係として、前記
抽出した構成単位の出現順の相違を許容しつつ、前記判
定を行なう手段である自然言語文関係判定装置。
【請求項５】請求項１記載の自然言語文関係判定装置
であって、前記関係判定手段は、前記語順の対応関係として、前記
抽出した構成単位の出現順の相違を許容しつつ、かつ該
構成単位間の２組以上の対応関係の交差を禁止して、前
記判定を行なう手段である自然言語文関係判定装置。
【請求項６】請求項１記載の自然言語文関係判定装置
であって、前記関係判定手段は、前記第１，第２の文を構成する前記構成単位のうち、前
記概念表現同士の関係を、前記関係情報記憶手段に記憶
された情報を参照して判定する第１の判定手段と、前記第１，第２の文を構成する前記構成単位のうち、前
記枠組み表現同士の関係を、前記関係情報記憶手段に記
憶された情報を参照して判定する第２の判定手段と、該第１，第２の判定手段による判定結果を、前記語順の
対応関係をとりつつ利用することにより、前記第１およ
び第２の文同士の関係を判定する総合判定手段とを備え
る自然言語文関係判定装置。
【請求項７】請求項６記載の自然言語文関係判定装置
であって、前記総合判定手段は、前記第１または第２のいずれかの文から抽出された各構
成単位に関し、対応する構成単位が他方の文に存在しな
い場合の値を、脱落値として予め設定する脱落値設定手
段と、前記語順の対応関係をとりながら、前記第１，第２の文
から抽出された構成単位同士のうち、所定の関係にある
もの同士に、該関係に基づく値を、関係値として付与す
る関係値付与手段と、該付与された関係値および前記設定された脱落値を評価
し、前記第１および第２の文同士の関係値を求める文間
関係値演算手段とを備える自然言語文関係判定装置。
【請求項８】前記脱落値設定手段は、前記脱落値を、
前記構成単位の重要度に応じた値に設定する手段である
請求項７記載の自然言語文関係判定装置。
【請求項９】前記脱落値設定手段は、前記他方の文に
存在しない構成単位が、前記概念表現であるか枠組み表
現であるかによって、異なる脱落値を設定する手段であ
る請求項７または８に記載の自然言語文関係判定装置。
【請求項１０】請求項６記載の自然言語文関係判定装
置であって、前記関係情報記憶手段は、前記概念表現同士の関係とし
て、意味概念を単独で表わす概念語同士の関係に加え
て、概念性接辞と概念語との関係を前記情報として記憶
しており、前記第１の判定手段は、前記概念表現同士の関係とし
て、前記概念語同士の関係に加えて、前記関係情報記憶
手段に記憶された前記概念性接辞と概念語間の関係につ
いても判定を行なう手段である自然言語文関係判定装
置。
【請求項１１】請求項１記載の自然言語文関係判定装
置であって、前記関係情報記憶手段は、前記概念表現同士および前記
枠組み表現同士の関係として、類似の程度を表わす情報
を記憶した類否情報記憶手段であり、前記関係判定手段は、該類否情報記憶手段に記憶された
概念表現同士および枠組み表現同士の類似の程度を参照
して、前記第１および第２の文同士の類否を判定する類
否判定手段である自然言語文関係判定装置。
【請求項１２】請求項１１記載の自然言語文関係判定
装置であって、前記類否情報記憶手段は、前記概念表現同士および枠組
み表現同士の対と、当該対にされた表現間の意味上の類
似度を数値によって表わした類似度数値データとを、前
記類否の程度を表わす情報として、外部記憶装置に記憶
しており、前記類否判定手段は、前記類似度数値データの大小を用
いて、前記類否の判定を行なう手段である自然言語文関
係判定装置。
【請求項１３】請求項１２記載の自然言語文関係判定
装置であって、前記類否情報記憶手段は、前記類似度数値データとし
て、値０ないし１の範囲で、類似の程度が高いほど値１
に近づく値を記憶しており、前記類否判定手段は、前記類似度数値データの値から、前記概念表現同士およ
び前記枠組み表現同士の距離を演算する手段と、該距離の総和が最も短くなる組み合わせを特定する手段
と、該特定された組み合わせにおける前記距離の総和を、前
記第１および第２の文同士の相違の程度として求める手
段とを備えた自然言語文関係判定装置。
【請求項１４】複数の検索対象文から、検索のための
キーとして与えられた検索キー文に類似した文を検索す
る自然言語文検索装置であって、請求項１１記載の自然言語文関係判定装置と、前記検索キー文を、第１の文として特定する第１文特定
手段と、前記複数の検索対象文から、順次、一の文を選択して、
第２の文として特定する第２文特定手段と、前記特定された第１の文および前記第２の文を、前記自
然言語文関係判定装置に付与して、前記類否判定を行な
わせる判定実行手段と、前記自然言語文関係判定装置の判定結果を、前記付与さ
れた第２の文に応じて保存し、前記第１の文として与え
られた検索キー文に最も類似する第２の文を、前記複数
の検索対象文中から選択する選択手段とを備えた自然言
語文検索装置。
【請求項１５】意味概念を表わす表現である概念表現
につき、少なくとも該概念表現同士の関係を表わす情報
を記憶した辞書と、第１の語句と第２の語句とを入力する入力手段と、該入力された第１の語句および第２の語句から該語句を
構成する単語を抽出する抽出手段と、該抽出された第１の語句を構成する単語と該第２の語句
を構成する単語との関係を、前記辞書を参照して判断す
る判断手段と、該判断手段による判断結果に基づいて前記第１の語句と
前記第２の語句との関係を判定する判定手段とを備えた
語句関係判定装置であって、前記第１の語句または第２の語句のうちの少なくとも一
方には、２以上の単語の結合により１のまとまった意味
概念を表わす表現である複合表現を含み、該複合表現と、該複合表現に対応する表現との関係を評
価する評価手段を備え、前記判定手段は、該評価手段による評価結果を考慮し
て、前記第１の語句と前記第２の語句との関係を判定す
る手段である語句関係判定装置。
【請求項１６】請求項１５に記載の語句関係判定装置
であって、単語に関する情報を予め記憶する記憶部と、前記複合表現に対応する表現を構成する単語のうち、前
記複合表現に存在しない単語を指定する単語指定手段
と、該特定された単語の種類を、前記記憶部を参照して特定
する種類特定手段を備え、前記評価手段は、該種類特定手段により特定された単語
の種類が所定の種類である場合には、該単語に対応する
単語が前記複合表現に存在する場合と同様に、前記複合
表現と該複合表現に対応する表現との関係を評価する手
段である語句関係判定装置。
【請求項１７】一定のまとまりを持った内容を表わす
所定言語の文であり、判定対象となる第１の文と、該第
１の文との関係が判定される第２の文とを入力し、前記
言語による文を構成する構成単位であって、まとまった
意味を持つものとして類別された構成単位を用いて、前
記第１の文と前記第２の文との関係を判定する方法であ
って、前記類別された構成単位のうち、意味概念を表わす構成
単位として類別された概念表現と、文構造の枠組を支え
る表現に対応した構成単位として抽出された枠組み表現
とについて、少なくとも該概念表現同士および枠組み表
現同士の関係を表わす情報を記憶し、前記第１の文および第２の文から、前記構成単位を抽出
し、前記記憶された前記情報を参照して、該抽出された第１
および第２の文を構成する前記構成単位のうち前記概念
表現同士および前記枠組み表現同士の関係を、語順の対
応関係を考慮しつつ判断することにより、前記第１の文
と前記第２の文との関係を判定する自然言語文関係判定
方法。
【請求項１８】請求項１７記載の自然言語文関係判定
方法であって、前記第１の文と第２の文との関係の判定は、前記第１，第２の文を構成する前記構成単位のうち、前
記概念表現同士の関係を、前記記憶された情報を参照し
て判定する第１の処理、前記第１，第２の文を構成する前記構成単位のうち、前
記枠組み表現同士の関係を、前記記憶された情報を参照
して判定する第２の処理、該概念表現および枠組み表現についての判定結果を、前
記語順の対応関係をとりながら総合することにより、前
記第１および第２の文同士の関係を判定する第３の処理
からなる自然言語文関係判定方法。
【請求項１９】請求項１８記載の自然言語文関係判定
方法であって、前記第３の処理は、前記第１または第２のいずれかの文から抽出された各構
成単位に関し、対応する構成単位が他方の文に存在しな
い場合の値を、脱落値として予め設定する脱落値設定処
理と、前記語順の対応関係をとりながら、前記第１，第２の文
から抽出された構成単位同士のうち、所定の関係にある
もの同士に、該関係に基づく値を、関係値として付与す
る関係値付与処理と、該付与された関係値および前記設定された脱落値を評価
し、前記第１および第２の文同士の関係値を求める文間
関係値演算処理ととを有する自然言語文関係判定方法。
【請求項２０】請求項１７記載の自然言語文関係判定
方法であって、前記概念表現同士および前記枠組み表現同士の関係とし
て、類似の程度を表わす情報を記憶し、前記第１，第２の文の関係の判定は、前記記憶された概
念表現同士および枠組み表現同士の類似の程度を参照し
て、前記第１および第２の文同士の類否を判定するもの
である自然言語文関係判定方法。
【請求項２１】複数の検索対象文から、検索のための
キーとして与えられた検索キー文に類似した文を検索す
る方法であって、前記検索キー文を、第１の文として特定し、前記複数の検索対象文から、順次、一の文を選択して、
第２の文として特定し、前記第１の文と前記第２の文とを用いて、請求項２０記
載の自然言語文関係判定方法を実行し、前記自然言語文関係判定方法による判定結果を、前記付
与された第２の文に応じて保存し、前記第１の文として
与えられた検索キー文に最も類似する第２の文を、前記
複数の検索対象文中から選択する自然言語文検索方法。
【請求項２２】一定のまとまりを持った内容を表わす
語句である第１の語句と第２の語句とを入力し、該入力
された第１の語句および第２の語句から該語句を構成す
る単語を抽出し、該抽出された第１の語句を構成する単
語と該第２の語句を構成する単語との関係を、意味概念
を表わす表現である概念表現につき、少なくとも該概念
表現同士の関係を表わす情報を記憶した辞書を参照して
判断し、該判断の結果に基づいて前記第１の語句と前記
第２の語句との関係を判定する語句関係判定方法であっ
て、前記第１の語句または第２の語句のうちの少なくとも一
方には、２以上の名詞である単語の結合により１のまと
まった意味概念を表わす表現である複合表現を含み、該複合表現と、該複合表現に対応する表現との関係を評
価し、この評価の結果を考慮して、前記第１の語句と前
記第２の語句との関係を判定する語句関係判定方法。
【請求項２３】一定のまとまりを持った内容を表わす
所定言語の文であり、判定対象となる第１の文と、該第
１の文との関係が判定される第２の文とを入力し、前記
言語による文を構成する構成単位であって、まとまった
意味を持つものとして類別された構成単位を用いて、前
記第１の文と前記第２の文との関係を判定するプログラ
ムを、コンピュータに読み取り可能に記録した記録媒体
であって、前記類別された構成単位のうち、意味概念を表わす構成
単位として類別された概念表現と、文構造の枠組を支え
る表現に対応した構成単位として抽出された枠組み表現
とについて、少なくとも該概念表現同士および枠組み表
現同士の関係を表わす情報を記録すると共に、前記第１の文および第２の文から、前記構成単位を抽出
する機能と、前記記憶された前記情報を参照して、該抽出された第１
および第２の文を構成する前記構成単位のうち前記概念
表現同士および前記枠組み表現同士の関係を、語順の対
応関係を考慮しつつ判断することにより、前記第１の文
と前記第２の文との関係を判定する機能とを記録した記
録媒体。
【請求項２４】請求項２３記載の記録媒体であって、前記第１の文と第２の文との関係を判定する機能とし
て、前記第１，第２の文を構成する前記構成単位のうち、前
記概念表現同士の関係を、前記記憶された情報を参照し
て判定する第１の機能と、前記第１，第２の文を構成する前記構成単位のうち、前
記枠組み表現同士の関係を、前記記憶された情報を参照
して判定する第２の機能と、該概念表現および枠組み表現についての判定結果を、前
記語順の対応関係をとりながら総合することにより、前
記第１および第２の文同士の関係を判定する第３の機能
とを記録した記録媒体。
【請求項２５】請求項２４記載の記録媒体であって、前記第３の機能として、前記第１または第２のいずれかの文から抽出された各構
成単位に関し、対応する構成単位が他方の文に存在しな
い場合の値を、脱落値として予め設定する機能と、前記語順の対応関係をとりながら、前記第１，第２の文
から抽出された構成単位同士のうち、所定の関係にある
もの同士に、該関係に基づく値を、関係値として付与す
る機能と、該付与された関係値および前記設定された脱落値を評価
し、前記第１および第２の文同士の関係値を求める機能
とを記録した記録媒体。
【請求項２６】請求項２３記載の記録媒体であって、前記概念表現同士および前記枠組み表現同士の関係とし
て、類似の程度を表わす情報を記録しており、前記第１，第２の文の関係を判定する機能として、前記
記憶された概念表現同士および枠組み表現同士の類似の
程度を参照して、前記第１および第２の文同士の類否を
判定する機能を記録した記録媒体。
【請求項２７】一定のまとまりを持った内容を表わす
所定言語の複数の検索対象文から、検索のためのキーと
して与えられた検索キー文に類似した文を検索するプロ
グラムを、コンピュータに読み取り可能に記録した記録
媒体であって、前記言語による文を構成する構成単位であって、まとま
った意味を持つものとして類別された構成単位のうち、
意味概念を表わす構成単位として類別された概念表現
と、文構造の枠組を支える表現に対応した構成単位とし
て抽出された枠組み表現とについて、少なくとも該概念
表現同士および枠組み表現同士の関係を表わす情報を記
録すると共に、前記検索キー文を、第１の文として特定する機能と、前記複数の検索対象文から、一の文を、順次、第２の文
として特定する機能と、前記第１の文および第２の文から、前記構成単位を抽出
する機能と、前記記憶された前記情報を参照して、該抽出された第１
および第２の文を構成する前記構成単位のうち前記概念
表現同士および前記枠組み表現同士の関係を、語順の対
応関係を考慮しつつ判断することにより、前記第１の文
と前記第２の文との関係を判定する機能と該判定結果
を、前記特定された第２の文に応じて保存し、前記第１
の文として特定された検索キー文に最も類似する第２の
文を、前記複数の検索対象文中から選択する機能とを記
録した記録媒体。
【請求項２８】一定のまとまりを持った内容を表わす
語句である第１の語句と第２の語句とを入力し、該入力
された第１の語句および第２の語句から該語句を構成す
る単語を抽出し、該抽出された第１の語句を構成する単
語と該第２の語句を構成する単語との関係を、意味概念
を表わす表現である概念表現につき、少なくとも該概念
表現同士の関係を表わす情報を記憶した辞書を参照して
判断し、該判断の結果に基づいて前記第１の語句と前記
第２の語句との関係を判定するプログラムを、コンピュ
ータに読み取り可能に記録した記録媒体であって、前記第１の語句または第２の語句のうちの少なくとも一
方には、２以上の名詞である単語の結合により１のまと
まった意味概念を表わす表現である複合表現を含み、該複合表現と、該複合表現に対応する表現との関係を評
価し、この評価の結果を考慮して、前記第１の語句と前
記第２の語句との関係を判定する機能を記録した記録媒
体。