JPS60159970A - 情報蓄積検索方式 - Google Patents

情報蓄積検索方式

Info

Publication number
JPS60159970A
JPS60159970A JP59013459A JP1345984A JPS60159970A JP S60159970 A JPS60159970 A JP S60159970A JP 59013459 A JP59013459 A JP 59013459A JP 1345984 A JP1345984 A JP 1345984A JP S60159970 A JPS60159970 A JP S60159970A
Authority
JP
Japan
Prior art keywords
word
derived
key word
record
root
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59013459A
Other languages
English (en)
Inventor
Hiroyuki Kaji
梶 博行
Yoshihiko Nitta
義彦 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59013459A priority Critical patent/JPS60159970A/ja
Priority to US06/696,080 priority patent/US4775956A/en
Publication of JPS60159970A publication Critical patent/JPS60159970A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up
    • G06F16/902Indexing; Data structures therefor; Storage structures using directory or table look-up using more than one table in sequence, i.e. systems with three or more layers

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、自動翻訳システム、質問応答システム、文献
データベースシステム等の自然言語処理システムに関す
るものであり、特に、この種のシステムにおける自然言
語の語を見出しとする情報の蓄積と検索に関するもので
ある。 ゛〔発明の背景〕 前記のようなシステムにおいては、多数の語に対応して
それぞれの関連情報(文法、訳語、意味、文献等)を蓄
積し、任意の語が与えられたときにその関連情報を検索
することができるファイルが不可欠の構成要素であるが
、このようなファイルの所要容量と検索効率は、システ
ムのコストと性能を大きく左右するものであるから、そ
れらの改善は極めて重要である。
従来の情報蓄積検索方式によれば、それぞれの語に対応
して、語をキーとしてその語の関連情報を含むレコード
を形成し、かようなレコードを集めてファイルを構成す
る。そして、語が与えられたとき、これとレコードキー
との一致判定処理を行なうことによシ所望の関連情報を
出力する。このような方式では、派生語について次のよ
うな欠点があった。
一般に、語には多くの派生語がアリ、へれら派生語の関
連情報には共通するものが多い。例えば、複数の派生語
が品詞を異にするだけで意味記述はほとんど同一である
というような事例は、枚挙に暇がない。このような情況
に対処するのに、かような共通の情報をも各派生語にそ
れぞれ対応する複数のレコードに重複して記入するので
は、所要記憶容量が増大するだけでなく、蓄積情報の保
守(修正、補充等)も面倒である。そこで、派生語群中
の適当な1語を選び、その語に対応するレコードにのみ
共通関連情報を収録して、このレコードを他の派生語か
ら参照できるようにすることが考えられる。しかし、こ
れでは、ファイル構造が複雑になるばかりでなく、前記
選ばれた語以外の語から検索する場合には検索時間が長
くなる。
まだ、ファイルの利用目的によっては、ある語に対して
その派生語を検索する要求も生じる(例えば、自動翻訳
システムにおけるターゲット言語の生成用辞書、文献デ
ータベースシステムにおけるキーワードファイル等)。
このような要求を満たすには、従来の情報蓄積方式では
それら派生語もまた一種の関連情報として記憶すること
が必要になる。このために所要記憶容量は更に増大し、
それら派生語の関連情報までも含めて検索する場合には
、検索時間が一段と長引くことになる。
〔発明の目的〕
本発明は、前記の問題を解決することを目的とする。す
なわち、本発明の目的の一つは、諸派主語に共通する関
連情報の重複収録を省いて所要記憶容量を低減すること
であり、もう一つの目的は、多様な態様の検索を効率よ
く行なえるようにすることである。
〔発明の概要〕
語というものは、一般に、語の主たる意味を担う語根と
、派生語を作シ出す接辞とから成り、シかも、一つの語
根に接続しうる接辞の組は、比較的少数の類型に分類す
ることができるものである。
本発明の基礎をなす方策は、このような接辞の組の類型
すなわち派生語生成パターンを特定するコード(以下派
生語パターンコードという)を定め、これによって語根
を分類する点にある。
ファイルを構成する各レコードは、語根をキーとすると
ともに、その語根から生じる一群の派生語の全関連情報
と、その語根に適合する派生語パターンコードとを含む
。これとは別に、派生語パターンコードごとに対応する
一組の接辞を収録した派生語パターン辞書を用意し、検
索に当たり、この辞書を参照して語根と接辞から派生語
を合成する。また、レコード内の関連情報は、派生語間
に共通する部分と各派生語に個有の部分に分けて収録し
、出力に当たって完全情報を合成する。
〔発明の実施例〕
(1)実施例I 最初に説明する実施例は、電子辞書であって、英単語を
入力してその単語の品詞と日本語訳とを検索・表示する
機能(「翻訳」機器のと、英単語と品詞とを入力してそ
の単語の派生語でかつ入力した品詞のものを検索・表示
する機能(「派生語」機能)とを有するものである。そ
の機器構成の概略は、第1図に示すように、検索処理や
他の機器の制御を行なう中央処理装置1、訳語辞書21
及び派生語パターン辞書22を格納した記憶装置2、文
字情報入力用キー及び前記「翻訳」機能、「派生語」機
能等の機能を指定するファンクションキーを備えた入力
装置3、及び文字情報を表示するだめの表示装置4から
成る。訳語辞書21中の各レコードは、語根211、派
生語パターンコード212、訳語共通部分213及び訳
語個別部分214の各フィールドから成り、訳語個別部
分のフィールドは当該語根から派生する単語の数だけ繰
り返される。派生語パターン辞書22中の各レコードは
、派生語パターンコード221及び接辞・品詞データ2
22の各フィールドから成り、接辞・品詞データのフィ
ールドは当該派生語生成パターンに含まれる接辞の数だ
け繰り返される。ただし、同じ接辞でも品詞が異なれば
品詞ごとに別個の接辞とみなす。
訳語辞書21及び派生語パターン辞書22中のレコード
の内容の具体例をそれぞれ第2図及び第3図に示す。本
実施例において、「語根」は、語の形態索輪に厳密に従
うものでなく、一群の派生語の綴シに共通な部分文字列
として定義されている。例えば、派生語群(effic
iency、 efficient。
efficiently )については「effiCi
en jが語根であシ、(1nsist、 In51s
tence、 In5istent。
1nsistently )については「1nsist
 Jが語根で、1、(compile 、 Compi
lation 、 compiler)については「0
0m9口」へ語根である。まだ、「接辞」は、単語の綴
りから語根を除いた部分文字列である。例えば、語根[
efficien jについを作る接辞である。これと
同じ接辞の組に接続する語根としては[profici
en J 、「5ufficienj等がある。すなわ
ち、この接辞の組はこれらの語根に共通し、それらを特
徴づけ、類別する派生語パターンである。このような接
辞の組を特定するのが「派生語パターンコード」であっ
て、前記の接辞の組にはコード「12」が割当てられて
いる。
同様に、派生語群(1nsist、 1nsisten
ce 。
1nsistency 、1nsistent 、1n
ststentty )や(persist 、 pe
rsistence 、 persistency。
persistent 、 persistently
)を生成する接辞の組には派生語パターンコード「27
」が割当てられ、(Compile 、compila
tjon 、Compiler )を生成する接辞の組
には派生語パターンコード「70」が割当てられている
派生語パターン辞書22の各レコード(第3図)におけ
る派生語パターンコードのフィールドには、前記派生語
パターンコードが見出しとして収容されており、そして
、接辞・品詞データのフィールドには、当該派生語パタ
ーンコードに対応する接辞の組に属する各接辞が、それ
によって生成される語の品詞と共に収容されている。ま
た、訳語辞書21の各レコード(第2図)における語根
のフィールドには各派生語群の語根が見出しとして収容
されており、派生語パターンコードのフィールドには当
該語根に接続される接辞の組に対応する派生語パターン
コードが収容されている。例えば、語根[effici
en Jを含むレコードにおける派生語パターンコード
のフィールドの内容はrl 2Jになっている。訳語辞
書21には、更に、訳語情報が、派生語の訳語に共通な
部分(訳語共通部分)と各派生語の訳語に個有の部分(
訳語個別部分)に分けて収容されている。例えば、[e
fficiency玉「efficierrtI及び「
efficientl幻の訳語「効率」、「効率的な」
及び「効率的に」は、第2図に示すように、共通部分「
効率」と、個別部分「−」、「的な」及び「的に」に分
けて収められている。ここで「−」は個別部分にあたる
文字列が存在しないことを表わす。なお、訳語辞書のレ
コードは語根のアルファベット順に、また派生語パター
ン辞書のレコードは派生語パターンコードの数値の大き
さ順に、それぞれ順序良く配列されている。
次に、前述した「翻訳」機能と「派生語」機能の実現の
ために中央処理装置1が行なう処理を、第4図のフロー
チャートに従って説明する。なお、同図及び以下の説明
中に用いられている記号の意 −味は次のとおりである
。MDは本装置の処理モート責「翻訳」機能と「派生語
」機能の別)を示すインジケータで、入力装置3のファ
ンクションキーの操作によシセットされる。WDは入力
された単語を保持するレジスタであり、PSは入力され
た品詞コードを保持するレジスタである。PLは検索結
果を示すフラグ、■は訳語辞書21から読込むべきレコ
ードの相対レコード番号を示すカウンタ、Jは派生語パ
ターン辞書22のレコード内の接辞・品詞データの番号
を示すカウンタである。
1mは訳語辞−書21中のレコードの総数(測定値)、
Jmは派生語パターン辞書22のレコード中の接辞・品
詞データの総数(レコードによって異なり、各レコード
の適当なフィールドに記入しておく)を格納するレジス
タを、それぞれ表わす。
第4図のフローチャートに示す処理は、利用者が入力装
置3のキーボードから英単語(「a訳」モードの場合)
又は英単語と品詞(「派生語」モードの場合)を入力し
、所望の処理モードを指定するファンクションキーを操
作することにより開始される。まず、読込んだ入力デー
タをWDとPSにセットするとともに、ファンクション
キーに応じてMDに指定された処理モード(「翻訳」/
「派生語」)をセットしく101) 、WDとPSにセ
ットされたデータを表示する(102)。次に、■の値
を1にした(103 )後、訳語辞書21の第ニレコー
ドを読込み (105)、そのレコードの語根がWDの
内容の前方部分に一致するか否かを判定する(107)
。この処理は、一致するレコードが発見されるまで、■
の値に1を加え(ios)ながら繰り返す。ただし、■
〉1mとなる(104)か、あるいは第ニレコードの語
根がWDの内容より大きくなる(106)と、入力単語
は非収録語である旨のメツセージを表示装置に出力(1
09) して、処理を終了する。
WDの内容の前方部分に語根が一致するレコードが得ら
れると、そのレコード中の派生語パターンコードに対応
するレコードを派生語パターン辞書22から読込む(1
10)。次いで、そのレコード中の接辞・品詞データの
総数をJmにセットしく1tt) % Jの値を1にし
く112)、更にFLをo f f ”にする(113
)。それからステップ110で読込んだレコードの第J
接辞と語根とから派生語を合成(115)して、それが
WDの内容と一致するか否かを判定しく116) 、こ
の処理を、Jに1を加え(117)ながら、JくJmで
ある間(114)繰シ返す。もしもJくJmである間に
WDの内容と一致する派生語が合成されなかった場合(
118)には、訳語辞書中の次のレコードの読込み処理
に戻る(108,105) 。合成した派生語がWDの
内容と一致した場合、その後の処理は、MDにセットさ
れている処理モードによって異なる(119)。
MDにセットされている処理モードが「翻訳」である場
合は、FLを°’ o n ”にした(120)後、品
詞と訳語の表示を行なう。すなわち、派生語パターン辞
書レコード中の第J接辞に対応する品詞データを表示装
置に出力しく121) 、次いで、訳語辞書レコードの
訳語共通部分と第J訳語個別部分とから訳語を合成しく
122) 、これを表示装置に出力する(123)。
他方、MDにセットされている処理モードが「派生語」
の場合には、ステップ119で分岐し、次の処理によ、
0、PSが指定する品詞の派生語を合成して表示する。
まず、Jの値を1にしく124)、FLをo f f 
”にする(125)。次いで、派生語パターン辞書レコ
ード中の第5品詞がPSの内容と一致するか否かの判定
処理(127)を、Jに1を加え(128)ながら、J
 <J mである間(126)繰り返す。第5品詞がP
Sの内容と一致すれば、FLを°l 0n11にした(
129)後、派生語パターン辞書レコード中の第J接辞
と語根とから派生語を合成しく130) 、これを表示
装置に出力する(131)。もしもJ<:Jmである間
にPSの内容と一致する品詞が発見されなかった場合(
132)には、非収録品詞である旨のメツセージを表示
装置に出力する(133)。
第5図は、以上の処理の結果として表示装置4に表示さ
れた画面の例を示す。第5図(a)は、英単語[eff
icientJを入力してファンクションキー「翻訳」
を押した場合である。この場合の中央処理装置1による
処理を簡単に説明すると、まずステップ102で入力単
語を表示してから、ステップ105で「efficie
nt j ト前方部分カ一致する語根1efficie
n Jに対応する訳語辞書レコードが検索され、その結
果、その派生語パターンコードは「12」であることが
わかり、ステップ110で対応する派生語パターン辞書
レコードを読込む。このレコードは語根[effici
en jに接辞rcyj、「t」及びrtlyjが接続
されうることを示しているので、ステップ115で派生
語(J ef f 1ciency j、[effic
ient J 、[efficiently j を順
次合成する。これらの派生語はステップ116で入力単
語[efficientJと順次比較され、第2番目の
派生語が入力単語と一致することがわかる。そこで、第
2番目の接辞と対になった品詞「ADJ」をステップ1
21で表示する。続いて、ステップ122で、語根「e
fficien Jに対応する訳語辞書レコードの訳語
共通部分のデータ「効率」と第2番目の訳語個別部分の
データ「的な」とから訳語「効率的な」を合成し、これ
をステップ123で表示する。
第5図(b)は、英単語「1nsist J と品詞r
NJとを入力し、ファンクションキー「派生語」を押し
た場合である。まず入力した英単語と品詞とを表示し、
次いで語根「1nsist Jに対応する訳語辞書レコ
ードを検索して、派生語パターンコード「27」に対応
する派生語パターン辞書レコードを読込み、入力単語[
1nsistJ と一致する派生語を合成して(この一
致判定は入力されたものが単語であることの確認である
)、分岐ステップ119に入るまでは、第5図(a)の
場合と同様である。次に、ステップ127で、入力品詞
「N」と派生語パターン辞書レコード中の品詞データを
比較し、その結果、第2番目の接辞「enCe」と第3
番目の接辞「ency J とが名詞(N’)を作る接
辞であることが判明する。そこで、ステップ130で、
語根I” 1nsist Jとこれらの接辞とからそれ
ぞれ単語[1nsistencej及び[1nsist
ency jを合成し、これらをステップ131で表示
する。
本実施例では接辞として接尾辞のみをと9あげたが、接
頭辞についても、また接尾辞と接頭辞の組合わせについ
ても、同様に本発明を適用できることは多言を要しない
。また、本実施例では辞書のサーチ方法として最も素朴
なシーケンシャルサーチ法を採用しているが、他のもつ
と効率の良いサーチ法を採用しうろことは、当業者には
明らかであろう。
本実施例においては、同一の接辞の組を持つ多数の語根
の間で接辞及び品詞データを共有することによる所要記
憶容量の低減効果が犬である。派生語生成パターンの種
類(接辞の組の数)は単語あるいは語根の総数に比して
ずつと少数であり、派生語パターンコードには2バイト
程度を割当てれば十分である。また、訳語情報の記述に
共通部分を設けたことによっても、記憶容量が節約され
ている。更に、従来技術によるときのような所要記憶容
量の増大もなしに、派生語検索機能が実現されている。
(2)実施例■ 次の実施例は、キーワード抽出機能と文献検索機能とを
持つ文献データベースシステムであり、第6図に示すよ
うに、キーワード抽出及び文献検索処理並びに他の機器
の制御を行なう中央処理装置B1、キーワードファイル
B21及ヒ派生語パターン辞書B22を格納する記憶装
置B2、文字情報を入力するだめの入力装置B3、文字
情報を出力するだめの出力装置B4及び文献ファイル、
B5”1格納す4大容量記憶4置8゛から構成2れる。
キーワードファイルB21中の各レコードは、キーワー
ド語根B211、派生語パターンコードB212、正規
キーワード語番号B213及び文献番号B214の各フ
ィールドから成り、文献番号フィールドは当該キーワー
ドを持つ文献の数だけ繰り返される。派生語パターン辞
書B22は実施例Iにおける派生語パターン辞書22と
同様であるが、品詞データは必ずしも必要でない。
文献ファイルB、51中の各レコードは、文献番号B5
11、テキストB512及びキーワードB513の各フ
ィールドから成り、キーワードフィールドは当該テキス
トから抽出されたキーワードの数だけ繰り返される。
キーワードファイルB21及び文献ファイルB51の内
容の具体例を第7図と第8図に示す。
第7図は同図(b)に示された文献番号D230の文献
に対するキーワード抽出を行なう前のものであシ、第8
図はそのキーワード抽出を完了した後のものである。
キーワード抽出機能を実現するために中央処理装置B1
が行なう処理の概略的フローチャートを第9図に示す。
第1ステツプ(BIOI>では、文献ファイルB51か
ら文献テキストを読込み、6語を切出す。例えば、第7
図(b)の文献番号D230のテキストからは、「en
ableS」、[efficientJ、[compi
lation J 、[t o J、[compi16
J等がキーワードの候補として切出される。第2ステツ
プ(B102)では、第1ステツプで得られた6語につ
いてキーワードファイルの検索を行なう。
この処理は実施例Iにおける訳語辞書21の検索(第4
図のステップ119に入るまで)と実質上同じである。
キーワードファイルには[enablej、「to」、
「a」等のキーワードとなりえない語は収録されていな
い。したがって、第2ステツプで検索に成功する[eI
f−f 1.c:i;e rrtj、「(Ompl−1
ationj、[compilej、「prOgram
j等がキーワードの候補として残される。第3ステツプ
(B103)では、キーワード候補として残った6語を
正規キーワードに変換する。すなわち、キーワードファ
イルレコードには派生語ノシターンコードと正規キーワ
ード語番号が収められているので、派生語パターンコー
ドに対応する派生語パターン辞書レコードを読込んで、
正規キーワード語番号に対応する派生語を合成する。例
えば、キーワード候補[efficientjに対して
は、語根「efficien Jに対応するキーワード
ファイルレコードに派生語パターンコード「12」と正
規キーワード語番号「1」が入っているので、派生語パ
ターンコード「12」に対応する派生語パターン辞書レ
コード(第3図参照)中の第1番目の接辞rcyjと語
根「efficien jとから正規キーワードである
[efficiency J ’を合成する。第4ステ
ツプ(B104)では、第3ステツプで得られたいくつ
かの正規キーワードから重複するものを除いた後、これ
ら正規キーワードを文献ファイルレコードのキーワード
フィールドB513に書込む(第8図(b)参照)。例
えば、文献番号D230ノテキスト中の語 [comp
i Iat ion j及び「compi lejから
はいずれも正規キーワードとして「compilerJ
が得られるが、この正規キーワードは文献ファイルレコ
ードには1個だけ書込まれる。第5ステツプ(B105
)では、今処理した文献の文献番号を、抽出された各正
規キーワードの語根に対応するキーワードファイルレコ
ード中の文献番号フィールドB214にそれぞれ書込む
(第8図(a)参照)。
上記のキーワード抽出処理は、派生語パターン辞書を用
いてキーワードの正規化処理を行なう点に特徴があり、
この正規化処理によって、派生語の形で多数のキーワー
ドを実質上重複して抽出するの愚を避けることができる
。しかも、このように正規化したキーワードのみを抽出
・収録するにもかかわらず、検索に当って何の不自由も
生じないことは、次に説明する文献検索処理の内容から
明らかである。また、索引語作成の観点からも、正規化
されたキーワードのみが付与されることの利点は大きい
次に、文献検索機能を実現するために中央処理装置B1
が行なう処理の概略フローチャートを第10図に示す。
第1ステツプ(B151)では、質問式を入力装置B3
から読込み、検索キーとなる語を切出す。第2ステツプ
(B152)では、各検索キーについてキーワードファ
イルの検索ヲ行すう。この処理は実施例Iにおける訳語
辞書21の検索(第4図のステップ119に入るまで)
と実質上同じである。第2ステツプで検索した各キーワ
ードファイルレコードは、各検索キーに対応する文献集
合を示している。第3ステツプ(B153)では、質問
式に従った集合演算によシ、出力すべき文献の文献番号
を絞って決定する。第4、ステップ(B154)では、
出力すべき文献のテキストとキーワードとを文献ファイ
ルB51から読出し、これを出力装置B4に出力する。
例えば、第8図に示されたファイルに対して質問式「c
ompiler & efficiencyJで間合わ
せると、文献番号DiO3及びD230の文献が検索さ
れるが、ここで、文献番号D230の文献はそのテキス
トに「compilerJという単語も「effici
encyjという単語も含まれていないにもかかわらず
検索されたことに注目すべきである。
また、上記質問式中のキー「efficiency j
の代9に、正規化キーワードでない「efficien
tjを用いても、全く同じ結果が得られる。これらは派
生語パターン辞書を用いたことの効果である。これと−
見類似する検索能力が、キーワードの前方最長一致をと
るという従来方法によってももたらされる。しかしなが
ら、前方最長一致による検索は字面のみについての機械
的な処理であるために、単に綴りに前方一致があるだけ
で意味上は無関係なキーワードを持つ文献が拾われる恐
れがある。
これに対して、本発明によれば、派生語パターン辞書を
用いて派生語群をチェックするので、前記のような検索
ノイズの発生を完全に防止することができる。
〔発明の効果〕
以上の説明から明らかなように、本発明は、その独特な
派生語及びその関連情報の取扱いにより、検索効率の低
下なしにファイルの所要記憶容量を大幅に圧縮し、特に
派生語を含めた検索については検索効率の顕著な向上を
もたらすものである。
本発明は、携帯型の電訳器から大型コンピュータを用い
た自動翻訳システムや文献データベースシステムに至る
まで、広範な分野に適用することができる。携帯型の装
置では辞書全体をROM化することも困難ではない。他
方、膨大な情報を扱う大型システムでは、派生語パター
ン辞書を主記憶装置に収容し、他のファイルは二次(外
部)記憶装置に収容する形式が、コストパフォーマンス
の観点から有利である。
【図面の簡単な説明】
第1図は本発明の一実施例である電子辞書の構成を示す
ブロックダイヤグラム、第2図は第1図中の訳語辞書の
内容の例を示す図、第3図は同じく派生語パターン辞書
の内容の例を示す図、第4図は第1図の電子辞書の検索
処理のフローチャート、第5図は同じく検索結果の表示
の例を示す図、第6図は本発明の他の実施例である文献
データベースシステムの構成を示すブロックダイヤグラ
ム、第7図は第6図中のキーワードファイル及び文献フ
ァイルのキーワード抽出処理前における内容の例を示す
図、第8図は同じくキーワード抽出処理後における内容
の例を示す図、第9図は第6図のシステムのキーワード
抽出処理のフローチャート、第10図は同じく文献検索
処理のフローチャートである。 1・・・中央処理装置、2・・・記憶装置、21・・・
訳語辞書、22・・・派生語パターン辞書、3・・・入
力装置、4・・・表示装置、B1・・・中央処理装置、
B2・・・記憶装置、B21・・・キーワードファイル
、B22・・・派生語パターン辞書、B3・・・入力装
置、B4・・・出力装置、B5・・・大容量記憶装置、
B51・・・文献ファイル。 代理人 弁理士 野萩 守 (ほか1名) 茅 l 目 1・ [ 22722222 第21 0扁J正■閃 第30 H回目4面口 第4図 第S図 (α) く芙承語ン く品書りン く8劇1巳に話〉(
b) く黄単息もン く品詞ン 〈ミ@1感自ン第 に
 口 明+1lii書の浄書(内容に変更なし)第 7 日 手続補正書(方式) %式% 1、事件の表示 昭和59年特許願第13459号2、
発明の名称 情報蓄積検索方式 3、補正をする者 事件との関係 特許出願人 代表者 三 1) 勝 茂 4、代理人 居 所 東京都港区虎ノ門二丁目7番9号6、補正の対
称 図面(第7図及び第8図)7、補正の内容 第7図
及び第8図を別紙のとおシに補正する〇

Claims (1)

  1. 【特許請求の範囲】 1、入力された語の語根に接続されて一群の派生語を生
    成する接辞の組を示す派生語パターンコード及びそれら
    派生語の関連情報を含むレコードを情報蓄積装置から読
    出す段階と、前記読出された派生語パターンコードに対
    応す桑接辞の組を記憶装置から読出す段階と、語根と前
    記読出された接辞の組とから派生語を合成する段階と、
    前記読出、 された関連情報の内から所要のものを出力
    する段階とを含む、情報の蓄積検索方式。 2、特許請求の範囲1において、その関連情報を共通部
    分と個別部分とから構成するとともに、関連情報の内か
    ら所要のものを出力する段階において関連情報を前記共
    通部分と個別部分とから合成する、情報の蓄積検索方式
JP59013459A 1984-01-30 1984-01-30 情報蓄積検索方式 Pending JPS60159970A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP59013459A JPS60159970A (ja) 1984-01-30 1984-01-30 情報蓄積検索方式
US06/696,080 US4775956A (en) 1984-01-30 1985-01-29 Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59013459A JPS60159970A (ja) 1984-01-30 1984-01-30 情報蓄積検索方式

Publications (1)

Publication Number Publication Date
JPS60159970A true JPS60159970A (ja) 1985-08-21

Family

ID=11833727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59013459A Pending JPS60159970A (ja) 1984-01-30 1984-01-30 情報蓄積検索方式

Country Status (2)

Country Link
US (1) US4775956A (ja)
JP (1) JPS60159970A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62251876A (ja) * 1986-04-18 1987-11-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 言語処理システム
JPS62287336A (ja) * 1986-06-06 1987-12-14 Fuji Xerox Co Ltd 電子辞書
JPS63109572A (ja) * 1986-10-27 1988-05-14 Ricoh Co Ltd 派生語処理方式
JPS63204461A (ja) * 1987-02-20 1988-08-24 Sanyo Electric Co Ltd 文章解析装置
WO2001080077A1 (en) * 2000-04-18 2001-10-25 Korea Telecom Method and system for retrieving information based on meaningful core word
CN113158693A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61184685A (ja) * 1985-02-12 1986-08-18 Hitachi Ltd 翻訳情報追加方法
US5351189A (en) * 1985-03-29 1994-09-27 Kabushiki Kaisha Toshiba Machine translation system including separated side-by-side display of original and corresponding translated sentences
JPS6244877A (ja) * 1985-08-22 1987-02-26 Toshiba Corp 機械翻訳装置
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US5237678A (en) * 1987-05-08 1993-08-17 Kuechler William L System for storing and manipulating information in an information base
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
US5560037A (en) * 1987-12-28 1996-09-24 Xerox Corporation Compact hyphenation point data
US4849898A (en) * 1988-05-18 1989-07-18 Management Information Technologies, Inc. Method and apparatus to identify the relation of meaning between words in text expressions
CA2006163A1 (en) * 1988-12-21 1990-06-21 Alfred B. Freeman Keyboard express typing system
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
JPH0370048A (ja) * 1989-08-09 1991-03-26 Hitachi Ltd ディクショナリ創成方法
FR2664413A1 (fr) * 1990-07-09 1992-01-10 Berlandi Rene Procede de presentation d'informations et dispositif, avantageusement portatif, pour sa mise en óoeuvre.
JPH0490054A (ja) * 1990-08-03 1992-03-24 Toshiba Corp 画像記憶検索装置
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5323316A (en) * 1991-02-01 1994-06-21 Wang Laboratories, Inc. Morphological analyzer
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
JP2939050B2 (ja) * 1992-05-26 1999-08-25 シャープ株式会社 デ−タ通信装置
US5671426A (en) * 1993-06-22 1997-09-23 Kurzweil Applied Intelligence, Inc. Method for organizing incremental search dictionary
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5724594A (en) * 1994-02-10 1998-03-03 Microsoft Corporation Method and system for automatically identifying morphological information from a machine-readable dictionary
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5765026A (en) * 1995-06-16 1998-06-09 International Business Machines Corporation Method for implementing state machine using link lists by dividing each one of the combinations into an initial section, an immediate section, and a final section
US5907837A (en) * 1995-07-17 1999-05-25 Microsoft Corporation Information retrieval system in an on-line network including separate content and layout of published titles
GB2314183A (en) * 1996-06-14 1997-12-17 Sharp Kk Accessing a database
JPH1011447A (ja) * 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
US5924105A (en) * 1997-01-27 1999-07-13 Michigan State University Method and product for determining salient features for use in information searching
JP3903610B2 (ja) * 1998-09-28 2007-04-11 富士ゼロックス株式会社 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6397205B1 (en) 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US6208968B1 (en) 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
US6490548B1 (en) * 1999-05-14 2002-12-03 Paterra, Inc. Multilingual electronic transfer dictionary containing topical codes and method of use
US7421395B1 (en) * 2000-02-18 2008-09-02 Microsoft Corporation System and method for producing unique account names
WO2003071553A1 (fr) * 2002-02-20 2003-08-28 Renesas Technology Corp. Circuit integre a semi-conducteurs
GB0228942D0 (en) * 2002-12-12 2003-01-15 Ibm Linguistic dictionary and method for production thereof
US8051096B1 (en) * 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US20060198318A1 (en) * 2005-02-01 2006-09-07 Schondelmayer Adam H Network diagnostic systems and methods for statistical triggering
US20060200711A1 (en) * 2005-02-01 2006-09-07 Schondelmayer Adam H Network diagnostic systems and methods for processing network messages
WO2006083959A2 (en) * 2005-02-01 2006-08-10 Finisar Corporation Network diagnostic system and methods for aggregated links
US20060198312A1 (en) * 2005-02-01 2006-09-07 Schondelmayer Adam H Network diagnostic systems and methods for altering the format and bandwidth of network messages
US8107822B2 (en) 2005-05-20 2012-01-31 Finisar Corporation Protocols for out-of-band communication
US20070211697A1 (en) * 2006-03-13 2007-09-13 Finisar Corporation Method of analyzing network with generated traffic
US20080075103A1 (en) * 2005-05-20 2008-03-27 Finisar Corporation Diagnostic device
US20070038880A1 (en) * 2005-08-15 2007-02-15 Noble Gayle L Network diagnostic systems and methods for accessing storage devices
US7899057B2 (en) * 2006-04-28 2011-03-01 Jds Uniphase Corporation Systems for ordering network packets
US20060264178A1 (en) * 2005-05-20 2006-11-23 Noble Gayle L Wireless diagnostic systems
CN1912865B (zh) * 2005-08-10 2010-05-05 英业达股份有限公司 释义***以及方法
US20070100600A1 (en) * 2005-10-28 2007-05-03 Inventec Corporation Explication system and method
CN1996286B (zh) * 2006-01-06 2010-07-14 英华达(上海)电子有限公司 手持设备上电子辞典中存储和快速查找语音信息的方法
JP4878477B2 (ja) * 2006-01-18 2012-02-15 富士通株式会社 情報検索適切度判定処理プログラムおよびオペレータスキル判定処理プログラム
US8213333B2 (en) 2006-07-12 2012-07-03 Chip Greel Identifying and resolving problems in wireless device configurations
US8526821B2 (en) * 2006-12-29 2013-09-03 Finisar Corporation Transceivers for testing networks and adapting to device changes
CN101533403B (zh) * 2008-11-07 2010-12-01 广东国笔科技股份有限公司 一种派生词生成方法及***
US9384678B2 (en) 2010-04-14 2016-07-05 Thinkmap, Inc. System and method for generating questions and multiple choice answers to adaptively aid in word comprehension
CN102346741A (zh) * 2010-07-28 2012-02-08 英业达股份有限公司 根据输入关键词产生衍生关键词的资料检索***及其方法
TW201214163A (en) * 2010-09-21 2012-04-01 Inventec Corp Searching system and method thereof with generating extending keywords according to input keywords
US9235566B2 (en) 2011-03-30 2016-01-12 Thinkmap, Inc. System and method for enhanced lookup in an online dictionary
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5937887Y2 (ja) * 1978-10-31 1984-10-20 シャープ株式会社 単語記憶装置
JPS5583961A (en) * 1978-12-19 1980-06-24 Sharp Corp Computer with electronic dictionary
US4342085A (en) * 1979-01-05 1982-07-27 International Business Machines Corporation Stem processing for data reduction in a dictionary storage file
JPS5642879A (en) * 1979-09-14 1981-04-21 Canon Inc Electronic apparatus
JPS59868B2 (ja) * 1979-10-24 1984-01-09 シャープ株式会社 単語の基本形認識装置およびこれを用いた翻訳装置
US4499553A (en) * 1981-09-30 1985-02-12 Dickinson Robert V Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words
US4468756A (en) * 1982-05-20 1984-08-28 Chan Computer Corporation Method and apparatus for processing languages

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62251876A (ja) * 1986-04-18 1987-11-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 言語処理システム
JPS62287336A (ja) * 1986-06-06 1987-12-14 Fuji Xerox Co Ltd 電子辞書
JPH0576659B2 (ja) * 1986-06-06 1993-10-25 Fuji Xerox Co Ltd
JPS63109572A (ja) * 1986-10-27 1988-05-14 Ricoh Co Ltd 派生語処理方式
JPS63204461A (ja) * 1987-02-20 1988-08-24 Sanyo Electric Co Ltd 文章解析装置
WO2001080077A1 (en) * 2000-04-18 2001-10-25 Korea Telecom Method and system for retrieving information based on meaningful core word
CN113158693A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US4775956A (en) 1988-10-04

Similar Documents

Publication Publication Date Title
JPS60159970A (ja) 情報蓄積検索方式
US6131082A (en) Machine assisted translation tools utilizing an inverted index and list of letter n-grams
JP3696731B2 (ja) 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US7490034B2 (en) Lexicon with sectionalized data and method of using the same
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP2669601B2 (ja) 情報検索方法及びシステム
US20090234852A1 (en) Sub-linear approximate string match
JPS62251876A (ja) 言語処理システム
JPH0484271A (ja) 文書内情報検索装置
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JP2693914B2 (ja) 検索システム
JPH08147311A (ja) 構造化文書検索方法及び装置
Kuroda Hardwood identificatlon using a microcomputer and iawa codes
Mili et al. Automating the Indexing and Retrieval of Reusable Software Components.
JP2002132789A (ja) 文書検索方法
Kim et al. Standardised evaluation of english noun compound interpretation
Menzel Using diachronic corpora of scientific journal articles for complementing English corpus-based dictionaries and lexicographical resources for specialized languages
Burnard The text encoding initiative: A progress report
JP2958044B2 (ja) かな漢字変換方法及び装置
CN108052508B (zh) 一种信息抽取方法及装置
Papakitsos et al. Modelling a Morpheme‐based Lexicon for Modern Greek
JPH09114856A (ja) 検索用索引生成装置
JPH09245051A (ja) 自然言語事例検索装置及び自然言語事例検索方法