JPH06110929A - データ検索装置 - Google Patents

データ検索装置

Info

Publication number
JPH06110929A
JPH06110929A JP4258130A JP25813092A JPH06110929A JP H06110929 A JPH06110929 A JP H06110929A JP 4258130 A JP4258130 A JP 4258130A JP 25813092 A JP25813092 A JP 25813092A JP H06110929 A JPH06110929 A JP H06110929A
Authority
JP
Japan
Prior art keywords
sentence
search
priority
word
evaluation score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4258130A
Other languages
English (en)
Inventor
Noriko Koyama
紀子 小山
Masato Yajima
真人 矢島
Yuuji Shimizu
勇詞 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4258130A priority Critical patent/JPH06110929A/ja
Publication of JPH06110929A publication Critical patent/JPH06110929A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明はデータベースに対して表層的でない
更に1歩突っ込んだ検索を行って所望の文例を高い角度
で検索することができるデータ検索装置を提供すること
を目的としている。 【構成】 本発明において、検索部2は入力部1から入
力された検索キーに基づいてデータベース3から対応す
る文例を検索し、検索した文例に単語類似度及び文型類
似度を示すそれぞれの評価点を付ける。優先順位調整部
4は入力部1から設定された検索優先順位に基づいて前
記検索された文例につけられている評価点に重み付けを
して、最終的な評価点を出す。出力部5は優先順位調整
部4によって最終的な評価点が付けられた文例を、前記
評価点が高い順番で出力部5から出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は単語や文章等が収集され
ているデータベースを検索して所望の単語や文書等を提
供するデータ検索装置に関する。
【0002】
【従来の技術】近年、文書作成装置における文書の作成
を支援する機能が多岐に互るに伴い、単語や文章等を収
集した類語辞書や文例データベース等の様々なデータベ
ースを検索する機能が要求されている。文書作成装置等
を用いて文書を作成する際には、新たに全ての文章を考
えるのではなく、既にある文章を参考にして作成する場
合がある。参考にする文章は自分が以前書いたもので
も、或いはデータベースに収集されている典型的な文章
であってもよい。
【0003】ところで、大容量のデータベースから参考
にすべき単語や文章等を検索する際に、前記データベー
ス内に収集されている全ての文章や単語を全体的に眺め
るのは不可能に近く、何等かの手がかりを元にして所望
の単語や文章を検索する方法を採らなければ、前記デー
タベースを効率的に利用することはできない。そこで、
検索キーとなる文章を入力し、この文章に部分的にマッ
チする文例だけを上記のようなデータベースから検索し
てくる方法が一般的に使用されている。この方法は入力
された検索キーに対して、これにマッチする単語や文例
を検索するが、前記入力された検索キーとこれにマッチ
する単語や文例との関係は表層的な関係でしかなく、従
って表層的な検索しかできず、検索結果に適格性が欠け
るという場合が多々あった。例えば、「書けば書くほ
ど」という文章を検索キーとして入力し、これにマッチ
する文例だけを上記の方法で検索すると、「書けば書く
ほど鉛筆が磨り減る」というような文例等が検索される
が、「読めば読むほど理解が深まる」というような文例
を検索することができない。そこで、上記のようなデー
タベースの検索時にある程度の知識処理、例えばある単
語を含む文例を全て検索する等の処理を行ったとして
も、このような一義的な知識処理では特殊な文型の文を
検索する等の高度な検索を行うことができなかった。
【0004】
【発明が解決しようとする課題】上記のように単語や文
例を収集したデータベースを検索する従来の方法では、
検索対象単語や文章の検索キーとなる情報を入力し、こ
の情報に基づいて単語や文例を前記データベースから検
索する方法が行われているが、従来は表層的な検索しか
行うことができず、検索結果に適格性を欠くという場合
がかなり出てくるという欠点があった。そこで、前記検
索時にある程度の知識処理を行ったとしても、一義的な
知識処理しかできないため、特殊な文型の文を検索する
等の高度な検索を行うことができないという欠点があっ
た。
【0005】そこで本発明は上記の欠点を除去し、デー
タベースに対して表層的でない更に1歩突っ込んだ検索
を行って所望の文例を高い角度で検索することができる
データ検索装置を提供することを目的としている。
【0006】
【課題を解決するための手段】本発明は検索対象となる
文例を検索する際のキーとなる検索キー情報に基づい
て、データベースから対応する文章又は単語を検索して
出力するデータ検索装置において、前記検索キーと単語
が類似している文例を前記データベースから検索して単
語類似度を表わす評価点を前記検索した文例につける第
1の検索手段と、前記検索キーと文型が類似している文
例を前記データベースから検索して文型類似度を表わす
評価点を前記検索した文例につける第2の検索手段と、
類似単語優先で検索するか、或いは類似文型優先で検索
するかを指定する優先度情報を利用者に設定させる設定
手段と、この設定手段により設定された優先度情報に基
づいて、前記第1、第2の検索手段により検索された各
文例につけられている評価点に重み付けを施して各文例
に最終的な評価点をつける優先順位調整手段と、この優
先順位調整手段によってつけられた最終的な評価点の高
い順に前記検索された文例を出力する出力手段とを具備
した構成を有する。
【0007】
【作用】本発明のデータ検索装置において、第1の検索
手段は前記検索キーと単語が類似している文例を前記デ
ータベースから検索して単語類似度を表わす評価点を前
記検索した文例につける。第2の検索手段は前記検索キ
ーと文型が類似している文例を前記データベースから検
索して文型類似度を表わす評価点を前記検索した文例に
つける。設定手段は類似単語優先で検索するか、或いは
類似文型優先で検索するかを指定する優先度情報を利用
者に設定させる。優先順位調整手段と前記設定手段によ
り設定された優先度情報に基づいて、前記第1、第2の
検索手段により検索された各文例につけられている評価
点に重み付けを施して各文例に最終的な評価点をつけ
る。出力手段前記優先順位調整手段によってつけられた
最終的な評価点の高い順に前記検索された文例を出力す
る。
【0008】
【実施例】以下、本発明の一実施例を図面を参照して説
明する。図1は本発明のデータ検索装置の一実施例を示
したブロック図である。1は検索対象単語や文章を検索
する際のキーとなる情報(以降検索キーと称する)を入
力する例えばキーボード等の入力部、2は入力部1から
入力された検索キーに従ってデータベース3内を検索し
て、対応する単語や文例を読み出す検索部、3は単語や
例文を収集して保持しているデータベース、4は検索部
2により検索された検索結果に重みづけを行って優先順
位を調整する優先順位調整部、5は優先順位調整部4に
よって調整された優先順位順に検索結果を出力する表示
装置等の表示部である。
【0009】次に本実施例の動作についてまずその概要
を説明する。利用者はデータベース3を検索する際に、
検索キーとなる文字列を入力部1から検索部2に入力す
ると共に、類似単語重視で検索するか、類似文型重視で
検索するかの優先情報を入力する。但し、前記優先情報
は入力部1から検索部2を介して優先順位調整部4に設
定されるものとする。検索部2はデータベース3を参照
して前記入力された検索キーに適合する文書を探し出
し、探し出した文に前記検索キーとの類似度を表す2種
類の評価点をつけた後、これら文書を優先順位調整部4
に出力する。優先順位調整部4は別途与えられる優先情
報に基づいて各文章に付けられた前記評価点に種類毎に
重み付けをして、最終的な優先順位を決定し、これら文
書を出力部5に送る。出力部5は設定されている各文書
の優先順位順に、これら文書を検索結果として出力す
る。
【0010】図2は上記図1に示した検索部2の検索文
章に対する評価点をつける動作を詳述したフローチャー
トである。まず、ステップ201にてデータベース3か
ら検索した全ての文書に評価点をつけて、検索が終了し
たか否かを判定し、終了した場合は処理を終了し、終了
しない場合はステップ202に進む。ステップ202に
て検索部2は検索した文章と検索キーとなった文章との
間で使用されている単語がどれだけ似ているかを表わす
評価点をつける。例えば図4(A)に示した「読めば読
むほど」という検索キーに対して、図4(B)に示すよ
うに「書けば書くほど字がうまくなる」と「読んでも読
んでも理解できない」という文書がデータベース3から
検索された場合に、まったく同じ単語を使っている場合
は10点、単語としては同じだが活用が違う場合は8
点、類語関係にある場合は6点、品詞だけが同じ場合は
2点等と決めて、評価点をつける。その結果、「書けば
書くほど字がうまくなる」という文書に対する評価点は
図5(A)に示すようになる。「読んでも読んでも理解
できない」という文書に対する評価点は図5(B)に示
す様になる。
【0011】次にステップ203では、検索キーとなっ
た文書に対して検索された文書の文型がどれだけ似てい
るかを表わす文型類似度の評価点をつける。この文型が
どれだけ似ているかは、使われている助詞や助動詞等の
付属語、その活用、付属語間の類語関係順序等によって
決定される。前述した具体例の、「書けば書くほど字が
うまくなる」という文例の文型類似度は図5(C)に示
すようになり、「読んでも読んでも理解できない」とい
う文例の文系類似度は図5(D)に示すようになる。ス
テップ204では上記ステップ202、203によって
基準点以上の評価点がつけられたか否かを判定し、つけ
られない場合はステップ201に戻り、つけられた場合
はステップ205へ進む。ステップ205では、上記の
ような評価点がつけられた文例を優先順位調整部4に出
力する出力候補として保持した後、ステップ201に戻
る。
【0012】ここで、図4に示した具体例に評価点をつ
ける動作について補足説明しておく。「読めば読むほ
ど」と「書けば書くほど字がうまくなる」の単語類似度
は、「書く」と「読む」は違う単語でしかも類語関係で
もないが、どちらも動詞なので同一品詞であるという評
価点がつけられる。更に文型類似度は「ば」「ほど」が
それぞれ同じであること、並び順が同じであること、同
じ動詞を連続して使っている等の評価がなされ、それぞ
れの評価点の合計がつけられる。
【0013】「読めば読むほど」と「読んでも読んでも
理解できない」は、どちらも「読む」を使っているが活
用は違う。文型として、助詞は同じではないが、どちら
も同じ動詞を連続して使っているという評価がなされ
る。このような評価によって図5に示す如く、「書けば
書くほど」の方は単語類似度は4、文型類似度は16と
なり、「読んでも読んでも」の方の単語類似度は16、
文型類似度は3となる。
【0014】図3は図1に示した優先順位調整部4の詳
細動作を示したフローチャートである。まず、ステップ
301にて出力候補となった全ての文例につけてある評
価点に重み付けをしたか否かを判定し、重み付けを終了
した場合はステップ305へ進み、重み付けをしていな
い場合はステップ302に進む。ステップ302では、
単語類似度に関してつけられた評価点に重み付けを行
う。この場合、単語類似度に重きをおいて検索するよう
に使用者に指定された場合は、図6(B)に示すような
重み付け係数を用い、逆に文型類似度に重きをおいて検
索するように使用者に指定された場合は図6(A)に示
すような重み付けを行う。単語類似度についての評価点
に重み付けを行った後、ステップ303に進んで文系類
似度についての評価点に対しても重み付けを行う。この
場合も、単語類似度に重点をおくように利用者から指定
された場合は、図6(B)に示すような重み付け係数を
用い、文型類似度に重点をおいて重み付けをするように
利用者から指定された場合は、図6(A)に示すような
重み付け係数を使用する。ステップ304では、文例に
つけられた単語類似度と文系類似度の評価点を合計し
て、前記文例に対する最終的な評価点を算出した後、ス
テップ301に戻る。一方、ステップ305へ進んだ場
合、各文例につけられている最終的な評価点順に例文を
並び変えて、これら例文を出力部5に出力して処理を終
了する。
【0015】ここで、上記した重み付けを行う動作につ
いて図4に示した具体例について補足説明しておく。図
6(A)は文型を重視したい場合の重み付け係数の例で
ある。この係数によれば、「書けば書くほど」は単語類
似度が4×1=4、文型類似度が16×3=48とな
り、合計して52となる。「読んでも読んでも」は16
×1=16、3×3=9で25となる。これにより、出
力部5では「書けば書くほど字がうまくなる」の方が優
先して出力されることになる。
【0016】図6(B)は単語を重視したい場合の重み
付け係数の例である。これによれば、「書けば書くほ
ど」は4×2=8、16×1=16で24、「読んでも
読んでも」は16×2=32、3×1=3で34とな
り、出力部5では「読んでも読んでも」の方が優先して
出力されることになる。
【0017】本実施例によれば、検索キーとなる文章に
対して単語が類似している文章及び文型が類似している
文章をデータベース3から検索した後、前記類似度の大
小を表わす評価点を付けた後、更に類似単語重視で検索
するか、類似文型重視で検索するかのいずれかを利用者
がその都度指定することにより、前記評価点に重み付け
をして、検索文章を最終的に選択して評価点の高い順に
出力する構成のため、従来のように使用されている単語
が似ているといったような一義的な評価基準だけで文章
を検索するのではなく、その都度評価基準を利用者によ
って設定させることができるため、表層的な検索では得
られない文例を選択することができると共に、特殊な文
型を持った文例をも検索することができる。このため、
データベース利用者に常に適格な文例を検索して提供す
ることができる。
【0018】
【発明の効果】以上記述した如く本発明のデータ検索装
置によれば、データベースに対して表層的でない更に1
歩突っ込んだ検索を行って所望の文例を高い角度で検索
することができる。
【図面の簡単な説明】
【図1】本発明のデータ検索装置の一実施例を示したブ
ロック図。
【図2】図1に示した検索部の検索文章に対する評価点
をつける動作を詳述したフローチャート。
【図3】図1に示した優先順位調整部の詳細動作を示し
たフローチャート。
【図4】検索キーとなる文例とデータベースから検索さ
れた文例を示した図。
【図5】図4に示した各文例に対する単語類似度及び文
型類似度を表わす評価点を付けた場合の例を示した図。
【図6】図1に示した優先順位調整部が重み付けを行う
際に使用する重み付け係数例を示した図。
【符号の説明】
1…入力部 2…検索部 3…データベース 4…優先順位調整
部 5…出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 検索対象となる文例を検索する際のキー
    となる検索キー情報に基づいて、データベースから対応
    する文章又は単語を検索して出力するデータ検索装置に
    おいて、前記検索キーと単語が類似している文例を前記
    データベースから検索して単語類似度を表わす評価点を
    前記検索した文例につける第1の検索手段と、前記検索
    キーと文型が類似している文例を前記データベースから
    検索して文型類似度を表わす評価点を前記検索した文例
    につける第2の検索手段と、類似単語優先で検索する
    か、或いは類似文型優先で検索するかを指定する優先度
    情報を利用者に設定させる設定手段と、この設定手段に
    より設定された優先度情報に基づいて、前記第1、第2
    の検索手段により検索された各文例につけられている評
    価点に重み付けを施して各文例に最終的な評価点をつけ
    る優先順位調整手段と、この優先順位調整手段によって
    つけられた最終的な評価点の高い順に前記検索された文
    例を出力する出力手段とを具備したことを特徴とするデ
    ータ検索装置。
JP4258130A 1992-09-28 1992-09-28 データ検索装置 Withdrawn JPH06110929A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4258130A JPH06110929A (ja) 1992-09-28 1992-09-28 データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4258130A JPH06110929A (ja) 1992-09-28 1992-09-28 データ検索装置

Publications (1)

Publication Number Publication Date
JPH06110929A true JPH06110929A (ja) 1994-04-22

Family

ID=17315933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4258130A Withdrawn JPH06110929A (ja) 1992-09-28 1992-09-28 データ検索装置

Country Status (1)

Country Link
JP (1) JPH06110929A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020028132A (ko) * 2000-10-07 2002-04-16 김성헌 데이터베이스의 데이터 인덱싱 장치 및 그 방법
JP2008123111A (ja) * 2006-11-09 2008-05-29 Kyushu Institute Of Technology 文書類似性導出装置及びそれを用いた回答支援システム
JP2016091269A (ja) * 2014-11-04 2016-05-23 株式会社東芝 外国語文作成支援装置、方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020028132A (ko) * 2000-10-07 2002-04-16 김성헌 데이터베이스의 데이터 인덱싱 장치 및 그 방법
JP2008123111A (ja) * 2006-11-09 2008-05-29 Kyushu Institute Of Technology 文書類似性導出装置及びそれを用いた回答支援システム
JP2016091269A (ja) * 2014-11-04 2016-05-23 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US10394961B2 (en) 2014-11-04 2019-08-27 Kabushiki Kaisha Toshiba Foreign language sentence creation support apparatus, method, and program

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2742115B2 (ja) 類似文書検索装置
US4903206A (en) Spelling error correcting system
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08137898A (ja) 文書検索装置
JP3198932B2 (ja) 文書検索装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
KR100498574B1 (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JPH0454261B2 (ja)
JPH06110929A (ja) データ検索装置
JP3123836B2 (ja) テキスト型データベース装置
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP3369127B2 (ja) 形態素解析装置
JP3531222B2 (ja) 類似文字列検索装置
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH04290158A (ja) 文書作成装置
Angkawattanawit et al. Thai Q-Cor: integrating word approximation and soundex for Thai query correction
JPH1049187A (ja) 音声情報検索装置
JP2007072786A (ja) 情報表示制御装置および情報表示制御プログラム
JPH0227423A (ja) 日本語文字データの並び換え方法
JPS59100939A (ja) 日本語入力装置
JP2024017326A (ja) 検索装置、検索方法およびプログラム
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム
JPH0765030A (ja) 文章検索方法及びその装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991130