JP2792147B2 - 文字処理方法およびその装置 - Google Patents

文字処理方法およびその装置

Info

Publication number
JP2792147B2
JP2792147B2 JP1270649A JP27064989A JP2792147B2 JP 2792147 B2 JP2792147 B2 JP 2792147B2 JP 1270649 A JP1270649 A JP 1270649A JP 27064989 A JP27064989 A JP 27064989A JP 2792147 B2 JP2792147 B2 JP 2792147B2
Authority
JP
Japan
Prior art keywords
character string
input
character
unit
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1270649A
Other languages
English (en)
Other versions
JPH03131960A (ja
Inventor
幸恵 衣川
淳市 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1270649A priority Critical patent/JP2792147B2/ja
Publication of JPH03131960A publication Critical patent/JPH03131960A/ja
Application granted granted Critical
Publication of JP2792147B2 publication Critical patent/JP2792147B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書の作成、管理等の文書処理を目的とし
た文字処理方法およびその装置に関するものである。
従来の技術 日本語文章の中ではある単語を表わすためにその単語
の一部の文字から構成される略語が用いられることがあ
り、1つの文章中でも、ある1つの単語についてこのよ
うな複数の表記が混在していることが多い(例、パーソ
ナルコンピュータとパソコン、ソビエト連邦とソ連な
ど)。このような現象は、文章の統一性を損ない、読み
易さを阻害すると言われている。これに対し、1つの単
語に対して許容される表記の情報を辞書内に持ち、文章
中の文字列とこの辞書内の単語表記を比較して表記の統
一を図る文字処理装置が近年考案されている(特開昭63
−15359)。
第2図は、前記の従来の文字処理装置の構成図であ
る。
図中、21は、入力部であり、漢字かな混じりの文字列
を入力する。22は、単語テーブルであり、複数の表記が
許容される単語を許容される表記と共に記憶する。23
は、単語検出部であり、前記単語テーブル22に記憶され
ている表記と比較して、入力部21で入力された文字列か
ら複数の表記が許容される単語を検出する。24は、一時
記憶部であり、入力された文字列の中から単語検出部23
で検出された複数の表記が許容される単語とその表記を
一時記憶する。25は、比較部であり、入力部21で入力さ
れた単語が単語検出部23で検出されたとき、一時記憶部
24で一時記憶している単語の表記と入力文字列の表記を
比較する。26は、文書バッファであり、決定した文書を
記憶する。27は、表示部であり、比較部25において表記
の方法が異なると判定されたときにそのことを出力す
る。それら以外にも構成要素が存在するが、本発明との
対比のためには必要がないので省略する。
上記のように構成された従来の文字処理装置におい
て、まず、入力部21から入力された文字列の表記が単語
テーブル22の中に存在するかどうかを判断し、存在すれ
ば、一時記憶部24に入力部21から入力された文字列の表
記を一時記憶する。また、既に一時記憶している単語の
中から同一単語を検索する。同一単語が検索されて、入
力しようとしている単語の表記と、前にもちいられたそ
の単語の表記が一致しないとき、表示部27よりそのこと
を出力する。
発明が解決しようとする課題 従来の文字処理装置を用いて略語の表記のゆれを検出
する場合、あらかじめ許容される複数の表記を対応させ
て表記のゆれ辞書として記憶しておく必要があった。こ
のため、表記のゆれ辞書に存在しない表記のゆれを検出
することができなかった。また、実用上十分な表記のゆ
れを検出するためには膨大な量の情報を記憶している必
要があった。
本発明は、従来の文字処理装置が有していた前記の問
題点に鑑み、表記のゆれ辞書を用いずに、ある文字列の
表記をあたえれば、その文字列の一部の文字からなる略
語である可能性がある文字列を文章中から検索する。ま
たは、ある単語の一部の文字からなる略語の表記をあた
えれば、その文字列の正式な表記である可能性がある文
字列を文章中から検索することができる文字処理装置お
よびその方法を提供することを目的とする。
課題を解決するための手段 (1)文章を記憶する文章記憶部と、前記文章記憶部に
記憶している文章の中から文字列を抽出する文字列抽出
部と、文字列の表記を入力する入力部と、前記入力部か
ら入力された文字列を一時記憶する入力文字列一時記憶
部と、前記入力文字列一時記憶部が一時記憶している文
字列と前記文字列抽出部が抽出した文字列の文字列長を
比較して短い方を第1の文字列とし、長い方を第2の文
字列とする文字列長判定部と、第1の文字列と第2の文
字列の表記を比較して、第1の文字列を構成する各文字
が、第2の文字列の中に出現箇所を問わずにすべて存在
し、かつ、その出現順が同じである場合に、第1の文字
列は第2の文字列の略語、すなわち、第2の文字列は第
1の文字列の正式な表記であると判定する略語判定部と
を備えた文字処理装置である。
(2)文章の中から文字列を抽出する文字列抽出段階
と、入力された文字列を一時記憶する入力文字列一時記
憶段階と、前記入力文字列一時記憶段階が一時記憶して
いる文字列と前記文字列抽出手段が抽出した文字列の文
字列長を比較して短い方を第1の文字列とし、長い方を
第2の文字列とする文字列長判定段階と、第1の文字列
と第2の文字列の表記を比較して、第1の文字列を構成
する各文字が、第2の文字列の中に出現箇所を問わずに
すべて存在し、かつ、その出現順が同じである場合に、
第1の文字列は第2の文字列の略語、すなわち、第2の
文字列は第1の文字列の正式な表記であると判定する略
語判定段階とを備えた文字処理方法である。
作用 本発明は前記した構成により、文字列抽出部は、文書
記憶部で記憶している文書の中から文字列を抽出する。
文字列一時記憶部は、入力部から入力された文字列の表
記を一時記憶する。略語判定部は、文字列抽出部が抽出
した文字列表記と一時記憶部が一時記憶している文字列
の表記を比較して、どちらか一方がもう一方の略語にな
っているか否かを判定する。
実施例 以下、本発明の実施例を図面を用いて説明する。
第1図は、本発明における一実施例の文字処理装置の
構成図である。
第1図において、11は文章記憶部であり、入力された
文章を記憶する。12は文字列抽出部であり、文章記憶部
11が記憶している文章をひらがなから他の種類の文字に
変わるところで区切り、区切りと区切りの間の文字列を
1つずつ順に抽出する。13は入力部であり、ある単語の
略語、あるいは、正式な表記を入力する。14は入力文字
列一時記憶部であり、入力部13で入力された文字列の表
記を一時記憶する。15は文字列長判定部であり、文字列
抽出部12で抽出された文字列の表記と入力文字列一時記
憶部14で一時記憶している2つの文字列の長さを比較し
てどちらの文字列が短い(同じ長さを含む)かを判定
し、後述する略語判定部に長短の区別をつけて2つの文
字列を渡す。16は略語判定部であり、前記文字列長判定
部15で判定した文字列長の短い方の表記を構成する各文
字が、他方の表記の文字列中にその出現順にすべて含ま
れているとき、文字列長の短い方の文字列は、他方の文
字列に含まれる文字列の略語になっている可能性がある
と判定する。17は、表示部であり、略語判定部16でどち
らか一方が他方の略語になっている可能性があると判定
されたときに、どちらの文字列がどちらの文字列の略語
になっているかをそれらの文字列の表記と共に一覧表示
する。
第3図は、本発明の一実施例の文字処理方法を説明す
るフロー図である。
31は入力文字列一時記憶段階であり、入力部13で入力
された文字列の表記を一時記憶する。32は文字列抽出段
階であり、文章記憶部11が記憶している文章をひらがな
から他の種類の文字に変わるところで区切り、区切りと
区切りの間の文字列を1つずつ順に抽出する。33は文字
列長判定段階であり、文字列抽出段階32抽出された文字
列と入力文字列一時記憶部14で一時記憶している文字列
の長さを比較し、どちらが文字列長が短い(同じ長さを
含む)かを判定し、後述する略語判定段階に長短の区別
をつけて2つの文字列を渡す。34は略語判定段階であ
り、前記文字列長判定段階で文字列長が短いと判定され
た文字列を構成する各文字が、他方の文字列中にその出
現順にすべて含まれているとき、文字列長の短い方の文
字列は、他方の文字列の略語になっている可能性がある
と判定する。35は文章終了判定段階であり、文章中から
文字列をすべて抽出したか否かを判定し、まだ文字列が
残っていれば32の段階に戻る。文字列をすべて抽出した
ら表示部17に判定結果を一覧表示する。
以上のように構成された本実施例の文字処理装置およ
びその方法について以下その動作を具体的に説明する。
まず、文章記憶部11で記憶している文章中で「ソビエ
ト連邦」という文字列がいろいろな表記で既述されてい
ないかを調べるときに、入力部13より、「ソビエト連
邦」を入力する。すると、入力文字列一時記憶部14に
「ソビエト連邦」が一時記憶される。
次に、文字列抽出部12は、文章記憶部11に記憶されて
いる文章をひらがなから他の種類の文字に変わるところ
で区切り、区切りと区切りの間の文字列を1つずつ抽出
する。文字列抽出部12で抽出された文字列の表記が、
「ソ連」だった場合、文字列長判定部15は、「ソビエト
連邦」と「ソ連」の文字列長を比較する。このとき「ソ
連」の方が文字列長が短いとして、略語判定部16に渡
す。略語判定部16は、文字列長の短い方の文字列「ソ
連」を構成する各文字「ソ」、「連」は、もう一方の文
字列「ソビエト連邦」に出現順と同じ順序ですべて含ま
れるので、「ソ連」は、「ソビエト連邦」の略語である
可能性があると判定する。
さらに、文字列抽出部12で、「ソビエト社会主義共和
国連邦」が抽出された場合、文字列長判定部15は、「ソ
ビエト連邦」と[ソビエト社会主義共和国連邦」を比較
して、「ソビエト連邦」の方が文字列長が短いと判定す
る。略語判定部16は、「ソビエト連邦」が、「ソビエト
社会主義共和国連邦」の略語である可能性があると判定
する。
このようにして、文章中のすべての文字列と入力文字
列一時記憶部14で一時記憶している文字列を比較し、略
語であるか否かを判定する。すべての文字列について略
語判定が終了したら、表示部17に略語と判定されたもの
を表示する。
以上のように、本実施例によれば、文字列長判定部を
設け、略語判定部において2つの文字列を相互に比較す
る場合に、あらかじめ文字列長の短い方を判定して略語
になる可能性がある文字列を一方に限定することによっ
て、比較する回数が減り、処理速度が速くなる。
なお、本実施例では、文字列抽出部は、文章をひらが
なから他の種類の文字に変わるところで区切り、区切り
と区切りの間の文字列を1つずつ抽出するとしたが、カ
タカナ文字列などの同一種の文字からなる1続きの文字
列を抽出するとしてもよい。また、小規模の付属語表記
辞書を持ち、付属語で区切られる文字列を抽出するとし
てもよい。
さらに、表示部は、略語と判定された部分を一覧表示
するとしたが、文章中において該当部分を反転表示、下
線表示して他の部分と異なる表示を行うとしてもよい。
発明の効果 本発明によれば、ある単語の略語を文章中から検索し
たり、または、ある略語の正式な表記の文字列を文書中
から検索することができる。さらに、表記のゆれ辞書を
用いる必要がないので、少ないメモリで実現することが
できるため、その実用的効果は大きい。
【図面の簡単な説明】
第1図は本発明の一実施例の文字処理装置の構成図、第
2図は従来の文字処理装置の構成図、第3図は本発明の
一実施例の文字処理方法のフロー図である。 11……文章記憶部、12……文字列抽出部、13……入力
部、14……入力文字列語一時記憶部、15……文字列長判
定部、16……略語判定部、17……表示部。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】文章を記憶する文章記憶部と、前記文章記
    憶部に記憶している文章の中から文字列を抽出する文字
    列抽出部と、文字列の表記を入力する入力部と、前記入
    力部から入力された文字列を一時記憶する入力文字列一
    時記憶部と、前記入力文字列一時記憶部が一時記憶して
    いる文字列と前記文字列抽出部が抽出した文字列の文字
    列長を比較して短い方を第1の文字列とし、長い方を第
    2の文字列とする文字列長判定部と、第1の文字列と第
    2の文字列の表記を比較して、第1の文字列を構成する
    各文字が、第2の文字列の中に出現箇所を問わずにすべ
    て存在し、かつ、その出現順が同じである場合に、第1
    の文字列は第2の文字列の略語、すなわち、第2の文字
    列は第1の文字列の正式な表記であると判定する略語判
    定部とを具備することを特徴とした文字処理装置。
  2. 【請求項2】文章の中から文字列を抽出する文字列抽出
    段階と、入力された文字列を一時記憶する入力文字列一
    時記憶段階と、前記入力文字列一時記憶段階で一時記憶
    した文字列と前記文字列抽出手段が抽出した文字列(以
    降、抽出文字列と呼ぶ)の文字列長を比較して短い方を
    第1の文字列とし、長い方を第2の文字列とする文字列
    長判定段階と、第1の文字列と第2の文字列の表記を比
    較して、第1の文字列を構成する各文字が、第2の文字
    列の中に出現箇所を問わずにすべて存在し、かつ、その
    出現順が同じである場合に、第1の文字列は第2の文字
    列の略語、すなわち、第2の文字列は第1の文字列の正
    式な表記であると判定する略語判定段階とを具備するこ
    とを特徴とした文字処理方法。
JP1270649A 1989-10-18 1989-10-18 文字処理方法およびその装置 Expired - Fee Related JP2792147B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1270649A JP2792147B2 (ja) 1989-10-18 1989-10-18 文字処理方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1270649A JP2792147B2 (ja) 1989-10-18 1989-10-18 文字処理方法およびその装置

Publications (2)

Publication Number Publication Date
JPH03131960A JPH03131960A (ja) 1991-06-05
JP2792147B2 true JP2792147B2 (ja) 1998-08-27

Family

ID=17489034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1270649A Expired - Fee Related JP2792147B2 (ja) 1989-10-18 1989-10-18 文字処理方法およびその装置

Country Status (1)

Country Link
JP (1) JP2792147B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009103921A (ja) * 2007-10-23 2009-05-14 Fujitsu Ltd 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2719136B1 (fr) * 1994-04-25 1996-06-21 Saint Laurent De Jean Procédé et dispositif de saisie de données assistée par ordinateur.
JPH09212504A (ja) * 1996-02-06 1997-08-15 N T T Data Tsushin Kk 文書校正装置
JP3317904B2 (ja) * 1998-09-02 2002-08-26 日本電気株式会社 省略名称抽出装置、方法および記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5854431A (ja) * 1981-09-26 1983-03-31 Toshiba Corp 文書入力装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009103921A (ja) * 2007-10-23 2009-05-14 Fujitsu Ltd 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置

Also Published As

Publication number Publication date
JPH03131960A (ja) 1991-06-05

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPS6359660A (ja) 情報処理装置
JP2792147B2 (ja) 文字処理方法およびその装置
JP2595934B2 (ja) 仮名漢字変換処理装置
JP3945075B2 (ja) 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体
JP3187671B2 (ja) 電子辞書表示装置
JPH03118661A (ja) 単語検索装置
JP2000067070A (ja) 情報検索方法、検索ファイル作成方法及び情報検索装置
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPS62290965A (ja) 表記のゆれ検出方式
JPH05324610A (ja) 住所表記漢字入力装置
JPH0727526B2 (ja) かな漢字変換装置
JPH05135096A (ja) 形態素解析方式
JPH0546612A (ja) 文章誤り検出装置
JPS6340936A (ja) 音声カナ漢字変換方式
JPH10232865A (ja) スペルチェック装置
JPH01277920A (ja) 住所入力装置における入力方式
JPH0695330B2 (ja) 文書作成装置
JPH0610804B2 (ja) かな漢字変換装置
JPH11282838A (ja) 入力補正方法及び入力補正装置
JPH0310369A (ja) 辞書作成支援装置
JPS62290968A (ja) 表記のゆれ統一方式
JPH07319908A (ja) 文書検索方法及び文書検索装置
JPH03164859A (ja) かな漢字変換装置
JPS63174164A (ja) 文章作成支援方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees