JPH01137367A - Abbreviation file production system - Google Patents

Abbreviation file production system

Info

Publication number
JPH01137367A
JPH01137367A JP62296673A JP29667387A JPH01137367A JP H01137367 A JPH01137367 A JP H01137367A JP 62296673 A JP62296673 A JP 62296673A JP 29667387 A JP29667387 A JP 29667387A JP H01137367 A JPH01137367 A JP H01137367A
Authority
JP
Japan
Prior art keywords
abbreviation
pair
original word
file
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62296673A
Other languages
Japanese (ja)
Inventor
Koji Hashiguchi
幸治 橋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62296673A priority Critical patent/JPH01137367A/en
Publication of JPH01137367A publication Critical patent/JPH01137367A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PURPOSE:To automatically produce an abbreviation file data base by extracting an abbreviation/original word pair coincident with a designated abbreviation/ original word pair pattern out of an input document. CONSTITUTION:A pair extracting part 2 extracts an abbreviation/original word pair coincident with a designated abbreviation/original word pair pattern by a pair retrieving/designating part 1 out of the character strings of an input document. This extracted pair is stored in an abbreviation file 3 as an abbreviation file data base. In such a way, the abbreviation file data base is automatically produced by extracting the abbreviation/original word pair coincident with the designated abbreviation/original word pattern out of the input document.

Description

【発明の詳細な説明】 〔概要〕 文書中から略語と原語との対を検索して略語集データベ
ースを作成する略語集作成方式に関し、略語集データベ
ースを迅速に自動作成することを目的とし、 入力した文書の文字列中から、略語/原!!5のペアを
抽出するための略語/原語ペアーバクーンを指定するペ
アー検索指定部と、このペアー検索指定部によって指定
さ、れた略語/原語ペアーパターンに合致するものを、
入力した文書の文字列中から抽出するペアー抽出部とを
備え、このペアー抽出部によって抽出された略語/原語
ペアーを略語集データベースに格納するように構成する
[Detailed Description of the Invention] [Summary] Regarding an abbreviation collection creation method that searches for pairs of abbreviations and original words in a document to create an abbreviation collection database, the present invention aims to quickly and automatically create an abbreviation collection database. Abbreviations/original! ! A pair search specification section that specifies the abbreviation/original word pair Bakun to extract the pairs of No. 5, and those that match the abbreviation/original word pair pattern specified by this pair search specification section,
and a pair extractor for extracting from character strings of an input document, and is configured to store abbreviation/original word pairs extracted by the pair extractor in an abbreviation collection database.

Cmm上上利用分野〕 本発明は、文書中から略語と原語との対を検索して略語
集データベースを作成する略語集作成方式に関するもの
である。
Field of Application of Cmm] The present invention relates to an abbreviation collection creation method for creating an abbreviation collection database by searching for pairs of abbreviations and original words in a document.

〔従来の技術と発明が解決しようとする問題点〕マニュ
アルの英文の略語集を作成する場合、計算機上に略語フ
ァイル(略語集データベース)が存在すれば、効率良(
処理を行うことができる。
[Problems to be solved by the conventional technology and the invention] When creating an English abbreviation collection for a manual, if an abbreviation file (abbreviation collection database) exists on the computer, it can be done efficiently (
can be processed.

しかし、従来の略語集の作成方法は、Tl)全て人手で
行う、(2)一部を計算機処理で行うようにしていた。
However, the conventional methods of creating a collection of abbreviations include (Tl) doing everything manually, and (2) doing some of it by computer processing.

いずれの場合も、文書の検索対象となるものは、略語だ
けである。このため、略語/原語(フルスペル)の対応
リストを作成するためには、予め人手によって別に作成
した対応ファイルを参照する必要があり、しかも対応フ
ァイル中に抽出された略語が存在しなければ、その都度
、人手によって対応する原語(フルスペル)を対応ファ
イルに人力する必要があり、処理が煩雑となり、迅速に
略語/原語の対を作成し難いという問題点があった。
In either case, only abbreviations are searched for in the document. Therefore, in order to create a correspondence list of abbreviations/original words (full spelling), it is necessary to refer to a correspondence file that has been created separately by hand in advance, and if the extracted abbreviation does not exist in the correspondence file, the Each time, it is necessary to manually enter the corresponding original word (full spelling) into the corresponding file, which makes the process complicated and makes it difficult to quickly create abbreviation/original word pairs.

また、上記対応ファイルを、複数文書間で共用すると、
対応ファイルの容量が次第に増大し、処理速度の低下を
招くと共に、略語−原語の一意の対応づけが望めなくな
るという問題点があった。
Also, if the above compatible files are shared between multiple documents,
There is a problem in that the capacity of the corresponding file gradually increases, leading to a decrease in processing speed, and it becomes impossible to expect a unique correspondence between an abbreviation and an original word.

本発明は、略語集データベースを迅速に自動作成するこ
とを目的としている。
The present invention aims to quickly and automatically create an abbreviation database.

〔問題点を解決するための手段〕 第1図を参照して問題点を解決するための手段を説明す
る。
[Means for solving the problem] Means for solving the problem will be explained with reference to FIG.

第1図において、ペアー検索指定部1は、入力された文
書の文字列中から、略語/原語のペアー抽出するための
略語/原語ペアーパターンを指定するものである。
In FIG. 1, a pair search specification section 1 specifies an abbreviation/original word pair pattern for extracting an abbreviation/original word pair from a character string of an input document.

ペアー抽出部2は、入力した文書の文字列中から略語/
原語ペアーバクーンに合致する略語/原語ペアーを抽出
するものである。
The pair extraction unit 2 extracts abbreviations/
This is to extract abbreviation/original word pairs that match the original word pair Bakun.

略語ファイル3は、抽出された略語/原語ペアーを格納
するものである。この格納された略語/原語ペアーは、
略語集データベースを形成する。
The abbreviation file 3 stores extracted abbreviation/original word pairs. This stored abbreviation/original word pair is
Create an abbreviation database.

〔作用〕[Effect]

本発明は、第1図に示すように、ペアー検索指定部1に
よって指定された略語/原語ペアーパターンに合致する
略語/原語ペアーを、ペアー抽出部2が入力された文書
の文字列中から抽出し、略語ファイル3に略語集データ
ベースとして格納するようにしている。
As shown in FIG. 1, in the present invention, a pair extraction unit 2 extracts an abbreviation/original word pair that matches an abbreviation/original word pair pattern specified by a pair search specification unit 1 from a character string of an input document. and is stored in the abbreviation file 3 as an abbreviation collection database.

このため、入力された文書中から、指定された略語/原
語ペアーパターンに合致する略語/原語ペアーを抽出し
て略語集データベースを自動作成することが可能となる
Therefore, it is possible to automatically create an abbreviation collection database by extracting abbreviation/original word pairs that match a specified abbreviation/original word pair pattern from an input document.

〔実施例〕〔Example〕

次に、第1図ないし第5図を用いて本発明の1実施例の
構成および動作を順次詳細に説明する。
Next, the configuration and operation of one embodiment of the present invention will be explained in detail using FIGS. 1 to 5.

第1図において、ファイルエディタ4は、略語ファイル
3から読み出した略語/原語ペアーを編集(ソート、マ
ージ、デリートなど)シ0、その編集結果を略語ファイ
ル3(あるいは必要に応じて出力ファイル5)に格納す
るものである。これにより、例えばアルファベット順に
並んだ略語−原語の対からなる略語集などが作成される
In FIG. 1, the file editor 4 edits (sorts, merges, deletes, etc.) the abbreviation/original word pair read from the abbreviation file 3, and outputs the editing results to the abbreviation file 3 (or output file 5 as necessary). It is stored in . This creates, for example, an abbreviation collection consisting of abbreviation-original pairs arranged in alphabetical order.

第2図を用いて第1図構成の動作を詳細に説明する。The operation of the configuration shown in FIG. 1 will be explained in detail using FIG.

第2図において、図中■は、文書ファイルから文書例え
ばマニュアルを読み出し、ペアー抽出部2に入力する状
態を示す、これは、例えば第3図T’ATTHRN 1
に示す(例)  CPU:ccntraI proce
ssing unit″を含む文章を入力することを意
味している。
In FIG. 2, ■ in the figure indicates a state in which a document, for example, a manual, is read out from a document file and inputted to the pair extraction unit 2.
(Example) CPU: ccntraI process
This means inputting a sentence containing "ssing unit".

図中■は、ペアー検索ランク設定し、略語/原語ペアー
検索する状態を示す、これは、後述する第4図に示す何
れかのランクを設定し、図中■でこの設定したランクに
対応する第3図PATT1)IC11N1ないしnのい
ずれかの略語/原語ペアーパターンを取り出し、この取
り出した略語/原語ペアーパターンに合致する略語/原
語ペアーを、文書中から検索開始することを意味してい
る。これら略語/原語ペアーパターンは、通常、検索プ
ログラムに内蔵させておく、また、別ファイルを設けて
これに格納しておいてもよい。
■ in the figure indicates a state in which a pair search rank is set and an abbreviation/original word pair search is performed.This means that one of the ranks shown in Figure 4, which will be described later, is set, and ■ in the figure corresponds to the set rank. FIG. 3 PATT1) This means that an abbreviation/original word pair pattern of any one of IC11N1 to n is extracted and a search is started from the document for an abbreviation/original word pair that matches the extracted abbreviation/original word pair pattern. These abbreviation/original word pair patterns are usually built into the search program, or may be stored in a separate file.

図中0は、略語/原語ペアーを抽出する状態を示す、こ
れは図中■で取り出した略語/原語ペアーパターンに合
致する略語/原語ペアーを、文占中から抽出し、略語フ
ァイル3に転送して格納することを意味している。尚、
この図中■による略語/原語ペアーの抽出は、図中■で
設定したペアー検索ランクに対応する全ての略語/原語
ペアーパターンについて行い、合致した略語/原語ペア
ーの全てを略語ファイル3に格納する。
0 in the figure indicates the state of extracting abbreviation/original word pairs. This means that the abbreviation/original word pairs that match the abbreviation/original word pair pattern extracted at ■ in the figure are extracted from the Bunsen and transferred to the abbreviation file 3. It is meant to be stored. still,
Extraction of abbreviation/original word pairs by ■ in this figure is performed for all abbreviation/original word pair patterns corresponding to the pair search rank set by ■ in the figure, and all matching abbreviation/original word pairs are stored in abbreviation file 3. .

図中■は、略語ファイル3に格納する状態を示す、これ
により、略語集データベースが作成される。
In the figure, ■ indicates a state in which the abbreviations are stored in the abbreviation file 3. As a result, an abbreviation collection database is created.

図中■は、ファイルエディタであって、略語ファイル3
から読み出した略語/原語ペアーについて編集(ソート
、マージ、デリートなど)を行い、その結果を略語ファ
イル3 (必要に応じて出力ファイル5)に格納するも
のである。
■ in the figure is a file editor, and the abbreviation file 3
Editing (sorting, merging, deleting, etc.) is performed on the abbreviation/original word pair read out from the file, and the results are stored in the abbreviation file 3 (output file 5 if necessary).

図中■は、出力ユーティリティであって、略語ファイル
に格納されている[1後の略語/原語ペアー(略語集デ
ータベース)を各種出力媒体例えばフロッピィディスク
にダンプするものである。
3 in the figure is an output utility that dumps the following abbreviation/original word pairs (abbreviation collection database) stored in the abbreviation file onto various output media, such as a floppy disk.

図中■は、用語自動処理システムであって、略語集作成
、用語集作成などの各種作成処理を行うものである。
3 in the figure is an automatic terminology processing system that performs various creation processes such as creating an abbreviation glossary and a glossary.

以上の手順によって、指定したペアー検索ランクに対応
する略語/原語ペアーパターンに合致する略語/原語ペ
アーを、入力された文書中から抽出して略語集データベ
ースを自動作成することが可能となる。
By the above procedure, it is possible to automatically create an abbreviation collection database by extracting from the input document the abbreviation/original word pairs that match the abbreviation/original word pair pattern corresponding to the specified pair search rank.

第3図は、略語/原語ペアーパターン例を示す。FIG. 3 shows an example of an abbreviation/original word pair pattern.

これは、文書中から略語/原語ペアーを抽出するための
パターンであって、“FATTr(+?N1”ないしP
ATTP、RNn ’から構成されている。
This is a pattern for extracting an abbreviation/original word pair from a document, and is a pattern for extracting abbreviation/original word pairs from a document.
It consists of ATTP and RNn'.

図中“×1はいずれかの文字を表す0図中“:”、1じ
 (右括弧)、“)” (左括弧)、“、”(スペース
)は、これに対応する記号が文G中に存在する場合に適
用されるものである0図中(例)は、各パターンに対応
する具体例を示す0例えばPATTErlN1”は、”
 xxx : xx・・・××1から構成され、(例)
“CI’U:central processing 
unit”が合致する略語/原語ペアーとして第1図ペ
アー抽出部2によって抽出される。
In the figure, "x1" represents any character. In the figure, ":", 1ji (right parenthesis), ")" (left parenthesis), "," (space), the corresponding symbol is the letter G. The example in the figure shows a specific example corresponding to each pattern.For example, PATTErlN1"
xxx: Consists of xx...××1 (example)
“CI'U: central processing
"unit" is extracted by the pair extraction unit 2 in FIG. 1 as a matching abbreviation/original word pair.

以上のように略語/原語ペアーパターンを設定すること
により、文書中から当該略語/原語ペアーパターンに合
致する略語/原語ペアーを抽出することが可能となる。
By setting an abbreviation/original word pair pattern as described above, it becomes possible to extract from a document an abbreviation/original word pair that matches the abbreviation/original word pair pattern.

第4図は、ペアー検索ランク例を示す、これは、指定さ
れた検索ランクに対応して第1図ペアー検索指定部1が
解読し、対応する第3図に示す略語/原語ペアーパター
ンをペアー抽出部2に通知するためのものである0図中
’rlANK  Sa ”は、単一パターンのみを検索
対象とするものである。
FIG. 4 shows an example of a pair search rank, which is decoded by the pair search specifying unit 1 in FIG. 'rlANK Sa '' in Figure 0, which is used to notify the extraction unit 2, is for searching only a single pattern.

例えば′″RANKS!”は、FATTEI?N2を用
いて検索するように、第1図ペアー検索指定部1がペア
ー抽出部2に通知する。
For example, ``RANKS!'' is FATTEI? The pair search designation unit 1 in FIG. 1 notifies the pair extraction unit 2 to search using N2.

図中“RANKM、”は、指定数値以上の複数パターン
を検索対象とするものである0例えば“T?ANKMf
fi”は、P A T T E RN 2〜nを用いて
検索するように、第1図ペアー検索指定部1がペアー抽
出部2に通知する。
In the figure, “RANKM,” is a search target for multiple patterns that are greater than or equal to a specified value. For example, “T?ANKMf
The pair search designation unit 1 in FIG. 1 notifies the pair extraction unit 2 to search for “fi” using PATTERN 2 to n.

図中”RIJK  L、”は、指定数値以下の複数パタ
ーンを検索対象とするものである0例えば′″RANK
LE”は、PATTERN 1〜3を用いて検索するよ
うに、第1図ペアー検索指定部1がペアー抽出部2に通
知する。
In the figure, "RIJK L," is a search target for multiple patterns below a specified value. For example, ``RIJK L,''
LE", the pair search designation unit 1 in FIG. 1 notifies the pair extraction unit 2 to search using PATTERN 1 to 3.

図中′″RANK  ALL″は、全登録パターンを検
索対象とするものである。これは、PATTuRN1〜
nを用いて検索するように、第1図ペアー検索指定部l
がペアー抽出部2に通知する。
``RANK ALL'' in the figure indicates that all registered patterns are searched. This is PATTuRN1~
In order to search using n, pair search specification part l in Figure 1
notifies the pair extraction unit 2.

以上のように、第4図ペアー検索ランクを設けることに
より、第3図FATTEI?N 1〜nのうちのいずれ
に合致する略語/原語ペアーを、文書中から抽出するか
否かを指定することが可能となる。
As described above, by providing the pair search ranks in Figure 4, FATTEI? It becomes possible to specify whether or not an abbreviation/original word pair matching any one of N1 to n is to be extracted from the document.

第5図は略語ファイル(略語集データベース)例を示す
、これは、第2図フローチャートに示す手順によって作
成された略語集データベース例である。第2行目の“M
−800動作説明書”は文古のタイトルである。
FIG. 5 shows an example of an abbreviation file (abbreviation collection database). This is an example of an abbreviation collection database created by the procedure shown in the flowchart of FIG. “M” in the second line
-800 Operation Manual” is the Bunko title.

第3行目以下に抽出された略語/原語ペアーが示されて
いる。この略語/原語ペアーは、“:1を用いて略語と
原語(フルスペル)との間を区切るように表したもので
ある。抽出′前の文日中には、“ (1、′)”などで
区切られていてもよい、また、第5図は、第1図ファイ
ルエディタ4によってアルファベット順にソートした後
のものである。
The extracted abbreviation/original word pairs are shown from the third line onwards. This abbreviation/original word pair is expressed using “:1” to separate the abbreviation and the original word (full spelling). Also, FIG. 5 is after sorting in alphabetical order by the file editor 4 in FIG. 1.

〔発明の効果〕〔Effect of the invention〕

以上説明したように、本発明によれば、入力された文書
中から、指定された略語/原語ペアーパターンに合致す
る略語/原語ペアーを抽出して略語集データベースを作
成する構成を採用しているため、略語集データベースを
自動作成することができる。この自動作成した略a?を
集データベースを編集してマニュアルの略語集、用語集
などを自動作成することができる。これにより 、マニ
ュアル、四節の索引の作成工数の削減、品質の向上、電
子ファイル化の促進などを図ることができる。
As explained above, according to the present invention, an abbreviation/original word pair matching a specified abbreviation/original word pair pattern is extracted from an input document to create an abbreviation collection database. Therefore, an abbreviation database can be automatically created. This automatically created abbreviation a? By editing the collection database, manual abbreviations, glossaries, etc. can be automatically created. This will reduce the man-hours required to create manuals and four-section indexes, improve quality, and promote the creation of electronic files.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の1実施例構成図、第2図は本発明の動
作説明フローヂャート、第3図は略語/原語ペアーパタ
ーン例、第4図はペアー検索ランク例、第5図は略語フ
ァイル例を示す。 図中、lはペアー検索指定部、2はペアー抽出部、3ば
略語ファイル、4はファイルエディタを表す。 佃瞥語集デ―り■−ス) 木籠明の1奥底例7a床図 尾  ]  図 本衝明の!7)伜tBPJフローナヤート方  2  
日 (注)XXX  英文字列 (El> :、 (、)ノ1itT後1−7:/り12
i1み%;I:!”す旺4ν酬/原話へ゛アーバターン
fダ1第3図 σアー検索うノクイ!IJ 扇4図
Fig. 1 is a configuration diagram of one embodiment of the present invention, Fig. 2 is a flowchart explaining the operation of the present invention, Fig. 3 is an example of an abbreviation/original word pair pattern, Fig. 4 is an example of a pair search rank, and Fig. 5 is an abbreviation file. Give an example. In the figure, l represents a pair search specification section, 2 represents a pair extraction section, 3 represents an abbreviation file, and 4 represents a file editor. Tsukabetsu word collection day ■-su) Akira Kokago's 1 deep example 7a floor map] Zumoto Shōmei's! 7) BPJ Hronayat 2
Date (note) XXX English character string (El>:, (,) ノ1itT after 1-7:/ri12
i1%;I:! ``Suo 4ν Exchange/Go to the original story Arbattern fda 1 Figure 3 σ Search Unokui! IJ Fan 4 Figure

Claims (1)

【特許請求の範囲】 文書中から略語と原語との対を検索して略語集データベ
ースを作成する略語集作成方式において、入力した文書
の文字列中から、略語/原語のペアを抽出するための略
語/原語ペアーパターンを指定するペアー検索指定部(
1)と、 このペアー検索指定部(1)によって指定された略語/
原語ペアーパターンに合致するものを、入力した文書の
文字列中から抽出するペアー抽出部(2)とを備え、 このペアー抽出部(2)によって抽出された略語/原語
ペアーを略語集データベースに格納するように構成した
ことを特徴とする略語集作成方式。
[Claims] In an abbreviation collection creation method in which an abbreviation collection database is created by searching for pairs of abbreviations and original words in a document, a method for extracting an abbreviation/original word pair from a character string of an input document is provided. Pair search specification section for specifying abbreviation/original word pair pattern (
1) and the abbreviation specified by this pair search specification part (1)/
It is equipped with a pair extraction unit (2) that extracts those matching the original word pair pattern from the character strings of the input document, and stores the abbreviation/original word pairs extracted by the pair extraction unit (2) in an abbreviation collection database. An abbreviation collection creation method characterized by being configured so as to.
JP62296673A 1987-11-25 1987-11-25 Abbreviation file production system Pending JPH01137367A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62296673A JPH01137367A (en) 1987-11-25 1987-11-25 Abbreviation file production system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62296673A JPH01137367A (en) 1987-11-25 1987-11-25 Abbreviation file production system

Publications (1)

Publication Number Publication Date
JPH01137367A true JPH01137367A (en) 1989-05-30

Family

ID=17836592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62296673A Pending JPH01137367A (en) 1987-11-25 1987-11-25 Abbreviation file production system

Country Status (1)

Country Link
JP (1) JPH01137367A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785631B2 (en) 2012-03-16 2017-10-10 Entit Software Llc Identification and extraction of acronym/definition pairs in documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785631B2 (en) 2012-03-16 2017-10-10 Entit Software Llc Identification and extraction of acronym/definition pairs in documents

Similar Documents

Publication Publication Date Title
JPH0628403A (en) Document retrieving device
JPH0315980A (en) Different description and synonym developing method for retrieving character string
JPH01137367A (en) Abbreviation file production system
JP3253657B2 (en) Document search method
JP3007375B2 (en) Document information retrieval device
JP2535629B2 (en) Input string normalization method of search system
JP2002132789A (en) Document retrieving method
JPH0750486B2 (en) Keyword extractor
JPS61248160A (en) Document information registering system
JP3666066B2 (en) Multilingual document registration and retrieval device
JPS63136224A (en) Automatic key word extracting device
JPH02113368A (en) Information retrieving method
JP3464518B2 (en) Document indexing system
JPS63254522A (en) Key word extracting device
JPS63226765A (en) Document processor
JPH0816617A (en) Method and device for retrieving document
JPH07249034A (en) Character string extraction processor
JPH0589174A (en) Dictionary retrieval method
JPH09128405A (en) Method and device for retrieving document
JPH09138809A (en) Whole sentence retrieval method
JPH06215038A (en) Data base retrieving device
Aloufi Information Retrieval of Text with Diacritics
JPH08314958A (en) Data registering method in parliamentary papers retrieving system
JPH0612454A (en) Method and device for document retrieval
JPH01137366A (en) Production system for data base of adversative dictionary