JP3317904B2 - Abbreviated name extraction device, method and recording medium - Google Patents

Abbreviated name extraction device, method and recording medium

Info

Publication number
JP3317904B2
JP3317904B2 JP24821498A JP24821498A JP3317904B2 JP 3317904 B2 JP3317904 B2 JP 3317904B2 JP 24821498 A JP24821498 A JP 24821498A JP 24821498 A JP24821498 A JP 24821498A JP 3317904 B2 JP3317904 B2 JP 3317904B2
Authority
JP
Japan
Prior art keywords
name
abbreviated
character
character string
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP24821498A
Other languages
Japanese (ja)
Other versions
JP2000076293A (en
Inventor
崇博 池田
研治 佐藤
尚良 落合
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP24821498A priority Critical patent/JP3317904B2/en
Publication of JP2000076293A publication Critical patent/JP2000076293A/en
Application granted granted Critical
Publication of JP3317904B2 publication Critical patent/JP3317904B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書中から企業名
・組織名・地名等の省略名称を抽出する装置、方法、お
よび、この方法を実現するプログラムを記憶する記録媒
体に関し、特に、与えられた正式名称に対応する省略名
称を網羅的に抽出するものに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus and a method for extracting abbreviated names such as a company name, an organization name, and a place name from a document, and a recording medium for storing a program for implementing the method. And an abbreviated name corresponding to the given formal name.

【0002】[0002]

【従来の技術】情報検索システム等においては、企業名
・組織名・地名等の正式名称と省略名称とを同一視でき
ることが望ましい。例えば、正式名称「NN電気株式会
社」の省略名称として「NN電気」あるいは「N電」と
いう語が用いられることがあり、「NN電気株式会社」
に関する文書としては、「NN電気株式会社」という語
を含む文書以外にも、「NN電気」や「N電」という語
を含む文書もあるため、これらすべての表記を同一視し
て検索しなければ検索漏れが生じる。
2. Description of the Related Art In an information retrieval system or the like, it is desirable to be able to identify official names and abbreviated names such as company names, organization names, and place names. For example, the word "NN Electric" or "N Electric" may be used as an abbreviated name of the official name "NN Electric Co., Ltd."
In addition to documents containing the words "NN Electric Co., Ltd.", there are documents containing the words "NN Electric" and "N Electric", so all of these notations must be identified and searched. If this happens, search omission will occur.

【0003】このような検索を実現するために、正式名
称に対応する各種の省略名称を予め記録しておき、入力
された正式名称を各種の省略名称に展開して検索を行う
ことができる。このためには、予め、正式名称に対する
各種の省略名称を、網羅的に収集しておく必要がある。
In order to realize such a search, various abbreviated names corresponding to the formal names are recorded in advance, and the input formal names can be expanded into various abbreviated names for searching. For this purpose, it is necessary to collect various abbreviated names for the formal names in advance.

【0004】従来からの正式名称の固有名詞に対応する
省略名称の固有名詞を抽出する方法として、特開平7−
210578公報に記載の文字列特定方式がある(以
下、従来例1という)。従来例1の文字列特定方式で
は、文を形態素解析し、固有名詞の候補となる語どうし
を比較し、一方が他方の文字のみから構成され、その文
字の出現順序が等しい場合に、長い方を正式名称、短い
方を省略名称として特定する。
As a conventional method of extracting a proper noun of an abbreviated name corresponding to a proper noun of a formal name, Japanese Patent Laid-Open No.
There is a character string identification method described in Japanese Patent Publication No. 210578 (hereinafter referred to as Conventional Example 1). In the character string identification method of Conventional Example 1, a sentence is morphologically analyzed, words that are candidates for proper nouns are compared, and when one is composed of only the other character and the appearance order of the characters is the same, the longer one is used. As the official name and the shorter one as the abbreviated name.

【0005】この方式では、まず固有名詞の候補を決定
しなければいけないが、単に文中の固有名詞を特定する
だけの方法としては、特開平6−19959公報に記載
の固有名詞特定処理システム(以下、従来例2とい
う)、特開平6−52221公報に記載の固有名詞の自
動抽出方式(以下、従来例3という)、特開平7−21
196公報に記載の固有名詞特定方式(以下、従来例4
という)がある。
In this method, first, proper noun candidates must be determined. However, as a method of simply specifying proper nouns in a sentence, a proper noun specifying processing system (hereinafter, referred to as Japanese Patent Application Laid-Open No. 6-19959) is used. Japanese Patent Application Laid-Open No. Hei 6-52221 (hereinafter referred to as Conventional Example 3);
196 gazette (hereinafter referred to as Conventional Example 4)
There is).

【0006】従来例2の固有名詞特定処理システムで
は、語の接頭辞や接尾辞によるパターン、あるいは、語
の前後の文型のパターンから固有名詞部分を特定し、そ
の部分で同一字種からなる文字列を固有名詞として抽出
する。従来例3の固有名詞の自動抽出方式では、文を形
態素解析し、特定パターンの文中の特定位置にある語を
固有名詞として抽出する。従来例4の固有名詞特定方式
では、文を形態素解析し、語の前後の文型のパターンか
ら、どの語が固有名詞らしいかを確率で表す。また、そ
の語構成のパターンから、それがどの程度固有名詞らし
いかを確率で表す。これらの値を総合して、その語が固
有名詞かどうかを判定する。
In the proper noun specification processing system of the conventional example 2, a proper noun portion is specified from a pattern by a word prefix or a suffix, or a sentence pattern before and after a word, and a character having the same character type in that portion. Extract columns as proper nouns. In the automatic proper noun extraction method of Conventional Example 3, a sentence is subjected to morphological analysis, and a word at a specific position in a specific pattern sentence is extracted as a proper noun. In the proper noun specifying method of Conventional Example 4, a sentence is subjected to morphological analysis, and from the sentence pattern before and after the word, which word is likely to be a proper noun is represented by probability. Also, from the pattern of the word composition, the degree to which it is a proper noun is represented by a probability. The sum of these values determines whether the word is a proper noun.

【0007】[0007]

【発明が解決しようとする課題】上記従来例では、以下
に示すような問題があった。従来例1では、形態素解析
結果をもとに、正式名称と省略名称の対を特定している
が、形態素解析は、誤った解析結果を出力することがあ
るという問題がある。例えば、抽出したい省略名称が、
一般の名詞2つを連結したものであった場合、形態素解
析では、この省略名称が2語に分割されてしまう可能性
がある。
The above conventional example has the following problems. In the first conventional example, a pair of a formal name and an abbreviated name is specified based on a morphological analysis result. However, the morphological analysis has a problem that an incorrect analysis result may be output. For example, if the short name you want to extract is
If two common nouns are connected, this abbreviated name may be divided into two words in morphological analysis.

【0008】また、形態素解析では、未知語の前後で単
語の区切りを誤ることも多い。未知語の直前または直後
の部分が正しい単語区切りにならず、未知語の中間の一
部だけが区切られて、別な未知語となってしまう場合が
ある。このような場合、正しい省略名称を抽出できない
だけでなく、別な未知語と認定された部分を誤った省略
名称として認定する可能性がある。
In morphological analysis, words are often mistakenly divided before and after unknown words. A part immediately before or after an unknown word may not be a correct word delimiter, and only a part in the middle of the unknown word may be separated to become another unknown word. In such a case, not only can a correct abbreviated name not be extracted, but also a portion that has been recognized as another unknown word can be recognized as an incorrect abbreviated name.

【0009】一方、従来例2ないし4の方法により、予
め固有名詞である部分を特定しておくことも可能である
が、これらの予め用意した文型や語構成のパターンを用
いる方法では、そのパターンにあてはまらないものは特
定できないという問題がある。また、従来例3および4
の方法では、はじめに形態素解析を行うため、上記従来
例1と同様の問題点を持つ。
On the other hand, it is possible to specify a part which is a proper noun in advance by the methods of Conventional Examples 2 to 4. However, in the method using these prepared sentence patterns and word composition patterns, There is a problem that those that do not apply cannot be identified. Conventional examples 3 and 4
In the method (1), the morphological analysis is performed first, so that the method has a problem similar to that of the above-described conventional example 1.

【0010】また、従来例1では、一方が他方の文字の
みから構成され、その文字の出現順序が等しい場合に、
長い方を正式名称、短い方を省略名称として特定するた
め、省略名称に対して、必ずしも正式名称が得られるわ
けではないという問題もある。正式名称と異なり、省略
名称では同一の実体に一意に対応する語として対応づけ
ることができないため、省略名称を収集しても、それら
を同一の実体を表すものどうしにまとめることができな
い。
In the first conventional example, when one of the characters is composed of only the other character and the appearance order of the characters is the same,
Since the longer one is specified as the formal name and the shorter one is specified as the abbreviated name, there is also a problem that the formal name cannot always be obtained for the abbreviated name. Unlike formal names, abbreviated names cannot be associated as words that uniquely correspond to the same entity, so even if abbreviated names are collected, they cannot be grouped together to represent the same entity.

【0011】さらに、従来例1では、省略名称を特定す
る際に、それを構成する文字と、文字の出現順序だけし
か検査していないため、省略名称をそれに対応しない正
式名称に結びつける可能性がある。例えば、「株式会社
東日本XX」と「日本XX」とが同一の文中に出現する
場合、後者を前者の省略名称であると認定してしまうと
いう問題がある。
Further, in the prior art 1, when specifying an abbreviated name, only the characters constituting the abbreviated name and the order of appearance of the characters are examined, so that there is a possibility that the abbreviated name is linked to a formal name that does not correspond to the abbreviated name. is there. For example, when "East Japan XX Co., Ltd." and "Japan XX" appear in the same sentence, there is a problem that the latter is recognized as an abbreviated name of the former.

【0012】さらに加えて、従来例1では、省略名称に
含まれる文字は、必ず正式名称に含まれていなければな
らないので、「NN電気株式会社」を「NN電気
(株)」と省略するように、正式名称に用いられない文
字が省略名称中で使われている合には、省略名称を正
しく正式名称に結びつけることができない。
In addition, in the first conventional example, the characters included in the abbreviated name must always be included in the formal name, so that "NN Electric Co., Ltd." is abbreviated as "NN Electric Co., Ltd." to, in the case a character that is not used in the official name is being used in the abbreviated name, it can not be tied to properly formal name an abbreviated name.

【0013】本発明は、上記従来例の問題点を解消する
ためになされたものであり、固有名詞の特定や形態素解
析を行わずに、各種文書中から正式名称に対応する省略
名称を抽出することができる省略名称抽出装置、方法、
および、この方法を実現するプログラムを記憶する記録
媒体を提供することを目的とする。
The present invention has been made in order to solve the problems of the above conventional example, and extracts an abbreviated name corresponding to a formal name from various documents without specifying proper nouns or performing morphological analysis. Abbreviation name extraction device, method,
It is another object of the present invention to provide a recording medium for storing a program for implementing the method.

【0014】上記目的を達成するため、本発明の第1の
観点にかかる省略名称抽出装置は、省略名称の抽出対象
となる文書を入力する入力手段と、抽出されるべき省略
名称に対する正式名称を記憶する正式名称記憶手段と、
省略名称以外の名詞を記憶する名詞記憶手段と、前記正
式名称記憶手段に記憶されている正式名称を取り出し、
該取り出した正式名称に対する省略名称の候補が存在す
る前記入力手段から入力された文書中の場所として、前
記入力手段から入力された文書のうちで前記取り出した
正式名称の先頭文字と同一の文字が存在する位置を検出
する省略名称候補検出手段と、前記省略名称候補検出手
段が検出した場所を元に、前記入力手段から入力された
文書の前記省略名称候補検出手段が検出した位置から文
字を1文字ずつ順に抽出し、該抽出した文字が前記取り
出した正式名称を構成する文字であり、かつ直前に取り
出された文字よりも前記取り出した正式名称中で後に出
現する限り文字の抽出を続け、抽出したすべての文字を
順につなげた文字列を省略名称の候補として抽出する省
略名称候補抽出手段と、前記省略名称候補抽出手段が抽
出した省略名称の候補を前記名詞記憶手段に記憶されて
いる名詞と比較し、一致するものがない場合に、該省略
名称の候補を前記取り出した正式名称に対する省略名称
として選択する省略名称選択手段と、前記省略名称選択
手段が選択した省略名称を、前記取り出した正式名称と
対応付けて出力する出力手段とを備えることを特徴とす
る。
To achieve the above object, an abbreviated name extracting apparatus according to a first aspect of the present invention includes an input unit for inputting a document from which an abbreviated name is to be extracted, and a formal name corresponding to the abbreviated name to be extracted. Formal name storage means for storing,
Noun storage means for storing nouns other than abbreviated names, and the formal name stored in the formal name storage means are taken out,
As a place in the document input from the input unit in which a candidate for the abbreviated name corresponding to the extracted formal name exists, the same character as the first character of the extracted formal name in the document input from the input unit is used. An abbreviated name candidate detecting means for detecting an existing position, and a sentence from a position of the document input from the input means detected by the abbreviated name candidate detecting means based on the location detected by the abbreviated name candidate detecting means.
Characters are extracted one by one in order, and the extracted characters are
Characters that make up the official name issued
It appears later in the extracted official name than the issued character.
Continue extracting characters as long as they appear and replace all extracted characters
An abbreviated name candidate extracting means for extracting a character string concatenated in order as an abbreviated name candidate and an abbreviated name candidate extracted by the abbreviated name candidate extracting means are compared with the nouns stored in the noun storage means, and are matched. If there is no abbreviation, the abbreviated name candidate is selected as the abbreviated name for the extracted formal name, and the abbreviated name selected by the abbreviated name selecting unit is associated with the extracted formal name. Output means for outputting.

【0015】上記省略名称抽出装置では、省略名称候補
検出手段が省略名称の候補が存在する場所として、前記
入力手段から入力された文書のうちで前記取り出した正
式名称の先頭文字と同一の文字が存在する位置を検出
し、その場所から省略名称抽出手段が省略名称の候補を
抽出する。つまり、省略名称の抽出のために形態素解析
を用いていないので、単語の区切りの誤りによって省略
名称の抽出に失敗することがない。また、前記省略名称
候補抽出手段は、前記入力された文書の前記省略名称候
補検出手段が検出した位置から文字を1文字ずつ順に抽
出し、該抽出した文字が前記取り出した正式名称を構成
する文字であり、かつ直前に取り出された文字よりも前
記取り出した正式名称中で後に出現する限り文字の抽出
を続け、抽出したすべての文字を順につなげた文字列を
省略名称の候補として抽出する。これにより、省略名称
候補抽出手段は、正式名称の第1文字を含まないものを
省略名称として抽出しないようになり、正式名称に対応
しない省略名称を抽出することを避けることができる。
また、省略名称候補選択手段は、抽出された省略名称の
候補のうちから名詞記憶手段に記憶されている名詞と一
致しないものだけを省略名称として選択するため、一般
の名詞で省略名称たり得ないものを省略名称として抽出
することがない。
In the above abbreviated name extracting device, the abbreviated name candidate detecting means determines, as a place where the abbreviated name candidate exists, the same character as the first character of the extracted formal name in the document input from the input means. The existing position is detected, and the abbreviated name extracting means extracts the abbreviated name candidate from the detected position. That is, since the morphological analysis is not used for extracting the abbreviated name, the extraction of the abbreviated name does not fail due to an incorrect word delimiter. The abbreviations mentioned above
The candidate extracting means is configured to output the abbreviated name of the input document.
Characters are extracted one by one from the position detected by the complementary detection means.
And the extracted characters constitute the extracted formal name
Character and before the character just retrieved
Extract characters as long as they appear later in the extracted official name
Followed by a string that connects all the extracted characters in order.
Extract as a candidate for abbreviated name. This allows for abbreviated names
The candidate extracting means selects the one that does not include the first character of the formal name.
No longer extracted as abbreviated names, corresponding to official names
It is possible to avoid extracting abbreviated names that are not used.
In addition, the abbreviated name candidate selection unit selects only the nouns that do not match the noun stored in the noun storage unit from among the extracted abbreviated name candidates, so that the abbreviated name cannot be abbreviated as a general noun. Things are not extracted as abbreviated names.

【0016】[0016]

【0017】[0017]

【0018】このとき、前記省略名称候補抽出手段は、
前記抽出したすべての文字を順につなげた文字列が2文
字以上で構成されている場合に、該文字列を省略名称の
候補として抽出するものとしてもよい。
At this time, the abbreviated name candidate extracting means includes:
When a character string in which all the extracted characters are sequentially connected is composed of two or more characters, the character string may be extracted as an abbreviated name candidate.

【0019】上記省略名称抽出装置は、また、前記省略
名称選択手段が選択した前記省略名称の先頭及び末尾の
文字と、前記入力手段から入力された文書中で該省略名
称の前後にある文字との文字種がそれぞれ異なるかどう
かを検査する省略名称前後字種検査手段をさらに備える
ものとしてもよい。この場合、前記出力手段は、前記省
略名称前後字種検査手段による検査の結果、前記省略名
称の候補と前記入力された文書中におけるその前後の文
字の文字種がいずれも異なる場合に、前記省略名称候補
選択手段が選択した省略名称を前記取り出した正式名称
と対応付けて出力するものとすることができる。
The abbreviated name extracting device may further include a head and an end character of the abbreviated name selected by the abbreviated name selecting means, and a character before and after the abbreviated name in the document input from the input means. May be further provided with an abbreviation name front and rear character type inspection means for inspecting whether the character types are different. In this case, the output unit outputs the abbreviated name when the candidate of the abbreviated name and the character type of the character before and after the candidate in the input document are different from each other as a result of the inspection by the abbreviated name before and after character type inspecting unit. The abbreviated name selected by the candidate selecting means may be output in association with the extracted official name.

【0020】この場合、省略名称の候補の前後に同一の
文字種の文字が続いている場合には、当該省略名称の候
補は省略名称として出力手段から出力されない。このた
め、何らかの正式名称に対する省略名称であると見なせ
る文字列が省略名称でない別の文字列中に偶然出現して
いる場合に、その文字列を省略名称として抽出してしま
うことを避けることができる。
In this case, if a character of the same character type continues before and after the candidate for the abbreviated name, the candidate for the abbreviated name is not output from the output means as the abbreviated name. For this reason, when a character string that can be regarded as an abbreviated name for some formal name appears by chance in another character string that is not an abbreviated name, it is possible to avoid extracting the character string as an abbreviated name. .

【0021】上記省略名称抽出装置は、また、正式名称
を省略して省略名称とする際に、正式名称の一部が置換
される可能性のある文字列と対応する置換後の文字列と
を対応付けて記憶する置換文字列対記憶手段と、前記正
式名称記憶手段に記憶されている正式名称に含まれる一
部の文字列を、前記置換文字列記憶手段参照して、該一
部の文字列に対応する置換後の文字列に置換する正式名
称文字列置換手段とをさらに備えるものとしてもよい。
この場合、前記省略名称候補検出手段は、さらに前記正
式名称文字列置換手段によって一部の文字列が置換され
た正式名称に基づいて、省略名称の候補が存在する文書
中の場所を検出するものとすることができる。
The abbreviated name extracting device may further include, when abbreviating the formal name to an abbreviated name, the character string in which a part of the formal name may be replaced and the corresponding replaced character string. A replacement character string pair storage means for storing the partial character strings included in the formal name stored in the formal name storage means, by referring to the replacement character string storage means, A formal name character string replacing means for replacing the character string after the replacement corresponding to the column may be further provided.
In this case, the abbreviated name candidate detecting means further detects a location in the document where the abbreviated name candidate exists, based on the formal name in which a partial character string is replaced by the formal name character string replacing means. It can be.

【0022】このとき、前記正式名称文字列置換手段
は、前記取り出した正式名称の先頭部分に含まれる特定
の文字列を削除する削除手段を備えるものとしてもよ
い。
At this time, the formal name character string replacing means may include a deleting means for deleting a specific character string included in a leading part of the extracted formal name.

【0023】このように置換文字列対記憶手段と正式名
称文字列置換手段を備えることによって、省略名称が正
式名称を構成する文字以外の文字を含む場合であって
も、それを省略名称として抽出することが可能となる。
また、削除手段によって正式名称の先頭部に含まれる
が、省略されることが多い文字列を削除することによっ
て、正式名称の先頭の文字を含まない省略名称を抽出す
ることが可能となる。
By providing the replacement character string pair storage means and the formal name character string replacement means as described above, even if the abbreviated name includes characters other than the characters constituting the formal name, it is extracted as the abbreviated name. It is possible to do.
In addition, by deleting a character string that is included in the head part of the formal name but is often omitted by the deletion unit, it is possible to extract an abbreviated name that does not include the head character of the formal name.

【0024】上記目的を達成するため、本発明の第2の
観点にかかる省略名称抽出方法は、省略名称の抽出対象
となる文書を入力する入力ステップと、予め記憶されて
いる正式名称を取り出し、該取り出した正式名称に対す
る省略名称の候補が存在する前記入力ステップで入力さ
れた文書中の場所として、前記入力手段から入力された
文書のうちで前記取り出した正式名称の先頭文字と同一
の文字が存在する位置を検出する省略名称候補検出ステ
ップと、前記省略名称候補検出ステップで検出された場
所を元に、前記入力ステップで入力された文書の前記検
出した位置から文字を1文字ずつ順に抽出し、該抽出し
た文字が前記取り出した正式名称を構成する文字であ
り、かつ直前に取り出された文字よりも前記取り出した
正式名称中で後に出現する限り文字の抽出を続け、抽出
したすべての文字を順につなげた文字列を省略名称の候
補として抽出する省略名称候補抽出ステップと、前記省
略名称候補抽出ステップで抽出した省略名称の候補を、
予め記憶されている省略名称以外の名詞と比較し、一致
するものがない場合に、該省略名称の候補を前記取り出
した正式名称に対する省略名称として選択する省略名称
選択ステップと、前記省略名称候補選択ステップで選択
された省略名称を、前記取り出した正式名称と対応付け
て出力する出力ステップとを含むことを特徴とする。
In order to achieve the above object, an abbreviated name extracting method according to a second aspect of the present invention includes an inputting step of inputting a document from which an abbreviated name is to be extracted, extracting a formal name stored in advance, As a place in the document input in the input step where there is a candidate for an abbreviated name for the extracted formal name, the same character as the first character of the extracted formal name in the document input from the input means is used. a shorthand designations candidate detecting step of detecting a present position, based on the location detected by the abbreviated name candidate detecting step, said analyzing of a document input in the input step
Characters are sequentially extracted one by one from the position where the
Are the characters that make up the formal name retrieved above.
And more than the character just retrieved
Continue extracting characters as long as they appear later in the official name
The character string in which all the characters
A shorthand designations candidate extracting as complement, the candidate of the abbreviated names extracted by the abbreviated name candidate extraction step,
An abbreviated name selecting step of comparing a noun other than an abbreviated name stored in advance and selecting a candidate for the abbreviated name as an abbreviated name for the extracted official name when there is no match; Outputting the abbreviated name selected in the step in association with the extracted official name.

【0025】上記省略名称抽出方法は、前記省略名称候
補選択ステップで選択された前記省略名称の先頭及び末
尾の文字と、前記入力ステップで入力された文書中で該
省略名称の前後にある文字との文字種がそれぞれ異なる
かどうかを検査する省略名称前後字種検査ステップをさ
らに含むものとしてもよい。この場合、前記出力ステッ
プは、前記省略名称前後字種検査ステップでの検査の結
果、前記省略名称の候補と前記入力された場合における
その前後の文字の文字種がいずれも異なる場合に、前記
省略名称候補選択ステップで選択された省略名称を前記
取り出した正式名称と対応付けて出力することができ
る。
The abbreviated name extraction method includes the steps of: leading and ending characters of the abbreviated name selected in the abbreviated name candidate selecting step; and characters before and after the abbreviated name in the document input in the inputting step. May further include an abbreviation name before and after character type inspection step for inspecting whether the character types are different. In this case, as a result of the inspection in the abbreviation name before and after character type inspection step, if the candidate for the abbreviation name and the character type of the character before and after the input are different from each other, the output step The abbreviated name selected in the candidate selecting step can be output in association with the extracted official name.

【0026】上記省略名称抽出方法は、前記予め記憶さ
れている正式名称に含まれる一部の文字列を、予め記憶
されている正式名称を省略名称とする際に置換される可
能性がある置換前後の文字列を参照して、該一部の文字
列に対応する置換後の文字列に置換する正式名称文字列
置換ステップをさらに含むものとしてもよい。この場
合、前記省略名称候補検出ステップは、さらに前記正式
名称文字列置換ステップで一部の文字列が置換された正
式名称に基づいて、省略名称の候補が存在する文書中の
場所を検出するものとすることができる。
In the above abbreviated name extracting method, a part of character strings included in the previously stored formal name may be replaced when the previously stored formal name is used as the abbreviated name. The method may further include a formal name character string replacing step of referring to the preceding and following character strings and replacing the character string with a replaced character string corresponding to the partial character string. In this case, the abbreviated name candidate detecting step further detects a place in the document where the abbreviated name candidate exists, based on the formal name in which a part of the character string has been replaced in the formal name character string replacing step. It can be.

【0027】上記目的を達成するため、本発明の第3の
観点にかかるコンピュータ読み取り可能な記録媒体は、
省略名称の抽出対象となる文書を入力する入力ステップ
と、予め記憶されている正式名称を取り出し、該取り出
した正式名称に対する省略名称の候補が存在する前記入
力ステップで入力された文書中の場所として、前記入力
手段から入力された文書のうちで前記取り出した正式名
称の先頭文字と同一の文字が存在する位置を検出する省
略名称候補検出ステップと、前記省略名称候補検出ステ
ップで検出された場所を元に、前記入力ステップで入力
された文書の前記検出した位置から文字を1文字ずつ順
に抽出し、該抽出した文字が前記取り出した正式名称を
構成する文字であり、かつ直前に取り出された文字より
も前記取り出した正式名称中で後に出現する限り文字の
抽出を続け、抽出したすべての文字を順につなげた文字
列を省略名称の候補として抽出する省略名称候補抽出ス
テップと、前記省略名称候補抽出ステップで抽出した省
略名称の候補を、予め記憶されている省略名称以外の名
詞と比較し、一致するものがない場合に、該省略名称の
候補を前記取り出した正式名称に対する省略名称として
選択する省略名称選択ステップと、前記省略名称候補選
択ステップで選択された省略名称を、前記取り出した正
式名称と対応付けて出力する出力ステップとを実行する
プログラムを記録することを特徴とする。
In order to achieve the above object, a computer-readable recording medium according to a third aspect of the present invention comprises:
An input step of inputting a document for which an abbreviated name is to be extracted, and a pre-stored formal name is extracted, and a place in the input document in the input step in which a candidate for an abbreviated name corresponding to the extracted formal name exists exists. An abbreviated name candidate detecting step of detecting a position where the same character as the first character of the extracted formal name exists in the document input from the input means; and a location detected in the abbreviated name candidate detecting step. From the detected position of the document input in the input step, characters are sequentially sorted one by one.
And the extracted characters represent the extracted official name.
Constituent characters and from the character extracted immediately before
Also, as long as it appears later in the extracted official name,
Continue extraction and connect all extracted characters in order
The abbreviated name candidate extracting step of extracting a column as an abbreviated name candidate and the abbreviated name candidate extracted in the abbreviated name candidate extracting step are compared with prestored nouns other than the abbreviated name, and there is no match. In this case, the abbreviated name candidate is selected as the abbreviated name for the extracted formal name, and the abbreviated name selected in the abbreviated name candidate selecting step is output in association with the extracted formal name. And recording a program for executing the output step.

【0028】上記記録媒体は、前記省略名称候補選択ス
テップで選択された前記省略名称の先頭及び末尾の文字
と、前記入力ステップで入力された文書中で該省略名称
の前後にある文字との文字種がそれぞれ異なるかどうか
を検査する省略名称前後字種検査ステップを実行するプ
ログラムをさらに記録するものとしてもよい。この場
合、前記出力ステップは、前記省略名称前後字種検査ス
テップでの検査の結果、前記省略名称の候補と前記入力
された場合におけるその前後の文字の文字種がいずれも
異なる場合に、前記省略名称候補選択ステップで選択さ
れた省略名称を前記取り出した正式名称と対応付けて出
力するものとすることができる。
[0028] The recording medium may include a character type consisting of the first and last characters of the abbreviated name selected in the abbreviated name candidate selecting step and the characters before and after the abbreviated name in the document input in the input step. May be further recorded to execute a step of checking the character type before and after the abbreviated name for checking whether each character is different. In this case, as a result of the inspection in the abbreviation name before and after character type inspection step, if the candidate for the abbreviation name and the character type of the character before and after the input are different from each other, the output step The abbreviated name selected in the candidate selecting step may be output in association with the extracted official name.

【0029】上記記録媒体は、前記予め記憶されている
正式名称に含まれる一部の文字列を、予め記憶されてい
る正式名称を省略名称とする際に置換される可能性があ
る置換前後の文字列を参照して、該一部の文字列に対応
する置換後の文字列に置換する正式名称文字列置換ステ
ップをさらに記録するものとしてもよい。この場合、前
記省略名称候補検出ステップは、さらに前記正式名称文
字列置換ステップで一部の文字列が置換された正式名称
に基づいて、省略名称の候補が存在する文書中の場所を
検出するものとすることができる。
[0029] In the recording medium, a part of the character string included in the pre-stored formal name may be replaced before or after replacement which may be replaced when the pre-stored formal name is used as the abbreviated name. A formal name character string replacement step of referring to the character string and replacing the character string with a replaced character string corresponding to the partial character string may be further recorded. In this case, the abbreviated name candidate detecting step further detects a place in the document where the abbreviated name candidate exists, based on the formal name in which a part of the character string has been replaced in the formal name character string replacing step. It can be.

【0030】[0030]

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
Embodiments of the present invention will be described below with reference to the accompanying drawings.

【0031】[第1の実施の形態]図1は、本実施の形
態にかかる省略名称抽出装置の構成を示すブロック図で
ある。図示するように、この省略名称抽出装置は、入力
装置1と、プログラム制御により動作する処理装置2
と、情報を記憶する記憶装置3と、出力装置4とから構
成されている。
[First Embodiment] FIG. 1 is a block diagram showing a configuration of an abbreviated name extracting apparatus according to the present embodiment. As shown, the abbreviated name extraction device includes an input device 1 and a processing device 2 that operates under program control.
, A storage device 3 for storing information, and an output device 4.

【0032】入力装置1は、キーボード等によって構成
され、オペレータの操作に従って、省略名称の抽出対象
となる文書を入力する。
The input device 1 is constituted by a keyboard or the like, and inputs a document from which an abbreviated name is to be extracted in accordance with an operation of an operator.

【0033】処理装置2は、省略名称候補検出手段21
と、省略名称候補抽出手段22と、省略名称選択手段2
3とを備える。記憶装置3は、正式名称記憶部31と、
名詞記憶部32とを備える。
The processing device 2 includes an abbreviated name candidate detecting means 21
, Abbreviated name candidate extracting means 22, and abbreviated name selecting means 2
3 is provided. The storage device 3 includes: a formal name storage unit 31;
And a noun storage unit 32.

【0034】正式名称記憶部31は、企業名・組織名・
地名等の各種名称の正式名称(固有名詞)を格納する。
ここに格納されている正式名称に対する省略名称が本発
明の装置により抽出される。
The formal name storage unit 31 stores a company name, an organization name,
Stores the official names (proper nouns) of various names such as place names.
The abbreviation for the formal name stored here is extracted by the apparatus of the present invention.

【0035】名詞記憶部32は、省略名称ではない、一
般の普通名詞・固有名詞を格納する。少なくとも、ここ
に格納されている名詞とは異なるものが省略名称として
本発明の装置により抽出される。名詞記憶部32には、
辞書等にあるすべての名詞を格納しておいてよい。
The noun storage unit 32 stores general common nouns / proper nouns that are not abbreviated names. At least those that are different from the nouns stored here are extracted by the apparatus of the present invention as abbreviated names. In the noun storage unit 32,
All nouns in a dictionary or the like may be stored.

【0036】省略名称候補検出手段21は、正式名称記
憶部31を参照し、対象文字列として、正式名称を取り
出す。そして、入力装置1より与えられた文書中で、そ
の対象文字列に対応する省略名称の候補が存在しうる場
所を検出し、その場所を対象文字列とともに省略名称候
補抽出手段22に渡す。省略名称の候補が存在しうる場
所としては、与えられた文書中で、対象文字列の第1文
字が存在する場所を用いる。
The abbreviated name candidate detecting means 21 refers to the formal name storage unit 31 and extracts the formal name as a target character string. Then, in the document provided from the input device 1, a place where an abbreviated name candidate corresponding to the target character string may exist is detected, and the location is passed to the abbreviated name candidate extracting means 22 together with the target character string. As a place where an abbreviated name candidate can exist, a place where the first character of the target character string exists in a given document is used.

【0037】省略名称候補抽出手段22は、省略名称候
補検出手段21から渡される省略名称の候補が存在しう
る場所と対象文字列との組を基に、省略名称の候補を与
えられた文書から抽出し、抽出した候補と対象文字列と
を組にして省略名称選択手段22に送る。省略名称の候
補の抽出は、省略名称候補検出手段21から渡された場
所から連続する文字列を1文字ずつ取り出し、その文字
が、対象文字列を構成する文字であり、対象文字列中
で、その直前に取り出された文字に対応する文字よりも
後に出現する限り連結していくことで行う。ただし、最
初の1文字は、対象文字列の第1文字目に対応するもの
として無条件に使用し、その文字を先頭にして、それ以
降の文字を連結していく。最終的な文字列長が2以上の
場合、それを省略名称の候補とする。
The abbreviated name candidate extracting means 22 extracts the abbreviated name candidate from the document given the abbreviated name candidate based on a set of the target character string and a place where the abbreviated name candidate passed from the abbreviated name candidate detecting means 21 exists. The extracted candidate and the target character string are sent to the abbreviated name selection unit 22 as a set. In the extraction of the abbreviated name candidate, a continuous character string is extracted one character at a time from the location passed from the abbreviated name candidate detection means 21, and the character is a character constituting the target character string. This is performed by connecting as long as it appears after the character corresponding to the character extracted immediately before. However, the first character is used unconditionally as the one corresponding to the first character of the target character string, and the character is connected at the beginning with that character. If the final character string length is 2 or more, it is set as a candidate for an abbreviated name.

【0038】例えば、「次世代半導体をN電が開発」と
いう入力の場合、「NN電気株式会社」という正式名称
が対象文字列のとき、第8文字目の「日」という文字の
位置が、省略名称の候補が存在しうる場所となる。この
とき、まず「日」という文字が、「NN電気株式会社」
の第1文字目と対応する文字として取り出され次の文
字「電」は、「NN電気株式会社」を構成する文字であ
り、「NN電気株式会社」という文字列中で、その直前
に取り出された「日」という文字に対応する第1文字目
の「日」よりも後に出現するため、これを、最初に取り
出された文字「日」に連結して「N電」という文字列を
作る。その次の文字「が」は、「NN電気株式会社」を
構成する文字ではないので、これは連結しない。最終的
な文字列「N電」は、長さが2以上あるので、これを
「NN電気株式会社」の省略名称の候補とする。
For example, in the case of input of "N-Dec. For next-generation semiconductor", if the formal name of "NN Denki Co., Ltd." is the target character string, the position of the eighth character "Day" is This is a place where candidates for abbreviated names can exist. At this time, first, the character “day” is changed to “NN Electric Co., Ltd.”
Is extracted as a character corresponding to the first character of “.” , And the next character “DEN” is a character constituting “NN DENKI CO., LTD.” Appearing after the first character "day" corresponding to the extracted "day" character, this is connected to the first extracted character "day" to form a character string "N-den" . The next character “GA” is not a character constituting “NN Denki Co., Ltd.” and is not linked. Since the final character string “N-den” has a length of 2 or more, this is set as a candidate for an abbreviated name of “NN electric corporation”.

【0039】省略名称選択手段23は、名詞記憶部32
を参照し、省略名称候補抽出手段22により渡される省
略名称と対象文字列の組のうち、省略名称が、名詞記憶
部32に格納されている名詞と一致しないものを選択
し、省略名称と正式名称とを組にして出力装置4に供給
する。
The abbreviated name selection means 23 includes a noun storage unit 32
, And selects the abbreviation whose name does not match the noun stored in the noun storage unit 32 from the set of the abbreviation and the target character string passed by the abbreviation name candidate extracting means 22. The name and the set are supplied to the output device 4.

【0040】出力装置4は、ディスプレイ装置やプリン
タなどによって構成され、省略名称選択手段23から供
給された省略名称と正式名称との組を出力し、オペレー
タに提示する。
The output device 4 is constituted by a display device, a printer, or the like, and outputs a set of the abbreviated name and the formal name supplied from the abbreviated name selecting means 23 and presents it to the operator.

【0041】なお、本実施の形態では、省略名称候補検
出手段21、省略名称候補抽出手段22、省略名称選択
手段23は、処理装置2に備え付けられている必要はな
く、処理装置2を制御するためのプログラムとして、C
D−ROMやフロッピーディスクなどの記録媒体に格納
して提供され、処理装置2に読み込まれて実行されるも
のとしてもよい。
In the present embodiment, the abbreviated name candidate detecting means 21, the abbreviated name candidate extracting means 22, and the abbreviated name selecting means 23 do not need to be provided in the processing device 2, and control the processing device 2. As a program for
The information may be provided by being stored in a recording medium such as a D-ROM or a floppy disk, and may be read and executed by the processing device 2.

【0042】また、正式名称記憶部31、名詞記憶部3
2は、記憶装置3に予め備えられている必要はなく、C
D−ROMやフロッピーディスクなどの記録媒体に格納
して提供され、処理装置2がこの記録媒体にアクセスす
るものとしてもよい。
The formal name storage unit 31 and the noun storage unit 3
2 does not need to be provided in the storage device 3 in advance.
The processing device 2 may access the recording medium provided by being stored in a recording medium such as a D-ROM or a floppy disk.

【0043】以下、図2のフローチャートを参照して、
本実施の形態の省略名称抽出装置における動作について
説明する。
Hereinafter, referring to the flowchart of FIG.
The operation of the abbreviated name extraction device according to the present embodiment will be described.

【0044】まず、省略名称候補検出手段21が、正式
名称記憶部31を参照し、正式名称記憶部31に格納さ
れている正式名称すべてについて、処理が終わっている
かどうかを判定する(ステップA1)。すべての正式名
称について処理が終わっている場合には、動作を終了す
る。
First, the abbreviated name candidate detecting means 21 refers to the formal name storage unit 31 and determines whether or not the processing has been completed for all the formal names stored in the formal name storage unit 31 (step A1). . If the processing has been completed for all the official names, the operation ends.

【0045】処理が終わっていない場合には、処理の対
象文字列として、正式名称記憶部31より、まだ処理が
終わっていない正式名称を1つ読み出す(ステップA
2)。さらに、この対象文字列の第1文字が入力文書中
に存在するかどうかを判定する(ステップA3)。この
文字が入力文中に存在しなければ、ステップA1に戻
り、入力文中に存在すれば、その場所を対象文字列とと
もに省略名称候補抽出手段22に渡す。
If the processing has not been completed, one formal name that has not been processed is read from the formal name storage unit 31 as a character string to be processed (step A).
2). Further, it is determined whether the first character of the target character string exists in the input document (step A3). If the character does not exist in the input sentence, the process returns to step A1. If the character exists in the input sentence, the location is passed to the abbreviated name candidate extracting means 22 together with the target character string.

【0046】省略名称候補抽出手段22は、省略名称候
補検出手段21により与えれた場所にある文字を、省
略名称候補の文字列の第1文字とする(ステップA
4)。続いて、入力文書から、その次の文字を読み出し
(ステップA5)、その文字が、対象文字列中にある文
字列であり、かつ、対象文字列中で、この直前に取り出
された文字に対応する文字よりも後に出現するかどうか
を判定する(ステップA6)。
The shorthand designations candidate extraction unit 22, the character at the location given et a by shorthand designations candidate detecting section 21, the first character of the string omitted name candidate (Step A
4). Subsequently, the next character is read from the input document (step A5), and the character is a character string in the target character string and corresponds to the character extracted immediately before in the target character string. It is determined whether or not the character appears after the character (step A6).

【0047】この条件が満たされる場合には、この文字
を省略名称候補の文字列の最後に付け加え(ステップA
7)、ステップA5−A6の処理を繰り返す。条件が満
たされない場合には、それまでに形成された省略名称候
補の文字列の長さが2以上であるかどうかを判定する
(ステップA8)。2以上でない場合には、ステップA
1に戻る。2以上である場合には、省略名称候補の文字
列と対象文字列とを組にして、省略名称選択手段23に
渡す。
If this condition is satisfied, this character is added to the end of the character string of the abbreviated name candidate (step A).
7), the processing of steps A5-A6 is repeated. If the condition is not satisfied, it is determined whether or not the length of the character string of the abbreviated name candidate formed so far is 2 or more (step A8). If not, step A
Return to 1. If the number is two or more, the abbreviation name candidate character string and the target character string are paired and passed to the abbreviation name selection means 23.

【0048】省略名称選択手段23は、省略名称候補抽
出手段22により与えられた省略名称候補の文字列が、
名詞記憶部32に存在するかどうかを判定する(ステッ
プ9)。存在する場合には、何も出力せずに、ステップ
A3に戻る。存在しない場合には、その省略名称候補を
正式名称に対応づけて出力し(ステップA10)、ステ
ップA3に戻る。
The abbreviated name selecting means 23 converts the character string of the abbreviated name candidate given by the abbreviated name candidate extracting means 22 into
It is determined whether it exists in the noun storage unit 32 (step 9). If there is, the process returns to step A3 without outputting anything. If not, the abbreviated name candidate is output in association with the formal name (step A10), and the process returns to step A3.

【0049】以下、本実施の形態の省略名称抽出装置に
おける動作について、具体的な実施例を用いて説明す
る。
Hereinafter, the operation of the abbreviated name extracting device of the present embodiment will be described using a specific example.

【0050】今、例えば、正式名称記憶部31には、図
3に示す2つの文字列が、正式名称として記憶されてい
る。また、名詞記憶部32には、図4の名詞を含む名詞
が記憶されている。このとき、この装置に、「日フは、
日本・中国間に新規路線を開設する。」という文が入力
されたとする。
Now, for example, the formal name storage unit 31 stores two character strings shown in FIG. 3 as formal names. In the noun storage unit 32, nouns including the noun of FIG. 4 are stored. At this time, this device says,
Open a new route between Japan and China. Is input.

【0051】省略名称候補検出手段21は、まず、正式
名称記憶部31のすべての正式名称について処理が終わ
っているかを判定する(ステップA1)。しかし、まだ
処理していない正式名称が2つ残っているので、その1
つ目、「エアージャパン株式会社」を対象文字列として
読み出し(ステップA2)、その第1文字「エ」が入力
文中に存在するかどうかを判定する(ステップA3)。
この例では、入力文中に「エ」という文字は存在しない
ので、処理は、ステップA1に戻る。
First, the abbreviated name candidate detecting means 21 determines whether the processing has been completed for all the formal names in the formal name storage unit 31 (step A1). However, there are two official names that have not yet been processed.
First, "Air Japan Co., Ltd." is read as a target character string (step A2), and it is determined whether or not the first character "d" exists in the input sentence (step A3).
In this example, since the character “E” does not exist in the input sentence, the process returns to step A1.

【0052】省略名称候補検出手段21は、ここで再
び、正式名称記憶部31のすべての正式名称について処
理が終わっているかを判定する(ステップA1)。しか
し、まだ処理していない正式名称「日本フライト株式会
社」が残っているので、これを対象文字列として読み出
し(ステップA2)、その第1文字「日」が入力文中に
存在するかどうかを判定する(ステップA3)。この例
では、入力文中の第1文字目に「日」という文字が存在
するので、その場所を対象文字列「日本フライト株式会
社」とを組にして、省略名称候補抽出手段22に渡す。
Here, the abbreviated name candidate detecting means 21 determines again whether or not the processing has been completed for all the formal names in the formal name storage unit 31 (step A1). However, since the official name "Japan Flight Co., Ltd." which has not been processed remains, this is read as a target character string (step A2), and it is determined whether or not the first character "day" exists in the input sentence. (Step A3). In this example, since the first character in the input sentence includes the character "day", the location is paired with the target character string "Japan Flight Co., Ltd." and passed to the abbreviated name candidate extracting means 22.

【0053】省略名称候補抽出手段22は、第1文字目
の文字「日」を省略名称候補の文字列の第1文字目とし
(ステップA4)、入力文書中の次の文字「フ」を読み
出して、これが、対象文字列中にある文字列であり、か
つ、対象文字列中で、この直前に取り出された文字に対
応する文字よりも後に出現するかどうかを判定する(ス
テップA6)。この例では、「フ」という文字は、対象
文字列「日本フライト株式会社」中に含まれ、直前に取
り出された「日」という文字に対応する第1文字目の
「日」よりも対象文字列中で後に出現するので、この文
字を省略名称候補文字列の最後に加え、省略名称候補の
文字列を「日フ」とする(ステップA7)。
The abbreviated name candidate extracting means 22 sets the first character "day" as the first character of the abbreviated name candidate character string (step A4), and reads the next character "f" in the input document. Then, it is determined whether or not this is a character string in the target character string and appears later than the character corresponding to the character extracted immediately before in the target character string (step A6). In this example, the character "F" is included in the target character string "Japan Flight Co., Ltd.", and the character "F" is the target character more than the first character "Day" corresponding to the character "Day" extracted immediately before. Since this character will appear later in the column, this character is added to the end of the abbreviated name candidate character string, and the abbreviated name candidate character string is set to "day" (step A7).

【0054】省略名称候補抽出手段22は、さらに次の
文字「は」を読み込み(ステップA5)、ステップA6
の判定を行うが、「は」は、対象文字列「日本フライト
株式会社」中に含まれないので、省略名称候補の文字列
を「日フ」で確定し、この文字列の長さが2以上である
かどうかを判定する(ステップA8)。「日フ」は、長
さ2の文字列であるので、これを省略名称候補として、
対象文字列を組にして省略名称選択手段23に渡す。
The abbreviated name candidate extracting means 22 reads the next character "wa" (step A5), and reads the next character "ha".
However, since "wa" is not included in the target character string "Japan Flight Co., Ltd.", the character string of the abbreviated name candidate is determined by "day", and the length of this character string is 2 It is determined whether or not this is the case (step A8). Since “day” is a character string having a length of 2, this is used as an abbreviated name candidate.
The target character strings are sent to the abbreviated name selection unit 23 as a set.

【0055】省略名称選択手段23は、受け取った省略
名称候補「日フ」が名詞記憶部32に存在するかどうか
を判定する(ステップA9)。この例では、「日フ」
は、名詞記憶部32に存在しないので、「日フ」を正式
名称「日本フライト株式会社」と対応づけて出力し(ス
テップA10)、ステップA3に戻る。
The abbreviated name selecting means 23 determines whether or not the received abbreviated name candidate "day" exists in the noun storage unit 32 (step A9). In this example,
Does not exist in the noun storage unit 32, and outputs "Nichifu" in association with the official name "Japan Flight Co., Ltd." (Step A10), and returns to Step A3.

【0056】ステップA3では、省略名称候補検出手段
21が、対象文字列の第1文字「日」が入力文中の残り
の部分に存在するかどうかを判定する。この例では、入
力文中の第5文字目にも「日」という字が存在するの
で、その場所を対象文字列「日本フライト株式会社」と
を組にして、省略名称候補抽出手段22に渡す。
In step A3, the abbreviated name candidate detecting means 21 determines whether the first character "day" of the target character string exists in the remaining part of the input sentence. In this example, since the character “day” also exists in the fifth character in the input sentence, the location is paired with the target character string “Japan Flight Co., Ltd.” and passed to the abbreviated name candidate extracting means 22.

【0057】省略名称候補抽出手段22は、第1文字目
からのときと同様にステップA5−A8の処理を行い、
「日本」という文字列を対象文字列「日本フライト株式
会社」の省略名称候補として、省略名称選択手段23に
渡す。
The abbreviated name candidate extracting means 22 performs the processing of steps A5 to A8 in the same manner as in the case of the first character.
The character string “Japan” is passed to the abbreviated name selection means 23 as an abbreviated name candidate for the target character string “Japan Flight Co., Ltd.”.

【0058】省略名称選択手段23は、受け取った省略
名称候補「日本」が名詞記憶部32に存在するかどうか
を判定する(ステップA9)。この例では、「日本」
が、名詞記憶部32に存在するので、何も出力せずに、
ステップA3に戻る。
The abbreviated name selecting means 23 determines whether or not the received abbreviated name candidate "Japan" exists in the noun storage unit 32 (step A9). In this example, "Japan"
Exists in the noun storage unit 32, so that nothing is output,
It returns to step A3.

【0059】ステップA3では、省略名称候補検出手段
21が、対象文字列の第1文字「日」が入力文中の残り
の部分に存在するかどうかを判定するが、「日」という
字はもう存在しないので、ステップA1に戻る。
In step A3, the abbreviated name candidate detecting means 21 determines whether or not the first character "day" of the target character string exists in the remaining portion of the input sentence, but the character "day" already exists. No, the process returns to step A1.

【0060】ステップA1では、省略名称候補検出手段
21が、正式名称記憶部31のすべての正式名称につい
て処理が終わっているかを判定するが、すべての正式名
称について処理が終わっているので、これですべての処
理を終了する。
At step A1, the abbreviated name candidate detecting means 21 determines whether or not all the formal names in the formal name storage unit 31 have been processed. All processing ends.

【0061】この例では、結果として、正式名称「日本
フライト株式会社」に対して、省略名称「日フ」が出力
されている。
In this example, as a result, the abbreviated name “Nifu” is output for the official name “Japan Flight Co., Ltd.”.

【0062】以上説明したように、本実施の形態にかか
る省略名称抽出装置では、形態素解析を行わずに、省略
名称を抽出するため、形態素解析の誤りによって、省略
名称の抽出に失敗することがない。省略名称の候補が一
般の名詞である場合には出力しないので、正式名称の短
縮形と見なされる語であっても、省略名称ではあり得な
いものを出力しない。また、予め与える正式名称を基に
省略名称を検索し、正式名称に対応づけて省略名称を出
力するので、抽出された省略名称から、その正式名称を
得ることができる。さらに、正式名称の第1文字を含ま
ないもは省略名称としないので、正式名称に対応しな
い省略名称を抽出することを回避できる。
As described above, the abbreviated name extracting apparatus according to the present embodiment extracts the abbreviated name without performing the morphological analysis, and therefore fails to extract the abbreviated name due to an error in the morphological analysis. Absent. If the candidate for the abbreviated name is a general noun, it is not output. Therefore, even if the word is considered to be a shortened form of the formal name, a word that cannot be an abbreviated name is not output. In addition, since the abbreviated name is searched based on the formal name given in advance, and the abbreviated name is output in association with the formal name, the formal name can be obtained from the extracted abbreviated name. Furthermore, the even does not include the first character of the official name does not abbreviated name, can be avoided to extract omitted name that does not correspond to the formal name.

【0063】[第2の実施の形態]図5は、本実施の形
態にかかる省略名称抽出装置の構成を示すブロック図で
ある。この省略名称抽出装置は、処理装置2がさらに省
略名称前後字種検査手段24を有する点で、図1に示す
第1の実施の形態の省略名称抽出装置と異なる。
[Second Embodiment] FIG. 5 is a block diagram showing a configuration of an abbreviated name extracting apparatus according to the present embodiment. This abbreviated name extraction device is different from the abbreviated name extraction device of the first embodiment shown in FIG. 1 in that the processing device 2 further includes an abbreviation name before and after character type inspection means 24.

【0064】また、本実施の形態にかかる省略名称抽出
装置は、省略名称選択手段23は、選択した省略名称を
正式名称と対応づけて出力する代わりに、選択した省略
名称と対象文字列とを組にして、省略名称前後字種検査
手段24に渡す。
In the abbreviated name extracting device according to the present embodiment, the abbreviated name selecting means 23 outputs the selected abbreviated name and the target character string instead of outputting the selected abbreviated name in association with the formal name. A pair is passed to the abbreviation name front and rear character type inspection means 24.

【0065】省略名称前後字種検査手段24は、入力文
書において、受け取った省略名称の直前に出現する文字
の字種が、省略名称の先頭の文字の字種と等しいかどう
か検査する。さらに、受け取った省略名称の直後に出現
する文字の字種が、省略名称の末尾の文字の字種と等し
いかどうかについても検査する。これらの検査の両方に
おいて、字種が異なっていた場合に限り、受け取った省
略名称を正式名称に対応づけて出力する。
The abbreviation name before and after character type checking means 24 checks whether or not the character type of the character appearing immediately before the received abbreviation name in the input document is equal to the character type of the first character of the abbreviation name. Furthermore, it is checked whether the character type of the character appearing immediately after the received abbreviated name is equal to the character type of the character at the end of the abbreviated name. In both of these tests, the received abbreviation is output in association with the official name only when the character type is different.

【0066】なお、本実施の形態では、省略名称候補検
出手段21、省略名称候補抽出手段22、省略名称選択
手段23、省略名称前後字種検査手段24は、処理装置
2に備え付けられている必要はなく、処理装置2を制御
するためのプログラムとして、CD−ROMやフロッピ
ーディスクなどの記録媒体に格納して提供され、処理装
置2に読み込まれて実行されるものとしてもよい。
In the present embodiment, the abbreviation name candidate detection means 21, the abbreviation name candidate extraction means 22, the abbreviation name selection means 23, and the abbreviation name before and after character type inspection means 24 need to be provided in the processing device 2. Instead, a program for controlling the processing device 2 may be provided by being stored in a recording medium such as a CD-ROM or a floppy disk, and may be read and executed by the processing device 2.

【0067】また、正式名称記憶部31、名詞記憶部3
2は、記憶装置3に予め備えられている必要はなく、C
D−ROMやフロッピーディスクなどの記録媒体に格納
して提供され、処理装置2がこの記録媒体にアクセスす
るものとしてもよい。
The formal name storage unit 31 and the noun storage unit 3
2 does not need to be provided in the storage device 3 in advance.
The processing device 2 may access the recording medium provided by being stored in a recording medium such as a D-ROM or a floppy disk.

【0068】以下、図6のフローチャートを参照して、
本実施の形態の省略名称抽出装置における動作について
説明する。
Hereinafter, referring to the flowchart of FIG.
The operation of the abbreviated name extraction device according to the present embodiment will be described.

【0069】図6に示す処理において、ステップB1−
B9の処理は、図2のステップA1−A9で示される第
1の実施の形態の動作と同一のため、説明は省略する。
第1の実施の形態では、ステップA10において、省略
名称候補選択手段23が、選択した省略名称を正式名称
に対応づけて出力していたが、本実施の形態では、省略
名称候補選択手段23が選択した省略名称は、対象文字
列と組にして、省略名称前後字種検査手段24に渡され
る。
In the process shown in FIG. 6, step B1-
The process of B9 is the same as the operation of the first embodiment shown in steps A1 to A9 of FIG.
In the first embodiment, in step A10, the abbreviated name candidate selecting means 23 outputs the selected abbreviated name in association with the formal name. However, in the present embodiment, the abbreviated name candidate selecting means 23 outputs The selected abbreviated name is paired with the target character string and passed to the abbreviation name before and after character type inspection means 24.

【0070】省略名称前後字種検査手段24は、まず、
入力文書中で、受け取った省略名称の直前に位置する文
字の字種が、その省略名称の先頭の文字の字種と等しい
かどうかを検査する(ステップB10)。等しい場合に
は、何も出力せずにステップB3に戻る。異なる場合に
は、続いて、受け取った省略名称の直後に位置する文字
の字種が、その省略名称の末尾の文字の字種と等しいか
どうかを検査する(ステップB11)。等しい場合に
は、何も出力せずにステップB3に戻る。異なる場合に
は、その省略名称を正式名称に対応づけて出力し(ステ
ップB12)、ステップB3に戻る。
The abbreviation name front and rear character type inspection means 24 first
In the input document, it is checked whether the character type of the character located immediately before the received abbreviated name is equal to the character type of the first character of the abbreviated name (step B10). If they are equal, the process returns to step B3 without outputting anything. If not, it is checked whether the character type of the character located immediately after the received abbreviation is equal to the character type of the last character of the abbreviation (step B11). If they are equal, the process returns to step B3 without outputting anything. If not, the abbreviated name is output in association with the formal name (step B12), and the process returns to step B3.

【0071】以下、本実施の形態の省略名称抽出装置に
おける動作について、具体的な実施例を用いて説明す
る。
Hereinafter, the operation of the abbreviated name extracting device of the present embodiment will be described using a specific example.

【0072】第1の実施の形態の実施例と同様に、例え
ば、正式名称記憶部31には、図3に示す2つの文字列
が、正式名称として記憶されている。また、名詞記憶3
2部には、図4の名詞を含む普通名詞が記憶されてい
る。このとき、このシステムに、「中日フライトは、国
内線を全面禁煙化した。」という文が入力されたとす
る。
As in the example of the first embodiment, for example, the formal name storage unit 31 stores two character strings shown in FIG. 3 as formal names. Also, noun memory 3
In the second part, common nouns including the noun of FIG. 4 are stored. At this time, it is assumed that a sentence "This is a non-smoking domestic flight on Sino-Japanese flights."

【0073】正式名称記憶部31には、正式名称が2つ
あるので、最初のステップB1の判定では、ステップB
2へと進む。入力文中に「エ」の文字がないため、ステ
ップB2で最初に読み出される正式名称「エアージャパ
ン株式会社」についてはステップB4以降の処理は行わ
れず、再びステップB1に戻る。
Since the formal name storage unit 31 has two formal names, in the first determination in step B 1,
Proceed to 2. Since there is no character of "E" in the input sentence, the process after step B4 is not performed for the official name "Air Japan Co., Ltd." read first in step B2, and the process returns to step B1 again.

【0074】正式名称記憶部31には、まだ正式名称
「日本フライト株式会社」があるので、ステップB1の
判定では、再びステップB2へと進む。ステップB3で
は、入力文中の第2文字目に「日」という文字が存在す
るため、ステップB4へと進み、省略名称候補抽出手段
22が、ステップB5−B8の処理で、「日フライト」
という文字列を抽出する。
Since the official name storage unit 31 still has the official name "Japan Flight Co., Ltd.", the process proceeds to step B2 again in step B1. In step B3, since the character "day" is present as the second character in the input sentence, the process proceeds to step B4, where the abbreviated name candidate extracting means 22 executes the processing of "day flight" in steps B5-B8.
Is extracted.

【0075】ステップB9で、省略名称候補選択手段2
3が、「日フライト」という文字列が、名詞記憶部32
に存在するかどうかを判定するが、この例では存在しな
いので、これを対象文字列「日本フライト株式会社」と
組にして、省略名称前後字種検査手段24に渡す。
In step B9, the abbreviated name candidate selecting means 2
3 is a character string “day flight” in the noun storage unit 32.
It is determined whether or not the character string exists in the target character string "Japan Flight Co., Ltd.".

【0076】省略名称前後字種検査手段24は、入力文
中で「日フライト」の直前に位置する文字「中」の字種
と、省略名称「日フライト」の先頭の文字「日」の字種
とを比較する(ステップB10)。ここで、字種を、例
えば、英字・数字・記号・ひらがな・カタカナ・漢字の
6種類に分けるものとすると、「中」と「日」の字種
は、ともに漢字で、等しいので、何もせずにステップB
3へと戻る。
The abbreviation name before and after character type inspection means 24 determines the character type of the character “middle” located immediately before “day flight” in the input sentence and the character type of the first character “day” of the abbreviation name “day flight”. (Step B10). Here, if the character types are divided into six types, for example, alphabets, numbers, symbols, hiragana, katakana, and kanji, the character types of “middle” and “day” are both kanji and are equal. Step B without
Return to 3.

【0077】対象文字列の第1文字「日」は、入力文中
の残りの部分に存在しないので、ステップB3からステ
ップB1へと戻るが、すべての正式名称について処理が
終わっているため、これですべての処理を終了する。
Since the first character "day" of the target character string does not exist in the rest of the input sentence, the process returns from step B3 to step B1, but since all the formal names have been processed, the processing is completed. All processing ends.

【0078】この例では、正式名称「日本フライト株式
会社」に対して、省略名称候補検出手段21、省略名称
候補抽出手段22、省略名称選択手段23により、省略
名称として「日フライト」が抽出されるが、省略名称前
後字種検査手段24により、この省略名称は落とされ、
結果として、何も出力されない。
In this example, abbreviation name candidate detecting means 21, abbreviated name candidate extracting means 22, and abbreviated name selecting means 23 extract "day flight" as the abbreviated name for the official name "Japan Flight Co., Ltd." However, this abbreviation is dropped by the abbreviation before and after character type inspection means 24,
As a result, nothing is output.

【0079】以上説明したように、本実施の形態にかか
る省略名称抽出装置では、入力文章中で省略名称として
抽出された文字列の直前または直後に、省略名称の先頭
または末尾と同一の字種の文字が続いている場合に、そ
の文字列を省略名称として出力しない。このため、正式
名称の短縮形と見なせる文字列が、省略名称ではない別
な単語の中に偶然出現している場合に、その文字列を省
略名称として出力することを回避することができる。
As described above, in the abbreviated name extracting apparatus according to the present embodiment, the same character type as the head or end of the abbreviated name is added immediately before or immediately after the character string extracted as the abbreviated name in the input text. Is not output as an abbreviated name. Therefore, when a character string that can be regarded as a shortened form of the formal name appears by chance in another word that is not an abbreviated name, it is possible to avoid outputting the character string as an abbreviated name.

【0080】[第3の実施の形態]図7は、本実施の形
態にかかる省略名称抽出装置の構成を示すブロック図で
ある。この省略名称抽出装置は、処理装置2がさらに正
式名称文字列置換手段20を有し、記憶装置3がさらに
置換文字列対記憶部30を有する点で、図1に示す第1
の実施の形態の省略名称抽出装置と異なる。
[Third Embodiment] FIG. 7 is a block diagram showing a configuration of an abbreviated name extracting apparatus according to the present embodiment. This abbreviated name extraction device is different from the first device shown in FIG. 1 in that the processing device 2 further includes a formal name character string replacement unit 20 and the storage device 3 further includes a replacement character string pair storage unit 30.
This is different from the abbreviated name extracting device of the embodiment.

【0081】置換文字列対記憶部30は、正式名称が省
略名称となる際に、別な文字列に置換される可能性のあ
る文字列について、置換前の文字列と置換後の文字列と
を対にして記憶している。
When the formal name becomes an abbreviated name, the replacement character string pair storage unit 30 stores a character string before replacement and a character string after replacement for a character string that may be replaced with another character string. Are stored in pairs.

【0082】正式名称文字列置換手段20は、置換文字
列対記憶部30に記憶されている置換で、正式名称記憶
部31から読み出した正式名称に対し適用可能なものを
正式名称に適用する。そして、置換を行っていない正式
名称と、可能なすべての組み合わせの置換結果を1つ1
つ対象文字列として、省略名称候補検出手段21に渡
す。
The formal name character string replacing means 20 applies to the formal name a replacement stored in the replacement character string pair storage unit 30 that is applicable to the formal name read from the formal name storage unit 31. Then, the formal names that have not been replaced and the replacement results for all possible combinations are
It is passed to the abbreviated name candidate detecting means 21 as one target character string.

【0083】また、本実施の形態にかかる省略名称抽出
装置においては、省略名称候補検出手段21は、正式名
称記憶部31を直接参照せず、正式名称文字列置換手段
20より受け取った対象文字列に対して処理を行う。
Further, in the abbreviated name extracting device according to the present embodiment, the abbreviated name candidate detecting means 21 does not directly refer to the formal name storage unit 31 but the target character string received from the formal name character string replacing means 20. Perform processing for.

【0084】なお、本実施の形態では、正式名称文字列
置換手段20、省略名称候補検出手段21、省略名称候
補抽出手段22、省略名称選択手段23は、処理装置2
に備え付けられている必要はなく、処理装置2を制御す
るためのプログラムとして、CD−ROMやフロッピー
ディスクなどの記録媒体に格納して提供され、処理装置
2に読み込まれて実行されるものとしてもよい。
In the present embodiment, the formal name character string replacing means 20, the abbreviated name candidate detecting means 21, the abbreviated name candidate extracting means 22, and the abbreviated name selecting means 23 are provided by the processing device 2
It is not necessary to provide the program for controlling the processing device 2 by storing the program in a recording medium such as a CD-ROM or a floppy disk and reading the program into the processing device 2 to execute the program. Good.

【0085】また、置換文字列対記憶部30、正式名称
記憶部31、名詞記憶部32は、記憶装置3に予め備え
られている必要はなく、CD−ROMやフロッピーディ
スクなどの記録媒体に格納して提供され、処理装置2が
この記録媒体にアクセスするものとしてもよい。
The replacement character string pair storage unit 30, formal name storage unit 31, and noun storage unit 32 do not need to be provided in the storage device 3 in advance, and are stored in a recording medium such as a CD-ROM or a floppy disk. The processing device 2 may access the recording medium.

【0086】以下、図8のフローチャートを参照して、
本実施の形態の省略名称抽出装置における動作について
説明する。
Hereinafter, referring to the flowchart of FIG.
The operation of the abbreviated name extraction device according to the present embodiment will be described.

【0087】図8に示す処理において、ステップC1お
よびC5〜C12の処理は、ステップC5の判定で対象
文字列の第1文字が入力文書中に存在しなかった場合の
進み先がステップC3である点を除き、それぞれ、図2
のステップA1およびステップA3−A10で示される
第1の実施の形態の動作と同一のため、説明は省略す
る。
In the processing shown in FIG. 8, the processing in steps C1 and C5 to C12 proceeds to step C3 when the first character of the target character string does not exist in the input document in the determination in step C5. Figure 2
Since the operation is the same as that of the first embodiment shown in step A1 and steps A3-A10, description thereof will be omitted.

【0088】第1の実施の形態では、ステップA2にお
いて、省略名称候補検出手段21が、正式名称記憶部3
0から正式名称を1つ読み出して、対象文字列としてい
たが、本実施の形態では、まず、正式名称文字列置換手
段20が、正式名称記憶部30から、対象文字列とし
て、正式名称を1つ読み出す(ステップC2)。続い
て、置換文字列対記憶部30を参照し、対象文字列に適
用可能な置換パターンがまだ残っているかどうかを判定
する(ステップC3)。
In the first embodiment, in step A2, the abbreviated name candidate detecting means 21
Although one formal name is read from 0 and used as the target character string, in the present embodiment, first, the formal name character string replacement unit 20 reads the formal name from the formal name storage unit 30 as the target character string as 1 as the target character string. (Step C2). Subsequently, it is determined whether or not the replacement pattern applicable to the target character string still remains by referring to the replacement character string pair storage unit 30 (step C3).

【0089】このとき、置換パターンとしては、単に、
置換文字列対記憶部30に格納されている置換文字列対
をパターンとするだけでなく、対象文字列に適用可能な
置換文字列対のすべての組み合わせを全置換パターンと
して処理する。全置換パターンに対して処理が終了して
いない場合には、正式名称文字列置換手段20が、未処
理の置換パターンを対象文字列に適用し、その結果を省
略名称候補検出手段21に渡す(ステップC4)。
At this time, the replacement pattern is simply
Not only are the replacement character string pairs stored in the replacement character string pair storage unit 30 used as patterns, but all combinations of replacement character string pairs applicable to the target character string are processed as all replacement patterns. If the processing has not been completed for all the replacement patterns, the formal name character string replacement unit 20 applies the unprocessed replacement pattern to the target character string, and passes the result to the abbreviated name candidate detection unit 21 ( Step C4).

【0090】ステップC4−C12の処理が、全置換パ
ターンに対して終了すると、ステップC3の判定の後、
ステップC13に進む。この場合、正式名称文字列置換
手段20は、対象文字列とした正式名称に一切置換を行
わずに、省略名称候補検出手段22に渡し、省略名称候
補検出手段21、省略名称候補抽出手段22、省略名称
選択手段23が、ステップC5−C12の処理を行う。
このとき、ステップC5の処理で対象文字列の第1文字
がもう入力文書中に存在しなくなったときにはステップ
C1へと戻り、次の正式名称があれば、それに対する処
理を行い、なければ処理を終了するようにする。
When the processing in steps C4-C12 is completed for all the replacement patterns, after the determination in step C3,
Proceed to step C13. In this case, the formal name character string replacement means 20 passes the formal name as the target character string to the abbreviated name candidate detecting means 22 without performing any replacement, and abbreviated name candidate detecting means 21, abbreviated name candidate extracting means 22, The abbreviated name selection unit 23 performs the processing of steps C5 to C12.
At this time, if the first character of the target character string is no longer present in the input document in the processing of step C5, the process returns to step C1, and if there is a next formal name, the processing is performed on the next formal name. To end.

【0091】以下、本実施の形態の省略名称抽出装置に
おける動作について、具体的な実施例を用いて説明す
る。
Hereinafter, the operation of the abbreviated name extracting device of the present embodiment will be described using a specific example.

【0092】今、例えば、正式名称記憶部31には、図
9に示す2つの文字列が、正式名称として記憶されてい
る。また、置換文字列対記憶部30には、図10に示す
2組の文字列対が記憶されている。ただし、図10にお
いて「ε」は、空文字列を表すものとする。このとき、
この装置に、「(株)AB工業は、DVDプレーヤーを
発売した。」という文が入力されたとする。
Now, for example, the formal name storage unit 31 stores two character strings shown in FIG. 9 as formal names. The replacement character string pair storage unit 30 stores two sets of character string pairs shown in FIG. However, in FIG. 10, “ε” represents an empty character string. At this time,
It is assumed that the sentence "AB Industries, Ltd. has released a DVD player" is input to this device.

【0093】正式名称記憶部31には、正式名称が2つ
あるので、最初のステップC1の判定では、ステップC
2へと進む。正式名称文字列置換手段20は、正式名称
記憶部31より、対象文字列として、正式名称を1つ読
み出す(ステップC2)。この例の場合、「株式会社A
B工業」という文字列が対象文字列として読み出され
る。正式名称文字列置換手段20は、続いて、置換文字
列対記憶部30を参照し、対象文字列に適用可能な置換
パターンがまだ残っているかどうかを判定する(ステッ
プC3)。
Since the formal name storage unit 31 has two formal names, the first determination in step C1 is
Proceed to 2. The formal name character string replacement means 20 reads one formal name as the target character string from the formal name storage unit 31 (step C2). In this example, "A
The character string "B Industry" is read as the target character string. Subsequently, the formal name character string replacement unit 20 refers to the replacement character string pair storage unit 30 and determines whether a replacement pattern applicable to the target character string still remains (step C3).

【0094】この例の場合、置換文字列対記憶部30に
は、「株式会社AB工業」に適用可能な置換として、
「株式会社」を空文字列に置き換える置換と、「株式会
社」を「(株)」に置き換えるパターンしか存在しない
ので、全置換パターンとしては、これらの置換2つが対
応する。そこで、正式名称文字列置換手段20は、最初
の「株式会社」を空文字列に置き換える置換を対象文字
列に適用し(ステップC4)、得られた文字列「AB工
業」を対象文字列として省略名称候補検出手段21に渡
す。
In the case of this example, the replacement character string pair storage section 30 stores, as replacements applicable to “AB Kogyo Co., Ltd.”,
Since there is only a replacement for replacing “stock” with an empty character string and a pattern for replacing “stock” with “(stock)”, these two replacements correspond to the entire replacement pattern. Therefore, the formal name character string replacing means 20 applies the replacement for replacing the first "stock" with an empty character string to the target character string (step C4), and omits the obtained character string "AB Kogyo" as the target character string. The name is passed to the name candidate detecting means 21.

【0095】ステップC5では、入力文中の第4文字目
に「A」という文字が存在するため、ステップC6へと
進み、省略名称候補抽出手段22が、ステップC7−C
10の処理で、「AB工業」という文字列を抽出する。
In step C5, since the character "A" is present as the fourth character in the input sentence, the process proceeds to step C6, where the abbreviated name candidate extracting means 22 executes step C7-C.
In the process of step 10, a character string "AB Kogyo" is extracted.

【0096】ステップC11で、省略名称候補選択手段
23が、「AB工業」という文字列が、名詞記憶部32
に存在するかどうかを判定する。今、名詞記憶部32に
「AB工業」という文字列が存在しないとすると、省略
名称候補選択手段23は、ステップC12で、省略名称
「AB工業」を正式名称「株式会社AB工業」に対応づ
けて出力し、ステップC5に戻る。
At step C11, the abbreviated name candidate selecting means 23 stores the character string "AB Kogyo"
To determine if it exists. Now, assuming that the character string “AB Kogyo” does not exist in the noun storage unit 32, the abbreviated name candidate selecting unit 23 associates the abbreviated name “AB Kogyo” with the formal name “AB Kogyo Co., Ltd.” in step C12. And the process returns to step C5.

【0097】対象文字列の第1文字「A」は、入力文中
の残りの部分に存在しないので、ステップC5から、さ
らにステップC3へと戻る。まだ、「株式会社」を
「(株)」に置き換えるパターンが残っているため、再
びステップC4へと進み、この置換を対象文字列に適用
し、得られた文字列「(株)AB工業」を対象文字列と
して省略名称候補検出手段21に渡す。
Since the first character "A" of the target character string does not exist in the rest of the input sentence, the process returns from step C5 to step C3. Since there is still a pattern for replacing "stock company" with "(stock)", the process proceeds to step C4 again, and this replacement is applied to the target character string, and the obtained character string "(AB) CO., LTD." Is passed to the abbreviated name candidate detecting means 21 as a target character string.

【0098】ステップC5では、入力文中の第1文字目
に「(」という文字が存在するため、ステップC6へと
進み、省略名称候補抽出手段22が、ステップC7−C
10の処理で、「(株)AB工業」という文字列を抽出
する。
In step C5, since the character "(" exists as the first character in the input sentence, the process proceeds to step C6, in which the abbreviated name candidate extracting means 22 executes step C7-C.
In the process of step 10, a character string "AB INDUSTRY CO., LTD." Is extracted.

【0099】ステップC11では、省略名称候補選択手
段23が、「(株)AB工業」という文字列が、名詞記
憶部32に存在するかどうかを判定する。今、名詞記憶
部32に「(株)AB工業」という文字列が存在しない
とすると、省略名称候補選択手段23は、ステップC1
2で、省略名称「(株)AB工業」を正式名称「株式会
社AB工業」に対応づけて出力し、ステップC5に戻
る。
In step C11, the abbreviated name candidate selecting means 23 determines whether or not the character string “AB INDUSTRY CO., LTD.” Exists in the noun storage unit 32. Now, assuming that there is no character string "AB INDUSTRY CO., LTD." In the noun storage unit 32, the abbreviated name candidate selection unit 23 proceeds to step C1.
In step 2, the abbreviated name "AB Kogyo Co., Ltd." is output in association with the official name "AB Kogyo Co., Ltd.", and the process returns to step C5.

【0100】対象文字列の第1文字「(」は、入力文中
の残りの部分に存在しないので、ステップC5から、さ
らにステップC3へと戻る。これで全置換パターンに対
する処理が終了しているので、今度はステップC13へ
と進む。ステップ13では、正式名称文字列置換手段2
0が、正式名称「株式会社AB工業」をそのまま対象文
字列として省略名称候補検出手段21に渡し、省略名称
候補検出手段21、省略名称候補抽出手段22、省略名
称選択手段23が、ステップC5−C12の処理を行
う。
Since the first character "(" of the target character string does not exist in the rest of the input sentence, the process returns from step C5 to step C3, and the processing for all the replacement patterns has been completed. This time, the process proceeds to step C 13. In step 13, the formal name character string replacement unit 2
0 passes the formal name "AB Kogyo Co., Ltd." as the target character string to the abbreviated name candidate detecting means 21 as it is, and the abbreviated name candidate detecting means 21, the abbreviated name candidate extracting means 22, and the abbreviated name selecting means 23 perform step C5- The process of C12 is performed.

【0101】この例では、対象文字列の第1文字「株」
が入力文中の第2文字目に存在するが、次の文字「)」
は、対象文字列中にない文字列なので、省略名称尾候補
としては「株」が取り出され、これは2文字以上ではな
いので、何も出力されずにステップC1へと戻る。
In this example, the first character "stock" of the target character string is
Exists in the second character of the input sentence, but the next character ")"
Is a character string that is not in the target character string, "stock" is extracted as an abbreviated name tail candidate. Since this is not more than two characters, nothing is output and the process returns to step C1.

【0102】正式名称記憶部31には、未処理の正式名
称「CD通信株式会社」が残っているので、ステップC
1の判定では、ステップC2へと進み、正式名称文字列
置換手段20が、「CD通信株式会社」を対象文字列と
して読み出す。この対象文字列に適用可能な置換パター
ンは、「株式会社」を空文字列に置き換える置換と、
「株式会社」を「(株)」に置き換えるパターンしか存
在しないので、全置換パターンとしては、これらの置換
2つが対応し、ステップC4で「CD通信」および「C
D通信(株)」という文字列が生成されて、それぞれを
対象文字列として、ステップC5−C12の処理が行わ
れる。
Since the unprocessed official name “CD Communication Co., Ltd.” remains in the official name storage unit 31, step C
In the determination of 1, the process proceeds to step C2, and the formal name character string replacement means 20 reads "CD Communication Co., Ltd." as the target character string. The replacement patterns applicable to this target character string include a substitution for replacing "stock company" with an empty character string,
Since there is only a pattern for replacing “stock company” with “(stock)”, these two replacements correspond as a total replacement pattern, and “CD communication” and “C
A character string "D Communication Co., Ltd." is generated, and the processing of steps C5-C12 is performed using each of them as a target character string.

【0103】この例では、「C」という文字が入力文中
に存在しないので何も出力されない。続いて、ステップ
C13において、置換を行わない「CD通信株式会社」
を対象文字列としてC5−C12の処理が行われるが、
この処理でも同様にして何も出力されず、ステップC1
に戻る。ここでは、すべての正式名称について処理が終
わっているため、これですべての処理を終了する。
In this example, nothing is output since the character "C" does not exist in the input sentence. Subsequently, in step C13, "CD Communication Co., Ltd."
The processing of C5 to C12 is performed using
In this process, nothing is output in the same manner, and step C1
Return to In this case, since the processing has been completed for all the official names, all the processing ends.

【0104】この例では、正式名称「株式会社AB工
業」に対して、正式名称に存在しない「(」や「)」を
含む「(株)AB工業」や、正式名称の第1文字を含ま
ない「AB工業」が抽出されている。
In this example, the formal name "AB Kogyo Co., Ltd." includes "(AB) Co., Ltd." including "(" and ")" which does not exist in the formal name, and the first character of the formal name. No "AB industry" has been extracted.

【0105】以上説明したように、本実施の形態にかか
る省略名称抽出装置では、正式名称中のある文字列を別
の文字列に置換したものを対象として省略名称を抽出す
ることができる。このため、省略名称が正式名称を構成
する文字以外を含む場合でも、省略名称を抽出すること
ができる。また、本実施の形態では、置換後の文字列を
空文字列とすることによって、正式名称中の一部を削除
した文字列を対象として省略名称を抽出することができ
る。このため、特に、正式名称中の先頭に含まれるが、
省略されることが多い文字列を予め削除して対象文字列
とすることで、正式名称の先頭の文字を含まない省略名
称でも抽出することが可能となる。
As described above, the abbreviated name extracting apparatus according to the present embodiment can extract the abbreviated name by replacing one character string in the formal name with another character string. Therefore, even when the abbreviated name includes characters other than the characters constituting the formal name, the abbreviated name can be extracted. Further, in the present embodiment, the abbreviated name can be extracted for a character string in which a part of the formal name has been deleted by setting the character string after replacement to an empty character string. For this reason, in particular, it is included at the beginning of the official name,
By deleting a character string that is often omitted in advance and setting it as a target character string, it is possible to extract an abbreviated name that does not include the first character of the formal name.

【0106】なお、第3の実施の形態は、第1の実施の
形態にかかる省略名称抽出装置に正式名称文字列置換手
段20と置換文字列対記憶部30を加えたものとして説
明したが、第2の実施の形態にかかる省略名称抽出装置
に同様の拡張を加えた構成も可能である。
In the third embodiment, the formal name character string replacement unit 20 and the replacement character string pair storage unit 30 are added to the abbreviated name extraction device according to the first embodiment. A configuration in which a similar extension is added to the abbreviated name extraction device according to the second embodiment is also possible.

【0107】[0107]

【発明の効果】以上説明したように、本発明によれば、
形態素解析を用いることなく、省略名称の抽出を行うこ
とができる。また、抽出された省略名称から、その正式
名称を容易に得ることができることである。さらに、正
式名称の先頭の文字を含まない文字列を省略名称として
抽出しないようにすることができる。
As described above, according to the present invention,
Abbreviated names can be extracted without using morphological analysis. Also, the formal name can be easily obtained from the extracted abbreviated name. Furthermore, a character string that does not include the first character of the formal name can be prevented from being extracted as an abbreviated name.

【0108】また、省略名称前後字種検査手段(または
対応するステップ)を設けることにより、正式名称の短
縮形と見なせる文字列が、別な単語の一部として偶然出
現している場合には、その文字列を省略名称として出力
しないことである。
Further, by providing the abbreviation name before and after character type inspection means (or corresponding steps), if a character string that can be regarded as a shortened form of the formal name accidentally appears as a part of another word, That character string is not output as an abbreviated name.

【0109】また、正式名称文字列置換手段(または対
応するステップ)を設けることにより、省略名称が正式
名称を構成する文字以外を含む場合でも、省略名称を抽
出することができる。さらに、正式名称の先頭部分が省
略されやすい文字列の場合には、正式名称の先頭の文字
を含まない省略名称についても抽出できる。
By providing the formal name character string replacement means (or corresponding steps), even if the abbreviated name includes characters other than the characters constituting the formal name, the abbreviated name can be extracted. Further, in the case where the head of the formal name is a character string that can be easily omitted, an abbreviated name that does not include the first character of the formal name can be extracted.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態にかかる省略名称抽
出装置の構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of an abbreviated name extraction device according to a first embodiment of the present invention.

【図2】本発明の第1の実施の形態にかかる省略名称抽
出装置の動作を示す流れ図である。
FIG. 2 is a flowchart showing the operation of the abbreviated name extraction device according to the first embodiment of the present invention.

【図3】本発明の第1の実施の形態の具体例における正
式名称記憶部に記憶されているデータを示す図である。
FIG. 3 is a diagram showing data stored in a formal name storage unit in a specific example of the first embodiment of the present invention.

【図4】本発明の第1の実施の形態の具体例における名
詞記憶部に記憶されているデータを示す図である。
FIG. 4 is a diagram showing data stored in a noun storage unit in a specific example of the first embodiment of the present invention.

【図5】本発明の第2の実施の形態にかかる省略名称抽
出装置の構成を示すブロック図である。
FIG. 5 is a block diagram showing a configuration of an abbreviated name extraction device according to a second embodiment of the present invention.

【図6】本発明の第2の実施の形態にかかる省略名称抽
出装置の動作を示す流れ図である。
FIG. 6 is a flowchart showing an operation of the abbreviated name extraction device according to the second exemplary embodiment of the present invention.

【図7】本発明の第3の実施の形態にかかる省略名称抽
出装置の構成を示すブロック図である。
FIG. 7 is a block diagram illustrating a configuration of an abbreviated name extraction device according to a third embodiment of the present invention.

【図8】本発明の第3の実施の形態にかかる省略名称抽
出装置の動作を示す流れ図である。
FIG. 8 is a flowchart showing the operation of the abbreviated name extraction device according to the third embodiment of the present invention.

【図9】本発明の第3の実施の形態の具体例における置
換文字列対記憶部に記憶されているデータを示す図であ
る。
FIG. 9 is a diagram illustrating data stored in a replacement character string pair storage unit according to a specific example of the third embodiment of the present invention.

【図10】本発明の第3の実施の形態の具体例における
正式名称記憶部に記憶されているデータを示す図であ
る。
FIG. 10 is a diagram illustrating data stored in a formal name storage unit according to a specific example of the third embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 入力装置 2 処理装置 3 記憶装置 4 出力装置 20 正式名称文字列置換手段 21 省略名称候補検出手段 22 省略名称候補抽出手段 23 省略名称選択手段 24 省略名称前後字種検査手段 30 置換文字列対記憶部 31 正式名称記憶部 32 名詞記憶部 DESCRIPTION OF SYMBOLS 1 Input device 2 Processing device 3 Storage device 4 Output device 20 Formal name character string replacement means 21 Abbreviated name candidate detection means 22 Abbreviated name candidate extraction means 23 Abbreviated name selection means 24 Abbreviated name front and back character type inspection means 30 Replacement character string pair storage Part 31 Formal name storage part 32 Noun storage part

───────────────────────────────────────────────────── フロントページの続き (72)発明者 落合 尚良 神奈川県川崎市高津区坂戸3丁目2番1 号 株式会社エヌイーシー情報システム ズ内 (72)発明者 奥村 明俊 東京都港区芝五丁目7番1号 日本電気 株式会社内 (56)参考文献 特開 平3−131960(JP,A) 特開 平4−188364(JP,A) 特開 平10−177581(JP,A) 特開 平2−129756(JP,A) 特開 平6−19959(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Naora Ochiai 3-2-1, Sakado, Takatsu-ku, Kawasaki-shi, Kanagawa Prefecture Inside NEC Information Systems Corporation (72) Inventor Akitoshi Okumura 5-7-1 Shiba, Minato-ku, Tokyo No. 1 NEC Corporation (56) References JP-A-3-131960 (JP, A) JP-A-4-188364 (JP, A) JP-A-10-177581 (JP, A) JP-A-2- 129756 (JP, A) JP-A-6-19959 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/30 JICST file (JOIS)

Claims (11)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】省略名称の抽出対象となる文書を入力する
入力手段と、 抽出されるべき省略名称に対する正式名称を記憶する正
式名称記憶手段と、 省略名称以外の名詞を記憶する名詞記憶手段と、 前記正式名称記憶手段に記憶されている正式名称を取り
出し、該取り出した正式名称に対する省略名称の候補が
存在する前記入力手段から入力された文書中の場所とし
て、前記入力手段から入力された文書のうちで前記取り
出した正式名称の先頭文字と同一の文字が存在する位置
を検出する省略名称候補検出手段と、 前記省略名称候補検出手段が検出した場所を元に、前記
入力手段から入力された文書の前記省略名称候補検出手
段が検出した位置から文字を1文字ずつ順に抽出し、該
抽出した文字が前記取り出した正式名称を構成する文字
であり、かつ直前に取り出された文字よりも前記取り出
した正式名称中で後に出現する限り文字の抽出を続け、
抽出したすべての文字を順につなげた文字列を省略名称
の候補として抽出する省略名称候補抽出手段と、 前記省略名称候補抽出手段が抽出した省略名称の候補を
前記名詞記憶手段に記憶されている名詞と比較し、一致
するものがない場合に、該省略名称の候補を前記取り出
した正式名称に対する省略名称として選択する省略名称
選択手段と、前記省略名称選択手段が選択した省略名称
を、前記取り出した正式名称と対応付けて出力する出力
手段とを備えることを特徴とする省略名称抽出装置。
1. An input means for inputting a document from which an abbreviated name is to be extracted, a formal name storing means for storing a formal name corresponding to an abbreviated name to be extracted, and a noun storing means for storing a noun other than the abbreviated name. Extracting the formal name stored in the formal name storage means, and inputting the document input from the input means as a place in the document input from the input means in which a candidate for an abbreviated name corresponding to the extracted formal name exists. Abbreviated name candidate detecting means for detecting a position where the same character as the first character of the extracted formal name exists, and a location detected by the abbreviated name candidate detecting means, based on the location detected by the input means. The abbreviated name candidate detection method of the document
Characters are sequentially extracted one by one from the position detected by the column.
Characters whose extracted characters constitute the extracted formal name
And the extraction is more than the character just extracted.
Continue extracting characters as long as they appear later in the official name,
Abbreviated name of a character string that connects all the extracted characters in order
Abbreviated name candidate extracting means for extracting as a candidate for the abbreviation name; comparing the abbreviated name candidate extracted by the abbreviated name candidate extracting means with the noun stored in the noun storage means; Abbreviated name selecting means for selecting a name candidate as an abbreviated name for the extracted formal name; and output means for outputting the abbreviated name selected by the abbreviated name selecting means in association with the extracted formal name. An abbreviated name extraction device characterized by the above-mentioned.
【請求項2】前記省略名称候補抽出手段は、前記抽出し
たすべての文字を順につなげた文字列が2文字以上で構
成されている場合に、該文字列を省略名称の候補として
抽出することを特徴とする請求項に記載の省略名称抽
出装置。
2. The abbreviated name candidate extracting means, when a character string obtained by sequentially connecting all the extracted characters is composed of two or more characters, extracts the character string as an abbreviated name candidate. The abbreviated name extraction device according to claim 1 , wherein:
【請求項3】前記省略名称選択手段が選択した前記省略
名称の先頭及び末尾の文字と、前記入力手段から入力さ
れた文書中で該省略名称の前後にある文字との文字種が
それぞれ異なるかどうかを検査する省略名称前後字種検
査手段をさらに備え、 前記出力手段は、前記省略名称前後字種検査手段による
検査の結果、前記省略名称の候補と前記入力された文書
中におけるその前後の文字の文字種がいずれも異なる場
合に、前記省略名称候補選択手段が選択した省略名称を
前記取り出した正式名称と対応付けて出力することを特
徴とする請求項1または2に記載の省略名称抽出装置。
3. A method according to claim 1, wherein the first and last characters of said abbreviation name selected by said abbreviation name selection means are different in character type from characters before and after said abbreviation name in a document input from said input means. A short name before and after character type inspection means for inspecting, the output means, as a result of the inspection by the short name before and after character type inspection means, the candidate of the short name and the characters before and after in the input document 3. The abbreviated name extraction device according to claim 1, wherein, when the character types are different, the abbreviated name selected by the abbreviated name candidate selection unit is output in association with the extracted formal name.
【請求項4】正式名称を省略して省略名称とする際に、
正式名称の一部が置換される可能性のある文字列と対応
する置換後の文字列とを対応付けて記憶する置換文字列
対記憶手段と、 前記正式名称記憶手段に記憶されている正式名称に含ま
れる一部の文字列を、前記置換文字列記憶手段参照し
て、該一部の文字列に対応する置換後の文字列に置換す
る正式名称文字列置換手段とをさらに備え、 前記省略名称候補検出手段は、さらに前記正式名称文字
列置換手段によって一部の文字列が置換された正式名称
に基づいて、省略名称の候補が存在する文書中の場所を
検出することを特徴とする請求項1乃至のいずれか1
項に記載の省略名称抽出装置。
4. When an abbreviated name is omitted by omitting an official name,
A replacement character string pair storage means for storing a character string in which a part of the formal name is likely to be replaced and a corresponding replacement character string, and storing the formal name stored in the formal name storage means And a formal name character string replacing means for referring to the replacement character string storage means and replacing a part of the character string included in the character string with a replaced character string corresponding to the part of the character string. The name candidate detecting means further detects a place in the document where the abbreviated name candidate exists, based on the formal name in which a part of the character string has been replaced by the formal name character string replacing means. Any one of items 1 to 3
Abbreviated name extraction device described in section.
【請求項5】前記正式名称文字列置換手段は、前記取り
出した正式名称の先頭部分に含まれる特定の文字列を削
除する手段を備えることを特徴とする請求項に記載の
省略名称抽出装置。
5. The abbreviated name extracting apparatus according to claim 4 , wherein said formal name character string replacing means includes means for deleting a specific character string included in a leading part of the extracted formal name. .
【請求項6】省略名称の抽出対象となる文書を入力する
入力ステップと、 予め記憶されている正式名称を取り出し、該取り出した
正式名称に対する省略名称の候補が存在する前記入力ス
テップで入力された文書中の場所として、前記入力手段
から入力された文書のうちで前記取り出した正式名称の
先頭文字と同一の文字が存在する位置を検出する省略名
称候補検出ステップと、 前記省略名称候補検出ステップで検出された場所を元
に、前記入力ステップで入力された文書の前記検出した
位置から文字を1文字ずつ順に抽出し、該抽出し た文字
が前記取り出した正式名称を構成する文字であり、かつ
直前に取り出された文字よりも前記取り出した正式名称
中で後に出現する限り文字の抽出を続け、抽出したすべ
ての文字を順につなげた文字列を省略名称の候補として
抽出する省略名称候補抽出ステップと、 前記省略名称候補抽出ステップで抽出した省略名称の候
補を、予め記憶されている省略名称以外の名詞と比較
し、一致するものがない場合に、該省略名称の候補を前
記取り出した正式名称に対する省略名称として選択する
省略名称選択ステップと、 前記省略名称候補選択ステップで選択された省略名称
を、前記取り出した正式名称と対応付けて出力する出力
ステップとを含むことを特徴とする省略名称抽出方法。
6. An input step of inputting a document from which an abbreviated name is to be extracted, and extracting a formal name stored in advance and inputting in the input step in which an abbreviated name candidate for the extracted formal name exists. An abbreviated name candidate detecting step of detecting a position in the document input from the input means where a character identical to the first character of the extracted formal name exists as a place in the document; and Based on the detected location, the detected document of the input in the input step
Extract the characters one by one character from the position, extract out of character
Are characters constituting the extracted official name, and
The formal name retrieved above than the character just retrieved
Continue extracting characters as long as they appear later in
Abbreviated name candidate extracting step of extracting a character string obtained by connecting all the characters in order as an abbreviated name candidate; and abbreviated name stored in advance in the abbreviated name candidate extracted in the abbreviated name candidate extracting step. Abbreviated name selecting step of selecting the abbreviated name candidate as the abbreviated name for the extracted formal name when there is no match with nouns other than the abbreviation name selected in the abbreviated name candidate selecting step And outputting the abbreviated name in association with the extracted formal name.
【請求項7】前記省略名称候補選択ステップで選択され
た前記省略名称の先頭及び末尾の文字と、前記入力ステ
ップで入力された文書中で該省略名称の前後にある文字
との文字種がそれぞれ異なるかどうかを検査する省略名
称前後字種検査ステップをさらに含み、 前記出力ステップは、前記省略名称前後字種検査ステッ
プでの検査の結果、前記省略名称の候補と前記入力され
た場合におけるその前後の文字の文字種がいずれも異な
る場合に、前記省略名称候補選択ステップで選択された
省略名称を前記取り出した正式名称と対応付けて出力す
ることを特徴とする請求項に記載の省略名称抽出方
法。
7. The head and the end of the abbreviation name selected in the abbreviation name candidate selection step are different in character type from the characters before and after the abbreviation name in the document input in the input step. The abbreviation name before and after character type inspection step for checking whether or not the abbreviation name before and after when the input is input, as a result of the inspection in the abbreviation name before and after character type inspection step, 7. The abbreviated name extracting method according to claim 6 , wherein when the character types of the characters are all different, the abbreviated name selected in the abbreviated name candidate selecting step is output in association with the extracted formal name.
【請求項8】前記予め記憶されている正式名称に含まれ
る一部の文字列を、予め記憶されている正式名称を省略
名称とする際に置換される可能性がある置換前後の文字
列を参照して、該一部の文字列に対応する置換後の文字
列に置換する正式名称文字列置換ステップをさらに含
み、 前記省略名称候補検出ステップは、さらに前記正式名称
文字列置換ステップで一部の文字列が置換された正式名
称に基づいて、省略名称の候補が存在する文書中の場所
を検出することを特徴とする請求項またはに記載の
省略名称抽出方法。
8. A character string before and after replacement that may be replaced when a part of a character string included in the previously stored formal name is replaced with a previously stored formal name as an abbreviated name. The method further includes a formal name character string replacement step of replacing with a replaced character string corresponding to the part of the character string, and the abbreviated name candidate detection step further includes a part of the formal name character string replacement step. optional name extracting method according to claim 6 or 7 string based on the official name substituted, and detects the location in the document there is a candidate for shorthand designations.
【請求項9】省略名称の抽出対象となる文書を入力する
入力ステップと、 予め記憶されている正式名称を取り出し、該取り出した
正式名称に対する省略名称の候補が存在する前記入力ス
テップで入力された文書中の場所として、前記入力手段
から入力された文書のうちで前記取り出した正式名称の
先頭文字と同一の文字が存在する位置を検出する省略名
称候補検出ステップと、 前記省略名称候補検出ステップで検出された場所を元
に、前記入力ステップで入力された文書の前記検出した
位置から文字を1文字ずつ順に抽出し、該抽出した文字
が前記取り出した正式名称を構成する文字であり、かつ
直前に取り出された文字よりも前記取り出した正式名称
中で後に出現する限り文字の抽出を続け、抽出したすべ
ての文字を順につなげた文字列を省略名称の候補として
抽出する省略名称候補抽出ステップと、 前記省略名称候補抽出ステップで抽出した省略名称の候
補を、予め記憶されている省略名称以外の名詞と比較
し、一致するものがない場合に、該省略名称の候補を前
記取り出した正式名称に対する省略名称として選択する
省略名称選択ステップと、 前記省略名称候補選択ステップで選択された省略名称
を、前記取り出した正式名称と対応付けて出力する出力
ステップとを実行するプログラムを記録することを特徴
とするコンピュータ読み取り可能な記録媒体。
9. An input step of inputting a document from which an abbreviated name is to be extracted, and extracting a formal name stored in advance and inputting in the input step in which a candidate for an abbreviated name corresponding to the extracted formal name exists. An abbreviated name candidate detecting step of detecting a position in the document input from the input means where a character identical to the first character of the extracted formal name exists as a place in the document; and Based on the detected location, the detected document of the input in the input step
Characters are extracted one by one in order from the position, and the extracted characters are extracted.
Are characters constituting the extracted official name, and
The formal name retrieved above than the character just retrieved
Continue extracting characters as long as they appear later in
Abbreviated name candidate extracting step of extracting a character string obtained by connecting all the characters in order as an abbreviated name candidate; and abbreviated name stored in advance in the abbreviated name candidate extracted in the abbreviated name candidate extracting step. Abbreviated name selecting step of selecting the abbreviated name candidate as the abbreviated name for the extracted formal name when there is no match with nouns other than the abbreviation name selected in the abbreviated name candidate selecting step And an output step of outputting the program in association with the extracted formal name.
【請求項10】前記省略名称候補選択ステップで選択さ
れた前記省略名称の先頭及び末尾の文字と、前記入力ス
テップで入力された文書中で該省略名称の前後にある文
字との文字種がそれぞれ異なるかどうかを検査する省略
名称前後字種検査ステップを実行するプログラムをさら
に記録し、 前記出力ステップは、前記省略名称前後字種検査ステッ
プでの検査の結果、前記省略名称の候補と前記入力され
た場合におけるその前後の文字の文字種がいずれも異な
る場合に、前記省略名称候補選択ステップで選択された
省略名称を前記取り出した正式名称と対応付けて出力す
ることを特徴とする請求項に記載のコンピュータ読み
取り可能な記録媒体。
10. A character type of a character at the head and a character at the end of the abbreviated name selected in the abbreviated name candidate selecting step and characters before and after the abbreviated name in the document input in the inputting step are different from each other. A program for executing an abbreviation before and after character type inspection step for checking whether or not the abbreviation name before and after character type inspection step further includes a program for executing the abbreviation name before and after character type inspection step. If the character type of the characters before and after different both in the case, according abbreviation name selected by the abbreviated name candidate selection step to claim 9, characterized in that the output in association with the official name taken out the Computer readable recording medium.
【請求項11】前記予め記憶されている正式名称に含ま
れる一部の文字列を、予め記憶されている正式名称を省
略名称とする際に置換される可能性がある置換前後の文
字列を参照して、該一部の文字列に対応する置換後の文
字列に置換する正式名称文字列置換ステップを実行する
プログラムをさらに記録し、 前記省略名称候補検出ステップは、さらに前記正式名称
文字列置換ステップで一部の文字列が置換された正式名
称に基づいて、省略名称の候補が存在する文書中の場所
を検出することを特徴とする請求項または10に記載
のコンピュータ読み取り可能な記録媒体。
11. A character string before and after replacement which may be replaced when a part of a character string included in the formal name stored in advance is abbreviated to the formal name stored in advance. Referring to the program, the program further executes a program for performing a formal name character string replacement step of replacing the character string after replacement corresponding to the partial character string, wherein the abbreviated name candidate detecting step further includes the formal name character string. based on the official name some strings are substituted by replacing step, a computer-readable recording according to claim 9 or 10, characterized in that for detecting the location in the document there is a candidate for shorthand designations Medium.
JP24821498A 1998-09-02 1998-09-02 Abbreviated name extraction device, method and recording medium Expired - Lifetime JP3317904B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24821498A JP3317904B2 (en) 1998-09-02 1998-09-02 Abbreviated name extraction device, method and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24821498A JP3317904B2 (en) 1998-09-02 1998-09-02 Abbreviated name extraction device, method and recording medium

Publications (2)

Publication Number Publication Date
JP2000076293A JP2000076293A (en) 2000-03-14
JP3317904B2 true JP3317904B2 (en) 2002-08-26

Family

ID=17174888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24821498A Expired - Lifetime JP3317904B2 (en) 1998-09-02 1998-09-02 Abbreviated name extraction device, method and recording medium

Country Status (1)

Country Link
JP (1) JP3317904B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018359A (en) * 2005-07-08 2007-01-25 Sharp Corp Language processing device, language processing method and language processing program
JP5125404B2 (en) * 2007-10-23 2013-01-23 富士通株式会社 Abbreviation determination device, computer program, text analysis device, and speech synthesis device
CN110308898A (en) * 2019-07-06 2019-10-08 朱洪俊 It is a kind of that the gift book software systems of export printing are provided

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02129756A (en) * 1988-11-10 1990-05-17 Nippon Telegr & Teleph Corp <Ntt> Word collating device
JP2792147B2 (en) * 1989-10-18 1998-08-27 松下電器産業株式会社 Character processing method and device
JP2520195B2 (en) * 1990-11-22 1996-07-31 日本電信電話株式会社 Japanese sentence proper term extraction device
JP3230606B2 (en) * 1992-06-30 2001-11-19 株式会社エヌ・ティ・ティ・データ Proper noun identification method
JP3507936B2 (en) * 1996-12-18 2004-03-15 日本電信電話株式会社 Character string pattern extraction method and apparatus

Also Published As

Publication number Publication date
JP2000076293A (en) 2000-03-14

Similar Documents

Publication Publication Date Title
US9251294B2 (en) Method and system for approximate string matching
US5745745A (en) Text search method and apparatus for structured documents
EP0283685B1 (en) A spelling assistance method for compound words
US5268840A (en) Method and system for morphologizing text
JP3317904B2 (en) Abbreviated name extraction device, method and recording medium
US20240054288A1 (en) Inference Methods For Word Or Wordpiece Tokenization
JPS61156466A (en) Word extracting system
US8131537B2 (en) Apparatus and method for morphological analysis
JPH10162008A (en) Method and device for information retrieval
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2848430B2 (en) Information extraction method
JP2807236B2 (en) Morphological analysis method
JPS6394365A (en) Qualifying device for wrong document in japanese sentence
JP3924899B2 (en) Text search apparatus and text search method
JPH0267684A (en) Calibration supporting system and dictionary retrieving system
JP3508312B2 (en) Keyword extraction device
JPH0765008A (en) Word registration control method/device
JP4139805B2 (en) Apparatus, method and program for converting lexical data to data
JP3408007B2 (en) Morphological analyzer
JPH1185909A (en) Address recognizing method
JP2000222432A (en) Document retrieval device, document retrieval method and recording medium recording document retrieval program
JPH10240736A (en) Morphemic analyzing device
JPH07319891A (en) Document registration/retrieval system
JPH07210578A (en) Character string specifying system
JPH11175522A (en) Method for processing natural language and device therefor

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080614

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090614

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100614

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100614

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110614

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110614

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120614

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120614

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130614

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term