JP2012247948A - Dictionary management apparatus, dictionary management method and dictionary management program - Google Patents

Dictionary management apparatus, dictionary management method and dictionary management program Download PDF

Info

Publication number
JP2012247948A
JP2012247948A JP2011118449A JP2011118449A JP2012247948A JP 2012247948 A JP2012247948 A JP 2012247948A JP 2011118449 A JP2011118449 A JP 2011118449A JP 2011118449 A JP2011118449 A JP 2011118449A JP 2012247948 A JP2012247948 A JP 2012247948A
Authority
JP
Japan
Prior art keywords
notation
main part
dictionary
similar
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011118449A
Other languages
Japanese (ja)
Inventor
Hideaki Iwamoto
秀明 岩本
Tomohiro Tanaka
智博 田中
Masayuki Sugizaki
正之 杉崎
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011118449A priority Critical patent/JP2012247948A/en
Publication of JP2012247948A publication Critical patent/JP2012247948A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a high quality similarity search function for online dictionaries capable of reducing the load in dictionary management.SOLUTION: A similarity search section 3 searches a whole dictionary on the basis of an input notation made by a dictionary manager to identify a notation similar to the input notation. A main portion determination section 4 identifies a common portion between the similar notation identified by similarity search means and the input notation, and when the identified common portion is found in a main part dictionary, determines the common portion as a main part candidate. The main portion determination section 4 determines whether an additional part candidate, from which the main part candidate is excluded from the similar notation, is found in an additional part dictionary, and settles the main part candidate as a main part on the basis of the determination result. A distance calculation section 5 calculates an editorial distance between the main part of the determined similar notations and the main part of the input notation. An update check section 6 presents to the dictionary manager the similar notation, the main part and the additional part in order of the calculated editorial distance.

Description

本発明は、例えば店舗名、会社名、商品名あるいはブランド名などの固有名称のオンライン辞書(Web辞書、Web辞典)を構築運用・管理するための技術に関する。   The present invention relates to a technique for constructing, operating and managing an online dictionary (Web dictionary, Web dictionary) having a unique name such as a store name, a company name, a product name, or a brand name.

インターネット上には、非特許文献1.2に示すように、ユーザに言葉の意味の解説などを提供するオンライン辞書(以下、辞書とする。)が存在している。このような辞書、特に固有名称に関する辞書を構築する際には異なる名称表記であっても同一の固有実体を示している場合が少なくない。これをブランド名の固有名称に関する辞書の構築例に基づき説明する。ここではブランド名として次の表記A〜Fが存在するものとする。
A:ディオール(登録商標)
B:デイオール(登録商標)
C:クリスチャンデイオール(登録商標)
D:ディオールオム
E:ベビーディオール
F:フィオール
辞書管理者は、表記A〜Fのそれぞれが同一のブランドを示すか否かを判断しなければならない。そのため、固有名称の表記からなる辞書を構築運用あるいは管理するためには類似した表記を辞書管理者へ提示する類似検索機能が必要となる。
As shown in Non-Patent Document 1.2, there is an online dictionary (hereinafter referred to as a dictionary) that provides users with explanations of the meaning of words. When constructing such a dictionary, especially a dictionary related to proper names, there are many cases where the same proper entity is indicated even if different name notations are used. This will be described on the basis of an example of construction of a dictionary relating to a unique name of a brand name. Here, the following notations A to F exist as brand names.
A: Dior (registered trademark)
B: Dayall (registered trademark)
C: Christian Dayall (registered trademark)
D: Dior Homme E: Baby Dior F: Fior The dictionary administrator must determine whether each of the notations A-F represents the same brand. Therefore, in order to construct or operate a dictionary composed of notations of proper names, a similar search function that presents similar notations to the dictionary manager is required.

一般的に、このような類似検索には編集距離(レーベンシュタイン距離:Levenshtein Distance)が用いられている。この編集距離は、対比される表記(文字列)間の類似度(異なり具合)を定量化するための尺度を示す数値であり、文字の挿入/削除/置換で一方の表記を他方の表記に変形するための最小の編集手順回数とする。例えば対比される表記間で編集回数が多ければ、該表記間の編集距離は大きく、逆に該編集回数が小さければ、該表記間の編集距離は小さいと考えられる。   In general, an edit distance (Levenshtein distance) is used for such a similar search. This edit distance is a numerical value indicating a scale for quantifying the degree of similarity (difference) between contrasted notations (character strings), and one notation is replaced with the other notation by character insertion / deletion / replacement. The minimum number of editing steps required for transformation. For example, if the number of edits between the notations to be compared is large, the edit distance between the notations is large. Conversely, if the number of edits is small, the edit distance between the notations is considered to be small.

Figure 2012247948
Figure 2012247948

表1は、ブランド名「ディオール」に対する表記A〜Fの編集距離および編集内容を示している。ここでは表記Aの「ディオール」は、対比されるブランド名そのものであるから編集距離「0」・編集内容「なし」と示されている。表記Bの「デイオール」は、編集距離「1」が示され、編集内容に「ィ」から「イ」の置換が示されている。表記Cの「クリスチャンデイオール」は、編集距離「7」が示され、編集内容に「クリスチャン」の挿入と「ィ」から「イ」の置換とが示されている。表記Dの「ディオールオム」は、編集距離「2」が示され、編集内容に「オム」の挿入が示されている。表記Eの「ベビーディオール」は、編集距離「3」が示され、編集内容に「ベビー」の挿入が示されている。表記Fの「フィオール」は、編集距離「1」が示され、編集内容に「デ」から「フ」の置換が示されている。   Table 1 shows edit distances and edit contents of notations A to F for the brand name “Dior”. Here, “Dior” of the notation A is the brand name to be compared, and is therefore indicated as “0” for editing distance and “none” for editing content. The notation B “Day All” indicates the editing distance “1”, and the editing content indicates replacement of “i” to “i”. The notation C “Christian Day All” indicates the edit distance “7”, and the edited content indicates the insertion of “Christian” and the replacement of “i” to “i”. The notation D “Dior Homme” indicates the editing distance “2”, and the editing content indicates the insertion of “Om”. The notation E “Baby Dior” indicates the edit distance “3”, and the edit content indicates the insertion of “baby”. In “Fiore” of the notation F, the edit distance “1” is shown, and the edit content shows the replacement of “de” to “fu”.

もっとも、辞書管理者などの感覚によれば、表記Fの「フィオール」よりも表記Cの「クリスチャンデイオール」が対比される「ディオール」と同じブランド名を示すと考えられる。そこで、特許文献1に示すように、形態素解析技術や固有表現抽出技術を用いて、表記から不要部分を削除して類似検索を行う方法が提案されている。この特許文献1では、Webページ等のテキスト中の表現と辞書等のデータベースの項目とを同定するために、例えば「クリスチャン」や「オム」や「ベビー」などの一般語あるいは人名等を不用語として除去したうえで類似検索を行っている。   However, according to the feeling of a dictionary administrator or the like, it is considered that the same brand name as “Dior” in which “Christian Day All” in notation C is compared with “Fior” in notation F is shown. Therefore, as shown in Patent Document 1, a method has been proposed in which an unnecessary part is deleted from a notation and a similarity search is performed using a morphological analysis technique and a specific expression extraction technique. In this patent document 1, in order to identify expressions in texts such as Web pages and database items such as dictionaries, general terms such as “Christian”, “Om”, “Baby”, etc. A similar search is performed after removing.

特開2010−182082JP2010-182082

”goo辞書”,「online」 「平成23年5月11日検索」,インターネット<URL:http://dictionary.goo.ne.jp>“Goo dictionary”, “online” “May 11, 2011 search”, Internet <URL: http://dictionary.goo.ne.jp> ”YAHOO!辞書”,「online」 「平成23年5月11日検索」,インターネット<URL:http://dic.yahoo.co.jp>“YAHOO! Dictionary”, “online” “Search May 11, 2011”, Internet <URL: http://dic.yahoo.co.jp>

しかしながら、特許文献1の方法によれば、一般語の辞書や人名や地名等固有名称の辞書など、さらに別の辞書を構築運用・管理しなければならず、却って辞書管理の負担を増大させるおそれがある。   However, according to the method of Patent Document 1, it is necessary to construct and operate and manage another dictionary such as a dictionary for general words and a dictionary for unique names such as person names and place names, which may increase the burden of dictionary management. There is.

本発明は、上述のような従来技術の問題点を解決するためになされたものであり、辞書管理の負担を軽減させた高品質な類似検索機能を提供することを解決課題としている。   The present invention has been made in order to solve the above-described problems of the prior art, and an object of the present invention is to provide a high-quality similarity search function that reduces the burden of dictionary management.

そこで、本発明は、辞書表記を主要部と付加部とに分けて主要部の表記の相違(編集距離)を算出する。この算出順に辞書管理者に類似検索結果を提示することで辞書管理者に辞書の更新を確認する。   Therefore, the present invention calculates the difference (editing distance) in the notation of the main part by dividing the dictionary notation into the main part and the additional part. By presenting similar search results to the dictionary manager in this calculation order, the dictionary manager is confirmed to update the dictionary.

本発明の辞書管理装置としての一態様は、辞書管理者の入力表記に基づきオンライン辞書を検索し、該入力表記に類似する類似表記を特定する類似検索手段と、類似検索手段で特定された類似表記と入力表記とに対して、それぞれの表記の主要部を特定する主要部特定手段と、主要部特定手段で特定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出手段と、距離算出手段で算出された編集距離順に類似表記を辞書管理者に提示する更新確認手段と、を備える。   One aspect of the dictionary management apparatus of the present invention is to search an online dictionary based on an input notation of a dictionary manager, and to specify a similar notation similar to the input notation, and a similarity specified by the similar search means For the notation and the input notation, the main part specifying means for specifying the main part of each notation and the edit distance between the main part of each similar notation specified by the main part specifying means and the main part of the input notation are calculated. A distance calculating means for updating the information, and an update checking means for presenting similar notations to the dictionary manager in the order of edit distances calculated by the distance calculating means.

本発明の辞書管理装置としての他の態様は、オンライン辞書の各表記を主要部と付加部とに区別し、オンライン辞書を前記各表記に基づく全体辞書・前記各表記の主要部に基づく主要部辞書・前記各表記の付加部に基づく付加部辞書として構築運用・管理する。この装置は、辞書管理者の入力表記に基づき全体辞書を検索し、該入力表記に類似する表記を特定する類似検索手段と、類似検索手段で特定された類似表記と入力表記との共通部分を特定する共通部特定手段と、共通部特定手段で特定された共通部分が主要部辞書に存在すれば、該共通部分を類似表記・入力表記の主要部候補と判定する主要部判定手段と、主要部判定手段で判定された主要部候補を類似表記・入力表記から除外した付加部候補が付加部辞書すれば、類似表記の付加部と判定する付加部判定手段と、付加部判定手段の判定結果に応じて主要部候補を主要部と確定する主要部確定手段と、主要部確定手段で確定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出手段と、距離算出手段で算出された編集距離順に類似表記・類似表記の主要部・類似表記の付加部を辞書管理者に提示する更新確認手段と、を備える。   Another aspect of the dictionary management apparatus of the present invention distinguishes each notation of the online dictionary into a main part and an additional part, and the online dictionary is an overall dictionary based on each notation / a main part based on the main part of each notation Build and operate as an additional part dictionary based on the dictionary and the additional part of each notation. This device searches the entire dictionary based on the input notation of the dictionary manager, specifies similar notation similar to the input notation, and a common part between the similar notation specified by the similar search means and the input notation. A common part identifying means for identifying, a main part determining means for determining that the common part is a candidate for a main part of similar notation / input notation if a common part specified by the common part specifying means is present in the main part dictionary; If the additional part candidate obtained by excluding the main part candidate determined by the part determining means from the similar notation / input notation is an additional part dictionary, the additional part determining means for determining the additional part of the similar notation and the determination result of the additional part determining means A main part determination means for determining a main part candidate as a main part in accordance with, a distance calculation means for calculating an edit distance between a main part of each similar notation determined by the main part determination means and a main part of the input notation, Hen calculated by distance calculation means In order of distance includes a update confirmation means for presenting the additional portion of the main portion and the similar notation similar notation, similar notation to the dictionary administrator, the.

本発明の辞書管理方法としての一態様は、辞書管理者の入力表記に基づきオンライン辞書を検索し、該入力表記に類似する類似表記を特定する類似検索ステップと、類似検索ステップで特定された類似表記と入力表記とに対して、それぞれの表記の主要部を特定する主要部特定ステップと、主要部特定ステップで特定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出ステップと、距離算出ステップで算出された編集距離順に類似表記を辞書管理者に提示する更新確認ステップと、を有する。   One aspect of the dictionary management method of the present invention is to search an online dictionary based on a dictionary manager's input notation, and to specify a similar notation similar to the input notation, and a similarity specified in the similarity search step For the notation and the input notation, the main part specifying step for specifying the main part of each notation and the edit distance between the main part of each similar notation specified in the main part specifying step and the main part of the input notation are calculated. A distance calculation step, and an update confirmation step of presenting similar notations to the dictionary manager in the order of the edit distance calculated in the distance calculation step.

本発明の辞書管理方法としての他の態様は、オンライン辞書の各表記を主要部と付加部とに区別し、オンライン辞書を前記各表記に基づく全体辞書・前記各表記の主要部に基づく主要部辞書・前記各表記の付加部に基づく付加部辞書として構築運用・管理する。この方法は、辞書管理者の入力表記に基づき全体辞書を検索し、該入力表記に類似する表記を特定する類似検索ステップと、類似検索ステップで特定された類似表記と入力表記との共通部分を特定する共通部特定ステップと、共通部特定ステップで特定された共通部分が主要部辞書に存在すれば、該共通部分を類似表記・入力表記の主要部候補と判定する主要部判定ステップと、主要部判定ステップで判定された主要部候補を類似表記・入力表記から除外した付加部候補が付加部辞書に存在するか否かを判定する付加部判定ステップと、付加部判定ステップの判定結果に応じて主要部候補を主要部と確定する主要部確定ステップと、主要部確定ステップで確定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出ステップと、距離算出ステップで算出された編集距離順に類似表記・類似表記の主要部・類似表記の付加部を辞書管理者に提示する更新確認ステップと、を有する。   Another aspect of the dictionary management method of the present invention distinguishes each notation of the online dictionary into a main part and an additional part, and the online dictionary is an entire dictionary based on each notation / a main part based on the main part of each notation Build and operate as an additional part dictionary based on the dictionary and the additional part of each notation. In this method, the entire dictionary is searched based on the input notation of the dictionary manager, a similar search step for specifying a notation similar to the input notation, and a common part between the similar notation specified in the similar search step and the input notation A common part identifying step to be identified; a main part determining step for determining that the common part is a candidate for a main part of similar notation / input notation if the common part identified in the common part identifying step is present in the main part dictionary; Depending on the determination result of the additional part determination step and the additional part determination step for determining whether or not the additional part candidate that is excluded from the similar notation / input notation exists in the additional part dictionary. The main part determination step for determining the main part candidate as the main part and the distance calculation step for calculating the edit distance between the main part of each similar notation and the main part of the input notation determined in the main part determining step. Tsu has a flop, and the update confirmation step of presenting an additional part to the dictionary administrator of the main part-similar representation of the distance calculation similar notation, similar notation in the edit order of distance calculated in step, the.

前記主要部確定手段と前記主要部確定ステップの一態様は、前記判定結果が付加部辞書に存在することを示していれば主要部候補を主要部として確定する。一方、前記判定結果が付加部辞書に存在しないことを示していれば全体辞書の項目中、主要部候補に付加部候補を加えた表記の件数と主要部候補のみの件数とを計数し、件数が一致していれば、主要部候補に付加部候補を加えた表記を類似表記の主要部と確定する。この件数が一致していなければ主要部候補が類似表記として存在するか否かを確認し、類似表記として存在していれば主要部候補を主要部として確定する
なお、本発明は、前記装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
In one aspect of the main part determining means and the main part determining step, the main part candidate is determined as the main part if the determination result indicates that the additional part dictionary exists. On the other hand, if the determination result indicates that it does not exist in the additional part dictionary, the number of notations in which the additional part candidate is added to the main part candidate and the number of only the main part candidate are counted in the items of the entire dictionary. If they match, the notation obtained by adding the additional part candidate to the main part candidate is determined as the main part of the similar notation. If this number does not match, it is confirmed whether or not the main part candidate exists as a similar notation, and if it exists as a similar notation, the main part candidate is determined as the main part. It is good also as an aspect of the program which functions a computer. This program can be provided through a network or a recording medium.

本発明によれば、辞書管理の負担を軽減させた高品質な類似検索機能が提供できる。   According to the present invention, it is possible to provide a high-quality similarity search function that reduces the burden of dictionary management.

本発明の実施形態に係る辞書管理装置の機能ブロック図。The functional block diagram of the dictionary management apparatus which concerns on embodiment of this invention. 同 全体処理フロー図。The overall process flow diagram. 図2の辞書管理の詳細を示すフロー図。The flowchart which shows the detail of the dictionary management of FIG. 図3の主要部特定ステップの詳細を示すフロー図。The flowchart which shows the detail of the principal part specific step of FIG.

以下、本発明の実施形態に係る辞書管理装置を説明する。この装置1は、図1に示すように、辞書管理者から入力された表記(以下、入力表記とする。)に基づき辞書2を類似検索する機能を果たし、該類似検索の検索結果を辞書管理者に提示することで辞書の更新を確認している。   Hereinafter, a dictionary management apparatus according to an embodiment of the present invention will be described. As shown in FIG. 1, the device 1 performs a function of performing a similar search on the dictionary 2 based on a notation (hereinafter referred to as an input notation) input from a dictionary manager, and manages the search result of the similar search. The update of the dictionary is confirmed by presenting it to the user.

すなわち、前記装置1は、Webサイトにおける辞書2の構築運用・管理に使用されている。ここでは前記装置1は、前記Webサイトのサーバにより構成され、通常のコンピュータのハードウェアリソース、例えば中央演算装置(CPUなど)や記憶装置(メモリやハードディスクドライブ装置など)などを備える。   That is, the device 1 is used for the construction operation and management of the dictionary 2 on the Web site. Here, the device 1 is configured by a server of the Web site, and includes hardware resources of a normal computer such as a central processing unit (CPU or the like), a storage device (memory or a hard disk drive device or the like), and the like.

このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記装置1は、図2に示すように、辞書管理者の入力表記に従って辞書2を類似検索する類似検索部3と、該類似検索部3により検索された類似表記および入力表記の主要部を特定する主要部特定部4と、主要部特定部4により特定された各類似表記の主要部と入力表記との編集距離を算出する距離算出部5と、距離算出部5により算出された編集距離順に類似表記を辞書管理者に提示して更新確認をする更新確認部6とを実装する。以下、前記装置1の辞書管理の処理内容を説明する。   As a result of the cooperation between the hardware resource and the software resource (OS. Application, etc.), as shown in FIG. 2, the apparatus 1 has a similarity search unit 3 that searches the dictionary 2 according to the input notation of the dictionary manager. The main part specifying part 4 for specifying the main part of the similar notation and the input notation searched by the similarity searching part 3, and the editing distance between the main part of each similar notation specified by the main part specifying part 4 and the input notation And an update confirmation unit 6 that presents similar notations to the dictionary manager in the order of edit distances calculated by the distance calculation unit 5 and performs update confirmation. Hereinafter, the processing contents of dictionary management of the apparatus 1 will be described.

≪辞書管理の内容≫
前記装置1は、図3に示すように、辞書2の表記を主要部と付加部とに分割し、辞書2を全体辞書2a・主要部辞書2b・付加部辞書2cの3つの辞書に分けて管理する。この辞書管理では、類似表記を辞書管理者に提示するにあたって編集距離に基づいて入力表記・類似表記間の距離を評価すると同時に該各表記を主要部と付加部とに分割する。
≪Contents of dictionary management≫
As shown in FIG. 3, the device 1 divides the notation of the dictionary 2 into a main part and an additional part, and divides the dictionary 2 into three dictionaries: an overall dictionary 2a, a main part dictionary 2b, and an additional part dictionary 2c. to manage. In this dictionary management, when the similar notation is presented to the dictionary manager, the distance between the input notation and the similar notation is evaluated based on the editing distance, and at the same time, each notation is divided into a main part and an additional part.

この主要部の編集距離が小さい順に辞書管理者に提示し、類似表記が同一実体を指し示すか否かを辞書管理者に確認し、確認の事実を記録する。このとき類似表記中の主要部と付加部も同様に確認・記録され、それらの確認結果を前記各辞書2a.2b.2cに反映させることで、次回の類似検索および主要部・付加部の分割精度を向上させている。以下、前記装置1の具体的な辞書管理(S01〜S04)を説明する。   It is presented to the dictionary manager in ascending order of the editing distance of the main part, the dictionary manager is confirmed whether similar notation indicates the same entity, and the fact of confirmation is recorded. At this time, the main part and the additional part in the similar notation are also confirmed and recorded in the same manner, and the result of the confirmation is stored in each dictionary 2a. 2b. By reflecting in 2c, the next similarity search and the division accuracy of the main part / additional part are improved. Hereinafter, specific dictionary management (S01 to S04) of the apparatus 1 will be described.

S01:辞書管理者が、ある表記に関連する辞書項目を整備するために、その表記を入力し、かかる入力により前記装置1の辞書管理が開始される。この入力は、図示省略の端末でログインした後に入力してもよく、キーボード操作による入力でもよく、音声入力でもよいものとする。   S01: A dictionary administrator inputs a notation in order to maintain a dictionary item related to a certain notation, and the dictionary management of the device 1 is started by such input. This input may be input after logging in at a terminal (not shown), may be input by keyboard operation, or may be voice input.

ここでは辞書管理者は「クリスチャンディオールオム」という表記の関連項目整備のために該表記を入力したこととする。このとき類似検索部3は、入力表記「クリスチャンディオールオム」をキーに編集距離に基づく類似検索を行って全体辞書2aから入力表記に類似する辞書項目の表記を取得する。ここでは編集距離が閾値内の表記を類似表記として特定して全体辞書2aから取得するものとする。   Here, it is assumed that the dictionary manager inputs the notation for the maintenance of the related item “Christian Dior Homme”. At this time, the similarity search unit 3 performs a similarity search based on the edit distance using the input notation “Christian Dior Homme” as a key, and acquires the notation of dictionary items similar to the input notation from the overall dictionary 2a. Here, it is assumed that a notation whose edit distance is within the threshold is specified as a similar notation and acquired from the entire dictionary 2a.

Figure 2012247948
Figure 2012247948

表2は、前記類似検索の検索結果を示している。ここでは入力表記「クリスチャンディオールオム」の類似表記毎に編集距離が示され、類似表記「クリスチャンデイオール」は編集距離「3」と示され、類似表記「ディオールオム」は編集距離「7」と示され、類似表記「ディオール」は編集距離「8」と示され、類似表記「デイオール」は編集距離「9」と示され、類似表記「ベビーディオール」は編集距離「3」と示され、類似表記「フィオール」は編集距離「9」と示されている。   Table 2 shows search results of the similar search. Here, the edit distance is shown for each similar notation of the input notation “Christian Dior Homme”, the similar notation “Christian Day All” is shown as the edit distance “3”, and the similar notation “Dior Homme” is shown as the edit distance “7”. The similar notation “Dior” is indicated as the edit distance “8”, the similar notation “Day All” is indicated as the edit distance “9”, the similar notation “Baby Dior” is indicated as the edit distance “3”, and the similar notation “Fiol” is indicated as an edit distance “9”.

S02:主要部特定部4は、S01で取得した類似検索結果の表記と入力表記とに対して、それぞれの表記の主要部を特定する。この主要部特定の詳細を図4に基づき説明する。まず処理が開始されるとS01の類似検索で取得した辞書項目の表記、即ち表2の類似表記と入力表記とが一致する共通項目(共通部)を特定する(S11)。   S02: The main part specifying unit 4 specifies the main part of each notation for the notation and the input notation of the similar search result acquired in S01. Details of the main part specification will be described with reference to FIG. First, when the process is started, the common item (common part) in which the notation of the dictionary item obtained by the similar search in S01, that is, the similar notation in Table 2 and the input notation are identified is specified (S11).

Figure 2012247948
Figure 2012247948

Figure 2012247948
Figure 2012247948

表3は、表2の類似表記毎に入力表記と一致する共通部を示し、類似表記「クリスチャンデイオール」は共通部「デ.オール」が示され、類似表記「ディオールオム」は共通部「ディオール」が示され、類似表記「ディオール」は共通部「ディオール」が示され、類似表記「デイオール」は共通部「デ.オール」が示され、類似表記「ベビーディオール」は共通部「ディオール」が示され、類似表記「フィオール」は共通部「ィオール」が示されている。ここで「.」は任意の1文字を表しているものとする。   Table 3 shows the common part that matches the input notation for each similar notation in Table 2, the similar notation “Christian Day All” shows the common part “De-All”, and the similar notation “Dior Homme” shows the common part “Dior” The similar notation “Dior” indicates the common part “Dior”, the similar notation “Dayol” indicates the common part “Deall”, and the similar notation “Baby Dior” indicates the common part “Dior”. The similar notation “Fiol” indicates the common part “Iol”. Here, “.” Represents an arbitrary character.

表4は、入力表記の共通部を示している。この共通部としては、表3で示した各類似表記との共通部分中、最大の文字長の共通部分が選択される。ここでは表3中、「ディオールオム」・「ディオール」・「ベビーディオール」の共通部分「ディオール」が4文字で最も文字長が大きいため、入力表記の共通部として選択されている。   Table 4 shows the common part of the input notation. As the common part, the common part having the maximum character length is selected from the common parts with the similar notations shown in Table 3. Here, in Table 3, the common part “Dior” of “Dior Homme”, “Dior”, and “Baby Dior” is selected as the common part of the input notation because it has four characters and the longest character length.

つぎに主要部特定部4は、S11で特定された表3.4の各共通部が主要部候補に該当するか否かを判定する(S12)。ここでは表3.4の各共通部に対して、主要部辞書2bに項目が存在するか否かを検査する。この検査結果が適正、即ち共通部が主要部辞書2bの項目として存在していれば、これを類似表記の主要部候補と判定する。   Next, the main part specifying unit 4 determines whether or not each common part in Table 3.4 specified in S11 corresponds to a main part candidate (S12). Here, it is checked whether or not an item exists in the main part dictionary 2b for each common part in Table 3.4. If this inspection result is appropriate, that is, if the common part exists as an item of the main part dictionary 2b, it is determined as a main part candidate of similar notation.

もっとも、検査結果が不適、即ち共通部が主要部辞書2bの項目として存在してなくとも同一の共通部が複数あれば、これを主要部候補と判定する。このとき共通部の構成中に「.」があれば、類似表記中の共通部に対応する文字列(「.」に対応する文字も含む。)を主要部候補と判定する。一方、検索結果が不適で、共通部分が複数ない場合には類似表記全体を主要部候補と判定する。ここでは主要部辞書2bには表5の項目が存在しているものとして主要部候補を判定する。   However, if the test result is unsuitable, that is, if the common part does not exist as an item of the main part dictionary 2b and there are a plurality of the same common parts, this is determined as a main part candidate. At this time, if “.” Is present in the configuration of the common part, the character string (including the character corresponding to “.”) Corresponding to the common part in the similar notation is determined as the main part candidate. On the other hand, if the search result is inappropriate and there are not a plurality of common parts, the entire similar notation is determined as a main part candidate. Here, the main part candidate is determined on the assumption that the items in Table 5 exist in the main part dictionary 2b.

Figure 2012247948
Figure 2012247948

Figure 2012247948
Figure 2012247948

Figure 2012247948
Figure 2012247948

表6は表3の共通部に対する検査結果を示し、表7は入力表記の共通部に対する検査結果を示している。この表6.7中、検査結果「○」は適正を示し、検査結果「×」は不適を示している。   Table 6 shows the test results for the common part of Table 3, and Table 7 shows the test results for the common part of the input notation. In Table 6.7, the inspection result “◯” indicates appropriateness, and the inspection result “×” indicates inappropriateness.

表6中、類似表記「ディオールオム」、「ディオール」、「ベビーディオール」は、共通部「ディオール」が表5の主要部辞書2bに存在しているため、検査結果に「○」が示され、該共通部が主要部候補と判定されている。表7中の入力表記「クリスチャンディオールオム」も、同様に検査結果に「○」が示され、表4の共通部「ディオール」が主要部候補と判定されている。   In Table 6, the similar notation “Dior Homme”, “Dior”, “Baby Dior” has a common part “Dior” in the main part dictionary 2b of Table 5, so that “○” is shown in the test result. The common part is determined as a main part candidate. Similarly, in the input notation “Christian Dior Homme” in Table 7, “◯” is indicated in the inspection result, and the common part “Dior” in Table 4 is determined as the main part candidate.

類似表記「クリスチャンデイオール」および「デイオール」は、共通部「デ.オール」が表5の主要部辞書2bに存在しないため、検査結果に「×」が示されている。このとき共通部「デ.オール」は、構成中に「.」を含むため、それぞれ類似表記の対応文字列、即ち「デイオール」が主要部候補と判定されている。   In the similar notation “Christian Day All” and “Day All”, the common part “De. All” does not exist in the main part dictionary 2b of Table 5, and therefore “×” is shown in the inspection result. At this time, since the common part “de.all” includes “.” In the configuration, the corresponding character string of similar notation, that is, “dayall” is determined as the main part candidate.

類似表記「フィオール」は、共通部「ィオール」が表5の主要部辞書2bに存在しないため、検査結果に「×」が示されている。この共通部は複数個が存在しないため、「フィオール」の表記全体が主要部と判定されている。   In the similar notation “Fiol”, since the common part “Iol” does not exist in the main part dictionary 2b of Table 5, “×” is shown in the inspection result. Since there are not a plurality of common parts, the entire notation of “Fiol” is determined as the main part.

そして、主要部特定部4は、S12の主要部判定結果に基づき付加部候補を定めて付加部候補が付加部辞書2cに項目として存在するか否かを検査し、付加部として適切か否かを判定する(S13)。この付加部候補は、各類似表記の文字列から主要部候補の文字列を除去した後の文字列とする。このとき類似表記と主要部候補とが同一の文字列のときには付加部候補が定められないため、S13の処理は省略される。ここでは付加部辞書2cには表8の項目が存在するとして付加部候補を検査する事例を説明する。   Then, the main part specifying unit 4 determines additional part candidates based on the main part determination result of S12, checks whether or not the additional part candidate exists as an item in the additional part dictionary 2c, and determines whether or not the additional part candidate is appropriate as the additional part. Is determined (S13). The additional part candidate is a character string after the main part candidate character string is removed from each similar notation character string. At this time, when the similar notation and the main part candidate are the same character string, the additional part candidate is not determined, and thus the process of S13 is omitted. Here, a case will be described in which additional part candidates are inspected on the assumption that the items in Table 8 exist in the additional part dictionary 2c.

Figure 2012247948
Figure 2012247948

Figure 2012247948
Figure 2012247948

Figure 2012247948
Figure 2012247948

表9は表3の類似表記に対する付加部候補の検査結果を示し、表10は表4の入力表記に対する付加部候補の検査結果を示している。この表9.10中、検査結果「○」は付加部として適正の判定を示し、検査結果「×」は付加部として不適の判定を示している。   Table 9 shows the inspection result of the additional part candidate for the similar notation of Table 3, and Table 10 shows the inspection result of the additional part candidate for the input notation of Table 4. In Table 9.10, the inspection result “◯” indicates an appropriate determination as an additional portion, and the inspection result “X” indicates an inappropriate determination as an additional portion.

ここで表9中、類似表記「ディオール」、「デイオール」、「フィオール」は、その文字列と主要部候補の文字列とが同一なため、S13の処理は省略され、表9には検査結果は示されていない。   Here, in Table 9, the similar notation “Dior”, “Day All”, and “Fiol” have the same character string and the main part candidate character string, so the processing of S13 is omitted. Is not shown.

類似表記「クリスチャンデイオール」の付加部候補「クリスチャン」と、類似表記「ベビーディオール」の付加部候補「ベビー」とは、それぞれ表8の付加部辞書2cの項目に存在しないため、検査結果に「×」が示されている。類似表記「ディオールオム」の付加部候補「オム」は、表8の付加部辞書2cの項目に存在するため、検査結果に「○」が示されている。   The additional part candidate “Christian” of the similar notation “Christian Day All” and the additional part candidate “Baby” of the similar notation “Baby Dior” do not exist in the items of the additional part dictionary 2c of Table 8, respectively. “×” is shown. Since the additional part candidate “Om” of the similar notation “Dior Om” exists in the item of the additional part dictionary 2c in Table 8, “◯” is indicated in the inspection result.

表10の入力表記「クリスチャンディオールオム」は、主要部候補「ディオール」の文字列を除くと「クリスチャン」および「オム」の付加部候補が抽出される。この付加部候補「クリスチャン」は付加部辞書2cの項目に存在しないため、検査結果に「×」が示されている一方、付加部候補「オム」は付加部辞書2cの項目に存在するため、検査結果に「○」が示されている。   In the input notation “Christian Dior Homme” in Table 10, “Christian” and “Om” additional part candidates are extracted except for the character string of the main part candidate “Dior”. Since this additional part candidate “Christian” does not exist in the item of the additional part dictionary 2c, “×” is indicated in the inspection result, while the additional part candidate “Om” exists in the item of the additional part dictionary 2c. “○” is shown in the inspection result.

最後に主要部特定部4は、S13の処理後に類似表記および入力表記の主要部を確定する。ここでS13の処理が省略された表記、即ち付加部候補が定められない類似表記および入力表記は主要部候補をそのまま主要部に確定する。一方、付加部候補が定められる類似表記および入力表記に対しては、S13の付加部判定の結果に応じて主要部を確定する(S14)。   Finally, the main part specifying part 4 determines the main part of the similar notation and the input notation after the process of S13. Here, in the notation in which the processing of S13 is omitted, that is, the similar notation and the input notation in which the additional part candidate is not determined, the main part candidate is determined as the main part as it is. On the other hand, for similar notation and input notation in which additional part candidates are determined, the main part is determined according to the result of the additional part determination in S13 (S14).

すなわち、S13の付加部候補の判定結果が適正であれば主要部候補を主要部として確定する一方、該判定結果が不適であれば主要部候補に付加部候補を付加した表記と主要部候補の表記のそれぞれが全体辞書2aに項目として存在する件数を計数する。計数された件数が一致すれば主要部候補に付加部候補を付加した表記を主要部として確定する。   That is, if the determination result of the additional part candidate in S13 is appropriate, the main part candidate is determined as the main part. On the other hand, if the determination result is inappropriate, the notation of adding the additional part candidate to the main part candidate and the main part candidate The number of cases where each notation exists as an item in the entire dictionary 2a is counted. If the counted numbers match, the notation in which the additional part candidate is added to the main part candidate is determined as the main part.

計数された件数が一致しなければ主要部候補が類似表記として存在するか否かを確認する。確認の結果、類似表記として存在していれば、主要部候補を主要部として確定し、確定された主要部を表記の文字列から除去して付加部を確定する。例えば類似表記「クリスチャンデイオール」の主要部候補「デイオール」は、他の類似表記「デイオール」として存在するため、類似表記「クリスチャンデイオール」の主要部に確定される。   If the counted numbers do not match, it is confirmed whether the main part candidate exists as a similar notation. As a result of confirmation, if similar notation exists, the main part candidate is determined as the main part, and the determined main part is removed from the character string of the notation to determine the additional part. For example, since the main part candidate “Day All” of the similar notation “Christian Day All” exists as another similar notation “Day All”, it is determined as the main part of the similar notation “Christian Day All”.

また、類似表記「ベビーディオール」および入力表記「クリスチャンディオールオム」の主要部候補「ディオール」は、他の類似表記「ディオール」として存在するため、類似表記「ベビーディオール」の主要部に確定される。   Moreover, since the main part candidate “Dior” of the similar notation “Baby Dior” and the input notation “Christian Dior Homme” exists as another similar notation “Dior”, it is determined as the main part of the similar notation “Baby Dior”. .

確定された主要部をそれぞれの類似表記の文字列から除去した付加部候補を付加部に確定し、処理を終了する。このとき入力表記の前後の付加部候補「クリスチャン」と「オム」はそれぞれ付加部と確定される。この付加部の位置情報(主要部の前後)も求めておくものとする。なお、表11.12は、S02(S11〜S14)の処理で特定された各類似表記および入力表記の主要部を示している。   The additional part candidate obtained by removing the determined main part from the character string of each similar notation is determined as the additional part, and the process ends. At this time, the additional portion candidates “Christian” and “Om” before and after the input notation are determined as additional portions, respectively. It is assumed that position information (before and after the main part) of the additional part is also obtained. Table 11.12 shows the main parts of each similar notation and input notation specified in the process of S02 (S11 to S14).

Figure 2012247948
Figure 2012247948

Figure 2012247948
Figure 2012247948

S03:距離算出部5は、S02で特定された各類似表記の主要部と入力表記の主要部との編集距離を算出する。表13は、表2の各類似表記の主要部と入力表記「クリスチャンディオールオム」の主要部との編集距離を示している。ここでは類似表記「クリスチャンデイオール」および「デイオール」の主要部「デイオール」は編集距離「1」と示されている。類似表記「ディオールオム」、「ディオール」、「ベビーディオール」の主要部「ディオール」は編集距離「0」と示されている。類似表記「フィオール」の主要部「フィオール」は編集距離「1」と示されている。   S03: The distance calculation unit 5 calculates the edit distance between the main part of each similar notation specified in S02 and the main part of the input notation. Table 13 shows the edit distance between the main part of each similar notation in Table 2 and the main part of the input notation “Christian Dior Homme”. Here, the similar notation “Christian Day All” and the main part “Day All” of “Day All” are shown as the edit distance “1”. The main part “Dior” of the similar notations “Dior Homme”, “Dior”, and “Baby Dior” is indicated as the edit distance “0”. The main part “Fiol” of the similar notation “Fiol” is indicated as an editing distance “1”.

Figure 2012247948
Figure 2012247948

S04:更新確認部6は、S03で算出した編集距離の小さい順に類似表記の主要部と付加部とを区別したデータを作成し、作成したデータを最終的な類似検索結果として辞書管理者に提示する(辞書管理者の端末に送信して表示させてもよい。)。   S04: The update confirmation unit 6 creates data in which the main part of the similar notation is distinguished from the additional part in ascending order of the edit distance calculated in S03, and presents the created data to the dictionary manager as the final similarity search result. (It may be transmitted to the dictionary manager's terminal and displayed.)

Figure 2012247948
Figure 2012247948

表14は、辞書管理者に提示される類似検索結果を示している。この類似検索結果は表2の検索結果に基づき作成され、類似表記毎に主要部、付加部(主要部の前後)、編集距離が示されている。   Table 14 shows similar search results presented to the dictionary manager. This similar search result is created based on the search result of Table 2, and the main part, the additional part (before and after the main part), and the edit distance are shown for each similar notation.

したがって、辞書管理者は、提示された類似検索結果が入力表記と同じ実体を示すか否か、あるいは付加部「オム」、「ベビー」、「クリスチャン」が適正か否か、主要部「ディオール」、「デイオール」、「フィオール」が適正か否かを判断することができる。   Therefore, the dictionary manager determines whether the presented similar search result indicates the same entity as the input notation, or whether the additional parts “Om”, “Baby”, “Christian” are appropriate, or the main part “Dior”. , “Day All” and “Fiol” can be judged as appropriate.

この判断結果に応じて辞書管理者は、全体辞書2a、主要部辞書2b、付加部辞書2cの内容を更新することできる。すなわち、辞書管理者は表記の同定とともに主要部と付加部とを区別して辞書更新できるため、辞書管理を進めるに従って辞書の品質が向上し、辞書管理者の負担を軽減することができる。   The dictionary manager can update the contents of the entire dictionary 2a, main part dictionary 2b, and additional part dictionary 2c in accordance with the determination result. That is, the dictionary administrator can update the dictionary by identifying the main part and the additional part together with the identification of the notation, so that the dictionary quality improves as the dictionary management is advanced, and the burden on the dictionary administrator can be reduced.

このとき辞書管理者に提示される類似検索結果は、各類似表記における主要部の編集距離に応じて作成されているため、付記的な語が付加された類似表記であっても、辞書管理者に優先的に提示され、この点でも辞書品質の向上に貢献できる。   The similarity search result presented to the dictionary manager at this time is created in accordance with the editing distance of the main part in each similar notation, so even if the similar notation with additional words is added, the dictionary administrator This point also contributes to the improvement of dictionary quality.

≪プログラムなど≫
本発明は、前記装置1の各部3〜6の一部もしくは全部として、コンピュータを機能させる辞書管理プログラムとして構成することもできる。この辞書管理プログラムによれば、S01〜S04.S11〜S14の一部あるいは全部をコンピュータに実行させることが可能となる。
≪Programs≫
The present invention can also be configured as a dictionary management program that causes a computer to function as some or all of the units 3 to 6 of the apparatus 1. According to this dictionary management program, S01 to S04. It becomes possible to cause the computer to execute part or all of S11 to S14.

この辞書管理プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、この辞書管理プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。   This dictionary management program can be provided through a network such as a website or e-mail. Further, this dictionary management program is recorded on CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BD-R, BD-RE, etc. It is also possible to record and save / distribute on a medium. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.

1…辞書管理装置
2…辞書(オンライン辞書)
2a…全体辞書
2b…主要部辞書
2c…付加部辞書
3…類似検索部(類似検索手段)
4…主要部特定部(主要部特定手段、共通部特定手段、主要部判定手段、付加部判定手段、主要部確定手段)
5…距離算出部(距離算出手段)
6…更新確認部(更新確認手段)
1 ... Dictionary management device 2 ... Dictionary (online dictionary)
2a ... Overall dictionary 2b ... Main part dictionary 2c ... Additional part dictionary 3 ... Similarity search part (similarity search means)
4 ... main part specifying part (main part specifying means, common part specifying means, main part determining means, additional part determining means, main part determining means)
5. Distance calculation unit (distance calculation means)
6 ... Update confirmation section (update confirmation means)

Claims (7)

オンライン辞書を構築運用・管理するための辞書管理装置であって、
辞書管理者の入力表記に基づきオンライン辞書を検索し、入力表記に類似する類似表記を特定する類似検索手段と、
類似検索手段で特定された類似表記と入力表記とに対して、それぞれの表記の主要部を特定する主要部特定手段と、
主要部特定手段で特定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出手段と、
距離算出手段で算出された編集距離順に類似表記を辞書管理者に提示する更新確認手段と、
を備えることを特徴とする辞書管理装置。
A dictionary management device for constructing, operating and managing an online dictionary,
A similar search means for searching an online dictionary based on an input notation of a dictionary manager and identifying a similar notation similar to the input notation,
Main part specifying means for specifying the main part of each notation for the similar notation and input notation specified by the similarity search means,
Distance calculating means for calculating the editing distance between the main part of each similar notation specified by the main part specifying means and the main part of the input notation;
Update confirmation means for presenting similar notations to the dictionary manager in the order of edit distances calculated by the distance calculation means;
A dictionary management device comprising:
オンライン辞書の各表記を主要部と付加部とに区別し、オンライン辞書を前記各表記に基づく全体辞書・前記各表記の主要部に基づく主要部辞書・前記各表記の付加部に基づく付加部辞書として構築運用・管理する辞書管理装置であって、
辞書管理者の入力表記に基づき全体辞書を検索し、入力表記に類似する表記を特定する類似検索手段と、
類似検索手段で特定された類似表記と入力表記との共通部分を特定する共通部特定手段と、
共通部特定手段で特定された共通部分が主要部辞書に存在すれば、該共通部分を類似表記・入力表記の主要部候補と判定する主要部判定手段と、
主要部判定手段で判定された主要部候補を類似表記・入力表記から除外した付加部候補が付加部辞書に存在するか否かを判定する付加部判定手段と、
付加部判定手段の判定結果に応じて主要部候補を主要部と確定する主要部確定手段と、
主要部確定手段で確定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出手段と、
距離算出手段で算出された編集距離順に類似表記・類似表記の主要部・類似表記の付加部を辞書管理者に提示する更新確認手段と、
を備えることを特徴とする辞書管理装置。
Each notation of the online dictionary is classified into a main part and an addition part, and the online dictionary is an overall dictionary based on each notation, a main part dictionary based on the main part of each notation, and an addition part dictionary based on the addition part of each notation A dictionary management device constructed, operated and managed as
A similar search means for searching the entire dictionary based on the dictionary manager's input notation and identifying a notation similar to the input notation,
A common part specifying means for specifying a common part between the similar notation specified by the similarity search means and the input notation;
If the common part specified by the common part specifying means exists in the main part dictionary, the main part determining means for determining the common part as a main part candidate of similar notation and input notation,
An additional unit determining unit that determines whether or not an additional unit candidate that is excluded from the similar notation / input notation is the main unit candidate determined by the main unit determining unit, in the additional unit dictionary;
Main part determination means for determining main part candidates as main parts according to the determination result of the additional part determination means;
Distance calculating means for calculating the editing distance between the main part of each similar notation determined by the main part determining means and the main part of the input notation;
An update confirmation means for presenting the dictionary manager with the main part of the similar notation, the main part of the similar notation, and the additional part of the similar notation in the order of the edit distance calculated by the distance calculating means,
A dictionary management device comprising:
主要部確定手段は、付加部判定手段の判定結果が付加部辞書に存在することを示していれば主要部候補を主要部として確定する一方、
前記判定結果が付加部辞書に存在しないことを示していれば全体辞書の項目中、主要部候補に付加部候補を加えた表記の件数と主要部候補のみの件数とを計数し、件数が一致していれば、主要部候補に付加部候補を加えた表記を類似表記の主要部と確定し、
前記件数が一致していなければ主要部候補が類似表記として存在するか否かを確認し、類似表記として存在していれば主要部候補を主要部として確定する
ことを特徴とする請求項2記載の辞書管理装置。
The main part determination means determines the main part candidate as the main part if the determination result of the addition part determination means indicates that the addition part dictionary exists in the addition part dictionary,
If the determination result indicates that the additional part dictionary does not exist, the number of notations in which the additional part candidate is added to the main part candidate and the number of only the main part candidate are counted in the items of the entire dictionary. If so, the notation of the main part candidate plus the additional part candidate is confirmed as the main part of the similar notation,
3. The main part candidate is confirmed as a main part if the number of cases does not match, and whether or not the main part candidate exists as a similar notation is confirmed. Dictionary management device.
オンライン辞書を構築運用・管理する装置の実行する辞書管理方法であって、
辞書管理者の入力表記に基づきオンライン辞書を検索し、入力表記に類似する類似表記を特定する類似検索ステップと、
類似検索ステップで特定された類似表記と入力表記とに対して、それぞれの表記の主要部を特定する主要部特定ステップと、
主要部特定ステップで特定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出ステップと、
距離算出ステップで算出された編集距離順に類似表記を辞書管理者に提示する更新確認ステップと、
を有することを特徴とする辞書管理方法。
A dictionary management method executed by an apparatus for constructing, operating and managing an online dictionary,
A similar search step for searching an online dictionary based on an input notation of the dictionary manager and identifying a similar notation similar to the input notation,
A main part specifying step for specifying a main part of each notation for the similar notation and input notation specified in the similarity search step;
A distance calculation step for calculating an edit distance between the main part of each similar notation specified in the main part specifying step and the main part of the input notation;
An update confirmation step for presenting similar notations to the dictionary manager in the order of edit distances calculated in the distance calculation step;
A dictionary management method comprising:
オンライン辞書の各表記を主要部と付加部とに区別し、オンライン辞書を前記各表記に基づく全体辞書・前記各表記の主要部に基づく主要部辞書・前記各表記の付加部に基づく付加部辞書として構築運用・管理する装置の辞書管理方法であって、
辞書管理者の入力表記に基づき全体辞書を検索し、入力表記に類似する表記を特定する類似検索ステップと、
類似検索ステップで特定された類似表記と入力表記との共通部分を特定する共通部特定ステップと、
共通部特定ステップで特定された共通部分が主要部辞書に存在すれば、該共通部分を類似表記・入力表記の主要部候補と判定する主要部判定ステップと、
主要部判定ステップで判定された主要部候補を類似表記・入力表記から除外した付加部候補が付加部辞書に存在するか否かを判定する付加部判定ステップと、
付加部判定ステップの判定結果に応じて主要部候補を主要部と確定する主要部確定ステップと、
主要部確定ステップで確定された各類似表記の主要部と入力表記の主要部との編集距離を算出する距離算出ステップと、
距離算出ステップで算出された編集距離順に類似表記・類似表記の主要部・類似表記の付加部を辞書管理者に提示する更新確認ステップと、
を有することを特徴とする辞書管理方法。
Each notation of the online dictionary is classified into a main part and an addition part, and the online dictionary is an overall dictionary based on each notation, a main part dictionary based on the main part of each notation, and an addition part dictionary based on the addition part of each notation A dictionary management method for a device constructed, operated and managed as
A similar search step that searches the entire dictionary based on the dictionary manager's input notation and identifies a notation similar to the input notation,
A common part specifying step for specifying a common part between the similar notation specified in the similarity search step and the input notation,
If the common part specified in the common part specifying step exists in the main part dictionary, the main part determining step for determining the common part as a main part candidate of similar notation / input notation,
An additional part determination step for determining whether or not an additional part candidate obtained by excluding the main part candidate determined in the main part determination step from the similar notation / input notation exists in the additional part dictionary;
A main part determination step for determining a main part candidate as a main part according to the determination result of the additional part determination step;
A distance calculating step for calculating an editing distance between the main part of each similar notation determined in the main part determining step and the main part of the input notation;
An update confirmation step for presenting the dictionary manager with the similar notation, the main part of the similar notation, and the additional part of the similar notation in the order of the edit distance calculated in the distance calculating step,
A dictionary management method comprising:
主要部確定ステップは、付加部判定ステップの判定結果が付加部辞書に存在することを示していれば主要部候補を主要部として確定するステップと、
前記判定結果が付加部辞書に存在しないことを示していれば全体辞書の項目中、主要部候補に付加部候補を加えた表記の件数と主要部候補のみの件数とを計数し、件数が一致していれば、主要部候補に付加部候補を加えた表記を類似表記の主要部と確定するステップと、
前記件数が一致していなければ主要部候補が類似表記として存在するか否かを確認し、類似表記として存在していれば主要部候補を主要部として確定するステップと、
を有することを特徴とする請求項5記載の辞書管理方法。
The main part determination step is a step of determining a main part candidate as a main part if the determination result of the addition part determination step indicates that the addition part dictionary exists in the addition part dictionary;
If the determination result indicates that the additional part dictionary does not exist, the number of notations in which the additional part candidate is added to the main part candidate and the number of only the main part candidate are counted in the items of the entire dictionary. If so, a step of confirming the main part candidate plus the additional part candidate as the main part of the similar notation,
If the number of cases does not match, confirm whether the main part candidate exists as a similar notation, and if it exists as a similar notation, confirming the main part candidate as the main part,
The dictionary management method according to claim 5, further comprising:
請求項1〜3のいずれか1項に記載の辞書管理装置の各手段としてコンピュータを機能させる辞書管理プログラム。   The dictionary management program which makes a computer function as each means of the dictionary management apparatus of any one of Claims 1-3.
JP2011118449A 2011-05-26 2011-05-26 Dictionary management apparatus, dictionary management method and dictionary management program Pending JP2012247948A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011118449A JP2012247948A (en) 2011-05-26 2011-05-26 Dictionary management apparatus, dictionary management method and dictionary management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011118449A JP2012247948A (en) 2011-05-26 2011-05-26 Dictionary management apparatus, dictionary management method and dictionary management program

Publications (1)

Publication Number Publication Date
JP2012247948A true JP2012247948A (en) 2012-12-13

Family

ID=47468344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011118449A Pending JP2012247948A (en) 2011-05-26 2011-05-26 Dictionary management apparatus, dictionary management method and dictionary management program

Country Status (1)

Country Link
JP (1) JP2012247948A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033434A (en) * 2015-08-05 2017-02-09 大日本印刷株式会社 Candidate word evaluation device, candidate word evaluation system, program, and candidate word evaluation method
US10490189B2 (en) 2017-11-15 2019-11-26 Kabushiki Kaisha Toshiba Support system, support method, and memory medium
JP2020035126A (en) * 2018-08-29 2020-03-05 Zホールディングス株式会社 Brand dictionary creation device, product, etc. evaluation device, brand dictionary creation method and program
JPWO2020071286A1 (en) * 2018-10-03 2021-09-02 パナソニックIpマネジメント株式会社 Input device, input method and input system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033434A (en) * 2015-08-05 2017-02-09 大日本印刷株式会社 Candidate word evaluation device, candidate word evaluation system, program, and candidate word evaluation method
US10490189B2 (en) 2017-11-15 2019-11-26 Kabushiki Kaisha Toshiba Support system, support method, and memory medium
JP2020035126A (en) * 2018-08-29 2020-03-05 Zホールディングス株式会社 Brand dictionary creation device, product, etc. evaluation device, brand dictionary creation method and program
JPWO2020071286A1 (en) * 2018-10-03 2021-09-02 パナソニックIpマネジメント株式会社 Input device, input method and input system
JP7178576B2 (en) 2018-10-03 2022-11-28 パナソニックIpマネジメント株式会社 Input device, input method and input system

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
KR101511656B1 (en) Ascribing actionable attributes to data that describes a personal identity
US8832126B2 (en) Custodian suggestion for efficient legal e-discovery
JP4747752B2 (en) Technical term extraction device, technical term extraction method and technical term extraction program
US20100332484A1 (en) Document information creation device, document registration system, computer-readable storage medium and document information creation method
JP6008693B2 (en) Information processing apparatus, control method therefor, and program
JP2012208547A (en) Contract check support apparatus and contract check support program
JP2016099741A (en) Information extraction support apparatus, method and program
JP2012247948A (en) Dictionary management apparatus, dictionary management method and dictionary management program
JP5836893B2 (en) File management apparatus, file management method, and program
JP2010061587A (en) Similar document determination device, similarity determination method and program therefor
JP2021060800A (en) Data extraction method and data extraction device
JP2012113459A (en) Example translation system, example translation method and example translation program
JP6120607B2 (en) Requirement detection apparatus and requirement detection program
JP2011100191A (en) Device, method, and program for retrieving document
WO2021107006A1 (en) Information processing device, information processing method, and program
US20090249197A1 (en) Document proofreading support method and document proofreading support apparatus
US20200301930A1 (en) Support system, storage medium, and method for presenting relationships of items
JP6191277B2 (en) Information processing apparatus, information processing method, and program
JP2017084074A (en) Database device, worker information retrieval system, and worker information retrieval method
JP2022039210A (en) Creation assisting device, creation assisting method and creation assisting program
JP2011086156A (en) System and program for tracking of leaked information
JP6753190B2 (en) Document retrieval device and program
JP5379416B2 (en) Language processing apparatus and language processing method
JP2016126532A (en) Calculation program, information processing apparatus, and calculation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140701