JP3396734B2 - Corpus error detection / correction processing apparatus, corpus error detection / correction processing method, and program recording medium therefor - Google Patents

Corpus error detection / correction processing apparatus, corpus error detection / correction processing method, and program recording medium therefor

Info

Publication number
JP3396734B2
JP3396734B2 JP2000280582A JP2000280582A JP3396734B2 JP 3396734 B2 JP3396734 B2 JP 3396734B2 JP 2000280582 A JP2000280582 A JP 2000280582A JP 2000280582 A JP2000280582 A JP 2000280582A JP 3396734 B2 JP3396734 B2 JP 3396734B2
Authority
JP
Japan
Prior art keywords
corpus
error
candidate
probability
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000280582A
Other languages
Japanese (ja)
Other versions
JP2002091961A (en
Inventor
真樹 村田
将夫 内山
清貴 内元
青 馬
均 井佐原
Original Assignee
独立行政法人通信総合研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人通信総合研究所 filed Critical 独立行政法人通信総合研究所
Priority to JP2000280582A priority Critical patent/JP3396734B2/en
Publication of JP2002091961A publication Critical patent/JP2002091961A/en
Application granted granted Critical
Publication of JP3396734B2 publication Critical patent/JP3396734B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は,計算機による言語
処理システムの分野で用いられるコーパスの誤りを検出
し,それを自動修正することを可能にしたコーパス誤り
の検出・修正システムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a corpus error detection / correction system capable of detecting a corpus error and automatically correcting it, which is used in the field of a computer language processing system.

【0002】コーパスとは,言語分析用の電子化された
言語資料である。言語処理の分野では,システムの構築
にコーパスを参照することが多く,コーパスは重要な役
割を果している。特に,タグ付きコーパスとは,以下の
ように普通の文(「車で行く。」)に特殊なタグ(品詞
情報など)が付いているものをいう。
A corpus is a computerized linguistic material for linguistic analysis. In the field of language processing, the corpus is often referred to when constructing a system, and the corpus plays an important role. In particular, a corpus with a tag refers to an ordinary sentence (“go by car.”) With a special tag (part-of-speech information, etc.) as shown below.

【0003】『車(名詞) で(助詞) 行く(動詞) 。』
このコーパスに付けられたタグが間違っている場合もあ
り,このことが各研究の進捗の妨げになることも多い。
本発明は,このコーパス中の誤りを,決定リスト,用例
ベース手法などを用いて,検出したり訂正したりするも
のである。
"By car (noun) (particle) go (verb). ]
Sometimes the tags on this corpus are incorrect, which often hinders the progress of each study.
The present invention detects and corrects errors in this corpus using decision lists, example-based techniques, and the like.

【0004】[0004]

【従来の技術】近年,さまざまなコーパスが作られ,
「教師あり機械学習」の研究をはじめとして,コーパス
を用いた多種多様な研究が数多くなされている。しか
し,コーパスには誤りが付きもので,この誤りが各研究
の進捗を妨げる場合も多い。このため,コーパス中の誤
りを検出・修正することは非常に重要なことである。
2. Description of the Related Art In recent years, various corpus have been made,
There are many diverse researches using corpus, including research on "supervised machine learning". However, there are errors in corpus, and these errors often hinder the progress of each research. Therefore, it is very important to detect and correct errors in the corpus.

【0005】このコーパス中の誤りを検出する試みが,
最近いくつかなされ始めている。 [参考文献1]内山将夫,形態素解析結果から過分割を
検出する統計的尺度, 言語処理学会誌,Vol.6 ,No.7,1999. この参考文献1では,例えば「休憩室」という語がコー
パスで「休」と「憩室」に分割されているような誤りを
検出する研究について示されている。 [参考文献2]乾孝司 乾健太郎,統計的部分係り受け
解析における係り受け確率の利用法--- コーパス中の構
文タグ誤りの検出 ---,情報処理学会自然言語処理研究
会 99-NL-134 ,1999. この参考文献2では,コーパス中の構文的誤りを検出す
る研究について示されている。
Attempts to detect errors in this corpus have been
Recently some have begun. [Reference 1] Masao Uchiyama, Statistical measure for detecting over-segmentation from morphological analysis results, Journal of the Language Processing Society, Vol.6, No.7, 1999. In this reference 1, for example, the term "rest room" Describes a study that detects errors such as being divided into "rest" and "diverticulum" in a corpus. [Reference 2] Koji Inui, Kentaro Inui, Usage of Dependency Probability in Statistical Partial Dependency Analysis --- Detection of Syntax Tag Errors in Corpus ---, IPSJ Natural Language Processing Research Group 99-NL- 134, 1999. In this reference 2, a study on detecting a syntactic error in a corpus is shown.

【0006】まず,上記参考文献1に記載されている技
術について説明する。この参考文献1の研究では,形態
素コーパスでの過分割の誤り,例えば,「休憩室」を
「休」「憩室」と分割してしまう誤りを検出する方法を
提案している。単語分割の問題は,情報検索において重
要な問題として位置づけられている。ここでは,「分割
した場合の確率」と「つなげた場合の確率」をコーパス
から求め,「つなげた場合の確率」の方が圧倒的に大き
い場合に,分割するのは間違いであると判定する。
First, the technique described in Reference 1 will be described. The research in Reference 1 proposes a method for detecting an error of excessive division in a morpheme corpus, for example, an error of dividing a "rest room" into a "rest" and a "diverticulum". The problem of word segmentation is positioned as an important problem in information retrieval. Here, the "probability in the case of division" and the "probability in the case of connection" are obtained from the corpus, and if the "probability in the case of connection" is overwhelmingly larger, it is judged that the division is wrong. .

【0007】また,上記参考文献2の研究では,構文情
報のコーパスでの係り先の誤りを検出する方法を提案し
ている。コーパス中のある文節Xの係り先Yが合ってい
るかどうかを調べる場合,コーパスからその文節Xがそ
の係り先Yになる確率を求め,その確率が極端に小さい
場合にその係り先Yは間違いであると判定する。
[0007] Further, the research of the above-mentioned reference document 2 proposes a method for detecting an error in a related party in a corpus of syntax information. When checking whether the phrase Y of a certain phrase X in the corpus matches, the probability that the phrase X becomes the destination Y is found from the corpus, and if the probability is extremely small, the destination Y is wrong. Judge that there is.

【0008】両者の研究は,一般化して考えるとほぼ同
様なことをしており,コーパスのタグが合っている確率
と間違っている確率を求め,間違っている確率の方が圧
倒的に大きい場合に,そのコーパスのタグを誤りとする
という方法を採っている。「間違っている確率」の大き
いものを間違っているものと考えるのは自然なことであ
り,ほとんどのコーパス修正の研究で,この種の考え方
を利用することが可能であると考えられる。
[0008] Both studies do almost the same thing when generalized, and when the probability that the corpus tags are matched and the probability that they are wrong are determined, and the probability of error is overwhelmingly greater. In addition, the method of making the tag of the corpus wrong is adopted. It is natural to consider the ones with a high “probability of being wrong” to be wrong, and it is possible to use this kind of thinking in most corpus revision studies.

【0009】しかし,先の二つの研究で用いられた手法
は,いずれも形態素の過分割,係り受け誤りと,それぞ
れその問題に特化した方法を用いて誤り検出を行ってい
たため,その手法の汎用性を見えにくくしている。
However, since the methods used in the above two studies each employ error detection using morpheme over-segmentation and dependency error, and methods specialized for the respective problems, It makes the versatility difficult to see.

【0010】参考文献1の過分割の研究では,過分割の
検出に特化したような式,例えば,P(x)をxの出現
率として, P(休憩室)/(P(休)P(憩室)) が用いられている。ここで,P(休),P(憩室)の部
分は,「休」「憩室」の単純な出現率を用いているが,
厳密には「休憩室」という文字列が,「休」と「憩室」
に分割される確率を用いるもので,近似をすでに使った
ものとなっている。この近似は,データスパースネスに
対処するためのものであるが,この近似自体は,過分割
の検出と同じような問題でしか使えない。
In the research on over-division in Reference 1, a formula specialized for detecting over-division, for example, P (x) is defined as the appearance rate of x, and P (rest room) / (P (rest) P (Diverticulum)) is used. Here, the P (rest) and P (diverticulum) parts use the simple appearance rate of "rest" and "diverticulum",
Strictly speaking, the character string “rest room” means “rest” and “diver room”
It uses the probability of being divided into, and has already used approximation. This approximation addresses data sparseness, but the approximation itself can only be used for problems similar to over-segmentation detection.

【0011】また,参考文献2の研究では,すでにでき
あがった構文解析システムが出す誤り確率を利用してい
る。この構文解析システムでは,構文解析に特化した情
報を数多く利用していると思われるし,また,誤りを検
出する対象とするコーパス以外の情報を用いている可能
性も高く,汎用的なコーパス修正とは言いにくい。
In addition, the study of Reference 2 uses the error probability generated by the already-made syntax analysis system. It seems that this parsing system uses a lot of information specialized in parsing, and there is a high possibility that it will use information other than the corpus that is the target of error detection. It's hard to say a fix.

【0012】[0012]

【発明が解決しようとする課題】上記参考文献1および
参考文献2に記載されている方法では,誤り検出の適用
範囲が過分割および構文的誤りというように限定されて
おり,例えば品詞の誤りというような形態素情報の誤り
を検出することができないという問題があった。また,
単に誤り検出のみを対象としているため,検出した誤り
をどのように修正すればよいかは人間が考えなければな
らず,また誤り箇所を修正するのも人間が行わなければ
ならないという問題があった。
In the methods described in References 1 and 2, the applicable range of error detection is limited such as over-segmentation and syntactical error. For example, it is called part-of-speech error. There is a problem that such an error in morpheme information cannot be detected. Also,
Since only the error detection is targeted, there is a problem that human beings have to consider how to correct the detected error, and humans have to correct the error portion. .

【0013】本発明は上記問題点の解決を図り,タグ付
きコーパスにおける種々の誤りを検出し,それに対する
修正案を提示し自動修正する手段を提供することを目的
とする。
It is an object of the present invention to solve the above problems and to provide means for detecting various errors in a tagged corpus, presenting a correction plan for the errors and automatically correcting the errors.

【0014】[0014]

【課題を解決するための手段】本発明は,上記課題を解
決するため,タグ付きコーパスから誤り候補を切り出す
誤り候補切り出し手段と,切り出した誤り候補のタグが
誤っているかどうかを,誤り候補の正解確率,誤り候補
の誤り確率および変更可能な修正候補の正解確率の算出
によって評価する誤り箇所検出手段と,評価結果に基づ
いて修正候補の提示または修正されたコーパスを出力す
る誤り箇所修正手段とを備えることを特徴とする。
In order to solve the above-mentioned problems, the present invention determines an error candidate cutout means for cutting out an error candidate from a corpus with a tag and whether or not a tag of the cutout error candidate is wrong. An error location detecting means for evaluating by calculating a correct answer probability, an error probability of an error candidate, and a correct answer probability of a modifiable correction candidate, and an error location correcting means for presenting a correction candidate or outputting a corrected corpus based on the evaluation result. It is characterized by including.

【0015】また,本発明は,誤り箇所検出手段とし
て,何個かの形態素連続における形態素情報を誤り候補
として,形態素情報の誤りを検出する手段を持つことに
より,形態素情報の誤りについても検出しその修正を実
現することを特徴とする。
The present invention also detects an error in the morpheme information by providing a means for detecting an error in the morpheme information by using the morpheme information in several morpheme sequences as an error candidate as the error location detecting means. It is characterized by realizing the correction.

【0016】本発明は,単にコーパス中の誤りを検出す
るだけでなく,それを修正する手段を持つことが,従来
技術と大きく異なる。また,従来技術では,形態素の過
分割,係り受け誤りといったそれぞれの問題に特化した
誤り検出しか行われていなかったのに対し,本発明は,
例えば形態素情報の誤り,構文情報の誤りといった各種
の誤りを対象としてそれらを検出し,修正できる点が,
従来技術と大きく異なる。
The present invention differs greatly from the prior art in that it has means for correcting not only the error in the corpus but also the error in the corpus. Further, in the prior art, only error detection specialized for each problem such as morpheme over-segmentation and dependency error was performed, but the present invention is
For example, various errors such as morpheme information errors and syntax information errors can be detected and corrected.
It is very different from the conventional technology.

【0017】以上の各処理手段をコンピュータによって
実現するためのプログラムは,コンピュータが読み取り
可能な可搬媒体メモリ,半導体メモリ,ハードディスク
などの適当な記録媒体に格納することができる。
The program for realizing the above processing means by a computer can be stored in an appropriate recording medium such as a computer-readable portable medium memory, a semiconductor memory, a hard disk.

【0018】[0018]

【発明の実施の形態】図1は,本発明のシステム構成例
を示す。図中,10は本発明に係るコーパス誤りの検出
・修正システムを表す。コーパス誤りの検出・修正シス
テム10は,誤り候補切り出し部11,誤り箇所検出部
12,誤り箇所修正部13を持つ。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows an example of the system configuration of the present invention. In the figure, 10 represents a corpus error detection / correction system according to the present invention. The corpus error detection / correction system 10 has an error candidate cutout unit 11, an error location detection unit 12, and an error location correction unit 13.

【0019】図2は,図1に示すシステムの処理フロー
チャートである。誤り候補切り出し部11は,修正対象
であるタグ付きコーパス20から誤り候補を何らかの単
位で取り出す(ステップS1)。ここでは形態素情報の
修正の場合,例えばコーパスから1〜5個の形態素連続
における形態素情報を取り出す。また,構文情報の修正
の場合には,コーパスから誤り候補として,ある文節X
の係り先がYのときに,他の係り先候補をZ1,Z2,
Z3,…としたときに,X,Y,Zi (i=1,2,
3,…)といった三つ組のデータを取り出す。
FIG. 2 is a processing flowchart of the system shown in FIG. The error candidate cutout unit 11 extracts error candidates from the corpus 20 with a tag to be corrected in some unit (step S1). Here, in the case of morpheme information correction, for example, morpheme information in 1 to 5 morpheme sequences is extracted from the corpus. Also, in the case of correcting the syntactic information, a certain clause X is determined as an error candidate from the corpus.
When the employee's employee is Y, the other candidate candidates are Z1, Z2,
Z3, ..., X, Y, Zi (i = 1, 2,
The data of three sets such as 3, ...) are taken out.

【0020】次に,誤り箇所検出部12は,誤り候補切
り出し部11が取り出した誤り候補のすべてに対して,
高速検索用に変形したコーパス21を参照して,以下の
計算を行う(ステップS2)。
Next, the error location detection unit 12 applies to all the error candidates extracted by the error candidate cutout unit 11.
The following calculation is performed with reference to the corpus 21 transformed for high-speed search (step S2).

【0021】 a.その誤り候補の誤り確率の算出 b.そのときのシステムの確信度の算出 c.そのときの修正候補の算出 なお,高速検索用に変形したコーパス21は,誤り箇所
の検出のための確率値の算出を高速化するため,コーパ
ス20について,データの並びの順序を変更したり,不
要なデータ部分を削除したものである。例えば,形態素
の生データとその品詞の組を検索するとき,形態素の生
データとその品詞を連続して並べたものをオリジナルの
コーパス20からあらかじめ作っておけば,形態素の生
データとその品詞の組を1個の検索キーとして,1回の
検索操作で検索することができる。これが高速検索用に
変形したコーパス21である。
A. Calculation of the error probability of the error candidate b. Calculation of system confidence at that time c. Calculation of Correction Candidates At this time, the corpus 21 modified for high-speed search speeds up the calculation of the probability value for detecting the error portion, so that the order of the data arrangement of the corpus 20 is changed, The unnecessary data part has been deleted. For example, when searching for a set of raw data of a morpheme and its part of speech, if raw raw data of the morpheme and its part of speech are continuously arranged in advance from the original corpus 20, the raw data of the morpheme and its part of speech are It is possible to perform a search with a single search operation using the group as one search key. This is the corpus 21 modified for high speed search.

【0022】その後,誤り箇所検出部12は,取り出し
たすべての誤り候補のうち,確信度の高いものから,以
下の処理を行う(ステップS3)。ただし,形態素情報
の修正の場合,すでに誤り箇所もしくは正解箇所と推定
された箇所を含む部分については,以下の処理は行わな
い。また,構文情報の修正の場合,すでに誤り箇所と推
定された箇所を含む部分については,以下の処理は行わ
ない(形態素の場合と異なり,正解箇所と判断した箇所
については,以下の処理を引き続き行う)。
After that, the error point detection unit 12 performs the following processing from the extracted error candidates having the highest certainty (step S3). However, in the case of correcting the morpheme information, the following processing is not performed on the portion including the portion that has already been estimated to be the error portion or the correct answer portion. In addition, in the case of correcting the syntactic information, the following processing is not performed for the portion including the portion which is already estimated to be an error portion (unlike the case of the morpheme, the following processing is continued for the portion determined to be the correct answer portion). Do).

【0023】a.誤り候補の誤り確率が0.5以上の場
合,誤り箇所と判定し,そのときの修正候補を修正候補
とする。
A. When the error probability of the error candidate is 0.5 or more, it is determined as an error location, and the correction candidate at that time is set as the correction candidate.

【0024】b.誤り候補の誤り確率が0.5以上でな
い場合,正解箇所と判定し,その部分を以降誤り箇所と
は判定しない。
B. If the error probability of the error candidate is not 0.5 or more, it is determined to be a correct answer portion, and that portion is not determined to be an error portion thereafter.

【0025】誤り箇所検出部12は,すべての誤り候補
に対して上記ステップS3の処理を行った後,処理を終
了し,誤り箇所と判定した箇所をすべて誤り箇所と検出
する(ステップS4)。
After performing the processing of step S3 on all the error candidates, the error location detection unit 12 terminates the processing and detects all locations determined to be error locations as error locations (step S4).

【0026】誤り箇所修正部13は,誤り箇所検出部1
2が誤り箇所と検出した箇所について,ステップS3で
修正候補としたものを修正候補として,誤りの修正候補
を示す(ステップS5)。その結果をもとに,修正され
たコーパス22(もしくは誤り箇所指摘および修正付き
コーパス)を出力する(ステップS6)。
The error location correction unit 13 includes an error location detection unit 1
Regarding the portion detected by 2 as the error portion, the correction candidate of the correction candidate in step S3 is shown as the correction candidate (step S5). Based on the result, the corrected corpus 22 (or corpus with error point indication and correction) is output (step S6).

【0027】ステップS3では,0.5以上のものを誤
り箇所と判断しているが,0.5より大きいものだけを
誤り箇所と判断してもよい。以下,具体例に従ってさら
に詳しく説明する。
In step S3, those having a value of 0.5 or more are determined to be erroneous points, but those having a value greater than 0.5 may be determined to be erroneous points. Hereinafter, it will be described in more detail with reference to specific examples.

【0028】[コーパスの例]図3は,代表的なコーパ
スとしてよく知られている京大コーパスの例,図4は,
そのコーパスのデータ構造の説明図である。
[Example of Corpus] FIG. 3 shows an example of the Kyoto University Corpus well known as a typical corpus, and FIG. 4 shows
It is explanatory drawing of the data structure of the corpus.

【0029】京大コーパスは,図3の具体例に示すよう
に,各文を文節に分割し,それらの係り受け関係を示す
とともに,さらに各文節を形態素に分割して各形態素の
品詞その他の詳細な情報を持たせたものである。
As shown in the concrete example of FIG. 3, the Kyoto University Corpus divides each sentence into bunsetsu and shows the dependency relation between them, and further divides each bunsetsu into morphemes, and the part of speech of each morpheme and other parts. It has detailed information.

【0030】おおよそ一文が図3に示すように構成さ
れ,一文が終わるとEOS(end of sentence)の記号が
付与される。すなわち,図4(A)のように,#から始
まりEOSで終わる部分が一文に関する情報である。一
文に関する情報は,図4(B)に示すように,*から始
まる文節に関する情報によって構成される。
Approximately one sentence is constructed as shown in FIG. 3, and when one sentence is finished, a symbol of EOS (end of sentence) is given. That is, as shown in FIG. 4 (A), the part beginning with # and ending with EOS is information about one sentence. As shown in FIG. 4B, the information about one sentence is composed of the information about the clause starting from *.

【0031】文節に関する情報の部分には,図4(C)
のように,*に続く第1カラム目に何番目の文節である
かを示す文節番号が記述され,第2カラム目には,その
文節の係り先の文節番号が記述される。第2カラムの数
字の次に続くアルファベットは,Dが通常の係りを表
し,P,Iの場合には並列的な係り,Aの場合には同格
的な係りを意味する。続くEOS,#,*以外のものか
ら始まる行は,形態素情報を表している。
The portion of the information regarding the clause is shown in FIG.
As described above, in the first column following *, the bunsetsu number indicating the number of the bunsetsu is described, and in the second column, the bunsetsu number to which the bunsetsu is related is described. The alphabet following the number in the second column means that D is a normal relationship, P is a parallel relationship in the case of I, and A is a relative relationship in the case of A. Subsequent lines starting from other than EOS, #, * represent morpheme information.

【0032】形態素情報の部分には,図4(D)のよう
に,第1カラムに生データで出現したままの形の形態素
が記述され,第2カラムに読みの情報が記述され,第3
カラムに変化する形態素の場合は基本形を,そうでない
場合は*が記述される。また,第4カラムに品詞が記述
され,第5カラムに品詞細分類が記述され,第6カラム
に変化する形態素の場合は活用型を,そうでない場合は
*が記述される。第7カラムにも形態素の活用形に関す
る情報が記述される。
In the morpheme information portion, as shown in FIG. 4D, the morpheme as it appears in the raw data is described in the first column, the reading information is described in the second column, and the morpheme information is described in the third column.
In the case of a morpheme that changes to a column, the basic form is described; otherwise, * is described. In addition, the part of speech is described in the fourth column, the part of speech subclassification is described in the fifth column, and in the sixth column, the conjugation type is described when the morpheme is changed, and * is described otherwise. The seventh column also describes information on the morpheme inflection.

【0033】例えば,第3図に示す2行目の「* 0 26D
」は,第0番目(先頭)の文節を表し,この文節の係
り先が第26番目の文節(「示した」)であることを意
味している。また,3行目の「村山 むらやま * 名
詞 人名 * *」は,生データの形態素が「村山」,
その読みが「むらやま」,変化しないので第3カラムが
「*」,品詞は「名詞」,品詞細分類は「人名」,変化
する活用型ではないので,続くカラムは「*」,「*」
となっている。
For example, in the second line shown in FIG. 3, "* 0 26D
"Means that the 0th (leading) clause is present, and the destination of this clause is the 26th clause (" shown "). In the third line, "Murayama Murayama * noun person name **", the morpheme of the raw data is "Murayama",
The reading is "Murayama", the third column is "*" because it does not change, the part-of-speech is "noun", the part-of-speech subclassification is "person's name", and the following columns are "*", "*" because it is not a practical type that changes. "
Has become.

【0034】[コーパス修正のための評価式]コーパス
の修正の課題は,このタグは正解,また,このタグは誤
りというものがふられたデータがないため,基本的に
「教師なし学習」の問題となる。このため,コーパス修
正には何らかの基準が必要となる。先に述べた参考文献
1,2の二つの先行研究では,以下の評価基準を利用し
て,コーパス誤り検出の教師なし問題を解いていること
になっている。 〔参考文献1の方法〕 評価式=(分割しない場合の出現率)/(分割した場合
の出現率) これを強いて一般化して表すと,次のように表すことが
できる。
[Evaluation formula for corpus correction] The problem of corpus correction is that there is no data that this tag is correct and this tag is erroneous. It becomes a problem. Therefore, some standard is required for corpus correction. In the two preceding studies of References 1 and 2 mentioned above, it is supposed that the unsupervised problem of corpus error detection is solved using the following evaluation criteria. [Method of Reference Document 1] Evaluation formula = (appearance rate when not divided) / (appearance rate when divided) When this is forcibly generalized, it can be expressed as follows.

【0035】評価式=(修正後のタグが正しい確率)/
(修正前のタグが正しい確率) 〔参考文献2の方法〕 評価式=(修正前のタグが誤っている確率) これらの評価式の値が大きい場合には,タグが誤ってい
る可能性が高いとする。クラスが二つしかない問題の場
合には,上記の二つの基準は等価となる。しかし,これ
らの評価式は,主として誤りの検出を考慮したものにな
っており,検出したコーパス誤りをどのように修正する
のがよいかを考慮したものにはなっていない。
Evaluation formula = (probability that the corrected tag is correct) /
(Probability of correct tag before modification) [Method in Reference 2] Evaluation formula = (Probability of incorrect tag before modification) If the value of these evaluation formulas is large, the tag may be incorrect. Suppose it is expensive. In the case of problems with only two classes, the above two criteria are equivalent. However, these evaluation formulas mainly consider error detection, and do not consider how to correct the detected corpus error.

【0036】本発明では,コーパス誤りを検出する評価
式として, 評価式=修正前のタグが誤っている確率 を用い,それを修正するための評価式として, 評価式=修正後のタグが誤っている確率 を用いることにより,コーパス誤りの自動修正を可能に
する。
In the present invention, as the evaluation expression for detecting a corpus error, the evaluation expression = probability that the tag before correction is wrong is used, and as the evaluation expression for correcting it, the evaluation expression = corrected tag is wrong. It is possible to automatically correct corpus errors by using the probability that

【0037】[確率値の算出方法]「修正前のタグが誤
っている確率」や「修正後のタグが正しい確率」といっ
ても,これをどのようにして簡単に求めるかが次の課題
となる。ここでは,まず「修正前のタグが誤っている確
率」の算出方法を,具体的な処理の例に従って説明す
る。
[Probability value calculation method] Even if the "probability that the tag before correction is incorrect" and the "probability that the tag after correction is correct" are mentioned, the next problem is how to easily calculate this. Becomes Here, first, a method of calculating the “probability that the tag before correction is incorrect” will be described according to a specific processing example.

【0038】図5は,決定リストを用いる場合の確率値
算出の処理の流れを示す。まず,ステップS10では,
誤り候補について変更可能な候補をコーパスから取り出
す。次にステップS11では,何種類かのパターンを定
義し,そのパターンごとに,以下の計算を行う。 a.誤り候補の正解確率の算出 今のパターンの形でのコーパスでの誤り候補の総出現数
を,今のパターンの総出現数で割ったものを誤り候補の
正解確率とする。 b.誤り候補の誤り確率の算出 1から誤り候補の正解確率を引いたものを誤り候補の誤
り確率とする。 c.変更可能な候補iの正解確率の算出 今のパターンの形でのコーパスでの変更可能な候補iの
総出現数を,今のパターンの総出現数で割ったものを変
更可能な候補iの正解確率とする。 d.修正候補の算出 cで計算した変更可能な候補のうち,最も正解確率が大
きいものを修正候補とする。 e.このときのシステムの確信度の算出 誤り候補の正解確率と,dで選んだ修正候補の正解確率
の大きい方をこのときのシステムの確信度とする。
FIG. 5 shows a flow of processing for calculating a probability value when a decision list is used. First, in step S10,
A modifiable candidate for the error candidate is extracted from the corpus. Next, in step S11, several types of patterns are defined, and the following calculation is performed for each pattern. a. Calculation of correct answer probability of error candidate The correct answer probability of the error candidate is obtained by dividing the total number of occurrences of error candidates in the corpus in the current pattern by the total number of occurrences of the current pattern. b. The error probability of the error candidate is obtained by subtracting the correct answer probability of the error candidate from the calculation 1 of the error probability of the error candidate. c. Calculation of correct answer probability of modifiable candidate i Correct answer of modifiable candidate i obtained by dividing total appearance number of modifiable candidates i in the corpus in the current pattern by total appearance number of current patterns Probability. d. Among the changeable candidates calculated in the correction candidate calculation c, the one having the highest correct answer probability is set as the correction candidate. e. Calculation of system confidence at this time The larger of the correct probability of the error candidate and the correct probability of the correction candidate selected in d is taken as the system confidence at this time.

【0039】次にステップS12では,ステップS11
で求めた全パターンのうち,最も確信度の大きいパター
ンのときの誤り候補の誤り確率,修正候補,確信度を,
その誤り候補の誤り確率,修正候補,確信度とする。
Next, in step S12, step S11
The error probability of the error candidate, the correction candidate, and the certainty factor of the pattern with the highest certainty factor among all the patterns obtained in
The error probability, correction candidate, and certainty factor of the error candidate are set.

【0040】なお,この例では,eの確信度として,誤
り候補の正解確率と,dで選んだ修正候補の正解確率の
大きい方を用いるとしているが,a,bで求めた誤り候
補の正解確率と誤り確率の大きい方を用いることにして
もよい。
In this example, as the certainty factor of e, the correct answer probability of the error candidate and the correct answer probability of the correction candidate selected in d are used. However, the correct answer of the error candidate obtained in a and b is used. The one with the higher probability or the higher error probability may be used.

【0041】構文情報の修正の場合には,確率値算出の
処理が上記の処理と少々変わっているので,図6にその
処理の流れを示す。
In the case of correcting the syntactic information, the process of calculating the probability value is slightly different from the above process, and the flow of the process is shown in FIG.

【0042】誤り候補としては,ある文節Xの係り先が
Yのときに,他の係り先候補をZ1,Z2,Z3,…と
して,X,Y,Zi (i=1,2,3,…)といった三
つ組のデータが誤り候補の単位として,取り出されてい
る。そこで,この状況下で以下の計算を行う。まず,ス
テップS20では,変更可能な候補としてはZi を用い
る。
As the error candidates, when the dependency destination of a certain clause X is Y, the other dependency destination candidates are Z1, Z2, Z3, ... And X, Y, Zi (i = 1, 2, 3 ,. ) Is taken out as a unit of error candidate. Therefore, the following calculation is performed under this situation. First, in step S20, Zi is used as a changeable candidate.

【0043】次にステップS21では,何種類かのパタ
ーンを定義し,そのパターンごとに,以下の計算を行
う。 a.誤り候補の正解確率の算出 今のパターンの形でのコーパスでの,Yが係り先になる
総数を,今のパターンの総数で割ったものを誤り候補の
正解確率とする。 b.誤り候補の誤り確率の算出 1から誤り候補の正解確率を引いたものを誤り候補の誤
り確率とする。 c.変更可能な候補iの正解確率の算出 今のパターンの形でのコーパスでの,Zi が係り先にな
る総数を,今のパターンの総数で割ったものを変更可能
な候補Zi の正解確率とする。 d.修正候補の算出 Zi を修正可能な候補とする。 e.このときのシステムの確信度の算出 誤り候補の正解確率と,修正候補Zi の正解確率の大き
い方をこのときのシステムの確信度とする。
Next, in step S21, several types of patterns are defined, and the following calculation is performed for each pattern. a. Calculation of Correct Answer Probability of Error Candidates The correct answer probability of error candidates is obtained by dividing the total number of Ys in the corpus in the current pattern divided by the total number of current patterns. b. The error probability of the error candidate is obtained by subtracting the correct answer probability of the error candidate from the calculation 1 of the error probability of the error candidate. c. Calculation of correct answer probability of modifiable candidate i Divide the total number of Zi to be related in the corpus of the current pattern by the total number of current pattern to be the correct probability of the modifiable candidate Zi . d. The correction candidate calculation Zi is made a correctable candidate. e. Calculation of the system confidence at this time The larger of the correct probability of the error candidate and the correct probability of the correction candidate Zi is taken as the system confidence at this time.

【0044】ステップS22では,ステップS21で求
めた全パターンのうち,最も確信度の大きいパターンの
ときの誤り候補の誤り確率,修正候補,確信度をその誤
り候補の誤り確率,修正候補,確信度とする。
In step S22, the error probability, the correction candidate, and the certainty factor of the error candidate in the case of the pattern having the highest certainty factor among all the patterns obtained in step S21 are the error probability, the correction candidate, and the certainty factor of the error candidate. And

【0045】京大コーパスについての確率値算出の具体
例を説明する。京大コーパスについて,読点「、」の形
態素情報の統計をとってみると,図7(A)に示すよう
な結果が得られる。この統計情報は,ちょっと見ただけ
でも「特殊 読点」となっているデータが圧倒的に大き
く,他は誤っているということが予想される。ここで2
行目の「、 、 、 * *」の誤りの確率を考えてみ
る。
A specific example of probability value calculation for the Kyoto University Corpus will be described. For the Kyoto University Corpus, when the statistics of the morpheme information at the reading point “,” are taken, the results shown in FIG. 7 (A) are obtained. It is expected that this statistical information is overwhelmingly large for data that is a "special reading point" even if you look at it a little, and that the others are incorrect. 2 here
Consider the error probability of ",,,, **" in the line.

【0046】まず,これの正解確率は,その出現数を総
数で割ったものと考えてよい。
First, the correct answer probability can be considered as the number of appearances divided by the total number.

【0047】 正解確率=3/(26540+3+2+1) 一方,誤り確率は1から正解確率を引いたものと考えら
れるので, 誤り確率=1−3/(26540+3+2+1) となる。そこで,本実施の形態では,誤り確率の求め方
として,基本的にこの方法を用いる。
Correct probability = 3 / (26540 + 3 + 2 + 1) On the other hand, since the error probability is considered to be 1 minus the correct probability, error probability = 1-3 / (26540 + 3 + 2 + 1). Therefore, in this embodiment, this method is basically used as a method of obtaining the error probability.

【0048】しかし,単にこれだけでは確率の求め方と
して粗すぎる場合がある。京大コーパスについて,例え
ば「の」の形態素情報の統計をとってみると,図7
(B)のような結果が得られる。ここで,頻度が191
の「の の だ 判定詞 * 判定詞 ダ列特殊連体
形」の誤り確率を求めると, 誤り確率=1−191/(25739+1601+…) =99.3% となって,ほとんど誤っていると判定される。「の の
だ 判定詞 * 判定詞 ダ列特殊連体形」が正しい
場合も数多くあり,この単純な方法では,正しいのにこ
れを全部誤っていると推定してしまう。
However, there are cases where this is not enough as a method for obtaining the probability. For the Kyoto University Corpus, for example, the statistics of "no" morphological information are shown in Fig. 7.
The result as shown in (B) is obtained. Where the frequency is 191
When the error probability of the “nonodda discriminator * discriminant da string special union form” is calculated, the error probability is 1-191 / (25739 + 1601 + ...) = 99.3%, and it is determined that the error is almost incorrect. It There are many cases where the "nonodda discriminator * discriminator da string special union form" is correct, and this simple method presumes that it is all wrong.

【0049】そこで,本実施の形態では,確率値の算出
に用例ベース手法や決定リスト手法を利用する。用例ベ
ース手法の参考文献としては,以下の参考文献3があ
り,決定リスト手法の参考文献としては,以下の参考文
献4,5がある。 [参考文献3]村田真樹,内元清貴,馬青,井佐原均,
排反な規則を用いた文節まとめあげ,情報処理学会論文
誌,(2000). [参考文献4]David Yarowsky, Decision lists for l
exical ambiguity resolution :Application to accent
restoration in Spanish and French, 32th Annual Me
etingof the Associtation of the Computational Ling
uistics,(1994), pp.88-95. [参考文献5]新納浩幸,複合語からの証拠に重みをつ
けた決定リストによる同音異義語判別,情報処理学会論
文誌,Vol.39, No.12,(1998). 用例ベース手法は,いま解きたいものと良く似た用例を
集め,その用例集合での出現率を確率値とする手法であ
る。
Therefore, in this embodiment, the example-based method and the decision list method are used to calculate the probability value. References to the example-based method include the following references 3, and references to the decision list method include the following references 4 and 5. [Reference 3] Masaki Murata, Kiyotaka Uchimoto, Ma Qing, Hitoshi Isahara,
Summarizing clauses using categorical rules, IPSJ Transactions, (2000). [Reference 4] David Yarowsky, Decision lists for l
exical ambiguity resolution: Application to accent
restoration in Spanish and French, 32th Annual Me
etingof the Associtation of the Computational Ling
uistics, (1994), pp.88-95. [Reference 5] Hiroyuki Shinno, Homophone discrimination by decision list weighting evidence from compound words, IPSJ Transactions, Vol.39, No. 12, (1998). The example-based method is a method in which examples that are very similar to the ones that we want to solve are collected and the occurrence rate in the example set is used as the probability value.

【0050】「のような」の場合,「の」は84個あっ
てすべて「の の だ 判定詞 *判定詞 ダ列特殊連
体形」であるので,正解確率100%,誤り確率0%と
なり,これを間違って誤りと検出することがなくなる。
用例ベース的確率算出方法は,バックオフによる確率推
定を極端なまで行ったことに相当する。また,誤り修正
の場合,自分自身だけの事例を用いると一つも誤りを検
出できなくなるので,最低自分以外に一つ,合計二つ以
上の事例をもってくる必要がある。
In the case of "like", there are 84 "no" s, all of which are "nonode discriminator * discriminant special adjoint form", so the correct answer probability is 100% and the error probability is 0%. This will not be mistakenly detected as an error.
The example-based probability calculation method is equivalent to performing the probability estimation by backoff to the extreme. Also, in the case of error correction, if you use only your own case, you will not be able to detect any errors, so you need to bring at least one case other than yourself, totaling two or more cases.

【0051】一方,決定リスト手法は,多くの素性に展
開し各素性の確信度を求め,確信度の最も高い素性(パ
ターン)のときの,正解確率と誤り確率を用いる方法で
ある。前述した「の」の例の場合,「の」「のような」
「名詞+の」「の+助動詞」などと,いろいろなパター
ンでの確率を求める(ただし,総数が1の素性は用いな
い)。この結果を京大コーパスを用いて計算すると,図
8のようになる。
On the other hand, the decision list method is a method that expands into many features and obtains the certainty factor of each feature, and uses the correct probability and the error probability when the feature (pattern) has the highest certainty factor. In the case of the "no" example above, "no""like"
Find probabilities in various patterns such as "noun + no" and "no + auxiliary verb" (however, do not use features whose total number is 1). When this result is calculated using the Kyoto University Corpus, it becomes as shown in FIG.

【0052】図8における「判定詞の場合の数」は,京
大コーパスで各素性に適合する事例における「の」が判
定詞の場合の数で,「総数」は京大コーパスで各素性に
適合する事例の総数である。例えば,「のような」のパ
ターンは,判定詞の「の」だけが84個出現したことを
意味し,「の+助動詞」のパターンでは,判定詞の
「の」が187個,それ以外の「の」が1個出現したこ
とを意味する。
In FIG. 8, the “number in the case of a discriminant” is the number in the case where the “no” is a discriminant in a case that matches each feature in the Kyoto University Corpus, and the “total” is in each feature in the Kyoto University Corpus. It is the total number of matching cases. For example, the pattern "like" means that only 84 "no" of the discriminant appeared, and the pattern "no + auxiliary verb" had 187 "no" of the discriminant and other This means that one "no" has appeared.

【0053】このデータからの正解確率,誤り確率の求
め方は,先に述べた例と同じで, 正解確率=187/188 誤り確率=1−(187/188) などの計算をして求める。
The method of obtaining the correct answer probability and the error probability from this data is the same as in the above-mentioned example, and the correct answer probability = 187/188 error probability = 1− (187/188).

【0054】また,「確信度」はその規則の確らしさを
意味するものであり,この確信度としては,正解確率と
誤り確率のうち大きい方の値を用いる。例えば,1行目
の「のような」は,確信度100%でほぼ正しい情報と
推測されることになる。この規則は,上記参考文献3で
いう排反な規則に相当する。
The "confidence factor" means the accuracy of the rule. As the confidence factor, the larger value of the correct answer probability and the error probability is used. For example, "like" in the first line is estimated to be almost correct information with a certainty factor of 100%. This rule corresponds to the anti-rule rule in Reference 3 above.

【0055】決定リストでは,この図8の最上位にあ
る,この規則を用いることになり,誤り確率は0となっ
て,用例ベースと同じく「のような」の「の」は,判定
詞で正しいと推定され,間違って誤りと推定することは
ない。図8の上の二行の情報がないときは,誤り確率9
9.3%,確信度99.3%で誤っていると判定され
る。
In the decision list, this rule at the top of FIG. 8 is used, the error probability becomes 0, and the "no" of "like" is a discriminant as in the example base. It is presumed to be correct and cannot be mistakenly estimated to be incorrect. If there is no information in the top two rows in Fig. 8, the error probability 9
It is judged to be erroneous with 9.3% and certainty factor of 99.3%.

【0056】次に「修正後のタグが正しい確率」の求め
方であるが,これは,図7(A)の読点の簡単な場合で
考えると,「修正後のタグ」は頻度の最も大きい「、
、* 特殊 読点 * *」とすればよく,これが正
しい確率は,これの出現数を総数で割ったもの,すなわ
ち,99.99%(=26540/26543)とな
る。
Next, the method of obtaining the “corrected probability of the corrected tag” is considered. In the case of the simple reading point in FIG. 7A, the “corrected tag” has the highest frequency. ",
, * Special reading point ** ", and the correct probability is the number of appearances of this, divided by the total number, that is, 99.99% (= 26540/26543).

【0057】以上は単純な場合の例であるが,用例ベー
ス手法,決定リスト手法の場合ともに,誤り確率などを
求めた事例集合でこの計算をして,「修正後のタグが正
しい確率」を求めればよい。
Although the above is an example of a simple case, in both the case-based method and the decision list method, this calculation is performed using a set of cases in which error probabilities and the like are obtained, and the "corrected tag correct probability" is calculated. Just ask.

【0058】もちろん確率値を算出する方法は,用例ベ
ース手法,決定リスト手法に限られるわけではなく,例
えば最大エントロピー法など,その他の手法を用いて確
率値を求めることもできる。
Of course, the method of calculating the probability value is not limited to the example-based method and the decision list method, and the probability value can be obtained by using other methods such as the maximum entropy method.

【0059】[形態素情報の修正例]以下では,形態素
情報のコーパス修正を試みた結果について述べる。ま
ず,対象とする京大コーパスでの形態素情報の調査を行
った。この結果を図9に示す。図9における全形態素数
はコーパスにあったすべての形態素の数を意味する。ま
た,曖昧形態素数はコーパスにあった形態素のうち,コ
ーパス中の他の形態素と表記が同じであった形態素の数
を意味する。例えば「の の * 助詞 格助詞*
*」,「の の * 助詞 接続助詞 * *」といっ
たものは,表記が同じ「の」で異なる形態素なので曖昧
形態素と考える。
[Correction Example of Morphological Information] The result of an attempt to correct the corpus of morphological information will be described below. First, we investigated morphological information in the target Kyoto University Corpus. The result is shown in FIG. The total number of morphemes in FIG. 9 means the number of all morphemes in the corpus. The ambiguous morpheme number means the number of morphemes that have the same notation as other morphemes in the corpus among the morphemes in the corpus. For example, "no no * particle particle case particle *
We think that “*” and “no no * particle postpositional connective particle * *” are different morphemes because they have the same notation “no” and are ambiguous morphemes.

【0060】また,この調査では,5つまでの形態素連
続までは「では」と「で|は」のように形態素の区切り
が異なるものが他にある場合も曖昧形態素と考えている
(つまり,この場合,「では」「で」「は」はそれぞれ
曖昧形態素となる)。
Further, in this investigation, up to five consecutive morphemes are considered ambiguous morphemes even when there are other morpheme delimiters such as "de" and "de│wa" (that is, In this case, "de,""de," and "ha" are ambiguous morphemes, respectively.)

【0061】図9中の「読み情報あり」と「読み情報な
し」は,京大コーパスが読み情報に弱いという理由から
設定したもので,「読み情報あり」は,読み情報も含め
て曖昧形態素の数を数えたもので,「読み情報なし」
は,読み情報を省いて曖昧形態素の数を数えたものを意
味する。全形態素数は「読み情報あり」と「読み情報な
し」とで変わることはない。
“Reading information present” and “no reading information” in FIG. 9 are set because the Kyoto University Corpus is weak in reading information. “Reading information present” includes ambiguous morphemes including reading information. "No reading information"
Means the number of fuzzy morphemes counted without reading information. The total morpheme number does not change between "with reading information" and "without reading information".

【0062】例えば「読み情報なし」では,「日 ひ
* 名詞 時相名詞 * *」と「日 び * 名詞
時相名詞 * *」のように読み情報のみが異なる場
合,これらを異なる形態素として扱わない。
For example, in the case of "no reading information",
* Noun temporal noun * * "and" day * noun
If only reading information is different, such as a temporal noun **, these are not treated as different morphemes.

【0063】図9からわかるように,京大コーパス約2
万文には,487,691形態素が存在しており,人手
で50万の形態素を徹底的に調べあげるとコーパス修正
ができるがそれは非常に大変である。また,曖昧形態素
数は,読み情報の修正を諦めたとしても,270,53
4形態素存在しており,修正範囲を曖昧な形態素に絞っ
たところで網羅的に人手で修正するのは困難である。
As can be seen from FIG. 9, the Kyoto University Corpus is about 2
There are 487,691 morphemes in Manbun, and if you thoroughly examine 500,000 morphemes manually, you can correct the corpus, but it is very difficult. In addition, the ambiguous morphological prime is 270, 53 even if the reading information is given up.
There are four morphemes, and it is difficult to comprehensively correct them manually when the correction range is limited to ambiguous morphemes.

【0064】曖昧形態素数の異なりは,5,539であ
るので,曖昧形態素の種類ごとにまとめて出力させ,そ
れを見て人手で修正することも可能かとも思われるが,
各種類ごとに多数の事例が出力されると思われ,それを
用いた修正も若干無理があると思われる。
Since the difference in the number of ambiguous morphemes is 5,539, it may be possible to output them collectively for each kind of ambiguous morpheme, and to see and correct them manually.
It seems that a large number of cases are output for each type, and it seems that it is not possible to correct using them.

【0065】以上のことから,コーパス修正は難しい問
題であることがわかる。このため,このコーパス修正を
容易に行う技術を確立することは重要である。
From the above, it can be seen that corpus correction is a difficult problem. Therefore, it is important to establish a technology that facilitates this corpus correction.

【0066】以下に述べる形態素情報の修正の例では,
読み情報は対象から外している。そこで,図1の高速検
索用に変形したコーパス21では,入力したコーパス2
0を変形し,読み情報の項目を消している。「タグが誤
っている確率」の算出には,前に述べたように用例ベー
ス手法と決定リスト手法とを利用する。
In the example of modifying morpheme information described below,
Reading information is excluded from the target. Therefore, in the corpus 21 modified for high-speed search in FIG. 1, the input corpus 2
0 is transformed and the reading information item is deleted. The “probability that the tag is incorrect” is calculated by using the example-based method and the decision list method as described above.

【0067】まず,1〜5個の形態素連続における形態
素情報を誤りの候補とする。この誤りの各候補に対し,
「タグが誤っている確率」と「確信度」と「修正後のタ
グ」を算出する。次に,確信度の大きい誤り候補から順
に欲張り法でコーパスを修正する。このとき,各修正箇
所には先に算出した「タグが誤っている確率」と「修正
後のタグ」を付与しておく。「タグが誤っている確率」
が0.5より大きい形態素のタグが誤っているものと判
定され,「修正後のタグ」に修正される。0.5以下の
形態素のタグは正しいものと判断され,修正の対象とな
らない。
First, morpheme information in 1 to 5 morpheme sequences is set as an error candidate. For each candidate for this error,
The "probability that the tag is incorrect", the "confidence factor", and the "corrected tag" are calculated. Next, the corpus is corrected by the greedy method in order from the error candidate with the highest certainty. At this time, the “probability that the tag is incorrect” and the “corrected tag” calculated previously are added to each corrected portion. "Probability of incorrect tag"
It is determined that the tag of the morpheme in which is greater than 0.5 is incorrect, and is corrected to the “corrected tag”. A morpheme tag of 0.5 or less is determined to be correct and is not a target for modification.

【0068】「タグが誤っている確率」と「確信度」と
「修正後のタグ」の算出方法は,以下のとおりである。
まず,誤り候補から変更可能な候補をコーパスより取り
出す。ここで,変更可能な候補とは,表記が同じもので
ある。例えば「ロシア *名詞 普通名詞 * *」が
誤り候補の場合,「ロシア * 名詞 地名 **」が
変更可能な候補として取り出される。
The methods of calculating the "probability that the tag is incorrect", the "confidence factor", and the "corrected tag" are as follows.
First, candidates that can be changed from the error candidates are extracted from the corpus. Here, the changeable candidates have the same notation. For example, if "Russian * noun common noun **" is an error candidate, "Russia * noun place name **" is extracted as a changeable candidate.

【0069】ここで,用例ベース手法の場合には,誤り
候補のまわりの形態素の状態が最もよく似ている用例を
集め,その用例集合で前述した方法で「タグが誤ってい
る確率」と「修正後のタグ」を推定する。最もよく似て
いる用例の集め方は,候補の形態素から出発し,それに
対して,その前後の形態素の品詞,品詞細分類,残りの
全情報を順次追加していき,さらにその隣の形態素から
もそのような情報を順次追加する。これを繰り返し,検
出される用例が1個だけになる直前の状態のときの用例
を利用する。
Here, in the case of the example-based method, the examples in which the states of the morphemes around the error candidates are the most similar are collected, and the "probability of tag error" and " Estimate the corrected tag ". The method of collecting the most similar examples starts from a candidate morpheme, and adds the part of speech of the morpheme before and after it, subclassification of the part of speech, and all the remaining information in order, and then from the morpheme next to it. Will add such information in sequence. By repeating this, the example in the state immediately before the number of detected examples is only one is used.

【0070】「確信度」は,ここでは「タグが誤ってい
る確率」と「タグが正しい確率」のうち大きい方の値と
している。「確信度」を図5に示した例のように,誤り
候補の正解確率と,修正候補の正解確率の大きい方の値
としてもよい。
Here, the "confidence factor" is the larger value of the "probability that the tag is incorrect" and the "probability that the tag is correct". As in the example shown in FIG. 5, the “certainty factor” may be the larger value of the correct probability of the error candidate and the correct probability of the correction candidate.

【0071】また,決定リスト手法の場合には,以下で
説明する16個の素性を用いて,前述した方法を用いて
「タグが誤っている確率」と「確信度」と「修正後のタ
グ」を推定する。16個の素性については,まず,各形
態素の情報として以下の四つのパターンの情報を考え,
この四つのパターン情報を,候補となっている形態素の
前後二つの形態素についてあらゆる組合わせを作って,
合計16個の素性を作り,それを決定リスト用の素性と
する。 (1)情報なし (2)品詞情報のみ (3)品詞情報と品詞細分類情報のみ(活用する形態素
の場合には,品詞情報と活用形のみを用いる) (4)形態素情報すべて 上記の方法でコーパス修正を行った結果は,以下のとお
りであった。
In the case of the decision list method, the "probability that the tag is wrong", the "confidence factor", and the "corrected tag" are calculated by using the above-described method using 16 features described below. To estimate. For the 16 features, first consider the following four patterns of information as information of each morpheme,
All four combinations of these four pattern information are created for two morphemes before and after the candidate morphemes,
A total of 16 features are created and used as the features for the decision list. (1) No information (2) Part-of-speech information only (3) Part-of-speech information and part-of-speech subclassification information only (in the case of a morpheme to be used, use only the part-of-speech information and the inflectional form) (4) All morpheme information The results of corpus correction are as follows.

【0072】用例ベース手法では,591個がタグ誤り
と検出され,決定リスト手法では,4,054個がタグ
誤りと検出された。その検出されたデータの精度を,図
10に示す。
The example-based method detected 591 tag errors and the decision list method detected 4,054 tag errors. The accuracy of the detected data is shown in FIG.

【0073】図10中の「ランダム300個」は,「誤
り確率」のことを考慮せずにコーパスの先頭300個を
調査したときの精度で,ほぼ平均精度に相当する。「上
位x個」は,集計したデータを「誤り確率」に基づいて
ソートし,「誤り確率」の上位x個のものの精度を調べ
たものである。「検出精度」は,誤り部分を正しく検出
した箇所の数を総数で割ったもので,「修正精度」は,
誤り部分を正しく修正した箇所の数を総数で割ったもの
である。また図10中の「不明」は,正否がはっきりし
ない場合の数である。「不明」としたものには,副詞と
名詞,サ変名詞と普通名詞,普通名詞と動詞連用形な
ど,タグの定義のゆれに関係しそうなものも含めてい
る。検出精度,修正精度の算出では,検出,修正を失敗
したものとして扱っている。
"Random 300" in FIG. 10 is the accuracy when the top 300 corpus are investigated without considering the "error probability", and corresponds to almost average accuracy. “Top x” is the result of sorting the aggregated data based on “error probability” and checking the accuracy of the top x “error probability”. "Detection accuracy" is the number of places where an error is correctly detected divided by the total number, and "correction accuracy" is
It is the number of places where the erroneous part was corrected correctly divided by the total number. Further, “unknown” in FIG. 10 is the number when the correctness is not clear. “Unknown” includes adverbs and nouns, sahen nouns and common nouns, common nouns and verbs, and other forms that are likely to be related to fluctuations in tag definitions. In the calculation of detection accuracy and correction accuracy, detection and correction are treated as failures.

【0074】今回の実験では,図10のように,用例ベ
ース手法よりも決定リスト手法の方が抽出数,抽出精度
ともによかった。ただし,この結果は本実施の形態にお
ける素性の設定状況によるかもしれず,常に決定リスト
手法の方がよいとは限らない。
In this experiment, as shown in FIG. 10, the decision list method is better in the number of extractions and the extraction accuracy than in the example-based method. However, this result may depend on the feature setting status in the present embodiment, and the decision list method is not always better.

【0075】決定リスト手法では,抽出総数が約4,0
00で平均精度(図10の「ランダム300個」) が5
0%程度あるので,おおよそこの4,000のデータを
見るだけで2,000個の誤りを修正できる計算とな
る。また,上位での精度は70%〜80%と比較的高く
誤りを検出できており,この精度ならば人手でこれをチ
ェックしつつコーパス修正をするのもそれほど負担にな
らないと思われ,十分実用的にコーパス修正に利用可能
であると考えられる。
In the decision list method, the total number of extractions is about 4,0.
When 00, the average accuracy (“random 300” in FIG. 10) is 5
Since it is about 0%, it is possible to correct 2,000 errors by just looking at this 4,000 data. In addition, the accuracy in the upper level is relatively high at 70% to 80%, and errors can be detected. With this accuracy, it seems that it will not be too burdensome to correct the corpus while manually checking it, so it is practical enough. It can be considered that it can be used for corpus correction.

【0076】図11は,決定リスト手法の上位での修正
結果の例を示している。該当箇所の欄に×印をつけてい
るものは誤り検出失敗を意味する。検出の上位に
は,「、、 * *」といったコーパス作成中に何らか
のデータ作成ミスが生じたのではないかと思われる明ら
かな誤りも含まれている。
FIG. 11 shows an example of the correction result in the higher level of the decision list method. Those marked with a cross in the column of the relevant part mean that error detection has failed. At the top of the detection, there is also an obvious error such as ",, **", which seems to have occurred some kind of data creation error during corpus creation.

【0077】「の * 連体詞 * * *」「は *
助詞 格助詞 * *」というアノテーターによるミ
スと思われる誤りもある。「〜ぐらいの〜」を誤ってコ
ーパス誤りと推定しているが,これはコーパス中の他の
誤りが原因となっている。「〜ぐらいの〜」の「の」は
ほとんど判定詞「だ」であるが,コーパスで格助詞
「の」としている箇所が二つあるため,決定リストの一
つの素性「〜ぐらいの〜」における判定詞「だ」のタグ
が合っている確率が1にならず,誤りと検出してしまっ
ている。
"No * adnominal * * *""ha *
There is also an error that seems to be a mistake made by the annotator "particle particle case * *". We erroneously estimate "~ about ~" as a corpus error, which is caused by other errors in the corpus. Most of the "no" in "~ about ~" is the determinant "da", but there are two places in the corpus that the case particle is "no". The probability that the tag of the discriminant "da" matches does not become 1 and it has been detected as an error.

【0078】決定リスト手法の場合には,手法の原理が
簡単であるために,誤り検出を失敗したとき,それなら
こっちのほうが誤っているのではないかと推測すること
が容易なので,誤り検出を失敗したとしても,副産物と
して他の誤りを検出できる可能性が高い。
In the case of the decision list method, since the principle of the method is simple, when error detection fails, it is easy to guess that this is wrong, so error detection fails. Even if you do, there is a high possibility that other errors can be detected as a by-product.

【0079】[構文情報の修正例]次に,構文情報の修
正結果について述べる。本実験では,京大コーパスのう
ち,1995年1月10日までの約1万文のデータを利
用した。以下で修正方法を述べる。ある文節Xの係り先
がYのときに,その文節Xの係り先のタグが正しいかど
うかを判定する場合,他の係り先候補をZ1,Z2,Z
3,…としたとき,X,Y,Zi (i=1,2,3,
…)の三つ組のデータに対し,YとZi の比較でYが係
り先となる確率とZi が係り先になる確率を求め(この
二つの確率の求め方は後で述べる) ,これらの確率の大
きい方を「確信度」とし,Zi が係り先になる確率を
「誤っている確率」とし,Zi を「修正タグ」とする。
[Example of Correcting Syntax Information] Next, the result of modifying the syntax information will be described. In this experiment, about 10,000 sentences of data from the Kyoto University Corpus until January 10, 1995 were used. The correction method will be described below. When the dependency of a certain clause X is Y and it is determined whether the tag of the dependency of the clause X is correct, the other candidate candidates are Z1, Z2, Z.
3, ..., X, Y, Zi (i = 1, 2, 3,
…) Of the three sets of data, Y and Zi are compared to find the probability that Y is the dependent and the probability that Zi is the dependent (the method of finding these two probabilities is described later). The larger one is defined as “confidence”, the probability that Zi is a dependent is defined as “wrong probability”, and Zi is defined as “correction tag”.

【0080】これをすべてのZ1,Z2,Z3,…に対
して計算し,このうち,「誤っている確率」が最も大き
いZiの「誤っている確率」と「修正タグ」を,文節X
に付与する。「誤っている確率」が0.5よりも大きい
文節の係り先タグは誤っていると判断し,その係り先タ
グは「修正タグ」に修正する。
This is calculated for all Z1, Z2, Z3, ... Of these, the “erroneous probability” and “correction tag” of Zi, which has the largest “erroneous probability”, are defined as the clause X.
Given to. It determines that the dependent tag of the clause having a “probability of being erroneous” is larger than 0.5 is erroneous, and modifies the dependent tag to the “correction tag”.

【0081】次に,X,Y,Zi の三つ組のデータにお
いて,Yが係り先となる確率とZiが係り先になる確率
の求め方を記述する。この確率の算出には,決定リスト
を利用する。文節情報のAパターンとして以下を定義す
る。 (1)情報なし (2)付属語の品詞の情報 (3)付属語の品詞と品詞細分類の情報 (4)付属語の品詞と品詞細分類の情報と,自立語の品
詞 (5)付属語の品詞と品詞細分類の情報と,自立語の品
詞と分類語彙表の分類番号の上位5桁 (6)付属語の品詞と品詞細分類の情報と,自立語の品
詞と分類語彙表の分類番号の上位5桁と単語自体 また,文節情報のBパターンとして以下を定義する。 (1)情報なし (2)自立語の品詞 (3)自立語の品詞と品詞細分類 (4)自立語の品詞と品詞細分類と分類語彙表の分類番
号の上位5桁 (5)自立語の品詞と品詞細分類と分類語彙表の分類番
号の上位5桁と単語自体 文節XにはAパターンを,文節Y,Zi にはBパターン
を利用し,すべての各パターンの組合わせ,つまり,6
×5×5の素性を作る。また,YとZi は,どちらが文
で先に出現しているかも素性とし,合計6×5×5×2
の素性をこの決定リストの素性とする。
Next, in the three sets of data of X, Y, and Zi, a method of obtaining the probability that Y is the dependent and the probability that Zi is the dependent will be described. A decision list is used to calculate this probability. The following is defined as the A pattern of clause information. (1) No information (2) Part-of-speech information of adjuncts (3) Part-of-speech and part-of-speech subclassification information of adjuncts (4) Part-of-speech and part-of-speech subclassification information of adjuncts, and part-of-speech (5) adjunct Part of speech of a word and subclassification of part-of-speech information, the part of speech of an independent word and the upper 5 digits of the classification number of the classification vocabulary table (6) Information of part-of-speech and part-of-speech subdivision of an adjunct word, part-of-speech of an independent word and classification vocabulary table The upper 5 digits of the classification number, the word itself, and the B pattern of the phrase information are defined below. (1) No information (2) Part-of-speech of independent words (3) Part-of-speech and part-of-speech subdivision of independent words (4) Part-of-speech and part-of-speech subdivision of independent words and upper 5 digits of classification number in classification vocabulary table (5) Independent word The part-of-speech, the part-of-speech subclassification, the upper 5 digits of the classification number of the classification vocabulary and the word itself, the A pattern is used for the clause X, and the B pattern is used for the clauses Y and Zi. 6
Create a feature of × 5 × 5. In addition, Y and Zi have a total of 6 × 5 × 5 × 2 as a feature, which one appears first in the sentence.
The feature of is the feature of this decision list.

【0082】この素性ごとに,コーパスより文節Yが係
り先になる場合の数と,Zi が係り先になる場合の数を
求め,それぞれをその和で割ることでそれぞれの確率値
を求める。
For each of these features, the number of cases in which the clause Y is the dependent of the corpus and the number of cases in which the Zi is the dependent are obtained, and the probability values are obtained by dividing each by the sum.

【0083】また,このとき大きい方の確率値を確信度
とする。この計算をすべての素性で行ってやり,確信度
が最も大きいときの素性の,Yが係り先となる確率とZ
i が係り先になる確率を,X,Y,Zi の三つ組のデー
タにおけるその確率とする。ただし,文節Yが係り先に
なる場合の数が1で,そうでない場合の数が0となる素
性のデータは削除する。
At this time, the larger probability value is used as the certainty factor. This calculation is performed for all the features, and the probability that Z is the dependent of the feature with the highest certainty factor and Z
The probability that i becomes a dependent is the probability in the triplet data of X, Y, Zi. However, the feature data in which the number of cases where the clause Y is the dependent is one and the number of cases where it is not is zero is deleted.

【0084】この方法で実験を行った結果を,図12に
示す。また,正しく構文誤りを修正できたものの例を,
図13に示す。図13において,墨付き括弧の記号で囲
まれている文節の係り先が,コーパスでは一重下線の文
節であったが,二重下線の文節に正しく修正できたこと
を示している。図12のように抽出数がおよそ1,45
6で,平均検出精度が13%なので,この1,456の
データから200個くらい誤りを検出できると期待され
る。精度が格段に高いと言えないがそれなりにコーパス
の誤り修正ができており,本手法の汎用性の検証には十
分であると思われる。
The results of experiments conducted by this method are shown in FIG. In addition, an example of what was able to correct the syntax error correctly,
It shows in FIG. In FIG. 13, the destination of the clause enclosed by the black square brackets is a single underlined clause in the corpus, but it can be correctly corrected to a double underlined clause. As shown in Fig. 12, the number of extractions is about 1,45
6, the average detection accuracy is 13%, so it is expected that about 200 errors can be detected from the 1,456 data. Although it cannot be said that the accuracy is extremely high, the corpus error can be corrected as it is, and it seems sufficient for verifying the versatility of this method.

【0085】[0085]

【発明の効果】以上説明したように,本発明によれば,
単にコーパス誤りの指摘だけでなく,誤った部分をどう
直せば良いかも示すため,コーパス修正の効率が向上す
る。
As described above, according to the present invention,
The efficiency of corpus correction is improved by not only indicating the corpus error but also indicating how to correct the incorrect part.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明のシステム構成例を示す図である。FIG. 1 is a diagram showing a system configuration example of the present invention.

【図2】本システムの処理フローチャートである。FIG. 2 is a processing flowchart of the present system.

【図3】京大コーパスの例を示す図である。FIG. 3 is a diagram showing an example of a Kyoto University corpus.

【図4】京大コーパスのデータ構造の説明図である。FIG. 4 is an explanatory diagram of a data structure of the Kyoto University Corpus.

【図5】決定リストを用いる場合の確率値算出の処理の
流れを示す図である。
FIG. 5 is a diagram showing a flow of a process of calculating a probability value when a decision list is used.

【図6】決定リストを用いて構文情報を修正する場合の
確率値算出の処理の流れを示す図である。
FIG. 6 is a diagram showing a flow of a probability value calculation process when the syntax information is corrected using the decision list.

【図7】形態素情報の統計情報を示す図である。FIG. 7 is a diagram showing statistical information of morpheme information.

【図8】決定リストによる確率値算出方法の例を示す図
である。
FIG. 8 is a diagram showing an example of a probability value calculation method based on a decision list.

【図9】形態素情報の調査結果の例を示す図である。FIG. 9 is a diagram showing an example of a survey result of morpheme information.

【図10】形態素情報の修正結果の例を示す図である。FIG. 10 is a diagram showing an example of a correction result of morpheme information.

【図11】形態素誤り修正結果の例を示す図である。FIG. 11 is a diagram showing an example of a morpheme error correction result.

【図12】構文情報の修正結果の例を示す図である。FIG. 12 is a diagram illustrating an example of a modification result of syntax information.

【図13】正しく構文誤りを修正できた例を示す図であ
る。
FIG. 13 is a diagram showing an example in which a syntax error can be corrected correctly.

【符号の説明】[Explanation of symbols]

10 コーパス誤りの検出・修正システム 11 誤り候補切り出し部 12 誤り箇所検出部 13 誤り箇所修正部 20 コーパス 21 高速検索用に変形したコーパス 22 修正されたコーパス 10 Corpus error detection / correction system 11 Error candidate cutout unit 12 Error location detector 13 Error correction part 20 corpus 21 Corpus modified for high-speed search 22 modified corpus

───────────────────────────────────────────────────── フロントページの続き (72)発明者 内元 清貴 兵庫県神戸市西区岩岡町岩岡588−2 郵政省通信総合研究所 関西先端研究セ ンター内 (72)発明者 馬 青 兵庫県神戸市西区岩岡町岩岡588−2 郵政省通信総合研究所 関西先端研究セ ンター内 (72)発明者 井佐原 均 兵庫県神戸市西区岩岡町岩岡588−2 郵政省通信研合研究所 関西先端研究セ ンター内 (56)参考文献 信本浩二・木下恭子・黒橋禎夫,モダ リティおよび用言のガ格情報を付与した コーパスの作成,言語処理学会第6回年 次大会発表論文集,日本,2000年 3月 7日,p.20−p.23 乾孝司・乾健太郎,統計的部分係り受 け解析における係り受け確率の利用法, 情報処理学会研究報告99−NL−134− 3,日本,1999年11月26日,Vol. 99,No.95,p.15−p.22 村田真樹・内元清貴・馬青・井佐原 均,学習による文節まとめあげ,情報処 理学会研究報告98−NL−128−4,日 本,1998年11月 6日,Vol.98,N o.99,p.23−p.30 (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/28 JICSTファイル(JOIS)─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Kiyotaka Uchimoto 588-2 Iwaoka-cho, Nishi-ku, Kobe-shi, Hyogo Prefectural Telecommunications Research Institute Kansai Advanced Research Center (72) Inventor Ma Qo Nishi-ku, Kobe-shi, Hyogo Prefecture 588-2 Iwaoka, Iwaoka Town Communication Research Institute, Ministry of Posts and Telecommunications, Kansai Advanced Research Center (72) Inventor, Hitoshi Isahara 588-2 Iwaoka Town, Nishi-ku, Kobe City, Hyogo Prefectural Institute of Communications Research, Kansai Advanced Research Center ( 56) References Koji Nobumoto, Kyoko Kinoshita, Sadao Kurohashi, Creation of corpus with moth information on modality and idiom, Proceedings of the 6th Annual Conference of Linguistic Processing Society, Japan, March 2000 7th, p. 20-p. 23 Koji Inui and Kentaro Inui, Usage of Dependence Probability in Statistical Partial Dependency Analysis, IPSJ Research Report 99-NL-134-3, Japan, November 26, 1999, Vol. 99, No. 95, p. 15-p. 22 Maki Murata, Kiyotaka Uchimoto, Qing Mao, Hitoshi Isahara, Summary of Phrase by Learning, Information Processing Society of Japan, Research Report 98-NL-128-4, Nihon, November 6, 1998, Vol. 98, No. 99, p. 23-p. 30 (58) Fields surveyed (Int.Cl. 7 , DB name) G06F 17/21-17/28 JISST file (JOIS)

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 コンピュータが読み取り可能な記憶装置
に所定のデータ構造で格納されたタグ付きコーパスの誤
りを検出し修正するためのコーパス誤りの検出・修正
理装置であって,前記 タグ付きコーパスが格納された記憶装置から,所定
の個数以下のデータ項目の組を取り出し,検査対象の誤
り候補とする誤り候補切り出し手段と, 決定リスト法,用例ベース手法または最大エントロピー
法のいずれかの学習アルゴリズムを用いて算出する誤り
候補の正解確率であって,前記検査対象の誤り候補が出
現する場所の周辺のデータ要素のパターンと同じ形式の
パターンが出現する場合におけるその誤り候補の出現す
る確率である正解確率,または決定リスト法,用例ベー
ス手法または最大エントロピー法のいずれかの学習アル
ゴリズムを用いて算出する前記検査対象の誤り候補と同
じ表記を持つ変更可能な候補の正解確率であって,前記
変更可能な候補が出現する場所の周辺のデータ要素のパ
ターンと同じ形式のパターンが出現する場合におけるそ
の変更可能な候補の出現する確率である正解確率に基づ
いて,前記検査対象の誤り候補のタグが誤っているかど
うかを評価する誤り箇所検出手段と, 前記評価結果に基づいて修正候補の提示または修正され
たコーパスを出力する誤り箇所修正手段とを備える ことを特徴とするコーパス誤りの検出・修正処理装置
1. A computer-readable storage device.
A corpus error detection / correction process for detecting and correcting errors in a tagged corpus stored in a specified data structure in
A management apparatus, wherein the tagged corpus stored memory, retrieve the set of following data items predetermined number, and the error candidate clipping means to be inspected of the error candidate decision list method, example-based approach Or the probability of a correct answer of an error candidate calculated by using one of the learning algorithms of the maximum entropy method, in which a pattern of the same format as the pattern of the data element around the place where the error candidate to be checked appears Correct probability that is the probability of occurrence of the error candidate in, or changeable with the same notation as the error candidate of the inspection target calculated using the learning algorithm of either the decision list method, the example-based method, or the maximum entropy method Probability of correct answer of the candidate, which is the same as the pattern of data elements around the place where the modifiable candidate appears Error location detection means for evaluating whether or not the tag of the error candidate to be inspected is incorrect, based on the correct answer probability that is the probability that the modifiable candidate appears when the expression pattern appears, and the evaluation result And a correction part for outputting a correction candidate based on the correction candidate and outputting a corrected corpus, and a corpus error detection / correction processing device .
【請求項2】 コンピュータが読み取り可能な記憶装置
に所定のデータ構造で格納されたタグ付きコーパスの誤
りを検出し修正するためのコーパス誤りの検出・修正
理装置であって,前記 タグ付きコーパスが格納された記憶装置から,ある
文節Xの係り先がYのときに,他の係り先候補をZ1,
Z2,Z3,…として,X,Y,Zi (i=1,2,
3,…)といった三つ組のデータを誤り候補の単位とし
て切り出す誤り候補切り出し手段と, あらかじめ定義した文節情報の各パターンについて,現
在の検査対象パターンの形でのコーパスでの,前記Yが
係り先になる総数を,検査対象パターンのコーパスにお
ける総数で割ったものを誤り候補の正解率として算出
し,または現在の検査対象パターンの形でのコーパスで
の,前記Zi (i=1,2,3,…)が係り先になる総
数を,検査対象パターンのコーパスにおける総数で割っ
たものを変更可能な候補Zi の正解率として算出し,切
り出した誤り候補のタグが誤っているかどうかを,前記
パターンのすべてについて算出した前記誤り候補の正解
確率または変更可能な候補の正解確率に基づいて評価す
る誤り箇所検出手段と, 前記評価結果に基づいて修正候補の提示または修正され
たコーパスを出力する誤り箇所修正手段とを備える ことを特徴とするコーパス誤りの検出・修正処理装置。
2. A computer-readable storage device
A corpus error detection / correction process for detecting and correcting errors in a tagged corpus stored in a specified data structure in
A sense device, from the tagged corpus is stored the storage device, when dependency destination of a clause X is Y, the other the dependency destination candidate Z1,
As Z2, Z3, ..., X, Y, Zi (i = 1, 2,
For each pattern of pre-defined bunsetsu information, the above-mentioned Y in the corpus in the form of the current pattern to be inspected is used as a reference. Is calculated as a correct answer rate of an error candidate by dividing the total number by the total number in the corpus of the pattern to be inspected, or Zi (i = 1, 2, 3, 3) in the corpus in the form of the current pattern to be inspected. ...) is the number of dependents divided by the total number in the corpus of the pattern to be inspected, and is calculated as the correct answer rate of the changeable candidate Zi, and it is determined whether the extracted error candidate tag is incorrect. Error location detection means for evaluating based on the correct answer probability of all the error candidates or the correct answer probability of changeable candidates calculated for all; Detecting and correcting processing apparatus corpus errors, characterized in that it comprises a error location correcting means for outputting a present or modified corpus correction candidates based.
【請求項3】 コンピュータが読み取り可能な記憶装置
に所定のデータ構造で格納されたタグ付きコーパスの誤
りを検出し修正する処理をコンピュータが実行するコー
パス誤りの検出・修正処理方法であって,前記 タグ付きコーパスが格納された記憶装置から,所定
の個数以下のデータ項目の組を取り出し,検査対象の誤
り候補とする過程と, 決定リスト法,用例ベース手法または最大エントロピー
法のいずれかの学習アルゴリズムを用いて算出する誤り
候補の正解確率であって,前記検査対象の誤り候補が出
現する場所の周辺のデータ要素のパターンと同じ形式の
パターンが出現する場合におけるその誤り候補の出現す
る確率である正解確率,または決定リスト法,用例ベー
ス手法または最大エントロピー法のいずれかの学習アル
ゴリズムを用いて算出する前記検査対象の誤り候補と同
じ表記を持つ変更可能な候補の正解確率であって,前記
変更可能な候補が出現する場所の周辺のデータ要素のパ
ターンと同じ形式のパターンが出現する場合におけるそ
の変更可能な候補の出現する確率である正解確率に基づ
いて,前記検査対象の誤り候補のタグが誤っているかど
うかを評価する過程と, 前記評価結果に基づいて修正候補の提示または修正され
たコーパスを出力する過程とを有する ことを特徴とするコーパス誤りの検出・修正処理方法。
3. A computer-readable storage device
A method of detecting and correcting a corpus error, wherein a computer executes a process for detecting and correcting an error in a corpus with a tag stored in a predetermined data structure , wherein the corpus with a tag is stored. The process of extracting a set of data items of a predetermined number or less from the storage device and making them error candidates to be inspected, and the error candidates calculated using the decision list method, the example-based method, or the maximum entropy method learning algorithm. Correct probability, which is the probability of the error candidate appearing when a pattern of the same format as the pattern of the data element around the place where the error candidate to be inspected appears, or the decision list method , The same table as the error candidate to be checked, which is calculated using either the example-based method or the learning algorithm of the maximum entropy method The probability of the correct answer of the changeable candidate having the notation, and the probability of the changeable candidate appearing when a pattern of the same format as the pattern of the data element around the place where the changeable candidate appears appears. A step of evaluating whether or not the tag of the error candidate to be inspected is incorrect based on a certain correct answer probability; and a step of presenting a correction candidate or outputting a corrected corpus based on the evaluation result. Characteristic corpus error detection / correction processing method.
【請求項4】 コンピュータが読み取り可能な記憶装置
に所定のデータ構造で格納されたタグ付きコーパスの誤
りを検出し修正する処理をコンピュータが実行するコー
パス誤りの検出・修正処理方法であって,前記 タグ付きコーパスが格納された記憶装置から,ある
文節Xの係り先がYのときに,他の係り先候補をZ1,
Z2,Z3,…として,X,Y,Zi (i=1,2,
3,…)といった三つ組のデータを誤り候補の単位とし
て切り出す過程と, あらかじめ定義した文節情報の各パターンについて,現
在の検査対象パターンの形でのコーパスでの,前記Yが
係り先になる総数を,検査対象パターンのコーパスにお
ける総数で割ったものを誤り候補の正解率として算出
し,または現在の検査対象パターンの形でのコーパスで
の,前記Zi (i=1,2,3,…)が係り先になる総
数を,検査対象パターンのコーパスにおける総数で割っ
たものを変更可能な候補Zi の正解率として算出し,切
り出した誤り候補のタグが誤っているかどうかを,前記
パターンのすべてについて算出した前記誤り候補の正解
確率または変更可能な候補の正解確率に基づいて評価す
る過程と, 前記評価結果に基づいて修正候補の提示または修正され
たコーパスを出力する過程とを有する ことを特徴とするコーパス誤りの検出・修正処理方法。
4. A computer-readable storage device
A method of detecting and correcting a corpus error, wherein a computer executes a process for detecting and correcting an error in a corpus with a tag stored in a predetermined data structure , wherein the corpus with a tag is stored. From the storage device, when the destination of a certain clause X is Y, another destination candidate is Z1,
As Z2, Z3, ..., X, Y, Zi (i = 1, 2,
The process of cutting out three sets of data as a unit of an error candidate, and the total number of the Y-related items in the corpus in the form of the current pattern to be inspected for each pattern of the predefined phrase information. , Divided by the total number of patterns to be inspected in the corpus is calculated as the correct answer rate of the error candidate, or the Zi (i = 1, 2, 3, ...) In the corpus in the form of the current pattern to be inspected is The total number of related parties is divided by the total number in the corpus of the pattern to be inspected to calculate the correct answer rate of the changeable candidate Zi, and whether or not the extracted error candidate tag is incorrect is calculated for all the patterns. A process of performing an evaluation based on the correct answer probability of the error candidate or the correct answer probability of a changeable candidate, and presenting a correction candidate based on the evaluation result. Detection and correction method of processing a corpus errors and having a step of outputting the modified corpora.
【請求項5】 コンピュータが読み取り可能な記憶装置
に所定のデータ構造で格納されたタグ付きコーパスの誤
りを,コンピュータが検出し修正するためのプログラム
を記録したコンピュータ読み取り可能な記録媒体であっ
て,前記 タグ付きコーパスが格納された記憶装置から,所定
の個数以下のデータ項目の組を取り出し,検査対象の誤
り候補とする処理と, 決定リスト法,用例ベース手法または最大エントロピー
法のいずれかの学習アルゴリズムを用いて算出する誤り
候補の正解確率であって,前記検査対象の誤り候補が出
現する場所の周辺のデータ要素のパターンと同じ形式の
パターンが出現する場合におけるその誤り候補の出現す
る確率である正解確率,または決定リスト法,用例ベー
ス手法または最大エントロピー法のいずれかの学習アル
ゴリズムを用いて算出する前記検査対象の誤り候補と同
じ表記を持つ変更可能な候補の正解確率であって,前記
変更可能な候補が出現する場所の周辺のデータ要素のパ
ターンと同じ形式のパターンが出現する場合におけるそ
の変更可能な候補の出現する確率である正解確率に基づ
いて,前記検査対象の誤り候補のタグが誤っているかど
うかを評価する処理と, 前記評価結果に基づいて修正候補の提示または修正され
たコーパスを出力する処理とを, コンピュータに実行させるためのプログラムを記録した ことを特徴とするコーパス誤りの検出・修正用プログラ
ム記録媒体。
5. A computer-readable storage device
A program for a computer to detect and correct an error in a tagged corpus stored in a specified data structure in
A computer-readable recording medium recording, from the tagged corpus is stored the storage device, retrieve the set of following data items predetermined number, the process to be inspected of the error candidate decision list method , A correct probability of an error candidate calculated using a learning algorithm such as an example-based method or a maximum entropy method, the pattern having the same format as the pattern of data elements around the place where the error candidate to be checked appears The correct notation that is the probability that the error candidate appears when appears, or the same notation as the error candidate to be checked, which is calculated using a learning algorithm such as the decision list method, the example-based method, or the maximum entropy method. The probability of correct answer of the changeable candidate held, and the data around the place where the changeable candidate appears. A process of evaluating whether or not the tag of the error candidate to be inspected is incorrect based on the correct answer probability, which is the probability that the modifiable candidate appears when a pattern of the same format as the element pattern appears, A program recording medium for corpus error detection / correction, characterized in that a program for causing a computer to perform a process of presenting correction candidates or outputting a corrected corpus based on an evaluation result is recorded.
【請求項6】 コンピュータが読み取り可能な記憶装置
に所定のデータ構造で格納されたタグ付きコーパスの誤
りを,コンピュータが検出し修正するためのプログラム
を記録したコンピュータ読み取り可能な記録媒体であっ
て,前記 タグ付きコーパスが格納された記憶装置から,ある
文節Xの係り先がYのときに,他の係り先候補をZ1,
Z2,Z3,…として,X,Y,Zi (i=1,2,
3,…)といった三つ組のデータを誤り候補の単位とし
て切り出す処理と, あらかじめ定義した文節情報の各パターンについて,現
在の検査対象パターンの形でのコーパスでの,前記Yが
係り先になる総数を,検査対象パターンのコーパスにお
ける総数で割ったものを誤り候補の正解率として算出
し,または現在の検査対象パターンの形でのコーパスで
の,前記Zi (i=1,2,3,…)が係り先になる総
数を,検査対象パターンのコーパスにおける総数で割っ
たものを変更可能な候補Zi の正解率として算出し,切
り出した誤り候補のタグが誤っているかどうかを,前記
パターンのすべてについて算出した前記誤り候補の正解
確率または変更可能な候補の正解確率に基づいて評価す
る処理と, 前記評価結果に基づいて修正候補の提示または修正され
たコーパスを出力する処理とを, コンピュータに実行させるためのプログラムを記録した ことを特徴とするコーパス誤りの検出・修正用プログラ
ム記録媒体。
6. A computer-readable storage device
A program for a computer to detect and correct an error in a tagged corpus stored in a specified data structure in
A computer-readable recording medium recording, from the tagged corpus is stored the storage device, when dependency destination of a clause X is Y, the other the dependency destination candidate Z1,
As Z2, Z3, ..., X, Y, Zi (i = 1, 2,
(3, ...) is extracted as a unit of error candidates, and for each pattern of the previously defined bunsetsu information, the total number of the above-mentioned Y as a reference in the corpus in the form of the current pattern to be inspected is calculated. , Divided by the total number of patterns to be inspected in the corpus is calculated as the correct answer rate of the error candidate, or the Zi (i = 1, 2, 3, ...) In the corpus in the form of the current pattern to be inspected is The total number of related parties is divided by the total number in the corpus of the pattern to be inspected to calculate the correct answer rate of the changeable candidate Zi, and whether or not the extracted error candidate tag is incorrect is calculated for all the patterns. A process of performing an evaluation based on the correct answer probability of the error candidate or the correct answer probability of the changeable candidate, and presenting or correcting the correction candidate based on the evaluation result. Modified and processing for outputting the corpus, detecting and correcting program storage medium of corpus errors, characterized by recording a program for causing a computer to execute.
JP2000280582A 2000-09-14 2000-09-14 Corpus error detection / correction processing apparatus, corpus error detection / correction processing method, and program recording medium therefor Expired - Lifetime JP3396734B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000280582A JP3396734B2 (en) 2000-09-14 2000-09-14 Corpus error detection / correction processing apparatus, corpus error detection / correction processing method, and program recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000280582A JP3396734B2 (en) 2000-09-14 2000-09-14 Corpus error detection / correction processing apparatus, corpus error detection / correction processing method, and program recording medium therefor

Publications (2)

Publication Number Publication Date
JP2002091961A JP2002091961A (en) 2002-03-29
JP3396734B2 true JP3396734B2 (en) 2003-04-14

Family

ID=18765390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000280582A Expired - Lifetime JP3396734B2 (en) 2000-09-14 2000-09-14 Corpus error detection / correction processing apparatus, corpus error detection / correction processing method, and program recording medium therefor

Country Status (1)

Country Link
JP (1) JP3396734B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045777A (en) * 2007-08-01 2015-11-11 金格软件有限公司 Automatic context sensitive language correction and enhancement using an internet corpus
JP5224767B2 (en) * 2007-10-10 2013-07-03 日本電信電話株式会社 Large-scale tagged corpus creation method, apparatus and program thereof
KR101836996B1 (en) * 2016-11-10 2018-04-19 창원대학교 산학협력단 Apparatus and the method for automatic detecting error of annotated corpus using rough set
CN106781790B (en) * 2016-12-10 2022-10-21 杭州博世数据网络有限公司 Online learning system with self-correcting function
JP7027696B2 (en) * 2017-04-25 2022-03-02 富士フイルムビジネスイノベーション株式会社 Information processing equipment and information processing programs

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
乾孝司・乾健太郎,統計的部分係り受け解析における係り受け確率の利用法,情報処理学会研究報告99−NL−134−3,日本,1999年11月26日,Vol.99,No.95,p.15−p.22
信本浩二・木下恭子・黒橋禎夫,モダリティおよび用言のガ格情報を付与したコーパスの作成,言語処理学会第6回年次大会発表論文集,日本,2000年 3月 7日,p.20−p.23
村田真樹・内元清貴・馬青・井佐原均,学習による文節まとめあげ,情報処理学会研究報告98−NL−128−4,日本,1998年11月 6日,Vol.98,No.99,p.23−p.30

Also Published As

Publication number Publication date
JP2002091961A (en) 2002-03-29

Similar Documents

Publication Publication Date Title
US9189473B2 (en) System and method for resolving entity coreference
JP4767694B2 (en) Unauthorized hyperlink detection device and method
Islam et al. Real-word spelling correction using Google Web 1T 3-grams
US7236923B1 (en) Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US8510322B2 (en) Enriched search features based in part on discovering people-centric search intent
Sedláček et al. A new Czech morphological analyser ajka
US20070129934A1 (en) Method and system of language detection
JP6828335B2 (en) Search program, search device and search method
JPH079655B2 (en) Spelling error detection and correction method and apparatus
GB2401972A (en) Identifying special word usage in a document
KR102292040B1 (en) System and method for extracting knowledge based on machine reading
US8583415B2 (en) Phonetic search using normalized string
JP2010287020A (en) Synonym translation system and synonym translation method
Islam et al. Real-word spelling correction using *** web 1tn-gram data set
JP3396734B2 (en) Corpus error detection / correction processing apparatus, corpus error detection / correction processing method, and program recording medium therefor
JP2008117351A (en) Search system
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
Varol et al. Detecting near-duplicate text documents with a hybrid approach
KR101663038B1 (en) Entity boundary detection apparatus in text by usage-learning on the entity's surface string candidates and mtehod thereof
US7343280B2 (en) Processing noisy data and determining word similarity
Vaishnavi et al. Paraphrase identification in short texts using grammar patterns
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
US20090138461A1 (en) Method for discovering design documents
KR20220041337A (en) Graph generation system of updating a search word from thesaurus and extracting core documents and method thereof
Younas et al. An Artificial Intelligence Approach for Word Semantic Similarity Measure of Hindi Language.

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3396734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term