JP6648421B2 - Information processing apparatus for processing documents, information processing method, and program - Google Patents
Information processing apparatus for processing documents, information processing method, and program Download PDFInfo
- Publication number
- JP6648421B2 JP6648421B2 JP2015116798A JP2015116798A JP6648421B2 JP 6648421 B2 JP6648421 B2 JP 6648421B2 JP 2015116798 A JP2015116798 A JP 2015116798A JP 2015116798 A JP2015116798 A JP 2015116798A JP 6648421 B2 JP6648421 B2 JP 6648421B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- external
- dictionary
- information processing
- shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、文書を処理する情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus that processes a document, an information processing method, and a program.
近年、経営判断のスピードアップや的確性向上を目的に、企業が持つデータをテキストマイニングと呼ばれる文書解析技術で分析し、有用な情報を抽出しようとする動きが活発化している。テキストマイニングにおいては、文書中の文を意味のある単語単位で区切る形態素解析が実行されることがある。形態素解析では、事前に準備しておいた単語辞書と処理対象の文から取り出した単語が照合される。しかし、利用者定義文字のような外字が処理対象の文に含まれていると、コンピュータは、文を正しく単語に区切ることができず、有用な情報を抽出することができない。なお、以下では、文書とは一または複数の文を含む情報として例示できる。 2. Description of the Related Art In recent years, there has been an active movement to analyze data possessed by a company using a document analysis technique called text mining to extract useful information for the purpose of speeding up and improving the accuracy of management decisions. In text mining, morphological analysis that separates sentences in a document into meaningful words may be performed. In the morphological analysis, a word extracted from a sentence to be processed is compared with a word dictionary prepared in advance. However, if an external character such as a user-defined character is included in a sentence to be processed, the computer cannot correctly divide the sentence into words, and cannot extract useful information. In the following, a document can be exemplified as information including one or a plurality of sentences.
図1に、コンピュータが、外字を含む文を形態素解析した処理の一例を示す。図1の例では、文中の左から2番目の文字C2と、7番目の文字C7が外字であると想定する。図1の例では、左から1番目の文字C1と2番目の文字C2は、固有名詞を表している。しかし、コンピュータが図1の文を形態素解析した場合に、左から2番目の文字C2の形態
素を認識できない。このため、1番目の文字C1と2番目の文字C2は、それぞれ「漢字」、「??(不明、未定義)」のように判断されている。図1の左から7番目の文字を含
む箇所、つまり左から6番目の文字C6から8番目の文字C8までの箇所も同様である。
FIG. 1 shows an example of a process in which a computer morphologically analyzes a sentence including an external character. In the example of FIG. 1, it is assumed that the second character C2 from the left and the seventh character C7 in the sentence are external characters. In the example of FIG. 1, the first character C1 and the second character C2 from the left represent proper nouns. However, when the computer morphologically analyzes the sentence of FIG. 1, it cannot recognize the morpheme of the second character C2 from the left. Therefore, the first character C1 and the second character C2 are determined as "Kanji" and "?? (unknown, undefined)", respectively. The same applies to the portion including the seventh character from the left in FIG. 1, that is, the portion from the sixth character C6 to the eighth character C8 from the left.
利用者定義文字のように、特定の文字集合に含まれない文字は外字と呼ばれる。さらに具体的には、例えば、1つのコンピュータに対して、そのコンピュータが扱う特定の文字規格に含まれない文字を外字と呼ぶ。一方、特定の文字規格に含まれる文字は内字と呼ばれる。 Characters that are not included in a specific character set, such as user-defined characters, are called external characters. More specifically, for example, for one computer, a character that is not included in a specific character standard handled by that computer is called an external character. On the other hand, characters included in a specific character standard are called inner characters.
上述のように、コンピュータが外字を含んだ文の形態素解析を行うと、コンピュータは文書中の外字部分を認識できない。その結果、外字を含んだ文の形態素解析の実行結果は、不適切なものとなる。そこで、従来から、文を形態素解析する場合には、外字を内字の異字体に置換後に形態素解析が実行される。ここで、内字の異字体とは、例えば、外字に類似した形状の内字であって、外字の代用として用いられるものをいう。 As described above, when a computer performs a morphological analysis of a sentence including an external character, the computer cannot recognize the external character portion in the document. As a result, the execution result of the morphological analysis of the sentence including the external character becomes inappropriate. Therefore, conventionally, when a sentence is subjected to morphological analysis, morphological analysis is performed after replacing an external character with an allograph of an internal character. Here, the variant of the internal character is, for example, an internal character having a shape similar to the external character, which is used as a substitute for the external character.
図2に、コンピュータが文中の外字を内字の異字体に置換し、形態素解析する処理を例示する。図2の例では、図1に例示した文中の左から2番目の文字C2と7番目の文字C7が、それぞれ内字に置換され、形態素解析が実行されている。 FIG. 2 exemplifies a process in which a computer replaces an external character in a sentence with an allograph of an internal character and performs morphological analysis. In the example of FIG. 2, the second character C2 and the seventh character C7 from the left in the sentence illustrated in FIG. 1 are each replaced with an inner character, and morphological analysis is performed.
しかし、外字を内字に置換したとしても、形態素解析の結果が適切なものになるとは限らない。形態素解析は、文を言語で意味を持つ最小の単位に分割し、品詞等を判断する処理ということができる。処理対象の文に外字を含む単語Z1が含まれる場合を想定する。
この文の外字が内字に置き換えられると、単語Z1は、例えば、単語Z2に置き換えられることになる。
However, even if the external characters are replaced with the internal characters, the result of the morphological analysis does not always become appropriate. The morphological analysis can be said to be a process of dividing a sentence into minimum units having meaning in a language and determining a part of speech or the like. It is assumed that a sentence to be processed includes a word Z1 including an external character.
When the external character of this sentence is replaced with the internal character, the word Z1 is replaced with, for example, the word Z2.
しかし、形態素解析を実行するプログラムは、単語Z2を形態素として認識できるとは限らない。より具体的には、外字を含む単語Z1が、名詞、動詞、形容詞、文中の符合等である場合、形態素解析を実行するプログラムは、置換後の単語Z2を同じ品詞のものとして認識できない場合が生じる。置換後の単語Z2が形態素解析の単語辞書に登録されていない場合があるからである。例えば、単語Z1が人名等の固有名詞の場合、形態素解析を実行するプログラムは、置換後の単語Z2を人名と認識できるとは限らないからである。なお、このような問題は、人名のような固有名詞に限られず、文中の外字が内字に置換されて形態素解析される処理において、名詞、動詞、形容詞、副詞、助詞、助動詞、接続詞、接辞詞、符号、記号等、他の形態素解析の要素においても生じ得る。 However, a program that performs morphological analysis cannot always recognize the word Z2 as a morpheme. More specifically, when the word Z1 including the external character is a noun, a verb, an adjective, a code in a sentence, or the like, the program that executes the morphological analysis may not recognize the replaced word Z2 as having the same part of speech. Occurs. This is because the replacement word Z2 may not be registered in the morphological analysis word dictionary. For example, if the word Z1 is a proper noun such as a person's name, a program that executes morphological analysis cannot always recognize the replaced word Z2 as a person's name. In addition, such a problem is not limited to proper nouns such as personal names, and in a process in which an external character in a sentence is replaced with an internal character and morphological analysis is performed, nouns, verbs, adjectives, adverbs, particles, auxiliary verbs, conjunctions, affixes It can also occur in other morphological analysis elements, such as words, signs, and symbols.
そこで、本実施形態の一側面によれば、外字を含む文書の形態素解析精度を向上させることを目的とする。 Thus, according to one aspect of the present embodiment, it is an object to improve the morphological analysis accuracy of a document including an external character.
本実施形態の一側面は、コンピュータに情報処理を実行させるためのプログラムによって例示される。このプログラムは、処理対象の文書中で、情報処理装置が取り扱う文字規格に含まれない外字を判別する判別処理と、形態素解析に用いられる第1の辞書から生成
された置換辞書に基づき外字を文字規格に含まれる内字に置換する置換処理と、外字が内字に置換された文書を、第1の辞書を用いて解析する解析処理と、をコンピュータに実行させる。
One aspect of the present embodiment is exemplified by a program for causing a computer to execute information processing. This program performs a process of determining an external character that is not included in the character standard handled by the information processing device in a document to be processed, and converts the external character to a character based on a substitution dictionary generated from a first dictionary used for morphological analysis. The computer causes the computer to execute a replacement process for replacing the internal characters included in the standard with the internal characters and an analysis process for analyzing the document in which the external characters have been replaced with the internal characters using the first dictionary.
本情報処理装置によれば、外字を含む文書を従来よりも適切に形態素解析できる。 According to the present information processing apparatus, a document including an external character can be more appropriately morphologically analyzed than before.
以下、図面を参照して一実施形態に係る情報処理装置について説明する。
<処理例>
図3は、本情報処理装置が実行する処理に伴うデータフローと各処理に用いられる辞書を
例示する。図3のように、本情報処理装置は、単語辞書1と、OCR辞書2と、大規模文字集3と、属性辞書4とを有する。本情報処理装置は、処理対象の文書と図3に例示された辞書とを照合することによって、文書中の外字を形態素解析可能な内字の異字体に置換する。
Hereinafter, an information processing apparatus according to an embodiment will be described with reference to the drawings.
<Processing example>
FIG. 3 illustrates a data flow associated with the processing executed by the information processing apparatus and a dictionary used for each processing. As shown in FIG. 3, the information processing apparatus includes a
(A)単語辞書1
単語辞書1は、形態素解析に用いられる辞書である。単語辞書1が第1の辞書の一例である。単語辞書1には、例えば、文字と文字とを組み合わせた単語と、単語の品詞とが登録されている。単語辞書1において、文字は、文字コードで記述される。文字コードは、1バイト、あるいは2バイト等のバイト列で文字を定義する。したがって、単語辞書1は、文字コードの組み合わせによって単語を定義する。例えば、本情報処理装置は、処理対象の文から文字コードの組み合わせを取得し、取得した文字コードの組み合わせによって単語辞書1を検索する。そして、文字コードの組み合わせが単語辞書1に定義されている場合に、本情報処理装置は、文字コードの組み合わせを単語として認識する。
(A) Word
The
また、情報処理装置は、各文字コードに対応する文字形状である文字フォントのライブラリを有している。したがって、情報処理装置は、文字コードと文字フォントの種類の指定を受けて、文書中の文字コードを文字フォントで指定される文字形状でディスプレイ、プリンタ等に出力する。本実施形態では、情報処理装置は、所定のフォントを用いて処理を実行する。所定のフォントは、例えば、ユーザ操作で設定できるようにすればよい。 Further, the information processing apparatus has a library of character fonts that are character shapes corresponding to each character code. Therefore, the information processing apparatus receives the designation of the character code and the type of the character font, and outputs the character code in the document to a display, a printer, or the like in a character shape designated by the character font. In the present embodiment, the information processing device executes a process using a predetermined font. The predetermined font may be set, for example, by a user operation.
(B)OCR辞書2
OCR辞書2は、文字コードに対応する文字形状をOptical Character Recognition(
OCR)処理に適した形式に変換した辞書である。例えば、OCR辞書2は、文字の縦横の比が所定の値に正規化された文字形状の情報を有する。また、OCR辞書2は、個々の文字形状そのままのパターンを有してもよいし、文字形状を特徴部分に分解した文字形状のパターンを有してよい。例えば、OCR辞書2は、文字を中心から放射状に向かう各方向ベクトルに対して所定の許容角度範囲に含まれる線分として分類される部分ごとに、文字形状の特徴パターンを有してもよい。いずれにしても、OCR辞書2は、本情報処理装置で実行されるOCR処理に適合した形式で文字形状の情報を有する。
(B)
The
This is a dictionary converted into a format suitable for OCR) processing. For example, the
本情報処理装置は、単語辞書1に登録された形態素解析用の文字コードの組み合わせをそれぞれの文字コードに分解する。例えば、単語辞書1に、「渡辺」「渡邉」「渡邊」という3つの単語が登録されている場合を想定する。情報処理装置は、これらの単語を「渡」、「辺」、「邉」、「邊」という文字に分解する。そして、情報処理装置は、単語から分解されたそれぞれの文字の文字形状を取得し、OCR辞書2に適合する文字形状の情報を生成し、OCR辞書2に登録する。したがって、OCR辞書2は置換辞書の一例として、第1の辞書(単語辞書1)に含まれている内字の文字形状を定義する文字形状情報を含む。
The information processing apparatus decomposes a combination of character codes for morphological analysis registered in the
本情報処理装置は、形態素解析において形態素解析対象の文書中の外字を判別すると、外字の文字形状情報と、OCR辞書2の文字形状情報とを照合し、外字の文字形状に整合するOCR辞書2中の文字形状を検索する。そして、本情報処理装置は、外字の文字形状に整合するOCR辞書2中の文字形状が取得できた場合には、取得できた文字形状に対応する内字の文字コードに外字の文字コードを置き換える。すなわち、本情報処理装置は、形態素解析の対象である文書中の外字の文字コードをOCR辞書2から取得した内字の文字コードに置換する。そして、情報処理装置は、外字が内字に置換された文書に対して形態素解析を実行する。
When the information processing apparatus determines the external character in the document to be morphologically analyzed in the morphological analysis, the information processing device compares the character shape information of the external character with the character shape information of the
(C)大規模文字集3
大規模文字集3は、大規模文字集合、大規模文字セット等とも呼ばれる文字コードとともに文字形状情報を登録した文字の辞書であり、一般に通用している規格よりも多くの文字を含むものをいう。したがって、大規模文字集3は、1つの規格で定められる範囲よりも多い数の文字コードと文字形状情報を登録しているということができる。大規模文字集3は、コンピュータメーカ、出版社等の企業、大学、研究機関、研究者の団体等から提供されている。大規模文字集3は、情報処理装置内にインストールされていてもよいし、LAN(Local Area Network)、あるいはインターネット等を通じてアクセス可能なサーバ上のデータベースに格納されていてもよい。
(C) Large-
The large-
(D)属性辞書4
属性辞書4は、単語辞書1に含まれる文字を部品に分解して、文字コードごとの読みと、部品と、部品の位置等の属性情報を定義した辞書である。本実施形態では、属性辞書4の各レコードは、文字コードと、読みと、部品と、部品の位置という要素を含む。各レコード中の要素「読み」は、文字コードで指定される文字(漢字)の読みを定義する。
(D)
The
要素「部品」は、文字コードで指定される文字に含まれる部品を定義する。部品としては、例えば、漢字の部首で特定されるもの、例えば、偏(へん)、旁(つくり)、冠(かんむり)、脚(あし)、構(かまえ)、垂(たれ)、繞(にょう)の7種類の部首を例示できる。7種類の部首のそれぞれに、例えば、にんべん、てへん等の具体的な部首が部品コードで定義される。文字が複数の部品を有する場合、文字コードに対応づけて複数の部品コードが指定される。なお、属性辞書4は、部品コードに対応する部品の形状情報、つまり、部品のパターンを保持してもよい。ただし、属性辞書4は、部品の形状を保持せず、他のフォントファイル等に部品の形状情報が定義されてもよい。
The element “part” defines a part included in the character specified by the character code. As the parts, for example, those specified by the radical of the kanji, for example, unbalanced (negative), side (creation), crown (kanmuri), leg (reed), structure (kamae), hanging (drip), surrounding Seven types of radicals can be exemplified. For each of the seven types of radicals, for example, specific radicals such as ninben and chin are defined by component codes. When a character has a plurality of parts, a plurality of part codes are specified in association with the character codes. The
要素「部品の位置」は、文字の存在範囲で定義される文字領域における、部品の位置を定義する情報である。要素「部品の位置」は、部品の形状内の基準点が位置する文字領域内の部分領域番号で指定できる。例えば、文字領域が正規化された所定の寸法の矩形領域であるとする。図3に例示するように、矩形領域は、縦4横4の合計16の部分領域に分割されて、各部分領域に番号が1から16まで付される。また、部品の形状情報の範囲、つまり部品の存在領域の左上点が基準点であるとする。このような場合に、部品の位置は、部品の存在領域の左上点が属する文字中の部分領域の番号として定義される。属性辞書4の各レコードにおいて、要素「部品の位置」には、それぞれの部品ごとの位置が定義される。なお、図3では、「渡」、「辺」、「邉」、「邊」という4つの文字を例にして属性辞書4が例示されているが、属性辞書4がこれら4つの文字に限定される訳ではない。
The element “part position” is information that defines the position of the part in the character area defined by the character existence range. The element “position of the component” can be specified by a partial region number in the character region where the reference point in the shape of the component is located. For example, it is assumed that the character area is a normalized rectangular area having a predetermined size. As illustrated in FIG. 3, the rectangular area is divided into a total of 16 partial areas, 4 in length and 4 in width, and each partial area is numbered from 1 to 16. It is also assumed that the range of the component shape information, that is, the upper left point of the region where the component exists is the reference point. In such a case, the position of the component is defined as the number of the partial region in the character to which the upper left point of the region where the component exists. In each record of the
(E)大規模文字集3と属性辞書4の利用目的
本実施形態では、情報処理装置は、OCR辞書2によって、外字に対応する内字の異字体を決定できなかったときに、大規模文字集3と属性辞書4を利用する。すなわち、本情報処理装置は、外字の文字形状情報と大規模文字集3に含まれる文字コードに対応する文字形状情報とを照合し、両方の文字形状が一定基準値以上のスコアで整合する大規模文字集3の文字を選択する。本情報処理装置は、選択された文字の部品と部品の位置等の属性情報を大規模文字集3から取得し、属性辞書4から部品と部品の位置等の属性情報が類似する内字を選択する。なお、情報処理装置は、外字の文字形状で大規模文字集3を検索する前に、外字を部品に分解しておき、部品を基に大規模文字集3を検索してもよい。
(E) Purpose of Use of Large-
図4は、OCR辞書2を用いた処理を例示する図である。図4の処理例では、形態素解析の対象である文中に文字C1、C2が組み合わせられた単語Z1を含む文が処理される。文字C1は、「渡」であり、文字C2は、「邉」の文字の「自」の部分が「白」になった外字の例である。本情報処理装置は、形態素解析の対象となる文中に外字があることを認識すると、その外字の形状を取得する。外字の形状は、例えば、ユーザ定義辞書、外字
ファイル等に保存されている。本情報処理装置は、外字の文字形状を正規化し、OCR辞書2に合致するフォーマットに変換し、OCR辞書2に定義された文字形状と照合し、OCR処理を実行する。
FIG. 4 is a diagram illustrating a process using the
本情報処理装置は、OCR辞書2との照合の結果、外字(文字C2)と基準値以上のスコアで合致する文字形状の文字が認識された場合、その文字の文字コードをOCR辞書2から取得する。図4の例では、OCR処理の結果、「邉」の文字が認識されている。すると、本情報処理装置は、形態素解析の対象となる文において、外字である文字C2を内字「邉」に置換する。その結果、形態素解析の対象となる文は、内字「渡」(文字C1)と外字C2が組み合わせられた単語Z1に代えて、内字「渡」と内字「邉」とを組み合わせた単語Z2を含む文となる。本情報処理装置は、このように外字を内字に置換した文に対して、単語辞書1を用いて形態素解析を実行する。
When a character having a character shape that matches the external character (character C2) with a score equal to or higher than the reference value is recognized as a result of the comparison with the
OCR辞書2は、元々単語辞書1に定義された単語に含まれる文字形状を基にOCR処理の実行に適した形式で作成されている。したがって、OCR辞書2に含まれる内字は、単語辞書1で定義された単語に含まれている。その結果、内字「邉」を含む単語Z2、つまり、内字「渡」と内字「邉」とを組み合わせた単語Z2は、単語辞書1に定義されている可能性が高い。つまり、図4の処理によって、本情報処理装置は、形態素解析を適切に実行できる可能性を高めることができる。
The
図5は、大規模文字集3を用いた処理を例示する図である。図5の処理例でも、図4と同様、形態素解析の対象である文書中に文字C1、C2が組み合わせられた単語Z1を含む文が処理される。図5の処理でも、情報処理装置は、外字の文字形状と、大規模文字集3で定義されている文字に対応する文字形状とを照合し、OCR処理する。図5の例では、情報処理装置は、大規模文字集3によるOCR処理の結果、外字(文字C2)に合致する文字の認識に成功している。すると、情報処理装置は、大規模文字集3から、外字(文字C2)の属性情報を取得する。属性情報は、例えば、読み、部品、部品位置である。部品は、例えば、部品コードで示され、しろ(白)、うかんむり、はち(八)、くち(口)、しんにょう等である。部品位置は、各部品コードに対応づけて示される。部品位置は、例えば、図3で説明した文字領域を16分割したときの部分領域の番号である。
FIG. 5 is a diagram illustrating a process using the large-
次に、情報処理装置は、外字(文字C2)の属性情報と、属性辞書4とを照合する。図3で説明したように、属性辞書4には、単語辞書1から取得された各文字の属性情報が定義されている。そこで、情報処理装置は、属性辞書4から、部品と部品位置が外字(文字C2)の属性情報と類似する文字を抽出する。例えば、図5の例では、内字「邉」が抽出されている。外字(文字C2)は部首しんにょうとしろ(白)を有するのに対して、内字「邉」は、部首えんにょうとみずから(自)を有する点で2つの文字は相違する。しかし、他の部首および部首の位置は整合している。このため、本情報処理装置は、外字(文字C2)の属性情報と内字「邉」の属性情報は、所定の基準値以上のスコアで整合すると判定し、内字「邉」を取得する。
Next, the information processing apparatus collates the attribute information of the external character (character C2) with the
図6に、属性情報の類似度の算出結果を例示する。図6では、図5で例示した外字(文字C2)の属性情報と、属性辞書4とを照合する処理での属性情報の類似度の算出結果が例示されている。 FIG. 6 illustrates a calculation result of the similarity of the attribute information. FIG. 6 illustrates a calculation result of the similarity of the attribute information in the process of comparing the attribute information of the external character (character C2) illustrated in FIG.
まず、読みの類似度に関しては、図5に例示のように、外字(文字C2)と、「渡」とは一致するものがない。したがって、外字(文字C2)と「渡」の読みの類似度は0点である。一方、外字(文字C2)と、「辺」、「邉」、「邊」の字とは、4つの読みが一致する。本実施形態では、読みが一致するごとに100点が付与される。その結果、図6では、外字(文字C2)と、「辺」、「邉」、「邊」のそれぞれの字との読みの類似度は、
400点である。
First, regarding the similarity of reading, as shown in FIG. 5, there is no match between the external character (character C2) and “Water”. Therefore, the similarity between the reading of the external character (character C2) and the reading of “Wataru” is zero. On the other hand, the four characters of the external character (character C2) and the characters of “side”, “side”, and “side” match. In this embodiment, 100 points are given each time the readings match. As a result, in FIG. 6, the similarity of reading between the external character (character C2) and each of the characters “side”, “side”, and “side” is:
400 points.
部品の類似度に関しては、図6のように、外字(文字C2)は、部品として、しろ(白)、うかんむり、はち(八)、くち(口)、しんにょうを有する。一方、「渡」の字は、部品として、また(又)、さんずいへん、まだれ等であり、外字(文字C2)の部品と一致するものはない。このため、本情報処理装置は、外字(文字C2)と「渡」の字の類似度を0と算出する。 Regarding the similarity of the parts, as shown in FIG. 6, the external character (character C2) has white (white), fragrant, eight (eight), eight (mouth), and four shins. On the other hand, the character "Watari" is a part, and is a character such as a character, a character, and the like, and there is no character that matches the part of the external character (character C2). For this reason, the information processing apparatus calculates the similarity between the external character (character C2) and the character “Water” as 0.
また、「辺」の字は、かたな(刀)としんにょうを有する。「辺」の字のかたな(刀)は、外字(文字C2)の部品と一致しないが、しんにょうは外字(文字C2)の部品と一致する。例えば、本情報処理装置は、一致する部品が存在すると100点を加点する。その結果、外字(文字C2)と「辺」の字の類似度は100点と算出される。 In addition, the character of “side” has Katana (sword) and Shinyo. The character (sword) of the character of the "side" does not match the part of the external character (character C2), but the character of the character corresponds to the part of the external character (character C2). For example, the present information processing apparatus adds 100 points when a matching part exists. As a result, the similarity between the external character (character C2) and the character “side” is calculated to be 100 points.
一方、「邉」の字は、部品として、みずから(自)、わかんむり、はち(八)、くち(口)、およびえんにょうを有する。「邉」の字の「みずから(自)」および「わかんむり」は、それぞれ、外字(文字C2)の「しろ(白)」および「うかんむり」と類似しているので、情報処理装置は、それぞれ70点を付与する。また、「邉」の字の「はち(八)」および「くち(口)」は外字(文字C2)の部品と一致するので、情報処理装置は、それぞれ100点を付与する。さらに、「邉」の字の「えんにょう」は外字(文字C2)の「しんにょう」と類似するので、情報処理装置は、80点を付与する。これらの計算から、外字(文字C2)と「邉」の字の類似度は420点と算出される。外字(文字C2)と「邊」の字についても、同様の計算により、類似度が320点と算出される。
On the other hand, the character of "beige" has, as its parts, itself (self), wakamuri, bee (eight), bee (mouth), and porcelain. Since the characters "Water (self)" and "Wakamuri" of the "edge" are similar to "Shiro (white)" and "Ukanmuri" of the external character (character C2), respectively, the
図6では、読みの類似度と、部品の類似度の合計が算出されている。しかし、本情報処理装置は、読みの類似度を用いないで、外字を内字に置換してもよい。文字形状が類似する文字同士は読みが一致する場合が多いので、文字形状の類似を判断すれば十分な場合が多いからである。ただし、本情報処理装置は、文字形状の照合による誤判定を低減するため、読みの類似度を含めて属性情報の類似度を判断し、外字を内字に置換する処理を実行してもよい。 In FIG. 6, the sum of the reading similarity and the component similarity is calculated. However, the information processing apparatus may replace the external character with the internal character without using the similarity of the reading. This is because characters having similar character shapes often have the same reading, and it is often sufficient to determine similarity in character shapes. However, the information processing apparatus may execute a process of determining the similarity of the attribute information including the similarity of the reading and replacing the external character with the internal character in order to reduce erroneous determination by collation of the character shape. .
図7は、部品間の類似度を定義した部品の類似度辞書5の例である。部品の類似度辞書5は、部品対部品の関係に対して類似度の値を設定した辞書である。部品間の類似度の値は、部品が一致する場合に100点として、部品と部品の類似する程度を数値化したものである。例えば、部品「しろ(白)」と部品「みずから(自)」、部品「わかんむり」と部品「うかんむり」、部品「ひとあし」と部品「はち(八)」は、いずれも類似度70点に定義される。また、部品「えんにょう」と部品「しんにょう」は類似度80点に定義される。図6の処理は、図7の部品の類似度辞書5にしたがって算出された結果である。 FIG. 7 is an example of the component similarity dictionary 5 defining the similarity between components. The component similarity dictionary 5 is a dictionary in which similarity values are set for the component-to-component relationship. The value of the degree of similarity between parts is a numerical value of the degree of similarity between parts assuming 100 points when the parts match. For example, the parts “white (white)” and the part “water (self)”, the part “wakamuri” and the part “ukanmuri”, the part “hitoashi” and the part “hachi (eight)” all have a similarity score of 70 points. Is defined as In addition, the component “ennin” and the component “shinnyo” are defined with a similarity of 80 points. The process of FIG. 6 is a result calculated according to the component similarity dictionary 5 of FIG.
図8は、部品の位置の類似度の算出例である。本情報処理装置は、図6の処理によって外字に対する部品の類似度が所定の基準値以上の内字を選択し、選択された複数の内字ついて、外字に対する部品の位置の類似度を算出する。 FIG. 8 is an example of calculating the similarity between the positions of the components. The information processing apparatus selects an internal character whose similarity of a component to an external character is equal to or greater than a predetermined reference value by the processing of FIG. 6 and calculates the similarity of the position of the component to the external character for a plurality of selected internal characters. .
本実施形態では、図3で説明したように、部品の位置は、文字を正規化した文字領域が16分割された部分領域の番号によって指定される。例えば、外字(文字C2)の部品の位置は、しろ(白):2、うかんむり:6、はち(八):8、くち(口):10、しんにょう:1の各位置となる。 In the present embodiment, as described with reference to FIG. 3, the position of the component is specified by the number of a partial area obtained by dividing a character area obtained by normalizing a character into 16 parts. For example, the positions of the parts of the external character (character C2) are as follows: white (white): 2, fragrance: 6, bee (eight): 8, kuchi (mouth): 10, and shinyo: 1.
一方、「邉」の文字の部品の位置は、みずから(自):2、わかんむり:6、はち(八):6、くち(口):10、えんにょう:1の各位置となる。図8のように、外字(文字C2)と「邉」の文字の部品の位置はすべて一致しているので、本情報処理装置は、それ
ぞれの部品の位置に100点を付与する。したがって、合計点は、500点となる。
On the other hand, the positions of the parts of the character "beside" are the following positions: (self): 2, wakamuri: 6, bee (eight): 6, kuchi (mouth): 10, and ennyo: 1. As shown in FIG. 8, since the positions of the parts of the external character (character C2) and the character of “beside” all match, the information processing apparatus assigns 100 points to the positions of the parts. Therefore, the total points are 500 points.
さらに、「邊」の文字の部品の位置は、みずから(自):2、うかんむり:7、ひとあし:6、ほう(方):10、えんにょう:1の各位置となる。「邊」の文字の部品の位置のうち、部品の位置として、2、6、10、1が外字(文字C2)の部品の位置に一致するので、情報処理装置は、それぞれ100点を付与する。一方、「邊」の文字の部品の位置のうち、7に一致する、外字(文字C2)の部品の位置はない。外字(文字C2)の部品の位置で残ったもののうち、最も近い部品の位置は8である。そこで、本情報処理装置は部品の位置7と8との関係に対して、90点を付与する。したがって、合計は、490点となる。 Further, the positions of the parts of the character of the "side" are: (self): 2, enemies: 7, toe: 6, ho (10): 10, and ennyo: 1. Among the positions of the parts of the character of “side”, 2, 6, 10, and 1 as the positions of the parts match the positions of the parts of the external character (character C2), so the information processing apparatus gives 100 points each. . On the other hand, there is no external character (character C2) component position that matches 7 among the component positions of the character “side”. Among the remaining parts of the part of the external character (character C2), the position of the nearest part is 8. Therefore, the information processing apparatus assigns 90 points to the relationship between the component positions 7 and 8. Therefore, the total is 490 points.
図9は、部品の位置の類似度の他の算出例である。この例では、2つの文字C10、C11間で、類似する部品同士を対応づけ、対応付けた部品の位置の類似度を算出する。例えば、文字C10と、文字C11は、ともに部品「やま(山)」を有するので、情報処理装置は文字C10の部品「やま(山)」と、文字C11の部品「やま(山)」とを対応付け、これらの部品の位置を判定する。文字C10の部品「やま(山)」と、文字C11の部品「やま(山)」とは、ともに位置が1であるので、本情報処理装置は、100点を付与する。 FIG. 9 is another calculation example of the similarity of the position of the component. In this example, similar parts are associated with each other between two characters C10 and C11, and the similarity of the positions of the associated parts is calculated. For example, since both the character C10 and the character C11 have a component “Yama (mountain)”, the information processing apparatus determines the component “Yama (mountain)” of the character C10 and the component “Yama (mountain)” of the character C11. Correspondence and the position of these components are determined. Since the position of the part “yama (mountain)” of the character C10 and the part “yama (mountain)” of the character C11 are both 1, the information processing apparatus gives 100 points.
また、文字C10と、文字C11は、ともに部品「まがりがわ」を有する。文字C10の部品「まがりがわ」の位置は5であり、一方、文字C11の部品「まがりがわ」の位置は2である。そこで、本情報処理装置は、文字C10の部品「まがりがわ」と、文字C11の部品「まがりがわ」とに対して、70点を付与する。 In addition, both the character C10 and the character C11 have a component “Magarigawa”. The position of the component "Magagawa" of the character C10 is 5, while the position of the component "Magagawa" of the character C11 is 2. Therefore, the present information processing apparatus gives 70 points to the part “Magagawa” of the character C10 and the part “Magagawa” of the character C11.
また、文字C10と、文字C11は、ともに部品「た(田)」を有する。文字C10の部品「た(田)」の位置は9であり、一方、文字C11の部品「た(田)」の位置は10である。そこで、本情報処理装置は、文字C10の部品「た(田)」と、文字C11の部品「た(田)」とに対して、90点を付与する。なお、図9に例示したような部品の位置関係ごとに付与する点数は、例えば、位置の類似度の辞書として、例えば、情報処理装置の主記憶上に保持しておけばよい。また、例えば、2つの文字の部品について、互いの部分領域の位置が一致する場合に、100点とし、隣接する場合には90点、さらに1つ離れるごとに10点ずつ減点するように、コンピュータプログラムにしたがって本情報処理装置が評価点を算出してもよい。 Further, both the character C10 and the character C11 have a component “ta (ta)”. The position of the component "ta (ta)" of the character C10 is 9, while the position of the component "ta (ta)" of the character C11 is 10. Therefore, the present information processing apparatus gives 90 points to the component “ta (ta)” of the character C10 and the component “ta (ta)” of the character C11. The score given for each component positional relationship as illustrated in FIG. 9 may be stored in, for example, a main memory of the information processing device as a dictionary of positional similarity. In addition, for example, a computer is designed such that, when the positions of partial regions of two character parts coincide with each other, 100 points are set, 90 points are adjacent to each other, and 10 points are subtracted each time one part is separated. The information processing apparatus may calculate the evaluation points according to a program.
図10に、本実施形態の処理による効果を例示する。以上図3から図9によって例示した処理により、本情報処理装置は、形態素解析の対象の文中の外字を形態素解析に使用される単語辞書1に定義された内字に置換することが可能となる。その結果、例えば、図10の外字C2が内字「邉」に置換される。また、外字C7が内字「宵」に置換される。これらの内字「邉」および「宵」はいずれも形態素解析で用いられる単語辞書1から取得されたものである。したがって、外字が内字に置き換えられた単語「渡邉」および「阿宵月」は、いずれも、単語辞書1に定義されている可能性が高い。したがって、本情報処理装置によれば、外字を内字に単純に置換する場合と比較して、形態素解析の対象の文中の外字を含む単語を形態素解析可能な適切な単語に変換できる可能性が高い。
FIG. 10 illustrates the effect of the processing of the present embodiment. With the processing illustrated in FIGS. 3 to 9, the information processing apparatus can replace the external character in the sentence to be subjected to morphological analysis with the internal character defined in the
<ハードウェア構成>
図11に、本情報処理装置のハードウェア構成図を例示する。本情報処理装置は、Central Processing Unit(CPU)11、主記憶装置12、インターフェース18を通じて
接続される外部機器を有し、プログラムにより情報処理を実行する。外部機器としては、外部記憶装置13および通信インターフェース14を例示できる。CPU11は、主記憶装置12に実行可能に展開されたコンピュータプログラムを実行し、本情報処理装置の機
能を提供する。CPU11はプロセッサとも呼ばれる。主記憶装置12は、CPU11が実行するコンピュータプログラム、CPU11が処理するデータ等を記憶する。主記憶装置12は、Dynamic Random Access Memory(DRAM)、Static Random Access Memory
(SRAM)、Read Only Memory(ROM)等である。さらに、外部記憶装置13は、例えば、主記憶装置12を補助する記憶領域として使用され、CPU11が実行するコンピュータプログラム、CPU11が処理するデータ等を記憶する。外部記憶装置13は、ハードディスクドライブ、Solid State Disk(SSD)等である。
<Hardware configuration>
FIG. 11 illustrates a hardware configuration diagram of the information processing apparatus. The information processing apparatus has a Central Processing Unit (CPU) 11, a
(SRAM), Read Only Memory (ROM), and the like. Further, the
また、本情報処理装置は、入力装置15、表示装置16等によるユーザインターフェースを有するようにしてもよい。入力装置15は、例えば、キーボード、ポインティングデバイス等である。また、表示装置16は、例えば、液晶ディスプレイ、エレクトロルミネッセンスパネル等である。さらに、本情報処理装置は、着脱可能記憶媒体駆動装置17を設けてもよい。着脱可能記憶媒体は、例えば、ブルーレイディスク、Digital Versatile Disk(DVD)、Compact Disc(CD)、フラッシュメモリカード等である。なお、図11の例では、単一のインターフェース18が例示されているが、インターフェース18として複数種類のものが複数設けられてもよい。
The information processing apparatus may have a user interface including the
本情報処理装置は、例えば、パーソナルコンピュータ、ネットワーク上でパーソナルコンピュータ、端末等にサービスを提供するサーバ、情報携帯端末(Personal Data Assistance(PDA))、携帯電話等である。 The information processing apparatus is, for example, a personal computer, a server that provides services to a personal computer, a terminal, and the like over a network, a personal digital assistant (PDA), a mobile phone, and the like.
<処理フロー>
図12から図15に、本情報処理装置の処理フローを例示する。図12は、本情報処理装置の全体処理フローを例示する図である。図12の処理では、入力データ、つまり、形態素解析の対象として、文字コード0x6E21と文字コード0xE001とを含む文が例示されている。このうち、文字コード0xE001の文字は、外字C2である。本実施形態において、内字は、文字コード0x0000〜0xDFFFの範囲で定義され、外字は文字コード0xE000以降の範囲で定義される。したがって、本情報処理装置は、文字コードの範囲によって内字と外字とを判別可能である。
<Processing flow>
12 to 15 illustrate a processing flow of the information processing device. FIG. 12 is a diagram illustrating an overall processing flow of the information processing apparatus. In the processing of FIG. 12, a sentence including a character code 0x6E21 and a character code 0xE001 is illustrated as an example of input data, that is, a target of morphological analysis. Among them, the character with the character code 0xE001 is the external character C2. In the present embodiment, the internal characters are defined in the range of character codes 0x0000 to 0xDFFF, and the external characters are defined in the range of character codes 0xE000 and thereafter. Therefore, the information processing apparatus can determine the internal character and the external character based on the range of the character code.
まず、本情報処理装置は、入力データに外字があるか否かを判定する(S1)。S1の処理は、処理対象の文書中で、情報処理装置が取り扱う文字規格に含まれない外字を判別する判別処理の一例である。また、本情報処理装置は、上述のような文字コード0xE000以降の範囲で外字を判定すればよい。したがって、S1の処理は、文字を特定する文字コードの範囲に基づいて外字を判別することの一例でもある。 First, the information processing apparatus determines whether there is an external character in the input data (S1). The process of S1 is an example of a determination process of determining an external character that is not included in a character standard handled by the information processing apparatus in a document to be processed. In addition, the information processing apparatus may determine the external character in the range of the character code 0xE000 or later as described above. Therefore, the process of S1 is also an example of determining an external character based on a range of a character code specifying a character.
入力データに外字がない場合、本情報処理装置は、入力データに対してそのまま形態素解析(S15)を実行する。一方、入力データに外字がある場合、本情報処理装置は、入力データ中で識別された外字が過去に認識済みの外字か、あるいは初めて認識した外字かを判定する(S2)。過去に認識済みの外字は、例えば、主記憶装置12あるいは外部記憶装置13上の置換テーブルと呼ばれる領域に登録されている。そこで、本情報処理装置は、置換テーブルを参照することで、入力データ中で判別された外字が初めて認識した外字か否かを判定すればよい。
If there is no external character in the input data, the information processing apparatus directly executes the morphological analysis (S15) on the input data. On the other hand, when there is an external character in the input data, the information processing apparatus determines whether the external character identified in the input data is an external character recognized in the past or an external character recognized for the first time (S2). The external characters recognized in the past are registered in, for example, an area called a replacement table on the
入力データ中で判別された外字が過去に認識済みの外字で有り、置換テーブルに登録されている場合、本情報処理装置は、入力データ中で判別された外字の外字コードを置換テーブルで関係づけされた内字の文字コードに変換し(S14)、形態素解析を実行する(S15)。 If the external character determined in the input data is a previously recognized external character and is registered in the replacement table, the information processing apparatus associates the external character code of the external character determined in the input data with the replacement table. The character code is converted into the character code of the inner character (S14), and morphological analysis is performed (S15).
入力データ中で識別された外字が初めて認識した外字である場合、本情報処理装置は、
外字の文字形状を取得する(S3)。外字の文字形状は、例えば、外字の文字コードに対応づけて外字ファイルに登録されている。本実施形態では、外字ファイルは、外字の文字形状のビットマップを保持する。そして、本情報処理装置は、外字のビットマップからOCR辞書2と同一構成の文字形状情報を作成し、OCR辞書2の文字形状と照合する。OCR辞書2と同一構成の文字形状情報とは、例えば、文字の縦横比が正規化され、特徴データが文字中心から所定の方向(放射状の各方向)ごとに抽出されたデータである。このような照合処理をOCR処理と呼ぶことにする。本情報処理装置は、OCR処理の結果、所定の基準値以上のスコアで、外字の文字形状と合致する文字形状の内字が認識できたか否かを判定する(S4)。
If the external character identified in the input data is the external character recognized for the first time, the information processing apparatus
The character shape of the external character is acquired (S3). The character shape of the external character is registered in the external character file in association with the character code of the external character, for example. In the present embodiment, the external character file holds a bitmap of the character shape of the external character. Then, the information processing apparatus creates character shape information having the same configuration as that of the
外字の文字形状と合致する文字形状の内字が認識できた場合、本情報処理装置は、OCR処理の結果として類似文字を取得する。さらに、本情報処理装置は、OCR辞書2の他の文字形状に対しても同様の処理を繰り返すことで、類似文字一覧を取得する(S5)。ただし、類似文字が単一の場合もあり得る。 When an inner character having a character shape that matches the character shape of the external character can be recognized, the information processing apparatus acquires a similar character as a result of the OCR process. Further, the information processing apparatus acquires a similar character list by repeating the same processing for other character shapes of the OCR dictionary 2 (S5). However, there may be a case where there is only one similar character.
次に、本情報処理装置は、類似文字一覧として取得した文字を形態素解析用の単語辞書1で検索する(S6)。次に、本情報処理装置は、S6の検索の結果、形態素解析用の単語辞書で検索できた文字が複数か否かを判定する(S7)。形態素解析用の単語辞書で検索できた文字が単数の場合、本情報処理装置は、形態素解析用の単語辞書1で検索できた文字を選択し(S12)、外字の文字コードと形態素解析用の単語辞書で検索できた文字の文字コードの組み合わせを置換テーブルに登録する(S13)。
Next, the information processing apparatus searches the word acquired for the similar character list in the
S7の判定で、形態素解析用の単語辞書で検索できた文字が複数の場合、本情報処理装置は、検索できた複数の文字の属性情報を属性辞書4から取得する。属性辞書4には、図3に例示のように、読みと、部品と、部品の位置等の属性情報が単語辞書1の文字に対して登録されている。そこで、本情報処理装置は、外字ファイルから外字の属性情報を取得し、外字の属性情報と、検索できた複数の文字の属性情報を比較する。なお、外字ファイルに外字の属性情報が含まれていない場合には、本情報処理装置は、大規模文字集3から外字の属性情報を取得してもよい。
If it is determined in S7 that there are a plurality of characters that can be searched in the morphological analysis word dictionary, the information processing apparatus acquires the attribute information of the plurality of searched characters from the
そして、本情報処理装置は、外字の属性情報と最も類似する文字を選択する。このとき、本情報処理装置は、外字の属性情報と最も類似する文字が複数あるか否かを判定する(S9)。外字の属性情報と最も類似する文字が単数である場合、本情報処理装置は、S12以下の処理を実行する。S9の判定で、外字の属性情報と最も類似する文字が複数である場合、本情報処理装置は、JIS領域の文字を選択し(S11)、外字と選択した文字(内字)の組み合わせを置換テーブルに登録する(S13)。S5−S9、S11、S12の処理は、判別された外字の文字形状を定義する文字形状情報と置換辞書に含まれる文字形状情報とを照合することによって照合された文字形状情報に対応する内字を選択することの一例である。 Then, the information processing apparatus selects a character most similar to the attribute information of the external character. At this time, the information processing apparatus determines whether there are a plurality of characters most similar to the attribute information of the external character (S9). If the character that is most similar to the attribute information of the external character is a single character, the information processing device executes the processing of S12 and thereafter. If it is determined in S9 that there are a plurality of characters most similar to the attribute information of the external character, the information processing apparatus selects a character in the JIS area (S11) and replaces the combination of the external character and the selected character (inner character). Register in the table (S13). The processing of S5-S9, S11, and S12 is performed by comparing the character shape information defining the character shape of the determined external character with the character shape information included in the replacement dictionary, and the internal character corresponding to the collated character shape information. Is an example of selecting.
S4の判定で、OCR処理によって外字の文字形状と合致する文字形状の内字が認識できなかった場合、本情報処理装置は、大規模文字集3による検索処理を実行する(S10)。そして、本情報処理装置は、外字と大規模文字集を基に検索した文字(内字)の組み合わせを置換テーブルに登録する(S13)。S13の処理の後、本情報処理装置は、入力データの外字コードをS10からS3の処理で取得した文字の文字コードに置換する(S14)。そして、本情報処理装置は、形態素解析を実行する(S15)。S14の処理は、形態素解析に用いられる第1の辞書から生成された置換辞書に基づき外字を文字規格
に含まれる内字に置換する置換処理の一例である。S14の処理は、外字を選択された内字に置換することの一例でもある。また、S15の処理は、外字が内字に置換された文書を、第1の辞書を用いて解析する解析処理の一例である。
If it is determined in S4 that the internal character having the character shape matching the character shape of the external character cannot be recognized by the OCR process, the information processing apparatus executes a search process using the large-scale character collection 3 (S10). Then, the information processing apparatus registers the combination of the character (inner character) searched based on the external character and the large-scale character collection in the replacement table (S13). After the processing of S13, the information processing apparatus replaces the external character code of the input data with the character code of the character obtained in the processing of S10 to S3 (S14). Then, the information processing apparatus performs a morphological analysis (S15). The process of S14 is an example of a replacement process of replacing an external character with an internal character included in the character standard based on a substitution dictionary generated from a first dictionary used for morphological analysis. The process of S14 is also an example of replacing the external character with the selected internal character. The process of S15 is an example of an analysis process of analyzing a document in which an external character has been replaced with an internal character by using the first dictionary.
図13は、大規模文字集3による検索処理(図12のS10)の詳細を例示するフローチャートである。この処理では、本情報処理装置は、外字の文字形状を基に大規模文字集3を検索する(S101)。より具体的には、本情報処理装置は、外字の文字形状と大規模文字集に登録されている文字形状とを照合する。S101の処理は、図12で説明したOCR処理と同様である。
FIG. 13 is a flowchart illustrating details of the search process (S10 in FIG. 12) using the large-
そして、本情報処理装置は、外字の文字形状と所定の基準値以上のスコアで整合する大規模文字集3の文字が認識できたか否かを判定する(S102)。S101、S102の処理は、置換辞書(OCR辞書2)との照合によって外字を内字に置換できなかった場合に、外字の文字形状情報を文字規格の範囲に含まれない文字の文字形状情報を含む第2の辞書(大規模文字集3)と照合することによって外字に対応する第2の辞書中の文字を決定することの一例である。
Then, the information processing apparatus determines whether a character of the large-
本情報処理装置は、所定の基準値以上で整合する大規模文字集3の文字が認識できた場合、認識できた文字の属性情報を取得する(S103)。ここでは、大規模文字集には、文字の属性情報が登録されているとする。さらに、本情報処理装置は、大規模文字集から取得された文字の属性情報が類似する文字を属性辞書4から取得する。図5に例示したように、属性辞書4には、形態素解析で用いられる単語辞書1に登録された文字ごとの読み、部品、部品の位置等の属性情報が登録されている。そこで、本情報処理装置は、図6から図10で例示した手順と同様の手順により、例えば、部品と部品の位置が類似する文字を属性辞書4から取得する(S104)。S104の処理は、決定された文字との類似度を基に第1の辞書(単語辞書1)から外字を置換するための内字を取得することの一例である。S104の処理、および図6から図10の処理は、それぞれの文字形状に含まれる部品の形状と部品が前記文字形状内で配置される位置とにより類似度を算出することの一例である。
When a character of the large-
図14は、大規模文字集3による検索処理(図12のS10)の詳細の他の例である。図13の処理では、本情報処理装置は、外字の文字形状を基にOCR処理により大規模文字集3を検索した。図14の処理では、本情報処理装置は、外字を一旦部品に分解し(S101A)、部品を基に大規模文字集3を検索する点(S101B)が相違する。図14のS102以下の手順は、図13と同様であるので、その説明を省略する。
FIG. 14 is another example of the details of the search process (S10 in FIG. 12) using the large-
なお、外字を定義した外字ファイル(図12参照)には、外字の部品形状と部品コードが登録されている場合には、S101Aの処理では、本情報処理装置は、外字ファイルを参照して、外字を部品に分解すればよい。また、外字ファイルには、外字の文字形状情報が登録されているが、外字の部品形状と部品コードが登録されていない場合には、本情報処理装置は、図15にしたがって、外字を部品に分解する。 If the external character file defining the external character (see FIG. 12) has registered the external character component shape and component code, in the process of S101A, the information processing apparatus refers to the external character file, The external character may be disassembled into parts. Further, in the external character file, the character shape information of the external character is registered, but when the component shape and the component code of the external character are not registered, the information processing apparatus according to FIG. Decompose.
図15は、外字を部品に分解する処理を例示する図である。以下の処理では、部品の形状を定義した部品フォントファイルが主記憶装置12、または外部記憶装置13に保存されていると想定する。この処理では、本情報処理装置は、外字の文字形状情報を外字ファイルから取得する(A1)。次に、本情報処理装置は、部品フォントファイルから次の部品の形状を取得する(A2)。そして、部品の形状と外字の文字形状を照合する(A3)。そして、所定の基準値以上のスコアで部品の形状と外字の部分が整合するか否かを判定する(A4)。
FIG. 15 is a diagram illustrating a process of decomposing an external character into components. In the following processing, it is assumed that a component font file defining the shape of the component is stored in the
A4の判定で、部品の形状と外字の部分が整合しない場合、本情報処理装置は制御をA2に戻し、次の部品に対して同様の処理を繰り返す。なお、A2からA4の繰り返しは、部品フォントファイルで次の部品がなくなると終了する。一方、A4の判定で、部品の形
状と外字の文字形状の部分が所定の基準値以上のスコアで整合する場合、本情報処理装置は整合した部品の形状を示す部品コードと、部品の位置を記録し、外字の該当箇所をマスクする(A5)。そして、本情報処理装置は、マスクされた箇所以外の残り部分が存在するか否かを判定する(A6)。残り部分がある場合、本情報処理装置は、制御をA2に戻し、処理を続行する。一方、残り部分がない場合、本情報処理装置は、処理を終了する。
If the shape of the part and the external character do not match in the determination of A4, the information processing apparatus returns the control to A2 and repeats the same processing for the next part. Note that the repetition of A2 to A4 ends when there is no next component in the component font file. On the other hand, in the determination of A4, when the part shape and the character shape of the external character match with a score equal to or greater than a predetermined reference value, the information processing apparatus determines the part code indicating the matched part shape and the position of the part. It is recorded and the corresponding portion of the external character is masked (A5). Then, the information processing apparatus determines whether there is a remaining portion other than the masked portion (A6). If there is a remaining portion, the information processing device returns the control to A2 and continues the process. On the other hand, when there is no remaining portion, the information processing device ends the process.
以上述べたように、本情報処理装置には、形態素解析に用いられる単語辞書1を基に作成したOCR辞書2が保存されている。そして、形態素解析の対象の文、すなわち、入力データ中に外字に認識された場合、本情報処理装置はOCR辞書2を基に、外字をOCR処理し、類似文字一覧を取得する。そして、取得された類似文字一覧が単数の場合には、本情報処理装置は入力データ中で、OCR処理の結果取得された類似文字(内字)の文字コードで、外字の文字コードを置換し、形態素解析を実行する。このような処理の結果、外字の文字コードが置換された文字コードは、形態素解析で用いられる単語辞書1に登録されたものであり、外字の文字コードを内字に置換した結果として得られる入力データ中の単語は、形態素解析で用いられる単語辞書1に登録されたものである可能性が高い。したがって、本情報処理装置によれば、従来よりも適切に外字を含む入力データに対して形態素解析を実施できる可能性を高めることができる。
As described above, the information processing device stores the
また、OCR辞書2には、内字の文字形状がOCR処理に適した形式で登録されている。また、本情報処理装置は、外字の文字コードを基に外字ファイルから外字の文字形状を取得し、外字文字形状とOCRファイル2に登録された文字形状を照合することによってOCR辞書に定義されている内字を選択する。したがって、本情報処理装置は、入力データ中に外字の文字コードを認識した場合に、形状が類似する内字を適切に選択できる。
In the
また、本情報処理装置は、OCR辞書2によって所定の基準値のスコア以上で外字の文字形状と整合する内字を選択できかった場合、外字の文字形状を基に、大規模文字集3の文字形状を検索する。大規模文字集には、様々な団体、企業、機関等が収集した文字コード、形状、属性等が登録されている。したがって、本情報処理装置は、外字の文字形状を基に、大規模文字集3において外字を特定できる可能性が高い。本情報処理装置が大規模文字集3において外字を特定できると、外字の読み、部品、部品の位置等の属性情報を大規模文字集3から取得し、属性辞書4を用いて、外字と属性が類似する内字を検索できる。したがって、大規模文字集3を用いた処理により、本情報処理装置はさらに外字を特定できる可能性を高めることができる。したがって、本情報処理装置がOCR辞書2を用いて、外字に相当する内字を特定できない場合も、大規模文字集3と属性辞書4とによって、外字を内字に置換可能となる。
Further, when the
本情報処理装置は、属性情報として、例えば、部品と部品の位置とを用いて、属性辞書4から外字に類似する内字を選択する。したがって、本情報処理装置は、外字と内字の間での部品対部品の細かな対比を基に外字に類似する内字を検索できる。また、漢字の部品である部首はそれぞれ意味を有している。したがって、本情報処理装置は、単に形状だけではなく、漢字を形成する意味も含めて、外字と置換する内字を選択できる。
The information processing apparatus selects an internal character similar to an external character from the
本実施形態において、本情報処理装置は、外字か否かを文字コードの範囲を基に判定する。したがって、本情報処理装置は、簡易、確実に入力データ中の外字を識別できる。 In the present embodiment, the information processing apparatus determines whether a character is an external character based on the range of the character code. Therefore, the information processing apparatus can easily and surely identify the external character in the input data.
<記録媒体>
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
<Recording medium>
A program that causes a computer or other machine or device (hereinafter, a computer or the like) to realize any of the above functions can be recorded on a recording medium readable by a computer or the like. Then, the function can be provided by causing a computer or the like to read and execute the program on the recording medium.
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、Compact Disc(CD)−Read Only Memory(ROM)、CD−Recordable(R)、Digital Versatile Disk(DVD)、ブルーレイディスク、Digital Audio Tape(DAT)、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスク、ROM(リードオンリーメモリ)等がある。さらに、Solid State Drive(SSD)は、コンピュータ等から取り外し可能な記録媒体としても
、コンピュータ等に固定された記録媒体としても利用可能である。
Here, a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from a computer or the like. Say. Examples of such a recording medium that can be removed from a computer or the like include a flexible disk, a magneto-optical disk, a Compact Disc (CD) -Read Only Memory (ROM), a CD-Recordable (R), and a Digital Versatile Disk (DVD). ), Blu-ray Disc, Digital Audio Tape (DAT), 8 mm tape, and memory cards such as flash memory. Further, a recording medium fixed to a computer or the like includes a hard disk, a ROM (Read Only Memory), and the like. Further, the solid state drive (SSD) can be used as a recording medium detachable from a computer or the like, or as a recording medium fixed to the computer or the like.
<その他>
本実施形態は、以下の付記と呼ぶ態様を含む。各態様の構成要素は、他の態様の構成要素と組み合わせてもよい。
(付記1)
文書を処理する情報処理装置であって、
処理対象の文書中で、前記情報処理装置が取り扱う文字規格に含まれない外字を判別し、形態素解析に用いられる第1の辞書から生成された置換辞書に基づき前記外字を前記文字規格に含まれる内字に置換し、前記外字が前記内字に置換された文書を、前記第1の辞書を用いて解析する処理を実行するプロセッサを備える情報処理装置。
(付記2)
付記1に記載の情報処理装置であって、
前記置換辞書は、前記第1の辞書に含まれている内字の文字形状を定義する文字形状情報を含み、
前記プロセッサは、前記判別された外字の文字形状を定義する文字形状情報と前記置換辞書に含まれる文字形状情報とを照合することによって前記照合された文字形状情報に対応する内字を選択し、前記外字を前記選択された内字に置換する情報処理装置。
(付記3)
付記1または2に記載の情報処理装置であって、
前記プロセッサは、前記置換辞書との照合によって前記外字を内字に置換できなかった場合に、前記外字の文字形状情報を前記文字規格に含まれない文字の文字形状情報を含む第2の辞書と照合することによって前記外字に対応する前記第2の辞書中の文字を決定し、前記決定された文字との類似度を基に前記第1の辞書から前記外字を置換するための内字を取得することをさらに実行する情報処理装置。
(付記4)
付記3に記載の情報処理装置であって、
前記プロセッサは、それぞれの文字形状に含まれる部品の形状と前記部品が前記文字形状内で配置される位置とにより前記類似度を算出する情報処理装置。
(付記5)
付記1から4のいずれか1項に記載の情報処理装置であって、
前記プロセッサは、文字を特定する文字コードの範囲に基づいて前記外字を判別する情報処理装置。
(付記6)
コンピュータに、
処理対象の文書中で、前記情報処理装置が取り扱う文字規格に含まれない外字を判別する判別処理と、形態素解析に用いられる第1の辞書から生成された置換辞書に基づき前記外字を前記文字規格に含まれる内字に置換する置換処理と、前記外字が前記内字に置換された文書を、前記第1の辞書を用いて解析する解析処理と、を実行させるプログラム。
(付記7)
付記6に記載のプログラムであって、
前記置換辞書は、前記第1の辞書に含まれている内字の文字形状を定義する文字形状情報を含み、
前記置換処理は、前記判別された外字の文字形状を定義する文字形状情報と前記置換辞書に含まれる文字形状情報とを照合することによって前記照合された文字形状情報に対応する内字を選択し、前記外字を前記選択された内字に置換することを特徴とする付記6に記載のプログラム。
(付記8)
付記6または7に記載のプログラムであって、
前記コンピュータに、前記置換辞書との照合によって前記外字を内字に置換できなかった場合に、前記外字の文字形状情報を前記文字規格に含まれない文字の文字形状情報を含む第2の辞書と照合することによって前記外字に対応する前記第2の辞書中の文字を決定し、前記決定された文字との類似度を基に前記第1の辞書から前記外字を置換するための内字を取得することをさらに実行させるためのプログラム。
(付記9)
付記8に記載のプログラムであって、
前記コンピュータに、それぞれの文字形状に含まれる部品の形状と前記部品が前記文字形状内で配置される位置とにより前記類似度を算出させるためのプログラム。
(付記10)
付記6から9のいずれか1項に記載のプログラムであって、
前記コンピュータに、文字を特定する文字コードの範囲に基づいて外字を判別させるためのプログラム。
(付記11)
コンピュータが、
処理対象の文書中で、前記情報処理装置が取り扱う文字規格に含まれない外字を判別し、形態素解析に用いられる第1の辞書から生成された置換辞書に基づき前記外字を前記文字規格に含まれる内字に置換し、前記外字が前記内字に置換された文書を、前記第1の辞書を用いて解析することを実行する情報処理方法。
(付記12)
付記11に記載の情報処理方法であって、
前記置換辞書は、前記第1の辞書に含まれている内字の文字形状を定義する文字形状情報を含み、
前記コンピュータが、
前記判別された外字の文字形状を定義する文字形状情報と前記置換辞書に含まれる文字形状情報とを照合することによって前記照合された文字形状情報に対応する内字を選択し、前記外字を前記選択された内字に置換することを実行する情報処理方法。
(付記13)
付記11または12に記載の情報処理方法であって、
前記コンピュータが、前記置換辞書との照合によって前記外字を内字に置換できなかった場合に、前記外字の文字形状情報を前記文字規格に含まれない文字の文字形状情報を含む第2の辞書と照合することによって前記外字に対応する前記第2の辞書中の文字を決定し、前記決定された文字との類似度を基に前記第1の辞書から前記外字を置換するための内字を取得することをさらに実行する情報処理方法。
(付記14)
付記13に記載の情報処理方法であって、
前記コンピュータが、それぞれの文字形状に含まれる部品の形状と前記部品が前記文字形状内で配置される位置とにより前記類似度を算出する情報処理方法。
(付記15)
付記11から14のいずれか1項に記載の情報処理方法であって、
前記コンピュータが、文字を特定する文字コードの範囲に基づいて外字を判別する情報
処理方法。
<Others>
This embodiment includes aspects referred to as the following supplementary notes. Components of each aspect may be combined with components of other aspects.
(Appendix 1)
An information processing apparatus for processing a document,
In the document to be processed, an external character not included in the character standard handled by the information processing apparatus is determined, and the external character is included in the character standard based on a replacement dictionary generated from a first dictionary used for morphological analysis. An information processing apparatus comprising: a processor that executes a process of analyzing a document in which a character is replaced with an internal character and the external character is replaced with the internal character using the first dictionary.
(Appendix 2)
The information processing apparatus according to
The replacement dictionary includes character shape information that defines the character shape of the inner character included in the first dictionary,
The processor selects an inner character corresponding to the collated character shape information by collating character shape information that defines the character shape of the determined external character and character shape information included in the replacement dictionary, An information processing device for replacing the external character with the selected internal character.
(Appendix 3)
The information processing apparatus according to
A second dictionary including character shape information of a character not included in the character standard, wherein the character shape information of the external character is not replaced with the internal character by collation with the replacement dictionary; A character in the second dictionary corresponding to the external character is determined by collation, and an internal character for replacing the external character is obtained from the first dictionary based on the degree of similarity with the determined character. An information processing device that further executes the following.
(Appendix 4)
An information processing apparatus according to
The information processing device, wherein the processor calculates the similarity based on a shape of a part included in each character shape and a position where the part is arranged in the character shape.
(Appendix 5)
The information processing apparatus according to any one of
The information processing device, wherein the processor determines the external character based on a range of a character code specifying a character.
(Appendix 6)
On the computer,
A determination process of determining an external character not included in a character standard handled by the information processing apparatus in a document to be processed; and converting the external character to the character standard based on a substitution dictionary generated from a first dictionary used for morphological analysis. And a analyzing process for analyzing a document in which the external character has been replaced with the internal character by using the first dictionary.
(Appendix 7)
The program according to Supplementary Note 6, wherein
The replacement dictionary includes character shape information that defines the character shape of the inner character included in the first dictionary,
The replacement process selects character characters corresponding to the collated character shape information by collating character shape information defining the character shape of the determined external character with character shape information included in the substitution dictionary. 7. The program according to claim 6, wherein the external character is replaced with the selected internal character.
(Appendix 8)
The program according to claim 6 or 7, wherein
A second dictionary that includes the character shape information of a character that is not included in the character standard when the external character cannot be replaced with the internal character by collation with the replacement dictionary; A character in the second dictionary corresponding to the external character is determined by collation, and an internal character for replacing the external character is obtained from the first dictionary based on the degree of similarity with the determined character. A program that lets you do more.
(Appendix 9)
The program according to
A program for causing the computer to calculate the similarity based on a shape of a part included in each character shape and a position where the part is arranged in the character shape.
(Appendix 10)
The program according to any one of supplementary notes 6 to 9, wherein
A program for causing the computer to determine an external character based on a character code range for specifying a character.
(Appendix 11)
Computer
In the document to be processed, an external character not included in the character standard handled by the information processing apparatus is determined, and the external character is included in the character standard based on a replacement dictionary generated from a first dictionary used for morphological analysis. An information processing method for executing, by using the first dictionary, a document in which the internal character is replaced and the external character is replaced with the internal character using the first dictionary.
(Appendix 12)
The information processing method according to
The replacement dictionary includes character shape information that defines the character shape of the inner character included in the first dictionary,
Said computer,
By comparing the character shape information defining the character shape of the determined external character with the character shape information included in the replacement dictionary, an inner character corresponding to the collated character shape information is selected, and the external character is selected. An information processing method for performing replacement with a selected inner character.
(Appendix 13)
An information processing method according to claim 11 or 12, wherein
A second dictionary that includes the character shape information of the character that is not included in the character standard, the character shape information of the external character when the computer fails to replace the external character with the internal character by collation with the replacement dictionary; A character in the second dictionary corresponding to the external character is determined by collation, and an internal character for replacing the external character is obtained from the first dictionary based on the degree of similarity with the determined character. An information processing method further performing:
(Appendix 14)
The information processing method according to
An information processing method, wherein the computer calculates the similarity based on a shape of a part included in each character shape and a position where the part is arranged in the character shape.
(Appendix 15)
An information processing method according to any one of
An information processing method, wherein the computer determines an external character based on a range of a character code specifying a character.
1 単語辞書
2 OCR辞書
3 大規模文字集
4 属性辞書
5 部品の類似度辞書
11 CPU
12 主記憶装置
13 外部記憶装置
DESCRIPTION OF
12
Claims (7)
処理対象の文書中で、前記情報処理装置が取り扱う文字規格に含まれない外字を判別する判別処理と、
形態素解析に用いられる第1の辞書に登録された単語に対応する文字コードの組み合わせを分解して得られるそれぞれの文字コードと前記それぞれの文字コードに対応する文字形状とから生成された置換辞書に基づき前記外字を前記文字規格に含まれる内字に置換する置換処理と、
前記外字が前記内字に置換された文書を、前記第1の辞書を用いて解析する解析処理と、
を実行させるプログラム。 For information processing equipment ,
A determination process of determining an external character that is not included in a character standard handled by the information processing apparatus in a document to be processed;
In a replacement dictionary generated from each character code obtained by decomposing a combination of character codes corresponding to words registered in the first dictionary used for morphological analysis and a character shape corresponding to each of the character codes , A replacement process for replacing the external character with an internal character included in the character standard based on
An analysis process of analyzing the document in which the external characters have been replaced with the internal characters using the first dictionary;
A program that executes
前記置換辞書は、前記第1の辞書に含まれている内字の文字形状を定義する文字形状情報を含み、
前記置換処理は、前記判別された外字の文字形状を定義する文字形状情報と前記置換辞書に含まれる文字形状情報とを照合することによって前記照合された文字形状情報に対応する内字を選択し、前記外字を前記選択された内字に置換する、
ことを特徴とするプログラム。 The program according to claim 1, wherein
The replacement dictionary includes character shape information that defines the character shape of the inner character included in the first dictionary,
The replacement process selects character characters corresponding to the collated character shape information by collating character shape information defining the character shape of the determined external character with character shape information included in the substitution dictionary. Replacing the external character with the selected internal character,
A program characterized by that:
前記情報処理装置に、前記置換辞書との照合によって前記外字を内字に置換できなかった場合に、前記外字の文字形状情報を前記文字規格に含まれない文字の文字形状情報を含む第2の辞書と照合することによって前記外字に対応する前記第2の辞書中の文字を決定し、前記決定された文字との類似度を基に前記第1の辞書から前記外字を置換するための内字を取得することをさらに実行させるためのプログラム。 The program according to claim 1 or 2,
In the information processing apparatus , when the external character cannot be replaced with the internal character by the comparison with the replacement dictionary, the character shape information of the external character includes character shape information of a character not included in the character standard. A character in the second dictionary corresponding to the external character is determined by collating with the dictionary, and an internal character for replacing the external character from the first dictionary based on the similarity with the determined character. A program for making it more executable.
前記情報処理装置に、それぞれの文字形状に含まれる部品の形状と前記部品が前記文字形状内で配置される位置とにより前記類似度を算出させるためのプログラム。 The program according to claim 3, wherein
A program for causing the information processing device to calculate the similarity based on a shape of a part included in each character shape and a position where the part is arranged in the character shape.
前記情報処理装置に、文字を特定する文字コードの範囲に基づいて外字を判別させるためのプログラム。 The program according to any one of claims 1 to 4,
A program for causing the information processing device to determine an external character based on a range of a character code specifying a character.
形態素解析に用いられる第1の辞書に登録された単語に対応する文字コードの組み合わせを分解して得られるそれぞれの文字コードと前記それぞれの文字コードに対応する文字形状とから生成された置換辞書に基づき前記外字を前記文字規格に含まれる内字に置換し、
前記外字が前記内字に置換された文書を、前記第1の辞書を用いて解析する、
ことを特徴とする情報処理方法。 In the document to be processed, to determine the external character is not included in the character standards handled by the information processing apparatus,
In a replacement dictionary generated from each character code obtained by decomposing a combination of character codes corresponding to words registered in the first dictionary used for morphological analysis and a character shape corresponding to each of the character codes , Replace the external character with the internal character included in the character standard based on,
Analyzing the document in which the external characters are replaced with the internal characters using the first dictionary,
An information processing method, comprising:
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015116798A JP6648421B2 (en) | 2015-06-09 | 2015-06-09 | Information processing apparatus for processing documents, information processing method, and program |
TW105108115A TWI667579B (en) | 2015-06-09 | 2016-03-16 | Information processing device for processing documents, information processing method, and program for processing documents |
CN201610365828.6A CN106250354B (en) | 2015-06-09 | 2016-05-27 | Information processing apparatus, information processing method, and program for processing document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015116798A JP6648421B2 (en) | 2015-06-09 | 2015-06-09 | Information processing apparatus for processing documents, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017004218A JP2017004218A (en) | 2017-01-05 |
JP6648421B2 true JP6648421B2 (en) | 2020-02-14 |
Family
ID=57626666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015116798A Active JP6648421B2 (en) | 2015-06-09 | 2015-06-09 | Information processing apparatus for processing documents, information processing method, and program |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6648421B2 (en) |
CN (1) | CN106250354B (en) |
TW (1) | TWI667579B (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153731B (en) * | 2017-12-25 | 2019-02-12 | 掌阅科技股份有限公司 | Uncommon word processing method calculates equipment and computer storage medium |
CN113554033B (en) * | 2021-09-18 | 2021-12-10 | 深圳市一号互联科技有限公司 | Text recognition method, device and system of intelligent text robot |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07282203A (en) * | 1994-04-07 | 1995-10-27 | Hitachi Ltd | Character input device |
CN1056933C (en) * | 1994-08-05 | 2000-09-27 | 财团法人工业技术研究院 | Chinese wrongly writen character automatic correcting method and device |
US7254531B2 (en) * | 2000-09-05 | 2007-08-07 | Nir Einat H | In-context analysis and automatic translation |
US7106905B2 (en) * | 2002-08-23 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Systems and methods for processing text-based electronic documents |
US7991608B2 (en) * | 2006-04-19 | 2011-08-02 | Raytheon Company | Multilingual data querying |
WO2009016631A2 (en) * | 2007-08-01 | 2009-02-05 | Ginger Software, Inc. | Automatic context sensitive language correction and enhancement using an internet corpus |
CN101216947B (en) * | 2008-01-18 | 2010-08-18 | 北京语言大学 | Handwriting Chinese character input method and Chinese character identification method based on stroke segment mesh |
JP2010165302A (en) * | 2009-01-19 | 2010-07-29 | National Printing Bureau | System and method for retrieval of external character |
JP5387378B2 (en) * | 2009-12-15 | 2014-01-15 | 富士通株式会社 | Character identification device and character identification method |
CN102393850B (en) * | 2011-07-22 | 2016-10-26 | 镇江诺尼基智能技术有限公司 | A kind of Chinese character pattern cognition similarity determines method |
CN102591850A (en) * | 2011-12-28 | 2012-07-18 | 方正国际软件有限公司 | Method and system for error text statement correction based on conditional statements |
-
2015
- 2015-06-09 JP JP2015116798A patent/JP6648421B2/en active Active
-
2016
- 2016-03-16 TW TW105108115A patent/TWI667579B/en active
- 2016-05-27 CN CN201610365828.6A patent/CN106250354B/en active Active
Also Published As
Publication number | Publication date |
---|---|
TWI667579B (en) | 2019-08-01 |
JP2017004218A (en) | 2017-01-05 |
CN106250354B (en) | 2020-09-18 |
TW201643749A (en) | 2016-12-16 |
CN106250354A (en) | 2016-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5599662B2 (en) | System and method for converting kanji into native language pronunciation sequence using statistical methods | |
US9754176B2 (en) | Method and system for data extraction from images of semi-structured documents | |
KR101544690B1 (en) | Word division device, word division method, and word division program | |
JP2010157178A (en) | Computer system for creating term dictionary with named entities or terminologies included in text data, and method and computer program therefor | |
JP2004348591A (en) | Document search method and device thereof | |
CN113076748B (en) | Bullet screen sensitive word processing method, device, equipment and storage medium | |
JP5314195B2 (en) | Natural language processing apparatus, method, and program | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP6648421B2 (en) | Information processing apparatus for processing documents, information processing method, and program | |
WO2021230054A1 (en) | Sentence extraction device and sentence extraction method | |
US20150199582A1 (en) | Character recognition apparatus and method | |
KR102355731B1 (en) | Analysis program, analysis method, and analysis device | |
JP2008059389A (en) | Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program | |
JP5795302B2 (en) | Morphological analyzer, method, and program | |
JP2009020567A (en) | Document retrieval device | |
JP2007264858A (en) | Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method | |
JP2003331214A (en) | Character recognition error correction method, device and program | |
CN113330430A (en) | Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
JP5289032B2 (en) | Document search device | |
US20240062004A1 (en) | Fuzzy matching of obscure texts with meaningful terms included in a glossary | |
Dhanju et al. | Design and implementation of Shahmukhi spell checker | |
KR101663521B1 (en) | Method and program for proofreading word spacing | |
JP2010140107A (en) | Method, apparatus, program, and computer readable recording medium for registering unknown word | |
KR101629726B1 (en) | Method and program for proofreading word spacing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191230 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6648421 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |