JP2011008312A - Language analysis device and program - Google Patents
Language analysis device and program Download PDFInfo
- Publication number
- JP2011008312A JP2011008312A JP2009148259A JP2009148259A JP2011008312A JP 2011008312 A JP2011008312 A JP 2011008312A JP 2009148259 A JP2009148259 A JP 2009148259A JP 2009148259 A JP2009148259 A JP 2009148259A JP 2011008312 A JP2011008312 A JP 2011008312A
- Authority
- JP
- Japan
- Prior art keywords
- parenthesis
- sentence
- type
- expression
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、言語解析装置及びプログラムに関する。 The present invention relates to a language analysis apparatus and a program.
自然言語処理において行われる処理の1つに構文解析処理がある。構文解析処理において、文に含まれる括弧が冗長な表現となって構文解析の精度に影響を与えることがある。そこで、下記の特許文献1では、文中の括弧を文から分離して構文解析をした後に、分離した括弧を元の文に戻すことで括弧を含む文の構文解析を行っている。 One of the processes performed in the natural language process is a parsing process. In parsing processing, parentheses included in a sentence may become redundant expressions and affect parsing accuracy. Therefore, in Patent Document 1 below, after parsing the parenthesis in the sentence from the sentence, syntax analysis of the sentence including the parenthesis is performed by returning the separated parenthesis to the original sentence.
文と文に含まれる括弧表現(括弧と括弧に囲まれた文字列とを含む文字情報)との間に構文上の依存関係がある場合には、文から括弧表現を分離して構文解析を行うと正しい結果が得られないことがある。 If there is a syntactic dependency between the sentence and the parenthesis expression included in the sentence (character information including the parenthesis and the character string enclosed in parentheses), the parenthesis expression is separated from the sentence and the parsing is performed. Doing so may not give correct results.
本発明の目的の一つは、文に含まれる括弧表現について構文解析時に文から分離すべきか否かを実例に即して分類できる言語解析装置及びプログラムを提供することにある。 One of the objects of the present invention is to provide a language analysis device and a program that can classify whether parentheses included in a sentence should be separated from the sentence at the time of syntax analysis according to an actual example.
上記目的を達成するために、請求項1に記載の言語解析装置の発明は、文情報を格納した格納手段から括弧表現が含まれる文情報を取得する取得手段と、予め定められた規則に従って、前記取得手段により取得した文情報に含まれる括弧表現を当該文情報から分離する第1の類型と分離しない第2の類型に仮分類する仮分類手段と、前記仮分類手段による括弧表現の仮分類結果に基づいて、括弧表現を前記第1の類型と前記第2の類型とに分類する規則を学習する学習手段と、前記学習手段により学習された規則に基づいて、所与の文に含まれる括弧表現を前記第1の類型又は前記第2の類型に分類する分類手段と、を含むことを特徴とする。 To achieve the above object, the invention of the language analysis device according to claim 1 is characterized in that, according to a predetermined rule, an acquisition unit that acquires sentence information including parenthesis expressions from a storage unit that stores sentence information, Temporary classification means for provisionally classifying parenthesis expressions included in the sentence information acquired by the acquisition means into a first type that is separated from the sentence information and a second type that is not separated from the sentence information, and provisional classification of parenthesis expressions by the temporary classification means Based on the result, learning means for learning rules for classifying parenthesis expressions into the first type and the second type, and included in a given sentence based on the rules learned by the learning means Classification means for classifying the parenthesis expression into the first type or the second type.
また、請求項2に記載の発明は、請求項1に記載の言語解析装置において、前記分類手段により前記第1の類型に分類された括弧表現を、当該括弧表現を含む文情報から分離して構文解析の対象を設定する設定手段をさらに含むことを特徴とする。 The invention according to claim 2 is the language analysis apparatus according to claim 1, wherein the parenthesis expression classified into the first type by the classification unit is separated from sentence information including the parenthesis expression. It further includes setting means for setting a target for parsing.
また、請求項3に記載の発明は、請求項1又は2に記載の言語解析装置において、前記学習手段は、前記仮分類手段による括弧表現の仮分類結果を教師情報として、前記括弧表現の特徴情報を前記第1の類型と前記第2の類型とに分類する規則を学習することを特徴とする。 The invention according to claim 3 is the language analysis apparatus according to claim 1 or 2, wherein the learning means uses the provisional classification result of the parenthesis expression by the provisional classification means as teacher information, and features of the parenthesis expression A rule for classifying information into the first type and the second type is learned.
また、請求項4に記載の発明は、請求項3に記載の言語解析装置において、前記括弧表現の特徴情報は、当該括弧表現の周辺文字列の形態素情報に基づいて生成されることを特徴とする。 The invention according to claim 4 is the language analysis apparatus according to claim 3, wherein the feature information of the parenthesis expression is generated based on morpheme information of a surrounding character string of the parenthesis expression. To do.
また、請求項5に記載の発明は、請求項1乃至3のいずれかに記載の言語解析装置において、前記仮分類手段は、前記取得手段により取得された文情報毎に、当該文情報と当該文情報から括弧表現を除いた文字列情報とのそれぞれの構文情報を比較した結果と、当該括弧表現の構文情報が予め定められた条件に合致するか否かを判定した結果とに基づいて、当該括弧表現を第1の類型と第2の類型とに仮分類することを特徴とする。 Further, the invention according to claim 5 is the language analysis apparatus according to any one of claims 1 to 3, wherein the temporary classification unit includes the sentence information and the sentence for each sentence information acquired by the acquisition unit. Based on the result of comparing each piece of syntax information with the character string information obtained by removing the parenthesis expression from the sentence information and the result of determining whether the syntax information of the parenthesis expression matches a predetermined condition, The parenthesis expression is provisionally classified into a first type and a second type.
また、請求項6に記載のプログラムの発明は、文情報を格納した格納手段から括弧表現が含まれる文情報を取得する取得手段と、予め定められた規則に従って、前記取得手段により取得した文情報に含まれる括弧表現を当該文情報から分離する第1の類型と分離しない第2の類型に仮分類する仮分類手段と、前記仮分類手段による括弧表現の仮分類結果に基づいて、括弧表現を前記第1の類型と前記第2の類型とに分類する規則を学習する学習手段と、前記学習手段により学習された規則に基づいて、所与の文に含まれる括弧表現を前記第1の類型又は前記第2の類型に分類する分類手段としてコンピュータを機能させるためのプログラムである。 According to a sixth aspect of the present invention, there is provided a program for acquiring sentence information including parenthesis expressions from a storage means for storing sentence information, and sentence information acquired by the acquisition means according to a predetermined rule. A temporary classification means for temporarily classifying the parenthesis expression included in the sentence information into a second type that is not separated from the first type that is separated from the sentence information, and a parenthesis expression based on the temporary classification result of the parenthesis expression by the temporary classification means Learning means for learning a rule for classifying into the first type and the second type, and a parenthesis expression included in a given sentence based on the rule learned by the learning means. Or it is a program for making a computer function as a classification means to classify | categorize into said 2nd type.
請求項1及び6に記載の発明によれば、文に含まれる括弧表現について構文解析時に文から分離すべきか否かを実例に即して分類できる。 According to the first and sixth aspects of the present invention, it is possible to classify whether parentheses included in a sentence should be separated from the sentence at the time of parsing based on an actual example.
請求項2に記載の発明によれば、文から分離すべき括弧表現については分離して構文解析対象を設定できる。 According to the second aspect of the present invention, the parsing target can be set by separating the parenthesis expression to be separated from the sentence.
請求項3に記載の発明によれば、教師情報を別途与えることなく括弧表現の類型を学習できる。 According to the third aspect of the present invention, the type of parenthesis expression can be learned without separately providing teacher information.
請求項4に記載の発明によれば、仮分類の結果を用いて括弧表現の特徴情報を生成できる。 According to the fourth aspect of the invention, it is possible to generate parenthesized feature information using the provisional classification result.
請求項5に記載の発明によれば、本構成を有しない場合に比較して、括弧表現を文から分離すべきか否かの判定精度を向上できる。 According to the fifth aspect of the present invention, it is possible to improve the accuracy of determining whether or not the parenthesis expression should be separated from the sentence as compared with the case where the present configuration is not provided.
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments (hereinafter referred to as embodiments) for carrying out the invention will be described with reference to the drawings.
図1には、本実施形態に係る言語解析装置10の機能ブロック図を示す。図1に示されるように、言語解析装置10は、文書群格納部12、学習標本抽出部14、構文解析部16、学習データ生成部18、機械学習部20、構文解析対象文取得部22、括弧分類部24、及び構文解析対象設定部26を含む。上記各部の機能は、CPU(Central Processing Unit)等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によってコンピュータたる言語解析装置10に供給されることとしてもよいし、インターネット等のデータ通信手段を介して供給されることとしてもよい。
FIG. 1 shows a functional block diagram of a
文書群格納部12は、半導体メモリや磁気ディスク装置等の記憶装置を含み構成され、1又は複数の分野について文書群(コーパス)を格納したものである。文書群(コーパス)は、テキストの集合体であって、例えばウェブテキストの集合体、百科事典の記事の集合体、新聞記事の集合体、特定の技術分野、概念分野についての文書の集合体等を含むこととしてよい。
The document
図2には、文書群格納部12に格納される文書情報の一例を示す。図2に示されるように、文書群格納部12には、各文書を識別する文書IDに関連づけて、当該文書の内容を表すテキストデータが格納されている。
FIG. 2 shows an example of document information stored in the document
学習標本抽出部14は、文書群格納部12に格納された文書情報の中から学習サンプルとして用いる文を抽出するものである。本実施形態では、学習標本抽出部14は、文書群格納部12に格納された文書情報のうち解析の対象とするテキストに応じた分野のテキストから、括弧を1つ含む文を抽出することとする。学習標本抽出部14は、文書群格納部12に格納される文書内に複数の文が含まれている場合には、当該各文を区切ると共に、区切った各文のうち括弧を1つ含む文を抽出することとする。なお、本実施形態における括弧は、丸括弧、鉤括弧、二重鉤括弧、角括弧、波括弧、亀甲括弧、山括弧、二重山括弧、隅付き括弧等の多様な種類の括弧を含むこととしてよく、これらの括弧のうち指定したもののみを括弧として扱うこととしてもよい。
The learning
図3には、学習標本抽出部14により文書群格納部12から抽出されるサンプルテキストの一例を示す。図3に示されるように、図2に示された文書情報におけるIDが001のテキストのうち、最初の文「明日は雨が降る(だろう)。」は括弧を1つ含む文であるためこの文はサンプルテキストとして抽出される。また、同様にIDが002のテキストのうち、鉤括弧内の「学問的にはケンブリッジ大学も(エジンバラ大学も)得る物は何もなかった」も括弧を1つ含む文であるためこの文もサンプルテキストとして抽出される。このように、学習標本抽出部14は、句点がなくとも文としての形態をなす文字列であれば、当該文字列をサンプルテキストとして抽出することとしてよい。例えば学習標本抽出部14は、文書群格納部12からサンプルテキストを予め定められた数に達するまで抽出することとしてよい。
FIG. 3 shows an example of sample text extracted from the document
構文解析部16は、所与の文字列の形態素を分析すると共に、当該分析した形態素の関係性を解析して、当該所与の文字列の構文を解析するものである。本実施形態では、構文解析部16は、学習標本抽出部14により抽出されたサンプルテキストから生成される以下の3つの文字列について構文解析を行う。
The
まず、構文解析部16は、サンプルテキストに含まれる括弧に囲まれる文字列について構文解析を行う(以下、この構文解析結果を第1の構文解析結果とする)。次に、構文解析部16は、サンプルテキスト全体について構文解析を行うと共に(以下、この構文解析結果を第2の構文解析結果とする)、サンプルテキストから括弧及び括弧に囲まれる文字列を含む括弧表現を除外した文字列について構文解析を行う(以下、この構文解析結果を第3の構文解析結果とする)。構文解析部16によりサンプルテキストについて行った上記の第1乃至第3の構文解析結果の各々は、後述する学習データ生成部18に出力される。
First, the
学習データ生成部18は、第1の構文解析結果及び、第2の構文解析結果と第3の構文解析結果との比較結果に基づいて、サンプルテキストに含まれる括弧表現が当該サンプルテキストに従属しているか否かを分類(仮分類)すると共に、当該分類結果に基づいて括弧表現の学習データを生成する。以下、本実施形態における学習データの生成処理を具体的に説明する。
Based on the first syntax analysis result and the comparison result between the second syntax analysis result and the third syntax analysis result, the learning
学習データ生成部18は、まず第1の構文解析結果を参照して、当該構文解析結果により示される最上位ノードが文(S)又は名詞句である場合には、第2の構文解析結果と第3の構文解析結果とにおける最上位ノードがそれぞれ一致していればサンプルテキストに含まれる括弧表現はサンプルテキストから分離する「独立」、そうでなければ「従属」として判定する。これは、括弧表現が文又は名詞句としての形態を有しているものであって、さらに括弧表現を文から取り去っても構文が変化しない場合には、当該括弧表現は構文解析時に文から分離してよい「独立」型の括弧表現であると考えられるためである。
The learning
また、学習データ生成部18は、第1の構文解析結果により示される最上位ノードが文(S)又は名詞句でない場合には、第2の構文解析結果と第3の構文解析結果とにおける最上位ノードがそれぞれ一致していればサンプルテキストに含まれる括弧表現は当該サンプルテキストから分離しない「従属」、そうでなければ「独立」として判定する。これは、括弧表現が文又は名詞句としての形態を有していないものであって、さらに括弧表現を文から取り去った場合に構文が変化するような場合には、このような括弧表現を文に含めて構文解析すると文全体が文法に即さなくなり、正しい構文構造が得られないことが考えられるためである。
In addition, when the highest node indicated by the first syntax analysis result is not a sentence (S) or a noun phrase, the learning
図4A、図4B、図4Cには、サンプルテキストに含まれる具体的な括弧表現を「独立」と「従属」に分類した例を示した。図4Aに示されるように、サンプルテキスト「雨が降る(だろう)」に対して、括弧表現の文字列「だろう」を解析した第1の構文解析結果の最上位ノードが文(S)又は名詞句でなく、第2の構文解析結果と第3の構文解析結果との最上位ノードは一致しているため、「雨が降る(だろう)」の括弧表現は構文解析時に分離しない「従属」と判定される。 4A, 4B, and 4C show examples in which specific parenthesis expressions included in the sample text are classified into “independent” and “dependent”. As shown in FIG. 4A, for the sample text “it will rain”, the topmost node of the first parsing result obtained by analyzing the character string “will be” in the parenthesis expression is the sentence (S). Or, since the top node of the second parsing result and the third parsing result is not the same as the noun phrase, the parenthesis expression of “it will rain” is not separated during parsing. Dependent "is determined.
図4Bには、サンプルテキスト「ワイン(赤・白)を扱う」の括弧表現を分類した分類結果を示した。すなわち、上記のサンプルテキストでは、第1の構文解析結果の最上位ノードは名詞句であり、かつ、第2の構文解析結果と第3の構文解析結果との最上位ノードが一致しているため、当該サンプルテキストの括弧表現は構文解析時に分離する「独立」と判定される。 FIG. 4B shows a classification result obtained by classifying the parenthesis expression of the sample text “handle wine (red / white)”. In other words, in the above sample text, the top node of the first parsing result is a noun phrase, and the top node of the second parsing result and the third parsing result match. The parenthesis expression of the sample text is determined as “independent” to be separated at the time of parsing.
図4Cには、サンプルテキスト「(であれば問題なので)現場へ行こう」の括弧表現を分類した分類結果を示した。図4Cに示されるように、上記のサンプルテキストでは、第1の構文解析結果の最上位ノードは文(S)又は名詞句ではなく、かつ、第2の構文解析結果と第3の構文解析結果との最上位ノードが一致していないため、当該サンプルテキストの括弧表現は構文解析時に分離する「独立」と判定される。 FIG. 4C shows a classification result obtained by classifying the parenthesis expression of the sample text “Let's go to the site if it is a problem”. As shown in FIG. 4C, in the above sample text, the top node of the first parsing result is not a sentence (S) or a noun phrase, and the second parsing result and the third parsing result. Since the most significant node does not match, the parenthesis expression of the sample text is determined to be “independent” which is separated at the time of parsing.
図5には、各サンプルテキストに含まれる括弧表現について学習データ生成部18により生成される学習データの一例を示した。図5に示されるように、本実施形態では、括弧表現についての学習データを、正負、括弧種類、括弧内の構文、周辺形態素の情報を含み生成することとしている。正負とは、括弧表現が「独立」(正例)か「従属」(負例)かを示す教師情報であり、括弧種類は、括弧が丸括弧、鉤括弧、二重鉤括弧等のいずれの種類であるかを示す情報である。また、括弧内の構文は、括弧に囲まれた文字列の構文解析結果における最上位ノードを示し、周辺形態素の情報は、括弧表現について予め定められた数の周辺の形態素の表層及び品詞情報により構成される情報である。例えば、周辺形態素の情報を周辺2形態素として構成する場合には、括弧表現から前後に2つの形態素までの各形態素の表層及び品詞の情報を連結させることとする。なお、周辺形態素としていくつの形態素を用いるかは上述した例に限られるものではない。学習データは、正負、括弧種類等の各項目のデータを数値に変換した多次元のベクトルデータとして生成することとしてよい。そして、学習データ生成部18は、各サンプルテキストの括弧表現について学習データを生成し、生成した学習データを機械学習部20に出力する。
FIG. 5 shows an example of learning data generated by the learning
機械学習部20は、学習データ生成部18により生成された学習データに基づいて、括弧表現の分類規則を学習するものである。括弧表現の分類規則とは、文に含まれる括弧表現を構文解析時に分離する「独立」タイプか、分離しない「従属」タイプかを分類するための規則である。なお、機械学習部20は、例えばSVM(Support Vector Machine:サポートベクターマシーン)やCRF(Condition Random Field:条件付き確率場)等の機械学習アルゴリズムを用いて括弧表現の分類規則を学習することとしてよい。分類規則とは、例えば括弧表現の特徴ベクトル空間における識別面として表現されることとしてもよいし、ニューラルネットワークにおけるノードの入出力の重みとして表現されることとしてもよく、多様なデータ表現形式を含むものとしてよい。
The
次に、本実施形態に係る言語解析装置10に備えられた、上記学習した括弧表現の分類規則を利用して構文解析を行うための機能について説明する。
Next, the function for performing syntax analysis using the learned parenthesis expression classification rules provided in the
構文解析対象文取得部22は、構文解析の対象とするテキストデータを取得するものである。構文解析の対象とするテキストデータは、1つの文としてもよいし複数の文を含んでいてもよい。
The syntax analysis target
括弧分類部24は、構文解析対象文取得部22により取得された文に含まれる各括弧表現を当該文から分離して構文解析する「独立」タイプのものか、文と分離せずに構文解析する「従属」タイプのものかを分類するものである。本実施形態では、括弧分類部24は、上記機械学習部20における学習データと同様に、処理対象の文に含まれる括弧表現毎に、当該括弧表現を表す入力データを生成し、当該生成した入力データを機械学習部20において括弧表現の分類規則を学習したSVM等の分類器に入力して括弧表現を分類するものである。
The
図6には、処理対象の文に含まれる括弧表現について生成される入力データの一例を示した。図6に示されるように、入力データは、括弧種類、括弧内の構文、周辺形態素の情報を含み構成されるものであり、学習データとの差異は、入力データには「正負」の情報が含まれていないことであり、その他の項目は学習データと同様である。括弧分類部24は、上記生成した入力データを分類規則を学習した分類器に入力することで、当該入力データが「独立」(正)又は「従属」(負)のいずれに該当するのかを分類する。なお、括弧分類部24は処理対象の文に含まれる各括弧表現について上記の分類処理を行うこととする。
FIG. 6 shows an example of input data generated for the parenthesis expression included in the sentence to be processed. As shown in FIG. 6, the input data is configured to include information on parenthesis type, syntax within parentheses, and peripheral morpheme. The difference from the learning data is that “positive / negative” information is included in the input data. The other items are the same as the learning data. The
構文解析対象設定部26は、括弧分類部24による各括弧表現の分類結果に基づいて、処理対象の文における構文解析対象を設定するものである。本実施形態では、構文解析対象設定部26は、括弧分類部24により括弧表現が「独立」と分類された場合には、処理対象の文から当該括弧表現を分離することとし、一方で括弧表現が「従属」と分類された場合には、処理対象の文に当該括弧表現を残して構文解析対象を設定することとする。
The parsing
ここで、具体例を用いて括弧分類部24、構文解析対象設定部26の処理を説明する。例えば、構文解析対象文取得部22により“変更を伴う由来という語を使っている(evolutionの原義については下の項目を参照のこと)。”という文が処理対象として取得された場合には、括弧分類部24は、括弧表現(evolutionの原義については下の項目を参照のこと)についての入力データ(特徴ベクトル)を生成し、生成した入力データを分類器に入力して上記括弧表現が「独立」か「従属」かの分類結果を得る。例えば、上記括弧表現が「独立」と分類された場合には、構文解析対象設定部26は、(1)「変更を伴う由来」という語を使っている、(2)evolutionの原義については下の項目を参照のこと、の各文を構文解析対象として設定する。そして、構文解析部16は、構文解析対象設定部26により設定された各構文解析対象の文字列に対して構文解析を行い、それらの構文解析結果を統合して最終的な構文解析結果を得ることとする。
Here, processing of the
また、処理対象の文が“「変更を伴う由来」という語を使っている。”の場合に同様の処理により括弧表現「変更を伴う由来」が「従属」として分類された場合には、構文解析対象設定部26は“「変更を伴う由来」という語を使っている。”を構文解析対象として設定する。なお、処理対象の文に複数の括弧表現が含まれる場合にも、各括弧表現について入力データ(特徴ベクトル)を同様に生成して、生成した入力データを分類器に入力して各括弧表現の分類結果を得て、得られた分類結果に基づいて構文解析対象を設定することとしてよい。
In addition, the sentence to be processed uses the word “derived from change”. When the parenthesis expression “derived from change” is classified as “subordinate” by the same processing in the case of “,” the parsing
次に、図7及び図8を参照しながら、本実施形態に係る言語解析装置10による処理の流れについて説明する。
Next, the flow of processing by the
図7には、括弧表現の分類規則を学習する学習処理のフローチャートを示した。図7に示されるように、言語解析装置10は、解析対象の分野のテキストが格納された文書群(コーパス)の中から括弧を1つ含む文を取得する(S101)と共に、取得した文に含まれる括弧表現を抽出する(S102)。次に、言語解析装置10は、抽出した括弧表現が文又は名詞句であるかを判断する(S103)と共に、文から括弧表現を除外した場合とそうでない場合とで構文解析結果の最上位ノードが一致するか否かを判断する(S104)。ここで、言語解析装置10は、S103でYかつS104でYの場合と、S103でNかつS104でNの場合に抽出した括弧表現が「独立」(正例)であると仮分類し(S105)、それ以外の場合には「従属」(負例)であると仮分類する(S106)。
FIG. 7 shows a flowchart of a learning process for learning a classification rule of parenthesis expression. As shown in FIG. 7, the
言語解析装置10は、上記仮分類の結果と括弧表現の素性情報とに基づいて、括弧表現についての学習データを生成する(S107)。言語解析装置10は、学習データの生成を継続する場合には(S108:Y)、S101に戻ってそれ以降の処理を繰り返し、学習データの生成を終了する場合には(S108:N)、それまでに生成した学習データに基づいて括弧表現の分類規則を学習して(S109)、学習処理を終了する。
The
図8には、構文解析対象の設定処理のフローチャートを示した。図8に示されるように、言語解析装置10は、処理対象文を取得して(S201)、取得した処理対象文に含まれる括弧表現を抽出する(S202)。言語解析装置10は、抽出した括弧表現の素性情報に基づいて入力データを生成して(S203)、生成した入力データを図7に示された学習処理により括弧表現の分類規則を学習した分類器に入力して括弧表現を分類する(S204)。
FIG. 8 shows a flowchart of a process for setting a parsing target. As shown in FIG. 8, the
言語解析装置10は、上記分類した結果が「独立」である場合には(S205:Y)、括弧表現を処理対象文から分離した構文解析対象に設定し(S206)、「従属」である場合には(S205:N)、括弧表現を処理対象文に含めて構文解析対象を設定する(S207)。言語解析装置10は、処理対象文のうち未処理の括弧表現があるか否かを判断し(S208)、あると判断する場合には(S208:Y)、S202に戻ってそれ以降の処理を繰り返し、ないと判断する場合には(S208:N)、設定した構文解析対象の各文字列に対して構文解析処理を実行して(S209)、処理を終了する。
When the result of the classification is “independent” (S205: Y), the
以上説明した本実施形態に係る言語解析装置では、予め定めた分類規則に従ってコーパス等の文書集合に含まれるサンプルテキストを分類し、その分類結果を教師情報としてサンプルテキスト内の括弧表現の特徴ベクトルの分類を機械学習することで、予め定めた分類規則に合致するか否かで括弧表現を分類する場合に比べて分類精度が向上する。 In the language analysis apparatus according to the present embodiment described above, sample text included in a document set such as a corpus is classified according to a predetermined classification rule, and the classification result is used as a teacher information for the feature vector of parenthesis expression in the sample text. By machine learning of classification, classification accuracy is improved as compared with the case of classifying parenthesis expressions depending on whether or not a predetermined classification rule is met.
また、本発明は上記の実施形態に限定されるものではなく、例えば解析対象の文が属する分野、書式等の属性に基づいて文書群(コーパス)を選択し、当該選択した文書群(コーパス)に基づいて学習した分類規則に基づいて解析対象の文に含まれる括弧表現を分類することとしてもよい。 Further, the present invention is not limited to the above-described embodiment. For example, a document group (corpus) is selected based on attributes such as a field to which a sentence to be analyzed belongs, a format, etc., and the selected document group (corpus) is selected. The parenthesis expressions included in the sentence to be analyzed may be classified based on the classification rule learned based on the above.
10 言語解析装置、12 文書群格納部、14 学習標本抽出部、16 構文解析部、18 学習データ生成部、20 機械学習部、22 構文解析対象文取得部、24 括弧分類部、26 構文解析対象設定部。
DESCRIPTION OF
Claims (6)
予め定められた規則に従って、前記取得手段により取得した文情報に含まれる括弧表現を当該文情報から分離する第1の類型と分離しない第2の類型に仮分類する仮分類手段と、
前記仮分類手段による括弧表現の仮分類結果に基づいて、括弧表現を前記第1の類型と前記第2の類型とに分類する規則を学習する学習手段と、
前記学習手段により学習された規則に基づいて、所与の文に含まれる括弧表現を前記第1の類型又は前記第2の類型に分類する分類手段と、を含む
ことを特徴とする言語解析装置。 An acquisition means for acquiring sentence information including parenthesis expression from a storage means storing sentence information;
Provisional classification means for provisionally classifying a parenthesis expression included in the sentence information acquired by the acquisition means into a first type that is separated from the sentence information and a second type that is not separated according to a predetermined rule;
Learning means for learning a rule for classifying the parenthesis expression into the first type and the second type based on a temporary classification result of the parenthesis expression by the temporary classification means;
A language analysis apparatus comprising: classifying means for classifying parenthesis expressions included in a given sentence into the first type or the second type based on the rules learned by the learning means. .
ことを特徴とする請求項1に記載の言語解析装置。 The parenthesis expression classified into the first type by the classification unit is further separated from sentence information including the parenthesis expression, and further includes setting means for setting a target for parsing. Language analyzer.
ことを特徴とする請求項1又は2に記載の言語解析装置。 The learning means learns a rule for classifying the feature information of the parenthesis expression into the first type and the second type using the temporary classification result of the parenthesis expression by the temporary classification means as teacher information. The language analysis apparatus according to claim 1 or 2.
ことを特徴とする請求項3に記載の言語解析装置。 The language analysis apparatus according to claim 3, wherein the feature information of the parenthesis expression is generated based on morpheme information of a surrounding character string of the parenthesis expression.
ことを特徴とする請求項1乃至3のいずれかに記載の言語解析装置。 For each sentence information acquired by the acquisition means, the temporary classification means compares the syntax information of the sentence information and character string information obtained by removing the parenthesis expression from the sentence information, and the parenthesis expression 2. The parenthesized expression is provisionally classified into a first type and a second type based on a result of determining whether or not the syntax information matches a predetermined condition. 4. The language analysis apparatus according to any one of 3.
予め定められた規則に従って、前記取得手段により取得した文情報に含まれる括弧表現を当該文情報から分離する第1の類型と分離しない第2の類型に仮分類する仮分類手段と、
前記仮分類手段による括弧表現の仮分類結果に基づいて、括弧表現を前記第1の類型と前記第2の類型とに分類する規則を学習する学習手段と、
前記学習手段により学習された規則に基づいて、所与の文に含まれる括弧表現を前記第1の類型又は前記第2の類型に分類する分類手段としてコンピュータを機能させるためのプログラム。 An acquisition means for acquiring sentence information including parenthesis expression from a storage means storing sentence information;
Provisional classification means for provisionally classifying a parenthesis expression included in the sentence information acquired by the acquisition means into a first type that is separated from the sentence information and a second type that is not separated according to a predetermined rule;
Learning means for learning a rule for classifying the parenthesis expression into the first type and the second type based on a temporary classification result of the parenthesis expression by the temporary classification means;
A program for causing a computer to function as classification means for classifying parenthesis expressions included in a given sentence into the first type or the second type based on the rules learned by the learning means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009148259A JP5387161B2 (en) | 2009-06-23 | 2009-06-23 | Language analysis apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009148259A JP5387161B2 (en) | 2009-06-23 | 2009-06-23 | Language analysis apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011008312A true JP2011008312A (en) | 2011-01-13 |
JP5387161B2 JP5387161B2 (en) | 2014-01-15 |
Family
ID=43564947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009148259A Expired - Fee Related JP5387161B2 (en) | 2009-06-23 | 2009-06-23 | Language analysis apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5387161B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015172952A (en) * | 2015-05-07 | 2015-10-01 | 株式会社Ubic | Document sorting system, control method of document sorting system, and control program of document sorting system |
JP2016027510A (en) * | 2015-11-19 | 2016-02-18 | 株式会社Ubic | Document classification system, control method of document classification system, and control program of document classification system |
US9552570B2 (en) | 2012-02-29 | 2017-01-24 | Ubic, Inc. | Document classification system, document classification method, and document classification program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271590A (en) * | 2002-03-15 | 2003-09-26 | Nippon Telegr & Teleph Corp <Ntt> | Translation method, translation device and translation program |
-
2009
- 2009-06-23 JP JP2009148259A patent/JP5387161B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271590A (en) * | 2002-03-15 | 2003-09-26 | Nippon Telegr & Teleph Corp <Ntt> | Translation method, translation device and translation program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552570B2 (en) | 2012-02-29 | 2017-01-24 | Ubic, Inc. | Document classification system, document classification method, and document classification program |
US10445357B2 (en) | 2012-02-29 | 2019-10-15 | Fronteo, Inc. | Document classification system, document classification method, and document classification program |
JP2015172952A (en) * | 2015-05-07 | 2015-10-01 | 株式会社Ubic | Document sorting system, control method of document sorting system, and control program of document sorting system |
JP2016027510A (en) * | 2015-11-19 | 2016-02-18 | 株式会社Ubic | Document classification system, control method of document classification system, and control program of document classification system |
Also Published As
Publication number | Publication date |
---|---|
JP5387161B2 (en) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rashel et al. | Building an Indonesian rule-based part-of-speech tagger | |
CN107038158B (en) | Method and apparatus for creating translation corpus, recording medium, and machine translation system | |
US10839155B2 (en) | Text analysis of morphemes by syntax dependency relationship with determination rules | |
CN108475262A (en) | Electronic equipment and method for text-processing | |
US20190228074A1 (en) | System for machine translation | |
JP6817556B2 (en) | Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system | |
US11669691B2 (en) | Information processing apparatus, information processing method, and computer readable recording medium | |
Aliwy | Arabic morphosyntactic raw text part of speech tagging system | |
Bhattacharya et al. | Inflectional morphology synthesis for bengali noun, pronoun and verb systems | |
JP5387161B2 (en) | Language analysis apparatus and program | |
KR101333485B1 (en) | Method for constructing named entities using online encyclopedia and apparatus for performing the same | |
JP6126965B2 (en) | Utterance generation apparatus, method, and program | |
JP5823441B2 (en) | Case analysis model parameter learning device, case analysis device, method, and program | |
Aktas et al. | Text classification via network topology: A case study on the holy quran | |
Majumder et al. | Event extraction from biomedical text using crf and genetic algorithm | |
Kaur et al. | Text summarization using partial textual entailment based graphs | |
Gholami-Dastgerdi et al. | Part of speech tagging using part of speech sequence graph | |
JP2013196382A (en) | Document classification method, device and program | |
Karanikolas | A methodology for building simple but robust stemmers without language knowledge: Stemmer configuration | |
Rabin et al. | Development of the algorithm for graphematic analysis and isolating of semantically significant constructions in poorly structured text | |
Nunsanga et al. | Part-of-speech tagging for mizo language using conditional random field | |
Naseer et al. | Supervised word sense disambiguation for Urdu using Bayesian classification | |
JP2007264858A (en) | Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method | |
JP2008165718A (en) | Intention determination device, intention determination method, and program | |
Abdelghany et al. | Doc2Vec: An approach to identify Hadith Similarities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120518 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5387161 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |