JP2010238043A - Text analysis learning device - Google Patents
Text analysis learning device Download PDFInfo
- Publication number
- JP2010238043A JP2010238043A JP2009086407A JP2009086407A JP2010238043A JP 2010238043 A JP2010238043 A JP 2010238043A JP 2009086407 A JP2009086407 A JP 2009086407A JP 2009086407 A JP2009086407 A JP 2009086407A JP 2010238043 A JP2010238043 A JP 2010238043A
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- label
- feature
- likelihood
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、テキスト解析学習装置に関するものである。 The present invention relates to a text analysis learning apparatus.
一般にテキスト解析と呼ばれる処理の中には、入力データに対して構造化ラベルを付与する問題と見なすことができる処理がある。例えば、日本語文の単語区切り処理は、入力データである文字列に対し、単語区切り位置の有無を示すラベルを付与する問題と捉えることができる。 Among processes generally called text analysis, there is a process that can be regarded as a problem of giving a structured label to input data. For example, Japanese word separation processing can be regarded as a problem of giving a label indicating the presence or absence of a word separation position to a character string that is input data.
図14は、ラベル付与による日本語単語区切り処理の例を示す図である。図14では、入力文が「アイビーキャリアカレッジ」であり、ラベル「1」は、当該文字の直後が単語区切り位置であることを示している。反対に、ラベル「0」は、単語区切り位置ではないことを示している。従って、当該入力文は「アイビー」「キャリア」「カレッジ」と3つの単語に分割される。 FIG. 14 is a diagram illustrating an example of a Japanese word segmentation process by labeling. In FIG. 14, the input sentence is “Ivy Career College”, and the label “1” indicates that the position immediately after the character is a word break position. On the contrary, the label “0” indicates that it is not a word break position. Therefore, the input sentence is divided into three words, “Ivy”, “Career”, and “College”.
このようなテキスト解析処理は、従来、人手で記述した解析規則により実現されてきたが、記述のスケーラビリティ(網羅性やメンテナンス性)に限界があるために、近年は、統計的な手法により、図14のようなラベル付き学習データを用意し、解析規則を自動的に獲得する場合が多い。 Conventionally, such text analysis processing has been realized by analysis rules written manually. However, due to limitations in the scalability (exhaustability and maintainability) of the description, in recent years it has been In many cases, learning data with a label like 14 is prepared and an analysis rule is automatically acquired.
統計的な手法では、個々の解析規則の抽出や、解析規則間の依存性の問題を機械が自動処理してくれるため、対象分野を十分カバーするラベル付き学習データを大量に用意さえすれば、自動的に高精度なテキスト解析器を得られるという利点がある。 In the statistical method, the machine automatically processes the analysis of individual analysis rules and the dependency between analysis rules, so if you prepare a large amount of labeled learning data that sufficiently covers the target field, There is an advantage that a highly accurate text analyzer can be obtained automatically.
従って、統計的な手法においては、従来のルール記述の問題が、十分な量のラベル付き学習データの確保という問題に置き換わっている。しかし、ラベル付与作業においても、対象ドメイン、文法双方の専門知識が必要である点では変わらず、高コストな作業となっているため、構築しようとするテキスト解析器の対象分野に合わせて、十分な量のラベル付き学習データを用意することは難しい。 Therefore, in the statistical method, the problem of conventional rule description is replaced with a problem of securing a sufficient amount of labeled learning data. However, the labeling work also requires high expertise in both the target domain and grammar, and is a high-cost work, so it is sufficient to match the target area of the text analyzer to be constructed. It is difficult to prepare a large amount of labeled learning data.
統計的手法によるテキスト解析器の構築において、学習に要するラベル付き学習データの確保は大きな課題となっている。このようなラベル付き学習データの問題に対しては、正解ラベルを付与していない学習データ(ラベル無し学習データ)を併用する半教師付き学習のアプローチがあり、本発明も半教師付き学習の一種である。 In the construction of text analyzers using statistical techniques, securing labeled learning data required for learning has become a major issue. For such labeled learning data problems, there is a semi-supervised learning approach that uses learning data that is not assigned a correct answer label (unlabeled learning data), and the present invention is also a kind of semi-supervised learning. It is.
前述の単語区切りの例において、ラベル無し学習データとは、単語区切りを与えていないプレーンな生データである。例えば、「アーツカレッジヨコハマ」「アートカレッジ専門学校」「アートガレージかわさき」といった、テキスト解析器への入力文を列挙したリストに相当する。こうした生データは、ラベル付き学習データと比較して低コストで大量に入手・利用可能である。 In the above example of word breaks, unlabeled learning data is plain raw data that does not give word breaks. For example, “Arts College Yokohama” “Art College College” “Art Garage Kawasaki” corresponds to a list listing input sentences to the text analyzer. Such raw data can be obtained and used in large quantities at low cost compared to labeled learning data.
このようなラベル無し学習データを利用する従来の技術として、例えば特許文献1に開示されるものがある。
As a conventional technique using such unlabeled learning data, there is one disclosed in
ラベル無し学習データを利用する従来の技術では、性質の異なる2種類のモデル(識別モデルと生成モデル)を学習に使った一種のハイブリッド学習法により、一方のモデルによるラベル無し学習データの解析結果を、他方のモデルの教師付き学習に利用している。このように、本質的にモデルの補間特性の違いから生じる尤度差を利用するため、解析タスクやデータに対して一般性が高いという利点がある。 In the conventional technology using unlabeled learning data, the analysis result of unlabeled learning data by one model is obtained by a kind of hybrid learning method using two kinds of models (identification model and generation model) with different properties. The other model is used for supervised learning. Thus, since the likelihood difference resulting from the difference in the interpolation characteristics of the model is used essentially, there is an advantage that the generality is high for the analysis task and data.
しかしながら、先験的な知識に頼らない上記従来の手法では、ラベル無し学習データの利用効率が悪く、精度が上がりにくいという課題があった。 However, the above-described conventional method that does not rely on a priori knowledge has a problem that the use efficiency of unlabeled learning data is poor and the accuracy is difficult to increase.
この発明は、上記のような課題を解決するためになされたもので、ラベル付き学習データ及びラベル無し学習データの双方を効率よく利用した学習により高精度なテキスト解析を実現できるテキスト解析学習装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and provides a text analysis learning apparatus capable of realizing highly accurate text analysis by learning that efficiently uses both labeled learning data and unlabeled learning data. The purpose is to obtain.
この発明に係るテキスト解析学習装置は、テキスト解析器に対する入力文、入力文の正しい解析結果を示すラベル及び当該入力文が属するカテゴリを示すカテゴリ情報の組み合わせを、ラベル付き学習データとして格納するラベル付き学習データ格納部と、テキスト解析器に対する入力文及び当該入力文が属するカテゴリを示すカテゴリ情報の組み合わせを、ラベル無し学習データとして格納するラベル無し学習データ格納部と、ラベルの一覧を格納するラベル格納部と、入力文に対する照合条件と当該入力文のラベルとの組み合わせを、当該入力文に対応する素性データとして格納する素性データ格納部と、照合条件の一部及びラベルを変数とした素性テンプレートを格納する素性テンプレート格納部と、ラベル付き学習データ、ラベル無し学習データ、ラベルの一覧及び素性テンプレートを入力し、ラベル付き学習データ及びラベル無し学習データとラベルの一覧とから照合条件の一部及びラベルにそれぞれ対応する文字列及びラベルを抽出して素性テンプレートの変数を書き換えることにより、素性データを生成する素性生成部と、素性データに対応するモデルパラメータを格納するモデルパラメータ格納部と、ラベル付き学習データの入力文を、素性データ、モデルパラメータ及びラベルの一覧に基づいて解析し、当該ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出する尤度評価手段と、ラベル無し学習データの入力文を、素性データ、モデルパラメータ及びラベルの一覧に基づいて解析し、当該ラベル無し学習データに対する解析結果と、同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出する整合性評価手段と、尤度評価手段で算出された尤度及び整合性評価手段で算出された評価値に基づく目標関数が最大化するようにモデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された尤度及び評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行する更新手段と、素性データ、所定の収束条件を満たしたモデルパラメータ及びラベルの一覧を用いて、テキスト解析器が使用する解析用辞書を生成する解析辞書出力手段とを備えるものである。 The text analysis learning device according to the present invention is provided with a label for storing, as labeled learning data, a combination of an input sentence to a text analyzer, a label indicating a correct analysis result of the input sentence, and category information indicating a category to which the input sentence belongs. A learning data storage unit, a labelless learning data storage unit that stores a combination of an input sentence to the text analyzer and category information indicating a category to which the input sentence belongs, and a label storage that stores a list of labels A feature data storage unit that stores a combination of a collation condition for an input sentence and a label of the input sentence as feature data corresponding to the input sentence, and a feature template using a part of the collation condition and a label as a variable Feature template storage to store, learning data with label, no label Enter learning data, a list of labels, and a feature template, and extract a part of the matching condition and a character string and a label corresponding to each label from the labeled learning data and the unlabeled learning data and the list of labels. By rewriting variables, a feature generation unit that generates feature data, a model parameter storage unit that stores model parameters corresponding to the feature data, an input sentence of labeled learning data, a list of feature data, model parameters, and labels The likelihood evaluation means for calculating the likelihood of the analysis result indicated by the label given to the labeled learning data, and the input sentence of the unlabeled learning data, the feature data, the model parameter, and the label Analyzes based on the list, and the analysis results for the unlabeled learning data Based on the consistency evaluation means for calculating the evaluation value indicating the degree of consistency with the analysis result for the input sentence belonging to the category, the likelihood calculated by the likelihood evaluation means, and the evaluation value calculated by the consistency evaluation means Update the value of the model parameter so that the objective function is maximized, and update the model parameter based on the likelihood and the evaluation value calculated using the updated value of the model parameter. Update means for executing until the convergence condition of the above is satisfied, and analysis dictionary output means for generating an analysis dictionary used by the text analyzer using the feature data, the model parameters satisfying the predetermined convergence condition, and the list of labels. It is to be prepared.
この発明によれば、ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出し、ラベル無し学習データに対する解析結果と同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出し、尤度及び整合性の評価値に基づく目標関数が最大化するように素性データに対応するモデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された尤度及び評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行して、所定の収束条件を満たしたモデルパラメータ、素性データ及びラベルの一覧を用いて、テキスト解析器が使用する解析用辞書を生成する。このようにすることで、ラベル付き学習データにおけるラベルの尤度に加え、同じカテゴリのデータが互いに類似したラベルを持つ傾向があることも考慮してラベル無し学習データからも効率的に知識を獲得でき、これにより生成された解析辞書を利用することにより、テキスト解析器の解析精度を向上させることができるという効果がある。 According to this invention, the likelihood of the analysis result indicated by the label given to the labeled learning data is calculated, and the degree of consistency between the analysis result for the unlabeled learning data and the analysis result for the input sentence belonging to the same category is calculated. The model parameter value corresponding to the feature data is updated so that the objective function based on the likelihood and consistency evaluation values is maximized, and the updated value of the model parameter is used for calculation. Updating the model parameter based on the likelihood and evaluation value until the updated value of the model parameter satisfies a predetermined convergence condition, and a list of model parameters, feature data, and labels satisfying the predetermined convergence condition is obtained. To generate an analysis dictionary used by the text analyzer. By doing this, in addition to the likelihood of the label in the labeled learning data, it is possible to efficiently acquire knowledge from the unlabeled learning data considering that the data of the same category tends to have similar labels to each other In addition, the analysis accuracy of the text analyzer can be improved by using the analysis dictionary generated thereby.
実施の形態1.
以降では、テキスト解析処理の一例として、施設名相当の日本語文字列(入力文)を、単語単位に分割する解析処理を取り上げ、この解析処理を学習する場合における、この発明によるテキスト解析学習装置の構成及び動作について説明する。ただし、この発明は、学習対象が単語分割処理に限定されるものではなく、品詞同定を含む形態素解析や、固有表現抽出、構文解析等、多様なテキスト解析にも適用可能である。
Hereinafter, as an example of the text analysis process, the text analysis learning device according to the present invention in the case of learning an analysis process in which a Japanese character string (input sentence) corresponding to a facility name is divided into units of words will be taken up. The configuration and operation will be described. However, the present invention is not limited to word segmentation processing, and can be applied to various text analysis such as morphological analysis including part-of-speech identification, specific expression extraction, and syntax analysis.
図1は、この発明によるテキスト解析学習処理の概要を示す図である。この発明によるテキスト解析学習処理で最終的に生成されるものは、テキスト解析用の確率的な規則が記述されたテキスト解析用辞書である。なお、この実施の形態1では、確率推定モデルとしてCRF(Conditional Random Fields)(参考文献1参照)を用いるが、これに限定するものではなく、最大エントロピー法やベイジアンネットワークなど、他の確率モデルを用いても構わない。
参考文献1;
Lafferty, J., et al., "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proc. of ICML-2001, pp. 282-289 (2001).
FIG. 1 is a diagram showing an outline of text analysis learning processing according to the present invention. What is finally generated by the text analysis learning process according to the present invention is a text analysis dictionary in which probabilistic rules for text analysis are described. In the first embodiment, CRF (Conditional Random Fields) (see Reference 1) is used as a probability estimation model. However, the present invention is not limited to this, and other probability models such as a maximum entropy method and a Bayesian network are used. You may use.
Lafferty, J., et al., "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proc. Of ICML-2001, pp. 282-289 (2001).
テキスト解析器は、この発明によるテキスト解析学習装置で生成されたテキスト解析用辞書を用いると、図1に示すように、入力文が「アイビーキャリアカレッジ」であると、この入力文を適切に単語単位に分割し、解析結果として「アイビー/キャリア/カレッジ」を出力する。 When the text analyzer uses the text analysis dictionary generated by the text analysis learning device according to the present invention, as shown in FIG. 1, if the input sentence is “Ivy Career College”, the input sentence is appropriately converted to a word. Divide into units and output “Ivy / Carrier / College” as the analysis result.
また、図1において、テキスト解析学習処理に用いた学習データは、施設名リスト(元データ)である。このリストの一部に対し、人手で正しい単語区切り位置を付与する(単語分割タグ付け)ことで、ラベル付き学習データが生成される。なお、図1中のラベル付き学習データのスラッシュ「/」は単語区切り位置を示している。ラベル付け作業は人手を要するため、構築可能なラベル付き学習データの量(少量)が限定される。一方、ラベルを付与していない元データは大量にあるため、この発明のテキスト解析学習装置では、これを学習データ(ラベル無し学習データ)として利用する。 In FIG. 1, the learning data used for the text analysis learning process is a facility name list (original data). Labeled learning data is generated by manually assigning correct word break positions (word division tagging) to a part of this list. Note that the slash “/” in the labeled learning data in FIG. 1 indicates a word break position. Since the labeling operation requires manpower, the amount (small amount) of labeled learning data that can be constructed is limited. On the other hand, since there is a large amount of original data to which no label is assigned, the text analysis learning apparatus of the present invention uses this as learning data (learned data without label).
施設名リストには、図1に示すように、元のアプリケーションが利用している属性情報(業種、住所など)が付与されている。ここでは、業種を施設名のカテゴリ情報として、ラベル無し学習データから単語分割規則を抽出する際の手がかりとされる。なお、本発明によるカテゴリ情報とは、アプリケーションから取得可能な学習データの属性情報や、データの抽出元に関する情報等である。 As shown in FIG. 1, the facility name list is provided with attribute information (such as business type and address) used by the original application. Here, the category information of the facility name is used as a clue when extracting word division rules from unlabeled learning data. The category information according to the present invention is attribute information of learning data that can be acquired from an application, information about a data extraction source, and the like.
図2は、この発明の実施の形態1によるテキスト解析学習装置の構成を示すブロック図である。図2において、実施の形態1によるテキスト解析学習装置1は、ラベル付き学習データ格納部2、素性テンプレート格納部3、ラベル無し学習データ格納部4、素性生成部5、素性データ格納部6、ラベル格納部7、モデルパラメータ格納部8、正解ラベル尤度評価手段(尤度評価手段)9、カテゴリ内整合性評価手段(整合性評価手段)10、パラメータ更新手段(更新手段)11及び解析辞書出力手段12を備える。
FIG. 2 is a block diagram showing the configuration of the text analysis learning apparatus according to
ラベル付き学習データ格納部2は、テキスト解析器に入力される入力文のサンプル、この入力文のカテゴリ及びこの入力文の正しい単語区切り位置(ラベル)の複数の組み合わせが予め与えられ、ラベル付き学習データとして格納する記憶部である。図1の例では、施設名の入力文サンプル、この入力文のカテゴリ(業種)及びこの入力文の単語区切り位置(ラベル)の組み合わせが格納される。
The labeled learning
素性テンプレート格納部3は、予め与えられた素性を生成するためのひな形となる素性テンプレートを格納する記憶部である。ここで、素性とは、テキスト解析器に入力される入力文に対する照合条件とラベルとの組み合わせであり、正解ラベル尤度評価手段9及びカテゴリ内整合性評価手段10が内部的に生成する単語区切り位置仮説の特徴(どんなところで切ろうとしているか)を表す。また、素性テンプレートには、図7を用いて後述するように、入力文に対する照合条件の一部及びラベルが変数として定義されている。
The feature
ラベル無し学習データ格納部4は、テキスト解析器に入力される入力文のサンプルと、この入力文のカテゴリとの組み合わせが予め与えられ、ラベル無し学習データとして格納する記憶部である。図1の例では、施設名の入力文サンプルとこの入力文のカテゴリ(業種)との組み合わせが格納される。このラベル無し学習データには、正しい単語区切り位置を示すラベルが付与されていない。
The unlabeled learning
素性生成部5は、ラベル付き学習データ、ラベル無し学習データ、及びラベル格納部7から読み出したラベルの一覧表を用いて、素性テンプレートの変数を書き換えることで、素性を生成する手段である。素性データ格納部6は、素性生成部5により生成された素性を格納して保持する記憶部である。
The
ラベル格納部7は、単語区切り位置の有無を示すラベル(テキスト解析器での正しい解析結果を示すラベル)の一覧を格納する記憶部であり、このラベル一覧はテキスト解析器が解析結果を出力する際に使用される。モデルパラメータ格納部8は、パラメータ更新手段11による処理の開始時には初期値を保持し、処理開始以降はパラメータ更新手段11によって逐次更新されるモデルパラメータ(素性に対応する実数値パラメータ)を保持する記憶部である。
The
正解ラベル尤度評価手段9は、素性、モデルパラメータ及びラベルの一覧に基づいて、ラベル付き学習データの入力文を解析し、このラベル付き学習データに付与されたラベルが示す単語区切り位置の尤度(入力サンプルの正しい解析結果の尤度)を計算する手段である。 The correct label likelihood evaluation means 9 analyzes the input sentence of the labeled learning data based on the feature, the model parameter, and the list of labels, and the likelihood of the word break position indicated by the label given to the labeled learning data It is a means for calculating (the likelihood of the correct analysis result of the input sample).
カテゴリ内整合性評価手段10は、素性、モデルパラメータ及びラベルの一覧に基づいて、ラベル無し学習データの入力文の単語区切りを解析し、このラベル無し学習データに対する単語区切り解析結果(ラベル無し学習データに対する解析結果)が、同じカテゴリに属するラベル無し学習データ(入力サンプル)に対する解析結果と、どの程度整合しているかを評価する手段である。 The intra-category consistency evaluation means 10 analyzes the word break of the input sentence of the unlabeled learning data based on the feature, the model parameter, and the list of labels, and the word break analysis result (the unlabeled learning data for the unlabeled learning data). This is a means for evaluating the degree to which the analysis result for the unlabeled learning data (input sample) belonging to the same category matches the analysis result.
パラメータ更新手段11は、ラベル付き学習データに付与されたラベルが示す単語区切り位置の尤度(入力サンプルの正しい解析結果の尤度)と、ラベル無し学習データにおける単語区切り解析結果(ラベル無し学習データに対する解析結果)の同一カテゴリ内での整合性とに基づいて、モデルパラメータを更新する手段である。ここで、更新したモデルパラメータが所定の収束条件を満たしていない場合、このモデルパラメータを反復して用いて、正解ラベル尤度評価手段9でラベル付き学習データの解析結果の尤度計算を行い、カテゴリ内整合性評価手段10で整合性計算を行い、これらの結果に基づいてパラメータ更新手段11が、上記モデルパラメータを更新する。
The
解析辞書出力手段12は、素性データ格納部6から読み出した素性、モデルパラメータ格納部8から読み出したモデルパラメータ、及びラベル格納部7から読み出したラベルの一覧を用いて、テキスト解析用の確率的な規則が記述されたテキスト解析用辞書を生成し出力する手段である。
The analysis
次に動作について説明する。
実施の形態1によるテキスト解析学習装置は、三段階の処理で目的とするテキスト解析用辞書を生成する。第一段階は学習の前処理であり、素性生成部5によって、素性データが生成される。第二段階は実際の学習処理であり、正解ラベル尤度評価手段9、カテゴリ内整合性評価手段10及びパラメータ更新手段11によって、モデルパラメータが生成される。第三段階は学習の後処理であり、解析辞書出力手段12によって、モデルパラメータがフォーマット変換され、テキスト解析用辞書が生成される。
Next, the operation will be described.
The text analysis learning device according to the first embodiment generates a target text analysis dictionary in three stages of processing. The first stage is pre-processing for learning, and feature data is generated by the
(1)学習の前処理(第一段階)
図3は、実施の形態1による素性生成処理の流れを示すフローチャートであり、この図に沿って処理の詳細を説明する。
先ず、素性生成部5は、ラベル付き学習データ格納部2から未処理のラベル付き学習データを1つ取り出す(ステップST1)。ここでは、図4に示すようなラベル付き学習データが取り出されたものとする。図4の例では、入力文(施設名)である文字列「アースビジネスカレッジ」と、その正しい単語区切り位置「/」が複数格納されている。また、各エントリには、副次的な情報として「各種学校」、「自動車整備」等の施設のカテゴリ情報が付与されている。この後、素性生成部5は、取り出したラベル付き学習データにおける未処理の文字位置を区切り注目点とする(ステップST2)。ラベル付き学習データでは、ラベルで特定される単語区切り位置が単語区切り注目点と規定される。
(1) Pre-processing for learning (first stage)
FIG. 3 is a flowchart showing the flow of the feature generation process according to the first embodiment, and the details of the process will be described with reference to this figure.
First, the
次に、素性生成部5は、素性テンプレート格納部3から素性テンプレートを取り出し、当該素性テンプレートを使って現在の注目点で素性を生成する(ステップST3)。ここでは、例えば、図5に示す素性テンプレートが取り出される。この素性テンプレートは、テキスト解析器の設計者などが予め定義して素性テンプレート格納部3に保持しておく。
Next, the
図5において、最も左端の列に記載される数値1,2,・・・は、各素性テンプレートに付与された通し番号に相当する素性テンプレート番号である。図5の例では、26種類の素性テンプレートが定義されている。また、%l[0]等のように、「%」で始まっている部分は素性テンプレートの変数部分であり、[ ]内の数値は注目点となる単語からの相対位置(字数単位)を示している。%l[ ]は、単語区切りの有無を表すラベルである。%c[ ]は[ ]内の数値で特定される位置の文字を表している。%s[ ]は[ ]内の数値で特定される位置の文字の字種を表す変数である。素性生成部5は、これら素性テンプレートの変数部分をラベル付き学習データから抽出した値で置き換えることにより、素性を生成する。
5,
例えば、図4に示した2番目のラベル付き学習データである「アート/PC/教室」において、アートの「ト」の直後の単語区切りを注目点とした場合、素性生成部5は、図5で示した素性テンプレートの変数部分の値を、上記の学習データ「アート/PC/教室」から抽出された値で、図6に示すように置き換える。図6において、tは単語区切り注目点からの相対位置(字数単位)である。%l[t]は単語区切りの有無を表すラベルであり、%l[t]=1は単語区切りがあることを表し、%l[t]=0は単語区切りがないことを表している。また、%c[t]は位置tの文字を表している。%s[t]は位置tの文字の字種を表す変数であって、「カ」はカタカナを示しており、「A」はアルファベットを示し、「漢」は漢字を示している。
For example, in the case of “art / PC / classroom”, which is the second labeled learning data shown in FIG. 4, when the word break immediately after “art” of art is the point of interest, the
素性生成部5は、図6に示すように素性テンプレートの変数値を置き換えることで、図5に示した素性テンプレートから、図7に示す素性データを生成する。図7において、変数である%l[ ](ラベル)、%c[ ]、%s[ ](照合条件の一部)が、図6で示した学習データ「アート/PC/教室」から抽出した値で置換されている。
The
素性生成部5は、上述した手順で素性を生成する度に、ラベル付き学習データにおける全ての文字位置(単語区切り)で素性生成処理を完了したか否かを判定する(ステップST4)。ここで、全ての文字位置で処理が完了していなければ、ステップST2の処理に戻って、未処理の文字位置に対しステップST2及びステップST3の処理を繰り返す。
The
ステップST4で全ての文字位置での処理完了を判定した場合、素性生成部5は、ラベル付き学習データ格納部2に格納される全ての未処理のラベル付き学習データを処理したか否かを判定する(ステップST5)。このとき、未処理のラベル付き学習データがあれば、ステップST1の処理に戻り、未処理のラベル付き学習データに対しステップST1からステップST4までの処理を繰り返す。
When it is determined in step ST4 that processing has been completed at all character positions, the
全ての未処理のラベル付き学習データを処理した場合、素性生成部5は、生成した全ての素性データに対して使用頻度による予備選択を行い、頻度上位20%までの素性を採用し、素性集合F1として保持する(ステップST6)。
When all unprocessed labeled learning data is processed, the
続いて、素性生成部5は、ラベル無し学習データ格納部4から未処理のラベル無し学習データを1つ取り出す(ステップST7)。ここでは、図8に示すようなラベル付き学習データが取り出されたものとする。図8の例では、入力文(施設名)である文字列と、各エントリのカテゴリ情報が付与されている。ただし、図4で示したラベル付き学習データと異なり、単語区切り位置「/」は付与されていない。
Subsequently, the
素性生成部5は、取り出したラベル無し学習データにおける未処理の文字位置を区切り注目点とする(ステップST8)。ラベル無し学習データでは、ラベルが付与されていないため、ラベル無し学習データの文字列における単語を順次区切り注目点とする。
The
次に、素性生成部5は、素性テンプレート格納部3から素性テンプレートを取り出し、当該素性テンプレートを使って現在の注目点で素性を生成する(ステップST9)。ここで、ラベル無し学習データにはラベルが付与されていないため、0、1の両ラベルを使って素性を生成する。つまり、注目点に対応するラベル%l[ ]が0である場合と、1である場合の双方がアサインされ、それぞれの素性データが生成される。
Next, the
この後、素性生成部5は、上述した手順で素性を生成する度に、ラベル無し学習データにおける全ての文字位置で素性生成を完了したか否かを判定する(ステップST10)。ここで、全ての文字位置で処理が完了していなければ、ステップST8の処理に戻って、未処理の文字位置に対しステップST8及びステップST9の処理を繰り返す。
Thereafter, the
一方、全ての文字位置での処理が完了した場合、素性生成部5は、ラベル無し学習データ格納部4に格納される全ての未処理のラベル無し学習データを処理したか否かを判定する(ステップST11)。このとき、未処理のラベル無し学習データがあれば、ステップST7の処理に戻り、未処理のラベル無し学習データに対してステップST7からステップST10までの処理を繰り返す。
On the other hand, when the processing at all character positions is completed, the
全ての未処理のラベル無し学習データを処理した場合、素性生成部5は、ラベル無し学習データから生成した全ての素性データに対し頻度による予備選択を行い、頻度上位20%までの素性を採用して、素性集合F2として保持する(ステップST12)。
When all unprocessed unlabeled learning data is processed, the
最後に、素性生成部5は、ステップST6で保持した素性集合F1とステップST12で保持した素性集合F2とを合わせ、素性データとして素性データ格納部6に格納する(ステップST13)。
Finally, the
(2)学習処理(第二段階)
この学習処理では、正解ラベル尤度評価手段9による尤度評価処理と、カテゴリ内整合性評価手段10による整合性評価処理とが行われ、これらの結果に応じてパラメータ更新手段11が、第1段階で生成された各素性に対応する実数値パラメータであるモデルパラメータを生成する。
(2) Learning process (second stage)
In this learning process, a likelihood evaluation process by the correct label
(2−1)尤度評価処理
図9は、実施の形態1による尤度評価処理の流れを示すフローチャートであり、この図に沿って尤度評価の詳細を説明する。
先ず、正解ラベル尤度評価手段9は、ラベル付き学習データ格納部2から未処理のラベル付き学習データを1つ取り出す(ステップST1a)。ここでは、図4に示すラベル付き学習データが取り出されたものとする。続いて、正解ラベル尤度評価手段9は、取り出したラベル付き学習データに対応する単語区切り仮説グラフを生成する(ステップST2a)。
(2-1) Likelihood Evaluation Processing FIG. 9 is a flowchart showing the flow of likelihood evaluation processing according to
First, the correct label likelihood evaluation means 9 takes out one unprocessed labeled learning data from the labeled learning data storage unit 2 (step ST1a). Here, it is assumed that the labeled learning data shown in FIG. 4 is extracted. Subsequently, the correct label
図10は、単語区切り仮説グラフの一例を示す図であり、図4に示した2番目のラベル付き学習データである「アートPC教室」に関する単語区切り仮説グラフを示している。ここで、図10中の黒丸ノードは入力であり、文中の文字を示している。左端と右端の「#」はそれぞれ文頭及び文末を示す疑似入力文字である。また、白丸ノードは、入力文字位置に対応した単語区切り仮説であり、Sは開始位置に対応する疑似ラベルであり、Eは終了位置に対応する疑似ラベルである。太線のパスは、正解仮説「アート/PC/教室」を表している。 FIG. 10 is a diagram showing an example of a word break hypothesis graph, and shows a word break hypothesis graph related to “art PC classroom” which is the second labeled learning data shown in FIG. Here, a black circle node in FIG. 10 is an input and indicates a character in the sentence. “#” At the left end and the right end are pseudo input characters indicating the beginning and end of the sentence, respectively. The white circle node is a word break hypothesis corresponding to the input character position, S is a pseudo label corresponding to the start position, and E is a pseudo label corresponding to the end position. The bold path represents the correct hypothesis “Art / PC / Classroom”.
なお、入力文字の黒丸ノードと出力ラベルの白丸ノードとを繋ぐリンクは、その位置でのラベルの値を推定する際に考慮される入力文字を表している。図10の例では、表記上の都合により、ラベルの値が0である白丸ノードとのリンクを記載していないが、ラベルの値が1である白丸ノードと同様のリンクが存在する。 The link connecting the black circle node of the input character and the white circle node of the output label represents the input character considered when estimating the value of the label at that position. In the example of FIG. 10, a link with a white circle node whose label value is 0 is not described for convenience of description, but a link similar to a white circle node whose label value is 1 exists.
正解ラベル尤度評価手段9は、生成した単語区切り仮説グラフ上の出力側の各白丸ノード(各出力ノード)及び白丸ノード間(出力ノード間)のリンクに対して、素性の照合を行いながら、CRF確率計算式に従って尤度を算出する(ステップST3a)。尤度の計算には、動的計画法の一種であるフォワード・バックワードアルゴリズムを用いる。CRFによる確率計算式は、下記式(1)で与えられる。
ここで、pΛ(y|x)は、入力x(例えば「アートPC教室」)が与えられるとき、その単語区切りが、出力y(例えば0010101、つまりアート/PC/教室)であるときの条件付き確率(モデルパラメータΛのときの推定値)を表している。
また、cはcliqueと呼ばれる仮説グラフの部分グラフであり、ここでは出力y(=パス)を構成する全ての辺Ey及び頂点Vyを表している。fiは素性データであり、条件に一致するときは値1となり、一致しないときは値0となる関数である。y|cは、出力ラベル系列の中でc(ある頂点又は辺)に該当するラベルである。さらに、λiは、i番目の素性に対応する実数値重みであって、Λ={λ0,・・・,λi,・・・}は、モデルパラメータ(ベクトル)である。このモデルパラメータの値は、パラメータ更新手段11により逐次更新されるが、最初は初期値∀iλi=0を用いる。Z(x)は、下記式(2)で表される。
Here, p Λ (y | x) is a condition when an input x (for example, “art PC classroom”) is given and the word break is an output y (for example, 0010101, that is, art / PC / classroom). The attached probability (estimated value when the model parameter Λ is used).
Further, c is a subgraph of a hypothesis graph called “clique”, and here represents all edges E y and vertices V y constituting the output y (= path). f i is feature data, which is a function having a value of 1 when the condition is met and a value of 0 when the conditions are not met. y | c is a label corresponding to c (a certain vertex or side) in the output label series. Further, λ i is a real value weight corresponding to the i-th feature, and Λ = {λ 0 ,..., Λ i ,. The value of this model parameter is sequentially updated by the
図11は、図10中の単語区切り仮説グラフに部分グラフを明記した場合を示す図である。図11において、辺c1,c3,・・・,や、頂点c2,c4,・・・は、太線で示したパスの部分グラフである。図11に示す太線のパスは、入力「アートPC教室」における正しい単語区切りを表している。このパスの尤度(正解ラベル尤度)は、部分グラフc1,c2,・・・,c14において発火する(値1を取る)素性fiを調べ、その素性に対応する実数値重みλiを上記式(1)に従って足し込むことにより求められる。 FIG. 11 is a diagram illustrating a case where a partial graph is specified in the word break hypothesis graph in FIG. 10. In FIG. 11, edges c1, c3,... And vertices c2, c4,... Are partial graphs of paths indicated by bold lines. A thick line path shown in FIG. 11 represents a correct word break in the input “art PC classroom”. The likelihood of this path (true label likelihood) is subgraph c1, c2, · · ·, fires in c14 (taking values 1) examining the identity f i, the real value weights lambda i corresponding to the feature It is obtained by adding according to the above formula (1).
例えば、図7で示した26種類の素性がある場合、部分グラフの辺c5で発火する素性は、左端の素性番号が2,8,9,13,14,20の6種類となる。また、部分グラフの頂点c6で発火する素性は、素性番号が1,3,4,5,6,9,10,11,12,15,16,18,19,21,22,23,24,25,26の20種類となる。このようにして、正解ラベル尤度評価手段9が、現在のモデルパラメータΛによる、入力xに対応する正解ラベル系列yの尤度pΛ(y|x)を算出する。
For example, when there are 26 types of features shown in FIG. 7, the features that are ignited at the edge c <b> 5 of the subgraph are the 6 types of
ステップST4aでは、正解ラベル尤度評価手段9が、ラベル付き学習データ格納部2に格納される全てのラベル付き学習データに対して、上述した正解ラベル尤度の計算処理を実施したか調べる。ここで、実施していたらステップST5aの処理に移行する。実施が未完の場合は、ステップST1aに戻って、未処理の学習データに対する処理を継続する。
In step ST4a, the correct label likelihood evaluation means 9 checks whether or not the above-described correct label likelihood calculation processing has been performed on all labeled learning data stored in the labeled learning
ステップST5aでは、正解ラベル尤度評価手段9が、下記式(3)を用いて、全てのラベル付き学習データd∈DLに対する対数尤度の総和を算出する。なお、pΛ(yd|xd)は上記式(1)で定義される尤度である。
(2−2)整合性評価処理
図12は、整合性評価処理の流れを示すフローチャートであり、この図に沿って処理の詳細を説明する。
先ず、カテゴリ内整合性評価手段10は、ラベル無し学習データ格納部4から未処理のラベル無し学習データを1つ取り出す(ステップST1b)。続いて、カテゴリ内整合性評価手段10は、取り出したラベル無し学習データに対応する単語区切り仮説グラフを生成する(ステップST2b)。
(2-2) Consistency Evaluation Process FIG. 12 is a flowchart showing the flow of the consistency evaluation process, and details of the process will be described with reference to this figure.
First, the intra-category consistency evaluation means 10 extracts one unprocessed unlabeled learning data from the unlabeled learning data storage unit 4 (step ST1b). Subsequently, the intra-category
カテゴリ内整合性評価手段10は、生成された単語区切り仮説グラフ上の各出力ノード及び出力ノード間のリンクに対し素性の照合を行いながら、上述した尤度評価処理と同様に、CRF確率計算式に従って尤度を算出する(ステップST3b)。 The intra-category consistency evaluation means 10 performs the CRF probability calculation formula in the same manner as the likelihood evaluation process described above while collating the features with respect to each output node and the link between the output nodes on the generated word break hypothesis graph. The likelihood is calculated according to (step ST3b).
ステップST4bでは、カテゴリ内整合性評価手段10が、ラベル無し学習データ格納部4に格納される全てのラベル無し学習データに対して、上述した正解ラベル尤度の計算処理を実施したか調べる。ここで、実施していたらステップST5bの処理に移行する。実施が未完の場合は、ステップST1bに戻って、未処理の学習データに対する処理を継続する。
In step ST4b, the intra-category consistency evaluation means 10 checks whether or not the above-described correct label likelihood calculation processing has been performed on all unlabeled learning data stored in the unlabeled learning
次に、カテゴリ内整合性評価手段10は、正解ラベルが付与されていないラベル無し学習データに対して、モデルパラメータΛによる推定の「よさ」を評価するため、下記式(4)で得られるエントロピーを評価値として算出する(ステップST5b)。なお、この式(4)は、各カテゴリκ∈Kにおけるラベル無し学習データd∈Duに対して、部分グラフcを推定するときの条件付きエントロピーを表している。ただし、pチルダは、学習データにおける観測確率であり、pΛは、モデルパラメータΛを用いた推定確率である。
(2−3)モデルパラメータ更新処理
パラメータ更新手段11は、正解ラベル尤度評価手段9が上記式(3)で算出した、ラベル付き学習データに対する尤度LDL(Λ)と、カテゴリ内整合性評価手段10が上記式(4)で算出した部分グラフのエントロピーHΛ(c|DU,K)とを用いて、下記式(5)で表される目標関数G(Λ)が最大化するようにモデルパラメータΛを更新する。下記式(5)において、α、βは実験的に定める定数である。また、右辺第2項は、モデルパラメータΛの大きさに応じたペナルティを与える項であり、過学習を防ぐために導入している。なお、||Λ||は、下記式(6)で与えられるユークリッドノルムである。
目標関数G(Λ)を最大化するモデルパラメータΛは、公知の山登り法によって求めることができる。すなわち、正解ラベル尤度評価手段9によるLDLの計算、カテゴリ内整合性評価手段10によるHΛ(c|DU,K)の計算とともに反復して、モデルパラメータΛを逐次更新し、モデルパラメータΛの更新量が所定値以下となったら収束と見なし、処理を完了する。
The model parameter Λ that maximizes the target function G (Λ) can be obtained by a known hill-climbing method. That is, the model parameter Λ is sequentially updated by repeating the calculation of L DL by the correct label
なお、目標関数G(Λ)は微分可能であるから勾配を求めて、上記山登り法の代わりに準ニュートン法(例えば、BFGS法)を適用すれば、収束までの反復処理の回数を減らすことが可能である。 Since the target function G (Λ) is differentiable, if the gradient is obtained and the quasi-Newton method (for example, the BFGS method) is applied instead of the hill climbing method, the number of iterations until convergence can be reduced. Is possible.
目標関数G(Λ)を最大化するパラメータ推定では、ラベル付き学習データに対しては上記式(5)の右辺第1項の尤度の最大化が基準とされ、ラベル無し学習データに対しては上記式(5)の右辺第3項のエントロピーが小さくなる構造推定(カテゴリ内で一貫性のある構造推定)が増えるように学習される。後者では人手でタグ付け作業をする際の指針に直観的に近いため、教師なし学習において有用な規則獲得が可能となっている。
このようにして得られたモデルパラメータΛは、パラメータ更新手段11によりモデルパラメータ格納部8に格納される。
In parameter estimation that maximizes the objective function G (Λ), the maximum likelihood of the first term on the right side of the above equation (5) is used as a reference for labeled learning data, and for unlabeled learning data Is learned so that the structure estimation (structure estimation consistent within the category) in which the entropy of the third term on the right-hand side of the above equation (5) becomes small increases. In the latter case, it is intuitively close to the guidelines for manually tagging work, so it is possible to obtain useful rules in unsupervised learning.
The model parameter Λ obtained in this way is stored in the model
(3)学習の後処理(第三段階)
解析辞書出力手段12は、パラメータ更新手段11によるモデルパラメータ推定処理が完了すると、当該モデルパラメータと、素性データ格納部6に格納される素性データと、ラベル格納部7に格納されるラベルの一覧表とを統合し、テキスト解析用辞書として所定のフォーマットで出力する。
(3) Post-processing of learning (third stage)
When the model parameter estimation processing by the
図13は、テキスト解析用辞書の一例を示す図である。図13に示すデータフォーマットは、@LABELS、@FEATURES、@WEIGHTSの3つのセクションから構成されている。@LABELSのセクションには、ラベル格納部7が保持するラベルが列挙される。@FEATURESのセクションには、素性データ格納部6が保持する素性が列挙される。図13に示す例では、各行が素性番号i及び素性fiの定義から構成されている。なお、図13においては、素性番号27番目以降の素性の記載を省略している。@WEIGHTSのセクションには、モデルパラメータ格納部8に保持されるモデルパラメータの値が列挙される。図13では、各行が素性番号i及び当該素性fiの重みパラメータλiから構成されている。重みパラメータについても素性と同様に素性番号26までの一部のみを例示し、省略部分を「・・・」で示している。
FIG. 13 is a diagram illustrating an example of a text analysis dictionary. The data format shown in FIG. 13 is composed of three sections: @LABELS, @FEATURES, and @WEIGHTS. In the @LABELS section, labels held by the
解析辞書出力手段12から出力されたテキスト解析用辞書は、図1に示すように、電子ファイル等のデータとして保存され、テキスト解析器に読み込まれてテキスト解析に利用される。 As shown in FIG. 1, the text analysis dictionary output from the analysis dictionary output means 12 is stored as data such as an electronic file, read into a text analyzer, and used for text analysis.
以上のように、この実施の形態1によれば、ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出し、ラベル無し学習データに対する解析結果と同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出し、尤度及び整合性の評価値に基づく目標関数が最大化するように素性データに対応するモデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された尤度及び評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行して、所定の収束条件を満たしたモデルパラメータ、素性データ及びラベルの一覧を用いて、テキスト解析器が使用する解析用辞書を生成する。
このように、ラベル付き学習データとラベル無し学習データを併用する半教師付き学習の枠組みにおいて、データソースやアプリケーションから容易に取得可能なデータの副次的属性(カテゴリ情報)を利用することにより、ラベル付き学習データに対しては一般的な最尤推定を実施しつつ、ラベル無し学習データに対してはカテゴリ内で可能な限り一貫した推定を行うように学習される。ここで、この発明におけるラベル無し学習データに対する学習指針は、カテゴリ内のデータの類似性やラベルの共通性を仮定するものであるが、この仮定は、コーパス作成時に人手でラベル付け作業を行う際の明示的若しくは暗黙的な指針に直観的に近く、自然な仮定と考えられる。従って、このような先験的な知識を学習基準に取り込むことにより、ラベル無し学習データから効率的な学習を行うことができ、解析精度を向上させることが可能である。
As described above, according to the first embodiment, the likelihood of the analysis result indicated by the label given to the labeled learning data is calculated, and the input sentence belonging to the same category as the analysis result for the unlabeled learning data is calculated. An evaluation value indicating the degree of consistency with the analysis result is calculated, and the value of the model parameter corresponding to the feature data is updated so that the target function based on the evaluation value of likelihood and consistency is maximized. Update the model parameter based on the likelihood and the evaluation value calculated using the updated value of the model parameter until the updated value of the model parameter satisfies the predetermined convergence condition, and satisfy the predetermined convergence condition. Then, an analysis dictionary used by the text analyzer is generated using the feature data and the list of labels.
In this way, in the semi-supervised learning framework that uses both labeled learning data and unlabeled learning data, by using the secondary attributes (category information) of data that can be easily obtained from data sources and applications, While general maximum likelihood estimation is performed on labeled learning data, learning is performed on unlabeled learning data so that estimation is performed as consistently as possible within a category. Here, the learning guideline for the unlabeled learning data in the present invention assumes the similarity of the data in the category and the commonality of the labels. This assumption is used when the labeling operation is manually performed when the corpus is created. Intuitively close to the explicit or implicit guideline, and is considered a natural assumption. Therefore, by incorporating such a priori knowledge into the learning standard, efficient learning can be performed from unlabeled learning data, and the analysis accuracy can be improved.
1 テキスト解析学習装置、2 ラベル付き学習データ格納部、3 素性テンプレート格納部、4 ラベル無し学習データ格納部、5 素性生成部、6 素性データ格納部、7 ラベル格納部、8 モデルパラメータ格納部、9 正解ラベル尤度評価手段(尤度評価手段)、10 カテゴリ内整合性評価手段(整合性評価手段)、11 パラメータ更新手段(更新手段)、12 解析辞書出力手段。 1 text analysis learning device, 2 labeled learning data storage unit, 3 feature template storage unit, 4 unlabeled learning data storage unit, 5 feature generation unit, 6 feature data storage unit, 7 label storage unit, 8 model parameter storage unit, 9 correct label likelihood evaluation means (likelihood evaluation means), 10 intra-category consistency evaluation means (consistency evaluation means), 11 parameter update means (update means), 12 analysis dictionary output means.
Claims (1)
テキスト解析器に対する入力文及び当該入力文が属するカテゴリを示すカテゴリ情報の組み合わせを、ラベル無し学習データとして格納するラベル無し学習データ格納部と、
前記ラベルの一覧を格納するラベル格納部と、
入力文に対する照合条件と当該入力文の前記ラベルとの組み合わせを、当該入力文に対応する素性データとして格納する素性データ格納部と、
前記照合条件の一部及び前記ラベルを変数とした素性テンプレートを格納する素性テンプレート格納部と、
前記ラベル付き学習データ、前記ラベル無し学習データ、前記ラベルの一覧及び前記素性テンプレートを入力し、前記ラベル付き学習データ及び前記ラベル無し学習データと前記ラベルの一覧とから前記照合条件の一部及び前記ラベルにそれぞれ対応する文字列及びラベルを抽出して前記素性テンプレートの変数を書き換えることにより、前記素性データを生成する素性生成部と、
前記素性データに対応するモデルパラメータを格納するモデルパラメータ格納部と、
前記ラベル付き学習データの入力文を、前記素性データ、前記モデルパラメータ及び前記ラベルの一覧に基づいて解析し、当該ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出する尤度評価手段と、
前記ラベル無し学習データの入力文を、前記素性データ、前記モデルパラメータ及び前記ラベルの一覧に基づいて解析し、当該ラベル無し学習データに対する解析結果と、同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出する整合性評価手段と、
前記尤度評価手段で算出された尤度及び前記整合性評価手段で算出された評価値に基づく目標関数が最大化するように前記モデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された前記尤度及び前記評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行する更新手段と、
前記素性データ、前記所定の収束条件を満たしたモデルパラメータ及び前記ラベルの一覧を用いて、前記テキスト解析器が使用する解析用辞書を生成する解析辞書出力手段とを備えたテキスト解析学習装置。 A labeled learning data storage unit that stores a combination of an input sentence to a text analyzer, a label indicating a correct analysis result of the input sentence, and category information indicating a category to which the input sentence belongs, as labeled learning data;
An unlabeled learning data storage unit that stores a combination of an input sentence to the text analyzer and category information indicating a category to which the input sentence belongs;
A label storage unit for storing a list of the labels;
A feature data storage unit that stores a combination of a matching condition for the input sentence and the label of the input sentence as feature data corresponding to the input sentence;
A feature template storage unit that stores a feature template using a part of the matching condition and the label as a variable;
The labeled learning data, the unlabeled learning data, the list of labels and the feature template are input, and from the labeled learning data, the unlabeled learning data and the list of labels, a part of the matching condition and the A feature generation unit that generates the feature data by extracting a character string and a label corresponding to each label and rewriting the variables of the feature template;
A model parameter storage unit for storing model parameters corresponding to the feature data;
The likelihood that the input sentence of the labeled learning data is analyzed based on the feature data, the model parameter, and the list of labels, and the likelihood of the analysis result indicated by the label given to the labeled learning data is calculated. Degree evaluation means,
The input sentence of the unlabeled learning data is analyzed based on the feature data, the model parameters, and the list of labels, and the analysis result for the unlabeled learning data is matched with the analysis result for the input sentence belonging to the same category. Consistency evaluation means for calculating an evaluation value indicating the degree of sex;
Update the value of the model parameter so that the target function based on the likelihood calculated by the likelihood evaluation unit and the evaluation value calculated by the consistency evaluation unit is maximized, and use the updated value of the model parameter Update means for executing update of the model parameter based on the likelihood and the evaluation value calculated in the above until the update value of the model parameter satisfies a predetermined convergence condition;
A text analysis learning device comprising: an analysis dictionary output means for generating an analysis dictionary used by the text analyzer using the feature data, model parameters satisfying the predetermined convergence condition, and a list of the labels.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009086407A JP2010238043A (en) | 2009-03-31 | 2009-03-31 | Text analysis learning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009086407A JP2010238043A (en) | 2009-03-31 | 2009-03-31 | Text analysis learning device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010238043A true JP2010238043A (en) | 2010-10-21 |
Family
ID=43092290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009086407A Pending JP2010238043A (en) | 2009-03-31 | 2009-03-31 | Text analysis learning device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010238043A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013134751A (en) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | Topic model learning method, apparatus, and program |
WO2018174000A1 (en) * | 2017-03-24 | 2018-09-27 | 日本電気株式会社 | Configuration management device, configuration management method, and recording medium |
JP2018206261A (en) * | 2017-06-08 | 2018-12-27 | 日本電信電話株式会社 | Word division estimation model learning device, word division device, method and program |
CN109783604A (en) * | 2018-12-14 | 2019-05-21 | 平安科技(深圳)有限公司 | Information extracting method, device and computer equipment based on a small amount of sample |
CN112528628A (en) * | 2020-12-18 | 2021-03-19 | 北京一起教育科技有限责任公司 | Text processing method and device and electronic equipment |
WO2022134592A1 (en) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | Address information resolution method, apparatus and device, and storage medium |
-
2009
- 2009-03-31 JP JP2009086407A patent/JP2010238043A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013134751A (en) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | Topic model learning method, apparatus, and program |
WO2018174000A1 (en) * | 2017-03-24 | 2018-09-27 | 日本電気株式会社 | Configuration management device, configuration management method, and recording medium |
JPWO2018174000A1 (en) * | 2017-03-24 | 2020-01-23 | 日本電気株式会社 | Configuration management device, configuration management method, and configuration management program |
JP7172986B2 (en) | 2017-03-24 | 2022-11-16 | 日本電気株式会社 | Configuration management device, configuration management method, and configuration management program |
JP2018206261A (en) * | 2017-06-08 | 2018-12-27 | 日本電信電話株式会社 | Word division estimation model learning device, word division device, method and program |
CN109783604A (en) * | 2018-12-14 | 2019-05-21 | 平安科技(深圳)有限公司 | Information extracting method, device and computer equipment based on a small amount of sample |
CN109783604B (en) * | 2018-12-14 | 2024-03-19 | 平安科技(深圳)有限公司 | Information extraction method and device based on small amount of samples and computer equipment |
CN112528628A (en) * | 2020-12-18 | 2021-03-19 | 北京一起教育科技有限责任公司 | Text processing method and device and electronic equipment |
CN112528628B (en) * | 2020-12-18 | 2024-02-02 | 北京一起教育科技有限责任公司 | Text processing method and device and electronic equipment |
WO2022134592A1 (en) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | Address information resolution method, apparatus and device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522994B (en) | Method and device for generating information | |
CN111737511B (en) | Image description method based on self-adaptive local concept embedding | |
CN111159454A (en) | Picture description generation method and system based on Actor-Critic generation type countermeasure network | |
CN108765383B (en) | Video description method based on deep migration learning | |
CN113035311B (en) | Medical image report automatic generation method based on multi-mode attention mechanism | |
JP2010238043A (en) | Text analysis learning device | |
US11176417B2 (en) | Method and system for producing digital image features | |
CN112905795A (en) | Text intention classification method, device and readable medium | |
JP6291443B2 (en) | Connection relationship estimation apparatus, method, and program | |
CN103425686B (en) | A kind of information issuing method and device | |
CN105718256A (en) | Methodology and apparatus for consistency check by comparison of ontology models | |
CN110968725B (en) | Image content description information generation method, electronic device and storage medium | |
CN112183106B (en) | Semantic understanding method and device based on phoneme association and deep learning | |
CN111581954A (en) | Text event extraction method and device based on grammar dependency information | |
CN115544303A (en) | Method, apparatus, device and medium for determining label of video | |
CN116611443A (en) | Knowledge interaction graph guided event causal relationship identification system and method | |
CN117313850A (en) | Information extraction and knowledge graph construction system and method | |
CN110413790B (en) | Scene classification method and device | |
CN114612702A (en) | Image data annotation system and method based on deep learning | |
CN113806489A (en) | Method, electronic device and computer program product for dataset creation | |
CN114912458A (en) | Emotion analysis method and device and computer readable medium | |
US20230132770A1 (en) | Learning apparatus, learning method, object detection apparatus, object detection method, learning support system and learning support method | |
CN112183095A (en) | Event extraction method and device | |
CN113553844B (en) | Domain identification method based on prefix tree features and convolutional neural network | |
JP2016197289A (en) | Parameter learning device, similarity calculation device and method, and program |