JP5766152B2 - Language model generation apparatus, method and program - Google Patents

Language model generation apparatus, method and program Download PDF

Info

Publication number
JP5766152B2
JP5766152B2 JP2012137187A JP2012137187A JP5766152B2 JP 5766152 B2 JP5766152 B2 JP 5766152B2 JP 2012137187 A JP2012137187 A JP 2012137187A JP 2012137187 A JP2012137187 A JP 2012137187A JP 5766152 B2 JP5766152 B2 JP 5766152B2
Authority
JP
Japan
Prior art keywords
speech
text
pseudo
language model
gram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012137187A
Other languages
Japanese (ja)
Other versions
JP2014002257A (en
Inventor
済央 野本
済央 野本
浩和 政瀧
浩和 政瀧
高橋 敏
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012137187A priority Critical patent/JP5766152B2/en
Publication of JP2014002257A publication Critical patent/JP2014002257A/en
Application granted granted Critical
Publication of JP5766152B2 publication Critical patent/JP5766152B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、テキストコーパスから言語モデルを生成する技術に関する。   The present invention relates to a technique for generating a language model from a text corpus.

現在、音声認識や自動翻訳など様々な分野で確率的言語モデル(以下、単に「言語モデル」ともいう)が使われている。言語モデルとは単語列、文字列に対して、それらが起こる確率を与えるモデルである。言語モデルとしてn−gramモデルが最も一般的である(非特許文献1参照)。n−gramモデルは単語の生起確率が直近の(n−1)単語にのみ依存するという仮定に基づいたモデルである。例えば、「私はりんごを____」という文を考えると、下線部分に入る単語は「食べる」や「買う」「かじる」等であろうと推測される。これは下線部分の前に表れる「りんご」「を」という単語の並びから推測される。このように、ある時点での単語の生起確率を推定するには直前にある数個の単語の出現情報を用いることが有効である。   Currently, probabilistic language models (hereinafter also simply referred to as “language models”) are used in various fields such as speech recognition and automatic translation. A language model is a model that gives the probability of occurrence to word strings and character strings. The n-gram model is the most common language model (see Non-Patent Document 1). The n-gram model is a model based on the assumption that the word occurrence probability depends only on the most recent (n-1) words. For example, considering the sentence “I am an apple, ____”, it is assumed that the words that are underlined are “eating”, “buying”, “gazing”, and the like. This is inferred from the sequence of the words “apple” and “wo” appearing before the underlined portion. As described above, it is effective to use the appearance information of several words just before the word occurrence probability at a certain point in time.

一般的に、直前の一単語の情報のみを用いる場合をbigram、直前の二単語の情報を用いる場合をtrigramと呼ぶ。例えば、上記の例において下線部分に入る単語を考える場合、bigramでは「を」のみを考慮し、trigramでは「りんご」「を」を考慮する。   In general, a case where only the information of the immediately preceding one word is used is called a bigram, and a case where the information of the immediately preceding two words is used is called a trigram. For example, in the above example, when considering a word that falls underlined, only “wo” is considered in the bigram, and “apple” and “ho” are considered in the trigram.

例えば、上記の例で下線部分に「食べる」が入る条件付き確率Pは、単語列Wの出現頻度をC(W)と表すとすると、bigramモデル、trigramモデルではそれぞれ以下のように計算される。
bigram:P(食べる|を)=C(を-食べる)/C(を)
trigram:P(食べる|りんご-を)=C(りんご-を-食べる)/C(りんご-を)
通常、音声認識の分野ではn=2(bigram)やn=3(trigram)が用いられることが多い。
For example, in the above example, the conditional probability P that “eat” enters the underlined portion is calculated as follows in the bigram model and the trigram model, assuming that the appearance frequency of the word string W is C (W). .
bigram: P (eat |) = C (eat-eat) / C ()
trigram: P (eat | apple-) = C (apple-eat) / C (apple-)
Usually, in the field of speech recognition, n = 2 (bigram) and n = 3 (trigram) are often used.

一般的に、bigramよりtrigramのほうが推定精度は高い。例えば、単語「を」の後に続く単語を推定する問題よりも、単語列「りんご」「を」の後に続く単語を推定する問題のほうが容易である。よって、理想の言語モデルとは、あらゆるtrigramモデルで計算される条件付き確率(以下「trigram確率」ともいう)が実際の出現分布と等しい状態にある場合となる。   In general, trigram has higher estimation accuracy than bigram. For example, the problem of estimating the word following the word strings “apple” and “to” is easier than the problem of estimating the word following the word “o”. Therefore, an ideal language model is a case where a conditional probability (hereinafter also referred to as “trigram probability”) calculated by any trigram model is in a state equal to an actual appearance distribution.

このようなbigramモデルで計算される条件付き確率(以下「bigram確率」ともいう)やtrigram確率は、通常、大量の学習コーパスから学習されることが望ましい。なお、コーパスとは、自然言語に基づき生成されたテキストデータからなるデータベースである。学習コーパスのサイズが大きければ大きいほど、多くのn−gramパタン(n個の単語からなる単語列のパタン)を学習することが可能となり、さらにそのn−gramモデルで計算される条件付き確率(以下「n−gram確率」ともいう)は統計的に信頼度が高い値となる。つまり、言語モデルの精度が高くなる。逆に学習コーパスサイズが小さい場合には、十分なn−gramパタンを網羅することができず、またそのn−gram確率は統計的に信頼度が低い。つまり、言語モデルの精度が低い。このように言語モデルの精度を向上させるためには、大量の学習コーパスが必要となる。   It is desirable that the conditional probability (hereinafter also referred to as “bigram probability”) and trigram probability calculated by such a bigram model is usually learned from a large amount of learning corpus. A corpus is a database composed of text data generated based on a natural language. The larger the size of the learning corpus, the more n-gram patterns (word string patterns made up of n words) can be learned, and the conditional probability calculated by the n-gram model ( (Hereinafter also referred to as “n-gram probability”) is a statistically high value. That is, the accuracy of the language model is increased. On the other hand, when the learning corpus size is small, a sufficient n-gram pattern cannot be covered, and the n-gram probability is statistically low in reliability. That is, the accuracy of the language model is low. Thus, in order to improve the accuracy of the language model, a large amount of learning corpus is required.

また学習コーパスは実際のタスクと同じものが望ましい。例えば、音声認識に言語モデルを用いる場合では、音声認識対象となるタスクと同等な単語の出現頻度分布を持つ学習コーパスであることが望ましい。例えば、野球中継で用いられる単語の出現傾向とコールセンタ等の電話応対で用いられる単語の出現傾向とは異なる。そのため、音声認識を用いて野球中継の字幕作成を行おうとした場合、野球中継内容を書き起こしたテキストデータを学習コーパスとして生成された言語モデルを用いたほうが、電話応対内容を書き起こしたテキストを学習コーパスとして生成された言語モデルを用いた場合に比べ、その認識精度は高くなる。   The learning corpus is preferably the same as the actual task. For example, when a language model is used for speech recognition, it is desirable that the learning corpus has an appearance frequency distribution of words equivalent to a task that is a speech recognition target. For example, the appearance tendency of words used in baseball broadcasts is different from the appearance tendency of words used in telephone receptions such as call centers. Therefore, when trying to create subtitles for a baseball broadcast using speech recognition, it is better to use the text model that transcribes the content of the baseball broadcast as a learning corpus and the text that transcribes the content of the telephone response. The recognition accuracy is higher than when a language model generated as a learning corpus is used.

北研二、「言語と計算 4 確率的言語モデル」、1999年、東京大学出版会、p57−62Kenji Kita, “Language and Computation 4 Stochastic Language Model”, 1999, The University of Tokyo Press, p57-62

しかしながら、前述の通り、精度の高い言語モデルを生成するためには、大量の学習コーパスを必要とし、少量の学習コーパスしか用意できない場合には精度の高い言語モデルを生成することができない。特に、特定のタスク用の学習コーパスを用意しようとすると、大量の学習コーパスを用意することができない場合が多い。   However, as described above, in order to generate a highly accurate language model, a large amount of learning corpus is required, and when only a small amount of learning corpus can be prepared, a highly accurate language model cannot be generated. In particular, if a learning corpus for a specific task is prepared, a large number of learning corpora cannot be prepared in many cases.

また、音声認識において利用される言語モデルを生成する場合、音声から書き起こしたテキストデータを学習コーパスとしたほうが、認識精度が高くなる。このとき、音声を書き起こして大量の学習コーパスを作成するためには、大量の音声を人手により書き起こす作業が必要となり、その作業には大きなコスト(時間及び人件費等)がかかる。さらに、タスク毎に大量の学習コーパスを用意しようとすると、そのコストはさらに大きなものとなる。このコストを削減するために、少量の学習コーパスから言語モデルを生成すると、その精度は低くなる。   Further, when generating a language model used in speech recognition, the recognition accuracy is higher when text data written from speech is used as a learning corpus. At this time, in order to transcribe speech and create a large amount of learning corpus, it is necessary to manually transcribe a large amount of speech, which requires a large cost (time and labor costs). Furthermore, if a large amount of learning corpus is prepared for each task, the cost becomes even higher. In order to reduce this cost, if a language model is generated from a small amount of learning corpus, its accuracy is lowered.

本発明は、少量のテキストコーパスから、従来技術と比べて、精度の高い言語モデルを生成する技術を提供することを目的とする。   An object of the present invention is to provide a technique for generating a language model with higher accuracy than a conventional technique from a small amount of text corpus.

上記の課題を解決するために、本発明の第一の態様によれば、言語モデル生成装置は、形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成部と、オリジナルテキストにおけるn−gramパタンの出現頻度及び疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成部とを含む。   In order to solve the above-described problem, according to the first aspect of the present invention, the language model generation device uses the original text that is divided into morpheme units and added with the dependency relationship of clauses. N-gram using a pseudo-text generation unit that generates a pseudo-text by rearranging a plurality of clauses having the same number, an appearance frequency of an n-gram pattern in the original text, and an appearance frequency of the n-gram pattern in the pseudo-text A language model generation unit for obtaining a probability and generating a language model.

上記の課題を解決するために、本発明の第二の態様によれば、言語モデル生成方法は、形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成ステップと、オリジナルテキストにおけるn−gramパタンの出現頻度及び疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成ステップとを含む。   In order to solve the above-mentioned problem, according to the second aspect of the present invention, the language model generation method uses the original text that is divided into morpheme units and added with the dependency relation of clauses. A pseudo-text generation step for rearranging a plurality of clauses having the same number to generate pseudo-text, and an n-gram pattern using the appearance frequency of the n-gram pattern in the original text and the appearance frequency of the n-gram pattern in the pseudo text A language model generation step for determining a probability and generating a language model.

本発明によれば、一文から獲得されるn−gramパタンを増加させることで、少量のテキストコーパスから、従来技術と比べて、精度の高い言語モデルを生成できるという効果を奏する。   According to the present invention, by increasing the n-gram pattern acquired from one sentence, there is an effect that a language model with higher accuracy can be generated from a small amount of text corpus than in the conventional technology.

図1Aは文節の係り受け関係を説明するための図、図1Bは構文解析結果を説明するための図。FIG. 1A is a diagram for explaining a dependency relation between clauses, and FIG. 1B is a diagram for explaining a syntax analysis result. 第一実施形態に係る言語モデル生成装置の機能ブロック図。The functional block diagram of the language model production | generation apparatus which concerns on 1st embodiment. 第一実施形態に係る言語モデル生成装置の処理フローを示す図。The figure which shows the processing flow of the language model production | generation apparatus which concerns on 1st embodiment. 係り受け先が同じ文節である複数の文節を並び替える方法を説明するための図。The figure for demonstrating the method to rearrange the some clause whose dependency is the same clause. 第二実施形態に係る言語モデル生成装置の機能ブロック図。The functional block diagram of the language model production | generation apparatus which concerns on 2nd embodiment. 第二実施形態に係る言語モデル生成装置の処理フローを示す図。The figure which shows the processing flow of the language model production | generation apparatus which concerns on 2nd embodiment. 第二実施形態の第一判定方法に係る疑似テキスト選択部の機能ブロック図。The functional block diagram of the pseudo text selection part which concerns on the 1st determination method of 2nd embodiment. 第二実施形態の第一判定方法に係る疑似テキスト選択部の処理フローを示す図。The figure which shows the processing flow of the pseudo text selection part which concerns on the 1st determination method of 2nd embodiment. 第二実施形態の第二判定方法に係る疑似テキスト選択部の機能ブロック図。The functional block diagram of the pseudo text selection part which concerns on the 2nd determination method of 2nd embodiment. 第二実施形態の第二判定方法に係る疑似テキスト選択部の処理フローを示す図。The figure which shows the processing flow of the pseudo text selection part which concerns on the 2nd determination method of 2nd embodiment. 第三実施形態に係る言語モデル生成装置の機能ブロック図。The functional block diagram of the language model production | generation apparatus which concerns on 3rd embodiment. 第三実施形態に係る言語モデル生成装置の処理フローを示す図。The figure which shows the processing flow of the language model production | generation apparatus which concerns on 3rd embodiment.

<第一実施形態のポイント>
「私はあのりんごを今日友達と食べる(私/は/あの/りんご/を/今日/友達/と/食べる)」という一文からは以下の七つのtrigramパタンが学習される。ただし、括弧内は形態素単位に分割した結果である。
1.私−は−あの
2.は−あの−りんご
3.あの−りんご−を
4.りんご−を−今日
5.を−今日−友達
6.今日−友達−と
7.友達−と−食べる
本実施形態では、ある一文から得られるn−gramパタン(例えばtrigramパタン)を増やしたい。
<Points of first embodiment>
The following seven trigram patterns are learned from the sentence “I eat that apple with my friend today (I / ha / that / apple / to / today / friend / and / eat)”. However, the results in parentheses are divided into morpheme units.
1. I-that-2. Ha-that-apple3. That apple-4. Apple-today -5. -Today-Friends 6. 6. Today-with friends- In this embodiment to eat with friends, it is desired to increase the n-gram pattern (for example, trigram pattern) obtained from a certain sentence.

そこで、本実施形態は日本語の「語順変動」特性に着目する。日本語は、特に口語では、語順変動が生じやすい言語である。例えば、「私はあのりんごを今日友達と食べる」という文は「今日あのりんごを友達と私は食べる」や「私は今日あのりんごを友達と食べる」と話されても日本語の並びとして間違いでない。このように、日本語は語順を一意に決定することは難しい。そして様々な語順変化を少量の学習コーパスによって網羅することは難しい。そこで、ある学習コーパス中の各テキストに対し、語順を変動させたテキストを作成し、それらも学習コーパスとして用いることで、学習するn−gramパタン数を増やす。なお、元々ある学習コーパスをオリジナルテキストコーパスと呼び、オリジナルテキストコーパス中のテキストデータをオリジナルテキストと呼ぶ。オリジナルテキストの語順を変動させたテキストを疑似テキストと呼び、疑似テキストからなるコーパスを疑似コーパスと呼ぶ。オリジナルテキストコーパスと疑似コーパスとを併せて学習コーパスとして利用する。   Therefore, the present embodiment focuses on the “word order fluctuation” characteristic of Japanese. Japanese is a language that is prone to change in word order, especially in spoken language. For example, the sentence "I eat that apple with my friend today" is wrong as a Japanese line even if I say "I eat that apple with my friend today" or "I eat that apple with my friend today" Not. Thus, it is difficult to uniquely determine the word order in Japanese. And it is difficult to cover various word order changes with a small amount of learning corpus. In view of this, for each text in a certain learning corpus, text in which the word order is changed is created and used as a learning corpus to increase the number of n-gram patterns to be learned. An original learning corpus is called an original text corpus, and text data in the original text corpus is called an original text. Text in which the word order of the original text is changed is called pseudo text, and a corpus composed of pseudo text is called a pseudo corpus. The original text corpus and the pseudo corpus are used together as a learning corpus.

例えば「私はあのりんごを今日友達と食べる」は以下のような語順で表現されても日本語の並びとして不自然でない。
オリジナルテキスト:私はあのりんごを今日友達と食べる
疑似テキスト(1):今日私は友達とあのりんごを食べる
疑似テキスト(2):私は今日あのりんごを友達と食べる
疑似テキスト(3):私は今日友達とあのりんごを食べる
疑似テキスト(4):私は友達と今日あのりんごを食べる
疑似テキスト(5):私は友達とあのりんごを今日食べる
疑似テキスト(6):今日あのりんごを私は友達と食べる

上記のような並び替えにより、元々の文には含まれなかった「今日−あの−りんご」「友達−と−今日」「今日−私−は」等のtrigramパタンも学習することが可能になる。例えば、疑似テキスト(1)「今日私は友達とあのりんごを食べる」からは以下の7つのtrigramパタン(1)1〜(1)7が学習される。(1)1〜(1)5及び(1)7が疑似テキスト(1)により新しく獲得されたtrigramパタンである。
(1)1.今日−私−は
(1)2.私−は−友達
(1)3.は−友達−と
(1)4.友達−と−あの
(1)5.と−あの−りんご
(1)6.あの−りんご−を
(1)7.りんご−を−食べる
このように並び替えによりオリジナルテキストから疑似テキストを生成することで、オリジナルテキストからは得られなかった新たなn−gramパタンを抽出することが可能となる。
For example, “I eat that apple with my friend today” is not unnatural as a Japanese sequence even if it is expressed in the following word order:
Original text: Pseudo-text I eat that apple with friends today (1): Pseudo-text I eat that apple with friends today (2): Pseudo-text I eat that apple with friends today (3): I Pseudo-text to eat that apple with a friend today (4): Pseudo-text to eat that apple with a friend today (5): Pseudo-text to eat that apple with a friend today (6): Today I'm a friend with that apple Eat with ...
By rearranging as described above, it becomes possible to learn trigram patterns that were not included in the original sentence, such as “today-that-apple”, “friends-to-today”, and “today-me-ha”. . For example, the following seven trigram patterns (1) 1 to (1) 7 are learned from the pseudo text (1) “I eat that apple with my friend today”. (1) 1 to (1) 5 and (1) 7 are trigram patterns newly acquired by the pseudo text (1).
(1) 1. Today -I- (1) 2. My friend (1) Ha-friends-(1) 4. Friends-and-(1) 5. And-that-apple (1) 6. That apple-(1) 7. By eating apples in this way, pseudo-text is generated from the original text by rearrangement, so that a new n-gram pattern that cannot be obtained from the original text can be extracted.

本実施形態では語順変動を実現するために、「係り受け関係」を用いる。日本語における「係り受け関係」とは、文節と文節がある意味的なつながり(修飾するものと修飾されるもの)を持って関係していることを指す。「文節」とは、文を細かく分割していった際に、最も小さい意味のまとまりのことである。一般的に、文節は名詞や動詞などの「自立語」と「接語」から構成される。「接語」は無い場合や省略される場合がある。例えば、「私はあのりんごを今日友達と食べる」は以下のような文節に区切ることができる。
オリジナルテキスト:私はあのりんごを今日友達と食べる
文節:私は/あの/りんごを/今日/友達と/食べる
このような区切られた文節において、それぞれの文節は、図1Aのような係り受け関係を抽出できる。図1Aの例の場合、「私は→食べる」「あの→りんごを」「りんごを→食べる」「今日→食べる」「友達と→食べる」の計5個の係り受け関係が抽出される。係り受け関係にある文節間は、修飾するものから修飾されるものに対して直接の接続関係が成り立つ。また、係り受け関係が同じ深さにある各文節は互いに独立の関係にある。
In the present embodiment, “dependency relation” is used to realize word order fluctuation. “Dependency relationship” in Japanese means that a phrase and a phrase are related to each other with a meaningful connection (modifier and modifier). “Sentence” is a group of meanings that is the smallest when a sentence is divided into small pieces. In general, a phrase is composed of “independent words” such as nouns and verbs and “junctions”. “Suffix” may be omitted or omitted. For example, “I eat that apple with my friend today” can be broken into the following phrases:
Original text: I will eat that apple with friends today: I will eat / that / apples / today / with friends / Eat in such a delimited clause, each clause is a dependency relationship as shown in FIG. 1A Can be extracted. In the case of the example in FIG. 1A, a total of five dependency relationships are extracted: “I eat →” “that → apple”, “apple → eat”, “today → eat”, and “friend → eat”. Between the clauses in the dependency relationship, a direct connection relationship is established from what is modified to what is modified. In addition, clauses having the same dependency relationship are independent of each other.

「私は」「(あの)りんごを」「今日」「友達と」は「食べる」に係っている。「食べる」に係る4つの文節を並び替えても日本語の語順として誤りではない。上記のような並び替えにより、オリジナルテキストには含まれなかった「今日−あの−りんご」「友達−と−今日」「今日−わたし−は」等のようなtrigramパタンも学習することが可能になる。このように係り受け関係を用いることで一文からより多くの自然なn−gramパタンが抽出可能となる。   “I” (that) apples, “today” and “with friends” are involved in “eating”. Rearranging the four phrases related to “eat” is not an error in the Japanese word order. By rearranging as described above, it is possible to learn trigram patterns such as “Today-That-Apple”, “Friends-To-Today”, “Today-I-Ha” etc. that were not included in the original text. Become. By using the dependency relationship in this manner, more natural n-gram patterns can be extracted from one sentence.

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted.

<第一実施形態>
図2は言語モデル生成装置100の機能ブロック図を、図3はその処理フローを示す。
<First embodiment>
FIG. 2 is a functional block diagram of the language model generation apparatus 100, and FIG. 3 shows a processing flow thereof.

言語モデル生成装置100は、形態素解析部110、構文解析部120、疑似テキスト生成部130及び言語モデル生成部140を含む。   The language model generation apparatus 100 includes a morphological analysis unit 110, a syntax analysis unit 120, a pseudo text generation unit 130, and a language model generation unit 140.

言語モデル生成装置100は、オリジナルテキストコーパス中のT個のオリジナルテキストtexを受け取り、このオリジナルテキストtexを用いて言語モデルを生成し、出力する。ただし、t=1,2,…,Tである。以下、各部の詳細を説明する。なお、本実施形態では、オリジナルテキストコーパスには、オリジナルテキストからなるテキストデータのみが含まれていればよく、品詞情報等は必ずしも必要ではない。 Language model generator 100 receives the T original text tex t in the original text corpus to generate a language model using the original text tex t, and outputs. However, t = 1, 2,..., T. Details of each part will be described below. In the present embodiment, the original text corpus only needs to include text data composed of the original text, and part-of-speech information is not necessarily required.

<形態素解析部110>
・入力:オリジナルテキストtex
・出力:形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)mor
・処理内容:オリジナルテキストtexを形態素解析して(s110)、オリジナルテキストを形態素単位に分割し、形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)morを出力する。なお、形態素とは、言語的に意味を持つ最小単位のことである。形態素解析技術としては、従来技術を用いる。例えば「私はあのりんごを今日友達と食べる」というリジナルテキストを形態素解析すると、以下のように、単語が「/」で区切られた形式の形態素解析結果morが得られる。
⇒私/は/あの/りんご/を/今日/友達/と/食べる
<Morphological analyzer 110>
• Input: Original text tex t
- Output: the result of morphological analysis (the original text has been word-separated into morphemes) mor t
- processing content: The morphological analysis of the original text tex t (s110), by dividing the original text into morphemes and outputs the (word-separated by the original text into morphemes) mor t morphological analysis result. A morpheme is the smallest unit that has linguistic significance. Conventional technology is used as the morphological analysis technology. For example, if "I am that apple a day to eat with your friends" to morphological analysis of the original casing text, as shown in the following, the word is "/" in delimited format of the morphological analysis result mor t is obtained.
⇒I / Ha / Ano / Apple / Today / Friends / To / Eat

<構文解析部120>
・入力:形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)mor
・出力:構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)syn
・処理内容:形態素解析結果morを構文解析して(s120)、形態素解析結果morを文節に分割し、分割された複数の文節間の係り受け関係を解析し、構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)synを出力する。なお、本実施形態において構文解析とは、文節の係り受け関係を解析することを意味する。構文解析技術としては、従来技術を用いる。例えば「私/は/あの/りんご/を/今日/友達/と/食べる」という形態素解析結果に対して構文解析を行うと図1Bのような構文解析結果synが得られる。なお、図1Bのような係り受け関係を本明細書では便宜上「私/は(6)あの(3)りんご/を(6)今日(6)友達/と(6)食べる」と記す。括弧中の数字は、直前の文節が、係っている文節の番号を意味する。例えば第一文節「私/は」は第六文節「食べる」に係っている。
<Syntax analyzer 120>
• Input: morphological analysis results (leaving a space between words is the original text into morphemes) mor t
Output: Syntax analysis result (information indicating morphological analysis result and clause dependency) syn t
- processing content: The morphological analysis result parsing mor t (s120), by dividing the morphological analysis result mor t in clause analyzes the dependency relationships between the plurality of divided clauses, syntax analysis result (morphological analysis result clause dependency information indicating a relationship) to the syn t. In the present embodiment, the syntax analysis means analyzing the dependency relation of clauses. Conventional techniques are used as the parsing technique. For example, "I am / is / that / apple / a / today / friend / and / eat" syntax analysis result syn t like that and do the syntax analysis on the morphological analysis result FIG. 1B is obtained. In this specification, the dependency relationship as shown in FIG. 1B is referred to as “I / I (6) That (3) Apple / (6) Today (6) Friends / (6) Eat” for convenience. The number in parentheses means the number of the clause that the previous clause is related to. For example, the first phrase “I / ha” is related to the sixth phrase “eat”.

<疑似テキスト生成部130>
・入力:構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)syn
・出力:疑似テキストtext,u
・処理内容:構文解析結果synを用いて、各文節を並び替えてU個の疑似テキストtext,uを生成する(s130)。ただし、u=1,2,…,Uである。並び替えは、係り受け先が同じ文節である複数の文節を並び替えることによって行う。例えば、「私/は(6)あの(3)りんご/を(6)今日(6)友達/と(6)食べる」を受け取った場合、第六文節「食べる」を係り受け先とする第一文節「私/は」、第三文節「(あの)/りんごを」、第四文節「今日」及び第五文節「友達/と」の四つの文節を並び替える。この四つの文節を順列組合せに従って並び替えることで疑似テキストtext,uを生成する。よって、(4!−1=4×3×2×1−1=23通り)の疑似テキストtext,uが生成される(図4参照)。なお、「−1」はオリジナルテキストtexに相当する。なお、ある構文解析結果synに対して、係り受け先が同じとなる文節が存在しない場合、U=0であり、疑似テキストtext,uを生成しない。
<Pseudo Text Generation Unit 130>
Input: Syntax analysis result (information indicating morphological analysis result and clause dependency) syn t
-Output: pseudo text tex t, u
Processing content: Using the syntax analysis result syn t , the respective clauses are rearranged to generate U t pieces of pseudo text tex t, u (s130). However, u = 1, 2,..., U t . The rearrangement is performed by rearranging a plurality of phrases having the same dependency destination. For example, if you receive “I / I (6) That (3) Apple / (6) Today (6) Friends / (6) Eat”), the 6th sentence “Eat” will be the first The four clauses of the phrase “I / ha”, the third clause “(that) / apple”, the fourth clause “today”, and the fifth clause “friend / to” are rearranged. By rearranging these four clauses according to the permutation combination, pseudo text tex t, u is generated. Therefore, (4! -1 = 4 × 3 × 2 × 1-1 = 23) pseudo-text tex t, u is generated (see FIG. 4). It should be noted that, "- 1" corresponds to the original text tex t. If there is no clause having the same dependency destination for a certain parsing result syn t , U t = 0, and no pseudo text tex t, u is generated.

<言語モデル生成部140>
・入力:オリジナルテキストtex、疑似テキストtext,u
・出力:言語モデル(n−gramモデル)
・処理内容:T個のオリジナルテキストtexにおけるn−gramパタンの出現頻度Countと(U+U+…+U)個の疑似テキストtext,uにおけるn−gramパタンの出現頻度Countとからn−gram確率を求め、言語モデルを生成する(s140)。なお、n−gram確率を求める際に、T個のオリジナルテキストtexから得られるn−gramパタンの出現頻度Count及び(U+U+…+U)個の疑似テキストtext,uから得られるn−gramパタンの出現頻度Countに対して重み付けに行ってもよい。例えば、重みWで重み付け混合をしたbigram確率は次式によって計算される。
<Language model generation unit 140>
-Input: Original text tex t , pseudo text tex t, u
・ Output: Language model (n-gram model)
Processing contents: Appearance frequency Count G of n-gram patterns in T original texts tex t and appearance frequency Count S of n-gram patterns in (U 1 + U 2 +... + U T ) pseudo texts tex t, u The n-gram probability is obtained from the above and a language model is generated (s140). Incidentally, when determining the n-gram probability, frequency of occurrence of n-gram patterns obtained from the T original text tex t Count G and (U 1 + U 2 + ... + U T) pieces of pseudo-text tex t, from u You may weight to the appearance frequency Count S of the n-gram pattern obtained. For example, the bigram probability obtained by weighted mixing with the weight W is calculated by the following equation.

Figure 0005766152
Figure 0005766152

なお、重みWで重み付け混合をしたtrigram確率は次式によって計算される。 The trigram probability obtained by performing weighted mixing with the weight W is calculated by the following equation.

Figure 0005766152
Figure 0005766152

ただし、重みWは、0より大きい値とし、重みWが1であればオリジナルテキストtexと疑似テキストtext,uとを同等の重み付けで集計することを意味する。通常、オリジナルテキストtexのほうが疑似テキストtext,uよりも、語順的に確からしいと考えられるため、Wを1以下に設定することが望ましい。例えば、重みWは、開発セットの認識精度が最大になるような言語モデルを生成する値で決定する。 However, the weight W is set to a value larger than 0, and if the weight W is 1, it means that the original text tex t and the pseudo text tex t, u are totaled with the same weight. Normally, it is considered that the original text tex t is more likely in word order than the pseudo text tex t, u , so it is desirable to set W to 1 or less. For example, the weight W is determined by a value that generates a language model that maximizes the recognition accuracy of the development set.

<効果>
このような構成により、一文(オリジナルテキストtex)から獲得されるn−gramパタンを増加させることができ、従来技術と比べて、少量のテキストコーパスから、精度の高い言語モデルを生成できる。
<Effect>
With such a configuration, the n-gram pattern acquired from one sentence (original text tex t ) can be increased, and a highly accurate language model can be generated from a small amount of text corpus as compared with the prior art.

<変形例>
言語モデル生成装置100は、形態素解析部110や構文解析部120を備えずに、例えば他の装置により予め求められた形態素解析結果morや構文解析結果synを入力としてもよい。
<Modification>
Language model generator 100, without providing the morphological analysis unit 110 and the syntax analyzing unit 120 may be input, for example, other previously obtained morphological analysis result by the apparatus mor t and syntax analysis result syn t.

また、n−gramモデルを生成する際に周知のスムージングまたは平滑化と呼ばれる方法を用いてもよい(非特許文献1参照)。   Further, when generating an n-gram model, a known method called smoothing or smoothing may be used (see Non-Patent Document 1).

<第二実施形態>
第一実施形態と異なる部分についてのみ説明する。
<Second embodiment>
Only parts different from the first embodiment will be described.

構文解析部120における構文解析に誤りがある場合、その誤りにより本来正しくない文型の疑似テキストが生成されてしまう可能性がある。それにより後段で生成される言語モデルの性能が劣化する可能性がある。そこで、第二実施形態では、疑似テキストが語順として確からしいか否かを判定する処理部を追加する。   When there is an error in the syntax analysis in the syntax analysis unit 120, there is a possibility that a pseudo-text having an originally incorrect sentence type is generated due to the error. As a result, the performance of the language model generated later may be deteriorated. Therefore, in the second embodiment, a processing unit that determines whether or not the pseudo text is likely to be in word order is added.

図5は言語モデル生成装置200の機能ブロック図を、図6はその処理フローを示す。   FIG. 5 is a functional block diagram of the language model generation apparatus 200, and FIG.

言語モデル生成装置200は、形態素解析部210、構文解析部120、疑似テキスト生成部130、言語モデル生成部140を含み、さらに、疑似テキスト選択部250を含む。   The language model generation apparatus 200 includes a morphological analysis unit 210, a syntax analysis unit 120, a pseudo text generation unit 130, a language model generation unit 140, and further includes a pseudo text selection unit 250.

<形態素解析部210>
・入力:オリジナルテキストtex
・出力:形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’
・処理内容:オリジナルテキストtexを形態素解析して(s210)、オリジナルテキストを形態素単位に分割し、分割した各形態素に品詞を付与して、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたたオリジナルテキスト)mor’を出力する。形態素解析技術としては、従来技術を用いる。例えば「私はあのりんごを今日友達と食べる」というリジナルテキストを形態素解析すると、以下のように、単語が「/」で区切られ、品詞を付加された形式の形態素解析結果mor’が得られる。
⇒私(名詞:代名詞)/は(連用助詞)/あの(連体詞)/りんご(名詞)/を(格助詞:連用)/今日(名詞:日時:連用)/友達(名詞)/と(格助詞:連用)/食べる(動詞)
<Morphological analyzer 210>
• Input: Original text tex t
-Output: Morphological analysis result (original text divided into morpheme units and with part-of-speech information added) mor ' t
And processing the contents: a and morphological analysis original text tex t (s210), to divide the original text into morphemes, by applying a part of speech for each morpheme obtained by dividing, is leaving a space between words in the morphological analysis result (morpheme units, is part of speech information and it outputs the added original text) mor 't. Conventional technology is used as the morphological analysis technology. For example, "I have that apple today to eat with my friends" and morphological analysis of the original casing text, as follows, words are separated by a "/", morphological analysis result mor 't of the format that has been added to part of speech can be obtained .
⇒ I (noun: pronoun) / ha (conjunctive particle) / that (combined particle) / ringo (noun) / a (case particle: conjunctive) / today (noun: date: conjunctive) / friend (noun) / to (case particle) : Continuous use) / eat (verb)

<疑似テキスト選択部250>
・入力:(品詞情報が付加された形態素解析結果mor’と文節の係り受け関係を示す情報とからなる構文解析結果syn’を用いて生成されるため、品詞情報が付加されている)疑似テキストtex’t,u、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’
・出力:選択疑似テキストtex’t,y
・処理内容:オリジナルテキストtexの言葉の並びを用いて、疑似テキストtex’t,uの言葉の並びが正しいか否かを判定し、正しいと判定された疑似テキストtex’t,uを選択し(s250)、言語モデル生成部140に出力し、言語モデルの学習に用いる。正しくないと判定された場合にはその疑似テキストtex’t,uを選択せず言語モデル学習に用いない。本実施形態では、言葉の並びが正しいか否かを判定する際に品詞の語順を利用し、オリジナルテキストtexの品詞の語順と疑似テキストtex’t,uの品詞の語順とを比較して、確からしい品詞の語順を持つ疑似テキストtex’t,uを選択する。疑似テキストtex’t,uの品詞の語順が正しいか否かを判定する方法を以下に二つ説明する。
<Pseudo-text selection unit 250>
Input: (part of speech information is added because it is generated using a parse analysis result syn ' t composed of a morphological analysis result mor' t to which part of speech information is added and information indicating a dependency relationship between clauses) Pseudo-text tex ' t, u , morpheme analysis result (original text divided into morpheme units and with part-of-speech information added) mor' t
-Output: Selection pseudo text tex ' t, y
Processing content: using the word sequence of the original text tex t , determine whether the word sequence of the pseudo text tex ′ t, u is correct , and select the pseudo text tex ′ t, u determined to be correct (S250), it is output to the language model generation unit 140 and used for learning the language model. If it is determined that it is not correct, the pseudo text tex ′ t, u is not selected and is not used for language model learning. In the present embodiment, the part-of-speech word order is used to determine whether the word sequence is correct, and the part-of-speech word order of the original text tex t is compared with the part-of-speech word order of the pseudo-text tex ′ t, u. Then, the pseudo-text tex ′ t, u having the word order of a certain part of speech is selected. Two methods for determining whether or not the word order of the part of speech of the pseudo text tex ′ t, u is correct will be described below.

(1)第一判定方法
図7及び図8を用いて、第一判定方法について説明する。疑似テキスト選択部250は、第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255及び判定部257を含む。まず、第一品詞情報取得部251は、形態素解析結果mor’からオリジナルテキストtexに付加された品詞情報を取り出し(s251)、T個のオリジナルテキストtexの品詞の語順の集合を、出現品詞列集合として、出現品詞列集合記憶部253に格納する(s253)。次に、第二品詞情報取得部255は、疑似テキストtex’t,uに付加された品詞情報から、疑似テキストtex’t,uの品詞の語順を取り出し(s255)、判定部257に出力する。判定部257は、疑似テキストtex’t,uの品詞の語順を受け取り、出現品詞列集合記憶部253内の出現品詞列集合に同様の品詞の語順が存在するか否かを判定し(s257)、存在する場合には、その品詞の語順は確からしいと判断し、その品詞の語順に対応する疑似テキストtex’t,uを選択し(s258)、選択疑似テキストtex’t,yとして言語モデル生成部140に出力する。ただし、y=1,2,…,Yであり、Yはあるオリジナルテキストtexから得られるU個の疑似テキストtex’t,uから選択される選択疑似テキストtex’t,yの個数である。存在しない場合には、その疑似テキストtex’t,uは本来正しくない文型であると判断し、選択しない。
(1) First determination method The first determination method will be described with reference to FIGS. 7 and 8. The pseudo text selection unit 250 includes a first part-of-speech information acquisition unit 251, an appearance part-of-speech string collection storage unit 253, a second part-of-speech information acquisition unit 255, and a determination unit 257. First, the first part-of-speech information acquisition unit 251, a set of morphological analysis result mor 't take out part of speech information added to the original text tex t from (s251), the part of speech of the T of the original text tex t word order, appearance The part-of-speech string set is stored in the appearance part-of-speech string set storage unit 253 (s253). Next, the second part of speech information acquisition unit 255 outputs the pseudo text tex 't, the part of speech information added to u, pseudo text tex' t, removed the part of speech of the word order of u (S255), the determination unit 257 . The determination unit 257 receives the part-of-speech word order of the pseudo-text tex ′ t, u and determines whether or not a similar part-of-speech word order exists in the appearance part-of-speech string set storage unit 253 (s257). If it exists, it is determined that the word order of the part of speech is probable, the pseudo text tex ' t, u corresponding to the word order of the part of speech is selected (s258), and the language model is selected as the selected pseudo text tex' t, y. The data is output to the generation unit 140. However, y = 1, 2,..., Y t , and Y t is a selection pseudo text tex ′ t, y selected from U t pseudo texts tex ′ t, u obtained from a certain original text tex t . It is a number. If it does not exist, it is determined that the pseudo text tex ′ t, u is an originally incorrect sentence type and is not selected.

なお、疑似テキストtex’t,uの品詞の語順と、出現品詞列集合記憶部253内の出現品詞列集合に含まれる品詞の語順とは、必ずしも全て同じである必要はなく、所定の割合(例えば、90%)以上、同じである場合に、疑似テキストtex’t,uを選択してもよい。言い換えると、疑似テキストtex’t,uの品詞の語順と出現品詞列集合に含まれる何れかの品詞の語順とが所定の割合以上一致する場合に、その疑似テキストtex’t,uを選択してもよい。どの程度の語順が同じである場合に、疑似テキストtex’t,uを選択するかは、認識精度がよくなるように実験的に定める。例えば、疑似テキストの品詞の語順が、10個の品詞の語順からなるとき、出現品詞列集合から10個の品詞の語順からなるものを取り出し、比較し、9個または10個の品詞の語順を一致する場合に、その疑似テキストを選択する。なお、他の方法により一致の割合を求めてもよい。 Note that the word order of the part of speech of the pseudo text tex't , u and the word order of the part of speech included in the appearing part of speech sequence set in the appearance part of speech sequence set storage unit 253 are not necessarily the same, and a predetermined ratio ( For example, the pseudo-text tex ′ t, u may be selected when 90%) or more are the same. In other words, if the word order of the part of speech of the pseudo text tex ′ t, u and the word order of any part of speech included in the appearance part of speech sequence set match a predetermined ratio or more, the pseudo text tex ′ t, u is selected. May be. When the word order is the same, the selection of the pseudo text tex ′ t, u is determined experimentally so that the recognition accuracy is improved. For example, when the part-of-speech word order of the pseudo-text is composed of ten part-of-speech word orders, the part-of-speech sequence set is extracted from the part-of-speech sequence set and the part-of-speech word order is compared. If there is a match, select the pseudo-text. Note that the matching ratio may be obtained by other methods.

オリジナルテキストコーパスのコーパスサイズが十分に大きくない場合に、疑似テキストの品詞の語順が出現品詞列集合に同様の品詞の語順が存在する(言い換えると、所定の割合が100%である)ことを選択の条件にすると、出現品詞列集合に含まれる品詞の語順の種類が少ないため、多くの疑似テキストは選択されない。そうすると、疑似コーパス及び学習コーパスのコーパスサイズが小さくなるため、結果として言語モデルの精度が低くなる可能性がある。そのような場合に、一致の割合を低くすることで、疑似コーパス及び学習コーパスのコーパスサイズを大きくし、結果として言語モデルの精度を向上させることができる。   If the corpus size of the original text corpus is not sufficiently large, select that the part-of-speech word order of the pseudo-text is the same part-of-speech part order in the appearance part-of-speech sequence set (in other words, the predetermined percentage is 100%) In this condition, since there are few types of part-of-speech word order included in the appearance part-of-speech string set, many pseudo-texts are not selected. Then, the corpus sizes of the pseudo corpus and the learning corpus are reduced, and as a result, the accuracy of the language model may be lowered. In such a case, by reducing the matching ratio, the corpus sizes of the pseudo corpus and the learning corpus can be increased, and as a result, the accuracy of the language model can be improved.

(2)第二判定方法
図9及び図10を用いて、第二判定方法について説明する。疑似テキスト選択部250は、第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255及び判定部257に加えて、品詞n−gram確率計算部258及び品詞n−gram確率記憶部259をさらに含む。第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255における処理は第一判定方法と同様である。
(2) Second determination method The second determination method will be described with reference to FIGS. 9 and 10. The pseudo-text selection unit 250 includes a part-of-speech n-gram probability calculation unit 258 and a part-of-speech n- in addition to the first part-of-speech information acquisition unit 251, the appearance part-of-speech sequence storage unit 253, the second part-of-speech information acquisition unit 255, and the determination unit 257. A gram probability storage unit 259 is further included. The processes in the first part-of-speech information acquisition unit 251, the appearance part-of-speech string set storage unit 253, and the second part-of-speech information acquisition unit 255 are the same as those in the first determination method.

品詞n−gram確率計算部258は、出現品詞列集合記憶部253内の出現品詞列集合を取り出し、出現品詞列集合内に含まれる品詞n−gramパタンについての品詞n−gram確率を計算し(s258)、品詞n−gram確率記憶部259に格納する(s259、ただし図10では品詞n−gram確率として品詞trigram確率を用いた場合を例示している)。例えば、出現品詞列集合内における品詞列Wの出現頻度をC(W)と表すとすると、品詞bigram確率、品詞trigram確率はそれぞれ以下のように計算される。ただし、次式において、A,B,Cはそれぞれ品詞を表し、「−」は品詞の繋がりを表し、例えば、B−Aは品詞Bの後に品詞Aが出現することを表す。
品詞bigram確率:P(A|B)=C(B-A)/C(B)
品詞trigram確率:P(A|B-C)=C(B-C-A)/C(B-C)
The part-of-speech n-gram probability calculation unit 258 extracts the appearance part-of-speech sequence set in the appearance part-of-speech sequence storage unit 253 and calculates the part-of-speech n-gram probability for the part-of-speech n-gram pattern included in the appearance part-of-speech sequence set ( s258) and stored in the part-of-speech n-gram probability storage unit 259 (s259, where FIG. 10 illustrates the case where the part-of-speech trigram probability is used as the part-of-speech n-gram probability). For example, if the appearance frequency of the part-of-speech string W in the appearance part-of-speech string set is expressed as C (W), the part-of-speech bigram probability and the part-of-speech trigram probability are calculated as follows. In the following expression, A, B, and C each represent a part of speech, “−” represents a connection of parts of speech, for example, B-A represents that part of speech A appears after part of speech B.
Part of speech bigram probability: P (A | B) = C (BA) / C (B)
Part of speech trigram probability: P (A | BC) = C (BCA) / C (BC)

判定部257は、疑似テキストtex’t,uの品詞の語順を受け取り、疑似テキストtex’t,uの品詞の語順から得られる品詞n−gramパタンに対応する品詞n−gram確率を品詞n−gram確率記憶部259から取り出す(s257a)。例えば、疑似テキストtex’t,uの品詞の語順として、(連体詞)(名詞:代名詞)(連用助詞)(名詞)(格助詞:連用)(名詞)(格助詞:連用)(名詞:日時:連用)(動詞)を受け取った場合、以下の七つの品詞trigramパタンに対応する品詞trigram確率を品詞n−gram確率記憶部259から取り出す。
1.(連体詞)−(名詞:代名詞)−(連用助詞)
2.(名詞:代名詞)−(連用助詞)−(名詞)
3.(連用助詞)−(名詞)−(格助詞:連用)
4.(名詞)−(格助詞:連用)−(名詞)
5.(格助詞:連用)−(名詞)−(格助詞:連用)
6.(名詞)−(格助詞:連用)−(名詞:日時:連用)
7.(格助詞:連用)−(名詞:日時:連用)−(動詞)
取り出した品詞n−gram確率と事前に定めた閾値と比較し(s257b)、閾値以上の場合、その品詞の語順は確からしいと判断し、その品詞の語順に対応する疑似テキストtex’t,uを選択し(s258)、選択疑似テキストtex’t,yとして言語モデル生成部140に出力する。閾値未満の場合には、その疑似テキストtex’t,uは本来正しくない文型であると判断し、選択しない。
Determination unit 257, pseudo-text tex 't, receives the part of speech of the word order of u, pseudo text tex' t, the part-of-speech n-gram probability corresponding to the part-of-speech n-gram patterns obtained from the part of speech of the word order of u-speech n- Extracted from the gram probability storage unit 259 (s257a). For example, as the word order of the part of speech of the pseudo-text tex't , u , (conjunctive) (noun: pronoun) (conjunctive particle) (noun) (case particle: joint use) (noun) (case particle: joint use) (noun: date: When the (continuous) (verb) is received, the part-of-speech trigram probabilities corresponding to the following seven part-of-speech trigram patterns are extracted from the part-of-speech n-gram probability storage unit 259.
1. (Conjunctive)-(noun: pronoun)-(continuous particle)
2. (Noun: pronoun)-(continuous particle)-(noun)
3. (Consecutive particle)-(noun)-(case particle: consecutive)
4). (Noun)-(case particle: continuous use)-(noun)
5. (Case particle: continuous use)-(noun)-(case particle: continuous use)
6). (Noun)-(case particle: continuous use)-(noun: date: continuous use)
7). (Case particle: continuous)-(noun: date: continuous)-(verb)
The extracted part-of-speech n-gram probability is compared with a predetermined threshold value (s257b), and if it is equal to or greater than the threshold value, the word order of the part-of-speech is determined to be probable, and the pseudo-text tex ′ t, u corresponding to the word order of the part-of-speech Is selected (s258), and is output to the language model generation unit 140 as selection pseudo text tex't , y . If it is less than the threshold, it is determined that the pseudo text tex ′ t, u is an originally incorrect sentence type and is not selected.

閾値と比較する方法としては以下のような方法が考えられる。   The following method can be considered as a method of comparing with the threshold.

(i)取り出した品詞n−gram確率の平均値を求め、平均値と閾値とを比較する。平均値が閾値以上の場合、その品詞の語順は確からしいと判断する。     (I) The average value of the extracted part-of-speech n-gram probabilities is obtained, and the average value is compared with a threshold value. If the average value is greater than or equal to the threshold, it is determined that the word order of the part of speech is likely.

(ii)取り出した品詞n−gram確率のそれぞれと閾値とを比較し、Mt,u個の品詞n−gram確率が閾値以上の場合、その品詞の語順は確からしいと判断する。ただし、疑似テキストtex’t,uに含まれる品詞n−gramパタンの個数をNt,u個とすると、Mt,u≦[VNt,u]であり、0<V≦1とし、[・]は・以下の最大の整数を表す。なお、Vは認識精度がよくなるように実験的に定める。 (Ii) Each of the extracted part-of-speech n-gram probabilities is compared with a threshold, and if the M t, u part-of-speech n-gram probabilities are equal to or greater than the threshold, it is determined that the word order of the part of speech is likely. However, if the number of part-of-speech n-gram patterns included in the pseudo text tex ′ t, u is N t, u , then M t, u ≦ [VN t, u ], and 0 <V ≦ 1,・] Represents the following maximum integer. V is determined experimentally so that the recognition accuracy is improved.

<言語モデル生成部140>
言語モデル生成部140は、入力として、疑似テキスト生成部130で生成された(U+U+…+U)個の疑似テキストtex’t,u全てではなく、その中から疑似テキスト選択部250で選択された(Y+Y+…+Y)個の選択疑似テキストtex’t,yのみを用いて、言語モデルを生成する(s140)。言語モデルを生成方法は第一実施形態と同様である。
<Language model generation unit 140>
The language model generation unit 140 receives, as an input, not all (U 1 + U 2 +... + U T ) pseudo texts tex ′ t, u generated by the pseudo text generation unit 130, but the pseudo text selection unit 250 among them. A language model is generated using only the (Y 1 + Y 2 +... + Y T ) selection pseudo-texts tex ′ t, y selected in (S140). The method for generating the language model is the same as in the first embodiment.

<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、本来正しくない文型の疑似テキストtex’t,uを用いて言語モデルを生成することを防ぎ、言語モデルの性能劣化を防止することができる。
<Effect>
With such a configuration, the same effect as that of the first embodiment can be obtained. Furthermore, it is possible to prevent a language model from being generated using pseudo-text tex ′ t, u having an originally incorrect sentence type, and to prevent performance degradation of the language model.

<第三実施形態>
第二実施形態と異なる部分についてのみ説明する。
<Third embodiment>
Only parts different from the second embodiment will be described.

第三実施形態では、言語モデル生成部140において、オリジナルテキストtexと疑似テキストtext,uの重みW(式(1)や式(2)参照)を疑似テキストtext,u毎に変える。生成される疑似テキストtext,uにおいて、「確からしさ」の観点から、T個のオリジナルテキストtexと同等の頻度を与えてよさそうな語順や、間違いではないがあまり使われない語順であるといったことも考えられる。そこで第三実施形態では、重みWを疑似テキストtext,u毎に算出する処理を加える。 In the third embodiment, the language model generation unit 140 changes the weight W (see formula (1) and formula (2)) between the original text tex t and the pseudo text tex t, u for each pseudo text tex t, u . In the generated pseudo-text tex t, u , from the viewpoint of “probability”, it is a word order that is likely to give the same frequency as the T original text tex t , or a word order that is not mistaken but is not often used. It can also be considered. Therefore, in the third embodiment, a process of calculating the weight W for each pseudo text tex t, u is added.

図11は言語モデル生成装置300の機能ブロック図を、図12はその処理フローを示す。   FIG. 11 is a functional block diagram of the language model generation apparatus 300, and FIG. 12 shows its processing flow.

言語モデル生成装置300は、形態素解析部210、構文解析部120、疑似テキスト生成部130、言語モデル生成部140、疑似テキスト選択部250を含み、さらに疑似テキスト重み算出部370を含む。   The language model generation apparatus 300 includes a morphological analysis unit 210, a syntax analysis unit 120, a pseudo text generation unit 130, a language model generation unit 140, a pseudo text selection unit 250, and further includes a pseudo text weight calculation unit 370.

<疑似テキスト重み算出部370>
・入力:(品詞情報が付加されている)選択疑似テキストtex’t,y、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’
・出力:選択疑似テキストtex’t,y毎の重みWt,y
・処理内容:T個のオリジナルテキストtexの品詞の語順と同じ品詞の語順を多く持つ選択疑似テキストtex’t,yほど、大きな重みWt,yを算出し(s370)、選択疑似テキストtex’t,yとともに言語モデル生成部140に出力する。重みWt,yの算出方法としては、例えば以下の方法がある。
<Pseudo Text Weight Calculation Unit 370>
Input: selection pseudo-text tex ′ t, y (with part-of-speech information added), morpheme analysis result (original text divided into morpheme units and with part-of-speech information added) mor ′ t
Output: Weight of selected pseudo text tex ' t, y W t, y
Processing content: The selected pseudo-text tex ′ t, y having the same part-of-speech word order as the part-of-speech word order of the T original texts tex t is calculated with a larger weight W t, y (s370). 'Output to the language model generation unit 140 together with t and y . As a calculation method of the weight W t, y , for example, there are the following methods.

第二実施形態で用いた出現品詞列集合及び品詞n−gram確率を用いて、重みWt,yを算出する。ただし、品詞n−gram確率は、0から1の値をとる。なお、品詞n−gram確率が大きければ「語順的に確からしい」ことを意味し、品詞n−gram確率が小さければ「語順的に誤りらしい」ことを意味する。 The weights W t, y are calculated using the appearance part-of-speech string set and the part-of-speech n-gram probability used in the second embodiment. However, the part-of-speech n-gram probability takes a value from 0 to 1. If the part-of-speech n-gram probability is large, it means “probably in word order”, and if the part-of-speech n-gram probability is small, it means “probably in word order”.

疑似テキスト重み算出部370は、品詞情報が付加されている選択疑似テキストtex’t,yから、品詞の語順を取り出す。以下に、重みWt,yを決定する方法を三つ説明する。 The pseudo text weight calculation unit 370 extracts the word order of the part of speech from the selected pseudo text tex ′ t, y to which the part of speech information is added. Hereinafter, three methods for determining the weight W t, y will be described.

(1)第一決定方法
疑似テキスト重み算出部370は、出現品詞列集合記憶部253内の出現品詞列集合に含まれる何れかの品詞の語順と疑似テキストtex’t,uの品詞の語順とが所定の割合(例えば、95%)以上一致するか否かを判定し、一致する場合には、その疑似テキストtex’t,uの品詞の語順は確からしいと判断し、重みWt,yの値を大きな値Aとする。一致しない場合には、その疑似テキストtex’t,yは本来正しくない文型であると判断し、重みWt,yの値を小さな値Aとする。
(1) First Determination Method The pseudo text weight calculation unit 370 determines the word order of any part of speech included in the appearance part-of-speech sequence set in the appearance part-of-speech sequence set storage unit 253, the word order of the part-of-speech of the pseudo text tex ′ t, u , Is determined to be equal to or greater than a predetermined ratio (for example, 95%), and if they match, it is determined that the word order of the part of speech of the pseudo-text tex ′ t, u is probable, and the weight W t, y the value a large value a 1. If they do not match, the pseudo-text tex 't, determines that y is inherently incorrect sentence patterns, weights W t, the value of y smaller value A 2.

以下の第二決定方法及び第三決定方法の場合、疑似テキスト重み算出部370は、さらに、疑似テキストtex’t,yの品詞の語順から得られる品詞n−gramパタンに対応する品詞n−gram確率を疑似テキスト選択部250内の品詞n−gram確率記憶部259から取り出す。 In the case of the following second determination method and third determination method, the pseudo text weight calculation unit 370 further includes a part of speech n-gram corresponding to the part of speech n-gram pattern obtained from the word order of the part of speech of the pseudo text tex ′ t, y. The probability is extracted from the part-of-speech n-gram probability storage unit 259 in the pseudo text selection unit 250.

(2)第二決定方法
取り出した品詞n−gram確率と事前に定めた閾値Xとを比較し、閾値X以上の場合、その品詞の語順は確からしいと判断し、重みWt,yの値を大きな値Aとする。閾値X未満の場合には、その疑似テキストtex’t,yは本来正しくない文型であると判断し、重みWt,yの値を小さな値Aとする。ただし、A>Aである。X、A、Aは事前に開発セットの認識精度が最大になるように定めておく。例えば、X、A、Aは、様々な値の組合せを用意して、言語モデルとしての認識精度がよくなるように実験的に定める。なお、Xは、0に近づけると全ての品詞の語順が許容されることになるため、品詞の語順による重み付けの意味がなくなる。また、この例では、閾値X以上、または、閾値X未満の二つのパタンに分類したが、N個の閾値Xを設け(ただし、Nは2以上の整数であり、n=1,2,…,Nであり、X<X<…<X)、(N+1)個のパタンに分類しても問題ない。閾値の個数が増えることで、重みWt,yの表現能力が向上し、言語モデルの性能が向上すると考えられる。一方で事前に決めるパラメータ数(閾値X,X,…,Xや、(N+1)個のパタンに対応する(N+1)個の値A、A,…,AN+1)が増えるため計算コストが増大する。
(2) Second determination method The extracted part-of-speech n-gram probability is compared with a predetermined threshold value X, and if it is greater than or equal to the threshold value X, it is determined that the word order of the part-of-speech is likely, and the value of the weight W t, y a to a large value a 1. If it is less than the threshold X is, the pseudo-text tex 't, determines that y is inherently incorrect sentence patterns, weights W t, the value of y smaller value A 2. However, it is A 1> A 2. X, A 1 and A 2 are determined in advance so that the recognition accuracy of the development set is maximized. For example, X, A 1 , and A 2 are prepared experimentally so that various combinations of values are prepared and the recognition accuracy as a language model is improved. Note that, when X approaches 0, the word order of all parts of speech is allowed, so the meaning of weighting according to the word order of parts of speech is lost. In this example, the pattern is classified into two patterns equal to or greater than the threshold value X or less than the threshold value X. However, N threshold values Xn are provided (where N is an integer equal to or greater than 2, and n = 1, 2, .., N, and X 1 <X 2 <... <X N ), (N + 1) patterns can be classified. By increasing the number of threshold values , it is considered that the ability to express the weights W t, y is improved and the performance of the language model is improved. On the other hand, the number of parameters determined in advance (threshold values X 1 , X 2 ,..., XN and (N + 1) values A 1 , A 2 ,..., A N + 1 corresponding to (N + 1) patterns increases). Calculation cost increases.

なお、閾値と比較する方法としては、疑似テキスト選択部250と同様の方法を用いることができる。つまり、以下のように比較する。   As a method for comparing with the threshold value, a method similar to that for the pseudo text selecting unit 250 can be used. That is, the comparison is made as follows.

(i)取り出した品詞n−gram確率の平均値を求め、平均値と閾値Xとを比較する。平均値が閾値X以上の場合、その品詞の語順は確からしいと判断する。     (I) The average value of the extracted part-of-speech n-gram probabilities is obtained, and the average value is compared with the threshold value X. When the average value is equal to or greater than the threshold value X, it is determined that the word order of the part of speech is likely.

(ii)取り出した品詞n−gram確率のそれぞれと閾値Xとを比較し、M個の品詞n−gram確率が閾値X以上の場合、その品詞の語順は確からしいと判断する。     (Ii) Each of the extracted part-of-speech n-gram probabilities is compared with a threshold X, and if the M part-of-speech n-gram probabilities are equal to or greater than the threshold X, it is determined that the word order of the part of speech is likely.

(3)第三決定方法
そもそも品詞n−gram確率が大きければ、「語順的に確からしい」ことを意味し、品詞n−gram確率が小さければ「語順的に誤りらしい」ことを意味するので、取り出した品詞n−gram確率の平均値を求め、その平均値(または平均値に所定の値を乗じた値)を重みとして利用する。
(3) Third determination method In the first place, if the part-of-speech n-gram probability is large, it means “probably in word order”, and if the part-of-speech n-gram probability is small, it means “probably in word order”. An average value of the extracted part-of-speech n-gram probabilities is obtained, and the average value (or a value obtained by multiplying the average value by a predetermined value) is used as a weight.

<言語モデル生成部140>
言語モデル生成部140は、オリジナルテキストtex、選択疑似テキストtex’t,y及び重みWt,yを受け取り、式(1)または(2)等により、n−gram確率を計算し、言語モデルを生成する(s140)。言語モデルを生成方法は第二実施形態と同様である。ただし、式(1)または(2)等において、選択疑似テキストtex’t,y毎に、重みWに代えて、重みWt,yを用いて計算する。
<Language model generation unit 140>
The language model generation unit 140 receives the original text tex t , the selected pseudo-text tex ′ t, y and the weight W t, y , calculates the n-gram probability according to the equation (1) or (2), and the language model Is generated (s140). The method for generating the language model is the same as in the second embodiment. However, in the formula (1) or (2) or the like, for each selected pseudo-text tex ′ t, y , the weight W t, y is used instead of the weight W.

<効果>
このような構成により、第二実施形態と同様の効果を得ることができる。さらに、より確からしい語順を持つ選択疑似テキストtex’t,yに対して、大きな重みWt,yを与え、言語モデルの精度を向上させることができる。
<Effect>
With such a configuration, the same effect as that of the second embodiment can be obtained. Furthermore, it is possible to improve the accuracy of the language model by giving a large weight W t, y to the selected pseudo-text tex ′ t, y having a more certain word order.

<変形例>
第二実施形態の言語モデル生成装置200に疑似テキスト重み算出部370を加えた構成となっているが、第一実施形態の言語モデル生成装置100に加えてもよい。この場合、疑似テキスト重み算出部370や言語モデル生成部140では、選択疑似テキストtex’t,yに代えて、品詞情報が付加されている疑似テキストtex’t,uを用いる。よって、第一実施形態の形態素解析部110に代えて、第二実施形態の形態素解析部210を用い、オリジナルテキストtexを形態素単位に分割し、分割した各形態素に品詞を付与して、形態素解析結果mor’を出力する。また、この場合、疑似テキスト重み算出部370において、品詞n−gram確率を求め、図示しない記憶部に格納する。
<Modification>
Although the pseudo text weight calculation unit 370 is added to the language model generation device 200 of the second embodiment, it may be added to the language model generation device 100 of the first embodiment. In this case, the pseudo text weight calculation unit 370 and the language model generation unit 140 use the pseudo text tex ′ t, u with part-of-speech information added instead of the selected pseudo text tex ′ t, y . Therefore, instead of the morphological analysis unit 110 of the first embodiment, using the morphological analysis unit 210 of the second embodiment divides the original text tex t into morphemes by assigning parts of speech to each morpheme divided morpheme and it outputs the analysis result mor 't. In this case, the pseudo-text weight calculation unit 370 obtains a part-of-speech n-gram probability and stores it in a storage unit (not shown).

<その他の変形例>
また、本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
Further, the present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
上述した言語モデル生成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The language model generation apparatus described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a process procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.

100,200,300 言語モデル生成装置
110,210 形態素解析部
120 構文解析部
130 疑似テキスト生成部
140 言語モデル生成部
250 疑似テキスト選択部
251 第一品詞情報取得部
253 出現品詞列集合記憶部
255 第二品詞情報取得部
257 判定部
258 確率計算部
259 確率記憶部
370 疑似テキスト重み算出部
100, 200, 300 Language model generation device 110, 210 Morphological analysis unit 120 Syntax analysis unit 130 Pseudo text generation unit 140 Language model generation unit 250 Pseudo text selection unit 251 First part of speech information acquisition unit 253 Appearance part of speech sequence set storage unit 255 Two-part-of-speech information acquisition unit 257 determination unit 258 probability calculation unit 259 probability storage unit 370 pseudo text weight calculation unit

Claims (6)

形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成部と、
前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成部とを含み、
前記オリジナルテキストには、さらに各形態素に対して品詞情報が付加されているものとし、
前記オリジナルテキストの品詞の語順と前記疑似テキストの品詞の語順とを比較して、確からしい品詞の語順を持つ疑似テキストを選択する疑似テキスト選択部をさらに含み、
前記言語モデル生成部は、前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキスト選択部において選択された前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する、
言語モデル生成装置。
A pseudo-text generation unit that generates pseudo-text by rearranging a plurality of clauses having the same dependency destination using original text that is divided into morpheme units and added with dependency relationships of clauses;
Seek n-gram probabilities using the occurrence frequency of n-gram patterns in frequency and the pseudo text n-gram patterns in the original text, viewed contains a language model generator for generating a language model,
Part of speech information is added to each original morpheme in the original text.
A pseudo text selection unit that compares the word order of the part of speech of the original text with the word order of the part of speech of the pseudo text, and selects a pseudo text having a probable part of speech part;
The language model generation unit obtains an n-gram probability using the appearance frequency of the n-gram pattern in the original text and the appearance frequency of the n-gram pattern selected in the pseudo-text selection unit. Generate a model,
Language model generator.
請求項記載の言語モデル生成装置であって、
前記疑似テキスト選択部は、
前記オリジナルテキストに付加されている品詞情報を取り出す第一品詞情報取得部と、
前記オリジナルテキストの品詞の語順の集合である出現品詞列集合を記憶する出現品詞列集合記憶部と、
前記疑似テキストに付加された品詞情報から、前記疑似テキストの品詞の語順を取り出す第二品詞情報取得部と、
前記疑似テキストの品詞の語順と前記出現品詞列集合に含まれる何れかの品詞の語順とが所定の割合以上一致する場合に、その疑似テキストを選択する判定部と、を含む、
言語モデル生成装置。
The language model generation device according to claim 1 ,
The pseudo-text selection unit
A first part-of-speech information acquisition unit that extracts part-of-speech information added to the original text;
An appearance part-of-speech sequence storage unit that stores an appearance part-of-speech sequence set that is a set in the word order of the part of speech of the original text;
A second part-of-speech information acquisition unit that extracts a word order of the part-of-speech of the pseudo-text from the part-of-speech information added to the pseudo-text;
A determination unit that selects the pseudo-text when the word order of the part-of-speech of the pseudo-text and the word order of any part-of-speech included in the appearance part-of-speech sequence set match a predetermined ratio or more,
Language model generator.
請求項記載の言語モデル生成装置であって、
前記疑似テキスト選択部は、
前記オリジナルテキストに付加されている品詞情報を取り出す第一品詞情報取得部と、
前記オリジナルテキストの品詞の語順の集合である出現品詞列集合を記憶する出現品詞列集合記憶部と、
前記疑似テキストに付加された品詞情報から、前記疑似テキストの品詞の語順を取り出す第二品詞情報取得部と、
前記出現品詞列集合に含まれる品詞n−gramパタンについての品詞n−gram確率を計算する品詞n−gram確率計算部と、
前記品詞n−gram確率を記憶する品詞n−gram確率記憶部と、
前記疑似テキストの品詞の語順から得られる品詞n−gramパタンに対応する品詞n−gram確率を前記品詞n−gram確率記憶部から取り出し、取り出した品詞n−gram確率と事前に定めた閾値とを比較し、閾値以上の場合、その品詞の語順に対応する疑似テキストを選択する判定部と、を含む、
言語モデル生成装置。
The language model generation device according to claim 1 ,
The pseudo-text selection unit
A first part-of-speech information acquisition unit that extracts part-of-speech information added to the original text;
An appearance part-of-speech sequence storage unit that stores an appearance part-of-speech sequence set that is a set in the word order of the part of speech of the original text;
A second part-of-speech information acquisition unit that extracts a word order of the part-of-speech of the pseudo-text from the part-of-speech information added to the pseudo-text;
A part-of-speech n-gram probability calculator for calculating a part-of-speech n-gram probability for a part-of-speech n-gram pattern included in the appearance part-of-speech sequence set;
A part-of-speech n-gram probability storage unit for storing the part-of-speech n-gram probability;
The part-of-speech n-gram probability corresponding to the part-of-speech n-gram pattern obtained from the word order of the part-of-speech part of the pseudo-text is extracted from the part-of-speech n-gram probability storage unit, and the extracted part-of-speech n-gram probability and a predetermined threshold value are obtained. A determination unit that selects pseudo-text corresponding to the word order of the part of speech if the comparison is greater than or equal to the threshold,
Language model generator.
請求項1から請求項の何れかに記載の言語モデル生成装置であって、
前記オリジナルテキストには、さらに各形態素に対して品詞情報が付加されているものとし、
前記オリジナルテキストの品詞の語順と同じ品詞の語順を多く持つ疑似テキストほど、大きな重みを算出する言語モデル重み算出部をさらに含み、
前記言語モデル生成部は、前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度に対して前記重みにより重み付けを行い、n−gram確率を求め、言語モデルを生成する、
言語モデル生成装置。
The language model generation device according to any one of claims 1 to 3 ,
Part of speech information is added to each original morpheme in the original text.
A language model weight calculation unit that calculates a greater weight for pseudo text having more part-of-speech word order than part-of-speech word order of the original text,
The language model generation unit weights the appearance frequency of the n-gram pattern in the original text and the appearance frequency of the n-gram pattern in the pseudo text with the weight, obtains an n-gram probability, Generate,
Language model generator.
形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成ステップと、
前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成ステップとを含み、
前記オリジナルテキストには、さらに各形態素に対して品詞情報が付加されているものとし、
前記オリジナルテキストの品詞の語順と前記疑似テキストの品詞の語順とを比較して、確からしい品詞の語順を持つ疑似テキストを選択する疑似テキスト選択ステップをさらに含み、
前記言語モデル生成ステップにおいて、前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキスト選択ステップにおいて選択された前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する、
言語モデル生成方法。
A pseudo-text generation step of rearranging a plurality of clauses having the same dependency destination to generate pseudo-text by using original text that is divided into morpheme units and to which a dependency relationship of clauses is added;
Using said frequency of n-gram patterns sought n-gram probability in occurrence frequency and the pseudo text n-gram patterns in the original text, viewed contains a language model generating step of generating a language model,
Part of speech information is added to each original morpheme in the original text.
A pseudo-text selecting step of comparing the word order of the part of speech of the original text with the word order of the part of speech of the pseudo-text to select a pseudo-text having a probable part-of-speech word order;
In the language model generation step, an n-gram probability is obtained using the appearance frequency of the n-gram pattern in the original text and the appearance frequency of the n-gram pattern in the pseudo text selected in the pseudo text selection step. Generate a model,
Language model generation method.
請求項1から請求項の何れかに記載の言語モデル生成装置としてコンピュータを機能させるためのプログラム。 The program for functioning a computer as a language model production | generation apparatus in any one of Claims 1-4 .
JP2012137187A 2012-06-18 2012-06-18 Language model generation apparatus, method and program Expired - Fee Related JP5766152B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012137187A JP5766152B2 (en) 2012-06-18 2012-06-18 Language model generation apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012137187A JP5766152B2 (en) 2012-06-18 2012-06-18 Language model generation apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2014002257A JP2014002257A (en) 2014-01-09
JP5766152B2 true JP5766152B2 (en) 2015-08-19

Family

ID=50035480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012137187A Expired - Fee Related JP5766152B2 (en) 2012-06-18 2012-06-18 Language model generation apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5766152B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180849A (en) * 2015-03-24 2016-10-13 日本電信電話株式会社 Learning data generation unit, language model learning unit, learning data generation method and program
EP3867901B1 (en) * 2018-11-30 2023-10-04 Google LLC Speech processing
CN109800421A (en) * 2018-12-19 2019-05-24 武汉西山艺创文化有限公司 A kind of game scenario generation method and its device, equipment, storage medium
CN112466292B (en) 2020-10-27 2023-08-04 北京百度网讯科技有限公司 Language model training method and device and electronic equipment
WO2023073886A1 (en) * 2021-10-28 2023-05-04 日本電気株式会社 Information processing system, information processing device, information processing method, and recording medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785042A (en) * 1993-09-16 1995-03-31 Canon Inc Sentence processor
JP2002091967A (en) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> Language model preparing device and recording medium with language model preparation program recorded thereon
JP2002279354A (en) * 2001-03-16 2002-09-27 Ricoh Co Ltd Character recognition device and method, and recording medium
JP2004271615A (en) * 2003-03-05 2004-09-30 Canon Inc Information processor
JP2009151630A (en) * 2007-12-21 2009-07-09 National Institute Of Information & Communication Technology Device and method for processing information, and program
JP5807891B2 (en) * 2010-10-04 2015-11-10 国立研究開発法人情報通信研究機構 Language model learning apparatus and computer program

Also Published As

Publication number Publication date
JP2014002257A (en) 2014-01-09

Similar Documents

Publication Publication Date Title
CN109657054B (en) Abstract generation method, device, server and storage medium
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN104854654B (en) For the method and system using the speech recognition of search inquiry information to process
CN105512291B (en) Method and system for expanding database search queries
US7617093B2 (en) Authoring speech grammars
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
EP2157570B1 (en) Automatic conversation system and conversation scenario editing device
US11675975B2 (en) Word classification based on phonetic features
EP1580667A2 (en) Representation of a deleted interpolation N-gram language model in ARPA standard format
JP4968036B2 (en) Prosodic word grouping method and apparatus
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP5766152B2 (en) Language model generation apparatus, method and program
KR20140119763A (en) User Data Input Prediction
JP2017059205A (en) Subject estimation system, subject estimation method, and program
CN111737464B (en) Text classification method and device and electronic equipment
KR102088357B1 (en) Device and Method for Machine Reading Comprehension Question and Answer
CN114154487A (en) Text automatic error correction method and device, electronic equipment and storage medium
JP2004070959A (en) Adaptive context sensitive analysis
JP2018084627A (en) Language model learning device and program thereof
JP6605997B2 (en) Learning device, learning method and program
CN111428487A (en) Model training method, lyric generation method, device, electronic equipment and medium
JP2013134753A (en) Wrong sentence correction device, wrong sentence correction method and program
CN114398875A (en) Training method of error correction model, search word error correction method, device and medium
JP6486789B2 (en) Speech recognition apparatus, speech recognition method, and program
JP2004046775A (en) Device, method and program for extracting intrinsic expression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150616

R150 Certificate of patent or registration of utility model

Ref document number: 5766152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees