JP2013097534A - Morpheme analysis device, method and program therefor, voice synthesis device, and method and program therefor - Google Patents
Morpheme analysis device, method and program therefor, voice synthesis device, and method and program therefor Download PDFInfo
- Publication number
- JP2013097534A JP2013097534A JP2011239075A JP2011239075A JP2013097534A JP 2013097534 A JP2013097534 A JP 2013097534A JP 2011239075 A JP2011239075 A JP 2011239075A JP 2011239075 A JP2011239075 A JP 2011239075A JP 2013097534 A JP2013097534 A JP 2013097534A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- text
- registered
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
開示の技術は形態素解析装置、形態素解析方法、形態素解析プログラム、音声合成装置、音声合成方法、及び、音声合成プログラムに関する。 The disclosed technology relates to a morpheme analyzer, a morpheme analysis method, a morpheme analysis program, a speech synthesizer, a speech synthesis method, and a speech synthesis program.
形態素解析は、自然言語処理の基礎技術の1つであり、自然言語で記述されたテキストを、形態素(意味を有する最小の言語形態)毎に分割し、テキストの読み等を解析するものである。形態素解析を利用した技術として以下の技術が知られている(特許文献1〜4)。
Morphological analysis is one of the basic technologies of natural language processing, and it divides text described in natural language into morphemes (the smallest language forms that have meaning) and analyzes the reading of texts. . The following techniques are known as techniques using morphological analysis (
例えば、テキストから有用な情報をキーワードとして抽出するテキストマイニングにおいて、形態素解析を利用し、キーワードとして複合名詞を抽出する技術が知られている。この技術は、まず、文書データを形態素解析した後、形態素の品詞情報で品詞結合規則を参照し、連続する形態素が結合規則に適合する場合に、その連続する形態素を複合名詞候補として、複合名詞候補データを得る。次に、複合名詞候補を構成する先頭の形態素、末尾の形態素それぞれについて、文字列頻度データを参照して先頭の形態素の前方スコア、末尾の形態素の後方スコアを取得する。そして、両スコアがともにスコア設定値より大きい場合に、先頭の形態素から末尾の形態素までの文字列を複合名詞として抽出する。 For example, in text mining that extracts useful information from a text as a keyword, a technique for extracting a compound noun as a keyword using morphological analysis is known. This technology first analyzes morpheme of document data, then refers to the part-of-speech combination rule with the part-of-speech information of the morpheme. Get candidate data. Next, for each of the first morpheme and the last morpheme constituting the compound noun candidate, the front score of the first morpheme and the rear score of the last morpheme are obtained by referring to the character string frequency data. When both scores are larger than the score setting value, the character string from the first morpheme to the last morpheme is extracted as a compound noun.
また、例えば、テキスト検索に用いるキーワードの抽出と絞込みを形態素解析を利用して行う技術も知られている。この技術は、テキストに形態素解析を実施して単純名詞集合を生成し、複合名詞集合やカタカナ名詞集合、名詞要素に挟まれた連体化助詞「の」が存在する場合に、それらの名詞要素を連体化助詞「の」を介して結合した連体名詞集合を生成する。 In addition, for example, a technique for performing extraction and narrowing of keywords used for text search using morphological analysis is also known. This technology performs simple morphological analysis on text to generate a simple noun set, and when there is a compound noun element that is sandwiched between compound noun sets, katakana noun sets, and noun elements, A combined noun set connected through the integrated particle “no” is generated.
また、例えば、テキスト検索に用いるキーワードの抽出を形態素解析を利用して行う他の技術も知られている。この技術は、キーワードの抽出漏れを回避するために、入力されたテキストを形態素解析して形態素出現確率を計算し、形態素出現確率に対応する形態素の重要度に基づき、各単語の頻度情報を算出し、頻度情報付き単語集合を生成する。 In addition, for example, other techniques for extracting keywords used for text search using morphological analysis are also known. In order to avoid omission of keyword extraction, this technology calculates the morpheme appearance probability by analyzing the input text, and calculates the frequency information of each word based on the importance of the morpheme corresponding to the morpheme appearance probability. Then, a word set with frequency information is generated.
また、例えばテキスト検索に用いるキーワードの抽出を形態素解析を利用して行う更に他の技術も知られている。この技術は、文字列を複数の形態素に分解し、各形態素の品詞を判定し、各形態素から連続する第1の数かつ所定品詞の形態素で構成される形態素群を各々抽出し、抽出した各形態素群を構成する各形態素と当該各形態素の各品詞との組み合わせを各々算出する。そして、算出した組み合わせのうち、複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上の場合に、共通する組み合わせを、任意の文字列に含まれる複数の形態素を複合するための形態素複合ルールとして抽出する。 Further, for example, another technique is known in which a keyword used for text search is extracted using morphological analysis. This technique decomposes a character string into a plurality of morphemes, determines the part of speech of each morpheme, extracts each morpheme group composed of morphemes of a first number and a predetermined part of speech from each morpheme, A combination of each morpheme constituting the morpheme group and each part of speech of each morpheme is calculated. Then, among the calculated combinations, when the appearance frequency of a combination common among a plurality of morpheme groups is equal to or higher than a predetermined threshold, the common combination is combined with a plurality of morphemes included in an arbitrary character string. Extract as a compound rule.
形態素解析は、単語が読み等と対応付けて登録された単語辞書を用い、解析対象のテキストを単語辞書と照合し、単語辞書に登録された単語を単位として分解した上で、解析対象のテキスト上で隣接する単語の組の接続可能性を評価する処理を含んでいる。このため、形態素解析の解析精度は単語辞書にどのような単語が登録されているかに依存する。 Morphological analysis uses a word dictionary in which words are registered in association with reading, etc., compares the text to be analyzed with the word dictionary, decomposes the word registered in the word dictionary as a unit, and then analyzes the text to be analyzed. The above includes processing for evaluating the connectivity of adjacent word pairs. For this reason, the analysis accuracy of morphological analysis depends on what words are registered in the word dictionary.
ここで、複数の名詞類の単語を組み合わせた複合名詞が解析対象のテキスト上に存在していた場合、当該複合名詞は、形態素解析では、単語辞書に登録された複数の単語の組み合わせとして解析される。一方、日本語等の自然言語には、テキスト上での表記が同一で読み(及び意味)が異なる単語が存在しており、このような単語は、異なる読みと対応付けされて単語辞書に重複登録される。このため、解析対象のテキスト上に存在している複合名詞が、テキスト上での表記が同一で読みが異なる単語を含む場合、形態素解析で複合名詞の読みを正しく解析できないことがある、という課題がある。 Here, when a compound noun combining words of a plurality of nouns is present on the text to be analyzed, the compound noun is analyzed as a combination of a plurality of words registered in the word dictionary in the morphological analysis. The On the other hand, in natural languages such as Japanese, there are words that have the same notation in the text but different readings (and meanings), and such words are associated with different readings and duplicated in the word dictionary. be registered. For this reason, if a compound noun that exists in the text to be analyzed contains words that have the same notation in the text but different readings, the reading of the compound noun may not be correctly analyzed by morphological analysis There is.
これに対し、形態素解析を利用した前述の技術は、品詞や出現頻度等に基づいて複合名詞を含むキーワードをテキストから抽出する技術であり、形態素解析における複合名詞の読みの解析精度の向上に寄与するものではない。 On the other hand, the above-mentioned technology using morphological analysis is a technology that extracts keywords including compound nouns from text based on the part of speech and the appearance frequency, etc., and contributes to improving the analysis accuracy of compound noun reading in morphological analysis. Not what you want.
開示の技術は、解析対象のテキスト上で隣接し、単語辞書に分けて登録された名詞類の単語の組の読みの解析精度を向上させることが目的である。 An object of the disclosed technique is to improve the analysis accuracy of reading a set of words of nouns that are adjacent to each other in a text to be analyzed and registered in a word dictionary.
開示の技術は、複数の単語が少なくとも個々の単語の品詞と対応付けて各々登録された単語辞書を第1記憶部に記憶する。また、単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として第2記憶部に記憶する。また、単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求める。また、単語辞書に各々登録されかつ解析対象のテキスト上で隣接している単語の組のうち、連接可能な単語の組として第2記憶部に記憶されていない名詞類の単語の組について、接続評価値が最大となる単語の組み合わせに含まれないように接続評価値を減少させる。そして、接続評価値が最大となる単語の組み合わせに基づいて解析対象のテキストの形態素解析を行う。 The disclosed technology stores a word dictionary in which a plurality of words are registered in association with at least the part of speech of each word in the first storage unit. In addition, the second storage unit sets a group of noun words that are registered in the word dictionary and are adjacent to the specific word across the specific word on the learning text as a group of connectable words. To remember. In addition, a connection evaluation value representing connection possibility is obtained for a pair of words that are registered in the word dictionary and are adjacent to each other in the text to be analyzed. Moreover, it connects about the word group of the noun class which is not memorize | stored in the 2nd memory | storage part as a word group which can be connected among the word groups which are each registered in the word dictionary and are adjacent on the analysis object text. The connection evaluation value is decreased so that the evaluation value is not included in the word combination having the maximum evaluation value. Then, morphological analysis of the text to be analyzed is performed based on the combination of words with the maximum connection evaluation value.
開示の技術は、解析対象のテキスト上で隣接し、単語辞書に分けて登録された名詞類の単語の組の読みの解析精度が向上する、という効果を有する。 The disclosed technique has an effect that the analysis accuracy of reading a set of words of nouns that are adjacent to each other on the text to be analyzed and registered in the word dictionary is improved.
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。図1には、本実施形態に係る音声合成装置10が示されている。音声合成装置10はテキストから当該テキストを読み上げる音声を合成する処理を行う。音声合成装置10は形態素解析装置12、係り受け解析部38、表音文字列生成部40及び音声合成部42を備えている。形態素解析装置12は、形態素解析部14、単語連接可能性判定部16、第1単語辞書18及び第2単語辞書20を記憶する第1記憶部22、単語連接可能性テーブル24を記憶する第2記憶部26を備えている。また形態素解析装置12は、単語品詞間接続評価値テーブル28を記憶する第3記憶部30、解析対象テキスト32及び学習用テキストコーパス34を記憶する第4記憶部36を備えている。
Hereinafter, an example of an embodiment of the disclosed technology will be described in detail with reference to the drawings. FIG. 1 shows a
音声合成装置10は、例えば図2に示すコンピュータ70で実現することができる。コンピュータ70はCPU72、メモリ44、不揮発性の記憶部46、キーボード48、マウス50、ディスプレイ52、スピーカ54を備え、これらはバス56を介して互いに接続されている。なお、記憶部46はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部46には、コンピュータ70を音声合成装置10として機能させるための音声合成プログラム58、第1単語辞書18、第2単語辞書20、単語連接可能性テーブル24、単語品詞間接続評価値テーブル28が各々記憶されている。また記憶部46には、解析対象テキスト32及び学習用テキストコーパス34も記憶されている。CPU72は、音声合成プログラム58を記憶部46から読み出してメモリ44に展開し、音声合成プログラム58が有するプロセスを順次実行する。
The
音声合成プログラム58は、形態素解析プロセス60、単語連接可能性判定プロセス62、係り受け解析プロセス64、表音文字列生成プロセス66及び音声合成プロセス68を有する。CPU72は、形態素解析プロセス60を実行することで、図1に示す形態素解析部14として動作する。またCPU72は、単語連接可能性判定プロセス62を実行することで、図1に示す単語連接可能性判定部16として動作する。またCPU72は、係り受け解析プロセス64を実行することで、図1に示す係り受け解析部38として動作する。またCPU72は、表音文字列生成プロセス66を実行することで、図1に示す表音文字列生成部40として動作する。またCPU72は、音声合成プロセス68を実行することで、図1に示す音声合成部42として動作する。
The
なお、音声合成プログラム58は開示の技術における音声合成プログラムの一例であり、音声合成プログラム58に含まれる形態素解析プロセス60は開示の技術における形態素解析プログラムの一例である。
The
音声合成装置10がコンピュータ70で実現される場合、第1単語辞書18及び第2単語辞書20を記憶する記憶部46は第1記憶部22として用いられ、メモリ44の一部領域は第1単語辞書18及び第2単語辞書20として用いられる。また、単語連接可能性テーブル24及び単語品詞間接続評価値テーブル28を記憶する記憶部46は第2記憶部26及び第3記憶部30として用いられ、メモリ44の一部領域は単語連接可能性テーブル24及び単語品詞間接続評価値テーブル28として用いられる。また、解析対象テキスト32及び学習用テキストコーパス34を記憶する記憶部46は第4記憶部36として用いられ、メモリ44の一部領域は解析対象テキスト32及び学習用テキストコーパス34の記憶領域として用いられる。これにより、音声合成プログラム58を実行したコンピュータ70が、音声合成装置10として機能することになる。
When the
第1単語辞書18には、例として図3に示すように、複数の単語について「表記」「品詞」及び「読み」の各情報が対応付けて各々登録されている。なお、図3には第1単語辞書18に登録されている単語のうちの一部のみを示しており、第1単語辞書18には、後述する形態素解析の解析精度を考慮して選択された多数の単語の情報が各々登録されている。また第2単語辞書20には、例えば図4に示すように、複数の単語について「表記」「品詞」及び「読み」の各情報が対応付けて登録されている。第2単語辞書20は、第1単語辞書18に未登録の単語の情報を追加登録するための単語辞書であり、例えば学習用テキストコーパス34等に含まれるテキスト中の単語のうち、第1単語辞書18に未登録の単語の情報が追加登録される。
As shown in FIG. 3 as an example, in the
単語品詞間接続評価値テーブル28には、例として図5に示すように、各種品詞の単語の組み合わせについて、テキスト上での接続可能性を表す接続評価値が各々登録されている。例えば図5では、普通名詞の単語と接尾語の単語との接続評価値(テキスト上で普通名詞の単語に続いて接尾語の単語が存在している可能性の高さ)として"-100"が、接頭語の単語と普通名詞の単語との接続評価値として"-100"が設定されている。また、図5に"※"で示されている組み合わせには、接続可能性が無いことを表す接続評価値(図5では一例として"-1000000")が設定されている。 In the word part-of-speech connection evaluation value table 28, as shown in FIG. 5 as an example, connection evaluation values representing the possibility of connection on the text are registered for combinations of words of various parts of speech. For example, in FIG. 5, “-100” is used as the connection evaluation value between the common noun word and the suffix word (the possibility that the suffix word is present after the common noun word in the text). However, "-100" is set as the connection evaluation value between the prefix word and the common noun word. Further, in the combination indicated by “*” in FIG. 5, a connection evaluation value (“-1000000” as an example in FIG. 5) indicating that there is no connection possibility is set.
形態素解析装置12の形態素解析部14は、形態素解析対象のテキスト(解析対象テキスト32又は学習用テキストコーパス34のテキスト)に対し、以下のような形態素解析を行う。すなわち、形態素解析部14は、形態素解析対象のテキストに含まれ第1単語辞書18又は第2単語辞書20に登録されている単語を第1単語辞書18又は第2単語辞書20から抽出し、抽出した個々の単語の品詞を特定する。また形態素解析部14は、単語品詞間接続評価値テーブル28に登録された接続評価値に基づき、形態素解析対象のテキスト上で隣接している個々の単語の組の接続可能性を評価する。そして形態素解析部14は、接続可能性の評価結果に基づいて形態素解析対象のテキストの読みを判定する。形態素解析部14は開示の技術における形態素解析部の一例として機能する。
The
単語連接可能性判定部16は、学習用テキストコーパス34のテキストから、テキスト上で連接可能な名詞類の単語の組(一対の単語)を特定し、特定した単語の組を登録した単語連接可能性テーブル24を生成する。単語連接可能性判定部16は開示の技術における連接可能性判定部の一例として機能する。なお、単語連接可能性判定部16による処理の詳細及び単語連接可能性テーブル24の内容については後述する。
The word concatenation
解析対象テキスト32は、形態素解析装置12の形態素解析部14によって形態素解析が行われた後に、後述する係り受け解析や表音文字列の生成を経て当該テキストを読み上げる音声の合成が行われるテキストである。本実施形態では、解析対象テキスト32が第4記憶部36に予め記憶されている態様を説明するが、解析対象テキスト32は、例えば、キーボード48を介して利用者によって入力され、メモリ44に記憶される構成であってもよい。また解析対象テキスト32は、例えば、外部の情報処理装置に設けられた入力デバイスを介して入力され、当該テキストが前記外部の情報処理装置から通信によって受信されてメモリ44に記憶される構成であってもよい。
The
学習用テキストコーパス34は、第1単語辞書18に未登録の単語を取得するためのテキスト群であり、第2単語辞書20に単語を登録する目的や第2単語辞書20の用途に応じたテキストが選択される。例えば、第1単語辞書18に未登録の新語や時事用語等を第2単語辞書20に登録したい場合、学習用テキストコーパス34としては、新聞記事や雑誌の記事等のテキストが選択される。また、例えば、第1単語辞書18に未登録の特定分野の用語等を第2単語辞書20に登録したい場合、学習用テキストコーパス34としては、特定分野の論文やマニュアル等のテキストが選択される。本実施形態では、学習用テキストコーパス34が第4記憶部36に予め記憶されている態様を説明するが、学習用テキストコーパス34は、例えば、外部の情報処理装置から通信によって受信されてメモリ44に記憶される構成であってもよい。また、学習用テキストコーパス34としてのテキスト群は、第4記憶部36又はメモリ44に一纏めに記憶されることに限られるものではなく、例えば個々のテキストがインターネット等のコンピュータネットワーク上に分散されて記憶されていてもよい。
The
係り受け解析部38は、形態素解析装置12によって解析対象テキスト32の形態素解析が行われた結果に基づき、解析対象テキスト32に対して係り受け解析を行う。係り受け解析部38は開示の技術における係り受け解析部の一例として機能する。また、表音文字列生成部40は、係り受け解析部38によって解析対象テキスト32の係り受け解析が行われた結果に基づき、解析対象テキスト32の読みを表す文字列に、少なくともアクセントやフレーズの区切りなどを表す情報を付加した表音文字列を生成する。表音文字列生成部40は開示の技術における表音文字列生成部の一例として機能する。また、音声合成部42は表音文字列生成部40によって生成された表音文字列に基づき、生成された表音文字列を読み上げる音声を合成する音声合成処理を行う。音声合成部42は開示の技術における音声合成部の一例として機能する。
The
次に本実施形態の作用を説明する。解析対象テキスト32から当該解析対象テキスト32を読み上げる音声を合成するにあたって読みの精度を確保するためには、解析対象テキスト32に含まれる単語を特定する形態素解析の精度の向上が重要であり、形態素解析に用いる単語辞書の充実が必須となる。しかし、単語辞書に闇雲に単語を追加していくと形態素解析の解析精度に悪影響を及ぼす場合があるので、形態素解析で適切な結果が得られるように登録単語を選択する必要があり、効率的に単語辞書を充実させることは難しい。一方で、自然言語で記述されたテキストに出現する固有名詞や専門用語などの単語は限りがなく、単語辞書に多数の単語を効率的に登録することも求められる。
Next, the operation of this embodiment will be described. In order to ensure the reading accuracy when synthesizing the speech that reads the
上記に基づき、本実施形態では、第1単語辞書18と第2単語辞書20を設けており、第1単語辞書18には、形態素解析の解析精度を考慮して選択された単語の情報が予め各々登録され、第2単語辞書20には第1単語辞書18に未登録の単語が追加登録される。第2単語辞書20に対しては、例えば、学習用テキストコーパス34から単語の「表記」「品詞」及び「読み」を自動収集し、これらの情報を自動登録する処理を適用することができる。例えば、学習用テキストコーパス34に含まれるテキストに「骨器(コッキ)」という文字列が存在していれば、これは単語の表記と読みを示している可能性が高いことから、これらを収集して第2単語辞書20に登録することができる。
Based on the above, in the present embodiment, the
但し、前述のように、第2単語辞書20に追加登録した単語が形態素解析に悪影響を及ぼすことがある。以下、図17,18を参照して具体例を説明する。なお、以下の具体例では、第1単語辞書18に図3に示した情報が登録され、第2単語辞書に図4に示した情報が登録され、単語品詞間接続評価値テーブル28に図5に示した情報が登録されているものとする。
However, as described above, a word additionally registered in the
図17はテキスト「打製骨器」に対して形態素解析を行った場合を示す。形態素解析では、まず、第1単語辞書18又は第2単語辞書20に登録され、テキスト「打製骨器」に含まれている単語が第1単語辞書18及び第2単語辞書20から全て抽出される。図17の例では、普通名詞の単語「骨器(コッキ)」のみが第2単語辞書20から抽出され、その他の単語は第1単語辞書18から抽出される。形態素解析では、次に、接続の可能性のある全ての単語の組に対し、単語品詞間接続評価値テーブル28を参照して、品詞同士の接続評価値を求める。例えば、普通名詞の単語「打製(ダセー)」と接尾語の単語「骨(ボネ)」は接続評価値=-100であり、接続可能性が比較的高いことを表している。一方、先頭と接尾語の単語「打(ダ)」は、接尾語が文頭にあることは考えにくいことから、接続評価値=-1000000となり、接続可能性が非常に低いことを表している。
FIG. 17 shows a case where a morphological analysis is performed on the text “striking bone device”. In the morphological analysis, first, all the words registered in the
全ての単語の組について接続評価値を求めたら、接続評価値の合計が最大となる単語の組み合わせ(パス)を求め、求めたパスに対応する読みを形態素解析の解析結果として出力する。図17の例では、
『先頭−普通名詞「打製(ダセー)」−普通名詞「骨器(コッキ)」−末尾』
のパスの接続評価値が最大(=-2150)となるため、このパスに対応する読み「ダセー・コッキ」が形態素解析の解析結果として出力される。
When connection evaluation values are obtained for all word pairs, a word combination (path) having the maximum connection evaluation value is obtained, and a reading corresponding to the obtained path is output as an analysis result of morphological analysis. In the example of FIG.
`` First-common noun `` made '' (dase) ''-common noun `` bone '' (last)
Since the connection evaluation value of the path is the maximum (= −2150), the reading “Dassy Kokki” corresponding to this path is output as the analysis result of the morphological analysis.
また図18は「符号化法」に対して形態素解析を行った場合を示す。まずテキスト「符号化法」に含まれる単語が第1単語辞書18及び第2単語辞書20から全て抽出される。図18の例では、普通名詞の単語「化法(ケホー)」のみが第2単語辞書20から抽出され、その他の単語は第1単語辞書18から抽出される。次に、接続の可能性のある全ての単語の組に対し、単語品詞間接続評価値テーブル28を参照して、品詞同士の接続評価値を求め、接続評価値の合計が最大となる単語の組み合わせ(パス)を求める。結果は下記の通りである。
FIG. 18 shows a case where morphological analysis is performed on the “encoding method”. First, all the words included in the text “encoding method” are extracted from the
・パス1
『先頭−普通名詞「符号(フゴー)」−普通名詞「化法(ケホー)」−末尾』
接続評価値の合計=-2150
・パス2
『先頭−普通名詞「符号(フゴー)」−接尾語「化(カ)」−接尾語「法(ホー)」−末尾』
接続評価値の合計=-2200
この場合、パス2に対応する読み「フゴー・カ・ホー」の方が正しいにも拘わらず、パス1に対応する読み「フゴー・ケホー」が形態素解析の解析結果として出力されることになる。
・
"First-common noun" sign (Fugo) "-common noun" Kaho "-last"
Total connection evaluation value = -2150
・
`` First-common noun `` sign '' (fugo)-suffix `` ka ''-suffix `` ho ''-end
Total connection evaluation value = -2200
In this case, even though the reading “Fuga Kaho” corresponding to the
このように、第2単語辞書20を使用した場合、図17に示す例のような場面では形態素解析の精度を向上させることができるものの、図18に示す例のような別の場面では形態素解析の精度に悪影響を及ぼす。これを解決するために、第1単語辞書18よりも優先度を下げて第2単語辞書20を使用することも考えられるが、第2単語辞書20の優先度を低下させると第2単語辞書20を使用することによる効果も小さくなる。
As described above, when the
一方、或るテキスト上で「の」「が」「に」「を」「な」「する」「した」等の特定単語を挟んでその前後に名詞類(普通名詞や固有名詞、接頭語、接尾語等)の単語が存在している場合、上記名詞類の単語の組は別のテキスト上で連接している可能性がある。逆に、或る名詞類の単語の組が特定単語を挟んでその前後に位置しているテキストが存在していない場合、当該単語の組は別のテキスト上で連接している可能性が乏しいと判断できる。上記を考慮して本実施形態では、第2記憶部26に単語連接可能性テーブル24を記憶させると共に、単語連接可能性テーブル24に情報を登録する単語連接可能性判定部16を設けている。以下、まず図6を参照し、形態素解析部14及び単語連接可能性判定部16によって実現される連接可能性テーブル生成処理を説明する。なお、この連接可能性テーブル生成処理は、形態素解析部14が解析対象テキスト32に対して形態素解析を行うのに先立って行われる。
On the other hand, nouns (common nouns, proper nouns, prefixes, etc.) before and after specific words such as “no” “ga” “ni” “ni” “na” “do” “do” on a certain text. If a word such as a suffix is present, the noun class word set may be connected on another text. On the other hand, if there is no text in which a pair of words of a certain noun class is located before and after a specific word, the pair of words is unlikely to be connected on another text. It can be judged. Considering the above, in the present embodiment, the word storage possibility table 24 is stored in the
連接可能性テーブル生成処理のステップ100において、形態素解析部14は、第1記憶部22に記憶されている学習用テキストコーパス34からの1単位のテキストの取得を試行する。次のステップ102において、形態素解析部14は、ステップ100で学習用テキストコーパス34から1単位のテキストを取得できたか否か判定する。ステップ100で学習用テキストコーパス34から1単位のテキストを取得できた場合、ステップ102の判定が肯定されてステップ104へ移行する。なお、ステップ102の判定が否定された場合、形態素解析部14は連接可能性テーブル生成処理を終了する。
In
ステップ104において、形態素解析部14は、形態素解析として、第1単語辞書18又は第2単語辞書20に登録され、ステップ100で取得したテキストに含まれている単語が第1単語辞書18及び第2単語辞書20から全て抽出する処理を行う。なお、本実施形態では、ステップ104の形態素解析で抽出された単語の総数を"N"とする。
In
次のステップ106において、単語連接可能性判定部16は、形態素解析部14による形態素解析の解析結果(総数N個の単語の情報)を取得した後に、個々の単語を識別するための変数iに0を代入する。ステップ108において、単語連接可能性判定部16は、変数iが、単語の総数Nから2を減じた値よりも小さいか否か判定する。ステップ108の判定が肯定された場合はステップ110へ移行し、単語連接可能性判定部16は、N個の単語のうちのi番目の単語の品詞が名詞類で、i+1番目の単語が特定単語で、i+2番目の単語の品詞が名詞類か否か判定する。なお、ステップ110の判定における特定単語としては、前述の「の」「が」「に」「を」「な」「する」「した」等の何れかが挙げられる。
In the
ステップ110の判定が否定された場合、i番目及びi+2番目の少なくとも一方の単語の品詞が名詞類でないか、i+1番目の単語が特定単語でないので、i番目の単語とi+2番目の単語とが別のテキスト上で連接する可能性が高いとは判断できない。このため、単語連接可能性判定部16は、ステップ110の判定が否定された場合はステップ118へ移行し、変数iを1だけインクリメントしてステップ108に戻る。
If the determination in
また、ステップ110の判定が否定された場合、i番目及びi+2番目の単語は何れも品詞が名詞類で、かつi+1番目の単語が特定単語であるので、i番目の単語とi+2番目の単語とが別のテキスト上で連接する可能性が高いと判断できる。このため単語連接可能性判定部16は、ステップ110の判定が肯定された場合はステップ112へ移行し、i番目の単語又はi+2番目の単語が第2単語辞書20に登録されているか否かを判定する。
If the determination in
単語連接可能性判定部16は、ステップ112の判定が肯定されるとステップ114へ移行する。ステップ114では、i番目の単語とi+2番目の単語の組に対して第1単語辞書18に登録されている一方の単語が相違する連接不可の単語の組に対する接続評価値の減点値を算出する。ここで、連接不可の単語の組に対する接続評価値の減点値は、形態素解析部14による形態素解析において、連接不可の単語の組が出現した場合に、当該連接不可の単語の組が、接続評価値が最大となる単語の組み合わせに含まれないように算出される。
The word connection
具体的には、ステップ104の形態素解析で抽出された単語の中から、i番目の単語及びi+2番目の単語のうち第2単語辞書20に登録されている単語(第2単語辞書登録単語)とテキストの同一部分に対応する単語を全て抽出する。次に、普通名詞の単語として、第2単語辞書登録単語がi+2番目の単語であれば直前の単語を、第2単語辞書登録単語がi番目の単語であれば直後の単語を含み、第2単語辞書登録単語又は抽出した単語を含む全ての単語のパスについて接続評価値を求める。そして、各パス毎に求めた接続評価値を比較し、直前の単語又は直後の単語と第2単語辞書登録単語とを含むパスの接続評価値が最大の場合には、当該パスの接続評価値が降順で2番目以降の値に減少させるための減点値を求める。
Specifically, from the words extracted by the morphological analysis in
また、ステップ116において、単語連接可能性判定部16は、i番目の単語とi+2番目の単語の組を、連接可能な単語の組として単語連接可能性テーブル24に登録すると共に、ステップ114で算出した減点値も対応付けて登録する。そして単語連接可能性判定部16は、次のステップ118において変数iを1だけインクリメントしてステップ108に戻る。なお、単語連接可能性判定部16は、ステップ112の判定が否定された場合には、ステップ114,116をスキップしてステップ118へ移行し、変数iを1だけインクリメントしてステップ108に戻る。
In step 116, the word connection
上述した連接可能性テーブル生成処理について、一例を挙げて更に説明する。図7には、学習用テキストコーパス34に含まれるテキストの一例、第1単語辞書18及び第2単語辞書20に登録された単語の一例が各々示されている。また、図8には、図7に示したテキストのうち「…から打製の骨器が大量に…」の第1のテキストに対して連接可能性テーブル生成処理を行った場合が示されており、図9には、この場合における減点値の算出例が示されている。
The connection possibility table generation process described above will be further described with an example. FIG. 7 shows an example of text included in the
第1のテキストに対して形態素解析部14がステップ104の形態素解析を行った場合、図8に示す各単語のうち、普通名詞の単語「骨器(コッキ)」のみが第2単語辞書20から抽出され、その他の単語は第1単語辞書18から抽出される。また、「i番目及びi+2番目の単語の品詞が名詞類で一方が第2単語辞書20に登録され、i+1番目の単語が特定単語」の条件を満たす単語列として、以下の単語列が抽出される。
『普通名詞「打製(ダセー)」−助詞「の」−普通名詞「骨器(コッキ)」』
When the
"Common noun" Dasei "-particle" no "-common noun" bone "
上記条件を満たす単語列におけるi番目の単語とi+2番目の単語の組は、「打製骨器(ダセー・コッキ)」のように、別のテキスト上で連接する可能性が高いと判断できる。このため、図7に示すように、上記条件を満たす単語列のi番目の単語「打製(ダセー)」とi+2番目の単語「骨器(コッキ)」の組は単語連接可能性テーブル24に登録される。図7に示すように、単語連接可能性テーブル24は、連接可能な単語の組のうち第2単語辞書登録単語を主単語として登録する構成であり、第1単語辞書登録単語がi番目の単語であれば、第1単語辞書登録単語は主単語に対する先行可能単語として登録される。また、第1単語辞書登録単語がi+2番目の単語であれば、第1単語辞書登録単語は後続可能単語として登録される。この例では、i+2番目の単語「骨器(コッキ)」が第2単語辞書20に登録されているので、i+2番目の単語「骨器(コッキ)」が主単語として、i番目の単語「打製(ダセー)」が先行可能単語として、単語連接可能性テーブル24に各々登録される。
It can be determined that the combination of the i-th word and the i + 2nd word in the word string satisfying the above condition is highly likely to be connected on another text, such as “stamping bone device (Dusse Kokki)”. For this reason, as shown in FIG. 7, a set of the i-th word “done” and i + 2 word “bone” in the word string satisfying the above condition is stored in the word connection possibility table 24. be registered. As shown in FIG. 7, the word concatenation possibility table 24 is configured to register the second word dictionary registered word as a main word in the group of connectable words, and the first word dictionary registered word is the i-th word. If so, the first word dictionary registered word is registered as a preceding possible word for the main word. If the first word dictionary registered word is the i + 2nd word, the first word dictionary registered word is registered as a succeedable word. In this example, since the i + 2 word “bone” is registered in the
続いて図9を参照し、この例における減点値の演算を説明する。図9(A)に示すように、この例における第2単語辞書登録単語(主単語)とテキストの同一部分に対応する単語としては、接尾語「骨(ボネ)」、接尾語「器(キ)」、普通名詞「骨(ホネ)」及び普通名詞「器(ウツワ)」が第1単語辞書18から各々抽出される。また、この例では第1単語辞書登録単語は先行可能単語であることから、次に、普通名詞の直前単語を含み、主単語又は抽出した単語を含む全ての単語列(単語のパス)について接続評価値が各々算出される。結果は下記の通りである(図9(B)も参照)。
Next, with reference to FIG. 9, the calculation of the deduction point value in this example will be described. As shown in FIG. 9A, the words corresponding to the same part of the text as the second word dictionary registered word (main word) in this example include the suffix “bone” and the suffix “instrument (key ) ”, Common noun“ bone ”, and common noun“ Utsuwa ”are extracted from the
・パス1
『普通名詞−接尾語「骨(ボネ)」−接尾語「器(キ)」』:接続評価値の合計=-200
・パス2
『普通名詞−接尾語「骨(ホネ)」−接尾語「器(キ)」』:接続評価値の合計=-250
・パス3
『普通名詞−普通名詞「骨器(コッキ)」』:接続評価値の合計=-150
なお、上記では普通名詞「器(ウツワ)」は直前の単語との接続評価値が接尾語「器(キ)」よりも低いことから、普通名詞「器(ウツワ)」を通るパスの明示を省略している。
・
"Common nouns-suffix" bone "-suffix" vessel "": total connection evaluation value = -200
・
"Common nouns-suffix" bone "-suffix" vessel "": total connection evaluation value = -250
・ Pass 3
"Common nouns-common nouns" bone organs "": total connection evaluation value = -150
In the above, the common noun `` Utsuwa '' has a lower connection evaluation value with the previous word than the suffix `` Uki '', so the path through the common noun `` Utsuwa '' is clearly indicated. Omitted.
上記の結果から、解析対象テキスト32上で単語「骨器」の直前に名詞類の単語が存在していた場合、当該単語が先行可能単語「打製(ダセー)」以外の場合でも、第2単語辞書20に登録された単語「骨器(コッキ)」を含むパス(パス3)の接続評価値が最大となる。このため、単語「骨器」の直前の単語が単語「打製(ダセー)」以外の場合には、パス3の接続評価値が降順で2番目以降の値に減少させるための減点値を求める。具体的には、図9(C)に示すように、パス3の接続評価値(=-150)からパス3以外で接続評価値が最大のパスの接続評価値(パス1の接続評価値=-200)を減算し、それに所定値(図9(C)の例では"1")を加算した値(=51)を減点値とする。この例では主単語と連接可能な単語は先行可能単語であることから、算出した減点値は先行可能単語と対応付けて単語連接可能性テーブル24に登録される。
From the above result, when a noun word is present immediately before the word “bone” on the text to be analyzed 32, even if the word is a word other than the predecessor word “Dasei”, the second The connection evaluation value of the path (path 3) including the word “bone (cock)” registered in the
また、図10には、図7に示したテキストのうち「…が多価の関数に…」の第2のテキストに対して連接可能性テーブル生成処理を行った場合が示されており、図11には、この場合における減点値の算出例が示されている。第2のテキストに対して形態素解析部14がステップ104の形態素解析を行った場合、図10に示す各単語のうち、普通名詞の単語「多価(タカ)」のみが第2単語辞書20から抽出され、その他の単語は第1単語辞書18から抽出される。また、「i番目及びi+2番目の単語の品詞が名詞類で一方が第2単語辞書20に登録され、i+1番目の単語が特定単語」の条件を満たす単語列として、以下の単語列が抽出される。
『普通名詞「多価(タカ)」−助詞「の」−普通名詞「関数(カンスウ)」』
FIG. 10 shows a case where the connectability table generation processing is performed on the second text “... is a multivalent function” among the texts shown in FIG. 7. 11 shows an example of calculating a deduction value in this case. When the
"Common noun" multivalent (taka) "-particle" no "-common noun" function (kansu) ""
上記条件を満たす単語列におけるi番目の単語とi+2番目の単語の組は、「多価関数(タカ・カンスウ)」のように、別のテキスト上で連接する可能性が高いと判断できる。このため、図7に示すように、上記条件を満たす単語列のi番目の単語「多価(タカ)」とi+2番目の単語「関数(カンスウ)」の組は単語連接可能性テーブル24に登録される。なお、この例では、i番目の単語「多価(タカ)」が第2単語辞書20に登録されているので、i番目の単語「多価(タカ)」が主単語として、i+2番目の単語「関数(カンスウ)」が後続可能単語として、単語連接可能性テーブル24に各々登録される。
It can be determined that the combination of the i-th word and the i + 2nd word in the word string satisfying the above condition is highly likely to be connected on another text as in the “multivalent function (Taka Kansu)”. For this reason, as shown in FIG. 7, a set of the i-th word “multivalent (hawk)” and the i + 2th word “function (kansu)” in the word string satisfying the above condition is registered in the word connection possibility table 24. Is done. In this example, since the i-th word “multivalent (hawk)” is registered in the
続いて図11を参照し、この例における減点値の演算を説明する。図11(A)に示すように、この例における第2単語辞書登録単語(主単語)とテキストの同一部分に対応する単語としては、接頭語「多(タ)」、形容詞語幹「多(オオ)」及びサ変名詞「価(アタイ)」が第1単語辞書18から各々抽出される。また、この例では第1単語辞書登録単語は後続可能単語であることから、次に、普通名詞の直後単語を含み、主単語又は抽出した単語を含む全ての単語列(単語のパス)について接続評価値が各々算出される。結果は下記の通りである(図11(B)も参照)。
Next, with reference to FIG. 11, the calculation of the deduction point value in this example will be described. As shown in FIG. 11A, the word corresponding to the same part of the text as the second word dictionary registered word (main word) in this example includes the prefix “ta” and the adjective stem “ ) ”And the“ Sai ”variable noun“ value ”are extracted from the
・パス1
『接頭語「多(タ)」−サ変名詞「価(アタイ)」−普通名詞』:接続評価値の合計=-250
・パス2
『普通名詞「多価(タカ)」−普通名詞』:接続評価値の合計=-150
なお、上記では形容詞語幹「多(オオ)」は直後の単語「価(アタイ)」との接続評価値が接頭語「多(タ)」よりも低いことから、形容詞語幹「多(オオ)」を通るパスの明示を省略している。
・
“Prefix“ Ta (Ta) ”-Sa-Variable Noun“ Value (Tai) ”-Common Noun”: Sum of Connection Evaluation Values = -250
・
"Common noun" multivalent (hawk) "-common noun": total connection evaluation value = -150
In the above, the adjective stem `` man '' is lower than the prefix `` man '' because the adjective stem `` man '' is lower than the prefix `` man ''. The path passing through is omitted.
上記の結果から、解析対象テキスト32上で単語「多価」の直後に名詞類の単語が存在していた場合、当該単語が後続可能単語「関数(カンスウ)」以外の場合でも、第2単語辞書20に登録された単語「多価(タカ)」を含むパス(パス2)の接続評価値が最大となる。このため、単語「多価」の直後の単語が単語「関数(カンスウ)」以外の場合には、パス2の接続評価値が降順で2番目以降の値に減少させるための減点値を求める。具体的には、図11(C)に示すように、パス2の接続評価値(=-150)からパス2以外で接続評価値が最大のパスの接続評価値(パス1の接続評価値=-250)を減算し、それに所定値(図11(C)の例では"1")を加算した値(=101)を減点値とする。この例では主単語と連接可能な単語は後続単語であることから、算出した減点値は後続可能単語と対応付けて単語連接可能性テーブル24に登録される。
From the above result, if a noun word is present immediately after the word “multivalent” on the text to be analyzed 32, the second word even if the word is not a succeedable word “function (kansu)”. The connection evaluation value of the path (path 2) including the word “multivalent (hawk)” registered in the
同様に、例えば図7に示した第3のテキスト「…発見された最古の骨器は…」に対して連接可能性テーブル生成処理を行うことで、「最古(サイコ)」が「骨器(コッキ)」に対応する先行可能単語として単語連接可能性テーブル24に登録される。また、例えば図7に示した第4のテキスト「…骨器の製作が行われた…」に対して連接可能性テーブル生成処理を行うことで、「製作(セイサク)」が「骨器(コッキ)」に対応する後続可能単語として単語連接可能性テーブル24に登録される。また、対応する減点値(=51)が算出され、主単語「骨器(コッキ)」の後続可能単語と対応付けて単語連接可能性テーブル24に登録される。また、例えば図7に示した第5のテキスト「…甚深の化法を軽んじる…」に対して連接可能性テーブル生成処理を行うことで、「化法(ケホー)」が主単語、「甚深(ジンシン)」が先行可能単語として単語連接可能性テーブル24に各々登録される。また、対応する減点値(=51)が算出され、主単語「化法(ケホー)」の先行可能単語と対応付けて単語連接可能性テーブル24に登録される。 Similarly, for example, by performing the connectability table generation process for the third text “... the oldest bone found ...” shown in FIG. 7, “oldest (psycho)” becomes “bone” It is registered in the word concatenation possibility table 24 as a preceding possible word corresponding to “container (cock)”. Further, for example, by performing a connectability table generation process for the fourth text “… the skeleton has been manufactured ...” shown in FIG. 7, the “production (seisaku)” is changed to “the skeleton”. ) "Is registered in the word concatenation possibility table 24 as a subsequent possible word. Further, a corresponding deduction value (= 51) is calculated and registered in the word connection possibility table 24 in association with the succeedable word of the main word “bone organ”. Further, for example, by performing a connectability table generation process for the fifth text “... , “Jinshin” is registered in the word connection possibility table 24 as a preceding possible word. In addition, a corresponding deduction value (= 51) is calculated and registered in the word concatenation possibility table 24 in association with the preceding possible word of the main word “formation method (Kehoe)”.
続いて、上述した連接可能性テーブル生成処理が行われて単語連接可能性テーブル24が生成された後に、形態素解析部14によって行われる形態素解析処理について、図12を参照して説明する。
Subsequently, the morpheme analysis process performed by the
形態素解析処理のステップ130において、形態素解析部14は、第1記憶部22に記憶されている解析対象テキスト32から1単位のテキストの取得を試行する。次のステップ132において、形態素解析部14は、ステップ130で解析対象テキスト32から1単位のテキストを取得できたか否か判定する。ステップ130で解析対象テキスト32から1単位のテキストを取得できた場合、ステップ132の判定が肯定されてステップ134へ移行する。なお、ステップ132の判定が否定された場合は、形態素解析が解析対象テキスト32の末尾迄完了したと判断できるので、形態素解析部14は形態素解析処理を終了する。
In
ステップ134において、形態素解析部14は、第1単語辞書18又は第2単語辞書20に登録され、ステップ130で取得したテキストに含まれている単語が第1単語辞書18及び第2単語辞書20から全て抽出する。なお、本実施形態では、ステップ134で抽出された単語の総数を"N"とする。次のステップ136において、形態素解析部14は、個々の単語を識別するための変数iに0を代入し、次のステップ138において、単語連接可能性判定部16は、変数iが単語の総数Nよりも小さいか否か判定する。
In
形態素解析部14は、ステップ138の判定が肯定された場合にはステップ140へ移行し、N個の単語のうちのi番目の単語とその前後の単語(i−1番目及びi+1番目の単語)との接続評価値を単語品詞間接続評価値テーブル28より各々取得する。次のステップ142において、形態素解析部14は、i番目の単語は品詞が名詞類で、かつ第2単語辞書20に登録されているか否か判定する。形態素解析部14は、ステップ142の判定が否定された場合はステップ152へ移行し、変数iを1だけインクリメントしてステップ138に戻る。
If the determination in
また、形態素解析部14は、ステップ142の判定が肯定された場合はステップ144へ移行し、i番目の単語の直前の単語が、品詞が名詞類でかつi番目の単語に対応する先行可能単語として単語連接可能性テーブル24に登録されていない単語か否か判定する。ステップ144の判定が肯定された場合、i番目の単語とその直前の単語(i−1番目の単語)とはテキスト上で連接(接続)する可能性が乏しいと判断できる。このため、形態素解析部14は、ステップ144の判定が肯定された場合はステップ146へ移行し、主単語としてのi番目の単語の先行可能単語と対応付けられた減点値を単語連接可能性テーブル24から読み出す。そして、i番目の単語と直前の単語(i−1番目の単語)の組について先のステップ140で取得した接続評価値から、先に読み出した減点値を減算して設定する。そして、ステップ146からステップ148へ移行する。
If the determination in
一方、i番目の単語の直前の単語の品詞が名詞類でない場合や、直前の単語がi番目の単語の先行可能単語として単語連接可能性テーブル24に登録されている場合、i番目の単語とその直前の単語とはテキスト上で連接(接続)する可能性が有ると判断できる。このため、形態素解析部14は、ステップ144の判定が否定された場合、ステップ146の処理を行うことなくステップ148へ移行する。この場合、i番目の単語と直前の単語(i−1番目の単語)の組の接続評価値は、先のステップ140で取得した接続評価値のまま維持される。
On the other hand, when the part of speech of the word immediately before the i-th word is not a noun, or when the immediately preceding word is registered in the word concatenation possibility table 24 as a predecessor word of the i-th word, It can be determined that there is a possibility of connecting (connecting) with the word immediately before in the text. Therefore, if the determination in
次のステップ148において、形態素解析部14は、i番目の単語の直後の単語が、品詞が名詞類でかつi番目の単語に対応する後続可能単語として単語連接可能性テーブル24に登録されていない単語か否か判定する。ステップ148の判定が肯定された場合、i番目の単語とその直後の単語(i+1番目の単語)とはテキスト上で連接(接続)する可能性が乏しいと判断できる。このため、形態素解析部14は、ステップ148の判定が肯定された場合はステップ150へ移行し、主単語としてのi番目の単語の後続可能単語と対応付けられた減点値を単語連接可能性テーブル24から読み出す。そして、i番目の単語と直後の単語(i+1番目の単語)の組について先のステップ140で取得した接続評価値から、先に読み出した減点値を減算して設定する。そして、ステップ150からステップ152へ移行する。
In the
一方、i番目の単語の直後の単語の品詞が名詞類でない場合や、直後の単語がi番目の単語の後続可能単語として単語連接可能性テーブル24に登録されている場合、i番目の単語とその直後の単語とはテキスト上で連接(接続)する可能性が有ると判断できる。このため、形態素解析部14は、ステップ148の判定が否定された場合、ステップ150の処理を行うことなくステップ152へ移行する。この場合、i番目の単語と直後の単語(i+1番目の単語)の組の接続評価値は、先のステップ140で取得した接続評価値のまま維持される。
On the other hand, when the part of speech of the word immediately after the i-th word is not a noun, or when the word immediately after is registered in the word concatenation possibility table 24 as a succeedable word of the i-th word, It can be determined that the word immediately after that has the possibility of being connected (connected) on the text. For this reason, if the determination in
形態素解析部14は、変数iの値が単語の総数N以上になってステップ138の判定が否定される迄、上述したステップ138〜ステップ152を繰り返す。ステップ138の判定が否定されるとステップ154へ移行し、形態素解析部14は、接続評価値の合計が最大になる単語の組み合わせ(パス)を抽出する。そしてステップ156において、形態素解析部14は、ステップ154で抽出した単語の組み合わせ(パス)に対応する読みを第1単語辞書18又は第2単語辞書20から単語単位で読み出し、解析結果として出力した後、ステップ130に戻る。
The
上述した形態素解析処理について、一例を挙げて更に説明する。図13には、解析対象テキスト32から抽出した1単位のテキスト「打製骨器」に対して上述の形態素解析処理を行った例が示されている。なお、以下では、第1単語辞書18及び第2単語辞書20には図7に示す単語が登録され、単語連接可能性テーブル24にも図7に示す単語の組が登録され、単語品詞間接続評価値テーブル28には図5に示す接続評価値が登録されているものとして説明する。
The morphological analysis process described above will be further described with an example. FIG. 13 shows an example in which the above-described morphological analysis process is performed on one unit of the text “striking boner” extracted from the
図13の例では、テキスト「打製骨器」に含まれる単語として、第1単語辞書18から普通名詞「打製(ダセー)」、接尾語「打(ダ)」、接尾語「製(セー)」、接尾語「骨(ボネ)」、接尾語「器(キ)」、普通名詞「骨(ホネ)」、普通名詞「器(ウツワ)」が抽出される。また図13の例では、テキスト「打製骨器」に含まれる単語として、第2単語辞書20から普通名詞「骨器(コッキ)」が抽出される。
In the example of FIG. 13, as words included in the text “striking boner”, from the
次に、テキスト「打製骨器」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル28から対応する接続評価値が取得されることで、接続可能性が評価される。例えば、先頭と普通名詞「打製(ダセー)」との接続評価値は-1000、先頭と接尾語「打(ダ)」との接続評価値は-1000000、接尾語同士(「打(ダ)」と「製(セー)」、「骨(ボネ)」と「器(キ)」、「製(セー)」と「骨(ボネ)」)の接続評価値は-100となる。また、普通名詞と接尾語(「打製(ダセー)」と「骨(ボネ)」、「骨(ホネ)」と「器(キ)」)との接続評価値は-100、普通名詞同士(「打製(ダセー)」と「骨器(コッキ)」、「打製(ダセー)」と「骨(ホネ)」)の接続評価値は-150となる。 Next, for all word pairs adjacent on the text “striking boner”, the corresponding connection evaluation value is acquired from the word-part-of-speech connection evaluation value table 28 based on the part of speech of each word. , Connectability is evaluated. For example, the connection evaluation value between the head and the common noun `` Daisei '' is -1000, the connection evaluation value between the head and the suffix `` Da '' is -1000000, and the suffixes (`` Da '' ”And“ Made ”,“ Bone ”and“ Vessel ”,“ Made ”and“ Bone ”) have a connection evaluation value of -100. Also, the connection evaluation value of common nouns and suffixes (`` Dasei '' and `` Bone '', `` Bone '' and `` Ki '')) is -100, and common nouns ( The connection evaluation value of “done” (dose) and “bone organ (cock)”, “done (dase)” and “bone”) is −150.
ここで第2単語辞書20から抽出された普通名詞「骨器(コッキ)」について単語連接可能性テーブル24を参照すると、先行可能単語として普通名詞「打製(ダセー)」が登録されているので「打製(ダセー)」と「骨器(コッキ)」との接続評価値は-150のままとなる。また、普通名詞「骨器(コッキ)」の先行単語としての接尾語「製(セー)」との接続可能性については、接尾語「製(セー)」の品詞は名詞類であるものの、単語連接可能性テーブル24に先行可能単語として登録されていないことから接続評価値が減少される。すなわち、主単語「骨器(コッキ)」の先行可能単語と対応付けられた減点値は"51"であることから、当初の接続評価値=-150から減点値=51が減算され、接尾語「製(セー)」と普通名詞「骨器(コッキ)」との接続評価値は"-201"へ変更される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『普通名詞「打製(ダセー)」−普通名詞「骨器(コッキ)」』の組み合わせであり、対応する正しい読み「ダセー・コッキ」が形態素解析の解析結果として出力される。
Here, referring to the word connection possibility table 24 for the common noun “bone” extracted from the
また、図14には、解析対象テキスト32から抽出した1単位のテキスト「符号化法」に対して上述の形態素解析処理を行った例が示されている。図14の例では、テキスト「符号化法」に含まれる単語として、第1単語辞書18から普通名詞「符号(フゴー)」、接尾語「符(フ)」、接尾語「号(ゴー)」、接尾語「化(カ)」、接尾語「法(ホー)」、動詞語幹「化(バ)」、普通名詞「法(ホー)」が抽出される。また図14の例では、テキスト「符号化法」に含まれる単語として第2単語辞書20から普通名詞「化法(ケホー)」が抽出される。
FIG. 14 shows an example in which the morpheme analysis process described above is performed on one unit of text “encoding method” extracted from the
次に、テキスト「符号化法」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル28から対応する接続評価値が取得されることで、接続可能性が評価される。例えば、先頭と普通名詞「符号(フゴー)」との接続評価値は-1000、先頭と接尾語「符(フ)」との接続評価値は-1000000、接尾語同士(「符(フ)」と「号(ゴー)」、「号(ゴー)」と「化(カ)」、「化(カ)」と「法(ホー)」)の接続評価値は-100となる。また、例えば普通名詞「符号(フゴー)」と接尾語「化(カ)」との接続評価値は-100、普通名詞「符号(フゴー)」と普通名詞「化法(ケホー)」の接続評価値は-150となる。 Next, for all word pairs adjacent on the text “encoding method”, the corresponding connection evaluation value is acquired from the word-part-of-speech connection evaluation value table 28 based on the part of speech of each word, Connectability is evaluated. For example, the connection evaluation value between the head and the common noun `` Code (Fugo) '' is -1000, the connection evaluation value between the head and the suffix `` F (fu) '' is -1000000, and the suffixes (`` mark (F) '' And “No. (go)”, “No. (go)” and “Chemical (F)”, “Chemical (F)” and “Law (Ho)”) have a connection evaluation value of -100. In addition, for example, the connection evaluation value of the common noun `` Code (Fugo) '' and the suffix `` Ka '' is -100, the connection evaluation of the common noun `` Code (Fugo) '' and the common noun `` Kaho '' The value is -150.
ここで、第2単語辞書20から抽出された普通名詞「化法(ケホー)」の先行単語としては、普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」が考えられる。普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」は何れも名詞類であるものの、単語連接可能性テーブル24には普通名詞「化法(ケホー)」の先行可能単語として登録されていない。従って、普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」と普通名詞「化法(ケホー)」との接続評価値が減少される。すなわち、主単語「化法(ケホー)」の先行可能単語と対応付けられた減点値は"51"であり、当初の接続評価値=-150から減点値=51が減算され、普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」と普通名詞「化法(ケホー)」との接続評価値は"-201"へ変更される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『普通名詞「符号(フゴー)」−接尾語「化(カ)」−接尾語「法(ホー)」』の組み合わせであるので、対応する正しい読み「フゴー・カ・ホー」が形態素解析の解析結果として出力される。
Here, as the preceding words of the common noun “Keho” extracted from the
また、図15には、解析対象テキスト32から抽出した1単位のテキスト「甚深化法」に対して形態素解析処理を行った例が示されている。図15の例では、テキスト「甚深化法」に含まれる単語として普通名詞「甚深(ジンシン)」、単漢字「甚(ジン)」、形容詞語幹「深(フカ)」、接尾語「化(カ)」、接尾語「法(ホー)」、動詞語幹「化(バ)」、普通名詞「法(ホー)」が第1単語辞書18から抽出される。また図15の例では、テキスト「甚深化法」に含まれる単語として第2単語辞書20から普通名詞「化法(ケホー)」が抽出される。
FIG. 15 shows an example in which a morphological analysis process is performed on one unit of the text “deepening method” extracted from the
次に、テキスト「甚深化法」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル28から対応する接続評価値が取得されることで、接続可能性が評価される。例えば、先頭と普通名詞「甚深(ジンシン)」との接続評価値は-1000、先頭と単漢字「甚(ジン)」との接続評価値は-1000、接尾語同士(「符(フ)」と「号(ゴー)」)の接続評価値は-100となる。また、例えば普通名詞「甚深(ジンシン)」と接尾語「化(カ)」との接続評価値は-100、普通名詞「甚深(ジンシン)」と普通名詞「化法(ケホー)」の接続評価値は-150となる。 Next, for all word pairs adjacent on the text “deepening method”, the corresponding connection evaluation value is acquired from the word-part-of-speech connection evaluation value table 28 based on the part of speech of each word, Connectability is evaluated. For example, the connection evaluation value between the head and the common noun `` Jin Shin '' is -1000, the connection evaluation value between the head and the single kanji `` Jin '' is -1000, and the suffixes (`` ”And“ go (go) ”) have a connection evaluation value of −100. Also, for example, the connection evaluation value of the common noun `` Jinshin '' and the suffix `` Ka '' is -100, the common noun `` Jin Shin '' and the common noun `` Kaho '' The connection evaluation value is -150.
ここで、第2単語辞書20から抽出された普通名詞「化法(ケホー)」の先行単語としては、普通名詞「甚深(ジンシン)」及び形容詞語幹「深(フカ)」が考えられる。このうち、形容詞語幹「深(フカ)」は品詞が名詞類に属していないので、単語連接可能性テーブル24による判定の対象から除外される。また、普通名詞「甚深(ジンシン)」は普通名詞「化法(ケホー)」の先行可能単語として単語連接可能性テーブル24に登録されている。従って、普通名詞「甚深(ジンシン)」と普通名詞「化法(ケホー)」との接続評価値は-150のまま維持される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『普通名詞「甚深(ジンシン)」−普通名詞「化法(ケホー)」』の組み合わせであるので、対応する正しい読み「ジンシン・ケホー」が形態素解析の解析結果として出力される。
Here, as the preceding words of the common noun “Keho” extracted from the
また、図16には、解析対象テキスト32から抽出した1単位のテキスト「その化法には」に対して形態素解析処理を行った例が示されている。図16の例では、テキスト「その化法には」に含まれる単語として連体詞「その」、接尾語「化(カ)」、接尾語「法(ホー)」、動詞語幹「化(バ)」、普通名詞「法(ホー)」、助詞「に」、助詞「は」が第1単語辞書18から抽出される。また図16の例では、テキスト「その化法には」に含まれる単語として第2単語辞書20から普通名詞「化法(ケホー)」が抽出される。次に、テキスト「その化法には」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル28から対応する接続評価値が取得されることで、接続可能性が評価される。
FIG. 16 shows an example in which a morphological analysis process is performed on one unit of text extracted from the
ここで、第2単語辞書20から抽出された普通名詞「化法(ケホー)」の先行単語としては連体詞「その」が考えられ、後続単語としては助詞「に」が考えられる。しかし、連体詞「その」及び助詞「に」は何れも品詞が名詞類に属していないので、単語連接可能性テーブル24による判定の対象から除外される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『連体詞「その」−普通名詞「化法(ケホー)」−助詞「に」−助詞「は」』の組み合わせであるので、対応する正しい読み「その・ケホー・に・は」が形態素解析の解析結果として出力される。
Here, the conjunctive word “that” is considered as the preceding word of the common noun “Keho” extracted from the
なお、上記では連接可能性テーブル生成処理(図6)において、単語連接可能性テーブル24の生成のみを行う態様を説明したが、開示の技術はこれに限定されるものではない。例えば、学習用テキストコーパス34に含まれるテキストに基づき、単語連接可能性テーブル24の生成と並行して、第2単語辞書20へ登録すべき単語の抽出及び第2単語辞書20への抽出した単語の情報の登録も併せて行うようにしてもよい。
In the above description, the mode of performing only the generation of the word connection possibility table 24 in the connection possibility table generation process (FIG. 6) has been described, but the disclosed technique is not limited to this. For example, based on the text included in the
また、上記では第2単語辞書20へ登録すべき単語の抽出と、単語連接可能性テーブル24の生成を、いずれも学習用テキストコーパス34に含まれるテキストを基に実施する態様を説明したが、開示の技術はこれに限定されるものではない。第2単語辞書20へ登録すべき単語の抽出と、単語連接可能性テーブル24の生成は、異なる学習用テキストコーパスに含まれるテキストを基に実施するようにしてもよい。
In the above description, the mode in which the extraction of the word to be registered in the
また、上記では形態素解析の解析精度を考慮して選択された単語の情報が各々登録された第1単語辞書18と、第1単語辞書18に未登録の単語を追加登録するための第2単語辞書20を各々設けた態様を説明したが、開示の技術はこれに限定されるものではない。例えば単語辞書を1つのみ設け、当該単語辞書に登録した名詞類の単語の組の連接可能性を判定する態様に適用してもよい。
Also, in the above, the
また、上記では解析対象テキスト32に対して形態素解析を行った結果に基づき、解析対象テキストを読み上げる音声を合成する音声合成を行う態様を説明したが、開示の技術に係る形態素解析は上記態様に限定されるものではない。例えば、形態素解析を行った結果に基づき、テキスト中の漢字に振り仮名を付加する処理を行う態様に適用してもよい。また、例えば日本語で記述されたテキストを別の言語で記述されたテキストへ翻訳する機械翻訳を行うに際し、読みに依って意味が異なる漢字の読みを判別する目的で形態素解析を実行する等の態様に適用することも可能である。
Moreover, although the aspect which performs the speech synthesis | combination which synthesize | combines the audio | voice which reads the analysis object text based on the result of having performed the morphological analysis with respect to the
更に、上記では解析対象のテキスト及び学習用のテキストとして日本語で記述されたテキストを例に説明したが、これに限定されるものではなく、読み(及び意味)が複数存在する語を含む言語(例えば中国語等)で記述されたテキストを適用することも可能である。 Furthermore, in the above description, the text to be analyzed and the text written in Japanese as the learning text have been described as examples. However, the present invention is not limited to this, and a language that includes a word having multiple readings (and meanings). It is also possible to apply text described in (eg Chinese).
また、上記では音声合成プログラム58が記憶部46に予め記憶(インストール)されている態様を説明したが、これに限定されるものではない。例えば、開示の技術における音声合成プログラム(及び形態素解析プログラム)は、CD−ROMやDVD−ROM等の記録媒体に記録されている形態で提供することも可能である。
In the above description, the
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。 All documents, patent applications and technical standards mentioned in this specification are to the same extent as if each individual document, patent application and technical standard were specifically and individually stated to be incorporated by reference. Incorporated by reference in the book.
以上の実施形態に関し、更に以下の付記を開示する。 Regarding the above embodiment, the following additional notes are disclosed.
(付記1)
前記単語辞書に各々登録されており、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を前記学習用のテキストから抽出し、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第2記憶部に記憶させる連接可能性判定部を更に備えた請求項1〜請求項4の何れか1項記載の形態素解析装置。
(Appendix 1)
A set of noun-like words that are registered in the word dictionary and are adjacent to the specific word across the specific word on the learning text are extracted from the learning text, and the learning 5. A connectability determination unit that stores information on a set of noun words extracted from the text for use in the second storage unit as information representing a set of connectable words. The morphological analyzer according to any one of the above.
(付記2)
前記連接可能性判定部は、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第2記憶部に記憶させる際に、前記形態素解析部による処理において、前記第2記憶部に記憶させる前記連接可能な単語の組と一部の単語が異なる名詞類の単語の組が前記解析対象のテキスト上で隣接していた場合に、前記一部の単語が異なる名詞類の単語の組に対する前記接続評価値から減ずる減点値を、前記一部の単語が異なる名詞類の単語の組が、前記接続評価値が最大となる単語の組み合わせに含まれないように設定し、設定した前記減点値を、前記連接可能な単語の組と対応付けて前記第2記憶部に記憶させる付記1記載の形態素解析装置。
(Appendix 2)
The connection possibility determination unit is configured to store the information of a noun class word extracted from the learning text in the second storage unit as information indicating a connectable word set, and perform the morphological analysis. In the processing by the unit, when the group of connectable words stored in the second storage unit and a group of nouns whose words are different from each other are adjacent on the text to be analyzed, A deduction value subtracted from the connection evaluation value for a set of words of nouns with different words is included in the combination of words with a maximum connection evaluation value of the word set of nouns with different partial words The morpheme analysis device according to
(付記3)
前記第1記憶部は、前記単語辞書として、前記形態素解析の解析精度を考慮して選択された単語の情報が予め登録された第1単語辞書と、前記第1単語辞書に未登録の単語の情報を追加登録するための第2単語辞書と、を記憶し、
前記第2記憶部は、一方が前記第1単語辞書に登録されると共に他方が前記第2単語辞書に登録され、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶し、
前記形態素解析部は、一方が前記第1単語辞書に登録されると共に他方が前記第2単語辞書に登録され、前記解析対象のテキスト上で隣接しており、前記連接可能な単語の組として前記第2記憶部に記憶されていない名詞類の単語の組の前記接続評価値を、前記接続評価値が最大となる単語の組み合わせに含まれないように減少させる請求項1〜請求項4、付記1及び付記2の何れかに記載の形態素解析装置。
(Appendix 3)
The first storage unit includes, as the word dictionary, a first word dictionary in which information on a word selected in consideration of analysis accuracy of the morphological analysis is registered in advance, and words that are not registered in the first word dictionary. A second word dictionary for additionally registering information;
One of the second storage units is registered in the first word dictionary and the other is registered in the second word dictionary, and is adjacent to the specific word across the specific word on the learning text. Memorize a set of nouns as a set of connectable words,
The morpheme analyzer is registered in the first word dictionary and the other is registered in the second word dictionary, adjacent on the text to be analyzed, and as the set of connectable words. The connection evaluation value of a set of noun class words that is not stored in the second storage unit is reduced so as not to be included in a word combination that maximizes the connection evaluation value. The morpheme analyzer according to any one of 1 and
(付記4)
一方が前記第1単語辞書に登録されると共に他方が前記第2単語辞書に登録され、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を前記学習用のテキストから抽出し、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第2記憶部に記憶させる連接可能性判定部を更に備えた付記3記載の形態素解析装置。
(Appendix 4)
One of the words is registered in the first word dictionary and the other is registered in the second word dictionary, and a noun word adjacent to the specific word is sandwiched between the specific words on the learning text. A connection possibility that a set is extracted from the learning text, and information on a noun class word extracted from the learning text is stored in the second storage unit as information representing a connectable word set The morphological analysis device according to attachment 3, further comprising a determination unit.
(付記5)
前記連接可能性判定部は、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第2記憶部に記憶させる際に、前記形態素解析部による処理において、前記第2記憶部に記憶させる前記連接可能な単語の組と前記第1単語辞書に登録された一方の単語が異なる名詞類の単語の組が前記解析対象のテキスト上で隣接していた場合に、前記一方の単語が異なる名詞類の単語の組に対する前記接続評価値から減ずる減点値を、前記一方の単語が異なる名詞類の単語の組が、前記接続評価値が最大となる単語の組み合わせに含まれないように設定し、設定した前記減点値を、前記連接可能な単語の組と対応付けて前記第2記憶部に記憶させる付記4記載の形態素解析装置。
(Appendix 5)
The connection possibility determination unit is configured to store the information of a noun class word extracted from the learning text in the second storage unit as information indicating a connectable word set, and perform the morphological analysis. In the processing by the unit, the set of connectable words stored in the second storage unit and the set of words of nouns different from one word registered in the first word dictionary are adjacent on the text to be analyzed A deduction value subtracted from the connection evaluation value with respect to a pair of nouns having a different one word, the word combination having a different noun with a different one word has a maximum connection evaluation value. The morpheme analyzer according to appendix 4, wherein the set deduction value is stored in the second storage unit in association with the connectable word set, so as not to be included in a combination of words.
(付記6)
前記連接可能性判定部は、前記連接可能な単語の組が、前記第1単語辞書に登録された一方の単語が前記学習用のテキスト上で前記第2単語辞書に登録された他方の単語よりも前に位置している単語の組である場合には、設定した前記減点値を、前記解析対象のテキスト上で隣接する単語の組であって、前記連接可能な単語の組と前記第1単語辞書に登録され前記解析対象のテキスト上で前に位置している一方の単語が異なる名詞類の単語の組に適用する前記減点値として前記第2記憶部に記憶させ、前記連接可能な単語の組が、前記第1単語辞書に登録された一方の単語が前記学習用のテキスト上で前記第2単語辞書に登録された他方の単語よりも後に位置している単語の組である場合には、設定した前記減点値を、前記解析対象のテキスト上で隣接する単語の組であって、前記連接可能な単語の組と前記第1単語辞書に登録され前記解析対象のテキスト上で後に位置している一方の単語が異なる名詞類の単語の組に適用する前記減点値として前記第2記憶部に記憶させる付記5記載の形態素解析装置。
(Appendix 6)
The connection possibility determination unit is configured such that one word registered in the first word dictionary is a set of words that can be connected from the other word registered in the second word dictionary on the learning text. If the set is a previous word set, the set deduction point value is a set of adjacent words on the text to be analyzed, the word set that can be connected, and the first set. A word that is registered in the word dictionary and stored in the second storage unit as the deduction value to be applied to a set of words of different nouns in which one word positioned before in the text to be analyzed is connected to the word Is a set of words in which one word registered in the first word dictionary is positioned after the other word registered in the second word dictionary on the learning text. Indicates the set deduction value as the text to be analyzed. A set of words adjacent to each other, wherein the set of connectable words and a set of words of a noun class that are registered in the first word dictionary and one of the words positioned later on the text to be analyzed are different The morpheme analyzer according to claim 5, which is stored in the second storage unit as the deduction point value applied to.
(付記7)
前記特定の単語は、「の」「が」「に」「を」「な」「する」「した」の何れかである請求項1〜請求項4、付記1〜付記6の何れかに記載の形態素解析装置。
(Appendix 7)
The specific word is any one of “NO”, “GA”, “NI”, “ON”, “NA”, “YES”, “YES”, or any one of
10 音声合成装置
12 形態素解析装置
14 形態素解析部
16 単語連接可能性判定部
18 第1単語辞書
20 第2単語辞書
22 第1記憶部
24 単語連接可能性テーブル
26 第2記憶部
28 単語品詞間接続評価値テーブル
30 第3記憶部
32 解析対象テキスト
34 学習用テキストコーパス
36 第4記憶部
38 係り受け解析部
40 表音文字列生成部
42 音声合成部
44 メモリ
46 記憶部
58 音声合成プログラム
60 形態素解析プロセス
70 コンピュータ
72 CPU
DESCRIPTION OF
Claims (9)
前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部と、
前記単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され、かつ前記解析対象のテキスト上で隣接している単語の組のうち、前記連接可能な単語の組として前記第2記憶部に記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させ、前記接続評価値が最大となる単語の組み合わせに基づいて前記解析対象のテキストの形態素解析を行う形態素解析部と、
を含む形態素解析装置。 A first storage unit that stores a word dictionary in which a plurality of words are registered in association with at least the part of speech of each of the words;
A second set of words that are registered in the word dictionary and that are adjacent to the specific word on the learning text and that are adjacent to the specific word are stored as a set of connectable words. A storage unit;
A connection evaluation value representing a connection possibility is obtained for each set of words that are registered in the word dictionary and are adjacent to each other in the analysis target text, and is registered in the word dictionary and is stored on the analysis target text. Among the adjacent word pairs, the word combination of the noun class that is not stored in the second storage unit as the connectable word set is the word combination with the maximum connection evaluation value. A morpheme analysis unit that reduces the connection evaluation value so as not to be included, and performs a morphological analysis of the text to be analyzed based on a combination of words that maximizes the connection evaluation value;
Morphological analyzer including
前記形態素解析部は、前記連接可能な単語の組として前記第2記憶部に記憶されていない名詞類の単語の組として、前記第2記憶部に記憶されている前記連接可能な単語の組と前記一部の単語が異なる名詞類の単語の組の前記接続評価値から、前記第2記憶部に記憶されている前記連接可能な単語の組と対応付けて前記第2記憶部に記憶された前記減点値を減ずる請求項1記載の形態素解析装置。 The second storage unit is associated with the group of connectable words, and is a group of nouns whose words are partly different from the group of connectable words stored in the second storage unit. Is stored on the analysis target text, a deduction value subtracted from the connection evaluation value of a set of words of different nouns in which some of the words are different is stored,
The morphological analysis unit includes the connectable word set stored in the second storage unit as a set of noun words that are not stored in the second storage unit as the set of connectable words. From the connection evaluation value of a set of words of different nouns in which some of the words are different from each other, stored in the second storage unit in association with the set of connectable words stored in the second storage unit The morpheme analyzer according to claim 1, wherein the deduction point value is reduced.
単語の組の接続可能性を表す接続評価値を前記単語の組における個々の前記単語の品詞の組み合わせ毎に記憶する第3記憶部を更に備え、
前記形態素解析部は、前記解析対象のテキスト上で隣接している単語の組における個々の前記単語の品詞の組み合わせに対応する前記接続評価値を前記第3記憶部から読み出すことで、前記単語の組の前記接続評価値を求める請求項3記載の形態素解析装置。 In the word dictionary, a plurality of words are registered in association with the part-of-speech names of the individual words,
A third storage unit for storing a connection evaluation value representing the connectability of the word set for each combination of part of speech of the word in the word set;
The morpheme analysis unit reads the connection evaluation value corresponding to the combination of parts of speech of each word in a set of words adjacent to each other in the analysis target text from the third storage unit. The morphological analyzer according to claim 3, wherein the connection evaluation value of a set is obtained.
前記形態素解析装置による前記形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析部と、
前記係り受け解析部による係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成部と、
前記表音文字列生成部によって生成された前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成部と、
を含む音声合成装置。 A morphological analyzer according to any one of claims 1 to 4,
Based on the result of the morpheme analysis by the morpheme analyzer, a dependency analysis unit that performs dependency analysis on the text to be analyzed;
Based on the result of dependency analysis by the dependency analysis unit, a phonetic character string generation unit that generates a phonetic character string in which information indicating at least a paragraph break is added to a character string indicating the reading of the text to be analyzed When,
A speech synthesizer that synthesizes speech that reads out the phonogram string based on the phonogram string generated by the phonogram string generator;
A speech synthesizer.
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
を含む形態素解析方法。 Possibility of connection with a set of words that are stored in the first storage unit and are registered in a word dictionary in which a plurality of words are registered in association with at least the part of speech of each word and are adjacent on the text to be analyzed A connection evaluation value that represents each of the word pairs registered in the word dictionary and adjacent to the analysis target text, registered in the word dictionary and specified in the learning text. A noun that is not stored as a set of connectable words in a second storage unit that stores a set of words of nouns that are adjacent to the specific word as a set of connectable words For a class of words, a connection possibility evaluation step for reducing the connection evaluation value so that the connection evaluation value is not included in the word combination having the maximum value, and
A morpheme analysis step for performing a morpheme analysis of the text to be analyzed based on a combination of words having a maximum connection evaluation value obtained in the connection possibility evaluation step;
A morphological analysis method including:
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
前記形態素解析ステップによる形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析ステップと、
前記係り受け解析ステップによる前記係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成ステップと、
前記表音文字列生成ステップで生成した前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成ステップと、
を含む音声合成方法。 Possibility of connection with a set of words that are stored in the first storage unit and are registered in a word dictionary in which a plurality of words are registered in association with at least the part of speech of each word and are adjacent on the text to be analyzed A connection evaluation value that represents each of the word pairs registered in the word dictionary and adjacent to the analysis target text, registered in the word dictionary and specified in the learning text. A noun that is not stored as a set of connectable words in a second storage unit that stores a set of words of nouns that are adjacent to the specific word as a set of connectable words For a class of words, a connection possibility evaluation step for reducing the connection evaluation value so that the connection evaluation value is not included in the word combination having the maximum value, and
A morpheme analysis step for performing a morpheme analysis of the text to be analyzed based on a combination of words having a maximum connection evaluation value obtained in the connection possibility evaluation step;
A dependency analysis step for performing dependency analysis on the text to be analyzed based on the result of morphological analysis by the morpheme analysis step;
Based on the result of the dependency analysis in the dependency analysis step, a phonetic character string generation that generates a phonetic character string in which information representing at least a segment break is added to a character string representing the reading of the text to be analyzed Steps,
Based on the phonogram string generated in the phonogram string generation step, a voice synthesis step of synthesizing a speech that reads out the phonogram string;
A speech synthesis method including:
第1記憶部に記憶され、複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書に各々登録され解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部に、前記連接可能な単語の組として記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させる接続可能性評価ステップと、
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
を含む処理を実行させるための形態素解析プログラム。 On the computer,
Possibility of connection with a set of words that are stored in the first storage unit and are registered in a word dictionary in which a plurality of words are registered in association with at least the part of speech of each word and are adjacent on the text to be analyzed A connection evaluation value that represents each of the word pairs registered in the word dictionary and adjacent to the analysis target text, registered in the word dictionary and specified in the learning text. A noun that is not stored as a set of connectable words in a second storage unit that stores a set of words of nouns that are adjacent to the specific word as a set of connectable words For a class of words, a connection possibility evaluation step for reducing the connection evaluation value so that the connection evaluation value is not included in the word combination having the maximum value, and
A morpheme analysis step for performing a morpheme analysis of the text to be analyzed based on a combination of words having a maximum connection evaluation value obtained in the connection possibility evaluation step;
A morpheme analysis program for executing processing including
第1記憶部に記憶され、複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書に各々登録され解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部に、前記連接可能な単語の組として記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させる接続可能性評価ステップと、
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
前記形態素解析ステップによる形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析ステップと、
前記係り受け解析ステップによる前記係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成ステップと、
前記表音文字列生成ステップで生成した前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成ステップと、
を含む処理を実行させるための音声合成プログラム。 On the computer,
Possibility of connection with a set of words that are stored in the first storage unit and are registered in a word dictionary in which a plurality of words are registered in association with at least the part of speech of each word and are adjacent on the text to be analyzed A connection evaluation value that represents each of the word pairs registered in the word dictionary and adjacent to the analysis target text, registered in the word dictionary and specified in the learning text. A noun that is not stored as a set of connectable words in a second storage unit that stores a set of words of nouns that are adjacent to the specific word as a set of connectable words For a class of words, a connection possibility evaluation step for reducing the connection evaluation value so that the connection evaluation value is not included in the word combination having the maximum value, and
A morpheme analysis step for performing a morpheme analysis of the text to be analyzed based on a combination of words having a maximum connection evaluation value obtained in the connection possibility evaluation step;
A dependency analysis step for performing dependency analysis on the text to be analyzed based on the result of morphological analysis by the morpheme analysis step;
Based on the result of the dependency analysis in the dependency analysis step, a phonetic character string generation that generates a phonetic character string in which information representing at least a segment break is added to a character string representing the reading of the text to be analyzed Steps,
Based on the phonogram string generated in the phonogram string generation step, a voice synthesis step of synthesizing a speech that reads out the phonogram string;
Speech synthesis program for executing processing including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011239075A JP5853595B2 (en) | 2011-10-31 | 2011-10-31 | Morphological analyzer, method, program, speech synthesizer, method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011239075A JP5853595B2 (en) | 2011-10-31 | 2011-10-31 | Morphological analyzer, method, program, speech synthesizer, method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097534A true JP2013097534A (en) | 2013-05-20 |
JP5853595B2 JP5853595B2 (en) | 2016-02-09 |
Family
ID=48619425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011239075A Active JP5853595B2 (en) | 2011-10-31 | 2011-10-31 | Morphological analyzer, method, program, speech synthesizer, method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5853595B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015007943A (en) * | 2013-06-26 | 2015-01-15 | 日本電気株式会社 | Morphological analysis device, morphological analysis method, and morphological analysis program |
JP2017027536A (en) * | 2015-07-28 | 2017-02-02 | Kddi株式会社 | Program, device, and method for estimating group state by characteristic word |
CN109213992A (en) * | 2017-07-06 | 2019-01-15 | 富士通株式会社 | Morphological analysis apparatus and morphological analysis method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020166748A1 (en) * | 2019-02-15 | 2020-08-20 | 엘지전자 주식회사 | Voice synthesis apparatus using artificial intelligence, operating method for voice synthesis apparatus, and computer-readable recording medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04242472A (en) * | 1991-01-16 | 1992-08-31 | Oki Electric Ind Co Ltd | Morpheme analysis cost creation supporting method |
JPH07175810A (en) * | 1993-12-18 | 1995-07-14 | Ricoh Co Ltd | Morpheme analyzing device |
JP2003099426A (en) * | 2001-09-25 | 2003-04-04 | Canon Inc | Natural language processor, its control method and program |
JP2006030326A (en) * | 2004-07-13 | 2006-02-02 | Hitachi Ltd | Speech synthesizer |
-
2011
- 2011-10-31 JP JP2011239075A patent/JP5853595B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04242472A (en) * | 1991-01-16 | 1992-08-31 | Oki Electric Ind Co Ltd | Morpheme analysis cost creation supporting method |
JPH07175810A (en) * | 1993-12-18 | 1995-07-14 | Ricoh Co Ltd | Morpheme analyzing device |
JP2003099426A (en) * | 2001-09-25 | 2003-04-04 | Canon Inc | Natural language processor, its control method and program |
JP2006030326A (en) * | 2004-07-13 | 2006-02-02 | Hitachi Ltd | Speech synthesizer |
Non-Patent Citations (6)
Title |
---|
CSNG200201274008; 渕 武志,松岡 浩司,高木 伸一郎: '保守性を考慮した日本語形態素解析システム' 情報処理学会研究報告 Vol.97 No.4 第97巻第4号, 19970121, p.59-p.66, 社団法人情報処理学会 * |
CSNG200300692008; 李 泰憲,安藤 一秋,大野 将樹,青江 順一: '複合語生成規則を用いたキーワード導出手法' 電子情報通信学会論文誌 (J84-D-II) 第5号 第J84-D-II巻第5号【ISSN】0915-1923, 20010501, p.812-p.821, 社団法人電子情報通信学会 * |
CSNG200800055091; 内元 清貴,関根 聡,井佐原 均: '最大エントロピーモデルに基づく形態素解析と辞書による影響' 言語処理学会第6回年次大会発表論文集 , 20000307, p.384-p.387, 言語処理学会 * |
JPN6015003232; 渕 武志,松岡 浩司,高木 伸一郎: '保守性を考慮した日本語形態素解析システム' 情報処理学会研究報告 Vol.97 No.4 第97巻第4号, 19970121, p.59-p.66, 社団法人情報処理学会 * |
JPN6015003236; 李 泰憲,安藤 一秋,大野 将樹,青江 順一: '複合語生成規則を用いたキーワード導出手法' 電子情報通信学会論文誌 (J84-D-II) 第5号 第J84-D-II巻第5号【ISSN】0915-1923, 20010501, p.812-p.821, 社団法人電子情報通信学会 * |
JPN6015003237; 内元 清貴,関根 聡,井佐原 均: '最大エントロピーモデルに基づく形態素解析と辞書による影響' 言語処理学会第6回年次大会発表論文集 , 20000307, p.384-p.387, 言語処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015007943A (en) * | 2013-06-26 | 2015-01-15 | 日本電気株式会社 | Morphological analysis device, morphological analysis method, and morphological analysis program |
JP2017027536A (en) * | 2015-07-28 | 2017-02-02 | Kddi株式会社 | Program, device, and method for estimating group state by characteristic word |
CN109213992A (en) * | 2017-07-06 | 2019-01-15 | 富士通株式会社 | Morphological analysis apparatus and morphological analysis method |
Also Published As
Publication number | Publication date |
---|---|
JP5853595B2 (en) | 2016-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20110184723A1 (en) | Phonetic suggestion engine | |
JP2009223463A (en) | Synonymy determination apparatus, method therefor, program, and recording medium | |
US20070179779A1 (en) | Language information translating device and method | |
Alghamdi et al. | Automatic restoration of arabic diacritics: a simple, purely statistical approach | |
JP5625827B2 (en) | Morphological analyzer, speech synthesizer, morphological analysis method, and morphological analysis program | |
JP5524138B2 (en) | Synonym dictionary generating apparatus, method and program thereof | |
JP5853595B2 (en) | Morphological analyzer, method, program, speech synthesizer, method, program | |
CN107870900B (en) | Method, apparatus and recording medium for providing translated text | |
Al-Mannai et al. | Unsupervised word segmentation improves dialectal Arabic to English machine translation | |
JP5642037B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
JP5772514B2 (en) | Morphological analyzer, method, program, speech synthesizer, method, program | |
CN106294310B (en) | A kind of Tibetan language tone prediction technique and system | |
Tuan et al. | A study of text normalization in Vietnamese for text-to-speech system | |
JP2009176148A (en) | Unknown word determining system, method and program | |
JP6055267B2 (en) | Character string dividing device, model file learning device, and character string dividing system | |
KR100487716B1 (en) | Method for machine translation using word-level statistical information and apparatus thereof | |
Ramachandran et al. | An iterative suffix stripping Tamil stemmer | |
Jansche et al. | Named entity transcription with pair n-gram models | |
JP5302784B2 (en) | Machine translation method and system | |
Saychum et al. | Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling. | |
KR101777141B1 (en) | Apparatus and method for inputting chinese and foreign languages based on hun min jeong eum using korean input keyboard | |
KR100322743B1 (en) | Morphological analysis method and apparatus used in text-to-speech synthesizer | |
Kaalep et al. | You can’t suggest that?!: Comparisons and improvements of speller error models | |
Algarni | Light morphology and arabic information retrieval. | |
WO2024004183A1 (en) | Extraction device, generation device, extraction method, generation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150401 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150428 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5853595 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |