JP2001242886A - Speech recognition device, morpheme analyzer, kana kanji converter and its method and recording medium with recorded program - Google Patents

Speech recognition device, morpheme analyzer, kana kanji converter and its method and recording medium with recorded program

Info

Publication number
JP2001242886A
JP2001242886A JP2000051475A JP2000051475A JP2001242886A JP 2001242886 A JP2001242886 A JP 2001242886A JP 2000051475 A JP2000051475 A JP 2000051475A JP 2000051475 A JP2000051475 A JP 2000051475A JP 2001242886 A JP2001242886 A JP 2001242886A
Authority
JP
Japan
Prior art keywords
word
kana
phoneme
string
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000051475A
Other languages
Japanese (ja)
Other versions
JP3935655B2 (en
Inventor
Hirotaka Goi
啓恭 伍井
Yuzo Maruta
裕三 丸田
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000051475A priority Critical patent/JP3935655B2/en
Publication of JP2001242886A publication Critical patent/JP2001242886A/en
Application granted granted Critical
Publication of JP3935655B2 publication Critical patent/JP3935655B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To realize speech recognition device in which strong constraint can be applied while the order of n gram is held small and a stronger constraint can be applied when the orders are the same. SOLUTION: A phoneme probability computing means 2 computes phoneme occurrence probability corresponding to each phoneme of inputted voice to generate phoneme string candidates. A word probability computing means 9 computes word occurrence probability of each word candidate corresponding to the phoneme string candidate by referring phoneme n grams 7 and 8 which classify the phoneme string of an object language, a word declared string corresponding to the phoneme string and occurrence probability for every topic and store them. An output means 6 outputs the word string candidates which are computed using the phoneme occurrence probability and the word occurrence probability and are similar to the inputted voice.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、自然言語の統計量
を用い、対象言語の文字、あるいは単語の連接生起確率
であるnグラムに基づいて、音声認識、または形態素解
析、または仮名漢字変換を行う音声認識装置、形態素解
析装置、仮名漢字変換装置、およびそれらのための音声
認識方法、形態素解析方法、仮名漢字変換方法、ならび
にそれらのプログラムを記録した記録媒体に関し、特
に、nグラムの統計量を話題別に扱うことによる解析精
度の向上に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to speech recognition, morphological analysis, or kana-kanji conversion based on n-grams, which are the probabilities of occurrences of characters or words in a target language, using statistics of natural languages. The present invention relates to a speech recognition apparatus, a morphological analyzer, a kana-kanji conversion apparatus, and a speech recognition method, a morphological analysis method, a kana-kanji conversion method for them, and a recording medium on which the program is recorded. This is related to improving the analysis accuracy by treating each topic by topic.

【0002】[0002]

【従来の技術】自然言語の統計量を用いた解析技術は多
くの文書処理に応用されている。例えば、音声認識によ
る日本語の入力は文書入力の手段として有用であり、よ
り認識精度の向上が望まれる。音声を精度よく認識する
ために、言語モデルとして自然言語の統計量を用い、対
象言語の文字、または単語の連接生起確率であるnグラ
ムを用いる方式が注目されている。しかし、nグラムで
の制約は次数nに影響されるため、nが小さくなると制
約が弱くなってしまう。逆にnグラムの次数nを増加さ
せると、頻度を計数する表が巨大になってしまうという
深刻な問題があるとともに、信頼性のある統計量を確保
するためには非常に膨大な例文集が必要になるといった
課題があった。なお、音声認識における、このようなn
グラムの表の増加を解決するための圧縮方式としては、
例えば特表平10−501078号公報に示すようなも
のが提案されている。
2. Description of the Related Art Analysis techniques using statistics of natural languages are applied to many document processes. For example, Japanese input by voice recognition is useful as a means for inputting a document, and further improvement in recognition accuracy is desired. In order to recognize speech with high accuracy, attention has been paid to a method of using a natural language statistic as a language model and using an n-gram, which is a connection occurrence probability of a character or word in a target language. However, since the constraint on the n-gram is affected by the order n, the smaller the n, the weaker the constraint. Conversely, increasing the degree n of the n-gram has a serious problem that the table for counting the frequency becomes huge, and a very large collection of example sentences is needed to secure reliable statistics. There was a problem that it became necessary. Note that such n in speech recognition
As a compression method to solve the increase in the gram table,
For example, the one disclosed in Japanese Patent Publication No. 10-501078 has been proposed.

【0003】以下、自然言語の統計量を用いた従来の解
析技術について説明する。図26は発話された「saN
kainoseNsee」より認識結果「3階の先生」
を得るための、従来の解析方式が適用された音声認識装
置の構成例を示すブロック図である。図において、1は
マイク、2は音韻確率算出手段、3は単語予測手段、4
はnグラム表(この場合には3グラム表)、5は情報を
記憶するRAM、6は出力手段である。
A conventional analysis technique using natural language statistics will be described below. FIG. 26 shows the uttered “saN
Recognition result from "kainoseNsee""3rd floor teacher"
FIG. 9 is a block diagram showing a configuration example of a speech recognition device to which a conventional analysis method is applied to obtain the same. In the figure, 1 is a microphone, 2 is a phoneme probability calculating means, 3 is a word predicting means, 4
Is an n-gram table (in this case, a 3-gram table), 5 is a RAM for storing information, and 6 is an output means.

【0004】以下、単語列候補の生成について説明す
る。単語列候補は、発話された単語列をW、音韻列をY
としたときの、単語列の確率P(W|Y)を最大にする
単語列Wを算出することにより得られる。なお、この単
語列の確率P(W|Y)は次の式(1)で与えられる。
Hereinafter, generation of word string candidates will be described. Word string candidates are W for a spoken word string and Y for a phoneme string.
Is obtained by calculating the word string W that maximizes the probability P (W | Y) of the word string. Note that the probability P (W | Y) of this word string is given by the following equation (1).

【0005】[0005]

【数1】 (Equation 1)

【0006】単語列候補を生成するためには、前述のよ
うにこの確率P(W|Y)を最大にする単語列Wを求め
ればよいので、上記式(1)の右辺のうち、単語列Wに
共通な確率P(Y)は省略することができ、確率P(Y
|W)P(W)を最大にする単語列Wを求めればよい。
なお、上記P(Y|W)は単語列Wが与えられたときの
音韻列Yの出現確率であり、P(W)は単語列Wの出現
確率である。
In order to generate a word string candidate, a word string W which maximizes the probability P (W | Y) may be obtained as described above. The probability P (Y) common to W can be omitted, and the probability P (Y
| W) The word string W that maximizes P (W) may be obtained.
Note that P (Y | W) is the appearance probability of the phoneme string Y when the word string W is given, and P (W) is the appearance probability of the word string W.

【0007】ここで、時刻t=1,2,…,Lにおい
て、単語列Wに対応する音韻列Yが以下の式(2)で決
定されるとき、音韻列Yの出現確率P(Y|W)は式
(2)に示した各音韻Yの出現確率である音韻確率P
(Y)より、次の式(3)によって算出することがで
きる。
Here, at time t = 1, 2,..., L, when the phoneme string Y corresponding to the word string W is determined by the following equation (2), the appearance probability P (Y | W) is the probability of occurrence of each phoneme Y i shown in equation (2) phoneme probability P
From (Y i ), it can be calculated by the following equation (3).

【0008】[0008]

【数2】 (Equation 2)

【0009】また、単語列Wの出現確率P(W)は、m
語からなる単語列Wが次の式(4)で決定されるとき、
上記式(2)による各音韻Yの出現確率である音韻確
率とは独立に、単語3グラムの確率による次の式(5)
により近似する。なお、この式(5)において、iが1
もしくは2である場合、wi−1,wi−2には(#)
が入る。
The appearance probability P (W) of the word string W is m
When the word string W composed of words is determined by the following equation (4),
Independently of the phoneme probability of the occurrence probability of each phoneme Y i according to the formula (2), the next by the probability of the word 3 g (5)
Approximate by In this equation (5), i is 1
Or, in the case of 2, wi-1 and wi -2 have (#)
Enters.

【0010】[0010]

【数3】 (Equation 3)

【0011】上述した計算により音韻列候補のうち3グ
ラムインデックスに単語の列が存在するものについて、
単語列確率P(W|Y)を最大にする単語列Wを算出す
る。それぞれの単語の出現確率は、図26に示した単語
の3グラム表4に予め記憶してある頻度値をもとに算出
する。
According to the above calculation, a phoneme sequence candidate having a word sequence in the 3-gram index is:
A word string W that maximizes the word string probability P (W | Y) is calculated. The appearance probability of each word is calculated based on the frequency values stored in advance in the word 3 gram table 4 shown in FIG.

【0012】算出した単語列Wを認識結果として出力手
段6より出力する。
The calculated word string W is output from the output means 6 as a recognition result.

【0013】次に動作について説明する。ここで、図2
7は上記従来の音声認識装置における音声認識の概略動
作の流れを示すフローチャートである。この音声認識の
処理は、ステップST1においてマイク1に対して発話
することによって開始される。マイク1はステップST
2においてこの発話された音声が入力されると、ステッ
プST3でその入力音声を電気信号に変換する。次にス
テップST4において、音韻確率算出手段2はこのマイ
ク1からの電気信号をA/D変換し、量子化した後、ス
ペクトル分析を行って、音節単位に分離した認識結果を
連接し、音韻列候補としてRAM5にこれを記憶する。
Next, the operation will be described. Here, FIG.
FIG. 7 is a flowchart showing a schematic operation flow of speech recognition in the conventional speech recognition apparatus. The voice recognition process is started by speaking to the microphone 1 in step ST1. Microphone 1 is step ST
When the uttered voice is input in step 2, the input voice is converted into an electric signal in step ST3. Next, in step ST4, the phoneme probability calculating means 2 performs A / D conversion on the electric signal from the microphone 1, quantizes the signal, performs spectrum analysis, concatenates recognition results separated into syllable units, and generates a phoneme sequence. This is stored in the RAM 5 as a candidate.

【0014】その後、単語予測手段3はステップST5
で、RAM5からその音韻列候補を1つ取り出し、先頭
単語列の初期化をする。次にステップST6において、
検索キーとして、対応する3グラム情報を3グラム表4
より検索し、ステップST7にて、検索された3グラム
情報をもとに単語3連鎖の確率値を計算する。このよう
にして求めた確率値に基づいて、対応する音韻列候補に
対して最も確率の高い単語列Wを、ステップST8でR
AM5に記憶する。
Thereafter, the word predicting means 3 determines in step ST5
Then, one of the phoneme string candidates is extracted from the RAM 5 and the head word string is initialized. Next, in step ST6,
Table 3 shows the corresponding 3-gram information as a search key.
In step ST7, a probability value of three words in a chain is calculated based on the searched three-gram information. Based on the probability value thus obtained, a word string W having the highest probability for the corresponding phoneme string candidate is determined in step ST8 by R
Store it in AM5.

【0015】次に、ステップST9において、このRA
M5に記憶されたすべての音韻列候補に対して上述の計
算を行い、最も確率の高い単語列Wと音韻列候補を選択
してそれを出力手段6から出力し、ステップST10に
進んでこの一連の音声認識処理を終了する。
Next, in step ST9, this RA
The above-mentioned calculation is performed for all the phoneme string candidates stored in M5, the word string W and the phoneme string candidate having the highest probability are selected and output from the output means 6, and the process proceeds to step ST10 to proceed to step ST10. Ends the voice recognition process.

【0016】このように、発話に対して類似する確率の
高い単語列Wが求められる。
As described above, a word string W having a high probability of being similar to an utterance is obtained.

【0017】なお、従来の音声認識装置に関連する記載
のある文献としては、上記特表平10−501078号
公報以外にも、音声認識時に認識結果より話題が得られ
た場合に、次の認識にその話題を用いる特開昭62−1
9899号公報、辞書検索で抽出した話題を用いて辞書
を選択し、検索精度を向上させる特開平63−2190
67号公報、構文的な制約を用いることでそれまでのn
グラムモデルよりも制約を強める特開平6−34229
8号公報などがある。
[0017] In addition to the above-mentioned documents having a description related to the conventional speech recognition apparatus, in addition to the above-mentioned Japanese Patent Application Laid-Open No. 10-501078, when a topic is obtained from the recognition result at the time of speech recognition, the following recognition is performed. Japanese Patent Application Laid-Open No. 62-1
No. 9899, JP-A-63-2190 that selects a dictionary using topics extracted by dictionary search and improves search accuracy
No. 67, by using syntactical constraints,
Japanese Patent Application Laid-Open No. 6-34229, which makes restrictions more restrictive than the Gram model
No. 8 publication.

【0018】[0018]

【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、nグラムの次数を大
きくとれば言語制約は強くなるが、nグラム表4が巨大
化するという課題があるうえ、実用的に巨大なnグラム
表4をうめるだけの統計量をとるための例文が必要とな
り、また、nグラムの次数を小さくすると言語制約が弱
まり、解析精度の低下をまねくといった課題があった。
すなわち、「3号アーチの先制」という句をこの音声認
識装置に入力した時、nグラムは、例えば大量の新聞デ
ータから統計量を抽出し、nの次数を2として、簡単化
のため、形態素の区切りは「さんごう・あーち・の・せ
んせい」とした場合、「3号アーチの」までは正しく解
析されると仮定しても、「の」の次の「せんせい」は新
聞全体の統計量を用いてしまうと「先生」のほうが高く
なってしまうため、「3号アーチの先生」といった認識
誤りを起こしてしまう可能性が高くなり、nの次数を大
きくすれば正解が得られる可能性は高くなるが、前述の
nグラム表4が巨大化し、必要な例文集も巨大化するな
どの課題があった。
Since the conventional speech recognition apparatus is configured as described above, the language constraint becomes stronger if the degree of the n-gram is increased, but the n-gram table 4 becomes huge. In addition, there is a need for an example sentence to obtain enough statistics to fill a huge n-gram table 4 in practical use. Also, if the degree of the n-gram is reduced, language restrictions are weakened, and analysis accuracy is reduced. was there.
That is, when the phrase "No. 3 arch pre-emption" is input to this speech recognition apparatus, the n-gram extracts a statistic from, for example, a large amount of newspaper data, sets the order of n to 2, and for simplicity, the morpheme If the delimiter is "Sango / Achi-No-Sensei", even if it is assumed that up to "No. 3 arch" is correctly analyzed, the following "Sensei" after "No" is the statistics of the entire newspaper If the amount is used, "teacher" will be higher, so there is a high possibility that a recognition error such as "3rd arch teacher" will occur. If the degree of n is increased, a correct answer may be obtained. However, there is a problem that the above-mentioned n-gram table 4 becomes huge and necessary example sentences become huge.

【0019】この発明は上記のような課題を解決するた
めになされたもので、nグラムの次数を小さくしたまま
強い制約をかけることができ、また同じ次数であればよ
り強い制約をかけることができる、音声認識、または形
態素解析、または仮名漢字変換を行う装置、およびそれ
らのための方法、ならびにそれらのプログラムを記録し
た記録媒体を得ることを目的とする。
The present invention has been made in order to solve the above-mentioned problems, and it is possible to apply a strong constraint while keeping the order of the n-gram small, and to apply a stronger constraint if the order is the same. It is an object of the present invention to obtain a device capable of performing speech recognition, morphological analysis, or kana-kanji conversion, a method therefor, and a recording medium on which such a program is recorded.

【0020】[0020]

【課題を解決するための手段】この発明に係る音声認識
装置は、音韻確率算出手段にて、入力された音声の各音
韻に対応する音韻生起確率を計算して音韻列候補を生成
し、単語確率算出手段がその音韻列候補に対応する各単
語候補の単語生起確率を、対象言語の音韻列、音韻列に
対応する単語表記列、および生起確率を記憶した音韻n
グラムを参照して算出し、それら音韻生起確率と単語生
起確率を用いて計算した、入力された音声に類似する単
語列候補を出力手段より出力するようにするとともに、
その際に用いられる音韻nグラム中の単語を、それぞれ
の話題に対応して分類するようにしたものである。
The speech recognition apparatus according to the present invention calculates phoneme occurrence probabilities corresponding to each phoneme of the input speech by phoneme probability calculation means, generates phoneme sequence candidates, and generates a phoneme sequence candidate. The probability calculation means calculates a word occurrence probability of each word candidate corresponding to the phoneme string candidate, a phoneme string of the target language, a word notation string corresponding to the phoneme string, and a phoneme n in which the occurrence probability is stored.
With reference to the gram, and by using the phoneme occurrence probability and the word occurrence probability, a word string candidate similar to the input speech is output from the output unit,
The words in the phoneme n-gram used at that time are classified according to the respective topics.

【0021】この発明に係る音声認識装置は、単語確率
算出手段にて、単語列候補の算出時に、一連の音声に対
応する音韻nグラム中の話題をすべて一致させるように
したものである。
In the speech recognition apparatus according to the present invention, the word probability calculation means matches all the topics in a phoneme n-gram corresponding to a series of voices when calculating a word string candidate.

【0022】この発明に係る音声認識装置は、単語確率
算出手段にて、確率の重みを話題ごとに設定するように
したものである。
In the speech recognition apparatus according to the present invention, the weight of the probability is set for each topic by the word probability calculating means.

【0023】この発明に係る形態素解析装置は、形態素
確率算出手段が入力された仮名漢字混じり文字列に対応
する各単語候補の単語生起確率を、仮名漢字混じり文字
列、仮名漢字混じり文字列に対応する単語表記列、およ
び生起確率を記憶した漢字nグラムを参照して算出し、
得られた単語生起確率を用いて計算した、入力された仮
名漢字混じり文字列に適合する単語列候補を出力手段よ
り出力するようにするとともに、その際に用いられる漢
字nグラム中の単語を、それぞれの話題に対応して分類
するようにしたものである。
In the morphological analysis device according to the present invention, the morpheme probability calculating means converts the word occurrence probability of each word candidate corresponding to the input kana-kanji mixed character string into a kana-kanji mixed character string and a kana-kanji mixed character string. Is calculated with reference to the word notation string to be performed and the kanji n-gram that stores the occurrence probability,
A word string candidate that matches the input kana-kanji mixed character string calculated using the obtained word occurrence probability is output from the output unit, and the word in the kanji n-gram used at that time is They are classified according to each topic.

【0024】この発明に係る形態素解析装置は、形態素
確率算出手段にて、単語列候補の算出時に、一連の仮名
漢字混じり文字列に対応する漢字nグラム中の話題をす
べて一致させるようにしたものである。
In the morphological analysis device according to the present invention, the morpheme probability calculating means matches all the topics in a kanji n-gram corresponding to a series of kana-kanji mixed character strings when calculating a word string candidate. It is.

【0025】この発明に係る形態素解析装置は、形態素
確率算出手段にて、確率の重みを話題ごとに設定するよ
うにしたものである。
In the morphological analyzer according to the present invention, the morphological probability calculating means sets the weight of the probability for each topic.

【0026】この発明に係る仮名漢字変換装置は、漢字
確率算出手段が入力された仮名文字列に対応する各単語
候補の単語生起確率を、仮名文字列、仮名文字列に対応
する単語表記列、および生起確率を記憶した仮名nグラ
ムを参照して算出し、その単語生起確率を用いて計算し
た、入力された仮名文字列に適合する単語列候補を出力
手段より出力するようにするとともに、その際に用いら
れる仮名nグラム中の単語を、それぞれの話題に対応し
て分類するようにしたものである。
In the kana-kanji conversion device according to the present invention, the kanji probability calculation means calculates the word occurrence probability of each word candidate corresponding to the input kana character string, by using a kana character string, a word notation string corresponding to the kana character string, And by referring to the kana n-gram storing the occurrence probabilities, and outputting the word string candidates calculated using the word occurrence probabilities, which match the input kana character string, from the output means. The words in the kana n-gram used at this time are classified according to each topic.

【0027】この発明に係る仮名漢字変換装置は、漢字
確率算出手段にて、単語列候補の算出時に、一連の仮名
文字列に対応する仮名nグラム中の話題をすべて一致さ
せるようにしたものである。
In the kana-kanji conversion apparatus according to the present invention, the kanji probability calculating means matches all the topics in the kana n-gram corresponding to a series of kana character strings when calculating a word string candidate. is there.

【0028】この発明に係る仮名漢字変換装置は、漢字
確率算出手段にて、確率の重みを話題ごとに設定するよ
うにしたものである。
In the kana-kanji conversion device according to the present invention, the kanji probability calculation means sets the weight of the probability for each topic.

【0029】この発明に係る音声認識方法は、取り込ま
れた音声より変換された各音韻に対応する音韻生起確率
を算出し、記憶している単語をそれぞれの話題対応に分
類して、対象言語の音韻列、音韻列に対応する単語表記
列、および生起確率の記憶をした音韻nグラムを参照し
て、音韻列候補に対応する各単語候補の単語生起確率を
算出し、それらを用いて入力された音声に類似する単語
列候補を計算するようにしたものである。
The speech recognition method according to the present invention calculates a phoneme occurrence probability corresponding to each phoneme converted from a fetched speech, classifies the stored words into respective topic correspondences, and converts the stored words into corresponding topics. The word occurrence probability of each word candidate corresponding to the phoneme sequence candidate is calculated by referring to the phoneme sequence, the word notation sequence corresponding to the phoneme sequence, and the phoneme n-gram in which the occurrence probability is stored, and is input using them. A word string candidate similar to the generated voice is calculated.

【0030】この発明に係る形態素解析方法は、記憶し
ている単語をそれぞれの話題対応に分類して、仮名漢字
混じり文字列、仮名漢字混じり文字列に対応する単語表
記列、および生起確率の記憶をした漢字nグラムを参照
して、入力された仮名漢字混じり文字列に対応する各単
語候補の単語生起確率を算出し、それを用いて入力され
た仮名漢字混じり文字列に適合する単語列候補を計算す
るようにしたものである。
In the morphological analysis method according to the present invention, the stored words are classified according to the respective topics, and a kana-kanji mixed character string, a word notation string corresponding to the kana-kanji mixed character string, and an occurrence probability are stored. The word occurrence probability of each word candidate corresponding to the input kana-kanji mixed character string is calculated with reference to the kanji n-gram that has been input, and a word string candidate that matches the input kana-kanji mixed character string using the calculated probability Is calculated.

【0031】この発明に係る仮名漢字変換方法は、記憶
している単語をそれぞれの話題対応に分類して、対象言
語の仮名文字列、仮名文字列に対応する単語表記列、お
よび生起確率の記憶をした仮名nグラムを参照して、入
力された仮名文字列に対応する各単語候補の単語生起確
率を算出し、それを用いて入力された仮名文字列に適合
する単語列候補を計算するようにしたものである。
In the kana-kanji conversion method according to the present invention, the stored words are classified according to the respective topics, and the kana character string in the target language, the word notation string corresponding to the kana character string, and the occurrence probability are stored. With reference to the kana n-gram, the word occurrence probability of each word candidate corresponding to the input kana character string is calculated, and a word string candidate matching the input kana character string is calculated using the calculated probability. It was made.

【0032】この発明に係る記録媒体は、取り込まれた
音声より変換された各音韻に対応する音韻生起確率を算
出し、記憶している単語をそれぞれの話題対応に分類し
て、対象言語の音韻列、音韻列に対応する単語表記列、
および生起確率の記憶をした音韻nグラムを参照して、
音韻列候補に対応する各単語候補の単語生起確率を算出
し、それらを用いて入力された音声に類似する単語列候
補を計算する音声認識方法を、コンピュータに実行させ
るためのプログラムを、コンピュータ読み取り可能に記
録したものである。
The recording medium according to the present invention calculates a phoneme occurrence probability corresponding to each phoneme converted from a fetched voice, classifies the stored words into respective topic correspondences, and calculates the phoneme of the target language. Strings, word notation strings corresponding to phoneme strings,
And the phoneme n-gram that stores the probability of occurrence,
A computer-readable program for causing a computer to execute a speech recognition method of calculating a word occurrence probability of each word candidate corresponding to a phoneme string candidate and calculating a word string candidate similar to the input speech using the same. It is recorded as possible.

【0033】この発明に係る記録媒体は、記憶している
単語をそれぞれの話題対応に分類して、仮名漢字混じり
文字列、仮名漢字混じり文字列に対応する単語表記列、
および生起確率の記憶をした漢字nグラムを参照して、
入力された仮名漢字混じり文字列に対応する各単語候補
の単語生起確率を算出し、それを用いて入力された仮名
漢字混じり文字列に適合する単語列候補を計算する形態
素解析方法をコンピュータに実行させるためのプログラ
ムを、コンピュータ読み取り可能に記録したものであ
る。
According to the recording medium of the present invention, the stored words are classified according to the respective topics, and a kana-kanji mixed character string, a word notation string corresponding to a kana-kanji mixed character string,
And the kanji n-gram that memorized the probability of occurrence,
Calculates the word occurrence probability of each word candidate corresponding to the input kana-kanji mixed character string and executes a morphological analysis method on the computer using the calculated word occurrence probability to match the input kana-kanji mixed character string A program for causing a computer to read the program is recorded in a computer-readable manner.

【0034】この発明に係る記録媒体は、記憶している
単語をそれぞれの話題対応に分類して、対象言語の仮名
文字列、仮名文字列に対応する単語表記列、および生起
確率の記憶をした仮名nグラムを参照して、入力された
仮名文字列に対応する各単語候補の単語生起確率を算出
し、それを用いて入力された仮名文字列に適合する単語
列候補を計算する仮名漢字変換方法をコンピュータに実
行させるためのプログラムを、コンピュータ読み取り可
能に記録したものである。
In the recording medium according to the present invention, the stored words are classified according to the respective topics, and the kana character string of the target language, the word expression string corresponding to the kana character string, and the occurrence probability are stored. Kana-Kanji conversion that calculates the word occurrence probability of each word candidate corresponding to the input kana character string with reference to the kana n-gram and calculates the word string candidate that matches the input kana character string using the kana n-gram A program for causing a computer to execute the method is recorded in a computer-readable manner.

【0035】[0035]

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置の構成を示すブロック図である。図におい
て、1は音声を入力する入力手段としてのマイク、2は
そのマイク1から入力された音声信号を音韻に変換し、
各音韻に対応する音韻生起確率を算出して音韻列候補を
生成する音韻確率算出手段であり、これらは図26に同
一符号を付して示した従来のそれらと同等のものであ
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below. Embodiment 1 FIG. FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1 of the present invention. In the figure, reference numeral 1 denotes a microphone as input means for inputting voice, and 2 converts a voice signal input from the microphone 1 into phonemes.
This is a phoneme probability calculating means for calculating phoneme occurrence probabilities corresponding to each phoneme to generate phoneme sequence candidates, and these are equivalent to the conventional ones indicated by the same reference numerals in FIG.

【0036】7,8は対象言語の音韻列と、音韻列に対
応する単語表記列と、生起確率とを記憶する音韻nグラ
ムであり、この音韻nグラム中では単語が、それぞれの
話題に対応して分類されており、音韻nグラム7として
は野球の話題について記憶した野球話題の音韻nグラム
について、音韻nグラム8としては一般の話題について
記憶した一般話題の音韻nグラムについてそれぞれ例示
されている。9はこれら野球話題の音韻nグラム7およ
び一般話題の音韻nグラム8を参照して、音韻確率算出
手段2の出力する音韻列候補に対応する各単語候補の単
語生起確率を算出する単語確率算出手段である。
Reference numerals 7 and 8 denote phonological n-grams for storing a phonological sequence of the target language, a word notation sequence corresponding to the phonological sequence, and an occurrence probability. In the phonological n-gram, words correspond to respective topics. The phoneme n-gram 7 is exemplified for a phoneme n-gram of a baseball topic stored on a topic of baseball, and the phoneme n-gram 8 is exemplified for a phoneme n-gram of a general topic stored on a general topic. I have. Reference numeral 9 denotes a word probability calculation for calculating the word occurrence probability of each word candidate corresponding to the phoneme sequence candidate output by the phoneme probability calculation means 2 with reference to the phoneme n-gram 7 of the baseball topic and the phoneme n-gram 8 of the general topic. Means.

【0037】5は処理過程の情報を記憶するRAMであ
り、6は音韻確率算出手段2で算出された音韻生起確率
と、単語確率算出手段9で算出された単語生起確率を用
いて、マイク1より入力された音声に類似する単語列候
補を求めて出力する出力手段である。なお、このRAM
5および出力手段6も図26に同一符号を付して示した
従来のそれらと同等のものである。
Reference numeral 5 denotes a RAM for storing information on the processing process. Reference numeral 6 denotes a microphone 1 using the phoneme occurrence probability calculated by the phoneme probability calculation means 2 and the word occurrence probability calculated by the word probability calculation means 9. This is output means for obtaining and outputting word string candidates similar to the input speech. Note that this RAM
The output means 5 and the output means 6 are the same as those in the prior art shown in FIG.

【0038】以下、単語列候補の生成について説明す
る。この実施の形態1においても従来の場合と同様に、
単語列候補は、発話された単語列をW、音韻列をYとし
たときの、上記従来の音声認識装置の説明で用いた式
(1)で与えられる単語列Wの確率P(W|Y)を最大
にする単語列Wを算出することによって得られる。この
ように単語列候補を生成するためには、確率P(W|
Y)を最大にする単語列Wを求めればよいので、前述の
式(1)の右辺のうち、単語列Wに共通な確率P(Y)
は省略でき、確率P(Y|W)P(W)を最大にする単
語列Wを求めればよい。
Hereinafter, generation of a word string candidate will be described. Also in the first embodiment, similarly to the conventional case,
The word string candidate is a probability P (W | Y) of the word string W given by equation (1) used in the description of the conventional speech recognition apparatus, where W is the uttered word string and Y is the phoneme string. ) Is obtained by calculating the word string W that maximizes the above. In order to generate a word string candidate in this manner, the probability P (W |
Since the word string W that maximizes Y) may be obtained, the probability P (Y) common to the word strings W in the right side of the above-described equation (1) is obtained.
Can be omitted, and the word string W that maximizes the probability P (Y | W) P (W) may be obtained.

【0039】時刻t=1,2,…,Lにおいて、単語列
Wに対応する音韻列Yが、上記従来の音声認識装置の説
明で用いた式(2)で決定されるとき、音韻列Yの出現
確率P(Y|W)は当該音韻列Yの各音韻Yの出現確
率である音韻確率P(Y)より、従来の音声認識装置
の説明における式(3)によって算出できる。また、単
語列Wの出現確率P(W)は、m語からなる単語列Wが
従来の音声認識装置の説明における式(4)で決定され
るとき、音韻確率P(Y)とは独立に次の式(6)か
ら求めることができる。なお、この式(6)におけるn
は音韻nグラムの次数nである。
At time t = 1, 2,..., L, when the phoneme string Y corresponding to the word string W is determined by the equation (2) used in the description of the conventional speech recognition apparatus, the phoneme string Y the occurrence probability P (Y | W) than phonemes probability P (Y i) is a probability of occurrence of each phoneme Y i of the series of phonemes Y, can be calculated by equation (3) in the description of the conventional speech recognition apparatus. The appearance probability P (W) of the word string W is independent of the phoneme probability P (Y i ) when the word string W composed of m words is determined by Expression (4) in the description of the conventional speech recognition device. Can be obtained from the following equation (6). Note that n in this equation (6)
Is the degree n of the phoneme n-gram.

【0040】[0040]

【数4】 (Equation 4)

【0041】上述の計算により、音韻列候補のうち野球
話題の音韻nグラム7や一般話題の音韻nグラム8に単
語の列が存在するものについて、単語列の確率P(W|
Y)を最大にする単語列Wを算出する。なお、組み合わ
せの計算については、例えば、中川聖一著:「確率モデ
ルによる音声認識」に示されるビタビ(Viterb
i)やスタックデコーディングの方法を用いて高速に行
ってもよく、また、確率を対数確率として計算式を総和
で計算可能としてもよい。それぞれの単語の出現確率は
野球話題の音韻nグラム7、および一般話題の音韻nグ
ラム8に予め記憶してある値を使用する。
According to the above calculation, the word sequence probability P (W |) of the phoneme sequence candidates in which the word sequence exists in the phoneme n-gram 7 of the baseball topic or the phoneme n-gram 8 of the general topic.
A word string W that maximizes Y) is calculated. For the calculation of the combination, for example, Viterbi (Viterb) shown in Seiichi Nakagawa: “Speech Recognition by Stochastic Model”
i) or the method of stack decoding may be used at high speed, or the formula may be calculated by summation using the probability as log probability. The appearance probability of each word uses a value stored in advance in the phoneme n-gram 7 of the baseball topic and the phoneme n-gram 8 of the general topic.

【0042】ここで、図2はこの音声認識装置にて解析
される例文を示す説明図であり、図において、10がそ
の例文である。また、図3はこの例文10の解析に使用
する音韻nグラムの具体例を示す説明図であり、図にお
いて、11がその音韻nグラムである。なお、この音韻
nグラム11には野球話題の音韻nグラム7と一般話題
の音韻nグラム8とが記録されている。
FIG. 2 is an explanatory diagram showing an example sentence analyzed by the speech recognition apparatus. In the figure, reference numeral 10 denotes the example sentence. FIG. 3 is an explanatory diagram showing a specific example of a phoneme n-gram used for the analysis of the example sentence 10, in which 11 is the phoneme n-gram. Note that the phoneme n-gram 11 records a phoneme n-gram 7 of a baseball topic and a phoneme n-gram 8 of a general topic.

【0043】図3に示すように、この音韻nグラム11
内の野球話題の音韻nグラム7と一般話題の音韻nグラ
ム8には、それぞれ2グラムと1グラムがあり、先頭の
音韻列が検索のためのキーとなっている。2グラムでは
キーとなる各音韻列に対して、前接形態素、後接形態
素、および確率が記録されている。ここに記録されてい
る確率は、前接形態素の次に後接形態素を接続する確率
であり、その2グラムの生起確率に該当する。また、1
グラムではキーとなる各音韻列に対して、直接次に連接
する形態素(後接続形態素)と確率が記録されている。
この1グラムの確率はその形態素自身の生起確率であ
る。なお、形態素は表記、音素表記、見出し読み、およ
び品詞の組であらわされる。
As shown in FIG. 3, this phoneme n-gram 11
There are 2 grams and 1 gram in the phoneme n-gram 7 of the baseball topic and the phoneme n-gram 8 of the general topic, respectively. The first phoneme sequence is a key for retrieval. In the 2 gram, a leading morpheme, a trailing morpheme, and a probability are recorded for each key phoneme sequence. The probability recorded here is the probability of connecting the subsequent morpheme after the preceding morpheme, and corresponds to the occurrence probability of the two grams. Also, 1
In the gram, the morpheme (consecutive morpheme) connected directly next and the probability are recorded for each phoneme sequence as a key.
The probability of one gram is the occurrence probability of the morpheme itself. Note that a morpheme is represented by a set of notation, phoneme notation, headline reading, and part of speech.

【0044】算出した単語列Wを認識結果として出力手
段6より出力する。
The calculated word string W is output from the output means 6 as a recognition result.

【0045】次に動作について説明する。ここで、図4
はこの実施の形態1による音声認識装置における認識処
理の概略動作の流れを示すフローチャートである。この
音声認識の処理はステップST101において、マイク
1に対して発話することによって処理が開始される。マ
イク1はステップST102でこの発話された音声が入
力されると、ステップST103でその入力音声を電気
信号に変換し、アナログデータとして取り込む。
Next, the operation will be described. Here, FIG.
5 is a flowchart showing a schematic operation flow of a recognition process in the voice recognition device according to the first embodiment. The voice recognition process is started by speaking to the microphone 1 in step ST101. When the uttered voice is input in step ST102, the microphone 1 converts the input voice into an electric signal in step ST103, and takes in the analog signal as analog data.

【0046】次にステップST104において、音韻確
率算出手段2はこのマイク1の取り込んだアナログデー
タをA/D変換し、量子化した後、スペクトル分析を行
って、音節単位に分離した認識結果を音韻列候補として
出力する。なお、その処理の詳細については、例えば、
中川聖一著:「確率モデルによる音声認識」などに示さ
れる種々の周知の手法によるものであるため、ここでは
その説明を割愛する。この音韻列候補はマイク1より取
り込んだアナログデータに対応する各音韻の確からしさ
を確率値で表現したもので、連鎖した音韻連鎖とその連
鎖の音響尤度の対で出力し、RAM5にこれを記憶す
る。なお、この音響尤度は音韻列Yの出現確率P(Y|
W)の最大値である。
Next, in step ST104, the phoneme probability calculating means 2 performs A / D conversion on the analog data captured by the microphone 1, quantizes the analog data, performs spectrum analysis, and converts the recognition result separated into syllable units into phoneme. Output as column candidates. For details of the processing, for example,
This is not described here because it is based on various well-known methods such as those described in Seiichi Nakagawa: “Speech Recognition by Stochastic Model”. These phoneme string candidates represent the likelihood of each phoneme corresponding to the analog data taken in from the microphone 1 as a probability value, and are output as a pair of a chained phoneme chain and the acoustic likelihood of the chain. Remember. Note that this acoustic likelihood is the appearance probability P (Y |
W) is the maximum value.

【0047】この実施の形態1では、上記音韻連鎖と、
連鎖の音響尤度として、以下が出力されたと仮定する。 #saNgooaacinoseNsee# 0.9 #saNgooacinoseNse# 0.1
In the first embodiment, the above phoneme chain
It is assumed that the following is output as the acoustic likelihood of the chain. # SaNgooacinoseNse # 0.9 # saNgooacinoseNse # 0.1

【0048】なお、音響尤度については、確率以外に対
数確率等を用いてもよく、音韻連鎖についてはラティス
等の効率的な記憶方式を用いてもよい。
For the acoustic likelihood, a logarithmic probability or the like may be used in addition to the probability. For a phoneme chain, an efficient storage method such as lattice may be used.

【0049】次に単語確率算出手段9はステップST1
05において、音韻確率算出手段2の出力した音韻列候
補と音響尤度をRAM5より1つ取り出すとともに、初
期化処理をする。この初期化処理として、ヌル単語
「{# # # 文頭}」とその確率値「1」を、先行
単語列候補の初期言語尤度値としてRAM5に記憶す
る。ここでは、まず、音韻列候補として、「#saNg
ooaacinoseNsee#」が取り出される。
Next, the word probability calculating means 9 executes step ST1.
At 05, one phoneme sequence candidate and one acoustic likelihood output from the phoneme probability calculation means 2 are extracted from the RAM 5 and an initialization process is performed. As this initialization processing, the null word “{#### sentence start}” and its probability value “1” are stored in the RAM 5 as the initial language likelihood value of the preceding word string candidate. Here, first, “#saNg” is regarded as a phoneme sequence candidate.
ooacinoseNsee # "is retrieved.

【0050】次にステップST106において、単語確
率算出手段9はすべての先行単語列候補が音韻列候補の
末端の音韻と対応したか否かをチェックし、すべて対応
していれば後述するステップST112の処理に移り、
対応していなければステップST107以下の処理を行
なう。
Next, in step ST106, the word probability calculation means 9 checks whether or not all preceding word string candidates correspond to the terminal phonemes of the phoneme string candidates. Processing.
If not, the process from step ST107 is performed.

【0051】ステップST107ではRAM5から先行
単語列候補を1つ取り出す。この実施の形態1では、最
初に「{# # # 文頭}」が先行単語列候補として
取り出される。
In step ST107, one preceding word string candidate is extracted from the RAM 5. In the first embodiment, “{#### sentence start}” is first extracted as a preceding word string candidate.

【0052】次にステップST108において、音韻n
グラム11を先行単語列候補の音韻列情報により検索す
る。この実施の形態1の場合、まず、初期の先行単語列
である「{# # # 文頭}」を検索する。検索した
先行単語以降の音韻列候補の部分列に、前方一致する後
方単語があるか否かをチェックする。前方一致した後方
単語が無い場合は、ステップST106に処理を戻し、
前方一致した後方単語がある場合は、ステップST10
9以下の処理に進む。
Next, in step ST108, the phoneme n
The gram 11 is searched by the phoneme string information of the preceding word string candidate. In the case of the first embodiment, first, "{#### sentence head}" which is an initial preceding word string is searched. It is checked whether or not there is a backward word that matches forward in the partial sequence of the phoneme string candidate after the preceding word searched. If there is no backward word that matches the beginning, the process returns to step ST106,
If there is a backward word that matches the beginning, step ST10
The process proceeds to step 9 and below.

【0053】ここで、この実施の形態1では、先行単語
列「{# # # 文頭}」の後方単語として音韻nグ
ラム11の検索を行い、「#」に後続する「saNgo
oaa…」の先頭からの音素列が部分一致する単語を検
索し後方単語とする。2グラムでは「#saNgoo」
が音韻列「#saNgooaa…」と前方一致するの
で、この2グラムの後接形態素「野球:3号 saNg
oo さんごう 名詞」を後方単語の候補の1つとす
る。また、1グラムの「{野球:3号 saNgoo
さんごう 名詞}」は後方の音素列に前方一致するので
候補とする。さらに「{一般:3号 saNgoo さ
んごう 名詞}」も候補とする。
Here, in the first embodiment, the phoneme n-gram 11 is searched as a word after the preceding word string “{#### sentence beginning}”, and “saNgo” following “#” is searched.
A word in which the phoneme sequence from the beginning of “aaa... "#SaNgoo" for 2 grams
Matches the phoneme sequence “#saNgoooa...”, The morpheme “baseball: 3 saNg
oo sango noun ”is one of the candidates for the backward word. Also, 1 gram of "@ Baseball: No. 3 saNgoo
Sango noun} ”is a candidate because it matches the beginning of the phoneme sequence at the back. In addition, “{General: No. 3 saNgoo Sango Noun}” is also a candidate.

【0054】なお、この実施の形態1では、説明の簡単
化のために部分一致を用いたが、曖昧な音韻連鎖との類
似検索に、DPマッチング処理や、阿部他:「1段目の
最適解と正解の差分傾向を考慮した2段階探索法」,音
講論,1−R−15,1998.9に示されるような他
の手法を用いてもよい。
In the first embodiment, partial matching is used for simplicity of description. However, similarity search with an ambiguous phoneme chain is performed by DP matching processing, Abe et al. A two-stage search method considering the difference tendency between the solution and the correct answer ", Ongaku Ron, 1-R-15, 1998.

【0055】ステップST109においては、後方単語
それぞれについて同様に尤度を計算し、それをRAM5
に記憶するとともに先行単語列に後方単語を接続してゆ
き、新たに先行単語列としてRAM5に記憶する。その
際、2グラムの場合は話題が先行の形態素と同じになる
ようにし、1グラムの場合は連接がないため話題の切り
替わりがあってもよいようにする。
In step ST109, the likelihood is similarly calculated for each of the backward words, and the calculated likelihood is stored in RAM5.
And a subsequent word is connected to the preceding word string, and is stored in the RAM 5 as a new preceding word string. At that time, in the case of 2 grams, the topic is the same as the preceding morpheme, and in the case of 1 gram, there is no connection, so that the topic may be switched.

【0056】実施の形態1では、先行単語列「{# #
# 文頭}」を「{野球:# ## 文頭}、{野
球:3号 saNgoo さんごう 名詞}」に置き換
える。言語尤度は、先行単語列「{# # # 文
頭}」の確率1と、野球話題の音韻nグラム7の「{野
球:# # # 文頭}、{野球:3号 saNgoo
さんごう 名詞}」の2グラムの確率0.01から次の
式(7)で計算される。
In the first embodiment, the preceding word string “$ ##
# Baseball # "is replaced with" Baseball: ### Baseball #, Baseball # 3 saNgoo Sango Noun ". The linguistic likelihood is the probability 1 of the preceding word string "@ #### sentence head" and the "@baseball: #### sentence head" and "baseball: No. 3 saNgoo" of the phoneme n-gram 7 of baseball topics.
It is calculated from the probability 0.01 of 2 grams of "sango noun}" by the following formula (7).

【0057】 先行単語列の確率×nグラムの確率=1×0.01=0.01 ・・・・(7)Probability of preceding word string × probability of n-gram = 1 × 0.01 = 0.01 (7)

【0058】次にステップST110において、音韻列
全体が単語列に対応したか否かのチェックを行い、対応
していればステップST111に進んで、最大尤度およ
び解の先行単語列をRAM5に記憶した後、処理をステ
ップST106に戻して、すべての先行単語列候補が音
韻列候補の末端の音韻と対応したか否かをチェックす
る。一方、対応していなければ、そのまま処理をステッ
プST106に戻して上記チェックを行う。
Next, in step ST110, it is checked whether or not the entire phoneme sequence corresponds to the word sequence. If it does, the process proceeds to step ST111 to store the maximum likelihood and the preceding word sequence of the solution in the RAM 5. After that, the process returns to step ST106 to check whether or not all preceding word string candidates correspond to the terminal phonemes of the phoneme string candidates. On the other hand, if not, the process returns to step ST106 and the above check is performed.

【0059】ステップST106で、すべての先行単語
列候補が音韻列候補の末端の音韻と対応していると判定
された場合には、ステップST112に移って、すべて
の音韻列候補に対して一致する単語が得られているか否
かのチェックを行う。その結果、すべての音韻列候補に
対して一致する単語が得られていなければステップST
105に処理を戻して同様の処理を繰り返す。一方、す
べての音韻列候補に対して一致する単語が得られていれ
ば、ステップST113以下の処理を行う。
If it is determined in step ST106 that all preceding word string candidates correspond to the terminal phonemes of the phoneme string candidates, the process moves to step ST112, where all the phoneme string candidates match. Check whether the word has been obtained. As a result, if no matching word has been obtained for all phoneme string candidates, step ST
The process returns to 105 and the same process is repeated. On the other hand, if a word that matches all the phoneme string candidates has been obtained, the processing from step ST113 is performed.

【0060】この実施の形態1では、以上の処理によ
り、音韻列候補に対応して、「{## # 文頭}、
{野球:3号 saNgoo さんごう 名詞}、{野
球:アーチ aaci あーち 名詞}、{野球:の
no の 助詞}、…」の順に先行単語列候補が得られ
る。
In the first embodiment, by the above processing, "{### sentence start},
{Baseball: No.3 saNgoo Sango Noun}, {Baseball: Arch Aaci Aichi Noun}, {Baseball: No
The preceding word string candidates are obtained in the order of “no particles {,...

【0061】ステップST113では、RAM5に記憶
してある最大尤度を持つ解の単語列を読み出す。最大尤
度は、言語尤度と音響尤度の積の最大値で近似される。
この実施の形態1では、計算の結果、音韻列候補「#s
aNgooacinoseNsee#」は該当する音韻
nグラムが存在しないため捨てられる。音韻列候補「#
saNgooaacinoseNsee#」に対して、
「{# # # 文頭}、{野球:3号 saNgoo
さんごう 名詞}、{野球:アーチ aaci あー
ち 普通名詞}、{野球:の no の 接続助詞}、
{野球:先制seNsee せんせい サ変名詞}」の
音声認識結果が、また最大尤度が前述の式(6)で求め
られる単語列確率P(W)中の最大値より、5.4×1
−9(音響尤度;0.9、言語尤度;6×10−9
と得られる。
In step ST113, the word string of the solution having the maximum likelihood stored in the RAM 5 is read. The maximum likelihood is approximated by the maximum value of the product of the linguistic likelihood and the acoustic likelihood.
In the first embodiment, as a result of the calculation, the phoneme sequence candidate “#s
"aNgooacinoseNsee #" is discarded because there is no corresponding phoneme n-gram. Phoneme string candidate "#
saNgooacacinoseNsee # "
"{# # 文 文,} Baseball: No. 3 saNgoo
Sango noun}, {Baseball: Arch aaci Aichi Common noun}, {Baseball: no no connecting particle 接 続,
The result of the speech recognition of “baseball: pre-emptive seNsee sensei sa inflected noun” is 5.4 × 1 from the maximum value in the word string probability P (W) obtained by the above equation (6).
0 -9 (acoustic likelihood; 0.9, language likelihood; 6 × 10 -9)
Is obtained.

【0062】次にステップST114において、RAM
5から読み出した解の単語列から表記のみを取り出し、
それを出力手段6から出力した後、ステップST115
に進んでこの一連の音声認識処理を終了する。このよう
にして、この実施の形態1では認識結果として、「3号
アーチの先制」が得られる。
Next, in step ST114, the RAM
Only the notation is extracted from the word string of the solution read from 5,
After outputting it from the output means 6, step ST115
To end this series of speech recognition processing. In this way, in the first embodiment, “No. 3 arch preemption” is obtained as a recognition result.

【0063】以上のように、この実施の形態1によれ
ば、話題を分離して統計量をとって音声認識を行ってい
るので、部分的には「の 先制」よりも「の 先生」の
2グラム確率の方が高いにもかかわらず、「の 先制」
と認識され、nグラムの次数を大きくすることなく言語
制約の強いnグラムを構成することができ、高精度な音
声認識装置を構築できるという効果が得られる。なお、
本実施例では2つの話題を扱ったが、3つ以上の話題を
扱うように構成しても良い。
As described above, according to the first embodiment, speech recognition is performed by separating topics and taking statistics, so that the participant's Despite the higher 2 gram probability, "no pre-emption"
Therefore, it is possible to construct an n-gram with a strong language constraint without increasing the order of the n-gram, and it is possible to obtain an effect that a highly accurate speech recognition device can be constructed. In addition,
In the present embodiment, two topics are dealt with, but it is also possible to configure to deal with three or more topics.

【0064】実施の形態2.なお、上記実施の形態1に
おいては、特に考慮していなかったが、単語列候補の算
出時に、一連の音声に対する音韻nグラム中の話題がす
べて一致するように単語確率算出手段を構成してもよ
い。図5はそのようなこの発明の実施の形態2による音
声認識装置の構成を示すブロック図である。
Embodiment 2 Although not particularly taken into consideration in the first embodiment, the word probability calculating means may be configured such that all the topics in the phoneme n-gram for a series of voices match when calculating the word string candidates. Good. FIG. 5 is a block diagram showing a configuration of such a speech recognition device according to Embodiment 2 of the present invention.

【0065】図において、1はマイク、2は音韻確率算
出手段、5はRAM、6は出力手段であり、これらは図
1に同一符号を付して示した実施の形態1のそれらと同
等の部分である。12は図1に符号9を付して示したも
のに相当する単語確率算出手段であるが、単語列候補の
算出時に、一連の音声に対する音韻nグラム中の話題が
すべて一致するように構成されている点で異なってい
る。13、14は図1に符号7、8を付して示したもの
に相当する、野球話題の音韻nグラムおよび一般話題の
音韻nグラムであるが、この場合、2グラムのみが用い
られ、1グラムは用いられていない。
In the figure, 1 is a microphone, 2 is a phoneme probability calculating means, 5 is a RAM, and 6 is an output means, which are the same as those of the first embodiment shown in FIG. Part. Numeral 12 is a word probability calculating means corresponding to the one indicated by reference numeral 9 in FIG. 1, and is configured such that all topics in a phonological n-gram for a series of voices match when calculating a word string candidate. Is different. Numerals 13 and 14 are a phoneme n-gram of a baseball topic and a phoneme n-gram of a general topic, which correspond to those indicated by reference numerals 7 and 8 in FIG. Grams are not used.

【0066】ここで、図6は音韻nグラムの具体例を示
す説明図である。図において、15はその音韻nグラム
であり、この音韻nグラム15は野球話題の音韻nグラ
ム13と一般話題の音韻nグラム14とが記録されてい
る。前述のように、この音韻nグラム15の野球話題の
音韻nグラム13と一般話題の音韻nグラム14には、
それぞれキーとなる各音韻列に対して、前接形態素、後
接形態素、および確率が記録された2グラムのみが用い
られている。
FIG. 6 is an explanatory diagram showing a specific example of a phoneme n-gram. In the figure, reference numeral 15 denotes the phoneme n-gram, and the phoneme n-gram 15 records a phoneme n-gram 13 of a baseball topic and a phoneme n-gram 14 of a general topic. As described above, the phoneme n-gram 13 of the baseball topic and the phoneme n-gram 14 of the general topic of the phoneme n-gram 15 include:
For each phoneme sequence that is a key, only two grams in which the preceding morpheme, the succeeding morpheme, and the probability are recorded are used.

【0067】次に動作について説明する。図7はこのよ
うに構成された実施の形態2による音声認識装置の概略
動作の流れを示すフローチャートである。この実施の形
態2においても、まず、ステップST101からステッ
プST107において、実施の形態1の場合と全く同様
の処理が行われる。ステップST107にてRAM5か
ら先行単語列候補の1つが取り出されると、単語確率算
出手段12はステップST120において、音韻nグラ
ム15を先行単語列候補の音韻列情報によって検索し、
前方一致する後方単語があるか否かをチェックする。そ
のとき、実施の形態1では、音韻nグラム11の野球話
題の音韻nグラム7と一般話題の音韻nグラム8は、そ
れぞれ2グラムと1グラムの双方が用いられていたが、
この実施の形態2では、野球話題の音韻nグラム13と
一般話題の音韻nグラム14がそれぞれ2グラムのみの
音韻nグラム15を用いて一致検出を行っている。チェ
ックの結果、前方一致した後方単語がある場合にはステ
ップST109に移り、以下ステップST115まで、
実施の形態1と同様に処理を進める。
Next, the operation will be described. FIG. 7 is a flowchart showing a schematic operation flow of the speech recognition apparatus according to the second embodiment thus configured. Also in the second embodiment, first, in steps ST101 to ST107, exactly the same processing as in the first embodiment is performed. When one of the preceding word string candidates is extracted from the RAM 5 in step ST107, the word probability calculation means 12 searches the phoneme n-gram 15 in step ST120 using the phoneme string information of the preceding word string candidate.
Check if there is a backward matching word. At that time, in the first embodiment, both the 2-gram and the 1-gram are used as the phoneme n-gram 7 of the baseball topic and the phoneme n-gram 8 of the general topic of the phoneme n-gram 11, respectively.
In the second embodiment, the phoneme n-gram 13 of the baseball topic and the phoneme n-gram 14 of the general topic are detected by using the phoneme n-gram 15 of only 2 grams each. As a result of the check, if there is a backward word that matches the beginning, the process proceeds to step ST109.
The process proceeds as in the first embodiment.

【0068】以上のように、この実施の形態2によれ
ば、単語確率算出手段12は音韻nグラム15の2グラ
ムのみを用いて一致を検査しているので、1つの発話に
対する一連の形態素は同一の話題の形態素となるため、
発話中に他の話題が交ざることを防止することができる
という効果が得られる。
As described above, according to the second embodiment, since the word probability calculating means 12 checks the match using only two grammes of the phoneme n-gram 15, a series of morphemes for one utterance is To be morphemes on the same topic,
The effect is obtained that it is possible to prevent other topics from intermingling during the utterance.

【0069】実施の形態3.なお、上記実施の形態1お
よび実施の形態2では、音声認識において、話題ごとの
確率の重み調整については特に考慮していなかったが、
話題ごとに確率の重みの調整を可能にするようにしても
よい。図8はそのようなこの発明の実施の形態3による
音声認識装置の構成を示すブロック図である。図におい
て、1はマイク、2は音韻確率算出手段、5はRAM、
6は出力手段、13は野球話題の音韻nグラム、14は
一般話題の音韻nグラムであり、これらは図5に同一符
号を付して示した実施の形態2のそれらと同等の部分で
ある。16は図5に符号3を付して示したものに相当す
る単語確率算出手段であるが、話題ごとに確率の重みを
調整可能に構成されている点で異なっている。
Embodiment 3 In the first and second embodiments, the weight adjustment of the probability for each topic is not particularly considered in the speech recognition.
The weight of the probability may be adjusted for each topic. FIG. 8 is a block diagram showing a configuration of such a speech recognition device according to Embodiment 3 of the present invention. In the figure, 1 is a microphone, 2 is a phoneme probability calculating means, 5 is a RAM,
Reference numeral 6 denotes an output means, 13 denotes a phoneme n-gram of a baseball topic, and 14 denotes a phoneme n-gram of a general topic, which are equivalent to those of the second embodiment shown in FIG. . Reference numeral 16 denotes a word probability calculating unit corresponding to the unit denoted by reference numeral 3 in FIG. 5, but differs in that the weight of the probability can be adjusted for each topic.

【0070】次に動作について説明する。図9はこのよ
うに構成された実施の形態3による音声認識装置の概略
動作の流れを示すフローチャートである。この実施の形
態3においても、まず、ステップST101からステッ
プST107、およびステップST120において、実
施の形態2の場合と全く同様の処理が行われる。ステッ
プST120における2グラムのみの音韻nグラム15
を用いた、前方一致する後方単語があるか否のチェック
の結果、前方一致した後方単語がない場合にはステップ
ST106に戻り、前方一致した後方単語がある場合に
はステップST130に進む。ステップST130では
単語確率算出手段16が、後方単語のそれぞれについて
分野別に重み付けを行って尤度を計算し、それをRAM
5に記憶するとともに、先行単語列に後方単語を接続し
てゆき、新たに先行単語列としてRAM5に記憶する。
以下ステップST110からステップST115まで、
実施の形態2と同様に処理を進める。
Next, the operation will be described. FIG. 9 is a flowchart showing a schematic operation flow of the speech recognition apparatus according to the third embodiment thus configured. In the third embodiment as well, first, in steps ST101 to ST107 and step ST120, exactly the same processing as in the second embodiment is performed. Phoneme n-gram 15 of only 2 grams in step ST120
As a result of checking whether or not there is a backward word that matches forward, the process returns to step ST106 if there is no backward word that matches forward, and proceeds to step ST130 if there is a backward word that matches forward. In step ST130, the word probability calculation means 16 calculates the likelihood by weighting each of the backward words according to the field, and stores the likelihood in the RAM.
5 and the subsequent word is connected to the preceding word string, and stored in the RAM 5 as a new preceding word string.
Hereinafter, from step ST110 to step ST115,
The process proceeds as in the second embodiment.

【0071】以上のように、この実施の形態3によれ
ば、2グラムの確率の重みを話題別にかけるように単語
確率算出手段16を構成しているので、話題別に出現確
率の調節が可能になるという効果が得られる。
As described above, according to the third embodiment, the word probability calculating means 16 is configured to apply the weight of the probability of 2 grams to each topic, so that the appearance probability can be adjusted for each topic. Is obtained.

【0072】実施の形態4.なお、上記実施の形態1〜
実施の形態3では音声解析装置に関するものについて説
明したが、漢字nグラムを構成することにより形態素解
析装置を構築することも可能である。図10はそのよう
なこの発明の実施の形態4による形態素解析装置の構成
を示すブロック図である。
Embodiment 4 It should be noted that the first to the first embodiments
In the third embodiment, a description has been given of a speech analysis apparatus. However, it is also possible to construct a morphological analysis apparatus by configuring a kanji n-gram. FIG. 10 is a block diagram showing a configuration of such a morphological analyzer according to Embodiment 4 of the present invention.

【0073】図において、17は仮名漢字混じり文字列
(入力ファイル)を入力する入力手段としてのファイル
入力装置である。18、19は仮名漢字混じり文字列
と、仮名漢字混じり文字列に対応する単語表記列と、生
起確率とを記憶する漢字nグラムであり、この漢字nグ
ラム中では単語が、それぞれの話題に対応して分類され
ており、漢字nグラム18としては野球の話題について
記憶した野球話題の漢字nグラムについて、漢字nグラ
ム19としては一般の話題について記憶した一般話題の
漢字nグラムについてそれぞれ例示されている。20は
これら野球話題の漢字nグラム18および一般話題の漢
字nグラム19を参照して、ファイル入力装置17が出
力する仮名漢字混じり文字列に対応する各単語候補の単
語生起確率を算出する形態素確率算出手段である。5は
処理過程の情報を記憶するRAMであり、21は形態素
確率算出手段20で算出された単語生起確率を用いて求
めた、ファイル入力装置17より入力された文字列に適
合する単語列候補を出力する出力手段である。
In the figure, reference numeral 17 denotes a file input device as input means for inputting a character string (input file) mixed with kana and kanji. Numerals 18 and 19 are kanji n-grams storing a kana-kanji mixed character string, a word notation string corresponding to the kana-kanji mixed character string, and an occurrence probability. In the kanji n-gram, words correspond to respective topics. The kanji n-gram 18 is exemplified for a kanji n-gram of a baseball topic stored on a baseball topic, and the kanji n-gram 19 is exemplified for a kanji n-gram of a general topic stored on a general topic. I have. Reference numeral 20 denotes the morpheme probability for calculating the word occurrence probability of each word candidate corresponding to the kana-kanji mixed character string output by the file input device 17 with reference to the baseball topic kanji n-gram 18 and the general topic kanji n-gram 19. It is a calculating means. Reference numeral 5 denotes a RAM for storing information on a process, and reference numeral 21 denotes a word string candidate which is obtained by using the word occurrence probability calculated by the morphological probability calculation means 20 and which matches the character string input from the file input device 17. Output means for outputting.

【0074】以下、単語列候補の生成について説明す
る。この実施の形態4における単語列候補の生成は、単
語列の出現確率P(W)を最大にするWを算出すること
で得られる。このとき、Wは入力された単語列である。
また、単語列の出現確率P(W)は、m語の単語列Wが
前述の式(4)で決定されるとき、前述の式(6)から
求める。なお、その際には野球話題の漢字nグラム1
8、一般話題の漢字nグラム19の確率が使用される。
Hereinafter, generation of a word string candidate will be described. Generation of a word string candidate in the fourth embodiment is obtained by calculating W that maximizes the word string appearance probability P (W). At this time, W is the input word string.
The word string appearance probability P (W) is obtained from the above equation (6) when the m word row W is determined by the above equation (4). In this case, the baseball kanji n-gram 1
8. Probability of kanji n-gram 19 of general topic is used.

【0075】上述した計算により、野球話題の漢字nグ
ラム18および一般話題の漢字nグラム19に単語の列
が存在するものについて、単語列確率P(W)を最大に
するWを算出する。なお、組み合わせの計算について
は、例えば、長尾真著:「自然言語処理」に示されるV
iterbi方法を用いて高速に行ってもよいし、確率
を対数確率として計算式を総和で計算可能としてもよ
い。それぞれの単語の出現確率は単語の野球話題の漢字
nグラム18、一般話題の漢字nグラム19に予め記憶
してある確率値をもとに算出する。
With the above-described calculation, W that maximizes the word string probability P (W) is calculated for those in which the word string exists in the kanji n-gram 18 of the baseball topic and the kanji n-gram 19 of the general topic. Note that the calculation of the combination is described in, for example, V in Makoto Nagao: “Natural Language Processing”.
The calculation may be performed at high speed by using the iterbi method, or the calculation formula may be calculated by summation using the probability as a logarithmic probability. The appearance probability of each word is calculated based on the probability values stored in advance in the kanji n-gram 18 of the baseball topic and the kanji n-gram 19 of the general topic.

【0076】ここで、図11は図2に示した例文10を
もとに作成した漢字nグラムの具体例を示す説明図であ
り、図において、22がその漢字nグラムであり、この
漢字nグラム22には野球話題の漢字nグラム18と一
般話題の漢字nグラム19とが記録されている。
FIG. 11 is an explanatory view showing a specific example of a kanji n-gram created based on the example sentence 10 shown in FIG. 2. In the figure, reference numeral 22 denotes the kanji n-gram. The gram 22 records a kanji n-gram 18 of a baseball topic and a kanji n-gram 19 of a general topic.

【0077】図11に示すように、この漢字nグラム2
2内の野球話題の漢字nグラム18と一般話題の漢字n
グラム19には、それぞれ2グラムと1グラムがあり、
先頭の漢字列が検索のためのキーとなっている。2グラ
ムではキーとなる各漢字列に対して、前接形態素、後接
形態素、および確率が記録されている。ここで記録され
ている確率は、前接形態素の次に後接形態素の接続する
確率であり、その2グラムの生起確率に該当する。ま
た、1グラムではキーとなる各音韻列に対して、直接次
に連接する後接続形態素と確率が記録されている。この
1グラムの確率はその形態素自身の生起確率である。な
お、形態素は表記、音素表記、見出し読み、および品詞
の組であらわされる。
As shown in FIG. 11, this kanji n-gram 2
Baseball topic kanji n-gram 18 and general topic kanji n in 2
Gram 19 has 2 grams and 1 gram, respectively.
The first kanji string is the key for the search. In the 2 gram, the preceding morpheme, the succeeding morpheme, and the probability are recorded for each key kanji string. The probability recorded here is the probability that the next morpheme is connected after the preceding morpheme, and corresponds to the occurrence probability of 2 grams. In addition, in 1 gram, for each phoneme sequence serving as a key, the subsequent connected morpheme and the probability directly connected next are recorded. The probability of one gram is the occurrence probability of the morpheme itself. Note that a morpheme is represented by a set of notation, phoneme notation, headline reading, and part of speech.

【0078】算出した単語列Wを認識結果として出力手
段21より出力する。
The output means 21 outputs the calculated word string W as a recognition result.

【0079】次に動作について説明する。ここで、図1
2はこの実施の形態4による形態素解析装置における解
析処理の概略動作の流れを示すフローチャートである。
この形態素解析の処理はステップST201において、
ファイル入力装置17より仮名漢字混じり文字列を入力
することによって処理が開始される。ファイル入力装置
17はステップST202でその入力された仮名漢字交
じり文字列を取り込み、形態素確率算出手段20に入力
する。形態素確率算出手段20はファイル入力装置17
の取り込んだ仮名漢字交じり文字列が入力されると、ス
テップST203においてRAM5にこれを記憶する。
この実施の形態4では、仮名漢字交じり文字列として以
下が入力されたと仮定する。3号アーチのせんせい
Next, the operation will be described. Here, FIG.
2 is a flowchart showing a schematic operation flow of an analysis process in the morphological analyzer according to the fourth embodiment.
In this morphological analysis processing, in step ST201,
The process is started by inputting a character string mixed with kana and kanji from the file input device 17. The file input device 17 takes in the input kana-kanji mixed character string in step ST202 and inputs it to the morpheme probability calculation means 20. The morpheme probability calculating means 20 is a file input device 17
When a character string mixed with kana and kanji is input, it is stored in the RAM 5 in step ST203.
In the fourth embodiment, it is assumed that the following has been input as a kana-kanji mixed character string. Teacher of No. 3 arch

【0080】次にステップST204において、形態素
確率算出手段20はステップST203でRAM5に記
憶させた漢字列候補を取り出すとともに、初期化処理を
する。この初期化処理では、ヌル単語「{# # #
文頭}」とその確率値「1」を先行単語列候補の初期値
としてRAM5に記憶する。従って、ここでは、漢字列
候補として、「#3号アーチのせんせい#」が、まず取
り出される。形態素確率算出手段20はさらにステップ
ST205において、すべての先行単語列候補が漢字列
候補の末端の漢字と対応したか否かをチェックし、すべ
て対応していれば処理をステップST211に移し、対
応していなければ処理をステップST206に進める。
Next, in step ST204, the morpheme probability calculating means 20 retrieves the kanji string candidates stored in the RAM 5 in step ST203 and performs an initialization process. In this initialization process, the null word "{####"
The sentence head} ”and its probability value“ 1 ”are stored in the RAM 5 as initial values of preceding word string candidates. Therefore, here, "# 3 arch teacher #" is first extracted as a kanji string candidate. In step ST205, the morpheme probability calculation means 20 further checks whether or not all preceding word string candidates correspond to the terminal kanji of the kanji string candidate. If all of the preceding word string candidates correspond, the process proceeds to step ST211. If not, the process proceeds to step ST206.

【0081】ステップST206では、形態素確率算出
手段20はRAM5から先行単語列候補を1つ取り出
す。この実施の形態4では、最初に「{# # # 文
頭}」が先行単語列候補として取り出される。次にステ
ップST207において、野球話題の漢字nグラム18
および一般話題の漢字nグラム19を、先行単語列候補
の漢字列情報により検索し、検索した先行単語以降の漢
字列候補の部分列に、前方一致する後方単語があるか否
かのチェックをする。チェックの結果、前方一致した後
方単語が無い場合には、ステップST205に処理を戻
し、前方一致した後方単語がある場合には、ステップS
T208に処理を進める。
In step ST206, the morpheme probability calculation means 20 extracts one preceding word string candidate from the RAM 5. In the fourth embodiment, "{#### sentence start}" is first extracted as a preceding word string candidate. Next, in step ST207, the baseball kanji n-gram 18
In addition, the kanji n-gram 19 of the general topic is searched by using the kanji string information of the preceding word string candidate, and it is checked whether or not the partial string of the kanji string candidate after the searched preceding word has a backward word that matches forward. . As a result of the check, if there is no backward word that matches forward, the process returns to step ST205. If there is a backward word that matches forward, the process returns to step ST205.
The process proceeds to T208.

【0082】従って、この実施の形態4の場合には、初
期の先行単語列である「{# ## 文頭}」をまず検
索する。そして、この検索した先行単語列「{# #
#文頭}」の後方単語として、野球話題の漢字nグラム
18および一般話題の漢字nグラム19を検索し、
「#」に後続する「3号ア…」の先頭からの漢字列が部
分一致する単語を検索して後方単語とする。2グラムで
は「#3号」が「#3号ア…」の漢字列と前方一致する
ので、この2グラムの後接形態素「野球:3号saNg
oo さんごう 名詞」を後方単語の候補の1つとす
る。また、1グラムの「{野球:3号 saNgoo
さんごう 名詞}」は後方の漢字列に前方一致するので
これも候補とする。さらに「{一般:3号 saNgo
o さんごう 名詞}」も候補となる。
Therefore, in the case of the fourth embodiment, the initial preceding word string “{#### sentence beginning}” is searched first. Then, the searched preceding word string “{##
As a backward word of "# sentence #", a kanji n-gram 18 of a baseball topic and a kanji n-gram 19 of a general topic are searched.
A word whose kanji string partially matches from the beginning of "No. 3a ..." following "#" is searched for as a backward word. In the 2 gram, "# 3" matches the kanji string of "# 3a ..." in front, so the grammatical suffix "baseball: 3 saNg of the 2 gram"
oo sango noun ”is one of the candidates for the backward word. Also, 1 gram of "@ Baseball: No. 3 saNgoo
Sangu Noun} ”matches the beginning of the back kanji string, so this is also a candidate. Furthermore, "{General: No. 3 saNgo
o sango noun} ”is also a candidate.

【0083】ステップST208では、後方単語のそれ
ぞれについて尤度を計算し、RAM5に記憶するととも
に、先行単語列に後方単語を接続してゆく。この際に、
2グラムの場合は話題が先行の形態素と同じになるよう
にし、1グラムの場合は連接がないため話題の切り替わ
りを許すようにする。この後方単語を接続した先行単語
列を、新たに先行単語列としてRAM5に記憶する。こ
の実施の形態4では、先行単語列「{# # # 文
頭}」を「{野球:# # # 文頭}、{野球:3号
saNgoo さんごう 名詞}」に置き換える。言
語尤度は、先行単語列「{# # # 文頭}」の確率
1と、野球話題の「{#},{3号}」の2グラムの確
率0.01から前述の式(7)で計算される。
In step ST208, the likelihood is calculated for each of the backward words, stored in the RAM 5, and the backward words are connected to the preceding word string. At this time,
In the case of 2 grams, the topic is the same as the preceding morpheme, and in the case of 1 gram, there is no connection, so that the topic can be switched. The preceding word string to which the backward word is connected is stored in the RAM 5 as a new preceding word string. In the fourth embodiment, the preceding word string “{#### sentence head}” is replaced with “{baseball: #### headed head}, {baseball: No. 3 saNgoo sango noun}. The linguistic likelihood is calculated from the above-described equation (7) from the probability 1 of the preceding word string “{#### sentence start}” and the probability 0.01 of the 2-gram of the baseball topic “{#}, {3}}. Is calculated.

【0084】次にステップST209において、漢字列
全体が先行単語列に対応したか否かのチェックを行い、
対応していればステップST210に進んで、最大尤度
および解の先行単語列をRAM5に記憶した後、処理を
ステップST205に戻し、すべての先行単語列候補が
漢字列候補の末端の単語と対応したか否かをチェックす
る。一方、対応していなければ、そのまま処理をステッ
プST205に戻して上記チェックを行う。
Next, in step ST209, it is checked whether or not the entire kanji string corresponds to the preceding word string.
If so, the process proceeds to step ST210, where the maximum likelihood and the preceding word string of the solution are stored in the RAM 5, and then the process returns to step ST205, where all preceding word string candidates correspond to the terminal word of the kanji string candidate. Check if you have done it. On the other hand, if not, the process returns to step ST205 and the above check is performed.

【0085】この実施の形態4では、以上の処理によ
り、漢字列候補に対応して、「{## # 文頭}、
{野球:3号 saNgoo さんごう 名詞}、{野
球:アーチ aaci あーち 名詞}、{野球:の
no の 助詞}、…」の順に先行単語列候補が得られ
る。
In the fourth embodiment, by the above processing, “{### sentence start},
{Baseball: No.3 saNgoo Sango Noun}, {Baseball: Arch Aaci Aichi Noun}, {Baseball: No
The preceding word string candidates are obtained in the order of “no particles {,...

【0086】ステップST205ですべての先行単語列
候補が漢字列候補の末端の単語と対応していると判定さ
れた場合には、ステップST211に進んでRAM5に
記憶してある最大尤度を持つ解の単語列を読み出す。こ
こで、最大尤度は言語尤度と音響尤度の積の最大値であ
る。この実施の形態4では漢字列候補「#3号アーチの
先制#」に対して、「{# # # 文頭}、{3号
saNgoo さんごう 名詞}、{アーチ aac
i あーち 名詞}、{の no の 接続助詞}、
{先制 seNsee せんせい サ変名詞}」の形態
素解析結果が、また最大尤度が前述の式(6)で求めら
れる単語列確率P(W)中の最大値より、5.4×10
−9(音響尤度;0.9、言語尤度;6×10−9)と
得られる。
If it is determined in step ST205 that all preceding word string candidates correspond to the terminal word of the kanji string candidate, the flow advances to step ST211 to select a solution having the maximum likelihood stored in the RAM 5. Is read out. Here, the maximum likelihood is the maximum value of the product of the language likelihood and the acoustic likelihood. In the fourth embodiment, for the kanji string candidate “# 3 arch pre-emption #”, “{#### sentence beginning}, {3 saNgoo sango noun}, {arch aac
i ah noun}, 接 続 no no connecting particle},
The result of the morphological analysis of {preemptive seNsee sensa sa noun} has a maximum likelihood of 5.4 × 10 more than the maximum value in the word string probability P (W) obtained by the above equation (6).
−9 (acoustic likelihood: 0.9, language likelihood: 6 × 10 −9 ).

【0087】次にステップST212において、RAM
5から読み出した解の形態素列を取り出し、それを出力
手段21から出力した後、ステップST213に進んで
この一連の形態素解析処理を終了する。このようにし
て、この実施の形態4では解析結果として、「{3号
さんごう 名詞}、{アーチ あーち 名詞}、{のの
接続助詞}、{せんせい せんせい サ変名詞}」が
得られる。
Next, in step ST212, the RAM
After extracting the morpheme sequence of the solution read out from No. 5 and outputting it from the output means 21, the process proceeds to step ST213, and this series of morphological analysis processes is ended. As described above, in the fourth embodiment, as the analysis result, “$ 3
Sangu noun}, {arch ち noun}, {no connecting particle}, {せ せ 変 変 変.

【0088】以上のように、この実施の形態4によれ
ば、話題を分離して統計量をとって形態素解析を行って
いるので、部分的には「の せんせい」という曖昧な表
記でも「先制」の意味で品詞がサ変であることが算出で
き、nグラムの次数を大きくすることなく言語制約の強
いnグラムを構成することができ、高精度な形態素解析
装置を構築できるという効果が得られる。なお、本実施
例では2つの話題を扱ったが、3つ以上の話題を扱うよ
うに構成しても良い。
As described above, according to the fourth embodiment, since the morphological analysis is performed by separating the topics and taking the statistics, the vague notation of “no teacher” is partially expressed as “pre-emption”. ”Means that the part of speech is bimodal, an n-gram with a strong language constraint can be constructed without increasing the degree of the n-gram, and an effect that a highly accurate morphological analyzer can be constructed can be obtained. . Although two topics are dealt with in this embodiment, three or more topics may be dealt with.

【0089】実施の形態5.なお、上記実施の形態4で
は、特に考慮していなかったが、単語列候補の算出時
に、一連の仮名漢字混じり文字列に対する漢字nグラム
中の話題がすべて一致するように形態素確率算出手段を
構成してもよい。図13はそのようなこの発明の実施の
形態5による形態素解析装置の構成を示すブロック図で
ある。
Embodiment 5 Although not specifically considered in the fourth embodiment, the morpheme probability calculation means is configured so that all topics in the kanji n-gram for a series of kana-kanji mixed character strings match when calculating word string candidates. May be. FIG. 13 is a block diagram showing a configuration of such a morphological analyzer according to Embodiment 5 of the present invention.

【0090】図において、5はRAM、17はファイル
入力装置、21は出力手段であり、これらは図10に同
一符号を付して示した実施の形態4のそれらと同等の部
分である。23は図10に符号18を付して示したもの
に相当する形態素確率算出手段であるが、単語列候補の
算出時に、一連の仮名漢字混じり文字列に対する漢字n
グラム中の話題がすべて一致するように構成されている
点で異なっている。24、25は図10に符号18、1
9を付して示したものに相当する、野球話題の漢字nグ
ラムおよび一般話題の漢字nグラムであるが、この場合
には2グラムのみが用いられ、1グラムは用いられてい
ない。
In the figure, 5 is a RAM, 17 is a file input device, and 21 is an output means, which are equivalent to those of the fourth embodiment shown in FIG. Numeral 23 denotes a morpheme probability calculating means corresponding to the one denoted by reference numeral 18 in FIG. 10, but when calculating a word string candidate, a kanji character n for a series of kana-kanji mixed character strings is used.
The difference is that all topics in the gram are configured to match. Reference numerals 24 and 25 in FIG.
The kanji n-gram of the topic of baseball and the kanji n-gram of the general topic correspond to those indicated by adding 9, but in this case, only 2 grams are used and 1 gram is not used.

【0091】ここで、図14は漢字nグラムの具体例を
示す説明図である。図において、26はその漢字nグラ
ムであり、この漢字nグラム26は野球話題の漢字nグ
ラム24と一般話題の漢字nグラム25とが記録されて
いる。前述のように、この漢字nグラム26の野球話題
nグラム24と一般話題nグラム25には、それぞれキ
ーとなる各漢字列に対して、前接形態素、後接形態素、
および確率が記録された2グラムのみが用いられてい
る。
FIG. 14 is an explanatory diagram showing a specific example of a kanji n-gram. In the figure, reference numeral 26 denotes the kanji n-gram, and the kanji n-gram 26 records a kanji n-gram 24 of a baseball topic and a kanji n-gram 25 of a general topic. As described above, the baseball topic n-gram 24 and the general topic n-gram 25 of the kanji n-gram 26 have a leading morpheme, a trailing morpheme,
Only 2 grams with recorded probability are used.

【0092】次に動作について説明する。図15はこの
ように構成された実施の形態5による形態素解析装置の
概略動作の流れを示すフローチャートである。この実施
の形態5においても、まず、ステップST201からス
テップST206において、実施の形態4の場合と全く
同様の処理が行われる。ステップST206にてRAM
5から先行単語列候補の1つが取り出されると、形態素
確率算出手段23はステップST220において、漢字
nグラム26を先行単語列候補の漢字列情報によって検
索し、前方一致する後方単語があるか否かのチェックを
する。そのとき、実施の形態4では、漢字nグラム22
の野球話題の漢字nグラム18と一般話題の漢字nグラ
ム19は、それぞれ2グラムと1グラムの双方が用いら
れていたが、この実施の形態5では、野球話題の漢字n
グラム24と一般話題の漢字nグラム25が、それぞれ
2グラムのみの漢字nグラム26を用いて一致検出を行
っている。チェックの結果、前方一致した後方単語があ
る場合にはステップST208に分岐して、以下ステッ
プST213まで、実施の形態4と同様に処理を進め
る。
Next, the operation will be described. FIG. 15 is a flowchart showing a schematic operation flow of the morphological analyzer according to the fifth embodiment thus configured. Also in the fifth embodiment, the same processing as in the fourth embodiment is performed in steps ST201 to ST206. RAM in step ST206
5, one of the preceding word string candidates is taken out, and in step ST220, the morpheme probability calculating means 23 searches the kanji n-gram 26 by the kanji string information of the preceding word string candidate and determines whether or not there is a backward word that matches forward. Check At that time, in the fourth embodiment, the kanji n-gram 22
The baseball topic kanji n-gram 18 and the general topic kanji n-gram 19 used both 2 grams and 1 gram, respectively.
The gram 24 and the kanji n-gram 25 of the general topic are used to detect coincidence using the kanji n-gram 26 of only 2 grams each. As a result of the check, if there is a backward word that matches the beginning, the process branches to step ST208, and the process proceeds to step ST213 as in the fourth embodiment.

【0093】以上のように、この実施の形態5によれ
ば、形態素確率算出手段23は漢字nグラム26の2グ
ラムのみを用いて一致を検査しているので、1つの仮名
漢字混じり文字列に対する一連の形態素は同一の話題の
形態素となるため、他の話題が交ざることを防止するこ
とができるという効果が得られる。
As described above, according to the fifth embodiment, since the morpheme probability calculating means 23 checks the match using only two grams of the kanji n-gram 26, the morpheme probability calculating means 23 determines whether a character string containing one kana kanji is mixed. Since a series of morphemes are morphemes of the same topic, it is possible to prevent another topic from intersecting.

【0094】実施の形態6.なお、上記実施の形態4お
よび実施の形態5では、形態素解析において、話題ごと
の確率の重み調整については特に考慮していなかった
が、話題ごとに確率の重みの調整を可能にするように形
態素確率算出手段を構成してもよい。図16はそのよう
なこの発明の実施の形態6による形態素解析装置の構成
を示すブロック図である。図において、5はRAM、1
7はファイル入力装置、21は出力手段、24、25は
野球話題および一般話題の漢字nグラムであり、これら
は図13に同一符号を付して示した実施の形態5のそれ
らと同等の部分である。27は図13に符号23を付し
て示したものに相当する形態素確率算出手段であるが、
話題ごとに確率の重みを調整可能に構成されている点で
異なっている。
Embodiment 6 FIG. In the fourth and fifth embodiments, the morphological analysis does not particularly consider the adjustment of the probability weight for each topic. However, the morphological analysis is performed so that the adjustment of the probability weight for each topic becomes possible. Probability calculation means may be configured. FIG. 16 is a block diagram showing a configuration of such a morphological analyzer according to Embodiment 6 of the present invention. In the figure, 5 is a RAM, 1
7 is a file input device, 21 is output means, and 24 and 25 are kanji n-grams of baseball topics and general topics, which are the same as those of the fifth embodiment shown in FIG. It is. Reference numeral 27 denotes a morpheme probability calculating unit corresponding to the unit indicated by the reference numeral 23 in FIG.
The difference is that the weight of the probability can be adjusted for each topic.

【0095】次に動作について説明する。図17はこの
ように構成された実施の形態6による形態素解析装置の
概略動作の流れを示すフローチャートである。この実施
の形態6においても、まず、ステップST201からス
テップST206、およびステップST220におい
て、実施の形態5の場合と全く同様の処理が行われる。
ステップST220における2グラムのみの漢字nグラ
ム26を用いた、前方一致する後方単語があるか否のチ
ェックの結果、前方一致した後方単語がない場合にはス
テップST205に戻り、前方一致する後方単語がある
場合にはステップST230に進む。ステップST23
0では形態素確率算出手段27が、後方単語のそれぞれ
について分野別に重み付けを行って尤度を計算し、それ
をRAM5に記憶するとともに、先行単語列に後方単語
を接続してゆき、新たに先行単語列としてRAM5に記
憶する。以下ステップST209からステップST21
3まで、実施の形態5と同様に処理を進める。
Next, the operation will be described. FIG. 17 is a flowchart showing a schematic operation flow of the morphological analyzer according to the sixth embodiment thus configured. Also in the sixth embodiment, the same processing as that of the fifth embodiment is performed in steps ST201 to ST206 and step ST220.
As a result of checking whether or not there is a backward word that matches forward using the kanji n-gram 26 of only 2 grams in step ST220, if there is no backward word that matches forward, the process returns to step ST205, and the backward word that matches forward appears. If there is, the process proceeds to step ST230. Step ST23
In the case of 0, the morpheme probability calculation means 27 calculates the likelihood by weighting each of the backward words for each field, stores the likelihood in the RAM 5, connects the backward word to the preceding word string, and newly adds the preceding word. It is stored in the RAM 5 as a column. Hereinafter, steps ST209 to ST21
Up to 3, the process proceeds in the same manner as in the fifth embodiment.

【0096】以上のように、この実施の形態6によれ
ば、2グラムの確率の重みを話題別にかけるように形態
素確率算出手段27を構成しているので、話題別に出現
確率の調節が可能になるという効果が得られる。
As described above, according to the sixth embodiment, the morpheme probability calculating means 27 is configured to apply a 2-gram probability weight to each topic, so that the appearance probability can be adjusted for each topic. Is obtained.

【0097】実施の形態7.なお、上記実施の形態1〜
実施の形態6では音声解析装置、あるいは形態素解析装
置に関するものについて説明したが、仮名nグラムを構
成することにより仮名漢字変換装置を構築することも可
能である。図18はそのようなこの発明の実施の形態7
による仮名漢字変換装置の構成を示すブロック図であ
る。
Embodiment 7 FIG. It should be noted that the first to the first embodiments
Although the sixth embodiment has been described with respect to the speech analysis device or the morphological analysis device, it is also possible to construct a kana-kanji conversion device by configuring a kana n-gram. FIG. 18 shows such a seventh embodiment of the present invention.
1 is a block diagram showing a configuration of a kana-kanji conversion device according to the present invention.

【0098】図において、28は入力文の仮名文字列を
入力する入力手段としてのキーボードである。29、3
0は仮名文字列と、仮名文字列に対応する単語表記列
と、生起確率とを記憶する仮名nグラムであり、この仮
名nグラム中では単語が、それぞれ話題に対応して分類
されており、仮名nグラム29としては野球の話題につ
いて記憶した野球話題の仮名nグラムについて、仮名n
グラム30としては一般の話題について記憶した一般話
題の仮名nグラムについてそれぞれ例示されている。3
1はこれら野球話題の仮名nグラム29および一般話題
の仮名nグラム30を参照して、キーボード28が出力
する仮名文字列に対応する各単語候補の単語生起確率を
算出する漢字確率算出手段である。5は処理過程の情報
を記憶するRAMであり、32は漢字確率算出手段31
で算出された単語生起確率を用いて求めた、キーボード
28より入力された仮名文字列に適合する単語列候補を
求めて出力する出力手段である。
In the figure, reference numeral 28 denotes a keyboard as input means for inputting a kana character string of an input sentence. 29, 3
0 is a kana n-gram that stores a kana character string, a word notation string corresponding to the kana character string, and an occurrence probability. In the kana n-gram, words are classified according to topics, respectively. As the pseudonym n-gram 29, for the pseudonym n-gram of the baseball topic stored about the baseball topic,
Examples of the gram 30 are the kana n-grams of general topics stored for general topics. Three
Reference numeral 1 denotes a kanji probability calculating means for calculating the word occurrence probability of each word candidate corresponding to the kana character string output from the keyboard 28 with reference to the kana n-gram 29 of the baseball topic and the kana n-gram 30 of the general topic. . Reference numeral 5 denotes a RAM for storing information on the process, and 32 denotes a kanji probability calculating means 31.
This is an output unit that obtains and outputs a word string candidate that matches the kana character string input from the keyboard 28, obtained using the word occurrence probability calculated in (1).

【0099】以下、単語列候補の生成について説明す
る。この実施の形態4における単語列候補の生成は、単
語列の出現確率P(W)を最大にするWを算出すること
で得られる。このとき、Wは入力された単語列である。
また、単語列の出現確率P(W)は、m語の単語列Wが
前述の式(4)で決定されるとき、前述の式(6)から
求める。なお、その際には野球話題の仮名nグラム2
9、一般話題の仮名nグラム30の確率が使用される。
Hereinafter, generation of a word string candidate will be described. Generation of a word string candidate in the fourth embodiment is obtained by calculating W that maximizes the word string appearance probability P (W). At this time, W is the input word string.
The word string appearance probability P (W) is obtained from the above equation (6) when the m word row W is determined by the above equation (4). In that case, the kana n-gram 2 of baseball topics
9. The probability of the kana n-gram 30 of the general topic is used.

【0100】上述した計算により、野球話題の仮名nグ
ラム29及び一般話題の仮名nグラム30に単語の列が
存在するものについて、単語列確率P(W)を最大にす
るWを算出する。なお、組み合わせの計算については、
例えば、長尾真著:「自然言語処理」に示されるVit
erbi方法を用いて高速に行ってもよいし、また、確
率を対数確率として計算式を総和で計算可能としてもよ
い。それぞれの単語の出現確率は単語の野球話題の仮名
nグラム29と一般話題の仮名nグラム30に予め記憶
してある確率値をもとに算出する。
With the above-described calculation, W that maximizes the word string probability P (W) is calculated for words having a word string in the kana n-gram 29 of the baseball topic and the kana n-gram 30 of the general topic. For the calculation of the combination,
For example, Vit shown in Makoto Nagao: "Natural Language Processing"
The calculation may be performed at a high speed by using the erbi method, or the calculation formula may be calculated by summation using the probability as logarithmic probability. The appearance probability of each word is calculated based on the probability values stored in advance in the kana n-gram 29 of the baseball topic of the word and the kana n-gram 30 of the general topic.

【0101】ここで、図19は図2に示した例文10を
もとに作成した仮名nグラムの具体例を示す説明図であ
る。図において、33がその仮名nグラムであり、この
仮名nグラム33には野球話題の仮名nグラム29と一
般話題の仮名nグラム30とが記録されている。
FIG. 19 is an explanatory diagram showing a specific example of a pseudonym n-gram created based on the example sentence 10 shown in FIG. In the figure, reference numeral 33 denotes the pseudonym n-gram, and the pseudonym n-gram 33 records a pseudonym n-gram 29 of a baseball topic and a pseudonym n-gram 30 of a general topic.

【0102】図19に示すように、この仮名nグラム3
3内の野球話題の仮名nグラム29と一般話題の仮名n
グラム30には、それぞれ2グラムと1グラムがあり、
先頭の仮名文字列が検索のためのキーとなっている。2
グラムではキーとなる各仮名文字列に対して、前接形態
素、後接形態素、および確率が記録されている。ここで
記録されている確率は、前接形態素の次に後接形態素の
接続する確率であり、その2グラムの生起確率に該当す
る。また、1グラムではキーとなる各音韻列に対して、
直接次に連接する後接続形態素と確率が記録されてい
る。この1グラムの確率はその形態素自身の生起確率で
ある。なお、形態素は表記、音素表記、見出し読み、お
よび品詞の組であらわされる。
As shown in FIG. 19, this pseudonym n-gram 3
3 baseball kana n-gram 29 and general kana n
Gram 30 has 2 grams and 1 gram respectively,
The first kana character string is a key for searching. 2
In the gram, an antecedent morpheme, an antecedent morpheme, and a probability are recorded for each kana character string serving as a key. The probability recorded here is the probability that the next morpheme is connected after the preceding morpheme, and corresponds to the occurrence probability of 2 grams. Also, in 1 gram, for each phoneme sequence that is a key,
The subsequent connected morphemes and probabilities connected directly next are recorded. The probability of one gram is the occurrence probability of the morpheme itself. Note that a morpheme is represented by a set of notation, phoneme notation, headline reading, and part of speech.

【0103】算出した単語列Wを認識結果として出力手
段32より出力する。
The output means 32 outputs the calculated word string W as a recognition result.

【0104】次に動作について説明する。ここで、図2
0はこの実施の形態7による仮名漢字変換装置における
変換処理の概略動作の流れを示すフローチャートであ
る。この仮名漢字変換の処理はステップST301にお
いて、キーボード28が操作されることによって処理が
開始される。キーボード28の操作によって入力された
仮名文字列は、ステップST302で漢字確率算出手段
31に取り込まれ、ステップST303において、RA
M5にこれを記憶する。この実施の形態7では、仮名文
字列として以下が入力されたと仮定する。さんごうあー
ちのせんせい
Next, the operation will be described. Here, FIG.
0 is a flowchart showing a schematic operation flow of a conversion process in the kana-kanji conversion device according to the seventh embodiment. The kana-kanji conversion process is started by operating the keyboard 28 in step ST301. The kana character string input by the operation of the keyboard 28 is taken into the kanji probability calculating means 31 in step ST302.
This is stored in M5. In the seventh embodiment, it is assumed that the following is input as a kana character string. Teacher of cormorant art

【0105】次にステップST304において、漢字確
率算出手段31はステップST303でRAM5に記憶
させた仮名文字列を取り出すとともに、初期化処理をす
る。この初期化処理では、ヌル単語「{# # # 文
頭}」とその確率値「1」を先行単語列候補の初期値と
してRAM5に記憶する。従って、ここでは、仮名文字
列として、「#さんごうあーちのせんせい#」が、まず
取り出される。漢字確率算出手段31はさらにステップ
ST305において、すべての先行単語列候補が仮名文
字列の末端の仮名と対応したか否かをチェックし、すべ
て対応していれば処理をステップST311に移し、対
応していなければ処理をステップST306に進める。
Next, in step ST304, the kanji probability calculating means 31 takes out the kana character string stored in the RAM 5 in step ST303 and performs an initialization process. In this initialization process, the null word “{#### sentence start}” and its probability value “1” are stored in the RAM 5 as initial values of the preceding word string candidates. Therefore, here, “# sango-a-no-sensei #” is first extracted as a kana character string. In step ST305, the kanji probability calculating means 31 further checks whether or not all preceding word string candidates correspond to the terminal kana of the kana character string, and if all correspond, moves the process to step ST311. If not, the process proceeds to step ST306.

【0106】ステップST306では、漢字確率算出手
段31はRAM5から先行単語列候補を1つ取り出す。
この実施の形態7では、最初に「{# # # 文
頭}」が先行単語列候補として取り出される。次にステ
ップST307において、野球話題の仮名nグラム29
および一般話題の仮名nグラム30を、先行単語列候補
の仮名列情報により検索し、検索した先行単語以降の仮
名列候補の部分列に、前方一致する後方単語があるか否
かのチェックをする。チェックの結果、前方一致した後
方単語が無い場合には、ステップST305に処理を戻
し、前方一致した後方単語がある場合には、ステップS
T308に処理を進める。
In step ST306, the kanji probability calculating means 31 extracts one preceding word string candidate from the RAM 5.
In the seventh embodiment, “{#### sentence start}” is first extracted as a preceding word string candidate. Next, in step ST307, the base name kana n-gram 29
The kana n-gram 30 of the general topic is searched by the kana string information of the preceding word string candidate, and it is checked whether or not the partial string of the kana string candidate after the searched preceding word has a backward word that matches forward. . As a result of the check, if there is no backward word that matches forward, the process returns to step ST305. If there is a backward word that matches forward, the process returns to step ST305.
The process proceeds to T308.

【0107】従って、この実施の形態7の場合には、初
期の先行単語列である「{# ## 文頭}」をまず検
索する。そして、この検索した先行単語列「{# #
#文頭}」の後方単語として、野球話題の仮名nグラム
29と一般話題の仮名nグラム30を検索し、「#」に
後続する「さんごうあー…」の先頭からの仮名文字列が
部分一致する単語を検索して後方単語とする。2グラム
では「#さんごう」が「#さんごうあー…」の仮名文字
列と前方一致するので、この2グラムの後接形態素「野
球:3号 saNgoo さんごう 名詞」を後方単語
の候補の1つとする。また、1グラムの「{野球:3号
saNgoo さんごう 名詞}」は後方の仮名文字
列に前方一致するのでこれも候補とする。さらに「{一
般:3号 saNgoo さんごう 名詞}」も候補と
なる。
Therefore, in the case of the seventh embodiment, the initial preceding word string “{#### sentence beginning}” is searched first. Then, the searched preceding word string “{##
The kana n-gram 29 of the baseball topic and the kana n-gram 30 of the general topic are searched for as the backward word of "# sentence #", and the kana character string from the beginning of "sangoua -..." following "#" partially matches. The word to be searched is searched for and used as the backward word. In the 2-gram, "#sango" matches the kana character string of "# sangoa-a ..." in front of the kana character string. One. In addition, one gram of “{baseball: No. 3 saNgoo sangu noun}” matches the back kana character string in front, so this is also a candidate. Furthermore, “{General: No. 3 saNgoo Sango Noun}” is also a candidate.

【0108】ステップST308では、後方単語それぞ
れについて尤度を計算し、RAM5に記憶するととも
に、先行単語列に後方単語を接続してゆき、新たに先行
単語列としてRAM5にこれを記憶する。この実施の形
態7では、先行単語列「{## # 文頭}」を「{野
球:# # # 文頭}、{野球:3号 saNgoo
さんごう 名詞}」に置き換える。言語尤度は、先行
単語列「{# # #文頭}」の確率1と、野球話題の
「{野球:# # # 文頭}、{野球:3号 saN
goo さんごう 名詞}」の2グラムの確率0.01
から前述の式(7)で計算される。
In step ST308, the likelihood of each backward word is calculated and stored in the RAM 5, while the backward word is connected to the preceding word string, and this is stored in the RAM 5 as a new preceding word string. In the seventh embodiment, the preceding word string "@ ## # sentence head" is changed to "@baseball: ### sentence head," @baseball: No. 3 saNgoo
Sango noun} ”. The linguistic likelihood is the probability 1 of the preceding word string “{#### sentence}” and the baseball topic “{baseball: #### sentence}”, {baseball: No. 3 saN
goo sango noun} ”2 gram probability 0.01
Is calculated by the above equation (7).

【0109】次にステップST309において、仮名文
字列全体が先行単語列に対応したか否かのチェックを行
い、対応していればステップST310に進んで、最大
尤度および解の先行単語列をRAM5に記憶した後、処
理をステップST305に戻し、すべての先行単語列候
補が仮名文字列候補の末端の仮名と対応したか否かをチ
ェックする。一方、対応していなければ、そのまま処理
をステップST305に戻して上記チェックを行う。
Next, in step ST309, it is checked whether or not the entire kana character string corresponds to the preceding word string, and if so, the flow advances to step ST310 to store the maximum likelihood and the preceding word string of the solution in the RAM 5. After that, the process returns to step ST305 to check whether all preceding word string candidates correspond to the terminal kana of the kana character string candidate. On the other hand, if not, the process returns to step ST305 to perform the above check.

【0110】この実施の形態7では、以上の処理によ
り、仮名列候補に対応して、「{## # 文頭}、
{野球:3号 saNgoo さんごう 名詞}、{野
球:アーチ aaci あーち 名詞}、{野球:の
no の 助詞}、…」の順に先行単語列候補が得られ
る。
In the seventh embodiment, by the above processing, “{### sentence start},
{Baseball: No.3 saNgoo Sango Noun}, {Baseball: Arch Aaci Aichi Noun}, {Baseball: No
The preceding word string candidates are obtained in the order of “no particles {,...

【0111】ステップST305ですべての先行単語列
候補が仮名文字列候補の末端の仮名と対応していると判
定された場合には、ステップST311に進んでRAM
5に記憶してある最大尤度を持つ解の単語列を読み出
す。ここで、最大尤度は言語尤度と音響尤度の積の最大
値である。この実施の形態7では仮名文字列候補「#さ
んごうあーちのせんせい#」に対して、「{# # #
文頭}、{3号 saNgoo さんごう 名詞}、
{アーチ aaci あーち 普通名詞}、{のno
の 接続助詞}、{先制 seNsee せんせい サ
変名詞}」が、また最大尤度が前述の式(6)で求めら
れる単語列確率P(W)中の最大値より、5.4×10
−9(音響尤度;0.9、言語尤度;6×10−9)と
得られる。
If it is determined in step ST305 that all preceding word string candidates correspond to the terminal kana of the kana character string candidate, the process proceeds to step ST311 to proceed to step ST311.
The word string of the solution having the maximum likelihood stored in No. 5 is read out. Here, the maximum likelihood is the maximum value of the product of the language likelihood and the acoustic likelihood. In the seventh embodiment, for the kana character string candidate “# sangoaichi-no-sensei #”, “@ ####” is used.
Sentence} 、 {No.3 saNgoo sango noun} 、
{Arch aaci Aichi common noun}, no of no
, The maximum likelihood is 5.4 × 10 higher than the maximum value in the word string probability P (W) obtained by the above equation (6).
−9 (acoustic likelihood: 0.9, language likelihood: 6 × 10 −9 ).

【0112】次にステップST312において、このR
AM5から読み出した解の単語列を出力手段32から出
力した後、ステップST313に進んでこの一連の形態
素解析処理を終了する。このようにして、この実施の形
態7では仮名漢字変換結果として、「3号アーチの先
制」が得られる。
Next, in step ST312, this R
After outputting the word string of the solution read from AM5 from the output unit 32, the process proceeds to step ST313, and this series of morphological analysis processing ends. In this manner, in the seventh embodiment, “No. 3 arch preemption” is obtained as the kana-kanji conversion result.

【0113】以上のように、この実施の形態7によれ
ば、話題を分離して統計量をとって仮名漢字変換を行っ
ているので、nグラムの次数を大きくすることなく言語
制約の強いnグラムを構成することができ、高精度な仮
名漢字変換装置を構築できるという効果が得られる。な
お、本実施例では2つの話題を扱ったが、3つ以上の話
題を扱うように構成しても良い。
As described above, according to the seventh embodiment, the kana-kanji conversion is performed by separating the topics and obtaining the statistics, so that the n-grams with strong linguistic constraints can be used without increasing the degree of the n-gram. Thus, an effect that a highly accurate kana-kanji conversion device can be constructed can be obtained. Although two topics are dealt with in this embodiment, three or more topics may be dealt with.

【0114】実施の形態8.なお、上記実施の形態7で
は、特に考慮していなかったが、仮名漢字の変換時に、
一連の仮名文字列に対する仮名nグラム中の話題がすべ
て一致するように漢字確率算出手段を構成してもよい。
図21はそのようなこの発明の実施の形態8による仮名
漢字変換装置の構成を示すブロック図である。
Embodiment 8 FIG. In the above-described Embodiment 7, although no particular consideration was given, when converting kana-kanji,
The kanji probability calculating means may be configured so that all topics in a kana n-gram for a series of kana character strings match.
FIG. 21 is a block diagram showing a configuration of such a kana-kanji conversion device according to the eighth embodiment of the present invention.

【0115】図において、5はRAM、28はキーボー
ド、32は出力手段であり、これらは図18に同一符号
を付して示した実施の形態7のそれらと同等の部分であ
る。34は図18に符号29を付して示したものに相当
する漢字確率算出手段であるが、単語列候補の算出時
に、一連の仮名文字列に対する仮名nグラム中の話題が
すべて一致するように構成されている点で異なってい
る。35、36は図18に符号29、30を付して示し
たものに相当する、野球話題の仮名nグラムおよび一般
話題の仮名nグラムであるが、この場合には2グラムの
みが用いられ、1グラムは用いられていない。
In the figure, 5 is a RAM, 28 is a keyboard, 32 is an output means, which are the same as those of the seventh embodiment shown in FIG. Reference numeral 34 denotes a kanji probability calculating means equivalent to that shown in FIG. 18 with the reference numeral 29. When calculating a word string candidate, a kanji probability calculating means is used so that all topics in a kana n-gram for a series of kana character strings match. The difference is in the configuration. 35 and 36 are a pseudonym n-gram of a baseball topic and a pseudonym n-gram of a general topic, which are equivalent to those indicated by reference numerals 29 and 30 in FIG. 18. In this case, only 2 g is used, One gram is not used.

【0116】ここで、図22は仮名nグラムの具体例を
示す説明図である。図において、37はその仮名nグラ
ムであり、この仮名nグラム37は野球話題の仮名nグ
ラム35と一般話題の仮名nグラム36とが記録されて
いる。前述のように、この仮名nグラム37の野球話題
の仮名nグラム35と一般話題の仮名nグラム36に
は、それぞれキーとなる各仮名文字列に対して、前接形
態素、後接形態素、および確率が記録された2グラムの
みが用いられている。
FIG. 22 is an explanatory diagram showing a specific example of the kana n-gram. In the figure, reference numeral 37 denotes the pseudonym n-gram, and the pseudonym n-gram 37 records a pseudonym n-gram 35 of a baseball topic and a pseudonym n-gram 36 of a general topic. As described above, the kana n-gram 35 of the baseball topic and the kana n-gram 36 of the general topic of the kana n-gram 37 have a prefix morpheme, a postfix morpheme, and a Only 2 grams with the recorded probability are used.

【0117】次に動作について説明する。図23はこの
ように構成された実施の形態8による仮名漢字変換装置
の概略動作の流れを示すフローチャートである。この実
施の形態8においても、まず、ステップST301から
ステップST306において、実施の形態7の場合と全
く同様の処理が行われる。ステップST306にてRA
M5から先行単語列候補を1つが取り出されると、漢字
確率計算手段34はステップST320において、仮名
nグラム37を先行単語列候補の仮名列情報によって検
索し、前方一致する後方単語があるか否かのチェックを
する。そのとき、実施の形態7では、仮名nグラム33
の野球話題の仮名nグラム30と一般話題の仮名nグラ
ム31は、それぞれ2グラムと1グラムの双方が用いら
れていたが、この実施の形態8では、野球話題の仮名n
グラム35と一般話題の仮名nグラム36が、それぞれ
2グラムのみの仮名nグラム37を用いて一致検出を行
っている。チェックの結果、前方一致した後方単語があ
る場合にはステップST308に分岐して、以下ステッ
プST313まで、実施の形態7と同様に処理を進め
る。
Next, the operation will be described. FIG. 23 is a flowchart showing a schematic operation flow of the kana-kanji conversion device according to the eighth embodiment thus configured. Also in the eighth embodiment, first, in steps ST301 to ST306, exactly the same processing as in the seventh embodiment is performed. RA in step ST306
When one preceding word string candidate is extracted from M5, in step ST320, the kanji probability calculating means 34 searches the kana n-gram 37 with the kana string information of the preceding word string candidate, and determines whether or not there is a backward word that matches forward. Check At that time, in the seventh embodiment, the kana n-gram 33
The baseball topic pseudonym n-gram 30 and the general topic pseudonym n-gram 31 both use 2 gram and 1 gram, respectively.
The gram 35 and the kana n-gram 36 of the general topic are used for matching detection using the kana n-gram 37 of only 2 grams each. As a result of the check, if there is a backward word whose front matches, the process branches to step ST308, and the process proceeds to step ST313 in the same manner as in the seventh embodiment.

【0118】以上のように、この実施の形態8によれ
ば、漢字確率算出手段34は仮名nグラム37の2グラ
ムのみを用いて一致を検査しているので、1つの仮名文
字列に対する一連の形態素は同じ話題の形態素となるた
め、他の話題が交ざることをなくすことができるという
効果が得られる。
As described above, according to the eighth embodiment, the kanji probability calculating means 34 checks the match using only 2 g of the kana n-gram 37. Since the morphemes are morphemes of the same topic, an effect that another topic can be prevented from intersecting is obtained.

【0119】実施の形態9.なお、上記実施の形態7お
よび実施の形態8では、仮名漢字変換において、話題ご
との確率の重み調整については特に考慮していなかった
が、話題ごとに確率の重みの調整を可能に漢字確率算出
手段を構成するようにしてもよい。図24はそのような
この発明の実施の形態9による仮名漢字変換装置の構成
を示すブロック図である。図において、5はRAM、2
8はキーボード、32は出力手段、35、36は野球話
題および一般話題の仮名nグラムであり、これらは図2
1に同一符号を付して示した実施の形態8のそれらと同
等の部分である。38は図21に符号34を付して示し
たものに相当する漢字確率算出手段であるが、話題ごと
に確率の重みを調整可能に構成されている点で異なって
いる。
Embodiment 9 FIG. In the above seventh and eighth embodiments, the kana-kanji conversion does not particularly consider the adjustment of the probability weight for each topic, but the kanji probability calculation enables the adjustment of the probability weight for each topic. Means may be constituted. FIG. 24 is a block diagram showing a configuration of such a kana-kanji conversion device according to Embodiment 9 of the present invention. In the figure, 5 is RAM, 2
Reference numeral 8 denotes a keyboard, 32 denotes output means, and 35 and 36 denote kana n-grams of baseball topics and general topics.
1 are the same as those of Embodiment 8 shown by attaching the same reference numerals. Numeral 38 denotes a kanji probability calculating means corresponding to the one denoted by reference numeral 34 in FIG. 21, but differs in that the weight of the probability can be adjusted for each topic.

【0120】次に動作について説明する。図25はこの
ように構成された実施の形態9による仮名漢字変換装置
の概略動作の流れを示すフローチャートである。この実
施の形態9においても、まず、ステップST301から
ステップST306、およびステップST320におい
て、実施の形態8の場合と全く同様の処理が行われる。
ステップST320における2グラムのみの仮名nグラ
ム37を用いた、前方一致する後方単語があるか否のチ
ェックの結果、前方一致した後方単語がない場合にはス
テップST305に戻り、前方一致する後方単語がある
場合にはステップST330に進む。ステップST33
0では漢字確率算出手段38が、後方単語のそれぞれに
ついて分野別に重み付けを行って尤度を計算し、それを
RAM5に記憶するとともに、先行単語列に後方単語を
接続してゆき、新たに先行単語列としてRAM5に記憶
する。以下ステップST309からステップST313
まで、実施の形態8と同様に処理を進める。
Next, the operation will be described. FIG. 25 is a flowchart showing a schematic operation flow of the kana-kanji conversion device according to the ninth embodiment configured as described above. Also in the ninth embodiment, the same processing as in the eighth embodiment is performed in steps ST301 to ST306 and step ST320.
As a result of checking whether or not there is a backward word that matches forward using the kana n-gram 37 of only 2 grams in step ST320, if there is no backward word that matches forward, the process returns to step ST305, and the backward word that matches forward is determined. If there is, the process proceeds to step ST330. Step ST33
In the case of 0, the kanji probability calculating means 38 calculates the likelihood by weighting each of the backward words for each field, stores the likelihood in the RAM 5, and connects the backward word to the preceding word string to newly add the preceding word. It is stored in the RAM 5 as a column. Hereinafter, steps ST309 to ST313 are performed.
Up to this point, the process proceeds in the same manner as in the eighth embodiment.

【0121】以上のように、この実施の形態9によれ
ば、2グラムの確率の重みを話題別にかけるように漢字
確率算出手段38を構成しているので、話題別に出現確
率の調節が可能になるという効果が得られる。
As described above, according to the ninth embodiment, the kanji probability calculating means 38 is configured to apply the probability weight of 2 grams to each topic, so that the appearance probability can be adjusted for each topic. Is obtained.

【0122】[0122]

【発明の効果】以上のように、この発明によれば、対象
言語の音韻列、音韻列に対応する単語表記列、および生
起確率を記憶した音韻nグラム中の単語を、それぞれの
話題に対応して分類し、単語確率算出手段がその音韻n
グラムを参照して算出した単語生起確率と、音韻確率算
出手段が算出した音韻生起確率とを用いて、入力された
音声に類似する単語列候補を求めて出力手段より出力す
るように構成したので、話題を分離して統計量をとるこ
とによって、nグラムの次数を大きくすることなく言語
制約の強いnグラムを構成することが可能となり、精度
の高い音声認識装置が得られるという効果がある。
As described above, according to the present invention, the words in the phoneme n-gram in which the phoneme sequence of the target language, the word expression sequence corresponding to the phoneme sequence, and the occurrence probability are stored correspond to the respective topics. And the word probability calculating means calculates the phoneme n
By using the word occurrence probability calculated with reference to the gram and the phoneme occurrence probability calculated by the phoneme probability calculation means, a word string candidate similar to the input speech is obtained and output from the output means. By separating the topics and obtaining statistics, it is possible to construct an n-gram with a strong language constraint without increasing the order of the n-gram, and this has the effect of obtaining a highly accurate speech recognition device.

【0123】この発明によれば、単語列候補の算出時
に、単語確率算出手段で一連の音声に対応する音韻nグ
ラム中の話題をすべて一致させるように構成したので、
1つの音声に対する一連の形態素が同じ話題の形態素と
なり、発話中に他の話題が交ざることを防止することが
できる音声認識装置が得られるという効果がある。
According to the present invention, at the time of calculating a word string candidate, the word probability calculation means is configured to match all topics in a phoneme n-gram corresponding to a series of voices.
A series of morphemes for one voice becomes the morpheme of the same topic, and there is an effect that a speech recognition device that can prevent another topic from intermingling during utterance can be obtained.

【0124】この発明によれば、単語確率算出手段によ
って、話題ごとに確率の重み設定を行うように構成した
ので、話題別に出現確率を調整することが可能な音声認
識装置が得られるという効果がある。
According to the present invention, since the weight setting of the probability is performed for each topic by the word probability calculating means, the speech recognition apparatus capable of adjusting the appearance probability for each topic can be obtained. is there.

【0125】この発明によれば、仮名漢字混じり文字
列、仮名漢字混じり文字列に対応する単語表記列、およ
び生起確率を記憶した漢字nグラム中の単語を、それぞ
れの話題に対応して分類し、形態素確率算出手段がその
漢字nグラムを参照して算出した単語生起確率を用い
て、入力された仮名漢字混じり文字列に適合する単語列
候補を求めて出力手段より出力するように構成したの
で、話題を分離して統計量をとることによって、nグラ
ムの次数を大きくすることなく言語制約の強いnグラム
を構成することが可能となり、精度の高い形態素解析装
置が得られるという効果がある。
According to the present invention, the kana-kanji mixed character string, the word notation string corresponding to the kana-kanji mixed character string, and the words in the kanji n-gram storing the occurrence probabilities are classified according to the respective topics. Since the morpheme probability calculation means uses the word occurrence probabilities calculated with reference to the kanji n-gram to determine a word string candidate that matches the input kana-kanji mixed character string, and is output from the output means. By separating the topics and collecting statistics, it is possible to construct an n-gram with a strong language constraint without increasing the order of the n-gram, and there is an effect that a highly accurate morphological analyzer can be obtained.

【0126】この発明によれば、単語列候補の算出時
に、形態素確率算出手段で一連の仮名漢字混じり文字列
に対応する漢字nグラム中の話題をすべて一致させるよ
うに構成したので、1つの仮名漢字混じり文字列に対す
る一連の形態素は同一の話題の形態素となるため、他の
話題が交ざることを防止することができる形態素解析装
置が得られるという効果が得られる。
According to the present invention, at the time of calculating a word string candidate, the morpheme probability calculating means is configured to match all the topics in the kanji n-gram corresponding to a series of kana-kanji mixed character strings. Since a series of morphemes for a character string mixed with kanji is a morpheme of the same topic, an effect is obtained in that a morphological analyzer capable of preventing another topic from intersecting can be obtained.

【0127】この発明によれば、形態素確率算出手段に
よって、話題ごとに確率の重み設定を行うように構成し
たので、話題別に出現確率を調整することが可能な形態
素解析装置が得られるという効果がある。
According to the present invention, the morpheme probability calculation means is configured to set the weight of the probability for each topic. Therefore, the morphological analysis device capable of adjusting the appearance probability for each topic can be obtained. is there.

【0128】この発明によれば、仮名文字列、仮名文字
列に対応する単語表記列、および生起確率を記憶した仮
名nグラム中の単語を、それぞれの話題に対応して分類
し、漢字確率算出手段がその仮名nグラムを参照して算
出した単語生起確率を用いて、入力された仮名文字列に
適合する単語列候補を求めて出力手段より出力するよう
に構成したので、話題を分離して統計量をとることによ
って、nグラムの次数を大きくすることなく言語制約の
強いnグラムを構成することが可能となり、精度の高い
仮名漢字変換装置が得られるという効果がある。
According to the present invention, the kana character string, the word notation string corresponding to the kana character string, and the words in the kana n-gram storing the occurrence probabilities are classified according to the respective topics, and the kanji probability calculation is performed. The means is configured to use the word occurrence probability calculated with reference to the kana n-gram to determine a word string candidate that matches the input kana character string and to output the word string candidate from the output means. By obtaining statistics, it is possible to construct an n-gram with a strong language constraint without increasing the degree of the n-gram, and there is an effect that a kana-kanji conversion device with high accuracy can be obtained.

【0129】この発明によれば、単語列候補の算出時
に、漢字確率算出手段で一連の仮名文字列に対応する仮
名nグラム中の話題をすべて一致させるように構成した
ので、1つの仮名漢字混じり文字列に対する一連の形態
素は同一の話題の形態素となるため、他の話題が交ざる
ことを防止することができる仮名漢字変換装置が得られ
るという効果がある。
According to the present invention, at the time of calculating a word string candidate, the kanji probability calculating means is configured to match all topics in the kana n-gram corresponding to a series of kana character strings. Since a series of morphemes for a character string are morphemes of the same topic, there is an effect that a kana-kanji conversion device capable of preventing another topic from intersecting is obtained.

【0130】この発明によれば、漢字確率算出手段によ
って、話題ごとに確率の重み設定を行うように構成した
ので、話題別に出現確率を調整することが可能な仮名漢
字変換装置が得られるという効果がある。
According to the present invention, the kanji probability calculating means is configured to set the weight of the probability for each topic, so that a kana-kanji conversion device capable of adjusting the appearance probability for each topic can be obtained. There is.

【0131】この発明によれば、各音韻に対応して算出
した音韻生起確率と、記憶している単語をそれぞれの話
題対応に分類して、対象言語の音韻列、音韻列に対応す
る単語表記列、および生起確率を記憶した音韻nグラム
を参照して算出した単語生起確率を用いて、入力された
音声に類似する単語列候補を計算するように構成したの
で、話題を分離して統計量をとることによって、nグラ
ムの次数を大きくすることなく言語制約の強いnグラム
を構成することができ、高精度の音声認識方法が得られ
るという効果がある。
According to the present invention, the phoneme occurrence probabilities calculated for each phoneme and the stored words are classified into the respective topic correspondences, and the phoneme sequence of the target language and the word notation corresponding to the phoneme sequence By using the word occurrence probabilities calculated with reference to the phonemes and the phoneme n-grams storing the occurrence probabilities, word line candidates similar to the input speech are configured to be calculated. By taking the above, it is possible to construct an n-gram with a strong language constraint without increasing the order of the n-gram, and there is an effect that a highly accurate speech recognition method can be obtained.

【0132】この発明によれば、記憶している単語をそ
れぞれの話題対応に分類して、仮名漢字混じり文字列、
仮名漢字混じり文字列に対応する単語表記列、および生
起確率を記憶した漢字nグラムを参照して算出した単語
生起確率を用いて、入力された仮名漢字混じり文字列に
適合する単語列候補を計算するように構成したので、n
グラムの次数を大きくすることなく言語制約の強いnグ
ラムを構成することができ、高精度の形態素解析方法が
得られるという効果がある。
According to the present invention, the stored words are classified according to the respective topics, and a character string containing kana-kanji characters,
Calculates word string candidates that match the input kana-kanji mixed character string using the word notation string corresponding to the kana-kanji mixed character string and the word occurrence probability calculated with reference to the kanji n-gram that stores the occurrence probability So that n
An n-gram with a strong language constraint can be constructed without increasing the degree of the gram, and there is an effect that a highly accurate morphological analysis method can be obtained.

【0133】この発明によれば、記憶している単語をそ
れぞれの話題対応に分類して、仮名文字列、仮名文字列
に対応する単語表記列、および生起確率を記憶した仮名
nグラムを参照して算出した単語生起確率を用いて、入
力された仮名文字列に適合する単語列候補を計算するよ
うに構成したので、nグラムの次数を大きくすることな
く言語制約の強いnグラムを構成することができ、高精
度の仮名漢字変換方法が得られるという効果がある。
According to the present invention, the stored words are classified into the respective topic correspondences, and the kana character string, the word notation string corresponding to the kana character string, and the kana n-gram storing the occurrence probability are referred to. By using the word occurrence probabilities calculated in this way, word string candidates that match the input kana character string are calculated, so that an n-gram with strong language constraints can be constructed without increasing the degree of the n-gram. This has the effect that a highly accurate kana-kanji conversion method can be obtained.

【0134】この発明によれば、各音韻に対応して算出
した音韻生起確率と、記憶している単語をそれぞれの話
題対応に分類して、対象言語の音韻列、音韻列に対応す
る単語表記列、および生起確率を記憶した音韻nグラム
を参照して算出した単語生起確率を用いて、入力された
音声に類似する単語列候補を計算するための音声認識方
法のプログラムを、コンピュータ読み取り可能に記録す
るように構成したので、音声認識方法を高精度に実現す
るためのプログラムが記録された記録媒体が得られると
いう効果がある。
According to the present invention, the phoneme occurrence probabilities calculated for each phoneme and the stored words are classified into each topic correspondence, and the phoneme sequence of the target language, the word notation corresponding to the phoneme sequence A computer-readable program for a speech recognition method for calculating word sequence candidates similar to input speech using word occurrence probabilities calculated with reference to phonemes and phonological n-grams storing the occurrence probabilities. Since the recording is performed, there is an effect that a recording medium on which a program for realizing the speech recognition method with high accuracy is recorded can be obtained.

【0135】この発明によれば、記憶している単語をそ
れぞれの話題対応に分類して、仮名漢字混じり文字列、
仮名漢字混じり文字列に対応する単語表記列、および生
起確率を記憶した漢字nグラムを参照して算出した単語
生起確率を用いて、入力された仮名漢字混じり文字列に
適合する単語列候補を計算するための形態素解析方法の
プログラムを、コンピュータ読み取り可能に記録するよ
うに構成したので、形態素解析方法を高精度に実現する
ためのプログラムが記録された記録媒体が得られるとい
う効果がある。
According to the present invention, the stored words are classified according to the respective topics, so that a character string containing kana-kanji characters,
Calculates word string candidates that match the input kana-kanji mixed character string using the word notation string corresponding to the kana-kanji mixed character string and the word occurrence probability calculated with reference to the kanji n-gram that stores the occurrence probability Since the program of the morphological analysis method for performing the morphological analysis method is configured to be recorded in a computer-readable manner, it is possible to obtain a recording medium on which a program for realizing the morphological analysis method with high accuracy is recorded.

【0136】この発明によれば、記憶している単語をそ
れぞれの話題対応に分類して、仮名文字列、仮名文字列
に対応する単語表記列、および生起確率を記憶した仮名
nグラムを参照して算出した単語生起確率を用いて、入
力された仮名文字列に適合する単語列候補を計算するた
めの仮名漢字変換方法のプログラムを、コンピュータ読
み取り可能に記録するように構成したので、仮名漢字変
換方法を高精度に実現するためのプログラムが記録され
た記録媒体が得られるという効果がある。
According to the present invention, the stored words are classified into corresponding topics, and the kana character string, the word notation string corresponding to the kana character string, and the kana n-gram storing the occurrence probability are referred to. Since the kana-kanji conversion method program for calculating a word string candidate matching the input kana character string using the calculated word occurrence probability is configured to be recorded in a computer-readable manner, the kana-kanji conversion There is an effect that a recording medium on which a program for realizing the method is realized with high accuracy is obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態1による音声認識装置
の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a speech recognition device according to a first embodiment of the present invention.

【図2】 実施の形態1の音声認識装置で解析される例
文を示す説明図である。
FIG. 2 is an explanatory diagram showing an example sentence analyzed by the speech recognition device of the first embodiment.

【図3】 実施の形態1の音声認識装置にて解析に用い
る音韻nグラムの具体例を示す説明図である。
FIG. 3 is an explanatory diagram showing a specific example of a phoneme n-gram used for analysis in the speech recognition device according to the first embodiment.

【図4】 実施の形態1の音声認識装置における音声認
識の概略動作の流れを示すフローチャートである。
FIG. 4 is a flowchart showing a schematic operation flow of speech recognition in the speech recognition device according to the first embodiment;

【図5】 この発明の実施の形態2による音声認識装置
の構成を示すブロック図である。
FIG. 5 is a block diagram showing a configuration of a speech recognition device according to a second embodiment of the present invention.

【図6】 実施の形態2の音声認識装置にて解析に用い
る音韻nグラムの具体例を示す説明図である。
FIG. 6 is an explanatory diagram showing a specific example of a phoneme n-gram used for analysis in the speech recognition device according to the second embodiment.

【図7】 実施の形態2の音声認識装置における音声認
識の概略動作の流れを示すフローチャートである。
FIG. 7 is a flowchart showing a schematic operation flow of speech recognition in the speech recognition device according to the second embodiment.

【図8】 この発明の実施の形態3による音声認識装置
の構成を示すブロック図である。
FIG. 8 is a block diagram showing a configuration of a voice recognition device according to a third embodiment of the present invention.

【図9】 実施の形態3の音声認識装置における音声認
識の概略動作の流れを示すフローチャートである。
FIG. 9 is a flowchart illustrating a schematic operation flow of speech recognition in the speech recognition device according to the third embodiment;

【図10】 この発明の実施の形態4による形態素解析
装置の構成を示すブロック図である。
FIG. 10 is a block diagram showing a configuration of a morphological analyzer according to Embodiment 4 of the present invention.

【図11】 実施の形態4の形態素解析装置にて解析に
用いる漢字nグラムの具体例を示す説明図である。
FIG. 11 is an explanatory diagram showing a specific example of a kanji n-gram used for analysis by the morphological analyzer of the fourth embodiment.

【図12】 実施の形態4の形態素解析装置における形
態素解析の概略動作の流れを示すフローチャートであ
る。
FIG. 12 is a flowchart illustrating a schematic operation flow of morphological analysis in the morphological analyzer according to the fourth embodiment;

【図13】 この発明の実施の形態5による形態素解析
装置の構成を示すブロック図である。
FIG. 13 is a block diagram showing a configuration of a morphological analyzer according to Embodiment 5 of the present invention.

【図14】 実施の形態5の形態素解析装置にて解析に
用いる漢字nグラムの具体例を示す説明図である。
FIG. 14 is an explanatory diagram showing a specific example of a kanji n-gram used for analysis by the morphological analyzer of the fifth embodiment.

【図15】 実施の形態5の計値磯解析装置における形
態素解析の概略動作の流れを示すフローチャートであ
る。
FIG. 15 is a flowchart showing a schematic operation flow of a morphological analysis in the measurement value analyzing apparatus according to the fifth embodiment.

【図16】 この発明の実施の形態6による形態素解析
装置の構成を示すブロック図である。
FIG. 16 is a block diagram showing a configuration of a morphological analyzer according to Embodiment 6 of the present invention.

【図17】 実施の形態6の形態素解析装置における形
態素解析の概略動作の流れを示すフローチャートであ
る。
FIG. 17 is a flowchart illustrating a schematic operation flow of morphological analysis in the morphological analyzer according to the sixth embodiment;

【図18】 この発明の実施の形態7による仮名漢字変
換装置の構成を示すブロック図である。
FIG. 18 is a block diagram showing a configuration of a kana-kanji conversion device according to a seventh embodiment of the present invention.

【図19】 実施の形態7の仮名漢字変換装置にて解析
に用いる仮名nグラムの具体例を示す説明図である。
FIG. 19 is an explanatory diagram showing a specific example of a kana n-gram used for analysis in the kana-kanji conversion device of the seventh embodiment.

【図20】 実施の形態7の仮名漢字変換装置における
仮名漢字変換の概略動作の流れを示すフローチャートで
ある。
FIG. 20 is a flowchart showing a schematic operation flow of kana-kanji conversion in the kana-kanji conversion device of the seventh embodiment.

【図21】 この発明の実施の形態8による仮名漢字変
換装置の構成を示すブロック図である。
FIG. 21 is a block diagram showing a configuration of a kana-kanji conversion device according to an eighth embodiment of the present invention.

【図22】 実施の形態8の仮名漢字変換装置にて解析
に用いる仮名nグラムの具体例を示す説明図である。
FIG. 22 is an explanatory diagram showing a specific example of a kana n-gram used for analysis in the kana-kanji conversion device of the eighth embodiment.

【図23】 実施の形態8の仮名漢字変換装置における
仮名漢字変換の概略動作の流れを示すフローチャートで
ある。
FIG. 23 is a flowchart showing a schematic operation flow of kana-kanji conversion in the kana-kanji conversion device of the eighth embodiment.

【図24】 この発明の実施の形態9による仮名漢字変
換装置の構成を示すブロック図である。
FIG. 24 is a block diagram showing a configuration of a kana-kanji conversion device according to Embodiment 9 of the present invention.

【図25】 実施の形態9の仮名漢字変換析装置におけ
る仮名漢字変換の概略動作の流れを示すフローチャート
である。
FIG. 25 is a flowchart showing a schematic operation flow of kana-kanji conversion in the kana-kanji conversion analyzer of the ninth embodiment.

【図26】 従来の音声認識装置の構成を示すブロック
図である。
FIG. 26 is a block diagram illustrating a configuration of a conventional voice recognition device.

【図27】 従来の音声認識装置における音声認識の概
略動作の流れを示すフローチャートである。
FIG. 27 is a flowchart showing a schematic operation flow of voice recognition in a conventional voice recognition device.

【符号の説明】[Explanation of symbols]

1 マイク(入力手段)、2 音韻確率算出手段、5
RAM、6 出力手段、7 野球話題の音韻nグラム
(音韻nグラム)、8 一般話題の音韻nグラム(音韻
nグラム)、9 単語確率算出手段、10 例文、11
音韻nグラム、12 単語確率算出手段、13 野球
話題の音韻nグラム(音韻nグラム)、14 一般話題
の音韻nグラム(音韻nグラム)、15 音韻nグラ
ム、16 単語確率算出手段、17 ファイル入力装置
(入力手段)、18 野球話題の漢字nグラム(漢字n
グラム)、19 一般話題の漢字nグラム(漢字nグラ
ム)、20 形態素確率算出手段、21 出力手段、2
2 漢字nグラム、23 形態素確率算出手段、24
野球話題の漢字nグラム(漢字nグラム)、25 一般
話題の漢字nグラム(漢字nグラム)、26 漢字nグ
ラム、27 形態素確率算出手段、28 キーボード
(入力手段)、29 野球話題の仮名nグラム(仮名n
グラム)、30 一般話題の仮名nグラム(仮名nグラ
ム)、31 漢字確率算出手段、32 出力手段、33
仮名nグラム、34 漢字確率算出手段、35 野球
話題の仮名nグラム(仮名nグラム)、36 一般話題
の仮名nグラム(仮名nグラム)、37 仮名nグラ
ム、38 漢字確率算出手段。
1 microphone (input means), 2 phoneme probability calculation means, 5
RAM, 6 output means, 7 phoneme n-gram (phoneme n-gram) for baseball topics, 8 phoneme n-gram (phoneme n-gram) for general topics, 9 word probability calculation means, 10 example sentences, 11
Phoneme n-gram, 12 word probability calculation means, 13 Baseball topic phoneme n-gram (phoneme n-gram), 14 General topic phoneme n-gram (phoneme n-gram), 15 phoneme n-gram, 16 word probability calculation means, 17 File input Device (input means), 18 Kanji n-gram (Kanji n
Gram), 19 kanji n-gram of general topics (kanji n-gram), 20 morpheme probability calculation means, 21 output means, 2
2 Kanji n-gram, 23 Morphological probability calculating means, 24
Baseball topic kanji n-gram (kanji n-gram), 25 general topic kanji n-gram (kanji n-gram), 26 kanji n-gram, 27 morpheme probability calculating means, 28 keyboard (input means), 29 baseball topic kana n-gram (Pseudonym n
G), 30 kana n-gram of general topics (kana n-gram), 31 kanji probability calculation means, 32 output means, 33
Kana n-gram, 34 Kanji probability calculating means, 35 Kana n-gram (Kana n-gram) for baseball topics, 36 Kana n-gram (Kana n-gram) for general topics, 37 Kana n-gram, 38 Kanji probability calculating means.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 阿部 芳春 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B009 MA00 5B091 AA15 CA02 CB12 5D015 AA01 AA06 BB01 BB02 HH13 HH15 LL04 LL08 9A001 DD11 GG05 HH12 HH13 HH17 JJ71 KK54  ────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Yoshiharu Abe 2-3-2 Marunouchi, Chiyoda-ku, Tokyo F-term in Mitsubishi Electric Corporation (reference) 5B009 MA00 5B091 AA15 CA02 CB12 5D015 AA01 AA06 BB01 BB02 HH13 HH15 LL04 LL08 9A001 DD11 GG05 HH12 HH13 HH17 JJ71 KK54

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 対象言語の音韻列と、音韻列に対応する
単語表記列と、生起確率とを記憶し、記憶している単語
がそれぞれの話題に対応して分類されている音韻nグラ
ムと、 前記対象言語の音声を入力する入力手段と、 前記入力手段が出力する音声信号を音韻に変換し、各音
韻に対応する音韻生起確率を計算して、音韻列候補を出
力する音韻確率算出手段と、 前記音韻nグラムを参照して、前記音韻確率算出手段が
出力する音韻列候補に対応する各単語候補の単語生起確
率を算出する単語確率算出手段と、 前記音韻確率算出手段にて計算された音韻生起確率と、
前記単語確率算出手段にて計算された単語生起確率とを
用いて算出した、前記入力手段より入力された音声に類
似する単語列候補を出力する出力手段とを備えた音声認
識装置。
1. A phoneme n-gram in which a phoneme string of a target language, a word notation string corresponding to the phoneme string, and an occurrence probability are stored, and the stored words are classified according to respective topics. An input unit for inputting voice of the target language; a phoneme probability calculating unit for converting a voice signal output by the input unit into a phoneme, calculating a phoneme occurrence probability corresponding to each phoneme, and outputting a phoneme sequence candidate. With reference to the phoneme n-gram, word probability calculation means for calculating a word occurrence probability of each word candidate corresponding to the phoneme string candidate output by the phoneme probability calculation means, and calculated by the phoneme probability calculation means. Phoneme occurrence probability,
An output unit configured to output a word string candidate similar to the voice input from the input unit, calculated using the word occurrence probability calculated by the word probability calculation unit.
【請求項2】 単語確率算出手段が、単語列候補の算出
時に、一連の音声に対応する音韻nグラム中の話題をす
べて一致させるものであることを特徴とする請求項1記
載の音声認識装置。
2. The speech recognition apparatus according to claim 1, wherein said word probability calculating means matches all topics in a phoneme n-gram corresponding to a series of voices when calculating a word string candidate. .
【請求項3】 単語確率算出手段が、話題ごとに確率の
重みを設定するものであることを特徴とする請求項1ま
たは請求項2記載の音声認識装置。
3. The speech recognition apparatus according to claim 1, wherein the word probability calculation means sets a weight of the probability for each topic.
【請求項4】 仮名漢字混じり文字列と、仮名漢字混じ
り文字列に対応する単語表記列と、生起確率とを記憶
し、記憶している単語がそれぞれの話題に対応して分類
されている漢字nグラムと、 前記仮名漢字混じり文字列を入力する入力手段と、 前記漢字nグラムを参照して、前記入力手段が出力する
仮名漢字混じり文字列に対応する各単語候補の単語生起
確率を算出する形態素確率算出手段と、 前記形態素確率算出手段にて計算された単語生起確率を
用いて算出した、前記入力手段より入力された文字列に
適合する単語列候補を出力する出力手段とを備えた形態
素解析装置。
4. A kanji in which a kana-kanji mixed character string, a word notation string corresponding to the kana-kanji mixed character string, and an occurrence probability are stored, and the stored words are classified according to respective topics. n-gram, input means for inputting the kana-kanji mixed character string, and reference to the kanji n-gram to calculate the word occurrence probability of each word candidate corresponding to the kana-kanji mixed character string output by the input means A morpheme comprising: a morpheme probability calculation unit; and an output unit that outputs a word string candidate that is calculated using the word occurrence probability calculated by the morpheme probability calculation unit and that matches the character string input from the input unit. Analysis device.
【請求項5】 形態素確率算出手段が、単語列候補の算
出時に、一連の仮名漢字混じり文字列に対応する漢字n
グラム中の話題をすべて一致させるものであることを特
徴とする請求項4記載の形態素解析装置。
5. The morpheme probability calculating means calculates a kanji character n corresponding to a series of kana-kanji mixed character strings when calculating a word string candidate.
5. The morphological analyzer according to claim 4, wherein all the topics in the gram are matched.
【請求項6】 形態素確率算出手段が、話題ごとに確率
の重みを設定するものであることを特徴とする請求項4
または請求項5記載の形態素解析装置。
6. The morpheme probability calculating means sets a probability weight for each topic.
Or the morphological analyzer according to claim 5.
【請求項7】 仮名文字列と、仮名文字列に対応する単
語表記列と、生起確率とを記憶し、記憶している単語が
それぞれの話題に対応して分類されている仮名nグラム
と、 前記仮名文字列を入力する入力手段と、 前記仮名nグラムを参照して、前記入力手段が出力する
仮名文字列に対応する各単語候補の単語生起確率を算出
する漢字確率算出手段と、 前記漢字確率算出手段にて計算された単語生起確率を用
いて算出された、前記入力手段より入力された仮名文字
列に適合する単語列候補を出力する出力手段とを備えた
仮名漢字変換装置。
7. A kana n-gram in which a kana character string, a word notation string corresponding to the kana character string, and an occurrence probability are stored, and the stored words are classified according to respective topics. Input means for inputting the kana character string; kanji probability calculating means for calculating a word occurrence probability of each word candidate corresponding to the kana character string output by the input means with reference to the kana n-gram; Output means for outputting a word string candidate that is calculated using the word occurrence probability calculated by the probability calculation means and matches the kana character string input from the input means.
【請求項8】 漢字確率算出手段が、単語列候補の算出
時に、一連の仮名文字列に対応する仮名nグラム中の話
題をすべて一致させるものであることを特徴とする請求
項7記載の仮名漢字変換装置。
8. The kana according to claim 7, wherein the kanji probability calculating means matches all the topics in the kana n-gram corresponding to the series of kana character strings when calculating the word string candidates. Kanji conversion device.
【請求項9】 漢字確率算出手段が、話題ごとに確率の
重みの設定を行うものであることを特徴とする請求項7
または請求項8記載の仮名漢字変換装置。
9. The kanji probability calculating means sets a probability weight for each topic.
9. The kana-kanji conversion device according to claim 8.
【請求項10】 入力される音声の取り込みを行うステ
ップと、 取り込まれた前記音声を音韻に変換するステップと、 前記音声より変換された各音韻に対応する音韻生起確率
を計算して、音韻列候補を出力するステップと、 対象言語の音韻列と、音韻列に対応する単語表記列と、
生起確率とを記憶し、記憶している単語がそれぞれの話
題に対応して分類された音韻nグラムを参照して、算出
された前記音韻列候補に対応する各単語候補の単語生起
確率を算出するステップと、 前記音韻生起確率と単語生起確率を用いて、入力された
前記音声に類似する単語列候補を算出するステップとを
備えた音声認識方法。
10. A step of capturing an input voice, a step of converting the captured voice into a phoneme, and calculating a phoneme occurrence probability corresponding to each phoneme converted from the voice to obtain a phoneme sequence. Outputting a candidate, a phoneme string of the target language, a word notation string corresponding to the phoneme string,
The occurrence probabilities are stored, and the stored words are referred to the phoneme n-grams classified according to the respective topics, and the word occurrence probabilities of the respective word candidates corresponding to the calculated phoneme sequence candidates are calculated. And a step of calculating a word string candidate similar to the input speech using the phoneme occurrence probability and the word occurrence probability.
【請求項11】 入力される仮名漢字混じり文字列の取
り込みを行うステップと、 仮名漢字混じり文字列と、仮名漢字混じり文字列に対応
する単語表記列と、生起確率とを記憶し、記憶している
単語がそれぞれの話題に対応して分類された漢字nグラ
ムを参照して、取り込まれた前記仮名漢字混じり文字列
に対応する各単語候補の単語生起確率を算出するステッ
プと、 算出された前記単語生起確率を用いて、入力された前記
仮名漢字混じり文字列に適合する単語列候補を算出する
ステップとを備えた形態素解析方法。
11. A step of capturing an input kana-kanji mixed character string, storing a kana-kanji mixed character string, a word notation string corresponding to the kana-kanji mixed character string, and an occurrence probability. Calculating the word occurrence probability of each word candidate corresponding to the captured kana-kanji mixed character string by referring to the kanji n-gram in which the word is classified according to each topic; and Calculating a word string candidate that matches the input kana-kanji mixed character string using the word occurrence probability.
【請求項12】 入力される仮名文字列の取り込みを行
うステップと、 仮名文字列と、仮名文字列に対応する単語表記列と、生
起確率とを記憶し、記憶している単語がそれぞれの話題
に対応して分類された仮名nグラムを参照して、取り込
まれた前記仮名文字列に対応する各単語候補の単語生起
確率を算出するステップと、 算出された前記単語生起確率を用いて、入力された前記
仮名文字列に適合する単語列候補を算出するステップと
を備えた仮名漢字変換方法。
12. A step of fetching an input kana character string, storing a kana character string, a word notation string corresponding to the kana character string, and an occurrence probability. Calculating a word occurrence probability of each word candidate corresponding to the fetched kana character string with reference to the kana n-gram classified according to the following: input using the calculated word occurrence probability Calculating a word string candidate that matches the determined kana character string.
【請求項13】 入力される音声の取り込みを行うステ
ップと、 取り込まれた前記音声を音韻に変換するステップと、 前記音声より変換された各音韻に対応する音韻生起確率
を計算して、音韻列候補を出力するステップと、 対象言語の音韻列と、音韻列に対応する単語表記列と、
生起確率とを記憶し、記憶している単語がそれぞれの話
題に対応して分類された音韻nグラムを参照して、算出
された前記音韻列候補に対応する各単語候補の単語生起
確率を算出するステップと、 前記音韻生起確率と単語生起確率を用いて、入力された
前記音声に類似する単語列候補を算出するステップとを
有する音声認識方法を、コンピュータに実行させるため
のプログラムを記録したコンピュータ読み取り可能な記
録媒体。
13. A step of capturing an input voice, a step of converting the captured voice into a phoneme, and calculating a phoneme occurrence probability corresponding to each phoneme converted from the voice to obtain a phoneme sequence. Outputting a candidate, a phoneme string of the target language, a word notation string corresponding to the phoneme string,
The occurrence probabilities are stored, and the stored words are referred to the phoneme n-grams classified according to the respective topics, and the word occurrence probabilities of the respective word candidates corresponding to the calculated phoneme sequence candidates are calculated. And a computer that records a program for causing a computer to execute a speech recognition method having the steps of: calculating a word string candidate similar to the input speech using the phoneme occurrence probability and the word occurrence probability. A readable recording medium.
【請求項14】 入力される仮名漢字混じり文字列の取
り込みを行うステップと、 仮名漢字混じり文字列と、仮名漢字混じり文字列に対応
する単語表記列と、生起確率とを記憶し、記憶している
単語がそれぞれの話題に対応して分類された漢字nグラ
ムを参照して、取り込まれた前記仮名漢字混じり文字列
に対応する各単語候補の単語生起確率を算出するステッ
プと、 算出された前記単語生起確率を用いて、入力された前記
仮名漢字混じり文字列に適合する単語列候補を算出する
ステップとを有する形態素解析方法を、コンピュータに
実行させるためのプログラムを記録したコンピュータ読
み取り可能な記録媒体。
14. A step of capturing an input kana-kanji mixed character string, storing a kana-kanji mixed character string, a word notation string corresponding to the kana-kanji mixed character string, and an occurrence probability. Calculating the word occurrence probability of each word candidate corresponding to the captured kana-kanji mixed character string by referring to the kanji n-gram in which the word is classified according to each topic; and Using a word occurrence probability to calculate a word string candidate that matches the input kana-kanji mixed character string. A computer-readable recording medium storing a program for causing a computer to execute the morphological analysis method. .
【請求項15】 入力される仮名文字列の取り込みを行
うステップと、 仮名文字列と、仮名文字列に対応する単語表記列と、生
起確率とを記憶し、記憶している単語がそれぞれの話題
に対応して分類された仮名nグラムを参照して、取り込
まれた前記仮名文字列に対応する各単語候補の単語生起
確率を算出するステップと、 算出された前記単語生起確率を用いて、入力された前記
仮名文字列に適合する単語列候補を算出するステップと
を有する仮名漢字変換方法を、コンピュータに実行させ
るためのプログラムを記録したコンピュータ読み取り可
能な記録媒体。
15. A step of fetching an input kana character string, storing a kana character string, a word notation string corresponding to the kana character string, and an occurrence probability. Calculating a word occurrence probability of each word candidate corresponding to the fetched kana character string with reference to the kana n-gram classified according to the following: input using the calculated word occurrence probability Calculating a word string candidate that matches the obtained kana character string. A computer-readable recording medium storing a program for causing a computer to execute the kana-kanji conversion method.
JP2000051475A 2000-02-28 2000-02-28 Speech recognition device, morphological analysis device, kana-kanji conversion device, method thereof, and recording medium recording the program Expired - Fee Related JP3935655B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000051475A JP3935655B2 (en) 2000-02-28 2000-02-28 Speech recognition device, morphological analysis device, kana-kanji conversion device, method thereof, and recording medium recording the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000051475A JP3935655B2 (en) 2000-02-28 2000-02-28 Speech recognition device, morphological analysis device, kana-kanji conversion device, method thereof, and recording medium recording the program

Publications (2)

Publication Number Publication Date
JP2001242886A true JP2001242886A (en) 2001-09-07
JP3935655B2 JP3935655B2 (en) 2007-06-27

Family

ID=18573124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000051475A Expired - Fee Related JP3935655B2 (en) 2000-02-28 2000-02-28 Speech recognition device, morphological analysis device, kana-kanji conversion device, method thereof, and recording medium recording the program

Country Status (1)

Country Link
JP (1) JP3935655B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025279A (en) * 2005-07-15 2007-02-01 Mitsubishi Electric Corp Device and program for speech recognition
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025279A (en) * 2005-07-15 2007-02-01 Mitsubishi Electric Corp Device and program for speech recognition
JP4727330B2 (en) * 2005-07-15 2011-07-20 三菱電機株式会社 Speech recognition apparatus and speech recognition program
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Also Published As

Publication number Publication date
JP3935655B2 (en) 2007-06-27

Similar Documents

Publication Publication Date Title
US7181398B2 (en) Vocabulary independent speech recognition system and method using subword units
TW448381B (en) Automatic segmentation of a text
US7251600B2 (en) Disambiguation language model
EP0645757B1 (en) Semantic co-occurrence filtering for speech recognition and signal transcription applications
Parlak et al. Spoken term detection for Turkish broadcast news
JP5207642B2 (en) System, method and computer program for acquiring a character string to be newly recognized as a phrase
JP5440177B2 (en) Word category estimation device, word category estimation method, speech recognition device, speech recognition method, program, and recording medium
US20220366892A1 (en) System and method for combining phonetic and automatic speech recognition search
WO2003010754A1 (en) Speech input search system
WO2010044123A1 (en) Search device, search index creating device, and search system
JP3976959B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program recording medium
JP5897718B2 (en) Voice search device, computer-readable storage medium, and voice search method
JP4089861B2 (en) Voice recognition text input device
Nanjo et al. A new ASR evaluation measure and minimum Bayes-risk decoding for open-domain speech understanding
JP5590549B2 (en) Voice search apparatus and voice search method
JP3935655B2 (en) Speech recognition device, morphological analysis device, kana-kanji conversion device, method thereof, and recording medium recording the program
JP2000259645A (en) Speech processor and speech data retrieval device
CN116052655A (en) Audio processing method, device, electronic equipment and readable storage medium
JP2011007862A (en) Voice recognition device, voice recognition program and voice recognition method
JP3088364B2 (en) Spoken language understanding device and spoken language understanding system
JP2000056795A (en) Speech recognition device
JPH117447A (en) Topic extracting method, topic extraction model to be used for the extracting method, preparing method for the topic extraction model, and topic extraction program recording medium
JP2938865B1 (en) Voice recognition device
Shao et al. A fast fuzzy keyword spotting algorithm based on syllable confusion network
JPH11338863A (en) Automatic collection and qualification device for unknown noun and flickering katakana word and storage medium recording processing procedure of the device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070320

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees