JP2005242181A - 語彙選定方法、語彙選定装置およびプログラム - Google Patents

語彙選定方法、語彙選定装置およびプログラム Download PDF

Info

Publication number
JP2005242181A
JP2005242181A JP2004054496A JP2004054496A JP2005242181A JP 2005242181 A JP2005242181 A JP 2005242181A JP 2004054496 A JP2004054496 A JP 2004054496A JP 2004054496 A JP2004054496 A JP 2004054496A JP 2005242181 A JP2005242181 A JP 2005242181A
Authority
JP
Japan
Prior art keywords
vocabulary
vocabularies
registered
selection
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004054496A
Other languages
English (en)
Inventor
Takanori Yamamoto
高敬 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004054496A priority Critical patent/JP2005242181A/ja
Publication of JP2005242181A publication Critical patent/JP2005242181A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】あらかじめ語彙が登録されている認識文法モデルに対して、語彙集合の中から新たに語彙を追加する際に追加する語彙として適切なものを選定する。
【解決手段】入力された語彙集合に含まれる複数の語彙の中から、比較語彙選択部102によって複数の比較語彙が選択される。類似度検出部106は、選択された比較語彙の各々について、認識文法モデル105に登録済みの語彙との類似度を検出する。語彙選定部108は、各比較語彙の類似度に基づいて、登録済みの語彙と音的に類似しない比較語彙の中から語彙を選定する。
【選択図】 図1

Description

本発明は、音声認識の対象たる語彙が登録されている場合に、新たに登録可能な語彙を選定する語彙選定方法、語彙選定装置およびプログラムに関するものである。
従来より、入力される音声データに基づいて、あらかじめ認識文法モデルに登録された語彙の中から入力音声データに対応する語彙を選択して出力する音声認識処理技術が用いられている。かかる音声認識処理では、入力された音声データと認識文法モデルに登録された語彙との類似度を求め、類似度の大きい語彙を音声認識の結果として出力する。したがって、認識文法モデルに登録された複数の語彙が互いに類似する場合、つまりこれらの語彙の類似度が大きい場合、誤認識がなされる可能性が高くなる。
このように誤った音声認識がなされることを抑制するため、認識文法モデルには、互いに類似度の小さい語彙を登録することが好ましい。この点を鑑み、認識文法モデルを作成する際に、誤認識がなされにくいような語彙を選定して登録する技術が提案されている(例えば、特許文献1参照)。
かかる技術では、複数の語彙からなる語彙集合と選定する語彙数とを入力し、入力された語彙集合を指定された語彙数のクラスタに分割し、各クラスタより所定の1つの語彙を選出し、選出した語彙を選定リストとして出力し、選定リストの語彙を認識文法モデルに登録する。
特開2002−196787号公報
しかしながら、上述した特許文献1に記載された方法は、新規に認識文法モデルを作成する際に、その認識文法モデルに登録する語彙を選定する技術にすぎず、既に複数の語彙が選定されている認識文法モデルについて新たな語彙を選定する際に好適な技術を開示するものではない。
すなわち、上記方法では、あらかじめ語彙集合を指定された語彙数のクラスタに分割する必要があるので、選定リストとして出力された語彙数以上の語彙を選出する場合、つまり追加する場合には、語彙集合を新たに指定した語彙数でクラスタに分割し直す必要があり、処理が煩雑である。また、以前に分割したクラスタから選出された語彙と、新たに分割したクラスタから選出された語彙との、類似度を小さくする機能についても考慮されていない。
本発明は、上記に鑑みてなされたものであって、あらかじめ語彙が登録されている認識文法モデルに対して、語彙集合の中から新たに語彙を追加する際に追加する語彙として適切なものを選定することができる語彙選定方法、語彙選定装置およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の一態様にかかる語彙選定装置は、音声認識の対象となる複数の語彙が登録されている語彙登録部に新たに追加する語彙を選定する装置であって、新たに追加すべき複数の語彙からなる語彙集合が入力された場合に、入力された語彙集合に含まれる複数の語彙と、前記語彙登録部に登録されている語彙との類似度を検出する検出手段と、前記検出手段により検出された語彙集合に含まれる複数の語彙の類似度に基づいて、前記語彙集合に含まれる語彙の1または複数を選定する選定手段とを具備することを特徴とする。
また、本発明の別態様にかかる語彙選定方法は、音声認識の対象となる複数の語彙が登録されている語彙登録部に新たに追加する語彙を選定する方法であって、新たに追加すべき複数の語彙からなる語彙集合を入力する入力ステップと、前記入力ステップで入力された語彙集合に含まれる複数の語彙と、前記語彙登録部に登録されている語彙との類似度を検出する検出ステップと、前記検出ステップで検出された語彙集合に含まれる複数の語彙の類似度に基づいて、前記語彙集合に含まれる語彙の1または複数を選定する選定ステップとを具備することを特徴とする。
また、本発明の別態様にかかるプログラムは、コンピュータを、新たに追加すべき複数の語彙からなる語彙集合が入力された場合に、入力された語彙集合に含まれる複数の語彙と、語彙登録部に登録されている音声認識の対象となる複数の語彙との類似度を検出する検出手段、前記検出手段により検出された語彙集合に含まれる複数の語彙の類似度に基づいて、前記語彙集合に含まれる語彙の1または複数を選定する選定手段として機能させることを特徴とする。
本発明によれば、あらかじめ語彙が登録されている認識文法モデルに対して、語彙集合の中から新たに語彙を追加する際に追加する語彙として適切なものを選定することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる語彙選定方法、語彙選定装置およびプログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態にかかる語彙選定方法を実施する語彙選定装置の構成を示すブロック図である。同図に示す語彙選定装置100は、音声認識処理装置による音声認識対象である語彙を追加登録する際に、誤認識がなされる可能性の低い語彙、つまり適切な語彙を選定する装置である。かかる語彙選定装置100によって選定された語彙が登録される音声認識処理装置では、あらかじめ音声認識の対象となる語彙が登録された認識文法モデル(文法辞書)が定義されており、かかる認識文法モデルを利用して以下のように音声認識が行われる。
すなわち、語彙と語彙の構成要素の音声としての特徴を示すデータとの対応関係が登録されている音声認識辞書(音響辞書)を用いて、認識文法モデルに登録された語彙を音声の特徴を示すデータに変換する一方で、入力された音声信号を音響的に解析し、その解析結果として得られた音声の特徴を示すデータを取得する。そして、認識文法モデルに登録された語彙の音声としての特徴を示すデータと、入力音声の特徴を示すデータとを比較して類似度を計算し、類似度の高い語彙を出力する。このように出力される語彙が入力音声に対する音声認識結果である。
以上のような音声認識処理装置は、例えばカーナビゲーションシステムなどにおいて、ユーザが声で発した命令(予め決められた語彙(「ルート検索」、「案内開始」等))を認識する装置や、ドア開錠等のための暗証番号を音声で発するシステムなどにおいて、ユーザが開錠のために暗証番号(「0158」など複数桁の数字列等)を認識する装置などに適用される。そして、上記のようなカーナビゲーションシステム等において音声指示が可能となる命令等を追加する場合や、新たな暗証番号を発行する場合には、新たに音声認識対象となる語彙(命令や暗証番号など)を追加する必要がある。
本実施の形態における語彙選定装置100は、以上のような既に音声認識対象である複数の語彙が登録されている認識文法モデルに、新たに音声認識対象語彙を追加する必要がある場合に、上記のような音声認識処理過程で誤認識がなされてしまうことを抑制できる語彙を選定することができる装置である。
以下、このような機能を果たす語彙選定装置100について説明する。図1に示すように、語彙選定装置100は、比較語彙選択部102と、類似度検出部106と、語彙選定部108とを備える。
比較語彙選択部102には、新たに追加したい複数の語彙の候補からな語彙集合が入力される。ここで、比較語彙選択部102に入力する語彙集合は、上記のようなカーナビゲーションシステムで新たに音声認識可能としたい命令文字列や、暗証番号やIDなどを新たに発行する場合に利用できる暗証番号等に対応する文字列などの集合である。
かかる語彙集合の指定入力方法としては、数字列、英字列、ひらがな列といった文字列のリストなど、一定の集合基準で括られたグループを指定する方法を用いることができる。この場合、このような指定に基づいて語彙集合を取得する語彙集合取得手段を設けるようにすればよい。また、ユーザが個別に任意の複数の語彙を入力することで語彙集合の入力を行うようにしてもよい。
ここで、図2は、4桁の数字列といった集合基準で指定がなされた場合に、入力される語彙集合を示す。このように4桁の数字列といった指定がなされた場合には、「0000」〜「9999」までの語彙を含む語彙集合が入力されることになる。
比較語彙選択部102は、上記のように入力される語彙集合の中から、複数の語彙を選択し、類似度検出部106に出力する。ここで、語彙集合の中から、どのような語彙を選択するかの選択基準は任意であり、例えば乱数等を利用して無作為に選択するようにすればよい。
ここで、比較語彙選択部102による語彙選択処理の一例について図3を参照しながら説明する。同図に示すように、まず、語彙集合が入力されると(ステップSa1)、かかる語彙集合の中から無作為に1つの語彙を選択する(ステップSa2)。そして、所定の数の語彙を選出したか否かを判別し(ステップSa3)、所定の数の語彙を選出していない場合には、ステップSa2に戻り、所定の数の語彙を選出するまで無作為選出処理を繰り返す。
なお、選択する所定の個数は任意であるが、例えば語彙集合に含まれる語彙の数に応じて決定することができる。語彙集合に含まれる語彙の数が100以上500未満の場合は10個(または語彙数の1/10の個数等)、500以上1000未満の場合は20個(または語彙数の/120)にするといった具合である。
そして、選択する所定の語彙数が3である場合において、図2に示すように「0000」〜「9999」までの語彙からなる語彙集合が入力されたときには、例えば図4に示すように「1132」、「2182」、「9034」といった3つの語彙が選択され、これらの語彙が類似度検出部106に出力される。
類似度検出部106は、比較語彙選択部102から供給された複数の語彙の各々について、音声認識処理装置の認識文法モデル105に登録されている語彙との類似度を検出し、各選択された語彙ごとの類似度検出結果を語彙選定部108に出力する。
ここで、認識文法モデル105には、音声認識処理装置で、音声認識の対象となる語彙、つまり音声認識が可能な語彙が登録されている。上述したような暗証番号等のIDの音声認識処理を行う装置に搭載される認識文法モデルには、発行された暗証番号等のID(数字列等の語彙)が登録されている。例えば、図5に示すように、「1111」、「1112」および「1113」といった数字列からなる3つの語彙など登録されており、この場合これら3つのIDが発行済みIDということになる。なお、登録する語彙の内容、数は任意であるが、以下の説明においては説明簡略化のため、認識文法モデル105には上記3つの語彙が登録されているものとする。
類似度検出部106は、比較語彙選択部102によって選択された語彙の各々について、以上のような認識文法モデル105に既に登録されている語彙に対する類似度を検出する処理を行うのである。
ここで、図6に類似度検出部106の構成を示す。同図に示すように、類似度検出部106は、文字列音素列対応辞書部201と、音素間距離辞書部202と、文字列音素列変換部203と、音素列間距離検出部204と、類似度導出部205と、認識文法語彙選択部210とを備える。
認識文法語彙選択部210は、認識文法モデル105に登録されている語彙を文字列音素列変換部203に出力する。例えば、図5に示すように3つの語彙が登録されている場合には、「1111」、「1112」または「1113」を文字列音素列変換部203に出力する。
したがって、文字列音素列変換部203には、比較語彙選択部102によって選択された語彙(以下、比較語彙という)が入力されるとともに、認識文法モデル105に登録されている語彙(以下、登録語彙という)が入力される。
文字列音素列変換部203は、文字列音素列対応辞書部201を参照し、入力される比較語彙および登録語彙を構成する文字列を音素列に変換する。文字列音素列対応辞書部201には、文字列と音素列との対応関係を示すデータが格納されている。
ここで、図7に文字列音素列対応辞書部201に格納されるデータの一例を示す。同図に示すように、文字列音素列対応辞書部201には、「0」という文字(列)に対し、「z e r o」という音素列が対応つけられ、「1」という文字(列)に対し、「i ch i」という音素列が対応つけられて格納されている。文字列音素列変換部203が変換を行う際には、このような対応関係を示すデータが文字列音素列変換部203に供給され、文字列音素列変換に用いられる。
このような対応関係を示すデータを用いて行われる文字列音素列変換部203による変換処理の手順について図8を参照しながら説明する。同図に示すように、比較語彙または登録語彙が入力されると(ステップSb1)、文字列音素列対応辞書部201に格納されている文字列音素列の対応関係を入力する(ステップSb2)。
そして、かかる対応関係データに基づいて、比較語彙または登録語彙の文字列を音素列に変換する(ステップSb3)。例えば、比較語彙として「1132」が入力された場合、「i ch i i ch i s a n n i i」という音素列に変換される。また、登録語彙として「1111」が入力された場合、「i ch i i ch i i ch i i ch i」という音素列に変換される。
このようにして変換した比較語彙音素列または登録語彙音素列を音素列間距離検出部204に出力する(ステップSb4)。文字列音素列変換部203は、比較語彙または登録語彙が入力されるたびにこのような変換処理を行う。
音素列間距離検出部204には、文字列音素列変換部203によって変換された比較語彙音素列および登録語彙音素列が供給される。音素列間距離検出部204は、音素間距離辞書部202に格納された音素間距離データに基づいて、比較語彙音素列と登録語彙との間の音素列間距離、つまり2つの音素列の類似度に関する指標を導出する。
音素間距離辞書部202には、2つの音素間の距離を示す音素間距離データを、多数の音素の組合せごとに保持している。ここで、図9に音素間距離辞書部202に保持されるデータの一例を示す。同図に示すように、音素間距離辞書部202には、音素1、音素2といった2つの音素の組合せごとに、それらの音素間の距離示すデータが格納されている。
ここで、音素1「a」、音素2「a」の組合せの場合、両音素が同じあるため、音素間距離は「0」となっている。このように音素間距離は、2つの音素が類似すればするほど小さくなる指標であり、比較音素が同一である場合、音素間距離は「0」となるのである。また、音素1「a」、音素2「i」である場合の音素間距離は「0.8」となっているのに対し、音素1「a」、音素2「e」である場合の音素間距離は「0.6」となっている。これは、音素「a」は、音素「i」よりも音素「e」に類似することを表している。
ここで、音素間距離辞書部202に保持される音素間距離を示すデータは、予め音声認識実験を行い、その結果を統計処理することで導出しておく。例えば、一定数の音素からなる語彙集合を認識対象語彙として、音声認識実験を行う。より具体的には、音素1と音素2を誤認識する確率をαとすると、音素1と音素2の距離は以下のように求めることができる。
(1)音素1と音素2が同じ音素ではない場合
(1−1)α≧0.1のときは、音素1と音素2の音素間距離=0
(1−2)α<0.1のときは、音素1と音素2の音素間距離=1−α×10
(2)音素1と音素2が同じ音素の場合
音素1と音素2の音素間距離=0
例えば、音素「a」と音素「i」を誤認識する確率が2パーセントだった場合は、音素「a」と音素「i」の距離は「0.8」となる。また、音素「k」と音素「s」を誤認識する確率が6パーセントだった場合は、音素「k」と音素「s」の距離は「0.4」となる。
音素列間距離検出部204が音素間距離検出処理を行う際には、このように予め導出されて音素間距離辞書部202に格納された音素間距離を示すデータが音素列間距離検出部204に供給され、音素間距離検出処理に用いられる。
このような音素間距離を示すデータを用いて行われる音素列間距離検出部204による音素間距離処理の手順について図10を参照しながら説明する。同図に示すように、比較語彙音素列と登録語彙音素列とが入力されると(ステップSc1)、音素間距離辞書部202に格納されている音素間距離を示すデータを入力する(ステップSc2)。
そして、比較語彙音素列と登録語彙音素列を、音素間の距離を時系列要素間の距離とみなし、時間正規化後の比較語彙音素列と登録語彙音素列との距離を検出する(ステップSc3)。ここでの距離検出手法は、例えば、比較語彙音素列をm個、登録語彙音素列をn個の音素列時系列とみなしてDPマッチング処理によって時間正規化後の距離を求める方法がある。この時間正規化は、音素列間の類似度を精度良く検出するために重要な処理である。DPマッチング処理は、例えば、特開昭50−96104号公報等に開示されている。そこで、DPマッチング漸化式g(i,j)は、

Figure 2005242181
と記すことができ、時間正規後の距離をg(m,n)/(m+n)と求めることができる。
ここで、d(i,j)は、音素間距離である。例えば、比較語彙音素列「i ch i i ch i s a n n i i」と、登録語彙音素列「i ch i i ch i i ch i i ch i」の距離は0.21、比較語彙音素列「i ch i i ch i s a n n i i」と、登録語彙音素列「i ch i i ch i i ch i n i i」の距離は0.19となる。
以上のように検出された比較語彙音素列と登録語彙音素列の音素列間距離が類似度導出部205に出力される(ステップSc4)。以上が音素列間距離検出部204による音素列間距離の検出処理である。
類似度導出部205は、音素列間距離検出部204から供給される比較語彙音素列と登録語彙音素列の音素列間距離に基づいて、類似度検出部106に入力されたすべての比較語彙の各々について、認識文法モデル105に登録されているすべての登録語彙との音素間距離の和を求め、この結果を類似度として出力する。
かかる類似度導出部205による、1つの比較語彙音素列(例えば、図4に示す「1132」の音素列)に対する類似度導出処理の手順について図11を参照しながら説明する。まず、類似度を0に設定し(ステップSd1)、音素列間距離検出部204から供給される対象となる比較語彙音素列と登録語彙音素列との音素列間距離を入力する(ステップSd2)。
そして、類似度に入力された音素間距離を加算し(ステップSd3)、すべての登録語彙音素列との間の音素列間距離の入力を受け付けたか否かを判別する(ステップSd4)。例えば、図5に示すように3つの語彙が登録されている場合には、これら3つの登録語彙の音素列と当該比較語彙音素列との間の音素列間距離の入力をすべて受け付けたか否かを判別する。
ここで、すべての登録語彙音素列について入力を受け付けていない場合、ステップSd2に戻り、音素列間距離検出部204から供給される音素列間距離の入力を受け付け、類似度に加算する処理を行う。そして、すべての音素列間距離の入力を受け付けた場合(ステップSd4の判別「Yes」)、つまり類似度導出対象となっている比較語彙音素列とすべての登録語彙音素列との間の音素列間距離を加算した場合、類似度導出部205は、その加算結果である類似度を出力する(ステップSd5)。
類似度導出部205は、ステップSd1〜ステップSd5までの類似度導出処理をすべての比較語彙音素列(図4に示す例では3つの比較語彙の音素列)に対して行い、各比較語彙の類似度を出力するのである。本実施の形態では、比較語彙「1132」と、認識文法モデル105に登録されているすべての登録語彙「1111」、「1112」、「1113」の各々との音素間距離がすべて加算され、加算結果が比較語彙「1132」の類似度として出力される。同様に、比較語彙「2182」と、登録語彙「1111」、「1112」、「1113」の各々との音素間距離がすべて加算され、加算結果が比較語彙「2182」の類似度として出力され、比較語彙「9034」と、登録語彙「1111」、「1112」、「1113」の各々との音素間距離がすべて加算され、加算結果が比較語彙「9034」の類似度として出力される。
例えば、比較語彙が「1132」であり、登録語彙が「1111」と、「1112」と、「1113」の3つである場合、音素列間距離として、「0.21」、「0.19」、「0.20」の入力を受け取り、これらの加算結果である類似度として「0.60」を出力する。そして、図12に例示するように、すべての比較語彙の類似度が得られる。
以上が類似度検出部106の詳細であり、図1に示すように、類似度検出部106によって各比較語彙の類似度が検出され、かかる類似度を示すデータが類似度検出部106から語彙選定部108に供給される。
語彙選定部108は、類似度検出部106から供給される各比較語彙ごとの類似度に基づいて、予め決められた条件にしたがい、これらの比較語彙から1または複数の語彙を選定する。本実施の形態における語彙選定部108は、各比較語彙の類似度を比較し、最も類似度の値が大きい比較語彙を選定し、選定した比較語彙を選定結果として出力する。
上述したように本実施の形態における「類似度」は、音素間距離を加算した結果であるので、その値が大きいほど類似しないことを示す指標であり、値が小さいほど類似することを示す指標である。すなわち、本実施の形態では、認識文法モデルに登録されている語彙と、総合的に最も類似していない比較語彙を選定するのである。
ここで、図13を参照しながら語彙選定部108による語彙選定処理について説明する。同図に示すように、類似度検出部106から供給される比較語彙の類似度を入力する(ステップSe1)。そして、入力された類似度が、それ以前に入力された類似度の値が大きいか否かを判別する(ステップSe2)。
そして、類似度の値が大きい場合には、その比較語彙を保存する(ステップSe3)。また、1つ目に入力された比較語彙である場合には、ステップSe2で比較するものが存在しないため、この比較語彙(とその類似度)を保存し、その後に入力される比較語彙の類似度と比較される(ステップSe2)。また、既に比較語彙が保存されている場合にはこれを消去し、類似度の値が大きい比較語彙を保存する。
そして、すべての比較語彙の類似度の入力を受け付けたか否かを判別する(ステップSe4)。例えば、図5に示すように3つの比較語彙がある場合には、これら3つの比較語彙の類似度の入力をすべて受け付けたか否かを判別する。
ここで、すべての比較語彙の類似度の入力を受け付けていない場合、ステップSe1に戻り、類似度検出部106から供給される比較語彙の類似度の入力を受け付け、ステップSe3以降の処理を行う。そして、すべての比較語彙の類似度の入力を受け付けた場合(ステップSe4の判別「Yes」)、語彙選定部108は、その時点で保存されている比較語彙、つまり複数の比較語彙の中で最も類似度の値の大きい比較語彙を出力する(ステップSe5)。
例えば、類似度検出部106の検出結果として図12に示すような結果が語彙選定部108に供給された場合、その中から類似度の値が最も大きい比較語彙「9034」が選定され、図14に示すように認識文法モデル105に登録されている語彙と最も類似しない語彙として出力される。
以上説明したように本実施の形態では、音声認識対象である複数の語彙が既に登録されている認識文法モデルに、新たに音声認識対象語彙を追加する場合に、複数の語彙からなる語彙集合の中から、登録済みの語彙と類似しない語彙が選定されるので、選定された語彙を認識文法モデルに追加した場合に当該認識文法モデルを利用する音声認識処理の精度が悪化してしまうことを抑制できる。
すなわち、認識文法モデルに音的に類似する語彙が複数ある場合、入力された音声の特徴量と、これら互いに類似する登録語彙の特徴量がいずれも近いものとなり、本来認識すべき語彙とは異なる語彙を音声認識結果として選んでしまうおそれがある。このような事象に鑑みてなされた本実施の形態では、複数の語彙を入力すれば、類似していない語彙が選定されるので、これを登録すれば上記のような誤認識がなされるおそれを低減することができるのである。
認識文法モデルに新たな語彙を追加する場合、追加しようとする語彙を一つ一つ入力し、入力される都度、その語彙が適切なものであるか否かを判断することも考えられるが、このような手法では入力して適切か否かの結果を参照し、適切でない場合には次の語彙を入力するといった作業が必要となり、面倒である。これに対し、本実施の形態では、複数の語彙からなる語彙集合を入力すれば、その中から追加登録に適切な語彙が選定されるので、作業の煩雑さを低減することができるばかりではなく、複数の語彙の中から最も適切なものを追加することができる。
また、上述したように語彙集合の入力指定を複数の語彙を個別に入力指定するのではなく、何らかのグループ(例えば、4桁の数字列というグループや、A〜Gのうち4つのアルファベットの組合せで構成されるグループなど)によって指定することができるようにすれば、その入力作業を簡易化することができる。
また、本実施の形態では、比較語彙選択部102によって語彙集合の中から選択された比較語彙について類似度が検出される。そして、これらの比較語彙の中から、適切な語彙が語彙選定部108によって選定されるので、多数の語彙からなる語彙集合が入力された場合であっても、類似度検出等の処理負担を低減することができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態にかかる語彙選定方法を実施するための語彙選定装置について図15を参照しながら説明する。同図に示すように、この語彙選定装置300は、上記第1の実施の形態における語彙選定装置100の構成に加え、語彙追加部301を備える点で上記第1の実施の形態と相違している。なお、本実施の形態において、第1の実施の形態と共通する構成要素については同一の符号を付してその説明を省略する。
本実施の形態では、上述した第1の実施の形態と同様、複数の語彙からなる語彙集合の中から、語彙選定部108によって選定された語彙が語彙追加部301に入力される。語彙追加部301は、また、認識文法モデル105に既に登録されている語彙が入力される。語彙追加部301は、認識文法モデル105に登録されている語彙に、語彙選定部108によって選定された語彙を加えたものを修正認識文法モデルとして出力する。
例えば、上記第1の実施の形態と同様、図4に示すような語彙が比較語彙として選択されており、図5に示すような語彙が認識文法モデル105に登録されている場合には、比較語彙の中から「9034」が選定され、これが認識文法モデル105に登録された語彙に追加された語彙群が、図16に示す修正認識文法モデルとして出力されるのである。
このように語彙追加部301によって出力される修正認識文法モデルを登録し、音声認識処理に用いることで、新たに追加された語彙を音声認識の対象とすることができる。例えば、カーナビゲーションシステムで新たな音声指示可能なコマンド等を追加する場合、音声認識対象となる新たな暗証番号等を発行する場合には、上記のように選定された語彙を追加発行する一方で、その語彙を追加したものを修正認識文法モデルとすることで、追加語彙の音声認識をなすことができる。そして、追加される語彙は既に登録されている語彙と類似しないものであるので、誤認識を低減することができる。
(第3の実施の形態)
次に、本発明の第3の実施の形態にかかる語彙選定方法を実施するための語彙選定装置について図17を参照しながら説明する。同図に示すように、本実施の形態における語彙選定装置400は、上記第1の実施の形態における語彙選定装置100の比較語彙選択部102に代えて、比較語彙選択部402を備える点で上記第1の実施の形態と相違している。なお、本実施の形態において、第1の実施の形態と共通する構成要素には同一の符号を付けてその説明を省略する。
本実施の形態における比較語彙選択部402は、選定対象となる語彙集合に加え、認識文法モデル105に既に登録されている語彙が入力される。比較語彙選択部402は、語彙集合に含まれる語彙の中から、認識文法モデル105に登録されている語彙と同じ語彙がある場合にはそれを除き、除いた後の語彙集合の中から無作為に比較語彙を選択する。
ここで、図18に比較語彙選択部402による比較語彙の選択処理の手順を示す。同図に示すように、語彙集合が入力されると(ステップSf1)、その時点で認識文法モデル105に登録されている語彙を入力する(ステップSf2)。そして、入力された語彙集合に含まれる語彙の中から、認識文法モデル105に登録されている語彙と同じ語彙がある場合にはそれを除く。そして、語彙集合に含まれる語彙から登録語彙と同一語彙除いた語彙の中から無作為に比較語彙を選択する(ステップSf3)。
そして、予め決められた所定の数の語彙を比較語彙として選択したか否かが判別され(ステップSf4)、所定の数の語彙を選択していない場合にはステップSf3に戻り、登録語彙と同一語彙を除いた語彙の中から比較語彙を選択する。このような選択処理を所定の数の語彙が選択されるまで行い、所定数の語彙が選択されると(ステップSf4の判別「Yes」)、当該処理を終了し、選択した所定数の比較語彙を類似度検出部106に出力する。
例えば、図5に示すような語彙が認識文法モデル105に登録されている場合に、「0000」〜「9999」といった語彙集合が入力された場合には、これらの語彙集合に含まれる語彙のうち、登録されている「1111」、「1112」、「1113」を除いた語彙の中から無作為で比較語彙が選択されることになる。
このようにすることで、比較語彙選択部402が登録済みの語彙と同一語彙を選択することがないので、登録済みの語彙が追加すべき語彙として選定されてしまうといった不具合を回避することができる。したがって、効率良く、類似していない語彙を新たに追加することができ、音声認識し易い認識文法モデルを作成することが可能となる。
(変形例)
なお、本発明は、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
(変形例1)
上述した実施の形態では、語彙選定部108が、複数の比較語彙の中から、類似度の値が最も大きい語彙を選定するようにしていたが、選定基準はこれに限らず、認識文法モデル105に追加登録した場合に音声認識処理の誤認識が生じてしまうおそれが少ない語彙を選定するものであればよい。
例えば、複数の比較語彙の中から、予め決められた類似度のしきい値よりも大きい値の類似度の語彙を選定するようにしてもよい。この場合、しきい値より値の大きい類似度の比較語彙が複数ある場合には、これら複数の語彙を選定するようにしてもよい。
また、複数の比較語彙の中から、予め決められた所定の個数(複数)の語彙を選定するようにしてもよい。この場合、類似度の値が大きいものから順に選定するようにすればよい。また、選定個数については予め決められた固定値であってもよいし、選定対象となる比較語彙の数に応じて決定するようにしてもよい。例えば、比較語彙の数の1/5の個数とするなどである。
また、上述した実施の形態では、各登録語彙との音素間距離の和を類似度として算出し、類似度の値の大小によって選定していたが、各登録語彙との音素間距離の和だけではなく、他の要素を選定基準に用いるようしてもよい。例えば、音素間距離の加算結果である類似度の値が他の比較語彙よりも大きい場合であっても、1つの登録語彙と非常に類似する場合(音素間距離が極めて小さい場合)、この語彙を登録すると誤認識がなされてしまうおそれがある。そこで、各登録語彙との音素間距離の和である類似度の値が最も大きい語彙であっても(全体的に観察すると類似しない語彙であっても)、特定の登録語彙との間の音素間距離がしきい値(例えば、0.1)よりも小さい場合には、その語彙を選定しないようにしてもよい。
(変形例2)
なお、上述した実施の形態では、比較語彙選択部102(402)が語彙集合の中から複数の比較語彙を選択するようにしていたが、このような選択を行わずに語彙集合に含まれるすべての語彙について類似度を検出し、各語彙の類似度に基づいて語彙選定を行うようにしてもよい。例えば、語彙集合に含まれる語彙の数が多くない場合などには、語彙集合に含まれるすべての語彙について類似度検出や選定処理を行っても処理負担が大きく増加することもない。よって、このような場合は比較語彙選択処理を省略するようにしてもよい。
(変形例3)
なお、上述した各実施の形態で行われる語彙選定処理は、専用のハードウェア回路によって行うようにしてもよいし、CPUがプログラムにしたがって動作することにより、選定処理が行われるように構成してもよい。また、コンピュータにこのような処理を実行させるためのプログラムをインターネット等の通信回線を介してユーザに提供するようにしてもよいし、当該プログラムをCD−ROM(Compact Disc-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に記録してユーザに提供するようにしてもよい。
以上のように、本発明にかかる語彙選定方法、語彙選定装置及びプログラムは、音声認識対象たる語彙を登録する認識文法モデル等の登録部に新たに追加する語彙を選定する技術として有用である。
本発明の第1の実施の形態にかかる語彙選定装置の構成を示すブロック図である。 前記語彙選定装置に入力される語彙集合の内容を示す図である。 前記語彙選定装置の比較語彙選択部による比較語彙選択処理の手順を示すフローチャートである。 前記比較語彙選択部によって選択された比較語彙の一例を示す図である。 音声認識処理に用いられる認識文法モデルに登録されている語彙の一例を示す図である。 前記語彙選定装置の類似度検出部の構成を示すブロック図である。 前記類似度検出部の構成要素である文字列音素列対応辞書部に格納されるデータの一例を示す図である。 前記類似度検出部の構成要素である文字列音素列変換部による文字列から音素列への変換処理手順を示すフローチャートである。 前記類似度検出部の構成要素である音素間距離辞書部に格納されるデータの一例を示す図である。 前記類似度検出部の構成要素である音素列間距離検出部による比較語彙と登録語彙の音素列間距離の検出処理手順を示すフローチャートである。 前記類似度検出部の構成要素である類似度導出部による類似度導出処理手順を示すフローチャートである。 前記類似度導出部によって導出された比較語彙の類似度の一例を示す図である。 前記語彙選定装置の語彙選定部による語彙選定処理手順を示すフローチャートである。 前記語彙選定部により選定された語彙の一例を示す図である。 本発明の第2の実施の形態にかかる語彙選定装置の構成を示すブロック図である。 前記語彙選定装置から出力される修正された認識文法モデルに含まれる語彙の一例を示す図である。 本発明の第3の実施の形態にかかる語彙選定装置の構成を示すブロック図である。 第3の実施の形態にかかる語彙選定装置の比較語彙選択部による比較語彙選択処理手順を示すフローチャートである。
符号の説明
100 語彙選定装置
102 比較語彙選択部
105 認識文法モデル
106 類似度検出部
108 語彙選定部
201 文字列音素列対応辞書部
202 音素間距離辞書部
203 文字列音素列変換部
204 音素列間距離検出部
205 類似度導出部
210 認識文法語彙選択部
300 語彙選定装置
301 語彙追加部
400 語彙選定装置
402 比較語彙選択部

Claims (9)

  1. 音声認識の対象となる複数の語彙が登録されている語彙登録部に新たに追加する語彙を選定する装置であって、
    新たに追加すべき複数の語彙からなる語彙集合が入力された場合に、入力された語彙集合に含まれる複数の語彙と、前記語彙登録部に登録されている語彙との類似度を検出する検出手段と、
    前記検出手段により検出された語彙集合に含まれる複数の語彙の類似度に基づいて、前記語彙集合に含まれる語彙の1または複数を選定する選定手段と
    を具備することを特徴とする語彙選定装置。
  2. 入力された語彙集合に含まれる語彙の中から、複数の語彙を選択する比較語彙選択手段をさらに具備し、
    前記検出手段は、前記比較語彙選択手段によって選択された語彙と前記語彙登録部に登録されている語彙との類似度を検出する
    ことを特徴とする請求項1に記載の語彙選定装置。
  3. 入力された語彙集合に含まれる語彙のうち、前記語彙登録部に登録されていない語彙の中から、複数の語彙を選択する比較語彙選択手段をさらに具備し、
    前記検出手段は、前記比較語彙選択手段により選択された語彙と前記語彙登録部に登録されている語彙との類似度を検出する
    ことを特徴とする請求項1に記載の語彙選定装置。
  4. 前記検出手段は、前記語彙集合に含まれる複数の語彙の各々と、前記語彙登録部に登録されているすべての語彙との間で語彙間の類似度を求め、
    前記選定手段は、前記検出手段により求められた前記語彙登録部に登録されているすべての語彙との間の語彙間類似度の和が最も小さい語彙を選定する
    ことを特徴とする請求項1ないし3のいずれか一つに記載の語彙選定装置。
  5. 入力される語彙集合に含まれる語彙、および前記語彙登録部に登録される語彙は文字列である
    ことを特徴とする請求項1ないし4のいずれか一つに記載の語彙選定装置。
  6. 前記選定手段により選定された語彙を前記語彙登録部に登録する追加手段をさらに具備することを特徴とする請求項1ないし5のいずれか一つに記載の語彙選定装置。
  7. 指定された集合基準に基づいて、複数の語彙からなる語彙集合を取得し、入力する語彙集合取得手段をさらに具備する
    ことを特徴とする請求項1ないし6のいずれか一つに記載の語彙選定装置。
  8. 音声認識の対象となる複数の語彙が登録されている語彙登録部に新たに追加する語彙を選定する方法であって、
    新たに追加すべき複数の語彙からなる語彙集合を入力する入力ステップと、
    前記入力ステップで入力された語彙集合に含まれる複数の語彙と、前記語彙登録部に登録されている語彙との類似度を検出する検出ステップと、
    前記検出ステップで検出された語彙集合に含まれる複数の語彙の類似度に基づいて、前記語彙集合に含まれる語彙の1または複数を選定する選定ステップと
    を具備することを特徴とする語彙選定方法。
  9. コンピュータを、
    新たに追加すべき複数の語彙からなる語彙集合が入力された場合に、入力された語彙集合に含まれる複数の語彙と、語彙登録部に登録されている音声認識の対象となる複数の語彙との類似度を検出する検出手段、
    前記検出手段により検出された語彙集合に含まれる複数の語彙の類似度に基づいて、前記語彙集合に含まれる語彙の1または複数を選定する選定手段
    として機能させることを特徴とするプログラム。
JP2004054496A 2004-02-27 2004-02-27 語彙選定方法、語彙選定装置およびプログラム Pending JP2005242181A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004054496A JP2005242181A (ja) 2004-02-27 2004-02-27 語彙選定方法、語彙選定装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004054496A JP2005242181A (ja) 2004-02-27 2004-02-27 語彙選定方法、語彙選定装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2005242181A true JP2005242181A (ja) 2005-09-08

Family

ID=35023958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004054496A Pending JP2005242181A (ja) 2004-02-27 2004-02-27 語彙選定方法、語彙選定装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2005242181A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226091A (ja) * 2006-02-27 2007-09-06 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008003371A (ja) * 2006-06-23 2008-01-10 Alpine Electronics Inc 車載用音声認識装置及び音声コマンド登録方法
JP2021501912A (ja) * 2017-11-02 2021-01-21 華為技術有限公司Huawei Technologies Co.,Ltd. フィルタリングモデル訓練方法および音声認識方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226091A (ja) * 2006-02-27 2007-09-06 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008003371A (ja) * 2006-06-23 2008-01-10 Alpine Electronics Inc 車載用音声認識装置及び音声コマンド登録方法
JP2021501912A (ja) * 2017-11-02 2021-01-21 華為技術有限公司Huawei Technologies Co.,Ltd. フィルタリングモデル訓練方法および音声認識方法
US11211052B2 (en) 2017-11-02 2021-12-28 Huawei Technologies Co., Ltd. Filtering model training method and speech recognition method
JP7034279B2 (ja) 2017-11-02 2022-03-11 華為技術有限公司 フィルタリングモデル訓練方法および音声認識方法

Similar Documents

Publication Publication Date Title
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
US20170263242A1 (en) Information processing device, information processing method, computer program product, and recognition system
JP3476008B2 (ja) 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
US9431010B2 (en) Speech-recognition device and speech-recognition method
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP4570509B2 (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
CN113380223B (zh) 多音字消歧方法、装置、***及存储介质
JP2006277676A (ja) 情報検索装置、情報検索方法および情報検索プログラム
CN109213994A (zh) 信息匹配方法及装置
KR101242182B1 (ko) 음성인식장치 및 음성인식방법
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4661239B2 (ja) 音声対話装置及び音声対話方法
KR101702055B1 (ko) 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
JP2010145930A (ja) 音声認識装置及び方法
JP2005242181A (ja) 語彙選定方法、語彙選定装置およびプログラム
Alam et al. Text normalization system for Bangla
KR20200084945A (ko) 한글 자연어 처리에서 검색의 품질을 향상시키기 위한 정확도 높은 형태소 분석 장치 및 그 동작 방법
Liang et al. An efficient error correction interface for speech recognition on mobile touchscreen devices
JP2002278579A (ja) 音声データ検索装置
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JP6608119B2 (ja) 薬剤名出力装置および薬剤名出力方法並びに薬剤名出力プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070731