JP3727173B2 - Speech recognition method and apparatus - Google Patents
Speech recognition method and apparatus Download PDFInfo
- Publication number
- JP3727173B2 JP3727173B2 JP17246998A JP17246998A JP3727173B2 JP 3727173 B2 JP3727173 B2 JP 3727173B2 JP 17246998 A JP17246998 A JP 17246998A JP 17246998 A JP17246998 A JP 17246998A JP 3727173 B2 JP3727173 B2 JP 3727173B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- character string
- column
- partial
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声入力装置において音声を認識する方法及び装置に関する。
【0002】
【従来の技術】
不特定話者を対象とした音声認識においては、入力された音声をどのような言葉と認識するかをあらかじめ文字列によって、認識語彙として与えておく方法が良く用いられている。したがって、入力された音声が認識語彙として事前に与えられていないものであった場合には、認識することができないという不都合があった。
【0003】
かかる弊害を回避するべく、多くの認識語彙を事前に登録しておく必要が生じる。この場合に、音声を認識語彙に変換するのに使用する変換用辞書に「読みがな」と「表記文字」を1:1で登録しておくことも考えられるが、語彙の総数を考慮すると現実的ではないため、様々な工夫が行われている。特開平7−73175号公報においては、複数の「読みがな」に対して一つの「表記文字」を指し示す方法が開示されている。
【0004】
【発明が解決しようとする課題】
しかし、上記方法においても、不特定話者が読み方を誤った場合等には依然として対応できず、誤った「表記文字」を認識文字として出力するか、認識できない状態となるという問題点があった。
【0005】
本発明は、かかる問題点を解決するために、不特定話者が読み方を誤った場合においても、意図した「表記文字」を認識文字として出力することが可能な音声を認識する方法及び装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記課題を解決するために本発明にかかる音声認識方法は、一つの項目が表記文字列と読みがな列とで構成される認識語彙リストを音声入力の認識語彙として与える音声認識方法において、入力された音声を分析する音響分析工程と、表記文字列の一部である部分表記文字列の読みがなである部分読みがな列に対応付けて当該部分表記文字列の読み変え読みがな列があらかじめ登録されている読みがな列変換表に従って、前記認識語彙リストの読みがな列に含まれる部分読みがな列を、前記音響分析工程による分析結果に含まれる読み変え読みがな列で置換した新たな読みがな列を一つ又は複数生成し、前記新たな読みがな列を読み変え読みがな列として前記認識語彙リストに追加する読みがな列変換工程と、前記音響分析工程による分析結果を前記認識語彙リストの読みがな列及び読み変え読みがな列と照合し、照合度合の指標である照合スコアを算出し、前記照合スコアの最も良い前記項目を選択する照合工程とを含むことを特徴とする。
【0007】
かかる構成により、表記文字列と読みがな列とで構成される認識語彙リストに認識語彙として登録されていない音声入力である場合であっても、読み変え読みがな列として生成されていれば認識語彙として登録されている場合と同様の認識結果を出力することができる。したがって、読みがなを誤って音声入力した場合であっても、正しい表記文字列として認識することが可能となる。また、読みがなを一意に定めることが困難な文字列、例えば住所や人名等において読みがなを定めることが困難な場合であっても、複数の読みがな列を用いて照合することができることから、正しい表記文字列を認識する可能性をより高くすることができる。
【0008】
次に、本発明にかかる音声認識装置は、一つの項目が表記文字列と読みがな列とで構成される認識語彙リストを音声入力の認識語彙として与える音声認識装置において、入力された音声を分析する音響分析部と、表記文字列の一部である部分表記文字列の読みがなである部分読みがな列に対応付けて当該部分表記文字列の読み変え読みがな列があらかじめ登録されている読みがな列変換表に従って、前記認識語彙リストの読みがな列に含まれる部分読みがな列を、前記音響分析部による分析結果に含まれる読み変え読みがな列で置換した新たな読みがな列を一つ又は複数生成し、前記新たな読みがな列を読み変え読みがな列として前記認識語彙リストに追加する読みがな列変換部と、前記音響分析部による分析結果を前記認識語彙リストの読みがな列及び読み変え読みがな列と照合し、照合度合の指標である照合スコアを算出し、前記照合スコアの最も良い前記項目を選択する照合部を含むことを特徴とする。
【0009】
かかる構成により、表記文字列と読みがな列とで構成される認識語彙リストに認識語彙として登録されていない音声入力である場合であっても、読み変え読みがな列として生成されていれば認識語彙として登録されている場合と同様の認識結果を出力することができる。したがって、読みがなを誤って音声入力した場合であっても、正しい表記文字列として認識することが可能となる。また、読みがなを一意に定めることが困難な文字列、例えば住所や人名等において読みがなを定めることが困難な場合であっても、複数の読みがな列を用いて照合することができることから、正しい表記文字列を認識する可能性をより高くすることができる。
【0010】
次に、本発明にかかるコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体は、一つの項目が表記文字列と読みがな列とで構成される認識語彙リストを音声入力の認識語彙として与えるコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体において、入力された音声を分析する音響分析手順と、表記文字列の一部である部分表記文字列の読みがなである部分読みがな列に対応付けて当該部分表記文字列の読み変え読みがな列があらかじめ登録されている読みがな列変換表に従って、前記認識語彙リストの読みがな列に含まれる部分読みがな列を、前記音響分析手順による分析結果に含まれる読み変え読みがな列で置換した新たな読みがな列を一つ又は複数生成し、前記新たな読みがな列を読み変え読みがな列として前記認識語彙リストに追加する読みがな列変換手順と、前記音響分析手順による分析結果を前記認識語彙リストの読みがな列及び読み変え読みがな列と照合し、照合度合の指標である照合スコアを算出し、前記照合スコアの最も良い前記項目を選択する照合手順をコンピュータに実行させるプログラムを記録したことを特徴とする。
【0011】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、表記文字列と読みがな列とで構成される認識語彙リストに認識語彙として登録されていない音声入力である場合であっても、読み変え読みがな列として生成されていれば認識語彙として登録されている場合と同様の認識結果を出力することができる。したがって、読みがなを誤って音声入力した場合であっても、正しい表記文字列として認識することが可能となる音声認識装置を実現することができる。
【0012】
【発明の実施の形態】
以下、本発明の実施形態にかかる音声認識方法及び装置について、図1を参照しながら説明する。図1は本発明の実施形態にかかる音声認識装置1の構成図を示す。
【0013】
図1において、11は音響分析部を示し、不特定話者から入力された音声を分析する役割を果たす。音響分析部11については従来からの音声認識装置に適用されているものと違いはない。
【0014】
12は読みがな列変換部を示す。読みがな列変換部12は、一つの項目が表記文字列と読みがな列とで構成される認識語彙リスト15の中に、読みがな列変換表14に記述された部分読みがな列が存在し、当該部分読みがな列に対応する部分表記文字列が、読みがな列変換表14に記述された部分表記文字列と一致する場合に、当該部分読みがな列を読み変え読みがな列に変換した新たな読みがな列を生成し、新たな読みがな列を読み変え読みがな列として語彙認識リスト15の当該項目に追加する。したがって、認識語彙リスト15を自動的に更新する役割を果たす。すなわち、認識語彙リスト15は表記文字列と読みがな列で構成されるものであるが、さらに読み変え読みがな列を追加することが可能となる。追加される読み変え読みがな列は一つに限定されるものではなく、二以上の複数であっても構わない。かかる構成とすることで、新たに追加された読み変え読みがな列を用いることで認識語彙リスト15が拡張され、認識語彙として事前に登録されていない読みがな列についても新たな認識語彙として用いることが可能となる。
【0015】
13は照合部を示し、音響分析部11で分析された音声を読みがな列変換部12で作成された認識語彙リスト15と照合することで、最も音声入力に近い表記文字列を選択して、音声認識結果として出力する役割を果たす。具体的には、音響分析部11で分析された音声を認識語彙リスト15と照合して、照合している程度を表わす指標である照合スコア値を算出して、照合スコア値の良い、すなわち照合度合の高い表記文字列から順に音声認識結果として出力することになる。
【0016】
以上のように本実施形態によれば、登録されていない読みがな列についても、読み変え読みがな列が追加されることにより、住所や氏名等のように読みがなを特定することが比較的困難なものが対象であっても、より正しい認識語彙を選択することができる。
【0017】
次に本発明の一実施例について、図2を参照しながら説明する。図2は本発明の一実施例における音声認識装置の構成図を示す。図2において、不特定話者が音声を入力すると、音響分析部11によって入力した音声が分析される。例えば、「みなとまち」という音声を入力する。
【0018】
一方、あらかじめ認識語彙としては、読みがな列「みなとちょう」に対して表記文字列「港町」が登録されているが、読みがな列「みなとまち」に対して表記文字列「港町」が登録されていない場合には、従来の音声認識方法によれば、認識語彙なしと判断される。
【0019】
本発明にかかる音声認識装置においては、項目検索部121において、表記文字列と読みがな列とで構成される認識語彙リスト15の中に、読みがな列変換表14に記述された部分読みがな列が存在し、当該部分読みがな列に対応する部分表記文字列が、読みがな列変換表14に記述された部分表記文字列と一致する場合に、読み変え読みがな列追加部122において、当該部分読みがな列を部分読みがな列に変換した新たな読みがな列を生成し、新たな読みがな列を読み変え読みがな列として認識語彙リスト15の当該項目に追加することができる。例えば、読みがな列変換表が(表1)に示すように記述されている場合、与えられた認識語彙リスト(表2)に対して、表記文字列「港町」の読み変え読みがな列「みなとまち」と表記文字列「大和東」の読み変え読みがな列「だいわひがし」を自動的に追加した、新しい認識語彙リスト(表3)が生成される。
【0020】
【表1】
【0021】
【表2】
【0022】
【表3】
【0023】
音声入力された「みなとまち」という言葉は、照合部13で認識語彙リスト15に指定されている認識語彙と照合を行う。照合した結果どの程度照合しているのか判断する指標として、スコア算出部131で照合スコアが算出される。ここで、照合スコアとは、ある音声入力に対して認識語彙の各項目ごとに計算されるものであり、入力音声がどの程度その項目らしいかを示す尺度を意味する。
【0024】
照会スコア算出方法の代表的な方法として、ある項目の周波数の特徴、例えば「ま」という読みの周波数の特徴を時系列にパターン化したものと、入力された音声の周波数の特徴を時系列に表したものとを比較して、双方のベクトル間のユークリッド距離を時系列方向に累積したものをスコアとする方法がある。この方法によると、双方がまったく同じパターンであればユークリッド距離はゼロとなるため、スコアはゼロとなる。逆にパターンの相違が大きいほどスコア値が大きく、すなわち双方のパターンが一致しないと判断される。
【0025】
もちろん、かかる方法に限定されるわけではなく、他の方法でスコアを算出しても良い。例えば、標準的な音声パターンの出現確率を時系列方向に乗算したものも考えられる。
【0026】
そして、各項目の照合スコアを項目スコア決定部132で決定して、上位項目選択部133において、照合スコア値の優れた語彙から順に順位付けを行う。かかる順位付けの最も高い語彙が認識結果として出力される。
【0027】
以上のように、本実施例によれば、認識語彙としてすべての読みがな列を登録すること無く、読み変え読みがな列を追加することにより、効率的な音声認識装置を構成することが可能となる。
【0028】
次に、本発明の実施形態にかかる音声認識装置を実現するプログラムの処理の流れについて説明する。図3に本発明の実施形態にかかる音声認識装置を実現するプログラムの処理の流れ図を示す。
【0029】
まず、入力された音声に対して、読みがな変換表に登録されている各項目の読みがな列の照合スコア値の計算を行う(ステップ311)。この場合は、従来と同様、認識語彙として登録されていないものについては、照合スコア値は最低となる。
【0030】
次に、認識語彙リストに登録されている各項目の読み変え読みがな列の照合スコア値の計算を行う(ステップ312)。このステップで、認識語彙としての登録が無くても、読み変え読みがな列として追加されていれば、自動的に認識語彙が生成されることにより認識語彙として判断される範囲が拡大して、認識語彙が登録されているのと同様の照合スコア値が算出される。
【0031】
そして、ステップ311及びステップ312の算出結果に基づいて、算出対象となっている項目についての照合スコアが決定する(ステップ321)。以上の処理を認識語彙リストに登録されている全項目について繰り返し行う(ステップ322)。そして、全項目の照合スコア値が算出されたところで、照合スコア値の優れたものから順に選択して入力音声に対する認識結果として出力する(ステップ331)。
【0032】
また、本発明の実施形態にかかる音声認識装置を実現するプログラムを記憶した記録媒体は、図4に示す記録媒体の例に示すように、CD−ROMやフロッピーディスク等の可搬型記録媒体だけでなく、通信回線の先に備えられた他の記憶装置や、コンピュータのハードディスクやRAM等の記録媒体のいずれでも良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0033】
また、本発明の実施形態にかかる音声認識装置により生成された読みがな列変換表等を記録した記録媒体も、図4に示す記録媒体の例に示すように、CD−ROMやフロッピーディスク等の可搬型記録媒体だけでなく、通信回線の先に備えられた他の記憶装置や、コンピュータのハードディスクやRAM等の記録媒体のいずれでも良く、例えば本発明にかかる音声認識装置を利用する際にコンピュータにより読み取られる。
【0034】
【発明の効果】
以上のように本発明にかかる音声認識方法によれば、認識語彙としてすべての読みがな列を事前に登録すること無く、音声入力が正しい読みがなの通りにされなかった場合においても、希望する認識結果を得ることが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施形態にかかる音声認識装置の概略構成図
【図2】 本発明の一実施例における音声認識装置の概略構成図
【図3】 本発明の実施形態における音声認識装置の処理の流れ図
【図4】 記録媒体の例示図
【符号の説明】
1 音声認識装置
11 音響分析部
12 読みがな列変換部
13 照合部
14 読みがな列変換表
15 認識語彙リスト
41 回線先の記憶装置
42 CD−ROMやフロッピーディスク等の可搬型記録媒体
42−1 CD−ROM
42−2 フロッピーディスク
43 コンピュータ
44 コンピュータ上のRAM/ハードディスク等の記録媒体
121 項目検索部
122 読み変え読みがな列追加部
131 スコア算出部
132 項目スコア決定部
133 上位項目選択部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a method and apparatus for recognizing speech in a speech input device.
[0002]
[Prior art]
In speech recognition for unspecified speakers, a method of giving a recognition vocabulary as a recognition vocabulary in advance using a character string is often used as an input speech. Therefore, when the input voice is not given as a recognition vocabulary in advance, there is a disadvantage that it cannot be recognized.
[0003]
In order to avoid such an adverse effect, it is necessary to register many recognition vocabularies in advance. In this case, it is conceivable that “reading” and “notation characters” are registered 1: 1 in the conversion dictionary used to convert the speech into the recognized vocabulary, but considering the total number of vocabularies Since it is not realistic, various ideas have been made. Japanese Patent Application Laid-Open No. 7-73175 discloses a method of indicating one “notation character” for a plurality of “reading”.
[0004]
[Problems to be solved by the invention]
However, even in the above method, there is a problem in that it is still impossible to deal with an unspecified speaker misreading, etc., and an incorrect "notation character" is output as a recognized character or becomes unrecognizable. .
[0005]
In order to solve such problems, the present invention provides a method and apparatus for recognizing speech that can output an intended “notation character” as a recognition character even when an unspecified speaker misreads. The purpose is to provide.
[0006]
[Means for Solving the Problems]
In order to solve the above problems, a speech recognition method according to the present invention provides a recognition vocabulary list in which one item is composed of a written character string and a reading string as a recognition vocabulary for speech input. An analysis process for analyzing the recorded speech and a partial reading character string corresponding to a partial reading character string that is a part of the written character string. In accordance with the pre-registered reading column conversion table , the partial reading column included in the reading column of the recognized vocabulary list is replaced with the reading replacement column included in the analysis result of the acoustic analysis step. A reading sequence conversion step of generating one or a plurality of replaced new reading columns, adding the new reading column as a reading column to the recognized vocabulary list, and the acoustic analysis step Analysis results by The recognition vocabulary list to read a column and read varied readings against the a column, calculates the matching score is an indication of the matching degree, comprise a matching step of selecting the best the item of the matching score It is characterized by.
[0007]
With this configuration, even if the input is a speech input that is not registered as a recognized vocabulary in a recognized vocabulary list composed of a written character string and a reading string, if it is generated as a reading-reading string, A recognition result similar to that registered as a recognition vocabulary can be output. Therefore, even if the reading is input by mistake, it can be recognized as a correct written character string. In addition, even if it is difficult to determine a reading string in a character string that is difficult to uniquely determine a reading, such as an address or a person's name, a plurality of reading strings can be used for collation. As a result, the possibility of recognizing the correct written character string can be increased.
[0008]
The speech recognition apparatus according to the present invention is the speech recognition apparatus in which one of the items given as recognition vocabulary of the speech input a composed recognition vocabulary list and is a column read as writing character string, the voice input The acoustic analysis unit to be analyzed and the partial reading character string that is a part of the written character string are registered in advance in association with the partial reading character string that is the reading of the partial written character string. In accordance with the reading column conversion table , the new reading column that replaces the partial reading column included in the reading column of the recognized vocabulary list with the reading column included in the analysis result by the acoustic analysis unit. A reading column conversion unit that generates one or a plurality of reading columns and replaces the new reading column as a reading column and adds it to the recognition vocabulary list, and an analysis result by the acoustic analysis unit reading of the recognition vocabulary list Against the can such columns and reading changed to read a column, it calculates the matching score is an indication of the matching degree, characterized in that it comprises a collating unit for selecting the best the item of the matching scores.
[0009]
With this configuration, even if the input is a speech input that is not registered as a recognized vocabulary in a recognized vocabulary list composed of a written character string and a reading string, if it is generated as a reading-reading string, A recognition result similar to that registered as a recognition vocabulary can be output. Therefore, even if the reading is input by mistake, it can be recognized as a correct written character string. In addition, even if it is difficult to determine a reading string in a character string that is difficult to uniquely determine a reading, such as an address or a person's name, a plurality of reading strings can be used for collation. As a result, the possibility of recognizing the correct written character string can be increased.
[0010]
Next, a computer-readable recording medium recording a program to be executed by a computer according to the present invention uses a recognition vocabulary list in which one item is a notation character string and a reading string as a recognition vocabulary for speech input. In a computer-readable recording medium recording a program to be executed by a computer to be given, there is an acoustic analysis procedure for analyzing input speech and partial reading that is a part of the written character string. In accordance with the reading column conversion table in which the reading column of the partial notation character string is registered in advance in association with the reading column, the reading column included in the reading column of the recognized vocabulary list is determined. the acoustic analysis procedures new readings such sequence was replaced by reading changed to read a column included in the analysis result to one or more generate by the new And to read a column transformation steps to be added to the recognition vocabulary list as changed to read a column read Migana column, the acoustic analysis result by the analysis procedure to read the recognition vocabulary list such columns and reading changed to read it A program for causing a computer to execute a collation procedure for selecting the item having the best collation score is calculated by collating with a column, calculating a collation score that is an index of the collation degree.
[0011]
With this configuration, even when the input is not registered as a recognition vocabulary in a recognition vocabulary list composed of a written character string and a reading string by loading and executing the program on a computer, If it is generated as an unread column, it is possible to output the same recognition result as that registered as a recognition vocabulary. Therefore, it is possible to realize a speech recognition apparatus that can recognize a correct written character string even when a reading is input by mistake.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a speech recognition method and apparatus according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 shows a configuration diagram of a
[0013]
In FIG. 1,
[0014]
[0015]
[0016]
As described above, according to the present embodiment, it is possible to specify a reading, such as an address or name, by adding a reading-reading column to a reading-reading column that is not registered. Even if the subject is relatively difficult, a more correct recognition vocabulary can be selected.
[0017]
Next, an embodiment of the present invention will be described with reference to FIG. FIG. 2 shows a block diagram of a speech recognition apparatus in an embodiment of the present invention. In FIG. 2, when an unspecified speaker inputs a voice, the voice inputted by the
[0018]
On the other hand, as the recognition vocabulary, the notation character string “Minatocho” is registered in advance for the reading string “Minatocho”, but the notation character string “Minatomachi” is registered for the reading string “Minatomachi”. If not registered, it is determined that there is no recognized vocabulary according to the conventional speech recognition method.
[0019]
In the speech recognition apparatus according to the present invention, in the
[0020]
[Table 1]
[0021]
[Table 2]
[0022]
[Table 3]
[0023]
The word “Minatomachi” inputted by voice is collated with the recognized vocabulary specified in the recognized
[0024]
As a typical method of calculating the query score, the frequency characteristics of a certain item, for example, the frequency characteristics of the reading “ma” are patterned in time series, and the frequency characteristics of the input speech are time-series. There is a method in which a score obtained by comparing Euclidean distances between both vectors in a time series direction is compared with the expressed one. According to this method, if both patterns are exactly the same, the Euclidean distance is zero, so the score is zero. Conversely, the greater the difference between the patterns, the larger the score value, that is, it is determined that the two patterns do not match.
[0025]
Of course, the method is not limited to this method, and the score may be calculated by another method. For example, a product obtained by multiplying the appearance probability of a standard voice pattern in the time series direction is also conceivable.
[0026]
And the collation score of each item is determined in the item
[0027]
As described above, according to the present embodiment, an efficient speech recognition apparatus can be configured by adding a reading / reading sequence without registering all reading sequences as a recognition vocabulary. It becomes possible.
[0028]
Next, a process flow of a program that realizes the speech recognition apparatus according to the embodiment of the present invention will be described. FIG. 3 shows a flowchart of processing of a program that realizes the speech recognition apparatus according to the embodiment of the present invention.
[0029]
First, the collation score value of the reading column of each item registered in the reading table is calculated for the input speech (step 311). In this case, as in the prior art, the matching score value is the lowest for those not registered as recognition vocabulary.
[0030]
Next, a collation score value is calculated for a column in which each item registered in the recognized vocabulary list is replaced (step 312). In this step, even if there is no registration as a recognized vocabulary, if it has been added as a column that does not change the reading, the range that is determined as the recognized vocabulary is expanded by automatically generating the recognized vocabulary, A collation score value similar to that in which the recognition vocabulary is registered is calculated.
[0031]
Then, based on the calculation results of
[0032]
Further, the recording medium storing the program for realizing the speech recognition apparatus according to the embodiment of the present invention is only a portable recording medium such as a CD-ROM or a floppy disk as shown in the example of the recording medium shown in FIG. Instead, it may be any other storage device provided at the end of the communication line, or a recording medium such as a computer hard disk or RAM, and when the program is executed, the program is loaded and executed on the main memory.
[0033]
In addition, a recording medium on which a reading sequence conversion table or the like generated by the speech recognition apparatus according to the embodiment of the present invention is recorded is a CD-ROM, a floppy disk, or the like as shown in the example of the recording medium shown in FIG. In addition to the portable recording medium, any other storage device provided at the end of the communication line, or a recording medium such as a computer hard disk or RAM may be used. For example, when using the speech recognition apparatus according to the present invention. Read by computer.
[0034]
【The invention's effect】
As described above, according to the speech recognition method of the present invention, it is desired even when the speech input is not correctly read without registering all the reading columns as the recognition vocabulary in advance. A recognition result can be obtained.
[Brief description of the drawings]
FIG. 1 is a schematic configuration diagram of a speech recognition apparatus according to an embodiment of the present invention. FIG. 2 is a schematic configuration diagram of a speech recognition apparatus according to an embodiment of the present invention. Flow chart of processing [Fig. 4] Illustration of recording media [Explanation of symbols]
DESCRIPTION OF
42-2
Claims (3)
入力された音声を分析する音響分析工程と、
表記文字列の一部である部分表記文字列の読みがなである部分読みがな列に対応付けて当該部分表記文字列の読み変え読みがな列があらかじめ登録されている読みがな列変換表に従って、前記認識語彙リストの読みがな列に含まれる部分読みがな列を、前記音響分析工程による分析結果に含まれる読み変え読みがな列で置換した新たな読みがな列を一つ又は複数生成し、前記新たな読みがな列を読み変え読みがな列として前記認識語彙リストに追加する読みがな列変換工程と、
前記音響分析工程による分析結果を前記認識語彙リストの読みがな列及び読み変え読みがな列と照合し、照合度合の指標である照合スコアを算出し、前記照合スコアの最も良い前記項目を選択する照合工程とを含むことを特徴とする音声認識方法。In a speech recognition method in which a recognition vocabulary list in which one item is composed of a written character string and a reading string is given as a recognition vocabulary for speech input,
An acoustic analysis process for analyzing the input speech;
A reading sequence conversion in which a partial reading character string that is a part of the written character string is associated with a partial reading character string that is read in advance, and the reading character string of the partial writing character string is registered in advance. In accordance with the table , one new reading column is obtained by replacing the partial reading column included in the reading column of the recognized vocabulary list with the reading column included in the analysis result of the acoustic analysis step. Or a plurality of read-out column conversion steps to read the new reading column and add it to the recognized vocabulary list as a reading column .
The analysis result of the acoustic analysis step is collated with a reading column and a reading column of the recognized vocabulary list , a collation score that is an index of a collation degree is calculated, and the item having the best collation score is selected. A voice recognition method comprising: a collating step.
入力された音声を分析する音響分析部と、
表記文字列の一部である部分表記文字列の読みがなである部分読みがな列に対応付けて当該部分表記文字列の読み変え読みがな列があらかじめ登録されている読みがな列変換表に従って、前記認識語彙リストの読みがな列に含まれる部分読みがな列を、前記音響分析部による分析結果に含まれる読み変え読みがな列で置換した新たな読みがな列を一つ又は複数生成し、前記新たな読みがな列を読み変え読みがな列として前記認識語彙リストに追加する読みがな列変換部と、
前記音響分析部による分析結果を前記認識語彙リストの読みがな列及び読み変え読みがな列と照合し、照合度合の指標である照合スコアを算出し、前記照合スコアの最も良い前記項目を選択する照合部を含むことを特徴とした音声認識装置。In a speech recognition device that provides a recognition vocabulary list, in which one item is a written character string and a reading string, as a recognition vocabulary for speech input,
An acoustic analysis unit that analyzes the input speech;
A reading sequence conversion in which a partial reading character string that is a part of the written character string is associated with a partial reading character string that is read in advance, and the reading character string of the partial writing character string is registered in advance. According to the table , one new reading column is obtained by replacing the partial reading column included in the reading column of the recognized vocabulary list with the reading column included in the analysis result by the acoustic analysis unit. Or a plurality of reading column conversion units that generate and read the new reading column and add it to the recognized vocabulary list as a reading column ;
The analysis result by the acoustic analysis unit is collated with a reading column and a reading column of the recognized vocabulary list , a collation score that is an index of a collation degree is calculated, and the item having the best collation score is selected. A speech recognition apparatus including a matching unit.
入力された音声を分析する音響分析手順と、
表記文字列の一部である部分表記文字列の読みがなである部分読みがな列に対応付けて当該部分表記文字列の読み変え読みがな列があらかじめ登録されている読みがな列変換表に従って、前記認識語彙リストの読みがな列に含まれる部分読みがな列を、前記音響分析手順による分析結果に含まれる読み変え読みがな列で置換した新たな読みがな列を一つ又は複数生成し、前記新たな読みがな列を読み変え読みがな列として前記認識語彙リストに追加する読みがな列変換手順と、
前記音響分析手順による分析結果を前記認識語彙リストの読みがな列及び読み変え読みがな列と照合し、照合度合の指標である照合スコアを算出し、前記照合スコアの最も良い前記項目を選択する照合手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。In a computer-readable recording medium recording a program for causing a computer to execute a computer that gives a recognition vocabulary list in which one item is a written character string and a reading string as a recognition vocabulary for speech input,
An acoustic analysis procedure for analyzing the input speech;
A reading sequence conversion in which a partial reading character string that is a part of the written character string is associated with a partial reading character string that is read in advance, and the reading character string of the partial writing character string is registered in advance. According to the table , one new reading column is obtained by replacing the partial reading column included in the reading column of the recognized vocabulary list with the reading column included in the analysis result by the acoustic analysis procedure. Or a plurality of reading sequence to convert the new reading sequence to read and add to the recognized vocabulary list as a reading sequence ,
The analysis result by the acoustic analysis procedure is collated with a reading column and a reading column of the recognized vocabulary list , a collation score that is an index of a collation degree is calculated, and the item having the best collation score is selected. a computer-readable recording medium a program executed by a computer verification procedure for.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17246998A JP3727173B2 (en) | 1998-06-19 | 1998-06-19 | Speech recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17246998A JP3727173B2 (en) | 1998-06-19 | 1998-06-19 | Speech recognition method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000010583A JP2000010583A (en) | 2000-01-14 |
JP3727173B2 true JP3727173B2 (en) | 2005-12-14 |
Family
ID=15942575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17246998A Expired - Fee Related JP3727173B2 (en) | 1998-06-19 | 1998-06-19 | Speech recognition method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3727173B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4550207B2 (en) * | 2000-02-29 | 2010-09-22 | クラリオン株式会社 | Voice recognition device and voice recognition navigation device |
JP2009258293A (en) * | 2008-04-15 | 2009-11-05 | Mitsubishi Electric Corp | Speech recognition vocabulary dictionary creator |
CN113569565B (en) * | 2020-04-29 | 2023-04-11 | 抖音视界有限公司 | Semantic understanding method, device, equipment and storage medium |
-
1998
- 1998-06-19 JP JP17246998A patent/JP3727173B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000010583A (en) | 2000-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101647021B (en) | Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US20110131038A1 (en) | Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method | |
JP4887264B2 (en) | Voice data retrieval system | |
JPH01167896A (en) | Voice input device | |
JP4570509B2 (en) | Reading generation device, reading generation method, and computer program | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
WO2010044123A1 (en) | Search device, search index creating device, and search system | |
JP4738847B2 (en) | Data retrieval apparatus and method | |
KR101483947B1 (en) | Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof | |
JP3825526B2 (en) | Voice recognition device | |
JP3727173B2 (en) | Speech recognition method and apparatus | |
WO2023274028A1 (en) | Voiceprint lock control method and apparatus, and electronic device | |
CN113539234B (en) | Speech synthesis method, device, system and storage medium | |
JP2002278579A (en) | Voice data retrieving device | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
JP3975825B2 (en) | Character recognition error correction method, apparatus and program | |
CN113628637A (en) | Audio identification method, device, equipment and storage medium | |
CN111429886A (en) | Voice recognition method and system | |
JP2004309928A (en) | Speech recognition device, electronic dictionary device, speech recognizing method, retrieving method, and program | |
JP2000259169A (en) | Voice recognition device and its recording medium | |
JP3514481B2 (en) | Voice recognition device | |
JP2002259912A (en) | Online character string recognition device and online character string recognition method | |
JP6991409B2 (en) | Information processing equipment, programs and information processing methods | |
JPH0211919B2 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050915 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050927 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081007 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131007 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |