JP5243325B2 - 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム - Google Patents
音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム Download PDFInfo
- Publication number
- JP5243325B2 JP5243325B2 JP2009081489A JP2009081489A JP5243325B2 JP 5243325 B2 JP5243325 B2 JP 5243325B2 JP 2009081489 A JP2009081489 A JP 2009081489A JP 2009081489 A JP2009081489 A JP 2009081489A JP 5243325 B2 JP5243325 B2 JP 5243325B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- kana
- candidate
- acoustic
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
音声信号から音素フレームを抽出する音響分析手段と、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、音響スコア算出手段、N-gramスコア算出手段、格文法スコア算出手段及び統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
を有し、音声認識機能を実現することを特徴とする。
過去に変換された仮名漢字を記憶する履歴蓄積手段と、
履歴蓄積手段を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出する履歴スコア算出手段と
を有し、
統合スコア算出手段は、更に、履歴スコアを統合スコアに算入することも好ましい。
キーを用いて利用者によって入力された平仮名系列を取得するキー操作手段を更に有し、
N-gramスコア算出手段、格文法スコア算出手段、統合スコア算出手段、探索制御手段及び格フレーム処理手段によって、仮名漢字変換機能を実現することも好ましい。
利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させる候補選択画面制御手段を更に有し、
候補選択画面制御手段は、音声認識機能及び仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることも好ましい。
端末は、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積部と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積部と
を有し、
利用者によって発声された音声信号を、マイク部によって取得する第1のステップと、
音声信号から音素フレームを抽出する第2のステップと、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する第3のステップと、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する第4のステップと、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する第5のステップと、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する第6のステップと、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、第3から第6のステップを繰り返す第7のステップと、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する第8のステップと
を有し、音声認識機能を実現することを特徴とする。
端末は、過去に変換された仮名漢字を記憶する履歴蓄積部を更に有し、
履歴蓄積部を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出するステップを更に有し、
第6のステップは、更に、履歴スコアを統合スコアに算入することも好ましい。
端末は、キーを用いて利用者によって入力された平仮名系列を取得するキー操作部を更に有し、
第4のステップから第8のステップまでによって、仮名漢字変換機能を実現することも好ましい。
利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させるステップを更に有することによって、音声認識機能及び仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることも好ましい。
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
音声信号から音素フレームを抽出する音響分析手段と、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、音響スコア算出手段、N-gramスコア算出手段、格文法スコア算出手段及び統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
してコンピュータを機能させることを特徴とする。
「わたしは くにに ぜいきんが おさめられているので おさめる」
(主語) (述語)
主語 目的語 修飾語 述語
文節「ぜいきんが」─文節「おさめられている」の連接強度は高く、且つ、文章構成のける重要度は低い。「ぜいきんがおさめられているので」を修飾語と判断し、「わたしは」「くにに」「おさめる」が、文章構成の重要度が高いと判断する。このように、従来の音声認識システムによれば言語モデルとしてN-gramしか考慮していないのに対し、自由度が高い文法の発声にも対応することができる。
・き/のう/わ/たし/は/しっ/て/いた
・きのう/わたし/は/しっ/て/いた
・きのう/わたし/はしっ/て/いた
ΣM m=1αmΣNm n=1Pm(xmn)
M:単語数
wm:m番目の単語
αm:単語wmの言語スコア
Nm:単語wmに含まれる音素フレーム数
xmn:単語wmに含まれるn番目の音素フレーム
Pm(xmn):音素フレームの単語wmの音響モデルの音響スコア
(S402)音響分析によって、音声信号から音素フレームを抽出する。
(S403)以下、S408までを繰り返す。
(S404)音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。
(S405)候補となる読み仮名系列に対して、言語モデルを用いて、単語間の連接強度に応じてN-gramスコアを算出する。
(S406)候補となる読み仮名系列に対して、言語モデルを用いて、文節−文節間の連接強度に応じて格文法スコアを算出する。
(S407)候補となる読み仮名系列に対して、履歴情報を用いて、過去の学習履歴に応じて履歴スコアを算出する。
(S408)候補となる読み仮名系列に対して、音響スコア及び言語スコア(N-gramスコア、格文法スコア及び履歴スコア)に基づく統合スコアを算出する。
(S409)形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、S403からS408までを繰り返す。
(S410)探索された仮名漢字を含む文章の格構造によって変換候補を選択する。
(S411)利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させる。利用者から見て、音声認識機能及び仮名漢字変換機能は、同一の候補選択画面として視認される。
100 ディスプレイ
111 キー操作部
112 仮名漢字変換エンジン
1121 係り受け文法スコア算出部
1122 格文法スコア算出部
1123 履歴スコア算出部
1124 統合スコア算出部
1125 形態素解析部
1126 格フレーム処理部
113 言語モデル蓄積部
114 履歴蓄積部
115 仮名漢字選択画面制御部
121 マイク
122 音声認識エンジン
1221 音響分析部
1222 音響スコア算出部
1223 N-gramスコア算出部
1224 統合スコア算出部
1225 候補範囲制御部
123 音響モデル蓄積部
124 言語モデル蓄積部
125 音声認識選択画面制御部
130 統合スコア算出部
131 探索制御部
132 候補選択画面制御部
133 言語モデル蓄積部
Claims (9)
- 音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
前記音声信号から音素フレームを抽出する音響分析手段と、
前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、前記音響スコア算出手段、前記N-gramスコア算出手段、前記格文法スコア算出手段及び前記統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
を有し、音声認識機能を実現することを特徴とする端末。 - 過去に変換された仮名漢字を記憶する履歴蓄積手段と、
前記履歴蓄積手段を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出する履歴スコア算出手段と
を有し、
前記統合スコア算出手段は、更に、前記履歴スコアを前記統合スコアに算入することを特徴とする請求項1に記載の端末。 - キーを用いて前記利用者によって入力された平仮名系列を取得するキー操作手段を更に有し、
前記N-gramスコア算出手段、前記格文法スコア算出手段、前記統合スコア算出手段、前記探索制御手段及び前記格フレーム処理手段によって、仮名漢字変換機能を実現することを特徴とする請求項1又は2に記載の端末。 - 前記利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させる候補選択画面制御手段を更に有し、
候補選択画面制御手段は、前記音声認識機能及び前記仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることを特徴とする請求項3に記載の端末。 - 端末における音声認識方法であって、
前記端末は、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積部と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積部と
を有し、
利用者によって発声された音声信号を、マイク部によって取得する第1のステップと、
前記音声信号から音素フレームを抽出する第2のステップと、
前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する第3のステップと、
候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する第4のステップと、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する第5のステップと、
候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する第6のステップと、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、第3から第6のステップを繰り返す第7のステップと、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する第8のステップと
を有し、音声認識機能を実現することを特徴とする音声認識方法。 - 前記端末は、過去に変換された仮名漢字を記憶する履歴蓄積部を更に有し、
前記履歴蓄積部を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出するステップを更に有し、
第6のステップは、更に、前記履歴スコアを前記統合スコアに算入することを特徴とする請求項5に記載の音声認識方法。 - 前記端末は、キーを用いて前記利用者によって入力された平仮名系列を取得するキー操作部を更に有し、
第4のステップから第8のステップまでによって、仮名漢字変換機能を実現することを特徴とする請求項5又は6に記載の音声認識方法。 - 前記利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させるステップを更に有することによって、前記音声認識機能及び前記仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることを特徴とする請求項7に記載の音声認識方法。
- 端末に搭載されたコンピュータを機能させる音声認識プログラムであって、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
前記音声信号から音素フレームを抽出する音響分析手段と、
前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、前記音響スコア算出手段、前記N-gramスコア算出手段、前記格文法スコア算出手段及び前記統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
してコンピュータを機能させることを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009081489A JP5243325B2 (ja) | 2009-03-30 | 2009-03-30 | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009081489A JP5243325B2 (ja) | 2009-03-30 | 2009-03-30 | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010231149A JP2010231149A (ja) | 2010-10-14 |
JP5243325B2 true JP5243325B2 (ja) | 2013-07-24 |
Family
ID=43046986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009081489A Expired - Fee Related JP5243325B2 (ja) | 2009-03-30 | 2009-03-30 | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5243325B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102026967B1 (ko) * | 2014-02-06 | 2019-09-30 | 한국전자통신연구원 | n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법 |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
JP7102710B2 (ja) * | 2017-11-22 | 2022-07-20 | 富士通株式会社 | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 |
JP7124358B2 (ja) * | 2018-03-13 | 2022-08-24 | 富士通株式会社 | 出力プログラム、情報処理装置及び出力制御方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0222730A (ja) * | 1988-07-12 | 1990-01-25 | Ricoh Co Ltd | 音声入力による文書作成装置 |
JP3425165B2 (ja) * | 1992-09-22 | 2003-07-07 | 富士通株式会社 | 連続文音声認識装置 |
JP2779333B2 (ja) * | 1995-03-28 | 1998-07-23 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 言語解析装置 |
JP3444108B2 (ja) * | 1996-09-24 | 2003-09-08 | 三菱電機株式会社 | 音声認識装置 |
JP4600706B2 (ja) * | 2000-02-28 | 2010-12-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
JP3550350B2 (ja) * | 2000-09-05 | 2004-08-04 | 日本電信電話株式会社 | 音声認識方法及びプログラム記録媒体 |
JP3622841B2 (ja) * | 2000-10-03 | 2005-02-23 | マイクロソフト コーポレーション | かな漢字変換装置およびかな漢字変換方法 |
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
-
2009
- 2009-03-30 JP JP2009081489A patent/JP5243325B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010231149A (ja) | 2010-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4705023B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
US10037758B2 (en) | Device and method for understanding user intent | |
US7873508B2 (en) | Apparatus, method, and computer program product for supporting communication through translation between languages | |
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP3962763B2 (ja) | 対話支援装置 | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
JP2010048953A (ja) | 対話文生成装置 | |
US20150178274A1 (en) | Speech translation apparatus and speech translation method | |
JP5073024B2 (ja) | 音声対話装置 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP5243325B2 (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
Ablimit et al. | A multilingual language processing tool for Uyghur, Kazak and Kirghiz | |
JP4820240B2 (ja) | 単語分類装置及び音声認識装置及び単語分類プログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP5611270B2 (ja) | 単語分割装置、及び単語分割方法 | |
JP5208795B2 (ja) | 通訳装置、方法、及びプログラム | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110816 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130404 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |