JP5243325B2 - 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム - Google Patents

音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム Download PDF

Info

Publication number
JP5243325B2
JP5243325B2 JP2009081489A JP2009081489A JP5243325B2 JP 5243325 B2 JP5243325 B2 JP 5243325B2 JP 2009081489 A JP2009081489 A JP 2009081489A JP 2009081489 A JP2009081489 A JP 2009081489A JP 5243325 B2 JP5243325 B2 JP 5243325B2
Authority
JP
Japan
Prior art keywords
score
kana
candidate
acoustic
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009081489A
Other languages
English (en)
Other versions
JP2010231149A (ja
Inventor
利明 内部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009081489A priority Critical patent/JP5243325B2/ja
Publication of JP2010231149A publication Critical patent/JP2010231149A/ja
Application granted granted Critical
Publication of JP5243325B2 publication Critical patent/JP5243325B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、音声認識に仮名漢字変換システムを用いた端末、方法及びプログラムに関する。
従来、アプリケーションに文字を入力するために、キー操作によって利用者に入力された平仮名を、仮名漢字の文字列に変換する仮名漢字変換システムがある。通常、ワードプロセッサソフトウェアやテキストエディタソフトウェアに組み込まれた日本語入力機能として動作する。
これに対し、利用者の発声した音声信号をマイクで取得し、その音声信号を仮名漢字の文字列に変換する音声認識システムがある。利用者は、キーを操作することなく、文字列を入力することができる。しかしながら、人が発声する単語の語彙数が膨大である。そのために、音声認識の精度を高めることが難しい。
音声認識によって予測される文字列の精度を向上させるために、文章から話題予測データを作成する技術がある(例えば特許文献1参照)。話題予測データと平仮名とに基づいて、仮名漢字の文字列が予測される。
また、予測される複数候補の文字列を、特定の認識対象語に絞り込むことによって、認識精度を高める技術もある(例えば特許文献2参照)。しかしながら、認識対象語が絞り込まれているために、音声認識システムの用途も限定される。
図1は、従来技術における仮名漢字変換機能及び音声認識機能を有するシステムである。
図1によれば、端末1は、ハードウェアとして、ディスプレイ100と、キー操作部111と、マイク121とを有する。ディスプレイ100は、テキストエディタのようなアプリケーションの入力インタフェースを表示すると共に、利用者によって入力された平仮名及び予測候補の仮名漢字を表示する。キー操作部111は、利用者に対して、キーを用いて平仮名を入力させる。マイク121は、利用者によって発声された音声信号を取得する。
端末1は、仮名漢字変換機能として、仮名漢字変換エンジン112と、言語モデル蓄積部113と、履歴蓄積部114と、仮名漢字選択画面制御部115とを有する。仮名漢字変換エンジン112は、言語モデル蓄積部113及び履歴蓄積部114を用いて、キー操作部111によって入力された平仮名を、複数候補の仮名漢字に変換する。仮名漢字選択画面制御部115は、利用者に対して、複数候補の仮名漢字から1つの仮名漢字を選択させる。
言語モデル蓄積部113は、単語辞書と言語モデルとを蓄積する。言語モデルは、単語間の連接関係の確率を規定する。単語辞書に未登録の単語には、変換することができない。そのために、言語モデル蓄積部113は、キー操作によって入力される全ての単語を含む単語辞書と、それらの言語モデルとを蓄積しておく必要がある。仮名漢字変換システムに対応する言語モデル蓄積部113は、係り受け文法の確率と、格文法の確率とを蓄積する。
履歴蓄積部114は、過去に利用者によって選択された仮名漢字(単語、文節等)の学習履歴を蓄積する。
また、端末1は、通信インタフェースを介して、音声認識サーバ2へ接続する。そして、端末1は、マイク121によって取得された音声信号を、ネットワークを介して、音声認識サーバ2へ送信する。音声認識では、人が発声する単語の語彙数が膨大であって、大容量の言語モデルと高い処理負荷とを要する。そのために、音声認識エンジンを、音声認識サーバとして別途備えることは好ましい。
音声認識サーバは、音声認識エンジン122と、音響モデル蓄積部123と、言語モデル蓄積部124とを有する。音声認識エンジン122は、音響モデル蓄積部123及び言語モデル蓄積部124を用いて、受信された音声信号から複数候補の仮名漢字に変換する。複数候補の仮名漢字は、ネットワークを介して、端末1へ送信される。端末1の音声認識選択画面制御部125は、複数候補の仮名漢字から、利用者によって1つの仮名漢字を選択させる。
音響モデル蓄積部123は、音響モデルを蓄積する。音響モデルとは、音響特徴パラメータと音素との対応関係を蓄積する。音素とは、単語をローマ字で書いたときのアルファベットの単位にほぼ相当する。音響モデル蓄積部123は、音響特徴パラメータに対するその音素の確率を蓄積する。
言語モデル蓄積部124は、単語間の連接関係の確率を規定する。音声認識システムの言語モデル蓄積部124は、隣接するN個の単語間の連接関係の確率を利用するN-gramを採用する。これに対し、仮名漢字変換システムの言語モデル蓄積部113は、隣接する2個の単語間の連接関係の確率のみを利用する係り受け文法を採用する。そのために、音声認識システムの言語モデル蓄積部124は、仮名漢字システムの言語モデル蓄積部113よりも、リソースが膨大となる。勿論、端末1が、音声認識エンジン122と、音響モデル蓄積部123と、言語モデル蓄積部124とを更に含むものであってもよい。
尚、音声認識システムによって人の発声した音声信号を平仮名に変換し、次に、仮名漢字変換システムによってその平仮名を仮名漢字に変換する技術もある(例えば非特許文献1及び2参照)。
特開2000−285112号公報 特許第4012143号
音声認識エンジン「VORERO(VOice REcognition RObustR)」、旭化成、[online]、[平成21年3月19日検索]、インターネット<URL:http://www.asahi-kasei.co.jp/vorero/jp/vorero/index.html> 日本語かな漢字変換システム 「モバイルWnn」、オムロン、[online]、[平成21年3月19日検索]、インターネット<URL:http://www.omronsoft.co.jp/SP/mobile/>
前述した従来技術によれば、音声認識システムと仮名漢字変換システムとは別々に備えられ、互いに独立のリソースを用いている。音声認識システムにおける音響モデル及び言語モデルは、流行語のような全ての口語文字に対応する必要があり、そのリソースも膨大である。一方で、音声認識システムでは、仮名漢字変換システムに組み込まれた格文法、形態素解析及び格フレーム処理のような処理を実行しないため、仮名漢字変換における誤変換も生じやすい。
そこで、本発明は、音声認識に仮名漢字変換システムを用いることによって、システム全体の言語モデルのリソースを統合すると共に、音声認識の誤変換を削減することができる端末、方法及びプログラムを提供することを目的とする。
本発明によれば、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
音声信号から音素フレームを抽出する音響分析手段と、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、音響スコア算出手段、N-gramスコア算出手段、格文法スコア算出手段及び統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
を有し、音声認識機能を実現することを特徴とする。
本発明の端末における他の実施形態によれば、
過去に変換された仮名漢字を記憶する履歴蓄積手段と、
履歴蓄積手段を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出する履歴スコア算出手段と
を有し、
統合スコア算出手段は、更に、履歴スコアを統合スコアに算入することも好ましい。
本発明の端末における他の実施形態によれば、
キーを用いて利用者によって入力された平仮名系列を取得するキー操作手段を更に有し、
N-gramスコア算出手段、格文法スコア算出手段、統合スコア算出手段、探索制御手段及び格フレーム処理手段によって、仮名漢字変換機能を実現することも好ましい。
本発明の端末における他の実施形態によれば、
利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させる候補選択画面制御手段を更に有し、
候補選択画面制御手段は、音声認識機能及び仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることも好ましい。
本発明によれば、端末における音声認識方法であって、
端末は、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積部と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積部と
を有し、
利用者によって発声された音声信号を、マイク部によって取得する第1のステップと、
音声信号から音素フレームを抽出する第2のステップと、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する第3のステップと、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する第4のステップと、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する第5のステップと、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する第6のステップと、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、第3から第6のステップを繰り返す第7のステップと、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する第8のステップと
を有し、音声認識機能を実現することを特徴とする。
本発明の音声認識方法における他の実施形態によれば、
端末は、過去に変換された仮名漢字を記憶する履歴蓄積部を更に有し、
履歴蓄積部を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出するステップを更に有し、
第6のステップは、更に、履歴スコアを統合スコアに算入することも好ましい。
本発明の音声認識方法における他の実施形態によれば、
端末は、キーを用いて利用者によって入力された平仮名系列を取得するキー操作部を更に有し、
第4のステップから第8のステップまでによって、仮名漢字変換機能を実現することも好ましい。
本発明の音声認識方法における他の実施形態によれば、
利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させるステップを更に有することによって、音声認識機能及び仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることも好ましい。
本発明によれば、端末に搭載されたコンピュータを機能させる音声認識プログラムであって、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
音声信号から音素フレームを抽出する音響分析手段と、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、音響スコア算出手段、N-gramスコア算出手段、格文法スコア算出手段及び統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
してコンピュータを機能させることを特徴とする。
本発明の端末、方法及びプログラムによれば、音声認識に仮名漢字変換システムを用いることによって、システム全体の言語モデルのリソースを統合すると共に、音声認識の誤変換を削減することができる。
従来技術における仮名漢字変換機能及び音声認識機能を有するシステムである。 仮名漢字変換システム及び音声認識システムの機能構成図である。 本発明における端末の機能構成図である。 本発明におけるフローチャートである。 従来技術と本発明とを比較した、仮名漢字の予測変換シーケンスである。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、仮名漢字変換システム及び音声認識システムの機能構成図である。
図2(a)によれば、仮名漢字変換システムのみの機能構成が表されている。仮名漢字変換エンジン112は、単語の連接毎に、仮名漢字候補の確率をスコア(点数付け)によって算出する。仮名漢字変換エンジン112は、係り受け文法スコア算出部1121と、格文法スコア算出部1122と、履歴スコア算出部1123と、統合スコア算出部1124と、形態素解析部1125と、格フレーム処理部1126とを含む。係り受け文法スコア算出部1121は、単語間の連接強度を、単語間の共起確率で表す。尚、仮名漢字変換システムによれば、キーによって入力されるために、文字の読み仮名は確定する。そのため、その読み仮名に対する複数の同音意義語を検出すればよい。
図2(b)によれば、音声認識システムのみの機能構成が表されている。音声認識エンジン122は、音響分析部1221と、音響スコア算出部1222と、N-gramスコア算出部1223と、統合スコア算出部1224と、候補範囲制御部1225とを有する。仮名漢字変換システムの係り受け文法スコア算出部1121に対して、音声認識システムでは、隣接するN個の単語の連接関係の確率を算出するN-gramスコア算出部1223を用いる。N-gramは、隣接する2個の単語の連接関係の確率を表す「係り受け文法」を拡張したものである。尚、音声認識システムの場合、読み仮名自体が不確定となる。そのために、候補範囲制御部1225は、異なる読み仮名の各々に対応する仮名漢字を探索する必要がある。
本発明の音声認識システムによれば、統合スコアの算出に、仮名漢字変換システムの格文法スコア算出部1122及び履歴スコア算出部1123を更に含む。また、仮名漢字変換システムにおける形態素解析部1125及び格フレーム処理部1126と、音声認識システムにおける候補範囲制御部1225とを統合する。更に、本発明の仮名漢字変換システムによれば、係り受け文法スコアではなく、N-gramスコアが用いられる。
図3は、本発明における端末の機能構成図である。
図3によれば、端末1は、音響モデル蓄積部123と、言語モデル蓄積部133と、履歴蓄積部114と、音響分析部1221と、音響スコア算出部1222と、N-gramスコア算出部1223と、格文法スコア算出部1122と、履歴スコア算出部1123と、統合スコア算出部130と、探索制御部131と、格フレーム処理部1126と、候補選択画面制御部132とを更に有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
N-gramスコア算出部1223は、候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する。ここで、音声認識によれば、読み仮名が不確定であるために、異なる複数の読み仮名についてスコアを算出する必要がある。例えば、「こうつう」の後に「き・・」が連接する場合、「交通」の後に来る単語の変換候補としては「規制」「きれい」「季節」等の中で、「規制」が一番高いスコアとなる。
格文法スコア算出部1122は、候補となる読み仮名系列に対して、言語モデルが与える文節−文節間の連接強度に応じて格文法スコアを算出する。格文法解析とは、助詞に注目して、文章の構造(単文、重文、複文、主語、目的語、修飾語、述語、補語など)を解析する。例えば、「わたしはくににぜいきんがおさめられているのでおさめる」では、以下のように文章構造が判断される。
「わたしは くにに ぜいきんが おさめられているので おさめる」
(主語) (述語)
主語 目的語 修飾語 述語
文節「ぜいきんが」─文節「おさめられている」の連接強度は高く、且つ、文章構成のける重要度は低い。「ぜいきんがおさめられているので」を修飾語と判断し、「わたしは」「くにに」「おさめる」が、文章構成の重要度が高いと判断する。このように、従来の音声認識システムによれば言語モデルとしてN-gramしか考慮していないのに対し、自由度が高い文法の発声にも対応することができる。
言語モデル蓄積部133は、単語辞書及び言語モデルを蓄積する。特に、単語辞書における単語間の連接関係を、点数化(スコア化)して蓄積する。ここで、本発明における言語モデル蓄積部133は、N-gramの確率及び格文法の確率を有し、N-gramスコア算出部1223及び格文法スコア算出部1122に対応したものである。その点で、仮名漢字変換システム及び音声認識システムにおける既存の言語モデル蓄積部とは異なる。
履歴スコア算出部1123は、候補となる読み仮名系列に対して、履歴蓄積部114を用いて、過去に利用者によって選択された仮名漢字(単語、文節等)を、高いスコアに設定する。即ち、過去の学習結果を、言語スコアに反映させる。基本的に、その読み仮名で、直前に選択された仮名漢字を予測候補にする。また、その読み仮名に対して、過去に用いられた文章の内容に応じて仮名漢字を予測候補にする。
従来技術における音声認識システムによれば、利用者に応じて提示する候補を変更することはできない。これに対し、本発明によれば、利用者に応じて使用頻度の高い単語を特定することによって、予測変換精度を向上させることができる。また、仮名漢字変換機能と音声認識機能との間で、履歴情報が相互に共有される。
音響分析部1221は、マイク121から入力された音声信号を、音響特徴パラメータに変換する。その音響特徴パラメータは、音響スコア算出部1222へ出力される。音響特徴パラメータは、入力された音声信号を数十msecの音素フレーム単位(音素フレーム)で分析したLPCケプストラム又はMFCCのようなパラメータ系列である。
音響スコア算出部1222は、音響モデル蓄積部123を用いて、音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。
統合スコア算出部130は、候補となる読み仮名系列に対して、言語スコア(N-gramスコア、格文法スコア及び履歴スコア)と音響スコアとを統合して、最も高いスコアの単語列を、認識結果として出力する。入力された音声信号に対して、音響的な類似度と言語的な妥当性とをスコア化することができる。
探索制御部131は、形態素解析に基づいて探索候補を選別すると共に、統合スコアが最も高い仮名漢字列を探索するために、音響スコア算出部1222、N-gramスコア算出部1223、格文法スコア算出部1122、履歴スコア算出部1123及び統合スコア算出部130を繰り返す。
形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を形態素(Morpheme、言語で意味を持つ最小単位)の列に分割する。例えば、文「きのうわたしはしっていた。」に対して、多数の単語に区切ることができる。区切り方によっては、意味が通じない単語となる。
・き/のう/わ/たし/は/しっ/て/いた
・きのう/わたし/は/しっ/て/いた
・きのう/わたし/はしっ/て/いた
次に、探索制御部131は、最適な文節に区切るべく、スコアが高いN個の候補を選別する。スコアを用いることによって、仮名漢字の出現頻度だけでなく、単語又は文節の連接強度によって、N個の候補が選別される。
ΣM m=1αmΣNm n=1m(xmn)
M:単語数
m:m番目の単語
αm:単語wmの言語スコア
m:単語wmに含まれる音素フレーム数
mn:単語wmに含まれるn番目の音素フレーム
m(xmn):音素フレームの単語wmの音響モデルの音響スコア
従来技術における音声認識システムでは、候補となる読み仮名系列の中から、音響スコア及びN-gramスコアが上位となる読み仮名に絞り込んでいる。これに対し、本発明によれば、形態素解析によって文構造の正しい候補を選別した上で、スコアが上位となる読み仮名に絞り込んでいる。これによって、予測精度も向上する。
格フレーム処理部1126は、文の格構造によって変換候補を選択する。格フレームとは、動詞に、「どんな助詞(で、に、を、から、より、・・・)と一緒に使われるのか」という情報を持たせることを意味する。入力された読みと一致する格フレームを持つ単語を、変換候補の第1候補にする。例えば、「私はドレスを着る。」「私はナイフでドレスを切る。」のように、「着る」と「切る」の同音異義語を区別することができる。
従来技術における音声認識システムでは、N-gramの性質上、隣接しない単語同士の同音異義語を正しい候補に変換することが難しい。これに対し、本発明によれば、格フレーム処理によって、文の格構造を概念的に認識し、名詞の後の助詞に基づいて「どの単語に係るか」を解析する。これによって、文節(格構造)が隣接しない(特に離れている)場合であっても、同音異義語の中から適切な候補を選択することができる。
候補選択画面制御部132は、利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させる。これにより、利用者は、音声認識機能及び仮名漢字変換機能を、同一の候補選択画面として視認することができる。
図4は、本発明におけるフローチャートである。
(S401)マイクを用いて、利用者によって発声された音声信号を取得する。
(S402)音響分析によって、音声信号から音素フレームを抽出する。
(S403)以下、S408までを繰り返す。
(S404)音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。
(S405)候補となる読み仮名系列に対して、言語モデルを用いて、単語間の連接強度に応じてN-gramスコアを算出する。
(S406)候補となる読み仮名系列に対して、言語モデルを用いて、文節−文節間の連接強度に応じて格文法スコアを算出する。
(S407)候補となる読み仮名系列に対して、履歴情報を用いて、過去の学習履歴に応じて履歴スコアを算出する。
(S408)候補となる読み仮名系列に対して、音響スコア及び言語スコア(N-gramスコア、格文法スコア及び履歴スコア)に基づく統合スコアを算出する。
(S409)形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、S403からS408までを繰り返す。
(S410)探索された仮名漢字を含む文章の格構造によって変換候補を選択する。
(S411)利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させる。利用者から見て、音声認識機能及び仮名漢字変換機能は、同一の候補選択画面として視認される。
図5は、従来技術と本発明とを比較した、仮名漢字の予測変換シーケンスである。
図5によれば、従来技術における音声認識の場合、音響スコア及びN-gramスコアによって探索を繰り返すために、隣接する単語に影響されやすく、誤変換されやすい。
これに対し、本発明における音声認識の場合、格文法スコア及び履歴スコアを統合スコアに更に含めて探索を繰り返すことによって、最適な形態素に区分される。更に、格フレーム処理によって文章の格構造が判断され、最終的に、最適な仮名漢字に変換される。
以上、詳細に説明したように、本発明の端末、方法及びプログラムによれば、音声認識に仮名漢字変換システムを用いることによって、システム全体の言語モデルのリソースを統合すると共に、音声認識の誤変換を削減することができる。
本発明によれば、音声認識における誤認識を、仮名漢字変換システムにおける言語スコア計算部によって補うことによって、音声認識における認識精度を向上させる。また、言語モデルを統合することによって、当該端末が備えるべきリソースを削減させ、携帯端末への組込みを可能とする。音声認識システムと仮名漢字変換システムとにおける予測候補の選択画面が共通化されるので、利用者から見て理解を容易にする。更に、仮名漢字変換システムで利用者によって選択された仮名漢字は、音声認識システムでも同様に、高いスコアで算出される。逆に、音声認識システムで利用者によって選択された仮名漢字は、仮名漢字変換システムでも同様に、高いスコアで算出される。即ち、利用者から見て、両システムともに、同様の仮名漢字変換が実行される。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 端末
100 ディスプレイ
111 キー操作部
112 仮名漢字変換エンジン
1121 係り受け文法スコア算出部
1122 格文法スコア算出部
1123 履歴スコア算出部
1124 統合スコア算出部
1125 形態素解析部
1126 格フレーム処理部
113 言語モデル蓄積部
114 履歴蓄積部
115 仮名漢字選択画面制御部
121 マイク
122 音声認識エンジン
1221 音響分析部
1222 音響スコア算出部
1223 N-gramスコア算出部
1224 統合スコア算出部
1225 候補範囲制御部
123 音響モデル蓄積部
124 言語モデル蓄積部
125 音声認識選択画面制御部
130 統合スコア算出部
131 探索制御部
132 候補選択画面制御部
133 言語モデル蓄積部

Claims (9)

  1. 音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
    単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
    利用者によって発声された音声信号を取得するマイク手段と、
    前記音声信号から音素フレームを抽出する音響分析手段と、
    前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する音響スコア算出手段と、
    候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
    候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
    候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
    形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、前記音響スコア算出手段、前記N-gramスコア算出手段、前記格文法スコア算出手段及び前記統合スコア算出手段を繰り返す探索制御手段と、
    探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
    を有し、音声認識機能を実現することを特徴とする端末。
  2. 過去に変換された仮名漢字を記憶する履歴蓄積手段と、
    前記履歴蓄積手段を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出する履歴スコア算出手段と
    を有し、
    前記統合スコア算出手段は、更に、前記履歴スコアを前記統合スコアに算入することを特徴とする請求項1に記載の端末。
  3. キーを用いて前記利用者によって入力された平仮名系列を取得するキー操作手段を更に有し、
    前記N-gramスコア算出手段、前記格文法スコア算出手段、前記統合スコア算出手段、前記探索制御手段及び前記格フレーム処理手段によって、仮名漢字変換機能を実現することを特徴とする請求項1又は2に記載の端末。
  4. 前記利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させる候補選択画面制御手段を更に有し、
    候補選択画面制御手段は、前記音声認識機能及び前記仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることを特徴とする請求項3に記載の端末。
  5. 端末における音声認識方法であって、
    前記端末は、
    音声認識で用いられる音響モデルを蓄積する音響モデル蓄積部と、
    単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積部と
    を有し、
    利用者によって発声された音声信号を、マイク部によって取得する第1のステップと、
    前記音声信号から音素フレームを抽出する第2のステップと、
    前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する第3のステップと、
    候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する第4のステップと、
    候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する第5のステップと、
    候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する第6のステップと、
    形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、第3から第6のステップを繰り返す第7のステップと、
    探索された仮名漢字を含む文章の格構造によって変換候補を選択する第8のステップと
    を有し、音声認識機能を実現することを特徴とする音声認識方法。
  6. 前記端末は、過去に変換された仮名漢字を記憶する履歴蓄積部を更に有し、
    前記履歴蓄積部を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出するステップを更に有し、
    第6のステップは、更に、前記履歴スコアを前記統合スコアに算入することを特徴とする請求項5に記載の音声認識方法。
  7. 前記端末は、キーを用いて前記利用者によって入力された平仮名系列を取得するキー操作部を更に有し、
    第4のステップから第8のステップまでによって、仮名漢字変換機能を実現することを特徴とする請求項5又は6に記載の音声認識方法。
  8. 前記利用者に対して複数の変換候補の中から、いずれか1つの仮名漢字を選択させるステップを更に有することによって、前記音声認識機能及び前記仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることを特徴とする請求項7に記載の音声認識方法。
  9. 端末に搭載されたコンピュータを機能させる音声認識プログラムであって、
    音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
    単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
    利用者によって発声された音声信号を取得するマイク手段と、
    前記音声信号から音素フレームを抽出する音響分析手段と、
    前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する音響スコア算出手段と、
    候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
    候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
    候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
    形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、前記音響スコア算出手段、前記N-gramスコア算出手段、前記格文法スコア算出手段及び前記統合スコア算出手段を繰り返す探索制御手段と、
    探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
    してコンピュータを機能させることを特徴とする音声認識プログラム。
JP2009081489A 2009-03-30 2009-03-30 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム Expired - Fee Related JP5243325B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009081489A JP5243325B2 (ja) 2009-03-30 2009-03-30 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009081489A JP5243325B2 (ja) 2009-03-30 2009-03-30 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010231149A JP2010231149A (ja) 2010-10-14
JP5243325B2 true JP5243325B2 (ja) 2013-07-24

Family

ID=43046986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009081489A Expired - Fee Related JP5243325B2 (ja) 2009-03-30 2009-03-30 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5243325B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102026967B1 (ko) * 2014-02-06 2019-09-30 한국전자통신연구원 n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
JP7102710B2 (ja) * 2017-11-22 2022-07-20 富士通株式会社 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JP7124358B2 (ja) * 2018-03-13 2022-08-24 富士通株式会社 出力プログラム、情報処理装置及び出力制御方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0222730A (ja) * 1988-07-12 1990-01-25 Ricoh Co Ltd 音声入力による文書作成装置
JP3425165B2 (ja) * 1992-09-22 2003-07-07 富士通株式会社 連続文音声認識装置
JP2779333B2 (ja) * 1995-03-28 1998-07-23 株式会社エイ・ティ・アール音声翻訳通信研究所 言語解析装置
JP3444108B2 (ja) * 1996-09-24 2003-09-08 三菱電機株式会社 音声認識装置
JP4600706B2 (ja) * 2000-02-28 2010-12-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP3550350B2 (ja) * 2000-09-05 2004-08-04 日本電信電話株式会社 音声認識方法及びプログラム記録媒体
JP3622841B2 (ja) * 2000-10-03 2005-02-23 マイクロソフト コーポレーション かな漢字変換装置およびかな漢字変換方法
JP2005275348A (ja) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2010231149A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US10037758B2 (en) Device and method for understanding user intent
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP3962763B2 (ja) 対話支援装置
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP2010048953A (ja) 対話文生成装置
US20150178274A1 (en) Speech translation apparatus and speech translation method
JP5073024B2 (ja) 音声対話装置
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
Ablimit et al. A multilingual language processing tool for Uyghur, Kazak and Kirghiz
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
CN116052655A (zh) 音频处理方法、装置、电子设备和可读存储介质
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees