JP5243325B2

JP5243325B2 - 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム

Info

Publication number: JP5243325B2
Application number: JP2009081489A
Authority: JP
Inventors: 利明内部
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2013-07-24
Anticipated expiration: 2029-03-30
Also published as: JP2010231149A

Description

本発明は、音声認識に仮名漢字変換システムを用いた端末、方法及びプログラムに関する。

従来、アプリケーションに文字を入力するために、キー操作によって利用者に入力された平仮名を、仮名漢字の文字列に変換する仮名漢字変換システムがある。通常、ワードプロセッサソフトウェアやテキストエディタソフトウェアに組み込まれた日本語入力機能として動作する。

これに対し、利用者の発声した音声信号をマイクで取得し、その音声信号を仮名漢字の文字列に変換する音声認識システムがある。利用者は、キーを操作することなく、文字列を入力することができる。しかしながら、人が発声する単語の語彙数が膨大である。そのために、音声認識の精度を高めることが難しい。

音声認識によって予測される文字列の精度を向上させるために、文章から話題予測データを作成する技術がある（例えば特許文献１参照）。話題予測データと平仮名とに基づいて、仮名漢字の文字列が予測される。

また、予測される複数候補の文字列を、特定の認識対象語に絞り込むことによって、認識精度を高める技術もある（例えば特許文献２参照）。しかしながら、認識対象語が絞り込まれているために、音声認識システムの用途も限定される。

図１は、従来技術における仮名漢字変換機能及び音声認識機能を有するシステムである。

図１によれば、端末１は、ハードウェアとして、ディスプレイ１００と、キー操作部１１１と、マイク１２１とを有する。ディスプレイ１００は、テキストエディタのようなアプリケーションの入力インタフェースを表示すると共に、利用者によって入力された平仮名及び予測候補の仮名漢字を表示する。キー操作部１１１は、利用者に対して、キーを用いて平仮名を入力させる。マイク１２１は、利用者によって発声された音声信号を取得する。

端末１は、仮名漢字変換機能として、仮名漢字変換エンジン１１２と、言語モデル蓄積部１１３と、履歴蓄積部１１４と、仮名漢字選択画面制御部１１５とを有する。仮名漢字変換エンジン１１２は、言語モデル蓄積部１１３及び履歴蓄積部１１４を用いて、キー操作部１１１によって入力された平仮名を、複数候補の仮名漢字に変換する。仮名漢字選択画面制御部１１５は、利用者に対して、複数候補の仮名漢字から１つの仮名漢字を選択させる。

言語モデル蓄積部１１３は、単語辞書と言語モデルとを蓄積する。言語モデルは、単語間の連接関係の確率を規定する。単語辞書に未登録の単語には、変換することができない。そのために、言語モデル蓄積部１１３は、キー操作によって入力される全ての単語を含む単語辞書と、それらの言語モデルとを蓄積しておく必要がある。仮名漢字変換システムに対応する言語モデル蓄積部１１３は、係り受け文法の確率と、格文法の確率とを蓄積する。

履歴蓄積部１１４は、過去に利用者によって選択された仮名漢字（単語、文節等）の学習履歴を蓄積する。

また、端末１は、通信インタフェースを介して、音声認識サーバ２へ接続する。そして、端末１は、マイク１２１によって取得された音声信号を、ネットワークを介して、音声認識サーバ２へ送信する。音声認識では、人が発声する単語の語彙数が膨大であって、大容量の言語モデルと高い処理負荷とを要する。そのために、音声認識エンジンを、音声認識サーバとして別途備えることは好ましい。

音声認識サーバは、音声認識エンジン１２２と、音響モデル蓄積部１２３と、言語モデル蓄積部１２４とを有する。音声認識エンジン１２２は、音響モデル蓄積部１２３及び言語モデル蓄積部１２４を用いて、受信された音声信号から複数候補の仮名漢字に変換する。複数候補の仮名漢字は、ネットワークを介して、端末１へ送信される。端末１の音声認識選択画面制御部１２５は、複数候補の仮名漢字から、利用者によって１つの仮名漢字を選択させる。

音響モデル蓄積部１２３は、音響モデルを蓄積する。音響モデルとは、音響特徴パラメータと音素との対応関係を蓄積する。音素とは、単語をローマ字で書いたときのアルファベットの単位にほぼ相当する。音響モデル蓄積部１２３は、音響特徴パラメータに対するその音素の確率を蓄積する。

言語モデル蓄積部１２４は、単語間の連接関係の確率を規定する。音声認識システムの言語モデル蓄積部１２４は、隣接するN個の単語間の連接関係の確率を利用するN-gramを採用する。これに対し、仮名漢字変換システムの言語モデル蓄積部１１３は、隣接する２個の単語間の連接関係の確率のみを利用する係り受け文法を採用する。そのために、音声認識システムの言語モデル蓄積部１２４は、仮名漢字システムの言語モデル蓄積部１１３よりも、リソースが膨大となる。勿論、端末１が、音声認識エンジン１２２と、音響モデル蓄積部１２３と、言語モデル蓄積部１２４とを更に含むものであってもよい。

尚、音声認識システムによって人の発声した音声信号を平仮名に変換し、次に、仮名漢字変換システムによってその平仮名を仮名漢字に変換する技術もある（例えば非特許文献１及び２参照）。

特開２０００−２８５１１２号公報特許第４０１２１４３号

音声認識エンジン「VORERO（VOice REcognition RObustR）」、旭化成、[online]、［平成２１年３月１９日検索］、インターネット＜URL:http://www.asahi-kasei.co.jp/vorero/jp/vorero/index.html＞日本語かな漢字変換システム「モバイルWnn」、オムロン、[online]、［平成２１年３月１９日検索］、インターネット＜URL:http://www.omronsoft.co.jp/SP/mobile/＞

前述した従来技術によれば、音声認識システムと仮名漢字変換システムとは別々に備えられ、互いに独立のリソースを用いている。音声認識システムにおける音響モデル及び言語モデルは、流行語のような全ての口語文字に対応する必要があり、そのリソースも膨大である。一方で、音声認識システムでは、仮名漢字変換システムに組み込まれた格文法、形態素解析及び格フレーム処理のような処理を実行しないため、仮名漢字変換における誤変換も生じやすい。

そこで、本発明は、音声認識に仮名漢字変換システムを用いることによって、システム全体の言語モデルのリソースを統合すると共に、音声認識の誤変換を削減することができる端末、方法及びプログラムを提供することを目的とする。

本発明によれば、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
音声信号から音素フレームを抽出する音響分析手段と、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、音響スコア算出手段、N-gramスコア算出手段、格文法スコア算出手段及び統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
を有し、音声認識機能を実現することを特徴とする。

本発明の端末における他の実施形態によれば、
過去に変換された仮名漢字を記憶する履歴蓄積手段と、
履歴蓄積手段を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出する履歴スコア算出手段と
を有し、
統合スコア算出手段は、更に、履歴スコアを統合スコアに算入することも好ましい。

本発明の端末における他の実施形態によれば、
キーを用いて利用者によって入力された平仮名系列を取得するキー操作手段を更に有し、
N-gramスコア算出手段、格文法スコア算出手段、統合スコア算出手段、探索制御手段及び格フレーム処理手段によって、仮名漢字変換機能を実現することも好ましい。

本発明の端末における他の実施形態によれば、
利用者に対して複数の変換候補の中から、いずれか１つの仮名漢字を選択させる候補選択画面制御手段を更に有し、
候補選択画面制御手段は、音声認識機能及び仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることも好ましい。

本発明によれば、端末における音声認識方法であって、
端末は、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積部と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積部と
を有し、
利用者によって発声された音声信号を、マイク部によって取得する第１のステップと、
音声信号から音素フレームを抽出する第２のステップと、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する第３のステップと、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する第４のステップと、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する第５のステップと、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する第６のステップと、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、第３から第６のステップを繰り返す第７のステップと、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する第８のステップと
を有し、音声認識機能を実現することを特徴とする。

本発明の音声認識方法における他の実施形態によれば、
端末は、過去に変換された仮名漢字を記憶する履歴蓄積部を更に有し、
履歴蓄積部を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出するステップを更に有し、
第６のステップは、更に、履歴スコアを統合スコアに算入することも好ましい。

本発明の音声認識方法における他の実施形態によれば、
端末は、キーを用いて利用者によって入力された平仮名系列を取得するキー操作部を更に有し、
第４のステップから第８のステップまでによって、仮名漢字変換機能を実現することも好ましい。

本発明の音声認識方法における他の実施形態によれば、
利用者に対して複数の変換候補の中から、いずれか１つの仮名漢字を選択させるステップを更に有することによって、音声認識機能及び仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることも好ましい。

本発明によれば、端末に搭載されたコンピュータを機能させる音声認識プログラムであって、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
音声信号から音素フレームを抽出する音響分析手段と、
音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、音響スコア、N-gramスコア及び格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、音響スコア算出手段、N-gramスコア算出手段、格文法スコア算出手段及び統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
してコンピュータを機能させることを特徴とする。

本発明の端末、方法及びプログラムによれば、音声認識に仮名漢字変換システムを用いることによって、システム全体の言語モデルのリソースを統合すると共に、音声認識の誤変換を削減することができる。

従来技術における仮名漢字変換機能及び音声認識機能を有するシステムである。仮名漢字変換システム及び音声認識システムの機能構成図である。本発明における端末の機能構成図である。本発明におけるフローチャートである。従来技術と本発明とを比較した、仮名漢字の予測変換シーケンスである。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図２は、仮名漢字変換システム及び音声認識システムの機能構成図である。

図２（ａ）によれば、仮名漢字変換システムのみの機能構成が表されている。仮名漢字変換エンジン１１２は、単語の連接毎に、仮名漢字候補の確率をスコア（点数付け）によって算出する。仮名漢字変換エンジン１１２は、係り受け文法スコア算出部１１２１と、格文法スコア算出部１１２２と、履歴スコア算出部１１２３と、統合スコア算出部１１２４と、形態素解析部１１２５と、格フレーム処理部１１２６とを含む。係り受け文法スコア算出部１１２１は、単語間の連接強度を、単語間の共起確率で表す。尚、仮名漢字変換システムによれば、キーによって入力されるために、文字の読み仮名は確定する。そのため、その読み仮名に対する複数の同音意義語を検出すればよい。

図２（ｂ）によれば、音声認識システムのみの機能構成が表されている。音声認識エンジン１２２は、音響分析部１２２１と、音響スコア算出部１２２２と、N-gramスコア算出部１２２３と、統合スコア算出部１２２４と、候補範囲制御部１２２５とを有する。仮名漢字変換システムの係り受け文法スコア算出部１１２１に対して、音声認識システムでは、隣接するＮ個の単語の連接関係の確率を算出するN-gramスコア算出部１２２３を用いる。N-gramは、隣接する２個の単語の連接関係の確率を表す「係り受け文法」を拡張したものである。尚、音声認識システムの場合、読み仮名自体が不確定となる。そのために、候補範囲制御部１２２５は、異なる読み仮名の各々に対応する仮名漢字を探索する必要がある。

本発明の音声認識システムによれば、統合スコアの算出に、仮名漢字変換システムの格文法スコア算出部１１２２及び履歴スコア算出部１１２３を更に含む。また、仮名漢字変換システムにおける形態素解析部１１２５及び格フレーム処理部１１２６と、音声認識システムにおける候補範囲制御部１２２５とを統合する。更に、本発明の仮名漢字変換システムによれば、係り受け文法スコアではなく、N-gramスコアが用いられる。

図３は、本発明における端末の機能構成図である。

図３によれば、端末１は、音響モデル蓄積部１２３と、言語モデル蓄積部１３３と、履歴蓄積部１１４と、音響分析部１２２１と、音響スコア算出部１２２２と、N-gramスコア算出部１２２３と、格文法スコア算出部１１２２と、履歴スコア算出部１１２３と、統合スコア算出部１３０と、探索制御部１３１と、格フレーム処理部１１２６と、候補選択画面制御部１３２とを更に有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。

N-gramスコア算出部１２２３は、候補となる読み仮名系列に対して、言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する。ここで、音声認識によれば、読み仮名が不確定であるために、異なる複数の読み仮名についてスコアを算出する必要がある。例えば、「こうつう」の後に「き・・」が連接する場合、「交通」の後に来る単語の変換候補としては「規制」「きれい」「季節」等の中で、「規制」が一番高いスコアとなる。

格文法スコア算出部１１２２は、候補となる読み仮名系列に対して、言語モデルが与える文節−文節間の連接強度に応じて格文法スコアを算出する。格文法解析とは、助詞に注目して、文章の構造（単文、重文、複文、主語、目的語、修飾語、述語、補語など）を解析する。例えば、「わたしはくににぜいきんがおさめられているのでおさめる」では、以下のように文章構造が判断される。
「わたしはくににぜいきんがおさめられているのでおさめる」
（主語）（述語）
主語目的語修飾語述語
文節「ぜいきんが」─文節「おさめられている」の連接強度は高く、且つ、文章構成のける重要度は低い。「ぜいきんがおさめられているので」を修飾語と判断し、「わたしは」「くにに」「おさめる」が、文章構成の重要度が高いと判断する。このように、従来の音声認識システムによれば言語モデルとしてN-gramしか考慮していないのに対し、自由度が高い文法の発声にも対応することができる。

言語モデル蓄積部１３３は、単語辞書及び言語モデルを蓄積する。特に、単語辞書における単語間の連接関係を、点数化（スコア化）して蓄積する。ここで、本発明における言語モデル蓄積部１３３は、N-gramの確率及び格文法の確率を有し、N-gramスコア算出部１２２３及び格文法スコア算出部１１２２に対応したものである。その点で、仮名漢字変換システム及び音声認識システムにおける既存の言語モデル蓄積部とは異なる。

履歴スコア算出部１１２３は、候補となる読み仮名系列に対して、履歴蓄積部１１４を用いて、過去に利用者によって選択された仮名漢字（単語、文節等）を、高いスコアに設定する。即ち、過去の学習結果を、言語スコアに反映させる。基本的に、その読み仮名で、直前に選択された仮名漢字を予測候補にする。また、その読み仮名に対して、過去に用いられた文章の内容に応じて仮名漢字を予測候補にする。

従来技術における音声認識システムによれば、利用者に応じて提示する候補を変更することはできない。これに対し、本発明によれば、利用者に応じて使用頻度の高い単語を特定することによって、予測変換精度を向上させることができる。また、仮名漢字変換機能と音声認識機能との間で、履歴情報が相互に共有される。

音響分析部１２２１は、マイク１２１から入力された音声信号を、音響特徴パラメータに変換する。その音響特徴パラメータは、音響スコア算出部１２２２へ出力される。音響特徴パラメータは、入力された音声信号を数十ｍｓｅｃの音素フレーム単位（音素フレーム）で分析したＬＰＣケプストラム又はＭＦＣＣのようなパラメータ系列である。

音響スコア算出部１２２２は、音響モデル蓄積部１２３を用いて、音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。

統合スコア算出部１３０は、候補となる読み仮名系列に対して、言語スコア（N-gramスコア、格文法スコア及び履歴スコア）と音響スコアとを統合して、最も高いスコアの単語列を、認識結果として出力する。入力された音声信号に対して、音響的な類似度と言語的な妥当性とをスコア化することができる。

探索制御部１３１は、形態素解析に基づいて探索候補を選別すると共に、統合スコアが最も高い仮名漢字列を探索するために、音響スコア算出部１２２２、N-gramスコア算出部１２２３、格文法スコア算出部１１２２、履歴スコア算出部１１２３及び統合スコア算出部１３０を繰り返す。

形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を形態素（Morpheme、言語で意味を持つ最小単位）の列に分割する。例えば、文「きのうわたしはしっていた。」に対して、多数の単語に区切ることができる。区切り方によっては、意味が通じない単語となる。
・き/のう/わ/たし/は/しっ/て/いた
・きのう/わたし/は/しっ/て/いた
・きのう/わたし/はしっ/て/いた

次に、探索制御部１３１は、最適な文節に区切るべく、スコアが高いＮ個の候補を選別する。スコアを用いることによって、仮名漢字の出現頻度だけでなく、単語又は文節の連接強度によって、Ｎ個の候補が選別される。
Σ^M _m=1α_mΣ^Nm _n=1Ｐ_m(ｘ_mn)
Ｍ：単語数
ｗ_m：ｍ番目の単語
α_m：単語ｗ_mの言語スコア
Ｎ_m：単語ｗ_mに含まれる音素フレーム数
ｘ_mn：単語ｗ_mに含まれるｎ番目の音素フレーム
Ｐ_m(ｘ_mn)：音素フレームの単語ｗ_mの音響モデルの音響スコア

従来技術における音声認識システムでは、候補となる読み仮名系列の中から、音響スコア及びN-gramスコアが上位となる読み仮名に絞り込んでいる。これに対し、本発明によれば、形態素解析によって文構造の正しい候補を選別した上で、スコアが上位となる読み仮名に絞り込んでいる。これによって、予測精度も向上する。

格フレーム処理部１１２６は、文の格構造によって変換候補を選択する。格フレームとは、動詞に、「どんな助詞（で、に、を、から、より、・・・）と一緒に使われるのか」という情報を持たせることを意味する。入力された読みと一致する格フレームを持つ単語を、変換候補の第１候補にする。例えば、「私はドレスを着る。」「私はナイフでドレスを切る。」のように、「着る」と「切る」の同音異義語を区別することができる。

従来技術における音声認識システムでは、N-gramの性質上、隣接しない単語同士の同音異義語を正しい候補に変換することが難しい。これに対し、本発明によれば、格フレーム処理によって、文の格構造を概念的に認識し、名詞の後の助詞に基づいて「どの単語に係るか」を解析する。これによって、文節（格構造）が隣接しない（特に離れている）場合であっても、同音異義語の中から適切な候補を選択することができる。

候補選択画面制御部１３２は、利用者に対して複数の変換候補の中から、いずれか１つの仮名漢字を選択させる。これにより、利用者は、音声認識機能及び仮名漢字変換機能を、同一の候補選択画面として視認することができる。

図４は、本発明におけるフローチャートである。

（Ｓ４０１）マイクを用いて、利用者によって発声された音声信号を取得する。
（Ｓ４０２）音響分析によって、音声信号から音素フレームを抽出する。
（Ｓ４０３）以下、Ｓ４０８までを繰り返す。
（Ｓ４０４）音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。
（Ｓ４０５）候補となる読み仮名系列に対して、言語モデルを用いて、単語間の連接強度に応じてN-gramスコアを算出する。
（Ｓ４０６）候補となる読み仮名系列に対して、言語モデルを用いて、文節−文節間の連接強度に応じて格文法スコアを算出する。
（Ｓ４０７）候補となる読み仮名系列に対して、履歴情報を用いて、過去の学習履歴に応じて履歴スコアを算出する。
（Ｓ４０８）候補となる読み仮名系列に対して、音響スコア及び言語スコア（N-gramスコア、格文法スコア及び履歴スコア）に基づく統合スコアを算出する。
（Ｓ４０９）形態素解析に基づいて複数候補の仮名漢字を選別すると共に、統合スコアが最も高い仮名漢字を探索するために、Ｓ４０３からＳ４０８までを繰り返す。
（Ｓ４１０）探索された仮名漢字を含む文章の格構造によって変換候補を選択する。
（Ｓ４１１）利用者に対して複数の変換候補の中から、いずれか１つの仮名漢字を選択させる。利用者から見て、音声認識機能及び仮名漢字変換機能は、同一の候補選択画面として視認される。

図５は、従来技術と本発明とを比較した、仮名漢字の予測変換シーケンスである。

図５によれば、従来技術における音声認識の場合、音響スコア及びN-gramスコアによって探索を繰り返すために、隣接する単語に影響されやすく、誤変換されやすい。

これに対し、本発明における音声認識の場合、格文法スコア及び履歴スコアを統合スコアに更に含めて探索を繰り返すことによって、最適な形態素に区分される。更に、格フレーム処理によって文章の格構造が判断され、最終的に、最適な仮名漢字に変換される。

以上、詳細に説明したように、本発明の端末、方法及びプログラムによれば、音声認識に仮名漢字変換システムを用いることによって、システム全体の言語モデルのリソースを統合すると共に、音声認識の誤変換を削減することができる。

本発明によれば、音声認識における誤認識を、仮名漢字変換システムにおける言語スコア計算部によって補うことによって、音声認識における認識精度を向上させる。また、言語モデルを統合することによって、当該端末が備えるべきリソースを削減させ、携帯端末への組込みを可能とする。音声認識システムと仮名漢字変換システムとにおける予測候補の選択画面が共通化されるので、利用者から見て理解を容易にする。更に、仮名漢字変換システムで利用者によって選択された仮名漢字は、音声認識システムでも同様に、高いスコアで算出される。逆に、音声認識システムで利用者によって選択された仮名漢字は、仮名漢字変換システムでも同様に、高いスコアで算出される。即ち、利用者から見て、両システムともに、同様の仮名漢字変換が実行される。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１端末
１００ディスプレイ
１１１キー操作部
１１２仮名漢字変換エンジン
１１２１係り受け文法スコア算出部
１１２２格文法スコア算出部
１１２３履歴スコア算出部
１１２４統合スコア算出部
１１２５形態素解析部
１１２６格フレーム処理部
１１３言語モデル蓄積部
１１４履歴蓄積部
１１５仮名漢字選択画面制御部
１２１マイク
１２２音声認識エンジン
１２２１音響分析部
１２２２音響スコア算出部
１２２３ N-gramスコア算出部
１２２４統合スコア算出部
１２２５候補範囲制御部
１２３音響モデル蓄積部
１２４言語モデル蓄積部
１２５音声認識選択画面制御部
１３０統合スコア算出部
１３１探索制御部
１３２候補選択画面制御部
１３３言語モデル蓄積部

Claims

音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
前記音声信号から音素フレームを抽出する音響分析手段と、
前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、前記音響スコア算出手段、前記N-gramスコア算出手段、前記格文法スコア算出手段及び前記統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
を有し、音声認識機能を実現することを特徴とする端末。
過去に変換された仮名漢字を記憶する履歴蓄積手段と、
前記履歴蓄積手段を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出する履歴スコア算出手段と
を有し、
前記統合スコア算出手段は、更に、前記履歴スコアを前記統合スコアに算入することを特徴とする請求項１に記載の端末。
キーを用いて前記利用者によって入力された平仮名系列を取得するキー操作手段を更に有し、
前記N-gramスコア算出手段、前記格文法スコア算出手段、前記統合スコア算出手段、前記探索制御手段及び前記格フレーム処理手段によって、仮名漢字変換機能を実現することを特徴とする請求項１又は２に記載の端末。
前記利用者に対して複数の変換候補の中から、いずれか１つの仮名漢字を選択させる候補選択画面制御手段を更に有し、
候補選択画面制御手段は、前記音声認識機能及び前記仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることを特徴とする請求項３に記載の端末。
端末における音声認識方法であって、
前記端末は、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積部と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積部と
を有し、
利用者によって発声された音声信号を、マイク部によって取得する第１のステップと、
前記音声信号から音素フレームを抽出する第２のステップと、
前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する第３のステップと、
候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出する第４のステップと、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する第５のステップと、
候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する第６のステップと、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、第３から第６のステップを繰り返す第７のステップと、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する第８のステップと
を有し、音声認識機能を実現することを特徴とする音声認識方法。
前記端末は、過去に変換された仮名漢字を記憶する履歴蓄積部を更に有し、
前記履歴蓄積部を用いて、候補となる読み仮名系列に対して、過去の学習履歴に応じて履歴スコアを算出するステップを更に有し、
第６のステップは、更に、前記履歴スコアを前記統合スコアに算入することを特徴とする請求項５に記載の音声認識方法。
前記端末は、キーを用いて前記利用者によって入力された平仮名系列を取得するキー操作部を更に有し、
第４のステップから第８のステップまでによって、仮名漢字変換機能を実現することを特徴とする請求項５又は６に記載の音声認識方法。
前記利用者に対して複数の変換候補の中から、いずれか１つの仮名漢字を選択させるステップを更に有することによって、前記音声認識機能及び前記仮名漢字変換機能を、利用者に対して同一の候補選択画面を視認させることを特徴とする請求項７に記載の音声認識方法。
端末に搭載されたコンピュータを機能させる音声認識プログラムであって、
音声認識で用いられる音響モデルを蓄積する音響モデル蓄積手段と、
単語辞書と、N-gram及び格文法に対応した言語モデルとを蓄積する言語モデル蓄積手段と、
利用者によって発声された音声信号を取得するマイク手段と、
前記音声信号から音素フレームを抽出する音響分析手段と、
前記音素フレームに対する複数候補の読み仮名毎に、前記音響モデルが与える音響スコアを算出する音響スコア算出手段と、
候補となる読み仮名系列に対して、前記言語モデルが与える単語間の連接強度に応じてN-gramスコアを算出するN-gramスコア算出手段と、
候補となる読み仮名系列に対して、文節−文節間の連接強度に応じて格文法スコアを算出する格文法スコア算出手段と、
候補となる読み仮名系列に対して、前記音響スコア、前記N-gramスコア及び前記格文法スコアに基づく統合スコアを算出する統合スコア算出手段と、
形態素解析に基づいて複数候補の仮名漢字を選別すると共に、前記統合スコアが最も高い仮名漢字を探索するために、前記音響スコア算出手段、前記N-gramスコア算出手段、前記格文法スコア算出手段及び前記統合スコア算出手段を繰り返す探索制御手段と、
探索された仮名漢字を含む文章の格構造によって変換候補を選択する格フレーム処理手段と
してコンピュータを機能させることを特徴とする音声認識プログラム。