JP7495220B2

JP7495220B2 - 音声認識装置、音声認識方法、および、音声認識プログラム

Info

Publication number: JP7495220B2
Application number: JP2019207512A
Authority: JP
Inventors: 光洋高波
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2024-06-04
Anticipated expiration: 2039-11-15
Also published as: JP2021081527A

Description

本発明は、音声認識装置、音声認識方法、および、音声認識プログラムに関する。

技術革新の進歩により、入力された音声をテキストに変換する技術等の精度も向上し、コミュニケーション手段の拡張性が高まっている。

特表２０１２－５１００８８号公報特開２０１９－６０９２１号公報特開２０１２－００３１６２号公報

しかし、音声入力については、入力する際の環境への依存度が高く、必要なコミュニケーションに支障をきたす場合がある。例えば、１．公共の場所等、ユーザが大きな声を出せない環境下での音声入力、２．風邪等の体調不良時や聞き取りにくい声質のユーザによる音声入力、３．幹線道路、イベント会場等、周囲の音が大きい場所での音声入力、４．発声障がい等を持つユーザによる音声入力等が行われると、入力された音声を精度よく認識できない場合がある。その結果、高度なコミュニケーションツールを活用できないケースが存在する。

そこで、本発明は、前記した問題を解決し、音声の認識精度を向上させることを課題とする。

前記した課題を解決するため、本発明は、ユーザがささやき声で発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得する第１の取得部と、前記第１の取得部により取得された発話情報と当該発話情報の示す発話内容とを用いた学習により作成されたモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力する出力部と、を備えることを特徴とする。

本発明によれば、音声の認識精度を向上させることができる。

図１は、読話装置を含むシステムの構成例を示す図である。図２は、システムの概要を説明する図である。図３は、読話装置の構成例を示す図である。図４は、端末装置の構成例を示す図である。図５は、読話装置の処理手順の例を示すフローチャートである。図６は、システムの処理手順の例を示すシーケンス図である。図７は、音声認識プログラムを実行するコンピュータの例を示す図である。

以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、以下に説明する実施形態に限定されない。

図１および図２を用いて本実施形態の読話装置（音声認識装置）１０を含むシステムの概要を説明する。システムは、例えば、図１に示すように、読話装置１０とユーザの端末装置２０とを備える。読話装置１０は、端末装置２０から取得した、ユーザがささやき声で発話するときの口の動きと音声とに基づき、ユーザがどのような発話をしたかを認識する。そして、読話装置１０は、その認識結果（例えば、テキスト情報）を端末装置２０へ送信する。なお、以下の説明において、ささやき声とは、ユーザが声帯を振動させずに発した音声（無声音）であるものとする。

端末装置２０は、携帯電話機や、スマートフォン、タブレット端末、パーソナルコンピュータ等である。端末装置２０と読話装置１０とは、インターネット等のネットワークを介して通信可能に接続される。なお、システムに設置される端末装置２０および読話装置１０の数は、図２に示す数に限定されない。

次に、図２を用いてシステムの概要を説明する。例えば、まず、端末装置２０は、カメラ等によりユーザがささやき声で発話するときの口の輪郭の各座標間の変化を取得し、また、マイク等によりささやき声の音声波形を取得する。次に、端末装置２０は、例えば、取得した口の輪郭の変化を示す情報（読話情報）と、ささやき声の音声波形を示す情報（音声情報）とを多重化した多重化デジタル信号を作成し、読話装置１０へ送信する。読話装置１０は、端末装置２０から送信された多重化デジタル信号に基づき、ユーザの発話内容を識別する。これにより、読話装置１０は、読話情報のみ、あるいは音声情報のみではユーザの発話内容が識別（認識）できないような場合であっても、ユーザの発話内容を識別しやすくすることができる。例えば、読話装置１０は、上記の音声情報を用いることにより、読話情報のみでは識別が困難である、発話における子音、単語、文節等の区切りを識別できる。その結果、読話装置１０は、ユーザの発話内容の識別精度を向上させることができる。

また、読話装置１０は、ユーザがささやき声で発話するときの読話情報および音声情報の学習を行い、その学習結果を用いて、ユーザの発話内容を識別する。これにより、ユーザの発話内容の識別精度をさらに向上させることができる。例えば、読話情報と音声情報との組み合わせによってもユーザの発話内容が識別できないような場合であっても、上記の学習結果を用いることで、ユーザの発話内容を識別しやすくすることができる。

［読話装置］
次に、図３を用いて、読話装置１０の構成例を説明する。図３に示すように、読話装置１０は、通信部１１と、記憶部１２と、制御部１３とを有する。

通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１は、ネットワークと有線または無線で接続され、端末装置２０との間で情報の送受信を行う。

記憶部１２は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２は、制御部１３が各種処理を行う際に参照する情報や、各種処理により作成された情報を記憶する。例えば、記憶部１２は、学習部１３４により学習（作成）されたモデルを記憶する。このモデルは、端末装置２０のユーザごとに作成される。モデルの詳細については後記する。

制御部１３は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、読話装置１０内部の記憶装置に記憶されている各種プログラム（音声認識プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。

制御部１３は、読話処理部１３１と、音声テキスト変換部（テキスト変換部）１３２とを備える。

読話処理部１３１は、ユーザの発話時におけるユーザの口の動きを示す情報および当該ユーザのささやき声の音声情報（これらの情報をまとめて、「発話情報」と呼ぶ）に基づき、当該ユーザの発話内容を認識する。例えば、読話処理部１３１は、ユーザの発話情報に基づき当該ユーザの発話内容を示す音声データを生成する。そして、読話処理部１３１は、生成した音声データを音声テキスト変換部１３２へ出力する。音声テキスト変換部１３２は、読話処理部１３１から出力された音声データをテキスト情報に変換する。

読話処理部１３１について詳細に説明する。読話処理部１３１は、発話情報取得部（第１の取得部）１３３と、学習部１３４と、出力処理部（出力部）１３５と、修正情報取得部（第２の取得部）１３６とを備える。

発話情報取得部１３３は、端末装置２０からユーザの発話情報を取得する。例えば、発話情報取得部１３３は、端末装置２０からユーザが初回設定用のテキストを発話したときの発話情報や、認識の対象となるユーザの発話情報を取得する。

学習部１３４は、発話情報取得部１３３により取得されたユーザの発話情報と、当該発話情報の示す発話内容とを用いた学習を行う。例えば、学習部１３４は、ユーザの発話情報と当該発話情報の示す発話内容とを学習し、当該ユーザの発話情報の示す発話内容の認識結果を出力するためのモデルを作成する。

一例を挙げる。例えば、学習部１３４は、まず、発話情報取得部１３３からユーザが初回設定用のテキストを読み上げたときの発話情報と、当該初回設定用のテキストの内容とを対応付けた情報をモデルの初期情報として登録する。

その後、修正情報取得部１３６（後記）が、端末装置２０から初期情報の登録後のモデルを用いた発話内容の認識結果に関する修正情報を受信した場合、学習部１３４はその修正情報に基づき当該ユーザのモデルを修正する。また、修正情報取得部１３６が、端末装置２０から、上記の修正後のユーザのモデルを用いた発話内容の認識結果に関する修正情報を受信した場合、学習部１３４はその修正情報に基づき当該ユーザのモデルを修正する。このような処理を繰り返すことにより、学習部１３４は、ユーザの発話内容を精度よく認識可能なモデルを作成することができる。

なお、学習部１３４が、ユーザの発話情報に基づく学習を行う際、着目している語の前後の語および音声を用いて同音異義語を学習する。例えば、「ツール」、「ルーツ」、「クール」という語を発音するときのユーザの口の動きはほぼ同じである。よって、例えば、学習部１３４は、以下の文における「ツール」、「ルーツ」、「クール」という語の前後の言葉および音声を用いて同音異義語を学習する。

・日本人が発明するツールは優れもの
・日本人のルーツは縄文人と弥生人
・日本人の使うものはどれもクールだ

このようにすることで学習部１３４は、ユーザが発話する語のうち同音異義語についても精度よく認識可能なモデルを作成することができる。

出力処理部１３５は、認識の対象となるユーザの発話情報を入力として、学習部１３４による学習結果（例えば、上記のモデル）を用いて当該ユーザの発話情報の示す発話内容の認識結果を出力する。例えば、出力処理部１３５は、認識の対象となるユーザの発話情報を入力として、上記のモデルを用いて当該ユーザの発話内容を示す音声データを生成し、音声テキスト変換部１３２へ出力する。その後、出力処理部１３５は、音声テキスト変換部１３２から当該音声データのテキスト情報を受け取ると、当該テキスト情報を当該ユーザの端末装置２０へ送信する。

修正情報取得部１３６は、端末装置２０から、ユーザの発話内容の認識結果に関する修正情報を取得する。例えば、修正情報取得部１３６は、端末装置２０から、ユーザの発話内容を示すテキストデータに関する修正情報を受信する。そして、修正情報取得部１３６は、当該修正情報を学習部１３４へ出力する。

［端末装置］
次に、図４を用いて、端末装置２０の構成例を説明する。図４に示すように、端末装置２０は、通信部２１と、記憶部２２と、マイク２３と、カメラ２４と、入力部２５と、出力部２６と、制御部２７とを有する。

通信部２１は、ネットワークに通信可能に接続された読話装置１０との間で通信するＮＩＣなどのインターフェイスである。

記憶部２２は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

マイク２３は、音声を取得する。例えば、マイク２３は、ユーザのささやき声で発話する際の音声を取得する。カメラ２４は、画像（動画または静止画）を撮影する。例えば、カメラ２４は、ユーザがささやき声で発話する際の口の動きの画像を撮影する。

入力部２５は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部２５は、キーボードやマウスや操作キー等によって実現される。出力部２６は、各種情報を表示するための表示装置である。例えば、出力部２６は、液晶ディスプレイ等によって実現される。なお、端末装置２０にタッチパネルが採用された場合には、入力部２５と出力部２６とは一体化される。

制御部２７は、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、端末装置２０内部の記憶装置に記憶されている各種プログラム（読話プログラム）がＲＡＭを作業領域として実行されることにより実現される。

制御部２７は、発話受付部２７１と、発話情報送信部２７２と、テキスト受信部２７３と、表示部２７４と、修正情報送信部２７５とを有する。

発話受付部２７１は、カメラ２４により発話時におけるユーザの口の動きを示す情報を取得し、また、マイク２３により発話時におけるユーザの音声情報を取得する。

発話情報送信部２７２は、発話受付部２７１により取得された、発話時におけるユーザの口の動きを示す情報および当該ユーザの音声情報を含む発話情報を作成し、読話装置１０へ送信する。例えば、発話情報送信部２７２は、発話受付部２７１により取得された、発話時におけるユーザの口の動きを示す情報および当該ユーザの音声情報をデジタル信号に変換し、当該デジタル信号を発話情報として読話装置１０へ送信する。

テキスト受信部２７３は、読話装置１０から、ユーザの発話内容を示すテキスト情報を受信する。表示部２７４は、種々の情報を出力部２６に表示する。例えば、表示部２７４は、初回設定用のテキスト情報を出力部２６に表示したり、テキスト受信部２７３が受信したテキスト情報を出力部２６に表示したりする。

例えば、端末装置２０の読話プログラムが起動されると、表示部２７４は、ユーザに初回設定用のテキスト情報をささやき声で読み上げるよう促すメッセージを出力部２６に表示する。そして、ユーザが当該テキスト情報をささやき声で読み上げると、発話受付部２７１は、カメラ２４により読み上げ時におけるユーザの口の動きを示す情報を取得し、また、マイク２３により読み上げ時における音声情報を取得する。そして、発話情報送信部２７２は、発話受付部２７１により取得された、初回設定用のテキストの読み上げ時におけるユーザの口の動きを示す情報および音声情報を含む発話情報を作成し、読話装置１０へ送信する。

修正情報送信部２７５は、読話装置１０から受信したテキスト情報の修正情報を読話装置１０へ送信する。例えば、表示部２７４が、読話装置１０から受信したテキスト情報を出力部２６に表示した後、入力部２５から当該テキスト情報の修正情報を受け付けた場合、修正情報送信部２７５は当該修正情報を読話装置１０へ送信する。

［処理手順］
次に、図５を用いて、読話装置１０の処理手順の例を説明する。

なお、図５において説明を省略しているが、読話装置１０は、例えば、端末装置２０に対しユーザ認証等を行うことにより、アクセス元の端末装置２０がどのユーザの端末装置２０かを識別するものとする。これにより、読話装置１０は、ユーザごとにモデルを管理することができる。

まず、読話装置１０の発話情報取得部１３３は、端末装置２０から初回設定用のユーザの発話情報を取得する（Ｓ１）。例えば、発話情報取得部１３３は、ユーザが初回設定用のテキストをささやき声で読み上げたときの発話情報を取得する。そして、学習部１３４は、Ｓ１で取得した初回設定用のユーザの発話情報をモデルの初期情報として登録する（Ｓ２：初回設定用のユーザの発話情報の登録）。例えば、学習部１３４は、ユーザが初回設定用のテキストをささやき声で読み上げたときの発話情報と、初回設定用のテキストの内容とを対応付けた情報をモデルの初期情報として登録する。

Ｓ２の後、読話装置１０の発話情報取得部１３３が、端末装置２０から発話内容の認識の対象となるユーザの発話情報を取得すると（Ｓ３）、出力処理部１３５は当該ユーザのモデルを用いて当該発話情報の示す発話内容の認識結果を出力する（Ｓ４）。例えば、出力処理部１３５は、端末装置２０から発話内容の認識の対象となるユーザの発話情報を取得すると、当該ユーザのモデルを用いて当該発話情報の示す発話内容を示す音声データを生成する。そして、出力処理部１３５は、生成した音声データを音声テキスト変換部１３２へ出力する。その後、出力処理部１３５は、音声テキスト変換部１３２から当該音声データのテキスト情報を受け取る。そして、出力処理部１３５は、受け取ったテキスト情報を当該ユーザの端末装置２０へ送信する。

その後、修正情報取得部１３６が、当該ユーザの端末装置２０から、Ｓ４で出力した認識結果の修正情報を取得した場合（Ｓ５でＹｅｓ）、学習部１３４は、当該修正情報に基づき、当該ユーザのモデルの修正を行い（Ｓ６）、Ｓ３へ戻る。一方、修正情報取得部１３６が、当該ユーザの端末装置２０から、Ｓ４で出力した認識結果の修正情報を取得しなかった場合（Ｓ５でＮｏ）、Ｓ３へ戻る。

読話装置１０が上記のＳ３～Ｓ６の処理を繰り返すことにより、ユーザがささやき声で発話するときに口の動きおよび音声の特徴を学習することができる。その結果、読話装置１０は、ユーザのささやき声による発話の発話内容を精度よく認識することができる。

［処理手順の例］
次に、図６を用いて、読話装置１０を含むシステムの処理手順の例を説明する。処理手順は、例えば、（１）初期情報登録、（２）音声認識サービス利用、（３）認識結果の活用のフェーズに分けられる。

（１）初期情報登録
例えば、端末装置２０の読話アプリケーションが起動されると、端末装置２０は初回設定用のテキスト文を出力部２６に表示する。そして、端末装置２０のユーザは、当該端末装置２０に向かって初回設定用のテキスト文をささやき声で読み上げる（Ｓ１１）。このとき発話受付部２７１は、カメラ２４により初回設定用のテキスト文の読み上げ時におけるユーザの口の動きを示す情報を取得し、また、マイク２３により初回設定用のテキスト文の読み上げ時におけるユーザの音声情報を取得する。その後、発話情報送信部２７２は、取得した口の動きを示す情報および音声情報をデジタル信号に変換して、読話装置１０へ送信する（Ｓ１２）。

Ｓ１２の後、読話装置１０の発話情報取得部１３３が、端末装置２０からデジタル信号を受信すると、学習部１３４は、受信したデジタル信号を初回設定用のテキストと照合し、モデルに登録する（Ｓ１３）。つまり、学習部１３４は、ユーザの発話の初期情報をモエルに登録する。

（２）音声認識サービス利用
次に、ユーザは端末装置２０に向けてささやき声で発話を行う（Ｓ２１）。そして、発話受付部２７１は、カメラ２４により当該発話におけるユーザの口の動きを示す情報を取得し、また、マイク２３により当該発話におけるユーザの音声情報を取得する。その後、発話情報送信部２７２は、取得した口の動きを示す情報および音声情報をデジタル信号に変換して、読話装置１０へ送信する（Ｓ２２）。

Ｓ２２の後、読話装置１０の発話情報取得部１３３が、ユーザの端末装置２０から上記のデジタル信号を受信すると、出力処理部１３５は、当該ユーザの初期情報が登録されたモデルを用いて、受信したデジタル信号を音声信号に変換し、音声テキスト変換部１３２へ出力する（Ｓ２３）。そして、音声テキスト変換部１３２は、出力された音声信号をテキスト情報に変換し、出力処理部１３５へ出力する（Ｓ２４：音声→テキスト変換）。出力処理部１３５は、Ｓ２４で変換されたテキスト情報を当該ユーザの端末装置２０へ送信する（Ｓ２５）。

Ｓ２５の後、端末装置２０のテキスト受信部２７３が、読話装置１０からテキスト情報を受信すると、表示部２７４は、受信したテキスト情報を出力部２６に表示する（Ｓ２６：テキスト表示）。次に、ユーザは、端末装置２０に表示されたテキスト情報を確認し（Ｓ２７）、当該テキスト情報に修正が必要な部分があれば、入力部２５等によりテキスト情報の修正情報を入力する。そして、修正情報送信部２７５は、入力されたテキスト情報の修正情報を読話装置１０へ送信する（Ｓ２８：テキスト修正）。その後、読話装置１０の修正情報取得部１３６が、ユーザの端末装置２０からテキスト情報の修正情報を受信すると、学習部１３４は当該修正情報を用いて、当該ユーザのモデルの修正を行う（Ｓ２９：修正情報を用いたモデルの修正）。

なお、ここでは説明を省略しているが、Ｓ２９の後、システムが再度当該ユーザの発話を受け付けた場合、読話装置１０は、修正後の当該ユーザのモデルに基づき、再度Ｓ２３以降の処理を実行する。上記の処理を繰り返すことで、読話装置１０は、ユーザにカスタマイズされた精度の高い変換を実現するモデルを作成することができる。

なお、Ｓ２７においてユーザが端末装置２０に表示されたテキスト情報を確認し、修正の必要な部分がなければ、修正の必要がない旨を端末装置２０に入力してもよい。その場合、端末装置２０は、当該テキスト情報に修正の必要がない旨の情報を読話装置１０へ送信する。

（３）認識結果の活用
また、端末装置２０は、読話装置１０から受信したテキスト情報（発話内容の認識結果）を他のアプリケーションやサービスに活用してもよい。例えば、端末装置２０は、受信したテキスト情報を用いてメール、チャット等のコミュニケーションアプリへのテキスト連携を行ってもよい。

［その他］
また、上記の実施形態において読話装置１０は、ユーザの発話内容をテキスト情報に変換したものを端末装置２０へ送信することとしたが、これに限定されない。例えば、読話装置１０はユーザの発話内容を示す音声データを端末装置２０へ送信してもよい。

また、上記の実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、読話装置１０の機能を端末装置２０に装備してもよい。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

［プログラム］
また、上記の実施形態で述べた読話装置１０の機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を読話装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）等がその範疇に含まれる。また、読話装置１０を、クラウドサーバに実装してもよい。

図７を用いて、上記のプログラム（音声認識プログラム）を実行するコンピュータの一例を説明する。図７に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図７に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記の音声認識プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０読話装置
１１，２１通信部
１２，２２記憶部
１３，２７制御部
２０端末装置
２３マイク
２４カメラ
２５入力部
２６出力部
１３１読話処理部
１３２音声テキスト変換部
１３３発話情報取得部
１３４学習部
１３５出力処理部
１３６修正情報取得部
２７１発話受付部
２７２発話情報送信部
２７３テキスト受信部
２７４表示部
２７５修正情報送信部

Claims

ユーザに所定の発話内容をささやき声で発話するよう促すメッセージを出力する第１の出力部と
前記ユーザがささやき声で前記所定の発話内容を発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得する第１の取得部と、
前記第１の取得部により取得された発話情報と当該発話情報の示す発話内容とを用いた学習により、前記発話情報の示す発話内容の認識結果を出力するモデルを作成する学習部と
前記作成されたモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力する第２の出力部と、を備え、
前記学習部は、前記所定の発話内容に同音異義語が含まれる場合には、前記発話情報と前記発話内容とを用いた学習の際に、前記同音異義語の前後の言葉と音声情報とを用いた、前記所定の発話内容に含まれる前記同音異義語の学習により、前記モデルを作成する
ことを特徴とする音声認識装置。
前記発話内容の認識結果をテキスト情報に変換するテキスト変換部をさらに備え、
前記第２の出力部は、
前記テキスト変換部により変換された前記発話内容の認識結果のテキスト情報を出力する
ことを特徴とする請求項１に記載の音声認識装置。
前記発話内容の認識結果は、
前記発話内容の音声データであり、
前記テキスト変換部は、
前記発話内容の音声データをテキスト情報に変換する
ことを特徴とする請求項２に記載の音声認識装置。
前記音声認識装置は、
前記ユーザにより入力された、前記発話内容の認識結果のテキスト情報の修正情報を取得する第２の取得部をさらに備え、
前記学習部は、
前記第２の取得部により取得された、前記発話内容の認識結果のテキスト情報の修正情報を用いて前記モデルを修正する
ことを特徴とする請求項２に記載の音声認識装置。
音声認識装置により実行される音声認識方法であって、
ユーザに所定の発話内容をささやき声で発話するよう促すメッセージを出力するステップと、
前記ユーザがささやき声で前記所定の発話内容を発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得するステップと、
前記取得した発話情報と当該発話情報の示す発話内容とを用いた学習により、前記発話情報の示す発話内容の認識結果を出力するモデルを作成するステップと、
前記作成したモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力するステップと、を含み、
前記作成するステップは、前記所定の発話内容に同音異義語が含まれる場合には、前記発話情報と前記発話内容とを用いた学習の際に、前記同音異義語の前後の言葉と音声情報とを用いた、前記所定の発話内容に含まれる前記同音異義語の学習により、前記モデルを作成する
ことを特徴とする音声認識方法。
ユーザに所定の発話内容をささやき声で発話するよう促すメッセージを出力するステップと、
前記ユーザがささやき声で前記所定の発話内容を発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得するステップと、
前記取得した発話情報と当該発話情報の示す発話内容とを用いた学習により、前記発話情報の示す発話内容の認識結果を出力するモデルを作成するステップと、
前記作成したモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力するステップと、をコンピュータに実行させ、
前記作成するステップは、前記所定の発話内容に同音異義語が含まれる場合には、前記発話情報と前記発話内容とを用いた学習の際に、前記同音異義語の前後の言葉と音声情報とを用いた、前記所定の発話内容に含まれる前記同音異義語の学習により、前記モデルを作成する
ことを特徴とする音声認識プログラム。