JP7107228B2

JP7107228B2 - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: JP7107228B2
Application number: JP2018563262A
Authority: JP
Inventors: 真一河野; 祐平滝
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-01-18
Filing date: 2018-01-04
Publication date: 2022-07-27
Anticipated expiration: 2038-01-04
Also published as: WO2018135302A1; JPWO2018135302A1; US11107469B2; EP3573052A1; US20190378507A1; EP3573052A4

Description

本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より利便性の高い音声認識サービスを提供することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。

近年、音声入力を利用したユーザインタフェースの活用が広まっており、より良好な音声入力を可能とするような音声認識処理を実現することが重要となっている。

例えば、特許文献１には、文章内の前後文脈に基づいた言語モデルに基づいて、音声認識された文章に含まれている単語を置き換えることにより、音声認識結果として得られた文章の正確度を向上させる技術が開示されている。

特開２０１６－１１００８７号公報

しかしながら、上述の特許文献１で開示されている技術では、過去の学習結果などに依存して単語の置き換えが行われているため、適切な学習が行われていない場合には、単語の置き換えを期待通りに行うことは困難であった。そのため、音声認識結果として得られた文章の正確度を向上させるのに寄与することができない結果、音声認識サービスとしての利便性が低くなってしまっていた。

本開示は、このような状況に鑑みてなされたものであり、より利便性の高い音声認識サービスを提供することができるようにするものである。

本開示の一側面の情報処理装置は、ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と、前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部とを備え、前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する。

本開示の一側面の情報処理方法またはプログラムは、ユーザの発話に基づく音声情報に対する音声認識を行い、音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示し、前記修正箇所の推定に必要となる前記照合情報を取得するステップを含み、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する。

本開示の一側面においては、ユーザの発話に基づく音声情報に対する音声認識が行われ、音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、文章に対して修正が必要となる修正箇所が推定される。そして、音声認識結果として得られた文章が、推定された修正箇所とともにユーザに提示され、修正箇所の推定に必要となる照合情報が取得される。そして、ユーザの視線の先にある物体を認識した物体認識情報が、照合情報として取得され、文章の内容と物体認識情報とを照合することにより修正箇所が推定される。

本開示の一側面によれば、より利便性の高い音声認識サービスを提供することができる。

本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。クライアント端末の構成例を示すブロック図である。音声認識サーバの構成例を示すブロック図である。行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第１の例を示す図である。行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第２の例を示す図である。天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第１の例を示す図である。天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第２の例を示す図である。ユーザの視線の先にある物体の認識について説明する図である。物体認識情報に基づいて推定された修正箇所を提示するユーザインタフェースの例を示す図である。音声認識処理の一例について説明する図である。音声認識結果に対して編集を行うユーザインタフェースの一例を示す図である。編集対応処理について説明する図である。編集を反映した音声認識結果の表示を説明する図である。再発話の音声情報を接続する箇所の前に、特定の音声情報を追加する例を説明する図である。音声認識結果に対して編集を行うユーザインタフェースの一例を示す図である。編集用の音声認識向けの音声情報の生成に参照するデータベースの一例を示す図である。発話以外の音情報を用いた編集用の音声認識向けの音声情報の例を説明する図である。ユーザの再発話に基づいた様々な編集を行う事例を説明する図である。クライアント端末において実行される処理を説明するフローチャートである。音声認識サーバにおいて実行される処理を説明するフローチャートである。編集対応処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

＜音声認識システムの構成例＞

図１は、本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。

図１に示すように、音声認識システム１１は、インターネットなどのネットワーク１２を介して、複数台（図１の例ではＮ台）のクライアント端末１３－１乃至１３－Ｎおよび音声認識サーバ１４が接続されて構成される。なお、クライアント端末１３－１乃至１３－Ｎは、それぞれ同様に構成されており、互いに区別する必要がない場合、以下適宜、クライアント端末１３と称する。

また、ネットワーク１２には、一般的なニュースや天候などに関する情報を提供するニュースサーバ１５、および、様々な分野についての知識や解説などに関する情報を提供する百科事典サーバ１６が接続されている。なお、以下で説明する本実施の形態では、ニュースサーバ１５および百科事典サーバ１６により提供される情報を事実情報とも称する。

例えば、音声認識システム１１では、それぞれのクライアント端末１３を所持するユーザの発話に基づいた音声情報が、ネットワーク１２を介して音声認識サーバ１４に送信され、音声認識サーバ１４において音声認識処理が実行される。そして、音声認識サーバ１４は、音声認識結果として得られる単語列からなる文章（文字情報）を、ネットワーク１２を介して、発話を行ったユーザのクライアント端末１３に送信する。これにより、クライアント端末１３は、ユーザの発話に対する音声認識結果を表示し、ユーザに提示することができる。

このように構成される音声認識システム１１は、例えば、より高性能で最新の音声認識処理を音声認識サーバ１４に実装することで、個々のクライアント端末１３の処理能力が低くても、より良好な音声入力を可能とする音声認識処理を提供することができる。

図２は、クライアント端末１３の構成例を示すブロック図である。

図２に示すように、クライアント端末１３は、音声情報取得部２１、映像出力部２２、操作入力部２３、音声出力部２４、行動情報取得部２５、環境情報取得部２６、視線情報取得部２７、物体認識部２８、記録部２９、通信部３０、および音声認識結果対応処理部３１を備えて構成される。

音声情報取得部２１は、例えば、音声情報を取得するためのマイクロホンなどにより構成され、ユーザの発話した音声に基づいた音声情報を取得して、通信部３０に供給する。そして、その音声情報は、通信部３０により、図１のネットワーク１２を介して音声認識サーバ１４に送信される。

映像出力部２２は、例えば、映像を出力するためのディスプレイなどにより構成され、ユーザの発話に基づいた音声情報に対する音声認識結果を表示して、ユーザに提示する。また、映像出力部２２は、例えば、後述の図４乃至１７を参照して説明するように、音声認識結果に対する修正または編集を行う処理において利用される各種のユーザインタフェースを表示する。

操作入力部２３は、例えば、映像出力部２２を構成するディスプレイに対するユーザのタッチ操作を入力するためのタッチパネルにより構成される。そして、操作入力部２３は、映像出力部２２に表示されるユーザインタフェースに対してユーザのタッチ操作が行われると、そのタッチ操作により入力される操作の内容を示す操作情報を音声認識結果対応処理部３１に供給する。

音声出力部２４は、例えば、音声を出力するためのスピーカなどにより構成され、ユーザの発話に基づいた音声情報に対する音声認識結果を、合成音声（TSS：Text to Speech）により出力する。

行動情報取得部２５は、例えば、GPS（Global Positioning System）装置や加速度センサなどにより構成され、ユーザの行動に伴う位置情報や加速度情報などを行動情報として定期的に取得し、逐次、記録部２９に供給する。

環境情報取得部２６は、例えば、温度センサや湿度センサなどにより構成され、ユーザの周辺の環境を表す温度や湿度などを環境情報として定期的に取得し、逐次、記録部２９に供給する。

視線情報取得部２７は、例えば、ユーザの瞳の動きを撮像可能な撮像装置により構成され、ユーザの視線の方向を示す視線情報を取得して、物体認識部２８に供給する。

物体認識部２８は、例えば、ユーザの視線の先を撮像可能な撮像装置により構成され、視線情報取得部２７から供給される視線情報に基づいて、ユーザが視認している物体を特定し、その特定した物体に対する物体認識処理を行う。そして、物体認識部２８は、物体を認識した結果を示す物体認識情報を、視線情報とともに記録部２９に供給する。

記録部２９は、例えば、メモリやハードディスクドライブなどにより構成され、行動情報取得部２５から供給される行動情報、環境情報取得部２６から供給される環境情報、並びに、物体認識部２８から供給される視線情報および物体認識情報を記録する。

通信部３０は、ネットワーク１２を介した通信を行うための通信モジュールにより構成され、音声認識サーバ１４との間で各種の情報を送受信する。例えば、記録部２９は、音声情報取得部２１から供給される音声情報を音声認識サーバ１４に送信したり、音声認識サーバ１４から送信されてくる音声認識結果を受信して音声認識結果対応処理部３１に供給したりする。また、通信部３０は、後述するように音声認識サーバ１４から照合情報を要求する情報が送信されてくると、記録部２９に記録されている各種の情報の中から、その要求に応じた情報を照合情報として読み出して音声認識サーバ１４に送信する。

音声認識結果対応処理部３１は、音声認識サーバ１４から送信された音声認識結果が通信部３０から供給されると、音声認識結果を示す文章（文字情報）を映像出力部２２に供給して表示させる。また、音声認識結果対応処理部３１は、修正箇所を確認する情報が音声認識結果に付加されている場合には、その情報に従って、修正箇所を確認するユーザインタフェースを生成して、音声認識結果とともに映像出力部２２に表示させる。そして、音声認識結果対応処理部３１は、修正箇所を確認するユーザインタフェースに対するユーザのタッチ操作に応じた操作情報が操作入力部２３から供給されると、その操作情報に従って、音声認識結果に対する修正を反映させる。

また、音声認識結果対応処理部３１は、映像出力部２２に表示されている音声認識結果に対して編集を指示する操作情報が操作入力部２３から供給されると、ユーザにより指示された編集対象を特定する。そして、音声認識結果対応処理部３１は、その編集対象を示す情報を、通信部３０を介して音声認識サーバ１４に送信するとともに、編集対象として特定された編集箇所を削除して置き換えるための再発話を促すユーザインタフェースを映像出力部２２に表示させる。その後、音声情報取得部２１により取得された再発話の音声情報が音声認識サーバ１４に送信され、再発話の音声情報に対する音声認識が行われて、修正箇所を置き換える置き換え情報が送信されてくる。これにより、音声認識結果対応処理部３１は、修正箇所を置き換え情報で置き換えることにより編集を反映した音声認識結果を映像出力部２２に供給して、ユーザに提示させる。

図３は、音声認識サーバ１４の構成例を示すブロック図である。

図３に示すように、音声認識サーバ１４は、通信部４１、入力音処理部４２、音声認識部４３、自然言語処理部４４、意味解析処理部４５、修正箇所推定処理部４６、照合情報取得部４７、編集対応処理部４８、および音声認識結果出力処理部４９を備えて構成される。

通信部４１は、ネットワーク１２を介した通信を行うための通信モジュールにより構成され、クライアント端末１３との間で各種の情報を送受信する。例えば、通信部４１は、クライアント端末１３から送信されてくる音声情報を受信して入力音処理部４２に供給したり、音声認識結果出力処理部４９から供給される音声認識結果情報をクライアント端末１３に送信したりする。

入力音処理部４２は、通信部４１から供給される音声情報に対して、音声認識部４３において音声認識を行う前に必要な各種の前処理を行う。例えば、入力音処理部４２は、音声情報において無音となっている区間や雑音だけの区間を排除し、発話された音声が含まれている発話区間を音声情報から検出するＶＡＤ（Voice Activity Detection）処理を行って、発話区間の音声情報を音声認識部４３に供給する。

音声認識部４３は、入力音処理部４２から供給される音声情報に対する音声認識を行い、音声情報に基づいたユーザの発話を単語ごとに認識して、それらの単語列からなる文章を音声認識結果として自然言語処理部４４に供給する。

自然言語処理部４４は、音声認識部４３から供給される音声認識結果を表す文章を、人間が日常的に使用している自然言語として認識する自然言語処理（形態素解析や構文解析など）を行い、自然言語処理が施された音声認識結果を意味解析処理部４５に供給する。例えば、自然言語処理部４４は、自然言語処理を行うことで、文章を構成する単語ごとの品詞を特定することができる。

意味解析処理部４５は、自然言語処理部４４において自然言語処理が施された音声認識結果を表す文章に対して、その文章の意味を解析する意味解析処理を行い、音声認識結果が示す文章の内容（意味解析結果）を修正箇所推定処理部４６に供給する。

修正箇所推定処理部４６は、意味解析処理部４５から供給される音声認識結果が示す文章の内容の正確性に基づいて、その文章に対して修正が必要となる修正箇所を推定する処理を行う。このとき、修正箇所推定処理部４６は、音声認識結果が示す文章の内容の正確性を判断するために必要な照合情報を、照合情報取得部４７を介して取得する。例えば、照合情報として、行動データや、天候データ、統計データなどの各種のデータを含む事実情報を利用することができる。即ち、上述したように、クライアント端末１３に記録されている行動情報や、環境情報、視線情報、物体認識情報などを照合情報として利用することができる。また、ニュースサーバ１５により提供されるニュース記事や天候情報など、百科事典サーバ１６により提供される各種の記事を照合情報として利用する他、例えば、「前日の○○テーマパークの入場者数は100万人」や「前日の○○高速道路の渋滞は平均15km」などの事実として確認された各種の事実情報を照合情報として利用することができる。そして、修正箇所推定処理部４６は、図４乃至９を参照して後述するように、音声認識結果が示す文章の内容と照合情報とを照合し、修正が必要となる修正箇所があると推定した場合、その修正箇所を音声認識結果出力処理部４９に通知する。

照合情報取得部４７は、修正箇所推定処理部４６が必要とする照合情報を要求する情報を、通信部４１を介して送信し、その要求に応じて送信されてくる照合情報を取得して修正箇所推定処理部４６に供給する。例えば、照合情報取得部４７は、修正箇所推定処理部４６が必要とする照合情報が、ユーザの行動情報である場合、クライアント端末１３に対してユーザの行動情報を要求する。また、照合情報取得部４７は、修正箇所推定処理部４６が必要とする照合情報が、天候情報である場合、ニュースサーバ１５に対して天候情報を要求する。

編集対応処理部４８は、図１０乃至図１３を参照して後述するように、保持している音声認識結果の音声情報から、編集対象として特定された単語の音素情報を削除し、その削除した編集箇所に再発話の音声情報を接続して、編集用の音声認識向けの音声情報を作成する。そして、編集対応処理部４８は、編集用の音声認識向けの音声情報を音声認識部４３に供給して音声認識を行わせることにより、再発話の音声情報が示す単語を置き換え情報として取得して、その置き換え情報を音声認識結果出力処理部４９に供給する。

音声認識結果出力処理部４９は、修正箇所推定処理部４６により音声認識結果が示す文章に対して修正が必要となる修正箇所が推定された場合、その推定された修正箇所を確認する情報を音声認識結果に付加し、通信部４１を介してクライアント端末１３に送信する。なお、音声認識結果出力処理部４９は、修正箇所推定処理部４６により音声認識結果が示す文章に対して修正が必要となる修正箇所が推定されなかった場合には、音声認識結果だけをクライアント端末１３に送信する。

また、音声認識結果出力処理部４９は、編集対応処理部４８から置き換え情報が供給されると、その置き換え情報を、通信部４１を介してクライアント端末１３に送信する。さらに、音声認識結果出力処理部４９は、音声認識結果として合成音声を送信する場合には、音声認識結果が示す文章を読み上げる合成音声を生成して送信することができる。

以上のように構成されるクライアント端末１３および音声認識サーバ１４からなる音声認識システム１１では、音声認識サーバ１４は、音声認識結果として得られた文章の内容を、その内容の正確性を判断するために必要な照合情報と照合し、文章に対して修正が必要な修正箇所を推定することができる。ここで、照合情報としては、ニュースサーバ１５および百科事典サーバ１６により提供される事実情報や、クライアント端末１３に記録されるユーザの行動情報などが利用される。

そして、音声認識サーバ１４は、修正箇所を確認する情報を音声認識結果とともにクライアント端末１３に送信する。これに応じて、クライアント端末１３は、音声認識サーバ１４において推定された修正箇所の確認を行うためのユーザインタフェースを表示して、その修正箇所に対する修正を指示する操作がユーザにより行われると、音声認識結果に対して修正を反映することができる。

さらに、音声認識システム１１では、クライアント端末１３は、音声認識結果の文章に対して編集を指示する操作がユーザにより行われると、編集対象を特定することができる。そして、クライアント端末１３は、再発話の音声情報を音声認識サーバ１４に送信する。これに応じて、音声認識サーバ１４は、保持していた音声情報から、編集対象とされた編集箇所を削除し、その編集個所に再発話の音声情報を接続した後に音声認識を行って、編集が反映された音声認識結果をクライアント端末１３に送信する。

これにより、クライアント端末１３は、編集が反映された音声認識結果を表示して、ユーザに提示することができる。なお、音声認識システム１１では、例えば、音声認識サーバ１４により推定された修正箇所を修正する際に、その修正箇所を編集対象として特定してもよく、修正箇所を修正するための再発話を音声情報に従って、修正箇所を修正（編集）することができる。

このように、音声認識システム１１は、音声認識結果の文章に対する修正箇所を推定したり、ユーザによる編集を反映したりすることにより、音声認識結果として得られた文章を容易に修正または編集することができる。これにより、音声認識システム１１は、より利便性の高い音声認識サービスを提供することができる。

＜修正箇所を提示するユーザインタフェースの例＞

図４乃至９を参照して、音声認識結果として得られた文章に対して推定された修正箇所を提示するユーザインタフェースについて説明する。

図４には、音声認識結果として得られた文章に対して、行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第１の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末１３に対して発話「今日は昼に恵比寿へ行って１７時まで池袋で買い物したよ」を行ったとする。

まず、クライアント端末１３では、音声情報取得部２１が、ユーザの発話に基づいた音声情報を取得し、通信部３０は、その音声情報を音声認識サーバ１４に送信する。

そして、音声認識サーバ１４では、音声認識部４３が、音声情報に対する音声認識を行うことにより、音声認識結果「今日は昼に恵比寿へ行って１７時まで池袋で買い物したよ」を取得する。そして、修正箇所推定処理部４６は、このような音声認識結果が示す文章の内容（時間帯および場所）の正確性を判断するための照合情報として、ユーザの行動情報が必要であると認識する。これに応じて、照合情報取得部４７は、音声認識結果が示す文章に基づく時間帯におけるユーザの行動情報を、照合情報として要求する情報をクライアント端末１３に送信する。

このようなユーザの行動情報を照合情報として要求する情報に従って、クライアント端末１３では、通信部３０が、記録部２９に記録されている各種の情報の中から、その要求に応じた情報を読み出し、照合情報として音声認識サーバ１４に送信する。

これに応じ、音声認識サーバ１４では、照合情報取得部４７が、クライアント端末１３から送信されてきた行動情報を取得し、修正箇所推定処理部４６に供給する。修正箇所推定処理部４６は、音声認識結果が示す文章の内容と、ユーザの行動情報とを照合し、その文章に対して修正が必要となる修正箇所があるか否かを推定する。例えば、修正箇所推定処理部４６は、音声認識結果が示す時間帯における場所と、その時間帯において行動情報に示されている場所とが一致しない場合、音声認識結果が示す場所を、修正箇所として推定することができる。

図４に示す例では、修正箇所推定処理部４６は、音声認識結果が示す時間帯「昼」における場所「恵比寿」を、その時間帯において行動情報に示されている場所と照合する。同様に、修正箇所推定処理部４６は、音声認識結果が示す時間帯「１７時」における場所「池袋」を、その時間帯において行動情報に示されている場所と照合する。その結果、修正箇所推定処理部４６は、音声認識結果が示す時間帯「１７時」における場所「池袋」と、その時間帯において行動情報に示されている場所「新宿」とが一致しないため、音声認識結果が示す場所「池袋」を、修正箇所として推定する。

これに基づき、修正箇所推定処理部４６は、修正箇所を確認する情報を音声認識結果に付加して、クライアント端末１３に送信させる。従って、クライアント端末１３では、修正箇所を確認する情報に従って、音声認識結果を示す文章とともに、修正箇所として推定された単語に対して、その確認を行うためのユーザインタフェースを表示することができる。

図４に示す例では、修正箇所として推定された場所「池袋」に対して、その場所が正しいか否かを確認するためのユーザインタフェース「ここはあっていますか？」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのＧＵＩ（はいボタン／いいえボタン）が表示されている。なお、修正箇所として推定された場所「池袋」の文字に対して強調表示したり、色や大きさを変更して表示したり、点滅表示を行ったりすることができる。また、「ここはあっていますか？」という合成音声を出力してもよい。

ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「池袋」が正しいと思う場合には、はいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す場所「池袋」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「池袋」が間違っていると思う場合には、いいえボタンに対するタッチ操作を行う。これにより、ユーザは、音声認識結果が示す場所「池袋」に対する修正を容易に行うことができる。例えば、この場合、修正箇所を削除して、ユーザに対して再発話を促すユーザインタフェースを表示し、その再発話の音声情報に基づいて修正箇所を置き換えるような処理を行うことができる。

次に、図５には、音声認識結果として得られた文章に対して、行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第２の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末１３に対して発話「今日は昼に恵比寿へ行って１７時にＸＹＺショップで買い物したよ」を行ったとする。

図４を参照して説明したのと同様に、修正箇所推定処理部４６は、音声認識結果が示す文章の内容（時間帯および場所）の正確性を判断するための照合情報として、ユーザの行動情報を要求し、音声認識結果が示す文章の内容と、ユーザの行動情報とを照合する。その結果、図５に示す例では、音声認識結果が示す時間帯「１７時」における場所「ＸＹＺショップ」と、その時間帯において行動情報に示されている場所「新宿」とが一致しないため、修正箇所推定処理部４６は、音声認識結果が示す場所「ＸＹＺショップ」を、修正箇所として推定する。

これに基づき、修正箇所として推定された場所「ＸＹＺショップ」に対して、その場所が正しいか否かを確認するためのユーザインタフェース「記録では「新宿」となっています。これ（ＸＹＺショップ）で、正しいですか？」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのＧＵＩ（はいボタン／いいえボタン）が表示されている。

ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「ＸＹＺショップ」が正しいと思う場合には、はいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す場所「ＸＹＺショップ」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「ＸＹＺショップ」が間違っていると思う場合には、いいえボタンに対するタッチ操作を行う。この場合、音声認識結果が示す場所「ＸＹＺショップ」が「新宿」に修正される。

図４および図５を参照して説明したように、音声認識システム１１は、クライアント端末１３に記録されている情報の粒度と、音声認識結果を示す文章における情報の粒度とに差がある場合、その情報を修正箇所として推定し、音声認識結果とともに提示することができる。

次に、図６には、音声認識結果として得られた文章に対して、天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第１の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末１３に対して発話「今日の天気は晴れ」を行ったとする。

そして、音声認識サーバ１４では、音声認識部４３が、音声情報に対する音声認識を行うことにより、音声認識結果「今日の天気は荒れ」を取得（発音が似ているため、音声認識を間違って取得）する。これにより、修正箇所推定処理部４６は、このような音声認識結果が示す文章の内容（天候）が正確であるか否かを判断するための照合情報として、当日の天候情報が必要であると認識する。従って、照合情報取得部４７は、ニュースサーバ１５に対して当日の天候情報の送信を要求する。

その後、音声認識サーバ１４では、照合情報取得部４７が、ニュースサーバ１５から送信されてきた天候情報を取得し、修正箇所推定処理部４６に供給する。修正箇所推定処理部４６は、音声認識結果が示す文章の内容と、天候情報とを照合した結果、その文章に対して修正が必要となる箇所を推定する。例えば、修正箇所推定処理部４６は、天候情報と一致していない音声認識結果の天候を、修正箇所として推定することができる。

図６に示す例では、修正箇所推定処理部４６は、音声認識結果の天候「荒れ」を、天候情報と照合する。そして、修正箇所推定処理部４６は、天候情報に従って当日の天候が「荒れ」でないことを認識すると、音声認識結果の天候「荒れ」を、修正箇所として推定することができる。

図６に示す例では、音声認識結果における修正箇所として推定された天候「荒れ」を自動的に天候「晴れ」に修正するとともに、その修正が正しいか否かを確認するためのユーザインタフェース「ここを自動で修正しました」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのＧＵＩ（これでよいボタン／元の情報（荒れ）に戻すボタン）が表示されている。

ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す天候「晴れ」が正しいと思う場合には、これでよいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す天候「晴れ」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す天候「晴れ」が間違っていると思う場合には、元の情報（荒れ）に戻すボタンに対するタッチ操作を行う。この場合、自動的に修正された音声認識結果が示す天候「晴れ」が「荒れ」に修正される。

次に、図７には、音声認識結果として得られた文章に対して、天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第２の例が示されている。例えば、音声認識システム１１により提供される音声認識機能を利用したバーチャルなエージェントと会話する際に、ユーザが、クライアント端末１３に対して発話「今日の天気は晴れだったね」を行ったとする。

これに応じて、上述の図６を参照して説明したのと同様に、修正箇所推定処理部４６は、天候情報が「荒れ」でないことより、音声認識結果の天候「荒れ」を、修正箇所として推定する。

そして、図７に示す例では、ユーザの発話「今日の天気は晴れだったね」に対するエージェントの応答「ここでは、今日の天気は晴れだったよ／荒れていたのは正しいですか？」を表示することにより、修正すべき情報を通知する。このようなエージェントの応答に対して、ユーザは、自身の認識に基づいて返答することで、エージェントとの会話を行うことができる。そして、このようなエージェントとの会話を複数ターン繰り返すことで、ユーザは、ストレスを軽減することができる。

図６および図７を参照して説明したように、音声認識システム１１は、天候情報などのような事実情報と照合して、音声認識結果を示す文章における情報の正確性が低い場合、その情報を修正箇所として推定し、音声認識結果を自動的に修正して提示することができる。

次に、図８および図９を参照して、音声認識システム１１により提供される音声認識機能を利用して翻訳を行う際に、ユーザの視線の先にある物体を認識して自動的に修正を行う処理について説明する。

例えば、図８に示すように、ユーザは、図２の視線情報取得部２７および物体認識部２８を内蔵したウェアラブルゴーグル６１を装着している。そして、視線情報取得部２７は、図８において一点鎖線の矢印で示すようなユーザの視線を認識し、物体認識部２８は、ユーザが視認している物体に対する物体認識を行うことができる。

図８に示す例では、子供が、ピンクのボール６２と青のボール６３とを両手に持っていて、ユーザの視線は、青のボール６３に向かっている状態が示されている。従って、物体認識部２８は、ユーザの視線を認識した結果を示すユーザインタフェース（瞳のマーク）を、青のボールに重ねて表示するとともに、物体認識結果が青のボール（Ball：Blue）であることが示されている。

このような状況において、図９に示すように、ユーザが、クライアント端末１３に対して発話「緑のボールをとってください」を行ったとする。

そして、音声認識サーバ１４では、音声認識部４３が、音声情報に対する音声認識を行うことにより、音声認識結果「緑のボールをとってください」を取得する。そして、修正箇所推定処理部４６は、このような音声認識結果が示す文章の内容（物体）の正確性を判断するための照合情報として、物体認識情報が必要であると認識する。これに応じて、照合情報取得部４７は、ユーザの発話が行われたときの物体認識情報を、照合情報として要求する情報をクライアント端末１３に送信する。

このような物体認識情報を照合情報として要求する情報に従って、クライアント端末１３では、通信部３０が、記録部２９に記録されている各種の情報の中から、その要求に応じた情報を読み出し、照合情報として音声認識サーバ１４に送信する。

これに応じ、音声認識サーバ１４では、照合情報取得部４７が、クライアント端末１３から送信されてきた物体認識情報を取得し、修正箇所推定処理部４６に供給する。修正箇所推定処理部４６は、音声認識結果が示す文章の内容と、物体認識情報とを照合し、その文章に対して修正が必要となる修正箇所があるか否かを推定する。例えば、修正箇所推定処理部４６は、音声認識結果が示す物体と、物体認識情報に示されている物体とが一致しない場合、音声認識結果が示す物体を、修正箇所として推定することができる。

図９に示す例では、修正箇所推定処理部４６は、音声認識結果が示す物体「緑のボール」を、図８を参照して説明したような物体認識情報「青のボール（Ball：Blue）」と照合する。その結果、修正箇所推定処理部４６は、音声認識結果が示す物体「緑のボール」と、物体認識情報「青のボール（Ball：Blue）」とが一致しないため、音声認識結果が示す物体「緑のボール」を、修正箇所として推定する。

図９に示す例では、音声認識結果における修正箇所として推定された物体の色「緑」を自動的に、物体の色「青」に修正するとともに、その修正が正しいか否かを確認するためのユーザインタフェース「ここを自動で修正しました」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのＧＵＩ（これでよいボタン／元の情報（緑）に戻すボタン）が表示されている。さらに、音声認識結果を利用して翻訳を行った翻訳結果「Please pass blue balls」が表示されている。

ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す物体の色「青」が正しいと思う場合には、これでよいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す物体の色「青」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す物体の色「青」が間違っていると思う場合には、元の情報（緑）に戻すボタンに対するタッチ操作を行う。この場合、自動的に修正された音声認識結果が示す物体の色「青」が「緑」に修正される。

図８および図９を参照して説明したように、音声認識システム１１は、クライアント端末１３に記録されている物体認識情報と照合して、音声認識結果を示す文章における情報の正確性が低い場合、その情報を修正箇所として推定し、音声認識結果を自動的に修正して提示することができる。

＜音声認識結果の編集を受け付けるユーザインタフェースの例＞

図１０乃至図１３を参照して、音声認識システム１１による音声認識処理に基づく音声認識結果に対して編集を行うユーザインタフェースについて説明する。

例えば、図１０に示すように、ユーザの発話「I drove your car to airport every day」に従って、クライアント端末１３では、音声情報取得部２１が、図示するような波形の音声情報を取得する。そして、音声認識サーバ１４では、音声認識部４３が、音声情報に基づいて音声認識処理を実行して、音声認識結果とし認識された単語列からなる文章（文字情報）を取得するとともに、それぞれの単語と音声情報から得られる音素情報との対応関係を特定する。さらに、音声認識サーバ１４では、自然言語処理部４４が、音声認識結果の単語ごとの品詞を特定して品詞情報を取得する。ここで、音声認識サーバ１４では、音声情報、単語と音素情報との対応関係、および品詞情報が、一時的に保持される。

そして、修正箇所推定処理部４６が、上述したような修正箇所の推定を行った結果、修正箇所がない場合、音声認識結果「I drove your car to airport every day」が、クライアント端末１３の映像出力部２２に表示される。

ところで、ユーザの発話と音声認識結果とが一致していても、ユーザが、発話内容の編集を希望することがある。

例えば、図１１に示すように、ユーザが、映像出力部２２に表示されている単語「airport」を単語「station」に編集することを希望した場合、ユーザは、編集を希望する単語「airport」が表示されている箇所を長押しタッチする。これに応じ、操作入力部２３は、その操作の内容を示す操作情報を音声認識結果対応処理部３１に供給し、音声認識結果対応処理部３１は、映像出力部２２に表示されている単語「airport」を編集対象として特定する。そして、音声認識結果対応処理部３１は、音声認識結果に対して編集を行うユーザインタフェースを表示することができる。

図１１に示す例では、編集対象として特定された単語「airport」に対して、その単語の削除を確認するためのユーザインタフェース「削除しますか？」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのＧＵＩ（ＯＫボタン／ＮＧボタン）が表示されている。

ユーザは、このようなユーザインタフェースに対し、編集対象として特定された単語「airport」の削除に同意する場合には、ＯＫボタンに対するタッチ操作を行う。これに応じ、音声認識結果対応処理部３１は、編集対象として特定された単語「airport」を削除することを示す情報を、音声認識サーバ１４に送信する。

これに応じ、音声認識サーバ１４では、編集対応処理部４８は、ユーザの発話「I drove your car to airport every day」に基づいた音声情報から、単語「airport」に対応付けられている音素情報を削除する。従って、音声認識サーバ１４で保持されている音声情報は、図１１に示すように、編集対象の単語以外の単語に対応する音素情報のみ（以下、適宜、編集対象外の音声情報と称する）により構成されることになる。

なお、図１１に示す例の他、例えば、ユーザの発話「airportを削除してstation」に従って編集対象とする単語を特定してもよい。また、例えば、ユーザが、編集を希望する単語に対して視線を止めている時間が所定時間（例えば、３秒）以上である場合に、その単語を編集対象として特定してもよい。これらの場合にも、図１１と同様のユーザインタフェースを表示し、そのユーザインタフェースに対するユーザのタッチ操作に従って、編集対象の単語を削除することができる。

一方、図１２に示すように、クライアント端末１３では、音声認識結果対応処理部３１は、再発話を促すユーザインタフェースを映像出力部２２に表示する。このユーザインタフェースでは、音声認識結果から編集対象の単語を削除した箇所が空白となった単語列が表示されるとともに、その空白箇所の単語を編集するための再発話を促すメッセージ「ここへの再発話を待っています」が表示される。

このようなユーザインタフェースに応じて、音声情報取得部２１は、ユーザの発話「station」に基づいた再発話の音声情報を取得して、音声認識サーバ１４に送信する。音声認識サーバ１４では、編集対応処理部４８は、編集対象外の音声情報において単語「airport」に対応付けられている音素情報を削除した箇所に、再発話の音声情報「station」を接続する処理を行って、編集用の音声認識向けの音声情報を作成する。

そして、編集対応処理部４８は、編集用の音声認識向けの音声情報を音声認識部４３に供給して音声認識を行わせる。これにより、音声認識部４３は、音声認識結果「I drove your car to station every day」を取得して、編集対応処理部４８に供給する。編集対応処理部４８は、この音声認識結果から編集対象外の音声情報を削除して、ユーザに提示している音声認識結果から削除した単語「airport」に対して置き換えを行う置き換え情報となる単語「station」を取得し、クライアント端末１３に送信する。

これに応じ、図１３に示すように、クライアント端末１３では、音声認識結果対応処理部３１は、置き換え情報となる単語「station」による編集を反映した音声認識結果「I drove your car to station every day」を表示する。さらに、音声認識結果対応処理部３１は、その置き換え情報の他の候補を提示するユーザインタフェース「もしかして・・・」を表示する。このユーザインタフェースには、置き換え情報の他の候補（stay、attention）を入力するためのＧＵＩ、および、置き換え情報の単語「station」による編集の決定を指示するＧＵＩ（このままボタン）が表示されている。

このようなユーザインタフェースに対し、置き換え情報の単語「station」による編集を決定する場合には、このままボタンに対するタッチ操作を行う。これに応じ、音声認識結果対応処理部３１は、置き換え情報の単語「station」による編集を反映した音声認識結果「I drove your car to station every day」を決定することができる。なお、この他、音声（「このまま」と発話）や視線などにより、置き換え情報の単語「station」による編集を決定してもよい。

なお、編集用の音声認識向けの音声情報は、少なくとも１つ作成されていればよく、例えば、いくつかのパターンで複数作成してもよい。また、再発話の音声情報は、１つだけについて説明したが複数であってもよく、この場合、いくつかのパターンの編集用の音声認識向けの音声情報が作成される。

例えば、編集対応処理部４８は、音声認識の精度を高めるために、再発話の音声情報を接続する箇所の前に、特定の音声情報を追加して、編集用の音声認識向けの音声情報を作成することができる。

例えば、図１４に示すように、編集対応処理部４８は、再発話の音声情報を接続する箇所の前に、音声情報「new」を追加して、音声情報「new」に続いて再発話の音声情報「station」を接続する処理を行って、編集用の音声認識向けの音声情報を作成してもよい。例えば、編集対応処理部４８は、事前言語処理により認識される単語「airport」の品詞が名詞であることより、その削除された箇所に名詞が入る可能性が高いため、音声情報「new」を追加する。また、編集対応処理部４８は、音声情報「new」として、ユーザが過去に発話したときに保存していた音声情報を追加したり、ネットワーク１２を介して取得可能な音声情報を繋ぎ合わせて追加したり、合成音声（TSS）により作成した音声情報を追加したりすることができる。

そして、このように再発話の音声情報を接続する箇所の前に、音声情報「new」を追加することにより、音声認識部４３が、編集用の音声認識向けの音声情報を行う際に、再発話の音声情報を認識する精度を向上させることができる。

＜発話以外の音情報を用いた編集用の音声認識向けの音声情報＞

図１５乃至図１７を参照して、再発話の音声情報に対する音声認識処理を行うための編集用の音声認識向けの音声情報に、発話以外の音情報を用いる例について説明する。

図１５に示すように、例えば、ユーザが、クライアント端末１３に対して発話「今日買ってきたリンゴがめちゃめちゃおいしい」を行い、その音声認識結果が、クライアント端末１３の映像出力部２２に表示される。

このような音声認識結果に対し、ユーザが、映像出力部２２に表示されている単語「リンゴ」を単語「桃」に編集することを希望した場合、ユーザは、編集を希望する単語「リンゴ」が表示されている箇所を長押しタッチする。これにより、音声認識結果対応処理部３１は、その単語を編集対象として特定する。

そして、音声認識結果対応処理部３１は、編集対象として特定された単語「リンゴ」に対して、その単語の削除を確認するためのユーザインタフェース「削除しますか？」を表示する。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのＧＵＩ（ＯＫボタン／ＮＧボタン）が表示されている。

ユーザは、このようなユーザインタフェースに対し、編集対象として特定された単語「リンゴ」の削除に同意する場合には、ＯＫボタンに対するタッチ操作を行い、再発話「桃」を行う。これに応じて、音声情報取得部２１は、ユーザの再発話「桃」に基づいた再発話の音声情報を取得して、音声認識サーバ１４に送信する。

このとき、編集対応処理部４８は、図１６に示すように、品詞およびカテゴリが対応付けられているデータベースと、カテゴリ、付属しやすい情報、および文章のひな形が対応付けられているデータベースとを参照して、編集用の音声認識向けの音声情報を生成する。

そして、編集対応処理部４８は、ユーザの再発話「桃」がカテゴリ「果物名称」に対応付けられている場合、カテゴリ「果物名称」に対して付属しやすい情報「甘い」に従った文字列を、編集用の音声認識向けの音声情報として生成することができる。例えば、編集対応処理部４８は、図１７のＡに示すような文字列「きょうかってきたあまいももがめちゃめちゃおいしい」を生成する。このような文字列のうち、「きょうかってきた」および「がめちゃめちゃおいしい」は、ユーザが発話した音声情報が用いられ、「あまい」は、合成音声（TSS）で出力され、「もも」は、ユーザの再発話の音声情報が用いられる。

また、編集対応処理部４８は、ユーザの再発話「桃」のカテゴリ「果物名称」に対応付けられている文章のひな形「おいしい果物は＋（対象文字）＋です」に従った文字列を、編集用の音声認識向けの音声情報として生成することができる。例えば、編集対応処理部４８は、図１７のＢに示すような文字列文字列「おいしいくだものはももです」という文字列を生成する。このような文字列のうち、「おいしいくだものは」および「です」は、合成音声（TSS）で出力され、「もも」は、ユーザの再発話の音声情報が用いられる。

このように、編集対応処理部４８は、発話以外の音情報として合成音声（TSS）を用いて編集用の音声認識向けの音声情報を生成し、再発話の音声情報に対する音声認識を行わせることができる。これにより、例えば、編集対応処理部４８は、再発話の音声情報の単体に対する音声認識よりも、音声認識の精度を高めることができる。

即ち、音声認識システム１１は、上述したような発話以外の音情報や、カテゴリに付属しやすい情報を表す合成音声、文章のひな形から生成される文章を表す合成音声などに、再発話の音声情報を接続することにより、再発話に対する音声認識を高精度に行うことができる。

さらに、音声認識システム１１は、上述したように、ユーザの再発話に基づいて単語の入れ替えを行う編集（airportをstationに編集）をする他、ユーザの再発話に基づいた様々な編集を行う事例に適用することができる。

例えば、図１８に示すように、音声認識システム１１は、ユーザの再発話に基づいて、動詞の活用を編集（likeをlikedに編集）したり、名詞の変化を編集（carsをcarに編集）したりすることができる。また、音声認識システム１１は、ユーザの再発話に基づいて、類似音による間違いを編集（HeをSheに編集）することができる。また、音声認識システム１１は、ユーザの再発話に基づいて、語句単位での認識失敗を編集（hadをwould likeに編集）することができる。

そして、音声認識システム１１は、このようなユーザによる再発話の音声情報に対して、その再発話の音声情報以外の音声情報を接続することにより、再発話に対する音声認識を高精度に行うことができる。

例えば、類似音による間違いを編集（例えば、HeをSheに編集）するとき、再発話の音声情報のみを用いて音声認識を行った場合には、音声認識が失敗（例えば、CやSeeと誤認識）し易くなることが想定される。これに対し、音声認識システム１１は、再発話の音声情報を発話以外の音情報に接続して、その全体の音声情報に対する音声認識を行うので、このような音声認識の失敗を回避することができる。

なお、類似音による間違いを編集する他の例として、音声認識システム１１は、ユーザの発話「I want to go to a hospital to day」に対する音声認識結果「I want to go to a hospital to die」が得られたとき、ユーザの再発話に基づいて、間違いを編集（dieをdayに編集）することができる。

ところで、音声認識技術の精度がどんなに高くなっても音声認識結果が期待通りにならないケースがある。例えば、ヒトの記憶は完璧でないため、間違いを含んで発話してしまうことにより、音声認識に成功しても、その間違いを含んだ音声認識結果は、期待通りではない。また、そのような間違いを含んだ音声認識結果を提示しても、ヒトは、内容の間違いに気が付くことができないと想定される。

これに対し、音声認識システム１１は、行動情報や天候情報などを照合することにより、間違いを含んだ発話に対して修正箇所を推定し、その修正箇所を提示することにより、上述したような間違いに気づき易くすることができる。これにより、音声認識システム１１は、音声修正システムの精度向上を図ることができる。

さらに、音声入力の結果で得られた文字列の一部分を編集箇所として、再発話を行って編集を反映させるとき、その再発話の部分のみの音声認識を行っても、元々の発話に含まれていた発話コンテキストを活用することができないと、認識精度が低くなり期待通りの修正が行えないと想定される。

これに対し、音声認識システム１１は、再発話の音声情報に対して、その再発話の音声情報以外の音声情報を接続することにより、元々の発話に含まれていた発話コンテキストを活用して、再発話に対する音声認識を高精度に行うことができる。

＜クライアント端末における処理＞

図１９は、クライアント端末１３において実行される処理を説明するフローチャートである。

例えば、クライアント端末１３は、ユーザが音声入力を行っていないときでも常にバックグランドで処理を行っており、ステップＳ１１において、行動情報取得部２５は、ユーザの行動を示す行動情報を取得して、記録部２９に記録する。

ステップＳ１２において、環境情報取得部２６は、ユーザの周辺における環境を示す環境情報を取得して、記録部２９に記録する。

ステップＳ１３において、視線情報取得部２７は、ユーザの視線の方向を示す視線情報を取得し、物体認識部２８は、ユーザが視認している物体の認識結果を示す物体認識情報を取得する。そして、それらの視線情報および物体認識情報が、ユーザをセンシングした結果得られるユーザセンシング情報として記録部２９に記録される。

ステップＳ１４において、音声情報取得部２１は、ユーザによる音声入力が開始されたか否かを判定する。例えば、図示しないボタンに対する特定の操作が行われたり、音声入力の開始を指示する特定のキーワードをユーザが発話したりすると、音声情報取得部２１は、ユーザによる音声入力が開始されたと判定することができる。

ステップＳ１４において、音声情報取得部２１が、ユーザによる音声入力が開始されていないと判定した場合、処理はステップＳ１１に戻り、以下、上述した処理が繰り返して行われる。一方、ステップＳ１４において、音声情報取得部２１が、音声入力が開始されたと判定した場合、処理はステップＳ１５に進む。

ステップＳ１５において、音声情報取得部２１は、ユーザの発話に基づいた音声情報を取得する。そして、音声情報取得部２１は、その音声情報を通信部３０に供給し、通信部３０は、ネットワーク１２を介して音声認識サーバ１４に音声情報を送信する。

ステップＳ１６において、通信部３０は、音声認識サーバ１４の照合情報取得部４７による要求（例えば、後述する図２０のステップＳ３５）に応じた照合情報を、ネットワーク１２を介して音声認識サーバ１４に送信する。上述したように、記録部２９には、行動情報、環境情報、およびユーザセンシング情報が記録されており、通信部３０は、それらの情報の中から、照合情報取得部４７による要求に応じた情報を読み出し、照合情報として音声認識サーバ１４に送信する。

ステップＳ１７において、通信部３０は、後述する図２０のステップＳ３９またはＳ３９で音声認識サーバ１４から送信されてくる音声認識結果を取得して、音声認識結果対応処理部３１に供給する。ここで、音声認識サーバ１４において、音声認識結果に対して修正が必要となる修正箇所があると推定されている場合、音声認識結果には、修正箇所を確認する情報が付加されている。

ステップＳ１８において、音声認識結果対応処理部３１は、修正箇所を確認する情報が音声認識結果に付加されているか否かに基づいて、音声認識結果に対して修正箇所があると推定されているか否かを判定する。

ステップＳ１８において、音声認識結果対応処理部３１が、音声認識結果に対して修正箇所があると推定されていると判定した場合、処理はステップＳ１９に進む。

ステップＳ１９において、音声認識結果対応処理部３１は、音声認識結果を示す文章を映像出力部２２に表示させるとともに、修正箇所を確認するユーザインタフェースを生成して映像出力部２２に表示させる。このユーザインタフェースには、図４乃至９を参照して上述したように、ユーザによる修正の確認を受け付けるためのＧＵＩ（ボタン）が表示されている。

ステップＳ２０において、操作入力部２３は、ユーザによる修正の確認を受け付けるためのＧＵＩに対するユーザのタッチ操作により入力される操作の内容を示す操作情報を音声認識結果対応処理部３１に供給する。そして、音声認識結果対応処理部３１は、その操作情報に従って、修正箇所に対する確認結果を反映した音声認識結果を映像出力部２２に表示させる。

一方、ステップＳ１８において、音声認識結果対応処理部３１が、音声認識結果に対して修正箇所があると推定されていないと判定した場合、処理はステップＳ２１に進み、音声認識結果対応処理部３１は、音声認識結果を示す文章を映像出力部２２に表示させる。

ステップＳ２０またはＳ２１の処理後、処理はステップＳ２２に進み、音声認識結果対応処理部３１は、映像出力部２２に表示されている音声認識結果に対し、ユーザが発話内容の編集を指示したか否かを判定する。例えば、上述の図１１を参照して説明したように、ユーザは、音声認識結果が示す文章における編集を希望する単語が表示されている箇所を長押しタッチし、このタッチ操作に応じた操作情報が操作入力部２３から供給されると、音声認識結果対応処理部３１は、ユーザにより発話内容の編集が指示されたと判定することができる。

ステップＳ２２において、音声認識結果対応処理部３１が、ユーザにより発話内容の編集が指示されたと判定した場合、処理はステップＳ２３に進む。

ステップＳ２３において、音声認識結果対応処理部３１は、操作情報に基づいた編集箇所、即ち、編集対象とする単語を特定する。そして、音声認識結果対応処理部３１は、上述の図１１を参照して説明したように、その単語の削除を確認するためのユーザインタフェースを表示する。その後、ユーザが、編集対象として特定された単語の削除に同意する操作を行うと、音声認識結果対応処理部３１は、編集対象として特定された単語を削除することを示す情報を、音声認識サーバ１４に送信する。

ステップＳ２４において、音声認識結果対応処理部３１は、上述の図１２を参照して説明したように、再発話を促すユーザインタフェースを映像出力部２２に表示する。そして、音声情報取得部２１は、ユーザの発話に基づいた再発話の音声情報を取得して、音声認識サーバ１４に送信する。

ステップＳ２５において、音声認識結果対応処理部３１は、後述する図２１のステップＳ５６で音声認識サーバ１４から送信されてくる置き換え情報を、通信部３０を介して取得する。そして、音声認識結果対応処理部３１は、その置き換え情報を編集箇所に置き換えることにより、編集を反映した音声認識結果を映像出力部２２に表示する。

ステップＳ２５の処理後、または、ステップＳ２２においてユーザにより発話内容の編集が指示されていないと判定された場合、処理はステップＳ１１に戻り、以下、同様の処理が繰り返して行われる。

＜音声認識サーバにおける処理＞

図２０および図２１は、音声認識サーバ１４において実行される処理を説明するフローチャートである。

例えば、通信部４１が、図１９のステップＳ１５でクライアント端末１３から送信される音声情報を受信して入力音処理部４２に供給すると処理が開始される。ステップＳ３１において、入力音処理部４２は、通信部４１から供給される音声情報に対して、例えば、ＶＡＤ処理などの前処理を行って、音声認識部４３に供給する。

ステップＳ３２において、音声認識部４３は、ステップＳ３１で入力音処理部４２から供給された音声情報に対する音声認識処理を行う。そして、音声認識部４３は、音声認識結果として得られる文章を自然言語処理部４４に供給する。

ステップＳ３３において、自然言語処理部４４は、ステップＳ３２で音声認識部４３から供給された音声認識結果を表す文章に対する自然言語処理を行い、自然言語処理が施された音声認識結果を意味解析処理部４５に供給する。

ステップＳ３４において、意味解析処理部４５は、ステップＳ３３で自然言語処理部４４から供給された音声認識結果を表す文章に対して、その文章の意味を解析する意味解析処理を行い、音声認識結果が示す文章の内容を修正箇所推定処理部４６に供給する。

ステップＳ３５において、修正箇所推定処理部４６は、ステップＳ３４で意味解析処理部４５から供給される音声認識結果が示す文章の内容の正確性を判断するために必要な照合情報を認識し、照合情報取得部４７は、通信部４１を介して照合情報を要求する。例えば、照合情報取得部４７は、照合情報として、クライアント端末１３に対して、行動情報や、環境情報、視線情報、物体認識情報などなどを要求したり、ニュースサーバ１５および百科事典サーバ１６に対して事実情報を要求したりする。そして、照合情報取得部４７は、要求に応じて送信されてくる照合情報を、通信部４１を介して取得して、修正箇所推定処理部４６に供給する。

ステップＳ３６において、修正箇所推定処理部４６は、音声認識結果が示す文章の内容と、ステップＳ３５で取得した照合情報とを照合し、その文章に対して修正箇所を推定する処理を行う。

ステップＳ３７において、修正箇所推定処理部４６は、ステップＳ３５における処理の結果、音声認識結果が示す文章に修正箇所があると推定されたか否かを判定する。

ステップＳ３７において、修正箇所推定処理部４６が、音声認識結果が示す文章に修正箇所があると判定した場合、処理はステップＳ３８に進む。ステップＳ３８において、修正箇所推定処理部４６は、音声認識結果とともに修正箇所を示す情報を音声認識結果出力処理部４９に供給し、音声認識結果出力処理部４９は、修正箇所を確認する情報を音声認識結果とともに出力する。

一方、ステップＳ３７において、修正箇所推定処理部４６が、音声認識結果が示す文章に修正箇所がないと判定した場合、処理はステップＳ３９に進む。ステップＳ３９において、修正箇所推定処理部４６は、音声認識結果を音声認識結果出力処理部４９に供給し、音声認識結果出力処理部４９は、音声認識結果を出力する。

ステップＳ３８またはＳ３９の処理後、処理はステップＳ４０に進み、編集対応処理部４８は、クライアント端末１３により編集箇所が通知されたか否かを判定する。例えば、上述した図１９のステップＳ２３でクライアント端末１３から編集対象として特定された単語を削除することを示す情報が送信されてくると、編集対応処理部４８は、編集箇所が通知されたと判定する。

ステップＳ４０において、編集対応処理部４８が、編集箇所が通知されたと判定した場合、処理はステップＳ４１に進んで編集対応処理が行われた後に処理は終了され、編集箇所が通知されていないと判定した場合、そのまま処理は終了される。

図２１は、図２０のステップＳ４１において行われる編集対応処理を説明するフローチャートである。

ステップＳ５１において、編集対応処理部４８は、クライアント端末１３から送信されてくる編集対象として特定された単語を削除することを示す情報に従って、編集箇所を認識する。

ステップＳ５２において、編集対応処理部４８は、上述の図１１を参照して説明したように、音声認識サーバ１４で保持されている音声情報から、ステップＳ５１で認識した編集箇所の単語に対応付けられている音素情報を削除する。これにより、編集対応処理部４８は、編集対象外の音声情報を特定する。

ステップＳ５３において、編集対応処理部４８は、上述した図１９のステップＳ２４でクライアント端末１３から送信される再発話の音声情報を取得する。

ステップＳ５４において、編集対応処理部４８は、ステップＳ５３で取得した再発話の音声情報を、ステップＳ５２で認識した編集対象外の音声情報において単語が削除された編集箇所に接続する処理を行って、編集用の音声認識向けの音声情報を作成する。

ステップＳ５５において、編集対応処理部４８は、ステップＳ５４で作成した編集用の音声認識向けの音声情報を音声認識部４３に供給して音声認識を行わせる。

ステップＳ５６において、編集対応処理部４８は、ステップＳ５５で音声認識を行って得られる音声認識結果から編集対象外の音声情報を削除して残った音声情報を、編集箇所に置き換える置き換え情報として決定する。そして、編集対応処理部４８は、その置き換え情報を、通信部４１を介してクライアント端末１３に送信する。これに応じて、上述した図１９のステップＳ２５で音声認識結果の編集箇所に置き換え情報が置き換えられることで編集が反映された後、編集対応処理は終了される。

以上のように、クライアント端末１３および音声認識サーバ１４は、ユーザの発話に基づいた音声情報に対する音声認識結果とともに、ユーザの行動情報や天候情報などに基づいて推定される修正箇所を確認するユーザインタフェースを表示することができる。これにより、例えば、ユーザの記憶違いなどによる間違った音声入力を修正し易くすることができる。

また、クライアント端末１３および音声認識サーバ１４は、ユーザにより指示された編集箇所の再発話の音声情報が編集対象外の音声情報に接続された編集用の音声認識向けの音声情報に対する音声認識を行うことができる。従って、音声認識サーバ１４は、例えば、再発話の音声情報のみを用いて音声認識を行う構成よりも、音声認識の精度を向上させることができる。

このように、音声認識システム１１は、より正確に修正箇所を推定してユーザに提示することができるとともに、編集箇所に対する音声認識を高精度に行うことができる。これにより、音声認識システム１１は、より利便性の高い音声認識サービスを提供することができる。

従って、音声認識システム１１により提供される音声認識サービスは、例えば、音声入力を行うユーザインタフェースを提供するアプリケーションの全般で利用することができる。例えば、音声認識システム１１により提供される音声認識サービスを、バーチャルなエージェントシステムなどで利用することにより、ユーザの発話に嘘が含まれている場合には、その嘘を修正箇所として推定し、ユーザに修正させることができる。

例えば、音声認識システム１１は、ユーザが発話「今日は寒いね」を行ったとき、環境情報取得部２６が取得した温度を示す環境情報と照合し、そのときの気温が３８度であった場合、音声認識結果の単語「寒い」を修正箇所として推定することができる。

なお、本実施の形態では、図１を参照して説明したように、音声認識システム１１は、ネットワーク１２を介して接続されるクライアント端末１３および音声認識サーバ１４により構成されており、上述したような音声認識サービスが提供される。この構成に限定されることなく、例えば、クライアント端末１３単体で音声認識システムを構成してもよく、ネットワーク１２を介した通信を行わずに、音声認識サービスを提供するようにしてもよい。

また、クライアント端末１３および音声認識サーバ１４を構成する各ブロックは、音声認識システム１１全体として音声認識サービスを提供することができれば、ネットワーク１２のどちら側に配置されていてもよい。

なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、単一のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

また、上述した一連の処理（情報処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

図２２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

なお、本技術は以下のような構成も取ることができる。
（１）
ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、
前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、
前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と
を備える情報処理装置。
（２）
前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部
をさらに備える上記（１）に記載の情報処理装置。
（３）
前記照合情報取得部は、ネットワークを介して提供される事実情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記事実情報とを照合することにより前記修正箇所を推定する
上記（２）に記載の情報処理装置。
（４）
前記照合情報取得部は、ユーザの行動に伴って取得される行動情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記行動情報とを照合することにより前記修正箇所を推定する
上記（２）または（３）に記載の情報処理装置。
（５）
前記照合情報取得部は、ユーザの周辺の環境を表す環境情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記環境情報とを照合することにより前記修正箇所を推定する
上記（２）から（４）までのいずれかに記載の情報処理装置。
（６）
前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
上記（２）から（５）までのいずれかに記載の情報処理装置。
（７）
前記修正箇所の提示に対するユーザの指示に対応する処理を行う対応処理部
をさらに備える上記（１）から（６）までのいずれかに記載の情報処理装置。
（８）
ユーザの発話に基づく音声情報に対する音声認識を行い、
音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
ステップを含む情報処理方法。
（９）
ユーザの発話に基づく音声情報に対する音声認識を行い、
音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
ステップを含む情報処理をコンピュータに実行させるプログラム。

なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

１１音声認識システム，１２ネットワーク，１３クライアント端末，１４音声認識サーバ，１５ニュースサーバ，１６百科事典サーバ，２１音声情報取得部，２２映像出力部，２３操作入力部，２４音声出力部，２５行動情報取得部，２６環境情報取得部，２７視線情報取得部，２８物体認識部，２９記録部，３０通信部，３１音声認識結果対応処理部，４１通信部，４２入力音処理部，４３音声認識部，４４自然言語処理部，４５意味解析処理部，４６修正箇所推定処理部，４７照合情報取得部，４８編集対応処理部，４９音声認識結果出力処理部

Claims

ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、
前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、
前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と、
前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部と
を備え、
前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
情報処理装置。
前記照合情報取得部は、ネットワークを介して提供される事実情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記事実情報とを照合することにより前記修正箇所を推定する
請求項１に記載の情報処理装置。
前記照合情報取得部は、ユーザの行動に伴って取得される行動情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記行動情報とを照合することにより前記修正箇所を推定する
請求項１に記載の情報処理装置。
前記照合情報取得部は、ユーザの周辺の環境を表す環境情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記環境情報とを照合することにより前記修正箇所を推定する
請求項１に記載の情報処理装置。
前記修正箇所の提示に対するユーザの指示に対応する処理を行う対応処理部
をさらに備える請求項１に記載の情報処理装置。
ユーザの発話に基づく音声情報に対する音声認識を行い、
音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示し、
前記修正箇所の推定に必要となる前記照合情報を取得する
ステップを含み、
ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
情報処理方法。
ユーザの発話に基づく音声情報に対する音声認識を行い、
音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示し、
前記修正箇所の推定に必要となる前記照合情報を取得する
ステップを含み、
ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
情報処理をコンピュータに実行させるプログラム。