JP2017211430A

JP2017211430A - 情報処理装置および情報処理方法

Info

Publication number: JP2017211430A
Application number: JP2016102755A
Authority: JP
Inventors: 早紀横山; Saki Yokoyama
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2017-11-30
Also published as: US20190189122A1; WO2017203764A1; EP3467820A1; EP3467820A4

Abstract

【課題】音声入力による文章校正を実現することが可能な情報処理装置および情報処理方法を提供する。
【解決手段】文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、を備える、情報処理装置。
【選択図】図１

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、音声によるコマンド入力の技術が発達してきている。音声によるコマンド入力では、例えば音声認識システムにより、ユーザ発話をテキスト認識し、認識したテキストの構文解析を行い、解析結果に従ってコマンドが実行される。このような音声認識システムに関し、例えば下記特許文献１には、音声認識結果をコンテキスト情報を用いて修正する音声認識修正方法が記載されている。コンテキスト情報には、ユーザ入力の履歴や会話履歴が含まれている。

特開２０１５−０１８２６５号公報

しかしながら、音声により文字入力を行っている場合、文字の削除や訂正、入力する文字の種類の切り替え等は物理的な文字入力インターフェースからの操作が必要であったり、削除や訂正等を音声で行うと音声認識結果としてそのまま文字入力されてしまったりする。

そこで、本開示では、音声入力による文章校正を実現することが可能な情報処理装置および情報処理方法を提案する。

本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、を備える、情報処理装置を提案する。

本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、を備える、情報処理装置を提案する。

本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を送信することと、前記校正指令と校正ターゲットに基づく解析結果を受信することと、を含む、情報処理方法を提案する。

本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を受信することと、前記校正指令と校正ターゲットに基づく解析結果を送信することと、を含む、情報処理方法を提案する。

以上説明したように本開示によれば、音声入力による文章校正を実現することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本実施形態による情報処理システムの概要を説明する図である。本実施形態によるクライアント端末の構成の一例を示すブロック図である。本実施形態によるサーバの構成の一例を示すブロック図である。本実施形態による入力する文字の種類の指定を音声で行う場合の具体例を示す図である。本実施形態による入力する文字の漢字変換の指定を音声で行う場合の具体例を示す図である。本実施形態によるユーザ発話と校正情報の分析結果の一例を示す図である。図６に示すユーザ発話に対する最終出力結果の一例を示す図である。本実施形態によるユーザ発話とコンテキスト情報を考慮した校正情報の分析結果の一例を示す図である。図８に示すユーザ発話に対する最終出力結果の一例を示す図である。本実施形態による情報処理システムの動作処理を示すフローチャートである。本実施形態による他のシステム構成を示す図である。本実施形態によるエッジサーバの構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明は以下の順序で行うものとする。
１．本開示の一実施形態による情報処理システムの概要
２．構成
２−１．クライアント端末の構成
２−２．サーバの構成
３．動作処理
４．他のシステム構成
５．まとめ

＜＜１．本開示の一実施形態による情報処理システムの概要＞＞
まず、本開示の一実施形態による情報処理システムの概要について説明する。図１は、本実施形態による情報処理システムの概要を説明する図である。図１に示すように、本実施形態による情報処理システムは、クライアント端末１とサーバ２を含む。クライアント端末１とサーバ２は、例えばネットワーク３を介して接続され、データの送受信を行う。

本実施形態による情報処理システムは、音声による文字入力を実現する音声認識システムであって、クライアント端末１で収音したユーザ発話の音声認識、テキスト解析を行い、解析結果としてテキストをクライアント端末１に出力する。

クライアント端末１は、例えばスマートフォン、タブレット端末、携帯電話端末、ウェアラブル端末、パーソナルコンピュータ、ゲーム機、音楽プレイヤー等であってもよい。

ここで、既存の音声認識システムでは、文字の種類の切り替え（大文字、小文字、ローマ字、数字、平仮名、片仮名等の切り替え）を音声で行うことが困難であり、物理的な文字入力インターフェースからの操作が必要であった。また、入力した文章の校正を行う際、文章の削除や挿入、訂正等の入力を音声で行うと、音声認識結果としてそのまま文字入力されてしまうため、音声での校正が困難であった。

また、漢字には同音異義語があるため、一度の変換では目的の漢字が出てこなかったり、ユーザが望む漢字が出せないため物理的な文字入力インターフェースへ切り替えたりしなければならなかった。

そこで、本実施形態による情報処理システムは、音声入力による文章校正を実現し、校正の際に物理的な文字入力インターフェースへ切り替えるといった煩雑な操作を不要にする。具体的には、本実施形態による情報処理システムは、ユーザ発話のテキスト解析において校正発話か通常発話かの判断を行い、校正発話だった場合の校正情報を分析する。

以上、本実施形態による情報処理システムの概要について説明した。続いて、本実施形態による情報処理システムに含まれる各装置の構成について図２〜図３を参照して説明する。

＜＜２．構成＞＞
＜２−１．クライアント端末の構成＞
図２は、本実施形態によるクライアント端末１の構成の一例を示すブロック図である。図２に示すように、クライアント端末１（情報処理装置）は、制御部１０、音声入力部１１、撮像部１２、センサ１３、通信部１４、表示部１５、および記憶部１６を有する。

制御部１０は、演算処理装置および制御装置として機能し、各種プログラムに従ってクライアント端末１内の動作全般を制御する。制御部１０は、例えばＣＰＵ（Central Processing Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read Only Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random Access Memory）を含んでいてもよい。

制御部１０は、音声入力部１１から入力されたユーザ発話の音声を、通信部１４からネットワーク３を介してサーバ２へ送信する。送信する音声情報の形態は、収音した音声データ（生データ）であってもよいし、収音した音声データから抽出した特徴量データ（音素列など、ある程度加工したもの）であってもよいし、収音した音声データのテキスト解析結果であってもよい。音声データのテキスト解析結果は、例えばユーザ発話の音声に含まれる校正指令部分と校正ターゲット部分を分析した結果である。かかる分析は、次に説明するローカルテキスト解析部１０２で行われ得る。なお、本明細書において、「校正指令」とは、校正ターゲットに対してどのような校正をすべきかを示すものであって、例えば削除、置換、追加等の入力された文字列の修正や、入力する文字種類の指定（アルファベット、大文字、小文字、平仮名、片仮名等）、入力する文字の表現指定（漢字、スペル等）が想定される。また、本明細書において、「校正ターゲット」とは、校正指令の対象となるものを示す。

また、制御部１０は、ユーザ発話の際に撮像部１２で撮像したユーザ動作の撮像画像やセンサ１３で検知したセンサ情報（画面へのタッチ情報等）を、コンテキスト情報として、通信部１４からネットワーク３を介してサーバ２へ送信する。送信するコンテキスト情報の形態は、取得した撮像画像やセンサ情報（生データ）であってもよいし、取得した撮像画像やセンサ情報から抽出した特徴量データ（ベクター化など、ある程度加工したもの）であってもよいし、取得した撮像画像やセンサ情報の解析結果（認識結果）であってもよい。撮像画像やセンサ情報の解析結果は、例えばユーザの動作や操作を認識した結果である。

制御部１０は、図２に示すように、ローカル音声認識部１０１、ローカルテキスト解析部１０２、およびローカル最終出力決定部１０３としても機能し得る。

ローカル音声認識部１０１は、音声入力部１１から入力されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。本実施形態によるローカル音声認識部１０１は、後述するサーバ２の音声認識部２０１のサブセットであって、簡易の音声認識機能を有する。

ローカルテキスト解析部１０２は、音声認識によりテキスト化された文字列を解析する。具体的には、ローカルテキスト解析部１０２は、記憶部１６に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話（通常発話）であるか校正発話であるかを分析する。ローカルテキスト解析部１０２は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、ローカルテキスト解析部１０２は、複数の候補をスコアと共に出力してもよい。さらに、ローカルテキスト解析部１０２は、ユーザ発話の際に撮像部１２で撮像した撮像画像や、その他センサ１３により検知したセンサ情報（加速度センサ情報、タッチセンサ情報等）を考慮して分析してもよい。また、本実施形態によるローカルテキスト解析部１０２は、後述するサーバ２のテキスト解析部２０２のサブセットであって、簡易の解析機能を有する。具体的には、ローカルテキスト解析部１０２で用いる校正発話データの量がサーバ２で保有されているデータ量に比べて少ないため、例えば「削除」という校正用語は理解できるが、「消したい」「消して欲しいな」といった言葉は校正用語として理解できない。

ローカル最終出力決定部１０３は、最終的に出力するものを決定する機能を有する。例えばローカル最終出力決定部１０３は、音声認識により抽出された特定のキーワード（例えば「校正モード」「切替」など）や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。通常発話と判断した場合、ローカル最終出力決定部１０３は、音声認識された文字列をそのまま表示部１５の画面上に出力する。一方、校正発話と判断した場合、ローカル最終出力決定部１０３は、ローカルテキスト解析部１０２により分析された校正ターゲットと校正指令に基づいて、入力された文章の校正処理を行い、校正結果を表示部１５の画面上に出力する。なお複数の解析結果がある場合、ローカル最終出力決定部１０３は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。

なお本実施形態によるローカル最終出力決定部１０３は、後述するサーバ２の最終出力決定部２０３のサブセットであって、簡易の決定機能を有するものである。

以上、制御部１０の機能構成について説明した。制御部１０は、ローカル音声認識部１０１、ローカルテキスト解析部１０２、およびローカル最終出力決定部１０３といったローカルのサブセットで処理を行うことで処理速度を早くすることができるが、本実施形態はこれに限定されない。例えば制御部１０は、サブセットで十分な処理ができなかった場合やエラーが出た場合にはサーバ２にデータを送信して処理要求を行い、サーバ２から処理結果を受信して利用してもよい。または、制御部１０は、サーバ２にデータを送信して処理要求を行うと共に、サブセットでも処理を行い、サーバ２からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。

音声入力部１１は、ユーザ音声や周辺の環境音を収音し、音声信号を制御部１０に出力する。具体的には、音声入力部１１は、マイクロホンおよびアンプ等により実現される。また、音声入力部１１は、複数のマイクロホンから成るマイクアレイにより実現されてもよい。

撮像部１２は、ユーザの顔周辺や動作を撮像し、撮像画像を制御部１０に出力する。撮像部１２は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系と、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系と、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等とを有する。固体撮像素子アレイは、例えばＣＣＤ（Charge Coupled Device）センサアレイや、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサアレイにより実現されてもよい。

センサ１３は、撮像部１２（撮像センサ）以外の各種センサの総称であって、例えば加速度センサ、ジャイロセンサ、表示部１５の画面上に設けられているタッチセンサ等が想定される。センサ１３は、検知したセンサ情報を制御部１０に出力する。

通信部１４は、有線／無線により他の装置との間でデータの送受信を行う通信モジュールである。通信部１４は、例えば有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、Ｗｉ−Ｆｉ（Wireless Fidelity、登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離／非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。

表示部１５は、例えば液晶ディスプレイ（LCD）装置、ＯＬＥＤ（Organic Light Emitting Diode）装置等により実現される。表示部１５は、制御部１０の制御に従って表示画面に情報を表示する。

記憶部１６は、制御部１０が各種処理を実行するためのプログラム等を記憶する。また、記憶部１６は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。

以上、本実施形態によるクライアント端末１の構成について具体的に説明した。なお本実施形態によるクライアント端末１の構成は、図２に示す例に限定されない。例えばクライアント端末１は、ローカル音声認識部１０１、ローカルテキスト解析部１０２、およびローカル最終出力決定部１０３の全てまたは一部を有さない構成であってもよい。

また、本実施形態ではクライアント端末１とサーバ２を含む情報処理システムとして説明しているが、図２〜図３を参照して説明する各構成をクライアントモジュールおよびサーバモジュールとして有する単体の情報処理装置により実現されてもよい。若しくは、クライアント端末１の構成を、図３を参照して説明するサーバ２の制御部２０の各構成（音声認識部２０１、テキスト解析部２０２、最終出力決定部２０３）と同様の機能を有するものとしてもよい。

＜２−２．サーバの構成＞
図３は、本実施形態によるサーバ２の構成の一例を示すブロック図である。図３に示すように、サーバ２（情報処理装置）は、制御部２０、通信部２１、および校正発話ＤＢ（データベース）２２を有する。

制御部２０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ２内の動作全般を制御する。制御部２０は、例えばＣＰＵ（Central Processing Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read Only Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random Access Memory）を含んでいてもよい。

制御部２０は、クライアント端末１から受信したユーザ発話の音声に基づいて音声認識処理、テキスト解析処理、および最終出力決定処理を行い、処理結果（音声認識結果、テキスト解析結果、または校正情報（例えば校正結果））をクライアント端末１に送信するよう制御する。

制御部２０は、図３に示すように、音声認識部２０１、テキスト解析部２０２、および最終出力決定部２０３としても機能し得る。

音声認識部２０１は、クライアント端末１から送信されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。

テキスト解析部２０２は、音声認識によりテキスト化された文字列を解析する。具体的には、テキスト解析部２０２は、校正発話ＤＢ２２に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話（通常発話）であるか校正発話であるかを分析する。テキスト解析部２０２は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、テキスト解析部２０２は、複数の候補をスコアと共に出力してもよい。さらに、テキスト解析部２０２は、クライアント端末１から送信されたユーザ発話の際のコンテキスト情報（撮像画像やセンサ情報）を考慮して分析してもよい。

なお校正情報の分析は、予め生成された校正発話ＤＢ２２を利用する方法に限定されず、例えば機械学習を用いて校正情報の分析精度を高めていくことも可能である。

最終出力決定部２０３は、最終的に出力するものを決定する機能を有する。例えば最終出力決定部２０３は、音声認識により抽出された特定のキーワード（例えば「校正モード」「切替」など）や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。複数の解析結果がある場合、最終出力決定部２０３は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。

通常発話と判断した場合、最終出力決定部２０３は、音声認識された文字列を通信部２１からクライアント端末１に送信する。一方、校正発話と判断した場合、最終出力決定部２０３は、テキスト解析部２０２により分析され、最終決定した校正指令に基づいて校正ターゲットを処理し、校正結果を校正情報として通信部２１からクライアント端末１に送信する。

また、最終出力決定部２０３は、コンテキスト情報としてクライアント端末１から送信された、撮像部１２でユーザの動作を撮像した撮像画像を解析し、事前に登録されている身体の動きを検出して、通常入力モードと文章校正モードの切り替えを行ってもよい。若しくは、最終出力決定部２０３は、コンテキスト情報としてクライアント端末１から送信された、センサ１３で検知したセンサ情報を解析して、事前に登録されている動き（例えば画面を振る、画面にタッチする等）を検出し、通常入力モードと文章校正モードの切り替えを行ってもよい。

また、最終出力決定部２０３は、ユーザ発話のテキスト解析結果と、撮像画像やセンサ情報とを組み合わせて、校正発話であるか否かを判断することもできる。例えば最終出力決定部２０３は、ユーザが画面に表示されている文字を示しながら「ここから先を全て削除」と発話した場合、発話内容の解析結果と、画面上の文字を示している動作から、文章校正モードであると判断する。

ここで、本実施形態によるユーザ発話例と各発話の最終出力例について、図４〜図９を参照して具体的に説明する。

（Ａ）文字の種類の指定
図４は、入力する文字の種類の指定を音声で行う場合の具体例を示す図である。例えば図４の１行目に示すように、ユーザ発話が「かたかなのとうきょうたわー」の場合、音声認識部２０１は、音声認識により「カタカナの東京タワー」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「カタカナの東京タワー」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「カタカナの」を文字の種類『片仮名』の校正指定と分析し、「東京タワー」を校正ターゲットと分析する。これにより、図４の１行目に示すように最終出力結果が片仮名で表現される「トウキョウタワー」となる。

また、図４の２行目に示すように、ユーザ発話が「えむだけおおもじのまいける」の場合、音声認識部２０１は、音声認識により「エムだけ大文字のマイケル」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「エムだけ大文字のマイケル」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「エムだけ大文字の」を文字の種類の指定『アルファベット大文字』の校正指定と分析し、「マイケル」を校正ターゲットと分析する。これにより、図４の２行目に示すように最終出力結果が「Michael」となる。

（Ｂ）音やトランスクリプションの利用
図５は、入力する文字の漢字変換の指定を音声で行う場合の具体例を示す図である。例えば図５の１行目に示すように、ユーザ発話が「ゆうきゅうきゅうかのゆうにこどものこ」の場合、音声認識部２０１は、音声認識により「有給休暇の有に子供の子」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「有給休暇の有に子供の子」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「有給休暇の有」を漢字の校正指定と分析し、「有」を校正ターゲットと分析する。また、「子供の子」を漢字の校正指定と分析し、「子」を校正ターゲットと分析する。これにより、図５の１行目に示すように最終出力結果がユーザ希望の漢字で表現される「有子」となる。「ユウコ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。

また、図５の２行目に示すように、ユーザ発話が「しらとりのとりはとっとりのとり」の場合、音声認識部２０１は、音声認識により「白鳥の鳥は鳥取の取」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「白鳥の鳥は鳥取の取」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「白鳥の鳥は鳥取の取」を漢字の校正指定と分析し、「白鳥」を校正ターゲットと分析する。これにより、図５の２行目に示すように最終出力結果がユーザ希望の漢字で表現される「白取」となる。「シラトリ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。

（Ｃ）校正箇所と動作命令
また、校正ターゲットの範囲や校正内容を音声で命令することも可能である。例えば、以下に示すようなユーザ発話と校正情報の分析結果の一例が挙げられる。

さらに、図６および図７を参照して一例を説明する。図６は、本実施形態によるユーザ発話と校正情報の分析結果の一例を示す図である。図６に示すように、ユーザ発話が「かきあんけんってところからしたをぜんぶけしてけいぞくけんとうっていれて」の場合、音声認識部２０１は、音声認識により「下記案件って所から下を全部消して継続検討っていれて」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「下記案件って所から下を全部消して継続検討っていれて」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、「校正指定：『継続検討』に修正」、「校正ターゲット：『下記案件』以降」と分析する。

図７は、図６に示すユーザ発話に対する最終出力結果の一例を示す図である。図７に示すように、画面３０に表示されている入力された文章中、「下記案件」以降が削除されて「継続検討」に修正された画面３１が最終出力結果として出力される。

（Ｄ）コンテキスト情報の活用
続いて、コンテキスト情報を考慮した校正処理の一例について説明する。本実施形態では、ユーザ発話の際に取得された撮像画像やセンサ情報を考慮してテキスト解析を行い、校正分析を行うことが可能である。

ここで、図８および図９を参照して表示部１５に設けられたタッチセンサにより検知されるセンサ情報を用いた例について説明する。図８は、本実施形態によるユーザ発話とコンテキスト情報を考慮した校正情報の分析結果の一例を示す図である。図８に示すように、ユーザ発話が「ここをごぜんにして」の場合、音声認識部２０１は、音声認識により「ここを午前にして」といった文字列を出力する。また、ユーザ発話の際に表示部１５のタッチセンサにより検知された画面上の位置座標（x,y）を示すセンサ情報が取得される。

この場合、既存の音声認識システムでは、音声認識した文字列そのままに「ここを午前にして」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データとタッチセンサ情報を参照してテキスト解析を行い、「校正指定：『午前』に修正」、「校正ターゲット：座標（x,y）」と分析する。

図８は、図８に示すユーザ発話に対する最終出力結果の一例を示す図である。図８に示すように、画面３２に表示されている入力された文章中、ユーザによりタッチされた座標（x,y）に対応する文字「午後」が削除されて「午前」に修正された画面３３が最終出力結果として出力される。

上述した例では、タッチセンサにより画面上の座標位置を検知しているが、本実施形態はこれに限定されず、ユーザの視線を的確に捉えることができれば同様に実現できる。すなわち、例えば「ここを午前にして」というユーザ発話の際にユーザが注視している画面上の位置を視線センサ（視線トラッカー）により検知し、コンテキスト情報として考慮する。

また、ユーザの視線により画面上の注目箇所、範囲、領域を特定できれば、画面上に表示された複数候補ある選択肢等から自動的にユーザ希望の候補を絞ることが可能である。

また、本実施形態では、「ここ」「この辺」というように画面上の位置が指定された場合に、座標（x,y）に対応する文字列部分の背景色を変える等してユーザにフィードバックし、注目個所や範囲の確認を行うようにしてもよい。ユーザは、「そこでＯＫ」「違う」等の回答を口頭で行い得る。

（Ｅ）キーワードの利用
次に、音声認識したユーザ発話から特定のキーワードが抽出された場合の校正処理の一例について説明する。ユーザ発話が"A, as in Adam. D, as in Denver. T, as in Thomas."の場合、音声認識部２０１は、音声認識により"A, as in Adam. D, as in Denver. T, as in Thomas."といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに"A, as in Adam. D, as in Denver. T, as in Thomas."と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、"Adam" "Denver" "Thomas"といった、アルファベットのスペルを伝えるために用いられるキーワードが抽出された場合、「校正指定：アルファベット」、「校正ターゲット："A" "D" "T"」と分析する。これにより、最終出力結果がユーザ希望のスペルで表現される「ADT」となる。

通信部２１は、外部装置と接続し、データの送受信を行う。例えば通信部２１は、クライアント端末１からユーザ発話の音声情報やコンテキスト情報を受信したり、上述した音声認識処理結果や、テキスト解析処理結果、または最終出力決定処理結果をクライアント端末１に送信したりする。

校正発話ＤＢ２２は、事前に大量に集められた校正発話データを記憶する記憶部であって、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。校正発話データは、例えば校正発話に用いられるキーワードや文例を含む。

＜＜３．動作処理＞＞
続いて、本実施形態による情報処理システムの動作処理について図１０を参照して説明する。図１０は、本実施形態による情報処理システムの動作処理を示すフローチャートである。下記処理は、クライアント端末１の制御部１０およびサーバ２の制御部２０の少なくともいずれかで行われ得る。

図１０に示すように、まず、ユーザ発話（音声情報）が取得され（ステップＳ１００）、ユーザ発話に対して音声認識が行われる（ステップＳ１０３）。

次に、音声認識により出力された文字列に対してテキスト解析が行われる（ステップＳ１０６）。具体的には、校正発話データを参照して文字列の校正発話らしさ、および校正発話だった場合における校正情報の分析が行われる。ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。

次いで、テキスト解析結果に基づいて最終的な出力が決定される（ステップＳ１０９）。この際も、ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。

次に、最終出力決定により通常発話と判断された場合、音声認識結果の文字列がそのまま出力される（ステップＳ１１２）。

一方、最終出力決定により校正発話と判断された場合、文章校正が行われ、校正結果が出力される（ステップＳ１１５）。

以上、本実施形態による情報処理システムの動作処理について説明した。

＜＜４．他のシステム構成＞＞
本実施形態による情報処理システムの構成は、図１に示す例に限定されず、例えば図１１に示すように、処理分散を可能とするエッジサーバ４を含むシステム構成であってもよい。図１１は、本実施形態による他のシステム構成を示す図である。図１１に示すように、他のシステム構成として、クライアント端末１、サーバ２、およびエッジサーバ４を含むものが考えられる。

本実施形態によるエッジサーバ４の構成例を図１２に示す。図１２に示すように、エッジサーバ４は、制御部４０、通信部４１、およびエッジ側校正発話ＤＢ４２を含む。制御部４０は、エッジ側音声認識部４０１、エッジ側テキスト解析部４０２、およびエッジ側最終出力決定部４０３としても機能する。エッジ側音声認識部４０１は、サーバ２の音声認識部２０１のサブセット（以下、外部サブセットと称す）であって、エッジ側テキスト解析部４０２は、テキスト解析部２０２の外部サブセットであって、エッジ側最終出力決定部４０３は、最終出力決定部２０３の外部サブセットである。

エッジサーバ４は、サーバ２に比較して中規模の処理サーバであるが、通信距離的にクライアント端末１の近くに配置され、クライアント端末１よりも高精度かつ、通信遅延を短縮することが可能である。

クライアント端末１は、自身が持つサブセットで十分な処理ができなかった場合やエラーが出た場合にエッジサーバ４にデータを送信して処理要求を行い、エッジサーバ４から処理結果を受信して利用してもよい。または、クライアント端末１は、エッジサーバ４およびサーバ２にデータを送信して処理要求を行うと共に、自身が持つサブセットでも処理を行い、エッジサーバ４およびサーバ２からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。

＜＜５．まとめ＞＞
上述したように、本実施形態による情報処理システムによれば、音声入力による文章校正を実現することを可能とする。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上述したクライアント端末１、またはサーバ２に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、クライアント端末１、またはサーバ２の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、本技術は以下のような構成も取ることができる。
（１）
文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。
（２）
前記音声情報は、収音したユーザ音声データである、前記（１）に記載の情報処理装置。
（３）
前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、前記（１）に記載の情報処理装置。
（４）
前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、前記（１）に記載の情報処理装置。
（５）
前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、前記（１）〜（４）のいずれか１項に記載の情報処理装置。
（６）
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、前記（５）に記載の情報処理装置。
（７）
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、前記（５）に記載の情報処理装置。
（８）
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、前記（５）に記載の情報処理装置。
（９）
前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記（１）〜（８）のいずれか１項に記載の情報処理装置。
（１０）
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記（９）に記載の情報処理装置。
（１１）
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記（９）または（１０）に記載の情報処理装置。
（１２）
文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。
（１３）
前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記（１２）に記載の情報処理装置。
（１４）
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記（１３）に記載の情報処理装置。
（１５）
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記（１３）または（１４）に記載の情報処理装置。
（１６）
前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、前記（１２）〜（１５）のいずれか１項に記載の情報処理装置。
（１７）
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。
（１８）
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。

１クライアント端末
１０制御部
１０１ローカル音声認識部
１０２ローカルテキスト解析部
１０３ローカル最終出力決定部
１１音声入力部
１２撮像部
１３センサ
１４通信部
１５表示部
１６記憶部
２サーバ
２０制御部
２０１音声認識部
２０２テキスト解析部
２０３最終出力決定部
２１通信部
２２校正発話ＤＢ
３ネットワーク
４エッジサーバ
４０制御部
４０１エッジ側音声認識部
４０２エッジ側テキスト解析部
４０３エッジ側最終出力決定部
４１通信部
４２エッジ側校正発話ＤＢ

Claims

文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。
前記音声情報は、収音したユーザ音声データである、請求項１に記載の情報処理装置。
前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、請求項１に記載の情報処理装置。
前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、請求項１に記載の情報処理装置。
前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、請求項１に記載の情報処理装置。
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、請求項５に記載の情報処理装置。
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、請求項５に記載の情報処理装置。
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、請求項５に記載の情報処理装置。
前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、請求項１に記載の情報処理装置。
前記処理結果は、当該処理結果の確信度を示すデータを含む、請求項９に記載の情報処理装置。
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、請求項９に記載の情報処理装置。
文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。
前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、請求項１２に記載の情報処理装置。
前記処理結果は、当該処理結果の確信度を示すデータを含む、請求項１３に記載の情報処理装置。
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、請求項１３に記載の情報処理装置。
前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、請求項１２に記載の情報処理装置。
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。