JP6950708B2

JP6950708B2 - 情報処理装置、情報処理方法、および情報処理システム

Info

Publication number: JP6950708B2
Application number: JP2018554906A
Authority: JP
Inventors: 祐平滝; 真一河野; 邦世大石; 徹哉浅山
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-12-05
Filing date: 2017-11-21
Publication date: 2021-10-13
Anticipated expiration: 2037-11-21
Also published as: KR20190091265A; DE112017006145T5; JPWO2018105373A1; US11189289B2; US20200075015A1

Description

本技術は、情報処理装置、情報処理方法、および情報処理システムに関し、特に、音声認識を利用した自然な会話を支援できるようにした情報処理装置、情報処理方法、および情報処理システムに関する。

スマートフォン等を利用した音声認識アプリケーションプログラムとして、ユーザの発話をテキスト化して画面に表示する技術が知られている。さらに、音声認識結果のテキストを要約する技術も存在する（例えば、特許文献１参照）。

WO２０１４−０６１３８８

ただし、スマートフォン等を利用した音声認識アプリケーションプログラムの場合、テキスト化された文章の表示量に限界がある。このため、音声認識を利用したコミュニケーションの提供に関して改善が求められている。

本技術はこのような状況に鑑みてなされたものであり、音声認識を利用した自然な会話を支援する技術である。

本技術の一側面である情報処理装置は、音声入力装置に入力された第１のユーザの音声情報を取得する音声取得部と、第２のユーザのための表示装置における、取得された前記音声情報に対応するテキスト情報の表示を制御する表示制御部とを備え、前記表示制御部は、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御を行い、前記テキスト情報の表示量が所定の量以上となった場合、前記第１のユーザまたは前記第２のユーザによる所定の操作に基づいて、前記テキスト情報の表示量を抑制し、前記テキスト情報の表示量を抑制した後、前記第１のユーザまたは前記第２のユーザによる第１の操作に基づいて、前記テキスト情報の表示を消去させる。

本技術の一側面においては、入力された第１のユーザの音声情報が取得され、第２のユーザのための表示装置における、取得された前記音声情報に対応するテキスト情報の表示が制御される。この表示制御では、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御が行われる。そして、前記テキスト情報の表示量が所定の量以上となった場合、前記第１のユーザまたは前記第２のユーザによる所定の操作に基づいて、前記テキスト情報の表示量が抑制され、前記テキスト情報の表示量を抑制した後、前記第１のユーザまたは前記第２のユーザによる第１の操作に基づいて、前記テキスト情報の表示が消去される。

本技術の一側面によれば、音声認識を利用した自然な会話を行うことができる。

本技術を適用した会話支援装置の第１の構成例を示す図である。本技術を適用した会話支援装置の内部構成例を示すブロック図である。情報処理部の機能ブロック図である。本技術を適用した会話支援装置の第２の構成例を示す図である。会話支援装置の構成要素を第２の構成例に対応して区分したブロック図である。本技術を適用した会話支援装置の第３の構成例を示す図である。会話支援装置の構成要素を第３の構成例に対応して区分したブロック図である。本技術を適用した会話支援装置の第４の構成例を示す図である。会話支援装置の構成要素を第４の構成例に対応して区分したブロック図である。表示待ちリスト生成処理を説明するフローチャートである。発話テキスト表示処理を説明するフローチャートである。既読判定の例を示す図である。テキスト量抑制処理の具体例を説明するための図である。テキスト量抑制処理の具体例を説明するための図である。テキスト量抑制処理の具体例を説明するための図である。テキスト量抑制処理の具体例を説明するための図である。テキスト量抑制処理の具体例を説明するための図である。編集処理（消去）の具体例を説明するための図である。編集処理（再発話）の具体例を説明するための図である。編集処理（NGワード登録）の具体例を説明するための図である。編集処理（追記）の具体例を説明するための図である。会話支援装置の応用例を説明するための図である。会話支援装置の応用例を説明するための図である。会話支援装置の応用例を説明するための図である。発話者に対するフィードバックの例を説明するための図である。コンピュータの構成例を示すブロック図である。

以下、本技術を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。

＜本技術の実施の形態である会話支援装置の第１の構成例＞
図１は、本技術の実施の形態である会話支援装置の第１の構成例を示しており、会話支援装置１０を１つの筐体として形成した場合を示している。

会話支援装置１０は、聴力に不安を持たない人（以下、ユーザＡと称する）と、聴力に不安を持つ人（以下、ユーザＢと称する）との間の会話を支援するためのものである。なお、本技術の一側面における第１のユーザが、本構成例のユーザＡに対応し、本技術の一側面における第２のユーザが、本構成例のユーザ２に対応するものと見做してもよい。ただし、本技術の一側面における第１のユーザは、音声を入力するユーザであればよい。すなわち、第１のユーザ（音声を入力するユーザ）は、単一の主体（ユーザ）に限定されず、複数の主体（ユーザ）であり得る。同様に、本技術の一側面における第２のユーザは、表示された発話テキストを視認するユーザであればよく、単一の主体に限定されず、複数の主体であり得る。

具体的には、ユーザＡの発話を音声認識処理によってテキスト（以下、発話テキストと称する）に変換し、その発話テキストをユーザＢ用の表示部４３に表示する。この表示をユーザＢが読むことにより、ユーザＢは、ユーザＡの発話（音声情報）に対応する発話テキスト（文字情報）を理解することができる。

表示部４３に表示された発話テキストは、ユーザＢが読み終わるか、または、所定に時間が経過するまで表示される。

表示された発話テキストがユーザＢによって読み終わったか否かの判定には、例えば、撮像部４１によって撮像された画像からユーザＢの画像や、集音部４２によって集音されたユーザＢの発話が用いられる。

なお、ユーザＢ用の表示部４３に裏面側には、ユーザＡ用の表示部２２（図２）が設けられており、表示部２２には、表示部４３と同様の表示、すなわち、ユーザＡの発話に対応する発話テキストが表示される。これにより、ユーザＡは、自身の発話が正しく音声認識されたか否かを確認することができる。

＜本技術の実施の形態である会話支援装置の構成例＞
図２は、本技術の実施の形態である会話支援装置の内部の構成例を示すブロック図である。

会話支援装置１０は、集音部２１、表示部２２、操作入力部２３、情報処理部３０、撮像部４１、集音部４２、表示部４３、および操作入力部４４を有する。

集音部２１、表示部２２、および操作入力部２３は、主にユーザＡに対応するために設けられている。

集音部２１は、ユーザＡが話す音声（発話）を集音し、それに対応する発話信号を情報処理部３０に供給する。表示部２２は、情報処理部３０から供給される画像信号（例えば、ユーザＡの発話に対応する発話テキストを画面上に表示するための画像信号）に対応する画面を表示する。操作入力部２３は、ユーザＡからの各種の操作を受け付けて、それに対応する操作信号を情報処理部３０に通知する。

情報処理部３０は、集音部２１から供給される発話信号を音声認識処理によって発話テキストに変換する。また、情報処理部３０は、発話テキストを画面上に表示するための画像信号を表示部４３に供給する。なお、情報処理部３０の詳細については後述する。

撮像部４１、集音部４２、表示部４３、および操作入力部４４は、主にユーザＢに対応するために設けられている。

撮像部４１は、ユーザＢ等を撮像し、その結果得られる動画像信号を情報処理部３０に供給する。集音部４２は、ユーザＢが話す音声（発話）を集音し、それに対応する発話信号を情報処理部３０に供給する。表示部４３は、情報処理部３０から供給される、ユーザＡの発話に対応する発話テキストを画面上に表示するための画像信号に対応する画面を表示する。操作入力部４４は、ユーザＢからの各種の操作を受け付けて、それに対応する操作信号を情報処理部３０に通知する。

＜情報処理部３０が有する機能ブロックの構成例＞
図３は、情報処理部３０が有する機能ブロックの構成例を示している。

情報処理部３０は、音声認識部３１、画像認識部３２、誤認識学習部３３、解析部３５、編集部３６、追記学習部３７、表示待ちリスト保持部３８、表示制御部３９、およびフィードバック部４０を有する。

音声認識部３１は、集音部２１から供給されるユーザＡの発話に対応する発話信号を音声認識処理によって発話テキストに変換することにより発話テキストを生成し、解析部３５に供給する。

また、音声認識部３１は、集音部４２から供給されるユーザＢの発話に対応する発話信号を音声認識処理によって発話テキストに変換し、該発話テキストがユーザＢの既読を表す特定のキーワード（予め登録されている、例えば「はい」、「うん」、「わかった」、「了解」、「次」等）を検出し、検出結果を表示制御部３９に供給する。

画像認識部３２は、撮像部４１から供給される動画像信号に基づき、ユーザＢの既読を表す特定の動作（例えば、うなずき、画面を注視していた後に画面以外の方向を見る等）を検出し、検出結果を表示制御部３９に供給する。また、画像認識部３２は、撮像部４１から供給される動画像信号に基づき、ユーザＢと表示部４３との距離を測定し、測定結果を表示制御部３９に通知する。ユーザＢと表示部４３との距離は、表示部４３に表示する発話テキストの文字サイズを設定するために用いられる。例えば、ユーザＢと表示部４３との距離が長いほど、大きな文字サイズに設定される。

なお、後述するヘッドマウントディスプレイ等のウェアラブル機器を用いる場合、ウェアラブル機器の向き、すなわちユーザＢの頭の向きや体の向きに基づいて視線方向が判定されてもよい。ウェアラブル機器の向きは、ウェアラブル機器に設けられたカメラ、加速度センサ、ジャイロセンサ等から取得される位置情報に基づいて判定され得る。また、赤外線カメラと赤外線ＬＥＤを利用して、ユーザＢの眼球のプルキニエ像と瞳孔中心を判定し、これらに基づいてユーザＢの視線方向を判定してもよい。

誤認識学習部３３は、音声認識処理の結果であるユーザＡの発話に対応する発話テキストに対し、ユーザＡまたはユーザＢから入力される編集操作（例えば、消去指示操作、再発話指示操作、NGワード登録指示操作）に対応し、その発話テキストに含まれる誤認識されている単語を誤認識リスト３４に登録する。また、誤認識学習部３３は、音声認識処理の結果であるユーザＡの発話に対応する発話テキストに、誤認識リスト３４に登録された単語が含まれている場合、音声認識部３１に対して、誤認識されている単語（認識結果の第１候補）以外の認識結果（第２候補等）を要求する。

解析部３５は、音声認識部３１によって生成されたユーザＡの発話に対応する発話テキストを、例えば、品詞に分解したり、キーワードを抽出したりする等の解析を行う。

編集部３６は、解析部３５による解析結果に基づき、発話テキストに対して、適宜、改行や改頁を加えたり、消去しても発話テキストが有する意味を損なわない助詞等を特定するテキスト量抑制処理を行ったりする編集処理を行い、表示待ちリスト保持部３８に供給する。なお、編集処理では、改行、改頁またはテキスト量抑制処理のうち少なくとも一つが行われるものと見做されてよく、改行、改頁またはテキスト量抑制処理のうち少なくとも一つが省略されてもよい。

また、編集部３６は、関連している複数の発話テキストをスレッドにまとめて表示待ちリスト保持部３８に供給するようにすることができる。この場合、現在のスレッドを表示しつつ、表示待ちのスレッドに対応するアイコンを表示するようにしてもよい。表示待ちのスレッドを示す表示オブジェクトはアイコンに限定されず、適宜設定がなされてよい。このような構成によれば、ユーザＢが、どの程度相手の発話テキストを読み終えたのかを容易に把握することができる。また、このような構成によれば、発話テキストの進捗状況に基づいて、ユーザＢがユーザＡの入力量を抑制するよう働き掛けることができる。

さらに、編集部３６は、表示部２２に表示されている、ユーザＡの発話に対応する発話テキストに対し、操作入力部２３を用いてユーザＡが入力する編集操作に基づき、発話テキストの一文を消去したり、再発話に対応する発話テキストを挿入したり、NGワードを登録したりする処理を制御する。また、編集部３６は、表示部２２に表示されている、ユーザＡの発話に対応する発話テキストに対し、操作入力部２３を用いてユーザＡが入力する追記操作（具体的には、「？（クエスチョンマーク）」等の記号を追加する操作）に基づき、発話テキストに「？」等の記号を追加する処理を制御する。なお、「？」以外の記号、絵文字、顔文字等を追記できるようにしてもよい。

なお、編集部３６は、表示部４３に表示されている、ユーザＡの発話に対応する発話テキストに対し、操作入力部４４を用いてユーザＢが入力する編集操作や追記操作にも基づいて、編集処理を行うことができる。換言すれば、表示されている、ユーザＡの発話に対応する発話テキストに対しては、ユーザＡとユーザＢの双方が、編集操作や追記操作を行うことができる。

追記学習部３７はユーザＡまたはユーザＢが入力する追記操作を学習し、学習結果に基づき、ユーザＡまたはユーザＢからの追記操作が無くても、同様の発話テキストに対して同様の記号等を追記するように編集部３６を制御する。

例えば、ユーザＡの発話に対応する発話テキスト「薬は飲んだの」に対して「？」の追加を指示する追記操作が学習された場合、発話テキスト「薬は飲んだの」に対し、ユーザＡまたはユーザＢからの追記操作が無くても「？」を追加して「薬は飲んだの？」と編集するように編集部３６を制御する。

表示待ちリスト保持部３８は、改行、改頁、またはテキスト量抑制処理のうちの少なくとも一つを含む編集処理済の発話テキスト（文字数によってはテキスト量抑制処理が行われない場合もある）を時系列順、すなわち、ユーザＡが発話した順に表示待ちリストに登録する。表示待ちリストに登録された発話テキストは、表示制御部３９から読み出された場合、表示待ちリストから消去される。

表示制御部３９は、表示待ちリストから時系列順に発話テキストを読み出し、読み出した発話テキストを画面上に表示するための画像信号を生成して表示部２２および表示部４３に供給する。また、表示制御部３９は、表示部２２および表示部４３に現在表示されている発話テキストの表示量、音声認識部３１から供給される、ユーザＢの既読を表す特定のキーワードの検出結果、画像認識部３２から供給されるユーザＢの既読を表す特定の動作の検出結果等に基づき、表示部２２および表示部４３における発話テキストの表示量を制御する。さらに、表示制御部３９は、ユーザＢと表示部４３との距離に応じて発話テキストを表示する際の文字サイズを設定する。

フィードバック制御部４０は、ユーザＡの発話速度、ユーザＡの発話の長さ、単位時間当たりの音声認識文字量、表示部４３に表示されている発話テキストの量、表示待ちリストに登録されている発話テキストの量、ユーザＢの既読の有無、ユーザＢの読み取り速度等に対応して、発話者であるユーザＡに対し、文字表示や音声出力を用いて、発話速度を早く（または遅く）するように通知したり、発話を区切るように通知したり、次の発声を促したりするフィードバックを制御する。また、フィードバック制御部４０は、表示部４３に表示されている発話テキストの量、表示待ちリストに登録されている発話テキストの量、ユーザＢの既読の有無、ユーザＢの読み取り速度等に対応して、ユーザＢに対し、文字表示等を用いて、発話テキストを読むように促すフィードバックを制御する。

なお、情報処理部３０が有する上述した機能ブロックは、全てが同一の筐体に収められている必要はなく、分散して配置されていてもよい。また、これらの機能ブロックの一部または全てがインターネット上のサーバ、いわゆる、クラウドネットワーク上に配置されていてもよい。

＜本技術の実施の形態である会話支援装置の第２の構成例＞
図４は、本技術の実施の形態である会話支援装置の第２の構成例を示している。該第２の構成例では、会話支援装置１０が異なる複数の電子装置から成るシステムとして構成される。この場合、会話支援装置１０を構成する複数の電子装置間の接続は、有線接続でもよいし、所定の無線通信（例えば、Bluetooth（登録商標）、Wi-Fi（商標）等）を用いてもよい。

該第２の構成例は、会話支援装置１０が、ユーザＡが用いるスマートフォン５０と、ユーザＢが用いるタブレット型PC（以下、タブレットと称する）６０から構成される。

図５は、図２に示された会話支援装置１０の構成要素を、スマートフォン５０とタブレット型PC６０とに区分した状態を示している。

すなわち、会話支援装置１０の構成要素のうち、集音部２１、表示部２２、操作入力部２３、および情報処理部３０は、スマートフォン５０によって実現される。この場合、スマートフォン５０が備えるマイクロフォン、ディスプレイ、およびタッチパネル等がそれぞれ、集音部２１、および操作入力部２３に相当する。また、スマートフォン５０が実行するアプリケーションプログラムが情報処理部３０に相当する。

また、会話支援装置１０の構成要素のうち、撮像部４１、集音部４２、表示部４３、および操作入力部４４は、タブレット６０によって実現される。この場合、タブレット６０が備えるカメラ、マイクロフォン、ディスプレイ、およびタッチパネル等がそれぞれ撮像部４１、集音部４２、表示部４３、および操作入力部４４に相当する。

ただし、図５の場合、情報処理部３０が有する機能ブロックのうちの音声認識部３１が、インターネット７１を介して接続可能なサーバ７２に配置されている。

＜本技術の実施の形態である会話支援装置の第３の構成例＞
図６は、本技術の実施の形態である会話支援装置の第３の構成例を示している。該第３の構成例は、会話支援装置１０が異なる複数の電子装置から成るシステムとして構成される。

すなわち、該第３の構成例は、ユーザＡが用いるスマートフォン５０と、ベッドに横たわるユーザＢが見ることができる位置、例えば、部屋の壁や天井に、発話テキストを表示する映像を投影するプロジェクタ８０と、天井などに配置されているカメラ１１０とから構成される。

図７は、図２に示された会話支援装置１０の構成要素を、スマートフォン５０と、プロジェクタ８０と、カメラ１１０とに区分した状態を示している。

すなわち、会話支援装置１０の構成要素のうち、集音部２１、表示部２２、操作入力部２３、および情報処理部３０は、スマートフォン５０によって実現される。

また、会話支援装置１０の構成要素のうち、撮像部４１、および集音部４２は、カメラ１１０によって実現される。この場合、カメラ１１０が備えるイメージセンサ、およびマイクロフォンがそれぞれ撮像部４１、および集音部４２に相当する。

会話支援装置１０の構成要素のうち、表示部４３、および操作入力部４４は、プロジェクタ８０によって実現される。この場合、プロジェクタ８０が備える投影部、およびリモートコントローラがそれぞれ表示部４３、および操作入力部４４に相当する。

図７の場合も、情報処理部３０が有する機能ブロックのうちの音声認識部３１が、インターネット７１を介して接続可能なサーバ７２に配置されている。

＜本技術の実施の形態である会話支援装置の第４の構成例＞
図８は、本技術の実施の形態である会話支援装置の第４の構成例を示している。該第４の構成例は、会話支援装置１０が異なる複数の電子装置から成るシステムとして構成される。

すなわち、該第４の構成例は、ユーザＡが用いる首掛けマイク１００と、ユーザＡおよびユーザＢが見ることができる位置に配置されているテレビジョン受像機（以下、ＴＶと称する）９０と、ＴＶ９０に載置されているカメラ１１０とから構成される。

図９は、図２に示された会話支援装置１０の構成要素を、首掛けマイク１００と、ＴＶ９０と、カメラ１１０とに区分した状態を示している。

すなわち、会話支援装置１０の構成要素のうち、集音部２１は、首掛けマイク１００によって実現される。なお、首掛けマイク１００には、集音部２１の他、音声を出力するスピーカが設けられていてもよい。

会話支援装置１０の構成要素のうち、撮像部４１、および集音部４２は、カメラ１１０によって実現される。

会話支援装置１０の構成要素のうち、表示部４３、および操作入力部４４は、ＴＶ９０によって実現される。この場合、ＴＶ９０が備えるディスプレイ、およびリモートコントローラがそれぞれ表示部４３および操作入力部４４に相当する。なお、ＴＶ９０が備えるディスプレイ、およびリモートコントローラは、ユーザＡ用の表示部２２および操作入力部２３を兼ねているものとする。

図９の場合も、情報処理部３０が有する機能ブロックのうちの音声認識部３１が、インターネット７１を介して接続可能なサーバ７２に配置されている。

上述した第１乃至第４の構成例のように、会話支援装置１０は、１つの電子装置として構成することができるし、複数の電子装置を組み合わせたシステムとして構成することもできる。なお、上述した第１乃至第４の構成例は、適宜組み合わせることが可能である。

また、会話支援装置１０をシステムとして構成する電子装置としては、上述した例の他、時計型端末やヘッドマウントディスプレイ等のウェアラブル機器、PC（パーソナルコンピュータ）用のモニタ等を採用することができる。

＜会話支援装置１０の動作＞
次に、会話支援装置１０の動作について説明する。

図１０は、会話支援装置１０による表示待ちリスト生成処理を説明するフローチャートである。この表示待ちリスト生成処理は、会話支援装置１０が起動された後、電源がオフとされるまで、繰り返して実行される。

ステップＳ１において、ユーザＡが発話すると、その音声が集音部２１によって取得される。集音部２１は、ユーザＡの音声を発話信号に変換して情報処理部３０に供給する。ステップＳ２において、情報処理部３０では音声認識部３１が音声認識処理を行うことにより、ユーザＡの発話に対応する発話信号を発話テキストに変換する。

ステップＳ３において、解析部３５は、音声認識部３１によって生成されたユーザＡの発話に対応する発話テキストを解析する。ステップＳ４において、編集部３６は、解析結果に基づき、ユーザＡの発話に対応する発話テキストに対し、改行、改頁、またはテキスト量抑制処理のうちの少なくとも一つを含む編集処理を行い、編集処理済の発話テキストを表示待ちリスト保持部３８に供給する。

ステップＳ５において、表示待ちリスト保持部３８は、編集部３６から供給された編集処理済の発話テキストを時系列順に保持する。この後、処理はステップＳ１に戻されて、それ以降が繰り返される。

図１１は、会話支援装置１０による発話テキスト表示処理を説明するフローチャートである。この発話テキスト表示処理は、上述した表示待ちリスト生成処理と並行し、会話支援装置１０が起動された後、電源がオフとされるまで、繰り返して実行される。

ステップＳ１１において、表示制御部３９は、現在、表示部２２および４３の画面に発話テキストが表示されているか否かを判定する。表示されていると判定した場合、処理はステップＳ１２に進められる。ステップＳ１２において、表示制御部３９は、現在表示されている発話テキストの表示が開始されてから、予め定められている最短表示時間が経過しているか否かを判定し、最短表示時間が経過するまで待機する。最短表示時間が経過した場合、処理はステップＳ１３に進められる。

ステップＳ１３において、表示制御部３９は、音声認識部３１から供給される、ユーザＢの既読を表す特定のキーワードの検出結果、および画像認識部３２から供給される、ユーザＢの既読を表す特定の動作の検出結果に基づき、表示されている発話テキストに対するユーザＢの既読を検知できたか否かを判定する。

図１２は、ステップＳ１３におけるユーザＢの既読検知の判定の例を示している。

例えば、ユーザＢによる発話の音声認識結果から「うん」等の既読を表す特定のキーワードが検出された場合、それが検知できた時点でユーザＢが理解したと推定し、ユーザＢの既読を検知できたと判定する。

また例えば、ユーザＢを撮像した動画像の画像認識結果から、うなずき等の既読を表す特定の動作が検出された場合、それが所定回数（例えば、２回）検知できた時点でユーザＢが理解したと推定し、ユーザＢの既読を検知できたと判定する。

また例えば、ユーザＢを撮像した動画像の画像認識結果から、ユーザＢが画面（表示部４３）を注視していた後に画面以外の方向を見る状態が検出された場合、それが所定時間継続した時点でユーザＢが理解したと推定し、ユーザＢの既読を検知できたと判定する。

また例えば、ユーザＡによる発話の音声認識結果から、ユーザＡが新たに発話したことが検出された場合、それが検知できた時点でユーザＡとユーザＢの間で会話が進行しており、ユーザＢが理解したと推定し、ユーザＢの既読を検知できたと判定する。

なお、ユーザＢの既読判定は、上述した例に限られるものではない。例えば、既読を表す特定のキーワードや、既読を表す特定の動作については、ユーザが任意に追加できるようにしてもよい。

図１２に戻り、ステップＳ１３において、ユーザＢの既読を検知できなかった場合、処理はステップＳ１４に進められる。ステップＳ１４において、表示制御部３９は、現在表示されている発話テキストの表示が開始されてから、予め定められている最長表示時間が経過しているか否かを判定し、最長表示時間が経過するまで処理をステップＳ１３に戻してステップＳ１３およびＳ１４を繰り返す。そして、ユーザＢの既読を検知するか、または、最長表示時間が経過した場合、処理はステップＳ１５に進められる。

ステップＳ１５において、表示制御部３９は、表示待ちリストから時系列順に発話テキストを読み出し、読み出した発話テキストを画面上に表示するための画像信号を生成して表示部２２および表示部４３に供給する。このとき、表示部２２および表示部４３の画面が既に発話テキストで一杯である場合、画面がスクロールされて、最も先に表示されていた発話テキストが画面上から消え、新たに表示待ちリストから読み出された発話テキストが画面上に表示される。

なお、ステップＳ１１において、現在、表示部２２および４３の画面に発話テキストが表示されていないと判定された場合、ステップＳ１２乃至Ｓ１４はスキップされて、処理はステップＳ１５に進められる。

この後、処理はステップＳ１１に戻されて、それ以降が繰り返される。

以上説明したように、表示待ちリスト生成処理と発話テキスト表示処理が平行して実行されることにより、ユーザＡの発話が発話テキストとしてユーザＢに提示され、ユーザＢの既読を待って、順次、発話テキストの表示が進められる。

＜改行、改頁、またはテキスト量抑制処理のうちの少なくとも一つを含む編集処理の具体例＞
次に、編集部３６による改行、改頁、またはテキスト量抑制処理のうちの少なくとも一つを含む編集処理の具体例について説明する。

図１３は、例えば、小学生であるユーザＡと、その母親であるユーザＢとが、会話支援装置１０を用いて会話を行う場合の様子である。同図においては、ユーザＡが「昨日ね学校に行ったら修学旅行のお金を集めるから10000円持ってきてくれって言われた」と一気に区切ることなく発声しているものとする。

図１４は、図１３に示された状況における表示部４３の表示例を示している。ただし、図１４のＡは編集処理が反映されていない状態を示し、図１４のＢは、編集処理のうち、改行、および改頁が反映された状態を示し、図１４のＣは改行、改頁、およびテキスト量抑制処理の全てが反映されている状態を示している。

図１３に示されるように、ユーザＡが発声を区切ることなく一気に発生した場合、表示部４３には、当初、図１４のＡに示されるように、編集処理が反映されていない発話テキストが表示される。この状態は、意味や文脈に拘わりなく改行、改頁されるので、読みづらく、また、数値（同図の場合、10000円）が途中で分断されるため、数値を誤って理解されてしまう可能性が有る。

図１４のＡの表示に対し、ユーザＢが第１の操作（例えば、画面をタップする操作）を行うと、編集処理のうちの改行、および改頁が反映されて、図１４のＢに示されるように、発話テキストの意味や文脈に応じた改行や改頁が行われるので、読み易くなり、数値などの誤理解を抑止できる効果が期待できる。

図１４のＢの表示に対し、ユーザＢが第２の操作（例えば、画面をダブルタップする操作）を行うと、さらに、テキスト量抑制処理が反映されて、図１４のＣに示されるように、発話テキストのテキスト量が、意味や文脈が損なわれることなく抑制される。よって、上述した効果に加えて、ユーザＢの既読に要する時間を短縮できる効果を期待できる。

なお、図１４のＣの表示に対し、ユーザＢが第３の操作（例えば、画面をスワイプする操作）を行うと、表示されている発話テキストが画面から消去されるようにしてもよい。

また、図１４のＢの表示に対し、ユーザＢが第１の操作を行った場合、図１４のＡの表示に戻るようにしてもよい。同様に、図１４のＣの表示に対し、ユーザＢが第２の操作を行った場合、図１４のＢの表示に戻るようにしてもよい。

あるいは、図１４のＡの表示に対し、ユーザＢが第１の操作を行うと図１４のＢの表示となり、さらに、ユーザＢが第１の操作を行うと図１４のＣの表示となり、さらに、ユーザＢが第１の操作を行うと、表示されている発話テキストが画面から消去されるようにしてもよい。この後、再びユーザＢが第１の操作を行う毎に、図１４のＣ、図１４のＢ、または図１４のＡの表示に戻るようにしてもよい。

なお、上述した説明では、ユーザＢによる操作に対応して、表示されている発話テキストに編集処理を反映するようにしたが、ユーザＡによる操作に応じて、表示されている発話テキストに編集処理を反映することも可能である。また、第１の操作、第２の操作、または第３の操作の少なくとも一つが、本技術の一側面における所定の操作として見做されてもよい。

＜テキスト量抑制処理を含む編集処理の他の具体例＞
次に、テキスト量抑制処理を含む編集処理の他の具体例について説明する。

図１５は、ユーザＡとユーザＢが会話支援装置１０を用いて会話を行う場合の様子である。ただし、ユーザＢの図示は省略されている。同図の場合、ユーザＡが「おはようございます」、「明日は１０時に品川駅に集合ね」等と比較的短い文を区切って発声しているものとする。

図１６は、図１５に示されたユーザＡの発話に対応する発話テキストの表示部４３における表示例を示している。ユーザＡに発話が比較的短い文を区切って発声している場合、それに対応する発話テキストも、同図に示されるように、短分毎に区切って表示される。なお、同図の場合、「おはようございます」以外の発話テキストは、名詞や動詞を残して助詞等を消去するテキスト量抑制処理が反映された状態が表示されている。すなわち、本具体例のテキスト量抑制処理において、発話テキストの意味や文脈の理解のための重要性が低い品詞が適宜省略される。なお、省略する文言は品詞に限られず、ユーザによって適宜設定されてもよい。

なお、消去しても発話テキストの意味や文脈が損なわれない助詞等を消去する代わりに、助詞等を、発話テキストの意味や文脈に関わる名詞や動詞等よりも目立たないように表示してもよい。換言すれば、名詞や動詞等が助詞等よりも目立つように発話テキストを表示するようにしてもよい。

図１７は、助詞等の文字サイズを、発話テキストの意味や文脈に関わる名詞や動詞等よりも小さくして、名詞や動詞等を目立たせるようにした表示例を示している。

また図示は省略するが、助詞等の文字の色を薄く、名詞や動詞等の文字の色を濃く表示するようにしたり、助詞等の文字の輝度を低く、名詞や動詞等の文字の輝度を高く表示するようにしたり、助詞等の文字の線を細く、名詞や動詞等の文字の線を太く表示するようにしたりしてもよい。

上述したように、発話テキストの意味に影響を及ぼさない助詞等を目立たせず、発話テキストの意味に影響を及ぼす名詞や動詞等を目立つように表示すれば、ユーザＢは、目立たない助詞等を読まず、目立つ名詞や動詞等を読むことになる。よって、発話テキストが有する意味を損なうことなく、ユーザＢが既読するまでに要する時間を短縮することができる。

＜編集部３６による編集処理の具体例＞
次に、画面上に表示された発話テキストに対するユーザによるボタン操作に対応した編集処理について説明する。

図１８は、ユーザＡ用の表示部２２に表示される各発話テキストに対応して消去ボタン１１１を設けた場合の表示例を示している。なお、図１８に示される各発話テキストは、図１５に示されたユーザＡに発話に対応するものである。

例えば、ユーザＡが自身の発話の音声認識結果である発話テキストに誤認識を発見した場合、消去ボタン１１１を操作することにより、当該発話テキストを消去させることができる。

図１８の表示例の場合、本来であれば「品川」に認識されるべき単語が「自奈川」に誤認識されているので、この誤認識を発見したユーザＡが消去ボタン１１１を操作すると、「自奈川」を含む発話テキストが消去される。そして、「自奈川」を含む発話テキストが消去されたことが誤認識学習部３３に学習される（誤認識リスト３４に登録される）。

すなわち、ユーザＡは、消去ボタン１１１を操作することにより、誤認識された発話テキストや言い間違えた発話に対応する発話テキストを消去することができる。

なお、ユーザＢ用の表示部４３にも消去ボタン１１１を設けることができる。その場合、ユーザＢは、消去ボタン１１１を操作することにより、例えば、読み終わった発話テキストを消去することができる。

ユーザＢによる消去ボタン１１１の操作によって発話テキストを消去した場合、その旨をユーザＡ側に通知するようにする。これにより、ユーザＡは、消去された発話テキストに対するユーザＢの既読を確認することができる。反対に、ユーザＡによる消去ボタン１１１の操作によって発話テキストを消去した場合、その旨をユーザＢ側に通知するようにしてもよい。この通知の方法は、画面表示を用いてもよいし、音声出力を用いてもよい。

図１９は、ユーザＡ用の表示部２２に表示される各発話テキストに対応して再発話ボタン１１２を設けた場合の表示例を示している。なお、図１９に示される各発話テキストは、図１５に示されたユーザＡに発話に対応するものである。

例えば、ユーザＡが自身の発話の音声認識結果である発話テキストに誤認識を発見した場合、再発話ボタン１１２を操作することにより、当該発話テキストを言い直す（再度発話する）ことができる。

図１９の表示例の場合、本来であれば「品川」に認識されるべき単語が「自奈川」に誤認識されているので、この誤認識を発見したユーザＡが再発話ボタン１１２を操作し、改めて「明日は１０時に品川に集合ね」等と発声すると、現在表示されている「明日は１０時に自奈川に集合ね」が、再発話の音声認識結果である発話テキスト（正しく認識された場合「明日は１０時に品川に集合ね」）によって置換される。また、「自奈川」を含む発話テキストが置換されたことが誤認識学習部３３に学習される（誤認識リスト３４に登録される）。

すなわち、ユーザＡは、再発話ボタン１１２を操作することにより、誤認識された発話テキストや言い間違えた発話に対応する発話テキストの表示を、その位置に再発話に対応する発話テキストによって置換させることができる。

なお、発話テキスト全体（いまの場合、「明日は・・・集合ね」）を再発話するのではなく、単語（例えば、自奈川）を選択し、その単語だけを再発話できるようにしてもよい。

また、ユーザＢ用の表示部４３にも再発話ボタン１１２を設けることができる。その場合、ユーザＢが再発話ボタン１１２を操作したことに対応して、ユーザＡ側に再発話を促すように通知するようにする。この通知の方法は、画面表示を用いてもよいし、音声出力を用いてもよい。

図２０は、ユーザＡ用の表示部２２に表示される各発話テキストに対応してNGワード登録ボタン１１３を設けた場合の表示例を示している。なお、図２０に示される各発話テキストは、図１５に示されたユーザＡに発話に対応するものである。

例えば、ユーザＡが自身の発話の音声認識結果である発話テキストに誤認識を発見し、その誤認識結果を再度出現させたくない場合、NGワード登録ボタン１１３を操作することにより、NGワードとして登録することができる。

図２０の表示例の場合、ユーザＡの何らかの発話が「エロ漫画」と誤認識されて表示されており、この単語を２度と表示させたくないと思ったユーザＡがNGワード登録ボタン１１３を操作すると、表示されている発話テキスト「エロ漫画」が消去され、「エロ漫画」がNGワードとして誤認識学習部３３に登録される（誤認識リスト３４に登録される）。

すなわち、ユーザＡは、NGワード登録ボタン１１３を操作することにより、誤認識され、再表示させたくない単語をNGワードとして登録することができる。

なお、ユーザＢ用の表示部４３にもNGワード登録ボタン１１３を設けることができる。その場合、ユーザＢもNGワード登録ボタン１１３を操作することにより、再表示させたくない単語をNGワードとして登録することができる。

図２１は、ユーザＡ用の表示部２２に表示される各発話テキストに対応して追記ボタン１１４を設けた場合の表示例を示している。なお、図２１に示される各発話テキストは、図１５に示されたユーザＡに発話に対応するものである。

例えば、ユーザＡが自身の質問等の発話の音声認識結果である発話テキストに対して「？」を追記した方がユーザＢの理解が高まると考えた場合、追記ボタン１１４を操作することにより、当該発話テキストに「？」を追記することができる。

図２１の表示例は、既に追記ボタン１１４が操作された結果を示しており、ユーザＡの発話に対応する発話テキスト「今日のお昼はもう薬飲んだ」に対して「？」が追記されている。この場合、「今日のお昼はもう薬飲んだ」に対して「？」が追記されたことが、追記学習部３７に登録される。

すなわち、ユーザＡは、追記ボタン１１４を操作することにより、発話テキストに対して「？」を追記することができる。

また、ユーザＢ用の表示部４３にも追記ボタン１１４を設けることができる。その場合、ユーザＢは、表示されている発話テキストの意味が分からなかったり、より詳細な内容を知りたかったりした場合などにおいて、表示されている発話テキストに含まれる単語等を選択した後、追記ボタン１１４を操作することにより、ユーザＡ側に単語等の意味を問い合わせることができる。

なお、「？」以外の記号や絵文字、顔文字などを追記できるように、追記ボタン１１４が操作された場合、追記する記号等をユーザに選択させるようにしてもよい。

上述した説明では、消去ボタン１１１、再発話ボタン１１２、NGワード登録ボタン１１３、および追記ボタン１１４を、それぞれ個別に表示するようにしているが、これらが同時に表示されるようにしてもよい。

また、各ボタンを表示する代わりに、消去指示、再発話指示、NGワード登録、および追記指示に対して、所定のタッチ操作（例えば、操作入力部２３がタッチパネルである場合、タップ操作、ダブルタップ操作、ロングタップ操作、フリック操作等）を割り当てるようにしてもよい。さらに、各ボタンを表示する代わりに、消去指示、再発話指示、NGワード登録、および追記指示に対して、ユーザＡまたはユーザＢが行う三次元的なジェスチャ操作を割り当てるようにしてもよい。ここで、タッチ操作は二次元的なジェスチャ操作として見做されてもよい。また、三次元的なジェスチャ操作は、加速度センサやジャイロセンサが有するコントローラを利用して行われてもよく、ユーザの動作に関する画像認識結果を利用して行われてもよい。本明細書中において、これらのタッチ操作および三次元的なジェスチャ操作を、単に“ジェスチャ操作”という場合がある。

なお、ウェアラブル機器、特にヘッドマウントディスプレイが用いられる場合、ジェスチャ操作としてユーザＢのうなずく動作や首を振る動作などがジェスチャ操作として割り当てられ得る。ウェアラブル機器に視線検出の機能が採用される場合、表示された発話テキストに対するユーザＢの視線の移動に応じた身体的動作をジェスチャ操作として学習してもよい。このような構成によれば、ジェスチャ操作に応じた既読判定の精度を高めることが可能になる。

またさらに、各ボタンを表示する代わりに、消去指示、再発話指示、NGワード登録、および追記指示に対して、ユーザＡまたはユーザＢが発声する所定のマジックワードを割り当てるようにしてもよい。

さらに、ユーザＡが発話の直後に、消去指示に割り当てられている所定のジェスチャを行うか、または所定のマジックワードを発声した場合、その発話に対応する発話テキストの表示を中止できるようにしてもよい。

ここで、発話テキストの表示の中止は、解析途中のテキストの表示の中止、すなわち、未表示のテキストの表示処理の中止を含み得る。また、発話テキストの表示を中止する場合、テキスト情報の解析により、消去指示が行われる直前の一文をまとめて消去してもよい。これにより、ユーザＡが意図せず音声入力を行ってしまったテキスト情報（独り言やフィラー後など）をキャンセルすることが可能になる。また、発話の前に、ユーザＡが音声入力を行わないことを示す所定のジェスチャ、または所定のマジックワードを発声した場合、情報処理部３０は、当該所定のジェスチャ、または所定のマジックワードの直後に入力される音声入力の表示を禁止してもよい。これにより、ユーザＡは、発話を伝えない状態を任意に選択することができるため、意図しない発話の表示を抑制することができる。

＜会話支援装置１０の応用例＞
次に、会話支援装置１０の応用例について説明する。

図２２は、会話支援装置１０を３人以上で使用できるようにした場合の使用状況の一例を示している。同図の場合、聴力に不安を持たないユーザＡ１，Ａ２，Ａ３と、聴力に不安を持つユーザＢとの間の会話を支援するために会話支援装置１０が使用されている。

ユーザＡ１乃至Ａ３は、それぞれユーザＡ用のスマートフォン５０を有しており、所定の距離範囲に存在するスマートフォン５０がグループ化されて、それぞれが集音した発声に対応する発話テキストが、ユーザＢ用の表示部４３に一括して表示される。

なお、所定の距離範囲に存在するスマートフォン５０を検知する方法としては、例えば、各スマートフォン５０が相互に所定の音波を出力し、自己以外が出力した該音波を集音、解析することで実現できる。また、例えば、天井に設置しているカメラ１１０によって得られる画像からスマートフォン５０を検知し、各スマートフォン５０の位置を特定するようにしてもよい。

ユーザＢ用の表示部４３には、ユーザＡ１乃至Ａ３の発話に対応する発話テキストが時系列順に表示されるが、表示されている発話テキストが、ユーザＡ１乃至Ａ３の誰から発声されたものであるのかをユーザＢが判別できるように、各発話テキストに対応付けて発話者を表す発話者マーク１２１を表示するようにする。

図２３は、表示されている発話テキストが、ユーザＡ１乃至Ａ３の誰から発声されたものであるのかを表す他の方法として、ユーザＢが表示部４３を見た状態において、発話者がどの方向に居るのかを表す発話方向指示マーク１３１を画面上に表示している。

図２３の場合、ユーザＢが表示部４３を見た状態において右側に居るユーザＡ３の発話に対応する発話テキストが画面上に表示されているので、表示部４３の画面の右側に発話方向指示マーク１３１が表示される。

なお、ユーザＢが表示部４３を見た状態におけるユーザＡ１，Ａ２，Ａ３の相対的な方向は、例えば、天井に設置しているカメラ１１０によって得られる画像から検知することができる。

図２４は、テーブルをはさんで向かい合うユーザＡとユーザＢが会話支援装置１０を使用している状況である。この場合、プロジェクタ８０により、ユーザＡ用の表示部２２の画面とユーザＢ用の表示部４３の画面を一括して当該テーブルに投影するようにしてもよい。このとき、ユーザＡ用の表示部２２の画面はユーザＡが読み易い向きに、ユーザＢ用の表示部４３の画面はユーザＢが読み易い向きに表示するようにする。

＜発話者であるユーザＡに対するフィードバック＞
図２５は、会話支援装置１０を使用しているユーザのうち、発話者であるユーザＡに対するフィードバックの一例を示している。

例えば、表示部４３における発話テキストの表示が一杯になった場合、フィードバック制御部４０に制御により、発話者であるユーザＡに対して、例えば「Slow down」、「画面が一杯になりました」、「ゆっくり話してください」、「待ってください」、「一度区切ってください」、「未読があります」等の発話速度を緩めるように通知するフィードバックが、スマートフォン５０等を用いた文字表示や音声出力によって行われる。

なお、ユーザＡの発話速度や発話の区切りの長短に応じたインジケータを画面に表示したり、アラーム音等を出力したりするようにしてもよい。

そして、ユーザＡが、音声認識や画面表示に対して最適な速度や区切りで発話している場合には、ユーザＡに対してポイントを付与し、付与されたポイントに応じてユーザＡが何らかのサービス特典やランキングを得られるようにしてもよい。

＜他の応用例＞
本実施の形態においては、会話支援装置１０を、聴力に不安を持たないユーザＡと、聴力に不安を持つユーザＢとの間の会話を支援する用途で用いるようにしたが、本技術は、例えば、使用する言語が異なる人どうしの会話を支援する用途に応用することができる。その場合、音声認識処理の後、翻訳処理を行うようにすればよい。

また、会話支援装置１０により、ユーザＡが発話するときの口元を動画像として撮像しておき、発話テキストを表示するとともに、ユーザＡの口元の動画像を表示するようにしてもよい。この場合、発話テキストの表示と、ユーザＡの口元の動画像の動きを同期させて表示するようにしてもよい。このようにした場合、会話支援装置１０を、例えば、読唇術の学習の用いることができる。

また、会話支援装置１０により、ユーザＡの発話を録音するとともに、その音声認識結果である発話テキストを対応付けて保存するようにし、この保存結果を後程改めて再生、表示できるようにしてもよい。

さらに、会話支援装置１０に対して、ユーザＡによるリアルタイムの発話を入力するだけでなく、録音されている音声を入力できるようにしてもよい。

＜情報処理部３０の他の構成例＞
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。上記した第２の構成例におけるスマートフォン５０は、該コンピュータに相当する。

図２６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ２００において、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、およびドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

以上のように構成されるコンピュータ２００では、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５およびバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ２００（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータ２００では、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータ２００が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

本技術は以下のような構成も取ることができる。
（１）
音声入力装置に入力された第１のユーザの音声情報を取得する音声取得部と、
第２のユーザのための表示装置における、取得された前記音声情報に対応するテキスト情報の表示を制御する表示制御部と
を備え、
前記表示制御部は、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御を行う
情報処理装置。
（２）
前記表示制御部は、前記テキスト情報の表示量が所定の量以上となった場合、前記テキスト情報の表示量を抑制する
前記（１）に記載の情報処理装置。
（３）
前記表示制御部は、前記テキスト情報に含まれる所定の品詞の表示量を抑制することによって、前記テキスト情報の表示量を抑制する
前記（１）または（２）に記載の情報処理装置。
（４）
前記表示制御部は、前記第１のユーザまたは前記第２のユーザによる所定の操作に基づいて、前記テキスト情報の表示量を抑制する
前記（１）から（３）のいずれかに記載の情報処理装置。
（５）
前記所定の操作は、前記第１のユーザまたは前記第２のユーザによる第１の操作を含み、
前記表示制御部は、前記テキスト情報の表示量を抑制した後、前記第１の操作に基づいて、前記テキスト情報の表示を消去させる
前記（４）に記載の情報処理装置。
（６）
前記所定の操作は、前記第１のユーザまたは前記第２のユーザによる第２の操作を含み、
前記表示制御部は、前記テキスト情報の表示を消去させた後、前記第２の操作に基づいて、前記表示装置において消去させた前記テキスト情報を再び表示させる
前記（５）に記載の情報処理装置。
（７）
前記表示制御部は、前記テキスト情報の解析結果に従い、前記テキスト情報の表示の改行または改頁の少なくとも一方を制御する
前記（１）から（６）のいずれかに記載の情報処理装置。
（８）
前記第１のユーザまたは前記第２のユーザの一方が前記テキスト情報に関する操作を行った場合、前記テキスト情報に関する操作が行われたことを示す情報を、前記第１のユーザまたは前記第２のユーザの他方に対して通知する通知部をさらに備える
前記（１）から（７）のいずれかに記載の情報処理装置。
（９）
前記通知部は、前記第１のユーザまたは前記第２のユーザの一方が、前記テキスト情報の表示量を抑制させる操作を行った場合、前記第１のユーザまたは前記第２のユーザの他方に、前記テキスト情報の表示量が抑制されたことを通知する
前記（８）に記載の情報処理装置。
（１０）
前記通知部は、前記第１のユーザまたは前記第２のユーザの一方が、前記テキスト情報の表示を消去する操作を行った場合、前記第１のユーザまたは前記第２のユーザの他方に、前記テキスト情報の表示が消去されたことを通知する
前記（８）または（９）に記載の情報処理装置。
（１１）
前記通知部は、前記第２のユーザが、前記表示装置に表示された前記テキスト情報の再発話を要求する操作を行った場合、前記第１のユーザに再発話を促す通知を行う
前記（８）から（１０）のいずれかに記載の情報処理装置。
（１２）
前記通知部は、前記第２のユーザが、前記表示装置に表示された前記テキスト情報に関する問い合わせを要求するための操作を行った場合、前記第１のユーザに前記テキスト情報に関する問い合わせがあったことを通知する
前記（８）から（１１）のいずれかに記載の情報処理装置。
（１３）
前記表示制御部は、前記第２のユーザの発声または動作の少なくとも一方に基づく前記第２のユーザの既読検知の結果に基づいて、前記表示装置における前記テキスト情報の表示量を抑制する
前記（１）から（１２）のいずれかに記載の情報処理装置。
（１４）
前記表示制御部は、前記第１のユーザの発声または動作の少なくとも一方に基づき、前記表示装置における前記テキスト情報の表示を中止する
前記（１）から（１３）のいずれかに記載の情報処理装置。
（１５）
前記表示装置における前記テキスト情報の表示量または前記音声情報の入力量の少なくとも一方に基づき、前記第１のユーザまたは前記第２のユーザの少なくとも一方に対するフィードバック情報の通知を制御するフィードバック制御部をさらに備える
前記（１）から（１４）のいずれかに記載の情報処理装置。
（１６）
フィードバック情報は、前記第１のユーザに対して、発話速度、または発話区切りの少なくとも一方を変更するように促す情報である
前記（１５）に記載の情報処理装置。
（１７）
フィードバック情報は、前記第２のユーザに対して、前記表示装置に表示された前記テキスト情報の読み取りを促す情報である
前記（１５）または（１６）に記載の情報処理装置。
（１８）
前記第１のユーザの前記音声情報を前記テキスト情報に変換する音声認識部をさらに備え、
前記音声認識部は、前記情報処理装置の内部、または、インターネットを介して接続するサーバ上に設けられている
前記（１）から（１７）のいずれかに記載の情報処理装置。
（１９）
情報処理装置の情報処理方法において、
前記情報処理装置による、
音声入力装置に入力された第１のユーザの音声情報を取得する音声取得ステップと、
第２のユーザのための表示装置における、取得された前記音声情報に対応するテキスト情報の表示を制御する表示制御ステップと
を含み、
前記表示制御ステップは、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御を行う
情報処理方法。
（２０）
第１のユーザの音声情報を取得する音声入力装置と、
取得された前記音声情報に対応するテキスト情報の表示を制御する表示制御装置と、
前記表示制御装置からの制御に従い、前記テキスト情報を第２のユーザのために表示する表示装置と
を備え、
前記表示制御装置は、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御を行う
情報処理システム。

１０会話支援装置，２１集音部，２２表示部，２３操作入力部，３０情報処理部，３１音声認識部，３２画像認識部，３３誤認識学習部，３４誤認識リスト，３５解析部，３６編集部，３７追記学習部，３８表示待ちリスト保持部，３９表示制御部，４０フィードバック制御部，４１撮像部，４２集音部，４３表示部，４４操作入力部，５０スマートフォン，６０タブレット型PC，８０プロジェクタ，９０ TV，１００首掛けマイク，１１０カメラ，１１１消去ボタン，１１２再発話ボタン，１１３ NGワード登録ボタン，１１４追記ボタン，２００コンピュータ，２０１ CPU

Claims

音声入力装置に入力された第１のユーザの音声情報を取得する音声取得部と、
第２のユーザのための表示装置における、取得された前記音声情報に対応するテキスト情報の表示を制御する表示制御部と
を備え、
前記表示制御部は、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御を行い、
前記テキスト情報の表示量が所定の量以上となった場合、前記第１のユーザまたは前記第２のユーザによる所定の操作に基づいて、前記テキスト情報の表示量を抑制し、前記テキスト情報の表示量を抑制した後、前記第１のユーザまたは前記第２のユーザによる第１の操作に基づいて、前記テキスト情報の表示を消去させる
情報処理装置。
前記表示制御部は、前記テキスト情報に含まれる所定の品詞の表示量を抑制することによって、前記テキスト情報の表示量を抑制する
請求項１に記載の情報処理装置。
前記表示制御部は、前記テキスト情報の表示を消去させた後、前記第１のユーザまたは前記第２のユーザによる第２の操作に基づいて、前記表示装置において消去させた前記テキスト情報を再び表示させる
請求項１に記載の情報処理装置。
前記表示制御部は、前記テキスト情報の解析結果に従い、前記テキスト情報の表示の改行または改頁の少なくとも一方を制御する
請求項１に記載の情報処理装置。
前記第１のユーザまたは前記第２のユーザの一方が前記テキスト情報に関する操作を行った場合、前記テキスト情報に関する操作が行われたことを示す情報を、前記第１のユーザまたは前記第２のユーザの他方に対して通知する通知部をさらに備える
請求項１に記載の情報処理装置。
前記通知部は、前記第１のユーザまたは前記第２のユーザの一方が、前記テキスト情報の表示量を抑制させる操作を行った場合、前記第１のユーザまたは前記第２のユーザの他方に、前記テキスト情報の表示量が抑制されたことを通知する
請求項５に記載の情報処理装置。
前記通知部は、前記第１のユーザまたは前記第２のユーザの一方が、前記テキスト情報の表示を消去する操作を行った場合、前記第１のユーザまたは前記第２のユーザの他方に、前記テキスト情報の表示が消去されたことを通知する
請求項５に記載の情報処理装置。
前記通知部は、前記第２のユーザが、前記表示装置に表示された前記テキスト情報の再発話を要求する操作を行った場合、前記第１のユーザに前記再発話を促す通知を行う
請求項５に記載の情報処理装置。
前記通知部は、前記第２のユーザが、前記表示装置に表示された前記テキスト情報に関する問い合わせを要求するための操作を行った場合、前記第１のユーザに前記テキスト情報に関する前記問い合わせがあったことを通知する
請求項５に記載の情報処理装置。
前記表示制御部は、前記第２のユーザの発声または動作の少なくとも一方に基づく前記第２のユーザの既読検知の結果に基づいて、前記表示装置における前記テキスト情報の表示量を抑制する
請求項１に記載の情報処理装置。
前記表示制御部は、前記第１のユーザの発声または動作の少なくとも一方に基づき、前記表示装置における前記テキスト情報の表示を中止する
請求項１に記載の情報処理装置。
前記表示装置における前記テキスト情報の表示量または前記音声情報の入力量の少なくとも一方に基づき、前記第１のユーザまたは前記第２のユーザの少なくとも一方に対するフィードバック情報の通知を制御するフィードバック制御部をさらに備える
請求項１に記載の情報処理装置。
フィードバック情報は、前記第１のユーザに対して、発話速度、または発話区切りの少なくとも一方を変更するように促す情報である
請求項１２に記載の情報処理装置。
フィードバック情報は、前記第２のユーザに対して、前記表示装置に表示された前記テキスト情報の読み取りを促す情報である
請求項１２に記載の情報処理装置。
前記第１のユーザの前記音声情報を前記テキスト情報に変換する音声認識部をさらに備え、
前記音声認識部は、前記情報処理装置の内部、または、インターネットを介して接続するサーバ上に設けられている
請求項１に記載の情報処理装置。
情報処理装置の情報処理方法において、
前記情報処理装置による、
音声入力装置に入力された第１のユーザの音声情報を取得する音声取得ステップと、
第２のユーザのための表示装置における、取得された前記音声情報に対応するテキスト情報の表示を制御する表示制御ステップと
を含み、
前記表示制御ステップは、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御を行い、
前記テキスト情報の表示量が所定の量以上となった場合、前記第１のユーザまたは前記第２のユーザによる所定の操作に基づいて、前記テキスト情報の表示量を抑制し、前記テキスト情報の表示量を抑制した後、前記第１のユーザまたは前記第２のユーザによる第１の操作に基づいて、前記テキスト情報の表示を消去させる
情報処理方法。
第１のユーザの音声情報を取得する音声入力装置と、
取得された前記音声情報に対応するテキスト情報の表示を制御する表示制御装置と、
前記表示制御装置からの制御に従い、前記テキスト情報を第２のユーザのために表示する表示装置と
を備え、
前記表示制御装置は、前記表示装置における前記テキスト情報の表示量、または前記音声入力装置から入力された前記音声情報の入力量の少なくとも一方に基づいて、前記テキスト情報の表示量に関する制御を行い、
前記テキスト情報の表示量が所定の量以上となった場合、前記第１のユーザまたは前記第２のユーザによる所定の操作に基づいて、前記テキスト情報の表示量を抑制し、前記テキスト情報の表示量を抑制した後、前記第１のユーザまたは前記第２のユーザによる第１の操作に基づいて、前記テキスト情報の表示を消去させる
情報処理システム。