JP6852734B2

JP6852734B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP6852734B2
Application number: JP2018523347A
Authority: JP
Inventors: 真一河野; 祐平滝; 佑輔中川; 亜由美加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-06-21
Filing date: 2017-04-10
Publication date: 2021-03-31
Anticipated expiration: 2037-04-10
Also published as: EP3474275A1; JPWO2017221516A1; CN109313894A; EP3474275A4; US11217266B2; WO2017221516A1; US20200302950A1

Description

本開示は、情報処理装置及び情報処理方法に関する。

近年、ユーザの発話を認識し、認識した音声入力に対応する処理を実行する種々の装置が提案されている。また、認識結果に誤りがある場合、再入力された発話に基づいて当該誤りを修正する技術が知られている。例えば、特許文献１には、入力音声における所定区間ごとの認識候補から最も確からしい認識候補を選択し、認識結果の修正を行う音声認識装置が開示されている。

特開２００７−９３７８９号公報

しかし、特許文献１に記載の音声認識装置では、上記の所定区間が誤って設定された場合、ユーザが複数回発話を繰り返しても、ユーザが意図した認識結果を得ることが困難な場合がある。

そこで、本開示では、より柔軟な認識文章の修正を実現することが可能な情報処理装置および情報処理方法を提案する。

本開示によれば、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報とを比較する比較部と、前記比較部による比較結果に基づいて、前記第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定する設定部と、を備える、情報処理装置が提供される。

また、本開示によれば、収集された第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信する受信部と、前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御する出力制御部と、を備え、前記新たな区切り位置は、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報との比較結果に基づいて設定される、情報処理装置が提供される。

また、本開示によれば、プロセッサが、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報とを比較することと、前記第１の音関係情報と前記第２の音関係情報との比較結果に基づいて、前記第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定することと、を含む、情報処理方法が提供される。

また、本開示によれば、プロセッサが、収集された第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信することと、前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することと、を含み、前記新たな区切り位置は、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報との比較結果に基づいて設定される、情報処理方法が提供される。

以上説明したように本開示によれば、より柔軟な認識文章の修正を実現することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係るシステム構成例を示す図である。同実施形態に係る情報処理端末の機能ブロック図である。同実施形態に係る情報処理サーバの機能ブロック図である。同実施形態に係る新たな区切り位置に基づく文字変換について説明するための図である。同実施形態に係る新たな区切り位置に基づく文字変換について説明するための図である。同実施形態に係る区切り位置の信頼度の一例を示す図である。同実施形態に係る新たな区切り位置に基づく文字変換の別の例について説明するための図である。同実施形態に係る新たな区切り位置に基づく文字変換の別の例について説明するための図である。同実施形態に係る新たな区切り位置に基づく文字変換の別の例について説明するための図である。同実施形態に係る第１の発話情報に対する情報処理サーバの処理の流れを示すフローチャートである。同実施形態に係る情報処理サーバによる対象情報に基づく新たな区切り位置の設定の流れを示すフローチャートである。同実施形態に係る第２の発話情報に対する情報処理サーバの処理の流れを示すフローチャートである。同実施形態に係る情報処理サーバによる発話情報のみに基づく新たな区切り位置の設定の流れを示すフローチャートである。本開示に係るハードウェア構成例である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
１．実施形態
１．１．本開示に係る実施形態の概要
１．２．システム構成例
１．３．情報処理端末１０の機能構成例
１．４．情報処理サーバ２０の機能構成例
１．５．新たな区切り位置に基づく文字変換の具体例
１．６．情報処理サーバ２０の動作の流れ
２．ハードウェア構成例
３．まとめ

＜１．実施形態＞
［１．１．本開示に係る実施形態の概要］
近年、各種のゲーム機やスマートフォンアプリケーション、自律型ロボットなどにおいて、ユーザの発話を認識し、当該発話に基づいた処理を行う音声認識技術が普及している。音声認識技術を利用する装置では、例えば、キーボードなどの入力装置に代えて、ユーザの発話による文字入力を実現することも可能である。上記のような装置を利用する場合、ユーザは、キーボードなどによる文字入力の負荷を大幅に軽減することができる。

一方、音声認識を利用した文字入力では、ユーザが意図しない出力結果が得られた場合、当該出力結果を修正する手段が求められる。また、出力結果がユーザの意図とは異なる区切り位置で文字変換されている場合、上記の区切り位置を修正する手段を有しない装置では、発話を繰り返してもユーザの意図する出力結果を得ることが困難であった。

本開示に係る情報処理装置は、上記の点に着目して発想されたものであり、入力された発話情報に基づいて、文字変換を行う区切り位置を修正することを可能とする。以降の説明においては、本開示に係る情報処理装置の特徴を挙げながら、当該特徴が奏する効果について述べる。

［１．２．システム構成例］
まず、本実施形態に係るシステム構成例について説明する。図１は、本実施形態に係るシステム構成例を示す図である。図１を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０、及び情報処理サーバ２０を備える。また、情報処理端末１０及び情報処理サーバ２０は、互いに通信が行えるように、ネットワーク３０を介して接続される。

（情報処理端末１０）
本実施形態に係る情報処理端末１０は、ユーザの発話情報を収集する機能を有する情報処理装置である。また、情報処理端末１０は、上記の発話情報に対応する文字変換の結果をユーザに提示する機能を有する。

このため、本実施形態に係る情報処理端末１０は、例えば、収集した発話情報を情報処理サーバ２０に送信し、当該発話情報に基づく文字変換の結果を受信できる。

なお、情報処理端末１０は、多様な形態で実現され得る。例えば、情報処理端末１０は、携帯電話、スマートフォン、タブレット、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ゲーム機、映像再生装置またはウェアラブル装置であってもよい。

（情報処理サーバ２０）
本実施形態に係る情報処理サーバ２０は、情報処理端末１０が収集した発話情報に基づく文字変換を行う機能を有する情報処理装置である。また、本実施形態に係る情報処理サーバ２０は、再入力された発話情報に基づいて、文字変換を行う区切り位置を変更する機能を有する。この際、本実施形態に係る情報処理サーバ２０は、例えば、先行して収集された発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定してよい。本実施形態に係る情報処理サーバ２０が有する上記の機能については、後に詳細に説明する。

（ネットワーク３０）
ネットワーク３０は、情報処理端末１０および情報処理サーバ２０を接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

以上、本実施形態に係るシステム構成例について説明した。なお、図１を用いた上記の説明では、情報処理端末１０および情報処理サーバ２０が、それぞれ独立した情報処理装置として実現される場合を例に述べたが、本実施形態に係るシステム構成例は、係る例に限定されない。本実施形態に係る情報処理端末１０および情報処理サーバ２０は、単一の情報処理装置として実現されてもよい。

一方、情報処理端末１０および情報処理サーバ２０が有する各機能は、３台以上の複数の情報処理装置に実現されてもよい。本実施形態に係るシステム構成例は、扱われる情報量やシステムの仕様、運用条件などに応じて柔軟に変形され得る。

［１．３．情報処理端末１０の機能構成例］
次に、本実施形態に係る情報処理端末１０の機能構成例について、詳細に説明する。図２は、本実施形態に係る情報処理端末１０の機能ブロック図である。図２を参照すると、本実施形態に係る情報処理端末１０は、入力部１１０、端末制御部１２０、出力部１３０、およびサーバ通信部１４０を備える。また、本実施形態に係る入力部１１０は、音声収集部１１２および操作取得部１１４を含む。また、本実施形態に係る出力部１３０は、表示部１３２および音声出力部１３４を含む。

以降、上記に示す各構成について当該構成が有する特徴を中心に詳細に説明する。なお、図２に示す機能構成はあくまで例示であり、本実施形態に係る情報処理端末１０は、図２に示される以外の機能構成をさらに備えてもよい。本実施形態に係る情報処理端末１０の機能構成は、装置の特性や運用条件などにより適宜変更され得る。

（入力部１１０）
入力部１１０は、ユーザによる各種の入力を検出する機能を有する。このため、入力部１１０は、ユーザの発話や、ユーザによる入力操作を検出するための各種のセンサや装置を含んでよい。特に、本実施形態においては、入力部１１０は、音声収集部１１２および操作取得部１１４を含んでよい。

（（音声収集部１１２））
音声収集部１１２は、ユーザの発話情報を収集する機能を有する。上記の発話情報には、ユーザの発した音声の他、周囲の環境音等が含まれてもよい。音声収集部１１２は、例えば、ユーザの音声や環境音を電気信号に変換するマイクロフォンにより実現され得る。

また、本実施形態に係る音声収集部１１２は、第１の発話情報および第２の発話情報を収集することができる。ここで、上記の第１の発話情報は、新規に収集された発話情報であってよく、上記の第２の発話情報は、第１の発話情報よりも後に取得された発話情報であってよい。本実施形態に係る第２の発話情報は、例えば、第１の発話情報が収集された後、所定時間内に収集された発話情報であってもよい。

（（操作取得部１１４））
操作取得部１１４は、情報処理端末１０に対するユーザの各種の入力操作を検出する機能を有する。本実施形態に係る操作取得部１１４は、例えば、ユーザによる文字変換結果の削除操作を検出することができる。この際、操作取得部１１４は、検出した入力操作に基づいて、第１の発話情報を特定する対象情報を生成することができる。本実施形態に係る対象情報の詳細については、後述する。

操作取得部１１４は、例えば、各種のボタン、キーボード、マウス、スイッチなどにより実現され得る。また、操作取得部１１４は、表示装置として併用されるタッチパネルにより実現されてもよい。

（端末制御部１２０）
端末制御部１２０は、情報処理端末１０により実行される各処理を制御する機能を有する。端末制御部１２０は、例えば、出力部１３０による各種の出力を制御してよい。本実施形態に係る端末制御部１２０は、特に、情報処理サーバ２０により設定される区切り位置に基づいて文字変換された変換結果の出力を制御することができる。この際、端末制御部１２０は、出力部１３０に上記の変換結果と上記の区切り位置とを対応づけて出力させてもよい。

（出力部１３０）
出力部１３０は、端末制御部１２０による制御に基づいて、発話情報に対応する文字変換の結果を出力する機能を有する。このため、本実施形態に係る出力部１３０は、上記の変換結果を出力するための各種の装置を含んでよい。特に、本実施形態においては、出力部１３０は、表示部１３２および音声出力部１３４を含んでよい。

（（表示部１３４））
表示部１３２は、受信した応答情報に基づいて、視覚情報を伴う出力を行う機能を有する。当該機能は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置により実現されてもよい。また、表示部１３２は、ユーザの操作を受け付ける入力部としての機能を有してもよい。入力部としての機能は、例えば、タッチパネルにより実現され得る。

（（音声出力部１３４））
音声出力部１３４は、電気信号を音に変換し出力する機能を有する。具体的には、音声出力部１３４は、受信した応答情報に含まれる音声情報に基づいた音声をユーザに提示する機能を有する。音声出力部１３４は、上記の機能を有するスピーカやアンプなどを含んでよい。

（サーバ通信部１４０）
サーバ通信部１４０は、ネットワーク３０を介して、情報処理サーバ２０との通信を行う機能を有する。本実施形態に係るサーバ通信部１４０は、例えば、上述した第１の発話情報および第２の発話情報を送信してよい。また、サーバ通信部１４０は、第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報や、当該新たな区切り位置に基づく新たな変換結果を受信してよい。

さらに、本実施形態に係るサーバ通信部１４０は、第１の発話情報を特定する対象情報を送信し、上記の対象情報に基づいて設定される新たな区切り位置に係る情報を受信することができる。

以上、本実施形態に係る情報処理端末１０の機能構成例について詳細に説明した。上述したとおり、本実施形態に係る情報処理端末１０は、第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信し、当該新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することができる。本実施形態に係る情報処理端末１０が有する上記の機能によれば、ユーザの意図しない区切り位置を修正した文字変換の結果をユーザに提示することが可能となる。

なお、上記で説明した機能構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は、係る例に限定されない。本実施形態に係る情報処理端末１０は、情報処理サーバ２０が有する各種の機能を実現する構成をさらに備えてもよい。情報処理端末１０は、例えば、後述する音声認識部２１０、比較部２２０、設定部２３０、変換部２４０、記憶部２５０のうちの一部またはすべてを備えるように構成されてもよい。本実施形態に係る情報処理端末１０の機能構成は、柔軟に変更され得る。

［１．４．情報処理サーバ２０の機能構成例］
次に、本実施形態に係る情報処理サーバ２０の機能構成例について詳細に説明する。図３は、本実施形態に係る情報処理サーバ２０の機能ブロック図である。図３を参照すると、本実施形態に係る情報処理サーバ２０は、音声認識部２１０、比較部２２０、設定部２３０、変換部２４０、記憶部２５０、および端末通信部２６０を備える。以降、上記に示す各構成について当該構成が有する特徴を中心に詳細に説明する。

（音声認識部２１０）
音声認識部２１０は、情報処理端末１０の音声収集部１１２が収集した発話情報に基づいて音声認識を行う機能を有する。具体的には、音声認識部２１０は、受信した第１の発話情報または第２の発話情報に基づく音声認識を行ってよい。また、音声認識部２１０は、発話情報に基づく音声認識結果と共に、音関係情報を記憶部２５０に記憶させることができる。ここで、上記の音関係情報とは、抽出された音素や音声認識結果における読みの情報であってよい。また、音声認識部２１０は、音声認識結果および音関係情報を比較部２２０に送信してもよい。

（比較部２２０）
比較部２２０は、収集された第１の発話情報から得られる第１の音関係情報と、第２の発話情報から得られる第２の音関係情報と、を比較する機能を有する。具体的には、本実施形態に係る比較部２２０は、第１の音関係情報と第２の音関係情報とが類似または同一であるかを判定することができる。この際、比較部２２０は、例えば、第１の音関係情報と第２の音関係情報とにおける類似度が所定の閾値を超えることに基づいて、両者の類似性を判定してもよい。

また、比較部２２０は、上述した操作取得部１１４により生成される対象情報に基づいて、第１の音関係情報と第２の音関係情報とを比較してもよい。すなわち、本実施形態に係る比較部２２０は、対象情報に基づいて、第２の発話情報との比較に用いる第１の発話情報を特定することもできる。また、比較部２２０は、第１の発話情報および第２の発話情報に係る比較結果を記憶部２５０に記憶させる。また、比較部２２０は、上記の比較結果を設定部２３０に送信してもよい。

（設定部２３０）
設定部２３０は、音声認識部２１０による音声認識結果に対し区切り位置を設定する機能を有する。ここで、本実施形態に係る区切り位置とは、例えば、文節、単語などの文字列、アクセント句などの音素列、音素、音節などの単位で設定されてもよい。特に、本実施形態に係る設定部２３０は、比較部２２０による上記の比較結果に基づいて、第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定することができる。設定部２３０は、例えば、上記の比較結果が類似または一致を示すことに基づいて、上記の処理を行うことができる。設定部２３０が有する上記機能の詳細については、後述する。また、設定部２３０は、設定した区切り位置に係る情報を記憶部２５０に記憶させることができる。設定部２３０は、上記の区切り位置に係る情報を変換部２４０に送信してもよい。

（変換部２４０）
変換部２４０は、設定部２３０が設定した新たな区切り位置に基づいて文字変換を行う機能を有する。この際、本実施形態に係る変換部２４０は、上記の新たな区切り位置に基づいて第２の発話情報に対応する文字変換を行ってもよい。すなわち、本実施形態に係る変換部２４０は、収集された第２の発話情報に基づく音声認識結果に対し、新たな区切り位置に基づく文字変換を行うことができる。

また、本実施形態に係る変換部２４０は、上記の新たな区切り位置に基づいて第１の発話情報に対応する文字変換を行ってもよい。すなわち、本実施形態に係る変換部２４０は、第１の発話情報から認識された文字変換済みの文章を、新たな区切り位置に基づいて再変換することができる。変換部２４０による文字変換の詳細については、後述する。また、変換部２４０は、上記の文字変換の結果を記憶部２５０に記憶させることができる。変換部２４０は、上記の文字変換の結果を端末通信部２６０に送信してもよい。

（記憶部２５０）
記憶部２５０は、情報処理端末１０から受信した各種の情報や、情報処理サーバ２０の各構成により生成される情報を記憶する機能を有する。本実施形態に係る記憶部２５０は、例えば、第１の発話情報および第２の発話情報に基づく音声認識の結果や、比較部２２０による比較結果、設定部２３０により設定される区切り位置に係る情報、変換部２４０による文字変換の結果などを記憶することができる。

（端末通信部２６０）
端末通信部２６０は、ネットワーク３０を介して、情報処理端末１０との通信を行う機能を有する。本実施形態に係る端末通信部２６０は、例えば、収集された第１の発話情報および第２の発話情報を受信することができる。また、端末通信部２６０は、操作取得部１１４により生成される対象情報を受信してよい。

さらに、本実施形態に係る端末通信部２６０は、設定部２３０が設定する新たな区切り位置に係る情報を送信することができる。また、端末通信部２６０は、変換部２４０による文字変換の結果を送信することができる。

以上、本実施形態に係る情報処理サーバ２０の機能構成例について詳細に説明した。上述したとおり、本実施形態に係る情報処理サーバ２０は、収集された第１発話情報と第２の発話情報とを比較し、当該比較結果に基づいて、音声認識結果に係る新たな区切り位置を設定することができる。また、本実施形態に係る情報処理サーバ２０は、設定した新たな区切り位置に基づく文字変換を行うことができる。本実施形態に係る情報処理端末１０が有する上記の機能によれば、ユーザの意図しない区切り位置を柔軟に修正することが可能となり、より精度の高い音声認識を実現することができる。

なお、上記で説明した機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は、係る例に限定されない。上述したとおり、本実施形態に係る情報処理サーバ２０が備える各構成のすべて、または一部は、情報処理端末１０の機能として実現されてもよい。また、情報処理サーバ２０が備える各構成の一部は、別の装置の機能として実現することもできる。本実施形態に係る情報処理端末１０の機能構成は、柔軟に変更され得る。

［１．５．新たな区切り位置に基づく文字変換の具体例］
次に、本実施形態に係る新たな区切り位置に基づく文字変換の具体例について説明する。図４Ａおよび図４Ｂは、新たな区切り位置に基づく文字変換について説明するための図である。図４Ａを参照すると、まず、ユーザは、新規の発話Ｕ１を行っている。本例では、発話Ｕ１が、“Ｉａｍｗｒｉｔｉｎｇａｔａｇｓｅｎｔｅｎｃｅ”、という内容である場合を例に説明する。

次に、本実施形態に係る情報処理サーバ２０は、発話Ｕ１に係る第１の発話情報を受信し、第１の発話情報に基づく音声認識を行う。図４Ａには、発話Ｕ１から認識された音関係情報Ｒ１が示されている。図４Ａに示す一例では、音関係情報Ｒ１は、“ＳｉａｍｆｉｇｈｔｉｎｇａｔａｇＳｅｎｔｅｎｃｅ”、と示されており、発話Ｕ１が誤って認識されていることを表している。なお、図４Ａにおいて、音関係情報Ｒ１は文字列として示されているが、本実施形態に係る音関係情報は、音素列などであってよい。

次に、情報処理サーバ２０は、音関係情報Ｒ１に対する文字変換および区切り位置の設定を実行し、文字変換結果および区切り位置に係る情報を情報処理端末１０に送信する。また、情報処理端末１０は、上記の情報を受信し、表示部１３２に表示させる。図４Ａを参照すると、情報処理端末１０の表示部１３２には、情報処理サーバ２０が設定した区切り位置に基づく２つの文節Ｐ１ａおよびＰ１ｂが表示されている。また、表示部１３２には、ユーザによる入力操作の入力位置を示すキャレットＣ１が併せて表示されてもよい。

ここで、ユーザは、表示部１３２に表示される認識結果を確認し、誤った認識結果の削除操作を行う。この際、ユーザは、例えば、文節ごとに削除操作を行うことができる。図４Ａに示す例では、ユーザは、まず文節Ｐ１ｂを削除し、続いて文節Ｐ１ａを削除している。ユーザによる上記の削除操作は、操作取得部１１４を介して行われ得る。また、この際、操作取得部１１４は、削除された文節に基づいて対象情報を生成する。また、情報処理端末１０のサーバ通信部１４０は、操作取得部１１４により生成された対象情報を情報処理サーバ２０に送信する。

続いて、図４Ｂを参照して、新たな区切り位置に基づく文字変換の説明を続ける。なお、図４Ｂに示す一連の流れは、図４Ａに示す処理に続いて行われてよい。図４Ｂを参照すると、ユーザは上記の削除処理に続いて、発話Ｕ２を行っている。ここで、発話Ｕ２は、誤認識された発話Ｕ１と同様に、“Ｉａｍｗｒｉｔｉｎｇａｔａｇｓｅｎｔｅｎｃｅ”、という内容であってよい。すなわち、ユーザは、正しい認識結果を得るために、誤って認識された文章を削除したうえで、同一の発話を再入力している。

次に、情報処理サーバ２０は、発話Ｕ２に係る第２の発話情報を受信し、第２の発話情報に基づく音声認識を行う。図４Ｂには、発話Ｕ２に対する音関係情報Ｒ１２示されている。この際、情報処理サーバ２０の比較部２２０は、発話Ｕ１から認識された音関係情報Ｒ１と発話Ｕ２から認識された音関係情報Ｒ２とを比較し、両者が類似または一致しているかを判定する。すなわち、本実施形態に係る比較部２２０は、発話Ｕ２が発話Ｕ１に基づく認識結果を修正するための再入力であるか否かを判定することが可能である。本例の場合、音関係情報Ｒ１およびＲ２が同一であるため、比較部２２０は、発話Ｕ２が発話Ｕ１に対する再入力であると判定している。

なお、この際、比較部２２０は、操作取得部１１４により生成された対象情報に基づいて、発話Ｕ２との比較を行う対象を決定してもよい。すなわち、比較部２２０は、削除された文節に対応する発話情報を第１の発話情報として特定することが可能である。

次に、情報処理サーバ２０の設定部２３０は、比較部２２０による判定結果に基づいて、発話Ｕ１から認識された音関係情報Ｒ１とは異なる新たな区切り位置を設定する。図４Ｂには、設定部２３０により設定された新たな区切り位置に基づく音関係情報Ｒ３が示されている。次に、情報処理サーバ２０の変換部２４０は、設定部２３０が設定した新たな区切り位置に基づいて文字変換を実行する。

この際、本実施形態に係る設定部２３０および変換部２４０は、区切り位置の信頼度に基づいて上記の処理を行ってもよい。図５は、区切り位置の信頼度の一例を示す図である。図５には、入力される発話が、“Ｉａｍｗｒｉｔｉｎｇａｔａｇｓｅｎｔｅｎｃｅ”、である場合における区切り位置のバリエーションと信頼度とが例示されている。本実施形態に係る設定部２３０および変換部２４０は、図５に示すような区切り位置の信頼度に基づいて、区切り位置の設定や文字変換を実行してよい。

具体的には、本実施形態に係る設定部２３０は、区切り位置の設定において、より信頼度の高い区切り位置を採用することができる。例えば、図４Ａに示した例の場合、設定部２３０は、信頼度の最も高い区切り位置（信頼度：０．９８）を採用し、発話Ｕ１から認識される音関係情報Ｒ１の区切り位置を設定している。

また、本実施形態に係る設定部２３０は、区切り位置の再設定において、第１の発話情報から認識された音関係情報に設定した区切り位置を除き、最も信頼度の高い区切り位置を採用して第２の発話情報から認識された音関係情報の区切り位置を設定してよい。図４Ｂに示した一例の場合、設定部２３０は、発話Ｕ１から認識された音関係情報Ｒ１に採用された区切り位置を除いて、最も信頼度の高い区切り位置（信頼度：０．９５）を採用し、発話Ｕ２から認識された音関係情報Ｒ３の区切り位置を設定している。本実施形態に係る設定部２３０が上記のように区切り位置を設定することで、より精度の高い音声認識を実現することが可能となる。

また、情報処理サーバ２０は、上記のように設定された新たな区切り位置に係る情報と文字変換結果とを情報処理端末１０に送信する。情報処理端末１０は、上記の情報を受信し、表示部１３２に表示させる。図４Ｂを参照すると、情報処理端末１０の表示部１３２には、新たに設定された区切り位置に基づく３の文節Ｐ２ａ、Ｐ２ｂおよびＰ２ｃが表示されている。以上説明したように、本実施形態に係る情報処理端末１０および情報処理サーバ２０によれば、ユーザの意図しない区切り位置を柔軟に修正することが可能となり、より精度の高い音声認識を実現することができる。

続いて、図６Ａ〜図６Ｃを参照して、本実施形態に係る新たな区切り位置に基づく文字変換の別の例について説明する。図４Ａおよび図４Ｂを用いて説明した例では、英語による発話情報を認識する場合について述べたが、本実施形態に係る情報処理サーバ２０は、種々の言語に対応した処理を実行することが可能である。本実施形態に係る情報処理サーバ２０は、例えば日本語のような、複数の文字体系を有する言語に対する認識処理を行うことができる。以下では、ユーザが日本語による発話を行った場合の区切り位置の設定例について説明する。なお、以下の説明では、図４Ａおよび図４Ｂを用いて説明した例とは異なる点について中心に述べる。

図６Ａを参照すると、まず、ユーザは、新規の発話Ｕ３を行っている。本例では、発話Ｕ３が、「これがめんいっぱい」、という内容である場合を例に説明する。次に、本実施形態に係る情報処理サーバ２０は、発話Ｕ３に係る第１の発話情報を受信し、第１の発話情報に基づく音声認識を行う。図６Ａには、発話Ｕ３に対する音関係情報Ｒ４が示されている。図６Ａに示す一例では、音関係情報Ｒ４は、「これがめんいっぱい」、と示されており、発話Ｕ３が正しく認識されていることを表している。なお、図６Ａにおいて、音関係情報Ｒ４は文字列として示されているが、本実施形態に係る音関係情報は、音素列などであってよい。

次に、情報処理サーバ２０は、音関係情報Ｒ４に対する文字変換および区切り位置の設定を実行し、文字変換結果および区切り位置に係る情報を情報処理端末１０に送信する。また、情報処理端末１０は、上記の情報を受信し、表示部１３２に表示させる。図６Ａを参照すると、情報処理端末１０の表示部１３２には、情報処理サーバ２０が設定した区切り位置に基づく２つの文節Ｐ３ａおよびＰ３ｂが表示されている。図６Ａでは、文節Ｐ３ａおよびＰ３ｂはそれぞれ、「これが」、「麺一杯」、という内容で変換されている。このように、日本語のような複数の文字体系を有する言語では、区切り位置に基づいて文字列が二次変換される場合が想定される。

しかし、ここで、ユーザの発話Ｕ３が、「これ画面一杯」、を意図していた場合、音関係情報Ｒ４が正しく認識されていても、設定される区切り位置によっては誤った文字変換が行われることとなる。この場合、図４Ａで示した例と同様に、ユーザは、文節Ｐ３ｂを削除し、続いて文節Ｐ３ａを削除してよい。この際、操作取得部１１４は、削除された文節に基づいて対象情報を生成し、サーバ通信部１４０は、操作取得部１１４により生成された対象情報を情報処理サーバ２０に送信する。

上記の削除処理を行った後、ユーザは、正しい認識結果を得るために、再度発話を行うことができるが、この際、ユーザは、意図する区切り位置に基づく認識結果を得るため、発話を文節や単語で区切って入力することも可能である。図６Ｂは、ユーザが発話を文節単位で区切って入力する場合の例を示している。

しかし、一般に音声認識では、短い発話に対する認識精度が低いことが知られている。図６Ｂを参照すると、ユーザは、意図する文節単位で発話Ｕ４〜Ｕ６を入力している。本例では、発話Ｕ４〜Ｕ６はそれぞれ、「これ」、「がめん」、「いっぱい」、という内容であってよい。しかし、発話Ｕ４〜Ｕ６に基づいて認識される音関係情報Ｒ５〜Ｒ７ではそれぞれが、「れ」、「れがめん」、「れがめんぱい」、と認識されており、ユーザの意図に沿っていないことがわかる。

上記のような誤認識を避けるため、ユーザは日本語による発話入力を行う場合でも、発話全体を区切らずに入力してよい。本実施形態に係る情報処理サーバ２０は、日本語のような複数の文字体系を有する言語が入力された場合においても、区切り位置を再設定することが可能である。

図６Ｃは、ユーザが発話全体を再入力する場合の例を示している。図６Ｃに示す一連の流れは、図６Ａに示す処理に続いて行われてよい。図６Ｃを参照すると、ユーザは削除処理に続いて、発話Ｕ７を行っている。ここで、発話Ｕ７は、誤変換された発話Ｕ３と同様に、「これがめんいっぱい」、という内容であってよい。また、発話Ｕ７から認識される音関係情報Ｒ８は、発話Ｕ４から認識される音関係情報Ｒ４と同様に、正しく認識されている。このため、情報処理サーバ２０の比較部２２０は、音関係情報Ｒ４およびＲ８が一致していると判定してよい。

次に、情報処理サーバ２０の設定部２３０および変換部２４０は、図４Ａおよび図４Ｂを用いて説明した例と同様に、区切り位置の信頼度に基づいて、新たな区切り位置の設定と文字変換を実行する。この際、設定部２３０および変換部２４０は、音関係情報Ｒ４またはＲ８のいずれかに対して上記の処理を行ってよい。すなわち、本実施形態に係る設定部２３０および変換部２４０は、第２の発話情報に該当する発話Ｕ７から認識された音関係情報Ｒ８に対し区切り位置を設定し文字変換を行ってもよい。一方、設定部２３０および変換部２４０は、第１の発話情報に該当する発話Ｕ４から認識された音関係情報Ｒ４に対し、新たな区切り位置を再設定し、文字変換を行ってもよい。この場合、既存の処理結果を利用することで、処理の負担を軽減することが可能である。

また、図４Ａおよび図４Ｂを用いて説明した例と同様、情報処理端末１０は、上記のように設定された新たな区切り位置に係る情報と文字変換結果とを受信し、当該情報に基づいて表示部１３２の表示制御を行う。図６Ｃを参照すると、情報処理端末１０の表示部１３２には、新たに設定された区切り位置に基づく２つの文節Ｐ４ａおよびＰ４ｂが表示されている。このように、本実施形態に係る情報処理サーバ２０は、発話言語が複数の文字体系を有する場合であっても、ユーザの意図しない区切り位置を柔軟に修正することが可能である。

以上、本実施形態に係る新たな区切り位置に基づく文字変換の具体例について説明した。なお、上記の説明では、比較部２２０が対象情報に基づいて第１の発話情報を特定する場合を例に説明したが、本実施形態に係る第１の発話情報の特定は係る例に限定されない。本実施形態に係る比較部２２０は、記憶部２５０に記憶される複数の発話情報と第２の発話情報とを比較し、最も類似性の高い発話情報を第１の発話情報として特定してもよい。この場合、ユーザによる削除操作が行われない場合においても、発話の再入力を行うだけで、ユーザの意図する区切り位置に基づく音声認識を実現することが可能である。

また、上記の説明では、第１の発話情報が単一である場合を例に説明したが、本実施形態に係る第１の発話情報は、複数であってもよい。この場合、本実施形態に係る設定部２３０は、複数の第１の発話情報にそれぞれ設定された区切り位置とは異なる新たな区切り位置を設定してよい。

また、本実施形態に係るユーザの入力操作には、変換結果の確定操作などが含まれてもよい。この場合、本実施形態に係る情報処理サーバ２０は、上記の確定操作が実行される前に入力された第２の発話情報に基づいて処理を実行することができる。情報処理サーバ２０がユーザによる確定操作に基づく処理を実行することで、例えば、ユーザが同一の文章を繰り返し入力したい場合などにも対応することが可能である。

また、上記の説明では、ユーザの発話情報に基づく認識結果が表示部１３２により出力される場合を例に述べたが、本実施形態に係る上記の認識結果は、音声出力部１３４により出力されてもよい。本実施形態に係る端末制御部１２０は、情報処理サーバ２０から受信する文字変換結果および区切り位置に係る情報に基づいて、音声出力部１３４に人工音声等を出力させることもできる。

［１．６．情報処理サーバ２０の動作の流れ］
次に、本実施形態に係る情報処理サーバ２０の動作の流れについて説明する。

（第１の発話情報に係る処理フロー）
まず、図７を参照して、第１の発話情報に係る処理フローについて説明する。図７は、第１の発話情報に対する情報処理サーバ２０の処理の流れを示すフローチャートである。

図７を参照すると、まず、情報処理サーバ２０の端末通信部２６０は、情報処理端末１０が収集した第１の発話情報を受信する（Ｓ１１１０）。

次に、音声認識部２１０は、第１の発話情報に基づき音関係情報を取得する（Ｓ１１２０）。

続いて、音声認識部２１０は、第１の発話情報に基づく音声認識を実行する（１１３０）。

次に、設定部２３０は、ステップＳ１１３０における音声認識の結果に基づいて区切り位置の設定を行う（Ｓ１１４０）。なお、区切り位置の設定は、音声認識部２１０の機能として実現されてもよい。この場合、音声認識部２１０は、音声認識の過程として音声認識を行うことも可能である。

（対象情報に基づく新たな区切り位置の設定フロー）
次に、図８を参照して、対象情報に基づく新たな区切り位置の設定フローについて説明する。図８は、情報処理サーバ２０による対象情報に基づく新たな区切り位置の設定の流れを示すフローチャートである。

図８を参照すると、端末通信部２６０は、まず、情報処理端末１０が収集した第２の発話情報および対象情報を受信する（Ｓ１２１０）。

次に、比較部２２０は、ステップＳ１２１０で受信した対象情報に基づいて、第１の発話情報を特定する（Ｓ１２２０）。

次に、情報処理サーバ２０は、第２の発話情報に係る処理フローを実行する（Ｓ１２３０）。上記の第２の発話情報に係る処理フローについては、後に詳細に説明する。

次に、比較部２２０は、ステップＳ１２２０において特定された第１の発話情報に係る音関係情報と、ステップＳ１２３０において取得される第２の発話情報に係る音関係情報と、の類似性を比較する（Ｓ１２４０）。この際、比較部２２０は、第１の発話情報および第２の発話情報に係る音関係情報のみを比較してもよいし、両者から認識された文字列を比較してもよい。

続いて、比較部２２０は、第１の発話情報および第２の発話情報に係る音関係情報が類似または一致しているかを判定する（Ｓ１２５０）。

ここで、両者の音関係情報が一致している場合（Ｓ１２５０：Ｙｅｓ）、設定部２３０は、新たな区切り位置の設定を行う（Ｓ１２６０）。この際、設定部２３０は、区切り位置の信頼度に基づいて新たな区切り位置の設定を行ってもよい。

次に、変換部２４０は、ステップＳ１２６０において設定された新たな区切り位置に基づく文字変換を行う（Ｓ１２７０）。発話言語が日本語である場合、変換部２４０は、新たな区切り位置に基づいて漢字の再変換を行うことも可能である。

（第２の発話情報に係る処理フロー）
次に、図９を参照して、第２の発話情報に係る処理フローについて説明する。図９は、第２の発話情報に対する情報処理サーバ２０の処理の流れを示すフローチャートである。以下における処理は、図８におけるステップＳ１２３０に該当するものであってよい。

図９を参照すると、まず、情報処理サーバ２０の音声認識部２１０は、端末通信部２６０が受信した第２の発話情報を取得する（Ｓ１２３１）。

次に、音声認識部２１０は、第２の発話情報に基づき音関係情報を取得する（Ｓ１２３２）。

続いて、音声認識部２１０は、第２の発話情報に基づく音声認識を実行する（１２３３）。なお、ステップＳ１２３３における音声認識は必ずしも実行されなくてもよい。本実施形態に係る比較部２２０は、ステップＳ１２３２で取得される第２の発話情報に係る音関係情報のみを用いて、図８のステップＳ１２４０およびステップＳ１２５０の処理を実行することが可能である。

（発話情報のみに基づく新たな区切り位置の設定フロー）
次に、図１０を参照して、発話情報のみに基づく新たな区切り位置の設定フローについて説明する。図１０は、情報処理サーバ２０による発話情報のみに基づく新たな区切り位置の設定の流れを示すフローチャートである。

図１０を参照すると、まず、情報処理サーバ２０の端末通信部２６０は、情報処理端末１０が収集した発話情報および対象情報を受信する（Ｓ１３１０）。なお、ステップＳ１３１０の時点においては、図８に示した場合とは異なり対象情報を受信しないため、受信した発話情報が第１の発話情報であるか第２の発話情報であるかは特定されない。

次に、情報処理サーバ２０は、ステップＳ１３１０において受信した発話情報に係る処理フローを実行する（Ｓ１３２０）。ここで、ステップＳ１３２０における発話情報に係る処理フローは、図９を用いて説明した第２の発話情報に係る処理フローと同一の流れであってよいため、説明を省略する。

次に、比較部２２０は、ステップＳ１３２０で取得される発話情報に係る音関係情報と、記憶部２５０に記憶される複数の音関係情報との比較を行う（Ｓ１３３０）。この際、の際、比較部２２０は、音関係情報のみを比較してもよいし、認識文字列の比較を行ってもよい。

続いて、比較部２２０は、ステップＳ１３２０で取得される発話情報に係る音関係情報と類似または一致する音関係情報が存在するか否かを判定する（Ｓ１３４０）。

ここで、ステップＳ１３２０で取得される発話情報に係る音関係情報と類似または一致する音関係情報が存在する場合（Ｓ１３４０：Ｙｅｓ）、設定部２３０は、新たな区切り位置の設定を行う（Ｓ１３５０）。

次に、変換部２４０は、ステップＳ１３５０において設定された新たな区切り位置に基づく文字変換を行う（Ｓ１３６０）。

一方、ステップＳ１３２０で取得される発話情報に係る音関係情報と類似または一致する音関係情報が存在しない場合（Ｓ１３４０：Ｎｏ）、比較部２２０は、ステップＳ１３１０で受信した発話情報が新たな入力と判定する（Ｓ１３７０）。すなわち、比較部２２０は、ステップＳ１３１０で受信した発話情報を第１の発話情報として判定することができる。

次に、設定部２３０は、ステップＳ１３１０で受信した発話情報に対応する区切位置の設定を行う（Ｓ１３８０）。

＜２．ハードウェア構成例＞
次に、本開示に係る情報処理端末１０及び情報処理サーバ２０に共通するハードウェア構成例について説明する。図１１は、本開示に係る情報処理端末１０及び情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１１を参照すると、情報処理端末１０及び情報処理サーバ２０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（ＣＰＵ８７１）
ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示に係る情報処理端末１０は、第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信し、当該新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することができる。また、本開示に係る情報処理サーバ２０は、収集された第１発話情報と第２の発話情報とを比較し、当該比較結果に基づいて、音声認識結果に係る新たな区切り位置を設定することができる。また、情報処理サーバ２０は、設定した新たな区切り位置に基づいて、文字変換を行うことができる。係る構成によれば、より柔軟な認識文章の修正を実現することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書の情報処理サーバ２０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理サーバ２０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報とを比較する比較部と、
前記比較部による比較結果に基づいて、前記第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定する設定部と、
を備える、
情報処理装置。
（２）
前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
前記（１）に記載の情報処理装置。
（３）
前記変換部は、前記新たな区切り位置に基づいて前記第２の発話情報に対応する文字変換を行う、
前記（２）に記載の情報処理装置。
（４）
前記変換部は、前記新たな区切り位置に基づいて前記第１の発話情報に対応する文字変換を行う、
前記（２）または（３）に記載の情報処理装置。
（５）
前記第１の発話情報および前記第２の発話情報を受信する受信部、
をさらに備える、
前記（１）〜（４）のいずれかに記載の情報処理装置。
（６）
前記受信部は、前記第１の発話情報を特定する対象情報を受信し、
前記比較部は、前記対象情報に基づいて、前記第１の音関係情報と前記第２の音関係情報とを比較する、
前記（５）に記載の情報処理装置。
（７）
前記設定部の設定する新たな区切り位置に係る情報を送信する送信部、
をさらに備える、
前記（１）〜（６）のいずれかに記載の情報処理装置。
（８）
前記送信部は、前記新たな区切り位置に基づく文字変換の結果を送信する、
前記（７）に記載の情報処理装置。
（９）
前記第１の発話情報または前記第２の発話情報に基づいて音声認識を行う音声認識部、
をさらに備える、
前記（１）〜（８）のいずれかに記載の情報処理装置。
（１０）
収集された第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信する受信部と、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御する出力制御部と、
を備え、
前記新たな区切り位置は、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報との比較結果に基づいて設定される、
情報処理装置。
（１１）
前記出力制御部は、出力部に前記新たな変換結果と前記新たな区切り位置とを対応付けて出力させる、
前記（１０）に記載の情報処理装置。
（１２）
前記第１の発話情報および前記第２の発話情報を送信する送信部、
をさらに備える、
前記（１０）または（１１）に記載の情報処理装置。
（１３）
前記送信部は、前記第１の発話情報を特定する対象情報を送信し、
前記受信部は、前記対象情報に基づいて設定される前記新たな区切り位置に係る情報を受信する、
前記（１２）に記載の情報処理装置。
（１４）
前記受信部は、前記新たな変換結果を受信する、
前記（１０）〜（１３）のいずれかに記載の情報処理装置。
（１５）
前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
前記（１０）〜（１３）のいずれかに記載の情報処理装置。
（１６）
ユーザによる入力操作を検出し前記入力操作に基づいて前記対象情報を生成する操作取得部、
をさらに備える、
前記（１３）に記載の情報処理装置。
（１７）
前記出力制御部による制御に基づいて、前記新たな変換結果を出力する出力部、
をさらに備える、
前記（１０）〜（１６）のいずれかに記載の情報処理装置。
（１８）
前記第１の発話情報および前記第２の発話情報を収集する音声収集部、
をさらに備え、
前記第２の発話情報は、前記第１の発話情報よりも後に取得される、
前記（１０）〜（１７）のいずれかに記載の情報処理装置。
（１９）
プロセッサが、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報とを比較することと、
前記第１の音関係情報と前記第２の音関係情報との比較結果に基づいて、前記第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定することと、
を含む、
情報処理方法。
（２０）
プロセッサが、収集された第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信することと、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することと、
を含み、
前記新たな区切り位置は、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報との比較結果に基づいて設定される、
情報処理方法。

１０情報処理端末
１１０入力部
１１２音声収集部
１１４操作取得部
１２０端末制御部
１３０出力部
１３２表示部
１３４音声出力部
１４０サーバ通信部
２０情報処理サーバ
２１０音声認識部
２２０比較部
２３０設定部
２４０変換部
２５０記憶部
２６０端末通信部

Claims

収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報とを比較する比較部と、
前記比較部による比較結果に基づいて、前記第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定する設定部と、
を備える、
情報処理装置。
前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
請求項１に記載の情報処理装置。
前記変換部は、前記新たな区切り位置に基づいて前記第２の発話情報に対応する文字変換を行う、
請求項２に記載の情報処理装置。
前記変換部は、前記新たな区切り位置に基づいて前記第１の発話情報に対応する文字変換を行う、
請求項２または３に記載の情報処理装置。
前記第１の発話情報および前記第２の発話情報を受信する受信部、
をさらに備える、
請求項１〜４のいずれか１項に記載の情報処理装置。
前記受信部は、前記第１の発話情報を特定する対象情報を受信し、
前記比較部は、前記対象情報に基づいて、前記第１の音関係情報と前記第２の音関係情報とを比較する、
請求項５に記載の情報処理装置。
前記新たな区切り位置に係る情報を送信する送信部、
をさらに備える、
請求項１〜６のいずれか１項に記載の情報処理装置。
前記送信部は、前記新たな区切り位置に基づく文字変換の結果を送信する、
請求項７に記載の情報処理装置。
前記第１の発話情報または前記第２の発話情報に基づいて音声認識を行う音声認識部、
をさらに備える、
請求項１〜８のいずれか１項に記載の情報処理装置。
収集された第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信する受信部と、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御する出力制御部と、
を備え、
前記新たな区切り位置は、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報との比較結果に基づいて設定される、
情報処理装置。
前記出力制御部は、出力部に前記新たな変換結果と前記新たな区切り位置とを対応付けて出力させる、
請求項１０に記載の情報処理装置。
前記第１の発話情報および前記第２の発話情報を送信する送信部、
をさらに備える、
請求項１０または１１に記載の情報処理装置。
前記送信部は、前記第１の発話情報を特定する対象情報を送信し、
前記受信部は、前記対象情報に基づいて設定される前記新たな区切り位置に係る情報を受信する、
請求項１２に記載の情報処理装置。
前記受信部は、前記新たな変換結果を受信する、
請求項１０〜１３のいずれか１項に記載の情報処理装置。
前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
請求項１０〜１３のいずれか１項に記載の情報処理装置。
ユーザによる入力操作を検出し前記入力操作に基づいて前記対象情報を生成する操作取得部、
をさらに備える、
請求項１３に記載の情報処理装置。
前記出力制御部による制御に基づいて、前記新たな変換結果を出力する出力部、
をさらに備える、
請求項１０〜１６のいずれか１項に記載の情報処理装置。
前記第１の発話情報および前記第２の発話情報を収集する音声収集部、
をさらに備え、
前記第２の発話情報は、前記第１の発話情報よりも後に取得される、
請求項１０〜１７のいずれか１項に記載の情報処理装置。
プロセッサが、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報とを比較することと、
前記第１の音関係情報と前記第２の音関係情報との比較結果に基づいて、前記第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定することと、
を含む、
情報処理方法。
プロセッサが、収集された第１の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信することと、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することと、
を含み、
前記新たな区切り位置は、収集された第１の発話情報から得られる第１の音関係情報と第２の発話情報から得られる第２の音関係情報との比較結果に基づいて設定される、
情報処理方法。