JP6915637B2

JP6915637B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6915637B2
Application number: JP2019041638A
Authority: JP
Inventors: 真一河野; 祐平滝
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-07-26
Filing date: 2019-03-07
Publication date: 2021-08-04
Anticipated expiration: 2037-04-24
Also published as: EP3493201A1; EP3493201A4; JPWO2018020763A1; CN109074809A; CN109074809B; US10847154B2; JP6496942B2; EP3493201B1; JP2019124952A; WO2018020763A1; US20190103110A1

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、自然言語処理に関する技術が各種提案されている。例えば、下記特許文献１には、複数の語句のうちユーザに選択された語句に基いて文を作成する技術が開示されている。

また、音声認識に関する技術も各種提案されている。音声認識では、ユーザの発話時の音声を文字列に変換することができる。

特開２０１２−５３６３４号公報

しかしながら、従来の技術は、例えば集音状況におけるユーザの興奮度によらずに、集音された音声に対して固定的に音声認識を行う。このため、従来の技術では、興奮度が反映された音声認識結果が得られなかった。

そこで、本開示では、集音状況における興奮度に適応的に音声認識を行うことが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、音声の集音状況における興奮度を示す情報を取得する取得部と、前記興奮度を示す情報に基いて、前記音声の音素に基づいた第１の音声認識を行う音声認識部と、を備える、情報処理装置が提供される。

また、本開示によれば、音声の集音状況における興奮度を示す情報を取得することと、前記興奮度を示す情報に基いて、前記音声の音素に基づいた第１の音声認識をプロセッサが行うことと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータを、音声の集音状況における興奮度を示す情報を取得する取得部と、前記興奮度を示す情報に基いて、前記音声の音素に基づいた第１の音声認識を行う音声認識部、として機能させるための、プログラムが提供される。

以上説明したように本開示によれば、集音状況における興奮度に適応的に音声認識を行うことができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本開示の実施形態による情報処理システムの構成例を示した説明図である。本開示の比較例による音声認識の例を示した説明図である。同実施形態によるサーバ１０の構成例を示した機能ブロック図である。同実施形態による音声認識の一例を示した説明図である。同実施形態によるまとまりの決定例を示した説明図である。同実施形態による処理の流れの一部を示したフローチャートである。同実施形態による処理の流れの一部を示したフローチャートである。同実施形態による処理の流れの一部を示したフローチャートである。同実施形態による「認識方法制御処理」の流れを示したフローチャートである。同実施形態による「第１の音声認識処理」の流れを示したフローチャートである。同実施形態によるサーバ１０のハードウェア構成例を示した説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じてサーバ１０ａおよびサーバ１０ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、サーバ１０ａおよびサーバ１０ｂを特に区別する必要が無い場合には、単にサーバ１０と称する。

また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．情報処理システムの構成
２．実施形態の詳細な説明
３．ハードウェア構成
４．変形例

＜＜１．情報処理システムの構成＞＞
まず、本開示の実施形態による情報処理システムの構成について、図１を参照して説明する。図１に示すように、当該情報処理システムは、サーバ１０、端末２０、および、通信網２２を含む。

＜１−１．端末２０＞
端末２０は、ユーザが使用する情報処理端末である。例えば、端末２０は、ユーザの発話などの音を集音したり、表示画面を表示することが可能である。

この端末２０は、図１に示すように、例えば、集音部２００、および、操作表示部２０２を含む。集音部２００は、例えばマイクロフォンである。集音部２００は、外部の音（空気振動）を検出し、そして、電気信号に変換する。

操作表示部２０２は、表示画面を表示する表示部、および、ユーザによるタッチ操作を検出する操作部を含む。当該表示部は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置やＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置により構成される。また、当該操作部は、例えばタッチパネルにより構成される。

また、端末２０は、後述する通信網２２を介して他の装置と通信することが可能である。例えば、端末２０は、集音部２００により集音された音声データを、通信網２２を介してサーバ１０へ送信する。なお、端末２０は、例えば一回の音声入力時の音声データをまとめてサーバ１０へ送信してもよいし、または、所定の時間間隔で、当該時間に集音された音声のみをサーバ１０へ逐次的に（例えばリアルタイムに）送信してもよい。

｛１−１−１．変形例｝
なお、図１では、端末２０がスマートフォンである例を示しているが、かかる例に限定されない。例えば、端末２０は、汎用ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット型端末、ゲーム機、スマートフォン以外の電話機、携帯型音楽プレーヤ、テレビジョン受信機、ロボット、または、例えばＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）、ヘッドセット、または、スマートウォッチなどのウェアラブルデバイスであってもよい。

また、端末２０の構成は上述した例に限定されない。例えば、端末２０は操作表示部２０２を有しなくてもよい。この場合、上述した表示部および上述した操作部を含む他の装置（図示せず）が通信網２２に接続され得る。なお、当該表示部と当該操作部とは同一の装置に含まれてもよいし、または、別々の装置に含まれてもよい。

＜１−２．サーバ１０＞
サーバ１０は、本開示における情報処理装置の一例である。サーバ１０は、音声認識機能を有する。例えば、サーバ１０は、通信網２２を介して端末２０から受信される音声データに対して音声認識（クラウド音声認識）を行うことが可能である。また、サーバ１０は、音声認識結果から得られる文字列群に対して各種の言語処理を行うことが可能である。ここで、文字列群は、一以上の文字列である。

また、サーバ１０は、当該文字列群に対する言語処理の結果に基づいて、当該文字列群に関して一以上のまとまりを決定することが可能である。さらに、サーバ１０は、決定した一以上のまとまりを端末２０に表示させるための制御を行うことが可能である。ここで、まとまりは、一以上の文字から構成される。例えば、まとまりは、一以上の語から構成され得る。より具体的には、言語が英語やドイツ語などである場合には、まとまりは一以上の単語から構成され得る。また、言語が日本語である場合には、まとまりは一以上の文節から構成され得る。

＜１−３．通信網２２＞
通信網２２は、通信網２２に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網２２は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網２２は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

＜１−４．課題の整理＞
以上、本実施形態による情報処理システムの構成について説明した。ここで、本実施形態の特徴をより明確に示すために、本開示の比較例による音声認識の方法について説明する。本比較例は、集音された音声に対して、常に音響モデルおよび言語モデルの両方を用いて音声認識を行う。しかしながら、例えば、認識対象の音声の中に「叫ぶような発話」が含まれる場合には、本比較例では誤認識が生じる可能性が高いという問題がある。

ここで、図２を参照して、上記の内容についてより詳細に説明する。図２は、本比較例による音声認識の例を示した説明図である。図２に示した例では、まず、“Ｗｈａｔａｃｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｌｇａｍｅ”という発話３０がユーザによりなされたとする。この発話３０は、図２に示した音量の波形３２のように、“ｃｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｌ”に対応する区間において、ユーザが叫んでいるように一時的に音量が大きくなる発話である。この場合、本比較例は、発話３０の音声データ全てに対して音響モデルおよび言語モデルを用いて音声認識を行い、文字列群３４に変換する。つまり、本比較例は、「叫ぶような発話」と、それ以外の発話とを区別せずに、常に音響モデルおよび言語モデルを用いて音声認識を行う。これにより、文字列群３４に示したように、特に「叫ぶような発話」およびその直前や直後の音声が誤認識され得る。

さらに、本比較例は、文字列群３４に対して言語処理を行い、そして、言語処理の結果に基いて２個のまとまり４００を決定する。図２に示したように、２個のまとまり４００はともに、誤認識された文字列を含む。その結果、例えば、まとまりごとに文字列を編集するアプリケーションにおいて、発話時の意図通りに文字列群３４を修正することをユーザが希望する場合、ユーザは、例えば２個のまとまり４００をともに削除しなければならないなど、修正の手間が大きい。

そこで、上記事情を一着眼点にして、本実施形態によるサーバ１０を創作するに至った。本実施形態によるサーバ１０は、音声の集音状況における興奮度を示す情報を取得し、そして、当該興奮度を示す情報に基いて、当該音声の音素に基づいた第１の音声認識、もしくは、当該第１の音声認識とは異なる第２の音声認識を行う。このため、ユーザの興奮度に応じて音声認識方法を動的に変更することができる。例えば、集音された音声データに含まれる「叫ぶような発話」と、それ以外の発話とで音声認識方法を異ならせて音声認識を行うことができる。

＜＜２．実施形態の詳細な説明＞＞
＜２−１．構成＞
次に、本実施形態による構成について詳細に説明する。図３は、本実施形態によるサーバ１０の構成例を示した機能ブロック図である。図３に示すように、サーバ１０は、制御部１００、通信部１２０、および、記憶部１２２を有する。

｛２−１−１．制御部１００｝
制御部１００は、サーバ１０に内蔵される、例えば、後述するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１５０や、後述するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１５４などのハードウェアを用いて、サーバ１０の動作を統括的に制御する。また、図３に示すように、制御部１００は、興奮度特定部１０２、音声認識部１０４、および、まとめ部１１０を有する。また、音声認識部１０４は、特徴抽出部１０６、および、認識部１０８を有する。

｛２−１−２．興奮度特定部１０２｝
興奮度特定部１０２は、本開示における取得部の一例である。興奮度特定部１０２は、例えば端末２０から音声データが受信された場合などに、当該音声データの集音状況における興奮度を示す情報を取得する。ここで、当該音声データの集音状況は、基本的には、当該音声データの集音時の状況であるが、かかる例に限定されず、当該音声データの集音時の直前や直後の状況であってもよい。また、当該音声データは、端末２０を所持するユーザの発話の音のみを含んでもよいし、例えば当該ユーザの周囲に位置する別のユーザの発話の音のみを含んでもよいし、または、当該ユーザの音声および当該別のユーザの音声の両方を含んでもよい。

（２−１−２−１．音量）
ここで、当該興奮度を示す情報は、当該音声データの音の属性情報（例えば音量や、音の周波数など）を含み得る。例えば、興奮度特定部１０２は、当該音の音量の検出に基いて当該興奮度を特定する。例えば、興奮度特定部１０２は、検出された当該音の音量が大きいほど当該興奮度がより大きくなるように、当該興奮度を特定する。

（２−１−２−２．スパイク）
また、当該興奮度を示す情報は、当該音声データに関する音量やピッチの変化の程度を示す情報を含み得る。例えば、短時間において音量やピッチが急激に大きくなること（つまり、スパイクが強いこと）が検出された場合には、興奮度特定部１０２は、例えば該当の期間のみ、当該興奮度が第１の閾値よりも大きい値であると特定する。

（２−１−２−３．発話の特徴）
また、当該興奮度を示す情報は、ユーザの過去の発話の学習結果から得られる音声の特徴と、当該音声データの特徴との差異に関する情報を含み得る。この場合、ユーザの過去の発話のデータが予め蓄積され、そして、当該ユーザの発話の音の特徴（例えば、音量と音の周波数特性との組み合わせに関する特徴など）が予め学習され得る。そして、興奮度特定部１０２は、当該音声データの特徴と、当該学習結果から得られる特徴とを比較することにより当該興奮度を特定する。例えば、興奮度特定部１０２は、当該音声データの特徴と、当該学習結果から得られる特徴との差異を示す値の絶対値が大きいほど当該興奮度がより大きくなるように、当該興奮度を特定する。つまり、該当の発話が当該ユーザの普段の発話と大きく異なると判定される場合には、当該興奮度は一定以上大きい値に設定され得る。

（２−１−２−４．別のユーザの盛り上がり）
また、当該興奮度を示す情報は、該当の音声の発話者とは別のユーザの状態に関する情報を含み得る。ここで、別のユーザの状態に関する情報は、当該音声の集音時における、例えば、当該発話者が利用中のコンテンツ（例えばテレビジョン番組、映画、音楽など）やサービス（例えばＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）やオンラインゲームなど）における別のユーザの盛り上がりの程度の検出結果を含み得る。なお、例えば、当該音声の集音時における、所定のサービスに参加中の別のユーザの表情（笑っているか否かなど）や笑っているユーザの人数の検出結果や、別のユーザの発話状況（発話の音量が所定の閾値よりも大きいか否かや、笑い声が検出されるか否かなど）の検出結果などに基いて、別のユーザの盛り上がりの程度は特定され得る。または、別のユーザが例えばＳＮＳに投稿した文章の意味解析の結果に基いて、別のユーザの盛り上がりの程度が特定されてもよい。

また、別のユーザの状態に関する情報は、当該発話者の周囲（例えば同じ施設内や、屋外における所定の区域内など）に位置する別のユーザの盛り上がりの検出結果を含み得る。この場合、例えば、別のユーザの発話の検出結果や、別のユーザの表情の画像解析の結果などに基いて、別のユーザの盛り上がりの程度が検出され得る。

例えば、興奮度特定部１０２は、別のユーザの盛り上がりの程度がより大きいと検出されるほど当該興奮度がより大きくなるように、当該興奮度を特定する。なお、該当の音声の発話者は、本開示における第１のユーザの一例であり、また、別のユーザは、本開示における第２のユーザの一例である。

（２−１−２−５．発話者の生体情報）
また、当該興奮度を示す情報は、該当の音声の発話者の生体情報を含み得る。ここで、生体情報は、例えば、体温、脈拍数、呼吸速度、血圧、瞳孔（または目）の開き具合、脳波、および／または、発汗量などを含み得る。例えば、興奮度特定部１０２は、予め定められた、当該発話者の生体情報が示す値と興奮度との関係性に基いて当該興奮度を特定する。一例として、当該発話者の脈拍数や血圧が大きいほど当該興奮度がより大きくなるように、興奮度特定部１０２は、当該興奮度を特定する。また、当該発話者の瞳孔の開き具合が大きいほど当該興奮度がより大きくなるように、興奮度特定部１０２は、当該興奮度を特定する。

（２−１−２−６．発話者の行動情報）
また、当該興奮度を示す情報は、該当の音声の発話者の行動状況に関する情報を含み得る。例えば、当該興奮度を示す情報は、当該発話者による所定の機器（例えば端末２０やゲームコントローラなど）の操作状況を示す情報を含み得る。例えば、発話時において、当該発話者がゲームコントローラを連打していたり、素早く動かしていたり、または、大きく動かしていることなどが検出された場合には、興奮度特定部１０２は、当該興奮度が第１の閾値よりも大きい値であると特定する。

（２−１−２−７．組み合わせ）
また、興奮度特定部１０２は、上述した複数の種類の情報の組み合わせに基いて、当該興奮度を特定することも可能である。例えば、当該音声データに含まれる発話の音量が小さくても、他の種類の情報から興奮度が高いことが特定される場合には、興奮度特定部１０２は、当該興奮度が第１の閾値よりも大きい値であると特定し得る。

｛２−１−３．特徴抽出部１０６｝
特徴抽出部１０６は、端末２０から受信される音声データを分析することにより、所定の特徴量を抽出する。例えば、特徴抽出部１０６は、当該音声データに含まれる音声信号に対してフーリエ変換および離散コサイン変換などを適用することにより、例えばＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）などの特徴量を抽出する。

｛２−１−４．認識部１０８｝
（２−１−４−１．認識例１）
認識部１０８は、特徴抽出部１０６により抽出された特徴量と、興奮度特定部１０２により特定された興奮度とに基いて、受信された音声データの認識を行う。例えば、認識部１０８は、特定された興奮度と第１の閾値とを比較することにより、当該音声データに対して、当該音声データの音素に基づいた第１の音声認識を行うか、もしくは、第２の音声認識を行うかを決定する。一例として、当該興奮度が第１の閾値よりも大きい場合には、認識部１０８は、当該音声データに対して第１の音声認識を行う。また、当該興奮度が第１の閾値以下である場合には、認識部１０８は、当該音声データに対して第２の音声認識を行う。

例えば、当該音声データに関して短時間において一時的に音量が第１の閾値よりも大きくなり、かつ、その後音量が第１の閾値以下になることが検出された場合には、認識部１０８は、当該音声データのうち、当該短時間に対応する音声に対してのみ第１の音声認識を行い、そして、それ以外の音声に対しては第２の音声認識を行ってもよい。

ここで、第１の音声認識は、例えば、音響モデルを使用し、かつ、言語モデルを使用しない音声認識である。また、第２の音声認識は、当該音声データの音素、および、複数の文字列のつながりに関する確率に基づいた音声認識であり得る。例えば、第２の音声認識は、音響モデル、言語モデル、および、辞書ＤＢ１２４を使用する音声認識である。ここで、音響モデルは、ある文字列（単語など）がどのような音となって現れやすいかをモデル化したものである。例えば、音響モデルは、隠れマルコフモデルなどを用いて生成され得る。また、言語モデルは、特定の言語においてある複数の文字列（単語列など）がどのくらいの確率で現れるかをモデル化したものである。例えば、言語モデルは、Ｎ−ｇｒａｍや文脈自由文法などを用いて生成され得る。また、辞書ＤＢ１２４は、複数の文字列（単語など）の各々に関して、当該文字列と音素列との対応関係が格納されたデータベースである。辞書ＤＢ１２４は、例えば記憶部１２２に記憶され得る。

（２−１−４−２．認識例２）
または、認識部１０８は、当該興奮度が第１の閾値よりも大きい継続時間の長さに基いて、当該音声データに対して第１の音声認識を行うか、もしくは、第２の音声認識を行うかを決定することも可能である。例えば、認識部１０８は、当該継続時間の長さと第２の閾値との比較に基いて、当該音声データに対して第１の音声認識を行うか、もしくは、第２の音声認識を行うかを決定する。一例として、当該継続時間の長さが第２の閾値よりも大きい場合には、認識部１０８は、当該音声データのうち、当該継続時間に対応する第１の音声に対して第１の音声認識を行い、かつ、第１の音声以外の音声に対して第２の音声認識を行う。また、当該継続時間の長さが第２の閾値以下である場合には、認識部１０８は、当該音声データ全体に対して第２の音声認識を行う。

‐具体例
ここで、図４を参照して、上記の機能についてより詳細に説明する。図４は、図２に示した発話３０の音声データに対する、認識部１０８による音声認識の例を示した説明図である。図４に示したように、発話３０の音声データのうち、“ｃｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｌ”に対応する音声（以下、「音声Ａ」と称する）の音量は第１の閾値Ｖｔよりも大きく、かつ、音声Ａ以外の音声の音量はＶｔ以下とする。また、音声Ａに対応する時間の長さは第２の閾値よりも大きいものとする。

この場合、認識部１０８は、音声Ａに対して第１の音声認識を行う。具体的には、認識部１０８は、まず、音声Ａに関する音素の検出結果に基いて、認識結果の文字列を取得する。図４に示したように、当該文字列は、例えば「ｏ」に対応する音素が継続する時間の長さに対応する当該音素の数だけ「ｏ」が連続に並べられた文字列を含む。さらに、認識部１０８は、当該認識結果の文字列の最後に例えば「！」などの所定の文字を一以上追加することにより、文字列群３６０ｂを得る。

さらに、認識部１０８は、受信された音声のうち、音声Ａ以外の音声（つまり“Ｗｈａｔａ”や“ｇａｍｅ”に対応する音声）に対して第２の音声認識を行い、文字列群３６０ａおよび文字列群３６０ｃに変換する。この認識方法によれば、例えば「叫ぶような発話」と、それ以外の発話とを区別して音声認識することができるので、誤認識を減少させることができる。

（２−１−４−３．認識例３）
または、認識部１０８は、当該興奮度と第１の閾値との比較結果と、当該音声データに関して同一の音素が継続する時間の長さとに基いて、当該音声データに対して第１の音声認識を行うか、もしくは、第２の音声認識を行うかを決定することも可能である。例えば、認識部１０８は、当該興奮度が第１の閾値よりも大きい期間における同一の音素が継続する時間の長さと第２の閾値との比較に基いて、当該音声データに対して第１の音声認識を行うか、もしくは、第２の音声認識を行うかを決定する。

一例として、当該興奮度が第１の閾値よりも大きい期間において同一の音素が継続する時間の長さが第２の閾値よりも大きい場合には、認識部１０８は、当該音声データのうち、当該同一の音素が継続する時間に対応する第３の音声に対して第１の音声認識を行い、かつ、第３の音声以外の音声に対して第２の音声認識を行う。例えば、言語が英語やドイツ語などである場合には、認識部１０８は、当該同一の音素が継続する時間の長さに対応する当該音素の数だけ、当該音素に対応する文字が連続に並んだ文字列を、第１の音声認識の結果の一部として出力する。また、言語が日本語である場合には、認識部１０８は、当該同一の音素が継続する時間の長さに対応する当該音素の数だけ、文字「ー」が連続に並んだ文字列を、第１の音声認識の結果の一部として出力する。

また、当該興奮度が第１の閾値よりも大きい期間において同一の音素が継続する時間の長さが第２の閾値以下である場合には、認識部１０８は、当該音声データ全体に対して第２の音声認識を行ってもよい。

｛２−１−５．まとめ部１１０｝
まとめ部１１０は、認識部１０８による認識結果から得られる文字列群に基いて、一以上のまとまりを決定する。例えば、まとめ部１１０は、第１の音声認識の結果に対応する文字列群と、第２の音声認識の結果に対応する文字列群とがそれぞれ別々のまとまりに含まれるように、複数のまとまりを決定する。

一例として、まとめ部１１０は、個々の第１の音声認識の結果に対応する文字列群をそれぞれ一つのまとまりとして決定する。また、まとめ部１１０は、第２の音声認識の結果に対応する文字列群に関しては、所定の設定基準に基いて一以上のまとまりを決定する。ここで、所定の設定基準は、例えば、一つのまとまりに含まれる単語の数に関する制約条件（例えば単語の数が５以下など）であってもよいし、または、一つのまとまりに含まれる文字数に関する制約条件（例えば３０文字以下など）であってもよい。

ここで、図５を参照して、上記の機能についてより詳細に説明する。図５は、図４に示した文字列群３６に基いて複数のまとまり４００が決定される例を示した説明図である。図５に示したように、まとめ部１１０は、第１の音声認識の結果から得られた文字列群３６０ｂを一つのまとまり４００ｂとして決定する。また、まとめ部１１０は、第２の音声認識の結果から得られた文字列群３６０ａおよび文字列群３６０ｃに関して、所定の設定基準に基いてまとまり４００ａ、および、まとまり４００ｃをそれぞれ決定する。

｛２−１−６．通信部１２０｝
通信部１２０は、例えば通信網２２を介して他の装置との間で情報の送受信を行う。例えば、通信部１２０は、音声データを端末２０から受信する。また、通信部１２０は、制御部１００の制御に従って、まとめ部１１０により決定された一以上のまとまりを表示させるための制御情報を端末２０へ送信する。

｛２−１−７．記憶部１２２｝
記憶部１２２は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部１２２は、辞書ＤＢ１２４を記憶する。

＜２−２．処理の流れ＞
以上、本実施形態の構成について説明した。次に、本実施形態による処理の流れについて、図６〜図１０を参照して説明する。なお、以下では、ユーザが端末２０に対して文字列群を音声入力する場面における処理の流れの例について説明する。また、以下では、「興奮度を示す情報」が音量である例について説明する。また、以下では、端末２０が、一回の音声入力時の音声データをまとめてサーバ１０へ送信する例について説明する。

｛２−２−１．全体の流れ｝
図６は、本実施形態による処理の流れの例の一部を示したフローチャートである。図６に示したように、まず、例えば端末２０に対するユーザの所定の操作に基いて、端末２０は音声入力アプリケーションを起動する（Ｓ１０１）。そして、ユーザは、端末２０に対して発話し、そして、集音部２００は、当該発話の音を集音する（Ｓ１０３）。

続いて、端末２０は、集音された音声データをサーバ１０へ送信する（Ｓ１０５）。

その後、サーバ１０の音声認識部１０４は、解析対象の期間Ｔとして、ごく短い時間ΔＴを設定する（Ｓ１０７）。

ここで、図７を参照して、Ｓ１０７より後の処理の流れについて説明する。図７に示したように、Ｓ１０７の後、音声認識部１０４は、Ｓ１０５で受信された音声データに関して、前回（つまりＴ−ΔＴの期間において）検出された音量が第１の閾値よりも大きいか否かを判定する（Ｓ１１１）。なお、一回目に関しては、音声認識部１０４は、前回の音量が第１の閾値以下であると判定し得る。

前回の音量が第１の閾値よりも大きいと判定した場合には（Ｓ１１１：Ｙｅｓ）、次に、音声認識部１０４は、当該音声データに関して、今回（つまり期間Ｔにおいて）検出された音量が第１の閾値よりも大きいか否かを判定する（Ｓ１１３）。今回の音量が第１の閾値よりも大きいと判定した場合には（Ｓ１１３：Ｙｅｓ）、音声認識部１０４は、期間Ｔにおける音情報を、現在保存中の音情報に対して追加して保存する（Ｓ１１５）。なお、初期状態では、音情報は全く保存されていないものとする。

続いて、音声認識部１０４は、現在保存中の「音量が第１の閾値よりも大きい状態の継続時間」（以下、「音量大の状態の継続時間」と称する）に対してΔＴを加算する（Ｓ１１７）。なお、初期状態では、音量大の状態の継続時間には「０秒」が設定されているものとする。その後、サーバ１０は、後述するＳ１４１の処理を行う。

一方、今回の音量が第１の閾値以下であると判定した場合には（Ｓ１１３：Ｎｏ）、音声認識部１０４は、後述する「認識方法制御処理」を行う（Ｓ１１９）。その後、サーバ１０は、後述するＳ１４１の処理を行う。

また、Ｓ１１１において、前回の音量が第１の閾値以下であると判定した場合には（Ｓ１１１：Ｎｏ）、次に、音声認識部１０４は、当該音声データに関して、今回検出された音量が第１の閾値よりも大きいか否かを判定する（Ｓ１２１）。今回の音量が第１の閾値よりも大きいと判定した場合には（Ｓ１２１：Ｙｅｓ）、音声認識部１０４は、現在保存中の音情報に対して第２の音声認識を行う（Ｓ１２３）。続いて、音声認識部１０４は、Ｓ１２３における認識結果から得られる文字列群を取得する（Ｓ１２５）。続いて、音声認識部１０４は、現在保存中の音情報をクリアする（Ｓ１２７）。続いて、音声認識部１０４は、音量大の状態の継続時間をΔＴに設定する（Ｓ１２９）。その後、サーバ１０は、後述するＳ１４１の処理を行う。

一方、今回の音量が第１の閾値以下であると判定した場合には（Ｓ１２１：Ｎｏ）、音声認識部１０４は、期間Ｔにおける音情報を、現在保存中の音情報に対して追加して保存する（Ｓ１３１）。その後、サーバ１０は、後述するＳ１４１の処理を行う。

ここで、図８を参照して、Ｓ１４１以降の処理の流れについて説明する。図８に示したように、音声認識部１０４は、当該音声データの全てに対する音声認識が終了したか否かを判定する（Ｓ１４１）。当該音声データの全てに対する音声認識が終了していない場合には（Ｓ１４１：Ｎｏ）、音声認識部１０４は、ＴにΔＴを加算する（Ｓ１４７）。その後、音声認識部１０４は、再びＳ１１１以降の処理を行う。

一方、当該音声データの全てに対する音声認識が終了した場合で（Ｓ１４１：Ｙｅｓ）、かつ、音声入力の終了の操作がユーザによりなされた場合には（Ｓ１４３：Ｙｅｓ）、端末２０は、音声入力アプリケーションを終了する（Ｓ１４５）。そして、本処理は終了する。

一方、音声入力の終了の操作がなされない場合には（Ｓ１４３：Ｎｏ）、再びＳ１０３以降の処理が行われる。

｛２−２−２．認識方法制御処理｝
次に、図９を参照して、Ｓ１１９における「認識方法制御処理」の流れについて説明する。図９に示したように、まず、音声認識部１０４は、現在保存中の、音量大の状態の継続時間の長さが第２の閾値よりも大きいか否かを判定する（Ｓ２０１）。音量大の状態の継続時間の長さが第２の閾値よりも大きい場合には（Ｓ２０１：Ｙｅｓ）、音声認識部１０４は、後述する「第１の音声認識処理」を行う（Ｓ２０３）。その後、音声認識部１０４は、現在保存中の音情報、および、現在保存中の「音量大の状態の継続時間」をクリアする（Ｓ２０５）。

一方、音量大の状態の継続時間の長さが第２の閾値以下である場合には（Ｓ２０１：Ｎｏ）、音声認識部１０４は、現在保存中の音情報に対して第２の音声認識を行う（Ｓ２０７）。続いて、音声認識部１０４は、Ｓ２０７における認識結果から得られる文字列群を取得する（Ｓ２０９）。その後、音声認識部１０４は、Ｓ２０５の処理を行う。

｛２−２−３．第１の音声認識処理｝
次に、図１０を参照して、Ｓ２０３における「第１の音声認識処理」の流れについて説明する。図１０に示したように、まず、音声認識部１０４は、現在保存中の音情報から音素情報を抽出する（Ｓ３０１）。続いて、音声認識部１０４は、抽出した音素情報に基いて文字列群を特定し、そして、当該文字列群を取得する（Ｓ３０３）。その後、音声認識部１０４は、取得した文字列群に対して例えば「！」などの所定の文字を一以上追加する（Ｓ３０５）。

＜２−３．効果＞
｛２−３−１．効果１｝
以上説明したように、本実施形態によれば、サーバ１０は、音声の集音状況における興奮度を示す情報を取得し、そして、当該興奮度を示す情報に基いて、当該音声に対して第１の音声認識、もしくは、第２の音声認識を行う。このため、例えば集音時における発話者や他のユーザの興奮度に応じて音声認識方法を動的に変更することができる。

例えば、当該音声に関して、音量が第１の閾値よりも大きい継続時間の長さが第２の閾値よりも大きい場合には、サーバ１０は、当該音声のうち、当該継続時間に対応する音声に対しては第１の音声認識（つまり言語モデルを使用しない音声認識）を行い、かつ、それ以外の音声に対しては第２の音声認識（つまり言語モデルを使用する音声認識）を行う。このため、当該音声に含まれる例えば「叫ぶような発話」と、それ以外の発話とを区別して音声認識を行うことができるので、例えば本開示の比較例と比べて、誤認識を減少させることができる。

また、「叫ぶような発話」に対しては音響モデルのみを用いて音声認識を行うので、仮に誤認識した場合であっても、当該発話の雰囲気が伝わるような文字列群が音声認識結果として得られる。

｛２−３−２．効果２｝
また、例えば当該音声の音量が小さくても、ユーザの興奮度が高いことが特定される場合には、サーバ１０は、集音された音声データに対して第１の音声認識を行う。このため、例えば大きい声を出すことをユーザが躊躇する状況下であっても、集音時においてユーザ（または他のユーザ）の興奮度が高いことが特定される場合には、サーバ１０は、当該音声データを、興奮度が高いこと（または抱いている感情が強いこと）を示唆するような文字列群に変換することができる。従って、例えば本開示の比較例と比べて、より適切な音声認識結果が得られる。

｛２−３−３．効果３｝
また、サーバ１０は、個々の第１の音声認識の結果に対応する文字列群をそれぞれ一つのまとまりとして決定することが可能である。これにより、例えば「叫ぶような発話」の認識結果と、それ以外の発話の認識結果とがそれぞれ別々のまとまりに含まれるように、複数のまとまりが決定され得る。その結果、例えばまとまりごとに文字列を編集するアプリケーションにおいて、ユーザによる文字列の修正作業が容易になり得るので、例えば音声認識結果が誤りを含む場合などにおいて利便性が高い。

＜＜３．ハードウェア構成＞＞
次に、本実施形態によるサーバ１０のハードウェア構成について、図１１を参照して説明する。図１１に示すように、サーバ１０は、ＣＰＵ１５０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１５２、ＲＡＭ１５４、バス１５６、インターフェース１５８、ストレージ装置１６０、および、通信装置１６２を備える。

ＣＰＵ１５０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ１０内の動作全般を制御する。また、ＣＰＵ１５０は、サーバ１０において制御部１００の機能を実現する。なお、ＣＰＵ１５０は、マイクロプロセッサなどのプロセッサにより構成される。

ＲＯＭ１５２は、ＣＰＵ１５０が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。

ＲＡＭ１５４は、例えば、ＣＰＵ１５０により実行されるプログラムなどを一時的に記憶する。

バス１５６は、ＣＰＵバスなどから構成される。このバス１５６は、ＣＰＵ１５０、ＲＯＭ１５２、および、ＲＡＭ１５４を相互に接続する。

インターフェース１５８は、ストレージ装置１６０および通信装置１６２を、バス１５６と接続する。

ストレージ装置１６０は、記憶部１２２として機能する、データ格納用の装置である。ストレージ装置１６０は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。

通信装置１６２は、例えば通信網２２などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置１６２は、無線ＬＡＮ対応通信装置、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）対応通信装置、または、有線による通信を行うワイヤー通信装置であってもよい。この通信装置１６２は、通信部１２０として機能する。

＜＜４．変形例＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

＜４−１．変形例１＞
例えば、図４に示した例では、サーバ１０（認識部１０８）は、第１の音声認識の結果に対応する文字列（つまり文字列群３６０ｂ）の末尾に所定の文字（「！」など）を付加する例を説明したが、かかる例に限定されない。例えば、認識部１０８は、該当の文の末尾（図４に示した例では文字列群３６０ｃの末尾）に所定の文字を付加してもよい。または、認識部１０８は、第１の音声認識の結果に対応する文字列の前後に、例えばダブルクォーテーションやシングルクォーテーションなどの文字を（所定の文字として）付加してもよい。

または、サーバ１０は、所定の文字を付加する代わりに、第１の音声認識の結果に対応する文字列のフォントを標準のフォントと異ならせてもよい。例えば、サーバ１０は、当該文字列を太字にしたり、当該文字列の表示色を変化させたり、または、当該文字列に対して下線を付加してもよい。または、サーバ１０は、所定の文字を付加する代わりに、所定の画像を付加してもよい。

＜４−２．変形例２＞
また、本実施形態による情報処理システムの構成は、図１に示した例に限定されない。例えば、図１では、サーバ１０が一台だけ図示されているが、かかる例に限定されず、複数台のコンピュータが協同して動作することにより、上述したサーバ１０の機能が実現されてもよい。また、図１では、端末２０が一台だけ図示されているが、かかる例に限定されず、当該情報処理システムは、端末２０を複数台含み得る。

＜４−３．変形例３＞
また、本実施形態によるサーバ１０の構成は、図３に示した例に限定されない。例えば、まとめ部１１０はサーバ１０に含まれる代わりに、例えば端末２０など、サーバ１０が通信可能な他の装置に含まれてもよい。

＜４−４．変形例４＞
また、上述した実施形態では、本開示における情報処理装置がサーバ１０である例について説明したが、本開示はかかる例に限定されない。例えば、少なくとも興奮度特定部１０２および音声認識部１０４の機能を端末２０が有する場合には、当該情報処理装置は、端末２０であってもよい。

または、上述した制御部１００に含まれる全ての構成要素を端末２０が含んでもよい。この場合、サーバ１０は必ずしも設置されなくてもよい。

＜４−５．変形例５＞
また、図６〜図１０に示した処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。

また、上述した実施形態によれば、例えばＣＰＵ１５０、ＲＯＭ１５２、およびＲＡＭ１５４などのハードウェアを、上述した実施形態によるサーバ１０の構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記憶媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第１の音声認識を行う音声認識部と、
を備える、情報処理装置。
（２）
前記音声認識部は、前記興奮度と第１の閾値との比較に基いて、前記第１の音声認識を行う、前記（１）に記載の情報処理装置。
（３）
前記興奮度が前記第１の閾値よりも大きい場合には、前記音声認識部は、前記音声に対して前記第１の音声認識を行い、
前記興奮度が前記第１の閾値以下である場合には、前記音声認識部は、前記音声に対して、前記第１の音声認識とは異なる第２の音声認識を行う、前記（２）に記載の情報処理装置。
（４）
前記音声認識部は、前記興奮度が前記第１の閾値よりも大きい継続時間の長さに基いて、前記第１の音声認識を行う、前記（２）または（３）に記載の情報処理装置。
（５）
前記音声認識部は、前記継続時間の長さと第２の閾値との比較に基いて、前記第１の音声認識を行う、前記（４）に記載の情報処理装置。
（６）
前記継続時間の長さが前記第２の閾値よりも大きい場合には、前記音声認識部は、前記音声のうち、前記継続時間に対応する第１の音声に対して、前記第１の音声の音素に基づいた第１の音声認識を行い、かつ、
前記音声のうち、前記第１の音声以外の第２の音声に対して、前記第１の音声認識とは異なる第２の音声認識を行う、前記（５）に記載の情報処理装置。
（７）
前記継続時間の長さが前記第２の閾値以下である場合には、前記音声認識部は、前記音声に対して前記第２の音声認識を行う、前記（６）に記載の情報処理装置。
（８）
前記取得部は、前記音声から特定される、同一の音素が継続する時間の長さを示す情報をさらに取得し、
前記音声認識部は、さらに、前記同一の音素が継続する時間の長さに基いて、前記第１の音声認識を行う、前記（１）〜（３）のいずれか一項に記載の情報処理装置。
（９）
前記音声認識部は、前記興奮度と第１の閾値との比較、および、前記同一の音素が継続する時間の長さと第２の閾値との比較に基いて、前記第１の音声認識を行う、前記（８）に記載の情報処理装置。
（１０）
前記音声認識部は、前記興奮度が前記第１の閾値よりも大きい間における前記同一の音素が継続する時間の長さが前記第２の閾値よりも大きいか否かに基いて、前記第１の音声認識、もしくは、前記第１の音声認識とは異なる第２の音声認識を行う、前記（９）に記載の情報処理装置。
（１１）
前記興奮度を示す情報は、前記音声の音量を含む、前記（１）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第１のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含む、前記（１）〜（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記興奮度を示す情報は、前記音声を発した第１のユーザとは異なる第２のユーザの状態に関する情報を含む、前記（１）〜（１２）のいずれか一項に記載の情報処理装置。
（１４）
前記興奮度を示す情報は、前記音声を発した第１のユーザの生体情報を含む、前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記興奮度を示す情報は、前記音声を発した第１のユーザの行動状況に関する情報を含む、前記（１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
前記第１のユーザの行動状況に関する情報は、前記第１のユーザによる所定の機器の操作状況を含む、前記（１５）に記載の情報処理装置。
（１７）
前記第２の音声認識は、認識対象の音声の音素、および、複数の文字列のつながりに関する確率に基づいた音声認識である、前記（３）または（６）に記載の情報処理装置。
（１８）
前記第１の音声認識は、言語モデルを使用しない音声認識であり、
前記第２の音声認識は、前記言語モデルを使用する音声認識である、前記（１７）に記載の情報処理装置。
（１９）
音声の集音状況における興奮度を示す情報を取得することと、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第１の音声認識をプロセッサが行うことと、
を含む、情報処理方法。
（２０）
コンピュータを、
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第１の音声認識を行う音声認識部、
として機能させるための、プログラム。

１０サーバ
２０端末
２２通信網
１００制御部
１０２興奮度特定部
１０４音声認識部
１０６特徴抽出部
１０８認識部
１１０まとめ部
１２０通信部
１２２記憶部
１２４辞書ＤＢ
２００集音部
２０２操作表示部

Claims

音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基づいて、前記音声の音素に基づいた第１の音声認識を行う音声認識部と、
を備え、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第１のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記取得部は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、情報処理装置。
前記音声認識部は、前記興奮度と第１の閾値との比較に基づいて、前記第１の音声認識を行う、請求項１に記載の情報処理装置。
前記興奮度が前記第１の閾値よりも大きい場合には、前記音声認識部は、前記音声に対して前記第１の音声認識を行い、
前記興奮度が前記第１の閾値以下である場合には、前記音声認識部は、前記音声に対して、前記第１の音声認識とは異なる第２の音声認識を行う、請求項２に記載の情報処理装置。
前記興奮度を示す情報は、前記音声の音量を含む、請求項１〜３のいずれか一項に記載の情報処理装置。
前記取得部は、前記音声の音量が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、請求項４に記載の情報処理装置。
前記興奮度を示す情報は、前記音声を発した第１のユーザとは異なる第２のユーザの状態に関する情報を含む、請求項１〜５のいずれか一項に記載の情報処理装置。
前記第２のユーザの状態に関する情報は、前記第２のユーザの盛り上がりの程度の検出結果を含む、
請求項６に記載の情報処理装置。
前記興奮度を示す情報は、前記音声を発した第１のユーザの生体情報を含む、請求項１〜７のいずれか一項に記載の情報処理装置。
前記取得部は、予め定められた、前記第１のユーザの生体情報が示す値と前記興奮度との関係性に基づいて前記興奮度を特定する、
請求項８に記載の情報処理装置。
前記興奮度を示す情報は、前記音声を発した第１のユーザの行動状況に関する情報を含む、請求項１〜９のいずれか一項に記載の情報処理装置。
前記第１のユーザの行動状況に関する情報は、前記第１のユーザによる所定の機器の操作状況を含む、請求項１０に記載の情報処理装置。
前記第２の音声認識は、認識対象の音声の音素、および、複数の文字列のつながりに関する確率に基づいた音声認識である、請求項３に記載の情報処理装置。
前記第１の音声認識は、言語モデルを使用しない音声認識であり、
前記第２の音声認識は、前記言語モデルを使用する音声認識である、請求項１２に記載の情報処理装置。
音声の集音状況における興奮度を示す情報を取得することと、
前記興奮度を示す情報に基づいて、前記音声の音素に基づいた第１の音声認識をプロセッサが行うことと、
を含み、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第１のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記興奮度は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように特定される、情報処理方法。
コンピュータを、
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基づいて、前記音声の音素に基づいた第１の音声認識を行う音声認識部、
として機能させるためのプログラムであって、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第１のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記取得部は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、プログラム。