JP7131550B2

JP7131550B2 - 情報処理装置および情報処理方法

Info

Publication number: JP7131550B2
Application number: JP2019519059A
Authority: JP
Inventors: 広岩瀬; 真里斎藤; 真一河野; 祐平滝
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-05-16
Filing date: 2018-02-06
Publication date: 2022-09-06
Anticipated expiration: 2038-02-06
Also published as: WO2018211750A1; US11138991B2; EP3627496A4; EP3627496A1; US20200111505A1; JPWO2018211750A1

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、音声を用いてユーザに情報通知などを行う種々の装置が普及している。また、上記のようなエージェント装置による情報通知に関し、出力時の状況に応じた制御を行う技術も多く開発されている。例えば、特許文献１には、音楽の再生時に情報通知を行う場合、再生中の音楽のジャンルに調和する発話形式を選択する技術が開示されている。

国際公開第２００７／０９１４７５号

しかし、特許文献１に開示される技術では、情報通知の重要度が高い場合であっても、再生中の音楽と調和する発話形式が選択されることとなる。この場合、音声発話が音楽に埋没してしまい、ユーザが重要な情報通知を見逃す可能性も生じ得る。

そこで、本開示では、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

本開示によれば、通知情報に対応する音声発話の出力を制御する発話制御部、を備え、前記発話制御部は、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御する、情報処理装置が提供される。

また、本開示によれば、プロセッサが、通知情報に対応する音声発話の出力を制御すること、を含み、前記制御することは、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御すること、をさらに含む、情報処理方法が提供される。

以上説明したように本開示によれば、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示に係る技術思想の概要について説明するための図である。本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。同実施形態に係る再生装置の機能ブロック図の一例である。同実施形態に係る情報処理端末の機能ブロック図の一例である。同実施形態に係る情報処理サーバの機能ブロック図の一例である。同実施形態に係る判定部による通知情報の重要度判定について説明するための図である。同実施形態に係る発話制御部により制御される出力態様の一例を示す図である。同実施形態に係る発話制御部による複数の音声発話に係る同時制御について説明するための図である。同実施形態に係る背景音と調和した関連通知の制御について説明するための図である。同実施形態に係る環境音との親和性に係る出力態様の制御について説明するための図である。同実施形態に係るゲーム中の背景音との親和性に係る出力態様の制御について説明するための図である。同実施形態に係る歌声や発話などのキャンセル処理を伴う出力態様の制御について説明するための図である。同実施形態に係る情報処理サーバによる制御の流れを示すフローチャートである。本開示の一実施形態に係るハードウェア構成例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．実施形態
１．１．概要
１．２．システム構成例
１．３．再生装置１０の機能構成例
１．４．情報処理端末２０の機能構成例
１．５．情報処理サーバ３０の機能構成例
１．６．制御の具体例
１．７．制御の流れ
２．ハードウェア構成例
３．まとめ

＜１．実施形態＞
＜＜１．１．概要＞＞
上述したように、近年においては、音声発話により情報通知などを行う種々の装置が普及している。上記のような装置が情報通知を行う際の状況は多様であり、例えば、音楽などの背景音が存在する状況で音声発話による情報通知が行われる場合も少なくない。

しかし、例えば、音楽の再生時に音声発話が出力される場合、音声発話が音楽の雰囲気を著しく損ねたり、音声発話と歌声とが拮抗することによりユーザが情報通知の内容を把握し損ねたりする場合も想定される。

このため、音声発話による情報通知においては、背景音に調和する音声を適切なタイミングで出力することが求められる。

しかし、上記のような制御が常時行われる場合、反対に利便性を損ねるケースも考えられる。例えば、情報通知の重要度が高い場合、背景音と調和する音声を用いることで、情報通知が背景音に埋没してしまい、ユーザが重要な情報通知を見逃す懸念が生じる。したがって、音声発話による情報通知は、当該情報通知の重要度および背景音との親和性の両者を考慮して制御されることが望ましい。

本開示に係る技術思想は、上記の点に着目して発想されたものであり、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能とする。このために、本開示の一実施形態に係る情報処理装置および情報処理方法は、通知情報の重要度、および背景音との親和性に基づいて、音声発話の出力態様を制御すること、を特徴の一つとする。

図１は、本開示に係る技術思想の概要について説明するための図である。図１に示す再生装置１０は、音楽や動画などのコンテンツを再生する装置であり、情報処理端末２０は、本実施形態に係る情報処理サーバ３０による制御に基づいて音声発話による情報通知を行う装置である。

図１の上段には、情報通知の重要度が比較的低い場合における音声発話の出力制御の例が示されている。情報通知の重要度が比較的低い場合、本実施形態に係る情報処理サーバ３０は、背景音ＢＳに対し親和性の高い出力態様で情報処理端末２０に音声発話ＳＯ１を出力させることができる。すなわち、本実施形態に係る情報処理サーバ３０は、再生装置１０から出力される背景音ＢＳに調和する出力態様で情報処理端末２０に音声発話ＳＯ１を出力させる。

ここで、上記の出力態様には、音声発話の出力タイミング、声質、韻律、効果などが含まれる。情報通知の重要度が比較的低い場合、情報処理サーバ３０は、例えば、音楽である背景音ＢＳに含まれるヴォーカルと類似する声質、韻律、効果を設定し、情報処理端末２０による音声発話ＳＯ１の出力を制御してもよい。

ここで、上記の声質には、話者の性別や高さ、音声の高低などが含まれる。また、上記の韻律には、音声のリズム、強弱、長短などが含まれる。また、上記の効果には、例えば、音声の音質や信号処理による種々の加工状態が含まれる。

なお、本開示に係る図面において、背景音と発話音声に係る文字装飾は上記の声質、韻律、効果など示すものとする。例えば、図１の上段においては、背景音ＢＳと音声発話ＳＯ１とに係る文字装飾が同一であることにより、音声発話ＳＯ１が背景音ＢＳと類似する声質、韻律、または効果で出力されていることが示されている。

また、情報通知の重要度が比較的低い場合、情報処理サーバ３０は、背景音ＢＳが含む主要部を阻害しない出力タイミングを設定し、当該出力タイミングで音声発話ＳＯ１を情報処理端末２０に出力させることができる。ここで、上記の主要部は、例えば、楽曲におけるヴォーカル部分、コーラス、主題など、動画やゲームにおける発話部分、クライマックスなどの盛り上がりを指す。図１の上段に示す一例の場合、情報処理サーバ３０は、背景音ＢＳのヴォーカルと重複しないように、音声発話ＳＯ１を出力させている。

このように、本実施形態に係る情報処理サーバ３０は、重要度の比較的低い情報通知に関しては、背景音ＢＳとの親和性が高くなるように、すなわち背景音ＢＳと調和するように、音声発話ＳＯ１の出力態様を制御することができる。情報処理サーバ３０が有する上記の機能によれば、音楽などの背景音ＢＳの雰囲気を阻害することなく、より自然な情報通知を実現することが可能となる。

一方、図１の下段には、情報通知の重要度が比較的高い場合における音声発話の出力制御の例が示されている。情報通知の重要度が比較的高い場合、本実施形態に係る情報処理サーバ３０は、背景音ＢＳに対し親和性の低い出力態様で情報処理端末２０に音声発話ＳＯ２を出力させてよい。すなわち、本実施形態に係る情報処理サーバ３０は、再生装置１０から出力される背景音ＢＳに対し音声発話ＳＯ２が強調される出力態様を設定し、情報処理端末２０に音声発話ＳＯ２を出力させることができる。

図１の下段においては、背景音ＢＳと音声発話ＳＯ２とに係る文字装飾が異なることにより、音声発話ＳＯ２が背景音ＢＳと類似しない声質、韻律、または効果で出力されていることが示されている。

また、情報通知の重要度が比較的高い場合、情報処理サーバ３０は、背景音ＢＳに対し音声発話ＳＯ２が強調される出力タイミングを設定し、当該出力タイミングで音声発話ＳＯ２を情報処理端末２０に出力させることができる。情報処理サーバ３０は、例えば、図示するように、音声発話ＳＯ２を背景音ＢＳに含まれるヴォーカルと重複するように出力させることで、音声発話ＳＯ２を強調してもよい。一方、情報処理サーバ３０は、例えば、背景音ＢＳの主要部など、盛り上がりの激しい部分では、ユーザの注意が情報通知に向かないことを想定し、主要部を避けて出力を行わせることで、音声発話ＳＯ２を強調することもできる。

このように、本実施形態に係る情報処理サーバ３０は、重要度の比較的高い情報通知に関しては、背景音ＢＳとの親和性が低くなるように、すなわち背景音ＢＳに対して音声発話ＳＯ２が強調されるように出力態様を制御することができる。情報処理サーバ３０が有する上記の機能によれば、音楽などの背景音ＢＳが存在する場合、背景音ＢＳに対して音声発話ＳＯ２を強調することで、ユーザが重要な情報通知を見逃す恐れを効果的に低減することが可能となる。

以上、本開示に係る技術思想の概要について説明した。なお、上記では、背景音が再生装置１０により再生される音楽などのコンテンツである場合を例に挙げて説明したが、本実施形態に係る背景音には、音楽、発話、環境音などの種々の音が含まれる。また、本実施形態に係る背景音は、再生装置１０から出力される音に限らず、情報処理端末２０により収集され得る種々の音であってよい。本実施形態に係る背景音の具体例については、別途詳細に説明する。

＜＜１．２．システム構成例＞＞
次に、本実施形態に係るシステム構成例について説明する。図２は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図２を参照すると、本実施形態に係る情報処理システムは、再生装置１０、情報処理端末２０、および情報処理サーバ３０を含み得る。また、再生装置１０と情報処理サーバ３０、情報処理端末２０と情報処理サーバ３０は、ネットワーク４０を介して互いに通信が行えるように接続される。

（再生装置１０）
本実施形態に係る再生装置１０は、背景音に該当する音楽や音声、その他の音などを再生する装置である。再生装置１０は、音楽コンテンツや動画コンテンツなどを再生する種々の装置であり得る。本実施形態に係る再生装置１０は、例えば、オーディオ機器、テレビジョン装置、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、エージェント装置、電話機などであってもよい。

（情報処理端末２０）
本実施形態に係る情報処理端末２０は、情報処理サーバ３０による制御に基づいて、音声発話を出力する装置である。また、本実施形態に係る情報処理端末２０は、再生装置１０により出力される音や、周囲で生じた種々の音を背景音として収集する機能を有する。本実施形態に係る情報処理端末２０は、例えば、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、エージェント装置などであってよい。

（情報処理サーバ３０）
本実施形態に係る情報処理サーバ３０は、情報処理端末２０が収集した背景音と情報通知の重要度とに基づいて、情報処理端末２０による音声発話の出力態様を制御する情報処理装置である。上述したように、本実施形態に係る情報処理サーバ３０は、情報通知の重要度が比較的低い場合においては、背景音に対し親和性の高い出力態様を設定し、情報処理端末２０に音声発話を行わせることができる。一方、情報通知の重要度が比較的高い場合においては、背景音に対し親和性の低い出力態様を設定し、情報処理端末２０に音声発話を行わせることができる。

（ネットワーク４０）
ネットワーク４０は、再生装置１０と情報処理サーバ３０、情報処理端末２０と情報処理サーバ３０を接続する機能を有する。ネットワーク４０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク４０は、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク４０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図２を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理システムの機能構成は係る例に限定されない。例えば、本実施形態に係る背景音は、再生装置１０から出力される音に限定されない。このため、本実施形態に係る情報処理システムは、必ずしも再生装置１０を含まなくてもよい。また、再生装置１０と情報処理端末２０が有する機能は、単一の装置により実現されてもよい。同様に、情報処理端末２０と情報処理サーバ３０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．３．再生装置１０の機能構成例＞＞
次に、本実施形態に係る再生装置１０の機能構成例について詳細に説明する。図３は、本実施形態に係る再生装置１０の機能ブロック図の一例である。図３を参照すると、本実施形態に係る再生装置１０は、再生部１１０、処理部１２０、および通信部１３０を備える。

（再生部１１０）
本実施形態に係る再生部１１０は、音楽コンテンツや動画コンテンツなどを再生する機能を有する。このために、本実施形態に係る再生部１１０は、各種の表示装置やアンプ、スピーカなどを備える。

（処理部１２０）
本実施形態に係る処理部１２０は、再生部１１０によるコンテンツ再生に係る種々の処理を実行する。本実施形態に係る処理部１２０は、例えば、後述する歌声や発話などのキャンセル処理を実行することができる。また、本実施形態に係る処理部１２０は、コンテンツ再生に係る処理のほか、再生装置１０の特性に応じた種々の制御を行ってよい。

（通信部１３０）
本実施形態に係る通信部１３０は、ネットワーク４０を介して情報処理サーバ３０との情報通信を実現する機能を有する。具体的には、通信部１３０は、再生部１１０が再生するコンテンツに係る情報を情報処理サーバ３０に送信してもよい。また、通信部１３０は、歌声や発話などのキャンセル処理に係る制御信号を情報処理サーバ３０から受信してもよい。

以上、本実施形態に係る再生装置１０の機能構成例について詳細に説明した。なお、図３を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る再生装置１０の機能構成は係る例に限定されない。本実施形態に係る再生装置１０は、図３に示す以外の構成をさらに含んでもよい。再生装置１０は、例えば、ユーザによる入力操作を受け付ける入力部などをさらに含み得る。また、再生部１１０や処理部１２０が有する機能は、情報処理端末２０により実現されてもよい。本実施形態に係る再生装置１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．４．情報処理端末２０の機能構成例＞＞
次に、本実施形態に係る情報処理端末２０の機能構成例について詳細に説明する。図４は、本実施形態に係る情報処理端末２０の機能ブロック図の一例である。図４を参照すると、本実施形態に係る情報処理端末２０は、音声入力部２１０、センサ部２２０、音声出力部２３０、および通信部２４０を備える。

（音声入力部２１０）
本実施形態に係る音声入力部２１０は、背景音やユーザによる発話を収集する機能を有する。上述したように、本実施形態に係る背景音には、再生装置１０により再生される音の他、情報処理端末２０の周囲で生じる種々の音が含まれる。本実施形態に係る音声入力部２１０は、背景音を収集するためのマイクロフォンを備える。

（センサ部２２０）
本実施形態に係るセンサ部２２０は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。本実施形態に係るセンサ部２２０は、例えば、加速度センサ、角速度センサ、地磁気センサ、光センサ、温度センサ、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）信号受信機、各種の生体センサなどを含む。なお、上記の生体センサは、例えば、ユーザの脈拍、血圧、脳波、呼吸、体温などに関する情報を収集するセンサを含む。本実施形態に係るセンサ部２２０が収集したセンサ情報は、情報処理サーバ３０による情報通知の重要度判定に用いられ得る。

（音声出力部２３０）
本実施形態に係る音声出力部２３０は、情報処理サーバ３０による制御に基づいて、音声発話を出力する機能を有する。この際、本実施形態に係る音声出力部２３０は、情報処理サーバ３０が設定した出力態様に対応する音声発話を出力することを特徴の一つとする。音声出力部２３０は、音声発話を出力するためのアンプやスピーカを備える。

（通信部２４０）
本実施形態に係る通信部２４０は、ネットワーク４０を介して情報処理サーバ３０との情報通信を行う機能を有する。具体的には、通信部２４０は、音声入力部２１０が収集した背景音やセンサ部２２０が収集したセンサ情報を情報処理サーバ３０に送信する。また、通信部２４０は、情報処理サーバ３０から音声発話に用いられる人工音声を受信する。

以上、本実施形態に係る情報処理端末２０の機能構成例について詳細に説明した。なお、図４を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理端末２０の機能構成は係る例に限定されない。本実施形態に係る情報処理端末２０は、図４に示す以外の構成をさらに備えてもよい。情報処理端末２０は、例えば、再生装置１０の再生部１１０に相当する構成をさらに備えてもよい。また、上述したように、本実施形態に係る情報処理端末２０が有する機能は、情報処理サーバ３０の機能として実現されてもよい。本実施形態に係る情報処理端末２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．５．情報処理サーバ３０の機能構成例＞＞
次に、本実施形態に係る情報処理サーバ３０の機能構成例について詳細に説明する。図５は、本実施形態に係る情報処理サーバ３０の機能ブロック図の一例である。図５を参照すると、本実施形態に係る情報処理サーバ３０は、解析部３１０、判定部３２０、プロパティＤＢ３３０、発話制御部３４０、音声合成部３５０、信号処理部３６０、および通信部３７０を備える。

（解析部３１０）
本実施形態に係る解析部３１０は、情報処理端末２０が収集した背景音や再生装置１０から送信されるコンテンツの情報に基づいて、背景音に係る解析を行う機能を有する。具体的には、本実施形態に係る解析部３１０は、背景音に係る声質、韻律、音質、主要部などの解析を行うことができる。この際、解析部３１０は、音解析部分野において広く用いられる手法により上記の解析を行ってよい。

（判定部３２０）
本実施形態に係る判定部３２０は、通知情報の重要度を判定する機能を有する。なお、本実施形態に係る通知情報の重要度には、通知に係る緊急度が含まれる。図６は、本実施形態に係る判定部３２０による通知情報の重要度判定について説明するための図である。図示するように、本実施形態に係る判定部３２０は、入力される種々の情報に基づいて、通知情報の重要度を判定することができる。

具体的には、判定部３２０は、音声発話の内容を示す発話テキスト、通知情報の特性、通知情報に係るコンテキストデータ、通知情報を提示するユーザのユーザプロパティなどに基づいて、通知情報の重要度を判定してよい。

ここで、上記の通知情報の特性とは、通知情報の内容や分類を含んでよい。判定部３２０は、例えば、通知情報が、ニュース、天気、広告、コンテンツに関する関連情報、ＳＮＳ（ｓｏｃｉａｌｎｅｔｗｏｒｋｉｎｇｓｅｒｖｉｃｅ）を含むＷｅｂ情報の読み上げなど、不特定多数に配信される情報である場合には、当該通知情報の重要度が比較的低いと判定してもよい。判定部３２０が重要度が比較的低いと判定する通知情報には、上記の例のほか、ユーザが聞き逃した場合であっても損害が少なく、選択的に聴き取ることで利益となる種々の情報が含まれる。

一方、判定部３２０は、例えば、通知情報が、スケジュール、メッセージ、ユーザによる問い合わせへの応答、ナビゲーションなど、ユーザ個人に向けて通知される情報である場合には、当該通知情報の重要度が比較的高いと判定してもよい。判定部３２０が重要度が比較的高いと判定する通知情報には、上記の例のほか、ユーザが聞き逃した場合に不利益となり得る種々の情報が含まれる。

以上説明したように、本実施形態に係る判定部３２０は、通知情報の特性に基づいて、通知情報の重要度を判定することが可能である。なお、判定部３２０は、上記に例示したような通知情報の特性をメタデータとして取得してもよいし、発話テキストを解析することで取得してもよい。

また、通知情報の特性が同一である場合であっても、通知情報を出力する際の状況によっては、ユーザにっと当該通知情報の重要度が変化することも想定される。このために、本実施形態に係る判定部３２０は、情報通知に係るコンテキストデータに基づいて、通知情報の重要度を判定してもよい。ここで、上記のコンテキストデータとは、通知情報が出力される際の状況を示す種々の情報を指す。本実施形態に係るコンテキストデータには、例えば、情報処理端末２０が収集したセンサ情報や発話情報、ユーザのスケジュールなどが含まれる。

例えば、通知情報が地点Ａの天気予報に関する情報である場合、当該通知情報の重要度は、通常時には比較的低いが、ユーザが地点Ａに向かう予定である場合には、一時的に重要度が高くなると考えられる。この場合、判定部３２０は、収集された発話情報やスケジュール、ユーザにより入力された目的地情報などのコンテキストデータに基づいて、地点Ａの天気予報に係る通知情報の重要度を判定することができる。

また、ユーザに警告や注意を促す通知情報も状況に応じて重要度が変化することが想定される。例えば、ユーザが音楽を聴きながらジョギングなどを行っている場合において、背後から車両が接近してきた状況、ユーザの体温や血圧の急激な上昇が検出された状況などには、判定部３２０は、当該状況に関する通知情報の重要度が高いと判定してよい。この際、判定部３２０は、情報処理端末２０やその他の外部装置により収集されるセンサ情報などに基づいて、上記の判定を行うことができる。本実施形態に係る判定部３２０が有する上記の機能によれば、状況に応じて通知情報の重要度を適切に判定することができ、当該重要度に応じた音声発話の出力制御を実現することが可能となる。

また、通知情報の重要度は、全ユーザに共通するものではなく、ユーザごとに異なることも想定される。このために、本実施形態に係る判定部３２０は、通知情報を提示するユーザに関するユーザプロパティに基づいて、通知情報の重要度を判定してもよい。ここで、上記のユーザプロパティには、ユーザの特性や傾向などが含まれる。

例えば、判定部３２０は通知情報がニュースの配信に関するものであっても、ユーザが頻繁に閲覧するカテゴリのニュースである場合には、当該通知情報の重要度が高いと判定してもよい。一方、判定部３２０は、通知情報がメッセージの受信に関するものであっても、過去の傾向としてユーザによる返信が行われていない、または返信が遅い送信元からのメッセージである場合には、当該通知情報の重要度が低いと判定してもよい。

通知情報の重要度は、ユーザの性別や年齢、居住地などの特性に応じて変化することが想定される。このため、本実施形態に係る判定部３２０は、上記のような特性に基づいて、通知情報の重要度を判定してもよい。本実施形態に係る判定部３２０は、プロパティＤＢ３３０に保持されるユーザプロパティの情報に基づいて、上記に例示したような判定を行うことができる。このように、本実施形態に係る判定部３２０が有する上記の機能によれば、ユーザの傾向や特性に応じたより柔軟な重要度判定が可能となる。

なお、本実施形態に係る判定部３２０は、通知情報に対し予め静的に設定される重要度を取得してもよい。予め静的に設定される重要度の例としては、メッセージ送信時に送信元が設定する重要度の情報や、通知情報のカテゴリなどに対しユーザが明示的に設定した重要度が挙げられる。

（プロパティＤＢ３３０）
本実施形態に係るプロパティＤＢ３３０は、上述したユーザプロパティに関する情報を保持、蓄積するデータベースである。なお、プロパティＤＢ３３０は、ユーザプロパティに関する情報の他、情報処理端末２０などにより収集されたセンサ情報や、音声発話の出力に対するユーザからのフィードバック情報などを蓄積してもよい。判定部３２０は、プロパティＤＢ３３０が蓄積する種々の情報を分析、学習することで、判定精度を向上させることも可能である。

（発話制御部３４０）
本実施形態に係る発話制御部３４０は、通知情報に対応する音声発話の出力を制御する機能を有する。上述したように、本実施形態に係る発話制御部３４０は、通知情報の重要度、および背景音との親和性に基づいて、情報処理端末２０による音声発話の出力態様を制御することを特徴の一つとする。本実施形態に係る発話制御部３４０による制御の具体例については、別途詳細に説明する。

（音声合成部３５０）
本実施形態に係る音声合成部３５０は、発話制御部３４０による制御に基づいて、音声発話に用いられる人工音声を合成する機能を有する。音声合成部３５０が生成する人工音声は、通信部３７０およびネットワーク４０を介して情報処理端末２０に送信され、音声出力部２３０により音声出力される。

（信号処理部３６０）
本実施形態に係る信号処理部３６０は、発話制御部３４０による制御に基づいて、音声合成部３５０が合成した人工音声に対する種々の信号処理を実行する。信号処理部３６０は、例えば、サンプリングレートの変更処理、フィルタによる特定の周波数成分のカット処理、ノイズ重畳によるＳＮ比の変更処理などを行ってもよい。

（通信部３７０）
本実施形態に係る通信部３７０は、ネットワーク４０を介して再生装置１０や情報処理端末２０などの装置と情報通信を行う機能を有する。具体的には、通信部３７０は、情報処理端末２０などから、背景音、発話、センサ情報などを受信する。また、通信部３７０は、音声合成部３５０が合成した人工音声や当該人工音声に係る制御信号を情報処理端末２０に送信する。また、通信部３７０は、後述する歌声や発話のキャンセル処理に係る制御信号を再生装置１０に送信する。

以上、本実施形態に係る情報処理サーバ３０の機能構成例について詳細に説明した。なお、図５を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ３０に機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理サーバ３０は、再生装置１０や情報処理端末２０と同一の装置として実現されてもよい。本実施形態に係る情報処理サーバ３０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．６．制御の具体例＞＞
次に、本実施形態に係る情報処理サーバ３０による制御の詳細について具体例を挙げながら説明する。

（出力態様制御の具体例）
まず、本実施形態に係る出力態様制御の具体例について説明する。本実施形態に係る発話制御部３４０は、判定部３２０が通知情報の重要度が比較的低いと判定したことに基づいて、音楽などの背景音に対して親和性の高い出力態様を設定する。一方、発話制御部３４０は、判定部３２０が通知情報の重要度が比較的高いと判定したことに基づいて、背景音に対して親和性の低い出力態様を設定する。

図７は、本実施形態に係る発話制御部３４０により制御される出力態様の一例を示す図である。図７には、発話制御部３４０が通知情報の重要度に基づいて、音声発話に係る声質、効果、および韻律を制御する場合の一例が示されている。なお、図７では、デフォルト設定においては、話者設定が、声の高さが標準的である３０代の女性であり、音声発話が高い音質かつ標準の速度で出力される場合の制御例が示される。

また、図７では、背景音に係る話者が、声の高さが低い６０代の男性であり、また背景音の音質が低く、遅い速度である場合の一例が示されている。上記の話者は、例えば、音楽におけるヴォーカル、動画や現実世界における発話者などが含まれ得る。

ここで、通知情報の重要度が比較的高い場合、発話制御部３４０は、背景音に対し親和性の低い出力態様を設定することで、背景音に対し音声発話を際立たせることができる。具体的には、発話制御部３４０は、背景音に係る話者の声質とは類似しない話者を設定してもよい。図７に示す一例の場合、発話制御部３４０は、声の高さが高い１０代の女性を設定することで、背景音に対し親和性の低い声質を実現している。また、発話制御部３４０は、音声発話が高い音質かつ早い速度で出力されるよう制御を行うことで、背景音に対し音声発話を強調してもよい。

一方、通知情報の重要度が比較的低い場合、発話制御部３４０は、背景音に対し親和性の高い出力態様を設定することで、背景音と調和した音声発話を実現することができる。具体的には、発話制御部３４０は、背景音に係る話者の声質と類似する話者を設定することができる。図７に示す一例の場合、発話制御部３４０は、背景音に係る話者と同一である、声の低い６０代の男性を設定すること、背景音と調和する音声発話を出力させている。なお、発話制御部３４０は、背景音の話者と類似する声質の話者を設定するほか、例えば、ヴォーカルの声やユーザの好む声などを予め学習し、音声発話が学習済みの声質で出力されるよう制御を行ってもよい。

また、発話制御部３４０は、音声発話が低い音質かつ遅い速度で出力されるよう制御を行うことで、音声発話を背景音に調和させてもよい。発話制御部３４０は、音楽コンテンツの制作や発表時期などに応じて音声発話の音質を制御することも可能である。例えば、背景音として収集された音楽コンテンツの制作時期が比較定期古い場合にあっては、発話制御部３４０は、信号処理部３６０に音声発話の帯域を限定させたりノイズを付加させたりすることで、背景音と調和する音質で音声発話を出力させることができる。

以上説明したように、本実施形態に係る発話制御部３４０は、通知情報の重要度に応じて、声質、効果、韻律などの出力態様に係るパラメータを設定し、当該パラメータを音声合成部３５０や信号処理部３６０に引き渡すことで、音声発話に係る背景音との親和性を制御することが可能である。また、上述したように、本実施形態に係る発話制御部３４０は、音声発話の出力タイミングをさらに制御してよい。

（複数の音声発話に係る同時制御）
次に、本実施形態に係る発話制御部３４０による複数の音声発話に係る同時制御について説明する。本実施形態に係る発話制御部３４０は、複数の情報処理端末２０による音声発話を同時に制御することも可能である。図８は、本実施形態に係る発話制御部３４０による複数の音声発話に係る同時制御について説明するための図である。

図８には、例えば、飛行機などにおいて、異なるユーザが異なる再生装置１０ａおよび１０ｂをそれぞれ用いて動画コンテンツを視聴している状況が示されている。この際、本実施形態に係る発話制御部３４０は、機内アナウンスの重要度と、それぞれの動画コンテンツ、すなわち背景音との親和性とに基づいて、複数の音声発話ＳＯ３ａおよびＳＯ３ｂの出力態様を制御することができる。

例えば、機内アナウンスが目的地の天気に関する情報など、比較的重要度が低い場合、発話制御部３４０は、再生装置１０ａおよび１０ｂにより再生される動画コンテンツに音声発話ＳＯ３ａおよびＳＯ３ｂが調和するように、それぞれの出力態様を制御してよい。すなわち、発話制御部３４０は、再生装置１０ａにより再生される動画コンテンツに調和するように音声発話ＳＯ３ａの出力態様を設定し、再生装置１０ｂにより再生される動画コンテンツに調和するように音声発話ＳＯ３ｂの出力態様を設定することができる。発話制御部３４０が有する上記の機能によれば、複数の再生装置１０や情報処理端末２０が存在する場合であっても、ユーザごとに状況に応じた適切な情報通知を行うことが可能となる。

（背景音と調和した関連通知の制御）
次に、本実施形態に係る背景音と調和した関連通知の制御について説明する。本実施形態に係る発話制御部３４０は、通知情報が背景音に係るコンテンツの内容と関連する場合、当該通知情報が背景音と調和するように出力態様を設定することで、より自然な情報通知を実現することも可能である。

図９は、本実施形態に係る背景音と調和した関連通知の制御について説明するための図である。図９には、再生装置１０により全国の天気予報に関する放送プログラムが再生されている状況が示されている。この際、本実施形態に係る発話制御部３４０は、プロパティＤＢ３３０に保持されるユーザの居住地やスケジュール情報として取得したユーザの目的地の天気に関する音声発話ＳＯ４を背景音に調和させて出力させることができる。具体的には、発話制御部３４０は、上記の放送プログラムにおけるキャスターの発話ＵＯ１と類似する声質を設定した音声発話ＳＯ４を発話ＵＯ１に続けて出力させることで、ユーザ個人に向けた情報をあたかもキャスターが発しているように、違和感のない情報通知を実現することができる。

（環境音との親和性に係る出力態様の制御）
次に、本実施形態に係る環境音との親和性に係る出力態様の制御について説明する。上述したように、本実施形態に係る背景音には、環境音が含まれる。本実施形態に係る発話制御部３４０は、背景音との親和性を考慮した出力態様の制御を行うことができる。

図１０は、本実施形態に係る環境音との親和性に係る出力態様の制御について説明するための図である。図１０には、ユーザがビーチにおいてくつろいでいる際に、発話制御部３４０が、緊急度の比較的低い通知情報に係る音声発話ＳＯ５を情報処理端末２０に出力させる場合の一例が示されている。

この際、本実施形態に係る発話制御部３４０は、情報処理端末２０により収集された波の音である背景音ＢＳに対し親和性の高い出力態様を設定し、音声発話ＳＯ５を出力させてよい。発話制御部３４０は、例えば、波の音の高さに調和する声質や波のリズムに調和する韻律で音声発話ＳＯ５を出力させることができる。

本実施形態に係る発話制御部３４０が有する上記の機能によれば、環境音に応じた適切な出力態様で音声発話を出力させることが可能となり、例えば、休暇中であるユーザの気分を損なわない情報通知を実現することができる。なお、図１０では、環境音が波の音である場合の一例を示したが、本実施形態に係る環境音には、例えば、鳥や虫の鳴き声、雨や風の音、花火の音、乗り物の進行に伴い発せられる音、雑踏の音など、種々の音が含まれる。

（ゲーム中の背景音との親和性に係る出力態様の制御）
次に、本実施形態に係るゲーム中の背景音との親和性に係る出力態様の制御について説明する。本実施形態に係る背景音には、例えば、ゲーム中において出力される種々の音が含まれる。このため、本実施形態に係る発話制御部３４０は、上記のような音との親和性を考慮して音声発話に係る出力態様を設定してよい。

図１１は、本実施形態に係るゲーム中の背景音との親和性に係る出力態様の制御について説明するための図である。図１１には、ユーザがアイグラス型やヘッドマウント型のウェアラブル装置である再生装置１０を装着し、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）やＶＲ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ）技術を用いたサバイバルゲームを行っている際の視野Ｖ１が例示されている。

この際、本実施形態に係る発話制御部３４０は、ゲーム中におけるナビゲータなどのキャラクターＣ１が発する音声などとの親和性を考慮した出力態様を設定し、音声発話ＳＯ６を出力させることができる。具体的には、通知情報の重要度が比較的低い場合、発話制御部３４０は、キャラクターＣ１と類似する声質で音声発話ＳＯ６を出力させることで、背景音と調和した情報通知を実現することが可能である。

この際、発話制御部３４０は、通信部３７０が受信したキャラクターＣ１の声質に係るパラメータに基づいて、キャラクターＣ１と類似する声質の人工音声を音声合成部３５０に合成させることができる。このように、本実施形態に係る通信部３７０は、再生装置１０などから出力態様に係るパラメータを受信してもよい。なお、上記の出力態様に係るパラメータには、図７に例示した声質、効果、韻律などに係るパラメータが含まれる。

（歌声や発話などのキャンセル処理を伴う音声発話の制御）
次に、本実施形態に係る歌声や発話などのキャンセル処理を伴う出力態様の制御について説明する。本実施形態に係る発話制御部３４０は、背景音の一部の音をキャンセルさせることにより、より背景音に調和した情報通知を実現することが可能である。具体的には、発話制御部３４０は、背景音に含まれる歌声や発話などをキャンセルさせると同時に、当該歌声や発話などと類似した出力態様で音声発話を出力させることができる。

図１２は、本実施形態に係る歌声や発話などのキャンセル処理を伴う出力態様の制御について説明するための図である。図１２に示す一例の場合、発話制御部３４０は、再生装置１０により再生される音楽である背景音ＢＳにおいて歌声ＳＶをキャンセルさせ、歌声ＳＶと類似する出力態様を有する音声発話ＳＯ７を出力させている。すなわち、発話制御部３４０は、歌声ＳＶと類似する声質、韻律、効果で通知情報に対応する歌声を合成し、当該歌声を音声発話ＳＯ７として出力させることができる。

本実施形態に係る発話制御部３４０が有する上記の機能によれば、音楽などの背景音により調和した情報通知を実現することができ、またユーザの興味を効果的に引き付けることが可能となる。

＜＜１．７．制御の流れ＞＞
次に、本実施形態に係る情報処理サーバ３０による制御の流れについて詳細に説明する。図１３は、本実施形態に係る情報処理サーバ３０による制御の流れを示すフローチャートである。

図１３を参照すると、まず、判定部３２０が通知情報の重要度を判定する（Ｓ１１０１）。

ここで、判定部３２０が通知情報の重要度が高いと判定した場合（Ｓ１１０２：Ｙｅｓ）、発話制御部３４０は、収集された背景音と類似しない声質を設定する（Ｓ１１０３）。

また、発話制御部３４０は、背景音と類似しない韻律を設定する（Ｓ１１０４）。

また、発話制御部３４０は、音声発話を背景音に対して強調するよう、すなわち音声発話を聞き取りやすくするための信号処理に係るパラメータを設定してもよい（Ｓ１１０５）。

また、発話制御部３４０は、背景音に対し音声発話が強調される出力タイミングを設定する（Ｓ１１０６）

一方、判定部３２０が通知情報の重要度が高くないと判定した場合（Ｓ１１０２：Ｎｏ）、発話制御部３４０は、収集された背景音と類似する声質を設定する（Ｓ１１０７）。

また、発話制御部３４０は、背景音と類似する韻律を設定する（Ｓ１１０８）。

また、発話制御部３４０は、背景音と類似する効果を施すための信号処理に係るパラメータを設定する（Ｓ１１０９）。

また、発話制御部３４０は、背景音の主要部を阻害しない出力タイミングを設定する（Ｓ１１１０）。

続いて、音声合成部３５０および信号処理部３６０が、ステップＳ１１０３～１１１０において設定された出力態様に係るパラメータに基づく人工音声の合成と信号処理を実行し、当該人工音声と制御信号とが情報処理端末２０に送信される。

＜２．ハードウェア構成例＞
次に、本開示の一実施形態に係る再生装置１０、情報処理端末２０および情報処理サーバ３０に共通するハードウェア構成例について説明する。図１４は、本開示の一実施形態に係る再生装置１０、情報処理端末２０および情報処理サーバ３０のハードウェア構成例を示すブロック図である。図１４を参照すると、再生装置１０、情報処理端末２０および情報処理サーバ３０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（ＣＰＵ８７１）
ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理サーバ３０は、通知情報の重要度に基づいて、背景音との親和性が変化するよう音声発話の出力態様を制御する機能を有する。係る構成によれば、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、本明細書の情報処理サーバ３０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ３０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
通知情報に対応する音声発話の出力を制御する発話制御部、
を備え、
前記発話制御部は、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御する、
情報処理装置。
（２）
前記出力態様は、前記音声発話の出力タイミング、声質、韻律、効果のうち少なくともいずれかを含む、
前記（１）に記載の情報処理装置。
（３）
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に対し親和性の高い前記出力態様を設定し、前記音声発話を出力させる、
前記（１）または（２）に記載の情報処理装置。
（４）
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る声質と類似する声質を設定し、前記音声発話を出力させる、
前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る韻律と類似する韻律を設定し、前記音声発話を出力させる、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る音質と類似する音質を設定し、前記音声発話を出力させる、
前記（１）～（５）のいずれかに記載の情報処理装置。
（７）
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音が含む主要部を阻害しない出力タイミングを設定し、前記音声発話を出力させる、
前記（１）～（６）のいずれかに記載の情報処理装置。
（８）
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に適合する歌声を設定し、前記歌声を出力させる、
前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し親和性の低い前記出力態様を設定し、前記音声発話を出力させる、
前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る声質と類似しない声質を設定し、前記音声発話を出力させる、
前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る韻律と類似しない韻律を設定し、前記音声発話を出力させる、
前記（１）～（１０）のいずれかに記載の情報処理装置。
（１２）
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る音質と類似しない音質を設定し、前記音声発話を出力させる、
前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し前記音声発話が強調される出力タイミングを設定し、前記音声発話を出力させる、
前記（１）～（１２）のいずれかに記載の情報処理装置。
（１４）
前記背景音は、音楽、発話、環境音のうち少なくともいずれかを含む、
前記（１）～（１３）のいずれかに記載の情報処理装置。
（１５）
前記通知情報の重要度を判定する判定部、
をさらに備える、
前記（１）～（１４）のいずれかに記載の情報処理装置。
（１６）
前記判定部は、前記通知情報に係るコンテキストデータに基づいて前記通知情報の重要度を判定する、
前記（１５）に記載の情報処理装置。
（１７）
前記判定部は、前記通知情報を提示するユーザに関するユーザプロパティに基づいて、前記通知情報の重要度を判定する、
前記（１５）または（１６）に記載の情報処理装置。
（１８）
前記判定部は、前記通知情報の特性に基づいて、前記通知情報の重要度を判定する、
前記（１５）～（１７）のいずれかに記載の情報処理装置。
（１９）
前記出力態様に係るパラメータを受信する通信部、
をさらに備える、
前記（１）～（１８）のいずれかに記載の情報処理装置。
（２０）
プロセッサが、通知情報に対応する音声発話の出力を制御すること、
を含み、
前記制御することは、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御すること、
をさらに含む、
情報処理方法。

１０再生装置
１１０再生部
１２０処理部
１３０通信部
２０情報処理端末
２１０音声入力部
２２０センサ部
２３０音声出力部
２４０通信部
３０情報処理サーバ
３１０解析部
３２０判定部
３３０プロパティＤＢ
３４０発話制御部
３５０音声合成部
３６０信号処理部
３７０通信部

Claims

通知情報の重要度および背景音との親和性に基づいて、前記通知情報に対応する音声発話の出力態様を制御する発話制御部、
を備え、
前記発話制御部は、
前記重要度に応じて、前記背景音のうち合成音声を発するキャラクターの音声と類似もしくは非類似の音質とするよう前記音声発話の出力態様を制御する、
情報処理装置。
前記出力態様は、前記音声発話の出力タイミング、声質、韻律、効果のうち少なくともいずれかを含む、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に対し親和性の高い前記出力態様を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る声質と類似する声質を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る韻律と類似する韻律を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る音質と類似する音質を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音が含む主要部を阻害しない出力タイミングを設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に適合する歌声を設定し、前記歌声を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し親和性の低い前記出力態様を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る声質と類似しない声質を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る韻律と類似しない韻律を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る音質と類似しない音質を設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し前記音声発話が強調される出力タイミングを設定し、前記音声発話を出力させる、
請求項１に記載の情報処理装置。
前記背景音は、前記合成音声に加えて、音楽、発話、環境音のうち少なくともいずれかを含む、
請求項１に記載の情報処理装置。
前記通知情報の重要度を判定する判定部、
をさらに備える、
請求項１に記載の情報処理装置。
前記判定部は、前記通知情報に係るコンテキストデータに基づいて前記通知情報の重要度を判定する、
請求項１５に記載の情報処理装置。
前記判定部は、前記通知情報を提示するユーザに関するユーザプロパティに基づいて、前記通知情報の重要度を判定する、
請求項１５に記載の情報処理装置。
前記判定部は、前記通知情報の特性に基づいて、前記通知情報の重要度を判定する、
請求項１５に記載の情報処理装置。
前記出力態様に係るパラメータを受信する通信部、
をさらに備える、
請求項１に記載の情報処理装置。
プロセッサが、通知情報の重要度および背景音との親和性に基づいて、前記通知情報に対応する音声発話の出力態様を制御すること、
を含み、
前記制御することは、前記重要度に応じて、前記背景音のうち合成音声を発するキャラクターの音声と類似もしくは非類似の音質とするよう前記音声発話の出力態様を制御すること、
をさらに含む、
情報処理方法。