JP7131550B2 - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP7131550B2 JP7131550B2 JP2019519059A JP2019519059A JP7131550B2 JP 7131550 B2 JP7131550 B2 JP 7131550B2 JP 2019519059 A JP2019519059 A JP 2019519059A JP 2019519059 A JP2019519059 A JP 2019519059A JP 7131550 B2 JP7131550 B2 JP 7131550B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information processing
- utterance
- information
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 167
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000004891 communication Methods 0.000 claims description 34
- 230000000694 effects Effects 0.000 claims description 19
- 230000007613 environmental effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000005034 decoration Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000036760 body temperature Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Description
1.実施形態
1.1.概要
1.2.システム構成例
1.3.再生装置10の機能構成例
1.4.情報処理端末20の機能構成例
1.5.情報処理サーバ30の機能構成例
1.6.制御の具体例
1.7.制御の流れ
2.ハードウェア構成例
3.まとめ
<<1.1.概要>>
上述したように、近年においては、音声発話により情報通知などを行う種々の装置が普及している。上記のような装置が情報通知を行う際の状況は多様であり、例えば、音楽などの背景音が存在する状況で音声発話による情報通知が行われる場合も少なくない。
次に、本実施形態に係るシステム構成例について説明する。図2は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理システムは、再生装置10、情報処理端末20、および情報処理サーバ30を含み得る。また、再生装置10と情報処理サーバ30、情報処理端末20と情報処理サーバ30は、ネットワーク40を介して互いに通信が行えるように接続される。
本実施形態に係る再生装置10は、背景音に該当する音楽や音声、その他の音などを再生する装置である。再生装置10は、音楽コンテンツや動画コンテンツなどを再生する種々の装置であり得る。本実施形態に係る再生装置10は、例えば、オーディオ機器、テレビジョン装置、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、エージェント装置、電話機などであってもよい。
本実施形態に係る情報処理端末20は、情報処理サーバ30による制御に基づいて、音声発話を出力する装置である。また、本実施形態に係る情報処理端末20は、再生装置10により出力される音や、周囲で生じた種々の音を背景音として収集する機能を有する。本実施形態に係る情報処理端末20は、例えば、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、エージェント装置などであってよい。
本実施形態に係る情報処理サーバ30は、情報処理端末20が収集した背景音と情報通知の重要度とに基づいて、情報処理端末20による音声発話の出力態様を制御する情報処理装置である。上述したように、本実施形態に係る情報処理サーバ30は、情報通知の重要度が比較的低い場合においては、背景音に対し親和性の高い出力態様を設定し、情報処理端末20に音声発話を行わせることができる。一方、情報通知の重要度が比較的高い場合においては、背景音に対し親和性の低い出力態様を設定し、情報処理端末20に音声発話を行わせることができる。
ネットワーク40は、再生装置10と情報処理サーバ30、情報処理端末20と情報処理サーバ30を接続する機能を有する。ネットワーク40は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク40は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク40は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本実施形態に係る再生装置10の機能構成例について詳細に説明する。図3は、本実施形態に係る再生装置10の機能ブロック図の一例である。図3を参照すると、本実施形態に係る再生装置10は、再生部110、処理部120、および通信部130を備える。
本実施形態に係る再生部110は、音楽コンテンツや動画コンテンツなどを再生する機能を有する。このために、本実施形態に係る再生部110は、各種の表示装置やアンプ、スピーカなどを備える。
本実施形態に係る処理部120は、再生部110によるコンテンツ再生に係る種々の処理を実行する。本実施形態に係る処理部120は、例えば、後述する歌声や発話などのキャンセル処理を実行することができる。また、本実施形態に係る処理部120は、コンテンツ再生に係る処理のほか、再生装置10の特性に応じた種々の制御を行ってよい。
本実施形態に係る通信部130は、ネットワーク40を介して情報処理サーバ30との情報通信を実現する機能を有する。具体的には、通信部130は、再生部110が再生するコンテンツに係る情報を情報処理サーバ30に送信してもよい。また、通信部130は、歌声や発話などのキャンセル処理に係る制御信号を情報処理サーバ30から受信してもよい。
次に、本実施形態に係る情報処理端末20の機能構成例について詳細に説明する。図4は、本実施形態に係る情報処理端末20の機能ブロック図の一例である。図4を参照すると、本実施形態に係る情報処理端末20は、音声入力部210、センサ部220、音声出力部230、および通信部240を備える。
本実施形態に係る音声入力部210は、背景音やユーザによる発話を収集する機能を有する。上述したように、本実施形態に係る背景音には、再生装置10により再生される音の他、情報処理端末20の周囲で生じる種々の音が含まれる。本実施形態に係る音声入力部210は、背景音を収集するためのマイクロフォンを備える。
本実施形態に係るセンサ部220は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。本実施形態に係るセンサ部220は、例えば、加速度センサ、角速度センサ、地磁気センサ、光センサ、温度センサ、GNSS(Global Navigation Satellite System)信号受信機、各種の生体センサなどを含む。なお、上記の生体センサは、例えば、ユーザの脈拍、血圧、脳波、呼吸、体温などに関する情報を収集するセンサを含む。本実施形態に係るセンサ部220が収集したセンサ情報は、情報処理サーバ30による情報通知の重要度判定に用いられ得る。
本実施形態に係る音声出力部230は、情報処理サーバ30による制御に基づいて、音声発話を出力する機能を有する。この際、本実施形態に係る音声出力部230は、情報処理サーバ30が設定した出力態様に対応する音声発話を出力することを特徴の一つとする。音声出力部230は、音声発話を出力するためのアンプやスピーカを備える。
本実施形態に係る通信部240は、ネットワーク40を介して情報処理サーバ30との情報通信を行う機能を有する。具体的には、通信部240は、音声入力部210が収集した背景音やセンサ部220が収集したセンサ情報を情報処理サーバ30に送信する。また、通信部240は、情報処理サーバ30から音声発話に用いられる人工音声を受信する。
次に、本実施形態に係る情報処理サーバ30の機能構成例について詳細に説明する。図5は、本実施形態に係る情報処理サーバ30の機能ブロック図の一例である。図5を参照すると、本実施形態に係る情報処理サーバ30は、解析部310、判定部320、プロパティDB330、発話制御部340、音声合成部350、信号処理部360、および通信部370を備える。
本実施形態に係る解析部310は、情報処理端末20が収集した背景音や再生装置10から送信されるコンテンツの情報に基づいて、背景音に係る解析を行う機能を有する。具体的には、本実施形態に係る解析部310は、背景音に係る声質、韻律、音質、主要部などの解析を行うことができる。この際、解析部310は、音解析部分野において広く用いられる手法により上記の解析を行ってよい。
本実施形態に係る判定部320は、通知情報の重要度を判定する機能を有する。なお、本実施形態に係る通知情報の重要度には、通知に係る緊急度が含まれる。図6は、本実施形態に係る判定部320による通知情報の重要度判定について説明するための図である。図示するように、本実施形態に係る判定部320は、入力される種々の情報に基づいて、通知情報の重要度を判定することができる。
本実施形態に係るプロパティDB330は、上述したユーザプロパティに関する情報を保持、蓄積するデータベースである。なお、プロパティDB330は、ユーザプロパティに関する情報の他、情報処理端末20などにより収集されたセンサ情報や、音声発話の出力に対するユーザからのフィードバック情報などを蓄積してもよい。判定部320は、プロパティDB330が蓄積する種々の情報を分析、学習することで、判定精度を向上させることも可能である。
本実施形態に係る発話制御部340は、通知情報に対応する音声発話の出力を制御する機能を有する。上述したように、本実施形態に係る発話制御部340は、通知情報の重要度、および背景音との親和性に基づいて、情報処理端末20による音声発話の出力態様を制御することを特徴の一つとする。本実施形態に係る発話制御部340による制御の具体例については、別途詳細に説明する。
本実施形態に係る音声合成部350は、発話制御部340による制御に基づいて、音声発話に用いられる人工音声を合成する機能を有する。音声合成部350が生成する人工音声は、通信部370およびネットワーク40を介して情報処理端末20に送信され、音声出力部230により音声出力される。
本実施形態に係る信号処理部360は、発話制御部340による制御に基づいて、音声合成部350が合成した人工音声に対する種々の信号処理を実行する。信号処理部360は、例えば、サンプリングレートの変更処理、フィルタによる特定の周波数成分のカット処理、ノイズ重畳によるSN比の変更処理などを行ってもよい。
本実施形態に係る通信部370は、ネットワーク40を介して再生装置10や情報処理端末20などの装置と情報通信を行う機能を有する。具体的には、通信部370は、情報処理端末20などから、背景音、発話、センサ情報などを受信する。また、通信部370は、音声合成部350が合成した人工音声や当該人工音声に係る制御信号を情報処理端末20に送信する。また、通信部370は、後述する歌声や発話のキャンセル処理に係る制御信号を再生装置10に送信する。
次に、本実施形態に係る情報処理サーバ30による制御の詳細について具体例を挙げながら説明する。
まず、本実施形態に係る出力態様制御の具体例について説明する。本実施形態に係る発話制御部340は、判定部320が通知情報の重要度が比較的低いと判定したことに基づいて、音楽などの背景音に対して親和性の高い出力態様を設定する。一方、発話制御部340は、判定部320が通知情報の重要度が比較的高いと判定したことに基づいて、背景音に対して親和性の低い出力態様を設定する。
次に、本実施形態に係る発話制御部340による複数の音声発話に係る同時制御について説明する。本実施形態に係る発話制御部340は、複数の情報処理端末20による音声発話を同時に制御することも可能である。図8は、本実施形態に係る発話制御部340による複数の音声発話に係る同時制御について説明するための図である。
次に、本実施形態に係る背景音と調和した関連通知の制御について説明する。本実施形態に係る発話制御部340は、通知情報が背景音に係るコンテンツの内容と関連する場合、当該通知情報が背景音と調和するように出力態様を設定することで、より自然な情報通知を実現することも可能である。
次に、本実施形態に係る環境音との親和性に係る出力態様の制御について説明する。上述したように、本実施形態に係る背景音には、環境音が含まれる。本実施形態に係る発話制御部340は、背景音との親和性を考慮した出力態様の制御を行うことができる。
次に、本実施形態に係るゲーム中の背景音との親和性に係る出力態様の制御について説明する。本実施形態に係る背景音には、例えば、ゲーム中において出力される種々の音が含まれる。このため、本実施形態に係る発話制御部340は、上記のような音との親和性を考慮して音声発話に係る出力態様を設定してよい。
次に、本実施形態に係る歌声や発話などのキャンセル処理を伴う出力態様の制御について説明する。本実施形態に係る発話制御部340は、背景音の一部の音をキャンセルさせることにより、より背景音に調和した情報通知を実現することが可能である。具体的には、発話制御部340は、背景音に含まれる歌声や発話などをキャンセルさせると同時に、当該歌声や発話などと類似した出力態様で音声発話を出力させることができる。
次に、本実施形態に係る情報処理サーバ30による制御の流れについて詳細に説明する。図13は、本実施形態に係る情報処理サーバ30による制御の流れを示すフローチャートである。
次に、本開示の一実施形態に係る再生装置10、情報処理端末20および情報処理サーバ30に共通するハードウェア構成例について説明する。図14は、本開示の一実施形態に係る再生装置10、情報処理端末20および情報処理サーバ30のハードウェア構成例を示すブロック図である。図14を参照すると、再生装置10、情報処理端末20および情報処理サーバ30は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示の一実施形態に係る情報処理サーバ30は、通知情報の重要度に基づいて、背景音との親和性が変化するよう音声発話の出力態様を制御する機能を有する。係る構成によれば、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能となる。
(1)
通知情報に対応する音声発話の出力を制御する発話制御部、
を備え、
前記発話制御部は、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御する、
情報処理装置。
(2)
前記出力態様は、前記音声発話の出力タイミング、声質、韻律、効果のうち少なくともいずれかを含む、
前記(1)に記載の情報処理装置。
(3)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に対し親和性の高い前記出力態様を設定し、前記音声発話を出力させる、
前記(1)または(2)に記載の情報処理装置。
(4)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る声質と類似する声質を設定し、前記音声発話を出力させる、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る韻律と類似する韻律を設定し、前記音声発話を出力させる、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る音質と類似する音質を設定し、前記音声発話を出力させる、
前記(1)~(5)のいずれかに記載の情報処理装置。
(7)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音が含む主要部を阻害しない出力タイミングを設定し、前記音声発話を出力させる、
前記(1)~(6)のいずれかに記載の情報処理装置。
(8)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に適合する歌声を設定し、前記歌声を出力させる、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し親和性の低い前記出力態様を設定し、前記音声発話を出力させる、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る声質と類似しない声質を設定し、前記音声発話を出力させる、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る韻律と類似しない韻律を設定し、前記音声発話を出力させる、
前記(1)~(10)のいずれかに記載の情報処理装置。
(12)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る音質と類似しない音質を設定し、前記音声発話を出力させる、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し前記音声発話が強調される出力タイミングを設定し、前記音声発話を出力させる、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
前記背景音は、音楽、発話、環境音のうち少なくともいずれかを含む、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
前記通知情報の重要度を判定する判定部、
をさらに備える、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
前記判定部は、前記通知情報に係るコンテキストデータに基づいて前記通知情報の重要度を判定する、
前記(15)に記載の情報処理装置。
(17)
前記判定部は、前記通知情報を提示するユーザに関するユーザプロパティに基づいて、前記通知情報の重要度を判定する、
前記(15)または(16)に記載の情報処理装置。
(18)
前記判定部は、前記通知情報の特性に基づいて、前記通知情報の重要度を判定する、
前記(15)~(17)のいずれかに記載の情報処理装置。
(19)
前記出力態様に係るパラメータを受信する通信部、
をさらに備える、
前記(1)~(18)のいずれかに記載の情報処理装置。
(20)
プロセッサが、通知情報に対応する音声発話の出力を制御すること、
を含み、
前記制御することは、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御すること、
をさらに含む、
情報処理方法。
110 再生部
120 処理部
130 通信部
20 情報処理端末
210 音声入力部
220 センサ部
230 音声出力部
240 通信部
30 情報処理サーバ
310 解析部
320 判定部
330 プロパティDB
340 発話制御部
350 音声合成部
360 信号処理部
370 通信部
Claims (20)
- 通知情報の重要度および背景音との親和性に基づいて、前記通知情報に対応する音声発話の出力態様を制御する発話制御部、
を備え、
前記発話制御部は、
前記重要度に応じて、前記背景音のうち合成音声を発するキャラクターの音声と類似もしくは非類似の音質とするよう前記音声発話の出力態様を制御する、
情報処理装置。 - 前記出力態様は、前記音声発話の出力タイミング、声質、韻律、効果のうち少なくともいずれかを含む、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に対し親和性の高い前記出力態様を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る声質と類似する声質を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る韻律と類似する韻律を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る音質と類似する音質を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音が含む主要部を阻害しない出力タイミングを設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に適合する歌声を設定し、前記歌声を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し親和性の低い前記出力態様を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る声質と類似しない声質を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る韻律と類似しない韻律を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る音質と類似しない音質を設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し前記音声発話が強調される出力タイミングを設定し、前記音声発話を出力させる、
請求項1に記載の情報処理装置。 - 前記背景音は、前記合成音声に加えて、音楽、発話、環境音のうち少なくともいずれかを含む、
請求項1に記載の情報処理装置。 - 前記通知情報の重要度を判定する判定部、
をさらに備える、
請求項1に記載の情報処理装置。 - 前記判定部は、前記通知情報に係るコンテキストデータに基づいて前記通知情報の重要度を判定する、
請求項15に記載の情報処理装置。 - 前記判定部は、前記通知情報を提示するユーザに関するユーザプロパティに基づいて、前記通知情報の重要度を判定する、
請求項15に記載の情報処理装置。 - 前記判定部は、前記通知情報の特性に基づいて、前記通知情報の重要度を判定する、
請求項15に記載の情報処理装置。 - 前記出力態様に係るパラメータを受信する通信部、
をさらに備える、
請求項1に記載の情報処理装置。 - プロセッサが、通知情報の重要度および背景音との親和性に基づいて、前記通知情報に対応する音声発話の出力態様を制御すること、
を含み、
前記制御することは、前記重要度に応じて、前記背景音のうち合成音声を発するキャラクターの音声と類似もしくは非類似の音質とするよう前記音声発話の出力態様を制御すること、
をさらに含む、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017096977 | 2017-05-16 | ||
JP2017096977 | 2017-05-16 | ||
PCT/JP2018/003881 WO2018211750A1 (ja) | 2017-05-16 | 2018-02-06 | 情報処理装置および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018211750A1 JPWO2018211750A1 (ja) | 2020-03-19 |
JP7131550B2 true JP7131550B2 (ja) | 2022-09-06 |
Family
ID=64273532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019519059A Active JP7131550B2 (ja) | 2017-05-16 | 2018-02-06 | 情報処理装置および情報処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11138991B2 (ja) |
EP (1) | EP3627496A4 (ja) |
JP (1) | JP7131550B2 (ja) |
WO (1) | WO2018211750A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11170754B2 (en) * | 2017-07-19 | 2021-11-09 | Sony Corporation | Information processor, information processing method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000244609A (ja) | 1999-02-23 | 2000-09-08 | Omron Corp | 話者状況適応型音声対話装置及び発券装置 |
JP2003131700A (ja) | 2001-10-23 | 2003-05-09 | Matsushita Electric Ind Co Ltd | 音声情報出力装置及びその方法 |
JP2006048377A (ja) | 2004-08-04 | 2006-02-16 | Pioneer Electronic Corp | 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
JP2009222993A (ja) | 2008-03-17 | 2009-10-01 | Honda Motor Co Ltd | 車両用音声案内装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3595041B2 (ja) * | 1995-09-13 | 2004-12-02 | 株式会社東芝 | 音声合成システムおよび音声合成方法 |
JPH1020885A (ja) * | 1996-07-01 | 1998-01-23 | Fujitsu Ltd | 音声合成装置 |
JPH11166835A (ja) | 1997-12-03 | 1999-06-22 | Alpine Electron Inc | ナビゲーション音声補正装置 |
JP4700904B2 (ja) * | 2003-12-08 | 2011-06-15 | パイオニア株式会社 | 情報処理装置及び走行情報音声案内方法 |
WO2007091475A1 (ja) | 2006-02-08 | 2007-08-16 | Nec Corporation | 音声合成装置、音声合成方法及びプログラム |
WO2012077954A2 (en) * | 2010-12-07 | 2012-06-14 | Samsung Electronics Co., Ltd. | Health care device, method and graphical user interface for health care |
US9704361B1 (en) * | 2012-08-14 | 2017-07-11 | Amazon Technologies, Inc. | Projecting content within an environment |
US10231056B2 (en) * | 2014-12-27 | 2019-03-12 | Intel Corporation | Binaural recording for processing audio signals to enable alerts |
WO2018096599A1 (en) * | 2016-11-22 | 2018-05-31 | Sony Mobile Communications Inc. | Environment-aware monitoring systems, methods, and computer program products for immersive environments |
-
2018
- 2018-02-06 JP JP2019519059A patent/JP7131550B2/ja active Active
- 2018-02-06 WO PCT/JP2018/003881 patent/WO2018211750A1/ja unknown
- 2018-02-06 US US16/500,404 patent/US11138991B2/en active Active
- 2018-02-06 EP EP18802512.6A patent/EP3627496A4/en not_active Ceased
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000244609A (ja) | 1999-02-23 | 2000-09-08 | Omron Corp | 話者状況適応型音声対話装置及び発券装置 |
JP2003131700A (ja) | 2001-10-23 | 2003-05-09 | Matsushita Electric Ind Co Ltd | 音声情報出力装置及びその方法 |
JP2006048377A (ja) | 2004-08-04 | 2006-02-16 | Pioneer Electronic Corp | 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
JP2009222993A (ja) | 2008-03-17 | 2009-10-01 | Honda Motor Co Ltd | 車両用音声案内装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2018211750A1 (ja) | 2018-11-22 |
US11138991B2 (en) | 2021-10-05 |
EP3627496A4 (en) | 2020-05-27 |
EP3627496A1 (en) | 2020-03-25 |
US20200111505A1 (en) | 2020-04-09 |
JPWO2018211750A1 (ja) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6316208B2 (ja) | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US10687145B1 (en) | Theater noise canceling headphones | |
US8095527B2 (en) | Reproducing apparatus and method, information processing apparatus and method, recording medium, and program | |
JP2004267433A (ja) | 音声チャット機能を提供する情報処理装置、サーバおよびプログラム並びに記録媒体 | |
CN108141696A (zh) | 用于空间音频调节的***和方法 | |
JP7167910B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN109257659A (zh) | 字幕添加方法、装置、电子设备及计算机可读存储介质 | |
JP2002366166A (ja) | コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム | |
US20170131965A1 (en) | Method, a system and a computer program for adapting media content | |
WO2010041147A2 (en) | A music or sound generation system | |
JP2005322125A (ja) | 情報処理システム、情報処理方法、プログラム | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
JP7131550B2 (ja) | 情報処理装置および情報処理方法 | |
JP2008299135A (ja) | 音声合成装置、音声合成方法、および音声合成用プログラム | |
CN103729121A (zh) | 图像显示设备及其操作方法 | |
CN110324702B (zh) | 视频播放过程中的信息推送方法和装置 | |
JPH1020867A (ja) | 口対向型消音装置 | |
DeLaurenti | Imperfect sound forever: a letter to a young phonographer | |
JP4772315B2 (ja) | 情報変換装置及び情報変換方法、並びに通信装置及び通信方法 | |
JPWO2019073668A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2013097240A (ja) | 聴覚障がい者支援装置およびその動作方法 | |
CN111696566A (zh) | 语音处理方法、装置和介质 | |
US20240087597A1 (en) | Source speech modification based on an input speech characteristic | |
JP7151707B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220808 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7131550 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |