JP2020021025A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2020021025A
JP2020021025A JP2018146913A JP2018146913A JP2020021025A JP 2020021025 A JP2020021025 A JP 2020021025A JP 2018146913 A JP2018146913 A JP 2018146913A JP 2018146913 A JP2018146913 A JP 2018146913A JP 2020021025 A JP2020021025 A JP 2020021025A
Authority
JP
Japan
Prior art keywords
information
user
video
presentation
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018146913A
Other languages
English (en)
Inventor
亜由美 中川
Ayumi Nakagawa
亜由美 中川
高橋 慧
Kei Takahashi
高橋  慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2018146913A priority Critical patent/JP2020021025A/ja
Priority to PCT/JP2019/028448 priority patent/WO2020026850A1/ja
Publication of JP2020021025A publication Critical patent/JP2020021025A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝える。【解決手段】情報処理装置は、制御部を有する。制御部は、第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成する。また制御部は、上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する。【選択図】図4

Description

本技術は、ネットワークを介した音声によるユーザ間のコミュニケーションを制御可能な情報処理装置、情報処理方法及びプログラムに関する。
従来から、例えばビデオチャット等、ネットワークを介したユーザ間のコミュニケーションを実現するための技術が知られている。下記特許文献1には、その一例として、頭部装着型の装置を利用したシステムが開示されている。
特開2013−258555号公報
ところで、上記特許文献1に記載のような従来のリアルタイムのコミュニケーションにおいては、相手の音声や映像をそのままユーザに提示しない方がよい場合もある。しかし、上記特許文献1に記載のような従来技術では、当該観点は考慮されていない。
以上のような事情に鑑み、本技術の目的は、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。
上記目的を達成するため、本技術の一形態に係る情報処理装置は、制御部を有する。制御部は、第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成する。また制御部は、上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する。
これにより情報処理装置は、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。ここで属性とは、音声または映像が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、センサ等でそのまま検出可能なものもあれば、検出したデータをさらに分析することで取得可能なものもある。
上記第1の情報の処理は第1の負荷を有し、上記第2の情報の処理は上記第1の負荷よりも大きい第2の負荷を有してもよい。
上記制御部は、上記第1の提示情報を上記第2の提示情報よりも先に提示してもよい。
これにより情報処理装置は、負荷の小さい処理に基づく第1の提示情報を、負荷の大きい処理に基づく第2の提示情報よりも先に提示することで、発話情報に応じて極力リアルタイムに提示情報を提示できる。
上記制御部は、上記第1の情報の処理として、上記第1のユーザの感情を推定する処理を実行してもよい。
上記制御部は、上記第1のユーザの感情を、上記第1の属性として検出された上記音声の音圧または周波数に基づいて推定してもよい。
これにより情報処理装置は、例えば音圧が平均的な音圧よりも大きい場合や周波数が平均的な周波数よりも低い場合等に発話ユーザの感情の起伏があると推定することができる。
上記制御部は、上記第1のユーザの感情を、上記第1の属性として上記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定してもよい。
これにより情報処理装置は、ユーザの表情、姿勢、ジェスチャに大きな変化があった場合等に発話ユーザの感情の起伏があると推定することができる。
上記制御部は、第1の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成してもよい。
これにより情報処理装置は、第1のユーザから第2のユーザへの発話に対して第2のユーザが反応しない場合でも、あたかも反応しているように第1のユーザに見せることができる。
上記制御部は、第1の提示情報として、上記第2のユーザの相槌を示す映像情報を生成してもよい。
これにより情報処理装置は、第1のユーザから第2のユーザへの発話を第2のユーザが聞いていないまたは理解していない場合でも、あたかも聞いているまたは理解しているように第1のユーザに見せることができる。
上記制御部は、上記第2の情報の処理として、上記発話に含まれる言語の解析処理を実行してもよい。
上記制御部は、上記第2の提示情報として、上記解析された言語の内容を基に上記音声または映像を改変した発話情報を生成してもよい。
これにより情報処理装置は、第1の提示情報によってリアルタイムな情報を提示しながらも、より時間をかけて発話を言語解析し、解析結果に応じて改変した第2の提示情報を生成することで、第1のユーザの発話が第2のユーザに伝えるには適切でない場合により適切な表現に改変して第2のユーザに伝えることができる。
上記制御部は、上記第1の提示情報または上記第2の提示情報を、上記第1のユーザまたは上記第2のユーザの映像に重畳可能なAR(Augmented Reality)情報として生成してもよい。
これにより情報処理装置は、AR情報をユーザの映像に重畳することで、例えばユーザの感情を強調したり補足して示したりすることができる。
上記制御部は、上記発話情報に代えてまたは上記発話情報に加えて上記第1の提示情報または上記第2の提示情報が提示されていることを通知する通知情報を生成してもよい。
これにより情報処理装置は、ユーザに、発話相手の生の音声または映像が改変されていることを把握させることができる。
上記制御部は、上記第1の提示情報と上記第2の提示情報とを繋ぐ第3の提示情報を生成してもよい。
これにより情報処理装置は、第1の提示情報と第2の提示情報との間にずれがあった場合でも、それによる違和感をユーザに与えるのを防ぐことができる。この場合第3の提示情報は、第1の提示情報と第2の提示情報のずれが大きい場合には両者をフェード加工した映像または音声であってもよいし、ずれが小さい場合には両者をモーフィング加工した映像であってもよいし、ずれが中程度であれば何らかの繋ぎのアクションを示す映像であってもよい。
本技術の他の形態に係る情報処理方法は、
第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、
上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、
上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する、ことを含む。
本技術の他の形態に係るプログラムは、情報処理装置に、
第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成するステップと、
上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成するステップと、
上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御するステップと、を実行させる。
以上のように、本技術によれば、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。しかし、当該効果は本技術を限定するものではない。
本技術の第1実施形態に係るビデオ通話システムの構成を示した図である。 上記ビデオ通話システムが有するビデオ通話サーバのハードウェア構成を示した図である。 上記ビデオ通話システムが有する機能ブロック構成を示した図である。 上記ビデオ通話システムによる映像/音声の提示処理の流れを示したフローチャートである。 上記ビデオ通話システムにおける映像/音声の書き換え処理の具体例を示した図である。 上記ビデオ通話システムにおける映像/音声の書き換え処理の他の具体例を示した図である。 上記ビデオ通話システムにおける映像/音声の書き換え処理の他の具体例を示した図である。 上記ビデオ通話システムにおける映像/音声の書き換え時のフィードバック処理について説明した図である。 上記ビデオ通話システムにおける、文節間の時間が短い発話の例を示した図である。 上記ビデオ通話システムにおける、ユーザの表情を示すAR表現の例を示した図である。
以下、本技術に係る実施形態を、図面を参照しながら説明する。
[システムの概要]
図1は、本技術の一実施形態に係るビデオ通話システムの構成を示した図である。
同図に示すように、本システムは、ビデオ通話サーバ100とユーザ端末200とを有する。ビデオ通話サーバ100とユーザ端末200、及び、ユーザ端末200同士は、インターネット等のネットワーク50を介して通信可能である。
ユーザ端末200(200A,200B)は、ビデオ通話によるコミュニケーションの当事者であるユーザの端末であり、例えばスマートフォン、タブレットコンピュータ、PC(Personal Computer)等である。各ユーザ端末200には、ビデオ通話を行うためのアプリケーションがインストールされている。本実施形態では、例えば双方のユーザのうち一方がカスタマー、他方がカスタマーセンターのオペレータである場合が想定されている。
ビデオ通話サーバ100は、双方のユーザ端末200間のコミュニケーションにおけるユーザの発話を示す映像または音声を検知し、当該検知結果に応じて映像または音声をそのまま相手方のユーザに提示することが望ましくないと判断されるような場合等、必要に応じて映像または音声を書き換えて各ユーザに提示する。
双方のユーザの映像または音声に書き換えの必要のない場合には、各ユーザの映像及び映像はビデオ通話サーバ100を介さずにPeer to Peerにより相手方のユーザ端末200へ伝送される。
[ビデオ通話サーバのハードウェア構成]
図2は、上記ビデオ通話サーバ100のハードウェア構成を示した図である。
同図に示すように、ビデオ通話サーバ100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、およびRAM(Random Access Memory)13を含む。また、ビデオ通話サーバ100は、ホストバス14、ブリッジ15、外部バス16、インタフェース17、入力装置18、出力装置19、ストレージ装置20、ドライブ21、接続ポート22、通信装置23を含んでもよい。さらに、ビデオ通話サーバ100は、必要に応じて、撮像装置26、およびセンサ27を含んでもよい。ビデオ通話サーバ100は、CPU11に代えて、またはこれとともに、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などの処理回路を有してもよい。
CPU11は、演算処理装置および制御装置として機能し、ROM12、RAM13、ストレージ装置20、またはリムーバブル記録媒体24に記録された各種プログラムに従って、ビデオ通話サーバ100内の動作全般またはその一部を制御する。ROM12は、CPU11が使用するプログラムや演算パラメータなどを記憶する。RAM13は、CPU11の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。CPU11、ROM12、およびRAM13は、CPUバスなどの内部バスにより構成されるホストバス14により相互に接続されている。さらに、ホストバス14は、ブリッジ15を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス16に接続されている。
入力装置18は、例えば、タッチパネル、物理ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置18は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、ビデオ通話サーバ100の操作に対応したスマートフォンやスマートウォッチなどの外部接続機器25であってもよい。入力装置18は、ユーザが入力した情報に基づいて入力信号を生成してCPU11に出力する入力制御回路を含む。ユーザは、この入力装置18を操作することによって、ビデオ通話サーバ100に対して各種のデータを入力したり処理動作を指示したりする。
出力装置19は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置19は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカなどの音声出力装置などでありうる。出力装置19は、ビデオ通話サーバ100の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。
ストレージ装置20は、ビデオ通話サーバ100の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置20は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置20は、例えばCPU11が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ21は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体24のためのリーダライタであり、ビデオ通話サーバ100に内蔵、あるいは外付けされる。ドライブ21は、装着されているリムーバブル記録媒体24に記録されている情報を読み出して、RAM13に出力する。また、ドライブ21は、装着されているリムーバブル記録媒体24に記録を書き込む。
接続ポート22は、機器をビデオ通話サーバ100に接続するためのポートである。接続ポート22は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどでありうる。また、接続ポート22は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート22に外部接続機器25を接続することで、ビデオ通話サーバ100と外部接続機器25との間で各種のデータが交換されうる。
通信装置23は、例えば、通信ネットワーク50に接続するための通信デバイスなどで構成された通信インタフェースである。通信装置23は、例えば、LAN(Local Area Network)、Bluetooth(登録商標)、Wi−Fi、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信装置23は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置23は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置23に接続される通信ネットワーク50は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などを含みうる。
撮像装置26は、例えば、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成するカメラである。撮像装置26は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ27は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ(マイクロフォン)などの各種のセンサである。センサ27は、例えばビデオ通話サーバ100の筐体の姿勢など、ビデオ通話サーバ100自体の状態に関する情報や、ビデオ通話サーバ100の周辺の明るさや騒音など、ビデオ通話サーバ100の周辺環境に関する情報を取得する。また、センサ27は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPS受信機を含んでもよい。
上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
図示しないが、ユーザ端末200のハードウェア構成も上記ビデオ通話サーバ100のハードウェア構成と基本的に同一であり、CPU、RAM、入力装置、出力装置、ストレージ装置、通信装置等のコンピュータとしての基本的な要素に加えて、撮像装置(カメラ)や各種センサ(マイク等)を有する。
ユーザ端末200のカメラ及びマイクは、コミュニケーションの当事者であるユーザの発話を示す映像及び音声を取得する。発話ユーザの映像は、通話相手のユーザ端末200のディスプレイに表示されてもよいし、当該ユーザ端末200に接続されたプロジェクタやAR(Augmented Reality)機器に表示されてもよい。また発話ユーザの音声は、通話相手のユーザ端末200のスピーカから出力されてもよいし、当該ユーザ端末200に接続されたイヤホンやヘッドホン、スピーカ、その他のヒアラブル機器から出力されてもよい。
また各ユーザ端末200のストレージ装置は、通話中の各ユーザが発話した音声データをログとして記憶していてもよい。
[ビデオ通話システムの機能ブロック構成]
図3は、上記ビデオ通話サーバ100及びユーザ端末200からなるビデオ通話システムが有する機能ブロック(モジュール)構成を示した図である。
同図に示すように、本システムは、音声/映像検知部110、言語以外処理部120、言語処理部130、検知結果出力部140、映像/音声書き換え部150、映像提示部160、及び音声提示部170を有する。
音声/映像検知部110は、ユーザ端末200のカメラ及びマイクロフォンから取得されビデオ通話サーバ100に受信された発話情報から音声及び映像を検知し、その属性に応じて言語以外処理部120と言語処理部130に処理を指示する。
言語以外処理部120は、上記発話情報に含まれる音声及び映像のうち、発話(言葉)の内容そのものではなく、比較的処理負荷の小さい(短時間で検出可能な)所定の属性の情報を認識して発話ユーザの感情を推定する。言い換えれば、言語以外処理部120は、「早い検出処理」の実行部である。
すなわち、言語以外処理部120は、上記音声については、例えば音圧、周波数、発話タイミング、キレ(抑揚)、所定の定型句(感嘆詞等)の有無等の属性(第1の属性)を基に感情を推定する。すなわち、ここでいう属性とは、音声が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、例えば上記音圧や周波数のようにセンサ等でそのまま検出可能なものもあれば、上記発話タイミング等、検出したデータ(音圧)をさらに分析することで取得可能なものもある。
具体的には、言語以外処理部120は、音声の音圧が平均的な音圧dよりも大きくなった場合にユーザの感情の起伏があると推定し、音声の周波数が平均的な周波数hよりも低くなった場合にはユーザに怒りの起伏があると推定する。
また、ディープラーニングにより怒りの感情とそれ以外の感情が学習されている場合、言語以外処理部120は、その学習済みモデルに音声を入力して怒りとそれ以外を判別してもよい。
また言語以外処理部120は、ユーザが、通話相手のユーザがまだ発言途中であるのにも関わらず割り込んで発話した場合には感情の起伏があると推定してもよい。
また言語以外処理部120は、言語解析によらずに検出可能な、環状の起伏に繋がるような兆候ワード(例えば、「え?!」等の感嘆詞)をユーザの音声から検出した場合には、その後に感情の起伏があると推定する。
また言語以外処理部120は、映像については、例えばユーザの表情、視線、姿勢、ジェスチャ、またはユーザ(人間)が検出できるか否か等の属性(第1の属性)を基に感情を推定する。具体的には、言語以外処理部120は、ユーザの眼が大きくなり眉毛が中央に引き寄せされるような表情の変化を認識した場合にはユーザに怒りの起伏が有ると推定する。すなわち、ここでいう属性とは、映像が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、上記視線やユーザの有無等のように直接的に検出可能なものもあれば、表情や姿勢等のように、検出したデータをさらに分析することで取得可能なものもある。
言語処理部130は、上記発話情報に含まれる音声及び映像のうち、その属性(第2の属性)としての発話(言葉)の内容そのものを解析して発話ユーザの感情を推定する。当該言語は、上記言語以外処理部120が処理する属性の情報に比べて、処理負荷の大きい(短時間では検出できない)属性の情報であると言える。言い換えれば、言語処理部130は、「遅い検出処理」の実行部である。
検知結果出力部140は、上記言語以外処理部120と言語処理部130の処理結果に応じて映像/音声書き換え部150にユーザの発話を示す映像または音声の書き換えを指示する。
映像/音声書き換え部150は、上記ユーザの発話を示す映像または音声を、上記推定されたユーザの感情に応じて書き換えて、書き換えた映像を映像提示部160に出力させ、書き換えた音声を音声提示部170に出力させる。
ここで、映像/音声書き換え部150は、上記言語以外処理部120による処理結果に応じて、定型の音声や映像を元の音声や映像に付加する。
具体的には、映像/音声書き換え部150は、例えば、ユーザAとユーザBとのビデオ通話において、ユーザAの発話からユーザAが怒っていることが推定される場合、ユーザAが視聴するユーザBの音声に、「あ、」といった感嘆詞や、「えっと」といったフィラー語等、言葉を繋ぐための声を挿入したり、「すみません」といった定型文をユーザBが発話する前に挿入したりする。これによりビデオ通話システムは、相手の発言に反応しないユーザがあたかも発言しているかのように相手ユーザに見せることができる。
また映像/音声書き換え部150は、上記のようにユーザAが怒っていると推定される場合、例えばユーザBが頭を下げている映像や相槌を打っているような映像等、ユーザBがユーザAの発話内容を理解している、または謝罪の意を示しているような映像を挿入する。
また映像/音声書き換え部150は、上記言語以外処理部120及び言語処理部130によってユーザの感情の推定に失敗した場合には、例えば発話ユーザの通話相手のユーザが聞こえなかったふりをしているような映像を挿入してもよい。
また、映像/音声書き換え部150は、上記言語処理部130による処理結果に応じて、元の音声や映像を改変する。
例えば映像音声書き換え部150は、ユーザAの発話内容に関する言語解析処理の結果、ユーザAがユーザBに対して怒っていることが推定された場合には、ユーザAの発話内容をよりやわらかい表現に変換するように音声を改変したり、ユーザAの表情をより柔和な表情に変換するように映像を改変したりする。これによりビデオ通話システムは、ユーザの発言や表情をより感情の起伏が小さくなる方向に改変し、ユーザ感のトラブルを回避することができる。
このようにCPU11は、以上の各機能ブロックを用いて、第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理(早い検出処理)の結果を基に第1の提示情報を生成し、上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理(遅い検出処理)の結果を基に第2の提示情報を生成する。そしてCPU11は、上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する。
[ビデオ通話システムの動作]
次に、以上のように構成されたビデオ通話システムの動作について説明する。当該動作は、ビデオ通話サーバ100やユーザ端末200のCPU及び通信部等のハードウェアと、記憶部に記憶されたソフトウェアとの協働により実行される。以下の説明では、便宜上、主にCPUを動作主体として説明する。
図4は、上記ビデオ通話システムによる映像/音声の提示処理の動作の流れを示したフローチャートである。同図では、ユーザ端末200Aのユーザがカスタマーであり、ユーザ端末200Bのユーザがコールセンターのオペレータであり、例えばカスタマーからコールセンターへの発信に基づいて両者がビデオ通話する場合を想定する。
同図に示すように、ユーザ端末200Aのカメラ及びマイクが、カスタマーの映像及び音声を取得する(ステップ41)。
続いてユーザ端末200AのCPUは、上記マイクで取得したカスタマーの音声をストレージ装置に録音する(ステップ42)。
続いてユーザ端末200のCPUは、上記カスタマーの映像及び音声をビデオ通話サーバ100へ送信する(ステップ43)。
上記カスタマーの映像及び音声を受信したビデオ通話サーバ100のCPU11は、上記言語以外処理部120により、当該映像及び音声について「早い検出処理(カスタマーの声のトーンから感情推定)」を実行する(ステップ44)。
当該早い検出処理により、CPU11は、カスタマーの怒りの感情が閾値以上であるか否か(例えば、音声の音圧が平均的な音圧dよりも大きいか否か、または、音声の周波数が平均的な周波数hよりも低いか否か)を判断する(ステップ45)。
上記怒りの感情が閾値以上であると判断した場合(Yes)、CPU11は、上記映像/音声書き換え部150により、カスタマーの映像及び音声を、怒りのレベルを減らした映像及び音声に書き換える(ステップ46)。
続いてCPU11は、上記書き換えたカスタマーの映像及び音声をオペレータのユーザ端末200Bへ送信する。ユーザ端末200BのCPUは当該映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ47)。
続いてCPU11は、上記ユーザ端末200Bのカメラ及びマイクで取得されビデオ通話サーバ100に受信されたオペレータの映像及び音声を、上記書き換えた文脈に合わせて書き換える(ステップ48)。例えばCPU11は、オペレータの映像を、オペレータが謝る(頭を下げる)映像に書き換える。
続いてCPU11は、上記書き換えたオペレータの映像及び音声をカスタマーのユーザ端末200Aに送信する。ユーザ端末200AのCPUは当該映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ49)。
続いてCPU11は、カスタマーの音声について、上記言語処理部130により、「遅い検出処理(音声を言語解析して文意を分析)」を実行する(ステップ50)。
当該遅い検出処理により、CPU11は、例えばカスタマーの音声が怒りの感情を含むものであると判断した場合、上記映像/音声書き換え部150により、当該音声を、怒りのレベルを減らした音声に書き換える(ステップ51)。
続いてCPU11は、カスタマーの映像及び書き換えた音声をオペレータのユーザ端末200Bへ送信する。ユーザ端末200BのCPUは当該映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ52)。
一方、上記ステップ45において、カスタマーの怒りの感情が閾値未満であると判断した場合(No)、CPU11は、オリジナルのオペレータの映像及び音声をカスタマーのユーザ端末200Aに送信する。ユーザ端末200AのCPUは当該オリジナルの映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ53)。
またそれに続き、CPU11は、オリジナルのカスタマーの映像及び音声をオペレータのユーザ端末200Bに送信する。ユーザ端末200BのCPUは当該オリジナルの映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ54)。
図5は、以上説明した流れの一例をタイムチャートとして示した図である。同図に示すように、ユーザ端末200AのユーザAが、「何言ってるんだよ」という発話をした場合、CPU11は、上記言語以外処理部120によって、音声のレベルを基にユーザAの怒りを検出する。
すると、CPU11は、映像/音声書き換え部150により、オペレータの実映像を、怒りの検出直後の時点から、オペレータが謝る映像に書き換えてカスタマーに提示する。当該謝る映像の再生が終了すると、オペレータの映像は実映像に切り替えられる。
また一方で、CPU11は、上記言語処理部130によって、上記「何言っているんだよ」という発話を言語解析し、怒りを表していることを検出すると、映像/音声書き換え部130により、当該表現をよりソフトな表現(例えば、「少し意味が分かりませんでした」)に書き換えてオペレータに提示する。
このような処理により、システムは、コールセンターで働くオペレータのストレスを軽減し、ユーザやオペレータが激号するのを防ぐことができる。
以上説明したように、本実施形態によれば、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。
[変形例]
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。
(他のユースケース)
上述の実施形態においては、映像及び音声の書き換え処理の例として、図5のようにユーザの怒りを和らげるように書き換える例を示したが、当該書き換え処理はこれに限られない。
例えば、ユーザ端末200AのユーザAの発話を、ユーザ端末200BのユーザBへ翻訳して伝えるケースにも本技術は適用可能である。
この場合、図6に示すように、CPU11は、上記言語以外処理部120を用いた「早い検出処理」により、ユーザAの音声の音圧レベルの変化から会話の切れ目を検出する。するとCPU11は、映像/音声書き換え部150により、ユーザ端末200Bのカメラによって取得されたユーザBの実映像を、当該会話の切れ目に応じたタイミングでユーザBがうなずく映像に書き換えてユーザAに提示する。当該うなずく映像の再生が終了すると、ユーザBの映像は実映像に切り替えられる。
また一方で、CPU11は、上記言語処理部130を用いた「遅い検出処理」により、上記ユーザAの音声を言語分析して文意を取得し、映像/音声書き換え部150により、当該文意を所定の言語に翻訳してオペレータに提示する。
このような処理により、システムは、ユーザ間で言語の相違がある場合に、厳密な意味解析によらずともユーザのリアクションを先に表出することで、相手のユーザを安心させたり、和ませたり、会話を盛り上げたりすることができる。
また、あるユーザの発話が相手のユーザにとって不快な表現である場合に、それをフィルタリングするケースにも本技術は適用可能である。
この場合、図7に示すように、例えば視聴者参加型のライブ放送におけるコメントの投稿にビデオ通話システムが用いられる場合、ある視聴者Aが発話すると、CPU11は、上記言語以外処理部120を用いた「早い検出処理」により、視聴者Aの怒りや、不適切な定型句を検出する。するとCPU11は、映像/音声書き換え部150により、アイドルIと複数の視聴者が含まれる実映像を、視聴者Aのユーザ端末200から取得された音声を削除した映像に書き換えて他の視聴者及びアイドルIに提示する。
また一方で、CPU11は、上記言語処理部130を用いた「遅い検出処理」により、上記視聴者Aの音声を言語分析して不適切な部分を判定し、映像/音声書き換え部150により、不適切な部分の音声を適切な表現の音声に書き換えて他の視聴者及びアイドルIに提示する。
また、ユーザがすぐに反応を返せない状況である場合に、そのユーザに代わって反応を返すケースにも本技術は適用可能である。
例えば、ビデオ通話の着信を受けたユーザが運転中や離席中等、反応を返せない場合、CPU11は、ユーザがユーザ端末200のカメラに写っていない、または視線を向けていないことを検出すると、当該カメラの映像を、VR(Virtual Reality)で表現されたユーザを模したキャラクタが、反応を返せない理由等を発話する映像に書き換えて相手のユーザに提示してもよい。
また、ビデオ通話のユーザ間で知識レベルが異なる場合にそのレベル差を合わせるためにも本技術は適用可能である。
例えば、ビデオ通話の一方のユーザの年齢と他方のユーザの年齢とが所定歳(例えば30歳等)以上離れていることが例えば各ユーザのプロファイル情報等から検知された場合、CPU11は、上記言語以外処理部120によって、年齢が下のユーザの映像を、相槌等を含む映像に書き換えて年齢が上のユーザに向けて提示すると共に、上記言語処理部130によって、年齢が上のユーザの発話を、年齢が下のユーザ用に安易な表現に書き換えて提示してもよい。
(書き換え前の映像及び音声のログ)
上述の実施形態において、ユーザの映像及び音声が書き換えられた場合でも、書き換え前の映像及び音声のデータは、ビデオ通話サーバ100またはユーザ端末200においてログとして記憶されていてもよい。
当該ログは、発話した本人または第三者が後で視聴できてもよい。例えば、コールセンターを想定した場合、オペレータの上司等がカスタマーとオペレータの実際の会話のログを視聴できてもよい。
また、副音声のように、書き換え後の映像及び音声のチャンネルと、書き換え前の映像及び音声のチャンネルとが、ユーザによって切替可能とされてもよい。この場合、例えばビデオ通話サーバ100は、書き換え後の映像及び音声をユーザ端末200へ送信すると同時に、書き換え前の映像及び音声を録画しておき、ユーザ端末200からの切替要求が有った場合に、ユーザ端末200へ送信する映像及び音声を書き換え前のものに切り替えてもよい。
(書き換えに関するユーザへのフィードバック)
また、CPU11は、ユーザの映像または音声を書き換えた場合には、それを必要に応じてユーザにリアルタイムにフィードバックしてもよい。
例えば図8Aに示すように、話し手Aが怒っており、聞き手Bが謝っている映像を見せる場合において、CPU11は、書き換えられた聞き手B側に対して、例えばその書き換えを通知するアイコンIを映像に加えてもよいし、ユーザBのどのような点が書き換えられたのかを示すログが記載されたウィンドウWを映像に加えてもよい。
また同図Bに示すように、話し手Aが怒っている映像・音声を柔和に書き換えて聞き手Bに見せる場合において、CPU11は、聞き手B側に対して、相手Aの映像・音声が書き換えられていることを通知するアイコンIを映像に加えてもよいし、相手Aが本当は何と言っていたのか、書き換え前の映像・音声にアクセス可能なリンクボタンLを映像に加えてもよい。
また同図Cに示すように、話し手Bが発した不適切な映像・音声を書き換えて、聞き手Aに見せる場合(図7のようなアイドルとファンの関係)においては、CPU11は、聞き手A側で表示される映像に対しては、上記アイコンIと共に、書き換え前の映像・音声へのリンクボタンLを追加し、話し手B側で表示される映像に対しては、上記アイコンIと共に、話し手B側への注意を促す文言が記載されたウィンドウWを追加することで、聞き手Aと話し手Bの双方に書き換えをフィードバックしてもよい。
(処理がうまくいかない場合)
上述の実施形態において、言語以外処理部120による早い検出処理として、ユーザの音声の音圧レベルの変化によって発話の切れ目を検出し、遅い検出処理として発話内容を書き換える場合、各検出処理がうまくいかない場合も考えられる。
例えば、図9に示すように、話し手Aが長い間話している場合、音圧レベルに大きな切れ目がないので、話し手Aに対する出力(例えば、聞き手Bの相槌の提示)ができない。このような場合、CPU11は、当該話し手Aの音声に対して、負荷の比較的かからない言語解析処理を実行してもよい。
より具体的には、CPU11は、上記音声について、言語認識処理のうち文法解析のみ実行して文の切れ目を検知し、話し手Aへ提示する聞き手Bの映像を、上記切れ目において聞き手Bが相槌を打つ映像に書き換えてもよい。
また、言語処理部130による遅い検出処理において、文章が難解で解析が難しく、ユーザが怒っていることは分かるものの書き換えに時間を要してしまうと判断した場合、CPU11は、その代替処理として、ユーザの音声を、それが示す文章自体は変えずに、ボイスチェンジャーによってより柔らかい声質に変更してもよい。または、CPU11は、ユーザ端末200において例えばソフトウェアエージェントとして機能するキャラクタオブジェクトが存在する場合、当該キャラクタにTTS(Text To Speech)を用いて発声させるようにユーザ端末200を制御してもよい。
(書き換えのレベル)
上述の実施形態において、システムは、映像及び音声の書き換えのレベルを複数設定してもよい。この場合、レベルは、1)ユーザが手動で設定する場合、2)ある程度自動的に設定される場合、3)上記1)2)に関係なくシステム都合で設定される場合が考えられる。
上記1)の場合、CPU11は、ユーザ端末200のビデオ通話アプリケーションの設定メニューを介したユーザの入力に応じて、ユーザの通話相手の表出またはユーザ自身の表出を変更するように設定可能である。
具体的には、ユーザの通話相手の発言内容や表情を変更したり、自身の発言として定型文を提示したり自身の表情を変更したりといった設定が可能である。この場合、ユーザは、誰(通話相手・自分)の何(発言・表情等)を変更するのかを選択可能であってもよい。
上記2)の場合、CPU11は、書き換え対象とする発話文言の内容を、予めプロファイル情報として有する人と環境の各レベルを用いて、ある程度自動的に設定してもよい。
例えば、CPU11は、ビデオ通話のユーザが学生か労働者か、会話内容がプライベートに関するものかビジネスに関するものか等に応じて書き換えのレベルを変更してもよい(学生のプライベートな会話の書き換えのレベルは、労働者のビジネスの会話のそれよりも大きく設定されてもよい)。
またCPU11は、人と環境のレベルの関係性について、予めプロファイル情報として有するのに加えて、または代えて、通話内容のフィードバックによって学習してもよい。
上記3)の場合、CPU11は、上述したように、言語以外処理部120が会話の切れ目を検出できない、言語処理部130が言語解析に時間を要している等、処理がうまくいかない場合に、強制的に上記処理を実行してもよい。
(ARを用いた書き換え)
上述の実施形態では、ユーザの映像の書き換えとして、ユーザの表情やジェスチャを書き換える例が示された。それだけでなく、CPU11は、AR(Augmented Reality)情報を用いてその他の要素を映像に付加してもよい。
例えば、CPU11は、ユーザが怒っていることや喜んでいることを検出した場合、怒りや喜びを示すAR画像表現をそのユーザの映像の近傍に加えて相手ユーザに提示してもよい。図10は、ユーザの怒りを示すAR画像表現90がユーザの映像に重畳して表示された例を示している。
またCPU11は、画像表現90に加えて、または代えて、ユーザの感情に対応する効果音を付加して相手ユーザに提示してもよい。
これらの処理においてCPU11は、感情が表出しているユーザの年齢に応じて画像表現や効果音等を変更してもよい。
(実映像と書き換え映像とのずれに関する処理)
上述の実施形態において、CPU11は、言語以外処理部120によって検出された情報に基づいて提示される情報(第1の提示情報)と、言語処理部130によって検出された情報に基づいて提示される情報(第2の提示情報)とのずれを繋ぐ情報(第3の提示情報)を生成して両者間に挿入してもよい。またCPU11は同様に、上記第1の提示情報または第2の提示情報と実映像とのずれを繋ぐ情報を生成して両者間に挿入してもよい。
すなわち、上記映像が書き換えられる場合、映像は、実映像→書き換え映像(早い処理)→書き換え映像(遅い処理)→実映像という順に切り替えられることになるが、これらの各切替タイミングにおいてCPU11は切替前の映像と切替後の映像とを繋ぐ映像を生成して挿入する。これにより映像切替時にユーザが違和感を感じることが回避される。
この場合CPU11は、切替前後のユーザの映像におけるずれの大きさ(差分)を検知し、それに応じて両映像の繋ぎ方を変更してもよい。
具体的には、上記ずれが小さい(第1閾値未満である)場合、CPU11は、切替前後の映像をモーフィングで繋いでもよい。
また上記ずれが中程度(第1閾値以上第2閾値未満である)場合、CPU11は、切替前後の映像間に、ユーザの何らかのアクションを示す映像を挿入してもよい。
また上記ずれが大きい(第2閾値以上)場合には、切替前後の映像をフェードで繋いでもよい。またCPU11は、フェードに代えて、映像フレーム上のユーザの位置とは離れた位置(例えばフレームの四隅等)にVR等で相手ユーザの注意を惹くような画像表現を重畳して注目点を逸らし、ずれが気づかれないようにしてもよい。
上記ずれとしては、映像中のユーザの写っている位置や姿勢等、フレーム間の差分で検出できるずれの他、感情や声のトーン等のずれも有り得る。CPU11は、そのようなずれを上記言語以外処理部120等で検出することができる。
またCPU11は、上記書き換えた映像と実映像とのずれが大きい場合には、書き換え映像(遅い処理による)を実映像に戻さずに、書き換えた映像をそのまま提示し続けてもよい。
また、通話する一方のユーザに提示される映像と他方のユーザに提示される映像とにおいて、実映像へ戻すか否かの処理が異なっていてもよい(非対称処理)。例えば、カスタマーとオペレータのビデオ通話において、CPU11は、カスタマー側に提示されるオペレータの映像は、書き換えた映像のまま維持してもよいが、オペレータ側に提示されるカスタマーの映像は、書き換え映像の終了後には実映像に戻してもよい。
また、1対複数のビデオ通話(カスタマーとビデオ通話するオペレータが同時に複数存在する場合)において、CPU11は、一方のオペレータに提示される映像については書き換え処理を実行し、他方のオペレータ(例えばオペレータの上司)に提示される映像については書き換え処理を実行しなくてもよい。
または、CPU11は、一方のオペレータに提示される映像の書き換えレベルと他方のオペレータに提示される映像の書き換えレベルを異ならせてもよい。
さらにCPU11は、1(ユーザA)対複数(ユーザB,C)のビデオ通話において、ユーザAの発話言語をユーザBは理解できるがユーザCが理解できない場合、ユーザBに提示されるユーザAの映像については翻訳せずに実映像を提示し、ユーザCに提示されるユーザAの映像については翻訳して提示してもよい。
(発話の内容自体の書き換え)
上述の実施形態においては、CPU11が、ユーザの発話の意味する内容は変えずに表現の程度を書き換える(より柔らかい表現にする)例を示した。しかし、CPU11は、発話内容によっては、その内容自体を書き換えてもよい。
すなわちCPU11は、発話内容を変化させても問題ない意思決定系の発話がされた場合、受け手に都合のいいように書き換えてもよい。
例えばCPU11は、言語処理部130によって、ユーザAとユーザBとの間の通話内容が、ユーザAがユーザBに何らかの事項を依頼するものであり、かつ、その依頼の具体的な条件が定まっていないと判断した場合には、その条件に関する部分の文言を具体的な条件を示す文言に書き換えてもよい。
例えば、ユーザAの発話が、「明日の飲み会の店、どこでもいいから予約して」というあいまいな依頼であった場合、CPU11は、「明日の飲み会の店、横浜の中華料理店を予約して」という具体的な依頼に書き換えてもよい。
またCPU11は、その際、依頼者であるユーザAの個人モデル(嗜好、予定、言動)等を参照して、それに適した内容にユーザAの発話を書き換えてもよい。
またCPU11は、上記書き換えが原因で依頼を受けたユーザBに不都合が生じた場合(例えばユーザAの怒りを検出した場合)、ユーザAの書き換え前の発話をユーザBに提示してもよい。
(その他の変形例)
上述の各実施形態においては、ビデオ通話サーバ100のCPU11が、ビデオ通話サーバ100が有する言語以外処理部120、言語処理部130、映像/音声書き換え部150等の機能ブロックを用いて映像及び音声を書き換える例を示したが、これらの機能ブロックはビデオ通話サーバ100以外のクラウド上のデバイスやユーザ端末200のいずれに備えられていてもよく、それらのCPUによって実行されてもよい。
[その他]
本技術は以下のような構成もとることができる。
(1)
第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する制御部
を具備する情報処理装置。
(2)
上記(1)に記載の情報処理装置であって、
前記第1の情報の処理は第1の負荷を有し、前記第2の情報の処理は前記第1の負荷よりも大きい第2の負荷を有する
情報処理装置。
(3)
上記(2)に記載の情報処理装置であって、
前記制御部は、前記第1の提示情報を前記第2の提示情報よりも先に提示する
情報処理装置。
(4)
上記(1)〜(3)のいずれかに記載の情報処理装置であって、
前記制御部は、前記第1の情報の処理として、前記第1のユーザの感情を推定する処理を実行する
情報処理装置。
(5)
上記(4)に記載の情報処理装置であって、
前記制御部は、前記第1のユーザの感情を、前記第1の属性として検出された前記音声の音圧または周波数に基づいて推定する
情報処理装置。
(6)
上記(4)に記載の情報処理装置であって、
前記制御部は、前記第1のユーザの感情を、前記第1の属性として前記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定する
情報処理装置。
(7)
上記(4)〜(6)のいずれかに記載の情報処理装置であって、
前記制御部は、第1の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成する
情報処理装置。
(8)
上記(4)〜(6)のいずれかに記載の情報処理装置であって、
前記制御部は、第1の提示情報として、前記第2のユーザの相槌を示す映像情報を生成する
情報処理装置。
(9)
上記(4)〜(8)のいずれかに記載の情報処理装置であって、
前記制御部は、前記第2の情報の処理として、前記発話に含まれる言語の解析処理を実行する
情報処理装置。
(10)
上記(9)に記載の情報処理装置であって、
前記制御部は、前記第2の提示情報として、前記解析された言語の内容を基に前記音声または映像を改変した発話情報を生成する
情報処理装置。
(11)
上記(1)〜(10)のいずれかに記載の情報処理装置であって、
前記制御部は、前記第1の提示情報または前記第2の提示情報を、前記第1のユーザまたは前記第2のユーザの映像に重畳可能なAR(Augmented Reality)情報として生成する
情報処理装置。
(12)
上記(1)〜(11)のいずれかに記載の情報処理装置であって、
前記制御部は、前記発話情報に代えてまたは前記発話情報に加えて前記第1の提示情報または前記第2の提示情報が提示されていることを通知する通知情報を生成する
情報処理装置。
(13)
上記(1)〜(12)のいずれかに記載の情報処理装置であって、
前記制御部は、前記第1の提示情報と前記第2の提示情報とを繋ぐ第3の提示情報を生成する
情報処理装置。
(14)
第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、
前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、
前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する
情報処理方法。
(15)
情報処理装置に、
第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成するステップと、
前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成するステップと、
前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御するステップと
を実行させるプログラム。
11…CPU
19…出力装置
26…撮像装置
23…通信装置
100…ビデオ通話サーバ
120…言語以外処理部
130…言語処理部
150…映像/音声書き換え部
200…ユーザ端末

Claims (15)

  1. 第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する制御部
    を具備する情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記第1の情報の処理は第1の負荷を有し、前記第2の情報の処理は前記第1の負荷よりも大きい第2の負荷を有する
    情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    前記制御部は、前記第1の提示情報を前記第2の提示情報よりも先に提示する
    情報処理装置。
  4. 請求項1に記載の情報処理装置であって、
    前記制御部は、前記第1の情報の処理として、前記第1のユーザの感情を推定する処理を実行する
    情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
    前記制御部は、前記第1のユーザの感情を、前記第1の属性として検出された前記音声の音圧または周波数に基づいて推定する
    情報処理装置。
  6. 請求項4に記載の情報処理装置であって、
    前記制御部は、前記第1のユーザの感情を、前記第1の属性として前記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定する
    情報処理装置。
  7. 請求項4に記載の情報処理装置であって、
    前記制御部は、第1の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成する
    情報処理装置。
  8. 請求項4に記載の情報処理装置であって、
    前記制御部は、第1の提示情報として、前記第2のユーザの相槌を示す映像情報を生成する
    情報処理装置。
  9. 請求項4に記載の情報処理装置であって、
    前記制御部は、前記第2の情報の処理として、前記発話に含まれる言語の解析処理を実行する
    情報処理装置。
  10. 請求項9に記載の情報処理装置であって、
    前記制御部は、前記第2の提示情報として、前記解析された言語の内容を基に前記音声または映像を改変した発話情報を生成する
    情報処理装置。
  11. 請求項1に記載の情報処理装置であって、
    前記制御部は、前記第1の提示情報または前記第2の提示情報を、前記第1のユーザまたは前記第2のユーザの映像に重畳可能なAR(Augmented Reality)情報として生成する
    情報処理装置。
  12. 請求項1に記載の情報処理装置であって、
    前記制御部は、前記発話情報に代えてまたは前記発話情報に加えて前記第1の提示情報または前記第2の提示情報が提示されていることを通知する通知情報を生成する
    情報処理装置。
  13. 請求項1に記載の情報処理装置であって、
    前記制御部は、前記第1の提示情報と前記第2の提示情報とを繋ぐ第3の提示情報を生成する
    情報処理装置。
  14. 第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、
    前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、
    前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する
    情報処理方法。
  15. 情報処理装置に、
    第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成するステップと、
    前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成するステップと、
    前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御するステップと
    を実行させるプログラム。
JP2018146913A 2018-08-03 2018-08-03 情報処理装置、情報処理方法及びプログラム Pending JP2020021025A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018146913A JP2020021025A (ja) 2018-08-03 2018-08-03 情報処理装置、情報処理方法及びプログラム
PCT/JP2019/028448 WO2020026850A1 (ja) 2018-08-03 2019-07-19 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018146913A JP2020021025A (ja) 2018-08-03 2018-08-03 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2020021025A true JP2020021025A (ja) 2020-02-06

Family

ID=69231115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018146913A Pending JP2020021025A (ja) 2018-08-03 2018-08-03 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2020021025A (ja)
WO (1) WO2020026850A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022079933A1 (ja) * 2020-10-14 2022-04-21
WO2022107283A1 (ja) * 2020-11-19 2022-05-27 日本電信電話株式会社 記号付加方法、記号付加装置及びプログラム
JP7164793B1 (ja) 2021-11-25 2022-11-02 ソフトバンク株式会社 音声処理システム、音声処理装置及び音声処理方法
WO2022264235A1 (ja) * 2021-06-14 2022-12-22 日本電信電話株式会社 表情変換装置、表情変換方法およびプログラム
WO2023152811A1 (ja) * 2022-02-09 2023-08-17 日本電気株式会社 映像検索装置、映像検索方法およびプログラム記憶媒体
WO2024070651A1 (ja) * 2022-09-26 2024-04-04 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021184189A (ja) * 2020-05-22 2021-12-02 i Smart Technologies株式会社 オンライン会議システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6150077B2 (ja) * 2014-10-31 2017-06-21 マツダ株式会社 車両用音声対話装置
US10157626B2 (en) * 2016-01-20 2018-12-18 Harman International Industries, Incorporated Voice affect modification
JP2018045202A (ja) * 2016-09-16 2018-03-22 トヨタ自動車株式会社 音声対話システムおよび音声対話方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022079933A1 (ja) * 2020-10-14 2022-04-21
WO2022079933A1 (ja) * 2020-10-14 2022-04-21 住友電気工業株式会社 コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
JP7193015B2 (ja) 2020-10-14 2022-12-20 住友電気工業株式会社 コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
US11960792B2 (en) 2020-10-14 2024-04-16 Sumitomo Electric Industries, Ltd. Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
WO2022107283A1 (ja) * 2020-11-19 2022-05-27 日本電信電話株式会社 記号付加方法、記号付加装置及びプログラム
WO2022264235A1 (ja) * 2021-06-14 2022-12-22 日本電信電話株式会社 表情変換装置、表情変換方法およびプログラム
JP7164793B1 (ja) 2021-11-25 2022-11-02 ソフトバンク株式会社 音声処理システム、音声処理装置及び音声処理方法
JP2023077444A (ja) * 2021-11-25 2023-06-06 ソフトバンク株式会社 音声処理システム、音声処理装置及び音声処理方法
WO2023152811A1 (ja) * 2022-02-09 2023-08-17 日本電気株式会社 映像検索装置、映像検索方法およびプログラム記憶媒体
WO2024070651A1 (ja) * 2022-09-26 2024-04-04 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム

Also Published As

Publication number Publication date
WO2020026850A1 (ja) 2020-02-06

Similar Documents

Publication Publication Date Title
WO2020026850A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN110730952B (zh) 处理网络上的音频通信的方法和***
US9263044B1 (en) Noise reduction based on mouth area movement recognition
US10586131B2 (en) Multimedia conferencing system for determining participant engagement
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11503162B2 (en) Information processing apparatus and information processing method
JP7283384B2 (ja) 情報処理端末、情報処理装置、および情報処理方法
US11861265B2 (en) Providing audio information with a digital assistant
US10388325B1 (en) Non-disruptive NUI command
JP2022137187A (ja) ワイヤレススピーカーにおいて、再生を検出するため、かつ/または不整合な再生に適応するための構造化オーディオ出力の使用
JPWO2019026360A1 (ja) 情報処理装置および情報処理方法
KR20220109373A (ko) 발화 영상 제공 방법
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2020194828A1 (ja) 情報処理システム、情報処理装置、および情報処理方法
CN112700783A (zh) 通讯的变声方法、终端设备和存储介质
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2024070550A1 (ja) システム、電子機器、システムの制御方法、及びプログラム
CN112154412B (zh) 用数字助理提供音频信息
US10916250B2 (en) Duplicate speech to text display for the deaf
WO2023058451A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20240046540A1 (en) Speech image providing method and computing device for performing the same
JP2023131825A (ja) 情報処理装置、制御プログラムおよび制御方法