WO2024070651A1

WO2024070651A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2024070651A1
Application number: PCT/JP2023/033138
Authority: WO
Inventors: 秀憲青木
Original assignee: ソニーグループ株式会社
Priority date: 2022-09-26
Filing date: 2023-09-12
Publication date: 2024-04-04

Abstract

本技術は、ビデオチャット等のオンラインの会話に参加している参加者の会話の支配度を発話量だけによらずに適切に評価できるようにする情報処理装置、情報処理方法、及び、プログラムに関する。会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度が推定される。本技術はスマートフォン等の端末を用いたビデオチャットなどに適用され得る。

Description

情報処理装置、情報処理方法、及び、プログラム

　本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、会話に参加している参加者の会話の支配度を発話量だけによらずに適切に評価できるようにした情報処理装置、情報処理方法、及び、プログラムに関する。

　特許文献１には、利用者の手が仕様できない状況において適切に情報を送信する技術が開示されている。具体的には特許文献１には、ヘッドマウントディスプレイのように頭部に装着可能な表示装置と、***と目とを撮影可能な撮像部とを有し、***の動きに基づき単語の識別と撮像画像からの表情認識とを行い、その結果から対応付けられたスタンプを送信するという技術である。特許文献２には、ユーザの発する音声の音声データを予め記憶して、前記ユーザの***の動きを撮像した映像に基づき発話を認識する技術であり、発話認識によって認識された発話のテキストと記憶してある音声データとを用いて音声を作成する技術が開示されている。特許文献３には、複数人における会話における満足度を推定する技術が開示されている。

特開２０２１－１５７６８１号公報特開２０１９－２０８１３８号公報特開２０１８－１６９５０６号公報

　ビデオチャット等の会話（オンラインチャット）において、発話していない場合でも発話しているのと同様に会話に参加しているとみなされる状況がある。したがって、会話に参加している参加者の会話の支配度は、発話量（発話の時間比率）だけでは適切に評価することはできない。

　本技術はこのような状況に鑑みてなされたものであり、会話に参加している参加者の会話の支配度を発話量だけによらずに適切に評価できるようにする。

　本技術の情報処理装置、又は、プログラムは、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部を有する情報処理装置、又は、そのような情報処理装置として、コンピュータを機能させるためのプログラムである。

　本技術の情報処理方法は、処理部を有する情報処理方法の前記処理部が、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する情報処理方法である。

　本技術の情報処理装置、情報処理方法、及び、プログラムにおいては、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度が推定される。

本技術が適用された実施の形態に係る情報処理システムの構成例を示したブロック図である。顔ランドマーク（Facial Landmark）の検出についての説明に用いた図である。顔ランドマーク（Facial Landmark）の検出についての説明に用いた図である。動作対応表を例示した図である。図１の情報処理装置の処理手順を例示したフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、図面を参照しながら本技術の実施の形態について説明する。

＜＜本実施の形態に係るデータ処理システム＞＞
　図１は、本技術が適用された実施の形態に係る情報処理システムの構成例を示したブロック図である。

　図１において、本実施の形態に係る情報処理システムデータ処理システムは、例えば、スマートフォン、タブレット、PC（Personal Computer）等の端末１及び２を有する。以下の説明では、例えば、スマートフォンによる1対1のビデオチャットでの端末１及び２の利用を想定して説明する。端末１及び２のうちの一方を自端末１とし、他方を相手端末２とも称する。自端末１と相手端末２は、端末１及び２は、同様の構成を有し、同様の処理を行うことができるので自端末１（単に端末１ともいう）の構成及び処理について説明する。ただし、相手端末２は、自端末１とのビデオチャットを行う構成を有しいればよく、特定の構成に限定されない。

　端末１は、撮像部１１、音声取得部１２、画像処理部１３、表示部１４、通信部１５、画像取得部１６、対話状態判断部１７、音声処理部１８、音声出力部１９、及び、データ学習部２０を有する。撮像部１１は、被写体の映像（画像）を連続的に撮像し、所定時間おきのフレームからなる動画を取得する。撮像部１１は、被写体として通話者の顔を撮像することを目的とし、例えば、スマートフォン等に一般的に具備されているインカメラであってよく、自端末１のユーザ（第１通話者）の顔を撮影する。ただし、スマートフォン等に一般的に具備されているアウトカメラを自身に向けて会話する場合や、撮影者と第１通話者が異なる場合にアウトカメラで第１通話者を映すこともあるため、撮像部１１は、アウトカメラであるとしてもよい。即ち、撮像部１１は、端末１が備える1又は複数のカメラのうちのいずれかであってよく、撮像部１１として用いるカメラをユーザが指定するようにしてもよいし、顔を撮像しているカメラが撮像部１１として自動的に切り替えられるようにしてもよい。撮像部１１で取得された画像は、画像処理部１３に供給される。

　音声取得部１２は、端末１の周辺の音声を収音し、電気信号としての音声（音声信号）を取得する。音声取得部１２は、例えば、スマートフォン等に一般的に具備されているマイクであってよい。ただし、音声取得部１２は、ヘッドセットやBluetooth（登録商標）イヤホンなどの端末１に接続される外部機器であってもよい。音声取得部１２により取得された音声は、画像処理部１３に供給される。

　画像処理部１３は、撮像部１１から供給される画像（自画像ともいう）と、画像取得部１６から供給される相手端末２の画像（相手画像とも）とに対して画像処理を実行し、第１通話者と通話相手（第２通話者ともいう）との対話状態を判断（評価）するための情報（評価情報）を対話状態判断部１７に供給する。また、画像処理部１３は、自画像と相手画像とに基づいて、表示用画像を生成し、表示部１４に供給する。表示用画像は、例えば、相手画像の一部に自画像が重畳された形態であってもよいし、相手画像と自画像とが切り替えられる形態であってもよい。また、画像処理部１３は、音声取得部１２からの自端末１の音声（自音声ともいう）を音声処理部１８とデータ学習部２０とに供給し、自画像を通信部１５とデータ学習部２０とに供給する。なお、画像処理部１３についての詳細は後述する。

　表示部１４は、画像処理部１３からの表示用の画像を表示する。表示部１４は、例えば、スマートフォン等に一般的に具備されているディスプレイであってよい。

　通信部１５は、外部装置との通信を制御し、相手端末２との通信を行う。通信は、例えば、LAN（Local Area Network）やWAN（Wide Area Network）のような有線通信網、移動通信網や無線LAN（WLAN：Wireless Local Area Network）のような無線通信網、又は、複合通信網を含むことができる。ネットワークとしては、TCP/IP（Transmission Control Protocol/Internet Protocol）などの通信プロトコルを用いたインターネットを含むことができる。

　画像取得部１６は、相手端末２から送信される相手画像を通信部１５を介して取得し、画像処理部１３に供給する。対話状態判断部１７は、画像処理部１３からの評価情報に基づいて、現在の通話における会話の支配度等の対話状態を判断する。判断結果である対話状態は、画像処理部１３及び音声処理部１８に供給される。対話状態判断部１７について詳細は後述する。

　音声処理部１８は、相手端末２から送信される音声（相手音声ともいう）を通信部１５を介して取得する。音声処理部１８は、対話状態判断部１７からの対話状態に基づいて、相手音声に対してピッチシフト（音の高さの変更）やイコライザ（音声エフェクト）を適用した音声変換等の音声処理を行う。音声処理後の相手音声は、音声出力部１９に供給される。また、音声処理部１８は、画像処理部１３からの自音声を取得し、自音声に対しても相手音声と同様に対話状態に基づいて音声処理を行うことができる。音声処理後の自音声は、通信部１５に供給され、通信部１５から相手端末２に送信される。

　音声出力部１９は、音声処理部１８からの相手音声を音波として出力する。音声出力部１９は、例えば、スマートフォン等に一般的に具備されているスピーカであってよい。ただし、音声出力部１９は、ヘッドセットやBluetooth（登録商標）イヤホンなどの端末１に接続される外部機器であってもよい。

　データ学習部２０は、画像処理部１３からの自画像及び自音声に基づいて、会話の支配度に対して加点又は減点する第１通話者の表情（表情変化）を学習する。学習結果は、画像処理部１３に供給される。データ学習部２０についての詳細は後述する。

＜画像処理部１３、対話状態判断部１７、音声処理部１８の詳細＞
　画像処理部１３は、顔認識部３１、表情認識部３２、及び、表情変換部３３を有する。顔認識部３１は、撮像部１１からの自画像に含まれる第１通話者の顔（顔画像）を認識する。表情認識部３２は、顔認識部３１により認識された顔に対して表情を認識し、認識した表情に基づいて、第１通話者の会話の支配度を推定する。なお、表情という用語には、顔の動きも含まれることとする。

　会話の支配度とは、第１通話者と第２通話者との対話（会話）において、第１通話者と第２通話者のそれぞれが会話を支配しているとみなせる度合いを表す。例えば、第１通話者の会話の支配度は、第１通話者の発話時間が長い程、高くなることとする。また、第１通話者が発話していない場合であっても、第１通話者が、"頷いている（首が上下に動いている）"場合や、"笑顔で聞いている（口角が上がっている）"場合等には、会話に積極的に参加していると捉えることができる。したがって、第１通話者が、会話に対して、このようなうなずき、相槌、その他の癖等の積極的な表情（リアクション）を示したと判断される時間又は回数が多い程、第１通話者の会話の支配度が高くなることとする。反対に、第１通話者が、"目が明後日の方向を向いている（目線が画面の外を向いている）"のように話を聞いていない場合や、"話したいけど話せない（唇を潰す）"場合等には、会話に積極的に参加していないと捉えることができる。なお、目線が画面の外を向いている場合とは、目線が表示部１４又は撮像部１１の方向から外れていることを意味する。第１通話者が、会話に対して、このような消極的な表情（リアクション）を示したと判断される時間又は回数が多い程、第１通話者の会話の支配度が低くなることとする。

　画像処理部１３の表情認識部３２は、第１通話者の会話の支配度と同様にして、相手画像に基づいて第２通話者の表情を認識し、第２通話者の会話の支配度を推定することができる。なお、第１通話者と第２通話者のいずれか一方の会話の支配度を自端末１が推定し、他方を相手端末２が推定するようにしてもよい。この場合、自端末１の画像処理部１３は、相手端末２で推定された会話の支配度を通信を介して取得することで、第１通話者の会話の支配度と第２通話者の会話の支配度の両方を取得することができる。

　会話の支配度は、第１通話者と第２通話者とで同一の条件（評価方法）により値が加算又は減算されることとする。例えば、第１通話者及び第２通話者のそれぞれの会話の支配度をx1及びx2で表すとする。第１通話者又は第２通話者が1秒発話するごとに、その通話者の会話の支配度x1又はx2が1加算され、第１通話者又は第２通話者が1回分の相槌を行うごとに、その通話者の会話の支配度x1又はx2が1加算されると仮定する。この場合に、第１通話者と第２通話者とのうちの一方の会話の支配度x1又はx2が示す値は、会話を開始してから現時点までの期間において、会話に積極的に参加した（参加したとみなされる）時間又は回数の多さを示す値であるので、正確には、第１通話者と第２通話者とのそれぞれが会話を支配しているとみなせる度合いを直接的に示す値ではない。支配度と称したパラメータx1及びx2を、便宜的に会話参加評価値x1及びx2と称することとし、第１通話者及び第２通話者のそれぞれの会話の支配度をパラメータX1及びX2で表すとすると、支配度X1は、x1／（x1＋x2）により得られる値であり、支配度X2は、x2／（x1＋x2）により得られる値であるとしてもよい。即ち、支配度X1及びX2は、それらの比率を表した値であり、会話参加評価値x1及びx2の総数（総和）に対する、会話参加評価値x1及びx2のそれぞれの構成比であるとしてもよい。

　表情認識部３２は、第１通話者の会話の支配度X１（又は会話参加評価値x1）と、第２通話者の会話の支配度X２（又は会話参加評価値x2）とを推定すると、その結果を、対話状態判断部１７に供給する。

　対話状態判断部１７は、表情認識部３２からの第１通話者の会話の支配度X１と、第２通話者の会話の支配度X２とを比較し、それらに隔たりがあるか否かを判定する。支配度X1と支配度X2とに隔たりがあるか否かは、例えば、支配度X1と支配度X2との差分が予め決められた臨界値以上か否かで判定され得る。臨界値は、ユーザ（第１通話者）により設定又は変更される値であってもよいし、固定値であってもよい。例えば支配度X１及び支配度X２を百分率で表した場合に、臨界値としてC％（例えばCは60）が設定されているときには、対話状態判断部１７は、支配度X1と支配度X2との差分がC％以上であるか否かを判定する。又は、対話状態判断部１７は、支配度X1が（50－C／2）％以下、又は、（50＋C／2）％以上であるか否かを判定してもよいし、いずれか一方のみの条件を満たすか否かを判定してもよい。例えば、第１通話者が、話すのが得意ではないが聞くのが好きという人の場合には、臨界値Cを60％のように比較的大きな値としてし、第１通話者の会話の支配度X1が（50－60／2）＝20％以下か否かを判定する場合であってもよい。対話状態判断部１７での判断結果（判定結果）は、画像処理部１３及び音声処理部１８に供給される。

　画像処理部１３の表情変換部３３は、対話状態判断部１７から、第１通話者の会話の支配度X１と第２通話者の会話の支配度X２との隔たりがあるとの判定結果が与えられ場合に、相手画像における第２通話者の表情を画像処理により変更し、それらの隔たりを低減させるように誘導する。画像処理により第２通話者の表情が変更される相手画像は、表示部１４に表示されて第１通話者が視認する表示画像である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部３３は、第１通話者の会話の支配度X1が増加するように第２通話者の表情を変更する。具体例としては、表情変換部３３は、相手画像における第２通話者の顔画像の口角を上げる変換を行う。これにより、第２通話者の顔が、より笑顔にみえて肯定感が増すので、第１通話者の発話量（支配度X1）が増加するように誘導される。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部３３は、第１通話者の会話の支配度X1が減少するように第２通話者の表情を変更する。具体例としては、表情変換部３３は、相手画像における第２通話者の顔画像の口角を下げる変換を行う。これにより、第２通話者の顔から受ける印象として否定感が増すので、第１通話者の発話量（支配度X1）が減少するように誘導される。

　また、表情変換部３３は、対話状態判断部１７から、第１通話者の会話の支配度X１と第２通話者の会話の支配度X２との隔たりがあるとの判定結果が与えられ場合に、撮像部１１からの自画像における第１通話者の表情を画像処理により変更し、それらの隔たりを低減させるように誘導することもできる。この場合に、画像処理により第１通話者の表情が変更される自画像は、通信を介して相手端末２の表示部に表示されて第２通話者が視認する表示画像である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部３３は、第２通話者の会話の支配度X2が減少するように第１通話者の表情を変更する。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部３３は、第２通話者の会話の支配度X2が増加するように第１通話者の表情を変更する。

　なお、自画像における第１通話者の表情の変更と、相手画像における第２通話者の表情の変更のいずれか一方を自端末１が行い、他方を相手端末２が実行するようにしてもよい。相手端末２は、このような表情の変更を行う機能を有していない場合であってもよく、自端末１が一方の表情の変更のみを行う場合であってもよい。本実施の形態では、説明を簡素化するため、自端末１が表情変換部３３により相手画像における第２通話者の表情のみの変更を行う機能を有していることとする。

　音声処理部１８は、対話状態判断部１７から、第１通話者の会話の支配度X１と第２通話者の会話の支配度X２との隔たりがあるとの判定結果が与えられ場合に、相手端末２からの相手音声の音質に対して、ピッチシフトやイコライザ（音声エフェクト）を適用した音声変換等の音声処理により変更し、それらの隔たりを低減させるように誘導する。音声処理により音質が変更される相手音声は、音声出力部１９により出力されて第１通話者が聴取する音声である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部１８は、第１通話者の会話の支配度X1が増加するように第２通話者の音声（相手音声の音質）を変更する。具体例としては、音声処理部１８は、相手音声のピッチ（音程）をあげる音声変換を行う。これにより、第２通話者の音声が通常の音声に比べて肯定的に聞こえるので、第１通話者の発話量（支配度X1）が増加するように誘導される。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部１８は、第１通話者の会話の支配度X1が減少するように第２通話者の音声（相手音声の音質）を変更する。具体例としては、音声処理部１８は、相手音声のピッチをさげる音声変換を行う。これにより、第２通話者の音声が通常の音声に比べて否定的に聞こえるので、第１通話者の発話量（支配度X1）が減少するように誘導される。

　また、音声処理部１８は、対話状態判断部１７から、第１通話者の会話の支配度X１と第２通話者の会話の支配度X２との隔たりがあるとの判定結果が与えられ場合に、音声取得部１２からの自音声の音質を音声処理により変更し、それらの隔たりを低減させるように誘導することもできる。この場合に、音声処理により音質が変更される自音声は、通信を介して相手端末２の音声出力部から出力されて第２通話者が聴取する音声である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部１８は、第２通話者の会話の支配度X2が減少するように自音声の音質を変更する。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部１８は、第２通話者の会話の支配度X2が増加するように自音声の音質を変更する。

　なお、相手音声の音質の変更と、自音声の音質の変更のいずれか一方を自端末１が行い、他方を相手端末２が実行するようにしてもよい。相手端末２は、このような音声の変更を行う機能を有していない場合であってもよく、自端末１が一方の音声の音質の変更のみを行う場合であってもよい。本実施の形態では、説明を簡素化するため、自端末１が音声処理部１８により相手音声の音質のみの変更を行う機能を有していることとする。

＜表情認識部３２の詳細＞
　表情認識部３２は、撮像部１１からの自画像に基づいて、第１通話者の顔の表情を認識し、認識した表情に基づいて、第１通話者の会話の支配度（会話参加評価値x1）を推定する。なお、表情認識部３２は、相手端末２からの相手画像に基づいて、第１通話者の会話の支配度（会話参加評価値x1）と同様に第２通話者の会話の支配度（会話参加評価値x2）を推定することができる。ただし、本実施の形態では、第２通話者の会話の支配度は、相手端末２から与えられることとし、その説明は省略する。

　表情認識部３２は、顔ランドマーク認識部４１及び動作対応表４２を有する。顔ランドマーク認識部４１は、自画像における第１通話者の顔の表情を認識するため、顔ランドマーク（Facial Landmark）の検出（認識）を行う。図２に示すように顔ランドマークＬＭは、顔画像ＦＡから検出される特徴点を表し、例えば図３に示すように68箇所の特徴点を表す。顔ランドマークＬＭの検出は、顔認識アプリケーションである「Openfece」を用いて行うことができる（Tadas Baltrusaitis, Peter Robinson, Louis-Philippe Morency、「OpenFace: an open source facial behavior analysis toolkit」、2016 IEEE Winter Conference on Applications of Computer Vision (WACV)、pp.1-10、2016）。また、顔ランドマークＬＭの検出は、スマートフォンやタブレット等の携帯端末で利用されるアプリケーション「ARFaceAnchor」(https://developer.apple.com/documentation/arkit/arfaceanchor)などの機能を用いて行うこともでき、又は、機械学習技術で生成した推論モデルを用いて行うこともできる。「ARFaceAnchor」を用いた場合を例にあげると、顔ランドマーク認識部４１は、顔ランドマークの検出と共に、口の開き具合をjawOpenという係数で取得でき、口が最大に開いていると1.0、まったく開いていないと0といったように顔ランドマークの様々な状態を係数として取得することができる。第１通話者が発話するためには口を動かす必要があるため、顔ランドマーク認識部４１は、顔ランドマークの状態に基づいて、口の状態が変動した場合、第１通話者が発話状態であると判断する。顔ランドマーク認識部４１は、例えば、第１通話者が発話状態であると判断した時間が例えば1秒継続するごとに、第１通話者の会話の支配度（会話参加評価値x1）の値を1ずつ増加させる。

　また、顔ランドマーク認識部４１は、顔ランドマークＬＭの変化から第１通話者の表情動作を検出する。表情動作は、表情動作の最小単位であるAction Unit（AU）と呼ばれる表情運動要素（例えば44種類）の組合せにより表される。動作対応表４２には、第１通話者が発話していない場合であっても、第１通話者が会話に積極的に参加していると捉えることができる積極的な表情動作と判断される条件や、第１通話者が会話に積極的に参加していないと捉えることができる消極的な表情動作と判断される条件が規定されている。また、動作対応表４２には、それらの規定された条件に該当する表情動作が検出された場合に、第１通話者の会話の支配度（会話参加評価値x1）に対して加点又は減点される値が規定されている。図４には、動作対応表４２の一例が示されている。顔ランドマーク認識部４１は、例えば、「OpenFace」を用いて表情動作を検出した場合、Action Unitごとの係数を取得することができる。Action Unitごとの係数は、第１通話者の表情動作に含まれる各Action Unitの表情動作の割合に相当する。顔ランドマーク認識部４１は、第１通話者の表情動作の検出として、Action Unitごとの係数を取得し、取得したAction Unitごとの係数に基づいて、図４のような動作対応表４２の表情動作のうちの条件を満たす表情動作を検出する。例えば、図４において、「唇を潰す」というAction Unitの表情動作の係数が0.3以上で、かつ、2秒以上続いた場合には、1行目に示された表情動作の条件に該当することが検出される。このとき、顔ランドマーク認識部４１は、図４で規定されるように、第１通話者の会話の支配度（会話参加評価値x1）を1減点する。即ち、第１通話者が会話に積極的に参加していないと捉えることができる消極的な表情動作であると判断されて、第１通話者の会話の支配度（会話参加評価値x1）が1減点される。

　一方、図４において、「Neck tightener」というAction Unitの表情動作の係数が2秒間の間に0．2以上変化した場合には、2行目に示された表情動作の条件に該当することが検出される。このとき、顔ランドマーク認識部４１は、図４で規定されるように、第１通話者の会話の支配度（会話参加評価値x1）を1加点する。即ち、第１通話者が会話に積極的に参加していると捉えることができる積極的な表情動作であると判断されて、第１通話者の会話の支配度（会話参加評価値x1）が1加点される。このような動作対応表４２のデータは、事前に作成されている場合であってもよいし、会話中に学習されて第１通話者の表情動作の特性に合わせて追加される場合であってもよい。

＜動作対応表４２のデータ作成＞
　動作対応表４２のデータが会話中に学習されて第１通話者の表情動作の特性に合わせて追加される場合について説明する。図１において、データ学習部２０は、音声取得部１２により取得された自音声に含まれる人の声（第１通話者の発話音）以外の音の成分が所定レベル以下である場合に動作する。データ学習部２０は、音声認識部５１、音声テキスト化部５２、感情分析部５３、及び、表情学習部５４を有する。

　音声認識部５１は、音声取得部１２で取得された自音声を画像処理部１３を介して取得し、取得した自音声から人の声（発話音）を認識（抽出）して音声テキスト化部５２に供給する。音声テキスト化部５２は、音声取得部１２からの発話音をテキスト化し、そのテキストデータを感情分析部５３に供給する。感情分析部５３は、音声テキスト化部５２からのテキストデータに基づいてテキストそのものが持つ意味による感情を感情情報として検出し、表情学習部５４に供給する。

　表情学習部５４は、感情分析部５３からの感情情報と、その感情情報が検出された際の自画像における顔ランドマークの動きを学習する。自画像における顔ランドマークの情報は、画像処理部１３の表情認識部３２（顔ランドマーク認識部４１）から表情学習部５４に供給される。これよって、表情学習部５４は、感情情報が示す第１通話者の感情に対して、第１通話者が行う表情動作を学習することができ、第１通話者の表情動作と、そのときの第１通話者の感情とを対応付けることができる。例えば、第１通話者が、口をもごもごした後に「大変だった」いうネガティブな感情の言葉を発した場合、口をもごもごした表情動作と、ネガティブという感情とを対応付けることができる。感情がポジティブの場合の表情動作に対しては、第１通話者の会話の支配度（会話参加評価値x1）に対して加点（例えば＋1）を行い、感情がネガティブの場合の表情動作に対しては、第１通話者の会話の支配度（会話参加評価値x1）に対して減点（例えば－1）を行うという、動作対応表４２のデータを生成することができる。生成されたデータはデータ蓄積部６１に蓄積され、適宜のタイミングで、表情認識部３２の動作対応表４２のデータとして使用可能な状態に設定される。

＜自端末１の会話の支配度調整の処理手順連＞
　図５は、自端末１の処理手順例を示したフローチャートである。なお、データ学習部２０による動作対応表４２のデータ作成についての処理は省略する。

　ステップＳ１では、撮像部１１は、自画像の取得を開始する。以後、自画像の取得は継続的に行われる。ステップＳ２では、画像処理部１３（顔認識部３１）は、ステップＳ１で取得された自画像に顔が入っているか否かを判定する。ステップＳ２において否定された場合には、ステップＳ２の処理が繰り返される。ステップＳ２において肯定された場合には、処理はステップＳ３とステップＳ６とに進む。なお、ステップＳ３乃至ステップＳ５の処理と、ステップＳ６及びステップＳ７の処理とは並列的に実行される。

　ステップＳ３では、画像処理部１３（表情認識部３２の顔ランドマーク認識部４１）は、自画像における第１通話者の顔ランドマークを検出し、唇や口の顔ランドマークの状態を検出する。ステップＳ４では、画像処理部１３（表情認識部３２の顔ランドマーク認識部４１）は、唇や口の顔ランドマークの値（座標）が一定値以上で変動したか否かを判定する。ステップＳ４において否定された場合にはステップＳ４の処理が繰り返される。ステップＳ４において肯定された場合には処理はステップＳ５に進む。ステップＳ５では、画像処理部１３（表情認識部３２の顔ランドマーク認識部４１）は第１通話者が発話状態であると判断する。このとき、画像処理部１３（表情認識部３２の顔ランドマーク認識部４１）は、第１通話者の会話の支配度（会話参加評価値x1）を増加させる。例えば、画像処理部１３は、第１通話者の会話の支配度（会話参加評価値x1）に1加点し、又は、発話状態を検出した継続時間（秒数）を加点する。

　ステップＳ６では、画像処理部１３（表情認識部３２の顔ランドマーク認識部４１）は、動作対応表４２に基づく顔ランドマークの状態（動作対応表４２に規定されて条件に該当する第１通話者の表情動作）を取得する。ステップＳ７では、画像処理部１３（表情認識部３２の顔ランドマーク認識部４１）は、動作対応表４２に基づいて、ステップＳ６で取得した表情動作に対応する加点又は減点を第１通話者の会話の支配度（会話参加評価値x1）に対して行う。ステップＳ８では、対話状態判断部１７は、第１通話者の会話の支配度X１と、第２通話者の会話の支配度X2とを比較する。

　ステップＳ９では、対話状態判断部１７は、第１通話者の会話の支配度X１と、第２通話者の会話の支配度X2との間に隔たりがあるか否かを判定する。ステップＳ９において否定された場合にはステップＳ２からの処理が繰り返される。ステップＳ９において肯定された場合には、処理はステップＳ１０に進む。ステップＳ１０では、画像処理部１３（表情変換部３３）は、第１通話者の会話の支配度X１と第２通話者の会話の支配度X2との隔たりを減少させるように相手画像における第２通話者の表情を変換する。また、音声処理部１８は、第１通話者の会話の支配度X１と第２通話者の会話の支配度X2との隔たりを減少させるように、相手音声の音質を変換する。なお、画像処理部１３による表情の変換と、音声処理部１８による音質の変換とはいずれか一方のみが行われる場合であってよい。ステップＳ１０の後、ステップＳ２に戻り、ステップＳ２からの処理が繰り返される。

　以上の本技術によれば、単純な会話の量（発話量）で、第１通話者（会話の参加者）と第２通話者（参加者の相手）とのどちらが多く話しているかを判断するのではなく、うなずき、相槌、その他の癖などの表情のリアクションを考慮した会話の支配度を推定することができる。また、画像だけで支配度を判断した場合、異なるカメラや異なる距離、横を向いているときは精度が落ちるが、顔ランドマークの状態を利用することにより、顔の位置や向きが精度に与える影響が少ない。

　また、オンライン相談やオンラインの習い事のようにビデオチャットを使って教える側と教わる側が存在するビデオチャットにおいて、教わる側の発話が少ないといったことや教える側が一方的に話し続けるといったことが存在する。そのような状況になると話したかったのにずっと聞くことになった、聞きたいことがあったのに聞くことができなかったりしてユーザの満足度が減少してしまう。また、オンラインキャンパスツアーのような場所を紹介するサービスも存在し、片方（或いは両方）が屋外にいる状態でビデオチャットを使って現地を紹介するということもある。そのような場合にはノイズが多い外部環境でのビデオチャットをするといったことも考えられる。

　本技術によれば、それらの問題が解決され、1対1ビデオ通話において、会話の偏りが解消される。ユーザの状態や状況を顔の画像から推測し、会話に偏りがあると判別されるとユーザフィードバックによって会話の偏りが解消される。屋外での利用が想定される場合に、ユーザ状況については音声ではなく、画像を使って判別される。会話の偏りには会話の支配度という値から判断される。会話の支配度は発話をしている状態に加えて、表情のリアクションで支配度具合を調整することによって算出される。そのため、一方の発話が会話のほとんどを占めていても、話してない側がうなずきや相槌を多数している場合には会話が偏っているとは判断されにくいシステムとなる。

＜実施形態（ユースケース）＞
　図１等に示した情報処理システムは以下のような実施形態を採用することができる。

（実施形態１）
　オンライン相談やオンライン習い事のようなサービスにおいて、情報処理システムが相手を自動的に選ぶという形態が可能である。又は、マッチングサービスのように最適な通話相手を選ぶサービスにおいて、会話の支配度をもとにしたマッチングを行うという形態が考えられる。会話の支配度の高低の傾向に関して、傾向が反対の人物同士、即ち、会話の支配度が高い人物と、会話の支配度が低い人物とが自動的にマッチングされるようにすることで、話したい人は多く話せて満足することができ、あまり話したくない人は話さなくてもよいので満足することができる。

（実施形態２）
　実施形態１では単純な会話量（発話量）を利用しているが、応用方法として、相手のことをよく見ている人（通話画面を見ている人）にはリアクション回数が多い人物、相手をあまり見ていない人にはリアクションをあまりとらない人でも問題ない、といったように会話の支配度だけではなく、動作対応表の動作をもとにしたマッチングを行うことも可能である。

（実施形態３）
　そのほかにも口の大きく広げて会話する（口の開き具体の係数の平均値が高い人）ははっきり口を開くので声が聞き取りやすいといったパラメータを持たせたりすることによって、マッチングサービスや、又は、そのようなサービスにおいての会話の上手さを指標として利用することによって、質の高いホストへの訓練や教育への応用方法も検討することが可能な技術である。

　＜コンピュータの構成例＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

　入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

　また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

　さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、例えば、１つの装置（又は処理部）として説明した構成を分割し、複数の装置（又は処理部）として構成するようにしてもよい。逆に、以上において複数の装置（又は処理部）として説明した構成をまとめて１つの装置（又は処理部）として構成されるようにしてもよい。また、各装置（又は各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（又は処理部）の構成の一部を他の装置（又は他の処理部）の構成に含めるようにしてもよい。

　また、例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

　また、例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

　なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

　なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部又は全部を、他の実施の形態において説明した本技術の一部又は全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部又は全部を、上述していない他の技術と併用して実施することもできる。

　＜構成の組み合わせ例＞
　なお、本技術は以下のような構成も取ることができる。
（１）
　会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
　を有する情報処理装置。
（２）
　前記処理部は、前記参加者の支配度を、前記参加者の表情動作に基づいて推定する
　前記（１）に記載の情報処理装置。
（３）
　前記処理部は、前記参加者の表情動作を前記顔画像から検出した顔ランドマークに基づいて検出する
　前記（２）に記載の情報処理装置。
（４）
　前記処理部は、前記参加者の表情動作を表情運動要素の組合せにより検出する
　前記（３）に記載の情報処理装置。
（５）
　前記処理部は、前記顔画像に基づいて認識した、前記参加者が発話しているときの前記参加者の表情動作と、前記参加者が発話していないときの前記参加者の表情動作と基づいて、前記支配度を推定する
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記処理部は、前記会話に参加している前記参加者の相手の前記会話の支配度を取得し、
　前記参加者の支配度を、前記相手の支配度との比率を表す値として推定する
　前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記処理部は、
　前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加しているとみなされる表情動作の場合に、前記参加者の支配度を増加させる
　前記（５）に記載の情報処理装置。
（８）
　前記処理部は、
　前記参加者の表情動作が、うなずき、相槌、又は、笑顔である場合に、前記会話に対して積極的に参加しているとみなされる表情動作であると判定する
　前記（７）に記載の情報処理装置。
（９）
　前記処理部は、
　前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加していないとみなされる表情動作の場合に、前記参加者の支配度を減少させる
　前記（５）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記処理部は、
　前記参加者の表情動作が、唇を潰す表情動作の場合、又は、目線が前記顔画像を撮像する撮像部の方向から外されている場合に、前記会話に対して積極的に参加していないとみなされる表情動作であると判定する
　前記（９）に記載の情報処理装置。
（１１）
　前記会話に参加している前記参加者の相手の顔画像を表示する表示部と、
　前記会話に対する前記参加者の支配度に応じて前記表示部に表示される前記相手の顔画像の一部を変更して前記相手の表情を変換する変換部と
　を有する
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記変換部は、前記相手の顔画像の口角を変更する
　前記（１１）に記載の情報処理装置。
（１３）
　前記変換部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の顔画像の一部を変更する
　前記（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
　前記会話に参加している前記参加者の相手の音声を出力する音声出力部と、
　前記会話に対する前記参加者の支配度に応じて前記音声出力部から出力される前記相手の音声の音質を変更する音声処理部と
　を有する
　前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記音声出力部は、前記相手の音声の音質をピッチシフト又はイコライザの適用により変更する
　前記（１４）に記載の情報処理装置。
（１６）
　前記音声処理部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の音声の音質を変更する
　前記（１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
　前記処理部は、前記参加者の支配度に応じて、前記会話に参加する前記参加者の相手をマッチングする
　前記（１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
　前記処理部は、前記支配度の高低の傾向に関して、前記参加者と前記傾向が反対の相手を前記会話に参加する前記参加者の相手としてマッチングする
　前記（１７）に記載の情報処理装置。
（１９）
　処理部を有する
　情報処理装置の
　前記処理部が、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する
　情報処理方法。
（２０）
　コンピュータを
　会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
　として機能させるためのプログラム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１　自端末，　２　相手端末，　１１　撮像部，　１２　音声取得部，　１３　画像処理部，　１４　表示部，　１５　通信部，　１６　画像取得部，　１７　対話状態判断部，　１８　音声処理部，　１９　音声出力部，　２０　データ学習部，　３１　顔認識部，　３２　表情認識部，　３３　表情変換部，　４１　顔ランドマーク認識部，　４２　動作対応表，　５１　音声認識部，　５２　音声テキスト化部，　５３　感情分析部，　５４　表情学習部，　６１　データ蓄積部

Claims

　会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
　を有する情報処理装置。
　前記処理部は、前記参加者の支配度を、前記参加者の表情動作に基づいて推定する
　請求項１に記載の情報処理装置。
　前記処理部は、前記参加者の表情動作を前記顔画像から検出した顔ランドマークに基づいて検出する
　請求項２に記載の情報処理装置。
　前記処理部は、前記参加者の表情動作を表情運動要素の組合せにより検出する
　請求項３に記載の情報処理装置。
　前記処理部は、前記顔画像に基づいて認識した、前記参加者が発話しているときの前記参加者の表情動作と、前記参加者が発話していないときの前記参加者の表情動作と基づいて、前記支配度を推定する
　請求項１に記載の情報処理装置。
　前記処理部は、前記会話に参加している前記参加者の相手の前記会話の支配度を取得し、
　前記参加者の支配度を、前記相手の支配度との比率を表す値として推定する
　請求項１に記載の情報処理装置。
　前記処理部は、
　前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加しているとみなされる表情動作の場合に、前記参加者の支配度を増加させる
　請求項５に記載の情報処理装置。
　前記処理部は、
　前記参加者の表情動作が、うなずき、相槌、又は、笑顔である場合に、前記会話に対して積極的に参加しているとみなされる表情動作であると判定する
　請求項７に記載の情報処理装置。
　前記処理部は、
　前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加していないとみなされる表情動作の場合に、前記参加者の支配度を減少させる
　請求項５に記載の情報処理装置。
　前記処理部は、
　前記参加者の表情動作が、唇を潰す表情動作の場合、又は、目線が前記顔画像を撮像する撮像部の方向から外されている場合に、前記会話に対して積極的に参加していないとみなされる表情動作であると判定する
　請求項９に記載の情報処理装置。
　前記会話に参加している前記参加者の相手の顔画像を表示する表示部と、
　前記会話に対する前記参加者の支配度に応じて前記表示部に表示される前記相手の顔画像の一部を変更して前記相手の表情を変換する変換部と
　を有する
　請求項１に記載の情報処理装置。
　前記変換部は、前記相手の顔画像の口角を変更する
　請求項１１に記載の情報処理装置。
　前記変換部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の顔画像の一部を変更する
　請求項１に記載の情報処理装置。
　前記会話に参加している前記参加者の相手の音声を出力する音声出力部と、
　前記会話に対する前記参加者の支配度に応じて前記音声出力部から出力される前記相手の音声の音質を変更する音声処理部と
　を有する
　請求項１に記載の情報処理装置。
　前記音声出力部は、前記相手の音声の音質をピッチシフト又はイコライザの適用により変更する
　請求項１４に記載の情報処理装置。
　前記音声処理部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の音声の音質を変更する
　請求項１に記載の情報処理装置。
　前記処理部は、前記参加者の支配度に応じて、前記会話に参加する前記参加者の相手をマッチングする
　請求項１に記載の情報処理装置。
　前記処理部は、前記支配度の高低の傾向に関して、前記参加者と前記傾向が反対の相手を前記会話に参加する前記参加者の相手としてマッチングする
　請求項１７に記載の情報処理装置。
　処理部を有する
　情報処理装置の
　前記処理部が、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する
　情報処理方法。
　コンピュータを
　会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
　として機能させるためのプログラム。