JP6762973B2

JP6762973B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6762973B2
Application number: JP2018019066A
Authority: JP
Inventors: 一郎馬田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2020-09-30
Anticipated expiration: 2038-02-06
Also published as: JP2019138937A

Description

本発明は情報処理装置、情報処理方法、及びプログラムに関し、特に、会議等のコミュニケーションの録音データから議論展開の契機を抽出する技術に関する。

従来、会議シーン等の音声及び撮影データを音声認識で処理し、話者と対応付けることによって会議の議事録を作成する技術が提案されている（例えば、特許文献１を参照）。

特開２０１５−５５９７８号公報

上記のような技術を用いることにより、会議等の音声及び撮影データから議事録を作成することができる。しかしながら、会議等が長時間にわたるような場合には議事録も膨大となるため、事後的に議事録を確認して内容を把握するのに時間を要する場合がある。このため、会議の内容を迅速に確認するために、会議等のダイジェストをまとめる技術が望まれている。

本発明はこれらの点に鑑みてなされたものであり、会議等の音声及び撮影データから会議の要部を推定する提供することを目的とする。

本発明の第１の態様は、情報処理装置である。この装置は、会話における発話者及び複数の参与者それぞれの発話の音声データを取得する音声データ取得部と、前記複数の参与者それぞれの動きを取得する動き取得部と、前記音声データを解析して前記発話者の会話における発話区分を特定する区分特定部と、前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する計測部と、前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する指標値算出部と、前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する要約部と、を備える。

前記計測部は、前記時間範囲内における各参与者の発話及び動作の重複区間の長さをさらに取得してもよく、前記指標値算出部は、各参与者の発話及び動作の重複区間の長さが長い場合は、短い場合よりも重要であることを示す指標値を算出してもよい。

前記情報処理装置は、前記重複区間の開始時から前記複数の参与者それぞれの発話音量が最大となるまでの時間のばらつきを示す統計量である第１ばらつき指標を算出する第１ばらつき算出部をさらに備えてもよく、前記指標値算出部は、前記第１ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出してもよい。

前記情報処理装置は、前記重複区間の開始時から前記複数の参与者それぞれの身体動作の加速度が最大となるまでの時間のばらつきを示す統計量である第２ばらつき指標を算出する第２ばらつき算出部をさらに備えてもよく、前記指標値算出部は、前記第２ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出してもよい。

前記指標値算出部は、前記重複区間における各参与者の身体動作が大きい場合は、小さい場合よりも重要であることを示す評価値を算出してもよい。

前記情報処理装置は、前記重複区間の開始時から各参与者の身体動作の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する差分取得部をさらに備えてもよく、前記指標値算出部は、前記重複区間の開始時から各参与者の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差が大きい場合は、小さい場合よりも重要であることを示す評価値を算出してもよい。

本発明の第２の態様は、情報処理方法である。この方法において、プロセッサが、会話における発話者及び複数の参与者それぞれの発話の音声データを取得するステップと、前記複数の参与者それぞれの動きを取得するステップと、前記音声データを解析して前記発話者の会話における発話区分を特定するステップと、前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得するステップと、前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出するステップと、前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録するステップと、を実行する。

本発明の第３の態様は、プログラムである。このプログラムは、コンピュータに、会話における発話者及び複数の参与者それぞれの発話の音声データを取得する機能と、前記複数の参与者それぞれの動きを取得する機能と、前記音声データを解析して前記発話者の会話における発話区分を特定する機能と、前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する機能と、前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する機能と、前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する機能と、を実現させる。

本発明によれば、会議等の音声及び撮影データから会議の要部を推定することができる。

実施の形態の概要を説明するための図である。実施の形態に係る情報処理装置の機能構成を模式的に示す図である。参与者の発話及び動作の重複を説明するための図である。実施の形態に係る情報処理装置が実行する情報処理の処理フローを説明するためのフローチャートである。実施の形態に係る情報処理装置が実行する評価値算出処理の流れを説明するためのフローチャートである。

＜実施の形態の概要＞
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするコミュニケーションを記録した音声及び撮影データを解析することにより、議論展開の契機となった発話を検出する。ここで「議論展開」とは、発話者の発話内容を聞いた聞き手がその発話内容に納得し、新たな気づきが与えられ、発話内容に関連する新たな発話が聞き手から発せられることを意味する。

このため、実施の形態に係る情報処理装置は、話し手と聞き手との役割が明確となっている演説等ではなく、聞き手も話し手と同様に発言する機会が与えられている会議、典型的にはブレインストーミングのような会議を解析の対象のコミュニケーションとする。以下本明細書においては、話し手と聞き手とを特に区別する場合を除いて、コミュニケーションの参加者を「参与者」と記載する。参与者は、あるときは話し手となり、他の参与者が話し手となっているときは聞き手となる。

議論展開は、新規のアイデアの創出や、それまでの議論における盲点の指摘等、議論に新たな展開が生まれる重要イベントといえる。したがって、議論展開契機は、コミュニケーションの参与者や関係者にとって重大な関心対象である。しかしながら、参与者や、あるいはそもそもコミュニケーションに参与しなかった人が、議事録や録音データ等から、事後的に議論展開契機を検索しようとするのはしばしば困難である。また、このような検索を手作業で行うことは、単に時間と労力を必要とするだけでなく、場合によっては議論展開契機に気づかず見落としてしまう危険も懸念される。

図１は、実施の形態の概要を説明するための図であり、４人の参与者Ｐ（第１参与者Ｐ１、第２参与者Ｐ２、第３参与者Ｐ３、及び第４参与者Ｐ４）が参加している会議の様子を示している。図１に示す会議では第１参与者Ｐ１が主な話し手であるが、第２参与者Ｐ２、第３参与者Ｐ３、及び第４参与者Ｐ４も自由に発言することができる。

図１に示す例では、各参与者Ｐの動きを取得するために、可視光カメラ又は赤外カメラであるカメラＣによって各参与者Ｐを被写体に含む画像データが生成されている。また、各参与者Ｐにはマイクロフォン等の音声入力装置Ｓが取り付けられており、各参与者Ｐの発話を音声データに変換することができる。このように、各参与者Ｐがそれぞれ音声入力装置Ｓを取り付けている場合には、音声データにおける話者分離が容易となる点で有利である。しかしながら、例えばマイクロフォンアレイ等の複数のマイクで音声データを取得し、既知の話者分離技術を用いて事後的に音声データと話し手との対応付けを行ってもよい。

本願の発明者は、様々な対話が記録された多人数インタラクションコーパスにおける発話や身体動作を分析した結果、新規のアイデアが創出された発話や盲点を指摘した発話の直後に、相槌音声と身体の動きが複数の聞き手の間でしばしば同期して発生していることを見出した。重要な議論展開の契機となるときは、発生と身体の動きとを同時に行う聞き手の数が多いことも見出した。

そこで、実施の形態に係る情報処理装置は、まず音声データを解析して、音声データを複数の発話区分に分解する。続いて、実施の形態に係る情報処理装置は、各発話区分を基準とする所定の時間範囲内において、発話と身体の動きとが重複している聞き手の数をカウントする。実施の形態に係る情報処理装置は、発話と身体の動きとが重複している聞き手の数が多い場合、その発話区分における発話が、議論展開の契機となった発話であると推定する。

議論展開の契機となる発話は、会議における要部といえる。実施の形態に係る情報処理装置は、議論展開の契機となった発話区分の末尾を含む所定範囲の音声データを、他の部分の音声データと区別がつくように処理する。例えば、実施の形態に係る情報処理装置は議論展開の契機となった発話区分の末尾を含む所定範囲の音声データを切り出して記憶部に格納したり、所定範囲の音声データに重要性を示すフラグ等のメタデータを付したりする。これにより、実施の形態に係る情報処理装置は、会議等の音声及び撮影データから会議の要部を推定することができる。

＜情報処理装置１の機能構成＞
図２は、実施の形態に係る情報処理装置１の機能構成を模式的に示す図である。情報処理装置１は、記憶部２と制御部３とを備える。

記憶部２は、情報処理装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や情報処理装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

制御部３は、情報処理装置１のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサであり、記憶部２に記憶されたプログラムを実行することによって音声データ取得部３０、動き取得部３１、区分特定部３２、計測部３３、指標値算出部３４、要約部３５、ばらつき算出部３６（第１ばらつき算出部３６ａ及び第２ばらつき算出部３６ｂ）、及び差分取得部３７として機能する。

なお、図２は、情報処理装置１が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、記憶部２を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

音声データ取得部３０は、会話における発話者となる参与者Ｐ、及び発話者以外の複数の参与者Ｐそれぞれの発話の音声データを取得する。音声データ取得部３０は、例えば音声入力装置Ｓが生成した音声データを音声入力装置Ｓから直接取得する。なお、音声データ取得部３０は、記憶部２に格納された音声データを記憶部２から読み出すことで取得してもよい。

動き取得部３１は、聞き手となる複数の参与者Ｐそれぞれの動きを取得する。動き取得部３１は、カメラＣが生成した動画像データを取得し、例えば動画像データ中の人物像の範囲について連続ウェーブレット変換等の画像処理を行った後、画素の変化量を計算することによって動きを検出することで実現できる。各参与者Ｐが加速度センサを身に着けている場合には、動き取得部３１は加速度センサの出力値に基づいて動きを取得してもよいし、既知のモーションキャプチャー技術を用いて動きを取得してもよい。

区分特定部３２は、音声データを解析して、発話者の会話における発話区分を特定する。ここで「発話区分」とは、音声データ中でサイレンスが所定の期間以上継続する「静音期間」に挟まれた区分である。また、静音期間を決定するための「所定の期間」は、情報処理装置１の解析対象として想定される発話の内容等を考慮して実験により定めればよいが、例えば２００ミリ秒から３００ミリ秒である。

したがって、本明細書において「発話区分」の末尾は、必ずしも発話者の発話における文末とは限らない。例えば発話者が息継ぎをすること等によって発話中に所定の期間以上サイレンスが継続すれば発話区分が生じ、結果として文末でなくても発話区分の末尾となることも起こり得る。

計測部３３は、発話区分を基準として定められた所定の時間範囲内における複数の参与者Ｐの発話及び動作が重複して発生した参与者Ｐの数を取得する。ここで「所定の時間範囲」とは、発話区分における話し手の発話に対する各参与者Ｐの応答を抽出するために計測部３３が参照する時間的な基準範囲である。基準範囲の開始点及び長さは、情報処理装置１が解析対象とするコミュニケーションの種類や参与者Ｐの性格等を勘案して実験により定めればよいが、例えば、発話区分の開始時点の１００ミリ秒後から終了時点の２００ミリ秒後までの範囲である。

図３は、参与者Ｐの発話及び動作の重複を説明するための図である。図３において、軸Ａは時間の流れを示している。また、黒塗りの矢印は各参与者Ｐの発話区分を示し、白抜きの矢印は各参与者Ｐの身体動作をしている区分を示している。図３は、第１参与者Ｐ１、第２参与者Ｐ２、及び第３参与者Ｐ３の発話及び身体動作を時系列的に示している。

図３に示す例では、第１参与者Ｐ１による発話ｕ１が最も古いイベントである。発話ｕ１の後、第２参与者Ｐ２が身体を動かし、その直後に第２参与者Ｐ２が発話をしている。図３において、第１参与者Ｐ１による発話ｕ３の後、聞き手であった第２参与者Ｐ２は「なるほど」と発話するとともに（発話ｕ４）、首を大きく縦に動かした（身体動作Ｇ２２）。また、第３参与者Ｐ３は、「そうか！」と発話するとともに（発話ｕ５）、両手を後頭部にあわせ、椅子の背もたれにもたれかかった（身体動作Ｇ２３）。

第２参与者Ｐ２による発話ｕ４と身体動作Ｇ２２は、第１参与者Ｐ１による発話ｕ３の直後において重複している。同様に、第３参与者Ｐ３による発話ｕ５と身体動作Ｇ２３は、第１参与者Ｐ１による発話ｕ３の直後に置いて重複している。このような場合、計測部３３は、第２参与者Ｐ２及び第３参与者Ｐ３を発話及び動作が重複して発生した参与者Ｐとみなし、その数を２とカウントする。なお、図３において符号Ｏで示す区間は、参与者Ｐの発話及び動作が重複して発生している重複区間Ｏである。また、発話ｕ３は、議論展開の契機となった議論展開発話である。

図２の説明に戻る。指標値算出部３４は、計測部３３が取得した数に基づいて、基準範囲内において参与者Ｐの発話及び動作が重複して発生している発話区分の重要度を示す評価値を算出する。具体的には、指標値算出部３４は、計測部３３が取得した数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する。

さらに具体的には、発話Ｕｘを基準とする所定の時間範囲内において発話及び動作が重複している聞き手の数をｈ、全ての聞き手の数をＨとしたとき、指標値算出部３４は、評価値Ｉ_ｘを以下の式（１）で算出する。
Ｉ_ｘ＝ｈ／Ｈ（１）

式（１）は、全ての聞き手の数をＨに対する発話及び動作が重複している聞き手の数の割合を示している。図３に示す例では、ｈ＝Ｈ＝２である。したがって、Ｉ_３＝１．０となる。

要約部３５は、評価値が示す重要度が所定の値を超えた場合、発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する。議論展開発話の末尾の前後は、議論展開の契機となった発話及びそれに対する参与者Ｐの発話が含まれており、新規のアイデアの創出や、それまでの議論における盲点の指摘等、議論に新たな展開が生まれている蓋然性が高い範囲である。要約部３５が話区分の末尾を含む所定の範囲の音声データを記録することにより、参与者Ｐ又はコミュニケーションに参与しなかった者が、事後的にコミュニケーションにおける要部を確認することができる。

したがって、「所定の閾値」は、要約部３５が解析対象の発話区分を議論展開発話として記録するか否かを判定するために参照する「展開発話判定基準閾値」である。この値は、評価値Ｉ_ｘを算出するための式の形を勘案して実験により定めればよい。なお、式（１）以外の評価値Ｉ_ｘを算出するための式のバリエーションは後述する。

「所定の範囲」は、要約部３５がコミュニケーションの要部として特定するために参照する「要部特定基準範囲」である。この値も実験により定めればよいが、例えば、発話区分の開始時点の１０秒前から終了時点の２０秒後までの範囲である。また、要約部３５は、要部として記録する音声データの長さを、評価値Ｉ_ｘの値に応じて変更してもよい。具体的には、要約部３５は、評価値Ｉ_ｘが大きい場合は、小さい場合よりも記録する範囲を大きくしてもよい。これにより、参与者Ｐ又はコミュニケーションに参与しなかった者は、重要な議論展開発話については、より長い時間要部周辺の発話を確認することができる。

［評価値Ｉ_ｘのバリエーション］
以下、評価値Ｉ_ｘの算出方法のバリエーションを説明する。

（重複区間の長さ）
重要な議論展開発話があったときは、各参与者Ｐの相槌発話及び身体動作が長時間継続すると考えられる。そこで、計測部３３は、時間範囲内における各参与者Ｐの発話及び動作の重複区間Ｏの長さをさらに取得する。指標値算出部３４は、各参与者Ｐの発話及び動作の重複区間Ｏの長さが長い場合は、短い場合よりも重要であることを示す指標値を出力する。

具体的には、発話Ｕｘに関する重複区間Ｏの長さをｌ_ｘとしたとき、指標値算出部３４は、評価値Ｉ_ｘを以下の式（２）で算出する。
Ｉ_ｘ＝ｌ_ｘ・ｈ／Ｈ（２）
式（２）を用いて評価値Ｉ_ｘを算出することにより、指標値算出部３４は、各発話区分の重要性をより精度よく評価することができる。

（発話音量又は加速度が最大となる時間のばらつき）
ある議論展開発話があったとき、発話内容が各参与者Ｐにただちに受け入れられる場合と、各参与者Ｐにおいて発話内容を理解するまでに時間差がある場合とでは、前者の方が後者よりも重要な議論展開発話であると本願の発明者は仮定した。シンプルかつ明快で、誰にでも容易に理解できる内容は、理解に時間がかかるものよりも重要であると考えられるからである。

発話内容が各参与者Ｐにただちに受け入れられた場合、各参与者Ｐは概ね同時に相槌発話を開始するため、相槌発話の音量が最大となる時刻も、概ね揃うと考えられる。すなわち、発話内容が各参与者Ｐにただちに受け入れられた場合は、そうでない場合と比較して、各参与者Ｐの発話音量が最大となる時刻のばらつきは小さいと考えられる。

また、発話内容が各参与者Ｐにただちに受け入れられた場合、各参与者Ｐは概ね同時に相槌発話に伴う身体動作を開始するため、身体動作の加速度が最大となる時刻も、概ね揃うと考えられる。すなわち、発話内容が各参与者Ｐにただちに受け入れられた場合は、そうでない場合と比較して、各参与者Ｐの身体動作の加速度が最大となる時刻のばらつきは小さいと考えられる。

そこで、ばらつき算出部３６は、発話Ｕを基準とする所定の時間範囲内において発話及び動作が重複した場合、各参与者Ｐの発話の音量が最大となる時刻のばらつきと各参与者Ｐの身体動作の加速度が最大となる時刻のばらつきとを取得する。

具体的には、ばらつき算出部３６中の第１ばらつき算出部３６ａは、重複区間Ｏの開始時から複数の参与者Ｐそれぞれの発話音量が最大となるまでの時間のばらつきを示す統計量である第１ばらつき指標を算出する。第１ばらつき算出部３６ａは、例えば、各発話音量が最大となるまでの時間の標準偏差や絶対偏差、分散等を、発話音量が最大となるまでの時間のばらつきを示す統計量とすればよい。

指標値算出部３４は、第１ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値Ｉ_ｘを出力する。

具体的には、第１ばらつき指標をＤ_ｓ、相槌発話における重要性推定基準値をＯ_０、発話音量に関する崩壊定数をλｏとしたとき、指標値算出部３４は、発話音量に関する重要性推定要因値Ｏｓを以下の式（３）で算出する。

同様に、ばらつき算出部３６中の第２ばらつき算出部３６ｂは、重複区間Ｏの開始時から複数の参与者Ｐそれぞれの加速度が最大となるまでの時間のばらつきを示す統計量である第２ばらつき指標を算出する。第２ばらつき算出部３６ｂは、例えば、各身体動作の加速度が最大となるまでの時間の標準偏差や絶対偏差、分散等を、加速度が最大となるまでの時間のばらつきを示す統計量とすればよい。

指標値算出部３４は、第２ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値Ｉ_ｘを出力する。

具体的には、第２ばらつき指標をＤ_ｔ加速度における重要性推定基準値をＰ_０、加速度に関する崩壊定数をλｐとしたとき、指標値算出部３４は、加速度に関する重要性推定要因値Ｐｔを以下の式（４）で算出する。

指標値算出部３４は、式（１）又は式（２）に、式（３）又は式（４）を任意に組み合わせることで、評価値Ｉｘを算出する。例えば、式（２）に式（３）及び式（４）を組み合わせる場合、指標値算出部３４は、以下の式（５）を用いて評価値Ｉ_ｘを算出する。

ここで、ａ、ｂ、及びｃは、重み係数であり正の実数である。ａ、ｂ、及びｃの値は実験により定めればよい。

このように、発話音量に関する重要性推定要因値Ｏｓ又は加速度に関する重要性推定要因値Ｐｔを用いて評価値Ｉ_ｘを算出することにより、指標値算出部３４は、各発話区分の重要性をより精度よく評価することができる。

（各参与者Ｐの動作の大きさ）
ある議論展開発話があったとき、それに対する応答で各参与者Ｐの動作が大きい場合と、各参与者Ｐの動作が小さい場合とでは、前者の方がより重要な議論展開発話であると本願の発明者は仮定した。斬新なアイデアや議論の盲点等、意外性のある議論に触れた参与者Ｐは、驚きとともに身体を大きく動かす蓋然性が高いと考えられるからである。

そこで、指標値算出部３４は、重複区間Ｏにおける各参与者Ｐの動作が大きい場合は、小さい場合よりも重要であることを示す評価値Ｉ_ｘを出力する。

具体的には、重複区間Ｏにおける聞き手であるｎ人の参与者Ｐの身体動作量をそれぞれＭ_１、・・・、Ｍ_ｎとしたとき、指標値算出部３４は、身体動作量に関する重要性推定要因値Ｍを以下の式（６）により算出する。

指標値算出部３４は、式（１）又は式（２）に、式（３）、式（４）、又は式（６）を任意に組み合わせることで、評価値Ｉ_ｘを算出する。例えば、式（２）に式（３）、式（４）、及び（６）を組み合わせる場合、指標値算出部３４は、以下の式（７）を用いて評価値Ｉｘを算出する。

ここで、ｄも重み係数であり正の実数である。ｄの値もａ、ｂ、及びｃと同様に実験により定めればよい。

このように、発話身体動作量に関する重要性推定要因値Ｍを用いて評価値Ｉ_ｘを算出することにより、指標値算出部３４は、各発話区分の重要性をより精度よく評価することができる。

（加速度最大時刻と発話量最大時刻との差）
上述したように、ある議論展開発話があったとき、発話内容が各参与者Ｐにただちに受け入れられる場合と、各参与者Ｐにおいて発話内容を理解するまでに時間差がある場合とでは、前者の方がより重要な議論展開発話であると本願の発明者は仮定した。発話内容が各参与者Ｐにただちに受け入れられた場合、各参与者Ｐは相槌発話をするとほぼ同時に身体を動かすと考えられる。反対に、発話内容の理解に時間を要する場合には、参与者Ｐは、例えば、沈黙したまま腕組みをして思考をめぐらし、発話内容を理解した時点で相槌発話を発する。このような場合、各参与者Ｐの相槌発話の開始時刻と身体動作の開始時刻とにずれが生じる。

そこで、差分取得部３７は、重複区間Ｏの開始時から各参与者Ｐの加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する。指標値算出部３４は、重複区間Ｏの開始時から各参与者Ｐの加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差が大きい場合は、小さい場合よりも重要であることを示す評価値Ｉ_ｘを出力する。

具体的には、重複区間Ｏにおける聞き手であるｎ人の参与者Ｐの身体動作の加速度が最大となる時刻と、発話音量が最大となる時刻との差をそれぞれｄ_１、・・・、ｄ_ｎとしたとき、指標値算出部３４は、差分に関する重要性推定要因値Ｄを以下の式（８）により算出する。

指標値算出部３４は、差分に関する重要性推定要因値Ｄを用いて評価値Ｉ_ｘを出力する場合には、式（５）及び式（７）と同様に、差分に関する重要性推定要因値Ｄに重み係数ｅを付して他の要素と組み合わせればよい。このように、加速度最大時と発話量最大時との差に関する重要性推定要因値Ｄを用いて評価値Ｉ_ｘを算出することにより、指標値算出部３４は、各発話区分の重要性をより精度よく評価することができる。

＜情報処理装置１が実行する情報処理方法の処理フロー＞
図４は、実施の形態に係る情報処理装置１が実行する情報処理の処理フローを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置１が起動したときに開始する。

音声データ取得部３０は、会話における発話者としての参与者Ｐ及び複数の聞き手としての参与者Ｐそれぞれの発話の音声データを取得する（Ｓ２）。動き取得部３１は、複数の参与者Ｐそれぞれの動きを取得する（Ｓ４）。

区分特定部３２は、音声データ取得部３０が取得した音声データを解析して、発話者の会話における発話区分を特定する（Ｓ６）。計測部３３は、区分特定部３２が特定した１以上の発話区分の中から１つの発話区分を選択する（Ｓ８）。計測部３３は、選択した発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した参与者Ｐの有無を検出する（Ｓ１０）。

参与者Ｐの発話及び動作が重複している場合（Ｓ１２のＹｅｓ）、指標値算出部３４は、計測部３３が選択した発話区分の重要性を示す評価値を算出する（Ｓ１４）。参与者Ｐの発話及び動作が重複していない場合は（Ｓ１２のＮｏ）、指標値算出部３４は評価値の算出をスキップする。

区分特定部３２が特定した全ての発話区分を処理するまでの間（Ｓ１６のＮｏ）、情報処理装置１はステップＳ８に戻ってステップＳ８からステップ１４に至るまでの処理を繰り返す。区分特定部３２が特定した全ての発話区分を処理し終えると、本フローチャートにおける処理は終了する。

図５は、実施の形態に係る情報処理装置１が実行する評価値算出処理の流れを説明するためのフローチャートであり、図４におけるステップＳ１４をより詳細に示す図である。

計測部３３は、発話Ｕｘに関する重複区間Ｏにおいて発話及び動作が重複している参与者Ｐの数ｈを取得する（Ｓ１４０）。指標値算出部３４は、重複区間Ｏの長さｌを取得する（Ｓ１４１）。

第１ばらつき算出部３６ａは、式（３）に基づいて、重複区間Ｏの開始時から複数の参与者Ｐそれぞれの発話音量が最大となるまでの時間のばらつきに関する重要性推定要因値Ｏｓを取得する（Ｓ１４２）。第２ばらつき算出部３６ｂは、式（４）に基づいて、重複区間Ｏの開始時から複数の参与者Ｐそれぞれの加速度が最大となるまでの時間のばらつきに関する重要性推定要因値Ｐｔを取得する（Ｓ１４３）。

指標値算出部３４は、式（６）に基づいて、身体動作量に関する重要性推定要因値Ｍを取得する（Ｓ１４４）。差分取得部３７は、重複区間Ｏの開始時から各参与者Ｐの加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する（Ｓ１４５）。指標値算出部３４は、式（８）に基づいて、加速度最大時と発話量最大時との差に関する重要性推定要因値Ｄを取得する（Ｓ１４６）。

最後に、指標値算出部３４は、数ｈ、長さｌ、発話音量に関する重要性推定要因値Ｏｓ、加速度に関する重要性推定要因値Ｐｔ、身体動作量に関する重要性推定要因値Ｍ、及び差に関する重要性推定要因値Ｄに基づいて、評価値Ｉ_ｘを算出する（Ｓ１４７）。

＜実施の形態に係る情報処理装置１が奏する効果＞
以上説明したように、実施の形態に係る情報処理装置１によれば、会議等の音声及び撮影データから会議の要部を推定することができる。特に、コミュニケーションにおける身体動作と相槌発話の同期パターンを用いることにより、複雑な言語処理や知識モデルに基づく処理を行うことなく、新規アイデアの創出や盲点の指摘といった、議論展開の契機となるイベントを推定・検索することができる。これにより、情報処理装置１は、会議等の重要場面を要約して検討することが可能となり、参与者Ｐや関係者による事後的な再検討に有用な情報を提供することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

＜変形例＞
上記では、情報処理装置１は評価値Ｉ_ｘの算出に際して参与者Ｐを全て同格に扱う場合について説明した。しかしながら、参与者Ｐ毎にその役割の重要性が異なる場合もあると考えられる。そのような場合は、情報処理装置１は、各参与者Ｐで重みを変えて評価値Ｉ_ｘを算出してもよい。また、情報処理装置１は、各参与者Ｐの発話時間や発話回数から、参与者Ｐ毎に重みを算出してもよい。さらに、図示しない視線検出装置等の出力情報や画像処理などから参与者Ｐの注視対象が観測し、注視を集めていた量から参与者Ｐ毎の重みを算出してもよい。

１・・・情報処理装置
２・・・記憶部
３・・・制御部
３０・・・音声データ取得部
３１・・・動き取得部
３２・・・区分特定部
３３・・・計測部
３４・・・指標値算出部
３５・・・要約部
３６・・・ばらつき算出部
３６ａ・・・第１ばらつき算出部
３６ｂ・・・第２ばらつき算出部
３７・・・差分取得部
Ｃ・・・カメラ
Ｓ・・・音声入力装置

Claims

会話における発話者及び複数の参与者それぞれの発話の音声データを取得する音声データ取得部と、
前記複数の参与者それぞれの動きを取得する動き取得部と、
前記音声データを解析して前記発話者の会話における発話区分を特定する区分特定部と、
前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する計測部と、
前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する指標値算出部と、
前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する要約部と、
を備える情報処理装置。
前記計測部は、前記時間範囲内における各参与者の発話及び動作の重複区間の長さをさらに取得し、
前記指標値算出部は、各参与者の発話及び動作の重複区間の長さが長い場合は、短い場合よりも重要であることを示す指標値を算出する、
請求項１に記載の情報処理装置。
前記重複区間の開始時から前記複数の参与者それぞれの発話音量が最大となるまでの時間のばらつきを示す統計量である第１ばらつき指標を算出する第１ばらつき算出部をさらに備え、
前記指標値算出部は、前記第１ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出する、
請求項２に記載の情報処理装置。
前記重複区間の開始時から前記複数の参与者それぞれの身体動作の加速度が最大となるまでの時間のばらつきを示す統計量である第２ばらつき指標を算出する第２ばらつき算出部をさらに備え、
前記指標値算出部は、前記第２ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出する、
請求項２又は３に記載の情報処理装置。
前記指標値算出部は、前記重複区間における各参与者の身体動作が大きい場合は、小さい場合よりも重要であることを示す評価値を算出する、
請求項２から４のいずれか一項に記載の情報処理装置。
前記重複区間の開始時から各参与者の身体動作の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する差分取得部をさらに備え、
前記指標値算出部は、前記重複区間の開始時から各参与者の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差が大きい場合は、小さい場合よりも重要であることを示す評価値を算出する、
請求項２から５のいずれか一項に記載の情報処理装置。
プロセッサが、
会話における発話者及び複数の参与者それぞれの発話の音声データを取得するステップと、
前記複数の参与者それぞれの動きを取得するステップと、
前記音声データを解析して前記発話者の会話における発話区分を特定するステップと、
前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得するステップと、
前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出するステップと、
前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録するステップと、
を実行する情報処理方法。
コンピュータに、
会話における発話者及び複数の参与者それぞれの発話の音声データを取得する機能と、
前記複数の参与者それぞれの動きを取得する機能と、
前記音声データを解析して前記発話者の会話における発話区分を特定する機能と、
前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する機能と、
前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する機能と、
前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する機能と、
を実現させるプログラム。