JP6762973B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP6762973B2
JP6762973B2 JP2018019066A JP2018019066A JP6762973B2 JP 6762973 B2 JP6762973 B2 JP 6762973B2 JP 2018019066 A JP2018019066 A JP 2018019066A JP 2018019066 A JP2018019066 A JP 2018019066A JP 6762973 B2 JP6762973 B2 JP 6762973B2
Authority
JP
Japan
Prior art keywords
utterance
voice data
information processing
participant
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018019066A
Other languages
English (en)
Other versions
JP2019138937A (ja
Inventor
一郎 馬田
一郎 馬田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018019066A priority Critical patent/JP6762973B2/ja
Publication of JP2019138937A publication Critical patent/JP2019138937A/ja
Application granted granted Critical
Publication of JP6762973B2 publication Critical patent/JP6762973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は情報処理装置、情報処理方法、及びプログラムに関し、特に、会議等のコミュニケーションの録音データから議論展開の契機を抽出する技術に関する。
従来、会議シーン等の音声及び撮影データを音声認識で処理し、話者と対応付けることによって会議の議事録を作成する技術が提案されている(例えば、特許文献1を参照)。
特開2015−55978号公報
上記のような技術を用いることにより、会議等の音声及び撮影データから議事録を作成することができる。しかしながら、会議等が長時間にわたるような場合には議事録も膨大となるため、事後的に議事録を確認して内容を把握するのに時間を要する場合がある。このため、会議の内容を迅速に確認するために、会議等のダイジェストをまとめる技術が望まれている。
本発明はこれらの点に鑑みてなされたものであり、会議等の音声及び撮影データから会議の要部を推定する提供することを目的とする。
本発明の第1の態様は、情報処理装置である。この装置は、会話における発話者及び複数の参与者それぞれの発話の音声データを取得する音声データ取得部と、前記複数の参与者それぞれの動きを取得する動き取得部と、前記音声データを解析して前記発話者の会話における発話区分を特定する区分特定部と、前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する計測部と、前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する指標値算出部と、前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する要約部と、を備える。
前記計測部は、前記時間範囲内における各参与者の発話及び動作の重複区間の長さをさらに取得してもよく、前記指標値算出部は、各参与者の発話及び動作の重複区間の長さが長い場合は、短い場合よりも重要であることを示す指標値を算出してもよい。
前記情報処理装置は、前記重複区間の開始時から前記複数の参与者それぞれの発話音量が最大となるまでの時間のばらつきを示す統計量である第1ばらつき指標を算出する第1ばらつき算出部をさらに備えてもよく、前記指標値算出部は、前記第1ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出してもよい。
前記情報処理装置は、前記重複区間の開始時から前記複数の参与者それぞれの身体動作の加速度が最大となるまでの時間のばらつきを示す統計量である第2ばらつき指標を算出する第2ばらつき算出部をさらに備えてもよく、前記指標値算出部は、前記第2ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出してもよい。
前記指標値算出部は、前記重複区間における各参与者の身体動作が大きい場合は、小さい場合よりも重要であることを示す評価値を算出してもよい。
前記情報処理装置は、前記重複区間の開始時から各参与者の身体動作の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する差分取得部をさらに備えてもよく、前記指標値算出部は、前記重複区間の開始時から各参与者の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差が大きい場合は、小さい場合よりも重要であることを示す評価値を算出してもよい。
本発明の第2の態様は、情報処理方法である。この方法において、プロセッサが、会話における発話者及び複数の参与者それぞれの発話の音声データを取得するステップと、前記複数の参与者それぞれの動きを取得するステップと、前記音声データを解析して前記発話者の会話における発話区分を特定するステップと、前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得するステップと、前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出するステップと、前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録するステップと、を実行する。
本発明の第3の態様は、プログラムである。このプログラムは、コンピュータに、会話における発話者及び複数の参与者それぞれの発話の音声データを取得する機能と、前記複数の参与者それぞれの動きを取得する機能と、前記音声データを解析して前記発話者の会話における発話区分を特定する機能と、前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する機能と、前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する機能と、前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する機能と、を実現させる。
本発明によれば、会議等の音声及び撮影データから会議の要部を推定することができる。
実施の形態の概要を説明するための図である。 実施の形態に係る情報処理装置の機能構成を模式的に示す図である。 参与者の発話及び動作の重複を説明するための図である。 実施の形態に係る情報処理装置が実行する情報処理の処理フローを説明するためのフローチャートである。 実施の形態に係る情報処理装置が実行する評価値算出処理の流れを説明するためのフローチャートである。
<実施の形態の概要>
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするコミュニケーションを記録した音声及び撮影データを解析することにより、議論展開の契機となった発話を検出する。ここで「議論展開」とは、発話者の発話内容を聞いた聞き手がその発話内容に納得し、新たな気づきが与えられ、発話内容に関連する新たな発話が聞き手から発せられることを意味する。
このため、実施の形態に係る情報処理装置は、話し手と聞き手との役割が明確となっている演説等ではなく、聞き手も話し手と同様に発言する機会が与えられている会議、典型的にはブレインストーミングのような会議を解析の対象のコミュニケーションとする。以下本明細書においては、話し手と聞き手とを特に区別する場合を除いて、コミュニケーションの参加者を「参与者」と記載する。参与者は、あるときは話し手となり、他の参与者が話し手となっているときは聞き手となる。
議論展開は、新規のアイデアの創出や、それまでの議論における盲点の指摘等、議論に新たな展開が生まれる重要イベントといえる。したがって、議論展開契機は、コミュニケーションの参与者や関係者にとって重大な関心対象である。しかしながら、参与者や、あるいはそもそもコミュニケーションに参与しなかった人が、議事録や録音データ等から、事後的に議論展開契機を検索しようとするのはしばしば困難である。また、このような検索を手作業で行うことは、単に時間と労力を必要とするだけでなく、場合によっては議論展開契機に気づかず見落としてしまう危険も懸念される。
図1は、実施の形態の概要を説明するための図であり、4人の参与者P(第1参与者P1、第2参与者P2、第3参与者P3、及び第4参与者P4)が参加している会議の様子を示している。図1に示す会議では第1参与者P1が主な話し手であるが、第2参与者P2、第3参与者P3、及び第4参与者P4も自由に発言することができる。
図1に示す例では、各参与者Pの動きを取得するために、可視光カメラ又は赤外カメラであるカメラCによって各参与者Pを被写体に含む画像データが生成されている。また、各参与者Pにはマイクロフォン等の音声入力装置Sが取り付けられており、各参与者Pの発話を音声データに変換することができる。このように、各参与者Pがそれぞれ音声入力装置Sを取り付けている場合には、音声データにおける話者分離が容易となる点で有利である。しかしながら、例えばマイクロフォンアレイ等の複数のマイクで音声データを取得し、既知の話者分離技術を用いて事後的に音声データと話し手との対応付けを行ってもよい。
本願の発明者は、様々な対話が記録された多人数インタラクションコーパスにおける発話や身体動作を分析した結果、新規のアイデアが創出された発話や盲点を指摘した発話の直後に、相槌音声と身体の動きが複数の聞き手の間でしばしば同期して発生していることを見出した。重要な議論展開の契機となるときは、発生と身体の動きとを同時に行う聞き手の数が多いことも見出した。
そこで、実施の形態に係る情報処理装置は、まず音声データを解析して、音声データを複数の発話区分に分解する。続いて、実施の形態に係る情報処理装置は、各発話区分を基準とする所定の時間範囲内において、発話と身体の動きとが重複している聞き手の数をカウントする。実施の形態に係る情報処理装置は、発話と身体の動きとが重複している聞き手の数が多い場合、その発話区分における発話が、議論展開の契機となった発話であると推定する。
議論展開の契機となる発話は、会議における要部といえる。実施の形態に係る情報処理装置は、議論展開の契機となった発話区分の末尾を含む所定範囲の音声データを、他の部分の音声データと区別がつくように処理する。例えば、実施の形態に係る情報処理装置は議論展開の契機となった発話区分の末尾を含む所定範囲の音声データを切り出して記憶部に格納したり、所定範囲の音声データに重要性を示すフラグ等のメタデータを付したりする。これにより、実施の形態に係る情報処理装置は、会議等の音声及び撮影データから会議の要部を推定することができる。
<情報処理装置1の機能構成>
図2は、実施の形態に係る情報処理装置1の機能構成を模式的に示す図である。情報処理装置1は、記憶部2と制御部3とを備える。
記憶部2は、情報処理装置1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)や情報処理装置1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
制御部3は、情報処理装置1のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサであり、記憶部2に記憶されたプログラムを実行することによって音声データ取得部30、動き取得部31、区分特定部32、計測部33、指標値算出部34、要約部35、ばらつき算出部36(第1ばらつき算出部36a及び第2ばらつき算出部36b)、及び差分取得部37として機能する。
なお、図2は、情報処理装置1が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置1は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、記憶部2を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。
音声データ取得部30は、会話における発話者となる参与者P、及び発話者以外の複数の参与者Pそれぞれの発話の音声データを取得する。音声データ取得部30は、例えば音声入力装置Sが生成した音声データを音声入力装置Sから直接取得する。なお、音声データ取得部30は、記憶部2に格納された音声データを記憶部2から読み出すことで取得してもよい。
動き取得部31は、聞き手となる複数の参与者Pそれぞれの動きを取得する。動き取得部31は、カメラCが生成した動画像データを取得し、例えば動画像データ中の人物像の範囲について連続ウェーブレット変換等の画像処理を行った後、画素の変化量を計算することによって動きを検出することで実現できる。各参与者Pが加速度センサを身に着けている場合には、動き取得部31は加速度センサの出力値に基づいて動きを取得してもよいし、既知のモーションキャプチャー技術を用いて動きを取得してもよい。
区分特定部32は、音声データを解析して、発話者の会話における発話区分を特定する。ここで「発話区分」とは、音声データ中でサイレンスが所定の期間以上継続する「静音期間」に挟まれた区分である。また、静音期間を決定するための「所定の期間」は、情報処理装置1の解析対象として想定される発話の内容等を考慮して実験により定めればよいが、例えば200ミリ秒から300ミリ秒である。
したがって、本明細書において「発話区分」の末尾は、必ずしも発話者の発話における文末とは限らない。例えば発話者が息継ぎをすること等によって発話中に所定の期間以上サイレンスが継続すれば発話区分が生じ、結果として文末でなくても発話区分の末尾となることも起こり得る。
計測部33は、発話区分を基準として定められた所定の時間範囲内における複数の参与者Pの発話及び動作が重複して発生した参与者Pの数を取得する。ここで「所定の時間範囲」とは、発話区分における話し手の発話に対する各参与者Pの応答を抽出するために計測部33が参照する時間的な基準範囲である。基準範囲の開始点及び長さは、情報処理装置1が解析対象とするコミュニケーションの種類や参与者Pの性格等を勘案して実験により定めればよいが、例えば、発話区分の開始時点の100ミリ秒後から終了時点の200ミリ秒後までの範囲である。
図3は、参与者Pの発話及び動作の重複を説明するための図である。図3において、軸Aは時間の流れを示している。また、黒塗りの矢印は各参与者Pの発話区分を示し、白抜きの矢印は各参与者Pの身体動作をしている区分を示している。図3は、第1参与者P1、第2参与者P2、及び第3参与者P3の発話及び身体動作を時系列的に示している。
図3に示す例では、第1参与者P1による発話u1が最も古いイベントである。発話u1の後、第2参与者P2が身体を動かし、その直後に第2参与者P2が発話をしている。図3において、第1参与者P1による発話u3の後、聞き手であった第2参与者P2は「なるほど」と発話するとともに(発話u4)、首を大きく縦に動かした(身体動作G22)。また、第3参与者P3は、「そうか!」と発話するとともに(発話u5)、両手を後頭部にあわせ、椅子の背もたれにもたれかかった(身体動作G23)。
第2参与者P2による発話u4と身体動作G22は、第1参与者P1による発話u3の直後において重複している。同様に、第3参与者P3による発話u5と身体動作G23は、第1参与者P1による発話u3の直後に置いて重複している。このような場合、計測部33は、第2参与者P2及び第3参与者P3を発話及び動作が重複して発生した参与者Pとみなし、その数を2とカウントする。なお、図3において符号Oで示す区間は、参与者Pの発話及び動作が重複して発生している重複区間Oである。また、発話u3は、議論展開の契機となった議論展開発話である。
図2の説明に戻る。指標値算出部34は、計測部33が取得した数に基づいて、基準範囲内において参与者Pの発話及び動作が重複して発生している発話区分の重要度を示す評価値を算出する。具体的には、指標値算出部34は、計測部33が取得した数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する。
さらに具体的には、発話Uxを基準とする所定の時間範囲内において発話及び動作が重複している聞き手の数をh、全ての聞き手の数をHとしたとき、指標値算出部34は、評価値Iを以下の式(1)で算出する。
=h/H (1)
式(1)は、全ての聞き手の数をHに対する発話及び動作が重複している聞き手の数の割合を示している。図3に示す例では、h=H=2である。したがって、I=1.0となる。
要約部35は、評価値が示す重要度が所定の値を超えた場合、発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する。議論展開発話の末尾の前後は、議論展開の契機となった発話及びそれに対する参与者Pの発話が含まれており、新規のアイデアの創出や、それまでの議論における盲点の指摘等、議論に新たな展開が生まれている蓋然性が高い範囲である。要約部35が話区分の末尾を含む所定の範囲の音声データを記録することにより、参与者P又はコミュニケーションに参与しなかった者が、事後的にコミュニケーションにおける要部を確認することができる。
したがって、「所定の閾値」は、要約部35が解析対象の発話区分を議論展開発話として記録するか否かを判定するために参照する「展開発話判定基準閾値」である。この値は、評価値Iを算出するための式の形を勘案して実験により定めればよい。なお、式(1)以外の評価値Iを算出するための式のバリエーションは後述する。
「所定の範囲」は、要約部35がコミュニケーションの要部として特定するために参照する「要部特定基準範囲」である。この値も実験により定めればよいが、例えば、発話区分の開始時点の10秒前から終了時点の20秒後までの範囲である。また、要約部35は、要部として記録する音声データの長さを、評価値Iの値に応じて変更してもよい。具体的には、要約部35は、評価値Iが大きい場合は、小さい場合よりも記録する範囲を大きくしてもよい。これにより、参与者P又はコミュニケーションに参与しなかった者は、重要な議論展開発話については、より長い時間要部周辺の発話を確認することができる。
[評価値Iのバリエーション]
以下、評価値Iの算出方法のバリエーションを説明する。
(重複区間の長さ)
重要な議論展開発話があったときは、各参与者Pの相槌発話及び身体動作が長時間継続すると考えられる。そこで、計測部33は、時間範囲内における各参与者Pの発話及び動作の重複区間Oの長さをさらに取得する。指標値算出部34は、各参与者Pの発話及び動作の重複区間Oの長さが長い場合は、短い場合よりも重要であることを示す指標値を出力する。
具体的には、発話Uxに関する重複区間Oの長さをlとしたとき、指標値算出部34は、評価値Iを以下の式(2)で算出する。
=l・h/H (2)
式(2)を用いて評価値Iを算出することにより、指標値算出部34は、各発話区分の重要性をより精度よく評価することができる。
(発話音量又は加速度が最大となる時間のばらつき)
ある議論展開発話があったとき、発話内容が各参与者Pにただちに受け入れられる場合と、各参与者Pにおいて発話内容を理解するまでに時間差がある場合とでは、前者の方が後者よりも重要な議論展開発話であると本願の発明者は仮定した。シンプルかつ明快で、誰にでも容易に理解できる内容は、理解に時間がかかるものよりも重要であると考えられるからである。
発話内容が各参与者Pにただちに受け入れられた場合、各参与者Pは概ね同時に相槌発話を開始するため、相槌発話の音量が最大となる時刻も、概ね揃うと考えられる。すなわち、発話内容が各参与者Pにただちに受け入れられた場合は、そうでない場合と比較して、各参与者Pの発話音量が最大となる時刻のばらつきは小さいと考えられる。
また、発話内容が各参与者Pにただちに受け入れられた場合、各参与者Pは概ね同時に相槌発話に伴う身体動作を開始するため、身体動作の加速度が最大となる時刻も、概ね揃うと考えられる。すなわち、発話内容が各参与者Pにただちに受け入れられた場合は、そうでない場合と比較して、各参与者Pの身体動作の加速度が最大となる時刻のばらつきは小さいと考えられる。
そこで、ばらつき算出部36は、発話Uを基準とする所定の時間範囲内において発話及び動作が重複した場合、各参与者Pの発話の音量が最大となる時刻のばらつきと各参与者Pの身体動作の加速度が最大となる時刻のばらつきとを取得する。
具体的には、ばらつき算出部36中の第1ばらつき算出部36aは、重複区間Oの開始時から複数の参与者Pそれぞれの発話音量が最大となるまでの時間のばらつきを示す統計量である第1ばらつき指標を算出する。第1ばらつき算出部36aは、例えば、各発話音量が最大となるまでの時間の標準偏差や絶対偏差、分散等を、発話音量が最大となるまでの時間のばらつきを示す統計量とすればよい。
指標値算出部34は、第1ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値Iを出力する。
具体的には、第1ばらつき指標をD、相槌発話における重要性推定基準値をO、発話音量に関する崩壊定数をλoとしたとき、指標値算出部34は、発話音量に関する重要性推定要因値Osを以下の式(3)で算出する。
Figure 0006762973
同様に、ばらつき算出部36中の第2ばらつき算出部36bは、重複区間Oの開始時から複数の参与者Pそれぞれの加速度が最大となるまでの時間のばらつきを示す統計量である第2ばらつき指標を算出する。第2ばらつき算出部36bは、例えば、各身体動作の加速度が最大となるまでの時間の標準偏差や絶対偏差、分散等を、加速度が最大となるまでの時間のばらつきを示す統計量とすればよい。
指標値算出部34は、第2ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値Iを出力する。
具体的には、第2ばらつき指標をD加速度における重要性推定基準値をP、加速度に関する崩壊定数をλpとしたとき、指標値算出部34は、加速度に関する重要性推定要因値Ptを以下の式(4)で算出する。
Figure 0006762973
指標値算出部34は、式(1)又は式(2)に、式(3)又は式(4)を任意に組み合わせることで、評価値Ixを算出する。例えば、式(2)に式(3)及び式(4)を組み合わせる場合、指標値算出部34は、以下の式(5)を用いて評価値Iを算出する。
Figure 0006762973
ここで、a、b、及びcは、重み係数であり正の実数である。a、b、及びcの値は実験により定めればよい。
このように、発話音量に関する重要性推定要因値Os又は加速度に関する重要性推定要因値Ptを用いて評価値Iを算出することにより、指標値算出部34は、各発話区分の重要性をより精度よく評価することができる。
(各参与者Pの動作の大きさ)
ある議論展開発話があったとき、それに対する応答で各参与者Pの動作が大きい場合と、各参与者Pの動作が小さい場合とでは、前者の方がより重要な議論展開発話であると本願の発明者は仮定した。斬新なアイデアや議論の盲点等、意外性のある議論に触れた参与者Pは、驚きとともに身体を大きく動かす蓋然性が高いと考えられるからである。
そこで、指標値算出部34は、重複区間Oにおける各参与者Pの動作が大きい場合は、小さい場合よりも重要であることを示す評価値Iを出力する。
具体的には、重複区間Oにおける聞き手であるn人の参与者Pの身体動作量をそれぞれM、・・・、Mとしたとき、指標値算出部34は、身体動作量に関する重要性推定要因値Mを以下の式(6)により算出する。
Figure 0006762973
指標値算出部34は、式(1)又は式(2)に、式(3)、式(4)、又は式(6)を任意に組み合わせることで、評価値Iを算出する。例えば、式(2)に式(3)、式(4)、及び(6)を組み合わせる場合、指標値算出部34は、以下の式(7)を用いて評価値Ixを算出する。
Figure 0006762973
ここで、dも重み係数であり正の実数である。dの値もa、b、及びcと同様に実験により定めればよい。
このように、発話身体動作量に関する重要性推定要因値Mを用いて評価値Iを算出することにより、指標値算出部34は、各発話区分の重要性をより精度よく評価することができる。
(加速度最大時刻と発話量最大時刻との差)
上述したように、ある議論展開発話があったとき、発話内容が各参与者Pにただちに受け入れられる場合と、各参与者Pにおいて発話内容を理解するまでに時間差がある場合とでは、前者の方がより重要な議論展開発話であると本願の発明者は仮定した。発話内容が各参与者Pにただちに受け入れられた場合、各参与者Pは相槌発話をするとほぼ同時に身体を動かすと考えられる。反対に、発話内容の理解に時間を要する場合には、参与者Pは、例えば、沈黙したまま腕組みをして思考をめぐらし、発話内容を理解した時点で相槌発話を発する。このような場合、各参与者Pの相槌発話の開始時刻と身体動作の開始時刻とにずれが生じる。
そこで、差分取得部37は、重複区間Oの開始時から各参与者Pの加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する。指標値算出部34は、重複区間Oの開始時から各参与者Pの加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差が大きい場合は、小さい場合よりも重要であることを示す評価値Iを出力する。
具体的には、重複区間Oにおける聞き手であるn人の参与者Pの身体動作の加速度が最大となる時刻と、発話音量が最大となる時刻との差をそれぞれd、・・・、dとしたとき、指標値算出部34は、差分に関する重要性推定要因値Dを以下の式(8)により算出する。
Figure 0006762973
指標値算出部34は、差分に関する重要性推定要因値Dを用いて評価値Iを出力する場合には、式(5)及び式(7)と同様に、差分に関する重要性推定要因値Dに重み係数eを付して他の要素と組み合わせればよい。このように、加速度最大時と発話量最大時との差に関する重要性推定要因値Dを用いて評価値Iを算出することにより、指標値算出部34は、各発話区分の重要性をより精度よく評価することができる。
<情報処理装置1が実行する情報処理方法の処理フロー>
図4は、実施の形態に係る情報処理装置1が実行する情報処理の処理フローを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置1が起動したときに開始する。
音声データ取得部30は、会話における発話者としての参与者P及び複数の聞き手としての参与者Pそれぞれの発話の音声データを取得する(S2)。動き取得部31は、複数の参与者Pそれぞれの動きを取得する(S4)。
区分特定部32は、音声データ取得部30が取得した音声データを解析して、発話者の会話における発話区分を特定する(S6)。計測部33は、区分特定部32が特定した1以上の発話区分の中から1つの発話区分を選択する(S8)。計測部33は、選択した発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した参与者Pの有無を検出する(S10)。
参与者Pの発話及び動作が重複している場合(S12のYes)、指標値算出部34は、計測部33が選択した発話区分の重要性を示す評価値を算出する(S14)。参与者Pの発話及び動作が重複していない場合は(S12のNo)、指標値算出部34は評価値の算出をスキップする。
区分特定部32が特定した全ての発話区分を処理するまでの間(S16のNo)、情報処理装置1はステップS8に戻ってステップS8からステップ14に至るまでの処理を繰り返す。区分特定部32が特定した全ての発話区分を処理し終えると、本フローチャートにおける処理は終了する。
図5は、実施の形態に係る情報処理装置1が実行する評価値算出処理の流れを説明するためのフローチャートであり、図4におけるステップS14をより詳細に示す図である。
計測部33は、発話Uxに関する重複区間Oにおいて発話及び動作が重複している参与者Pの数hを取得する(S140)。指標値算出部34は、重複区間Oの長さlを取得する(S141)。
第1ばらつき算出部36aは、式(3)に基づいて、重複区間Oの開始時から複数の参与者Pそれぞれの発話音量が最大となるまでの時間のばらつきに関する重要性推定要因値Osを取得する(S142)。第2ばらつき算出部36bは、式(4)に基づいて、重複区間Oの開始時から複数の参与者Pそれぞれの加速度が最大となるまでの時間のばらつきに関する重要性推定要因値Ptを取得する(S143)。
指標値算出部34は、式(6)に基づいて、身体動作量に関する重要性推定要因値Mを取得する(S144)。差分取得部37は、重複区間Oの開始時から各参与者Pの加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する(S145)。指標値算出部34は、式(8)に基づいて、加速度最大時と発話量最大時との差に関する重要性推定要因値Dを取得する(S146)。
最後に、指標値算出部34は、数h、長さl、発話音量に関する重要性推定要因値Os、加速度に関する重要性推定要因値Pt、身体動作量に関する重要性推定要因値M、及び差に関する重要性推定要因値Dに基づいて、評価値Iを算出する(S147)。
<実施の形態に係る情報処理装置1が奏する効果>
以上説明したように、実施の形態に係る情報処理装置1によれば、会議等の音声及び撮影データから会議の要部を推定することができる。特に、コミュニケーションにおける身体動作と相槌発話の同期パターンを用いることにより、複雑な言語処理や知識モデルに基づく処理を行うことなく、新規アイデアの創出や盲点の指摘といった、議論展開の契機となるイベントを推定・検索することができる。これにより、情報処理装置1は、会議等の重要場面を要約して検討することが可能となり、参与者Pや関係者による事後的な再検討に有用な情報を提供することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
<変形例>
上記では、情報処理装置1は評価値Iの算出に際して参与者Pを全て同格に扱う場合について説明した。しかしながら、参与者P毎にその役割の重要性が異なる場合もあると考えられる。そのような場合は、情報処理装置1は、各参与者Pで重みを変えて評価値Iを算出してもよい。また、情報処理装置1は、各参与者Pの発話時間や発話回数から、参与者P毎に重みを算出してもよい。さらに、図示しない視線検出装置等の出力情報や画像処理などから参与者Pの注視対象が観測し、注視を集めていた量から参与者P毎の重みを算出してもよい。
1・・・情報処理装置
2・・・記憶部
3・・・制御部
30・・・音声データ取得部
31・・・動き取得部
32・・・区分特定部
33・・・計測部
34・・・指標値算出部
35・・・要約部
36・・・ばらつき算出部
36a・・・第1ばらつき算出部
36b・・・第2ばらつき算出部
37・・・差分取得部
C・・・カメラ
S・・・音声入力装置

Claims (8)

  1. 会話における発話者及び複数の参与者それぞれの発話の音声データを取得する音声データ取得部と、
    前記複数の参与者それぞれの動きを取得する動き取得部と、
    前記音声データを解析して前記発話者の会話における発話区分を特定する区分特定部と、
    前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する計測部と、
    前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する指標値算出部と、
    前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する要約部と、
    を備える情報処理装置。
  2. 前記計測部は、前記時間範囲内における各参与者の発話及び動作の重複区間の長さをさらに取得し、
    前記指標値算出部は、各参与者の発話及び動作の重複区間の長さが長い場合は、短い場合よりも重要であることを示す指標値を算出する、
    請求項1に記載の情報処理装置。
  3. 前記重複区間の開始時から前記複数の参与者それぞれの発話音量が最大となるまでの時間のばらつきを示す統計量である第1ばらつき指標を算出する第1ばらつき算出部をさらに備え、
    前記指標値算出部は、前記第1ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出する、
    請求項2に記載の情報処理装置。
  4. 前記重複区間の開始時から前記複数の参与者それぞれの身体動作の加速度が最大となるまでの時間のばらつきを示す統計量である第2ばらつき指標を算出する第2ばらつき算出部をさらに備え、
    前記指標値算出部は、前記第2ばらつき指標が示すばらつきが小さい場合は、大きい場合よりも重要であることを示す評価値を算出する、
    請求項2又は3に記載の情報処理装置。
  5. 前記指標値算出部は、前記重複区間における各参与者の身体動作が大きい場合は、小さい場合よりも重要であることを示す評価値を算出する、
    請求項2から4のいずれか一項に記載の情報処理装置。
  6. 前記重複区間の開始時から各参与者の身体動作の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差を取得する差分取得部をさらに備え、
    前記指標値算出部は、前記重複区間の開始時から各参与者の加速度が最大となるまでの時間と発話音量が最大となるまでの時間との差が大きい場合は、小さい場合よりも重要であることを示す評価値を算出する、
    請求項2から5のいずれか一項に記載の情報処理装置。
  7. プロセッサが、
    会話における発話者及び複数の参与者それぞれの発話の音声データを取得するステップと、
    前記複数の参与者それぞれの動きを取得するステップと、
    前記音声データを解析して前記発話者の会話における発話区分を特定するステップと、
    前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得するステップと、
    前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出するステップと、
    前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録するステップと、
    を実行する情報処理方法。
  8. コンピュータに、
    会話における発話者及び複数の参与者それぞれの発話の音声データを取得する機能と、
    前記複数の参与者それぞれの動きを取得する機能と、
    前記音声データを解析して前記発話者の会話における発話区分を特定する機能と、
    前記発話区分を基準として定められた所定の時間範囲内において発話及び動作が重複して発生した前記参与者の数を取得する機能と、
    前記数が多い場合は、少ない場合よりも重要であることを示す評価値を算出する機能と、
    前記評価値が示す重要度が所定の値を超えた場合、前記発話区分の末尾を含む所定の範囲の音声データを、他の範囲の音声データと区別して記録する機能と、
    を実現させるプログラム。

JP2018019066A 2018-02-06 2018-02-06 情報処理装置、情報処理方法、及びプログラム Active JP6762973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018019066A JP6762973B2 (ja) 2018-02-06 2018-02-06 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018019066A JP6762973B2 (ja) 2018-02-06 2018-02-06 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019138937A JP2019138937A (ja) 2019-08-22
JP6762973B2 true JP6762973B2 (ja) 2020-09-30

Family

ID=67693757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018019066A Active JP6762973B2 (ja) 2018-02-06 2018-02-06 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6762973B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5433760B2 (ja) * 2012-10-18 2014-03-05 株式会社日立製作所 会議分析システム
WO2016157642A1 (ja) * 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2019138937A (ja) 2019-08-22

Similar Documents

Publication Publication Date Title
US11455985B2 (en) Information processing apparatus
WO2020006935A1 (zh) 动物声纹特征提取方法、装置及计算机可读存储介质
JP5602653B2 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP6923827B2 (ja) コミュニケーションスキル評価システム、装置、方法、及びプログラム
JP2010256391A (ja) 音声情報処理装置
JP6891601B2 (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
CN111080109A (zh) 客服服务质量评价方法、装置及电子设备
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
WO2019119279A1 (en) Method and apparatus for emotion recognition from speech
JP2018169506A (ja) 会話満足度推定装置、音声処理装置および会話満足度推定方法
Ishii et al. Multimodal fusion using respiration and gaze for predicting next speaker in multi-party meetings
US20190008466A1 (en) Life log utilization system, life log utilization method, and recording medium
CN104135638A (zh) 优化的视频快照
US20230095526A1 (en) Target speaker mode
Ronzhin et al. Speaker turn detection based on multimodal situation analysis
Pathak et al. Recognizing emotions from speech
Ahmed et al. Real time distant speech emotion recognition in indoor environments
JP4775961B2 (ja) 映像を用いた発音の推定方法
JP6762973B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112567455B (zh) 使用深度信息净化声音的方法和***以及计算机可读介质
Abel et al. A data driven approach to audiovisual speech mapping
Abel et al. Cognitively inspired audiovisual speech filtering: towards an intelligent, fuzzy based, multimodal, two-stage speech enhancement system
JP6997733B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Xu et al. MFFCN: multi-layer feature fusion convolution network for audio-visual speech enhancement
Jothimani et al. A new spatio-temporal neural architecture with Bi-LSTM for multimodal emotion recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200909

R150 Certificate of patent or registration of utility model

Ref document number: 6762973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150