JP7000547B1

JP7000547B1 - プログラム、方法、情報処理装置、システム

Info

Publication number: JP7000547B1
Application number: JP2020212000A
Authority: JP
Inventors: 俊二菅谷
Original assignee: Optim Corp
Current assignee: Optim Corp
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-01-19
Anticipated expiration: 2040-12-22
Also published as: JP2022098561A; JP2022099335A

Abstract

【課題】音声認識処理の利便性を向上させる。【解決手段】プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、プログラムは、プロセッサに、集音装置により集音された音を取得するステップと、取得した音から、少なくとも１つの音声を抽出するステップと、抽出した音声を解析することで、テキスト情報に変換するステップと、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップと、変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、を実行させるプログラム【選択図】図４

Description

本開示は、プログラム、方法、情報処理装置、システムに関する。

声の波形の特徴で、発話者を区別する技術が知られている。例えば、特許文献１では、音声情報を含む生体情報を用い、ユーザを認証することが記載されている。

特開２０１５－０６１０８６号公報

しかしながら、従来のシステムでは、音声情報を予め登録していないと話者を判別することができない。このため、音声認識処理によりテキスト情報を生成しても、音声情報が予め登録されていない場合には、発声者が判別できず、音声認識処理の利便性が損なわれることがある。

本開示の目的は、音声認識処理の利便性を向上させることである。

一実施形態によると、プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、プログラムは、プロセッサに、集音装置により集音された音を取得するステップと、取得した音から、少なくとも１つの音声を抽出するステップと、抽出した音声を解析することで、テキスト情報に変換するステップと、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップと、変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、を実行させるプログラムが提供される。

本開示によれば、音声認識処理の利便性を向上させることができる。

システム１の全体構成を示す図である。サーバ２０の機能的な構成を示す図である。サーバ２０が記憶するテキスト情報データベース２０２１、音声情報データベース２０２２のデータ構造を示す図である。システム１を構成する機器などの概要を示す図である。サーバ２０が、音データに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。執刀医と助手との会話に基づいて生成されたテキストデータの表示例を示す図である。講演者と視聴者との会話に基づいて生成されたテキストデータの表示例を示す図である。管理者と作業員との会話に基づいて生成されたテキストデータの表示例を示す図である。第２の実施形態における、システム１Ａの全体構成を示す図である。第２の実施形態における、サーバ２０Ａの機能的な構成を示す図である。第２の実施形態における、サーバ２０Ａが記憶する画像情報データベース２０２３のデータ構造を示す図である。第２の実施形態における、システム１Ａを構成する機器などの概要を示す図である。サーバ２０Ａの制御部２０３Ａが音データと画像データとに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

＜第１の実施形態＞
＜概要＞
以下の実施形態では、発声者の役割を推定し、発声者の発声内容と、推定した役割とをテキストデータとして記憶するシステム１について説明する。

システム１は、集音装置により周囲の音を集音する。システム１は、集音した音に基づく音データから、少なくとも１つ以上の音声を抽出する。システム１は、抽出した音声の発声内容をテキスト情報に変換する。システム１は、テキスト情報に基づいて発声者の役割を推定する。システム１は、テキスト情報に、推定した役割を加えたテキストデータを記憶し、ユーザからの要求に応じて提示する。

システム１は、例えば、病院などの医療施設等に設置され得る。具体的には、例えば、集音装置が手術室に設置され、システム１は、執刀医及び助手などの手術中の会話をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。また、例えば、集音装置が病室に設置され、主治医及び看護師などの会話をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。なお、執刀医及び主治医は、主として医療行為を実施する担当者の一例であり、助手及び看護師は、補助する担当者の一例である。これにより、術中及び日常の会話をテキスト情報及び役割を含むテキストデータとして記憶しておくことが可能となる。

また、システム１は、例えば、セミナー、記者会見などの場にも設置され得る。具体的には、例えば、集音装置が会場に設置され、システム１は、講演者と視聴者との質疑応答をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。これにより、議事録の作成の手間が軽減する。また、質問内容を容易に見返すことが可能となる。なお、講演者は、主となる話者の例示であり、主となる話者は、会合を進行を司る役を担う者、例えば、司会者等であってもよい。

また、システム１は、例えば、作業現場などに設置され得る。具体的には、例えば、集音装置が現場に設置され、システム１は、管理者から作業員への指示の内容、作業員から管理者への報告の内容などをテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。なお、管理者は、指示者と換言しても構わない。また、作業員は、管理者により管理される被管理者の一例である。これにより、トラブル発生時の、管理者から作業員への指示漏れの有無等を確認することが可能となる。

＜１システム全体の構成図＞
図１は、システム１の全体の構成を示す図である。

図１に示すように、システム１は、サーバ２０と、エッジサーバ３０と、集音装置４０とを含む。サーバ２０とエッジサーバ３０とは、ネットワーク８０を介して通信接続する。エッジサーバ３０は、集音装置４０と接続されている。例えば、集音装置４０は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置である。具体的には、集音装置４０は、例えば、Bluetooth（登録商標）モジュールなど２．４ＧＨｚ帯を使用して、Bluetooth（登録商標）モジュールを搭載した他の情報機器からのビーコン信号を受信する。エッジサーバ３０は、当該近距離通信を利用したビーコン信号に基づき、集音装置４０から送信される情報を取得する。このように、集音装置４０は、取得した発声者の音声の情報を、ネットワーク８０を介さず、近距離通信によりエッジサーバ３０へ送信する。なお、エッジサーバ３０は、ネットワーク８０を介して集音装置４０と通信接続してもよい。

サーバ２０は、音に関する情報を管理する。音に関する情報は、例えば、音データ、音から抽出された音声に基づいて生成されるテキストデータ等を含む。図１に示すサーバ２０は、通信ＩＦ２２、入出力ＩＦ２３、メモリ２５、ストレージ２６、及びプロセッサ２９を有する。

通信ＩＦ２２は、サーバ２０が外部の装置と通信するため、信号を入出力するためのインタフェースである。入出力ＩＦ２３は、ユーザからの入力操作を受け付けるための入力装置とのインタフェース、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。メモリ２５は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。ストレージ２６は、データを保存するための記憶装置であり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）である。プロセッサ２９は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。

本実施形態において、システム１がサーバ２０を有する場合を例に説明しているが、システム１を複数のサーバの集合体として形成してもよい。１つ又は複数のハードウェアに対して本実施形態に係るシステム１を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び／又はシステム１に求められる仕様等に鑑みて適宜決定することができる。

エッジサーバ３０は、集音装置４０から送信される信号を受信し、受信した信号を、サーバ２０に送信する。また、エッジサーバ３０は、サーバ２０から取得した信号を集音装置４０へ送信する。サーバ２０から取得する信号には、例えば、集音装置４０の設定を更新するための情報などが含まれる。図１では、エッジサーバ３０が１台である場合を例に示しているが、システム１に収容されるエッジサーバは、複数台あっても構わない。

集音装置４０は、周囲の音を集音し、例えば、デジタル形式の音データに変換する。集音装置４０は、音データに基づく音信号をエッジサーバ３０へ送信する。集音装置４０は、例えば、マイクにより実現される。マイクは、例えば、指向性マイク、又は無指向性マイクである。指向性マイクの指向性は、単一指向性であっても、双指向性であっても構わない。集音装置４０は、例えば、音を効率的に集音可能な位置に設置される。図１では、集音装置４０が１台である場合を例に示しているが、システム１に収容される集音装置４０は、複数台あっても構わない。

＜１．１サーバ２０の構成＞
図２は、サーバ２０の機能的な構成を示す図である。図２に示すように、サーバ２０は、通信部２０１と、記憶部２０２と、制御部２０３としての機能を発揮する。

通信部２０１は、サーバ２０が、外部の装置と通信するための処理を行う。

記憶部２０２は、サーバ２０が使用するデータ及びプログラムを記憶する。記憶部２０２は、テキスト情報データベース２０２１と、音声情報データベース２０２２等とを記憶する。

テキスト情報データベース２０２１は、集音装置４０で集音された音に基づいて生成されるテキストデータを記憶する。詳細は後述する。

音声情報データベース２０２２は、サーバ２０が集音装置４０で集音された音に基づく音データを記憶する。詳細は後述する。

制御部２０３は、サーバ２０のプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。

受信制御モジュール２０３１は、サーバ２０が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。例えば、受信制御モジュール２０３１は、通信部２０１を制御し、集音装置４０からエッジサーバ３０を介して送信される音信号を受信する。

送信制御モジュール２０３２は、サーバ２０が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。

取得モジュール２０３３は、受信した音信号から音データを取得する。取得モジュール２０３３は、取得した音データを音声情報データベース２０２２に記憶する。取得モジュール２０３３は、例えば、所定の要件を満たすと、取得した音データを音声情報データベース２０２２に記憶する。所定の要件は、例えば、以下である。
・録音開始指示が入力されてから録音終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生（例えば、音が発生すると録音を開始し、音が予め設定された期間発生しないと録音を停止する）

音声解析モジュール２０３４は、取得された音データを解析する。音声解析モジュール２０３４は、例えば、所定の要件を満たすと、音データを解析する。所定の要件は、例えば、以下である。
・録音（解析）開始指示が入力されてから録音（解析）終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生（例えば、音が発生すると解析を開始し、音が予め設定された期間発生しないと解析を停止する）

音声解析モジュール２０３４は、取得された音データから所定の音声を抽出する。具体的には、音声解析モジュール２０３４は、例えば、下記のいずれかの情報に基づいて音データから所定の音声を抽出する。
・声の特徴
・音が集音された方向
・音が集音されたタイミング
・音を集音した集音装置

より具体的には、例えば、音声解析モジュール２０３４は、音データに含まれる声の特徴、例えば、声の大きさ、音高（周波数）、有声、無声、音素の種類、及びフォルマント等から成る群から選択される少なくとも１つを分析する。音声解析モジュール２０３４は、分析結果に基づいて同一の者が発生したと推定される音声を、音データから抽出する。

また、例えば、集音装置４０が指向性を有している場合、音声解析モジュール２０３４は、集音装置４０の指向性の情報に基づき、指向している方向から到来した音声を、音データから抽出する。

また、例えば、発話するタイミングが予め分かっている場合、音声解析モジュール２０３４は、集音装置４０が音を集音した時間に基づき、音データに含まれる音声を抽出する。例えば、音声解析モジュール２０３４は、講演等の発声に係るスケジュールを参照し、該当する時刻に達してから最初に発声した音声を、音データから抽出する。

また、例えば、集音装置４０が複数利用されている場合、音声解析モジュール２０３４は、集音装置４０毎に集音された音声を、音データから抽出する。

音声解析モジュール２０３４は、上記の抽出方法について、単独で発声者の音声を抽出してもよいし、複数の手法を組み合わせて発声者の音声を抽出してもよい。

また、音声解析モジュール２０３４は、抽出した音声に対して音声認識処理を実行することで発声内容をテキスト情報に変換する。音声認識の手法は既存のいかなる手法を用いてもよい。変換されたテキスト情報は、テキスト情報データベース２０２１に記憶される。

推定モジュール２０３５は、テキスト情報に基づき、発声者の役割を推定する。例えば、推定モジュール２０３５は、サーバ２０の記憶部２０２に記憶されている学習済みモデルに、テキスト情報を入力することで、発声者の役割を推定する。

学習済みモデルは、例えば、学習用データに基づき、モデル学習プログラムに従って機械学習モデルに機械学習を行わせることで生成される。本実施形態において、学習済みモデルは、例えば、テキスト情報データベース２０２１に記憶されている発言に対し、役割を出力するように学習されている。このとき、学習用データは、例えば、所定の発言についての文字情報を入力データとし、その発言をする者の役割を正解出力データとする。例えば、手術をリードする発言についての文字情報を入力データとし、手術をリードする発言をする者の役割である執刀医を正解出力データとする。また、手術を補助する発言についての文字情報を入力データとし、手術を補助する発言をする者の役割である助手を正解出力データとする。このように学習された学習済みモデルは、テキスト情報が入力されると、発声者の役割、例えば、執刀医、助手、主治医、看護師、講演者、視聴者、管理者、作業員等を出力する。

推定モジュール２０３５は、音データから抽出した音声が複数ある場合、音声の内容が変換されたテキスト情報から、音声毎に役割を推定する。推定モジュール２０３５は、推定した役割を、テキスト情報と共にテキスト情報データベース２０２１に記憶させる。

推定モジュール２０３５は、役割を一度推定した後は、同一の音声と推定可能な音声に対しては、同一の役割を付し、改めて役割を推定する処理を実行しなくてもよい。

推定モジュール２０３５は、所定のタイミングで役割の推定をやりなおしてもよい。所定のタイミングは、例えば、以下である。
・予め設定した時間の経過
・録音の切り替わり
・新たな人物の登場

提示モジュール２０３６は、ユーザからの要求に応じ、テキスト情報データベース２０２１に記憶されているテキストデータをユーザに提示する。

＜２データ構造＞
図３は、サーバ２０が記憶するテキスト情報データベース２０２１、音声情報データベース２０２２のデータ構造を示す図である。

図３に示すように、テキスト情報データベース２０２１は、項目「日時」と、項目「テキストＩＤ」と、項目「音声ＩＤ」と、項目「データ」等を含む。

項目「日時」は、テキストデータの元となった音を集音した日時を示す情報である。

項目「テキストＩＤ」は、テキストデータを識別する情報を示す。

項目「音声ＩＤ」は、テキストデータの元となった音データを識別する情報を示す。例えば、テキストＩＤ「Ｔ００１」は、音声ＩＤ「Ｖ００１」に基づいて生成されたことを示す。

項目「データ」は、テキストデータを記憶している。項目「データ」で記憶されるテキストデータには、音声の内容が変換されたテキスト情報、テキスト情報から推定された役割が含まれている。

図３に示すように、音声情報データベース２０２２は、項目「日時」と、項目「音声ＩＤ」と、項目「データ」等を含む。

項目「日時」は、音を集音した日時を示す情報である。

項目「音声ＩＤ」は、取得した音データを識別する情報を示す。

項目「データ」は、音データを記憶している。項目「データ」で記憶される音データは、例えば、ｗａｖ等のデータ形式で記憶されている。

＜３小括＞
図４は、システム１の概要を示す図である。図４に示す例では、音声を取得する対象である人物Ａおよび人物Ｂの周囲に、集音装置４０が設置される。

集音装置４０は、集音装置４０の周囲の音を取得する。集音装置４０は、取得した音についての音信号をエッジサーバ３０に送信する。

エッジサーバ３０は、受信した音信号をサーバ２０に送信する。

サーバ２０は、受信した音信号についての音データを解析し、音データから音声を抽出する。サーバ２０は、抽出した音声に対して音声認識処理を実行することで音声の内容をテキスト情報に変換する。サーバ２０は、変換したテキスト情報から、音声の発声者の役割を推定する。

これにより、サーバ２０は、発声者が発した音声の内容を、発声者の役割とテキスト情報とを対応付けて記憶することが可能となる。

＜４動作＞
以下、サーバ２０が集音装置４０で集音された音に基づき、テキストデータを生成する際の一連の処理について説明する。

図５は、サーバ２０の制御部２０３が音データに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。以下の説明では、例えば、集音装置４０の周囲には、図４に示すように人物Ａと、人物Ｂとがいる場合を例に説明する。

集音装置４０は、周囲の音を集音する。このとき、例えば、人物Ａが所定の発言をし、その後に、人物Ｂが人物Ａの発言に対して応答をしたとする。集音装置４０が集音した音には、人物Ａの音声の後に、人物Ｂの音声が含まれる。集音装置４０は、集音した音についての音信号を、エッジサーバ３０を介してサーバ２０へ送信する。

ステップＳ５０１において、制御部２０３は、エッジサーバ３０から受信した音信号から音データを取得する。

ステップＳ５０２において、制御部２０３は、取得した音データを解析する。具体的には、例えば、制御部２０３は、取得した音データに含まれる声の特徴、例えば、声の大きさ、音高、有声、無声、音素の種類、フォルマント等から成る群から選択される少なくとも１つを分析する。制御部２０３は、人物Ａが発生した音声を、第１特徴を有する第１音声として音データから抽出する。制御部２０３は、人物Ａの後に人物Ｂが発生した音声を、第２特徴を有する第２音声として音データから抽出する。

なお、ここでは、制御部２０３が、声の特徴に基づいて音データから音声を抽出する場合を例に説明した。制御部２０３は、声の特徴、集音装置４０の指向方向、音が集音されたタイミング、集音に用いられた集音装置等から成る群から選択される少なくとも１つの手法を利用して音声を抽出してよい。

ステップＳ５０３において、制御部２０３は、抽出した音声に対して音声認識処理を実行することで、音声の内容をテキスト情報に変換する。具体的には、例えば、制御部２０３は、第１音声に対して音声認識処理を実行することで、第１音声の内容を第１テキスト情報に変換する。制御部２０３は、第１テキスト情報をテキスト情報データベース２０２１に記憶する。また、制御部２０３は、第２音声に対して音声認識処理を実行することで、第２音声の内容をテキスト情報に変換する。制御部２０３は、第２テキスト情報をテキスト情報データベース２０２１に記憶する。

ステップＳ５０４において、制御部２０３は、テキスト情報に基づき、音声の発声者の役割を推定する。具体的には、例えば、制御部２０３は、第１テキスト情報を学習済みモデルに入力する。学習済みモデルは、第１テキスト情報が入力されると、第１役割を出力する。また、制御部２０３は、第２テキスト情報を学習済みモデルに入力する。学習済みモデルは、第２テキスト情報が入力されると、第２役割を出力する。制御部２０３は、第１テキスト情報と第１役割とを関連付け、第２テキスト情報と第２役割とを関連付けてテキストデータとし、テキストデータをテキスト情報データベース２０２１に記憶する。

ステップＳ５０５において、制御部２０３は、ユーザからの要望に応じ、テキスト情報データベース２０２１に記憶されているテキストデータをユーザに提示する。

＜５画面例＞
図６～８は、第１の実施形態において、テキストデータをユーザに提示する際の、ユーザが操作する端末のディスプレイの表示例を示す図である。ユーザ端末は、例えば据え置き型のＰＣ（Personal Computer）、ラップトップＰＣであるとしてもよい。また、ユーザ端末は、ヘッドマウントディスプレイとして機能してもよく、例えば、透過型、非透過型、又はシースルー型ヘッドマウントディスプレイとして機能してもよい。なお、テキストデータは、ディスプレイでの表示に限らず、紙にプリントアウトされてユーザに提示されてもよい。

図６は、人物Ａが執刀医であり、人物Ｂが助手である場合のテキストデータの表示例を示す図である。

図６において、オブジェクト６０１、６０７は、第１テキスト情報に基づいて推定される役割を表す。図６では、オブジェクト６０１、６０７は画面の左端に位置し、「執刀医」と表示されている。オブジェクト６０４は、第２テキスト情報に基づいて推定される役割を表す。図６では、オブジェクト６０４は画面の右端に位置し、「助手」と表示されている。このように、役割に応じてオブジェクトを表示する位置を変えることで、ユーザは、役割の表示位置を視認するだけで、役割の異なる者が会話していることを把握することが可能となる。

図６では、オブジェクト６０１、６０７が画面の左端に沿って位置し、オブジェクト６０４が画面の右端に沿って位置する例を示しているが、オブジェクト６０１、６０７及びオブジェクト６０４の位置はこれに限定されない。オブジェクト６０１及びオブジェクト６０４は、同じ端部に位置していてもよい。

アイコン６０２、６０８およびアイコン６０５は、役割に応じたアイコンを表す。例えば、アイコン６０２、６０８は、それぞれオブジェクト６０１、６０７の下に表示され、執刀医を識別するアイコンを示す。アイコン６０５は、オブジェクト６０４の下に表示され、助手を識別するアイコンを示す。当該アイコンは、例えば、役割に応じて制御部２０３によって自動的に設定されてもよい。

ボックス６０３、６０９およびボックス６０６は、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス６０３、６０９は、画面の右端寄りに表示され、執刀医の発言を時刻と共に表示する。また、ボックス６０６は、画面の左端寄りに表示され、助手の発言を時刻と共に表示する。

これにより、ユーザは、執刀医と助手とが手術中などに行った会話の内容を、各々の役割を識別する形でテキスト情報として確認することができる。このため、執刀医と助手との術中における会話を、例えば、研修医の指導の際に、指示の出し方が適切か、誤った判断をしていないか等の確認に活用することが可能となる。また、執刀医自身が、自分の担当した手術中の会話を確認することで、反省点の振り返り、改善点の発見などに役立てることができる。

図７は、人物Ａが講演者であり、人物Ｂが視聴者である場合のテキストデータの表示例を示す図である。

図７において、オブジェクト７０１、７０７は、図６におけるオブジェクト６０１、６０７と同様に、第１テキスト情報に基づいて推定される役割を表す。図７では、オブジェクト７０１、７０７は画面の左端に位置し、「講演者」と表示されている。オブジェクト７０４は、図６におけるオブジェクト６０４と同様に、第２テキスト情報に基づいて推定される役割を表す。図７では、オブジェクト７０４は画面の右端に位置し、「視聴者」と表示されている。

アイコン７０２、７０８およびアイコン７０５は、図６におけるアイコン６０２、６０８および６０５と同様に、役割に応じたアイコンを表す。例えば、アイコン７０２、７０８は、それぞれオブジェクト７０１、７０７の下に表示され、講演者を識別するアイコンを示す。アイコン７０５は、オブジェクト７０４の下に表示され、視聴者を識別するアイコンを示す。

ボックス７０３、７０９およびボックス７０６は、図６におけるボックス６０３、６０９およびボックス６０６と同様に、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス７０３、７０９は、画面の右端寄りに表示され、講演者の発言を時刻と共に表示する。また、ボックス７０６は、画面の左端寄りに表示され、視聴者の発言を時刻と共に表示する。

これにより、ユーザは、講演者と視聴者とが講演中などに行った会話、例えば質疑応答の内容を、各々の役割を識別する形でテキスト情報として確認することができる。このため、講演者は、質疑応答の内容をテキスト情報として確認することで、講演会における話の流れ、視聴者の反応などを確認することが可能となる。また、議事録を作成するユーザは、質疑応答の内容をテキスト情報として確認することで、容易に議事録を作成することが可能となる。

図８は、人物Ａが管理者であり、人物Ｂが作業員である場合のテキストデータの表示例を示す図である。

図８において、オブジェクト８０１、８０７は、図７におけるオブジェクト７０１、７０７と同様に、第１テキスト情報に基づいて推定される役割を表す。図８では、オブジェクト８０１、８０７は画面の左端に位置し、「管理者」と表示されている。オブジェクト８０４は、図７におけるオブジェクト７０４と同様に、第２テキスト情報に基づいて推定される役割を表す。図８では、オブジェクト８０４は画面の右端に位置し、「作業員」と表示されている。

アイコン８０２、８０８およびアイコン８０５は、図７におけるアイコン７０２、７０８および７０５と同様に、役割に応じたアイコンを表す。例えば、アイコン８０２、８０８は、それぞれオブジェクト８０１、８０７の下に表示され、管理者を識別するアイコンを示す。アイコン８０５は、オブジェクト８０４の下に表示され、作業員を識別するアイコンを示す。

ボックス８０３、８０９およびボックス８０６は、図７におけるボックス７０３、７０９およびボックス７０６と同様に、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス８０３、８０９は、画面の右端寄りに表示され、管理者の発言を時刻と共に表示する。また、ボックス８０６は、画面の左端寄りに表示され、作業員の発言を時刻と共に表示する。

これにより、ユーザは、管理者と作業員とが行った作業現場における会話、例えば当日の作業指示などの内容を、各々の役割を識別する形でテキスト情報として確認することができる。これにより、管理者は、作業指示の内容をテキスト情報として確認することで、当日の作業内容の振り返り、次の日の作業計画の立案などに役立てることが可能となる。また、管理者を管理監督する監督者が、管理者が作業員に出した指示内容、作業員の反応などをテキスト情報として確認することが可能となる。そのため、監督者は、ハラスメントなどの問題が生じたときに、指示の仕方が適切であったか、無理な負担を作業員に強いていないか、などを確認することが可能となる。

このように、サーバ２０は、音データから音声を抽出し、抽出した音声のテキスト情報への変換、変換したテキスト情報に基づいて発声者の役割を推定するようにしている。また、サーバ２０は、受信した一つ、または複数の音データから、複数の発声者の役割を推定するようにしている。このため、サーバ２０は、発声者について事前に登録された情報がなくても、発声者の役割を判別しながらテキスト情報をユーザへ提示することが可能となる。

＜６変形例＞
上記実施形態では、音声解析をサーバ２０で実施する場合を説明したが、音声解析はサーバ２０以外で実施されてもよい。例えば、エッジサーバ３０が音声解析を実施し、テキスト情報をサーバ２０へ送信してもよい。また、集音装置４０が音声解析を実施し、テキスト情報をエッジサーバ３０へ送信してもよい。なお、テキスト情報をサーバ２０へ送信する場合であっても、音信号をサーバ２０へ送信してもよい。

また、上記実施形態では、推定処理をサーバ２０で実施する場合を説明したが、推定処理は音声解析の後であれば、サーバ２０以外で実施されてもよい。例えば、エッジサーバ３０、又は集音装置４０が音声解析を実施した場合には、エッジサーバ３０が推定処理を実施し、役割に関する情報をサーバ２０へ送信してもよい。また、集音装置４０が音声解析を実施した場合には、集音装置４０が推定処理を実施し、役割に関する情報をエッジサーバ３０へ送信してもよい。

＜第２の実施形態＞
第１の実施形態では、集音装置４０のみを利用する場合を説明した。しかしながら、音声を抽出する方法はこれに限らない。第２の実施形態では、集音装置４０に加え、撮影装置５０を利用する方法について説明する。なお、第１の実施形態と同一の符号を付しているものについての詳細な説明は繰り返さない。

＜１システム全体の構成図＞
図９は、第２の実施形態における、システム１Ａの全体の構成を示す図である。

図９に示すように、システム１Ａは、サーバ２０Ａと、エッジサーバ３０と、集音装置４０と、撮影装置５０とを含む。サーバ２０Ａとエッジサーバ３０とは、ネットワーク８０を介して通信接続する。エッジサーバ３０は、集音装置４０と撮影装置５０と接続されている。例えば、集音装置４０と撮影装置５０は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置である。具体的には、集音装置４０と撮影装置５０は、例えば、Bluetooth（登録商標）モジュールなど２．４ＧＨｚ帯を使用して、Bluetooth（登録商標）モジュールを搭載した他の情報機器からのビーコン信号を受信する。エッジサーバ３０は、当該近距離通信を利用したビーコン信号に基づき、集音装置４０と撮影装置５０から送信される情報を取得する。このように、集音装置４０と撮影装置５０は、取得した発声者の音声の情報、および発声者の動作情報を、ネットワーク８０を介さず、近距離通信によりエッジサーバ３０へ送信する。なお、エッジサーバ３０は、ネットワーク８０を介して集音装置４０と撮影装置５０と通信接続してもよい。

撮影装置５０は、受光素子により光を受光して、撮影画像として出力するためのデバイスである。撮影装置５０は、設定されている方向の画像を撮影し、撮影により得られる画像データに基づく画像信号をエッジサーバ３０へ送信する。撮影装置５０は、例えば、以下のいずれかのデバイスが想定される。
・可視光カメラ
・赤外線カメラ
・紫外線カメラ
・超音波センサ
・ＲＧＢ－Ｄカメラ
・ＬｉＤＡＲ（Light Detection and Ranging）
図９では、撮影装置５０が１台である場合を例に示しているが、システム１Ａに収容される撮影装置５０は、複数台あっても構わない。

エッジサーバ３０は、集音装置４０から送信される音信号を受信し、受信した音信号を、サーバ２０へ送信する。また、エッジサーバ３０は、撮影装置５０から送信される画像信号を受信し、受信した画像信号を、サーバ２０へ送信する。

＜１．１サーバ２０Ａの構成＞
図１０は、第２の実施形態における、サーバ２０Ａの機能的な構成を示す図である。

取得モジュール２０３３Ａは、受信制御モジュール２０３１で受信された音信号から音データを取得する。取得モジュール２０３３Ａは、取得した音データを音声情報データベース２０２２に記憶する。取得モジュール２０３３Ａは、受信制御モジュール２０３１で受信された画像信号から画像データを取得する。取得モジュール２０３３Ａは、取得した画像データを画像情報データベース２０２３に記憶する。取得モジュール２０２２Ａは、例えば、所定の要件を満たすと、取得した音データおよび画像データを、音声情報データベース２０２２および画像情報データベース２０２３にそれぞれ記憶する。所定の要件は、例えば、以下である。
・録音／録画開始指示が入力されてから録音／録画終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生（例えば、音が発生すると録音／録画を開始し、音が予め設定された期間発生しないと録音／録画を停止する）
・発声者の動作を検知（例えば、発声者の口の動きを検知すると録音／録画を開始し、動作が予め設定された期間発生しないと録音／録画を停止する）
・発声者が別の発声者を指定する動作を検知（例えば、録音、および撮影していた発声者が異なる発声者を指定する動作を検知すると、指定された対象の録音および撮影を開始し、動作が予め設定された期間発生しないと録音および撮影を停止する）

画像情報データベース２０２３は、サーバ２０Ａが撮影装置５０で撮影された画像に基づく画像データを記憶する。

画像解析モジュール２０３７は、取得した画像データを解析することで、画像データから動作情報を抽出する。例えば、画像解析モジュール２０３７は、学習済みモデルを用い、撮影装置５０が撮影した画像から動作情報を抽出する。

本実施形態において、学習済みモデルは、例えば、取得された画像データに対し、動作情報を出力するように学習されている。このとき、学習用データは、例えば、所定の動作を含む画像を入力データとし、その動作対象へのラベリング、ラベリングされた対象の変位を正解出力データとする。例えば、人物を含む画像を入力データとし、人物の口へのラベリング、ラベリングされた口の変位を正解出力データとする。なお、人物の手足のラベリング、ラベリングされた手足の変位を正解出力データとしてもよい。

画像解析モジュール２０３７は、例えば、取得した画像データから撮影された人の口の動作情報を抽出する。なお、抽出される動作情報は口に限定されず、ジェスチャー等の動作であってもよい。画像解析モジュール２０３７は、抽出した動作情報を、音声解析モジュール２０３４Ａに送信する。

音声解析モジュール２０３４Ａは、取得した音データと、画像解析によって得られた動作情報とから音声を抽出する。具体的には、音声解析モジュール２０３４Ａは、例えば、動作情報と同期して発声された音声を、その人物の発声であると認識し、その人物の音声として音データから抽出する。より具体的には、口の動きと同期して発声された音声を、口が動いた人物の発声であると認識し、その人物の音声とする。

音声解析モジュール２０３４Ａは、撮影方向に複数の人物が含まれている場合において、それぞれの人物の音声を音データから抽出してもよい。また、音声解析モジュール２０３４Ａは、声の特徴、音が集音された方向、音が集音されたタイミング、音を集音した集音装置に基づいて音声を抽出してもよい。音声解析モジュール２０３４Ａは、単独で発声者の音声を抽出してもよいし、複数の手法を組み合わせて発声者の音声を抽出してもよい。

＜２データ構造＞
図１１は、サーバ２０Ａが記憶する画像情報データベース２０２３のデータ構造を示す図である。

図１１に示すように、画像情報データベース２０２３は、項目「日時」と、項目「画像ＩＤ」と、項目「音声ＩＤ」と、項目「データ」等を含む。

項目「日時」は、画像を録画した日時を示す情報である。

項目「画像ＩＤ」は、画像データを識別する情報を示す。

項目「音声ＩＤ」は、関連付けられている音データを識別する情報を示す。画像データと音データとは、例えば、時刻情報に基づいて関連付けられている。

項目「データ」は、画像データを記憶している。項目「データ」で記憶される画像データは、例えば、ｊｐｅｇ等のデータ形式で記憶されている。

＜３小括＞
図１２は、第２の実施形態におけるシステム１Ａの概要を示す図である。図１２に示す例では、音声を取得する対象である人物Ａおよび人物Ｂの周囲に、集音装置４０が設置される。また、人物Ａおよび人物Ｂを撮影方向に含むように撮影装置５０が設置される。

集音装置４０は、集音装置４０の周囲の音を取得する。集音装置４０は、取得した音信号をエッジサーバ３０に送信する。

撮影装置５０は、撮影方向の画像を撮影する。撮影装置５０は、取得した画像信号をエッジサーバ３０に送信する。

エッジサーバ３０は、受信した音信号と画像信号とをサーバ２０Ａに送信する。

サーバ２０Ａは、画像データの画像解析結果を参照し、受信した音信号についての音データから撮影されている人物の音声を抽出する。サーバ２０Ａは、抽出した音声に対して音声認識処理を実行することで音声の内容をテキスト情報に変換する。サーバ２０Ａは、変換したテキスト情報から、音声の発声者の役割を推定する。

これにより、サーバ２０Ａは、発声者が発した音声の内容を、発声者の役割とテキスト情報とを対応付けて記憶することが可能となる。

これにより、サーバ２０Ａは、取得した音データと画像データとから、より正確に音声を抽出し、テキスト情報に変換することが可能となる。そのため、サーバ２０Ａは、発声者の音声が小さく、周囲の音との差別化が困難な場合でも、正確に発声者の音声を抽出することができる。

＜４動作＞
以下、サーバ２０Ａが集音装置４０で集音された音と撮影装置５０で撮影された動作とに基づき、テキストデータを生成する際の一連の処理について説明する。

図１３は、サーバ２０Ａの制御部２０３Ａが音データと画像データとに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。以下の説明では、例えば、集音装置４０の周囲に、図１２に示すように人物Ａおよび人物Ｂがおり、人物Ａおよび人物Ｂを撮影方向に含むように撮影装置５０が設置される場合を例に説明する。

集音装置４０は、周囲の音を集音する。このとき、例えば、人物Ａが所定の発言をし、その後に、人物Ｂが人物Ａの発言に対する応答をしたとする。集音装置４０が集音した音には、人物Ａの音声の後に、人物Ｂの音声が含まれる。集音装置４０は、集音した音についての音信号を、エッジサーバ３０を介してサーバ２０Ａへ送信する。

撮影装置５０は、撮影方向の画像を撮影する。撮影装置５０が撮影した画像には、人物Ａの動作と、人物Ｂの動作とが含まれる。撮影装置５０は、撮影した画像についての画像信号を、エッジサーバ３０を介してサーバ２０Ａへ送信する。

ステップＳ１３０１において、制御部２０３Ａは、エッジサーバ３０から受信した画像信号から画像データを取得する。

ステップＳ１３０２において、制御部２０３Ａは、取得した画像データを解析することで、画像データから動作情報を抽出する。制御部２０３Ａは、例えば、撮影方向に含まれる人物Ａおよび人物Ｂの動作、例えば、発言に伴う口の動き、ジェスチャー等についての動作情報を抽出する。

ステップＳ１３０３において、制御部２０３Ａは、取得した画像データの画像解析結果に基づいて、音データを解析する。具体的には、制御部２０３Ａは、人物Ａおよび人物Ｂの口の動きと同期して発声された音声を、人物Ａおよび人物Ｂの発声であると認識し、人物Ａおよび人物Ｂの音声として音データから抽出する。

なお、ここでは、制御部２０３Ａが、声の特徴および発声者の動作情報、特に口の動きに基づいて音データから音声を抽出する場合を例に説明した。制御部２０３Ａは、声の特徴、集音装置４０の指向方向、音が集音されたタイミング、集音に用いられた集音装置等から成る群から選択される少なくとも１つと、撮影装置５０の撮影した、発声者の他の動作、例えば、発声に伴うジェスチャー、異なる発声者を指定する動き等から成る群から選択される少なくとも１つとを組み合わせて利用して音声を抽出してよい。

＜５変形例＞
上記実施形態では、画像解析および、画像解析結果に基づいた音声解析をサーバ２０Ａで実施する場合を説明したが、一連の解析処理はサーバ２０以外で実施されてもよい。例えば、エッジサーバ３０が画像解析および、画像解析結果に基づいた音声解析を実施し、テキスト情報をサーバ２０Ａへ送信してもよい。また、撮影装置５０が画像解析を実施し、画像解析の結果を集音装置４０に送信することで、集音装置４０が音声解析を実施し、テキスト情報をエッジサーバ３０へ送信してもよい。

また、上記実施形態では、推定処理をサーバ２０Ａで実施する場合を説明したが、推定処理は音声解析の後であれば、サーバ２０Ａ以外で実施されてもよい。例えば、エッジサーバ３０、又は集音装置４０が音声解析を実施した場合には、エッジサーバ３０が推定処理を実施し、役割に関する情報をサーバ２０Ａへ送信してもよい。また、集音装置４０が音声解析を実施した場合には、集音装置４０が推定処理を実施し、役割に関する情報をエッジサーバ３０へ送信してもよい。

また、上記実施形態では、推定モジュール２０３５が学習済みモデルを用いて発声者の役割を推定する場合を例に説明した。しかしながら、推定モジュール２０３５は、学習済みモデルを用いずに発声者の役割を推定してもよい。例えば、記憶部２０２は、役割と、所定の文言とが対応付けられたテーブルを予め記憶する。推定モジュール２０３５は、テーブルを参照し、テキスト情報から役割を推定する。

＜付記＞
以上の各実施形態で説明した事項を以下に付記する。

（付記１）
プロセッサ２９と、メモリ２５とを備えるコンピュータ２０に実行させるためのプログラムであって、プログラムは、プロセッサ２９に、集音装置４０により集音された音を取得するステップ（Ｓ５０１）と、取得した音から、少なくとも１つの音声を抽出するステップ（Ｓ５０２）と、抽出した音声を解析することで、テキスト情報に変換するステップ（Ｓ５０３）と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ（Ｓ５０４）と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ（Ｓ５０５）と、を実行させるプログラム。

（付記２）
抽出するステップ（Ｓ５０２）において、声の特徴に関する情報に基づいて、少なくとも１つの音声を抽出する、付記１に記載のプログラム。（段落００６３）

（付記３）
抽出するステップ（Ｓ５０２）において、音の方向に関する情報に基づいて、少なくとも１つの音声を抽出する、付記１に記載のプログラム。（段落００６３）

（付記４）
抽出するステップ（Ｓ５０２）において、音を取得するタイミングに関する情報に基づいて、少なくとも１つの音声を抽出する、付記１に記載のプログラム。（段落００６３）

（付記５）
撮影装置により撮影された画像を取得するステップ（Ｓ１３０１）と、取得した画像から、発声者の動作情報を取得するステップ（Ｓ１３０２）と、をプロセッサ２９に実行させ、抽出するステップ（Ｓ５０２）において、音を集音したタイミングと、動作情報を取得したタイミングとに基づいて、音声を抽出する、付記１に記載のプログラム。（段落００９５）

（付記６）
動作情報が、撮影装置５０で撮影した、発声者の口又は手足の動作情報である、付記５に記載のプログラム。（段落００９５）

（付記７）
推定するステップ（Ｓ５０４）において、予め設定された役割の情報に基づいて、発声者の役割を推定する、付記１～６のいずれかに記載のプログラム。（段落００３９）

（付記８）
推定するステップ（Ｓ５０４）において、所定の発言についての文字情報を入力データとし、発言をする者の役割を正解出力データとして学習された学習済みモデルに、テキスト情報を入力することで発声者の役割を推定する、付記１～６のいずれかに記載のプログラム。
（段落００４０）

（付記９）
抽出するステップ（Ｓ５０２）において、複数の音声を抽出し、変換するステップ（Ｓ５０３）において、抽出した複数の音声をそれぞれ解析することで、複数のテキスト情報に変換し、推定するステップ（Ｓ５０４）において、変換した複数のテキスト情報に基づき、抽出した複数の音声の発声者の役割をそれぞれ推定する、付記１～８のいずれかに記載のプログラム。（段落００３６）

（付記１０）
推定するステップ（Ｓ５０４）において、複数の音声の発声者の役割として、主として医療行為を実施する担当者と、当該担当者を補助する担当者とをそれぞれ推定する、付記９に記載のプログラム。（段落００７４）

（付記１１）
推定するステップ（Ｓ５０４）において、複数の音声の発声者の役割として、主となる話者と、当該話者の話を視聴する視聴者とをそれぞれ推定する、付記９に記載のプログラム。（段落００７９）

（付記１２）
推定するステップ（Ｓ５０４）において、複数の音声の発声者の役割として、管理者と、当該管理者による被管理者とをそれぞれ推定する、付記９に記載のプログラム。（段落００８４）

（付記１３）
プロセッサ２９と、メモリ２５とを備えるコンピュータ２０が実行する方法であって、方法は、プロセッサ２９が、集音装置４０により集音された音を取得するステップ（Ｓ５０１）と、取得した音から、少なくとも１つの音声を抽出するステップ（Ｓ５０２）と、抽出した音声を解析することで、テキスト情報に変換するステップ（Ｓ５０３）と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ（Ｓ５０４）と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ（Ｓ５０５）と、を実行する方法。

（付記１４）
制御部２０３を備える情報処理装置２０であって、制御部２０３が、集音装置４０により集音された音を取得するステップ（Ｓ５０１）と、取得した音から、少なくとも１つの音声を抽出するステップ（Ｓ５０２）と、抽出した音声を解析することで、テキスト情報に変換するステップ（Ｓ５０３）と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ（Ｓ５０４）と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ（Ｓ５０５）と、を実行する情報処理装置２０。

（付記１５）
集音装置４０により集音された音を取得する手段（Ｓ５０１）と、取得した音から、少なくとも１つの音声を抽出する手段（Ｓ５０２）と、抽出した音声を解析することで、テキスト情報に変換する手段（Ｓ５０３）と、テキスト情報に基づき、抽出した音声の発声者の役割を推定する手段（Ｓ５０４）と、変換したテキスト情報を、役割を識別可能にユーザに提示する手段（Ｓ５０５）と、を備えるシステム。

２０サーバ、２２通信IF、２３入出力IF、２５メモリ、２６ストレージ、２９プロセッサ、３０エッジサーバ、４０集音装置、５０撮影装置、８０ネットワーク、２０１通信部、２０２制御部、２０３通信部、２０２１テキスト情報データベース、２０２２音声情報データベース、２０２３画像情報データベース。

Claims

プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも１つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示するステップと、
を実行させ、
前記推定するステップにおいて、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、プログラム。
前記提示するステップにおいて、前記変換したテキスト情報を、前記役割を識別可能にユーザに提示する、請求項１に記載のプログラム。
前記抽出するステップにおいて、
声の特徴に関する情報に基づいて、前記少なくとも１つの音声を抽出する、請求項１または２に記載のプログラム。
前記抽出するステップにおいて、
前記音の方向に関する情報に基づいて、前記少なくとも１つの音声を抽出する、請求項１または２に記載のプログラム。
前記抽出するステップにおいて、
前記音を取得するタイミングに関する情報に基づいて、前記少なくとも１つの音声を抽出する、請求項１または２に記載のプログラム。
撮影装置により撮影された画像を取得するステップと、
前記取得した画像から、前記発声者の動作情報を取得するステップと、を前記プロセッサに実行させ、
前記抽出するステップにおいて、
前記音を集音したタイミングと、前記動作情報を取得したタイミングとに基づいて、前記音声を抽出する、請求項１または２に記載のプログラム。
前記動作情報が、前記発声者の口又は手足の動作情報である、請求項６に記載のプログラム。
前記推定するステップにおいて、
予め設定された前記役割の情報に基づいて、前記発声者の役割を推定する、請求項１から７のいずれかに記載のプログラム。
前記推定するステップにおいて、所定の発言についての文字情報を入力データとし、発言をする者の役割を正解出力データとして学習された学習済みモデルに、前記テキスト情報を入力することで前記発声者の役割を推定する、請求項１から７のいずれかに記載のプログラム。
前記抽出するステップにおいて、複数の音声を抽出し、
前記変換するステップにおいて、前記抽出した複数の音声をそれぞれ解析することで、複数のテキスト情報に変換し、
前記推定するステップにおいて、前記変換した複数のテキスト情報に基づき、前記抽出した複数の音声の発声者の役割をそれぞれ推定する、請求項１から９のいずれかに記載のプログラム。
前記推定するステップにおいて、
前記複数の音声の発声者の役割として、主として医療行為を実施する担当者と、当該担当者を補助する担当者とをそれぞれ推定する、請求項１０に記載のプログラム。
前記推定するステップにおいて、
前記複数の音声の発声者の役割として、主となる話者と、当該話者の話を視聴する視聴者とをそれぞれ推定する、請求項１０に記載のプログラム。
前記推定するステップにおいて、
前記複数の音声の発声者の役割として、管理者と、当該管理者による被管理者とをそれぞれ推定する、請求項１０に記載のプログラム。
プロセッサと、メモリとを備えるコンピュータに実行させるための方法であって、前記方法は、前記プロセッサが、
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも１つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示するステップと、
を実行し、
前記推定するステップにおいて、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、方法。
制御部を備える情報処理装置であって、前記制御部が、
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも１つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示するステップと、
を実行し、
前記推定するステップにおいて、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、情報処理装置。
集音装置により集音された音を取得する手段と、
前記取得した音から、少なくとも１つの音声を抽出する手段と、
前記抽出した音声を解析することで、テキスト情報に変換する手段と、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定する手段と、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示する手段と、
を備え、
前記推定する手段において、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、システム。