JP7453733B2

JP7453733B2 - マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム

Info

Publication number: JP7453733B2
Application number: JP2023001000A
Authority: JP
Inventors: ヒスホ; ハンヨンカン; ユジンキム; ハンギュキム; ソンギュムン; ボンジンイ; ジョンフンチャン; ジュンソンチョン; イクサンハン; ジェソンホ
Original assignee: Line Works; Naver Corp
Current assignee: Line Works; Naver Corp
Priority date: 2020-06-02
Filing date: 2023-01-06
Publication date: 2024-03-21
Anticipated expiration: 2040-12-09
Also published as: JP2023026657A; KR102396136B1; JP2021189424A; KR20210149336A

Description

以下の説明は、話者ダイアライゼーション（ｓｐｅａｋｅｒｄｉａｒｉｚａｔｉｏｎ）技術に関する。

話者ダイアライゼーションとは、複数の話者が発声した内容を録音した音声ファイルから話者ごとに発声区間を分割する技術である。

話者ダイアライゼーション技術は、オーディオデータから話者境界区間を検出するものであって、話者に対する先行知識の使用の可否によって距離基盤方式とモデル基盤方式とに分けられる。

例えば、特許文献１（登録日２０１８年２月２３日）では、話者の音声を認識する環境の変化や話者の発話状態の影響を受けずに、話者の音声に基づいて話者を区分することができる話者認識モデルを生成する技術が開示されている。

このような話者ダイアライゼーション技術は、会議、インタビュー、取引、裁判などように複数の話者が一定の順序をもたずに発声する状況において発声内容を話者ごとに分割して自動記録する諸般の技術であって、議事録の自動作成などに活用されている。

韓国登録特許第１０－１８３３７３１号公報

マルチデバイスによる話者ダイアライゼーション性能を向上させることができる方法およびシステムを提供する。

各ユーザが保有している個人機器を活用するマルチデバイス環境で話者ダイアライゼーションを実行することができる方法およびシステムを提供する。

信頼度に基づいて話者数（クラスタ数）を推定することができる方法およびシステムを提供する。

コンピュータシステムが実行する話者ダイアライゼーション方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記話者ダイアライゼーション方法は、前記少なくとも１つのプロセッサにより、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、前記少なくとも１つのプロセッサにより、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、前記少なくとも１つのプロセッサにより、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および前記少なくとも１つのプロセッサにより、前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階を含む、話者ダイアライゼーション方法を提供する。

一側面によると、前記受信する段階は、前記各電子機器の前記音声ファイルに対してエンドポイント検出（ＥＰＤ（ｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎ））を実行する段階、および前記各電子機器のＥＰＤ結果を統合してＥＰＤユニオン（ｕｎｉｏｎ）を生成する段階を含んでよい。

他の側面によると、前記推定する段階は、前記各電子機器の前記音声ファイルのＥＰＤ結果から埋め込み抽出することで類似度行列（ａｆｆｉｎｉｔｙｍａｔｒｉｘ）を計算する段階、および前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階を含んでよい。

また他の側面によると、前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、前記類似度行列に対して固有値分解（ｅｉｇｅｎｄｅｃｏｍｐｏｓｉｔｉｏｎ）を実行して固有値（ｅｉｇｅｎｖａｌｕｅ）を抽出する段階、および前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階を含んでよい。

また他の側面によると、前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階を含んでよい。

また他の側面によると、前記残った固有値を利用して前記信頼度値を計算する段階は、前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定してよい。

また他の側面によると、前記残った固有値を利用して前記信頼度値を計算する段階は、前記残った固有値の平均を計算した平均値を前記類似度行列の信頼度値として決定してよい。

また他の側面によると、前記推定する段階は、前記音声ファイルのＥＰＤ結果に対して学習された加重値に基づいて前記類似度行列に対する加重和（ｗｅｉｇｈｔｅｄｓｕｍ）を適用する段階をさらに含んでよい。

また他の側面によると、前記決定する段階は、前記信頼度値が最も大きい類似度行列から推定された候補クラスタ数を前記最終クラスタ数として決定してよい。

さらに他の側面によると、前記実行する段階は、前記各電子機器の前記音声ファイルのＥＰＤ結果から埋め込み抽出をすることで類似度行列を計算する段階、および前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する段階を含んでよい。

前記話者ダイアライゼーション方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

前記話者ダイアライゼーション方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体を提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、複数の電子機器から各電子機器で録音された音声ファイルを受信する過程、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する過程、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する過程、および前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する過程を処理する、コンピュータシステムを提供する。

本発明の実施形態によると、マルチデバイスによる話者ダイアライゼーション性能を向上させることができる。

本発明の実施形態によると、追加の装備は必要とせず、各ユーザが保有する個人機器を活用するマルチデバイス環境で話者ダイアライゼーションを実行することができる。

本発明の実施形態によると、信頼度に基づいて話者数（クラスタ数）をより正確に推定することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータシステムの内部構成の例を示したブロック図である。本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータシステムが実行することのできる話者ダイアライゼーション方法の例を示したフローチャートである。本発明の一実施形態における、話者ダイアライゼーションのための全体的な過程の一例を示した図である。本発明の一実施形態における、個別音声ファイルで認識された音声領域を併合する過程を説明するための例示図である。本発明の一実施形態における、個別音声ファイルで認識された音声領域を併合する過程を説明するための例示図である。本発明の一実施形態における、クラスタ数を決定する過程を説明するための例示図である。本発明の一実施形態における、話者ダイアライゼーションクラスタリングを実行する過程を説明するための例示図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、オーディオデータから話者境界区間を検出する話者ダイアライゼーション技術に関する。

本明細書で具体的に開示される事項を含む実施形態は、マルチデバイスのよる話者ダイアライゼーションを実行することで話者ダイアライゼーション性能を向上させることができ、各ユーザが保有する個人機器を活用することでシステム構築費用を節減することができる。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、サーバ１５０、およびネットワーク１６０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイス、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）デバイス、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）デバイスなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０と通信することのできる多様な物理的なコンピュータシステムのうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１６０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１６０を介して接続した複数の電子機器１１０、１２０、１３０、１４０に目的とするサービスを提供するシステムであってよい。より具体的な例として、サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス（一例として、音声認識を基盤とした人工知能議事録サービスなど）を複数の電子機器１１０、１２０、１３０、１４０に提供してよい。

図２は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。図１で説明したサーバ１５０は、図２のように構成されたコンピュータシステム２００によって実現されてよい。

図２に示すように、コンピュータシステム２００は、本発明の実施形態に係る話者ダイアライゼーション方法を実行するための構成要素として、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。

メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータシステム２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１６０を介してコンピュータシステム２００が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１６０を経てコンピュータシステム２００の通信インタフェース２３０を通じてコンピュータシステム２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータシステム２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離有線／無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、マウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータシステム２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータシステム２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はない。例えば、コンピュータシステム２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

以下では、マルチデバイスによって話者ダイアライゼーション性能を向上させるための方法およびシステムの具体的な実施形態について説明する。

図３は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図４は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。

本実施形態に係るサーバ１５０は、話者ダイアライゼーションによって議事録音声ファイルを文書として整理することができる人工知能サービスを提供するサービスプラットフォームの役割をする。

サーバ１５０には、コンピュータシステム２００によって実現された話者ダイアライゼーションシステムが構成されてよい。サーバ１５０は、クライアント（ｃｌｉｅｎｔ）である複数の電子機器１１０、１２０、１３０、１４０を対象とするものであり、電子機器１１０、１２０、１３０、１４０上にインストールされた専用アプリケーションや、サーバ１５０と関連するウェブ／モバイルサイトへの接続によって音声認識基盤の人工知能議事録サービスを提供してよい。

特に、サーバ１５０は、各ユーザが保有する個人機器を利用したマルチデバイスによって話者ダイアライゼーション性能を向上させることができる。

サーバ１５０のプロセッサ２２０は、図４に係る話者ダイアライゼーション方法を実行するための構成要素として、図３に示すように、音声統合部３１０、クラスタ決定部３２０、およびクラスタリング実行部３３０を含んでよい。

実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ２２０およびプロセッサ２２０の構成要素は、図４の話者ダイアライゼーション方法が含む段階４１０～４３０を実行するようにサーバ１５０を制御してよい。例えば、プロセッサ２２０およびプロセッサ２２０の構成要素は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ２２０の構成要素は、サーバ１５０に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、サーバ１５０が機器別に認識された音声領域を統合するように上述した命令にしたがってサーバ１５０を制御するプロセッサ２２０の機能的表現として、音声統合部３１０が利用されてよい。

プロセッサ２２０は、サーバ１５０の制御と関連する命令がロードされたメモリ２１０から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階４１０～４３０をプロセッサ２２０が実行するように制御するための命令を含んでよい。

以下で説明する段階４１０～４３０は、図４に示したものとは異なる順序で実行されてもよく、段階４１０～４３０のうちの一部が省略されるか追加の過程がさらに含まれてもよい。

図４を参照すると、段階４１０で、音声統合部３１０は、複数の電子機器１１０、１２０、１３０、１４０を対象として各電子機器から該当の機器で録音された音声ファイル（以下、「個別音声ファイル」とする）を受信し、個別音声ファイルから認識された音声領域を統合してよい。

本実施形態は、マルチデバイス基盤の環境で話者ダイアライゼーションを実行するものであって、例えば、会議に参加するユーザそれぞれが保有する個人機器からなる複数の電子機器１１０、１２０、１３０、１４０を活用してよい。

サーバ１５０と関連する専用アプリケーションやウェブ／モバイルサイトでは、会議への参加を開始するための開始ボタンと、会議の参加を終了するための終了ボタンが含まれてよく、開始ボタンが入力されると同時に、機器で録音される音声をサーバ１５０にリアルタイムで伝達する機能が含まれてよい。

本実施形態は、会議音声を録音してサーバ１５０に伝達するための装備として追加の装備を必要とせず、会議参加者が会議中に所持しているスマートフォンやタブレットなどのような個人機器を活用してよい。特に、話者ダイアライゼーション性能を向上させるために会議音声を録音してサーバ１５０に伝達するための装備として、単一の装備ではなく、複数の参加者の個人機器からなるマルチデバイスを活用してよい。

音声統合部３１０は、各電子機器１１０、１２０、１３０、１４０から個別音声ファイルを受信した後、それぞれの個別音声ファイルから抽出された音声区間を統合する役割を行う。検出される音声領域は機器ごとに異なることがあるため、特定の機器から検出されない音声領域を追加することによって区間の抜けをなくすために各機器の音声区間を統合する。

段階４２０で、クラスタ決定部３２０は、個別音声ファイルごとに、個別音声ファイルに対して計算された埋め込み行列（以下、「個別埋め込み行列」とする）に基づいて候補クラスタ数を推定した後、個別埋め込み行列の信頼度に基づいて最終クラスタ数を決定してよい。

クラスタ決定部３２０は、各個別音声ファイルに対して独立的にクラスタ数を推定した後、推定されたクラスタ数のうちから最終クラスタ数を決定してよい。

特に、クラスタ決定部３２０は、最終クラスタ数を決定するために個別音声ファイルに対する候補クラスタ数を推定する過程において、信頼度をともに計算してよく、信頼度が最も高い個別音声ファイルで推定された候補クラスタ数を最終クラスタ数として決定してよい。

クラスタ数を決定する具体的な過程については、以下でさらに詳しく説明する。

段階４３０で、クラスタリング実行部３３０は、段階４１０で統合された音声領域に対して計算された埋め込み行列と、段階４２０で決定された最終クラスタ数を利用して、話者ダイアライゼーションのためのクラスタリングを実行してよい。

クラスタリング実行部３３０は、各機器の音声ファイルに対する個別埋め込み行列を平均した平均埋め込み行列を求めてよく、平均埋め込み行列と最終クラスタ数に基づいて話者ダイアライゼーションクラスタリングを実行してよい。

したがって、本実施形態では、クラスタ数の推定と話者ダイアライゼーションクラスタリングを、同じ埋め込み行列ではなく別の埋め込み行列に基づいて実行することができ、クラスタ数の推定は個別埋め込み行列を利用し、話者ダイアライゼーションクラスタリングは平均埋め込み行列を利用することができる。

図５は、本発明の一実施形態における、話者ダイアライゼーションの全体的な過程の一例を示した図である。

図５を参照すると、話者ダイアライゼーション過程は、各電子機器１１０、１２０、１３０、１４０から受信した個別音声ファイルごとに独立的に実行される独立過程と、個別音声ファイルを統合して実行される統合過程とで構成されてよい。

音声統合部３１０は、会議中に会議に参加する複数の参加者の個人機器である電子機器１１０、１２０、１３０、１４０から、会議参加者の位置で録音された音声ファイル（個別音声ファイル）を受信する（Ｓ５１）。

音声統合部３１０は、それぞれの個別音声ファイルに対して独立的にＥＰＤ（ｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎ）過程を実行する（Ｓ５２）。ＥＰＤとは、無音区間に該当するフレームから音響特徴を取り除いた後に、各フレームのエネルギーを測定することによって音声／無音を区分した発声の始めと終わりを探索することを意味する。言い換えれば、音声統合部３１０は、個別音声ファイルで音声のある領域を探索するＥＰＤを実行する。

例えば、図６に示すように、音声統合部３１０は、会議参加者の各機器からＥＰＤ結果として検出された音声領域６０１を取得してよい。会議に参加する参加者ごとに位置が異なるため、それぞれ検出される音声領域６０１も異なるようになる。

再び図５を参照すると、音声統合部３１０は、会議参加者の各機器のＥＰＤ結果を統合してＥＰＤユニオン（ｕｎｉｏｎ）を生成してよい（Ｓ５３）。

図７に示すように、会議参加者の各機器から検出される音声領域６０１はすべて異なるため、区間の漏れが発生しないように、各機器のＥＰＤ結果を統合してＥＰＤユニオン７０２を生成してよい。

言い換えれば、音声統合部３１０は、会議参加者の各機器から受信した各個別音声ファイルの各個別ＥＰＤ結果を１つのＥＰＤ結果として統合するのである。

再び図５を参照すると、クラスタ決定部３２０は、各機器のＥＰＤ結果に対して独立的に埋め込み抽出過程を実行する（Ｓ５４）。

クラスタ決定部３２０は、各機器のＥＰＤ結果から埋め込み抽出をすることで個別類似度行列（ａｆｆｉｎｉｔｙｍａｔｒｉｘ）を計算した後、各機器の個別類似度行列を利用してクラスタ数を計算する（Ｓ５５）。

このとき、クラスタ決定部３２０は、クラスタ数とともに、個別類似度行列の信頼度を計算してよい。

図８を参照すると、クラスタ決定部３２０は、各機器の個別音声ファイルごとに計算された個別類似度行列８０３に対して固有値分解（ｅｉｇｅｎｄｅｃｏｍｐｏｓｉｔｉｏｎ）を実行して固有値（ｅｉｇｅｎｖａｌｕｅ）と固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ）を抽出してよい。

このとき、クラスタ決定部３２０は、個別類似度行列８０３から抽出された固有値を固有値の大きさ順に整列し、整列された固有値に基づいてクラスタ数８０４と信頼度値８０５を決定してよい。

クラスタ決定部３２０は、整列された固有値に隣接する固有値の差を基準に、有効な主成分に該当する固有値の個数をクラスタ数８０４として決定してよい。固有値が高いということは個別類似度行列８０３で影響力が大きいことを意味し、すなわち、個別音声ファイル内の音声領域に対して個別類似度行列８０３を構成するときに、発声がある話者のうちで発声の比重が高いことを意味する。

言い換えれば、クラスタ決定部３２０は、整列された固有値のうちから十分な大きさの値を有する固有値を選択し、選択された固有値の個数を、話者数を示すクラスタ数８０４として決定してよい。

クラスタ数８０４の決定過程で選択されなかった固有値は、個別類似度行列８０３に含まれるノイズとして見なされてよく、選択されなかった固有値が小さいほど個別類似度行列８０３の計算が正確であると判断され、結果的には個別類似度行列８０３の信頼度が高いと判断されてよい。

クラスタ決定部３２０は、整列された固有値のうち、クラスタ数８０４の決定過程で選択されずにノイズとして残った固有値を利用して信頼度値８０５を計算してよい。

一例として、クラスタ決定部３２０は、クラスタ数８０４の決定過程で選択されなかった固有値のうち、最も大きい固有値を信頼度値８０５として活用してよい。例えば、整列された固有値のうち、値が高い４つの固有値が有効な主成分の数、すなわち、クラスタ数８０４として決定された場合、５番目の固有値を信頼度値８０５として活用してよい。

他の例として、クラスタ決定部３２０は、クラスタ数８０４の決定過程で選択されなかったすべての固有値の平均を計算した平均固有値を信頼度値８０５として活用してよい。

会議参加者の各機器から検出される音声領域６０１は異なるという点において、これから計算された個別類似度行列８０３もすべて異なることがあり、話者数を示すクラスタ数８０４の結果も異なることがある。

機器１の個別音声ファイルでは４人の話者が推定され、機器２の個別音声ファイルでは５人の話者が推定される場合、このように異なる結果を統合するために信頼度を活用するのである。

クラスタ決定部３２０は、各機器の個別類似度行列８０３を平均した平均類似度行列を利用してクラスタ数８０４を決定することも可能である。しかし、平均類似度行列を利用する場合には、クラスタ数８０４を誤って推定するというエラーが発生することがある。

類似度行列から計算された固有値のうちから有効な主成分の数を類推してクラスタ数８０４を推定するため、類似度行列のシャープネス（ｓｈａｒｐｎｅｓｓ）が下がれば性能が下落することもある。

したがって、クラスタ数８０４を決定するあたり、場合によっては、音声ファイルをスムージング（ｓｍｏｏｔｈｉｎｇ）した結果（平均類似度行列）よりはシャープネスした結果（各機器の個別類似度行列）を利用する方が、より正確な結果が得られる可能性がある。

実施形態によっては、個別類似度行列８０３の加重和（ｗｅｉｇｈｔｅｄｓｕｍ）を適用してよい。

個別類似度行列８０３の区間ごとに信頼度が異なることがあるという点を考慮した上で、個別類似度行列８０３のすべての区間に同じ加重値を適用して固有値分解を実行するのではなく、ＥＰＤとして検出されなかった領域の加重値を低める方向などによって加重値を学習して適用してよい。

一例として、個別類似度行列８０３の区間ごとに加重値をランダムに適用して行列を統合した後、固有値を計算して信頼度を高める方向によって加重値を学習してよい。

再び図５を参照すると、クラスタ決定部３２０は、各機器の各個別音声ファイルに対して推定されたクラスタ数と信頼度値を統合した後、信頼度に基づいてクラスタ数を最終的に決定してよい（Ｓ５６）。

クラスタ決定部３２０は、各機器の各個別音声ファイルに対して計算された個別類似度行列のうちで信頼度値が最も高い個別類似度行列として計算されたクラスタ数を、最終クラスタ数として決定してよい。

クラスタリング実行部３３０は、各機器のＥＰＤ結果を統合した結果であるＥＰＤユニオンを利用して、独立的にそれぞれ埋め込み抽出をすることで各機器の個別類似度行列を計算してよい（Ｓ５７）。

クラスタリング実行部３３０は、各機器に対して独立的に計算された個別類似度行列を平均して平均類似度行列を計算した後、平均類似度行列とともに、段階Ｓ５６で信頼度に基づいて決定されたクラスタ数を利用して話者ダイアライゼーションクラスタリングを実行してよい（Ｓ５８）。

図９に示すように、クラスタリング実行部３３０は、各機器に対して独立的に計算された個別類似度行列９０１を平均した平均類似度行列９０２を計算してよい。

一例として、クラスタリング実行部３３０は、各機器に対して計算された個別類似度行列９０１に対して行列算術演算（ｅｌｅｍｅｎｔ－ｗｉｓｅ）を実行して平均類似度行列９０２を計算してよい。

続いて、クラスタリング実行部３３０は、平均類似度行列９０２に対して固有値分解を実行し、固有値順に整列された固有ベクトルに基づいてクラスタリングを実行してよい。

１つの個別音声ファイルからｍ個の音声区間が抽出される場合、ｍ×ｍ個のエレメントを含む行列が生成されるが、このとき、各エレメントを示すｖ_ｉ、ｊは、ｉ番目の音声区間からｊ番目の音声区間までの距離を意味する。

このとき、クラスタリング実行部３３０は、信頼度に基づいて決定されたクラスタ数だけ固有ベクトルを選択する方式によって話者ダイアライゼーションクラスタリングを実行してよい。

話者ダイアライゼーションのための全体過程は、会議中に複数の個人機器で同時に録音された音声ファイルを受信し、各機器の音声ファイルに対してＥＰＤを実行し、ＥＰＤが実行されたセグメント（音声領域）単位で埋め込みを抽出してクラスタ数（話者数）を推定した後、推定されたクラスタ数に基づいてクラスタリングを実行する。

本実施形態において、話者ダイアライゼーション性能を改善するための過程としては、各機器の個別音声ファイルを利用してＥＰＤユニオンを生成すること、各機器の個別音声ファイルに対して計算された個別埋め込み行列を利用してクラスタ数を推定した後に信頼度に基づいて最終クラスタ数を決定すること、信頼度に基づくクラスタ数と平均類似度行列を利用して話者ダイアライゼーションクラスタリングを実行することが含まれてよい。

このように、本発明の実施形態によると、追加の装備は必要とせず、複数の会議参加者が所持している個人機器を活用しながら、マルチデバイスによる話者ダイアライゼーションを実行することができる。

本発明の実施形態によると、各機器の音声ファイルからクラスタ数を推定した後、これに対する信頼度に基づいて最終クラスタ数を決定することにより、正確に推定されたクラスタ数によって話者ダイアライゼーション性能を向上させることができる。

このように、本実施形態では、マルチデバイスによる話者ダイアライゼーションという新たなタスクを定義することができ、会議参加者それぞれが保有している個人機器を活用するためシステム構築費用を節減することができ、会議を行うための空間をより広い範囲で効率的にカバーすることができる。

新たなタスクに合うようにモデルを学習することが最も一般的な接近方式ではあるが、新たなモデルの学習のためには、データの収集、適用する実際の環境、一般化性能などを考慮する必要がある。この反面、本実施形態は、従来の話者ダイアライゼーションモデルをそのまま使用することができ、既にサービスされている話者ダイアライゼーションシステムの場合であっても、モデルを再学習する必要なく、マルチデバイスから会議音声を受信する機能を追加するだけで話者ダイアライゼーション性能を向上させることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

次の付記を記す。
（付記１）コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、
前記少なくとも１つのプロセッサにより、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、
前記少なくとも１つのプロセッサにより、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および
前記少なくとも１つのプロセッサにより、前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。
（付記２）前記受信する段階は、
前記各電子機器の前記音声ファイルに対してエンドポイント検出（ＥＰＤ）を実行する段階、および
前記各電子機器のＥＰＤ結果を統合してＥＰＤユニオンを生成する段階
を含む、付記１に記載の話者ダイアライゼーション方法。
（付記３）前記推定する段階は、
前記各電子機器の前記音声ファイルのＥＰＤ結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、付記１に記載の話者ダイアライゼーション方法。
（付記４）前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、および
前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、付記３に記載の話者ダイアライゼーション方法。
（付記５）前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階
を含む、付記３に記載の話者ダイアライゼーション方法。
（付記６）前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定すること
を特徴とする、付記５に記載の話者ダイアライゼーション方法。
（付記７）前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値の平均を計算した平均値を前記類似度行列の信頼度値として決定すること
を特徴とする、付記５に記載の話者ダイアライゼーション方法。
（付記８）前記推定する段階は、
前記音声ファイルのＥＰＤ結果に対して学習された加重値に基づいて前記類似度行列に対する加重和を適用する段階
をさらに含む、付記３に記載の話者ダイアライゼーション方法。
（付記９）前記決定する段階は、
前記信頼度値が最も大きい類似度行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、付記３に記載の話者ダイアライゼーション方法。
（付記１０）前記実行する段階は、
前記各電子機器の前記音声ファイルのＥＰＤ結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する段階
を含む、付記１に記載の話者ダイアライゼーション方法。
（付記１１）付記１～１０のうちのいずれか一つに記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
（付記１２）付記１～１０のうちのいずれか一つに記載の話者ダイアライゼーション方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
（付記１３）コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
複数の電子機器から各電子機器で録音された音声ファイルを受信する過程、
前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する過程、
前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する過程、および
前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する過程
を処理する、コンピュータシステム。
（付記１４）前記受信する過程は、
前記各電子機器の前記音声ファイルに対してＥＰＤを実行する過程、および
前記各電子機器のＥＰＤ結果を統合してＥＰＤユニオンを生成する過程
を含む、付記１３に記載のコンピュータシステム。
（付記１５）前記推定する過程は、
前記各電子機器の前記音声ファイルのＥＰＤ結果から埋め込み抽出をすることで類似度行列を計算する過程、および
前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する過程
を含む、付記１３に記載のコンピュータシステム。
（付記１６）前記候補クラスタ数と前記類似度行列の信頼度値を計算する過程は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する過程、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する過程、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する過程
を含む、付記１５に記載のコンピュータシステム。
（付記１７）前記残った固有値を利用して前記信頼度値を計算する過程は、
前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定すること
を特徴とする、付記１６に記載のコンピュータシステム。
（付記１８）前記推定する過程は、
前記音声ファイルのＥＰＤ結果に対して学習された加重値に基づいて前記類似度行列に対する加重和を適用する過程
をさらに含む、付記１５に記載のコンピュータシステム。
（付記１９）前記決定する過程は、
前記信頼度値が最も大きい類似度行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、付記１５に記載のコンピュータシステム。
（付記２０）前記実行する過程は、
前記各電子機器の前記音声ファイルのＥＰＤ結果から埋め込み抽出をすることで類似度行列を計算する過程、および
前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する過程
を含む、付記１３に記載のコンピュータシステム。

２２０：プロセッサ
３１０：音声統合部
３２０：クラスタ決定部
３３０：クラスタリング実行部

Claims

コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、複数の電子機器から各電子機器で録音された個別音声ファイルを受信する段階、
前記各電子機器の前記個別音声ファイルに対してエンドポイント検出（ＥＰＤ）を実行する段階、
前記各電子機器の個別ＥＰＤ結果を統合してＥＰＤユニオンを生成する段階、
前記少なくとも１つのプロセッサにより、前記各電子機器の前記個別音声ファイルに対して計算された個別埋め込み行列に基づいて候補クラスタ数を推定する段階であって、前記個別ＥＰＤ結果を利用して埋め込み抽出をすることで前記各電子機器の個別埋め込み行列を計算する段階、および前記各電子機器の前記個別埋め込み行列を利用して前記候補クラスタ数と前記個別埋め込み行列の信頼度値を計算する段階を含む、推定する段階、
前記少なくとも１つのプロセッサにより、前記信頼度値に基づいて前記各電子機器の前記候補クラスタ数を利用して最終クラスタ数を決定する段階、および
前記少なくとも１つのプロセッサにより、前記ＥＰＤユニオンを利用して埋め込み抽出をすることで計算される前記各電子機器の個別類似度行列を平均した平均類似度行列と前記最終クラスタ数に基づいて話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。
前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する段階は、
前記個別埋め込み行列に対して固有値分解を実行して固有値を抽出する段階、および
前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する段階
を含む、請求項１に記載の話者ダイアライゼーション方法。
前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する段階は、
前記個別埋め込み行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階
を含む、請求項１に記載の話者ダイアライゼーション方法。
前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値のうちで最も大きい固有値を前記個別埋め込み行列の前記信頼度値として決定すること
を特徴とする、請求項３に記載の話者ダイアライゼーション方法。
前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値の平均を計算した平均値を前記個別埋め込み行列の前記信頼度値として決定すること
を特徴とする、請求項３に記載の話者ダイアライゼーション方法。
前記推定する段階は、
前記個別ＥＰＤ結果に対して学習された加重値に基づいて前記個別埋め込み行列に対する加重和を適用する段階
をさらに含む、請求項１～５のうちのいずれか一項に記載の話者ダイアライゼーション方法。
前記決定する段階は、
前記信頼度値が最も大きい埋め込み行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、請求項１～６のうちのいずれか一項に記載の話者ダイアライゼーション方法。
請求項１～７のうちのいずれか一項に記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
請求項１～７のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
複数の電子機器から各電子機器で録音された個別音声ファイルを受信する過程、
前記各電子機器の前記個別音声ファイルに対してエンドポイント検出（ＥＰＤ）を実行する過程、
前記各電子機器の個別ＥＰＤ結果を統合してＥＰＤユニオンを生成する過程、
前記各電子機器の前記個別音声ファイルに対して計算された個別埋め込み行列に基づいて候補クラスタ数を推定する過程であって、前記個別ＥＰＤ結果を利用して埋め込み抽出をすることで前記各電子機器の個別埋め込み行列を計算する過程、および前記各電子機器の前記個別埋め込み行列を利用して前記候補クラスタ数と前記個別埋め込み行列の信頼度値を計算する過程を含む、推定する過程、
前記信頼度値に基づいて前記各電子機器の前記候補クラスタ数を利用して最終クラスタ数を決定する過程、および
前記ＥＰＤユニオンを利用して埋め込み抽出をすることで計算される前記各電子機器の個別類似度行列を平均した平均類似度行列と前記最終クラスタ数に基づいて話者ダイアライゼーションクラスタリングを実行する過程
を処理する、コンピュータシステム。
前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する過程は、
前記個別埋め込み行列に対して固有値分解を実行して固有値を抽出する過程、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する過程、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する過程
を含む、請求項１０に記載のコンピュータシステム。
前記残った固有値を利用して前記信頼度値を計算する過程は、
前記残った固有値のうちで最も大きい固有値を前記個別埋め込み行列の前記信頼度値として決定すること
を特徴とする、請求項１１に記載のコンピュータシステム。
前記推定する過程は、
前記個別ＥＰＤ結果に対して学習された加重値に基づいて前記個別埋め込み行列に対する加重和を適用する過程
をさらに含む、請求項１０～１２のうちのいずれか一項に記載のコンピュータシステム。
前記決定する過程は、
前記信頼度値が最も大きい埋め込み行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、請求項１０～１３のうちのいずれか一項に記載のコンピュータシステム。