JP2020140169A

JP2020140169A - 話者決定装置、話者決定方法、および話者決定装置の制御プログラム

Info

Publication number: JP2020140169A
Application number: JP2019037625A
Authority: JP
Inventors: 佳実中山; Yoshimi Nakayama
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-09-03
Anticipated expiration: 2039-03-01
Also published as: US20200279570A1; JP7287006B2

Abstract

【課題】話者毎にマイクロホンを取り付けることなく、話者を高い精度で判別して決定する話者決定装置を提供する。【解決手段】話者決定装置において、制御部１１は、音声取得部１１１、テキスト変換部１１４、テキスト解析部１１５、切り替え判断部１１７および話者決定部１１８を有する。音声取得部１１１は、会議における音声に関するデータを取得する。切り替え判断部１１７は、音声に関するデータから抽出された音声の特徴量に基づいて、音声が切り替わったか否かを判断する。テキスト変換部１１４は、音声に関するデータに基づいて音声を認識し、テキストに変換する。テキスト解析部１１５は、テキストを解析し、テキストにおける文の区切りを検出する。話者決定部１１８は、文の区切りのタイミングおよび音声の切り替わりのタイミングに基づいて、話者を決定する。【選択図】図２

Description

本発明は、話者決定装置、話者決定方法、および話者決定装置の制御プログラムに関する。

従来から、音声データに基づいて話者を判別し、議事録を出力する種々の技術が知られている。例えば特許文献１には、話者毎に取り付けられたマイクロホンに入力された音声のデータに基づいて、話者を判別し、議事録を表示するシステムが開示されている。

特開２０１８−４５２０８号公報

しかし、特許文献１に開示されたシステムでは、話者毎にマイクロホンが取り付けられ、基本的には、各マイクロホンに各話者の音声が入力され、話者毎に音声データが取得されることが前提になっている。このため、話者毎にマイクロホンが取り付けられない場合、話者が適切に判別されないという問題がある。

特に、話者は、常に一定の調子で発話するのではなく、言葉を選んだり考えたりしながら、文頭や文末を弱く発話する場合がある。また、ある話者が発話し終わる前に、他の話者が割り込んで発話し始めたり、雑音が入ったりする場合もある。特許文献１に開示されたシステムでは、これらの場合において話者毎にマイクロホンが取り付けられないとき、話者がさらに判別され難くなるという問題がある。

本発明は、上述した課題に鑑みてなされたものである。したがって、本発明の目的は、話者毎にマイクロホンを取り付けることなく、話者を高い精度で判別して決定する話者決定装置、話者決定方法、および話者決定装置の制御プログラムを提供することである。

本発明の上記の目的は、下記の手段によって達成される。

（１）会議における音声に関するデータを取得する音声取得部と、前記音声取得部によって取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断部と、前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換部と、前記テキスト変換部によって変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析部と、前記テキスト解析部によって検出された前記文の区切りのタイミングと、前記音声切り替え判断部によって判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定部と、を有する話者決定装置。

（２）前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致するか否かの判断結果に基づいて、前記話者を決定する上記（１）に記載の話者決定装置。

（３）前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致すると判断した場合、前記テキスト解析部による前記テキストの解析結果によらずに、一致したタイミング前における前記話者を決定する上記（２）に記載の話者決定装置。

（４）前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致しないと判断した場合、前記テキスト解析部による前記テキストの解析結果に基づいて、前記話者を決定する上記（２）または（３）に記載の話者決定装置。

（５）前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングに基づいて、前記話者を決定できない場合、前記話者が不明であると決定する上記（１）〜（４）のいずれか一つに記載の話者決定装置。

（６）前記テキスト解析部は、前記テキストにおける無言部分、または前記文の構成に基づいて、前記文の区切りを検出する上記（１）〜（５）のいずれか一つに記載の話者決定装置。

（７）前記音声の特徴量に基づいて、前記音声を発した話者を仮決定する音声解析部をさらに有し、前記音声切り替え判断部は、前記音声が切り替わったか否かの判断として、前記音声解析部によって仮決定されている前記話者が切り替わったか否かの判断を行う上記（１）〜（６）のいずれか一つに記載の話者決定装置。

（８）前記音声解析部は、前記会議の開始前において取得された前記音声に関するデータに基づいて、前記話者毎の前記音声の特徴量のグループを生成し、前記会議の開始後において取得された前記音声に関するデータに基づいて、前記音声の特徴量を抽出し、抽出された前記音声の特徴量に対応する前記グループを特定することによって、前記話者を仮決定する上記（７）に記載の話者決定装置。

（９）前記会議の開始前において、前記音声取得部によって前記音声に関するデータの取得が開始されてから、所定の第１の時間が経過したか否かを判断し、前記第１の時間が経過したと判断した場合、前記会議が開始されたと判断する第１の時間計測部をさらに有する上記（８）に記載の話者決定装置。

（１０）前記音声取得部は、前記会議の開始前において前記音声に関するデータの取得を開始し、前記テキスト解析部は、前記会議の開始前において前記テキストの解析を開始し、前記会議の開始を示す言葉が発せられたか否かを判断し、前記会議の開始を示す言葉が発せられたと判断した場合、前記会議が開始されたと判断する上記（８）または（９）に記載の話者決定装置。

（１１）前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化したと判断した場合、前記第２の特徴量に対応する前記グループが存在するか否かをさらに判断し、前記第２の特徴量に対応する前記グループが存在しないと判断した場合、前記第２の特徴量のグループを新たに生成する上記（８）〜（１０）のいずれか一つに記載の話者決定装置。

（１２）前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化したと判断された場合、所定の第２の時間が経過するまで前記第２の特徴量の抽出が続いたか否かを判断する第２の時間計測部をさらに有し、前記音声切り替え判断部は、前記第２の時間計測部によって、前記第２の特徴量の抽出が続いたと判断された場合、前記話者が切り替わったと判断する上記（７）〜（１１）のいずれか一つに記載の話者決定装置。

（１３）前記テキスト解析部は、前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化したと判断された場合、所定の第２の時間中に所定の言葉が発せられたか否かを判断し、前記音声切り替え判断部は、前記テキスト解析部によって、前記所定の言葉が発せられたと判断された場合、前記話者が切り替わったと判断する上記（７）〜（１２）のいずれか一つに記載の話者決定装置。

（１４）前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化した後、前記第１の特徴量に戻ったか否かを判断し、前記音声切り替え判断部は、前記音声解析部によって、抽出されている前記音声の特徴量が、前記第１の特徴量に戻らず、前記第１の特徴量および前記第２の特徴量とは異なる第３の話者の前記音声の特徴量である第３の特徴量にさらに変化したと判断された場合、前記話者が切り替わったと判断し、前記音声解析部によって、抽出されている前記音声の特徴量が前記第１の特徴量に戻ったと判断された場合、前記話者が切り替わっていないと判断する上記（７）〜（１３）のいずれか一つに記載の話者決定装置。

（１５）前記話者決定部は、抽出されている前記音声の特徴量が、前記第１の特徴量から前記第２の特徴量に変化したタイミングである第１のタイミング以降から、前記第２の特徴量から前記第３の特徴量に変化したタイミングである第２のタイミング前までの第１の期間において、前記テキスト解析部によって、前記文の区切りが検出されたか否かを判断する上記（１４）に記載の話者決定装置。

（１６）前記話者決定部は、前記第１の期間において、前記文の一つの区切りが検出されたと判断した場合、前記文の一つの区切りのタイミング前における前記話者が前記第１の話者であり、前記文の一つの区切りのタイミング以降における前記話者が前記第３の話者であると決定し、前記第１の期間において、前記文の複数の区切りが検出されたと判断した場合、前記第１のタイミング前における前記話者が前記第１の話者であり、前記第１の期間における前記話者が不明であり、前記第２のタイミング以降における前記話者が前記第３の話者であると決定する上記（１５）に記載の話者決定装置。

（１７）前記話者決定部は、前記第１の期間において、前記文の区切りが検出されていないと判断した場合、前記第１のタイミング前に存在する前記文の区切りのタイミング前における前記話者が前記第１の話者であると決定し、前記第１のタイミング前に存在する前記文の区切りのタイミング以降における前記話者の決定を一旦保留し、前記音声解析部は、前記話者決定部によって前記話者の決定が保留された場合、前記第１のタイミング前に存在する前記文の区切りのタイミング以降から、次の前記文の区切りのタイミング前までの第２の期間において、抽出された前記音声の特徴量を平均化し、平均化された前記音声の特徴量に対応する、前記話者毎の前記音声の特徴量のグループが存在するか否かを判断し、前記話者決定部はさらに、前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在すると判断された場合、前記第２の期間における前記話者が、前記グループに対応する前記話者であると決定し、前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在しないと判断された場合、前記第２の期間における前記話者が不明であると決定する上記（１５）または（１６）に記載の話者決定装置。

（１８）前記話者決定部によって決定された前記話者に関する情報を前記テキストに関する情報に関連付けて、出力部に出力させる出力制御部をさらに有する上記（１）〜（１７）のいずれか一つに記載の話者決定装置。

（１９）前記出力制御部は、前記話者の分類名もしくは名前に関する情報を出力する、前記話者毎に対応する前記テキストに関する情報を色分けして出力する、または、前記話者毎に対応する前記テキストに関する情報を吹き出し内に出力するように前記出力部を制御することによって、前記話者に関する情報を前記出力部に出力させる上記（１８）に記載の話者決定装置。

（２０）会議における音声に関するデータを取得する音声取得ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、を含む話者決定方法。

（２１）話者を決定する話者決定装置の制御プログラムであって、会議における音声に関するデータを取得する音声取得ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、を含む処理をコンピューターに実行させるための制御プログラム。

本発明の一実施形態に係る話者決定装置によれば、会議における音声データに基づいて、テキストにおける文の区切りを検出しつつ、音声が切り替わったか否かを判断する。そして、話者決定装置は、文の区切りのタイミングおよび音声の切り替わりのタイミングに基づいて、話者を決定する。話者決定装置は、話者毎にマイクロホンを取り付けることなく、一つの音声データに基づいて、文の区切りのタイミングおよび音声の切り替わりのタイミングを判断することによって、様々な調子で発話する話者を高い精度で判別して決定できる。

本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。制御部の機能構成を示すブロック図である。ユーザー端末の処理の手順を示すフローチャートである。ユーザー端末に表示される画面の一例を示す図である。ユーザー端末に表示される画面の一例を示す図である。図３のステップＳ１０７の話者切り替え判断処理の手順を示すサブルーチンフローチャートである。図３のステップＳ１０９の話者決定処理の手順を示すサブルーチンフローチャートである。図３のステップＳ１０９の話者決定処理の手順を示すサブルーチンフローチャートである。話者決定処理について説明するための図である。話者決定処理について説明するための図である。話者決定処理について説明するための図である。話者決定処理について説明するための図である。話者決定システムの全体構成を示す図である。

以下、添付した図面を参照して、本発明の実施形態について説明する。なお、図面の説明において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法の比率は、説明の都合上誇張され、実際の比率とは異なる場合がある。

まず、本発明の一実施形態に係る、話者決定装置としてのユーザー端末について説明する。

図１は、本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。

図１に示すように、ユーザー端末１０は、制御部１１、記憶部１２、通信部１３、表示部１４、操作受付部１５および音入力部１６を備える。各構成要素は、信号をやり取りするためのバスを介して、相互に接続されている。ユーザー端末１０は、例えば、ノート型またはデスクトップ型のＰＣ端末や、タブレット端末、スマートフォン、携帯電話等である。

制御部１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備え、プログラムに従い、上述した各構成要素の制御や各種の演算処理を実行する。制御部１１の機能構成については、図２を参照して後述する。

記憶部１２は、予め各種プログラムや各種データを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、作業領域として一時的にプログラムやデータを記憶するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、各種プログラムや各種データを記憶するハードディスク等を備える。

通信部１３は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワークを介して、他の機器と通信するためのインターフェースを備える。

出力部としての表示部１４は、ＬＣＤ（液晶ディスプレイ）や有機ＥＬディスプレイ等を備え、各種情報を表示（出力）する。

操作受付部１５は、キーボードや、マウス等のポインティングデバイス、タッチセンサー等を備え、各種操作を受け付ける。操作受付部１５は、例えば、表示部１４に表示された画面に対するユーザーの入力操作を受け付ける。

音入力部１６は、マイクロホン等を備え、外部の音声等の音の入力を受け付ける。なお、音入力部１６は、マイクロホン自体を備えなくてもよく、外部のマイクロホン等を介して音の入力を受け付けるための、入力回路を備えてもよい。

なお、ユーザー端末１０は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。

続いて、制御部１１の機能構成について説明する。

図２は、制御部の機能構成を示すブロック図である。

制御部１１は、プログラムを読み込んで処理を実行することによって、図２に示すように、音声取得部１１１、音声解析部１１２、時間計測部１１３、テキスト変換部１１４、テキスト解析部１１５、表示制御部１１６、切り替え判断部１１７および話者決定部１１８として機能する。

音声取得部１１１は、音声に関するデータ（以下「音声データ」とも称する）を取得する。音声解析部１１２は、音声データに基づく音声の解析、すなわち、音声データから抽出される音声の特徴量に基づく解析を行い、音声を発した話者を仮決定する。時間計測部１１３は、時間を計測し、時間に関する判断を行う。テキスト変換部１１４は、周知の音声認識技術を用いて、音声データに基づいて音声を認識し、テキストに変換（テキスト化）する。テキスト解析部１１５は、テキストを解析し、テキストに基づく判断を行ったり、テキストにおける文の区切りを検出したりする。表示制御部１１６は、各種情報を表示部１４に表示させる。切り替え判断部（音声切り替え判断部）１１７は、音声が切り替わったか否か、すなわち、音声が、特徴量が異なる音声に切り替わったか否かを判断する。より具体的には、切り替え判断部１１７は、音声が切り替わったか否かの判断として、仮決定されている話者の音声が他の話者の音声に切り替わったか否か、ひいては、仮決定されている話者が他の話者に切り替わったか否かの判断を行う。話者決定部１１８は、文の区切りのタイミングと、音声ひいては話者の切り替わりのタイミングとに基づいて、話者を正式に決定する。

なお、サーバー等の外部装置が、ユーザー端末１０の代わりに、上述した機能のうちの少なくとも一部の機能を実現することによって、話者決定装置として機能してもよい。この場合、サーバー等の外部装置は、有線または無線によってユーザー端末１０に接続され、ユーザー端末１０から音声データを取得してもよい。

続いて、ユーザー端末１０における処理の流れについて説明する。ユーザー端末１０の処理は、話者毎にマイクロホンを取り付けることなく、話者を高い精度で判別して決定するものである。

図３は、ユーザー端末の処理の手順を示すフローチャートである。図４Ａおよび図４Ｂは、ユーザー端末に表示される画面の一例を示す図である。図３に示す処理のアルゴリズムは、記憶部１２にプログラムとして記憶されており、制御部１１によって実行される。

図３に示すように、まず、制御部１１は、音声取得部１１１として、会議の開始前において、音声データを取得する処理の実行を開始する（ステップＳ１０１）。制御部１１は、例えば、会議の開始前において音入力部１６に入力された、会議の参加者としての話者同士が挨拶や雑談、点呼等を行う際に発する音声や、話者が機器の接続確認を行う際に発する音声等に関するデータを取得する。

続いて、制御部１１は、音声解析部１１２として、取得された音声データに基づいて、音声の特徴量を抽出し、抽出された音声の特徴量に基づいて、話者毎の音声の特徴量のグループを生成する（ステップＳ１０２）。より具体的には、制御部１１は、例えば、ＭＦＣＣ（メル周波数ケプストラム係数）やフォルマント周波数等を、音声の特徴量として抽出する。そして、制御部１１は、抽出された音声の特徴量について、例えば周知のクラスター分析を行い、音声の特徴量の類似度（一致度）が高い（差分が小さい）順に、音声の特徴量をグループ化して、話者毎の音声の特徴量のグループを生成する。制御部１１は、例えば、所定の閾値よりも高い類似度を有する（小さい差分を有する）音声の特徴量同士を、同じ話者の音声の特徴量として、同じグループに分類してもよい。制御部１１は、生成された音声の特徴量のグループを、記憶部１２に記憶させてもよい。

続いて、制御部１１は、会議が開始されたか否かを判断する（ステップＳ１０３）。制御部１１は、例えば、時間計測部１１３として、ステップＳ１０１において音声データの取得が開始されてから、所定の第１の時間が経過したか否かを判断し、第１の時間が経過したと判断した場合、会議が開始されたと判断してもよい。第１の時間は、例えば数分であってもよい。また、制御部１１は、操作受付部１５において、会議の開始を示すユーザーの操作が受け付けられたか否かを判断し、当該ユーザーの操作が受け付けられたと判断した場合、会議が開始されたと判断してもよい。

また、制御部１１は、会議の開始を示す所定の言葉が発せられたか否かを判断し、会議の開始を示す言葉が発せられたと判断した場合、会議が開始されたと判断してもよい。より具体的には、制御部１１は、ステップＳ１０１の直後から、テキスト変換部１１４として、音声データに基づいて音声を認識し、テキストに変換する処理の実行を開始していてもよい。また、制御部１１は、テキスト解析部１１５として、変換されたテキストを解析する処理の実行を開始していてもよい。そして、制御部１１は、話者のいずれかによって会議の開始を示す言葉が発せられたか否かを判断し、会議の開始を示す言葉が発せられたと判断した場合、会議が開始されたと判断してもよい。記憶部１２は、会議の開始を示す言葉を含むテーブルまたはリストを予め記憶しており、制御部１１は、当該テーブルまたはリストに含まれる言葉が発せられたか否かを判断してもよい。

会議が開始されていないと判断した場合（ステップＳ１０３：ＮＯ）、制御部１１は、ステップＳ１０２の処理に戻る。そして、制御部１１は、会議が開始されたと判断するまで、ステップＳ１０２およびＳ１０３の処理の実行を繰り返す。すなわち、制御部１１は、会議の開始前における処理として、複数の音声の特徴量の類似度に応じて、話者毎の音声の特徴量のグループを生成する処理の実行を繰り返す。なお、話者毎の音声の特徴量のグループの数は、会議の参加人数に対応する数であることが好ましく、制御部１１は、会議の参加人数に関する情報を予め取得し、参加人数に対応する数のグループを生成してもよい。ただし、ステップＳ１０１において音声データの取得が開始されてから会議が開始されるまでの時間において、発話しない参加者がいる場合等、話者毎の音声の特徴量のグループの数が、会議の参加人数に対応する数でない場合があってもよい。

会議が開始されたと判断した場合（ステップＳ１０３：ＹＥＳ）、制御部１１は、テキスト変換部１１４として、音声データに基づいて音声を認識し、テキストに変換する処理の実行を開始する（ステップＳ１０４）。音声データは、ステップＳ１０１の時点から継続して取得されており、ステップＳ１０４の時点では、会議中における音声データとして取得されている。なお、制御部１１は、会議が開始されたか否かを判断するために、ステップＳ１０１の直後からステップＳ１０４と同様の処理の実行を開始していた場合、ステップＳ１０４の処理を省略してもよい。そして、制御部１１は、表示制御部１１６として、変換されたテキストに関する情報（以下「テキスト情報」とも称する）を、表示部１４に表示させる処理の実行を開始する（ステップＳ１０５）。表示部１４は、例えば図４Ａに示すように、発話内容としてのテキスト情報をリアルタイムに表示する。

続いて、制御部１１は、音声解析部１１２として、会議中における音声データに基づいて、音声の特徴量を抽出し、抽出された音声の特徴量に基づいて、話者を仮決定する処理の実行を開始する（ステップＳ１０６）。より具体的には、制御部１１は、ステップＳ１０２において予め生成された話者毎の音声の特徴量のグループのうち、抽出された音声の特徴量に対応する（抽出された音声の特徴量が含まれる）グループを特定することによって、話者を仮決定する。

続いて、制御部１１は、話者切り替え判断処理を実行する（ステップＳ１０７）。ステップＳ１０７の処理の詳細については、図５を参照して後述する。そして、制御部１１は、ステップＳ１０７の判断結果に基づいて、仮決定されている話者が切り替わったか否かを判断する（ステップＳ１０８）。

話者が切り替わっていないと判断した場合（ステップＳ１０８：ＮＯ）、制御部１１は、話者が切り替わったと判断するまで、ステップＳ１０７およびＳ１０８の処理の実行を繰り返す。

話者が切り替わったと判断した場合（ステップＳ１０８：ＹＥＳ）、制御部１１は、話者正式決定処理を実行する（ステップＳ１０９）。ステップＳ１０９の処理の詳細については、図６Ａおよび図６Ｂを参照して後述する。そして、制御部１１は、表示制御部１１６として、ステップＳ１０９において決定された話者に関する情報（以下「話者情報」とも称する）を、表示されているテキスト情報に関連付けて、表示部１４に表示させる（ステップＳ１１０）。

続いて、制御部１１は、会議が終了したか否かを判断する（ステップＳ１１１）。制御部１１は、例えばステップＳ１０３と同様に、操作受付部１５において、会議の終了を示すユーザーの操作が受け付けられたか否かを判断し、当該ユーザーの操作が受け付けられたと判断した場合、会議が終了したと判断してもよい。また、制御部１１は、会議の終了を示す所定の言葉が発せられたか否かを判断し、会議の終了を示す言葉が発せられたと判断した場合、会議が終了したと判断してもよい。記憶部１２は、会議の終了を示す言葉を含むテーブルまたはリストを予め記憶しており、制御部１１は、当該テーブルまたはリストに含まれる言葉が発せられたか否かを判断してもよい。

会議が終了していないと判断した場合（ステップＳ１１１：ＮＯ）、制御部１１は、ステップＳ１０７の処理に戻る。そして、制御部１１は、会議が終了したと判断するまで、ステップＳ１０７〜Ｓ１１１の処理の実行を繰り返す。すなわち、制御部１１は、話者を決定し次第、例えば図４Ｂに示すように、話者情報をテキスト情報に関連付けて、表示部１４にリアルタイムに表示させる処理の実行を繰り返す。これにより、話者情報がテキスト情報に関連付けられた議事録が表示される。図４Ｂでは、１行目および３行目のテキスト情報に対応する話者がＡであり、２行目のテキスト情報に対応する話者がＢであると決定され、４行目および５行目のテキスト情報に対応する話者が未だ決定されていない状況が例示されている。なお、図４Ｂに示す例では、話者情報として、Ａ、Ｂ、…等の話者の分類名に関する情報が表示されているが、話者情報の表示方法は、図４Ｂに示す例に限定されない。制御部１１は、例えば、話者の名前に関する情報を表示する、話者毎に対応するテキスト情報を色分けして表示する、または、話者毎に対応するテキスト情報を吹き出し内に表示するように、表示部１４を制御してもよい。制御部１１は、話者の名前を入力するための入力画面を表示部１４に表示させ、話者の名前に関する情報を入力するユーザーの操作を操作受付部１５において受け付けることによって、話者の名前に関する情報を取得してもよい。

会議が終了したと判断した場合（ステップＳ１１１：ＹＥＳ）、制御部１１は、図３に示す処理を終了する。

続いて、ステップＳ１０７の話者切り替え判断処理の詳細について、説明する。

図５は、図３のステップＳ１０７の話者切り替え判断処理の手順を示すサブルーチンフローチャートである。

図５に示すように、まず、制御部１１は、音声解析部１１２として、仮決定されている話者の音声の特徴量として抽出されている音声の特徴量が、ある話者の音声の特徴量から、当該音声の特徴量とは異なる他の話者の音声の特徴量に変化したか否かを判断する（ステップＳ２０１）。以下では、説明の都合上、ある話者を話者Ｐ（第１の話者）、他の話者を話者Ｑ（第２の話者）と称する。

音声の特徴量が、話者Ｐの音声の特徴量から話者Ｑの音声の特徴量に変化したと判断した場合（ステップＳ２０１：ＹＥＳ）、制御部１１は、ステップＳ２０２の処理に進む。制御部１１は、例えば、抽出されている音声の特徴量が、ステップＳ１０２において予め生成された話者Ｐの音声の特徴量のグループに含まれる状態から、含まれない状態に変化した場合、話者Ｐの音声の特徴量から変化したと判断する。そして、制御部１１は、時間計測部１１３として、所定の第２の時間が経過するまで話者Ｑの音声の特徴量の抽出が続いたか否かを判断する（ステップＳ２０２）。第２の時間は、例えば、数百ｍｓ〜数秒であってもよい。

話者Ｑの音声の特徴量の抽出が続かなかったと判断した場合（ステップＳ２０２：ＮＯ）、制御部１１は、ステップＳ２０３の処理に進む。制御部１１は、例えば、抽出されている音声の特徴量が、第２の時間が経過する前に、話者Ｑの音声の特徴量から他の話者の音声の特徴量にさらに変化したと判断した場合、話者Ｑの音声の特徴量の抽出が続かなかったと判断する。そして、制御部１１は、テキスト解析部１１５として、話者Ｑの音声の特徴量が抽出されている期間を含む第２の時間におけるテキストを解析し、第２の時間中に所定の言葉が発せられたか否かを判断する（ステップＳ２０３）。所定の言葉は、例えば、「はい」や「そうですね」等の相槌や、「それで？」等の応答等を含む短文からなる言葉であってもよい。記憶部１２は、所定の言葉を含むテーブルまたはリストを予め記憶しており、制御部１１は、当該テーブルまたはリストに含まれる所定の言葉が発せられたか否かを判断してもよい。

所定の言葉が発せられたと判断した場合（ステップＳ２０３：ＹＥＳ）、あるいは、話者Ｑの音声の特徴量の抽出が続いたと判断した場合（ステップＳ２０２：ＹＥＳ）、制御部１１は、ステップＳ２０４の処理に進む。そして、制御部１１は、音声解析部１１２として、ステップＳ１０２において予め生成された話者毎の音声の特徴量のグループのうち、話者Ｑの音声の特徴量に対応するグループが存在するか否かを判断する（ステップＳ２０４）。

話者Ｑの音声の特徴量に対応するグループが存在しないと判断した場合（ステップＳ２０４：ＮＯ）、制御部１１は、フラグ１を立てて（ステップＳ２０５）、ステップＳ２０６の処理に進む。すなわち、フラグ１は、クラスタリングされていない（音声の特徴量に対応するグループが存在しない）新たな話者Ｑが発見されたことを示すフラグである。一方、話者Ｑの音声の特徴量に対応するグループが存在すると判断した場合（ステップＳ２０４：ＹＥＳ）、制御部１１は、そのままステップＳ２０６の処理に進む。そして、制御部１１は、切り替え判断部１１７として、ステップＳ２０１において音声の特徴量が変化したと判断されたタイミングにおいて、話者が切り替わったと判断する（ステップＳ２０６）。この場合、制御部１１は、話者が、話者Ｐから話者Ｑに切り替わったと判断する。その後、制御部１１は、図３に示す処理に戻る。

一方、所定の言葉が発せられなかったと判断した場合（ステップＳ２０３：ＮＯ）、制御部１１は、ステップＳ２０７の処理に進む。そして、制御部１１は、音声解析部１１２として、抽出されている音声の特徴量が、話者Ｑの音声の特徴量から話者Ｐの音声の特徴量に戻ったか（変化したか）否かを判断する（ステップＳ２０７）。

音声の特徴量が、話者Ｐの音声の特徴量に戻らず、新たな話者の音声の特徴量にさらに変化したと判断した場合（ステップＳ２０７：ＮＯ）、制御部１１は、フラグ２を立てる（ステップＳ２０８）。すなわち、フラグ２は、後述する図７Ｂ〜図７Ｄに例示するように、音声が徐々に変化しながら話者が移行したり、曖昧な表現が存在したりすることによって、話者が明瞭に切り替わっていないため、後に詳細な解析が必要であることを示すフラグである。以下では、新たな話者を、話者Ｒ（第３の話者）と称する。そして、制御部１１は、切り替え判断部１１７として、話者が切り替わったと判断する（ステップＳ２０６）。その後、制御部１１は、図３に示す処理に戻る。

音声の特徴量が、話者Ｐの音声の特徴量に戻ったと判断した場合（ステップＳ２０７：ＹＥＳ）、あるいは、話者Ｑの音声の特徴量にそもそも変化しなかったと判断した場合（ステップＳ２０１：ＮＯ）、制御部１１は、ステップＳ２０９の処理に進む。そして、制御部１１は、切り替え判断部１１７として、話者が切り替わっていないと判断する（ステップＳ２０９）。その後、制御部１１は、図３に示す処理に戻る。

続いて、ステップＳ１０９の話者決定処理の詳細について、説明する。

図６Ａおよび図６Ｂは、図３のステップＳ１０９の話者決定処理の手順を示すサブルーチンフローチャートである。図７Ａ〜図７Ｄは、話者決定処理について説明するための図である。なお、図７Ｂ〜図７Ｄにおいて、横軸は時間、縦軸は音声の特徴量を示し、横軸に平行な破線は、話者毎の音声の特徴量のグループに対応する領域を例示的に示しているものとする。

図６Ａに示すように、まず、制御部１１は、テキスト解析部１１５として、変換されたテキストを解析し、テキストにおける文の区切りを検出する（ステップＳ３０１）。

制御部１１は、テキストにおける無言部分に基づいて、文の区切りを検出する。制御部１１は、例えば、所定の時間以上継続する無言部分を、文の区切りとして検出してもよい。より具体的には、制御部１１は、例えば日本語において、句点によって示される文末の直後に対応する無言部分や、英語において、ピリオドによって示される文末の直後に対応する無言部分等を、文の区切りとして検出する。

また、制御部１１は、テキストにおける文の構成に基づいて、文の区切りを検出してもよい。制御部１１は、例えば、予め把握している正しい文法に沿って、すなわち、主語や述語、目的語等の正しい語順に沿って構成された文の前後において、文の区切りを検出してもよい。より具体的には、制御部１１は、例えば英語において、「Ｉｗｉｌｌｄｏｉｔ．」や「Ｈｅｌｉｋｅｓｒｕｎｎｉｎｇ．」等の完成した文の前後において、文の区切りを検出する。あるいは、「Ｄｅｆｉｎｉｔｅｌｙ！」や「Ｇｏｏｄ．」等の単語は、単体で用いられても文として成立するため、制御部１１は、このような単語の前後において、文の区切りを検出してもよい。一方、制御部１１は、「Ｉｍａｋｅ」や「Ｏｆｔｅｎｗｅ」、「Ｈｅｒｄｅｌｉｃｉｏｕｓ」等の、述語や目的語等が明らかに不足している場合においては、後にまだ文が続くものとして、文の区切りを検出しない。ただし、文の区切りの検出方法は、上述した例に限定されない。

続いて、制御部１１は、直前に実行されたステップＳ１０７の話者切り替え判断処理によって、フラグ２が立てられているか否かを判断する（ステップＳ３０２）。

フラグ２が立てられていないと判断した場合（ステップＳ３０２：ＮＯ）、制御部１１は、ステップＳ３０３の処理に進む。この場合は、ステップＳ１０７の話者切り替え判断処理において、話者が、話者Ｐから話者Ｑに切り替わったと判断された場合に相当する。そして、制御部１１は、話者決定部１１８として、ステップＳ３０１において検出された文の区切りのタイミングと、ステップＳ１０７において判断された話者の切り替わりのタイミングとが、一致するか否かを判断する（ステップＳ３０３）。制御部１１は、文の区切りおよび話者の切り替わりのタイミングがずれている場合でも、タイミングのずれ量が所定の第３の時間以内であるときには、これらのタイミングが一致すると判断してもよい。第３の時間は、例えば数百ｍｓであってもよい。

文の区切りおよび話者の切り替わりのタイミングが一致すると判断した場合（ステップＳ３０３：ＹＥＳ）、制御部１１は、ステップＳ３０４の処理に進む。そして、制御部１１は、話者決定部１１８として、一致したタイミングにおいて話者が切り替わったと判断し、一致したタイミング前における話者が、話者Ｐであると決定する（ステップＳ３０４）。この場合は、例えば、話者Ｐが発話し終わった後に、話者Ｑが受け答えるように発話し始めたことによって、話者が、話者Ｐから話者Ｑにスムーズに切り替わった場合に相当する。そして、制御部１１は、直前に実行されたステップＳ１０７の話者切り替え判断処理によって、フラグ１が立てられているか否かを判断する（ステップＳ３０５）。

フラグ１が立てられていないと判断した場合（ステップＳ３０５：ＮＯ）、制御部１１は、ステップＳ３０６の処理に進む。そして、制御部１１は、話者決定部１１８として、一致したタイミング（文の区切りのタイミングおよび話者の切り替わりのタイミング）以降における話者が、自身の音声の特徴量のグループが予め生成されていた話者Ｑであると決定する（ステップＳ３０６）。その後、制御部１１は、図３に示す処理に戻る。

フラグ１が立てられていると判断した場合（ステップＳ３０５：ＹＥＳ）、制御部１１は、音声解析部１１２として、話者Ｑの音声の特徴量のグループを新たに生成する（ステップＳ３０７）。そして、制御部１１は、話者決定部１１８として、一致したタイミング以降における話者が、自身の音声の特徴量のグループが新たに生成された話者Ｑであると決定する（ステップＳ３０８）。このように、制御部１１は、話者Ｑの音声の特徴量のグループが予め生成されていなかった場合でも、文の区切りおよび話者の切り替わりのタイミングが一致する場合には、切り替わり後の話者が、今まで発話していなかった話者Ｑであると決定する。その後、制御部１１は、図３に示す処理に戻る。

一方、文の区切りおよび話者の切り替わりのタイミングが一致しないと判断した場合（ステップＳ３０３：ＮＯ）、制御部１１は、ステップＳ３０９の処理に進む。そして、制御部１１は、ステップＳ３０５と同様に、直前に実行されたステップＳ１０７の話者切り替え判断処理によって、フラグ１が立てられているか否かを判断する（ステップＳ３０９）。

フラグ１が立てられていないと判断した場合（ステップＳ３０９：ＮＯ）、制御部１１は、話者決定部１１８として、話者の切り替わりのタイミング前における話者が、話者Ｐであると決定する（ステップＳ３１０）。さらに、制御部１１は、話者の切り替わりのタイミング以降における話者が、話者Ｑであると決定する（ステップＳ３１１）。この場合は、例えば、話者Ｐが発話し終わる前に、自身の音声の特徴量のグループが予め生成されていた他の話者Ｑが、割り込んで発話し始めたことによって、話者が、話者Ｐから話者Ｑにスムーズに切り替わらなかった場合に相当する。このように、制御部１１は、文の区切りおよび話者の切り替わりのタイミングが一致しない場合でも、話者Ｑの音声の特徴量のグループが予め生成されていた場合には、話者の切り替わりのタイミングを優先し、切り替わりのタイミング以降における話者が、話者Ｑであると決定する。その後、制御部１１は、図３に示す処理に戻る。

フラグ１が立てられていると判断した場合（ステップＳ３０９：ＹＥＳ）、制御部１１は、話者決定部１１８として、話者の切り替わりのタイミング前に存在する文の区切りのタイミング前における話者が、話者Ｐであると決定する（ステップＳ３１２）。さらに、制御部１１は、当該文の区切りのタイミング以降における話者が、不明であると決定する（ステップＳ３１３）。この場合は、例えば、話者Ｐが発話し終わる前に、雑音が入ったことによって、話者が、話者Ｐからスムーズに切り替わらなかった場合に相当する。このように、制御部１１は、話者を明確に決定できない場合、話者を誤って決定することを回避し、話者が不明であると決定する。その後、制御部１１は、図３に示す処理に戻る。

なお、制御部１１は、ステップＳ３０８およびＳ３１３の後、図３に示す処理に戻る前に、フラグ１をリセットしてもよい。

一方、フラグ２が立てられていると判断した場合（ステップＳ３０２：ＹＥＳ）、制御部１１は、図６Ｂに示す処理に進む。この場合は、話者が、話者Ｐから話者Ｒに切り替わった可能性がある場合に相当する。以下では、図７Ａに示すように、抽出されている音声の特徴量が、話者Ｐの音声の特徴量から話者Ｑの音声の特徴量に変化したタイミングを第１のタイミングｔ１、話者Ｑの音声の特徴量から話者Ｒの音声の特徴量に変化したタイミングを第２のタイミングｔ２と称する。また、第１のタイミングｔ１前までの期間を期間Ｔ１、第１のタイミングｔ１以降から第２のタイミングｔ２前までの期間を期間Ｔ２、第２のタイミングｔ２以降からの期間を期間Ｔ３と称する。

図６Ｂに示すように、まず、制御部１１は、話者決定部１１８として、期間Ｔ２において、文の区切りが検出されたか否かを判断する（ステップＳ４０１）。すなわち、制御部１１は、期間Ｔ２において、ステップＳ３０１において検出された文の区切りが含まれるか否かを判断する。

文の区切りが検出されたと判断した場合（ステップＳ４０１：ＹＥＳ）、制御部１１は、期間Ｔ２において、文の複数の区切りが検出されたか否かをさらに判断する（ステップＳ４０２）。

文の複数の区切りが検出されていない、すなわち、文の一つの区切りが検出されたと判断した場合（ステップＳ４０２：ＮＯ）、制御部１１は、ステップＳ４０３の処理に進む。そして、制御部１１は、話者決定部１１８として、文の一つの区切りのタイミング前における話者が、話者Ｐであると決定する（ステップＳ４０３）。さらに、制御部１１は、文の一つの区切りのタイミング以降における話者が、話者Ｒであると決定する（ステップＳ４０４）。すなわち、制御部１１は、話者が、話者Ｐから話者Ｑを経由せずに、話者Ｒに切り替わったと決定する。この場合は、例えば、話者Ｐが文末を弱く発話したり、話者Ｒが文頭を弱く発話したりしたことによって、話者がスムーズに切り替わらなかった場合に相当する。その後、制御部１１は、図３に示す処理に戻る。

ステップＳ４０３およびＳ４０４について、図７Ｂを参照してさらに説明する。図７Ｂでは、期間Ｔ２において、一つの明瞭な文の区切りが検出されている一方、話者Ｐが文末を弱く発話することによって、話者が不明瞭に変化している場合が例示されている。この場合、「…思っています。」という文の終わりのタイミング前における話者が話者Ｐであり、当該文の終わりのタイミング以降、すなわち「いいですね…」という新たな文の始まりのタイミング以降における話者が話者Ｒであると決定され、話者Ｑは無視される。なお、文の区切りのタイミングではなく、話者Ｒの音声の特徴量が抽出されたタイミングである第２のタイミングｔ２を優先して、話者が決定されてもよい。すなわち、期間Ｔ１および期間Ｔ２における話者が話者Ｐ、期間Ｔ３における話者が話者Ｒであると決定されてもよい。

一方、文の複数の区切りが検出されたと判断した場合（ステップＳ４０２：ＹＥＳ）、制御部１１は、ステップＳ４０５の処理に進む。そして、制御部１１は、話者決定部１１８として、期間Ｔ１における話者が話者Ｐであり、期間Ｔ２における話者が不明であると決定する（ステップＳ４０５）。さらに、制御部１１は、期間Ｔ３における話者が話者Ｒであると決定する（ステップＳ４０６）。この場合は、期間Ｔ２において、例えば、雑音が入ったり、話者Ｑが不明瞭に発話したり、割り込んで発話しかけてすぐにやめたりした場合に相当する。その後、制御部１１は、図３に示す処理に戻る。

ステップＳ４０５およびＳ４０６について、図７Ｃを参照してさらに説明する。図７Ｃでは、期間Ｔ２において、「ボソボソボソ」という不明瞭な発話によって、文の複数の区切りが検出されており、話者が不明瞭に変化している場合が例示されている。この場合、「…質問はありますか。」という文の終わりのタイミング前までの期間Ｔ１における話者が、話者Ｐであると決定される。また、当該文の終わりのタイミング以降から、「ちょっといいですか…」という新たな文の始まりのタイミングまで前の期間Ｔ２における話者が、不明であると決定される。さらに、当該新たな文の始まりのタイミング以降からの期間Ｔ３における話者が、話者Ｒであると決定される。

なお、制御部１１は、ステップＳ４０４およびＳ４０６の前に、ステップＳ１０２において予め生成された話者毎の音声の特徴量のグループのうち、話者Ｒの音声の特徴量に対応するグループが存在するか否かを判断してもよい。そして、制御部１１は、当該グループが存在しないと判断した場合、上述したステップＳ３０７と同様に、話者Ｒの音声の特徴量のグループを新たに生成してから、ステップＳ４０４およびＳ４０６に進んでもよい。

また、文の区切りが検出されていないと判断した場合（ステップＳ４０１：ＮＯ）、制御部１１は、話者決定部１１８として、第１のタイミングｔ１前に存在する文の区切りのタイミング前における話者が、話者Ｐであると決定する（ステップＳ４０７）。そして、制御部１１は、表示制御部１１６として、ステップＳ４０７において決定された話者に関する情報を、表示されているテキスト情報に関連付けて、表示部１４に表示させる（ステップＳ４０８）。そして、制御部１１は、話者決定部１１８として、当該文の区切りのタイミング以降における話者の決定を、一旦保留する（ステップＳ４０９）。この場合は、例えば、話者Ｐが文末をごまかしながら発話したり、他の話者が文頭を考えながら発話したりしたことによって、文の区切りが不明瞭になった場合に相当する。

続いて、制御部１１は、音声解析部１１２として、第１のタイミングｔ１前に存在する文の区切りのタイミング以降から、次の文の区切りのタイミング前までの期間（以下「期間Ｔ４」と称する）において、抽出された音声の特徴量を平均化する（ステップＳ４１０）。そして、制御部１１は、ステップＳ１０２において予め生成された話者毎の音声の特徴量のグループのうち、平均化された音声の特徴量に対応するグループが存在するか否かを判断する（ステップＳ４１１）。

平均化された音声の特徴量に対応するグループが存在すると判断した場合（ステップＳ４１１：ＹＥＳ）、制御部１１は、ステップＳ４１２の処理に進む。そして、制御部１１は、話者決定部１１８として、期間Ｔ４における話者が、当該グループに対応する話者であると決定する（ステップＳ４１２）。その後、制御部１１は、図３に示す処理に戻る。

平均化された音声の特徴量に対応するグループが存在しないと判断した場合（ステップＳ４１１：ＮＯ）、制御部１１は、ステップＳ４１３の処理に進む。そして、制御部１１は、話者決定部１１８として、期間Ｔ４における話者が、不明であると決定する（ステップＳ４１３）。すなわち、制御部１１は、当該期間における一文に対応する話者が、不明であると決定する。その後、制御部１１は、図３に示す処理に戻る。

ステップＳ４０７〜Ｓ４１３について、図７Ｄを参照してさらに説明する。図７Ｄでは、期間Ｔ２において、明瞭な文の区切りが検出されておらず、かつ、話者も不明瞭に変化している場合が例示されている。この場合、第１のタイミングｔ１前に存在する「…と思います。」という文の終わりのタイミングｔ０前における話者が、話者Ｐであると決定される。そして、タイミングｔ０以降における話者の決定は、次の文の区切りが検出されるまで一旦保留され、次の文の区切りが検出され次第、平均化された音声の特徴量に基づいて、話者が決定される。

なお、制御部１１は、図６Ｂに示す処理の後、図３に示す処理に戻る前に、フラグ２をリセットしてもよい。

本実施形態は、以下の効果を奏する。

話者決定装置としてのユーザー端末１０は、会議における音声データに基づいて、テキストにおける文の区切りを検出しつつ、音声ひいては話者が切り替わったか否かを判断する。そして、ユーザー端末１０は、文の区切りのタイミングおよび話者の切り替わりのタイミングに基づいて、話者を決定する。ユーザー端末１０は、話者毎にマイクロホンを取り付けることなく、一つの音声データに基づいて、文の区切りのタイミングおよび話者の切り替わりのタイミングを判断することによって、様々な調子で発話する話者を高い精度で判別して決定できる。

特に、ユーザー端末１０は、話者毎に取り付けたマイクロホンから音声に関するデータを取得したり、話者毎の音声に関する学習データを予め準備したりすることなく、音声の特徴量のクラスター分析によって、話者を決定できる。したがって、大量の学習データを予め蓄積可能なメモリーや、大量の学習データに基づく高度な計算を実行可能なプロセッサー等を備える社外のサーバー等が、別途準備されなくても、話者が決定され、機密情報の漏洩が効果的に抑止される。また、ユーザー端末１０は、大量の学習データに基づく計算を実行しないで済むため、処理量を削減でき、テキスト情報および話者情報をリアルタイムに表示できる。

また、ユーザー端末１０は、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致するか否かの判断結果に基づいて、話者を決定する。これにより、ユーザー端末１０は、一つの音声データに基づいて、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致するか否かを判断することによって、様々な調子で発話する話者を高い精度で判別して決定できる。

また、ユーザー端末１０は、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致すると判断した場合、テキストの解析結果によらずに、一致したタイミング前における話者を決定する。これにより、ユーザー端末１０は、これらのタイミングが一致する場合、話者を速やかに決定できる。

また、ユーザー端末１０は、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致しないと判断した場合、テキストの解析結果に基づいて、話者を決定する。これにより、ユーザー端末１０は、話者が様々な調子で発話することによって、これらのタイミングがずれた場合でも、話者を臨機応変に決定できる。

また、ユーザー端末１０は、話者を決定できない場合、話者が不明であると決定する。これにより、ユーザー端末１０は、話者を誤って決定することを回避できる。

また、ユーザー端末１０は、テキストにおける無言部分、または文の構成に基づいて、文の区切りを検出する。これにより、ユーザー端末１０は、文の区切りを正確かつ速やかに検出できる。

また、ユーザー端末１０は、音声の特徴量に基づいて、音声を発した話者を仮決定し、仮決定されている話者が切り替わった否かを判断する。これにより、ユーザー端末１０は、仮決定されている話者を基準として、話者が切り替わった否かを迅速に判断できる。

また、ユーザー端末１０は、会議の開始前において、話者毎の音声の特徴量のグループを生成し、会議の開始後において、抽出された音声の特徴量に対応するグループを特定することによって、話者を仮決定する。ユーザー端末１０は、会議の開始前において、話者毎の音声の特徴量のグループを予め生成することによって、会議の開始直後から、高い精度で話者を仮決定できる。一方、ユーザー端末１０は、会議の参加者としての話者毎の音声の特徴量のグループさえ生成すればよいため、大量の学習データを蓄積しないで済む。

また、ユーザー端末１０は、会議の開始前において、音声データの取得を開始してから所定の第１の時間が経過したと判断した場合、会議が開始されたと判断する。これにより、ユーザー端末１０は、会議の開始前において、音声データの取得を予め開始しつつ、音声のテキスト化や話者の仮決定等の処理の実行を自動的に開始できる。

また、ユーザー端末１０は、会議の開始前において、会議の開始を示す所定の言葉が発せられたと判断した場合、会議が開始されたと判断する。これにより、ユーザー端末１０は、例えば、第１の時間が経過する前に速やかに会議が開始された場合でも、音声のテキスト化や話者の仮決定等の処理の実行を速やかに開始できる。このように、ユーザー端末１０は、様々な観点から、会議が開始されたか否かを正確に判断できる。

また、ユーザー端末１０は、抽出されている音声の特徴量が、第１の話者の音声の特徴量（第１の特徴量）から第２の話者の音声の特徴量（第２の特徴量）に変化したと判断した場合において、第２の特徴量に対応する話者毎の音声の特徴量のグループが存在しないと判断したとき、第２の特徴量のグループを新たに生成する。これにより、ユーザー端末１０は、音声データの取得が開始されてから会議が開始されるまでの時間において、発話しない参加者がいる場合等でも、当該参加者を会議中における話者として考慮できる。

また、ユーザー端末１０は、抽出されている音声の特徴量が、第１の特徴量から第２の特徴量に変化したと判断した場合において、所定の第２の時間が経過するまで第２の特徴量の抽出が続いたと判断したとき、話者が切り替わったと判断する。これにより、ユーザー端末１０は、雑音等の本質的ではない音声の特徴量が短時間だけ抽出される場合も考慮して、第２の特徴量がある程度の時間抽出されたことを確認してから、話者が切り替わったと判断できる。

また、ユーザー端末１０は、抽出されている音声の特徴量が、第１の特徴量から第２の特徴量に変化したと判断した場合において、所定の第２の時間中に所定の言葉が発せられたと判断したとき、話者が切り替わったと判断する。これにより、ユーザー端末１０は、例えば、第２の特徴量が短時間しか抽出されなかった場合でも、相槌等を含む短文からなる所定の言葉が発せられたときには、話者が切り替わったと例外的に判断できる。

また、ユーザー端末１０は、抽出されている音声の特徴量が、第１の特徴量から第２の特徴量に変化した後、第１の特徴量に戻ったか否かを判断し、判断結果に基づいて、話者が切り替わったか否かを判断する。これにより、ユーザー端末１０は、例えば、第２の特徴量が短時間しか抽出されなかった後において、第１の特徴量が再度抽出されたとき、話者が実際には切り替わっていないと判断できる。このように、ユーザー端末１０は、様々な観点から、話者が切り替わったか否かを正確に判断できる。

また、ユーザー端末１０は、上述した期間Ｔ２において、文の区切りを検出したか否かを判断する。そして、ユーザー端末１０は、文の区切りを検出したと判断した場合、文の区切りの個数に応じて話者を決定する。これにより、ユーザー端末１０は、話者がスムーズに切り替わらなかった場合でも、文の区切りのタイミングおよび話者の切り替わりのタイミングに関する様々な条件に応じて、様々な調子で発話する話者を適切に決定できる。

また、ユーザー端末１０は、上述した期間Ｔ２において、文の区切りを検出していないと判断した場合、上述した第１のタイミングｔ１前に存在する文の区切りのタイミング以降における話者の決定を一旦保留する。そして、ユーザー端末１０は、上述した期間Ｔ４において、抽出された音声の特徴量を平均化し、平均化された音声の特徴量に対応するグループが存在するか否かを判断し、判断結果に基づいて、話者を決定する。これにより、ユーザー端末１０は、話者を明確に決定できない場合、話者の決定を一旦保留し、音声の特徴量をある程度平均化してから、話者を適切に決定できる。

また、ユーザー端末１０は、決定された話者に関する情報をテキスト情報に関連付けて、表示部１４に表示させる。これにより、ユーザー端末１０は、高い精度で決定された話者に関する情報を含む議事録を表示できる。

特に、ユーザー端末１０は、高い精度で決定された話者に関する情報を含む議事録を表示することによって、会議の参加者に、各々の発話内容をより正確に理解させることができる。ユーザー端末１０は、例えば、外国人との会議や、専門用語が飛び交う会議等において、不慣れな言語や難しい用語を会議の参加者により深く理解させ、聞き取れない部分を聞き返すことによる会議の中断を抑止し、会議を円滑に進行させることができる。

また、ユーザー端末１０は、話者の分類名もしくは名前に関する情報を表示する、話者毎に対応するテキスト情報を色分けして表示する、または、話者毎に対応するテキスト情報を吹き出し内に表示する。このように、ユーザー端末１０は、様々な表示方法によって、話者情報を表示できる。

なお、本発明は、上述した実施形態に限定されず、特許請求の範囲内において、種々の変更や改良等が可能である。

例えば、上述した実施形態では、制御部１１が、音入力部１６に入力された音声に関するデータを取得する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、例えば、記憶部１２等に記憶されている、過去の会議における音声に関するデータを取得してもよい。これにより、ユーザー端末１０は、過去の会議の議事録を後から表示する必要が生じた場合等でも、過去の会議における話者を高い精度で決定できる。

また、上述した実施形態では、制御部１１が、会議の開始前において取得された音声データに基づいて、話者毎の音声の特徴量のグループを生成する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、所定の第４の時間毎に、当該グループを生成し直してもよい。第４の時間は、例えば５分程度であってもよい。これにより、制御部１１は、話者の判別精度を向上させることができる。なお、制御部１１は、議事録の作成者のフィードバックに基づいて、当該グループを生成し直してもよい。

また、上述した実施形態では、制御部１１が、図５に示す処理において、ステップＳ２０２の処理を実行した後にステップＳ２０３の処理を実行し、ステップＳ２０３の処理を実行した後にステップＳ２０７の処理を実行する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、ステップＳ２０２、Ｓ２０３およびＳ２０７の少なくともいずれかの処理を省略してもよい。制御部１１は、例えば、ステップＳ２０２の処理のみを実行し、話者Ｑの音声の特徴量の抽出が続かなかったと判断した場合、そのままステップＳ２０９の処理に進み、話者が切り替わっていないと判断してもよい。あるいは、制御部１１は、ステップＳ２０３の処理のみを実行し、所定の言葉が発せられたと判断した場合、ステップＳ２０４の処理に進み、所定の言葉が発せられなかったと判断した場合、ステップＳ２０９の処理に進んでもよい。このように、制御部１１は、様々な観点から、話者が切り替わったか否かを正確に判断すると共に、処理量を削減することもできる。

また、上述した実施形態では、制御部１１が、図６Ａおよび図６Ｂに示す処理において、各タイミング前における話者、および各タイミング以降における話者を決定する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、図６Ａおよび図６Ｂに示す処理において、当該処理を実行するタイミング前までに発話し終わっている話者のみを決定してもよい。すなわち、制御部１１は、例えば図６Ａに示す処理において、ステップＳ３０６、Ｓ３０８、Ｓ３１１およびＳ３１３の少なくともいずれかの処理を省略してもよい。これにより、制御部１１は、処理量を削減して、発話し終わっている話者を高速に決定できる。

また、上述した実施形態では、制御部１１が、出力部としての表示部１４に、高い精度で決定された話者に関する情報を含む議事録を表示（出力）させる場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部１１は、出力部としての任意の他の装置に、議事録を出力させてもよい。例えば、制御部１１は、他のユーザー端末やプロジェクター等に、通信部１３等を介して議事録のデータを送信し、議事録を出力させてもよい。あるいは、制御部１１は、画像形成装置に、通信部１３等を介して議事録のデータを送信し、印刷物としての議事録を出力させてもよい。

（変形例）
上述した実施形態では、会議において、１つのユーザー端末１０が使用される場合を例に挙げて説明した。変形例では、複数のユーザー端末１０が使用される場合について説明する。

図８は、話者決定システムの全体構成を示す図である。

図８に示すように、話者決定システム１は、複数のユーザー端末１０Ｘ、１０Ｙおよび１０Ｚを備える。複数のユーザー端末１０Ｘ、１０Ｙおよび１０Ｚは、複数の拠点Ｘ、ＹおよびＺに位置し、複数のユーザーであるＡさん、Ｂさん、Ｃさん、ＤさんおよびＥさんによって使用される。ユーザー端末１０Ｘ、１０Ｙおよび１０Ｚは、上述した実施形態に係るユーザー端末１０と同様の構成を備え、ＬＡＮ等のネットワーク２０を介して、相互に通信可能に接続されている。なお、話者決定システム１は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。

変形例では、ユーザー端末１０Ｘ、１０Ｙおよび１０Ｚのいずれかが、話者決定装置として機能する。例えば、図８に示す例において、ユーザー端末１０Ｘが、話者決定装置であり、Ａさんが、議事録の作成者であり、Ｂさん、Ｃさん、ＤさんおよびＥさんが、会議の参加者であってもよい。なお、話者決定システム１は、周知のテレビ会議システムや、ウェブ会議システム等からは独立しており、ユーザー端末１０Ｘは、これらのシステムから、話者の拠点等の情報を取得しないものとする。

話者決定装置としてのユーザー端末１０Ｘは、上述した処理を実行する。ただし、ユーザー端末１０Ｘは、音声データとして、ユーザー端末１０Ｙおよび１０Ｚに入力された音声に関するデータを、ネットワーク２０等を介して、ユーザー端末１０Ｙおよび１０Ｚから取得する。これにより、ユーザー端末１０Ｘは、拠点Ｙにおける話者であるＢさん、ＣさんおよびＤさん、ならびに拠点Ｚにおける話者であるＥさんを、高い精度でリアルタイムに判別できる。

また、上述した例において、Ａさんは、議事録の作成者かつ会議の参加者であってもよい。この場合、ユーザー端末１０Ｘは、音声データとして、自装置に入力された音声に関するデータを取得すると共に、ユーザー端末１０Ｙおよび１０Ｚに入力された音声に関するデータも取得する。これにより、ユーザー端末１０Ｘは、話者であるＡさん、Ｂさん、Ｃさん、ＤさんおよびＥさんを、高い精度でリアルタイムに判別できる。

以上のように、変形例に係る話者決定システム１では、複数のユーザー端末が使用され、各々のユーザー端末によって、複数のユーザーとしての話者の音声に関するデータが取得される。これにより、話者決定システム１は、会議の参加者が複数の拠点に位置する場合でも、話者を高い精度で判別して決定できる。特に近年、リモートワークおよびネットワークの技術の発展によって、様々な拠点において仕事をする者同士が、ネットワークを介した会議（ウェブ会議）を行う機会が増加した。話者決定システム１は、このような近年増加する形態の会議において、会議の参加者に、各々の発話内容をより正確に理解させることができる。

特に、変形例に係る話者決定システム１は、周知のテレビ会議システムや、ウェブ会議システム等の会議システムからは、独立して構成され得る。したがって、話者決定システム１は、例えば、クライアントから指定された会議システムを利用して会議を行う場合において、会議システムから話者情報を直接取得できないときでも、個別に取得した音声データに基づいて、話者を高い精度で決定できる。また、話者決定システム１は、会議システムにおいて取得された音声データを、会議システムから取得してもよい。これにより、話者決定システム１は、会議システムから独立したシステムとしての利便性の高さを実現しつつ、音声データをより容易に取得できる。

なお、上述した実施形態に係る処理は、上述したステップ以外のステップを含んでもよいし、上述したステップのうちの一部のステップを含まなくてもよい。また、各ステップの順序は、上述した実施形態に限定されない。さらに、各ステップは、他のステップと組み合わされて一つのステップを構成してもよく、他のステップに含まれてもよく、複数のステップに分割されてもよい。

また、上述した実施形態に係る話者決定装置としてのユーザー端末１０における各種処理を行う手段および方法は、専用のハードウエア回路、およびプログラムされたコンピューターのいずれによっても実現することが可能である。上述したプログラムは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され、記憶される。また、上述したプログラムは、単独のアプリケーションソフトとして提供されてもよいし、ユーザー端末１０の一機能としてその装置のソフトウェアに組み込まれてもよい。

１０ユーザー端末、
１１制御部、
１１１音声取得部、
１１２音声解析部、
１１３時間計測部、
１１４テキスト変換部、
１１５テキスト解析部、
１１６表示制御部、
１１７切り替え判断部、
１１８話者決定部、
１２記憶部、
１３通信部、
１４表示部、
１５操作受付部、
１６音入力部。

Claims

会議における音声に関するデータを取得する音声取得部と、
前記音声取得部によって取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断部と、
前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換部と、
前記テキスト変換部によって変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析部と、
前記テキスト解析部によって検出された前記文の区切りのタイミングと、前記音声切り替え判断部によって判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定部と、
を有する話者決定装置。
前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致するか否かの判断結果に基づいて、前記話者を決定する請求項１に記載の話者決定装置。
前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致すると判断した場合、前記テキスト解析部による前記テキストの解析結果によらずに、一致したタイミング前における前記話者を決定する請求項２に記載の話者決定装置。
前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致しないと判断した場合、前記テキスト解析部による前記テキストの解析結果に基づいて、前記話者を決定する請求項２または３に記載の話者決定装置。
前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングに基づいて、前記話者を決定できない場合、前記話者が不明であると決定する請求項１〜４のいずれか一項に記載の話者決定装置。
前記テキスト解析部は、前記テキストにおける無言部分、または前記文の構成に基づいて、前記文の区切りを検出する請求項１〜５のいずれか一項に記載の話者決定装置。
前記音声の特徴量に基づいて、前記音声を発した話者を仮決定する音声解析部をさらに有し、
前記音声切り替え判断部は、前記音声が切り替わったか否かの判断として、前記音声解析部によって仮決定されている前記話者が切り替わったか否かの判断を行う請求項１〜６のいずれか一項に記載の話者決定装置。
前記音声解析部は、前記会議の開始前において取得された前記音声に関するデータに基づいて、前記話者毎の前記音声の特徴量のグループを生成し、前記会議の開始後において取得された前記音声に関するデータに基づいて、前記音声の特徴量を抽出し、抽出された前記音声の特徴量に対応する前記グループを特定することによって、前記話者を仮決定する請求項７に記載の話者決定装置。
前記会議の開始前において、前記音声取得部によって前記音声に関するデータの取得が開始されてから、所定の第１の時間が経過したか否かを判断し、前記第１の時間が経過したと判断した場合、前記会議が開始されたと判断する第１の時間計測部をさらに有する請求項８に記載の話者決定装置。
前記音声取得部は、前記会議の開始前において前記音声に関するデータの取得を開始し、
前記テキスト解析部は、前記会議の開始前において前記テキストの解析を開始し、前記会議の開始を示す言葉が発せられたか否かを判断し、前記会議の開始を示す言葉が発せられたと判断した場合、前記会議が開始されたと判断する請求項８または９に記載の話者決定装置。
前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化したと判断した場合、前記第２の特徴量に対応する前記グループが存在するか否かをさらに判断し、前記第２の特徴量に対応する前記グループが存在しないと判断した場合、前記第２の特徴量のグループを新たに生成する請求項８〜１０のいずれか一項に記載の話者決定装置。
前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化したと判断された場合、所定の第２の時間が経過するまで前記第２の特徴量の抽出が続いたか否かを判断する第２の時間計測部をさらに有し、
前記音声切り替え判断部は、前記第２の時間計測部によって、前記第２の特徴量の抽出が続いたと判断された場合、前記話者が切り替わったと判断する請求項７〜１１のいずれか一項に記載の話者決定装置。
前記テキスト解析部は、前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化したと判断された場合、所定の第２の時間中に所定の言葉が発せられたか否かを判断し、
前記音声切り替え判断部は、前記テキスト解析部によって、前記所定の言葉が発せられたと判断された場合、前記話者が切り替わったと判断する請求項７〜１２のいずれか一項に記載の話者決定装置。
前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第１の話者の前記音声の特徴量である第１の特徴量から、前記第１の特徴量とは異なる第２の話者の前記音声の特徴量である第２の特徴量に変化した後、前記第１の特徴量に戻ったか否かを判断し、
前記音声切り替え判断部は、
前記音声解析部によって、抽出されている前記音声の特徴量が、前記第１の特徴量に戻らず、前記第１の特徴量および前記第２の特徴量とは異なる第３の話者の前記音声の特徴量である第３の特徴量にさらに変化したと判断された場合、前記話者が切り替わったと判断し、
前記音声解析部によって、抽出されている前記音声の特徴量が前記第１の特徴量に戻ったと判断された場合、前記話者が切り替わっていないと判断する請求項７〜１３のいずれか一項に記載の話者決定装置。
前記話者決定部は、抽出されている前記音声の特徴量が、前記第１の特徴量から前記第２の特徴量に変化したタイミングである第１のタイミング以降から、前記第２の特徴量から前記第３の特徴量に変化したタイミングである第２のタイミング前までの第１の期間において、前記テキスト解析部によって、前記文の区切りが検出されたか否かを判断する請求項１４に記載の話者決定装置。
前記話者決定部は、
前記第１の期間において、前記文の一つの区切りが検出されたと判断した場合、前記文の一つの区切りのタイミング前における前記話者が前記第１の話者であり、前記文の一つの区切りのタイミング以降における前記話者が前記第３の話者であると決定し、
前記第１の期間において、前記文の複数の区切りが検出されたと判断した場合、前記第１のタイミング前における前記話者が前記第１の話者であり、前記第１の期間における前記話者が不明であり、前記第２のタイミング以降における前記話者が前記第３の話者であると決定する請求項１５に記載の話者決定装置。
前記話者決定部は、前記第１の期間において、前記文の区切りが検出されていないと判断した場合、前記第１のタイミング前に存在する前記文の区切りのタイミング前における前記話者が前記第１の話者であると決定し、前記第１のタイミング前に存在する前記文の区切りのタイミング以降における前記話者の決定を一旦保留し、
前記音声解析部は、前記話者決定部によって前記話者の決定が保留された場合、前記第１のタイミング前に存在する前記文の区切りのタイミング以降から、次の前記文の区切りのタイミング前までの第２の期間において、抽出された前記音声の特徴量を平均化し、平均化された前記音声の特徴量に対応する、前記話者毎の前記音声の特徴量のグループが存在するか否かを判断し、
前記話者決定部はさらに、
前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在すると判断された場合、前記第２の期間における前記話者が、前記グループに対応する前記話者であると決定し、
前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在しないと判断された場合、前記第２の期間における前記話者が不明であると決定する請求項１５または１６に記載の話者決定装置。
前記話者決定部によって決定された前記話者に関する情報を前記テキストに関する情報に関連付けて、出力部に出力させる出力制御部をさらに有する請求項１〜１７のいずれか一項に記載の話者決定装置。
前記出力制御部は、前記話者の分類名もしくは名前に関する情報を出力する、前記話者毎に対応する前記テキストに関する情報を色分けして出力する、または、前記話者毎に対応する前記テキストに関する情報を吹き出し内に出力するように前記出力部を制御することによって、前記話者に関する情報を前記出力部に出力させる請求項１８に記載の話者決定装置。
会議における音声に関するデータを取得する音声取得ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、
前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、
前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、
を含む話者決定方法。
話者を決定する話者決定装置の制御プログラムであって、
会議における音声に関するデータを取得する音声取得ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、
前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、
前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、
を含む処理をコンピューターに実行させるための制御プログラム。