JP2020140169A - 話者決定装置、話者決定方法、および話者決定装置の制御プログラム - Google Patents

話者決定装置、話者決定方法、および話者決定装置の制御プログラム Download PDF

Info

Publication number
JP2020140169A
JP2020140169A JP2019037625A JP2019037625A JP2020140169A JP 2020140169 A JP2020140169 A JP 2020140169A JP 2019037625 A JP2019037625 A JP 2019037625A JP 2019037625 A JP2019037625 A JP 2019037625A JP 2020140169 A JP2020140169 A JP 2020140169A
Authority
JP
Japan
Prior art keywords
speaker
voice
feature amount
timing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019037625A
Other languages
English (en)
Other versions
JP7287006B2 (ja
Inventor
佳実 中山
Yoshimi Nakayama
佳実 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019037625A priority Critical patent/JP7287006B2/ja
Priority to US16/780,979 priority patent/US20200279570A1/en
Publication of JP2020140169A publication Critical patent/JP2020140169A/ja
Application granted granted Critical
Publication of JP7287006B2 publication Critical patent/JP7287006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/007Monitoring arrangements; Testing arrangements for public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】話者毎にマイクロホンを取り付けることなく、話者を高い精度で判別して決定する話者決定装置を提供する。【解決手段】話者決定装置において、制御部11は、音声取得部111、テキスト変換部114、テキスト解析部115、切り替え判断部117および話者決定部118を有する。音声取得部111は、会議における音声に関するデータを取得する。切り替え判断部117は、音声に関するデータから抽出された音声の特徴量に基づいて、音声が切り替わったか否かを判断する。テキスト変換部114は、音声に関するデータに基づいて音声を認識し、テキストに変換する。テキスト解析部115は、テキストを解析し、テキストにおける文の区切りを検出する。話者決定部118は、文の区切りのタイミングおよび音声の切り替わりのタイミングに基づいて、話者を決定する。【選択図】図2

Description

本発明は、話者決定装置、話者決定方法、および話者決定装置の制御プログラムに関する。
従来から、音声データに基づいて話者を判別し、議事録を出力する種々の技術が知られている。例えば特許文献1には、話者毎に取り付けられたマイクロホンに入力された音声のデータに基づいて、話者を判別し、議事録を表示するシステムが開示されている。
特開2018−45208号公報
しかし、特許文献1に開示されたシステムでは、話者毎にマイクロホンが取り付けられ、基本的には、各マイクロホンに各話者の音声が入力され、話者毎に音声データが取得されることが前提になっている。このため、話者毎にマイクロホンが取り付けられない場合、話者が適切に判別されないという問題がある。
特に、話者は、常に一定の調子で発話するのではなく、言葉を選んだり考えたりしながら、文頭や文末を弱く発話する場合がある。また、ある話者が発話し終わる前に、他の話者が割り込んで発話し始めたり、雑音が入ったりする場合もある。特許文献1に開示されたシステムでは、これらの場合において話者毎にマイクロホンが取り付けられないとき、話者がさらに判別され難くなるという問題がある。
本発明は、上述した課題に鑑みてなされたものである。したがって、本発明の目的は、話者毎にマイクロホンを取り付けることなく、話者を高い精度で判別して決定する話者決定装置、話者決定方法、および話者決定装置の制御プログラムを提供することである。
本発明の上記の目的は、下記の手段によって達成される。
(1)会議における音声に関するデータを取得する音声取得部と、前記音声取得部によって取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断部と、前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換部と、前記テキスト変換部によって変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析部と、前記テキスト解析部によって検出された前記文の区切りのタイミングと、前記音声切り替え判断部によって判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定部と、を有する話者決定装置。
(2)前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致するか否かの判断結果に基づいて、前記話者を決定する上記(1)に記載の話者決定装置。
(3)前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致すると判断した場合、前記テキスト解析部による前記テキストの解析結果によらずに、一致したタイミング前における前記話者を決定する上記(2)に記載の話者決定装置。
(4)前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致しないと判断した場合、前記テキスト解析部による前記テキストの解析結果に基づいて、前記話者を決定する上記(2)または(3)に記載の話者決定装置。
(5)前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングに基づいて、前記話者を決定できない場合、前記話者が不明であると決定する上記(1)〜(4)のいずれか一つに記載の話者決定装置。
(6)前記テキスト解析部は、前記テキストにおける無言部分、または前記文の構成に基づいて、前記文の区切りを検出する上記(1)〜(5)のいずれか一つに記載の話者決定装置。
(7)前記音声の特徴量に基づいて、前記音声を発した話者を仮決定する音声解析部をさらに有し、前記音声切り替え判断部は、前記音声が切り替わったか否かの判断として、前記音声解析部によって仮決定されている前記話者が切り替わったか否かの判断を行う上記(1)〜(6)のいずれか一つに記載の話者決定装置。
(8)前記音声解析部は、前記会議の開始前において取得された前記音声に関するデータに基づいて、前記話者毎の前記音声の特徴量のグループを生成し、前記会議の開始後において取得された前記音声に関するデータに基づいて、前記音声の特徴量を抽出し、抽出された前記音声の特徴量に対応する前記グループを特定することによって、前記話者を仮決定する上記(7)に記載の話者決定装置。
(9)前記会議の開始前において、前記音声取得部によって前記音声に関するデータの取得が開始されてから、所定の第1の時間が経過したか否かを判断し、前記第1の時間が経過したと判断した場合、前記会議が開始されたと判断する第1の時間計測部をさらに有する上記(8)に記載の話者決定装置。
(10)前記音声取得部は、前記会議の開始前において前記音声に関するデータの取得を開始し、前記テキスト解析部は、前記会議の開始前において前記テキストの解析を開始し、前記会議の開始を示す言葉が発せられたか否かを判断し、前記会議の開始を示す言葉が発せられたと判断した場合、前記会議が開始されたと判断する上記(8)または(9)に記載の話者決定装置。
(11)前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断した場合、前記第2の特徴量に対応する前記グループが存在するか否かをさらに判断し、前記第2の特徴量に対応する前記グループが存在しないと判断した場合、前記第2の特徴量のグループを新たに生成する上記(8)〜(10)のいずれか一つに記載の話者決定装置。
(12)前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断された場合、所定の第2の時間が経過するまで前記第2の特徴量の抽出が続いたか否かを判断する第2の時間計測部をさらに有し、前記音声切り替え判断部は、前記第2の時間計測部によって、前記第2の特徴量の抽出が続いたと判断された場合、前記話者が切り替わったと判断する上記(7)〜(11)のいずれか一つに記載の話者決定装置。
(13)前記テキスト解析部は、前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断された場合、所定の第2の時間中に所定の言葉が発せられたか否かを判断し、前記音声切り替え判断部は、前記テキスト解析部によって、前記所定の言葉が発せられたと判断された場合、前記話者が切り替わったと判断する上記(7)〜(12)のいずれか一つに記載の話者決定装置。
(14)前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化した後、前記第1の特徴量に戻ったか否かを判断し、前記音声切り替え判断部は、前記音声解析部によって、抽出されている前記音声の特徴量が、前記第1の特徴量に戻らず、前記第1の特徴量および前記第2の特徴量とは異なる第3の話者の前記音声の特徴量である第3の特徴量にさらに変化したと判断された場合、前記話者が切り替わったと判断し、前記音声解析部によって、抽出されている前記音声の特徴量が前記第1の特徴量に戻ったと判断された場合、前記話者が切り替わっていないと判断する上記(7)〜(13)のいずれか一つに記載の話者決定装置。
(15)前記話者決定部は、抽出されている前記音声の特徴量が、前記第1の特徴量から前記第2の特徴量に変化したタイミングである第1のタイミング以降から、前記第2の特徴量から前記第3の特徴量に変化したタイミングである第2のタイミング前までの第1の期間において、前記テキスト解析部によって、前記文の区切りが検出されたか否かを判断する上記(14)に記載の話者決定装置。
(16)前記話者決定部は、前記第1の期間において、前記文の一つの区切りが検出されたと判断した場合、前記文の一つの区切りのタイミング前における前記話者が前記第1の話者であり、前記文の一つの区切りのタイミング以降における前記話者が前記第3の話者であると決定し、前記第1の期間において、前記文の複数の区切りが検出されたと判断した場合、前記第1のタイミング前における前記話者が前記第1の話者であり、前記第1の期間における前記話者が不明であり、前記第2のタイミング以降における前記話者が前記第3の話者であると決定する上記(15)に記載の話者決定装置。
(17)前記話者決定部は、前記第1の期間において、前記文の区切りが検出されていないと判断した場合、前記第1のタイミング前に存在する前記文の区切りのタイミング前における前記話者が前記第1の話者であると決定し、前記第1のタイミング前に存在する前記文の区切りのタイミング以降における前記話者の決定を一旦保留し、前記音声解析部は、前記話者決定部によって前記話者の決定が保留された場合、前記第1のタイミング前に存在する前記文の区切りのタイミング以降から、次の前記文の区切りのタイミング前までの第2の期間において、抽出された前記音声の特徴量を平均化し、平均化された前記音声の特徴量に対応する、前記話者毎の前記音声の特徴量のグループが存在するか否かを判断し、前記話者決定部はさらに、前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在すると判断された場合、前記第2の期間における前記話者が、前記グループに対応する前記話者であると決定し、前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在しないと判断された場合、前記第2の期間における前記話者が不明であると決定する上記(15)または(16)に記載の話者決定装置。
(18)前記話者決定部によって決定された前記話者に関する情報を前記テキストに関する情報に関連付けて、出力部に出力させる出力制御部をさらに有する上記(1)〜(17)のいずれか一つに記載の話者決定装置。
(19)前記出力制御部は、前記話者の分類名もしくは名前に関する情報を出力する、前記話者毎に対応する前記テキストに関する情報を色分けして出力する、または、前記話者毎に対応する前記テキストに関する情報を吹き出し内に出力するように前記出力部を制御することによって、前記話者に関する情報を前記出力部に出力させる上記(18)に記載の話者決定装置。
(20)会議における音声に関するデータを取得する音声取得ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、を含む話者決定方法。
(21)話者を決定する話者決定装置の制御プログラムであって、会議における音声に関するデータを取得する音声取得ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、を含む処理をコンピューターに実行させるための制御プログラム。
本発明の一実施形態に係る話者決定装置によれば、会議における音声データに基づいて、テキストにおける文の区切りを検出しつつ、音声が切り替わったか否かを判断する。そして、話者決定装置は、文の区切りのタイミングおよび音声の切り替わりのタイミングに基づいて、話者を決定する。話者決定装置は、話者毎にマイクロホンを取り付けることなく、一つの音声データに基づいて、文の区切りのタイミングおよび音声の切り替わりのタイミングを判断することによって、様々な調子で発話する話者を高い精度で判別して決定できる。
本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。 制御部の機能構成を示すブロック図である。 ユーザー端末の処理の手順を示すフローチャートである。 ユーザー端末に表示される画面の一例を示す図である。 ユーザー端末に表示される画面の一例を示す図である。 図3のステップS107の話者切り替え判断処理の手順を示すサブルーチンフローチャートである。 図3のステップS109の話者決定処理の手順を示すサブルーチンフローチャートである。 図3のステップS109の話者決定処理の手順を示すサブルーチンフローチャートである。 話者決定処理について説明するための図である。 話者決定処理について説明するための図である。 話者決定処理について説明するための図である。 話者決定処理について説明するための図である。 話者決定システムの全体構成を示す図である。
以下、添付した図面を参照して、本発明の実施形態について説明する。なお、図面の説明において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法の比率は、説明の都合上誇張され、実際の比率とは異なる場合がある。
まず、本発明の一実施形態に係る、話者決定装置としてのユーザー端末について説明する。
図1は、本発明の一実施形態に係るユーザー端末の概略構成を示すブロック図である。
図1に示すように、ユーザー端末10は、制御部11、記憶部12、通信部13、表示部14、操作受付部15および音入力部16を備える。各構成要素は、信号をやり取りするためのバスを介して、相互に接続されている。ユーザー端末10は、例えば、ノート型またはデスクトップ型のPC端末や、タブレット端末、スマートフォン、携帯電話等である。
制御部11は、CPU(Central Processing Unit)を備え、プログラムに従い、上述した各構成要素の制御や各種の演算処理を実行する。制御部11の機能構成については、図2を参照して後述する。
記憶部12は、予め各種プログラムや各種データを記憶するROM(Read Only Memory)、作業領域として一時的にプログラムやデータを記憶するRAM(Random Access Memory)、各種プログラムや各種データを記憶するハードディスク等を備える。
通信部13は、LAN(Local Area Network)等のネットワークを介して、他の機器と通信するためのインターフェースを備える。
出力部としての表示部14は、LCD(液晶ディスプレイ)や有機ELディスプレイ等を備え、各種情報を表示(出力)する。
操作受付部15は、キーボードや、マウス等のポインティングデバイス、タッチセンサー等を備え、各種操作を受け付ける。操作受付部15は、例えば、表示部14に表示された画面に対するユーザーの入力操作を受け付ける。
音入力部16は、マイクロホン等を備え、外部の音声等の音の入力を受け付ける。なお、音入力部16は、マイクロホン自体を備えなくてもよく、外部のマイクロホン等を介して音の入力を受け付けるための、入力回路を備えてもよい。
なお、ユーザー端末10は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。
続いて、制御部11の機能構成について説明する。
図2は、制御部の機能構成を示すブロック図である。
制御部11は、プログラムを読み込んで処理を実行することによって、図2に示すように、音声取得部111、音声解析部112、時間計測部113、テキスト変換部114、テキスト解析部115、表示制御部116、切り替え判断部117および話者決定部118として機能する。
音声取得部111は、音声に関するデータ(以下「音声データ」とも称する)を取得する。音声解析部112は、音声データに基づく音声の解析、すなわち、音声データから抽出される音声の特徴量に基づく解析を行い、音声を発した話者を仮決定する。時間計測部113は、時間を計測し、時間に関する判断を行う。テキスト変換部114は、周知の音声認識技術を用いて、音声データに基づいて音声を認識し、テキストに変換(テキスト化)する。テキスト解析部115は、テキストを解析し、テキストに基づく判断を行ったり、テキストにおける文の区切りを検出したりする。表示制御部116は、各種情報を表示部14に表示させる。切り替え判断部(音声切り替え判断部)117は、音声が切り替わったか否か、すなわち、音声が、特徴量が異なる音声に切り替わったか否かを判断する。より具体的には、切り替え判断部117は、音声が切り替わったか否かの判断として、仮決定されている話者の音声が他の話者の音声に切り替わったか否か、ひいては、仮決定されている話者が他の話者に切り替わったか否かの判断を行う。話者決定部118は、文の区切りのタイミングと、音声ひいては話者の切り替わりのタイミングとに基づいて、話者を正式に決定する。
なお、サーバー等の外部装置が、ユーザー端末10の代わりに、上述した機能のうちの少なくとも一部の機能を実現することによって、話者決定装置として機能してもよい。この場合、サーバー等の外部装置は、有線または無線によってユーザー端末10に接続され、ユーザー端末10から音声データを取得してもよい。
続いて、ユーザー端末10における処理の流れについて説明する。ユーザー端末10の処理は、話者毎にマイクロホンを取り付けることなく、話者を高い精度で判別して決定するものである。
図3は、ユーザー端末の処理の手順を示すフローチャートである。図4Aおよび図4Bは、ユーザー端末に表示される画面の一例を示す図である。図3に示す処理のアルゴリズムは、記憶部12にプログラムとして記憶されており、制御部11によって実行される。
図3に示すように、まず、制御部11は、音声取得部111として、会議の開始前において、音声データを取得する処理の実行を開始する(ステップS101)。制御部11は、例えば、会議の開始前において音入力部16に入力された、会議の参加者としての話者同士が挨拶や雑談、点呼等を行う際に発する音声や、話者が機器の接続確認を行う際に発する音声等に関するデータを取得する。
続いて、制御部11は、音声解析部112として、取得された音声データに基づいて、音声の特徴量を抽出し、抽出された音声の特徴量に基づいて、話者毎の音声の特徴量のグループを生成する(ステップS102)。より具体的には、制御部11は、例えば、MFCC(メル周波数ケプストラム係数)やフォルマント周波数等を、音声の特徴量として抽出する。そして、制御部11は、抽出された音声の特徴量について、例えば周知のクラスター分析を行い、音声の特徴量の類似度(一致度)が高い(差分が小さい)順に、音声の特徴量をグループ化して、話者毎の音声の特徴量のグループを生成する。制御部11は、例えば、所定の閾値よりも高い類似度を有する(小さい差分を有する)音声の特徴量同士を、同じ話者の音声の特徴量として、同じグループに分類してもよい。制御部11は、生成された音声の特徴量のグループを、記憶部12に記憶させてもよい。
続いて、制御部11は、会議が開始されたか否かを判断する(ステップS103)。制御部11は、例えば、時間計測部113として、ステップS101において音声データの取得が開始されてから、所定の第1の時間が経過したか否かを判断し、第1の時間が経過したと判断した場合、会議が開始されたと判断してもよい。第1の時間は、例えば数分であってもよい。また、制御部11は、操作受付部15において、会議の開始を示すユーザーの操作が受け付けられたか否かを判断し、当該ユーザーの操作が受け付けられたと判断した場合、会議が開始されたと判断してもよい。
また、制御部11は、会議の開始を示す所定の言葉が発せられたか否かを判断し、会議の開始を示す言葉が発せられたと判断した場合、会議が開始されたと判断してもよい。より具体的には、制御部11は、ステップS101の直後から、テキスト変換部114として、音声データに基づいて音声を認識し、テキストに変換する処理の実行を開始していてもよい。また、制御部11は、テキスト解析部115として、変換されたテキストを解析する処理の実行を開始していてもよい。そして、制御部11は、話者のいずれかによって会議の開始を示す言葉が発せられたか否かを判断し、会議の開始を示す言葉が発せられたと判断した場合、会議が開始されたと判断してもよい。記憶部12は、会議の開始を示す言葉を含むテーブルまたはリストを予め記憶しており、制御部11は、当該テーブルまたはリストに含まれる言葉が発せられたか否かを判断してもよい。
会議が開始されていないと判断した場合(ステップS103:NO)、制御部11は、ステップS102の処理に戻る。そして、制御部11は、会議が開始されたと判断するまで、ステップS102およびS103の処理の実行を繰り返す。すなわち、制御部11は、会議の開始前における処理として、複数の音声の特徴量の類似度に応じて、話者毎の音声の特徴量のグループを生成する処理の実行を繰り返す。なお、話者毎の音声の特徴量のグループの数は、会議の参加人数に対応する数であることが好ましく、制御部11は、会議の参加人数に関する情報を予め取得し、参加人数に対応する数のグループを生成してもよい。ただし、ステップS101において音声データの取得が開始されてから会議が開始されるまでの時間において、発話しない参加者がいる場合等、話者毎の音声の特徴量のグループの数が、会議の参加人数に対応する数でない場合があってもよい。
会議が開始されたと判断した場合(ステップS103:YES)、制御部11は、テキスト変換部114として、音声データに基づいて音声を認識し、テキストに変換する処理の実行を開始する(ステップS104)。音声データは、ステップS101の時点から継続して取得されており、ステップS104の時点では、会議中における音声データとして取得されている。なお、制御部11は、会議が開始されたか否かを判断するために、ステップS101の直後からステップS104と同様の処理の実行を開始していた場合、ステップS104の処理を省略してもよい。そして、制御部11は、表示制御部116として、変換されたテキストに関する情報(以下「テキスト情報」とも称する)を、表示部14に表示させる処理の実行を開始する(ステップS105)。表示部14は、例えば図4Aに示すように、発話内容としてのテキスト情報をリアルタイムに表示する。
続いて、制御部11は、音声解析部112として、会議中における音声データに基づいて、音声の特徴量を抽出し、抽出された音声の特徴量に基づいて、話者を仮決定する処理の実行を開始する(ステップS106)。より具体的には、制御部11は、ステップS102において予め生成された話者毎の音声の特徴量のグループのうち、抽出された音声の特徴量に対応する(抽出された音声の特徴量が含まれる)グループを特定することによって、話者を仮決定する。
続いて、制御部11は、話者切り替え判断処理を実行する(ステップS107)。ステップS107の処理の詳細については、図5を参照して後述する。そして、制御部11は、ステップS107の判断結果に基づいて、仮決定されている話者が切り替わったか否かを判断する(ステップS108)。
話者が切り替わっていないと判断した場合(ステップS108:NO)、制御部11は、話者が切り替わったと判断するまで、ステップS107およびS108の処理の実行を繰り返す。
話者が切り替わったと判断した場合(ステップS108:YES)、制御部11は、話者正式決定処理を実行する(ステップS109)。ステップS109の処理の詳細については、図6Aおよび図6Bを参照して後述する。そして、制御部11は、表示制御部116として、ステップS109において決定された話者に関する情報(以下「話者情報」とも称する)を、表示されているテキスト情報に関連付けて、表示部14に表示させる(ステップS110)。
続いて、制御部11は、会議が終了したか否かを判断する(ステップS111)。制御部11は、例えばステップS103と同様に、操作受付部15において、会議の終了を示すユーザーの操作が受け付けられたか否かを判断し、当該ユーザーの操作が受け付けられたと判断した場合、会議が終了したと判断してもよい。また、制御部11は、会議の終了を示す所定の言葉が発せられたか否かを判断し、会議の終了を示す言葉が発せられたと判断した場合、会議が終了したと判断してもよい。記憶部12は、会議の終了を示す言葉を含むテーブルまたはリストを予め記憶しており、制御部11は、当該テーブルまたはリストに含まれる言葉が発せられたか否かを判断してもよい。
会議が終了していないと判断した場合(ステップS111:NO)、制御部11は、ステップS107の処理に戻る。そして、制御部11は、会議が終了したと判断するまで、ステップS107〜S111の処理の実行を繰り返す。すなわち、制御部11は、話者を決定し次第、例えば図4Bに示すように、話者情報をテキスト情報に関連付けて、表示部14にリアルタイムに表示させる処理の実行を繰り返す。これにより、話者情報がテキスト情報に関連付けられた議事録が表示される。図4Bでは、1行目および3行目のテキスト情報に対応する話者がAであり、2行目のテキスト情報に対応する話者がBであると決定され、4行目および5行目のテキスト情報に対応する話者が未だ決定されていない状況が例示されている。なお、図4Bに示す例では、話者情報として、A、B、…等の話者の分類名に関する情報が表示されているが、話者情報の表示方法は、図4Bに示す例に限定されない。制御部11は、例えば、話者の名前に関する情報を表示する、話者毎に対応するテキスト情報を色分けして表示する、または、話者毎に対応するテキスト情報を吹き出し内に表示するように、表示部14を制御してもよい。制御部11は、話者の名前を入力するための入力画面を表示部14に表示させ、話者の名前に関する情報を入力するユーザーの操作を操作受付部15において受け付けることによって、話者の名前に関する情報を取得してもよい。
会議が終了したと判断した場合(ステップS111:YES)、制御部11は、図3に示す処理を終了する。
続いて、ステップS107の話者切り替え判断処理の詳細について、説明する。
図5は、図3のステップS107の話者切り替え判断処理の手順を示すサブルーチンフローチャートである。
図5に示すように、まず、制御部11は、音声解析部112として、仮決定されている話者の音声の特徴量として抽出されている音声の特徴量が、ある話者の音声の特徴量から、当該音声の特徴量とは異なる他の話者の音声の特徴量に変化したか否かを判断する(ステップS201)。以下では、説明の都合上、ある話者を話者P(第1の話者)、他の話者を話者Q(第2の話者)と称する。
音声の特徴量が、話者Pの音声の特徴量から話者Qの音声の特徴量に変化したと判断した場合(ステップS201:YES)、制御部11は、ステップS202の処理に進む。制御部11は、例えば、抽出されている音声の特徴量が、ステップS102において予め生成された話者Pの音声の特徴量のグループに含まれる状態から、含まれない状態に変化した場合、話者Pの音声の特徴量から変化したと判断する。そして、制御部11は、時間計測部113として、所定の第2の時間が経過するまで話者Qの音声の特徴量の抽出が続いたか否かを判断する(ステップS202)。第2の時間は、例えば、数百ms〜数秒であってもよい。
話者Qの音声の特徴量の抽出が続かなかったと判断した場合(ステップS202:NO)、制御部11は、ステップS203の処理に進む。制御部11は、例えば、抽出されている音声の特徴量が、第2の時間が経過する前に、話者Qの音声の特徴量から他の話者の音声の特徴量にさらに変化したと判断した場合、話者Qの音声の特徴量の抽出が続かなかったと判断する。そして、制御部11は、テキスト解析部115として、話者Qの音声の特徴量が抽出されている期間を含む第2の時間におけるテキストを解析し、第2の時間中に所定の言葉が発せられたか否かを判断する(ステップS203)。所定の言葉は、例えば、「はい」や「そうですね」等の相槌や、「それで?」等の応答等を含む短文からなる言葉であってもよい。記憶部12は、所定の言葉を含むテーブルまたはリストを予め記憶しており、制御部11は、当該テーブルまたはリストに含まれる所定の言葉が発せられたか否かを判断してもよい。
所定の言葉が発せられたと判断した場合(ステップS203:YES)、あるいは、話者Qの音声の特徴量の抽出が続いたと判断した場合(ステップS202:YES)、制御部11は、ステップS204の処理に進む。そして、制御部11は、音声解析部112として、ステップS102において予め生成された話者毎の音声の特徴量のグループのうち、話者Qの音声の特徴量に対応するグループが存在するか否かを判断する(ステップS204)。
話者Qの音声の特徴量に対応するグループが存在しないと判断した場合(ステップS204:NO)、制御部11は、フラグ1を立てて(ステップS205)、ステップS206の処理に進む。すなわち、フラグ1は、クラスタリングされていない(音声の特徴量に対応するグループが存在しない)新たな話者Qが発見されたことを示すフラグである。一方、話者Qの音声の特徴量に対応するグループが存在すると判断した場合(ステップS204:YES)、制御部11は、そのままステップS206の処理に進む。そして、制御部11は、切り替え判断部117として、ステップS201において音声の特徴量が変化したと判断されたタイミングにおいて、話者が切り替わったと判断する(ステップS206)。この場合、制御部11は、話者が、話者Pから話者Qに切り替わったと判断する。その後、制御部11は、図3に示す処理に戻る。
一方、所定の言葉が発せられなかったと判断した場合(ステップS203:NO)、制御部11は、ステップS207の処理に進む。そして、制御部11は、音声解析部112として、抽出されている音声の特徴量が、話者Qの音声の特徴量から話者Pの音声の特徴量に戻ったか(変化したか)否かを判断する(ステップS207)。
音声の特徴量が、話者Pの音声の特徴量に戻らず、新たな話者の音声の特徴量にさらに変化したと判断した場合(ステップS207:NO)、制御部11は、フラグ2を立てる(ステップS208)。すなわち、フラグ2は、後述する図7B〜図7Dに例示するように、音声が徐々に変化しながら話者が移行したり、曖昧な表現が存在したりすることによって、話者が明瞭に切り替わっていないため、後に詳細な解析が必要であることを示すフラグである。以下では、新たな話者を、話者R(第3の話者)と称する。そして、制御部11は、切り替え判断部117として、話者が切り替わったと判断する(ステップS206)。その後、制御部11は、図3に示す処理に戻る。
音声の特徴量が、話者Pの音声の特徴量に戻ったと判断した場合(ステップS207:YES)、あるいは、話者Qの音声の特徴量にそもそも変化しなかったと判断した場合(ステップS201:NO)、制御部11は、ステップS209の処理に進む。そして、制御部11は、切り替え判断部117として、話者が切り替わっていないと判断する(ステップS209)。その後、制御部11は、図3に示す処理に戻る。
続いて、ステップS109の話者決定処理の詳細について、説明する。
図6Aおよび図6Bは、図3のステップS109の話者決定処理の手順を示すサブルーチンフローチャートである。図7A〜図7Dは、話者決定処理について説明するための図である。なお、図7B〜図7Dにおいて、横軸は時間、縦軸は音声の特徴量を示し、横軸に平行な破線は、話者毎の音声の特徴量のグループに対応する領域を例示的に示しているものとする。
図6Aに示すように、まず、制御部11は、テキスト解析部115として、変換されたテキストを解析し、テキストにおける文の区切りを検出する(ステップS301)。
制御部11は、テキストにおける無言部分に基づいて、文の区切りを検出する。制御部11は、例えば、所定の時間以上継続する無言部分を、文の区切りとして検出してもよい。より具体的には、制御部11は、例えば日本語において、句点によって示される文末の直後に対応する無言部分や、英語において、ピリオドによって示される文末の直後に対応する無言部分等を、文の区切りとして検出する。
また、制御部11は、テキストにおける文の構成に基づいて、文の区切りを検出してもよい。制御部11は、例えば、予め把握している正しい文法に沿って、すなわち、主語や述語、目的語等の正しい語順に沿って構成された文の前後において、文の区切りを検出してもよい。より具体的には、制御部11は、例えば英語において、「I will do it.」や「He likes running.」等の完成した文の前後において、文の区切りを検出する。あるいは、「Definitely!」や「Good.」等の単語は、単体で用いられても文として成立するため、制御部11は、このような単語の前後において、文の区切りを検出してもよい。一方、制御部11は、「I make」や「Often we」、「Her delicious」等の、述語や目的語等が明らかに不足している場合においては、後にまだ文が続くものとして、文の区切りを検出しない。ただし、文の区切りの検出方法は、上述した例に限定されない。
続いて、制御部11は、直前に実行されたステップS107の話者切り替え判断処理によって、フラグ2が立てられているか否かを判断する(ステップS302)。
フラグ2が立てられていないと判断した場合(ステップS302:NO)、制御部11は、ステップS303の処理に進む。この場合は、ステップS107の話者切り替え判断処理において、話者が、話者Pから話者Qに切り替わったと判断された場合に相当する。そして、制御部11は、話者決定部118として、ステップS301において検出された文の区切りのタイミングと、ステップS107において判断された話者の切り替わりのタイミングとが、一致するか否かを判断する(ステップS303)。制御部11は、文の区切りおよび話者の切り替わりのタイミングがずれている場合でも、タイミングのずれ量が所定の第3の時間以内であるときには、これらのタイミングが一致すると判断してもよい。第3の時間は、例えば数百msであってもよい。
文の区切りおよび話者の切り替わりのタイミングが一致すると判断した場合(ステップS303:YES)、制御部11は、ステップS304の処理に進む。そして、制御部11は、話者決定部118として、一致したタイミングにおいて話者が切り替わったと判断し、一致したタイミング前における話者が、話者Pであると決定する(ステップS304)。この場合は、例えば、話者Pが発話し終わった後に、話者Qが受け答えるように発話し始めたことによって、話者が、話者Pから話者Qにスムーズに切り替わった場合に相当する。そして、制御部11は、直前に実行されたステップS107の話者切り替え判断処理によって、フラグ1が立てられているか否かを判断する(ステップS305)。
フラグ1が立てられていないと判断した場合(ステップS305:NO)、制御部11は、ステップS306の処理に進む。そして、制御部11は、話者決定部118として、一致したタイミング(文の区切りのタイミングおよび話者の切り替わりのタイミング)以降における話者が、自身の音声の特徴量のグループが予め生成されていた話者Qであると決定する(ステップS306)。その後、制御部11は、図3に示す処理に戻る。
フラグ1が立てられていると判断した場合(ステップS305:YES)、制御部11は、音声解析部112として、話者Qの音声の特徴量のグループを新たに生成する(ステップS307)。そして、制御部11は、話者決定部118として、一致したタイミング以降における話者が、自身の音声の特徴量のグループが新たに生成された話者Qであると決定する(ステップS308)。このように、制御部11は、話者Qの音声の特徴量のグループが予め生成されていなかった場合でも、文の区切りおよび話者の切り替わりのタイミングが一致する場合には、切り替わり後の話者が、今まで発話していなかった話者Qであると決定する。その後、制御部11は、図3に示す処理に戻る。
一方、文の区切りおよび話者の切り替わりのタイミングが一致しないと判断した場合(ステップS303:NO)、制御部11は、ステップS309の処理に進む。そして、制御部11は、ステップS305と同様に、直前に実行されたステップS107の話者切り替え判断処理によって、フラグ1が立てられているか否かを判断する(ステップS309)。
フラグ1が立てられていないと判断した場合(ステップS309:NO)、制御部11は、話者決定部118として、話者の切り替わりのタイミング前における話者が、話者Pであると決定する(ステップS310)。さらに、制御部11は、話者の切り替わりのタイミング以降における話者が、話者Qであると決定する(ステップS311)。この場合は、例えば、話者Pが発話し終わる前に、自身の音声の特徴量のグループが予め生成されていた他の話者Qが、割り込んで発話し始めたことによって、話者が、話者Pから話者Qにスムーズに切り替わらなかった場合に相当する。このように、制御部11は、文の区切りおよび話者の切り替わりのタイミングが一致しない場合でも、話者Qの音声の特徴量のグループが予め生成されていた場合には、話者の切り替わりのタイミングを優先し、切り替わりのタイミング以降における話者が、話者Qであると決定する。その後、制御部11は、図3に示す処理に戻る。
フラグ1が立てられていると判断した場合(ステップS309:YES)、制御部11は、話者決定部118として、話者の切り替わりのタイミング前に存在する文の区切りのタイミング前における話者が、話者Pであると決定する(ステップS312)。さらに、制御部11は、当該文の区切りのタイミング以降における話者が、不明であると決定する(ステップS313)。この場合は、例えば、話者Pが発話し終わる前に、雑音が入ったことによって、話者が、話者Pからスムーズに切り替わらなかった場合に相当する。このように、制御部11は、話者を明確に決定できない場合、話者を誤って決定することを回避し、話者が不明であると決定する。その後、制御部11は、図3に示す処理に戻る。
なお、制御部11は、ステップS308およびS313の後、図3に示す処理に戻る前に、フラグ1をリセットしてもよい。
一方、フラグ2が立てられていると判断した場合(ステップS302:YES)、制御部11は、図6Bに示す処理に進む。この場合は、話者が、話者Pから話者Rに切り替わった可能性がある場合に相当する。以下では、図7Aに示すように、抽出されている音声の特徴量が、話者Pの音声の特徴量から話者Qの音声の特徴量に変化したタイミングを第1のタイミングt1、話者Qの音声の特徴量から話者Rの音声の特徴量に変化したタイミングを第2のタイミングt2と称する。また、第1のタイミングt1前までの期間を期間T1、第1のタイミングt1以降から第2のタイミングt2前までの期間を期間T2、第2のタイミングt2以降からの期間を期間T3と称する。
図6Bに示すように、まず、制御部11は、話者決定部118として、期間T2において、文の区切りが検出されたか否かを判断する(ステップS401)。すなわち、制御部11は、期間T2において、ステップS301において検出された文の区切りが含まれるか否かを判断する。
文の区切りが検出されたと判断した場合(ステップS401:YES)、制御部11は、期間T2において、文の複数の区切りが検出されたか否かをさらに判断する(ステップS402)。
文の複数の区切りが検出されていない、すなわち、文の一つの区切りが検出されたと判断した場合(ステップS402:NO)、制御部11は、ステップS403の処理に進む。そして、制御部11は、話者決定部118として、文の一つの区切りのタイミング前における話者が、話者Pであると決定する(ステップS403)。さらに、制御部11は、文の一つの区切りのタイミング以降における話者が、話者Rであると決定する(ステップS404)。すなわち、制御部11は、話者が、話者Pから話者Qを経由せずに、話者Rに切り替わったと決定する。この場合は、例えば、話者Pが文末を弱く発話したり、話者Rが文頭を弱く発話したりしたことによって、話者がスムーズに切り替わらなかった場合に相当する。その後、制御部11は、図3に示す処理に戻る。
ステップS403およびS404について、図7Bを参照してさらに説明する。図7Bでは、期間T2において、一つの明瞭な文の区切りが検出されている一方、話者Pが文末を弱く発話することによって、話者が不明瞭に変化している場合が例示されている。この場合、「…思っています。」という文の終わりのタイミング前における話者が話者Pであり、当該文の終わりのタイミング以降、すなわち「いいですね…」という新たな文の始まりのタイミング以降における話者が話者Rであると決定され、話者Qは無視される。なお、文の区切りのタイミングではなく、話者Rの音声の特徴量が抽出されたタイミングである第2のタイミングt2を優先して、話者が決定されてもよい。すなわち、期間T1および期間T2における話者が話者P、期間T3における話者が話者Rであると決定されてもよい。
一方、文の複数の区切りが検出されたと判断した場合(ステップS402:YES)、制御部11は、ステップS405の処理に進む。そして、制御部11は、話者決定部118として、期間T1における話者が話者Pであり、期間T2における話者が不明であると決定する(ステップS405)。さらに、制御部11は、期間T3における話者が話者Rであると決定する(ステップS406)。この場合は、期間T2において、例えば、雑音が入ったり、話者Qが不明瞭に発話したり、割り込んで発話しかけてすぐにやめたりした場合に相当する。その後、制御部11は、図3に示す処理に戻る。
ステップS405およびS406について、図7Cを参照してさらに説明する。図7Cでは、期間T2において、「ボソボソボソ」という不明瞭な発話によって、文の複数の区切りが検出されており、話者が不明瞭に変化している場合が例示されている。この場合、「…質問はありますか。」という文の終わりのタイミング前までの期間T1における話者が、話者Pであると決定される。また、当該文の終わりのタイミング以降から、「ちょっといいですか…」という新たな文の始まりのタイミングまで前の期間T2における話者が、不明であると決定される。さらに、当該新たな文の始まりのタイミング以降からの期間T3における話者が、話者Rであると決定される。
なお、制御部11は、ステップS404およびS406の前に、ステップS102において予め生成された話者毎の音声の特徴量のグループのうち、話者Rの音声の特徴量に対応するグループが存在するか否かを判断してもよい。そして、制御部11は、当該グループが存在しないと判断した場合、上述したステップS307と同様に、話者Rの音声の特徴量のグループを新たに生成してから、ステップS404およびS406に進んでもよい。
また、文の区切りが検出されていないと判断した場合(ステップS401:NO)、制御部11は、話者決定部118として、第1のタイミングt1前に存在する文の区切りのタイミング前における話者が、話者Pであると決定する(ステップS407)。そして、制御部11は、表示制御部116として、ステップS407において決定された話者に関する情報を、表示されているテキスト情報に関連付けて、表示部14に表示させる(ステップS408)。そして、制御部11は、話者決定部118として、当該文の区切りのタイミング以降における話者の決定を、一旦保留する(ステップS409)。この場合は、例えば、話者Pが文末をごまかしながら発話したり、他の話者が文頭を考えながら発話したりしたことによって、文の区切りが不明瞭になった場合に相当する。
続いて、制御部11は、音声解析部112として、第1のタイミングt1前に存在する文の区切りのタイミング以降から、次の文の区切りのタイミング前までの期間(以下「期間T4」と称する)において、抽出された音声の特徴量を平均化する(ステップS410)。そして、制御部11は、ステップS102において予め生成された話者毎の音声の特徴量のグループのうち、平均化された音声の特徴量に対応するグループが存在するか否かを判断する(ステップS411)。
平均化された音声の特徴量に対応するグループが存在すると判断した場合(ステップS411:YES)、制御部11は、ステップS412の処理に進む。そして、制御部11は、話者決定部118として、期間T4における話者が、当該グループに対応する話者であると決定する(ステップS412)。その後、制御部11は、図3に示す処理に戻る。
平均化された音声の特徴量に対応するグループが存在しないと判断した場合(ステップS411:NO)、制御部11は、ステップS413の処理に進む。そして、制御部11は、話者決定部118として、期間T4における話者が、不明であると決定する(ステップS413)。すなわち、制御部11は、当該期間における一文に対応する話者が、不明であると決定する。その後、制御部11は、図3に示す処理に戻る。
ステップS407〜S413について、図7Dを参照してさらに説明する。図7Dでは、期間T2において、明瞭な文の区切りが検出されておらず、かつ、話者も不明瞭に変化している場合が例示されている。この場合、第1のタイミングt1前に存在する「…と思います。」という文の終わりのタイミングt0前における話者が、話者Pであると決定される。そして、タイミングt0以降における話者の決定は、次の文の区切りが検出されるまで一旦保留され、次の文の区切りが検出され次第、平均化された音声の特徴量に基づいて、話者が決定される。
なお、制御部11は、図6Bに示す処理の後、図3に示す処理に戻る前に、フラグ2をリセットしてもよい。
本実施形態は、以下の効果を奏する。
話者決定装置としてのユーザー端末10は、会議における音声データに基づいて、テキストにおける文の区切りを検出しつつ、音声ひいては話者が切り替わったか否かを判断する。そして、ユーザー端末10は、文の区切りのタイミングおよび話者の切り替わりのタイミングに基づいて、話者を決定する。ユーザー端末10は、話者毎にマイクロホンを取り付けることなく、一つの音声データに基づいて、文の区切りのタイミングおよび話者の切り替わりのタイミングを判断することによって、様々な調子で発話する話者を高い精度で判別して決定できる。
特に、ユーザー端末10は、話者毎に取り付けたマイクロホンから音声に関するデータを取得したり、話者毎の音声に関する学習データを予め準備したりすることなく、音声の特徴量のクラスター分析によって、話者を決定できる。したがって、大量の学習データを予め蓄積可能なメモリーや、大量の学習データに基づく高度な計算を実行可能なプロセッサー等を備える社外のサーバー等が、別途準備されなくても、話者が決定され、機密情報の漏洩が効果的に抑止される。また、ユーザー端末10は、大量の学習データに基づく計算を実行しないで済むため、処理量を削減でき、テキスト情報および話者情報をリアルタイムに表示できる。
また、ユーザー端末10は、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致するか否かの判断結果に基づいて、話者を決定する。これにより、ユーザー端末10は、一つの音声データに基づいて、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致するか否かを判断することによって、様々な調子で発話する話者を高い精度で判別して決定できる。
また、ユーザー端末10は、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致すると判断した場合、テキストの解析結果によらずに、一致したタイミング前における話者を決定する。これにより、ユーザー端末10は、これらのタイミングが一致する場合、話者を速やかに決定できる。
また、ユーザー端末10は、文の区切りのタイミングおよび話者の切り替わりのタイミングが一致しないと判断した場合、テキストの解析結果に基づいて、話者を決定する。これにより、ユーザー端末10は、話者が様々な調子で発話することによって、これらのタイミングがずれた場合でも、話者を臨機応変に決定できる。
また、ユーザー端末10は、話者を決定できない場合、話者が不明であると決定する。これにより、ユーザー端末10は、話者を誤って決定することを回避できる。
また、ユーザー端末10は、テキストにおける無言部分、または文の構成に基づいて、文の区切りを検出する。これにより、ユーザー端末10は、文の区切りを正確かつ速やかに検出できる。
また、ユーザー端末10は、音声の特徴量に基づいて、音声を発した話者を仮決定し、仮決定されている話者が切り替わった否かを判断する。これにより、ユーザー端末10は、仮決定されている話者を基準として、話者が切り替わった否かを迅速に判断できる。
また、ユーザー端末10は、会議の開始前において、話者毎の音声の特徴量のグループを生成し、会議の開始後において、抽出された音声の特徴量に対応するグループを特定することによって、話者を仮決定する。ユーザー端末10は、会議の開始前において、話者毎の音声の特徴量のグループを予め生成することによって、会議の開始直後から、高い精度で話者を仮決定できる。一方、ユーザー端末10は、会議の参加者としての話者毎の音声の特徴量のグループさえ生成すればよいため、大量の学習データを蓄積しないで済む。
また、ユーザー端末10は、会議の開始前において、音声データの取得を開始してから所定の第1の時間が経過したと判断した場合、会議が開始されたと判断する。これにより、ユーザー端末10は、会議の開始前において、音声データの取得を予め開始しつつ、音声のテキスト化や話者の仮決定等の処理の実行を自動的に開始できる。
また、ユーザー端末10は、会議の開始前において、会議の開始を示す所定の言葉が発せられたと判断した場合、会議が開始されたと判断する。これにより、ユーザー端末10は、例えば、第1の時間が経過する前に速やかに会議が開始された場合でも、音声のテキスト化や話者の仮決定等の処理の実行を速やかに開始できる。このように、ユーザー端末10は、様々な観点から、会議が開始されたか否かを正確に判断できる。
また、ユーザー端末10は、抽出されている音声の特徴量が、第1の話者の音声の特徴量(第1の特徴量)から第2の話者の音声の特徴量(第2の特徴量)に変化したと判断した場合において、第2の特徴量に対応する話者毎の音声の特徴量のグループが存在しないと判断したとき、第2の特徴量のグループを新たに生成する。これにより、ユーザー端末10は、音声データの取得が開始されてから会議が開始されるまでの時間において、発話しない参加者がいる場合等でも、当該参加者を会議中における話者として考慮できる。
また、ユーザー端末10は、抽出されている音声の特徴量が、第1の特徴量から第2の特徴量に変化したと判断した場合において、所定の第2の時間が経過するまで第2の特徴量の抽出が続いたと判断したとき、話者が切り替わったと判断する。これにより、ユーザー端末10は、雑音等の本質的ではない音声の特徴量が短時間だけ抽出される場合も考慮して、第2の特徴量がある程度の時間抽出されたことを確認してから、話者が切り替わったと判断できる。
また、ユーザー端末10は、抽出されている音声の特徴量が、第1の特徴量から第2の特徴量に変化したと判断した場合において、所定の第2の時間中に所定の言葉が発せられたと判断したとき、話者が切り替わったと判断する。これにより、ユーザー端末10は、例えば、第2の特徴量が短時間しか抽出されなかった場合でも、相槌等を含む短文からなる所定の言葉が発せられたときには、話者が切り替わったと例外的に判断できる。
また、ユーザー端末10は、抽出されている音声の特徴量が、第1の特徴量から第2の特徴量に変化した後、第1の特徴量に戻ったか否かを判断し、判断結果に基づいて、話者が切り替わったか否かを判断する。これにより、ユーザー端末10は、例えば、第2の特徴量が短時間しか抽出されなかった後において、第1の特徴量が再度抽出されたとき、話者が実際には切り替わっていないと判断できる。このように、ユーザー端末10は、様々な観点から、話者が切り替わったか否かを正確に判断できる。
また、ユーザー端末10は、上述した期間T2において、文の区切りを検出したか否かを判断する。そして、ユーザー端末10は、文の区切りを検出したと判断した場合、文の区切りの個数に応じて話者を決定する。これにより、ユーザー端末10は、話者がスムーズに切り替わらなかった場合でも、文の区切りのタイミングおよび話者の切り替わりのタイミングに関する様々な条件に応じて、様々な調子で発話する話者を適切に決定できる。
また、ユーザー端末10は、上述した期間T2において、文の区切りを検出していないと判断した場合、上述した第1のタイミングt1前に存在する文の区切りのタイミング以降における話者の決定を一旦保留する。そして、ユーザー端末10は、上述した期間T4において、抽出された音声の特徴量を平均化し、平均化された音声の特徴量に対応するグループが存在するか否かを判断し、判断結果に基づいて、話者を決定する。これにより、ユーザー端末10は、話者を明確に決定できない場合、話者の決定を一旦保留し、音声の特徴量をある程度平均化してから、話者を適切に決定できる。
また、ユーザー端末10は、決定された話者に関する情報をテキスト情報に関連付けて、表示部14に表示させる。これにより、ユーザー端末10は、高い精度で決定された話者に関する情報を含む議事録を表示できる。
特に、ユーザー端末10は、高い精度で決定された話者に関する情報を含む議事録を表示することによって、会議の参加者に、各々の発話内容をより正確に理解させることができる。ユーザー端末10は、例えば、外国人との会議や、専門用語が飛び交う会議等において、不慣れな言語や難しい用語を会議の参加者により深く理解させ、聞き取れない部分を聞き返すことによる会議の中断を抑止し、会議を円滑に進行させることができる。
また、ユーザー端末10は、話者の分類名もしくは名前に関する情報を表示する、話者毎に対応するテキスト情報を色分けして表示する、または、話者毎に対応するテキスト情報を吹き出し内に表示する。このように、ユーザー端末10は、様々な表示方法によって、話者情報を表示できる。
なお、本発明は、上述した実施形態に限定されず、特許請求の範囲内において、種々の変更や改良等が可能である。
例えば、上述した実施形態では、制御部11が、音入力部16に入力された音声に関するデータを取得する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、例えば、記憶部12等に記憶されている、過去の会議における音声に関するデータを取得してもよい。これにより、ユーザー端末10は、過去の会議の議事録を後から表示する必要が生じた場合等でも、過去の会議における話者を高い精度で決定できる。
また、上述した実施形態では、制御部11が、会議の開始前において取得された音声データに基づいて、話者毎の音声の特徴量のグループを生成する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、所定の第4の時間毎に、当該グループを生成し直してもよい。第4の時間は、例えば5分程度であってもよい。これにより、制御部11は、話者の判別精度を向上させることができる。なお、制御部11は、議事録の作成者のフィードバックに基づいて、当該グループを生成し直してもよい。
また、上述した実施形態では、制御部11が、図5に示す処理において、ステップS202の処理を実行した後にステップS203の処理を実行し、ステップS203の処理を実行した後にステップS207の処理を実行する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、ステップS202、S203およびS207の少なくともいずれかの処理を省略してもよい。制御部11は、例えば、ステップS202の処理のみを実行し、話者Qの音声の特徴量の抽出が続かなかったと判断した場合、そのままステップS209の処理に進み、話者が切り替わっていないと判断してもよい。あるいは、制御部11は、ステップS203の処理のみを実行し、所定の言葉が発せられたと判断した場合、ステップS204の処理に進み、所定の言葉が発せられなかったと判断した場合、ステップS209の処理に進んでもよい。このように、制御部11は、様々な観点から、話者が切り替わったか否かを正確に判断すると共に、処理量を削減することもできる。
また、上述した実施形態では、制御部11が、図6Aおよび図6Bに示す処理において、各タイミング前における話者、および各タイミング以降における話者を決定する場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、図6Aおよび図6Bに示す処理において、当該処理を実行するタイミング前までに発話し終わっている話者のみを決定してもよい。すなわち、制御部11は、例えば図6Aに示す処理において、ステップS306、S308、S311およびS313の少なくともいずれかの処理を省略してもよい。これにより、制御部11は、処理量を削減して、発話し終わっている話者を高速に決定できる。
また、上述した実施形態では、制御部11が、出力部としての表示部14に、高い精度で決定された話者に関する情報を含む議事録を表示(出力)させる場合を例に挙げて説明した。しかし、本実施形態はこれに限定されない。制御部11は、出力部としての任意の他の装置に、議事録を出力させてもよい。例えば、制御部11は、他のユーザー端末やプロジェクター等に、通信部13等を介して議事録のデータを送信し、議事録を出力させてもよい。あるいは、制御部11は、画像形成装置に、通信部13等を介して議事録のデータを送信し、印刷物としての議事録を出力させてもよい。
(変形例)
上述した実施形態では、会議において、1つのユーザー端末10が使用される場合を例に挙げて説明した。変形例では、複数のユーザー端末10が使用される場合について説明する。
図8は、話者決定システムの全体構成を示す図である。
図8に示すように、話者決定システム1は、複数のユーザー端末10X、10Yおよび10Zを備える。複数のユーザー端末10X、10Yおよび10Zは、複数の拠点X、YおよびZに位置し、複数のユーザーであるAさん、Bさん、Cさん、DさんおよびEさんによって使用される。ユーザー端末10X、10Yおよび10Zは、上述した実施形態に係るユーザー端末10と同様の構成を備え、LAN等のネットワーク20を介して、相互に通信可能に接続されている。なお、話者決定システム1は、上述した構成要素以外の構成要素を備えてもよいし、上述した構成要素のうちの一部の構成要素を備えなくてもよい。
変形例では、ユーザー端末10X、10Yおよび10Zのいずれかが、話者決定装置として機能する。例えば、図8に示す例において、ユーザー端末10Xが、話者決定装置であり、Aさんが、議事録の作成者であり、Bさん、Cさん、DさんおよびEさんが、会議の参加者であってもよい。なお、話者決定システム1は、周知のテレビ会議システムや、ウェブ会議システム等からは独立しており、ユーザー端末10Xは、これらのシステムから、話者の拠点等の情報を取得しないものとする。
話者決定装置としてのユーザー端末10Xは、上述した処理を実行する。ただし、ユーザー端末10Xは、音声データとして、ユーザー端末10Yおよび10Zに入力された音声に関するデータを、ネットワーク20等を介して、ユーザー端末10Yおよび10Zから取得する。これにより、ユーザー端末10Xは、拠点Yにおける話者であるBさん、CさんおよびDさん、ならびに拠点Zにおける話者であるEさんを、高い精度でリアルタイムに判別できる。
また、上述した例において、Aさんは、議事録の作成者かつ会議の参加者であってもよい。この場合、ユーザー端末10Xは、音声データとして、自装置に入力された音声に関するデータを取得すると共に、ユーザー端末10Yおよび10Zに入力された音声に関するデータも取得する。これにより、ユーザー端末10Xは、話者であるAさん、Bさん、Cさん、DさんおよびEさんを、高い精度でリアルタイムに判別できる。
以上のように、変形例に係る話者決定システム1では、複数のユーザー端末が使用され、各々のユーザー端末によって、複数のユーザーとしての話者の音声に関するデータが取得される。これにより、話者決定システム1は、会議の参加者が複数の拠点に位置する場合でも、話者を高い精度で判別して決定できる。特に近年、リモートワークおよびネットワークの技術の発展によって、様々な拠点において仕事をする者同士が、ネットワークを介した会議(ウェブ会議)を行う機会が増加した。話者決定システム1は、このような近年増加する形態の会議において、会議の参加者に、各々の発話内容をより正確に理解させることができる。
特に、変形例に係る話者決定システム1は、周知のテレビ会議システムや、ウェブ会議システム等の会議システムからは、独立して構成され得る。したがって、話者決定システム1は、例えば、クライアントから指定された会議システムを利用して会議を行う場合において、会議システムから話者情報を直接取得できないときでも、個別に取得した音声データに基づいて、話者を高い精度で決定できる。また、話者決定システム1は、会議システムにおいて取得された音声データを、会議システムから取得してもよい。これにより、話者決定システム1は、会議システムから独立したシステムとしての利便性の高さを実現しつつ、音声データをより容易に取得できる。
なお、上述した実施形態に係る処理は、上述したステップ以外のステップを含んでもよいし、上述したステップのうちの一部のステップを含まなくてもよい。また、各ステップの順序は、上述した実施形態に限定されない。さらに、各ステップは、他のステップと組み合わされて一つのステップを構成してもよく、他のステップに含まれてもよく、複数のステップに分割されてもよい。
また、上述した実施形態に係る話者決定装置としてのユーザー端末10における各種処理を行う手段および方法は、専用のハードウエア回路、およびプログラムされたコンピューターのいずれによっても実現することが可能である。上述したプログラムは、例えば、CD−ROM(Compact Disc Read Only Memory)等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され、記憶される。また、上述したプログラムは、単独のアプリケーションソフトとして提供されてもよいし、ユーザー端末10の一機能としてその装置のソフトウェアに組み込まれてもよい。
10 ユーザー端末、
11 制御部、
111 音声取得部、
112 音声解析部、
113 時間計測部、
114 テキスト変換部、
115 テキスト解析部、
116 表示制御部、
117 切り替え判断部、
118 話者決定部、
12 記憶部、
13 通信部、
14 表示部、
15 操作受付部、
16 音入力部。

Claims (21)

  1. 会議における音声に関するデータを取得する音声取得部と、
    前記音声取得部によって取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断部と、
    前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換部と、
    前記テキスト変換部によって変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析部と、
    前記テキスト解析部によって検出された前記文の区切りのタイミングと、前記音声切り替え判断部によって判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定部と、
    を有する話者決定装置。
  2. 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致するか否かの判断結果に基づいて、前記話者を決定する請求項1に記載の話者決定装置。
  3. 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致すると判断した場合、前記テキスト解析部による前記テキストの解析結果によらずに、一致したタイミング前における前記話者を決定する請求項2に記載の話者決定装置。
  4. 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致しないと判断した場合、前記テキスト解析部による前記テキストの解析結果に基づいて、前記話者を決定する請求項2または3に記載の話者決定装置。
  5. 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングに基づいて、前記話者を決定できない場合、前記話者が不明であると決定する請求項1〜4のいずれか一項に記載の話者決定装置。
  6. 前記テキスト解析部は、前記テキストにおける無言部分、または前記文の構成に基づいて、前記文の区切りを検出する請求項1〜5のいずれか一項に記載の話者決定装置。
  7. 前記音声の特徴量に基づいて、前記音声を発した話者を仮決定する音声解析部をさらに有し、
    前記音声切り替え判断部は、前記音声が切り替わったか否かの判断として、前記音声解析部によって仮決定されている前記話者が切り替わったか否かの判断を行う請求項1〜6のいずれか一項に記載の話者決定装置。
  8. 前記音声解析部は、前記会議の開始前において取得された前記音声に関するデータに基づいて、前記話者毎の前記音声の特徴量のグループを生成し、前記会議の開始後において取得された前記音声に関するデータに基づいて、前記音声の特徴量を抽出し、抽出された前記音声の特徴量に対応する前記グループを特定することによって、前記話者を仮決定する請求項7に記載の話者決定装置。
  9. 前記会議の開始前において、前記音声取得部によって前記音声に関するデータの取得が開始されてから、所定の第1の時間が経過したか否かを判断し、前記第1の時間が経過したと判断した場合、前記会議が開始されたと判断する第1の時間計測部をさらに有する請求項8に記載の話者決定装置。
  10. 前記音声取得部は、前記会議の開始前において前記音声に関するデータの取得を開始し、
    前記テキスト解析部は、前記会議の開始前において前記テキストの解析を開始し、前記会議の開始を示す言葉が発せられたか否かを判断し、前記会議の開始を示す言葉が発せられたと判断した場合、前記会議が開始されたと判断する請求項8または9に記載の話者決定装置。
  11. 前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断した場合、前記第2の特徴量に対応する前記グループが存在するか否かをさらに判断し、前記第2の特徴量に対応する前記グループが存在しないと判断した場合、前記第2の特徴量のグループを新たに生成する請求項8〜10のいずれか一項に記載の話者決定装置。
  12. 前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断された場合、所定の第2の時間が経過するまで前記第2の特徴量の抽出が続いたか否かを判断する第2の時間計測部をさらに有し、
    前記音声切り替え判断部は、前記第2の時間計測部によって、前記第2の特徴量の抽出が続いたと判断された場合、前記話者が切り替わったと判断する請求項7〜11のいずれか一項に記載の話者決定装置。
  13. 前記テキスト解析部は、前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断された場合、所定の第2の時間中に所定の言葉が発せられたか否かを判断し、
    前記音声切り替え判断部は、前記テキスト解析部によって、前記所定の言葉が発せられたと判断された場合、前記話者が切り替わったと判断する請求項7〜12のいずれか一項に記載の話者決定装置。
  14. 前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化した後、前記第1の特徴量に戻ったか否かを判断し、
    前記音声切り替え判断部は、
    前記音声解析部によって、抽出されている前記音声の特徴量が、前記第1の特徴量に戻らず、前記第1の特徴量および前記第2の特徴量とは異なる第3の話者の前記音声の特徴量である第3の特徴量にさらに変化したと判断された場合、前記話者が切り替わったと判断し、
    前記音声解析部によって、抽出されている前記音声の特徴量が前記第1の特徴量に戻ったと判断された場合、前記話者が切り替わっていないと判断する請求項7〜13のいずれか一項に記載の話者決定装置。
  15. 前記話者決定部は、抽出されている前記音声の特徴量が、前記第1の特徴量から前記第2の特徴量に変化したタイミングである第1のタイミング以降から、前記第2の特徴量から前記第3の特徴量に変化したタイミングである第2のタイミング前までの第1の期間において、前記テキスト解析部によって、前記文の区切りが検出されたか否かを判断する請求項14に記載の話者決定装置。
  16. 前記話者決定部は、
    前記第1の期間において、前記文の一つの区切りが検出されたと判断した場合、前記文の一つの区切りのタイミング前における前記話者が前記第1の話者であり、前記文の一つの区切りのタイミング以降における前記話者が前記第3の話者であると決定し、
    前記第1の期間において、前記文の複数の区切りが検出されたと判断した場合、前記第1のタイミング前における前記話者が前記第1の話者であり、前記第1の期間における前記話者が不明であり、前記第2のタイミング以降における前記話者が前記第3の話者であると決定する請求項15に記載の話者決定装置。
  17. 前記話者決定部は、前記第1の期間において、前記文の区切りが検出されていないと判断した場合、前記第1のタイミング前に存在する前記文の区切りのタイミング前における前記話者が前記第1の話者であると決定し、前記第1のタイミング前に存在する前記文の区切りのタイミング以降における前記話者の決定を一旦保留し、
    前記音声解析部は、前記話者決定部によって前記話者の決定が保留された場合、前記第1のタイミング前に存在する前記文の区切りのタイミング以降から、次の前記文の区切りのタイミング前までの第2の期間において、抽出された前記音声の特徴量を平均化し、平均化された前記音声の特徴量に対応する、前記話者毎の前記音声の特徴量のグループが存在するか否かを判断し、
    前記話者決定部はさらに、
    前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在すると判断された場合、前記第2の期間における前記話者が、前記グループに対応する前記話者であると決定し、
    前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在しないと判断された場合、前記第2の期間における前記話者が不明であると決定する請求項15または16に記載の話者決定装置。
  18. 前記話者決定部によって決定された前記話者に関する情報を前記テキストに関する情報に関連付けて、出力部に出力させる出力制御部をさらに有する請求項1〜17のいずれか一項に記載の話者決定装置。
  19. 前記出力制御部は、前記話者の分類名もしくは名前に関する情報を出力する、前記話者毎に対応する前記テキストに関する情報を色分けして出力する、または、前記話者毎に対応する前記テキストに関する情報を吹き出し内に出力するように前記出力部を制御することによって、前記話者に関する情報を前記出力部に出力させる請求項18に記載の話者決定装置。
  20. 会議における音声に関するデータを取得する音声取得ステップと、
    前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、
    前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、
    前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、
    前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、
    を含む話者決定方法。
  21. 話者を決定する話者決定装置の制御プログラムであって、
    会議における音声に関するデータを取得する音声取得ステップと、
    前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、
    前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、
    前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、
    前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、
    を含む処理をコンピューターに実行させるための制御プログラム。
JP2019037625A 2019-03-01 2019-03-01 話者決定装置、話者決定方法、および話者決定装置の制御プログラム Active JP7287006B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019037625A JP7287006B2 (ja) 2019-03-01 2019-03-01 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
US16/780,979 US20200279570A1 (en) 2019-03-01 2020-02-04 Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019037625A JP7287006B2 (ja) 2019-03-01 2019-03-01 話者決定装置、話者決定方法、および話者決定装置の制御プログラム

Publications (2)

Publication Number Publication Date
JP2020140169A true JP2020140169A (ja) 2020-09-03
JP7287006B2 JP7287006B2 (ja) 2023-06-06

Family

ID=72236445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019037625A Active JP7287006B2 (ja) 2019-03-01 2019-03-01 話者決定装置、話者決定方法、および話者決定装置の制御プログラム

Country Status (2)

Country Link
US (1) US20200279570A1 (ja)
JP (1) JP7287006B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022121386A (ja) * 2021-02-08 2022-08-19 ネイバー コーポレーション テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11895263B2 (en) * 2021-05-25 2024-02-06 International Business Machines Corporation Interpreting conference call interruptions

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054574A (ja) * 2008-08-26 2010-03-11 Nippon Hoso Kyokai <Nhk> 話者交替推定装置、話者識別装置、及びコンピュータプログラム
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
JP2016080916A (ja) * 2014-10-17 2016-05-16 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054574A (ja) * 2008-08-26 2010-03-11 Nippon Hoso Kyokai <Nhk> 話者交替推定装置、話者識別装置、及びコンピュータプログラム
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
JP2016080916A (ja) * 2014-10-17 2016-05-16 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022121386A (ja) * 2021-02-08 2022-08-19 ネイバー コーポレーション テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
JP7348447B2 (ja) 2021-02-08 2023-09-21 ネイバー コーポレーション テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム

Also Published As

Publication number Publication date
US20200279570A1 (en) 2020-09-03
JP7287006B2 (ja) 2023-06-06

Similar Documents

Publication Publication Date Title
CN112262430B (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
US11138977B1 (en) Determining device groups
US9293133B2 (en) Improving voice communication over a network
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
JP6654691B2 (ja) 情報処理装置
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
US20210281681A1 (en) Systems and methods for operating an interactive voice response system
US10699706B1 (en) Systems and methods for device communications
JP2013164515A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
KR101559364B1 (ko) 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
KR102535790B1 (ko) 보류 상태를 관리하기 위한 방법 및 장치
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US11270691B2 (en) Voice interaction system, its processing method, and program therefor
KR20220140599A (ko) 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터
JP2020095210A (ja) 議事録出力装置および議事録出力装置の制御プログラム
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
JP7330066B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
JP2016062333A (ja) 検索サーバ、及び検索方法
JP6365304B2 (ja) 会話分析装置及び会話分析方法
KR20230011894A (ko) 오디오 특징 검출을 위한 기술
Goto et al. Speech spotter: on-demand speech recognition in human-human conversation on the telephone or in face-to-face situations.
WO2021134592A1 (zh) 语音处理方法、装置、设备以及存储介质
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7287006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150