JP2020140169A - 話者決定装置、話者決定方法、および話者決定装置の制御プログラム - Google Patents
話者決定装置、話者決定方法、および話者決定装置の制御プログラム Download PDFInfo
- Publication number
- JP2020140169A JP2020140169A JP2019037625A JP2019037625A JP2020140169A JP 2020140169 A JP2020140169 A JP 2020140169A JP 2019037625 A JP2019037625 A JP 2019037625A JP 2019037625 A JP2019037625 A JP 2019037625A JP 2020140169 A JP2020140169 A JP 2020140169A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- feature amount
- timing
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 102
- 238000004458 analytical method Methods 0.000 claims abstract description 80
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 84
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- QYSGYZVSCZSLHT-UHFFFAOYSA-N octafluoropropane Chemical compound FC(F)(F)C(F)(F)C(F)(F)F QYSGYZVSCZSLHT-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/007—Monitoring arrangements; Testing arrangements for public address systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
上述した実施形態では、会議において、1つのユーザー端末10が使用される場合を例に挙げて説明した。変形例では、複数のユーザー端末10が使用される場合について説明する。
11 制御部、
111 音声取得部、
112 音声解析部、
113 時間計測部、
114 テキスト変換部、
115 テキスト解析部、
116 表示制御部、
117 切り替え判断部、
118 話者決定部、
12 記憶部、
13 通信部、
14 表示部、
15 操作受付部、
16 音入力部。
Claims (21)
- 会議における音声に関するデータを取得する音声取得部と、
前記音声取得部によって取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断部と、
前記音声取得部によって取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換部と、
前記テキスト変換部によって変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析部と、
前記テキスト解析部によって検出された前記文の区切りのタイミングと、前記音声切り替え判断部によって判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定部と、
を有する話者決定装置。 - 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致するか否かの判断結果に基づいて、前記話者を決定する請求項1に記載の話者決定装置。
- 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致すると判断した場合、前記テキスト解析部による前記テキストの解析結果によらずに、一致したタイミング前における前記話者を決定する請求項2に記載の話者決定装置。
- 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングが一致しないと判断した場合、前記テキスト解析部による前記テキストの解析結果に基づいて、前記話者を決定する請求項2または3に記載の話者決定装置。
- 前記話者決定部は、前記文の区切りのタイミングおよび前記音声の切り替わりのタイミングに基づいて、前記話者を決定できない場合、前記話者が不明であると決定する請求項1〜4のいずれか一項に記載の話者決定装置。
- 前記テキスト解析部は、前記テキストにおける無言部分、または前記文の構成に基づいて、前記文の区切りを検出する請求項1〜5のいずれか一項に記載の話者決定装置。
- 前記音声の特徴量に基づいて、前記音声を発した話者を仮決定する音声解析部をさらに有し、
前記音声切り替え判断部は、前記音声が切り替わったか否かの判断として、前記音声解析部によって仮決定されている前記話者が切り替わったか否かの判断を行う請求項1〜6のいずれか一項に記載の話者決定装置。 - 前記音声解析部は、前記会議の開始前において取得された前記音声に関するデータに基づいて、前記話者毎の前記音声の特徴量のグループを生成し、前記会議の開始後において取得された前記音声に関するデータに基づいて、前記音声の特徴量を抽出し、抽出された前記音声の特徴量に対応する前記グループを特定することによって、前記話者を仮決定する請求項7に記載の話者決定装置。
- 前記会議の開始前において、前記音声取得部によって前記音声に関するデータの取得が開始されてから、所定の第1の時間が経過したか否かを判断し、前記第1の時間が経過したと判断した場合、前記会議が開始されたと判断する第1の時間計測部をさらに有する請求項8に記載の話者決定装置。
- 前記音声取得部は、前記会議の開始前において前記音声に関するデータの取得を開始し、
前記テキスト解析部は、前記会議の開始前において前記テキストの解析を開始し、前記会議の開始を示す言葉が発せられたか否かを判断し、前記会議の開始を示す言葉が発せられたと判断した場合、前記会議が開始されたと判断する請求項8または9に記載の話者決定装置。 - 前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断した場合、前記第2の特徴量に対応する前記グループが存在するか否かをさらに判断し、前記第2の特徴量に対応する前記グループが存在しないと判断した場合、前記第2の特徴量のグループを新たに生成する請求項8〜10のいずれか一項に記載の話者決定装置。
- 前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断された場合、所定の第2の時間が経過するまで前記第2の特徴量の抽出が続いたか否かを判断する第2の時間計測部をさらに有し、
前記音声切り替え判断部は、前記第2の時間計測部によって、前記第2の特徴量の抽出が続いたと判断された場合、前記話者が切り替わったと判断する請求項7〜11のいずれか一項に記載の話者決定装置。 - 前記テキスト解析部は、前記音声解析部によって、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化したと判断された場合、所定の第2の時間中に所定の言葉が発せられたか否かを判断し、
前記音声切り替え判断部は、前記テキスト解析部によって、前記所定の言葉が発せられたと判断された場合、前記話者が切り替わったと判断する請求項7〜12のいずれか一項に記載の話者決定装置。 - 前記音声解析部は、抽出されている前記音声の特徴量が、仮決定されている第1の話者の前記音声の特徴量である第1の特徴量から、前記第1の特徴量とは異なる第2の話者の前記音声の特徴量である第2の特徴量に変化した後、前記第1の特徴量に戻ったか否かを判断し、
前記音声切り替え判断部は、
前記音声解析部によって、抽出されている前記音声の特徴量が、前記第1の特徴量に戻らず、前記第1の特徴量および前記第2の特徴量とは異なる第3の話者の前記音声の特徴量である第3の特徴量にさらに変化したと判断された場合、前記話者が切り替わったと判断し、
前記音声解析部によって、抽出されている前記音声の特徴量が前記第1の特徴量に戻ったと判断された場合、前記話者が切り替わっていないと判断する請求項7〜13のいずれか一項に記載の話者決定装置。 - 前記話者決定部は、抽出されている前記音声の特徴量が、前記第1の特徴量から前記第2の特徴量に変化したタイミングである第1のタイミング以降から、前記第2の特徴量から前記第3の特徴量に変化したタイミングである第2のタイミング前までの第1の期間において、前記テキスト解析部によって、前記文の区切りが検出されたか否かを判断する請求項14に記載の話者決定装置。
- 前記話者決定部は、
前記第1の期間において、前記文の一つの区切りが検出されたと判断した場合、前記文の一つの区切りのタイミング前における前記話者が前記第1の話者であり、前記文の一つの区切りのタイミング以降における前記話者が前記第3の話者であると決定し、
前記第1の期間において、前記文の複数の区切りが検出されたと判断した場合、前記第1のタイミング前における前記話者が前記第1の話者であり、前記第1の期間における前記話者が不明であり、前記第2のタイミング以降における前記話者が前記第3の話者であると決定する請求項15に記載の話者決定装置。 - 前記話者決定部は、前記第1の期間において、前記文の区切りが検出されていないと判断した場合、前記第1のタイミング前に存在する前記文の区切りのタイミング前における前記話者が前記第1の話者であると決定し、前記第1のタイミング前に存在する前記文の区切りのタイミング以降における前記話者の決定を一旦保留し、
前記音声解析部は、前記話者決定部によって前記話者の決定が保留された場合、前記第1のタイミング前に存在する前記文の区切りのタイミング以降から、次の前記文の区切りのタイミング前までの第2の期間において、抽出された前記音声の特徴量を平均化し、平均化された前記音声の特徴量に対応する、前記話者毎の前記音声の特徴量のグループが存在するか否かを判断し、
前記話者決定部はさらに、
前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在すると判断された場合、前記第2の期間における前記話者が、前記グループに対応する前記話者であると決定し、
前記音声解析部によって、平均化された前記音声の特徴量に対応する前記グループが存在しないと判断された場合、前記第2の期間における前記話者が不明であると決定する請求項15または16に記載の話者決定装置。 - 前記話者決定部によって決定された前記話者に関する情報を前記テキストに関する情報に関連付けて、出力部に出力させる出力制御部をさらに有する請求項1〜17のいずれか一項に記載の話者決定装置。
- 前記出力制御部は、前記話者の分類名もしくは名前に関する情報を出力する、前記話者毎に対応する前記テキストに関する情報を色分けして出力する、または、前記話者毎に対応する前記テキストに関する情報を吹き出し内に出力するように前記出力部を制御することによって、前記話者に関する情報を前記出力部に出力させる請求項18に記載の話者決定装置。
- 会議における音声に関するデータを取得する音声取得ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、
前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、
前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、
を含む話者決定方法。 - 話者を決定する話者決定装置の制御プログラムであって、
会議における音声に関するデータを取得する音声取得ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータから抽出された前記音声の特徴量に基づいて、前記音声が切り替わったか否かを判断する音声切り替え判断ステップと、
前記音声取得ステップにおいて取得された前記音声に関するデータに基づいて、前記音声を認識し、テキストに変換するテキスト変換ステップと、
前記テキスト変換ステップにおいて変換された前記テキストを解析し、前記テキストにおける文の区切りを検出するテキスト解析ステップと、
前記テキスト解析ステップにおいて検出された前記文の区切りのタイミングと、前記音声切り替え判断ステップにおいて判断された前記音声の切り替わりのタイミングとに基づいて、話者を決定する話者決定ステップと、
を含む処理をコンピューターに実行させるための制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019037625A JP7287006B2 (ja) | 2019-03-01 | 2019-03-01 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
US16/780,979 US20200279570A1 (en) | 2019-03-01 | 2020-02-04 | Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019037625A JP7287006B2 (ja) | 2019-03-01 | 2019-03-01 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140169A true JP2020140169A (ja) | 2020-09-03 |
JP7287006B2 JP7287006B2 (ja) | 2023-06-06 |
Family
ID=72236445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019037625A Active JP7287006B2 (ja) | 2019-03-01 | 2019-03-01 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200279570A1 (ja) |
JP (1) | JP7287006B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022121386A (ja) * | 2021-02-08 | 2022-08-19 | ネイバー コーポレーション | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11895263B2 (en) * | 2021-05-25 | 2024-02-06 | International Business Machines Corporation | Interpreting conference call interruptions |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054574A (ja) * | 2008-08-26 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 話者交替推定装置、話者識別装置、及びコンピュータプログラム |
JP2011053569A (ja) * | 2009-09-03 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
JP2016080916A (ja) * | 2014-10-17 | 2016-05-16 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
-
2019
- 2019-03-01 JP JP2019037625A patent/JP7287006B2/ja active Active
-
2020
- 2020-02-04 US US16/780,979 patent/US20200279570A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054574A (ja) * | 2008-08-26 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | 話者交替推定装置、話者識別装置、及びコンピュータプログラム |
JP2011053569A (ja) * | 2009-09-03 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
JP2016080916A (ja) * | 2014-10-17 | 2016-05-16 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022121386A (ja) * | 2021-02-08 | 2022-08-19 | ネイバー コーポレーション | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム |
JP7348447B2 (ja) | 2021-02-08 | 2023-09-21 | ネイバー コーポレーション | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
US20200279570A1 (en) | 2020-09-03 |
JP7287006B2 (ja) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112262430B (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
US11138977B1 (en) | Determining device groups | |
US9293133B2 (en) | Improving voice communication over a network | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
US20200012724A1 (en) | Bidirectional speech translation system, bidirectional speech translation method and program | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
JP6654691B2 (ja) | 情報処理装置 | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
US20210281681A1 (en) | Systems and methods for operating an interactive voice response system | |
US10699706B1 (en) | Systems and methods for device communications | |
JP2013164515A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
KR101559364B1 (ko) | 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션 | |
KR102535790B1 (ko) | 보류 상태를 관리하기 위한 방법 및 장치 | |
WO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
US11270691B2 (en) | Voice interaction system, its processing method, and program therefor | |
KR20220140599A (ko) | 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터 | |
JP2020095210A (ja) | 議事録出力装置および議事録出力装置の制御プログラム | |
JP7287006B2 (ja) | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
JP2016062333A (ja) | 検索サーバ、及び検索方法 | |
JP6365304B2 (ja) | 会話分析装置及び会話分析方法 | |
KR20230011894A (ko) | 오디오 특징 검출을 위한 기술 | |
Goto et al. | Speech spotter: on-demand speech recognition in human-human conversation on the telephone or in face-to-face situations. | |
WO2021134592A1 (zh) | 语音处理方法、装置、设备以及存储介质 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7287006 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |