JP7062966B2 - 音声解析装置、音声解析システム、及びプログラム - Google Patents
音声解析装置、音声解析システム、及びプログラム Download PDFInfo
- Publication number
- JP7062966B2 JP7062966B2 JP2018007349A JP2018007349A JP7062966B2 JP 7062966 B2 JP7062966 B2 JP 7062966B2 JP 2018007349 A JP2018007349 A JP 2018007349A JP 2018007349 A JP2018007349 A JP 2018007349A JP 7062966 B2 JP7062966 B2 JP 7062966B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- section
- emphasis
- calculation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 44
- 238000000034 method Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 239000011295 pitch Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、音声の話題を精度よく決定することを目的とする。
請求項2に係る発明によれば、音声の話題を精度よく決定することができる。
請求項3に係る発明によれば、全ての区間の単語を認識する場合に比べて、音声認識の処理量を減らすことができる。
請求項4に係る発明によれば、話者によって音声の強調の基準が異なる場合でも、話者に応じた無効部分音声を設定することができる。
請求項5に係る発明によれば、全ての区間の単語を認識する場合に比べて、音声認識の処理量を減らすことができる。
請求項6に係る発明によれば、話者によって音声の強調の基準が異なる場合でも、話者に応じた無効部分音声を設定することができる。
請求項7に係る発明によれば、音声の強度、長さ、及び高さを用いずに強調度を算出する場合に比べて、強調度の精度を高めることができる。
請求項8に係る発明によれば、音声の話題を精度よく決定することができる。
請求項9に係る発明によれば、音声の話題を精度よく決定することができる。
図1は、実施形態に係る音声解析システム1の構成の一例を示す図である。音声解析システム1は、端末装置20から入力された音声を解析し、音声の話題を推定するシステムである。この話題とは、話の題材又は要約をいう。音声解析システム1は、音声解析装置10と端末装置20とを備える。なお、図1に示す例では、音声解析装置10の数及び端末装置20の数は、それぞれ単数であるが、複数であってもよい。音声解析装置10及び端末装置20は、通信回線30を介して接続される。
2.1 設定情報の作成
話者によって、音声の強調の基準が異なる場合がある。このような場合であっても、音声の話題を精度よく推定するために、音声の話題を推定する処理に先立って、話者の設定情報109を作成する。この設定情報109とは、プロファイルとも呼ばれ、話者毎の設定を示す情報である。
次に、話者の音声からその話題を推定する処理について説明する。図7は、話題推定処理の一例を示すフローチャートである。話者は、設定情報109が作成された後、音取得装置21を用いて自分の音声を入力する。ここでは、ユーザIDが「U30511」の話者によって3:01:00から音声が入力された場合を想定する。音取得装置21に音声が入力されると、この音声を示す音声信号G2が端末装置20から音声解析装置10に送信される。
上述した実施形態は、本発明の一例である。本発明は、上述した実施形態に限定されない。例えば上述した実施形態を以下のように変形してもよい。また、以下の2つ以上の変形例を組み合わせて実施してもよい。
Claims (9)
- 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第1算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と
を備える音声解析装置。 - 前記第2算出部は、前記重みと前記強調度とを乗ずることにより、前記指標を算出する
請求項1記載の音声解析装置。 - 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間の強調度を算出する第1算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、
前記第1算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部とを備え、
前記音声認識部は、前記有効区間に設定された区間に前記音声認識に施すことにより当該区間に対応する単語を認識する
音声解析装置。 - 前記第1算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、
前記設定部は、前記第1算出部により算出された前記強調度が前記下限値以上である場合には、前記区間を前記有効区間に設定する
請求項3に記載の音声解析装置。 - 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間の強調度を算出する第1算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、
前記第1算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部とを備え、
前記音声認識部は、前記無効区間に設定された区間には前記音声認識を施さない
音声解析装置。 - 前記第1算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、
前記設定部は、前記第1算出部により算出された前記強調度が前記下限値より小さい場合には、前記区間を前記無効区間に設定する
請求項5に記載の音声解析装置。 - 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間の強調度を算出する第1算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを備え、
前記第1算出部は、前記区間に対応する音声の強度、長さ、及び高さのうち少なくとも1つを用いて前記強調度を算出する
音声解析装置。 - 音声を取得する音取得装置と、
音声解析装置とを備え、
前記音声解析装置は、
前記音取得装置により取得された前記音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第1算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを有する
音声解析システム。 - コンピュータに、
音取得装置により取得された音声を示す音声信号を単語毎の区間に分割するステップと、
前記分割された区間に対応する音声の話者による強調の程度を示す強調度を算出するステップと、
音声認識を施すことにより前記区間に対応する単語を認識するステップと、
前記認識された単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記算出された強調度とを用いて、前記話題に関する指標を算出するステップと、
前記算出された指標に応じて、前記複数の話題の中から前記音声の話題を決定するステップと
を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007349A JP7062966B2 (ja) | 2018-01-19 | 2018-01-19 | 音声解析装置、音声解析システム、及びプログラム |
US16/240,797 US20190228765A1 (en) | 2018-01-19 | 2019-01-07 | Speech analysis apparatus, speech analysis system, and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007349A JP7062966B2 (ja) | 2018-01-19 | 2018-01-19 | 音声解析装置、音声解析システム、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019124897A JP2019124897A (ja) | 2019-07-25 |
JP7062966B2 true JP7062966B2 (ja) | 2022-05-09 |
Family
ID=67298236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018007349A Active JP7062966B2 (ja) | 2018-01-19 | 2018-01-19 | 音声解析装置、音声解析システム、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190228765A1 (ja) |
JP (1) | JP7062966B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7142315B2 (ja) * | 2018-09-27 | 2022-09-27 | パナソニックIpマネジメント株式会社 | 説明支援装置および説明支援方法 |
WO2022259531A1 (ja) * | 2021-06-11 | 2022-12-15 | 日本電信電話株式会社 | オンライン会議のための装置、方法及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134276A (ja) | 1999-11-02 | 2001-05-18 | Nippon Hoso Kyokai <Nhk> | 音声文字化誤り検出装置および記録媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0634193B2 (ja) * | 1987-01-13 | 1994-05-02 | 日本電気株式会社 | キ−ワ−ド抽出装置 |
JP3591695B2 (ja) * | 1998-03-02 | 2004-11-24 | 日本電信電話株式会社 | 話題抽出方法及びそのプログラム記録媒体 |
-
2018
- 2018-01-19 JP JP2018007349A patent/JP7062966B2/ja active Active
-
2019
- 2019-01-07 US US16/240,797 patent/US20190228765A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134276A (ja) | 1999-11-02 | 2001-05-18 | Nippon Hoso Kyokai <Nhk> | 音声文字化誤り検出装置および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2019124897A (ja) | 2019-07-25 |
US20190228765A1 (en) | 2019-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906067B2 (ja) | 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 | |
CN109087670B (zh) | 情绪分析方法、***、服务器及存储介质 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
JP6857581B2 (ja) | 成長型対話装置 | |
CN109859772B (zh) | 情绪识别方法、装置及计算机可读存储介质 | |
US20160307571A1 (en) | Conversation analysis device, conversation analysis method, and program | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和*** | |
WO2022127042A1 (zh) | 基于语音识别的***识别方法、装置及计算机设备 | |
JP2024020321A (ja) | 精神・神経系疾患を推定する装置 | |
JP7062966B2 (ja) | 音声解析装置、音声解析システム、及びプログラム | |
CN111061877A (zh) | 文本主题提取方法和装置 | |
CN110335608A (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN110853621A (zh) | 语音顺滑方法、装置、电子设备及计算机存储介质 | |
EP3813061A1 (en) | Attribute identifying device, attribute identifying method, and program storage medium | |
JP5084297B2 (ja) | 会話解析装置および会話解析プログラム | |
CN109461503B (zh) | 题目得分评估方法及认知评估装置、设备、可读存储介质 | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
CN111199749A (zh) | 行为识别方法、装置,机器学习方法、装置以及记录介质 | |
CN111755029B (zh) | 语音处理方法、装置、存储介质以及电子设备 | |
CN111145748B (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
Johar | Paralinguistic profiling using speech recognition | |
CN111862946B (zh) | 一种订单处理方法、装置、电子设备及存储介质 | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7062966 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |