JP7062966B2 - 音声解析装置、音声解析システム、及びプログラム - Google Patents

音声解析装置、音声解析システム、及びプログラム Download PDF

Info

Publication number
JP7062966B2
JP7062966B2 JP2018007349A JP2018007349A JP7062966B2 JP 7062966 B2 JP7062966 B2 JP 7062966B2 JP 2018007349 A JP2018007349 A JP 2018007349A JP 2018007349 A JP2018007349 A JP 2018007349A JP 7062966 B2 JP7062966 B2 JP 7062966B2
Authority
JP
Japan
Prior art keywords
voice
unit
section
emphasis
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018007349A
Other languages
English (en)
Other versions
JP2019124897A (ja
Inventor
旋 羅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018007349A priority Critical patent/JP7062966B2/ja
Priority to US16/240,797 priority patent/US20190228765A1/en
Publication of JP2019124897A publication Critical patent/JP2019124897A/ja
Application granted granted Critical
Publication of JP7062966B2 publication Critical patent/JP7062966B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声解析装置、音声解析システム、及びプログラムに関する。
音声を解析することにより重要な部分を抽出する技術が知られている。例えば特許文献1には、発話音声中の強調に該当する音声区間を自動抽出する技術が開示されている。特許文献2には、会議の時間における所定区間毎に、所定区間に発言されたセンテンスに含まれる各トピックの名称の数に基づいて、所定区間に話し合われたトピックを判別する技術が開示されている。特許文献3には、発話された複数の単語の出現頻度パターンに基づいてトピックを認識する技術が開示されている。
特許第5875504号公報 特許第4458888号公報 特許第5386692号公報
上述した特許文献1では、単に強調された音声区間が抽出されるだけであり、音声の話題が推定されるわけではない。また、上述した特許文献2及び3のように、音声の話題に関連する単語の出現数又は出現頻度だけを用いて音声の話題を推定した場合には、正しい話題が推定されない場合がある。
本発明は、音声の話題を精度よく決定することを目的とする。
請求項1に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第1算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを備える音声解析装置である。
請求項2に係る発明は、請求項1記載の音声解析装置において、前記第2算出部は、前記重みと前記強調度とを乗ずることにより、前記指標を算出する。
請求項3に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間の強調度を算出する第1算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、前記第1算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部を備え、前記音声認識部は、前記有効区間に設定された区間に前記音声認識に施すことにより当該区間に対応する単語を認識する音声解析装置を提供する。
請求項4に係る発明は、請求項3に記載の音声解析装置において、前記第1算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、前記設定部は、前記第1算出部により算出された前記強調度が前記下限値以上である場合には、前記区間を前記有効区間に設定する。
請求項5に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間の強調度を算出する第1算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、前記第1算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部を備え、前記音声認識部は、前記無効区間に設定された区間には前記音声認識を施さない音声解析装置である。
請求項6に係る発明は、請求項5に記載の音声解析装置において、前記第1算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、前記設定部は、前記第1算出部により算出された前記強調度が前記下限値より小さい場合には、前記区間を前記無効区間に設定する。
請求項7に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間の強調度を算出する第1算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを備え、前記第1算出部は、前記区間に対応する音声の強度、長さ、及び高さのうち少なくとも1つを用いて前記強調度を算出する音声解析装置を提供する。
請求項8に係る発明は、音声を取得する音取得装置と、音声解析装置とを備え、前記音声解析装置は、前記音取得装置により取得された前記音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第1算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを有する音声解析システムを提供する。
請求項9に係る発明は、コンピュータに、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割するステップと、前記分割された区間に対応する音声の話者による強調の程度を示す強調度を算出するステップと、音声認識を施すことにより前記区間に対応する単語を認識するステップと、前記認識された単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記算出された強調度とを用いて、前記話題に関する指標を算出するステップと、前記算出された指標に応じて、前記複数の話題の中から前記音声の話題を決定するステップとを実行させるためのプログラムである。
請求項1に係る発明によれば、音声の話題を精度よく決定することができる。
請求項2に係る発明によれば、音声の話題を精度よく決定することができる。
請求項3に係る発明によれば、全ての区間の単語を認識する場合に比べて、音声認識の処理量を減らすことができる。
請求項4に係る発明によれば、話者によって音声の強調の基準が異なる場合でも、話者に応じた無効部分音声を設定することができる。
請求項5に係る発明によれば、全ての区間の単語を認識する場合に比べて、音声認識の処理量を減らすことができる。
請求項6に係る発明によれば、話者によって音声の強調の基準が異なる場合でも、話者に応じた無効部分音声を設定することができる。
請求項7に係る発明によれば、音声の強度、長さ、及び高さを用いずに強調度を算出する場合に比べて、強調度の精度を高めることができる。
請求項8に係る発明によれば、音声の話題を精度よく決定することができる。
請求項9に係る発明によれば、音声の話題を精度よく決定することができる。
実施形態に係る音声解析システム1の構成の一例を示す図である。 音声解析装置10のハードウェア構成の一例を示す図である。 音声解析装置10の機能構成の一例を示す図である。 設定情報109の作成処理の一例を示すフローチャートである。 音声信号G1の一例を示す図である。 設定情報109の一例を示す図である。 話題推定処理の一例を示すフローチャートである。 音声信号G2の一例を示す図である。 区間F1からF7の強調度の一例を示す図である。 関連テーブル40の一例を示す図である。 話題情報の表示例を示す図である。
1.構成
図1は、実施形態に係る音声解析システム1の構成の一例を示す図である。音声解析システム1は、端末装置20から入力された音声を解析し、音声の話題を推定するシステムである。この話題とは、話の題材又は要約をいう。音声解析システム1は、音声解析装置10と端末装置20とを備える。なお、図1に示す例では、音声解析装置10の数及び端末装置20の数は、それぞれ単数であるが、複数であってもよい。音声解析装置10及び端末装置20は、通信回線30を介して接続される。
図2は、音声解析装置10のハードウェア構成の一例を示す図である。音声解析装置10は、プロセッサ11、メモリ12、ストレージ13、及び通信装置14を備えるコンピュータである。これらの装置は、バス15を介して接続されている。
プロセッサ11は、プログラムをメモリ12に読み出して実行することにより、各種の処理を実行する。例えばプロセッサ11は、CPU(Central Processing Unit)により構成されてもよい。メモリ12は、プロセッサ11により実行されるプログラムを記憶する。例えばメモリ12は、ROM(Read Only Memory)又はRAM(Random Access Memory)により構成されてもよい。ストレージ13は、各種のデータ及びプログラムを記憶する。例えばストレージ13は、ハードディスクドライブ又はフラッシュメモリにより構成されてもよい。通信装置14は、通信回線30に接続された通信インタフェースである。通信装置14は、通信回線30を介してデータ通信を行う。
端末装置20は、ユーザの音声の入力に用いられる。端末装置20は、音声解析装置10と同様の構成に加え、入力受付装置(図示せず)と、表示装置(図示せず)と、音取得装置21とを備えるコンピュータである。入力受付装置は、各種の情報の入力に用いられる。例えば入力受付装置は、キーボード、マウス、物理ボタン、又はタッチセンサにより構成されてもよい。表示装置は、各種の情報を表示する。例えば表示装置は、液晶ディスプレイにより構成されてもよい。音取得装置21は、音声を取得する。音取得装置21は、例えばサラウンドマイクロフォンであり、左右からの音声を収集して2チャンネルの音声信号に変換する。
図3は、音声解析装置10の機能構成の一例を示す図である。音声解析装置10は、分割部101と、第1算出部102と、話者認識部103と、作成部104と、設定部105と、音声認識部106と、第2算出部107と、決定部108として機能する。これらの機能は、メモリ12に記憶されたプログラムと、このプログラムを実行するプロセッサ11との協働により、プロセッサ11が演算を行い又は通信装置14による通信を制御することにより実現される。
分割部101は、音取得装置21により取得された音声を示す音声信号を単語毎の区間に分割する。この区間の分割には、例えば単語分割(speech segmentation)技術が用いられてもよい。
第1算出部102は、分割部101により分割された区間の強調度を算出する。この強調度とは、強調の程度をいう。この強調度の算出には、例えば音声の強度、長さ、及び高さのうち少なくとも1つが用いられてもよい。これは、例えば音声の強度が大きい程、単語の長さが長い程、又は音声の高さが高いほど、強調の程度が高いと考えられるためである。
話者認識部103は、音取得装置21により取得された音声を示す音声信号を用いて、音声の話者を認識する。この話者の認識には、例えば周知の話者認識技術が用いられてもよい。
作成部104は、話者認識部103により認識された話者の設定情報109を作成する。この設定情報109には、例えば話者の音声の強調度の特徴を示す情報、例えば強調度の上限値及び下限値が含まれてもよい。
設定部105は、設定情報109に含まれる話者の音声の強調度の特徴を示す情報、例えば強調度の上限値及び下限値を用いて、分割部101により分割された区間を強調区間、普通区間、又は漠然区間に設定する。この実施形態では、強調区間及び普通区間は有効区間として用いられ、漠然区間は無効区間として用いられる。
音声認識部106は、音声認識を施すことにより強調区間及び普通区間に対応する単語を認識する。この単語の認識には、周知の音声認識技術が用いられてもよい。一方、音声認識部106は、漠然区間には音声認識を施さない。すなわち、音声認識部106は、漠然区間に対応する単語の認識は行わない。
第2算出部107は、音声認識部106により認識された単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、第1算出部102により算出された強調度とを用いて、この話題に関する指標を算出する。単語の重みは、例えば話題との関連の度合を示す値であり、話題における単語の出現頻度に基づいて予め定められてもよい。指標は、例えば音声の主要な話題である可能性を示す値である。この指標の算出は、例えば単語の重みと強調度とを乗ずることにより行われてもよい。
決定部108は、第2算出部107により算出された指標に応じて、複数の話題の中から音声の話題を決定する。例えば最も指標が大きい話題が決定されてもよい。
2.動作
2.1 設定情報の作成
話者によって、音声の強調の基準が異なる場合がある。このような場合であっても、音声の話題を精度よく推定するために、音声の話題を推定する処理に先立って、話者の設定情報109を作成する。この設定情報109とは、プロファイルとも呼ばれ、話者毎の設定を示す情報である。
図4は、設定情報109の作成処理の一例を示すフローチャートである。ユーザは、設定情報109を作成するために、音取得装置21を用いて自分の音声を入力する。ここでは、ユーザは、図5に示すように、3:00:00から3:01:00までの1分間、自分の音声を入力した場合を想定する。この音声は、例えば予め定められた文章を読む声であってもよい。音取得装置21に音声が入力されると、この音声を示す音声信号G1が端末装置20から音声解析装置10に送信される。
ステップS111において、音声信号G1が受信されると、分割部101は、この音声信号G1を固定長の複数の区間に分割する。
ステップS112において、第1算出部102は、以下の(1)式により、区間毎に音声の強調度を算出する。(1)式において、word_stressiはi番目(iは自然数)の区間に対応する音声の強調度である。Wistart及びWiendは、それぞれ、i番目の区間の開始時間及び終了時間である。X1(t)及びX2(t)は、それぞれ、第1のチャンネル及び第2のチャンネルの音声信号の振幅である。P1(t)、P(t)は、それぞれ、第1のチャンネル及び第2のチャンネルの音声信号のピッチである。α、β、γは、それぞれ、音声の強度、単語の長さ、及びピッチの重みであり、例えば0以上の数である。例えば音声の強度だけを用いる場合には、αを1とし、β及びγを0としてもよい。なお、「*」は乗算記号を意味する。
Figure 0007062966000001
ステップS113において、第1算出部102は、ステップS112において算出された音声の強調度の正規分布を求め、その平均値と標準偏差とを算出する。
ステップS114において、第1算出部102は、以下の(2)式及び(3)式により、音声の強調度の下限値及び上限値をそれぞれ算出する。(2)式及び(3)式において、stressMin及びstressMaxは、それぞれ、音声の強調度の下限値及び上限値である。μは、音声の強調度の平均値であり、σは標準偏差である。なお、(2)式及び(3)式では、係数として2が用いられているが、2以外の自然数が係数として用いられてもよい。
Figure 0007062966000002
Figure 0007062966000003
ステップS115において、話者認識部103は、受信された音声信号G1を分析して話者を認識する。なお、ステップS115の処理は、ステップS111~S114の処理の前に行われてもよいし、ステップS111~S114の処理と並行して行われてもよい。
ステップS116において、作成部104は、ステップS114において算出された下限値及び上限値と、ステップS115において認識された話者とに基づいて、話者の設定情報109を作成する。
図6は、設定情報109の一例を示す図である。設定情報109には、ステップS115において認識された話者を識別するユーザIDと、ステップS114において算出された下限値及び上限値とが対応付けて含まれる。ユーザIDは、例えばユーザIDを管理する管理装置から取得されてもよい。
このようにして、各話者の設定情報109が作成される。作成された設定情報109は、例えばストレージ13に格納されてもよい。
2.2 話題推定処理
次に、話者の音声からその話題を推定する処理について説明する。図7は、話題推定処理の一例を示すフローチャートである。話者は、設定情報109が作成された後、音取得装置21を用いて自分の音声を入力する。ここでは、ユーザIDが「U30511」の話者によって3:01:00から音声が入力された場合を想定する。音取得装置21に音声が入力されると、この音声を示す音声信号G2が端末装置20から音声解析装置10に送信される。
ステップS211において、音声信号G2が受信されると、分割部101は、この音声信号G2を単語毎に複数の区間に分割する。
図8は、音声信号G2の一例を示す図である。図8に示す例では、音声信号G2が区間F1からF7に分割される。区間F1からF7には、それぞれ単一の単語が含まれる。
ステップS212において、第1算出部102は、区間毎に音声の強調度を算出する。第1算出部102は、音声の強度、単語の長さ、及び音声のピッチのうち少なくともいずれか1つを用いて強調度を算出する。
音声の強度は、以下の(4)式により算出される。(4)式において、stressWeight_intensityは、音声の強度である。Wstart及びWendは、それぞれ、区間の開始時間及び終了時間である。X1(t)及びX2(t)は、それぞれ、第1のチャンネル及び第2のチャンネルの音声信号の振幅である。
Figure 0007062966000004
単語の長さは、以下の(5)式により算出される。(5)式において、stressWeight_durationは、単語の長さである。Wstart及びWendは、それぞれ、区間の開始時間及び終了時間である。
Figure 0007062966000005
音声のピッチは、以下の(6)式により算出される。(6)式において、stressWeight_pitchは、音声のピッチである。P1(t)及びP2(t)は、第1のチャンネル及び第2のチャンネルの音声信号のピッチである。
Figure 0007062966000006
音声の強調度は、以下の(7)式により算出される。(7)式において、stressWeight_allは、音声の強度、単語の長さ、及びピッチのうち少なくともいずれかを用いた音声の強調度である。α、β、γは、それぞれ、音声の強度、単語の長さ、及びピッチの重みであり、例えば0以上の数である。例えば音声の強度だけを用いる場合には、αを1とし、β及びγを0としてもよい。
Figure 0007062966000007
図9は、区間F1からF7の強調度の一例を示す図である。図9に示す例では、区間F1からF7の強調度は、それぞれ、1.8、1.7、4.7、4.6、4.5、0.8、及び0.9である。
ステップS213において、設定部105は、ステップS212において算出された強調度と話者の設定情報109とに基づいて、各区間を強調区間、普通区間、又は漠然区間に設定する。例えば区間の強調度が、設定情報109に含まれる上限値より大きい場合、その区間は強調区間に設定される。区間の強調度が、設定情報109に含まれる下限値より小さい場合、その区間は漠然区間に設定される。区間の強調度が、設定情報109に含まれる下限値以上且つ上限値以下である場合、その区間は普通区間に設定される。
図6に示す例では、ユーザIDが「U30511」の話者の音声の強調度の下限値は1.6であり、上限値は4.0である。図9に示す例では、区間F3からF5は、いずれも、強調度が上限値の4.0より大きいため、強調区間に設定される。区間F6及びF7は、いずれも、強調度が下限値の1.6より小さいため、漠然区間に設定される。区間F1及びF2は、いずれも、強調度が下限値の1.6以上、且つ、上限値の4.0以下であるため、普通区間に設定される。
ステップS214において、音声認識部106は、ステップS213において強調区間又は普通区間に設定された区間に音声認識を施し、この区間に対応する単語を認識する。図9に示す例では、区間F1からF5が強調区間又は普通区間に設定される。そのため、図8に示すように、これらの区間F1からF5に対応する「私は」「いつも」「給料」「が」「変わる」という単語が認識される。なお、音声認識部106は、ステップS213において漠然区間に設定された区間に対応する単語は認識しない。図9に示す例では、区間F6及びF7が漠然区間に設定されるため、この区間F6及びF7については音声認識が行われない。
ステップS215において、第2算出部107は、関連テーブル40を参照して、以下の(8)式により、複数の話題の各々について音声の主要な話題である可能性を示す指標を算出する。(8)式において、S(Ti)は、i番目の話題の指標である。topic_wordijは、i番目の話題におけるj番目の単語の重みである。word_stressjはj番目の単語の強調度である。Miは、i番目の話題に関連する単語の数である。
Figure 0007062966000008
図10は、関連テーブル40の一例を示す図である。この関連テーブル40は、各種の話題について、その話題に関連する単語とその話題における単語の重みとを示すデータを格納する。関連テーブル40は、例えば通信回線30に接続された外部装置に記憶されていてもよい。この場合、関連テーブル40は、通信回線30を介して外部装置にアクセスすることにより用いられてもよいし、外部装置からダウンロードすることにより用いられてもよい。
関連テーブル40には、各話題を識別する話題IDと、話題の内容と、その話題における単語の重みとが対応付けられている。例えば、「人事」という話題には、「給料」という単語が対応付けられており、「人事」という話題における「給料」という単語の重みは「0.07」である。これは、「給料」という単語は、「人事」の話題に関連があり、その関連の度合は他の単語よりも高いことを示す。また、「スポーツ」という話題にも、「給料」という単語が対応付けられており、「スポーツ」という話題における「給料」という単語の重みは「0.021」である。これは、「給料」という単語は、「スポーツ」の話題にも関連があるものの、その関連の度合は他の単語よりも低いことを示す。このように、同一の単語が複数の話題に関連してもよい。また、同一の単語であっても、話題によって単語の重みが変わってもよい。
図8及び図10に示す例では、ステップS214において認識された単語のうち、「人事」という話題に関連する単語は「給料」及び「変わる」である。「人事」という話題において、「給料」という単語の重みは0.07であり、「変わる」という単語の重みは0.01である。また、図9に示す例では、「給料」という単語に対応する区間F3の強調度は4.7であり、「変わる」という単語に対応する区間F5の強調度は4.5である。この場合、「人事」という話題の指標は、4.7*0.07+4.5*0.01=0.374となる。
また、図8及び図10に示す例では、ステップS214において認識された単語のうち、「スポーツ」という話題に関連する単語は「給料」である。「スポーツ」という話題において、「給料」という単語の重みは0.021である。また、図9に示す例では、「給料」という単語に対応する区間F3の強調度は4.7である。この場合、「スポーツ」という話題の指標は、4.7*0.021=0.0987となる。このようにして、関連テーブル40に含まれる各話題について指標が算出される。
ステップS216において、決定部108は、ステップS215において算出された指標のうち、最も大きい指標の話題を音声の話題として決定する。例えば、「人事」という話題の指標が最も大きい場合には、「人事」という話題が決定される。このようにして決定された話題は、出力されてもよい。例えば、決定された話題を示す話題情報が端末装置20に送信され、端末装置20の表示装置に表示されてもよい。
以上説明した実施形態によれば、各区間の強調度と各話題における単語の重みとを用いて音声の話題が決定されるため、音声の話題が精度よく決定される。また、複数の話題が話された場合でも、話者がより強調して話した話題が決定されるため、音声の話題を決定する精度が向上する。また、上述した実施形態では、強調区間又は普通区間に設定された区間だけに音声認識が施されて単語が認識されるため、全ての区間に音声認識を施して単語を認識する場合に比べて、音声認識の処理量が減る。さらに、上述した実施形態では、話者の設定情報109に基づいて強調区間、普通区間、又は漠然区間が設定されるため、話者によって強調の基準が異なる場合でも、話者に合わせてこれらの区間が適切に設定される。さらに、上述した実施形態では、音声の強度、単語の長さ、及び音声の高さのうちの少なくとも1つを用いて強調度が算出されるため、これらを用いずに強調度を算出する場合に比べて、強調度の精度が高くなる。
3.変形例
上述した実施形態は、本発明の一例である。本発明は、上述した実施形態に限定されない。例えば上述した実施形態を以下のように変形してもよい。また、以下の2つ以上の変形例を組み合わせて実施してもよい。
上述した実施形態では、最も指標の高い話題だけが決定されていたが、指標が予め定められた指標よりも高い複数の話題が決定されてもよい。この場合、これらの複数の話題が異なる形式で出力されてもよい。
上述した実施形態において説明した話題推定処理は、話者が話し終わった後に行われてもよいし、話者が話している最中にリアルタイムで行われてもよい。また、話題推定処理は、予め定められた音声の区切り毎に行われてもよい。この区切りは、1文であってもよいし、1段落であってもよいし、予め定められた時間であってもよい。この場合、話題情報は、時系列に沿って表示されてもよい。
図11は、話題情報の表示例を示す図である。図11に示す例では、3:10:00に対応する領域には、「人事」と記載された画像M1と、「スポーツ」と記載された画像M2とが表示される。また、3:40:00に対応する領域には、「スポーツ」と記載された画像M3が表示される。画像M1からM3は、指標に応じたサイズを有し、指標が大きくなるほどサイズが大きくなる。図11に示す例は、3:10:00から3:40:00までは人事とスポーツの話題が話されており、そのうち人事が主要な話題であり、スポーツが準主要な話題であったが、3:40:00からはスポーツが主要な話題として話されていたことを示す。この変形例によれば、話題の遷移及び重要度が容易に認識される。
上述した実施形態では、音声の強度、単語の長さ、及び音声のピッチのうち少なくとも1つを用いて音声の強調度を算出していたが、音声の強調度を算出する方法はこれに限定されない。音声の強調度は、音声の強調の程度を示すものであれば、他の方法により算出されてもよい。
上述した実施形態では、漠然区間に設定された区間には、音声認識が施されていなかったが、この区間にも音声認識が施されてもよい。例えば漠然区間の一部だけに音声認識が施されてもよい。
上述した実施形態において、設定情報109を作成する場合においても、単語分割の技術を用いて音声が単語毎に複数の区間に分割されてもよい。
音声解析システム1又は音声解析装置10において行われる処理のステップは、上述した実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。また、本発明は、音声解析システム1又は音声解析装置10において行われる処理のステップを備える音声解析方法として提供されてもよい。
本発明は、音声解析装置10において実行されるプログラムとして提供されてもよい。このプログラムは、インターネットなどの通信回線を介してダウンロードされてもよいし、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。
1:音声解析システム、10:音声解析装置、20:端末装置、21:音取得装置、101:分割部、102:第1算出部、103:話者認識部、104:作成部、105:設定部、106:音声認識部、107:第2算出部、108:決定部

Claims (9)

  1. 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
    前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第1算出部と、
    音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
    前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
    前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と
    を備える音声解析装置。
  2. 前記第2算出部は、前記重みと前記強調度とを乗ずることにより、前記指標を算出する
    請求項1記載の音声解析装置。
  3. 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
    前記分割部により分割された前記区間の強調度を算出する第1算出部と、
    音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
    前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
    前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、
    前記第1算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部とを備え、
    前記音声認識部は、前記有効区間に設定された区間に前記音声認識に施すことにより当該区間に対応する単語を認識す
    声解析装置。
  4. 前記第1算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、
    前記設定部は、前記第1算出部により算出された前記強調度が前記下限値以上である場合には、前記区間を前記有効区間に設定する
    請求項3に記載の音声解析装置。
  5. 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
    前記分割部により分割された前記区間の強調度を算出する第1算出部と、
    音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
    前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
    前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、
    前記第1算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部とを備え、
    前記音声認識部は、前記無効区間に設定された区間には前記音声認識を施さな
    声解析装置。
  6. 前記第1算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、
    前記設定部は、前記第1算出部により算出された前記強調度が前記下限値より小さい場合には、前記区間を前記無効区間に設定する
    請求項5に記載の音声解析装置。
  7. 音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
    前記分割部により分割された前記区間の強調度を算出する第1算出部と、
    音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
    前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
    前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを備え、
    前記第1算出部は、前記区間に対応する音声の強度、長さ、及び高さのうち少なくとも1つを用いて前記強調度を算出す
    声解析装置。
  8. 音声を取得する音取得装置と、
    音声解析装置とを備え、
    前記音声解析装置は、
    前記音取得装置により取得された前記音声を示す音声信号を単語毎の区間に分割する分割部と、
    前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第1算出部と、
    音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
    前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記第1算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第2算出部と、
    前記第2算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを有する
    音声解析システム。
  9. コンピュータに、
    音取得装置により取得された音声を示す音声信号を単語毎の区間に分割するステップと、
    前記分割された区間に対応する音声の話者による強調の程度を示す強調度を算出するステップと、
    音声認識を施すことにより前記区間に対応する単語を認識するステップと、
    前記認識された単語に対して、複数の話題の少なくとも1つについて予め定められた重みと、前記算出された強調度とを用いて、前記話題に関する指標を算出するステップと、
    前記算出された指標に応じて、前記複数の話題の中から前記音声の話題を決定するステップと
    を実行させるためのプログラム。
JP2018007349A 2018-01-19 2018-01-19 音声解析装置、音声解析システム、及びプログラム Active JP7062966B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018007349A JP7062966B2 (ja) 2018-01-19 2018-01-19 音声解析装置、音声解析システム、及びプログラム
US16/240,797 US20190228765A1 (en) 2018-01-19 2019-01-07 Speech analysis apparatus, speech analysis system, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018007349A JP7062966B2 (ja) 2018-01-19 2018-01-19 音声解析装置、音声解析システム、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019124897A JP2019124897A (ja) 2019-07-25
JP7062966B2 true JP7062966B2 (ja) 2022-05-09

Family

ID=67298236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018007349A Active JP7062966B2 (ja) 2018-01-19 2018-01-19 音声解析装置、音声解析システム、及びプログラム

Country Status (2)

Country Link
US (1) US20190228765A1 (ja)
JP (1) JP7062966B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
WO2022259531A1 (ja) * 2021-06-11 2022-12-15 日本電信電話株式会社 オンライン会議のための装置、方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134276A (ja) 1999-11-02 2001-05-18 Nippon Hoso Kyokai <Nhk> 音声文字化誤り検出装置および記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0634193B2 (ja) * 1987-01-13 1994-05-02 日本電気株式会社 キ−ワ−ド抽出装置
JP3591695B2 (ja) * 1998-03-02 2004-11-24 日本電信電話株式会社 話題抽出方法及びそのプログラム記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134276A (ja) 1999-11-02 2001-05-18 Nippon Hoso Kyokai <Nhk> 音声文字化誤り検出装置および記録媒体

Also Published As

Publication number Publication date
JP2019124897A (ja) 2019-07-25
US20190228765A1 (en) 2019-07-25

Similar Documents

Publication Publication Date Title
JP6906067B2 (ja) 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体
CN109087670B (zh) 情绪分析方法、***、服务器及存储介质
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
JP6857581B2 (ja) 成長型対話装置
CN109859772B (zh) 情绪识别方法、装置及计算机可读存储介质
US20160307571A1 (en) Conversation analysis device, conversation analysis method, and program
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN110570853A (zh) 基于语音数据的意图识别方法和装置
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和***
WO2022127042A1 (zh) 基于语音识别的***识别方法、装置及计算机设备
JP2024020321A (ja) 精神・神経系疾患を推定する装置
JP7062966B2 (ja) 音声解析装置、音声解析システム、及びプログラム
CN111061877A (zh) 文本主题提取方法和装置
CN110335608A (zh) 声纹验证方法、装置、设备及存储介质
CN110853621A (zh) 语音顺滑方法、装置、电子设备及计算机存储介质
EP3813061A1 (en) Attribute identifying device, attribute identifying method, and program storage medium
JP5084297B2 (ja) 会話解析装置および会話解析プログラム
CN109461503B (zh) 题目得分评估方法及认知评估装置、设备、可读存储介质
KR20210071713A (ko) 스피치 스킬 피드백 시스템
CN111199749A (zh) 行为识别方法、装置,机器学习方法、装置以及记录介质
CN111755029B (zh) 语音处理方法、装置、存储介质以及电子设备
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
Johar Paralinguistic profiling using speech recognition
CN111862946B (zh) 一种订单处理方法、装置、电子设备及存储介质
CN111785302A (zh) 说话人分离方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220404

R150 Certificate of patent or registration of utility model

Ref document number: 7062966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150