JP4324089B2 - 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 - Google Patents

音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 Download PDF

Info

Publication number
JP4324089B2
JP4324089B2 JP2004366731A JP2004366731A JP4324089B2 JP 4324089 B2 JP4324089 B2 JP 4324089B2 JP 2004366731 A JP2004366731 A JP 2004366731A JP 2004366731 A JP2004366731 A JP 2004366731A JP 4324089 B2 JP4324089 B2 JP 4324089B2
Authority
JP
Japan
Prior art keywords
utterance
reproduction
tag
range
playback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004366731A
Other languages
English (en)
Other versions
JP2006171579A (ja
Inventor
佐知子 小野寺
亮 落谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004366731A priority Critical patent/JP4324089B2/ja
Priority to US11/089,179 priority patent/US8000963B2/en
Publication of JP2006171579A publication Critical patent/JP2006171579A/ja
Application granted granted Critical
Publication of JP4324089B2 publication Critical patent/JP4324089B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)

Description

この発明は、録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生装置、音声再生方法および音声再生プログラムに関し、特に、利用者によって指定された再生箇所に対して適切な範囲の音声を再生することができる音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法に関するものである。
コールセンタにおける通話録音音声データの分析や会議における録音音声データの分析など、大量に蓄積された音声データがある場合、それらをすべて聞くことは困難であるため、着目したい場所のみを聞きたいという要求がある。かかる要求に対し、着目箇所を検索する手法として、キーワード検索や、音声特徴として音量の大きい箇所のみを検索するなどの手法がある。
これらの手法を用いて、音声データから検索箇所を特定し、その箇所から再生することで、頭からではなく着目したい場所から音声を再生することができる。しかし、検索した箇所から音声を再生して聞いても、その前の内容・話の流れがわからないため、その箇所の前方より再生して聞く必要がある。このため、例えば、特許文献1には、適当に定めた時間だけ前から再生する技術が記載されている。
特開平10−173769号公報
しかしながら、ただ単純に一定時間だけ前から再生するだけでは、内容を理解するために適切な範囲が再生されるとは限らず、再生範囲が適当でない場合には、手作業で適切な再生範囲を探し出す過程で多くの時間・労力がかかるという問題があった。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、利用者によって指定された再生箇所に対して適切な範囲の音声を再生することができる音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明に係る音声再生プログラムは、コンピュータに、録音された会話の一部に対する利用者の再生要求に基づいて音声を再生させる音声再生プログラムであって、前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする手順と、前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする手順と、前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする手順と、前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する手順と、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定手順と、前記再生範囲決定手順により決定された範囲の音声を再生する再生手順と、をコンピュータに実行させることを特徴とする。
この請求項1の発明によれば、録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をし、各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を音声対話テーブルに登録をし、各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、音声対話テーブルに登録をし、音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成し、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定し、決定した範囲の音声を再生するよう構成したので、会話構造からみて意味がある最小範囲の音声を再生することができる。
また、請求項の発明に係る音声再生プログラムは、請求項の発明において、記再生範囲決定手順は、再生範囲の拡張が要求された場合に、木構造で関係付ける対話構造情報において現在の再生範囲に対応するノードの隣接ノードを含む部分または上位ノードに対応する部分を再生範囲として拡張することを特徴とする。
この請求項の発明によれば、再生範囲の拡張が要求された場合に、木構造で関係付ける対話構造情報において現在の再生範囲に対応するノードの隣接ノードを含む部分または上位ノードに対応する部分を再生範囲として拡張するよう構成したので、再生範囲を適切に拡張することができる。
また、請求項の発明に係る音声再生プログラムは、請求項の発明において、前記再生手順は、前記再生範囲受付手順により受け付けられた再生範囲の音声を時系列に順に再生する際に、再生範囲として指定されていない不連続な発話がある場合に、不連続な発話があることを特殊な音を用いて利用者に通知することを特徴とする。
この請求項の発明によれば、受け付けた再生範囲の音声を時系列に順に再生する際に、再生範囲として指定されていない不連続な発話がある場合に、不連続な発話があることを特殊な音を用いて利用者に通知するよう構成したので、利用者は不連続な発話部分を認識することができる。
また、請求項6の発明に係る音声再生装置は、録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生装置であって、前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする手段と、前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする手段と、前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする手段と、前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する手段と、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定手段と、前記再生範囲決定手段により決定された範囲の音声を再生する再生手段と、を備えたことを特徴とする。
この請求項6の発明によれば、録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をし、各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を音声対話テーブルに登録をし、各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、音声対話テーブルに登録をし、音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成し、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定し、決定した範囲の音声を再生するよう構成したので、会話構造からみて意味がある最小範囲の音声を再生することができる。
また、請求項の発明に係る音声再生方法は、録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生装置による音声再生方法であって、前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする工程と、前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする工程と、前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする工程と、前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する工程と、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定工程と、前記再生範囲決定工程により決定された範囲の音声を再生する再生工程と、を含んだことを特徴とする。
この請求項の発明によれば、録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をし、各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を音声対話テーブルに登録をし、各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、音声対話テーブルに登録をし、音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成し、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定し、決定した範囲の音声を再生するよう構成したので、会話構造からみて意味がある最小範囲の音声を再生することができる。
また、請求項の発明に係る記録媒体は、録音された会話の一部に対する利用者の再生要求に基づいてコンピュータに音声を再生させる音声再生プログラムを記録したコンピュータが読み取り可能な記録媒体であって、前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする手順と、前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする手順と、前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする手順と、前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する手順と、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定手順と、前記再生範囲決定手順により決定された範囲の音声を再生する再生手順と、をコンピュータに実行させる音声再生プログラムを記録したことを特徴とする。
この請求項の発明によれば、録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をし、各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を音声対話テーブルに登録をし、各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、音声対話テーブルに登録をし、音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成し、再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定し、決定した範囲の音声を再生するよう構成したので、会話構造からみて意味がある最小範囲の音声を再生することができる。
請求項1、6、7および8の発明によれば、会話構造からみて意味がある最小範囲の音声を再生するので、適切な範囲の音声を再生することができるという効果を奏する。
また、請求項の発明によれば、再生範囲を適切に拡張するので、効率良く音声を再生することができるという効果を奏する。
また、請求項の発明によれば、利用者は不連続な発話部分を認識することができるので、再生されない発話部分を必要に応じて再生することができるという効果を奏する。
以下に添付図面を参照して、この発明に係る音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法の好適な実施例を詳細に説明する。なお、本実施例では、本発明をコールセンタにおける通話録音音声データの分析に適用した場合を中心に説明する。
まず、本実施例に係る音声再生装置による再生範囲の決定手法について説明する。図1は、本実施例に係る音声再生装置による再生範囲の決定手法を説明するための説明図である。同図に示すように、本実施例に係る音声再生装置では、通話録音の対話構造に基づいて再生範囲を決定する。
図1には、木構造で表現される対話構造の一部として、オペレータによる説明部分である「説明フェーズ」とそれに続く顧客とオペレータによる質疑応答部分である「質問回答」が示されており、「説明フェーズ」は、「説明」、「相槌」、「その他」などの発話部分から構成され、「質問応答」は、「質問」、「回答」、「質問」などの発話部分から構成されている。
ここで、発話部分とは、オペレータまたは顧客による連続した発言部分である。図2は、発話区間を示す図である。同図は、オペレータと顧客の対話の中で、まずオペレータの発話区間があり、それと一部重なる形で顧客の発話区間があり、その後、両者の発言がない時間(ポーズ)が少し続いた後にオペレータの発話区間、ポーズ、顧客の発話区間がある例を示している。
図1において、キーワード検索などによって音声データのうち「質問応答」の「回答」発話に含まれる部分が再生箇所として指定されると、本実施例に係る音声再生装置は、対話構造を表示するとともに、対話構造において「回答」を含む最小の対話単位である「質問」−「回答」部分を再生範囲として決定する。すなわち、本実施例に係る音声再生装置は、対話構造に基づいて意味のある再生範囲を選定する。
このように、本実施例に係る音声再生装置は、指定された再生箇所に対して対話構造に基づいて最小の単位対話を再生範囲として決定することによって、通話を部分的に理解するために適切な範囲の音声を再生することができる。
なお、本実施例に係る音声再生装置は、対話構造を表示して利用者に発話部分を選択させ、利用者が選択した発話部分を含む最小の対話単位を再生範囲として決定することもできる。例えば、図1に示す対話構造を表示し、利用者が「回答」を選択すると、本実施例に係る音声再生装置は、「質問」−「回答」部分を再生範囲として決定する。
また、本実施例に係る音声再生装置は、利用者が再生範囲の拡張を指定すると、現在の再生範囲に対応するノードに隣接するノードや上位のノードを対話構造に基づいて選択し、拡張した再生範囲として音声を再生する。例えば、現在の再生範囲が「質問」−「回答」である場合に利用者が再生範囲の拡張を指定すると、対話構造上の上位ノードである「質問応答」部分が拡張した再生範囲となる。
このように、本実施例に係る音声再生装置は、対話構造に基づいて再生範囲を段階的に拡張することによって、利用者が通話を聞く範囲を適切に拡張することができる。
また、本実施例に係る音声再生装置は、利用者が対話構造から選択した再生範囲を時系列の順に再生する場合に不連続な部分があると、不連続部分の発話の時間を短縮して無音を挿入して再生する。ここで、不連続部分とは、実際には音声が存在するのに再生範囲として指定されなかった部分である。
例えば、図1において、利用者が「説明」、「相槌」、「質問」および「回答」を再生範囲として選択すると、「その他」の発話部分が再生範囲に含まれないため不連続部分となる。このとき、本実施例に係る音声再生装置は、時系列の順に再生して「その他」の箇所になると、「その他」の発話時間を1/10に短縮して無音を挿入する。
このように、不連続部分を1/10に短縮して無音を挿入することによって、利用者は選択しなかった箇所を早送りして聞くことができるとともに、再生されない音声があることを認識することができる。
なお、不連続部分として無音を挿入する代わりに「その他」など発話の種類に応じた効果音を挿入することもできる。また、短縮の割合を1/10以外にすることや短縮することなしに発話時間分だけ無音や効果音を挿入することもできる。
次に、本実施例に係る音声再生装置の構成について説明する。図3は、本実施例に係る音声再生装置の構成を示す機能ブロック図である。同図に示すように、この音声再生装置100は、対話構造情報作成部110と、音声データ情報保持部120と、再生箇所受付部130と、対話構造表示部140と、入力受付部150と、再生範囲決定部160と、不連続処理部170と、再生部180とを有する。
対話構造情報作成部110は、音声対話データを分析して対話構造情報を作成し、音声データ情報保持部120に格納するとともに、音声対話データおよびその分析結果を音声データ情報保持部120に格納する処理部である。なお、この対話構造情報作成部110による対話構造情報作成処理の詳細については後述する。
音声データ情報保持部120は、対話構造情報作成部110によって作成された対話構造情報、ならびに、音声対話データおよびその分析結果を音声対話データテーブルとして保持する記憶部である。図4は、音声データ情報保持部120が保持する対話構造情報の一例を示す図であり、図5は、音声データ情報保持部120が保持する音声対話データテーブルの一例を示す図である。
図4に示すように、この音声データ情報保持部120は、対話構造情報200を木構造で保持する。図4は、顧客とオペレータとの間の通話全体を「対話」とし、「対話」が「開始挨拶」、「顧客情報収集」、「サービス説明」、「顧客情報取得」および「終了挨拶」のフェーズから構成され、「サービス説明」が「説明」、「相槌」などから構成されることを示している。
ここで、木構造の丸で囲まれた末端ノードである「説明」、「相槌」が発話であり、「説明」、「相槌」などは発話内容を示す標識である。なお、ここでは、これらの標識を談話タグと呼び、談話タグがつけられた発話を談話と呼ぶ。
また、フェーズ情報のレイヤと、談話情報のレイヤの間に、対話ペア構造情報のレイヤを設けており、対話ペア構造はフェーズ内で閉じ、かつ、談話情報に応じたペアリングによって定まる構造となっている。そのペアリングは、前発話・後発話はそれぞれ異なる話者で、下記のような談話タグが連続する箇所で構成する。
「質問」−「回答」
「説明」−「相槌」
「確認」−「確認返答」
「挨拶」−「挨拶」
対話構造を示す木構造は、対話構造情報データとして音声対話データと1対1で対応し、各木のノードには、「対話」、「フェーズ」、「発話」の識別IDがノードIDとして対応付けられる。なお、この実施例では、木構造の対話ペア構造が常に時間軸上で隣接するペアを構成しているが、対話ペア構造は必ずしも隣接しなければならないわけではない。
また、図5に示すように、この音声データ情報保持部120は、「対話」やその分析結果である「フェーズ」や「発話」などの情報を音声対話データテーブル300に保持する。
音声対話データテーブル300は、粒度、識別ID、年、月、日、開始時、終了時、オペレータ名、グループ名、話者、フェーズ名、談話タグ名、平均ピッチ、平均パワー、音声ファイル、音声ファイル対象範囲などの情報を複数の音声対話データについて保持する。
ここで、粒度は、音声対話データが「対話」、「フェーズ」、「発話」のいずれであるかを示し、識別IDは、各音声対話データを識別する識別子である。また、年、月および日によって通話の年月日を示し、開始時は通話の開始した時刻を示し、終了時は通話が終了した時刻を示す。
オペレータ名は、顧客と通話したオペレータの名前を示し、グループ名は、オペレータが所属するグループの名前を示し、話者は、顧客の名前を示す。フェーズ名は、音声対話データがフェーズに対応する場合に、フェーズの名前を示し、談話タグ名は、音声対話データが発話に対応する場合に、発話の談話タグを示す。
平均ピッチは、各区間のピッチの平均値を示し、平均パワーは、各区間のパワーの平均値を示す。音声ファイルは、音声対話データを格納するファイルの名前を示し、音声ファイル対象範囲は、ファイル内の音声対話データの範囲を時間で示す。
図3に戻って、再生箇所受付部130は、利用者によって指定される再生箇所を受け付ける処理部であり、受け付けた再生箇所を対話構造表示部140および再生範囲決定部160に渡す。図6は、再生箇所受付部130による再生個所受付処理を説明するための説明図である。
同図は、再生箇所受付部130が利用者と対話しながら再生箇所を特定する手順を示しており、まず、再生箇所受付部130は、音声対話データの少ない順にグループ名を表示し、利用者が録音を再生しようとするオペレータが属するグループを利用者に選択させる。
そして、利用者がグループ名を選択すると、再生箇所受付部130は、音声対話データの少ない順にオペレータ名を表示する。図6では、利用者がグループ名「G−1」のグループを選択し、このグループに属するオペレータの名前「A−1」、「A−2」などが表示されている。
そして、利用者がオペレータ名を選択すると、再生箇所受付部130は、そのオペレータの音声対話データをフェーズごとに表示する。図6では、利用者がオペレータの名前「A−13」を選択し、このオペレータの音声対話データがフェーズごとに表示されている。
そして、利用者がフェーズを選択すると、再生箇所受付部130は、そのフェーズの音声対話データを談話ごとに表示する。図6では、利用者がフェーズ「サービス説明」を選択し、このフェーズの音声対話データが談話ごとに表示されている。
そして、利用者が談話を選択すると、再生箇所受付部130は、その談話の音声対話データを時刻順に表示する。図6では、利用者が談話「相槌」を選択し、「相槌」の音声対話データ時刻順に表示されている。そして、利用者が特定の「相槌」を選択すると、再生箇所受付部130は、その「相槌」を再生箇所として受け付け、対話構造表示部140および再生範囲決定部160に渡す。なお、ここでは、利用者に発話を選択させる場合について説明したが、対話構造情報200の別のレイヤのノードを利用者に選択させることもできる。
対話構造表示部140は、再生箇所受付部130から再生箇所を受け取り、その再生箇所を含む音声対話データの対話構造を音声データ情報保持部120を参照して表示する処理部である。
図7は、対話構造表示部140が表示する対話構造表示例を示す図である。同図に示すように、対話構造表示部140は、再生箇所として指定された「相槌」を含む対話構造を表示し、利用者はこの対話構造表示画面から再生範囲を指定することもできる。すなわち、この対話構造表示画面は、音声再生範囲選択画面として利用される。
また、対話構造表示画面上の再生範囲調整スライダーは、再生範囲を拡張する場合に利用者が指定するスライダーであり、利用者は、複数の目盛りを移動させることによって、複数のレベルの拡張を一度に指定することができる。
入力受付部150は、対話構造表示部140が表示した対話構造に対して利用者がノードを選択することによって指定した再生範囲を受け付け、再生範囲決定部160に渡す処理部である。また、この入力受付部150は、再生範囲調整スライダーが移動された目盛りの数を受け付け、再生範囲決定部160に渡す。
再生範囲決定部160は、再生箇所受付部130から再生個所を受け取り、音声データ情報保持部120に格納された対話構造情報200に基づいて再生範囲を決定する処理部であり、決定した再生範囲を再生部180に渡す。
具体的には、この再生範囲決定部160は、再生箇所受付部130から受け取った談話を含む対話ペアを対話構造情報200を用いて特定し、特定した対話ペアを再生範囲として決定する。
この再生範囲決定部160が、音声データ情報保持部120に格納された対話構造情報200に基づいて再生範囲を決定することによって、適切な範囲で音声を再生することができる。
また、この再生範囲決定部160は、利用者が対話構造表示画面を用いて指定した再生範囲に関する情報を入力受付部150から受け取り、音声データ情報保持部120を参照して不連続部分があるか否かを判定し、不連続部分がない場合には、再生範囲の情報を再生部180に渡し、不連続部分がある場合には、不連続部分の情報とともに再生範囲の情報を不連続処理部170に渡す。
また、この再生範囲決定部160は、再生範囲調整スライダーが移動された目盛りの数を入力受付部150から受け取り、再生範囲を拡張して再生範囲に関する情報を再生部180に渡す。
具体的には、この再生範囲決定部160は、あらかじめ決めたルールに従って、対話構造情報200にあわせて再生範囲を拡張する。ここで、あらかじめ決めたルールとしては以下のルールがあり、これらのルールをA→B→C→B→C・・・と繰り返し適用して再生範囲を広げる。
A:木構造の対象位置を、選択されている発話に設定
B:対象位置の兄弟ノードにあたる最小単位を前後一つずつ追加
C:木構造の親ノード以下のデータをすべて追加、対象をその親ノードに設定
また、この再生範囲決定部160は、前後に広げる時間が利用者によって明示的に入力された範囲に再生範囲を広げることもできる。また、この再生範囲決定部160は、利用者による再生範囲調整スライダーやノードの選択の傾向(前後どれだけのノードを追加しているか)を記憶し、その傾向を学習して広げる範囲を自動的に決めることもできる。
不連続処理部170は、利用者によって選択された箇所を時系列に順に再生するにあたって、選択された箇所に不連続な箇所(選択されていない箇所)がある場合に、選択されていない箇所の時間に比例した時間(選択されていない箇所の時間×0.1など)だけ無音を挿入する処理を行う処理部であり、処理結果を含む再生範囲に関する情報を再生部180に渡す。ただし、比例した時間があらかじめ決めておいた閾値時間を超える場合には、挿入時間を閾値の時間とし、無用に無音時間が長くなることを防ぐ。
この不連続処理部170が、不連続箇所の発話時間に対応する無音を挿入することによって、利用者は、不要な箇所を省略して音声を再生する場合にも、再生されていない発話があることは認識することができる。
なお、無音を挿入する代わりに、談話タグに応じた効果音をあらかじめ設定しておき、その効果音(Beep音の高さを変更したものなど)を挿入することもできる。談話タグに応じた効果音を挿入することによって、利用者は、そこにどのような音声が実際には存在していたかを、音声を再生するだけでおおまかにつかむことができる。
再生部180は、再生範囲決定部160または不連続処理部170から再生範囲に関する情報を受け取り、音声データ情報保持部120を参照して音声を再生する処理部である。
次に、再生箇所受付部130から再生箇所を受け取った場合の再生範囲決定部160による再生範囲決定処理の処理手順について説明する。図8は、再生箇所受付部130から再生箇所を受け取った場合の再生範囲決定部160による再生範囲決定処理の処理手順を示すフローチャートである。
同図に示すように、再生範囲決定部160は、利用者によって指定されたデータ(x)の粒度は発話であるか否かを判定し(ステップS101)、発話である場合には、対話構造情報200の木構造において、その発話の一つ上のノードを取得する(ステップS102)。
そして、取得したノードが対話ペア構造であるか否かを判定し(ステップS103)、対話ペア構造である場合には、その対話ペア構造を再生範囲として音声再生開始時および終了時を決定し(ステップS104)、処理を終了する。
一方、取得したノードが対話ペア構造でない場合には、そのノードの時系列的に先のノードで選択していない子ノード(y)を取得し(ステップS105)、xとyのそれぞれの音声再生範囲を音声対話データテーブル300より取得する(ステップS106)。そして、取得した情報から音声再生開始時および終了時を決定し(ステップS107)、処理を終了する。
また、指定されたデータ(x)の粒度は発話でない(ステップS101、否定)場合には、そのノードの時系列的に先のノードで選択していない子ノード(y)を取得し(ステップS105)、xとyのそれぞれの音声再生範囲を音声対話データテーブル300より取得する(ステップS106)。そして、取得した情報から音声再生開始時および終了時を決定し(ステップS107)、処理を終了する。
このように、再生範囲決定部160が、利用者によって指定されたデータから対話構造情報200を用いて再生範囲を決定することによって、音声再生装置100は、適切な再生範囲の音声を再生することができる。
次に、再生範囲決定部160による再生範囲拡張処理の処理手順について説明する。図9は、再生範囲決定部160による再生範囲拡張処理の処理手順を示すフローチャートである。なお、ここでは、利用者が再生範囲調整スライダーを用いて拡張を指定した場合の再生範囲拡張処理について説明する。
同図に示すように、再生範囲決定部160は、入力受付部150を介して取得した再生範囲拡張レベルをiとし(ステップS201)、現在の再生範囲に対応するノードの兄弟ノードを前後一つずつ再生範囲に追加する(ステップS202)。
そして、前後いずれかに兄弟ノードがあって追加できたか否かを判定し(ステップS203)、前後いずれにも兄弟ノードがなくノードの追加ができなかった場合には、ステップS206に進み、追加できた場合には、iから「1」を引き(ステップS204)、i=0となるか否かを判定する(ステップS205)。
そして、i=0である場合には、拡張処理を終了し、i=0でない場合には、親ノードを再生範囲とし(ステップS206)、iから「1」を引く(ステップS207)。そして、i=0となるか否かを判定し(ステップS208)、i=0である場合には、拡張処理を終了し、i=0でない場合には、ステップS202に戻って拡張処理を継続する。
このように、再生範囲決定部160は、現在の再生範囲に対応するノードの兄弟ノードの再生範囲への追加と親ノードへの移行を相互に繰り返し行うことによって、再生範囲を自動的に拡張する。
次に、対話構造情報作成部110の処理の詳細について図10〜12を用いて説明する。図10は、対話構造情報作成部110の処理手順を示すフローチャートである。同図に示すように、対話構造情報作成部110は、まず、各音声対話データについて、粒度を「対話」として、その音声対話データを収録すると同時に取得できる、録音日、開始時、終了時、オペレータ名、グループ名とともに音声対話データテーブル300に登録する(ステップS301)。また、各音声対話データに識別IDを付与する。
なお、ここで扱う音声対話データは、オペレータ発話と顧客発話の音声が2チャンネルで別々に録音(ステレオ録音)されているものとする。そうでない場合は、話者きりわけプログラムにより音声区間の話者インデキシング処理を行う。
そして、各チャネル(各話者)の音声データを無音区間により発話単位で切り分ける。ここで、無音区間の決定は、無音とするパワーの閾値と無音区間とする長さの閾値を設け、パワー閾値以下のパワー値が長さの閾値以上続いた場合、その箇所を無音区間とし、それ以外の部分を有音区間、すなわち、発話区間とする(図2)。そして、このように切り出した各発話データについて、識別IDを付与し、話者、対応する時間を音声対話データテーブル300に登録する(ステップS302)。
そして、発話区間ごとに、ピッチ、パワーを計測し、その平均、最大値、最小値、開始時の値を算出・抽出する。また、前の相手発話とのポーズ長(図2)を計測し、計測した結果を、音声対話データテーブル300に登録する(ステップS303)。
そして、各発話区間に対して談話タグを判定し、判定した談話タグを音声対話データテーブル300に登録する(ステップS304)。なお、談話タグの判定処理の詳細については後述する。
そして、判定した談話タグと、発話の韻律特徴から、フェーズの切れ目を推定し、音声対話データテーブル300に登録する(ステップS305)。なお、フェーズの切れ目の推定処理の詳細についても後述する。
そして、談話タグやフェーズの切れ目などの情報に基づいて対話構造情報200を作成し(ステップS306)、作成した対話構造情報200を音声データ情報保持部120に格納する(ステップS307)。
次に、談話タグ判定処理の詳細について説明する。図11は、談話タグ判定処理の処理手順を示すフローチャートである。同図に示すように、この談話タグ判定処理では、まず、音声対話データテーブル300から発話データを一つ選択し(ステップS401)、以下のルール(1)〜(5)を適用して談話タグを判定する。
(1)発話区間ごとに音声認識した結果、文末が「ですか」「でしょうか」「ますか」となっているものは“質問”
(2)文末の200msecのピッチが上昇調である場合には“質問”
(3)発話区間長が200msec以下であるものは“相槌”
(4)音声認識した結果「こんにちは」「ありがとう」「すいません」「もしもし」が含まれるものは“挨拶”
(5)文末が「なっております」「なってます」「なるんです」「になります」となっているものは“説明”
そして、ルール(1)〜(5)を適用することによって談話タグが得られたか否かを判定し(ステップS402)、談話タグが得られた場合には、その談話タグを音声対話データテーブル300に登録し(ステップS403)、談話タグが得られなかった場合には、その発話データをテンポラリデータに一時的に登録する(ステップS404)。
そして、音声対話データテーブル300にルール(1)〜(5)を適用していない発話データがあるか否かを判定し(ステップS405)、ある場合には、ステップS401に戻って次の発話データを選択し、ない場合には、テンポラリデータから発話データを選択し(ステップS406)、以下のルール(6)、(7)を適用して談話タグを得る。
(6)“質問”の後に続く相手発話で、その発話に続く自発話と同じ語句が含まれる場合、その相手発話は“回答”、同じ語句が含まれる自発話は“確認”
(例:A:「住所をお願いできますでしょうか」“質問”
B:「川崎市」→ “回答”
C:「川崎市、はい」→ “確認”)
(7)“確認”の後の「はい」「わかりました」となっているものは“確認返答”
(8)上記ルールにあてはまらないものは「その他」
そして、ルール(6)、(7)を適用して談話タグが得られたか否かを判定し(ステップS407)、談話タグが得られた場合には、その談話タグを音声対話データテーブル300に登録し(ステップS408)、談話タグが得られなかった場合には、上記ルール(8)を適用し(ステップS409)、談話タグ「その他」を音声対話データテーブル300に登録する(ステップS408)。
次に、フェーズ切れ目推定処理の詳細について説明する。図12は、フェーズ切れ目推定処理の処理手順を示すフローチャートである。同図に示すように、このフェーズ切れ目推定処理では、まず、音声対話データテーブル300から発話を一つ選択し(ステップS501)、選択した発話に対して、フェーズの切れ目の韻律特徴を表わす以下のルール(1)〜(4)を適用し、適用できた場合を1点として発話の得点付けを行う(ステップS502)。
(1)ポーズ長が長い
(2)ピッチがその前の発話に比べて高くなる
(3)パワーがその前の発話に比べて大きくなる
(4)開始時に「さて」「では」「ところで」「はい」などの言葉が多く使われる
(5)開始時の談話タグは「質問」「説明」「挨拶」
そして、音声対話データテーブル300にルール(1)〜(4)を適用していない発話データがあるか否かを判定し(ステップS503)、ある場合には、ステップS501に戻って次の発話データを選択し、ない場合には、得点の高い順に発話を選択する(ステップS504)。そして、上記ルール(5)が成り立つか否かを判定する(ステップS505)。
ここで、ルール(5)は、フェーズ「開始挨拶」の先頭の談話タグは「挨拶」、フェーズ「顧客情報収集」の先頭の談話タグは「質問」という傾向があることに基づくものである。
そして、ルール(5)が成り立つ発話の前をフェーズの区切りとし(ステップS506)、すべてのフェーズ区切りが特定できたか否かを判定する(ステップS507)。その結果、フェーズ区切りがすべては特定できていない場合には、ステップS504に戻って次の発話を選択し、すべてのフェーズ区切りが特定できた場合には、特定したフェーズに識別IDを付与し、対応する区間などの情報とともに音声対話データテーブル300に登録する。また、区間が定まるので、その区間のピッチの平均なども算出して音声対話データテーブル300に登録する。
上述してきたように、本実施例では、再生箇所受付部130が利用者から再生箇所の指定を受け付け、再生範囲決定部160が利用者が指定した再生箇所および対話構造情報200を用いて再生範囲を決定し、再生部180が再生範囲決定部160によって決定された再生範囲の音声を再生することとしたので、利用者が指定した再生箇所に対して適切な範囲の音声を再生することができる。
また、利用者が指定した再生箇所を含む対話の対話構造情報200を対話構造表示部140が表示し、対話構造情報200の表示画面を用いて利用者によって選択されたノードを入力受付部150が受け付け、利用者によって選択されたノードに基づいて再生範囲決定部160が再生範囲を決定することとしたので、利用者は再生箇所を容易に指定することができ、再生箇所に対して適切な範囲の音声を聞くことができる。
また、利用者が再生範囲調整スライダーを用いて指定した再生範囲の拡張レベルを入力受付部150が受け付け、再生範囲決定部160が拡張レベルと対話構造情報200を用いて拡張範囲を決定することとしたので、利用者は適切な範囲で拡張された音声を聞くことができる。
また、再生範囲に不連続部分がある場合には、不連続処理部170が不連続部分の時間に比例した長さの無音を挿入することとしたので、利用者は、再生されていない発話部分があることを容易に認識することができる。
なお、本実施例では、対話構造情報が木構造で表現される場合について説明したが、本発明はこれに限定されるものではなく、対話構造情報がネットワーク構造で表現される場合にも同様に適用することができる。
また、本実施例では、コールセンタのオペレータと顧客の通話の一部を再生する場合について説明したが、本発明はこれに限定されるものではなく、複数の出席者による会議録音の一部を再生する場合にも同様に適用することができる。
また、本実施例では、音声再生装置100について説明したが、この音声再生装置100が有する構成をソフトウェアによって実現することで、同様の機能を有する音声再生プログラムを得ることができる。そこで、この音声再生プログラムを実行するコンピュータについて説明する。
図13は、本実施例に係る音声再生プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ400は、LANインタフェース410と、I/Oインタフェース420と、RAM430と、HDD440と、CPU450と、音声出力インタフェース460と、DVDドライブ470とを有する。
LANインタフェース410は、コンピュータ400をLANに接続するためのインタフェースであり、I/Oインタフェース420は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースである。
RAM430は、音声再生プログラム441やプログラムの実行途中結果などを記憶するメモリであり、HDD440は、音声再生プログラム441などを格納するディスク装置である。
CPU450は、RAM430からプログラムを読み出して実行する中央処理装置であり、音声出力インタフェース460は、音声を出力するスピーカに接続するためのインタフェースである。DVDドライブ470は、DVDの読み書きを行う装置である。
そして、このコンピュータ400において実行される音声再生プログラム441は、DVDに記憶され、DVDドライブ470によってDVDから読み出されてコンピュータ400にインストールされる。
あるいは、この音声再生プログラム441は、LANインタフェース410を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ400にインストールされる。
そして、インストールされた音声再生プログラム441は、HDD440に記憶され、RAM430に読み出されてCPU450によって音声再生プロセス451として実行される。
(付記1)録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生プログラムであって、
再生する音声の範囲を利用者の指定する再生箇所および会話構造に基づいて決定する再生範囲決定手順と、
前記再生範囲決定手順により決定された範囲の音声を再生する再生手順と、
をコンピュータに実行させることを特徴とする音声再生プログラム。
(付記2)前記再生範囲決定手順は、前記再生箇所で特定される発話を含む単位会話を再生範囲として決定することを特徴とする付記1に記載の音声再生プログラム。
(付記3)前記会話構造はネットワーク構造であり、
前記再生範囲決定手順は、再生範囲の拡張が要求された場合に、前記ネットワーク構造において現在の再生範囲に対応するノードの隣接ノードを含む部分または上位ノードに対応する部分を再生範囲として拡張することを特徴とする付記1または2に記載の音声再生プログラム。
(付記4)前記会話構造を表示して利用者による再生範囲の指示を受け付ける再生範囲受付手順をさらにコンピュータに実行させ、
前記再生手順は、前記再生範囲受付手順が利用者から受け付けた再生範囲の音声を再生することを特徴とする付記1、2または3のいずれか一つに記載の音声再生プログラム。
(付記5)前記再生手順は、前記再生範囲受付手順により受け付けられた再生範囲の音声を時系列に順に再生する際に、再生範囲として指定されていない不連続な発話がある場合に、不連続な発話があることを特殊な音を用いて利用者に通知することを特徴とする付記4に記載の音声再生プログラム。
(付記6)録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生装置であって、
再生する音声の範囲を利用者の指定する再生箇所および会話構造に基づいて決定する再生範囲決定手段と、
前記再生範囲決定手段により決定された範囲の音声を再生する再生手段と、
を備えたことを特徴とする音声再生装置。
(付記7)前記再生範囲決定手段は、前記再生箇所で特定される発話を含む単位会話を再生範囲として決定することを特徴とする付記6に記載の音声再生装置。
(付記8)録音された会話は二人の対話であり、
前記再生範囲決定手段は、前記再生箇所で特定される発話と対になる発話とから構成される単位対話を再生範囲として決定することを特徴とする付記7に記載の音声再生装置。
(付記9)前記会話構造はネットワーク構造であり、
前記再生範囲決定手段は、再生範囲の拡張が要求された場合に、前記ネットワーク構造において現在の再生範囲に対応するノードの隣接ノードを含む部分または上位ノードに対応する部分を再生範囲として拡張することを特徴とする付記6〜8のいずれか一つに記載の音声再生装置。
(付記10)前記会話構造を表示して利用者による再生範囲の指示を受け付ける再生範囲受付手段をさらに備え、
前記再生手段は、前記再生範囲受付手段が利用者から受け付けた再生範囲の音声を再生することを特徴とする付記6〜9のいずれか一つに記載の音声再生装置。
(付記11)前記再生手段は、前記再生範囲受付手段により受け付けられた再生範囲の音声を時系列に順に再生する際に、再生範囲として指定されていない不連続な発話がある場合に、不連続な発話があることを特殊な音を用いて利用者に通知することを特徴とする付記10に記載の音声再生装置。
(付記12)前記再生手段は、前記再生範囲受付手段により受け付けられた再生範囲の音声を時系列に順に再生する際に、再生範囲として指定されていない不連続な発話がある場合に、該発話の時間を時間に比例して短縮することを特徴とする付記11に記載の音声再生装置。
(付記13)前記再生手段は、前記再生範囲受付手段により受け付けられた再生範囲の音声を時系列に順に再生する際に、再生範囲として指定されていない不連続な発話がある場合に、発話の種類に対応する効果音を短縮した時間分挿入することを特徴とする付記12に記載の音声再生装置。
(付記14)録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生方法であって、
再生する音声の範囲を利用者の指定する再生箇所および会話構造に基づいて決定する再生範囲決定工程と、
前記再生範囲決定工程により決定された範囲の音声を再生する再生工程と、
を含んだことを特徴とする音声再生方法。
(付記15)前記再生範囲決定工程は、前記再生箇所で特定される発話を含む単位会話を再生範囲として決定することを特徴とする付記14に記載の音声再生方法。
(付記16)録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生プログラムを記録したコンピュータが読み出し可能な記録媒体であって、
再生する音声の範囲を利用者の指定する再生箇所および会話構造に基づいて決定する再生範囲決定手順と、
前記再生範囲決定手順により決定された範囲の音声を再生する再生手順と、
をコンピュータに実行させることを特徴とする音声再生プログラムを記録したコンピュータが読み出し可能な記録媒体。
以上のように、本発明に係る音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法は、コールセンタなどで会話録音を分析する場合に有用であり、特に、会話録音の一部を再生して分析する場合に適している。
本実施例に係る音声再生装置による再生範囲の決定手法を説明するための説明図である。 発話区間を示す図である。 本実施例に係る音声再生装置の構成を示す機能ブロック図である。 音声データ情報保持部が保持する対話構造情報の一例を示す図である。 音声データ情報保持部が保持する音声対話データテーブルの一例を示す図である。 再生箇所受付部による再生個所受付処理を説明するための説明図である。 対話構造表示部が表示する対話構造表示例を示す図である。 再生箇所受付部から再生箇所を受け取った場合の再生範囲決定部による再生範囲決定処理の処理手順を示すフローチャートである。 再生範囲決定部による再生範囲拡張処理の処理手順を示すフローチャートである。 対話構造情報作成部の処理手順を示すフローチャートである。 談話タグ判定処理の処理手順を示すフローチャートである。 フェーズ切れ目推定処理の処理手順を示すフローチャートである。 本実施例に係る音声再生プログラムを実行するコンピュータの構成を示す機能ブロック図である。
符号の説明
100 音声再生装置
110 対話構造情報作成部
120 音声データ情報保持部
130 再生箇所受付部
140 対話構造表示部
150 入力受付部
160 再生範囲決定部
170 不連続処理部
180 再生部
200 対話構造情報
300 音声対話データテーブル
400 コンピュータ
410 LANインタフェース
420 I/Oインタフェース
430 RAM
440 HDD
441 音声再生プログラム
450 CPU
451 音声再生プロセス
460 音声出力インタフェース
470 DVDドライブ

Claims (8)

  1. コンピュータに、録音された会話の一部に対する利用者の再生要求に基づいて音声を再生させる音声再生プログラムであって、
    前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする手順と、
    前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする手順と、
    前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする手順と、
    前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する手順と、
    再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定手順と、
    前記再生範囲決定手順により決定された範囲の音声を再生する再生手順と、
    をコンピュータに実行させることを特徴とする音声再生プログラム。
  2. 記再生範囲決定手順は、再生範囲の拡張が要求された場合に、木構造で関係付ける対話構造情報において現在の再生範囲に対応するノードの隣接ノードを含む部分または上位ノードに対応する部分を再生範囲として拡張することを特徴とする請求項に記載の音声再生プログラム。
  3. 前記再生手順は、前記再生範囲受付手順により受け付けられた再生範囲の音声を時系列に順に再生する際に、再生範囲として指定されていない不連続な発話がある場合に、不連続な発話があることを特殊な音を用いて利用者に通知することを特徴とする請求項に記載の音声再生プログラム。
  4. 前記談話タグの種類の判定を行なう際に従う予め定めたルールとしては、
    発話区間ごとに音声認識した結果、文末が「ですか」「でしょうか」「ますか」となっているものの談話タグは“質問”である、
    文末の200msecのピッチが上昇調である場合には談話タグは“質問”である、
    発話区間長が200msec以下であるものの談話タグは“相槌”である、
    音声認識した結果「こんにちは」「ありがとう」「すいません」「もしもし」が含まれるものの談話タグは“挨拶”である、
    文末が「なっております」「なってます」「なるんです」「になります」となっているものの談話タグは“説明”である、
    “質問”の後に続く相手発話で、その発話に続く自発話と同じ語句が含まれる場合、その相手発話の談話タグは“回答”であり、同じ語句が含まれる自発話の談話タグは“確認”である、
    “確認”の後の「はい」「わかりました」となっているものの談話タグは“確認返答”である、
    があることを特徴とする請求項1に記載の音声再生プログラム。
  5. 前記フェーズの切れ目を特定する際に従う予め定めたルールとしては、
    ポーズ長が長い、
    ピッチがその前の発話に比べて高くなる、
    パワーがその前の発話に比べて大きくなる、
    開始時に「さて」「では」「ところで」「はい」などの言葉が多く使われる、
    開始時の談話タグは「質問」「説明」「挨拶」である、
    があることを特徴とする請求項1に記載の音声再生プログラム。
  6. 録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生装置であって、
    前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする手段と、
    前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする手段と、
    前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする手段と、
    前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する手段と、
    再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定手段と、
    前記再生範囲決定手段により決定された範囲の音声を再生する再生手段と、
    を備えたことを特徴とする音声再生装置。
  7. 録音された会話の一部に対する利用者の再生要求に基づいて音声を再生する音声再生装置による音声再生方法であって、
    前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする工程と、
    前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする工程と、
    前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする工程と、
    前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する工程と、
    再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定工程と、
    前記再生範囲決定工程により決定された範囲の音声を再生する再生工程と、
    を含んだことを特徴とする音声再生方法。
  8. 録音された会話の一部に対する利用者の再生要求に基づいてコンピュータに音声を再生させる音声再生プログラムを記録したコンピュータが読み取り可能な記録媒体であって、
    前記録音された会話について、予め定めた無音とするパワーの閾値以下のパワー値が、予め定めた無音区間とする長さの閾値以上の長さ続いた場合に無音区間と判断をし、無音区間以外を発話区間とし、音声対話テーブルに登録をする手順と、
    前記各発話区間について予め定めたルールに従って談話タグの種類の判定を行なって、判定をした談話タグの種類を前記音声対話テーブルに登録をする手順と、
    前記各発話区間について予め定めたルールが成り立つ発話の前をフェーズの切れ目とし、特定したフェーズに識別IDを付与し、前記音声対話テーブルに登録をする手順と、
    前記音声対話テーブルの談話タグの種類に基づいて、同一フェーズ内の発話区間の談話タグの種類が予め定めた組合せとなる発話区間をペアとする木構造で関連付ける対話構造情報を作成する手順と、
    再生箇所の発話区間の指定を受け付けると、受け付けた発話区間が前記対話構造情報において木構造で関係付けられるペアとなる発話区間を持つか否かを判定し、木構造で関係付けられるペアとなる発話区間を持つ場合は、指定を受けた発話区間と、該指定を受けた発話区間と木構造で関係付けられるペアとなる発話区間とを、再生範囲として決定する再生範囲決定手順と、
    前記再生範囲決定手順により決定された範囲の音声を再生する再生手順と、
    をコンピュータに実行させることを特徴とする音声再生プログラムを記録したコンピュータが読み取り可能な記録媒体。
JP2004366731A 2004-12-17 2004-12-17 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 Expired - Fee Related JP4324089B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004366731A JP4324089B2 (ja) 2004-12-17 2004-12-17 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法
US11/089,179 US8000963B2 (en) 2004-12-17 2005-03-25 Sound reproducing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004366731A JP4324089B2 (ja) 2004-12-17 2004-12-17 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法

Publications (2)

Publication Number Publication Date
JP2006171579A JP2006171579A (ja) 2006-06-29
JP4324089B2 true JP4324089B2 (ja) 2009-09-02

Family

ID=36597255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004366731A Expired - Fee Related JP4324089B2 (ja) 2004-12-17 2004-12-17 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法

Country Status (2)

Country Link
US (1) US8000963B2 (ja)
JP (1) JP4324089B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060256937A1 (en) * 2005-05-12 2006-11-16 Foreman Paul E System and method for conversation analysis
JP4567606B2 (ja) * 2006-01-05 2010-10-20 富士通株式会社 音声データの聞き出し部分特定処理プログラムおよび処理装置
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
US8676586B2 (en) * 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
JP5195369B2 (ja) * 2008-12-05 2013-05-08 富士通株式会社 対話選別プログラム、対話選別装置、および対話選別方法
JP5325140B2 (ja) * 2010-02-22 2013-10-23 日本電信電話株式会社 コンタクトセンタ向け用件区間抽出方法と、その装置と、プログラム
US20120166996A1 (en) * 2010-12-23 2012-06-28 Glockner Group Llc Anesthesia recordation device
CN103443810B (zh) * 2011-03-17 2016-05-04 富士通株式会社 话务员评价支援装置及话务员评价支援方法
JP2012205147A (ja) * 2011-03-25 2012-10-22 Kyocera Corp 携帯電子機器および音声制御システム
JP2013029868A (ja) * 2012-11-05 2013-02-07 Fujitsu Ltd 対話選別プログラム、対話選別装置、および対話選別方法
KR102156805B1 (ko) * 2013-08-26 2020-09-16 삼성전자주식회사 데이터 처리 방법 및 그 전자 장치
JP2014102513A (ja) * 2014-01-06 2014-06-05 Fujitsu Ltd 対話選別プログラム、対話選別装置、および対話選別方法
JP6772839B2 (ja) * 2014-12-25 2020-10-21 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP6622165B2 (ja) * 2016-09-16 2019-12-18 株式会社東芝 対話ログ分析装置、対話ログ分析方法およびプログラム
CN107808655B (zh) * 2017-10-27 2021-02-12 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04158400A (ja) 1990-10-22 1992-06-01 Mitsubishi Electric Corp 情報記録再生装置
JP3437617B2 (ja) 1993-06-03 2003-08-18 株式会社東芝 時系列データ記録再生装置
JP2931553B2 (ja) 1996-08-29 1999-08-09 株式会社エイ・ティ・アール知能映像通信研究所 話題処理装置
JPH10173769A (ja) 1996-12-13 1998-06-26 Matsushita Electric Ind Co Ltd 音声メッセージ検索装置
US20020086716A1 (en) * 1999-01-06 2002-07-04 Priority Tech, Inc. Hands-free mobile phone kit
JP3465615B2 (ja) 1999-02-08 2003-11-10 日本電気株式会社 検索方法ならびに装置及び同方法がプログラムされ記録された記録媒体
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
JP4108948B2 (ja) 2000-09-25 2008-06-25 富士通株式会社 複数の文書を閲覧するための装置および方法
EP1450351A4 (en) * 2001-09-27 2006-05-17 Matsushita Electric Ind Co Ltd DIALOGUE DEVICE, FATHER DIALOGUE DEVICE, DIALOGUE THREAD DEVICE, DIALOGUE CONTROL METHOD, AND DIALOGUE CONTROL PROGRAM
KR100571347B1 (ko) * 2002-10-15 2006-04-17 학교법인 한국정보통신학원 사용자 선호도 기반의 멀티미디어 컨텐츠 서비스 시스템과방법 및 그 기록 매체
JP2004266578A (ja) 2003-02-28 2004-09-24 Kanazawa Inst Of Technology 動画像編集方法および装置
US8683351B2 (en) * 2004-10-26 2014-03-25 International Business Machines Corporation Chat user interface for threaded text chat systems

Also Published As

Publication number Publication date
US20060136247A1 (en) 2006-06-22
US8000963B2 (en) 2011-08-16
JP2006171579A (ja) 2006-06-29

Similar Documents

Publication Publication Date Title
US8000963B2 (en) Sound reproducing apparatus
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
KR100567126B1 (ko) 음성 xml 파일을 자동적으로 생성하기 위한 방법 및시스템
JP5045670B2 (ja) 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JPWO2009025155A1 (ja) 音声再生方法、音声再生装置およびコンピュータ・プログラム
JP2007295218A (ja) ノンリニア編集装置およびそのプログラム
JP3437617B2 (ja) 時系列データ記録再生装置
JP3279684B2 (ja) 音声インタフェース・ビルダ・システム
JPH08286693A (ja) 情報処理装置
JP3896760B2 (ja) 対話記録編集装置、方法及び記憶媒体
JP4639932B2 (ja) 音声合成装置
JPH09146580A (ja) 効果音検索装置
JPH1125112A (ja) 対話音声処理方法及び装置、記録媒体
JPH10312389A (ja) 音声データベースシステムおよび記録媒体
KR100383061B1 (ko) 디지털 오디오와 그의 캡션 데이터를 이용한 학습방법
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP5234950B2 (ja) 歌唱録音システム
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
CN115050393B (zh) 获取回听音频的方法、装置、设备及存储介质
JP2003150185A (ja) 音声合成システムとその方法及びそれを実現するためのプログラム
JP4973431B2 (ja) 音声再生プログラム及び音声再生装置
JP3949546B2 (ja) 語学教材データ生成方法
JP2009204872A (ja) 音声認識用辞書生成システム
Kristjansson et al. A unified structure-based framework for indexing and gisting of meetings

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees