JP7059813B2 - 音声対話システム、その処理方法及びプログラム - Google Patents

音声対話システム、その処理方法及びプログラム Download PDF

Info

Publication number
JP7059813B2
JP7059813B2 JP2018104983A JP2018104983A JP7059813B2 JP 7059813 B2 JP7059813 B2 JP 7059813B2 JP 2018104983 A JP2018104983 A JP 2018104983A JP 2018104983 A JP2018104983 A JP 2018104983A JP 7059813 B2 JP7059813 B2 JP 7059813B2
Authority
JP
Japan
Prior art keywords
response sentence
word
voice
voice dialogue
return
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018104983A
Other languages
English (en)
Other versions
JP2019211516A (ja
Inventor
生聖 渡部
佐和 樋口
航 加来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018104983A priority Critical patent/JP7059813B2/ja
Priority to CN201910450497.XA priority patent/CN110556105B/zh
Priority to US16/425,023 priority patent/US11170763B2/en
Publication of JP2019211516A publication Critical patent/JP2019211516A/ja
Application granted granted Critical
Publication of JP7059813B2 publication Critical patent/JP7059813B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザと音声対話を行う音声対話システム、その処理方法及びプログラムに関する。
ユーザからの聞返しを検出すると、聞返し前の応答文と同一の応答文を出力する音声対話システムが知られている(特許文献1参照)。
特許第6073649号公報
上記音声対話システムにおいては、応答文中にユーザにとって聞き取り難い単語が含まれている場合、その応答文を繰り返しても、やはり聞き取り難いという状況は変わらない虞がある。
本発明は、このような問題点を解決するためになされたものであり、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を出力する音声対話システム、その処理方法及びプログラムを提供することを主たる目的とする。
上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムであって、
前記ユーザによる聞返しを検出する聞返し検出手段と、
前記聞返し検出手段により聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する応答文生成手段と、
前記ユーザとの音声対話の履歴を記憶する記憶手段と、
を備え、
前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システム
である。
この一態様において、前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が最も低い単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成してもよい。
この一態様において、前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語の音声速度を、該単語以外の単語の音声速度よりも低下させた前記聞返し用の応答文、該単語の音量を、該単語以外の単語の音量よりも大きくした前記聞返し用の応答文、および、該単語と、該単語の前後の単語と、の間隔を空けた前記聞返し用の応答文、のうちの少なくとも1つの前記聞返し用の応答文を生成してもよい。
この一態様において、前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第1所定値以下かつ、重要度が第2所定値以上の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成してもよい。
この一態様において、前記音声対話の話題を推定し、該推定した話題の変化を検出する話題検出手段を更に備え、前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出してもよい。
この一態様において、前記ユーザの音声の韻律情報を分析し、該韻律の変化量を検出する韻律検出手段を更に備え、前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記韻律検出手段により検出された韻律の変化量が所定量以上である場合に、前記ユーザの音声を該ユーザによる聞返しとして検出してもよい。
上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムの処理方法であって、
前記ユーザによる聞返しを検出するステップと、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成するステップと、
を含み、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムの処理方法
であってもよい。
上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムのプログラムあって、
前記ユーザによる聞返しを検出する処理と、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する処理と、
をコンピュータに実行させ、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムのプログラム
であってもよい。
本発明によれば、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を出力する音声対話システム、その処理方法及びプログラムを提供することができる。
本発明の実施形態1に係る音声対話システムの概略的なシステム構成を示すブロック図である。 本発明の実施形態1に係る音声対話システムの処理方法のフローを示すフローチャートである。 音声対話履歴における各単語の出現頻度およびTF-IDFの一例を示す図である。
実施形態1
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本発明の実施形態1に係る音声対話システムの概略的なシステム構成を示すブロック図である。本実施形態1に係る音声対話システム1は、例えば、ロボット、PC(Personal Computer)、携帯端末(スマートフォン、タブレットなど)、ナビゲーション装置等に搭載され、ユーザと対話を行う。
ここで、ユーザは、音声対話システム1と音声対話を行う際、音声対話システム1の音声を聞き取れなかった場合に、例えば、「もう一回言って?」などの、その音声を聞き返すこと(以下、聞返し)を行う。本実施形態1に係る音声対話システム1は、このユーザの音声から聞返しを検出した場合、この聞返しに対し、聞き取り易い応答文を出力するものである。
本実施形態1に係る音声対話システム1は、ユーザの音声を認識する音声認識部2と、音声の構文を解析する構文解析部3と、ユーザの音声に対する応答文を生成する応答文生成部4と、音声を出力する音声出力部5と、ユーザの音声の韻律の変化量を検出する韻律検出部6と、話題の変化を検出する話題検出部7と、ユーザによる聞返しを検出する聞返し検出部8と、記憶部9と、を備えている。
なお、音声対話システム1は、例えば、演算処理等と行うCPU(Central Processing Unit)、CPUによって実行される演算プログラム等が記憶されたROM(Read Only Memory)やRAM(Random Access Memory)からなるメモリ、外部と信号の入出力を行うインターフェイス部(I/F)、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。CPU、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。
音声認識部2は、例えば、マイクを介して入力されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。
例えば、音声認識部2は、マイクを介して入力されたユーザの音声情報をデジタル化する。音声認識部2は、そのデジタル化した情報から発話区間を検出し、検出した発話区間の音声情報に対して、統計言語モデルなどを参照してパターンマッチングを行うことで音声認識を行う。
ここで、統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、記憶部9などに予め記憶されている。記憶部9は、記憶手段の一具体例である。記憶部9は、メモリなどで構成されている。
音声認識部2は、ユーザの音声情報の各形態素に対してその品詞種類(名詞、形容詞、動詞、副詞など)を付加した品詞情報付き形態素情報を生成する。音声認識部2は、認識したユーザの音声情報を構文解析部3に出力する。
構文解析部3は、音声認識部2により認識された音声情報の構文を解析する。構文解析部3は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構文解析部3は、文字列情報の解析結果(形態素情報、係り受け情報、認識結果のテキストなどを含む)を応答文生成部4に出力する。
応答文生成部4は、応答文生成手段の一具体例である。応答文生成部4は、構文解析部3により解析された音声情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。
応答文生成部4は、例えば、構文解析部3から出力される文字列情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。より具体的には、応答文生成部4は、文字列情報「囲碁を打ちますよ。」から一つの述語項「囲碁を打つ」を抜き出す。構文解析部3は、抜き出した形態素列「囲碁 を 打つ」を特徴ベクトルとし、SVM(support vector machine)モデルを用いて感情判別(ネガティブ及びポジティブ)を行う。
応答文生成部4は、感情判別結果がポジティブである場合、応答文「いいですね。」を生成する。一方、応答文生成部4は、感情判別結果がネガティブである場合、応答文「大変ですね。」を生成する。なお、上述した応答文の生成方法は一例であり、これに限定されず、任意の生成方法を用いることができる。応答文生成部4は、生成した応答文を音声出力部5に出力する。
音声出力部5は、応答文生成部4により生成された応答文を、音声で出力する。音声出力部5は、例えば、スピーカなどを用いてユーザに対して応答文の音声を出力する。
ここで、音声対話の話題の変化時には、ユーザはその音声を聞き取り難く、聞返しが発生し易い。さらに、聞返しの音声は、特徴的な韻律変化がある。本実施形態1に係る音声対話システム1は、これら聞返しの特性を踏まえて、話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。
これにより、聞返し用の単語を予め登録しておく必要もなく、感動詞を含まない幅広い音声に対しても聞返しを検出できる。また、話題変化及び韻律情報に基づいて、聞返しの検出を行うことで、処理遅延が生じ難く、聞返しの言葉や音声認識の精度に依存せず、聞返しの検出精度を向上させることができる。
韻律検出部6は、韻律検出手段の一具体例である。韻律検出部6は、例えば、マイクを介して入力されたユーザの音声の韻律情報を分析し、韻律の変化量を検出する。ここで、ユーザの音声が聞返しの場合、その音声の句末に特徴が現れる。したがって、韻律検出部6は、例えば、ユーザの音声の句末の、所定期間を2分割し、その前半区間の音声高さの平均値とその後半区間の音声高さの平均値との差分(又は傾き)を、韻律の変化量として検出する。
より具体的には、韻律検出部6は、ユーザの音声終わりの100ミリ秒間の音声高さの平均値と、その直前の100ミリ秒間の音声高さの平均値との差分を、韻律の変化量として検出する。韻律検出部6は、検出した韻律の変化量を聞返し検出部8に出力する。
話題検出部7は、話題検出手段の一具体例である。話題検出部7は、応答文生成部4により生成された応答文中に出現する単語(自立語)に基づいて、音声対話の話題を推定する。
話題検出部7は、応答文中の単語と、予め記憶部9に設定されたテーブル情報と、を照らし合わせて話題を推定する。テーブル情報には、話題と、その話題に含まれる単語とが対応付けられている。話題検出部7は、テーブル情報の話題の中から、最も多くのテーブル情報の単語が出現した話題を推定する。なお、話題検出部7は、出現した単語数が同数の場合、テーブル情報において、上位の話題を推定してもよい。
例えば、話題検出部7は、応答文「朝ごはんをいっぱい食べたよ」の単語「朝ごはん」、「いっぱい」、「食べたよ」と、テーブル情報と、を照らし合わせる。話題検出部7は、テーブル情報の話題「食事」、「健康」、「家族」の中から、最も多くのテーブル情報の単語「朝ごはん」、「食べる」が出現した話題「食事」を推定する。なお、上述した話題検出部7の推定方法は一例であり、これに限定されない。
話題検出部7は、マイクを介して入力されたユーザの音声中に出現する単語に基づいて、音声対話の話題を推定してもよい。話題検出部7は、ユーザの音声中の単語と、記憶部9に予め設定されたテーブル情報と、を照らし合わせて話題を推定する。
話題検出部7は、上述の如く、音声対話の話題を推定し、該推定した話題の変化を検出する。話題検出部7は、例えば、推定した話題が「食事」から「健康」に変化した場合、その話題の変化を検出する。
聞返し検出部8は、聞返し検出手段の一具体例である。聞返し検出部8は、上述の如く、話題検出部7により話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。
ここで、ユーザの音声が聞返しの場合、その音声の句末において、韻律の変化量が大きくなる。これは、聞返しの場合、例えば、質問口調になるため音声の句末で音声が高くなるからである。
したがって、聞返し検出部8は、例えば、話題検出部7により話題の変化が検出され、かつ、韻律検出部6により検出された韻律の変化量が所定量以上で高い場合に、ユーザの音声を該ユーザによる聞返しとして検出する。上記所定量は、予め、聞返し時の音声句末における韻律の変化量が実験的に求められ、記憶部9に設定されている。 聞返し検出部8は、聞返しを検出すると、その結果を示す検出信号を応答文生成部4に対して出力する。
ところで、従来の音声対話システムにおいては、聞返し用の応答文中にユーザにとって聞き取り難い単語が含まれている場合、その応答文を繰り返しても、やはり聞き取り難いという状況は変わらない虞があった。
これに対し、本実施形態1に係る音声対話システム1において、応答文生成部4は、聞返し直前にユーザに応答した応答文において、ユーザとの音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる聞返し用の応答文を生成する。
例えば、応答文生成部4は、聞返し直前の応答文「岐阜へゴルフに行ったよ」に対し、出現頻度が第1所定値以下の単語「ゴルフ」のみからなる聞返し用の応答文「ゴルフ」を生成する。
ユーザとの音声対話の履歴(以下、音声対話履歴)において出現頻度が低い単語は、ユーザにとって聞き慣れない単語であり、聞き取り難い単語と推定できる。したがって、応答文生成部4は、聞返し直前の応答文において、ユーザとの音声対話の履歴における出現頻度が第1所定値以下で低い単語が含まれる場合、その聞き取り難い単語のみからなる聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難い単語のみを抜出し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。
音声対話履歴は、ユーザと音声対話システム1とで行われた音声対話の履歴であり、複数の音声対話が含まれる。音声対話履歴は、記憶部9に逐次記憶されている。上記第1所定値は、例えば、予め、ユーザが聞き取り難いと判断されたときの単語の出現頻度が実験的に求められ、記憶部9に記憶されている。
なお、上述の、出現頻度が第1所定値以下の単語のみからなる聞返し用の応答文とは、その単語に付加語を付加したものも含んでいてもよい。例えば、応答文生成部4は、聞返し直前の応答文「岐阜へゴルフに行ったよ」に対し、出現頻度が第1所定値以下の単語「ゴルフ」に付加語「だよ」を付加した聞返し用の応答文「ゴルフだよ」を生成してもよい。上記単語に付加する付加語は、記憶部9に予め設定されていてもよい。
さらに、応答文生成部4は、出現頻度が第1所定値以下の単語を複数回繰り返した聞返し用の応答文を生成してもよい。例えば、応答文生成部4は、聞返し直前の応答文「岐阜へゴルフに行ったよ」に対し、出現頻度が第1所定値以下の単語「ゴルフ」のみからなる聞返し用の応答文「ゴルフ ゴルフ」を生成してもよい。このように、単語に付加語を付加する、あるいは、単語を複数回繰り返すことで、その単語をより聞取り易くすることができる。
応答文生成部4は、聞返し検出部8から検出信号を受けると、聞返し直前の応答文に基づいて、聞返し用の応答文を生成する。
応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下の単語が含まれる場合、その単語のみからなる聞返し用の応答文を生成する。
一方で、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下の単語が含まれない場合、その応答文を聞返し用の応答文として再生成する。
応答文生成部4は、生成した聞返し用の応答文を音声出力部5に出力する。音声出力部5は、応答文生成部4により生成された聞返し用の応答文を、音声で出力する。これにより、ユーザからの聞返しに対して、的確に応答することができる。
図2は、本発明の実施形態1に係る音声対話システムの処理方法のフローを示すフローチャートである。韻律検出部6は、マイクを介して入力されたユーザの音声の韻律を分析し、韻律の変化量を検出する(ステップS101)。
話題検出部7は、音声対話の話題を推定し、該推定した話題の変化を検出する(ステップS102)。聞返し検出部8は、話題検出部7により話題の変化が検出され、かつ、韻律検出部6により検出された韻律の変化量が所定量以上である場合に、ユーザの音声を該ユーザによる聞返しとして検出する(ステップS103)。
聞返し検出部8が、聞返しを検出した場合(ステップS103のYES)、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下の単語が含まれるか否かを判断する(ステップS104)。
応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下の単語が含まれると判断した場合(ステップS104のYES)、該単語のみからなる聞返し用の応答文を生成し(ステップS105)、音声出力部5に出力し、後述の(ステップS110)に遷移する。
一方、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下の単語が含まれないと判断した場合(ステップS104のNO)、聞返し直前の応答文を聞返し用の応答文として再生成し(ステップS106)、音声出力部5に出力し、後述の(ステップS110)に遷移する。
聞返し検出部8が、聞返しを検出しない場合(ステップS103のNO)、音声認識部2は、ユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識し、認識したユーザの音声情報を構文解析部3に出力する(ステップS107)。
構文解析部3は、音声認識部2により認識された音声情報の構文を解析し、その解析結果を応答文生成部4に出力する(ステップS108)。応答文生成部4は、構文解析部3により解析された音声情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する(ステップS109)。音声出力部5は、応答文生成部4により生成された応答文を、音声で出力する(ステップS110)。
以上、本実施形態1に係る音声対話システム1において、応答文生成部4は、聞返し直前にユーザに応答した応答文において、ユーザとの音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難い単語のみを抜出し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。
実施形態2
上記実施形態1において、応答文生成部4は、聞返し直前にユーザに応答した応答文において、音声対話履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる聞返し用の応答文を生成している。これに対し、本発明の実施形態2において、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下の単語が含まれる場合、その応答文において、その単語を強調した聞返し用の応答文を生成する。
これにより、ユーザにとって、特に聞き取り難い単語を強調し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。
例えば、応答文生成部4は、聞返し直前の応答文において、その単語の音声速度を、該単語以外の単語の音声速度よりも低下させた聞返し用の応答文を生成する。これにより、音声速度が遅い、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。
応答文生成部4は、聞返し直前の応答文において、その単語の音量を、該単語以外の単語の音量よりも大きくした聞返し用の応答文を生成する。これにより、音量が大きい、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。上記音声速度及び音量は、予め、ユーザが聞き取り易い音声速度及び音量が実験的に求められ、記憶部9に設定されている。
応答文生成部4は、聞返し直前の応答文において、その単語と前後の単語との間隔を空けた聞返し用の応答文を生成する。これにより、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。
さらに、応答文生成部4は、聞返し直前の応答文において、上記を任意に組み合わせた聞返し用の応答文を生成してもよい。例えば、応答文生成部4は、聞返し直前の応答文において、その単語の音声速度及び音量を、該単語以外の単語の音声速度及び音量よりも低下させた聞返し用の応答文を生成してもよい。なお、本実施形態2において、上記実施形態1と同一部分は同一符号を付して詳細な説明は省略する。
実施形態3
本発明の実施形態3において、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が最も低い単語が含まれる場合、その単語のみからなる聞返し用の応答文、または、その単語のみを強調した聞返し用の応答文を生成する。
音声対話履歴において出現頻度が最も低い単語は、ユーザにとって最も聞き慣れない単語であり、ユーザにとって最も聞き取り難い単語と推定できる。したがって、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が最も低い単語が含まれる場合、その聞き取り難い単語のみからなる聞返し用の応答文、または、その聞き取り難い単語のみを強調した聞返し用の応答文を生成する。これにより、ユーザにとって、最も聞き取り難い単語を際立たせ、聞き取り易くすることができる。
例えば、音声対話履歴における各単語の出現頻度が、岐阜:15回、ゴルフ:0回、行く:52回であり、聞返し直前の応答文が、「岐阜へゴルフに行ったよ」であるとする。
この場合、応答文生成部4は、聞返し直前の応答文「岐阜へゴルフに行ったよ」において、音声対話履歴における出現頻度が最も低い単語「ゴルフ」が含まれていると判断する。そして、応答文生成部4は、その単語「ゴルフ」のみからなる聞返し用の応答文、または、その応答文において、単語「ゴルフ」を強調した聞返し用の応答文を生成する。
なお、本実施形態3において、上記実施形態1及び2と同一部分は同一符号を付して詳細な説明は省略する。
実施形態4
本発明の実施形態4において、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下かつ、重要度が第2所定値以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。
音声対話履歴において出現頻度が第1所定値以下で低い単語は、ユーザにとって聞き慣れない単語であり、ユーザにとって聞き取り難い単語と推定できる。さらに、その単語の重要度が第2所定値以上で高い場合、その単語はユーザにとって聞き取り難いだけでなく、重要な単語(一般的に使用される単語)と推定できる。
したがって、応答文生成部4は、上述の如く、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下で低く、かつ、重要度が第2所定値以上で高い単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難くかつ、重要な単語を際立たせ、聞き取り易くすることができる。
例えば、音声対話履歴が少ない場合に、その音声対話履歴における各単語の出現頻度は必然的に低くなる。この場合、ユーザにとって聞き慣れない単語だけでなく、単に珍しい単語(一般的に使用されない単語)も、第1所定値以下なる可能性がある。したがって、応答文生成部4は、上述の如く、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下だけなく、重要度が第2所定値以上の単語を抽出している。これにより、ユーザにとって聞き慣れない単語のみを抽出し、その単語を際立たせ、聞き取り易くすることができる。
上記第2所定値は、例えば、予め実験的に求められた最適値が記憶部9に記憶されている。
重要度は、例えば、TF-IDF(Term Frequency-Inverse Document Frequency)である。TF-IDFは、下記式を用いて算出される。
TF=(音声対話における単語Xの出現頻度)/(音声対話における全単語の出現頻度の和)
IDF=log{(音声対話履歴に含まれる全音声対話の数)/(単語Xを含む音声対話の数)}
TF-IDF=TF×IDF
例えば、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値(10回)以下かつ、TF-IDFが第2所定値(0.3)以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。
なお、上記第1及び第2所定値は、ユーザが入力装置などを介して、任意に設定変更できるものとする。
音声対話履歴における各単語の出現頻度およびTF-IDFが、例えば、図3に示すような値であるとし、聞返し直前の応答文を「岐阜で花子に出会ったんだよ」であるとする。
応答文生成部4は、聞返し直前の応答文「岐阜で花子に出会ったんだよ」において、音声対話履歴における出現頻度が10回以下かつ、TF-IDFが0.3以上の単語「花子」が含まれていると判断する。応答文生成部4は、その単語「花子」のみからなる聞返し用の応答文「花子」を生成する。あるいは、応答文生成部4は、その応答文「岐阜で花子に出会ったんだよ」において、該単語「花子」を強調した聞返し用の応答文「岐阜で<花子>に出会ったんだよ」を生成する。これにより、ユーザにとって、特に聞き取り難くかつ重要な単語「花子」を際立たせ、聞き取り易くすることができる。
なお、本実施形態4において、重要度は、TF-IDFであるがこれに限定されない。重要度は、単語の重要度を示す指標であれば、任意でよい。本実施形態4において、上記実施形態1乃至3と同一部分は同一符号を付して詳細な説明は省略する。
実施形態5
本発明の実施形態5において、応答文生成部4は、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下かつ、一般対話履歴における出現頻度が第3所定値以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。
ここで、上記一般対話履歴とは、ユーザと音声対話システム1との音声対話だけでなく、ユーザ同士の音声対話、一般の音声対話システム同士の音声対話の履歴を含む、広い範囲の音声対話履歴である。一般対話履歴は、例えば、記憶部9やインターネットなどのネットワークに接続されたデータベースなどに記憶されている。応答文生成部4は、記憶部9やデータベースなどから、一般対話履歴を取得する。また、上記第3所定値は、例えば、予め実験的に求められた最適値が記憶部9に記憶されている。
音声対話履歴において出現頻度が第1所定値以下で低い単語は、ユーザにとって聞き慣れない単語であり、ユーザにとって聞き取り難い単語と推定できる。さらに、一般対話履歴において、出現頻度が第3所定値以上で高い単語は、ユーザにとって聞き取り難いだけでなく、広く一般的に使用される単語と推定できる。
したがって、応答文生成部4は、上述の如く、聞返し直前の応答文において、音声対話履歴における出現頻度が第1所定値以下かつ、一般対話履歴における出現頻度が第3所定値以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難くかつ一般的に使用される単語(重要な単語)を際立たせ、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、より聞き取り易い応答文を生成し出力することができる。本実施形態5において、上記実施形態1乃至4と同一部分は同一符号を付して詳細な説明は省略する。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
本発明は、例えば、図2に示す処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 音声対話システム、2 音声認識部、3 構文解析部、4 応答文生成部、5 音声出力部、6 韻律検出部、7 話題検出部、8 聞返し検出部、9 記憶部

Claims (9)

  1. ユーザと音声対話を行う音声対話システムであって、
    前記ユーザによる聞返しを検出する聞返し検出手段と、
    前記聞返し検出手段により聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する応答文生成手段と、
    前記ユーザとの音声対話の履歴を記憶する記憶手段と、
    を備え、
    前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
    ことを特徴とする音声対話システム。
  2. 請求項1記載の音声対話システムであって、
    前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が最も低い単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
    ことを特徴とする音声対話システム。
  3. 請求項1記載の音声対話システムであって、
    前記応答文生成手段は、
    前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、
    該単語の音声速度を、該単語以外の単語の音声速度よりも低下させた前記聞返し用の応答文、該単語の音量を、該単語以外の単語の音量よりも大きくした前記聞返し用の応答文、および、該単語と、該単語の前後の単語と、の間隔を空けた前記聞返し用の応答文、のうちの少なくとも1つの前記聞返し用の応答文を生成する、
    ことを特徴とする音声対話システム。
  4. 請求項1記載の音声対話システムであって、
    前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第1所定値以下かつ、重要度が第2所定値以上の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
    ことを特徴とする音声対話システム。
  5. 請求項2乃至4のうちいずれか1項記載の音声対話システムであって、
    前記音声対話の話題を推定し、該推定した話題の変化を検出する話題検出手段を更に備え、
    前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出する、
    ことを特徴とする音声対話システム。
  6. 請求項5記載の音声対話システムであって、
    前記ユーザの音声の韻律情報を分析し、該韻律の変化量を検出する韻律検出手段を更に備え、
    前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記韻律検出手段により検出された韻律の変化量が所定量以上である場合に、前記ユーザの音声を該ユーザによる聞返しとして検出する、
    ことを特徴とする音声対話システム。
  7. ユーザと音声対話を行う音声対話システムの処理方法であって、
    前記ユーザによる聞返しを検出するステップと、
    前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成するステップと、
    を含み、
    前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
    ことを特徴とする音声対話システムの処理方法。
  8. ユーザと音声対話を行う音声対話システムのプログラムあって、
    前記ユーザによる聞返しを検出する処理と、
    前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する処理と、
    をコンピュータに実行させ、
    前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第1所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
    ことを特徴とする音声対話システムのプログラム。
  9. 請求項4記載の音声対話システムであって、
    前記重要度は、TF-IDF(Term Frequency-Inverse Document Frequency)であり、
    前記TF-IDFは、下記式を用いて算出される、
    TF=(音声対話における単語Xの出現頻度)/(音声対話における全単語の出現頻度の和)
    IDF=log{(音声対話の履歴に含まれる全音声対話の数)/(単語Xを含む音声対話の数)}
    TF-IDF=TF×IDF、
    ことを特徴とする音声対話システム。
JP2018104983A 2018-05-31 2018-05-31 音声対話システム、その処理方法及びプログラム Active JP7059813B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018104983A JP7059813B2 (ja) 2018-05-31 2018-05-31 音声対話システム、その処理方法及びプログラム
CN201910450497.XA CN110556105B (zh) 2018-05-31 2019-05-28 语音交互***、其处理方法及其程序
US16/425,023 US11170763B2 (en) 2018-05-31 2019-05-29 Voice interaction system, its processing method, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018104983A JP7059813B2 (ja) 2018-05-31 2018-05-31 音声対話システム、その処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019211516A JP2019211516A (ja) 2019-12-12
JP7059813B2 true JP7059813B2 (ja) 2022-04-26

Family

ID=68694108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018104983A Active JP7059813B2 (ja) 2018-05-31 2018-05-31 音声対話システム、その処理方法及びプログラム

Country Status (3)

Country Link
US (1) US11170763B2 (ja)
JP (1) JP7059813B2 (ja)
CN (1) CN110556105B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
JP7151181B2 (ja) 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
CN111564202B (zh) * 2020-04-30 2021-05-28 深圳市镜象科技有限公司 基于人机对话的心理疏导方法、心理疏导终端和存储介质
WO2024071921A1 (ko) * 2022-09-30 2024-04-04 삼성전자 주식회사 인공지능과 음성 인식을 기반으로 동작하는 전자 장치 및 이의 제어 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331191A (ja) 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2007102104A (ja) 2005-10-07 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
JP2015148758A (ja) 2014-02-07 2015-08-20 トヨタ自動車株式会社 音声対話システム及び音声対話方法
JP2016061970A (ja) 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494859B2 (en) * 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
EP2839391A4 (en) * 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
JP6073649B2 (ja) 2012-11-07 2017-02-01 株式会社日立システムズ 音声自動認識・音声変換システム
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
JP2017049471A (ja) * 2015-09-03 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
US10102844B1 (en) * 2016-03-29 2018-10-16 Amazon Technologies, Inc. Systems and methods for providing natural responses to commands
US10229189B2 (en) * 2016-05-23 2019-03-12 International Business Machines Corporation System for generation of automated response follow-up
CN107665708B (zh) * 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及***
JP2018104982A (ja) * 2016-12-27 2018-07-05 太平洋マテリアル株式会社 吹付けコンクリートの施工方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331191A (ja) 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2007102104A (ja) 2005-10-07 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
JP2015148758A (ja) 2014-02-07 2015-08-20 トヨタ自動車株式会社 音声対話システム及び音声対話方法
JP2016061970A (ja) 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム

Also Published As

Publication number Publication date
US11170763B2 (en) 2021-11-09
CN110556105A (zh) 2019-12-10
JP2019211516A (ja) 2019-12-12
CN110556105B (zh) 2022-11-15
US20190371305A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
JP7059813B2 (ja) 音声対話システム、その処理方法及びプログラム
US8219397B2 (en) Data processing system for autonomously building speech identification and tagging data
US10452352B2 (en) Voice interaction apparatus, its processing method, and program
KR102161579B1 (ko) 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
US11270691B2 (en) Voice interaction system, its processing method, and program therefor
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
JP5506738B2 (ja) 怒り感情推定装置、怒り感情推定方法およびそのプログラム
JPWO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム
CN105390137B (zh) 响应生成方法、响应生成装置和响应生成程序
JP5867410B2 (ja) 対話テキスト解析装置、方法およびプログラム
JP2019101065A (ja) 音声対話装置、音声対話方法及びプログラム
JP6299563B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
JP5136512B2 (ja) 応答生成装置及びプログラム
JP2013064951A (ja) 音響モデル適応装置、その適応方法及びプログラム
JP2016080981A (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP2016024384A (ja) 応答生成装置、応答生成方法及びプログラム
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP6773074B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220328

R151 Written notification of patent or utility model registration

Ref document number: 7059813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151