JP2021139921A - ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 - Google Patents

ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 Download PDF

Info

Publication number
JP2021139921A
JP2021139921A JP2020034460A JP2020034460A JP2021139921A JP 2021139921 A JP2021139921 A JP 2021139921A JP 2020034460 A JP2020034460 A JP 2020034460A JP 2020034460 A JP2020034460 A JP 2020034460A JP 2021139921 A JP2021139921 A JP 2021139921A
Authority
JP
Japan
Prior art keywords
vocabulary
dialogue
user
scenario
multimedia data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020034460A
Other languages
English (en)
Other versions
JP7352491B2 (ja
Inventor
剣明 呉
Jiangming Wu
剣明 呉
正樹 内藤
Masaki Naito
正樹 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020034460A priority Critical patent/JP7352491B2/ja
Publication of JP2021139921A publication Critical patent/JP2021139921A/ja
Application granted granted Critical
Publication of JP7352491B2 publication Critical patent/JP7352491B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザ周辺から取得したマルチメディアデータに応じた対話文を生成する対話装置等を提供する。【解決手段】語彙を、意味属性的に階層化した語彙体系データベースと、所定階層における所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、マルチメディアデータから語彙を抽出する語彙抽出手段と、語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段とを有する。【選択図】図2

Description

本発明は、ユーザと自然な対話を実現する対話装置の技術に関する。
対話装置は、一般的に、マイクによってユーザの発話音声を収音し、その発話音声から音声認識によってテキストに変換し、そのテキストに応じた対話文を生成し、その対話文を音声合成によって生成した対話音声をスピーカから発声する。対話型AI(Artificial Intelligence)としては、例えば、「Siri(登録商標)」や「しゃべってコンシェル(登録商標)」のような対話システムや、「Google Home(登録商標)」や「Amazon Echo(登録商標)」のようなスマートスピーカがある。このような技術は、音楽の再生や、天気予報・ニュースを知らせるなどの特定タスクを実行することに適する。
従来、ユーザの対話相手を擬人化した「SOTA(登録商標)」や「ユニボー(登録商標)」のようなロボットの技術がある。例えば、ユーザと一緒にテレビを視聴する「テレビ視聴ロボット」について、視聴中のテレビ番組と連動してユーザへ自発的に発話する技術がある(例えば非特許文献1参照)。この技術によれば、ロボットは、テレビ番組からキーワードを抽出し、そのキーワードをテンプレートに埋め込んだ対話文を生成し、その対話文をユーザへ発声する。これによって、ユーザに対して、テレビ番組のような対話のきっかけを作ることができる。
また、テレビ視聴中のユーザに対して、ランダムなタイミングで、話題辞書及び発話文テンプレートを用いて話題を生成する技術もある(例えば非特許文献2参照)。この技術によれば、そのユーザの属性に合わせて対話文を生成することができる。
更に、ユーザの嗜好情報及び人間関係を考慮した雑談対話システムの技術もある(例えば非特許文献3参照)。この技術によれば、話題を提示するテンプレートを大量に用意する必要がなく、ユーザからの発話を起点として対話を開始するものである。
星祐太, 金子豊, 村崎康博, 上原道宏:"視聴実験によるロボットとのテレビ視聴に関する基礎調査", 映像情報メディア学会2018年次大会14B-2 (2018) 山本大介, et al. "高齢者対話インタフェース:話し相手となって, お年寄りの生活を豊かに." 電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎109.224: pp.47-51(2009). 小林峻也, and 萩原将文. "ユーザの嗜好や人間関係を考慮する非タスク指向型対話システム." 人工知能学会論文誌 (2016): DSF-502. NTTコミュニケーション科学基礎研究所、「汎用的な意味解析技術への挑戦」、[online]、[令和2年2月22日]、インターネット<URL:https://www.ntt.co.jp/journal/0806/files/jn200806024.pdf> MathWorks、「顔認識」、[online]、[令和2年2月22日]、インターネット<https://jp.mathworks.com/discovery/face-recognition.html>
非特許文献1に記載の技術によれば、テレビ番組から抽出したキーワードを単にテンプレートに埋め込んだに過ぎず、テレビ番組の内容と直接的な対話文を生成するものである。また、非特許文献2及び3に記載のいずれの技術も、ユーザの周辺状況に応じて対話を展開させるものではない。
これに対し、本願の発明者らは、対話中のユーザ周辺状況から概念的に広く捉えた雑談のような対話を進行させることができないか、と考えた。
そこで、本発明は、ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法を提供することを目的とする。
本発明によれば、ユーザと対話する対話装置において、
語彙を、意味属性的に階層化した語彙体系データベースと、
所定階層における所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段と
を有することを特徴とする。
本発明の対話装置における他の実施形態によれば、
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストであることも好ましい。
本発明の対話装置における他の実施形態によれば、
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。
本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザの周辺を撮影する外側カメラに接続されており、
マルチメディアデータは、外側カメラによって撮影された映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。
本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザの周辺を収音するマイクに接続されており、
マルチメディアデータは、マイクによって収音された音声であり、
語彙抽出手段は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出することも好ましい。
本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザを撮影する内側カメラに接続されており、
内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、
顔画像からユーザ世代を検出するユーザ世代推定エンジンと
を更に有し、
対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、
対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択する
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
ユーザ世代推定エンジンは、IMDb(Internet Movie Database)のデータセットを用いて、顔画像と年代と性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものであることも好ましい。
本発明の対話装置における他の実施形態によれば、
語彙選択手段によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段を更に有し、
対話実行手段は、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザとの対話を更に進行させる
ことも好ましい。
本発明によれば、ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
語彙を、意味属性的に階層化した語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、ユーザと対話する装置の対話方法において、
装置は、
語彙を、意味属性的に階層化した語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと
を有し、
ユーザ周辺から、マルチメディアデータを取得する第1のステップと、
マルチメディアデータから語彙を抽出する第2のステップと、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第3のステップと、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する第4のステップと、
選択された対話シナリオを用いて、ユーザと対話を進行する第5のステップと
を実行することを特徴とする。
本発明の対話装置、プログラム及び方法によれば、ユーザ周辺データに応じて雑談のような対話を進行させることができる。即ち、対話のきっかけを多く提供することでき、飽きられにくい雑談対話AIを実現することができる。
本発明における対話装置の周辺環境を表すシステム構成図である。 本発明における対話装置の機能構成図である。 語彙体系データベース及び対話シナリオデータベースの構成図である。 対話中のユーザを撮影可能な対話装置の機能構成図である。 対話用の語彙をインターネットで検索する説明図である。 対話装置とユーザとの間の対話を表すシーケンス図である。 ユーザ周辺データを画像、映像又は音声をとした場合における対話装置の構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における対話装置の周辺環境を表すシステム構成図である。
図1によれば、対話装置1は、キャラクタとしてのロボットであり、ユーザとの自然な雑談対話を実現する。
対話装置1は、ユーザインタフェースの入出力デバイスとして、少なくともマイク及びスピーカを搭載する。マイクによってユーザの発話音声を収音し、スピーカによって対話音声をユーザへ発声する。
<第1の実施形態:テレビから取得したテキスト=マルチメディアデータ>
図1によれば、対話装置1は、テレビ2に接続されており、テレビ2によって取得可能なマルチメディアデータを取得することができる。
この場合のマルチメディアデータとしては、テレビの視聴中番組における電子番組表(EPG(Electronic Program Guide))の記述テキスト、又は、放送内容の字幕テキストであってもよい。
電子番組表とは、放送番組の放送予定を、時間帯及びチャンネル番号によって表形式(ラテ欄)にまとめたものである。一般に、縦軸に時間帯を、横軸にチャネルを構成した格子状のセルとして表される。セルの中に、タイトルや出演者名等のメタデータ(番組内容)が記述されている。
字幕テキストは、字幕放送に基づくものであって、セリフやトーク部分は勿論のこと、 “パトカーのサイレン音”や“ドアをたたく音”なども文字で表現される。字幕テキストは、映像及び音声と同期して取得可能な文字データである。
本発明の対話装置1は、これらテキスト(ユーザにおける周辺状況)に応じた内容で、ユーザと雑談対話を進行させることができる。
尚、図1によれば、対話装置1は、テレビ2からマルチメディアデータを取得する実施形態について記載しているが、他の実施形態については、図5によって後述する。
図2は、本発明における対話装置の機能構成図である。
図2によれば、対話装置1は、語彙体系データベース101と、対話シナリオデータベース102と、ユーザ周辺データ取得部11と、語彙抽出部12と、語彙選択部13と、対話シナリオ選択部14と、音声認識部151と、対話実行部152と、音声変換部153とを有する。これら機能構成部は、対話装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置の対話方法としても理解できる。
[語彙体系データベース101]
語彙体系データベース101は、語彙を、意味属性的に階層化したものである(例えば非特許文献4参照)。これは、シソーラス(thesaurus)と称され、単語の上位下位関係、部分全体関係、同義関係、類義関係などによって語彙を体系的に分類したものである。
図3は、語彙体系データベース及び対話シナリオデータベースの構成図である。
図3(a)によれば、語彙体系データベース101は、55個の最上位概念的な語彙(トップノード)から、意味属性的に下位概念へ向けてツリー構造を持つ。
例えば語彙「ブドウ」については、語彙「果物」に属し、以下のように上位概念化され、最上位語彙は「食料」となる。
「食料」<=「嗜好品」<=「果物」(ブドウ)
各語彙は、例えばWord2vecに基づいてベクトルで表現されたものである。
「Word2vec」とは、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮する技術をいう。2つの語彙について、類似度が高いほどベクトル間距離(ユークリッド距離)は短くなり、類似度が低いほどベクトル間距離は長くなる。当然、同一カテゴリに属する語彙同士は、類似度が高くなる(ベクトル間距離は短くなる)。
語彙の類似度は、以下のようにコサイン類似度で表される。
S(a,b)=cosθ=(Va・Vb)/(|Va||Vb|)
Va:第1の語彙の特徴ベクトル
Vb:第2の語彙の特徴ベクトル
S(a,b):0〜1(類似度が高いほど1に近づく)
[対話シナリオデータベース102]
対話シナリオデータベース102は、所定階層(例えば最上位階層)における複数の語彙それぞれについて、対話シナリオを記憶したものである。
対話シナリオとは、質問文を含む対話ノードを、ユーザからの回答文に応じてツリー状に辿るように構成したものである。例えば、ユーザの入力に対する応答パターンを記述するFST(Finite State Transducer)のスクリプトファイルで記述されたものであってもよい。
ここで、所定階層を、最上位概念層とする。
図3(b)によれば、対話シナリオデータベース102は、55個の最上位概念的な語彙毎に、対話シナリオが対応付けられている。
本発明によれば、例えば語彙「果物」の場合、最上位語彙「食料」の対話シナリオが選択されることとなる。
[ユーザ周辺データ取得部11]
ユーザ周辺データ取得部11は、ユーザ周辺から、マルチメディアデータを取得するものである。
図2によれば、対話装置1は、マルチメディアデータとして、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストを取得する。
取得されたマルチメディアデータは、語彙抽出部12へ出力される。
[語彙抽出部12]
語彙抽出部12は、マルチメディアデータから「語彙」を抽出する。
図2によれば、マルチメディアデータがテキストである場合、形態素解析によって一般名詞を抽出する。抽出された一般名詞を表現するベクトルと、語彙体系データベース101に登録された各語彙のベクトルとを比較して、最も類似度が高い語彙を抽出する。
このとき、例えば所定時間毎に、その時間内に取得されたマルチメディアデータの中で、出現頻度が最も高い一般名詞を検出するものであってもよい。そして、語彙体系データベース101を用いて、その一般名詞と最も類似度が高い語彙を抽出する。
図2によれば、例えばテレビの視聴中番組の中で一般名詞「ブドウ」の出現頻度が最も高い場合、「ブドウ」のベクトルと最も類似度が高い語彙「果物」が抽出される。
そして、抽出された語彙は、語彙選択部13へ出力される。
[語彙選択部13]
語彙選択部13は、語彙体系データベース101を用いて、当該語彙の上位概念となる所定階層(例えば最上位)の語彙を選択する。
図2によれば、語彙選択部13は、例えば語彙抽出部12から語彙「果物」が入力された場合、その最上位概念となる語彙「食料」(<-「嗜好品等」<-「果物」)を選択する。
[対話シナリオ選択部14]
対話シナリオ選択部14は、対話シナリオデータベース102を用いて、選択された語彙に基づく対話シナリオを選択するものである。
図2によれば、対話シナリオ選択部14は、例えば語彙選択部13から語彙「食料」を入力した場合、その「食料」に対応する対話シナリオを選択する。
選択された対話シナリオは、対話実行部152へ出力される。
[音声認識部151・対話実行部152・音声変換部153]
音声認識部151、対話実行部152及び音声変換部153は、一般的な対話装置の機能構成部である。
音声認識部151は、マイクからユーザの発話音声を入力し、その発話音声をテキスト語彙に変換し、そのテキストを対話実行部152へ出力する。
対話実行部152は、音声認識部151から入力したテキストに対して、選択された対話シナリオを用いて対話文を辿っていく。
音声変換部153は、対話実行部152によって決定された対話文を、音声合成によって音声信号に変換し、その音声信号をスピーカへ出力する。
このようにして、対話装置1は、ユーザとの間で、音声によって対話を進行していく。
<第2の実施形態:対話シナリオの拡充>
前述した第1の実施形態によれば、例えば語彙体系データベース101における最上位語彙(トップノード)毎に、対話シナリオが対応付けられたものとした。
これに対し、第2の実施形態では、同一の語彙であっても、対話中のユーザの属性(世代)に応じて異なる対話シナリオを選択するようにしたものである。
図4は、対話中のユーザを撮影可能な対話装置の機能構成図である。
図4の対話装置は、図2と比較して、対話中のユーザを撮影するインカメラ(内側カメラ)を搭載すると共に、顔画像認識部16と、ユーザ世代推定エンジン17とを更に有する。
[顔画像認識部16]
顔画像認識部16は、インカメラによって撮影されたユーザの顔画像(映像)を入力し、各画像からユーザ毎の顔領域を検出する。
顔画像認識部16は、時系列の各画像フレームから、顔パラメータの時系列変化を特徴量として抽出する。例えば、顔のパーツの相対位置や大きさ、目や鼻やほお骨やあごの形を用いる。顔画像の特徴から作成されたテンプレートと一致する画像部分を、顔領域として検索する。尚、顔認識アルゴリズムとしては、様々な既存の方法がある(例えば非特許文献5参照)。
そして、顔画像認識部16は、顔画像の時系列特徴量を、ユーザ世代推定エンジン17へ出力する。
[ユーザ世代推定エンジン17]
ユーザ世代推定エンジン17は、学習段階として、IMDb(Internet Movie Database)のデータセット(例えば45,723枚)を教師データとして、「顔画像の時系列特徴量」と「年代」と「性別」(男・女)とを対応付けて学習した畳み込みニューラルネットワークに基づくものである。年代は、例えば以下のように3種類に区別したものであってもよい。
「子供」(0〜17歳)
「大人」(18〜64歳)
「シニア」(65歳以上)
ユーザ世代推定エンジン17は、推定段階として、顔画像認識部16から「顔画像の時系列特徴量」を入力する。これに対して、ユーザ世代推定エンジン17は、「年代」及び「性別」を出力する。
ユーザ世代推定エンジン17を用いる場合、対話シナリオデータベース102は、所定階層(例えば最上位)の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶する。例えば以下のように、1つの語彙に対して、5種類の対話シナリオを予め記憶しており、複数の年代が一緒に対話していることも考慮する。
「子供」
「大人」
「シニア」
「親子」(子供+大人、大人+シニア)
「祖父母と孫」(子供+シニア)
この場合、対話シナリオ選択部14は、語彙選択部13によって選択された語彙と、ユーザ世代推定エンジン17によって推定されたユーザ世代とに応じて、対話シナリオを選択する。
<第3の実施形態:語彙のインターネット検索>
図5は、対話用の語彙をインターネットで検索する説明図である。
図5の対話装置1は、図2と比較して、インターネット検索部18を更に有する。
[インターネット検索部18]
インターネット検索部18は、語彙選択部13によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する。
これによって、対話実行部152は、インターネット検索部18の検索結果となるテキストに含まれる語彙を更に用いて、ユーザとの対話を更に進行させることができる。
図6は、対話装置とユーザとの間の対話を表すシーケンス図である。
(S11)対話装置1は、テレビから、ユーザ周辺データを取得する。ユーザ周辺データは、例えば視聴中の番組内容から抽出されたテキストであるとする。このとき、語彙「ブドウ」が含まれていたとする。
(S12)対話装置1は、語彙体系データベース101を用いて、語彙「ブドウ」とベクトル表現で最も近い語彙「果物」を抽出したとする。
(S13)対話装置1は、語彙体系データベース101を用いて、語彙「果物」の最上位概念の語彙「食料」を選択する。
(S14)対話装置1は、対話シナリオデータベース102を用いて、語彙「食料」に対応する対話シナリオを選択する。
(S15)対話装置1は、語彙「食料」に対応する対話シナリオを用いて対話を進行する。
対話装置「好きな食べ物は何ですか?」
ユーザ 「ケーキが好きだね」
対話装置「手作りですか?」
ユーザ 「山手沿線のケーキ屋を探してるよ」
対話装置(「食料」「山手沿線」「ケーキ屋」をキーとしてインターネット検索)
対話装置(「新宿駅」「○○屋」が検索される)
対話装置「新宿駅近くの○○屋が有名ですよ」
図7は、ユーザ周辺データを画像、映像又は音声をとした場合における対話装置の構成図である。
前述した図1及び図2における対話装置1によれば、ユーザ周辺データとしてのマルチメディアデータは、テレビから取得した視聴中番組のテキストであるとして説明した。これに対して、以下のように4つの他の実施形態も想定される。
<第4の実施形態:カメラによってテレビを撮影した映像=マルチメディアデータ>
対話装置1は、図1と同様にテレビに接続されているが、ユーザ周辺データ取得部11は、マルチメディアデータとして、テレビの視聴中番組における「映像」を取得する。
この場合、語彙抽出部12は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。語彙抽出部12は、例えば、語彙が付与された画像オブジェクトを蓄積するデータベースを有する。画像オブジェクトとは、視聴中番組の映像の中に映り込む画像単位である。
語彙「ブドウ」<->画像オブジェクト「ブドウ」
画像オブジェクトの検出には、例えばSSD(Single Shot Multibox Detector)のようなものであってもよい。SSDは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、1つの画像オブジェクトが収まる。
そして、バウンディングボックスで囲まれた物体の画像オブジェクトに対応する語彙を検出する。例えば映像の中に「ブドウ」の画像オブジェクトと一致する部分を検出した際に、語彙「ブドウ」検出する。このとき、語彙抽出部12は、語彙「ブドウ」と最も類似するベクトル表現の語彙「果物」を抽出することとなる。
<第5の実施形態:カメラによってユーザ周辺を撮影した映像=マルチメディアデータ>
対話装置1は、ユーザの周辺を撮影する外側カメラに接続されている。ユーザ周辺データ取得部11は、マルチメディアデータとして、外側カメラによって撮影された「映像」を取得する。
この場合、語彙抽出部12は、第4の実施形態と同様に、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。
<第6の実施形態:マイクによってユーザ周辺を収音した音声=マルチメディアデータ>
対話装置1は、ユーザの周辺を収音するマイクに接続されている。ユーザ周辺データ取得部11は、マルチメディアデータとして、マイクによって収音された「音声」を取得する。
この場合、語彙抽出部12は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出する。語彙抽出部12は、例えば、語彙が付与された音響オブジェクトを蓄積するデータベースを有する。音響オブジェクトとは、ユーザ周辺の環境音の中に混在する音声単位である。
語彙「ドア」<->音響オブジェクト「バタン」
環境音の中に「バタン」の音響オブジェクトと一致する部分を検出した際に、語彙「ドア」検出する。このとき、語彙抽出部12は、語彙「ドア」と最も類似するベクトル表現の語彙「建造物」を抽出することとなる。
尚、音響オブジェクトは、音響信号そのものに限らず、音響から抽出された特徴量のようなものであってもよい。また、音響信号の収音については、例えばITU-R 勧告BS.2051「番組制作における高度音響システム」のような技術を用いることもできる。
以上、詳細に説明したように、本発明の対話装置、プログラム及び方法によれば、ユーザ周辺データに応じて雑談のような対話を進行させることができる。即ち、対話のきっかけを多く提供することでき、飽きられにくい雑談対話AIを実現することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 対話装置
101 語彙体系データベース
102 対話シナリオデータベース
11 ユーザ周辺データ取得部
12 語彙抽出部
13 語彙選択部
14 対話シナリオ選択部
151 音声認識部
152 対話実行部
153 音声変換部
16 顔画像認識部
17 ユーザ世代推定エンジン
18 インターネット検索部
2 テレビ

Claims (10)

  1. ユーザと対話する対話装置において、
    語彙を、意味属性的に階層化した語彙体系データベースと、
    所定階層における所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
    ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
    マルチメディアデータから語彙を抽出する語彙抽出手段と、
    語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
    対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
    選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段と
    を有することを特徴とする対話装置。
  2. 対話装置は、テレビに接続されており、
    マルチメディアデータは、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストである
    ことを特徴とする請求項1に記載の対話装置。
  3. 対話装置は、テレビに接続されており、
    マルチメディアデータは、テレビの視聴中番組における映像であり、
    語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する
    ことを特徴とする請求項1に記載の対話装置。
  4. 対話装置は、ユーザの周辺を撮影する外側カメラに接続されており、
    マルチメディアデータは、外側カメラによって撮影された映像であり、
    語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する
    ことを特徴とする請求項1に記載の対話装置。
  5. 対話装置は、ユーザの周辺を収音するマイクに接続されており、
    マルチメディアデータは、マイクによって収音された音声であり、
    語彙抽出手段は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出する
    ことを特徴とする請求項1に記載の対話装置。
  6. 対話装置は、ユーザを撮影する内側カメラに接続されており、
    内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、
    顔画像からユーザ世代を検出するユーザ世代推定エンジンと
    を更に有し、
    対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、
    対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択する
    ことを特徴とする請求項1から5のいずれか1項に記載の対話装置。
  7. ユーザ世代推定エンジンは、IMDb(Internet Movie Database)のデータセットを用いて、顔画像と年代と性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものである
    ことを特徴とする請求項6に記載の対話装置。
  8. 語彙選択手段によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段を更に有し、
    対話実行手段は、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザとの対話を更に進行させる
    ことを特徴とする請求項1から7のいずれか1項に記載の対話装置。
  9. ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
    語彙を、意味属性的に階層化した語彙体系データベースと、
    所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
    ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
    マルチメディアデータから語彙を抽出する語彙抽出手段と、
    語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
    対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
    選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段と
    してコンピュータを機能させることを特徴とするプログラム。
  10. ユーザと対話する装置の対話方法において、
    装置は、
    語彙を、意味属性的に階層化した語彙体系データベースと、
    所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと
    を有し、
    ユーザ周辺から、マルチメディアデータを取得する第1のステップと、
    マルチメディアデータから語彙を抽出する第2のステップと、
    語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第3のステップと、
    対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する第4のステップと、
    選択された対話シナリオを用いて、ユーザと対話を進行する第5のステップと
    を実行することを特徴とする装置の対話方法。
JP2020034460A 2020-02-28 2020-02-28 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 Active JP7352491B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020034460A JP7352491B2 (ja) 2020-02-28 2020-02-28 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020034460A JP7352491B2 (ja) 2020-02-28 2020-02-28 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2021139921A true JP2021139921A (ja) 2021-09-16
JP7352491B2 JP7352491B2 (ja) 2023-09-28

Family

ID=77668400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020034460A Active JP7352491B2 (ja) 2020-02-28 2020-02-28 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP7352491B2 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2008058276A (ja) * 2006-09-04 2008-03-13 Xanavi Informatics Corp 車載装置
JP2014106927A (ja) * 2012-11-29 2014-06-09 Toyota Motor Corp 情報処理システム
JP2017049427A (ja) * 2015-09-01 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
JP2018013894A (ja) * 2016-07-19 2018-01-25 Gatebox株式会社 画像表示装置、話題選択方法、話題選択プログラム
JP2018032340A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 属性推定装置、属性推定方法および属性推定プログラム
WO2018066258A1 (ja) * 2016-10-06 2018-04-12 シャープ株式会社 対話装置、対話装置の制御方法、および制御プログラム
JP2019053650A (ja) * 2017-09-19 2019-04-04 富士ゼロックス株式会社 自走式装置
JP2019175054A (ja) * 2018-03-28 2019-10-10 株式会社Nttドコモ 文章マッチングシステム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2008058276A (ja) * 2006-09-04 2008-03-13 Xanavi Informatics Corp 車載装置
JP2014106927A (ja) * 2012-11-29 2014-06-09 Toyota Motor Corp 情報処理システム
JP2017049427A (ja) * 2015-09-01 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
JP2018013894A (ja) * 2016-07-19 2018-01-25 Gatebox株式会社 画像表示装置、話題選択方法、話題選択プログラム
JP2018032340A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 属性推定装置、属性推定方法および属性推定プログラム
WO2018066258A1 (ja) * 2016-10-06 2018-04-12 シャープ株式会社 対話装置、対話装置の制御方法、および制御プログラム
JP2019053650A (ja) * 2017-09-19 2019-04-04 富士ゼロックス株式会社 自走式装置
JP2019175054A (ja) * 2018-03-28 2019-10-10 株式会社Nttドコモ 文章マッチングシステム

Also Published As

Publication number Publication date
JP7352491B2 (ja) 2023-09-28

Similar Documents

Publication Publication Date Title
US10192116B2 (en) Video segmentation
US10108709B1 (en) Systems and methods for queryable graph representations of videos
US6816858B1 (en) System, method and apparatus providing collateral information for a video/audio stream
US9286910B1 (en) System for resolving ambiguous queries based on user context
KR100684484B1 (ko) 비디오 세그먼트를 다른 비디오 세그먼트 또는 정보원에링크시키는 방법 및 장치
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
JP2014132464A (ja) 対話型インターフェース装置及びその制御方法
WO2007043679A1 (ja) 情報処理装置およびプログラム
Vryzas et al. Speech emotion recognition adapted to multimodal semantic repositories
JP5296598B2 (ja) 音声情報抽出装置
US11837221B2 (en) Age-sensitive automatic speech recognition
US11735203B2 (en) Methods and systems for augmenting audio content
Boggust et al. Grounding spoken words in unlabeled video.
WO2024140434A1 (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
Schmidt et al. The Fraunhofer IAIS audio mining system: Current state and future directions
KR102135077B1 (ko) 인공지능 스피커를 이용한 실시간 이야깃거리 제공 시스템
CN109376145A (zh) 影视对白数据库的建立方法、建立装置及存储介质
WO2023142590A1 (zh) 手语视频的生成方法、装置、计算机设备及存储介质
Qu et al. Semantic movie summarization based on string of IE-RoleNets
JP7352491B2 (ja) ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法
Bourlard et al. Processing and linking audio events in large multimedia archives: The eu inevent project
Jitaru et al. Lrro: a lip reading data set for the under-resourced romanian language
JP7221902B2 (ja) ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法
Bechet et al. Detecting person presence in tv shows with linguistic and structural features
Dalla Torre et al. Deep learning-based lexical character identification in TV series

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230915

R150 Certificate of patent or registration of utility model

Ref document number: 7352491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150