JP7287459B2 - 発話画像化装置、発話画像化方法及びプログラム - Google Patents

発話画像化装置、発話画像化方法及びプログラム Download PDF

Info

Publication number
JP7287459B2
JP7287459B2 JP2021514735A JP2021514735A JP7287459B2 JP 7287459 B2 JP7287459 B2 JP 7287459B2 JP 2021514735 A JP2021514735 A JP 2021514735A JP 2021514735 A JP2021514735 A JP 2021514735A JP 7287459 B2 JP7287459 B2 JP 7287459B2
Authority
JP
Japan
Prior art keywords
speech
speaker
feature
image
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021514735A
Other languages
English (en)
Other versions
JPWO2020213115A1 (ja
Inventor
陽子 石井
桃子 中谷
愛 中根
明日香 小野
由美子 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020213115A1 publication Critical patent/JPWO2020213115A1/ja
Application granted granted Critical
Publication of JP7287459B2 publication Critical patent/JP7287459B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00403Voice input means, e.g. voice commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0089Image display device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、発話画像化装置、発話画像化方法及びプログラムに関する。
従来、人物の発話内容をリアルタイムで自動的にテキスト化して記録する技術が開示されている(例えば、非特許文献1)。
鎌土,藤村,岩瀬,青野,政瀧,山田,大津谷,"HTML5対応クラウド音声認識プラットフォーム", 研究報告音声言語情報処理(SLP),2015-SLP-108(3),pp.1-6 (2015)
複数名で対話を行う場合、非特許文献1に記載の技術によれば、対話内容をリアルタイム、かつ、自動的にテキスト化することができる。
しかしながら、全ての会話をテキストとして確認しながら対話を行うことは聞き手側の認知的負荷が高い。例えば、自己紹介の場において、テキストで発話内容のみを表示しても認知的負荷が高いため相互理解が促進されづらい。
本発明は、上記の点に鑑みてなされたものであって、発話内容に対する認知的負荷を低下させることを目的とする。
そこで上記課題を解決するため、発話画像化装置は、複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出部と、前記一部の文字列に基づく画像を取得する取得部と、前記画像を前記発話に係る話者に対応する位置に出力させる出力部と、を有する。
発話内容に対する認知的負荷を低下させることができる。
本発明の実施の形態におけるシステム構成例を示す図である。 本発明の実施の形態における発話画像化装置10のハードウェア構成例を示す図である。 本発明の実施の形態における発話画像化装置10の機能構成例を示す図である。 投影範囲内における最大の楕円を説明するための図である。 発話画像の第1の出力例を示す図である。 発話画像の第2の出力例を示す図である。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態におけるシステム構成例を示す図である。図1に示されるように、本実施の形態では、マイクなどの集音装置20x、20y及び20z(以下、それぞれを区別しない場合、単に「集音装置20」という。)と、プロジェクタ(投影装置)などの表示装置30と、PC(Personal Computer)等の発話画像化装置10と、プロジェクタなどの表示装置30とが利用される。また、必要に応じて、撮影装置40が利用されてもよい。各集音装置20、表示装置30及び撮影装置40は、それぞれに応じたインタフェースを介して発話画像化装置10に接続される。集音装置20は、対話を行う複数の人物(以下、「参加者」という。)のそれぞれに対して設置される。本実施の形態では、参加者X、参加者Y及び参加者Zの3人によって対話が行われ、当該対話が可視化される例について説明する。したがって、3台の集音装置20が設置される。但し、2人又は4人以上によって対話が行われる場合に対して本実施の形態が適用されてもよい。なお、本実施の形態では、対話の場面として自己紹介を行う場面を想定する。したがって、参加者X、参加者Y、参加者Zは、例えば、皆向かい合うように円座し、順番に話者となる(自己紹介を行う)。したがって、或る瞬間において話者は一人である。但し、対話の内容は自己紹介でなくてもよい。また、各参加者の位置関係は、円座に限られない。
各集音装置20は、それぞれに対応する参加者(参加者X、参加者Y又は参加者Z)の声を音声信号として入力する。
表示装置30は、話者による発話内容に基づく画像を出力する。
撮影装置40は、参加者X、参加者Y、参加者Zの様子を撮影する。なお、1台の撮影装置40によって全員を撮影できない場合等には、複数台の撮影装置40が用いられてもよい。
図2は、本発明の実施の形態における発話画像化装置10のハードウェア構成例を示す図である。図2の発話画像化装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
発話画像化装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って発話画像化装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図3は、本発明の実施の形態における発話画像化装置10の機能構成例を示す図である。図3において、発話画像化装置10は、特徴設定部11、キーワード抽出部12、画像化部14及び出力データ生成部15等を有する。これら各部は、発話画像化装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。但し、これら各部は、同じコンピュータ内に実装されなくてもよい。これら各部は、複数のコンピュータに分散されて実装されてもよい。すなわち、発話画像化装置10は、1又は複数のコンピュータによって構成されてもよい。
以下、各部が実行する処理手順について説明する。
[特徴設定部11]
特徴設定部11は、発話の中からのキーワードの候補を抽出(又は検出)するための条件を示す設定情報(何を、どれだけ)の設定をユーザから受け付ける。ユーザによる設定情報の設定は、キーワード抽出部12が動作する前に一度だけ行われればよい。但し、設定情報が変更される場合、特徴設定部11は、ユーザからの設定情報の受け付けを再度行ってもよい。なお、設定情報は、例えば、補助記憶装置102等に記憶される。
キーワードとして「何を」抽出するかについての設定内容は、例えば、品詞によって指定されてもよい。
「どれだけ」については、例えば、話者が交代するたびにN個抽出することが設定されてもよい。この場合は、或る話者が長時間発話した場合には、N個抽出した後の発話に対しては、キーワードの抽出は行われないようにしてもよい。Nは自由に設定可能とする。また、一人の話者の一定時間の発話から頻出度の高いキーワード、又は逆に頻出度の低いキーワードから順にN個を抽出することが設定内容とされてもよい。この場合、話者が交代してから、予め設定された一定時間が経過するたびに、N個のキーワードの候補が抽出されることになる。仮に、頻出度の高い順に3個と、頻出度の低い順に3個が設定内容とされた場合、一定時間経過ごとに3個ずつ、合計6個のキーワードの候補が抽出される。設定する時間や個数は自由に設定可能とする。
更に、「何を」、「どれだけ」に加えて「いつ」が指定可能とされてもよい。例えば、対話全体の音量の大きさが閾値と比較され、音量が或る閾値を超えて大きい期間(対話の盛り上がり時を想定)や、逆に音量が或る閾値を下回って小さい期間(聞き取れない人がいる時を想定)における音声がキーワードの候補の抽出対象とされるように設定されてもよい。
[キーワード抽出部12]
キーワード抽出部12は、設定情報、及び各集音装置20が入力した音声データや撮影装置40で取得された映像データ等を入力とし、或る期間(例えば、話者の交代からの所定期間)における音声データが示すテキスト(文字列)から設定情報に合致するキーワード(すなわち、音声データが示すテキストの一部の文字列)の候補を抽出し、抽出したキーワードの候補を出力する。
キーワード抽出部12は、いずれかの集音装置20から音声データが入力されると、当該音声データに係る話者がいずれの参加者であるのかを特定する。例えば、キーワード抽出部12は、各集音装置20から入力される音声データのうち、音量が予め設定される閾値を一定時間を超えて、かつ、音量が最も大きい集音装置20に対応する参加者を話者として特定する。集音装置20と参加者との対応情報は、例えば、補助記憶装置102に予め記憶されていてもよい。なお、話者が特定されている状態において、当該話者以外の参加者に係る音量が上記の条件を満たした場合、キーワード抽出部12は、当該参加者を新たな話者として特定する(すなわち、話者の交代を検知する。)。
但し、話者の交代の検知には、トーキングスティックのような明示的に話者を示すデバイスが用いられてもよい。その場合、キーワード抽出部12は、トーキングスティックを保持している参加者を話者として特定し、トーキングスティックの保持者が交代した際に話者の交代を検知する。誰がトーキングスティックを保持しているかは、撮影装置40による映像データに対する画像認識に基づいて判定されてもよいし、人手で発話画像化装置10に対して入力されるようにしてもよい。
続いて、キーワード抽出部12は、話者の特定(交代の場合も含む。)の対象となった音声データから、設定情報に合致するキーワードを抽出する。当該音声データは、集音装置20から当該音声データの入力が開始されてから、所定期間における音声データをいう。所定期間とは、例えば、設定情報に含まれる条件が満たされるまでの期間や、話者の交代が検知されるまでの期間である。
キーワード抽出部12は、まず、当該音声データをテキストデータに変換する。変換するための技術としては音声認識エンジンなどが用いられればよい。一例として、クラウド上の音声認識エンジンをwebブラウザで利用することが可能なAPIを用いる例を示す。この場合、発話画像化装置10で開いたwebブラウザから音声データを送信することで、リアルタイムに音声をテキスト化することが可能になる。音声認識エンジンは、テキスト化されたデータを形態素解析し、各単語の品詞を推定した形で音声認識の結果を含むテキストデータを応答する。キーワード抽出部12は、当該テキストデータの中から、設定情報に合致する1以上のキーワード群(該当するキーワードが1つの場合も「キーワード群」という。)を抽出し、抽出されたキーワード群及び話者である参加者の識別情報(以下、「参加者ID」という。)を出力する。
議題特徴抽出部13a、話者特徴抽出部13b、複数話者特徴抽出部13c及びDB参照特徴抽出部13dのそれぞれは、キーワード抽出部12から出力されたキーワード群(以下、「キーワード群W1」という。)を入力とし、それぞれに対して設定された特徴情報に対して関連性が高い1以上のキーワードの集合(以下「キーワード群W2」という。)をキーワード群W1から抽出し、抽出されたキーワード群W2を出力する。すなわち、キーワード群W2は、キーワード群W1の部分集合である。関連性の高さは、キーワードと特徴情報との関連度を閾値と比較することで判定されてもよい。この場合、閾値は任意に設定可能とされてよい。特徴情報の一例として、単語や文章が挙げられる。
[議題特徴抽出部13a]
議題特徴抽出部13aは、キーワード抽出部12からキーワード群W1が出力されると、議題特徴抽出部13aに対する特徴情報として、例えば、事前に補助記憶装置102に登録された特徴情報を補助記憶装置102から読み出す。議題特徴抽出部13aに対する特徴情報とは、例えば、趣味や出かけ先となる場所など、議題や話題となりそうな名詞を含む単語又は文章である。
特徴情報として1以上の単語(以下、「特徴単語」という。)が登録されている場合、議題特徴抽出部13aは、以下の<単語の場合の例1>及び<単語の場合の例2>の2つの例のいずれかの手順によって、キーワード群W1の中からキーワード群W2を抽出する。
<単語の場合の例1>
議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、各特徴単語とのシソーラス距離(概念距離)を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。シソーラス距離(概念距離)は、例えば、WordNetを用いて計算されてもよい。なお、シソーラス距離は、関連度が高いほど小さい値となり、関連度が低いほど大きい値となる。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
<単語の場合の例2>
機械学習を用いて予め単語データのベクトル空間を構築しておく。議題特徴抽出部13aは、例えば、キーワード群W1に含まれる各キーワードと各特徴単語とのそれぞれについて、word2vecといった機械学習のアルゴリズムを用いて、当該ベクトル空間における分散表現を取得する。これにより各キーワード及び各特徴単語を多次元のベクトルデータの数値に変換することが可能になる。議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、当該キーワードの分散表現と、各特徴単語の分散表現とのユークリッド距離を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。なお、ユークリッド距離は、関連度が高いほど小さい値となり、関連度が低いほど大きい値となる。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
一方、特徴情報として1以上の文章(以下、「特徴文章」という。)が登録されている場合、議題特徴抽出部13aは、以下の<文章の場合の例1>及び<文章の場合の例2>の2つの例のいずれかの手順によって、キーワード群W1の中からキーワード群W2を抽出する。
<文章の場合の例1>
議題特徴抽出部13aは、まず、特徴文章を形態素解析し、特徴文章を単語単位に分割する。議題特徴抽出部13aは、分割された単語の中から、例えば、名詞のみを特徴単語として抽出する。例えば、自己紹介などの対話でよく用いられる議題として「好きな食べ物を答えてください」、「よく出かけるお出かけ場所を答えてください」といった文章を例に考える。この場合は、「食べ物」、「場所」といった単語が特徴単語として抽出される。議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、各特徴単語とのシソーラス距離(概念距離)を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
<文章の場合の例2>
機械学習を用いて予め単語データのベクトル空間を構築しておく。議題特徴抽出部13aは、例えば、キーワード群W1に含まれる各キーワードと各特徴文章とのそれぞれについて、doc2vecといった機械学習のアルゴリズムを用いて、当該ベクトル空間における分散表現を取得する。なお、特徴文章の分散表現を取得する場合、当該特徴文章を形態素解析し、単語群に分割する。当該単語群をdoc2vecアルゴリズムに渡すことで当該特徴文章を分散表現に変換することができる。議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、当該キーワードの分散表現と、各特徴単語の分散表現とのユークリッド距離を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
議題特徴抽出部13aによれば、議題の特徴に対して関連性が相対的に高いキーワードがキーワード群W2として抽出される。なお、特徴単語及び特徴文章の双方が特徴情報として登録されてもよい。
[話者特徴抽出部13b]
話者特徴抽出部13bは、キーワード抽出部12からキーワード群W1及び参加者IDが出力されると、話者特徴抽出部13bに対する特徴情報として、例えば、事前に補助記憶装置102に参加者別に登録された特徴情報のうち、当該参加者IDに対応する特徴情報を補助記憶装置102から読み出す。話者特徴抽出部13bに対する特徴情報とは、例えば、話者の個人情報であり、例えば本人の居住地や家族構成などのプロフィールや趣味など個人を表す情報を含む単語(特徴単語)又は文章(特徴文章)である。
特徴情報として1以上の特徴単語が登録されている場合、話者特徴抽出部13bは、上記の<単語の場合の例1>及び<単語の場合の例2>の2つの例のいずれかの手順によって、キーワード群W1の中からキーワード群W2を抽出する。
一方、特徴情報として1以上の特徴文章が登録されている場合、話者特徴抽出部13bは、上記の<文章の場合の例1>及び<文章の場合の例2>の2つの例のいずれかの手順によって、キーワード群W1の中からキーワード群W2を抽出する。但し、話者特徴抽出部13bに対する特徴文章の一例としては、「湘南でサーフィンをすることが好き」、「ピアノを弾くこと」等が考えられる。この場合、これらの特徴文章からは、形態素解析によって、「湘南」、「サーフィン」、「ピアノ」等が特徴単語として取得される。
話者特徴抽出部13bによれば、話者の特徴に対して相対的に関連性が高いキーワードがキーワード群W2として抽出される。なお、特徴単語及び特徴文章の双方が特徴情報として登録されてもよい。
[複数話者特徴抽出部13c]
複数話者特徴抽出部13cは、キーワード抽出部12からキーワード群W1が出力されると、上述した話者特徴抽出部13bに対する特徴情報として、例えば、事前に補助記憶装置102に参加者別に登録された特徴情報のうち、全ての参加者に対する特徴情報を補助記憶装置102から読み出す。
特徴情報として1以上の特徴単語が登録されている場合、複数話者特徴抽出部13cは、以下の<共通処理>を実行した後に、以下の<単語の場合の例3>及び<単語の場合例4>の2つの例のいずれかの手順によって、参加者について共通の特徴情報(厳密に完全一致でなくてよい)に基づいて、キーワード群W1の中からキーワード群W2を抽出する。
<共通処理>
複数話者特徴抽出部13cは、まず、それぞれが各参加者の1つの特徴単語を含む全ての組み合わせを生成し、各組み合わせをグループとする。すなわち、各グループは、グループ間において少なくともいずれか1以上の特徴単語が相互に異なるように生成される。本実施の形態のように参加者が3人の場合、各グループは、参加者Xのいずれ1つのかの特徴単語、参加者Yのいずれか1つの特徴単語及び参加者Zのいずれか1つの特徴単語の3つの特徴単語を含む。
続いて、複数話者特徴抽出部13cは、グループごとに、当該グループに属する全ての特徴単語間のシソーラス距離の合計を求める。例えば、特徴単語a、特徴単語b、特徴単語cを含むグループの場合、aとb、bとc、cとaのそれぞれのシソーラス距離の合計値が計算される。
続いて、複数話者特徴抽出部13cは、シソーラス距離の合計値が閾値以下であるグループに属する特徴単語を、参加者について共通の特徴情報として抽出する。
<単語の場合の例3>
<共通処理>において「参加者について共通の特徴情報」として抽出された特徴単語を用いる点を除き、複数話者特徴抽出部13cは、上記の<単語の場合の例1>と同様の処理手順を行い、キーワード群W1の中からキーワード群W2を抽出する。
<単語の場合の例4>
<共通処理>において「参加者について共通の特徴情報」として抽出された特徴単語を用いる点を除き、複数話者特徴抽出部13cは、上記の<単語の場合の例2>と同様の処理手順を行い、キーワード群W1の中からキーワード群W2を抽出する。
一方、特徴情報として参加者ごとに特徴文章が登録されている場合、複数話者特徴抽出部13cは、各参加者の特徴文章を形態素解析して、各特徴文章から名詞を抽出する。続いて、複数話者特徴抽出部13cは、抽出された名詞を特徴単語として、上記の<共通処理>に続き<単語の場合の例3>又は<単語の場合の例4>を実行して、キーワード群W1の中からキーワード群W2を抽出する。そうすることで、例えば、参加者全員が『家族構成として子供がいる』などの共通する特徴を有すれば、当該特徴に対する関連性が相対的に高いキーワードがキーワード群W2に含まれる。
複数話者特徴抽出部13cの処理を行うと、参加者全てに共通する特徴に対して関連性が相対的に高いキーワードがキーワード群W2として抽出される。なお、特徴単語及び特徴文章の双方が特徴情報として登録されてもよい。
ところで、複数話者特徴抽出部13cによって抽出されるキーワード群は、話者特徴抽出部13bによって抽出されるキーワード群の部分集合となる。したがって、複数話者特徴抽出部13cと話者特徴抽出部13bとは選択的に利用可能とされてもよい。例えば、ユーザによって、複数話者特徴抽出部13cと話者特徴抽出部13bとのいずれを利用するのかが設定可能とされてもよい。この場合、利用対象とされた方が処理を実行すればよい。
[DB参照特徴抽出部13d]
DB参照特徴抽出部13dは、キーワード抽出部12からキーワード群W1が出力されると、DB参照特徴抽出部13dに対する特徴情報として、例えば、事前に所定のデータベースに登録された特徴情報を当該データベースから読み出す。DB参照特徴抽出部13dに対する特徴情報とは、以前において盛り上がった対話の議題に関する単語(特徴単語)又は文章(特徴文章)である。但し、DB参照特徴抽出部13dに対する特徴情報は、所定のものに限定されない。
特徴情報として1以上の特徴単語が登録されている場合、DB参照特徴抽出部13dは、上記の<単語の場合の例1>及び<単語の場合の例2>の2つの例のいずれかの手順によって、キーワード群W1の中からキーワード群W2を抽出する。
一方、特徴情報として1以上の特徴文章が登録されている場合、話者特徴抽出部13bは、上記の<文章の場合の例1>及び<文章の場合の例2>の2つの例のいずれかの手順によって、キーワード群W1の中からキーワード群W2を抽出する。
議題特徴抽出部13a、話者特徴抽出部13b又は複数話者特徴抽出部13c、及びDB参照特徴抽出部13dの処理は、直列的に行われてもよいし並列的に行われてもよい。
[画像化部14]
画像化部14は、議題特徴抽出部13aから出力されたキーワード群W2、話者特徴抽出部13b又は複数話者特徴抽出部13cから出力されたキーワード群W2、及びDB参照特徴抽出部13dから出力されたキーワード群W2を入力とし、以下の手法1~3のいずれかによって各キーワード群W2に基づく画像を取得して、当該画像を出力する。なお、ここで、各キーワード群W2の論理和から重複を排除した結果をキーワード群W3という。
<手法1>
キーワード群W3に含まれる各キーワードについて、任意のフォントのテキストデータを生成し、当該テキストデータを画像化する。
<手法2>
キーワード群W3に含まれる各キーワードによって、例えば、インターネットを介して画像検索を実行し、キーワードごとに、検索された画像群の中から1つの画像を選択(取得)する。したがって、キーワード群W3に複数のキーワードが含まれる場合、複数の画像が取得される。
<手法3>
手法2によって選択された各画像を加工し、加工結果を出力する。例えば、当該画像の一部分(部分領域)が切り出されたり、当該画像に含まれている物体の輪郭のみ抽出たりした画像が生成されてもよい。
なお、画像化部14は、キーワード群W3に多数(例えば、閾値以上の個数)のキーワードが含まれている場合、画像化するキーワードを絞り込むために、以下のような処理を実行してもよい。
画像化部14は、WordNetを用いてキーワード群W3に含まれる各キーワード間(2つのキーワードの全ての組み合わせ)についてシソーラス距離を計算し、シソーラス距離が閾値よりも小さいキーワード同士をグルーピングする。画像化部14は、グループ群のうち、属するキーワードの数が最も多いグループから順に2つのグループを選択し、選択した各グループの中から一つのキーワードをランダムに選択して画像化の対象とする。なお、グルーピングする際に、同じキーワードが複数のグループに属する可能性がある。それを回避するため、或るグループから選択されたキーワードは、別のグループでは選択されないようにすればよい。シソーラス距離の閾値や、選び出すグループの数は自由に設定可能とする。又は、ランダムに一つのキーワードが画像化の対象とされてもよい。
また、手法2又は手法3に関して、画像化部14は、各キーワード群W2の論理積をとる(すなわち、全てのキーワード群W2に共通に含まれているキーワードを抽出する)ことで得られるキーワードを画像化の対象としてもよい。又は、手法2又は手法3に関して、画像化部14は、上記と同様にキーワード群W3をグルーピングし、属するキーワードの数が最も多いグループから順に2つのグループを選択し、選択した各グループの中から一つのキーワードをランダムに選択し、当該各グループから選択したキーワードの論理積をとることによって得られるキーワードを画像化の対象としてもよい。
なお、手法1、2、3のいずれを実行するかや、画像化の対象とするキーワードの絞り込み方法等は、いずれの参加者が話者であるかに応じて変えてもよい。
[出力データ生成部15]
出力データ生成部15は、画像化部14から出力された画像データ(以下、「発話画像」という。)を入力とし、当該発話画像が、話者と他者(話者以外の参加者)との位置関係に基づく方向に回転された状態で、表示装置30によって出力(投影)されるようにするための画像データ(以下「出力データ」という。)を生成する。
出力データ生成部15は、まず、各参加者の位置を特定する。例えば、出力データ生成部15は、撮影装置40から得られる画像に公知の画像処理を適用することで、各参加者の位置を特定してもよい。
続いて、出力データ生成部15は、話者の位置を特定する。例えば、各集音装置20の位置は既知であるとする(例えば、各集音装置20の位置情報が補助記憶装置102に記憶されていてもよい。)。出力データ生成部15は、各参加者について特定された位置のうち、話者に係る集音装置20の位置に最も近い位置を話者の位置として特定する。
続いて、出力データ生成部15は、表示装置30の投影範囲内における最も大きい楕円の円周上で話者に最も近い地点を、発話画像の配置位置の基準点(以下、「配置基準点」という。)として特定する。又は、参加者が円座で存在することが想定されているため、参加者の並び順が予め設定されるようにし、表示装置30の投影範囲内における最も大きい楕円の円周上において、当該並び順で均等に各参加者に対応する位置が特定された上で、話者の位置に最も近い位置が配置基準点とされてもよい。
図4は、投影範囲内における最大の楕円を説明するための図である。図4には、投影範囲a1において最大の楕円e1が示されている。
続いて、出力データ生成部15は、話者以外の参加者(他者)の位置に合わせた方向に発話画像が回転された状態(すなわち、他者から発話画像が視認しやすい状態)で投影されるように出力データを生成する。出力データの生成に際し、出力データ生成部15は、発話画像の全部が表示装置30の投影範囲に含まれる状態が確保される範囲で、配置基準点と発話画像の中心ができるだけ近くなるように投影範囲内(出力データ)における発話画像の位置を決定する。発話画像を話者の近くに配置するのは、話者と発話画像とを関連付けて、話者による発話内容を他者が思い出しやすくするためである。
また、発話画像は他者に向けて(発話画像の内容の下側が他者に向くように)表示することを想定しているため、出力データ生成部15は、例えば、表示装置30の投影範囲内において最大の楕円の中心との位置関係に基づいて対象画像を回転させて配置する。例えば、対象画像の底辺(下側の辺)が当該中心を向くように対象画像が回転されて配置される。
なお、発話画像が複数枚存在する場合は、全ての発話画像が同時に表示されるようにしてもよいし、時間差で1枚以上の発話画像が順番に表示されるようにしてもよい。
出力データ生成部15は、上記のように生成した出力データを表示装置30に出力させる。その結果、表示装置30によって出力データが出力(投影)される。
図5は、発話画像の第1の出力例を示す図である。図5中、図1又は図4と同一部分には同一符号を付している。図5では、参加者ごとに、最大で1つの話者画像が出力される例が示されている。すなわち、上記した処理手順によれば、或る参加者が発話(発言)すると、その内容に基づく発話画像が随時出力されるといった状態が再現される。図4の例では、新たな発話画像が出力される際に、当該発話画像に係る参加者(すなわち、話者)の過去の発話画像は削除される。但し、他者の発話画像は残されたままとされる。なお、図5には、参加者Xが話者である際に特定された配置基準点Px、参加者Yが話者である際に特定された配置基準点Py、参加者Zが話者である際に特定された配置基準点Pzが示されている。
図6は、発話画像の第1の出力例を示す図である。図6中、図5と同一部分には同一符号を付している。図6の例では、新たな発話画像が出力される際に、過去の発話画像の位置がずらされる。その結果、参加者ごとに、複数の発話画像が出力されうる。但し、出力対象として残される発話画像の数について上限が設定され、当該上限を超えた場合、最も古い発話画像が出力対象から除去されるようにしてもよい。
図5及び図6のいずれの例においても、各参加者の話者画像の底辺は、楕円a1の中心を向くように投影されている。その結果、各話者画像は他者から見易い状態で表示される。
なお、上記では、発話内容に基づく発話画像がリアルタイムで出力される例を示したが、発話内容が録音された録音データや、対話の様子が録画された録画データが用いられて本実施の形態が実施されてもよい。この場合、発話画像の出力位置は、適宜定められればよい。
また、上記では、自己紹介の例を示したが、複数人が順番で発話を行う形式ではなく、議論ように、複数人がほぼ同時に発話が行われる場面において本実施の形態が適用されてもよい。この場合、集音装置20ごとに上記した処理手順が行われればよい。そうすることで、各参加者の発話画像をほぼ同時に出力することができる。
また、プレゼンテーションのように、一人が話者となる状況において本実施の形態が適用されてもよい。この場合、他者は円座しているとは限らない。したがって、発話画像は、他者の座席の方向から見易いように回転された状態で出力されればよい。
また、本実施の形態では、表示装置30が投影装置(プロジェクタ)である例を示したが、例えば、参加者ごとに、当該参加者の近辺(参加者の前等)に、表示装置30としてのタブレット端末が上向きで配置されてもよいし、表示装置30としての液晶ディスプレイが他者に向けて配置されてもよい。この場合、出力データ生成部15は、話者に対応する表示装置30に対して出力データを出力すればよい。
上述したように、本実施の形態によれば、話者による発話内容の一部が画像として出力される。画像は視覚的に発話内容の理解を促進することができるため、発話内容の認知的負荷を低下させることができる。
また、発話内容のうち画像化される一部分(キーワード)は、対話の議題から得られる特徴、話者個人の特徴から得られる情報、複数話者の特徴から得られる情報、データベースに予め保存されている特徴から得られる情報等に基づいて抽出される。したがって、重要なキーワード(他者に対して発話内容の印象を与えやすいキーワード)を画像化することができる。
なお、本実施の形態において、設定情報、特徴情報は、所定の条件の一例である。キーワード抽出部12、議題特徴抽出部13a、話者特徴抽出部13b、複数話者特徴抽出部13c、DB参照特徴抽出部13dは、抽出部の一例である。画像化部14は、取得部の一例である。出力データ生成部15は、出力部の一例である。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 発話画像化装置
11 特徴設定部
12 キーワード抽出部
13a 議題特徴抽出部
13b 話者特徴抽出部
13c 複数話者特徴抽出部
13d DB参照特徴抽出部
14 画像化部
15 出力データ生成部
20 集音装置
30 表示装置
40 撮影装置
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス

Claims (6)

  1. 複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出部と、
    前記一部の文字列に基づく画像を取得する取得部と、
    前記画像を前記発話に係る話者に対応する位置に出力させる出力部と、
    を有することを特徴とする発話画像化装置。
  2. 前記画像は、前記一部の文字列が画像化された画像、又は前記一部の文字列に基づいて検索された画像である、
    ことを特徴とする請求項1記載の発話画像化装置。
  3. 前記出力部は、前記話者と他者との位置関係に基づく方向に回転された状態で前記画像を出力する、
    ことを特徴とする請求項1又は2記載の発話画像化装置。
  4. 前記抽出部は、前記複数の文字列のそれぞれについて、前記発話に係る前記参加者に対して設定されている単語又は文章と所定の指標に基づく関連度を算出し、前記関連度に基づいて前記複数の文字列から一部の文字列を抽出する、
    ことを特徴とする請求項1乃至3いずれか一項記載の発話画像化装置。
  5. 複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出手順と、
    前記一部の文字列に基づく画像を取得する取得手順と、
    前記画像を前記発話に係る話者に対応する位置に出力させる出力手順と、
    をコンピュータが実行することを特徴とする発話画像化方法。
  6. 請求項1乃至いずれか一項記載の発話画像化装置としてコンピュータを機能させることを特徴とするプログラム。
JP2021514735A 2019-04-18 2019-04-18 発話画像化装置、発話画像化方法及びプログラム Active JP7287459B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/016596 WO2020213115A1 (ja) 2019-04-18 2019-04-18 発話画像化装置、発話画像化方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020213115A1 JPWO2020213115A1 (ja) 2020-10-22
JP7287459B2 true JP7287459B2 (ja) 2023-06-06

Family

ID=72837215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021514735A Active JP7287459B2 (ja) 2019-04-18 2019-04-18 発話画像化装置、発話画像化方法及びプログラム

Country Status (3)

Country Link
US (1) US20220199104A1 (ja)
JP (1) JP7287459B2 (ja)
WO (1) WO2020213115A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014013494A (ja) 2012-07-04 2014-01-23 Nikon Corp 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム
JP2015100054A (ja) 2013-11-20 2015-05-28 日本電信電話株式会社 音声通信システム、音声通信方法及びプログラム
JP2017016296A (ja) 2015-06-30 2017-01-19 シャープ株式会社 画像表示装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
JP2018010510A (ja) * 2016-07-14 2018-01-18 株式会社リコー 画像処理装置、画像処理方法、及びプログラム
JP6800809B2 (ja) * 2017-06-01 2020-12-16 株式会社東芝 音声処理装置、音声処理方法およびプログラム
WO2019079826A1 (en) * 2017-10-22 2019-04-25 Magical Technologies, Llc DIGITAL ASSISTANT SYSTEMS, METHODS AND APPARATUSES IN AN INCREASED REALITY ENVIRONMENT AND LOCAL DETERMINATION OF VIRTUAL OBJECT PLACEMENT AND SINGLE OR MULTIDIRECTIONAL OBJECTIVES AS GATEWAYS BETWEEN A PHYSICAL WORLD AND A DIGITAL WORLD COMPONENT OF THE SAME ENVIRONMENT OF INCREASED REALITY
KR102480570B1 (ko) * 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
CN109460074B (zh) * 2018-10-29 2021-02-23 歌尔科技有限公司 一种音频设备定向显示方法、装置和音频设备
KR20210062428A (ko) * 2019-11-21 2021-05-31 엘지전자 주식회사 영상 촬영 장치의 원격 제어 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014013494A (ja) 2012-07-04 2014-01-23 Nikon Corp 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム
JP2015100054A (ja) 2013-11-20 2015-05-28 日本電信電話株式会社 音声通信システム、音声通信方法及びプログラム
JP2017016296A (ja) 2015-06-30 2017-01-19 シャープ株式会社 画像表示装置

Also Published As

Publication number Publication date
JPWO2020213115A1 (ja) 2020-10-22
WO2020213115A1 (ja) 2020-10-22
US20220199104A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
US11836183B2 (en) Digital image classification and annotation
CN109493850B (zh) 成长型对话装置
JP5671557B2 (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN104598644B (zh) 喜好标签挖掘方法和装置
CN107430851B (zh) 发言提示装置及发言提示方法
WO2016184051A1 (zh) 图片搜索方法、装置、设备及非易失性计算机存储介质
KR102029276B1 (ko) 환경 콘텍스트를 이용한 질문 답변
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
CN110634472A (zh) 一种语音识别方法、服务器及计算机可读存储介质
TWI270052B (en) System for selecting audio content by using speech recognition and method therefor
JP2017016296A (ja) 画像表示装置
JP7287459B2 (ja) 発話画像化装置、発話画像化方法及びプログラム
KR20200066134A (ko) 멀티모달 다중 화자 대화 속 인물 식별 방법 및 장치
TWI782436B (zh) 顯示系統以及與顯示系統互動之方法
JP2020077272A (ja) 会話システムおよび会話プログラム
US11023520B1 (en) Background audio identification for query disambiguation
WO2020004401A1 (ja) 回答文選択装置、方法、およびプログラム
JP6107003B2 (ja) 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム
JP2020201748A (ja) 発話生成装置、発話生成方法及び発話生成プログラム
TWI823815B (zh) 摘要產生方法及系統與電腦程式產品
US20180108356A1 (en) Voice processing apparatus, wearable apparatus, mobile terminal, and voice processing method
JP6830148B1 (ja) 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム
JP2014178621A (ja) 情報提供装置およびプログラム
JP7211384B2 (ja) 音声認識装置、個人識別方法および個人識別プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7287459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150