JP2002244842A - 音声通訳システム及び音声通訳プログラム - Google Patents

音声通訳システム及び音声通訳プログラム

Info

Publication number
JP2002244842A
JP2002244842A JP2001044794A JP2001044794A JP2002244842A JP 2002244842 A JP2002244842 A JP 2002244842A JP 2001044794 A JP2001044794 A JP 2001044794A JP 2001044794 A JP2001044794 A JP 2001044794A JP 2002244842 A JP2002244842 A JP 2002244842A
Authority
JP
Japan
Prior art keywords
voice
unit
language
speech
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001044794A
Other languages
English (en)
Inventor
Tatsu Ifukube
達 伊福部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BUG Inc
Japan Science and Technology Agency
Original Assignee
BUG Inc
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BUG Inc, Japan Science and Technology Corp filed Critical BUG Inc
Priority to JP2001044794A priority Critical patent/JP2002244842A/ja
Publication of JP2002244842A publication Critical patent/JP2002244842A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 話者による言語情報と非言語情報とを、同時
にユーザに呈示することで、話者とユーザとの異なる言
語体系間におけるコミュニケーションの補助を行う。 【解決手段】 演算装置1は、音声認識部60で話者1
0によりマイクロホン等を介して入力された音声を認識
し、さらに、通訳部85でユーザ40の獲得している言
語体系に変換(通訳)することにより、言語情報(バー
バル情報であって、ここでは、文字列)を得る。この音
声認識及び通訳の結果である文字列を透過型表示装置2
に出力する。透過型表示装置2は、演算装置1により入
力された言語情報である文字列を表示すると共に、話者
10からの非言語情報(ノンバーバル情報であって、例
えば、話者10の唇、目等の顔の部分の動き、読話、ジ
ェスチャー、手話、表情のいずれか又は複数を含む)を
得るための透過部(透過性ディスプレイ)を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声通訳システム
及び音声通訳プログラムに係り、特に、音声認識結果デ
ータである文字列の情報(言語情報:バーバル情報)だ
けでなく、話し手(話者)の表情、唇、ジェスチャー等
の言語情報以外の情報(非言語情報:ノンバーバル情
報)を用いて、話者とユーザとの異なる言語体系間にお
けるコミュニケーションの補助を行うことができる音声
通訳システム及び音声通訳プログラムに関する。
【0002】
【従来の技術】近年、高度情報化および超高齢化の社会
においては、各種情報を受け取る感覚器官(例えば、視
覚、聴覚等)の能力が低い人達(例えば、高齢者、聴覚
障害者等)のために、これらの感覚器官の能力を補うた
めの各種補助装置(例えば、補聴器等)の開発が切望さ
れている。特に、人間同士のコミュニケーションでは、
音声が非常に重要な役割を果たしており、聴覚障害者の
ための様々な補助方式が研究されている。例えば、大学
の講義において、講義内容を素早く書き取り、話者又は
講義用黒板の周辺に字幕を表示する手法がある(参考:
小林正幸・石原保志・西川俊・高橋秀知、ルビ付きリア
ルタイム字幕提示システムの試作;筑波技術短期大学テ
クノレポート、1996)。
【0003】
【発明が解決しようとする課題】しかしながら、上述の
手法では、第三者の助けが必要であり、例えば、聴覚障
害者が単独で外出する場合での利用は困難であることが
想定される。このように、未だに聴覚障害者が日常的に
利用することができる補助装置は存在していない。した
がって、聴覚障害者のための補助装置は、今後ますます
増え続けるであろう高齢難聴者、又は完全聴覚障害者に
とっても有用であり、その必要性は今後とも高まると考
えられる。
【0004】一方、近年、入力された音声を認識して文
字列に変換し、この文字列を、例えば、コンピュータの
モニタディスプレイやテレビの字幕として表示する、い
わゆる音声認識方法が普及している。この音声認識方法
は、雑音の多い環境(すなわち日常の生活空間)で不特
定話者を対象に認識を行った場合、一般には、50〜6
0%程度の認識率しか確保できないため、特定の用途で
の利用に限られているのが現状である。
【0005】しかし、この現状は、音声認識システム
を、従来のようにマン・マシン・インターフェースとし
て捉えた結果であり、この音声認識システムを、人間を
対象としたマン・マン・インターフェースとして捉えた
場合、人間は、入力音声の完全な音声認識が行われなく
てもコミュニケーションにおける前後の文脈などから欠
落した情報を類推することができる(参照:齊藤幹、失
聴者のための音声認識技術を利用したマン・マン・イン
ターフェースに関する研究;北海道大学大学院工学研究
科修士論文、19992)。
【0006】ここで、本発明に関連する技術について説
明する。本発明者らは、コミュニケーションでは、話者
の音声以外にも唇、目等の顔の部分の動き、読話(唇の
動きを読むこと)、ジェスチャー、手話、表情といった
非言語情報(ノンバーバル情報)も重要であり、さら
に、このノンバーバル情報は、マン・マシン・インター
フェースで利用するには非常に高度な技術を必要とする
が、マン・マン・インターフェースであれば、人間の視
覚を用いることで、容易に取得できる点に着目した。
【0007】また、聴覚障害者(ユーザ)は、上述の
「読話」やジェスチャーで伝える「手話」を習得してい
る場合が多く、この読話、手話等によって、話者の言葉
をある程度理解できることが想定される。このため、音
声認識結果の文字列(バーバル情報)と、読話や手話か
ら得られるノンバーバル情報とを、聴覚障害者が同時に
受け取れるようにして、音声認識結果の文字列を聴覚障
害者に呈示することが必要となる。
【0008】この際、考慮すべき点は、読話や手話で文
意を理解する能力は、聴覚障害者の失聴時期、残存聴力
などに大きく依存している点と、たとえ高性能の音声認
識装置による音声認識結果であっても認識率が必ず10
0%であることはなく、大抵の場合、文字列には誤りが
含まれているため、音声認識結果である文字を全て呈示
してしまうと、文意を誤って理解する場合が想定される
点である。このため、例えば、聴覚障害者の読話や手話
による文理解能力(すなわち、読話や手話の習熟度)に
応じて、呈示する文字列を表示する割合を、聴覚障害者
自身で設定可能とすることが必要である。
【0009】さらに、話者が、ユーザとのコミュニケー
ションにおいて、ユーザの獲得している言語体系(例え
ば、母国語)とは異なる言語体系(例えば、外国語)を
用いた場合、話者とユーザ間のコミュニケーションを円
滑に行うには、話者による言語情報を、ユーザ(受け
手)の獲得している言語体系やこの言語体系に基づいた
読話や手話などの文理解能力で理解できる言語情報に変
換(通訳)することが必要となる。
【0010】本発明は、以上の点に鑑み、話者による言
語情報と非言語情報とを、同時にユーザに呈示すること
で、異なる言語体系間の話者とユーザとのコミュニケー
ションの補助を行うことを目的とする。また、本発明
は、ユーザの特性と音声認識装置の性能に応じて、読
話、手話による非言語情報と、音声認識及び通訳結果で
ある言語情報とを、同時にユーザに呈示することを目的
としている。また、本発明は、特に、読話や手話による
文理解能力が低い中途失聴者であっても、円滑なコミュ
ニケーションを図ることができることを目的とする。
【0011】
【課題を解決するための手段】本発明の第1の解決手段
によると、異なる言語体系間のコミュニケーションを補
助するための音声表示システムであって、入力された音
声を認識して言語情報に変換して出力する演算装置と、
前記言語情報を表示すると共に、話者からの非言語情報
を得るための透過部を含む透過型表示装置とを備え、前
記演算装置は、該音声を入力する音声入力部と、該音声
入力部から入力された音声を認識するための音声認識部
と、前記音声認識部で音声認識された言語情報を、異な
る言語体系に通訳する通訳部と、前記透過型表示装置へ
の表示状態を設定するためのレイアウト設定部と、前記
レイアウト設定部の設定に従って、前記音声認識部によ
り音声認識され、且つ、前記通訳部で通訳された結果
を、前記透過表示装置に出力する出力部とを有する音声
通訳システムを提供する。
【0012】本発明の第2の解決手段によると、入力さ
れた音声を認識して言語情報に変換して出力する演算装
置と、前記言語情報を表示すると共に話者からの非言語
情報を得るための透過部を含む透過型表示装置とを備え
た異なる言語体系間のコミュニケーションを補助するた
めの音声表示システムに用いられる音声表示プログラム
であって、該音声を入力する音声入力手順と、音声認識
された文字列の尤度についての予め設定された閾値に応
じて、該尤度が該閾値より低いときは、表示される文字
列を非文字で表示するように認識するようにした、該音
声入力手順から入力された音声を認識するための音声認
識手順と、前記音声認識手順により音声認識された言語
情報を、異なる言語体系に通訳する通訳手順と、前記音
声認識手順により音声認識され、且つ、前記通訳手順に
より通訳された結果を、前記透過表示装置に出力する出
力手順とをコンピュータに実行させるための音声通訳プ
ログラムを提供する。
【0013】また、本発明は、誤りを含む音声認識及び
通訳結果データである言語情報(文字列)を、透過型表
示装置(メガネディスプレイ)上に表示することによ
り、この透過型メガネディスプレイを用いるユーザは、
話者の前に表示された文字列だけでなく、話者の唇、目
等の顔の部分の動き、読話、ジェスチャー、手話、表情
などを含む非言語情報を、同時に見ることができる。こ
れにより、ユーザが聴覚障害者であっても、話者の文意
を理解しやすくなり、異なる言語体系間におけるユーザ
と話者間の円滑なコミュニケーションを図ることができ
る。
【0014】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を詳細に説明する。図1は、本発明に関する音声
通訳システム100の概略構成図である。音声通訳シス
テム100は、例えば、携帯型のコンピュータである演
算装置1、透過型メガネディスプレイである透過型表示
装置2を含む。この音声通訳システム100は、話者1
0とユーザ(例えば、聴覚障害者など)40間の異なる
言語体系間におけるコミュニケーションを補助するため
のシステムである。なお、異なる言語体系間におけるコ
ミュニケーションとは、例えば、話者10がユーザ40
の獲得している言語体系(例えば、母国語)とは異なる
言語体系(例えば、外国語)を用いて、ユーザ40との
コミュニケーションを行う場合を想定している。
【0015】演算装置1は、話者10により図示しない
マイクロホン等を介して入力された音声を認識し、さら
にユーザ40の獲得している言語体系に変換(通訳)す
ることにより、言語情報(バーバル情報であって、ここ
では、文字列)を得る。この音声認識及び通訳の結果で
ある文字列を透過型表示装置2に出力する。透過型表示
装置2は、演算装置1により入力された言語情報である
文字列を表示すると共に、話者10からの非言語情報
(ノンバーバル情報であって、例えば、話者10の唇、
目等の顔の部分の動き、読話、ジェスチャー、手話、表
情のいずれか又は複数を含む:図中、点線の矢印)を得
るための透過部(透過性ディスプレイ)を備える。
【0016】演算装置1は、例えば、音声入力部50、
処理部(CPU)55、音声認識部60、通訳部85、
レイアウト設定部90及び出力部95を備える。音声入
力部50は、話者10の音声を入力する。音声認識部6
0は、例えば、音声入力部50から入力された音声の音
声認識を行うものである。通訳部85は、例えば、音声
認識部60で音声認識された言語情報を、ユーザ40の
獲得している言語体系に通訳するものであって、データ
ベース選択部70と、尤度閾値設定部80を備える。具
体的には、通訳部85は、例えば、話者10がユーザ4
0の獲得している言語体系(例えば、母国語)とは異な
る言語体系(例えば、外国語)を用いて、ユーザ40と
のコミュニケーションを行う場合、音声認識部60より
音声認識された話者10の言語体系による言語情報を、
ユーザ40の獲得している言語体系に変換(通訳)を行
うものである。
【0017】データベース選択部70は、例えば、通訳
部85内又は音声通訳システム100内に適宜設けられ
たひとつ又は複数種類の言語データベース(漢字DB)
に予め記憶された漢字の難易度(例えば、JIS水準レ
ベルに従って、小学2年生レベル、中学生レベルなど)
を、ユーザ40の語彙力(どの程度の漢字を含む文字列
を作成するべきかを判断することになる)に応じて選択
する。これにより、話者10の音声を音声認識する際、
ユーザ40の語彙力に応じた漢字を含む文字列を作成す
ることができる。なお、言語データベースにひらがなに
該当する漢字を認識しない場合、文字列は、全てひらが
な及び/又は非文字(例えば、記号など)として透過型
表示装置2の透過性ディスプレイ上に表示される。
【0018】また、通訳部85は、図示しない音声デー
タベースに記憶された話者10からの連続音声に対し
て、言語データベースを用いて音声認識が行われた場
合、単語系列と各単語の尤度(例えば、単語間のつなが
りの確からしさであって、単語間の距離と捉えても良
い。したがって、尤度が高いことと、単語間の距離が小
さくこととは、概ね同義である)を認識結果として得
る。
【0019】尤度閾値設定部80は、例えば、通訳部8
5での認識結果のうち正しく認識できた文字列のみを呈
示するために尤度に対応した閾値を設定する。具体的に
は、各単語の尤度が高い場合、その単語が正しく認識で
きている可能性が高く、尤度が低い場合、その単語が正
しく認識できている可能性が低いと想定される。このた
め、尤度閾値設定部80で閾値を設定することにより、
認識結果の単語系列に対して、各単語の対数尤度がある
閾値より大きければ、この単語を呈示し、対数尤度が閾
値より小さいならば、この単語を呈示しないようにする
こともできる(閾値の具体的な数値については、後
述)。なお、通訳部85では、この対数尤度が閾値より
小さい単語(単語間のつながりの確からしさが小さく、
単語間の距離が大きい)を呈示しないだけでなく、記号
等の非文字として透過型表示装置2の透過性ディスプレ
イ上に表示するように適宜設定することができる。
【0020】レイアウト設定部90は、透過型表示装置
2への表示状態を設定するものであって、例えば、呈示
文字数設定部91、色調整用設定部92、大きさ調整用
設定部93及び表示位置調整用設定部94を備える。呈
示文字数設定部91は、例えば、演算装置3より出力さ
れ、透過型表示装置2に表示される文字列の呈示文字数
を適宜調整することができる。また、呈示文字数設定部
91は、例えば、ユーザ40の読話及び/又は手話の習
熟度と呈示文字数との対応を示す習熟度フォルダを含む
(図2参照)。
【0021】色調整用設定部92は、同じく、文字列の
色を適宜調整することができる。大きさ調整用設定部9
3は、同じく、文字列の大きさを適宜調整することがで
きる。表示位置調整用設定部94は、同じく、文字列の
表示位置、表示の焦点距離(例えば、話者10の距離に
応じて、文字列の表示される焦点距離を調整可能)を適
宜調整することができる。なお、レイアウト設定部90
に含まれる各種設定部の設定は、ユーザ40自身により
適宜設定される(図中、実線の矢印)。これにより、透
過型表示装置2に表示される文字列のレイアウトは、ユ
ーザ40の所望する状態に変更することができる。出力
部95は、ユーザ40によるレイアウト設定部91の設
定に従って、音声認識部60により音声認識された結果
である文字列(バーバル情報)を、透過表示装置2に出
力する。
【0022】図2は、習熟度フォルダ20の説明図であ
る。習熟度フォルダ20は、上述のように、レイアウト
設定部90内の呈示文字数設定部91に含まれており、
例えば、ユーザ40の読話及び/又は手話の習熟度21
と呈示文字数(の割合)22との対応を示している。こ
こでは、習熟度21と呈示文字数(の割合)22との対
応としては、「低い、80%」「普通、60%」「高
い、40%」を予め記憶している。なお、この習熟度フ
ォルダ20による習熟度21と呈示文字数(の割合)2
2との対応は、適宜設定することができる。
【0023】ユーザ40(例えば、聴覚障害者)は、透
過型表示装置2の透過性ディスプレイにより、話者10
の音声を音声認識した結果である文字列(バーバル情
報)だけでなく、透過性ディスプレイを介して話者10
のノンバーバル情報をも取得することができる。ユーザ
40は、例えば、図示しない習熟度設定ボタンなどを用
いて、ユーザ40自身の習熟度21を演算装置1に入力
する。なお、ユーザ40自身の習熟度21を演算装置1
に入力する場合、ユーザ40だけでなく保守者、家族、
医者など適宜の人間によって設定するようにしてもよ
い。
【0024】ユーザ40は、読話、手話についての習熟
度21が高い場合(この習熟度は、個人差が大きい)、
ノンバーバル情報を汲み取ることで、話者10とのコミ
ュケーションを円滑に行うことが想定される。この場
合、ユーザ40にとって文字列は、補助(又は確認)と
して機能することになる(ここでは、「高い、40
%」)。
【0025】一方、ユーザ40は、例えば、読話、手話
についての習熟度21が低い場合、ノンバーバル情報だ
けでは、話者10とのコミュケーションを行うことが困
難であることが想定される。この場合、ユーザ40は、
話者10とのコミュケーションを行うためにバーバル情
報に依存する(ここでは、「低い、80%」)。なお、
本発明に関する音声通訳システム100は、聴覚障害者
の読話、手話についての習熟度12を向上させるため
の、一種の訓練システムにも適用できる。具体的には、
聴覚障害者の読話、手話についての習熟度21が向上す
るにつれて、呈示文字数(の割合)22を小さくした
り、又は、習熟度21を確認するために呈示文字数(の
割合)22を大きくしたりしてもよい。
【0026】図3は、本発明に関する音声通訳システム
100の使用状態を示す概略説明図である。音声通訳シ
ステム100においてユーザ40は、透過型メガネディ
スプレイ2を装着する。ユーザ40は、透過型メガネデ
ィスプレイ2上に表示されるバーバル情報(ここでは、
音声認識部60により音声認識され、且つ、通訳部85
により通訳された結果データである言語情報「文字列も
くしは、・・・・など」)だけでなく、透過型メガネデ
ィスプレイ2を介して取得される話者10のノンバーバ
ル情報(ここでは、表情、口の動き、ジェスチャー)を
用いて話者10とのコミュニケーションを行う。なお、
図中、バーバル情報が話者10上に重なるように描かれ
ているが、これは、ユーザ40を主体とすれば、透過型
メガネディスプレイ2上に表示される「文字列もくし
は、・・・・など」は、話者10の手前に表示されてい
るように見えるからである。
【0027】図4は、本発明に関する音声通訳システム
100のフローチャートである。まず、呈示文字数設定
部91は、例えば、図示しない習熟度設定ボタンを介し
て入力されたユーザ40の習熟度21に関する情報に基
づいて、呈示文字数(の割合)22を設定する(S20
1)。なお、ここで、上述の尤度閾値の設定及び/又は
漢字DBの選択を、必要に応じて行うことができる。つ
ぎに、レイアウト設定部90に含まれる色調整用設定部
92、大きさ調整用設定部93及び表示位置調整用設定
部94の各種設定を行う(S203)。話者10からの
音声が図示しないマイクロホンを介して音声入力部50
に入力される(S205)。
【0028】ステップS205による入力音声が、音声
認識部60によって、音声認識される(S207)。さ
らに、ステップS207の音声認識結果データは、通訳
部85によってユーザ10の獲得している適宜の言語体
系に変換(通訳)される(S213)。ここで、ステッ
プS207及びS213により音声認識され、通訳され
た言語情報であるバーバル情報は、出力部95を介し
て、透過型表示装置2に出力される(S209)。透過
型表示装置2に出力されるバーバル情報についての変更
(ここでは、呈示文字数(の割合)22の設定、必要に
応じて尤度閾値の設定及び/又は漢字DBの選択、さら
に、ステップS203による各種設定)が入力されたか
を判定する(S211)。ステップS211よりバーバ
ル情報についての変更が入力された場合、再びステップ
S201及び/又はステップS203に戻り、呈示文字
数(の割合)22の設定、さらに、必要に応じて尤度閾
値の設定及び/又は漢字DBの選択、さらに、ステップ
S203による各種設定を行う。また、ステップS21
1よりバーバル情報についての変更が入力されていない
場合、一連の処理を終了する。
【0029】図5は、被験者による文意の理解を客観的
に示す実験結果を示す図である。但し、ここでは、従来
技術(参照:齊藤幹、失聴者のための音声認識技術を利
用したマン・マン・インターフェースに関する研究;北
海道大学大学院工学研究科修士論文、19992)で示され
た実験を行ったものであるため、本発明の前提条件「人
間は、例えば、音声認識結果の文字列の認識率が60%
程度確保されれば(不完全なバーバル情報)、前後の文
脈及び/又は認識結果から文字列を類推し、結果的にコ
ミュニケーションを図ることができる」を示し、さら
に、「この前提条件に加えて、本発明者らによるノンバ
ーバル情報の同時呈示という着想によれば、コミュニケ
ーションがさらに円滑に行われる」という根拠を導く程
度に簡潔に説明する。
【0030】図5(a)は、対数尤度閾値と呈示文の変
化を示す図である。この対数尤度閾値と呈示文の変化3
0は、例えば、尤度30、呈示文32を含む。音声認識
部60により、認識単語及びその尤度が算出される。つ
ぎに、予め設定された閾値より大きい尤度に対応する認
識単語のみを呈示する。なお、閾値より小さい尤度に対
応する単語については、非文字(ここでは、「?」)と
して表示した。これにより、尤度30と呈示文32との
対応としては、図示のように、対数尤度閾値を小さくす
ることで、呈示する単語数が増加している。
【0031】図5(b)は、対数尤度閾値による文意理
解精度の変化を示す図である。ここでの実験結果として
は、図示のように、すべての被験者(A〜F)に共通し
て、対数尤度閾値が「−2500」、すなわち、単語認
識精度が約40%を越えると文理解精度は急激に上昇し
ている。なお、失聴者においては個人差が大きく、これ
は獲得語彙数の差が要因のひとつだと考えられる。
【0032】以上により、本発明の前提条件「人間は、
例えば、音声認識結果の文字列の認識率が60%程度確
保されれば(不完全なバーバル情報)、前後の文脈及び
/又は認識結果から文字列を類推し、結果的にコミュニ
ケーションを図ることができる」を客観的に示唆した。
【0033】図6は、本発明に関する音声通訳システム
100に関連する実験結果を示す図である。本実験は、
演算装置1から得られる不完全なバーバル情報と、話者
10から得られるノンバーバル情報とを、透過型表示装
置2を着用するユーザ40に対して同時呈示することに
よる文章理解変化について実施されたものである。
【0034】本実験では、聴覚障害者に協力してもらう
前に、聴覚に障害を持たない23歳〜30歳の日本人男
性、3名を被験者とした。なお、3人の被験者は、これ
まで特に読話の訓練を受けたことはない。さらに、呈示
する文章は、図5(a)に示した呈示文32と同様とし
た。
【0035】呈示文32と共に呈示するノンバーバル情
報としては、デジタルビデオ(Victor:GR−D
V1、57万画素)で撮影した顔の映像を用いた。この
映像は、23歳の日本人男性に音声処理を施す前の正解
の文章を読み上げてもらい、その時の顔を中心に撮影し
た。この映像にPCによるディジタル処理を施し、呈示
文章字幕を重ね合わせた。文章字幕は、話者が文章をし
ゃべり終わり口の動きが止まった後に、話者の口元に重
ね合わせて呈示した。なお、元の文章が同じであれば、
4段階の尤度の違い(図6に示すプロット位置に対応)
によらず、同じ顔の映像を利用した。
【0036】実験としては、バーバル情報だけの意味理
解の変化を調べる第1実験(バーバル情報)と、バーバ
ル情報だけでなく映像試料、すなわちノンバーバル情報
を付加した状態での意味理解の変化を調べる第2実験と
を行う。第1実験の内容は、図5と同様であり、説明を
省略する。また、ここでは、元の文章に応じて無作為に
被験者をA、Bの2つのグループに分けた。グループ
A、Bの被験者には、それぞれ25文に対し、4段階の
尤度に分けた100の文章を呈示した。各グループの被
験者は、例えば、紙に印刷された呈示文章を順番に読ん
でいき、その意味が理解できれば自分の理解した内容を
答えるようにした。その際、普段被験者が使い慣れてい
るパソコンを用いて、テキストエディタにキーボードで
打ち込ませた。なお、被験者に対しては、指示された順
番通りに進み、呈示文章を飛ばしたり、前の呈示文章に
戻ることはしないように予め教示している。
【0037】第2実験(バーバル情報+ノンバーバル情
報)では、映像を被験者に呈示するために透過型HMD
(OLYMPUS:Mediamask)を用いた。被
験者はデジタルビデオを再生し、顔の映像から読話を試
み、続いて字幕が現れたところでビデオを一旦停止さ
せ、その文章の内容が理解できれば先ほどと同じように
パソコン上のテキストエディタにキーボードで打ち込ま
せた。
【0038】また、実験手順としては、第1実験のAグ
ループを試行し、つぎに、第2実験を行い、最後に、第
1実験のBグループを試行した。なお、それぞれの実験
の間には被験者の判断により休憩を挟んだ。この実験手
順を採用したのは、元の文章が同じであり実験を繰り返
すことによって生じる文章に対する慣れを少しでも減ら
すためであり、また、被験者の集中力やモチベーション
に結果が影響されやすく、その影響をいくらかは少なく
するためである。
【0039】また、図示のグラフは、被験者Aの実験結
果を示しており、グラフの横軸は対数尤度閾値(単語認
識精度)であり、縦軸は文意理解精度(%)である。な
お、四角のマーカーが施された実線は、第2実験による
文理解精度である。また、三角のマーカーが施された実
線は、第1実験でのA、Bグループの結果を平均したも
のである。
【0040】被験者Aでは、対数尤度閾値が−2000
から−3000(認識率で約40%)になると急激に文
理解精度が向上している。また、被験者Aで対数尤度閾
値が下がれば文理解精度は概ね上昇している。すなわ
ち、被験者Aでは、ノンバーバル情報を付加することに
よる、文理解精度の向上が明らかに示されている。
【0041】このように本実施の形態の音声通訳システ
ム100によれば、話者による言語情報と非言語情報と
を、同時にユーザに呈示することで、話者とユーザとの
異なる言語体系におけるコミュニケーションの補助を行
うことができる。また、ユーザの特性と音声認識装置の
性能に応じて、読話、手話による非言語情報と、音声認
識及び通訳結果である言語情報とを、同時にユーザに呈
示することができる。また、音声通訳システム100に
よれば、特に、読話や手話による文理解能力が低い中途
失聴者であっても、円滑なコミュニケーションを図るこ
とができる。
【0042】本発明の音声通訳システムは、各部を実現
するための機能を含む音声表示方法、その各手順をコン
ピュータに実行させるための音声通訳プログラム、音声
通訳プログラムを記録したコンピュータ読み取り可能な
記録媒体、音声通訳プログラムを含みコンピュータの内
部メモリにロード可能なプログラム製品、そのプログラ
ムを含むサーバ等のコンピュータ、音声通訳装置、等に
より提供されることができる。
【0043】
【発明の効果】本発明によると、以上説明した通り、話
者による言語情報と非言語情報とを、同時にユーザに呈
示することで、話者とユーザとの異なる言語体系におけ
るコミュニケーションの補助を行うができる。また、本
発明は、ユーザの特性と音声認識装置の性能に応じて、
読話、手話による非言語情報と、音声認識及び通訳結果
である言語情報とを、同時にユーザに呈示することがで
きる。また、本発明は、例えば、読話や手話による文理
解能力が低い中途失聴者であっても、円滑なコミュニケ
ーションを図ることができる。
【図面の簡単な説明】
【図1】本発明に関する音声通訳システム100の概略
構成図。
【図2】習熟度フォルダ20の説明図。
【図3】本発明に関する音声通訳システム100の使用
状態を示す概略説明図。
【図4】本発明に関する音声通訳システム100のフロ
ーチャート。
【図5】被験者による文意の理解を客観的に示す実験結
果を示す図。
【図6】本発明に関する音声通訳システム100に関連
する実験結果を示す図。
【符号の説明】
1 演算装置 2 透過型表示装置 10 話者 40 ユーザ 50 音声入力部 55 処理部(CPU) 60 音声認識部 85 通訳部 90 レイアウト設定部 95 出力部 100 音声表示システム
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551C 15/22 561C (72)発明者 伊福部 達 北海道札幌市中央区南13条西13丁目1−43 Fターム(参考) 5B091 AA03 AA15 BA03 BA12 BA19 CB12 CB22 EA09 5D015 HH23 KK03 LL05 5E501 AA30 BA14 CA06 CB15 CC11 FA14 FA32

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】異なる言語体系間のコミュニケーションを
    補助するための音声表示システムであって、 入力された音声を認識して言語情報に変換して出力する
    演算装置と、 前記言語情報を表示すると共に、話者からの非言語情報
    を得るための透過部を含む透過型表示装置とを備え、 前記演算装置は、 該音声を入力する音声入力部と、 該音声入力部から入力された音声を認識するための音声
    認識部と、 前記音声認識部で音声認識された言語情報を、異なる言
    語体系に通訳する通訳部と、 前記透過型表示装置への表示状態を設定するためのレイ
    アウト設定部と、 前記レイアウト設定部の設定に従って、前記音声認識部
    により音声認識され、且つ、前記通訳部で通訳された結
    果を、前記透過表示装置に出力する出力部とを有する音
    声通訳システム。
  2. 【請求項2】前記レイアウト設定部は、前記透過型表示
    装置に表示される文字列の呈示文字数、色、大きさ、表
    示位置、表示の焦点距離のいずれか又は複数を設定する
    ようにした請求項1に記載の音声通訳システム。
  3. 【請求項3】前記非言語情報は、該話者の唇、目等の顔
    の部分の動き、ジェスチャー、手話、読話、表情のいず
    れか又は複数を含むことを特徴とする請求項1又は2に
    記載の音声通訳システム。
  4. 【請求項4】前記レイアウト設定部では、該読話又は手
    話の習熟度が高い場合、前記呈示文字数又はその割合を
    小さく又は大きくし、 該習熟度が低い場合、前記呈示文字数又はその割合を大
    きく又は小さくそれぞれ設定されるようにした請求項2
    又は3に記載の音声通訳システム。
  5. 【請求項5】前記演算装置は、携帯型のコンピュータで
    あって、 前記透過型表示装置は、メガネディスプレイであること
    を特徴とする請求項1乃至4のいずれかに記載の音声通
    訳システム。
  6. 【請求項6】前記通訳部は、設定された漢字の難易度に
    応じて選択された言語データベースに基づき、前記表示
    される文字列を漢字に変換するようにした請求項1乃至
    5のいずれかに記載の音声通訳システム。
  7. 【請求項7】前記通訳部は、音声認識された文字列の尤
    度の閾値を設定する尤度閾値設定部を含み、該尤度閾値
    設定部で予め設定された閾値に応じて、尤度が該閾値よ
    り低いときは、前記表示される文字列を非文字で表示す
    るようにした請求項1乃至6のいずれかに記載の音声通
    訳システム。
  8. 【請求項8】入力された音声を認識して言語情報に変換
    して出力する演算装置と、前記言語情報を表示すると共
    に話者からの非言語情報を得るための透過部を含む透過
    型表示装置とを備えた異なる言語体系間のコミュニケー
    ションを補助するための音声表示システムに用いられる
    音声表示プログラムであって、 該音声を入力する音声入力手順と、 音声認識された文字列の尤度についての予め設定された
    閾値に応じて、該尤度が該閾値より低いときは、表示さ
    れる文字列を非文字で表示するように認識するようにし
    た、該音声入力手順から入力された音声を認識するため
    の音声認識手順と、 前記音声認識手順により音声認識された言語情報を、異
    なる言語体系に通訳する通訳手順と、 前記音声認識手順により音声認識され、且つ、前記通訳
    手順により通訳された結果を、前記透過表示装置に出力
    する出力手順とをコンピュータに実行させるための音声
    通訳プログラム。
  9. 【請求項9】前記通訳手順は、設定された漢字の難易度
    に応じて選択された言語データベースに基づき、前記表
    示される文字列を漢字に変換するようにした請求項8に
    記載の音声通訳プログラム。
JP2001044794A 2001-02-21 2001-02-21 音声通訳システム及び音声通訳プログラム Pending JP2002244842A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001044794A JP2002244842A (ja) 2001-02-21 2001-02-21 音声通訳システム及び音声通訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001044794A JP2002244842A (ja) 2001-02-21 2001-02-21 音声通訳システム及び音声通訳プログラム

Publications (1)

Publication Number Publication Date
JP2002244842A true JP2002244842A (ja) 2002-08-30

Family

ID=18906723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001044794A Pending JP2002244842A (ja) 2001-02-21 2001-02-21 音声通訳システム及び音声通訳プログラム

Country Status (1)

Country Link
JP (1) JP2002244842A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100358358C (zh) * 2002-09-17 2007-12-26 银河网路股份有限公司 视频电话手语翻译辅助装置及应用其的手语翻译***
US7376415B2 (en) 2002-07-12 2008-05-20 Language Line Services, Inc. System and method for offering portable language interpretation services
US7593523B2 (en) 2006-04-24 2009-09-22 Language Line Services, Inc. System and method for providing incoming call distribution
US7773738B2 (en) 2006-09-22 2010-08-10 Language Line Services, Inc. Systems and methods for providing relayed language interpretation
US7792276B2 (en) 2005-09-13 2010-09-07 Language Line Services, Inc. Language interpretation call transferring in a telecommunications network
US7894596B2 (en) 2005-09-13 2011-02-22 Language Line Services, Inc. Systems and methods for providing language interpretation
US8023626B2 (en) 2005-09-13 2011-09-20 Language Line Services, Inc. System and method for providing language interpretation
JP2014120963A (ja) * 2012-12-18 2014-06-30 Seiko Epson Corp 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP2014174307A (ja) * 2013-03-08 2014-09-22 Kikuichi Nishi 話し言葉表示処理装置
WO2016103415A1 (ja) * 2014-12-25 2016-06-30 日立マクセル株式会社 ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
JP2020067644A (ja) * 2018-10-19 2020-04-30 祥二 里村 動的発音による言語のリスニング学習システム
KR102152326B1 (ko) * 2020-02-14 2020-09-04 주식회사 샘물정보통신 글로벌 수화 통역 지원 시스템
JP2022052324A (ja) * 2020-09-23 2022-04-04 株式会社x garden 料理支援装置、プログラム及び料理支援方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6252586A (ja) * 1985-08-31 1987-03-07 カシオ計算機株式会社 電子式学習機
JPS6457369A (en) * 1987-08-28 1989-03-03 Canon Kk Translation output device
JPH0588832A (ja) * 1991-09-27 1993-04-09 Fuji Electric Co Ltd 操作ガイド画面表示方法
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH08297561A (ja) * 1995-04-25 1996-11-12 Fuji Xerox Co Ltd 複合情報処理装置
JPH10123450A (ja) * 1996-10-15 1998-05-15 Sony Corp 音声認識機能付ヘッドアップディスプレイ装置
JP2000339300A (ja) * 1999-05-28 2000-12-08 Niisu:Kk 学年別教育漢字の発生方法および装置、並びに学年別教育漢字の発生方法が記憶されている記憶媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6252586A (ja) * 1985-08-31 1987-03-07 カシオ計算機株式会社 電子式学習機
JPS6457369A (en) * 1987-08-28 1989-03-03 Canon Kk Translation output device
JPH0588832A (ja) * 1991-09-27 1993-04-09 Fuji Electric Co Ltd 操作ガイド画面表示方法
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH08297561A (ja) * 1995-04-25 1996-11-12 Fuji Xerox Co Ltd 複合情報処理装置
JPH10123450A (ja) * 1996-10-15 1998-05-15 Sony Corp 音声認識機能付ヘッドアップディスプレイ装置
JP2000339300A (ja) * 1999-05-28 2000-12-08 Niisu:Kk 学年別教育漢字の発生方法および装置、並びに学年別教育漢字の発生方法が記憶されている記憶媒体

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376415B2 (en) 2002-07-12 2008-05-20 Language Line Services, Inc. System and method for offering portable language interpretation services
CN100358358C (zh) * 2002-09-17 2007-12-26 银河网路股份有限公司 视频电话手语翻译辅助装置及应用其的手语翻译***
US8023626B2 (en) 2005-09-13 2011-09-20 Language Line Services, Inc. System and method for providing language interpretation
US7792276B2 (en) 2005-09-13 2010-09-07 Language Line Services, Inc. Language interpretation call transferring in a telecommunications network
US7894596B2 (en) 2005-09-13 2011-02-22 Language Line Services, Inc. Systems and methods for providing language interpretation
US7593523B2 (en) 2006-04-24 2009-09-22 Language Line Services, Inc. System and method for providing incoming call distribution
US7773738B2 (en) 2006-09-22 2010-08-10 Language Line Services, Inc. Systems and methods for providing relayed language interpretation
JP2014120963A (ja) * 2012-12-18 2014-06-30 Seiko Epson Corp 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP2014174307A (ja) * 2013-03-08 2014-09-22 Kikuichi Nishi 話し言葉表示処理装置
WO2016103415A1 (ja) * 2014-12-25 2016-06-30 日立マクセル株式会社 ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
JPWO2016103415A1 (ja) * 2014-12-25 2017-11-09 日立マクセル株式会社 ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
US10613826B2 (en) 2014-12-25 2020-04-07 Maxell, Ltd. Head-mounted display system and operating method for head-mounted display device
JP2020067644A (ja) * 2018-10-19 2020-04-30 祥二 里村 動的発音による言語のリスニング学習システム
KR102152326B1 (ko) * 2020-02-14 2020-09-04 주식회사 샘물정보통신 글로벌 수화 통역 지원 시스템
JP2022052324A (ja) * 2020-09-23 2022-04-04 株式会社x garden 料理支援装置、プログラム及び料理支援方法

Similar Documents

Publication Publication Date Title
US6377925B1 (en) Electronic translator for assisting communications
US10613826B2 (en) Head-mounted display system and operating method for head-mounted display device
US11482134B2 (en) Method, apparatus, and terminal for providing sign language video reflecting appearance of conversation partner
JP2006510095A (ja) 多モードの音声言語翻訳及び表示
US9028255B2 (en) Method and system for acquisition of literacy
US20170270701A1 (en) Image processing device, animation display method and computer readable medium
JP2002244842A (ja) 音声通訳システム及び音声通訳プログラム
Roche et al. “Your tone says it all”: The processing and interpretation of affective language
CN112329451A (zh) 手语动作视频生成方法、装置、设备及存储介质
Priya et al. Indian and English language to sign language translator-an automated portable two way communicator for bridging normal and deprived ones
Jamil Design and implementation of an intelligent system to translate arabic text into arabic sign language
Tseng ILAS Chinese spoken language resources
Wagner Intralingual Speech-to-text conversion in real-time: Challenges and Opportunities
JP2002244841A (ja) 音声表示システム及び音声表示プログラム
US20040012643A1 (en) Systems and methods for visually communicating the meaning of information to the hearing impaired
Srivastava et al. A smart learning assistance tool for inclusive education
KR20210073856A (ko) 휴대용 수화 번역기 및 수화 번역 방법
Neerincx et al. Attuning speech-enabled interfaces to user and context for inclusive design: technology, methodology and practice
Saleem et al. Full duplex smart system for Deaf & Dumb and normal people
KR20190083438A (ko) 한국어 대화 장치
KR102245941B1 (ko) 연속대화기반 언어발달장애 검사 시스템 및 그 방법
US12002487B2 (en) Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy
Matsuda et al. Finger Braille teaching system for people who communicate with deafblind people
JP2007156888A (ja) 情報提示装置及び情報提示プログラム
Desai et al. Understanding and Enhancing The Role of Speechreading in Online d/DHH Communication Accessibility

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060718