JP2002244842A

JP2002244842A - 音声通訳システム及び音声通訳プログラム

Info

Publication number: JP2002244842A
Application number: JP2001044794A
Authority: JP
Inventors: Tatsu Ifukube; 達伊福部
Original assignee: BUG Inc; Japan Science and Technology Corp
Current assignee: BUG Inc; Japan Science and Technology Agency
Priority date: 2001-02-21
Filing date: 2001-02-21
Publication date: 2002-08-30

Abstract

(57)【要約】（修正有）【課題】話者による言語情報と非言語情報とを、同時
にユーザに呈示することで、話者とユーザとの異なる言
語体系間におけるコミュニケーションの補助を行う。【解決手段】演算装置１は、音声認識部６０で話者１
０によりマイクロホン等を介して入力された音声を認識
し、さらに、通訳部８５でユーザ４０の獲得している言
語体系に変換（通訳）することにより、言語情報（バー
バル情報であって、ここでは、文字列）を得る。この音
声認識及び通訳の結果である文字列を透過型表示装置２
に出力する。透過型表示装置２は、演算装置１により入
力された言語情報である文字列を表示すると共に、話者
１０からの非言語情報（ノンバーバル情報であって、例
えば、話者１０の唇、目等の顔の部分の動き、読話、ジ
ェスチャー、手話、表情のいずれか又は複数を含む）を
得るための透過部（透過性ディスプレイ）を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声通訳システム
及び音声通訳プログラムに係り、特に、音声認識結果デ
ータである文字列の情報（言語情報：バーバル情報）だ
けでなく、話し手（話者）の表情、唇、ジェスチャー等
の言語情報以外の情報（非言語情報：ノンバーバル情
報）を用いて、話者とユーザとの異なる言語体系間にお
けるコミュニケーションの補助を行うことができる音声
通訳システム及び音声通訳プログラムに関する。

【０００２】

【従来の技術】近年、高度情報化および超高齢化の社会
においては、各種情報を受け取る感覚器官（例えば、視
覚、聴覚等）の能力が低い人達（例えば、高齢者、聴覚
障害者等）のために、これらの感覚器官の能力を補うた
めの各種補助装置（例えば、補聴器等）の開発が切望さ
れている。特に、人間同士のコミュニケーションでは、
音声が非常に重要な役割を果たしており、聴覚障害者の
ための様々な補助方式が研究されている。例えば、大学
の講義において、講義内容を素早く書き取り、話者又は
講義用黒板の周辺に字幕を表示する手法がある（参考：
小林正幸・石原保志・西川俊・高橋秀知、ルビ付きリア
ルタイム字幕提示システムの試作;筑波技術短期大学テ
クノレポート、1996）。

【０００３】

【発明が解決しようとする課題】しかしながら、上述の
手法では、第三者の助けが必要であり、例えば、聴覚障
害者が単独で外出する場合での利用は困難であることが
想定される。このように、未だに聴覚障害者が日常的に
利用することができる補助装置は存在していない。した
がって、聴覚障害者のための補助装置は、今後ますます
増え続けるであろう高齢難聴者、又は完全聴覚障害者に
とっても有用であり、その必要性は今後とも高まると考
えられる。

【０００４】一方、近年、入力された音声を認識して文
字列に変換し、この文字列を、例えば、コンピュータの
モニタディスプレイやテレビの字幕として表示する、い
わゆる音声認識方法が普及している。この音声認識方法
は、雑音の多い環境（すなわち日常の生活空間）で不特
定話者を対象に認識を行った場合、一般には、５０〜６
０％程度の認識率しか確保できないため、特定の用途で
の利用に限られているのが現状である。

【０００５】しかし、この現状は、音声認識システム
を、従来のようにマン・マシン・インターフェースとし
て捉えた結果であり、この音声認識システムを、人間を
対象としたマン・マン・インターフェースとして捉えた
場合、人間は、入力音声の完全な音声認識が行われなく
てもコミュニケーションにおける前後の文脈などから欠
落した情報を類推することができる（参照：齊藤幹、失
聴者のための音声認識技術を利用したマン・マン・イン
ターフェースに関する研究;北海道大学大学院工学研究
科修士論文、1999２）。

【０００６】ここで、本発明に関連する技術について説
明する。本発明者らは、コミュニケーションでは、話者
の音声以外にも唇、目等の顔の部分の動き、読話（唇の
動きを読むこと）、ジェスチャー、手話、表情といった
非言語情報（ノンバーバル情報）も重要であり、さら
に、このノンバーバル情報は、マン・マシン・インター
フェースで利用するには非常に高度な技術を必要とする
が、マン・マン・インターフェースであれば、人間の視
覚を用いることで、容易に取得できる点に着目した。

【０００７】また、聴覚障害者（ユーザ）は、上述の
「読話」やジェスチャーで伝える「手話」を習得してい
る場合が多く、この読話、手話等によって、話者の言葉
をある程度理解できることが想定される。このため、音
声認識結果の文字列（バーバル情報）と、読話や手話か
ら得られるノンバーバル情報とを、聴覚障害者が同時に
受け取れるようにして、音声認識結果の文字列を聴覚障
害者に呈示することが必要となる。

【０００８】この際、考慮すべき点は、読話や手話で文
意を理解する能力は、聴覚障害者の失聴時期、残存聴力
などに大きく依存している点と、たとえ高性能の音声認
識装置による音声認識結果であっても認識率が必ず１０
０％であることはなく、大抵の場合、文字列には誤りが
含まれているため、音声認識結果である文字を全て呈示
してしまうと、文意を誤って理解する場合が想定される
点である。このため、例えば、聴覚障害者の読話や手話
による文理解能力（すなわち、読話や手話の習熟度）に
応じて、呈示する文字列を表示する割合を、聴覚障害者
自身で設定可能とすることが必要である。

【０００９】さらに、話者が、ユーザとのコミュニケー
ションにおいて、ユーザの獲得している言語体系（例え
ば、母国語）とは異なる言語体系（例えば、外国語）を
用いた場合、話者とユーザ間のコミュニケーションを円
滑に行うには、話者による言語情報を、ユーザ（受け
手）の獲得している言語体系やこの言語体系に基づいた
読話や手話などの文理解能力で理解できる言語情報に変
換（通訳）することが必要となる。

【００１０】本発明は、以上の点に鑑み、話者による言
語情報と非言語情報とを、同時にユーザに呈示すること
で、異なる言語体系間の話者とユーザとのコミュニケー
ションの補助を行うことを目的とする。また、本発明
は、ユーザの特性と音声認識装置の性能に応じて、読
話、手話による非言語情報と、音声認識及び通訳結果で
ある言語情報とを、同時にユーザに呈示することを目的
としている。また、本発明は、特に、読話や手話による
文理解能力が低い中途失聴者であっても、円滑なコミュ
ニケーションを図ることができることを目的とする。

【００１１】

【課題を解決するための手段】本発明の第１の解決手段
によると、異なる言語体系間のコミュニケーションを補
助するための音声表示システムであって、入力された音
声を認識して言語情報に変換して出力する演算装置と、
前記言語情報を表示すると共に、話者からの非言語情報
を得るための透過部を含む透過型表示装置とを備え、前
記演算装置は、該音声を入力する音声入力部と、該音声
入力部から入力された音声を認識するための音声認識部
と、前記音声認識部で音声認識された言語情報を、異な
る言語体系に通訳する通訳部と、前記透過型表示装置へ
の表示状態を設定するためのレイアウト設定部と、前記
レイアウト設定部の設定に従って、前記音声認識部によ
り音声認識され、且つ、前記通訳部で通訳された結果
を、前記透過表示装置に出力する出力部とを有する音声
通訳システムを提供する。

【００１２】本発明の第２の解決手段によると、入力さ
れた音声を認識して言語情報に変換して出力する演算装
置と、前記言語情報を表示すると共に話者からの非言語
情報を得るための透過部を含む透過型表示装置とを備え
た異なる言語体系間のコミュニケーションを補助するた
めの音声表示システムに用いられる音声表示プログラム
であって、該音声を入力する音声入力手順と、音声認識
された文字列の尤度についての予め設定された閾値に応
じて、該尤度が該閾値より低いときは、表示される文字
列を非文字で表示するように認識するようにした、該音
声入力手順から入力された音声を認識するための音声認
識手順と、前記音声認識手順により音声認識された言語
情報を、異なる言語体系に通訳する通訳手順と、前記音
声認識手順により音声認識され、且つ、前記通訳手順に
より通訳された結果を、前記透過表示装置に出力する出
力手順とをコンピュータに実行させるための音声通訳プ
ログラムを提供する。

【００１３】また、本発明は、誤りを含む音声認識及び
通訳結果データである言語情報（文字列）を、透過型表
示装置（メガネディスプレイ）上に表示することによ
り、この透過型メガネディスプレイを用いるユーザは、
話者の前に表示された文字列だけでなく、話者の唇、目
等の顔の部分の動き、読話、ジェスチャー、手話、表情
などを含む非言語情報を、同時に見ることができる。こ
れにより、ユーザが聴覚障害者であっても、話者の文意
を理解しやすくなり、異なる言語体系間におけるユーザ
と話者間の円滑なコミュニケーションを図ることができ
る。

【００１４】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を詳細に説明する。図１は、本発明に関する音声
通訳システム１００の概略構成図である。音声通訳シス
テム１００は、例えば、携帯型のコンピュータである演
算装置１、透過型メガネディスプレイである透過型表示
装置２を含む。この音声通訳システム１００は、話者１
０とユーザ（例えば、聴覚障害者など）４０間の異なる
言語体系間におけるコミュニケーションを補助するため
のシステムである。なお、異なる言語体系間におけるコ
ミュニケーションとは、例えば、話者１０がユーザ４０
の獲得している言語体系（例えば、母国語）とは異なる
言語体系（例えば、外国語）を用いて、ユーザ４０との
コミュニケーションを行う場合を想定している。

【００１５】演算装置１は、話者１０により図示しない
マイクロホン等を介して入力された音声を認識し、さら
にユーザ４０の獲得している言語体系に変換（通訳）す
ることにより、言語情報（バーバル情報であって、ここ
では、文字列）を得る。この音声認識及び通訳の結果で
ある文字列を透過型表示装置２に出力する。透過型表示
装置２は、演算装置１により入力された言語情報である
文字列を表示すると共に、話者１０からの非言語情報
（ノンバーバル情報であって、例えば、話者１０の唇、
目等の顔の部分の動き、読話、ジェスチャー、手話、表
情のいずれか又は複数を含む：図中、点線の矢印）を得
るための透過部（透過性ディスプレイ）を備える。

【００１６】演算装置１は、例えば、音声入力部５０、
処理部（ＣＰＵ）５５、音声認識部６０、通訳部８５、
レイアウト設定部９０及び出力部９５を備える。音声入
力部５０は、話者１０の音声を入力する。音声認識部６
０は、例えば、音声入力部５０から入力された音声の音
声認識を行うものである。通訳部８５は、例えば、音声
認識部６０で音声認識された言語情報を、ユーザ４０の
獲得している言語体系に通訳するものであって、データ
ベース選択部７０と、尤度閾値設定部８０を備える。具
体的には、通訳部８５は、例えば、話者１０がユーザ４
０の獲得している言語体系（例えば、母国語）とは異な
る言語体系（例えば、外国語）を用いて、ユーザ４０と
のコミュニケーションを行う場合、音声認識部６０より
音声認識された話者１０の言語体系による言語情報を、
ユーザ４０の獲得している言語体系に変換（通訳）を行
うものである。

【００１７】データベース選択部７０は、例えば、通訳
部８５内又は音声通訳システム１００内に適宜設けられ
たひとつ又は複数種類の言語データベース（漢字ＤＢ）
に予め記憶された漢字の難易度（例えば、ＪＩＳ水準レ
ベルに従って、小学２年生レベル、中学生レベルなど）
を、ユーザ４０の語彙力（どの程度の漢字を含む文字列
を作成するべきかを判断することになる）に応じて選択
する。これにより、話者１０の音声を音声認識する際、
ユーザ４０の語彙力に応じた漢字を含む文字列を作成す
ることができる。なお、言語データベースにひらがなに
該当する漢字を認識しない場合、文字列は、全てひらが
な及び／又は非文字（例えば、記号など）として透過型
表示装置２の透過性ディスプレイ上に表示される。

【００１８】また、通訳部８５は、図示しない音声デー
タベースに記憶された話者１０からの連続音声に対し
て、言語データベースを用いて音声認識が行われた場
合、単語系列と各単語の尤度（例えば、単語間のつなが
りの確からしさであって、単語間の距離と捉えても良
い。したがって、尤度が高いことと、単語間の距離が小
さくこととは、概ね同義である）を認識結果として得
る。

【００１９】尤度閾値設定部８０は、例えば、通訳部８
５での認識結果のうち正しく認識できた文字列のみを呈
示するために尤度に対応した閾値を設定する。具体的に
は、各単語の尤度が高い場合、その単語が正しく認識で
きている可能性が高く、尤度が低い場合、その単語が正
しく認識できている可能性が低いと想定される。このた
め、尤度閾値設定部８０で閾値を設定することにより、
認識結果の単語系列に対して、各単語の対数尤度がある
閾値より大きければ、この単語を呈示し、対数尤度が閾
値より小さいならば、この単語を呈示しないようにする
こともできる（閾値の具体的な数値については、後
述）。なお、通訳部８５では、この対数尤度が閾値より
小さい単語（単語間のつながりの確からしさが小さく、
単語間の距離が大きい）を呈示しないだけでなく、記号
等の非文字として透過型表示装置２の透過性ディスプレ
イ上に表示するように適宜設定することができる。

【００２０】レイアウト設定部９０は、透過型表示装置
２への表示状態を設定するものであって、例えば、呈示
文字数設定部９１、色調整用設定部９２、大きさ調整用
設定部９３及び表示位置調整用設定部９４を備える。呈
示文字数設定部９１は、例えば、演算装置３より出力さ
れ、透過型表示装置２に表示される文字列の呈示文字数
を適宜調整することができる。また、呈示文字数設定部
９１は、例えば、ユーザ４０の読話及び／又は手話の習
熟度と呈示文字数との対応を示す習熟度フォルダを含む
（図２参照）。

【００２１】色調整用設定部９２は、同じく、文字列の
色を適宜調整することができる。大きさ調整用設定部９
３は、同じく、文字列の大きさを適宜調整することがで
きる。表示位置調整用設定部９４は、同じく、文字列の
表示位置、表示の焦点距離（例えば、話者１０の距離に
応じて、文字列の表示される焦点距離を調整可能）を適
宜調整することができる。なお、レイアウト設定部９０
に含まれる各種設定部の設定は、ユーザ４０自身により
適宜設定される（図中、実線の矢印）。これにより、透
過型表示装置２に表示される文字列のレイアウトは、ユ
ーザ４０の所望する状態に変更することができる。出力
部９５は、ユーザ４０によるレイアウト設定部９１の設
定に従って、音声認識部６０により音声認識された結果
である文字列（バーバル情報）を、透過表示装置２に出
力する。

【００２２】図２は、習熟度フォルダ２０の説明図であ
る。習熟度フォルダ２０は、上述のように、レイアウト
設定部９０内の呈示文字数設定部９１に含まれており、
例えば、ユーザ４０の読話及び／又は手話の習熟度２１
と呈示文字数（の割合）２２との対応を示している。こ
こでは、習熟度２１と呈示文字数（の割合）２２との対
応としては、「低い、８０％」「普通、６０％」「高
い、４０％」を予め記憶している。なお、この習熟度フ
ォルダ２０による習熟度２１と呈示文字数（の割合）２
２との対応は、適宜設定することができる。

【００２３】ユーザ４０（例えば、聴覚障害者）は、透
過型表示装置２の透過性ディスプレイにより、話者１０
の音声を音声認識した結果である文字列（バーバル情
報）だけでなく、透過性ディスプレイを介して話者１０
のノンバーバル情報をも取得することができる。ユーザ
４０は、例えば、図示しない習熟度設定ボタンなどを用
いて、ユーザ４０自身の習熟度２１を演算装置１に入力
する。なお、ユーザ４０自身の習熟度２１を演算装置１
に入力する場合、ユーザ４０だけでなく保守者、家族、
医者など適宜の人間によって設定するようにしてもよ
い。

【００２４】ユーザ４０は、読話、手話についての習熟
度２１が高い場合（この習熟度は、個人差が大きい）、
ノンバーバル情報を汲み取ることで、話者１０とのコミ
ュケーションを円滑に行うことが想定される。この場
合、ユーザ４０にとって文字列は、補助（又は確認）と
して機能することになる（ここでは、「高い、４０
％」）。

【００２５】一方、ユーザ４０は、例えば、読話、手話
についての習熟度２１が低い場合、ノンバーバル情報だ
けでは、話者１０とのコミュケーションを行うことが困
難であることが想定される。この場合、ユーザ４０は、
話者１０とのコミュケーションを行うためにバーバル情
報に依存する（ここでは、「低い、８０％」）。なお、
本発明に関する音声通訳システム１００は、聴覚障害者
の読話、手話についての習熟度１２を向上させるため
の、一種の訓練システムにも適用できる。具体的には、
聴覚障害者の読話、手話についての習熟度２１が向上す
るにつれて、呈示文字数（の割合）２２を小さくした
り、又は、習熟度２１を確認するために呈示文字数（の
割合）２２を大きくしたりしてもよい。

【００２６】図３は、本発明に関する音声通訳システム
１００の使用状態を示す概略説明図である。音声通訳シ
ステム１００においてユーザ４０は、透過型メガネディ
スプレイ２を装着する。ユーザ４０は、透過型メガネデ
ィスプレイ２上に表示されるバーバル情報（ここでは、
音声認識部６０により音声認識され、且つ、通訳部８５
により通訳された結果データである言語情報「文字列も
くしは、・・・・など」）だけでなく、透過型メガネデ
ィスプレイ２を介して取得される話者１０のノンバーバ
ル情報（ここでは、表情、口の動き、ジェスチャー）を
用いて話者１０とのコミュニケーションを行う。なお、
図中、バーバル情報が話者１０上に重なるように描かれ
ているが、これは、ユーザ４０を主体とすれば、透過型
メガネディスプレイ２上に表示される「文字列もくし
は、・・・・など」は、話者１０の手前に表示されてい
るように見えるからである。

【００２７】図４は、本発明に関する音声通訳システム
１００のフローチャートである。まず、呈示文字数設定
部９１は、例えば、図示しない習熟度設定ボタンを介し
て入力されたユーザ４０の習熟度２１に関する情報に基
づいて、呈示文字数（の割合）２２を設定する（Ｓ２０
１）。なお、ここで、上述の尤度閾値の設定及び／又は
漢字ＤＢの選択を、必要に応じて行うことができる。つ
ぎに、レイアウト設定部９０に含まれる色調整用設定部
９２、大きさ調整用設定部９３及び表示位置調整用設定
部９４の各種設定を行う（Ｓ２０３）。話者１０からの
音声が図示しないマイクロホンを介して音声入力部５０
に入力される（Ｓ２０５）。

【００２８】ステップＳ２０５による入力音声が、音声
認識部６０によって、音声認識される（Ｓ２０７）。さ
らに、ステップＳ２０７の音声認識結果データは、通訳
部８５によってユーザ１０の獲得している適宜の言語体
系に変換（通訳）される（Ｓ２１３）。ここで、ステッ
プＳ２０７及びＳ２１３により音声認識され、通訳され
た言語情報であるバーバル情報は、出力部９５を介し
て、透過型表示装置２に出力される（Ｓ２０９）。透過
型表示装置２に出力されるバーバル情報についての変更
（ここでは、呈示文字数（の割合）２２の設定、必要に
応じて尤度閾値の設定及び／又は漢字ＤＢの選択、さら
に、ステップＳ２０３による各種設定）が入力されたか
を判定する（Ｓ２１１）。ステップＳ２１１よりバーバ
ル情報についての変更が入力された場合、再びステップ
Ｓ２０１及び／又はステップＳ２０３に戻り、呈示文字
数（の割合）２２の設定、さらに、必要に応じて尤度閾
値の設定及び／又は漢字ＤＢの選択、さらに、ステップ
Ｓ２０３による各種設定を行う。また、ステップＳ２１
１よりバーバル情報についての変更が入力されていない
場合、一連の処理を終了する。

【００２９】図５は、被験者による文意の理解を客観的
に示す実験結果を示す図である。但し、ここでは、従来
技術（参照：齊藤幹、失聴者のための音声認識技術を利
用したマン・マン・インターフェースに関する研究;北
海道大学大学院工学研究科修士論文、1999２）で示され
た実験を行ったものであるため、本発明の前提条件「人
間は、例えば、音声認識結果の文字列の認識率が６０％
程度確保されれば（不完全なバーバル情報）、前後の文
脈及び／又は認識結果から文字列を類推し、結果的にコ
ミュニケーションを図ることができる」を示し、さら
に、「この前提条件に加えて、本発明者らによるノンバ
ーバル情報の同時呈示という着想によれば、コミュニケ
ーションがさらに円滑に行われる」という根拠を導く程
度に簡潔に説明する。

【００３０】図５（ａ）は、対数尤度閾値と呈示文の変
化を示す図である。この対数尤度閾値と呈示文の変化３
０は、例えば、尤度３０、呈示文３２を含む。音声認識
部６０により、認識単語及びその尤度が算出される。つ
ぎに、予め設定された閾値より大きい尤度に対応する認
識単語のみを呈示する。なお、閾値より小さい尤度に対
応する単語については、非文字（ここでは、「？」）と
して表示した。これにより、尤度３０と呈示文３２との
対応としては、図示のように、対数尤度閾値を小さくす
ることで、呈示する単語数が増加している。

【００３１】図５（ｂ）は、対数尤度閾値による文意理
解精度の変化を示す図である。ここでの実験結果として
は、図示のように、すべての被験者（Ａ〜Ｆ）に共通し
て、対数尤度閾値が「−２５００」、すなわち、単語認
識精度が約４０％を越えると文理解精度は急激に上昇し
ている。なお、失聴者においては個人差が大きく、これ
は獲得語彙数の差が要因のひとつだと考えられる。

【００３２】以上により、本発明の前提条件「人間は、
例えば、音声認識結果の文字列の認識率が６０％程度確
保されれば（不完全なバーバル情報）、前後の文脈及び
／又は認識結果から文字列を類推し、結果的にコミュニ
ケーションを図ることができる」を客観的に示唆した。

【００３３】図６は、本発明に関する音声通訳システム
１００に関連する実験結果を示す図である。本実験は、
演算装置１から得られる不完全なバーバル情報と、話者
１０から得られるノンバーバル情報とを、透過型表示装
置２を着用するユーザ４０に対して同時呈示することに
よる文章理解変化について実施されたものである。

【００３４】本実験では、聴覚障害者に協力してもらう
前に、聴覚に障害を持たない２３歳〜３０歳の日本人男
性、３名を被験者とした。なお、３人の被験者は、これ
まで特に読話の訓練を受けたことはない。さらに、呈示
する文章は、図５（ａ）に示した呈示文３２と同様とし
た。

【００３５】呈示文３２と共に呈示するノンバーバル情
報としては、デジタルビデオ（Ｖｉｃｔｏｒ：ＧＲ−Ｄ
Ｖ１、５７万画素）で撮影した顔の映像を用いた。この
映像は、２３歳の日本人男性に音声処理を施す前の正解
の文章を読み上げてもらい、その時の顔を中心に撮影し
た。この映像にＰＣによるディジタル処理を施し、呈示
文章字幕を重ね合わせた。文章字幕は、話者が文章をし
ゃべり終わり口の動きが止まった後に、話者の口元に重
ね合わせて呈示した。なお、元の文章が同じであれば、
４段階の尤度の違い（図６に示すプロット位置に対応）
によらず、同じ顔の映像を利用した。

【００３６】実験としては、バーバル情報だけの意味理
解の変化を調べる第１実験（バーバル情報）と、バーバ
ル情報だけでなく映像試料、すなわちノンバーバル情報
を付加した状態での意味理解の変化を調べる第２実験と
を行う。第１実験の内容は、図５と同様であり、説明を
省略する。また、ここでは、元の文章に応じて無作為に
被験者をＡ、Ｂの２つのグループに分けた。グループ
Ａ、Ｂの被験者には、それぞれ２５文に対し、４段階の
尤度に分けた１００の文章を呈示した。各グループの被
験者は、例えば、紙に印刷された呈示文章を順番に読ん
でいき、その意味が理解できれば自分の理解した内容を
答えるようにした。その際、普段被験者が使い慣れてい
るパソコンを用いて、テキストエディタにキーボードで
打ち込ませた。なお、被験者に対しては、指示された順
番通りに進み、呈示文章を飛ばしたり、前の呈示文章に
戻ることはしないように予め教示している。

【００３７】第２実験（バーバル情報＋ノンバーバル情
報）では、映像を被験者に呈示するために透過型ＨＭＤ
（ＯＬＹＭＰＵＳ：Ｍｅｄｉａｍａｓｋ）を用いた。被
験者はデジタルビデオを再生し、顔の映像から読話を試
み、続いて字幕が現れたところでビデオを一旦停止さ
せ、その文章の内容が理解できれば先ほどと同じように
パソコン上のテキストエディタにキーボードで打ち込ま
せた。

【００３８】また、実験手順としては、第１実験のＡグ
ループを試行し、つぎに、第２実験を行い、最後に、第
１実験のＢグループを試行した。なお、それぞれの実験
の間には被験者の判断により休憩を挟んだ。この実験手
順を採用したのは、元の文章が同じであり実験を繰り返
すことによって生じる文章に対する慣れを少しでも減ら
すためであり、また、被験者の集中力やモチベーション
に結果が影響されやすく、その影響をいくらかは少なく
するためである。

【００３９】また、図示のグラフは、被験者Ａの実験結
果を示しており、グラフの横軸は対数尤度閾値（単語認
識精度）であり、縦軸は文意理解精度（％）である。な
お、四角のマーカーが施された実線は、第２実験による
文理解精度である。また、三角のマーカーが施された実
線は、第１実験でのＡ、Ｂグループの結果を平均したも
のである。

【００４０】被験者Ａでは、対数尤度閾値が−２０００
から−３０００（認識率で約４０％）になると急激に文
理解精度が向上している。また、被験者Ａで対数尤度閾
値が下がれば文理解精度は概ね上昇している。すなわ
ち、被験者Ａでは、ノンバーバル情報を付加することに
よる、文理解精度の向上が明らかに示されている。

【００４１】このように本実施の形態の音声通訳システ
ム１００によれば、話者による言語情報と非言語情報と
を、同時にユーザに呈示することで、話者とユーザとの
異なる言語体系におけるコミュニケーションの補助を行
うことができる。また、ユーザの特性と音声認識装置の
性能に応じて、読話、手話による非言語情報と、音声認
識及び通訳結果である言語情報とを、同時にユーザに呈
示することができる。また、音声通訳システム１００に
よれば、特に、読話や手話による文理解能力が低い中途
失聴者であっても、円滑なコミュニケーションを図るこ
とができる。

【００４２】本発明の音声通訳システムは、各部を実現
するための機能を含む音声表示方法、その各手順をコン
ピュータに実行させるための音声通訳プログラム、音声
通訳プログラムを記録したコンピュータ読み取り可能な
記録媒体、音声通訳プログラムを含みコンピュータの内
部メモリにロード可能なプログラム製品、そのプログラ
ムを含むサーバ等のコンピュータ、音声通訳装置、等に
より提供されることができる。

【００４３】

【発明の効果】本発明によると、以上説明した通り、話
者による言語情報と非言語情報とを、同時にユーザに呈
示することで、話者とユーザとの異なる言語体系におけ
るコミュニケーションの補助を行うができる。また、本
発明は、ユーザの特性と音声認識装置の性能に応じて、
読話、手話による非言語情報と、音声認識及び通訳結果
である言語情報とを、同時にユーザに呈示することがで
きる。また、本発明は、例えば、読話や手話による文理
解能力が低い中途失聴者であっても、円滑なコミュニケ
ーションを図ることができる。

【図面の簡単な説明】

【図１】本発明に関する音声通訳システム１００の概略
構成図。

【図２】習熟度フォルダ２０の説明図。

【図３】本発明に関する音声通訳システム１００の使用
状態を示す概略説明図。

【図４】本発明に関する音声通訳システム１００のフロ
ーチャート。

【図５】被験者による文意の理解を客観的に示す実験結
果を示す図。

【図６】本発明に関する音声通訳システム１００に関連
する実験結果を示す図。

【符号の説明】

１演算装置２透過型表示装置１０話者４０ユーザ５０音声入力部５５処理部（ＣＰＵ）６０音声認識部８５通訳部９０レイアウト設定部９５出力部１００音声表示システム

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ｃ 15/22 ５６１Ｃ (72)発明者伊福部達北海道札幌市中央区南13条西13丁目１−43 Ｆターム(参考） 5B091 AA03 AA15 BA03 BA12 BA19 CB12 CB22 EA09 5D015 HH23 KK03 LL05 5E501 AA30 BA14 CA06 CB15 CC11 FA14 FA32

Claims

【特許請求の範囲】

【請求項１】異なる言語体系間のコミュニケーションを
補助するための音声表示システムであって、入力された音声を認識して言語情報に変換して出力する
演算装置と、前記言語情報を表示すると共に、話者からの非言語情報
を得るための透過部を含む透過型表示装置とを備え、前記演算装置は、該音声を入力する音声入力部と、該音声入力部から入力された音声を認識するための音声
認識部と、前記音声認識部で音声認識された言語情報を、異なる言
語体系に通訳する通訳部と、前記透過型表示装置への表示状態を設定するためのレイ
アウト設定部と、前記レイアウト設定部の設定に従って、前記音声認識部
により音声認識され、且つ、前記通訳部で通訳された結
果を、前記透過表示装置に出力する出力部とを有する音
声通訳システム。
【請求項２】前記レイアウト設定部は、前記透過型表示
装置に表示される文字列の呈示文字数、色、大きさ、表
示位置、表示の焦点距離のいずれか又は複数を設定する
ようにした請求項１に記載の音声通訳システム。
【請求項３】前記非言語情報は、該話者の唇、目等の顔
の部分の動き、ジェスチャー、手話、読話、表情のいず
れか又は複数を含むことを特徴とする請求項１又は２に
記載の音声通訳システム。
【請求項４】前記レイアウト設定部では、該読話又は手
話の習熟度が高い場合、前記呈示文字数又はその割合を
小さく又は大きくし、該習熟度が低い場合、前記呈示文字数又はその割合を大
きく又は小さくそれぞれ設定されるようにした請求項２
又は３に記載の音声通訳システム。
【請求項５】前記演算装置は、携帯型のコンピュータで
あって、前記透過型表示装置は、メガネディスプレイであること
を特徴とする請求項１乃至４のいずれかに記載の音声通
訳システム。
【請求項６】前記通訳部は、設定された漢字の難易度に
応じて選択された言語データベースに基づき、前記表示
される文字列を漢字に変換するようにした請求項1乃至
５のいずれかに記載の音声通訳システム。
【請求項７】前記通訳部は、音声認識された文字列の尤
度の閾値を設定する尤度閾値設定部を含み、該尤度閾値
設定部で予め設定された閾値に応じて、尤度が該閾値よ
り低いときは、前記表示される文字列を非文字で表示す
るようにした請求項1乃至６のいずれかに記載の音声通
訳システム。
【請求項８】入力された音声を認識して言語情報に変換
して出力する演算装置と、前記言語情報を表示すると共
に話者からの非言語情報を得るための透過部を含む透過
型表示装置とを備えた異なる言語体系間のコミュニケー
ションを補助するための音声表示システムに用いられる
音声表示プログラムであって、該音声を入力する音声入力手順と、音声認識された文字列の尤度についての予め設定された
閾値に応じて、該尤度が該閾値より低いときは、表示さ
れる文字列を非文字で表示するように認識するようにし
た、該音声入力手順から入力された音声を認識するため
の音声認識手順と、前記音声認識手順により音声認識された言語情報を、異
なる言語体系に通訳する通訳手順と、前記音声認識手順により音声認識され、且つ、前記通訳
手順により通訳された結果を、前記透過表示装置に出力
する出力手順とをコンピュータに実行させるための音声
通訳プログラム。
【請求項９】前記通訳手順は、設定された漢字の難易度
に応じて選択された言語データベースに基づき、前記表
示される文字列を漢字に変換するようにした請求項８に
記載の音声通訳プログラム。