WO2016103415A1

WO2016103415A1 - ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法

Info

Publication number: WO2016103415A1
Application number: PCT/JP2014/084372
Authority: WO
Inventors: 制時今川
Original assignee: 日立マクセル株式会社
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2016-06-30
Also published as: US10613826B2; JPWO2016103415A1; JP6392374B2; US20180011687A1; CN107003823A; CN107003823B

Abstract

　ヘッドマウントディスプレイシステムの操作性を向上させることを目的とする。そのために、ヘッドマウントディスプレイシステムは、会話者の発話の入力を受け付け、音声情報を出力するマイク４と、音声情報を文字列に変換し、発話文字列を生成する文字列生成部５１０と、起動又は停止させたいプログラム及び動作モードの少なくとも一つ、及びそれらプログラム及び動作モードの其々に対し、起動又は停止させるための特定発話を関連付けた特定発話情報を格納する特定発話情報記憶部５３１と、特定発話情報を参照して、発話文字列に含まれる特定発話を抽出し、その抽出結果を示す特定発話抽出信号を生成する特定発話抽出部５３０と、特定発話抽出信号を参照し、プログラム又は動作モードを、起動又は停止させる制御部５４０と、を備える。

Description

ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法

　本発明は、ヘッドマウントディスプレイ装置（以下「ＨＭＤ装置」と略記する）の操作技術に関する。

　本技術分野の背景技術として、特許文献１には、「眼鏡ユニットの視野内にある単語または文章よりなる文字列を撮像可能なカメラと、カメラによって撮像された文字列の画像信号を、信号伝達線路を介して、翻訳ユニットに出力する制御部とを備え、翻訳ユニットが、眼鏡ユニットの制御部から出力される文字列の画像信号を文字認識するＯＣＲと、ＯＣＲが文字認識した文字列を翻訳して、翻訳結果を、信号伝達線路を介して、眼鏡ユニットに出力する制御部を備え、眼鏡ユニットの表示素子が、翻訳結果を表示部に表示するように構成された電子辞書。（要約抜粋）」が開示されている。

　また、特許文献２には、相手の発言内容に対する回答を表示するシステムについて記載があり、「利用者と他者との間の会話を支援する会話支援装置であって、利用者による第１言語の自然言語文を含む原言語表現を入力する原言語表現入力部と、原言語表現を第２言語による別表現に変換する原言語変換部と、別表現に対して他者が回答を行うための回答画面を生成する回答画面生成部と、原言語表現と別表現及び回答画面を同一画面上に表示する表示部を有する（要約抜粋）」会話支援システムが開示されている。

特開2007-280163号公報特開2005-222316号公報

　ＨＭＤ装置を異言語翻訳機や会話補助装置として利用することは、スマートフォンや電子辞書に比べ、装置を持つ必要が無いため、外出先や荷物を抱えている状況など普段の生活に馴染みやすいとい利点がある。

　しかし、ＨＭＤ装置を用いたシステムを起動したり、動作モードを変更したりする場合にはユーザ自身が行う必要がある。そのため、両手がふさがっている場合には、依然として操作性が良好ではない。この点について、特許文献１及び特許文献２で考慮されていない。

　本発明は、上記事情に鑑みてなされたものであり、ＨＭＤ装置を用いたシステムの操作性をより向上させることができる技術を提供することを目的とする。

　上記課題を解決するために、本発明は、会話者の発話の入力を受け付け、音声情報を出力し、前記音声情報を文字列に変換し、発話文字列を生成し、起動又は停止させたいプログラム及び動作モードの少なくとも一つ、及びそれらプログラム及び動作モードの其々に対し、起動又は停止させるための特定発話を関連付けた特定発話情報を参照して、前記発話文字列に含まれる前記特定発話を抽出し、その抽出結果を示す特定発話抽出信号を生成し、前記特定発話抽出信号を参照して前記プログラム又は動作モードを起動又は停止させることを特徴とする。

　本発明によれば、ＨＭＤ装置を用いたシステムの操作性をより向上させることができる技術を提供することができる。なお、上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本実施形態に係る起動・停止プログラムを搭載したＨＭＤ装置の外観構成例の概要を示した斜視図ＨＭＤ装置のハードウェア構成を示す図アプリ制御装置の機能構成を示すブロック図本実施形態に係るＨＭＤ装置の起動、停止処理（操作方法）の流れを示すフローチャート特定発話情報テーブルの一例を示す図第二実施形態に係る翻訳プログラムの制御装置の機能構成を示すブロック図言語種類情報テーブルの一例を示す図翻訳プログラムの起動、停止処理のタイムチャート第二実施形態に係る翻訳プログラムの処理の流れを示すフローチャート第三実施形態におけるＨＭＤ装置を示すハードウェア構成図共通、肯定、否定の３分類の応答文字列をタグ表示した例を示す図図１１の例において、使用者が発話した応答文の表示態様を変更した例を示す図タグの項目だけを表示した表示例を示す図応答文字列をタグにより階層表示した例を示す図応答文字列を一定の基準に沿って順序立てて表示した例を示す図

　以下、図面を用いて本発明の実施形態について説明する。全図を通じて同一の構成には同一の符号を付して重複説明を省略する。

＜第一実施形態＞
　第一実施形態は、ＨＭＤ装置で実行されるプログラム及び動作モードの一つを、発話を基に起動・停止させる実施形態である。まず、図１乃至図２を参照してＨＭＤシステムの概略構成について説明する。ここで図１は、本実施形態に係る起動・停止プログラムを搭載したＨＭＤ装置の外観構成例の概要を示した斜視図である。図２は、ＨＭＤ装置のハードウェア構成を示す図である。

　図１に示すＨＭＤシステム１０は、ＨＭＤ装置１とアプリ制御装置５とを一体に構成される。ＨＭＤ装置１は、ＨＭＤ装置１の使用者の頭部にＨＭＤ装置１を装着させた状態を維持するための装着体（本体部）１ａと、使用者の視野内に映像を表示する機能を備えた半透過型の（透過性を有する）表示画面２と、使用者とほぼ同じ視線で周辺状況（特に対話相手）を撮像するカメラ３と、使用者及び対話者（これらを総称して「会話者」という）の発話を集音し、音声情報を出力するマイク４と、撮像情報及び音声情報の入力を基に、表示画面２への表示処理を含むアプリケーションプログラム及び動作モードを起動及び停止させるアプリ制御装置５を備える。

　本実施形態１では、装着体１ａはメガネのフレームにより構成され、表示画面２は、フレームにはめ込んで使用者の眼前に位置させる。アプリ制御装置５は、メガネのフレームに取付けられる。カメラ３及びマイク４は、アプリ制御装置５の前面に配置される。

　なお、本実施形態ではアプリ制御装置５を装着体１ａと一体に構成したが、アプリ制御装置５を装着体１ａとは別体に構成し、通信ケーブルを介して有線接続してもよいし、例えばBluetooth（登録商標）を用いて無線接続してもよい。一体に構成するとＨＭＤ装置１の取扱いが便利になり、別体に構成すると、アプリ制御装置５をフレームに取り付けられるサイズに構成するという制約がなくなり、設計上の自由度が向上する。特に、第二実施形態で説明する翻訳システムに本発明を適用する場合、各種辞書を記憶する記憶装置が必要となり、アプリ制御装置５がより大きくなる傾向があるが、この実施形態において別体構成は好適である。

　図２を参照して本実施形態に係るアプリ制御装置５のハードウェア構成について説明する。図２は、アプリ制御装置５のハードウェア構成を示す図である。

　図２に示すように、アプリ制御装置５は、ＣＰＵ（Central Processing Unit）５１、ＲＡＭ（Random Access Memory）５２、ＲＯＭ（Read Only Memory）５３、ＨＤＤ（Hard Disk Drive）５４、Ｉ／Ｆ５５、及びバス５８含む。そして、ＣＰＵ５１、ＲＡＭ５２、ＲＯＭ５３、ＨＤＤ５４、及びＩ／Ｆ５５がバス５８を介して互いに接続されて構成される。ＲＯＭ（Read Only Memory）５３、ＨＤＤ（Hard Disk Drive）５４は、プログラムを記憶できる記憶媒体であればその種類を問わず、SSD（Solid State Drive）等、よりアプリ制御装置５を小型化しやすい媒体に適宜変更してもよい。

　アプリ制御装置５は、Ｉ／Ｆ５５を介して表示画面２、カメラ３、及びマイク４を含むＨＭＤ装置１に接続される。そして、表示画面２には、アプリ制御装置５から映像出力信号が出力される。カメラ３は使用者とほぼ同じ視線で撮像した撮像画像をアプリ制御装置５に出力する。マイク４は、使用者周辺の音声を集音するが、使用者の前方の音に対してより高い感度を有するよう、指向性を持たせてもよい。

　図３を参照して、アプリ制御装置５の機能構成について説明する。図３は、アプリ制御装置５の機能構成を示すブロック図である。

　図３に示すように、アプリ制御装置５は、発話者特定部５１０、文字列生成部５２０、特定発話抽出部５３０、コントローラ５４０、及びアプリケーションプログラム（以下「アプリ」という）１、アプリ２、アプリ３を含む。これら発話者特定部５１０、文字列生成部５２０、特定発話抽出部５３０、及びコントローラ５４０の其々は、各構成を実現するソフトウェアとこのソフトウェアを実行するハードウェアとが協働して構成される。各ブロックの機能の詳細は、フローチャートを参照して詳述する。

　更にアプリ制御装置５は、使用者音声情報記憶部５１１、音声辞書記憶部５２１、及び特定発話情報記憶部５３１を備える。

　使用者音声情報記憶部５１１は、ＨＭＤ装置１の使用者を識別する際に参照する、使用者の音声識別情報を記憶する。

　音声辞書記憶部５２１は、音声情報と表音文字又は表意文字とを関連付けた音声辞書を記憶する。

　特定発話情報記憶部５３１は、起動させたいプログラム、及び動作モードの少なくとも一つ（例えばアプリ１、アプリ２、動作モード１）、及びそれらプログラム及び動作モードを起動、停止させるための特定発話を関連付けた特定発話情報を記憶する。また、本実施形態では、特定発話情報において、各プログラムまたは動作モードを起動又する際の優先度も合わせて規定する。従って、本実施形態では特定発話情報は起動規則情報も含み、特定発話情報記憶部５３１は起動規則情報記憶部としても機能する。

　次に各ブロックの関係について説明する。マイク４は、使用者あるいは対話者の発話を集音して生成した音声情報を発話者特定部５１０に出力する。文字列生成部５２０は音声情報を表音文字からなる文字列（以下、「発話者文字列」という）を生成し、特定発話抽出部５３０に出力する。特定発話抽出部５３０は、プログラムまたは動作モードを起動、停止させるための特定発話の抽出処理を行う。特定発話抽出部５３０は、起動させるための特定発話が抽出された時にはその結果を示す起動特定発話抽出信号を生成する。また、特定発話抽出部５３０は、停止させるための特定発話が抽出された時にはその結果を示す停止特定発話抽出信号を生成する。

　特定発話抽出部５３０は、起動特定発話抽出信号及び停止特定発話抽出信号をコントローラ（制御部に相当する）５４０に出力する。コントローラ５４０は、起動特定発話抽出信号及び停止特定発話抽出信号に従って、プログラム又は動作モードを起動させるための起動信号、又は停止させるための停止信号を出力する。

　次に図４乃至図５を参照して、本実施形態に係るＨＭＤ装置１の起動、停止処理の流れについて説明する。図４は、本実施形態に係るＨＭＤ装置１の起動、停止処理の流れを示すフローチャートである。図５は、特定発話情報テーブルの一例を示す。

　マイク４が発話を集音して音声情報を生成し、発話者特定部５１０が、発話者は使用者であるか否かを判断する（Ｓ０１）。使用者でなければ（Ｓ０１／Ｎｏ）、発話者特定部５１０は音声情報を文字列生成部５２０に出力することなく、発話者の特定処理を繰り返す。使用者であれば（Ｓ０１／Ｙｅｓ）、発話者特定部５１０は音声情報を文字列生成部５２０に出力する。

　発話者特定部５１０は、マイク４から音声情報を取得し、例えばその音声情報に対して高速フーリエ変換処理を施す。そして得られた周波数分析結果と使用者音声情報記憶部５１１に記憶された音声識別情報との整合性、又は音声情報の声紋と、音声識別情報の声紋との整合性を基に、使用者か否かの判断を判断する。

　文字列生成部５２０は、音声情報を発話文字列に変換し（Ｓ０２）、特定発話抽出部５３０に出力する。文字列生成部５２０は、音声辞書を参照し、マイク４から送られた音声情報を表音文字からなる発話文字列に変換する。

　特定発話抽出部５３０は、発話文字列と、特定発話情報記憶部５３１に記憶された特定発話情報との整合性を基に、特定発話を抽出する（Ｓ０３）。

　ここで特定発話とは、各プログラムの起動動作、及び停止動作の其々に対して関連付けられた発話である。図５に示すように、特定発話情報は、起動又は停止操作の対象となるプログラム名と、それを起動させるための起動用特定発話及び停止させるための停止用特定発話とを関連付けて規定したデータである。更に本実施形態では、一のプログラムが起動中は、他のプログラムの起動用特定発話を抽出しても、当該他のプログラムを起動させない、所謂排他制御の有無も特定発話情報において規定する。図５では、ドライブアシストプログラムは排他制御「有」と規定される。そのため、ドライブアシストプログラムの実行中は、他のプログラムの起動ができないだけではなく、他のプログラムが実行中に、ドライブアシストプログラムの起動用特定発話が検出されると、起動中の他のプログラムは強制終了して、ドライブアシストのみを実行させる。これにより、ドライブアシストプログラムを実行中に、ＡＲ（Augmented Reality）プログラムや翻訳プログラムが実行され、ドライバーの視野に運転には関係がない拡張表示や文字列が表示されて視認性が阻害されるといった不具合を防ぐことできる。

　上記の例では、プログラムを例に挙げて説明したが、１つのプログラムの中に複数の操作モードが含まれる場合には、操作モード毎に特定発話を規定してもよい。更に、排他制御ではなく、優先度を複数段階で設定し、起動・停止対象となるプログラムや動作モードに順位付けを行ってもよい。

　特定発話が抽出され（Ｓ０４／ＹＥＳ）、その特定発話がプログラムまたは動作モードを起動させるための起動特定発話である場合（Ｓ０５／Ｙｅｓ）、起動のトリガとなる特定発話を検出したことを示す起動特定発話抽出信号をコントローラ５４０に対して出力する（Ｓ０６）。特定発話が抽出され（Ｓ０４／ＹＥＳ）、その特定発話がプログラムまたは動作モードを停止させるための特定発話でない場合（Ｓ０５／Ｎｏ）、停止のトリガとなる特定発話を検出したことを示す停止特定発話抽出信号をコントローラ５４０に対して出力する（Ｓ０７）。また、特定発話が抽出されなければ（Ｓ０４／Ｎｏ）、ステップＳ０１へ戻り処理を繰り返す。起動特定発話抽出信号及び停止特定発話抽出信号は、どのプログラムの起動又は停止をさせるための特定発話が抽出されたかを示す情報であるので、これらの信号を参照すると起動・停止すべきプログラムや操作モードをコントローラ５４０が判断することができる。

　コントローラ５４０は、起動特定発話抽出信号及び停止特定発話抽出信号を受信すると、起動又は停止操作の対象となるプログラム又は操作モードに対して、起動信号（Ｓ０８）又は停止信号（Ｓ０９）を出力する。これにより、対象となるプログラム又は操作モードが起動（Ｓ１０）又は停止（Ｓ１１）する。

　本実施形態によれば、ＨＭＤ装置１を用いて実行させたいプログラムや操作モードの起動、停止処理に際し、使用者は発話するだけでよいので操作性が向上する。また、特定発話の抽出に際し、使用者による発話であるかを識別してから起動・停止処理が実行されるので、使用者以外の者の発話の中に、起動用特定発話又は停止用特定発話が含まれていても、それにより使用者が意図しないプログラムや操作モードの起動、停止動作が実行されることを防ぐことができる。

＜第二実施形態＞
　第二実施形態は、第一実施形態のプログラムとして翻訳プログラムを用いた実施形態である。まず、図６及び図７を参照して概略構成について説明する。図６は、第二実施形態に係る翻訳プログラムの制御装置（以下「翻訳制御装置」という）の機能構成を示すブロック図である。図７は、言語種類情報テーブルの一例を示す図である。

　図６に示す第二実施形態に係るＨＭＤ装置１ａは、第一実施形態のアプリ制御装置５を翻訳制御装置５ａに置き換えて構成される。翻訳制御装置５ａは、アプリ制御装置５の構成に加えて、言語種類情報記憶部５２２、応答文字列生成部６１０、応答文辞書記憶部６１１、画像処理部６２０、及び表示制御部６３０を備える。

　言語種類記憶部５２２には、図７に示す言語種類情報が格納される。言語種類情報は、各言語に対する使用者の理解力（インプット能力）と、発言力（アウトプット能力）とを規定する。各言語は、理解力及び発言力に応じた言語種類に分類される。言語種類は、使用者が通常会話で用いる第一言語、文字の理解はできるが第一言語よりも理解度が低い第二言語、当該第二言語よりもさらに理解度が低く文字の理解が不可能な第三言語、使用者が発言できるが、第一言語よりも発言力が低い第四言語と、第四言語よりもさらに発言力が低く、発言が不可能な第五言語とがある。例えば、日本語は、理解力及び発言力において共に第一言語、英語は、第二言語及び第四言語、中国語は、第三言語及び第五言語に相当する。

　応答文字列生成部６１０は、文字列生成部５２０から取得した発話文字列に対する応答文（文章、単語単位の双方の場合を含む）を、応答文辞書記憶部６１１に記憶された応答文辞書から選択、又は応答文辞書を基に生成する。

　画像処理部６２０は、カメラ３から対話者を撮像した撮像画像を取得し、予めＨＭＤ装置に備えられた特徴画像（バーコードやマーク）を基に、対話者が使用者と同じＨＭＤ装置１装着しているかの判断に用いる対話者装着信号を生成し、コントローラ５４０に出力する。

　表示制御部６３０は、文字列生成部５２０から取得した発話文字列、及び応答文字列生成部６１０から取得した応答文字列を表示画面２に表示する。なお、応答文字列の表示態様は様々あり、応答文字列をそのまま表示してもよいし、後述する第四実施形態のようにタグを用いた表示を行ってもよい。

　図８は翻訳プログラムの起動、停止処理のタイムチャートである。図８に示すように、翻訳制御装置５ａは、ステップＳ０６において、特定発話抽出部５３０が起動特定発話抽出信号を生成する。そしてステップＳ０７において、コントローラ５４０が送られた起動特定発話抽出信号を受信すると、応答文字列生成部６１０、画像処理部６２０及び表示制御部６３０を起動するための起動信号を各ブロックに送信する。そして、各ブロックが起動し、これらの動作によって本実施形態に係るＨＭＤ装置は、使用者の発話に応じて自動的に対話者の発話の文字列表示や応答に関連する文字列の表示を行うことが出来る。

　また、特定発話抽出部５３０が停止用の特定発話を検出すると、検出したことを通知する停止用検出信号をコントローラ５４０に送る。コントローラ５４０は送られた停止用検出信号をトリガにして停止信号を文字列生成部５２０と応答文字列生成部６１０と表示制御部６３０に送り、各ブロックを停止する。

　図９を参照して、第二実施形態に係るＨＭＤ装置を用いた翻訳システムの処理の流れについて説明する。図９は、第二実施形態に係る翻訳プログラムの処理の流れを示すフローチャートである。以下では、対話者もＨＭＤ装置を使用している場合に、対話者発言の翻訳のみを表示する態様について説明する。以下の例では、ＨＭＤ装置１は、対話者が同ＨＭＤ装置を使用しているか否かを判断し、使用していると判断した場合には、文字列生成部５２０が第一言語で文字列を生成するように自動的に動作を切り替える。ＨＭＤ装置１の起動も特定発話の抽出を契機として行う。この際、特定発話抽出部が抽出する特定発話は、第二言語又は第三言語で発話された挨拶、名前、及び発話の声紋の少なくとも一つであってもよい。

　具体的には、既述のステップＳ１０で、応答文字列生成部６１０、画像処理部６２０及び表示制御部６３０が起動した後、マイク４が再び発話を集音し音声情報を生成する。そして、発話者特定部５１０がＨＭＤ装置１ａの使用者とは異なる発話者の対話であると判断すると（Ｓ２１／Ｙｅｓ）、コントローラ５４０が対話者使用信号の有無について判断する（Ｓ２２）。発話者が使用者であれば（Ｓ２１／Ｎｏ）、発話者からの発話を待機する。

　対話者使用信号の有無の判断処理の一例として、例えば、カメラ３が出力した撮影画像を用いる手法がある。ＨＭＤ装置１ａにバーコードや特有のマークを予め付けておく。そして、画像処理部６２０が、撮影画像からバーコードやマークが撮像されている領域を抽出し、その抽出された領域（特徴画像）と、予め参照用に記憶されているバーコードやマークの画像と、のパターンマッチングを実行する。画像処理部６２０は、その結果をコントローラ５４０に出力する。コントローラ５４０は、パターンマッチング結果を基に、対話者がＨＭＤ装置を装着しているかを判断する。この場合、コントローラ５４０がＨＭＤ装置１ａの装着の有無を判断するために用いるパターンマッチングの結果を示す信号が対話者使用信号に相当する。

　対話者使用信号の有無の判断処理の他例として、ＨＭＤ装置１ａに通信部７１０、、例えばＲＦＩＤ（Radio Frequency IDentification）と検出器、Bluetooth（登録商標）による相互通信機装置を備え、互いのＩＤを互いに受信することでも実現可能である。

　コントローラ５４０は対話者が同ＨＭＤ装置を使用していることを判断すると（Ｓ２２／Ｙｅｓ）、文字列生成部５２０に対して使用者が通常会話で用いる第一言語で発話文字列を生成することを指示する第一言語使用信号を出力し、応答文字列生成部６１０に対して、応答文字列の生成動作を停止させる停止信号を出力する、

　文字列生成部５２０と応答文字列生成部６１０は送られた信号に基づいて、使用者の第一言語で発話文字列を生成し、応答文字列の生成は停止するように動作を切り替える（Ｓ２３）。

　対話者が同ＨＭＤ装置使用していない場合は、対話者の使用言語を判断する（Ｓ２４）。第二言語の場合（Ｓ２４／第二言語）、文字列生成部５２０は第二言語で発話文字列を生成する（Ｓ２５）。第二言語以外の言語、すなわち第一言語又は第三言語の場合（Ｓ２４／第一言語ｏｒ第三言語）、文字列生成部５２０は使用者の第一言語で発話文字列を生成するように動作を切り替える（Ｓ２３）。

　さらに対話者の発話が所定時間以上ある場合（長文の場合）、あるいは使用語彙の難易度が相対的に高い場合（Ｓ２６／Ｙｅｓ）、文字列生成部５２０は、第一言語に切り替える（Ｓ２３）。対話者の発話が所定時間未満あるいは使用語彙の難易度が相対的に低い場合（Ｓ２６／Ｎｏ）、第二言語で発話文字列の生成を続行する。上記所定時間および難易度の高い単語は事前に登録しておく。

　応答文字列生成部６１０は、対話者が発話に用いた言語の種類を判断する。第四言語であると判断すると（Ｓ２７／第四言語）、第四言語で応答文字列で生成し、表示する（Ｓ２８）。対話者の発話が第五言語である判断すると（Ｓ２７／第五言語）、第五言語の音声を第一言語で構成する文字列で応答文字列を生成し、表示する（Ｓ２９）。例えば使用者の第一言語が日本語、第四言語が英語、第五言語が中国語の場合、対話者の英語で発話したときには英語による応答文字列を生成し、対話者の中国語で発話したときには中国語での応答に関連した文字列をカタカナあるいはローマ字で生成する。

　本実施形態によれば、翻訳プログラムが起動した後、対話者の発話や対話者のＨＭＤ装置の到着の有無に応じて、発話文字列及び応答文字列に用いる言語の種類、すなわち動作モードを設定、変更することができる。このとき、ＨＭＤ装置の使用者は、動作モードの設定、変更のための操作入力を行う必要がないので、ＨＭＤ装置の操作性の向上が期待できる。

　上記では、対話者が１人である時を想定し、発話文字列を第二言語または第一言語を用いて生成、表示したが、発話者特定部５１０が複数人の対話者を検出した場合、及び文字列生成部５２０が複数の言語で発話されていると判断すると、上記の処理に関らず、発話文字列は第一言語で生成するようにしてもよい。

　また、上記では、ステップＳ２２において対話者使用信号の有無を判断したが、このステップは必須ではない。その場合、ステップＳ２２において文字列生成部５２０が、対話者が第一言語で話しているかを判断してもよい。

　本実施形態に係るＨＭＤ装置１は、使用者音声情報記憶部に記憶すべき使用者音声情報を、使用者との対話形式で自動登録するように動作する。このため、コントローラ５４０は、マイク４から得られる使用者の発話情報と、使用者音声情報記憶部５１１の内部で保有する事前登録情報から、使用者が初回の使用であることを検出する。コントローラ５４０は使用者が初回の使用であることを検出した場合、初期登録固有の動作をするように各ブロックを制御する。

　具体的には、まずコントローラ５４０は文字列生成部５２０が適当な数値と当該数値を母国語で読むように指示文字列を複数の言語で出力するように制御する。これにより使用者の母国語が確定する。

　次に確定した言語を用いて、使用者が第一言語を選択するように指示文字列と複数の選択肢を出力するように制御する。このとき文字列生成部５２０は、使用者が数値で回答できるように選択肢には番号を付け、数値で回答する旨を指示する文字列を出力する。これにより使用者の第一言語が確定する。以下、第二言語、第三言語、第四言語、第五言語を同様に確定させる。

　次に、コントローラ５４０は、自動起動を行うための特定発話情報の登録を行う。そのためコントローラ５４０は、文字列生成部５２０が第二言語および第四言語で所定の挨拶に関わる文字列とこれを読む旨を指示する文字列を出力するように制御する。同様に自動停止を行うため特定発話の登録を行う。挨拶に関わる文字列には使用者の第一言語以外の人名あるいは呼び名を加えても良い。

　また、使用者の第二言語や第四言語の習熟度を計測するために、コントローラ５４０は単語や短文、長文を表示画面２に表示して、理解度を検証する。この場合、使用者へ表示文字列を第一言語で読むように指示を出しても良いが、理解しているか否かの判断は使用者に任せて、使用者の「yes」「no」の発話をもって習熟度を設定する、あるいは応答発話まで時間によって習熟度を設定するほうが短時間で当該設定を終えることができる。

　文字列生成部５２０は、使用者に適した文字サイズを確定するために、標準文字サイズを設定する旨の文字列と、文字サイズの判定に使用する文字列の表示と、文字サイズを確定するための発話方法とを表示するとともに、判定に使用する文字を最小サイズから徐々に大きくしていき、使用者の文字サイズ確定発話を検出して標準文字サイズを確定する。

　本実施形態では、応答文字列生成部６１０は文字列生成部５２０が変換した文字列に基づいて応答文字列を生成したが、応答文字列生成部６１０はマイク４から得た音声情報に基づいて応答文字列を生成しても同等の効果が得られる。

　さらに本実施形態では、言語種類や音声識別情報等の事前登録情報は個々のＨＭＤ装置が行ったが、本発明はこれに限定されない。例えば、一度行った事前登録情報を、通信装置を介してサーバなどのデータ記憶装置に使用者のＩＤと関連付けを行って保存しても良い。この場合、いずれかのＨＭＤ装置で事前登録すれば、他のＨＭＤヘッドマウントディスプレイ装置の使用が初回の場合でも事前登録情報をサーバから検索し、ダウンロードすることで事前登録が不要になる。また、事前登録情報の検索可能範囲を限定するために使用者のＩＤをグルーピングしても良い。

　また、本実施形態では、文字列生成部５２０は対話者の発話に基づいて文字列を生成するように動作したが、本発明はこれに限定されない。例えば、使用者が特定の発話と第一言語に変換したい言葉とをマイクに入力した場合に、当該の言葉を第一言語で表示する、あるいは特定の発話と第一言語から変換したい言葉、変換したい言語をマイクに入力した場合に当該の言葉を当該言語で表示しても良い。

　また、文字列生成部５２０が発話文字列を表示する際に、難易度に応じて第一言語の全文の訳文を表示してもよいし、単語ごとに訳を表示してもよい。

　上記初期設定に関する一連の動作は、発話者特定部５１０が音声情報及び音声識別情報に基づいて、音声情報を発話した者が使用者として登録されていない者であると判断し、文字列生成部５２０が、初期設定に用いる設定文字列を生成し、表示制御部６３０が設定文字列を表示画面２に表示し、コントローラ５４０が、使用者が設定文字列に対して応答して発話した音声情報に基づいて行ってもよい。ここでいう初期設定に関する一連の動作には、特定発話の登録も含む。

　また、上記「初期設定に用いる設定文字列」とは、使用者が通常会話で得意とする第一言語および使用者が文字の理解可能な第二言語、使用者が文字の理解が不可能な第三言語と問う文字列と、使用者が発言可能な第四言語、使用者が発言不可能な第五言語を問う質問形式の文字列、あるいは挨拶の文言や人名を複数の言語で表した文字列と該文字列を発話するように促す文字列である。質問形式の文字列は、「はい」または「いいえ」で回答可能な質問文、あるいは各文字列の先頭に数字を付加し、当該数字で回答可能な質問文である。

＜第三実施形態＞
　第三実施形態は、対話者の発話を、通信装置を経由して取得するＨＭＤ装置の例を説明する。図１０は、第三実施形態におけるＨＭＤ装置を示すハードウェア構成図の例である。図１０のＨＭＤ装置１ｂは、通信部７１０を経由して発話情報を得る点で異なる。通信部７１０は、対話者の発話情報を特定のフォーマットから音声情報に変換し、変換した音声情報を発話者特定部５１０に出力する。

　この場合、コントローラ５４０は、対話者が同ヘッドマウントディスプレイを使用しているか否かについて、双方のヘッドマウントディスプレイ装置が通信部７１０の通信フォーマットに装置ＩＤを付加することで判断が可能になる。

　通信部７１０が対話者の発話情報を文字列に相当するフォーマットで情報を入力し、文字列情報に変換する場合は、文字列生成部５２０は通信部７１０から送られた情報に対しては通信部７１０が変換した文字列情報をそのまま出力する、あるいは文字列情報を簡略化して出力する。

　同様に応答文字列生成部６１０は、通信部７１０から送られた情報に対しては、通信部７１０が変換した文字列情報に対する応答文字列を作成し、作成した文字列を表示画面２に送る。

　＜第四実施形態＞
　一般的にＨＭＤ装置は、文字列や画像、図形を使用者の前方にある風景に重ねて表示できることが大きな特徴の一つである。このため文字や画像、図形を表示するエリアが広いと前方風景が見えづらくなってしまう。表示する文字や画像、図形は虚像を作ることで数メートル前方に大きく表示されているように錯覚させることが可能だが、その場合でも表示エリアに限界がある。また、日常使用する言語以外で他者と会話する場合には、訳文や応答リコメンド文に関して一度に見る文字情報は必要最小限にした方が使用者にとって利用しやすく、会話も円滑になる場合が多い。

　本実施形態では、対話者発話に関する文字列や応答文字列をより少数の文字列で効率的に表示するＨＭＤ装置の例を説明する。各ブロックとブロック間の関係は第一実施形態と同様なので省略する。以下、本実施形態に係るＨＭＤ装置の特徴動作である文字列生成部５２０と応答文字列生成部６１０における文字列生成方法、及び表示画面２での表示形態について、図１１乃至図１５を参照して説明する。図１１は、共通、肯定、否定の３分類の応答文字列をタグ表示した例を示す図である。図１２は、図１１の例において、使用者が発話した応答文の表示態様を変更した例を示す図である。図１３は、タグの項目だけを表示した表示例を示す図である。図１４は、応答文字列をタグにより階層表示した例を示す図である。図１５は、応答文字列を一定の基準に沿って順序立てて表示した例を示す図である。

　まず、文字列生成部５２０は、表示文字列の文字数が少なくなるように文字列を生成する。このため、対話者の発話内容に対し、丁寧語や謙譲語、尊敬語など敬語表現を省略して文字列を生成する。また、名前の前後の敬称も省略する。さらに、主語、動詞、名詞を優先し、形容詞や副詞を省略または小さい文字で表示する。文字列生成部５２０は、音声情報を発話文字列に変換した後、品詞分解処理、構文解析処理を行い、敬語表現を省略した文字列を生成する。

　また、応答文字列生成部６１０は、対話者の発話内容に関連した複数のキーワードをデータベースから選択し、選択したキーワードを所定の方法で分類し、分類したキーワードごとに分類タグを付けたエリアに分けて表示する。あるいは所定の指標に基づいて順に並べて表示する。

　例えば、「はい／いいえ」を用いて応答する場合には、応答が「はい」の場合と「いいえ」の場合に関連するキーワードおよび両者に共通するキーワードをデータベース（応答文辞書）から選択するとともに、選択したキーワードを「はい」「いいえ」「共通」のタグとともに個別のエリアに表示するように表示画面２に出力する（図１１参照）。

　使用者が選択肢の中からキーワードを使用した場合には、キーワードが使用されたことをヘッドマウントディスプレイが認識したことを使用者に知らせるために、図１２に示すように、使用されたキーワード（図１１における「Ｃｌｏｕｄｙ」）の色を変えて表示した後、対話者の発話内容と使用者が使用したキーワードに関連したキーワードをデータベースから検索する。キーワードの選択が終了したら既表示の文字列やタグを非表示とし新たに検索したキーワードを前述の方法で出力する。ここで、選択されたキーワードの強調方法は太字や文字サイズを大きくしても良いし、非表示とするタイミングを他のキーワードより所定時間だけ遅くしても良い。また、既表示の文字列やタグの非表示化の手順は選択したキーワードとの関連性が低い文字列あるいは分類から消去しても良い。さらに、タグの文字列を第一言語で表示しても良い。

　また、「どうだった」など抽象的な問いに応答する場合のようにキーワードの選択範囲が広い場合は、抽象的なキーワードから段階的に具体的なキーワードを表示しても良い。例えば、図１３のようにまず多数のタグ１３０１のみを表示し、使用者がタグとして表示されている文字列を発話したら、図１４のように使用されたタグの文字列の色を変えて表示するとともに、他のタグを非表示とし、対話者の発話内容と使用者が使用したタグと関連するキーワードをデータベースから検索、表示する手順を用いても良い。このとき、階層の異なるキーワードやタグは表示エリア色を変える、あるいは文字の色を変えても良い。また、既述の初期設定の習熟度データから、使用者にとって所定の難易度以上のキーワードを優先的に表示しても良い。この場合、応答文字列生成部６１０は、初めは対話者の発話内容に関連したキーワードをデータベースから検索し、使用者が応答している間は所定の周期で対話者の発話内容と使用者の発話内容に関連したキーワードをデータベース（応答文辞書）から検索を行う。

　さらに、「どのくらいの頻度で」など程度を回答する場合には、図１５に示すようにタグ１５０１に表示規則を示し、キーワードを規則順に並べても良い。また、使用したキーワードにポイント情報を付加して、付加されたポイントに応じて表示する優先順位を決定しても良い。

　上記さまざまな表示態様は、応答文辞書から必要な用語の抽出、及びタグの種類、１のタグに掲載する単語、応答文の種類の選択を応答文字列生成部６１０が行い、表示色の変更、配列表示、タグ内への応答文を並べる処理を表示制御部６３０が実行することで実現される。

　上記各実施形態は、本発明を限定するものではなく、本発明の趣旨を逸脱しない範囲で様々な変更態様があり、これらも本発明の技術的範囲に属する。

　例えば、上記実施形態では、発話文字列、応答文字列を、タグを用いて表示したが、図や映像（動画像）を表示してもよい。また、応答文字列を音声で出力するためのスピーカをＨＭＤ装置１に備えてもよい。特に第五言語の場合、使用者が発言しても対話者に伝わらない場合がある。この場合、使用者は、応答文字列の選択結果を発話し、スピーカから選択された応答文字列を音声で出力してもよい。

１：ＨＡＤ装置、２：表示画面、３：カメラ、４：マイク、５：アプリ制御装置

Claims

　会話者の発話の入力を受け付け、音声情報を出力するマイクと、
　前記音声情報を文字列に変換し、発話文字列を生成する文字列生成部と、
　起動又は停止させたいプログラム及び動作モードの少なくとも一つ、及びそれらプログラム及び動作モードの其々に対し、起動又は停止させるための特定発話を関連付けた特定発話情報を格納する特定発話情報記憶部と、
　前記特定発話情報を参照して、前記発話文字列に含まれる前記特定発話を抽出し、その抽出結果を示す特定発話抽出信号を生成する特定発話抽出部と、
　前記特定発話抽出信号を参照し、前記プログラム又は動作モードを、起動又は停止させる制御部と、
　を備えることを特徴とするヘッドマウントディスプレイシステム。
　請求項１に記載のヘッドマウントディスプレイシステムにおいて、
　ヘッドマウントディスプレイ装置の使用者を識別するために、前記使用者が予め発話した音声識別情報を記憶する使用者音声情報記憶部と、
　前記マイクから出力された音声情報、及び前記音声識別情報の整合性を基に、前記会話者が前記使用者であるかを判断する発話者特定部と、を更に備え、
　前記発話者特定部は、前記会話者が前記使用者であると判断した場合に、前記プログラム又は動作モードを、起動又は停止させる、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項１に記載のヘッドマウントディスプレイシステムにおいて、
　前記プログラム又は前記動作モードを起動する際の優先度を規定した起動規則情報を記憶する起動規則情報記憶部を更に備え、
　前記制御部は、前記特定発話抽出信号を取得すると、前記起動規則情報において、当該特定発話抽出信号に従って前記プログラム又は前記動作モードを起動することが許容されている場合に、当該プログラム又は前記動作モードを起動する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項１に記載のヘッドマウントディスプレイシステムにおいて、
　会話文を構成する会話辞書を記憶する会話辞書記憶部と、
　前記会話辞書を参照し、前記発話文字列に対応する応答文字列を選択又は生成する応答文字列生成部と、
　前記使用者の眼前に配置される表示画面、及び当該表示画面に前記応答文字列を表示するための制御を行う表示制御部と、を更に備える、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項４に記載のヘッドマウントディスプレイシステムにおいて、
　前記文字列生成部は、複数の言語の内から、前記使用者の各言語の理解力に応じて一つを選択し、選択した言語を用いて前記発話文字列を生成し、
　前記応答文字列生成部は、前記複数の言語の内から、前記使用者の発言力に応じて一つを選択し、選択した言語を用いて前記応答文字列を生成する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項５に記載のヘッドマウントディスプレイシステムにおいて、
　前記複数の言語は、前記使用者が通常会話で用いる第一言語と、文字の理解はできるが前記第一言語よりも理解度が低い第二言語と、当該第二言語よりもさらに理解度が低く文字の理解が不可能な第三言語とを含み、
　前記特定発話抽出部が抽出する前記特定発話は、前記使用者が前記第二言語又は第三言語で発話された挨拶、名前、及び発話の声紋の少なくとも一つである、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項６に記載のヘッドマウントディスプレイシステムにおいて、
　前記複数の言語は、前記使用者が発言できるが、前記第一言語よりも発言力が低い第四言語と、当該第四言語よりもさらに発言力が低く、発言が不可能な第五言語とを含み、
　前記発話者特定部が、前記音声情報は前記使用者とは異なる会話者である対話者によるものと判断した場合、前記文字列生成部は、前記音声情報が第二言語によるものであると判断すると前記第二言語を用いて前記発話文字列し、前記音声情報が前記第一言語又は前記第三言語によるものであると判断すると、前記第一言語を用いて前記発話文字列を生成し、前記応答文字列生成部は、前記音声情報が第四言語によるものであると判断すると前記第四言語を用いて前記応答文字列を生成し、前記音声情報が前記第五言語によるものであると判断すると、第五言語での応答発話の発音に対応した応答文字列をローマ字あるいはカタカナで生成する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項７記載のヘッドマウントディスプレイシステムであって、
　前記文字列生成部は、前記音声情報が第二言語によるものであると判断された場合、前記対話者の発話の長さ又は発話中の単語の難易度に応じて、前記発話文字列を構成する言語を前記第二言語から第一言語に変更する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項７記載のヘッドマウントディスプレイシステムであって、
　前記文字列生成部は、言語が異なる複数の音声情報を取得すると、当該複数の音声情報のそれぞれについて前記第一言語を用いた前記発話文字列を生成する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項４記載のヘッドマウントディスプレイシステムであって、
　前記使用者の周辺環境を撮像し、撮像画像を生成するカメラと、
　前記撮像画像に、前記使用者が装着しているヘッドマウントディスプレイ装置と同機種の他のヘッドマウントディスプレイ装置が撮像されていることを示す特徴画像を検出する画像処理部と、備え、
　前記制御部は、前記特徴画像が検出された場合は、前記文字列生成部に対して前記使用者が通常会話で用いる第一言語で前記発話文字列を生成することを指示する第一言語使用信号を出力し、前記応答文字列生成部に対して、前記応答文字列の生成動作を停止させる停止信号を出力する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項４記載のヘッドマウントディスプレイシステムであって、
　外部装置と通信接続をする通信部を更に備え、
　前記通信部は、自機と同機種の他のヘッドマウントディスプレイ装置と通信が確立した場合、前記制御部は、前記文字列生成部に対して前記使用者が通常会話で用いる第一言語で前記発話文字列を生成することを指示する第一言語使用信号を出力し、前記応答文字列生成部に対して、前記応答文字列の生成動作を停止させる停止信号を出力する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項２に記載のヘッドマウントディスプレイシステムであって、
　前記使用者の眼前に配置される表示画面、及び当該表示画面に前記応答文字列を表示するための制御を行う表示制御部と、を更に備え、
　前記発話者特定部が、前記音声情報及び前記音声識別情報に基づいて、前記音声情報を発話した者が使用者として登録されていない者であると判断した場合、前記文字列生成部は、初期設定に用いる設定文字列を生成し、前記表示制御部は、前記設定文字列を前記表示画面に表示し、前記制御部は、前記使用者が前記設定文字列に対して応答して発話した音声情報に基づいて、初期設定登録を行う、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項１に記載のヘッドマウントディスプレイシステムであって、
　前記文字列生成部は、敬語及び敬称を使わない基本語により前記発話文字列を生成する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　請求項４に記載のヘッドマウントディスプレイシステムであって、
　前記表示制御部は、副詞及び形容詞を省略した前記発話文字列を表示する、又は前記副詞及び形容詞を構成する文字のサイズを標準文字サイズより小さくして表示する、
　ことを特徴とするヘッドマウントディスプレイシステム。
　会話者の発話の入力を受け付け、音声情報を出力するステップと、
　前記音声情報を文字列に変換し、発話文字列を生成するステップと、
　起動又は停止させたいプログラム及び動作モードの少なくとも一つ、及びそれらプログラム及び動作モードの其々に対し、起動又は停止させるための特定発話を関連付けた特定発話情報を参照して、前記発話文字列に含まれる前記特定発話を抽出し、その抽出結果を示す特定発話抽出信号を生成するステップと、
　前記特定発話抽出信号を参照し、前記プログラム又は動作モードを、起動又は停止させるステップと、
　を含むことを特徴とするヘッドマウントディスプレイ装置の操作方法。