CN107003823B

CN107003823B - 头戴式显示装置及其操作方法

Info

Publication number: CN107003823B
Application number: CN201480083885.4A
Authority: CN
Inventors: 今川制时
Original assignee: Maxell Ltd
Current assignee: Maxell Ltd
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2020-02-07
Anticipated expiration: 2034-12-25
Also published as: US10613826B2; JPWO2016103415A1; JP6392374B2; US20180011687A1; CN107003823A; WO2016103415A1

Abstract

本发明以提高头戴式显示***的可操作性为目的。为此，头戴式显示***包括：接收会话者的发言的输入并输出语音信息的麦克风(4)；将语音信息转换成文字序列来生成发言文字序列的文字序列生成部(510)；存储特定发言信息的特定发言信息存储部(531)，在所述特定发言信息中，要起动或要停止的程序和动作模式的至少其中之一与用于使这些程序和动作模式中的每一个起动或停止的特定发言建立了关联；参考特定发言信息来提取发言文字序列中所含的特定发言并生成表示其提取结果的特定发言提取信号的特定发言提取部(530)；和参考特定发言提取信号来起动或停止程序或动作模式的控制部(540)。

Description

头戴式显示装置及其操作方法

技术领域

本发明涉及头戴式显示装置(以下简称为“HMD装置”)的操作技术。

背景技术

作为本技术领域的背景技术，专利文献1中公开了：“一种电子词典，其构成为：配备可拍摄在眼镜单元的视野内的单词或文章构成的文字序列的摄像机、和将摄像机拍摄到的文字序列的图像信息通过信号传输线路向翻译单元输出的控制部，翻译单元配备对从眼镜单元的控制部输出的文字序列的图像信号进行文字识别的OCR、对OCR文字识别出的文字序列进行翻译并通过信号传输线路将翻译结果输出到眼镜单元的控制部，眼镜单元的显示元件将翻译结果显示在显示部上”(摘要节选)。

此外，专利文献2中针对显示对对方的发言内容的回答的***有记载，公开了如下对话辅助***：“一种辅助使用者与他人之间的会话的会话辅助***，具有：输入包含使用者发出的第一语言的自然语言的源语言表现的源语言表现输入部、将源语言表现转换成基于第二语言的其它表现的源语言转换部、生成用于他人对其它表现进行回答的回答画面的回答画面生成部、和将源语言表现和其它表现以及回答画面显示在同一画面上的显示部”(摘要节选)。

现有技术文献

专利文献1：日本特开2007-280163号公报

专利文献2：日本特开2005-222316号公报

发明内容

发明要解决的课题

与智能手机或电子词典相比，将HMD装置用作外语翻译机或对话辅助装置时，由于不需握持装置，因此具有在外出或抱持物品的状况等普通生活中易于习惯的优点。

然而，在起动使用HMD装置的***或者改变工作模式的情况下，需要用户自身操作。因此，在双手没空的情况下，并非同样地操作性良好。专利文献1和专利文献2没有针对该点加以考虑。

本发明鉴于上述问题而提出，以提供能够进一步提高使用了HMD装置的***的操作性的技术为目的。

用于解决课题的技术方案

为了解决上述问题，本发明的特征在于：接收会话者的发言的输入，输出语音信息，将上述语音信息转换成文字序列，生成发言文字序列，参考特定发言信息来提取上述发言文字序列中所含的特定发言并生成表示其提取结果的特定发言提取信号，其中，在上述特定发言信息中，要起动或要停止的程序和动作模式的至少其中之一与用于使这些程序和动作模式中的每一个起动或停止的上述特定发言建立了关联，参考上述特定发言提取信号来起动或停止上述程序或动作模式。

发明效果

通过本发明，可提供能够进一步提高使用了HMD装置的***的操作性的技术。此外，上述之外的问题、结构和效果通过以下实施方式的说明可得以明了。

附图说明

图1是表示安装了本实施方式的起动/停止程序的HMD装置的外观结构例的概要的立体图。

图2是表示HMD装置的硬件结构的图。

图3是表示应用程序控制装置的功能结构的框图。

图4是表示本实施方式的HMD装置的起动/停止处理(操作方法)的流程的流程图。

图5是表示特定发言信息表的一个例子的图。

图6是表示第二实施方式的翻译程序的控制装置的功能结构的框图。

图7是表示语言种类信息表的一个例子的图。

图8是翻译程序的起动/停止处理的流程图。

图9是表示第二实施方式的翻译程序的处理流程的流程图。

图10是表示第三实施方式的HMD装置的硬件结构图。

图11是标签(tag)显示共同(共用)、肯定、否定三种分类的应答文字序列的例子的图。

图12是表示在图11的例子中改变使用者发出的应答文的显示方式后的例子的图。

图13是仅显示标签项目的显示例的图。

图14是通过标签层次化显示应答文字序列的例子的图。

图15是按一定标准建立顺序来显示应答文字序列的例子的图。

具体实施方式

以下利用附图针对本发明的实施方式进行说明。所有图中对相同结构附以相同记号并省略重复说明。

<第一实施方式>

第一实施方式为基于对话来使由HMD装置1执行的程序和动作模式的其中之一起动/停止的实施方式。首先，参考图1和图2针对HMD***的概要结构进行说明。在此图1是表示安装了本实施方式的起动/停止程序的HMD装置的外观结构例的概要的立体图。图2是表示HMD装置的硬件结构的图。

图1所示的HMD***10将HMD装置与应用控制装置5构成为一体。HMD装置1配备用于维持在HMD装置1的使用者头部安装HMD装置1的状态的安装体(主体部)1a、具备在使用者的视野内显示影像的功能的半透过性(具有透过性)的显示画面2、和以与使用者大致相同的视线拍摄周边状况(特别是对话对象)的摄像机3、收集使用者与对话者(将他们统称为“会话者”)的发言并输出语音信息的麦克风4、基于摄像信息和语音信息的输入来起动和停止包含对显示画面2的显示处理的应用程序和动作模式的应用控制装置5。

本实施方式1中，安装体1a由眼镜的框架构成，显示画面2嵌入框架中，位于使用者眼前。应用控制装置5安装在眼镜的框架中。摄像机3和麦克风4配置在应用控制装置5前部。

此外，本实施方式中将应用控制装置5与安装体1a一体地构成，但也可使应用控制装置5独立于安装体1a来构成，通过通信线缆有线连接，或者也可利用Bluetooth(蓝牙)(注册商标)无线连接。如果一体地构成，则HMD装置1的操作便利，如果独立地构成，则消除了应用控制装置5构成为可安装在框架中的尺寸这一限制，提高设计上的自由度。特别是将第二实施方式中说明的翻译***应用于本发明的情况下，需要存储各种词典的存储装置，有应用控制装置5变大的倾向，在该实施方式中适合独立结构。

参考图2针对本实施方式的应用控制装置5的硬件结构进行说明。图2是表示应用控制装置5的硬件结构的图。

如图2所示，应用控制装置5包含CPU(Central Processing Unit，中央处理器)51、RAM(Random Access Memory，随机存取存储器)52、ROM(Read Only Memory，只读存储器)53、HDD(Hard Disk Drive，硬盘驱动器)54、I/F 55和总线58。并且，CPU 51、RAM 52、ROM53、HDD 54和I/F 55通过总线58相互连接而构成。ROM(Read Only Memory，只读存储器)53、HDD(Hard Disk Drive，硬盘驱动器)54只要是能够存储程序的存储介质即可，不限制其种类，可适当变更为SSD(Solid State Drive，固态硬盘)等更易于将应用控制装置5小型化的介质。

应用控制装置5通过I/F 55连接到包含显示画面2、摄像机3和麦克风4的HMD装置1。并且，从应用控制装置5向显示画面2输出影像输出信号。摄像机3将以与使用者大致相同的视线拍摄到的拍摄画面输出到应用控制装置5。麦克风4收集使用者周边的语音，可具有指向性，使其对使用者前方的声音具有更高灵敏度。

参考图3针对应用控制装置5的功能结构进行说明。图3是表示应用控制装置5的功能结构的框图。

如图3所示，应用控制装置5包含发言者确定部510、文字序列生成部520、特定发言提取部530、控制器540和应用程序(以下称为“应用”)1、应用2、应用3。这些发言者确定部510、文字序列生成部520、特定发言提取部530和控制器540分别由实现各功能的软件和执行该软件的协同构成。各模块功能的细节参考流程图详细说明。

进一步地，应用控制装置5配备使用者语音信息存储部511、语音词典存储部521和特定发言信息存储部531。

使用者语音信息存储部511存储识别HMD装置1的使用者时参考的使用者的语音识别信息。

语音词典存储部521存储将语音信息与表音文字或表意文字关联的语音词典。

特定发言信息存储部531将要起动的程序和动作模式的至少其中之一(例如应用1、应用2、动作模式1)与起动、停止这些程序和动作模式的特定发言关联的特定发言信息存储。此外，本实施方式中，在特定发言信息中，对应规定了起动各程序或动作模式时的优先度。因此，本实施方式中特定发言信息也包含了起动规则信息，特定发言信息存储部531也起到起动规则信息存储部的功能。

接着针对各模块的关系进行说明。麦克风4是收集使用者或对话者的发言并将生成的语音信息输出到发言者确定部510。文字序列生成部520由语音信息生成由表音文字构成的文字序列(以下称为“发言者文字序列”)，并输出到特定发言提取部530。特定发言提取部530进行用于起动、停止程序或动作模式的特定发言的提取处理。特定发言提取部530在提取出用于起动的特定发言时，生成表示其结果的起动特定发言提取信号。此外，特定发言提取部530在提取出用于停止的特定发言时，生成表示其结果的停止特定发言提取信号。

特定发言提取部530将起动特定发言提取信号和停止特定发言提取信号输出到控制器(相当于控制部540)。控制器540根据起动特定发言提取信号和停止特定发言提取信号，输出用于起动或停止程序或动作模式的驱动信号或停止信号。

接着，参考图4至图5针对本实施方式的HMD装置1的起动、停止流程进行说明。图4是表示本实施方式的HMD装置1的起动/停止处理的流程的流程图。图5是表示特定发言信息表的一个例子。

麦克风4收集发言并生成语音信息，发言者确定部510判断发言者是否为使用者(S01)。如果不是使用者(S01/否)，发言者确定部510不将语音信息输出到文字序列生成部520，并重复发言者的确定处理。如果是使用者(S01/是)，发言者确定部510将语音信息输出到文字序列生成部520。

发言者确定部510从麦克风4获取语音信息，例如对该语音信息进行高速傅里叶变换处理。然后基于所获得的频率分析结果与存储在使用者语音信息存储部511中的语音识别信息的一致性，或者基于语音信息的声纹与语音识别信息的声纹的一致性，来判断是否为使用者。

文字序列生成部520将语音信息转换成发言文字序列(S02)，并输出到特定发言提取部530。文字序列生成部520参考语音词典，将从麦克风4送来的语音信息转换成由表音文字构成的发言文字序列。

特定发言提取部530基于发言文字序列与存储在特定发言信息存储部531中的特定发言信息的一致性，提取特定发言(S03)。

在此，特定发言为分别与各程序的起动动作和停止动作相关联的发言。如图5所示，特定发言信息为将作为起动或停止操作的对象的程序名与用于使其起动的起动用特定发言和用于使其停止的停止用特定发言关联而规定的数据。进一步地，在本实施方式中还在特定发言信息中规定了所谓排他性控制的有无，即在一个程序起动中，即使提取出其它程序的起动用特定发言，也不起动该其它程序。图5中，驾驶辅助程序规定为排他性控制“有”。因此，不仅在驾驶辅助程序执行中不能进行其它程序的起动，并且在其它程序执行中如果检测出驾驶辅助程序的起动用特定发言，则强制结束起动中的其它程序，仅执行驾驶辅助程序。由此，在驾驶辅助程序执行中，能够防止AR(Augmented Reality，增强现实)程序或翻译程序被执行、在驾驶员的视野中显示与驾驶无关的增强显示或文字序列而阻碍可见性等问题。

在上述例子中，举程序为例进行了说明，而在一个程序中包含多个操作模式的情况下，可对每个操作模式规定特定发言。进一步地，可不进行排他性控制，而是按多个等级设定优先度，按顺序执行作为起动、停止对象的程序和动作模式。

在特定发言被提取出(S04/是)并且该特定发言为用于起动程序或动作模式的起动特定发言的情况下(S05/是)，向控制器540输出表示检测出作为起动触发的特定发言的起动特定发言提取信号(S06)。在特定发言被提取出(S04/是)并且该特定发言不是用于停止程序或动作模式的起动特定发言的情况下(S05/否)，向控制器540输出表示检测出作为停止触发的特定发言的停止特定发言提取信号(S07)。此外，如果未提取出特定发言(S04/否)，返回步骤S01，重复处理。起动特定发言提取信号和停止特定发言提取信号为表示提取出了用于起动或停止哪个程序的特定发言的信息，因此控制器540参考这些信号能够判断出应起动、停止的程序和操作模式。

控制器540接收到起动特定发言提取信号和停止特定发言提取信号后，向作为起动或停止操作的对象的程序或操作模式输出起动信号(S08)或停止信号(S09)。由此，作为对象的程序或操作模式起动(S10)或停止(S11)。

通过本实施方式，在要利用HMD装置1执行的程序或操作模式的起动/停止处理时，使用者只需说话即可，提高了可操作性。此外，在提取特定发言时，在特定发言的提取时，由于在识别是否为使用者后执行起动/停止处理，因此在使用者以外的人的发言时，即时包含起动用特定发言或停止用特定发言，也能够防止因此而执行使用者不期望的程序或操作模式的起动、停止动作。

<第二实施方式>

第二实施方式是利用翻译程序作为第一实施方式的程序的实施方式。首先，利用图6和图7针对概要结构进行说明。图6是第二实施方式的翻译程序的控制装置(以下称为“翻译控制装置”)的功能结构的框图。图7是表示语言种类信息表的一个例子的图。

图6所示的第二实施方式的HMD装置1a是将第一实施方式的应用控制装置5替换成翻译控制装置5a而构成。翻译控制装置5a在应用控制装置5的结构的基础上配备语言种类信息存储部522、应答文字序列生成部610、应答文词典存储部611、图像处理部620和显示控制部630。

语言种类存储部522存储了图7所示的语言种类信息。语言种类信息规定了使用者对各语言的理解力(输入能力)和表达力(输出能力)。各语言分类成与理解力和表达力相应的语言种类。语言种类有：使用者通常会话使用的第一语言、能进行文字理解但理解度比第一语言低的第二语言、理解度比该第二语言更低、不能进行文字理解的第三语言、使用者能表达但表达力比第一语言低的第四语言、和表达力比第四语言更低、不能表达的第五语言。例如，理解力和表达力上日语都是第一语言，英语是第二和第四语言，汉语相当于第三和第五语言。

应答文字序列生成部610从应答文词典存储部611中存储的应答文词典选择或基于应答文词典生成与从文字序列生成部520获取的发言文字序列对应的应答文(包括文章、单词单位两者的情况)。

图像处理部620从摄像机3获取拍摄对话者所得的拍摄图像，预先基于HMD装置中具备的特征图像(条形码或标记)生成用于判断对话者是否佩戴与使用者相同的HMD装置1的对话者佩戴信号，输出到控制器540。

显示控制部630将从文字序列生成部520获取的发言文字序列和从应答文字序列生成部610获取的应答文字序列显示在显示画面2。此外，应答文字序列的显示方式有多种，可原样显示应答文字序列，也可类似后述的第四实施方式进行利用标签的显示。

图8是翻译程序的起动/停止处理的时间流程图。如图8所示，翻译控制装置5a在步骤S06中，特定发言提取部530生成起动特定发言提取信号。所以，在步骤S07中，当接收到控制器540送出的起动特定发言提取信号时，应答文字序列生成部610将用于起动图像处理部620和显示控制部630的起动信号发送到各模块。然后，各模块起动，通过这些动作，本实施方式的HMD装置能够根据使用者的发言自动地进行对话者的发言的文字序列表示或者与应答相关的文字序列的显示。

此外，特定发言提取部530检测到停止用特定发言时，将通知已检测出的消息的停止用检测信号发送到控制器540。控制器540以发送来的停止用检测信号为触发，将停止信号发送到文字序列生成部520、应答文字序列生成部610和显示控制部630，停止各模块。

参考图9针对使用第二实施方式的HMD装置的翻译***的处理流程进行说明。图9是表示第二实施方式的翻译程序的处理流程的流程图。以下，针对对话者也使用HMD装置的情况下仅显示对话者发言的翻译的方式进行说明。以下的例子中，HMD装置1判断对话者是否使用相同的HMD装置，在判断为使用的情况下，文字序列生成部520自动地切换动作，按照第一语言生成文字序列。HMD装置1的起动也以特定发言的提取为触发来进行。这种情况下，特定发言提取部提取出的特定发言也可为通过第二语言或第三语言发出的问候、名字和发言的声纹的至少其中之一。

具体地，在上述的步骤S10中，在起动应答文字序列生成部610、图像处理部620和显示控制部630后，麦克风4再次收集发言，生成语音信息。然后，当发言者确定部510判断为是与HMD装置1a的使用者不同的发言者的对话时(S21/是)，控制器540针对对话者使用信号的有无进行判断(S22)。如果发言者是使用者(S21/否)，则等待来自发言者的发言。

作为对话者使用信号的有无的判断处理的一个例子，例如有使用摄像机3输出的拍摄画面的方法。在HMD装置1a上预先贴附条形码或特有的标记。然后，图像处理部620从拍摄图像提取出拍摄有条形码或标记的区域，进行该提取出区域(特征图像)与参考用预先存储的条形码或标记的图像进行模式匹配。图像处理部620将该结果输出到控制器540。控制器540基于模式匹配的结果，判断对话者是否佩戴了HMD装置。此时，控制器540在判断HMD装置1a佩戴的有无中所用的模式匹配的结果的信号相当于对话者使用信号。

作为对话者使用信号的有无的判断处理的其它例子，例如在HMD装置1a中配备通信部710，例如为基于RFID(Radio Frequency Identification，无线射频识别)和检测器、Bluetooth(蓝牙)(注册商标)的相互通信装置，可通过相互接收各自的ID来实现。

当控制器540判断为对话者使用相同HMD装置时(S22/是)，向文字序列生成部520输出第一语言使用指示信号，指示按照使用者通常会话中使用的第一语言来生成发言文字序列，向应答文字序列生成部610输出使应答文字序列的生成动作停止的停止信号。

文字序列生成部520和应答文字序列生成部610基于发送来的信号，切换动作，使得按照使用者的第一语言生成发言文字序列，并且应答文字序列的生成停止(S23)。

在对话者未使用相同HMD装置的情况下，判断对话者的使用语言(S24)。在为第二语言的情况下(S24/第二语言)，文字序列生成部520按照第二语言生成发言文字序列(S25)。在第二语言以外的语言，即第一语言或第三语言的情况下(S24/第一语言或第三语言)，文字序列生成部520切换动作，使得按照使用者的第一语言生成发言文字序列(S23)。

进一步地，在对话者的发言在规定时间以上的情况下(长文的情况下)，或者使用词汇的难易度相对较高的情况下(S26/是)，文字序列生成部520切换到第一语言(S23)。在对话者的发言未到规定时间或者使用词汇的难易度相对较低的情况下(S26/否)，继续按照第二语言进行发言文字序列的生成。上述时间和难易度高的单词事先登记好。

应答文字序列生成部610判断对话者发言所用的语言的种类。当判断为第四语言时(S27/第四语言)，按照第四语言生成应答文字序列并显示(S28)。当判断为对话者的发言为第五语言时(S27/第五语言)，按照利用第一语言构成第五语言的语音的文字序列来生成应答文字序列并显示(S29)。例如，使用者的第一语言为日语，第四语言为英语，第五语言为汉语的情况下，在通过对话者的英语发言时生成基于英语的应答文字序列，在通过对话者的汉语发言时按照片假名或罗马字来生成与汉语的应答相关联的文字序列。

通过本实施方式，在翻译程序起动后，能够根据对话者的发言和对话者的HMD装置的佩戴的有无，来设定、改变发言文字序列和应答文字序列所用的语言的种类即动作模式。此时，由于HMD装置的使用者不需进行用于动作模式的设定、变更的操作输入，能够期待HMD装置的可操作性的提高。

以上假定对话者为一个人，利用第二语言或第一语言来生成、显示发言文字序列，而在发言者确定部510检测出多个对话者的情况下，以及文字序列生成部520判断为通过多种语言发言时，可不遵照上述处理，使发言文字序列按照第一语言生成。

此外，上述在步骤S22中判断对话者使用信号的有无，但该步骤并非必须。这种情况下，在步骤S22中文字序列生成部520可判断对话者是否利用第一语言在说话。

本实施方式的HMD装置1以通过与使用者的对话形式来自动登记使用者语音信息存储部中应存储的使用者语音信息的方式动作。因此，控制器540根据从麦克风4获得的使用者的发言信息和使用者语音信息存储部511内部存储的事先登记信息检测出使用者为初次使用。控制器540在检测出使用者为初次使用的情况下，控制各模块进行初始登记的特有动作。

具体地，首先控制器540进行控制，使文字序列生成部520以多种语言输出适当的数值和指示文字序列，使得该数值能够用母语阅读。由此确定使用者的母语。

接着，利用所确定的语言，进行控制以输出指示文字序列和多个选择肢，令使用者选择第一语言。此时，文字序列生成部520给选择肢编号以使得使用者能够通过数字回答，并输出指示以数字回答的意思的文字序列。由此确定使用者的第一语言。以下同样地确定第二语言、第三语言、第四语言、第五语言。

接着，控制器540进行用于进行自动起动的特定发言信息的登记。因此，控制器540进行控制，使文字序列生成部520按照第二语言和第四语言输出与规定问候相关的文字序列以及指示将其读出的意思的文字序列。同样地进行用于进行自动停止的特定发言的登记。在与问候相关的文字序列中也可加上使用者的第一语言之外的人名或称呼名。

此外，为了测量使用者的第二语言和第四语言的熟练度，控制器540在显示画面2上显示单词、短文或长文，验证理解度。这种情况下，可向使用者发出指示让其用第一语言读出，但将是否理解的判断交给使用者并根据使用者的“是”、“否”的发言来设定熟练度，或者根据到应答发言的时间来设定熟练度，能够在短时间内结束该设定。

文字序列生成部520为了确定适合使用者的文字大小，显示设定标准文字尺寸的意思的文字序列、用于文字大小的判定的文字序列的显示、和用于确定文字大小的发言方法，同时逐渐使判定所使用的文字从最小大小逐渐增大，检测使用者的文字大小确定发言来确定标准文字大小。

在本实施方式中，应答文字序列生成部610基于文字序列生成部520转换的文字序列来生成应答文字序列，而应答文字序列生成部610基于从麦克风4获得的语音信息来生成应答文字序列也可获得同等效果。

进一步地，本实施方式中语言种类和语音识别信息等的事先登记信息由独立的HMD装置进行，但本发明并不限定于此。例如，可将曾经进行过的事先登记的信息通过通信装置在服务器等的数据存储装置中与使用者ID关联存储。这种情况下，只要在任一HMD装置上进行了事先登记，在其它HMD头戴式显示装置的使用中，即使是第一次的情况下也可通过从服务器检索事先登记信息并下载使得不需要事先登记。此外，为了限定事先登记信息的可检索范围，可将使用者的ID分组。

此外，在本实施方式中，文字序列生成部520以基于与对话者的发言来生成文字序列的方式动作，但本发明并不限定于此。例如，在使用者从麦克风输入特定发言和要转换成第一语言的话语的情况下，按照第一语言显示该话语，或者在从麦克风输入特定发言、要从第一语言转换的话语和转换目标语言的情况下，可按照该语言显示该话语。

此外，在文字序列生成部520显示发言文字序列时，可根据难易度显示第一语言的全文翻译，也可按每个单词显示翻译。

对于上述与初始设定相关的一系列动作，也可为发言者确定部510基于语音信息和语音识别信息，判断发出语音信息的人并非作为使用者登记的人，文字序列生成部520生成用于初始设定的设定文字序列，显示控制部630将设定文字序列显示在显示画面2上，控制器540基于使用者对设定文字序列应答发出的语音信息来进行。这里与初始设定相关的一系列动作也包含特定发言的登记。

此外，上述“用于初始设定的设定文字序列”为：询问使用者在通常会话中擅长的第一语言、使用者可文字理解的第二语言和使用者无法文字理解的第三语言的文字序列；询问使用者可表达的第四语言、使用者不可表达的第五语言的询问形式的文字序列；用多种语言表示问候的言语或人名的文字序列以及提示说出该文字序列的文字序列。询问形式的文字序列为可用“是”和“否”回答的询问文字或者在各文字序列的前面添加数字，通过该数字可回答的询问文字。

<第三实施方式>

第三实施方式对经由通信装置获取对话者的发言的HMD装置的例子进行说明。图10是表示第三实施方式的HMD装置的硬件结构图的例子。图10的HMD装置1b在经由通信部710得到发言信息的点上不同。通信部710将对话者的发言信息从特定格式转换成语音信息，将转换后的语音信息输出到发言者确定部510。

这种情况下，针对对话者是否使用相同的头戴式显示装置，控制器540可通过双方的头戴式显示装置在通信部710的通信格式上附加装置ID来进行判断。

在通信部710针对对话者的发言信息通过相当于文字序列的格式输入信息并转换成文字序列信息的情况下，文字序列生成部520对从通信部710发送来的信息原样地输出通信部710转换后的文字序列信息，或者将文字序列信息简化后输出。

同样地，应答文字序列生成部610对从通信部710发送来的信息，生成针对通信部710转换后的文字序列信息的应答文字序列，将生成的文字序列发送到显示画面2。

<第四实施方式>

一般地，HMD装置能够将文字序列、图像或图形重叠显示在使用者前方的景象上是一大特征。因此，如果显示文字、图像或图像的区域大，则会造成前方景象难以看见。虽然可通过将要显示的文字、图像或图形生成虚像来产生较大地显示在数米前方的错觉，但这种情况下显示区域也有限制。此外，在通过日常使用之外的语言与其他人对话的情况下，对于翻译文字和应答推荐文字，经常有如下场景：将一次看到的文字信息限制到最少对使用者更易于使用，对话也变得更顺畅。

在本实施方式中，针对将与对话者发言相关的文字序列或应答文字序列以更少的文字序列有效地进行显示的HMD装置的例子进行说明。各模块与模块之间的关系与第一实施方式相同，故省略。以下，针对作为本实施方式的HMD装置的特征动作的文字序列生成部520和应答文字序列生成部610的文字序列生成方法和显示画面2上的显示方式，参考图11至图15进行说明。图11是表示标签显示共同(共用)、肯定、否定三种分类的应答文字序列的例子的图。图12是表示在图11的例子中改变使用者发出的应答文的显示方式的例子的图。图13是仅显示标签项目的显示例的图。图14是通过标签层次化显示应答文字序列的例子的图。图15是按一定标准建立顺序来显示应答文字序列的例子的图。

首先，文字序列生成部520以减少显示文字序列的文字数的方式生成文字序列。为此，对对话者的发言内容省略礼貌语、谦让语和尊敬语等敬语表现来生成文字序列。此外，还省略名字前后的敬称。进一步地，优先主语、动词、名词，形容词和副词省略或以小文字显示。文字序列生成部520将语音信息转换成发言文字序列后，进行词性分解处理、句法解析处理，生成省略敬语表现后的文字序列。

此外，应答文字序列生成部610从数据库中选择与对话者的发言内容相关的多个关键词，根据规定的方法将所选择的关键词分类，对每个分类后的关键词划分成带分类标签的区域来显示。或者基于规定的指标来顺序并排显示。

例如，在利用“是/否”来应答的情况下，从数据库(应答文词典)选择与应答为“是”的情况和“否”的情况相关的关键词和两者共同的关键词，并且以将所选择的关键词与“是”、“否”、“共同”标签一起显示在不同区域的方式输出显示画面2(参考图11)。

在使用者从选择肢中使用关键词的情况下，为了向使用者通知头戴式显示装置识别到关键词被使用的消息，如图12所示地将所使用的关键词(图11中的“Cloudy”)的颜色改变后，从数据库检索与对话者的发言内容和使用者所使用的关键词相关联的关键词。关键词的选择结束后，令已显示的文字序列和标签不显示，将新检索到的关键词按照上述方法输出。在此，所选择的关键词的强调方法可为粗体字或者增大文字大小，也可以使不显示的时刻比其它关键词延迟规定时间。此外，已显示的文字序列和标签的不显示的顺序可从与所选择的关键词的关联性低的文字序列或分类开始消去。进一步地，也可将标签的文字序列按照第一语言显示。

此外，类似回答“怎么样”等抽象问题的场合等关键词的选择范围较宽的情况下，可从抽象的关键词开始分层次地显示具体的关键词。例如可采用以下步骤，如图13所示地首先仅显示多个标签1301，使用者说出作为标签显示的文字序列后，如图14所示地改变所使用的标签的文字序列的颜色，并且使其它标签不显示，从数据库检索与对话者的发言内容和使用者所使用的标签相关的关键词并显示。此时，层次不同的关键词和标签改变显示区域的颜色，或者改变文字的颜色。此外，也可根据上述的初始设定的熟练度数据优先显示对使用者在规定难易度以上的关键词。这种情况下，应答文字序列生成部610首先从数据库检索与对话者的发言内容相关的关键词，在使用者应答的期间按规定周期从数据库(应答文词典)进行与对话者的发言内容和使用者的发言内容相关的关键词的检索。

进一步地，在回答“以多少频度”等程度的情况下，可如图15所示地在标签1501中对显示规则进行显示，将关键词按照规则顺序并排。此外，可在使用的关键词上附加点数信息，根据附加的点数来决定显示的优先顺序。

上述各种显示方式可如下地实现：从应答文词典提取所需的用语以及标签的种类、一个标签显示的单词、应答文的种类的选择由应答文字序列生成部610进行，显示颜色的变更、排列显示、标签内的应答文的排列处理由显示控制部630执行。

上述各实施方式并非对本发明加以限定，在不脱离本发明的主旨的范围内有各种变更方式，它们也属于本发明的技术范畴。

例如，在上述实施方式中，利用标签显示发言文字序列、应答文字序列，但也可显示图或影像(运动图像)。此外，可在HMD装置1中配备用于通过语音输出应答文字序列的扬声器。特别是在第五语言的情况下，存在使用者即使发言也无法传达给对话者的情况。这种情况下，使用者可说出应答文字序列的选择结果，从扬声器通过语音输出所选择的应答文字序列。

附图记号说明

1：HAD装置、2：显示画面、3：摄像机、4：麦克风、5：应用控制装置。

Claims

1.一种头戴式显示装置，其特征在于，包括：

接收会话者的发言的输入而输出语音信息的麦克风；

将所述语音信息转换成文字序列来生成发言文字序列的文字序列生成部；

存储特定发言信息的特定发言信息存储部，在所述特定发言信息中，要起动或要停止的程序和动作模式的至少其中之一与用于使这些程序和动作模式中的每一个起动或停止的特定发言建立了关联；

特定发言提取部，其参考所述特定发言信息来提取所述发言文字序列中所含的所述特定发言，并生成表示其提取结果的特定发言提取信号；

参考所述特定发言提取信号来起动或停止所述程序或动作模式的控制部；

存储构成会话语句的会话词典的会话词典存储部；

应答文字序列生成部，针对根据与所述头戴式显示装置的使用者不同的会话者即对话者的发言而生成的所述发言文字序列，参考所述会话词典来选择或生成与该发言文字序列对应的、供所述使用者对所述对话者作出应答的应答文字序列；和

显示控制部，其进行用于显示配置在所述使用者眼前的显示画面和在该显示画面上显示所述应答文字序列的控制。

2.如权利要求1所述的头戴式显示装置，其特征在于，还包括：

使用者语音信息存储部，其为了识别所述使用者而存储所述使用者预先说出的语音识别信息；和

发言者确定部，其基于从所述麦克风输出的语音信息与所述语音识别信息的一致性，判断所述会话者是否为所述使用者，

其中，所述发言者确定部在判断为所述会话者是所述使用者的情况下，停止或起动所述程序或动作模式。

3.如权利要求1所述的头戴式显示装置，其特征在于：

还包括存储起动规则信息的起动规则信息存储部，所述起动规则信息规定了起动所述程序或所述动作模式时的优先度，

所述控制部在获取到所述特定发言提取信号时，在所述起动规则信息中允许根据所述特定发言提取信号起动所述程序或所述动作模式的情况下，起动所述程序或所述动作模式。

4.如权利要求1所述的头戴式显示装置，其特征在于：

所述文字序列生成部根据所述使用者对各语言的理解力而从多个语言中选择一个语言，利用所选择的语言来生成所述发言文字序列，

所述应答文字序列生成部根据所述使用者的表达力而从所述多个语言中选择一个语言，利用所选择的语言来生成所述应答文字序列。

5.如权利要求4所述的头戴式显示装置，其特征在于：

所述多个语言包括所述使用者在通常会话中使用的第一语言、能进行文字理解但理解度比所述第一语言低的第二语言、理解度比该第二语言更低且不能进行文字理解的第三语言，

所述特定发言提取部所提取出的所述特定发言为所述使用者按照所述第二语言或第三语言说出的问候、名字和发言的声纹的至少其中之一。

6.如权利要求5所述的头戴式显示装置，其特征在于：

所述多个语言包含使用者能表达但表达力比所述第一语言低的第四语言和表达力比第四语言更低且不能表达的第五语言，

所述发言者确定部在判断为所述语音信息由所述对话者发出的情况下，所述文字序列生成部在判断为所述语音信息基于第二语言时，利用所述第二语言生成所述发言文字序列，在判断为所述语音信息基于所述第一语言或所述第三语言时，利用所述第一语言生成所述发言文字序列，所述应答文字序列生成部在判断为所述语音信息基于所述第四语言时，利用所述第四语言生成所述应答文字序列，在判断为所述语音信息基于所述第五语言时，按照罗马字或片假名生成与所述第五语言的应答发言的发音对应的应答文字序列。

7.如权利要求6所述的头戴式显示装置，其特征在于：

所述文字序列生成部在判断为所述语音信息基于第二语言时，根据所述对话者的发言的长度或者发言中单词的难易度，将构成所述发言文字序列的语言从所述第二语言变更为第一语言。

8.如权利要求6所述的头戴式显示装置，其特征在于：

所述文字序列生成部获取到语言不同的多个语音信息时，针对该多个语音信息的每一个生成使用所述第一语言的所述发言文字序列。

9.如权利要求1所述的头戴式显示装置，其特征在于，包括：

拍摄所述使用者的周边环境并生成拍摄图像的摄像机；和

在所述拍摄图像中检测特征图像的图像处理部，该特征图像表示拍摄到与所述使用者佩戴的头戴式显示装置相同机型的其它头戴式显示装置，

所述控制部在检测到所述特征图像的情况下，向所述文字序列生成部输出第一语言使用信号，并向所述应答文字序列生成部输出使所述应答文字序列的生成动作停止的停止信号，其中所述第一语言使用信号指示按照所述使用者在通常会话中使用的第一语言来生成所述发言文字序列。

10.如权利要求1所述的头戴式显示装置，其特征在于：

还包括与外部装置通信连接的通信部，

在所述通信部对本机与同机型的其它头戴式显示装置建立了通信的情况下，所述控制部向所述文字序列生成部输出第一语言使用信号，并向所述应答文字序列生成部输出使所述应答文字序列的生成动作停止的停止信号，其中，所述第一语言使用信号指示按照所述使用者在通常会话中使用的第一语言来生成所述发言文字序列。

11.如权利要求2所述的头戴式显示装置，其特征在于：

还包括显示控制部，其进行用于显示配置在所述使用者眼前的显示画面和在该显示画面上显示所述应答文字序列的控制，

所述发言者确定部基于所述语音信息和所述语音识别信息，在判断为发出所述语音信息的人不是作为使用者登记的人的情况下，所述文字序列生成部生成用于初始设定的设定文字序列，所述显示控制部将所述设定文字序列显示在所述显示画面上，所述控制部基于所述使用者对所述设定文字序列进行回答而发出的语音信息来进行初始设定登记。

12.如权利要求1所述的头戴式显示装置，其特征在于：

所述文字序列生成部基于不使用敬语和敬称的基本语句来生成所述发言文字序列。

13.如权利要求1所述的头戴式显示装置，其特征在于：

所述显示控制部显示省略了副词和形容词的所述发言文字序列，或者使构成所述副词和形容词的文字大小小于标准文字大小来显示。

14.一种头戴式显示装置的操作方法，其特征在于，包括：

接收会话者的发言的输入而输出语音信息的步骤；

将所述语音信息转换成文字序列来生成发言文字序列的步骤；

参考特定发言信息来提取所述发言文字序列中所含的特定发言并生成表示其提取结果的特定发言提取信号的步骤，其中，在所述特定发言信息中，要起动或要停止的程序和动作模式的至少其中之一与用于使这些程序和动作模式中的每一个起动或停止的所述特定发言建立了关联；

参考所述特定发言提取信号来起动或停止所述程序或动作模式的步骤；

存储构成会话语句的会话词典的会话词典存储步骤；

应答文字序列生成步骤，针对根据与所述头戴式显示装置的使用者不同的会话者即对话者的发言而生成的所述发言文字序列，参考所述会话词典来选择或生成与该发言文字序列对应的、供所述使用者对所述对话者作出应答的应答文字序列；和

显示控制步骤，进行用于显示配置在所述使用者眼前的显示画面和在该显示画面上显示所述应答文字序列的控制。