CN110070861A

CN110070861A - 信息处理装置和信息处理方法

Info

Publication number: CN110070861A
Application number: CN201811600420.8A
Authority: CN
Inventors: 铃木功一
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-01-22
Filing date: 2018-12-26
Publication date: 2019-07-30
Also published as: US10943587B2; US20190228769A1; JP2019128374A

Abstract

提供了一种包括电子控制单元的信息处理装置和信息处理方法。电子控制单元被配置成：获取由用户发出的语音数据；获取与用户的状况相关联的背景信息；将语音数据转换成文本数据；在已经获取了语音数据的情况下，基于背景信息选择被参考以用于确定文本数据中包括的单词的含义的字典；将参考所选择的字典而确定的单词的含义赋予文本数据；以及基于被赋予了单词的含义的文本数据提供服务。

Description

信息处理装置和信息处理方法

技术领域

本发明涉及信息处理装置和信息处理方法。

背景技术

近来，基于由用户发出的语音执行处理的装置已经普及。例如，日本未审查专利申请公布第2007-286136号(JP 2007-286136 A)公开了：通过识别在车辆内部发声用户所处的方向并且从多个专用识别字典中选择与所识别的发声用户正在观看的信息源(控制目标装置)对应的专用语音识别字典来提高语音命令的识别率。

发明内容

然而，JP 2007-286136 A中描述的技术被设计成用于提高语音识别率的目的并且不基于对用户意图的适当理解而考虑操作。例如，当用户发出单词“樱花(sakura)”时，JP2007-286136 A中描述的技术考虑单词“樱花”被适当地识别，但是不考虑是否已经适当地理解了用户的意图，例如是否要将用户引导到以樱花闻名的地点或者是否要播放标题为“樱花”的音乐。

本发明提供了一种执行适于用户的语音意图的处理的信息处理装置和信息处理方法。

根据本发明的第一方面的信息处理装置包括电子控制单元。电子控制单元被配置成：获取由用户发出的语音数据；获取与用户的状况相关联的背景信息(contextinformation)；将语音数据转换成文本数据；在已经获取了语音数据的情况下，基于背景信息选择被参考以用于确定文本数据中包括的单词的含义的字典；将参考所选择的字典而确定的单词的含义赋予文本数据；以及基于被赋予了单词的含义的文本数据提供服务。在根据该方面的信息处理装置中，电子控制单元可以被配置成：在单词被认为具有多个含义的情况下，基于背景信息确定单词的含义。在根据该方面的信息处理装置中，背景信息可以包括用于识别由用户操作的装置显示的显示画面的标识信息和指示用户的位置的位置信息中至少之一。在根据该方面的信息处理装置中，电子控制单元可以被配置成基于背景信息选择要提供的服务。

根据本发明的第二方面的信息处理方法用于使用电子控制单元处理由用户发出的语音数据。该信息处理方法包括：使得电子控制单元获取由用户发出的语音数据；使得电子控制单元获取与用户的状况相关联的背景信息；使得电子控制单元将语音数据转换成文本数据；使得电子控制单元在已经获取了语音数据的情况下，基于背景信息选择被参考以用于确定文本数据中包括的单词的含义的字典；使得电子控制单元将参考所选择的字典而确定的单词的含义赋予文本数据；以及使得电子控制单元基于被赋予了单词的含义的文本数据提供服务。

附图说明

下面将参照附图描述本发明的示例性实施方式的特征、优点以及技术和工业意义，在附图中，相似的附图标记表示相似的元件，并且在附图中：

图1是示出根据实施方式的信息处理装置的操作的图；

图2是示出根据实施方式的信息处理装置的功能配置的图；

图3是示出由图2中所示的信息处理装置执行的处理的流程的流程图；以及

图4是示出图2中所示的信息处理装置的硬件配置的示例的图。

具体实施方式

在下文中，将参照附图描述本发明的实施方式。下面描述的实施方式仅是示例，并且不旨在排除下面未明确描述的各种修改或技术应用。也就是说，在不脱离本发明的主旨的情况下，可以以各种形式修改本发明。在下面参照附图的描述中，相同或相似的元件将由相同或相似的附图标记表示。附图是示意性的，并且附图中的尺寸、比率等不必然与实际尺寸、比率等一致。可以在附图中示出具有不同尺寸关系或比率的元件。

[1.整体配置]

在下文中，将参照图1描述根据该实施方式的信息处理***1的处理。根据该实施方式的信息处理***1包括信息处理装置100和车辆200，其中，信息处理装置100由例如服务器或计算机的电子控制单元实现，在车辆200中安装有能够与信息处理装置100进行通信的车载单元。

安装在车辆200中的车载单元具有各种功能，例如使得用户能够收听音乐的音频功能、提供针对目的地的路线引导服务的导航功能(在下文中，导航功能可以被称为“导航”)、提供天气信息的天气信息提供功能以及提供新闻的新闻信息提供功能。

此时，车载单元包括：显示装置，其显示与被提供给用户的功能对应的画面；麦克风，其接收来自用户的语音输入；以及扬声器，其使用声音向用户提供信息。

从用户输入到车载单元的麦克风的语音作为语音数据从车辆200传送到信息处理装置100，并且信息处理装置100获取语音数据，其中，信息处理装置100由例如服务器或计算机的电子控制单元实现。此时，车载单元将用于识别显示屏幕上显示的画面的画面标识符(在下文中也被称为“画面ID”)和从GPS等获取的车辆200的位置信息与语音数据一起传送到信息处理装置100，并且信息处理装置100获取与用户的状况相关联的背景信息，例如画面标识符或位置信息。

信息处理装置100将接收到的语音数据转换成文本数据，并且执行意图估计处理以分析使用文本数据的哪种含义。下面将对其细节进行描述。

可以出于不同的原因(应用)使用相同的文本或单词。例如，通过文本“樱花”，用户可能意在标题为“樱花”的音乐，或者可能意在以樱花闻名的地点。通过文字“三好市(miyoshi)”，用户可能意在爱知县的三好市或者可能意在德岛县的三好市。因此，信息处理装置100在意图估计处理中使用例如画面ID或车辆200的当前位置的基于用户的状况的信息、即背景信息，来分析文本数据中包括的单词的含义、即用户的意图。在上述示例中，在与车载单元的画面对应的画面ID指示与音频功能相关联的画面的情况下，信息处理装置100可以通过选择并参考针对音乐画面提供的音乐相关字典来确定文本“樱花”意指音乐的标题。类似地，在从车载单元接收的画面ID指示导航画面的情况下，信息处理装置100可以通过选择并参考针对导航画面提供的设施字典来确定文本“樱花”意指诸如以樱花闻名的地点的地点的特征。

类似地，在通过使用文本“三好市”选择和参考设施字典获取了包括爱知县的三好市和德岛县的三好市的两个结果的情况下，可以根据从车辆200的车载单元接收的位置信息来改变结果的优先级。例如，在所接收到的车辆200的位置信息指示爱知县的情况下，可以增加爱知县的三好市的优先级，并且在位置信息指示德岛县的情况下，可以增加德岛县的三好市的优先级。

在已经分析了文本数据的意图之后，信息处理装置100使用已经分析了其意图的文本数据，来执行从例如设施引导/目的地设置服务、音乐引导(音频操作服务)以及天气引导的各种可用服务中选择服务的处理。此时，即使语音数据的详细信息指示相同的文本数据或相同的含义(用于相同的应用)，也可以改变基于画面ID选择的服务的优先级。诸如每个服务的使用频率的信息可以被存储在个性化数据库(DB)中，并且可以基于该信息改变针对服务选择的优先级。

下面将参照图2描述根据该实施方式的信息处理装置100的功能配置。信息处理装置100包括语音数据接收单元101、背景信息接收单元103、语音识别单元105、意图估计单元107、字典DB 109、会话管理单元120、服务处理单元130、语音合成单元141和语音数据传送单元143。

语音数据接收单元101例如从安装在车辆200中的车载单元接收由用户发出的语音数据。语音识别单元105将由语音数据接收单元101接收的语音数据转换成文本数据。

背景信息接收单元103接收指示用户已在哪种状况下发出由语音数据接收单元101接收到的语音数据的背景信息。背景信息可以包括例如被分配给由车载单元显示的画面的画面ID和指示车辆200的当前位置的位置信息。在下面的描述中，假设背景信息接收单元103接收画面ID和位置信息作为背景信息。

意图估计单元107通过形态分析(morphological analysis)等划分其中用户的语音数据被转换成单词(语素)的文本数据(指示日本汉字的发音的假名)，并且然后使用由背景信息接收单元103接收的画面ID和位置信息执行意图估计处理。此时，意图估计单元107选择并参考由字典DB 109管理的公共字典111和画面个体字典(screen-individualdictionary)113A至113N(在下文中统称为画面个体字典113)。

公共字典111是不管画面ID或位置信息如何均可以用于任何文本数据的字典。在公共字典111中，单词(语素)的文本(指示日本汉字的发音的假名)与其含义(例如，包括指示在哪个背景中使用文本的信息或者诸如设施名称/地点名称/音乐/天气的词性信息)相关。

画面个体字典113是与各个画面ID相关的字典，并且仅针对关于特定画面ID的文本数据来选择和参考画面个体字典113。画面个体字典113的示例包括针对与音频功能相关联的画面准备的音乐的标题的字典以及针对导航功能中的目的地设置画面准备的地点名称或设施名称的字典。在画面个体字典113的详细信息中，与公共字典111类似，单词(语素)的文本(指示日本汉字的发音的假名)与其含义(例如，包括指示在哪个背景中使用文本的信息或者诸如设施名称/地点名称/音乐/天气的词性信息)相关。

会话管理单元120使用由意图估计单元107向其赋予含义的文本数据来管理与用户的会话。会话管理单元120包括服务确定单元121、会话功能单元123、个性化DB 125和公共槽管理表(common slot management table)127。

服务确定单元121确定用户针对哪种服务发出语音。此时，参考画面ID、在个性化DB 125中管理的关于用户对每个显示画面的服务使用历史的信息等。特别地，关于画面ID，例如，在画面ID是与音频功能相关联的画面ID的情况下，服务确定单元121可以优选地选择音频操作服务。在存在多个服务候选的情况下，服务确定单元121可以通过检查个性化DB125中的每个过去显示画面的服务使用历史，来优选地选择针对该画面ID具有高使用频率的服务。

会话功能单元123基于由服务确定单元121选择的服务与用户进行会话。具体地，基于由用户发出的文本数据的单词被应用于由公共槽管理表127管理的槽的项目，以及执行用于向用户请求缺失的项目的语音发声处理。例如，在使用导航功能中的目的地设置服务需要诸如目的地、出发地点以及是否使用收费道路的项目并且从用户输入与目的地(例如，由意图估计单元107与由用户发出的“三好市”相关联地估计的“爱知县的三好市”)相关联的值时，会话功能单元123将公共槽中的“目的地”项目替换为“爱知县的三好市”的值。在是否使用收费道路的项目是空白的情况下，会话功能单元123指示语音合成单元141合成诸如“您将使用收费道路吗？”的语音。在用于使用由服务确定单元121所选择的服务的所有槽的项目通过会话而被填充的情况下，会话管理单元120将槽的信息输出到服务处理单元130。

服务处理单元130执行从可以由信息处理装置100提供的服务131A至131M(在下文中统称为“服务131”)中选择的服务131。此时，可以通过经由与用户的会话来填充与服务131对应的内容槽133，获取顺序地需要的信息。

语音合成单元141在会话管理单元120和服务处理单元130的控制下生成语音数据，其中诸如“目的地是什么？”和“明天可以”的语音被编码成该语音数据。生成的语音数据从语音数据传送单元143传送到车辆200。

下面将参照图3描述由信息处理装置100执行的处理流程。图3是示出由信息处理装置100执行的处理流程的流程图。

在不会使处理细节不一致的情况下，下面将描述的处理步骤可以任意改变顺序或者可以并行执行，并且可以向每个处理步骤添加其他步骤。可以在多个步骤中执行被方便地描述为一个步骤的步骤，或者可以在一个步骤中执行被方便地描述为多个步骤的步骤。

首先，信息处理装置100使用语音数据接收单元101和背景信息接收单元103接收语音数据和背景信息(画面ID和位置信息)(S301)。语音识别单元105将接收到的语音数据转换成文本数据(S303)。意图估计单元107对转换后的文本数据执行形态分析等，并且然后使用所获取的单词参考登记在字典DB 109中的意图估计字典。此时，意图估计单元107选择要参考的字典(S305)。更具体地，意图估计单元107可以选择并参考公共使用的公共字典111以及与画面ID相关的画面个体字典113。在存在多个含义的情况下，可以通过使用例如画面ID或位置信息的背景信息改变含义的优先级来确定含义。

会话管理单元120的服务确定单元121在考虑会话细节、画面ID、位置信息和由个性化DB管理的服务使用历史的情况下选择服务(S307)。会话功能单元123基于由服务确定单元121选择的服务来生成要被传递给用户的语音内容(S309)。基于所生成的语音内容的语音数据由语音合成单元141生成，并且从语音数据传送单元143传送到车辆200的车载单元(S311)。

下面将参照图4描述由例如计算机的电子控制单元实现的信息处理装置100的硬件配置。信息处理装置100包括控制单元401、存储单元405、通信接口(I/F)单元411、输入单元413和显示单元415，并且这些元件经由总线417相互连接。

控制单元401包括中央处理单元(CPU)(未示出)、只读存储器(ROM)(未示出)和随机存取存储器(RAM)403。控制单元401被配置成：通过执行存储在存储单元405中的控制程序407，除了作为通用计算机的功能之外，还执行与图2中所示的元件对应的处理。更具体地，可以通过临时存储在RAM 403中并且然后由CPU执行的控制程序407来实现图2中所示的语音数据接收单元101、背景信息接收单元103、语音识别单元105、意图估计单元107、会话管理单元120、服务处理单元130、语音合成单元141和语音数据传送单元143。

RAM 403临时存储包括在控制程序407中的代码或者包括在DB 409中的信息的一部分或全部。当CPU执行各种处理时，RAM 403还用作工作区域。

存储单元405是非易失性存储介质，例如硬盘驱动器(HDD)或闪速存储器。存储单元405存储用于实现作为通用计算机的功能的操作***(OS)和作为应用程序的控制程序407。存储单元405存储包括字典DB 109和个性化DB的DB 409。

通信I/F单元411是用于在需要时向车辆200传送语音数据等以及从车辆200接收语音数据等的装置。用于信息处理装置100与车辆200之间的通信的通信***是任意的，并且其示例包括公共电话网络、因特网或其组合。

输入单元413是从用户接收输入操作的装置。输入单元413的示例包括各种按钮、触摸面板和麦克风。

显示单元415是向操作信息处理装置100的用户呈现各种信息的显示装置。显示单元415的示例包括液晶显示器(LCD)和有机电致发光(EL)显示器。

如上所述，在根据该实施方式的信息处理***1中，当在语音识别时估计意图时，将车载单元的画面(例如导航画面、目的地设置画面、菜单画面或音频画面)ID与语音内容(语音数据或语音文本)一起递送到信息处理装置100。因此，信息处理装置100可以通过针对每个显示画面预测来自用户的语音内容或者针对每个显示画面分析语音内容的倾向，来使用基于显示画面的字典或者用于意图估计的预测方法。因此，信息处理装置100可以提高对每个用户的意图估计的准确度。

上述实施方式是为了便于理解本发明，而不是为了限制性地构造本发明。实施方式中的元件及其布置、材料、条件、形状、尺寸等不限于例示的元件及其布置、材料、条件、形状、尺寸等，并且可以适当地进行修改。在不同实施方式中描述的元件可以部分地互换或组合。

在上述实施方式中，“～单元”、“～部件”、“～装置”或“～***”不仅指物理部件，并且“～单元”、“～部件”、“～装置”或“～***”的功能可以以软件来实现。一个“～单元”、“～部件”、“～装置”或“～***”的功能可以通过两个或更多个物理部件或装置来实现，并且两个或更多个“～单元”、“～部件”、“～装置”或“～***”的功能可以通过一个部件或装置来实现。

Claims

1.一种包括电子控制单元的信息处理装置，所述电子控制单元被配置成：

获取由用户发出的语音数据；

获取与所述用户的状况相关联的背景信息；

将所述语音数据转换成文本数据；

在已经获取了所述语音数据的情况下，基于所述背景信息选择被参考以用于确定所述文本数据中包括的单词的含义的字典；

将参考所选择的字典而确定的所述单词的含义赋予所述文本数据；以及

基于被赋予了所述单词的含义的所述文本数据来提供服务。

2.根据权利要求1所述的信息处理装置，其中，所述电子控制单元被配置成：在所述单词被认为具有多个含义的情况下，基于所述背景信息确定所述单词的含义。

3.根据权利要求1或2所述的信息处理装置，其中，所述背景信息包括用于识别由所述用户操作的装置显示的显示画面的标识信息和指示所述用户的位置的位置信息中至少之一。

4.根据权利要求1至3中任一项所述的信息处理装置，其中，所述电子控制单元被配置成基于所述背景信息选择要提供的服务。

5.一种使用电子控制单元处理由用户发出的语音数据的信息处理方法，所述信息处理方法包括：

使得所述电子控制单元获取由所述用户发出的语音数据；

使得所述电子控制单元获取与所述用户的状况相关联的背景信息；

使得所述电子控制单元将所述语音数据转换成文本数据；

使得所述电子控制单元在已经获取了所述语音数据的情况下，基于所述背景信息选择被参考以用于确定所述文本数据中包括的单词的含义的字典；

使得所述电子控制单元将参考所选择的字典而确定的所述单词的含义赋予所述文本数据；以及

使得所述电子控制单元基于被赋予了所述单词的含义的所述文本数据提供服务。