CN110580901B

CN110580901B - 语音识别设备、包括该设备的车辆及该车辆控制方法

Info

Publication number: CN110580901B
Application number: CN201811206662.9A
Authority: CN
Inventors: 赵诚东
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2018-06-07
Filing date: 2018-10-17
Publication date: 2024-06-28
Anticipated expiration: 2038-10-17

Abstract

一种语音识别设备、包括该设备的车辆及该车辆控制方法，该语音识别设备包括：信息采集单元，被配置为获取用户的语音信号并且从用户终端获取电话簿列表，电话簿列表包括姓名和电话号码匹配的至少一个电话簿数据块；以及语音识别引擎，基于语音识别参数识别语音信号，其中，第一控制器还被配置为基于电话簿列表确定是否改变语音识别参数值，并且基于确定结果改变语音识别参数值。

Description

语音识别设备、包括该设备的车辆及该车辆控制方法

技术领域

本公开涉及一种识别用户的语音并根据所识别的语音执行特定功能的语音识别设备、包括该设备的车辆及其控制方法。

背景技术

随着车辆技术的发展，除了驾驶这一基本的车辆功能之外，还提供了方便用户的各种功能。

特别地，当用于识别用户的语音并执行与该语音对应的功能的语音识别技术应用于车辆时，可以有效地降低用户的操作负荷。

应用语音识别技术的车辆可以在车辆内执行外部终端的各种功能，例如，通过与用户终端的通信来在车辆内执行用户终端的电话呼叫的功能。

发明内容

本公开的一个方面是提供一种能够利用用户终端的信息向用户提供优化的语音识别功能的语音识别设备、包括该设备的车辆及其控制方法。

本公开的另外方面将在下面的描述中部分阐述，并且将从描述中部分显而易见，或者可以通过实践本公开来了解。

根据本公开的一个方面，可以提供一种语音识别设备，包括：信息采集单元，被配置为获取用户的语音信号，并且从用户终端获取电话簿列表，电话簿列表包括姓名和电话号码匹配的至少一个电话簿数据块(phonebook data piece)；语音识别引擎，被配置为基于语音识别参数识别语音信号；以及第一控制器，被配置为基于电话簿列表确定是否改变语音识别参数值，并且基于确定结果改变语音识别参数值。

此外，所述信息采集单元还可以从用户终端获取呼叫历史信息。

此外，所述第一控制器可以从电话簿列表中提取电话簿数据块的总数量、姓名是一个单词的电话簿数据块的数量、以及姓名具有相似发音的电话簿数据块的数量中的至少一个信息，并且基于所提取的至少一个信息确定是否改变语音识别参数值。

此外，所述语音识别参数是精确度参数，并且所述第一控制器可以基于所提取的信息确定语音识别难度，并基于所确定的语音识别难度确定是否改变精确度参数值。

此外，当确定语音识别难度为高时，所述第一控制器可以增大精确度参数值。

此外，当确定语音识别难度低为时，所述第一控制器可以减小精确度参数值。

此外，当存在以下情况中的至少一种情况时，第一控制器可以确定语音识别难度为高：电话簿数据块的总数量大于预定数量的情况、姓名是一个单词的电话簿数据块的数量大于预定数量的情况以及姓名具有相似发音的电话簿数据块的数量大于预定数量的情况。

此外，语音识别设备还可以包括后处理单元，基于所述呼叫历史信息将后处理加权值应用于所述语音识别引擎的语音识别结果并且校正所述语音识别结果。

此外，语音识别设备还可以包括存储单元，用于存储发音串数据；以及第二控制器，被配置为确认是否停止根据语音识别引擎的语音识别结果的操作的执行，并且基于确认结果更新发音串数据，其中，所述语音识别引擎通过使语音信号和发音串数据匹配来识别语音信号。

此外，当停止根据语音识别结果的操作的执行时，所述第二控制器可以确定用户的行为模式，并且通过反映所确定的行为模式来更新发音串数据。

此外，所述第二控制器可以基于所述用户的多个说话方式、电话簿列表和呼叫历史信息中的至少一者来确定是否更新所述发音串数据。

根据本公开的另一方面，可以提供一种车辆，包括：通信单元，被配置为从用户终端接收电话簿列表，电话簿列表包括姓名和电话号码匹配的至少一个电话簿数据块；语音感测单元，被配置为感测用户发出的语音并将语音转换成语音信号；语音识别设备，被配置为获取由所述通信单元接收的用户终端的电话簿列表，基于电话簿列表改变语音识别参数值，并且基于语音识别参数识别语音信号；以及主控制单元，被配置为根据所述语音识别设备的语音识别结果向通信单元发送操作命令。

此外，所述语音识别设备可以从电话簿列表中提取电话簿数据块的总数量、姓名是一个单词的电话簿数据块的数量或者姓名具有相似发音的电话簿数据块的数量中的至少一个信息，基于所提取的至少一个信息来确定是否改变语音识别参数值，并且根据确定结果改变语音识别参数值。

此外，所述语音识别参数可以是精确度参数，并且所述语音识别设备可以基于提取的信息确定语音识别难度，并基于确定的语音识别难度确定是否改变精确度参数值。

此外，当确定语音识别难度具有比参考值高的值时，所述语音识别设备可以增大精确度参数值，并且当确定语音识别难度具有比参考值低的值时减小精确度参数值。

根据本公开的另一方面，可以提供一种车辆控制方法，包括以下步骤：确认车辆和用户终端是否通信连接；从用户终端获取电话簿列表，电话簿列表包括姓名和电话号码匹配的至少一个电话簿数据块；基于电话簿列表改变语音识别参数值；感测用户发出的语音并将语音转换成语音信号；基于语音识别参数来识别语音信号，以生成语音识别结果；根据语音识别结果，发送操作命令；从用户终端获取呼叫历史信息；以及基于呼叫历史信息将后处理加权值应用于语音识别结果并且校正语音识别结果。

此外，基于电话簿列表改变语音识别参数值的步骤可以包括：从电话簿列表中提取电话簿数据块的总数量、姓名是一个单词的电话簿数据块的数量或者姓名具有相似发音的电话簿数据块的数量中的至少一个信息；以及基于提取的信息确定是否改变语音识别参数值，并且根据确定结果改变语音识别参数值。

此外，所述语音识别参数是精确度参数，其中，基于电话簿列表改变语音识别参数值的步骤可以包括：基于提取的信息确定语音识别难度；并且基于所确定的语音识别难度来改变精确度参数值，并且其中，基于所确定的语音识别难度改变精确度参数值的步骤可以在确定语音识别难度为高时增大精确度参数值，并且在确定语音识别难度为低时减小精确度参数值。

此外，当存在以下情况中的至少一种情况时，基于提取的信息确定语音识别难度的步骤可以确定语音识别难度为高：电话簿数据块的总数量大于预定数量的情况、姓名是一个单词的电话簿数据块的数量大于预定数量的情况以及姓名具有相似发音的电话簿数据块的数量大于预定数量的情况。

此外，车辆控制方法还可以包括：通过将预先存储的发音串数据与语音信号匹配来生成语音识别结果；确认是否停止根据语音识别结果的操作的执行；并且基于确认结果更新发音串数据，其中，当停止根据语音识别结果的操作的执行时，基于确认更新发音串数据的步骤确定用户的行为模式，并且通过反映所确定的行为模式来更新发音串数据。

附图说明

图1是示出根据本公开的示例性实施方式的车辆的外观的视图。

图2是示出根据本公开的示例性实施方式的车辆的内部配置的视图。

图3是根据本公开的示例性实施方式的车辆的控制方框图。

图4是根据本公开的示例性实施方式的语音识别设备的控制方框图。

图5A和图5B是用于解释根据本公开的示例性实施方式的语音识别设备的参数设定操作的表。

图6是根据本公开的示例性实施方式的车辆控制方法的流程图。

图7是根据本公开的示例性实施方式的车辆控制方法的流程图。

图8是根据本公开的示例性实施方式的车辆控制方法的流程图。

具体实施方式

在下文中，将参考附图描述本公开的工作原理和实施方式。

参照图1，根据本公开的示例性实施方式的车辆1包括用于移动车辆1的行驶轮51和52、用于将车辆1的内部与外部屏蔽的门71和72、用于向车辆1内部的驾驶员提供车辆1前方的视野的前玻璃30、以及用于向驾驶员提供车辆1后方的视野的侧镜81和82。

行驶轮51和52包括设置在车辆1前部的前轮51和设置在车辆1后部的后轮52，并且根据车辆1的驱动方法向前轮51或后轮52提供旋转力。当车辆1是前轮驱动车辆时，向前轮51提供旋转力，当车辆是后轮驱动车辆时，向后轮52提供旋转力。当车辆1是四轮驱动车辆时，将旋转力提供给前轮51和后轮52两者。

门71和72可旋转地设置在车辆1的左侧和右侧，以允许驾驶员在打开时进入车辆1的内部，并且在关闭时将车辆1的内部与外部屏蔽。

前玻璃30设置在车辆1的前上侧，使得车辆1内的驾驶员可以获得车辆1前方的视觉信息，并且也称为挡风玻璃。

侧镜81和82包括设置在车辆1左侧的左侧镜81和设置在右侧的右侧镜82，并且允许车辆1内的驾驶员获得关于车辆1的侧面和后方的视觉信息。

参照图2，音频视频导航(AVN)装置23可以设置在作为仪表板10的中心区域的中心仪表板11处。AVN装置23是可以整体执行音频、视频和导航功能或者执行这些功能中的一些功能的装置，并且显示器21可以选择性地显示音频屏幕、视频屏幕和导航屏幕中的至少一个。另外，显示器21可以显示与车辆1的控制相关的各种控制屏幕、显示关于车辆1的状态的信息的屏幕、或者与可以在AVN装置23中执行的额外功能相关的屏幕。

显示器21可以被实现为例如液晶显示器(LCD)、发光二极管(LED)、等离子显示面板(PDP)、有机发光二极管(OLED)和阴极射线管(CRT)的多种显示设备中的一个。

用户可以通过操作输入单元240来输入用于控制AVN装置23的命令(见图3)。可以在与显示器21邻近的区域中，以硬键类型(hard key type)设置输入单元240，如图2所示。在显示器21被实现为触摸屏类型的情况下，显示器21也可以执行输入单元240的功能。

可以有线连接到用户终端的多终端27可以设置在中心仪表板11上。即，多终端27能够在车辆1和用户终端之间执行有线通信。

在此处，多终端27包括通用串行总线(USB)端口和辅助(AUX)终端，并且还可以包括安全数字(SD)插槽，并且可以通过连接器或电缆电连接到外部装置。

在这种情况下，外部装置可以包括存储装置、用户终端、MP3播放器等，并且存储装置可以包括卡型存储器和外部硬盘。另外，用户终端可以包括智能电话、笔记本、平板电脑等作为移动通信终端。

轻推式(jog shuttle type)或硬键类型中心输入单元43可以设置在中央控制台40上。中央控制台40是指档位操纵杆41和托盘42设置在驾驶员座椅21和前排乘客座椅22之间的区域。中心输入单元43可以执行包括在AVN装置23中的输入单元240的全部或一些功能。

根据本公开的示例性实施方式的车辆1可以通过语音感测单元220感测用户的语音命令，并将感测的语音命令用作控制基础。

语音感测单元220可以包括麦克风。当输入用户的说话方式时，语音感测单元220将语音转换成电信号并将电信号输出到语音识别设备100。在以下实施方式中，将描述语音感测单元220被实现为麦克风的情况，作为示例。

为了有效的语音识别，麦克风可以如图2所示安装到顶篷13，但是本公开的实施方式不限于此。即，麦克风也可以安装在仪表板10上或者安装在方向盘12上。此外，只要麦克风处于适合接收用户语音的位置，就没有限制。

能够输出声音的扬声器260设置在车辆1内部。可以通过扬声器260输出执行音频功能、视频功能、导航功能以及诸如语音识别指导等其他额外功能所需的声音。

图3是根据本公开的示例性实施方式的车辆的控制方框图。

参照图3，根据本公开的示例性实施方式的车辆1可以包括能够与用户终端通信的通信单元210、用于感测用户发出的语音的语音感测单元220、用于识别用户的感测语音的语音识别设备100、用于从用户接收各种输入的输入单元240、以及能够控制车辆1内部的各种配置的主控制器230。

首先，通信单元210可以通过与用户终端的通信从用户终端接收各种信息，并将车辆1的信息发送给用户终端。

通信单元210可以与用户终端执行无线通信或有线通信。通信单元210可以在用户终端和主控制器230之间发送和接收信息，并且还可以在执行识别功能时在用户终端和语音识别设备100之间发送和接收信息。在这种情况下，要发送和接收的信息可以是电话簿列表、呼叫历史信息、语音信息和操作命令信息，并且电话簿列表可以包括姓名和电话号码匹配的至少一个电话簿数据块。

如图3所示，通信单元210可以直接连接到车辆1的主控制器230，以将通过主控制器230从用户终端接收的信息发送到语音识别设备100。通信单元210也可以直接连接到语音识别设备100。

通信单元210是硬件装置并且可以包括执行无线通信的无线通信模块，并且还包括一个或多个部件。例如，除了无线通信模块之外，通信单元210还可以包括短程通信模块和有线通信模块中的至少一个。

无线通信模块可以包括支持各种无线通信方法的无线通信模块，例如，Wi-Fi模块、无线宽带模块、全球移动通信***(GSM)、码分多址(CDMA)、宽带码分多址(WCDMA)、时分多址(TDMA)和长期演进(LTE)。

短程通信模块可以包括使用无线通信网络短程发送和接收信号的各种短程通信模块，例如，蓝牙模块、红外通信模块、射频识别(RFID)通信模块、无线局域网(WLAN)通信模块、NFC通信模块和Zigbee通信模块。

有线通信模块不仅可以包括例如控制器局域网(CAN)通信模块、局域网(LAN)模块、广域网(WAN)模块和增值网络(VAN)的各种有线通信模块，还可以包括例如通用串行总线(USB)、高清多媒体接口(HDMI)和数字视频接口(DVI)的各种有线通信模块。

另外，通信单元210可以外部连接到主控制器230或者嵌入到主控制器230中。

语音感测单元220可以感测用户发出的语音，并将感测到的语音信号发送到主控制器230或语音识别设备100。

由语音感测单元220感测到的语音信号可以用作语音识别设备100的控制基础，这将在后面描述，以识别与感测到的语音信号对应的控制命令并生成语音识别结果。

当输入单元240输入语音识别执行命令以感测用户的语音时，可以激活语音感测单元220。另外，当接通车辆1的启动时，可以激活语音感测单元220，以感测用户的语音。

输入单元240可以从用户接收语音识别执行命令，并且还可以接收与车辆1中的各种装置相关的命令。由于上面已经描述了输入单元240，所以省略了对输入单元240的描述。

语音识别设备100可以采集由语音感测单元220感测到的用户的语音信号并识别采集到的语音信号。

在这种情况下，识别语音信号可以包括用于确定与所采集的语音信号对应的操作命令，并且用于识别具有所确定的操作命令的装置的一系列操作。

语音识别设备100可以生成语音识别结果，包括所确定的操作命令和被识别为具有操作命令的装置。

语音识别设备100可以将生成的语音识别结果发送给主控制器230，使得主控制器230将控制命令发送给识别的装置。

此外，语音识别设备100可以直接将操作命令发送到所识别的装置。

稍后将描述语音识别设备100的语音识别操作和语音识别结果生成操作的详细描述。

主控制器230可以控制车辆1内部的各种配置。

特别地，当在用户终端和通信单元210之间输入配对命令时，主控制器230可以执行与用户终端的配对并且控制通信单元210执行与用户终端的通信。

当输入语音识别功能执行命令时，主控制器230还可以控制语音识别设备100以激活语音识别设备100。

在这种情况下，主控制器230可以将由语音感测单元220感测到的用户的语音信号发送到语音识别设备100并且从语音识别设备100接收语音识别结果，并且提供与语音识别结果对应的功能。

主控制器230可以接收作为语音识别结果的操作命令和被确认为具有操作命令的装置的信息。所确认的装置可以是车辆1内部的各种配置，包括空调、音频设备、车辆终端、扬声器260和显示器21，或者可以是用户终端。

如果所确认的装置是用户终端，则主控制器230可以控制通信单元210向用户终端发送对应的操作命令。

由此，主控制器230可以提供与用户发出的语音对应的功能。

另一方面，在提供与用户发出的语音对应的功能时，由于每个用户的发音可能不同，并且用户的个人信息可能不同，因此语音识别性能的差异可能取决于为每个用户存储的信息。语音识别性能的这种差异可能导致语音识别精确度和语音识别速度的差异，造成用户满足感的差异。

传统的语音识别***基于用户电话簿列表的平均值和预定的识别性能信息应用固定参数值。在这种情况下，如果存储的电话簿数据块的数量很大，并且电话簿数据中指定的姓名中有许多姓名包括难以识别的单词，例如，单音节姓名导致识别速率降低，则有必要选择可以提高识别速率而不是反应速率的参数值。另一方面，如果电话簿数据块的数量很少，则有必要选择可以提高反应速率而不是识别速率的参数值。

因此，重要的是，基于用户的个人信息设置参数值，这些个人信息可能因用户而异，例如，用户的电话簿列表和呼叫历史信息。

在下文中，将参照图4、图5A和图5B描述根据本公开的示例性实施方式的语音识别设备的具体操作。

图4是根据本公开的示例性实施方式的语音识别设备的控制方框图，图5A和图5B是用于解释根据本公开的示例性实施方式的语音识别设备的参数值的设置操作的表。

参照图4，根据本公开的示例性实施方式的语音识别设备100可以包括信息采集单元110、第一控制器120、预处理单元130、语音识别引擎140、后处理单元150、存储单元170和第二控制器160。

首先，信息采集单元110可以获取从用户终端接收的信息以及从通信单元210接收的信息。此时，信息采集单元110接收的信息包括：电话簿列表，电话簿列表包括在用户终端中存储的姓名和电话号码匹配的至少一个电话簿数据块；呼叫历史信息；感测到的语音信号信息；以及操作命令信息等。

为此，信息采集单元110可以从主控制器230接收信息，并且可以从通信单元210接收信息。

特别地，由信息采集单元110采集的用户终端的电话簿列表和呼叫历史信息中的至少一个可以用作第一控制器120和后处理单元150的控制基础，这将在后面描述。在一些实施方式中，信息采集单元110和语音识别引擎140可以嵌入在第一控制器120中。

信息采集单元110可以是信息采集处理器。

第一控制器120可以从由信息采集单元110采集的电话簿列表和呼叫历史信息中的至少一个来确定是否改变语音识别引擎140的语音识别参数值，这将在后面描述，并且根据确定结果改变语音识别参数值。

具体地，第一控制器120可以从信息采集单元110采集的电话簿列表中提取确定是否改变语音识别参数值所需的信息。第一控制器120可以从电话簿列表中提取：电话簿数据块的总数量、指定姓名是一个单词的电话簿数据块的数量、以及指定姓名具有相似发音的电话簿数据块的数量中的至少一个。

第一控制器120可以将每个提取的信息块与预定参考值进行比较，并且根据比较结果确定是否改变语音识别参数值。在这种情况下，参考值可以是平均值或预先存储的值。

例如，第一控制器120可以在确定提取的信息中的电话簿数据块的总数量大于预定参考值时增大语音识别精确度参数值。

作为另一示例，当确定在提取的信息中指定姓名是一个单词的电话簿数据块的数量大于预定参考值时，第一控制器120可以增大语音识别精确度参数值。

作为另一示例，当确定指定姓名具有相似发音的电话簿数据块的数量大于预定参考值时，第一控制器120可以增大语音识别精确度参数值。

此外，第一控制器120可以在每个提取的信息块具有高于预定参考值的值时增大参数值，并且在每个提取的信息块具有低于预定参考值的值时减小参数值。

另外，当提取的信息具有与参考值相同的值时，第一控制器120可以不改变参数值。

此外，第一控制器120可以从由信息采集单元110采集的电话簿列表中确定语音识别难度，并且优化语音识别引擎140的语音识别参数，这将在后面描述。

具体地，第一控制器120可以从电话簿列表中确定语音识别难度，并且根据所确定的语音识别难度来改变语音识别引擎140的语音识别参数值。

当存在以下中的至少一种情况时，第一控制器120可以确定语音识别难度为高：确定电话簿数据块的总数量大于预定参考值的情况、确定指定姓名是一个单词的电话簿数据块的数量大于预定参考值的情况以及指定姓名具有相似发音的电话簿数据块的数量大于预定参考值的情况。

当确定语音识别难度高时，第一控制器120可以改变语音识别引擎140的语音识别参数值。具体地，第一控制器120可以增大语音识别引擎140的精确度参数值。

由此，第一控制器120可以通过设置参数值来为用户提供更精确的语音识别功能，以便在语音识别难度高时，提高识别的精确度，而不是反应速率。

此外，当存在以下至少一种情况时，第一控制器120可以确定语音识别难度为低：确定电话簿数据块的总数量小于预定参考值的情况、确定指定姓名是一个单词的电话簿数据块的数量小于预定参考值的情况以及指定姓名具有相似发音的电话簿数据块的数量小于预定参考值的情况。

当确定语音识别难度低时，第一控制器120可以改变语音识别引擎140的语音识别参数值。具体地，第一控制器120可以减小语音识别引擎140的精确度参数值。

在这种情况下，语音识别难度低，并且即使精确度参数值减小，也可以确保识别性能，使得第一控制器120可以通过设置参数值来进一步提高用户的满意度，以便提高反应速率，而不是精确度。

可以使用一个或多个处理器来实现在本文中公开的包括语音识别设备100和/或其元件的实施方式的各种实施方式，所述处理器耦接到存储计算机可执行指令的存储器(或其他非瞬态机器可读记录介质)，用于促使处理器执行上述功能，包括关于信息采集单元110、第一控制器120、预处理单元130、语音识别引擎140、后处理单元150和第二控制器160描述的功能。

另外，第一控制器120和第二控制器160可以是电子控制单元(ECU)。

图5A是用于解释当电话簿数据块的数量大于参考值时第一控制器的参数设定操作的表。

如图5A所示，根据本公开的示例性实施方式的语音识别设备100的语音识别***的参考值可以具有以下值：电话簿数据块的数量：1000；识别速率：95％；反应时间：3.0秒；以及精确度参数：1500。

当用户电话簿数据块的数量为5000，并且应用精确度参数的参考值(1500)和反应时间的参考值(3.0秒)时，识别速率变为80％。在这种情况下，低识别速率可能会给具有大量电话簿数据块的用户带来不便。

当电话簿数据块的数量(5000)大于参考值(1000)时，第一控制器120可以确定识别难度高。在这种情况下，第一控制器120可以通过将精确度参数值从1500改变为2500来增大精确度参数值。随着精确度参数值的增大，识别速率从80％(变化前)变为90％(变化后)，从而可以提供更准确的语音识别功能。

在这种情况下，通过增大精确度参数值，反应时间增大到4.0秒。然而，识别速率的提高而不是反应时间的缩短可以给具有大量电话簿数据块的用户带来更好的满意度。

因此，第一控制器120可以通过增大精确度参数值的操作来提供适合于具有大量电话簿数据块的用户的语音识别功能。

图5B是用于解释当电话簿数据块的数量小于参考值时第一控制器的参数设定操作的表。

如图5B所示，根据本公开的示例性实施方式的语音识别设备100的语音识别***的参考值可以具有以下值：电话簿数据块的数量：1000；识别速率：95％；反应时间：3.0秒；以及精确度参数：1500。

在这种情况下，当用户的电话簿数据块的数量是100个时，用户可能对更快的反应速率而不是准确识别感到满意。

当电话簿数据块的数量(100)小于参考值(1000)时，第一控制器120可以确定识别难度低。在这种情况下，第一控制器120可以通过将精确度参数值从1500变为500来减小精确度参数值。通过减小精确度参数值，反应时间进一步从2.0秒(变化前)缩短到1.0秒(变化后)，因此可以提供更快的语音识别功能。

在这种情况下，随着精确度参数值的减小，识别速率从95％(变化前)变为94％(变化后)，因此，精确度略有降低。然而，缩短反应时间而不是提高识别速率可以给具有少量电话簿数据块的用户带来更好的满意度。

因此，第一控制器120可以通过减小精确度参数值的操作来提供适合于具有少量电话簿数据块的用户的语音识别功能。

预处理单元130可以从由语音感测单元220感测到的语音信号中去除噪声信号，并提取特征向量。对其执行预处理的语音信号可以是数字信号。预处理单元130可以执行模数转换，并且转换成数字信号的语音信号可以输入到预处理单元130。

预处理单元130可以从去除噪声信号的语音信号中提取特征，并且此时提取的特征可以是向量形式。例如，预处理单元130可以通过将诸如倒谱(cepstrum)、线性预测系数(LPC)、梅尔频率倒谱系数(MFCC)或滤波器组能量(filter bank energy)等特征向量提取技术应用于已经去除噪声信号的语音信号，来提取特征向量。

然而，语音识别设备100不一定包括预处理单元130，并且可以省略。

语音识别引擎140可以将由语音感测单元220感测到的语音信号与参考发音串数据(reference pronunciation string data)进行比较，并且根据比较结果将感测到的语音信号与参考发音串数据的命令字进行匹配。

具体地，语音识别引擎140可以根据由语音感测单元220感测到的语音信号和存储在存储单元170中的参考发音串数据之间的匹配结果来计算相似度，并且可以按照最高相似度的顺序，列出参考发音串数据的命令字。

此时，语音识别引擎140可以将参考发音串数据的命令字中与语音信号具有最高相似度的命令字(即，列出的命令字中的最高优先级命令字)与感测到的语音信号匹配。在这种情况下，列出的命令字也可以存储在存储单元170中。

或者，语音识别引擎140可以通过将预处理单元130提取的特征向量与训练的参考模式进行比较来识别语音信号。例如，可以使用模拟和比较语音的信号特征的声音模型以及模拟与识别词汇对应的单词或音节的语言顺序关系的语言模型。用于比较特征向量的参考模式或模型可以存储在存储单元170中。

声学模型可以分为：将识别对象设置为特征向量模型并将其与语音数据的特征向量进行比较的直接比较方法，以及对识别对象的特征向量进行统计处理并利用的统计方法。

直接比较方法是一种将识别目标单词和音素(phoneme)的单位设置为特征向量模型并将输入语音的相似度与特征向量模型进行比较的方法，并且通常，具有向量量化方法。根据向量量化方法，输入语音数据的特征向量映射到作为参考模型的码本(codebook)，并且被编码成代表值，从而将代码值彼此比较。

统计模型方法是一种将识别目标的单元构建为状态序列并使用状态序列之间的关系的方法。状态序列可以由多个节点组成。作为使用状态序列之间关系的方法，具有动态时间扭曲(DTW)、隐马尔可夫模型(HMM)和使用神经网络的方法。

考虑到语音的动态特性，动态时间扭曲是一种在与参考模型相比时补偿时间轴差异的方法，其中，即使同一个人对同一个单词发音，信号的长度也会随时间变化。隐马尔可夫模型是一种识别技术，该技术通过学习数据来估计状态转换概率和节点观察概率，并在假设语音是在每个状态中具有节点(输出符号)的状态转换概率和观察概率的马尔可夫过程之后，计算输入语音出现在估计模型中的概率。

另一方面，模拟单词和音节的语言顺序关系的语言模型可以通过将构成语言的单元之间的顺序关系应用于通过语音识别获得的单元来减少声学歧义并减少识别错误。语言模型包括统计语言模型和基于有限状态自动机(FSA)的模型，并且在统计语言模型中，使用诸如一元语法、二元语法和三元语法等单词的链式概率。

语音识别引擎140可以使用任何上述方法来识别语音信号。

在这种情况下，语音识别引擎140识别语音信号的操作可以包括用于确定对应于由信息采集单元110采集的语音信号的操作命令，并且识别具有所确定的操作命令的装置的一系列操作。

语音识别引擎140可以生成包括确定的操作命令和已经发现具有这种操作命令的装置的语音识别结果。

由语音识别引擎140生成的语音识别结果可以包括在参考发音串数据的命令字中与语音信号的相似度在预定范围内的命令候选。语音识别引擎140的这种语音识别结果可能包括错误。因此，语音识别设备100还可以包括后处理单元150，并且后处理单元150可以检测包括在识别结果中的错误，并且通过应用各种后处理算法中的一种算法来校正该错误。

具体地，当语音识别引擎140生成语音识别结果时，后处理单元150可以基于由信息采集单元110采集的用户的呼叫历史信息将后处理加权值应用于语音识别结果，以校正语音识别结果。

后处理单元150可以校正在语音识别结果中列出的命令字。具体地，后处理单元150可以通过将后处理加权值应用于由语音识别引擎140计算的语音信号和参考发音串数据之间的相似度来校正列出的命令字的顺序。

例如，后处理单元150可以使用所采集的用户的呼叫历史信息来计算电话簿列表中包括的每个电话簿数据块的呼叫重拨概率，并且将基于所计算的呼叫重拨概率的加权值应用于语音信号和参考发音串数据之间的相似度。

在这种情况下，可以应用加权值，使得在参考发音串数据的命令字中具有高呼叫重拨概率的电话簿数据的命令字比其他电话簿数据的命令字更类似于语音信号。另外，根据加权值的应用，在列出的命令字中具有最高优先级的命令字可以是用于具有高呼叫重拨概率的电话簿数据的命令字。

作为另一示例，后处理单元150可以根据所采集的用户的呼叫历史信息将高的后处理加权值应用于具有高的呼叫历史频率的电话簿数据。另外，后处理单元150可以将低的后处理加权值应用于所采集的用户呼叫历史信息中具有低的呼叫历史频率的电话簿数据。

这样，由于可以通过反映用户的呼叫历史信息来校正识别结果，所以可以执行更适合于每个用户的语音识别功能，并且可以增大用户的便利性。

第二控制器160可以相对于由语音识别引擎140生成的语音识别结果来确定用户的行为模式，并且可以基于所确定的用户的行为模式来更新存储在存储单元170中的发音数据。

在这种情况下，用户的行为模式是指用户手动输入的用于执行特定功能的控制命令。

具体地，生成包括与语音信号对应的操作命令以及被识别为具有操作命令的装置的语音识别结果，因此，当所识别的装置执行操作时，第二控制器160可以确认是否停止根据所识别的装置的语音识别结果的操作的执行。

如果确认停止根据识别的装置的语音识别结果的操作的执行，则第二控制器160可以通过采集根据用户的手动操作的操作命令和被识别为具有操作命令的装置信息来确定用户的行为模式。

即，第二控制器160可以将基于用户发出的语音所识别的发音串数据与用户直接选择的操作命令的命令字的发音相匹配，并且通过采集匹配结果来确定用户的行为模式。

例如，在用户发出‘呼叫Mary’但被识别为‘Harry’的情况下，即，在电话簿数据的姓名与用户发出的姓名不完全匹配并且用户没有期望的语音识别结果的情况下，用户可以手动操作用户终端，使得在电话簿列表中选择指定为‘我的爱人Mary’的电话簿数据之后，执行电话功能。

在这种情况下，第二控制器160可以通过将‘我的爱人Mary’添加到名为‘Mary’的电话簿数据的发音串数据中，来更新存储在存储单元170中的现有发音串数据。

此后，当用户发出消息‘呼叫Mary’时，第二控制器160可以通过使用更新的现有发音串数据来发送操作命令，用于向指定为‘我的爱人Mary’的电话簿数据发送呼叫。

此时，第二控制器160可以在根据语音识别结果发送操作命令之前请求用户进行确认，并且当从用户输入用于确认请求的确认命令时，发送操作命令，以执行操作。

由此，即使当由于存储的姓名和发出的内容之间的差异而发生电话簿数据的姓名匹配错误时，也可以表达用户期望的语音识别结果，从而可以增大用户的便利性。

此外，可能存在用户发出的发音与标准发音不一致的情况。即，如果一个单词可以被不同地发音，则语音识别结果可能包括错误。例如，在外文姓名的情况下，可以不同地发音。

第二控制器160可以通过将用户发出的语音的发音与对应于该发音的发音串数据进行匹配来确定用户最喜欢的发音。由此，可以期望提高适合于每个用户的识别速率。

此外，第二控制器160可以基于是否停止根据所生成的语音识别结果的操作的执行来确定是否更新所存储的发音串数据。此时，确定是否更新发音串数据，可以包括确定是否确定用户的行为模式。

当确认停止根据生成的语音识别结果的操作时，即，当用户停止根据语音识别结果的操作并通过手动操作输入操作命令时，第二控制器160可以确定更新存储的发音串数据。

在这种情况下，第二控制器160可以在停止根据所生成的语音识别结果的操作之后，基于用户输入特定操作命令的次数来确定是否更新所存储的发音串数据。

例如，当停止根据所生成的语音识别结果的操作的执行并且根据用户的手动操作输入特定操作命令的情况重复三次或更多次时，第二控制器160可以确定更新所存储的发音串数据。

由此，第二控制器160可以仅在需要更新发音串数据时更新，并且防止由于错误发音串数据的更新而导致语音识别性能恶化。

此外，第二控制器160可以分析语音识别结果和用户手动执行的操作之间的相似度，并且根据分析结果确定是否更新存储的发音串数据。

具体地，当语音识别结果和用户手动执行的操作之间的相似度大于或等于预定值时，第二控制器160可以确定更新存储的发音串数据。

当确定要更新存储的发音串数据时，第二控制器160可以基于用户手动执行的操作来确定用户的行为模式。

这样，只有当可以确认用户的意图时，才可以执行发音串数据的更新和用户行为模式的确定。因此，可以执行更准确的确定，并且可以预期提高识别性能。

此外，第二控制器160可以基于用户的多个说话方式、存储的电话簿列表和呼叫历史信息中的至少一者来确定是否更新存储的发音串数据。

具体地，当用户针对特定单词的多个说话方式小于预定的多个说话方式时，第二控制器160可以确定不更新对应单词的发音串数据。

此外，第二控制器160可以基于呼叫历史信息来确定不更新不具有呼叫历史的电话簿数据的发音串数据。

由此，由于可以防止由于错误发音串数据的更新而导致的语音识别性能的劣化，所以可以预期提高识别性能。

另一方面，第一控制器120、预处理单元130、语音识别引擎140、后处理单元150和第二控制器160中的至少一个可以包括：存储器，用于存储执行相应操作所需的例如程序和算法的各种数据；以及处理器，用于执行存储在存储器中的程序以处理数据。

第一控制器120、预处理单元130、语音识别引擎140、后处理单元150和第二控制器160中的一些或全部可以共享处理器或存储器。

即，一个处理器可以执行第一控制器120、预处理单元130、语音识别引擎140、后处理单元150和第二控制器160的一些或全部功能，或者一个存储器可以存储第一控制器120、预处理单元130、语音识别引擎140、后处理单元150和第二控制器160的一些或全部功能所需的数据。

如上所述，存储单元170可以存储可以用作语音识别引擎140的控制基础的参考发音串数据以及存储列出的命令字。存储单元170还可以存储用于与预处理单元130提取的特征向量进行比较的参考模式或模型。

存储单元170可以包括非易失性存储器(例如，闪存、只读存储器、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))中的至少一个，并且还包括易失性存储器(例如，随机存取存储器(RAM)、静态随机存取存储器(S-RAM)和动态随机存取存储器(D-RAM))中的至少一个。

第一控制器120、预处理单元130、语音识别引擎140、后处理单元150和第二控制器160可以与存储单元170共享存储器或者可以具有单独的存储器。除了语音识别设备100的部件之外，还可以与车辆1的其他部件共享存储器或处理器。

此外，处理器和存储器可以根据其容量设置为单个配置、多个配置、物理分离的配置或单个芯片。

参照图6，根据本公开的示例性实施方式的车辆1可以确认车辆和用户终端是否通信连接(610)。

如果连接通信(610中的是)，则车辆1可以从用户终端获取电话簿列表(620)。在这种情况下，电话簿列表包括与存储在用户终端中的姓名和电话号码匹配的至少一个电话簿数据块。车辆1还可以获取用户终端的呼叫历史信息以及电话簿列表。

此后，车辆1可以从电话簿列表中提取确定是否改变语音识别参数值所需的信息(630)。

具体地，车辆1可以从用户终端接收的电话簿列表中提取电话簿数据块的总数量、指定姓名是一个单词的电话簿数据块的数量以及指定姓名具有相似发音的电话簿数据块的数量中的至少一个。

当提取必要的信息时，车辆1可以确定是否有必要改变语音识别参数(640)。

具体地，车辆1可以将每个提取的信息块与预定参考值进行比较，并且根据比较结果确定是否改变语音识别参数值。在这种情况下，参考值可以是平均值或预先存储的值。

当提取的信息具有与预定参考值不同的值时，车辆1可以确定改变语音识别参数值，并且当提取的信息具有与确定的参考值相同的值时，车辆1可以确定不改变参数值。

确定是否需要改变车辆1的语音识别参数值的步骤(640)可以包括确定语音识别难度的步骤。

当提取的信息具有大于预定参考值的值时，车辆1可以确定语音识别难度高，并且当提取的信息具有小于预定参考值的值时，可以确定语音识别难度低。

当确定需要改变语音识别参数值时(640中的是)，车辆1可以改变语音识别参数值(650)。

例如，语音识别参数可以是精确度参数。此时，如果车辆1确定提取的信息中电话簿数据块的总数量大于预定参考值，则可以确定语音识别难度高，并且可以增大语音识别精确度参数值。

作为另一示例，如果车辆1确定指定姓名是一个单词的电话簿数据块的数量小于预定参考值，则可以确定语音识别难度低，并且可以减小语音识别精确度参数值。

由此，车辆1可以改变语音识别参数值，以适合用户，并且可以提高用户的便利性和满意度。

参照图7，根据本公开的示例性实施方式的车辆1可以确认是否输入了语音识别命令(710)。此时，车辆1可以确认是否通过输入单元240从用户输入了语音识别命令。

如果确认存在语音识别命令(710中的是)，则车辆1可以确定是否感测到用户发出的语音信号(720)。

当感测到用户发出的语音信号时(720中的是)，车辆1可以识别语音信号(730)。

具体地，车辆1可以通过确定与感测到的语音信号对应的操作命令并确认具有所确定的操作命令的装置来识别语音信号。在确定与感测到的语音信号对应的操作命令的过程中，车辆1可以将感测到的语音信号与预先存储的参考发音串数据进行比较，并且根据比较结果，将感测到的语音信号与参考发音串数据的命令字进行匹配。

车辆1可以根据感测到的语音信号和参考发音串数据之间的匹配结果来计算相似度，以最高相似度的顺序列出参考发音串数据的命令字，并且确定最高优先级的命令字作为与感测到的语音信号对应的操作命令。

此后，车辆1可以生成语音识别结果(740)，并且生成的语音识别结果可以包括在先前步骤(730)中确定的操作命令和已经被确认为具有这种操作命令的装置。

在生成语音识别结果之后，车辆1可以将后处理加权值应用于语音识别结果(750)。具体地，车辆1可以基于呼叫历史信息将后处理加权值应用于语音识别结果。

具体地，车辆1可以计算语音信号和参考发音串数据之间的相似度，并且通过将后处理加权值应用于相似度来校正所生成的语音识别结果中包括的列出的命令字的顺序。

例如，车辆1可以使用所采集的用户的呼叫历史信息来计算电话簿列表中包括的每个电话簿数据块的呼叫重拨概率，并且基于所计算的呼叫重拨概率将加权值应用于语音信号和参考发音串数据之间的相似度。在这种情况下，可以应用加权值，使得参考发音串数据的命令字中具有高呼叫重拨概率的电话簿数据的命令字比其他电话簿数据的命令字更类似于语音信号。

车辆1可以校正通过应用后处理加权值而生成的语音识别结果(760)，并且发送校正的语音识别结果(770)。在这种情况下，车辆1可以通过向用户终端发送校正的语音识别结果来根据校正的语音识别结果控制要执行的操作。

这样，由于可以基于用户的特定个人信息(例如，电话簿列表和用户的呼叫历史信息)来提高语音识别性能，所以可以提高语音识别的精确度和用户的便利性。

参照图8，根据本公开的示例性实施方式的车辆1可以生成语音识别结果(810)，并根据生成的语音识别结果执行操作(820)。其详细描述与上述描述相同，因此将省略。

此后，车辆1可以确认是否停止根据语音识别结果的操作(830)。

当停止操作的执行时(830中的是)，车辆1可以确定用户的行为模式(840)。此时，用户的行为模式是指用户手动输入的用于执行特定功能的控制命令。

具体地，车辆1可以通过采集根据用户的手动操作和被确认为具有这种操作命令的装置信息的操作命令，来确定用户的行为模式。

即，车辆1可以将根据用户发出的声音识别的发音串数据和用户直接选择的操作命令的命令字的发音进行匹配，并且通过采集匹配结果来确定用户的行为模式。

此时，确定用户的行为模式的操作可以包括通过将用户发出的语音的发音和对应于该语音的发音串数据进行匹配来确定用户最喜欢的发音的操作。

此后，车辆1可以利用所确定的用户的行为模式来更新所存储的发音串数据(850)。此时，车辆1可以通过校正存储的发音串数据或者向现有发音串数据添加新的发音来更新发音串数据。

这样，当语音识别结果是错误的时，由于可以确定用户行为模式，因此可以预期提高适合于每个用户的识别速率。另外，可以提高用户的便利性和满意度。

从上面可以明显看出，按照根据本公开实施方式的语音识别设备、包括该设备的车辆及其控制方法，可以为用户提供优化的语音识别功能，从而增强用户的便利性和满意度。

尽管已经示出和描述了本公开的几个实施方式，但是本领域技术人员应当理解，在不脱离本公开的原理和精神的情况下，可以对这些实施方式进行改变，在权利要求及其等同物中限定本公开的范围。

Claims

1.一种语音识别设备，包括：

信息采集单元，被配置为获取用户的语音信号并且从用户终端获取电话簿列表，所述电话簿列表包括姓名和电话号码匹配的至少一个电话簿数据块；

语音识别引擎，被配置为基于语音识别参数识别所述语音信号；以及

第一控制器，被配置为基于所述电话簿列表确定是否改变语音识别参数值，并且基于确定结果改变所述语音识别参数值，

其中，所述第一控制器从所述电话簿列表中提取电话簿数据块的总数量、姓名是一个单词的电话簿数据块的数量、以及姓名具有相似发音的电话簿数据块的数量中的至少一个信息，并且基于所提取的至少一个信息确定是否改变所述语音识别参数值。

2.根据权利要求1所述的语音识别设备，

其中，所述信息采集单元还从所述用户终端获取呼叫历史信息。

3. 根据权利要求1所述的语音识别设备，

其中，所述语音识别参数是精确度参数，并且

所述第一控制器基于所提取的信息确定语音识别难度，并且基于所确定的语音识别难度来确定是否改变精确度参数值。

4.根据权利要求3所述的语音识别设备，

其中，当确定所述语音识别难度为高时，所述第一控制器增大所述精确度参数值。

5.根据权利要求3所述的语音识别设备，

其中，当确定所述语音识别难度为低时，所述第一控制器减小所述精确度参数值。

6.根据权利要求4所述的语音识别设备，

其中，当存在以下情况中的至少一种情况时，所述第一控制器确定所述语音识别难度为高：电话簿数据块的总数量大于预定数量的情况、姓名是一个单词的电话簿数据块的数量大于预定数量的情况、以及姓名具有相似发音的电话簿数据块的数量大于预定数量的情况。

7.根据权利要求2所述的语音识别设备，还包括：

后处理单元，基于所述呼叫历史信息将后处理加权值应用于所述语音识别引擎的语音识别结果并且校正所述语音识别结果。

8. 根据权利要求1所述的语音识别设备，还包括：

存储单元，用于存储发音串数据；以及

第二控制器，被配置为确认是否停止根据所述语音识别引擎的语音识别结果的操作的执行，并且基于确认结果更新所述发音串数据，

其中，所述语音识别引擎通过使所述语音信号和所述发音串数据匹配来识别所述语音信号。

9.根据权利要求8所述的语音识别设备，

其中，当停止根据所述语音识别结果的操作的执行时，所述第二控制器确定用户的行为模式并且通过反映所确定的行为模式来更新所述发音串数据。

10.根据权利要求8所述的语音识别设备，

其中，所述第二控制器基于所述用户的多个说话方式、所述电话簿列表和呼叫历史信息中的至少一者来确定是否更新所述发音串数据。

11.一种车辆，包括：

通信单元，被配置为从用户终端接收电话簿列表，所述电话簿列表包括姓名和电话号码匹配的至少一个电话簿数据块；

语音感测单元，被配置为感测用户发出的语音并且将所述语音转换成语音信号；

语音识别设备，被配置为：获取由所述通信单元接收的所述用户终端的所述电话簿列表；基于所述电话簿列表改变语音识别参数值；并且基于所述语音识别参数识别所述语音信号；以及

主控制单元，被配置为根据所述语音识别设备的语音识别结果向所述通信单元发送操作命令；

其中，所述语音识别设备从所述电话簿列表中提取电话簿数据块的总数量、姓名是一个单词的电话簿数据块的数量、以及姓名具有相似发音的电话簿数据块的数量中的至少一个信息，基于所提取的至少一个信息来确定是否改变所述语音识别参数值，并且根据确定结果改变所述语音识别参数值。

12. 根据权利要求11所述的车辆，

其中，所述语音识别参数是精确度参数，并且

所述语音识别设备基于所提取的信息确定语音识别难度，并且基于所确定的语音识别难度来确定是否改变精确度参数值。

13.根据权利要求12所述的车辆，

其中，当确定语音识别难度具有比参考值高的值时，所述语音识别设备增大所述精确度参数值，并且当确定所述语音识别难度具有比参考值低的值时减小所述精确度参数值。

14.一种车辆的控制方法，包括以下步骤：

确认车辆和用户终端是否通信连接；

从所述用户终端获取电话簿列表，所述电话簿列表包括姓名和电话号码匹配的至少一个电话簿数据块；

基于所述电话簿列表改变语音识别参数值；

感测用户发出的语音并且将所述语音转换成语音信号；

基于语音识别参数识别所述语音信号，以生成语音识别结果；

根据所述语音识别结果，发送操作命令；

从所述用户终端获取呼叫历史信息；以及

基于所述呼叫历史信息将后处理加权值应用于所述语音识别结果并且校正所述语音识别结果；

其中，基于所述电话簿列表改变语音识别参数值的步骤包括：

从所述电话簿列表中提取电话簿数据块的总数量、姓名是一个单词的电话簿数据块的数量、以及姓名具有相似发音的电话簿数据块的数量中的至少一个信息；并且

基于所提取的信息确定是否改变所述语音识别参数值，并且根据确定结果改变所述语音识别参数值。

15.根据权利要求14所述的车辆的控制方法，

其中，所述语音识别参数是精确度参数，

基于所提取的信息确定语音识别难度；以及

基于所确定的语音识别难度来改变精确度参数值，并且

其中，当确定语音识别难度为高时，基于所确定的语音识别难度来改变所述精确度参数值的步骤增大所述精确度参数值，并且当确定语音识别难度为低时减小所述精确度参数值。

16.根据权利要求15所述的车辆的控制方法，

其中，当存在以下情况中的至少一种情况时，基于所提取的信息确定所述语音识别难度的步骤确定所述语音识别难度为高：电话簿数据块的总数量大于预定数量的情况、姓名是一个单词的电话簿数据块的数量大于预定数量的情况、以及姓名具有相似发音的电话簿数据块的数量大于预定数量的情况。

17.根据权利要求14所述的车辆的控制方法，还包括：

通过将预先存储的发音串数据与所述语音信号匹配来生成所述语音识别结果；

确认是否停止根据所述语音识别结果的操作的执行；以及

基于确认结果更新所述发音串数据，

其中，当停止根据所述语音识别结果的操作的执行时，基于确认结果更新所述发音串数据的步骤确定用户的行为模式，并且通过反映所确定的行为模式来更新所述发音串数据。