CN110322880A

CN110322880A - 车载终端设备以及唤醒其多个语音交互程序的方法

Info

Publication number: CN110322880A
Application number: CN201810265573.5A
Authority: CN
Inventors: 刘根华
Original assignee: Shanghai Pateo Network Technology Service Co Ltd
Current assignee: Shanghai Pateo Network Technology Service Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2019-10-11

Abstract

本发明提供了一种车载终端设备，包括：第一存储器，存储多个语音交互程序；声音采集设备，适于采集所述车载终端设备周围的声音；唤醒模块，配置为执行如下步骤：从所述声音采集设备获得所采集的声音；识别所述声音中的唤醒词；将所识别的唤醒词与预设的多个唤醒词进行匹配；响应于所识别的唤醒词与所述预设的多个唤醒词之一匹配成功，启动匹配成功的唤醒词所对应的语音交互程序。本发明集成了多个语音交互程序，通过声音采集设备和唤醒模块，使用户能够与不同的语音交互程序进行交互，克服了单个语音交互程序的局限性，并且能够根据用户喜好和当前条件选择不同的语音交互程序，提升了用户体验。

Description

车载终端设备以及唤醒其多个语音交互程序的方法

技术领域

本发明主要涉及车载设备，尤其涉及一种车载终端设备以及唤醒车载终端设备多个语音交互程序的方法。

背景技术

车载终端设备***可以集成多个语音交互程序，但各个语音交互程序都有各自的优劣。常见的语音交互程序包括百度的Duer OS、苹果的Siri、Nuance的声龙、亚马逊的Alexa。DuerOS整合了百度的信息与服务生态优势，功能和内容都比较丰富；支持对话聊天、真人新闻播报、在线音乐等，但是离线功能比较少，网络条件不好时，很多功能无法使用。Siri是苹果的语音助手，对手机上相关功能支持比较好，比如提醒，电话，但对车载功能支持不多，也需要网络。声龙的离线功能比较好，在网络条件不好时，能完成基本的语音控制指令；在线功能一般，没太多亮点。Alexa是亚马逊的个人虚拟助手，国外使用的比较多，开发平台支持第三方接入，功能丰富，技能数量已经突破1.5万；但目前不支持中文语音。

现有的各种语音交互程序都具有一定的局限性，无法同时满足用户的各种需求，因此需要克服各种语音交互程序的局限性，提升用户的服务体验。

发明内容

本发明要解决的技术问题是克服各种语音交互程序的局限性，提升用户的服务体验。

为解决上述技术问题，本发明提供了一种车载终端设备，包括：

第一存储器，存储多个语音交互程序；

声音采集设备，适于采集所述车载终端设备周围的声音；

唤醒模块，配置为执行如下步骤：

从所述声音采集设备获得所采集的声音；

识别所述声音中的唤醒词；

将所识别的唤醒词与预设的多个唤醒词进行匹配；

响应于所识别的唤醒词与所述预设的多个唤醒词之一匹配成功，启动匹配成功的唤醒词所对应的语音交互程序。

在本发明的一实施例中，所述唤醒模块还配置为：响应于所识别的唤醒词与所述预设的多个唤醒词之一匹配成功，检测是否有另一语音交互程序正在工作，如果有关闭所述另一语音交互程序。

在本发明的一实施例中，唤醒模块为存储于第二存储器中且可由处理器执行的唤醒程序。

在本发明的一实施例中，所述唤醒词为自然语言。

在本发明的一实施例中，所述唤醒模块独立于所述多个语音交互程序。

在本发明的一实施例中，所述多个语音交互程序中的至少一个语音交互程序具有多个对应的预设唤醒词。

在本发明的一实施例中，所述多个语音交互程序包括DuerOS、Siri、Alexa、声龙。

本发明还提供一种唤醒车载终端设备的多个语音交互程序的方法，包括以下步骤：

采集所述车载终端设备周围的声音；

识别所述声音中的唤醒词；

将所识别的唤醒词与预设的多个唤醒词进行匹配；以及

在本发明的一实施例中，响应于所识别的唤醒词与所述预设的多个唤醒词之一匹配成功后还包括：

检测是否有另一语音交互程序正在工作；

当检测到另一语音交互程序正在工作时，关闭所述另一语音交互程序。

在本发明的一实施例中，所述唤醒词为自然语言。

在本发明的一实施例中，所述识别所述声音中的唤醒词的步骤是由独立于所述多个语音交互程序的唤醒模块执行。

与现有技术相比，本发明具有以下优点：本发明集成了多个语音交互程序，通过声音采集设备和唤醒模块，使用户能够与不同的语音交互程序进行交互，克服了单个语音交互程序的局限性，并且能够根据用户喜好和当前条件选择不同的语音交互程序，提升了用户体验。

附图说明

图1是根据本发明的一实施例的车载终端设备的示意图；

图2是根据本发明的一实施例的车载终端设备的示意图；

图3是根据本发明的一实施例的车载终端设备的显示器的示意图；

图4是根据本发明的一实施例的唤醒车载终端设备的多个语音交互程序的方法的流程图。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

实施例一

图1是根据本发明的一实施例的车载终端设备100的示意图。

在该实施例中，唤醒模块是通过硬件实现的。车载终端设备100(也称为“车机”)是车辆的控制***，用来接收各个外部设备产生的数据，并根据外部设备产生的数据生成控制指令，并将控制指令发送到车辆的各个结构，从而实现对车辆的控制。车载终端设备100可包括处理器和存储器，存储器中存储控制所需要的指令和数据，处理器可执行这些指令和/或对这些数据进行处理，从而实现对车辆的控制。

如图1所示，车载终端设备100包括声音采集设备110、唤醒模块120、CPU 130、第一存储器140。

声音采集设备110用于采集车内驾驶员或乘客发出的声音，对采集的声音进行预处理，然后将预处理之后的声音发送给唤醒模块120。其中，预处理包括对原始的声音信号进行模数转换、滤波和放大等处理。模数转换将模拟信号转换为数字信号，以使车载终端设备能够进行信号处理。滤波能够抑制和防止数字信号中的干扰信号。例如，滤波可以是低通滤波、高通滤波、带通滤波和带阻滤波。放大能够将滤波后的数字信号进行放大，例如放大信号的幅度，以使信号更加清晰，便于后续处理。声音采集设备110可以是任何能够采集声音的设备，例如麦克风等。

唤醒模块120包括接收单元121、识别单元122和匹配单元123。接收单元121连接至声音采集设备110，用于接收声音采集设备110发送的数字音频信号。识别单元122连接至接收单元121，用于识别接收单元121接收的数字音频信号，例如从数字音频信号中识别出唤醒词。匹配单元123连接至识别单元122，用于匹配从数字音频信号中识别出唤醒词与多个预设的唤醒词。如果匹配成功，则将匹配成功的指令发送给CPU 130。

CPU 130接收到唤醒模块120中匹配单元123发送来的指令。解析指令，生成控制信号。CPU 130将生成的控制信号发送至第一存储器140。

第一存储器140存储有语音交互程序。示例性的语音交互程序包括Duer OS、Siri、声龙和Alexa。第一存储器140接受到CPU 130发来的控制信号后，根据该控制信号启动相应的语音交互程序。在一些实施例中，第一存储器140可以例如包括设置于车载终端设备内的eMMC存储器、flash存储芯片、SSD存储器等，或者其任意组合。第一存储器140还可以是设置于车载终端设备所具有的卡槽内的TF卡、MMC卡、SD卡等，或其任意组合。

可选地，车载终端设备100还包括显示器150和扬声器160。

如图3所示，显示器150用于显示语音交互程序的图标。可选地，显示器150可以显示所有语音交互程序的图标，其中唤醒的语音交互程序与其它未唤醒的语音交互程序的图标区别显示。可选地，区别显示可以是唤醒的语音交互程序的图标变亮，未唤醒的语音交互程序的图标变暗。可选地，区别显示可以是唤醒的语音交互程序的图标边框加粗，未唤醒的语音交互程序的图标边框不变或者变细。可选地，显示器150可仅显示唤醒的语音交互程序的图标或图形交互界面，其它未唤醒的语音交互程序不予显示。可选地，显示器150还显示车载终端设备的状态时处于唤醒模式还是交互模式。可选地，可选地，显示器150仅显示车载终端设备的状态，例如处于唤醒模式时仅显示唤醒模式，处于交互模式时仅显示交互模式。可选地，显示器150是LCD显示器150、OLED显示器150等。

扬声器160用于输出唤醒的语音交互程序产生的数字音频信号。与声音采集设备110相对应，扬声器160可对音频信号进行数模转换和放大。数模转换可以将数字音频信号转换为模拟音频信号，便于扬声器160播放。放大可以增加模拟音频信号的幅度，便于驾驶员和乘客听到。

下面介绍车载终端设备的唤醒过程。

声音采集设备110采集驾驶室内的声音。驾驶室内的声音包括驾驶员或乘客的声音，或者其它的声音。驾驶员或乘客的声音中包括唤醒词。

可选地，该唤醒词可以是有意义的自然语言。可选地，为了提高唤醒的准确性，针对不同的语音交互程序可以只设置一个对应的唤醒词。可选地，针对不同的语音交互程序可以设置多个对应的唤醒词。仅作为示例，针对Duer OS的唤醒词可以是“Hi，小度”、“Hello，小度”、“你好，小度”、“小度小度”等。仅作为示例，针对Siri的唤醒词可以是“Hi，Siri”、“Hello，Siri”、“你好，Siri”、“Siri Siri”等。仅作为示例，针对声龙的唤醒词可以是“Hi，声龙”、“Hello，声龙”、“你好，声龙”、“声龙声龙”等。仅作为示例，针对Alexa的唤醒词可以是“Hi，Alexa”、“Hello，Alexa”、“你好，Alexa”、“Alexa Alexa”等。

唤醒词可以是预设的固定的唤醒词。可选地，唤醒词也可以是含有关键词的唤醒词。仅作为示例，针对Duer OS的关键词可以设置为小度，只要唤醒词包含小度这个关键词，就认为该唤醒词的唤醒对象是Duer OS。仅作为示例，针对Siri的关键词可以设置为Siri，只要唤醒词包含Siri这个关键词，就认为该唤醒词的唤醒对象是Siri。仅作为示例，针对声龙的关键词可以设置为声龙，只要唤醒词包含声龙这个关键词，就认为该唤醒词的唤醒对象是声龙。仅作为示例，针对Alexa的关键词可以设置为，只要唤醒词包含Alexa这个关键词，就认为该唤醒词的唤醒对象是Alexa。针对各个语音交互程序的关键词不限于此，只要关键词能够与语音交互程序对应，各语音交互程序的关键词能够区分开来即可。

可选地，唤醒词也可以是无意义的自然语言。仅作为示例，如果Duer OS是常用的语音交互程序，可以将Duer OS的唤醒词设置为“啊”、“喂喂”等。针对各个语音交互程序的唤醒词不限于此，只要唤醒词能够与语音交互程序对应，各语音交互程序的唤醒词能够区分开来即可。

声音采集设备110采集驾驶室内的声音之后对采集到音频信号进行预处理。该预处理包括模数转换、滤波和放大等。声音采集设备110将预处理之后的数字音频信号发送给唤醒模块120的接收单元121。

接收单元121接收到数字音频之后将其转发给识别单元122。识别单元122收到预处理的数字音频信号，对数字音频信号进行识别。该识别可以是对唤醒词的识别，也可以是对较长句子中关键词的识别。匹配单元123对识别的结果进行匹配。如果匹配成功，则将匹配成功的信号发送给CPU130。例如，匹配单元123匹配到了Duer OS，将匹配到Duer OS的信号发送给CPU 130。

CPU 130接收到匹配成功信号之后，检测是否有另一语音交互程序正在工作，如果有关闭另一语音交互程序。随后向第一存储器140发送指令，调用第一存储器140中的对应的语音交互程序。例如，CPU 130向第一存储器140发送指令，调用匹配到的Duer OS。随后对应的语音交互程序被唤醒，与驾驶员或乘客进行语音交互，车载终端设备进入交互模式。可选地，显示器150上显示正在交互的语音交互程序。可选地，扬声器160播放语音交互程序发送的音频信号。

本发明实施例中的车载终端设备集成了多个语音交互***，可以根据不同的条件选择不同的语音交互***，例如在网络条件不好时选择声龙，在网络条件良好功能要求较多时选择百度，英文语音时选择Alexa，使用户能够与不同的语音交互程序进行交互，克服了单个语音交互程序的局限性，并且能够根据用户喜好和当前条件选择不同的语音交互程序，提升了用户体验。

实施例二

图2是根据本发明的一实施例的车载终端设备200的示意图。

在该实施例中，唤醒模块是通过软件实现的。车载终端设备200(也称为“车机”)是车辆的控制***，用来接收各个外部设备产生的数据，并根据外部设备产生的数据生成控制指令，并将控制指令发送到车辆的各个结构，从而实现对车辆的控制。车载终端设备200可包括处理器和存储器，存储器中存储控制所需要的指令和数据，处理器可执行这些指令和/或对这些数据进行处理，从而实现对车辆的控制。

车载终端设备200包括声音采集设备210、第一存储器240、CPU 230和第二存储器220。车载终端设备200的声音采集设备210、第一存储器240和CPU 230类似于车载终端设备100的声音采集设备110、第一存储器120和CPU 130，此次不再赘述。

第二存储器220中存储有唤醒程序。该唤醒程序用于接收声音采集设备发送来的音频信号，并对该音频信号进行识别和匹配，随后将匹配的结果发送给CPU。在一些实施例中，第二存储器220可以例如包括设置于车载终端设备内的eMMC存储器、flash存储芯片、SSD存储器等，或者其任意组合。第二存储器220还可以是设置于车载终端设备所具有的卡槽内的TF卡、MMC卡、SD卡等，或其任意组合。在一些实施例中，第二存储器220可以是独立的存储器。在一些实施例中，第二存储器220可以集成到第一存储器中。

可选地，车载终端设备200还包括显示器250和扬声器260。

如图3所示，显示器250用于显示语音交互程序的图标。可选地，显示器250可以显示所有语音交互程序的图标，其中唤醒的语音交互程序的图标与其它未唤醒的语音交互程序的图标区别显示。可选地，区别显示可以是唤醒的语音交互程序的图标变亮，未唤醒的语音交互程序的图标变暗。可选地，区别显示可以是唤醒的语音交互程序的图标边框加粗，未唤醒的语音交互程序的图标边框不变或者变细。可选地，显示器250可仅显示唤醒的语音交互程序的图标，其它未唤醒的语音交互程序的图标不予显示。可选地，显示器250还显示车载终端设备的状态时处于唤醒模式还是交互模式。可选地，可选地，显示器250仅显示车载终端设备的状态，例如处于唤醒模式时仅显示唤醒模式，处于交互模式时仅显示交互模式。可选地，显示器250是LCD显示器250、OLED显示器250等。

扬声器260用于输出唤醒的语音交互***产生的数字音频信号。与声音采集设备110相对应，扬声器260可包括对音频信号进行数模转换和放大。数模转换可以将数字音频信号转换为模拟音频信号，便于扬声器260播放。放大可以增加模拟音频信号的幅度，便于驾驶员和乘客听到。

下面介绍车载终端设备200的唤醒过程。

声音采集设备210采集驾驶室内的声音。驾驶室内的声音包括驾驶员或乘客的声音，或者其它的声音。驾驶员或乘客的声音中包括唤醒词。

声音采集设备210采集驾驶室内的声音之后对采集到音频信号进行预处理。该预处理包括模数转换、滤波和放大等。声音采集设备将预处理之后的数字音频信号发送给第二存储器220中的唤醒程序。

唤醒程序接收到数字音频之后，对数字音频信号进行识别。该识别可以是对唤醒词的识别，也可以是对较长句子中关键词的识别。随后对识别的结果进行匹配。如果匹配成功，则将匹配成功的信号发送给CPU 230。例如，匹配到了Duer OS，将匹配到Duer OS的信号发送给CPU 230。

CPU 230接收到匹配成功信号之后，检测是否有另一语音交互程序正在工作，如果有则关闭另一语音交互程序。随后向第一存储器240发送指令，调用第一存储器240中的对应的语音交互程序。例如，CPU 230向第一存储器240发送指令，调用匹配到的Duer OS。随后对应的语音交互程序被唤醒，与驾驶员或乘客进行语音交互，车载终端设备200进入交互模式。可选地，显示器250上显示正在交互的语音交互程序。可选地，扬声器260播放语音交互程序发送的音频信号。

实施三

图4是根据本发明的一实施例的唤醒车载终端设备的多个语音交互程序的方法的流程图。该方法在车载终端设备上执行。该唤醒方法是通过识别唤醒词实现的。

唤醒词可以是有意义的自然语言。可选地，为了提高唤醒的准确性，针对不同的语音交互程序可以只设置一个对应的唤醒词。可选地，针对不同的语音交互程序可以设置多个对应的唤醒词。仅作为示例，针对Duer OS的唤醒词可以是“Hi，小度”、“Hello，小度”、“你好，小度”、“小度小度”等。仅作为示例，针对Siri的唤醒词可以是“Hi，Siri”、“Hello，Siri”、“你好，Siri”、“Siri Siri”等。仅作为示例，针对声龙的唤醒词可以是“Hi，声龙”、“Hello，声龙”、“你好，声龙”、“声龙声龙”等。仅作为示例，针对Alexa的唤醒词可以是“Hi，Alexa”、“Hello，Alexa”、“你好，Alexa”、“Alexa Alexa”等。

步骤S301：采集车载终端设备周围的声音。

采集车载终端设备周围的声音。车载终端设备周围的声音包括驾驶员或乘客的声音，或者其它的声音。驾驶员或乘客的声音中包括唤醒词。

车载终端设备周围的声音包括对采集到音频信号进行预处理。该预处理包括模数转换、滤波和放大等。随后发送预处理之后的数字音频信号。

步骤S302：识别声音中的唤醒词。

接收到数字音频之后，对数字音频信号进行识别。该识别可以是对唤醒词的识别，也可以是对较长句子中关键词的识别。

步骤S303：将识别的唤醒词与预设的多个唤醒词进行匹配。

对识别的结果进行匹配。如果匹配成功，则将匹配成功的信号发送给CPU。例如，匹配到了Duer OS，将匹配到Duer OS的信号发送给CPU。

步骤S304：启动匹配成功的唤醒词所对应的语音交互程序。

接收到匹配成功信号之后，检测是否有另一语音交互程序正在工作，如果有关闭另一语音交互程序。随后向第一存储器发送指令，调用第一存储器中的对应的语音交互程序。例如，向第一存储器发送指令，调用匹配到的Duer OS。随后对应的语音交互程序被唤醒，与驾驶员或乘客进行语音交互，车载终端设备进入交互模式。可选地，显示器上显示正在交互的语音交互程序。可选地，扬声器播放语音交互程序发送的音频信号。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

虽然本发明已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，在没有脱离本发明精神的情况下还可作出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种车载终端设备，包括：

第一存储器，存储多个语音交互程序；

声音采集设备，适于采集所述车载终端设备周围的声音；

唤醒模块，配置为执行如下步骤：

从所述声音采集设备获得所采集的声音；

识别所述声音中的唤醒词；

将所识别的唤醒词与预设的多个唤醒词进行匹配；

2.根据权利要求1所述的车载终端设备，其特征在于，所述唤醒模块还配置为：响应于所识别的唤醒词与所述预设的多个唤醒词之一匹配成功，检测是否有另一语音交互程序正在工作，如果有关闭所述另一语音交互程序。

3.根据权利要求1所述的车载终端设备，其特征在于，唤醒模块为存储于第二存储器中且可由处理器执行的唤醒程序。

4.根据权利要求1所述的车载终端设备，其特征在于，所述唤醒词为自然语言。

5.根据权利要求1或3所述的车载终端设备，其特征在于，所述唤醒模块独立于所述多个语音交互程序。

6.根据权利要求1所述的车载终端设备，其特征在于，所述多个语音交互程序中的至少一个语音交互程序具有多个对应的预设唤醒词。

7.根据权利要求1所述的车载终端设备，其特征在于，所述多个语音交互程序包括DuerOS、Siri、Alexa和声龙。

8.一种唤醒车载终端设备的多个语音交互程序的方法，包括以下步骤：

采集所述车载终端设备周围的声音；

识别所述声音中的唤醒词；

将所识别的唤醒词与预设的多个唤醒词进行匹配；以及

9.根据权利要求8所述的方法，其特征在于，响应于所识别的唤醒词与所述预设的多个唤醒词之一匹配成功后还包括：

检测是否有另一语音交互程序正在工作；

10.根据权利要求8所述的方法，其特征在于，所述唤醒词为自然语言。

11.根据权利要求8所述的方法，其特征在于，所述识别所述声音中的唤醒词的步骤是由独立于所述多个语音交互程序的唤醒模块执行。

12.根据权利要求8所述的方法，其特征在于，所述多个语音交互程序中的至少一个语音交互程序具有多个对应的预设唤醒词。

13.根据权利要求8所述的方法，其特征在于，所述多个语音交互程序包括DuerOS、Siri、Alexa和声龙。