CN108986806A

CN108986806A - 基于声源方向的语音控制方法及***

Info

Publication number: CN108986806A
Application number: CN201810702505.0A
Authority: CN
Inventors: 林洪泮; 谢文娟; 张志勇
Original assignee: Shanghai Aiyouwei Software Development Co Ltd
Current assignee: Shanghai Aiyouwei Software Development Co Ltd
Priority date: 2018-06-30
Filing date: 2018-06-30
Publication date: 2018-12-11

Abstract

本申请提供了一种基于声源方向的语音控制方法及***，涉及智能终端技术领域，该方法包括：获取音频信息；确定所述音频信息的声源位置；对音频信息进行语义解析，生成控制指令；根据声源位置以及控制指令，执行控制操作。相较于现有技术，本申请提供的基于声源方向的语音控制方法，对获取的音频信息进行分析，在生成控制指令的同时，确定音频信息的声源位置，根据控制指令和声源位置两方面内容，执行操作，使操作更加智能，更贴近实际需求，也有利于提高操作的安全性。

Description

基于声源方向的语音控制方法及***

技术领域

本申请涉及智能终端技术领域，尤其是涉及一种基于声源方向的语音控制方法及***。

背景技术

语音控制是一种比较成熟控制技术，被广泛应用于各种智能终端，但在应用于汽车的智能控制***时，由于车内空间狭小且封闭，人员分布又相对密集，使智能控制***进行语音识别时，容易误读指令，例如，将乘客间的常规对话识别成音频信息。

此外，乘客和司机对智能控制***的控制权限是有差别的，例如，一般情况下，司机能够通过语音控制各种行车参数，而处于行车安全考虑，乘客不适宜语音控制，而现有技术中的语音控制无法实现上述区别控制。

发明内容

本申请的目的在于提供一种基于声源方向的语音控制方法及***，通过识别音频信息的声源位置，更精准的执行控制操作。

为实现上述目的，本申请提供的基于声源方向的语音控制方法，包括：

获取音频信息；

确定所述音频信息的声源位置；

对音频信息进行语义解析，生成控制指令；

根据声源位置以及控制指令，执行控制操作。

在上述技术方案中，进一步的，利用安装在汽车不同位置的多个声音接收器同时获取音频信息，根据多个声音接收器接受到的音频信息的音量差别，确定所述音频信息的声源位置。

在上述技术方案中，进一步的，在确定所述音频信息的声源位置后，还包括：

根据声源位置，判断音频信息发出者的身份；

根据身份判断该条音频信息是否有效；

在判断音频信息有效时，才执行控制操作。

在上述技术方案中，进一步的，根据身份判断该条音频信息是否有效指：

确定所述控制指令对应的控制操作所需的权限；

根据音频信息发出者的身份，判断该音频信息发出者是否有具备权限；

当具备权限时，判断该条音频信息有效。

在上述技术方案中，进一步的，根据声源位置，判断音频信息发出者是否为司机；

仅在音频信息发出者为司机时，才执行控制操作。

在上述技术方案中，进一步的，在生成控制指令后，还包括：

根据预设规则，判断所述控制指令为常规指令还是受限指令；

当为常规指令时，直接执行控制操作；

当为受限指令时，根据声源位置，判断音频信息发出者的身份；根据身份验证，判断音频信息发出者是否具备对应的操作权限；当具备操作权限时，才执行控制操作。

在上述技术方案中，进一步的，当控制指令为打开或关闭车窗时，执行控制操作指：打开或关闭与声源位置最靠近的车窗。

在上述技术方案中，进一步的，多个声音接收器分别安装在车内不同座位相对的位置。

在上述技术方案中，进一步的，多个声音接收器安装在车内和车外；确定所述音频信息的声源位置包括：确定声源是在车内还是在车外。

此外，本申请提供一种基于声源方向的语音控制***，包括：

一个存储器，被配置为存储数据及指令；

一个与存储器建立通信的处理器，其中，当执行存储器中的指令时，所述处理器被配置为：

获取音频信息；

确定所述音频信息的声源位置；

对音频信息进行语义解析，生成控制指令；

根据声源位置以及控制指令，执行控制操作。

相较于现有技术，本申请提供的基于声源方向的语音控制方法，对获取的音频信息进行分析，在生成控制指令的同时，确定音频信息的声源位置，根据控制指令和声源位置两方面内容，执行操作，使操作更加智能，更贴近实际需求，也有利于提高操作的安全性。

本申请的附加方面和优点将在下面的描述部分中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请的一些实施例提供的网络环境***的示例性示意图。

图2是图1所示的电子设备功能配置的示例性单元示意图。

图3是根据本申请的一些实施例提供的基于声源方向的语音控制方法的示例性流程图；

图4是根据本申请的一些实施例提供的基于声源方向的语音控制方法的示例性流程图；

图5是根据本申请的一些实施例提供的基于声源方向的语音控制方法的示例性流程图。

具体实施方式

以下参考附图的描述为便于综合理解有权利要求及其等效内容所定义的本申请的各种实施例。这些实施例包括各种特定细节以便于理解，但这些仅被视为示例性的。因此，本领域技术人员可以理解对在此描述的各种实施例进行各种变化和修改而不会脱离本申请的范围和精神。另外，为简要并清楚地描述本申请，本申请将省略对公知功能和结构的描述。

在以下说明书和权利要求书中使用的术语和短语不限于字面含义，而是仅为能够清楚和一致地理解本申请。因此，对于本领域技术人员，可以理解，提供对本申请各种实施例的描述仅仅是为说明的目的，而不是限制所附权利要求及其等效定义的本申请。

下面将结合本申请一些实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中使用的术语是仅仅处于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一”、“一个”、“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相绑定的列出项目的任何或所有可能组合。表达“第一”、“第二”、“所述第一”和“所述第二”是用于修饰相应元件而不考虑顺序或者重要性，仅仅被用于区分一种元件与另一元件，而不限制相应元件。

根据本申请一些实施例的终端可以是电子设备，该电子设备可以包括智能手机、个人电脑(PC，例如平板电脑、台式电脑、笔记本、上网本、掌上电脑PDA)、移动电话、电子书阅读器、便携式多媒体播放器(PMP)、音频/视频播放器(MP3/MP4)、摄像机、虚拟现实设备(VR)和可穿戴设备等中的一种或几种的组合。根据本申请的一些实施例，所述可穿戴设备包括附件类型(例如手表、戒指、手环、眼睛、或头戴式装置(HMD))、集成类型(例如电子服装)、装饰类型(例如皮肤垫、纹身或内置电子装置)等中的一种或几种的组合。在本申请的一些实施例中，所述电子设备可以是灵活的，不限于上述设备，或者可以是上述各种设备中的一种或几种的组合。在本申请中，术语“用户”可指示使用电子设备的人或使用电子设备的设备(例如人工智能电子设备)。

本申请实施例提供了一种基于声源方向的语音控制方法。为了便于理解本申请实施例，以下将参考附图对本申请实施例进行详细描述。

图1是根据本申请的一些实施例提供的网络环境***100的示例性示意图。如图1所示，网络环境***100可以包括电子设备110、网络120和服务器130等。电子设备110可以包括总线111、处理器112、存储器113、输入/输出模块114、显示器115、通信模块116和物理键117等。在本申请的一些实施例中，电子设备110可以省略一个或多个元件，或者可以进一步包括一个或多个其他元件。

总线111可以包括电路。所述电路可以互连电子设备110内的一个或多个元件(例如，总线111、处理器112、存储器113、输入/输出模块114、显示器115和通信模块116)。所述电路也可以在电子设备110内的一个或多个元件之间实现通信(例如，获取和/或发送数据)。

处理器112可以包括一个或多个协处理器(Co-processor)、应用处理器(AP，Application Processor)和通信处理器(Communication Processor)。作为示例，处理器112可以执行与电子设备110的一个或多个元件的控制和/或数据处理。

存储器113可以存储数据。所述数据可以包括与电子设备110中的一个或多个其它元件相关的指令或数据。例如，所述数据可以包括处理器112处理前的原始数据，中间数据和/或处理后的数据。具体而言，存储器113可以存储照片、图像、虹膜信息等。存储器113可以包括非永久记忆性存储器和/或永久记忆性存储器。

根据本申请的一些实施例，存储器113可以存储软件和/或程序。所述程序可以包括内核、中间件、应用编程接口(API，Application Programming Interface)和/或应用程序。所述内核、所述中间件或所述应用编程接口的至少一部分可以包括操作***(OS，Operating System)。作为示例，所述内核可以控制或管理用于执行其他程序(例如，中间件、应用编程接口和应用程序)中实现的操作或功能的***资源(例如，总线111、处理器112、存储器113等)。此外，所述内核可以提供接口。所述接口可以通过所述中间件、所述应用编程接口或所述应用程序访问电子设备110的一个或多个元件以控制或管理***资源。

所述中间件可以作为数据传输的中间层。所述数据传输可以允许应用编程接口或应用程序与所述内核通信用以交换数据。作为示例，所述中间件可以处理从所述应用程序获取的一个或多个任务请求。例如，所述中间件可以向一个或多个应用程序分配电子设备110的***资源(例如，总线111、处理器112、存储器113等)的优先级，以及处理所述一个或多个任务请求。所述应用编程接口可以是所述应用程序用于控制从所述内核或所述中间件提供功能的接口。所述应用编程接口也可以包括一个或多个接口或功能。所述功能可以用于安全控制、通信控制、文件控制、窗口控制、文本控制、图像处理、信号处理等。

输入/输出模块114可以向电子设备110的其他元件发送从用户或外部设备输入的指令或数据。输入/输出模块114也可以将从电子设备110的其他元件获取的指令或数据输出给用户或外部设备。

显示器115可以显示内容。所述内容可以向用户显示各种类型(例如，文本、图像、视频、图标和/或符号)。显示器115可以包括液晶显示器(LCD，Liquid Crystal Display)、发光二极管(LED，Light-Emitting Diode)显示器、有机发光二极管(OLED，Organic LightEmitting Diode)显示器、微型机电***(MEMS，Micro Electro Mechanical Systems)显示器或电子纸显示器等，或几种的组合。显示器115可以包括触摸屏。在一些实施例中，显示器115可以显示虚拟键。所述触摸屏可以获取所述虚拟键的输入。显示器115可以通过所述触摸屏获取输入。所述输入可以包括触摸输入、手势输入、动作输入、接近输入、电子笔或用户身体部分的输入。

通信模块116可以配置设备之间的通信。在一些实施例中，网络环境100可以进一步包括电子设备140。作为示例，所述设备之间的通信可以包括电子设备110和其他设备(例如，服务器130或电子设备140)之间的通信。例如，通信模块116可以通过无线通信或有线通信连接到网络120，与其他设备(例如，服务器130或电子设备140)实现通信。

所述无线通信可以包括微波通信和/或卫星通信等。所述无线通信可以包括蜂窝通信(例如，全球移动通信(GSM，Global System for Mobile Communications)、码分多址(CDMA，Code Division Multiple Access)、第三代移动通信(3G，The 3rd GenerationTelecommunication)、***移动通信(4G)、第五代移动通信(5G))、长期演进技术(LTE，Long Term Evolution)、长期演进技术升级版(LTE-A，LTE-Advanced)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、通用移动通信***(UMTS，Universal Mobile Telecommunications System)、无线宽带(WiBro，WirelessBroadband)等，或几种的组合。根据本申请的一些实施例，所述无线通信可以包括无线局域网(WiFi，Wireless Fidelity)、蓝牙、低功耗蓝牙(BLE，Bluetooth Low Energy)、紫蜂协议(ZigBee)、近场通讯(NFC，Near Field Communication)、磁安全传输、射频和体域网(BAN，Body Area Network)等，或几种的组合。根据本申请的一些实施例，所述有线通信可以包括全球导航卫星***(Glonass/GNSS，Global Navigation Satellite System)、全球定位***(GPS，Global Position System)、北斗导航卫星***或伽利略(欧洲全球卫星导航***)等。所述有线通信可以包括通用串行总线(USB，Universal Serial Bus)、高清多媒体接口(HDMI，High-Definition Multimedia Interface)、推荐标准232(RS-232，RecommendStandard 232)、和/或简易老式电话服务(POTS，Plain Old Telephone Service)等中的一种，或几种的组合。

物理键117可以用于用户交互。物理键117可以包括一个或多个实体键。在一些实施例中，用户可以自定义物理键117的功能。

网络120可以包括通信网络。所述通信网络可以包括计算机网络(例如，局域网(LAN，Local Area Network)或广域网(WAN，Wide Area Network))、互联网和/或电话网络等，或几种的组合。网络120可以向网络环境***100中的其他设备(例如，电子设备110、服务器130、电子设备140等)发送信息。

服务器130可以通过网络120连接网络环境***100中的其他设备(例如，电子设备110、电子设备140等)。

电子设备140可以与电子设备110相同或不同的类型。根据本申请的一些实施例，在电子设备110中执行的部分或全部操作可以在另一设备或多个设备(例如，电子设备140和/或服务器130)中执行。在一些实施例中，当电子设备110自动或响应于请求执行一种或多种功能和/或服务时，电子设备110可以请求其他设备(例如，电子设备140和/或服务器130)替代执行功能和/或服务。在一些实施例中，电子设备110除执行功能或服务外，进一步执行与其相关的一种或多种功能。在一些实施例中，其他设备(例如，电子设备140和/或服务器130)可以执行所请求的功能或其它相关的一种或多种功能，可以将执行结果发送给电子设备110。电子设备110可以重复执行结果或进一步处理执行结果，以提供所请求的功能或服务。

需要说明的是，以上对于网络环境***100的描述，仅为描述方便，并不能把本申请限制在所举实施例的范围之内。可以理解，对于本领域技术人员，基于本***的原理，可能在不背离该原理的前提下，对各个元件进行任意组合，或者构成子***与其他元件连接，对实施上述方法和***的应用领域进行形式和细节上的各种修正和改变。例如，网络环境***100可以进一步包括数据库等。诸如此类的变形，均在本申请的保护范围之内。

图2是根据本申请的一些实施例提供的电子设备功能配置的示例性单元框图。如图2所示，处理器112可以包括处理模块200，所述处理模块200可以包括获取单元210、分析单元220、控制单元230。

根据本申请的一些实施例，获取单元210可以获取信息。所述信息可以包括但不限于文字、图片、音频、视频、动作、手势等，或几种的组合。在一些实施例中，获取单元210可以通过输入/输出模块114、显示器115的触摸屏和/或物理键117获取输入信息。作为示例，获取单元210可以获取电子设备110的输入信息。所述输入信息可以包括按键输入、触控输入、手势输入、动作输入、远程输入、传输输入等，或几种的组合。

在一些实施例中，获取单元210可以获取音频信息，音频信息来源于安装在汽车不同位置的多个声音接收器。

根据本申请的一些实施例，分析单元220至少能够对获取单元210获取的信息进行分析。在一些实施例中，分析单元220能够分析获取单元210获取的音频信息，以确定所述音频信息的声源位置以及音频信息中包含的控制指令。

根据本申请的一些实施例，控制单元230可以根据分析单元220的分析结果控制电子设备。所述控制电子设备可以包括控制电子设备110执行动作。

在一些实施例中，控制单元230可以根据分析单元220对图像信息的分析结果，控制汽车执行操作。例如，打开车窗、打开多媒体、鸣喇叭、控制车灯等。

需要说明的是，以上对于处理模块200中的单元描述，仅为描述方便，并不能把本申请限制在所举实施例的范围之内。可以理解，对于本领域技术人员，基于本***的原理，可能在不背离该原理的前提下，对各个单元进行任意组合，或者构成子模块与其他单元连接，对实施上述模块和单元的功能进行形式和细节上的各种修正和改变。例如，电子设备110可以进一步包括传感器等，获取单元210可以通过传感器获取信息。又例如，处理单元220可以进一步包括划分子单元等。诸如此类的变形，均在本申请的保护范围之内。

图3是根据本申请的一些实施例提供的基于声源方向的语音控制方法的示例性流程图。如图3所示，流程300可以通过处理模块200实现。

在步骤310，获取音频信息。

音频信息为语音指令。根据本申请的一些实施例，音频信息来源于安装在汽车不同位置的多个声音接收器，如麦克风。

在步骤320，确定所述音频信息的声源位置。

根据本申请的一些实施例，利用安装在汽车不同位置的多个声音接收器同时获取音频信息，根据多个声音接收器接受到的音频信息的音量差别，确定所述音频信息的声源位置。

进一步来说，在一些实施例中，多个声音接收器分别安装在车内不同座位相对的位置，能够更准确的确定是哪个座位的乘客发出的音频信息，以便于根据不同座位执行不同操作。

进一步来说，在一些实施例中，多个声音接收器安装在车内和车外；确定所述音频信息的声源位置包括：确定声源是在车内还是在车外，车内的音频信息发出者和车外的音频信息发出者对应执行操作不同。

在步骤330，对音频信息进行语义解析，生成控制指令。

控制指令能够通过汽车的中控***，执行各种操作，例如：打开或关闭车窗、打开或关闭童锁、打开或关闭空调、打开或关闭双闪、鸣喇叭等。

在步骤340，根据声源位置以及控制指令，执行操作。

根据本申请的一些实施例，当控制指令为打开或关闭车窗时，执行操作指：打开或关闭与声源位置最靠近的车窗。上述方案对车窗的控制更加精准，更加智能，更符合实际需求。

根据本申请的一些实施例，当控制指令为打开空调时，执行操作包括：针对某个位置的乘客，进行车内空调出风口方向的调整。

根据本申请的一些实施例，车内有多个显示屏，用户通过语音指令打开/关闭显示屏，此时判断乘客在车内的位置，根据指令信息开启/关闭显示屏；比如用户需要看沪深指数时，通过语音唤醒显示屏，此时判断用户所处的位置，打开用户所处位置的显示屏。

根据本申请的一些实施例，为了保证安全性，需要判断确定声源位于车内还是车外，仅在声源位于车内时，才会执行操作。

图4是根据本申请的一些实施例提供的基于声源方向的语音控制方法的示例性流程图。如图4所示，流程300可以通过处理模块200实现。

在步骤410，获取音频信息。步骤410的内容与上述步骤310相同，故在此不再赘述。

在步骤420，确定所述音频信息的声源位置。步骤420的内容与上述步骤320相同，故在此不再赘述。

在步骤430，根据声源位置，判断音频信息发出者的身份。

根据本申请的一些实施例，判断音频信息发出者是司机还是乘客，也可预先设定不同座位对应不同的身份。

在步骤440，根据身份判断该条音频信息是否有效；在判断音频信息有效时，才执行步骤450。

根据本申请的一些实施例，不同身份的音频信息发出者具备不同的权限。具体来说，在一些实施例中，仅当音频信息发出者的身份为司机时，才执行步骤450。

在步骤450，对音频信息进行语义解析，生成控制指令。步骤450的内容与上述步骤330相同，故在此不再赘述。

在步骤460，根据声源位置以及控制指令，执行操作。步骤460的内容与上述步骤340相同，故在此不再赘述。

图5是根据本申请的一些实施例提供的基于声源方向的语音控制方法的示例性流程图。如图5所示，流程300可以通过处理模块200实现。

在步骤510，获取音频信息。步骤510的内容与上述步骤310相同，故在此不再赘述。

在步骤520，确定所述音频信息的声源位置。步骤520的内容与上述步骤320相同，故在此不再赘述。

在步骤530，对音频信息进行语义解析，生成控制指令。步骤530的内容与上述步骤330相同，故在此不再赘述。

在步骤540，判断所述控制指令是否为受限指令。

当为受限指令时，执行步骤550；当为非受限指令，即常规指令时，则执行步骤560；

常规指令和受限指令可以是***默认设定，也能够由用户自主设定。例如，可将关系到行车安全的控制指令设置为受限指令，将其他指令设置为常规指令。

在步骤550，根据声源位置，判断音频信息发出者的身份；

在步骤560，根据身份验证，判断音频信息发出者是否具备对应的操作权限；当具备操作权限时，执行步骤570。

在步骤570，根据声源位置以及控制指令，执行操作。步骤470的内容与上述步骤340相同，故在此不再赘述。

与图4所示的实施例相比，图5所示的语音控制方法，无需针对所有的控制指令均进行身份验证，仅对涉及行车安全的控制指令，进行相关的身份验证，能够节省一定量运算，进而提高操作效率。

需要注意的是，上述的实施例仅仅是用作示例，本申请不限于这样的示例，而是可以进行各种变化。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序指令相关的硬件来完成，所述的程序可存储于一计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请一些优选的实施例，不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于声源方向的语音控制方法，其特征在于，包括：

获取音频信息；

确定所述音频信息的声源位置；

对音频信息进行语义解析，生成控制指令；

根据声源位置以及控制指令，执行控制操作。

2.根据权利要求1所述的基于声源方向的语音控制方法，其特征在于，利用安装在汽车不同位置的多个声音接收器同时获取音频信息，根据多个声音接收器接受到的音频信息的音量差别，确定所述音频信息的声源位置。

3.根据权利要求1所述的基于声源方向的语音控制方法，其特征在于，在确定所述音频信息的声源位置后，还包括：

根据声源位置，判断音频信息发出者的身份；

根据身份判断该条音频信息是否有效；

在判断音频信息有效时，才执行控制操作。

4.根据权利要求3所述的基于声源方向的语音控制方法，其特征在于，根据身份判断该条音频信息是否有效指：

确定所述控制指令对应的控制操作所需的权限；

当具备权限时，判断该条音频信息有效。

5.根据权利要求3所述的基于声源方向的语音控制方法，其特征在于，根据声源位置，判断音频信息发出者是否为司机；

仅在音频信息发出者为司机时，才执行控制操作。

6.根据权利要求1所述的基于声源方向的语音控制方法，其特征在于，在生成控制指令后，还包括：

当为常规指令时，直接执行控制操作；

7.根据权利要求1所述的基于声源方向的语音控制方法，其特征在于，当控制指令为打开或关闭车窗时，执行控制操作指：打开或关闭与声源位置最靠近的车窗。

8.根据权利要求7所述的基于声源方向的语音控制方法，其特征在于，多个声音接收器分别安装在车内不同座位相对的位置。

9.根据权利要求2所述的基于声源方向的语音控制方法，其特征在于，多个声音接收器安装在车内和车外；确定所述音频信息的声源位置包括：确定声源是在车内还是在车外。

10.一种基于声源方向的语音控制***，其特征在于，包括：

一个存储器，被配置为存储数据及指令；

获取音频信息；

确定所述音频信息的声源位置；

对音频信息进行语义解析，生成控制指令；

根据声源位置以及控制指令，执行控制操作。