CN109003611B - 用于车辆语音控制的方法、装置、设备和介质 - Google Patents

用于车辆语音控制的方法、装置、设备和介质 Download PDF

Info

Publication number
CN109003611B
CN109003611B CN201811150983.1A CN201811150983A CN109003611B CN 109003611 B CN109003611 B CN 109003611B CN 201811150983 A CN201811150983 A CN 201811150983A CN 109003611 B CN109003611 B CN 109003611B
Authority
CN
China
Prior art keywords
text
vehicle
instructions
wake
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811150983.1A
Other languages
English (en)
Other versions
CN109003611A (zh
Inventor
张佳雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Apollo Zhilian Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Zhilian Beijing Technology Co Ltd filed Critical Apollo Zhilian Beijing Technology Co Ltd
Priority to CN201811150983.1A priority Critical patent/CN109003611B/zh
Publication of CN109003611A publication Critical patent/CN109003611A/zh
Application granted granted Critical
Publication of CN109003611B publication Critical patent/CN109003611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开的实施例涉及一种车辆语音控制的方法、装置、设备和计算机可读存储介质。该方法包括获取由车辆识别用户输入的语音而产生的文本;基于该用户的身份信息划分该文本为多个文本部分;通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合;以及使该车辆执行该指令集合中的至少一部分指令。本公开的技术方案可以提高车载场景中语音识别的效率和准确性,从而提高用户的语音交互体验。

Description

用于车辆语音控制的方法、装置、设备和介质
技术领域
本公开总体上涉及信息处理领域,更具体地,涉及用于车辆语音控制的方法、装置、设备和计算机可读存储介质。
背景技术
当前,在车载互联场景中,随着语音识别与回声消除技术日益成熟,用户使用语音进行操作的频率也日益增加。语音交互也从单轮语音交互发展为多轮语音交互,使得语音交互过程也更为流畅。然而,用户在单次语音交互中能够操作的指令的数目仍然被限制在单个指令内,导致无法有效地利用语音识别。而且,用户经常执行的多个操作也无法简单方便地完成。此外,用户也难以通过语音调用车载***中的各个应用。这些缺陷降低了用户的语音交互体验。
发明内容
根据本公开的示例实施例,提供了一种车辆语音控制的方案。
在本公开的第一方面中,提供了一种用于车辆语音控制的方法。该方法包括获取由车辆识别用户输入的语音而产生的文本。该方法还包括基于该用户的身份信息划分该文本为多个文本部分。进一步地,该方法还包括通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合。更进一步地,该方法还包括使该车辆执行该指令集合中的至少一部分指令。
在本公开的第二方面中,提供了一种用于车辆语音控制的装置。该装置包括获取模块,被配置为获取由车辆识别用户输入的语音而产生的文本。该装置还包括划分模块,被配置为基于用户的身份信息划分文本为多个文本部分。进一步地,该装置还包括生成模块,被配置为通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合。更进一步地,该装置还包括执行模块,被配置为使车辆执行指令集合中的至少一部分指令。
在本公开的第三方面中,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的用于车辆语音控制的过程或方法的示意流程图;
图3示出了根据本公开的一些实施例的用于车辆语音控制的装置的示意框图;以及
图4示出了能够实施本公开的多个实施例的计算设备的示意框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如以上提及的,在当前车载互联场景中,用户无法有效地利用语音识别,无法直接调用多个操作,也无法调用车载***中的各个应用,使得降低了用户的语音交互体验。
本公开的实施例提出了一种用于车辆语音控制的方案。在该方案中,获取由车辆识别用户输入的语音而产生的文本;基于该用户的身份信息划分该文本为多个文本部分;通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合;以及使该车辆执行该指令集合中的至少一部分指令。以此方式,可以基于用户的身份信息来识别用户意图执行的多个指令,从而提高了指令识别的效率和准确性,极大地改善了用户的语音交互体验。
以下将参照附图来具体描述本公开的实施例。
图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图所示,示例环境100包括车辆110、用户120和计算设备130。车辆110可以是诸如机动车辆、非机动车辆等能够移动的任何实体。虽然在文本中以车辆100为例进行了描述,但是应当理解,车辆有时也可以被替换为不发生运动的任何实体,例如诸如电视、空调、冰箱、微波炉等的家用电器。
车辆110包括车载计算设备112、语音采集设备114和存储设备116。车载计算设备112可以是集中式或分布式的任何适当的计算设备,包括但不限于个人计算机、服务器、客户端、手持或膝上型设备、多处理器、微处理器、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机***和分布式云以及其组合等。
语音采集设备114可以是能够收集来自用户120的语音的任何采集设备。语音采集设备114的示例包括但不限于车载麦克风、具有麦克风的车载摄像头等。此外,存储设备116可以是用于存储与车辆110有关的数据的任何存储设备。
在某些实施例中,语音采集设备114可以采集来自用户120的语音,并且将所采集的语音提供给车载计算设备112。车载计算设备112可以将所获取的语音转换为文本,并且识别文本中所涉及的一个或多个车辆可执行的指令。车辆可执行的指令可以对车载***中的各个应用进行操作。例如,车辆可执行的指令可以指示“打开导航”、“打开音乐”等,使得可以打开车载***中的导航应用、音乐应用等。
在某些实施例中,存储设备116可以存储唤醒语句。唤醒语句通常不是车辆可执行的指令、但是与车辆可执行的指令相关联。车载计算设备112可以从存储设备116获取唤醒语句,并且将唤醒语句与文本进行比较。当唤醒语句与文本相匹配时,车载计算设备112可以获取与唤醒语句相对应的指令集合(也可以被称为工作流)。例如,车载计算设备112可以从计算设备130获取该指令集合。备选地,车载计算设备112可以从存储设备116获取该指令集合。然后,车载计算设备112可以执行该指令集合。
对于车辆110,计算设备130可以是远程的,也可以是本地的。计算设备130可以是集中式或分布式的任何适当的计算设备,包括但不限于个人计算机、服务器、客户端、手持或膝上型设备、多处理器、微处理器、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机***和分布式云以及其组合等。计算设备130可以与车辆110、特别是其中的车载计算设备112通信,例如通过有线和/或无线连接进行通信。
相反,当唤醒语句与文本不匹配时,车载计算设备112可以将文本发送到计算设备130。在某些实施例中,计算设备130可以对该文本进行多层处理。例如,计算设备130可以对文本执行两层或三层处理。具体地,在第一层处理中,计算设备130可以基于用户120的身份信息划分该文本为多个文本部分。用户120的身份信息可以指示与用户120相关联的唤醒语句、特定于用户120的连接词等。此外,在第一层处理中,计算设备130还可以使用通用连接词划分该文本为多个文本部分。通用连接词是通常被用于划分文本的词语,例如“并且”、“以及”等。
在第二层处理中,计算设备130可以对第一层处理所得到的多个文本部分中的至少一个文本部分应用语法分析,以获得一个或多个文本部分。在某些实施例中,除了第一层处理所得到的多个文本部分中的至少一个文本部分,计算设备130还可以对本文本身应用语法分析。
进一步地,计算设备130可以确定与划分所得到的一个或多个文本部分对应的指令。在某些实施例中,计算设备130可以仅确定与第二层处理所得到的文本部分对应的指令。备选地,计算设备130可以确定与第一层处理和第二层处理两者所得到的文本部分对应的指令。
在某些实施例中,计算设备130可以根据深层语义分析将文本部分转换为机器语义表达式,并且基于该机器语义表达式来确定与该文本部分对应的指令。
深层语义分析可以为语句的每个谓词找到相应的语义角色,以将语句转化为机器语义表达式,例如谓词逻辑表达式(例如lambda演算表达式)、基于依存的组合式语义表达式(dependency-based compositional semantic representation)等。以下给出示例性中英文语句,以及与其对应的一阶谓词逻辑表达式:
中文:列出在科罗拉多州所有的河流
英文:Name all the rivers in Colorado
语义表达式:answer(river(loc_2(stateid(‘colorado’))))
深层语义分析的方法包括但不限于基于知识库(或数据库)的语义分析、有监督语义分析和半监督或无监督语义分析。在基于知识库的语义分析中,在知识库中以三元组等形式记录了一系列事实。针对给定语句,语义分析通过转换技术将语句转换为知识库中已定义的一系列元组,并且构成一个实体关系图。
在有监督语义分析中,有监督语义分析需要利用人工标注的语义分析语料。在人工标注的语义分析语料中,为每个语句人工标注其语义表达式。
在半监督或无监督语义分析中,无监督语义分析不需要利用人工标注的语义分析语料,而仅利用知识库中的实体名/关系名等,并且也不利用知识库中的记录的事实。无监督语义分析虽然不利用人工标注的语义分析语料,但是通常会采用最大期望(ExpectationMaximization,EM)算法。在算法的每次迭代中,对语句进行语义分析,并且选择置信度高的语句及其语义分析结果作为自训练数据集。
除了上述第一层处理和第二层处理,在某些实施例中,计算设备130还可以执行第三层处理,第三层处理可以对前两层未解析出的文本部分进行辅助解析。在第三层处理中,计算设备130可以对划分所得到的文本部分中不与车辆110可执行的指令相关联的文本部分应用特定于某一区域的区域性分析。在某些实施例中,计算设备130可以对第二层处理所得到的文本部分中不与车辆110可执行的指令相关联的文本部分应用区域性分析。备选地,计算设备130可以对第一层处理和第二层处理两者所得到的文本部分中不与车辆110可执行的指令相关联的文本部分应用区域性分析。
例如,计算设备130可以诸如经由车辆110上装载的全球定位***(GPS),获取用户120输入语音时所位于的地理位置。计算设备130可以基于该地理位置,对划分所得到的文本部分中不与车辆110可执行的指令相关联的文本部分应用区域性分析。区域性分析可以包括但不限于方言分析。
区域性分析可以利用用户所位于的区域读取特定于该区域的词义知识库、语义分析知识库与人工标注的专属语义分析语料,来对文本部分进行划分。词义知识库可以包括该区域特有的谓语与名词,其可用于识别未标识出的语词与词义消歧。语义分析知识库可以包括该区域特有的语义表达式。人工标注的专属语义分析语料可以是根据该区域的新闻与热点生成的具有时效性的语义表达式。
然后,计算设备130可以确定与第三层处理所得到的一个或多个文本部分对应的指令。在某些实施例中,计算设备130可以根据如上所述的深层语义分析将第三层处理所得到的文本部分转换为机器语义表达式,并且基于该机器语义表达式来确定与该文本部分对应的指令。
在某些实施例中,计算设备130还可以去除与第一层处理、第二层处理和第三层处理所得到的文本部分对应的指令中的重复指令。去除重复指令的动作可以在针对每一层处理确定出指令时执行,也可以在针对全部层处理确定出指令时执行。
在某些实施例中,计算设备130可以确定可用指令集合,使得所确定出的指令中仅属于可用指令集合的指令被车辆110执行。例如,可以对车辆110设置其所支持的可用指令集。在这种情况下,计算设备130可以获取车辆110的标识,并且确定与该标识对应的可用指令集合。
以此方式,可以基于用户120的身份信息、通用连接词、语法分析和区域性分析对用户输入的语音进行多个层次的处理,以确定用户120所意图执行的多个指令,极大地提高了指令识别的效率和准确性,极大地改善了用户的语音交互体验。
图2示出了根据本公开的一些实施例的用于车辆语音控制的过程或方法200的示意流程图。例如,方法200可以在如图1所示的计算设备130或者其他适当的***处被执行。例如,方法200可以由车辆110中的车载计算设备112或者与其相关联的计算设备来执行。此外,方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。
在210,计算设备130获取由车辆110识别用户120输入的语音而产生的文本。例如,用户120输入的语音及其所产生的文本可以是“我要回家,呼叫老婆”。在某些实施例中,计算设备130可以在车辆100无法确定一个或多个车辆可执行的指令的情况下,获取文本。例如,如上所述,车辆110的存储设备116可以存储唤醒语句。唤醒语句不是车辆可执行的指令、但是与车辆可执行的指令相关联。例如,唤醒语句可以是“我要回家”,并且与指令“打开导航”和“打开音乐”相关联。
由于文本(“我要回家,呼叫老婆”)与所存储的唤醒语句(“我要回家”)不匹配,车辆110无法识别该文本,从而使车辆110无法执行用户120所意图执行的“打开导航”、“打开音乐”和“呼叫老婆”的指令。在这种情况下,车辆110将该文本发送到计算设备130,以由计算设备130对文本进行识别。以此方式,可以在车辆110的计算能力有限的情况下,更准确地进行语音识别,从而节省车辆100所需的计算资源。
在220,计算设备130基于用户120的身份信息划分文本为多个文本部分。在某些实施例中,计算设备130可以基于在文本中识别与用户120相关联的唤醒语句,并且在识别到唤醒语句的情况下,将每个唤醒语句从文本中划分出来作为文本部分(也被称为“第一文本部分”)。唤醒语句可以是***默认的,也可以是由用户120设置的。虽然唤醒语句被描述为与单个用户相关联,但是唤醒语句可以与多个用户或所有用户相关联。例如,***默认的唤醒语句可以适用于所有用户。
假设文本为“我要回家完了之后呼叫老婆”,并且唤醒语句为“我要回家”。在此情况下,计算设备130可以从文本“我要回家完了之后呼叫老婆”中识别出唤醒语句“我要回家”,并且将唤醒语句“我要回家”从文本中划分出来作为第一文本部分。以此方式,可以使得用户120能够通过唤醒语句容易地执行涉及多个指令的操作,从而提高了语音交互的效率。
在某些实施例中,计算设备130可以在文本中识别特定于用户120的连接词,以及基于连接词来划分文本。特定于用户120的连接词可以是用户120预先设置的,也可以是计算设备130从用户的历史语音输入中学***。
进一步地,在某些实施例中,计算设备130还可以使用通用连接词划分文本为多个文本部分。通用连接词是通常被用于划分文本的词语,例如“并且”、“以及”等。例如,计算设备130可以从文本“我要回家并且呼叫老婆”中识别出通用连接词为“并且”,并且基于该通用连接词将文本划分为“我要回家”和“呼叫老婆”。
然后,对划分所得到的多个文本部分中的至少一个文本部分应用语法分析,以获得一个或多个文本部分(也被称为“第二文本部分”)。假设文本为“我要回家播放天气呼叫老婆”,计算设备130可以识别出唤醒语句“我要回家”,并且将文本划分为两个文本部分“我要回家”和“播放天气呼叫老婆”。在此情况下,计算设备130可以对两个文本部分之一“播放天气呼叫老婆”应用语法分析。
例如,计算设备130可以基于“谓宾”语法分析划分文本部分“播放天气呼叫老婆”。由于“播放”和“呼叫”为语法中的谓语,而“天气”和“老婆”为语法中的宾语,因此计算设备130可以将文本部分“播放天气呼叫老婆”划分为两个第二文本部分“播放天气”和“呼叫老婆”。以此方式,可以基于语法对文本进行进一步地划分,从而增加语音识别的准确性。
进一步地,计算设备130可以确定与划分所得到的一个或多个文本部分对应的指令。在某些实施例中,计算设备130可以根据深层语义分析将文本部分转换为机器语义表达式,并且基于该机器语义表达式来确定与该文本部分对应的指令。例如,计算设备130可以确定与文本部分“我要回家”、“播放天气”和“呼叫老婆”对应的指令指示“打开导航”、“打开音乐”、“播放天气”和“呼叫老婆”。
然而,有时,计算设备130可能无法确定与划分所得到的文本部分中的一些文本部分对应的指令,这有可能是由于用户120所位于的特定区域的方言造成的。在此情况下,在某些实施例中,计算设备130还可以获取用户120输入语音时所位于的地理位置,以及基于地理位置,对一个或多个第二文本部分中不与一个或多个车辆可执行的指令相关联的第二文本部分应用方言分析。
例如,用户120输入语音时车辆110位于重庆市内,计算设备130可以基于地理位置位于重庆市内,对不与车辆可执行的指令相关联的第二文本部分应用针对重庆话的方言分析。假设文本部分“呼叫堂客”不与车辆可执行的指令相关联,计算设备130可以对文本部分为“呼叫堂客”进行方言分析为“呼叫老婆”。
然后,计算设备130可以确定方言分析所得到的一个或多个文本部分对应的指令。在某些实施例中,如上所述,计算设备130可以根据深层语义分析将方言分析所得到的文本部分转换为机器语义表达式,并且基于该机器语义表达式来确定与该文本部分对应的指令。以此方式,可以针对用户120所位于的区域进行区域性扩展,提高语音识别的准确性和效率。
在230,计算设备130可以通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合。如上所述,在某些实施例中,计算设备130可以根据深层语义分析将所划分的文本部分转换为机器语义表达式,并且基于该机器语义表达式来确定与该文本部分对应的指令。所确定出的指令可以生成一个指令集合。例如,所确定出的指令可以按照与其对应的文本部分在文本中的顺序生成一个顺序指令集合。
此外,在某些实施例中,计算设备130可以通过去除一个或多个车辆可执行的指令中重复的指令,生成所述指令集合。假设文本为“我要回家并且打开音乐”,计算设备130基于上述方法可以确定与该文本相关联的指令指示“打开导航”、“打开音乐”和“打开音乐”。显然,存在两个重复的指令“打开音乐”。在此情况下,计算设备130可以通过去除一个重复的指令“打开音乐”,生成仅包含一个“打开导航”指令和一个“打开音乐”指令的指令集合。以此方式,可以避免执行重复的操作,从而提高了用户体验。
在240,计算设备130可以使车辆110执行指令集合中的至少一部分指令。在某些实施例中,可以对车辆110设置其所支持的可用指令集。在这种情况下,计算设备130可以获取车辆110的标识,并且确定与该标识对应的可用指令集合,从而使车辆110执行该指令集合中属于可用指令集合的至少一部分指令。
例如,用户120或车辆110的生产商可以将车辆110的可用指令集设置为不包括“打开音乐”。在这种情况下,即使计算设备130确定出指令“打开音乐”,计算设备130不会使车辆110执行该指令。以此方式,可以对希望车辆110能够执行的操作进行设置,从而提高了车载***的安全性和灵活性。
以此方式,可以基于用户120的身份信息、通用连接词、语法分析和方言分析对用户输入的语音进行多个层次的处理,并且在确定出指令之后去除重复的指令以及使车辆110仅执行被允许执行的操作。这不仅提高了指令识别的效率和准确性,还提高了车载***的安全性和灵活性,从而极大地改善了用户的语音交互体验。
图3示出了根据本公开的一些实施例的用于车辆语音控制的装置300的示意框图。结合图1和图2的描述,图3所示的装置300包括:获取模块310,被配置为获取由车辆识别用户输入的语音而产生的文本;划分模块320,被配置为基于该用户的身份信息划分该文本为多个文本部分;生成模块330,被配置为通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合;以及执行模块340,被配置为使该车辆执行该指令集合中的至少一部分指令。
在本公开的实施例中,获取模块310包括:文本获取模块,被配置为响应于该车辆无法确定该一个或多个车辆可执行的指令,获取该文本。
在本公开的实施例中,划分模块320包括:唤醒语句识别模块,被配置为在该文本中识别与该用户相关联的唤醒语句,该唤醒语句不是该一个或多个车辆可执行的指令、但是与该一个或多个车辆可执行的指令相关联;以及唤醒语句划分模块,被配置为响应于识别到该唤醒语句,将每个唤醒语句从该文本中划分出来作为第一文本部分。
在本公开的实施例中,划分模块320还包括:连接词识别模块,被配置为在该文本中识别特定于该用户的连接词;以及连接词划分模块,被配置为基于该连接词来划分该文本。
在本公开的实施例中,划分模块320还包括:语法分析模块,被配置为对划分所得到的该多个文本部分中的至少一个文本部分应用语法分析,以获得一个或多个第二文本部分。
在本公开的实施例中,划分模块320还包括:位置获取模块,被配置为获取该用户输入该语音时所位于的地理位置;以及方言分析模块,被配置为基于该地理位置,对该一个或多个第二文本部分中不与该一个或多个车辆可执行的指令相关联的第二文本部分应用方言分析。
在本公开的实施例中,生成模块330包括:指令集合生成模块,被配置为通过去除该一个或多个车辆可执行的指令中重复的指令,生成该指令集合。
在本公开的实施例中,执行模块340包括:标识获取模块,被配置为获取该车辆的标识;确定模块,被配置为确定与该标识对应的可用指令集合;以及指令执行模块,被配置为使该车辆执行该指令集合中属于该可用指令集合的至少一部分指令。
在本公开的实施例中,装置300还包括:唤醒语句生成模块,被配置为生成指示该至少一部分指令的唤醒语句。
图4示出了可以用来实施本公开的实施例的示例设备400的示意性框图。如图所示,设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的计算机程序指令或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序指令,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元401执行上文所描述的各个方法和处理,例如过程200。例如,在一些实施例中,过程200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由CPU 401执行时,可以执行上文描述的过程200的一个或多个步骤。备选地,在其他实施例中,CPU 401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程200。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种车辆语音控制的方法,包括:
获取由车辆识别用户输入的语音而产生的文本;
基于所述用户的身份信息划分所述文本为多个文本部分;
通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合;以及
使所述车辆执行所述指令集合中的至少一部分指令,
其中划分所述文本包括:
在所述文本中识别与所述用户相关联的唤醒语句,所述唤醒语句不是所述一个或多个车辆可执行的指令、但是与所述一个或多个车辆可执行的指令相关联;以及
响应于识别到所述唤醒语句,将每个唤醒语句从所述文本中划分出来作为第一文本部分;
其中与所述第一文本部分相关联的车辆可执行指令是基于所述唤醒语句与所述车辆可执行指令的关联关系来确定的。
2.根据权利要求1所述的方法,其中获取所述文本包括:
响应于所述车辆无法确定所述一个或多个车辆可执行的指令,获取所述文本。
3.根据权利要求1所述的方法,其中划分所述文本包括:
在所述文本中识别特定于所述用户的连接词;以及
基于所述连接词来划分所述文本。
4.根据权利要求1所述的方法,其中划分所述文本包括:
对划分所得到的所述多个文本部分中的至少一个文本部分应用语法分析,以获得一个或多个第二文本部分。
5.根据权利要求4所述的方法,其中划分所述文本包括:
获取所述用户输入所述语音时所位于的地理位置;以及
基于所述地理位置,对所述一个或多个第二文本部分中不与所述一个或多个车辆可执行的指令相关联的第二文本部分应用方言分析。
6.根据权利要求1所述的方法,其中生成所述指令集合包括:
通过去除所述一个或多个车辆可执行的指令中重复的指令,生成所述指令集合。
7.根据权利要求1所述的方法,其中使所述车辆执行所述指令集合中的至少一部分指令包括:
获取所述车辆的标识;
确定与所述标识对应的可用指令集合;以及
使所述车辆执行所述指令集合中属于所述可用指令集合的至少一部分指令。
8.根据权利要求1所述的方法,还包括:
生成指示所述至少一部分指令的唤醒语句。
9.一种车辆语音控制的装置,包括:
获取模块,被配置为获取由车辆识别用户输入的语音而产生的文本;
划分模块,被配置为基于所述用户的身份信息划分所述文本为多个文本部分;
生成模块,被配置为通过确定与每个文本部分相关联的一个或多个车辆可执行的指令,生成一个指令集合;以及
执行模块,被配置为使所述车辆执行所述指令集合中的至少一部分指令,
其中所述划分模块包括:
唤醒语句识别模块,被配置为在所述文本中识别与所述用户相关联的唤醒语句,所述唤醒语句不是所述一个或多个车辆可执行的指令、但是与所述一个或多个车辆可执行的指令相关联;以及
唤醒语句划分模块,被配置为响应于识别到所述唤醒语句,将每个唤醒语句从所述文本中划分出来作为第一文本部分;
其中与所述第一文本部分相关联的车辆可执行指令是基于所述唤醒语句与所述车辆可执行指令的关联关系来确定的。
10.根据权利要求9所述的装置,其中所述获取模块包括:
文本获取模块,被配置为响应于所述车辆无法确定所述一个或多个车辆可执行的指令,获取所述文本。
11.根据权利要求9所述的装置,其中所述划分模块包括:
连接词识别模块,被配置为在所述文本中识别特定于所述用户的连接词;以及
连接词划分模块,被配置为基于所述连接词来划分所述文本。
12.根据权利要求9所述的装置,其中所述划分模块包括:
语法分析模块,被配置为对划分所得到的所述多个文本部分中的至少一个文本部分应用语法分析,以获得一个或多个第二文本部分。
13.根据权利要求12所述的装置,其中所述划分模块包括:
位置获取模块,被配置为获取所述用户输入所述语音时所位于的地理位置;以及
方言分析模块,被配置为基于所述地理位置,对所述一个或多个第二文本部分中不与所述一个或多个车辆可执行的指令相关联的第二文本部分应用方言分析。
14.根据权利要求9所述的装置,其中所述生成模块包括:
指令集合生成模块,被配置为通过去除所述一个或多个车辆可执行的指令中重复的指令,生成所述指令集合。
15.根据权利要求9所述的装置,其中所述执行模块包括:
标识获取模块,被配置为获取所述车辆的标识;
确定模块,被配置为确定与所述标识对应的可用指令集合;以及
指令执行模块,被配置为使所述车辆执行所述指令集合中属于所述可用指令集合的至少一部分指令。
16.根据权利要求9所述的装置,还包括:
唤醒语句生成模块,被配置为生成指示所述至少一部分指令的唤醒语句。
17.一种电子设备,所述电子设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201811150983.1A 2018-09-29 2018-09-29 用于车辆语音控制的方法、装置、设备和介质 Active CN109003611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811150983.1A CN109003611B (zh) 2018-09-29 2018-09-29 用于车辆语音控制的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811150983.1A CN109003611B (zh) 2018-09-29 2018-09-29 用于车辆语音控制的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN109003611A CN109003611A (zh) 2018-12-14
CN109003611B true CN109003611B (zh) 2022-05-27

Family

ID=64589614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811150983.1A Active CN109003611B (zh) 2018-09-29 2018-09-29 用于车辆语音控制的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN109003611B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767758B (zh) * 2019-01-11 2021-06-08 中山大学 车载语音分析方法、***、存储介质以及设备
CN112017642B (zh) * 2019-05-31 2024-04-26 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN110400562B (zh) * 2019-06-24 2022-03-22 歌尔科技有限公司 交互处理方法、装置、设备及音频设备
JP7274376B2 (ja) * 2019-07-18 2023-05-16 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN111324202A (zh) * 2020-02-19 2020-06-23 中国第一汽车股份有限公司 一种交互方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145304A (zh) * 2012-03-08 2014-11-12 Lg电子株式会社 用于多个装置语音控制的设备和方法
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN107204185A (zh) * 2017-05-03 2017-09-26 深圳车盒子科技有限公司 车载语音交互方法、***及计算机可读存储介质
CN107199971A (zh) * 2017-05-03 2017-09-26 深圳车盒子科技有限公司 车载语音交互方法、终端及计算机可读存储介质
CN107680591A (zh) * 2017-09-21 2018-02-09 百度在线网络技术(北京)有限公司 基于车载终端的语音交互方法、装置及其设备
CN108091329A (zh) * 2017-12-20 2018-05-29 江西爱驰亿维实业有限公司 基于语音识别控制汽车的方法、装置及计算设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313739B2 (en) * 2012-10-23 2016-04-12 Qualcomm Incorporated Systems and methods for low power wake up signal and operations for WLAN
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及***
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
CN107527614B (zh) * 2016-06-21 2021-11-26 瑞昱半导体股份有限公司 语音控制***及其方法
CN107223280B (zh) * 2017-03-03 2021-01-08 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
CN107578776B (zh) * 2017-09-25 2021-08-06 咪咕文化科技有限公司 一种语音交互的唤醒方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145304A (zh) * 2012-03-08 2014-11-12 Lg电子株式会社 用于多个装置语音控制的设备和方法
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN107204185A (zh) * 2017-05-03 2017-09-26 深圳车盒子科技有限公司 车载语音交互方法、***及计算机可读存储介质
CN107199971A (zh) * 2017-05-03 2017-09-26 深圳车盒子科技有限公司 车载语音交互方法、终端及计算机可读存储介质
CN107680591A (zh) * 2017-09-21 2018-02-09 百度在线网络技术(北京)有限公司 基于车载终端的语音交互方法、装置及其设备
CN108091329A (zh) * 2017-12-20 2018-05-29 江西爱驰亿维实业有限公司 基于语音识别控制汽车的方法、装置及计算设备

Also Published As

Publication number Publication date
CN109003611A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN109003611B (zh) 用于车辆语音控制的方法、装置、设备和介质
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
EP3491533B1 (en) Providing command bundle suggestions for an automated assistant
CN109841212B (zh) 分析具有多个意图的命令的语音识别***和语音识别方法
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
CN107656996B (zh) 基于人工智能的人机交互方法和装置
US20160275148A1 (en) Database query method and device
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
EP3799640A1 (en) Semantic parsing of natural language query
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
US10482876B2 (en) Hierarchical speech recognition decoder
US8719025B2 (en) Contextual voice query dilation to improve spoken web searching
US11069351B1 (en) Vehicle voice user interface
WO2020233363A1 (zh) 语音识别的方法、装置、电子设备和存储介质
CN111312230B (zh) 一种用于语音对话平台的语音交互监测方法及装置
US20150379995A1 (en) Systems and methods for a navigation system utilizing dictation and partial match search
CN113486170B (zh) 基于人机交互的自然语言处理方法、装置、设备及介质
CN115455161A (zh) 对话处理方法、装置、电子设备及存储介质
US11062700B1 (en) Query answering with controlled access knowledge graph
CN111428011B (zh) 词语的推荐方法、装置、设备及存储介质
US11195102B2 (en) Navigation and cognitive dialog assistance
US11941414B2 (en) Unstructured extensions to rpa
CN114625889A (zh) 一种语义消歧方法、装置、电子设备及存储介质
CN112925889A (zh) 自然语言处理方法、装置、电子设备和存储介质
CN111883126A (zh) 数据处理方式的选择方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211018

Address after: 100176 101, floor 1, building 1, yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Apollo Zhilian (Beijing) Technology Co.,Ltd.

Address before: 100080 No.10, Shangdi 10th Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant