CN111301312B - 语音识别***的会话引导方法 - Google Patents

语音识别***的会话引导方法 Download PDF

Info

Publication number
CN111301312B
CN111301312B CN201910496395.1A CN201910496395A CN111301312B CN 111301312 B CN111301312 B CN 111301312B CN 201910496395 A CN201910496395 A CN 201910496395A CN 111301312 B CN111301312 B CN 111301312B
Authority
CN
China
Prior art keywords
user
domain
session
exception handling
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910496395.1A
Other languages
English (en)
Other versions
CN111301312A (zh
Inventor
李京澈
赵在珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Kia Corp
Original Assignee
Hyundai Motor Co
Kia Motors Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Motors Corp filed Critical Hyundai Motor Co
Publication of CN111301312A publication Critical patent/CN111301312A/zh
Application granted granted Critical
Publication of CN111301312B publication Critical patent/CN111301312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/10Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/20Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
    • B60K35/26Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using acoustic output
    • B60K35/265Voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/20Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
    • B60K35/28Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor characterised by the type of the output information, e.g. video entertainment or vehicle dynamics information; characterised by the purpose of the output information, e.g. for attracting the attention of the driver
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/148Instrument input by voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/16Type of output information
    • B60K2360/161Explanation of functions, e.g. instructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/16Type of output information
    • B60K2360/164Infotainment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Transportation (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音识别***的会话引导方法。语音识别***的会话引导方法可以包括:基于从安装在车辆上的***收集的语音识别功能信息和状况信息来管理用户域,基于用户域生成用于语音识别的会话,以及利用生成的会话引导用户。

Description

语音识别***的会话引导方法
相关申请的交叉引用
本申请要求于2018年12月12日提交的第10-2018-0159722号韩国专利申请的优先权,其全部内容通过引用结合于此用于所有目的。
技术领域
本发明涉及一种用于利用用于语音识别的会话引导用户的技术。
背景技术
语音识别技术是一种用于从语音信号中提取特征,将模式识别算法应用于所提取的特征,然后对语音信号进行回溯以知道由说话者的话语生成哪个音素或单词串的技术。
最近,已经提供了用于提高语音识别准确度的各种方案。使用语音行为信息的语音识别方案基于在主语音识别过程中获得的识别结果来估计语音行为,然后通过使用针对估计的语音行为指定的语言模型来搜索最终识别结果。然而,根据该方案,当由于伴随在主语音识别过程中获得的识别结果的错误而发生语音行为估计错误时,很可能导出不正确的最终识别结果。
作为另一种方案,例如,已经广泛使用基于域的语音识别技术,其中根据诸如天气、观光等主题对多个域进行分类,生成为每个域指定的声学模型和语言模型,然后通过使用声学和语言模型识别所提供的语音信号。根据本方案,当输入语音信号时,在多个域上并行执行语音识别以生成识别结果,然后最终选择多个识别结果中具有最高可靠性的识别结果。
因为基于域的语音识别技术需要对所有域执行语义分析,所以随着域数量的增加,处理速度变慢,并且很可能用户的语音命令将被解释为含糊不清的含义,这样就不可能获得高精度的结果。因此,向用户呈现诸如“无法识别,请再次输入”的引导消息或通过网络搜索获得的结果作为异常处理。在本例中,异常处理提供低精度结果,并且随着异常处理的数量增加,语音识别性能的可靠性劣化。
此外,随着域数量的增加,要支持的服务数量也会增加。结果,用于每个服务的语音指令的数量增加,因此用户难以掌握这样的语音命令。
在本发明背景技术部分中公开的信息仅用于增强对本发明的一般背景的理解,并且不应被视为对这些信息形成本领域技术人员已知的现有技术的认可或任何形式的暗示。
发明内容
本发明的各个方面旨在提供一种语音识别***的会话引导方法,其被配置为通过允许语音识别***利用定制的会话引导用户,以使用户能够容易地识别用于语音识别的语音命令,以及通过与用户的状况对应的建议来提高用户满意度,其中语音识别***基于车辆的功能和状况生成针对用户优化的域(在下文中,称为用户域)并通过反映用户对通常无法识别的异常处理结果的选择管理用户域。
本发明构思要解决的技术问题不限于上述问题,本发明所属领域的技术人员从以下描述中清楚地理解本文未提及的任何其他技术问题。
根据本发明的各个方面,一种引导语音识别***的会话的方法可以包括:基于从安装在车辆上的***收集的语音识别功能信息和状况信息来管理用户域,基于用户域生成用于语音识别的会话,并利用生成的会话引导用户。会话可以包括语音命令。
会话的生成可以包括:当添加与异常处理的语音命令对应的功能时,加权语音命令以增加引导的频率。
用户的引导可以包括通过语音或语句引导生成的会话。
用户域可以包括多个主域,并且多个主域中的每一个可以包括多个子域。
用户域的管理可以包括激活或去激活指定主域,以及激活或去激活指定子域。
用户域的管理可以包括,基于从安装在车辆上的***收集的用户偏好信息来确定是否激活主域和子域。
是否激活主域和子域的确定可以包括,基于用户设置的作为用户偏好信息的菜单优先级或喜好来确定是否激活主域和子域。
用户域的管理可以包括通过反映用户对异常处理结果的选择来进一步管理用户域。
用户域的进一步管理可以包括将权重赋予用户选择的域。
用户域的进一步管理可以包括,基于用户对模糊命令的异常处理结果的选择来生成异常处理模型“1”,并且基于用户对不支持命令的异常处理结果的选择来生成异常处理模型“2”。
根据本发明的各个方面,一种引导语音识别***的会话的方法可以包括:从安装在车辆上的***收集与车辆有关的故障信息,基于与车辆相关的故障信息生成会话,并利用生成的会话引导用户。在本例中,会话是建议类型的场景。
根据本发明的各个方面,一种引导语音识别***的会话的方法可以包括:与安装在车辆上的***协作管理用户的日程,基于日程生成会话,并利用生成的会话引导用户。在本例中,会话是建议类型的场景。
本发明的方法和装置具有其他特征和优点,这些特征和优点将在并入本文的附图中以及以下详细描述中更加详细地阐述或经由这些阐述而是显而易见的,附图和详细说明一起用于解释本发明的某些原理。
附图说明
图1是示例性地示出根据本发明示例性实施例的语音识别***的会话引导过程的概念图;
图2是示例性地示出根据本发明示例性实施例的为多个用户生成的用户域模型的视图;
图3是示例性地示出根据本发明示例性实施例的异常处理管理模块的配置的视图;
图4是示出根据本发明的各种示例性实施例的语音识别***的会话引导方法的流程图;
图5是示出根据本发明的各种示例性实施例的语音识别***的会话引导方法的流程图;
图6是示出根据本发明的各种示例性实施例的语音识别***的会话引导方法的流程图;以及
图7是示出根据本发明示例性实施例的用于执行语音识别***的会话引导方法的确定***的框图。
可以理解,附图不一定按比例绘制,呈现了说明本发明基本原理的各种特征的略微简化的表示。这里公开的本发明的具体设计特征,包括例如具体的尺寸、方向、位置和形状,将在某种程度上由特定的预期应用和使用环境确定。
在附图中,在附图的几个图中,附图标记表示本发明的相同或等同的部分。
具体实施方式
现在将详细参考本发明的各种实施例,其示例在附图中示出并在下面描述。虽然将结合本发明的示例性实施例描述本发明,但是应该理解,本说明书并不旨在将本发明限制于那些示例性实施例。另一方面,本发明不仅要涵盖本发明的示例性实施例,还要涵盖各种替换、修改、等同物和其他实施例,它们包括在由所附权利要求限定的本发明的精神和范围之内。
在下文中,将参考示例性附图详细描述本发明的各种示例性实施例。在将附图标记添加到每个附图的组件时,应当注意,相同或等同的组件即使在其他附图上显示时也用相同的数字表示。此外,在描述本发明的示例性实施例时,将排除对公知特征或功能的详细描述,以免不必要地模糊本发明的主旨。
在描述根据本发明示例性实施例的示例性实施例的组件时,可以使用诸如第一、第二、“A”、“B”、(a)、(b)等词语。这些词语仅旨在将一个组件与另一个组件区分开,并且这些词语不限制组成组件的性质、顺序或序列。除非另外定义,否则本文使用的所有术语,包括技术术语或科学术语,具有与本发明所属领域的技术人员通常理解的含义相同的含义。在通常使用的字典中定义的那些术语应被解释为具有与相关领域中的上下文含义相同的含义,并且不应被解释为具有理想或过分正式的含义,除非本申请明确定义为具有这样的含义。
图1是示例性地示出根据本公开示例性实施例的语音识别***的会话引导过程的概念图,并且示出了应用于车辆的语音识别***的处理器的功能块。
首先,用户域分析模块110,其为用于基于车辆的功能和状况(车辆中设置的***的运行状态)生成针对用户优化的域(以下称为用户域),并通过反映用户对通常未被识别的异常处理结果的选择来管理用户域的功能模块,可以包括车辆功能分析模块111、车辆状况分析模块112、用户域管理模块113和异常处理管理模块114。
车辆功能分析模块111(其为用于为每种功能构建模型集的功能块)形成与由车辆提供的语音识别相关的功能集。也就是说,从安装在车辆中的各种***收集语音识别相关功能信息。例如,可以配置用于与由车辆的音频视频导航(AVN)***提供的语音识别相关的功能的域集。
车辆功能分析模块111可以基于车载***支持的功能形成主域和子域。在本例中,支持功能集可以如下构成。
1)呼叫功能--支持
2)消息功能--连接Android手机时支持,连接I-phone时不支持
3)电子邮件功能--不支持
4)汽车手册提供--支持
5)在线音乐提供--当用户订阅在线音乐网站并允许链接时支持
车辆功能分析模块111可以通过反映用户设置的诸如菜单优先级、喜好等的用户偏好来形成域。例如,可以增加与高优先级菜单或者与喜好中包括的功能对应的域的权重。作为参考,域的权重越高,作为语音识别结果导出的概率越高。
车辆功能分析模块111可以包括功能管理模块,用于管理由安装在车辆上的***提供的语音识别功能的添加和删除。因此,车辆功能分析模块111可以实时分析由安装在车辆上的***提供的语音识别功能。
车辆功能分析模块111可以向用户域管理模块113通知由安装在车辆上的***提供的语音识别功能的添加和删除。
车辆状况分析模块112(其为用于为每种状况构建模型集的功能块)可以从安装在车辆上的各种***收集车辆状况信息。例如,可以收集状况信息,诸如行驶状态(停止、停车)、导航设置状态(目的地、登记位置、喜好等)、信息(体育、新闻、天气等)接收状态、电话连接状态(电话簿、通话记录、喜好、数据下载)等。
车辆状况分析模块112可以分析与行驶状态对应的每个主域和每个子域的使用频率,并且向每个主域和每个子域赋予权重。
例如,当用户在驾驶期间经常使用的域的使用频率为50%用于通信、30%用于媒体、10%用于新闻、10%用于导航时,可以对应于使用频率赋予权重。在本例中,在行驶时禁用具有权重值“0(零)”的域。
作为本发明的示例性实施例,当车辆停止时用户经常使用的域的使用频率为50%用于导航搜索、30%用于知识搜索、20%用于新闻时,可以对应于使用频率赋予权重。在本例中,在行驶时禁用权重值为0的域。
作为又一示例,当电话未连接时禁用通信域,并且可以对应于在行驶时使用电话的频率来对相应的通信域和子域进行加权。
车辆状况分析模块112可以通过以组合方式分析上述情况来确定是否激活主域和子域,并且将权重赋予主域和子域。
车辆状况分析模块112可以通过车辆网络和安装在车辆上的***来收集与车辆相关的故障信息、与车辆相关的位置信息、当前时间信息、路线搜索信息(目的地信息)等。
当连接智能手机时,车辆状况分析模块112可以收集存储在智能手机中的周年纪念日信息、电话号码、姓名。
用户域管理模块113是用于管理用户域的功能块,周期性地管理用户域模型。
如图1所示,用户域模型可以包括通信域、导航域、媒体域、知识域、新闻域、体育域、天气域等。在本例中,通信域可以包括作为子域的呼叫、消息和电子邮件,并且导航域可以包括作为子域的感兴趣位置(POI)/地址、停车和交通。媒体域可以包括作为子域的无线电、本地音乐、在线音乐,并且知识域可以包括作为子域的POI知识、一般(General)和车辆手册。在本例中,新闻域、体育域和天气域作为主域处于禁用状态,并且电子邮件、无线电和一般作为子域也处于禁用状态。
当在服务器中构建时,用户域管理模块113可以生成和管理针对多个用户中相应用户优化的用户域模型。也就是说,如图2所示,用户域管理模块113可以生成和管理用于存储第二用户域模型的客户DB‘2’、用于存储第三用户域模型的客户DB‘3’等。
异常处理管理模块114是用于通过反映用户对通常未被识别的异常处理结果的选择来管理用户域的功能块,可以收集有关不支持的域以及可以被分类到模糊命令的异常处理情况的数据。
异常处理管理模块114可以基于所收集的数据收集不支持的命令的语料库或可支持的域中的可支持但模糊的话语的语料库,并且通过使用语料库来区分不支持的和模糊的命令,从而当发出分隔作为不支持的命令的命令时,可以向用户提供引导。
当在异常处理的模糊话语的结果中存在用户选择时,异常处理管理模块114可以将额外的权重赋予对应的域,使得在对应的域中执行语义分析。
例如,需要用于掌握每个域的自然语言的意图的主关键词,诸如“请找星巴克”、“星巴克引导”、“星巴克地址”等,来识别相应的域。在用户的样本话语中没有诸如“星巴克?”之类的词汇来知道用户话语含义。在本例中,可以执行异常处理,并且当用户从异常结果中选择地图搜索或者通过导航搜索“星巴克”时,异常处理管理模块114可以向导航域赋予权重。因此,可以在输入“星巴克?”之后立即执行导航引导。
当由于发出不支持的命令而在异常处理的结果中存在用户选择时,异常处理管理模块114可以向对应的域赋予额外的权重,使得在对应的域中执行语义分析。
例如,尽管用户清楚地说出“春日(spring sky)”,但是当不能掌握该意图时,可以提供与天气域相关的春季天气信息和与搜索域相关的细粉尘信息。当用户选择天气域时,可以将权重赋予天气域,然后,当输入“春日”时,可以提供春季天气信息。通过扩展它,即使在发出诸如“秋日”、“夏季雨天”等类似的话语时,也可以通过天气域提供秋季天气或夏季天气。
毕竟,当响应于用户的语音命令的服务结果不满足用户的意图时,异常处理管理模块114可以基于用户的选择来管理用户域。
日程管理模块115可以基于由车辆状况分析模块112收集的与车辆有关的故障信息、与车辆有关的位置信息、当前时间信息、路线搜索信息(目的地信息)、周年纪念信息、电话号码、姓名等来管理用户的日程。
接下来,预处理模块120去除来自用户的语音输入的噪声。
接下来,语音识别装置130从输入的语音信号中识别用户发出的语音,并输出识别结果。从语音识别装置130输出的识别结果可以是文本类型的话语。
语音识别装置130可以包括自动语音识别(ASR)引擎。ASR引擎可以通过将语音识别算法应用于输入的语音来识别用户发出的语音,并且可以生成识别结果。
在本例中,输入语音可以被转换为更有用的语音识别形式,因此,可以在语音信号中检测起点和终点,以检测输入语音的实际语音部分。这称为端点检测(EPD)。此外,可以在检测到的部分内应用诸如倒谱(cepstrum)、线性预测编码(LPC)、Mel频率倒谱系数(MFCC)、滤波器组能量等特征向量提取技术,从而提取输入语音的特征向量。此外,可以通过将提取的特征向量与训练的参考模式进行比较来获得识别结果。到目前为止,可以使用用于建模和比较语音的信号特征的声学模型和用于对与识别词汇对应的单词或音节的语言顺序关系建模的语言模型。
语音识别装置130可以使用用于识别语音的任何方案。例如,可以使用应用了隐马尔可夫模型的声学模型,或者可以使用组合声学模型和语音模型的N-best搜索方案。在使用声学模型和语言模型选择多达N个识别结果候选之后,N-best搜索方案可以通过重新评估候选的排名来提高识别性能。
语音识别装置130可以确定置信度值以确保识别结果的可靠性。置信度值是语音识别结果可靠程度的度量。例如,作为识别结果的音素或单词可以被定义为该单词是从另一个音素或单词发出的概率的相对值。因此,置信度值可以表示为“0”和“1”之间的值,或者表示为“0”和“100”之间的值。
当置信度值超过预设阈值时,可以输出识别结果以执行与识别结果对应的操作。当置信度值等于或小于阈值时,可以拒绝识别结果。
作为语音识别装置130的识别结果的文本类型话语被输入到自然语言理解(NLU)引擎140。
NLU引擎140可以通过应用自然语言理解技术来掌握包括在话语中的用户的话语意图。也就是说,NLU引擎140可以分析话语语言的含义。
NLU引擎140对文本类型的话语执行语素分析。语素是含义的最小单位,代表不能再细分的最小语义元素。因此,语素分析是理解自然语言的第一步,其将输入字符串转换为语素字符串。
NLU引擎140基于语素分析结果从话语中提取域。该域是可以识别用户话语语音的主题的域,表示各种主题,诸如路线引导、天气搜索、交通搜索、日程管理、加油引导、空气控制等。
NLU引擎140可以从话语中识别实体名称。实体名称是专有名称,诸如姓名、地名、组织名称、时间、日期、货币等,实体名称识别是识别语句中的实体名称并确定一种实体名称的工作。可以通过实体名称识别从语句中提取重要关键词来掌握语句的含义。
NLU引擎140可以分析话语的行为。话语行为分析是分析用户话语意图的工作,掌握关于是否是用户询问问题、请求某事或简单表达情感的语句意图。
NLU引擎140提取与用户的话语意图相对应的行为。基于诸如与话语对应的域、实体名称、话语行为等的信息来掌握用户的话语意图,并且提取与话语意图相对应的行为。
NLU引擎140的处理结果可以包括例如对应于话语的域和关键字,并且还可以包括语素分析结果、实体名称、行为信息、话语行为信息等。
接下来,域处理模块150选择要由NLU引擎140参考的用户域模型和异常处理模型。在本例中,如图3所示,异常处理模型(其为由异常处理管理模块114管理的模型)意味着基于模糊命令的异常处理结果的用户选择而生成的异常处理模型‘1’和基于不支持命令的异常处理结果的用户选择而生成的异常处理模型‘2’。
域处理模块150可以基于NLU引擎140的识别结果(例如,意图(Intent):搜索音乐,槽(Slot):春天和驾驶)提出信息处理结果,提出服务,或者将识别结果确定为不支持的域或模糊命令。
下来,服务处理模块160基于域处理模块150的处理结果推荐搜索,执行数据搜索,建议服务或执行异常处理。
服务处理模块160可以从内容提供方(CP)170获取内容并将内容提供给用户。
服务处理模块160可以执行web搜索180作为异常处理。在本例中,可以将根据异常处理的用户的最终选择190发送到异常处理管理模块114以生成异常处理模型。
服务会话生成模块200可以为初始使用方法生成每种功能的基本场景,将所生成的每种功能的基本场景转换为语音(文本到语音:TTS),并将针对每种功能生成的基本场景生成为语句。
例如,基本场景可以包括“我们去最近的星巴克”、“让我知道当天的主要新闻”、“让我知道首尔今天的天气”等。
作为帮助模式的场景的服务会话生成模块200可以提供“我们去最近的星巴克”、“让我知道首尔站附近的餐馆”、“让我知道销售最便宜汽油的SK加油站”等。
当权重在导航域、音乐域和天气域的顺序中更高时,服务会话生成模块200可以包括作为基本场景的“让我知道河道路线”、“让我知道开车时听的好歌”、“目的地周围的天气怎么样?”等。
服务会话生成模块200可以基于用户域管理模块113管理的用户域模型生成用户模型场景,将生成的用户模型场景转换为语音,并生成与生成的用户模型场景对应的语句。
例如,当用户域模型包括体育域时,用户模型场景可以包括“LAD(Los AngelesDodgers)棒球得分?”、“今天LAD棒球赛程?”、“今天LAD棒球场天气?”等。
服务会话生成模块200可以通过扬声器向用户提供与基本场景对应的语音,并通过显示器向用户提供与基本场景对应的语句。
服务会话生成模块200可以通过扬声器向用户提供与用户模型场景对应的语音,并且可以通过显示器向用户提供与用户模型场景对应的语句。
当增加基于由异常处理管理模块114收集的数据的异常处理的命令和场景的功能时,服务会话生成模块200可以向命令和场景赋予权重,以增加引导的频率。
服务会话生成模块200可以在车辆发生故障时,基于由车辆状况分析模块112收集的与车辆有关的故障信息生成服务会话。
例如,服务会话可以包括“轮胎压力低,您要到最近的修车店吗?”、“是时候更换车内的发动机油了,您要去服务中心吗?”等。
服务会话生成模块200可以基于由日程管理模块115管理的用户的日程来生成服务会话。
例如,服务会话可以包括“今天是您妻子的生日,您要去最近的面包店吗?”、“3点钱难以到达见面地点Samseong-dong,您要给Chul-Soo KIM先生发送“会迟到30分钟”的消息吗?要发送吗?”等。
图4是示出根据本发明的各种示例性实施例的语音识别***的会话引导方法的流程图,其可以由包括在语音识别***中的处理器或单独的处理器执行。
首先,在操作401中,基于从安装在车辆上的***收集的语音识别功能信息和状况信息来管理用户域。也就是说,在所有域中,实时管理基于语音识别功能和车辆状况选择的域(用户域)。
此后,在操作402中,基于用户域生成用于语音识别的会话。也就是说,在用户域中任意地或基于权重选择域,并且生成与所选域相对应的会话。在本例中,会话可以是语音命令。例如,当选择了天气域时,语音命令可以是“让我知道首尔今天的天气”等。
此后,在操作403中,将生成的会话提供给用户。在本例中,提供所生成的会话的时间点可以是用户按下即按即说(PTT)按钮以输入语音命令的时间点,由用户输入帮助模式的时间点,等等。
此后,当添加与异常处理的语音命令对应的功能时,将权重添加到语音命令以增加引导的频率。
图5是根据本发明的各种示例性实施例的语音识别***的会话引导方法的流程图,其可以由包括在语音识别***中的处理器或单独的处理器执行。
首先,在操作501中,从安装在车辆上的***收集与车辆有关的故障信息。在本例中,故障信息可以分为紧急故障和非紧急故障,其中非紧急故障可以包括轮胎压力、灯断电等,并且紧急故障可以包括发动机警告灯点亮、发动机停止等。
这样,在操作502中,基于与车辆有关的故障信息生成会话。例如,在发动机停止的情况下,会话可以包括“您要打电话给指定的维修中心吗?”、“您要呼叫牵引车吗?”等。
这样,在操作503中,将生成的会话引导给用户。在本例中,会话是提议形式的场景,而不是指导的语音命令。
图6是示出根据本发明的各种示例性实施例的语音识别***的会话引导方法的流程图,其可以由包括在语音识别***中的处理器或单独的处理器执行。
首先,在操作601中,与安装在车辆上的***协作管理用户的日程(601)。
这样,在操作602中,生成与日程对应的会话。也就是说,当日程到达时或就在日程到达之前,生成提议形式的会话(场景)。
例如,当日程到达时(周年纪念日等),会话可以是“今天是您妻子的生日,您要去最近的面包店吗?”。在日程(约会时间等)到达之前的会话可以是“可能难以在3点钟到达见面地点Samseong-dong,您要给Chul-Soo KIM先生发送可能迟到30分钟的消息吗”。在本例中,可以在用户的电话簿中识别Chul-soo先生的电话号码。
这样,在操作603中,将生成的会话引导给用户。在本例中,会话是提议形式的场景,而不是指导的语音命令。
图7是示出根据本发明示例性实施例的用于执行语音识别***的会话引导方法的确定***的框图。
参考图7,根据本公开示例性实施例的语音识别***的会话引导方法可以通过确定***来实施。确定***1000可以包括至少一个处理器1100、存储器1300、用户界面输入装置1400、用户界面输出装置1500、存储装置1600和网络接口1700,它们经由总线1200彼此连接。
处理器1100可以是处理存储在存储器1300和/或存储装置1600中的指令的中央处理单元(CPU)或半导体器件。存储器1300和存储装置1600可以包括各种类型的易失性或非易失性存储介质。例如,存储器1300可以包括ROM(只读存储器)和RAM(随机存取存储器)。
因此,结合本文所揭示示例性实施例所描述的方法或算法的操作可以直接体现在可由处理器1100执行的硬件、软件模块或两者的组合中。软件模块可以驻留在存储介质(即,存储器1300和/或存储装置1600)上,诸如RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、固态驱动器(SSD)、可移动磁盘、CD-ROM。示例性的存储介质可以被耦合到处理器1100,并且处理器1100可以从存储介质中读取信息或者向存储介质中写入信息。替代地,存储介质可以与处理器1100集成。处理器1100和存储介质可以驻留于专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。在另一种情况下,处理器1100和存储介质可以作为单独的组件驻留在用户终端中。
根据本发明示例性实施例的语音识别***的会话引导方法,通过允许语音识别***引导用户进行定制的会话,可以使用户能够容易地识别用于语音识别的语音命令,并且通过与用户的状况对应的提议来改善用户满意度,其中语音识别***基于车辆的功能和状况生成针对用户优化的域(在下文中,称为用户域),并且通过反映用户对通常无法识别的异常处理结果的选择来管理用户域。
在上文中,尽管已经参考示例性实施例和附图描述了本发明,但是本发明不限于此,而是可以由本发明所属领域的技术人员在不脱离以下权利要求中要求保护的本发明的精神和范围的情况下,进行各种修改和改变。
为了方便解释以及在所附权利要求中的准确定义,词语“上部”、“下部”、“内”、“外”、“上”、“下”、“上部的”、“下部的”、“向上”、“向下”、“前”、“后”、“后部”、“内侧”、“外侧”、“向内”、“向外”、“内部的”、“外部的”、“内部”、“外部”、“向前”以及“向后”用于参考附图中所示的示例性实施例的特征的位置来描述这些特征。
将进一步理解,术语“连接”或其衍生词指的是直接和间接连接。
为说明和描述的目的提出了本发明具体的示意性实施例的上述描述。其不旨在是穷尽的或将本发明限于所公开的确切形式,并且显然,根据以上教导,许多修改和变化都是可能的。选择和描述示例性实施例以解释本发明的某些原理及其实际应用,以使本领域其他技术人员能够实现和利用本发明的各种示例性实施例,以及其各种替换和修改。本发明的范围由在此所附的权利要求及其等同物进行限定。

Claims (10)

1.一种引导语音识别***的会话的方法,所述方法包括以下步骤:
基于从安装在车辆上的***收集的语音识别功能信息和状况信息来管理用户域;
基于所述用户域生成用于语音识别的会话;以及
利用生成的会话引导用户;
管理所述用户域的步骤包括:
通过反映对异常处理结果的用户选择来进一步管理所述用户域;
其中,进一步管理所述用户域的步骤包括:
基于对模糊命令的异常处理结果的用户选择,生成异常处理模型‘1’;和
基于对不支持的命令的异常处理结果的用户选择,生成异常处理模型‘2’。
2.如权利要求1所述的方法,其中,所述会话包括语音命令。
3.如权利要求2所述的方法,其中,生成所述会话的步骤包括:
当添加与异常处理的语音命令对应的功能时,对所述语音命令进行加权以增加引导频率。
4.如权利要求1所述的方法,其中,引导所述用户的步骤包括:
通过语音引导生成的会话。
5.如权利要求1所述的方法,其中,引导所述用户的步骤包括:
通过语句引导生成的会话。
6.如权利要求1所述的方法,
其中,所述用户域包括多个主域,并且
其中,所述多个主域中的每一个包括多个子域。
7.如权利要求6所述的方法,其中,管理所述用户域的步骤包括:
激活或去激活指定主域;和
激活或去激活指定子域。
8.如权利要求6所述的方法,其中,管理所述用户域的步骤进一步包括:
基于从安装在所述车辆上的***收集的用户偏好信息来确定是否激活所述主域和所述子域。
9.如权利要求8所述的方法,其中,确定是否激活所述主域和所述子域的步骤包括:
基于所述用户设置的作为所述用户偏好信息的菜单优先级或喜好来确定是否激活所述主域和所述子域。
10.如权利要求1所述的方法,其中,进一步管理所述用户域的步骤包括:
对用户选择的域赋予权重。
CN201910496395.1A 2018-12-12 2019-06-10 语音识别***的会话引导方法 Active CN111301312B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0159722 2018-12-12
KR1020180159722A KR20200072020A (ko) 2018-12-12 2018-12-12 음성인식시스템의 대화 안내 방법

Publications (2)

Publication Number Publication Date
CN111301312A CN111301312A (zh) 2020-06-19
CN111301312B true CN111301312B (zh) 2024-05-31

Family

ID=71072830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910496395.1A Active CN111301312B (zh) 2018-12-12 2019-06-10 语音识别***的会话引导方法

Country Status (3)

Country Link
US (1) US11056113B2 (zh)
KR (1) KR20200072020A (zh)
CN (1) CN111301312B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307072A (zh) * 2019-07-26 2021-02-02 沃尔沃汽车公司 车用智能使用手册***
KR20210157991A (ko) * 2020-06-23 2021-12-30 주식회사 오투오 인공지능 음성 대화 기반의 관광서비스시스템
CN112787899B (zh) * 2021-01-08 2022-10-28 青岛海尔特种电冰箱有限公司 设备语音交互方法、计算机可读存储介质以及冰箱

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136751A (zh) * 2006-08-21 2008-03-05 株式会社泛泰 对用户域导入数字权限管理数据的方法
WO2008110955A2 (en) * 2007-03-12 2008-09-18 Telefonaktiebolaget Lm Ericsson (Publ) Applying policies for managing a service flow
DE102007036425A1 (de) * 2007-08-02 2009-02-05 Volkswagen Ag Menügesteuertes Mehrfunktionssystem insbesondere für Fahrzeuge
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
CN102280105A (zh) * 2010-06-10 2011-12-14 通用汽车环球科技运作有限责任公司 模块化语音识别架构
CN108447488A (zh) * 2017-02-15 2018-08-24 通用汽车环球科技运作有限责任公司 增强语音识别任务完成

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
KR101675144B1 (ko) 2010-08-24 2016-11-10 현대모비스 주식회사 음성 인식 안내 시스템 및 방법
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US10297254B2 (en) * 2016-10-03 2019-05-21 Google Llc Task initiation using long-tail voice commands by weighting strength of association of the tasks and their respective commands based on user feedback
US11113473B2 (en) * 2018-04-02 2021-09-07 SoundHound Inc. Interpreting expressions having potentially ambiguous meanings in different domains
US11704533B2 (en) * 2018-05-23 2023-07-18 Ford Global Technologies, Llc Always listening and active voice assistant and vehicle operation
US10878805B2 (en) * 2018-12-06 2020-12-29 Microsoft Technology Licensing, Llc Expediting interaction with a digital assistant by predicting user responses

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136751A (zh) * 2006-08-21 2008-03-05 株式会社泛泰 对用户域导入数字权限管理数据的方法
WO2008110955A2 (en) * 2007-03-12 2008-09-18 Telefonaktiebolaget Lm Ericsson (Publ) Applying policies for managing a service flow
DE102007036425A1 (de) * 2007-08-02 2009-02-05 Volkswagen Ag Menügesteuertes Mehrfunktionssystem insbesondere für Fahrzeuge
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
CN102280105A (zh) * 2010-06-10 2011-12-14 通用汽车环球科技运作有限责任公司 模块化语音识别架构
CN108447488A (zh) * 2017-02-15 2018-08-24 通用汽车环球科技运作有限责任公司 增强语音识别任务完成

Also Published As

Publication number Publication date
US11056113B2 (en) 2021-07-06
CN111301312A (zh) 2020-06-19
KR20200072020A (ko) 2020-06-22
US20200193984A1 (en) 2020-06-18

Similar Documents

Publication Publication Date Title
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US10380992B2 (en) Natural language generation based on user speech style
US7826945B2 (en) Automobile speech-recognition interface
KR102414456B1 (ko) 대화 시스템, 이를 포함하는 차량 및 유고 정보 처리 방법
US9564125B2 (en) Methods and systems for adapting a speech system based on user characteristics
US9601111B2 (en) Methods and systems for adapting speech systems
CN111301312B (zh) 语音识别***的会话引导方法
CN109920410B (zh) 用于基于车辆的环境确定推荐的可靠性的装置和方法
US8626506B2 (en) Method and system for dynamic nametag scoring
US9502030B2 (en) Methods and systems for adapting a speech system
JP2010191400A (ja) 音声認識装置およびデータ更新方法
KR20200000155A (ko) 대화 시스템 및 이를 이용한 차량
KR20200006739A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
US10741178B2 (en) Method for providing vehicle AI service and device using the same
CN110770819A (zh) 语音识别***和方法
CN111312236A (zh) 语音识别***的域管理方法
CN112017642A (zh) 语音识别的方法、装置、设备及计算机可读存储介质
KR20190037470A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
US20200327888A1 (en) Dialogue system, electronic apparatus and method for controlling the dialogue system
CN110562260A (zh) 对话***和对话处理方法
KR20060098673A (ko) 음성 인식 방법 및 장치
WO2021166504A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Tan et al. Automotive speech recognition
KR20220129366A (ko) 음성 인식 시스템 및 그 제어 방법
KR20200095636A (ko) 대화 시스템이 구비된 차량 및 그 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant