CN110832578A - 可定制唤醒语音命令 - Google Patents

可定制唤醒语音命令 Download PDF

Info

Publication number
CN110832578A
CN110832578A CN201880040797.4A CN201880040797A CN110832578A CN 110832578 A CN110832578 A CN 110832578A CN 201880040797 A CN201880040797 A CN 201880040797A CN 110832578 A CN110832578 A CN 110832578A
Authority
CN
China
Prior art keywords
command
wake
module
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880040797.4A
Other languages
English (en)
Other versions
CN110832578B (zh
Inventor
王冬岩
顾海松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Original Assignee
Midea Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd filed Critical Midea Group Co Ltd
Publication of CN110832578A publication Critical patent/CN110832578A/zh
Application granted granted Critical
Publication of CN110832578B publication Critical patent/CN110832578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

语音命令模块用于在包含多个家庭设备的居住环境中执行语音命令。语音命令模块包括语音识别模块和命令逻辑。语音识别模块从用户接收话语,以及将话语转换成来自预定命令词汇的命令,词汇包括用于将新唤醒话语定义为对应于唤醒命令的定制命令。命令逻辑执行命令。当接收定制命令时,命令逻辑改变语音命令模块,以便其现在当检测到新唤醒话语时执行唤醒命令。

Description

可定制唤醒语音命令
背景
技术领域
本公开大体涉及语音控制装置。
背景技术
基于语音的用户接口变得越来越普遍。基于语音的用户接口允许在人类和装置之间经由语音命令的自然沟通。使用语音命令的一个挑战在于,装置必须确定所检测到的语音是否为用于装置的语音命令。传统上,在给出语音命令之前,用户首先启用装置以接收语音命令。例如,用户按按钮或者点击图标,以触发装置使装置准备接收语音命令。然而,使用死板的非语音交互阻碍了用户体验。备选地,装置必须一直准备接收语音命令,这不是高效的。
发明内容
通过提供定制唤醒话语的功能,本公开克服了现有技术的限制。
在一个实施中,语音命令模块用于在包含多个家庭设备的居住环境中执行语音命令。语音命令模块包括语音识别模块和命令逻辑。语音识别模块从用户接收话语,以及将话语转换成来自预定命令词汇的命令,词汇包括用于定义对应于唤醒命令的新唤醒话语的定制命令。命令逻辑执行命令。当接收定制命令时,命令逻辑改变语音命令模块,以便其现在当检测到新唤醒话语时执行唤醒命令。语音命令模块还可以包括意图识别模块。意图识别模块识别用户的意图,以及基于识别的意图生成命令。命令触发家庭设备和/或命令中枢,以适当地响应于所识别的意图。家庭设备和/或命令中枢能够如用户已经发布命令那样响应。
其他方面包括部件、装置、***、改进、方法、过程、应用、计算机可读媒介和与上述中的任一点有关的其他技术。
附图说明
本公开的实施例具有其他优点和特征,当结合附图时,这些其他优点和特征将更容易从下文中的具体实施方式和所附权利要求显而易见,在所述附图中:
图1示出根据一个实施例语音控制居住环境的示例。
图2示出根据一个实施例配置可定制唤醒命令的示例过程。
图3示出根据一个实施例,使用如本文中所述定制的唤醒话语激活语音控制家庭设备。
图4是根据一个实施例,示出用作在图1中示出的实体中的一个或多个的示例家庭设备的高级(high-level)框图。
附图仅出于说明目的描绘各种实施例。本领域技术人员将容易从如下讨论认识到,在不脱离本文中所描述的原理的情况下,可以采用在本文中示出的结构和方法的替代实施例。
具体实施方式
附图和如下说明书仅以举例说明的方式涉及优选实施例。从如下讨论应当注意到,本文中公开的结构和方法的替代实施例将容易被认作在不脱离主张权利的原理的情况下可以采用的可行替代。
唤醒话语是用于触发装置以使装置准备执行命令的独特的单词或者短语。唤醒话语对应于唤醒命令。例如,用户说出唤醒话语连同另一语音命令,且装置通过唤醒(即,执行唤醒命令)并执行语音命令作为响应。通常,具体装置配置(例如,硬编码)有预定唤醒话语,以触发装置以使装置唤醒。这是因为,使用预定唤醒命令能够防止装置不可预见地响应。然而,因为这一点,用户不能选择用户特有的唤醒话语。如在下文中进一步描述地,本文中所描述的实施例允许用户定制唤醒话语。
图1示出根据一个实施例的语音控制居住环境的示例。在所示示例中,个人102说出“Gort,打开微波炉,高火60秒”以指示命令中枢104打开微波炉110。唤醒话语“Gort”已经通过个人102定制,且激活命令中枢104以处理个人的语音输入,以及响应于个人的语音命令。在检测到语音“Gort”之后,命令中枢104解释语音输入,识别命令“打开微波炉”,且通过打开微波炉110响应于命令。“命令中枢”在本文中也称为“中枢”。
中枢104不一直处于激活状态中。在低功率模式中(也称为待机模式或休眠模式),中枢104的一个或多个模块和其他家庭设备处于关闭(off)状态。作为一个示例,在低功率模式中,除了检测唤醒话语和/或识别用户的意图,中枢104不能解释语音输入或者响应于命令。如本文中所述的,处于激活状态指的是中枢104处于将语音输入转换成来自命令词汇的命令以及然后执行命令的状态。当响应于命令,例如,在该示例中的“高火60秒”的命令时,中枢104可以要求来自用户的额外输入。
在图示示例中,中枢104通过家庭设备网络连接到其他家庭设备。其他家庭设备的示例包括照明设备105、电视106和其他音频/视频和娱乐装置、电动门窗用品107、用电家具或陈设、恒温器和其他环境控制器和暖通空调设备、冰箱109、微波炉110和其他厨房设备、浴室设备和家用机器人装置。在该示例中,中枢104与装置中的一个或多个分离,且能够经由网络(未示出)通信地联接到装置中的一个或多个。网络可以是使用多种技术实施的无线或者有线网络。
命令中枢104包括麦克风140、语音命令模块150、扬声器160。语音命令模块150包括唤醒检测模块152、语音识别模块154、命令逻辑156、命令存储器158、意图识别模块162和意图存储器164,所有这些都在下文中进一步描述。命令中枢104还可以包括一个或多个传感器(未示出),诸如运动传感器、摄像机、CO2传感器、指纹扫描器和/或阅读器、虹膜扫描器和/或阅读器等。传感器能够与命令中枢104分离,且通过家庭设备网络连接到命令中枢104。
麦克风140接收诸如用户的语音输入的音频输入,且将所接收的音频输入转换成电信号。用户对中枢104讲话,且麦克风140采集用户的话语。在休眠模式中,麦克风140仍然打开,且采集中枢104周围的声音。所采集的声音被缓存一定的时间段。中枢104还可以包括用于从用户接收输入的其他输入部件,诸如按钮、键盘、触屏、触摸屏、运动传感器或摄像机。
唤醒检测模块152识别唤醒话语。唤醒检测模块152采用语音或短语识别技术来解释语音输入,以检测唤醒话语。例如,唤醒检测模块152可以采用表征唤醒话语的模型。在一些实施例中,模型是基于声谱图。在其他实施例中,模型是表征由用户说出的一系列单音的单音模型。可以使用用户的唤醒话语的话语开发模型。此外,模型可以基于通用模型,该通用模型由用户使用诸如唤醒话语的话语的训练数据进行训练。唤醒检测模块152参考模型分析用户的语音输入,以检测用户是否已经说出唤醒话语。当唤醒检测模块152检测到唤醒话语时,唤醒检测模块152触发命令中枢104,以通过打开在低功率模式中关闭的一个或者多个模块而离开低功率模式。
在一些实施例中,唤醒检测模块152核实用户身份。命令中枢104仅响应于授权用户。也就是说,当身份未知的用户已经说出被授权用户用于激活中枢104的唤醒话语时,命令中枢104也不响应于该身份未知的用户。作为一个示例,对于具体的唤醒命令,仅当一个或者几个授权用户说出唤醒话语时,命令中枢104才响应。在其他实施例中,命令中枢104响应于说出特定唤醒话语的任何人。
唤醒检测模块152例如使用语音输入的特点核实用户的身份。作为一个示例,唤醒检测模块152确定通过麦克风输出的音频信号的声纹,以及比较所确定的声纹与和授权用户关联的声纹,以核实用户的身份。声纹包括表征个人的语音和话语的特点的特征。特征能够是瞬态特征或声谱特征。声学特征(例如,音调、频率、或语气)和/或讲话模式(例如,强调或者省略特定单音或者音节、在单音或者音节之间的停顿时间等)是示例特征。唤醒检测模块152使用诸如频率估测、隐马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表征、向量量化和决策树的技术确定和比较声纹。
在一些实施例中,唤醒检测模块152位于居住环境的地区中,且确定个人102是否位于该地区中或者接近该地区。如果个人102在该地区中,则唤醒检测模块152唤醒中枢104。在一些实施例中,唤醒检测模块152唤醒也在该地区中的家庭设备的组。地区对应于物理区域,且包括物理上位于该物理区域中的装置。在图示示例中,房子100被分成对应于厨房、卧室和客厅的三个地区120、122和124。厨房地区120包括冰箱109和微波炉110。客厅地区122包括电动窗上用品107。卧室地区124包括灯105和电视106。唤醒检测模块152确定个人102相对于命令中枢104的位置,且比较该位置与物理区域,以确定个人102是否在特定地区中。唤醒检测模块152可以使用诸如波束成形技术和/或飞行时间技术的多种技术来确定个人的位置。
在用户做出一些动作之前,意图识别模块162识别用户的意图以做出这些动作。如本文中所述地,用户的意图是用户很可能在预定时间段内做出的动作。例如,如果用户意图定制唤醒话语,则在用户请求定制唤醒话语之前,意图识别模块162识别用户的意图。作为另一示例,如果用户意图与命令中枢104交互,则在用户指示命令中枢104唤醒之前,意图识别模块162识别用户的意图。作为又一示例,如果用户很可能意图调整温度,则在用户调整温度之前,意图识别模块162识别用户的意图。
用户的意图能够使用从各种传感器接收的数据来确定,其中,各种传感器被包括在语音命令模块150中或者联接到语音命令模块150。意图识别模块162分析数据以确定用户的意图。在一些实施例中,数据被分析以检测事件,且用户的意图能够从所检测到的事件确定。在一些实施例中,用户的意图可以通过使用意图与事件的关联和/或与从传感器接收的数据的关联来确定。事件可以通过使用事件与从传感器接收的数据的关联来确定。关联包括可应用于全部用户的一般关联以及可应用于一个或多个特定用户的用户特有关联。用户的身份能够从传感器接收的数据确定。用户的身份能够从由摄像机采集的图像或视频,例如通过使用图像或者面部识别技术,来确定。用户的身份也能够从其如上文中所描述的声纹确定。用户的身份也能够从其指纹和/或虹膜确定。关联被存储在意图存储器164中。用户特有关联与用户一起存储。
例如,当检测到用户要伸手按按钮以配置新唤醒话语时,意图识别模块162确定用户很可能配置新唤醒话语。诸如摄像机和/或运动传感器的输出的数据被用于识别用户的意图。作为另一示例,当检测到用户已经进入一个空的房子时,意图识别模块162确定用户很可能与命令中枢104交互。诸如在入口处的摄像机、靠近门的运动传感器和/或麦克风的输出的数据被用于识别用户的意图。作为又一示例,当特定用户停留在房间中达15分钟时,意图识别模块162识别到用户很可能意图调整在房间中的温度和光照。诸如在房间中的运动传感器、CO2传感器、麦克风和/或摄像机的输出的数据能够用于确定用户的身份和用户的意图。作为又一示例,当特定用户接近诸如空调的家庭设备时,意图识别模块162确定用户很可能与空调交互。诸如与空调在同一房间中的摄像机、CO2传感器、麦克风和/或摄像机的输出的数据能够用于确定用户的身份和用户的意图。
意图识别模块162基于所确定的意图生成命令。命令触发命令中枢104和/或家庭设备,以对应于预期动作做出响应。如果用户做出了预期动作,则将生成命令。相应地,在用户确实做出预期的动作之前,命令中枢104和/或家庭设备就像用户已经做出了预期动作那样做出响应。命令也能够通过跟用户确认所确定的意图来触发命令中枢104和/或家庭设备作出响应。例如,如果用户很可能配置新唤醒话语,则意图识别模块162生成命令以触发命令中枢104,以询问用户是否想去配置新唤醒话语。作为另一示例,如果用户很可能想要与命令中枢104交互,则意图识别模块162生成唤醒命令。因此,如果用户说出命令而没有说出唤醒话语,则命令中枢104将响应于用户。作为又一示例,如果用户很可能要调整温度,则意图识别模块162生成命令,以根据用户的偏好调整温度。作为又一另外的示例,如果用户很可能想要与空调交互,则意图识别模块162生成命令以展示用户接口,该用户接口给用户展示相关选项,使得用户不需要手动触发空调做出响应。
语音识别模块154解释用户的话语以识别命令。其通常将话语转换成来自预定命令词汇的命令。在一个实施中,语音识别模块154识别在用户的话语中的单词,以便识别命令。命令存储器158存储话语和命令之间的关联。语音识别模块154可以采用大词汇量语音识别技术以解释用户的话语。与仅识别特定唤醒命令的唤醒检测模块152相比较,语音识别模块154执行更多的计算密集型操作。在一些实施例中,当装置在休眠模式中时,语音识别模块154关闭,且语音识别模块154仅当中枢104被激活时识别命令。由于唤醒命令可以在命令之前或者之后出现,所以当命令中枢104从休眠模式激活时,语音识别模块154处理先前缓存的用户的话语以及目前正在采集的用户的话语。在一些实施例中,语音识别模块154的功能可以完全或者部分通过云端服务提供。中枢104将用户的话语提供至提供云端服务的一个或多个服务器用于处理。
命令逻辑156从语音识别模块154和/或意图识别模块162接收命令以及执行命令。可能的命令中的一个是将新唤醒话语定义为唤醒命令的定制命令。默认唤醒话语可以是“计算机”,且现在用户想要将话语换成“Gort”。命令逻辑156执行用于用户的定制命令。当用户请求定制用于中枢104的唤醒话语时,用户说出定制命令,之后说出对应于唤醒命令的新唤醒话语。命令中枢104采集用户的话语。在一些实施例中,命令逻辑156从用户的话语识别新唤醒话语,且将新唤醒话语的表征存储在命令存储器158中用于未来的唤醒检测。
唤醒话语能够以不同方式定制。例如,不同的用户能够将命令中枢104配置成针对用户使用不同的唤醒话语。在一些实施例中,命令逻辑156将所识别的唤醒话语仅与执行设置以使用该唤醒话语的那些用户关联。例如,埃德蒙和哈里两人都使用“Gort”作为触发唤醒命令的话语,而迈克尔使用“Dolores”来触发唤醒命令。命令逻辑156将唤醒话语“Gort”与埃德蒙和哈里关联,而将唤醒话语“Dolores”与迈克尔关联。通过用户的独特的用户ID标识用户。备选地,命令中枢104可以配置成全部用户使用相同的(多个)唤醒话语。例如,如果迈克尔最近配置了中枢,则对于所有用户,唤醒话语可以是“Dolores”。备选地,“Gort”和“Dolores”两者都可以被检测为唤醒话语。
命令逻辑156可以产生表征唤醒命令的话语的模型,其被唤醒检测模块152用于识别唤醒命令。命令逻辑156可以获得表征唤醒话语的模型,该模型使用例如来自云端服务的训练数据离线训练。在一些实施例中,模型包括表征用户的唤醒命令话语的话语模型。唤醒话语模型包括表征用户的唤醒命令话语的特点的特征,诸如单音、单音序列、语音距离、音素、在音素之间的过渡、双音、三音和音节等。特征还可以包括如在下文中进一步描述的表征用户的语音的特点的特征。命令逻辑156可以使用用户的额外唤醒命令话语和/或更新训练数据更新模型。模型与用户关联且被存储在命令存储器158中。
在一些实施例中,命令逻辑156进一步开发用于用户的声纹。当用户讲话时,命令逻辑156产生用于用户的声纹。例如,命令逻辑156指令用户自由讲话(文本无关)或根据指派讲话(文本依赖),以采集用户的语音和话语的特点。在一些实施中,在已经为用户创建声纹之后,命令逻辑156进一步使用当用户与命令中枢104交互时可用的额外样本更新声纹。
在一些实施中,命令逻辑156评估新唤醒话语是否很可能导致混乱。如果命令中枢104很可能无意被唤醒或者不太可能如用户所期望地唤醒,则唤醒话语很可能导致混乱。例如,被经常使用的、听起来与其他单词类似或者已经被用于表征不同命令的唤醒语音很可能导致混乱。在一个方法中,命令逻辑156基于诸如预定使用、使用频率或者语音相似程度的一个或者多个因素计算分数,以评估混乱的可能性。
通过查阅现有的命令能够确定预定使用。例如,如果“Gort”已经被编码为用于打开微波炉的命令,则将其用作用于命令中枢104的唤醒话语很可能导致混乱。能够从英语或其他语言的语料库或者从监测特定用户的使用确定使用频率。通过比较包括单词的部分音节的发音的单词发音与包括部分发音的其他单词的发音,能够确定语音相似程度。如果唤醒话语很可能导致混乱,则命令逻辑156警告用户,且在设置以使用唤醒话语之前与用户确认。可选地,如果唤醒话语很可能导致混乱,则命令逻辑156提示用户选择不同的唤醒话语。当用户请求更新唤醒话语时,命令逻辑156更新存储在命令存储器158中的唤醒话语。更新唤醒话语的过程与如上文所描述的创建唤醒话语的过程类似。
在一些实施例中,命令逻辑156检查所输入的单词是否是诋毁单词或者其他违禁单词,且提示用户使用不同的唤醒话语作为替代。
在一些实施例中,特定的命令中枢与特定唤醒话语关联。命令逻辑156将特定用户的唤醒话语存储在命令存储器158中。在一些实施例中,对于特定的命令中枢,不同的用户能够配置成使用不同的唤醒话语。命令逻辑156将唤醒话语与对应用户关联,且将唤醒话语和关联存储在命令存储器158中。
在一些实施例中,用户配置使得装置组被相同的唤醒命令激活。用户使用如上文所描述的过程配置装置组中的一个装置。在一些实施例中,命令逻辑156将唤醒命令与装置组关联。当中枢104本身唤醒时,中枢104触发以唤醒装置组中的其它装置,其中,可以通过例如发送唤醒信号其他装置来触发以唤醒其它装置。在一些实施例中,命令逻辑156将唤醒话语分配给装置组。装置组可以在同一地区中。用户能够配置成使唤醒组中的一个装置来唤醒组中的全部装置。当用户使组更新成包括新装置或移除现有的装置时,命令逻辑156将唤醒话语扩展至新装置或从被移除的装置移除唤醒话语配置。
返回图1,扬声器160输出声音至用户,从而指示诸如警告、警报、确认、指令等的不同意义。因此,用户经由语音与语音控制中枢104交互。命令中枢104可包括诸如显示器或振动元件的额外或替代输出接口。
在图示示例中,语音命令模块150在是独立装置的命令中枢104中实施。语音命令模块150及其部件还可以在移动装置(例如,智能手机、平板电脑或便携式电脑)、台式机或虚拟助理中实施。其还可以与诸如上文中描述的那些家庭设备集成或者被实施为诸如上文中描述的那些家庭设备。
图2示出根据一个实施例配置可定制唤醒命令的示例过程。埃德蒙102请求202设置或改变用于命令中枢104的唤醒话语。取决于装置的能力和配置,用户能够请求以多种方式设置唤醒话语。例如,用户发布语音命令“配置唤醒命令”,按按钮,或者点击在用户的手机上显示的“配置唤醒命令”。中枢104从埃德蒙102接收204请求。在一些实施例中,中枢104初始处于准备用于配置唤醒命令的状态中。例如,中枢104检查其是否连接到云端服务200,且如果没有,则识别用户的身份是否是已知的,且如果用户是未知的,则为用户指定用户1D等。中枢104发送206响应至埃德蒙,以指示中枢104准备好配置唤醒命令。响应能够是声音、光指示、振动、视觉显示和取决于中枢104的配置的其他形式。埃德蒙102说208“Gort”。在一些实施中,中枢104指导用户重复唤醒话语若干次。
中枢104接收210是埃德蒙的话语的语音输入。装置将所接收的语音输入发送212至云端服务200。如在下文中进一步描述地,云端服务200处理所接收的语音输入。在该示例中,云端服务200例如通过使用大词汇量语音识别技术识别214(多个)单词(例如,“Gort”)。云端服务200可以使用诸如隐马尔可夫模型、深度前馈神经网络或其他大词汇量语音识别模型的技术,以识别用户所讲的一个或者多个单词。云端服务200检查216任何单词是否已经被识别。
对于已经识别的单词,云端服务200计算218混乱的可能性,混乱反映命令中枢104被不可预见地激活或者不能被用户根据期望激活的可能性。如果唤醒话语已经被编码用于在其他命令中使用,或者在日常会话中经常使用,则使用该唤醒话语很可能不可预见地激活命令中枢104。如果唤醒话语听起来类似于其他单词,则使用该唤醒话语很可能导致命令中枢104不根据期望激活。云端服务200比较220所计算的可能性与阈值,以确定用户的选择是否很可能导致混乱。如果该选择被确定为不太可能导致混乱,则云端服务200创建222表征该单词的用户话语的模型。模型可以是通用型,且使用诸如通过大量的说话者的唤醒命令话语的训练数据开发。模型可以表征特定用户的话语。云端服务200为命令中枢104提供224识别的话语和模型。命令中枢104存储226话语和模型。命令中枢104使用该模型用于唤醒话语的识别。在一些实施中,云端服务200仅提供模型至命令中枢104。中枢104将确认发送228给用户102,指示唤醒命令已经被成功配置。确认能够是声音、光指示、振动、视觉显示以及取决于中枢104的配置的其他形式。
在一些实施中,云端服务200将所识别的话语与用户以及与命令中枢104关联,并且存储该关联。云端服务200进一步存储为用户创建的模型。
如果云端服务200确定没有单词被识别,或者所识别的单词使得单词很可能导致混乱的可能性超过阈值,则云端服务200将警告发送230至命令中枢104。在其他实施中,即使云端服务200确定没有单词被识别,云端服务200也基于用户的语音输入创建话语模型222。中枢104将警告发送232至埃德蒙102,指示配置不成功。
在该示例中,云端服务200识别单词,且确定单词是否被识别,计算混乱的可能性,且确定单词是否很可能导致混乱,以及创建表征单词和/或单词的话语的模型。这些操作中的一个或多个能够被命令中枢104执行。
图3示出根据一个实施例,使用如本文中所述定制的唤醒话语激活命令中枢104的示例过程。对于涉及图3的讨论,命令中枢104初始处于休眠模式中,且没有准备好执行语音命令。用户说出302一些话语。中枢104处于低功率模式中,但是其检测在周围环境中的声音。中枢104接收304语音输入。语音输入被缓存。中枢104确定306用户102是否是授权用户。例如,中枢104使用接收到的语音输入来确定声纹,并将用户的声纹与授权使用中枢104的用户的声纹进行匹配。当识别出匹配时,中枢104确定该用户是授权用户。如果用户不是授权用户,则中枢104继续监测周围环境中的声音输入。在一些实施例中,中枢104基于用户的身份识别唤醒命令。中枢104查询对应于用户的唤醒话语。
如果用户102是授权用户,则中枢104确定308用户的语音输入是否包括唤醒话语。可以使用一种或多种语音识别技术来执行唤醒命令识别。在低功率模式的一些实施例中,命令中枢104被配置为仅识别由被授权使用中枢104的用户配置的一个或多个唤醒话语。例如,命令中枢104使用表征唤醒命令的唤醒话语和/或用户话语的一个或多个模型来识别唤醒话语,模型诸如隐马尔可夫、高斯混合模型,大词典和/或自然语言处理算法。如果没有唤醒话语被识别,则命令中枢继续监测在周围环境中的声音输入。
如果识别到用于用户102的唤醒命令,则命令中枢104从低功率模式唤醒310,使得其被激活。命令中枢104可以指示用户102,命令中枢104已经被激活。在检测到唤醒命令之后,命令中枢104可以接收312通过用户102说出的额外语音输入。命令中枢104将语音输入发送314到云端服务200,用于一个或多个命令的识别。所发送的语音输入包括用户102说出唤醒命令的一定时间段内说出的语音输入。例如,用户102说出“现在什么时间,Gort?我的下一个约会是几点?”,语音输入“现在什么时间”被发送到云端服务200以进行分析,因为其是在说出唤醒命令“Gort”的一定时间段内说出的。中枢104将语音输入“现在什么时间”和“我的下一个约会是几点”发送到云端服务200以进行分析。
云端服务200识别316来自所接收的语音输入的命令。云端服务200采用能够解释用户的语音输入的诸如声学模型或者语言模型的语音识别技术或者自然语言处理技术。继续上一个示例,云端服务200从语音输入“现在什么时间”和“我的下一个约会是几点”识别出命令“时间”和“日历”。云端服务200将识别的(多个)命令发送318至中枢104。中枢104执行320所接收的命令。中枢104向用户102发送322指示所请求的结果或确认的响应。例如,中枢104将当前时间和日历中的下一个事件返回给用户102。如果没有命令被识别或者中枢104不能执行所识别的命令,则中枢104相应地警告用户。
图4是高级框图,其示出用于实施在图1中示出的部件的示例装置400。装置400包括芯片/芯片组404,该芯片/芯片组404包括至少一个处理器402、内存控制中枢420和输入/输出(I/O)控制中枢422。内存406联接到内存控制中枢420。存储装置408、I/O接口414和网络适配器416被联接到I/O控制中枢422。装置400的其他实施例具有不同架构。
存储装置408是非-瞬态计算机可读存储媒介,诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储装置。内存406保持被处理器402使用的指令和数据。I/O接口414能够支持诸如麦克风、触屏接口、鼠标、轨迹球或其他类型的点击设备、键盘或其一些组合的装置,且用于输入数据到装置400内。在一些实施例中,装置400可以配置为经由来自用户的手势(gestures)从I/O接口414接收输入(例如,命令)。I/O接口也能够支持输出,诸如显示器和扬声器。网络适配器416将装置400联接至一个或多个计算机网络。
装置400适于执行用于提供本文中所描述的功能的计算机程序模块。如在本文中使用地,术语“模块”指的是用于提供规定功能的计算机程序逻辑。因此,模块能够在硬件、固件和/或软件中实施。在一个实施例中,程序模块被存储在存储装置408上,加载到内存406内且通过处理器402执行。
被图1的实体使用的装置400的类型能够取决于实施例和实体所要求的处理功率而不同。例如,云端服务能够在单个装置400或在通过诸如服务器群的网络彼此通信的多个电脑400中运行。电脑400可以不包括上文中描述的部件中的一些。
虽然已经示出和描述了本公开的特定实施例和应用,但是应当理解实施例不受限于本文中公开的精确的构造和部件,且在不脱离本公开的精神和范围的情况下,在本文中公开的本公开的方法和设备的布置、操作和细节中可以做出各种修改、改变和变型。例如,语音命令模块150可以各自在单个家庭设备中单独实施,而不是在中心命令中枢104中。作为另一示例,唤醒检测模块152可以被实施为总语音识别模块154和命令逻辑156的部分,而不是作为独立的部件。
上述描述中的一些部分在算法过程和操作方面描述了实施例。这些算法描述和表示被数据处理领域中的技术人员常用于将他们的工作的基本内容有效地传达给本领域中的其他技术人员。虽然在功能、计算或者逻辑方面描述了这些操作,但是这些操作应当被理解为通过包括用于被处理器或等价电路执行的指令、微指令等的计算机程序实施。此外,在不失一般性的情况下,有时将功能操作的这些布置称为模块也是方便的。所描述的操作及其相关的模块可以用软件、固件、硬件或其任何组合来体现。
如在本文中使用地,对于“一个实施例”或“实施例”的任意引用意味着结合实施例描述的特定元件、特征、结构、或特点被包括在至少一个实施例中。在说明书中各处出现的短语“在一个实施例中”不一定全部指的是同一实施例。
如在本文中使用地,术语“包括”、“包含”、“具有”或其任意其他变型预期涵盖非排外性的包含。例如,包括一系列元件的过程、方法、物品或设备不必仅限于那些元件,而是可以包括未明确列出的或此类过程、方法、物品或设备固有的其他元件。此外,除非明确指出相反的意思,否则“或”是指包含性的“或”而不是排他性的“或”。例如,条件A或B通过如下中的任一项满足:A为真(或者存在)且B为假(或不存在)、A为假(或不存在)且B为真(或存在),以及A和B都为真(或存在)。
此外,“一个”或“一种”的使用用于描述在本文中的实施例的元件和部件。这仅仅出于方便而做,且给出本公开的一般意义。该描述应当被理解为包括一个或者至少一个,且除非显而易见地另有含义,否则单数也包括复数。

Claims (23)

1.一种用于在包括多个家庭设备的居住环境中执行语音命令的语音命令模块,其特征在于,所述语音命令模块包括:
语音识别模块,所述语音识别模块从用户接收话语且将所述话语转换成来自预定命令词汇的命令,所述词汇包括用于定义对应于唤醒命令的新唤醒话语的定制命令;以及,
命令逻辑,所述命令逻辑从所述语音识别模块接收所述命令,并为所述一个或多个家庭设备执行所述命令,其中:当接收到所述定制命令时,所述命令逻辑将所述语音命令模块改变成在检测到所述新唤醒话语时执行所述唤醒命令。
2.根据权利要求1所述的语音命令模块,其特征在于,还包括:
意图识别模块,所述意图识别模块用于从所述一个或多个传感器接收数据,以及用于通过所接收的数据识别用户的意图,所述用户的意图对应于用户很可能做出的动作。
3.根据权利要求2所述的语音命令模块,其特征在于,所述意图识别模块还配置成生成对应于所述用户的意图的命令,所述命令导致至少一个家庭设备做出对应于所述动作的响应。
4.根据权利要求1所述的语音命令模块,其特征在于,所述意图识别模块基于事件与意图的关联识别所述用户的意图,所述事件通过所接收的数据确定。
5.根据权利要求1所述的语音命令模块,其特征在于,所述一个或多个家庭设备包括暖通空调设备、照明设备、电动门窗用品、用电家具或陈设、环境控制器、厨房设备、浴室设备和家用机器人装置中的至少一者。
6.根据权利要求1所述的语音命令模块,其特征在于,所述语音命令模块被实施为家庭设备的部分,所述命令逻辑执行用于所述家庭设备的命令,并且,所述唤醒命令唤醒所述家庭设备。
7.根据权利要求1所述的语音命令模块,其特征在于,所述语音命令模块被实施为用于家庭设备网络的中枢的部分,所述命令逻辑执行用于在所述家庭设备网络上的一个或多个家庭设备的命令,并且,所述唤醒命令唤醒所述中枢。
8.根据权利要求1所述的语音命令模块,其特征在于,所述语音识别模块和/或所述命令逻辑的至少一部分是以云端为基础的。
9.根据权利要求1所述的语音命令模块,其特征在于,所述语音命令模块能够将来自不同用户的不同唤醒话语转换成相同的唤醒命令。
10.根据权利要求1所述的语音命令模块,其特征在于,所述语音命令模块能够将不同的唤醒话语转换成用于不同家庭设备的唤醒命令。
11.根据权利要求1所述的语音命令模块,其特征在于,所述唤醒命令唤醒一组家庭设备。
12.根据权利要求11所述的语音命令模块,其特征在于,所述唤醒命令被自动扩展以唤醒被增加到所述家庭设备的组中的新家庭设备。
13.根据权利要求1所述的语音命令模块,其特征在于,执行所述唤醒命令唤醒所述语音识别模块和所述命令逻辑。
14.根据权利要求1所述的语音命令模块,其特征在于,在执行任何其他命令之前,直接执行所述唤醒命令。
15.根据权利要求1所述的语音命令模块,其特征在于,还包括:
与所述语音识别模块分离的唤醒检测模块,所述唤醒检测模块当检测到唤醒话语时执行所述唤醒命令,其中:
当接收所述定制命令时,所述命令逻辑将所述唤醒检测模块改变成当检测到所述新唤醒话语时执行所述唤醒命令。
16.根据权利要求15所述的语音命令模块,其特征在于:
当所述语音命令模块处于休眠模式中时,所述语音识别模块和命令逻辑休眠,但是所述唤醒检测模块处于唤醒状态;以及,
当检测到所述唤醒话语时,所述唤醒检测模块唤醒所述语音识别模块和命令逻辑。
17.根据权利要求1所述的语音命令模块,其特征在于,当检测到唤醒话语时,所述语音识别模块和命令逻辑执行所述唤醒命令,以及,当接收所述定制命令时,所述命令逻辑改变所述语音识别模块以将所述新唤醒话语转换成所述唤醒命令。
18.根据权利要求17所述的语音命令模块,其特征在于:
当所述语音命令模块处于休眠模式中时,所述语音识别模块和命令逻辑除了检测所述唤醒命令之外都在休眠中。
19.根据权利要求1所述的语音命令模块,其特征在于,当接收到所述定制命令时,所述命令逻辑:
接收所述新唤醒话语;以及,
处理所述新唤醒话语以识别表征所述新唤醒话语的特点的一个或多个特征,其中,基于检测所述一个或多个特征检测所述新唤醒话语。
20.根据权利要求19所述的语音命令模块,其特征在于,所述命令逻辑还:
基于所述一个或多个特征创建所述新唤醒话语的模型,所述模型用于检测所述新唤醒话语。
21.根据权利要求19所述的语音命令模块,其特征在于:
所述语音识别模块包括第一级和第二级,所述第一级将所接收的话语转换成单音序列,所述第二级将单音序列转换成命令;
其中,当接收到所述定制命令时,所述命令逻辑改变所述语音识别模块,以当检测用于所述新唤醒话语的单音序列时识别所述唤醒命令。
22.根据权利要求19所述的语音命令模块,其特征在于:
所述语音识别模块包括第一级和第二级,所述第一级将所接收的话语转换成声谱图,所述第二级将声谱图转换成命令;
其中,当接收到所述定制命令时,所述命令逻辑改变所述语音识别模块,以当检测到用于所述新唤醒话语的声谱图时识别所述唤醒命令。
23.一种家庭设备网络,应用于居住环境中,其特征在于,包括:
经由所述家庭设备网络连接的多个家庭设备;以及,
用于执行用于所述家庭设备的语音命令的语音命令模块,所述语音命令模块包括:
语音识别模块,所述语音识别模块从用户接收话语且将所述话语转换成来自预定命令词汇的命令,所述词汇包括用于将新唤醒话语定义为对应于唤醒命令的定制命令;以及,
命令逻辑,其从所述语音识别模块接收所述命令,且为所述一个或多个家庭设备执行所述命令,其中:在接收所述定制命令时,所述命令逻辑将所述语音命令模块改变成当检测到所述新唤醒话语时执行所述唤醒命令。
CN201880040797.4A 2017-07-24 2018-06-06 可定制唤醒语音命令 Active CN110832578B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/658,357 US10504511B2 (en) 2017-07-24 2017-07-24 Customizable wake-up voice commands
US15/658,357 2017-07-24
PCT/CN2018/090062 WO2019019812A1 (en) 2017-07-24 2018-06-06 CUSTOMIZABLE VOICE ALARM CONTROLS

Publications (2)

Publication Number Publication Date
CN110832578A true CN110832578A (zh) 2020-02-21
CN110832578B CN110832578B (zh) 2022-04-26

Family

ID=65023109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880040797.4A Active CN110832578B (zh) 2017-07-24 2018-06-06 可定制唤醒语音命令

Country Status (6)

Country Link
US (1) US10504511B2 (zh)
EP (1) EP3619707B1 (zh)
JP (1) JP6887031B2 (zh)
KR (1) KR102293063B1 (zh)
CN (1) CN110832578B (zh)
WO (1) WO2019019812A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及***

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10854199B2 (en) * 2016-04-22 2020-12-01 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US10885919B2 (en) * 2018-01-05 2021-01-05 Nuance Communications, Inc. Routing system and method
US20190295541A1 (en) * 2018-03-23 2019-09-26 Polycom, Inc. Modifying spoken commands
EP3753017B1 (en) * 2018-06-05 2023-08-02 Samsung Electronics Co., Ltd. A voice assistant device and method thereof
US10762896B1 (en) 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
US10825451B1 (en) * 2018-06-25 2020-11-03 Amazon Technologies, Inc. Wakeword detection
KR20200050235A (ko) * 2018-11-01 2020-05-11 삼성전자주식회사 전자 장치 및 그의 지능형 인터랙션 방법
US11232788B2 (en) 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
US12014740B2 (en) * 2019-01-08 2024-06-18 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
US12021864B2 (en) 2019-01-08 2024-06-25 Fidelity Information Services, Llc. Systems and methods for contactless authentication using voice recognition
CN109887505A (zh) * 2019-03-11 2019-06-14 百度在线网络技术(北京)有限公司 用于唤醒设备的方法和装置
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
US11222622B2 (en) * 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11158305B2 (en) 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
EP4002356A4 (en) * 2019-07-17 2023-05-24 Hosiden Corporation MICROPHONE UNIT
KR20210044606A (ko) * 2019-10-15 2021-04-23 삼성전자주식회사 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
US11295741B2 (en) * 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
CN111312222B (zh) * 2020-02-13 2023-09-12 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
CN112435663A (zh) * 2020-11-11 2021-03-02 青岛歌尔智能传感器有限公司 命令语音管理方法、装置、设备及介质
US11862155B2 (en) * 2020-12-11 2024-01-02 Google Llc Group hotwords
TWI765485B (zh) * 2020-12-21 2022-05-21 矽統科技股份有限公司 外接式語音喚醒裝置及其控制方法
KR20220099003A (ko) * 2021-01-05 2022-07-12 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20220141137A (ko) * 2021-04-12 2022-10-19 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
US12039996B2 (en) * 2021-07-28 2024-07-16 Google Llc Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances
KR102378895B1 (ko) * 2021-09-29 2022-03-28 주식회사 인피닉 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN114189401A (zh) * 2021-11-22 2022-03-15 珠海格力电器股份有限公司 一种语音家电控制方法、装置及***
KR20240000245A (ko) 2022-06-23 2024-01-02 고려대학교 산학협력단 전류 기반의 아날로그 연산과 시간 기반의 아날로그-디지털 변환을 지원하는 컴퓨팅 인 메모리 전자 장치

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005110218A (ja) * 2003-09-10 2005-04-21 Matsushita Electric Ind Co Ltd 機器連携装置
CN101460995A (zh) * 2006-02-07 2009-06-17 日本电气株式会社 监测设备、评估数据选择设备、代理评估设备、代理评估***以及程序
JP2013109061A (ja) * 2011-11-18 2013-06-06 Hitachi Ltd 音声データ検索システムおよびそのためのプログラム
CN103646646A (zh) * 2013-11-27 2014-03-19 联想(北京)有限公司 一种语音控制方法及电子设备
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制***与方法
CN104584119A (zh) * 2012-07-03 2015-04-29 谷歌公司 确定热词适合度
US20150279358A1 (en) * 2014-03-31 2015-10-01 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN105283836A (zh) * 2013-07-11 2016-01-27 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN105677004A (zh) * 2014-11-18 2016-06-15 中兴通讯股份有限公司 一种终端的处理方法和终端
US20160350282A1 (en) * 2014-02-25 2016-12-01 Tencent Technology (Shenzhen) Company Limited Sensitive text detecting method and apparatus
CN106373564A (zh) * 2015-07-22 2017-02-01 谷歌公司 个性化热词检测模型
CN106662932A (zh) * 2016-07-07 2017-05-10 深圳狗尾草智能科技有限公司 一种基于意图识别控制家电的方法、***及机器人
CN106782526A (zh) * 2016-12-12 2017-05-31 深圳Tcl数字技术有限公司 语音控制方法和装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1054387A3 (en) * 1999-05-21 2001-11-14 Winbond Electronics Corporation Method and apparatus for activating voice controlled devices
US6963759B1 (en) 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
JP2002120177A (ja) * 2000-10-11 2002-04-23 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002318843A (ja) * 2001-04-20 2002-10-31 Misawa Homes Co Ltd 設備機器遠隔管理システム、設備機器遠隔管理装置、設備機器遠隔管理方法および記憶媒体
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US20150301795A1 (en) 2014-04-16 2015-10-22 Facebook, Inc. Crowd sourced based training for natural language interface systems
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
CN105845135A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种机器人***的声音识别***及方法
CN104715754A (zh) 2015-03-05 2015-06-17 北京华丰亨通科贸有限公司 一种快速响应语音命令的方法及装置
US9965247B2 (en) * 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
KR20170132622A (ko) * 2016-05-24 2017-12-04 삼성전자주식회사 음성 인식 기능을 갖는 전자 장치 및 전자 장치의 동작 방법
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN106448664A (zh) 2016-10-28 2017-02-22 魏朝正 一种通过语音控制智能家居设备的***及方法
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
US20180177029A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-controlled light bulb
US20180174581A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-activated vehicle lighting control hub
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection
US10521512B2 (en) * 2017-05-26 2019-12-31 Bose Corporation Dynamic text-to-speech response from a smart speaker
US20180350360A1 (en) * 2017-05-31 2018-12-06 Lenovo (Singapore) Pte. Ltd. Provide non-obtrusive output
US11489691B2 (en) * 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005110218A (ja) * 2003-09-10 2005-04-21 Matsushita Electric Ind Co Ltd 機器連携装置
CN101460995A (zh) * 2006-02-07 2009-06-17 日本电气株式会社 监测设备、评估数据选择设备、代理评估设备、代理评估***以及程序
JP2013109061A (ja) * 2011-11-18 2013-06-06 Hitachi Ltd 音声データ検索システムおよびそのためのプログラム
CN104584119A (zh) * 2012-07-03 2015-04-29 谷歌公司 确定热词适合度
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN105283836A (zh) * 2013-07-11 2016-01-27 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
CN103646646A (zh) * 2013-11-27 2014-03-19 联想(北京)有限公司 一种语音控制方法及电子设备
US20160350282A1 (en) * 2014-02-25 2016-12-01 Tencent Technology (Shenzhen) Company Limited Sensitive text detecting method and apparatus
US20150279358A1 (en) * 2014-03-31 2015-10-01 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN105677004A (zh) * 2014-11-18 2016-06-15 中兴通讯股份有限公司 一种终端的处理方法和终端
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制***与方法
CN106373564A (zh) * 2015-07-22 2017-02-01 谷歌公司 个性化热词检测模型
CN106662932A (zh) * 2016-07-07 2017-05-10 深圳狗尾草智能科技有限公司 一种基于意图识别控制家电的方法、***及机器人
CN106782526A (zh) * 2016-12-12 2017-05-31 深圳Tcl数字技术有限公司 语音控制方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUIJUN DING: "The correlation between signal distance and consonant pronunciation in Mandarin words", 《2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)》 *
凌翔: "Web应用安全防护***的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及***
CN111599350B (zh) * 2020-04-07 2023-02-28 云知声智能科技股份有限公司 一种命令词定制识别方法及***

Also Published As

Publication number Publication date
JP2020525850A (ja) 2020-08-27
KR102293063B1 (ko) 2021-08-23
CN110832578B (zh) 2022-04-26
EP3619707B1 (en) 2024-02-21
EP3619707A1 (en) 2020-03-11
US20190027138A1 (en) 2019-01-24
EP3619707A4 (en) 2020-04-29
JP6887031B2 (ja) 2021-06-16
US10504511B2 (en) 2019-12-10
WO2019019812A1 (en) 2019-01-31
KR20200012928A (ko) 2020-02-05

Similar Documents

Publication Publication Date Title
CN110832578B (zh) 可定制唤醒语音命令
US11470382B2 (en) Methods and systems for detecting audio output of associated device
US11600265B2 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
CN111512365B (zh) 对多个家庭装置进行控制的方法和***
US9466286B1 (en) Transitioning an electronic device between device states
KR101986354B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
KR20200111853A (ko) 전자 장치 및 전자 장치의 음성 인식 제어 방법
KR20200034430A (ko) 전자 장치, 시스템 및 음성 인식 서비스 이용 방법
KR102409303B1 (ko) 음성 인식 방법 및 장치
US10109294B1 (en) Adaptive echo cancellation
CN109661704A (zh) 用于电子设备的上下文感知查询识别
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR20190096308A (ko) 전자기기
KR20230118643A (ko) 화자 의존적인 후속 액션들 및 웜 워드들
JP2015219440A (ja) 操作補助装置および操作補助方法
JP2023553451A (ja) 検出のシーケンスに基づいたホットフレーズトリガ
US20240071408A1 (en) Acoustic event detection
KR102061206B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
JP2022544066A (ja) マルチモーダルスマートオーディオデバイスシステムのアテンティブネス表現
KR20210130494A (ko) 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법
EP3839719B1 (en) Computing device and method of operating the same
KR20210015986A (ko) 전자 장치 및 이의 음성 인식 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant