CN107643922A - 用于语音辅助的设备、方法及计算机可读存储介质 - Google Patents

用于语音辅助的设备、方法及计算机可读存储介质 Download PDF

Info

Publication number
CN107643922A
CN107643922A CN201710551893.2A CN201710551893A CN107643922A CN 107643922 A CN107643922 A CN 107643922A CN 201710551893 A CN201710551893 A CN 201710551893A CN 107643922 A CN107643922 A CN 107643922A
Authority
CN
China
Prior art keywords
auxiliary information
auxiliary
response
instruction
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710551893.2A
Other languages
English (en)
Inventor
钱明
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN107643922A publication Critical patent/CN107643922A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2854Wide area networks, e.g. public data networks
    • H04L12/2856Access arrangements, e.g. Internet access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05BELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
    • H05B47/00Circuit arrangements for operating light sources in general, i.e. where the type of light source is not relevant
    • H05B47/10Controlling the light source
    • H05B47/105Controlling the light source in response to determined parameters
    • H05B47/115Controlling the light source in response to determined parameters by determining the presence or movement of objects or living beings
    • H05B47/12Controlling the light source in response to determined parameters by determining the presence or movement of objects or living beings by detecting audible sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了用于语音辅助的设备、方法及计算机可读存储介质。还公开了一种计算机设备的语音助手,其不是通过说出的关键词或按下按钮来激活,而是通过识别语音并且确定语音的上下文是否指示可听语音辅助是合适的来激活。该设备可以通过例如点亮灯或者通过激活振动器来指示它有辅助给出。

Description

用于语音辅助的设备、方法及计算机可读存储介质
技术领域
本申请总体上涉及用于语音辅助的设备、方法及计算机可读存储介质,并且特别涉及用于激活语音助手及提供语音助手有辅助给出的指示的***和方法。
背景技术
如本文中认识到的,现有的语音助手是反应性的,因为它们通常由用户使用语音触发器或通过按钮或按键操纵来激活。如本文中理解的,这需要以关于正确的按键或按钮操纵或关于正确的语音触发的特定知识而肯定的用户动作,这可能会不便于以及中断用户的其他活动。
发明内容
因此,在一方面,一种用于语音辅助的设备包括处理器和能够由处理器访问的存储器。存储器承载有指令,所述指令能够由处理器执行以:接收语音;以及在没有接收到用于进入语音识别模式的用户命令的情况下,对语音执行语音识别以返回多个字词。所述指令能够被执行以:使用所述多个字词作为输入参数来访问数据库以将所述多个字词与辅助信息关联;以及返回辅助信息。
辅助信息可以在至少一个音频扬声器上输出。
在示例性实施方式中,所述指令能够被执行以:响应于将所述多个字词与辅助信息关联,激活设备上指示辅助信息可用的指示器。响应于用于呈现辅助信息的后续输入,呈现辅助信息,而响应于没有用于呈现辅助信息的后续输入,不呈现辅助信息。
在示例性实施方式中,所述指令能够被执行以:接收以下中至少之一:与耳机输出相关联的第一输入和与广播输出相关联的第二输入;响应于第一输入,将辅助信息呈现在耳机上,以及响应于第二输入,将辅助信息呈现在与耳机不同的广播扬声器上。
在示例性实施方式中,所述指令能够被执行以:使用所述多个字词作为输入参数来访问日程表数据库;以及至少使用在所述多个字词中识别的时间来确定日程表数据库是否包括针对所述时间的活动项。响应于日程表数据库指示针对所述时间的活动项,所述指令可被执行为输出辅助信息。相比之下,响应于日程表数据库未指示针对时间的活动项,所述指令可被执行为不输出辅助信息。
辅助信息可以包括针对所述时间的活动项的可听指示。
在示例性实施方式中,所述指令能够被执行以:使用所述多个字词作为输入参数来访问语法数据库,使用所述多个字词来确定语法数据库是否指示至少一个字词缺失;以及响应于语法数据库指示至少一个字词缺失,返回辅助信息,其中,辅助信息包括所述至少一个字词。
在示例性实施方式中,所述指令能够被执行以:使用所述多个字词作为输入参数来访问数据库;使用所述多个字词来确定数据库是否指示附加信息与所述多个字词相关联;以及响应于数据库指示附加信息与所述多个字词相关联,返回辅助信息。所述辅助信息可以包括附加信息中的至少一些。
在另一方面,一种不是暂态信号的计算机可读存储介质(CRSM)包括有指令,所述指令能够由处理器执行以:接收语音;对语音执行语音识别以返回至少一个字词;以及将所述至少一个字词与辅助信息关联。所述指令能够被执行以:响应于将所述至少一个字词与辅助信息关联,激活指示辅助信息可用的指示器。响应于用于呈现辅助信息的后续输入,输出辅助信息,以及响应于没有用于呈现辅助信息的后续输入,不输出辅助信息。
在另一方面,一种用于语音辅助的方法包括:不是通过说出的关键词或按下按钮而是通过识别语音并且确定语音的上下文是否指示可听语音辅助是合适的来激活计算设备的语音响应助手。该方法还包括:执行点亮灯和激活振动器这两个操作中的至少一个以指示语音响应助手有辅助给出,而不在扬声器上输出辅助,直到接收到这样做的命令。
参照附图可以最好地理解本原理的关于它们的结构和操作的细节,在附图中,类似的附图标记指代类似的部件。
附图说明
图1是根据本原理的示例性***的框图;
图2是根据本原理的设备的网络的示例性框图;
图3是可以由图1或图2中描述的任何适当设备实现的示例性计算机化设备的框图;
图4是根据本原理的示例性总体算法的流程图;
图5至图7是示例性特定使用情况算法的流程图;
图8是用于实现“举手”模式并且定义私人输出或公共输出的示例性用户界面(UI)的屏幕截图;以及
图9是与图8有关的示例性逻辑的流程图。
具体实施方式
关于本文中论述的任何计算机***,***可以包括通过网络连接的服务器部件和客户端部件,使得可以在客户端部件与服务器部件之间交换数据。客户端部件可以包括一个或更多个计算设备,所述计算设备包括电视机(例如,智能TV、可接入因特网的TV)、计算机如台式机、膝上型计算机和平板计算机、所谓的可转换设备(例如,具有平板计算机配置和膝上型计算机配置)以及包括智能电话的其他移动设备。作为非限制性示例,这些客户端设备可以采用来自Apple、Google或Microsoft的操作***。可以使用Unix操作***或类似的如Linux操作***。这些操作***可以执行一个或更多个浏览器如由Microsoft或Google或Mozilla制作的浏览器或者可以访问网页的另外的浏览器程序以及由因特网服务器通过诸如因特网、本地内部网或虚拟私人网络的网络而托管的应用程序。
如本文中使用的,指令是指用于处理***中的信息的计算机实现的步骤。指令可以在软件、固件或硬件中实现;因此,有时根据其功能来阐述说明性的部件、块、模块、电路以及步骤。
处理器可以是任何常规的通用单芯片处理器或多芯片处理器,所述单芯片处理器或多芯片处理器可以借助于各种线如地址线、数据线和控制线以及寄存器和移位寄存器来执行逻辑。此外,除了通用处理器之外,本文中描述的任何逻辑块、模块以及电路可以在以下中实现或执行或者通过以下来实现或执行:数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其他可编程逻辑器件,如被设计成执行本文中描述的功能的专用集成电路(ASIC)、分立门或晶体管逻辑、分立硬件部件或者前述的任意组合。处理器可以由控制器或状态机或计算设备的组合来实现。
通过本文的流程图和/或用户接口的方式所描述的任何软件和/或应用程序可以包括各种子例程、程序等。要理解,被宣布为由例如模块执行的逻辑可以被重新分配给其他软件模块和/或一起被组合在单个模块中和/或在可共享库中可用。
当以软件实现逻辑时,可以用适当的语言例如但不限于C#或C++来编写逻辑,并且可以将逻辑存储在计算机可读存储介质(例如,其不是暂态信号)上,或者通过所述计算机可读存储介质来传输逻辑,所述计算机可读存储介质例如:随机存取储存器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)或其他光盘存储器如数字多功能盘(DVD)、磁盘存储器或包括可移除拇指驱动器的其他磁存储设备等。
在示例中,处理器可以通过它的输入线从数据存储器如计算机可读存储介质访问信息,和/或处理器可以通过激活用于发送和接收数据的无线收发器从因特网服务器无线地访问信息。通常由天线与处理器的寄存器之间的电路***执行以下:当被接收时,数据从模拟信号转换成数字信号;以及当被发送时,数据从数字信号转换成模拟信号。然后,处理器通过其移位寄存器处理数据以在输出线上输出计算的数据,用于计算的数据在设备上的呈现。
可以以任何适当的组合将包括在一个实施方式中的部件用在其他实施方式中。例如,可以将本文中描述的和/或附图中示出的各种部件中的任何部件进行组合、互换或者将其从其他实施方式中去除。
可以在摘要、说明书和/或权利要求书中使用术语“电路”或“电路***”。如本领域已知的,术语“电路***”包括例如从分立逻辑电路到最高级别的电路集成如VLSI的所有级别的可用集成,并且包括被编程以执行实施方式的功能的可编程逻辑部件,以及利用指令被编程以执行那些功能的通用处理器或专用处理器。
现在具体参照图1,示出了信息处理***和/或计算机***100的示例性框图。注意,在一些实施方式中,***100可以是台式计算机***如由北卡罗来纳州莫里斯维尔的联想(美国)公司销售的系列个人计算机中之一,或工作站计算机如由北卡罗来纳州莫里斯维尔的联想(美国)公司销售的然而,根据本文的描述明显的是,根据本原理的客户端设备、服务器或其他机器可以包括其他特征或***100的仅一些特征。另外,***100可以是例如诸如的游戏控制台,和/或***100可以包括无线电话、笔记本计算机和/或其他便携式计算机化设备。
如图1所示,***100可以包括所谓的芯片组110。芯片组是指被设计成一起工作的一组集成电路或芯片。芯片组通常作为单个产品销售(例如,考虑以等品牌销售的芯片组)。
在图1的示例中,芯片组110具有可以在一定程度上取决于品牌或制造商而变化的特定架构。芯片组110的架构包括核与存储器控制组120和I/O控制器集线器150,核与存储器控制组120和I/O控制器集线器150经由例如直接管理接口或直接媒体接口(DMI)142或链路控制器144交换信息(例如,数据、信号、命令等)。在图1的示例中,DMI 142是芯片至芯片接口(有时被称为“北桥”与“南桥”之间的链路)。
核与存储器控制组120包括经由前端总线(FSB)124交换信息的一个或更多个处理器122(例如,单核或多核等)和存储器控制器集线器126。如本文所述,核与存储器控制组120的各种部件可以集成在单个处理器晶粒上,例如,以制造代替常规“北桥”型架构的芯片。
存储器控制器集线器126与存储器140接口。例如,存储器控制器集线器126可以提供对DDR SDRAM存储器(例如,DDR、DDR2、DDR3等)的支持。通常,存储器140是一种随机存取存储器(RAM)。它通常被称为“***存储器”。
存储器控制器集线器126还可以包括低压差分信号接口(LVDS)132。LVDS 132可以是用于支持显示设备192(例如,CRT、平板、投影仪、触控显示器等)的所谓的LVDS显示接口(LDI)。块138包括可以经由LVDS接口132支持的技术的一些示例(例如,串行数字视频、HDMI/DVI、显示端口)。存储器控制器集线器126还包括例如用于支持独立显卡136的一个或更多个PCI-express接口(PCI-E)134。使用PCI-E接口的独立显卡已经成为加速图形端口(AGP)的替选方法。例如,存储器控制器集线器126可以包括用于外部基于PCI-E的显卡(包括例如多个GPU中的一个)的16通道(x16)PCI-E端口。示例性***可以包括用于支持显卡的AGP或PCI-E。
在使用I/O集线器控制器150的示例中,I/O集线器控制器150可以包括各种接口。图1的示例包括SATA接口151、一个或更多个PCI-E接口152(可选地一个或更多个传统PCI接口)、一个或更多个USB接口153、LAN接口154(更一般地,用于在处理器122的指导下通过至少一个网络如因特网、WAN、LAN等通信的网络接口)、通用I/O接口(GPIO)155、低引脚数(LPC)接口170、电力管理接口161、时钟发生器接口162、音频接口163(例如,供扬声器194输出音频)、总体操作成本(TCO)接口164、***管理总线接口(例如,多主机串行计算机总线接口)165以及串行***闪存存储器/控制器接口(SPI闪存)166,在图1的示例中,SPI闪存166包括BIOS 168和启动代码190。关于网络连接,I/O集线器控制器150可以包括与PCI-E接口端口复用的集成的千兆以太网控制器线路。其他网络特征可以独立于PCI-E接口而操作。
I/O控制器集线器150的接口可以提供与各种设备、网络等的通信。例如,在使用的情况下,SATA接口151用于在一个或更多个驱动器180如HDD、SDD或前述的组合上读取、写入或读取并写入信息,但是在任何情况下,驱动器180被理解为例如不是暂态信号的有形计算机可读存储介质。I/O集线器控制器150还可以包括用于支持一个或更多个驱动器180的高级主机控制器接口(AHCI)。PCI-E接口152允许与设备、网络等的无线连接182。USB接口153用于输入设备184如键盘(KB)、鼠标以及各种其他设备(例如,相机、电话、存储器、媒体播放器等)。
在图1的示例中,LPC接口170提供用于一个或更多个ASIC 171、可信平台模块(TPM)172、超级I/O 173、固件集线器174、BIOS支持175以及各种类型的存储器176如ROM177、闪存178以及非易失性RAM(NVRAM)179使用。关于TPM 172,该模块可以是可以用于认证软件和硬件设备的芯片的形式。例如,TPM可以能够执行平台认证,并且可以用于验证寻求访问的***是期望的***。
***100在上电时可以被配置成执行SPI闪存166中存储的用于BIOS 168的启动代码190,之后,在一个或更多个操作***和应用软件(例如,存储在***存储器140中)的控制下处理数据。操作***可以存储在各种位置中的任何位置中,并且例如根据BIOS 168的指令而被访问。
另外,虽然为了清楚起见未示出,但是在一些实施方式中,***100可以包括陀螺仪、加速度计、音频接收器/麦克风以及相机。陀螺仪感测和/或测量***100的取向并且向处理器122提供与此有关的输入。加速度计感测***100的加速度和/或移动并且向处理器122提供与此有关的输入。音频接收器/麦克风基于例如经由用户向麦克风提供可听输入而检测到的音频从麦克风向处理器122提供输入。相机采集一个或更多个图像并且向处理器122提供与此有关的输入。相机可以是热成像相机、诸如网络摄像头的数字相机、三维(3D)相机和/或另外集成到***100中并且能够由处理器122控制以采集图片/图像和/或视频的相机。更进一步地,为了清楚起见也未示出,***100可以包括GPS收发器,GPS收发器被配置成从至少一个卫星接收地理位置信息并且将信息提供给处理器122。然而,要理解,根据本原理可以使用除GPS接收器之外的另一合适的位置接收器以确定***100的位置。
要理解,示例性客户端设备或其他机器/计算机可以包括与图1的***100示出的特征相比更少或更多的特征。在任何情况下,至少基于前述内容要理解,***100被配置成采取本原理。
现在转到图2,示例性设备被示出为根据本原理通过网络200诸如因特网进行通信。要理解,参照图2描述的每个设备可以包括上述***100的至少一些特征、部件和/或元件。
图2示出了笔记本计算机和/或可转换计算机202、台式计算机204、可穿戴设备206诸如智能手表、智能电视(TV)208、智能电话210、平板计算机212以及服务器214如可以提供设备202至212能够访问的云存储的因特网服务器。要理解,设备202至214被配置成通过网络200彼此通信以采取本原理。
参照图3,示出了可以由上述任何适当设备实现的示例性计算机化设备300的框图。因此,设备300视情况包括上述部件中的一个或更多个部件,包括一个或更多个处理器和一个或更多个计算机存储介质。
设备300可以通过有线和/或无线链路与耳机302通信。
设备300可以包括显示器304,如可以呈现一个或更多个软选择器按键306的触敏显示器。该设备还可以包括一个或更多个硬选择器按键308、一个或更多个音频扬声器310以及一个或更多个麦克风312。该设备300还可以包括一个或更多个指示灯314如发光二极管(LED)、一个或更多个触觉信号生成器316如振动器以及用于感测用户与设备的接近度的一个或更多个接近传感器318。接近传感器可以由红外检测器实现,红外检测器的信号由设备的处理器分析以确定人是否接近(例如,在IR信号强度阈值内)设备,或者传感器318可以是相机,由采用面部识别的处理器分析来自相机的图像,以确定是否识别到特定人员,并且基于面部图像的大小来确定该人员是否在设备的接近阈值内。
图4示出了总体逻辑。在框400处开始,在没有从麦克风312接收到用于进入语音助手模式的触发命令的情况下以及在没有通过用户按下选择器306、308中之一接收到语音助手进入模式命令的情况下,逻辑移动至框402,使用语音识别原理来识别经由麦克风312接收的一个或更多个说出的字词。如果需要,则逻辑可以进行至菱形框404,使用语音识别来确定语音是否是授权用户的语音,如果不是,则逻辑可以在状态406处结束。
然而,当启用授权用户语音并且在菱形框404处的测试为肯定时,逻辑可以移动至框408,访问数据结构(下面给出各种示例)以将从语音识别的字词关联至通常与辅助信息相关联的上下文,所述辅助信息即与识别的字词不同但是与识别的字词有关的信息。然后,在框410处,输出可听帮助,例如辅助信息,以用于通常在扬声器310或耳机302上呈现。
图5示出了图4的逻辑的示例性使用情况。在框500处开始,从在麦克风处接收的语音中识别到作为一天的某个时间的字词。还可以识别特定的天,其中,默认为如果没有识别到日期则假定说出的时间属于当前日期。
在框502处,访问电子日程表数据结构并且基于日程表中的信息,在判定菱形框504处确定从框500识别出的一天的某个时间是否已经安排有事件。如果不是,则逻辑可以在状态506处结束,否则逻辑可以移动至框508,通常在扬声器310或耳机302上可听地输出在框502处从日程表访问到的事件的提醒。
因此,如果用户处于与朋友交谈并且说:“我们应该在今天的11:30在自助餐厅一起吃午饭”,则图5的算法在502处访问日程表时,可能发现说出的时间已经被安排用于先前事件,因此在框508处,返回大意是“您安排了从上午11点至下午1点的会议”的提醒。
图6示出了用于缓解词性遗忘(通俗地称为“舌尖现象”)的另一示例性使用情况,词性遗忘是不能回想起字词、短语或名称。此处,因特网(云)数据结构中的智能可以使用上下文快速地找出缺失的字词。
相应地,在框600处开始,通过麦克风接收由多个字词组成的说出的句子并且通过语音识别对其进行处理。在框602处可以在本地和/或在云中使用识别的字词作为输入参数来访问语法数据库或引用数据库或其他适当的数据库。如果在判定菱形框604处确定识别的字词形成完整的句子或者如果在数据库中没有找到匹配,则逻辑可以在状态606处结束。
另一方面,如果句子不完整/与数据库中的帮助信息关联,则逻辑可以移动至框608,返回对于缺失字词的最佳匹配。
作为示例,假设说出的短语是“to be,or not to”并且访问引用数据库。说出的短语将与哈姆雷特的著名引语关联,并且在框608处返回最后的字词“be”。再一次,假设说出的短语是“I caught this morning morning’s”,这将与古典诗歌“The Windhover”的开场白关联,从而在框608处返回“minion”。
图7示出了在语音交换期间(例如,与对手协商、听教授的讲座等)采用的又一使用情况,其中,由本逻辑建立的语音助手执行实时、连续的内容分析并且在运行中可听地提供有用的建议和知识,包括对所说的内容的总结、说话者的意图的检测、引用错误的检测等。
在框700处开始,接收两个人之间的语音交换。可以采用语音识别不仅检测说出的字词,而且还分析不同的说话频率、音色等以识别不只一个人在说话,响应于前述中的一些或全部,逻辑可以移动至框702来分析识别的字词的内容。在框704处可以使用识别的语音作为输入参数来访问电子百科全书诸如***或其他数据结构,以将识别的语音与辅助信息关联,在框706处可以经由扬声器310或耳机302将辅助信息作为建议返回。
上述数据分析还可以在预测即将到来的事件中发挥作用。现今大多数移动设备在设备和云中存储大量的数据。该数据可以包括联系人列表、日程表事件、警报、触摸事件、位置/GPS、电池数据等。可以使用机器学习和模式识别算法来选择一个数据或数据组合以研究和学习用户的日常,例如用户的工作和休闲、日常会议安排等。语音助手可以提供有用服务如基于用户工作相关的会议分析的自动会议拨号通知和处于日常活动之外的提醒。
因此,对于主动触发,用户不需要使用触发词来激活助手,这是因为助手逻辑会不断地收听并且当逻辑确定其具有进行给予辅助的输入时激活。换言之,助手是自触发的。
助手逻辑还可以具有多个触发级别(在用户控制下逐渐升高)。图8和图9进行示出。
可以在例如图3所示的设备300的显示器304上呈现用户界面(UI)800,并且用户界面可以提示用户选择是否调用本文中为了方便起见而所称为的“举手”模式。可以选择“是”选择器802来启用举手模式,并且可以选择“否”选择器804来禁用举手模式。
如果需要,还可以向用户给出用于选择辅助隐私级别的选项。私有选择器806可以如所示地呈现,如果私有选择器806被选择,则使仅在耳机302上提供可听辅助,而不在广播扬声器310上提供可听辅助。与此对比,在非机密性的情况下或者如果用户根本没有自我意识,则可以选择公共选择器808,以使在广播扬声器310上提供可听辅助。
图9示出了当在框900处启用了举手模式时,当可听助手根据上述逻辑已经获得辅助信息时,在框902处可以激活典型的非听觉指示器。例如,可以激活振动器316以提供辅助信息可用于可听呈现的触觉信号,或者LED 314可以被点亮以用于相同的目的。然而,如果需要,可以在扬声器310或耳机302上呈现细微的蜂鸣声或其他可听信号,以表示辅助信息可用。
用户可以选择忽略信号或收听建议。在示例中,如果在菱形框904处用户没有通过任何适当的输入装置输入“告知我”的命令,则辅助信息不被可听地呈现。然而,响应于接收到告知我的命令,逻辑移动至框906,通常将辅助信息呈现在扬声器310或耳机302上。
在结束前,要理解,虽然用于采取本原理的软件应用程序可以与诸如***100的设备一起出售,但是本原理适用于从服务器通过网络如因特网将这样的应用程序下载到设备的情况。此外,本原理适用于这样的应用程序被包括在被出售和/或提供的计算机可读存储介质上的情况,其中,计算机可读存储介质不是暂态信号和/或信号本身。
要理解,虽然已经参照一些示例性实施方式描述了本原理,但是这些实施方式不意在是限制性的,并且可以使用各种替选布置来实现本文中要求保护的主题。可以以任何适当的组合将包括在一个实施方式中的部件用在其他实施方式中。例如,可以将本文中描述的和/或附图中示出的各种部件中的任何部件进行组合、互换或者将其从其他实施方式中去除。

Claims (20)

1.一种用于语音辅助的设备,包括:
处理器;以及
所述处理器能够访问的存储器,所述存储器承载有指令,所述指令能够由所述处理器执行以:
接收语音;
在没有接收到用于进入语音识别模式的用户命令的情况下,对所述语音执行语音识别以返回多个字词;
使用所述多个字词作为输入参数来访问数据库以将所述多个字词与辅助信息关联;以及
返回所述辅助信息。
2.根据权利要求1所述的设备,包括至少一个音频扬声器,其中,所述辅助信息在所述至少一个音频扬声器上输出。
3.根据权利要求1所述的设备,其中,所述指令能够由所述处理器执行以:
响应于将所述多个字词与所述辅助信息关联,激活第一设备上指示辅助信息可用的指示器;
响应于用于呈现所述辅助信息的后续输入,将所述辅助信息呈现在所述第一设备处;以及
响应于没有用于呈现所述辅助信息的后续输入,不将所述辅助信息呈现在所述第一设备处。
4.根据权利要求1所述的设备,其中,所述指令能够由所述处理器执行以:
接收以下中至少之一:与耳机输出相关联的第一输入和与广播输出相关联的第二输入;
响应于所述第一输入,将所述辅助信息呈现在所述耳机上;以及
响应于所述第二输入,将所述辅助信息呈现在与所述耳机不同的广播扬声器上。
5.根据权利要求1所述的设备,其中,所述指令能够由所述处理器执行以:
使用所述多个字词作为输入参数来访问日程表数据库;
至少使用在所述多个字词中识别的时间来确定所述日程表数据库是否包括针对所述时间的活动项;
响应于所述日程表数据库指示针对所述时间的活动项,输出所述辅助信息;以及
响应于所述日程表数据库未指示针对所述时间的活动项,不输出所述辅助信息。
6.根据权利要求5所述的设备,其中,所述辅助信息包括针对所述时间的活动项的可听指示。
7.根据权利要求1所述的设备,其中,所述指令能够由所述处理器执行以:
使用所述多个字词作为输入参数来访问语法数据库;
使用所述多个字词来确定所述语法数据库是否指示至少一个字词缺失;以及
响应于所述语法数据库指示至少一个字词缺失,返回所述辅助信息,所述辅助信息包括所述至少一个字词。
8.根据权利要求1所述的设备,其中,所述指令能够由所述处理器执行以:
使用所述多个字词作为输入参数来访问数据库;
使用所述多个字词来确定所述数据库是否指示附加信息与所述多个字词相关联;以及
响应于所述数据库指示附加信息与所述多个字词相关联,返回所述辅助信息,所述辅助信息包括所述附加信息中的至少一些。
9.一种不是暂态信号的计算机可读存储介质(CRSM),所述计算机可读存储介质包括有指令,所述指令能够由处理器执行以:
接收语音;
对所述语音执行语音识别以返回至少一个字词;
将所述至少一个字词与辅助信息关联;
响应于将所述至少一个字词与辅助信息关联,激活指示辅助信息可用的指示器;
响应于用于呈现所述辅助信息的后续输入,输出所述辅助信息;以及
响应于没有用于呈现所述辅助信息的后续输入,不输出所述辅助信息。
10.根据权利要求9所述的计算机可读存储介质,其中,所述指令能够由所述处理器执行以:
接收与耳机输出相关联的第一输入以及与广播输出相关联的第二输入,响应于所述第一输入,将所述辅助信息呈现在所述耳机上,以及响应于所述第二输入,将所述辅助信息呈现在与所述耳机不同的广播扬声器上。
11.根据权利要求9所述的计算机可读存储介质,其中,所述指令能够由所述处理器执行以:
使用多个字词作为输入参数来访问数据库以将所述多个字词与辅助信息关联;以及
返回所述辅助信息。
12.根据权利要求9所述的计算机可读存储介质,其中,所述辅助信息在至少一个音频扬声器上输出。
13.根据权利要求9所述的计算机可读存储介质,其中,所述指令能够由所述处理器执行以:
使用多个字词作为输入参数来访问日程表数据库;
至少使用在所述多个字词中识别的时间来确定所述日程表数据库是否包括针对所述时间的活动项;
响应于所述日程表数据库指示针对所述时间的活动项,输出所述辅助信息;以及
响应于所述日程表数据库未指示针对所述时间的活动项,不输出所述辅助信息。
14.根据权利要求13所述的计算机可读存储介质,其中,所述辅助信息包括针对所述时间的活动项的可听指示。
15.根据权利要求9所述的计算机可读存储介质,其中,所述指令能够由所述处理器执行以:
使用所述至少一个字词作为输入参数来访问语法数据库;
使用所述至少一个字词来确定所述语法数据库是否指示至少一个字词缺失;以及
响应于所述语法数据库指示至少一个字词缺失,返回所述辅助信息,所述辅助信息包括缺失的所述至少一个字词。
16.根据权利要求9所述的计算机可读存储介质,其中,所述指令能够由所述处理器执行以:
使用多个字词作为输入参数来访问数据库;
使用所述多个字词来确定所述数据库是否指示附加信息与所述多个字词相关联;以及
响应于所述数据库指示附加信息与所述多个字词相关联,返回所述辅助信息,所述辅助信息包括所述附加信息中的至少一些。
17.一种用于语音辅助的方法,包括:
不是通过说出的关键词或按下按钮而是通过识别语音并且确定所述语音的上下文是否指示可听语音辅助是合适的来激活计算设备的语音响应助手;以及
执行点亮灯和激活振动器这两个操作中的至少一个以指示所述语音响应助手有辅助给出,而不在扬声器上输出辅助,直到接收到这样做的命令。
18.根据权利要求17所述的方法,包括:
允许用户选择私人可听模式和公共可听模式,其中,响应于选择所述私人可听模式,在耳机上呈现辅助,并且其中,响应于选择所述公共可听模式,在所述计算设备的扬声器上提供辅助。
19.根据权利要求17所述的方法,包括:
使用来自所述语音的多个字词作为输入参数来访问数据库以将所述多个字词与信息关联;以及
返回所述信息并且将所述信息提供在设备处作为辅助的至少一部分。
20.根据权利要求19所述的方法,包括:
至少部分地基于所述语音被识别为与特定用户相关联来确定语音辅助是合适的。
CN201710551893.2A 2016-07-22 2017-07-07 用于语音辅助的设备、方法及计算机可读存储介质 Pending CN107643922A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/217,533 2016-07-22
US15/217,533 US20180025725A1 (en) 2016-07-22 2016-07-22 Systems and methods for activating a voice assistant and providing an indicator that the voice assistant has assistance to give

Publications (1)

Publication Number Publication Date
CN107643922A true CN107643922A (zh) 2018-01-30

Family

ID=60889908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710551893.2A Pending CN107643922A (zh) 2016-07-22 2017-07-07 用于语音辅助的设备、方法及计算机可读存储介质

Country Status (3)

Country Link
US (1) US20180025725A1 (zh)
CN (1) CN107643922A (zh)
DE (1) DE102017115936A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265031A (zh) * 2019-07-25 2019-09-20 秒针信息技术有限公司 一种语音处理方法及装置
CN111869185A (zh) * 2018-03-14 2020-10-30 谷歌有限责任公司 生成基于IoT的通知并提供命令以致使客户端设备的自动助手客户端自动呈现基于IoT的通知

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798544B2 (en) * 2017-08-07 2023-10-24 Polycom, Llc Replying to a spoken command
CN108459880A (zh) * 2018-01-29 2018-08-28 出门问问信息科技有限公司 语音助手唤醒方法、装置、设备及存储介质
CN108447480B (zh) * 2018-02-26 2020-10-20 深圳市晟瑞科技有限公司 智能家居设备控制的方法、智能语音终端和网络设备
JP7055721B2 (ja) * 2018-08-27 2022-04-18 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
CN110703614B (zh) * 2019-09-11 2021-01-22 珠海格力电器股份有限公司 语音控制方法、装置、语义网络构建方法及装置
US11898291B2 (en) * 2021-10-07 2024-02-13 Haier Us Appliance Solutions, Inc. Appliance having a user interface with programmable light emitting diodes

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038743A (zh) * 2006-03-13 2007-09-19 国际商业机器公司 向语音使能应用提供帮助的方法和***
US20090006100A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Identification and selection of a software application via speech
US20120297294A1 (en) * 2011-05-17 2012-11-22 Microsoft Corporation Network search for writing assistance
US20130005405A1 (en) * 2011-01-07 2013-01-03 Research In Motion Limited System and Method for Controlling Mobile Communication Devices
CN103282957A (zh) * 2010-08-06 2013-09-04 谷歌公司 基于上下文自动监测话音输入
US20140278435A1 (en) * 2013-03-12 2014-09-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
CN105393521A (zh) * 2014-06-20 2016-03-09 Lg电子株式会社 移动终端及其控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080224883A1 (en) * 2007-03-15 2008-09-18 Motorola, Inc. Selection of mobile station alert based on social context
US9087048B2 (en) * 2011-06-10 2015-07-21 Linkedin Corporation Method of and system for validating a fact checking system
WO2014168730A2 (en) * 2013-03-15 2014-10-16 Apple Inc. Context-sensitive handling of interruptions

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038743A (zh) * 2006-03-13 2007-09-19 国际商业机器公司 向语音使能应用提供帮助的方法和***
US20090006100A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Identification and selection of a software application via speech
CN103282957A (zh) * 2010-08-06 2013-09-04 谷歌公司 基于上下文自动监测话音输入
US20130005405A1 (en) * 2011-01-07 2013-01-03 Research In Motion Limited System and Method for Controlling Mobile Communication Devices
US20120297294A1 (en) * 2011-05-17 2012-11-22 Microsoft Corporation Network search for writing assistance
US20140278435A1 (en) * 2013-03-12 2014-09-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
CN105393521A (zh) * 2014-06-20 2016-03-09 Lg电子株式会社 移动终端及其控制方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111869185A (zh) * 2018-03-14 2020-10-30 谷歌有限责任公司 生成基于IoT的通知并提供命令以致使客户端设备的自动助手客户端自动呈现基于IoT的通知
CN111869185B (zh) * 2018-03-14 2024-03-12 谷歌有限责任公司 生成基于IoT的通知并提供命令以致使客户端设备的自动助手客户端自动呈现基于IoT的通知
CN110265031A (zh) * 2019-07-25 2019-09-20 秒针信息技术有限公司 一种语音处理方法及装置

Also Published As

Publication number Publication date
US20180025725A1 (en) 2018-01-25
DE102017115936A1 (de) 2018-01-25

Similar Documents

Publication Publication Date Title
CN107643922A (zh) 用于语音辅助的设备、方法及计算机可读存储介质
US10103699B2 (en) Automatically adjusting a volume of a speaker of a device based on an amplitude of voice input to the device
CN107643921A (zh) 用于激活语音助手的设备、方法和计算机可读存储介质
US11386886B2 (en) Adjusting speech recognition using contextual information
US20180270343A1 (en) Enabling event-driven voice trigger phrase on an electronic device
US10831440B2 (en) Coordinating input on multiple local devices
CN108958806B (zh) 基于情境确定用于数字助理的响应提示的***和方法
WO2021068903A1 (zh) 确定音量的调节比例信息的方法、装置、设备及存储介质
US10438583B2 (en) Natural language voice assistant
US9766852B2 (en) Non-audio notification of audible events
CN104731316A (zh) 基于眼睛跟踪在设备上呈现信息的***及方法
US11694574B2 (en) Alteration of accessibility settings of device based on characteristics of users
US20180324703A1 (en) Systems and methods to place digital assistant in sleep mode for period of time
CN107643909B (zh) 用于协调多个本地设备上的输入的方法和电子设备
US9807499B2 (en) Systems and methods to identify device with which to participate in communication of audio data
US10936276B2 (en) Confidential information concealment
US20210116960A1 (en) Power save mode for wearable device
US10945087B2 (en) Audio device arrays in convertible electronic devices
US11570507B2 (en) Device and method for visually displaying speaker's voice in 360-degree video
US11393170B2 (en) Presentation of content based on attention center of user
US20180090126A1 (en) Vocal output of textual communications in senders voice
US10845842B2 (en) Systems and methods for presentation of input elements based on direction to a user
US11614504B2 (en) Command provision via magnetic field variation
US9659480B2 (en) Reminders based on virtual locations
US20200411033A1 (en) Conversation aspect improvement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180130