CN105810194B - 待机状态下语音控制信息获取方法和智能终端 - Google Patents

待机状态下语音控制信息获取方法和智能终端 Download PDF

Info

Publication number
CN105810194B
CN105810194B CN201610312120.4A CN201610312120A CN105810194B CN 105810194 B CN105810194 B CN 105810194B CN 201610312120 A CN201610312120 A CN 201610312120A CN 105810194 B CN105810194 B CN 105810194B
Authority
CN
China
Prior art keywords
voice
intelligent terminal
phonetic order
content
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610312120.4A
Other languages
English (en)
Other versions
CN105810194A (zh
Inventor
吴伟兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qiku Internet Technology Shenzhen Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qiku Internet Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qiku Internet Technology Shenzhen Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610312120.4A priority Critical patent/CN105810194B/zh
Publication of CN105810194A publication Critical patent/CN105810194A/zh
Application granted granted Critical
Publication of CN105810194B publication Critical patent/CN105810194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种待机状态下语音控制信息获取方法和智能终端,该方法包括如下步骤:根据语音采集方案规定的不同时间段下的采样频率,采集语音数据;根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令;响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息;依据所述内容信息进行关联于该内容信息的语音播报。通过本发明的处理,使得用户能够在智能终端处于待机状态时进行个性化的语音控制而获取信息,降低了能耗,提高了用户进行语音控制的人机交互体验和生活工作效率。

Description

待机状态下语音控制信息获取方法和智能终端
技术领域
本发明涉及语音控制技术领域,具体而言,本发明涉及一种待机状态下语音控制信息获取方法和智能终端。
背景技术
随着语音识别技术与智能控制技术的发展和智能终端的普及,以及人们对人机交互体验的多样化和个性化需要,以及提升生活和工作效率的需要,语音控制技术取得了长足的发展。语音识别技术,一般采用统计模式匹配技术来实现,是语音控制技术的基本构成。语音控制技术,即采用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号***、智能家电、声控智能玩具等许多领域。语音控制技术带来的,不仅是人机交互方式和体验的变化,更重要的是带来生活方式的改变和工作生产力的提升。语音控制把原本费脑、费力、费时的传统机器操作变为了一件简单有趣的事,相关技术的成熟也带动了一系列崭新的智能终端出现,使人们的工作与生活更加便捷,其应用范围和前景也愈加广阔。
在现有技术中,智能终端的语音控制需要用户手动使智能终端处于唤醒状态,再进行语音控制的人机交互。智能终端的语音控制需要用户先打开相关应用或者用户按住某个功能按键,才能进行语音识别,实现语音控制。另外,智能终端需要用户按照智能终端提供的格式和内容进行语音数据的输入,才能识别语音数据,进而实现语音控制的人机交互。
然而,现有技术中至少存在以下问题:首先,用户需要使智能终端处于唤醒状态,手动打开相关应用或者按住某个功能按键,才能进行语音控制。这就导致当用户处于忙碌中,无暇手动操作智能终端而终端处于待机状态下时,无法对终端进行语音控制的人机交互;或者不得不暂停其他事务来手动开启语音控制功能,降低了用户进行语音控制的人机交互体验和生活工作效率。其次,智能终端只能识别用户按照智能终端提供的标识和内容进行输入的语音数据,这就降低了语音控制的灵活性和生活工作效率,难以满足用户日益增长的个性化体验需求。
发明内容
本发明的目的在于针对以上存在的至少一方面不足,提供一种待机状态下语音控制信息获取方法和智能终端,使用户在智能终端在待机状态下就能对智能终端进行语音控制,且用户可以自定义语言指令的标识和内容从而实现个性化的语音控制,提高生活和工作效率。
为了实现该目的,本发明采取如下技术方案:
第一方面,本发明实施例中提供了一种待机状态下语音控制信息获取方法,其特征在于,包括如下步骤:
根据语音采集方案规定的不同时间段下的采样频率,采集语音数据;
根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令;
响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息;
依据所述内容信息进行关联于该内容信息的语音播报。
结合第一方面,本发明在第一方面的第一种实现方式中,还包括如下前置步骤:
开机状态下显示用户界面,以用于编辑语音指令配置数据,并据此完成该配置数据的预设置。
结合第一方面或第一方面的第一种实现方式,本发明在第一方面的第二种实现方式中,所述语音指令配置数据包括语音指令的标识和内容,以及所述内容所对应的信息类型。
结合第一方面或第一方面的第一种实现方式,本发明在第一方面的第三种实现方式中,所述预设置由用户通过语音或文字的录入或选定而完成。
结合第一方面,本发明在第一方面的第四种实现方式中,所述语音采集方案规定了各个时间段下智能终端采集语音的采样频率,所述语音采集方案的制定过程包括如下步骤:
基于用户与智能终端的交互行为的时间分布来计算用户在不同时间段下的交互指数;
分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在各个时间段采用与所述阈值范围相应的采样频率,并据此完成语音采集方案的制定。
结合第一方面的第四种实现方式,本发明在第一方面的第五种实现方式中,所述的交互行为包括:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
结合第一方面的第四种实现方式,本发明在第一方面的第六种实现方式中,所述语音采集方案的制定过程还包括,开机状态下显示用户界面,以用于设置所述阈值范围及各个阈值范围所对应的采样频率,以完成所述阈值范围的预设置。
结合第一方面的第四种实现方式,本发明在第一方面的第七种实现方式中,所述智能终端通过DSP处理器控制所述语音数据的采集。
结合第一方面,本发明在第一方面的第八种实现方式中,所述特征匹配的过程包括:
检索所述语音数据中是否含有语音指令配置数据中的标识,若未含所述标识,则该语音数据非语音指令,终止检索;
若含有所述标识,则检索所述语音数据中是否含有语音指令配置数据中的内容,若含有所述内容,则该语音数据为语音指令,确定该语音数据包含的内容所对应的信息类型;若未含所述内容,则该语音数据非语音指令。
结合第一方面的第八种实现方式,本发明在第一方面的第九种实现方式中,所述特征匹配的过程中,当所述语音数据与所述语音指令配置数据的标识或内容的匹配率大于预设置的阈值时,则判定语音数据含有所述标识或内容;否则,判定语音数据不含有所述标识或内容。
结合第一方面,本发明在第一方面的第十种实现方式中,所述内容信息的获取方法包括:通过调用相应的***指令,由智能终端中获取所述类型的内容信息。
结合第一方面,本发明在第一方面的第十一种实现方式中,所述内容信息的获取方法还包括:通过调用相应的接口或通信协议,由相应的软件或网页或服务器中的一种或几种获取所述类型的内容信息。
第二方面,本发明实施例提供了一种智能终端,该智能终端具有实现上述第一方面中一卡多号信息发送方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,智能终端的结构中包括:
拾音单元:用于根据语音采集方案规定的不同时间段下的采样频率,采集语音数据;
识别单元:被配置为根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令;
获取单元:用于响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息;
播报单元:依据所述内容信息进行关联于该内容信息的语音播报。
结合第二方面,本发明在第二方面的第一种实现方式中,还包括预设单元:
被配置为开机状态下显示用户界面,以用于编辑语音指令配置数据,并据此完成该配置数据的预设置。
结合第二方面的第一种实现方式,本发明在第二方面的第二种实现方式中,所述预设单元被配置为:语音指令配置数据包括语音指令的标识和内容,以及所述内容所对应的信息类型。
结合第二方面的第一种实现方式,本发明在第二方面的第三种实现方式中,所述预设单元被配置为:所述预设置由用户通过语音或文字的录入或选定而完成。
结合第二方面,本发明在第二方面的第四种实现方式中,所述拾音单元中,所述语音采集方案规定了各个时间段下智能终端采集语音的采样频率,所述语音采集方案的制定过程包括如下步骤:
基于用户与智能终端的交互行为的时间分布来计算用户在不同时间段下的交互指数;
分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在各个时间段采用与所述阈值范围相应的采样频率,并据此完成语音采集方案的制定。
结合第二方面的第三种实现方式,本发明在第二方面的第五种实现方式中,所述拾音单元中,所述的交互行为包括:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
结合第二方面的第一种实现方式,本发明在第二方面的第六种实现方式中,所述预设单元还被配置为:开机状态下显示用户界面,以用于设置所述阈值范围及各个阈值范围所对应的采样频率,以完成所述阈值范围的预设置。
结合第二方面的第三种实现方式,本发明在第二方面的第七种实现方式中,所述拾音单元通过DSP处理器控制所述语音数据的采集。
结合第二方面,本发明在第二方面的第八种实现方式中,所述识别单元中,所述特征匹配的过程包括:
检索所述语音数据中是否含有语音指令配置数据中的标识,若未含所述标识,则该语音数据非语音指令,终止检索;
若含有所述标识,则检索所述语音数据中是否含有语音指令配置数据中的内容,若含有所述内容,则该语音数据为语音指令,确定该语音数据包含的内容所对应的信息类型;若未含所述内容,则该语音数据非语音指令。
结合第二方面的第六种实现方式,本发明在第二方面的第九种实现方式中,所述识别单元中,所述特征匹配的过程中,当所述语音数据与所述语音指令配置数据的标识或内容的匹配率大于预设置的阈值时,则判定语音数据含有所述标识或内容;否则,判定语音数据不含有所述标识或内容。
结合第二方面,本发明在第二方面的第十种实现方式中,所述获取单元被配置为:通过调用相应的***指令,由智能终端中获取所述类型的内容信息。
结合第二方面,本发明在第二方面的第十一种实现方式中,所述获取单元被配置为:通过调用相应的接口或通信协议,由相应的软件或网页或服务器中的一种或几种获取所述类型的内容信息。
第三方面,本发明实施例提供了一种智能终端,其包括:
触敏显示器,用于显示信息编辑界面,实现人机交互;
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在存储器中并被配置为由所述一个或多个处理器执行;
所述一个或多个程序用于驱动所述一个或多个处理器构造用于执行上述第一方面中待机状态下语音控制信息获取方法的单元。
与现有技术相比较,本发明提供的技术方案至少具有如下优点:
本发明充分利用智能终端及其操作***提供的特性,首先根据语音采集方案规定的不同时间段下的采样频率,采集语音数据,使得智能终端在待机状态下能够采集语音数据,进行语音识别,而且,其中的语音采集方案根据用户与智能终端的交互行为,通过智能地规定语音采集频率而有效控制能耗,提高了语音控制的能效。在此基础上,本发明进一步根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令,如此,用户便能使用多样化和个性化的语音实现语音控制。进而,智能终端响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息,并依据所述内容信息进行关联于该内容信息的语音播报,带给用户方便而高效的语音控制信息获取体验。
概括而言,本发明的实施,解决了用户在使用智能终端进行语音控制信息获取时,智能终端在待机状态下语音控制的实现问题,能耗控制问题,以及智能终端无法进行个性化语音控制的问题,使得用户能够在智能终端处于待机状态时进行个性化的语音控制而获取信息,提高了用户进行语音控制的人机交互体验和生活工作效率。然而,书不尽言,本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中待机状态下语音控制信息获取方法的一个实施例的流程示意图;
图2为本发明中待机状态下语音控制信息获取方法的一个实施例的流程示意图;
图3为本发明中智能终端的一个实施例的结构示意图;
图4为本发明中智能终端的一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S10、S11等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本领域普通技术人员可以理解,这里所使用的“终端”、“智能终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“智能终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“智能终端”还可以是智能终端、上网终端、音乐/视频播放终端,例如可以是PDA、POS(Point of Sales,销售终端)、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本领域普通技术人员可以理解,本发明所涉及名词的含义至少包括:
语音识别:亦被称为自动语音识(Automatic Speech Recognition,简称ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。包括特定人语音识别***,非特定人语音识别***和多人的识别***,其方法主要是模式匹配法,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。
语音控制:支持自然语言的语音数据输入,通过语音识别,而控制设备的运行,在智能终端中,语音控制能够调用终端中的时间、天气等信息,相对于手动控制来说更加快捷、方便。语音控制已应用于诸如工业控制、语音拨号***、智能家电、声控智能玩具等领域。
用户界面(User Interface,简称UI):是***和用户之间进行交互和信息交换的媒介,它实现信息的内部形式与人类可以接受形式之间的转换。用户界面是介于用户与硬件而设计彼此之间交互沟通相关软件,目的在使得用户能够方便有效率地去操作硬件以达成双向之交互,完成所希望借助硬件完成之工作,用户界面定义广泛,包含了人机交互与图形用户接口,凡参与人类与机械的信息交流的领域都存在着用户界面,例如:预设置数据编辑界面。
待机状态:指智能终端(如手机或电脑等电子设备)的开机在开机状态下,但是没有与用户产生任何交互行为,或不进行任何实质性工作(即不对文件和程序的各种操作)的状态,或指智能终端处于的熄屏状态(开机但屏幕熄灭),本发明中智能终端的待机状态包括手机的休眠/睡眠状态。在Android***的一种实施例中,可调用#echo mem>/sys/power/state使***进入休眠状态。在待机状态下,智能终端将拥有更长的续航时间。
唤醒状态:指智能终端(如手机或电脑等电子设备)的开机在开机状态下,与用户产生了交互行为,或屏幕亮起的状态。在Android***的一种实施例中,可调用#echo on>/sys/power/state命令使智能终端从待机状态中唤醒,进入唤醒状态,此外,还包括如下唤醒机制:Wake_Lock唤醒锁机制;Early_Suspend预挂起机制;Late_Resume迟唤醒机制。
交互行为:指用户与智能终端之间的信息双向传输与反馈行为,用户通过语音,位移和/或旋转,文字输入,在交互界面操作等方式,向智能终端输入信息、进行操作;智能终端通过语音,图像,视频,文字等方式向用户提供信息。例如:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
本发明所述方法主要适用于智能手机终端或者智能平板终端等具有通信功能的终端,不限制于其操作***的类型,可以是Android、IOS、WP、塞班等操作***。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种待机状态下语音控制信息获取方法,包括如下步骤S11-S14:
S11、根据语音采集方案规定的不同时间段下的采样频率,采集语音数据。以有效地控制能耗,延长智能终端在采集语音时的待机时间。
S12、根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令。从而使智能终端从语音数据中快速识别用户的语音指令,以实现语音控制。
S13、响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息。使智能终端执行语音指令而获取内容信息。
S14、依据所述内容信息进行关联于该内容信息的语音播报。使用户获取所需信息,完成语音控制。
其中:
S11、根据语音采集方案规定的不同时间段下的采样频率,采集语音数据。
在本发明的一种可能的实施例中,所述语音采集方案规定了各个时间段下智能终端采集语音的采样频率,所述语音采集方案的制定过程包括如下步骤:
首先,基于用户与智能终端的交互行为的时间分布来计算用户在不同时间段下的交互指数;
其次,分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在各个时间段采用与所述阈值范围相应的采样频率,并据此完成语音采集方案的制定。
一种实施例中,所述的交互行为包括:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
在一种可能的设计中,智能终端每隔一段时间(如5分钟)采集一次用户的各种交互行为的数据,以得出用户与智能终端的交互行为的时间分布,进而计算出用户在不同时间段下的交互指数。
所述计算包含一种或多种独立或关联的模型或算法,如关联规则挖掘算法等。
在其中的一种可能的算法中,设交互行为发生赋值为1,不发生则赋值为0;用户在智能终端唤醒状态下的操控行为(简称“操控”)的权重为0.3,智能终端的位移和/或旋转(简称“位移”)的权重为0.3,用户在智能终端待机下的语音控制行为(简称“音控”)的权重为1。交互指数的计算公式为:
交互指数=操控*0.3+位移*0.3+音控*1;
如用户在当前的采集时刻没有在智能终端唤醒状态下进行操控,而移动了智能终端,且在智能终端待机下进行语音控制,则当前的采集时刻用户的交互指数为0*0.3+1*0.3+1*1=1.3。其他时刻的交互指数的计算以此类推。每个时间段的时间长度由用户自行设置或由智能终端预设置,一个时间段的交互指数为该时间段内各个采集时刻的交互指数的平均值。进而可得出用户在不同时间段下的交互指数。
在一种可能的实施例中,用户在8:00-8:30的时间段下各个采集时刻的交互指数如下表所示:
则在8:00-8:30的时间段中,交互指数为0.73。
当然,在本发明的其他实施例中也可以采用其他的交互行为作为变量来计算交互指数。
一种可能的实施例中,语音采集方案将待机状态下智能终端不同时间段的语音采集的采样频率规定为:
当一个时间段的交互指数小于0.5时,则在该时间段采用22.05KHz的采样频率;
当一个时间段的交互指数大于等于0.5且小于1.2时,则在该时间段采用44.1KHz的采样频率;
当一个时间段的交互指数大于或等于1.2时,则在该时间段采用48KHz的采样频率。
由此,在一种可能的实施例中,语音采集方案如下表所示:
时间段 交互指数 采样频率
08:00-08:30 0.73 44.1KHz
08:31-08:35 0.35 22.05KHz
08:36-10:15 1.47 48KHz
10:16-10:45 0.94 44.1KHz
10:46-13:00 1.53 48KHz
13:01-13:50 0.25 22.05KHz
13:51-18:27 1.19 44.1KHz
18:28-22:00 1.34 48KHz
22:00-23:50 0.61 44.1KHz
23:51-07:59 0.08 22.05KHz
当然,在本发明的一些可能的实施例中,所述阈值范围或其相应的采样频率也可根据智能终端的剩余电量,或者依据用户的位置信息结合用户在该位置的语音控制功能的使用情况,进行相应的调整,以控制智能终端在实现语音控制功能时的能耗,延长智能终端的待机时间。
在一个可能的实施例中,所述语音采集方案的制定过程还包括,开机状态下显示用户界面,以用于设置所述阈值范围及各个阈值范围所对应的采样频率,以完成所述阈值范围的预设置。
所述阈值范围各个阈值范围所对应的采样频率由用户自行设置或由智能终端预设置。智能终端分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在该时间段采用与该阈值范围相应的采样频率。
在本发明的一个可能的实施例中,所述智能终端通过DSP处理器控制所述语音数据的采集。
数字信号处理(Digital Signal Processing,简称DSP)处理器,是一种介于固定功能硬件和高灵活度CPU之间的硬件,用于高效处理包括音频及语音应用,图像处理,视频输入等任务,负担了之前属于CPU的部分工作,能有效降低智能终端能耗。例如骁龙(Snapdragon)820处理器中采用的Hexagon DSP(低功耗岛)。通过DSP处理器控制所述语音数据的采集,提高待机状态下智能终端进行语音控制的能效,有效降低能耗。
语音采集方案依据用户在不同时间段中与智能终端之间的交互行为,在不同时间段的语音采集中规定相应的采样频率,以有效地控制能耗,提高了待机状态下智能终端的语音采集效能,延长待机时间。
S12、根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令。
在本发明的一种可能实施例中,所述特征匹配的过程包括:
检索所述语音数据中是否含有语音指令配置数据中的标识,若未含所述标识,则该语音数据非语音指令,终止检索;
若含有所述标识,则检索所述语音数据中是否含有语音指令配置数据中的内容,若含有所述内容,则该语音数据为语音指令,确定该语音数据包含的内容所对应的信息类型;若未含所述内容,则该语音数据非语音指令。
智能终端在待机状态先对语音指令的标识进行识别,在识别出标识后再进行下一步的识别,在提高识别效率的同时也降低了能耗。
在一种实施例中,所述特征匹配的过程中,当所述语音数据与所述语音指令配置数据的标识或内容的匹配率大于预设置的阈值时,则判定语音数据含有所述标识或内容;否则,判定语音数据不含有所述标识或内容。
语音数据与所述语音指令配置数据的标识或内容的匹配,可以采用基于语音学和声学的方法,模式匹配的方法或神经网络的方法。如模式匹配的方法中的动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术等。
马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其适合在语音识别中的应用。
通过以上实施例中语音指令数据的预设置和特征匹配的方法,可使智能终端从语音数据中快速识别用户的语音指令,以实现语音控制。
S13、响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息。
在可能的实施例中,优选如下两种可能方法,用于获取所述的内容信息:
其一,通过调用相应的***指令,由智能终端中获取所述类型的内容信息。
其二,通过调用相应的接口或通信协议,由相应的软件或网页或服务器中的一种或几种获取所述类型的内容信息。
在Android***的一种实施方式中,智能终端通过调用相应的***指令,可获取所述的内容信息,如调用SimpleDateFormat sDateFormat=newSimpleDateFormat("yyyy-MM-dd hh:mm:ss")指令,获取当前***中的日期和时间。
在Android***的一种实施方式中,根据信息类型,通过调用相应的API接口或WebService规范中的HTTP,POST,JSON,XML等协议,可获取相应的软件或网页或服务器中所述类型的的内容信息。
例如通过地址http://wthrcdn.etouch.cn/weather_mini?city=北京,根据城市名字获得天气数据(JSON);
或通过地址http://wthrcdn.etouch.cn/weather_mini?citykey=101010100通过城市id获得天气数据(JSON)。
当然,在一些实施例中,也可结合智能终端的定位,获取相关的信息。
S14、依据所述内容信息进行关联于该内容信息的语音播报。
获取内容信息后,根据语音指令的内容,反馈相应的信息。例如一个实施例中,获取了天气信息后,根据语音指令中的内容“明天会下雨么”,语音播报天气信息中明天的天气情况,包括是否下雨和其他具体的天气信息。
当然,在一些实施例中,也可采用视频,图像,文字等载体,通过用户界面或其他方式进行关联于内容信息的通知。
在本发明的一种可能的实施例中,为满足用户自定义语音指令的需求,如图2所示,还包括如下前置步骤:
S10、开机状态下显示用户界面,以用于编辑语音指令配置数据,并据此完成该配置数据的预设置。
在一种实施例中,所述语音指令配置数据包括语音指令的标识和内容,以及所述内容所对应的信息类型。
所述标识,内容和内容对应的信息类型可由用户根据需要灵活设置,以便于语音识别与控制获取信息,例如,在一个可能的实施例中:
所述标识包括:“你好”,“Hello”等,用于使语音指令在语音识别中能被快速检出;
所述内容包括:“现在的时间”、“今天是星期几”、“当前的温度”、“明天会下雨么”、“后天的天气”、“现在的沪深股指”等;
所述信息类型包括“时间”,“天气”,“股市指数”等;
所述内容和信息类型的对应关系为:“现在的时间”和“今天是星期几”对应的信息类型为“时间”;“当前的温度”,“明天会下雨么和“后天的天气”所对应的信息类型为“天气”;“现在的沪深股指”所对应的信息类型为“股市指数”等。
提供用户界面使用户设定语音指令的标识和内容,以及所述内容所对应的信息类型,以使用户实现语音指令的个性化和多样化的设定,提高人机交互的体验和生活工作的效率。
在一种实施例中,所述预设置由用户通过语音或文字的录入或选定而完成。使得用户可以个性化地设置多样化的语音指令,提高了语音控制功能的趣味性和实用性。
此外,本发明实施例提供了智能终端,如图3所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point ofSales,销售终端)、车载电脑等任意智能终端,以智能终端为手机为例:
图3示出的是与本发明实施例提供的智能终端相关的手机的部分结构的框图。参考图3,智能终端包括:拾音单元11,识别单元12,获取单元13和播报单元14。其中:
拾音单元11,用于根据语音采集方案规定的不同时间段下的采样频率,采集语音数据。
在本发明的一种可能的实施例中,拾音单元11的所述语音采集方案规定了各个时间段下智能终端采集语音的采样频率,所述语音采集方案的制定过程包括如下步骤:
首先,基于用户与智能终端的交互行为的时间分布来计算用户在不同时间段下的交互指数;
其次,分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定拾音单元11在各个时间段采用与所述阈值范围相应的采样频率,并据此完成语音采集方案的制定。
一种实施例中,所述的交互行为包括:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
在一种可能的设计中,智能终端每隔一段时间(如5分钟)采集一次用户的各种交互行为的数据,以得出用户与智能终端的交互行为的时间分布,进而计算出用户在不同时间段下的交互指数。
所述计算包含一种或多种独立或关联的模型或算法,如关联规则挖掘算法等。
在其中的一种可能的算法中,设交互行为发生赋值为1,不发生则赋值为0;用户在智能终端唤醒状态下的操控行为(简称“操控”)的权重为0.3,智能终端的位移和/或旋转(简称“位移”)的权重为0.3,用户在智能终端待机下的语音控制行为(简称“音控”)的权重为1。交互指数的计算公式为:
交互指数=操控*0.3+位移*0.3+音控*1;
如用户在当前的采集时刻没有在智能终端唤醒状态下进行操控,而移动了智能终端,且在智能终端待机下进行语音控制,则当前的采集时刻用户的交互指数为0*0.3+1*0.3+1*1=1.3。其他时刻的交互指数的计算以此类推。每个时间段的时间长度由用户自行设置或由智能终端预设置,一个时间段的交互指数为该时间段内各个采集时刻的交互指数的平均值。进而可得出用户在不同时间段下的交互指数。
在一种可能的实施例中,用户在8:00-8:30的时间段下各个采集时刻的交互指数如下表所示:
时间 操控 位移 音控 交互指数
08:00 1 1 0 0.6
08:05 1 0 0 0.3
08:10 0 0 0 0
08:15 1 0 1 1.3
08:20 0 1 0 0.3
08:25 0 1 0 1
08:30 1 1 1 1.6
则在08:00-08:30的时间段中,交互指数为0.73。
当然,在本发明的其他实施例中也可以采用其他的交互行为作为变量来计算交互指数。
一种可能的实施例中,语音采集方案将待机状态下智能终端不同时间段的语音采集的采样频率规定为:
当一个时间段的交互指数小于0.5时,则在该时间段采用22.05KHz的采样频率;
当一个时间段的交互指数大于等于0.5且小于1.2时,则在该时间段采用44.1KHz的采样频率;
当一个时间段的交互指数大于或等于1.2时,则在该时间段采用48KHz的采样频率。
由此,在一种可能的实施例中,语音采集方案如下表所示:
时间段 交互指数 采样频率
08:00-08:30 0.73 44.1KHz
08:31-08:35 0.35 22.05KHz
08:36-10:15 1.47 48KHz
10:16-10:45 0.94 44.1KHz
10:46-13:00 1.53 48KHz
13:01-13:50 0.25 22.05KHz
13:51-18:27 1.19 44.1KHz
18:28-22:00 1.34 48KHz
22:00-23:50 0.61 44.1KHz
23:51-07:59 0.08 22.05KHz
当然,在本发明的一些可能的实施例中,所述阈值范围或其相应的采样频率也可根据智能终端的剩余电量,或者依据用户的位置信息结合用户在该位置的语音控制功能的使用情况,进行相应的动态调整,以控制智能终端在实现语音控制功能时的能耗,延长智能终端的待机时间。
在一个可能的实施例中,拾音单元11的所述语音采集方案还包括,开机状态下显示用户界面,以用于设置所述阈值范围及各个阈值范围所对应的采样频率,以完成所述阈值范围的预设置。
所述阈值范围各个阈值范围所对应的采样频率由用户自行设置或由智能终端预设置。智能终端分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在该时间段采用与该阈值范围相应的采样频率。
在本发明的一个可能的实施例中,拾音单元11通过DSP处理器控制所述语音数据的采集。
数字信号处理(Digital Signal Processing,简称DSP)处理器,是一种介于固定功能硬件和高灵活度CPU之间的硬件,用于高效处理包括音频及语音应用,图像处理,视频输入等任务,负担了之前属于CPU的部分工作,能有效降低智能终端能耗。例如骁龙(Snapdragon)820处理器中采用的Hexagon DSP(低功耗岛)。通过DSP处理器控制所述语音数据的采集,提高待机状态下智能终端进行语音控制的能效,有效降低能耗。
语音采集方案依据用户在不同时间段中与智能终端之间的交互行为,在不同时间段的语音采集中规定拾音单元11相应的采样频率,以有效地控制能耗,提高了待机状态下智能终端的语音采集效能。
识别单元12,被配置为根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令。
在本发明的一种可能实施例中,所述识别单元12的征匹配的过程包括:
检索所述语音数据中是否含有语音指令配置数据中的标识,若未含所述标识,则该语音数据非语音指令,终止检索;智能终端在待机状态先对语音指令的标识进行识别,在识别出标识后再进行下一步的识别,在提高识别效率的同时也降低了能耗。
若含有所述标识,则检索所述语音数据中是否含有语音指令配置数据中的内容,若含有所述内容,则该语音数据为语音指令,确定该语音数据包含的内容所对应的信息类型;若未含所述内容,则该语音数据非语音指令。
在一种实施例中,所述特征匹配的过程中,当所述语音数据与所述语音指令配置数据的标识或内容的匹配率大于预设置的阈值时,则判定语音数据含有所述标识或内容;否则,判定语音数据不含有所述标识或内容。
语音数据与所述语音指令配置数据的标识或内容的匹配,可以采用基于语音学和声学的方法,模式匹配的方法或神经网络的方法。如模式匹配的方法中的动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术等。
马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其适合在语音识别中的应用。
通过以上实施例中预设单元10的语音指令数据的预设置和识别单元12的征匹配的方法,可使智能终端从语音数据中快速识别用户的语音指令,以实现语音控制。
获取单元13,用于响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息。
在可能的实施例中,获取单元13优选如下两种可能方法,用于获取所述的内容信息:
其一,通过调用相应的***指令,由智能终端中获取所述类型的内容信息。
其二,通过调用相应的接口或通信协议,由相应的软件或网页或服务器中的一种或几种获取所述类型的内容信息。
在Android***的一种实施方式中,智能终端通过调用相应的***指令,可获取所述的内容信息,如调用SimpleDateFormat sDateFormat=newSimpleDateFormat("yyyy-MM-dd hh:mm:ss")指令,获取当前***中的日期和时间。
在Android***的一种实施方式中,根据信息类型,通过调用相应的API接口或WebService规范中的HTTP,POST,JSON,XML等协议,可获取相应的软件或网页或服务器中所述类型的的内容信息。
例如通过地址http://wthrcdn.etouch.cn/weather_mini?city=北京,根据城市名字获得天气数据(JSON);
或通过地址http://wthrcdn.etouch.cn/weather_mini?citykey=101010100通过城市id获得天气数据(JSON)。
当然,在一些实施例中,获取单元13也可结合智能终端的定位,获取相关的信息。
播报单元14,依据所述内容信息进行关联于该内容信息的语音播报。
获取内容信息后,播报单元14根据语音指令的内容,反馈相应的信息。例如一个实施例中,获取了天气信息后,根据语音指令中的内容“明天会下雨么”,语音播报天气信息中明天的天气情况,包括是否下雨和其他具体的天气信息。
当然,在一些实施例中,播报单元14也可采用视频,图像,文字等载体,通过用户界面或其他方式进行关联于内容信息的通知。
在本发明的一种可能的实施例中,为满足用户自定义语音指令的需求,如图4所示,还包括如下预设单元10:
预设单元10,被配置为开机状态下显示用户界面,以用于编辑语音指令配置数据,并据此完成该配置数据的预设置。
在一种实施例中,所语音指令配置数据包括语音指令的标识和内容,以及所述内容所对应的信息类型。
所述标识,内容和内容对应的信息类型可由用户根据需要灵活设置,以便于语音识别与控制获取信息,例如,在一个可能的实施例中:
所述标识包括:“你好”,“Hello”等,用于使语音指令在语音识别中能被快速检出;
所述内容包括:“现在的时间”、“今天是星期几”、“当前的温度”、“明天会下雨么”、“后天的天气”、“现在的沪深股指”等;
所述信息类型包括“时间”,“天气”,“股市指数”等;
所述内容和信息类型的对应关系为:“现在的时间”和“今天是星期几”对应的信息类型为“时间”;“当前的温度”,“明天会下雨么和“后天的天气”所对应的信息类型为“天气”;“现在的沪深股指”所对应的信息类型为“股市指数”等。
预设单元10提供用户界面使用户设定语音指令的标识和内容,以及所述内容所对应的信息类型,以使用户实现语音指令的个性化和多样化的设定,提高人机交互的体验和生活工作的效率。
在一种实施例中,所述预设单元10的预设置过语音或文字的录入或选定而完成。使得用户可以个性化地设置多样化的语音指令,提高了语音控制功能的实用性和趣味性。
发明实施例还提供了一种智能终端,包括:
触敏显示器,用于显示用户界面,实现人机交互;
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行;
所述一个或多个程序用于驱动所述一个或多个处理器构造用于执行上述待机状态下语音控制信息获取方法的单元。所述单元包括:预设单元10,拾音单元11,识别单元12,获取单元13和播报单元14。
智能终端为手机为例:
所述智能终端可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(Global System of Mobilecommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
触敏显示器可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏显示器。
触敏显示器可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单,如信息编辑界面等。触敏显示器可包括显示面板,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置触敏显示器。进一步的,当触敏显示器检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类型,随后处理器根据触摸事件的类型在触敏显示器上提供相应的视觉输出。
手机包括音频输入和输出***或设备,包括麦克风,蓝牙,耳机(连接插孔),扩音器等。
手机还可包括至少一种传感器,比如重力传感器、光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节触敏显示器的亮度,接近传感器可在手机移动到耳边时,关闭触敏显示器和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
处理器是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
手机还包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理***与处理器逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该智能终端所包括的处理器还具有以下功能:
根据语音采集方案规定的不同时间段下的采样频率,采集语音数据。
在本发明的一种可能的实施例中,所述语音采集方案规定了各个时间段下智能终端采集语音的采样频率,所述语音采集方案的制定过程包括如下步骤:
首先,基于用户与智能终端的交互行为的时间分布来计算用户在不同时间段下的交互指数;
其次,分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在各个时间段采用与所述阈值范围相应的采样频率。
一种实施例中,所述的交互行为包括:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
在一种可能的设计中,每隔一段时间(如5分钟)采集一次用户的各种交互行为的数据,以得出用户与智能终端的交互行为的时间分布,进而计算出用户在不同时间段下的交互指数。
所述计算包含一种或多种独立或关联的模型或算法,如关联规则挖掘算法等。
在其中的一种可能的算法中,设交互行为发生赋值为1,不发生则赋值为0;用户在智能终端唤醒状态下的操控行为(简称“操控”)的权重为0.3,智能终端的位移和/或旋转(简称“位移”)的权重为0.3,用户在智能终端待机下的语音控制行为(简称“音控”)的权重为1。交互指数的计算公式为:
交互指数=操控*0.3+位移*0.3+音控*1;
如用户在当前的采集时刻没有在智能终端唤醒状态下进行操控,而移动了智能终端,且在智能终端待机下进行语音控制,则当前的采集时刻用户的交互指数为0*0.3+1*0.3+1*1=1.3。其他时刻的交互指数的计算以此类推。每个时间段的时间长度由用户自行设置或由智能终端预设置,一个时间段的交互指数为该时间段内各个采集时刻的交互指数的平均值。进而可得出用户在不同时间段下的交互指数。
当然,在本发明的其他实施例中也可以采用其他的交互行为作为变量来计算交互指数。
一种可能的实施例中,语音采集方案将待机状态下智能终端不同时间段的语音采集的采样频率规定为:
当一个时间段的交互指数小于0.5时,则在该时间段采用22.05KHz的采样频率;
当一个时间段的交互指数大于等于0.5且小于1.2时,则在该时间段采用44.1KHz的采样频率;
当一个时间段的交互指数大于或等于1.2时,则在该时间段采用48KHz的采样频率。
当然,在本发明的一些可能的实施例中,所述阈值范围或其相应的采样频率也可根据智能终端的剩余电量,或者依据用户的位置信息结合用户在该位置的语音控制功能的使用情况,进行相应的动态调整,以控制智能终端在实现语音控制功能时的能耗,延长智能终端的待机时间。
在一个可能的实施例中,所述语音采集方案的制定过程还包括,开机状态下显示用户界面,以用于设置所述阈值范围及各个阈值范围所对应的采样频率,以完成所述阈值范围的预设置。
所述阈值范围各个阈值范围所对应的采样频率由用户自行设置或由智能终端预设置。智能终端分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在该时间段采用与该阈值范围相应的采样频率。
在本发明的一个可能的实施例中,通过DSP处理器控制所述语音数据的采集。
语音采集方案依据用户在不同时间段中与智能终端之间的交互行为,在不同时间段的语音采集中规定相应的采样频率,以有效地控制能耗,提高了待机状态下智能终端的语音采集效能。
根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令。
在一个可能的实施例中,开机状态下显示用户界面,以用于编辑语音指令配置数据,并据此完成该配置数据的预设置。
在一种实施例中,所述语音指令配置数据包括语音指令的标识和内容,以及所述内容所对应的信息类型。
所述标识,内容和内容对应的信息类型可由用户根据需要灵活设置,以便于语音识别与控制获取信息,例如,在一个可能的实施例中:
所述标识包括:“你好”,“Hello”等,用于使语音指令在语音识别中能被快速检出;
所述内容包括:“现在的时间”、“今天是星期几”、“当前的温度”、“明天会下雨么”、“后天的天气”、“现在的沪深股指”等;
所述信息类型包括“时间”,“天气”,“股市指数”等;
所述内容和信息类型的对应关系为:“现在的时间”和“今天是星期几”对应的信息类型为“时间”;“当前的温度”,“明天会下雨么和“后天的天气”所对应的信息类型为“天气”;“现在的沪深股指”所对应的信息类型为“股市指数”等。
提供用户界面使用户设定语音指令的标识和内容,以及所述内容所对应的信息类型,以使用户实现语音指令的个性化和多样化的设定,提高人机交互的体验和生活工作的效率。
在一种实施例中,所述预设置由用户通过语音或文字的录入或选定而完成。使得用户可以个性化地设置多样化的语音指令,提高了语音控制功能的实用性和趣味性。
在本发明的一种可能实施例中,所述特征匹配的过程包括:
检索所述语音数据中是否含有语音指令配置数据中的标识,若未含所述标识,则该语音数据非语音指令,终止检索;智能终端在待机状态先对语音指令的标识进行识别,在识别出标识后再进行下一步的识别,在提高识别效率的同时也降低了能耗。
若含有所述标识,则检索所述语音数据中是否含有语音指令配置数据中的内容,若含有所述内容,则该语音数据为语音指令,确定该语音数据包含的内容所对应的信息类型;若未含所述内容,则该语音数据非语音指令。
在一种实施例中,所述特征匹配的过程中,当所述语音数据与所述语音指令配置数据的标识或内容的匹配率大于预设置的阈值时,则判定语音数据含有所述标识或内容;否则,判定语音数据不含有所述标识或内容。
语音数据与所述语音指令配置数据的标识或内容的匹配,可以采用基于语音学和声学的方法,模式匹配的方法或神经网络的方法。如模式匹配的方法中的动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术等。
通过以上实施例中语音指令数据的预设置和特征匹配的方法,可使智能终端从语音数据中快速识别用户的语音指令,以实现语音控制。
响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息。
在可能的实施例中,优选如下两种可能方法,用于获取所述的内容信息:
其一,通过调用相应的***指令,由智能终端中获取所述类型的内容信息。
其二,通过调用相应的接口或通信协议,由相应的软件或网页或服务器中的一种或几种获取所述类型的内容信息。
在Android***的一种实施方式中,智能终端通过调用相应的***指令,可获取所述的内容信息,如调用SimpleDateFormat sDateFormat=new SimpleDateFormat("yyyy-MM-dd hh:mm:ss")指令,获取当前***中的日期和时间。
在Android***的一种实施方式中,根据信息类型,通过调用相应的API接口或WebService规范中的HTTP,POST,JSON,XML等协议,可获取相应的软件或网页或服务器中所述类型的的内容信息。
例如通过地址http://wthrcdn.etouch.cn/weather_mini?city=北京,根据城市名字获得天气数据(JSON);
或通过地址http://wthrcdn.etouch.cn/weather_mini?citykey=101010100通过城市id获得天气数据(JSON)。
当然,在一些实施例中,也可结合智能终端的定位,获取相关的信息。
依据所述内容信息进行关联于该内容信息的语音播报。
获取内容信息后,根据语音指令的内容,反馈相应的信息。例如一个实施例中,获取了天气信息后,根据语音指令中的内容“明天会下雨么”,语音播报天气信息中明天的天气情况,包括是否下雨和其他具体的天气信息。
当然,在一些实施例中,也可采用视频,图像,文字等载体,通过用户界面或其他方式进行关联于内容信息的通知。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括但不限于:任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种待机状态下语音控制信息获取方法和智能终端进行了详细介绍,对于本领域的一般技术人员,在不脱离本发明原理的前提下,,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (23)

1.一种待机状态下语音控制信息获取方法,其特征在于,包括如下步骤:
基于用户与智能终端的交互行为的时间分布来计算用户在不同时间段下的交互指数;
分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在各个时间段采用与所述阈值范围相应的采样频率,并据此完成语音采集方案的制定;
根据所述语音采集方案规定的不同时间段下的采样频率,采集语音数据;
根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令;
响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息;
依据所述内容信息进行关联于该内容信息的语音播报。
2.根据权利要求1所述的方法,其特征在于,还包括如下前置步骤:
开机状态下显示用户界面,以用于编辑语音指令配置数据,并据此完成该配置数据的预设置。
3.根据权利要求1或2所述的方法,其特征在于,所述语音指令配置数据包括语音指令的标识和内容,以及所述内容所对应的信息类型。
4.根据权利要求1或2所述的方法,其特征在于,所述预设置由用户通过语音或文字的录入或选定而完成。
5.根据权利要求1所述的方法,其特征在于,所述的交互行为包括:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
6.根据权利要求1所述的方法,其特征在于,所述语音采集方案的制定过程还包括,开机状态下显示用户界面,以用于设置所述阈值范围及各个阈值范围所对应的采样频率,以完成所述阈值范围的预设置。
7.根据权利要求1所述的方法,其特征在于,所述智能终端通过DSP处理器控制所述语音数据的采集。
8.根据权利要求1所述的方法,其特征在于,所述特征匹配的过程包括:
检索所述语音数据中是否含有语音指令配置数据中的标识,若未含所述标识,则该语音数据非语音指令,终止检索;
若含有所述标识,则检索所述语音数据中是否含有语音指令配置数据中的内容,若含有所述内容,则该语音数据为语音指令,确定该语音数据包含的内容所对应的信息类型;若未含所述内容,则该语音数据非语音指令。
9.根据权利要求7所述的方法,其特征在于,所述特征匹配的过程中,当所述语音数据与所述语音指令配置数据的标识或内容的匹配率大于预设置的阈值时,则判定语音数据含有所述标识或内容;否则,判定语音数据不含有所述标识或内容。
10.根据权利要求1所述的方法,其特征在于,所述内容信息的获取方法包括:通过调用相应的***指令,由智能终端中获取所述类型的内容信息。
11.根据权利要求1所述的方法,其特征在于,所述内容信息的获取方法还包括:通过调用相应的接口或通信协议,由相应的软件或网页或服务器中的一种或几种获取所述类型的内容信息。
12.一种智能终端,其特征在于,包括:
拾音单元:用于基于用户与智能终端的交互行为的时间分布来计算用户在不同时间段下的交互指数;分别根据每个所述时间段的交互指数所满足的预设置的阈值范围,规定在各个时间段采用与所述阈值范围相应的采样频率,并据此完成语音采集方案的制定;根据所述语音采集方案规定的不同时间段下的采样频率,采集语音数据;
识别单元:被配置为根据预设置的语音指令配置数据对所述语音数据进行特征匹配,判断所述语音数据是否为语音指令;
获取单元:用于响应于所述语音数据对应的语音指令,获取该语音指令所对应类型的内容信息;
播报单元:依据所述内容信息进行关联于该内容信息的语音播报。
13.根据权利要求12所述的智能终端,其特征在于,还包括预设单元:
被配置为开机状态下显示用户界面,以用于编辑语音指令配置数据,并据此完成该配置数据的预设置。
14.根据权利要求13所述的智能终端,其特征在于,所述预设单元被配置为:语音指令配置数据包括语音指令的标识和内容,以及所述内容所对应的信息类型。
15.根据权利要求13所述的智能终端,其特征在于,所述预设单元被配置为:所述预设置由用户通过语音或文字的录入或选定而完成。
16.根据权利要求12所述的智能终端,其特征在于,所述拾音单元中,所述的交互行为包括:用户在智能终端唤醒状态下的操控行为,智能终端的位移和/或旋转,用户在智能终端待机下的语音控制行为。
17.根据权利要求12所述的智能终端,其特征在于,所述预设单元还被配置为:开机状态下显示用户界面,以用于设置所述阈值范围及各个阈值范围所对应的采样频率,以完成所述阈值范围的预设置。
18.根据权利要求12所述的智能终端,其特征在于,所述拾音单元通过DSP处理器控制所述语音数据的采集。
19.根据权利要求12所述的智能终端,其特征在于,所述识别单元中,所述特征匹配的过程包括:
检索所述语音数据中是否含有语音指令配置数据中的标识,若未含所述标识,则该语音数据非语音指令,终止检索;
若含有所述标识,则检索所述语音数据中是否含有语音指令配置数据中的内容,若含有所述内容,则该语音数据为语音指令,确定该语音数据包含的内容所对应的信息类型;若未含所述内容,则该语音数据非语音指令。
20.根据权利要求19所述的智能终端,其特征在于,所述识别单元中,所述特征匹配的过程中,当所述语音数据与所述语音指令配置数据的标识或内容的匹配率大于预设置的阈值时,则判定语音数据含有所述标识或内容;否则,判定语音数据不含有所述标识或内容。
21.根据权利要求12所述的智能终端,其特征在于,所述获取单元被配置为:通过调用相应的***指令,由智能终端中获取所述类型的内容信息。
22.根据权利要求12所述的智能终端,其特征在于,所述获取单元被配置为:通过调用相应的接口或通信协议,由相应的软件或网页或服务器中的一种或几种获取所述类型的内容信息。
23.一种智能终端,其特征在于,包括:
触敏显示器,用于显示用户界面,实现人机交互;
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行;
所述一个或多个程序用于驱动所述一个或多个处理器构造用于执行权利要求1至11中任意一项所述的方法的单元。
CN201610312120.4A 2016-05-11 2016-05-11 待机状态下语音控制信息获取方法和智能终端 Active CN105810194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610312120.4A CN105810194B (zh) 2016-05-11 2016-05-11 待机状态下语音控制信息获取方法和智能终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610312120.4A CN105810194B (zh) 2016-05-11 2016-05-11 待机状态下语音控制信息获取方法和智能终端

Publications (2)

Publication Number Publication Date
CN105810194A CN105810194A (zh) 2016-07-27
CN105810194B true CN105810194B (zh) 2019-07-05

Family

ID=56456928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610312120.4A Active CN105810194B (zh) 2016-05-11 2016-05-11 待机状态下语音控制信息获取方法和智能终端

Country Status (1)

Country Link
CN (1) CN105810194B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106559565A (zh) * 2016-11-04 2017-04-05 珠海市魅族科技有限公司 语音输入方法及电子设备
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
CN106953988A (zh) * 2017-04-20 2017-07-14 深圳市同行者科技有限公司 一种结束语音对话的方法及终端
CN107396160B (zh) * 2017-08-24 2018-03-30 傅皓衍 多功能机顶盒控制平台
CN107767872A (zh) * 2017-10-13 2018-03-06 深圳市汉普电子技术开发有限公司 语音识别方法、终端设备及存储介质
CN108962235B (zh) * 2017-12-27 2021-09-17 北京猎户星空科技有限公司 语音交互方法及装置
CN108847231B (zh) * 2018-05-30 2021-02-02 出门问问信息科技有限公司 远场语音识别方法、装置及***
WO2020000426A1 (zh) * 2018-06-29 2020-01-02 深圳中兴力维技术有限公司 信息采集方法、***及存储介质
CN109062396B (zh) * 2018-07-24 2020-01-21 百度在线网络技术(北京)有限公司 用于控制设备的方法和装置
CN110473544A (zh) * 2019-10-09 2019-11-19 杭州微纳科技股份有限公司 一种低功耗语音唤醒方法及装置
CN111015679A (zh) * 2019-11-13 2020-04-17 上海电机学院 一种多功能家庭机器人
CN110880322B (zh) * 2019-11-29 2022-05-27 中核第四研究设计工程有限公司 监控设备的控制方法及声控装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102165755A (zh) * 2008-09-24 2011-08-24 西门子企业通讯有限责任两合公司 用于控制电话的能耗的方法、电话、电信设备以及装置
CN103220423A (zh) * 2013-04-10 2013-07-24 威盛电子股份有限公司 语音接听方法与移动终端装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
CN105379308B (zh) * 2013-05-23 2019-06-25 美商楼氏电子有限公司 麦克风、麦克风***及操作麦克风的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102165755A (zh) * 2008-09-24 2011-08-24 西门子企业通讯有限责任两合公司 用于控制电话的能耗的方法、电话、电信设备以及装置
CN103220423A (zh) * 2013-04-10 2013-07-24 威盛电子股份有限公司 语音接听方法与移动终端装置

Also Published As

Publication number Publication date
CN105810194A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105810194B (zh) 待机状态下语音控制信息获取方法和智能终端
CN108735209B (zh) 唤醒词绑定方法、智能设备及存储介质
CN108320742B (zh) 语音交互方法、智能设备及存储介质
KR102414122B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
EP3605315B1 (en) Electronic device for processing user speech and operating method therefor
CN108829235A (zh) 语音数据处理方法和支持该方法的电子设备
CN103578474B (zh) 一种语音控制方法、装置和设备
CN108121490A (zh) 用于处理多模式输入的电子装置、方法和服务器
EP3531416A1 (en) System for processing user utterance and controlling method thereof
CN110162770A (zh) 一种词扩展方法、装置、设备及介质
US20200202070A1 (en) Method and device for generating natural language expression by using framework
CN109154858A (zh) 智能电子设备及其操作方法
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN109102802A (zh) 用于处理用户话语的***
CN109903773A (zh) 音频处理方法、装置及存储介质
CN108712566A (zh) 一种语音助手唤醒方法及移动终端
CN108735216A (zh) 一种基于语义识别的语音搜题方法及家教设备
KR20180109465A (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
CN106412312A (zh) 自动唤醒智能终端摄像功能的方法、***及智能终端
CN108962241A (zh) 位置提示方法、装置、存储介质及电子设备
CN112735418A (zh) 一种语音交互的处理方法、装置、终端及存储介质
CN109815363A (zh) 歌词内容的生成方法、装置、终端及存储介质
CN107316637A (zh) 语音识别方法及相关产品
CN108900965A (zh) 位置提示方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant