CN110782889A - 一种语音操作方法及相关设备 - Google Patents

一种语音操作方法及相关设备 Download PDF

Info

Publication number
CN110782889A
CN110782889A CN201910778379.1A CN201910778379A CN110782889A CN 110782889 A CN110782889 A CN 110782889A CN 201910778379 A CN201910778379 A CN 201910778379A CN 110782889 A CN110782889 A CN 110782889A
Authority
CN
China
Prior art keywords
voice
information
instruction
user
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910778379.1A
Other languages
English (en)
Inventor
陈强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910778379.1A priority Critical patent/CN110782889A/zh
Publication of CN110782889A publication Critical patent/CN110782889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例公开了一种语音操作方法及相关设备,包括:加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎;获取用户输入的第一语音信息;通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令;响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。采用本申请实施例,提高了操作的便捷性。

Description

一种语音操作方法及相关设备
技术领域
本申请涉及电子技术领域,尤其涉及一种语音操作方法及相关设备。
背景技术
手机***、手机应用(APP)或者物联网***,都是通过触摸屏、或者按键形式来操作IOS、安卓或物联网平台的***界面,用户可以通过手势执行打开软件、前进、后退、返回、Home键等动作。但是存在如下缺点:第一,在一些特定场合,比如开车或者双手疲劳情况下,仍然需要通过双手直接去操作控制APP或***,无法解放双手。第二,虽然***会提供一些辅助功能,但是辅助功能需要开启,同时操作不流畅,无法完全达到手动操作的效果。
发明内容
本申请实施例提供一种语音操作方法及相关设备。可以提高操作的便捷性。
第一方面,本申请实施例提供了一种语音操作方法,包括:
加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎;
获取用户输入的第一语音信息;
通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令;
响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
其中,所述通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令包括:
提取所述第一语音信息的特征信息;
将所述特征信息与预设模板库中的语音模板信息进行匹配,确定所述操作指令。
其中,所述提取所述第一语音信息中的特征信息包括:
确定所述第一语音信息中的操作关键词;
提取所述操作关键词的特征信息。
其中,所述通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令包括:
获取所述第一语音信息的语音强度;
当所述语音强度大于预设阈值时,通过所述语音识别引擎对所述第一语音信息进行识别,确定所述操作指令。
其中,所述获取用户输入的第一语音信息之前,还包括:
接收用户输入的切换指令;
根据所述切换指令,启动语音控制模式,所述语音控制模式为通过语音控制所述电子设备的操作模式。
其中,所述方法还包括:
当通过所述语音识别引擎无法识别所述第一语音信息时,显示提示信息,所述提示信息用于提示用户重新输入第二语音信息。
其中,所述操作指令包括打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。
第二方面,本申请实施例提供了一种语音操作装置,包括:
处理模块,用于加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎;
获取模块,用于获取用户输入的第一语音信息;
识别模块,用于通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令;
响应模块,用于响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
其中,所述识别模块,还用于提取所述第一语音信息的特征信息;将所述特征信息与预设模板库中的语音模板信息进行匹配,确定所述操作指令。
其中,所述识别模块,还用于确定所述第一语音信息中的操作关键词;提取所述操作关键词的特征信息。
其中,所述识别模块,还用于当所述语音强度大于预设阈值时,通过所述语音识别引擎对所述第一语音信息进行识别,确定所述操作指令。
其中,所述获取模块,还用于接收用户输入的切换指令;所述处理模块,还用于根据所述切换指令,启动语音控制模式,所述语音控制模式为通过语音控制所述电子设备的操作模式。
其中,所述响应模块,还用于当通过所述语音识别引擎无法识别所述第一语音信息时,显示提示信息,所述提示信息用于提示用户重新输入第二语音信息。
其中,所述操作指令包括打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和通信总线,其中,通信总线用于实现处理器和存储器之间连接通信,处理器执行存储器中存储的程序用于实现上述第一方面提供的一种语音操作方法中的步骤。
在一个可能的设计中,本申请提供的实体识别设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或硬件。
本申请实施例的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载并执行上述各方面所述的方法。
本申请实施例的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
实施本申请实施例,加载语音操作软件开发工具包SDK,语音操作SDK包括语音识别引擎和***接口操作引擎;获取用户输入的第一语音信息;通过语音识别引擎对第一语音信息进行识别,确定操作指令;响应操作指令,通过***接口操作引擎调用对应的硬件接口对电子设备进行操作。通过内嵌的语音操作SDK识别出动作后,直接调用***的硬件接口,达到和双手直接操作一样的效果,提高操作的便携性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种电子设备的结构示意图;
图2是本申请实施例提供的一种语音操作方法的流程示意图;
图3是本申请实施例提供的另一种电子设备的结构示意图;
图4是本申请实施例提供的一种语音识别的示意图;
图5是本申请实施例提供的一种语音操作的示意图;
图6是本申请实施例提供的一种通过语音浏览信息的示意图;
图7是本申请实施例提供的另一种语义操作的流程示意图;
图8是本申请实施例提供的一种语音操作装置的结构示意图;
图9是本申请实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的一种电子设备的结构示意图。电子设备100可以是指提供到用户的语音和/或数据连接的设备,也可以被连接到诸如膝上型计算机或台式计算机等的计算设备,或者其可以是诸如个人数字助理(personal digital assistant,PDA)等的独立设备。电子设备还可以称为***、用户单元、用户站、移动站、移动台、远程站、接入点、远程终端、接入终端、用户终端、用户代理或用户装置。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriberidentification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
如图2所示,图2是本申请实施例提供的一种语音操作方法的流程示意图。本申请实施例中的步骤包括:
S201,加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎。
如图3所示,图3是本申请实施例提供的另一种电子设备的结构示意图。加载语音操作SDK之后,电子设备可以包括语音识别引擎和***接口操作引擎,其中,语音识别引擎用于对用户发出的语音信息进行识别得到操作指令,***接口操作引擎用于根据识别出的操作指令,通过调用手机硬件接口来对电子设备的业务模块进行操作。
S202,获取用户输入的第一语音信息。
具体实现中,在开启电子设备之后,在电子设备处于桌面显示状态,可以获取用户输入的第一语音信息。例如“打开XX应用”。或者,在用户操作某个应用界面时,获取用户输入的第一语音信息,例如“翻到下一页”。或者,在用户需要关机时,也可以获取用户输入的第一语音信息,例如“立刻关机”。电子设备可以在任何状态下,接收用户输入的第一语音信息。
可选的,在获取用户输入的第一语音信息之前,可以接收用户输入的切换指令;根据所述切换指令,启动语音控制模式,所述语音控制模式为通过语音控制所述电子设备的操作模式。在语音控制模式下,电子设备可以接收用户语音信息,而不接收用户输入的触控操作。也可以同时接收用户输入的语音信息和触控操作。
可选的,在接收用户输入的第一语音信息之前,可以对用户的身份信息(例如面部信息、指纹信息)进行识别,在确定该用户为特定用户时,开始接收该用户输入的第一语音信息,从而保障信息安全性。
S203,通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令。
如图4所示,图4是本申请实施例提供的一种语音识别的示意图。首先,可以提取所述第一语音信息的特征信息,然后将所述特征信息与预设模板库中的语音模板信息进行匹配,确定所述操作指令。其中,预设模板库可以包括语音信息与操作指令的对应关系。例如,当用户说出语音信息“开始开始”,通过语音识别引擎确定该语音信息“开始开始”对应控制指令“字符串start”,则确定执行start指令,当用户说出语音信息“暂停暂停”,通过语音识别引擎确定语音信息“暂停暂停”对应控制指令“字符串pause”,则确定执行pause指令。其他不再一一举例。
可选的,可以首先确定所述第一语音信息中的操作关键词;然后提取所述操作关键词的特征信息。例如,用户发出语音信息“我想打开QQ音乐”,可以从该语音信息提取操作关键词“打开”和“QQ音乐”,然后提取操作关键词“打开”和“QQ音乐”的特征信息,通过该特征信息识别得到操作指令。其中,所述操作指令包括Home键指令、打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。
可选的,当通过所述语音识别引擎无法识别所述第一语音信息时,可以显示提示信息,所述提示信息用于提示用户重新输入第二语音信息。,然后通过所述语音识别引擎对所述第二语音信息进行识别。如果通过语音识别引擎无法识别语音信息的次数超过预设阈值时,可以从语音控制模式切换为手动操作模式,提示用户手动操作。
S204,响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
如图5所示,图5是本申请实施例提供的一种语音操作的示意图。首先电子设备接收用户输入的操作关键词,然后语音识别引擎对操作关键词进行识别得到识别关键词,最后***接口操作引擎将识别关键词转化为操作指令,判断是否存在对应的硬件接口,如果存在,则调用对应的硬件接口对电子设备进行操作。如果不存在对应的硬件接口,则显示无法识别的提示信息。
例如,如图6所示,图6是本申请实施例提供的一种通过语音浏览信息的示意图。用户在浏览新闻时,如果用户发出语音信息“返回”,通过语音识别引擎对该语音信息进行识别,确定是操作指令“返回”,***接口操作引擎调用对应的硬件接口,自动点击操作界面左上角的“返回”键,返回到前一个页面。如果用户发出语音信息“下一页”,通过语音识别引擎对该语音信息进行识别,确定是操作指令“下一页”,***接口操作引擎调用对应的硬件接口,自动点击操作界面右上角的“下一页”键,显示界面显示下一个页面。整个过程无需用户手动操作。
在本申请实施例中,通过加载语音操作软件开发工具包SDK;然后获取用户输入的第一语音信息;通过语音识别引擎对第一语音信息进行识别,确定操作指令;响应操作指令,通过***接口操作引擎调用对应的硬件接口对电子设备进行操作。通过内嵌的语音操作SDK识别出动作后,直接调用***的硬件接口,达到与双手直接操作相同的效果,提高操作的便携性。
如图7所示,图7是本申请实施例提供的另一种语义操作的流程示意图。本申请实施例中的步骤包括:
S701,加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎。
如图3所示,图3是本申请实施例提供的一种电子设备的结构示意图。加载语音操作SDK之后,电子设备可以包括语音识别引擎和***接口操作引擎,其中,语音识别引擎用于对用户发出的语音信息进行识别得到操作指令,***接口操作引擎用于根据识别出的操作指令,通过调用手机硬件接口来对电子设备的业务模块进行操作。
S702,获取用户输入的第一语音信息。
具体实现中,在开启电子设备之后,在电子设备处于桌面显示状态,可以获取用户输入的第一语音信息。例如“打开XX应用”。或者,在用户操作某个应用界面时,获取用户输入的第一语音信息,例如“翻到下一页”。或者,在用户需要关机时,也可以获取用户输入的第一语音信息,例如“立刻关机”。电子设备可以在任何状态下,接收用户输入的第一语音信息。
可选的,在获取用户输入的第一语音信息之前,可以接收用户输入的切换指令;根据所述切换指令,启动语音控制模式,所述语音控制模式为通过语音控制所述电子设备的操作模式。在语音控制模式下,电子设备可以接收用户语音信息,而不接收用户输入的触控操作。也可以同时接收用户输入的语音信息和触控操作。
可选的,在接收用户输入的第一语音信息之前,可以对用户的身份信息(例如面部信息、指纹信息)进行识别,在确定该用户为特定用户时,开始接收该用户输入的第一语音信息,从而保障信息安全性。
S703,获取所述第一语音信息的语音强度,判断语音强度是否大于预设阈值。若大于,执行S704,若不大于,则执行S706。只有当语音强度是否大于预设阈值时,开始对接收的语音信息处理,可以避免外界噪音的干扰,保证对特定用户的语音信息进行处理。
S704,通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令。
如图4所示,图4是本申请实施例提供的一种语音识别的示意图。首先,可以提取所述第一语音信息的特征信息,然后将所述特征信息与预设模板库中的语音模板信息进行匹配,确定所述操作指令。其中,预设模板库可以包括语音信息与操作指令的对应关系。例如,当用户说出语音信息“开始开始”,通过语音识别引擎确定该语音信息“开始开始”对应控制指令“字符串start”,则确定执行start指令,当用户说出语音信息“暂停暂停”,通过语音识别引擎确定语音信息“暂停暂停”对应控制指令“字符串pause”,则确定执行pause指令。其他不再一一举例。
可选的,可以首先确定所述第一语音信息中的操作关键词;然后提取所述操作关键词的特征信息。例如,用户发出语音信息“我想打开QQ音乐”,可以从该语音信息提取操作关键词“打开”和“QQ音乐”,然后提取操作关键词“打开”和“QQ音乐”的特征信息,通过该特征信息识别得到操作指令。其中,所述操作指令包括Home键指令、打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。
可选的,当通过所述语音识别引擎无法识别所述第一语音信息时,可以显示提示信息,所述提示信息用于提示用户重新输入第二语音信息。,然后通过所述语音识别引擎对所述第二语音信息进行识别。如果通过语音识别引擎无法识别语音信息的次数超过预设阈值时,可以从语音控制模式切换为手动操作模式,提示用户手动操作。
S705,响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
如图5所示,图5是本申请实施例提供的一种语音操作的示意图。首先电子设备接收用户输入的操作关键词,然后语音识别引擎对操作关键词进行识别得到识别关键词,最后***接口操作引擎将识别关键词转化为操作指令,判断是否存在对应的硬件接口,如果存在,则调用对应的硬件接口对电子设备进行操作。如果不存在对应的硬件接口,则显示无法识别的提示信息。
例如,如图6所示,图6是本申请实施例提供的一种语音浏览信息的示意图。用户在浏览新闻时,如果用户发出语音信息“返回”,通过语音识别引擎对该语音信息进行识别,确定是操作指令“返回”,***接口操作引擎调用对应的硬件接口,自动点击操作界面左上角的“返回”键,返回到前一个页面。如果用户发出语音信息“下一页”,通过语音识别引擎对该语音信息进行识别,确定是操作指令“下一页”,***接口操作引擎调用对应的硬件接口,自动点击操作界面右上角的“下一页”键,显示界面显示下一个页面。整个过程无需用户手动操作。
S706,发出提示信息。
具体实现中,可以通过语音播报方式发出提示信息,或者在电子设备的显示界面显示提示信息。其中,提示信息可以为声音强度太小,请重新输入。电子设备可以接收用户输入的其他语音信息并进行识别。
如图8所示,图8是本申请实施例提供的一种语音操作装置的结构示意图。本申请实施例中的装置可以包括:
处理模块801,用于加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎。
如图3所示,图3是本申请实施例提供的一种电子设备的结构示意图。加载语音操作SDK之后,电子设备可以包括语音识别引擎和***接口操作引擎,其中,语音识别引擎用于对用户发出的语音信息进行识别得到操作指令,***接口操作引擎用于根据识别出的操作指令,通过调用手机硬件接口来对电子设备的业务模块进行操作。
获取模块802,用于获取用户输入的第一语音信息。
具体实现中,在开启电子设备之后,在电子设备处于桌面显示状态,可以获取用户输入的第一语音信息。例如“打开XX应用”。或者,在用户操作某个应用界面时,获取用户输入的第一语音信息,例如“翻到下一页”。或者,在用户需要关机时,也可以获取用户输入的第一语音信息,例如“立刻关机”。电子设备可以在任何状态下,接收用户输入的第一语音信息。
可选的,在获取用户输入的第一语音信息之前,可以接收用户输入的切换指令;根据所述切换指令,启动语音控制模式,所述语音控制模式为通过语音控制所述电子设备的操作模式。在语音控制模式下,电子设备可以接收用户语音信息,而不接收用户输入的触控操作。也可以同时接收用户输入的语音信息和触控操作。
可选的,在接收用户输入的第一语音信息之前,可以对用户的身份信息(例如面部信息、指纹信息)进行识别,在确定该用户为特定用户时,开始接收该用户输入的第一语音信息,从而保障信息安全性。
识别模块803,用于通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令。
如图4所示,图4是本申请实施例提供的一种语音识别的示意图。首先,可以提取所述第一语音信息的特征信息,然后将所述特征信息与预设模板库中的语音模板信息进行匹配,确定所述操作指令。其中,预设模板库可以包括语音信息与操作指令的对应关系。例如,当用户说出语音信息“开始开始”,通过语音识别引擎确定该语音信息“开始开始”对应控制指令“字符串start”,则确定执行start指令,当用户说出语音信息“暂停暂停”,通过语音识别引擎确定语音信息“暂停暂停”对应控制指令“字符串pause”,则确定执行pause指令。其他不再一一举例。
可选的,可以首先确定所述第一语音信息中的操作关键词;然后提取所述操作关键词的特征信息。例如,用户发出语音信息“我想打开QQ音乐”,可以从该语音信息提取操作关键词“打开”和“QQ音乐”,然后提取操作关键词“打开”和“QQ音乐”的特征信息,通过该特征信息识别得到操作指令。其中,所述操作指令包括Home键指令、打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。
可选的,当通过所述语音识别引擎无法识别所述第一语音信息时,可以显示提示信息,所述提示信息用于提示用户重新输入第二语音信息。,然后通过所述语音识别引擎对所述第二语音信息进行识别。如果通过语音识别引擎无法识别语音信息的次数超过预设阈值时,可以从语音控制模式切换为手动操作模式,提示用户手动操作。
可选的,可以获取所述第一语音信息的语音强度;判断语音强度是否大于预设阈值,当所述语音强度大于预设阈值时,通过所述语音识别引擎对所述第一语音信息进行识别,确定所述操作指令。当所述语音强度不大于预设阈值时,可以通过语音播报方式发出提示信息,或者在电子设备的显示界面显示提示信息。其中,提示信息可以为声音强度太小,请重新输入。电子设备可以接收用户输入的其他语音信息并进行识别
响应模块804,用于响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
如图5所示,图5是本申请实施例提供的一种语音操作的示意图。首先电子设备接收用户输入的操作关键词,然后语音识别引擎对操作关键词进行识别得到识别关键词,最后***接口操作引擎将识别关键词转化为操作指令,判断是否存在对应的硬件接口,如果存在,则调用对应的硬件接口对电子设备进行操作。如果不存在对应的硬件接口,则显示无法识别的提示信息。
例如,如图6所示,图6是本申请实施例提供的一种语音浏览信息的示意图。用户在浏览新闻时,如果用户发出语音信息“返回”,通过语音识别引擎对该语音信息进行识别,确定是操作指令“返回”,***接口操作引擎调用对应的硬件接口,自动点击操作界面左上角的“返回”键,返回到前一个页面。如果用户发出语音信息“下一页”,通过语音识别引擎对该语音信息进行识别,确定是操作指令“下一页”,***接口操作引擎调用对应的硬件接口,自动点击操作界面右上角的“下一页”键,显示界面显示下一个页面。整个过程无需用户手动操作。
在本申请实施例中,通过加载语音操作软件开发工具包SDK;然后获取用户输入的第一语音信息;通过语音识别引擎对第一语音信息进行识别,确定操作指令;响应操作指令,通过***接口操作引擎调用对应的硬件接口对电子设备进行操作。通过内嵌的语音操作SDK识别出动作后,直接调用***的硬件接口,达到与双手直接操作相同的效果,提高操作的便携性。
请参见图9,图9是本申请实施例提供的一种电子设备的结构示意图。如图所示,该设备可以包括:至少一个处理器901,至少一个通信接口902,至少一个存储器903和至少一个通信总线904。
其中,处理器901可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信总线904可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信总线904用于实现这些组件之间的连接通信。其中,本申请实施例中设备的通信接口902用于与其他节点设备进行信令或数据的通信。存储器903可以包括易失性存储器,例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory,NVRAM)、相变化随机存取内存(PhaseChange RAM,PRAM)、磁阻式随机存取内存(Magetoresistive RAM,MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、闪存器件,例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件,例如固态硬盘(SolidState Disk,SSD)等。存储器903可选的还可以是至少一个位于远离前述处理器901的存储装置。存储器903中存储一组程序代码,且处理器901执行存储器903中的程序:
加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎;
获取用户输入的第一语音信息;
通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令;
响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
可选的,处理器901还用于执行如下操作步骤:
提取所述第一语音信息的特征信息;
将所述特征信息与预设模板库中的语音模板信息进行匹配,确定所述操作指令。
可选的,处理器901还用于执行如下操作步骤:
确定所述第一语音信息中的操作关键词;
提取所述操作关键词的特征信息。
可选的,处理器901还用于执行如下操作步骤:
获取所述第一语音信息的语音强度;
当所述语音强度大于预设阈值时,通过所述语音识别引擎对所述第一语音信息进行识别,确定所述操作指令。
可选的,处理器901还用于执行如下操作步骤:
接收用户输入的切换指令;
根据所述切换指令,启动语音控制模式,所述语音控制模式为通过语音控制所述电子设备的操作模式。
可选的,处理器901还用于执行如下操作步骤:
当通过所述语音识别引擎无法识别所述第一语音信息时,显示提示信息,所述提示信息用于提示用户重新输入第二语音信息。
其中,所述操作指令包括打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。
进一步的,处理器还可以与存储器和通信接口相配合,执行上述申请实施例中窗口渲染装置的操作。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种语音操作方法,其特征在于,所述方法包括:
加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎;
获取用户输入的第一语音信息;
通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令;
响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
2.如权利要求1所述的方法,其特征在于,所述通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令包括:
提取所述第一语音信息的特征信息;
将所述特征信息与预设模板库中的语音模板信息进行匹配,确定所述操作指令。
3.如权利要求2所述的方法,其特征在于,所述提取所述第一语音信息中的特征信息包括:
确定所述第一语音信息中的操作关键词;
提取所述操作关键词的特征信息。
4.如权利要求1所述的方法,其特征在于,所述通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令包括:
获取所述第一语音信息的语音强度;
当所述语音强度大于预设阈值时,通过所述语音识别引擎对所述第一语音信息进行识别,确定所述操作指令。
5.如权利要求1所述的方法,其特征在于,所述获取用户输入的第一语音信息之前,还包括:
接收用户输入的切换指令;
根据所述切换指令,启动语音控制模式,所述语音控制模式为通过语音控制所述电子设备的操作模式。
6.如权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
当通过所述语音识别引擎无法识别所述第一语音信息时,显示提示信息,所述提示信息用于提示用户重新输入第二语音信息。
7.如权利要求1-5任一项所述的方法,其特征在于,所述操作指令包括打开指令、回退指令、返回指令、前进指令以及关闭指令中的至少一项。
8.一种语音操作装置,其特征在于,所述装置包括:
处理模块,用于加载语音操作软件开发工具包SDK,所述语音操作SDK包括语音识别引擎和***接口操作引擎;
获取模块,用于获取用户输入的第一语音信息;
识别模块,用于通过所述语音识别引擎对所述第一语音信息进行识别,确定操作指令;
响应模块,用于响应所述操作指令,通过所述***接口操作引擎调用对应的硬件接口对电子设备进行操作。
9.如权利要求8所述的装置,其特征在于,获取所述第一语音信息的语音强度;
所述识别模块,还用于当所述语音强度大于预设阈值时,通过所述语音识别引擎对所述第一语音信息进行识别,确定所述操作指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-7任一项所述的方法。
CN201910778379.1A 2019-08-22 2019-08-22 一种语音操作方法及相关设备 Pending CN110782889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910778379.1A CN110782889A (zh) 2019-08-22 2019-08-22 一种语音操作方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910778379.1A CN110782889A (zh) 2019-08-22 2019-08-22 一种语音操作方法及相关设备

Publications (1)

Publication Number Publication Date
CN110782889A true CN110782889A (zh) 2020-02-11

Family

ID=69384024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910778379.1A Pending CN110782889A (zh) 2019-08-22 2019-08-22 一种语音操作方法及相关设备

Country Status (1)

Country Link
CN (1) CN110782889A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583924A (zh) * 2020-04-28 2020-08-25 山推工程机械股份有限公司 一种工程机械的控制方法、装置、电子设备及存储介质
CN113593555A (zh) * 2021-07-23 2021-11-02 北京百度网讯科技有限公司 通过语音方式控制程序的方法、设备及程序产品

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138984A1 (en) * 2011-11-29 2013-05-30 Jason Allen Wortham Extending RunTime with Battery Ripple Cancellation Using CPU Throttling
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的***及其方法
CN103885783A (zh) * 2014-04-03 2014-06-25 深圳市三脚蛙科技有限公司 一种应用程序的语音控制方法及装置
CN103888807A (zh) * 2012-12-20 2014-06-25 中山大学深圳研究院 一种智能电视的高清解码中间件***及解码方法
CN104123939A (zh) * 2014-06-06 2014-10-29 国家电网公司 基于变电站巡检机器人的语音交互控制方法
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN104615359A (zh) * 2015-02-13 2015-05-13 小米科技有限责任公司 对应用软件进行语音操作的方法及装置
CN105204357A (zh) * 2015-09-18 2015-12-30 小米科技有限责任公司 智能家居设备的情景模式调整方法及装置
CN105788230A (zh) * 2016-02-04 2016-07-20 深圳前海勇艺达机器人有限公司 一种可定时遥控家电的装置及其工作方式
WO2016113693A1 (en) * 2015-01-14 2016-07-21 Neptune Computer Inc. Wearable data processing and control platform apparatuses, methods and systems
WO2016127495A1 (zh) * 2015-02-12 2016-08-18 无锡识凌科技有限公司 一种智能终端中的设备驱动架构开发方法
CN106231197A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
CN107463700A (zh) * 2017-08-15 2017-12-12 北京百度网讯科技有限公司 用于获取信息的方法、装置及设备
CN107943458A (zh) * 2017-11-20 2018-04-20 上海木爷机器人技术有限公司 一种机器人开发***
CN108320742A (zh) * 2018-01-31 2018-07-24 广东美的制冷设备有限公司 语音交互方法、智能设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138984A1 (en) * 2011-11-29 2013-05-30 Jason Allen Wortham Extending RunTime with Battery Ripple Cancellation Using CPU Throttling
CN103888807A (zh) * 2012-12-20 2014-06-25 中山大学深圳研究院 一种智能电视的高清解码中间件***及解码方法
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的***及其方法
CN103885783A (zh) * 2014-04-03 2014-06-25 深圳市三脚蛙科技有限公司 一种应用程序的语音控制方法及装置
CN104123939A (zh) * 2014-06-06 2014-10-29 国家电网公司 基于变电站巡检机器人的语音交互控制方法
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
WO2016113693A1 (en) * 2015-01-14 2016-07-21 Neptune Computer Inc. Wearable data processing and control platform apparatuses, methods and systems
WO2016127495A1 (zh) * 2015-02-12 2016-08-18 无锡识凌科技有限公司 一种智能终端中的设备驱动架构开发方法
CN104615359A (zh) * 2015-02-13 2015-05-13 小米科技有限责任公司 对应用软件进行语音操作的方法及装置
CN105204357A (zh) * 2015-09-18 2015-12-30 小米科技有限责任公司 智能家居设备的情景模式调整方法及装置
CN105788230A (zh) * 2016-02-04 2016-07-20 深圳前海勇艺达机器人有限公司 一种可定时遥控家电的装置及其工作方式
CN106231197A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
CN107463700A (zh) * 2017-08-15 2017-12-12 北京百度网讯科技有限公司 用于获取信息的方法、装置及设备
CN107943458A (zh) * 2017-11-20 2018-04-20 上海木爷机器人技术有限公司 一种机器人开发***
CN108320742A (zh) * 2018-01-31 2018-07-24 广东美的制冷设备有限公司 语音交互方法、智能设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583924A (zh) * 2020-04-28 2020-08-25 山推工程机械股份有限公司 一种工程机械的控制方法、装置、电子设备及存储介质
CN113593555A (zh) * 2021-07-23 2021-11-02 北京百度网讯科技有限公司 通过语音方式控制程序的方法、设备及程序产品
WO2023000697A1 (zh) * 2021-07-23 2023-01-26 北京百度网讯科技有限公司 通过语音方式控制程序的方法、设备及程序产品

Similar Documents

Publication Publication Date Title
US11664027B2 (en) Method of providing voice command and electronic device supporting the same
KR102394485B1 (ko) 음성 인식을 위한 전자 장치 및 방법
US11138971B2 (en) Using context to interpret natural language speech recognition commands
US20170116987A1 (en) Electronic device and method for executing function using speech recognition thereof
US10573317B2 (en) Speech recognition method and device
US10269347B2 (en) Method for detecting voice and electronic device using the same
KR20160034855A (ko) 로컬 음성인식을 행하는 음성인식 클라이언트 장치
CN112470217A (zh) 用于确定要执行语音识别的电子装置的方法及电子装置
CN104361021B (zh) 网页编码识别方法及装置
CN109101517B (zh) 信息处理方法、信息处理设备以及介质
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
TWI668629B (zh) 欄位條目的音訊輸入技術
CN108073275B (zh) 信息处理方法、信息处理设备及程序产品
CN110782889A (zh) 一种语音操作方法及相关设备
CN105100449A (zh) 一种图片分享方法及移动终端
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
KR20140142116A (ko) 텍스트 변환 서비스를 제공하는 전자장치 및 방법
CN110737334A (zh) 一种信息输出方法、装置、终端及计算机可读存储介质
WO2019228370A1 (zh) 数据处理方法、装置、移动终端以及存储介质
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
KR20190021773A (ko) 전자 장치 및 그의 데이터 운용 방법
CN110991431A (zh) 人脸识别方法、装置、设备及存储介质
CN112634891A (zh) 识别码响应方法、装置、车载终端以及存储介质
CN112489644A (zh) 用于电子设备的语音识别方法及装置
US9978375B2 (en) Method for transmitting phonetic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020251

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination