CN112562670A - 语音智能识别方法、语音智能识别装置及智能设备 - Google Patents
语音智能识别方法、语音智能识别装置及智能设备 Download PDFInfo
- Publication number
- CN112562670A CN112562670A CN202011411651.1A CN202011411651A CN112562670A CN 112562670 A CN112562670 A CN 112562670A CN 202011411651 A CN202011411651 A CN 202011411651A CN 112562670 A CN112562670 A CN 112562670A
- Authority
- CN
- China
- Prior art keywords
- corpus
- recognition
- keyword
- intelligent
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000006870 function Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种语音智能识别方法、语音智能识别装置及智能设备,涉及智能家居技术领域,不但可以省去用户按键操作,还可以在用户未完全说出智能设备掌握的语料的情况下,控制智能设备工作。该语音智能识别方法包括:接收语音信息;将所述语音信息与语料库进行匹配,确定与所述语料库中的至少一个识别语料对应的关键词,将与所述识别语料对应的所述关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料;将所述目标关键词与业务逻辑库进行匹配,确定与所述目标关键词匹配的技能语句,所述业务逻辑库包括至少一个技能语句;根据与所述目标关键词匹配的所述技能语句,确定与所述语音信息对应的控制命令。
Description
技术领域
本申请涉及智能家居技术领域,尤其涉及一种语音智能识别方法、语音智能识别装置及智能设备。
背景技术
随着智能设备的不断发展,智能设备的功能多且杂,用户需要繁杂的手动按键操作,才能唤醒对应的功能或获取有用的信息,从而降低用户体验。
发明内容
本申请的目的包括,例如,提供了一种语音智能识别方法、语音智能识别装置及智能设备,以解决上述问题。
第一方面,提供一种语音智能识别方法,所述方法包括:接收语音信息;将语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料;将目标关键词与业务逻辑库进行匹配,确定与目标关键词匹配的技能语句,业务逻辑库包括至少一个技能语句;根据与目标关键词匹配的所述技能语句,确定与语音信息对应的控制命令。
第二方面,提供一种语音智能识别方法,包括:服务器接收语音信息;服务器将所述语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料;服务器将所述目标关键词与业务逻辑库进行匹配,确定与业务逻辑库匹配的技能语句,业务逻辑库包括至少一个技能语句;服务器根据所述技能语句,确定与语音信息对应的控制命令,并将控制命令发送至智能设备;智能设备接收所述控制命令,并控制智能家居设备执行所述控制命令。
第三方面,提供一种语音智能识别装置,包括:接收模块以及处理模块。接收模块,用于接收智能设备发送的语音信息;处理模块,用于将语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料;处理模块,还用于将目标关键词与业务逻辑库进行匹配,确定与目标关键词匹配的技能语句,业务逻辑库包括至少一个技能语句;处理模块,还用于根据与目标关键词匹配的所述技能语句,确定与语音信息对应的控制命令。
第四方面,提供一种智能设备,包括:一个或多个处理器;存储器;以及一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由所述一个或多个处理器执行,一个或多个应用程序配置用于执行第一方面或第二方面所述的方法。
第五方面,提供一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行如第一方面或第二方面所述的方法。
本申请实施例提供的语音智能识别方法、语音智能识别装置及智能设备中,服务器在接收到语音信息之后,可以将语音信息拆分成至少一个关键词,将至少一个关键词与语料库中的识别语料进行匹配,以确定至少一个关键词中与识别语料对应的目标关键词,再将目标关键词与业务逻辑库进行匹配,确定与目标关键词对应的技能语句,进而根据与目标关键词对应的技能语句确定控制命令,从而实现根据泛化的语音信息,确定精确的控制命令。相较于现有技术,本申请不但可以省去用户按键操作,还可以在用户未完全说出智能设备掌握的语料的情况下,控制智能设备工作。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的应用环境示意图;
图2为本申请实施例提供的语音智能识别方法的流程图;
图3为本申请实施例提供的应用环境示意图;
图4为本申请实施例提供的语音智能识别方法的流程图;
图5为本申请实施例提供的应用环境示意图;
图6为本申请实施例提供的应用环境示意图;
图7为本申请实施例提供的语音智能识别方法的交互时序图;
图8为本申请实施例提供的语音智能识别装置的框图;
图9为本申请实施例提供的语音智能识别装置的框图;
图10为本申请实施例提供的智能设备的框图;
图11为本申请实施例的语音智能识别方法的应用程序的存储器。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
基于背景技术提出的问题,相关技术将语音识别功能应用到智能设备中,拉近用户与智能设备之间的“距离”,用户可以更加直接、便捷地控制智能设备。
目前,厂商往往采用深度学习算法,对智能设备进行训练,使智能设备掌握固定的语料,用户需严格按照智能设备掌握的语料说出控制命令。然而,部分控制智能设备的语料过长、不够口语,导致用户很难精确命中,进而控制智能设备,影响用户体验。
发明人经过研究后提出以下方案,既可省去用户按键操作,还可以在用户未完全说出智能设备掌握的语料的情况下,控制智能设备。
智能设备可以是智能手机、平板电脑、电子书、智能控制面板等。智能家居设备可以包括智能电视、智能窗帘、智能音箱、智能冰箱、智能电饭煲等。
如图1所示,服务器20可以通过智能设备10接收语音信息,并对语音信息进行处理,确定出与语音信息对应的控制命令,进而根据控制命令控制智能设备10执行相应的操作。其中,服务器20可以是传统服务器或云服务器等。
在本申请实施例中,可以将语料库预存储在智能设备10或服务器20中,语料库包括至少一个识别语料。服务器20接收到语音信息后,可以直接调用预存储的语料库,确定语音信息中与识别语料对应的关键词,该关键词作为目标关键词。
语料库可以是智能家居语料库,智能家居语料库中的识别语料可以包括智能家居设备的名称、智能家居设备的功能、以及智能家居设备的功能状态中的至少一种。
以智能家居设备为智能电视,用户当前的需求为看电视为例,智能家居设备的名称可以是“智能电视”,智能家居设备的功能可以是“开关”,智能家居设备的功能状态可以是“打开”。当然,智能家居语料库中的识别语料,也可以包括智能电视的其他功能以及功能状态;智能家居语料库中的识别语料,也可以包括其他智能家居所对应的名称、功能、以及功能状态。
在本申请实施例中,可以将业务逻辑库预存储在智能设备10或服务器20中,业务逻辑库包括至少一个技能语句。服务器20通过语料库确定与语音信息对应的目标关键词后,可以直接调用预存储的业务逻辑库,确定与目标关键词对应的技能语句。
业务逻辑库可以是智能家居业务逻辑库,智能家居业务逻辑库中的技能语句可以包括智能家居设备的名称、智能家居设备的功能、以及智能家居设备的功能状态,所能组成的所有语句。
以智能家居设备为智能电视,技能语句对应的操作为“打开智能电视”为例,智能家居业务逻辑库的技能语句可以包括“智能电视”、“开关”、“打开”所组成的技能语句,例如,该技能语句可以是“打开智能电视的开关”、“请把智能电视的开关打开”、“把智能电视的开关打开”等。
下面将结合附图对本申请的实施例进行详细的说明。
如图2所示,本申请实施例提供了一种语音智能识别方法,可应用于服务器20,本实施例描述的是服务器侧的步骤流程,该方法可以包括:
S110、接收语音信息。
如图3所示,智能设备10在处于离线状态以及唤醒状态下,用户所说的话可以通过智能设备10发送到服务器20。
示例的,智能设备10为可以智能控制面板,服务器20接收语音信息之前,智能控制面板可以处于离线状态,用户可以说“小欧管家”,并作为语音信息通过智能控制面板发送到服务器20。
服务器20接收语音信息之前,智能控制面板也可以处于唤醒状态,用户可以说“把音箱打开”,并作为语音信息通过智能控制面板发送到服务器20。
S120、将语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与所述识别语料对应的所述关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料。
服务器20接收到语音信息之后,可以对语音信息进行解析,以将语音信息转换为计算机可识别的语言。服务器20识别解析后的语音信息后,可以将用户说的一句完整的话拆分成至少一个关键词,并将至少一个关键词与语料库中的识别语料进行匹配,其中,至少一个关键词中与识别语料对应的关键词可以作为语音信息中的目标关键词。
示例的,服务器20接收的语音信息为“打开音箱”,可以将“打开音箱”拆分成“把”、“音箱”以及“打开”,并分别将“把”、“音箱”以及“打开”与语料库中的识别语料进行匹配。若语料库中的识别语料包括“打开”以及“智能音箱”,则关键词“打开”与识别语料“打开”匹配,关键词“音箱”与识别语料“智能音箱”匹配,语音信息中的“音箱”以及“打开”可以作为目标关键字。
在一些实施例中,在用户说的一句完整的话拆分成多个关键词的情况下,多个关键词可以全部与语料库匹配,并作为目标关键词;或者,多个关键词中的部分关键词与语料库匹配,多个关键词中与语料库匹配的部分关键词可以作为目标关键词。
在一些实施例中,用户说的话可以包括关键词以及非关键词,非关键词在关键词之前和/或之后,在将用户说的话对应的语音信息与语料库进行匹配时,服务器20可以根据语料库中的识别语料,确定语音信息中的哪些词为关键词、哪些词为非关键词,即,服务器20根据识别语料,确定目标关键词的同时,也允许语音信息中包括至少一个非关键词。
非关键词可以位于关键词之前和/或之后,以语料库为智能家居语料库为例,非关键词可以在智能家居设备的名称之前,和/或,智能家居设备的名称之后,和/或,智能家居设备的功能之前,和/或,智能家居设备的功能之后,和/或,智能家居设备的功能状态之前,和/或,智能家居设备的功能状态之后。
非关键词例如可以是主语、动词、助词等,本申请实施例对此不作特殊限定。主语例如可以是“我”,动词例如可以是“帮”,助词例如可以是“吧、啊、呀”。
示例的,用户的需求为“打开智能电视”,用户可以说“请帮我打开智能电视的开关吧”,则目标关键词可以是“打开”、“智能电视”、“开关”,在“打开”之前,语音信息还包括非关键词“请帮我”;在“智能电视”与“开关”之间,语音信息还包括非关键词“的”;在“开关”之后,语音信息还包括非关键词“吧”。
在一些实施例中,关键词之前或之后的非关键词的字数可以小于预设字数,避免语音信息过长,影响语音识别的效果。本申请不对预设字数进行限定,例如可以为3~7个字数,可选的,预设字数为5。在一些实施例中,不对解析语音信息的方式进行限定,只要解析后的语音信息可以被服务器20识别即可。
示例的,可以利用自然语言处理(Natural Language Understanding,简称NLU)技术,通过使语音信息与计算机进行通信,以使服务器可以识别语音信息;或者,可以利用动态时间归整(Dynamic Time Warping,简称DTW)算法,根据语音信息的声学特征向量,识别语音信息对应的文本信息。当然,还可以利用其他技术解析语音信息,本申请实施例对此不作特殊限定。
其中,若采用DTW技术等将语音信息转换为文本信息的技术解析语音信息,则将语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料的步骤可以包括:
S121、将语音信息转换为文本信息。
可以采用DTW技术等将语音信息转换为文本信息。
S122、对文本信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料。
S130、将目标关键词与业务逻辑库进行匹配,确定与业务逻辑库匹配的技能语句,业务逻辑库包括至少一个技能语句。
根据步骤S120确定目标关键词之后,可以将目标关键词与业务逻辑库进行匹配,以确定与目标关键词对应的技能语句。
示例的,目标关键词为“音箱”以及“打开”,业务逻辑库中的技能语句包括“打开智能音箱”,这样一来,可以确定与“音箱”以及“打开”匹配的技能语句为“打开智能音箱”。
在一些实施例中,在语音信息具有多个目标关键词的情况下,目标关键词在语音信息中的顺序,与目标关键词在技能语句中的顺序可以相同,也可以不相同。
示例的,用户说“把音箱打开”,其中,“音箱”以及“打开”为目标关键词,在语音信息中,“音箱”以及“打开”的顺序为:先“音箱”后“打开”;而与目标关键词匹配的技能语句为“打开智能音箱”,在技能语句中,“智能音箱”以及“打开”的顺序为:先“打开”后“智能音箱”。
或者,用户说“请打开音箱”,其中,“音箱”以及“打开”为目标关键词,在语音信息中,“音箱”以及“打开”的顺序为:先“打开”后“音箱”;而与目标关键词匹配的技能语句为“打开智能音箱”,在技能语句中,“智能音箱”以及“打开”的顺序也为:先“打开”后“智能音箱”。S140、根据与目标关键词匹配的技能语句,确定与语音信息对应的控制命令。
根据步骤S130确定技能语句之后,可以根据与目标关键词对应的技能语句确定与语音信息对应的控制命令。
在一些实施例中,在根据与目标关键词匹配的技能语句确定控制命令时,可以先根据与目标关键词匹配的技能语句,触发技能业务逻辑;之后,根据技能业务逻辑,确定与语音信息对应的控制命令。
本申请实施例提供一种语音智能识别方法,服务器20在接收到语音信息之后,可以将语音信息拆分成至少一个关键词,将至少一个关键词与语料库中的识别语料进行匹配,以确定至少一个关键词中与识别语料对应的目标关键词,再将目标关键词与业务逻辑库进行匹配,确定与目标关键词对应的技能语句,进而根据与目标关键词对应的技能语句确定控制命令,从而实现根据泛化的语音信息,确定精确的控制命令。相较于现有技术,本申请不但可以省去用户按键操作,还可以在用户未完全说出智能设备10掌握的语料的情况下,控制智能设备10工作。
如图4所示,本申请实施例提供了一种语音智能识别方法,可应用于服务器20,本实施例描述的是服务器侧的步骤流程,该方法可以包括:
S110、接收语音信息。
S120、将语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料。
S130、将目标关键词与业务逻辑库进行匹配,确定与业务逻辑库匹配的技能语句,业务逻辑库包括至少一个技能语句。
S140、根据与目标关键词匹配的技能语句,确定与语音信息对应的控制命令。
S150、将控制命令发送至智能设备,以使智能设备控制智能家居设备执行控制命令。
如图1所示,服务器20确定与语音信息对应的控制命令后,可以通过无线保真(Wireless-Fidelity,简称WiFi)、蓝牙、Zigbee、热点等通信方式,将控制命令发送至智能设备10,以使智能设备控制智能家居设备执行控制命令。当然,服务器20也可以通过其他通信方式,将控制命令发送给智能设备10,本申请实施例对此不作特殊限定。
如图5所示,以控制命令为“打开智能音箱”为例,若服务器20将控制命令发送至智能控制面板,则智能控制面板接收到控制命令后,进一步控制智能音箱从离线状态转为唤醒状态。也即是服务器20将控制指令发送至智能设备10,智能设备10进一步控制智能家居设备来执行控制命令。
在另一些实施例中,若智能设备10即为智能家居设备,则智能设备10接收到控制命令后,可直接执行对应的操作。
以控制命令为“打开智能音箱”为例,如图6所示,若服务器20将控制命令发送至智能音箱,则智能音箱从离线状态转为唤醒状态。
其中,智能控制面板与智能音箱等智能家居设备之间,也可以通过WiFi蓝牙、Zigbee、热点等通信方式进行交互。
本申请实施例提供一种语音智能识别方法,服务器20在接收到语音信息之后,可以将语音信息拆分成至少一个关键词,将至少一个关键词与语料库中的识别语料进行匹配,以确定至少一个关键词中与识别语料对应的目标关键词,再将目标关键词与业务逻辑库进行匹配,确定与目标关键词对应的技能语句,进而根据与目标关键词对应的技能语句确定控制命令,并将控制命令发送至智能设备10,从而实现根据泛化的语音信息,确定精确的控制命令,使智能设备10控制智能家居设备执行相应的操作。相较于现有技术,本申请不但可以省去用户按键操作,还可以在用户未完全说出智能设备10掌握的语料的情况下,控制智能设备10工作。
如图7所示,本申请另一实施例提供了一种设备配网处理方法,可应用于智能设备10以及服务器12之间的交互,本实施例描述的是智能设备10以及服务器12之间的交互流程,该方法可以包括:
S210、服务器接收语音信息。
如图3所示,智能设备10在处于离线状态以及唤醒状态下,用户所说的话可以通过智能设备10发送到服务器20。
S220、服务器将语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料。
服务器20接收到语音信息之后,可以对语音信息进行解析,以将语音信息转换为计算机可识别的语言。服务器20识别解析后的语音信息后,可以将用户说的一句完整的话拆分成至少一个关键词,并将至少一个关键词与语料库中的识别语料进行匹配,其中,至少一个关键词中与识别语料对应的关键词可以作为语音信息中的目标关键词。
S230、服务器将目标关键词与业务逻辑库进行匹配,确定与业务逻辑库匹配的技能语句,业务逻辑库包括至少一个技能语句。
根据步骤S220确定目标关键词之后,可以将目标关键词与业务逻辑库进行匹配,以确定与目标关键词对应的技能语句。
S240、服务器根据技能语句,确定与语音信息对应的控制命令,并将控制命令发送至智能设备。
根据步骤S230确定技能语句之后,可以根据与目标关键词对应的技能语句确定与语音信息对应的控制命令,之后可以通过WiFi蓝牙、Zigbee、热点等通信方式,将控制命令发送至智能设备10。
此外,步骤S210-S240的其他解释说明,与前述实施例步骤S110-S150的解释说明相同,在此不再赘述。
S250、智能设备接收控制命令,并控制智能家居设备执行控制命令。
智能设备10接收到控制命令后,可以根据控制命令控制智能家居设备执行对应的操作。
示例的,控制命令为“打开音箱”,接收控制命令的智能控制面板接收到“打开音箱”的控制命令后,可以控制智能音箱从离线状态转为唤醒状态。
本申请实施例提供一种语音智能识别方法,服务器20在接收到语音信息之后,可以将语音信息拆分成至少一个关键词,将至少一个关键词与语料库中的识别语料进行匹配,以确定至少一个关键词中与识别语料对应的目标关键词,再将目标关键词与业务逻辑库进行匹配,确定与目标关键词对应的技能语句,进而根据与目标关键词对应的技能语句确定控制命令,并将控制命令发送至智能设备10,从而实现根据泛化的语音信息,确定精确的控制命令,使智能设备10控制智能家居设备执行相应的操作。相较于现有技术,本申请不但可以省去用户按键操作,还可以在用户未完全说出智能设备10掌握的语料的情况下,控制智能设备10工作。
如图8所示,其示出了本申请另一实施例提供的一种语音智能识别装置100的结构框图,语音智能识别装置100可以包括接收模块101以及处理模块102。
接收模块101,用于接收智能设备10发送的语音信息.
处理模块102,用于将语音信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料。
处理模块102,还用于将目标关键词与业务逻辑库进行匹配,确定与目标关键词匹配的技能语句,业务逻辑库包括至少一个技能语句。
处理模块102,还用于根据与目标关键词匹配的技能语句,确定与语音信息对应的控制命令。
在此基础上,处理模块102还用于对语音信息进行解析,以将语音信息转换为计算机可识别的语言;将解析后的语音信息与语料库进行匹配,确定与语料库的至少一个识别语料对应的目标关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料。
处理模块102还用于将语音信息转换为文本信息;对文本信息与语料库进行匹配,确定与语料库中的至少一个识别语料对应的关键词,将与识别语料对应的关键词作为语音信息中的目标关键词,语料库中包括至少一个识别语料。
其中,语料库可以为智能家居设备语料库,目标关键词包括所述智能家居设备的名称、智能家居设备的功能、以及智能家居设备的功能状态中的至少一个。
在此基础上,如图9所示,语音智能识别装置100还可以包括发送模块103。发送模块103用于在根据与目标关键词匹配的技能语句,确定与语音信息对应的控制命令之后,将控制命令发送至智能设备10,以使智能设备10控制智能家居设备执行控制命令。
本申请实施例提供一种语音智能识别装置100,其解释说明以及有益效果,与前述实施例的解释说明以及有益效果相同,在此不再赘述。
如图10所示,其示出了本申请另一实施例提供的一种智能设备10的结构框图,该智能设备10包括:一个或多个处理器11;存储器12;以及一个或多个应用程序13,其中一个或多个应用程序13被存储在存储器中并被配置为由一个或多个处理器11执行,一个或多个应用程序13配置用于执行前述实施例所述的方法。
处理器11可以包括一个或者多个处理核。处理器11利用各种接口和线路连接整个智能设备10内的各个部分,通过运行或执行存储在存储器12内的指令、程序、代码集或指令集,以及调用存储在存储器12内的数据,执行智能设备10的各种功能和处理数据。可选地,处理器11可以采用数字信号处理(Digital Signal Processing,简称DSP)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)、可编程逻辑阵列(ProgrammableLogic Array,简称PLA)中的至少一种硬件形式来实现。处理器11可集成中央处理器(Central Processing Unit,简称CPU)、图像处理器(Graphics Processing Unit,简称GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器11中,单独通过一块通信芯片进行实现。
存储器12可以包括随机存储器(Random Access Memory,简称RAM),也可以包括只读存储器(Read-Only Memory,简称ROM)。存储器12可用于存储指令、程序、代码、代码集或指令集。存储器12可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储智能设备10在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
如图11所示,其示出了本申请另一实施例提供的一种计算机可读存储介质200的结构框图。该计算机可读存储介质200中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质200可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选的,计算机可读存储介质200包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。
计算机可读存储介质200具有执行上述方法中的任何方法步骤的应用程序13的存储空间。这些应用程序13可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。应用程序13可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语音智能识别方法,其特征在于,所述方法包括:
接收语音信息;
将所述语音信息与语料库进行匹配,确定与所述语料库中的至少一个识别语料对应的关键词,将与所述识别语料对应的所述关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料;
将所述目标关键词与业务逻辑库进行匹配,确定与所述目标关键词匹配的技能语句,所述业务逻辑库包括至少一个技能语句;
根据与所述目标关键词匹配的所述技能语句,确定与所述语音信息对应的控制命令。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信息与语料库进行匹配,确定与所述语料库中的至少一个识别语料对应的目标关键词,将与所述识别语料对应的所述关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料的步骤,具体包括:
对所述语音信息进行解析,以将所述语音信息转换为计算机可识别的语言;
将解析后的所述语音信息与所述语料库进行匹配,确定与所述语料库的至少一个识别语料对应的目标关键词,将与所述识别语料对应的关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料。
3.根据权利要求1所述的方法,其特征在于,所述将所述语音信息与所述语料库进行匹配,确定与所述语料库中的至少一个识别语料对应的关键词,将与所述识别语料对应的所述关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料的步骤,具体包括:
将所述语音信息转换为文本信息;
对所述文本信息与所述语料库进行匹配,确定与所述语料库中的至少一个识别语料对应的关键词,将与所述识别语料对应的所述关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据与所述目标关键词匹配的技能语句,确定与所述语音信息对应的控制命令之后,所述方法还包括:
将所述控制命令发送至智能设备,以使所述智能设备控制智能家居设备执行所述控制命令。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述语料库为智能家居设备语料库。
6.根据权利要求5所述的方法,其特征在于,所述目标关键词包括所述智能家居设备的名称、所述智能家居设备的功能、以及所述智能家居设备的功能状态中的至少一个。
7.一种语音智能识别方法,其特征在于,包括:
服务器接收语音信息;
所述服务器将所述语音信息与语料库进行匹配,确定与所述语料库中的至少一个识别语料对应的关键词,将所述关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料;
所述服务器将所述目标关键词与业务逻辑库进行匹配,确定与所述业务逻辑库匹配的技能语句,所述业务逻辑库包括至少一个技能语句;
所述服务器根据所述技能语句,确定与所述语音信息对应的控制命令,并将所述控制命令发送至智能设备;
所述智能设备接收所述控制命令,并控制智能家居设备执行所述控制命令。
8.一种语音智能识别装置,其特征在于,包括:
接收模块,用于接收智能设备发送的语音信息;
处理模块,用于将所述语音信息与语料库进行匹配,确定与所述语料库中的至少一个识别语料对应的关键词,将与所述识别语料对应的所述关键词作为语音信息中的目标关键词,所述语料库中包括至少一个识别语料;
所述处理模块,还用于将所述目标关键词与业务逻辑库进行匹配,确定与所述目标关键词匹配的技能语句,所述业务逻辑库包括至少一个技能语句;
所述处理模块,还用于根据与所述目标关键词匹配的所述技能语句,确定与所述语音信息对应的控制命令。
9.一种智能设备,其特征在于,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行权利要求1-6任一项或权利要求7所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-6任一项或权利要求7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011411651.1A CN112562670A (zh) | 2020-12-03 | 2020-12-03 | 语音智能识别方法、语音智能识别装置及智能设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011411651.1A CN112562670A (zh) | 2020-12-03 | 2020-12-03 | 语音智能识别方法、语音智能识别装置及智能设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562670A true CN112562670A (zh) | 2021-03-26 |
Family
ID=75048768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011411651.1A Pending CN112562670A (zh) | 2020-12-03 | 2020-12-03 | 语音智能识别方法、语音智能识别装置及智能设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562670A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611306A (zh) * | 2021-09-07 | 2021-11-05 | 云知声(上海)智能科技有限公司 | 基于用户习惯的智能家居语音控制方法、***及存储介质 |
CN114049877A (zh) * | 2021-11-04 | 2022-02-15 | 北京奇天大胜网络科技有限公司 | 一种基于物联网的语音数字人电视信息交互方法及*** |
CN114911381A (zh) * | 2022-04-15 | 2022-08-16 | 青岛海尔科技有限公司 | 交互的反馈方法和装置、存储介质及电子装置 |
CN115421396A (zh) * | 2022-09-29 | 2022-12-02 | 深圳康佳电子科技有限公司 | 一种智能家居设备控制方法和装置、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305626A (zh) * | 2018-01-31 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 应用程序的语音控制方法和装置 |
CN110286601A (zh) * | 2019-07-01 | 2019-09-27 | 珠海格力电器股份有限公司 | 控制智能家居设备的方法、装置、控制设备及存储介质 |
CN110942773A (zh) * | 2019-12-10 | 2020-03-31 | 上海雷盎云智能技术有限公司 | 语音控制智能家居设备的方法及装置 |
WO2020135067A1 (zh) * | 2018-12-24 | 2020-07-02 | 同方威视技术股份有限公司 | 语音交互方法、装置、机器人及计算机可读存储介质 |
CN111599362A (zh) * | 2020-05-20 | 2020-08-28 | 湖南华诺科技有限公司 | 一种自定义智能音箱技能的***、方法及存储介质 |
-
2020
- 2020-12-03 CN CN202011411651.1A patent/CN112562670A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305626A (zh) * | 2018-01-31 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 应用程序的语音控制方法和装置 |
WO2020135067A1 (zh) * | 2018-12-24 | 2020-07-02 | 同方威视技术股份有限公司 | 语音交互方法、装置、机器人及计算机可读存储介质 |
CN110286601A (zh) * | 2019-07-01 | 2019-09-27 | 珠海格力电器股份有限公司 | 控制智能家居设备的方法、装置、控制设备及存储介质 |
CN110942773A (zh) * | 2019-12-10 | 2020-03-31 | 上海雷盎云智能技术有限公司 | 语音控制智能家居设备的方法及装置 |
CN111599362A (zh) * | 2020-05-20 | 2020-08-28 | 湖南华诺科技有限公司 | 一种自定义智能音箱技能的***、方法及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611306A (zh) * | 2021-09-07 | 2021-11-05 | 云知声(上海)智能科技有限公司 | 基于用户习惯的智能家居语音控制方法、***及存储介质 |
CN114049877A (zh) * | 2021-11-04 | 2022-02-15 | 北京奇天大胜网络科技有限公司 | 一种基于物联网的语音数字人电视信息交互方法及*** |
CN114911381A (zh) * | 2022-04-15 | 2022-08-16 | 青岛海尔科技有限公司 | 交互的反馈方法和装置、存储介质及电子装置 |
CN115421396A (zh) * | 2022-09-29 | 2022-12-02 | 深圳康佳电子科技有限公司 | 一种智能家居设备控制方法和装置、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11302302B2 (en) | Method, apparatus, device and storage medium for switching voice role | |
US10803869B2 (en) | Voice enablement and disablement of speech processing functionality | |
CN112562670A (zh) | 语音智能识别方法、语音智能识别装置及智能设备 | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
US20160293168A1 (en) | Method of setting personal wake-up word by text for voice control | |
JP5119055B2 (ja) | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム | |
TWI535258B (zh) | 語音接聽方法與行動終端裝置 | |
KR102411619B1 (ko) | 전자 장치 및 그 제어 방법 | |
JP2017107078A (ja) | 音声対話方法、音声対話装置及び音声対話プログラム | |
JP2014191030A (ja) | 音声認識端末およびコンピュータ端末を用いる音声認識方法 | |
CN108882101B (zh) | 一种智能音箱的播放控制方法、装置、设备及存储介质 | |
CN107844470B (zh) | 一种语音数据处理方法及其设备 | |
US10540973B2 (en) | Electronic device for performing operation corresponding to voice input | |
CN112420044A (zh) | 语音识别方法、语音识别装置及电子设备 | |
CN113674742B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
KR20200057501A (ko) | 전자 장치 및 그의 와이파이 연결 방법 | |
CN113643684A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN110473524B (zh) | 语音识别***的构建方法和装置 | |
CN112787899B (zh) | 设备语音交互方法、计算机可读存储介质以及冰箱 | |
CN112002325B (zh) | 多语种语音交互方法和装置 | |
CN114822598A (zh) | 服务器及语音情感识别方法 | |
CN114299941A (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
WO2011121884A1 (ja) | 外国語会話支援装置、そのコンピュータプログラムおよびデータ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |