CN103678404A - 一种关键词识别方法及电子设备 - Google Patents
一种关键词识别方法及电子设备 Download PDFInfo
- Publication number
- CN103678404A CN103678404A CN201210357210.7A CN201210357210A CN103678404A CN 103678404 A CN103678404 A CN 103678404A CN 201210357210 A CN201210357210 A CN 201210357210A CN 103678404 A CN103678404 A CN 103678404A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- user
- current
- information
- candidate keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008921 facial expression Effects 0.000 claims description 81
- 239000000284 extract Substances 0.000 claims description 19
- 230000008878 coupling Effects 0.000 claims description 16
- 238000010168 coupling process Methods 0.000 claims description 16
- 238000005859 coupling reaction Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 235000009508 confectionery Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000014860 sensory perception of taste Effects 0.000 description 4
- 206010042772 syncope Diseases 0.000 description 4
- 241001137251 Corvidae Species 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 235000019658 bitter taste Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种关键词识别方法及电子设备,其中方法包括:获取用户的发音场景图像;确定所述发音场景图像中的发音场景信息;将所述发音场景信息与候选关键词进行匹配,当存在与所述发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,当不存在与所述发音场景信息相匹配的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。本发明避免了通过上下文语义对关键词进行识别而存在的限制,提高了关键词识别的正确率。
Description
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及一种关键词识别方法及电子设备。
背景技术
随着语音识别技术的发展,越来越多的电子设备,如智能手机、个人计算机和掌上电脑等均具备了语音输入的功能,借助于语音识别技术,这些电子设备能够识别和理解用户输入的语音,将语音信号转变为相应的文本或命令,使得信息的输入更为简便。
语音识别中关键词的识别尤为重要,如果关键词识别错误,那么用户输入的语音的语义将发生重大的改变,使得语音识别出错。由于近似音或用户发音不标准等问题,对于用户输入的一个关键词语音,电子设备可能会识别出多个候选关键词,此时就需要对该多个候选关键词进行进一步的识别,从中确定出最终输出的关键词;如当用户输入的语音为“tai gu”对应的语音信号时,电子设备确认该语音信号为关键词语音信号后,由于近似音或用户发音不标准的问题,电子设备对于该语音信号可能存在识别出“太苦”、“泰谷”这两个候选关键词的情况,此时就需要对这两个候选关键词进行进一步的识别,在“泰谷”和“太苦”间确定最终输出的关键词。
现有技术中,当一个关键词语音识别出多个候选关键词时,电子设备一般通过用户输入的语音的上下文语义对该多个候选关键词进行进一步的识别,从而确定出候选关键词的优先级,将优先级最高的候选关键词确定为最终输出的关键词,这种关键词的识别方式虽然在一定程度上能够增强关键词识别的正确率;但很多情况下,如用户输入的语音过于简短或用户输入的语音只为关键词语音时,这种通过上下文语义对关键词进行识别的方式就会存在限制,无法正确的对关键词进行识别,影响关键词识别的正确率。
发明内容
有鉴于此,本发明实施例提供一种关键词识别方法及电子设备,以避免通过上下文语义对关键词进行识别而存在的限制,提高关键词识别的正确率。
为实现上述目的,本发明实施例提供如下技术方案:
一种关键词识别方法,包括:
获取用户的发音场景图像;
确定所述发音场景图像中的发音场景信息;
将所述发音场景信息与候选关键词进行匹配,当存在与所述发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,当不存在与所述发音场景信息相匹配的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
可选的,所述发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息。
可选的,当所述发音场景信息为用户当前的面部表情信息时,所述确定所述发音场景图像中的发音场景信息包括:
根据人脸识别技术从所述发音场景图像中提取出用户的人脸,从所述人脸中提取出用户当前的表情特征,确定与所述表情特征对应的用户当前的面部表情信息。
可选的,所述确定与所述表情特征对应的用户当前的面部表情信息包括:
在预置的表情词库中查找所述表情特征所对应的字词,确定所述字词为用户当前的面部表情信息,所述预置的表情词库存储有表情特征与表达表情特征所代表的含义的字词的对应关系。
可选的,当发音场景信息为用户当前的面部表情信息时,所述将所述发音场景信息与候选关键词进行匹配包括:
将用户当前的面部表情信息与候选关键词进行匹配,判断是否存在与用户当前的面部表情信息相对应的候选关键词;
若是,则存在与用户当前的面部表情信息相匹配的候选关键词,若否,则不存在与用户当前的面部表情信息相匹配的候选关键词。
可选的,当所述发音场景信息为用户当前的发音背景信息时,所述确定所述发音场景图像中的发音场景信息包括:
从所述发音场景图像中提取出场景特征,确定与所述场景特征对应的用户当前的发音背景信息。
可选的,当发音场景信息为用户当前的发音背景信息时,所述将所述发音场景信息与候选关键词进行匹配包括:
按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词;
若是,则存在与用户当前的发音背景信息相匹配的候选关键词,若否,则不存在与用户当前的发音背景信息相匹配的候选关键词。
本发明实施例还提供一种电子设备,包括:图像获取模块,发音场景信息确定模块和匹配确定模块;
所述图像获取模块,用于获取用户的发音场景图像,将所述发音场景图像发送给所述发音场景信息确定模块;
所述发音场景信息确定模块,用于接收所述发音场景图像,确定所述发音场景图像中的发音场景信息,将所述发音场景信息发送给所述匹配确定模块;
所述匹配确定模块,用于接收所述发音场景信息,将所述发音场景信息与候选关键词进行匹配,当存在与所述发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,当不存在与所述发音场景信息相匹配的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
可选的,所述发音场景信息确定模块包括:
面部表情信息确定单元,用于根据人脸识别技术从所述发音场景图像中提取出用户的人脸,从所述人脸中提取出用户当前的表情特征,确定与所述表情特征对应的用户当前的面部表情信息;
所述匹配确定模块包括:
第一匹配单元,用于将用户当前的面部表情信息与候选关键词进行匹配,判断是否存在与用户当前的面部表情信息相对应的候选关键词,若是,则存在与用户当前的面部表情信息相匹配的候选关键词,若否,则不存在与用户当前的面部表情信息相匹配的候选关键词;
第一确定单元,用于在所述第一匹配单元判断存在与用户当前的面部表情信息对应的候选关键词时,将与用户当前的面部表情信息对应的候选关键词确定为最终输出的关键词,在所述第一匹配单元判断不存在与用户当前的面部表情信息对应的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
可选的,所述发音场景信息确定模块包括:
发音背景信息确定单元,用于从所述发音场景图像中提取出当前的场景特征,确定与所述场景特征对应的用户当前的发音背景信息;
所述匹配确定模块包括:
第二匹配单元,用于按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词,若是,则存在与用户当前的发音背景信息相匹配的候选关键词,若否,则不存在与用户当前的发音背景信息相匹配的候选关键词;
第二确定单元,用于在所述第二匹配单元判断存在与用户当前的发音背景信息相对应的候选关键词时,将与用户当前的发音背景信息相对应的候选关键词确定为最终输出的关键词,在所述第二匹配单元判断不存在与用户当前的发音背景信息相对应的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
基于上述技术方案,本发明实施例提供的关键词识别方法,在关键词识别中考虑了发音场景信息的因素,通过将发音场景信息与候选关键词进行匹配,当存在与用户当前发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,这样就避免了通过上下文语义对关键词进行识别而存在的限制,提高了关键词识别的正确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的关键词识别方法的流程图;
图2为本发明实施例提供的关键词识别方法的另一流程图;
图3为本发明实施例提供的关键词识别方法的又一流程图;
图4为本发明实施例提供的一种电子设备的结构框图;
图5为本发明实施例提供的一种电子设备的另一结构框图;
图6为本发明实施例提供的面部表情信息确定单元的结构框图;
图7为本发明实施例提供的一种电子设备的又一结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的关键词识别方法的流程图,参照图1,该方法可以包括:
步骤S100、获取用户的发音场景图像;
当语音识别的过程中出现多个候选关键词时,可启用本发明实施例提供的方法,执行步骤S100“获取用户的发音场景图像”的操作;也可设定每次语音识别过程中,均启用本发明实施例提供的方法,执行步骤S100“获取用户的发音场景图像”的操作;也可设定语音识别中启用本发明实施例提供的方法的预定条件,在达到预定条件时,执行步骤S100“获取用户的发音场景图像”的操作;
用户的发音场景图像是指用户在发音时刻的场景图像,包括用户的自身图像及用户的背景图像。
步骤S110、确定所述发音场景图像中的发音场景信息;
其中,发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息,由于发音场景图像包括了用户的自身图像及用户的背景图像,因此通过用户的自身图像即可确定用户当前的面部表情信息,如喜、怒、哀、乐、难过,伤心等信息,通过用户的背景图像即可确定用户当前的发音背景信息,如用户所处的超市、广场、健身房等场所信息。
步骤S120、将所述发音场景信息与候选关键词进行匹配,当存在与所述发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,当不存在与所述发音场景信息相匹配的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
在确定了发音场景信息后,可将语音识别过程中出现的候选关键词与发音场景信息进行匹配,具体的,当发音场景信息为用户当前的面部表情信息时,可将候选关键词与用户当前的面部表情信息进行匹配,判断是否存在与用户当前的面部表情信息相对应的候选关键词,若存在与用户当前的面部表情信息相对应的候选关键词,则表明存在与用户当前的面部表情信息相匹配的候选关键词;当发音场景信息为用户当前的发音背景信息时,可将候选关键词与用户当前的发音背景信息进行匹配,判断是否存在与用户当前的发音背景信息相对应的候选关键词,若存在与用户当前的发音背景信息相对应的候选关键词,则表明存在与用户当前的发音背景信息相匹配的候选关键词。
本发明实施例提供的关键词识别方法,在关键词识别中考虑了发音场景信息的因素,通过将发音场景信息与候选关键词进行匹配,当存在与用户当前发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,这样就避免了通过上下文语义对关键词进行识别而存在的限制,提高了关键词识别的正确率。
图2为本发明实施例提供的关键词识别方法的另一流程图,结合图1和图2所示,该方法可以包括:
步骤S200、获取用户的发音场景图像;
步骤S210、根据人脸识别技术从所述发音场景图像中提取出用户的人脸,从所述人脸中提取出用户当前的表情特征,确定与所述表情特征对应的用户当前的面部表情信息;
相比图1所示步骤S110,步骤S210为发音场景信息为用户当前的面部表情信息时,步骤S110的一种可选实现方式;
确定出的表情特征可为“嘴角上扬”、“嘴角下撇”,“脸部抽搐”等脸部器官的动作特征,在确定出表情特征后即可确定各个表情特征所代表的含义,从而确定用户当前的面部表情信息,用户当前的面部表情信息可以为能够表达表情特征所代表的含义的字词,表情特征可以是由用户的触觉、味觉、心里感受等反应出来的信息,因此本发明实施例中,表情特征所代表的含义可以指由用户的脸部器官的动作而反映的用户的触觉感受、味觉感受、心里感受等,一个表情特征可以既表示触觉感受、味觉感受又可以表示心里感受,如“嘴角上扬”的表情特征代表的含义为“高兴”、“甜”、“快乐”、“得意”等字词,则“嘴角上扬”的表情特征所对应的面部表情信息可以为“高兴”、“乐”、“甜”、“得意”等字词,本发明实施例中,具体的表情特征与表情特征所代表的用户的触觉感受、味觉感受、心里感受等的对应关系,可按照实际需要进行设定。
其中,确定与所述表情特征对应的用户当前的面部表情信息的一种可选方式为:预先设置表情词库,在表情词库中存储各个表情特征,与表达各个表情特征所代表的含义的字词的对应关系,如“嘴角上扬”的表情特征所代表的含义为“高兴”,“甜”、“快乐”、“得意”等,则可在表情词库中存储“嘴角上扬”与“高兴”、“甜”、“快乐”、“得意”等的对应关系,在表情词库中查找与用户当前的表情特征所对应的字词,确定所述字词为用户当前的面部表情信息;
另一种确定与用户当前的表情特征对应的用户当前的面部表情信息的可选方式为:建立表情训练模型,对电子设备进行机器训练,使得电子设备能够解析出各个表情特征所代表的含义,通过机器训练确定能够表达各个表情特征所代表的含义的字词,将该字词确定为用户当前的面部表情信息。
步骤S220、将用户当前的面部表情信息与候选关键词进行匹配,判断是否存在与用户当前的面部表情信息相对应的候选关键词;若是,执行步骤S230,若否,执行步骤S240;
相比图1所示步骤S120,步骤S220为当发音场景信息为用户当前的面部表情信息时,步骤S120中将所述发音场景信息与候选关键词进行匹配的一种可选实现方式;
在将表达用户当前的表情特征所代表的含义的字词确定为用户当前的面部表情信息后,可将该字词与候选关键词进行匹配,判断候选关键词与该字词是否对应,主要通过字词间的相似度来判断字词与候选关键词是否对应,如当候选关键词为“太苦”和“泰谷”,用户的表情特征为“嘴角上厥”的苦涩的表情时,则对应的当前的面部表情信息为“苦”、“难过”、“痛苦”、“疼痛”等字词,则可将这些字词分别与“太苦”和“泰谷”进行匹配,从而确定与“苦”对应的“太苦”;如果存在与用户当前的面部表情信息相对应的候选关键词,则说明存在与用户当前的面部表情信息相匹配的候选关键词,执行步骤S230,否则,说明不存在与用户当前的面部表情信息相匹配的候选关键词,执行步骤S240。
步骤S230、将与用户当前的面部表情信息相对应的候选关键词确定为最终输出的关键词;
步骤S240、将优先级最高的候选关键词确定为最终输出的关键词。
本发明实施例在关键词识别中考虑了用户当前的面部表情信息的因素,通过将用户当前的面部表情信息与候选关键词进行匹配,当存在与用户当前的面部表情信息相对应的候选关键词,将与用户当前的面部表情信息相对应的候选关键词确定为最终输出的关键词,避免了通过上下文语义对关键词进行识别而存在的限制,提高了关键词识别的正确率。
为了更好的说明图2所示方法,现以用户输入的语音为“tai gu”对应的语音信号,且电子设备对该语音信号存在“太苦”和“泰谷”这两个候选关键词的情况为例,对图2所示方法进行说明。
当电子设备存在“太苦”和“泰谷”这两个候选关键词时,电子设备开启前置摄像头或后置摄像头拍摄用户发音场景图像,电子设备根据人脸识别技术从发音场景图像中提取出用户的人脸,从人脸中提取出用户当前的表情特征,在表情词库中查找用户当前的表情特征所对应的字词,若用户当前的表情特征为“嘴角上厥”等苦涩的表情时,则可在表情词库中查找到用户当前的表情特征所对应的字词为“苦”、“难过”、“痛苦”、“疼痛”等与“嘴角上厥”相对应的字词,将“苦”、“难过”、“痛苦”、“疼痛”等字词与“太苦”和“泰谷”这两个候选关键词进行匹配,通过字词的形似比对,确定与“苦”对应的“太苦”为最终输出的关键词;若用户当前没有表情特征或表情特征不为嘴角上厥等苦涩的表情时,则“太苦”和“泰谷”与用户当前的面部表情信息均不对应,将“太苦”和“泰谷”中优先级最高的候选关键词确定为最终输出的关键词。
图3为本发明实施例提供的关键词方法的又一流程图,结合图1和图3所示,该方法可以包括:
步骤S300、获取用户的发音场景图像;
步骤S310、从所述发音场景图像中提取出当前的场景特征,确定与所述场景特征对应的用户当前的发音背景信息;
相比图1所示步骤S110,步骤S310为发音场景信息为用户当前的发音背景信息时,步骤S110的一种可选实现方式;
场景特征为发音场景图像中标识用户当前所处背景的信息,如用户处在商店中,则发音场景图像中的商店招牌、货架等这些可以标识用户当前处于商店这一背景的信息,均可认为是场景特征;如用户处于广场中,广场上的标志性建筑等可以标识用户当前处于广场中,则广场上的标志性建筑可认为是场景特征。在提取出当前的场景特征后,则可通过预置的场景特征与发音背景信息的对应关系确定用户当前的发音背景信息,可选的,可设置数据库预存场景特征与发音背景信息的对应关系,在确定当前的场景特征后,通过查找数据库确定用户当前的发音背景信息;其中,用户当前的发音背景信息可以为用户当前所处的背景,如商店、广场场所等。
步骤S320、按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词,若是,执行步骤S330,若否,执行步骤S340;
相比图1所示步骤S120,步骤S320为当发音场景信息为用户当前的发音背景信息时,步骤S120中将所述发音场景信息与候选关键词进行匹配的一种可选实现方式;
在确定了发音背景信息后,可按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词,如确定的发音背景信息为商店,那么可预置商店中的商品名称、品牌等与商店相关的关键词,与商店的对应关系;将与商店对应的商品名称、品牌等关键词与候选关键词进行匹配,如果存在与商品名称、品牌等关键词对应的候选关键词,则说明存在与用户当前发音背景信息相匹配的候选关键词,执行步骤S330,否则,说明不存在与用户当前发音背景信息相匹配的候选关键词,执行步骤S340,此处可通过字词间的相似度,判断候选关键词与商品名称、品牌等关键词间是否对应,优选的,对应可以表示为字词间的相似度完全一致。
步骤S330、将与用户当前的发音背景信息对应的候选关键词确定为最终输出的关键词;
步骤S340、将优先级最高的候选关键词确定为最终输出的关键词。
本发明实施例在关键词识别中考虑了用户当前的发音背景信息的因素,通过将用户当前的发音背景信息与候选关键词进行匹配,当存在与用户当前的发音背景信息对应的候选关键词时,将与用户当前的发音背景信息对应的候选关键词确定为最终输出的关键词,避免了通过上下文语义对关键词进行识别而存在的限制,提高了关键词识别的正确率。
为了更好的说明图3所示方法,现以用户所处场景为商店,输入的语音为“que chao”对应的语音信号,由于发音不标准或近似音的缘故,电子设备对该语音信号存在“雀巢”和“鹊巢”这两个候选关键词的情况为例,对图3所示方法进行说明。
当电子设备存在“雀巢”和“鹊巢”这两个候选关键词时,电子设备开启前置摄像头或后置摄像头拍摄用户发音场景图像,电子设备从发音场景图像中提取出当前的场景特征,通过当前场景特征与发音背景信息的对应关系,确定用户当前的发音背景信息,由于用户处于商店中,电子设备可从发音场景图像中提取到货架等与商店相关的场景特征,则可通过预置的货架等与商店相关的场景特征与商店的对应关系,确定当前的发音背景信息为商店,在确定了用户当前的发音背景信息后,按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词,由于当前的发音背景信息为商店,则与商店对应的关键词为商品的种类、品牌等与商店这一背景相关的字词,由于“雀巢”和“鹊巢”中,“雀巢”为咖啡品牌,与商店对应,因此确定“雀巢”为最终输出的关键词。
下面对本发明实施例提供的一种电子设备进行介绍,下文所介绍的电子设备与上文描述的关键词识别方法相对应,两者可相互参照。
图4为本发明实施例提供的一种电子设备的结构框图,参照图4,电子设备可以包括:图像获取模块100,发音场景信息确定模块200和匹配确定模块300;其中,图像获取模块100与发音场景信息确定模块200相连,发音场景信息确定模块200与匹配确定模块300相连。
图像获取模块100,用于获取用户的发音场景图像,将所述发音场景图像发送给发音场景信息确定模块200;
发音场景信息确定模块200,用于接收所述发音场景图像,确定所述发音场景图像中的发音场景信息,将所述发音场景信息发送给匹配确定模块300;
匹配确定模块300,用于接收所述发音场景信息,将所述发音场景信息与候选关键词进行匹配,当存在与所述发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,当不存在与所述发音场景信息相匹配的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
本发明实施例所指的发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息。
图5为本发明实施例提供的一种电子设备的另一结构框图,参照图5,发音场景信息确定模块200可以包括:
面部表情信息确定单元210,用于根据人脸识别技术从所述发音场景图像中提取出用户的人脸,从所述人脸中提取出用户当前的表情特征,确定与所述表情特征对应的用户当前的面部表情信息;
匹配确定模块300可以包括:
第一匹配单元310,用于将用户当前的面部表情信息与候选关键词进行匹配,判断是否存在与用户当前的面部表情信息相对应的候选关键词,若是,则存在与用户当前的面部表情信息相匹配的候选关键词,若否,则不存在与用户当前的面部表情信息相匹配的候选关键词;
第一确定单元311,用于在第一匹配单元310判断存在与用户当前的面部表情信息对应的候选关键词时,将与用户当前的面部表情信息对应的候选关键词确定为最终输出的关键词,在第一匹配单元310判断不存在与用户当前的面部表情信息对应的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
其中,面部表情信息确定单元210的结构可如图6所示,包括:
人脸提取子单元211,用于根据人脸识别技术从所述发音场景图像中提取出用户的人脸;
表情特征提取子单元212,用于从所述人脸中提取出用户当前的表情特征;
查找子单元213,用于在预置的表情词库中查找与所述用户当前的表情特征相对应的字词;
确定子单元214,用于将查找子单元213所查找出的字词确定为用户当前的面部表情信息。
图7为本发明实施例提供的一种电子设备的又一结构框图,参照图7,发音场景信息确定模块200可以包括:
发音背景信息确定单元220,用于从所述发音场景图像中提取出当前的场景特征,确定与所述场景特征对应的用户当前的发音背景信息;
匹配确定模块300可以包括:
第二匹配单元320,用于按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词,若是,则存在与用户当前发音背景信息相匹配的候选关键词,若否,则不存在与用户当前发音背景信息相匹配的候选关键词;
第二确定单元321,用于在第二匹配单元320判断存在与用户当前的发音背景信息相对应的候选关键词时,将与用户当前的发音背景信息相对应的候选关键词确定为最终输出的关键词,在第二匹配单元320判断不存在与用户当前的发音背景信息相对应的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
本发明在关键词的识别中考虑了发音场景信息的因素,通过将发音场景信息与候选关键词进行匹配,当存在与用户当前发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,这样就避免了通过上下文语义对关键词进行识别而存在的限制,提高了关键词识别的正确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种关键词识别方法,其特征在于,包括:
获取用户的发音场景图像;
确定所述发音场景图像中的发音场景信息;
将所述发音场景信息与候选关键词进行匹配,当存在与所述发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,当不存在与所述发音场景信息相匹配的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
2.根据权利要求1所述的方法,其特征在于,所述发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息。
3.根据权利要求2所述的方法,其特征在于,当所述发音场景信息为用户当前的面部表情信息时,所述确定所述发音场景图像中的发音场景信息包括:
根据人脸识别技术从所述发音场景图像中提取出用户的人脸,从所述人脸中提取出用户当前的表情特征,确定与所述表情特征对应的用户当前的面部表情信息。
4.根据权利要求3所述的方法,其特征在于,所述确定与所述表情特征对应的用户当前的面部表情信息包括:
在预置的表情词库中查找所述表情特征所对应的字词,确定所述字词为用户当前的面部表情信息,所述预置的表情词库存储有表情特征与表达表情特征所代表的含义的字词的对应关系。
5.根据权利要求2至4任一项所述的方法,其特征在于,当发音场景信息为用户当前的面部表情信息时,所述将所述发音场景信息与候选关键词进行匹配包括:
将用户当前的面部表情信息与候选关键词进行匹配,判断是否存在与用户当前的面部表情信息相对应的候选关键词;
若是,则存在与用户当前的面部表情信息相匹配的候选关键词,若否,则不存在与用户当前的面部表情信息相匹配的候选关键词。
6.根据权利要求2所述的方法,其特征在于,当所述发音场景信息为用户当前的发音背景信息时,所述确定所述发音场景图像中的发音场景信息包括:
从所述发音场景图像中提取出场景特征,确定与所述场景特征对应的用户当前的发音背景信息。
7.根据权利要求2或6所述的方法,其特征在于,当发音场景信息为用户当前的发音背景信息时,所述将所述发音场景信息与候选关键词进行匹配包括:
按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词;
若是,则存在与用户当前的发音背景信息相匹配的候选关键词,若否,则不存在与用户当前的发音背景信息相匹配的候选关键词。
8.一种电子设备,其特征在于,包括:图像获取模块,发音场景信息确定模块和匹配确定模块;
所述图像获取模块,用于获取用户的发音场景图像,将所述发音场景图像发送给所述发音场景信息确定模块;
所述发音场景信息确定模块,用于接收所述发音场景图像,确定所述发音场景图像中的发音场景信息,将所述发音场景信息发送给所述匹配确定模块;
所述匹配确定模块,用于接收所述发音场景信息,将所述发音场景信息与候选关键词进行匹配,当存在与所述发音场景信息相匹配的候选关键词时,将所述相匹配的候选关键词确定为最终输出的关键词,当不存在与所述发音场景信息相匹配的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
9.根据权利要求8所述的电子设备,其特征在于,所述发音场景信息确定模块包括:
面部表情信息确定单元,用于根据人脸识别技术从所述发音场景图像中提取出用户的人脸,从所述人脸中提取出用户当前的表情特征,确定与所述表情特征对应的用户当前的面部表情信息;
所述匹配确定模块包括:
第一匹配单元,用于将用户当前的面部表情信息与候选关键词进行匹配,判断是否存在与用户当前的面部表情信息相对应的候选关键词,若是,则存在与用户当前的面部表情信息相匹配的候选关键词,若否,则不存在与用户当前的面部表情信息相匹配的候选关键词;
第一确定单元,用于在所述第一匹配单元判断存在与用户当前的面部表情信息对应的候选关键词时,将与用户当前的面部表情信息对应的候选关键词确定为最终输出的关键词,在所述第一匹配单元判断不存在与用户当前的面部表情信息对应的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
10.根据权利要求8所述的电子设备,其特征在于,所述发音场景信息确定模块包括:
发音背景信息确定单元,用于从所述发音场景图像中提取出当前的场景特征,确定与所述场景特征对应的用户当前的发音背景信息;
所述匹配确定模块包括:
第二匹配单元,用于按照预先设置的发音背景信息与关键词的对应关系,判断是否存在与用户当前的发音背景信息对应的候选关键词,若是,则存在与用户当前的发音背景信息相匹配的候选关键词,若否,则不存在与用户当前的发音背景信息相匹配的候选关键词;
第二确定单元,用于在所述第二匹配单元判断存在与用户当前的发音背景信息相对应的候选关键词时,将与用户当前的发音背景信息相对应的候选关键词确定为最终输出的关键词,在所述第二匹配单元判断不存在与用户当前的发音背景信息相对应的候选关键词时,将优先级最高的候选关键词确定为最终输出的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210357210.7A CN103678404A (zh) | 2012-09-21 | 2012-09-21 | 一种关键词识别方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210357210.7A CN103678404A (zh) | 2012-09-21 | 2012-09-21 | 一种关键词识别方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103678404A true CN103678404A (zh) | 2014-03-26 |
Family
ID=50315985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210357210.7A Pending CN103678404A (zh) | 2012-09-21 | 2012-09-21 | 一种关键词识别方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678404A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105376416A (zh) * | 2015-12-04 | 2016-03-02 | 广东小天才科技有限公司 | 一种通话终端的控制方法和装置 |
CN106572268A (zh) * | 2016-11-14 | 2017-04-19 | 北京小米移动软件有限公司 | 信息显示方法及装置 |
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
CN108121735A (zh) * | 2016-11-29 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
WO2018192372A1 (zh) * | 2017-04-20 | 2018-10-25 | 腾讯科技(深圳)有限公司 | 文本信息的类型识别方法及装置、存储介质及电子装置 |
CN109783681A (zh) * | 2019-01-18 | 2019-05-21 | 中国农业科学院农业信息研究所 | 一种农产品价格信息采集及处理装置和方法 |
CN111128178A (zh) * | 2019-12-31 | 2020-05-08 | 上海赫千电子科技有限公司 | 一种基于面部表情分析的语音识别方法 |
CN112102843A (zh) * | 2020-09-18 | 2020-12-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN112297016A (zh) * | 2019-07-26 | 2021-02-02 | 深圳百诺明医说科技有限公司 | 基于用户语音的诊断建议反馈***及医疗智能语音机器人 |
CN107818781B (zh) * | 2017-09-11 | 2021-08-10 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN115599890A (zh) * | 2022-11-29 | 2023-01-13 | 深圳市人马互动科技有限公司(Cn) | 产品推荐方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1298173A (zh) * | 1999-09-13 | 2001-06-06 | 松下电器产业株式会社 | 语音识别设备与方法 |
US20090228281A1 (en) * | 2008-03-07 | 2009-09-10 | Google Inc. | Voice Recognition Grammar Selection Based on Context |
CN101751202A (zh) * | 2008-12-17 | 2010-06-23 | 爱思开电讯投资(中国)有限公司 | 一种基于环境信息进行文字关联输入的方法和装置 |
-
2012
- 2012-09-21 CN CN201210357210.7A patent/CN103678404A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1298173A (zh) * | 1999-09-13 | 2001-06-06 | 松下电器产业株式会社 | 语音识别设备与方法 |
US20090228281A1 (en) * | 2008-03-07 | 2009-09-10 | Google Inc. | Voice Recognition Grammar Selection Based on Context |
CN101751202A (zh) * | 2008-12-17 | 2010-06-23 | 爱思开电讯投资(中国)有限公司 | 一种基于环境信息进行文字关联输入的方法和装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105376416A (zh) * | 2015-12-04 | 2016-03-02 | 广东小天才科技有限公司 | 一种通话终端的控制方法和装置 |
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
CN106910497B (zh) * | 2015-12-22 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
CN106572268B (zh) * | 2016-11-14 | 2020-07-03 | 北京小米移动软件有限公司 | 信息显示方法及装置 |
CN106572268A (zh) * | 2016-11-14 | 2017-04-19 | 北京小米移动软件有限公司 | 信息显示方法及装置 |
CN108121735A (zh) * | 2016-11-29 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
CN108121735B (zh) * | 2016-11-29 | 2022-03-11 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
WO2018192372A1 (zh) * | 2017-04-20 | 2018-10-25 | 腾讯科技(深圳)有限公司 | 文本信息的类型识别方法及装置、存储介质及电子装置 |
US10929600B2 (en) | 2017-04-20 | 2021-02-23 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for identifying type of text information, storage medium, and electronic apparatus |
CN107818781B (zh) * | 2017-09-11 | 2021-08-10 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN109783681B (zh) * | 2019-01-18 | 2021-03-09 | 中国农业科学院农业信息研究所 | 一种农产品价格信息采集及处理装置和方法 |
CN109783681A (zh) * | 2019-01-18 | 2019-05-21 | 中国农业科学院农业信息研究所 | 一种农产品价格信息采集及处理装置和方法 |
CN112297016A (zh) * | 2019-07-26 | 2021-02-02 | 深圳百诺明医说科技有限公司 | 基于用户语音的诊断建议反馈***及医疗智能语音机器人 |
CN111128178A (zh) * | 2019-12-31 | 2020-05-08 | 上海赫千电子科技有限公司 | 一种基于面部表情分析的语音识别方法 |
CN112102843A (zh) * | 2020-09-18 | 2020-12-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN115599890A (zh) * | 2022-11-29 | 2023-01-13 | 深圳市人马互动科技有限公司(Cn) | 产品推荐方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678404A (zh) | 一种关键词识别方法及电子设备 | |
US10438586B2 (en) | Voice dialog device and voice dialog method | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110085261A (zh) | 一种发音纠正方法、装置、设备以及计算机可读存储介质 | |
CN106658129B (zh) | 基于情绪的终端控制方法、装置及终端 | |
US9799336B2 (en) | Identifying corresponding regions of content | |
KR101537370B1 (ko) | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 | |
KR101326651B1 (ko) | 이모티콘을 이용한 화상통화장치 및 방법 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
JPWO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
CN108109613A (zh) | 用于智能对话语音平台的音频训练和识别方法及电子设备 | |
CN112837401B (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
KR20170062089A (ko) | 3d아바타의 표정 구현 방법 및 프로그램 | |
CN110992783A (zh) | 一种基于机器学习的手语翻译方法及翻译设备 | |
CN110246485B (zh) | 基于语音识别模型的样本数据获取方法、终端设备及介质 | |
CN111739534B (zh) | 一种辅助语音识别的处理方法、装置、电子设备及存储介质 | |
CN110955818A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN108877769A (zh) | 识别方言种类的方法和装置 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
CN108305629B (zh) | 一种场景学习内容获取方法、装置、学习设备及存储介质 | |
CN104270501B (zh) | 一种通讯录中联系人的头像设置方法和相关装置 | |
JP3903993B2 (ja) | 文章の感情認識装置及び文章の感情認識方法ならびにそのプログラム | |
Chiţu¹ et al. | Automatic visual speech recognition | |
KR102343407B1 (ko) | 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치 | |
CN112233648B (zh) | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140326 |
|
RJ01 | Rejection of invention patent application after publication |