CN109065045A - 语音识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

语音识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109065045A
CN109065045A CN201811004170.1A CN201811004170A CN109065045A CN 109065045 A CN109065045 A CN 109065045A CN 201811004170 A CN201811004170 A CN 201811004170A CN 109065045 A CN109065045 A CN 109065045A
Authority
CN
China
Prior art keywords
speech recognition
information
target
voice
identification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811004170.1A
Other languages
English (en)
Inventor
邹明
叶顺平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chumen Wenwen Information Technology Co Ltd
Original Assignee
Chumen Wenwen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chumen Wenwen Information Technology Co Ltd filed Critical Chumen Wenwen Information Technology Co Ltd
Priority to CN201811004170.1A priority Critical patent/CN109065045A/zh
Publication of CN109065045A publication Critical patent/CN109065045A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种语音识别方法、装置、电子设备及计算机可读存储介质,该方法包括:获取用户的当前语音信息,并对当前语音信息进行识别;若在当前语音信息中识别出目标关键词,则在预配置的至少两个语音识别模型中,将与目标关键词对应的语音识别模型确定为目标语音识别模型。本发明实施例的方案,可基于用户的当前语音信息中的目标关键词,确定与目标关键词相对应的语音识别模型,由于该语音识别模型是与目标关键词相对应的,因此可基于目标关键词快速匹配到对应的语音识别模型,进而利用该语音识别模型对当前语音信息进行识别时,可以提高语音识别准确率,同时,也可以缩短语音识别时间,提高识别效率。

Description

语音识别方法、装置、电子设备及计算机可读存储介质
技术领域
本发明实施例涉及语音识别技术领域,特别是涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。
背景技术
语音识别技术是使得机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别的应用领域非常广泛,常见的应用***有:语音输入***,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制***,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号***、智能家电、声控智能玩具等许多领域;智能对话查询***,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务***、订票***、医疗服务、银行服务、股票查询服务等等。
发明人在具体实施过程中,发现现有技术中存在语音识别效率低的问题,极大的影响用户使用体验,亟需一种能够提高语音识别效率的方法。
发明内容
有鉴于此,本发明实施例提供了一种语音识别方法、装置、电子设备及计算机可读存储介质,能够有效提高语音识别的效率。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种语音识别方法,该方法包括:
获取用户的当前语音信息,并对当前语音信息进行识别;
若在当前语音信息中识别出目标关键词,则在预配置的至少两个语音识别模型中,将与目标关键词对应的语音识别模型确定为目标语音识别模型。
第二方面,本发明实施例还提供了一种语音识别装置,该装置包括:
语音信息获取模块,用于获取用户的当前语音信息;并对当前语音信息进行识别;
识别模型匹配模块,用于对当前语音信息进行识别,若在当前语音信息中识别出目标关键词,则在预配置的至少两个语音识别模型中,将与目标关键词对应的语音识别模型确定为目标语音识别模型。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;
以及与处理器连接的至少一个存储器、总线;其中,
处理器、存储器通过总线完成相互间的通信;
处理器用于调用存储器中的程序指令,以执行如本发明的第一方面实施例中所示的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,计算机指令使计算机执行本发明第一方面实施例中所示的方法。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的语音识别方法、装置、电子设备及计算机可读存储介质,可基于用户的当前语音信息中的目标关键词,确定与目标关键词相对应的语音识别模型,由于该语音识别模型是与目标关键词相对应的,因此可基于目标关键词快速匹配到对应的语音识别模型,进而利用该语音识别模型对当前语音信息进行识别时,可以提高语音识别准确率,同时,也可以缩短语音识别时间,提高识别效率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种语音识别方法的流程示意图;
图2示出了本发明实施例提供的一种语音识别装置的结构示意图;
图3示出了本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种语音识别方法,如图1所示,本发明实施例提供的该语音识别方法可以包括:
步骤S110,获取用户的当前语音信息,并对当前语音信息进行识别。
其中,当前语音信息可以是用户可通过任何具有语音输入功能的设备提供的语音信息,比如,用户终端设备上的麦克风,用户终端设备中应用程序的语音输入功能按键等。在实际应用中,用户的当前语音信息可以是用户说的一个词或一段话,本发明实施例中不限定当前语音信息的具体形式。
步骤S120,若在当前语音信息中识别出目标关键词,则在预配置的至少两个语音识别模型中,将与目标关键词对应的语音识别模型确定为目标语音识别模型。
其中,目标关键词可以是基于实际应用的需求或经验进行预先配置的关键词,比如,对于手机终端中的多种应用程序或者智能音箱具有的各种功能,可以将目标关键词配置为:打开、打电话、打给、关闭等。同样的,语音识别模型也可以基于实际应用中的不同需求进行不同的配置,不同的语音识别模型对应不同的目标关键词。
需要说明的是,一个语音识别模型可以对应一个或多个目标关键词。
本发明实施例的方案,可基于用户的当前语音信息中的目标关键词,确定与目标关键词相对应的语音识别模型,由于该语音识别模型是与目标关键词相对应的,因此可基于目标关键词快速匹配到对应的语音识别模型,进而利用该语音识别模型对当前语音信息进行识别时,可以提高语音识别准确率,同时,也可以缩短语音识别时间,提高识别效率。
本发明的可选实施例中,目标语音识别模型是依据与目标关键词对应的语料库所创建的语音识别模型。
其中,预配置的各语音识别模型都配置有相应的目标关键词,与目标关键词对应的语音识别模型,可以是基于与目标关键词所对应的语料库进行训练得到的。由于语料库通常是基于用户相关数据或者用户的历史对话上下文数据建立的,因此基于目标语音识别模型对用户的当前语音信息进行识别时,可以提高语音识别的准确率。
在一示例中,目标关键词可以为“打电话”,目标关键词对应的语料库可以为电话通讯录中的相关信息,该语料库中可以包括与目标关键词“打电话”相关联的、通讯录中的人名及电话号码等信息,与目标关键词“打电话”相对应的语音识别模型则可以是基于该语料库训练得到的语音识别模型。
在另一示例中,如目标关键词可以为“打开”,目标关键词对应的语料库可以为由用户终端设备上所安装的各种应用程序名称形成的数据库,与目标关键词“打开”相对应的语音识别模型则可以是基于该数据库中的信息进行训练得到的语音识别模型。
在实际应用中,模型可基于实际应用中的不同需求进行配置,语料库中的语料可以是拼音、文字(字和/或词语等)、数字或其他形式的内容,不同语音识别模型对应的语料库的形式也可以不同。本发明实施例中不限定语料库中语料的具体表达形式。
在实际应用中,语音识别模型对应的语料库可由服务器配置并存储在服务器,也可以存储于用户终端设备,用户终端设备可以向服务器提供构建语料库的语料,服务器可以根据用户终端设备提供的语料创建语音识别模型。
需要说明的是,语料库中的信息可以根据实际需求进行更新,更新可以包括但不限于增加、删除或更改等。例如,对于基于电话通讯录中的信息建立的语料库,用户在新增联系人信息或删除联系人信息时,会导致相应的语料库中的信息发生变化。在实际应用中,如果语料库存储在用户终端设备,用户终端设备可以按照一定的时长,根据电话通信录中的信息更新相应的语料库,如果语料库存储在服务器,服务器可以定期向用户终端设备获取电话通讯录中的信息或发生变更的电话通信录中的信息,以更新相应的语料库。
本发明的可选实施例中,将与目标关键词对应的语音识别模型确定为目标语音识别模型之后,本发明实施例提供的方法还可以包括:
根据目标语音识别模型,对当前语音信息进行识别,得到第一语音识别结果;
根据第一语音识别结果进行相应的处理。
其中,由于目标语音识别模型是与当前语音信息中的目标关键词对应的模型,因此,基于目标语音识别模型对当前语音信息进行识别,可大大缩小所应用到的语料库中的数据量,使识别更有针对性,能够有效提高识别效率,进而可基于识别出的第一语音识别结果,实现对第一语音识别结果相应的处理。其中,根据语音识别模型对语音信息进行识别的具体方法为现有技术中的语音识别方法,在此不在赘述。
可以理解的是,根据语音识别结果进行相应的处理,可以是基于语音识别结果与用户进行语音交互,也可以是基于语音识别结果控制用户终端设备进行相应操作,例如,根据识别结果拨打电话或者播放音乐等等。
在一个示例中,比如,当前语音信息为:“打电话给A(人名)”,则可基于当前语音信息中的目标关键词“打电话”,确定与“打电话”对应的、基于电话通讯录中的相关信息创建的目标语音识别模型后,即可由该目标语音识别模型对当前语音信息进行识别,得到第一语音识别结果:“打电话给A”,由于该语音识别模型所基于的语料库中信息是电话通讯录中的人名和对应的电话号码等相关信息,因此,可以在电话通讯录的相关信息中快速识别出“打电话给A”的语音识别结果,基于该识别结果可以在语料库中快速匹配到当前语音信息中的人名A,以及A的电话号码,进而可基于人名A及对应的电话号码,实现拨打A的电话号码的操作。在该示例中,通过目标关键词对应的语音识别模型对当前语音进行识别,可以提高语音的识别效率,则在实际应用中,用户可基于上述方法,通过语音快速拨通电话通讯录中某个人的电话,提高了用户的语音识别使用体验。
本发明的可选实施例中,根据目标语音识别模型,对当前语音信息进行识别,得到第一语音识别结果,可以包括:
根据目标语音识别模型,对当前语音信息中除已识别语音信息之外的信息进行识别,得到第二语音识别结果,已识别语音信息中包括目标关键词;
根据第二语音识别结果和已识别语音信息,得到第一语音识别结果。
其中,对当前语音信息进行识别以识别出目标关键词的过程中,由于已经识别出了包括目标关键词在内的一些信息,因此,在根据目标语音识别模型对当前语音信息进行识别时,可以不需要再识别当前语音信息中的已识别过的语音信息,可以对除已识别语音信息之外的信息进行识别,基于已识别语音信息和识别除已识别语音信息之外的信息得到的第二语音识别结果,可以得到第一语音识别结果,对除已识别语音信息之外的信息进行识别,不再重复对当前语音信息中的已识别语音信息进行识别,可减少设备的资源消耗,进一步提高语音识别的效率,同时,不再重复对当前语音信息中的已识别语音信息进行识别,可大大缩小所应用到的语料库中的数据量,可提高语音识别的准确率。
本发明的可选实施例中,将与目标关键词对应的语音识别模型确定为目标语音识别模型之后,本发明实施例提供的方法还可以包括:
根据目标关键词,向用户提供与目标关键词相对应的第一提示信息;
获取用户基于第一提示信息的语音信息;
通过目标语音识别模型对用户基于第一提示信息的语音信息进行识别,得到第三语音识别结果;
根据第三语音识别结果,进行相应的处理。
其中,第一提示信息可以是根据预配置的目标关键词预先配置的具有提示功能的信息,不同的目标关键词,对应的第一提示信息可以不同,第一提示信息可以限定用户在当前语音信息之后输入的语音内容,进而可提高语音识别的效率,第一提示信息的表现形式不限定为语音或文字。
在一示例中,比如目标关键词为“打电话”,对应的提示信息可以为与打电话相关的信息,比如“打给谁”,用户可以基于该提示信息给出相应的回复,比如:“打给XX”,通过该提示信息“打给谁”可以限定了用户输入的语音内容,则通过目标语音识别模型对用户的与提示信息对应的语音信息进行识别,可快速识别出对应的第三语音识别结果,并进行与第三语音识别结果相应的处理。
本发明的可选实施例中,若存在以下任一种情况:第三语音识别结果与第一提示信息不对应,或者,在预设时长内未接收到用户基于第一提示信息的语音信息,或者,通过目标语音识别模型对用户基于第一提示信息的语音信息识别失败,本发明实施例提供的方法还可以包括:
根据预配置的提示策略,向用户提供与提示策略相对应的第二提示信息。
其中,提示策略可根据实际应用中的需求进行配置,本发明实施例中不限定提示策略的配置方式,也可根据实际需求配置不同的第二提示信息,本发明实施例中不限定第二提示信息的表现形式,第二提示信息可以为语音、文字、光学信号和特定声音中的任一种。
在一示例中,若第二提示信息为语音,第二提示信息可以为通过语音输出设备输出的一段语音,比如“请您重新说一遍”;若第二提示信息为文字,第二提示信息可以为显示在具有显示功能的终端设备上的文字,比如“请您重新说一遍”;若第二提示信息为光学信号,第二提示信息可以为通过指示灯发出的不同颜色的光学信号,比如指示灯不断闪烁红色灯光,以提醒用户当前语音信息无法识别出识别结果;若第二提示信息为特定声音,第二提示信息可通过声音输出设备输出一种特定的声音,比如报警的声音,以提醒用户当前语音信息无法识别出识别结果。
下面结合具体示例对上述三种情况进行分别说明。
对于第一种情况:第三语音识别结果与第一提示信息不对应,表示用户基于第一提示信息的语音信息可能是与第一提示信息不相关的信息,进而导致无法从用户基于第一提示信息的语音信息识别出准确的第三语音识别结果,比如:基于第一提示信息“打给谁”,用户的回复为:“我要吃饭”,则对“我要吃饭”进行识别后的第三识别结果与第一提示信息不相关,则可以依据预配置的提示策略,向用户提供与提示策略相对应的第二提示信息,比如“请您重新说一遍”,或者“打给谁”,或者“是否取消打电话”,或者通过光学信号提示用户,或者通过特定的声音提示用户等。
对于第二种情况:在预设时长内未接收到用户基于第一提示信息的语音信息,表示用户可能并未基于第一提示信息进行回复,则可以依据预配置的提示策略,向用户提供与提示策略相对应的第二提示信息,第二提示信息可以是与第一提示信息相同的信息,也可以是不同的信息。
对于第三种情况:通过目标语音识别模型对用户基于第一提示信息的语音信息识别失败,在该情况下,可能是由于用户基于第一提示信息的语音信息与目标语音识别模型所基于的语料库中的信息不对应,目标语音识别模型无法正确的识别出用户基于第一提示信息的语音信息,此时,则也可以依据预配置的提示策略,向用户提供与提示策略相对应的第二提示信息,如“识别失败”等。
本发明的可选实施例中,若在当前语音信息中未识别出目标关键词,在上述实施例的基础上,本发明实施例提供的方法还可以包括:
根据预配置的通用识别模型对当前语音信息进行识别,得到第四语音识别结果;
根据第四语音识别结果进行相应的处理。
其中,通用识别模型是指与预配置的上述至少两个语音识别模型不同的其他语音识别模型,可以理解的是,通用识别模型的识别应用范围大于与目标关键词对应的语音识别模型,该通用识别模型可以是现有技术中的通用的语音识别模型,即不是基于目标关键词进行配置的语音识别模型,则在当前语音信息中可能无法识别到目标关键词,则可基于通用识别模型对当前语音信息进行识别,得到对应的第四语音识别结果,并可以基于第四语音识别结果进行相应的处理。
需要说明的是,在实际应用中,对当前语音信息进行识别以识别出目标关键词时,可以是基于预配置的用于识别目标关键词的识别模型对目标关键词进行识别,也就是说,该目标关键词识别模型可以是基于预配置的至少两个语音识别模型所对应的各目标关键词训练得到的,专门用于目标关键词识别的模型,通过该模型在当前语音信息中未能识别到目标关键词时,则可基于通用语音模型对当前语音信息进行识别。
当然,在实际应用中,获取用户的当前语音信息后,对当前语音信息进行识别,也可以是指通过预配置的通用识别模型对当前语音信息进行识别,此时,如果通过通用识别模型未能识别出目标关键词时,则可以基于通用识别模型对当前语音信息的识别结果进行相应的处理。
本发明的可选实施例中,在上述实施例的基础上,若第一语音识别结果为至少两个语音识别结果时,本发明实施例提供的方法还可以包括:
根据第一语音识别结果,向用户提供与第一语音识别结果相对应的第三提示信息;
获取用户基于第三提示信息的语音信息;
通过目标语音识别模型对用户基于第三提示信息的语音信息进行识别,得到第五语音识别结果;
根据第五语音识别结果进行相应的处理。
其中,第三提示信息可以根据第一语音识别结果和目标语音识别模型对应语料库中的语料得到,由于第一语音识别结果可能不能准确反应用户的真实意图,则可以基于第一语音识别结果,向用户提供与第一语音识别结果相对应的第三提示信息,通过第三提示信息,得到的用户基于第三提示信息的语音信息可进一步明确用户的真实意愿,则依据用户基于第三提示信息的语音信息进行语音识别,可使语音识别结果更准确。
在实际应用中,第三提示信息的表现形式不限定为语音或文字,通过目标语音识别模型对用户基于第三提示信息的语音信息进行识别时,也可结合第三提示信息,得到第五语音识别结果。
在一示例中,比如第一语音识别结果为:“打给A1(人名),打给A2(人名)”;则基于用户的当前语音信息识别出的第一语音识别结果为两个,无法确定用户要将电话打给哪个人,因此可基于通讯录中的两个人名A1和A2进行提示,比如,第三提示信息可为:“是打给A2吗?”,如果用户回答的是“是的”,则第五语音识别结果:可准确识别出用户真实想打电话的对象,得到的第五语音识别结果为:“打给A2”,相较于第一语音识别结果,第五语音识别结果更准确。
基于与图1所示的语音识别方法相同的原理,本发明的实施例中还提供了一种语音识别装置20,如图2所示,该语音识别装置20可以包括语音信息获取模块210和识别模型匹配模块220。其中:
语音信息获取模块210,用于获取用户的当前语音信息;
识别模型匹配模块220,用于对当前语音信息进行识别,若在当前语音信息中识别出目标关键词,则在预配置的至少两个语音识别模型中,将与目标关键词对应的语音识别模型确定为目标语音识别模型。
本发明的可选实施例中的方案,可基于用户的当前语音信息中的目标关键词,确定与目标关键词相对应的语音识别模型,由于该语音识别模型是与目标关键词相对应的,因此可基于目标关键词快速匹配到对应的语音识别模型,进而利用该语音识别模型对当前语音信息进行识别时,可以提高语音识别准确率,同时,也可以缩短语音识别时间,提高识别效率。
本发明的可选实施例中,目标语音识别模型是依据与目标关键词对应的语料库所创建的语音识别模型。
本发明的可选实施例中,本发明实施例提供的装置还可以包括:
第一语音识别处理模块,用于在确定与目标关键词对应的语音识别模型之后,根据目标语音识别模型,对当前语音信息进行识别,得到第一语音识别结果,根据第一语音识别结果,进行与第一语音识别结果相应的处理。
本发明的可选实施例中,在上述实施例的基础上,第一语音识别模块可以具体用于:
根据目标语音识别模型,对当前语音信息中除已识别语音信息之外的信息进行识别,得到第二语音识别结果,已识别语音信息中包括目标关键词;
根据第二语音识别结果和已识别语音信息,得到第一语音识别结果。
本发明的可选实施例中,在上述实施例的基础上,本发明实施例提供的装置还可以包括:
第一提示信息提供模块,用于在将与目标关键词对应的语音识别模型确定为目标语音识别模型之后,根据目标关键词,向用户提供与目标关键词相对应的第一提示信息;
第一语音信息接收模块,用于获取用户基于第一提示信息的语音信息;
第二语音识别处理模块,用于通过目标语音识别模型对用户基于第一提示信息的语音信息进行识别,得到第三语音识别结果,根据第三语音识别结果进行相应的处理。
本发明的可选实施例中,若存在以下任一种情况:第三语音识别结果与第一提示信息不对应,在预设时长内未接收到用户基于第一提示信息的语音信息,通过目标语音识别模型对用户基于第一提示信息的语音信息识别失败;本发明实施例提供的装置还可以包括:
第二提示信息提供模块,用于根据预配置的提示策略,向用户提供与提示策略相对应的第二提示信息。
本发明的可选实施例中,在上述实施例的基础上,本发明实施例提供的装置还可以包括:
第三语音识别处理模块,用于在当前语音信息中未识别出目标关键词时,根据预配置的通用识别模型对当前语音信息进行识别,得到第四语音识别结果,根据第四语音识别结果进行相应的处理。
本发明的可选实施例中,在上述实施例的基础上,本发明实施例提供的装置还可以包括:
提示信息获取模块,用于根据预配置的提示策略,得到与提示策略相对应的提示信息。
本发明的可选实施例中,在上述实施例的基础上,本发明实施例提供的装置还可以包括:
第三提示信息提供模块,用于根据第一语音识别结果,向用户提供与第一语音识别结果相对应的第三提示信息;
第二语音信息接收模块,用于获取用户基于第三提示信息的语音信息;
第三语音识别处理模块,用于通过目标语音识别模型对用户基于第三提示信息的语音信息进行识别,得到第五语音识别结果,根据第五语音识别结果进行相应的处理。
可以理解的是,由于本实施例所介绍的语音识别装置为可以执行本发明的可选实施例中的语音识别方法的装置,故而基于本发明的可选实施例中所介绍的语音识别方法,本领域所属技术人员能够了解本实施例的语音识别装置的具体实施方式以及其各种变化形式,所以在此对于该语音识别装置如何实现本发明的可选实施例中的语音识别方法不再详细介绍。只要本领域所属技术人员实施本发明的可选实施例中语音识别方法所采用的装置,都属于本发明所欲保护的范围。
本发明实施例提供了一种电子设备,如图3所示,该电子设备可以包括:至少一个处理器(processor)31;以及与处理器31连接的至少一个存储器(memory)32、总线33;其中,
处理器31、存储器32通过总线33完成相互间的通信;
处理器31用于调用存储器32中的程序指令,以执行上述方法实施例中的步骤。
本实施例提供一种计算机可读存储介质,计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述任一方法实施例所提供的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取用户的当前语音信息,并对所述当前语音信息进行识别;
若在所述当前语音信息中识别出目标关键词,则在预配置的至少两个语音识别模型中,将与所述目标关键词对应的语音识别模型确定为目标语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述目标语音识别模型是依据与所述目标关键词对应的语料库所创建的语音识别模型。
3.根据权利要求1或2所述的方法,其特征在于,所述将与所述目标关键词对应的语音识别模型确定为目标语音识别模型之后,所述方法还包括:
根据所述目标语音识别模型对所述当前语音信息进行识别,得到第一语音识别结果;
根据所述第一语音识别结果进行相应的处理。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标语音识别模型对所述当前语音信息进行识别,得到第一语音识别结果,包括:
根据所述目标语音识别模型,对所述当前语音信息中除已识别语音信息之外的信息进行识别,得到第二语音识别结果,所述已识别语音信息中包括所述目标关键词;
根据所述第二语音识别结果和所述已识别语音信息,得到所述第一语音识别结果。
5.根据权利要求1或2所述的方法,其特征在于,所述将与所述目标关键词对应的语音识别模型确定为目标语音识别模型之后,所述方法还包括:
根据所述目标关键词,向所述用户提供与所述目标关键词相对应的第一提示信息;
获取所述用户基于所述第一提示信息的语音信息;
通过所述目标语音识别模型对所述用户基于所述第一提示信息的语音信息进行识别,得到第三语音识别结果;
根据所述第三语音识别结果进行相应的处理。
6.根据权利要求5所述的方法,其特征在于,若存在以下任一种情况:所述第三语音识别结果与所述第一提示信息不对应,在预设时长内未接收到所述用户基于所述第一提示信息的语音信息,通过所述目标语音识别模型对所述用户基于所述第一提示信息的语音信息识别失败;
所述方法还包括:
根据预配置的提示策略,向所述用户提供与所述提示策略相对应的第二提示信息。
7.根据权利要求1或2所述的方法,其特征在于,若在所述当前语音信息中未识别出目标关键词,所述方法还包括:
根据预配置的通用识别模型对所述当前语音信息进行识别,得到第四语音识别结果;
根据所述第四语音识别结果进行相应的处理。
8.一种语音识别装置,其特征在于,包括:
语音信息获取模块,用于获取用户的当前语音信息;并对所述当前语音信息进行识别;
识别模型匹配模块,用于对当前语音信息进行识别,若在所述当前语音信息中识别出目标关键词,则在预配置的至少两个语音识别模型中,将与所述目标关键词对应的语音识别模型确定为目标语音识别模型。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、所述存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1至权利要求7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的方法。
CN201811004170.1A 2018-08-30 2018-08-30 语音识别方法、装置、电子设备及计算机可读存储介质 Pending CN109065045A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811004170.1A CN109065045A (zh) 2018-08-30 2018-08-30 语音识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811004170.1A CN109065045A (zh) 2018-08-30 2018-08-30 语音识别方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109065045A true CN109065045A (zh) 2018-12-21

Family

ID=64758729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811004170.1A Pending CN109065045A (zh) 2018-08-30 2018-08-30 语音识别方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109065045A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048091A (zh) * 2019-12-30 2020-04-21 苏州思必驰信息科技有限公司 一种语音识别方法、设备及计算机可读存储介质
CN111539744A (zh) * 2019-01-21 2020-08-14 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及存储介质
CN112532691A (zh) * 2020-11-06 2021-03-19 问问智能信息科技有限公司 信息处理方法及装置
CN113468368A (zh) * 2020-04-28 2021-10-01 海信集团有限公司 一种语音记事方法、装置、设备及介质
CN113808582A (zh) * 2020-06-17 2021-12-17 北京字节跳动网络技术有限公司 语音识别方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别***
CN104535071A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 一种语音导航方法及装置
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及***
CN105679314A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别***
CN104535071A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 一种语音导航方法及装置
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及***
CN105679314A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539744A (zh) * 2019-01-21 2020-08-14 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及存储介质
CN111539744B (zh) * 2019-01-21 2023-08-29 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及存储介质
CN111048091A (zh) * 2019-12-30 2020-04-21 苏州思必驰信息科技有限公司 一种语音识别方法、设备及计算机可读存储介质
CN113468368A (zh) * 2020-04-28 2021-10-01 海信集团有限公司 一种语音记事方法、装置、设备及介质
CN113808582A (zh) * 2020-06-17 2021-12-17 北京字节跳动网络技术有限公司 语音识别方法、装置、设备及存储介质
CN113808582B (zh) * 2020-06-17 2024-04-09 抖音视界有限公司 语音识别方法、装置、设备及存储介质
CN112532691A (zh) * 2020-11-06 2021-03-19 问问智能信息科技有限公司 信息处理方法及装置

Similar Documents

Publication Publication Date Title
CN109065045A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN109036424A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN103077714B (zh) 信息的识别方法和装置
CN103078995A (zh) 一种在移动终端使用的可定制的个性化应答方法和***
CN109065054A (zh) 语音识别纠错方法、装置、电子设备及可读存储介质
TW201818734A (zh) 來電處理方法、裝置及終端
CN108900726A (zh) 基于语音机器人的人工客服转接方法
CN112632961B (zh) 基于上下文推理的自然语言理解处理方法、装置以及设备
CN108279839A (zh) 基于语音的交互方法、装置、电子设备及操作***
CN106572272A (zh) 一种ivr语音菜单确定方法及装置
CN110459222A (zh) 语音控制方法、语音控制装置及终端设备
CN102209143A (zh) 电话服务交互管理
JP7342286B2 (ja) ヒューマンマシン対話のための音声機能ジャンプ方法、電子機器及び記憶媒体
CN109635271A (zh) 一种用户意图识别方法、客服服务***、装置及电子设备
CN110277092A (zh) 一种语音播报方法、装置、电子设备及可读存储介质
CN112735374A (zh) 一种自动语音交互的方法及装置
CN108682421A (zh) 一种语音识别方法、终端设备及计算机可读存储介质
CN115129878B (zh) 一种对话业务执行方法、装置、存储介质及电子设备
CN111144132B (zh) 一种语义识别方法及装置
JP2020009440A (ja) 情報を生成するための方法と装置
CN104361311A (zh) 多模态在线增量式来访识别***及其识别方法
CN110600004A (zh) 一种语音合成播放方法、装置和存储介质
CN115759122A (zh) 一种意图识别方法、装置、设备及可读存储介质
CN109346079A (zh) 基于声纹识别的语音交互方法及装置
CN113672709B (zh) 一种数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221