CN109272995A

CN109272995A - 语音识别方法、装置及电子设备

Info

Publication number: CN109272995A
Application number: CN201811126924.0A
Authority: CN
Inventors: 叶顺平; 邹明
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-01-25

Abstract

本发明实施例公开了一种语音识别方法、装置及电子设备。其中方法包括：获取采集到的用户输入的语音信息；根据至少一个与用户相匹配的语言模型对语音信息进行识别，得到语音识别结果。本发明实施例采用至少一个与用户相匹配的语言模型对语音信息进行识别，这种通过与用户相匹配的语言模型对语音信息进行识别的方式，实现了通过指定语言模型以识别语音信息的目的，不仅提高了对语音信息识别的精确度，保证了识别结果能够符合用户的个性化需求，而且提高了语音识别的准确性和识别效率，解决了相关技术中采用的无差别的通用语言模型进行识别导致的无法识别甚至错误识别的技术问题，提高了用户体验。

Description

语音识别方法、装置及电子设备

技术领域

本发明实施例涉及语音识别技术领域，特别是涉及一种语音识别方法、装置及电子设备。

背景技术

随着语音识别技术的发展，语音唤醒的应用领域非常广泛，例如机器人、移动终端、可穿戴设备、智能家居设备、车载设备等。然而，相关技术中，语音识别技术仅能识别一些常规词语，对专业性强甚至生僻的词语存在无法识别或者错误识别的技术问题。

发明内容

有鉴于此，本发明实施例提供了一种语音识别方法、装置及电子设备，能够实现上述技术问题。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：

获取采集到的用户输入的语音信息；

根据至少一个与用户相匹配的语言模型对语音信息进行识别，得到语音识别结果。

第二方面，本发明实施例还提供一种语音识别装置，该装置包括：

语音获取模块，用于获取采集到的用户输入的语音信息；

语音识别模块，用于根据至少一个与用户相匹配的语言模型对语音信息进行识别，得到语音识别结果。

第三方面，本发明实施例还提供一种电子设备，包括：

至少一个处理器；

以及与处理器连接的至少一个存储器、总线；其中，

处理器、存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行语音识别方法。

第四方面，本发明实施例还提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行语音识别方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：采用至少一个与用户相匹配的语言模型对语音信息进行识别，这种通过与用户相匹配的语言模型对语音信息进行识别的方式，实现了通过指定语言模型以识别语音信息的目的，不仅提高了对语音信息识别的精确度，保证了识别结果能够符合用户的个性化需求，而且提高了语音识别的准确性和识别效率，解决了相关技术中采用的无差别的通用语言模型进行识别导致的无法识别甚至错误识别的技术问题，提高了用户体验。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种语音识别方法的流程示意图；

图2示出了本发明实施例提供的一种确定与用户相匹配的语言模型的的流程示意图；

图3示出了本发明实施例提供的一种语音识别装置的结构示意图；

图4示出了本发明实施例提供的另一种语音识别装置的结构示意图；

图5示出了本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

如图1所示，本发明提供了一种语音识别方法，包括如下步骤：

步骤S101、获取采集到的用户输入的语音信息。

本发明实施例提供的方法通过电子设备来执行，且电子设备处于工作状态时，实现获取采集到的用户输入的语音信息的目的。

具体地，电子设备可包括终端设备或云端服务器。

具体应用时，用户输入的语音信息可以是终端设备采集的，也可以是与终端设备连接的语音采集设备采集的。在用户输入的语音信息是由与终端设备连接的语音采集设备采集时，该语音采集设备可以是麦克风等装置。实际应用时，语音采集设备与终端设备的连接既可以是通过数据线连接，也可以是通过蓝牙等无线连接方式连接，从而保证语音采集设备采集到的用户输入的语音信息发送至终端设备，使终端设备或云端服务器获取到语音采集设备采集到的用户输入的语音信息。

步骤S102、根据至少一个与用户相匹配的语言模型对语音信息进行识别，得到语音识别结果。

具体地，与用户相匹配的语言模型可以是针对性的能够识别用户所属特定领域专业名词的语言模型，如与计算机领域专业名词对应的语言模型、与法律领域专业名词对应的语言模型、金融领域专业名词的语言模型等。通过特定的与用户相匹配的语言模型进行语音识别不仅能够提高语音识别的速度，而且能够提高语音识别的精确度。

具体地，与用户相匹配的语言模型可以是一个，也可以是多个。

本发明实施例提供的语音识别方法，利用至少一个与用户相匹配的语言模型对语音信息进行识别，这种通过与用户相匹配的语言模型能够针对性的识别用户所属特定领域的专业名词，实现了通过指定的与用户相匹配的语言模型进行语音识别的目的，不仅能够提高语音识别的精确度，保证了识别结果能够符合用户目的，而且提高了语音识别的速度，解决了相关技术中采用的无差别的通用的语言模型进行语音识别导致的识别结果不符合用户需求，甚至无法识别的技术问题，提高了用户体验。

实际应用时，应用本发明提供的语音识别方法的电子设备既可以是终端设备，也可以是云端服务器。

当电子设备为云端服务器时，由终端设备或与终端设备连接的音频采集设备采集用户输入的语音信息，并将采集到的用户输入的语音信息发送至云端服务器，云端服务器根据至少一个与用户相匹配的语言模型对语音信息进行识别后，将得到的语音识别结果反馈至终端设备，由终端设备根据云端服务器反馈的语音识别结果进行处理，以完成语音信息的识别。

在电子设备为终端设备(如手机、音响、平板电脑、笔记本电脑、PC机、可穿戴设备等)时，终端设备，如手机，手机在开机状态下，获取手机上麦克风采集到的用户输入的语音信息，手机根据至少一个与用户相匹配的语言模型对语音信息进行识别，得到语音识别结果。

在一些实例中，在根据至少一个与用户相匹配语言模型对语音信息进行识别之前，该方法还包括：确定至少一个与用户相匹配的语言模型。

对于本发明实施例，确定至少一个与用户相匹配的语言模型后，目的在于将确定的至少一个与用户相匹配的语言模型作为对语音信息进行识别的与用户相匹配的语言模型，实现指定对语音信息进行识别的语言模型，从而提高对语音信息识别的精确度。

具体地，在一些实施例中，确定至少一个与用户相匹配的语言模型的一种实现方式，可以包括步骤S201(图中未示出)或步骤S202。

步骤S201、基于接收到的用户针对语言模型的选择指令，确定至少一个与用户相匹配的语言模型。

本发明实施例利用接收到的用户针对语言模型的选择指令，以确定与用户相匹配的语言模型。具体地，用户的选择指令可以是选择一个语言模型，也可以是选择多个语言模型。

具体地，选择指令可以是用户通过终端设备提供的人机交互界面发送的。例如，终端设备提供的人机交互界面上提供有多种特定领域专业名词的语言模型的标识，如该标识可以是法律、医学、计算机、金融等。假设，用户在人机交互界面选择的标识为法律、计算机和医学，人机交互界面根据用户选择的标识生成相应的选择指令，以便终端设备根据接收到的选择指令确定与用户相匹配的语言模型，最终确定的语言模型为法律领域专业名词的语言模型、计算机领域专业名词的语言模型和金融领域专业名词的语言模型。

以下以电子设备为终端设备确定至少一个与用户相匹配的语言模型为例进行描述。

实际应用时，终端设备可以是手机、pad、笔记本、可穿戴设备以及如智能手表、智能音箱等智能设备。所有的语言模型可以都存储在终端设备本地，也可以存储在云端。因此，确定与用户相匹配的语言模型的方式可以有两种方式：一种是，基于接收到的用户针对语言模型的选择指令，将存储在云端的语言模型下载至终端设备，将下载至终端设备的语言模型作为与用户相匹配的语言模型，以对语音信息进行识别；另一种是，基于接收到的用户针对语言模型的选择指令，在已存储在终端设备本地的语言模型中确定与用户相匹配的语言模型。

如图2所示，步骤S202包括步骤S2021和S2022。

步骤S2021、获取用户的历史输入记录和/或用户属性。

本发明实施例中，用户的历史输入记录为过去某段时间用户输入的内容，其中，用户输入的内容的来源可以是文本输入的内容，也可以是语音输入的内容。具体地，用户输入的内容可以是在搜索引擎输入的，也可以是在输入法输入的，实际应用时，还可以是利用其它软件工具输入的。例如，近一个月中，用户在某一输入法(如搜狗输入法、百度输入法)中输入的内容主要涉及编辑代码、小说撰写、论文。

本发明实施例中，用户属性可以包括用户职业、专业、兴趣等，其中，用户兴趣可以用户根据预设的兴趣分类选择确定的。具体地，用户兴趣可以包括明星、体育、电影、散文、法律、科技等。

步骤S2022、根据历史输入记录和/或用户属性确定用户对应的至少一个领域，并将至少一个领域对应的语言模型作为与用户相匹配的语言模型。

本发明实施例通过用户的历史输入记录或者用户属性确定用户对应的至少一个领域，从而根据确定的至少一个领域确定对应的语言模型，以完成确定至少一个与用户相匹配的语言模型的目的。

具体应用时，可以仅获取用户的历史输入记录，或仅获取用户属性，或者同时获取用户的历史输入记录和用户属性，以实现确定与用户相匹配的语言模型的目的。

需要说明的是，实际应用时，确定至少一个与用户相匹配的语言模型可以参照步骤S201，也可以参照步骤S202，或者同时参照步骤S201和步骤S202。

在一些实例中，在参照步骤S201，参照步骤S202，或者同时参照步骤S201和步骤S202确定至少一个与用户相匹配的语言模型后，该方法还包括：基于用户自定义的词库，更新与用户相匹配的语言模型。

本发明实施例通过将用户自定义的词库更新至少一个与用户相匹配的语言模型，以便在语音识别时，更新后的至少一个与用户相匹配的语言模型能够快速根据用户自定义的语音词库进行识别。

具体地，用户自定义的词库可以为自定义的语音词库，也可以为自定义的文义词库。

例如，用户自定义的词库为自定义的语音词库时，如用户自定义词库中：自定义语音“A”对应的结果为“新消息”，自定义语音“B”对应的结果为“DNA”；自定义语音“C”对应的结果为“科技创造命运”。在语音识别时，将用户自定义的词库更新与用户相匹配的语言模型后，更新后的至少一个与用户相匹配的语言模型检测到用户输入的语音为“A”时，无需进一步识别，可以直接输出结果为“新消息”，从而加快识别效率。

例如，用户自定义的词库为文义词库时，假设与用户相匹配的语言模型为法律领域专业名词的语言模型，用户自定义的文义词库中包括用户常用到的医学专用词“阿尔茨海默病”、用户常用到的金融专用词“同业拆借”，将该文义词库中用户常用的专业词更新至法律领域专业名词的语言模型后，以便后期语音识别时，更新后的法律领域专业名词的语言模型能够在识别法律领域专业词的同时，快速识别非法律领域的专业词。

具体地，在一些实施例中，确定至少一个与用户相匹配的语言模型的另一种实现方式，包括：步骤S301、步骤S302和步骤S303。

其中，步骤S301(图中未示出)、获取用户自定义的词库。

步骤S302(图中未示出)、基于用户自定义的词库，生成用户的个性化语言模型；

步骤S303(图中未示出)、将用户的个性化语言模型确定为与用户相匹配的语言模型。

本发明实施例根据用户自定义的词库生成适合该用户的个性化语言模型，将该个性化语言模型确定为与用户相匹配的语言模型，由于个性化语言模型是最符合用户输入习惯的语音模型，因而在语音识别过程中，能够依据个性化语言模型实现快速确定识别结果的目的。

在一些实施例中，在参照步骤S201、步骤S202或者同时参照步骤S201和步骤S202确定至少一个与用户相匹配的语言模型后，还可以参照本实施例中步骤S301至步骤S303，将个性化语言模型确定为与用户相匹配的语言模型。

例如，在参照步骤S201、步骤S202或者同时参照步骤S201和步骤S202确定语言模型为法律领域专业名词的语言模型、计算机领域专业名词的语言模型和金融领域专业名词的语言模型后，同时将个性化语言模型确定为与用户相匹配的语言模型。以便在利用不同领域专业名词的语言模型进行语音识别的同时，能够利用个性化语言模型快速进行识别，得到识别结果。实际应用时，在确定的与用户相匹配的语言模型中同时存在不同领域专业名词的语言模型和个性化语言模型时，可以设置个性化语言模型的优先权大于与用户相匹配的语言模型，以在识别过程中以个性化语言模型优先进行识别。

下面以将本发明实施例提供的方法应用到搜索引擎为例对本发明实施例进行说明。

在搜索引擎运行在后台或前台时，手机获取采集到用户输入的语音信息后，利用已下载在本地的至少一个与用户相匹配的语言模型对语音信息进行识别，得到语音识别结果后输出到手机搜索引擎的输入窗口，同时控制搜索引擎以该语音识别结果进行检索后，将检索结果进行显示。或者手机获取采集到用户输入的语音信息后，将语音信息发送至服务器，由服务器上预存的至少一个与用户相匹配的语言模型对该语音信息进行识别，得到语音识别结果后，基于该语音识别进行搜索，并将相应的搜索结果反馈至手机端。

为了进一步说明本发明提供的语音识别方法，下面以将本发明实施例提供的方法应用到输入法应用程序为例对本发明实施例进行说明。

用户下载输入法并安装时，输入法应用程序可以将不同领域词库的语言模型显示给用户，以便用户进行选择，该输入法根据用户的选择向服务器下载对应的语言模型，并存储到本地以作为与用户相匹配的语言模型；或者输入法应用程序在安装时下载所有语言模型到本地，在安装时，输入法应用程序可以将不同领域词库的语言模型的标识信息显示给用户，以便用户进行选择，以便后期在对语音信息识别时，优先根据用户的选择对应的语言模型进行识别，得到识别结果后，将识别结果显示在编辑界面，完成输入。

实施例二

如图3所示为本发明实施例提供的一种语音识别的装置结构示意图，本发明实施例的语音识别装置30可以包括：语音获取模块301、语音识别模块302。

其中，语音获取模块301，用于获取采集到的用户输入的语音信息；

语音识别模块302，用于根据至少一个与用户相匹配的语言模型对语音信息进行识别，得到语音识别结果。

本发明实施例提供的语音识别装置，利用至少一个与用户相匹配的语言模型对语音信息进行识别，这种通过与用户相匹配的语言模型对语音信息进行识别的方式，实现了通过指定语言模型以识别语音信息的目的，不仅提高了对语音信息识别的精确度，保证了识别结果能够符合用户的个性化需求，而且提高了语音识别的准确性和识别效率，解决了相关技术中采用的无差别的通用语言模型进行识别导致无法识别甚至错误识别的技术问题，提高了用户体验。

本实施例的语音识别装置可执行本发明实施例一提供的语音识别方法，其实现原理相类似，此处不再赘述。

进一步，如图4所示，该装置30还包括：第一模型确定模块303、自定义词库获取模块304、个性化模型生成模块305和第二模型确定模块306。

其中，第一模型确定模块303用于在根据至少一个与用户相匹配语言模型对语音信息进行识别之前，确定至少一个与用户相匹配的语言模型；

自定义词库获取模块304，用于获取用户自定义的词库；

个性化模型生成模块305，用于基于用户自定义的词库，生成用户的个性化语言模型，

第二模型确定模块306用于在根据至少一个与用户相匹配的语言模型对语音信息进行识别前，将用户的个性化语言模型确定为与用户相匹配的语言模型。

在一些实施例中，第一模型确定模块303包括：第一确定单元3031(图中未示出)，其中，第一确定单元3031，用于基于接收到的用户针对语言模型的选择指令，确定至少一个与用户相匹配的语言模型。

在一些实施例中，第一模型确定模块303包括：用户数据单元3032(图中未示出)和第二确定单元3033(图中未示出)，其中，

用户数据单元3031，用于获取用户的历史输入记录和/或用户属性；

第二确定单元3033，用于根据历史输入记录和/或用户属性确定用户对应的至少一个领域，并将至少一个领域对应的语言模型作为与用户相匹配的语言模型。

进一步，如图4所示，该装置30还包括：模型再确定模块307。

其中，模型再确定模块307，用于基于用户自定义的词库，更新与用户相匹配的语言模型。

本实施例提供的语音识别装置可以基于用户自定义的词库更新与用户相匹配的语言模型，以实现根据用户自定义的词库对语音信息进行识别，提高识别效率的目的。

具体应用时，本发明实施例提供的语音识别装置可以不包括自定义词库获取模块和个性化模型生成模块，实现通过获取用户自定义的词库，以实现更新与用户相匹配的语言模型的目的。

本发明实施例的语音识别装置可执行实施例一提供的语音识别方法，其实现原理相类似，此处不再赘述。

实施例三

本发明实施例提供了一种电子设备，如图5所示，图5所示的电子设备600包括：处理器6001和存储器6003。其中，处理器6001和存储器6003相连，如通过总线6002相连。进一步地，电子设备600还可以包括收发器6006。需要说明的是，实际应用中收发器6006不限于一个，该电子设备600的结构并不构成对本发明实施例的限定。

处理器6001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器6001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线6002可包括一通路，在上述组件之间传送信息。总线6002可以是PCI总线或EISA总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器6003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器6003用于存储执行本发明方案的应用程序代码，并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的应用程序代码，以实现图3及图4所示实施例提供的语音识别装置。

本发明实施例提供的应用语音识别方法的电子设备，利用至少一个与用户相匹配的语言模型对语音信息进行识别，这种通过与用户相匹配的语言模型对语音信息进行识别的方式，实现了通过指定语言模型以识别语音信息的目的，不仅提高了对语音信息识别的精确度，保证了识别结果能够符合用户的个性化需求，而且提高了语音识别的准确性和识别效率，解决了相关技术中采用的无差别的通用语言模型进行识别导致无法识别甚至错误识别的技术问题，提高了用户体验。

实施例四

本发明实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例一所示的语音识别方法。

本发明实施例提供的一种非暂态计算机可读存储介质，与现有技术相比较，利用至少一个与用户相匹配的语言模型对语音信息进行识别，这种通过与用户相匹配的语言模型对语音信息进行识别的方式，实现了通过指定语言模型以识别语音信息的目的，不仅提高了对语音信息识别的精确度，保证了识别结果能够符合用户的个性化需求，而且提高了语音识别的准确性和识别效率，解决了相关技术中采用的无差别的通用语言模型进行识别导致无法识别甚至错误识别的技术问题，提高了用户体验。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取采集到的用户输入的语音信息；

根据至少一个与所述用户相匹配的语言模型对所述语音信息进行识别，得到语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据至少一个与所述用户相匹配语言模型对所述语音信息进行识别之前，还包括：

确定至少一个与所述用户相匹配的语言模型。

3.根据权利要求2所述的方法，其特征在于，所述确定至少一个与所述用户相匹配的语言模型，包括：

基于接收到的所述用户针对语言模型的选择指令，确定至少一个与所述用户相匹配的语言模型。

4.根据权利要求2所述的方法，其特征在于，所述确定至少一个与所述用户相匹配的语言模型，包括：

获取用户的历史输入记录和/或用户属性；

根据所述历史输入记录和/或用户属性确定所述用户对应的至少一个领域，并将至少一个领域对应的语言模型作为与所述用户相匹配的语言模型。

5.根据权利要求2所述的方法，其特征在于，所述确定至少一个与所述用户相匹配的语言模型，包括：

获取所述用户自定义的词库；

基于所述用户自定义的词库，生成所述用户的个性化语言模型；

将所述用户的个性化语言模型确定为与所述用户相匹配的语言模型。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述用户自定义的词库，更新与所述用户相匹配的语言模型。

7.一种语音识别装置，其特征在于，包括：

语音获取模块，用于获取采集到的用户输入的语音信息；

语音识别模块，用于根据至少一个与所述用户相匹配的语言模型对所述语音信息进行识别，得到语音识别结果。

8.根据权利要求7所述的装置，其特征在于，所述语音识别模块在根据至少一个与所述用户相匹配语言模型对所述语音信息进行识别之前，所述装置还包括：

模型确定模块，用于确定至少一个与所述用户相匹配的语言模型。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至6中任一项所述的语音识别方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至6中任一项所述的语音识别方法。