WO2021128880A1

WO2021128880A1 - 一种语音识别方法、装置和用于语音识别的装置

Info

Publication number: WO2021128880A1
Application number: PCT/CN2020/110037
Authority: WO
Inventors: 郑宏
Original assignee: 北京搜狗科技发展有限公司
Priority date: 2019-12-26
Filing date: 2020-08-19
Publication date: 2021-07-01
Also published as: CN111145756B; CN111145756A

Abstract

一种语音识别方法和用于语音识别的装置(800)。该方法具体包括：接收用户输入的语音信息(101)；获取该用户的个性化词库，该个性化词库为根据该用户使用输入法过程中产生的历史输入内容所建立(102)；根据该个性化词库，确定该语音信息对应的解码路径权重(103)；根据该解码路径权重，确定该语音信息对应的语音识别结果(104)。该方法及装置(800)可以提高语音识别的准确性。

Description

一种语音识别方法、装置和用于语音识别的装置

本申请要求在2019年12月26日提交中国专利局、申请号为201911369489.9、发明名称为“一种语音识别方法、装置和用于语音识别的装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音识别方法、装置和用于语音识别的装置。

背景技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。随着科学技术的不断发展，语音识别技术得到了飞速的发展，语音识别的准确率不断提高，在人机交互领域的应用正在逐步扩大。

在实际应用中，不同用户说出相同发音的语音时，可能对应不同的含义。例如，用户A说“libing”时，用户A想要得到的语音识别结果是“李冰”，而用户B说“libing”时，用户B想要得到的语音识别结果是“李兵”。在这种情况下，可能导致语音识别的准确性较低。

发明内容

本申请实施例提供一种语音识别方法、装置和用于语音识别的装置，可以提语音识别的准确性。

为了解决上述问题，本申请实施例公开了一种语音识别方法，所述方法包括：

接收用户输入的语音信息；

获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；

根据所述个性化词库，确定所述语音信息对应的解码路径权重；

根据所述解码路径权重，确定所述语音信息对应的语音识别结果。

另一方面，本申请实施例公开了一种语音识别装置，所述装置包括：

语音接收模块，用于接收用户输入的语音信息；

词库获取模块，用于获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；

权重确定模块，用于根据所述个性化词库，确定所述语音信息对应的解码路径权重；

结果确定模块，用于根据所述解码路径权重，确定所述语音信息对应的语音识别结果。

再一方面，本申请实施例公开了一种用于语音识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收用户输入的语音信息；

又一方面，本申请实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音识别方法。

本申请实施例包括以下优点：

本申请实施例在接收用户输入的语音信息之后，获取所述用户的个性化词库，并且根据所述个性化词库，确定所述语音信息对应的解码路径权重，以及根据所述解码路径权重，确定所述语音信息对应的语音识别结果。由于所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立，该个性化词库符合用户的输入习惯，在对用户输入的语音信息进行解码过程中可以根据用户的个性化词库对语音解码路径进行实时加权，从而使得最终的识别结果倾向于用户的输入习惯，进而可以提高语音识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一种语音识别方法实施例的步骤流程图；

图2是本申请的一种语音识别装置实施例的结构框图；

图3是本申请的一种用于语音识别的装置800的框图；及

图4是本申请的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例

参照图1，示出了本申请的一种语音识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、接收用户输入的语音信息；

步骤102、获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；

步骤103、根据所述个性化词库，确定所述语音信息对应的解码路径权重；

步骤104、根据所述解码路径权重，确定所述语音信息对应的语音识别结果。

本申请实施例的语音识别方法可适用于电子设备，所述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本申请实施例的语音识别方法可用于自动识别用户输入的语音信息，将该语音信息转化为对应的文本信息。所述语音信息可以是一段连续的语音，例如一个句子、一段话等。可以理解，本申请实施例对所述语音信息的来源不加以限制，例如，所述语音信息可以为通过所述电子设备的录音功能实时采集的语音片段。

在本申请的一种可选实施例中，所述获取用户输入的语音信息，具体可以包括：获取用户通过即时通讯应用输入或发送或接收的语音信息。

其中，所述即时通讯应用是通过即时通讯技术来实现在线聊天、交流的应用程序。本申请实施例获取的语音信息可以包括：用户通过即时通讯应用输入的语音信息、用户通过即时通讯应用向通讯对端发送的语音信息、用户通过即时通讯应用从通讯对端接收的语音信息。

在本申请实施例中，可以根据预先设定的窗长和帧移，将用户输入的语音信息切分多帧语音片段。其中，窗长可以用于代表每一帧语音片段的时长，帧移可以用于代表相邻帧之间的时差。例如，当窗长为25ms帧移15ms时，第一帧语音片段为0～25ms，第二帧语音片段为15～40ms，依次类推。具体的窗长和帧移可以根据实际需求自行设定，本申请实施例对此不做限定。

可选地，在将所述语音信息切分多帧语音片段之前，所述电子设备还可以对所述语音信息进行降噪处理，以提高后续***对该信息的处理能力。

为了提高语音识别的准确性，本申请实施例预先为用户建立个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立，可以反映用户的输入习惯。

目前语音识别过程中，导致语音识别不够准确的主要问题在于对同音词的替换出现错误。例如，用户A说“libing”时，用户A想要得到的语音识别结果是“李冰”，而用户B说“libing”时，用户B想要得到的语音识别结果是“李兵”。对于同音词“libing”，不同的用户具有不同的语音识别意图。

本申请实施例基于每个用户在使用输入法过程中产生的历史输入内容，为每个用户建立自身的个性化词库，该个性化词库符合用户的输入习惯，根据用户的个性化词库，可以确定用户输入的语音信息对应的解码路径权重，进而可以根据该解码路径权重，确定该语音信息对应的语音识别结果。

其中，用户在使用输入法过程中产生的历史输入内容，具体可以包括：当前光标位置之前已上屏的文本内容、或者用户拷贝的文本内容等。所述历史输入内容还可以为用户在即时通讯应用中输入的向通信对端发送的文本内容，或者，还可以为用户在浏览器、文档、微博、邮件等输入环境中输入的文本内容；可以理解，本申请实施例对于所述历史输入内容的具体来源不加以限制。

在本申请的一种应用示例中，当接收到用户A输入的“libing”语音信息时，语音解码器在对用户A的语音信息进行解码的过程中，结合用户A的个性化词库，可以得知用户A使用输入法过程中产生的历史输入内容经常包含“李冰”，因此，可以对包含“李冰”的解码路径增加额外的权重，使得该解码路径被优先选择，进而得到用户A的语音信息的语音识别结果为“李冰”。

由此，使用本申请的语音识别方法，在接收用户通过麦克风输入的语音信息之后，语音解码器可以自动加载该用户的个性化词库，然后在解码过程中对于命中该个性化词库的解码路径进行实时加权，从而使得最终的识别结果倾向于用户的输入习惯，进而可以提高语音识别的准确性。

在本申请的一种可选实施例中，所述获取所述用户的个性化词库之前，所述方法还可以包括：

步骤S11、收集所述用户在使用输入法过程中产生的历史输入内容；

步骤S12、对所述历史输入内容进行预处理，得到预处理后的历史输入内容；

步骤S13、对所述预处理后的历史输入内容中的非个性化词汇进行过滤，得到个性化词汇；

步骤S14、根据所述个性化词汇，建立所述用户的个性化词库。

本申请实施例可以在用户使用输入法的过程中，保存用户通过输入法产生的历史输入内容，根据这些历史输入内容，建立用户的个性化词库。

可以理解，所述历史输入内容可以存储在用户的终端设备，或者可以存储在云端服务器。本申请实施例可以对用户的历史输入内容进行预处理，例如对历史输入内容进行数据清洗，去除噪音数据等，得到预处理后的历史输入内容。然后对预处理后的历史输入内容中的非个性化词汇进行过滤，得到个性化词汇。其中，所述非个性化词汇可以包括连词、介词、虚词等。所述个性化词汇可以包括常用人名、地名、机构名、个人习惯用语、领域兴趣词汇、网络热词等。可以理解，所述个性化词汇的种类可以根据实际需要预先设置，本申请实施例对所述个性化词汇的种类不加以限制。所述个性化词汇可以作为用户的一种画像描述。

所述个性化词库可以存储在用户的终端设备，或者可以存储在云端服务器，并且用户的个性化词库与用户的身份信息具有一一对应的关系。例如，可以建立用户标识与用户的个性化词库之间的对应关系，或者，还可以建立用户的声纹特征与用户的个性化词库之间的对应关系。

当用户对着终端设备的麦克风输入一段语音之后，可以获取该用户的用户标识，如登录账号等；或者，还可以对该用户输入的语音进行声纹识别，得到该用户的声纹特征。根据该用户的用户标识或者声纹特征，可以从云端服务器加载该用户的个性化词库，在对该用户输入的语音信息进行语音识别的过程中，对于命中个性化词库的解码路径的权重可以进行实时加强，从而使得最终语音识别的结果倾向于该用户个性化词库中的个性化词汇，符合该用户的输入习惯。

可选地，对于用户的个性化词库，可以周期性地进行更新。例如，在建立用户的个性化词库之后，可以实时获取用户通过输入法产生的输入内容，并且对该输入内容进行预处理以及过滤，得到个性化词汇，加入到用户已有的个性化词库中，使得用户的个性化词库可以不断更新，不断适应用户新的输入习惯和喜好。

在本申请的一种可选实施例中，所述建立所述用户的个性化词库之后，所述方法还可以包括：

步骤S21、计算至少两个用户的个性化词库之间的相似度；

步骤S22、若确定所述相似度满足预设条件，则对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库。

在具体应用中，有些用户具有相似的输入习惯，通常也具有相同或相近的语音识别结果。因此，本申请实施例通过对不同用户的个性化词库计算相似度，判断用户是否具有相似的输入习惯，并且对具有相似输入习惯的用户的个性化词库进行合并，以实现对用户的个性化词库进行扩充。

具体地，如果至少两个用户的个性化词库之间的相似度满足预设条件，说明该至少两个用户具有相似的输入习惯，则可以对该至少两个用户的个性化词库进行合并，得到合并后的个性化词库。

例如，对于用户U和用户V，如果用户U的个性化词库N(u)和用户V的个性化词库N(v)之间的相似度满足预设条件，则可以将N(u)和N(v)进行合并，得到合并后的个性化词库N(uv)，合并后的个性化词库N(uv)中包括N(u)中的个性化词汇和N(v)中的个性化词汇。步骤102所述获取所述用户的个性化词库，具体可以包括：获取所述合并后的个性化词库。

在对用户U输入的语音信息进行识别的过程中，可以加载合并后的个性化词库N(uv)，根据N(uv)中的个性化词汇，确定该语音信息对应的解码路径权重。同样地，在对用户V输入的语音信息进行识别的过程中，可以加载合并后的个性化词库N(uv)，根据N(uv)中的个性化词汇，确定该语音信息对应的解码路径权重。由此，用户U和用户V的个性化词库均得到了扩充，这样可以更加丰富用户的个性化词库，进一步提高语音识别的准确性。

在本申请的一种可选实施例中，所述计算至少两个用户的个性化词库之间的相似度，具体可以包括：

步骤S31、根据所述至少两个用户的个性化词库包含的共同词汇量，计算所述至少两个用户的个性化词库之间的余弦距离；

步骤S32、根据所述余弦距离，计算所述至少两个用户的个性化词库之间的相似度。

通常，如果两个用户的个性化词库中包含的共同的个性化词汇越多，说明这两个用户的输入习惯越相似，也即这两个用户的个性化词库的相似度越高。因此，本申请实施例可以通过用户个性化词库中包含的共同的个性化词汇来计算用户之间的相似度。

具体地，本申请实施例可以根据至少两个用户的个性化词库包含的共同词汇量，计算所述至少两个用户的个性化词库之间的余弦距离。其中，所述共同词汇量指的是共同的个性化词汇的数量。

例如，对于用户U和用户V，令N(u)表示用户U的个性化词库，其中包括用户U的个性化词汇；令N(v)表示用户V的个性化词库，其中包括用户V的个性化词汇。那么，可以通过余弦距离来计算N(u)和N(v)之间的相似度W _UV，具体如下：

根据公式(1)可以看出，N(u)和N(v)的共同词汇量越多，那么他们之间的相似度也就越高。步骤S22确定所述至少两个用户的个性化词库之间的相似度满足预设条件，具体可以包括：若所述至少两个用户的个性化词库之间的余弦距离小于预设阈值，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。也即，如果W _UV小于预设阈值，则可以确定用户U的个性化词库N(u)和用户V的个性化词库N(v)之间的相似度满足预设条件，N(u)和N(v)可以合并。

步骤S41、根据所述个性化词库中个性化词汇对应的领域，对所述个性化词汇进行分类；

步骤S42、对所述个性化词库中不同领域对应的个性化词汇进行统计，确定所述个性化词库对应的个性化标签。

本申请实施例在建立用户的个性化词库之后，还可以确定用户的个性化词库中个性化词汇所属的领域，进而可以对用户的个性化词库打上表示领域倾向的个性化标签。

例如，如果用户的个性化词库中包含“火锅”、“西餐”、“网红餐厅”等个性化词汇，由于这些个性化词汇对应的领域为“美食”，则可以确定该用户的个性化词库对应的个性化标签为“吃货”、“美食”等。又如，如果用户的个性化词库中包含“区块链”、“人脸识别”、“云计算”等个性化词汇，由于这些个性化词汇对应的领域为“IT科技”，则可以确定该用户的个性化词库对应的个性化标签为“IT工程师”、“IT科技”等。

在本申请实施例中，可以预先设置不同领域对应的个性化词汇，对用户的个性化词库中不同领域对应的个性化词汇进行统计，可以确定个性化词库对应的个性化标签。在实际应用中，如果某一个用户的个性化词库中包含多个不同领域对应的个性化词汇，则可以对该用户的个性化词库打上多个不同的个性化标签。例如，对某用户的个性化词库中不同领域对应的个性化词汇进行统计，得到该用户的个性化词库中包括“财经”领域、“司法”领域、“医疗健康”领域等多个领域的个性化词汇，则可以为该用户的个性化词库打上“财经”、“司法”、以及“医疗健康”等多个个性化标签。

步骤S22确定所述至少两个用户的个性化词库之间的相似度满足预设条件，具体可以包括：若所述至少两个用户的个性化词库具有相同的个性化标签，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。

如果两个用户具有相同的个性化标签，说明这两个用户具有相同的领域倾向，例如这两个用户可能从事相同的职业，或者具有相同的爱好等。因此，若确定至少两个用户的个性化词库具有相同的个性化标签，则可以确定所述至少两个用户的个性化词库之间的相似度满足预设条件，可以将所述至少两个用户的个性化词库进行合并。

在本申请的一种可选实施例中，步骤S22中所述对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库，具体可以包括：

对所述至少两个用户的个性化词库中的全部词汇进行合并，得到合并后的个性化词库；或者

对所述至少两个用户的个性化词库中的满足匹配条件的词汇进行合并，得到合并后的个性化词库。

在本申请实施例中，在确定相似度满足预设条件的至少两个用户的个性化词库之后，可以对该至少两个用户的个性化词库进行合并，合并可以采用两种方案。

具体地，可以对待合并的个性化词汇中的全部词汇进行合并，例如，对于用户U和用户V，令N(u)表示用户U的个性化词库，其中包括用户U的个性化词汇；令N(v)表示用户V的个性化词库，其中包括用户V的个性化词汇。如果N(u)和N(v)的相似度满足预设条件，则可以将N(u)中的全部词汇和N(v)中的全部词汇进行合并，当然，合并后可以进行去重等处理，得到合并后的个性化词库。

或者，还可以仅对待合并的个性化词汇中的满足匹配条件的词汇进行合并。其中，所述匹配条件可以包括：属于相同的领域、具有相同的个性化标签等。可以理解，本领域技术人员可以根据实际需要设置所述匹配条件。例如，在上述示例中，确定N(u)和N(v)的相似度满足预设条件之后，可以进一步在N(u)和N(v)中确定满足匹配条件的词汇，如确定N(u)和N(v)中属于相同领域的词汇，进而仅对N(u)和N(v)中属于相同领域的词汇进行合并，当然，合并后可以进行去重等处理，得到合并后的个性化词库。

在本申请的一种可选实施例中，所述根据所述个性化词库，确定所述语音信息对应的解码路径权重，具体可以包括：

步骤S51、对所述语音信息对应各解码路径的词序列，分别与所述个性化词库进行匹配；

步骤S52、根据所述词序列在所述个性化词库中的匹配词汇对应的词频信息，确定所述匹配词汇对应解码路径的权重。

本申请实施例可以通过预设的解码网络，对所述语音信息对应的语音片段逐帧进行声学模型打分和语言模型查分，以得到语音识别结果。其中，解码网络的基本结构是一个有向图，由结点和弧组成。每个弧上可以保存一个词条以及这个词条的声学模型信息和/或语言模型信息。在实践中，声学模型信息一般表现为声学模型得分，语言模型信息一般表现为语言模型得分，语音识别就是根据输入的语音数据在这个有向图上寻找一条最优路径的过程。其中，声学模型用于从语音到音节的概率计算，语言模型用于从音节到字的概率计算。声学模型得分和语言模型得分都可以通过预先的模型训练得到。

在本申请实施例中，语音识别方法运行于其上的电子设备在对语音片段逐帧进行声学模型打分和语言模型查分后，可以根据最终的得分结果得到语音识别结果。具体地，在进行声学模型打分和语言模型查分后，可以将解码网络中每条解码路径上所有节点的得分相加，作为该解码路径的得分。然后对得分最高的一条或多条解码路径进行回溯，就可以得到相应解码路径所对应的词序列。这样，由得到的词序列所组成的短语或句子，就可以作为语音识别结果。

步骤104根据所述解码路径权重，确定所述语音信息对应的语音识别结果，具体可以包括：根据所述各解码路径的词序列中所述匹配词汇对应解码路径的权重，确定所述语音信息对应的语音识别结果。

本申请实施例在上述解码过程中，对每一条解码路径对应的词序列，分别与用户的个性化词库进行匹配，如果其中一个或多个词序列在所述个性化词库中存在匹配词汇，则根据所述匹配词汇对应的词频信息，确定所述匹配词汇对应解码路径的权重。例如，对于用户U，其经常通过输入法输入“李冰”，则其个性化词库中可以包括个性化词汇“李冰”以及该个性化词汇对应的词频。当用户U通过麦克风输入语音信息“libing”时，语音解码器对该语音信息进行解码的过程中，会对每一条解码路径对应的词序列，分别与用户的个性化词库进行匹配。假设词序列“李冰”和“李兵”在用户U的个性化词库中均存在匹配词汇，则获取该个性化词库中匹配词汇“李冰”和“李兵”的词频，假设“李冰”的词频大于“李兵”，则可以确定解码路径“李冰”对应的权重大于解码路径“李兵”的权重。由此，可以得到最终的识别结果为“李冰”，该识别结果符合用户U的输入习惯，因此识别结果更加准确。

在本申请的一种可选实施例中，步骤104根据所述解码路径权重，确定所述语音信息对应的语音识别结果之后，所述方法还可以包括：

步骤S61、获取所述匹配词汇在所述语音识别结果中的上下文信息；

步骤S62、根据所述上下文信息，对所述语音识别结果进行纠错，得到纠错后的语音识别结果。

在实际应用中，用户个性化词库中的个性化词汇虽然可以反应用户的输入习惯，但是仅根据个性化词汇确定解码路径的权重，可能会导致一些误激励。例如，假设某用户输入的语音信息为“lijiewansui”(理解万岁)，由于该用户的个性化词库中包含词频较高的个性化词汇“李姐”，则可能得到“李姐万岁”这个识别结果。然而，根据上下文信息可以得知，该用户更想输出的结果可能是“理解万岁”，导致识别结果有误。

因此，本申请实施例在确定所述语音信息对应的语音识别结果之后，还可以获取所述匹配词汇在所述语音识别结果中的上下文信息，并根据所述上下文信息，对所述语音识别结果进行纠错，得到纠错后的语音识别结果。

例如，在上述示例中，根据用户的个性化词库可以确定语音识别结果为“李姐万岁”，此时，可以获取所述匹配词汇“李姐”在所述语音识别结果中的上下文信息。如获取得到该语音信息的语音识别结果为“李姐万岁，思恋无罪”，根据下文信息“思恋无罪”可以确定该语音识别结果有误，则可以对该语音识别结果进行纠错。具体地，可以获取该语音信息对应的解码路径权重次高的词序列，假设为“理解”，且“理解万岁”与当前上下文信息相符，则可以使用“理解”对“李姐”进行纠错，得到纠错后的语音识别结果“理解万岁”，并且输出纠错后的语音识别结果。

综上，本申请实施例在接收用户输入的语音信息之后，可以获取所述用户的个性化词库，并且根据所述个性化词库，确定所述语音信息对应的解码路径权重，以及根据所述解码路径权重，确定所述语音信息对应的语音识别结果。由于所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立，该个性化词库符合用户的输入习惯，在对用户输入的语音信息进行解码过程中可以根据用户的个性化词库对语音解码路径进行实时加权，从而使得最终的识别结果倾向于用户的输入习惯，进而可以提高语音识别的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

装置实施例

参照图2，示出了本申请的一种语音识别装置实施例的结构框图，所述装置具体可以包括：

语音接收模块201，用于接收用户输入的语音信息；

词库获取模块202，用于获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；

权重确定模块203，用于根据所述个性化词库，确定所述语音信息对应的解码路径权重；

结果确定模块204，用于根据所述解码路径权重，确定所述语音信息对应的语音识别结果。

可选地，所述装置还可以包括：

数据收集模块，用于收集所述用户在使用输入法过程中产生的历史输入内容；

数据处理模块，用于对所述历史输入内容进行预处理，得到预处理后的历史输入内容；

数据过滤模块，用于个对所述预处理后的历史输入内容中的非个性化词汇进行过滤，得到个性化词汇；

词库建立模块，用于根据所述个性化词汇，建立所述用户的个性化词库。

可选地，所述装置还可以包括：

相似度计算模块，用于计算至少两个用户的个性化词库之间的相似度；

数据库合并模块，用于若确定所述至少两个用户的个性化词库之间的相似度满足预设条件，则对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库；

所述词库获取模块，具体用于获取所述合并后的个性化词库。

可选地，所述相似度计算模块，具体可以包括：

距离计算子模块，用于根据所述至少两个用户的个性化词库包含的共同词汇量，计算所述至少两个用户的个性化词库之间的余弦距离；

相似度计算子模块，用于根据所述余弦距离，计算所述至少两个用户的个性化词库之间的相似度；

所述数据库合并模块，具体可以包括：

第一确定子模块，用于若所述至少两个用户的个性化词库之间的余弦距离小于预设阈值，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。

可选地，所述装置还可以包括：

词汇分类模块，用于根据所述个性化词库中个性化词汇对应的领域，对所述个性化词汇进行分类；

标签建立模块，用于对所述个性化词库中不同领域对应的个性化词汇进行统计，确定所述用户对应的个性化标签；

可选地，所述数据库合并模块，具体可以包括：

第一合并子模块，用于对所述至少两个用户的个性化词库中的全部词汇进行合并，得到合并后的个性化词库；或者

第一合并子模块，用于对所述至少两个用户的个性化词库中的满足匹配条件的词汇进行合并，得到合并后的个性化词库。

所述数据库合并模块，具体可以包括：

第二确定子模块，用于若所述至少两个用户的个性化词库具有相同的个性化标签，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。

可选地，所述权重确定模块，具体可以包括：

词库匹配子模块，用于对所述语音信息对应各解码路径的词序列，分别与所述个性化词库进行匹配；

权重确定子模块，用于根据所述词序列在所述个性化词库中的匹配词汇对应的词频信息，确定所述匹配词汇对应解码路径的权重；

所述结果确定模块，具体用于根据所述各解码路径的词序列中所述匹配词汇对应解码路径的权重，确定所述语音信息对应的语音识别结果。

可选地，所述装置还可以包括：

上下文获取模块，用于获取所述匹配词汇在所述语音识别结果中的上下文信息；

结果纠错模块，用于根据所述上下文信息，对所述语音识别结果进行纠错，得到纠错后的语音识别结果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例提供了一种用于语音识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：接收用户输入的语音信息；获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；根据所述个性化词库，确定所述语音信息对应的解码路径权重；根据所述解码路径权重，确定所述语音信息对应的语音识别结果。

图3是根据一示例性实施例示出的一种用于语音识别的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本申请的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音识别方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音识别方法，所述方法包括：接收用户输入的语音信息；获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；根据所述个性化词库，确定所述语音信息对应的解码路径权重；根据所述解码路径权重，确定所述语音信息对应的语音识别结果。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

以上对本申请所提供的一种语音识别方法、一种语音识别装置和一种用于语音识别的装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种语音识别方法，其特征在于，所述方法包括：

接收用户输入的语音信息；

获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；

根据所述个性化词库，确定所述语音信息对应的解码路径权重；

根据所述解码路径权重，确定所述语音信息对应的语音识别结果。
根据权利要求1所述的方法，其特征在于，所述获取所述用户的个性化词库之前，所述方法还包括：

收集所述用户在使用输入法过程中产生的历史输入内容；

对所述历史输入内容进行预处理，得到预处理后的历史输入内容；

对所述预处理后的历史输入内容中的非个性化词汇进行过滤，得到个性化词汇；

根据所述个性化词汇，建立所述用户的个性化词库。
根据权利要求2所述的方法，其特征在于，所述建立所述用户的个性化词库之后，所述方法还包括：

计算至少两个用户的个性化词库之间的相似度；

若确定所述至少两个用户的个性化词库之间的相似度满足预设条件，则对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库；

所述获取所述用户的个性化词库，包括：

获取所述合并后的个性化词库。
根据权利要求3所述的方法，其特征在于，所述计算至少两个用户的个性化词库之间的相似度，包括：

根据所述至少两个用户的个性化词库包含的共同词汇量，计算所述至少两个用户的个性化词库之间的余弦距离；

根据所述余弦距离，计算所述至少两个用户的个性化词库之间的相似度；

所述确定所述至少两个用户的个性化词库之间的相似度满足预设条件，包括：

若所述至少两个用户的个性化词库之间的余弦距离小于预设阈值，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。
根据权利要求3所述的方法，其特征在于，所述建立所述用户的个性化词库之后，所述方法还包括：

根据所述个性化词库中个性化词汇对应的领域，对所述个性化词汇进行分类；

对所述个性化词库中不同领域对应的个性化词汇进行统计，确定所述用户对应的个性化标签；

所述确定所述至少两个用户的个性化词库之间的相似度满足预设条件，包括：

若所述至少两个用户的个性化词库具有相同的个性化标签，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。
根据权利要求3所述的方法，其特征在于，所述对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库，包括：

对所述至少两个用户的个性化词库中的全部词汇进行合并，得到合并后的个性化词库；或者

对所述至少两个用户的个性化词库中的满足匹配条件的词汇进行合并，得到合并后的个性化词库。
根据权利要求1所述的方法，其特征在于，所述根据所述个性化词库，确定所述语音信息对应的解码路径权重，包括：

对所述语音信息对应各解码路径的词序列，分别与所述个性化词库进行匹配；

根据所述词序列在所述个性化词库中的匹配词汇对应的词频信息，确定所述匹配词汇对应解码路径的权重；

所述根据所述解码路径权重，确定所述语音信息对应的语音识别结果，包括：

根据所述各解码路径的词序列中所述匹配词汇对应解码路径的权重，确定所述语音信息对应的语音识别结果。
根据权利要求7所述的方法，其特征在于，所述根据所述解码路径权重，确定所述语音信息对应的语音识别结果之后，所述方法还包括：

获取所述匹配词汇在所述语音识别结果中的上下文信息；

根据所述上下文信息，对所述语音识别结果进行纠错，得到纠错后的语音识别结果。
一种语音识别装置，其特征在于，所述装置包括：

语音接收模块，用于接收用户输入的语音信息；

词库获取模块，用于获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；

权重确定模块，用于根据所述个性化词库，确定所述语音信息对应的解码路径权重；

结果确定模块，用于根据所述解码路径权重，确定所述语音信息对应的语音识别结果。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

数据收集模块，用于收集所述用户在使用输入法过程中产生的历史输入内容；

数据处理模块，用于对所述历史输入内容进行预处理，得到预处理后的历史输入内容；

数据过滤模块，用于个对所述预处理后的历史输入内容中的非个性化词汇进行过滤，得到个性化词汇；

词库建立模块，用于根据所述个性化词汇，建立所述用户的个性化词库。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

相似度计算模块，用于计算至少两个用户的个性化词库之间的相似度；

数据库合并模块，用于若确定所述至少两个用户的个性化词库之间的相似度满足预设条件，则对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库；

所述词库获取模块，具体用于获取所述合并后的个性化词库。
根据权利要求11所述的装置，其特征在于，所述相似度计算模块，包括：

距离计算子模块，用于根据所述至少两个用户的个性化词库包含的共同词汇量，计算所述至少两个用户的个性化词库之间的余弦距离；

相似度计算子模块，用于根据所述余弦距离，计算所述至少两个用户的个性化词库之间的相似度；

所述数据库合并模块，包括：

第一确定子模块，用于若所述至少两个用户的个性化词库之间的余弦距离小于预设阈值，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。
根据权利要求11所述的装置，其特征在于，所述装置还包括：

词汇分类模块，用于根据所述个性化词库中个性化词汇对应的领域，对所述个性化词汇进行分类；

标签建立模块，用于对所述个性化词库中不同领域对应的个性化词汇进行统计，确定所述用户对应的个性化标签；

所述数据库合并模块，包括：

第二确定子模块，用于若所述至少两个用户的个性化词库具有相同的个性化标签，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。
根据权利要求11所述的装置，其特征在于，数据库合并模块，包括：

第一合并子模块，用于对所述至少两个用户的个性化词库中的全部词汇进行合并，得到合并后的个性化词库；或者

第一合并子模块，用于对所述至少两个用户的个性化词库中的满足匹配条件的词汇进行合并，得到合并后的个性化词库。
根据权利要求9所述的装置，其特征在于，所述权重确定模块，包括：

词库匹配子模块，用于对所述语音信息对应各解码路径的词序列，分别与所述个性化词库进行匹配；

权重确定子模块，用于根据所述词序列在所述个性化词库中的匹配词汇对应的词频信息，确定所述匹配词汇对应解码路径的权重；

所述结果确定模块，具体用于根据所述各解码路径的词序列中所述匹配词汇对应解码路径的权重，确定所述语音信息对应的语音识别结果。
根据权利要求15所述的装置，其特征在于，所述装置还包括：

上下文获取模块，用于获取所述匹配词汇在所述语音识别结果中的上下文信息；

结果纠错模块，用于根据所述上下文信息，对所述语音识别结果进行纠错，得到纠错后的语音识别结果。
一种用于语音识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收用户输入的语音信息；

获取所述用户的个性化词库，所述个性化词库为根据所述用户使用输入法过程中产生的历史输入内容所建立；

根据所述个性化词库，确定所述语音信息对应的解码路径权重；

根据所述解码路径权重，确定所述语音信息对应的语音识别结果。
根据权利要求17所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

收集所述用户在使用输入法过程中产生的历史输入内容；

对所述历史输入内容进行预处理，得到预处理后的历史输入内容；

对所述预处理后的历史输入内容中的非个性化词汇进行过滤，得到个性化词汇；

根据所述个性化词汇，建立所述用户的个性化词库。
根据权利要求18所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

计算至少两个用户的个性化词库之间的相似度；

若确定所述至少两个用户的个性化词库之间的相似度满足预设条件，则对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库；

所述获取所述用户的个性化词库，包括：

获取所述合并后的个性化词库。
根据权利要求19所述的装置，其特征在于，所述计算至少两个用户的个性化词库之间的相似度，包括：

根据所述至少两个用户的个性化词库包含的共同词汇量，计算所述至少两个用户的个性化词库之间的余弦距离；

根据所述余弦距离，计算所述至少两个用户的个性化词库之间的相似度；

所述确定所述至少两个用户的个性化词库之间的相似度满足预设条件，包括：

若所述至少两个用户的个性化词库之间的余弦距离小于预设阈值，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。
根据权利要求19所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据所述个性化词库中个性化词汇对应的领域，对所述个性化词汇进行分类；

对所述个性化词库中不同领域对应的个性化词汇进行统计，确定所述用户对应的个性化标签；

所述确定所述至少两个用户的个性化词库之间的相似度满足预设条件，包括：

若所述至少两个用户的个性化词库具有相同的个性化标签，则确定所述至少两个用户的个性化词库之间的相似度满足预设条件。
根据权利要求19所述的装置，其特征在于，所述对所述至少两个用户的个性化词库进行合并，得到合并后的个性化词库，包括：

对所述至少两个用户的个性化词库中的全部词汇进行合并，得到合并后的个性化词库；或者

对所述至少两个用户的个性化词库中的满足匹配条件的词汇进行合并，得到合并后的个性化词库。
根据权利要求17所述的装置，其特征在于，所述根据所述个性化词库，确定所述语音信息对应的解码路径权重，包括：

对所述语音信息对应各解码路径的词序列，分别与所述个性化词库进行匹配；

根据所述词序列在所述个性化词库中的匹配词汇对应的词频信息，确定所述匹配词汇对应解码路径的权重；

所述根据所述解码路径权重，确定所述语音信息对应的语音识别结果，包括：

根据所述各解码路径的词序列中所述匹配词汇对应解码路径的权重，确定所述语音信息对应的语音识别结果。
根据权利要求23所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取所述匹配词汇在所述语音识别结果中的上下文信息；

根据所述上下文信息，对所述语音识别结果进行纠错，得到纠错后的语音识别结果。
一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至8中一个或多个所述的语音识别方法。