CN107180084A

CN107180084A - 词库更新方法及装置

Info

Publication number: CN107180084A
Application number: CN201710313846.4A
Authority: CN
Inventors: 蒋化冰; 陈岳峰; 马晨星; 张俊杰; 谭舟; 王振超; 梁兰; 徐志强; 严婷; 郦莉
Original assignee: Shanghai Muye Robot Technology Co Ltd
Current assignee: Shanghai Mumu Jucong Robot Technology Co ltd
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2017-09-19
Anticipated expiration: 2037-05-05
Also published as: CN107180084B

Abstract

本发明实施例提供一种词库更新方法及装置，该方法包括：以若干通识语句样本和若干特定领域语句样本构成训练样本集合来进行分类模型的训练，在分类模型的输出侧获得由各训练样本分别对应的词语构成的词语集合。基于各训练样本的分类结果确定词语集合中各词语对分类模型分类正确率的贡献权重，从中选择出对分类模型分类正确率贡献程度最高的X个词语。将选出的X个词语分别与词频最高的M个词语进行发音相似度计算，根据发音相似度和预设阈值的比较结果确定X个词语对应的热词库。根据拼音相似度和预设阈值的比较结果从X个词语中选择出属于特定领域的热词，构成热词库，加入到原始识别词库中，从而提高在特定领域应用场景中对词语的识别效果。

Description

词库更新方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种词库更新方法及装置。

背景技术

在通过语音方式实现人机交互，语音助手等场景中，对用户输入语音的准确识别是重要前提。为了能够识别出用户输入的语音，往往需要预先构建语音识别词库。

目前常用的一些语音识别词库往往是为了支持普适性而提供的词库，可以称为通用识别词库。该通用的词库在被应用于特定领域中时，很可能会由于缺乏该特定领域的词语，而导致识别的准确性大大降低。为此，在特定的应用领域语音识别中，开发者可以通过向该词库中添加该领域特有的一些词语来丰富该词库。

但是，目前，加入该词库中的某领域所特有的词语，往往是开发人员根据经验人工选定的，难以保证合理性，也导致更新后词库的识别效果可能不佳。

发明内容

有鉴于此，本发明实施例提供一种词库更新方法及装置，利用训练样本的贡献权重和与原始词库中词语的发音相似度选出特定领域热词，保证选出热词的合理性，改善词语识别的效果。

本发明实施例提供一种词库更新方法，包括：

从预设通识语料库和预设特定领域语料库中，获取由若干通识语句样本和若干特定领域语句样本构成的训练样本集合；

从所述预设通识语料库中获取词频最高的M个词语；

采用所述训练样本集合对分类模型进行分类训练，获得各训练样本对应的分类结果以及由各训练样本分别对应的词语构成的词语集合；

根据所述词语集合中的各词语对所述分类模型的分类准确率的贡献权重，从所述词语集合中选择贡献权重最大的X个词语；

确定所述X个词语中的每个词语分别与所述M个词语之间的拼音相似度；

根据所述拼音相似度与预设阈值的比较结果，确定与所述X个词语对应的热词库；

将所述热词库添加到原始识别词库中。

本发明实施例提供一种词库更新装置，包括：

获取模块，用于从预设通识语料库和预设特定领域语料库中，获取由若干通识语句样本和若干特定领域语句样本构成的训练样本集合，以及从所述预设通识语料库中获取词频最高的M个词语；

训练模块，用于采用所述训练样本集合对分类模型进行分类训练；

获取模块，还用于获得各训练样本对应的分类结果以及由各训练样本分别对应的词语构成的词语集合；

选择模块，用于根据所述词语集合中的各词语对所述分类模型的分类准确率的贡献权重，从所述词语集合中选择贡献权重最大的X个词语；

确定模块，用于确定所述X个词语中的每个词语分别与所述M个词语之间的拼音相似度，以及根据所述拼音相似度与预设阈值的比较结果，确定与所述X个词语对应的热词库；

更新模块，用于将所述热词库添加到原始识别词库中。

本发明实施例提供的词库更新方法和装置，以若干通识语句样本和若干特定领域语句样本构成训练样本集合来对分类模型进行分类训练，并在分类模型的输出侧获得由各训练样本分别对应的词语构成的词语集合。进而，基于各训练样本的分类结果确定词语集合中各词语对分类模型的分类正确率的贡献权重，以便从中选择出对分类模型分类正确率贡献程度最高的X个词语。之后，为了避免将X个词语中已经存在于原始识别词库中的词语或者与已经存在于原始识别词库中的词语特别相似的词语重复添加到原始识别词库中，通过计算X个词语分别与通识语料库中词频最高的M个词语之间的拼音相似度，基于拼音相似度和预设阈值的比较结果从X个词语中选择出属于特定领域的热词，构成热词库，加入到原始识别词库中，从而可以提高在特定领域应用场景中对词语的识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的词库更新方法实施例一的流程图；

图2为本发明实施例提供的词库更新方法实施例二的流程图；

图3为本发明实施例提供的词库更新方法实施例三的流程图；

图4为本发明实施例提供的词库更新装置实施例一的结构示意图；

图5为本发明实施例提供的词库更新装置实施例二的结构示意图；

图6为本发明实施例提供的词库更新装置实施例三的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX，但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一XXX也可以被称为第二XXX，类似地，第二XXX也可以被称为第一XXX。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

图1为本发明实施例提供的词库更新方法实施例一的流程图，如图1所示，该方法包括如下步骤：

S101，从预设通识语料库和预设特定领域语料库中，获取由若干通识语句样本和若干特定领域语句样本构成的训练样本集合。

可选地，通识语料可以为大量的综合类的新闻文本，比如可以包括时政、军事、体育、文艺等类型的文本，文本多以文章为单位。可以将通识语料的各个类型的文本以单句为单位进行拆分，从而获得包含大量通识语句的通识语料库。

实际应用中，可以通过收集特定领域的问题集合，由大量问题语句来构成特定领域语料库。

可选地，可以分别从通识语料库和特定领域语料库中随机选择若干语句作为训练样本，以构成训练样本集合。其中，训练样本集合中包含的通识语句样本和特定领域语句样本在数量上一般是相等的。

S102，从预设通识语料库中获取词频最高的M个词语。

可以对通识语料库中包含的各语句进行分词处理，并且去除其中包含的诸如连词、代词等虚词，或者称为停用词。统计剩余的词语的词频，从中选择出词频最高的M个词语，M可以预先设定。

本实施例中，之所以要获得该M个词语的主要目的在于，为了以此为比较对象，协助确定属于特定领域的热词。其中，特定领域的热词是指：在特定领域中频繁出现，并且由于和常见词或者说通用词发音相似，因此容易被常见词所淹没的词语。

S103，采用训练样本集合对分类模型进行分类训练，获得各训练样本对应的分类结果以及由各训练样本分别对应的词语构成的词语集合。

将训练样本集合中的每一个训练样本依次输入分类模型进行分类训练。在分类模型的输出侧，相应地，可以依次输出各输入的训练样本所对应的分类结果，本实施例中，分类结果用于表征对应的输入训练样本是属于通识语句还是特定领域语句。

分类模型的运行过程，简单来说就是：通过对输入的训练样本进行分词处理，基于对各分词结果的分类系数进行确定，通过对各分词结果基于分类系数进行加权求和，最后将求和结果与一定的分类阈值进行比较，以确定输入的训练样本所属的分类。因此，在对各训练样本进行分类训练的过程中，还可以获得针对各训练样本的分词结果。

当全部训练样本训练完毕后，可以通过统计各训练样本分别对应的分词结果，以获得与全部的训练样本即与训练样本集合对应的词语集合。

其中，分类模型具体可以实现为分类器，可以采用现有技术中所能够提供的多种分类器，比如，基于深度学习构建的分类器。

S104，根据词语集合中的各词语对分类模型的分类准确率的贡献权重，从词语集合中选择贡献权重最大的X个词语。

利用训练样本集合对分类模型进行训练后，可以计算分类模型的准确率。准确率可以通过分类正确的训练样本数与训练样本总数的比值来确定。

进而，由于上述词语集合是由各训练样本对应的词语组成的，还可以进一步计算词语集合中各个词语对分类模型的分类准确率的贡献权重，贡献权重越大，表示该词语对分类模型准确率的贡献越大。

可选地，词语集合中每个词语的贡献权重可以通过计算每个词语的信息增益的方式来获得，信息增益越大，词语的贡献权重越高。

进而，从词语集合中选择贡献权重最大的X个词语，由于这X个词语对分类模型的分类正确率贡献程度最大，说明这X个词语在特定领域的语音识别场景中对于识别结果的作用也是很重要的，特定领域的热词很可能会包含在这X个词语中。

S105，确定X个词语中的每个词语分别与M个词语之间的拼音相似度。

S106，根据拼音相似度与预设阈值的比较结果，确定与X个词语对应的热词库。

本实施例中，从X个词语中获得特定领域的热词的方式是，基于X个词语中的每个词语分别与M个词语之间的拼音相似度，从X个词语中筛选出拼音相似度大于一定预设阈值的词语，可以由这些被筛选出的词语构成热词库。其中，预设阈值为小于1的数，意味着与M个词语相似但不同，这也与特定领域的热词包含容易被常见词所淹没的词语的含义对应。

其中，两个词语之间的拼音相似度可以通过两者拼音中重复的字母数量来衡量。

S107，将热词库添加到原始识别词库中。

将获得的热词库添加到原始识别词库中，从而在原始识别词库中扩充属于特定领域的热词。

本实施例中，以若干通识语句样本和若干特定领域语句样本构成训练样本集合来对分类模型进行分类训练，并在分类模型的输出侧获得由各训练样本分别对应的词语构成的词语集合。进而，基于各训练样本的分类结果确定词语集合中各词语对分类模型的分类正确率的贡献权重，以便从中选择出对分类模型分类正确率贡献程度最高的X个词语。之后，为了避免将X个词语中已经存在于原始识别词库中的词语或者与已经存在于原始识别词库中的词语特别相似的词语重复添加到原始识别词库中，通过计算X个词语分别与通识语料库中词频最高的M个词语之间的拼音相似度，基于拼音相似度和预设阈值的比较结果从X个词语中选择出属于特定领域的热词，构成热词库，加入到原始识别词库中，从而可以提高在特定领域应用场景中对词语的识别效果。

图2为本发明实施例提供的词库更新方法实施例二的流程图，如图2所示，该方法可以包括如下步骤：

S201，从预设通识语料库和预设特定领域语料库中，获取由若干通识语句样本和若干特定领域语句样本构成的训练样本集合，以及从预设通识语料库中获取词频最高的M个词语。

上述步骤的执行过程可以参见如图1所示实施例中的相关描述，在此不赘述。

S202，根据训练样本集合，生成N个训练样本子集合，每个训练样本子集合中包括若干通识语句样本和若干特定领域语句样本。

本实施例中，分类模型中可以包括N个分类子模型，其中N个分类子模型可以是相同或不同的。对于N个分类子模型，则需要生成N个训练样本子集合，用以分别训练N个分类子模型。可以通过在训练样本集合中随机选择若干通识语句样本和特定领域语句样本作为一个训练样本子集合的方式来生成N个训练样本子集合。值得说明的是，同一个语句样本是可以重复出现在多个训练样本子集合中的，也即是N个训练样本子集合中的训练样本可以有小部分重合。

本实施例中，通过设置N个分类子模型，可以提高训练过程的处理效率。

S203，采用N个训练样本子集合中的第i个训练样本子集合对N个分类子模型中的第i个分类子模型进行分类训练，获得第i个训练样本子集合中各训练样本对应的分类结果以及由各训练样本分别对应的词语构成的第i个词语集合，i＝1,2,…,N。

N个训练样本子集合与N个分类子模型一一对应，利用与每个分类子模型对应的训练样本子集合训练该分类子模型，训练的过程与前述实施例中的说明一致，不再赘述。只是，本实施例中，训练完成后获得的是与每个分类子模型分别对应的词语集合。

S204，根据第i个词语集合中的各词语对第i个分类子模型的分类准确率的贡献权重，从第i个词语集合中选择贡献权重最大的Y个词语。

其中，分类准确率、贡献权重的计算过程可参考前述实施例中的说明，不再赘述。其中，Y的设定比如可以是大于或等于X/N的数值。

S205，根据选择出的Y*N个词语各自对应的贡献权重，从Y*N个词语中选择出贡献权重最大的X个词语。

对从N个分类子模型分别选出的Y个词语进行汇总，根据Y*N个词语的贡献权重，从中按照贡献权重大小选出贡献权重最大的X个词语。

实际上，Y*N个词语中可能会出现重复的词语，因此，本实施例中，X个词语的选择是根据Y*N个词语的累加贡献权重进行选择的。具体地，以Y*N个词语中的任一词语i来说，其贡献权重的累加公式如下：

其中，w_i为词语i最终的贡献权重，wp_j,i为第j个分类子模型中词语i的贡献权重，A_j为第j个分类子模型的准确率，可选地，准确率可以用F1得分表示。

S206，对于X个词语中的任一词语Xi，从M个词语中筛选出字数与词语Xi的字数一致的K个词语。

针对X个词语中任意一个词语Xi，从通识语料库出现频率最高的M个词语中，选取与词语Xi字数相同的K个词语，以便于后续比较二者之间的拼音相似度。其中，之所以要选择字数相等的词语，为了避免不同字数对两个词语之间拼音相似度计算的不利影响。

S207，对词语Xi和K个词语中的任一词语Ki，分别进行拼音变换。

将词语Xi和与词语Xi字数相同的K个词语中的任一词语Ki进行拼音变换，具体的拼音变换规则如下：

(1)翘舌声母变性：ch->c^,zh->z^,sh->s^，r->^；

(2)声母变化：ue->v+；

(3)[e]变换：拼音中包含有类似英文音标[e]的发音，对此做了一个特殊变换，有三个情况，ue->v+，yan，-ian转为y+n，-i+n,但是-iang不变；

(4)翘舌，平舌后面跟的i转为_，如si->s_；

(5)零声母音节变换：wan->uan,yi->i；

(6)特殊变化wen->un，但weng->ueng不做特殊变化。

基于上述拼音变换，可以降低词语中对发音相似度影响较小的字母对拼音相似度的干扰，保证词语Xi与词语Ki的拼音相似度计算结果的准确性。

S208，确定经拼音变换后的词语Xi和词语Ki之间的拼音相似度。

对词语Xi和词语Ki进行拼音变换，假设词语Xi经过拼音变换后变换为词语Yi，词语Ki经过拼音变换后变换为词语Mi，比较词语Yi和词语Mi之间的拼音相似度。以下以一举例详细说明两词语之间拼音相似度的确定过程。

假设，词语Xi和词语Ki都为两个字的词语，它们可以分别表示为AB和CD。首先对词语Xi和词语Ki分别进行拼音变换得到词语Yi和词语Mi。再分别确定词语Yi中单字A和词语Mi中单字C的拼音相似度以及词语Yi中单字B和词语Mi中单字D的拼音相似度，最后根据各个单字之间的拼音相似度确定词语Yi和词语Mi整体的拼音相似度。

具体地，将词语Xi和词语Ki的拼音按照拼音变换规则进行拼音变换，分别获得词语Xi中单字A和单字B变换后的拼音，以及词语Ki中单字C和单字D变换后的拼音。可以利用如下公式(1)确定单字A和单字C之间的拼音相似度，以及单字B和单字D之间的拼音相似度。

LCS_Sim(PYstring_Yi,j,PYstring_Mi,j)＝ToneWeight*(SMLCS_Sim(PYstring_Yi,j,PYstring_Mi,j)+(1)YMLCS_Sim(PYstring_Yi,j,PYstring_Mi,j))/2

其中，最长公共子序列(Longest Common Subsequence，简称LCS)，ToneWieght为声调权重，声调权重具体指的是两个单字声调的相似性，若两个单字的声调相同，则ToneWieght＝1，若声调不相同，则将ToneWieght设置为一个比较大的且小于1的值，可以为0.8-0.98。

SMLCS_Sim(SMstring_Yi,j,SMstring_Mi,j)和YMLCS_Sim(YMstring_Yi,j,YMstring_Mi,j)分别为词语Yi第j个字和词语Mi第j个字的声母相似度和韵母相似度，而每个单字的声母相似度和韵母相似度又可以分别根据如下公式(2)、(3)确定：

其中，length(LCS(SMstring_Yi,j,SMstring_Mi,j))为词语Yi第j个字和词语Mi第j个字之间声母的最长公用拼音的长度，length(SMstring_Yi,j)和length(SMstring_Mi,j)分别为词语Yi第j个字和词语Mi第j个字拼音声母的长度；length(LCS(YMstring_Yi,j,YMstring_Mi,j))为词语Yi第j个字和词语Mi第j个字之间声母的最长公用拼音的长度，length(LCS(YMstring_Yi,j,YMstring_Mi,j))为词语Yi第j个字和词语Mi第j个字之间韵母的最长公用拼音的长度，length(YMstring_Yi,j)和length(YMstring_Mi,j)分别为词语Yi第j个字和词语Mi第j个字拼音韵母的长度。

通过上述过程即可分别确定了单字A和单字C的拼音相似度，以及单字B和单字D的拼音相似度，再通过如下公式可以确定词语Yi和词语Mi之间的词语拼音相似度。

其中，PYstring_Yi,j为词语Yi中的第j个字的拼音，PYString_Mi,j为词语Mi中第j个字的拼音，n为词语Xi和词语Ki的词语字数，LCS_Sim(PYString_Yi,j,PYString_Mi,j)表示词语Yi和词语Mi第j个字之间的拼音相似度，此拼音相似度可以利用公式(1)计算获得。

S209，判断经拼音变换后的词语Xi和词语Ki之间的拼音相似度是否大于或等于预设阈值，若是，则执行步骤S210，否则执行步骤S211

S210，确定词语Xi为特定领域热词，将词语Xi加入到热词库中。

S211，确定词语Xi为候选热词，将词语Xi加入到候选词库中。

值得说明的是，该预设阈值为小于1的数值。之所以不等于1，意味着词语Xi和词语Ki不能是相同的词语，也就是说，X个词语中已经存在于M个词语中的词语，不会被选作热词。

S212，将热词库添加到原始识别词库中。

本实施例中，基于对训练样本集合的训练过程，最终获得X个对分类正确率贡献程度最高的词语。贡献程度越高，一定程度上也可能反映词语的出现越频繁，特定领域热词往往会包含在该X个词语中。进而，为了避免不同字数对两个词语之间拼音相似度计算的不利影响，针对X个词语中的任一词语Xi，从通识语料库中词频最高的M个词语中选择字数与之相等的K个词语。之后，分别对词语Xi以及K个词语进行拼音变换，以降低词语中对发音相似度影响较小的字母对拼音相似度的干扰，保证词语Xi分别与K个词语的拼音相似度计算结果的准确性，从而也保证了最终选择出的特定领域的热词的准确性。

图3为本发明实施例提供的词库更新方法实施例三的流程图。实际应用中，可以设定热词库的容量上限，如果实际得到的热词库中的特定领域热词的数量大于该容量上限，则从热词库中删除部分热词；相反地，如果实际得到的热词库中的特定领域热词的数量小于该容量上限，则向热词库中再添加部分热词。如图3所示，在图2所示实施例基础上，步骤S212之后，该方法可以包括如下步骤：

S301,热词库中的特定领域热词数量是否大于预设数量，若是，执行步骤S302；否则，执行步骤S303。

其中，上述预设数量即为热词库对应的容量上限。

S302,按照热词库中各特定领域热词的贡献权重由小到大的顺序，从热词库中删除差额数量的特定领域热词。

在选择特定领域热词加入热词库的过程中已经计算过各个特定领域热词的贡献权重，此时可以直接将此贡献权重按照由小到大的顺序进行排序，删除贡献权重最小的差额数量的特定领域热词，其中，差额数量为当前热词库中特定领域热词数量与热词库中词语上限数目之间的差额。

可选地，还可以在对贡献权重进行排序之后，先按照贡献权重由小到大对特定领域热词进行测试，也即是使用原始识别词库，按照贡献权重由小到大的顺序，依次对各个特定领域热词进行识别。针对某特定领域热词来说，若使用原始识别词库能够识别此特定领域热词，则将此特定领域热词从热词库中删除，也即是按照贡献权重由小到大的顺序，依次删除热词库中能被原始识别词库识别出的特定领域热词，直到删除的特定领域热词的数量等于上述差额数量为止。

值得说明的是，若已经按照贡献权重由小到大的顺序遍历完热词库中的全部特定领域热词，删除的数量仍小于上述差额数量。则此时，可以在剩余的特定领域热词中按照贡献权重从小到大的顺序直接删除即可，直至热词库中特定领域热词的数目满足预设数量。

S303，按照候选词库中各候选热词的贡献权重由大到小的顺序，从候选词库中选出差额数量的候选热词，将选出的候选热词加入到热词库中。

若热词库中的特定领域热词数量小于预设数量，则将候选词库中的候选热词的贡献权重按照权重由大到小进行排序，从候选词库中选择出差额数量的贡献权重最高的候选热词，并将其加入热词库中，其中差额数量为预设数量与特定领域热词数量的差值。

可选地，还可以在对贡献权重进行排序之后先将候选词库中的候选热词按照贡献权重由大到小进行测试，也即是使用原始识别词库按照贡献权重由大到小的顺序，依次对各个候选热词进行识别。针对某特定领域热词来说，若使用原始识别词库并不能识别此候选热词，则将此候选热词加入到热词库中，也即是按照贡献权重由大到小，依次向热词库中添加不能被原始识别词库识别出的候选热词，直至热词库中特定领域热词的数目满足预设数目。

值得说明的是，若按照贡献权重有大到小对候选词库中的候选热词全部测试后，添加的数量仍小于上述差额数量，则此时，可以将剩余的候选热词中按照贡献权重由大到小的顺眼依次加入热词库中，直至热词库中特定领域热词的数目满足预设数量。

本实施例中，当需要基于预设的热词库容量上限对实际得到的热词库进行特定领域热词删除或添加处理时，可以结合贡献权重以及原始识别词库能否识别待删除或待添加的词语来进行该删除或添加处理，可以保证删除或添加处理的可靠性，将非特定领域热词在热词库中删除或将更可能是特定领域热词的词语添加入热词库。

图4为本发明实施例提供的词库更新装置实施例一的结构示意图，如图4所示，该词库更新装置包括：获取模块11、训练模块12、选择模块13、确定模块14、更新模块15。

获取模块11，用于从预设通识语料库和预设特定领域语料库中，获取由若干通识语句样本和若干特定领域语句样本构成的训练样本集合，以及从预设通识语料库中获取词频最高的M个词语。

训练模块12，用于采用训练样本集合对分类模型进行分类训练。

获取模块11，还用于获得各训练样本对应的分类结果以及由各训练样本分别对应的词语构成的词语集合。

选择模块13，用于根据词语集合中的各词语对分类模型的分类准确率的贡献权重，从词语集合中选择贡献权重最大的X个词语。

确定模块14，用于确定X个词语中的每个词语分别与M个词语之间的拼音相似度，以及根据拼音相似度与预设阈值的比较结果，确定与X个词语对应的热词库。

更新模块15，用于将热词库添加到原始识别词库中。

图4所示装置可以执行图1所示实施例的方法，本实施例未详细描述的部分，可参考对图1所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1所示实施例中的描述，在此不再赘述。

图5为本发明实施例提供的词库更新装置实施例二的结构示意图，如图5所示，在图4所示实施例基础上，训练模块12具体可以包括：生成单元121，获得单元122。

生成单元121，用于根据训练样本集合，生成N个训练样本子集合，每个训练样本子集合中包括若干通识语句样本和若干特定领域语句样本。

获取单元122，用于采用N个训练样本子集合中的第i个训练样本子集合对N个分类子模型中的第i个分类子模型进行分类训练，获得第i个训练样本子集合中各训练样本对应的分类结果以及由各训练样本分别对应的词语构成的第i个词语集合，i＝1,2,…,N。

相应地，选择模块13还用于：根据第i个词语集合中的各词语对第i个分类子模型的分类准确率的贡献权重，从第i个词语集合中选择贡献权重最大的Y个词语，以及根据选择出的Y*N个词语各自对应的贡献权重，从Y*N个词语中选择出贡献权重最大的X个词语。

可选地，确定模块14可以包括：筛选单元141，拼音变换单元142，确定单元143。

筛选单元141，用于对于X个词语中的任一词语Xi，从M个词语中筛选出字数与词语Xi的字数一致的K个词语。

拼音变换单元142，用于对词语Xi和K个词语中的任一词语分别进行拼音变换。

确定单元143，用于确定经拼音变换后的词语Xi和词语Ki之间的拼音相似度。

可选地，确定单元143具体用于：

根据如下公式确定经所述拼音变换后的词语Xi和词语Ki之间的拼音相似度PY_Sim(wordYi,wordMi)：

其中，Yi为词语Xi经所述拼音变换后变换得到的词语，Mi为词语Ki经所述拼音变换后变换得到的词语，PYstring_Yi,j表示词语Yi中的第j个字的拼音，PYstring_Mi,j表示词语Mi中第j个字的拼音，LCS_Sim(PYstring_Yi,j,PYstring_Mi,j)表示词语Yi中的第j个字和词语Mi中的第j个字之间的拼音相似度，n为词语Yi和词语Mi的词语长度，

其中，LCS_Sim(PYstring_Yi,j,PYstring_Mi,j)根据如下公式确定：

LCS_Sim(PYstring_Yi,j,PYstring_Mi,j)＝ToneWeight*(SMLCS_Sim(PYstring_Yi,j,PYstring_Mi,j)+YMLCS_Sim(PYstring_Yi,j,PYstring_Mi,j))/2

ToneWeight为声调权重,SMLCS_Sim(SMstring_Yi,j,SMstring_Mi,j)和YMLCS_Sim(YMstring_Yi,j,YMstring_Mi,j)分别为词语Yi第j个字和词语Mi第j个字的声母相似度和韵母相似度，其中，

其中，length(LCS(SMstring_Yi,j,SMstring_Mi,j))为词语Yi第j个字和词语Mi第j个字之间声母的公用拼音的长度，length(SMstring_Yi,j)和length(SMstring_Mi,j)分别为词语Yi第j个字和词语Mi第j个字拼音声母的长度，

length(LCS(YMstring_Yi,j,YMstring_Mi,j))为词语Yi第j个字和词语Mi第j个字之间韵母的公用拼音的长度，length(YMstring_Yi,j)和length(YMstring_Mi,j)分别为词语Yi第j个字和词语Mi第j个字拼音韵母的长度。

相应地，确定模块14具体用于：若经拼音变换后的词语Xi和词语Ki之间的拼音相似度大于或等于预设阈值，则确定词语Xi为特定领域热词，将词语Xi加入到热词库中；若经拼音变换后的词语Xi和词语Ki之间的拼音相似度小于预设阈值，则确定词语Xi为候选热词，将词语Xi加入到候选词库中。

图5所示装置可以执行图2所示实施例的方法，本实施例未详细描述的部分，可参考对图2所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2所示实施例中的描述，在此不再赘述。

图6为本发明实施例提供的词库更新装置实施例三的结构示意图，如图6所示，在图5所示实施例基础上，该词库更新装置还包括：删除模块21，添加模块22。

删除模块21，用于若热词库中的特定领域热词数量大于预设数量，则按照热词库中各特定领域热词的贡献权重由小到大的顺序，从热词库中删除差额数量的特定领域热词，其中差额数量为特定领域热词数量与预设数量的差值；被删除的特定领域热词为能被原始识别词库识别出的特定领域热词。

添加模块22，用于若热词库中的特定领域热词数量小于预设数量，则按照候选词库中各候选热词的贡献权重由大到小的顺序，从候选词库中选出差额数量的候选热词，将选出的候选热词加入到热词库中，其中差额数量为预设数量与特定领域热词数量的差值，被选出的候选热词为不能被原始识别词库识别出的候选热词。

图6所示装置可以执行图3所示实施例的方法，本实施例未详细描述的部分，可参考对图3所示实施例的相关说明。该技术方案的执行过程和技术效果参见图3所示实施例中的描述，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以产品的形式体现出来，该计算机产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种词库更新方法，其特征在于，包括：

从所述预设通识语料库中获取词频最高的M个词语；

将所述热词库添加到原始识别词库中。

2.根据权利要求1所述的方法，其特征在于，所述分类模型中包括N个分类子模型，所述采用所述训练样本集合对分类模型进行分类训练，包括：

根据所述训练样本集合，生成N个训练样本子集合，每个训练样本子集合中包括若干通识语句样本和若干特定领域语句样本；

采用所述N个训练样本子集合中的第i个训练样本子集合对所述N个分类子模型中的第i个分类子模型进行分类训练，获得所述第i个训练样本子集合中各训练样本对应的分类结果以及由所述各训练样本分别对应的词语构成的第i个词语集合，i＝1,2,…,N；

所述根据所述词语集合中的各词语对所述分类模型的分类准确率的贡献权重，从所述词语集合中选择贡献权重最大的X个词语，包括：

根据所述第i个词语集合中的各词语对所述第i个分类子模型的分类准确率的贡献权重，从所述第i个词语集合中选择贡献权重最大的Y个词语；

根据选择出的Y*N个词语各自对应的贡献权重，从所述Y*N个词语中选择出贡献权重最大的X个词语。

3.根据权利要求1所述的方法，其特征在于，所述确定所述X个词语中的每个词语分别与所述M个词语之间的拼音相似度，包括：

对于所述X个词语中的任一词语Xi，从所述M个词语中筛选出字数与所述词语Xi的字数一致的K个词语；

对所述词语Xi和所述K个词语中的任一词语Ki，分别进行拼音变换；

确定经所述拼音变换后的词语Xi和词语Ki之间的拼音相似度。

4.根据权利要求3所述的方法，其特征在于，所述确定经所述拼音变换后的词语Xi和词语Ki之间的拼音相似度，包括：

<mrow> <mi>P</mi> <mi>Y</mi> <mo>_</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mi>M</mi> <mi>i</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mi>j</mi> <mi>n</mi> </munderover> <mi>L</mi> <mi>C</mi> <mi>S</mi> <mo>_</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>PYstring</mi> <mrow> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>PYstring</mi> <mrow> <mi>M</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mi>n</mi> </mrow>

其中，LCS_Sim(PYstring_Yi,j,PYstring_Mi,j)根据如下公式确定：

LCS_Sim(PYstring_Yi,j,PYstring_Mi,j)＝ToneWeight*(SMLCS_Sim(PYstring_Yi,j,PYstring_Mi,j)+

YMLCS_Sim(PYstring_Yi,j,PYstring_Mi,j))/2

<mrow> <mi>S</mi> <mi>M</mi> <mi>L</mi> <mi>C</mi> <mi>S</mi> <mo>_</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>SMstring</mi> <mrow> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>SMstring</mi> <mrow> <mi>M</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <msup> <mrow> <mo>(</mo> <mrow> <mi>L</mi> <mi>C</mi> <mi>S</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>SMstring</mi> <mrow> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>SMstring</mi> <mrow> <mi>M</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>SMstring</mi> <mrow> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>SMstring</mi> <mrow> <mi>M</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

<mrow> <mi>S</mi> <mi>M</mi> <mi>L</mi> <mi>C</mi> <mi>S</mi> <mo>_</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>YMstring</mi> <mrow> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>YMstring</mi> <mrow> <mi>M</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <msup> <mrow> <mo>(</mo> <mrow> <mi>L</mi> <mi>C</mi> <mi>S</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>YMstring</mi> <mrow> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>YMstring</mi> <mrow> <mi>M</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>YMstring</mi> <mrow> <mi>Y</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>YMstring</mi> <mrow> <mi>M</mi> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

5.根据权利要求3所述的方法，其特征在于，所述根据所述拼音相似度与预设阈值的比较结果，确定与所述X个词语对应的热词库，包括：

若经所述拼音变换后的词语Xi和词语Ki之间的拼音相似度大于或等于预设阈值，则确定所述词语Xi为特定领域热词，将所述词语Xi加入到热词库中。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若所述热词库中的特定领域热词数量大于预设数量，则按照所述热词库中各特定领域热词的所述贡献权重由小到大的顺序，从所述热词库中删除差额数量的特定领域热词；

所述差额数量为所述特定领域热词数量与所述预设数量的差值；被删除的特定领域热词为能被所述原始识别词库识别出的特定领域热词。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若经所述拼音变换后的词语Xi和词语Ki之间的拼音相似度小于预设阈值，则确定所述词语Xi为候选热词，将所述词语Xi加入到候选词库中。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

若所述热词库中的特定领域热词数量小于预设数量，则按照所述候选词库中各候选热词的所述贡献权重由大到小的顺序，从所述候选词库中选出差额数量的候选热词，将选出的候选热词加入到所述热词库中；

所述差额数量为所述预设数量与所述特定领域热词数量的差值，被选出的候选热词为不能被所述原始识别词库识别出的候选热词。

9.一种词库更新装置，其特征在于，包括：

更新模块，用于将所述热词库添加到原始识别词库中。

10.根据权利要求9所述的装置，其特征在于，所述分类模型中包括N个分类子模型，所述训练模块具体包括：

生成单元，用于根据所述训练样本集合，生成N个训练样本子集合，每个训练样本子集合中包括若干通识语句样本和若干特定领域语句样本；

获取单元，用于采用所述N个训练样本子集合中的第i个训练样本子集合对所述N个分类子模型中的第i个分类子模型进行分类训练，获得所述第i个训练样本子集合中各训练样本对应的分类结果以及由所述各训练样本分别对应的词语构成的第i个词语集合，i＝1,2,…,N；

所述选择模块还用于：根据所述第i个词语集合中的各词语对所述第i个分类子模型的分类准确率的贡献权重，从所述第i个词语集合中选择贡献权重最大的Y个词语，以及根据选择出的Y*N个词语各自对应的贡献权重，从所述Y*N个词语中选择出贡献权重最大的X个词语。