CN104462061B

CN104462061B - 词语提取方法及提取装置

Info

Publication number: CN104462061B
Application number: CN201410738661.4A
Authority: CN
Inventors: 侯明午
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2017-10-27
Anticipated expiration: 2034-12-05
Also published as: CN104462061A

Abstract

本发明公开了一种词语提取方法及提取装置。其中，该词语提取方法包括：对待处理语料进行字频计算，得到待处理语料中的每个字在待处理语料中出现的第一概率；接收预设词长，并计算长度小于或等于预设词长的每个候选串在待处理语料中出现的第二概率，以及记录每个候选串的边界；根据第一概率和第二概率计算每个候选串的第一指标，并根据记录每个候选串的边界计算每个候选串的第二指标；提取第一指标大于第一预设阈值，并且第二指标大于第二预设阈值的候选串，得到待处理语料的词语集合。通过本发明，解决了现有技术中词语提取方式的准确度低的问题，进而达到了提高词语提取准确度的效果。

Description

词语提取方法及提取装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种词语提取方法及提取装置。

背景技术

互联网技术的发展推进了语言的多样性，大量的新词为自然语言处理和大数据分析带来了困难，目前尚无一种可以完全覆盖所有新词语的词典供分析使用，现有研究中有多种新词语技术，其中主要的有两种，一种是基于全切分的，另一种是基于分词的。

基于全切分的方法是指以字符为单位，对所有的可能组合进行统计，统计组合的使用率并对比背景使用率，提取出所有新出现的候选串，使用字符串合并，将使用率相同，相互紧密联系的候选串合并；使用其它规则过滤，去除噪声，最终得到新词语。

基于全切分的方法不拘泥于词典，考虑到所有词语组合，但该方案运算消耗量大，分析结果存在大量垃圾串，剔除垃圾信息的规则繁复，准确率和效率均较低。

基于分词的方案首先对语料进行分词，由于新词不存在词典当中，故会被切分为连续的单字。基于统计模型，对连续单字的搭配关系进行最优路径分析，最终得到新词语。

分词错误往往产生连锁效应，未登录词在分词中造成的影响大多会超过自身，甚至影响整个句子。因此分词后对连续单字的组合不能完全解决新词语问题，准确度较低。

针对相关技术中词语提取方式的准确度低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种词语提取方法及提取装置，以解决现有技术中词语提取方式的准确度低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种词语提取方法。

根据本发明的词语提取方法包括：对待处理语料进行字频计算，得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率；接收预设词长，并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率，以及记录每个所述候选串的边界；根据所述第一概率和所述第二概率计算每个所述候选串的第一指标，并根据记录每个所述候选串的边界计算每个所述候选串的第二指标；以及提取所述第一指标大于第一预设阈值，并且所述第二指标大于第二预设阈值的所述候选串，得到所述待处理语料的词语集合。

进一步地，根据所述第一概率和所述第二概率计算每个所述候选串的第一指标包括：获取属于候选串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1至m，k依次取j1至jn，m为所述待处理语料中长度等于所述预设词长的候选串的个数，jn为所述候选串Sj中字的个数；以及根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(S_j)。

进一步地，根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的所述第一指标包括：按照公式计算所述第一指标I(S_j)。

进一步地，根据记录每个所述候选串的边界计算每个所述候选串的第二指标包括：根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值，其中，所述第一熵值为与字CjL相邻的字的熵值，所述第二熵值为与字CjR相邻的字的熵值，所述字CjL为位于所述候选串Sj的第一边界的字，所述字CjR为位于所述候选串Sj的第二边界的字，j依次取1至m，m为所述待处理语料中长度等于所述预设词长的候选串的个数；以及确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。

进一步地，根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值包括：从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L)，并获取与所述字CjR相邻的字的第二集合Sj(R)；计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L)，并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R)；以及按照公式计算所述候选串Sj的第一熵值L(S_j)，并按照公式计算所述候选串Sj的第二熵值R(S_j)。

进一步地，在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串，得到所述待处理语料的词语集合之后，所述提取方法还包括：比较所述词语集合与预设词典，得到非目标词语，其中，所述非目标词语为所述词语集合和所述预设词典中相同的词语；以及从所述词语集合中删除所述非目标词语。

为了实现上述目的，根据本发明的另一方面，提供了一种词语提取装置。

根据本发明的词语提取装置包括：第一计算单元，用于对待处理语料进行字频计算，得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率；处理单元，用于接收预设词长，并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率，以及记录每个所述候选串的边界；第二计算单元，用于根据所述第一概率和所述第二概率计算每个所述候选串的第一指标，并根据记录每个所述候选串的边界计算每个所述候选串的第二指标；以及提取单元，用于提取所述第一指标大于第一预设阈值，并且所述第二指标大于第二预设阈值的所述候选串，得到所述待处理语料的词语集合。

进一步地，所述第二计算单元包括：第一获取模块，用于获取属于候选串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1至m，k依次取j1至jn，m为所述待处理语料中长度等于所述预设词长的候选串的个数，jn为所述候选串Sj中字的个数；以及第一计算模块，用于根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(S_j)。

进一步地，所述第一计算模块包括：计算子模块，用于按照公式计算所述第一指标I(S_j)。

进一步地，所述第二计算单元包括：第二计算模块，用于根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值，其中，所述第一熵值为与字CjL相邻的字的熵值，所述第二熵值为与字CjR相邻的字的熵值，所述字CjL为位于所述候选串Sj的第一边界的字，所述字CjR为位于所述候选串Sj的第二边界的字，j依次取1至m，m为所述待处理语料中长度等于所述预设词长的候选串的个数；以及确定模块，用于确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。

进一步地，所述第二计算模块包括：第二获取模块，用于从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L)，并获取与所述字CjR相邻的字的第二集合Sj(R)；第三计算模块，用于计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L)，并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R)；以及第四计算模块，用于按照公式计算所述候选串Sj的第一熵值L(S_j)，并按照公式计算所述候选串Sj的第二熵值R(S_j)。

进一步地，所述提取装置还包括：比较单元，用于在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串，得到所述待处理语料的词语集合之后，比较所述词语集合与预设词典，得到非目标词语，其中，所述非目标词语为所述词语集合和所述预设词典中相同的词语；以及删除单元，用于从所述词语集合中删除所述非目标词语。

通过本发明，采用对待处理语料进行字频计算，得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率；接收预设词长，并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率，以及记录每个所述候选串的边界；根据所述第一概率和所述第二概率计算每个所述候选串的第一指标，并根据记录每个所述候选串的边界计算每个所述候选串的第二指标；以及提取所述第一指标大于第一预设阈值，并且所述第二指标均大于第二预设阈值的所述候选串，得到所述待处理语料的词语集合。通过以字和候选串为基础进行相关概率的计算，实现了以词语语言学的定义为基点来计算概率，进而计算基于字的第一概率和候选串的第二概率的第一指标，以及基于边界的第二指标，实现了以候选串的表征特性为衡量指标进行词的筛选。此种从待处理语料中提取词语的方式，以词语语言学的定义为基点，不依赖词典，解决了现有技术中词语提取方式的准确度低的问题，进而达到了提高词语提取准确度的效果。并且，此种提取方式逻辑简单，达到了提高提取效率和减少运算消耗量的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的词语提取方法的流程图；以及

图2是根据本发明实施例的词语提取装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种用于编译的文件路径的确定方法，图1是根据本发明实施例的词语提取方法的流程图，如图1所示，该方法包括如下的步骤S102至步骤S108：

S102：对待处理语料进行字频计算，得到待处理语料中的每个字在待处理语料中出现的第一概率，通过待处理语料确定了词语提取的范围，具体范围可以根据需求设置，如：某段话或者某篇文章等，字频即为待处理语料所包含的每个字在待处理语料中出现的频率，该频率即为第一概率。例如：待处理语料中包含100个字，其中，“的”字出现了20次，那么“的”字的第一概率为25％。

S104：接收预设词长，并计算长度小于或等于预设词长的每个候选串在待处理语料中出现的第二概率，以及记录每个候选串的边界，具体地，在本发明实施例中，根据接收的预设词长，利用N-Gram对语料进行处理，并计算每个候选串在待处理语料中出现的概率，该概率即为第二概率，比如：待处理语料为“权利要求书”，使用3Gram对“权利要求书”进行处理，会得到多个候选串，依次分别为：“权利要”、“权利”、“权”、“利要求”、“利要”、“利”、“要求书”、“要求”、“要”、“求书”、“求”和“书”。预设词长可以根据需求设置，通常设置的是最大词长；候选串的边界分为左边界和右边界，将候选串看作一个整体，左边界就是在该候选串中最左边的一个字，右边界就是在该候选串最右边的一个字。例如：对于候选串“北京”，则“北”和“京”为候选串“北京”的边界，其中，“北”为左边界，“京”为右边界。

S106：根据第一概率和第二概率计算每个候选串的第一指标，并根据记录每个候选串的边界计算每个候选串的第二指标，其中，第一指标为凝固度，第二指标为自由度。

S108：提取第一指标大于第一预设阈值，并且第二指标大于第二预设阈值的候选串，得到待处理语料的词语集合，即，只有既满足第一指标大于第一预设阈值，又满足第二指标大于第二预设阈值的候选串，才会被提取出来，将被提取出来的候选串汇总，得到待处理语料的词语的集合，也就是提取凝固度高于第一预设阈值，并且自由度高于第二预设阈值的候选串，得到待处理语料的词语的集合，其中，第一预设阈值和第二预设阈值可以根据需求设置。

在本发明实施例中，通过以字和候选串为基础进行相关概率的计算，实现了以词语语言学的定义为基点来计算概率，进而计算基于字的第一概率和候选串的第二概率的第一指标，以及基于边界的第二指标，实现了以候选串的表征特性为衡量指标进行词的筛选。此种从待处理语料中提取词语的方式，以词语语言学的定义为基点，不依赖词典，解决了现有技术中词语提取方式的准确度低的问题，进而达到了提高词语提取准确度的效果。并且，此种提取方式逻辑简单，达到了提高提取效率和减少运算消耗量的效果。

具体地，在本发明实施例中，第一指标可以通过步骤1-1至步骤1-2计算得出，步骤1-1至步骤1-2具体如下：

步骤1-1：获取属于候选串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1至m，k依次取j1至jn，m为待处理语料中长度等于预设词长的候选串的个数，jn为候选串Sj中字的个数，也就是获取每个候选串中包含的每个字在待处理语料中出现的概率，从而得到多个第一概率。例如：候选串“北京”中包括两个字，分别是“北”和“京”，假设“北”字在待处理语料中出现的概率为5％，“京”字在待处理语料中出现的概率为3％，那么关于候选串“北京”中的字得到两个第一概率，分别是5％和3％。

步骤1-2：根据第一概率P(Cj1)至第一概率P(Cjn)和候选串Sj的第二概率P(Sj)计算候选串Sj的第一指标I(S_j)，也即，根据每个候选串的全部第一概率和全部第二概率共同计算出第一指标I(S_j)。具体地，第一指标I(S_j)可以按照公式计算得出。

具体地，在本发明实施例中，根据记录每个候选串的边界计算每个候选串的第二指标包括：

根据记录每个候选串的边界计算候选串Sj的第一熵值和第二熵值，其中，第一熵值为与字CjL相邻的字的熵值，第二熵值为与字CjR相邻的字的熵值，字CjL为位于候选串Sj的第一边界的字，字CjR为位于候选串Sj的第二边界的字，j依次取1至m，m为待处理语料中长度等于预设词长的候选串的个数。具体地，候选串的第一边界可以称为该候选串的左边界，第二边界可以称为该候选串的右边界，也就是根据与每个候选串的左边界的字相邻的字计算出该候选串的第一熵值，根据与每个候选串的右边界的字相邻的字计算出该候选串的第二熵值，其中，第一熵值可以称为左边界熵值，第二熵值可以称为右边界熵值。

确定候选串Sj的第二指标为候选串Sj的第一熵值和第二熵值，即，根据计算出的每个候选串的第一熵值和第二熵值确定出该候选串的第二指标。

具体地，在本发明实施例中，可以利用每个候选串的边界通过步骤2-1至步骤2-3计算出每个候选串的第一熵值和第二熵值，其中，步骤2-1至步骤2-3具体如下：

步骤2-1：从记录每个候选串的边界中获取与字CjL相邻的字的第一集合Sj(L)，并获取与字CjR相邻的字的第二集合Sj(R)，也就是，分别获取与候选串的左边界(即，第一边界)的字相邻的字，组成第一集合Sj(L)，以及与候选串的右边界(即，第二边界)的字相邻的字，组成第二集合Sj(R)。例如：在待处理语料中，出现多次候选串“北京”，根据上述说明可知，候选串“北京”的左边界的字为“北”，与“北”相邻的字有“在”和“去”，候选串“北京”的右边界的字为“京”，与“京”相邻的字有“工”和“玩”，那么“在”和“去”组成第一集合，“工”和“玩”组成第二集合。

步骤2-2：计算第一集合Sj(L)中的每个第一元素在第一集合Sj(L)中出现的概率P(L)，并计算第二集合Sj(R)中的每个第二元素在第二集合Sj(R)中出现的概率P(R)。具体地，第一元素为第一集合中的字，一个第一集合中的字就是一个第一元素，同样的，第二元素为第二集合中的字，一个第二集合中的字就是一个第二元素。本步骤也就是计算第一集合中的每个字在第一集合中出现的概率和第二集合中的每个字在第二集合中出现的概率，具体可以通过第一集合中的每个字在该集合中出现的次数与第一集合中所有的字出现的总次数的比值，得出第一集合中每个字的概率，通过第二集合中的每个字在该集合中出现的次数与第二集合中所有的字出现的总次数的比值，得出第二集合中每个字的概率。继续采用步骤2-1中的举例进行说明，在第一集合中，“在”出现了2次，“去”出现了三次，那么“在”的概率为2/5，“去”的概率为3/5，依照上述过程，可以计算出第二集合中的每个字出现的概率。

步骤2-3：按照公式计算候选串Sj的第一熵值L(S_j)，也就是，首先将第一集合Sj(L)中的每个字出现的概率P(L)与该概率P(L)的对数相乘，然后将上个步骤中得到的所有结果求和，最后得到第一熵值；并按照公式计算候选串Sj的第二熵值R(S_j)，同样的，首先对第二集合Sj(R)中的每个字出现的概率P(R)与该概率P(R)的对数相乘，然后将上个步骤中得到的所有结果求和，最后得到第二熵值。

优选地，在提取第一指标和第二指标均大于预设阈值的候选串，得到待处理语料的词语集合之后，本发明实施例所提供的提取方法还包括：比较词语集合与预设词典，得到非目标词语，其中，非目标词语为词语集合和预设词典中相同的词语，即，找出词语集合和预设词典中都共同包含的词语，该词语即为目标词语；从词语集合中删除非目标词语，在词语集合中将词语集合和预设词典中都共同包含的词语删除，得到新词语的集合。

在本发明实施例中，通过将得到的词语集合与预设词典进行比较之后，再得到新词语的集合，达到了进一步提高提取词语的精确度的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述词语提取方法的词语提取装置，该词语提取装置主要用于执行本发明实施例上述内容所提供的词语提取方法，以下对本发明实施例所提供的词语提取装置做具体介绍：

根据本发明实施例，提供了一种词语提取装置，图2是根据本发明实施例的词语提取装置的示意图，如图2所示，该装置主要包括第一计算单元10、处理单元20、第二计算单元30和提取单元40，其中：

第一计算单元10用于对待处理语料进行字频计算，得到待处理语料中的每个字在待处理语料中出现的第一概率，通过待处理语料确定了词语提取的范围，具体范围可以根据需求设置，如：某段话或者某篇文章等，字频即为待处理语料所包含的每个字在待处理语料中出现的频率，该频率即为第一概率。例如：待处理语料中包含100个字，其中，“的”字出现了20次，那么“的”字的第一概率为25％。

处理单元20用于接收预设词长，并计算长度等于预设词长的每个候选串在待处理语料中出现的第二概率，以及记录每个候选串的边界，具体地，在本发明实施例中，根据接收的预设词长，利用N-Gram对语料进行处理，并计算每个候选串在待处理语料中出现的概率，该概率即为第二概率，比如：待处理语料为“权利要求书”，使用3Gram对“权利要求书”进行处理，会得到多个候选串，依次分别为：“权利要”、“权利”、“权”、“利要求”、“利要”、“利”、“要求书”、“要求”、“要”、“求书”、“求”和“书”。预设词长可以根据需求设置，通常设置的是最大词长；候选串的边界分为左边界和右边界，将候选串看作一个整体，左边界就是在该候选串中最左边的一个字，右边界就是在该候选串最右边的一个字。例如：对于候选串“北京”，则“北”和“京”为候选串“北京”的边界，其中，“北”为左边界，“京”为右边界。

第二计算单元30用于根据第一概率和第二概率计算每个候选串的第一指标，并根据记录每个候选串的边界计算每个候选串的第二指标，其中，第一指标为凝固度，第二指标为自由度。

提取单元40用于提取第一指标大于第一预设阈值，并且第二指标大于第二预设阈值的候选串，得到待处理语料的词语集合，即，只有既满足第一指标大于第一预设阈值，又满足第二指标大于第二预设阈值的候选串，才会被提取出来，将被提取出来的候选串汇总，得到待处理语料的词语的集合，也就是提取凝固度高于第一预设阈值，并且自由度高于第二预设阈值的候选串，得到待处理语料的词语的集合，其中，第一预设阈值和第二预设阈值可以根据需求设置。

具体地，在本发明实施例中，第二计算单元30包括第一获取模块和第一计算模块，其中：

第一获取模块用于获取属于候选串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1至m，k依次取j1至jn，m为待处理语料中长度等于预设词长的候选串的个数，jn为候选串Sj中字的个数，也就是获取每个候选串中包含的每个字在待处理语料中出现的概率，从而得到多个第一概率。例如：候选串“北京”中包括两个字，分别是“北”和“京”，假设“北”字在待处理语料中出现的概率为5％，“京”字在待处理语料中出现的概率为3％，那么关于候选串“北京”中的字得到两个第一概率，分别是5％和3％。

第一计算模块，用于根据第一概率P(Cj1)至第一概率P(Cjn)和候选串Sj的第二概率P(Sj)计算候选串Sj的第一指标I(S_j)也即，根据每个候选串的全部第一概率和全部第二概率共同计算出第一指标I(S_j)。具体地，第一计算模块包括计算子模块，计算子模块用于按照公式计算第一指标I(S_j)。

具体地，在本发明实施例中，第二计算单元30包括第二计算模块和确定模块，其中：

第二计算模块用于根据记录每个候选串的边界计算候选串Sj的第一熵值和第二熵值，其中，第一熵值为与字CjL相邻的字的熵值，第二熵值为与字CjR相邻的字的熵值，字CjL为位于候选串Sj的第一边界的字，字CjR为位于候选串Sj的第二边界的字，j依次取1至m，m为待处理语料中长度等于预设词长的候选串的个数。具体地，候选串的第一边界可以称为该候选串的左边界，第二边界可以称为该候选串的右边界，也就是根据与每个候选串的左边界的字相邻的字计算出该候选串的第一熵值，根据与每个候选串的右边界的字相邻的字计算出该候选串的第二熵值，其中，第一熵值可以称为左边界熵值，第二熵值可以称为右边界熵值。

确定模块用于确定候选串Sj的第二指标为候选串Sj的第一熵值和第二熵值，即，根据计算出的每个候选串的第一熵值和第二熵值确定出该候选串的第二指标。

具体地，在本发明实施例中，第二计算模块包括第二获取模块、第三计算模块和第四计算模块，其中：

第二获取模块用于从记录每个候选串的边界中获取与字CjL相邻的字的第一集合Sj(L)，并获取与字CjR相邻的字的第二集合Sj(R)，也就是，分别获取与候选串的左边界(即，第一边界)的字相邻的字，组成第一集合Sj(L)，以及与候选串的右边界(即，第二边界)的字相邻的字，组成第二集合Sj(R)。例如：在待处理语料中，出现多次候选串“北京”，根据上述说明可知，候选串“北京”的左边界的字为“北”，与“北”相邻的字有“在”和“去”，候选串“北京”的右边界的字为“京”，与“京”相邻的字有“工”和“玩”，那么“在”和“去”组成第一集合，“工”和“玩”组成第二集合。

第三计算模块用于计算第一集合Sj(L)中的每个第一元素在第一集合Sj(L)中出现的概率P(L)，并计算第二集合Sj(R)中的每个第二元素在第二集合Sj(R)中出现的概率P(R)。具体地，第一元素为第一集合中的字，一个第一集合中的字就是一个第一元素，同样的，第二元素为第二集合中的字，一个第二集合中的字就是一个第二元素。本模块也就是计算第一集合中的每个字在第一集合中出现的概率和第二集合中的每个字在第二集合中出现的概率，具体可以通过第一集合中的每个字在该集合中出现的次数与第一集合中所有的字出现的总次数的比值，得出第一集合中每个字的概率，通过第二集合中的每个字在该集合中出现的次数与第二集合中所有的字出现的总次数的比值，得出第二集合中每个字的概率。继续采用第二获取模块中的举例进行说明，在第一集合中，“在”出现了2次，“去”出现了三次，那么“在”的概率为2/5，“去”的概率为3/5，依照上述过程，可以计算出第二集合中的每个字出现的概率。

第四计算模块用于按照公式计算候选串Sj的第一熵值L(S_j)，也就是，首先将第一集合Sj(L)中的每个字出现的概率P(L)与该概率P(L)的对数相乘，然后将上个步骤中得到的所有结果求和，最后得到第一熵值；并按照公式计算候选串Sj的第二熵值R(S_j)，同样的，首先对第二集合Sj(R)中的每个字出现的概率P(R)与该概率P(R)的对数相乘，然后将上个步骤中得到的所有结果求和，最后得到第二熵值。

优选地，本发明实施例所提供的提取装置还包括比较单元和删除单元，其中，比较单元用于在提取第一指标和第二指标均大于预设阈值的候选串，得到待处理语料的词语集合之后，比较词语集合与预设词典，得到非目标词语，其中，非目标词语为词语集合和预设词典中相同的词语，即，找出词语集合和预设词典中都共同包含的词语，该词语即为目标词语；删除单元用于从词语集合中删除非目标词语，在词语集合中将词语集合和预设词典中都共同包含的词语删除，得到新词语的集合。

从以上的描述中，可以看出，本发明解决了现有技术中词语提取方式的准确度低的问题，进而达到了提高词语提取准确度的效果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种词语提取方法，其特征在于，包括：

对待处理语料进行字频计算，得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率；

接收预设词长，并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率，以及记录每个所述候选串的边界，其中，利用N-Gram对语料进行处理得到多个候选串，并计算每个候选串在待处理语料中出现的概率，所述概率为第二概率；

根据所述第一概率和所述第二概率计算每个所述候选串的第一指标，并根据记录每个所述候选串的边界计算每个所述候选串的第二指标；以及

提取所述第一指标大于第一预设阈值，并且所述第二指标大于第二预设阈值的所述候选串，得到所述待处理语料的词语集合，

其中，在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串，得到所述待处理语料的词语集合之后，所述提取方法还包括：比较所述词语集合与预设词典，得到非目标词语，其中，所述非目标词语为所述词语集合和所述预设词典中相同的词语；以及从所述词语集合中删除所述非目标词语。

2.根据权利要求1所述的提取方法，其特征在于，根据所述第一概率和所述第二概率计算每个所述候选串的第一指标包括：

获取属于候选串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1至m，k依次取j1至jn，m为所述待处理语料中长度等于所述预设词长的候选串的个数，jn为所述候选串Sj中字的个数；以及

根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(S_j)。

3.根据权利要求2所述的提取方法，其特征在于，根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的所述第一指标包括：

按照公式计算所述第一指标I(S_j)。

4.根据权利要求1所述的提取方法，其特征在于，根据记录每个所述候选串的边界计算每个所述候选串的第二指标包括：

根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值，其中，所述第一熵值为与字CjL相邻的字的熵值，所述第二熵值为与字CjR相邻的字的熵值，所述字CjL为位于所述候选串Sj的第一边界的字，所述字CjR为位于所述候选串Sj的第二边界的字，j依次取1至m，m为所述待处理语料中长度等于所述预设词长的候选串的个数；以及

确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。

5.根据权利要求4所述的提取方法，其特征在于，根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值包括：

从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L)，并获取与所述字CjR相邻的字的第二集合Sj(R)；

计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L)，并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R)；以及

按照公式计算所述候选串Sj的第一熵值L(S_j)，并按照公式计算所述候选串Sj的第二熵值R(S_j)。

6.一种词语提取装置，其特征在于，包括：

第一计算单元，用于对待处理语料进行字频计算，得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率；

处理单元，用于接收预设词长，并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率，以及记录每个所述候选串的边界，其中，利用N-Gram对语料进行处理得到多个候选串，并计算每个候选串在待处理语料中出现的概率，所述概率为第二概率；

第二计算单元，用于根据所述第一概率和所述第二概率计算每个所述候选串的第一指标，并根据记录每个所述候选串的边界计算每个所述候选串的第二指标；以及

提取单元，用于提取所述第一指标大于第一预设阈值，并且所述第二指标大于第二预设阈值的所述候选串，得到所述待处理语料的词语集合，

其中，所述提取装置还包括：比较单元，用于在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串，得到所述待处理语料的词语集合之后，比较所述词语集合与预设词典，得到非目标词语，其中，所述非目标词语为所述词语集合和所述预设词典中相同的词语；以及删除单元，用于从所述词语集合中删除所述非目标词语。

7.根据权利要求6所述的提取装置，其特征在于，所述第二计算单元包括：

第一获取模块，用于获取属于候选串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1至m，k依次取j1至jn，m为所述待处理语料中长度等于所述预设词长的候选串的个数，jn为所述候选串Sj中字的个数；以及

第一计算模块，用于根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(S_j)。

8.根据权利要求7所述的提取装置，其特征在于，所述第一计算模块包括：

计算子模块，用于按照公式计算所述第一指标I(S_j)。

9.根据权利要求6所述的提取装置，其特征在于，所述第二计算单元包括：

第二计算模块，用于根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值，其中，所述第一熵值为与字CjL相邻的字的熵值，所述第二熵值为与字CjR相邻的字的熵值，所述字CjL为位于所述候选串Sj的第一边界的字，所述字CjR为位于所述候选串Sj的第二边界的字，j依次取1至m，m为所述待处理语料中长度等于所述预设词长的候选串的个数；以及

确定模块，用于确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。

10.根据权利要求9所述的提取装置，其特征在于，所述第二计算模块包括：

第二获取模块，用于从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L)，并获取与所述字CjR相邻的字的第二集合Sj(R)；

第三计算模块，用于计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L)，并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R)；以及

第四计算模块，用于按照公式计算所述候选串Sj的第一熵值L(S_j)，并按照公式计算所述候选串Sj的第二熵值R(S_j)。