CN104462347B

CN104462347B - 关键词的分类方法及装置

Info

Publication number: CN104462347B
Application number: CN201410736469.1A
Authority: CN
Inventors: 侯明午
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2018-05-18
Anticipated expiration: 2034-12-04
Also published as: CN104462347A

Abstract

本发明公开了一种关键词的分类方法及装置。其中，关键词的分类方法包括：对关键词进行划分，得到关键词的构词成分；提取构词成分中的多个构词要件；查询每个构词要件所归属的预设类别，得到多个归属类别；计算每个归属类别的概率，得到多个归属概率；确定多个归属概率中的最大概率所表示的类别为关键词的类别。通过本发明，解决了现有技术中确定关键词类型的精度比较低的问题，进而达到了提高关键词类型确定准确度的效果。

Description

关键词的分类方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种关键词的分类方法及装置。

背景技术

搜索引擎关键词是用户在使用搜索引擎时输入的关键词。每个关键词都代表了用户的一个需求。对海量用户关键词的分类有助于剖析群体的需求分布。现有的搜索关键词分类方法有两种，一种是基于访问路径的分类方法，另一种是基于形式的分类方法。

基于访问路径的分类方法基于一种假设，即在搜索引擎中多次发起的查询(Query)关键词具有相似性。具体方式是记录一个会话(Session)中用户的所有查询关键词，记录每个关键词的相关词以及共同出现在一个会话中的频次，为所有会话重复统计相关关键词，最终实现聚类。

基于访问路径的会话的假设存在一定问题，一次会话的所有查询关键词不一定均是相似的，有可能是相关的，因此该方法聚类得到的关键词大多为相关的，不一定是相似的；关键词类别多为事件性的，不易于分析用户需求。

基于字符串形式的分类以字符串的字符重合度为分类指标，分别计算字符串的交集和并集，再以交集和并集的比值确定是否归为一类，如果归为一类，则以两个字符串的并集作为该类的字符串继续比较，否则单独建立一类，以完成分类。

基于字符串的分类没有考虑查询关键词的词语关系，简单的字符切分会导致大量错误的产生，分类效果较差。

针对相关技术中确定关键词类型的精度比较低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种关键词的分类方法及装置，以解决现有技术中确定关键词类型的精度比较低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种关键词的分类方法。

根据本发明的关键词的分类方法包括：对所述关键词进行划分，得到所述关键词的构词成分；提取所述构词成分中的多个构词要件；查询每个所述构词要件所归属的预设类别，得到多个归属类别；计算每个所述归属类别的概率，得到多个归属概率；以及确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。

进一步地，在计算每个所述归属类别的概率，得到多个归属概率之前，所述分类方法还包括：接收每个所述构词要件的权重赋值，其中，计算每个所述归属类别的概率，得到多个归属概率包括：按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率，得到多个归属概率。

进一步地，按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率，得到多个归属概率包括：按照公式计算每个所述归属类别的概率，得到所述多个归属概率，其中，P(B_j|A_i)为构词要件A_i归属于归属类别B_j的预设概率，Q_i为构词要件A_i的权重赋值，V(B_j)为所述归属类别B_j的概率，j依次取1至m，n为所述构词要件的数量，m为所述归属类别的数量。

进一步地，Q_k+1＞Q_k，其中，k依次取1至n-1。

进一步地，在对所述关键词进行划分，得到所述关键词的构词成分之前，所述分类方法还包括：设定所述预设类别；以及设定归属于所述预设类别的构词要件。

为了实现上述目的，根据本发明的另一方面，提供了一种关键词的分类装置。

根据本发明的关键词的分类装置包括：划分单元，用于对所述关键词进行划分，得到所述关键词的构词成分；提取单元，用于提取所述构词成分中的多个构词要件；查询单元，用于查询每个所述构词要件所归属的预设类别，得到多个归属类别；计算单元，用于计算每个所述归属类别的概率，得到多个归属概率；以及确定单元，用于确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。

进一步地，所述分类方法还包括：接收单元，用于在计算每个所述归属类别的概率，得到多个归属概率之前，接收每个所述构词要件的权重赋值，其中，所述计算单元包括：计算子单元，用于按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率，得到多个归属概率。

进一步地，所述计算子单元包括：计算模块，用于按照公式计算每个所述归属类别的概率，得到所述多个归属概率，其中，P(B_j|A_i)为构词要件A_i归属于归属类别B_j的预设概率，Q_i为构词要件A_i的权重赋值，V(B_j)为所述归属类别B_j的概率，j依次取1至m，n为所述构词要件的数量，m为所述归属类别的数量。

进一步地，Q_k+1＞Q_k，其中，k依次取1至n-1。

进一步地，所述分类装置还包括：第一设定单元，用于在对所述关键词进行划分，得到所述关键词的构词成分之前，设定所述预设类别；以及第二设定单元，用于设定归属于所述预设类别的构词要件。

通过本发明，采用对所述关键词进行划分，得到所述关键词的构词成分；提取所述构词成分中的多个构词要件；查询每个所述构词要件所归属的预设类别，得到多个归属类别；计算每个所述归属类别的概率，得到多个归属概率；以及确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。通过对关键词进行划分，并从构词成分中提取构词要件，进而基于构词要件所归属的类别的概率高低来确定关键词的类别，实现了以构词要件分类作为基础，充分结合关键词的语义特征和构词特征进行关键词类别的确定，解决了现有技术中确定关键词类型的精度比较低的问题，进而达到了提高关键词类型确定准确度的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的关键词的分类方法的流程图；以及

图2是根据本发明实施例的关键词的分类装置的示意图。

实施例1

根据本发明实施例，提供了一种可以用于实施本申请装置实施例的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，提供了一种关键词的分类方法，图1是根据本发明实施例的关键词的分类方法的流程图，如图1所示，该方法包括如下的步骤S102至步骤S110：

S102：对关键词进行划分，得到关键词的构词成分，具体地，对关键词进行划分为对关键词进行细粒度切分，得到关键词的构词成分。

S104：提取构词成分中的多个构词要件，具体地，构词要件可以是短语、词或者语素，比如：关键词为“办理驾驶证北京”，对该关键词进行划分后，可以得到构词成分“办理”、“北京”和“驾驶证”，其中，构词要件是构词成分的一部分，具体地，由各个构词成分归属类别的概率高低来确定，比如“北京”归属每个类别的概率均较低，识别度较低，则确定“北京”是非构词要件，“办理”和“驾驶证”的归属对应类别的概率较高，则确定“办理”和“驾驶证”是构词要件。

S106：查询每个构词要件所归属的预设类别，得到多个归属类别。例如：步骤S104中提取了10个构词要件，在查询这10个构词要件所归属的预设类别后，有2个构词要件单一归属于同一个预设类别，另外8个构词要件分别单一归属于其它8个预设类别，那么最终得到归属类别的个数为9个；也有一种情况是，一个构词要件同时归属于多个预设类别，仍然以步骤S104中提取了10个构词要件为例说明，假如在查询这10个构词要件所归属的预设类别后，有1个构词要件归属于两个不同的预设类别，有1个构词要件归属于另外三个不同的预设类别，另外8个构词要件分别单一归属于其它8个与前面查询出的预设类别不同的预设类别，那么最终得到归属类别的个数为13个。

S108：计算每个归属类别的概率，得到多个归属概率。

S110：确定多个归属概率中的最大概率所表示的类别为关键词的类别。

在本发明实施例中，通过对关键词进行划分，并从构词成分中提取构词要件，进而基于构词要件所归属的类别的概率高低来确定关键词的类别，实现了以构词要件分类作为基础，充分结合关键词的语义特征和构词特征进行关键词类别的确定，解决了现有技术中确定关键词类型的精度比较低的问题，进而达到了提高关键词类型确定准确度的效果。

优选地，在计算每个归属类别的概率，得到多个归属概率之前，本发明实施例所提供的关键词的分类方法还包括：接收每个构词要件的权重赋值，具体地，预先对多个构词要件从前向后依次赋予由低到高的权重赋值。此时，计算每个归属类别的概率，得到多个归属概率包括：按照每个构词要件的权重赋值和每个构词要件的归属类别计算每个归属类别的概率，得到多个归属概率。

在本发明实施例中，通过根据接收的每个构词要件的权重赋值和每个构词要件的归属类别共同计算出多个归属概率，提高了计算的归属概率的结果的准确性，进一步达到了提高关键词类型确定准确度的效果。

具体地，在本发明实施例中，根据每个构词要件的权重赋值和每个构词要件的归属类，按照公式计算每个归属类别的概率，得到多个归属概率，其中，P(B_j|A_i)为构词要件A_i归属于归属类别B_j的预设概率，Q_i为构词要件A_i的权重赋值，V(B_j)为归属类别B_j的概率，j依次取1至m，n为构词要件的数量，m为归属类别的数量。

优选地，在本发明实施例中，相邻的两个构词要件之间的权重赋值的关系为Q_k+1＞Q_k，具体地，可以为Q_k+1＝Q_k+0.2，即，后一个构词要件的权重赋值比前一个构词要件的权重赋值高0.2，其中，k依次取1至n-1。

对于关键词而言，排在前面的构词要件相对排在后面的构词要件而言，后者对关键词的影响程度更大，通过预先对多个构词要件从前向后依次赋予由低到高的权重赋值，并结合权重值计算归属概率，能够进一步提高关键词分类的精确度。

具体地，在查询每个构词要件所归属的预设类别，得到多个归属类别之前，本发明实施例所提供的关键词的分类方法还包括：设定预设类别，并设定归属于预设类别的构词要件，其中，设定的预设类别的个数至少为一个。需要说明的是，在一个预设类别中，可以只设定一个归属其的构词要件，也可以设定多个归属其的构词要件。

在本发明实施例中，通过设定预设类别以及设定归属类别的构词要件，为查询构词要件所归属的预设类别提供了基础。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述关键词的分类方法的关键词的分类装置，该分类装置主要用于执行本发明实施例上述内容所提供的分类方法，以下对本发明实施例所提供的关键词的分类装置做具体介绍：

根据本发明实施例，提供了一种关键词的分类装置，图2是根据本发明实施例的关键词的分类装置的示意图，如图2所示，该装置主要包括划分单元10、提取单元20、查询单元30、计算单元40和确定单元50，其中：

划分单元10用于对关键词进行划分，得到关键词的构词成分，具体地，对关键词进行划分为对关键词进行细粒度切分，得到关键词的构词成分。

提取单元20用于提取构词成分中的多个构词要件，具体地，构词要件可以是短语、词或者语素，比如：关键词为“办理驾驶证北京”，对该关键词进行划分后，可以得到构词成分“办理”、“北京”和“驾驶证”，其中，构词要件是构词成分的一部分，具体地，由各个构词成分归属类别的概率高低来确定，比如“北京”归属每个类别的概率均较低，识别度较低，则确定“北京”是非构词要件，“办理”和“驾驶证”的归属对应类别的概率较高，则确定“办理”和“驾驶证”是构词要件。

查询单元30用于查询每个构词要件所归属的预设类别，得到多个归属类别。例如：提取单元20中提取了10个构词要件，在查询这10个构词要件所归属的预设类别后，有2个构词要件单一归属于同一个预设类别，另外8个构词要件分别单一归属于其它8个预设类别，那么最终得到归属类别的个数为9个；也有一种情况是，一个构词要件同时归属于多个预设类别，仍然以提取单元20中提取了10个构词要件为例说明，假如在查询这10个构词要件所归属的预设类别后，有1个构词要件归属于两个不同的预设类别，有1个构词要件归属于另外三个不同的预设类别，另外8个构词要件分别单一归属于其它8个与前面查询出的预设类别不同的预设类别，那么最终得到归属类别的个数为13个。

计算单元40用于计算每个归属类别的概率，得到多个归属概率。

确定单元50用于确定多个归属概率中的最大概率所表示的类别为关键词的类别。

优选地，本发明实施例所提供的关键词的分类装置还包括接收单元，接收单元用于在计算每个归属类别的概率，得到多个归属概率之前，接收每个构词要件的权重赋值，具体地，预先对多个构词要件从前向后依次赋予由低到高的权重赋值。此时，计算单元40包括计算子单元，计算子单元用于按照每个构词要件的权重赋值和每个构词要件的归属类别计算每个归属类别的概率，得到多个归属概率。

具体地，在本发明实施例中，计算子单元包括计算模块，计算模块用于按照公式计算每个归属类别的概率，得到多个归属概率，其中，P(B_j|A_i)为构词要件A_i归属于归属类别B_j的预设概率，Q_i为构词要件A_i的权重赋值，V(B_j)为归属类别B_j的概率，j依次取1至m，n为构词要件的数量，m为归属类别的数量。

优选地，在本发明实施例中，分类装置还包括第一设定单元和第二设定单元，其中，第一设定单元用于在对关键词进行划分，得到关键词的构词成分之前，设定预设类别，其中，设定的预设类别的个数至少为一个；第二设定单元用于设定归属于预设类别的构词要件。需要说明的是，对于一个预设类别，可以只设定一个归属其的构词要件，也可以设定多个归属其的构词要件，具体根据需求设定。

从以上的描述中，可以看出，本发明解决了现有技术中确定关键词类型的精度比较低的问题，进而达到了提高关键词类型确定准确度的效果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种关键词的分类方法，其特征在于，包括：

对所述关键词进行划分，得到所述关键词的构词成分；

提取所述构词成分中的多个构词要件，其中，由各个构词成分归属类别的概率高低来确定构词要件；

查询每个所述构词要件所归属的预设类别，得到多个归属类别；

计算每个所述归属类别的概率，得到多个归属概率；以及

确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别；

在计算每个所述归属类别的概率，得到多个归属概率之前，所述分类方法还包括：接收每个所述构词要件的权重赋值，预先对多个构词要件从前向后依次赋予由低到高的权重赋值，

其中，计算每个所述归属类别的概率，得到多个归属概率包括：按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率，得到多个归属概率。

2.根据权利要求1所述的分类方法，其特征在于，按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率，得到多个归属概率包括：

按照公式计算每个所述归属类别的概率，得到所述多个归属概率，其中，P(B_j|A_i)为构词要件A_i归属于归属类别B_j的预设概率，Q_i为构词要件A_i的权重赋值，V(B_j)为所述归属类别B_j的概率，j依次取1至m，n为所述构词要件的数量，m为所述归属类别的数量。

3.根据权利要求2所述的分类方法，其特征在于：Q_k+1＞Q_k，其中，k依次取1至n-1。

4.根据权利要求1所述的分类方法，其特征在于，在对所述关键词进行划分，得到所述关键词的构词成分之前，所述分类方法还包括：

设定所述预设类别；以及

设定归属于所述预设类别的构词要件。

5.一种关键词的分类装置，其特征在于，

划分单元，用于对所述关键词进行划分，得到所述关键词的构词成分；

提取单元，用于提取所述构词成分中的多个构词要件，其中，由各个构词成分归属类别的概率高低来确定构词要件；

查询单元，用于查询每个所述构词要件所归属的预设类别，得到多个归属类别；

计算单元，用于计算每个所述归属类别的概率，得到多个归属概率；以及

确定单元，用于确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别；

所述分类装置还包括：

接收单元，用于在计算每个所述归属类别的概率，得到多个归属概率之前，接收每个所述构词要件的权重赋值，预先对多个构词要件从前向后依次赋予由低到高的权重赋值，

其中，所述计算单元包括：计算子单元，用于按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率，得到多个归属概率。

6.根据权利要求5所述的分类装置，其特征在于，所述计算子单元包括：

计算模块，用于按照公式计算每个所述归属类别的概率，得到所述多个归属概率，其中，P(B_j|A_i)为构词要件A_i归属于归属类别B_j的预设概率，Q_i为构词要件A_i的权重赋值，V(B_j)为所述归属类别B_j的概率，j依次取1至m，n为所述构词要件的数量，m为所述归属类别的数量。

7.根据权利要求6所述的分类装置，其特征在于：Q_k+1＞Q_k，其中，k依次取1至n-1。

8.根据权利要求5所述的分类装置，其特征在于，所述分类装置还包括：

第一设定单元，用于在对所述关键词进行划分，得到所述关键词的构词成分之前，设定所述预设类别；以及

第二设定单元，用于设定归属于所述预设类别的构词要件。