CN107679209A

CN107679209A - 分类表达式生成方法和装置

Info

Publication number: CN107679209A
Application number: CN201710961839.5A
Authority: CN
Inventors: 李德彦; 晋耀红; 郝思洋
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: China Science and Technology (Beijing) Co., Ltd.
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2018-02-09
Anticipated expiration: 2037-10-16
Also published as: CN107679209B

Abstract

本申请公开了一种分类表达式生成方法和装置，所述方法包括：获取至少两个分类，每个所述分类包括多个语料；根据各分类包括的语料对每个分类进行算法挖掘生成对应于该分类的频繁模式集合，每个所述频繁模式集合中包括至少一个频繁模式；比较每个所有分类下的频繁模式集合中，各个频繁模式的概念和/或要素，排除相同的频繁模式，保留至少有一个概念或要素与其它频繁模式不同的频繁模式，并生成候选频繁模式集合；将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式。本方法能够排出分类中重复的频繁模式，并自动生成分类表达式，避免了人工筛选和挖掘过程，提高了语料筛选效率和准确度。

Description

分类表达式生成方法和装置

技术领域

本申请涉及文本挖掘技术领域，用于对大量的语料进行挖掘并生成属于不同分类下的分类表达式，具体地涉及了一种分类表达式生成方法和装置。

背景技术

社会化大数据中有80％属于非结构化数据，非结构化数据处理是大数据面临着诸多的挑战，其中的一种挑战是：业务分类及规划多变化快带来的维护挑战，业务分类多，分类变化快，每次分类变化时，需要把相关的所有分类的语言规则重新梳理，维护的工作量大，效率低。

对于业务性较强的相似短文本的分类或者语料，比如银行管理***对客服工单来电原因进行分类，由于文本内容很短，同一特征出现次数很少，并且不同的文本或者语料所属的类别之间存在很多交叉特征，采用统计挖掘算法如TFIDF、KNN等都难以权衡合理的特征权重，导致对这些文本或语料分类的准确度不高。

实际工作中，为了保证对业务性较强的相似短文本的分类能够达到实际运用的准确度，需要人工从大量语料中进行特征的筛选来生成分类表达式，这一过程耗时耗力。

发明内容

本申请提供了一种分类表达式生成方法和装置，以提高对语料筛选的效率和准确度。

第一方面，本申请提供了一种分类表达式生成方法，所述方法包括：获取至少两个分类，每个所述分类包括多个语料；根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，每个所述频繁模式集合中包括至少一个频繁模式，每个所述频繁模式中包括概念或要素中的至少一种，所述概念或要素可通过对每个所述语料解析获得；比较所有分类下的频繁模式集合中，各个频繁模式的概念和/或要素，即组成各个频繁模式的元的种类，排除相同的频繁模式，保留至少有一个概念或要素与其它频繁模式不同的频繁模式，并生成候选频繁模式集合，所述候选频繁模式集合中包括至少一个候选频繁模式；将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式。

本方面提供的方法，通过对每个分类进行算法挖掘形成频繁模式集合，并对所有生成的频繁模式集合进行比较和筛选形成分类表达式，该方法能够排出分类中重复的频繁模式，并为任一语料生成对应于其所在分类的分类表达式，是一种自动实现过程，避免了人工筛选和挖掘过程，提高了语料筛选效率和准确度。

结合第一方面，在第一方面一种具体的实现中，每个所述语料对应一个项集，所述算法包括Apriori算法，所述根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，包括：获取所述每个分类下的多个语料所对应的多个项集；将所述多个项集通过所述Apriori算法运算生成多个频繁模式集合，每个所述分类对应一个频繁模式集合。

结合第一方面，在第一方面另一种具体的实现中，所述生成多个频繁模式集合，包括：筛选二元或二元以上且只包含概念和要素中的一种的频繁模式；排除所述只包含概念和只包含要素组成的二元及二元以上的频繁模式，保留一元频繁模式和包含概念和要素的二元及二元以上的频繁模式，并利用保留的频繁模式生成所述多个频繁模式集合。

本实现方式排除了二元及二元以上只包含概念和要素的频繁模式，使得生成的分类表达式中包括概念和要素两种，从而更准确地将要筛选的语料划分在对应的分类下，方便业务人员对数据库中大量语料进行统计和整理。

结合第一方面，在第一方面又一种具体的实现中，将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式，包括：设每个所述频繁模式中的一个概念或者一个要素为一元，统计所述候选频繁模式中所包含的元的个数；判断所述候选频繁模式是否是由二元或二元以上的概念和/或要素组成；如果是，则将所述候选频繁模式中的所有概念和/或要素进行逻辑与的运算生成所述分类表达式；如果所述候选频繁模式中由一元概念或要素组成，则将一元的候选频繁模式与已建成的分类表达式进行逻辑非的运算生成所述分类表达式。

本实现方式中，利用筛选的概念和或要素，以及逻辑运算符号生成不同的分类表达式，例如具有逻辑与和逻辑非的分类表达式，从而提高了对语料划分的准确度。

结合第一方面，在第一方面又一种具体的实现中，所述比较的各个频繁模式中包括每个分类下预先生成的分类表达式；比较所述各个频繁模式的概念和/或要素，并生成候选频繁模式集合的步骤，包括：比较通过算法挖掘的各个频繁模式是否相同，以及比较所述挖掘的各个频繁模式与所述预先生成的分类表达式中的概念和或要素的组合是否相同；如果均不相同，则将该频繁模式作为所述候选频繁模式，并生成所述候选频繁模式集合。

本实现方式中，通过将生成的个频繁模式与预先生成的频繁模式进行比较，剔除相同的，保留不同的，节约了存储空间，并方便统计出在一种分类下的所有分类表达式，较人工筛选剔重提高了分类效率，节省分类时间。

结合第一方面，在第一方面又一种具体的实现中，若包含二元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y或e_X+c_Y；若包含二元的频繁模式，且按照逻辑非运算，则所述分类表达式表示为：c_X-e_Y或e_X-c_Y；若包含三元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y+c_Z；若包含三元的频繁模式，且按照逻辑与和逻辑非运算，则所述分类表达式表示为：c_X+e_Y-c_Z；其中，上述各分类表达式中，c表示概念，e表示要素，X、Y和Z表示概念名或要素名，是将同一概念下的多种描述经过归一化处理生成的，“+”表示逻辑与运算，“-”表示逻辑非运算。此外，所述分流表达式还可以包括其它运算符号，例如“|”表示左右的条件只满足一个即可，或者用“()”表示可以改变匹配的优先级等，本申请对此不做限定。

第二方面，本申请还提供了一种分类表达式生成装置，用于实现第一方面所述的分类表达式生成方法，具体地，该装置包括：获取单元和处理单元，另外，还可以包括发送单元和存储单元等，

获取单元，用于获取至少两个分类，每个所述分类包括多个语料；

所述处理单元，用于根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，每个所述频繁模式集合中包括至少一个频繁模式，每个所述频繁模式中包括概念或要素中的至少一种，所述概念或要素通过对每个所述语料解析获得；

所述处理单元，还用于比较所有分类下的频繁模式集合中，各个频繁模式的概念和/或要素，排除相同的频繁模式，保留至少有一个概念或要素与其它频繁模式不同的频繁模式，并生成候选频繁模式集合，所述候选频繁模式集合中包括至少一个候选频繁模式；以及，将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式。

结合第二方面，在第二方面一种具体的实现中，每个所述语料对应一个项集，所述算法包括Apriori算法，所述获取单元，具体用于获取所述每个分类下的多个语料所对应的多个项集；所述处理单元，具体用于根据各分类包括的语料将所述多个项集通过所述Apriori算法运算生成多个频繁模式集合，每个所述分类对应一个频繁模式集合。

结合第二方面，在第二方面另一种具体的实现中，所述处理单元，具体用于筛选二元或二元以上且只包含概念和要素中的一种的频繁模式；如果是，则排除所述只包含概念和只包含要素组成的二元及二元以上的频繁模式，保留一元频繁模式和包含概念和要素的二元及二元以上的频繁模式，并利用保留的频繁模式生成所述多个频繁模式集合。

结合第二方面，在第二方面又一种具体的实现中，所述处理单元，具体用于设每个所述频繁模式中的一个概念或者一个要素为一元，统计所述候选频繁模式中所包含的元的个数；判断所述候选频繁模式是否是由二元或二元以上的概念和/或要素组成；如果是，则将所述候选频繁模式中的所有概念和/或要素进行逻辑与的运算生成所述分类表达式；如果所述候选频繁模式中由一元概念或要素组成，则将一元的候选频繁模式与已建成的分类表达式进行逻辑非的运算生成所述分类表达式。

结合第二方面，在第二方面又一种具体的实现中，所述比较的各个频繁模式中包括每个分类下预先生成的分类表达式；所述处理单元，具体用于比较通过算法挖掘的各个频繁模式是否相同，以及比较所述挖掘的各个频繁模式与所述预先生成的分类表达式中的概念和或要素的组合是否相同；如果均不相同，则将该频繁模式作为所述候选频繁模式，并生成所述候选频繁模式集合。

第三方面，本申请还提供了一种分类器，所述分类器中包括收发器、处理器和存储器等部件，用于实现上述第一方面所述的分类表达式生成方法，进一步地，该分类器中的处理器可以通过执行存储器中所存储的程序或指令实现。

第四方面，本申请还提供了一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现本申请提供的一种分类表达式生成方法中的部分或全部步骤。

本申请提供的方法和装置，利用挖掘算法将各个分类下的语料生成对应分类的频繁模式集合，在比较和筛选各个集合中的频繁模式，生成候选频繁模式集合，最后对这些候选频繁模式集合中的概念和或要素进行组合运算生成分类表达式，实现了对语料的自动挖掘和分类，解决了在人工筛选语料和生成分类表达式的过程中耗时耗力，效率低的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种分类表达式生成方法的流程示意图；

图2为本申请实施例提供的另一种分类表达式生成方法的流程示意图；

图3为本申请实施例提供的一种分类表达式生成装置的结构示意图；

图4为本申请实施例提供的一种分类器结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中的技术方案作进一步详细的说明。

在对本发明实施例的技术方案说明之前，首先对本发明实施例的应用场景以及相关概念进行说明和介绍。

本申请可应用于人工智能技术领域，对数据库中存储的大量语料进行筛选和划分，生成对应分类的分类表达式，以方便技术人员对语料进行归类和统计，节约人工筛选语料所用的时间，并提高语料划分的准确性和效率，并达到辅助构建、扩展和优化分类模型的目的。

本申请所述的技术方案可以通过平台来实现，所述平台可以是一种基于概念的非结构化文本大数据分析挖掘设备，用于依据语义模型中的挖掘规则，对输入的语料(以文本格式)进行分析挖掘。提取待挖掘语料的概念和要素，并根据这些概念和要素生成分类表达式，以使所述语料能够以分类表达式的形式划分到具体的一个分类之中，辅助建立和优化分类模型。

其中，所述语料包括是平台或智能机器人记录的客户来电的语音文字内容。具体可以通过文本的方式表达和展示。例如，一条语料为“我想办理一张XX银行的***。”，或者“我在之前办理的一张贵行的***，优惠的类别错了，所以我想换一张***。”，另外，也包括用户评价的语料，例如“我几天前办理了一张贵行的***，审核通过后目前还没有收到寄来的卡，办卡速度太慢，我着急使用”等。

由于不同的语料内容不同，为了对成千上万的语料进行统计和归纳，需要按照某种特征对不同的语料进行分类。具体地，可以先将语料拆分成若干个概念和要素。

进一步地，概念，可用“c”表示，指各文本中的词汇的词义信息，以及词汇之间的语义关联性。一个“概念”可以代表一组词汇，也可以表示一句话。概念是对对象的描述，反应它所描述对象的本质属性的抽象表达。比如时间、地点、情绪、评价等。进一步地，语言学概念，比如“否定”、“疑问”；时间概念，比如“天”、“2017年”；地点概念“北京”、“当地”；动作描述性概念，比如“未完成”等。其中，概念一般与具体业务无关，是常用的语言概念，在不同的领域中可以复用。对应地，概念树(英文：Conception Tree)：树状组织业务无关的常用复杂概念。树的节点是概念名，概念值是一句话或文字模式，是概念对应的语言表达。每棵树都可理解为是一个语义模型。

其中，要素值支持两种类型：文本型和模式型。所述文本型是以词汇、短语等形式组成的文本串；模式型是以正则规则形式表示的文本串，可以是一段文本，或者多个词汇组合；支持距离、位置等词汇的简单运算，参见下表1所示。

要素名称	要素值	要素类型
			永久额度	永久、{0,3}额度	模式
永久额度	永额	文本
			永久额度	永久额度	文本

表1

要素，可用“e”表示，一般与具体业务有关、属性等。例如与业务相关的实体，包括“工行”、“牡丹卡”；与业务属性相关，比如“额度”、“最低消费”；与业务动作相关，比如“开卡”、“清零”等。要素还具有与领域相关的，在不同的领域不能复用的特点。对应地，要素树(英文：Element Tree)：树状组织业务相关的概念，是业务中经常用到的对象、工具、属性等概念；树的节点是要素名，要素名可以对应多个要素值。要素值为要素对应的语言表达，是词语或文字模式，参见下表1所示。

概念名称	概念值	概念类型
			环境差评	雾霾	文本
环境差评	空气、{0,7}污染严重	模式
			环境差评	环境、{0,7}欠佳	模式

表2

文本挖掘是从语料文本中获取有价值的信息。

模型优化，是指批量分析大量语料，技术准确率和召回率，更新语料进行迭代优化，持续化模型、建模策略和程序等操作。所述模型优化的过程是建立分类表达式的一部分，在构建之前业务人员需要人工筛选大量语料，对语料进行拆分生成概念和要素的组合，再通过优化方法自动挖掘这个组合。

下面对本申请提供的方法进行介绍，如图1所示，为本申请实施例提供的一种分类表达式生成方法的流程图，该方法包括以下步骤：

步骤101：获取至少两个分类，每个所述分类包括多个语料，其中，每个所述语料对应一个项集，每个所述项集由对所述语料解析后的概念和/或要素组成。

所述项集意为项的集合，包括一元项集、二元项集、三元项集等。每个所述项集包括元的种类和元的个数，其中，所述元的种类包括概念和要素，一个概念或者一个要素称为一元，每个所述项集由至少一个元组成。如果一个项集的相对支持度满足预定义的最小支持度阈值，则该项集可称为频繁项集。所述频繁项集的种类包括概念和/或要素，所述频繁项集中概念和/或要素的个数为元的个数。

其中，将所述语料转换成项集的过程包括：对每个所述语料进行拆分或者归一化处理，提取该语料中包括的概念和或要素，然后将这些概念和或要素组成对应于该语料的一个项集。可选的，每个项集可以用“()”来表示，例如,(设置，交易密码)。

步骤102：根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，每个所述频繁模式集合中包括至少一个频繁模式，每个所述频繁模式中包括概念或要素中的至少一种，所述概念或要素可通过对每个所述语料解析获得。

频繁模式(英文：frequent pattern)表示在一个数据集中频繁出现的模式，所述模式包括一些项、子序列、子结构等。

一种生成频繁模式的方式是，利用Apriori算法，所述Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

进一步地，利用Apriori算法生成频繁模式集合的过程包括：获取任意一个分类下的多个语料所对应的多个项集；将所述多个项集通过Apriori算法运算生成该分类下的多个频繁模式集合。按照同样的方法将其它分类也都通过Apriori算法生成频繁模式集合。其中，每个分类对应一个频繁模式集合。

可选的，在生成每个分类下的频繁模式集合过程中，还包括：排出全部是由概念或要素组成的二元或二元以上的频繁模式。具体地过程包括：筛选二元或二元以上且只包含概念和要素中的一种的频繁模式，排除所述只包含概念和只包含要素组成的二元及二元以上的频繁模式，保留一元频繁模式和包含概念和要素的二元及二元以上的频繁模式，并利用保留的频繁模式生成所述频繁模式集合。

步骤103：比较所有分类下的频繁模式集合中，各个频繁模式的概念和/或要素，排除相同的频繁模式，保留至少有一个概念或要素与其它频繁模式不同的频繁模式，并生成候选频繁模式集合，所述候选频繁模式集合中包括至少一个候选频繁模式。

所述“比较”包括两层比较筛选过程，一层是，在同一分类下比较各个频繁模式是否相同，排除具有相同概念和或要素，且元数相同的频繁模式，保留不相同的频繁模式；另一层筛选是，交叉比较各个分类下的频繁模式，即比较不同分类下的各个频繁模式，剔除相同保留不同的频繁模式。

具体地，比较所述各个频繁模式的概念和/或要素，并生成候选频繁模式集合的步骤，包括：比较通过算法挖掘的各个频繁模式是否相同，以及比较所述挖掘的各个频繁模式与所述预先生成的分类表达式中的概念和或要素的组合是否相同；如果均不相同，则将该频繁模式作为所述候选频繁模式，并生成所述候选频繁模式集合。

步骤104：将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式。

其中，分类表达式，也可以称为本体表达式：是每个分类或本体类对应的业务规则，用于表示每个分类或本体类对应的业务规则的规范化描述，一般由资源(比如概念、要素)和算子组合而成。所述算子包括初级算子，所述初级算子有逻辑组合运算，比如逻辑与“+”、逻辑或“|”、逻辑非“-”、括号优先级“()”等。进一步地，逻辑与“+”表示左右的条件必须同时满足，即都在语料中出现；逻辑或“|”表示左右的条件只要有一个项满足即可；逻辑非“-”表示排出，即右边的条件必须排出在外；括号“()”表示可以改变匹配的优先级；“#”表示句子限定，即所述限定的条件必须在同一个句子出现。

如图2所示，具体地，步骤104包括：

步骤201：设每个所述频繁模式中的一个概念或者一个要素为一元，统计所述候选频繁模式中所包含的元的个数。

步骤202：判断所述候选频繁模式是否是由二元或二元以上的概念和/或要素组成。

步骤203：如果所述候选频繁模式中由二元或二元以上的概念和/或要素组成，则将所述候选频繁模式中的所有概念和/或要素进行逻辑与的运算生成所述分类表达式。

例如，如果候选频繁模式为{e_开卡，e_交易密码}，则建立其分类下的分类表达式为：e_开卡+e_交易密码，其中，“+”表示逻辑与运算。

步骤204：如果所述候选频繁模式中由一元概念或要素组成，则将一元的候选频繁模式与已建成的分类表达式进行逻辑非的运算生成所述分类表达式。

例如，如果候选频繁模式中有{e_开卡，e_交易密码}和{c_遗忘}，则将该一元的频繁模式{c_遗忘}用逻辑非“-”排除，则生成的分类表达式为：e_开卡+e_交易密码-c_遗忘。

可选的，所述分类表达式可以根据频繁模式中包含的元的个数以及算子生成以下不同的模式：(1)若包含二元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y或e_X+c_Y；(2)若包含二元的频繁模式，且按照逻辑非运算，则所述分类表达式表示为：c_X-e_Y或e_X-c_Y；(3)若包含三元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y+c_Z；(4)若包含三元的频繁模式，且按照逻辑与和逻辑非运算，则所述分类表达式表示为：c_X+e_Y-c_Z。其中，上述各分类表达式中，c表示概念，e表示要素，X、Y和Z表示概念名或要素名，是通过将同一概念的多种描述归一化而成，“+”表示逻辑与运算，“-”表示逻辑非运算。

本实施例提供的方法，通过对每个分类进行算法挖掘形成频繁模式集合，并对所有生成的频繁模式集合进行比较和筛选形成分类表达式，该方法能够排出分类中重复的频繁模式，并为任一语料生成对应于其所在分类的分类表达式，是一种自动实现过程，避免了人工筛选和挖掘过程，提高了语料筛选效率和准确度，辅助构建、扩展及优化分类模型。

在一个具体的实施例中，以银行办卡的业务为例，下面说明本申请生成分类表达式的方法。

例如，第一分类为“设置密码”，为该第一分类生成分类表达式的过程包括：

步骤101：获取“设置密码”这一分类下的一个语料，比如语料为“……我想设置一下交易密码。”对该条语料的概念值和要素值进行识别，得到概念“设置”(用“c_设置”表示)下的一个概念值“设置？(一下|个)？”匹配到语料中的“设置一下”；要素“交易密码”(用“e_交易密码”表示)下的要素值“(交易|消费|信用|取现|支付).{0,3}密码”匹配到了语料中的“交易密码”，其中，每个概念下可以包含多个概念值，每个要素下可以包含多个要素值，进而可以达到使同一概念/要素的不同表达方式归一化的目的。如上述要素值“(交易|消费|信用|取现|支付).{0,3}密码”还可以匹配到‘消费密码’、‘取现的密码’、‘信用密码’等等多种表达，这些表达均可以用一个要素即“交易密码”表示。从而识别出这条语料包含的“设置”和“交易密码”两个项，这两个项组成了这一条语料所对应的项集为(c_设置，e_交易密码)。

其他语料可同理得出对应的项集。

步骤102：得到第一分类下的所有项集之后，使用apriori算法挖掘这一分类的频繁模式，即确定哪几项(一/二/三项)经常同时出现。假设“设置密码”这一分类经过算法挖掘后的频繁模式包括：{e_开卡，c_设置，e_交易密码}，{c_设置，e_交易密码}，{c_激活，e_交易密码}，{e_开卡，e_交易密码}，{c_激活}，{e_开卡}，这些频繁模式组成第一频繁模式集合。

同理地，按照上述步骤获取第二分类的频繁模式集合。假设第二分类为“重置密码”，则对该“重置密码”下的语料进行算法挖掘得到对应的频繁模式包括：{c_遗忘，e_交易密码}，{c_重置，e_交易密码}，{c_设置，e_交易密码}，{c_遗忘，c_修改，e_交易密码}，{c_遗忘}，这些频繁模式组成第二频繁模式集合。

步骤103：比较第一分类和第二分类下的频繁模式集合，排除其中相同的频繁模式，保留至少有一个概念或要素与其它频繁模式不同的频繁模式，并生成候选频繁模式集合。

具体包括：首先，针对由二元或者三元组成的频繁模式，将每个分类的频繁模式和当前分类下现有的表达式的要素和或概念的组合进行比对，排除相同的频繁模式。例如，在“设置密码”这一分类下，已经预先存储的分类表达式：e_开卡+c_设置+e_交易密码，则将这一分类下的频繁模式集合中的{e_开卡，c_设置，e_交易密码}删除，则保留剩余的频繁模式有：

{c_设置，e_交易密码}；

{c_激活，e_交易密码}；

{e_开卡，e_交易密码}；

{c_激活}；

{e_开卡}。

然后，将第一分类下的频繁模式集合与第二分类下的频繁模式集合进行比对，将其中的相同频繁模式从结果集中排除。经过对比可得{c_设置，e_交易密码}为两个分类中共有的相同频繁模式，则将这一频繁模式分别从各自分类下的结果集中删除。其中，本申请实施例中所述的“相同”是指项元数相同，且概念值或要素值也相同的频繁模式。

比较后剩余的频繁模式为各自分类下的候选频繁模式，如下表3所示。

第一分类下的候选频繁模式	第二分类下的候选频繁模式
		{c_激活，e_交易密码}	{c_遗忘，e_交易密码}
{e_开卡，e_交易密码}	{c_重置，e_交易密码}
		{c_激活}	{c_遗忘，c_修改，e_交易密码}
{e_开卡}	{c_遗忘}

表3

具体原则包括：若候选频繁模式中有二元或二元以上的概念值和要素值，则采用逻辑与运算生成分类表达式。例如候选频繁模式{e_开卡，e_交易密码}，构建成“设置密码”分类的分类表达式为：e_开卡+e_交易密码。

如果候选频繁模式中有一元项，则采用逻辑非运算排除该项。例如在“设置密码”分类下，已建成分类表达式：e_开卡+e_交易密码，为了更好的与“重置密码”类区分开，可以在表达式汇总进行逻辑非的操作，生成的分类表达式：e_开卡+e_交易密码-c_遗忘。

即排除相同的项，保留独有项，按照上述原则生成的第一分类和第二分类的本体表达式如表4所示。

“设置密码”分类下的分类表达式	“重置密码”分类下的分类表达式
		c_激活+e_交易密码	c_遗忘+e_交易密码
e_开卡+e_交易密码	c_重置+e_交易密码
		c_激活+e_交易密码-c_遗忘	c_遗忘+c_修改+e_交易密码
e_开卡+e_交易密码-c_遗忘	c_遗忘+e_交易密码-c_激活
			c_重置+e_交易密码-c_激活
	c_遗忘+c_修改+e_交易密码-c_激活
			c_遗忘+e_交易密码-e_开卡
	c_重置+e_交易密码-e_开卡
			c_遗忘+c_修改+e_交易密码-e_开卡
	c_遗忘+e_交易密码-c_激活-e_开卡
			c_重置+e_交易密码-c_激活-e_开卡
	c_遗忘+c_修改+e_交易密码-c_激活-e_开卡

表4

本实施例中，结合关联规则和挖掘算法，从同一分类下的训练语料内挖掘一元、二元和三元三种不同维度的频繁项集。由于要推荐的是分类表达式的项，为了体现业务和概念的联系，挖掘频繁项集时，设置了条件，以二元的频繁项集的项为要素和概念的组合、三元的频繁项集中的项至少有一个要素和一个概念。其他不符合条件的频繁项集被删除。

挖掘出的频繁项集形成两种频繁项集的集合。一种是每个分类下挖掘出的频繁项集，辅助扩展对应类别的分类规则表达式。另一种为排除性质的频繁项集的集合，换言之，如果一个频繁项集为第一分类规则下分类表达式的项，则一定不是第二分类规则下的分类表达式的项。这种情况下，通过在第二分类表达式的生成过程中执行逻辑非的操作，将此分类表达式排除。

本方法结合概念规则分类模型与apriori算法，自动挖掘与业务关联度较高的概念或概念组合，辅助构建、扩展、优化概念规则分类模型。既保证了分类器的准确度，又降低人工耗费，提高效率。

参见图3，为本申请实施例提供的一种分类表达式生成装置，该装置用于实现上述实施例图1或图2所述的分类表达式生成方法。进一步地，该装置可以设置在平台上、分类器中，或者智能机器人中，本申请对此不予限制。

如图3所示，该装置包括：获取单元310、处理单元320和发送单元330。另外，还可以包括存储单元等其他功能单元或模块。

进一步地，获取单元310用于获取至少两个分类，每个所述分类包括多个语料。

处理单元320用于根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，每个所述频繁模式集合中包括至少一个频繁模式，每个所述频繁模式中包括概念或要素中的至少一种，所述概念或要素通过对每个所述语料解析获得。

处理单元320还用于比较所有分类下的频繁模式集合中，各个频繁模式的概念和/或要素，排除相同的频繁模式，保留至少有一个概念或要素与其它频繁模式不同的频繁模式，并生成候选频繁模式集合，所述候选频繁模式集合中包括至少一个候选频繁模式；以及，将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式。

可选的，在本实施例的一种具体实现方式中，每个所述语料对应一个项集，所述算法包括Apriori算法。所述获取单元320具体用于获取所述每个分类下的多个语料所对应的多个项集；以及将所述多个项集通过所述Apriori算法运算生成多个频繁模式集合，每个所述分类对应一个频繁模式集合。

可选的，在本实施例的一种具体实现方式中，所述处理单元320具体用于筛选二元或二元以上且只包含概念和要素中的一种的频繁模式；排除所述只包含概念和只包含要素组成的二元及二元以上的频繁模式，保留一元频繁模式和包含概念和要素的二元及二元以上的频繁模式，并利用保留的频繁模式生成所述多个频繁模式集合。

可选的，在本实施例的一种具体实现方式中，处理单元320具体用于设每个所述频繁模式中的一个概念或者一个要素为一元，统计所述候选频繁模式中所包含的元的个数；判断所述候选频繁模式是否是由二元或二元以上的概念和/或要素组成；如果是，则将所述候选频繁模式中的所有概念和/或要素进行逻辑与的运算生成所述分类表达式；如果所述候选频繁模式中由一元概念或要素组成，则将一元的候选频繁模式与已建成的分类表达式进行逻辑非的运算生成所述分类表达式。

可选的，在本实施例的一种具体实现方式中，处理单元320具体还用于比较通过算法挖掘的各个频繁模式是否相同，以及比较所述挖掘的各个频繁模式与所述预先生成的分类表达式中的概念和或要素的组合是否相同；如果均不相同，则将该频繁模式作为所述候选频繁模式，并生成所述候选频繁模式集合。

可选的，在本实施例的一种具体实现方式中，若包含二元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y或e_X+c_Y；若包含二元的频繁模式，且按照逻辑非运算，则所述分类表达式表示为：c_X-e_Y或e_X-c_Y；若包含三元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y+c_Z；若包含三元的频繁模式，且按照逻辑与和逻辑非运算，则所述分类表达式表示为：c_X+e_Y-c_Z；其中，上述各分类表达式中，c表示概念，e表示要素，X、Y和Z表示概念名或要素名，“+”表示逻辑与运算，“-”表示逻辑非运算。

发送单元330用于将生成的分类表达式对外输出给用户或者在平台上显示。

本实施例提供的装置，利用挖掘算法将各个分类下的语料生成对应分类的频繁模式集合，在比较和筛选各个集合中的频繁模式，生成候选频繁模式集合，最后对这些候选频繁模式集合中的概念和或要素进行组合运算生成分类表达式，实现了对语料的自动挖掘和分类，解决了在人工筛选语料和生成分类表达式的过程中耗时耗力，效率低的问题。

参见图4，本申请实施例还提供了一种分类器，用于承载图3所示的装置。其中，该分类器中包括收发器410、处理器420和存储器430等部件，用于实现上述分类表达式生成方法，进一步地，该分类器中的处理器420可以通过执行存储器430中所存储的程序或指令实现。

其中，所述收发器410可以用于接收或发送数据、语料、文本等信息，所述收发器410可以在处理器420的控制下接收或发送信息。

处理器420为分类器的控制中心，利用各种接口和线路连接整个分类器的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器430内的数据，以实现生成分类表达式的功能。进一步地，所述处理器420可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。处理器还可以进一步包括硬件芯片。所述硬件芯片上设有集成电路或可编程逻辑器件等，本申请对此不做具体限制。

存储器430可以包括易失性存储器(volatile memory)，例如随机存取内存(random access memory，RAM)；还可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-statedrive，SSD)；所述存储器还可以包括上述种类的存储器的组合。

在本发明实施例中，结合上述实施例的图3所示，所述获取单元310和发送单元330所要实现的功能可以由所述分类器的收发器410实现，或者由处理器420控制的收发器410实现；所述处理单元320所要实现的功能则可以由所述处理器420实现，存储器430用于存储语料、文本、算法、频繁项集和分类表达式等。

此外，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的分类表达式生成方法中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，ROM)或随机存储记忆体(英文：random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于上述各实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种分类表达式生成方法，其特征在于，所述方法包括：

获取至少两个分类，每个所述分类包括多个语料；

根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，每个所述频繁模式集合中包括至少一个频繁模式，每个所述频繁模式中包括概念或要素中的至少一种，所述概念或要素通过对每个所述语料解析获得；

比较所有分类下的频繁模式集合中，各个频繁模式的概念和/或要素，排除相同的频繁模式，保留至少有一个概念或要素与其它频繁模式不同的频繁模式，并生成候选频繁模式集合，所述候选频繁模式集合中包括至少一个候选频繁模式；

将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式。

2.根据权利要求1所述的方法，其特征在于，每个所述语料对应一个项集，所述算法包括Apriori算法，

所述根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，包括：

获取所述每个分类下的多个语料所对应的多个项集；

将所述多个项集通过所述Apriori算法运算生成多个频繁模式集合，每个所述分类对应一个频繁模式集合。

3.根据权利要求2所述的方法，其特征在于，所述生成多个频繁模式集合，包括：

筛选二元或二元以上且只包含概念和要素中的一种的频繁模式；

排除只包含概念和只包含要素组成的二元及二元以上的频繁模式，保留一元频繁模式和包含概念和要素的二元及二元以上的频繁模式，并利用保留的频繁模式生成所述多个频繁模式集合。

4.根据权利要求1-3任一项所述的方法，其特征在于，

将所述至少一个候选频繁模式中的概念和/或要素组合运算生成每个所述分类的分类表达式，包括：

设每个所述频繁模式中的一个概念或者一个要素为一元，统计所述候选频繁模式中所包含的元的个数；

判断所述候选频繁模式是否是由二元或二元以上的概念和/或要素组成；

如果是，则将所述候选频繁模式中的所有概念和/或要素进行逻辑与的运算生成所述分类表达式；

如果所述候选频繁模式中由一元概念或要素组成，则将一元的候选频繁模式与已建成的分类表达式进行逻辑非的运算生成所述分类表达式。

5.根据权利要求1所述的方法，其特征在于，所述比较的各个频繁模式中包括每个分类下预先生成的分类表达式；

比较所述各个频繁模式的概念和/或要素，并生成候选频繁模式集合的步骤，包括：

比较通过算法挖掘的各个频繁模式是否相同，以及比较所述挖掘的各个频繁模式与所述预先生成的分类表达式中的概念和或要素的组合是否相同；

如果均不相同，则将该频繁模式作为所述候选频繁模式，并生成所述候选频繁模式集合。

6.根据权利要求1-5任一项所述的方法，其特征在于，

若包含二元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y或e_X+c_Y；

若包含二元的频繁模式，且按照逻辑非运算，则所述分类表达式表示为：c_X-e_Y或e_X-c_Y；

若包含三元的频繁模式，且按照逻辑与运算，则所述分类表达式表示为：c_X+e_Y+c_Z；

若包含三元的频繁模式，且按照逻辑与和逻辑非运算，则所述分类表达式表示为：c_X+e_Y-c_Z；

其中，上述各分类表达式中，c表示概念，e表示要素，X、Y和Z表示概念名或要素名，“+”表示逻辑与运算，“-”表示逻辑非运算。

7.一种分类表达式生成装置，其特征在于，所述装置包括：

处理单元，用于根据各分类包括的语料对每个所述分类进行算法挖掘生成对应于该分类的频繁模式集合，每个所述频繁模式集合中包括至少一个频繁模式，每个所述频繁模式中包括概念或要素中的至少一种，所述概念或要素通过对每个所述语料解析获得；

8.根据权利要求7所述的装置，其特征在于，每个所述语料对应一个项集，所述算法包括Apriori算法，

所述获取单元，具体用于获取所述每个分类下的多个语料所对应的多个项集；

所述处理单元，具体用于将所述多个项集通过所述Apriori算法运算生成多个频繁模式集合，每个所述分类对应一个频繁模式集合。

9.根据权利要求8所述的装置，其特征在于，

所述处理单元，具体用于筛选二元或二元以上且只包含概念和要素中的一种的频繁模式；排除所述只包含概念和只包含要素组成的二元及二元以上的频繁模式，保留一元频繁模式和包含概念和要素的二元及二元以上的频繁模式，并利用保留的频繁模式生成多个频繁模式集合。

10.根据权利要求7-9任一项所述的装置，其特征在于，

所述处理单元，具体用于设每个所述频繁模式中的一个概念或者一个要素为一元，统计所述候选频繁模式中所包含的元的个数；判断所述候选频繁模式是否是由二元或二元以上的概念和/或要素组成；如果是，则将所述候选频繁模式中的所有概念和/或要素进行逻辑与的运算生成所述分类表达式；如果所述候选频繁模式中由一元概念或要素组成，则将一元的候选频繁模式与已建成的分类表达式进行逻辑非的运算生成所述分类表达式。