WO2017028416A1

WO2017028416A1 - 分类器训练方法、类型识别方法及装置

Info

Publication number: WO2017028416A1
Application number: PCT/CN2015/097615
Authority: WO
Inventors: 汪平仄; 龙飞; 张涛
Original assignee: 小米科技有限责任公司
Priority date: 2015-08-19
Filing date: 2015-12-16
Publication date: 2017-02-23
Also published as: KR20170032880A; RU2016111677A; US20170052947A1; RU2643500C2; CN105117384A; KR101778784B1; EP3133532A1; JP2017535007A; MX2016003981A

Abstract

一种分类器训练方法、类型识别方法及装置，属于自然语言处理领域。分类器训练方法包括：从样本信息中提取携带有目标关键字的样本分句（101）；根据每条样本分句是否属于目标类别，对样本分句进行二值标注，得到样本训练集（102）；对样本训练集中的每个样本分句进行分词，得到若干个词语（103）；从若干个词语中提取出指定特征集合，指定特征集合包括至少一个特征词（104）；根据指定特征集合中的特征词构建分类器（105）；根据样本训练集中的二值标注结果对分类器进行训练（106）。由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的，所以该分类器能够对携带有目标关键词的分句做出较为准确的预测，达到了识别结果较为准确的效果。

Description

分类器训练方法、类型识别方法及装置

本申请基于申请号为201510511468.1、申请日为2015年08月19日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及自然语言处理领域，特别涉及一种分类器训练方法、类型识别方法及装置。

背景技术

短信内容识别和提取是自然语言处理的一个实际应用。

以识别生日类短信为例，相关技术中提供了一种识别方法，该识别方法预先设置了若干个关键词，通过识别短信的内容中是否包括全部或部分关键词，来识别该短信是否为携带有生日日期的短信。

发明内容

为了解决直接使用关键词进行类型识别并不准确的问题，本公开提供一种分类器训练方法、类型识别方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供了一种分类器训练方法，该方法包括：

从样本信息中提取携带有目标关键字的样本分句；

根据每条样本分句是否属于目标类别，对样本分句进行二值标注，得到样本训练集；

对样本训练集中的每个样本分句进行分词，得到若干个词语；

从若干个词语中提取出指定特征集合，指定特征集合包括至少一个特征词；

根据指定特征集合中的特征词构建分类器；

根据样本训练集中的二值标注结果对分类器进行训练。

在一个可选的实施例中，从若干个词语中提取出指定特征集合，包括：

根据卡方检验从若干个词语中提取出指定特征集合；

或，

根据信息增益从若干个词语中提取出指定特征集合。

在一个可选的实施例中，根据指定特征集合中的特征词构建分类器，包括：

将指定特征集合中的特征词构建朴素贝叶斯分类器，各个特征词在朴素贝叶斯分类器中互相独立。

在一个可选的实施例中，根据样本训练集中的二值标注结果对分类器进行训练，包括：

对于朴素贝叶斯分类器中的每个特征词，根据样本训练集中的二值标注结果，统计出携带有特征词的分句属于目标类别的第一条件概率，和，携带有特征词的分句不属于目标类别的第二条件概率；

根据各个特征词、第一条件概率和第二条件概率，得到训练后的朴素贝叶斯分类器。

根据本公开的第二方面，提供了一种类型识别方法，该方法包括：

从原始信息中提取携带有目标关键字的分句；

根据提取出的分句中属于指定特征集合的特征词，生成原始信息的特征集合，指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的；

将原始信息的特征集合输入训练后的分类器中进行预测，分类器是预先根据指定特征集合中的特征词构建的分类器；

获取分类器的预测结果，预测结果表征原始信息属于目标类别或不属于目标类别。

在一个可选的实施例中，将原始信息的特征集合输入训练后的分类器中进行预测，包括：

将原始信息的特征集合中的每个特征词，输入训练后的朴素贝叶斯分类器中，计算原始信息属于目标类别的第一预测概率和原始信息不属于目标类别的第二预测概率；

根据第一预测概率和第二预测概率的大小关系，预测原始信息是否属于目标类别；

其中，训练后的朴素贝叶斯分类器中包括每个特征词的第一条件概率和第二条件概率，第一条件概率是携带有特征词的分句属于目标类别的概率，第二条件概率是携带有特征词的分句不属于目标类别的概率。

在一个可选的实施例中，该方法还包括：

若预测出原始信息属于目标类别，则从原始信息中提取目标信息。

在一个可选的实施例中，目标信息是生日日期；

从原始信息中提取目标信息，包括：

通过正则表达式从原始信息中提取生日日期；

或，

将原始信息的接收日期提取为生日日期。

根据本公开的第三方面，提供了一种分类器训练装置，该装置包括：

分句提取模块，被配置为从样本信息中提取携带有目标关键字的样本分句；

分句标注模块，被配置为根据每条样本分句是否属于目标类别，对样本分句进行二值标注，得到样本训练集；

分句分词模块，被配置为对样本训练集中的每个样本分句进行分词，得到若干个词语；

特征词提取模块，被配置为从若干个词语中提取出指定特征集合，指定特征集合包括至少一个特征词；

分类器构建模块，被配置为根据指定特征集合中的特征词构建分类器；

分类器训练模块，被配置为根据样本训练集中的二值标注结果对分类器进行训练。

在一个可选的实施例中，特征词提取模块，被配置为根据卡方检验从若干个词语中提取出指定特征集合；或，特征词提取模块，被配置为根据信息增益从若干个词语中提取出指定特征集合。

在一个可选的实施例中，分类器构建模块，被配置为将指定特征集合中的特征词构建朴素贝叶斯分类器，各个特征词在朴素贝叶斯分类器中互相独立。

在一个可选的实施例中，分类器训练模块，包括：

统计子模块，被配置为对于朴素贝叶斯分类器中的每个特征词，根据样本训练集中的二值标注结果，统计出携带有特征词的分句属于目标类别的第一条件概率，和，携带有特征词的分句不属于目标类别的第二条件概率；

训练子模块，被配置为根据各个特征词、第一条件概率和第二条件概率，得到训练后的朴素贝叶斯分类器。

根据本公开的第四方面，提供了一种类型识别装置，该装置包括：

原始提取模块，被配置为从原始信息中提取携带有目标关键字的分句；

特征提取模块，被配置为根据提取出的分句中属于指定特征集合的特征词，生成原始信息的特征集合，指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的；

特征输入模块，被配置为将原始信息的特征集合输入训练后的分类器中进行预测，分类器是预先根据指定特征集合中的特征词构建的分类器；

结果获取模块，被配置为获取分类器的预测结果，预测结果表征原始信息属于目标类别或不属于目标类别。

在一个可选的实施例中，特征输入模块，包括：

计算子模块，被配置为将原始信息的特征集合中的每个特征词，输入训练后的朴素贝叶斯分类器中，计算原始信息属于目标类别的第一预测概率和原始信息不属于目标类别的第二预测概率；

预测子模块，被配置为根据第一预测概率和第二预测概率的大小关系，预测原始信息是否属于目标类别；

在一个可选的实施例中，该装置还包括：

信息提取模块，被配置为在预测出原始信息属于目标类别时，从原始信息中提取目标信息。

在一个可选的实施例中，目标信息是生日日期；

信息提取模块，被配置为通过正则表达式从原始信息中提取生日日期；

或，

信息提取模块，被配置为将原始信息的接收日期提取为生日日期。

根据本公开的第五方面，提供了一种分类器训练装置，该装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

从样本信息中提取携带有目标关键字的样本分句；

根据指定特征集合中的特征词构建分类器；

根据样本训练集中的二值标注结果对分类器进行训练。

根据本公开的第六方面，提供了一种类型识别装置，该装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

从原始信息中提取携带有目标关键字的分句；

本公开的实施例提供的技术方案可以包括以下有益效果：

通过对样本训练集中的每个样本分句进行分词得到若干个词语，从该若干个词语中提取出指定特征集合，根据指定特征集合中的特征词构建分类器；解决了单纯使用生日关键字进行短信类别分析时，识别结果不准确的问题；由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的，所以该分类器能够对携带有目标关键词的分句做出较为准确的预测，达到了识别结果较为准确的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种分类器训练方法的流程图；

图2是根据另一示例性实施例示出的一种分类器训练方法的流程图；

图3是根据一示例性实施例示出的一种类型识别方法的流程图；

图4是根据另一示例性实施例示出的一种类型识别方法的流程图；

图5是根据一示例性实施例示出的一种分类器训练装置的框图；

图6是根据另一示例性实施例示出的一种分类器训练装置的框图；

图7是根据一示例性实施例示出的一种类型识别装置的框图；

图8是根据另一示例性实施例示出的一种类型识别装置的框图；

图9是根据一示例性实施例示出的一种用于分类器训练装置或类型识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

由于自然语言表达的多样性和复杂性，直接使用目标关键词进行类型识别并不准确。比如，携带有目标关键词“生日”或“出生”的短信如下：

短信1：“小敏，明天不是他的生日，你不要买蛋糕了。”

短信2：“亲，今天是你的生日吗？”

短信3：“我儿子是去年的今天出生的。”

短信4：“5月20日出生的宝宝都有好运。”

上述4条短信中，只有第三条短信是携带有有效生日日期的短信，其它3条短信都不是携带有有效生日日期的短信。

为了对短信进行准确的类型识别，本公开实施例提供了一种基于分类器的识别方法。该识别方法包括两个阶段：第一阶段，训练分类器的阶段；第二阶段，使用分类器进行类型识别的阶段。

下面采用不同的实施例来阐述上述两个阶段。

第一阶段，训练分类器的阶段。

图1是根据一示例性实施例示出的一种分类器训练方法的流程图。该方法包括如下步骤。

在步骤101中，从样本信息中提取携带有目标关键字的样本分句。

可选地，样本信息的类别是短信、邮件、微博或即时通信信息中的任意一种。本公开实施例对样本信息的类别不作限定。

每条样本信息包括至少一个分句。其中，携带有目标关键字的分句是样本分句。

在步骤102中，根据每条样本分句是否属于目标类别，对样本分句进行二值标注，得到样本训练集。

在步骤103中，对样本训练集中的每个样本分句进行分词，得到若干个词语。

在步骤104中，从若干个词语中提取出指定特征集合，指定特征集合包括至少一个特征词。

在步骤105中，根据指定特征集合中的特征词构建分类器。

可选地，该分类器是朴素贝叶斯分类器。

在步骤106中，根据样本训练集中的二值标注结果对分类器进行训练。

综上所述，本实施例提供的分类器训练方法，通过对样本训练集中的每个样本分句进行分词得到若干个词语，从该若干个词语中提取出指定特征集合，根据指定特征集合中的特征词构建分类器；解决了单纯使用生日关键字进行短信类别分析时，识别结果不准确的问题；由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的，所以该分类器能够对携带有目标关键词的分句做出较为准确的预测，达到了识别结果较为准确的效果。

图2是根据另一示例性实施例示出的一种分类器训练方法的流程图。该方法包括如下步骤。

在步骤201中，获取若干条携带有目标关键字的样本信息。

目标关键词是与目标类别有关的关键词。以目标类别是携带有有效生日日期的信息为例，目标关键词包括：“生日”和“出生”。

携带有目标关键字的样本信息越多，训练得到的分类器越准确。在样本信息的类别是短信时，示意性的，样本信息包括：

样本短信1：“小敏，明天不是他的生日，你不要买蛋糕了。”

样本短信2：“亲，今天是你的生日吗？”

样本短信3：“我儿子是去年的今天出生的。”

样本短信4：“5月20日出生的宝宝都有好运。”

样本短信5：“我儿子出生那天，正好是4月1日愚人节。”

….诸如此类，不再一一列举。

在步骤202中，从样本信息中提取携带有目标关键字的样本分句。

每条样本信息包括至少一个分句。一个分句是指未被标点符号所隔开的句子。比如：

从样本短信1中提取出样本分句1：“明天不是他的生日”；

从样本短信2中提取出样本分句2：“今天是你的生日吗”

从样本短信3中提取出样本分句3：“我儿子是去年的今天出生的”

从样本短信4中提取出样本分句4：“5月20日出生的宝宝都有好运”

从样本短信5中提取出样本分句5：“我儿子出生那天”

在步骤203中，根据每条样本分句是否属于目标类别，对样本分句进行二值标注，得到样本训练集。

可选地，二值标注的标注值是1或0，在样本分句属于目标类别时，标注为1；在样本分句不属于目标类别时，标注为0。

比如，样本分句1的标注为0、样本分句2的标注为0、样本分句3的标注为1、样本分句4的标注为0、样本分句5的标注为1。

样本训练集包括多个样本分句。

在步骤204中，对样本训练集中的每个样本分句进行分词，得到若干个词语。

比如，将样本分句1进行分词，得到“明天”、“不是”、“他”、“的”、“生日”共5个词；将样本分句2进行分词，得到“今天”、“是”、“你”、“的”、“生日”、“吗”共6个词；将样本分句3进行分词，得到“我”、“儿子”、“是”、“去年”、“的”、“今天”、“出生”、“的”共8个词；将样本分句4进行分词，得到“5月”、“20日”、“出生”、“的”、“宝宝”、“都有”、“好运”共7个词；将样本分句5进行分词，得到“我”、“儿子”、“出生”、“那天”共4个词。

也即，若干个词包括:“明天”、“不是”、“他”、“的”、“生日”、“今天”、“是”、“你”、“吗”、“我”、“儿子”、“去年”、“出生”、“5月”、“20日”、“宝宝”、“都有”、“好运”、“那天”等。

在步骤205中，根据卡方检验或信息增益从若干个词语中提取出指定特征集合。

由于分词得到的若干个词，有些词语的重要性较高，有些词语的重要性较低，并不是所有的词都适合作为特征词。所以本步骤可以采用两种不同的方式提取特征词。

第一种方式，根据卡方检验从若干个词语中提取出与目标类别的相关性排名前n位的特征词，形成指定特征集合F。

卡方检验可以检测出每个词语与目标类别的相关性。相关性越高，越适合作为与该目标类别对应的特征词。

示意性的，一种卡方检验提取特征词的方法如下：

1.1统计样本训练集中的样本分句总数N。

1.2统计每个词在属于目标类别的样本分句中的出现频率A、不属于目标类别的样本分句中的出现频率B、在属于目标类别的样本分句中的不出现频率C、在不属于目标类别的样本分句中的不出现频率D。

1.3计算每个词的卡方值如下：

1.4将每个词按照各自的卡方值由大到小进行排序，选取前n个词作为特征词。

第二种方式，根据信息增益从若干个词语中提取出信息增益值排名前n位的特征词，形成指定特征集合F。

信息增益用于表示词语相对于样本训练集的信息量，该词语携带的信息量越多，越适合作为特征词。

示意性的，一种信息增益提取特征词的方法如下：

2.1统计属于目标类别的样本分句的个数N1、不属于目标类别的样本分句的个数N2。

2.2统计每个词在属于目标类别的样本分句中的出现频率A、不属于目标类别的样本分句中的出现频率B、在属于目标类别的样本分句中的不出现频率C、在不属于目标类别的样本分句中的不出现频率D。

2.3计算信息熵

2.4计算每个词的信息增益值

2.5将每个词按照信息增益值从大到小排序，选取前n个词作为特征词。

在步骤206中，根据指定特征集合中的特征词构建朴素贝叶斯分类器，各个特征词在朴素贝叶斯分类器中互相独立。

朴素贝叶斯分类器是一种基于每个特征词的第一条件概率和第二条件概率进行预测的分类。对于任意一个特征词，第一条件概率是携带有特征词的分句属于目标类别的概率，第二条件概率是携带有特征词的分句不属于目标类别的概率。

训练朴素贝叶斯分类器的过程，需要根据样本训练集计算出每个特征词的第一条件概率和第二条件概率。

比如，携带有特征词“今天”的样本分句有100个，其中属于目标类别的样本分句有73个，不属于目标类别的样本分句有27个，则特征词“今天”的第一条件概率为0.73，第二条件概率为0.27。

在步骤207中，对于朴素贝叶斯分类器中的每个特征词，根据样本训练集中的二值标注结果，统计出携带有特征词的分句属于目标类别的第一条件概率，和，携带有特征词的分句不属于目标类别的第二条件概率；

在步骤208中，根据各个特征词、第一条件概率和第二条件概率，得到训练后的朴素贝叶斯分类器。

本实施例还通过卡方检验或信息增益从样本训练集的各个分句中提取特征词，能够提取出对分类准确性有较佳作用的特征词，从而提高朴素贝叶斯分类器的分类准确性。

第二阶段，使用分类器进行类型识别的阶段。

图3是根据一示例性实施例示出的一种类型识别方法的流程图。该类型识别方法所使用的分类器是图1或图2实施例所训练得到的分类器。该方法包括如下步骤。

在步骤301中，从原始信息中提取携带有目标关键字的分句。

可选地，原始信息是短信、邮件、微博或即时通信信息中的任意一种。本公开实施例对原始信息的类别不作限定。每条原始信息包括至少一个分句。

在步骤302中，根据提取出的分句中属于指定特征集合的特征词，生成原始信息的特征集合，指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的。

在步骤303中，将原始信息的特征集合输入训练后的分类器中进行预测，分类器是预先根据指定特征集合中的特征词构建的分类器。

可选地，该分类器是朴素贝叶斯分类器。

在步骤304中，获取分类器的预测结果，该预测结果表征原始信息属于目标类别或不属于目标类别。

综上所述，本实施例提供的类型识别方法，通过指定特征集合来提取分句中的特征词，作为原始信息的特征集合，然后将该特征集合输入至训练后的分类器中预测，该分类器是预先根据指定特征集合中的特征词构建的分类器；解决了单纯使用生日关键字进行短信类别分析时，识别结果不准确的问题；由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的，所以该分类器能够对携带有目标关键词的分句做出较为准确的预测，达到了识别结果较为准确的效果。

图4是根据另一示例性实施例示出的另一种类型识别方法的流程图。该类型识别方法所使用的分类器是图1或图2实施例所训练得到的分类器。该方法包括如下步骤。

在步骤401中，检测原始信息是否包括目标关键字；

可选地，原始信息是短信。比如，原始信息是“我的生日是7月28日，今天不是我的生日呦！”。

检测原始信息是否包括目标关键词；若包括，则进入步骤402；若不包括，则不做后续处理。

在步骤402中，若原始信息包括目标关键字，则从原始信息中提取携带有目标关键字的分句。

比如，原始信息包括目标关键字“生日”，则从原始信息中提取出分句“我的生日是7月28日”。

在步骤403中，根据提取出的分句中属于指定特征集合的特征词，生成原始信息的特征集合，指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的；

比如，指定特征集合包括：“明天”、“不是”、“他”、“的”、“生日”、“今天”、“是”、“你”、“吗”、“我”、“儿子”、“去年”、“出生”、“那天”等特征词。

分句“我的生日是7月28日”中属于指定特征集合的特征词包括：“我”、“的”、“生日”、“是”。将包括“我”、“的”、“生日”、“是”共4个词作为原始信息的特征集合。

在步骤404中，将原始信息的特征集合中的每个特征词，输入训练后的朴素贝叶斯分类器中，计算原始信息属于目标类别的第一预测概率和原始信息不属于目标类别的第二预测概率；

原始信息的第一预测概率，等于原始信息的特征集合中的各个特征词的第一条件概率的乘积。

比如，“我”的第一条件概率是0.6、“的”的第一条件概率是0.5、“生日”的第一条件概率是0.65、“是”的第一条件概率是0.7，则原始信息的第一预测概率＝0.6*0.5*0.65*0.7＝0.11375

原始信息的第二预测概率，等于原始信息的特征集合中的各个特征词的第二条件概率的乘积。

比如，“我”的第一条件概率是0.4、“的”的第一条件概率是0.5、“生日”的第一条件概率是0.35、“是”的第一条件概率是0.3，则原始信息的第一预测概率＝0.6*0.5*0.65*0.7＝0.021。

在步骤405中，根据第一预测概率和第二预测概率的大小关系，预测原始信息是否属于目标类别；

在第一预测概率大于第二预测概率时，预测结果为原始信息属于目标类别。

比如，0.11375＞0.021，所以原始信息属于目标类别，也即原始信息是携带有有效生日日期的信息。

在第二预测概率大于第一预测概率时，预测结果为原始信息不属于目标类别。

在步骤406中，若预测出原始信息属于目标类别，则从原始信息中提取目标信息。

本步骤可以采用如下任意一种实现方式：

第一，通过正则表达式从原始信息中提取生日日期。

第二，将原始信息的接收日期提取为生日日期。

第三，尝试通过正则表达式从原始信息中提取生日日期；若无法通过正则表达式提取出生日日期，则将原始信息的接收日期提取为生日日期。

本实施例提供的类型识别方法，还通过在预测出原始信息属于目标类别后，从原始信息中提取目标信息，实现对生日日期、出行日期之类的目标信息的提取，为后续自动生成提醒事项、日历标记等功能提供数据支持。

需要补充说明的是，上述实施例均以目标类别是携带有有效生日日期的信息为举例说明，但是上述方法的应用不限定在这单一目标类别。目标类别还可以是携带有有效出行日期的信息、携带有有效放假日期的信息等等。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种分类器训练装置的框图，如图5所示，该分类器训练装置包括但不限于：

分句提取模块510，被配置为从样本信息中提取携带有目标关键字的样本分句；

分句标注模块520，被配置为根据每条样本分句是否属于目标类别，对样本分句进行二值标注，得到样本训练集；

分句分词模块530，被配置为对样本训练集中的每个样本分句进行分词，得到若干个词语；

特征词提取模块540，被配置为从若干个词语中提取出指定特征集合，指定特征集合包括至少一个特征词；

分类器构建模块550，被配置为根据指定特征集合中的特征词构建分类器；

分类器训练模块560，被配置为根据样本训练集中的二值标注结果对分类器进行训练。

综上所述，本实施例提供的分类器训练装置，通过对样本训练集中的每个样本分句进行分词得到若干个词语，从该若干个词语中提取出指定特征集合，根据指定特征集合中的特征词构建分类器；解决了单纯使用生日关键字进行短信类别分析时，识别结果不准确的问题；由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的，所以该分类器能够对携带有目标关键词的分句做出较为准确的预测，达到了识别结果较为准确的效果。

图6是根据一示例性实施例示出的一种分类器训练装置的框图，如图6所示，该分类器训练装置包括但不限于：

可选地，特征词提取模块540，被配置为根据卡方检验从若干个词语中提取出指定特征集合；或，特征词提取模块540，被配置为根据信息增益从若干个词语中提取出指定特征集合。

可选地，分类器构建模块550，被配置为将指定特征集合中的特征词构建朴素贝叶斯分类器，各个特征词在朴素贝叶斯分类器中互相独立。

可选地，分类器训练模块560，包括：

统计子模块562，被配置为对于朴素贝叶斯分类器中的每个特征词，根据样本训练集中的二值标注结果，统计出携带有特征词的分句属于目标类别的第一条件概率，和，携带有特征词的分句不属于目标类别的第二条件概率；

训练子模块564，被配置为根据各个特征词、第一条件概率和第二条件概率，得到训练后的朴素贝叶斯分类器。

图7是根据一示例性实施例示出的一种类型识别装置的框图，如图7所示，该类型识别装置包括但不限于：

原始提取模块720，被配置为从原始信息中提取携带有目标关键字的分句；

特征提取模块740，被配置为根据提取出的分句中属于指定特征集合的特征词，生成原始信息的特征集合，指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的；

特征输入模块760，被配置为将原始信息的特征集合输入训练后的分类器中进行预测，分类器是预先根据指定特征集合中的特征词构建的分类器；

结果获取模块780，被配置为获取分类器的预测结果，预测结果表征原始信息属于目标类别或不属于目标类别。

综上所述，本实施例提供的类型识别装置，通过指定特征集合来提取分句中的特征词，作为原始信息的特征集合，然后将该特征集合输入至训练后的分类器中预测，该分类器是预先根据指定特征集合中的特征词构建的分类器；解决了单纯使用生日关键字进行短信类别分析时，识别结果不准确的问题；由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的，所以该分类器能够对携带有目标关键词的分句做出较为准确的预测，达到了识别结果较为准确的效果。

图8是根据一示例性实施例示出的一种类型识别装置的框图，如图8所示，该类型识别装置包括但不限于：

可选地，特征输入模块760，包括：

计算子模块762，被配置为将原始信息的特征集合中的每个特征词，输入训练后的朴素贝叶斯分类器中，计算原始信息属于目标类别的第一预测概率和原始信息不属于目标类别的第二预测概率；

预测子模块764，被配置为根据第一预测概率和第二预测概率的大小关系，预测原始信息是否属于目标类别；

可选地，该装置还包括：

信息提取模块790，被配置为在预测出原始信息属于目标类别时，从原始信息中提取目标信息。

可选地，目标信息是生日日期；

信息提取模块790，被配置为通过正则表达式从原始信息中提取生日日期；

或，

信息提取模块790，被配置为将原始信息的接收日期提取为生日日期。

本实施例提供的类型识别装置，还通过在预测出原始信息属于目标类别后，从原始信息中提取目标信息，实现对生日日期、出行日期之类的目标信息的提取，为后续自动生成提醒事项、日历标记等功能提供数据支持。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开一示例性实施例提供了一种分类器训练装置，能够实现本公开提供的分类器训练方法，该分类器训练装置包括：处理器、用于存储处理器可执行指令的存储器；其中，处理器被配置为：

从样本信息中提取携带有目标关键字的样本分句；

根据指定特征集合中的特征词构建分类器；

根据样本训练集中的二值标注结果对分类器进行训练。

本公开一示例性实施例提供了一种类型识别装置，能够实现本公开提供的类型识别方法，该类型识别装置包括：处理器、用于存储处理器可执行指令的存储器；其中，处理器被配置为：

从原始信息中提取携带有目标关键字的分句；

图9是根据一示例性实施例示出的一种用分类器训练装置或类型识别装置的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器918来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述分类器训练方法或类型识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器918执行以完成上述分类器训练方法或类型识别方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种分类器训练方法，其特征在于，所述方法包括：

从样本信息中提取携带有目标关键字的样本分句；

根据每条所述样本分句是否属于目标类别，对所述样本分句进行二值标注，得到样本训练集；

对所述样本训练集中的每个所述样本分句进行分词，得到若干个词语；

从所述若干个词语中提取出指定特征集合，所述指定特征集合包括至少一个特征词；

根据所述指定特征集合中的所述特征词构建分类器；

根据所述样本训练集中的二值标注结果对所述分类器进行训练。
根据权利要求1所述的方法，其特征在于，所述从所述若干个词语中提取出指定特征集合，包括：

根据卡方检验从所述若干个词语中提取出所述指定特征集合；

或，

根据信息增益从所述若干个词语中提取出所述指定特征集合。
根据权利要求1所述的方法，其特征在于，所述根据所述指定特征集合中的所述特征词构建所述分类器，包括：

将所述指定特征集合中的所述特征词构建朴素贝叶斯分类器，各个特征词在所述朴素贝叶斯分类器中互相独立。
根据权利要求3所述的方法，其特征在于，所述根据所述样本训练集中的二值标注结果对所述分类器进行训练，包括：

对于所述朴素贝叶斯分类器中的每个所述特征词，根据所述样本训练集中的二值标注结果，统计出携带有所述特征词的分句属于所述目标类别的第一条件概率，和，携带有所述特征词的分句不属于所述目标类别的第二条件概率；

根据各个所述特征词、所述第一条件概率和所述第二条件概率，得到训练后的所述朴素贝叶斯分类器。
一种类型识别方法，其特征在于，所述方法包括：

从原始信息中提取携带有目标关键字的分句；

根据提取出的所述分句中属于指定特征集合的特征词，生成所述原始信息的特征集合，所述指定特征集合中的特征词是根据携带有所述目标关键词的样本分句的分词结果所提取得到的；

将所述原始信息的特征集合输入训练后的分类器中进行预测，所述分类器是预先根据所述指定特征集合中的所述特征词构建的分类器；

获取所述分类器的预测结果，所述预测结果表征所述原始信息属于所述目标类别或不属于所述目标类别。
根据权利要求5所述的方法，其特征在于，所述将所述原始信息的特征集合输入训练后的分类器中进行预测，包括：

将所述原始信息的特征集合中的每个特征词，输入训练后的朴素贝叶斯分类器中，计算所述原始信息属于所述目标类别的第一预测概率和所述原始信息不属于所述目标类别的第二预测概率；

根据所述第一预测概率和所述第二预测概率的大小关系，预测所述原始信息是否属于所述目标类别；

其中，所述训练后的朴素贝叶斯分类器中包括每个特征词的第一条件概率和第二条件概率，所述第一条件概率是携带有所述特征词的分句属于所述目标类别的概率，所述第二条件概率是携带有所述特征词的分句不属于所述目标类别的概率。
根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

若预测出所述原始信息属于所述目标类别，则从所述原始信息中提取目标信息。
根据权利要求7所述的方法，其特征在于，所述目标信息是生日日期；

所述从所述原始信息中提取目标信息，包括：

通过正则表达式从所述原始信息中提取所述生日日期；

或，

将所述原始信息的接收日期提取为所述生日日期。
一种分类器训练装置，其特征在于，所述装置包括：

分句提取模块，被配置为从样本信息中提取携带有目标关键字的样本分句；

分句标注模块，被配置为根据每条所述样本分句是否属于目标类别，对所述样本分句进行二值标注，得到样本训练集；

分句分词模块，被配置为对所述样本训练集中的每个所述样本分句进行分词，得到若干个词语；

特征词提取模块，被配置为从所述若干个词语中提取出指定特征集合，所述指定特征集合包括至少一个特征词；

分类器构建模块，被配置为根据所述指定特征集合中的所述特征词构建分类器；

分类器训练模块，被配置为根据所述样本训练集中的二值标注结果对所述分类器进行训练。
根据权利要求9所述的装置，其特征在于，

所述特征词提取模块，被配置为根据卡方检验从所述若干个词语中提取出所述指定特征集合；

或，

所述特征词提取模块，被配置为根据信息增益从所述若干个词语中提取出所述指定特征集合。
根据权利要求9所述的装置，其特征在于，

所述分类器构建模块，被配置为将所述指定特征集合中的所述特征词构建朴素贝叶斯分类器，各个特征词在所述朴素贝叶斯分类器中互相独立。
根据权利要求11所述的装置，其特征在于，所述分类器训练模块，包括：

统计子模块，被配置为对于所述朴素贝叶斯分类器中的每个所述特征词，根据所述样本训练集中的二值标注结果，统计出携带有所述特征词的分句属于所述目标类别的第一条件概率，和，携带有所述特征词的分句不属于所述目标类别的第二条件概率；

训练子模块，被配置为根据各个所述特征词、所述第一条件概率和所述第二条件概率，得到训练后的所述朴素贝叶斯分类器。
一种类型识别装置，其特征在于，所述装置包括：

原始提取模块，被配置为从原始信息中提取携带有目标关键字的分句；

特征提取模块，被配置为根据提取出的所述分句中属于指定特征集合的特征词，生成所述原始信息的特征集合，所述指定特征集合中的特征词是根据携带有所述目标关键词的样本分句的分词结果所提取得到的；

特征输入模块，被配置为将所述原始信息的特征集合输入训练后的分类器中进行预测，所述分类器是预先根据所述指定特征集合中的所述特征词构建的分类器；

结果获取模块，被配置为获取所述分类器的预测结果，所述预测结果表征所述原始信息属于所述目标类别或不属于所述目标类别。
根据权利要求13所述的装置，其特征在于，所述特征输入模块，包括：

计算子模块，被配置为将所述原始信息的特征集合中的每个特征词，输入训练后的朴素贝叶斯分类器中，计算所述原始信息属于所述目标类别的第一预测概率和所述原始信息不属于所述目标类别的第二预测概率；

预测子模块，被配置为根据所述第一预测概率和所述第二预测概率的大小关系，预测所述原始信息是否属于所述目标类别；

其中，所述训练后的朴素贝叶斯分类器中包括每个特征词的第一条件概率和第二条件概率，所述第一条件概率是携带有所述特征词的分句属于所述目标类别的概率，所述第二条件概率是携带有所述特征词的分句不属于所述目标类别的概率。
根据权利要求13或14所述的装置，其特征在于，所述装置还包括：

信息提取模块，被配置为在预测出所述原始信息属于所述目标类别时，从所述原始信息中提取目标信息。
根据权利要求15所述的装置，其特征在于，所述目标信息是生日日期；

所述信息提取模块，被配置为通过正则表达式从所述原始信息中提取所述生日日期；

或，

所述信息提取模块，被配置为将所述原始信息的接收日期提取为所述生日日期。
一种分类器训练装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

从样本信息中提取携带有目标关键字的样本分句；

根据每条所述样本分句是否属于目标类别，对所述样本分句进行二值标注，得到样本训练集；

对所述样本训练集中的每个所述样本分句进行分词，得到若干个词语；

从所述若干个词语中提取出指定特征集合，所述指定特征集合包括至少一个特征词；

根据所述指定特征集合中的所述特征词构建分类器；

根据所述样本训练集中的二值标注结果对所述分类器进行训练。
一种类型识别装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

从原始信息中提取携带有目标关键字的分句；

根据提取出的所述分句中属于指定特征集合的特征词，生成所述原始信息的特征集合，所述指定特征集合中的特征词是根据携带有所述目标关键词的样本分句的分词结果所提取得到的；

将所述原始信息的特征集合输入训练后的分类器中进行预测，所述分类器是预先根据所述指定特征集合中的所述特征词构建的分类器；

获取所述分类器的预测结果，所述预测结果表征所述原始信息属于所述目标类别或不属于所述目标类别。